JP6703460B2 - 音声処理装置、音声処理方法及び音声処理プログラム - Google Patents

音声処理装置、音声処理方法及び音声処理プログラム Download PDF

Info

Publication number
JP6703460B2
JP6703460B2 JP2016164608A JP2016164608A JP6703460B2 JP 6703460 B2 JP6703460 B2 JP 6703460B2 JP 2016164608 A JP2016164608 A JP 2016164608A JP 2016164608 A JP2016164608 A JP 2016164608A JP 6703460 B2 JP6703460 B2 JP 6703460B2
Authority
JP
Japan
Prior art keywords
component
unit
arrival
voice
statistic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016164608A
Other languages
English (en)
Other versions
JP2018031909A (ja
Inventor
ランディ ゴメス
ランディ ゴメス
一博 中臺
一博 中臺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2016164608A priority Critical patent/JP6703460B2/ja
Priority to US15/623,807 priority patent/US10283115B2/en
Publication of JP2018031909A publication Critical patent/JP2018031909A/ja
Application granted granted Critical
Publication of JP6703460B2 publication Critical patent/JP6703460B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声処理装置、音声処理方法及び音声処理プログラムに関する。
室内において話者が発話した音声は、壁面や設置物で反射して反射音を生じる。室内に設置された音声認識装置には、話者から直接到達した直接音に反射音が付加された音声が収音される。このような反射音は、音声認識率の低下の一因となりうる。音声認識において、予め室内環境を考慮して生成された音響モデルを用いることが提案されていた。しかしながら、室内環境に応じた音響モデルを作成するには、室内において多量の音声データを予め収集しておく必要があるため、多くの時間や作業量が費やされる。
音声認識における認識率の向上を目的として、その前処理として残響抑圧処理が提案されている。例えば、特許文献1には、複数の音響信号のうち少なくとも一つの音響信号を所定の遅延時間だけ遅らせた遅延付加済信号を生成する遅延付加手段と、遅延付加済信号を用いて残響抑圧処理を行う残響抑圧処理を行う残響抑圧処理手段と、音響信号に基づいて音源方向を推定する音源方向推定手段とを備え、遅延付加手段は、音響信号を収集する複数の収音装置の間の距離と、推定された音源方向とに基づいて遅延時間を算出することを特徴とする残響抑圧装置について記載されている。
特許第5530741号公報
残響抑圧処理によって抑圧される反射音成分は、室内の音響環境を表す情報であるが、音声認識処理において不要な成分として無視されることがあった。他方、音声認識装置はロボット等にも実装されることがあり、その移動によって観測される主な反射音の到来方向が変化する。このような音響環境の変化は、音声認識精度の低下の一因となっていた。
本発明は上記の点に鑑みてなされたものであり、本発明の課題は、音響環境の変化によらず音声認識精度を確保できる音声処理装置、音声処理方法及び音声処理プログラムを提供することである。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、複数チャネルの音声信号を到来方向毎の到来成分に分離する分離部と、所定の統計量と音声認識モデルを到来方向毎に記憶した記憶部と、前記到来成分が音源からの直接音成分か反射音成分か、を判定する直接音判定部と、前記直接音成分と前記反射音成分のそれぞれに対応する統計量を前記記憶部から選択する選択部と、前記選択部が選択した統計量に基づいて前記到来方向毎の音声認識モデルを更新する更新部と、前記直接音成分の音声認識モデルを用いて、前記直接音成分を用いて更新された音声を認識する音声認識部と、を備える音声処理装置である。
(2)本発明の他の態様は、(1)の音声処理装置であって、前記統計量は、前記音声認識モデルの少なくとも一部のパラメータと同種のパラメータであり、前記到来成分に対する尤度が高くなるように算出した統計量を前記記憶部に記憶する生成部、を備える。
(3)本発明の他の態様は、(2)の音声処理装置であって、前記音声認識モデルは、音響特徴量の出力確率を複数のガウス関数の線形結合として表すモデルであり、前記統計量は、ガウス関数の混合重み、平均値及び分散であり、前記更新部は、前記到来成分に対する尤度を高くするように前記音声認識モデルのガウス関数の平均値と分散を更新する。
(4)本発明の他の態様は、(1)から(3)のいずれかの音声処理装置であって、前記分離部が分離した到来成分から所定のフィルタ係数を用いて残響除去成分を生成し、前記残響除去成分のパワーと、有音区間における前記到来成分及び無音区間における前記到来成分に基づいて推定された残響除去成分のパワーとの差が小さくなるように前記フィルタ係数を算出する残響除去部、を備える。
(5)本発明の他の態様は、(1)から(4)のいずれかの音声処理装置であって、前記直接音判定部は、撮像部が撮像した画像に表される口の方向から話者方向を推定し、推定した話者方向との差が最も小さい到来方向に係る到来成分を直接音成分と判定し、それ以外の到来方向に係る到来成分を反射音成分として判定する音声処理装置である。
(6)本発明の他の態様は、(1)から(4)のいずれかの音声処理装置であって、前記直接音判定部は、前記到来成分の相互間の相関係数が所定の閾値以上である到来成分のうち最も先行する到来成分を直接音成分と判定し、それ以外の到来方向に係る到来成分を反射音成分として判定する音声処理装置である。
(7)本発明の他の態様は、音声処理装置における音声処理方法であって、複数チャネルの音声信号を到来方向毎の到来成分に分離する分離過程と、前記到来成分が音源からの直接音成分か反射音成分か、を判定する直接音判定部と、前記直接音成分と前記反射音成分のそれぞれに対応する統計量を、所定の統計量と音声認識モデルを到来方向毎に記憶した記憶部から選択する選択過程と、前記選択過程で選択された統計量に基づいて前記到来方向毎の音声認識モデルを更新する更新過程と、前記直接音成分の音声認識モデルを用いて、前記直接音成分を用いて更新された音声を認識する音声認識過程と、を有する音声処理方法である。
(8)本発明の他の態様は、コンピュータに、複数チャネルの音声信号を到来方向毎の到来成分に分離する分離過程、前記到来成分が音源からの直接音成分か反射音成分か、を判定する直接音判定過程、前記直接音成分と前記反射音成分のそれぞれに対応する統計量を、所定の統計量と音声認識モデルを到来方向毎に記憶した記憶部から選択する選択過程、前記選択過程で選択された統計量に基づいて前記到来方向毎の音声認識モデルを更新する更新過程、前記直接音成分を用いて更新された音声認識モデルを用いて、前記直接音成分の音声を認識する音声認識過程、を実行させるための音声処理プログラムである。
上述した(1)、(7)又は(8)の構成によれば、到来成分の到来方向に対応する統計量に基づいて更新された音声認識モデルを用いて、その到来成分の音声の発話内容が認識される。そのため、音源と収音部15との位置関係による音響環境の変化による音声認識精度の低下が抑制される。また、種々の到来成分のうち音源から直接到来する直接音成分の音声が認識される。音声認識精度の低下の一因となりうる反射音成分が認識対象から除外されるので、音声認識精度の低下がさらに抑制される。
上述した(2)の構成によれば、音源と複数チャネルの音声信号を取得する収音部が設置される音響環境により異なる到来成分に対して尤度を高くするパラメータが統計量として取得され、その到来成分の到来方向と対応付けてモデル記憶部122に記憶される。そのため、音声認識精度の低下が抑制されるとともに、音声認識モデルの全てのパラメータを音声認識と並列して更新するよりも演算量や処理時間が低減する。
上述した(3)の構成によれば、到来成分による音響特徴量に応じた出力確率の変動を有効に説明できるパラメータとしてガウス関数の平均値と分散が更新される。そのため、音声認識精度の低下が抑制されるとともに、音声認識モデルの更新における演算量や処理時間が低減する。
上述した(4)の構成によれば、無音区間における到来成分を残響成分とみなし、有音区間における到来成分から残響成分を除去して得られる残響除去成分に、到来成分からフィルタ係数を用いて生成される残響除去成分が近似されるようにフィルタ係数が算出される。そのため、到来成分について算出されたフィルタ係数を用いて生成された残響成分として音声成分が得られ、得られた音声成分の音声が認識される。音声認識精度の低下の一因となる残響成分が除去された音声が逐次に認識対象として得られるので、音声認識精度の低下がさらに抑制される。
第1の実施形態に係る音声処理システムの構成例を示すブロック図である。 直接音と反射音の例を示す模式図である。 第1の実施形態に係る音声処理の例を示すフローチャートである。 第2の実施形態に係る音声処理システムの構成例を示すブロック図である。 第2の実施形態に係る対話データの例を示す図である。 第2の実施形態に係る収音部の構成例を示す平面図である。 実験に用いられた実験室の例を示す平面図である。 処理方法毎の単語認識率の一例を示す図である。 処理方法毎の単語認識率の他の例を示す図である。
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音声処理システム1の構成例を示すブロック図である。
音声処理システム1は、音声処理装置10及び収音部15を含んで構成される。
音声処理装置10は、収音部15から入力された音声信号を収音部15への到来方向毎の到来成分を示す到来成分信号に分離し、分離された到来成分信号に対応する統計量を、到来方向毎の統計量を有する音声認識モデルを記憶した記憶部から選択する。そして、音声処理装置10は、選択した統計量を用いて音声認識モデルを更新し、更新した音声認識モデルを用いて到来成分のうち直接音の成分について音声認識処理を行う。
到来方向が識別される到来成分には、直接音と反射音とが含まれる。直接音とは、音源から直接到来する音の成分である。反射音とは、音源から放射される音のうち壁面などの反射物の表面において反射して到来する音の成分である。図2に示す例では、収音部15に到来する直接音Dtの到来方向は、収音部15を基準とする話者Hsの方向となる。収音部15に主に到来する反射音Ph,…,Ph,…,Phの到来方向は、それらの反射音を発生させる反射面の方向となる。従って、反射音の到来方向は、一般に直接音Dtの到来方向とは異なる。以下に説明する例では、反射成分による到来方向の違いが利用される。なお、時間経過により複数の反射成分が重なり合い個々の反射成分やその到来方向が区別できなくなった成分が残響に相当する。
図1に戻り、収音部15は、N(Nは2以上の整数)チャネルの音声信号を収音し、収音した音声信号を音声処理装置10に送信する。収音部15は、例えば、収音素子としてN個の電気音響変換素子を備え、それらが配置されてなるマイクロホンアレイである。個々の電気音響変換素子は、1チャネルの音声信号を収録する。収音部15は、収録した音声信号を無線で送信してもよいし、有線で送信してもよい。収音部15の位置は、固定されていてもよいし、車両、航空機、ロボット等の移動体に設置され、移動が可能であってもよい。収音部15は、音声処理装置10と一体化されていてもよいし、別体であってもよい。
次に、音声処理装置10の構成について説明する。
音声処理装置10は、アレイ処理部110、モデル生成部121、モデル記憶部122、統計量選択部123、モデル更新部124及び音声認識部130を含んで構成される。
アレイ処理部110は、収音部15から入力されるΦ(Φは、2以上の整数)チャネルの音声信号から音声認識処理又は音声認識モデルの生成、学習に用いる到来成分信号を取得する。アレイ処理部110は、音源定位部111、音源分離部112、音声強調部113及び直接音判定部114を含んで構成される。
音源定位部111は、収音部15から入力されるΦチャネルの音声信号について予め定めた期間(例えば、50ms)毎に所定の音源定位処理を行い、K(Kは、2以上であってΦよりも小さい整数)個の到来方向を推定する。到来方向は、到来成分が到来する方向である。所定の音源定位処理は、例えば、MUSIC法(Multiple Signal Classification)である。音源定位部111は、Φチャネルの音声信号と推定した到来方向を示す到来方向信号を対応付けて音源分離部112に出力する。MUSIC法による到来方向の推定の具体例については、後述する。
音源分離部112は、音源定位部111から入力されるΦチャネルの音声信号から所定のブラインド音源分離処理(BSS:Blind Source Separation)を行って到来方向信号が示すK個の到来方向それぞれの到来成分を示す到来成分信号に分離する。到来成分信号は、それぞれ対応する到来方向からの到来成分を示す音声信号である。所定のブラインド音源分離処理は、例えば、GHDSS(Geometric−constrained High−order Decorrelation−based Source Separation)法である。音源分離部112は、分離した到来方向毎の到来成分信号を音声強調部113に出力する。音源分離部112は、入力された到来方向信号を音声強調部113に出力してもよい。GHDSS法による音源分離の具体例については、後述する。
音声強調部113は、音源分離部112から入力される到来成分信号が示す到来方向毎の到来成分に含まれている残響成分を所定の残響抑圧法を用いて抑圧する。残響成分の抑圧により、到来成分に含まれている音声成分が強調される。所定の残響抑圧法は、例えば、ウィーナフィルタリング(Wiener Filtering)法である。音声強調部113は、動作モードがランタイムモード(Run−time Mode)である場合、残響成分を抑圧した到来方向毎の到来成分信号を統計量選択部123に出力する。ランタイムモードとは、音声認識処理を実行する動作モードである。音声強調部113は、動作モードが学習モード(Training Mode)である場合、到来方向毎の到来成分信号をモデル生成部121に出力する。学習モードとは、音声認識処理を行わずに、音声認識モデルを構成する統計量や音声認識モデルの更新に用いられる統計量を算出する動作モードである。従って、ランタイムモードにおいては、後述するように到来成分のうち直接音成分が音声認識に用いられる。他方、学習モードにおいては、直接音成分も反射音成分も統計量の算出に用いられる。ウィーナフィルタリング法による残響成分の抑圧の具体例については後述する。なお、音声強調部113は、音源分離部112から入力される到来方向信号を直接音判定部114に出力してもよい。
直接音判定部114は、音声強調部113から入力された到来成分信号が示す到来成分が直接音成分を示す到来成分信号であるか、反射音成分を示す到来成分信号であるかを到来方向毎に判定する。直接音判定部114は、直接音成分を示す到来成分信号を統計量選択部123に出力する。直接音判定部114は、音声強調部113から入力される到来方向信号を統計量選択部123に出力してもよい。直接音成分の判定の具体例については、後述する。
モデル生成部121は、音響モデルを更新するための統計量を到来成分毎に算出する。音響モデルは、音声認識に用いられる音声認識モデルのうち、処理対象の音声信号から得られる音響特徴量と認識される音素との関係を表す統計モデルである。音響モデルは、例えば、ガウシアン混合モデル(GMM:Gaussian Mixture Model)に基づく隠れマルコフモデル(HMM:Hidden Markov Model)である。GMMは、処理対象の音声信号から算出された音響特徴量に対する、ある発話状態における出力確率を複数(例えば、128〜512個)の多次元ガウス関数を基底として線形結合により得られた値をもって表す統計モデルである。ガウス関数の次元数が、ベクトル量である音響特徴量の次元数に相当する。GMMのモデルパラメータとして出力確率を算出する際の個々のガウス関数の寄与を表す混合重み(mixture weight)と、個々のガウス関数の特徴を表す平均値(mean)及び共分散行列(covariance matrix)といったパラメータが含まれる。以下の説明では、共分散行列を単に分散と呼ぶこともある。これに対し、混合重み、平均値は、それぞれスカラー量、ベクトル量である。GMMは、音響特徴量の時系列に基づいて音源の種別を判定するために用いられることがある。HMMのモデルパラメータは、GMMのモデルパラメータと同種のモデルパラメータと、発話状態間の遷移確率を示す遷移確率(transition probalility)をさらに含む。モデル生成部121は、統計量の一例として各基底の混合重み、平均値、及び分散を到来成分毎に算出する。到来成分毎のモデルパラメータは、各発話状態における各基底の累積混合要素占有度、平均値及び分散に基づいて導出されうる。より具体的には、到来成分毎の混合重みの更新量は、その到来成分に係る基底間の累積混合要素占有度の総和で正規化された算出対象の基底の累積混合要素占有度に相当する。到来成分毎の平均値は、その到来成分における算出対象の基底の累積混合要素占有度で正規化されたその基底の平均値に相当する。到来成分毎の分散は、算出対象の基底の累積混合要素占有度で正規化されたその基底の分散(行列)からその基底の平均値とその平均値の転置ベクトルとの積(行列)を差し引いて得られる行列となる。なお、モデル生成部121は、統計量として、さらに各基底の遷移確率を算出してもよい。到来成分毎の各基底の遷移確率は、算出対象の遷移元状態から遷移先状態への状態遷移占有度の遷移先状態間の総和で正規化された、その遷移元状態から算出対象の遷移先状態への状態遷移占有度となる。統計量の算出において所定の基底として、例えば、クリーン音声を用いて学習されたHMMを構成する基底が利用可能である。累積混合要素占有度は、状態及び基底のセット毎の出現頻度として与えられる。状態遷移占有度は、遷移元状態から遷移先状態の組と基底のセット毎の出現頻度として与えられる。
混合重み、平均値及び分散を導出する処理については、例えば、次の文献に記載されている。
Gomez R.,Nakamura K.,Mizumoto T. and Nakadai K.,“Compensating changes in speaker position for improved voise−based human−robot communication”,Proceedings of IEEE/RAS Humanoids,2015
学習モードにおいては、音声処理装置10が設置される室内において多数の音源位置から発話された音を学習データセットとして予め準備しておく。到来成分の総数Qは、一度に検出される反射音成分の数Mよりも十分に大きい。モデル生成部121は、それぞれの音源位置からの音に基づく到来成分q毎の到来成分信号に基づいて、尤度がより高くなる音響モデルを与える統計量を算出する。モデル生成部121は、例えば、式(1)に示すように到来成分q毎に音響モデルλを用いて算出される尤度の期待値Lが最大となる音響モデルλ’を与える統計量を算出する。以下の説明では、音響モデル又はその統計量について、尤度の期待値Lを、単に尤度Lと呼ぶことがある。
Figure 0006703460
式(1)において、o は、到来成分qに係る到来成分信号から算出される第r発話における音響特徴量を示す。つまり、到来成分qに係る発話毎に音響モデルλを用いて算出される尤度の合計もしくは平均値が最大化されるように統計量が算出される。統計量の算出において、直接音成分と各到来方向の反射音成分がそれぞれ用いられる。モデル生成部121は、到来成分q毎に算出した統計量Φ(α)として、累積混合要素占有度γib (q)、平均値mib (q)(ベクトル)、分散vib (q)(行列)のセットをモデル記憶部122に記憶する。ここで、i、bは、それぞれ第i発話状態、第bの基底を示す。モデル生成部121は、統計量Φ(α)に、さらに到来成分qに係る到来方向αを対応付けてモデル記憶部122に記憶してもよい。
モデル記憶部122には、到来成分q毎の統計量Φ(α)が記憶される。また、モデル記憶部122には、クリーン音声に基づいて尤度が最大となるように生成された音響モデルと言語モデルとを予め記憶させておく。言語モデルは、音声認識モデルのうち、音素列の制約と音素列毎の出現確率を表す統計モデルである。言語モデルは、例えば、Nグラム(N−gram)である。
統計量選択部123は、モデル記憶部122に記憶された統計量のうち、直接音判定部114から入力される到来成分信号に係る到来方向に最も近似した到来方向からQopt個の到来方向αに係る統計量Φ(α)を選択する。Qoptは、Qよりも十分に小さい所定の正の整数である。Qoptは、K以下であり、例えば、1〜3である。Qoptが1であることは、直接音成分として判定された到来成分に係る統計量が選択され、反射音成分として判定された到来成分に係る統計量が選択されないことに相当する。統計量選択部123は、統計量Φ(α)を選択する際、例えば、尤度に基づく手法を用いる。より具体的には、統計量選択部123は、個々の統計量Φ(α)から音響モデルの一種であるHMMλ(後述)を導出し、導出したHMMλに基づいて、到来成分信号から算出される音響特徴量oに対する尤度L(o|λ)を算出する。統計量選択部123は、算出されたQ個の尤度L(o|λ)のうち、最大となる尤度から第Qopt番目に高い尤度を与えるQopt個のHMMλを特定し、特定したHMMλのそれぞれに基づくQopt個の統計量Φ(α)を選択する。
上述した統計量の選択法については、例えば、次の文献に記載されている。
Gomez,R.,Kawahara,T.and Nakadai,K.,“Optimized wavelet−domain filtering under noisy and reverberant condition”,Proceedings on Transactions on Signal and Processing,2015
統計量選択部123は、統計量Φ(α)を選択する際、到来成分信号に係る到来方向を、直接音判定部114から入力された到来方向信号を参照して特定し、特定した到来方向に最も近似する到来方向からQopt個の到来方向αのそれぞれに対応付けて記憶された統計量Φ(α)を選択してもよい。統計量選択部123が、統計量Φ(α)を選択する区間は、到来成分信号について有音判定処理(後述)を行って有音と判定された区間に限られてもよい。また、統計量選択部123が統計量Φ(α)を選択する頻度は、音源定位、音源分離及び音声強調における頻度(例えば、10〜50ms毎)よりも低くてもよい。その頻度は、例えば、100ms〜1s、1回の発話毎などであってもよい。統計量選択部123は、選択したQopt個の統計量Φ(α)をモデル更新部124に出力し、入力された到来方向信号を音声認識部130に出力する。
モデル更新部124は、統計量選択部123から選択された統計量Φ(α)を用いて、モデル記憶部122に記憶されたクリーン音声に基づいて生成された音響モデルを更新する。モデル更新部124は、更新された音響モデルを用いて、この統計量Φ(α)の選択に用いられた到来方向信号について算出される尤度Lの期待値がより高くなるように音響モデルを更新する。モデル更新部124は、音響モデルを更新する際、例えば、最大尤度線形回帰法(MLLR:Maximum Likelihood Linear Regression)を用いることができる。モデル更新部124は、更新した音響モデルを音声認識部130に出力する。音響モデルの更新の具体例については、後述する。
音声認識部130は、統計量選択部123から入力された到来成分信号についてモデル更新部124から入力された音響モデルと、モデル記憶部122から読み出した言語モデルを用いて音声認識処理を行う。統計量の選択に用いられた到来成分信号について、その統計量を用いて更新された音響モデルを用いて発話内容を示す音素列が推定される。ここで、音声認識部130は、所定の時間(例えば、10ms)毎に音響特徴量を算出し、算出した音響特徴量についてモデル更新部124から入力された音響モデルを用いて可能性がある音素列毎に第1の尤度を算出し、第1の尤度の降順に所定の個数の音素列の候補を定める。そして、音声認識部130は、音素列の候補毎に言語モデルを用いて、当該音素列で表される文の候補毎の第2尤度を算出する。音声認識部130は、第1尤度と第2尤度とを合成して得られる総合尤度が最も高い文を認識結果として定める。
(到来方向の推定)
次に、到来方向の一推定法であるMUSIC法について説明する。
音源定位部111は、予め所定の方向間隔(例えば、1〜5°)に分布した音源方向毎の伝達関数が記憶されている記憶部を備える。音源定位部111は、収音部15の位置を基準とする方向αに設置された音源から各チャネルφ(φは、1以上Φ以下の整数)の収音素子までの伝達関数を要素とする伝達関数ベクトルA(ω,α)を生成する。ωは、周波数を示す。
他方、音源定位部111は、各チャネルφ(φは、1以上Φ以下の整数)の音声信号について所定のサンプル数からなるサブフレーム(例えば、10〜20ms)毎に短時間フーリエ変換(STFT:Short Time Fourier Transform)を行って周波数領域の変換係数を算出する。音源定位部111は、算出した変換係数のチャネル間の相関係数の所定のフレーム期間(例えば、50〜100ms)内の時間平均値を算出し、算出した時間平均値を要素値とする入力相関行列X(ω,f)を生成する。入力相関行列は、Φ行Φ列の行列であり、要素値が配置される行、列は、それぞれ1つのチャネルと他のチャネルとに対応する。fは、フレームを示すインデックスである。
音源定位部111は、生成した入力相関行列X(ω,f)について固有値展開を行い、Φ個の固有ベクトルe(ω,f),…,eΦ(ω,f)を算出する。ここで、固有ベクトルe(ω,f),…,eΦ(ω,f)の順序1,…,Φは、対応する固有値の降順である。音源定位部111は、音源方向、つまり到来方向α毎に伝達関数ベクトルA(ω,α)と第K+1〜第Φ固有ベクトルに基づいて空間スペクトルP(ω,α,f)を算出する。空間スペクトルP(ω,α,f)は、式(2)で表される。
Figure 0006703460
音源定位部111は、例えば、パワーが所定の閾値よりも大きい周波数帯域における空間スペクトルP(ω,α,f)の周波数間の総和を拡張空間スペクトルPext(ω,α,f)として算出する。音源定位部111は、算出した拡張空間スペクトルPext(ω,α,f)が所定の閾値を超え、かつ極大値を与える到来方向αを、その極大値の降順に最大K個選択する。拡張空間スペクトルPext(ω,α,f)の極大値は、その閾値を超えないこともあるので、選択される到来方向の個数は、K−1個であることや、到来方向が特定されないこともある。
なお、音源定位部111は、MUSIC法に代えて、その他の手法を用いて音源方向を算出してもよい。音源定位部111は、例えば、一般化固有値分解(GEVD:Generalized Eigenvalue)−MUSIC法、一般化特異値分解(Generalized Singular Value Decomposition;GSVD−)MUSIC法、重み付き遅延和ビームフォーミング法(WDS−BF:Weighted Delay and Sum Beam Forming)、等を用いてもよい。
(音源分離)
次に、音源分離の一手法であるGHDSS法について説明する。
GHDSS法は、2つのコスト関数(cost function)として、分離尖鋭度(Separation Sharpness)JSS(Ω(ω,f))と幾何制約度(Geometric Constraint)JGC(Ω(ω,f))が、それぞれ減少するように分離行列Ω(ω,f)を適応的に算出する方法である。分離行列Ω(ω)は、音源定位部111から入力されたΦチャネルの音声信号の変換係数ベクトルx(ω,f)に乗じることによって、Lチャネルの到来成分毎の変換係数ベクトルである推定値ベクトルu(ω)を算出するために用いられる行列である。
分離尖鋭度JSS(Ω(ω,f))、幾何制約度JGC(Ω(ω,f))は、それぞれ、式(3)、(4)で表される。
Figure 0006703460
Figure 0006703460
式(3)、(4)において、||…||は、行列…のフロベニウスノルム(Frobenius norm)である。フロベニウスノルムとは、行列を構成する各要素値の二乗和(スカラー値)である。φ(u(ω,f))は、推定値ベクトルu(ω,f)の非線形関数、例えば、双曲線正接関数(hyperbolic tangent function)である。[…]は、行列又はベクトルの共役転置(conjugate transpose)を示す。diag[…]は、行列…の対角成分の総和を示す。従って、分離尖鋭度JSS(Ω(ω)])は、到来成分(推定値)のスペクトルのチャネル間非対角成分の大きさ、つまり、ある1つの到来成分が他の到来成分として誤って分離される度合いを表す指標値である。
式(4)において、Iは、単位行列を示す。従って、幾何制約度JGC(Ω(ω,f))とは、到来成分(推定値)のスペクトルと到来成分(音源)のスペクトルとの誤差の度合いを表す指標値である。
そして、音源分離部112は、式(5)に示すように、音源定位部111から入力されたΦチャネルの音声信号の変換係数ベクトルx(ω,f)に分離行列Ω(ω,f)を乗じて、K個の到来成分それぞれの変換係数を要素として有する推定値ベクトルu(ω)を算出する。
Figure 0006703460
なお、音源分離部112は、GHDSS法に代えて、その他の手法を用いて到来成分毎の到来成分信号を取得してもよい。音源分離部112は、例えば、独立成分分析法(ICA:Independent Component Analysis)、無相関音源分離法(Decorrelation−based Source Separation)、等を用いてもよい。
(残響抑圧)
次に、残響抑圧の一手法であるウィーナフィルタリング法について説明する。
ウィーナフィルタリング法では、残響成分と、残響成分が抑圧された到来成分信号(以下、残響抑圧信号)との相関がないものと仮定して、フィルタリングされた残響成分が付加された到来成分信号(残響付加信号)と残響抑圧信号との平均二乗誤差を最小にする線形フィルタを形成する処理である。この線形フィルタは、ウィーナ利得(Wiener Gain)とも呼ばれる。算出されたウィーナ利得は、残響付加信号をフィルタリングして残響除去信号を生成するために用いられる。
ここで、音声処理装置10は、到来方向毎に到来成分信号について有音判定処理(VAD:Voice Activity Detection)を行う有音判定部(図示せず)を備える。有音判定処理は、到来成分信号が音声を含むか否かを判定する処理である。有音判定処理は、例えば、到来成分信号のパワーが予め定めた閾値よりも高く、かつ、零交差数(number of zero crossings)が予め定めた範囲(例えば、1秒当たり100〜200回よりも多い)場合に有音と判定し、それ以外の場合、無音と判定する処理である。零交差数とは、時間領域の信号値が単位時間当たりに零を交差する回数、つまり、信号値が負値から正値、又は正値から負値に変化する回数である。
音声強調部113は、到来方向毎の到来成分信号の変換係数s(ω,f)についてウェーブレット変換(wavelet transform)を行ってウェーブレット係数(wavelet coefficient)S’(v,τ)を算出する。kは、個々の到来成分を示す。vは、スケーリングパラメータ(scaling parameter)を示す。スケーリングパラメータとは、ウェーブレット変換に用いられる基底の特徴を示す係数である。τは、シフトパラメータ(shift parameter)を示す。シフトパラメータは、ウェーブレット変換において演算に用いる基底のシフト(ずれ)量を示す係数である。そして、音声強調部113は、式(6)に示すように、到来成分信号のウェーブレット係数S’(v,τ)と残響成分のウェーブレット係数R(v,τ)の二乗和に対する、到来成分信号のウェーブレット係数S’(v,τ)の二乗値の比をウィーナゲインκとして算出する。ここで、到来成分信号のウェーブレット係数S’(v,τ)として、有音と判定された到来成分信号のウェーブレット係数が用いられ、残響成分のウェーブレット係数R(v,τ)として、無音と判定された到来成分信号のウェーブレット係数が用いられる。
Figure 0006703460
そして、音声強調部113は、ウェーブレット係数S’(v,τ)にウィーナゲインκを乗じて残響抑圧信号の推定値のウェーブレット係数E(v,τ)を算出する。音声強調部113は、算出したウェーブレット係数E(v,τ)について逆ウェーブレット変換を行って残響抑圧信号の変換係数E(ω,f)を、残響成分を抑圧した残響抑圧信号の変換係数として算出する。さらに、音声強調部113は、残響抑圧信号の変換係数について短時間逆フーリエ変換を行うことにより残響抑圧信号、つまり残響成分が抑圧された到来成分信号を生成する。
なお、音声強調部113は、ウィーナフィルタリング法に代えて、その他の手法を用いて残響成分を抑圧してもよい。音声強調部113は、例えば、スペクトラルサブトラクション法、等を用いてもよい。
(直接音成分の判定)
次に、直接音判定部114が直接音成分を示す到来成分信号を判定する手法について説明する。直接音判定部114は、撮像部(図示せず)から取得された画像データが表す画像に表される話者の口の位置に基づいて、音源である話者の方向を推定する。直接音判定部114は、話者の口の位置を判定する際、公知の画像認識技術を用いて話者の口の画像を特定する。撮像部は、例えば、収音部15に近接して、ロボットの頭部に設置され、その光軸方向、視野角及び解像度などの撮影パラメータは、予め直接音判定部114に設定されている。画像データは、撮像部の光軸に直交する2次元平面内に配置された画素毎の画素値と奥行値からなる3次元のデータである。奥行値は、画素に表わされている被写体の位置の光軸方向に平行な方向の座標値である。画像認識技術として、例えば、画像のhaar−like特徴量を用いたAdaBoostが利用可能である。AdaBoostは、パターン認識の一方法である。直接音判定部114は、話者の口の画像の重心点の位置を特定し、特定した位置について、撮像部の光軸方向、視野角及び解像度に基づいて収音部15の位置を基準とした話者の方向を算出する。直接音判定部114は、音源定位部111から入力される到来方向信号が示す到来方向から、算出した話者の方向との差が到来方向間で最も小さい到来方向に係る到来成分信号を、直接音成分を示す到来成分信号として判定する。直接音判定部114は、それ以外の到来成分信号を、反射音成分を示す到来成分信号として判定する。この判定は、図2に示すように直接音Dtの到来方向φが現実の音源方向に対応付けられ、反射音Pの到来方向φは音源方向に対応付けられないことに基づく。
なお、直接音判定部114は、複数の到来成分信号間の相互相関係数に基づいて直接音成分を示す到来成分信号を判定してもよい。直接音判定部114は、例えば、各2つの到来成分信号からなる信号ペアのうち一方の信号のサンプルをシフトさせ、シフトした一方の信号と他方の信号との相関係数をシフト量毎に算出する。直接音判定部114は、シフト量間の相関係数の最大値が所定の閾値(例えば、0.5〜0.7)以上となる信号ペアを構成する各一群の到来成分信号を音源が共通の到来成分信号として特定する。直接音判定部114は、各一群の到来成分信号のうち相関係数の最大値を与えるシフト量に基づいて、最も先行する到来成分信号を、直接音成分を示す到来成分信号として判定し、それ以外の到来成分信号を、反射音成分を示す到来成分信号として判定する。なお、一群の到来成分信号に1個の到来成分信号しか含まれない場合には、その1個の到来成分信号を、直接音成分を示す到来成分信号として判定する。この判定は、音源から収音部15までの直接音成分の伝達経路が、反射音成分の伝達経路よりも短くなることに基づく。
(音響モデルの更新)
次に、音響モデルの更新法の具体例として、HMMの基底関数として用いられるガウス関数の平均値、分散のMLLRに基づく更新法について説明する。モデル更新部124は、選択された統計量Φ(α)を用いて、式(7)、式(8)にそれぞれ示す更新パラメータk(p)、G(p)−1を算出する。
Figure 0006703460
Figure 0006703460
式(7)、式(8)において、k(p)は、行列K(後述)の構成要素である第p行の行ベクトルを示す。bは、音響モデルの基底として用いられるガウス関数のインデックスを示す。Bは、基底の総数を示す。1/σbpは、第b基底の分散についての逆行列のp行p列の要素値を示す。εは、拡張平均ベクトル(extended mean vector)を示す。Tは、ベクトル又は行列の転置を示す。γib は、第qの到来成分に係る第i状態の第b基底の分散(行列)を示す。
モデル更新部124は、第1番目の要素値として1と、第2〜第n+1番目の要素値として、更新前の基底bの平均値μ(n次元ベクトル)の第1〜第n番目の要素値を割り当ててn+1次元の列ベクトルである拡張平均ベクトルεを構成する。モデル更新部124は、行ベクトルk(p)を転置した列ベクトルk(p)Tにそれぞれ行列G(p)−1を乗算して得られるベクトル値G(p)−1(p)Tを第p列の列ベクトルw(p)Tとして算出する。モデル更新部124は、算出した第p列の列ベクトルw(p)Tを転置した行ベクトルw(p)を行間で結合して変換行列Wを算出する。そして、モデル更新部124は、基底bの平均値μの拡張平均ベクトルに算出した変換行列Wを乗算して得られるベクトルWεを更新後の基底bの平均値μ adpとして算出する。
その後、モデル更新部124は、選択された統計量Φ(α)と更新後の基底bの平均値μ adpを用いて、式(9)に示す更新パラメータH(行列)を算出する。
Figure 0006703460
式(9)において、Cは、更新対象元のHMMの基底bの分散σ(行列)のコレスキー因子(Choleski factor)を示す。ここで、モデル更新部124は、更新パラメータH(行列)を算出する前に、分散σ(行列)についてコレスキー分解を行ってコレスキー因子Cと、その逆行列C −1を予め算出しておく。
モデル更新部124は、算出した逆行列C −1に、行列Hと、逆行列C −1の転置行列(C −1を乗算して得られる行列(C −1HC −1、¥を、更新後の基底bの分散σとして算出する。モデル更新部124は、上述した演算を基底b毎に実行する。
上述した音響モデルの更新法については、例えば、次の文献に記載されている。
Gales,M.and Woodland,P.C.,“Mean and Variance Adaptation within the MLLR framework”,Proceedings of the IEEE Computer Speech and Language,1996
直接音成分に係る統計量を用いて更新された音響モデルを用いることで、直接音成分を示す到来成分信号について音声認識率の低下が防止される。また、直接音成分と到来方向が近接した反射音成分に係る統計量も音響モデルの更新に用いる統計量として用いることで、選択される統計量の時間変化による更新後の音響モデルの特性の変化が緩和される。そのため、より安定した音声認識結果が得られる。
(音声処理)
次に、本実施形態に係る音声処理の例について説明する。図3は、本実施形態に係る音声処理の例を示すフローチャートである。図3に示す処理は、動作モードがランタイムモードである場合に実行される。
(ステップS101)音源定位部111は、収音部15が取得したΦチャネルの音声信号について所定期間毎に音源定位処理を行い、K個の到来方向を推定する。その後、ステップS102の処理に進む。
(ステップS102)音源分離部112は、Φチャネルの音声信号についてブラインド音源分離処理を行ってK個の到来方向それぞれの到来成分信号に分離する。その後、ステップS103の処理に進む。
(ステップS103)音声強調部113は、到来方向毎の到来成分信号に含まれている残響成分を抑圧することにより相対的に音声成分を強調する。その後、ステップS104の処理に進む。
(ステップS104)直接音判定部114は、到来方向毎の到来成分信号のうち音源方向に最も近接する到来方向に係る到来成分信号を直接音成分に係る到来成分信号として判定する。その後、ステップS105の処理に進む。
(ステップS105)統計量選択部123は、直接音成分に係る到来成分信号に対応する到来方向とのなす角度の昇順に、Qopt個の到来方向α毎の統計量Φ(α)を選択する。その後、ステップS106の処理に進む。
(ステップS106)モデル更新部124は、モデル記憶部122に記憶された音響モデルを構成するモデルパラメータを選択されたQopt個の到来方向α毎の統計量Φ(α)を用いて更新する。その後、ステップS107の処理に進む。
(ステップS107)モデル更新部124は、更新した音響モデルと、予め設定された言語モデルとを用いて直接音成分に係る到来成分信号について音声認識処理を行い認識結果として認識テキストを示す認識データを取得する。その後、図3に示す処理を終了する。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。特に断らない限り、第1の実施形態と同一の構成については、同一の符号を付して、その説明を援用する。
図4は、本実施形態に係る音声処理システム1の構成例を示すブロック図である。
音声処理システム1は、音声処理装置10及び収音部15に、さらに音声再生部16を含んで構成される。
音声再生部16は、音声処理装置10から入力された音声信号に基づく音声を再生する。音声再生部16は、例えば、スピーカである。
音声処理装置10は、アレイ処理部110、モデル生成部121、モデル記憶部122、統計量選択部123、モデル更新部124及び音声認識部130に、さらに対話制御部140を含んで構成される。
対話制御部140は、音声認識部130から入力された認識結果である認識テキストを示す認識データに対応した応答データを取得する。対話制御部140は、取得した応答データが示す応答テキストについて公知のテキスト音声合成処理を行い、応答テキストで表される発話内容を示す音声信号である応答音声信号を生成する。対話制御部140は、生成した応答音声信号を音声再生部16に出力する。
対話制御部140は、対話データを予め記憶しておいた記憶部(図示せず)と、応答データが示す応答テキストに応じた音声信号を合成する音声合成部(図示せず)を備える。対話データは、予め定めた発話データと応答データを対応付けて形成される。対話制御部140は、認識データと発話データとを照合し、認識データが示す認識テキストと合致するテキストを示す発話データを選択する。そして、対話制御部140は、選択した応答データに対応する発話データを特定する。なお、発話データ、応答データには、それぞれ翻訳区間、回答区間が含まれていてもよい。翻訳区間とは、翻訳対象とする原言語の語句が含まれる区間である。回答区間には翻訳された目的言語の語句が含まれる区間である。発話データ、応答データに、それぞれ翻訳区間、回答区間が含まれる場合には、対話制御部140は、認識データと発話データとを照合する際、認識データが示す認識データと発話データが示す発話テキストのうち翻訳区間を除いた部分とが合致するか否かを判定する。対話制御部140は、合致すると判定するとき、認識データのうち、翻訳区間に対応する区間内の認識テキストについて、予め設定された翻訳辞書データを参照して、その認識テキストに対応する応答テキストを特定する。翻訳辞書データには、翻訳対象の原言語の語句を示す認識テキストと、目的言語の対応する語句を示す応答テキストを対応付けて形成される。対話制御部140は、合致すると判定した発話データに対応する応答データの回答区間に特定した応答テキストを代入し、応答データの全区間の応答テキストについてテキスト音声合成処理を行う。
次に、対話データと対話制御部140の動作例について説明する。図5は、本実施形態に係る対話データの例を示す図である。
Sp1、Sp2は、それぞれ発話データを示す。Rb1、Rb2は、それぞれ発話データSp1、Sp2に対応する応答データを示す。また、実線の下線部、破線の下線部は、それぞれ翻訳区間、回答区間を示す。発話データSp1は、日本語で「やあ、東京でレストランに行って、酒が出たんだ。酒って英語で何て言うか知ってる?」を意味する英語のテキストからなる。そのうち、「酒」を意味する“sake”の区間が日本語から英語への翻訳区間である。この翻訳区間に対応する認識データには、それ以外の語句、例えば、魚の名前などが含まれることがある。対話制御部140は、発話データSp1と音声認識部130からの認識データのうち翻訳区間を除いた部分と合致すると判定するとき、発話データSp1に対応する応答データRb1を特定する。応答データRb1は、日本語で「rice wineと言うんだ。」を意味する英語のテキストからなる。そのうち、“rice wine”の区間が回答区間である。対話制御部140は、認識データのうち、翻訳区間内の認識テキストとして“sake”を特定する。対話制御部140は、日本語から英語への翻訳に係る翻訳辞書データを参照して原言語として日本語の“sake”に対応する目的言語である英語の応答テキスト“rice wine”を取得する。そして、対話制御部140は、応答データRb1の回答区間に取得した“rice wine”を代入して応答データRb1の全区間の応答テキスト“They call it rice wine.”を生成する。対話制御部140は、生成した応答テキストについてテキスト音声合成処理を行い、その音声信号を生成する。対話制御部140は、生成した音声信号を音声再生部16に出力する。これにより、発話内容が“They call it rice wine”という英語の音声が再生される。
(動作検証)
次に、本実施形態に係る音声処理システム1について行った動作検証について説明する。
動作検証において、音声処理システム1を実装した人型ロボットRtを用いた。図6に示すようにロボットRtの頭部には、16個の電気音響変換素子151を半径が異なる同一平面内の2つの同心円上に配置して収音部15を形成した。各8個の電気音響変換素子151は、それぞれの同心円上に45°間隔で配置される。一方の同心円上に配置される8個の電気音響変換素子151とは、方位角が22.5°ずれた方向に、他方の8個の電気音響変換素子151が配置される。
動作検証は、4つの実験室1−4のそれぞれの室内において行われた。実験室1−4の平面上の大きさは、いずれも4.8m×5.5mである。実験室1、2、3、4の残響時間(RT:reverberation time)は、それぞれ80ms、240ms、900ms、940msである。実験室1−4には、それぞれ空調装置、電子計算機が設置され、それらの動作音が雑音として提示される。信号対雑音比は、約15−20dBである。
図7は、実験室4の平面図である。図7に示すように、各実験室には、音声認識率の検証のために3点の話者位置P1−P3を設定した。但し、ロボットRtの位置を一定とした。実験室1−4間において、ロボットRtとして構成された音声処理システム1と話者位置P1−P3との位置関係は同様である。話者位置P1、P2、P3の順にロボットRtまでの距離が大きくなる。そのうち、話者位置P1からロボットRtまでの距離が最も小さく、話者位置P3からの距離が最も大きい。従って、話者位置P1からの発話音声の認識が最も容易であり、話者位置P3において発話された音声は、残響の影響を最も強く受ける。なお、ロボットRtは、自由度が20である人型の2足歩行ロボットである。また、実験室4には、図7に示すように2つのテーブルTb、ソファSf、白板Wb及び冷蔵庫Rgなどの備品が設置されていた。これらの備品が配置される位置は、話者位置P1−P3とロボットRtとの間で伝搬する音声を遮蔽しない位置である。なお、統計量の取得に係る到来方向数Qを25個とした。
動作検証では、各統計量の取得に用いたクリーン音声データベースとして日本語、英語それぞれの言語の新聞記事読み上げ音声コーパスを用いた。具体的には、日本語新聞記事文(JNAS:Japanese Newspaper Article Sentences)コーパスと、ウォールストリートジャーナル(Wall Street Journal)コーパスである。各到来成分の統計量を取得する際、それらのクリーン音声データベースの音声を、実験室内のあらゆる位置に設置したスピーカから繰り返し再生させた。そして、音声処理装置10を学習モードで動作させることで、到来方向毎の到来成分信号を取得した。
本動作検証では、10名の日本語を母語とする話者と10名の英語を母語とする話者のそれぞれに対し、話者位置P1−P3のそれぞれにおいて各20回の発話を収集した。話者とロボットとの対話シナリオとして、図5に例示した寿司と刺身に関する問答を用いた。問答において、各話者にそれぞれの母語を原言語として魚の名称とする質問を発話させた。このとき、ロボットに応答として、その名称に相当する目的言語の名称の音声を再生することとなる。この対話シナリオの下では、言語ならびに発話内容の依存性が少なくなり、主に魚の名称に係る発話に依存する。検証結果として、発話による単語認識率を話者位置毎に集計した。
また、本実施形態に係る音声認識率の有効性を考察するため、処理方法(A)〜(L)間で音声認識率と比較する。
方法(A)は、入力音声信号に対してスペクトラルサブトラクション法を用いて残響成分を抑圧して得られる残響抑圧音声について音声認識処理を行う手法である。但し、方法(A)では、音声認識処理においてモデル更新は行われない(Old Enhancement)。方法(B)は、音声強調部113によりウィーナフィルタリング法を用いて残響成分を抑圧して得られる残響抑圧音声について音声認識処理を行う手法である。方法(B)においても(New Enhancement)。方法(C)は、スペクトラルサブトラクション法による残響抑圧音声について、オンラインでバウム・ウェルチ(BW:Baum−Welch)法を用いて更新した音響モデルを用いて音声認識処理を行う手法である。但し、方法(C)では、室内の音響環境に応じた統計量に基づく音響モデルの更新は行われない(Old Enhancement+BW online)。方法(D)は、ウィーナフィルタリング法による残響抑圧音声について、BW法を用いて更新した音響モデルを用いて音声認識処理を行う手法である。方法(D)でも、室内の音響環境に応じた統計量に基づく音響モデルの更新は行われない(New Enhancement+BW online)。方法(E)は、ウィーナフィルタリング法による残響抑圧音声について、予め室内の音響環境に応じた統計量に基づいてBW法を用いて更新した音響モデルを用いて音声認識処理を行う手法である(Env−adaptive Tr.+New Enhancement+BW online)。方法(F)は、スペクトラルサブトラクション法による残響抑圧音声について、予め室内の音響環境に応じた統計量を用いてMLLRに基づく更新法により更新した音響モデルを用いて音声認識処理を行う手法である(Old Enhancement+MLLR online)。方法(G)は、ウィーナフィルタリング法による残響抑圧音声について、予め室内の音響環境に応じた統計量を用いてMLLRに基づく更新法により更新した音響モデルを用いて音声認識処理を行う手法である(New Enhancement+MLLR online)。
方法(H)は、上述した音声処理装置10が行う手法である。即ち、方法(H)は、モデル生成部121において取得成分毎の統計量の算出、音声強調部113におけるウィーナフィルタリング法による残響成分抑圧、モデル更新部124におけるMLLRに基づく音響モデルの更新のいずれも有する手法である(Env−adaptive Tr.+New Enhancement+MLLR online)。
方法(I)は、音声強調部113におけるウィーナフィルタリング法による残響成分抑圧と、オフラインでMLLR法を用いて到来方向に応じて更新された音響モデルを用いて音声認識処理を行う手法である。但し、方法(I)では、音響モデルの更新のために15回の発話が用いられた(New Enhancement+offline MLLR[15 adapt. utterances])。方法(J)は、本実施形態に係る音声処理装置10と同様にモデル生成部121における取得成分毎の統計量の算出、音声強調部113におけるウィーナフィルタリング法による残響成分抑圧が行われるが、各実験室においてオフラインで予めMLLR法を用いて到来方向に応じて更新された更新後の音響モデルを用いて音声認識処理を行う手法である。方法(J)でも、音響モデルの更新のために15回の発話が用いられた(Env−adaptive Tr.+New Enhancement+offline MLLR[15 adapt. utterances])。方法(K)は、方法(I)と同様の手法であるが、音響モデルの更新に用いられる発話の数は30回である点で方法(I)と異なる(New Enhancement+offline MLLR[30 adapt. utterances])。方法(L)は、方法(J)と同様の手法であるが、音響モデルの更新に用いられる発話の数は30回である点で方法(J)と異なる(Env−adaptive Tr.+New Enhancement+offline MLLR[30 adapt. utterances])。
なお、BW法は、与えられた発話データについて尤度の期待値が高くなるようにHMMのモデルパラメータを反復して算出するアルゴリズムの一種である。BW法は、次の(1)〜(4)のステップを尤度の変化量が所定の変化量以内に収束するまで繰り返すことにより尤度を高くする手法である。(1)状態遷移確率とシンボル出力確率に基づいて発話データを構成する入力シンボル系列からその時系列順の順方向尤度と時系列の逆方向順の逆方向尤度を算出する処理、(2)順方向尤度と逆方向尤度に基づいて各時刻の状態遷移確率を算出する処理、(3)尤度がより高くなるように各時刻の状態遷移確率から状態遷移確率を再計算する処理、(4)尤度がより高くなるように各時刻の状態遷移確率からシンボル出力確率を再計算処理。従って、BW法では、基底毎の状態遷移確率が更新される点で、基底毎の平均値、分散を更新するMLLR法に基づく更新法とは異なる。室内の音響環境に応じた音響モデルを更新するためには、到来成分毎の統計量として状態遷移確率、又は状態遷移確率を算出するための累積混合要素占有度ならびに状態遷移占有度を取得しておけばよい。
(実験結果)
次に、実験結果について説明する。図8は、処理方法毎の単語認識率の一例を示す図である。縦軸は、単語認識率を示し、横軸は、処理方法を話者位置毎にまとめて示す。単語認識率は、発話者及び実験室1−4間の平均値である。
図8に示す例では、主に残響抑圧方法、音響モデルの更新の有無もしくは更新方法間において単語認識率が比較されている。単語認識率は、話者位置P1、P2、P3の順に低くなる。つまり、話者位置から収音部15までの距離が大きくなるほど単語認識率が低くなる。また、処理方法間では、単語認識率は、方法(A)−(H)の順に高くなる。例えば、方法(A)について、話者位置P1、P2、P3での単語認識率は、それぞれ78%、50%、31%である。方法(H)、つまり本実施形態では、話者位置P1、P2、P3での単語認識率は、それぞれ94%、76%、65%である。従って、本実施形態に係る方法(H)によれば他の方法よりも単語認識率が高くなる。また、方法(B)、(D)、(G)について方法(A)、(C)、(F)よりも単語認識率が高くなることは、スペクトラルサブトラクション法よりも本実施形態で用いられているウィーナフィルタリング法を用いた残響抑圧の方が有効であることを示す。また、方法(E)、(H)について、方法(D)、(G)よりも単語認識率が高くなることは、音響環境に応じた音響モデルの更新が行われた方が、行われないよりも音声認識率が向上することを示す。特に、方法(F)−(H)について、方法(C)−(E)よりも単語認識率が高くなることは、BW法よりも本実施形態において例示したMLLR法に基づく音響モデルの更新の方が有効であることを示す。
図9は、処理方法毎の単語認識率の他の例を示す図である。図9に示す例では、主に、音響モデルの更新がオンラインであるか否か、オフライン更新における発話量による単語認識率が比較されている。
図9に示す例でも、単語認識率は、話者位置P1、P2、P3の順に低くなる。処理方法間では、単語認識率は方法(L)、(K)、(H)、(J)、(I)、(C)の順に低くなる。しかしながら、方法(H)による単語認識率は、方法(L)、(K)による単語認識率と同等である。例えば、話者位置P1では、方法(H)、(L)による単語認識率は、いずれも94%であり、方法(K)による単語認識率は、93%である。方法(H)による単語認識率は、方法(C)、(H)〜(L)間で最も高い。これに対し、話者位置P3では、方法(H)、(K)、(L)による単語認識率は、それぞれ65、66、68%となり、3番目に高い。しかしながら、方法(K)、(L)よりも発話量が少ない方法(I)、(J)による単語認識率は、それぞれ57%、63%となり、いずれも方法(H)よりも低い。方法(C)、(H)では、音響モデルの更新はいずれもオンラインでなされ、更新に要する所要時間は多くても1秒である。これに対し、方法(I)、(J)、(K)、(L)では、音響モデルの更新は、いずれもオフラインでなされ、所要時間は、それぞれ10、13、16、18秒である。従って、方法(H)によればオンラインでの音響モデルの更新により、音響モデルの学習のために十分多くの発話を必要とせずに音声認識率の低下を抑制することができる。
以上に説明したように、音声処理装置10は、複数チャネルの音声信号を到来方向毎の到来成分に分離する音源分離部112を備える。また、音声処理装置10は、到来方向毎の統計量と音声認識モデルを記憶したモデル記憶部122と、音源分離部112が分離した到来成分の到来方向に対応する統計量をモデル記憶部122から選択する統計量選択部123を備える。また、音声処理装置10は、統計量選択部123が選択した統計量に基づいて音声認識モデルを更新するモデル更新部124と、更新した音声認識モデルを用いて、到来成分の音声を認識する音声認識部を備える。
この構成によれば、到来成分の到来方向に対応する統計量に基づいて更新された音声認識モデルを用いて、その到来成分の音声の発話内容が認識される。そのため、音源と収音部15との位置関係による音響環境の変化による音声認識精度の低下が抑制される。
また、上述の統計量は、音声認識モデルの少なくとも一部のパラメータと同種のパラメータである。音声処理装置10は、分離された到来成分に対する尤度が高くなるように算出した統計量をモデル記憶部122に記憶するモデル生成部121を備える。
この構成によれば、音源と収音部15が設置される音響環境により異なる到来成分に対して尤度を高くするパラメータが統計量として取得され、その到来成分の到来方向と対応付けてモデル記憶部122に記憶される。そのため、音声認識精度の低下が抑制されるとともに、音声認識モデルの全てのパラメータを音声認識と並列して更新するよりも演算量や処理時間が低減する。
また、上述の音声認識モデルは、音響特徴量の出力確率を複数のガウス関数の線形結合として表すモデルであり、上述の統計量は、それぞれのガウス関数の混合重み、平均値及び分散である。また、モデル更新部124は、分離された到来成分に対する尤度を高くするように音声認識モデルのガウス関数の平均値と分散を更新する。
この構成によれば、到来成分による音響特徴量に応じた出力確率の変動を有効に説明できるパラメータとしてガウス関数の平均値と分散が更新される。そのため、音声認識精度の低下が抑制されるとともに、音声認識モデルの更新における演算量や処理時間が低減する。
また、音声処理装置10において、音源分離部112は、到来成分として音源からの直接音成分と反射音成分を分離し、音声認識部130は、分離した直接音成分の音声を認識する。
この構成によれば、種々の到来成分のうち音源から直接到来する直接音成分の音声が認識される。音声認識精度の低下の一因となりうる反射音成分が認識対象から除外されるので、音声認識精度の低下が抑制される。
また、音声処理装置10において、音源分離部112が分離した到来成分から所定のフィルタ係数を用いて残響除去成分を生成し、生成した残響除去成分のパワーと、有音区間における到来成分及び無音区間における到来成分に基づいて推定された残響除去成分のパワーとの差が小さくなるようにそのフィルタ係数を算出する残響除去部として、音声強調部113を備える。
この構成によれば、無音区間における到来成分を残響成分とみなし、有音区間における到来成分から残響成分を除去して得られる残響除去成分に、到来成分からフィルタ係数を用いて生成される残響除去成分が近似されるようにフィルタ係数が算出される。そのため、到来成分について算出されたフィルタ係数を用いて生成された残響成分として音声成分が得られ、得られた音声成分の音声が認識される。音声認識精度の低下の一因となる残響成分が除去された音声が逐次に認識対象として得られるので、音声認識精度の低下が抑制される。
上述した実施形態では、音声処理装置10と、収音部15と音声再生部16の一方又は両方が別体である場合を例にしたが、これには限られない。収音部15と音声再生部16の一方又は両方は、音声処理装置10と一体であってもよい。
また、音声処理システム1において、音声再生部16が省略され、対話制御部140は無線又は有線で他の機器、例えば、多機能携帯電話機(いわゆるスマートフォンを含む)、タブレット端末装置、などの端末装置に出力し、その機器が備える再生部から音声を再生させてもよい。
また、音声処理システム1は、必ずしもロボットと一体化して構成されなくてもよく、他の移動体、例えば、ドローンと一体化して構成されてもよい。かかる移動体は、無人であっても有人であってもよい。また、音声処理システム1は、独立した一個の機器として実現されてもよい。かかる機器として、例えば、多機能携帯電話機などの端末装置として実現されてもよい。
なお、上述した実施形態及び変形例における音声処理装置10の一部、例えば、アレイ処理部110、モデル生成部121、モデル記憶部122、統計量選択部123、モデル更新部124、音声認識部130及び対話制御部140の全部又は一部をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音声処理装置10に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態及び変形例における音声処理装置10の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音声処理装置10の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
1…音声処理システム、10…音声処理装置、15…収音部、16…音声再生部、110…アレイ処理部、111…音源定位部、112…音源分離部、113…音声強調部、114…直接音判定部、121…モデル生成部、122…モデル記憶部、123…統計量選択部、124…モデル更新部、130…音声認識部、140…対話制御部

Claims (8)

  1. 複数チャネルの音声信号を到来方向毎の到来成分に分離する分離部と、
    所定の統計量と音声認識モデルを到来方向毎に記憶した記憶部と、
    前記到来成分が音源からの直接音成分か反射音成分か、を判定する直接音判定部と、
    前記直接音成分と前記反射音成分のそれぞれに対応する統計量を前記記憶部から選択する選択部と、
    前記選択部が選択した統計量に基づいて前記到来方向毎の音声認識モデルを更新する更新部と、
    前記直接音成分を用いて更新された音声認識モデルを用いて、前記直接音成分の音声を認識する音声認識部と、
    を備える音声処理装置。
  2. 前記統計量は、前記音声認識モデルの少なくとも一部のパラメータと同種のパラメータ
    であり、
    前記到来成分に対する尤度が高くなるように算出した統計量を前記記憶部に記憶する生
    成部、
    を備える請求項1に記載の音声処理装置。
  3. 前記音声認識モデルは、音響特徴量の出力確率を複数のガウス関数の線形結合として表
    すモデルであり、
    前記統計量は、ガウス関数の混合重み、平均値及び分散であり、
    前記更新部は、前記到来成分に対する尤度を高くするように前記音声認識モデルのガウ
    ス関数の平均値と分散を更新する
    請求項2に記載の音声処理装置。
  4. 前記分離部が分離した到来成分から所定のフィルタ係数を用いて残響除去成分を生成し、前記残響除去成分のパワーと、有音区間における前記到来成分及び無音区間における前記到来成分に基づいて推定された残響除去成分のパワーとの差が小さくなるように前記フィルタ係数を算出する残響除去部、
    を備える請求項1から請求項のいずれか一項に記載の音声処理装置。
  5. 前記直接音判定部は、
    撮像部が撮像した画像に表される口の方向から話者方向を推定し、
    推定した話者方向との差が最も小さい到来方向に係る到来成分を直接音成分と判定し、それ以外の到来方向に係る到来成分を反射音成分として判定する
    請求項1から請求項4のいずれか一項に記載の音声処理装置
  6. 前記直接音判定部は、
    前記到来成分の相互間の相関係数が所定の閾値以上である到来成分のうち最も先行する到来成分を直接音成分と判定し、それ以外の到来方向に係る到来成分を反射音成分として判定する
    請求項1から請求項4のいずれか一項に記載の音声処理装置
  7. 音声処理装置における音声処理方法であって、
    複数チャネルの音声信号を到来方向毎の到来成分に分離する分離過程と、
    前記到来成分が音源からの直接音成分か反射音成分か、を判定する直接音判定部と、
    前記直接音成分と前記反射音成分のそれぞれに対応する統計量を、所定の統計量と音声認識モデルを到来方向毎に記憶した記憶部から選択する選択過程と、
    前記選択過程で選択された統計量に基づいて前記到来方向毎の音声認識モデルを更新する更新過程と、
    前記直接音成分を用いて更新された音声認識モデルを用いて、前記直接音成分の音声を認識する音声認識過程と、
    を有する音声処理方法。
  8. コンピュータに、
    複数チャネルの音声信号を到来方向毎の到来成分に分離する分離過程、
    前記到来成分が音源からの直接音成分か反射音成分か、を判定する直接音判定過程、
    前記直接音成分と前記反射音成分のそれぞれに対応する統計量を、所定の統計量と音声認識モデルを到来方向毎に記憶した記憶部から選択する選択過程、
    前記選択過程で選択された統計量に基づいて前記到来方向毎の音声認識モデルを更新する更新過程、
    前記直接音成分を用いて更新された音声認識モデルを用いて、前記直接音成分の音声を認識する音声認識過程、
    を実行させるための音声処理プログラム。
JP2016164608A 2016-08-25 2016-08-25 音声処理装置、音声処理方法及び音声処理プログラム Active JP6703460B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016164608A JP6703460B2 (ja) 2016-08-25 2016-08-25 音声処理装置、音声処理方法及び音声処理プログラム
US15/623,807 US10283115B2 (en) 2016-08-25 2017-06-15 Voice processing device, voice processing method, and voice processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016164608A JP6703460B2 (ja) 2016-08-25 2016-08-25 音声処理装置、音声処理方法及び音声処理プログラム

Publications (2)

Publication Number Publication Date
JP2018031909A JP2018031909A (ja) 2018-03-01
JP6703460B2 true JP6703460B2 (ja) 2020-06-03

Family

ID=61243218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016164608A Active JP6703460B2 (ja) 2016-08-25 2016-08-25 音声処理装置、音声処理方法及び音声処理プログラム

Country Status (2)

Country Link
US (1) US10283115B2 (ja)
JP (1) JP6703460B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2545260A (en) * 2015-12-11 2017-06-14 Nordic Semiconductor Asa Signal processing
US11361752B2 (en) * 2017-09-11 2022-06-14 Mitsubishi Electric Corporation Voice recognition dictionary data construction apparatus and voice recognition apparatus
JP6911930B2 (ja) * 2017-10-19 2021-07-28 日本電気株式会社 信号処理装置、信号処理方法およびプログラム
JP7075064B2 (ja) * 2018-03-09 2022-05-25 日本電気株式会社 信号源識別装置、信号源識別方法、プログラム
WO2019202966A1 (ja) * 2018-04-16 2019-10-24 ソニー株式会社 信号処理装置および方法、並びにプログラム
CN108648756A (zh) * 2018-05-21 2018-10-12 百度在线网络技术(北京)有限公司 语音交互方法、装置和系统
US10810996B2 (en) 2018-07-31 2020-10-20 Nuance Communications, Inc. System and method for performing automatic speech recognition system parameter adjustment via machine learning
WO2020060519A2 (en) * 2018-09-17 2020-03-26 Aselsan Elektroni̇k Sanayi̇ Ve Ti̇caret Anoni̇m Şi̇rketi̇ Joint source localization and separation method for acoustic sources
KR20200133632A (ko) 2019-05-20 2020-11-30 삼성전자주식회사 지향성 음향 센서 및 이를 이용한 음원 거리 측정방법
CN111179942B (zh) * 2020-01-06 2022-11-08 泰康保险集团股份有限公司 声纹识别方法、装置、设备及计算机可读存储介质
CN116759061B (zh) * 2023-08-17 2023-10-27 简阳市人民医院 一种基于个人需求的体检项目推荐系统

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10047718A1 (de) * 2000-09-27 2002-04-18 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
JP2003131683A (ja) * 2001-10-22 2003-05-09 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7072834B2 (en) * 2002-04-05 2006-07-04 Intel Corporation Adapting to adverse acoustic environment in speech processing using playback training data
JP4109063B2 (ja) * 2002-09-18 2008-06-25 パイオニア株式会社 音声認識装置及び音声認識方法
US20090030552A1 (en) * 2002-12-17 2009-01-29 Japan Science And Technology Agency Robotics visual and auditory system
WO2005048239A1 (ja) * 2003-11-12 2005-05-26 Honda Motor Co., Ltd. 音声認識装置
EP1818909B1 (en) * 2004-12-03 2011-11-02 Honda Motor Co., Ltd. Voice recognition system
JP4896449B2 (ja) * 2005-06-29 2012-03-14 株式会社東芝 音響信号処理方法、装置及びプログラム
US20080300875A1 (en) * 2007-06-04 2008-12-04 Texas Instruments Incorporated Efficient Speech Recognition with Cluster Methods
US8392185B2 (en) * 2008-08-20 2013-03-05 Honda Motor Co., Ltd. Speech recognition system and method for generating a mask of the system
JP5620689B2 (ja) 2009-02-13 2014-11-05 本田技研工業株式会社 残響抑圧装置及び残響抑圧方法
JP5550456B2 (ja) * 2009-06-04 2014-07-16 本田技研工業株式会社 残響抑圧装置、及び残響抑圧方法
CN102473412B (zh) * 2009-07-21 2014-06-11 日本电信电话株式会社 语音信号区间估计装置与方法
JP5738020B2 (ja) * 2010-03-11 2015-06-17 本田技研工業株式会社 音声認識装置及び音声認識方法
KR101154011B1 (ko) * 2010-06-07 2012-06-08 주식회사 서비전자 다중 모델 적응화와 음성인식장치 및 방법
US8738376B1 (en) * 2011-10-28 2014-05-27 Nuance Communications, Inc. Sparse maximum a posteriori (MAP) adaptation
KR101394253B1 (ko) * 2012-05-16 2014-05-13 광주과학기술원 음성 인식 오류 보정 장치
US9338551B2 (en) * 2013-03-15 2016-05-10 Broadcom Corporation Multi-microphone source tracking and noise suppression
JP6169910B2 (ja) * 2013-07-08 2017-07-26 本田技研工業株式会社 音声処理装置
US9847082B2 (en) * 2013-08-23 2017-12-19 Honeywell International Inc. System for modifying speech recognition and beamforming using a depth image
JP6261043B2 (ja) * 2013-08-30 2018-01-17 本田技研工業株式会社 音声処理装置、音声処理方法、及び音声処理プログラム
JP5841986B2 (ja) * 2013-09-26 2016-01-13 本田技研工業株式会社 音声処理装置、音声処理方法、及び音声処理プログラム
WO2016095218A1 (en) * 2014-12-19 2016-06-23 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
US9972315B2 (en) * 2015-01-14 2018-05-15 Honda Motor Co., Ltd. Speech processing device, speech processing method, and speech processing system
JP6124949B2 (ja) * 2015-01-14 2017-05-10 本田技研工業株式会社 音声処理装置、音声処理方法、及び音声処理システム
JP6543843B2 (ja) * 2015-06-18 2019-07-17 本田技研工業株式会社 音源分離装置、および音源分離方法
JP6501260B2 (ja) * 2015-08-20 2019-04-17 本田技研工業株式会社 音響処理装置及び音響処理方法
US9820036B1 (en) * 2015-12-30 2017-11-14 Amazon Technologies, Inc. Speech processing of reflected sound

Also Published As

Publication number Publication date
JP2018031909A (ja) 2018-03-01
US10283115B2 (en) 2019-05-07
US20180061398A1 (en) 2018-03-01

Similar Documents

Publication Publication Date Title
JP6703460B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US9972315B2 (en) Speech processing device, speech processing method, and speech processing system
EP3707716B1 (en) Multi-channel speech separation
Hoshen et al. Speech acoustic modeling from raw multichannel waveforms
Li et al. Neural network adaptive beamforming for robust multichannel speech recognition.
CN108463848B (zh) 用于多声道语音识别的自适应音频增强
JP5738020B2 (ja) 音声認識装置及び音声認識方法
JP6261043B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP5550456B2 (ja) 残響抑圧装置、及び残響抑圧方法
JP6124949B2 (ja) 音声処理装置、音声処理方法、及び音声処理システム
US9858949B2 (en) Acoustic processing apparatus and acoustic processing method
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
US9478230B2 (en) Speech processing apparatus, method, and program of reducing reverberation of speech signals
JP4964204B2 (ja) 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体
JP2018169473A (ja) 音声処理装置、音声処理方法及びプログラム
KR102406512B1 (ko) 음성인식 방법 및 그 장치
Zhao et al. Sound source localization based on srp-phat spatial spectrum and deep neural network
Shimada et al. Unsupervised beamforming based on multichannel nonnegative matrix factorization for noisy speech recognition
Doulaty et al. Automatic optimization of data perturbation distributions for multi-style training in speech recognition
JP2010049249A (ja) 音声認識装置及び音声認識装置のマスク生成方法
Ito et al. Data-driven and physical model-based designs of probabilistic spatial dictionary for online meeting diarization and adaptive beamforming
JP4860962B2 (ja) 音声認識装置、音声認識方法、及び、プログラム
Gomez et al. Dereverberation robust to speaker's azimuthal orientation in multi-channel human-robot communication
JP2005258215A (ja) 信号処理方法及び信号処理装置
Kolossa et al. Missing feature speech recognition in a meeting situation with maximum SNR beamforming

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200428

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200508

R150 Certificate of patent or registration of utility model

Ref document number: 6703460

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150