JP6703460B2 - 音声処理装置、音声処理方法及び音声処理プログラム - Google Patents
音声処理装置、音声処理方法及び音声処理プログラム Download PDFInfo
- Publication number
- JP6703460B2 JP6703460B2 JP2016164608A JP2016164608A JP6703460B2 JP 6703460 B2 JP6703460 B2 JP 6703460B2 JP 2016164608 A JP2016164608 A JP 2016164608A JP 2016164608 A JP2016164608 A JP 2016164608A JP 6703460 B2 JP6703460 B2 JP 6703460B2
- Authority
- JP
- Japan
- Prior art keywords
- component
- unit
- arrival
- voice
- statistic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 96
- 238000003672 processing method Methods 0.000 title claims description 14
- 238000000034 method Methods 0.000 claims description 154
- 238000000926 separation method Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 27
- 230000005236 sound signal Effects 0.000 claims description 19
- 239000000203 mixture Substances 0.000 claims description 7
- 238000003384 imaging method Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 description 37
- 230000004044 response Effects 0.000 description 30
- 230000004807 localization Effects 0.000 description 23
- 230000007704 transition Effects 0.000 description 23
- 230000000875 corresponding effect Effects 0.000 description 21
- 238000013519 translation Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 13
- 230000007423 decrease Effects 0.000 description 13
- 238000001914 filtration Methods 0.000 description 13
- 230000014509 gene expression Effects 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 9
- 230000001186 cumulative effect Effects 0.000 description 8
- 230000006866 deterioration Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000012795 verification Methods 0.000 description 7
- 238000002156 mixing Methods 0.000 description 6
- 235000019991 rice wine Nutrition 0.000 description 6
- 230000001629 suppression Effects 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 5
- 238000011410 subtraction method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 241000251468 Actinopterygii Species 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/8006—Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
(5)本発明の他の態様は、(1)から(4)のいずれかの音声処理装置であって、前記直接音判定部は、撮像部が撮像した画像に表される口の方向から話者方向を推定し、推定した話者方向との差が最も小さい到来方向に係る到来成分を直接音成分と判定し、それ以外の到来方向に係る到来成分を反射音成分として判定する音声処理装置である。
(6)本発明の他の態様は、(1)から(4)のいずれかの音声処理装置であって、前記直接音判定部は、前記到来成分の相互間の相関係数が所定の閾値以上である到来成分のうち最も先行する到来成分を直接音成分と判定し、それ以外の到来方向に係る到来成分を反射音成分として判定する音声処理装置である。
上述した(2)の構成によれば、音源と複数チャネルの音声信号を取得する収音部が設置される音響環境により異なる到来成分に対して尤度を高くするパラメータが統計量として取得され、その到来成分の到来方向と対応付けてモデル記憶部122に記憶される。そのため、音声認識精度の低下が抑制されるとともに、音声認識モデルの全てのパラメータを音声認識と並列して更新するよりも演算量や処理時間が低減する。
上述した(3)の構成によれば、到来成分による音響特徴量に応じた出力確率の変動を有効に説明できるパラメータとしてガウス関数の平均値と分散が更新される。そのため、音声認識精度の低下が抑制されるとともに、音声認識モデルの更新における演算量や処理時間が低減する。
上述した(4)の構成によれば、無音区間における到来成分を残響成分とみなし、有音区間における到来成分から残響成分を除去して得られる残響除去成分に、到来成分からフィルタ係数を用いて生成される残響除去成分が近似されるようにフィルタ係数が算出される。そのため、到来成分について算出されたフィルタ係数を用いて生成された残響成分として音声成分が得られ、得られた音声成分の音声が認識される。音声認識精度の低下の一因となる残響成分が除去された音声が逐次に認識対象として得られるので、音声認識精度の低下がさらに抑制される。
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音声処理システム1の構成例を示すブロック図である。
音声処理システム1は、音声処理装置10及び収音部15を含んで構成される。
音声処理装置10は、収音部15から入力された音声信号を収音部15への到来方向毎の到来成分を示す到来成分信号に分離し、分離された到来成分信号に対応する統計量を、到来方向毎の統計量を有する音声認識モデルを記憶した記憶部から選択する。そして、音声処理装置10は、選択した統計量を用いて音声認識モデルを更新し、更新した音声認識モデルを用いて到来成分のうち直接音の成分について音声認識処理を行う。
音声処理装置10は、アレイ処理部110、モデル生成部121、モデル記憶部122、統計量選択部123、モデル更新部124及び音声認識部130を含んで構成される。
アレイ処理部110は、収音部15から入力されるΦ(Φは、2以上の整数)チャネルの音声信号から音声認識処理又は音声認識モデルの生成、学習に用いる到来成分信号を取得する。アレイ処理部110は、音源定位部111、音源分離部112、音声強調部113及び直接音判定部114を含んで構成される。
Gomez R.,Nakamura K.,Mizumoto T. and Nakadai K.,“Compensating changes in speaker position for improved voise−based human−robot communication”,Proceedings of IEEE/RAS Humanoids,2015
Gomez,R.,Kawahara,T.and Nakadai,K.,“Optimized wavelet−domain filtering under noisy and reverberant condition”,Proceedings on Transactions on Signal and Processing,2015
次に、到来方向の一推定法であるMUSIC法について説明する。
音源定位部111は、予め所定の方向間隔(例えば、1〜5°)に分布した音源方向毎の伝達関数が記憶されている記憶部を備える。音源定位部111は、収音部15の位置を基準とする方向αに設置された音源から各チャネルφ(φは、1以上Φ以下の整数)の収音素子までの伝達関数を要素とする伝達関数ベクトルA(ω,α)を生成する。ωは、周波数を示す。
次に、音源分離の一手法であるGHDSS法について説明する。
GHDSS法は、2つのコスト関数(cost function)として、分離尖鋭度(Separation Sharpness)JSS(Ω(ω,f))と幾何制約度(Geometric Constraint)JGC(Ω(ω,f))が、それぞれ減少するように分離行列Ω(ω,f)を適応的に算出する方法である。分離行列Ω(ω)は、音源定位部111から入力されたΦチャネルの音声信号の変換係数ベクトルx(ω,f)に乗じることによって、Lチャネルの到来成分毎の変換係数ベクトルである推定値ベクトルu(ω)を算出するために用いられる行列である。
式(4)において、Iは、単位行列を示す。従って、幾何制約度JGC(Ω(ω,f))とは、到来成分(推定値)のスペクトルと到来成分(音源)のスペクトルとの誤差の度合いを表す指標値である。
次に、残響抑圧の一手法であるウィーナフィルタリング法について説明する。
ウィーナフィルタリング法では、残響成分と、残響成分が抑圧された到来成分信号(以下、残響抑圧信号)との相関がないものと仮定して、フィルタリングされた残響成分が付加された到来成分信号(残響付加信号)と残響抑圧信号との平均二乗誤差を最小にする線形フィルタを形成する処理である。この線形フィルタは、ウィーナ利得(Wiener Gain)とも呼ばれる。算出されたウィーナ利得は、残響付加信号をフィルタリングして残響除去信号を生成するために用いられる。
次に、直接音判定部114が直接音成分を示す到来成分信号を判定する手法について説明する。直接音判定部114は、撮像部(図示せず)から取得された画像データが表す画像に表される話者の口の位置に基づいて、音源である話者の方向を推定する。直接音判定部114は、話者の口の位置を判定する際、公知の画像認識技術を用いて話者の口の画像を特定する。撮像部は、例えば、収音部15に近接して、ロボットの頭部に設置され、その光軸方向、視野角及び解像度などの撮影パラメータは、予め直接音判定部114に設定されている。画像データは、撮像部の光軸に直交する2次元平面内に配置された画素毎の画素値と奥行値からなる3次元のデータである。奥行値は、画素に表わされている被写体の位置の光軸方向に平行な方向の座標値である。画像認識技術として、例えば、画像のhaar−like特徴量を用いたAdaBoostが利用可能である。AdaBoostは、パターン認識の一方法である。直接音判定部114は、話者の口の画像の重心点の位置を特定し、特定した位置について、撮像部の光軸方向、視野角及び解像度に基づいて収音部15の位置を基準とした話者の方向を算出する。直接音判定部114は、音源定位部111から入力される到来方向信号が示す到来方向から、算出した話者の方向との差が到来方向間で最も小さい到来方向に係る到来成分信号を、直接音成分を示す到来成分信号として判定する。直接音判定部114は、それ以外の到来成分信号を、反射音成分を示す到来成分信号として判定する。この判定は、図2に示すように直接音Dtの到来方向φkが現実の音源方向に対応付けられ、反射音Pmの到来方向φkは音源方向に対応付けられないことに基づく。
次に、音響モデルの更新法の具体例として、HMMの基底関数として用いられるガウス関数の平均値、分散のMLLRに基づく更新法について説明する。モデル更新部124は、選択された統計量Φ(αq)を用いて、式(7)、式(8)にそれぞれ示す更新パラメータk(p)、G(p)−1を算出する。
その後、モデル更新部124は、選択された統計量Φ(αq)と更新後の基底bの平均値μb adpを用いて、式(9)に示す更新パラメータH(行列)を算出する。
モデル更新部124は、算出した逆行列Cb −1に、行列Hと、逆行列Cb −1の転置行列(Cb −1)Tを乗算して得られる行列(Cb −1)THCb −1、¥を、更新後の基底bの分散σbとして算出する。モデル更新部124は、上述した演算を基底b毎に実行する。
Gales,M.and Woodland,P.C.,“Mean and Variance Adaptation within the MLLR framework”,Proceedings of the IEEE Computer Speech and Language,1996
次に、本実施形態に係る音声処理の例について説明する。図3は、本実施形態に係る音声処理の例を示すフローチャートである。図3に示す処理は、動作モードがランタイムモードである場合に実行される。
(ステップS101)音源定位部111は、収音部15が取得したΦチャネルの音声信号について所定期間毎に音源定位処理を行い、K個の到来方向を推定する。その後、ステップS102の処理に進む。
(ステップS102)音源分離部112は、Φチャネルの音声信号についてブラインド音源分離処理を行ってK個の到来方向それぞれの到来成分信号に分離する。その後、ステップS103の処理に進む。
(ステップS103)音声強調部113は、到来方向毎の到来成分信号に含まれている残響成分を抑圧することにより相対的に音声成分を強調する。その後、ステップS104の処理に進む。
(ステップS104)直接音判定部114は、到来方向毎の到来成分信号のうち音源方向に最も近接する到来方向に係る到来成分信号を直接音成分に係る到来成分信号として判定する。その後、ステップS105の処理に進む。
(ステップS106)モデル更新部124は、モデル記憶部122に記憶された音響モデルを構成するモデルパラメータを選択されたQopt個の到来方向αq毎の統計量Φ(αq)を用いて更新する。その後、ステップS107の処理に進む。
(ステップS107)モデル更新部124は、更新した音響モデルと、予め設定された言語モデルとを用いて直接音成分に係る到来成分信号について音声認識処理を行い認識結果として認識テキストを示す認識データを取得する。その後、図3に示す処理を終了する。
次に、本発明の第2の実施形態について説明する。特に断らない限り、第1の実施形態と同一の構成については、同一の符号を付して、その説明を援用する。
図4は、本実施形態に係る音声処理システム1の構成例を示すブロック図である。
音声処理システム1は、音声処理装置10及び収音部15に、さらに音声再生部16を含んで構成される。
音声再生部16は、音声処理装置10から入力された音声信号に基づく音声を再生する。音声再生部16は、例えば、スピーカである。
音声処理装置10は、アレイ処理部110、モデル生成部121、モデル記憶部122、統計量選択部123、モデル更新部124及び音声認識部130に、さらに対話制御部140を含んで構成される。
Sp1、Sp2は、それぞれ発話データを示す。Rb1、Rb2は、それぞれ発話データSp1、Sp2に対応する応答データを示す。また、実線の下線部、破線の下線部は、それぞれ翻訳区間、回答区間を示す。発話データSp1は、日本語で「やあ、東京でレストランに行って、酒が出たんだ。酒って英語で何て言うか知ってる?」を意味する英語のテキストからなる。そのうち、「酒」を意味する“sake”の区間が日本語から英語への翻訳区間である。この翻訳区間に対応する認識データには、それ以外の語句、例えば、魚の名前などが含まれることがある。対話制御部140は、発話データSp1と音声認識部130からの認識データのうち翻訳区間を除いた部分と合致すると判定するとき、発話データSp1に対応する応答データRb1を特定する。応答データRb1は、日本語で「rice wineと言うんだ。」を意味する英語のテキストからなる。そのうち、“rice wine”の区間が回答区間である。対話制御部140は、認識データのうち、翻訳区間内の認識テキストとして“sake”を特定する。対話制御部140は、日本語から英語への翻訳に係る翻訳辞書データを参照して原言語として日本語の“sake”に対応する目的言語である英語の応答テキスト“rice wine”を取得する。そして、対話制御部140は、応答データRb1の回答区間に取得した“rice wine”を代入して応答データRb1の全区間の応答テキスト“They call it rice wine.”を生成する。対話制御部140は、生成した応答テキストについてテキスト音声合成処理を行い、その音声信号を生成する。対話制御部140は、生成した音声信号を音声再生部16に出力する。これにより、発話内容が“They call it rice wine”という英語の音声が再生される。
次に、本実施形態に係る音声処理システム1について行った動作検証について説明する。
動作検証において、音声処理システム1を実装した人型ロボットRtを用いた。図6に示すようにロボットRtの頭部には、16個の電気音響変換素子151を半径が異なる同一平面内の2つの同心円上に配置して収音部15を形成した。各8個の電気音響変換素子151は、それぞれの同心円上に45°間隔で配置される。一方の同心円上に配置される8個の電気音響変換素子151とは、方位角が22.5°ずれた方向に、他方の8個の電気音響変換素子151が配置される。
方法(A)は、入力音声信号に対してスペクトラルサブトラクション法を用いて残響成分を抑圧して得られる残響抑圧音声について音声認識処理を行う手法である。但し、方法(A)では、音声認識処理においてモデル更新は行われない(Old Enhancement)。方法(B)は、音声強調部113によりウィーナフィルタリング法を用いて残響成分を抑圧して得られる残響抑圧音声について音声認識処理を行う手法である。方法(B)においても(New Enhancement)。方法(C)は、スペクトラルサブトラクション法による残響抑圧音声について、オンラインでバウム・ウェルチ(BW:Baum−Welch)法を用いて更新した音響モデルを用いて音声認識処理を行う手法である。但し、方法(C)では、室内の音響環境に応じた統計量に基づく音響モデルの更新は行われない(Old Enhancement+BW online)。方法(D)は、ウィーナフィルタリング法による残響抑圧音声について、BW法を用いて更新した音響モデルを用いて音声認識処理を行う手法である。方法(D)でも、室内の音響環境に応じた統計量に基づく音響モデルの更新は行われない(New Enhancement+BW online)。方法(E)は、ウィーナフィルタリング法による残響抑圧音声について、予め室内の音響環境に応じた統計量に基づいてBW法を用いて更新した音響モデルを用いて音声認識処理を行う手法である(Env−adaptive Tr.+New Enhancement+BW online)。方法(F)は、スペクトラルサブトラクション法による残響抑圧音声について、予め室内の音響環境に応じた統計量を用いてMLLRに基づく更新法により更新した音響モデルを用いて音声認識処理を行う手法である(Old Enhancement+MLLR online)。方法(G)は、ウィーナフィルタリング法による残響抑圧音声について、予め室内の音響環境に応じた統計量を用いてMLLRに基づく更新法により更新した音響モデルを用いて音声認識処理を行う手法である(New Enhancement+MLLR online)。
次に、実験結果について説明する。図8は、処理方法毎の単語認識率の一例を示す図である。縦軸は、単語認識率を示し、横軸は、処理方法を話者位置毎にまとめて示す。単語認識率は、発話者及び実験室1−4間の平均値である。
図8に示す例では、主に残響抑圧方法、音響モデルの更新の有無もしくは更新方法間において単語認識率が比較されている。単語認識率は、話者位置P1、P2、P3の順に低くなる。つまり、話者位置から収音部15までの距離が大きくなるほど単語認識率が低くなる。また、処理方法間では、単語認識率は、方法(A)−(H)の順に高くなる。例えば、方法(A)について、話者位置P1、P2、P3での単語認識率は、それぞれ78%、50%、31%である。方法(H)、つまり本実施形態では、話者位置P1、P2、P3での単語認識率は、それぞれ94%、76%、65%である。従って、本実施形態に係る方法(H)によれば他の方法よりも単語認識率が高くなる。また、方法(B)、(D)、(G)について方法(A)、(C)、(F)よりも単語認識率が高くなることは、スペクトラルサブトラクション法よりも本実施形態で用いられているウィーナフィルタリング法を用いた残響抑圧の方が有効であることを示す。また、方法(E)、(H)について、方法(D)、(G)よりも単語認識率が高くなることは、音響環境に応じた音響モデルの更新が行われた方が、行われないよりも音声認識率が向上することを示す。特に、方法(F)−(H)について、方法(C)−(E)よりも単語認識率が高くなることは、BW法よりも本実施形態において例示したMLLR法に基づく音響モデルの更新の方が有効であることを示す。
図9に示す例でも、単語認識率は、話者位置P1、P2、P3の順に低くなる。処理方法間では、単語認識率は方法(L)、(K)、(H)、(J)、(I)、(C)の順に低くなる。しかしながら、方法(H)による単語認識率は、方法(L)、(K)による単語認識率と同等である。例えば、話者位置P1では、方法(H)、(L)による単語認識率は、いずれも94%であり、方法(K)による単語認識率は、93%である。方法(H)による単語認識率は、方法(C)、(H)〜(L)間で最も高い。これに対し、話者位置P3では、方法(H)、(K)、(L)による単語認識率は、それぞれ65、66、68%となり、3番目に高い。しかしながら、方法(K)、(L)よりも発話量が少ない方法(I)、(J)による単語認識率は、それぞれ57%、63%となり、いずれも方法(H)よりも低い。方法(C)、(H)では、音響モデルの更新はいずれもオンラインでなされ、更新に要する所要時間は多くても1秒である。これに対し、方法(I)、(J)、(K)、(L)では、音響モデルの更新は、いずれもオフラインでなされ、所要時間は、それぞれ10、13、16、18秒である。従って、方法(H)によればオンラインでの音響モデルの更新により、音響モデルの学習のために十分多くの発話を必要とせずに音声認識率の低下を抑制することができる。
この構成によれば、到来成分の到来方向に対応する統計量に基づいて更新された音声認識モデルを用いて、その到来成分の音声の発話内容が認識される。そのため、音源と収音部15との位置関係による音響環境の変化による音声認識精度の低下が抑制される。
この構成によれば、音源と収音部15が設置される音響環境により異なる到来成分に対して尤度を高くするパラメータが統計量として取得され、その到来成分の到来方向と対応付けてモデル記憶部122に記憶される。そのため、音声認識精度の低下が抑制されるとともに、音声認識モデルの全てのパラメータを音声認識と並列して更新するよりも演算量や処理時間が低減する。
この構成によれば、到来成分による音響特徴量に応じた出力確率の変動を有効に説明できるパラメータとしてガウス関数の平均値と分散が更新される。そのため、音声認識精度の低下が抑制されるとともに、音声認識モデルの更新における演算量や処理時間が低減する。
この構成によれば、種々の到来成分のうち音源から直接到来する直接音成分の音声が認識される。音声認識精度の低下の一因となりうる反射音成分が認識対象から除外されるので、音声認識精度の低下が抑制される。
この構成によれば、無音区間における到来成分を残響成分とみなし、有音区間における到来成分から残響成分を除去して得られる残響除去成分に、到来成分からフィルタ係数を用いて生成される残響除去成分が近似されるようにフィルタ係数が算出される。そのため、到来成分について算出されたフィルタ係数を用いて生成された残響成分として音声成分が得られ、得られた音声成分の音声が認識される。音声認識精度の低下の一因となる残響成分が除去された音声が逐次に認識対象として得られるので、音声認識精度の低下が抑制される。
また、音声処理システム1において、音声再生部16が省略され、対話制御部140は無線又は有線で他の機器、例えば、多機能携帯電話機(いわゆるスマートフォンを含む)、タブレット端末装置、などの端末装置に出力し、その機器が備える再生部から音声を再生させてもよい。
また、音声処理システム1は、必ずしもロボットと一体化して構成されなくてもよく、他の移動体、例えば、ドローンと一体化して構成されてもよい。かかる移動体は、無人であっても有人であってもよい。また、音声処理システム1は、独立した一個の機器として実現されてもよい。かかる機器として、例えば、多機能携帯電話機などの端末装置として実現されてもよい。
Claims (8)
- 複数チャネルの音声信号を到来方向毎の到来成分に分離する分離部と、
所定の統計量と音声認識モデルを到来方向毎に記憶した記憶部と、
前記到来成分が音源からの直接音成分か反射音成分か、を判定する直接音判定部と、
前記直接音成分と前記反射音成分のそれぞれに対応する統計量を前記記憶部から選択する選択部と、
前記選択部が選択した統計量に基づいて前記到来方向毎の音声認識モデルを更新する更新部と、
前記直接音成分を用いて更新された音声認識モデルを用いて、前記直接音成分の音声を認識する音声認識部と、
を備える音声処理装置。 - 前記統計量は、前記音声認識モデルの少なくとも一部のパラメータと同種のパラメータ
であり、
前記到来成分に対する尤度が高くなるように算出した統計量を前記記憶部に記憶する生
成部、
を備える請求項1に記載の音声処理装置。 - 前記音声認識モデルは、音響特徴量の出力確率を複数のガウス関数の線形結合として表
すモデルであり、
前記統計量は、ガウス関数の混合重み、平均値及び分散であり、
前記更新部は、前記到来成分に対する尤度を高くするように前記音声認識モデルのガウ
ス関数の平均値と分散を更新する
請求項2に記載の音声処理装置。 - 前記分離部が分離した到来成分から所定のフィルタ係数を用いて残響除去成分を生成し、前記残響除去成分のパワーと、有音区間における前記到来成分及び無音区間における前記到来成分に基づいて推定された残響除去成分のパワーとの差が小さくなるように前記フィルタ係数を算出する残響除去部、
を備える請求項1から請求項3のいずれか一項に記載の音声処理装置。 - 前記直接音判定部は、
撮像部が撮像した画像に表される口の方向から話者方向を推定し、
推定した話者方向との差が最も小さい到来方向に係る到来成分を直接音成分と判定し、それ以外の到来方向に係る到来成分を反射音成分として判定する
請求項1から請求項4のいずれか一項に記載の音声処理装置。 - 前記直接音判定部は、
前記到来成分の相互間の相関係数が所定の閾値以上である到来成分のうち最も先行する到来成分を直接音成分と判定し、それ以外の到来方向に係る到来成分を反射音成分として判定する
請求項1から請求項4のいずれか一項に記載の音声処理装置。 - 音声処理装置における音声処理方法であって、
複数チャネルの音声信号を到来方向毎の到来成分に分離する分離過程と、
前記到来成分が音源からの直接音成分か反射音成分か、を判定する直接音判定部と、
前記直接音成分と前記反射音成分のそれぞれに対応する統計量を、所定の統計量と音声認識モデルを到来方向毎に記憶した記憶部から選択する選択過程と、
前記選択過程で選択された統計量に基づいて前記到来方向毎の音声認識モデルを更新する更新過程と、
前記直接音成分を用いて更新された音声認識モデルを用いて、前記直接音成分の音声を認識する音声認識過程と、
を有する音声処理方法。 - コンピュータに、
複数チャネルの音声信号を到来方向毎の到来成分に分離する分離過程、
前記到来成分が音源からの直接音成分か反射音成分か、を判定する直接音判定過程、
前記直接音成分と前記反射音成分のそれぞれに対応する統計量を、所定の統計量と音声認識モデルを到来方向毎に記憶した記憶部から選択する選択過程、
前記選択過程で選択された統計量に基づいて前記到来方向毎の音声認識モデルを更新する更新過程、
前記直接音成分を用いて更新された音声認識モデルを用いて、前記直接音成分の音声を認識する音声認識過程、
を実行させるための音声処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016164608A JP6703460B2 (ja) | 2016-08-25 | 2016-08-25 | 音声処理装置、音声処理方法及び音声処理プログラム |
US15/623,807 US10283115B2 (en) | 2016-08-25 | 2017-06-15 | Voice processing device, voice processing method, and voice processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016164608A JP6703460B2 (ja) | 2016-08-25 | 2016-08-25 | 音声処理装置、音声処理方法及び音声処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018031909A JP2018031909A (ja) | 2018-03-01 |
JP6703460B2 true JP6703460B2 (ja) | 2020-06-03 |
Family
ID=61243218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016164608A Active JP6703460B2 (ja) | 2016-08-25 | 2016-08-25 | 音声処理装置、音声処理方法及び音声処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10283115B2 (ja) |
JP (1) | JP6703460B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2545260A (en) * | 2015-12-11 | 2017-06-14 | Nordic Semiconductor Asa | Signal processing |
US11361752B2 (en) * | 2017-09-11 | 2022-06-14 | Mitsubishi Electric Corporation | Voice recognition dictionary data construction apparatus and voice recognition apparatus |
JP6911930B2 (ja) * | 2017-10-19 | 2021-07-28 | 日本電気株式会社 | 信号処理装置、信号処理方法およびプログラム |
JP7075064B2 (ja) * | 2018-03-09 | 2022-05-25 | 日本電気株式会社 | 信号源識別装置、信号源識別方法、プログラム |
WO2019202966A1 (ja) * | 2018-04-16 | 2019-10-24 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
CN108648756A (zh) * | 2018-05-21 | 2018-10-12 | 百度在线网络技术(北京)有限公司 | 语音交互方法、装置和系统 |
US10810996B2 (en) | 2018-07-31 | 2020-10-20 | Nuance Communications, Inc. | System and method for performing automatic speech recognition system parameter adjustment via machine learning |
WO2020060519A2 (en) * | 2018-09-17 | 2020-03-26 | Aselsan Elektroni̇k Sanayi̇ Ve Ti̇caret Anoni̇m Şi̇rketi̇ | Joint source localization and separation method for acoustic sources |
KR20200133632A (ko) | 2019-05-20 | 2020-11-30 | 삼성전자주식회사 | 지향성 음향 센서 및 이를 이용한 음원 거리 측정방법 |
CN111179942B (zh) * | 2020-01-06 | 2022-11-08 | 泰康保险集团股份有限公司 | 声纹识别方法、装置、设备及计算机可读存储介质 |
CN116759061B (zh) * | 2023-08-17 | 2023-10-27 | 简阳市人民医院 | 一种基于个人需求的体检项目推荐系统 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10047718A1 (de) * | 2000-09-27 | 2002-04-18 | Philips Corp Intellectual Pty | Verfahren zur Spracherkennung |
JP2003131683A (ja) * | 2001-10-22 | 2003-05-09 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
JP4195267B2 (ja) * | 2002-03-14 | 2008-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、その音声認識方法及びプログラム |
US7072834B2 (en) * | 2002-04-05 | 2006-07-04 | Intel Corporation | Adapting to adverse acoustic environment in speech processing using playback training data |
JP4109063B2 (ja) * | 2002-09-18 | 2008-06-25 | パイオニア株式会社 | 音声認識装置及び音声認識方法 |
US20090030552A1 (en) * | 2002-12-17 | 2009-01-29 | Japan Science And Technology Agency | Robotics visual and auditory system |
WO2005048239A1 (ja) * | 2003-11-12 | 2005-05-26 | Honda Motor Co., Ltd. | 音声認識装置 |
EP1818909B1 (en) * | 2004-12-03 | 2011-11-02 | Honda Motor Co., Ltd. | Voice recognition system |
JP4896449B2 (ja) * | 2005-06-29 | 2012-03-14 | 株式会社東芝 | 音響信号処理方法、装置及びプログラム |
US20080300875A1 (en) * | 2007-06-04 | 2008-12-04 | Texas Instruments Incorporated | Efficient Speech Recognition with Cluster Methods |
US8392185B2 (en) * | 2008-08-20 | 2013-03-05 | Honda Motor Co., Ltd. | Speech recognition system and method for generating a mask of the system |
JP5620689B2 (ja) | 2009-02-13 | 2014-11-05 | 本田技研工業株式会社 | 残響抑圧装置及び残響抑圧方法 |
JP5550456B2 (ja) * | 2009-06-04 | 2014-07-16 | 本田技研工業株式会社 | 残響抑圧装置、及び残響抑圧方法 |
CN102473412B (zh) * | 2009-07-21 | 2014-06-11 | 日本电信电话株式会社 | 语音信号区间估计装置与方法 |
JP5738020B2 (ja) * | 2010-03-11 | 2015-06-17 | 本田技研工業株式会社 | 音声認識装置及び音声認識方法 |
KR101154011B1 (ko) * | 2010-06-07 | 2012-06-08 | 주식회사 서비전자 | 다중 모델 적응화와 음성인식장치 및 방법 |
US8738376B1 (en) * | 2011-10-28 | 2014-05-27 | Nuance Communications, Inc. | Sparse maximum a posteriori (MAP) adaptation |
KR101394253B1 (ko) * | 2012-05-16 | 2014-05-13 | 광주과학기술원 | 음성 인식 오류 보정 장치 |
US9338551B2 (en) * | 2013-03-15 | 2016-05-10 | Broadcom Corporation | Multi-microphone source tracking and noise suppression |
JP6169910B2 (ja) * | 2013-07-08 | 2017-07-26 | 本田技研工業株式会社 | 音声処理装置 |
US9847082B2 (en) * | 2013-08-23 | 2017-12-19 | Honeywell International Inc. | System for modifying speech recognition and beamforming using a depth image |
JP6261043B2 (ja) * | 2013-08-30 | 2018-01-17 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
JP5841986B2 (ja) * | 2013-09-26 | 2016-01-13 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
WO2016095218A1 (en) * | 2014-12-19 | 2016-06-23 | Dolby Laboratories Licensing Corporation | Speaker identification using spatial information |
US9972315B2 (en) * | 2015-01-14 | 2018-05-15 | Honda Motor Co., Ltd. | Speech processing device, speech processing method, and speech processing system |
JP6124949B2 (ja) * | 2015-01-14 | 2017-05-10 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理システム |
JP6543843B2 (ja) * | 2015-06-18 | 2019-07-17 | 本田技研工業株式会社 | 音源分離装置、および音源分離方法 |
JP6501260B2 (ja) * | 2015-08-20 | 2019-04-17 | 本田技研工業株式会社 | 音響処理装置及び音響処理方法 |
US9820036B1 (en) * | 2015-12-30 | 2017-11-14 | Amazon Technologies, Inc. | Speech processing of reflected sound |
-
2016
- 2016-08-25 JP JP2016164608A patent/JP6703460B2/ja active Active
-
2017
- 2017-06-15 US US15/623,807 patent/US10283115B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018031909A (ja) | 2018-03-01 |
US10283115B2 (en) | 2019-05-07 |
US20180061398A1 (en) | 2018-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6703460B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
US9972315B2 (en) | Speech processing device, speech processing method, and speech processing system | |
EP3707716B1 (en) | Multi-channel speech separation | |
Hoshen et al. | Speech acoustic modeling from raw multichannel waveforms | |
Li et al. | Neural network adaptive beamforming for robust multichannel speech recognition. | |
CN108463848B (zh) | 用于多声道语音识别的自适应音频增强 | |
JP5738020B2 (ja) | 音声認識装置及び音声認識方法 | |
JP6261043B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP5550456B2 (ja) | 残響抑圧装置、及び残響抑圧方法 | |
JP6124949B2 (ja) | 音声処理装置、音声処理方法、及び音声処理システム | |
US9858949B2 (en) | Acoustic processing apparatus and acoustic processing method | |
JP6077957B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
US9478230B2 (en) | Speech processing apparatus, method, and program of reducing reverberation of speech signals | |
JP4964204B2 (ja) | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 | |
JP2018169473A (ja) | 音声処理装置、音声処理方法及びプログラム | |
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
Zhao et al. | Sound source localization based on srp-phat spatial spectrum and deep neural network | |
Shimada et al. | Unsupervised beamforming based on multichannel nonnegative matrix factorization for noisy speech recognition | |
Doulaty et al. | Automatic optimization of data perturbation distributions for multi-style training in speech recognition | |
JP2010049249A (ja) | 音声認識装置及び音声認識装置のマスク生成方法 | |
Ito et al. | Data-driven and physical model-based designs of probabilistic spatial dictionary for online meeting diarization and adaptive beamforming | |
JP4860962B2 (ja) | 音声認識装置、音声認識方法、及び、プログラム | |
Gomez et al. | Dereverberation robust to speaker's azimuthal orientation in multi-channel human-robot communication | |
JP2005258215A (ja) | 信号処理方法及び信号処理装置 | |
Kolossa et al. | Missing feature speech recognition in a meeting situation with maximum SNR beamforming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181005 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191004 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200428 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200508 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6703460 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |