JP2024027617A - 音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法 - Google Patents
音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法 Download PDFInfo
- Publication number
- JP2024027617A JP2024027617A JP2022130549A JP2022130549A JP2024027617A JP 2024027617 A JP2024027617 A JP 2024027617A JP 2022130549 A JP2022130549 A JP 2022130549A JP 2022130549 A JP2022130549 A JP 2022130549A JP 2024027617 A JP2024027617 A JP 2024027617A
- Authority
- JP
- Japan
- Prior art keywords
- target area
- sound
- sound collection
- area sound
- extraction signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 51
- 238000000605 extraction Methods 0.000 claims abstract description 106
- 238000003491 array Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 description 36
- 230000008569 process Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000009408 flooring Methods 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】 音声認識処理に好適な目的音を、より効率的な処理で収音する。【解決手段】 本発明は、音声認識装置に関する。そして、本発明の音声認識装置は、複数のマイクアレイのビームフォーミング出力に基づいて非目的エリア音抽出信号を取得し、非目的エリア音抽出信号に音声成分が含まれるか否かを判定し、判定結果が非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、判定結果が非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合入力信号を収音結果として取得し、収音結果について音声認識処理を行うことを特徴とする。【選択図】 図1
Description
この発明は、音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法に関し、例えば、雑音環境下で特定のエリアの音を強調してそれ以外のエリアの音を抑制するシステムに適用し得る。
雑音環境下で音声認識応用システムを利用する場合、必要な目的音と同時に混入する周囲の雑音は、良好なコミュニケーションを阻害し、音声認識率の低下をもたらす厄介な存在である。
従来、雑音環境下において目的音(話者の発話音声)を収音して音声認識処理する技術としては、例えば、特許文献1、2の記載技術が存在する。
特許文献1に記載された装置では、雑音環境下で目的音源(目的音を発話する話者)の存在するエリア(以下、「目的エリア」と呼ぶ)の音(以下、「目的エリア音」と呼ぶ)を強調してそれ以外のエリア(以下、「非目的エリア」と呼ぶ)の音(以下、「非目的エリア音」と呼ぶ)を抑制するエリア収音処理を利用している。そして、特許文献1に記載された装置では、目的エリア音に対し、混合用信号を複数の混合量で混合し、それぞれの混合音で音声認識を行った結果に対して信頼度を算出し、最も信頼度の高い音声認識結果を選択して出力する。
特許文献2に記載された装置では、ノイズレベルが高い時は話者に指向性を向けた指向性マイクロホンの信号を音声認識処理に適用し、ノイズレベルが低い時には無指向性マイクロホンの信号を音声認識処理に適用している。これにより、特許文献2に記載された装置では、指向性信号生成処理に伴う収音歪の影響を抑制するようにしている。
しかしながら、特許文献1に記載された装置では、複数回の音声認識処理を行う必要があるため、処理量および処理コストが増大するという問題がある。また、特許文献1に記載された装置では、信頼度の算出結果が高い結果が、最も正しい音声認識結果であるとは限らないという問題がある。さらに、特許文献1に記載された装置では、エリア収音処理に伴う歪の影響が少なからず残るという問題が残っている。さらにまた、特許文献2の記載技術では、ノイズレベルが高い時は、指向性信号生成処理に伴う歪の影響が生じるという問題がある。
以上のような問題に鑑みて、音声認識処理に好適な目的音を、より効率的な処理で収音する音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法が望まれている。
第1の本発明の音声認識装置は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得するエリア収音処理手段と、前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定する判定手段と、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する収音結果取得手段と、
前記収音結果取得手段が取得した収音結果について音声認識処理を行う音声認識処理手段とを有することを特徴とする。
前記収音結果取得手段が取得した収音結果について音声認識処理を行う音声認識処理手段とを有することを特徴とする。
第2の本発明の音声認識プログラムは、コンピュータを、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得するエリア収音処理手段と、前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定する判定手段と、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する収音結果取得手段と、前記収音結果取得手段が取得した収音結果について音声認識処理を行う音声認識処理手段として機能させることを特徴とする。
第3の本発明は、音声認識装置が行う音声認識方法において、前記音声認識装置は、エリア収音処理手段、判定手段、収音結果取得手段及び音声認識処理手段を有し、前記エリア収音処理手段は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得し、前記判定手段は、前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定し、前記収音結果取得手段は、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得し、前記音声認識処理手段は、前記収音結果取得手段が取得した収音結果について音声認識処理を行うことを特徴とする。
第4の本発明の収音装置は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得するエリア収音処理手段と、前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定する判定手段と、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する収音結果取得手段とを有することを特徴とする。
第5の本発明の収音プログラムは、コンピュータを、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得するエリア収音処理手段と、前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定する判定手段と、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する収音結果取得手段として機能させることを特徴とする。
第6の本発明は、収音装置が行う収音方法において、前記音声認識装置は、エリア収音処理手段、判定手段及び収音結果取得手段を有し、前記エリア収音処理手段は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得し、前記判定手段は、前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定し、前記収音結果取得手段は、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得することを特徴とする。
本発明によれば、音声認識処理に好適な目的音を、より効率的な処理で収音する音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法を提供することができる。
(A)主たる実施形態
以下、本発明による音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法の一実施形態を、図面を参照しながら詳述する。
以下、本発明による音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法の一実施形態を、図面を参照しながら詳述する。
(A-1)第1の実施形態の構成
図1は、この実施形態の音声認識装置10の機能的構成について示したブロック図である。
図1は、この実施形態の音声認識装置10の機能的構成について示したブロック図である。
音声認識装置10は、2つのマイクロホンアレイMA(MA1、MA2)から供給される入力信号に基づいて、目的エリア(収音対象となる話者が存在する領域)を音源とする目的エリア音(目的エリアに存在する話者の音声)を区別して収音し、収音した結果得られた信号(音声信号)について音声認識処理(例えば、収音した音声をテキスト化する処理等)する装置である。
マイクロホンアレイMA1、MA2は、目的エリアが存在する空間の任意の場所に配置される。目的エリアに対するマイクロホンアレイMA1、MA2の位置は、指向性が目的エリアでのみ重なればどこでも良い。各マイクロホンアレイMAは2つ以上のマイクロホンMから構成され、各マイクロホンMにより音響信号を収音する。この実施形態では、各マイクロホンアレイMAに、音響信号を収音する2つのマイクロホンM(M1、M2)が配置されるものとして説明する。すなわち、各マイクロホンアレイMAは、2chマイクロホンアレイを構成している。なお、マイクロホンアレイMAの数は2つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクロホンアレイMAを配置する必要がある。
次に、音声認識装置10の内部構成について説明する。
音声認識装置10は、収音処理部11及び音声認識処理部12を有している。
収音処理部11は、目的エリア音を収音して、その収音結果を音声認識処理部12に入力(供給)する。以下では、音声認識処理部12に入力(供給)される信号を「音声認識入力信号」とも呼ぶものとする。
音声認識処理部12は、収音処理部11から供給された音声認識入力信号ついて音声認識処理を行う。
音声認識装置10は、例えば、プロセッサやメモリ等を備えるコンピュータにプログラム(実施形態に係る音声認識プログラムを含む)を実行させるようにしてもよいが、その場合であっても、機能的には、図1のように示すことができる。
図2は、音声認識装置10のハードウェア構成の例について示したブロック図である。
図2では、音声認識装置10を、ソフトウェア(コンピュータ)を用いて構成する際のハードウェア構成の例について示している。
図2に示す音声認識装置10は、ハードウェア的な構成要素として、プログラム(実施形態の音声認識プログラムを含む)がインストールされたコンピュータ200を有している。また、コンピュータ200は、音声認識プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。
図2に示すコンピュータ200は、プロセッサ201、一次記憶部202、及び二次記憶部203を有している。一次記憶部202は、プロセッサ201の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリを適用することができる。二次記憶部203は、OS(Operating System)やプログラムデータ(実施形態に係る音声認識プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASH(登録商標)メモリやHDDやSSD等の不揮発性メモリを適用することができる。この実施形態のコンピュータ200では、プロセッサ201が起動する際、二次記憶部203に記録されたOSやプログラム(実施形態に係る音声認識プログラムを含む)を読み込み、一次記憶部202上に展開して実行する。
なお、コンピュータ200の具体的な構成は図2の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部202が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次記憶部203については除外した構成としてもよい。
この実施形態では、音声認識装置10を構成する要素としてコンピュータ200を記載しており、コンピュータ200に、収音処理部11及び音声認識処理部12の機能を備える音声認識プログラムがインストールされる例として説明しているが、収音処理部11と音声認識処理部12とで別のプログラム(ソフトウェア)として実現するようにしてもよい。例えば、コンピュータ200に収音処理部11に対応する収音プログラムと、音声認識処理部12に対応する音声認識処理プログラムをインストールし、これらのプログラムを連携させるようにしてもよい。なお、この実施形態では、収音処理部11を音声認識装置10の一部の要素として図示しているが、収音処理部11を単体の収音装置として実現するようにしてもよい。
次に、収音処理部11の内部構成について図1を用いて説明する。
収音処理部11は、信号入力部111、エリア収音処理部112、及び判定部113を有している。
信号入力部111は、マイクロホンアレイMA1、MA2で捕捉した音響信号をアナログ信号からディジタル信号に変換する。以下では、信号入力部111から、エリア収音処理部112に供給される信号(ディジタル信号)を「入力信号」と呼ぶものとする。また、信号入力部111は、入力信号(ディジタル信号)を時間領域から周波数領域の信号に変換してエリア収音処理部112に供給する。信号入力部111は、例えば、高速フーリエ変換を用いて時間領域から周波数領域へ変換するようにしてもよい。なお、ここでは、各マイクロホンアレイにおいて、マイクロホンM1、M2の時間領域の入力信号を、それぞれx1(t)、x2(t)とする。また、ここでは、各マイクロホンアレイにおいて、マイクロホンM1、M2の入力スペクトル(周波数領域の入力信号)を、それぞれX1、X2とする。
エリア収音処理部112は、入力信号からエリア収音処理により目的エリア音を抽出した信号(以下、「目的エリア音抽出信号」と呼ぶ)を取得する処理を行う。また、エリア収音処理部112は、目的エリアの周囲の非目的エリアを音源とする非目的エリア音を抽出した信号(以下、「非目的エリア音抽出信号」と呼ぶ)についても取得する処理を行う。
次に、エリア収音処理部112が行う目的エリア音抽出信号を取得する方式(エリア収音処理の方式)の例について説明する。
エリア収音処理部112では、種々のエリア収音処理を適用することができる。例えば、エリア収音処理部112では、以下の「参考文献1」等に記載されたエリア収音処理を適用することができる。
[参考文献1]特許第6923025号公報
[参考文献1]特許第6923025号公報
複数の音源が存在する環境下において、ある特定方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ(Beam Former;以下「BF」とも呼ぶ)がある。BFとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である(以下の参考文献2参照)。
[参考文献2]浅野太著、“音響テクノロジーシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-”、日本音響学会編、コロナ社、2011年2月25日発行
BFは、加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型BFに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。
[参考文献2]浅野太著、“音響テクノロジーシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-”、日本音響学会編、コロナ社、2011年2月25日発行
BFは、加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型BFに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。
図3は、マイクロホンMの数が2個の場合の減算型BF400に係る構成を示すブロック図である。
図4は、2個のマイクロホンM1、M2を用いた減算型BF400により形成される指向性フィルタの例について示した説明図である。
減算型BF400は、まず遅延器410により目的とする方向に存在する音(以下、「目的方向音」と呼ぶ)が各マイクロホンM1、M2に到来する信号の時間差を算出し、遅延を加えることにより目的方向音の位相を合わせる。上述の時間差は以下の(1)式により算出することができる。
ここで、dはマイクロホンM1、M2間の距離、cは音速、τLは遅延量である。またθLは、各マイクロホンM(M1、M2)を結んだ直線に対する垂直方向から目的方向への角度である。
また、ここで、死角がマイクロホンM1とM2の中心に対し、マイクロホンM1の方向に存在する場合、遅延器410は、マイクロホンM1の入力信号x1(t)に対し遅延処理を行う。その後、減算型BF400では、以下の(2)式に従い処理(減算処理)を行う。
減算型BF400の処理は周波数領域でも同様に行うことができ、その場合(2)式は以下の(3)のように変更される。
ここでθL=±π/2の場合、減算型BF400により形成される指向性は図4(a)に示すように、カージオイド型の単一指向性となる。また、「θL=0,π」の場合、減算型BF400により形成される指向性は、図4(b)のような8の字型の双指向性となる。
以下では、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」と呼び、双指向性を形成するフィルタを双指向性フィルタと呼ぶものとする。
また、減算器420では、スペクトル減算法(Spectral Subtraction;以下、単に、「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性は、以下の(4)式に従い全周波数、もしくは指定した周波数帯域で形成される。
以下の(4)式では、マイクロホンM1の入力信号X1を用いているが、マイクロホンM2の入力信号X2でも同様の効果を得ることができる。ここでβは、SSの強度を調節するための係数である。また、減算器420では、減算時に値がマイナスなった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行う。以上のような減算型BF400の処理方式では、双指向性の特性によって目的方向以外に存在する音(以下、「非目的音」と呼ぶ)を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音を強調することができる。
Y(n)=X1(n)-βM(n)…(4)
目的エリア音だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する非目的エリア音も収音してしまう可能性がある。そこで、参考文献1では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアヘ指向性を向けて指向性を目的エリアで交差させることで目的エリア音を収音するエリア収音を行っている。エリア収音では、まず各マイクロホンアレイのBF出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする。
例えば、2つのマイクロホンアレイを使用する場合、目的エリア音振幅スペクトルの補正係数は、以下の(5)式及び(6)式の組み合わせ、又は以下の(7)式及び(8)式の組み合わせにより算出することができる。ここで、Y1k(n)は第1のマイクロホンアレイMA1のBF出力の振幅スペクトルであり、Y2k(n)は第2のマイクロホンアレイMA2のBF出力の振幅スペクトルであり、Nは周波数ビンの総数であり、kは周波数である。また、ここで、α1(n)、α2(n)は各BF出力に対する振幅スペクトル補正係数である。さらに、ここで、modeは最頻値を表し、medianは中央値を表している。
以上の処理により、減算器420は、補正係数α1(n)、α2(n)を求め、求めた補正係数により各BF出力を補正し、SSすることで、目的エリア方向に存在する非目的エリア音を抽出する。さらに、減算器420は、抽出した非目的エリア音を各BFの出力からSSすることにより目的エリア音を抽出することができる。
減算型BF400は、第1のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音N1(n)を抽出する際、例えば、(9)式に示すように、第1のマイクロホンアレイのBF出力Y1(n)から第2のマイクロホンアレイのBF出力Y2(n)に振幅スペクトル補正係数α2を掛けたものをSSする。減算型BF400は、同様に、以下の(10)式に従い、第2のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音N2(n)を抽出する。
その後、減算型BF400は、以下の(11)式、又は(12)式に従い、各BF出力から非目的エリア音をSSして目的エリア音を抽出する。なお、以下の(11)式は、第1のマイクロホンアレイを基準として、目的エリア音を抽出する場合の処理を示している。また、以下の(12)式は、第2のマイクロホンアレイを基準として目的エリア音を抽出する場合の処理を示している。ここでγ1(n)、γ2(n)は、SS時の強度を変更するための係数である。
N1(n)=Y1(n)-α2(n)Y2(n)…(9)
N2(n)=Y2(n)-α1(n)Y1(n)…(10)
Z1(n)=Y1(n)-γ1(n)N1(n)…(11)
Z2(n)=Y2(n)-γ2(n)N2(n)…(12)
N2(n)=Y2(n)-α1(n)Y1(n)…(10)
Z1(n)=Y1(n)-γ1(n)N1(n)…(11)
Z2(n)=Y2(n)-γ2(n)N2(n)…(12)
以上のように、参考文献1、2に記載の技術では、複数のマイクロホンアレイで構成され、各マイクロホンアレイはビームフォーマによって目的エリア方向への指向性を形成し、すべてのビームフォーマ出力に含まれる目的エリア音のパワーが等しくなるようにパワーを補正し、それぞれのビームフォーマ出力をスペクトル減算することで非目的エリア音を抽出し、各ビームフォーマ出力から非目的エリア音をスペクトル減算することで、目的エリア音を抽出する。
この実施形態では、エリア収音処理部112も上記の(11)式または(12)式により、目的エリア音抽出信号を抽出する処理を行うものとする。
次に、エリア収音処理部112が非目的エリア音抽出信号を取得する方式の例について説明する。
エリア収音処理部112が、非目的エリア音抽出信号を取得する方式については限定されず、種々の方式を適用することができるが、例えば、入力信号(いずれかのマイクロホンアレイを構成するいずれかのマイクロホンの入力信号)から目的エリア音抽出信号を減算することにより取得するようにしてもよい。具体的な例として、目的エリア音抽出信号が上記の(11)式で得られるZ1であり、第1のマイクロホンアレイの第1のマイクロホンM1の入力信号X1から非目的エリア音抽出信号を抽出する場合について説明する。この場合、第1のマイクロホンアレイの第1のマイクロホンM1の入力信号X1には、目的エリア音と目的エリアの周囲の非目的エリア音の成分が含まれることになるため、ここから目的エリア音抽出信号Z1を減算すれば目的エリアの周囲の非目的エリア音の成分が抽出(強調)され、非目的エリア音抽出信号が得られることになる。
ここで、目的エリア音抽出音の性質について検討する。
近年、音声認識処理では、ノイズ除去(ノイズ耐性)の技術向上により、非音声のノイズ(以下、「非音声雑音」とも呼ぶ)の影響を受けにくくなっている。一方で、ノイズ除去の技術が向上しても、音声認識処理に入力される信号(以下、「音声認識入力信号」と呼ぶ)に歪みが有る場合、音声認識処理精度の低下は避けられない。また、目的音以外の音声の成分が含まれる場合(例えば、音声認識入力信号に複数の人物の音声成分が含まれる場合)は、目的音のみを分離できなければ、音声認識処理精度はやはり低下することになる。
ところで、参考文献1等にも記載されている通り、入力信号についてスペクトル減算(SS)によるエリア収音処理が適用される場合、通常フロアリング処理を行うが、このとき(時間周波数領域における)周囲の周波数成分に比べてパワーの大きい孤立周波数成分ができてしまうと、不快なミュージカルノイズ(歪み)が発生する原因となってしまう。さらに、従来の目的音強調処理では、ビームフォーマに限らず、周波数領域で処理した場合には上述のSSと同様にミュージカルノイズが発生する場合がある。
ここで、エリア収音処理の結果得られた目的エリア音抽出信号と、入力信号(いずれかのマイクロホンアレイのいずれかのマイクロホンの入力信号)について、音声認識精度(音声認識処理部12に音声認識入力信号として入力した場合の音声認識精度)への影響度(以下、「音声認識影響度」と呼ぶ)の観点で検討する。そうすると、入力信号に目的音(目的エリアに存在する話者の音声)以外の音声成分が含まれない場合に限定すれば、目的エリア音抽出信号よりも入力信号そのままの方が、音声認識影響度が小さく品質が高い(音声認識処理の精度が高くなる)ということになる。
入力信号に目的音(目的エリアに存在する話者の音声)以外の音声成分が含まれない場合については、例えば、上述の非目的エリア音抽出信号に人間の発話音声の成分が含まれるか否かにより判断することができる。
そこで、この実施形態の判定部113は、非目的エリア音抽出信号に非目的エリア(目的エリア以外)を音源とする人間の発話音声(以下、「妨害音声」と呼ぶ)の成分が含まれるか否かを判定する処理(以下、「妨害音声判定処理」と呼ぶ)を行い、その判定結果に応じて入力信号又は目的エリア音抽出信号のいずれかを選択し、選択した信号を収音結果(音声認識入力信号)として出力(音声認識処理部12に供給)するものとする。
この実施形態において、判定部113は、妨害音声判定処理により、非目的エリア音抽出信号に妨害音声の成分が含まれることを示す「妨害音声有り」又は、非目的エリア音抽出信号に妨害音声の成分が含まれないことを示す「妨害音声無し」のいずれかを判定するものとする。そして、判定部113は、妨害音声判定処理の結果が「妨害音声有り」だった場合は、目的エリア音抽出信号を収音結果として出力(音声認識処理部12に供給)し、妨害音声判定処理の結果が「妨害音声無し」だった場合は、入力信号(例えば、いずれかのマイクロホンアレイのいずれかのマイクロホンの入力信号)を収音結果として出力(音声認識処理部12に供給)する。
判定部113における妨害音声判定処理の具体的方法については限定されないものであり種々の音声区間検出処理等を適用することができる。判定部113における妨害音声判定処理としては、例えば、以下の参考文献3に記載された処理を適用するようにしてもよい。
[参考文献3]特開2022-32721号公報
[参考文献3]特開2022-32721号公報
(A-2)第1の実施形態の動作
次に、以上のような構成を有するこの実施形態の音声認識装置10の動作(実施形態の音声処理方法;実施形態の収音方法)を説明する。
次に、以上のような構成を有するこの実施形態の音声認識装置10の動作(実施形態の音声処理方法;実施形態の収音方法)を説明する。
まず、収音処理部11の動作を中心に説明する。
信号入力部111は、各マイクロホンアレイMA1、MA2で収音した音響信号をアナログ信号からディジタル信号に変換し、さらに周波数領域に変換する。
エリア収音処理部112は、マイクロホンアレイMA1、MA2の入力信号から、目的エリア音を収音するエリア収音処理を行って目的エリア音抽出信号を取得する。上記の通り、エリア収音処理部112は、マイクロホンアレイMA1、MA2について目的方向(目的エリアへの方向)に指向性を向けたBF出力を取得し、取得したBF出力に基づいて目的エリア(目的音を発話する話者の存在する領域)を音源とする音を抽出して目的エリア音抽出信号を取得する。また、上記の通り、エリア収音処理部112は、入力信号(いずれかのマイクロホンアレイを構成するいずれかのマイクロホンの入力信号)から目的エリア音抽出信号の成分を減算することで非目的エリア音抽出信号を得る。
判定部113は、エリア収音処理部112で得られた非目的エリア音抽出信号について妨害音声判定処理を行う。そして、判定部113は、妨害音声判定処理の結果が「妨害音声有り」だった場合は、エリア収音処理部112で得られた目的エリア音抽出信号を収音結果として出力(音声認識処理部12に供給)する。また、判定部113は、妨害音声判定処理の結果が「妨害音声無し」だった場合は、目的エリア音抽出信号を収音結果として入力信号(例えば、いずれかのマイクロホンアレイのいずれかのマイクロホンの入力信号)を収音結果として出力(音声認識処理部12に供給)する。
以上のように、収音処理部11(判定部113)では、目的エリア音に対する収音処理が行われ、収音結果が音声認識入力信号として音声認識処理部12に供給される。
そして、音声認識処理部12は、収音処理部11(判定部113)から供給される音声認識入力信号(収音結果)に対して、音声認識処理を行うことになる。
次に、収音処理部11(判定部113)における妨害音声判定処理と収音結果の関係について図5、図6を用いて説明する。
図5、図6は、判定部113における妨害音声判定処理の例について示した図である。
図5、図6では、マイクロホンアレイMA1、MA2のBF出力の指向性が目的エリアでのみ交差している状態について示している。図5、図6では、マイクロホンアレイMA1の指向性(BF出力の指向性)を一点鎖線で示し、マイクロホンアレイMA2の指向性(BF出力の指向性)を二点鎖線で示している。また、図5、図6では、楕円形のシンボルにより各音源の位置を示しており、当該シンボル(楕円形)の内部に当該音源による音の属性(「目的音」、「妨害音声」又は「非音声雑音」のいずれか)が付記されている。
図5では、目的エリアに目的音の音源(例えば、音声認識処理の対象となる話者)が存在し、目的エリアの周囲の非目的エリアに妨害音声と非音声雑音の音源が存在している。一方、図6では、目的エリアに目的音の音源が存在し、目的エリアの周囲の非目的エリアに非音声雑音の音源が存在しているが妨害音声の音源は存在していない。
図5の状態の場合、非目的エリア音抽出音には音声成分(妨害音声の成分)が含まれることになるので、判定部113による妨害音声判定処理では「妨害音声有り」の判定となる。したがって、図5の状態の場合、判定部113は、目的エリア音抽出音を収音結果(音声認識入力信号)として出力(音声認識処理部12に供給)する。図5の状態の場合、判定部113で得られる収音結果(音声認識入力信号)では、エリア収音処理(ビームフォーミング処理)により目的エリア音に多少の歪みが生じる可能性があるが、妨害音声については含まれないことになる。つまり、図5の状態の場合、エリア収音処理(ビームフォーミング処理)による目的音の歪みの発生よりも、妨害音声の成分が混入する方が、音声認識処理部12による認識率低下への影響が大きいので、妨害音声を優先して除去することが望ましい。
図6の状態の場合、非目的エリア音抽出音には音声成分(妨害音声の成分)が含まれないことになるので、判定部113による妨害音声判定処理では「妨害音声無し」の判定となる。したがって、図6の状態の場合、判定部113は、入力信号(いずれかのマイクロホンアレイのいずれかのマイクロホンの入力信号)をそのまま収音結果(音声認識入力信号)として出力(音声認識処理部12に供給)する。図6の状態の場合、判定部113で得られる収音結果(音声認識入力信号)には、非音声雑音は含まれるが、妨害音声は含まれず、目的エリア音抽出音よりも歪みの少ない目的音が含まれる。つまり、図6の状態の場合、判定部113では、音声認識処理の観点から目的エリア音抽出音よりも高い品質の収音結果(音声認識入力信号)が得られることになる。
(A-3)第1の実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
この実施形態によれば、以下のような効果を奏することができる。
この実施形態の音声認識装置10の収音処理部11では、非目的エリア音について妨害音声判定処理を行い、「妨害音声有り」だった場合は目的エリア音抽出信号を収音結果として取得して音声認識処理に適用し、「妨害音声無し」だった場合は入力信号をそのまま収音結果として取得して音声認識処理に適用する。これにより、この実施形態の音声認識装置10では、妨害音声が存在する状態(例えば、図5の状態)の場合は、妨害音声を除去した目的エリア音抽出信号に基づいて音声認識処理を行い、妨害音声が存在しない状態(例えば、図6の状態)の場合は、目的エリア音抽出信号よりも歪の少ない目的音を含む入力信号に基づいて音声認識処理を行う。つまり、この実施形態の音声認識装置10では、妨害音声が存在しない状態では、従来と比較して音声認識処理の観点からは歪みの少ない高品質な音声認識入力信号を得ることができる。
(B)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(B-1)上記の実施形態では、判定部113は、妨害音声判定処理の判定結果が「妨害音声有り」だった場合に「目的エリア音抽出信号」を収音結果として出力しているが、他の信号を出力するようにしてもよい。例えば、判定部113は、妨害音声判定処理の判定結果が「妨害音声有り」だった場合に、単にマイクロホンアレイMA1又はMA2のいずれかのBF出力(つまり、目的方向音)をそのまま収音結果として出力するようにしてもよい。マイクロホンアレイMA1又はMA2のいずれかの指向性の方向に妨害音声の音源が存在しないことが前提とできれば、判定部113では、エリア収音処理の結果でなくてもBF出力を取得するだけで妨害音声を含まない収音結果を得ることができる。
(B-2)エリア収音処理部112は、他の観点の処理により非目的エリア音抽出信号を取得するようにしてもよい。例えば、妨害音声の位置が各マイクロホンアレイから見て、BF出力の指向性と同じ方向である等限定される場合、エリア収音処理部112は、上記の(9)式又は(10)式で得られるN1又はN2を非目的エリア音抽出信号として取得するようにしてもよい。
(B-3)上記の実施形態において、判定部113は、妨害音声判定処理の判定結果が「妨害音声無し」だった場合に、入力信号を収音結果として取得する例について説明したが、他の観点の要素について考慮するようにしてもよい。例えば、判定部113は、妨害音声判定処理の判定結果が「妨害音声無し」であった場合でも、非目的エリア音抽出信号に含まれる非音声雑音が大きい場合(例えば、各周波数成分のパワーの平均値が一定以上の場合)には、目的エリア音抽出音を収音結果とするようにしてもよい。
10…音声認識装置、11…収音処理部、12…音声認識処理部、111…信号入力部、112…エリア収音処理部、113…判定部、M、M1、M2…マイクロホン、MA、MA1、MA2…マイクロホンアレイ
Claims (7)
- 複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得するエリア収音処理手段と、
前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定する判定手段と、
前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する収音結果取得手段と、
前記収音結果取得手段が取得した収音結果について音声認識処理を行う音声認識処理手段と
を有することを特徴とする音声認識装置。 - 前記エリア収音処理手段は、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリアを音源とする音を抽出する目的エリア音抽出処理を行い、目的エリア音抽出信号も取得し、
前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記目的エリア音抽出信号を収音結果として取得する
ことを特徴とする請求項1に記載の音声認識装置。 - コンピュータを、
複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得するエリア収音処理手段と、
前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定する判定手段と、
前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する収音結果取得手段と、
前記収音結果取得手段が取得した収音結果について音声認識処理を行う音声認識処理手段と
して機能させることを特徴とする音声認識プログラム。 - 音声認識装置が行う音声認識方法において、
前記音声認識装置は、エリア収音処理手段、判定手段、収音結果取得手段及び音声認識処理手段を有し、
前記エリア収音処理手段は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得し、
前記判定手段は、前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定し、
前記収音結果取得手段は、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得し、
前記音声認識処理手段は、前記収音結果取得手段が取得した収音結果について音声認識処理を行う
ことを特徴とする音声認識方法。 - 複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得するエリア収音処理手段と、
前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定する判定手段と、
前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する収音結果取得手段と、
を有することを特徴とする収音装置。 - コンピュータを、
複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得するエリア収音処理手段と、
前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定する判定手段と、
前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する収音結果取得手段と
して機能させることを特徴とする収音プログラム。 - 収音装置が行う収音方法において、
前記音声認識装置は、エリア収音処理手段、判定手段及び収音結果取得手段を有し、
前記エリア収音処理手段は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得し、
前記判定手段は、前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定し、
前記収音結果取得手段は、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する
ことを特徴とする収音方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022130549A JP2024027617A (ja) | 2022-08-18 | 2022-08-18 | 音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022130549A JP2024027617A (ja) | 2022-08-18 | 2022-08-18 | 音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024027617A true JP2024027617A (ja) | 2024-03-01 |
Family
ID=90039688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022130549A Pending JP2024027617A (ja) | 2022-08-18 | 2022-08-18 | 音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024027617A (ja) |
-
2022
- 2022-08-18 JP JP2022130549A patent/JP2024027617A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6187626B1 (ja) | 収音装置及びプログラム | |
JP6065028B2 (ja) | 収音装置、プログラム及び方法 | |
JP6540730B2 (ja) | 収音装置、プログラム及び方法、並びに、判定装置、プログラム及び方法 | |
JP6943120B2 (ja) | 収音装置、プログラム及び方法 | |
JP6436180B2 (ja) | 収音装置、プログラム及び方法 | |
JP2016163135A (ja) | 収音装置、プログラム及び方法 | |
JP6725014B1 (ja) | 収音装置、収音プログラム及び収音方法 | |
JP2024027617A (ja) | 音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法 | |
US11095979B2 (en) | Sound pick-up apparatus, recording medium, and sound pick-up method | |
JP7158976B2 (ja) | 収音装置、収音プログラム及び収音方法 | |
JP6879340B2 (ja) | 収音装置、収音プログラム、及び収音方法 | |
JP6624256B1 (ja) | 収音装置、プログラム及び方法 | |
JP6065029B2 (ja) | 収音装置、プログラム及び方法 | |
JP6863004B2 (ja) | 収音装置、プログラム及び方法 | |
JP6923025B1 (ja) | 収音装置、プログラム及び方法 | |
JP7380783B1 (ja) | 収音装置、収音プログラム、収音方法、判定装置、判定プログラム及び判定方法 | |
JP6624255B1 (ja) | 収音装置、プログラム及び方法 | |
JP7404657B2 (ja) | 音声認識装置、音声認識プログラム、及び音声認識方法 | |
Bagekar et al. | Dual channel coherence based speech enhancement with wavelet denoising | |
JP6669219B2 (ja) | 収音装置、プログラム及び方法 | |
JP7207159B2 (ja) | 収音装置、収音プログラム、収音方法、及び収音システム | |
JP7207170B2 (ja) | 収音装置、収音プログラム、収音方法、及び収音システム | |
JP2020167530A (ja) | 収音装置、収音プログラム及び収音方法 | |
JP2024008102A (ja) | 信号処理装置、信号処理プログラム及び信号処理方法 | |
JP2021125851A (ja) | 収音装置、収音プログラム及び収音方法 |