JP2024027617A

JP2024027617A - 音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法

Info

Publication number: JP2024027617A
Application number: JP2022130549A
Authority: JP
Inventors: 高詩石黒; Takashi Ishiguro
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2024-03-01

Abstract

【課題】音声認識処理に好適な目的音を、より効率的な処理で収音する。【解決手段】本発明は、音声認識装置に関する。そして、本発明の音声認識装置は、複数のマイクアレイのビームフォーミング出力に基づいて非目的エリア音抽出信号を取得し、非目的エリア音抽出信号に音声成分が含まれるか否かを判定し、判定結果が非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、判定結果が非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合入力信号を収音結果として取得し、収音結果について音声認識処理を行うことを特徴とする。【選択図】図１

Description

この発明は、音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法に関し、例えば、雑音環境下で特定のエリアの音を強調してそれ以外のエリアの音を抑制するシステムに適用し得る。

雑音環境下で音声認識応用システムを利用する場合、必要な目的音と同時に混入する周囲の雑音は、良好なコミュニケーションを阻害し、音声認識率の低下をもたらす厄介な存在である。

従来、雑音環境下において目的音（話者の発話音声）を収音して音声認識処理する技術としては、例えば、特許文献１、２の記載技術が存在する。

特許文献１に記載された装置では、雑音環境下で目的音源（目的音を発話する話者）の存在するエリア（以下、「目的エリア」と呼ぶ）の音（以下、「目的エリア音」と呼ぶ）を強調してそれ以外のエリア（以下、「非目的エリア」と呼ぶ）の音（以下、「非目的エリア音」と呼ぶ）を抑制するエリア収音処理を利用している。そして、特許文献１に記載された装置では、目的エリア音に対し、混合用信号を複数の混合量で混合し、それぞれの混合音で音声認識を行った結果に対して信頼度を算出し、最も信頼度の高い音声認識結果を選択して出力する。

特許文献２に記載された装置では、ノイズレベルが高い時は話者に指向性を向けた指向性マイクロホンの信号を音声認識処理に適用し、ノイズレベルが低い時には無指向性マイクロホンの信号を音声認識処理に適用している。これにより、特許文献２に記載された装置では、指向性信号生成処理に伴う収音歪の影響を抑制するようにしている。

特開２０２０－１９４０９３号公報特開２０１１－２５７６２７号公報

しかしながら、特許文献１に記載された装置では、複数回の音声認識処理を行う必要があるため、処理量および処理コストが増大するという問題がある。また、特許文献１に記載された装置では、信頼度の算出結果が高い結果が、最も正しい音声認識結果であるとは限らないという問題がある。さらに、特許文献１に記載された装置では、エリア収音処理に伴う歪の影響が少なからず残るという問題が残っている。さらにまた、特許文献２の記載技術では、ノイズレベルが高い時は、指向性信号生成処理に伴う歪の影響が生じるという問題がある。

以上のような問題に鑑みて、音声認識処理に好適な目的音を、より効率的な処理で収音する音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法が望まれている。

第１の本発明の音声認識装置は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得するエリア収音処理手段と、前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定する判定手段と、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する収音結果取得手段と、
前記収音結果取得手段が取得した収音結果について音声認識処理を行う音声認識処理手段とを有することを特徴とする。

第２の本発明の音声認識プログラムは、コンピュータを、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得するエリア収音処理手段と、前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定する判定手段と、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する収音結果取得手段と、前記収音結果取得手段が取得した収音結果について音声認識処理を行う音声認識処理手段として機能させることを特徴とする。

第３の本発明は、音声認識装置が行う音声認識方法において、前記音声認識装置は、エリア収音処理手段、判定手段、収音結果取得手段及び音声認識処理手段を有し、前記エリア収音処理手段は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得し、前記判定手段は、前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定し、前記収音結果取得手段は、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得し、前記音声認識処理手段は、前記収音結果取得手段が取得した収音結果について音声認識処理を行うことを特徴とする。

第４の本発明の収音装置は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得するエリア収音処理手段と、前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定する判定手段と、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する収音結果取得手段とを有することを特徴とする。

第５の本発明の収音プログラムは、コンピュータを、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得するエリア収音処理手段と、前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定する判定手段と、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する収音結果取得手段として機能させることを特徴とする。

第６の本発明は、収音装置が行う収音方法において、前記音声認識装置は、エリア収音処理手段、判定手段及び収音結果取得手段を有し、前記エリア収音処理手段は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得し、前記判定手段は、前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定し、前記収音結果取得手段は、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得することを特徴とする。

本発明によれば、音声認識処理に好適な目的音を、より効率的な処理で収音する音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法を提供することができる。

実施形態に係る音声認識装置（収音装置）の機能的構成について示したブロック図である。実施形態に係る音声認識装置（収音装置）のハードウェア構成について示したブロック図である。減算型ビームフォーマに係る構成を示すブロック図である。減算型ビームフォーマにより形成される指向性フィルタの例について示した説明図である。実施形態に係る判定部における妨害音声判定処理の例について示した図（その１：妨害音声有りの場合）である。実施形態に係る判定部における妨害音声判定処理の例について示した図（その２：妨害音声無しの場合）である。

（Ａ）主たる実施形態
以下、本発明による音声認識装置、音声認識プログラム、音声認識方法、収音装置、収音プログラム及び収音方法の一実施形態を、図面を参照しながら詳述する。

（Ａ－１）第１の実施形態の構成
図１は、この実施形態の音声認識装置１０の機能的構成について示したブロック図である。

音声認識装置１０は、２つのマイクロホンアレイＭＡ（ＭＡ１、ＭＡ２）から供給される入力信号に基づいて、目的エリア（収音対象となる話者が存在する領域）を音源とする目的エリア音（目的エリアに存在する話者の音声）を区別して収音し、収音した結果得られた信号（音声信号）について音声認識処理（例えば、収音した音声をテキスト化する処理等）する装置である。

マイクロホンアレイＭＡ１、ＭＡ２は、目的エリアが存在する空間の任意の場所に配置される。目的エリアに対するマイクロホンアレイＭＡ１、ＭＡ２の位置は、指向性が目的エリアでのみ重なればどこでも良い。各マイクロホンアレイＭＡは２つ以上のマイクロホンＭから構成され、各マイクロホンＭにより音響信号を収音する。この実施形態では、各マイクロホンアレイＭＡに、音響信号を収音する２つのマイクロホンＭ（Ｍ１、Ｍ２）が配置されるものとして説明する。すなわち、各マイクロホンアレイＭＡは、２ｃｈマイクロホンアレイを構成している。なお、マイクロホンアレイＭＡの数は２つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクロホンアレイＭＡを配置する必要がある。

次に、音声認識装置１０の内部構成について説明する。

音声認識装置１０は、収音処理部１１及び音声認識処理部１２を有している。

収音処理部１１は、目的エリア音を収音して、その収音結果を音声認識処理部１２に入力（供給）する。以下では、音声認識処理部１２に入力（供給）される信号を「音声認識入力信号」とも呼ぶものとする。

音声認識処理部１２は、収音処理部１１から供給された音声認識入力信号ついて音声認識処理を行う。

音声認識装置１０は、例えば、プロセッサやメモリ等を備えるコンピュータにプログラム（実施形態に係る音声認識プログラムを含む）を実行させるようにしてもよいが、その場合であっても、機能的には、図１のように示すことができる。

図２は、音声認識装置１０のハードウェア構成の例について示したブロック図である。

図２では、音声認識装置１０を、ソフトウェア（コンピュータ）を用いて構成する際のハードウェア構成の例について示している。

図２に示す音声認識装置１０は、ハードウェア的な構成要素として、プログラム（実施形態の音声認識プログラムを含む）がインストールされたコンピュータ２００を有している。また、コンピュータ２００は、音声認識プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。

図２に示すコンピュータ２００は、プロセッサ２０１、一次記憶部２０２、及び二次記憶部２０３を有している。一次記憶部２０２は、プロセッサ２０１の作業用メモリ（ワークメモリ）として機能する記憶手段であり、例えば、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の高速動作するメモリを適用することができる。二次記憶部２０３は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やプログラムデータ（実施形態に係る音声認識プログラムのデータを含む）等の種々のデータを記録する記憶手段であり、例えば、ＦＬＡＳＨ（登録商標）メモリやＨＤＤやＳＳＤ等の不揮発性メモリを適用することができる。この実施形態のコンピュータ２００では、プロセッサ２０１が起動する際、二次記憶部２０３に記録されたＯＳやプログラム（実施形態に係る音声認識プログラムを含む）を読み込み、一次記憶部２０２上に展開して実行する。

なお、コンピュータ２００の具体的な構成は図２の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部２０２が不揮発メモリ（例えば、ＦＬＡＳＨメモリ等）であれば、二次記憶部２０３については除外した構成としてもよい。

この実施形態では、音声認識装置１０を構成する要素としてコンピュータ２００を記載しており、コンピュータ２００に、収音処理部１１及び音声認識処理部１２の機能を備える音声認識プログラムがインストールされる例として説明しているが、収音処理部１１と音声認識処理部１２とで別のプログラム（ソフトウェア）として実現するようにしてもよい。例えば、コンピュータ２００に収音処理部１１に対応する収音プログラムと、音声認識処理部１２に対応する音声認識処理プログラムをインストールし、これらのプログラムを連携させるようにしてもよい。なお、この実施形態では、収音処理部１１を音声認識装置１０の一部の要素として図示しているが、収音処理部１１を単体の収音装置として実現するようにしてもよい。

次に、収音処理部１１の内部構成について図１を用いて説明する。

収音処理部１１は、信号入力部１１１、エリア収音処理部１１２、及び判定部１１３を有している。

信号入力部１１１は、マイクロホンアレイＭＡ１、ＭＡ２で捕捉した音響信号をアナログ信号からディジタル信号に変換する。以下では、信号入力部１１１から、エリア収音処理部１１２に供給される信号（ディジタル信号）を「入力信号」と呼ぶものとする。また、信号入力部１１１は、入力信号（ディジタル信号）を時間領域から周波数領域の信号に変換してエリア収音処理部１１２に供給する。信号入力部１１１は、例えば、高速フーリエ変換を用いて時間領域から周波数領域へ変換するようにしてもよい。なお、ここでは、各マイクロホンアレイにおいて、マイクロホンＭ１、Ｍ２の時間領域の入力信号を、それぞれｘ_１（ｔ）、ｘ_２（ｔ）とする。また、ここでは、各マイクロホンアレイにおいて、マイクロホンＭ１、Ｍ２の入力スペクトル（周波数領域の入力信号）を、それぞれＸ_１、Ｘ_２とする。

エリア収音処理部１１２は、入力信号からエリア収音処理により目的エリア音を抽出した信号（以下、「目的エリア音抽出信号」と呼ぶ）を取得する処理を行う。また、エリア収音処理部１１２は、目的エリアの周囲の非目的エリアを音源とする非目的エリア音を抽出した信号（以下、「非目的エリア音抽出信号」と呼ぶ）についても取得する処理を行う。

次に、エリア収音処理部１１２が行う目的エリア音抽出信号を取得する方式（エリア収音処理の方式）の例について説明する。

エリア収音処理部１１２では、種々のエリア収音処理を適用することができる。例えば、エリア収音処理部１１２では、以下の「参考文献１」等に記載されたエリア収音処理を適用することができる。
［参考文献１］特許第６９２３０２５号公報

複数の音源が存在する環境下において、ある特定方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ（ＢｅａｍＦｏｒｍｅｒ；以下「ＢＦ」とも呼ぶ）がある。ＢＦとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である（以下の参考文献２参照）。
［参考文献２］浅野太著、“音響テクノロジーシリーズ１６音のアレイ信号処理－音源の定位・追跡と分離－”、日本音響学会編、コロナ社、２０１１年２月２５日発行
ＢＦは、加算型と減算型の大きく２つの種類に分けられる。特に減算型ＢＦは、加算型ＢＦに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。

図３は、マイクロホンＭの数が２個の場合の減算型ＢＦ４００に係る構成を示すブロック図である。

図４は、２個のマイクロホンＭ１、Ｍ２を用いた減算型ＢＦ４００により形成される指向性フィルタの例について示した説明図である。

減算型ＢＦ４００は、まず遅延器４１０により目的とする方向に存在する音（以下、「目的方向音」と呼ぶ）が各マイクロホンＭ１、Ｍ２に到来する信号の時間差を算出し、遅延を加えることにより目的方向音の位相を合わせる。上述の時間差は以下の（１）式により算出することができる。

ここで、ｄはマイクロホンＭ１、Ｍ２間の距離、ｃは音速、τ_Ｌは遅延量である。またθ_Ｌは、各マイクロホンＭ（Ｍ１、Ｍ２）を結んだ直線に対する垂直方向から目的方向への角度である。

また、ここで、死角がマイクロホンＭ１とＭ２の中心に対し、マイクロホンＭ１の方向に存在する場合、遅延器４１０は、マイクロホンＭ１の入力信号ｘ_１（ｔ）に対し遅延処理を行う。その後、減算型ＢＦ４００では、以下の（２）式に従い処理（減算処理）を行う。

減算型ＢＦ４００の処理は周波数領域でも同様に行うことができ、その場合（２）式は以下の（３）のように変更される。

ここでθ_Ｌ＝±π／２の場合、減算型ＢＦ４００により形成される指向性は図４(ａ)に示すように、カージオイド型の単一指向性となる。また、「θ_Ｌ＝０，π」の場合、減算型ＢＦ４００により形成される指向性は、図４(ｂ)のような８の字型の双指向性となる。

以下では、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」と呼び、双指向性を形成するフィルタを双指向性フィルタと呼ぶものとする。

また、減算器４２０では、スペクトル減算法（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ；以下、単に、「ＳＳ」とも呼ぶ）を用いることで、双指向性の死角に強い指向性を形成することもできる。ＳＳによる指向性は、以下の（４）式に従い全周波数、もしくは指定した周波数帯域で形成される。

以下の（４）式では、マイクロホンＭ１の入力信号Ｘ_１を用いているが、マイクロホンＭ２の入力信号Ｘ_２でも同様の効果を得ることができる。ここでβは、ＳＳの強度を調節するための係数である。また、減算器４２０では、減算時に値がマイナスなった場合は、０または元の値を小さくした値に置き換えるフロアリング処理を行う。以上のような減算型ＢＦ４００の処理方式では、双指向性の特性によって目的方向以外に存在する音（以下、「非目的音」と呼ぶ）を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音を強調することができる。

Ｙ（ｎ）＝Ｘ_１（ｎ）－βＭ（ｎ）…（４）

目的エリア音だけを収音したい場合、減算型ＢＦを用いるだけでは、そのエリアの周囲に存在する非目的エリア音も収音してしまう可能性がある。そこで、参考文献１では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアヘ指向性を向けて指向性を目的エリアで交差させることで目的エリア音を収音するエリア収音を行っている。エリア収音では、まず各マイクロホンアレイのＢＦ出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする。

例えば、２つのマイクロホンアレイを使用する場合、目的エリア音振幅スペクトルの補正係数は、以下の（５）式及び（６）式の組み合わせ、又は以下の（７）式及び（８）式の組み合わせにより算出することができる。ここで、Ｙ_１ｋ（ｎ）は第１のマイクロホンアレイＭＡ１のＢＦ出力の振幅スペクトルであり、Ｙ_２ｋ（ｎ）は第２のマイクロホンアレイＭＡ２のＢＦ出力の振幅スペクトルであり、Ｎは周波数ビンの総数であり、ｋは周波数である。また、ここで、α_１（ｎ）、α_２（ｎ）は各ＢＦ出力に対する振幅スペクトル補正係数である。さらに、ここで、ｍｏｄｅは最頻値を表し、ｍｅｄｉａｎは中央値を表している。

以上の処理により、減算器４２０は、補正係数α_１（ｎ）、α_２（ｎ）を求め、求めた補正係数により各ＢＦ出力を補正し、ＳＳすることで、目的エリア方向に存在する非目的エリア音を抽出する。さらに、減算器４２０は、抽出した非目的エリア音を各ＢＦの出力からＳＳすることにより目的エリア音を抽出することができる。

減算型ＢＦ４００は、第１のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音Ｎ_１（ｎ）を抽出する際、例えば、（９）式に示すように、第１のマイクロホンアレイのＢＦ出力Ｙ_１（ｎ）から第２のマイクロホンアレイのＢＦ出力Ｙ_２（ｎ）に振幅スペクトル補正係数α_２を掛けたものをＳＳする。減算型ＢＦ４００は、同様に、以下の（１０）式に従い、第２のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音Ｎ_２（ｎ）を抽出する。

その後、減算型ＢＦ４００は、以下の（１１）式、又は（１２）式に従い、各ＢＦ出力から非目的エリア音をＳＳして目的エリア音を抽出する。なお、以下の（１１）式は、第１のマイクロホンアレイを基準として、目的エリア音を抽出する場合の処理を示している。また、以下の（１２）式は、第２のマイクロホンアレイを基準として目的エリア音を抽出する場合の処理を示している。ここでγ_１（ｎ）、γ_２（ｎ）は、ＳＳ時の強度を変更するための係数である。

Ｎ_１（ｎ）＝Ｙ_１（ｎ）－α_２（ｎ）Ｙ_２（ｎ）…（９）
Ｎ_２（ｎ）＝Ｙ_２（ｎ）－α_１（ｎ）Ｙ_１（ｎ）…（１０）
Ｚ_１（ｎ）＝Ｙ_１（ｎ）－γ_１（ｎ）Ｎ_１（ｎ）…（１１）
Ｚ_２（ｎ）＝Ｙ_２（ｎ）－γ_２（ｎ）Ｎ_２（ｎ）…（１２）

以上のように、参考文献１、２に記載の技術では、複数のマイクロホンアレイで構成され、各マイクロホンアレイはビームフォーマによって目的エリア方向への指向性を形成し、すべてのビームフォーマ出力に含まれる目的エリア音のパワーが等しくなるようにパワーを補正し、それぞれのビームフォーマ出力をスペクトル減算することで非目的エリア音を抽出し、各ビームフォーマ出力から非目的エリア音をスペクトル減算することで、目的エリア音を抽出する。

この実施形態では、エリア収音処理部１１２も上記の（１１）式または（１２）式により、目的エリア音抽出信号を抽出する処理を行うものとする。

次に、エリア収音処理部１１２が非目的エリア音抽出信号を取得する方式の例について説明する。

エリア収音処理部１１２が、非目的エリア音抽出信号を取得する方式については限定されず、種々の方式を適用することができるが、例えば、入力信号（いずれかのマイクロホンアレイを構成するいずれかのマイクロホンの入力信号）から目的エリア音抽出信号を減算することにより取得するようにしてもよい。具体的な例として、目的エリア音抽出信号が上記の（１１）式で得られるＺ_１であり、第１のマイクロホンアレイの第１のマイクロホンＭ１の入力信号Ｘ_１から非目的エリア音抽出信号を抽出する場合について説明する。この場合、第１のマイクロホンアレイの第１のマイクロホンＭ１の入力信号Ｘ_１には、目的エリア音と目的エリアの周囲の非目的エリア音の成分が含まれることになるため、ここから目的エリア音抽出信号Ｚ_１を減算すれば目的エリアの周囲の非目的エリア音の成分が抽出（強調）され、非目的エリア音抽出信号が得られることになる。

ここで、目的エリア音抽出音の性質について検討する。

近年、音声認識処理では、ノイズ除去（ノイズ耐性）の技術向上により、非音声のノイズ（以下、「非音声雑音」とも呼ぶ）の影響を受けにくくなっている。一方で、ノイズ除去の技術が向上しても、音声認識処理に入力される信号（以下、「音声認識入力信号」と呼ぶ）に歪みが有る場合、音声認識処理精度の低下は避けられない。また、目的音以外の音声の成分が含まれる場合（例えば、音声認識入力信号に複数の人物の音声成分が含まれる場合）は、目的音のみを分離できなければ、音声認識処理精度はやはり低下することになる。

ところで、参考文献１等にも記載されている通り、入力信号についてスペクトル減算（ＳＳ）によるエリア収音処理が適用される場合、通常フロアリング処理を行うが、このとき（時間周波数領域における）周囲の周波数成分に比べてパワーの大きい孤立周波数成分ができてしまうと、不快なミュージカルノイズ（歪み）が発生する原因となってしまう。さらに、従来の目的音強調処理では、ビームフォーマに限らず、周波数領域で処理した場合には上述のＳＳと同様にミュージカルノイズが発生する場合がある。

ここで、エリア収音処理の結果得られた目的エリア音抽出信号と、入力信号（いずれかのマイクロホンアレイのいずれかのマイクロホンの入力信号）について、音声認識精度（音声認識処理部１２に音声認識入力信号として入力した場合の音声認識精度）への影響度（以下、「音声認識影響度」と呼ぶ）の観点で検討する。そうすると、入力信号に目的音（目的エリアに存在する話者の音声）以外の音声成分が含まれない場合に限定すれば、目的エリア音抽出信号よりも入力信号そのままの方が、音声認識影響度が小さく品質が高い（音声認識処理の精度が高くなる）ということになる。

入力信号に目的音（目的エリアに存在する話者の音声）以外の音声成分が含まれない場合については、例えば、上述の非目的エリア音抽出信号に人間の発話音声の成分が含まれるか否かにより判断することができる。

そこで、この実施形態の判定部１１３は、非目的エリア音抽出信号に非目的エリア（目的エリア以外）を音源とする人間の発話音声（以下、「妨害音声」と呼ぶ）の成分が含まれるか否かを判定する処理（以下、「妨害音声判定処理」と呼ぶ）を行い、その判定結果に応じて入力信号又は目的エリア音抽出信号のいずれかを選択し、選択した信号を収音結果（音声認識入力信号）として出力（音声認識処理部１２に供給）するものとする。

この実施形態において、判定部１１３は、妨害音声判定処理により、非目的エリア音抽出信号に妨害音声の成分が含まれることを示す「妨害音声有り」又は、非目的エリア音抽出信号に妨害音声の成分が含まれないことを示す「妨害音声無し」のいずれかを判定するものとする。そして、判定部１１３は、妨害音声判定処理の結果が「妨害音声有り」だった場合は、目的エリア音抽出信号を収音結果として出力（音声認識処理部１２に供給）し、妨害音声判定処理の結果が「妨害音声無し」だった場合は、入力信号（例えば、いずれかのマイクロホンアレイのいずれかのマイクロホンの入力信号）を収音結果として出力（音声認識処理部１２に供給）する。

判定部１１３における妨害音声判定処理の具体的方法については限定されないものであり種々の音声区間検出処理等を適用することができる。判定部１１３における妨害音声判定処理としては、例えば、以下の参考文献３に記載された処理を適用するようにしてもよい。
［参考文献３］特開２０２２－３２７２１号公報

（Ａ－２）第１の実施形態の動作
次に、以上のような構成を有するこの実施形態の音声認識装置１０の動作（実施形態の音声処理方法；実施形態の収音方法）を説明する。

まず、収音処理部１１の動作を中心に説明する。

信号入力部１１１は、各マイクロホンアレイＭＡ１、ＭＡ２で収音した音響信号をアナログ信号からディジタル信号に変換し、さらに周波数領域に変換する。

エリア収音処理部１１２は、マイクロホンアレイＭＡ１、ＭＡ２の入力信号から、目的エリア音を収音するエリア収音処理を行って目的エリア音抽出信号を取得する。上記の通り、エリア収音処理部１１２は、マイクロホンアレイＭＡ１、ＭＡ２について目的方向（目的エリアへの方向）に指向性を向けたＢＦ出力を取得し、取得したＢＦ出力に基づいて目的エリア（目的音を発話する話者の存在する領域）を音源とする音を抽出して目的エリア音抽出信号を取得する。また、上記の通り、エリア収音処理部１１２は、入力信号（いずれかのマイクロホンアレイを構成するいずれかのマイクロホンの入力信号）から目的エリア音抽出信号の成分を減算することで非目的エリア音抽出信号を得る。

判定部１１３は、エリア収音処理部１１２で得られた非目的エリア音抽出信号について妨害音声判定処理を行う。そして、判定部１１３は、妨害音声判定処理の結果が「妨害音声有り」だった場合は、エリア収音処理部１１２で得られた目的エリア音抽出信号を収音結果として出力（音声認識処理部１２に供給）する。また、判定部１１３は、妨害音声判定処理の結果が「妨害音声無し」だった場合は、目的エリア音抽出信号を収音結果として入力信号（例えば、いずれかのマイクロホンアレイのいずれかのマイクロホンの入力信号）を収音結果として出力（音声認識処理部１２に供給）する。

以上のように、収音処理部１１（判定部１１３）では、目的エリア音に対する収音処理が行われ、収音結果が音声認識入力信号として音声認識処理部１２に供給される。

そして、音声認識処理部１２は、収音処理部１１（判定部１１３）から供給される音声認識入力信号（収音結果）に対して、音声認識処理を行うことになる。

次に、収音処理部１１（判定部１１３）における妨害音声判定処理と収音結果の関係について図５、図６を用いて説明する。

図５、図６は、判定部１１３における妨害音声判定処理の例について示した図である。

図５、図６では、マイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力の指向性が目的エリアでのみ交差している状態について示している。図５、図６では、マイクロホンアレイＭＡ１の指向性（ＢＦ出力の指向性）を一点鎖線で示し、マイクロホンアレイＭＡ２の指向性（ＢＦ出力の指向性）を二点鎖線で示している。また、図５、図６では、楕円形のシンボルにより各音源の位置を示しており、当該シンボル（楕円形）の内部に当該音源による音の属性（「目的音」、「妨害音声」又は「非音声雑音」のいずれか）が付記されている。

図５では、目的エリアに目的音の音源（例えば、音声認識処理の対象となる話者）が存在し、目的エリアの周囲の非目的エリアに妨害音声と非音声雑音の音源が存在している。一方、図６では、目的エリアに目的音の音源が存在し、目的エリアの周囲の非目的エリアに非音声雑音の音源が存在しているが妨害音声の音源は存在していない。

図５の状態の場合、非目的エリア音抽出音には音声成分（妨害音声の成分）が含まれることになるので、判定部１１３による妨害音声判定処理では「妨害音声有り」の判定となる。したがって、図５の状態の場合、判定部１１３は、目的エリア音抽出音を収音結果（音声認識入力信号）として出力（音声認識処理部１２に供給）する。図５の状態の場合、判定部１１３で得られる収音結果（音声認識入力信号）では、エリア収音処理（ビームフォーミング処理）により目的エリア音に多少の歪みが生じる可能性があるが、妨害音声については含まれないことになる。つまり、図５の状態の場合、エリア収音処理（ビームフォーミング処理）による目的音の歪みの発生よりも、妨害音声の成分が混入する方が、音声認識処理部１２による認識率低下への影響が大きいので、妨害音声を優先して除去することが望ましい。

図６の状態の場合、非目的エリア音抽出音には音声成分（妨害音声の成分）が含まれないことになるので、判定部１１３による妨害音声判定処理では「妨害音声無し」の判定となる。したがって、図６の状態の場合、判定部１１３は、入力信号（いずれかのマイクロホンアレイのいずれかのマイクロホンの入力信号）をそのまま収音結果（音声認識入力信号）として出力（音声認識処理部１２に供給）する。図６の状態の場合、判定部１１３で得られる収音結果（音声認識入力信号）には、非音声雑音は含まれるが、妨害音声は含まれず、目的エリア音抽出音よりも歪みの少ない目的音が含まれる。つまり、図６の状態の場合、判定部１１３では、音声認識処理の観点から目的エリア音抽出音よりも高い品質の収音結果（音声認識入力信号）が得られることになる。

（Ａ－３）第１の実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。

この実施形態の音声認識装置１０の収音処理部１１では、非目的エリア音について妨害音声判定処理を行い、「妨害音声有り」だった場合は目的エリア音抽出信号を収音結果として取得して音声認識処理に適用し、「妨害音声無し」だった場合は入力信号をそのまま収音結果として取得して音声認識処理に適用する。これにより、この実施形態の音声認識装置１０では、妨害音声が存在する状態（例えば、図５の状態）の場合は、妨害音声を除去した目的エリア音抽出信号に基づいて音声認識処理を行い、妨害音声が存在しない状態（例えば、図６の状態）の場合は、目的エリア音抽出信号よりも歪の少ない目的音を含む入力信号に基づいて音声認識処理を行う。つまり、この実施形態の音声認識装置１０では、妨害音声が存在しない状態では、従来と比較して音声認識処理の観点からは歪みの少ない高品質な音声認識入力信号を得ることができる。

（Ｂ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｂ－１）上記の実施形態では、判定部１１３は、妨害音声判定処理の判定結果が「妨害音声有り」だった場合に「目的エリア音抽出信号」を収音結果として出力しているが、他の信号を出力するようにしてもよい。例えば、判定部１１３は、妨害音声判定処理の判定結果が「妨害音声有り」だった場合に、単にマイクロホンアレイＭＡ１又はＭＡ２のいずれかのＢＦ出力（つまり、目的方向音）をそのまま収音結果として出力するようにしてもよい。マイクロホンアレイＭＡ１又はＭＡ２のいずれかの指向性の方向に妨害音声の音源が存在しないことが前提とできれば、判定部１１３では、エリア収音処理の結果でなくてもＢＦ出力を取得するだけで妨害音声を含まない収音結果を得ることができる。

（Ｂ－２）エリア収音処理部１１２は、他の観点の処理により非目的エリア音抽出信号を取得するようにしてもよい。例えば、妨害音声の位置が各マイクロホンアレイから見て、ＢＦ出力の指向性と同じ方向である等限定される場合、エリア収音処理部１１２は、上記の（９）式又は（１０）式で得られるＮ_１又はＮ_２を非目的エリア音抽出信号として取得するようにしてもよい。

（Ｂ－３）上記の実施形態において、判定部１１３は、妨害音声判定処理の判定結果が「妨害音声無し」だった場合に、入力信号を収音結果として取得する例について説明したが、他の観点の要素について考慮するようにしてもよい。例えば、判定部１１３は、妨害音声判定処理の判定結果が「妨害音声無し」であった場合でも、非目的エリア音抽出信号に含まれる非音声雑音が大きい場合（例えば、各周波数成分のパワーの平均値が一定以上の場合）には、目的エリア音抽出音を収音結果とするようにしてもよい。

１０…音声認識装置、１１…収音処理部、１２…音声認識処理部、１１１…信号入力部、１１２…エリア収音処理部、１１３…判定部、Ｍ、Ｍ１、Ｍ２…マイクロホン、ＭＡ、ＭＡ１、ＭＡ２…マイクロホンアレイ

Claims

複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得するエリア収音処理手段と、
前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定する判定手段と、
前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する収音結果取得手段と、
前記収音結果取得手段が取得した収音結果について音声認識処理を行う音声認識処理手段と
を有することを特徴とする音声認識装置。
前記エリア収音処理手段は、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリアを音源とする音を抽出する目的エリア音抽出処理を行い、目的エリア音抽出信号も取得し、
前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記目的エリア音抽出信号を収音結果として取得する
ことを特徴とする請求項１に記載の音声認識装置。
コンピュータを、
複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得するエリア収音処理手段と、
前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定する判定手段と、
前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する収音結果取得手段と、
前記収音結果取得手段が取得した収音結果について音声認識処理を行う音声認識処理手段と
して機能させることを特徴とする音声認識プログラム。
音声認識装置が行う音声認識方法において、
前記音声認識装置は、エリア収音処理手段、判定手段、収音結果取得手段及び音声認識処理手段を有し、
前記エリア収音処理手段は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得し、
前記判定手段は、前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定し、
前記収音結果取得手段は、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得し、
前記音声認識処理手段は、前記収音結果取得手段が取得した収音結果について音声認識処理を行う
ことを特徴とする音声認識方法。
複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得するエリア収音処理手段と、
前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定する判定手段と、
前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する収音結果取得手段と、
を有することを特徴とする収音装置。
コンピュータを、
複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得するエリア収音処理手段と、
前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定する判定手段と、
前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する収音結果取得手段と
して機能させることを特徴とする収音プログラム。
収音装置が行う収音方法において、
前記音声認識装置は、エリア収音処理手段、判定手段及び収音結果取得手段を有し、
前記エリア収音処理手段は、複数のマイクアレイから供給される入力信号に基づいて、目的エリアへの方向に指向性を形成してビームフォーミング出力を取得し、それぞれの前記ビームフォーミング出力に基づいて、前記目的エリア以外の非目的エリアを音源とする音を抽出する非目的エリア音抽出処理を行い、非目的エリア音抽出信号を取得し、
前記判定手段は、前記非目的エリア音抽出信号に音声成分が含まれるか否かを判定し、
前記収音結果取得手段は、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれるという判定結果だった場合、前記ビームフォーミング出力又は前記ビームフォーミング出力に基づく目的エリア音を含む信号を収音結果として取得し、前記判定手段の判定結果が前記非目的エリア音抽出信号に音声成分が含まれないという判定結果だった場合、前記入力信号を収音結果として取得する
ことを特徴とする収音方法。