JP6755843B2

JP6755843B2 - 音響処理装置、音声認識装置、音響処理方法、音声認識方法、音響処理プログラム及び音声認識プログラム

Info

Publication number: JP6755843B2
Application number: JP2017177022A
Authority: JP
Inventors: 籠嶋　岳彦; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2020-09-16
Anticipated expiration: 2037-09-14
Also published as: JP2019053180A; US10950227B2; US20190080689A1

Description

本実施形態は、音響処理装置、音声認識装置、音響処理方法、音声認識方法、音響処理プログラム及び音声認識プログラムに関する。

従来より、音声認識装置は、マイクロフォンで対象とする話者の音声を収録し、その収録信号から音声認識すべき目的の区間を検出し、検出された区間の音声について認識処理を行う。このとき、マイクロフォンに目的の音声以外の音声や雑音などが混入すると、音声区間として誤って検出された状態で認識処理が行われることになり、誤った不要な認識結果が出力されてしまう。そこで、従来では、複数のマイクアレイを用いて、音源の位置に基づいて目標の音声区間を検出する技術が開発されている。例えば、複数のマイクアレイそれぞれの指向性を制御して、目的エリア内を音源位置とする音声のみを強調する技術、複数のマイクロフォンで集音した音声の特徴量を、音源位置が既知の特徴量辞書と照合することにより、入力音声の音源位置を推定する技術が開示されている。

上述したような、目的音声以外の音声や雑音の混入による誤認識の問題は、発声開始のボタンを押して口元のマイクロフォンで集音する場合は発生しにくい。逆に、遠くのマイクロフォンで集音したり、ボタンを押さずにハンズフリーで集音したりする場合は発生しやすい。例えば、テレビに搭載したマイクロフォンでテレビの音声操作を実現する場合や、店頭に配置された情報処理端末に搭載のマイクロフォンで音声対話による商品案内を実現する場合などが考えられる。このような例では、マイクロフォンが搭載される機器によってマイクロフォンの本数や位置が異なり、また機器が設置される場所や用途によって音声を認識すべき目的エリアが異なる。このため、機器毎に目的エリアに応じたカスタマイズが必要となるが、その実現は極めて困難である。

特許第５４８２８４４号公報特開２００８−０７９２５６号公報

以上のように、従来の音声認識装置では、機器毎に目的エリアに応じたカスタマイズすることが困難であるという課題がある。特に、複数のマイクアレイそれぞれの指向性を制御して、目的エリア内を音源位置とする音声のみを強調する手法では、マイクアレイと目的エリアとの相対的な位置関係の測定に基づいてマイクアレイの指向性を制御するなどの設定が必要であり、専門家以外が設定するのは困難である。また、複数のマイクロフォンで集音した音声の特徴量を、音源位置が既知の特徴量辞書と照合して、入力音声の音源位置を推定する手法でも、予め辞書を作成した音源位置でなければ照合できないため、未知の環境では利用することができない。

本実施形態は上記課題に鑑みなされたもので、目的エリア外での話者の音声についてはその音声認識を実行せず、目的エリアでの話者の音声については確実に収録して音声認識を実行することのできる音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。

実施形態に係る音響処理装置は、目的エリア外が存在する空間の、互いに異なる位置に複数の第１のマイクロフォンを配置し、複数の第１のマイクロフォンでそれぞれ集音された音声から特徴量を抽出し、抽出される目的エリア外で発声された音声の特徴量に基づいて、前記空間における音声の発声位置が目的エリア外か否かを判定する判定モデルを学習によって生成し、前記空間に第２のマイクロフォンを配置して、前記第２のマイクロフォンで集音された音声から、前記特徴量と前記判定モデルとに基づいて、前記目的エリア外で発声された音声を除去し、残った音声を検出出力する。

第１の実施形態に係る音声認識機能を備えた音響処理装置の運用例を示す配置図。第１の実施形態に係る音響処理装置の構成を示すブロック図。第１の実施形態に係る音響処理装置の処理の流れを示すフローチャート。第２の実施形態に係る音響処理装置の構成の示すブロック図。第２の実施形態に係る音響処理装置の処理の流れを示すフローチャート。第２の実施形態に係る音響処理装置の判定モデルで使用されるニューラルネットワークの学習データの例を示す図。第３の実施形態に係る音声認識機能を備えた音響処理装置を搭載する案内装置を示す外観図。第１〜第３の実施形態に係る音響処理装置をコンピュータ装置によって実現する場合の構成を示すブロック図。

以下、本発明の一実施形態に係る音響処理装置について説明する。
（第１の実施形態）
図１は、第１の実施形態に係る音響処理装置１００を搭載したテレビ２００の他、電話機３００、椅子４００が配置された部屋を表している。テレビ２００には、表示画面の上部左右と下部中央にそれぞれ音響処理装置１００のマイクロフォン１０１、１０２、１０３が搭載されている。本実施形態の音響処理装置１００は、ユーザが発声した音声コマンドをマイクロフォン１０１〜１０３で集音し、その集音結果を音声認識してテレビ２００を制御する機能を備えている。この環境下では、音響処理装置１００において、電話機３００のベルの音や電話機３００で会話する人の音声が音声コマンドと誤って認識され、テレビ２００が誤動作する恐れがある。そこで、本実施形態に係る音響処理装置１００では、初期設定モードで部屋の中で音声認識領域から除外したい位置を目的エリア外として登録しておき、運用モードで、その登録位置からの音声を排除し、それ以外の位置からの音声を認識するように制御する。

図２は、テレビ２００に搭載されている本実施形態に係る音声認識機能を搭載した音響処理装置１００の構成を示すブロック図である。
図２において、マイクロフォン１０１，１０２，１０３は、それぞれテレビ２００の下部中央、上部左右に装備される。

制御部１０４は、ユーザがテレビ２００を操作して音声認識の初期設定モード／運用モードに設定したときに、テレビ２００から音響処理装置１００に供給される音声認識の初期設定モード／運用モードの通知を受け取り、初期設定のための処理と運用時の処理を選択的に切り替えて実行する。スイッチ１０５は、音声認識の初期設定モード／運用モードの入力切り替えを行う。

特徴量抽出部１０６は、マイクロフォン１０１、１０２、１０３で集音されたユーザの音声をデジタルデータに変換して３チャンネルの音声信号を生成し、その３チャンネルの音声信号から一定のフレーム周期（例えば8ms）で特徴量を抽出する。特徴量としては、各種のスペクトルパラメータ（ＦＦＴスペクトル、ケプストラム、ＬＰＣなど）やパワー、ＳＮＲなどのチャンネル毎に算出される特徴量に加えて、チャンネル間の時間差、位相差、パワー差などの複数チャンネル間で算出される特徴量を用いることができる。

音声特徴量抽出部１０７は、スイッチ１０５を介して供給される特徴量抽出部１０６で抽出された特徴量から背景音部分の特徴量を除去し、音声部分の特徴量を抽出する。目的エリア外特徴量記憶部１０８は、音声特徴量抽出部１０７で抽出された音声部分の特徴量を記憶する。

判定モデル生成部１０９は、目的エリア外特徴量記憶部１０８に記憶された目的エリア外の特徴量に基づいて、運用時の入力音声の音源位置が目的エリア外か否かを判定するための判定モデルを学習によって生成する。判定モデル記憶部１１０は、学習により生成された判定モデルを記憶する。

雑音除去部１１１は、マイクロフォン１０１、１０２、１０３で集音された音声にビームフォーミングなどの雑音除去処理や残響除去処理などを施して１チャンネルの音声信号を生成する。音声検出部１１２は、雑音除去部１１１で生成された音声信号から音声が存在する区間を検出し、音声検出区間において、スイッチ１０５を介して特徴量抽出部１０６から出力される特徴量と判定モデル記憶部１１０に記憶されている判定モデルとを比較参照して、入力音声の音源位置が目的エリア外であるか否かを判定する。さらに、音声が存在する区間から音源位置が目的エリア外と判定された区間を削除し、音声認識の対象とする音声認識区間を決定し、雑音除去部１１１の出力から、音声認識区間に対応する音声を切り出して出力する。音声認識部１１３は、音声検出部１１２で切り出された音声について音声認識処理を行ってテキストデータに変換し、そのテキストデータを音声認識結果として出力する。

上記構成による本実施形態に係る音響処理装置１００において、一連の処理の流れを図３に示し、その処理動作を説明する。
まず、ユーザがテレビ２００を操作して音声認識の初期設定モードに設定すると、テレビ２００は音響処理装置１００に音声認識の初期設定モードの通知を送信する。音響処理装置１００において、制御部１０４は、初期設定モードの通知を受けると（ステップＳ１１）、スイッチ１０５を初期設定側に接続し（ステップＳ１２）、テレビ２００の表示画面に「コマンド発声の認識領域から除外したい位置で、テレビに向かってお話しください」という目的エリア外での発声要求メッセージを表示させる（ステップＳ１３）。

上記のメッセージを見たユーザが、電話機３００の設置場所に移動し、目的エリア外登録を指示して、任意の内容で発声したとする。このとき、制御部１０４は、目的エリア外の登録指示を受けると（ステップＳ１４）、マイクロフォン１０１、１０２、１０３によってユーザが発声した音声を集音して３チャンネルの音声信号を生成する（ステップＳ１５）。次に、特徴量抽出部１０６によって一定のフレーム周期でそれぞれの音声信号の特徴量を抽出し（ステップＳ１６）、音声特徴量抽出部１０７によって抽出された特徴量から背景音部分の特徴量を削除し、音声部分の特徴量を抽出して（ステップＳ１７）、目的エリア外特徴量記憶部１０８に登録（記憶）する（ステップＳ１８）。制御部１０４は、登録完了と共に他の登録の有無の指示要求をテレビ２００に表示させる（ステップＳ１９）。

ここで、制御部１０４は、次の目的エリア外の登録指示の有無を判断し（ステップＳ２０）、登録指示があった場合にはステップＳ１５に戻り、登録指示がない場合には、音声認識の初期設定モード終了の指示を待機する（ステップＳ２１）。ユーザがテレビ２００を操作して音声認識の初期設定モードの終了を指示入力すると、テレビ２００は音響処理装置１００に音声認識の初期設定モード終了の通知を送信する。音響処理装置１００において、制御部１０４は、その初期設定モードの終了通知を受けると（ステップＳ２１）、判定モデル生成部１０９を起動して、目的エリア外特徴量記憶部１０８に蓄積された目的エリア外の特徴量データに基づいて、特徴量から目的エリア外か否かを判定するための判定モデルを学習によって生成し（ステップＳ２２）、学習により生成された判定モデルを判定モデル記憶部１１０に記憶する（ステップＳ２３）。

初期設定モード終了後、ユーザがテレビ２００を操作して音声認識の運用モードに設定すると、テレビ２００は音響処理装置１００に音声認識の運用モードの通知を送信する。制御部１０４は、テレビ２００から運用モードの通知を受けると（ステップＳ２４）、スイッチ１０５を運用側に接続する（ステップＳ２５）。この状態で、ユーザが任意の位置で任意のコマンドを発声すると、制御部１０４は、マイクロフォン１０１、１０２、１０３によってその音声を集音し、特徴量抽出部１０６によって特徴量を抽出する（ステップＳ２６）。

また、雑音除去部１１１によって、集音された音声信号についてビームフォーミングなどの雑音除去処理や残響除去処理などを実行して、１チャンネルの音声信号を生成し（ステップＳ２７）、音声検出部１１２によって雑音除去部１１１で生成された音声信号から音声が存在する区間を検出する（ステップＳ２８）。そして、音声検出区間において、スイッチ１０５を介して特徴量抽出部１０６から出力される特徴量と判定モデル記憶部１１０に記憶されている判定モデルとを比較参照して、入力音声の音源位置が目的エリア外であるか否かを判定する（ステップＳ２９）。

目的エリア外の場合には、音声が存在する区間から音源位置が目的エリア外と判定された区間を削除して、ステップＳ２６に戻って処理を進める。一方、入力音声の音源位置が目的エリア外でなかった場合には、音声認識の対象とする音声認識区間を決定し（ステップＳ３０）、雑音除去部１１１の出力から、音声認識区間に対応する音声を切り出し（ステップＳ３１）、音声認識部１１３によって、音声検出部１１２で切り出された音声について音声認識処理を行ってテキストデータに変換し、そのテキストデータを音声認識結果として出力する（ステップＳ３２）。

上記構成において、以下に具体的な運用処理動作を説明する。
例えば、ユーザが目的エリア内の椅子４００に座って、テレビ２００に対する操作のための音声コマンドとして「今晩８時に予約」と発声したとする。このとき、目的エリア外特徴量記憶部１０８には類似する特徴量が存在しないため、判定モデル記憶部１１０に記憶されている判定モデルでは、集音された音声の特徴量に相当する特徴量が得られない。その結果、音声検出部１１２ではユーザの発声位置は目的エリア内と判定される。これにより、音声検出部１１２では「今晩８時に予約」と発声された音声が切り出され、音声認識部１１３から「今晩８時に予約」というテキストが出力される。このように本実施形態では、音声認識結果に基づいて、録画予約を起動するなどのテレビの操作を行うことができる。

一方、ユーザが電話機３００の設置場所で、例えばレストランを予約するために「午後７時に予約をお願いします」と発声したとする。このとき、電話機３００の設置場所は、初期設定モードで目的エリア外として登録されており、判定モデルには、集音された音声の特徴量に近い特徴量が備わっている。このため、音声検出部１１２では、判定モデルと集音した音声の特徴量と比較参照すると、両者の特徴量類似関係が得られる。その結果、入力音声の音源位置は目的エリア外であると判定され、音声の切り出し出力は実行されない。したがって、音声認識部１１３による音声認識も実行されず、電話機３００の設置場所からの予約指示によってテレビ２００の録画予約が起動されるという誤動作を防止することができる。

次に、本実施形態の特徴である判定モデル生成部１０９および音声検出部１１２の詳細な実施形態について説明する。ここでは、目的エリア外特徴量記憶部１０８に記憶されている特徴量は、テレビ下部中央のマイクロフォン１０３の集音信号を基準とした場合のテレビ上部左右のマイクロフォン１０１およびマイクロフォン１０２の集音信号の時間差を表す２次元ベクトルとする。この特徴ベクトルは、２つの集音信号の相互相関の最大値を検出する手法で求めることが可能である。

ここで、音声特徴量抽出部１０７で抽出された音声区間に対応する特徴ベクトルは目的エリア外特徴量記憶部１０８に記憶されている。以下の説明において、記憶されている特徴ベクトルの個数をＮとし、特徴ベクトルをxn（1≦n≦N）で表す。
まず、判定モデルを特徴ベクトルのセントロイドx-で表す手法について説明する。判定モデルx-は次式で求められ、判定モデル記憶部１１０に記憶される。

音声検出部１１２では、入力信号の特徴量のうち、音量（パワー）などのパラメータを用いて音声が存在すると推定される区間を特定し、当該区間の特徴ベクトルyk (1≦k≦K）を求める。ただし、Kは当該区間のフレーム数（特徴ベクトルの個数）を表す。特徴ベクトルykのセントロイドを次式のy-で表すと、判定はy-とx-との距離に基づいて行わる。

すなわち、予め設定された閾値dと比較して、|y--x-|＜dであれば目的エリア外と判定して当該区間は削除し、それ以外であれば目的エリア内と判定して、雑音除去部１１１から出力された音声のうち、当該区間に対応する音声を切り出して出力する。あるいは、ykとx-とを比較して、フレーム毎に判定を行うようにしてもよい。この場合は、目的エリア外と判定されたフレームの割合が一定以上であれば当該区間の全てを削除してもよいし、目的エリア外と判定されたフレームのみを削除してもよい。

上述した実施形態では、セントロイドx-を全てのxnの平均として説明したが、ベクトル量子化によるクラスタリングを行って、複数のセントロイドを判定モデルとして記憶するようにしてもよい。この場合、判定すべき特徴ベクトルとモデルとの距離は、最も近いセントロイドとの距離で定義すればよい。このようにすることで、目的エリア外となる場所が広範囲である場合や、複数個所存在する場合にも対応することができる。

次に、判定モデルを特徴ベクトルの混合ガウスモデル（ＧＭＭ）で表す実施形態について説明する。特徴ベクトルxの確率分布p(x)を次式でモデル化する。

ここで、N(x|μm ,σm )は、平均μm 、分散σm のガウス分布を表している。Mは、予め定めた混合数である。特徴ベクトルxn（1≦n≦N）を学習データとして、その確率分布を表すモデルパラメータπm ，μm ，σm （m=1,…,M）を学習する。パラメータの学習には、ＥＭアルゴリズムなど既存の手法を用いることができる。このようにして求められたモデルパラメータは、判定モデル記憶部１１０に記憶される。

上記音声検出部１１２における検出の判定には、上述した実施形態と同様に特徴ベクトルykを用いる。判定は、判定モデルを用いて求められるy-の尤度に基づいて行われる。すなわち、予め設定された尤度の閾値λと比較して、p(y-)＞λあれば目的エリア外と判定して当該区間は削除し、それ以外であれば目的エリア内と判定して、雑音除去部１１１から出力された音声のうち、当該区間に対応する音声を切り出して出力する。あるいは、p(yk)＞λを評価してフレーム毎に判定を行うようにしてもよい。この場合は、目的エリア外と判定されたフレームの割合が一定以上であれば、当該区間の全てを削除してもよいし、目的エリア外と判定されたフレームのみを削除してもよい。このように、混合ガウスモデルＧＭＭを用いることにより、音源位置の分布に従って、より正確に目的エリア外からの音声を削除することが可能となる。

（第２の実施形態）
次に、図４を参照して第２の実施形態に係る音響処理装置の構成について説明する。図４において、図２と機能が同じ構成要素については同一の符号をつけて説明を省略する。
本実施形態では、目的エリア外の音声に加えて目的エリア内の音声を用いて判定モデルを学習する点が第１の実施形態と異なっている。すなわち、本実施形態では、音声認識しない目的エリア外の特徴量抽出・蓄積処理を行う第１初期設定モード（以下、第１モード、第１の実施形態と同様の初期設定モード）と、音声認識の目的エリア内の特徴量抽出・蓄積処理を行う第２初期設定モード（以下、第２モード）とを備え、ユーザがテレビ２００を操作して音声認識の初期設定を指示した場合に、第１モードと第２モードを順に選択処理するようになされている。

図４において、スイッチ１１４は、制御部１０４からの指示に従って、第１モード側、第２モード側に選択的に切り替える。目的エリア外特徴量記憶部１０８は、スイッチ１１４の第１モード側選択時に、第１の実施形態と同様に、音声特徴量抽出部１０７で抽出された音声特徴量を目的エリア外の特徴量として記憶する。これに対して、目的エリア内特徴量記憶部１１５は、スイッチ１１４の第２モード側選択時に、音声特徴量抽出部１０７で抽出された音声特徴量を目的エリア内の特徴量として記憶する。判定モデル生成部１１６は、目的エリア外特徴量記憶部１０８に記憶された目的エリア外特徴量と目的エリア内特徴量記憶部１１５に記憶された目的エリア内特徴量に基づいて、運用時の入力音声の音源位置が目的エリア外か目的エリア内かを直接的に判定するための判定モデルを学習する。判定モデル記憶部１１７は、判定モデル生成部１１６で学習により生成された判定モデルを記憶する。

音声検出部１１８は、雑音除去部１１１で生成された音声信号から音声が存在する区間を検出し、音声検出区間において、スイッチ１０５を介して特徴量抽出部１０６から出力される特徴量と判定モデル記憶部１１７に記憶されている判定モデルとを比較参照して、入力音声の音源位置が目的エリア外であるか目的エリア内であるかを判定する。さらに、音声が存在する区間から音源位置が目的エリア外と判定された区間を削除し、目的エリア内と判定された区間を音声認識の対象とする音声認識区間として決定し、雑音除去部１１１の出力から、音声認識区間に対応する音声を切り出して出力する。

上記構成による本実施形態に係る音響処理装置１００において、一連の処理の流れを図５に示し、その処理動作を説明する。
まず、ユーザがテレビ２００を操作して音声認識の初期設定モードに設定すると、テレビ２００は音響処理装置１００に音声認識の初期設定モードの通知を送信する。音響処理装置１００において、制御部１０４は、初期設定モードの通知を受けると（ステップＳ４１）、スイッチ１０５を初期設定側に、スイッチ１１４を第１モード側に接続し（ステップＳ４２）、テレビ２００の表示画面に「コマンド発声の認識領域から除外したい位置で、テレビに向かってお話しください」という目的エリア外での発声要求メッセージを表示させる（ステップＳ４３）。

上記のメッセージを見たユーザが、電話機３００の設置場所に移動し、目的エリア外登録を指示して、任意の内容で発声したとする。このとき、テレビ２００は、音響処理装置１００に目的エリア外登録指示を送信する。音響処理装置１００において、制御部１０４は、目的エリア外の登録指示を受けると（ステップＳ４４）、マイクロフォン１０１、１０２、１０３によってユーザが発声した音声を集音して３チャンネルの音声信号を生成する（ステップＳ４５）。次に、特徴量抽出部１０６によって一定のフレーム周期でそれぞれの音声信号の特徴量を抽出し（ステップＳ４６）、音声特徴量抽出部１０７によって抽出された特徴量から背景音部分の特徴量を削除し、音声部分の特徴量を抽出して（ステップＳ４７）、目的エリア外特徴量記憶部１０８に記憶する（ステップＳ４８）。制御部１０４は、登録完了と共に他の登録の有無の指示要求をテレビ２００に表示させる（ステップＳ４９）。

ここで、制御部１０４は、次の目的エリア外の登録指示の有無を判断し（ステップＳ５０）、登録指示があった場合にはステップＳ４５に戻り、登録指示がない場合には、目的エリア外の登録終了指示を待機する（ステップＳ５１）。ユーザがテレビ２００を操作して目的エリア外の登録終了を指示入力すると、テレビ２００は音響処理装置１００に目的エリア外の登録終了の通知を送信する。音響処理装置１００において、制御部１０４は、その目的エリア外の登録終了通知を受けると（ステップＳ５１）、スイッチ１１４を第２モード側に接続し（ステップＳ５２）、テレビ２００の表示画面に「コマンド発声の認識対象領域から、テレビに向かってお話しください」という目的エリア内での発声要求メッセージを表示させる（ステップＳ５３）。

上記のメッセージを見たユーザが、椅子４００の設置場所に移動し、目的エリア内登録を指示して、任意の内容で発声したとする。このとき、テレビ２００は、音響処理装置１００に目的エリア内登録指示を送信する。音響処理装置１００において、制御部１０４は、目的エリア内の登録指示を受けると（ステップＳ５４）、マイクロフォン１０１、１０２、１０３によってユーザが発声した音声を集音して３チャンネルの音声信号を生成する（ステップＳ５５）。次に、特徴量抽出部１０６によって一定のフレーム周期でそれぞれの音声信号の特徴量を抽出し（ステップＳ５６）、音声特徴量抽出部１０７によって抽出された特徴量から背景音部分の特徴量を削除し、音声部分の特徴量を抽出して（ステップＳ５７）、目的エリア内特徴量記憶部１１５に記憶する（ステップＳ５８）。制御部１０４は、登録完了と共に他の登録の有無の指示要求をテレビ２００に表示させる（ステップＳ５９）。

ここで、制御部１０４は、次の目的エリア内の登録指示の有無を判断し（ステップＳ６０）、登録指示があった場合にはステップＳ５５に戻り、登録指示がない場合には、初期設定モードの終了指示を待機する（ステップＳ６１）。ユーザがテレビ２００を操作して初期設定モードの終了を指示入力すると、テレビ２００は音響処理装置１００に初期設定モード終了の通知を送信する。音響処理装置１００において、制御部１０４は、その初期設定モード終了通知を受けると（ステップＳ６１）、判定モデル生成部１１６を起動して、目的エリア外特徴量記憶部１０８及び目的エリア内特徴量記憶部１１５に蓄積された目的エリア外及び目的エリア内それぞれの特徴量データに基づいて、特徴量から目的エリア外か目的エリア内かを判定するための判定モデルを学習し（ステップＳ６２）、学習により生成された判定モデルを判定モデル記憶部１１７に記憶する（ステップＳ６３）。

初期設定モード終了後、ユーザがテレビ２００を操作して音声認識の運用モードに設定すると、テレビ２００は音響処理装置１００に音声認識の運用モードの通知を送信する。制御部１０４は、テレビ２００から運用モードの通知を受けると（ステップＳ６４）、スイッチ１０５を運用側に接続する（ステップＳ６５）。この状態で、ユーザが任意の位置で任意のコマンドを発声すると、制御部１０４は、マイクロフォン１０１、１０２、１０３によってその音声を集音し、特徴量抽出部１０６によって特徴量を抽出する（ステップＳ６６）。また、雑音除去部１１１によって、集音された音声信号についてビームフォーミングなどの雑音除去処理や残響除去処理などを実行して、１チャンネルの音声信号を生成し（ステップＳ６７）、音声検出部１１８によって雑音除去部１１１で生成された音声信号から音声が存在する区間を検出する（ステップＳ６８）。そして、音声検出区間において、スイッチ１０５を介して特徴量抽出部１０６から出力される特徴量と判定モデル記憶部１１７に記憶されている判定モデルとを比較参照して、入力音声の音源位置が目的エリア外か目的エリア内かを判定し（ステップＳ６９）、音声が存在する区間から音源位置が目的エリア外と判定された区間を削除し、目的エリア内と判定された区間を音声認識の対象とする音声認識区間として決定する（ステップＳ７０）。さらに、雑音除去部１１１の出力から、音声認識区間に対応する音声を切り出し（ステップＳ７１）、音声認識部１１３によって、音声検出部１１２で切り出された音声について音声認識処理を行ってテキストデータに変換し、そのテキストデータを音声認識結果として出力する（ステップＳ７２）。

上記構成において、以下に具体的な運用処理動作を説明する。
例えば、ユーザが目的エリア内の椅子４００に座って、テレビ２００に対する操作のための音声コマンドとして「今晩８時に予約」と発声したとする。このとき、目的エリア内特徴量記憶部１１５には類似する特徴量が記憶されているため、判定モデル記憶部１１７に記憶されている判定モデルでは、目的エリア内において、集音された音声の特徴量に相当する特徴量が得られる。その結果、音声検出部１１８ではユーザの発声位置は目的エリア内と判定される。これにより、音声検出部１１８では「今晩８時に予約」と発声された音声が切り出され、音声認識部１１３から「今晩８時に予約」というテキストが出力される。このように本実施形態では、音声認識結果に基づいて、録画予約を起動するなどのテレビの操作を行うことができる。

一方、ユーザが電話機３００の設置場所で、例えばレストランを予約するために「午後７時に予約をお願いします」と発声したとする。このとき、電話機３００の設置場所は、初期設定モードで目的エリア外として登録されており、判定モデルでは、目的エリア外において、集音された音声の特徴量に類似する特徴量が得られる。その結果、音声検出部１１８ではユーザの発声位置は目的エリア外と判定され、音声の切り出し出力は実行されない。したがって、音声認識部１１３による音声認識も実行されず、電話機３００の設置場所からの予約指示によってテレビ２００の録画予約が起動されるという誤動作を防止することができる。

次に、本実施形態の特徴である判定モデル生成部１１６および音声検出部１１８の詳細な実施形態について説明する。目的エリア外特徴量記憶部１０８および目的エリア内特徴量記憶部１１５に記憶されている特徴量は、第1の実施形態と同様に、テレビ下部中央に配置されたマイクロフォン１０３の集音信号を基準とした場合のテレビ上部左右に配置されたマイクロフォン１０１およびマイクロフォン１０２の信号との時間差を表す２次元ベクトルとする。目的エリア外特徴量記憶部１０８に記憶されている特徴ベクトルの個数をNoutとし、特徴ベクトルをxn（1≦n≦Nout）で表す。また、目的エリア内特徴量記憶部１１５に記憶されている特徴ベクトルの個数をNinとし、特徴ベクトルをzn（1≦n≦Nin）で表す。

判定モデルを特徴ベクトルのＧＭＭで表す場合について説明する。特徴ベクトルxおよびzの確率分布Pout(x)およびPin(z)を次式でモデル化する。

特徴ベクトルxn（1≦n≦Nout）および特徴ベクトルzn（1≦n≦Nin）を用いて、それぞれモデルパラメータπm ，μm ，σm （m=1,…,M）およびモデルパラメータπ’m ，μ’m ，σ’m （m=1,…,M）をＥＭアルゴリズムで学習し、求められたモデルパラメータを判定モデル記憶部１１７に記憶する。

音声検出部１１８では、入力信号の特徴量のうち、音量（パワー）などのパラメータを用いて、音声が存在すると推定される区間を特定し、当該区間の特徴ベクトルyk (1≦k≦K）を求める。ただし、Kは当該区間のフレーム数（特徴ベクトルの個数）を表す。判定は、ykのセントロイドy-と、予め設定された閾値qを用いて行なわれる。すなわち、Pout(y-)−Pin(y-)＞qであれば目的外エリアと判定して当該区間は削除し、それ以外であれば目的エリア内と判定して、雑音除去部１１１から出力された音声のうち、当該区間に対応する音声を切り出して出力する。あるいは、フレーム毎にPout(y-)−Pin(y-)＞qを評価して判定するようにしてもよい。この場合は、目的エリア外と判定されたフレームの割合が一定以上であれば当該区間の全てを削除してもよいし、目的エリア外と判定されたフレームのみを削除してもよい。

次に、目的エリアの判定をニューラルネットワークで行う実施形態について説明する。判定に用いる特徴ベクトルとして、上述したマイクロフォン間の時間差に加えて、マイクロフォン間のパワー差を用いる。マイクロフォン１０３の集音信号を基準とした場合のマイクロフォン１０１およびマイクロフォン１０２の集音信号のパワーの比（あるいはその対数）を表す２次元を加えた４次元ベクトルを特徴ベクトルとする。

目的エリア外特徴量記憶部１０８に記憶されている特徴ベクトルの個数をNoutとし、特徴ベクトルをxn（1≦n≦Nout）で表す。また、目的エリア内特徴量記憶部１１５に記憶されている特徴ベクトルの個数をNinとし、特徴ベクトルをzn（1≦n≦Nin）で表す。Nout＝1000、Nin＝2000の場合のニューラルネットワークの学習データの例を図６に示す。「判定」の欄は、目的エリア外の場合に１、目的エリア内の場合に０となる。ニューラルネットワークは、時間差およびパワー差の４次元ベクトルを入力として、「判定」を表すスカラー値を予測するように学習する。ネットワークの構成は、入力層４ノード、出力層１ノードで、中間層は例えば５ノード×２層などに設定すればよい。学習アルゴリズムとしては、誤差逆伝搬法などの既存の手法を用いればよい。学習で得られた各ノード間の重みの値が判定モデル記憶部１１７に記憶される。

音声検出部１１８では、入力信号の特徴量のうち、パワーなどを用いて音声が存在すると推定される区間を特定し、当該区間の特徴ベクトルyk (1≦k≦K）を求める。判定は、ykのセントロイドy-と、予め設定された閾値qを用いて行なわれる。学習したニューラルネットワークに特徴ベクトルyを入力して出力される推定値をPnn(y)と表すと、Pnn(y-)＞qであれば目的エリア外と判定して当該区間は削除し、それ以外であれば目的エリア内と判定して、雑音除去部１１１から出力された音声のうち、当該区間に対応する音声を切り出して出力する。あるいは、フレーム毎にPnn(yk)＞qを評価して判定するようにしてもよい。この場合は、目的エリア外と判定されたフレームの割合が一定以上であれば当該区間の全てを削除してもよいし、目的エリア外と判定されたフレームのみを削除してもよい。ニューラルネットワークを判定に用いることで、目的エリア外の範囲が複数存在する場合、複雑な形状の場合や、目的エリアが小さい場合など、様々なケースで精度よく判別することが可能となる。また、閾値qを大きくすれば目的エリアを広く、逆に小さくすれば目的エリアを狭くするように調整することが可能である。

以上述べたＧＭＭに基づく手法とニューラルネットワークに基づく手法以外にも、サポートベクターマシンによる手法やＮ近傍法など、様々な判別方法を用いることができる。
（第３の実施形態）
以上述べた実施形態では、雑音除去部１１１には特徴量抽出部１０６に入力されるマイクロフォン１０１、１０２、１０３の集音信号が入力されるものとして説明したが、これ以外の構成も可能である。例えば３本のマイクロフォンのうち、いずれか１本または２本を雑音除去部１１１の入力として用いるようにしてもよい。あるいは、マイクロフォン１０１、１０２、１０３と別のマイクロフォンを１本以上用意し、それらを用いるようにしてもよい。あるいは、マイクロフォン１０１、１０２、１０３の一部または全部と、別に用意された１本以上のマイクロフォンを組み合わせて用いるようにしてもよい。目的エリア内外の判定に用いるマイクロフォンと音声認識の入力音声を集音するためのマイクロフォンでは、好適な特性や取り付け位置が異なる場合があることから、それぞれに適したマイクロフォンを用いるようにすればよい。

ショッピングセンターの案内端末に本実施形態に係る音響処理装置を適用した例を図７に示す。この例では、表示画面の上部中央にマイクロフォン１２１を配置し、その両側にマイクロフォン１２２，１２３を近接配置し、表示画面の下部左右にマイクロフォン１２４，１２５を離間して配置している。上記マイクロフォン１２１，１２４，１２５で集音された信号は特徴量抽出部１０６に入力され、マイクロフォン１２１，１２２，１２３で集音された信号が雑音除去部１１１に入力されるように構成されている。

すなわち、目的エリア内外の判定では音源位置によるマイクロフォン間の時間差が大きい方が判定が容易となるため、マイクロフォン間の距離をある程度大きくとる必要がある。一方、雑音除去のためのビームフォーミングに用いるマイクロフォン間の距離は比較的小さく設定する必要がある。このことから、上記のようなレイアウトでマイクロフォン１２１〜１２６を配置することが好適である。

なお、上述した実施形態では、音声認識部１１３がテレビや案内端末に搭載されているものとして説明したが、ネットワークを介して接続するようにしてもよい。すなわち、音声検出部１１２，１１８で検出されて出力された音声を、ネットワークを介してサーバに送信し、サーバ上に構築された音声認識部１１３で受信して音声認識処理を実行するように構成してもよい。このように構成することで、十分な計算機リソースで音声認識処理を行うことができるため、高い認識精度を実現することができる。

また、上述した実施形態では、音声検出部１１２または１１８で検出されて出力された音声が音声認識されるものとして説明したが、これ以外の構成も可能である。例えば、出力された音声を録音装置に入力して録音するように構成することも可能である。応用例としては、店員と顧客の会話のうち、店員の音声のみを録音したい場合などが考えられる。この場合、店員の位置が目的エリア内に、顧客の位置が目的エリア外になるように設定すれば、店員の音声だけを選択的に録音することが可能である。

以上述べたように、本実施形態に係る音響処理装置は、目的エリア外の位置および目的エリア内の位置から発声して教示することにより、装置が置かれた環境に合わせて容易に目的エリアを設定でき、目的エリア内からの発声のみを選択的に集音することができるという効果がある。

次に、第１乃至第３の実施形態に係る音声認識機能を有する音響処理装置のハードウェア構成について、図８を用いて説明する。図８は、第１から第３の実施形態に係る音響処理装置のハードウェア構成例を示すブロック図である。
第１乃至第３の実施形態にかかる音響処理装置１００は、ＣＰＵ（Central Processing Unit）１３１などの制御装置と、ＲＯＭ（Read Only Memory）１３２やＲＡＭ（Random Access Memory）１３３などの記憶装置と、マイクロホン１０１〜１０３，１２１〜１２５、操作入力装置、表示装置（テレビ）が接続される入出力Ｉ／Ｆ１３４と、ネットワークに接続して通信を行う通信Ｉ／Ｆ１３５と、各部を接続するバス１３６とを備えている。

第１乃至第３の実施形態に係る音響処理装置で実行されるプログラムは、ＲＯＭ１３２等に予め組み込まれて提供される。
第１乃至第３の実施形態に係る音響処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、第１乃至第３の実施形態に係る音響処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１乃至第３の実施形態に係る音響処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１乃至第３の実施形態に係る音響処理装置で実行されるプログラムは、コンピュータを上述した信号処理装置の各部として機能させうる。このコンピュータは、ＣＰＵ１３１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１００…音響処理装置、２００…テレビ、３００…電話機、４００…椅子、
１０１〜１０３，１２１〜１２５…マイクロフォン、１０４…制御部、１０５…スイッチ、１０６…特徴量抽出部、１０７…音声特徴量抽出部、１０８…目的エリア外特徴量記憶部、１０９…判定モデル生成部、１１０…判定モデル記憶部、１１１…雑音除去部、１１２…音声検出部、１１３…音声認識部、１１４…スイッチ、１１５…目的エリア内特徴量記憶部、１１６…判定モデル生成部、１１７…判定モデル記憶部、１１８…音声検出部、１３１…ＣＰＵ、１３２…ＲＯＭ、１３３…ＲＡＭ、１３４…入出力Ｉ／Ｆ、１３５…通信Ｉ／Ｆ、１３６…バス。

Claims

目的エリア外が存在する空間の、互いに異なる位置に配置される複数の第１のマイクロフォンと、
前記複数の第１のマイクロフォンでそれぞれ集音された音声から特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部で抽出される前記目的エリア外で発声された音声の特徴量に基づいて、前記空間における音声の発声位置が目的エリア外か否かを判定する判定モデルを学習によって生成する判定モデル生成部と、
前記空間に配置される第２のマイクロフォンと、
前記第２のマイクロフォンで集音された音声から、前記特徴量と前記判定モデルとに基づいて、前記目的エリア外で発声された音声を除去し、残った音声を検出出力する音声検出部と
を有する音響処理装置。
前記判定モデル生成部は、前記空間に設定される目的エリア内で発声された音声の特徴量と、前記目的エリア外で発声された音声の特徴量とに基づいて、前記判定モデルの学習を行う請求項１記載の音響処理装置。
前記第２のマイクロフォンには、前記複数の第１のマイクロフォンのいずれか１つを用いる請求項１記載の音響処理装置。
さらに、前記複数の第１のマイクロフォンの全部または一部で集音された音声から雑音を除去する雑音除去部を備え、
前記音声検出部は、前記雑音除去部で雑音を除去された音声から、前記特徴量と前記判定モデルとに基づいて、前記目的エリア外で発声された音声を除去し、残った音声を検出出力する請求項１記載の音響処理装置。
前記音声検出部で検出された音声の内容を認識する認識部をさらに備える請求項１に記載の音響処理装置。
目的エリア外が存在する空間の、互いに異なる位置に配置される複数の第１のマイクロフォンと、
前記複数の第１のマイクロフォンでそれぞれ集音された音声から特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部で抽出される前記目的エリア外で発声された音声の特徴量に基づいて、前記空間における音声の発声位置が目的エリア外か否かを判定する判定モデルを学習によって生成する判定モデル生成部と、
前記空間に配置される第２のマイクロフォンと、
前記第２のマイクロフォンで集音された音声から、前記特徴量と前記判定モデルとに基づいて、前記目的エリア外で発声された音声を除去し、残った音声を検出出力する音声検出部と、
前記音声検出部で検出された音声の内容を認識する認識部と
を具備する音声認識装置。
目的エリア外が存在する空間の、互いに異なる位置に複数の第１のマイクロフォンを配置し、
前記複数の第１のマイクロフォンでそれぞれ集音された音声から、前記目的エリア外で発声された音声の特徴量を抽出し、
前記目的エリア外で発声された音声の特徴量に基づいて、前記空間における音声の発声位置が目的エリア外か否かを判定する判定モデルを学習によって生成し、
前記空間に第２のマイクロフォンを配置し、
前記第２のマイクロフォンで集音された音声から、前記特徴量と前記判定モデルとに基づいて、前記目的エリア外で発声された音声を除去し、残った音声を検出出力する音響処理方法。
目的エリア外が存在する空間の、互いに異なる位置に複数の第１のマイクロフォンを配置し、
前記複数の第１のマイクロフォンでそれぞれ集音された音声から、前記目的エリア外で発声された音声の特徴量を抽出し、
前記目的エリア外で発声された音声の特徴量に基づいて、前記空間における音声の発声位置が目的エリア外か否かを判定する判定モデルを学習によって生成し、
前記空間に第２のマイクロフォンを配置し、
前記第２のマイクロフォンで集音された音声から、前記特徴量と前記判定モデルとに基づいて、前記目的エリア外で発声された音声を除去し、残った音声を検出出力し、
前記検出された音声の内容を認識する音声認識方法。
音響処理をコンピュータに実行させるための音響処理プログラムであって、
目的エリア外が存在する空間の、互いに異なる位置に配置される複数の第１のマイクロフォンでそれぞれ集音された音声から、前記目的エリア外で発声された音声の特徴量を抽出する特徴量抽出ステップと、
前記目的エリア外で発声された音声の特徴量に基づいて、前記空間における音声の発声位置が目的エリア外か否かを判定する判定モデルを学習によって生成する判定モデル生成ステップと、
前記空間に配置される第２のマイクロフォンで集音された音声から、前記特徴量と前記判定モデルとに基づいて、前記目的エリア外で発声された音声を除去し、残った音声を検出出力する音声検出ステップと
を備える音響処理プログラム。
音声認識処理をコンピュータに実行させるための音声認識プログラムであって、
目的エリア外が存在する空間に配置される、互いに異なる位置に複数の第１のマイクロフォンでそれぞれ集音された音声から、前記目的エリア外で発声された音声の特徴量を抽出する特徴量抽出ステップと、
前記目的エリア外で発声された音声の特徴量に基づいて、前記空間における音声の発声位置が目的エリア外か否かを判定する判定モデルを学習によって生成する判定モデル生成ステップと、
前記空間に配置される第２のマイクロフォンで集音された音声から、前記特徴量と前記判定モデルとに基づいて、前記目的エリア外で発声された音声を除去し、残った音声を検出出力し、
前記検出された音声の内容を認識する認識ステップと
を備える音声認識プログラム。