JP2020024310A

JP2020024310A - 音声処理システム及び音声処理方法

Info

Publication number: JP2020024310A
Application number: JP2018148989A
Authority: JP
Inventors: 藤田　雄介; Yusuke Fujita; 雄介藤田; 林太郎池下; Rintaro Ikeshita
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-08-08
Filing date: 2018-08-08
Publication date: 2020-02-13

Abstract

【課題】マイクを向かずに発声された音声を活用する。【解決手段】マイクが検出した音の信号に基づいて、方向ごとの信号強度を生成する方向強度生成部と、前記信号強度のピーク方向を抽出するピーク方向抽出部と、前記信号強度のピークの鋭さに基づく前記ピーク方向の信頼度が低い信号から人が発した音声を抽出して、抽出した音声の信号と前記ピーク方向の信頼度を示す情報とを出力する分離音声出力部と、を有する。【選択図】図１

Description

本発明は、例えばロボットとの対話、会議又は電話等を通して取得される音声を活用するシステムに関する。

近年の音声認識技術は深層学習技術の登場によって飛躍的に精度が向上した。そこで音声認識技術を用いたロボットや電話自動応答による人間の業務の代替及び会議の自動議事録作成といった応用が期待されている。

例えば特開２０１１−１４６８７１号公報（特許文献１）では、マイクロフォンアレイを用いて音声を取得し、音声の到来方向を検出する技術が開示されている。具体的には、特許文献１には、「プログラムを実行するプロセッサと、前記プロセッサによって実行されるプログラムを格納するメモリと、前記プロセッサに接続されたインターフェースと、を備え、音の音源を探索する音源探索装置であって、前記音の信号が入力される音入力部と、入力された前記音の信号に基づいて、前記音の信号が入力されたときの前記音入力部の位置を基準とした前記音源の方向を推定する音源方向推定部と、前記音源方向推定部による推定の信頼度の高低を判定する方向信頼度判定部と、前記信頼度が高いと判定された場合には、推定された前記音源の方向に前記音源があると判定し、前記信頼度が低いと判定された場合には、前記音源方向推定部と異なる推定方法によって前記音源の方向を推定する音源探索部と、を備える。」と記載されている。

特開２０１１−１４６８７１号公報

しかし、特許文献１に記載されている方向に基づく音声検出は、直接音が十分に大きいことを前提としたアルゴリズムになっている。音声を発する人物の口がマイクを向いている場合は直接音が十分に大きいため、目的方向を歪ませずに干渉音の方向を抑圧するフィルタを精度よく構成できる。一方、口がマイクを向いていない場合は、様々な方向から音声が到来すると誤って認識するため、フィルタが安定せず、結果として目的音の一部が誤って抑圧されてしまう。

上記課題を解決するために、例えば特許請求の範囲に記載の構成を採用する。

本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、マイクが検出した音の信号に基づいて、方向ごとの信号強度を生成する方向強度生成部と、前記信号強度のピーク方向を抽出するピーク方向抽出部と、前記信号強度のピークの鋭さに基づく前記ピーク方向の信頼度が低い信号から人が発した音声を抽出して、抽出した音声の信号と前記ピーク方向の信頼度を示す情報とを出力する分離音声出力部と、を有することを特徴とする。

本発明の一態様によれば、方向を抽出できない成分を集めて音声検出を行うことで、口がマイクを向いていない条件であっても音声が検出できるようになり、会議の議事録等、マイクを向かずに発声された発話についても音声分離が可能となる。

上記した以外の課題、構成及び効果は、以下の実施形態の説明によって明らかにされる。

実施例１の音声処理装置のハードウェア構成を示すブロック図である。実施例１の音声処理装置の動作を示す説明図である。実施例１のマイクに到達する音の説明図である。実施例１のマイクが検出した音の到来方向ごとの強度の第１の例を示す説明図である。実施例１のマイクが検出した音の到来方向ごとの強度の第１の例を示す説明図である。実施例１の方向抽出フィルタの例を示す説明図である。実施例１の音声抽出フィルタの例を示す説明図である。実施例１の音声処理装置が出力するテキストの例を示す説明図である。実施例２の音声処理装置のハードウェア構成を示すブロック図である。実施例２の音声処理装置の動作を示す説明図である。実施例２の応答義務推定部の動作を説明するフローチャートである。

以下、図面を用いて実施例を説明する。

会議の議事録の自動的な表示を可能とする音声処理装置の実施例の１つを説明する。

図１は、実施例１の音声処理装置１００のハードウェア構成を示すブロック図である。

音声処理装置１００は、音声入力部１０１、ＣＰＵ（Central Processing Unit）１０２、画面出力部１０３及びメモリ１０４を備える。

音声入力部１０１は、マイク１２１と接続され、マイク１２１から音声信号を受信するインターフェースである。マイク１２１は、例えば、複数のマイク素子（図示省略）を含むマイクアレイであり、その場合、マイク１２１から音声入力部１０１にマイク素子と同数のチャネルの音声信号が入力される。

画面出力部１０３は、ディスプレイ１２２と接続され、ディスプレイ１２２が出力する画像等の情報をディスプレイ１２２に送信するインターフェースである。ディスプレイ１２２は、文字及び画像等を表示可能な表示装置である。図１の例ではマイク１２１及びディスプレイ１２２が音声処理装置１００に接続されているが、音声処理装置１００がマイク１２１及びディスプレイ１２２を含んでもよい。

ＣＰＵ１０２は、メモリ１０４に格納されたプログラムに従って種々の処理を実行するプロセッサである。メモリ１０４は、方向強度生成部１０５、ピーク方向抽出部１０６、非ピーク成分抽出部１０７、方向抽出フィルタ生成部１０９、音声抽出フィルタ生成部１１０、方向信頼度付き分離音声出力部１１１及び音声認識部１０８、を格納する。これらは、ＣＰＵ１０２によって実行されるプログラムである。以下の説明においてメモリ１０４内の各部が実行する処理は、実際には、メモリ１０４に格納されたプログラムに従って、ＣＰＵ１０２が実行する。

図２は、実施例１の音声処理装置１００の動作を示す説明図である。

まず、音声入力部１０１は、接続されたマイク１２１から音声を受け取る（ステップ２０１）。

次に、方向強度生成部１０５は、受け取った音声から方向強度を生成して出力する（ステップ２０２）。

次に、ピーク方向抽出部１０６は、ステップ２０２で生成された方向強度に基づいて、受け取った音声の方向強度のピークを算出する（ステップ２０３）。

次に、方向抽出フィルタ生成部１０９は、ステップ２０３で算出された方向強度のピークに基づいて、ピークとなる方向成分を抽出するフィルタを生成する（ステップ２０４）。

次に、方向信頼度付き分離音声出力部１１１は、ステップ２０４で生成されたフィルタの特徴に応じて求められる方向信頼度と、フィルタ結果である分離音声とを出力する（ステップ２０５）。

次に、音声認識部１０８は、ステップ２０４で生成された分離音声を認識し、テキストを出力する（ステップ２０６）。

一方、非ピーク成分抽出部１０７は、ステップ２０３で算出された方向強度のピークに基づいて、受け取った音声の方向強度が弱い成分を抽出する（ステップ２０７）。

次に、音声抽出フィルタ生成部１１０は、方向強度が弱い成分から音声を抽出するフィルタを生成する（ステップ２０８）。

次に、方向信頼度付き分離音声出力部１１１は、ステップ２０８で生成されたフィルタの特徴に応じて求められる方向信頼度と、フィルタ結果である分離音声とを出力する（ステップ２０９）。

次に、音声認識部１０８は、ステップ２０９で生成された分離音声を認識し、テキストを出力する（ステップ２１０）。

次に、画面出力部１０３は、テキストに方向情報および方向信頼度を添付した方向信頼度付き情報をディスプレイ１２２に出力する（ステップ２１１）。ディスプレイ１２２は、画面出力部１０３から出力された情報を表示する。

ここで、ステップ２０２〜２０４及び２０７〜２０８について、図３〜図６を参照して説明する。

図３は、実施例１のマイク１２１に到達する音の説明図である。

具体的には、図３は、部屋３００にいる人物３０１が発した音声がマイク１２１に到達するまでの経路の例を示している。マイク１２１に到達する音声の一部は、人物３０１からマイク１２１に直接到達する経路３０２を通る直接音であり、残りは、部屋３００の壁等に反射してマイク１２１に到達する複数の経路３０３を通る間接音である。直接音は人物３０１の方向からマイク１２１に到達するが、間接音は人物３０１の方向以外の広い範囲の方向からマイク１２１に到達する。

一般に、人物３０１の口がマイク１２１を向いていれば、マイク１２１に到達する直接音の強度は、間接音の強度に対して大きくなる傾向がある。一方、人物３０１の口がマイク１２１を向いていない場合にはそれらの差が小さくなる傾向がある。

方向強度生成部１０５は、マイク１２１の各マイク素子が検出した音の信号に基づいて、到来方向ごとの音の信号の強度を算出することができる。

図４Ａは、実施例１のマイク１２１が検出した音の到来方向ごとの強度の第１の例を示す説明図である。

この例において、横軸はマイク１２１に到達した音の到来方向、縦軸は到来した音の信号の強度を示す。図４Ａの例では、６０°の方向から到来した音の強度が最大であり、かつ、そのピークは十分に鋭い（すなわちピーク方向の信頼度が高い）。

図４Ｂは、実施例１のマイク１２１が検出した音の到来方向ごとの強度の第２の例を示す説明図である。

この例の横軸及び縦軸は図４Ａの例と同様である。図４Ｂの例では、６０°の方向から到来した音の強度が最大であるが、そのピークは鈍い（すなわちピーク方向の信頼度が低い）。

図３を参照して説明したように、人物３０１がマイク１２１を向いて発声した音声がマイク１２１に到達した場合には、直接音の強度と間接音の強度との差が大きくなる傾向があるため、ピーク方向の信頼度が高いと判定されやすい傾向がある。一方、人物３０１がマイク１２１以外の方向を向いて発声した音声がマイク１２１に到達した場合には、直接音の強度と間接音の強度との差が小さくなる傾向があるため、ピーク方向の信頼度が低いと判定されやすい傾向がある。マイク１２１から音源までの距離が遠い場合、例えばマイク１２１が設置された部屋の端にいる人物の音声、又は、部屋の天井に設置されたスピーカが発した構内放送の音声などもそれと同様の傾向がある。

上記のような到来方向ごとの信号の強度は、所定の幅の時間帯ごと、及び、所定の幅の時間周波数の帯域ごとに算出することができる。

例えば、図２のステップ２０２において、方向強度生成部１０５が各時間帯の各時間周波数の帯域の到来方向ごとの信号の強度を算出する。その結果、例えばある時間帯のある時間周波数の帯域において図４Ａに示すような強度の分布が得られた場合、ステップ２０３においてピーク方向抽出部１０６は、当該時間帯及び当該時間周波数の帯域におけるピーク方向の信頼度が高いと判定し、そのピーク方向を６０°と算出してもよい。

一方、別の時間帯又は別の時間周波数の帯域において図４Ｂに示すような強度の分布が得られた場合、ステップ２０４において非ピーク成分抽出部１０７は、当該時間帯及び当該時間周波数の帯域におけるピーク方向の信頼度が低いと判定してもよい。

なお、ピークの鋭さの計算は、公知の方法を含めた任意の方法で行うことができる。また、ピーク方向の信頼度が高いか否かの判定は、例えばピークの鋭さの程度が所定の基準より高いか否かに基づいて行うなど、任意の方法で行うことができる。例えば、ピークの鋭さの程度を示す指標としてエントロピーを使用する場合、エントロピーが所定の値より大きい場合に、ピークの鋭さの程度が低い、すなわち、ピーク方向の信頼度が低いと判定してもよい。ピークの鋭さの程度を示す指標として何を使用するかは限定されない。

図５は、実施例１の方向抽出フィルタの例を示す説明図である。

図５の横軸は時間、縦軸は時間周波数を示す。すなわち、図５に示す各区画は、所定の幅の時間帯の、所定の幅の時間周波数の帯域に対応する。図５の例では、各区画に「６０」又は「Ｘ」が表示されている。「６０」の表示は、その区画に対応する時間帯及び時間周波数の帯域において、ピーク方向の信頼度が高いと判定され、そのピーク方向が６０°の方向であったことを示している。一方、「Ｘ」の表示は、その区画に対応する時間帯及び時間周波数の帯域において、ピーク方向の信頼度が低いと判定されたことを示している。

方向抽出フィルタ生成部１０９は、ステップ２０４において、例えば図５の「６０」が記載された区画（太枠で表示した区画）に対応する時間帯及び時間周波数の帯域の信号だけを通過させ、それ以外の信号を遮断するフィルタを生成する。

図５の例では６０°のみであるが、例えばある区画に対応する時間帯及び時間周波数の帯域において、ピーク方向の信頼度が高いと判定され、そのピーク方向が別の角度、例えば２０°であった場合には、方向抽出フィルタ生成部１０９は、上記の６０°に対応するフィルタに加えて、２０°の区画に対応する時間帯及び時間周波数の帯域の信号だけを通過させ、それ以外の信号を遮断するフィルタ（方向抽出フィルタ）を生成する。

このように、ピークの信頼度が高く、かつ、そのピーク方向が異なる音は、別の音源から到来した音（例えば別の人物が発声した音声）と推定される。このため、上記のようなフィルタを生成することによって、例えば異なる人物が発声した音声を分離することができる。

図６は、実施例１の音声抽出フィルタの例を示す説明図である。

図５の例と同様に、図６の各区画は、所定の幅の時間帯の、所定の幅の時間周波数の帯域に対応する。各区画の「６０」及び「Ｘ」の表示の意味は図５の例と同様であるが、図６の例では、さらに、「Ｏ」が表示された区画（太枠で表示した区画）がある。この表示は、当該区画に対応する時間帯及び時間周波数の帯域の音が音声（すなわちいずれかの人物が発声した音）を含んでいることを示している。

音声抽出フィルタ生成部１１０は、ピーク方向の信頼度が低いと判定された時間帯及び時間周波数の帯域の信号に音声の信号が含まれるか否かを判定し、音声の信号が含まれると判定した時間帯及び時間周波数の帯域の信号のみを通過させ、それ以外の信号を遮断するフィルタ（音声抽出フィルタ）を生成する（ステップ２０８）。

図７は、実施例１の音声処理装置１００が出力するテキストの例を示す説明図である。

図７の例では、時刻７０１、方向７０２及びテキスト７０３が出力される。これらは、例えば音声認識部１０８による音声認識（ステップ２０６、２１０）の結果を画面出力部１０３がディスプレイ１２２に送信したデータに基づいて、ディスプレイ１２２が表示する。

図７の例のうち最初の行は、時刻「２０１８年３月２９日１５時５分３０秒」に、６０°の方向から到来した音を音声認識した結果、「こんにちは」というテキストが得られたことを示している。２番目の行は、時刻「２０１８年３月２９日１５時５分３５秒」に、２０°の方向から到来した音を音声認識した結果、「今日はいい天気ですね」というテキストが得られたことを示している。これらは、到来方向が異なることから、例えば別の人物によって発声されたものであると推定してもよい。

３番目の行は、時刻「２０１８年３月２９日１５時５分４０秒」に、ピーク方向の信頼度が低いと判定された音声を音声認識した結果、「お知らせします」というテキストが得られたことを示している。ここで、方向７０２の値「−」は、ピーク方向の信頼度が低いことを示す。ピーク方向の信頼度が低いことから、例えば、いずれかの人物がマイク１２１を向かずに発声したものであるか、部屋の外などの遠方で発声されたものであるか、構内放送に含まれるものである、といった推定をしてもよい。

以上に説明した音声処理装置を構成すれば、方向を抽出できない成分を集めて音声検出を行うことで、口がマイクを向いていない条件であっても音声を検出することができる。

なお、上記の実施例１は、音声処理装置１００が一つのＣＰＵ１０２及び一つのメモリ１０４を有する装置（例えば計算機システム）によって実現される例を示したが、このような装置は一例であり、音声処理装置１００の構成はこれに限定されない。例えば、音声処理装置１００は、一つ以上のＣＰＵ１０２及び一つ以上のメモリ１０４を有するシステムによって実現されてもよい。すなわち、音声処理装置１００を音声処理システムと読み替えてもよい。

例えば、音声処理装置１００は、一つ以上のＣＰＵ１０２及び一つ以上のメモリ１０４を有する第１の装置と、それとは別の一つ以上のＣＰＵ１０２及び一つ以上のメモリ１０４を有する第２の装置と、を含んでもよい。

このとき、第１の装置は、さらに音声入力部１０１を有し、第１の装置のメモリ１０４は方向強度生成部１０５、ピーク方向抽出部１０６、非ピーク成分抽出部１０７、方向抽出フィルタ生成部１０９、音声抽出フィルタ生成部１１０及び方向信頼度付き分離音声出力部１１１を保持する。

一方、第２の装置は、さらに画面出力部１０３を有し、第２の装置のメモリ１０４は音声認識部１０８を保持する。

第１の装置は、方向信頼度付き分離音声出力部１１１が出力した方向信頼度及び分離音声（ステップ２０５及び２０９）を、無線又は有線の通信路を介して第２の装置に送信する。第２の装置の音声認識部１０８は、受信した分離音声の認識を行う（ステップ２０６及び２１０）。また、第１の装置はマイク１２１を内蔵してもよい。

例えば、音声処理装置１００を議事録作成に応用する場合、第１の装置を会議室に設置し、第２の装置を会議室内に限定しない任意の場所に設置することができる。このとき、第２の装置の少なくとも一部がクラウド上に構成されてもよい。これによって、第１の装置を小型化して設置が容易になる。また、第２の装置として十分な性能を持った計算機を使用することができ、また、十分な量の認識辞書を利用することができるため、精度の高い認識が可能になる。

また、上記のように音声処理装置１００が第１の装置と第２の装置とを有することによって、マイク１２１が複数のマイク素子を含むマイクアレイである場合、マイク１２１と音声入力部１０１との間に複数の通信チャネルが必要となるが、方向信頼度付き分離音声出力部１１１の出力は一つの通信チャネルを介して送信することができる。このため、上記のようにマイク１２１と第１の装置とを一体化し、第１の装置と第２の装置とを分離して設置した場合には、必要な通信チャネルの容量が削減される。

次に、本発明の実施例２について説明する。実施例２の音声処理装置は、自動音声対話システムとして動作する。以下に説明する相違点を除き、実施例２のシステムの各部は、図１〜図７に示された実施例１の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。

図８は、実施例２の音声処理装置のハードウェア構成を示すブロック図である。

実施例２の音声処理装置１００は、マイクと接続された音声入力部１０１、ＣＰＵ１０２、スピーカ８０５と接続された音声出力部８０１及びメモリ１０４を備える。メモリ１０４は、方向強度生成部１０５、ピーク方向抽出部１０６、非ピーク成分抽出部１０７、方向抽出フィルタ生成部１０９、音声抽出フィルタ生成部１１０、方向信頼度付き分離音声出力部１１１、音声認識部１０８、ウェイクアップワード検出部８０２、応答義務推定部８０３及び応答生成部８０４を格納する。これらは、ＣＰＵ１０２によって実行されるプログラムである。以下の説明においてメモリ１０４内の各部が実行する処理は、実際には、メモリ１０４に格納されたプログラムに従って、ＣＰＵ１０２が実行する。

図９は、実施例２の音声処理装置１００の動作を示す説明図である。

図９のステップ２０１〜２１０は、図２に示したものと同様であるため、説明を省略する。

応答義務推定部８０３は、ステップ２０６及びステップ２１０で認識されたテキストに対して応答義務を推定する（ステップ９０１）。このとき、ウェイクアップワード検出部８０２がステップ２１０の音声認識の結果からウェイクアップワードを検出し、その結果に基づいて応答生成部８０４が応答を生成する（ステップ９０３）。

図１０は、実施例２の応答義務推定部８０３の動作を説明するフローチャートである。

応答義務推定部８０３は、音声認識部１０８から出力された音声認識結果に対応するピーク方向の信頼度が高いかを判定する（ステップ１００１）。具体的には、ステップ２０６の音声認識は、ピーク方向の信頼度が高い分離音声を対象として行われたものである。このため、ステップ２０６の音声認識の結果が出力された場合、応答義務推定部８０３はピーク方向の信頼度が高いと判定する（ステップ１００１：ＹＥＳ）。

ピーク方向の信頼度が高いことから、その音声を発した人物の口がマイク１２１を向いていると推定される。このことから、その音声を発した人物が、その音声に対する音声処理装置１００からの応答を期待していると推定することもできる。例えば、音声処理装置１００が人と対話するロボット等の音声対話システムに搭載されており、人物がその音声対話システムと対話することを意図して音声を発した場合がこれに該当する。

このため、ピーク方向の信頼度が高い場合には、ウェイクアップワード検出部８０２がウェイクアップワードの検出をすることなく、応答生成部８０４が応答を生成する（ステップ１００２）。図１０のステップ１００２は、図９のステップ９０３に対応する。

一方、ステップ２１０の音声認識は、ピーク方向の信頼度が低い分離音声を対象として行われたものである。このため、ステップ２１０の音声認識の結果が出力された場合、応答義務推定部８０３はピーク方向の信頼度が低いと判定する（ステップ１００１：ＮＯ）。ピーク方向の信頼度が低いことから、その音声を発した人物の口がマイク１２１を向いていないと推定される。このことから、その音声は、対話を意図して発せられたものではない可能性があると推定することもできる。

このため、応答生成部８０４は、ピーク方向の信頼度が低い場合にはウェイクアップワード検出部８０２が音声認識結果からウェイクアップワードを検出し（ステップ１００３）、ウェイクアップワードの有無を判定する（ステップ１００４）。図１０のステップ１００３は、図９のステップ９０２に対応する。

音声認識結果にウェイクアップワードが含まれる場合（ステップ１００４：ＹＥＳ）、当該音声は対話を意図して発せられたものであると判定できるため、応答生成部８０４が応答を生成する（ステップ１００２）。

一方、音声認識結果にウェイクアップワードが含まれない場合（ステップ１００４：ＮＯ）、当該音声は対話を意図して発せられたものでないと判定できるため、応答生成部８０４が応答を生成することなく処理が終了する。

ここで、ウェイクアップワード検出部８０７は、予め取り決められた、音声対話システムを利用するための特定のキーワード（すなわちウェイクアップワード）が音声に入っているか否かを検出する。

ステップ１００２で生成された応答は、音声出力部８０１からスピーカ８０５に出力され、スピーカ８０５によって音声に変換されて出力される。

以上の実施例２で説明した内容で音声処理装置を構成すれば、口がマイクを向いている条件での発言に対しては、特定のキーワードの発話なしでも音声対話システムが応答することで、対話の手順を簡略化することができるとともに、口がマイクを向いていない条件での発言に対しては、対話を意図していない発言に対して誤って音声対話システムが応答することを防止できる。

以上のように、本発明の実施例の音声処理システム（例えば音声処理装置１００）は、マイクが検出した音の信号に基づいて、方向ごとの信号強度を生成する方向強度生成部（例えば方向強度生成部１０５）と、方向ごとの信号強度のピーク方向を抽出するピーク方向抽出部（例えばピーク方向抽出部１０６）と、信号強度のピークの鋭さに基づくピーク方向の信頼度が低い信号から人が発した音声を抽出して、抽出した音声の信号とピーク方向の信頼度を示す情報とを出力する分離音声出力部（例えば方向信頼度付き分離音声出力部１１１）と、を有する。

これによって、出力された分離音声に対して、方向の信頼度に応じた処理を行うことが可能になる。

ここで、分離音声出力部は、さらに、ピーク方向の信頼度が高い信号を抽出して、抽出した音声の信号と、ピーク方向の信頼度を示す情報とを出力してもよい。このとき、音声処理システムは、さらに、ピーク方向の信頼度が低い信号から抽出された音声の信号と、ピーク方向の信頼度が高い信号と、のそれぞれに対して音声認識を行う音声認識部（例えば音声認識部１０８）と、それぞれの信号を音声認識することによって得られたテキストについて、それぞれの信号の前記ピーク方向の信頼度に応じて選択された処理を実行する処理部と、を有してもよい。

ここで、処理部は、例えば、実施例１の画面出力部１０３であってもよいし、実施例２のウェイクアップワード検出部８０２、応答義務推定部８０３及び応答生成部８０４であってもよい。

具体的には、分離音声出力部は、ピーク方向の信頼度が高い信号を、ピーク方向ごとに抽出して、ピーク方向を示す情報を出力してもよい。このとき、処理部は、ピーク方向の信頼度が高い信号を音声認識することによって得られたテキスト（例えば図７の「こんにちは」）と、ピーク方向を示す情報（例えば図７の「６０」）とを出力し、ピーク方向の信頼度が低い信号を音声認識することによって得られたテキスト（例えば図７の「お知らせします」）と、ピーク方向の信頼度が低いことを示す情報（例えば図７の「−」）とを出力するといった処理手順を実行してもよい。

これによって、ピーク方向の信頼度が高い音声の認識結果だけでなく、信頼度が低い音声の認識結果も、例えば各人物の会話の文脈又は背景等を示す情報として利用することが可能になる。

あるいは、処理部は、ピーク方向の信頼度が高い信号を音声認識することによって得られたテキストの内容に対する応答を生成してもよい。一方、処理部は、ピーク方向の信頼度が低い信号を音声認識することによって得られたテキストに所定のキーワード（例えばウェイクアップワード）が含まれるかを判定し、所定のキーワードが含まれる場合（例えば図１０のステップ１００４でＹＥＳの場合）に、テキストの内容に対する応答を生成するといった処理手順を実行してもよい。

これによって、対話を意図していない発言に対して誤って音声対話システムが応答することを防止できる。

ピーク方向抽出部は、所定の幅の時間帯及び所定の幅の時間周波数帯域ごとに、信号強度のピーク方向を抽出してもよい。このとき、音声処理システムは、さらに、ピーク方向の信頼度が低い時間帯及び時間周波数帯域の信号のうち、人が発した音声を含む時間帯及び時間周波数帯域の信号を通過させる音声抽出フィルタを生成する音声抽出フィルタ生成部を有してもよい。また、分離音声出力部は、音声抽出フィルタを通過した信号と、ピーク方向の信頼度が低いことを示す情報と、を出力してもよい。

これによって、ピーク方向の信頼度が低い信号の成分に含まれる音声を有効に利用することができる。

ピーク方向抽出部は、ピークの鋭さの程度が所定の基準より低い場合に、ピーク方向の信頼度が低いと判定してもよい。

これによって、マイクを向いて発せられた音声とそれ以外の音とを適切に分離することができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明のより良い理解のために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、不揮発性半導体メモリ、ハードディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶デバイス、または、ＩＣカード、ＳＤカード、ＤＶＤ等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。

また、制御線及び情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

１００音声処理装置
１０１音声入力部
１０２ＣＰＵ
１０３画面出力部
１０４メモリ
１０５方向強度生成部
１０６ピーク方向抽出部
１０７非ピーク成分抽出部
１０８音声認識部
１０９方向抽出フィルタ生成部
１１０音声抽出フィルタ生成部
１１１方向信頼度付き分離音声出力部
１２１マイク
１２２ディスプレイ
８０１音声出力部
８０２ウェイクアップワード検出部
８０３応答義務推定部
８０４応答生成部
８０５スピーカ

Claims

マイクが検出した音の信号に基づいて、方向ごとの信号強度を生成する方向強度生成部と、
前記信号強度のピーク方向を抽出するピーク方向抽出部と、
前記信号強度のピークの鋭さに基づく前記ピーク方向の信頼度が低い信号から人が発した音声を抽出して、抽出した音声の信号と前記ピーク方向の信頼度を示す情報とを出力する分離音声出力部と、を有することを特徴とする音声処理システム。
請求項１に記載の音声処理システムであって、
前記分離音声出力部は、さらに、前記ピーク方向の信頼度が高い信号を抽出して、抽出した音声の信号と、前記ピーク方向の信頼度を示す情報とを出力し、
前記音声処理システムは、さらに、
前記ピーク方向の信頼度が低い信号から抽出された音声の信号と、前記ピーク方向の信頼度が高い信号と、のそれぞれに対して音声認識を行う音声認識部と、
それぞれの信号を音声認識することによって得られたテキストについて、それぞれの信号の前記ピーク方向の信頼度に応じて選択された処理を実行する処理部と、を有することを特徴とする音声処理システム。
請求項２に記載の音声処理システムであって、
前記分離音声出力部は、前記ピーク方向の信頼度が高い信号を、前記ピーク方向ごとに抽出して、前記ピーク方向を示す情報を出力し、
前記処理部は、
前記ピーク方向の信頼度が高い信号を音声認識することによって得られたテキストと、前記ピーク方向を示す情報とを出力し、
前記ピーク方向の信頼度が低い信号を音声認識することによって得られたテキストと、前記ピーク方向の信頼度が低いことを示す情報とを出力することを特徴とする音声処理システム。
請求項２に記載の音声処理システムであって、
前記処理部は、
前記ピーク方向の信頼度が高い信号を音声認識することによって得られたテキストの内容に対する応答を生成し、
前記ピーク方向の信頼度が低い信号を音声認識することによって得られたテキストに所定のキーワードが含まれるかを判定し、前記所定のキーワードが含まれる場合に、前記テキストの内容に対する応答を生成することを特徴とする音声処理システム。
請求項１に記載の音声処理システムであって、
前記ピーク方向抽出部は、所定の幅の時間帯及び所定の幅の時間周波数帯域ごとに、前記信号強度のピーク方向を抽出し、
前記音声処理システムは、さらに、前記ピーク方向の信頼度が低い前記時間帯及び前記時間周波数帯域の信号のうち、人が発した音声を含む前記時間帯及び前記時間周波数帯域の信号を通過させる音声抽出フィルタを生成する音声抽出フィルタ生成部を有し、
前記分離音声出力部は、前記音声抽出フィルタを通過した信号と、前記ピーク方向の信頼度が低いことを示す情報と、を出力することを特徴とする音声処理システム。
請求項１に記載の音声処理システムであって、
前記ピーク方向抽出部は、前記ピークの鋭さの程度が所定の基準より低い場合に、前記ピーク方向の信頼度が低いと判定することを特徴とする音声処理システム。
プロセッサと、前記プロセッサに接続されるメモリと、を有する計算機システムが実行する音声処理方法であって、
前記プロセッサが、マイクが検出した音の信号に基づいて、方向ごとの信号強度を生成する方向強度生成手順と、
前記プロセッサが、前記信号強度のピーク方向を抽出するピーク方向抽出手順と、
前記プロセッサが、前記信号強度のピークの鋭さに基づく前記ピーク方向の信頼度が低い信号から人が発した音声を抽出して、抽出した音声の信号と前記ピーク方向の信頼度を示す情報とを出力する分離音声出力手順と、を含むことを特徴とする音声処理方法。
請求項７に記載の音声処理方法であって、
前記分離音声出力手順は、さらに、前記プロセッサが、前記ピーク方向の信頼度が高い信号を抽出して、抽出した音声の信号と、前記ピーク方向の信頼度を示す情報とを出力する手順を含み、
前記音声処理方法は、さらに、
前記プロセッサが、前記ピーク方向の信頼度が低い信号から抽出された音声の信号と、前記ピーク方向の信頼度が高い信号と、のそれぞれに対して音声認識を行う音声認識手順と、
前記プロセッサが、それぞれの信号を音声認識することによって得られたテキストについて、それぞれの信号の前記ピーク方向の信頼度に応じて選択された処理を実行する処理手順と、を含むことを特徴とする音声処理方法。
請求項８に記載の音声処理方法であって、
前記分離音声出力手順は、前記プロセッサが、前記ピーク方向の信頼度が高い信号を、前記ピーク方向ごとに抽出して、前記ピーク方向を示す情報を出力する手順を含み、
前記処理手順は、前記プロセッサが、前記ピーク方向の信頼度が高い信号を音声認識することによって得られたテキストと、前記ピーク方向を示す情報とを出力し、前記ピーク方向の信頼度が低い信号を音声認識することによって得られたテキストと、前記ピーク方向の信頼度が低いことを示す情報とを出力する手順を含むことを特徴とする音声処理方法。
請求項８に記載の音声処理方法であって、
前記処理手順は、前記プロセッサが、前記ピーク方向の信頼度が高い信号を音声認識することによって得られたテキストの内容に対する応答を生成し、前記ピーク方向の信頼度が低い信号を音声認識することによって得られたテキストに所定のキーワードが含まれるかを判定し、前記所定のキーワードが含まれる場合に、前記テキストの内容に対する応答を生成する手順を含むことを特徴とする音声処理方法。
請求項７に記載の音声処理方法であって、
前記ピーク方向抽出手順は、前記プロセッサが、所定の幅の時間帯及び所定の幅の時間周波数帯域ごとに、前記信号強度のピーク方向を抽出する手順を含み、
前記音声処理方法は、さらに、前記プロセッサが、前記ピーク方向の信頼度が低い前記時間帯及び前記時間周波数帯域の信号のうち、人が発した音声を含む前記時間帯及び前記時間周波数帯域の信号を通過させる音声抽出フィルタを生成する音声抽出フィルタ生成手順を含み、
前記分離音声出力手順は、前記プロセッサが、前記音声抽出フィルタを通過した信号と、前記ピーク方向の信頼度が低いことを示す情報と、を出力する手順を含むことを特徴とする音声処理方法。
請求項７に記載の音声処理方法であって、
前記ピーク方向抽出手順は、前記プロセッサが、前記ピークの鋭さの程度が所定の基準より低い場合に、前記ピーク方向の信頼度が低いと判定する手順を含むことを特徴とする音声処理方法。