JP2020024310A - 音声処理システム及び音声処理方法 - Google Patents

音声処理システム及び音声処理方法 Download PDF

Info

Publication number
JP2020024310A
JP2020024310A JP2018148989A JP2018148989A JP2020024310A JP 2020024310 A JP2020024310 A JP 2020024310A JP 2018148989 A JP2018148989 A JP 2018148989A JP 2018148989 A JP2018148989 A JP 2018148989A JP 2020024310 A JP2020024310 A JP 2020024310A
Authority
JP
Japan
Prior art keywords
signal
peak direction
reliability
peak
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018148989A
Other languages
English (en)
Inventor
藤田 雄介
Yusuke Fujita
雄介 藤田
林太郎 池下
Rintaro Ikeshita
林太郎 池下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018148989A priority Critical patent/JP2020024310A/ja
Publication of JP2020024310A publication Critical patent/JP2020024310A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】マイクを向かずに発声された音声を活用する。【解決手段】マイクが検出した音の信号に基づいて、方向ごとの信号強度を生成する方向強度生成部と、前記信号強度のピーク方向を抽出するピーク方向抽出部と、前記信号強度のピークの鋭さに基づく前記ピーク方向の信頼度が低い信号から人が発した音声を抽出して、抽出した音声の信号と前記ピーク方向の信頼度を示す情報とを出力する分離音声出力部と、を有する。【選択図】図1

Description

本発明は、例えばロボットとの対話、会議又は電話等を通して取得される音声を活用するシステムに関する。
近年の音声認識技術は深層学習技術の登場によって飛躍的に精度が向上した。そこで音声認識技術を用いたロボットや電話自動応答による人間の業務の代替及び会議の自動議事録作成といった応用が期待されている。
例えば特開2011−146871号公報(特許文献1)では、マイクロフォンアレイを用いて音声を取得し、音声の到来方向を検出する技術が開示されている。具体的には、特許文献1には、「プログラムを実行するプロセッサと、前記プロセッサによって実行されるプログラムを格納するメモリと、前記プロセッサに接続されたインターフェースと、を備え、音の音源を探索する音源探索装置であって、前記音の信号が入力される音入力部と、入力された前記音の信号に基づいて、前記音の信号が入力されたときの前記音入力部の位置を基準とした前記音源の方向を推定する音源方向推定部と、前記音源方向推定部による推定の信頼度の高低を判定する方向信頼度判定部と、前記信頼度が高いと判定された場合には、推定された前記音源の方向に前記音源があると判定し、前記信頼度が低いと判定された場合には、前記音源方向推定部と異なる推定方法によって前記音源の方向を推定する音源探索部と、を備える。」と記載されている。
特開2011−146871号公報
しかし、特許文献1に記載されている方向に基づく音声検出は、直接音が十分に大きいことを前提としたアルゴリズムになっている。音声を発する人物の口がマイクを向いている場合は直接音が十分に大きいため、目的方向を歪ませずに干渉音の方向を抑圧するフィルタを精度よく構成できる。一方、口がマイクを向いていない場合は、様々な方向から音声が到来すると誤って認識するため、フィルタが安定せず、結果として目的音の一部が誤って抑圧されてしまう。
上記課題を解決するために、例えば特許請求の範囲に記載の構成を採用する。
本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、マイクが検出した音の信号に基づいて、方向ごとの信号強度を生成する方向強度生成部と、前記信号強度のピーク方向を抽出するピーク方向抽出部と、前記信号強度のピークの鋭さに基づく前記ピーク方向の信頼度が低い信号から人が発した音声を抽出して、抽出した音声の信号と前記ピーク方向の信頼度を示す情報とを出力する分離音声出力部と、を有することを特徴とする。
本発明の一態様によれば、方向を抽出できない成分を集めて音声検出を行うことで、口がマイクを向いていない条件であっても音声が検出できるようになり、会議の議事録等、マイクを向かずに発声された発話についても音声分離が可能となる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明によって明らかにされる。
実施例1の音声処理装置のハードウェア構成を示すブロック図である。 実施例1の音声処理装置の動作を示す説明図である。 実施例1のマイクに到達する音の説明図である。 実施例1のマイクが検出した音の到来方向ごとの強度の第1の例を示す説明図である。 実施例1のマイクが検出した音の到来方向ごとの強度の第1の例を示す説明図である。 実施例1の方向抽出フィルタの例を示す説明図である。 実施例1の音声抽出フィルタの例を示す説明図である。 実施例1の音声処理装置が出力するテキストの例を示す説明図である。 実施例2の音声処理装置のハードウェア構成を示すブロック図である。 実施例2の音声処理装置の動作を示す説明図である。 実施例2の応答義務推定部の動作を説明するフローチャートである。
以下、図面を用いて実施例を説明する。
会議の議事録の自動的な表示を可能とする音声処理装置の実施例の1つを説明する。
図1は、実施例1の音声処理装置100のハードウェア構成を示すブロック図である。
音声処理装置100は、音声入力部101、CPU(Central Processing Unit)102、画面出力部103及びメモリ104を備える。
音声入力部101は、マイク121と接続され、マイク121から音声信号を受信するインターフェースである。マイク121は、例えば、複数のマイク素子(図示省略)を含むマイクアレイであり、その場合、マイク121から音声入力部101にマイク素子と同数のチャネルの音声信号が入力される。
画面出力部103は、ディスプレイ122と接続され、ディスプレイ122が出力する画像等の情報をディスプレイ122に送信するインターフェースである。ディスプレイ122は、文字及び画像等を表示可能な表示装置である。図1の例ではマイク121及びディスプレイ122が音声処理装置100に接続されているが、音声処理装置100がマイク121及びディスプレイ122を含んでもよい。
CPU102は、メモリ104に格納されたプログラムに従って種々の処理を実行するプロセッサである。メモリ104は、方向強度生成部105、ピーク方向抽出部106、非ピーク成分抽出部107、方向抽出フィルタ生成部109、音声抽出フィルタ生成部110、方向信頼度付き分離音声出力部111及び音声認識部108、を格納する。これらは、CPU102によって実行されるプログラムである。以下の説明においてメモリ104内の各部が実行する処理は、実際には、メモリ104に格納されたプログラムに従って、CPU102が実行する。
図2は、実施例1の音声処理装置100の動作を示す説明図である。
まず、音声入力部101は、接続されたマイク121から音声を受け取る(ステップ201)。
次に、方向強度生成部105は、受け取った音声から方向強度を生成して出力する(ステップ202)。
次に、ピーク方向抽出部106は、ステップ202で生成された方向強度に基づいて、受け取った音声の方向強度のピークを算出する(ステップ203)。
次に、方向抽出フィルタ生成部109は、ステップ203で算出された方向強度のピークに基づいて、ピークとなる方向成分を抽出するフィルタを生成する(ステップ204)。
次に、方向信頼度付き分離音声出力部111は、ステップ204で生成されたフィルタの特徴に応じて求められる方向信頼度と、フィルタ結果である分離音声とを出力する(ステップ205)。
次に、音声認識部108は、ステップ204で生成された分離音声を認識し、テキストを出力する(ステップ206)。
一方、非ピーク成分抽出部107は、ステップ203で算出された方向強度のピークに基づいて、受け取った音声の方向強度が弱い成分を抽出する(ステップ207)。
次に、音声抽出フィルタ生成部110は、方向強度が弱い成分から音声を抽出するフィルタを生成する(ステップ208)。
次に、方向信頼度付き分離音声出力部111は、ステップ208で生成されたフィルタの特徴に応じて求められる方向信頼度と、フィルタ結果である分離音声とを出力する(ステップ209)。
次に、音声認識部108は、ステップ209で生成された分離音声を認識し、テキストを出力する(ステップ210)。
次に、画面出力部103は、テキストに方向情報および方向信頼度を添付した方向信頼度付き情報をディスプレイ122に出力する(ステップ211)。ディスプレイ122は、画面出力部103から出力された情報を表示する。
ここで、ステップ202〜204及び207〜208について、図3〜図6を参照して説明する。
図3は、実施例1のマイク121に到達する音の説明図である。
具体的には、図3は、部屋300にいる人物301が発した音声がマイク121に到達するまでの経路の例を示している。マイク121に到達する音声の一部は、人物301からマイク121に直接到達する経路302を通る直接音であり、残りは、部屋300の壁等に反射してマイク121に到達する複数の経路303を通る間接音である。直接音は人物301の方向からマイク121に到達するが、間接音は人物301の方向以外の広い範囲の方向からマイク121に到達する。
一般に、人物301の口がマイク121を向いていれば、マイク121に到達する直接音の強度は、間接音の強度に対して大きくなる傾向がある。一方、人物301の口がマイク121を向いていない場合にはそれらの差が小さくなる傾向がある。
方向強度生成部105は、マイク121の各マイク素子が検出した音の信号に基づいて、到来方向ごとの音の信号の強度を算出することができる。
図4Aは、実施例1のマイク121が検出した音の到来方向ごとの強度の第1の例を示す説明図である。
この例において、横軸はマイク121に到達した音の到来方向、縦軸は到来した音の信号の強度を示す。図4Aの例では、60°の方向から到来した音の強度が最大であり、かつ、そのピークは十分に鋭い(すなわちピーク方向の信頼度が高い)。
図4Bは、実施例1のマイク121が検出した音の到来方向ごとの強度の第2の例を示す説明図である。
この例の横軸及び縦軸は図4Aの例と同様である。図4Bの例では、60°の方向から到来した音の強度が最大であるが、そのピークは鈍い(すなわちピーク方向の信頼度が低い)。
図3を参照して説明したように、人物301がマイク121を向いて発声した音声がマイク121に到達した場合には、直接音の強度と間接音の強度との差が大きくなる傾向があるため、ピーク方向の信頼度が高いと判定されやすい傾向がある。一方、人物301がマイク121以外の方向を向いて発声した音声がマイク121に到達した場合には、直接音の強度と間接音の強度との差が小さくなる傾向があるため、ピーク方向の信頼度が低いと判定されやすい傾向がある。マイク121から音源までの距離が遠い場合、例えばマイク121が設置された部屋の端にいる人物の音声、又は、部屋の天井に設置されたスピーカが発した構内放送の音声などもそれと同様の傾向がある。
上記のような到来方向ごとの信号の強度は、所定の幅の時間帯ごと、及び、所定の幅の時間周波数の帯域ごとに算出することができる。
例えば、図2のステップ202において、方向強度生成部105が各時間帯の各時間周波数の帯域の到来方向ごとの信号の強度を算出する。その結果、例えばある時間帯のある時間周波数の帯域において図4Aに示すような強度の分布が得られた場合、ステップ203においてピーク方向抽出部106は、当該時間帯及び当該時間周波数の帯域におけるピーク方向の信頼度が高いと判定し、そのピーク方向を60°と算出してもよい。
一方、別の時間帯又は別の時間周波数の帯域において図4Bに示すような強度の分布が得られた場合、ステップ204において非ピーク成分抽出部107は、当該時間帯及び当該時間周波数の帯域におけるピーク方向の信頼度が低いと判定してもよい。
なお、ピークの鋭さの計算は、公知の方法を含めた任意の方法で行うことができる。また、ピーク方向の信頼度が高いか否かの判定は、例えばピークの鋭さの程度が所定の基準より高いか否かに基づいて行うなど、任意の方法で行うことができる。例えば、ピークの鋭さの程度を示す指標としてエントロピーを使用する場合、エントロピーが所定の値より大きい場合に、ピークの鋭さの程度が低い、すなわち、ピーク方向の信頼度が低いと判定してもよい。ピークの鋭さの程度を示す指標として何を使用するかは限定されない。
図5は、実施例1の方向抽出フィルタの例を示す説明図である。
図5の横軸は時間、縦軸は時間周波数を示す。すなわち、図5に示す各区画は、所定の幅の時間帯の、所定の幅の時間周波数の帯域に対応する。図5の例では、各区画に「60」又は「X」が表示されている。「60」の表示は、その区画に対応する時間帯及び時間周波数の帯域において、ピーク方向の信頼度が高いと判定され、そのピーク方向が60°の方向であったことを示している。一方、「X」の表示は、その区画に対応する時間帯及び時間周波数の帯域において、ピーク方向の信頼度が低いと判定されたことを示している。
方向抽出フィルタ生成部109は、ステップ204において、例えば図5の「60」が記載された区画(太枠で表示した区画)に対応する時間帯及び時間周波数の帯域の信号だけを通過させ、それ以外の信号を遮断するフィルタを生成する。
図5の例では60°のみであるが、例えばある区画に対応する時間帯及び時間周波数の帯域において、ピーク方向の信頼度が高いと判定され、そのピーク方向が別の角度、例えば20°であった場合には、方向抽出フィルタ生成部109は、上記の60°に対応するフィルタに加えて、20°の区画に対応する時間帯及び時間周波数の帯域の信号だけを通過させ、それ以外の信号を遮断するフィルタ(方向抽出フィルタ)を生成する。
このように、ピークの信頼度が高く、かつ、そのピーク方向が異なる音は、別の音源から到来した音(例えば別の人物が発声した音声)と推定される。このため、上記のようなフィルタを生成することによって、例えば異なる人物が発声した音声を分離することができる。
図6は、実施例1の音声抽出フィルタの例を示す説明図である。
図5の例と同様に、図6の各区画は、所定の幅の時間帯の、所定の幅の時間周波数の帯域に対応する。各区画の「60」及び「X」の表示の意味は図5の例と同様であるが、図6の例では、さらに、「O」が表示された区画(太枠で表示した区画)がある。この表示は、当該区画に対応する時間帯及び時間周波数の帯域の音が音声(すなわちいずれかの人物が発声した音)を含んでいることを示している。
音声抽出フィルタ生成部110は、ピーク方向の信頼度が低いと判定された時間帯及び時間周波数の帯域の信号に音声の信号が含まれるか否かを判定し、音声の信号が含まれると判定した時間帯及び時間周波数の帯域の信号のみを通過させ、それ以外の信号を遮断するフィルタ(音声抽出フィルタ)を生成する(ステップ208)。
図7は、実施例1の音声処理装置100が出力するテキストの例を示す説明図である。
図7の例では、時刻701、方向702及びテキスト703が出力される。これらは、例えば音声認識部108による音声認識(ステップ206、210)の結果を画面出力部103がディスプレイ122に送信したデータに基づいて、ディスプレイ122が表示する。
図7の例のうち最初の行は、時刻「2018年3月29日 15時5分30秒」に、60°の方向から到来した音を音声認識した結果、「こんにちは」というテキストが得られたことを示している。2番目の行は、時刻「2018年3月29日 15時5分35秒」に、20°の方向から到来した音を音声認識した結果、「今日はいい天気ですね」というテキストが得られたことを示している。これらは、到来方向が異なることから、例えば別の人物によって発声されたものであると推定してもよい。
3番目の行は、時刻「2018年3月29日 15時5分40秒」に、ピーク方向の信頼度が低いと判定された音声を音声認識した結果、「お知らせします」というテキストが得られたことを示している。ここで、方向702の値「−」は、ピーク方向の信頼度が低いことを示す。ピーク方向の信頼度が低いことから、例えば、いずれかの人物がマイク121を向かずに発声したものであるか、部屋の外などの遠方で発声されたものであるか、構内放送に含まれるものである、といった推定をしてもよい。
以上に説明した音声処理装置を構成すれば、方向を抽出できない成分を集めて音声検出を行うことで、口がマイクを向いていない条件であっても音声を検出することができる。
なお、上記の実施例1は、音声処理装置100が一つのCPU102及び一つのメモリ104を有する装置(例えば計算機システム)によって実現される例を示したが、このような装置は一例であり、音声処理装置100の構成はこれに限定されない。例えば、音声処理装置100は、一つ以上のCPU102及び一つ以上のメモリ104を有するシステムによって実現されてもよい。すなわち、音声処理装置100を音声処理システムと読み替えてもよい。
例えば、音声処理装置100は、一つ以上のCPU102及び一つ以上のメモリ104を有する第1の装置と、それとは別の一つ以上のCPU102及び一つ以上のメモリ104を有する第2の装置と、を含んでもよい。
このとき、第1の装置は、さらに音声入力部101を有し、第1の装置のメモリ104は方向強度生成部105、ピーク方向抽出部106、非ピーク成分抽出部107、方向抽出フィルタ生成部109、音声抽出フィルタ生成部110及び方向信頼度付き分離音声出力部111を保持する。
一方、第2の装置は、さらに画面出力部103を有し、第2の装置のメモリ104は音声認識部108を保持する。
第1の装置は、方向信頼度付き分離音声出力部111が出力した方向信頼度及び分離音声(ステップ205及び209)を、無線又は有線の通信路を介して第2の装置に送信する。第2の装置の音声認識部108は、受信した分離音声の認識を行う(ステップ206及び210)。また、第1の装置はマイク121を内蔵してもよい。
例えば、音声処理装置100を議事録作成に応用する場合、第1の装置を会議室に設置し、第2の装置を会議室内に限定しない任意の場所に設置することができる。このとき、第2の装置の少なくとも一部がクラウド上に構成されてもよい。これによって、第1の装置を小型化して設置が容易になる。また、第2の装置として十分な性能を持った計算機を使用することができ、また、十分な量の認識辞書を利用することができるため、精度の高い認識が可能になる。
また、上記のように音声処理装置100が第1の装置と第2の装置とを有することによって、マイク121が複数のマイク素子を含むマイクアレイである場合、マイク121と音声入力部101との間に複数の通信チャネルが必要となるが、方向信頼度付き分離音声出力部111の出力は一つの通信チャネルを介して送信することができる。このため、上記のようにマイク121と第1の装置とを一体化し、第1の装置と第2の装置とを分離して設置した場合には、必要な通信チャネルの容量が削減される。
次に、本発明の実施例2について説明する。実施例2の音声処理装置は、自動音声対話システムとして動作する。以下に説明する相違点を除き、実施例2のシステムの各部は、図1〜図7に示された実施例1の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。
図8は、実施例2の音声処理装置のハードウェア構成を示すブロック図である。
実施例2の音声処理装置100は、マイクと接続された音声入力部101、CPU102、スピーカ805と接続された音声出力部801及びメモリ104を備える。メモリ104は、方向強度生成部105、ピーク方向抽出部106、非ピーク成分抽出部107、方向抽出フィルタ生成部109、音声抽出フィルタ生成部110、方向信頼度付き分離音声出力部111、音声認識部108、ウェイクアップワード検出部802、応答義務推定部803及び応答生成部804を格納する。これらは、CPU102によって実行されるプログラムである。以下の説明においてメモリ104内の各部が実行する処理は、実際には、メモリ104に格納されたプログラムに従って、CPU102が実行する。
図9は、実施例2の音声処理装置100の動作を示す説明図である。
図9のステップ201〜210は、図2に示したものと同様であるため、説明を省略する。
応答義務推定部803は、ステップ206及びステップ210で認識されたテキストに対して応答義務を推定する(ステップ901)。このとき、ウェイクアップワード検出部802がステップ210の音声認識の結果からウェイクアップワードを検出し、その結果に基づいて応答生成部804が応答を生成する(ステップ903)。
図10は、実施例2の応答義務推定部803の動作を説明するフローチャートである。
応答義務推定部803は、音声認識部108から出力された音声認識結果に対応するピーク方向の信頼度が高いかを判定する(ステップ1001)。具体的には、ステップ206の音声認識は、ピーク方向の信頼度が高い分離音声を対象として行われたものである。このため、ステップ206の音声認識の結果が出力された場合、応答義務推定部803はピーク方向の信頼度が高いと判定する(ステップ1001:YES)。
ピーク方向の信頼度が高いことから、その音声を発した人物の口がマイク121を向いていると推定される。このことから、その音声を発した人物が、その音声に対する音声処理装置100からの応答を期待していると推定することもできる。例えば、音声処理装置100が人と対話するロボット等の音声対話システムに搭載されており、人物がその音声対話システムと対話することを意図して音声を発した場合がこれに該当する。
このため、ピーク方向の信頼度が高い場合には、ウェイクアップワード検出部802がウェイクアップワードの検出をすることなく、応答生成部804が応答を生成する(ステップ1002)。図10のステップ1002は、図9のステップ903に対応する。
一方、ステップ210の音声認識は、ピーク方向の信頼度が低い分離音声を対象として行われたものである。このため、ステップ210の音声認識の結果が出力された場合、応答義務推定部803はピーク方向の信頼度が低いと判定する(ステップ1001:NO)。ピーク方向の信頼度が低いことから、その音声を発した人物の口がマイク121を向いていないと推定される。このことから、その音声は、対話を意図して発せられたものではない可能性があると推定することもできる。
このため、応答生成部804は、ピーク方向の信頼度が低い場合にはウェイクアップワード検出部802が音声認識結果からウェイクアップワードを検出し(ステップ1003)、ウェイクアップワードの有無を判定する(ステップ1004)。図10のステップ1003は、図9のステップ902に対応する。
音声認識結果にウェイクアップワードが含まれる場合(ステップ1004:YES)、当該音声は対話を意図して発せられたものであると判定できるため、応答生成部804が応答を生成する(ステップ1002)。
一方、音声認識結果にウェイクアップワードが含まれない場合(ステップ1004:NO)、当該音声は対話を意図して発せられたものでないと判定できるため、応答生成部804が応答を生成することなく処理が終了する。
ここで、ウェイクアップワード検出部807は、予め取り決められた、音声対話システムを利用するための特定のキーワード(すなわちウェイクアップワード)が音声に入っているか否かを検出する。
ステップ1002で生成された応答は、音声出力部801からスピーカ805に出力され、スピーカ805によって音声に変換されて出力される。
以上の実施例2で説明した内容で音声処理装置を構成すれば、口がマイクを向いている条件での発言に対しては、特定のキーワードの発話なしでも音声対話システムが応答することで、対話の手順を簡略化することができるとともに、口がマイクを向いていない条件での発言に対しては、対話を意図していない発言に対して誤って音声対話システムが応答することを防止できる。
以上のように、本発明の実施例の音声処理システム(例えば音声処理装置100)は、マイクが検出した音の信号に基づいて、方向ごとの信号強度を生成する方向強度生成部(例えば方向強度生成部105)と、方向ごとの信号強度のピーク方向を抽出するピーク方向抽出部(例えばピーク方向抽出部106)と、信号強度のピークの鋭さに基づくピーク方向の信頼度が低い信号から人が発した音声を抽出して、抽出した音声の信号とピーク方向の信頼度を示す情報とを出力する分離音声出力部(例えば方向信頼度付き分離音声出力部111)と、を有する。
これによって、出力された分離音声に対して、方向の信頼度に応じた処理を行うことが可能になる。
ここで、分離音声出力部は、さらに、ピーク方向の信頼度が高い信号を抽出して、抽出した音声の信号と、ピーク方向の信頼度を示す情報とを出力してもよい。このとき、音声処理システムは、さらに、ピーク方向の信頼度が低い信号から抽出された音声の信号と、ピーク方向の信頼度が高い信号と、のそれぞれに対して音声認識を行う音声認識部(例えば音声認識部108)と、それぞれの信号を音声認識することによって得られたテキストについて、それぞれの信号の前記ピーク方向の信頼度に応じて選択された処理を実行する処理部と、を有してもよい。
ここで、処理部は、例えば、実施例1の画面出力部103であってもよいし、実施例2のウェイクアップワード検出部802、応答義務推定部803及び応答生成部804であってもよい。
具体的には、分離音声出力部は、ピーク方向の信頼度が高い信号を、ピーク方向ごとに抽出して、ピーク方向を示す情報を出力してもよい。このとき、処理部は、ピーク方向の信頼度が高い信号を音声認識することによって得られたテキスト(例えば図7の「こんにちは」)と、ピーク方向を示す情報(例えば図7の「60」)とを出力し、ピーク方向の信頼度が低い信号を音声認識することによって得られたテキスト(例えば図7の「お知らせします」)と、ピーク方向の信頼度が低いことを示す情報(例えば図7の「−」)とを出力するといった処理手順を実行してもよい。
これによって、ピーク方向の信頼度が高い音声の認識結果だけでなく、信頼度が低い音声の認識結果も、例えば各人物の会話の文脈又は背景等を示す情報として利用することが可能になる。
あるいは、処理部は、ピーク方向の信頼度が高い信号を音声認識することによって得られたテキストの内容に対する応答を生成してもよい。一方、処理部は、ピーク方向の信頼度が低い信号を音声認識することによって得られたテキストに所定のキーワード(例えばウェイクアップワード)が含まれるかを判定し、所定のキーワードが含まれる場合(例えば図10のステップ1004でYESの場合)に、テキストの内容に対する応答を生成するといった処理手順を実行してもよい。
これによって、対話を意図していない発言に対して誤って音声対話システムが応答することを防止できる。
ピーク方向抽出部は、所定の幅の時間帯及び所定の幅の時間周波数帯域ごとに、信号強度のピーク方向を抽出してもよい。このとき、音声処理システムは、さらに、ピーク方向の信頼度が低い時間帯及び時間周波数帯域の信号のうち、人が発した音声を含む時間帯及び時間周波数帯域の信号を通過させる音声抽出フィルタを生成する音声抽出フィルタ生成部を有してもよい。また、分離音声出力部は、音声抽出フィルタを通過した信号と、ピーク方向の信頼度が低いことを示す情報と、を出力してもよい。
これによって、ピーク方向の信頼度が低い信号の成分に含まれる音声を有効に利用することができる。
ピーク方向抽出部は、ピークの鋭さの程度が所定の基準より低い場合に、ピーク方向の信頼度が低いと判定してもよい。
これによって、マイクを向いて発せられた音声とそれ以外の音とを適切に分離することができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明のより良い理解のために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、不揮発性半導体メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶デバイス、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
また、制御線及び情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
100 音声処理装置
101 音声入力部
102 CPU
103 画面出力部
104 メモリ
105 方向強度生成部
106 ピーク方向抽出部
107 非ピーク成分抽出部
108 音声認識部
109 方向抽出フィルタ生成部
110 音声抽出フィルタ生成部
111 方向信頼度付き分離音声出力部
121 マイク
122 ディスプレイ
801 音声出力部
802 ウェイクアップワード検出部
803 応答義務推定部
804 応答生成部
805 スピーカ

Claims (12)

  1. マイクが検出した音の信号に基づいて、方向ごとの信号強度を生成する方向強度生成部と、
    前記信号強度のピーク方向を抽出するピーク方向抽出部と、
    前記信号強度のピークの鋭さに基づく前記ピーク方向の信頼度が低い信号から人が発した音声を抽出して、抽出した音声の信号と前記ピーク方向の信頼度を示す情報とを出力する分離音声出力部と、を有することを特徴とする音声処理システム。
  2. 請求項1に記載の音声処理システムであって、
    前記分離音声出力部は、さらに、前記ピーク方向の信頼度が高い信号を抽出して、抽出した音声の信号と、前記ピーク方向の信頼度を示す情報とを出力し、
    前記音声処理システムは、さらに、
    前記ピーク方向の信頼度が低い信号から抽出された音声の信号と、前記ピーク方向の信頼度が高い信号と、のそれぞれに対して音声認識を行う音声認識部と、
    それぞれの信号を音声認識することによって得られたテキストについて、それぞれの信号の前記ピーク方向の信頼度に応じて選択された処理を実行する処理部と、を有することを特徴とする音声処理システム。
  3. 請求項2に記載の音声処理システムであって、
    前記分離音声出力部は、前記ピーク方向の信頼度が高い信号を、前記ピーク方向ごとに抽出して、前記ピーク方向を示す情報を出力し、
    前記処理部は、
    前記ピーク方向の信頼度が高い信号を音声認識することによって得られたテキストと、前記ピーク方向を示す情報とを出力し、
    前記ピーク方向の信頼度が低い信号を音声認識することによって得られたテキストと、前記ピーク方向の信頼度が低いことを示す情報とを出力することを特徴とする音声処理システム。
  4. 請求項2に記載の音声処理システムであって、
    前記処理部は、
    前記ピーク方向の信頼度が高い信号を音声認識することによって得られたテキストの内容に対する応答を生成し、
    前記ピーク方向の信頼度が低い信号を音声認識することによって得られたテキストに所定のキーワードが含まれるかを判定し、前記所定のキーワードが含まれる場合に、前記テキストの内容に対する応答を生成することを特徴とする音声処理システム。
  5. 請求項1に記載の音声処理システムであって、
    前記ピーク方向抽出部は、所定の幅の時間帯及び所定の幅の時間周波数帯域ごとに、前記信号強度のピーク方向を抽出し、
    前記音声処理システムは、さらに、前記ピーク方向の信頼度が低い前記時間帯及び前記時間周波数帯域の信号のうち、人が発した音声を含む前記時間帯及び前記時間周波数帯域の信号を通過させる音声抽出フィルタを生成する音声抽出フィルタ生成部を有し、
    前記分離音声出力部は、前記音声抽出フィルタを通過した信号と、前記ピーク方向の信頼度が低いことを示す情報と、を出力することを特徴とする音声処理システム。
  6. 請求項1に記載の音声処理システムであって、
    前記ピーク方向抽出部は、前記ピークの鋭さの程度が所定の基準より低い場合に、前記ピーク方向の信頼度が低いと判定することを特徴とする音声処理システム。
  7. プロセッサと、前記プロセッサに接続されるメモリと、を有する計算機システムが実行する音声処理方法であって、
    前記プロセッサが、マイクが検出した音の信号に基づいて、方向ごとの信号強度を生成する方向強度生成手順と、
    前記プロセッサが、前記信号強度のピーク方向を抽出するピーク方向抽出手順と、
    前記プロセッサが、前記信号強度のピークの鋭さに基づく前記ピーク方向の信頼度が低い信号から人が発した音声を抽出して、抽出した音声の信号と前記ピーク方向の信頼度を示す情報とを出力する分離音声出力手順と、を含むことを特徴とする音声処理方法。
  8. 請求項7に記載の音声処理方法であって、
    前記分離音声出力手順は、さらに、前記プロセッサが、前記ピーク方向の信頼度が高い信号を抽出して、抽出した音声の信号と、前記ピーク方向の信頼度を示す情報とを出力する手順を含み、
    前記音声処理方法は、さらに、
    前記プロセッサが、前記ピーク方向の信頼度が低い信号から抽出された音声の信号と、前記ピーク方向の信頼度が高い信号と、のそれぞれに対して音声認識を行う音声認識手順と、
    前記プロセッサが、それぞれの信号を音声認識することによって得られたテキストについて、それぞれの信号の前記ピーク方向の信頼度に応じて選択された処理を実行する処理手順と、を含むことを特徴とする音声処理方法。
  9. 請求項8に記載の音声処理方法であって、
    前記分離音声出力手順は、前記プロセッサが、前記ピーク方向の信頼度が高い信号を、前記ピーク方向ごとに抽出して、前記ピーク方向を示す情報を出力する手順を含み、
    前記処理手順は、前記プロセッサが、前記ピーク方向の信頼度が高い信号を音声認識することによって得られたテキストと、前記ピーク方向を示す情報とを出力し、前記ピーク方向の信頼度が低い信号を音声認識することによって得られたテキストと、前記ピーク方向の信頼度が低いことを示す情報とを出力する手順を含むことを特徴とする音声処理方法。
  10. 請求項8に記載の音声処理方法であって、
    前記処理手順は、前記プロセッサが、前記ピーク方向の信頼度が高い信号を音声認識することによって得られたテキストの内容に対する応答を生成し、前記ピーク方向の信頼度が低い信号を音声認識することによって得られたテキストに所定のキーワードが含まれるかを判定し、前記所定のキーワードが含まれる場合に、前記テキストの内容に対する応答を生成する手順を含むことを特徴とする音声処理方法。
  11. 請求項7に記載の音声処理方法であって、
    前記ピーク方向抽出手順は、前記プロセッサが、所定の幅の時間帯及び所定の幅の時間周波数帯域ごとに、前記信号強度のピーク方向を抽出する手順を含み、
    前記音声処理方法は、さらに、前記プロセッサが、前記ピーク方向の信頼度が低い前記時間帯及び前記時間周波数帯域の信号のうち、人が発した音声を含む前記時間帯及び前記時間周波数帯域の信号を通過させる音声抽出フィルタを生成する音声抽出フィルタ生成手順を含み、
    前記分離音声出力手順は、前記プロセッサが、前記音声抽出フィルタを通過した信号と、前記ピーク方向の信頼度が低いことを示す情報と、を出力する手順を含むことを特徴とする音声処理方法。
  12. 請求項7に記載の音声処理方法であって、
    前記ピーク方向抽出手順は、前記プロセッサが、前記ピークの鋭さの程度が所定の基準より低い場合に、前記ピーク方向の信頼度が低いと判定する手順を含むことを特徴とする音声処理方法。
JP2018148989A 2018-08-08 2018-08-08 音声処理システム及び音声処理方法 Pending JP2020024310A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018148989A JP2020024310A (ja) 2018-08-08 2018-08-08 音声処理システム及び音声処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018148989A JP2020024310A (ja) 2018-08-08 2018-08-08 音声処理システム及び音声処理方法

Publications (1)

Publication Number Publication Date
JP2020024310A true JP2020024310A (ja) 2020-02-13

Family

ID=69618645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018148989A Pending JP2020024310A (ja) 2018-08-08 2018-08-08 音声処理システム及び音声処理方法

Country Status (1)

Country Link
JP (1) JP2020024310A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037772A (zh) * 2020-09-04 2020-12-04 平安科技(深圳)有限公司 基于多模态的响应义务检测方法、系统及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037772A (zh) * 2020-09-04 2020-12-04 平安科技(深圳)有限公司 基于多模态的响应义务检测方法、系统及装置
CN112037772B (zh) * 2020-09-04 2024-04-02 平安科技(深圳)有限公司 基于多模态的响应义务检测方法、系统及装置

Similar Documents

Publication Publication Date Title
US10586534B1 (en) Voice-controlled device control using acoustic echo cancellation statistics
US9293133B2 (en) Improving voice communication over a network
US10579327B2 (en) Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold
US11138977B1 (en) Determining device groups
US10045140B2 (en) Utilizing digital microphones for low power keyword detection and noise suppression
US9940949B1 (en) Dynamic adjustment of expression detection criteria
US9916832B2 (en) Using combined audio and vision-based cues for voice command-and-control
JP6450139B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
US20120109632A1 (en) Portable electronic device
EP3289586A1 (en) Impulsive noise suppression
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
KR102580828B1 (ko) 멀티 채널 보이스 활동 검출
US20120053937A1 (en) Generalizing text content summary from speech content
JP3838159B2 (ja) 音声認識対話装置およびプログラム
US20200279570A1 (en) Speaker determination apparatus, speaker determination method, and control program for speaker determination apparatus
JP2020024310A (ja) 音声処理システム及び音声処理方法
US20170206898A1 (en) Systems and methods for assisting automatic speech recognition
JP2016033530A (ja) 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
US10818298B2 (en) Audio processing
Panek et al. Challenges in adopting speech control for assistive robots
JP6260138B2 (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
CN113593619B (zh) 用于录制音频的方法、装置、设备和介质
CN108417208A (zh) 一种语音输入方法和装置
JP2017097160A (ja) 音声処理装置、音声処理方法、およびプログラム
US20220084505A1 (en) Communication between devices in close proximity to improve voice control of the devices