JP6992713B2 - 連続発話推定装置、連続発話推定方法、およびプログラム - Google Patents
連続発話推定装置、連続発話推定方法、およびプログラム Download PDFInfo
- Publication number
- JP6992713B2 JP6992713B2 JP2018169552A JP2018169552A JP6992713B2 JP 6992713 B2 JP6992713 B2 JP 6992713B2 JP 2018169552 A JP2018169552 A JP 2018169552A JP 2018169552 A JP2018169552 A JP 2018169552A JP 6992713 B2 JP6992713 B2 JP 6992713B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- continuous
- voice
- continuous utterance
- detection result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 40
- 238000001514 detection method Methods 0.000 claims description 140
- 230000003111 delayed effect Effects 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 9
- 230000006866 deterioration Effects 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephone Function (AREA)
Description
この発明は、キーワードの発音後に連続して目的音の発話があるか否かを推定する技術に関する。
例えばスマートスピーカや車載システムなどの、音声による制御が可能な機器では、トリガとなるキーワードが発音された際に音声認識を開始するキーワードウェイクアップと呼ばれる機能が搭載されていることがある。このような機能では、音声信号を入力とし、キーワードの発音を検出する技術が必要となる。
図1は、非特許文献1に開示されている従来技術の構成である。従来技術では、キーワード検出部91が入力された音声信号からキーワードの発音を検出すると、目的音出力部99がスイッチをオンにして、当該音声信号を音声認識等の対象とする目的音として出力する。また、応答音出力部92がキーワード検出時に応答音を出力して、キーワードの発音を検出したことを利用者に知らせる。このとき、各処理のタイミングを制御するために、遅延部93をさらに備え、キーワード検出部91の出力(図1A参照)または入力音声(図1B参照)を遅延させてもよい。
Sensory,Inc.、"TrulyHandsfreeTM"、[online]、[平成30年8月17日検索]、インターネット<URL: http://www.sensory.co.jp/product/thf.htm>
しかしながら、従来技術では、キーワードを発話した後に応答音を待ってから目的音を発話する利用方法の他に、キーワードと目的音を連続して発話する利用方法もあり得る。応答音を待ってから目的音を発話する利用方法を想定して、応答音の後に目的音区間の開始位置を設定した場合、利用者がキーワードと目的音を連続して発話すると目的音の話頭が切れてしまうという問題が生じる。また、キーワードと目的音を連続して発話する利用方法を想定して、キーワード発話の直後に目的音区間の開始位置を設定した場合、応答音が目的音の発話と時間的に重なり音声認識しにくい音になってしまうという問題がある。
この発明の目的は、上述のような技術的課題を鑑みて、キーワードを発話した後で応答音を待ってから目的音を発話する利用方法と、キーワードと目的音を連続して発話する利用方法とを自動的に判別し、各利用方法に合わせて適切に動作を変化させることである。
上記の課題を解決するために、この発明の第一の態様の連続発話推定装置は、入力音声から所定のキーワードの発音を検出した結果を示すキーワード検出結果を生成するキーワード検出部と、入力音声から音声区間を検出した結果を示す音声区間検出結果を生成する音声検出部と、キーワード検出結果がキーワードを検出したことを示し、かつ、音声区間検出結果が音声区間を検出したことを示す場合、連続発話であることを示す連続発話検出結果を生成する連続発話検出部と、を含む。
この発明によれば、キーワードを発話した後で応答音を待ってから目的音を発話する利用方法と、キーワードと目的音を連続して発話する利用方法とを自動的に判別できるため、各利用方法に合わせて適切に動作を変化させることができる。
従来技術では、キーワードを発話した後で応答音を待ってから目的音を発話する利用方法と、キーワードと目的音を連続して発話する利用方法との両方に対応することは難しかった。キーワードを発話した後で応答音を待ってから目的音を発話する利用方法を想定してキーワード検出時に応答音を発出すると、利用者がキーワードと目的音を連続して発話する利用方法を想定して発話した場合に、応答音と目的音が重なってしまうということが主な問題点である。
この発明の課題は、キーワードを発話した後で応答音を待ってから目的音を発話する利用方法と、キーワードと目的音を連続して発話する利用方法とを自動的に判別し、その判別結果に基づいて目的音区間の開始位置や応答音の発出の有無を変化させ、各利用方法にとって適切な動作を行うことである。具体的には、キーワードを発話した後で応答音を待ってから目的音を発話する利用方法であると判別した場合には、まず応答音を発出し、応答音発出終了後から目的音区間とする(図2A参照)。また、キーワードと目的音を連続して発話する利用方法と判別した場合には、応答音の発出は行わず、キーワード発話終了直後から目的音区間とする(図2B参照)。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第一実施形態]
第一実施形態の連続発話推定装置1は、利用者の音声(以下、「入力音声」と呼ぶ)を入力とし、入力音声にキーワードの発音が含まれる否かを判定したキーワード検出結果と、キーワードの発話の後に連続する発話が含まれるか否かを判定した連続発話検出結果とを出力する。連続発話推定装置1は、図3に示すように、キーワード検出部11、音声検出部12、および連続発話検出部13を備える。この連続発話推定装置1が、図4に示す各ステップの処理を行うことにより第一実施形態の連続発話推定方法S1が実現される。
第一実施形態の連続発話推定装置1は、利用者の音声(以下、「入力音声」と呼ぶ)を入力とし、入力音声にキーワードの発音が含まれる否かを判定したキーワード検出結果と、キーワードの発話の後に連続する発話が含まれるか否かを判定した連続発話検出結果とを出力する。連続発話推定装置1は、図3に示すように、キーワード検出部11、音声検出部12、および連続発話検出部13を備える。この連続発話推定装置1が、図4に示す各ステップの処理を行うことにより第一実施形態の連続発話推定方法S1が実現される。
連続発話推定装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。連続発話推定装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。連続発話推定装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。連続発話推定装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
以下、図4を参照して、第一実施形態の連続発話推定装置が実行する連続発話推定方法について説明する。
ステップS11において、キーワード検出部11は、入力音声からあらかじめ定めた所定のキーワードの発音を検出する。キーワードの検出は、例えば短時間の周期で求めたパワースペクトルのパターンが、事前に収録したキーワードのパターンと類似しているか否かを、事前に学習されたニューラルネットワークを用いて判定することで行う。キーワード検出部11は、キーワードを検出したこと、または、キーワードを検出しなかったことを示すキーワード検出結果を連続発話検出部13へ出力する。
ステップS12において、音声検出部12は、入力音声から音声区間を検出する。音声区間の検出は、例えば以下のように行われる。まず、定常雑音レベルN(t)を入力音声の長時間平均から求める。次に、定常雑音レベルN(t)に所定の定数αを乗算して閾値を設定する。そして、短時間平均レベルP(t)が閾値よりも大きくなる区間を音声区間として検出する。また、スペクトルやケプストラムの形状が音声の特徴と一致するか否かを判定要素に加えるような手法により音声区間を検出してもよい。音声検出部12は、音声区間を検出したこと、または、音声区間を検出しなかったことを示す音声区間検出結果を連続発話検出部13へ出力する。
短時間平均レベルP(t)の計算は、平均的なキーワード発話時間Tの矩形窓をかけた二乗平均パワーや、指数窓を乗算した二乗平均パワーを計算する。離散時刻tのパワーをP(t)とし、入力信号をx(t)とすれば、
となる。ただし、αは忘却係数であり、0<α<1の値をあらかじめ設定する。αは時定数が平均的なキーワード発話時間T(サンプル)となるように設定される。すなわち、α=1-1/Tである。もしくは、次式のように、キーワード発話時間Tの矩形窓をかけた絶対値平均パワーや、指数窓を乗算した絶対値平均パワーを計算してもよい。
ステップS13において、連続発話検出部13は、キーワード検出部11の出力するキーワード検出結果がキーワードを検出したことを示し、かつ、音声検出部12の出力する音声区間検出結果が音声区間を検出したことを示す場合、連続発話であると判定する。キーワード検出部11が行うキーワード検出には数百ミリ秒程度の遅延が発生するため、キーワード検出の処理が終了した時点ではキーワードの発話は終了している。したがって、キーワード検出時点での音声区間の有無により連続発話の話頭の有無を判定することができる。連続発話検出部13は、連続発話を検出したこと、または、連続発話を検出しなかったことを示す連続発話検出結果を、キーワード検出部11の出力するキーワード検出結果と共に連続発話推定装置1の出力とする。
このように構成することにより、第一実施形態によれば、キーワードの発話の後に連続する発話の有無を判定することができるため、連続発話推定装置1の出力する連続発話検出結果に基づいて、目的音区間の開始位置や応答音発出の有無を変化させることが可能となる。
[第二実施形態]
第二実施形態の連続発話推定装置2は、第一実施形態と同様に、利用者の音声を入力とし、キーワード検出結果と連続発話検出結果とを出力する。連続発話推定装置2は、図5に示すように、第一実施形態のキーワード検出部11、音声検出部12、および連続発話検出部13に加えて、遅延部21をさらに備える。
第二実施形態の連続発話推定装置2は、第一実施形態と同様に、利用者の音声を入力とし、キーワード検出結果と連続発話検出結果とを出力する。連続発話推定装置2は、図5に示すように、第一実施形態のキーワード検出部11、音声検出部12、および連続発話検出部13に加えて、遅延部21をさらに備える。
遅延部21は、キーワード検出部11の出力するキーワード検出結果に遅延を与える。この遅延は、キーワード検出の遅延が、連続発話の話頭の有無を判定するには短すぎる場合に、不足分の遅延をキーワード検出部11の出力に与えるための遅延である。連続発話の話頭の有無を判定するために適切な遅延がXであるとき、キーワード検出の遅延がYであった場合、X-Yの遅延を設定する。
このように構成することにより、第二実施形態によれば、適切なタイミングで連続発話の有無の判定を行うことができる。
[第三実施形態]
第三実施形態は、第一実施形態または第二実施形態の連続発話検出結果に基づいて、応答音の発出の有無を変化させる構成である。キーワードを検出した時に、キーワードを検出したことを利用者に知らせるため、応答音を発出することを考える。キーワードと連続して目的音を発音する場合では、応答音を発出する前に目的音が発話されているため、応答音は不要である。また、この場合に応答音を発出してしまうと、目的音に応答音が重畳してしまうため、音声認識などにとって不都合がある。そこで、第三実施形態では、キーワード検出時に連続発話を検出したら応答音の発出を行わず、キーワード検出時に連続発話を検出しなければ応答音の発出を行う。
第三実施形態は、第一実施形態または第二実施形態の連続発話検出結果に基づいて、応答音の発出の有無を変化させる構成である。キーワードを検出した時に、キーワードを検出したことを利用者に知らせるため、応答音を発出することを考える。キーワードと連続して目的音を発音する場合では、応答音を発出する前に目的音が発話されているため、応答音は不要である。また、この場合に応答音を発出してしまうと、目的音に応答音が重畳してしまうため、音声認識などにとって不都合がある。そこで、第三実施形態では、キーワード検出時に連続発話を検出したら応答音の発出を行わず、キーワード検出時に連続発話を検出しなければ応答音の発出を行う。
第三実施形態の連続発話推定装置3は、利用者の音声を入力とし、入力音声からキーワードを検出した時に連続発話を検出しなかった場合、応答音の発出を行う。連続発話推定装置3は、図6に示すように、連続発話検出付キーワード検出部10、スイッチ部20、および応答音出力部30を備える。
連続発話検出付キーワード検出部10は、具体的には、第一実施形態の連続発話推定装置1または第二実施形態の連続発話推定装置2と同様に構成される。すなわち、連続発話検出付キーワード検出部10は、キーワード検出部11、音声検出部12、および連続発話検出部13を少なくとも備え、利用者の音声を入力とし、キーワード検出結果と連続発話検出結果とを出力する。
スイッチ部20は、連続発話検出付キーワード検出部10の出力するキーワード検出結果を応答音出力部30へ伝達するか否かを制御する。連続発話検出付キーワード検出部10の出力する連続発話検出結果が真の場合(すなわち、連続発話を検出した場合)は、キーワード検出結果を応答音出力部30へ伝達せず、連続発話推定結果が偽の場合(すなわち、連続発話を検出しなかった場合)は、キーワード検出結果を応答音出力部30へ伝達する。
応答音出力部30は、スイッチ部20からキーワードを検出したことを示すキーワード検出結果が伝達されてきた場合、所定の応答音を出力する。
このように構成することにより、第三実施形態によれば、キーワードに続いて連続発話が行われた場合に、不要な応答音を発出することなく、音声認識などの精度劣化を防ぐことができる。
[第四実施形態]
第四実施形態は、第一実施形態または第二実施形態の連続発話検出結果に基づいて、目的音区間の開始位置を変化させる構成である。キーワードと目的音を連続して発話する利用方法では、キーワード検出の遅延により、キーワードを検出するより前に、目的音の発話が開始されていることが想定される。そのため、キーワードを検出した時に、時間をさかのぼって、目的音を切り出す必要がある。キーワードを発話した後で応答音を待ってから目的音を発話する利用方法では、応答音よりも後の部分を目的音として切り出すために、キーワード検出時点から応答音の長さ分だけ時間が経過した時点から、目的音を切り出す必要がある。このようにしないと、目的音に応答音が重畳してしまうことになり、音声認識などにとって不都合が生じる。
第四実施形態は、第一実施形態または第二実施形態の連続発話検出結果に基づいて、目的音区間の開始位置を変化させる構成である。キーワードと目的音を連続して発話する利用方法では、キーワード検出の遅延により、キーワードを検出するより前に、目的音の発話が開始されていることが想定される。そのため、キーワードを検出した時に、時間をさかのぼって、目的音を切り出す必要がある。キーワードを発話した後で応答音を待ってから目的音を発話する利用方法では、応答音よりも後の部分を目的音として切り出すために、キーワード検出時点から応答音の長さ分だけ時間が経過した時点から、目的音を切り出す必要がある。このようにしないと、目的音に応答音が重畳してしまうことになり、音声認識などにとって不都合が生じる。
第四実施形態の連続発話推定装置4は、利用者の音声を入力とし、入力音声からキーワードを検出した時に連続発話を検出した場合、キーワード発話直後から目的音を出力し、入力音声からキーワードを検出した時に連続発話を検出しなかった場合、応答音発出終了後から目的音を出力する。連続発話推定装置4は、図7に示すように、第三実施形態の連続発話検出付キーワード検出部10に加えて、遅延部41,43、スイッチ部42,44、および目的音出力部45を備える。
遅延部41は、連続発話検出付キーワード検出部10の出力するキーワード検出結果に応答音の長さ分の遅延を与える。
スイッチ部42は、遅延部41の出力する遅延後のキーワード検出結果がキーワードを検出したことを示す場合に、スイッチをオンにして、入力音声を目的音出力部45へ出力する。すなわち、応答音発出終了後からスイッチがオンとなるように動作する。
遅延部43は、入力音声に連続発話検出付キーワード検出部10が行うキーワード検出の遅延に相当する遅延を与える。
スイッチ部44は、連続発話検出付キーワード検出部10の出力するキーワード検出結果(すなわち、遅延させていないキーワード検出結果)がキーワードを検出したことを示す場合に、スイッチをオンにして、遅延部43の出力する遅延後の入力音声を目的音出力部45へ出力する。すなわち、キーワード発話直後からスイッチがオンとなるように動作する。
目的音出力部45は、スイッチ部42とスイッチ部44の出力のうちいずれか一方を選択し、目的音として出力する。具体的には、目的音出力部45は、連続発話検出付キーワード検出部10の出力する連続発話検出結果が真の場合(すなわち、連続発話を検出した場合)、スイッチ部44の出力(すなわち、キーワード発話直後からの入力音声)を選択し、連続発話検出結果が偽の場合(すなわち、連続発話を検出しなかった場合)、スイッチ部42の出力(すなわち、応答音発出後からの入力音声)を選択して、目的音として出力する。このようにすることで、キーワード検出時に連続発話を検出した場合は、キーワード発話直後から目的音を出力し、キーワード検出時に連続発話を検出しなかった場合は、応答音発出終了後から目的音を出力する。
このように構成することにより、第四実施形態によれば、キーワードに続いて連続発話が行われた場合は、キーワード発話直後からの入力音声を目的音として出力し、音声認識などで話頭が切れることを防ぐことができる。また、キーワード発話後に応答音が出力された後に目的音が発話された場合は、目的音発出終了後からの入力音声を目的音として出力し、応答音の重畳による音声認識の劣化を防ぐことができる。
[第五実施形態]
第五実施形態は、第三実施形態と第四実施形態とを組み合わせた構成である。第五実施形態の連続発話推定装置5は、利用者の音声を入力とし、入力音声からキーワードを検出した時に連続発話を検出した場合、キーワード発話直後から目的音を出力し、入力音声からキーワードを検出した時に連続発話を検出しなかった場合、応答音の発出を行い、応答音発出終了後から目的音を出力する。
第五実施形態は、第三実施形態と第四実施形態とを組み合わせた構成である。第五実施形態の連続発話推定装置5は、利用者の音声を入力とし、入力音声からキーワードを検出した時に連続発話を検出した場合、キーワード発話直後から目的音を出力し、入力音声からキーワードを検出した時に連続発話を検出しなかった場合、応答音の発出を行い、応答音発出終了後から目的音を出力する。
連続発話推定装置5は、図8に示すように、第三実施形態の連続発話検出付キーワード検出部10、スイッチ部20、および応答音出力部30と、第四実施形態の遅延部41,43、スイッチ部42,44、および目的音出力部45とを備える。各処理部の動作は第三実施形態および第四実施形態と同様である。
[第六実施形態]
第六実施形態の連続発話推定装置6は、マルチチャネルの音声を入力とし、各チャネルのキーワード検出結果と連続発話検出結果とを出力する。連続発話推定装置6は、図9に示すように、第一実施形態のキーワード検出部11および連続発話検出部14の組を入力音声のチャネル数M(≧2)だけ備え、さらにMチャネル入出力の多入力音声検出部62を備える。
第六実施形態の連続発話推定装置6は、マルチチャネルの音声を入力とし、各チャネルのキーワード検出結果と連続発話検出結果とを出力する。連続発話推定装置6は、図9に示すように、第一実施形態のキーワード検出部11および連続発話検出部14の組を入力音声のチャネル数M(≧2)だけ備え、さらにMチャネル入出力の多入力音声検出部62を備える。
多入力音声検出部62は、マルチチャネルの音声を入力とし、1以上M以下の各整数iについて、チャネルiの音声信号から音声区間を検出した音声区間検出結果を連続発話検出部14-iへ出力する。多入力音声検出部62は、チャネル間で音声レベル情報をやり取りすることで、より正確に音声区間を検出することができる。マルチチャネル入力の音声区間検出の方法は、下記参考文献1に記載の手法などを用いることができる。
〔参考文献1〕特開2017-187688号公報
このように構成することにより、第六実施形態によれば、マルチチャネルの音声信号が入力されたときに、精度よく音声区間を検出することができ、結果として連続発話推定の精度が向上する。
このように構成することにより、第六実施形態によれば、マルチチャネルの音声信号が入力されたときに、精度よく音声区間を検出することができ、結果として連続発話推定の精度が向上する。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1,2,3,4,5,6 連続発話推定装置
9 キーワード検出装置
11,91 キーワード検出部
12 音声検出部
13 連続発話検出部
30,92 応答音出力部
21,41,43,93 遅延部
20,42,44 スイッチ部
45,99 目的音出力部
62 多入力音声検出部
9 キーワード検出装置
11,91 キーワード検出部
12 音声検出部
13 連続発話検出部
30,92 応答音出力部
21,41,43,93 遅延部
20,42,44 スイッチ部
45,99 目的音出力部
62 多入力音声検出部
Claims (7)
- 入力音声から所定のキーワードの発音を検出した結果を示すキーワード検出結果を生成するキーワード検出部と、
上記入力音声から音声区間を検出した結果を示す音声区間検出結果を生成する音声検出部と、
上記キーワード検出結果がキーワードを検出したことを示し、かつ、上記音声区間検出結果が音声区間を検出したことを示す場合、連続発話であることを示す連続発話検出結果を生成する連続発話検出部と、
を含む連続発話推定装置。 - 請求項1に記載の連続発話推定装置であって、
上記キーワード検出結果が生成した上記キーワード検出結果に所定の遅延を与える遅延部をさらに含む、
連続発話推定装置。 - 請求項1または2に記載の連続発話推定装置であって、
上記キーワード検出結果がキーワードを検出したことを示し、かつ、上記連続発話検出結果が連続発話を検出したことを示すとき、所定の応答音を発出する応答音出力部をさらに含む、
連続発話推定装置。 - 請求項3に記載の連続発話推定装置であって、
上記キーワード検出結果がキーワードを検出したことを示し、かつ、上記連続発話検出結果が連続発話を検出したことを示す場合、上記応答音の長さ分遅延させた上記入力音声を目的音として出力し、上記キーワード検出結果がキーワードを検出したことを示し、かつ、上記連続発話検出結果が連続発話を検出しなかったことを示す場合、上記入力音声を遅延させずに目的音として出力する目的音出力部をさらに含む、
連続発話推定装置。 - 請求項1から4のいずれかに記載の連続発話推定装置であって、
上記入力音声は、複数のチャネルを含む音声信号であり、
上記音声検出部は、上記入力音声に含まれる各チャネルに対応する上記音声区間検出結果を生成するものであり、
上記キーワード検出部と上記連続発話検出部とを、上記入力音声に含まれる各チャネルの音声信号の数だけ含む、
連続発話推定装置。 - キーワード検出部が、入力音声から所定のキーワードの発音を検出した結果を示すキーワード検出結果を生成し、
音声検出部が、上記入力音声から音声区間を検出した結果を示す音声区間検出結果を生成し、
連続発話検出部が、上記キーワード検出結果がキーワードを検出したことを示し、かつ、上記音声区間検出結果が音声区間を検出したことを示す場合、連続発話であることを示す連続発話検出結果を生成する、
連続発話推定方法。 - 請求項1から5のいずれかに記載の連続発話推定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018169552A JP6992713B2 (ja) | 2018-09-11 | 2018-09-11 | 連続発話推定装置、連続発話推定方法、およびプログラム |
CN201980058863.5A CN112673422A (zh) | 2018-09-11 | 2019-08-28 | 连续发言估计装置、连续发言估计方法以及程序 |
EP19861105.5A EP3852100A4 (en) | 2018-09-11 | 2019-08-28 | CONTINUOUS SPEECH ESTIMATION DEVICE, METHOD AND PROGRAM |
PCT/JP2019/033609 WO2020054406A1 (ja) | 2018-09-11 | 2019-08-28 | 連続発話推定装置、連続発話推定方法、およびプログラム |
US17/274,403 US11961517B2 (en) | 2018-09-11 | 2019-08-28 | Continuous utterance estimation apparatus, continuous utterance estimation method, and program |
JP2021191256A JP7248087B2 (ja) | 2018-09-11 | 2021-11-25 | 連続発話推定装置、連続発話推定方法、およびプログラム |
JP2023037147A JP7509255B2 (ja) | 2023-03-10 | 連続発話推定装置、連続発話推定方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018169552A JP6992713B2 (ja) | 2018-09-11 | 2018-09-11 | 連続発話推定装置、連続発話推定方法、およびプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021191256A Division JP7248087B2 (ja) | 2018-09-11 | 2021-11-25 | 連続発話推定装置、連続発話推定方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020042173A JP2020042173A (ja) | 2020-03-19 |
JP6992713B2 true JP6992713B2 (ja) | 2022-01-13 |
Family
ID=69777565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018169552A Active JP6992713B2 (ja) | 2018-09-11 | 2018-09-11 | 連続発話推定装置、連続発話推定方法、およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11961517B2 (ja) |
EP (1) | EP3852100A4 (ja) |
JP (1) | JP6992713B2 (ja) |
CN (1) | CN112673422A (ja) |
WO (1) | WO2020054406A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018078885A1 (ja) | 2016-10-31 | 2018-05-03 | 富士通株式会社 | 対話装置、対話方法及び対話用コンピュータプログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03248268A (ja) * | 1990-02-26 | 1991-11-06 | Nec Corp | 音声対話処理方式 |
US8321214B2 (en) * | 2008-06-02 | 2012-11-27 | Qualcomm Incorporated | Systems, methods, and apparatus for multichannel signal amplitude balancing |
US20140278389A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics |
CN103943105A (zh) * | 2014-04-18 | 2014-07-23 | 安徽科大讯飞信息科技股份有限公司 | 一种语音交互方法及系统 |
CN104464723B (zh) * | 2014-12-16 | 2018-03-20 | 科大讯飞股份有限公司 | 一种语音交互方法及系统 |
KR102585228B1 (ko) * | 2015-03-13 | 2023-10-05 | 삼성전자주식회사 | 음성 인식 시스템 및 방법 |
CN106155621B (zh) * | 2015-04-20 | 2024-04-16 | 钰太芯微电子科技(上海)有限公司 | 可识别声源位置的关键词语音唤醒系统及方法及移动终端 |
US9734845B1 (en) * | 2015-06-26 | 2017-08-15 | Amazon Technologies, Inc. | Mitigating effects of electronic audio sources in expression detection |
US9691378B1 (en) * | 2015-11-05 | 2017-06-27 | Amazon Technologies, Inc. | Methods and devices for selectively ignoring captured audio data |
US20180174574A1 (en) * | 2016-12-19 | 2018-06-21 | Knowles Electronics, Llc | Methods and systems for reducing false alarms in keyword detection |
US10825471B2 (en) * | 2017-04-05 | 2020-11-03 | Avago Technologies International Sales Pte. Limited | Voice energy detection |
CN107886944B (zh) | 2017-11-16 | 2021-12-31 | 出门问问创新科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
US20190295540A1 (en) * | 2018-03-23 | 2019-09-26 | Cirrus Logic International Semiconductor Ltd. | Voice trigger validator |
US11462216B2 (en) * | 2019-03-28 | 2022-10-04 | Cerence Operating Company | Hybrid arbitration system |
US11364364B2 (en) * | 2019-05-03 | 2022-06-21 | Pacesetter, Inc. | Biostimulator transport system having valve bypass tool |
US11138969B2 (en) * | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138975B2 (en) * | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US20210383796A1 (en) * | 2020-06-08 | 2021-12-09 | Sonos, Inc. | Wakewordless Voice Quickstarts |
US20220284883A1 (en) * | 2021-03-05 | 2022-09-08 | Comcast Cable Communications, Llc | Keyword Detection |
-
2018
- 2018-09-11 JP JP2018169552A patent/JP6992713B2/ja active Active
-
2019
- 2019-08-28 CN CN201980058863.5A patent/CN112673422A/zh active Pending
- 2019-08-28 EP EP19861105.5A patent/EP3852100A4/en not_active Withdrawn
- 2019-08-28 US US17/274,403 patent/US11961517B2/en active Active
- 2019-08-28 WO PCT/JP2019/033609 patent/WO2020054406A1/ja unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018078885A1 (ja) | 2016-10-31 | 2018-05-03 | 富士通株式会社 | 対話装置、対話方法及び対話用コンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2020054406A1 (ja) | 2020-03-19 |
JP2020042173A (ja) | 2020-03-19 |
EP3852100A1 (en) | 2021-07-21 |
EP3852100A4 (en) | 2022-06-15 |
CN112673422A (zh) | 2021-04-16 |
US20210241772A1 (en) | 2021-08-05 |
US11961517B2 (en) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230297327A1 (en) | Device arbitration by multiple speech processing systems | |
KR101942521B1 (ko) | 음성 엔드포인팅 | |
US9451362B2 (en) | Adaptive beam forming devices, methods, and systems | |
JP7230806B2 (ja) | 情報処理装置、及び情報処理方法 | |
JP6766675B2 (ja) | 音声対話装置 | |
JP6629172B2 (ja) | 対話制御装置、その方法及びプログラム | |
JP6992713B2 (ja) | 連続発話推定装置、連続発話推定方法、およびプログラム | |
CN112863496B (zh) | 一种语音端点检测方法以及装置 | |
JP2022033824A (ja) | 連続発話推定装置、連続発話推定方法、およびプログラム | |
JP7001029B2 (ja) | キーワード検出装置、キーワード検出方法、およびプログラム | |
Witt | Modeling user response timings in spoken dialog systems | |
JP7409407B2 (ja) | チャネル選択装置、チャネル選択方法、およびプログラム | |
JP7257034B2 (ja) | 音源方向検出装置および音源方向検出プログラム | |
JP2020170101A (ja) | 音量調整装置、その方法、およびプログラム | |
US11922927B2 (en) | Learning data generation device, learning data generation method and non-transitory computer readable recording medium | |
JP7429107B2 (ja) | 音声翻訳装置、音声翻訳方法及びそのプログラム | |
US11600273B2 (en) | Speech processing apparatus, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6992713 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |