JP2023081989A - 連続発話推定装置、連続発話推定方法、およびプログラム - Google Patents
連続発話推定装置、連続発話推定方法、およびプログラム Download PDFInfo
- Publication number
- JP2023081989A JP2023081989A JP2023037147A JP2023037147A JP2023081989A JP 2023081989 A JP2023081989 A JP 2023081989A JP 2023037147 A JP2023037147 A JP 2023037147A JP 2023037147 A JP2023037147 A JP 2023037147A JP 2023081989 A JP2023081989 A JP 2023081989A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- voice
- continuous speech
- speech
- continuous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 38
- 230000004044 response Effects 0.000 claims abstract description 66
- 238000001514 detection method Methods 0.000 claims description 98
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000001934 delay Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
用方法と、キーワードと目的音を連続して発話する利用方法とを自動的に判別できるため、各利用方法に合わせて適切に動作を変化させることができる。
第一実施形態の連続発話推定装置1は、利用者の音声(以下、「入力音声」と呼ぶ)を入力とし、入力音声にキーワードの発音が含まれる否かを判定したキーワード検出結果と、キーワードの発話の後に連続する発話が含まれるか否かを判定した連続発話検出結果とを出力する。連続発話推定装置1は、図3に示すように、キーワード検出部11、音声検出部12、および連続発話検出部13を備える。この連続発話推定装置1が、図4に示す各ステップの処理を行うことにより第一実施形態の連続発話推定方法S1が実現される。
に特別なプログラムが読み込まれて構成された特別な装置である。連続発話推定装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。連続発話推定装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。連続発話推定装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
する発話の有無を判定することができるため、連続発話推定装置1の出力する連続発話検出結果に基づいて、目的音区間の開始位置や応答音発出の有無を変化させることが可能となる。
第二実施形態の連続発話推定装置2は、第一実施形態と同様に、利用者の音声を入力とし、キーワード検出結果と連続発話検出結果とを出力する。連続発話推定装置2は、図5に示すように、第一実施形態のキーワード検出部11、音声検出部12、および連続発話検出部13に加えて、遅延部21をさらに備える。
第三実施形態は、第一実施形態または第二実施形態の連続発話検出結果に基づいて、応答音の発出の有無を変化させる構成である。キーワードを検出した時に、キーワードを検出したことを利用者に知らせるため、応答音を発出することを考える。キーワードと連続して目的音を発音する場合では、応答音を発出する前に目的音が発話されているため、応答音は不要である。また、この場合に応答音を発出してしまうと、目的音に応答音が重畳してしまうため、音声認識などにとって不都合がある。そこで、第三実施形態では、キーワード検出時に連続発話を検出したら応答音の発出を行わず、キーワード検出時に連続発話を検出しなければ応答音の発出を行う。
第四実施形態は、第一実施形態または第二実施形態の連続発話検出結果に基づいて、目的音区間の開始位置を変化させる構成である。キーワードと目的音を連続して発話する利用方法では、キーワード検出の遅延により、キーワードを検出するより前に、目的音の発話が開始されていることが想定される。そのため、キーワードを検出した時に、時間をさかのぼって、目的音を切り出す必要がある。キーワードを発話した後で応答音を待ってから目的音を発話する利用方法では、応答音よりも後の部分を目的音として切り出すために、キーワード検出時点から応答音の長さ分だけ時間が経過した時点から、目的音を切り出す必要がある。このようにしないと、目的音に応答音が重畳してしまうことになり、音声認識などにとって不都合が生じる。
などで話頭が切れることを防ぐことができる。また、キーワード発話後に応答音が出力された後に目的音が発話された場合は、目的音発出終了後からの入力音声を目的音として出力し、応答音の重畳による音声認識の劣化を防ぐことができる。
第五実施形態は、第三実施形態と第四実施形態とを組み合わせた構成である。第五実施形態の連続発話推定装置5は、利用者の音声を入力とし、入力音声からキーワードを検出した時に連続発話を検出した場合、キーワード発話直後から目的音を出力し、入力音声からキーワードを検出した時に連続発話を検出しなかった場合、応答音の発出を行い、応答音発出終了後から目的音を出力する。
第六実施形態の連続発話推定装置6は、マルチチャネルの音声を入力とし、各チャネルのキーワード検出結果と連続発話検出結果とを出力する。連続発話推定装置6は、図9に示すように、第一実施形態のキーワード検出部11および連続発話検出部14の組を入力音声のチャネル数M(≧2)だけ備え、さらにMチャネル入出力の多入力音声検出部62を備える。
このように構成することにより、第六実施形態によれば、マルチチャネルの音声信号が入力されたときに、精度よく音声区間を検出することができ、結果として連続発話推定の精度が向上する。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
スによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
9 キーワード検出装置
11,91 キーワード検出部
12 音声検出部
13 連続発話検出部
30,92 応答音出力部
21,41,43,93 遅延部
20,42,44 スイッチ部
45,99 目的音出力部
62 多入力音声検出部
Claims (4)
- 利用者の音声を取得する音声取得部と、
上記音声取得部より取得された音声が、所定のキーワードを含みかつ連続発話である場合には所定の応答音を発出し、上記キーワードを含むが連続発話でない場合には上記応答音を発出しない、応答音出力部と、
を含む連続発話推定装置。 - 請求項1に記載の連続発話推定装置であって、
上記音声取得部より取得された音声から上記キーワードの有無を検出するキーワード検出部と、
上記音声取得部より取得された音声に連続発話を含むか否かを判定する連続発話判定機能部と、
をさらに含む、連続発話推定装置。 - 音声取得部が、利用者の音声を取得し、
応答音出力部が、上記音声取得部より取得された音声が、所定のキーワードを含みかつ連続発話である場合には所定の応答音を発出し、上記キーワードを含むが連続発話でない場合には上記応答音を発出しない、
連続発話推定方法。 - コンピュータに、
利用者の音声を取得し、
上記取得された音声が、所定のキーワードを含みかつ連続発話である場合には所定の応答音を発出し、上記キーワードを含むが連続発話でない場合には上記応答音を発出しない、
処理を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023037147A JP2023081989A (ja) | 2018-09-11 | 2023-03-10 | 連続発話推定装置、連続発話推定方法、およびプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018169552A JP6992713B2 (ja) | 2018-09-11 | 2018-09-11 | 連続発話推定装置、連続発話推定方法、およびプログラム |
JP2021191256A JP7248087B2 (ja) | 2018-09-11 | 2021-11-25 | 連続発話推定装置、連続発話推定方法、およびプログラム |
JP2023037147A JP2023081989A (ja) | 2018-09-11 | 2023-03-10 | 連続発話推定装置、連続発話推定方法、およびプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021191256A Division JP7248087B2 (ja) | 2018-09-11 | 2021-11-25 | 連続発話推定装置、連続発話推定方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023081989A true JP2023081989A (ja) | 2023-06-13 |
Family
ID=87654569
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021191256A Active JP7248087B2 (ja) | 2018-09-11 | 2021-11-25 | 連続発話推定装置、連続発話推定方法、およびプログラム |
JP2023037147A Pending JP2023081989A (ja) | 2018-09-11 | 2023-03-10 | 連続発話推定装置、連続発話推定方法、およびプログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021191256A Active JP7248087B2 (ja) | 2018-09-11 | 2021-11-25 | 連続発話推定装置、連続発話推定方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP7248087B2 (ja) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6699748B2 (ja) * | 2016-10-31 | 2020-05-27 | 富士通株式会社 | 対話装置、対話方法及び対話用コンピュータプログラム |
-
2021
- 2021-11-25 JP JP2021191256A patent/JP7248087B2/ja active Active
-
2023
- 2023-03-10 JP JP2023037147A patent/JP2023081989A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2022033824A (ja) | 2022-03-02 |
JP7248087B2 (ja) | 2023-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6541630B2 (ja) | スピーチエンドポインティング | |
WO2019199868A1 (en) | Device arbitration by multiple speech processing systems | |
JP2020012954A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6812843B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
US20110196677A1 (en) | Analysis of the Temporal Evolution of Emotions in an Audio Interaction in a Service Delivery Environment | |
EP3739583B1 (en) | Dialog device, dialog method, and dialog computer program | |
JP7151181B2 (ja) | 音声対話システム、その処理方法及びプログラム | |
US20170110118A1 (en) | Speech endpointing | |
JP2015169827A (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
JP6629172B2 (ja) | 対話制御装置、その方法及びプログラム | |
JP7248087B2 (ja) | 連続発話推定装置、連続発話推定方法、およびプログラム | |
JP6481643B2 (ja) | 音声処理システムおよび音声処理方法 | |
Meena et al. | A data-driven model for timing feedback in a map task dialogue system | |
EP4120244A1 (en) | Techniques for audio feature detection | |
JP6992713B2 (ja) | 連続発話推定装置、連続発話推定方法、およびプログラム | |
JP7001029B2 (ja) | キーワード検出装置、キーワード検出方法、およびプログラム | |
JP7409407B2 (ja) | チャネル選択装置、チャネル選択方法、およびプログラム | |
US11922927B2 (en) | Learning data generation device, learning data generation method and non-transitory computer readable recording medium | |
JP2020170101A (ja) | 音量調整装置、その方法、およびプログラム | |
JP2015191220A (ja) | 音声処理システム、音声処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230310 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240305 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240521 |