JP2019132997A - 音声処理装置、方法およびプログラム - Google Patents
音声処理装置、方法およびプログラム Download PDFInfo
- Publication number
- JP2019132997A JP2019132997A JP2018014866A JP2018014866A JP2019132997A JP 2019132997 A JP2019132997 A JP 2019132997A JP 2018014866 A JP2018014866 A JP 2018014866A JP 2018014866 A JP2018014866 A JP 2018014866A JP 2019132997 A JP2019132997 A JP 2019132997A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- user
- voice information
- value
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Manipulator (AREA)
Abstract
Description
[第1の実施形態]
図5に示すように、センサでユーザ接近を検知してロボットがユーザに話しかけるシステムにおいて、ユーザとロボットが対話を始めようとする最初のタイミングでは、ユーザも同じようにロボットに話しかけようとすることがあるため、ロボットとユーザとの発話が同時に発生する発話衝突が非常に頻繁に発生する。一方、対話が一度成立した後では、ユーザとロボットが交互に発話するようになるため、ユーザが意図してロボットの発話に割り込まない限り、発話衝突は殆ど発生しない。
図1は、この発明の第1の実施形態に係る、ユーザとの音声対話を実現する音声処理装置1の一例を示す図である。図1では、音声処理装置1、近接センサ2、マイク3、およびスピーカ4が一体となってユーザとの音声対話を実現する装置を構成している例を図示しているが、これらの各々は別個の装置として分離されていてもよく、また、これらのうちの任意の組み合わせが一体となっていてもよい。
音声処理装置1は、ハードウェアとして、制御ユニット11と、記憶ユニット12と、入出力インタフェースユニット13とを備えている。
例えば、上記所定のパラメータの値として、上記ユーザ音声情報における、音圧の強さ、または、音圧が所定の音圧レベルを超える維持時間を用いてもよい。あるいは、音声情報出力停止部118が混合ガウス分布モデル(Gaussian Mixture Model:GMM)またはディープニューラルネットワーク(Deep Neural Network:DNN)を用いて上記ユーザ音声情報における上記ユーザの発話音声の音声検知を行うようにし、上記所定のパラメータの値として、当該音声検知において人の声と判断された維持時間を用いるようにしてもよい。
閾値設定部1181は、記憶ユニット12の閾値記憶部126に記憶される上記閾値にアクセスし、音声情報出力部117の制御下での上記第1の音声情報の出力期間中には上記閾値を第1の値に設定し、音声情報出力部117の制御下での上記第2の音声情報の出力期間中には上記閾値を上記第1の値より大きい第2の値に設定する処理を実行する。当該第1および第2の値は、例えば、オペレータが上記所定のパラメータの種類に応じて事前に登録しておく。
次に、以上のように構成された音声処理装置1の動作を説明する。
(1)ユーザの発話音声の検知に基づく、発話開始音声に係る音声情報の出力停止処理
図3は、図2に示した音声処理装置1の制御ユニット11によって実行される、ユーザの発話音声の検知に基づく、発話開始音声に係る第1の音声情報の出力停止処理の一例を示すフロー図である。
図4は、図2に示した音声処理装置1の制御ユニット11によって実行される、ユーザの発話音声の検知に基づく、応答音声に係る第2の音声情報の出力停止処理の一例を示すフロー図である。
(1)音声情報出力部117の制御の下、ユーザとの対話を開始するための発話開始音声に係る第1の音声情報や、ユーザの発話音声に応答するための応答音声に係る第2の音声情報が出力される。音声情報出力停止部118の制御の下、音声情報出力部117の制御下での上記第1または第2の音声情報の出力期間中にユーザ音声情報取得部113の制御下でユーザの発話音声に係るユーザ音声情報が取得されたと判定された場合、次の処理が実行される。すなわち、音声情報出力停止部118の制御の下、閾値記憶部126に記憶される閾値が読み出され、上記取得されたユーザ音声情報における上記ユーザの発話音声の検知感度に係る所定のパラメータの値が当該閾値と比較される。上記所定のパラメータの値が上記閾値を超えたと判定された場合、音声情報出力停止部118の制御の下、上記第1および第2の音声情報のうち、音声情報出力部117の制御下で出力中の音声情報の出力が停止される。
なお、この発明は上記第1の実施形態に限定されるものではない。例えば、上記第1の実施形態における、第1および第2の音声情報の出力停止処理では、取得されるユーザ音声情報におけるユーザの発話音声の検知感度に係る所定のパラメータとして、予め登録された1つの種類のものを用い、当該所定のパラメータの値が閾値としての第1の値を超えた場合に上記第1の音声情報の出力を停止し、当該所定のパラメータの値が閾値としての第2の値を超えた場合に上記第2の音声情報の出力を停止するようにした。しかしながら、上記第1の音声情報の出力停止処理と上記第2の音声情報の出力停止処理との間でユーザ音声情報を異なる方法で処理して、当該処理の結果に基づいて上記第1および第2の音声情報の出力を停止するようにしてもよい。例えば、上記第1の音声情報の出力停止処理では、例えば、上述したようにユーザの発話音声の検知に音圧、GMM、DNN等のVADを用いて算出されるパラメータを用い、当該パラメータの値が閾値を超えた場合に上記第1の音声情報を出力停止し、一方、上記第2の音声情報の出力停止処理では、ユーザ音声情報における、ユーザの発話音声の音声認識の結果何らかの意味がある事を話しているとの判断に基づいて、上記第2の音声情報の出力を停止するようにしてもよい。
Claims (5)
- ユーザとの対話を開始するための発話開始音声に係る第1の音声情報を出力する第1の音声情報出力部と、
前記ユーザの発話音声に係るユーザ音声情報を取得するユーザ音声情報取得部と、
前記ユーザの発話音声に応答するための応答音声に係る第2の音声情報を出力する第2の音声情報出力部と、
前記第1または第2の音声情報の出力期間中に前記ユーザ音声情報が取得された場合に、当該ユーザ音声情報における前記ユーザの発話音声の検知感度に係る所定のパラメータの値を閾値と比較し、前記所定のパラメータの値が前記閾値を超えた場合に前記第1または第2の音声情報の出力を停止する音声情報出力停止部と、
前記第1の音声情報の出力期間中には前記閾値を第1の値に設定し、前記第2の音声情報の出力期間中には前記閾値を前記第1の値より大きい第2の値に設定する閾値設定部と
を備える音声処理装置。 - 前記音声情報出力停止部は、前記所定のパラメータの値として、前記ユーザ音声情報における、音圧の強さ、または、音圧が所定の音圧レベルを超える維持時間を用い、当該音圧の強さまたは当該音圧が所定の音圧レベルを超える維持時間が前記閾値を超えた場合に、前記第1または第2の音声情報の出力を停止する、請求項1に記載の音声処理装置。
- 前記音声情報出力停止部が、混合ガウス分布モデル(Gaussian Mixture Model:GMM)またはディープニューラルネットワーク(Deep Neural Network:DNN)を用いて前記ユーザ音声情報における前記ユーザの発話音声の音声検知を行う場合に、
前記音声情報出力停止部は、前記所定のパラメータの値として、前記音声検知において人の声と判断された維持時間を用い、当該維持時間が前記閾値を超えた場合に、前記第1または第2の音声情報の出力を停止する、請求項1に記載の音声処理装置。 - ハードウェアプロセッサおよびメモリを備える装置が実行する音声処理方法であって、
ユーザとの対話を開始するための発話開始音声に係る第1の音声情報が前記装置により出力される期間中には閾値を第1の値に設定し、前記ユーザの発話音声に応答するための応答音声に係る第2の音声情報が前記装置により出力される期間中には前記閾値を前記第1の値より大きい第2の値に設定する閾値設定過程と、
前記ユーザの発話音声に係るユーザ音声情報を取得するユーザ音声情報取得過程と、
前記第1または第2の音声情報が前記装置により出力される期間中に前記ユーザ音声情報が取得された場合に、当該ユーザ音声情報における前記ユーザの発話音声の検知感度に係る所定のパラメータの値を前記閾値と比較し、前記所定のパラメータの値が前記閾値を超えた場合に前記第1または第2の音声情報の出力を停止する音声情報出力停止過程と
を備える音声処理方法。 - 請求項1乃至3のいずれかに記載の音声処理装置が備える各部としてハードウェアプロセッサを機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018014866A JP2019132997A (ja) | 2018-01-31 | 2018-01-31 | 音声処理装置、方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018014866A JP2019132997A (ja) | 2018-01-31 | 2018-01-31 | 音声処理装置、方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019132997A true JP2019132997A (ja) | 2019-08-08 |
Family
ID=67546775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018014866A Pending JP2019132997A (ja) | 2018-01-31 | 2018-01-31 | 音声処理装置、方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019132997A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10597594B1 (en) | 2018-11-27 | 2020-03-24 | Exxonmobil Research And Engineering Company | Low sulfur marine fuel compositions |
WO2021071271A1 (en) * | 2019-10-10 | 2021-04-15 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6395532A (ja) * | 1986-10-13 | 1988-04-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声ガイダンス出力制御方法 |
JPH08146991A (ja) * | 1994-11-17 | 1996-06-07 | Canon Inc | 情報処理装置及びその制御方法 |
JPH08263092A (ja) * | 1995-03-23 | 1996-10-11 | N T T Data Tsushin Kk | 応答音声生成方法および音声対話システム |
JPH10240284A (ja) * | 1997-02-27 | 1998-09-11 | Nippon Telegr & Teleph Corp <Ntt> | 音声検出方法及び装置 |
JPH10254476A (ja) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声区間検出方法 |
JP2005246564A (ja) * | 2004-02-06 | 2005-09-15 | Sanyo Electric Co Ltd | ロボット装置 |
JP3788793B2 (ja) * | 2003-04-25 | 2006-06-21 | 日本電信電話株式会社 | 音声対話制御方法、音声対話制御装置、音声対話制御プログラム |
JP2012073364A (ja) * | 2010-09-28 | 2012-04-12 | Toshiba Corp | 音声対話装置、方法、プログラム |
JP2017069835A (ja) * | 2015-09-30 | 2017-04-06 | シャープ株式会社 | 電子機器 |
-
2018
- 2018-01-31 JP JP2018014866A patent/JP2019132997A/ja active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6395532A (ja) * | 1986-10-13 | 1988-04-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声ガイダンス出力制御方法 |
JPH08146991A (ja) * | 1994-11-17 | 1996-06-07 | Canon Inc | 情報処理装置及びその制御方法 |
JPH08263092A (ja) * | 1995-03-23 | 1996-10-11 | N T T Data Tsushin Kk | 応答音声生成方法および音声対話システム |
JPH10240284A (ja) * | 1997-02-27 | 1998-09-11 | Nippon Telegr & Teleph Corp <Ntt> | 音声検出方法及び装置 |
JPH10254476A (ja) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声区間検出方法 |
JP3788793B2 (ja) * | 2003-04-25 | 2006-06-21 | 日本電信電話株式会社 | 音声対話制御方法、音声対話制御装置、音声対話制御プログラム |
JP2005246564A (ja) * | 2004-02-06 | 2005-09-15 | Sanyo Electric Co Ltd | ロボット装置 |
JP2012073364A (ja) * | 2010-09-28 | 2012-04-12 | Toshiba Corp | 音声対話装置、方法、プログラム |
JP2017069835A (ja) * | 2015-09-30 | 2017-04-06 | シャープ株式会社 | 電子機器 |
Non-Patent Citations (1)
Title |
---|
菅郁巳,外3名: "ディープニューラルネットワークを用いた映画中の音声区間検出の検討", 日本音響学会講演論文集, JPN6018050493, 11 March 2016 (2016-03-11), JP, pages 121 - 124, ISSN: 0003944899 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10597594B1 (en) | 2018-11-27 | 2020-03-24 | Exxonmobil Research And Engineering Company | Low sulfur marine fuel compositions |
WO2021071271A1 (en) * | 2019-10-10 | 2021-04-15 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9818407B1 (en) | Distributed endpointing for speech recognition | |
US9354687B2 (en) | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events | |
US9335966B2 (en) | Methods and apparatus for unsupervised wakeup | |
US8532995B2 (en) | System and method for isolating and processing common dialog cues | |
JP5797009B2 (ja) | 音声認識装置、ロボット、及び音声認識方法 | |
JP5431282B2 (ja) | 音声対話装置、方法、プログラム | |
US20130325475A1 (en) | Apparatus and method for detecting end point using decoding information | |
KR20200025226A (ko) | 전자 장치 및 그 제어 방법 | |
JP4491438B2 (ja) | 音声対話装置、音声対話方法、およびプログラム | |
JP2019132997A (ja) | 音声処理装置、方法およびプログラム | |
JP2009175179A (ja) | 音声認識装置、プログラム、及び発話信号抽出方法 | |
JP2016061888A (ja) | 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム | |
JP5375423B2 (ja) | 音声認識システム、音声認識方法および音声認識プログラム | |
EP3195314B1 (en) | Methods and apparatus for unsupervised wakeup | |
JP2020148805A (ja) | 音声認識システム、及び、音声認識方法 | |
JP2019139089A (ja) | 音声秘匿装置および音声秘匿プログラム | |
JP6748565B2 (ja) | 音声対話システム及び音声対話方法 | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
JP4539313B2 (ja) | 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
WO2019030810A1 (ja) | 音声認識装置および音声認識方法 | |
JP6768613B2 (ja) | 音声処理装置、方法およびプログラム | |
JP2009175178A (ja) | 音声認識装置、プログラム、及び発話信号抽出方法 | |
JP6920730B2 (ja) | 対話装置および対話プログラム | |
JP2005107384A (ja) | 音声認識装置および方法、プログラム並びに記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190416 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190610 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190709 |