JP2019132997A - 音声処理装置、方法およびプログラム - Google Patents

音声処理装置、方法およびプログラム Download PDF

Info

Publication number
JP2019132997A
JP2019132997A JP2018014866A JP2018014866A JP2019132997A JP 2019132997 A JP2019132997 A JP 2019132997A JP 2018014866 A JP2018014866 A JP 2018014866A JP 2018014866 A JP2018014866 A JP 2018014866A JP 2019132997 A JP2019132997 A JP 2019132997A
Authority
JP
Japan
Prior art keywords
voice
user
voice information
value
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018014866A
Other languages
English (en)
Inventor
成宗 松村
Narimune Matsumura
成宗 松村
純史 布引
Ayafumi Nunobiki
純史 布引
細淵 貴司
Takashi Hosobuchi
貴司 細淵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018014866A priority Critical patent/JP2019132997A/ja
Publication of JP2019132997A publication Critical patent/JP2019132997A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Manipulator (AREA)

Abstract

【課題】ユーザの割り込み発話を検知する際に使用する閾値をユーザとの対話状況に応じて設定可能にする。【解決手段】音声情報出力部117の制御の下、ユーザとの対話を開始するための発話開始音声に係る第1の音声情報や、ユーザの発話音声に応答するための応答音声に係る第2の音声情報が出力される。音声情報出力停止部118の制御の下、上記第1または第2の音声情報の出力期間中にユーザ音声情報取得部113の制御下でユーザの発話音声に係るユーザ音声情報が取得され、当該ユーザ音声情報における上記ユーザの発話音声の検知感度に係る所定のパラメータの値が閾値を超えた場合、上記第1または第2の音声情報の出力が停止される。上記閾値は、上記第1の音声情報の出力期間中には第1の値に、上記第2の音声情報の出力期間中には上記第1の値より大きい第2の値に設定される。【選択図】図2

Description

この発明は、ユーザとの対話のための音声情報を出力する音声処理装置、方法およびプログラムに関する。
近年、音声による対話機能を備えたロボットが様々開発されてきた。
このようなロボットを用いて実現される音声による対話では、ロボットの発話中にユーザが割り込んで発話するバージインへの対応が重要である(例えば、非特許文献1,2,および3を参照)。
不特定話者音声自由対話システムTOSBURG ―マルチモーダル応答と音声応答キャンセルの利用―,電子情報通信学会論文誌 A Vol.J77-A No.2 pp.241-250 ロボットとの音声対話における発話の重なりを含む入力音の判別,情報処理学会 第75回全国大会講演論文集,2013(1),481-482 (2013-03-06) 声量制御のための音声フィードバック手法の提案,情報処理学会研究報告, Vol.2016 No.EC-41 Page.Vol.2016-EC-41,No.24,1-8 (WEB ONLY) (2016.07.29)
バージインへ対応するためには、ロボットが発話中にユーザが割り込んで発話した事を検知する必要がある。しかしながら、このような検知では、相槌や咳き込み等のユーザの行動や、周囲の雑音等が原因で、ユーザが割り込みを意図して発話してないにもかかわらず、ユーザが割り込み発話を開始したと誤検知されてしまう問題がある。
このようなユーザの割り込み発話の誤検知は、例えば、ユーザの発話内容を音声認識してその内容に基づいてユーザの割り込み発話が実際にあったか否かを判断することにより無くすことが可能である。しかしながら、音声認識を用いることにより、今度は、ユーザの割り込み発話の検知までに時間がかかってしまうこととなり、その結果、ユーザに不快感を与えるという問題が発生する。
このように、ユーザの割り込み発話の検知では、誤検知の問題を解決しようとすると、検知までの時間が長くなりユーザに不快感を与えてしまうという別の問題が発生してしまう。
この発明は上記事情に着目してなされたもので、その目的とするところは、ユーザの割り込み発話を検知する際に使用する閾値をユーザとの対話状況に応じて設定可能な音声処理装置、方法およびプログラムを提供することにある。
上記課題を解決するために、この発明の第1の態様は、音声処理装置にあって、ユーザとの対話を開始するための発話開始音声に係る第1の音声情報を出力する第1の音声情報出力部と、前記ユーザの発話音声に係るユーザ音声情報を取得するユーザ音声情報取得部と、前記ユーザの発話音声に応答するための応答音声に係る第2の音声情報を出力する第2の音声情報出力部と、前記第1または第2の音声情報の出力期間中に前記ユーザ音声情報が取得された場合に、当該ユーザ音声情報における前記ユーザの発話音声の検知感度に係る所定のパラメータの値を閾値と比較し、前記所定のパラメータの値が前記閾値を超えた場合に前記第1または第2の音声情報の出力を停止する音声情報出力停止部と、前記第1の音声情報の出力期間中には前記閾値を第1の値に設定し、前記第2の音声情報の出力期間中には前記閾値を前記第1の値より大きい第2の値に設定する閾値設定部とを備えるようにしたものである。
この発明の第2の態様は、前記音声情報出力停止部が、前記所定のパラメータの値として、前記ユーザ音声情報における、音圧の強さ、または、音圧が所定の音圧レベルを超える維持時間を用い、当該音圧の強さまたは当該音圧が所定の音圧レベルを超える維持時間が前記閾値を超えた場合に、前記第1または第2の音声情報の出力を停止するようにしたものである。
この発明の第3の態様は、前記音声情報出力停止部が、混合ガウス分布モデル(Gaussian Mixture Model:GMM)またはディープニューラルネットワーク(Deep Neural Network:DNN)を用いて前記ユーザ音声情報における前記ユーザの発話音声の音声検知を行う場合に、前記音声情報出力停止部が、前記所定のパラメータの値として、前記音声検知において人の声と判断された維持時間を用い、当該維持時間が前記閾値を超えた場合に、前記第1または第2の音声情報の出力を停止するようにしたものである。
この発明の第1の態様によれば、ユーザとの対話を開始するための発話開始音声に係る第1の音声情報が出力される。一方、上記ユーザの発話音声に係るユーザ音声情報が取得され、当該ユーザの発話音声に応答するための応答音声に係る第2の音声情報が出力される。上記第1または第2の音声情報の出力期間中に上記ユーザ音声情報が取得された場合に、当該ユーザ音声情報における上記ユーザの発話音声の検知感度に係る所定のパラメータの値が閾値と比較され、当該所定のパラメータの値が上記閾値を超えた場合に上記第1または第2の音声情報の出力が停止される。ここで、上記第1の音声情報の出力期間中には上記閾値が第1の値に設定され、上記第2の音声情報の出力期間中には上記閾値が上記第1の値より大きい第2の値に設定される。
一般的に、センサでユーザ接近を検知してロボットがユーザに話しかけるシステムにおいて、ユーザとロボットが対話を始めようとする最初のタイミングでは、ユーザも同じようにロボットに話しかけようとすることがあるため、ロボットとユーザとの発話が同時に発生する発話衝突が非常に頻繁に発生することが知られている。一方、対話が一度成立した後では、ユーザとロボットが交互に発話するようになるため、ユーザが意図してロボットの発話に割り込まない限り、発話衝突は殆ど発生しないことが知られている。
上述した第1の態様では、上記第1の音声情報を出力している上記発話衝突が頻繁に発生しやすいタイミングでは、上記閾値をより小さい上記第1の値に設定してユーザの発話音声をより検知しやすくすることによって、このように頻繁に発生する発話衝突に即座に対応することができる。一方、上記第2の音声情報を出力している上記発話衝突が殆ど発生しないタイミングでは、上記閾値をより大きい上記第2の値に設定することによって、ユーザの発話音声が検知されていないにかかわらず検知したと誤検知してしまう可能性を低くすることができる。
一般的に、発話衝突が発生している際にユーザの発話の検知までに時間がかかるとユーザに不快感を与えてしまうこととなる。しかしながら、上述した第1の態様では、発話衝突が発生しやすいタイミングでは上述したようにユーザの発話音声が検知されやすくなっている。このため、上述したようにユーザが与えられる不快感は低減される。さらに、上述した第1の態様では、発話衝突が発生しにくいタイミングでは上述したように上記誤検知が発生する可能性が低くなっている。このため、ユーザとの対話において、ユーザの割り込み発話が誤検知される頻度は全体として低くなる。
この発明の第2の態様によれば、上記所定のパラメータの値として、上記ユーザ音声情報における、音圧の強さ、または、音圧が所定の音圧レベルを超える維持時間が用いられ、当該音圧の強さまたは当該音圧が所定の音圧レベルを超える維持時間が上記閾値を超えた場合に、上記第1または第2の音声情報の出力が停止される。
一般的に、ユーザの発話の検知に音圧等の音声区間検出(Voice Activity Detection:VAD)を用いる場合、例えば音声認識を用いる場合と比較して、ユーザの割り込み発話の誤検知の確率は高いが検知遅れを非常に小さくすることが可能である。したがって、上述した第2の態様のように、上記所定のパラメータの値として、上記ユーザ音声情報における音圧に関係する値を用いるようにする場合、上記第1の値をこのように検知遅れが非常に小さくなる値に設定すれば、上述したように、ユーザが与えられる不快感を低減し、さらに、ユーザとの対話において、ユーザの割り込み発話が誤検知される頻度を全体として低くすることが可能となる。
この発明の第3の態様によれば、上記所定のパラメータの値として、GMMまたはDNNを用いた上記ユーザ音声情報における上記ユーザの発話音声の音声検知において人の声と判断された維持時間が用いられ、当該維持時間が上記閾値を超えた場合に、上記第1または第2の音声情報の出力が停止される。
一般的に、ユーザの発話の検知にGMM、DNN等のVADを用いる場合、例えば音声認識を用いる場合と比較して、ユーザの割り込み発話の誤検知の確率は高いが検知遅れを非常に小さくすることが可能である。したがって、上述した第3の態様のように、上記所定のパラメータの値として、GMMまたはDNNを用いた上記ユーザ音声情報における音声検知において人の声と判断された維持時間を用いるようにする場合、上記第1の値をこのように検知遅れが非常に小さくなる値に設定すれば、上述したように、ユーザが与えられる不快感を低減し、さらに、ユーザとの対話において、ユーザの割り込み発話が誤検知される頻度を全体として低くすることが可能となる。
すなわち、この発明の各態様によれば、ユーザの割り込み発話を検知する際に使用する閾値をユーザとの対話状況に応じて設定可能な音声処理装置、方法およびプログラムを提供することができる。
この発明の第1の実施形態に係る、ユーザとの音声対話を実現する音声処理装置の一例を示す図。 図1に示した音声処理装置の機能構成を示すブロック図。 図2に示した音声処理装置の制御ユニットによって実行される、ユーザの発話音声の検知に基づく、発話開始音声に係る音声情報の出力停止処理の一例を示すフロー図。 図2に示した音声処理装置の制御ユニットによって実行される、ユーザの発話音声の検知に基づく、応答音声に係る音声情報の出力停止処理の一例を示すフロー図。 音声対話装置としてのロボットとユーザとの対話の一例を示す図。
以下、図面を参照してこの発明に係わる実施形態を説明する。
[第1の実施形態]
図5に示すように、センサでユーザ接近を検知してロボットがユーザに話しかけるシステムにおいて、ユーザとロボットが対話を始めようとする最初のタイミングでは、ユーザも同じようにロボットに話しかけようとすることがあるため、ロボットとユーザとの発話が同時に発生する発話衝突が非常に頻繁に発生する。一方、対話が一度成立した後では、ユーザとロボットが交互に発話するようになるため、ユーザが意図してロボットの発話に割り込まない限り、発話衝突は殆ど発生しない。
この発明の第1の実施形態では、バージインの例としてのこのような発話衝突に対処することができる音声処理装置1について説明する。
(構成)
図1は、この発明の第1の実施形態に係る、ユーザとの音声対話を実現する音声処理装置1の一例を示す図である。図1では、音声処理装置1、近接センサ2、マイク3、およびスピーカ4が一体となってユーザとの音声対話を実現する装置を構成している例を図示しているが、これらの各々は別個の装置として分離されていてもよく、また、これらのうちの任意の組み合わせが一体となっていてもよい。
音声処理装置1は、近接センサ2から取得された情報に基づいて音声処理装置1へのユーザの近接を検知することができる。例えば、音声処理装置1へのユーザの近接が検知された場合に、音声処理装置1は、ユーザとの対話を開始するための発話開始音声に係る音声情報をスピーカ4に出力し、当該発話開始音声がスピーカ4から出力される。
また、音声処理装置1は、マイク3を介して入力されたユーザの発話音声に応答して、当該ユーザの発話音声に応答するための応答音声に係る音声情報をスピーカ4に出力し、当該応答音声がスピーカ4から出力される。
さらに、音声処理装置1は、上記発話開始音声または応答音声に係る音声情報の出力中にユーザの発話音声を検知した場合に、上記発話開始音声または応答音声に係る音声情報の出力を停止することができる。
図2は、この発明の第1の実施形態に係る音声処理装置1の機能構成を示すブロック図である。
音声処理装置1は、ハードウェアとして、制御ユニット11と、記憶ユニット12と、入出力インタフェースユニット13とを備えている。
入出力インタフェースユニット13は、例えば1つ以上の有線または無線の通信インタフェースユニットを含んでいる。入出力インタフェースユニット13は、例えば超音波型や赤外線型等の近接センサ2から、例えば音声処理装置1とユーザとの近接の度合いを示す情報を取得し、当該取得される近接の度合いを示す情報を制御ユニット11に入力する。また、入出力インタフェースユニット13は、マイク3を介してユーザの発話音声に係るユーザ音声情報を取得し、当該取得されるユーザ音声情報を制御ユニット11に入力する。さらに、入出力インタフェースユニット13は、制御ユニット11から出力された音声情報を、スピーカ4に出力する。
記憶ユニット12は、記憶媒体として例えばHDD(Hard Disc Drive)またはSSD(Solid State Drive)等の随時書き込みおよび読み出しが可能な不揮発メモリを使用したもので、本実施形態を実現するために、発話開始文記憶部121と、取得音声情報記憶部122と、認識結果記憶部123と、応答文記憶部124と、合成音声情報記憶部125と、閾値記憶部126とを備えている。
発話開始文記憶部121は、ユーザとの対話を開始するための発話開始文の情報を記憶させるために使用される。
取得音声情報記憶部122は、マイク3を介して取得された、ユーザの発話音声に係るユーザ音声情報を記憶させるために使用される。
認識結果記憶部123は、上記ユーザ音声情報の音声認識の結果の情報を記憶させるために使用される。
応答文記憶部124は、上記ユーザ音声情報の音声認識の結果に基づいて生成された、上記ユーザの発話音声に応答するための応答文の情報を記憶させるために使用される。
合成音声情報記憶部125は、上記発話開始文および上記応答文に対応するように合成された、発話開始音声に係る第1の音声情報および応答音声に係る第2の音声情報を記憶させるために使用される。
閾値記憶部126は、音声情報出力停止部118の制御下での上記ユーザの発話音声の音声検知に使用される閾値を記憶している。
制御ユニット11は、CPU(Central Processing Unit)等のハードウェアプロセッサと、プログラムメモリとを備え、本実施形態における処理機能を実行するために、ユーザ近接検知部111と、発話開始文生成部112と、ユーザ音声情報取得部113と、音声認識部114と、応答文生成部115と、音声情報合成部116と、音声情報出力部117と、音声情報出力停止部118とを備えている。これらの各部における処理機能はいずれも、プログラムメモリに格納されたプログラムを上記ハードウェアプロセッサに実行させることによって実現される。なお、これらの処理機能は、プログラムメモリに格納されたプログラムを用いて実現されるのではなく、ネットワークを通して提供されるプログラムを用いて実現されてもよい。
ユーザ近接検知部111は、近接センサ2から、音声処理装置1とユーザとの近接の度合いを示す情報を取得し、当該取得された音声処理装置1とユーザとの近接の度合いを示す情報に基づいて、音声処理装置1へのユーザの近接を検知する処理を実行する。当該検知処理では、例えば、近接センサ2から上記近接の度合いを示す情報として取得された音声処理装置1とユーザとの間の距離情報が示す値が所定の閾値を超えた場合に、音声処理装置1へのユーザの近接が検知されたと判定するようにしてもよい。
発話開始文生成部112は、ユーザ近接検知部111の制御下で音声処理装置1へのユーザの近接が検知された場合に、上記ユーザとの対話を開始するための例えば挨拶等の発話開始文を生成する処理を実行する。その後、発話開始文生成部112は、当該生成された発話開始文の情報を、記憶ユニット12の発話開始文記憶部121に記憶させる処理を実行する。
音声情報合成部116は、記憶ユニット12の発話開始文記憶部121に記憶される上記発話開始文の情報を読み出し、当該読み出された情報が示す上記発話開始文に対応するように、発話開始音声に係る第1の音声情報を合成する処理を実行する。その後、音声情報合成部116は、当該合成された第1の音声情報を、記憶ユニット12の合成音声情報記憶部125に記憶させる処理を実行する。
音声情報出力部117は、記憶ユニット12の合成音声情報記憶部125に記憶される上記第1の音声情報を読み出し、当該読み出された上記第1の音声情報をスピーカ4に出力する処理を実行する。
一方、ユーザ音声情報取得部113は、マイク3を介してユーザの発話音声に係るユーザ音声情報を取得する。例えば、ユーザ音声情報取得部113は、マイク3から入力された音声を録音し、上記ユーザ音声情報としての録音データへ変換する。その後、ユーザ音声情報取得部113は、当該取得されたユーザ音声情報を、記憶ユニット12の取得音声情報記憶部122に記憶させる処理を実行する。
音声認識部114は、記憶ユニット12の取得音声情報記憶部122に記憶される上記ユーザ音声情報を読み出し、当該読み出されたユーザ音声情報において上記ユーザの発話音声の音声認識処理を実行する。その後、音声認識部114は、当該音声認識処理の結果の情報を、記憶ユニット12の認識結果記憶部123に記憶させる処理を実行する。
応答文生成部115は、記憶ユニット12の認識結果記憶部123に記憶される上記音声認識処理の結果の情報を読み出し、当該読み出された音声認識処理の結果の情報に基づいて上記ユーザの発話音声に応答するための応答文を生成する処理を実行する。その後、応答文生成部115は、当該生成された応答文の情報を、記憶ユニット12の応答文記憶部124に記憶させる処理を実行する。
音声情報合成部116は、記憶ユニット12の応答文記憶部124に記憶される上記応答文の情報を読み出し、当該読み出された情報が示す上記応答文に対応するように、応答音声に係る第2の音声情報を合成する処理を実行する。その後、音声情報合成部116は、当該合成された第2の音声情報を、記憶ユニット12の合成音声情報記憶部125に記憶させる処理を実行する。
音声情報出力部117は、記憶ユニット12の合成音声情報記憶部125に記憶される上記第2の音声情報を読み出し、当該読み出された上記第2の音声情報をスピーカ4に出力する処理を実行する。
ここで、音声情報出力停止部118は、音声情報出力部117の制御下での上記第1または第2の音声情報の出力期間中にユーザ音声情報取得部113の制御下で上記ユーザ音声情報が取得された場合に、記憶ユニット12の閾値記憶部126に記憶される閾値を読み出し、上記取得されたユーザ音声情報における上記ユーザの発話音声の検知感度に係る所定のパラメータの値を当該読み出された閾値と比較する処理を実行する。当該比較の結果、上記所定のパラメータの値が上記閾値を超えた場合に、音声情報出力停止部118は、上記第1および第2の音声情報のうち、音声情報出力部117の制御下で出力中の音声情報の出力を停止する処理を実行する。
なお、上記ユーザの発話音声の検知感度に係る所定のパラメータの種類は、例えば、オペレータが事前に登録しておく。
例えば、上記所定のパラメータの値として、上記ユーザ音声情報における、音圧の強さ、または、音圧が所定の音圧レベルを超える維持時間を用いてもよい。あるいは、音声情報出力停止部118が混合ガウス分布モデル(Gaussian Mixture Model:GMM)またはディープニューラルネットワーク(Deep Neural Network:DNN)を用いて上記ユーザ音声情報における上記ユーザの発話音声の音声検知を行うようにし、上記所定のパラメータの値として、当該音声検知において人の声と判断された維持時間を用いるようにしてもよい。
音声情報出力停止部118は、閾値設定部1181を備えている。なお、閾値設定部1181は、音声情報出力停止部118と分離して実現されていてもよい。
閾値設定部1181は、記憶ユニット12の閾値記憶部126に記憶される上記閾値にアクセスし、音声情報出力部117の制御下での上記第1の音声情報の出力期間中には上記閾値を第1の値に設定し、音声情報出力部117の制御下での上記第2の音声情報の出力期間中には上記閾値を上記第1の値より大きい第2の値に設定する処理を実行する。当該第1および第2の値は、例えば、オペレータが上記所定のパラメータの種類に応じて事前に登録しておく。
なお、上記閾値の第1の値への設定処理は、例えば、ユーザ近接検知部111の制御下で音声処理装置1への上記ユーザの近接が検知されたという情報や、発話開始文生成部112の制御下で上記発話開始文が生成されたという情報や、音声情報出力部117の制御下で上記第1の音声情報が出力されるあるいは出力されているという情報に応答して実行されてもよい。
また、上記閾値の第2の値への設定処理は、例えば、応答文生成部115の制御下で上記応答文が生成されたという情報や、音声情報出力部117の制御下で上記第1の音声情報の出力が完了したという情報や、音声情報出力部117の制御下で上記第2の音声情報が出力されるあるいは出力されているという情報に応答して実行されてもよい。
(動作)
次に、以上のように構成された音声処理装置1の動作を説明する。
(1)ユーザの発話音声の検知に基づく、発話開始音声に係る音声情報の出力停止処理
図3は、図2に示した音声処理装置1の制御ユニット11によって実行される、ユーザの発話音声の検知に基づく、発話開始音声に係る第1の音声情報の出力停止処理の一例を示すフロー図である。
先ず、ステップS11において、制御ユニット11は、ユーザ近接検知部111の制御の下、近接センサ2から、音声処理装置1とユーザとの近接の度合いを示す情報を取得し、当該取得された音声処理装置1とユーザとの近接の度合いを示す情報に基づいて、音声処理装置1へのユーザの近接を検知する。
ステップS11において音声処理装置1へのユーザの近接が検知された場合、ステップS12において、制御ユニット11は、閾値設定部1181の制御の下、閾値記憶部126に記憶される、ユーザの発話音声の検知の判断基準となる閾値にアクセスして、当該閾値を第1の値に設定する。
次に、ステップS13において、制御ユニット11は、音声情報出力部117の制御の下、発話開始文生成部112および音声情報合成部116の制御下で合成され合成音声情報記憶部125に記憶されている、上記ユーザとの対話を開始するための発話開始音声に係る第1の音声情報を読み出し、当該読み出された上記第1の音声情報をスピーカ4に出力する。これにより、スピーカ4において、上記発話開始音声が出力されることになる。
ステップS14において、制御ユニット11は、音声情報出力停止部118の制御の下、音声情報出力部117の制御下での上記第1の音声情報の出力期間中にユーザ音声情報取得部113の制御下でユーザの発話音声に係るユーザ音声情報が取得されるか否かを判定する。
上記第1の音声情報の出力期間中に上記ユーザ音声情報が取得されたと判定された場合、ステップS15において、制御ユニット11は、音声情報出力停止部118の制御の下、閾値記憶部126に記憶される上記第1の値である上記閾値を読み出し、上記取得されたユーザ音声情報における上記ユーザの発話音声の検知感度に係る所定のパラメータの値を当該閾値と比較し、当該所定のパラメータの値が当該閾値を超えるか否かを判定する。
上記所定のパラメータの値が上記閾値を超えたと判定された場合、ステップS16において、制御ユニット11は、音声情報出力停止部118の制御の下、音声情報出力部117の制御下での上記第1の音声情報の出力を停止する。
なお、ステップS15において上記所定のパラメータの値が上記閾値を超えないと判定された場合、ステップS14からの処理が繰り返し実行される。
(2)ユーザの発話音声の検知に基づく、応答音声に係る音声情報の出力停止処理
図4は、図2に示した音声処理装置1の制御ユニット11によって実行される、ユーザの発話音声の検知に基づく、応答音声に係る第2の音声情報の出力停止処理の一例を示すフロー図である。
先ず、ステップS21において、制御ユニット11は、音声情報出力部117の制御の下、ユーザとの対話を開始するための発話開始音声に係る第1の音声情報の出力を完了する。これにより、スピーカ4における上記発話開始音声の出力も完了する。
ステップS22において、制御ユニット11は、閾値設定部1181の制御の下、音声情報出力部117の制御下で上記第1の音声情報の出力が完了したという情報に応答して、閾値記憶部126に記憶される、上記閾値にアクセスして、当該閾値を上記第1の値より大きい第2の値に設定する。
次に、ステップS23において、制御ユニット11は、ユーザ音声情報取得部113の制御の下、ユーザの発話音声に係るユーザ音声情報が取得されたか否かを判定する。
上記ユーザ音声情報が取得された場合、音声認識部114の制御の下、当該ユーザ音声情報において上記ユーザの発話音声の音声認識処理が実行され、応答文生成部115の制御の下、当該音声認識処理の結果に基づいて上記ユーザの発話音声に応答するための応答文が生成される。最後に、音声情報合成部116の制御の下、当該応答文に対応するように、応答音声に係る第2の音声情報が合成され、合成音声情報記憶部125に記憶される。
ステップS24において、制御ユニット11は、音声情報出力部117の制御の下、合成音声情報記憶部125に記憶されている上記第2の音声情報を読み出し、当該読み出された上記第2の音声情報をスピーカ4に出力する。これにより、スピーカ4において、上記ユーザの発話音声に応答するための応答音声が出力されることになる。
ステップS25において、制御ユニット11は、音声情報出力停止部118の制御の下、音声情報出力部117の制御下での上記第2の音声情報の出力期間中にユーザ音声情報取得部113の制御下でユーザの発話音声に係るユーザ音声情報が取得されるか否かを判定する。
上記第2の音声情報の出力期間中に上記ユーザ音声情報が取得されたと判定された場合、ステップS26において、制御ユニット11は、音声情報出力停止部118の制御の下、閾値記憶部126に記憶される上記第2の値である上記閾値を読み出し、上記取得されたユーザ音声情報における上記ユーザの発話音声の検知感度に係る所定のパラメータの値を当該閾値と比較し、当該所定のパラメータの値が当該閾値を超えるか否かを判定する。
上記所定のパラメータの値が上記閾値を超えたと判定された場合、ステップS27において、制御ユニット11は、音声情報出力停止部118の制御の下、音声情報出力部117の制御下での上記第2の音声情報の出力を停止する。
なお、ステップS26において上記所定のパラメータの値が上記閾値を超えないと判定された場合、ステップS25からの処理が繰り返し実行される。
ここで、ステップS25において上記第2の音声情報の出力期間中に上記ユーザ音声情報が取得されないと判定された場合、ステップS28において、制御ユニット11は、ユーザ近接検知部111の制御の下、近接センサ2から、音声処理装置1とユーザとの近接の度合いを示す情報を取得し、当該取得された音声処理装置1とユーザとの近接の度合いを示す情報に基づいて、音声処理装置1へのユーザの近接を検知する。
音声処理装置1へのユーザの近接が検知された場合、ステップS23からの処理が繰り返し実行される。一方、音声処理装置1へのユーザの近接が検知されない場合は、音声処理装置1による動作は終了する。
なお、上述した音声処理装置1へのユーザの近接検知に基づく音声処理装置1による動作の終了処理は、上述したステップS28において実行されるものに限定されず、図3および図4に示したフローにおける任意のタイミングで例えば周期的に実行されるようにしてもよい。
(効果)
(1)音声情報出力部117の制御の下、ユーザとの対話を開始するための発話開始音声に係る第1の音声情報や、ユーザの発話音声に応答するための応答音声に係る第2の音声情報が出力される。音声情報出力停止部118の制御の下、音声情報出力部117の制御下での上記第1または第2の音声情報の出力期間中にユーザ音声情報取得部113の制御下でユーザの発話音声に係るユーザ音声情報が取得されたと判定された場合、次の処理が実行される。すなわち、音声情報出力停止部118の制御の下、閾値記憶部126に記憶される閾値が読み出され、上記取得されたユーザ音声情報における上記ユーザの発話音声の検知感度に係る所定のパラメータの値が当該閾値と比較される。上記所定のパラメータの値が上記閾値を超えたと判定された場合、音声情報出力停止部118の制御の下、上記第1および第2の音声情報のうち、音声情報出力部117の制御下で出力中の音声情報の出力が停止される。
ここで、上記閾値は、音声情報出力部117の制御下での上記第1の音声情報の出力期間中には第1の値に設定され、音声情報出力部117の制御下での上記第2の音声情報の出力期間中には上記第1の値より大きい第2の値に設定される。なお、上記閾値の上記第1の値への設定は、例えば、ユーザ近接検知部111の制御下で音声処理装置1へのユーザの近接が検知された場合に実行される。また、上記閾値の上記第2の値への設定は、例えば、音声情報出力部117の制御下で上記第1の音声情報の出力が完了したという情報に応答して実行される。
一般的に、センサでユーザ接近を検知してロボットがユーザに話しかけるシステムにおいて、ユーザとロボットが対話を始めようとする最初のタイミングでは、ユーザも同じようにロボットに話しかけようとすることがあるため、ロボットとユーザとの発話が同時に発生する発話衝突が非常に頻繁に発生することが知られている。一方、対話が一度成立した後では、ユーザとロボットが交互に発話するようになるため、ユーザが意図してロボットの発話に割り込まない限り、発話衝突は殆ど発生しないことが知られている。
上述した構成では、上記第1の音声情報を出力している上記発話衝突が頻繁に発生しやすいタイミングでは、上記閾値をより小さい上記第1の値に設定してユーザの発話音声をより検知しやすくすることによって、このように頻繁に発生する発話衝突に即座に対応することができる。一方、上記第2の音声情報を出力している上記発話衝突が殆ど発生しないタイミングでは、上記閾値をより大きい上記第2の値に設定することによって、ユーザの発話音声が検知されていないにかかわらず検知したと誤検知してしまう可能性を低くすることができる。
一般的に、発話衝突が発生している際にユーザの発話の検知までに時間がかかるとユーザに不快感を与えてしまうこととなる。しかしながら、上述した構成では、発話衝突が発生しやすいタイミングでは上述したようにユーザの発話音声が検知されやすくなっている。このため、上述したようにユーザが与えられる不快感は低減される。さらに、上述した構成では、発話衝突が発生しにくいタイミングでは上述したように上記誤検知が発生する可能性が低くなっている。このため、ユーザとの対話において、ユーザの割り込み発話が誤検知される頻度は全体として低くなる。
(2)上記所定のパラメータの値として、上記ユーザ音声情報における、音圧の強さ、または、音圧が所定の音圧レベルを超える維持時間を用いてもよい。あるいは、音声情報出力停止部118の制御下でGMMまたはDNNを用いて上記ユーザ音声情報における上記ユーザの発話音声の音声検知が行われるようにし、上記所定のパラメータの値として、当該音声検知において人の声と判断された維持時間を用いるようにしてもよい。
一般的に、ユーザの発話の検知に音圧、GMM、DNN等のVADを用いる場合、例えば音声認識を用いる場合と比較して、ユーザの割り込み発話の誤検知の確率は高いが検知遅れを非常に小さくすることが可能である。したがって、上述した構成のように、上記所定のパラメータの値として、上記ユーザ音声情報における音圧に関係する値や、GMMまたはDNNを用いた上記ユーザ音声情報における音声検知において人の声と判断された維持時間を用いるようにする場合、上記第1の値をこのように検知遅れが非常に小さくなる値に設定すれば、上述したように、ユーザが与えられる不快感を低減し、さらに、ユーザとの対話において、ユーザの割り込み発話が誤検知される頻度を全体として低くすることが可能となる。
[他の実施形態]
なお、この発明は上記第1の実施形態に限定されるものではない。例えば、上記第1の実施形態における、第1および第2の音声情報の出力停止処理では、取得されるユーザ音声情報におけるユーザの発話音声の検知感度に係る所定のパラメータとして、予め登録された1つの種類のものを用い、当該所定のパラメータの値が閾値としての第1の値を超えた場合に上記第1の音声情報の出力を停止し、当該所定のパラメータの値が閾値としての第2の値を超えた場合に上記第2の音声情報の出力を停止するようにした。しかしながら、上記第1の音声情報の出力停止処理と上記第2の音声情報の出力停止処理との間でユーザ音声情報を異なる方法で処理して、当該処理の結果に基づいて上記第1および第2の音声情報の出力を停止するようにしてもよい。例えば、上記第1の音声情報の出力停止処理では、例えば、上述したようにユーザの発話音声の検知に音圧、GMM、DNN等のVADを用いて算出されるパラメータを用い、当該パラメータの値が閾値を超えた場合に上記第1の音声情報を出力停止し、一方、上記第2の音声情報の出力停止処理では、ユーザ音声情報における、ユーザの発話音声の音声認識の結果何らかの意味がある事を話しているとの判断に基づいて、上記第2の音声情報の出力を停止するようにしてもよい。
その他、音声処理装置や音声情報出力停止部の構成等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
要するにこの発明は、上記第1の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記第1の実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、上記第1の実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
1…音声処理装置、11…制御ユニット、111…ユーザ近接検知部、112…発話開始文生成部、113…ユーザ音声情報取得部、114…音声認識部、115…応答文生成部、116…音声情報合成部、117…音声情報出力部、118…音声情報出力停止部、1181…閾値設定部、12…記憶ユニット、121…発話開始文記憶部、122…取得音声情報記憶部、123…認識結果記憶部、124…応答文記憶部、125…合成音声情報記憶部、126…閾値記憶部、13…入出力インタフェースユニット、2…近接センサ、3…マイク、4…スピーカ

Claims (5)

  1. ユーザとの対話を開始するための発話開始音声に係る第1の音声情報を出力する第1の音声情報出力部と、
    前記ユーザの発話音声に係るユーザ音声情報を取得するユーザ音声情報取得部と、
    前記ユーザの発話音声に応答するための応答音声に係る第2の音声情報を出力する第2の音声情報出力部と、
    前記第1または第2の音声情報の出力期間中に前記ユーザ音声情報が取得された場合に、当該ユーザ音声情報における前記ユーザの発話音声の検知感度に係る所定のパラメータの値を閾値と比較し、前記所定のパラメータの値が前記閾値を超えた場合に前記第1または第2の音声情報の出力を停止する音声情報出力停止部と、
    前記第1の音声情報の出力期間中には前記閾値を第1の値に設定し、前記第2の音声情報の出力期間中には前記閾値を前記第1の値より大きい第2の値に設定する閾値設定部と
    を備える音声処理装置。
  2. 前記音声情報出力停止部は、前記所定のパラメータの値として、前記ユーザ音声情報における、音圧の強さ、または、音圧が所定の音圧レベルを超える維持時間を用い、当該音圧の強さまたは当該音圧が所定の音圧レベルを超える維持時間が前記閾値を超えた場合に、前記第1または第2の音声情報の出力を停止する、請求項1に記載の音声処理装置。
  3. 前記音声情報出力停止部が、混合ガウス分布モデル(Gaussian Mixture Model:GMM)またはディープニューラルネットワーク(Deep Neural Network:DNN)を用いて前記ユーザ音声情報における前記ユーザの発話音声の音声検知を行う場合に、
    前記音声情報出力停止部は、前記所定のパラメータの値として、前記音声検知において人の声と判断された維持時間を用い、当該維持時間が前記閾値を超えた場合に、前記第1または第2の音声情報の出力を停止する、請求項1に記載の音声処理装置。
  4. ハードウェアプロセッサおよびメモリを備える装置が実行する音声処理方法であって、
    ユーザとの対話を開始するための発話開始音声に係る第1の音声情報が前記装置により出力される期間中には閾値を第1の値に設定し、前記ユーザの発話音声に応答するための応答音声に係る第2の音声情報が前記装置により出力される期間中には前記閾値を前記第1の値より大きい第2の値に設定する閾値設定過程と、
    前記ユーザの発話音声に係るユーザ音声情報を取得するユーザ音声情報取得過程と、
    前記第1または第2の音声情報が前記装置により出力される期間中に前記ユーザ音声情報が取得された場合に、当該ユーザ音声情報における前記ユーザの発話音声の検知感度に係る所定のパラメータの値を前記閾値と比較し、前記所定のパラメータの値が前記閾値を超えた場合に前記第1または第2の音声情報の出力を停止する音声情報出力停止過程と
    を備える音声処理方法。
  5. 請求項1乃至3のいずれかに記載の音声処理装置が備える各部としてハードウェアプロセッサを機能させるプログラム。
JP2018014866A 2018-01-31 2018-01-31 音声処理装置、方法およびプログラム Pending JP2019132997A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018014866A JP2019132997A (ja) 2018-01-31 2018-01-31 音声処理装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018014866A JP2019132997A (ja) 2018-01-31 2018-01-31 音声処理装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2019132997A true JP2019132997A (ja) 2019-08-08

Family

ID=67546775

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018014866A Pending JP2019132997A (ja) 2018-01-31 2018-01-31 音声処理装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2019132997A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10597594B1 (en) 2018-11-27 2020-03-24 Exxonmobil Research And Engineering Company Low sulfur marine fuel compositions
WO2021071271A1 (en) * 2019-10-10 2021-04-15 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6395532A (ja) * 1986-10-13 1988-04-26 Nippon Telegr & Teleph Corp <Ntt> 音声ガイダンス出力制御方法
JPH08146991A (ja) * 1994-11-17 1996-06-07 Canon Inc 情報処理装置及びその制御方法
JPH08263092A (ja) * 1995-03-23 1996-10-11 N T T Data Tsushin Kk 応答音声生成方法および音声対話システム
JPH10240284A (ja) * 1997-02-27 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 音声検出方法及び装置
JPH10254476A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法
JP2005246564A (ja) * 2004-02-06 2005-09-15 Sanyo Electric Co Ltd ロボット装置
JP3788793B2 (ja) * 2003-04-25 2006-06-21 日本電信電話株式会社 音声対話制御方法、音声対話制御装置、音声対話制御プログラム
JP2012073364A (ja) * 2010-09-28 2012-04-12 Toshiba Corp 音声対話装置、方法、プログラム
JP2017069835A (ja) * 2015-09-30 2017-04-06 シャープ株式会社 電子機器

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6395532A (ja) * 1986-10-13 1988-04-26 Nippon Telegr & Teleph Corp <Ntt> 音声ガイダンス出力制御方法
JPH08146991A (ja) * 1994-11-17 1996-06-07 Canon Inc 情報処理装置及びその制御方法
JPH08263092A (ja) * 1995-03-23 1996-10-11 N T T Data Tsushin Kk 応答音声生成方法および音声対話システム
JPH10240284A (ja) * 1997-02-27 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 音声検出方法及び装置
JPH10254476A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法
JP3788793B2 (ja) * 2003-04-25 2006-06-21 日本電信電話株式会社 音声対話制御方法、音声対話制御装置、音声対話制御プログラム
JP2005246564A (ja) * 2004-02-06 2005-09-15 Sanyo Electric Co Ltd ロボット装置
JP2012073364A (ja) * 2010-09-28 2012-04-12 Toshiba Corp 音声対話装置、方法、プログラム
JP2017069835A (ja) * 2015-09-30 2017-04-06 シャープ株式会社 電子機器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
菅郁巳,外3名: "ディープニューラルネットワークを用いた映画中の音声区間検出の検討", 日本音響学会講演論文集, JPN6018050493, 11 March 2016 (2016-03-11), JP, pages 121 - 124, ISSN: 0003944899 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10597594B1 (en) 2018-11-27 2020-03-24 Exxonmobil Research And Engineering Company Low sulfur marine fuel compositions
WO2021071271A1 (en) * 2019-10-10 2021-04-15 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Similar Documents

Publication Publication Date Title
US9818407B1 (en) Distributed endpointing for speech recognition
US9354687B2 (en) Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
US9335966B2 (en) Methods and apparatus for unsupervised wakeup
US8532995B2 (en) System and method for isolating and processing common dialog cues
JP5797009B2 (ja) 音声認識装置、ロボット、及び音声認識方法
JP5431282B2 (ja) 音声対話装置、方法、プログラム
US20130325475A1 (en) Apparatus and method for detecting end point using decoding information
KR20200025226A (ko) 전자 장치 및 그 제어 방법
JP4491438B2 (ja) 音声対話装置、音声対話方法、およびプログラム
JP2019132997A (ja) 音声処理装置、方法およびプログラム
JP2009175179A (ja) 音声認識装置、プログラム、及び発話信号抽出方法
JP2016061888A (ja) 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム
JP5375423B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
EP3195314B1 (en) Methods and apparatus for unsupervised wakeup
JP2020148805A (ja) 音声認識システム、及び、音声認識方法
JP2019139089A (ja) 音声秘匿装置および音声秘匿プログラム
JP6748565B2 (ja) 音声対話システム及び音声対話方法
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
JP4539313B2 (ja) 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
WO2019030810A1 (ja) 音声認識装置および音声認識方法
JP6768613B2 (ja) 音声処理装置、方法およびプログラム
JP2009175178A (ja) 音声認識装置、プログラム、及び発話信号抽出方法
JP6920730B2 (ja) 対話装置および対話プログラム
JP2005107384A (ja) 音声認識装置および方法、プログラム並びに記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190610

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190709