JP2019132997A

JP2019132997A - 音声処理装置、方法およびプログラム

Info

Publication number: JP2019132997A
Application number: JP2018014866A
Authority: JP
Inventors: 成宗松村; Narimune Matsumura; 純史布引; Ayafumi Nunobiki; 細淵　貴司; Takashi Hosobuchi; 貴司細淵
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2019-08-08

Abstract

【課題】ユーザの割り込み発話を検知する際に使用する閾値をユーザとの対話状況に応じて設定可能にする。【解決手段】音声情報出力部１１７の制御の下、ユーザとの対話を開始するための発話開始音声に係る第１の音声情報や、ユーザの発話音声に応答するための応答音声に係る第２の音声情報が出力される。音声情報出力停止部１１８の制御の下、上記第１または第２の音声情報の出力期間中にユーザ音声情報取得部１１３の制御下でユーザの発話音声に係るユーザ音声情報が取得され、当該ユーザ音声情報における上記ユーザの発話音声の検知感度に係る所定のパラメータの値が閾値を超えた場合、上記第１または第２の音声情報の出力が停止される。上記閾値は、上記第１の音声情報の出力期間中には第１の値に、上記第２の音声情報の出力期間中には上記第１の値より大きい第２の値に設定される。【選択図】図２

Description

この発明は、ユーザとの対話のための音声情報を出力する音声処理装置、方法およびプログラムに関する。

近年、音声による対話機能を備えたロボットが様々開発されてきた。

このようなロボットを用いて実現される音声による対話では、ロボットの発話中にユーザが割り込んで発話するバージインへの対応が重要である（例えば、非特許文献１，２，および３を参照）。

不特定話者音声自由対話システムTOSBURG ―マルチモーダル応答と音声応答キャンセルの利用―，電子情報通信学会論文誌 A Vol.J77-A No.2 pp.241-250 ロボットとの音声対話における発話の重なりを含む入力音の判別，情報処理学会第75回全国大会講演論文集,2013(1),481-482 (2013-03-06) 声量制御のための音声フィードバック手法の提案，情報処理学会研究報告, Vol.2016 No.EC-41 Page.Vol.2016-EC-41,No.24,1-8 (WEB ONLY) (2016.07.29)

バージインへ対応するためには、ロボットが発話中にユーザが割り込んで発話した事を検知する必要がある。しかしながら、このような検知では、相槌や咳き込み等のユーザの行動や、周囲の雑音等が原因で、ユーザが割り込みを意図して発話してないにもかかわらず、ユーザが割り込み発話を開始したと誤検知されてしまう問題がある。

このようなユーザの割り込み発話の誤検知は、例えば、ユーザの発話内容を音声認識してその内容に基づいてユーザの割り込み発話が実際にあったか否かを判断することにより無くすことが可能である。しかしながら、音声認識を用いることにより、今度は、ユーザの割り込み発話の検知までに時間がかかってしまうこととなり、その結果、ユーザに不快感を与えるという問題が発生する。

このように、ユーザの割り込み発話の検知では、誤検知の問題を解決しようとすると、検知までの時間が長くなりユーザに不快感を与えてしまうという別の問題が発生してしまう。

この発明は上記事情に着目してなされたもので、その目的とするところは、ユーザの割り込み発話を検知する際に使用する閾値をユーザとの対話状況に応じて設定可能な音声処理装置、方法およびプログラムを提供することにある。

上記課題を解決するために、この発明の第１の態様は、音声処理装置にあって、ユーザとの対話を開始するための発話開始音声に係る第１の音声情報を出力する第１の音声情報出力部と、前記ユーザの発話音声に係るユーザ音声情報を取得するユーザ音声情報取得部と、前記ユーザの発話音声に応答するための応答音声に係る第２の音声情報を出力する第２の音声情報出力部と、前記第１または第２の音声情報の出力期間中に前記ユーザ音声情報が取得された場合に、当該ユーザ音声情報における前記ユーザの発話音声の検知感度に係る所定のパラメータの値を閾値と比較し、前記所定のパラメータの値が前記閾値を超えた場合に前記第１または第２の音声情報の出力を停止する音声情報出力停止部と、前記第１の音声情報の出力期間中には前記閾値を第１の値に設定し、前記第２の音声情報の出力期間中には前記閾値を前記第１の値より大きい第２の値に設定する閾値設定部とを備えるようにしたものである。

この発明の第２の態様は、前記音声情報出力停止部が、前記所定のパラメータの値として、前記ユーザ音声情報における、音圧の強さ、または、音圧が所定の音圧レベルを超える維持時間を用い、当該音圧の強さまたは当該音圧が所定の音圧レベルを超える維持時間が前記閾値を超えた場合に、前記第１または第２の音声情報の出力を停止するようにしたものである。

この発明の第３の態様は、前記音声情報出力停止部が、混合ガウス分布モデル（Gaussian Mixture Model：ＧＭＭ）またはディープニューラルネットワーク（Deep Neural Network：ＤＮＮ）を用いて前記ユーザ音声情報における前記ユーザの発話音声の音声検知を行う場合に、前記音声情報出力停止部が、前記所定のパラメータの値として、前記音声検知において人の声と判断された維持時間を用い、当該維持時間が前記閾値を超えた場合に、前記第１または第２の音声情報の出力を停止するようにしたものである。

この発明の第１の態様によれば、ユーザとの対話を開始するための発話開始音声に係る第１の音声情報が出力される。一方、上記ユーザの発話音声に係るユーザ音声情報が取得され、当該ユーザの発話音声に応答するための応答音声に係る第２の音声情報が出力される。上記第１または第２の音声情報の出力期間中に上記ユーザ音声情報が取得された場合に、当該ユーザ音声情報における上記ユーザの発話音声の検知感度に係る所定のパラメータの値が閾値と比較され、当該所定のパラメータの値が上記閾値を超えた場合に上記第１または第２の音声情報の出力が停止される。ここで、上記第１の音声情報の出力期間中には上記閾値が第１の値に設定され、上記第２の音声情報の出力期間中には上記閾値が上記第１の値より大きい第２の値に設定される。

一般的に、センサでユーザ接近を検知してロボットがユーザに話しかけるシステムにおいて、ユーザとロボットが対話を始めようとする最初のタイミングでは、ユーザも同じようにロボットに話しかけようとすることがあるため、ロボットとユーザとの発話が同時に発生する発話衝突が非常に頻繁に発生することが知られている。一方、対話が一度成立した後では、ユーザとロボットが交互に発話するようになるため、ユーザが意図してロボットの発話に割り込まない限り、発話衝突は殆ど発生しないことが知られている。

上述した第１の態様では、上記第１の音声情報を出力している上記発話衝突が頻繁に発生しやすいタイミングでは、上記閾値をより小さい上記第１の値に設定してユーザの発話音声をより検知しやすくすることによって、このように頻繁に発生する発話衝突に即座に対応することができる。一方、上記第２の音声情報を出力している上記発話衝突が殆ど発生しないタイミングでは、上記閾値をより大きい上記第２の値に設定することによって、ユーザの発話音声が検知されていないにかかわらず検知したと誤検知してしまう可能性を低くすることができる。

一般的に、発話衝突が発生している際にユーザの発話の検知までに時間がかかるとユーザに不快感を与えてしまうこととなる。しかしながら、上述した第１の態様では、発話衝突が発生しやすいタイミングでは上述したようにユーザの発話音声が検知されやすくなっている。このため、上述したようにユーザが与えられる不快感は低減される。さらに、上述した第１の態様では、発話衝突が発生しにくいタイミングでは上述したように上記誤検知が発生する可能性が低くなっている。このため、ユーザとの対話において、ユーザの割り込み発話が誤検知される頻度は全体として低くなる。

この発明の第２の態様によれば、上記所定のパラメータの値として、上記ユーザ音声情報における、音圧の強さ、または、音圧が所定の音圧レベルを超える維持時間が用いられ、当該音圧の強さまたは当該音圧が所定の音圧レベルを超える維持時間が上記閾値を超えた場合に、上記第１または第２の音声情報の出力が停止される。

一般的に、ユーザの発話の検知に音圧等の音声区間検出（Voice Activity Detection：ＶＡＤ）を用いる場合、例えば音声認識を用いる場合と比較して、ユーザの割り込み発話の誤検知の確率は高いが検知遅れを非常に小さくすることが可能である。したがって、上述した第２の態様のように、上記所定のパラメータの値として、上記ユーザ音声情報における音圧に関係する値を用いるようにする場合、上記第１の値をこのように検知遅れが非常に小さくなる値に設定すれば、上述したように、ユーザが与えられる不快感を低減し、さらに、ユーザとの対話において、ユーザの割り込み発話が誤検知される頻度を全体として低くすることが可能となる。

この発明の第３の態様によれば、上記所定のパラメータの値として、ＧＭＭまたはＤＮＮを用いた上記ユーザ音声情報における上記ユーザの発話音声の音声検知において人の声と判断された維持時間が用いられ、当該維持時間が上記閾値を超えた場合に、上記第１または第２の音声情報の出力が停止される。

一般的に、ユーザの発話の検知にＧＭＭ、ＤＮＮ等のＶＡＤを用いる場合、例えば音声認識を用いる場合と比較して、ユーザの割り込み発話の誤検知の確率は高いが検知遅れを非常に小さくすることが可能である。したがって、上述した第３の態様のように、上記所定のパラメータの値として、ＧＭＭまたはＤＮＮを用いた上記ユーザ音声情報における音声検知において人の声と判断された維持時間を用いるようにする場合、上記第１の値をこのように検知遅れが非常に小さくなる値に設定すれば、上述したように、ユーザが与えられる不快感を低減し、さらに、ユーザとの対話において、ユーザの割り込み発話が誤検知される頻度を全体として低くすることが可能となる。

すなわち、この発明の各態様によれば、ユーザの割り込み発話を検知する際に使用する閾値をユーザとの対話状況に応じて設定可能な音声処理装置、方法およびプログラムを提供することができる。

この発明の第１の実施形態に係る、ユーザとの音声対話を実現する音声処理装置の一例を示す図。図１に示した音声処理装置の機能構成を示すブロック図。図２に示した音声処理装置の制御ユニットによって実行される、ユーザの発話音声の検知に基づく、発話開始音声に係る音声情報の出力停止処理の一例を示すフロー図。図２に示した音声処理装置の制御ユニットによって実行される、ユーザの発話音声の検知に基づく、応答音声に係る音声情報の出力停止処理の一例を示すフロー図。音声対話装置としてのロボットとユーザとの対話の一例を示す図。

以下、図面を参照してこの発明に係わる実施形態を説明する。
［第１の実施形態］
図５に示すように、センサでユーザ接近を検知してロボットがユーザに話しかけるシステムにおいて、ユーザとロボットが対話を始めようとする最初のタイミングでは、ユーザも同じようにロボットに話しかけようとすることがあるため、ロボットとユーザとの発話が同時に発生する発話衝突が非常に頻繁に発生する。一方、対話が一度成立した後では、ユーザとロボットが交互に発話するようになるため、ユーザが意図してロボットの発話に割り込まない限り、発話衝突は殆ど発生しない。

この発明の第１の実施形態では、バージインの例としてのこのような発話衝突に対処することができる音声処理装置１について説明する。

（構成）
図１は、この発明の第１の実施形態に係る、ユーザとの音声対話を実現する音声処理装置１の一例を示す図である。図１では、音声処理装置１、近接センサ２、マイク３、およびスピーカ４が一体となってユーザとの音声対話を実現する装置を構成している例を図示しているが、これらの各々は別個の装置として分離されていてもよく、また、これらのうちの任意の組み合わせが一体となっていてもよい。

音声処理装置１は、近接センサ２から取得された情報に基づいて音声処理装置１へのユーザの近接を検知することができる。例えば、音声処理装置１へのユーザの近接が検知された場合に、音声処理装置１は、ユーザとの対話を開始するための発話開始音声に係る音声情報をスピーカ４に出力し、当該発話開始音声がスピーカ４から出力される。

また、音声処理装置１は、マイク３を介して入力されたユーザの発話音声に応答して、当該ユーザの発話音声に応答するための応答音声に係る音声情報をスピーカ４に出力し、当該応答音声がスピーカ４から出力される。

さらに、音声処理装置１は、上記発話開始音声または応答音声に係る音声情報の出力中にユーザの発話音声を検知した場合に、上記発話開始音声または応答音声に係る音声情報の出力を停止することができる。

図２は、この発明の第１の実施形態に係る音声処理装置１の機能構成を示すブロック図である。
音声処理装置１は、ハードウェアとして、制御ユニット１１と、記憶ユニット１２と、入出力インタフェースユニット１３とを備えている。

入出力インタフェースユニット１３は、例えば１つ以上の有線または無線の通信インタフェースユニットを含んでいる。入出力インタフェースユニット１３は、例えば超音波型や赤外線型等の近接センサ２から、例えば音声処理装置１とユーザとの近接の度合いを示す情報を取得し、当該取得される近接の度合いを示す情報を制御ユニット１１に入力する。また、入出力インタフェースユニット１３は、マイク３を介してユーザの発話音声に係るユーザ音声情報を取得し、当該取得されるユーザ音声情報を制御ユニット１１に入力する。さらに、入出力インタフェースユニット１３は、制御ユニット１１から出力された音声情報を、スピーカ４に出力する。

記憶ユニット１２は、記憶媒体として例えばＨＤＤ（Hard Disc Drive）またはＳＳＤ（Solid State Drive）等の随時書き込みおよび読み出しが可能な不揮発メモリを使用したもので、本実施形態を実現するために、発話開始文記憶部１２１と、取得音声情報記憶部１２２と、認識結果記憶部１２３と、応答文記憶部１２４と、合成音声情報記憶部１２５と、閾値記憶部１２６とを備えている。

発話開始文記憶部１２１は、ユーザとの対話を開始するための発話開始文の情報を記憶させるために使用される。

取得音声情報記憶部１２２は、マイク３を介して取得された、ユーザの発話音声に係るユーザ音声情報を記憶させるために使用される。

認識結果記憶部１２３は、上記ユーザ音声情報の音声認識の結果の情報を記憶させるために使用される。

応答文記憶部１２４は、上記ユーザ音声情報の音声認識の結果に基づいて生成された、上記ユーザの発話音声に応答するための応答文の情報を記憶させるために使用される。

合成音声情報記憶部１２５は、上記発話開始文および上記応答文に対応するように合成された、発話開始音声に係る第１の音声情報および応答音声に係る第２の音声情報を記憶させるために使用される。

閾値記憶部１２６は、音声情報出力停止部１１８の制御下での上記ユーザの発話音声の音声検知に使用される閾値を記憶している。

制御ユニット１１は、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサと、プログラムメモリとを備え、本実施形態における処理機能を実行するために、ユーザ近接検知部１１１と、発話開始文生成部１１２と、ユーザ音声情報取得部１１３と、音声認識部１１４と、応答文生成部１１５と、音声情報合成部１１６と、音声情報出力部１１７と、音声情報出力停止部１１８とを備えている。これらの各部における処理機能はいずれも、プログラムメモリに格納されたプログラムを上記ハードウェアプロセッサに実行させることによって実現される。なお、これらの処理機能は、プログラムメモリに格納されたプログラムを用いて実現されるのではなく、ネットワークを通して提供されるプログラムを用いて実現されてもよい。

ユーザ近接検知部１１１は、近接センサ２から、音声処理装置１とユーザとの近接の度合いを示す情報を取得し、当該取得された音声処理装置１とユーザとの近接の度合いを示す情報に基づいて、音声処理装置１へのユーザの近接を検知する処理を実行する。当該検知処理では、例えば、近接センサ２から上記近接の度合いを示す情報として取得された音声処理装置１とユーザとの間の距離情報が示す値が所定の閾値を超えた場合に、音声処理装置１へのユーザの近接が検知されたと判定するようにしてもよい。

発話開始文生成部１１２は、ユーザ近接検知部１１１の制御下で音声処理装置１へのユーザの近接が検知された場合に、上記ユーザとの対話を開始するための例えば挨拶等の発話開始文を生成する処理を実行する。その後、発話開始文生成部１１２は、当該生成された発話開始文の情報を、記憶ユニット１２の発話開始文記憶部１２１に記憶させる処理を実行する。

音声情報合成部１１６は、記憶ユニット１２の発話開始文記憶部１２１に記憶される上記発話開始文の情報を読み出し、当該読み出された情報が示す上記発話開始文に対応するように、発話開始音声に係る第１の音声情報を合成する処理を実行する。その後、音声情報合成部１１６は、当該合成された第１の音声情報を、記憶ユニット１２の合成音声情報記憶部１２５に記憶させる処理を実行する。

音声情報出力部１１７は、記憶ユニット１２の合成音声情報記憶部１２５に記憶される上記第１の音声情報を読み出し、当該読み出された上記第１の音声情報をスピーカ４に出力する処理を実行する。

一方、ユーザ音声情報取得部１１３は、マイク３を介してユーザの発話音声に係るユーザ音声情報を取得する。例えば、ユーザ音声情報取得部１１３は、マイク３から入力された音声を録音し、上記ユーザ音声情報としての録音データへ変換する。その後、ユーザ音声情報取得部１１３は、当該取得されたユーザ音声情報を、記憶ユニット１２の取得音声情報記憶部１２２に記憶させる処理を実行する。

音声認識部１１４は、記憶ユニット１２の取得音声情報記憶部１２２に記憶される上記ユーザ音声情報を読み出し、当該読み出されたユーザ音声情報において上記ユーザの発話音声の音声認識処理を実行する。その後、音声認識部１１４は、当該音声認識処理の結果の情報を、記憶ユニット１２の認識結果記憶部１２３に記憶させる処理を実行する。

応答文生成部１１５は、記憶ユニット１２の認識結果記憶部１２３に記憶される上記音声認識処理の結果の情報を読み出し、当該読み出された音声認識処理の結果の情報に基づいて上記ユーザの発話音声に応答するための応答文を生成する処理を実行する。その後、応答文生成部１１５は、当該生成された応答文の情報を、記憶ユニット１２の応答文記憶部１２４に記憶させる処理を実行する。

音声情報合成部１１６は、記憶ユニット１２の応答文記憶部１２４に記憶される上記応答文の情報を読み出し、当該読み出された情報が示す上記応答文に対応するように、応答音声に係る第２の音声情報を合成する処理を実行する。その後、音声情報合成部１１６は、当該合成された第２の音声情報を、記憶ユニット１２の合成音声情報記憶部１２５に記憶させる処理を実行する。

音声情報出力部１１７は、記憶ユニット１２の合成音声情報記憶部１２５に記憶される上記第２の音声情報を読み出し、当該読み出された上記第２の音声情報をスピーカ４に出力する処理を実行する。

ここで、音声情報出力停止部１１８は、音声情報出力部１１７の制御下での上記第１または第２の音声情報の出力期間中にユーザ音声情報取得部１１３の制御下で上記ユーザ音声情報が取得された場合に、記憶ユニット１２の閾値記憶部１２６に記憶される閾値を読み出し、上記取得されたユーザ音声情報における上記ユーザの発話音声の検知感度に係る所定のパラメータの値を当該読み出された閾値と比較する処理を実行する。当該比較の結果、上記所定のパラメータの値が上記閾値を超えた場合に、音声情報出力停止部１１８は、上記第１および第２の音声情報のうち、音声情報出力部１１７の制御下で出力中の音声情報の出力を停止する処理を実行する。

なお、上記ユーザの発話音声の検知感度に係る所定のパラメータの種類は、例えば、オペレータが事前に登録しておく。
例えば、上記所定のパラメータの値として、上記ユーザ音声情報における、音圧の強さ、または、音圧が所定の音圧レベルを超える維持時間を用いてもよい。あるいは、音声情報出力停止部１１８が混合ガウス分布モデル（Gaussian Mixture Model：ＧＭＭ）またはディープニューラルネットワーク（Deep Neural Network：ＤＮＮ）を用いて上記ユーザ音声情報における上記ユーザの発話音声の音声検知を行うようにし、上記所定のパラメータの値として、当該音声検知において人の声と判断された維持時間を用いるようにしてもよい。

音声情報出力停止部１１８は、閾値設定部１１８１を備えている。なお、閾値設定部１１８１は、音声情報出力停止部１１８と分離して実現されていてもよい。
閾値設定部１１８１は、記憶ユニット１２の閾値記憶部１２６に記憶される上記閾値にアクセスし、音声情報出力部１１７の制御下での上記第１の音声情報の出力期間中には上記閾値を第１の値に設定し、音声情報出力部１１７の制御下での上記第２の音声情報の出力期間中には上記閾値を上記第１の値より大きい第２の値に設定する処理を実行する。当該第１および第２の値は、例えば、オペレータが上記所定のパラメータの種類に応じて事前に登録しておく。

なお、上記閾値の第１の値への設定処理は、例えば、ユーザ近接検知部１１１の制御下で音声処理装置１への上記ユーザの近接が検知されたという情報や、発話開始文生成部１１２の制御下で上記発話開始文が生成されたという情報や、音声情報出力部１１７の制御下で上記第１の音声情報が出力されるあるいは出力されているという情報に応答して実行されてもよい。

また、上記閾値の第２の値への設定処理は、例えば、応答文生成部１１５の制御下で上記応答文が生成されたという情報や、音声情報出力部１１７の制御下で上記第１の音声情報の出力が完了したという情報や、音声情報出力部１１７の制御下で上記第２の音声情報が出力されるあるいは出力されているという情報に応答して実行されてもよい。

（動作）
次に、以上のように構成された音声処理装置１の動作を説明する。
（１）ユーザの発話音声の検知に基づく、発話開始音声に係る音声情報の出力停止処理
図３は、図２に示した音声処理装置１の制御ユニット１１によって実行される、ユーザの発話音声の検知に基づく、発話開始音声に係る第１の音声情報の出力停止処理の一例を示すフロー図である。

先ず、ステップＳ１１において、制御ユニット１１は、ユーザ近接検知部１１１の制御の下、近接センサ２から、音声処理装置１とユーザとの近接の度合いを示す情報を取得し、当該取得された音声処理装置１とユーザとの近接の度合いを示す情報に基づいて、音声処理装置１へのユーザの近接を検知する。

ステップＳ１１において音声処理装置１へのユーザの近接が検知された場合、ステップＳ１２において、制御ユニット１１は、閾値設定部１１８１の制御の下、閾値記憶部１２６に記憶される、ユーザの発話音声の検知の判断基準となる閾値にアクセスして、当該閾値を第１の値に設定する。

次に、ステップＳ１３において、制御ユニット１１は、音声情報出力部１１７の制御の下、発話開始文生成部１１２および音声情報合成部１１６の制御下で合成され合成音声情報記憶部１２５に記憶されている、上記ユーザとの対話を開始するための発話開始音声に係る第１の音声情報を読み出し、当該読み出された上記第１の音声情報をスピーカ４に出力する。これにより、スピーカ４において、上記発話開始音声が出力されることになる。

ステップＳ１４において、制御ユニット１１は、音声情報出力停止部１１８の制御の下、音声情報出力部１１７の制御下での上記第１の音声情報の出力期間中にユーザ音声情報取得部１１３の制御下でユーザの発話音声に係るユーザ音声情報が取得されるか否かを判定する。

上記第１の音声情報の出力期間中に上記ユーザ音声情報が取得されたと判定された場合、ステップＳ１５において、制御ユニット１１は、音声情報出力停止部１１８の制御の下、閾値記憶部１２６に記憶される上記第１の値である上記閾値を読み出し、上記取得されたユーザ音声情報における上記ユーザの発話音声の検知感度に係る所定のパラメータの値を当該閾値と比較し、当該所定のパラメータの値が当該閾値を超えるか否かを判定する。

上記所定のパラメータの値が上記閾値を超えたと判定された場合、ステップＳ１６において、制御ユニット１１は、音声情報出力停止部１１８の制御の下、音声情報出力部１１７の制御下での上記第１の音声情報の出力を停止する。

なお、ステップＳ１５において上記所定のパラメータの値が上記閾値を超えないと判定された場合、ステップＳ１４からの処理が繰り返し実行される。

（２）ユーザの発話音声の検知に基づく、応答音声に係る音声情報の出力停止処理
図４は、図２に示した音声処理装置１の制御ユニット１１によって実行される、ユーザの発話音声の検知に基づく、応答音声に係る第２の音声情報の出力停止処理の一例を示すフロー図である。

先ず、ステップＳ２１において、制御ユニット１１は、音声情報出力部１１７の制御の下、ユーザとの対話を開始するための発話開始音声に係る第１の音声情報の出力を完了する。これにより、スピーカ４における上記発話開始音声の出力も完了する。

ステップＳ２２において、制御ユニット１１は、閾値設定部１１８１の制御の下、音声情報出力部１１７の制御下で上記第１の音声情報の出力が完了したという情報に応答して、閾値記憶部１２６に記憶される、上記閾値にアクセスして、当該閾値を上記第１の値より大きい第２の値に設定する。

次に、ステップＳ２３において、制御ユニット１１は、ユーザ音声情報取得部１１３の制御の下、ユーザの発話音声に係るユーザ音声情報が取得されたか否かを判定する。

上記ユーザ音声情報が取得された場合、音声認識部１１４の制御の下、当該ユーザ音声情報において上記ユーザの発話音声の音声認識処理が実行され、応答文生成部１１５の制御の下、当該音声認識処理の結果に基づいて上記ユーザの発話音声に応答するための応答文が生成される。最後に、音声情報合成部１１６の制御の下、当該応答文に対応するように、応答音声に係る第２の音声情報が合成され、合成音声情報記憶部１２５に記憶される。

ステップＳ２４において、制御ユニット１１は、音声情報出力部１１７の制御の下、合成音声情報記憶部１２５に記憶されている上記第２の音声情報を読み出し、当該読み出された上記第２の音声情報をスピーカ４に出力する。これにより、スピーカ４において、上記ユーザの発話音声に応答するための応答音声が出力されることになる。

ステップＳ２５において、制御ユニット１１は、音声情報出力停止部１１８の制御の下、音声情報出力部１１７の制御下での上記第２の音声情報の出力期間中にユーザ音声情報取得部１１３の制御下でユーザの発話音声に係るユーザ音声情報が取得されるか否かを判定する。

上記第２の音声情報の出力期間中に上記ユーザ音声情報が取得されたと判定された場合、ステップＳ２６において、制御ユニット１１は、音声情報出力停止部１１８の制御の下、閾値記憶部１２６に記憶される上記第２の値である上記閾値を読み出し、上記取得されたユーザ音声情報における上記ユーザの発話音声の検知感度に係る所定のパラメータの値を当該閾値と比較し、当該所定のパラメータの値が当該閾値を超えるか否かを判定する。

上記所定のパラメータの値が上記閾値を超えたと判定された場合、ステップＳ２７において、制御ユニット１１は、音声情報出力停止部１１８の制御の下、音声情報出力部１１７の制御下での上記第２の音声情報の出力を停止する。

なお、ステップＳ２６において上記所定のパラメータの値が上記閾値を超えないと判定された場合、ステップＳ２５からの処理が繰り返し実行される。

ここで、ステップＳ２５において上記第２の音声情報の出力期間中に上記ユーザ音声情報が取得されないと判定された場合、ステップＳ２８において、制御ユニット１１は、ユーザ近接検知部１１１の制御の下、近接センサ２から、音声処理装置１とユーザとの近接の度合いを示す情報を取得し、当該取得された音声処理装置１とユーザとの近接の度合いを示す情報に基づいて、音声処理装置１へのユーザの近接を検知する。

音声処理装置１へのユーザの近接が検知された場合、ステップＳ２３からの処理が繰り返し実行される。一方、音声処理装置１へのユーザの近接が検知されない場合は、音声処理装置１による動作は終了する。

なお、上述した音声処理装置１へのユーザの近接検知に基づく音声処理装置１による動作の終了処理は、上述したステップＳ２８において実行されるものに限定されず、図３および図４に示したフローにおける任意のタイミングで例えば周期的に実行されるようにしてもよい。

（効果）
（１）音声情報出力部１１７の制御の下、ユーザとの対話を開始するための発話開始音声に係る第１の音声情報や、ユーザの発話音声に応答するための応答音声に係る第２の音声情報が出力される。音声情報出力停止部１１８の制御の下、音声情報出力部１１７の制御下での上記第１または第２の音声情報の出力期間中にユーザ音声情報取得部１１３の制御下でユーザの発話音声に係るユーザ音声情報が取得されたと判定された場合、次の処理が実行される。すなわち、音声情報出力停止部１１８の制御の下、閾値記憶部１２６に記憶される閾値が読み出され、上記取得されたユーザ音声情報における上記ユーザの発話音声の検知感度に係る所定のパラメータの値が当該閾値と比較される。上記所定のパラメータの値が上記閾値を超えたと判定された場合、音声情報出力停止部１１８の制御の下、上記第１および第２の音声情報のうち、音声情報出力部１１７の制御下で出力中の音声情報の出力が停止される。

ここで、上記閾値は、音声情報出力部１１７の制御下での上記第１の音声情報の出力期間中には第１の値に設定され、音声情報出力部１１７の制御下での上記第２の音声情報の出力期間中には上記第１の値より大きい第２の値に設定される。なお、上記閾値の上記第１の値への設定は、例えば、ユーザ近接検知部１１１の制御下で音声処理装置１へのユーザの近接が検知された場合に実行される。また、上記閾値の上記第２の値への設定は、例えば、音声情報出力部１１７の制御下で上記第１の音声情報の出力が完了したという情報に応答して実行される。

上述した構成では、上記第１の音声情報を出力している上記発話衝突が頻繁に発生しやすいタイミングでは、上記閾値をより小さい上記第１の値に設定してユーザの発話音声をより検知しやすくすることによって、このように頻繁に発生する発話衝突に即座に対応することができる。一方、上記第２の音声情報を出力している上記発話衝突が殆ど発生しないタイミングでは、上記閾値をより大きい上記第２の値に設定することによって、ユーザの発話音声が検知されていないにかかわらず検知したと誤検知してしまう可能性を低くすることができる。

一般的に、発話衝突が発生している際にユーザの発話の検知までに時間がかかるとユーザに不快感を与えてしまうこととなる。しかしながら、上述した構成では、発話衝突が発生しやすいタイミングでは上述したようにユーザの発話音声が検知されやすくなっている。このため、上述したようにユーザが与えられる不快感は低減される。さらに、上述した構成では、発話衝突が発生しにくいタイミングでは上述したように上記誤検知が発生する可能性が低くなっている。このため、ユーザとの対話において、ユーザの割り込み発話が誤検知される頻度は全体として低くなる。

（２）上記所定のパラメータの値として、上記ユーザ音声情報における、音圧の強さ、または、音圧が所定の音圧レベルを超える維持時間を用いてもよい。あるいは、音声情報出力停止部１１８の制御下でＧＭＭまたはＤＮＮを用いて上記ユーザ音声情報における上記ユーザの発話音声の音声検知が行われるようにし、上記所定のパラメータの値として、当該音声検知において人の声と判断された維持時間を用いるようにしてもよい。

一般的に、ユーザの発話の検知に音圧、ＧＭＭ、ＤＮＮ等のＶＡＤを用いる場合、例えば音声認識を用いる場合と比較して、ユーザの割り込み発話の誤検知の確率は高いが検知遅れを非常に小さくすることが可能である。したがって、上述した構成のように、上記所定のパラメータの値として、上記ユーザ音声情報における音圧に関係する値や、ＧＭＭまたはＤＮＮを用いた上記ユーザ音声情報における音声検知において人の声と判断された維持時間を用いるようにする場合、上記第１の値をこのように検知遅れが非常に小さくなる値に設定すれば、上述したように、ユーザが与えられる不快感を低減し、さらに、ユーザとの対話において、ユーザの割り込み発話が誤検知される頻度を全体として低くすることが可能となる。

［他の実施形態］
なお、この発明は上記第１の実施形態に限定されるものではない。例えば、上記第１の実施形態における、第１および第２の音声情報の出力停止処理では、取得されるユーザ音声情報におけるユーザの発話音声の検知感度に係る所定のパラメータとして、予め登録された１つの種類のものを用い、当該所定のパラメータの値が閾値としての第１の値を超えた場合に上記第１の音声情報の出力を停止し、当該所定のパラメータの値が閾値としての第２の値を超えた場合に上記第２の音声情報の出力を停止するようにした。しかしながら、上記第１の音声情報の出力停止処理と上記第２の音声情報の出力停止処理との間でユーザ音声情報を異なる方法で処理して、当該処理の結果に基づいて上記第１および第２の音声情報の出力を停止するようにしてもよい。例えば、上記第１の音声情報の出力停止処理では、例えば、上述したようにユーザの発話音声の検知に音圧、ＧＭＭ、ＤＮＮ等のＶＡＤを用いて算出されるパラメータを用い、当該パラメータの値が閾値を超えた場合に上記第１の音声情報を出力停止し、一方、上記第２の音声情報の出力停止処理では、ユーザ音声情報における、ユーザの発話音声の音声認識の結果何らかの意味がある事を話しているとの判断に基づいて、上記第２の音声情報の出力を停止するようにしてもよい。

その他、音声処理装置や音声情報出力停止部の構成等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。

要するにこの発明は、上記第１の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記第１の実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、上記第１の実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

１…音声処理装置、１１…制御ユニット、１１１…ユーザ近接検知部、１１２…発話開始文生成部、１１３…ユーザ音声情報取得部、１１４…音声認識部、１１５…応答文生成部、１１６…音声情報合成部、１１７…音声情報出力部、１１８…音声情報出力停止部、１１８１…閾値設定部、１２…記憶ユニット、１２１…発話開始文記憶部、１２２…取得音声情報記憶部、１２３…認識結果記憶部、１２４…応答文記憶部、１２５…合成音声情報記憶部、１２６…閾値記憶部、１３…入出力インタフェースユニット、２…近接センサ、３…マイク、４…スピーカ

Claims

ユーザとの対話を開始するための発話開始音声に係る第１の音声情報を出力する第１の音声情報出力部と、
前記ユーザの発話音声に係るユーザ音声情報を取得するユーザ音声情報取得部と、
前記ユーザの発話音声に応答するための応答音声に係る第２の音声情報を出力する第２の音声情報出力部と、
前記第１または第２の音声情報の出力期間中に前記ユーザ音声情報が取得された場合に、当該ユーザ音声情報における前記ユーザの発話音声の検知感度に係る所定のパラメータの値を閾値と比較し、前記所定のパラメータの値が前記閾値を超えた場合に前記第１または第２の音声情報の出力を停止する音声情報出力停止部と、
前記第１の音声情報の出力期間中には前記閾値を第１の値に設定し、前記第２の音声情報の出力期間中には前記閾値を前記第１の値より大きい第２の値に設定する閾値設定部と
を備える音声処理装置。
前記音声情報出力停止部は、前記所定のパラメータの値として、前記ユーザ音声情報における、音圧の強さ、または、音圧が所定の音圧レベルを超える維持時間を用い、当該音圧の強さまたは当該音圧が所定の音圧レベルを超える維持時間が前記閾値を超えた場合に、前記第１または第２の音声情報の出力を停止する、請求項１に記載の音声処理装置。
前記音声情報出力停止部が、混合ガウス分布モデル（Gaussian Mixture Model：ＧＭＭ）またはディープニューラルネットワーク（Deep Neural Network：ＤＮＮ）を用いて前記ユーザ音声情報における前記ユーザの発話音声の音声検知を行う場合に、
前記音声情報出力停止部は、前記所定のパラメータの値として、前記音声検知において人の声と判断された維持時間を用い、当該維持時間が前記閾値を超えた場合に、前記第１または第２の音声情報の出力を停止する、請求項１に記載の音声処理装置。
ハードウェアプロセッサおよびメモリを備える装置が実行する音声処理方法であって、
ユーザとの対話を開始するための発話開始音声に係る第１の音声情報が前記装置により出力される期間中には閾値を第１の値に設定し、前記ユーザの発話音声に応答するための応答音声に係る第２の音声情報が前記装置により出力される期間中には前記閾値を前記第１の値より大きい第２の値に設定する閾値設定過程と、
前記ユーザの発話音声に係るユーザ音声情報を取得するユーザ音声情報取得過程と、
前記第１または第２の音声情報が前記装置により出力される期間中に前記ユーザ音声情報が取得された場合に、当該ユーザ音声情報における前記ユーザの発話音声の検知感度に係る所定のパラメータの値を前記閾値と比較し、前記所定のパラメータの値が前記閾値を超えた場合に前記第１または第２の音声情報の出力を停止する音声情報出力停止過程と
を備える音声処理方法。
請求項１乃至３のいずれかに記載の音声処理装置が備える各部としてハードウェアプロセッサを機能させるプログラム。