JP2020122821A

JP2020122821A - 応答義務推定方法および対話システム

Info

Publication number: JP2020122821A
Application number: JP2019012983A
Authority: JP
Inventors: 翔太堀口; Shota Horiguchi; 直之神田; Naoyuki Kanda
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2020-08-13

Abstract

【課題】より高い精度の応答要否判断が可能な対話システムを提供する。【解決手段】本発明の好ましい一側面は、情報処理装置で実行される、音声に基づいて発話への応答義務を推定する方法であって、音声を入力するステップと、発話区間を特定するステップと、発話区間における音声から応答義務を推定する応答義務推定値を生成するステップと、発話区間終了後の音声からユーザーの応答期待度を生成するステップと、発話区間の音声から生成した応答義務推定値を、発話区間終了後の音声から生成した応答期待度を利用して更新するステップと、を含むことを特徴とする応答義務推定方法である。【選択図】図３

Description

本発明は、自動応答する対話システムにおいて、応答義務を推定する技術に関する。

ロボットやスマートスピーカーをはじめとする対話システムは、入力音声に対して適切な応答を出力するシステムである。しかし入力された音声の中には人間同士の会話や館内放送などシステムに向けられたものではないものも存在する。これらに対しては応答しないような対話システムを実現するために、検出した音声がシステムへ向けられたのか否かを推定する応答義務推定が重要である。

特許文献１には、応答タイミングと意味処理タイミングを別個に推定し、応答タイミングかつ意味処理タイミングであると判断された場合に限って入力発話への応答を行う手法が開示されている。

特許文献２には、人間の発話とその直前のシステムの発話との時間関係、あるいはシステムに対する人間の発話の割り込みのタイミングを利用して対話システムへの発話を判別する手法が開示されている。

特開2005-196134号公報特開2014-077969号公報

特許文献1では、発話区間終了時にそこまでに得られた情報で当該発話に対して応答するか否かを判断する。しかし、例えば人間同士が会話しており、その後ロボットの方を振り向いて返答を求めるような仕草をした場合や、よそ見をしながら発話を行い、その後ロボットを見た場合など、応答タイミングが意味処理タイミングよりも後にくる時には応答ができないという課題がある。また実際にはシステムが応答すべき入力と応答すべきでない入力が存在するにもかかわらず、特許文献１においては入力にはいつか必ず応答するということが仮定されてしまっている。

特許文献２では、発話区間終了時までのデータを用いて当該発話に対して応答すべきかどうかを判定している。一度応答すべきでないという判断を下したあとに、発話区間後の情報を用いてそれを修正するような機構は設けられていない。

そこで、より高い精度の応答要否判断が可能な対話システムを提供することが課題となる。

本発明の好ましい一側面は、情報処理装置で実行される、音声に基づいて発話への応答義務を推定する方法であって、音声を入力するステップと、発話区間を特定するステップと、発話区間における音声から応答義務を推定する応答義務推定値を生成するステップと、発話区間終了後の音声からユーザーの応答期待度を生成するステップと、発話区間の音声から生成した応答義務推定値を、発話区間終了後の音声から生成した応答期待度を利用して更新するステップと、を含むことを特徴とする応答義務推定方法である。

本発明の好ましい他の一側面は、情報処理装置で実行される、音声に基づいて発話への応答義務を推定する方法であって、音声を入力するステップと、音声から発話区間であるかどうかを示す発話区間推定値を逐次的に生成するステップと、音声と前記発話区間推定値から、応答義務を推定する応答義務推定値を逐次的に生成するステップと、を含むことを特徴とする応答義務推定方法である。

本発明の好ましい他の一側面は、音声を入力する音声入力部と、発話区間を入力する発話区間入力部と、発話区間における音声から応答義務を推定する応答義務推定値を生成する応答義務推定部と、発話区間終了後の音声からユーザーの応答期待度を生成する応答期待度推定部とを備え、応答義務推定部は、発話区間の音声から生成した応答義務推定値を、発話区間終了後の音声から生成した応答期待度を利用して更新する、対話システムである。

本発明の好ましい他の一側面は、音声を入力する入力部と、音声から発話区間であるかどうかを示す発話区間推定値を逐次的に生成する発話区間推定部と、音声と前記発話区間推定値から、応答義務を推定する応答義務推定値を逐次的に生成する応答義務推定部と、を含むことを特徴とする対話システムである。

高い精度の応答要否判断が可能な対話システムを提供できる。

実施例１における対話システムのハードウェア構成図である。実施例１における応答要否推定部の処理構成図である。実施例１における応答要否推定部の処理フローチャートである。実施例１における応答要否推定部の説明図である。実施例２における対話システムのハードウェア構成図である。実施例２における応答要否推定部の処理構成図である。実施例２における応答要否推定部の処理フローチャートである。実施例３における応答要否推定部の処理構成図である。実施例３における応答要否推定部の処理フローチャートである。式４を用いた時に応答要否推定部が生成する応答義務推定値の表図である。実施例４における応答要否推定部の処理構成図である。実施例４における応答要否推定部の処理フローチャートである。

以下、本発明の実施例について、図面を用いて詳細に説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。

同一あるいは同様な機能を有する要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、複数の要素を区別する必要がない場合には、添字を省略して説明する場合がある。

本明細書等における「第１」、「第２」、「第３」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。

図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。

以下で説明される実施例の一例をあげるならば、音声と発話区間から発話への応答義務を推定する応答義務推定方法であって、音声を入力するステップと、発話区間を入力するステップと、発話区間における音声を用いて当該発話への応答義務を推定するステップと、発話区間後における音声を用いてユーザーの応答期待度を推定するステップと、推定した応答期待度を用いて応答義務の推定値を更新するステップを有する。

図１は、本発明の第１の実施形態に関わる対話システム１０００のハードウェア構成図である。図１に示すように、対話システム１０００は、例えばサーバ等の情報処理装置で構成されており、ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、音声入力装置１４、音声出力装置１５からなる。これらの構成要素は、全てバス１０等を通して互いに接続されており、互いにデータの入出力を行う。音声入力装置１４は複数台で構成されていてもよい。ＣＰＵ１１は一般に処理装置と称され、ＲＯＭ１２、ＲＡＭ１３は記憶装置を構成し、音声入力装置１４は入力装置の一例である。音声出力装置１５は、スピーカーなどの出力装置である。

ＲＡＭ１３には、ソフトウエアにより応答要否推定部１３１、応答部１３２が実装される。応答要否推定部１３１は、音声入力装置１４からの入力を処理して対話システム１０００が応答をするかどうかを判定する。応答要否推定部１３１について、以降で詳しく説明する。応答部１３２は、応答要否推定部１３１の判定に従って、音声出力装置１５を介して応答を行なう。応答部１３２は、例えば対話シナリオなどを用いて、入力された発話に応じた応答を行なう。応答部１３２の構成には、特許文献１、特許文献２等の公知技術を適用可能である。

図２は、本発明の第１の実施形態に関わる応答要否推定部１３１の計算や制御等の機能を示す構成図である。応答要否推定部１３１は、音声入力部１００１と、発話区間入力部１００２と、応答義務推定部１００３と、応答期待度推定部１００４と、応答要否判定部１００５からなる。

本実施例では計算や制御等の機能は、ＲＯＭ１２、ＲＡＭ１３などの記憶装置に格納されたプログラムがＣＰＵ１１によって実行されることで、定められた処理を他のハードウェアと協働して実現される。ＣＰＵ１１が実行するプログラム、その機能、あるいはその機能を実現する手段を、「機能」、「手段」、「部」、「ユニット」、「モジュール」等と呼ぶ場合がある。

以上の構成は、単体の装置（たとえば単体のサーバ）で構成してもよいし、あるいは、ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３、音声入力装置１４、音声出力装置１５などの構成要素の任意の部分が、ネットワークで接続された他の装置（例えばクラウド）で構成されてもよい。

本実施例中、ソフトウエアで構成した機能と同等の機能は、FPGA（Field Programmable Gate Array）、ASIC（Application Specific Integrated Circuit）などのハードウェアでも実現できる。そのような態様も本願発明の範囲に含まれる。

図３は、本発明の第１の実施形態に関わる応答要否推定部１３１の動作のフローチャートである。図２と図３を参照して、応答要否推定部１３１の動作例を説明する。

音声入力部１００１は、音声入力装置１４から音声入力信号を受信する。音声入力信号は例えば、アナログ値をデジタル値に変換されている。音声入力部１００１から音声入力信号を受け取った応答義務推定部１００３では、処理Ｓ２００１により、発話区間の音声から、その発話に対する応答義務を推定する。推定した応答義務推定値Ｐ１は後段に渡される。

応答義務推定部１００３のＳ２００１における音声からの応答義務推定は、例えば音声から音響特徴量を抽出し、その特徴を用いて行ってもよい。音響特徴量を用いることで、例えば館内放送などのスピーカーから出力された音声とユーザーの発話を区別することができる。特徴量としては、基本周波数や音圧、メル周波数ケプストラム係数（MFCC）などを用いてもよい。また推定器には決定木やサポートベクターマシン、ニューラルネットワークなどを用いてもよい。あるいは、特許文献１あるいは２に開示の技術を応用して応答タイミングを判定しても良い。

Ｓ２００１における音声からの応答義務推定は、例えば音声を音声認識器に入力してテキストに変換し、そのテキストを元に行ってもよい。テキストからの応答義務推定は、例えば「ですか」や「教えてください」などの質問文と分かるような語を含むときに特に推定値を上げるようなルールを自分で設計して行ってもよい。また、入力テキストのBag-of-Words表現の特徴ベクトルから、あらかじめ学習しておいた決定木やサポートベクターマシンなどを用いて推定してもよい。これにより、音響特徴量を用いるだけでは実現できなかった、ユーザーの発話のうちシステムへ向けたものではないものに対しては応答しないような対話システムを実現できる。

応答義務推定部１００３における処理Ｓ２００２は、現在の応答義務推定値を設定する。初めてＳ２００２に到達したときには、Ｓ２００１で推定した応答義務推定値Ｐ１を現在の応答義務推定値Ｐ２に設定する。

応答要否判定部１００５が実行する処理Ｓ２００３では、現在の応答義務推定値Ｐ２と閾値Ｓの比較を行う。応答義務推定値Ｐ２が閾値Ｓを上回った場合には、Ｓ２００４において当該発話に対してシステムは応答しなければいけないと判定し、終了する。判定結果は、応答部１３２に送られる。

Ｓ２００３における閾値Ｓを小さい値に設定すると、応答すべき入力について応答すべきでないと判断してしまうことを減らすことができる。Ｓ２００３における閾値Ｓを大きい値に設定すると、応答すべきでない入力に対して応答してしまうことを防ぐことができる。

Ｓ２００３における閾値Ｓは動的に変化してもよい。例えば発話が入力されてからそれに対する応答を出力するまでの間には、音声認識、発話意図理解、応答文生成、音声合成などの一連の煩雑な処理を行う必要があり、応答を出力可能になるまでにはある程度の処理時間が必要になる。そこで、発話に対する応答が出力可能になるまでは閾値Ｓを応答義務推定値Ｐ２の上限値Ｐ２_ＭＡＸよりも高く設定しておくことで、後述する発話区間後の音声を用いた応答期待度推定値を用いることができるようになる。例えば、発話の入力開始時点から一定時間はＳ＞Ｐ２_ＭＡＸとし、一定時間の後Ｓ＜Ｐ２_ＭＡＸに変化させる。これにより、ユーザーが対話システムに対して入力をしたものの、システムが応答を返す直前にユーザーに対して電話がかかってきてシステムの返答を受け付けられなくなった場合などに、対話システムはユーザーの通話終了を待つことができる。

応答義務推定部１００３での処理Ｓ２００５では、現在の応答義務推定値Ｐ２が閾値Ｓを上回らなかった場合に、そこで推定を終了するかどうかを決定する。推定を終了する場合には、Ｓ２００６において当該発話に対してシステムは応答すべきではないと判定し、終了する。判定結果は、応答部１３２に送られる。

Ｓ２００５では、発話区間終端からの経過時間がある一定時間を超過したら推定を終了することにしてもよい。これにより、ユーザーの発話から長時間が経過した後にその発話への応答を出力することを防ぐことができる。

Ｓ２００５では、ユーザーの次の発話区間が開始したら推定を終了することにしてもよい。これによりユーザーが次の発話を入力したにも関わらず、以前の発話に対する返答を出力するのを防ぐことができる。

Ｓ２００５では、現在の応答義務推定値Ｐ２がある閾値Ｓ_ＭＩＮを下回った場合に、即座に応答義務なしと判定することにしてもよい。これにより素早く次の対話に遷移することができる。またこの閾値Ｓ_ＭＩＮは動的に変更してもよく、例えば閾値Ｓ_ＭＩＮをひとつ前の応答義務推定値Ｐ２と設定すれば、後述するＳ２００７における応答義務推定値の更新により応答義務推定値Ｐ２が減少した場合には即座に応答義務なしを判定することができる。これにより、より素早く次の対話に遷移することができる。

応答期待度推定部１００４における処理Ｓ２００７では、Ｓ２００５において応答義務推定を終了しないと判定した場合に、発話区間後の音声を使ってユーザーの応答期待度を推定する。発話区間は、発話区間推定部（図示せず）により推定され、例えば開始と終了のタイミングが発話区間入力部１００２に入力される。発話区間推定部は、例えば音声入力部１００１から入力される音声の強度（パワー）に基づいて発話区間の推定を行なう。あるいは、システムが画像の取得が可能であれば、例えばユーザーの口の動きを検知して発話区間の推定を行なっても良い。

応答期待度が高い場合には、現在の応答義務推定値を増加させるように応答義務推定値を更新し、応答期待度が低い場合には、現在の応答義務推定値を減少させるように応答義務推定値を推定する。これは例えば、現在の応答義務推定値をp_current（数１）、応答期待度推定値をq（数２）として、次の応答義務推定値p_nextを、（数３）として実現することができる。この手法により、発話区間後のユーザーの動作を総合的に評価することができる。

Ｓ２００７における応答期待度推定は、例えば音声から音響特徴量を抽出し、その特徴を用いて行ってもよい。音響特徴量を用いることで、ユーザーの声がしない場合にはユーザーは待機状態にあり、応答を期待していると推定することができる。

Ｓ２００７における応答期待度推定は、例えば音声を音声認識器に入力してテキストに変換し、そのテキストを元に行ってもよい。テキストを用いることで、例えば音声認識結果が何も出力しない場合や、「どうですか？」などの回答を促す言葉がユーザーから発せられた場合には、ユーザーは応答を期待していると推定することができる。また、ウェイクアップワードと呼ばれる特定の語を発した場合には、応答義務推定値をその上限値に変更し、強制的に応答するような機能を追加してもよい。これにより、従来はウェイクアップワードに続けて音声入力を行う必要があったが、音声入力をした後にウェイクアップワードを発話しても、当該音声入力をシステムへの入力であると認識させることができるようになる。ウェイクアップワードには、たとえば、「おねがい○○○（○○○はシステムの愛称）」のようなものがある。

図４は、音声波形とシステムの応答義務推定動作を説明する図である。応答期待度推定部１００４の処理Ｓ２００７における応答期待度推定は、発話区間終了後繰り返し動作することで、図４のように発話区間終了後繰り返し応答義務推定値を出力することができる。応答期待度推定は、逐次処理可能な推定器を用いて常時行ってもよいし、ある程度の特徴量が溜まった時点でまとめて推定を行ってもよい。

生成した応答のうち最新のものを保持しておくことで、発話区間終了時には応答義務なしと判定された場合であっても、発話区間後の情報を用いて最終的に応答義務ありと判定された場合には、当該発話への応答を出力することができるようになる。

本実施例によれば、例え発話区間終了時にその発話への応答義務がないと判断した場合であっても、発話区間終了後に継続してシステムへの入力を受け付け、ユーザーがシステムの応答を期待していると判断した場合には当該発話への応答を行なうことができる。

図５は、本発明の第２の実施形態に関わる対話システム１０００Ｂのハードウェア構成図である。図１と同様の構成は同一の符号を付して説明を省略するが、画像入力装置１６が追加される。構成要素は、全てバス１０等を通して互いに接続されており、互いにデータの入出力を行う。音声入力装置１４および画像入力装置１６はそれぞれ複数台で構成されていてもよい。また、画像入力装置１６はカメラなどのＲＧＢあるいはモノクロの画像を取得する装置であってもよいし、深度画像を取得するデバイスであってもよい。

図６は、本発明の第２の実施形態に関わる応答要否推定部１３１Ｂの構成図である。図２と同様の構成は同一の符号を付して説明を省略するが、画像入力部１１０１が追加される。

図７は、本発明の第２の実施形態に関わる応答要否推定部１３１Ｂのフローチャートである。図６と図７を参照して、応答要否推定部１３１Ｂの動作例を説明する。なお、図３と同様の機能については同じ符号を付し、その説明は省略する。

図７では、図３のＳ２００１における音声からの応答義務推定に代わり、応答義務推定部１００３では、Ｓ２１０１で音声と画像から応答義務を推定する。また、図７のＳ２００７における音声からの応答期待度推定に代わり、応答期待度推定部１００４では、Ｓ２１０７で音声と画像から応答期待度を推定する。

Ｓ２１０１における画像からの応答義務推定は、例えば人間が対話システムの正面に存在するかどうかを人物検出手法や顔検出手法などを用いて推定し、人間が存在する場合には応答義務推定値を増やすような処理を行ってもよい。また、発話区間中に人間の唇が動いているかなどの情報を用いて応答義務推定を行ってもよい。これらにより、館内放送などのユーザー以外の発話に対しては応答しないような対話システムを実現できる。

Ｓ２１０１における画像からの応答義務推定は、例えば発話区間中に人間が対話システムの方を向いていたかどうかを判定し、対話システムの方を向いていた場合には応答義務推定値を増やすような処理を行ってもよい。これにより、対話システムへの発話のみに応答するようにすることができる。

Ｓ２１０１における音声と画像からの応答義務推定は、音声から抽出した特徴量と画像から抽出した特徴量の双方を入力に取る１つの推定器を学習し、その推定器を用いて推定を行ってもよい。また、音声と画像からそれぞれ推定を行い、それぞれの推定結果の平均値をとるなどして１つの推定結果にまとめてもよい。

Ｓ２１０７における画像からの応答期待度推定は、例えば人間が対話システムの正面に存在するかどうかを人物検出手法や顔検出手法などを用いて推定し、人間が存在する場合には応答期待度推定値を増やすような処理を行ってもよい。これにより、正面に人間がいないにも関わらず、館内放送などに対して対話システムが応答することを避けることができる。

Ｓ２１０７における画像からの応答期待度推定においては、例えば発話区間後に人間の唇が動いていない場合や、人間が対話システムの方を向いている場合に、応答期待度推定値を増加させる処理を行ってもよい。これらにより、ユーザーが応答を待っているような場合に応答義務推定値を増加させることができる。

本発明の第１の実施形態および第２の実施形態では、別の手段で検出した発話区間情報を用いて発話への応答義務の推定を行った。第３の実施形態では、発話区間検出と組み合わせる方法について説明する。本実施例の対話システムのハードウェア構成は図１と同一であるので省略する。

図８は、本発明の第３の実施形態に関わる応答要否推定部１３１Ｃの構成図である。応答要否推定部１３１Ｃは、音声入力部１００１と、発話区間推定部１２０１と、応答義務推定部１００３と、応答要否判定部１００５からなる。

図９は、本発明の第３の実施形態に関わる応答要否推定部１３１Ｃのフローチャートである。図８と図９を参照して、応答要否推定部１３１Ｃの動作例を説明する。なお、図３と同様の機能については同じ符号を付し、その説明は省略する。

発話区間推定部１２０１の処理Ｓ２２０１では、音声入力部１００１から得た音声から、現在が発話区間であるかどうかを推定する。これは例えば音圧がある閾値を超えているかどうかで判定することができる。基本周波数や音圧、メル周波数ケプストラム係数（MFCC）などの音響特徴からロジスティック回帰などの手法を用いて発話区間である確率を推定してもよい。

応答義務推定部１００３の処理Ｓ２２０２では、Ｓ２２０１において推定した発話区間推定値と、Ｓ２２０１において推定に用いた音声から、応答義務を推定する。音響特徴量を用いた応答義務推定を行う場合、発話区間中では人の声がする場合に推定値を増加させる。ユーザーが対話システムに問いかけをおこなっていると推定できるからである。また、発話区間後には人の声がしない場合に推定値を増加させるような作用が働くべきである。ユーザーが対話システムの応答を待っていると推定できるからである。人の声である確率の推定値をa（0≦a≦1）、発話区間推定値をb（0≦b≦1）とすれば、例えば応答義務推定値pは正の定数Aを用いて、

のように計算することができる。

図１０は応答要否推定部が生成する応答義務推定値の表図である。計算により、図１０のように、人物の声である確率と発話区間推定値が共に高い場合あるいは共に低い場合に、応答義務推定値が高くなる。なお、ここでは人の声である確率を用いたが、第１の実施形態と同じように音声認識の結果を用いることもできる。また、発話区間推定値をゲート素子として用いる再帰型ニューラルネットで推定器を構築することもできる。

応答義務推定部１００３の処理Ｓ２２０５では、応答義務推定を終了するかどうかを判定する。判定の手法は、第１の実施形態および第２の実施形態の技術を採用することができるが、第１の実施形態および第２の実施形態におけるＳ２００５と異なり、発話区間中においてもＳ２２０５に到達するため、発話区間の推定値も入力として与える。発話区間推定値が高い場合には推定を打ち切らないようにすることで、発話区間中に推定を終了してしまうことを避けることができる。

処理Ｓ２２０５の例としては、発話区間推定値が所定閾値以下の状態が一定時間の超過の有無、推定終了後次の音声の入力の有無、および、現在の応答義務推定値と第２の閾値との比較結果、の少なくとも一つと、発話区間推定値を用いて、応答義務無しの判定を行なう。第２の閾値は、ひとつ前の応答義務推定値に更新されることにより、動的に変更され、応答義務推定値の更新により応答義務推定値が減少した場合には即座に応答義務なしを判定することができる。

Ｓ２２０５で推定を終了しない場合には、次に観測された音声を用いて再び発話区間推定及び応答義務推定を行う。

処理Ｓ２００３では、応答義務推定値Ｐ１が閾値Ｓを上回ったかどうかで応答義務有りを判定する。閾値Ｐ１は、応答義務推定値の生成開始の後、一定時間後に変更されるようにしてもよい。

実施例１および２では、発話区間の判定は１（Ｙｅｓ）または０（Ｎｏ）の２値であり、発話区間かどうかで応答義務推定部１００３と応答期待度推定部１００４に処理が分かれている。実施例３では、発話区間の判定は２値の他、発話区間の可能性を示す連続値を用いることもできる。また、発話区間かどうかで応答義務推定の処理が異なることはない。

また、本発明の第３の実施形態に関わる応答要否推定部１３１Ｃは、対話システム１０００と同様に音声を入力とする形態を用いて説明したが、対話システム１０００Ｂのようにさらに画像を入力とするような構成としてもよい。音声に加えて画像を用いることで、より精度よく応答義務を推定できることが期待される。

また、実施例３においてもウェイクアップワードを採用することができる。音声にウェイクアップワードが含まれる場合には、処理Ｓ２２０２で応答義務推定値をその上限値に変更し、強制的に応答するような機能を追加してもよい。

本発明の第４の実施形態は、第１、第２、第３の実施形態によって精度良く求めた応答義務の有無を用いて、応答義務推定器および応答期待度推定器の少なくとも一つを更新するものである。本実施例のハードウェア構成は図１と同一であるので省略する。

図１１は、本発明の第４の実施形態に関わる応答要否推定部１３１Ｄの構成図である。構成要素は応答要否推定部１３１と同等であるが、応答要否判定部１００５から応答義務推定部１００３へのフィードバックがある点で応答要否推定部１３１と異なる。

図１２は、本発明の第３の実施形態に関わる応答要否推定部１３１Ｄのフローチャートである。図１１と図１２を参照して、応答要否推定部１３１Ｄの動作例を説明する。なお、図３と同様の機能については同じ符号を付し、その説明は省略する。

応答要否判定部１００５の処理Ｓ２３０１では、Ｓ２００４またはＳ２００６で判定した応答義務の有無を用いて、応答義務推定部１００３と応答期待度推定部１００４のパラメータを更新する。パラメータ更新のためには、新たな推定器を学習してもよいし、既存の推定器を追加で学習するようなアルゴリズムを用いてもよい。これにより新たなデータを学習に加えることができるので、推定器の精度がより向上することが期待される。

例えば「コーヒーが飲みたい」という発話に対して、Ｓ２００１において音声認識結果を用いた応答義務推定を行い、その結果が低かったとする。しかし発話後に人が対話システムの方を見続けるなど、応答期待度の高い動作を行い、最終的に応答義務ありと判定されたとする。この結果を利用して応答義務推定部１００３のパラメータを更新すれば、「コーヒーが飲みたい」という発話に対しては応答義務があることを学習できる。これにより、今後「コーヒーが飲みたい」という発話が入力された場合には、ユーザーの応答期待度を判定せずに即座に応答することもできるようになると期待される。

Ｓ２３０１でパラメータを更新するのは、応答義務推定部１００３と応答期待度推定部１００４のいずれかのみであってもよい。これにより、新規に追加されるデータに対してシステムが過度に適応してしまうのを防げることが期待される。

以上詳細に説明した各実施例によれば、発話区間の情報を用いて推定した応答義務の有無を、発話終了後のユーザーの振る舞いによって変更することが可能となり精度のよい応答の判断が可能となる。

１０００、１０００Ｂ対話システム
１０バス
１１ＣＰＵ
１２ＲＯＭ
１３ＲＡＭ
１４音声入力装置
１５音声出力装置
１６画像入力装置
１３１，１３１Ｂ，１３１Ｃ，１３１Ｄ応答要否推定部
１００１音声入力部
１００２発話区間入力部
１００３応答義務推定部
１００４応答期待度推定部
１００５応答要否判定部
１１０１画像入力部
１２０１発話区間推定部

Claims

情報処理装置で実行される、音声に基づいて発話への応答義務を推定する方法であって、
音声を入力する第１のステップと、
発話区間を特定する第２のステップと、
発話区間における音声から応答義務を推定する応答義務推定値を生成する第３のステップと、
発話区間終了後の音声からユーザーの応答期待度を生成する第４のステップと、
発話区間の音声から生成した応答義務推定値を、発話区間終了後の音声から生成した応答期待度を利用して更新する第５のステップと、
を含むことを特徴とする応答義務推定方法。
さらに、画像を入力する第６のステップを含み、
前記第３のステップは、発話区間における音声と画像から前記応答義務推定値を生成し、
前記第４のステップは、発話区間終了後の音声と画像から前記応答期待度を生成し、
前記第５のステップは、発話区間の音声と画像から生成した応答義務推定値を発話区間終了後の音声と画像から生成した応答期待度を利用して更新する、
請求項１記載の応答義務推定方法。
前記更新された応答義務推定値を第１の閾値と比較して、応答義務有りの判定を行なう第７のステップを含む、
請求項１記載の応答義務推定方法。
前記第１の閾値は、前記発話区間の開始の後、一定時間後に変更される、
請求項３記載の応答義務推定方法。
前記第７のステップで、応答義務有りと判定されなかった場合、
前記発話区間の終了からの経過時間の一定時間の超過の有無、次の発話区間の開始の有無、および、現在の前記応答義務推定値と第２の閾値との比較結果、の少なくとも一つを用いて、応答義務無しの判定を行なう第８のステップを含む、
請求項３記載の応答義務推定方法。
前記第２の閾値は、ひとつ前の前記応答義務推定値に更新されることにより、動的に変更される、
請求項５記載の応答義務推定方法。
応答義務の有無の判定結果を用いて、前記第３のステップの応答義務推定値を生成するパラメータおよび前記第４のステップの応答期待度を生成するパラメータの少なくとも一つを変更する第９のステップを含む、
請求項１記載の応答義務推定方法。
情報処理装置で実行される、音声に基づいて発話への応答義務を推定する方法であって、
音声を入力する第１０のステップと、
音声から発話区間であるかどうかを示す発話区間推定値を逐次的に生成する第１１のステップと、
音声と前記発話区間推定値から、応答義務を推定する応答義務推定値を逐次的に生成する第１２のステップと、
を含むことを特徴とする応答義務推定方法。
前記第１２のステップは、前記発話区間推定値が比較的大きい場合には人の声が比較的する場合に、前記発話区間推定値が比較的小さい場合には人の声が比較的しない場合に前記応答義務推定値を増加させる、
請求項８記載の応答義務推定方法。
さらに、画像を入力する第１３のステップを含み、
前記第１１のステップは、音声と画像から前記発話区間推定値を逐次的に生成し、
前記第１２のステップは、音声と画像と前記発話区間推定値から前記応答義務推定値を逐次的に生成する、
請求項８記載の応答義務推定方法。
逐次的に生成された前記応答義務推定値を第１の閾値と比較して、応答義務有りの判定を行なう第１４のステップを含む、
請求項８記載の応答義務推定方法。
前記第１の閾値は、前記応答義務推定値の生成開始の後、一定時間後に変更される、
請求項１１記載の応答義務推定方法。
前記第１４のステップで、応答義務有りと判定されなかった場合、
前記発話区間推定値が所定以下の状態が一定時間の超過の有無、推定終了後次の音声の入力の有無、および、現在の応答義務推定値と第２の閾値との比較結果、の少なくとも一つと、前記発話区間推定値を用いて、応答義務無しの判定を行なう第１５のステップを含む、
請求項１１記載の応答義務推定方法。
前記第２の閾値は、ひとつ前の前記応答義務推定値に更新されることにより、動的に変更される、
請求項１３記載の応答義務推定方法。
応答義務の有無の判定結果を用いて、前記第１２のステップの応答義務推定値を生成するパラメータを変更する第１６のステップを含む、
請求項８記載の応答義務推定方法。
音声を入力する音声入力部と、
発話区間を入力する発話区間入力部と、
発話区間における音声から応答義務を推定する応答義務推定値を生成する応答義務推定部と、
発話区間終了後の音声からユーザーの応答期待度を生成する応答期待度推定部とを備え、
前記応答義務推定部は、
発話区間の音声から生成した応答義務推定値を、発話区間終了後の音声から生成した応答期待度を利用して更新する、
対話システム。
前記応答義務推定部は、
発話区間終了後の音声に特定の語が含まれるとき、前記応答義務推定値を応答義務有にする機能を有する、
請求項１６記載の対話システム。
音声を入力する入力部と、
音声から発話区間であるかどうかを示す発話区間推定値を逐次的に生成する発話区間推定部と、
音声と前記発話区間推定値から、応答義務を推定する応答義務推定値を逐次的に生成する応答義務推定部と、
を含むことを特徴とする対話システム。
前記応答義務推定部は、
発話区間終了後の音声に特定の語が含まれるとき、前記応答義務推定値を応答義務有にする機能を有する、
請求項１８記載の対話システム。