JP2020122821A - 応答義務推定方法および対話システム - Google Patents

応答義務推定方法および対話システム Download PDF

Info

Publication number
JP2020122821A
JP2020122821A JP2019012983A JP2019012983A JP2020122821A JP 2020122821 A JP2020122821 A JP 2020122821A JP 2019012983 A JP2019012983 A JP 2019012983A JP 2019012983 A JP2019012983 A JP 2019012983A JP 2020122821 A JP2020122821 A JP 2020122821A
Authority
JP
Japan
Prior art keywords
response
voice
duty
utterance
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019012983A
Other languages
English (en)
Inventor
翔太 堀口
Shota Horiguchi
翔太 堀口
直之 神田
Naoyuki Kanda
直之 神田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019012983A priority Critical patent/JP2020122821A/ja
Publication of JP2020122821A publication Critical patent/JP2020122821A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】より高い精度の応答要否判断が可能な対話システムを提供する。【解決手段】本発明の好ましい一側面は、情報処理装置で実行される、音声に基づいて発話への応答義務を推定する方法であって、音声を入力するステップと、発話区間を特定するステップと、発話区間における音声から応答義務を推定する応答義務推定値を生成するステップと、発話区間終了後の音声からユーザーの応答期待度を生成するステップと、発話区間の音声から生成した応答義務推定値を、発話区間終了後の音声から生成した応答期待度を利用して更新するステップと、を含むことを特徴とする応答義務推定方法である。【選択図】 図3

Description

本発明は、自動応答する対話システムにおいて、応答義務を推定する技術に関する。
ロボットやスマートスピーカーをはじめとする対話システムは、入力音声に対して適切な応答を出力するシステムである。しかし入力された音声の中には人間同士の会話や館内放送などシステムに向けられたものではないものも存在する。これらに対しては応答しないような対話システムを実現するために、検出した音声がシステムへ向けられたのか否かを推定する応答義務推定が重要である。
特許文献1には、応答タイミングと意味処理タイミングを別個に推定し、応答タイミングかつ意味処理タイミングであると判断された場合に限って入力発話への応答を行う手法が開示されている。
特許文献2には、人間の発話とその直前のシステムの発話との時間関係、あるいはシステムに対する人間の発話の割り込みのタイミングを利用して対話システムへの発話を判別する手法が開示されている。
特開2005-196134号公報 特開2014-077969号公報
特許文献1では、発話区間終了時にそこまでに得られた情報で当該発話に対して応答するか否かを判断する。しかし、例えば人間同士が会話しており、その後ロボットの方を振り向いて返答を求めるような仕草をした場合や、よそ見をしながら発話を行い、その後ロボットを見た場合など、応答タイミングが意味処理タイミングよりも後にくる時には応答ができないという課題がある。また実際にはシステムが応答すべき入力と応答すべきでない入力が存在するにもかかわらず、特許文献1においては入力にはいつか必ず応答するということが仮定されてしまっている。
特許文献2では、発話区間終了時までのデータを用いて当該発話に対して応答すべきかどうかを判定している。一度応答すべきでないという判断を下したあとに、発話区間後の情報を用いてそれを修正するような機構は設けられていない。
そこで、より高い精度の応答要否判断が可能な対話システムを提供することが課題となる。
本発明の好ましい一側面は、情報処理装置で実行される、音声に基づいて発話への応答義務を推定する方法であって、音声を入力するステップと、発話区間を特定するステップと、発話区間における音声から応答義務を推定する応答義務推定値を生成するステップと、発話区間終了後の音声からユーザーの応答期待度を生成するステップと、発話区間の音声から生成した応答義務推定値を、発話区間終了後の音声から生成した応答期待度を利用して更新するステップと、を含むことを特徴とする応答義務推定方法である。
本発明の好ましい他の一側面は、情報処理装置で実行される、音声に基づいて発話への応答義務を推定する方法であって、音声を入力するステップと、音声から発話区間であるかどうかを示す発話区間推定値を逐次的に生成するステップと、音声と前記発話区間推定値から、応答義務を推定する応答義務推定値を逐次的に生成するステップと、を含むことを特徴とする応答義務推定方法である。
本発明の好ましい他の一側面は、音声を入力する音声入力部と、発話区間を入力する発話区間入力部と、発話区間における音声から応答義務を推定する応答義務推定値を生成する応答義務推定部と、発話区間終了後の音声からユーザーの応答期待度を生成する応答期待度推定部とを備え、応答義務推定部は、発話区間の音声から生成した応答義務推定値を、発話区間終了後の音声から生成した応答期待度を利用して更新する、対話システムである。
本発明の好ましい他の一側面は、音声を入力する入力部と、音声から発話区間であるかどうかを示す発話区間推定値を逐次的に生成する発話区間推定部と、音声と前記発話区間推定値から、応答義務を推定する応答義務推定値を逐次的に生成する応答義務推定部と、を含むことを特徴とする対話システムである。
高い精度の応答要否判断が可能な対話システムを提供できる。
実施例1における対話システムのハードウェア構成図である。 実施例1における応答要否推定部の処理構成図である。 実施例1における応答要否推定部の処理フローチャートである。 実施例1における応答要否推定部の説明図である。 実施例2における対話システムのハードウェア構成図である。 実施例2における応答要否推定部の処理構成図である。 実施例2における応答要否推定部の処理フローチャートである。 実施例3における応答要否推定部の処理構成図である。 実施例3における応答要否推定部の処理フローチャートである。 式4を用いた時に応答要否推定部が生成する応答義務推定値の表図である。 実施例4における応答要否推定部の処理構成図である。 実施例4における応答要否推定部の処理フローチャートである。
以下、本発明の実施例について、図面を用いて詳細に説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。
同一あるいは同様な機能を有する要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、複数の要素を区別する必要がない場合には、添字を省略して説明する場合がある。
本明細書等における「第1」、「第2」、「第3」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。
図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。
以下で説明される実施例の一例をあげるならば、音声と発話区間から発話への応答義務を推定する応答義務推定方法であって、音声を入力するステップと、発話区間を入力するステップと、発話区間における音声を用いて当該発話への応答義務を推定するステップと、発話区間後における音声を用いてユーザーの応答期待度を推定するステップと、推定した応答期待度を用いて応答義務の推定値を更新するステップを有する。
図1は、本発明の第1の実施形態に関わる対話システム1000のハードウェア構成図である。図1に示すように、対話システム1000は、例えばサーバ等の情報処理装置で構成されており、CPU11、ROM12、RAM13、音声入力装置14、音声出力装置15からなる。これらの構成要素は、全てバス10等を通して互いに接続されており、互いにデータの入出力を行う。音声入力装置14は複数台で構成されていてもよい。CPU11は一般に処理装置と称され、ROM12、RAM13は記憶装置を構成し、音声入力装置14は入力装置の一例である。音声出力装置15は、スピーカーなどの出力装置である。
RAM13には、ソフトウエアにより応答要否推定部131、応答部132が実装される。応答要否推定部131は、音声入力装置14からの入力を処理して対話システム1000が応答をするかどうかを判定する。応答要否推定部131について、以降で詳しく説明する。応答部132は、応答要否推定部131の判定に従って、音声出力装置15を介して応答を行なう。応答部132は、例えば対話シナリオなどを用いて、入力された発話に応じた応答を行なう。応答部132の構成には、特許文献1、特許文献2等の公知技術を適用可能である。
図2は、本発明の第1の実施形態に関わる応答要否推定部131の計算や制御等の機能を示す構成図である。応答要否推定部131は、音声入力部1001と、発話区間入力部1002と、応答義務推定部1003と、応答期待度推定部1004と、応答要否判定部1005からなる。
本実施例では計算や制御等の機能は、ROM12、RAM13などの記憶装置に格納されたプログラムがCPU11によって実行されることで、定められた処理を他のハードウェアと協働して実現される。CPU11が実行するプログラム、その機能、あるいはその機能を実現する手段を、「機能」、「手段」、「部」、「ユニット」、「モジュール」等と呼ぶ場合がある。
以上の構成は、単体の装置(たとえば単体のサーバ)で構成してもよいし、あるいは、CPU11、ROM12、RAM13、音声入力装置14、音声出力装置15などの構成要素の任意の部分が、ネットワークで接続された他の装置(例えばクラウド)で構成されてもよい。
本実施例中、ソフトウエアで構成した機能と同等の機能は、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)などのハードウェアでも実現できる。そのような態様も本願発明の範囲に含まれる。
図3は、本発明の第1の実施形態に関わる応答要否推定部131の動作のフローチャートである。図2と図3を参照して、応答要否推定部131の動作例を説明する。
音声入力部1001は、音声入力装置14から音声入力信号を受信する。音声入力信号は例えば、アナログ値をデジタル値に変換されている。音声入力部1001から音声入力信号を受け取った応答義務推定部1003では、処理S2001により、発話区間の音声から、その発話に対する応答義務を推定する。推定した応答義務推定値P1は後段に渡される。
応答義務推定部1003のS2001における音声からの応答義務推定は、例えば音声から音響特徴量を抽出し、その特徴を用いて行ってもよい。音響特徴量を用いることで、例えば館内放送などのスピーカーから出力された音声とユーザーの発話を区別することができる。特徴量としては、基本周波数や音圧、メル周波数ケプストラム係数(MFCC)などを用いてもよい。また推定器には決定木やサポートベクターマシン、ニューラルネットワークなどを用いてもよい。あるいは、特許文献1あるいは2に開示の技術を応用して応答タイミングを判定しても良い。
S2001における音声からの応答義務推定は、例えば音声を音声認識器に入力してテキストに変換し、そのテキストを元に行ってもよい。テキストからの応答義務推定は、例えば「ですか」や「教えてください」などの質問文と分かるような語を含むときに特に推定値を上げるようなルールを自分で設計して行ってもよい。また、入力テキストのBag-of-Words表現の特徴ベクトルから、あらかじめ学習しておいた決定木やサポートベクターマシンなどを用いて推定してもよい。これにより、音響特徴量を用いるだけでは実現できなかった、ユーザーの発話のうちシステムへ向けたものではないものに対しては応答しないような対話システムを実現できる。
応答義務推定部1003における処理S2002は、現在の応答義務推定値を設定する。初めてS2002に到達したときには、S2001で推定した応答義務推定値P1を現在の応答義務推定値P2に設定する。
応答要否判定部1005が実行する処理S2003では、現在の応答義務推定値P2と閾値Sの比較を行う。応答義務推定値P2が閾値Sを上回った場合には、S2004において当該発話に対してシステムは応答しなければいけないと判定し、終了する。判定結果は、応答部132に送られる。
S2003における閾値Sを小さい値に設定すると、応答すべき入力について応答すべきでないと判断してしまうことを減らすことができる。S2003における閾値Sを大きい値に設定すると、応答すべきでない入力に対して応答してしまうことを防ぐことができる。
S2003における閾値Sは動的に変化してもよい。例えば発話が入力されてからそれに対する応答を出力するまでの間には、音声認識、発話意図理解、応答文生成、音声合成などの一連の煩雑な処理を行う必要があり、応答を出力可能になるまでにはある程度の処理時間が必要になる。そこで、発話に対する応答が出力可能になるまでは閾値Sを応答義務推定値P2の上限値P2MAXよりも高く設定しておくことで、後述する発話区間後の音声を用いた応答期待度推定値を用いることができるようになる。例えば、発話の入力開始時点から一定時間はS>P2MAXとし、一定時間の後S<P2MAXに変化させる。これにより、ユーザーが対話システムに対して入力をしたものの、システムが応答を返す直前にユーザーに対して電話がかかってきてシステムの返答を受け付けられなくなった場合などに、対話システムはユーザーの通話終了を待つことができる。
応答義務推定部1003での処理S2005では、現在の応答義務推定値P2が閾値Sを上回らなかった場合に、そこで推定を終了するかどうかを決定する。推定を終了する場合には、S2006において当該発話に対してシステムは応答すべきではないと判定し、終了する。判定結果は、応答部132に送られる。
S2005では、発話区間終端からの経過時間がある一定時間を超過したら推定を終了することにしてもよい。これにより、ユーザーの発話から長時間が経過した後にその発話への応答を出力することを防ぐことができる。
S2005では、ユーザーの次の発話区間が開始したら推定を終了することにしてもよい。これによりユーザーが次の発話を入力したにも関わらず、以前の発話に対する返答を出力するのを防ぐことができる。
S2005では、現在の応答義務推定値P2がある閾値SMINを下回った場合に、即座に応答義務なしと判定することにしてもよい。これにより素早く次の対話に遷移することができる。またこの閾値SMINは動的に変更してもよく、例えば閾値SMINをひとつ前の応答義務推定値P2と設定すれば、後述するS2007における応答義務推定値の更新により応答義務推定値P2が減少した場合には即座に応答義務なしを判定することができる。これにより、より素早く次の対話に遷移することができる。
応答期待度推定部1004における処理S2007では、S2005において応答義務推定を終了しないと判定した場合に、発話区間後の音声を使ってユーザーの応答期待度を推定する。発話区間は、発話区間推定部(図示せず)により推定され、例えば開始と終了のタイミングが発話区間入力部1002に入力される。発話区間推定部は、例えば音声入力部1001から入力される音声の強度(パワー)に基づいて発話区間の推定を行なう。あるいは、システムが画像の取得が可能であれば、例えばユーザーの口の動きを検知して発話区間の推定を行なっても良い。
応答期待度が高い場合には、現在の応答義務推定値を増加させるように応答義務推定値を更新し、応答期待度が低い場合には、現在の応答義務推定値を減少させるように応答義務推定値を推定する。これは例えば、現在の応答義務推定値をp_current(数1)、応答期待度推定値をq(数2)として、次の応答義務推定値p_nextを、(数3)として実現することができる。この手法により、発話区間後のユーザーの動作を総合的に評価することができる。
Figure 2020122821
Figure 2020122821
Figure 2020122821
S2007における応答期待度推定は、例えば音声から音響特徴量を抽出し、その特徴を用いて行ってもよい。音響特徴量を用いることで、ユーザーの声がしない場合にはユーザーは待機状態にあり、応答を期待していると推定することができる。
S2007における応答期待度推定は、例えば音声を音声認識器に入力してテキストに変換し、そのテキストを元に行ってもよい。テキストを用いることで、例えば音声認識結果が何も出力しない場合や、「どうですか?」などの回答を促す言葉がユーザーから発せられた場合には、ユーザーは応答を期待していると推定することができる。また、ウェイクアップワードと呼ばれる特定の語を発した場合には、応答義務推定値をその上限値に変更し、強制的に応答するような機能を追加してもよい。これにより、従来はウェイクアップワードに続けて音声入力を行う必要があったが、音声入力をした後にウェイクアップワードを発話しても、当該音声入力をシステムへの入力であると認識させることができるようになる。ウェイクアップワードには、たとえば、「おねがい○○○(○○○はシステムの愛称)」のようなものがある。
図4は、音声波形とシステムの応答義務推定動作を説明する図である。応答期待度推定部1004の処理S2007における応答期待度推定は、発話区間終了後繰り返し動作することで、図4のように発話区間終了後繰り返し応答義務推定値を出力することができる。応答期待度推定は、逐次処理可能な推定器を用いて常時行ってもよいし、ある程度の特徴量が溜まった時点でまとめて推定を行ってもよい。
生成した応答のうち最新のものを保持しておくことで、発話区間終了時には応答義務なしと判定された場合であっても、発話区間後の情報を用いて最終的に応答義務ありと判定された場合には、当該発話への応答を出力することができるようになる。
本実施例によれば、例え発話区間終了時にその発話への応答義務がないと判断した場合であっても、発話区間終了後に継続してシステムへの入力を受け付け、ユーザーがシステムの応答を期待していると判断した場合には当該発話への応答を行なうことができる。
図5は、本発明の第2の実施形態に関わる対話システム1000Bのハードウェア構成図である。図1と同様の構成は同一の符号を付して説明を省略するが、画像入力装置16が追加される。構成要素は、全てバス10等を通して互いに接続されており、互いにデータの入出力を行う。音声入力装置14および画像入力装置16はそれぞれ複数台で構成されていてもよい。また、画像入力装置16はカメラなどのRGBあるいはモノクロの画像を取得する装置であってもよいし、深度画像を取得するデバイスであってもよい。
図6は、本発明の第2の実施形態に関わる応答要否推定部131Bの構成図である。図2と同様の構成は同一の符号を付して説明を省略するが、画像入力部1101が追加される。
図7は、本発明の第2の実施形態に関わる応答要否推定部131Bのフローチャートである。図6と図7を参照して、応答要否推定部131Bの動作例を説明する。なお、図3と同様の機能については同じ符号を付し、その説明は省略する。
図7では、図3のS2001における音声からの応答義務推定に代わり、応答義務推定部1003では、S2101で音声と画像から応答義務を推定する。また、図7のS2007における音声からの応答期待度推定に代わり、応答期待度推定部1004では、S2107で音声と画像から応答期待度を推定する。
S2101における画像からの応答義務推定は、例えば人間が対話システムの正面に存在するかどうかを人物検出手法や顔検出手法などを用いて推定し、人間が存在する場合には応答義務推定値を増やすような処理を行ってもよい。また、発話区間中に人間の唇が動いているかなどの情報を用いて応答義務推定を行ってもよい。これらにより、館内放送などのユーザー以外の発話に対しては応答しないような対話システムを実現できる。
S2101における画像からの応答義務推定は、例えば発話区間中に人間が対話システムの方を向いていたかどうかを判定し、対話システムの方を向いていた場合には応答義務推定値を増やすような処理を行ってもよい。これにより、対話システムへの発話のみに応答するようにすることができる。
S2101における音声と画像からの応答義務推定は、音声から抽出した特徴量と画像から抽出した特徴量の双方を入力に取る1つの推定器を学習し、その推定器を用いて推定を行ってもよい。また、音声と画像からそれぞれ推定を行い、それぞれの推定結果の平均値をとるなどして1つの推定結果にまとめてもよい。
S2107における画像からの応答期待度推定は、例えば人間が対話システムの正面に存在するかどうかを人物検出手法や顔検出手法などを用いて推定し、人間が存在する場合には応答期待度推定値を増やすような処理を行ってもよい。これにより、正面に人間がいないにも関わらず、館内放送などに対して対話システムが応答することを避けることができる。
S2107における画像からの応答期待度推定においては、例えば発話区間後に人間の唇が動いていない場合や、人間が対話システムの方を向いている場合に、応答期待度推定値を増加させる処理を行ってもよい。これらにより、ユーザーが応答を待っているような場合に応答義務推定値を増加させることができる。
本発明の第1の実施形態および第2の実施形態では、別の手段で検出した発話区間情報を用いて発話への応答義務の推定を行った。第3の実施形態では、発話区間検出と組み合わせる方法について説明する。本実施例の対話システムのハードウェア構成は図1と同一であるので省略する。
図8は、本発明の第3の実施形態に関わる応答要否推定部131Cの構成図である。応答要否推定部131Cは、音声入力部1001と、発話区間推定部1201と、応答義務推定部1003と、応答要否判定部1005からなる。
図9は、本発明の第3の実施形態に関わる応答要否推定部131Cのフローチャートである。図8と図9を参照して、応答要否推定部131Cの動作例を説明する。なお、図3と同様の機能については同じ符号を付し、その説明は省略する。
発話区間推定部1201の処理S2201では、音声入力部1001から得た音声から、現在が発話区間であるかどうかを推定する。これは例えば音圧がある閾値を超えているかどうかで判定することができる。基本周波数や音圧、メル周波数ケプストラム係数(MFCC)などの音響特徴からロジスティック回帰などの手法を用いて発話区間である確率を推定してもよい。
応答義務推定部1003の処理S2202では、S2201において推定した発話区間推定値と、S2201において推定に用いた音声から、応答義務を推定する。音響特徴量を用いた応答義務推定を行う場合、発話区間中では人の声がする場合に推定値を増加させる。ユーザーが対話システムに問いかけをおこなっていると推定できるからである。また、発話区間後には人の声がしない場合に推定値を増加させるような作用が働くべきである。ユーザーが対話システムの応答を待っていると推定できるからである。人の声である確率の推定値をa(0≦a≦1)、発話区間推定値をb(0≦b≦1)とすれば、例えば応答義務推定値pは正の定数Aを用いて、
Figure 2020122821
のように計算することができる。
図10は応答要否推定部が生成する応答義務推定値の表図である。計算により、図10のように、人物の声である確率と発話区間推定値が共に高い場合あるいは共に低い場合に、応答義務推定値が高くなる。なお、ここでは人の声である確率を用いたが、第1の実施形態と同じように音声認識の結果を用いることもできる。また、発話区間推定値をゲート素子として用いる再帰型ニューラルネットで推定器を構築することもできる。
応答義務推定部1003の処理S2205では、応答義務推定を終了するかどうかを判定する。判定の手法は、第1の実施形態および第2の実施形態の技術を採用することができるが、第1の実施形態および第2の実施形態におけるS2005と異なり、発話区間中においてもS2205に到達するため、発話区間の推定値も入力として与える。発話区間推定値が高い場合には推定を打ち切らないようにすることで、発話区間中に推定を終了してしまうことを避けることができる。
処理S2205の例としては、発話区間推定値が所定閾値以下の状態が一定時間の超過の有無、推定終了後次の音声の入力の有無、および、現在の応答義務推定値と第2の閾値との比較結果、の少なくとも一つと、発話区間推定値を用いて、応答義務無しの判定を行なう。第2の閾値は、ひとつ前の応答義務推定値に更新されることにより、動的に変更され、応答義務推定値の更新により応答義務推定値が減少した場合には即座に応答義務なしを判定することができる。
S2205で推定を終了しない場合には、次に観測された音声を用いて再び発話区間推定及び応答義務推定を行う。
処理S2003では、応答義務推定値P1が閾値Sを上回ったかどうかで応答義務有りを判定する。閾値P1は、応答義務推定値の生成開始の後、一定時間後に変更されるようにしてもよい。
実施例1および2では、発話区間の判定は1(Yes)または0(No)の2値であり、発話区間かどうかで応答義務推定部1003と応答期待度推定部1004に処理が分かれている。実施例3では、発話区間の判定は2値の他、発話区間の可能性を示す連続値を用いることもできる。また、発話区間かどうかで応答義務推定の処理が異なることはない。
また、本発明の第3の実施形態に関わる応答要否推定部131Cは、対話システム1000と同様に音声を入力とする形態を用いて説明したが、対話システム1000Bのようにさらに画像を入力とするような構成としてもよい。音声に加えて画像を用いることで、より精度よく応答義務を推定できることが期待される。
また、実施例3においてもウェイクアップワードを採用することができる。音声にウェイクアップワードが含まれる場合には、処理S2202で応答義務推定値をその上限値に変更し、強制的に応答するような機能を追加してもよい。
本発明の第4の実施形態は、第1、第2、第3の実施形態によって精度良く求めた応答義務の有無を用いて、応答義務推定器および応答期待度推定器の少なくとも一つを更新するものである。本実施例のハードウェア構成は図1と同一であるので省略する。
図11は、本発明の第4の実施形態に関わる応答要否推定部131Dの構成図である。構成要素は応答要否推定部131と同等であるが、応答要否判定部1005から応答義務推定部1003へのフィードバックがある点で応答要否推定部131と異なる。
図12は、本発明の第3の実施形態に関わる応答要否推定部131Dのフローチャートである。図11と図12を参照して、応答要否推定部131Dの動作例を説明する。なお、図3と同様の機能については同じ符号を付し、その説明は省略する。
応答要否判定部1005の処理S2301では、S2004またはS2006で判定した応答義務の有無を用いて、応答義務推定部1003と応答期待度推定部1004のパラメータを更新する。パラメータ更新のためには、新たな推定器を学習してもよいし、既存の推定器を追加で学習するようなアルゴリズムを用いてもよい。これにより新たなデータを学習に加えることができるので、推定器の精度がより向上することが期待される。
例えば「コーヒーが飲みたい」という発話に対して、S2001において音声認識結果を用いた応答義務推定を行い、その結果が低かったとする。しかし発話後に人が対話システムの方を見続けるなど、応答期待度の高い動作を行い、最終的に応答義務ありと判定されたとする。この結果を利用して応答義務推定部1003のパラメータを更新すれば、「コーヒーが飲みたい」という発話に対しては応答義務があることを学習できる。これにより、今後「コーヒーが飲みたい」という発話が入力された場合には、ユーザーの応答期待度を判定せずに即座に応答することもできるようになると期待される。
S2301でパラメータを更新するのは、応答義務推定部1003と応答期待度推定部1004のいずれかのみであってもよい。これにより、新規に追加されるデータに対してシステムが過度に適応してしまうのを防げることが期待される。
以上詳細に説明した各実施例によれば、発話区間の情報を用いて推定した応答義務の有無を、発話終了後のユーザーの振る舞いによって変更することが可能となり精度のよい応答の判断が可能となる。
1000、1000B 対話システム
10 バス
11 CPU
12 ROM
13 RAM
14 音声入力装置
15 音声出力装置
16 画像入力装置
131,131B,131C,131D 応答要否推定部
1001 音声入力部
1002 発話区間入力部
1003 応答義務推定部
1004 応答期待度推定部
1005 応答要否判定部
1101 画像入力部
1201 発話区間推定部

Claims (19)

  1. 情報処理装置で実行される、音声に基づいて発話への応答義務を推定する方法であって、
    音声を入力する第1のステップと、
    発話区間を特定する第2のステップと、
    発話区間における音声から応答義務を推定する応答義務推定値を生成する第3のステップと、
    発話区間終了後の音声からユーザーの応答期待度を生成する第4のステップと、
    発話区間の音声から生成した応答義務推定値を、発話区間終了後の音声から生成した応答期待度を利用して更新する第5のステップと、
    を含むことを特徴とする応答義務推定方法。
  2. さらに、画像を入力する第6のステップを含み、
    前記第3のステップは、発話区間における音声と画像から前記応答義務推定値を生成し、
    前記第4のステップは、発話区間終了後の音声と画像から前記応答期待度を生成し、
    前記第5のステップは、発話区間の音声と画像から生成した応答義務推定値を発話区間終了後の音声と画像から生成した応答期待度を利用して更新する、
    請求項1記載の応答義務推定方法。
  3. 前記更新された応答義務推定値を第1の閾値と比較して、応答義務有りの判定を行なう第7のステップを含む、
    請求項1記載の応答義務推定方法。
  4. 前記第1の閾値は、前記発話区間の開始の後、一定時間後に変更される、
    請求項3記載の応答義務推定方法。
  5. 前記第7のステップで、応答義務有りと判定されなかった場合、
    前記発話区間の終了からの経過時間の一定時間の超過の有無、次の発話区間の開始の有無、および、現在の前記応答義務推定値と第2の閾値との比較結果、の少なくとも一つを用いて、応答義務無しの判定を行なう第8のステップを含む、
    請求項3記載の応答義務推定方法。
  6. 前記第2の閾値は、ひとつ前の前記応答義務推定値に更新されることにより、動的に変更される、
    請求項5記載の応答義務推定方法。
  7. 応答義務の有無の判定結果を用いて、前記第3のステップの応答義務推定値を生成するパラメータおよび前記第4のステップの応答期待度を生成するパラメータの少なくとも一つを変更する第9のステップを含む、
    請求項1記載の応答義務推定方法。
  8. 情報処理装置で実行される、音声に基づいて発話への応答義務を推定する方法であって、
    音声を入力する第10のステップと、
    音声から発話区間であるかどうかを示す発話区間推定値を逐次的に生成する第11のステップと、
    音声と前記発話区間推定値から、応答義務を推定する応答義務推定値を逐次的に生成する第12のステップと、
    を含むことを特徴とする応答義務推定方法。
  9. 前記第12のステップは、前記発話区間推定値が比較的大きい場合には人の声が比較的する場合に、前記発話区間推定値が比較的小さい場合には人の声が比較的しない場合に前記応答義務推定値を増加させる、
    請求項8記載の応答義務推定方法。
  10. さらに、画像を入力する第13のステップを含み、
    前記第11のステップは、音声と画像から前記発話区間推定値を逐次的に生成し、
    前記第12のステップは、音声と画像と前記発話区間推定値から前記応答義務推定値を逐次的に生成する、
    請求項8記載の応答義務推定方法。
  11. 逐次的に生成された前記応答義務推定値を第1の閾値と比較して、応答義務有りの判定を行なう第14のステップを含む、
    請求項8記載の応答義務推定方法。
  12. 前記第1の閾値は、前記応答義務推定値の生成開始の後、一定時間後に変更される、
    請求項11記載の応答義務推定方法。
  13. 前記第14のステップで、応答義務有りと判定されなかった場合、
    前記発話区間推定値が所定以下の状態が一定時間の超過の有無、推定終了後次の音声の入力の有無、および、現在の応答義務推定値と第2の閾値との比較結果、の少なくとも一つと、前記発話区間推定値を用いて、応答義務無しの判定を行なう第15のステップを含む、
    請求項11記載の応答義務推定方法。
  14. 前記第2の閾値は、ひとつ前の前記応答義務推定値に更新されることにより、動的に変更される、
    請求項13記載の応答義務推定方法。
  15. 応答義務の有無の判定結果を用いて、前記第12のステップの応答義務推定値を生成するパラメータを変更する第16のステップを含む、
    請求項8記載の応答義務推定方法。
  16. 音声を入力する音声入力部と、
    発話区間を入力する発話区間入力部と、
    発話区間における音声から応答義務を推定する応答義務推定値を生成する応答義務推定部と、
    発話区間終了後の音声からユーザーの応答期待度を生成する応答期待度推定部とを備え、
    前記応答義務推定部は、
    発話区間の音声から生成した応答義務推定値を、発話区間終了後の音声から生成した応答期待度を利用して更新する、
    対話システム。
  17. 前記応答義務推定部は、
    発話区間終了後の音声に特定の語が含まれるとき、前記応答義務推定値を応答義務有にする機能を有する、
    請求項16記載の対話システム。
  18. 音声を入力する入力部と、
    音声から発話区間であるかどうかを示す発話区間推定値を逐次的に生成する発話区間推定部と、
    音声と前記発話区間推定値から、応答義務を推定する応答義務推定値を逐次的に生成する応答義務推定部と、
    を含むことを特徴とする対話システム。
  19. 前記応答義務推定部は、
    発話区間終了後の音声に特定の語が含まれるとき、前記応答義務推定値を応答義務有にする機能を有する、
    請求項18記載の対話システム。
JP2019012983A 2019-01-29 2019-01-29 応答義務推定方法および対話システム Pending JP2020122821A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019012983A JP2020122821A (ja) 2019-01-29 2019-01-29 応答義務推定方法および対話システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019012983A JP2020122821A (ja) 2019-01-29 2019-01-29 応答義務推定方法および対話システム

Publications (1)

Publication Number Publication Date
JP2020122821A true JP2020122821A (ja) 2020-08-13

Family

ID=71992581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019012983A Pending JP2020122821A (ja) 2019-01-29 2019-01-29 応答義務推定方法および対話システム

Country Status (1)

Country Link
JP (1) JP2020122821A (ja)

Similar Documents

Publication Publication Date Title
US11749265B2 (en) Techniques for incremental computer-based natural language understanding
US10911596B1 (en) Voice user interface for wired communications system
US8818801B2 (en) Dialogue speech recognition system, dialogue speech recognition method, and recording medium for storing dialogue speech recognition program
JP6633008B2 (ja) 音声対話装置及び音声対話方法
US10339930B2 (en) Voice interaction apparatus and automatic interaction method using voice interaction apparatus
CN107818798A (zh) 客服服务质量评价方法、装置、设备及存储介质
US20060229873A1 (en) Methods and apparatus for adapting output speech in accordance with context of communication
US10194023B1 (en) Voice user interface for wired communications system
JP2014191029A (ja) 音声認識システムおよび音声認識システムの制御方法
US10326886B1 (en) Enabling additional endpoints to connect to audio mixing device
US20230046658A1 (en) Synthesized speech audio data generated on behalf of human participant in conversation
JP6675078B2 (ja) 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
US20230298593A1 (en) Method and apparatus for real-time sound enhancement
JP5431282B2 (ja) 音声対話装置、方法、プログラム
JP2018049132A (ja) 音声対話システムおよび音声対話方法
JP6468258B2 (ja) 音声対話装置および音声対話方法
WO2018198791A1 (ja) 信号処理装置および方法、並びにプログラム
JP2020122821A (ja) 応答義務推定方法および対話システム
JP6772881B2 (ja) 音声対話装置
JP2015215503A (ja) 音声認識方法、音声認識装置および音声認識プログラム
KR20150107520A (ko) 음성인식 방법 및 장치
KR102153220B1 (ko) 동일성 판단에 기초한 음성 인식 결과 출력 방법 및 이를 이용한 장치
JP6176137B2 (ja) 音声対話装置、音声対話システム及びプログラム
KR20210010133A (ko) 음성 인식 방법, 음성 인식을 위한 학습 방법 및 그 장치들
KR102632806B1 (ko) Stt결과 조기 확정을 위한 음성 인식 방법 및 장치