JP2016009091A - 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム - Google Patents

複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム Download PDF

Info

Publication number
JP2016009091A
JP2016009091A JP2014129678A JP2014129678A JP2016009091A JP 2016009091 A JP2016009091 A JP 2016009091A JP 2014129678 A JP2014129678 A JP 2014129678A JP 2014129678 A JP2014129678 A JP 2014129678A JP 2016009091 A JP2016009091 A JP 2016009091A
Authority
JP
Japan
Prior art keywords
response
sentence
response sentence
similarity
control means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014129678A
Other languages
English (en)
Other versions
JP6306447B2 (ja
Inventor
▲シン▼ 徐
Shin Jo
▲シン▼ 徐
加藤 恒夫
Tsuneo Kato
恒夫 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2014129678A priority Critical patent/JP6306447B2/ja
Publication of JP2016009091A publication Critical patent/JP2016009091A/ja
Application granted granted Critical
Publication of JP6306447B2 publication Critical patent/JP6306447B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】ユーザとの対話の中で、応答時間とその応答内容の信頼度との間のトレードオフを考慮して応答文を再生する端末等を提供する。
【解決手段】ユーザの発話文の入力後、第1の応答文を出力する第1の対話制御手段と、第1の対話制御手段よりも、応答時間が長く且つその応答内容の信頼度が高い第2の応答文を出力する第2の対話制御手段と、対話制御手段の両方に、ユーザの発話文を入力する発話文入力手段と、第1の対話制御手段から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、第2の対話制御手段から第2の応答文が出力された場合、第1の応答文と第2の応答文との間の類似度を算出する応答文類似度算出手段と、類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、第2の応答文の再生を開始する応答文再生手段とを有する。
【選択図】図2

Description

本発明は、ユーザからの発話文に対して応答文を出力する対話システムの技術に関する。
人間に対して自然な対話を実現した対話システムが、特にスマートフォンやタブレットのような端末で、一般的に普及しつつある。対話システムとしては、ユーザとの対話内容に沿った適切な語彙のみが、認識対象語彙として対話制御処理に入力される技術がある(例えば特許文献1参照)。この技術によれば、認識対象語彙として必要最小限度の語彙のみを記憶している。ユーザの発話文から未登録の語彙を抽出し、その語彙を追加的に登録していく。これによって、メモリ容量の削減と、語彙検索の高速化とを可能としつつ、自然な対話処理を実現することができる。
また、対話のドメインを限定した対話制御部を、携帯端末内に実装する技術もある(例えば非特許文献1参照)。この技術によれば、ユーザの発話文からその意図を抽出する意図推定処理と、抽出された意図に対して対話応答を決定する対話制御処理とを、携帯端末内で実行することができる。
更に、複数の音声対話装置を用いる技術もある(例えば特許文献2参照)。この技術によれば、第1の音声対話装置は、ユーザの発話文の言語理解に失敗した場合、ユーザの直前の発話文を処理した第2の音声対話装置へ言語理解失敗を送信する。第2の音声対話装置は、言語理解失敗を受信した際に、生成済みの理解状態の下で、言語理解規則を逆解析した発話内容を、第1の音声対話装置へ送信する。このように、第1の音声対話装置及び第2の音声対話装置が、相互に協調してユーザの発話文を解析し、対話を進行することができる。
更に、情報提供型、情報獲得型、質問応答型及び情報受理型の4種類の対話制御システムを用いた技術もある(例えば特許文献3参照)。この技術によれば、ユーザの無入力時間と、入力された発話文の内容が要求か又は質問かとによって、対話型を分類する。その分類に適した型の複数の対話制御システムを用いることにより、比較的複雑で且つ広範囲の対話ドメインに対しても、ユーザに適切な応答文を出力し、対話のユーザ満足度を向上させることができる。
特開2002−149645号公報 特開2004−240225号公報 特開2009−198614号公報
KDDI研究所、「マルチデバイス連携が可能なスマートフォン用対話プラットフォームの開発」、[online]、[平成26年5月20日検索]、インターネット<http://www.kddilabs.jp/press/2013/1010.html>
しかしながら、特許文献1や非特許文献1に記載の技術によれば、対話の応答時間を短縮できるものの、認識対象となる語彙やタスクの数が限られており、応答内容の信頼度が低くならざるを得ない。
一方で、特許文献2や特許文献3に記載の技術によれば、複数の対話制御装置を用いるために、対話の応答時間が長くならざるを得ない。
このように、対話システムによれば、対話における応答時間とその応答内容の信頼度との間には、トレードオフの関係がある。応答時間が長くなっても、その応答内容の信頼度が低くなってもいずれも、ユーザに対して対話のストレスをかけることとなる。
そこで、本発明は、ユーザとの対話の中で、応答時間とその応答内容の信頼度との間のトレードオフを考慮して応答文を再生する端末、プログラム及びシステムを提供することを目的とする。
本発明によれば、音声で対話可能なユーザインタフェースを有する端末において、
ユーザの発話文の入力後、第1の応答文を出力する第1の対話制御手段と、
ユーザの発話文の入力後、第1の対話制御手段よりも、応答時間が長く且つその応答内容の信頼度が高い第2の応答文を出力する第2の対話制御手段と、
第1の対話制御手段及び第2の対話制御手段の両方に、ユーザの発話文を入力する発話文入力手段と、
第1の対話制御手段から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、第2の対話制御手段から第2の応答文が出力された場合、第1の応答文と第2の応答文との間の類似度を算出する応答文類似度算出手段と、
類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、第2の応答文の再生を開始する応答文再生手段と
を有することを特徴とする。
本発明の端末における他の実施形態によれば、
「接続語」を記憶した接続語記憶手段を更に有し、
応答文再生手段は、類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、接続語を再生し、第2の応答文の再生を開始する
ことも好ましい。
本発明の端末における他の実施形態によれば、
接続語記憶手段は、類似度が、第1の閾値以下であって、且つ、高い方から低い方へ複数の所定範囲に区分されており、当該類似度の所定範囲毎に「接続語」が対応付けて記憶されており、
応答文再生手段は、接続語記憶手段を用いて類似度に対応する接続語を選択することも好ましい。
本発明の端末における他の実施形態によれば、
接続語記憶手段は、類似度が、第1の閾値Th1以下であって、且つ、高い方から低い方へ3段階の所定範囲に区分されており、以下のように接続語を対応付けて記憶する
類似度>第1の閾値Th1 :第2の応答文を再生しない
第1の閾値Th1≧類似度>第2の閾値Th1 :累加の接続語
第2の閾値Th2≧類似度>第3の閾値Th3 :逆接の接続語
第3の閾値Th3≧類似度 :転換の接続語
ことも好ましい。
本発明の端末における他の実施形態によれば、
応答文類似度算出手段は、再生時間中として
(1)音声による第1の応答文の再生が完了するまで
(2)音声による第1の応答文の再生後、ユーザからの発話文が検出されるまで
であることも好ましい。
本発明の端末における他の実施形態によれば、
第1の対話制御手段及び第2の対話制御手段は、シナリオ型又は統計型の対話制御機能であることも好ましい。
本発明の端末における他の実施形態によれば、
第2の対話制御手段は、複数、備えられており、
応答文類似度算出手段は、第1の対話制御手段から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、複数の第2の対話制御手段から第2の応答文が出力された場合、応答内容の信頼度が最も高い第2の対話制御手段から出力された第2の応答文と第1の応答文との間の類似度を算出する
を有することも好ましい。
本発明の端末における他の実施形態によれば、
第1の対話制御手段及び第2の対話制御手段における信頼度Psは、平均対話正解率Pとリアルタイム制御信頼度スコアCとに基づいて算出されるものである
ことも好ましい。
本発明の端末における他の実施形態によれば、
応答文類似度算出手段は、第1の応答文及び第2の応答文について形態素解析によって複数の単語を抽出し、第1の応答文の単語と第2の応答文の単語との間の品詞又は意味を解析したベクトルを算出し、これらベクトルのコサイン類似度を算出する
ことも好ましい。
本発明によれば、音声で対話可能なユーザインタフェースを有する端末に搭載されたコンピュータを機能させるプログラムにおいて、
ユーザの発話文の入力後、第1の応答文を出力する第1の対話制御手段と、
ユーザの発話文の入力後、第1の対話制御手段よりも、応答時間が長く且つその応答内容の信頼度が高い第2の応答文を出力する第2の対話制御手段と、
第1の対話制御手段及び第2の対話制御手段の両方に、ユーザの発話文を入力する発話文入力手段と、
第1の対話制御手段から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、第2の対話制御手段から第2の応答文が出力された場合、第1の応答文と第2の応答文との間の類似度を算出する応答文類似度算出手段と、
類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、第2の応答文の再生を開始する応答文再生手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、音声で対話可能なユーザインタフェースを有する端末と、対話制御サーバとがネットワークを介して接続されたシステムにおいて、
端末は、ユーザの発話文の入力後、第1の応答文を出力する第1の対話制御手段を有し、
サーバは、ユーザの発話文の入力後、第1の対話制御手段よりも、応答時間が長く且つその応答内容の信頼度が高い第2の応答文を出力する第2の対話制御手段を有し、
端末は、
ユーザの発話文を、第1の対話制御手段へ入力すると共に、サーバの第2の対話制御手段へ送信する発話文入力手段と、
第1の対話制御手段から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、第2の対話制御手段から第2の応答文が受信された場合、第1の応答文と第2の応答文との間の類似度を算出する応答文類似度算出手段と、
類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、第2の応答文の再生を開始する応答文再生手段と
を有することを特徴とする。
本発明によれば、音声で対話可能なユーザインタフェースを有する端末と、複数の対話制御サーバとがネットワークを介して接続されたシステムにおいて、
ユーザの発話文の受信後、第1の応答文を返信する第1の対話制御サーバと、
ユーザの発話文の受信後、第1の対話制御サーバよりも、応答時間が長く且つその応答内容の信頼度が高い第2の応答文を出力する第2の対話制御サーバと
を有し、
端末は、
第1の対話制御サーバと第2の対話制御サーバとの両方へ、ユーザの発話文を送信する発話文入力手段と、
第1の対話制御サーバから受信した第1の応答文を、ユーザに対して音声で再生している再生時間中に、第2の対話制御サーバから第2の応答文が受信された場合、第1の応答文と第2の応答文との間の類似度を算出する応答文類似度算出手段と、
類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、第2の応答文の再生を開始する応答文再生手段と
を有することを特徴とする。
本発明の端末、プログラム及びシステムによれば、ユーザとの対話の中で、応答時間とその応答内容の信頼度との間のトレードオフを考慮して応答文を再生することができる。
本発明における端末の機能構成図である。 応答文の第1の具体的な再生タイミングを表す説明図である。 応答文の第2の具体的な再生タイミングを表す説明図である。 応答文の第3の具体的な再生タイミングを表す説明図である。 本発明における第1のシステム構成図である。 本発明における第2のシステム構成図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明における端末の機能構成図である。
図1によれば、端末1は、スマートフォンやタブレットのようなものであって、音声で対話可能なユーザインタフェースを有する。入力デバイスがマイクである場合、入力音声処理部101は、マイクによって取得された音声信号を発話文に変換し、その発話文を対話制御部へ入力する。また、出力デバイスがスピーカである場合、出力音声処理部102は、対話制御部から出力された応答文を音声信号に変換し、その音声信号をスピーカへ出力する。
図1によれば、端末1は、発話文入力部111と、応答文類似度算出部112と、応答文再生部113と、接続語記憶部114と、第1の対話制御部121と、第2の対話制御部122とを有する。これら機能構成部は、端末に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
[第1の対話制御部121・第2の対話制御部122]
対話制御部は、人同士の間の対話と同様に、人とシステムとの間で対話を成立させるものである。対話制御部は、自然言語の発話文を認識し、それに対して適切な応答文を出力する対話ロジックを有する。対話制御機能としては、例えば以下のような2種類がある。
シナリオ型の対話制御機能
統計型の対話制御機能
シナリオ型の対話制御機能は、人手によって予め記述された固定的なシナリオで対話を進行する。タスク指向型であって、何らかの達成したいタスク(目的)が明確となっている用途に適する。固定的なシナリオは、事前の対話経験やシステムノウハウに基づいて予め設計されたものであって、対話ノード(又はノード群)間の遷移が固定となっている。
統計型の対話制御機能は、対話ノードを大量に蓄積し、現在の対話ノードに対して遷移確率が最大となる次の対話ノードへ遷移することによって、自然な対話を進行する。具体的なタスクを持たず、他の対話ノードへの遷移は前後の遷移確率によって決定される。この遷移確率は、機械学習によって、自動的に逐次更新されていく。
対話制御機能はそれぞれ、その特性に応じて、同じ発話文が入力されたとしても、異なる応答文を出力する。対話制御部における応答文の応答内容の信頼度Psは、平均対話正解率Pとリアルタイム制御信頼度スコアCとに基づいて、以下のように算出される。
Ps(N)=P(N)・C(N)
P(N):対話制御Nの平均対話正解率
C(N):対話制御Nからの応答文のリアルタイム制御信頼度スコア
平均対話正解率P(N)は、予め用意された対話テストデータを当該対話制御部へ入力し、その応答文と事前作成の正解文とを比較して算出された比率である。
平均対話正解率P(N)=正解文数/全応答文数
リアルタイム制御信頼度スコアC(N)は、対話制御機能から出力された応答文に対して、リアルタイム計算された信頼できる尺度をいう。シナリオ型の対話制御について、C(N)は、ユーザの対話入力に対する意図理解の信頼度となる。例えば意図理解の統計モデルはサポートベクタマシン(SVM:Support Vector Machines)によって学習された場合に、意図理解の結果がSVMの分離平面からの距離を信頼度とする。また、統計型の対話制御機能については、機械学習手法による大量対話例文から確立した統計モデルに基づき、C(N)は、選択された応答文の最大遷移確率である。
[発話文入力部111]
発話文入力部111は、入力音声処理部101から出力されたユーザの発話文を、第1の対話制御部121及び第2の対話制御部122の両方に入力する。
[応答文類似度算出部112]
応答文類似度算出部112は、第1の対話制御部121から出力された第1の応答文を、ユーザに対して音声で再生している「再生時間中」に、第2の対話制御部122から第2の応答文が出力された場合、第1の応答文と第2の応答文との間の「類似度」を算出する。応答文類似度算出部112は、第1の応答文の音声の「再生時間中」であることを、応答文再生部113と連携して認識する。
ここで、「再生時間中」として、以下の2つのパターンがある。
(1)音声による第1の応答文の再生が完了するまで
(2)音声による第1の応答文の再生後、ユーザからの発話文が検出されるまで
即ち、第1の応答文に対して、ユーザが反応して発話しない限りは、できる限り信頼度の高い応答文を出力するようにする。
尚、第1の対話制御部121の信頼度Psよりも、第2の対話制御部122の信頼度Psの方が低い場合、第1の応答文の再生時間中に、第2の対話制御部122から第2の応答文が出力されても、応答文類似度算出部112は、類似度を算出することなく無視する。第1の応答文よりも信頼度の低い第2の応答文を、あえて再生する必要は無いためである。
応答文類似度算出部112は、「類似度」について、最初に、第1の応答文及び第2の応答文から形態素解析によって複数の単語を抽出する。そして、応答文類似度算出部112は、第1の応答文の単語と第2の応答文の単語との間の品詞又は意味を解析したベクトルを算出し、これらベクトルのコサイン類似度(Bag of wordsベース)を算出する。勿論、各応答文に対して、対話コーパスにおける出現頻度が高い重要語(名詞)を蓄積した重要語辞書を用いて、重要語を検出するものであってもよい。コサイン距離は、各応答文の中から抽出された単語及びその名詞種別に応じて算出される。例えば以下の概念式で算出される。
第1の応答文の単語の特徴ベクトル:D
第2の応答文の単語の特徴ベクトル:E
2つの文の類似度:sim(D,E)
sim(D,E)=cosθ=(D・E)/(|D||E|)
コサイン距離は、同じ単語同士である場合には類似度重みを1とし、同じカテゴリ同士である場合にも類似度重みを1とする。勿論、同じ単語カテゴリの類似度重みは、0〜1の間の値で設定可能である。
[応答文再生部113]
応答文再生部113は、類似度が第1の閾値以下の場合(類似度が低い場合)、第1の応答文の再生が終了した直後に連続して、第2の応答文の再生を開始する(後述する図2参照)。
また、応答文再生部113は、第1の応答文の音声による再生終了後に、第2の対話制御部122から第2の応答文が出力された場合、あえて、第2の応答文は再生されない(後述する図3参照)。
更に、応答文再生部113は、類似度が第1の閾値よりも高い場合(類似度が高い場合)、あえて、第2の応答文は再生されない(後述する図4参照)。
[接続語記憶部114]
接続語記憶部114は、「接続語」を記憶したものである。応答文再生部113は、第1の応答文の再生が終了した直後に連続して、接続語を再生し、第2の応答文の再生を開始するものであってもよい。当該類似度の所定範囲毎に対応付けられた「接続語」を、接続語記憶部114が記憶する。
図2は、応答文の第1の具体的な再生タイミングを表す説明図である。
第1の対話制御部121及び第2の対話制御部122は、以下のようなトレードオフの関係にあるとする。
第1の対話制御部121:対話の応答時間が短いものの、応答内容の信頼度が低い
第2の対話制御部122:対話の応答時間が長いものの、応答内容の信頼度が高い
信頼度は、例えば以下のように決定される。
第1の対話制御部121:平均応答時間=0.7秒
平均対話正解率P(1)=0.65
システム信頼度C(1)=0.70
信頼度Ps(1)=C(1)×P(1)=0.455
第2の対話制御部122:平均応答時間=1.0秒
平均対話正解率P(2)=0.85
システム信頼度C(2)=0.70
信頼度Ps(2)=C(2)×P(2)=0.595
即ち、第1の対話制御部は、第2の対話制御部と比較して、対話の応答時間が短いものの、応答内容の信頼度が低いとする。
(S21)ユーザが、マイクに向かって「明日の天気はどうですか?」と発話したとする。これに対し、入力音声処理部101は、音声認識によってその発話文を、発話文入力部111へ出力する。これに対し、発話文入力部111は、以下の発話文を、第1の対話制御部121及び第2の対話制御部122の両方へ入力する。
「明日の天気はどうですか?」
(S221)これに対し、応答時間が短い第1の対話制御部121が、最初に、応答類似度算出部112へ、以下の応答文を出力したとする。
「明日予定はありません」
第1の対話制御部111は、応答時間が短いものの、応答内容の信頼度が比較的低いために、天気を問われているのに対し、予定を問われたと誤って判断したとする。
(S222)これに対し、応答類似度算出部112は、その応答文をそのまま、応答文再生部113へ出力する。
「明日予定はありません」
(S223)応答文再生部113は、出力音声処理部102に対して、以下のように順次発声し、スピーカからユーザへ応答する。
”あ”す”よ”て”い”は”あ”り”ま”せ”ん”
(この音声の発声には、例えば1.6秒の時間を要する)
(S231)次に、応答時間が長い第2の対話制御部122が、応答類似度算出部112へ、以下の応答文を出力したとする。ここで、この応答文は、S223によって応答再生部113が第1の応答文を発声し始めてから、1.6秒以内であるとする。
「明日天気は晴れです」
(S232)応答文類似度算出部112は、第1の対話制御部121から出力された第1の応答文「明日予定はありません」を、ユーザに対して音声で再生している再生時間中であること認識している。この再生時間中に、第2の対話制御部122から第2の応答文「明日天気は晴れです」が出力された場合、第1の応答文と第2の応答文との間の類似度を算出する。
第1の応答文「明日予定はありません」
ベクトルとして検出される単語:「明日」「予定」「ない」
第2の応答文「明日天気は晴れです」
ベクトルとして検出される単語:「明日」「天気」「晴れ」
この場合、第1の応答文と第2の応答文とのコサイン距離は0.33となる。
図2によれば、このコサイン距離が、第1の閾値Th1以下となり、第2の応答文を再生すべきと判定されたとする。このとき、応答文再生部113は、第1の応答文の再生が終了した直後に連続して、第2の応答文の再生を開始するものとする。
(S233)接続語記憶部114は、類似度が、第1の閾値以下であって、且つ、高い方から低い方へ複数の所定範囲に区分されている。応答文再生部113は、接続語記憶部114の類似度の範囲に対応して、接続語を選択して再生する。
接続語記憶部114は、類似度が、第1の閾値Th1以下であって、且つ、高い方から低い方へ3段階の所定範囲に区分されており、以下のように接続語を対応付けて記憶する。
類似度>第1の閾値Th1 :第2の応答文を再生しない
第1の閾値Th1≧類似度>第2の閾値Th1 :「累加」の接続語
「累加」->「さらに」「そのうえ」
第2の閾値Th2≧類似度>第3の閾値Th3 :「逆接」の接続語
「逆接」->「しかし」「けれども」「と言いたいですが」「だからといって」
第3の閾値Th3≧類似度 :「転換」の接続語
「転換」->「ところで」「さて」「先ほどと別の事ですが」
例えば、Th1=0.8、Th2=0.5、Th3=0.3と設定してもよい。類似度が低くなるほど、話を転換する接続語が選択される。
図2によれば、応答文再生部113は、第1の応答文と第2の応答文との間のコサイン距離が例えば0.33である場合、逆接の接続語「けれども」が選択される。
(S234)応答文再生部113は、以下のように再生する。
”あ”す”よ”て”い”は”あ”り”ま”せ”ん”(1.6秒)
”け”れ”ど”も”(0.5秒)
(S235)応答文類似度算出部112は、第2の応答文「明日天気は晴れです」を、応答文再生部113へ出力する。
(S236)応答文再生部113は、以下のように再生する。
”あ”す”よ”て”い”は”あ”り”ま”せ”ん”(1.6秒)
”け”れ”ど”も”(0.5秒)
”あ”す”あ”す”の”て”ん”き”は”は”れ”で”す”(1.9秒)
図2から明らかなとおり、応答時間が短く且つ信頼度が低い第1の対話制御部から出力された第1の応答文を再生し、その再生時間中に、応答時間が長く且つ信頼度が高い第2の対話制御部から第2の応答文が出力された場合、第1の応答文に第2の応答文を連続して再生する。また、第1の応答文と第2の応答文との間の類似度が第1の閾値よりも低い場合、その類似度に応じた接続語を、第1の応答文と第2の応答文との間に挿入して接続することによって、できる限り、ユーザに不自然さを感じさせないように応答することができる。
図3は、応答文の第2の具体的な再生タイミングを表す説明図である。
図3によれば、応答文再生部113は、第1の応答文「明日予定はありません」の音声による再生終了後に、第2の対話制御部122から第2の応答文「明日天気は晴れです」が出力された場合、あえて、第2の応答文は再生されない。通常、応答文の再生が一旦途切れた後、ユーザは直ぐ反応しようとする。第1の応答文「明日予定はありません」を再生した後、一旦途切れ、その後、第2の応答文「明日天気は晴れです」を再生しまうと、ユーザの発話とぶつかる可能性が高いためである。
図4は、応答文の第3の具体的な再生タイミングを表す説明図である。
図4によれば、応答文再生部113は、類似度が第1の閾値よりも高い場合(類似度が高い場合)、あえて、第2の応答文は再生されない。類似度が高いということは、同じ意味合いの応答文を2回連続して再生することになるためである。
図5は、本発明における第1のシステム構成図である。
図5によれば、第1の対話制御部121は、端末1内に備えられ、第2の対話制御部122は、ネットワークを介して外部サーバに備えられている。端末1は、一般に、少ないメモリ量と低い演算処理能力であるために、対話の応答時間は短いが、応答内容の信頼度が低い軽量の対話制御部しか搭載できない。一方で、外部サーバは、大きいメモリ量と高い演算処理能力であるために、対話の応答時間は長いものの、応答内容の信頼度が高い対話制御部を搭載することができる。
図6は、本発明における第2のシステム構成図である。
図6によれば、第1の対話制御部121及び第2の対話制御部122の両方とも、ネットワークを介して外部サーバに備えられている。端末1には、対話制御機能を備えないために、応答時間は比較的長くなるものの、外部サーバの多様な対話制御機能を用いることができる。
<3つ以上の対話制御部>
前述した実施形態によれば、2つの対話制御部について説明したが、勿論、3つ以上搭載されたものであってもよい。対話制御部それぞれについて、対話の応答時間や、応答内容の信頼度に差が生じる。具体的には、第1の対話制御部121を基準として、複数の異なる種類の第2の対話制御部122を搭載するものであってもよい。
例えば以下のように、対話制御部毎に、以下のように信頼度が設定されているとする。
第1の対話制御部121 :信頼度Ps(1)=0.455
第1の応答文 「明日予定はありません」
第21の対話制御部122:信頼度Ps(2)=0.595
第21の応答文「明日天気は晴れです」
第22の対話制御部122:信頼度Ps(3)=0.720
第22の応答文「明日の降水確率は20%です」
応答文類似度算出部112は、第1の対話制御部121から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、第21の対話制御部122と第22の対話制御部123からそれぞれ第2の応答文が出力された場合、応答内容の信頼度Psが最も高い第22の対話制御部123から出力された第2の応答文と第1の応答文との間の類似度を算出する。ここで、第1の応答文と第22の応答文との間のコサイン距離が例えば0.29であるとする。
これに対し、応答文再生部113は、逆接の接続語「ところで」が選択される。最終的に、応答文再生部113は、以下のように再生する。
”あ”す”よ”て”い”は”あ”り”ま”せ”ん”(1.6秒)
”と”こ”ろ”で”(0.5秒)
”あ”す”の”こ”う”す”い”か”く”り”つ”は”に”じゅ”っ”ぱ”―”せ”ん”と”で”す”(2.7秒)
以上、詳細に説明したように、本発明の端末、プログラム及びシステムによれば、ユーザとの対話の中で、応答時間とその応答内容の信頼度との間のトレードオフを考慮して応答文を再生することができる。特に、ユーザの発話文に対して応答時間が短くなると共に、一連の応答文の中で、最終的にできる限り信頼度の高い応答文を再生することができる。
尚、本発明は、ユーザ操作に基づく端末のディスプレイに「キャラクタ・エージェント」を表示し、ユーザとエージェントとが音声による対話を進める、音声対話システムに適する。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 端末
111 発話文入力部
112 応答文類似度算出部
113 応答文再生部
114 接続語記憶部
121 第1の対話制御部
122 第2の対話制御部
21、22 サーバ

Claims (12)

  1. 音声で対話可能なユーザインタフェースを有する端末において、
    ユーザの発話文の入力後、第1の応答文を出力する第1の対話制御手段と、
    ユーザの発話文の入力後、第1の対話制御手段よりも、応答時間が長く且つその応答内容の信頼度が高い第2の応答文を出力する第2の対話制御手段と、
    第1の対話制御手段及び第2の対話制御手段の両方に、ユーザの発話文を入力する発話文入力手段と、
    第1の対話制御手段から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、第2の対話制御手段から第2の応答文が出力された場合、第1の応答文と第2の応答文との間の類似度を算出する応答文類似度算出手段と、
    前記類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、第2の応答文の再生を開始する応答文再生手段と
    を有することを特徴とする端末。
  2. 「接続語」を記憶した接続語記憶手段を更に有し、
    前記応答文再生手段は、前記類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、前記接続語を再生し、第2の応答文の再生を開始する
    ことを特徴とする請求項1に記載の端末。
  3. 前記接続語記憶手段は、前記類似度が、第1の閾値以下であって、且つ、高い方から低い方へ複数の所定範囲に区分されており、当該類似度の所定範囲毎に「接続語」が対応付けて記憶されており、
    前記応答文再生手段は、前記接続語記憶手段を用いて前記類似度に対応する接続語を選択する
    ことを特徴とする請求項2に記載の端末。
  4. 前記接続語記憶手段は、前記類似度が、第1の閾値Th1以下であって、且つ、高い方から低い方へ3段階の所定範囲に区分されており、以下のように接続語を対応付けて記憶する
    類似度>第1の閾値Th1 :第2の応答文を再生しない
    第1の閾値Th1≧類似度>第2の閾値Th1 :累加の接続語
    第2の閾値Th2≧類似度>第3の閾値Th3 :逆接の接続語
    第3の閾値Th3≧類似度 :転換の接続語
    ことを特徴とする請求項3に記載の端末。
  5. 前記応答文類似度算出手段は、前記再生時間中として
    (1)音声による第1の応答文の再生が完了するまで
    (2)音声による第1の応答文の再生後、ユーザからの発話文が検出されるまで
    であることを特徴とする請求項1から4のいずれか1項に記載の端末。
  6. 第1の対話制御手段及び第2の対話制御手段は、シナリオ型又は統計型の対話制御機能であることを特徴とする請求項1から5のいずれか1項に記載の端末。
  7. 第2の対話制御手段は、複数、備えられており、
    前記応答文類似度算出手段は、第1の対話制御手段から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、複数の第2の対話制御手段から第2の応答文が出力された場合、応答内容の信頼度が最も高い第2の対話制御手段から出力された第2の応答文と第1の応答文との間の類似度を算出する
    を有することを特徴とする請求項1から6のいずれか1項に記載の端末。
  8. 第1の対話制御手段及び第2の対話制御手段における前記信頼度Psは、平均対話正解率Pとリアルタイム制御信頼度スコアCとに基づいて算出されるものである
    ことを特徴とする請求項1から7のいずれか1項に記載の端末。
  9. 前記応答文類似度算出手段は、第1の応答文及び第2の応答文について形態素解析によって複数の単語を抽出し、第1の応答文の単語と第2の応答文の単語との間の品詞又は意味を解析したベクトルを算出し、これらベクトルのコサイン類似度を算出する
    ことを特徴とする請求項1から8のいずれか1項に記載の端末。
  10. 音声で対話可能なユーザインタフェースを有する端末に搭載されたコンピュータを機能させるプログラムにおいて、
    ユーザの発話文の入力後、第1の応答文を出力する第1の対話制御手段と、
    ユーザの発話文の入力後、第1の対話制御手段よりも、応答時間が長く且つその応答内容の信頼度が高い第2の応答文を出力する第2の対話制御手段と、
    第1の対話制御手段及び第2の対話制御手段の両方に、ユーザの発話文を入力する発話文入力手段と、
    第1の対話制御手段から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、第2の対話制御手段から第2の応答文が出力された場合、第1の応答文と第2の応答文との間の類似度を算出する応答文類似度算出手段と、
    前記類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、第2の応答文の再生を開始する応答文再生手段と
    してコンピュータを機能させることを特徴とするプログラム。
  11. 音声で対話可能なユーザインタフェースを有する端末と、対話制御サーバとがネットワークを介して接続されたシステムにおいて、
    前記端末は、ユーザの発話文の入力後、第1の応答文を出力する第1の対話制御手段を有し、
    前記サーバは、ユーザの発話文の入力後、第1の対話制御手段よりも、応答時間が長く且つその応答内容の信頼度が高い第2の応答文を出力する第2の対話制御手段を有し、
    前記端末は、
    ユーザの発話文を、第1の対話制御手段へ入力すると共に、前記サーバの第2の対話制御手段へ送信する発話文入力手段と、
    第1の対話制御手段から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、第2の対話制御手段から第2の応答文が受信された場合、第1の応答文と第2の応答文との間の類似度を算出する応答文類似度算出手段と、
    前記類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、第2の応答文の再生を開始する応答文再生手段と
    を有することを特徴とするシステム。
  12. 音声で対話可能なユーザインタフェースを有する端末と、複数の対話制御サーバとがネットワークを介して接続されたシステムにおいて、
    ユーザの発話文の受信後、第1の応答文を返信する第1の対話制御サーバと、
    ユーザの発話文の受信後、第1の対話制御サーバよりも、応答時間が長く且つその応答内容の信頼度が高い第2の応答文を出力する第2の対話制御サーバと
    を有し、
    前記端末は、
    第1の対話制御サーバと第2の対話制御サーバとの両方へ、ユーザの発話文を送信する発話文入力手段と、
    第1の対話制御サーバから受信した第1の応答文を、ユーザに対して音声で再生している再生時間中に、第2の対話制御サーバから第2の応答文が受信された場合、第1の応答文と第2の応答文との間の類似度を算出する応答文類似度算出手段と、
    前記類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、第2の応答文の再生を開始する応答文再生手段と
    を有することを特徴とするシステム。
JP2014129678A 2014-06-24 2014-06-24 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム Active JP6306447B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014129678A JP6306447B2 (ja) 2014-06-24 2014-06-24 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014129678A JP6306447B2 (ja) 2014-06-24 2014-06-24 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム

Publications (2)

Publication Number Publication Date
JP2016009091A true JP2016009091A (ja) 2016-01-18
JP6306447B2 JP6306447B2 (ja) 2018-04-04

Family

ID=55226672

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014129678A Active JP6306447B2 (ja) 2014-06-24 2014-06-24 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム

Country Status (1)

Country Link
JP (1) JP6306447B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190017093A (ko) * 2017-08-09 2019-02-20 동국대학교 산학협력단 사례기반 추론 및 형태소 유사도를 기반으로 하는 자동 상담 장치 및 방법
CN111373391A (zh) * 2017-11-29 2020-07-03 三菱电机株式会社 语言处理装置、语言处理系统和语言处理方法
CN113761138A (zh) * 2020-06-02 2021-12-07 阿里巴巴集团控股有限公司 对话系统、方法、装置、电子设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006039120A (ja) * 2004-07-26 2006-02-09 Sony Corp 対話装置および対話方法、並びにプログラムおよび記録媒体
JP2012094075A (ja) * 2010-10-28 2012-05-17 Toshiba Corp 対話装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006039120A (ja) * 2004-07-26 2006-02-09 Sony Corp 対話装置および対話方法、並びにプログラムおよび記録媒体
JP2012094075A (ja) * 2010-10-28 2012-05-17 Toshiba Corp 対話装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190017093A (ko) * 2017-08-09 2019-02-20 동국대학교 산학협력단 사례기반 추론 및 형태소 유사도를 기반으로 하는 자동 상담 장치 및 방법
KR101996557B1 (ko) * 2017-08-09 2019-07-05 동국대학교 산학협력단 사례기반 추론 및 형태소 유사도를 기반으로 하는 자동 상담 장치 및 방법
CN111373391A (zh) * 2017-11-29 2020-07-03 三菱电机株式会社 语言处理装置、语言处理系统和语言处理方法
CN111373391B (zh) * 2017-11-29 2023-10-20 三菱电机株式会社 语言处理装置、语言处理系统和语言处理方法
CN113761138A (zh) * 2020-06-02 2021-12-07 阿里巴巴集团控股有限公司 对话系统、方法、装置、电子设备及计算机可读存储介质
CN113761138B (zh) * 2020-06-02 2024-02-02 阿里巴巴集团控股有限公司 对话系统、方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
JP6306447B2 (ja) 2018-04-04

Similar Documents

Publication Publication Date Title
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
US11133027B1 (en) Context driven device arbitration
US11600291B1 (en) Device selection from audio data
US11289087B2 (en) Context-based device arbitration
US11676575B2 (en) On-device learning in a hybrid speech processing system
US11138977B1 (en) Determining device groups
US10339166B1 (en) Systems and methods for providing natural responses to commands
CN108536802B (zh) 基于儿童情绪的交互方法及装置
US11238842B2 (en) Intent recognition and emotional text-to-speech learning
US11355098B1 (en) Centralized feedback service for performance of virtual assistant
US20210142794A1 (en) Speech processing dialog management
CN108694940B (zh) 一种语音识别方法、装置及电子设备
CN107016994B (zh) 语音识别的方法及装置
US10089974B2 (en) Speech recognition and text-to-speech learning system
US8972260B2 (en) Speech recognition using multiple language models
US10685664B1 (en) Analyzing noise levels to determine usability of microphones
CN112767916A (zh) 智能语音设备的语音交互方法、装置、设备、介质及产品
JP6306447B2 (ja) 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム
US20180033432A1 (en) Voice interactive device and voice interaction method
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
CN112951219A (zh) 噪声拒识方法和装置
US11741945B1 (en) Adaptive virtual assistant attributes
US20220161131A1 (en) Systems and devices for controlling network applications
CN114495981A (zh) 语音端点的判定方法、装置、设备、存储介质及产品
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180308

R150 Certificate of patent or registration of utility model

Ref document number: 6306447

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150