JP6306447B2 - Terminal, program, and system for reproducing response sentence using a plurality of different dialogue control units simultaneously - Google Patents

Terminal, program, and system for reproducing response sentence using a plurality of different dialogue control units simultaneously Download PDF

Info

Publication number
JP6306447B2
JP6306447B2 JP2014129678A JP2014129678A JP6306447B2 JP 6306447 B2 JP6306447 B2 JP 6306447B2 JP 2014129678 A JP2014129678 A JP 2014129678A JP 2014129678 A JP2014129678 A JP 2014129678A JP 6306447 B2 JP6306447 B2 JP 6306447B2
Authority
JP
Japan
Prior art keywords
response
sentence
response sentence
similarity
control means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014129678A
Other languages
Japanese (ja)
Other versions
JP2016009091A (en
Inventor
▲シン▼ 徐
▲シン▼ 徐
加藤 恒夫
恒夫 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2014129678A priority Critical patent/JP6306447B2/en
Publication of JP2016009091A publication Critical patent/JP2016009091A/en
Application granted granted Critical
Publication of JP6306447B2 publication Critical patent/JP6306447B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、ユーザからの発話文に対して応答文を出力する対話システムの技術に関する。   The present invention relates to a technology for an interactive system that outputs a response sentence in response to an utterance sentence from a user.

人間に対して自然な対話を実現した対話システムが、特にスマートフォンやタブレットのような端末で、一般的に普及しつつある。対話システムとしては、ユーザとの対話内容に沿った適切な語彙のみが、認識対象語彙として対話制御処理に入力される技術がある(例えば特許文献1参照)。この技術によれば、認識対象語彙として必要最小限度の語彙のみを記憶している。ユーザの発話文から未登録の語彙を抽出し、その語彙を追加的に登録していく。これによって、メモリ容量の削減と、語彙検索の高速化とを可能としつつ、自然な対話処理を実現することができる。   A dialogue system that realizes natural dialogue with human beings is becoming more popular, especially on terminals such as smartphones and tablets. As a dialog system, there is a technique in which only an appropriate vocabulary according to the content of a dialog with a user is input to a dialog control process as a recognition target vocabulary (see, for example, Patent Document 1). According to this technique, only a minimum necessary vocabulary is stored as a recognition target vocabulary. Unregistered vocabulary is extracted from the user's utterance and the vocabulary is additionally registered. As a result, natural conversation processing can be realized while reducing the memory capacity and speeding up the vocabulary search.

また、対話のドメインを限定した対話制御部を、携帯端末内に実装する技術もある(例えば非特許文献1参照)。この技術によれば、ユーザの発話文からその意図を抽出する意図推定処理と、抽出された意図に対して対話応答を決定する対話制御処理とを、携帯端末内で実行することができる。   In addition, there is a technique for mounting a dialog control unit in which a dialog domain is limited in a mobile terminal (for example, see Non-Patent Document 1). According to this technique, the intention estimation process for extracting the intention from the user's utterance and the dialog control process for determining the dialog response to the extracted intention can be executed in the portable terminal.

更に、複数の音声対話装置を用いる技術もある(例えば特許文献2参照)。この技術によれば、第1の音声対話装置は、ユーザの発話文の言語理解に失敗した場合、ユーザの直前の発話文を処理した第2の音声対話装置へ言語理解失敗を送信する。第2の音声対話装置は、言語理解失敗を受信した際に、生成済みの理解状態の下で、言語理解規則を逆解析した発話内容を、第1の音声対話装置へ送信する。このように、第1の音声対話装置及び第2の音声対話装置が、相互に協調してユーザの発話文を解析し、対話を進行することができる。   Furthermore, there is a technique using a plurality of voice interactive devices (see, for example, Patent Document 2). According to this technique, when the language understanding of the user's spoken sentence fails, the first voice interactive apparatus transmits a language understanding failure to the second voice interactive apparatus that has processed the speech sentence immediately before the user. When the second spoken dialogue device receives the language understanding failure, the second spoken dialogue device transmits, to the first spoken dialogue device, the utterance content obtained by reverse-analyzing the language understanding rules in the already-understood understanding state. As described above, the first voice interactive device and the second voice interactive device can cooperate with each other to analyze the user's utterance and proceed with the dialogue.

更に、情報提供型、情報獲得型、質問応答型及び情報受理型の4種類の対話制御システムを用いた技術もある(例えば特許文献3参照)。この技術によれば、ユーザの無入力時間と、入力された発話文の内容が要求か又は質問かとによって、対話型を分類する。その分類に適した型の複数の対話制御システムを用いることにより、比較的複雑で且つ広範囲の対話ドメインに対しても、ユーザに適切な応答文を出力し、対話のユーザ満足度を向上させることができる。   Furthermore, there is a technique using four types of dialog control systems, that is, an information providing type, an information acquiring type, a question answering type, and an information receiving type (for example, see Patent Document 3). According to this technique, the interactive type is classified according to the user's non-input time and whether the content of the input utterance is a request or a question. By using a plurality of dialog control systems of a type suitable for the classification, an appropriate response sentence is output to the user even in a relatively complicated and wide range of dialog domains, and the user satisfaction of the dialog is improved. Can do.

特開2002−149645号公報JP 2002-149645 A 特開2004−240225号公報JP 2004-240225 A 特開2009−198614号公報JP 2009-198614 A

KDDI研究所、「マルチデバイス連携が可能なスマートフォン用対話プラットフォームの開発」、[online]、[平成26年5月20日検索]、インターネット<http://www.kddilabs.jp/press/2013/1010.html>KDDI R & D Laboratories, “Development of Dialogue Platform for Smartphones with Multi-Device Collaboration”, [online], [Search May 20, 2014], Internet <http://www.kddilabs.jp/press/2013/ 1010.html>

しかしながら、特許文献1や非特許文献1に記載の技術によれば、対話の応答時間を短縮できるものの、認識対象となる語彙やタスクの数が限られており、応答内容の信頼度が低くならざるを得ない。
一方で、特許文献2や特許文献3に記載の技術によれば、複数の対話制御装置を用いるために、対話の応答時間が長くならざるを得ない。
このように、対話システムによれば、対話における応答時間とその応答内容の信頼度との間には、トレードオフの関係がある。応答時間が長くなっても、その応答内容の信頼度が低くなってもいずれも、ユーザに対して対話のストレスをかけることとなる。
However, according to the techniques described in Patent Document 1 and Non-Patent Document 1, although the response time of the dialogue can be shortened, the number of vocabularies and tasks to be recognized is limited, and the reliability of the response content is low. I must.
On the other hand, according to the techniques described in Patent Literature 2 and Patent Literature 3, since a plurality of dialogue control devices are used, the dialogue response time has to be long.
Thus, according to the dialogue system, there is a trade-off relationship between the response time in the dialogue and the reliability of the response content. Regardless of whether the response time is long or the reliability of the response content is low, the user is stressed by dialogue.

そこで、本発明は、ユーザとの対話の中で、応答時間とその応答内容の信頼度との間のトレードオフを考慮して応答文を再生する端末、プログラム及びシステムを提供することを目的とする。   Accordingly, an object of the present invention is to provide a terminal, a program, and a system for reproducing a response sentence in consideration of a trade-off between a response time and a reliability of the response content in a dialog with a user. To do.

本発明によれば、音声で対話可能なユーザインタフェースを有する端末において、
ユーザの発話文の入力後、第1の応答文を出力する第1の対話制御手段と、
「接続語」を記憶した接続語記憶手段と、
ユーザの発話文の入力後、第1の対話制御手段よりも、応答時間が長く且つその応答内容の信頼度が高い第2の応答文を出力する第2の対話制御手段と、
第1の対話制御手段及び第2の対話制御手段の両方に、ユーザの発話文を入力する発話文入力手段と、
第1の対話制御手段から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、第2の対話制御手段から第2の応答文が出力された場合、第1の応答文と第2の応答文との間の類似度を算出する応答文類似度算出手段と、
類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、接続語を再生し、第2の応答文の再生を開始する応答文再生手段と
を有することを特徴とする。
According to the present invention, in a terminal having a user interface capable of voice interaction,
A first dialog control means for outputting a first response sentence after inputting the user's utterance sentence;
Connection word storage means storing "connection word";
A second dialogue control means for outputting a second response sentence having a longer response time and higher reliability of the response content than the first dialogue control means after the user's utterance sentence is input;
An utterance sentence input means for inputting the user's utterance sentence to both the first dialog control means and the second dialog control means;
When the second response text is output from the second dialog control means during the playback time in which the first response text output from the first dialog control means is played back to the user by voice, Response sentence similarity calculating means for calculating the similarity between the first response sentence and the second response sentence;
Response sentence reproduction means for reproducing a connected word and starting reproduction of a second response sentence continuously immediately after the reproduction of the first response sentence is finished when the similarity is not more than a first threshold value It is characterized by having.

本発明の端末における他の実施形態によれば、
接続語記憶手段は、類似度が、第1の閾値以下であって、且つ、高い方から低い方へ複数の所定範囲に区分されており、当該類似度の所定範囲毎に「接続語」が対応付けて記憶されており、
応答文再生手段は、接続語記憶手段を用いて類似度に対応する接続語を選択することも好ましい。
According to another embodiment of the terminal of the present invention,
The connected word storage means is divided into a plurality of predetermined ranges in which the degree of similarity is not more than a first threshold and is higher to lower, and a “connected word” is set for each predetermined range of the degree of similarity. Stored in association with each other,
It is also preferable that the response sentence reproduction means selects a connection word corresponding to the similarity using the connection word storage means.

本発明の端末における他の実施形態によれば、
接続語記憶手段は、類似度が、第1の閾値Th1以下であって、且つ、高い方から低い方へ3段階の所定範囲に区分されており、以下のように接続語を対応付けて記憶する
類似度>第1の閾値Th1 :第2の応答文を再生しない
第1の閾値Th1≧類似度>第2の閾値Th1 :累加の接続語
第2の閾値Th2≧類似度>第3の閾値Th3 :逆接の接続語
第3の閾値Th3≧類似度 :転換の接続語
ことも好ましい。
According to another embodiment of the terminal of the present invention,
The connected word storage means is divided into a predetermined range of three levels from the highest to the lowest, with the similarity being equal to or less than the first threshold Th1, and the connected words are stored in association with each other as follows. Similarity> first threshold Th1: the second response sentence is not reproduced First threshold Th1 ≧ similarity> second threshold Th1: cumulative connection word second threshold Th2 ≧ similarity> third threshold Th3: Reverse connection word Third threshold Th3 ≧ Similarity: A conversion connection word is also preferable.

本発明の端末における他の実施形態によれば、
応答文類似度算出手段は、再生時間中として
(1)音声による第1の応答文の再生が完了するまで
(2)音声による第1の応答文の再生後、ユーザからの発話文が検出されるまで
であることも好ましい。
According to another embodiment of the terminal of the present invention,
The response sentence similarity calculation means is as follows: (1) Until the reproduction of the first response sentence by voice is completed (2) After the reproduction of the first response sentence by voice, the utterance sentence from the user is detected It is also preferable that

本発明の端末における他の実施形態によれば、
第1の対話制御手段及び第2の対話制御手段は、シナリオ型又は統計型の対話制御機能であることも好ましい。
According to another embodiment of the terminal of the present invention,
The first dialog control means and the second dialog control means are preferably scenario-type or statistical-type dialog control functions.

本発明の端末における他の実施形態によれば、
第1の対話制御手段及び第2の対話制御手段はそれぞれ、応答文と共に信頼度を出力するものであり、
応答文類似度算出手段は、第1の対話制御手段から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、複数の第2の対話制御手段から第2の応答文が出力された場合、応答内容の信頼度が最も高い第2の対話制御手段から出力された第2の応答文と第1の応答文との間の類似度を算出する
を有することも好ましい。
According to another embodiment of the terminal of the present invention,
Each of the first dialogue control means and the second dialogue control means outputs a reliability together with a response sentence.
The response sentence similarity calculating means outputs the first response sentence output from the first dialog control means to the user from the plurality of second dialog control means during the playback time during which the user is playing back by voice. When the second response sentence is output, the similarity between the second response sentence output from the second dialogue control unit with the highest reliability of the response content and the first response sentence is calculated. It is also preferable.

本発明の端末における他の実施形態によれば、
第1の対話制御手段及び第2の対話制御手段における信頼度は、平均対話正解率Pとリアルタイム制御信頼度スコアCとに基づいて算出されるものである
ことも好ましい。
According to another embodiment of the terminal of the present invention,
Confidence in the first dialogue control means and the second interaction control device, it is also preferable that is calculated based on the average conversation correct answer rate P and real-time control confidence score C.

本発明の端末における他の実施形態によれば、
応答文類似度算出手段は、第1の応答文及び第2の応答文について形態素解析によって複数の単語を抽出し、第1の応答文の単語と第2の応答文の単語との間の品詞又は意味を解析したベクトルを算出し、これらベクトルのコサイン類似度を算出する
ことも好ましい。
According to another embodiment of the terminal of the present invention,
The response sentence similarity calculating means extracts a plurality of words by morphological analysis for the first response sentence and the second response sentence, and the part of speech between the first response sentence word and the second response sentence word. Alternatively, it is also preferable to calculate a vector whose meaning has been analyzed and to calculate the cosine similarity of these vectors.

本発明によれば、音声で対話可能なユーザインタフェースを有する端末に搭載されたコンピュータを機能させるプログラムにおいて、
ユーザの発話文の入力後、第1の応答文を出力する第1の対話制御手段と、
「接続語」を記憶した接続語記憶手段と、
ユーザの発話文の入力後、第1の対話制御手段よりも、応答時間が長く且つその応答内容の信頼度が高い第2の応答文を出力する第2の対話制御手段と、
第1の対話制御手段及び第2の対話制御手段の両方に、ユーザの発話文を入力する発話文入力手段と、
第1の対話制御手段から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、第2の対話制御手段から第2の応答文が出力された場合、第1の応答文と第2の応答文との間の類似度を算出する応答文類似度算出手段と、
類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、接続語を再生し、第2の応答文の再生を開始する応答文再生手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, in a program for causing a computer mounted on a terminal having a user interface capable of voice interaction to function,
A first dialog control means for outputting a first response sentence after inputting the user's utterance sentence;
Connection word storage means storing "connection word";
A second dialogue control means for outputting a second response sentence having a longer response time and higher reliability of the response content than the first dialogue control means after the user's utterance sentence is input;
An utterance sentence input means for inputting the user's utterance sentence to both the first dialog control means and the second dialog control means;
When the second response text is output from the second dialog control means during the playback time in which the first response text output from the first dialog control means is played back to the user by voice, Response sentence similarity calculating means for calculating the similarity between the first response sentence and the second response sentence;
When the similarity is not more than the first threshold value, as response sentence reproduction means for reproducing the connected word and starting reproduction of the second response sentence immediately after the reproduction of the first response sentence is completed It is characterized by making a computer function.

本発明によれば、音声で対話可能なユーザインタフェースを有する端末と、対話制御サーバとがネットワークを介して接続されたシステムにおいて、
端末は、
ーザの発話文の入力後、第1の応答文を出力する第1の対話制御手段と、
「接続語」を記憶した接続語記憶手段と、
を有し、
サーバは、ユーザの発話文の入力後、第1の対話制御手段よりも、応答時間が長く且つその応答内容の信頼度が高い第2の応答文を出力する第2の対話制御手段を有し、
端末は、
ユーザの発話文を、第1の対話制御手段へ入力すると共に、サーバの第2の対話制御手段へ送信する発話文入力手段と、
第1の対話制御手段から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、第2の対話制御手段から第2の応答文が受信された場合、第1の応答文と第2の応答文との間の類似度を算出する応答文類似度算出手段と、
類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、接続語を再生し、第2の応答文の再生を開始する応答文再生手段と
を有することを特徴とする。
According to the present invention, in a system in which a terminal having a user interface capable of voice interaction and a dialogue control server are connected via a network,
The terminal
After input of the utterance Yu chromatography The, the first dialogue control means for outputting a first answering sentence,
Connection word storage means storing "connection word";
Have
The server has second dialogue control means for outputting a second response sentence having a longer response time and higher reliability of the response content than the first dialogue control means after inputting the user's utterance sentence. ,
The terminal
An utterance sentence input means for inputting the user's utterance sentence to the first dialog control means and transmitting it to the second dialog control means of the server;
When the second response text is received from the second dialog control means during the playback time in which the first response text output from the first dialog control means is played back to the user by voice, Response sentence similarity calculating means for calculating the similarity between the first response sentence and the second response sentence;
Response sentence reproduction means for reproducing a connected word and starting reproduction of a second response sentence continuously immediately after the reproduction of the first response sentence is finished when the similarity is not more than a first threshold value It is characterized by having.

本発明によれば、音声で対話可能なユーザインタフェースを有する端末と、複数の対話制御サーバとがネットワークを介して接続されたシステムにおいて、
ユーザの発話文の受信後、第1の応答文を返信する第1の対話制御サーバと、
ユーザの発話文の受信後、第1の対話制御サーバよりも、応答時間が長く且つその応答内容の信頼度が高い第2の応答文を出力する第2の対話制御サーバと
を有し、
端末は、
「接続語」を記憶した接続語記憶手段と、
第1の対話制御サーバと第2の対話制御サーバとの両方へ、ユーザの発話文を送信する発話文入力手段と、
第1の対話制御サーバから受信した第1の応答文を、ユーザに対して音声で再生している再生時間中に、第2の対話制御サーバから第2の応答文が受信された場合、第1の応答文と第2の応答文との間の類似度を算出する応答文類似度算出手段と、
類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、接続語を再生し、第2の応答文の再生を開始する応答文再生手段と
を有することを特徴とする。
According to the present invention, in a system in which a terminal having a user interface capable of voice dialogue and a plurality of dialogue control servers are connected via a network,
A first dialog control server that returns a first response after receiving the user's utterance;
A second dialog control server that outputs a second response sentence having a longer response time and higher reliability of the response content than the first dialog control server after receiving the user's utterance sentence;
The terminal
Connection word storage means storing "connection word";
An utterance sentence input means for transmitting the user's utterance sentence to both the first dialog control server and the second dialog control server;
When the second response text is received from the second dialog control server during the playback time in which the first response text received from the first dialog control server is being played back by voice to the user, A response sentence similarity calculating means for calculating a similarity between the first response sentence and the second response sentence;
Response sentence reproduction means for reproducing a connected word and starting reproduction of a second response sentence continuously immediately after the reproduction of the first response sentence is finished when the similarity is not more than a first threshold value It is characterized by having.

本発明の端末、プログラム及びシステムによれば、ユーザとの対話の中で、応答時間とその応答内容の信頼度との間のトレードオフを考慮して応答文を再生することができる。   According to the terminal, the program, and the system of the present invention, it is possible to reproduce the response sentence in consideration of the trade-off between the response time and the reliability of the response content in the dialog with the user.

本発明における端末の機能構成図である。It is a function block diagram of the terminal in this invention. 応答文の第1の具体的な再生タイミングを表す説明図である。It is explanatory drawing showing the 1st specific reproduction | regeneration timing of a response sentence. 応答文の第2の具体的な再生タイミングを表す説明図である。It is explanatory drawing showing the 2nd concrete reproduction | regeneration timing of a response sentence. 応答文の第3の具体的な再生タイミングを表す説明図である。It is explanatory drawing showing the 3rd concrete reproduction | regeneration timing of a response sentence. 本発明における第1のシステム構成図である。It is a 1st system block diagram in this invention. 本発明における第2のシステム構成図である。It is a 2nd system block diagram in this invention.

以下、本発明の実施の形態について、図面を用いて詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明における端末の機能構成図である。   FIG. 1 is a functional configuration diagram of a terminal in the present invention.

図1によれば、端末1は、スマートフォンやタブレットのようなものであって、音声で対話可能なユーザインタフェースを有する。入力デバイスがマイクである場合、入力音声処理部101は、マイクによって取得された音声信号を発話文に変換し、その発話文を対話制御部へ入力する。また、出力デバイスがスピーカである場合、出力音声処理部102は、対話制御部から出力された応答文を音声信号に変換し、その音声信号をスピーカへ出力する。   According to FIG. 1, the terminal 1 is like a smartphone or a tablet, and has a user interface that allows voice interaction. When the input device is a microphone, the input voice processing unit 101 converts a voice signal acquired by the microphone into an utterance sentence, and inputs the utterance sentence to the dialogue control unit. When the output device is a speaker, the output voice processing unit 102 converts the response sentence output from the dialogue control unit into a voice signal, and outputs the voice signal to the speaker.

図1によれば、端末1は、発話文入力部111と、応答文類似度算出部112と、応答文再生部113と、接続語記憶部114と、第1の対話制御部121と、第2の対話制御部122とを有する。これら機能構成部は、端末に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。   According to FIG. 1, the terminal 1 includes an utterance sentence input unit 111, a response sentence similarity calculation unit 112, a response sentence reproduction unit 113, a connected word storage unit 114, a first dialog control unit 121, Two dialog control units 122. These functional components are realized by executing a program that causes a computer installed in the terminal to function.

[第1の対話制御部121・第2の対話制御部122]
対話制御部は、人同士の間の対話と同様に、人とシステムとの間で対話を成立させるものである。対話制御部は、自然言語の発話文を認識し、それに対して適切な応答文を出力する対話ロジックを有する。対話制御機能としては、例えば以下のような2種類がある。
シナリオ型の対話制御機能
統計型の対話制御機能
[First Dialog Control Unit 121 / Second Dialog Control Unit 122]
The dialogue control unit establishes a dialogue between the person and the system, similar to the dialogue between the people. The dialogue control unit has dialogue logic that recognizes a natural language utterance and outputs an appropriate response sentence. There are two types of dialogue control functions as follows, for example.
Scenario-type dialog control function Statistical-type dialog control function

シナリオ型の対話制御機能は、人手によって予め記述された固定的なシナリオで対話を進行する。タスク指向型であって、何らかの達成したいタスク(目的)が明確となっている用途に適する。固定的なシナリオは、事前の対話経験やシステムノウハウに基づいて予め設計されたものであって、対話ノード(又はノード群)間の遷移が固定となっている。   The scenario type dialogue control function proceeds with dialogue in a fixed scenario described in advance by hand. It is task-oriented and suitable for applications where the task (purpose) to be achieved is clear. The fixed scenario is designed in advance based on prior dialogue experience and system know-how, and the transition between dialogue nodes (or node groups) is fixed.

統計型の対話制御機能は、対話ノードを大量に蓄積し、現在の対話ノードに対して遷移確率が最大となる次の対話ノードへ遷移することによって、自然な対話を進行する。具体的なタスクを持たず、他の対話ノードへの遷移は前後の遷移確率によって決定される。この遷移確率は、機械学習によって、自動的に逐次更新されていく。   The statistical dialog control function advances a natural dialog by accumulating a large number of dialog nodes and transitioning to the next dialog node having the maximum transition probability with respect to the current dialog node. Without a specific task, the transition to another dialog node is determined by the preceding and following transition probabilities. This transition probability is automatically and sequentially updated by machine learning.

対話制御機能はそれぞれ、その特性に応じて、同じ発話文が入力されたとしても、異なる応答文を出力する。対話制御部における応答文の応答内容の信頼度Psは、平均対話正解率Pとリアルタイム制御信頼度スコアCとに基づいて、以下のように算出される。
Ps(N)=P(N)・C(N)
P(N):対話制御Nの平均対話正解率
C(N):対話制御Nからの応答文のリアルタイム制御信頼度スコア
Each dialog control function outputs a different response sentence even if the same utterance sentence is input according to the characteristic. The reliability Ps of the response content of the response sentence in the dialogue control unit is calculated as follows based on the average dialogue correct answer rate P and the real-time control reliability score C.
Ps (N) = P (N) ・ C (N)
P (N): Average dialogue correct answer rate of dialogue control N C (N): Real-time control reliability score of response sentence from dialogue control N

平均対話正解率P(N)は、予め用意された対話テストデータを当該対話制御部へ入力し、その応答文と事前作成の正解文とを比較して算出された比率である。
平均対話正解率P(N)=正解文数/全応答文数
The average dialogue correct answer rate P (N) is a ratio calculated by inputting preliminarily prepared dialogue test data to the dialogue control unit and comparing the response sentence with a pre-prepared correct answer sentence.
Average dialogue correct answer rate P (N) = number of correct sentences / number of all response sentences

リアルタイム制御信頼度スコアC(N)は、対話制御機能から出力された応答文に対して、リアルタイム計算された信頼できる尺度をいう。シナリオ型の対話制御について、C(N)は、ユーザの対話入力に対する意図理解の信頼度となる。例えば意図理解の統計モデルはサポートベクタマシン(SVM:Support Vector Machines)によって学習された場合に、意図理解の結果がSVMの分離平面からの距離を信頼度とする。また、統計型の対話制御機能については、機械学習手法による大量対話例文から確立した統計モデルに基づき、C(N)は、選択された応答文の最大遷移確率である。   The real-time control reliability score C (N) is a reliable measure calculated in real time for the response sentence output from the dialogue control function. For scenario-type dialog control, C (N) is the degree of intent understanding reliability for the user's dialog input. For example, when a statistical model of intent understanding is learned by Support Vector Machines (SVM), the reliability of the result of intent understanding is the distance from the separation plane of the SVM. In addition, regarding the statistical dialog control function, C (N) is the maximum transition probability of the selected response sentence based on a statistical model established from a large number of dialogue examples by machine learning techniques.

[発話文入力部111]
発話文入力部111は、入力音声処理部101から出力されたユーザの発話文を、第1の対話制御部121及び第2の対話制御部122の両方に入力する。
[Speech sentence input unit 111]
The utterance sentence input unit 111 inputs the user's utterance sentence output from the input voice processing unit 101 to both the first dialog control unit 121 and the second dialog control unit 122.

[応答文類似度算出部112]
応答文類似度算出部112は、第1の対話制御部121から出力された第1の応答文を、ユーザに対して音声で再生している「再生時間中」に、第2の対話制御部122から第2の応答文が出力された場合、第1の応答文と第2の応答文との間の「類似度」を算出する。応答文類似度算出部112は、第1の応答文の音声の「再生時間中」であることを、応答文再生部113と連携して認識する。
[Response sentence similarity calculation unit 112]
The response sentence similarity calculation unit 112 outputs the first response sentence output from the first dialog control unit 121 to the user during the “playback time” while playing back the first response sentence by voice. When the second response text is output from 122, the “similarity” between the first response text and the second response text is calculated. The response sentence similarity calculating unit 112 recognizes that the voice of the first response sentence is “during reproduction time” in cooperation with the response sentence reproduction unit 113.

ここで、「再生時間中」として、以下の2つのパターンがある。
(1)音声による第1の応答文の再生が完了するまで
(2)音声による第1の応答文の再生後、ユーザからの発話文が検出されるまで
即ち、第1の応答文に対して、ユーザが反応して発話しない限りは、できる限り信頼度の高い応答文を出力するようにする。
Here, there are the following two patterns as “during playback time”.
(1) Until reproduction of the first response sentence by voice is completed (2) After reproduction of the first response sentence by voice, until an utterance sentence from the user is detected, that is, for the first response sentence Unless the user responds and speaks, a response sentence with the highest reliability is output.

尚、第1の対話制御部121の信頼度Psよりも、第2の対話制御部122の信頼度Psの方が低い場合、第1の応答文の再生時間中に、第2の対話制御部122から第2の応答文が出力されても、応答文類似度算出部112は、類似度を算出することなく無視する。第1の応答文よりも信頼度の低い第2の応答文を、あえて再生する必要は無いためである。   When the reliability Ps of the second dialog control unit 122 is lower than the reliability Ps of the first dialog control unit 121, the second dialog control unit during the playback time of the first response sentence. Even if the second response sentence is output from 122, the response sentence similarity calculation unit 112 ignores the similarity without calculating the similarity. This is because it is not necessary to intentionally reproduce the second response sentence having lower reliability than the first response sentence.

応答文類似度算出部112は、「類似度」について、最初に、第1の応答文及び第2の応答文から形態素解析によって複数の単語を抽出する。そして、応答文類似度算出部112は、第1の応答文の単語と第2の応答文の単語との間の品詞又は意味を解析したベクトルを算出し、これらベクトルのコサイン類似度(Bag of wordsベース)を算出する。勿論、各応答文に対して、対話コーパスにおける出現頻度が高い重要語(名詞)を蓄積した重要語辞書を用いて、重要語を検出するものであってもよい。コサイン距離は、各応答文の中から抽出された単語及びその名詞種別に応じて算出される。例えば以下の概念式で算出される。
第1の応答文の単語の特徴ベクトル:D
第2の応答文の単語の特徴ベクトル:E
2つの文の類似度:sim(D,E)
sim(D,E)=cosθ=(D・E)/(|D||E|)
コサイン距離は、同じ単語同士である場合には類似度重みを1とし、同じカテゴリ同士である場合にも類似度重みを1とする。勿論、同じ単語カテゴリの類似度重みは、0〜1の間の値で設定可能である。
For the “similarity”, the response sentence similarity calculation unit 112 first extracts a plurality of words from the first response sentence and the second response sentence by morphological analysis. Then, the response sentence similarity calculation unit 112 calculates a vector obtained by analyzing the part of speech or the meaning between the words of the first response sentence and the words of the second response sentence, and the cosine similarity (Bag of words based). Of course, for each response sentence, a key word may be detected using a key word dictionary in which key words (nouns) having a high appearance frequency in the dialogue corpus are accumulated. The cosine distance is calculated according to the word extracted from each response sentence and its noun type. For example, it is calculated by the following conceptual formula.
Feature vector of word of first response sentence: D
Feature vector of word of second response sentence: E
Similarity between two sentences: sim (D, E)
sim (D, E) = cos θ = (D · E) / (| D || E |)
For the cosine distance, the similarity weight is set to 1 when the words are the same, and the similarity weight is set to 1 when the words are the same category. Of course, the similarity weight of the same word category can be set to a value between 0 and 1.

[応答文再生部113]
応答文再生部113は、類似度が第1の閾値以下の場合(類似度が低い場合)、第1の応答文の再生が終了した直後に連続して、第2の応答文の再生を開始する(後述する図2参照)。
また、応答文再生部113は、第1の応答文の音声による再生終了後に、第2の対話制御部122から第2の応答文が出力された場合、あえて、第2の応答文は再生されない(後述する図3参照)。
更に、応答文再生部113は、類似度が第1の閾値よりも高い場合(類似度が高い場合)、あえて、第2の応答文は再生されない(後述する図4参照)。
[Response sentence reproduction unit 113]
When the similarity is equal to or lower than the first threshold (when the similarity is low), the response sentence playback unit 113 starts playback of the second response sentence immediately after the end of playback of the first response sentence. (See FIG. 2 described later).
In addition, when the second response sentence is output from the second dialogue control unit 122 after the reproduction of the first response sentence by voice is completed, the response sentence reproducing unit 113 does not intentionally reproduce the second response sentence. (See FIG. 3 described later).
Furthermore, when the similarity is higher than the first threshold (when the similarity is high), the response sentence reproduction unit 113 does not reproduce the second response sentence (see FIG. 4 described later).

[接続語記憶部114]
接続語記憶部114は、「接続語」を記憶したものである。応答文再生部113は、第1の応答文の再生が終了した直後に連続して、接続語を再生し、第2の応答文の再生を開始するものであってもよい。当該類似度の所定範囲毎に対応付けられた「接続語」を、接続語記憶部114が記憶する。
[Connected word storage unit 114]
The connection word storage unit 114 stores “connection words”. The response sentence reproduction unit 113 may reproduce the connected word and start reproduction of the second response sentence immediately after the reproduction of the first response sentence is completed. The connection word storage unit 114 stores the “connection word” associated with each predetermined range of the similarity.

図2は、応答文の第1の具体的な再生タイミングを表す説明図である。   FIG. 2 is an explanatory diagram showing the first specific reproduction timing of the response sentence.

第1の対話制御部121及び第2の対話制御部122は、以下のようなトレードオフの関係にあるとする。
第1の対話制御部121:対話の応答時間が短いものの、応答内容の信頼度が低い
第2の対話制御部122:対話の応答時間が長いものの、応答内容の信頼度が高い
信頼度は、例えば以下のように決定される。
第1の対話制御部121:平均応答時間=0.7秒
平均対話正解率P(1)=0.65
システム信頼度C(1)=0.70
信頼度Ps(1)=C(1)×P(1)=0.455
第2の対話制御部122:平均応答時間=1.0秒
平均対話正解率P(2)=0.85
システム信頼度C(2)=0.70
信頼度Ps(2)=C(2)×P(2)=0.595
即ち、第1の対話制御部は、第2の対話制御部と比較して、対話の応答時間が短いものの、応答内容の信頼度が低いとする。
It is assumed that the first dialogue control unit 121 and the second dialogue control unit 122 have the following trade-off relationship.
First dialogue control unit 121: Although the response time of the dialogue is short, the reliability of the response content is low. Second dialogue control unit 122: Although the response time of the dialogue is long, the reliability of the response content is high. For example, it is determined as follows.
First dialog control unit 121: average response time = 0.7 seconds
Average dialog correct answer rate P (1) = 0.65
System reliability C (1) = 0.70
Reliability Ps (1) = C (1) × P (1) = 0.455
Second dialog control unit 122: average response time = 1.0 second
Average dialog correct answer rate P (2) = 0.85
System reliability C (2) = 0.70
Reliability Ps (2) = C (2) × P (2) = 0.595
That is, it is assumed that the first dialog control unit has a shorter response time of the dialog compared to the second dialog control unit, but the reliability of the response content is low.

(S21)ユーザが、マイクに向かって「明日の天気はどうですか?」と発話したとする。これに対し、入力音声処理部101は、音声認識によってその発話文を、発話文入力部111へ出力する。これに対し、発話文入力部111は、以下の発話文を、第1の対話制御部121及び第2の対話制御部122の両方へ入力する。
「明日の天気はどうですか?」
(S21) It is assumed that the user utters "How is the weather tomorrow?" On the other hand, the input voice processing unit 101 outputs the utterance sentence to the utterance sentence input unit 111 by voice recognition. On the other hand, the utterance sentence input unit 111 inputs the following utterance sentence to both the first dialog control unit 121 and the second dialog control unit 122.
"What's the forecast for tomorrow?"

(S221)これに対し、応答時間が短い第1の対話制御部121が、最初に、応答類似度算出部112へ、以下の応答文を出力したとする。
「明日予定はありません」
第1の対話制御部111は、応答時間が短いものの、応答内容の信頼度が比較的低いために、天気を問われているのに対し、予定を問われたと誤って判断したとする。
(S222)これに対し、応答類似度算出部112は、その応答文をそのまま、応答文再生部113へ出力する。
「明日予定はありません」
(S223)応答文再生部113は、出力音声処理部102に対して、以下のように順次発声し、スピーカからユーザへ応答する。
”あ”す”よ”て”い”は”あ”り”ま”せ”ん”
(この音声の発声には、例えば1.6秒の時間を要する)
(S221) On the other hand, it is assumed that the first dialog control unit 121 with a short response time first outputs the following response sentence to the response similarity calculation unit 112.
“No plans tomorrow”
It is assumed that the first dialog control unit 111 erroneously determines that the schedule is asked while the weather is asked because the reliability of the response content is relatively low although the response time is short.
(S222) On the other hand, the response similarity calculation unit 112 outputs the response sentence as it is to the response sentence reproduction unit 113.
“No plans tomorrow”
(S223) The response sentence reproduction unit 113 sequentially utters the output audio processing unit 102 as follows, and responds to the user from the speaker.
“Ah, you”, “Ah,” “Ah,” “Ah,” “Ah,” “Ah,” “You”
(This voice takes 1.6 seconds, for example)

(S231)次に、応答時間が長い第2の対話制御部122が、応答類似度算出部112へ、以下の応答文を出力したとする。ここで、この応答文は、S223によって応答再生部113が第1の応答文を発声し始めてから、1.6秒以内であるとする。
「明日天気は晴れです」
(S231) Next, it is assumed that the second dialogue control unit 122 having a long response time outputs the following response sentence to the response similarity calculation unit 112. Here, it is assumed that this response sentence is within 1.6 seconds after the response reproduction unit 113 starts to utter the first response sentence in S223.
"The weather will be sunny tomorrow"

(S232)応答文類似度算出部112は、第1の対話制御部121から出力された第1の応答文「明日予定はありません」を、ユーザに対して音声で再生している再生時間中であること認識している。この再生時間中に、第2の対話制御部122から第2の応答文「明日天気は晴れです」が出力された場合、第1の応答文と第2の応答文との間の類似度を算出する。
第1の応答文「明日予定はありません」
ベクトルとして検出される単語:「明日」「予定」「ない」
第2の応答文「明日天気は晴れです」
ベクトルとして検出される単語:「明日」「天気」「晴れ」
この場合、第1の応答文と第2の応答文とのコサイン距離は0.33となる。
(S232) The response sentence similarity calculation unit 112 reproduces the first response sentence “There is no tomorrow scheduled” output from the first dialogue control unit 121 to the user during the playback time. I recognize that there is. If the second response sentence “Tomorrow's weather is sunny” is output from the second dialogue control unit 122 during this playback time, the similarity between the first response sentence and the second response sentence is calculated. calculate.
The first response "There is no plan tomorrow"
Words detected as vectors: “Tomorrow”, “plan”, “not”
Second response sentence “Tomorrow's weather is sunny”
Words detected as vectors: “Tomorrow” “Weather” “Sunny”
In this case, the cosine distance between the first response sentence and the second response sentence is 0.33.

図2によれば、このコサイン距離が、第1の閾値Th1以下となり、第2の応答文を再生すべきと判定されたとする。このとき、応答文再生部113は、第1の応答文の再生が終了した直後に連続して、第2の応答文の再生を開始するものとする。   According to FIG. 2, it is assumed that the cosine distance is equal to or smaller than the first threshold Th1, and it is determined that the second response sentence should be reproduced. At this time, it is assumed that the response sentence reproduction unit 113 starts reproduction of the second response sentence immediately after the reproduction of the first response sentence is completed.

(S233)接続語記憶部114は、類似度が、第1の閾値以下であって、且つ、高い方から低い方へ複数の所定範囲に区分されている。応答文再生部113は、接続語記憶部114の類似度の範囲に対応して、接続語を選択して再生する。 (S233) In the connected word storage unit 114, the similarity is equal to or lower than the first threshold value, and is divided into a plurality of predetermined ranges from higher to lower. The response sentence reproducing unit 113 selects and reproduces the connected word corresponding to the similarity range of the connected word storage unit 114.

接続語記憶部114は、類似度が、第1の閾値Th1以下であって、且つ、高い方から低い方へ3段階の所定範囲に区分されており、以下のように接続語を対応付けて記憶する。
類似度>第1の閾値Th1 :第2の応答文を再生しない
第1の閾値Th1≧類似度>第2の閾値Th1 :「累加」の接続語
「累加」->「さらに」「そのうえ」
第2の閾値Th2≧類似度>第3の閾値Th3 :「逆接」の接続語
「逆接」->「しかし」「けれども」「と言いたいですが」「だからといって」
第3の閾値Th3≧類似度 :「転換」の接続語
「転換」->「ところで」「さて」「先ほどと別の事ですが」
例えば、Th1=0.8、Th2=0.5、Th3=0.3と設定してもよい。類似度が低くなるほど、話を転換する接続語が選択される。
図2によれば、応答文再生部113は、第1の応答文と第2の応答文との間のコサイン距離が例えば0.33である場合、逆接の接続語「けれども」が選択される。
The connected word storage unit 114 has a similarity degree equal to or lower than the first threshold Th1 and is divided into predetermined ranges of three levels from higher to lower, and associates connected words as follows: Remember.
Similarity> first threshold Th1: the second response sentence is not reproduced First threshold Th1 ≧ similarity> second threshold Th1: a conjunctive word “cumulative”
"Progress"->"More""Beyond"
Second threshold Th2 ≧ similarity> third threshold Th3: concatenation word of “reverse connection”
"Reverse connection"->"But""But""I want to say""That'swhy"
Third threshold Th3 ≧ similarity: conjunctive word for “conversion”
“Conversion”-> “By the way” “Well” “It ’s a different thing”
For example, Th1 = 0.8, Th2 = 0.5, and Th3 = 0.3 may be set. The lower the similarity, the more connected words that change the story are selected.
According to FIG. 2, when the cosine distance between the first response sentence and the second response sentence is, for example, 0.33, the response sentence reproduction unit 113 selects the reverse connection word “but”. .

(S234)応答文再生部113は、以下のように再生する。
”あ”す”よ”て”い”は”あ”り”ま”せ”ん”(1.6秒)
”け”れ”ど”も”(0.5秒)
(S234) The response sentence playback unit 113 plays back as follows.
“A”, “Y”, “T”, “A”, “R”, “M”, “N” (1.6 seconds)
“Ke” re ”do” mo ”(0.5 seconds)

(S235)応答文類似度算出部112は、第2の応答文「明日天気は晴れです」を、応答文再生部113へ出力する。
(S236)応答文再生部113は、以下のように再生する。
”あ”す”よ”て”い”は”あ”り”ま”せ”ん”(1.6秒)
”け”れ”ど”も”(0.5秒)
”あ”す”あ”す”の”て”ん”き”は”は”れ”で”す”(1.9秒)
(S235) The response sentence similarity calculating unit 112 outputs the second response sentence “Tomorrow's weather is sunny” to the response sentence reproducing unit 113.
(S236) The response sentence playback unit 113 plays back as follows.
“A”, “Y”, “T”, “A”, “R”, “M”, “N” (1.6 seconds)
“Ke” re ”do” mo ”(0.5 seconds)
"A""" A """""""""""""""""""""""""" (1.9 seconds) "

図2から明らかなとおり、応答時間が短く且つ信頼度が低い第1の対話制御部から出力された第1の応答文を再生し、その再生時間中に、応答時間が長く且つ信頼度が高い第2の対話制御部から第2の応答文が出力された場合、第1の応答文に第2の応答文を連続して再生する。また、第1の応答文と第2の応答文との間の類似度が第1の閾値よりも低い場合、その類似度に応じた接続語を、第1の応答文と第2の応答文との間に挿入して接続することによって、できる限り、ユーザに不自然さを感じさせないように応答することができる。   As is clear from FIG. 2, the first response sentence output from the first dialog control unit with a short response time and low reliability is reproduced, and during the reproduction time, the response time is long and the reliability is high. When the second response sentence is output from the second dialog control unit, the second response sentence is reproduced in succession to the first response sentence. Further, when the similarity between the first response sentence and the second response sentence is lower than the first threshold, a connection word corresponding to the similarity is used as the first response sentence and the second response sentence. By inserting and connecting between the two, it is possible to respond so as not to make the user feel unnatural as much as possible.

図3は、応答文の第2の具体的な再生タイミングを表す説明図である。   FIG. 3 is an explanatory diagram showing a second specific reproduction timing of the response sentence.

図3によれば、応答文再生部113は、第1の応答文「明日予定はありません」の音声による再生終了後に、第2の対話制御部122から第2の応答文「明日天気は晴れです」が出力された場合、あえて、第2の応答文は再生されない。通常、応答文の再生が一旦途切れた後、ユーザは直ぐ反応しようとする。第1の応答文「明日予定はありません」を再生した後、一旦途切れ、その後、第2の応答文「明日天気は晴れです」を再生しまうと、ユーザの発話とぶつかる可能性が高いためである。   According to FIG. 3, the response sentence reproduction unit 113 receives the second response sentence “Tomorrow's weather is sunny” from the second dialogue control unit 122 after the reproduction of the first response sentence “No tomorrow is scheduled” by voice. ”Is output, the second response sentence is not reproduced. Normally, the user tries to react immediately after playback of the response text is interrupted. This is because if the first response sentence “There is no plan tomorrow” is interrupted and then the second response sentence “Tomorrow's weather is sunny” is played, then there is a high possibility that it will collide with the user's utterance. .

図4は、応答文の第3の具体的な再生タイミングを表す説明図である。   FIG. 4 is an explanatory diagram showing a third specific reproduction timing of the response sentence.

図4によれば、応答文再生部113は、類似度が第1の閾値よりも高い場合(類似度が高い場合)、あえて、第2の応答文は再生されない。類似度が高いということは、同じ意味合いの応答文を2回連続して再生することになるためである。   According to FIG. 4, when the similarity is higher than the first threshold (when the similarity is high), the response sentence reproducing unit 113 does not reproduce the second response sentence. The high degree of similarity is because response sentences having the same meaning are reproduced twice in succession.

図5は、本発明における第1のシステム構成図である。   FIG. 5 is a first system configuration diagram in the present invention.

図5によれば、第1の対話制御部121は、端末1内に備えられ、第2の対話制御部122は、ネットワークを介して外部サーバに備えられている。端末1は、一般に、少ないメモリ量と低い演算処理能力であるために、対話の応答時間は短いが、応答内容の信頼度が低い軽量の対話制御部しか搭載できない。一方で、外部サーバは、大きいメモリ量と高い演算処理能力であるために、対話の応答時間は長いものの、応答内容の信頼度が高い対話制御部を搭載することができる。   According to FIG. 5, the first dialog control unit 121 is provided in the terminal 1, and the second dialog control unit 122 is provided in an external server via a network. Since the terminal 1 generally has a small amount of memory and low arithmetic processing capability, the response time of the dialogue is short, but only a lightweight dialogue control unit with low reliability of the response content can be mounted. On the other hand, since the external server has a large amount of memory and a high arithmetic processing capacity, it is possible to mount a dialogue control unit with a high reliability of response contents although the response time of the dialogue is long.

図6は、本発明における第2のシステム構成図である。   FIG. 6 is a second system configuration diagram according to the present invention.

図6によれば、第1の対話制御部121及び第2の対話制御部122の両方とも、ネットワークを介して外部サーバに備えられている。端末1には、対話制御機能を備えないために、応答時間は比較的長くなるものの、外部サーバの多様な対話制御機能を用いることができる。   According to FIG. 6, both the first dialog control unit 121 and the second dialog control unit 122 are provided in an external server via a network. Since the terminal 1 does not have a dialog control function, the response time is relatively long, but various dialog control functions of an external server can be used.

<3つ以上の対話制御部>
前述した実施形態によれば、2つの対話制御部について説明したが、勿論、3つ以上搭載されたものであってもよい。対話制御部それぞれについて、対話の応答時間や、応答内容の信頼度に差が生じる。具体的には、第1の対話制御部121を基準として、複数の異なる種類の第2の対話制御部122を搭載するものであってもよい。
<3 or more dialog control units>
According to the above-described embodiment, the two dialog control units have been described. Of course, three or more dialog control units may be mounted. For each dialog control unit, there is a difference in the response time of the dialog and the reliability of the response content. Specifically, a plurality of different types of second dialogue control units 122 may be mounted on the basis of the first dialogue control unit 121.

例えば以下のように、対話制御部毎に、以下のように信頼度が設定されているとする。
第1の対話制御部121 :信頼度Ps(1)=0.455
第1の応答文 「明日予定はありません」
第21の対話制御部122:信頼度Ps(2)=0.595
第21の応答文「明日天気は晴れです」
第22の対話制御部122:信頼度Ps(3)=0.720
第22の応答文「明日の降水確率は20%です」
For example, it is assumed that the reliability is set as follows for each dialogue control unit as follows.
First dialogue control unit 121: reliability Ps (1) = 0.455
The first response "There is no plan tomorrow"
21st dialogue control unit 122: reliability Ps (2) = 0.595
The 21st response "Tomorrow's weather is fine"
Twenty-second dialog control unit 122: reliability Ps (3) = 0.720
The 22nd response sentence "The chance of precipitation tomorrow is 20%"

応答文類似度算出部112は、第1の対話制御部121から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、第21の対話制御部122と第22の対話制御部123からそれぞれ第2の応答文が出力された場合、応答内容の信頼度Psが最も高い第22の対話制御部123から出力された第2の応答文と第1の応答文との間の類似度を算出する。ここで、第1の応答文と第22の応答文との間のコサイン距離が例えば0.29であるとする。   The response sentence similarity calculation unit 112 is connected to the 21st dialog control unit 122 during the playback time during which the first response sentence output from the first dialog control unit 121 is played back to the user by voice. When the second response sentence is output from the twenty-second dialog control unit 123, the second response sentence and the first response output from the twenty-second dialog control unit 123 having the highest reliability Ps of the response content. Calculate similarity between sentences. Here, it is assumed that the cosine distance between the first response sentence and the twenty-second response sentence is 0.29, for example.

これに対し、応答文再生部113は、逆接の接続語「ところで」が選択される。最終的に、応答文再生部113は、以下のように再生する。
”あ”す”よ”て”い”は”あ”り”ま”せ”ん”(1.6秒)
”と”こ”ろ”で”(0.5秒)
”あ”す”の”こ”う”す”い”か”く”り”つ”は”に”じゅ”っ”ぱ”―”せ”ん”と”で”す”(2.7秒)
On the other hand, the response sentence reproduction unit 113 selects the reverse connection word “by the way”. Finally, the response sentence reproduction unit 113 reproduces as follows.
“A”, “Y”, “T”, “A”, “R”, “M”, “N” (1.6 seconds)
"To" and "Kororo""(0.5 seconds)
“A” su “ko” u “su” i ”or“ ku ”ri“ tsu ”is“ ju ”“ pa ”-“ se ”and“ su ”(2.7 seconds) )

以上、詳細に説明したように、本発明の端末、プログラム及びシステムによれば、ユーザとの対話の中で、応答時間とその応答内容の信頼度との間のトレードオフを考慮して応答文を再生することができる。特に、ユーザの発話文に対して応答時間が短くなると共に、一連の応答文の中で、最終的にできる限り信頼度の高い応答文を再生することができる。   As described above in detail, according to the terminal, the program, and the system of the present invention, in the dialogue with the user, the response sentence is considered in consideration of the trade-off between the response time and the reliability of the response content. Can be played. In particular, the response time is shortened with respect to the user's utterance sentence, and the response sentence having the highest reliability can be reproduced in the series of response sentences.

尚、本発明は、ユーザ操作に基づく端末のディスプレイに「キャラクタ・エージェント」を表示し、ユーザとエージェントとが音声による対話を進める、音声対話システムに適する。   The present invention is suitable for a voice dialogue system in which a “character agent” is displayed on a display of a terminal based on a user operation, and a dialogue between a user and an agent is advanced.

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。   Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.

1 端末
111 発話文入力部
112 応答文類似度算出部
113 応答文再生部
114 接続語記憶部
121 第1の対話制御部
122 第2の対話制御部
21、22 サーバ
DESCRIPTION OF SYMBOLS 1 Terminal 111 Utterance sentence input part 112 Response sentence similarity calculation part 113 Response sentence reproduction | regeneration part 114 Conjunction memory | storage part 121 1st dialog control part 122 2nd dialog control part 21, 22 Server

Claims (11)

音声で対話可能なユーザインタフェースを有する端末において、
ユーザの発話文の入力後、第1の応答文を出力する第1の対話制御手段と、
「接続語」を記憶した接続語記憶手段と、
ユーザの発話文の入力後、第1の対話制御手段よりも、応答時間が長く且つその応答内容の信頼度が高い第2の応答文を出力する第2の対話制御手段と、
第1の対話制御手段及び第2の対話制御手段の両方に、ユーザの発話文を入力する発話文入力手段と、
第1の対話制御手段から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、第2の対話制御手段から第2の応答文が出力された場合、第1の応答文と第2の応答文との間の類似度を算出する応答文類似度算出手段と、
前記類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、前記接続語を再生し、第2の応答文の再生を開始する応答文再生手段と
を有することを特徴とする端末。
In a terminal having a user interface capable of voice interaction,
A first dialog control means for outputting a first response sentence after inputting the user's utterance sentence;
Connection word storage means storing "connection word";
A second dialogue control means for outputting a second response sentence having a longer response time and higher reliability of the response content than the first dialogue control means after the user's utterance sentence is input;
An utterance sentence input means for inputting the user's utterance sentence to both the first dialog control means and the second dialog control means;
When the second response text is output from the second dialog control means during the playback time in which the first response text output from the first dialog control means is played back to the user by voice, Response sentence similarity calculating means for calculating the similarity between the first response sentence and the second response sentence;
If the similarity is less than or equal to the first threshold and is not similar, response sentence playback that plays back the connected word and starts playback of the second response sentence immediately after the end of playback of the first response sentence And a terminal.
前記接続語記憶手段は、前記類似度が、第1の閾値以下であって、且つ、高い方から低い方へ複数の所定範囲に区分されており、当該類似度の所定範囲毎に「接続語」が対応付けて記憶されており、
前記応答文再生手段は、前記接続語記憶手段を用いて前記類似度に対応する接続語を選択する
ことを特徴とする請求項に記載の端末。
The connection word storage means is divided into a plurality of predetermined ranges in which the similarity is equal to or less than a first threshold and is higher to lower. "Is stored in association with each other,
The terminal according to claim 1 , wherein the response sentence reproduction unit selects a connection word corresponding to the similarity using the connection word storage unit.
前記接続語記憶手段は、前記類似度が、第1の閾値Th1以下であって、且つ、高い方から低い方へ3段階の所定範囲に区分されており、以下のように接続語を対応付けて記憶する
類似度>第1の閾値Th1 :第2の応答文を再生しない
第1の閾値Th1≧類似度>第2の閾値Th1 :累加の接続語
第2の閾値Th2≧類似度>第3の閾値Th3 :逆接の接続語
第3の閾値Th3≧類似度 :転換の接続語
ことを特徴とする請求項に記載の端末。
The connection word storage means is divided into a predetermined range of three levels from the higher to the lower with the similarity being equal to or less than the first threshold Th1, and associating the connection words as follows: Similarity> First threshold Th1: Do not reproduce second response sentence First threshold Th1 ≧ similarity> Second threshold Th1: Cumulative connection word Second threshold Th2 ≧ Similarity> Third The terminal according to claim 2 , wherein the threshold value Th 3 is a reverse connection word, and the third threshold value Th 3 ≧ similarity is a conversion connection word.
前記応答文類似度算出手段は、前記再生時間中として
(1)音声による第1の応答文の再生が完了するまで
(2)音声による第1の応答文の再生後、ユーザからの発話文が検出されるまで
であることを特徴とする請求項1からのいずれか1項に記載の端末。
The response sentence similarity calculation means determines that during the reproduction time, (1) until reproduction of the first response sentence by voice is completed. (2) After reproduction of the first response sentence by voice, an utterance sentence from the user is received. The terminal according to any one of claims 1 to 3 , wherein the terminal is detected.
第1の対話制御手段及び第2の対話制御手段は、シナリオ型又は統計型の対話制御機能であることを特徴とする請求項1からのいずれか1項に記載の端末。 The terminal according to any one of claims 1 to 4 , wherein the first dialog control means and the second dialog control means have a scenario type or statistical type dialog control function. 第1の対話制御手段及び第2の対話制御手段はそれぞれ、応答文と共に信頼度を出力するものであり、
第2の対話制御手段は、複数、備えられており、
前記応答文類似度算出手段は、第1の対話制御手段から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、複数の第2の対話制御手段から第2の応答文が出力された場合、応答内容の信頼度が最も高い第2の対話制御手段から出力された第2の応答文と第1の応答文との間の類似度を算出する
を有することを特徴とする請求項1からのいずれか1項に記載の端末。
Each of the first dialogue control means and the second dialogue control means outputs a reliability together with a response sentence.
A plurality of second dialogue control means are provided,
The response sentence similarity calculating means receives a first response sentence output from the first dialog control means from a plurality of second dialog control means during a playback time during which the user is playing back by voice. When the second response sentence is output, the similarity between the second response sentence output from the second dialogue control means with the highest reliability of the response content and the first response sentence is calculated. terminal according to claim 1, any one of 5, characterized in that it has.
第1の対話制御手段及び第2の対話制御手段における前記信頼度は、平均対話正解率Pとリアルタイム制御信頼度スコアCとに基づいて算出されるものである
ことを特徴とする請求項に記載の端末。
The confidence in the first dialogue control means and the second interaction control device, it is intended to be calculated on the basis of the average interaction correct answer rate P and real-time control confidence score C to claim 6, wherein The listed terminal.
前記応答文類似度算出手段は、第1の応答文及び第2の応答文について形態素解析によって複数の単語を抽出し、第1の応答文の単語と第2の応答文の単語との間の品詞又は意味を解析したベクトルを算出し、これらベクトルのコサイン類似度を算出する
ことを特徴とする請求項1からのいずれか1項に記載の端末。
The response sentence similarity calculating means extracts a plurality of words by morphological analysis for the first response sentence and the second response sentence, and between the first response sentence word and the second response sentence word The terminal according to any one of claims 1 to 7 , wherein a vector obtained by analyzing part of speech or meaning is calculated, and a cosine similarity of these vectors is calculated.
音声で対話可能なユーザインタフェースを有する端末に搭載されたコンピュータを機能させるプログラムにおいて、
ユーザの発話文の入力後、第1の応答文を出力する第1の対話制御手段と、
「接続語」を記憶した接続語記憶手段と、
ユーザの発話文の入力後、第1の対話制御手段よりも、応答時間が長く且つその応答内容の信頼度が高い第2の応答文を出力する第2の対話制御手段と、
第1の対話制御手段及び第2の対話制御手段の両方に、ユーザの発話文を入力する発話文入力手段と、
第1の対話制御手段から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、第2の対話制御手段から第2の応答文が出力された場合、第1の応答文と第2の応答文との間の類似度を算出する応答文類似度算出手段と、
前記類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、前記接続語を再生し、第2の応答文の再生を開始する応答文再生手段と
してコンピュータを機能させることを特徴とするプログラム。
In a program for causing a computer mounted on a terminal having a user interface capable of voice interaction to function,
A first dialog control means for outputting a first response sentence after inputting the user's utterance sentence;
Connection word storage means storing "connection word";
A second dialogue control means for outputting a second response sentence having a longer response time and higher reliability of the response content than the first dialogue control means after the user's utterance sentence is input;
An utterance sentence input means for inputting the user's utterance sentence to both the first dialog control means and the second dialog control means;
When the second response text is output from the second dialog control means during the playback time in which the first response text output from the first dialog control means is played back to the user by voice, Response sentence similarity calculating means for calculating the similarity between the first response sentence and the second response sentence;
If the similarity is less than or equal to the first threshold and is not similar, response sentence playback that plays back the connected word and starts playback of the second response sentence immediately after the end of playback of the first response sentence A program that causes a computer to function as means.
音声で対話可能なユーザインタフェースを有する端末と、対話制御サーバとがネットワークを介して接続されたシステムにおいて、
前記端末は、
ーザの発話文の入力後、第1の応答文を出力する第1の対話制御手段と、
「接続語」を記憶した接続語記憶手段と
を有し、
前記サーバは、ユーザの発話文の入力後、第1の対話制御手段よりも、応答時間が長く且つその応答内容の信頼度が高い第2の応答文を出力する第2の対話制御手段を有し、
前記端末は、
ユーザの発話文を、第1の対話制御手段へ入力すると共に、前記サーバの第2の対話制御手段へ送信する発話文入力手段と、
第1の対話制御手段から出力された第1の応答文を、ユーザに対して音声で再生している再生時間中に、第2の対話制御手段から第2の応答文が受信された場合、第1の応答文と第2の応答文との間の類似度を算出する応答文類似度算出手段と、
前記類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、前記接続語を再生し、第2の応答文の再生を開始する応答文再生手段と
を有することを特徴とするシステム。
In a system in which a terminal having a user interface capable of voice communication and a dialog control server are connected via a network,
The terminal
After input of the utterance Yu chromatography The, the first dialogue control means for outputting a first answering sentence,
Connection word storage means storing "connection words" , and
The server has second dialog control means for outputting a second response sentence having a longer response time and higher reliability of the response content than the first dialog control means after inputting the user's utterance sentence. And
The terminal
An utterance sentence input means for inputting the user's utterance sentence to the first dialog control means and transmitting to the second dialog control means of the server;
When the second response text is received from the second dialog control means during the playback time in which the first response text output from the first dialog control means is played back to the user by voice, Response sentence similarity calculating means for calculating the similarity between the first response sentence and the second response sentence;
If the similarity is less than or equal to the first threshold and is not similar, response sentence playback that plays back the connected word and starts playback of the second response sentence immediately after the end of playback of the first response sentence And a system.
音声で対話可能なユーザインタフェースを有する端末と、複数の対話制御サーバとがネットワークを介して接続されたシステムにおいて、
ユーザの発話文の受信後、第1の応答文を返信する第1の対話制御サーバと、
ユーザの発話文の受信後、第1の対話制御サーバよりも、応答時間が長く且つその応答内容の信頼度が高い第2の応答文を出力する第2の対話制御サーバと
を有し、
前記端末は、
「接続語」を記憶した接続語記憶手段と、
第1の対話制御サーバと第2の対話制御サーバとの両方へ、ユーザの発話文を送信する発話文入力手段と、
第1の対話制御サーバから受信した第1の応答文を、ユーザに対して音声で再生している再生時間中に、第2の対話制御サーバから第2の応答文が受信された場合、第1の応答文と第2の応答文との間の類似度を算出する応答文類似度算出手段と、
前記類似度が第1の閾値以下で類似しない場合、第1の応答文の再生が終了した直後に連続して、前記接続語を再生し、第2の応答文の再生を開始する応答文再生手段と
を有することを特徴とするシステム。
In a system in which a terminal having a user interface capable of voice interaction and a plurality of dialogue control servers are connected via a network,
A first dialog control server that returns a first response after receiving the user's utterance;
A second dialog control server that outputs a second response sentence having a longer response time and higher reliability of the response content than the first dialog control server after receiving the user's utterance sentence;
The terminal
Connection word storage means storing "connection word";
An utterance sentence input means for transmitting the user's utterance sentence to both the first dialog control server and the second dialog control server;
When the second response text is received from the second dialog control server during the playback time in which the first response text received from the first dialog control server is being played back by voice to the user, A response sentence similarity calculating means for calculating a similarity between the first response sentence and the second response sentence;
If the similarity is less than or equal to the first threshold and is not similar, response sentence playback that plays back the connected word and starts playback of the second response sentence immediately after the end of playback of the first response sentence And a system.
JP2014129678A 2014-06-24 2014-06-24 Terminal, program, and system for reproducing response sentence using a plurality of different dialogue control units simultaneously Active JP6306447B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014129678A JP6306447B2 (en) 2014-06-24 2014-06-24 Terminal, program, and system for reproducing response sentence using a plurality of different dialogue control units simultaneously

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014129678A JP6306447B2 (en) 2014-06-24 2014-06-24 Terminal, program, and system for reproducing response sentence using a plurality of different dialogue control units simultaneously

Publications (2)

Publication Number Publication Date
JP2016009091A JP2016009091A (en) 2016-01-18
JP6306447B2 true JP6306447B2 (en) 2018-04-04

Family

ID=55226672

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014129678A Active JP6306447B2 (en) 2014-06-24 2014-06-24 Terminal, program, and system for reproducing response sentence using a plurality of different dialogue control units simultaneously

Country Status (1)

Country Link
JP (1) JP6306447B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101996557B1 (en) * 2017-08-09 2019-07-05 동국대학교 산학협력단 Apparatus and method for automatic counselling based on case-based reasoning and morphological similarity
JP6647475B2 (en) * 2017-11-29 2020-02-14 三菱電機株式会社 Language processing apparatus, language processing system, and language processing method
CN113761138B (en) * 2020-06-02 2024-02-02 阿里巴巴集团控股有限公司 Dialogue system, dialogue method, dialogue device, electronic equipment and computer readable storage medium

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006039120A (en) * 2004-07-26 2006-02-09 Sony Corp Interactive device and interactive method, program and recording medium
JP5166503B2 (en) * 2010-10-28 2013-03-21 株式会社東芝 Interactive device

Also Published As

Publication number Publication date
JP2016009091A (en) 2016-01-18

Similar Documents

Publication Publication Date Title
US11133027B1 (en) Context driven device arbitration
US11600291B1 (en) Device selection from audio data
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
US11289087B2 (en) Context-based device arbitration
US11138977B1 (en) Determining device groups
US20210193176A1 (en) Context-based detection of end-point of utterance
US11676575B2 (en) On-device learning in a hybrid speech processing system
CN108536802B (en) Interaction method and device based on child emotion
US10339166B1 (en) Systems and methods for providing natural responses to commands
US11355098B1 (en) Centralized feedback service for performance of virtual assistant
US20210142794A1 (en) Speech processing dialog management
CN108694940B (en) Voice recognition method and device and electronic equipment
CN106980624B (en) Text data processing method and device
US10089974B2 (en) Speech recognition and text-to-speech learning system
CN112767916A (en) Voice interaction method, device, equipment, medium and product of intelligent voice equipment
JP6306447B2 (en) Terminal, program, and system for reproducing response sentence using a plurality of different dialogue control units simultaneously
CN118020100A (en) Voice data processing method and device
US10424292B1 (en) System for recognizing and responding to environmental noises
CN112951219A (en) Noise rejection method and device
US20220161131A1 (en) Systems and devices for controlling network applications
CN114495981A (en) Method, device, equipment, storage medium and product for judging voice endpoint
CN112820281B (en) Voice recognition method, device and equipment
CN112397053B (en) Voice recognition method and device, electronic equipment and readable storage medium
US11328713B1 (en) On-device contextual understanding
CN113223513A (en) Voice conversion method, device, equipment and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180308

R150 Certificate of patent or registration of utility model

Ref document number: 6306447

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150