JP2016020963A - Interaction evaluation device, interaction evaluation system, interaction evaluation method, and interaction evaluation program - Google Patents
Interaction evaluation device, interaction evaluation system, interaction evaluation method, and interaction evaluation program Download PDFInfo
- Publication number
- JP2016020963A JP2016020963A JP2014144179A JP2014144179A JP2016020963A JP 2016020963 A JP2016020963 A JP 2016020963A JP 2014144179 A JP2014144179 A JP 2014144179A JP 2014144179 A JP2014144179 A JP 2014144179A JP 2016020963 A JP2016020963 A JP 2016020963A
- Authority
- JP
- Japan
- Prior art keywords
- dialogue
- evaluation
- user
- unit
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、擬似的なコミュニケーションを評価する対話評価装置、対話評価システム、対話評価方法および対話評価プログラムに関する。 The present invention relates to a dialog evaluation apparatus, a dialog evaluation system, a dialog evaluation method, and a dialog evaluation program for evaluating pseudo communication.
対話装置として、ユーザと対話可能なロボット装置が提案されている(特許文献1)。
当該装置では、学習機能を有しており、ユーザによるロボット装置を撫でる等の動作を検知して、ユーザにより褒められた行動を当該装置が学習することによりユーザの好みに合うように応答内容を変更する方式が採用されている。
As an interactive device, a robot device capable of interacting with a user has been proposed (Patent Document 1).
The device has a learning function, detects an operation such as stroking the robot device by the user, and the device learns the action given up by the user so that the device can respond to the user's preference. The change method is adopted.
一方で、上記ロボット装置ではユーザによる撫でる等の動作により、ユーザの好み等を学習するものであり、ユーザとの対話を分析して評価する方式ではない。 On the other hand, the robot apparatus learns the user's preferences and the like by the operation such as the user's stroke, and is not a method of analyzing and evaluating the dialogue with the user.
本発明は、上記課題を解決するためになされたものであって、ユーザとの対話を評価することが可能な対話評価装置、対話評価システム、対話評価方法および対話評価プログラムを提供することを目的とする。 The present invention has been made to solve the above-described problem, and an object of the present invention is to provide a dialog evaluation apparatus, a dialog evaluation system, a dialog evaluation method, and a dialog evaluation program capable of evaluating a dialog with a user. And
本発明のある局面に従う対話評価装置は、ユーザと対話するための対話情報を記憶する記憶部と、記憶部に記憶された対話情報に基づいてユーザとの間で対話処理を実行する対話部と、対話処理におけるユーザからの入力を受け付ける入力受付部と、入力受付部で受け付けた入力の態様に基づいてユーザとの対話に関する快適度を算出する評価部とを備える。 A dialogue evaluation apparatus according to an aspect of the present invention includes a storage unit that stores dialogue information for interacting with a user, and a dialogue unit that executes dialogue processing with the user based on the dialogue information stored in the storage unit. An input receiving unit that receives an input from the user in the dialogue process, and an evaluation unit that calculates a comfort level related to the dialogue with the user based on an input mode received by the input receiving unit.
好ましくは、対話部は、記憶部に記憶された対話情報に基づいてユーザとの間で対話処理を実行し、入力受付部は、対話処理におけるユーザからの音声入力を受け付ける。 Preferably, the dialogue unit executes a dialogue process with the user based on the dialogue information stored in the storage unit, and the input reception unit receives a voice input from the user in the dialogue process.
特に、評価部は、対話処理におけるユーザからの音声入力の応答内容、応答速度、口調の少なくとも1つに基づいてユーザとの対話に関する快適度を算出する。 In particular, the evaluation unit calculates the degree of comfort related to the dialogue with the user based on at least one of the response content, the response speed, and the tone of the voice input from the user in the dialogue processing.
特に、評価部は、複数回の対話処理におけるユーザからの音声入力の態様に基づいてユーザとの対話に関する快適度を算出する。 In particular, the evaluation unit calculates the degree of comfort related to the dialogue with the user based on the manner of voice input from the user in a plurality of dialogue processes.
本発明のある局面に従う対話評価システムは、ユーザと対話するための対話情報を記憶する記憶部と、記憶部に記憶された対話情報に基づいてユーザとの間で対話処理を実行する対話部と、対話処理におけるユーザからの入力を受け付ける入力受付部と、入力受付部で受け付けた入力の態様に基づいてユーザとの対話に関する快適度を算出する評価部とを備える。 A dialog evaluation system according to an aspect of the present invention includes a storage unit that stores dialog information for interacting with a user, and a dialog unit that executes dialog processing with the user based on the dialog information stored in the storage unit. An input receiving unit that receives an input from the user in the dialogue process, and an evaluation unit that calculates a comfort level related to the dialogue with the user based on an input mode received by the input receiving unit.
本発明のある局面に従う対話評価方法は、ユーザと対話するための対話情報に基づいてユーザとの間で対話処理を実行するステップと、対話処理におけるユーザからの入力を受け付けるステップと、受け付けた入力の態様に基づいてユーザとの対話に関する快適度を算出するステップとを備える。 A dialog evaluation method according to an aspect of the present invention includes a step of executing a dialog process with a user based on dialog information for dialog with the user, a step of receiving an input from the user in the dialog process, and a received input And calculating a comfort level related to the dialogue with the user based on the above aspect.
本発明のある局面に従う対話評価プログラムは、コンピュータにおいて実行される対話評価プログラムであって、対話評価プログラムは、コンピュータに対して、ユーザと対話するための対話情報に基づいてユーザとの間で対話処理を実行するステップと、対話処理におけるユーザからの入力を受け付けるステップと、受け付けた入力の態様に基づいてユーザとの対話に関する快適度を算出するステップとを備える。 A dialogue evaluation program according to an aspect of the present invention is a dialogue evaluation program executed on a computer, and the dialogue evaluation program interacts with a computer based on dialogue information for interacting with the user. A step of executing a process; a step of receiving an input from the user in the interactive process; and a step of calculating a comfort level related to the dialog with the user based on the received input mode.
本発明の一態様によれば、ユーザとの対話を評価することが可能である。 According to one aspect of the present invention, it is possible to evaluate a dialog with a user.
本実施の形態について、以下、図面を参照しながら説明する。実施の形態の説明において、個数および量などに言及する場合、特に記載がある場合を除き、本発明の範囲は必ずしもその個数およびその量などに限定されない。実施の形態の説明において、同一の部品および相当部品に対しては、同一の参照番号を付し、重複する説明は繰り返さない場合がある。特に制限が無い限り、実施の形態に示す構成に示す構成を適宜組み合わせて用いることは、当初から予定されていることである。 The present embodiment will be described below with reference to the drawings. In the description of the embodiments, when the number and amount are referred to, the scope of the present invention is not necessarily limited to the number and amount unless otherwise specified. In the description of the embodiments, the same parts and corresponding parts are denoted by the same reference numerals, and redundant description may not be repeated. Unless there is a restriction | limiting in particular, it is planned from the beginning to use suitably combining the structure shown to the structure shown to embodiment.
<実施形態1>
(対話システム1の構成)
図1は、本実施形態1に基づく対話システム1について説明する図である。
<
(Configuration of Dialog System 1)
FIG. 1 is a diagram illustrating a
図1を参照して、本実施形態1に基づく対話システム1は、対話装置10と、評価装置20とにより構成されている。
With reference to FIG. 1, the
対話装置10は、評価装置20と通信可能に設けられている。なお、本例においては、対話装置10に評価装置20とが直接通信する場合について説明するが、ネットワークを介して評価装置20と通信する方式としてもよい。
The
対話システム1は、一例として対話装置10から人間(ユーザ)に対して音声が出力され、これに対して対話装置10に人間(ユーザ)が発した音声が入力されると、音声認識されて、入力された音声に対する応答内容を表す音声(以降では、「音声応答」とも記載)を、対話装置10から出力する。当該処理を繰り返すことにより、本実施形態に係る対話システム1は、ユーザと、対話装置10との疑似的なコミュニケーション(会話あるいは対話)を実現する。
As an example, the
なお、本実施形態では、対話装置10の一例として、音声を認識してユーザに対して音声応答を出力することが可能な装置であればどのようなものでもよく、例えば、掃除機能を有する掃除ロボットや、対話機能を有する人形や、他の家電(例えば、テレビ、電子レンジなど)などを、対話装置として採用することもできる。
In the present embodiment, as an example of the
また、評価装置20は、対話装置10と人間との間の対話の態様を分析して評価する。評価装置20は、対話装置10と人間との間の対話の態様として円滑なコミュニケーションが図られていると判断した場合には評価を高くし、円滑なコミュニケーションが図られていないと判断した場合には評価を低くする。
Further, the
円滑なコミュニケーションが図られているか否かの評価の指標として、一例としてユーザとの対話に関する快適度あるいは好適度を定義する。快適度あるいは好適度は、ユーザが対話に関して快適あるいは好適であると感じている度合を数値化したものである。 As an example of an index for evaluating whether or not smooth communication is being achieved, a comfort level or a preference level regarding a dialog with a user is defined as an example. The comfort level or the suitable level is a numerical value of the degree that the user feels comfortable or preferable with respect to the dialogue.
例えば、気の利いた対話処理が実現されている場合には快適度あるいは好適度は高く、逆に的外れな気が利かない対話処理が実現されている場合には快適度あるいは好適度は低くなるように設定される。快適度あるいは好適度は、対話を分析した結果に基づいて種々の方式に基づいて算出することが可能であるが、本例においては、対話を分析した結果として得られる応答内容、応答速度、口調の少なくとも1つのパラメータに基づいて判断する。 For example, comfort or preference is high when nifty dialogue processing is realized, and comfort or suitability is low when non-intuitive dialogue processing is realized. Is set as follows. The comfort level or the suitability level can be calculated based on various methods based on the analysis result of the dialogue, but in this example, the response content, the response speed, the tone, which are obtained as a result of analyzing the dialogue. The determination is made based on at least one of the parameters.
なお、本例においては、主に音声を用いた対話について説明するが、対話が可能な形式であればどのような形式でもよく、例えばSNS(social networking service)を利用した文字等による対話についても同様に適用可能である。 In this example, dialogue using voice is mainly described. However, any format can be used as long as dialogue is possible. For example, dialogue using characters using social networking service (SNS) is also possible. The same applies.
また、人間と対話装置10との間でコミュニケーションを図ることができればどのような対話形式でもよく、ともに音声対話を用いる必要はなく、異なる対話形式を採用しても良い。具体的には、一方が音声で、他方が文字あるいはジェスチャー等を組み合わせた対話であっても良い。
In addition, any dialogue format may be used as long as communication can be performed between the human and the
また、本実施形態では、評価装置20は、1つの装置によって実現される構成を例に挙げて説明するが、これに限定されるものではなく、評価装置20の備える各部(各機能)の少なくとも一部を、他の装置、例えばサーバ等により実現する構成を採用してもよい。
In the present embodiment, the
また、本例においては、対話装置10と評価装置20とがそれぞれ別形態である場合について説明するが特にこれに限られず1つの装置として実現することも当然に可能である。
In this example, the case where the
(対話システム1の要部構成)
図2は、本実施形態1に基づく対話システム1の要部構成について説明する図である。
(Main components of the dialogue system 1)
FIG. 2 is a diagram for explaining a main configuration of the
図2を参照して、まず、対話装置10の構成について説明する。
本実施形態に基づく対話装置10は、通信部101、制御部102、マイク103、スピーカ104および記憶部109を含む。
With reference to FIG. 2, first, the configuration of the
The
通信部101は、外部との通信を行う手段である。具体的には、通信部101は、評価装置20の通信部201と通信する。なお、無線あるいは有線のいずれの通信も可能である。
The
マイク103は、外部から音の入力を受け付ける。なお、本実施形態では、マイク103が入力を受け付ける音を示す音データには、主に人間の発する音声の周波数帯域に含まれる音のデータ(音声データとも称する)の入力を受け付ける場合について説明するが、音声データの周波数帯域以外の周波数帯域を含む音のデータが含まれていてもよい。マイク103は、入力された音を示す音声データを、制御部102に出力する。
The
スピーカ104は、制御部102から出力される応答内容を表す音声応答を出力する。以降では、対話装置10がスピーカ104を介して行う音声応答の出力を、「発話」とも記載する。なお、応答内容の詳細については、後述する。
The speaker 104 outputs a voice response representing the response content output from the
記憶部109は、RAM(Random Access Memory)及びフラッシュメモリなどの記憶装置であり、対話装置10の各種機能を実現するためのプログラム等が格納されている。
The
制御部102は、主にCPU(Central Processing Unit)で構成され、記憶部109に格納されているプログラムを当該CPUが実行する各部の機能を実現する。
The
制御部102は、対話装置10の各部を統括的に制御する。
制御部102の主な機能構成について説明する。
The
The main functional configuration of the
制御部102は、対話処理実行部112と、音声入力受付部114とを含む。
音声入力受付部114は、マイク103によって外部から入力される音声データを検出(抽出)する。換言すれば、音声入力受付部114は、外部から受信した音データから、人間の発する音声の周波数帯域を抽出することによって、音データ(音声データ)を検出する。
The
The voice
音声入力受付部114における、音データから音声データを検出する方法としては、例えば、音データから人間の発する音声の周波数帯域(例えば、100Hz以上かつ1kHz以下の周波数帯域)を抽出することによって音声データを検出する方法を挙げることができる。この場合には、音声入力受付部114は、音データから人間の発する音声の周波数帯域を抽出するために、例えば、バンドパスフィルタ、又は、ハイパスフィルタ及びローパスフィルタを組み合わせたフィルタなどを備えていればよい。
As a method of detecting the voice data from the sound data in the voice
音声入力受付部114は、音データから検出した音声データを通信部101を介して評価装置20に送信する。
The voice
また、音声入力受付部114は、検出した音声データを対話処理実行部112に出力する。
In addition, the voice
対話処理実行部112は、音声入力受付部114で検出した音声データに基づいて対話処理を実行する。具体的には、対話処理実行部112は、音声データを音声認識するとともに、当該認識結果に基づいて応答内容を設定する。そして、対話処理実行部112は、応答内容を表す音声をスピーカ104を介してユーザに出力する。また、対話処理実行部112は、応答内容を評価装置20にも出力する。
The dialogue
次に、本実施形態1に基づく評価装置20の構成について説明する。
本実施形態1に基づく評価装置20は、通信部201、制御部202および記憶部203を含む。
Next, the structure of the
The
通信部201は、外部との通信を行う手段である。具体的には、通信部201は、対話装置10の通信部101と通信する。なお、無線あるいは有線のいずれの通信でも可能である。
The
記憶部203は、RAM(Random Access Memory)及びフラッシュメモリなどの記憶装置であり、評価装置20の各種機能を実現するためのプログラム等が格納されている。記憶部203は、一例として人間と対話装置10との対話に関する快適度を算出するために必要なテーブル、数式等が記憶される評価データベース231、音声データを認識するための音声辞書232、音声データを記憶する音声データ記憶部234および音声データを分析した分析結果を記憶する分析データ記憶部235とを有している。
The
制御部202は、主にCPU(Central Processing Unit)で構成され、記憶部203に格納されているプログラムを当該CPUが実行することによって実現される。
The
制御部202は、評価装置20の各部を統括的に制御する。具体的には、制御部202は、対話装置10からの通信部201を介して受信した音声データに基づいて、ユーザとの対話に関する快適度を算出する。
The
次に、評価装置20の制御部202の主な機能構成について説明する。
制御部202は、音声入力受信部221、評価部222、音声分析部225および出力部226を有する。
Next, the main functional configuration of the
The
音声入力受信部221は、通信部201を介して対話装置10から送信された音声データを受信する。音声入力受信部221は、受信した音声データを音声データ記憶部234に記憶する。また、履歴テーブル233に受信した音声データに関する履歴情報が登録される。
The voice
音声分析部225は、音声データ記憶部234に記憶された音声データを分析して、分析データ記憶部235に分析結果を格納する。本例においては、音声分析部225は、音声辞書232を利用して分析結果として音声の内容(音声内容)を認識するとともに、さらに音量、話速、返答時間等を計測する。なお、本例においては、評価装置20で音声認識する場合について説明するが、対話装置10で音声認識された内容を対話装置10から受信するようにしても良い。
The
評価部222は、分析データ記憶部235に記憶されている分析結果に基づいてユーザとの対話に関する快適度を算出する。具体的には、評価部222は、評価データベース231に格納されている数式等を利用して分析データ記憶部235に記憶された分析結果に基づいて快適度を算出する。
The
出力部226は、評価部222で算出した快適度を出力する。なお、出力する形態としては特に限定することなく、図示しない表示部に快適度を数値化して表示するようにしても良いし、音声により出力するようにしても良い。あるいは印刷媒体に記録して出力するようにしても良い。
The
(対話データベース)
本実施の形態において、対話は、例えば、応答内容を保持するテーブルを参照して認識内容に応じた応答内容を選択する態様によって、あるいは、自然言語解析を行なって応答文を自動生成する態様によって、実現される。
(Dialog database)
In the present embodiment, the dialogue is performed, for example, by referring to a table holding the response contents or by selecting a response content corresponding to the recognized content or by automatically generating a response sentence by performing natural language analysis. Realized.
図3を参照して、テーブルを参照して応答内容を選択する場合について説明する。図3は、本実施形態1に基づく対話データベース132について説明する図である。当該対話データベース132は、一例として本実施形態に基づく対話装置10の備える記憶部109に格納されている。
A case where response contents are selected with reference to a table will be described with reference to FIG. FIG. 3 is a diagram illustrating the dialogue database 132 based on the first embodiment. The dialogue database 132 is stored in the
具体的には、対話データベース132には、複数の応答情報が登録されている。具体的には、認識内容(認識フレーズ)と応答内容(回答フレーズ)とが関連付けられて登録されている。本例においては、それぞれの認識フレーズと回答フレーズとの組み合わせに対して識別番号(応答ID)が割り当てられている。なお、一例として本例における対話データベース132に登録されている認識フレーズは、音声認識に利用される辞書にも同様に登録されているものとする。 Specifically, a plurality of response information is registered in the dialogue database 132. Specifically, the recognition content (recognition phrase) and the response content (answer phrase) are registered in association with each other. In this example, an identification number (response ID) is assigned to each combination of recognition phrase and answer phrase. As an example, it is assumed that the recognition phrase registered in the dialogue database 132 in this example is also registered in the dictionary used for speech recognition.
一例として、ここでは認識フレーズとして、「おはよう」、「ただいま」、・・・に対応して回答フレーズがそれぞれ関連付けられて格納されている。 As an example, here, as the recognition phrases, answer phrases are stored in association with “good morning”, “just now”,.
例えば、応答ID「1」の認識フレーズ「おはよう」に対応して回答フレーズ「おはよう!今日も1日頑張ろう!」が関連付けられて登録されている場合が示されている。 For example, a case is shown in which an answer phrase “Good morning! Let's do our best today also” is registered in association with the recognition phrase “Good morning” of the response ID “1”.
また、応答ID「2」の認識フレーズ「おはよう」に対応して回答フレーズ「おはよう」が関連付けられて登録されている場合が示されている。 In addition, a case is shown in which the answer phrase “good morning” is associated and registered in correspondence with the recognition phrase “good morning” of the response ID “2”.
また、応答ID「3」の認識フレーズ「おはよう」に対応して回答フレーズ「ふわぁー。まだ眠いよぉ」が関連付けられて登録されている場合が示されている。 Further, a case is shown in which an answer phrase “Fuwaa. Still sleepy yo” is associated and registered in correspondence with the recognition phrase “Good morning” of the response ID “3”.
また、応答ID「4」の認識フレーズ「ただいま」に対応して回答フレーズ「おかえり。今日もお仕事大変だった?」が関連付けられて登録されている場合が示されている。 In addition, a case is shown in which an answer phrase “Okaeri: Did you work hard today?” Is registered in association with the recognition phrase “Tadaima” of response ID “4”.
また、応答ID「5」の認識フレーズ「ただいま」に対応して回答フレーズ「おかえりなさい」が関連付けられて登録されている場合が示されている。 Further, a case is shown in which an answer phrase “return” is registered in association with the recognition phrase “Tadaima” of the response ID “5”.
また、認識フレーズが無い場合(null)に対応して再応答を要求する回答フレーズ(再応答回答フレーズ)が設けられている。ここで、認識フレーズが無い場合とは、音声認識に失敗した場合を意味する。なお、音声認識に利用される辞書に登録されている認識フレーズが、対話データベース132に登録されていない場合、すなわち、音声認識は成功したが対応する認識フレーズが対話データベース132に登録されていない場合にも、認識フレーズが無い場合として処理するようにしても良い。 In addition, an answer phrase (re-answer answer phrase) for requesting a re-response in response to a case where there is no recognized phrase (null) is provided. Here, the case where there is no recognition phrase means a case where speech recognition fails. In addition, when the recognition phrase registered in the dictionary used for speech recognition is not registered in the dialogue database 132, that is, when the speech recognition is successful but the corresponding recognition phrase is not registered in the dialogue database 132. Alternatively, it may be processed as a case where there is no recognition phrase.
具体的には、応答ID「100」に関して、認識フレーズが無い場合(null)に回答フレーズ「なになに」が関連付けられて登録されている場合が示されている。 Specifically, regarding the response ID “100”, when there is no recognized phrase (null), the answer phrase “what is” is associated and registered.
また、応答ID「101」に関して、認識フレーズが無い場合(null)に回答フレーズ「もう一度言って」が関連付けられて登録されている場合が示されている。当該認識フレーズが無い場合(null)の回答フレーズを複数設けることによりパターン化された応答となることを回避することが可能である。 In addition, regarding the response ID “101”, a case where the answer phrase “say again” is associated and registered when there is no recognized phrase (null) is shown. By providing a plurality of answer phrases when there is no such recognition phrase (null), it is possible to avoid a patterned response.
本例においては、ユーザ発話に対して、対話装置10からユーザに対する回答等の応答処理を実行する場合に、ユーザに対する回答等の応答がユーザにとって回答として好ましいか否かを快適度として、ユーザからの音声入力により評価する方式について説明する。
In this example, when a response process such as an answer to the user is executed from the
例えば、ユーザに対する回答等の応答について、ユーザが好ましい反応を示した判断した場合には、ユーザとの対話に関する快適度を高くする。 For example, when it is determined that the user has shown a favorable response to a response such as an answer to the user, the degree of comfort related to the dialogue with the user is increased.
これにより、ユーザに対する回答等の応答に関して、ユーザの快適度を精度よく把握することにより、ユーザとの円滑なコミュニケーションを促進することが可能である。 Thereby, it is possible to promote smooth communication with the user by accurately grasping the user's comfort level regarding the response such as an answer to the user.
(記憶部203)
図4は、本実施形態1に基づく記憶部203の具体例について説明する図である。
(Storage unit 203)
FIG. 4 is a diagram illustrating a specific example of the
図4(A)を参照して、ここでは、音声データ記憶部234の履歴テーブル233が示されている。一例として、本実施形態1に基づく評価装置20の備える記憶部203に格納されている。
Referring to FIG. 4A, here, a history table 233 of the audio
音声データ記憶部234は、音声入力受信部221で受信した音声データを格納している。履歴テーブル233は、対話装置10の対話の履歴情報を格納している。
The voice
本例においては、対話装置10は、音声入力受付部114で音声データの入力を受け付けた場合に通信部101を介して音声データを評価装置20に出力する。評価装置20の音声入力受信部221は、対話装置10からの音声データの入力を受信した場合に音声データ記憶部234に当該データを記憶させるとともに、履歴テーブル233に履歴情報を登録する。
In this example, the
また、対話装置10は、対話処理実行部112により応答内容を表す音声をスピーカ104を介してユーザに出力する際に、応答内容である音声データを評価装置20に出力する。評価装置20の音声入力受信部221は、対話装置10からの音声データの入力を受信した場合に音声データ記憶部234に当該データを記憶させるとともに、履歴テーブル233に履歴情報を登録する。
Further, when the dialogue
当該処理により音声データ記憶部234には、音声入力受信部221が受信した受信日時に対応付けられた音声データが記憶される。また、当該音声データを音声データ記憶部234に記憶される際に発行される識別番号(ID)と受信日とが対応付けられた履歴テーブル233が生成される。
Through this process, the voice
一例として、「時刻」と「音声データID」とが対応付けられている。
「時刻」は、評価装置20が対話装置10から音声データを受信した時刻を意味する。
As an example, “time” and “voice data ID” are associated with each other.
“Time” means the time at which the
なお、本例においては、評価装置20が音声データを受信した受信日に対応付けている場合について説明しているが、特にこれに限られず対話装置10が音声データの入力を受け付けた日時としても良いし、対話装置10が発話した日時と対応付けることも可能である。この場合には、当該情報を対話装置10が評価装置20に音声データとともに送信するようにすればよい。
In this example, the case where the
「音声データID」は、音声データ記憶部234に記憶されている音声データを特定する情報であり、音声データを記憶する際に発行されるIDに対応するものである。
The “voice data ID” is information for specifying the voice data stored in the voice
本例においては、一例として、時刻「2013−09−12 06:30:42」に対応して音声データID「100A」が登録されている。時刻「2013−09−12 06:31:00」に対応して音声データID「100B」が登録されている。時刻「2013−09−12 06:31:30」に対応して音声データID「101A」が登録されている。時刻「2013−09−12 06:32:10」に対応して音声データID「101B」が登録されている。 In this example, as an example, the audio data ID “100A” is registered corresponding to the time “2013-09-12 06:30:42”. The audio data ID “100B” is registered corresponding to the time “2013-09-12 06:31:00”. The audio data ID “101A” is registered corresponding to the time “2013-09-12 06:31:30”. The audio data ID “101B” is registered corresponding to the time “2013-09-12 06:32:10”.
なお、ここで、説明を簡易にするべく音声データIDの「A」は対話装置10から発話した音声データを意味するものととする。また、音声データIDの「B」は対話装置10に対して入力された音声データを意味するものとする。
Here, in order to simplify the explanation, it is assumed that “A” of the voice data ID means voice data uttered from the
図4(B)を参照して、分析データ記憶部235が示されている。一例として本実施形態に基づく評価装置20の備える記憶部203に格納されている。
With reference to FIG. 4B, an analysis
具体的には、分析データ記憶部235は、音声データ記憶部234に記憶されている音声データを分析した分析結果を格納している。本例においては、音声入力受信部221が当該音声データ記憶部234に音声データを格納するものとする。そして、音声分析部225は、音声データ記憶部234に格納されている音声データを抽出して分析し、分析結果を分析データ記憶部235に格納する。
Specifically, the analysis
分析データ記憶部235は、対話装置10との対話に関するユーザの快適度を算出するための音声態様のパラメータを格納する。
The analysis
一例として、「認識フレーズ」、「音量」、「話速」、「返答時間」が示されている。
「認識フレーズ」は、ユーザが発話した音声内容である。
As an example, “recognition phrase”, “volume”, “speech speed”, and “response time” are shown.
The “recognition phrase” is the voice content uttered by the user.
「音量」は、音の大きさのレベルを意味する。音声データの振幅を計測することにより取得することが可能である。 “Volume” means the level of loudness. It can be obtained by measuring the amplitude of the audio data.
「話速」は、1分間に話される言葉の数を意味する。
「返答時間」は、対話装置10の応答処理に対してユーザの返答がマイク103に入力されるまでの時間を意味する。履歴テーブル233における対話装置10の応答処理の時刻からユーザから音声データが入力された時刻とに基づいて「返答時間」を算出することができる。
“Speaking speed” means the number of words spoken per minute.
“Response time” means the time until a user's response is input to the
ここでは、音声データID「100B」について、「認識フレーズ」、「音量」、「話速」、「返答時間」が対応付けられている。 Here, “recognition phrase”, “volume”, “speaking speed”, and “response time” are associated with the voice data ID “100B”.
具体的には、「認識フレーズ」「XXX」、「音量」「−35.3dB」、「話速」「80個/分」、「返答時間」「8sec」が対応付けられている。 Specifically, “recognition phrase” “XXX”, “volume” “−35.3 dB”, “speaking speed” “80 / min”, “response time” “8 sec” are associated.
ここでは、音声データID「101B」について、「認識フレーズ」、「音量」、「話速」、「返答時間」が対応付けられている。 Here, “recognition phrase”, “volume”, “speech speed”, and “response time” are associated with the voice data ID “101B”.
具体的には、「認識フレーズ」「YYY」、「音量」「−31.9dB」、「話速」「100個/分」、「返答時間」「2sec」が対応付けられている。 Specifically, “recognition phrase” “YYY”, “volume” “−31.9 dB”, “speech speed” “100 / min”, “response time” “2 sec” are associated.
なお、音声データID「100A」、「101A」を分析していないのは、対話装置10が発話した内容だからである。
The reason why the voice data IDs “100A” and “101A” are not analyzed is because the content is spoken by the
当該得られた音声態様のパラメータに基づいてユーザとの対話に関する快適度を算出する。算出の方式については後述する。 A comfort level related to the dialogue with the user is calculated based on the obtained parameters of the voice mode. The calculation method will be described later.
図5は、本実施形態1に基づく評価データベース231に登録されている評価テーブルを説明する図である。
FIG. 5 is a diagram for explaining an evaluation table registered in the
本例においてはユーザとの対話に関する快適度を算出するにあたり、一例として3つの評価値を用いる。具体的には、音声データの応答内容に対する評価値Xと、応答速度に対する評価値Yと、口調に対する評価値Zとを用いる。 In this example, three evaluation values are used as an example in calculating the comfort level related to the dialogue with the user. Specifically, an evaluation value X for response contents of voice data, an evaluation value Y for response speed, and an evaluation value Z for tone are used.
図5(A)を参照して、音声データの応答内容に対する評価値Xの評価テーブルが示されている。当該評価テーブルは、応答内容の意味に従って評価値Xを算出するテーブルである。 With reference to FIG. 5A, an evaluation table of evaluation values X with respect to response contents of audio data is shown. The said evaluation table is a table which calculates the evaluation value X according to the meaning of the response content.
「認識フレーズ」と「評価値X」とが対応付けられている。
対話装置10の発話に対する印象が良いと感じる言葉あるいは、積極的な言葉に対しては関心度合は普通であると判断されるため評価値は高くなるように設定されている。例えば、「すごい」は評価値X=「10」、「いいね」は、評価値X=「10」、「わかった」は、評価値X=「7」に設定されている。
“Recognition phrase” and “evaluation value X” are associated with each other.
The evaluation value is set to be high because it is determined that the degree of interest is normal for words that feel that the
また、対話装置10の発話に対する印象が普通と感じる言葉に対しては評価値は中程度となるように設定されている。例えば、「うん」は評価値X=「5」、「はいはい」は評価値X=「5」に設定されている。
In addition, the evaluation value is set to be moderate for words that feel that the
逆に、対話装置10の発話に対する印象が悪いと感じる言葉あるいは、消極的な言葉に対しては評価値が低くなるように設定されている。例えば、「だめだよ」は評価値X=「0.1」に設定されている。
On the contrary, the evaluation value is set to be low for a word that feels that the utterance of the
また、対話装置10の発話に対する印象の判断が付き難い言葉や認識できなかった場合、「(非登録)」、「(応答なし)」には評価値X=「1」に設定されている。
Further, when it is difficult to recognize an impression on the utterance of the
なお、上記は一例であり他の方式により評価するようにしても良い。例えば、印象が良いと感じる言葉あるいは積極的な言葉に対しては、正数として、反対に印象が悪いと感じる言葉あるいは消極的な言葉に対しては、負数としても良い。 Note that the above is an example, and evaluation may be performed by other methods. For example, a positive number may be used for words that feel good or positive, and a negative number may be used for words that feel bad or negative.
図5(B)を参照して、応答速度に対する評価値の算出の一例について説明する。図5(B)には、一実施の形態に従う、音声データの応答速度に対する評価値Yの評価テーブルが示されている。当該評価テーブルは、応答速度の速さに応じて評価値Yを算出するテーブルである。 With reference to FIG. 5B, an example of calculation of the evaluation value with respect to the response speed will be described. FIG. 5B shows an evaluation table of evaluation value Y with respect to the response speed of voice data according to one embodiment. The evaluation table is a table for calculating the evaluation value Y according to the response speed.
具体的には、例えば、「Y=1/返答時間」のテーブルが設けられている。
応答速度が速い場合、すなわち、返答時間が短い場合には対話装置10の発話に対する関心度合が高いと考えられるため評価値Yの値が大きくなり、応答速度が遅い場合、すなわち、返答時間が長い場合には対話装置10の発話に対する関心度合が低いと考えられるため評価値Yの値が小さくなるように設定される。なお、評価値Yの算出または設定の態様は、上述のものに限られない。例えば、他の局面において、離散分布が用いられてもよい。
Specifically, for example, a table of “Y = 1 / response time” is provided.
When the response speed is fast, that is, when the response time is short, the degree of interest in the utterance of the
図5(C)を参照して、口調に対する評価値の算出の一例について説明する。図5(C)には、一実施の形態に従う、音声データの口調に対する評価値Zの評価テーブルが示されている。当該評価テーブルは、口調の興奮の度合として評価値Zを算出するテーブルである。 With reference to FIG. 5C, an example of calculating the evaluation value for the tone will be described. FIG. 5C shows an evaluation table of evaluation values Z for the tone of voice data according to one embodiment. The evaluation table is a table for calculating an evaluation value Z as the degree of tone excitement.
具体的には、一例として、声が大きくて早口である場合には、対話装置10の発話に対する関心度合が高いと判断されるため評価値は高くなるように設定されている。例えば、「音量≧P、話速≧Q」は評価値Z=「5」に設定されている。ここで、「P」は音量の大きい、小さいを判断する基準値である。「Q」は、早口か否かを判断する基準値である。
Specifically, as an example, when the voice is loud and spoken, it is determined that the degree of interest in the utterance of the
また、声が小さくて早口である場合、声が大きくて早口でない場合には、対話装置10の発話に対する関心度合は普通であると判断されるため評価値は中程度になるように設定されている。例えば、「音量<P、話速≧Q」は評価値Z=「1」に設定されている。「音量≧P、話速<Q」は評価値Z=「1」に設定されている。
Also, when the voice is small and fast, or when the voice is loud and not fast, the degree of interest in the utterance of the
また、声が小さくて早口でない場合には、対話装置10の発話に対する関心度合は低いと判断されるため評価値は低くなるように設定されている。例えば、「音量<P、話速<Q」は評価値Z=「0.1」に設定されている。
In addition, when the voice is low and the speech is not fast, it is determined that the degree of interest in the utterance of the
なお、口調として興奮の度合を音量、話速で評価する場合について説明したが特にこれに限られず、他のパラメータを用いることも可能である。例えば、口調を評価する際に、音の高低、抑揚の有無等も含めて評価値を算出することも可能である。 Although the case where the degree of excitement is evaluated by the volume and the speech speed has been described as the tone, the present invention is not limited to this, and other parameters can also be used. For example, when evaluating the tone, it is also possible to calculate the evaluation value including the pitch of the sound and the presence or absence of inflection.
本実施形態においては、音声データの応答内容に対する評価値Xと、応答速度に対する評価値Yと、口調に対する評価値Zとに基づいて快適度を算出する。 In the present embodiment, the comfort level is calculated based on the evaluation value X for the response content of the voice data, the evaluation value Y for the response speed, and the evaluation value Z for the tone.
具体的には、評価値X、Y、Zを変数とした所定の関数を設けて快適度を算出するようにしても良い。一例として、評価値X、Y、Zをそれぞれ乗算することにより得られる値を快適度に設定することが可能である。 Specifically, the comfort level may be calculated by providing a predetermined function with the evaluation values X, Y, and Z as variables. As an example, it is possible to set the value obtained by multiplying the evaluation values X, Y, and Z as the comfort level.
(処理の流れ)
図6は、本実施形態1に基づく対話システム1における処理の流れを示すシーケンス図である。
(Process flow)
FIG. 6 is a sequence diagram showing a flow of processing in the
図6に示されるように、ユーザは、対話装置10に対して発話(ユーザ発話とも称する)する(シーケンスsq0)。 As shown in FIG. 6, the user utters (also referred to as user utterance) to interactive apparatus 10 (sequence sq0).
対話装置10は、ユーザ発話に対して音声の入力を受け付ける(シーケンスsq1)。具体的には、音声入力受付部114は、マイク103を介して外部からの音の入力を受け付ける。
次に、対話装置10は、音声データを評価装置20に出力する(シーケンスsq2)。具体的には、音声入力受付部114は、通信部101を介して評価装置20に出力する。
Next,
評価装置20は、対話装置10からの音声データを受信して音声データ記憶部234に記憶する(シーケンスsq3)。
そして、音声分析部225は、音声データ記憶部234に記憶された音声データに対して分析して分析結果を分析データ記憶部235に格納する(シーケンスsq4)。
Then,
一方で、対話装置10は、音声入力受付部114で受け付けた音声データに対して音声認識を実行する(シーケンスsq5)。具体的には、対話処理実行部112は、音声データに対して認識フレーズを取得する。
On the other hand,
また、対話装置10は、認識フレーズに応じた音声応答出力を実行する(シーケンスsq6)。具体的には、対話処理実行部112は、対話データベース132を利用して認識フレーズに対応する回答フレーズを取得する。そして、対話処理実行部112は、取得した回答フレーズの音声データをスピーカ104に出力する。
In addition,
対話装置10は、スピーカ104から音声を再生する(シーケンスsq7)。
また、対話装置10の対話処理実行部112は、音声データをスピーカ104に出力する際、通信部101を介して評価装置20に音声データを送信する(シーケンスsq8)。
Further, when outputting the voice data to the speaker 104, the dialog
評価装置20は、対話装置10からの音声データを受信した音声データ記憶部234に記憶する(シーケンスsq9)。
次に、ユーザは、対話装置10からの音声の再生を受けて発話(ユーザ発話)する(シーケンスsq10)。 Next, the user utters (user utterance) in response to the reproduction of the voice from the dialogue apparatus 10 (sequence sq10).
対話装置10は、ユーザ発話に対して音声の入力を受け付ける(シーケンスsq11)。具体的には、音声入力受付部114は、マイク103を介して外部からの音の入力を受け付ける。
次に、対話装置10は、音声データを評価装置20に出力する(シーケンスsq12)。具体的には、音声入力受付部114は、通信部101を介して評価装置20に出力する。
Next,
評価装置20は、対話装置10からの音声データを受信して音声データ記憶部234に記憶する(シーケンスsq13)。
そして、音声分析部225は、音声データ記憶部234に記憶された音声データに対して分析して分析結果を分析データ記憶部235に格納する(シーケンスsq14)。
Then,
そして、評価部は、分析データ記憶部235に格納された分析結果に基づいてユーザとの対話に関する快適度を算出する(シーケンスsq14A)。当該処理については後述する。 Then, the evaluation unit calculates a comfort level related to the dialogue with the user based on the analysis result stored in analysis data storage unit 235 (sequence sq14A). This process will be described later.
一方で、対話装置10は、音声入力受付部114で受け付けた音声データに対して音声認識を実行する(シーケンスsq15)。具体的には、対話処理実行部112は、音声データに対して認識フレーズを取得する。
On the other hand,
次に、対話装置10は、認識フレーズに応じた音声応答出力を実行する(シーケンスsq16)。具体的には、対話処理実行部112は、対話データベース132を利用して認識フレーズに対応する回答フレーズを取得する。そして、対話処理実行部112は、取得した回答フレーズの音声データをスピーカ104に出力する。
Next,
対話装置10は、スピーカ104から音声を再生する(シーケンスsq17)。
また、対話装置10の対話処理実行部112は、音声データをスピーカ104に出力する際、通信部101を介して評価装置20に音声データを送信する(シーケンスsq18)。
Further, when outputting the voice data to the speaker 104, the dialogue
評価装置20は、対話装置10からの音声データを受信した音声データ記憶部234に記憶する(シーケンスsq19)。
次に、ユーザは、対話装置10からの音声の再生を受けて発話(ユーザ発話)する(シーケンスsq20)。 Next, the user utters (user utterance) in response to the reproduction of the voice from the dialogue apparatus 10 (sequence sq20).
次に、対話装置10は、音声データを評価装置20に出力する(シーケンスsq21)。具体的には、音声入力受付部114は、通信部101を介して評価装置20に出力する。
Next,
評価装置20は、対話装置10からの音声データを受信して音声データ記憶部234に記憶する(シーケンスsq22)。
そして、音声分析部225は、音声データ記憶部234に記憶された音声データに対して分析して分析結果を分析データ記憶部235に格納する(シーケンスsq23)。
Then,
そして、評価部は、分析データ記憶部235に格納された分析結果に基づいてユーザとの対話に関する快適度を算出する(シーケンスsq24)。当該処理については後述する。 Then, the evaluation unit calculates a comfort level related to the dialogue with the user based on the analysis result stored in analysis data storage unit 235 (sequence sq24). This process will be described later.
(対話評価処理)
図7は、本実施形態1に基づく評価装置20の対話評価処理を実行するフロー図である。
(Dialogue evaluation process)
FIG. 7 is a flowchart for executing the dialogue evaluation process of the
図7を参照して、当該フロー図は、記憶部203に格納されているプログラムを実行して制御部202の評価部222により実行される処理である。
With reference to FIG. 7, the flowchart is a process executed by the
まず、ユーザ応答があったか否かを判断する(ステップS10)。具体的には、評価部222は、図4で説明した履歴テーブル233に格納されているデータに基づいてユーザ応答の有無を判断する。この点で評価部222は、履歴テーブル233に対話装置10に対して入力された音声データが登録されているか否かにより判断することが可能である。例えば音声データIDに「B」の識別子が付されて登録されているか否かにより判断することも可能である。
First, it is determined whether or not there is a user response (step S10). Specifically, the
そして、ステップS10において、ユーザ応答が有ったと判断した場合(ステップS10においてYES)には、次に、評価対象か否かを判断する(ステップS11)。具体的には、ユーザ応答に対応する音声データが評価対象となるかどうかを判断する。例えば、履歴テーブル233の時刻に従って、ユーザ応答に対応する音声データの直近に対話装置10から発話された音声データが有るか否かにより判断することが可能である。例えば、対話装置10から発話してからユーザ応答までに所定期間(30秒程度)経過しているような場合には、対話装置10から発話した内容と無関係なユーザ応答であると判断して評価対象ではないと判断することが可能である。一方で、所定期間以内である場合には、対話装置10から発話した内容と関係あるユーザ応答であると判断して評価対象であると判断することが可能である。なお、本例においては、ユーザの返答時間により評価対象か否かを判断する場合について説明したが、特にこれに限られずユーザ応答の内容に従って評価対象か否かを判断するようにしても良い。
If it is determined in step S10 that there has been a user response (YES in step S10), it is next determined whether or not it is an evaluation target (step S11). Specifically, it is determined whether or not the voice data corresponding to the user response is to be evaluated. For example, according to the time of the history table 233, it is possible to determine whether there is voice data uttered from the
なお、ステップS10において、ユーザ応答が無いと判断した場合(ステップS10においてNO)あるいはステップS11において、評価対象ではないと判断した場合(ステップS11においてNO)には、処理を終了する(エンド)。 If it is determined in step S10 that there is no user response (NO in step S10) or if it is determined in step S11 that it is not an evaluation target (NO in step S11), the process ends (END).
一方、ステップS11において、評価対象であると判断した場合(ステップS11においてYES)には、応答内容を取得する(ステップS12)。具体的には、評価部222は、図4(B)で説明した分析データ記憶部235に記憶されているユーザが発話した音声内容である認識フレーズを取得する。
On the other hand, if it is determined in step S11 that it is an evaluation target (YES in step S11), response content is acquired (step S12). Specifically, the
また、ステップS12において、音量、話速、返答時間を取得する(ステップS13)。具体的には、評価部222は、分析データ記憶部235から音声データの音声態様として音量、話速、返答時間を取得する。
In step S12, the volume, speech speed, and response time are acquired (step S13). Specifically, the
次に、各評価値を算出する(ステップS14)。具体的には、評価部222は、図5の評価データベース231に登録されている評価テーブルに基づいて、音声データの応答内容、応答速度、口調に対する各評価値を算出する。
Next, each evaluation value is calculated (step S14). Specifically, the
そして、次に、各評価値に応じた快適度を算出する(ステップS16)。具体的には、評価部222は、各評価値をそれぞれ乗算した快適度を算出する。
Next, the comfort level corresponding to each evaluation value is calculated (step S16). Specifically, the
そして、算出した快適度を出力する(ステップS18)。具体的には、評価部222は、算出した快適度を一例として数値化して表示する。
Then, the calculated comfort level is output (step S18). Specifically, the
また、本例における評価部222は、図5の評価データベース231に格納されている評価テーブルに基づいて応答内容、応答速度、口調の各評価値を算出して、快適度を算出する場合について説明したが、特にこれに限られず、少なくとも1つの情報に基づいて評価値を算出して快適度を算出するようにしても良い。例えば、「応答内容」のみを評価しても良いし、「応答内容」と「応答速度」とを組み合わせて評価するようにしても良い。当該複数の情報を組み合わせることにより対話装置10との対話に対するユーザの応答のニュアンスを精度よく把握して、ユーザとの間での対話に対する快適度を適切に評価して判断することも可能である。
In addition, the
また、快適度の算出方式は、上記方式に限られず、種々の方式を採用することが可能である。例えば、上記においては、各評価値に対してそれぞれ重み付けした値をそれぞれ加算して快適度を算出するようにしても良い。 Further, the comfort level calculation method is not limited to the above method, and various methods can be employed. For example, in the above, the comfort level may be calculated by adding each weighted value to each evaluation value.
なお、本例においては、対話装置10と評価装置20とが協働して動作する対話システム1の構成について説明したが、評価装置20の機能を対話装置10に含めてスタンドアローンで動作する対話装置を実現するようにしても良い。
In this example, the configuration of the
<実施形態2>
上記の実施形態1では、対話装置10から発話した内容に対するユーザ応答に基づいて発話した内容を評価する場合について説明したが、一連の対話全体を評価するようにしても良い。
<
In the first embodiment described above, a case has been described in which the content uttered based on the user response to the content uttered from the
図8は、実施形態2に基づくユーザとの対話に関する評価の概念を説明する図である。
図8を参照して、ユーザは、対話装置10に対して発話(「暇だな」)する(シーケンスsq30)。
FIG. 8 is a diagram for explaining the concept of evaluation related to a dialog with a user based on the second embodiment.
Referring to FIG. 8, the user speaks (“I'm free”) to dialog apparatus 10 (sequence sq30).
対話装置10は、ユーザ発話に対して音声の入力を受け付けて、評価装置20に音声データを出力する(シーケンスsq31)。
評価装置20は、対話装置10から送信された音声データを受信して格納する(シーケンスsq32)。
また、対話装置10は、受け付けたユーザ発話(「暇だな」)に対して音声応答出力(「サッカー好き?」)を実行する(シーケンスsq33)。また、対話装置10は、評価装置20に音声データを出力する(シーケンスsq34)。なお、ユーザ発話に対する対話装置10からの応答出力の内容は、対話データベース132に格納されているものとする。以下の場合についても同様である。
In addition, the
評価装置20は、対話装置10から送信された音声データを受信して格納する(シーケンスsq35)。
ユーザは、対話装置10からの音声応答出力(「サッカー好き?」)を受けて、対話装置10に対して発話(「すきだよ」)する(シーケンスsq36)。
In response to the voice response output (“Soccer?”) From the
対話装置10は、ユーザ発話に対して音声の入力を受け付けて、評価装置20に音声データを出力する(シーケンスsq37)。
評価装置20は、対話装置10から送信された音声データを受信して格納する(シーケンスsq38)。
そして、評価装置20は、ユーザとの対話を評価する(シーケンスsq39)。
一例として、評価装置20は、対話装置10からユーザに対して音声応答出力した「サッカー好き?」に対するユーザの発話「すきだよ」について評価する。
Then, the
As an example, the
また、対話装置10は、受け付けたユーザ発話に対して音声応答出力(「僕は○○選手が好きだな」)を実行する(シーケンスsq40)。また、対話装置10は、評価装置20に音声データを出力する(シーケンスsq41)。
In addition,
評価装置20は、対話装置10から送信された音声データを受信して格納する(シーケンスsq42)。
ユーザは、対話装置10からの音声応答出力(「僕は○○選手が好きだな」)を受けて、対話装置10に対して発話(「良く知ってるね」)する(シーケンスsq43)。 The user receives the voice response output from the dialogue device 10 (“I like XX player”) and speaks (“I know well”) to the dialogue device 10 (sequence sq43).
対話装置10は、ユーザ発話に対して音声の入力を受け付けて、評価装置20に音声データを出力する(シーケンスsq44)。
評価装置20は、対話装置10から送信された音声データを受信して格納する(シーケンスsq45)。
そして、評価装置20は、ユーザとの対話を評価する(シーケンスsq46)。
一例として、評価装置20は、対話装置10からユーザに対して音声応答出力した「僕は○○選手が好きだな」に対するユーザの発話「良く知ってるね」について評価する。
Then, the
As an example, the
また、評価装置20は、ユーザとの対話を評価する(シーケンスsq47)。
一例として、評価装置20は、一連のユーザとの対話全体の内容に基づいて対話を評価する。
Moreover, the
As an example, the
具体的には、対話装置10からの音声応答出力「サッカー好き?」、「僕は○○選手が好きだな」の一連の「サッカー」の話題に対する対話を評価する。例えば、それぞれの評価を加算あるいは積算することにより快適度を算出するようにしても良い。なお、話題については、音声応答出力と「話題情報」とが関連づけられている場合には、当該関連付けられている「話題情報」から抽出するようにしても良いし、あるいは音声応答出力に含まれるキーワード等に基づいて話題情報を推定する公知のプログラムにより抽出することも可能である。
Specifically, a dialogue on a series of “soccer” topics such as voice response output “I like soccer?” And “I like XX player” from the
また、話題に対する対話を評価するのみならず、対話の意図や経緯に対して評価するようにしても良い。 Further, not only the dialogue with respect to the topic but also the intention and history of the dialogue may be evaluated.
当該評価により、特定の対話の話題等に対する関心度、興味の度合を把握することが可能である。 With this evaluation, it is possible to grasp the degree of interest and the degree of interest in the topic of a specific dialogue.
また、上記においては2回のユーザ発話に基づいて対話を評価する場合について説明したが、特に2回に限られず、さらに複数回の連続した対話を評価するようにしても良い。 In the above description, the dialogue is evaluated based on two user utterances. However, the dialogue is not limited to two times, and a plurality of consecutive dialogues may be evaluated.
また、ある一定の所定期間毎に当該期間に含まれる対話を評価するようにしても良い。
当該評価により、個々の対話のみならず、対話全体に対する評価が可能である。
Moreover, you may make it evaluate the dialog included in the said period for every fixed predetermined period.
With this evaluation, it is possible to evaluate not only individual dialogues but also the whole dialogues.
また、本例においては、1台の対話装置10からの音声データに基づいてユーザとの対話を評価する評価装置20について説明したが、複数の対話装置10を設けて、複数のユーザとの対話を評価することにより、統計的分布により一般的なユーザの傾向を把握することも可能である。当該傾向を把握することにより、一般的なユーザにとって快適な対話を実現することが可能な対話データベースを構築することが可能である。
Moreover, in this example, although the
また、対話データベースを構築するにあたり、辞書には登録されていない非登録用語が音声入力される場合に、辞書に登録されている登録用語が音声入力される場合と快適度の傾向が類似しているような場合には、非登録用語と登録用語とが類似していると判断して、登録用語と同様に辞書登録するようにしても良い。 Also, when constructing a dialogue database, when unregistered terms that are not registered in the dictionary are input by voice, the tendency of comfort is similar to that when registered terms registered in the dictionary are input by speech. In such a case, it may be determined that the unregistered term and the registered term are similar, and the dictionary may be registered similarly to the registered term.
<実施形態3>
上記においては、主に音声を用いた対話を評価する方式について説明したが、例えばSNS(social networking service)を利用した文字(メッセージ)等による対話についても適用可能である。
<
In the above description, a method for evaluating a dialogue mainly using speech has been described. However, for example, a dialogue using characters (messages) using SNS (social networking service) can be applied.
具体的には、一例として対話装置10から発信した情報に対する応答内容としてユーザから入力されるメッセージの内容が印象が良いと感じる言葉あるいは積極的な言葉であるか否かに基づいて評価値X1を算出する。
Specifically, as an example, the evaluation value X1 is calculated based on whether or not the content of the message input from the user as a response content to the information transmitted from the
また、対話装置10から発信した情報に対する返信あるいは返答の時間の速さに基づいて評価値Y1を算出する。
Also, the evaluation value Y1 is calculated based on the speed of the reply or reply time for the information transmitted from the
また、対話装置10から発信した情報に対する応答内容の形式、語調に基づいて評価値を算出する。例えば、メッセージに付されている記号「?」「!」等の有無、数等に基づいて興奮の度合として評価値Z1を算出する。
In addition, the evaluation value is calculated based on the format and tone of the response content for the information transmitted from the
そして、評価値X1、Y1、Z1をそれぞれ乗算することにより得られる値を快適度に設定するようにしても良い。 Then, values obtained by multiplying the evaluation values X1, Y1, and Z1 may be set as the comfort level.
<実施形態4>
対話装置10及び評価装置20等の制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
<Embodiment 4>
Control blocks such as the
後者の場合、対話装置10及び評価装置20は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
In the latter case, the
今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 The embodiment disclosed this time should be considered as illustrative in all points and not restrictive. The scope of the present invention is shown not by the above description of the embodiments but by the scope of claims for patent, and is intended to include meanings equivalent to the scope of claims for patent and all modifications within the scope.
1 対話システム、10 対話装置、20 評価装置、101,201 通信部、102,202 制御部、103 マイク、104 スピーカ、109,203 記憶部、112 対話処理実行部、114 音声入力受付部、132 対話データベース、221 音声入力受信部、222 評価部、225 音声分析部、226 出力部、231 評価データベース、232 音声辞書、233 履歴テーブル、234 音声データ記憶部、235 分析データ記憶部。
DESCRIPTION OF
Claims (7)
前記記憶部に記憶された対話情報に基づいて前記ユーザとの間で対話処理を実行する対話部と、
前記対話処理における前記ユーザからの入力を受け付ける入力受付部と、
前記入力受付部で受け付けた入力の態様に基づいて前記ユーザとの対話に関する快適度を算出する評価部とを備える、対話評価装置。 A storage unit for storing dialogue information for dialogue with the user;
A dialogue unit that executes dialogue processing with the user based on dialogue information stored in the storage unit;
An input receiving unit that receives an input from the user in the interactive process;
An interaction evaluation apparatus comprising: an evaluation unit that calculates a degree of comfort related to an interaction with the user based on an input mode received by the input reception unit.
前記入力受付部は、前記対話処理における前記ユーザからの音声入力を受け付ける、請求項1記載の対話評価装置。 The dialogue unit executes dialogue processing with the user based on dialogue information stored in the storage unit,
The dialog evaluation apparatus according to claim 1, wherein the input receiving unit receives a voice input from the user in the dialog processing.
前記記憶部に記憶された対話情報に基づいて前記ユーザとの間で対話処理を実行する対話部と、
前記対話処理における前記ユーザからの入力を受け付ける入力受付部と、
前記入力受付部で受け付けた入力の態様に基づいて前記ユーザとの対話に関する快適度を算出する評価部とを備える、対話評価システム。 A storage unit for storing dialogue information for dialogue with the user;
A dialogue unit that executes dialogue processing with the user based on dialogue information stored in the storage unit;
An input receiving unit that receives an input from the user in the interactive process;
An interaction evaluation system comprising: an evaluation unit that calculates a comfort level related to an interaction with the user based on an input mode received by the input reception unit.
前記対話処理における前記ユーザからの入力を受け付けるステップと、
前記受け付けた入力の態様に基づいて前記ユーザとの対話に関する快適度を算出するステップとを備える、対話評価方法。 Executing interaction processing with the user based on interaction information for interacting with the user;
Receiving an input from the user in the interactive process;
And a step of calculating a comfort level related to the dialogue with the user based on the received input mode.
前記対話評価プログラムは、前記コンピュータに対して、
ユーザと対話するための対話情報に基づいて前記ユーザとの間で対話処理を実行するステップと、
前記対話処理における前記ユーザからの入力を受け付けるステップと、
前記受け付けた入力の態様に基づいて前記ユーザとの対話に関する快適度を算出するステップとを備える、処理を実行させる、対話評価プログラム。 A dialogue evaluation program executed on a computer,
The dialogue evaluation program is for the computer.
Executing interaction processing with the user based on interaction information for interacting with the user;
Receiving an input from the user in the interactive process;
A dialog evaluation program for executing a process, comprising: calculating a comfort level related to a dialog with the user based on the received input mode.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014144179A JP2016020963A (en) | 2014-07-14 | 2014-07-14 | Interaction evaluation device, interaction evaluation system, interaction evaluation method, and interaction evaluation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014144179A JP2016020963A (en) | 2014-07-14 | 2014-07-14 | Interaction evaluation device, interaction evaluation system, interaction evaluation method, and interaction evaluation program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016020963A true JP2016020963A (en) | 2016-02-04 |
Family
ID=55265831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014144179A Pending JP2016020963A (en) | 2014-07-14 | 2014-07-14 | Interaction evaluation device, interaction evaluation system, interaction evaluation method, and interaction evaluation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016020963A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017111493A (en) * | 2015-12-14 | 2017-06-22 | 株式会社デンソー | Dialog device |
WO2018020763A1 (en) * | 2016-07-26 | 2018-02-01 | ソニー株式会社 | Information processing device, information processing method, and program |
WO2018061346A1 (en) * | 2016-09-27 | 2018-04-05 | ソニー株式会社 | Information processing device |
JP2018128659A (en) * | 2017-02-06 | 2018-08-16 | 株式会社東芝 | Voice dialog system, voice dialog method, and method for adapting voice dialog system |
CN110364164A (en) * | 2018-03-26 | 2019-10-22 | 卡西欧计算机株式会社 | Session control, conversational system, dialog control method and storage medium |
JP2019215493A (en) * | 2018-06-14 | 2019-12-19 | Zホールディングス株式会社 | Leaning device, learning method, and learning program |
JP2019215830A (en) * | 2018-06-14 | 2019-12-19 | Zホールディングス株式会社 | Evaluation device, evaluation method, and evaluation program |
JP2019215814A (en) * | 2018-06-14 | 2019-12-19 | Zホールディングス株式会社 | Evaluation device, evaluation method, and evaluation program |
JP2019215823A (en) * | 2018-06-14 | 2019-12-19 | Zホールディングス株式会社 | Extraction device, evaluation device, extraction method, and extraction program |
-
2014
- 2014-07-14 JP JP2014144179A patent/JP2016020963A/en active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017111493A (en) * | 2015-12-14 | 2017-06-22 | 株式会社デンソー | Dialog device |
WO2018020763A1 (en) * | 2016-07-26 | 2018-02-01 | ソニー株式会社 | Information processing device, information processing method, and program |
JPWO2018020763A1 (en) * | 2016-07-26 | 2019-01-17 | ソニー株式会社 | Information processing device |
JP2019124952A (en) * | 2016-07-26 | 2019-07-25 | ソニー株式会社 | Information processing device, information processing method, and program |
WO2018061346A1 (en) * | 2016-09-27 | 2018-04-05 | ソニー株式会社 | Information processing device |
JP2018128659A (en) * | 2017-02-06 | 2018-08-16 | 株式会社東芝 | Voice dialog system, voice dialog method, and method for adapting voice dialog system |
CN110364164A (en) * | 2018-03-26 | 2019-10-22 | 卡西欧计算机株式会社 | Session control, conversational system, dialog control method and storage medium |
CN110364164B (en) * | 2018-03-26 | 2023-12-05 | 卡西欧计算机株式会社 | Dialogue control device, dialogue system, dialogue control method, and storage medium |
JP2019215493A (en) * | 2018-06-14 | 2019-12-19 | Zホールディングス株式会社 | Leaning device, learning method, and learning program |
JP2019215830A (en) * | 2018-06-14 | 2019-12-19 | Zホールディングス株式会社 | Evaluation device, evaluation method, and evaluation program |
JP2019215814A (en) * | 2018-06-14 | 2019-12-19 | Zホールディングス株式会社 | Evaluation device, evaluation method, and evaluation program |
JP2019215823A (en) * | 2018-06-14 | 2019-12-19 | Zホールディングス株式会社 | Extraction device, evaluation device, extraction method, and extraction program |
JP7013332B2 (en) | 2018-06-14 | 2022-01-31 | ヤフー株式会社 | Learning equipment, learning methods and learning programs |
JP7044642B2 (en) | 2018-06-14 | 2022-03-30 | ヤフー株式会社 | Evaluation device, evaluation method and evaluation program |
JP7160571B2 (en) | 2018-06-14 | 2022-10-25 | ヤフー株式会社 | Evaluation device, evaluation method and evaluation program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016020963A (en) | Interaction evaluation device, interaction evaluation system, interaction evaluation method, and interaction evaluation program | |
CN105334743B (en) | A kind of intelligent home furnishing control method and its system based on emotion recognition | |
JP6755304B2 (en) | Information processing device | |
US9583102B2 (en) | Method of controlling interactive system, method of controlling server, server, and interactive device | |
JP6084654B2 (en) | Speech recognition apparatus, speech recognition system, terminal used in the speech recognition system, and method for generating a speaker identification model | |
KR20190037363A (en) | Method and apparatus for processing voice information | |
EP4091161B1 (en) | Synthesized speech audio data generated on behalf of human participant in conversation | |
JP6915637B2 (en) | Information processing equipment, information processing methods, and programs | |
KR101534413B1 (en) | Method and apparatus for providing counseling dialogue using counseling information | |
CN108536668A (en) | Wake-up word evaluation method and device, storage medium and electronic equipment | |
CN110288995A (en) | Exchange method, device, storage medium and electronic equipment based on speech recognition | |
WO2018043138A1 (en) | Information processing device, information processing method, and program | |
CN107133709A (en) | A kind of quality inspection method of customer service, apparatus and system | |
CN110493123A (en) | Instant communication method, device, equipment and storage medium | |
JP2023548157A (en) | Other speaker audio filtering from calls and audio messages | |
JPWO2017200079A1 (en) | Dialogue method, dialogue system, dialogue apparatus, and program | |
JP2014167517A (en) | Conversation providing system, game providing system, conversation providing method, game providing method, and program | |
KR20100081534A (en) | Multilingual dialogue system and method thereof | |
JP2018021953A (en) | Voice interactive device and voice interactive method | |
US20230352005A1 (en) | Server device, conference assisting system, conference assisting method, and non-transitory computer readable storage medium | |
KR102413860B1 (en) | Voice agent system and method for generating responses based on user context | |
JP6601625B2 (en) | Dialogue method, dialogue system, dialogue apparatus, and program | |
JP2020166464A (en) | Decision making support system and program | |
KR20200081925A (en) | System for voice recognition of interactive robot and the method therof | |
JP6985311B2 (en) | Dialogue implementation programs, devices and methods that control response utterance generation by aizuchi determination |