JP6495014B2 - Spoken dialogue control device, control method of spoken dialogue control device, and spoken dialogue device - Google Patents
Spoken dialogue control device, control method of spoken dialogue control device, and spoken dialogue device Download PDFInfo
- Publication number
- JP6495014B2 JP6495014B2 JP2015002568A JP2015002568A JP6495014B2 JP 6495014 B2 JP6495014 B2 JP 6495014B2 JP 2015002568 A JP2015002568 A JP 2015002568A JP 2015002568 A JP2015002568 A JP 2015002568A JP 6495014 B2 JP6495014 B2 JP 6495014B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- time
- unit
- field connection
- connection operation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
本発明は、ユーザの発話に対して応答する音声対話装置を制御するための音声対話制御装置に関する。 The present invention relates to a voice dialogue control device for controlling a voice dialogue device that responds to a user's utterance.
ユーザの発話に対して音声や動作で応答することで、ユーザと対話する音声対話装置(ロボット)が、従来から広く研究されている。ここで、ユーザと音声対話装置の対話においては、ユーザが発話してから、音声対話装置が当該発話の内容に応じた応答をするまでにある程度の時間を要する。この時間に音声対話装置が何も動作しないと、ユーザが音声対話装置とのコミュニケーションにおいてストレスを感じる可能性がある。この問題に対する解決策として、例えば、下記の特許文献1には、ユーザの入力を受け付けてから、サーバとの通信状態が復帰するまでの待機時間を算出して、待機時間に応じた所定の情報の提示を行う技術が開示されている。
2. Description of the Related Art Conventionally, a speech dialogue apparatus (robot) that interacts with a user by responding to the user's utterance with voice or motion has been widely studied. Here, in the dialogue between the user and the voice interactive device, a certain amount of time is required from when the user speaks until the voice interactive device responds according to the content of the speech. If the voice interaction device does not operate at this time, the user may feel stress in communication with the voice interaction device. As a solution to this problem, for example, in
しかしながら、上記の特許文献1〜3に記載の技術では、場つなぎ動作の内容は画一的であり、待機時間の長さに応じた柔軟な対応を取ることができない。例えば、特許文献1の技術では、算出した待機時間が所定時間以上であれば、待機時間がどれだけ長くても、実行される場つなぎ動作は対話の中断を謝罪するメッセージの出力となってしまう。
However, in the techniques described in
本発明は、上記の問題に鑑みてなされたものであり、その目的は、待機時間の長さに応じた場つなぎ動作を実行することで、ユーザと音声対話装置とのコミュニケーションの柔軟性を向上させる音声対話制御装置などを提供することにある。 The present invention has been made in view of the above problems, and an object thereof is to improve the flexibility of communication between the user and the voice interactive apparatus by executing a joint operation according to the length of the standby time. It is to provide a voice dialogue control device and the like.
上記の課題を解決するために、本発明の一態様に係る音声対話制御装置は、音声対話装置が、ユーザが発した音声を取得した後の所定の時点から、当該音声に対する応答が出力可能になるまでの待機時間を予測する待機時間予測部と、上記待機時間予測部が予測した上記待機時間と、上記音声対話装置が実行可能な動作を示す複数の動作候補それぞれの実行に要する動作時間とに基づいて、上記複数の動作候補から1または複数を場つなぎ動作として選択する場つなぎ動作決定部と、上記場つなぎ動作決定部が選択した上記場つなぎ動作を上記音声対話装置に実行させる場つなぎ動作実行部と、を備える。 In order to solve the above-described problem, the voice conversation control device according to one aspect of the present invention can output a response to the voice from a predetermined time point after the voice dialogue device acquires the voice uttered by the user. A standby time prediction unit that predicts a standby time until the operation time, the standby time predicted by the standby time prediction unit, and an operation time required to execute each of a plurality of operation candidates indicating operations that can be executed by the voice interactive device Based on the above, a field joining operation determining unit that selects one or more of the plurality of motion candidates as a field joining operation, and a field joining that causes the voice interactive apparatus to execute the field joining operation selected by the field joining operation determining unit. An operation execution unit.
また、上記の課題を解決するために、本発明の一態様に係る音声対話制御装置の制御方法は、音声対話装置に実行させる音声対話制御装置の制御方法であって、音声対話装置が、ユーザが発した音声を取得した後の所定の時点から、当該音声に対する応答が出力可能になるまでの待機時間を予測する待機時間予測ステップと、上記待機時間予測ステップにて予測した上記待機時間と、上記音声対話装置が実行可能な動作を示す複数の動作候補それぞれの実行に要する動作時間とに基づいて、上記複数の動作候補から1または複数を場つなぎ動作として選択する場つなぎ動作決定ステップと、上記場つなぎ動作決定ステップにて決定された上記場つなぎ動作を上記音声対話装置に実行させる場つなぎ動作実行ステップと、を含む。 In order to solve the above problems, a control method for a voice interaction control device according to an aspect of the present invention is a method for controlling a voice interaction control device to be executed by a voice interaction device, wherein the voice interaction device is a user. A standby time predicting step for predicting a standby time until a response to the sound can be output from a predetermined time after acquiring the voice emitted by the voice, and the standby time predicted in the standby time predicting step, Based on the operation time required for execution of each of the plurality of operation candidates indicating the operations that can be performed by the voice interaction device, the step of selecting a joint operation to select one or more from the plurality of operation candidates as a joint operation; A field joining operation execution step for causing the voice interactive apparatus to execute the field joining operation determined in the field joining operation determining step.
本発明の一態様によれば、ユーザと音声対話装置とのコミュニケーションの柔軟性を向上させるという効果を奏する。 According to one aspect of the present invention, there is an effect that the flexibility of communication between the user and the voice interaction apparatus is improved.
〔実施形態1〕
本発明の一実施形態(実施形態1)について図1から図5に基づいて説明すると以下のとおりである。
An embodiment (Embodiment 1) of the present invention will be described below with reference to FIGS.
まず、図1に基づいて、本実施形態に係る音声対話装置10について説明する。図1は、本実施形態に係る音声対話装置10の構成を示すブロック図である。
First, the voice
音声対話装置10は、ユーザの発話に対して音声や動作で応答することで、ユーザと対話する装置である。なお、音声対話装置10の具体例としては人型ロボットが挙げられるが、これに限定されるものではない。例えば、音声対話装置10の他の具体例として、スマートフォンなどの音声対話機能付きの携帯端末や、音声対話機能付きのカーナビゲーションシステムなどが挙げられる。図1に示すように、音声対話装置10は、音声対話制御装置を制御部1として備えている。なお、音声対話装置10と音声対話制御装置とは別体であってもよい。また、音声対話装置10は、上記制御部1(音声対話制御装置)の他に、音声入力部2、通信部3、音声出力部4、駆動部5、および記憶部6を備えている。
The
音声入力部2はユーザが発した音声を取得するいわゆるマイクである。音声入力部2は、取得した音声を音声データに変換し、後述する音声認識部13に出力する。また音声入力部2は当該音声データのサイズ(データ量)および時間(発話時間)の少なくとも一方(以降、音声付属情報と称する)を、待機時間予測部11に出力する。通信部3は音声対話装置10と外部機器との通信を行う。具体的には、通信部3は、後述する応答生成部14によって制御されて、外部機器から応答生成に必要なデータを受信する。例えば通信部3は、天気予報に関するデータを管理する天気予報サーバ(不図示)から、明日の天気に関するデータを取得し、応答生成部14に出力する。音声出力部4は音声を出力するいわゆるスピーカである。具体的には、音声出力部4は、ユーザが発した音声に対する応答や、後述する場つなぎ動作としての音声を出力する。駆動部5は音声対話装置10(人型ロボット)における頭部や脚部などの可動部位を駆動させるものであり、例えばサーボモータである。なお、サーボモータ以外のアクチュエータを用いてもよい。具体的には、駆動部5は、ユーザが発した音声に対する応答や、場つなぎ動作としての動作を、可動部位を駆動させることで音声対話装置10に行わせる。なお、音声対話装置10がスマートフォンなどの可動部位を有しない装置である場合、駆動部5は省略されてもよい。記憶部6は、音声対話装置10にて使用される各種データを記憶する。記憶部6は少なくとも、場つなぎ動作テーブル61および場つなぎ順序テーブル62を記憶している。なお、これらのテーブルの詳細については後述する。
The
制御部1は、音声対話装置10が備える各部を統括制御する。制御部1は、待機時間予測部11、場つなぎ動作制御部12、音声認識部13、応答生成部14、および応答実行部15を含んでいる。
The
待機時間予測部11は、音声対話装置10がユーザの発した音声を取得してから、当該音声に対する応答が出力可能となるまでの待機時間を予測する。具体的には、待機時間予測部11は音声入力部2から音声付属情報を受け取ると、当該音声データのサイズ(データ量)を用いて待機時間を予測する。より詳細には、待機時間予測部11は、「待機時間=α×データ量(αは単位データ量あたりに要する待機時間であり、所定の値である)」という計算式を用いて、待機時間を算出する。待機時間予測部11は、予測(算出)した待機時間を後述する場つなぎ動作決定部21に出力する。なお、待機時間予測部11は、音声データの時間(ユーザの発話時間)を用いて待機時間を予測してもよい。具体的には、待機時間予測部11は、「待機時間=β×発話時間(βは単位発話時間あたりに要する待機時間であり、所定の値である)」という計算式を用いて、待機時間を算出してもよい。また、音声データのデータ量および発話時間の両方を用いて、待機時間を予測(算出)してもよい。データ量から算出した待機時間と発話時間から算出した待機時間とが異なる場合、より長い(または短い)方の待機時間を採用してもよいし、2つの待機時間の平均値を算出し、算出した平均待機時間を場つなぎ動作決定部21に出力してもよい。
The standby
場つなぎ動作制御部12は、場つなぎ動作の決定および実行を行う。場つなぎ動作制御部12は、場つなぎ動作決定部21および場つなぎ動作実行部22を含む。
The field connection
場つなぎ動作決定部21は、待機時間予測部11が予測した待機時間に基づいて、音声対話装置10が実行する場つなぎ動作を決定する。ここで、場つなぎ動作とは、待機時間、すなわちユーザが発した音声を取得してから、当該音声に対する応答が出力可能となるまでの時間中に、音声対話装置10に実行させる動作である。具体的には、場つなぎ動作決定部21は、記憶部6に記憶されている場つなぎ動作テーブル61を用いて、待機時間予測部11が予測した待機時間と、待機時間中に音声対話装置10に実行させる場つなぎ動作に要する場つなぎ動作時間とに応じて、場つなぎ動作を決定する。
Based on the standby time predicted by the standby
ここで図2を参照して、場つなぎ動作テーブル61の詳細について説明する。図2は、記憶部6に記憶されている場つなぎ動作テーブル61のデータ構造およびデータ例を示す図である。なお、図2に示す場つなぎ動作テーブル61は一例であり、データ構造およびデータ例を図2の例に限定するものではない。場つなぎ動作テーブル61は、場つなぎ動作を示す情報と、当該場つなぎ動作に要する時間である場つなぎ動作時間とを対応付けたテーブルである。「場つなぎ動作」のカラムには、音声対話装置10が実行可能な動作を示す複数の動作候補の情報(以下、場つなぎ動作情報と称する)が格納される。「種別」のカラムには、各場つなぎ動作が音声を出力するものであるか(図2では「音声」で示されている)、音声対話装置10の可動部位を動作させるものであるか(図2では「身振り」で示されている)、またはその両方を実行するものであるか(図2では「音声+身振り」で示されている)を示す情報が格納される。「場つなぎ動作時間」のカラムには上記場つなぎ動作時間が格納されている。
Here, with reference to FIG. 2, the details of the joining operation table 61 will be described. FIG. 2 is a diagram illustrating a data structure and a data example of the connection operation table 61 stored in the
より具体的には、場つなぎ動作決定部21は受け取った待機時間から、場つなぎ動作テーブル61の各場つなぎ動作時間を減算して、各場つなぎ動作情報における減算値TN(第1減算値)を算出する。なお、Nは場つなぎ動作テーブル61における「No.」に格納されている数字である。続いて、場つなぎ動作決定部21は算出した減算値TNのそれぞれについて、0以上かつ、場つなぎ動作を音声対話装置10が実行してから応答の生成が完了するまでに、音声対話装置10が動作しない時間として許容できる時間を示す第1許容時間X以下となるか否か(0≦TN≦Xを満たす場つなぎ動作情報があるか否か)を判定する。第1許容時間Xは予め設定されている値であり、例えばX=2であれば、場つなぎ動作が完了してから応答の生成が完了するまでの時間として許容できる時間が2秒であるということである。
More specifically, the field connection
0≦TN≦Xを満たす場つなぎ動作情報がある場合、場つなぎ動作決定部21は、当該場つなぎ動作情報が示す場つなぎ動作を音声対話装置10に実行させる場つなぎ動作として決定し、当該場つなぎ動作情報を場つなぎ動作実行部22に出力する。例えば待機時間が2秒であり、第1許容時間X=1である場合、図2に示すNo.2およびNo.3の場つなぎ動作情報が0≦TN≦Xを満たす。よって、場つなぎ動作決定部21は、No.2またはNo.3の場つなぎ動作情報を読み出し、場つなぎ動作実行部22に出力する。
When there is field connection operation information satisfying 0 ≦ T N ≦ X, the field connection
なお、0≦TN≦Xを満たす場つなぎ動作情報が複数ある場合は、音声対話装置10が動作を実行しない時間をより短くするために、減算値TNの値がより小さい場つなぎ動作情報を選択することが好ましい。つまり上記の例の場合、減算値TNが0となるNo.3の場つなぎ動作情報を選択することが好ましい。また、減算値TNの値が同じ場つなぎ動作情報が複数ある場合は、それらの中から場つなぎ動作情報を1つランダムに選択してもよい。
In addition, when there are a plurality of field connection operation information satisfying 0 ≦ T N ≦ X, the field connection operation information with a smaller value of the subtraction value T N is used in order to shorten the time during which the voice
一方、0≦TN≦Xを満たす場つなぎ動作情報が無い場合、場つなぎ動作決定部21は、減算値TNの正負の符号を変更した値である符号変更値−TN(第2減算値)それぞれについて、0以上かつ、応答の生成が完了してから音声対話装置10の場つなぎ動作が完了するまでの時間として許容できる時間を示す第2許容時間Y以下となるか否か(0≦−TN≦Yを満たす場つなぎ動作情報があるか否か)を判定する。第2許容時間Yは予め設定されている値であり、例えば、Y=2であれば、応答の生成が完了してから、場つなぎ動作が完了するまでの時間として許容できる時間が2秒であるということである。なお、場つなぎ動作決定部21は、各場つなぎ動作時間から受け取った待機時間を減算することで符号変換値−TNを算出してもよい。
On the other hand, when there is no field joining operation information that satisfies 0 ≦ T N ≦ X, the field joining
0≦−TN≦Yを満たす場つなぎ動作情報がある場合、場つなぎ動作決定部21は、当該場つなぎ動作情報が示す場つなぎ動作を音声対話装置10に実行させる場つなぎ動作として決定し、当該場つなぎ動作情報を場つなぎ動作実行部22に出力する。例えば待機時間が1秒であり、第2許容時間Y=1である場合、図2に示すNo.2およびNo.3の場つなぎ動作情報が0≦−TN≦Yを満たす。そのため、場つなぎ動作決定部21は、No.2またはNo.3の場つなぎ動作情報を読み出し、場つなぎ動作実行部22に出力する。
When there is field connection operation information satisfying 0 ≦ −T N ≦ Y, the field connection
なお、0≦−TN≦Yを満たす場つなぎ動作情報が複数ある場合は、音声対話装置10が動作を実行しない時間をより短くするために、符号変換値−TNの値がより小さい場つなぎ動作情報を選択することが好ましい。つまり上記の例の場合、符号変換値−TNが0となるNo.2の場つなぎ動作情報を選択することが好ましい。また、符号変換値−TNの値が同じ場つなぎ動作情報が複数ある場合は、それらの中から場つなぎ動作情報を1つランダムに選択してもよい。
Incidentally, 0 ≦ -T If field joint operation information satisfying N ≦ Y have multiple, in order to shorten the time for the
なお、第1許容時間Xおよび第2許容時間Yの少なくとも一方において、すべての場つなぎ動作情報に対して同じ値が設定されてもよいし、場つなぎ動作情報ごとに異なる値が設定されてもよい。また、第1許容時間Xおよび第2許容時間Yの少なくとも一方は、音声データのデータ量および発話時間の少なくとも一方に応じて設定されてもよい。つまり場つなぎ動作決定部21は、待機時間予測部11から受け取った音声データのデータ量または発話時間に基づいて、第1許容時間Xおよび第2許容時間Yの少なくとも一方を決定する。
Note that, in at least one of the first allowable time X and the second allowable time Y, the same value may be set for all the joining motion information, or different values may be set for each joining motion information. Good. Further, at least one of the first allowable time X and the second allowable time Y may be set according to at least one of the amount of audio data and the speech time. That is to say, the field connection
一方、0≦−TN≦Yを満たす場つなぎ動作情報が無い場合、場つなぎ動作決定部21は、複数の場つなぎ動作情報を選択する。具体的には、場つなぎ動作決定部21は、場つなぎ動作時間≦待機時間を満たす場つなぎ動作情報のうち、場つなぎ動作時間が最も長い場つなぎ動作情報を1つ選択する。そして、待機時間から、選択した場つなぎ動作情報に対応付けられた場つなぎ動作時間を減算した値(残時間)を算出し、場つなぎ動作時間≦残時間を満たす場つなぎ動作情報をさらに選択する。そして、場つなぎ動作決定部21は、選択した複数の場つなぎ動作情報に対応付けられた場つなぎ動作時間を合計した合計値を算出し、0≦待機時間−合計値≦Xまたは0≦−(待機時間−合計値)≦Yを満たすか否かを判定する。いずれか一方を満たす場合、複数の場つなぎ動作情報を「No.」のカラムの数字と対応付けて、場つなぎ動作実行部22に出力する。
On the other hand, when there is no field connection operation information that satisfies 0 ≦ −T N ≦ Y, the field connection
一方、いずれも満たさない場合、待機時間から合計値を減算した値を算出し、場つなぎ動作時間≦当該算出した値を満たす場つなぎ動作情報をさらに選択する。そして、場つなぎ動作決定部21は、選択した複数の場つなぎ動作情報に対応付けられた場つなぎ動作時間を合計した合計値を算出し、0≦待機時間−合計値≦Xまたは0≦−(待機時間−合計値)≦Yを満たすか否かを判定する。場つなぎ動作決定部21は、これらの処理を0≦待機時間−合計値≦Xまたは0≦−(待機時間−合計値)≦Yのいずれか一方を満たすようになるまで繰り返す。
On the other hand, if none of them is satisfied, a value obtained by subtracting the total value from the waiting time is calculated, and the joining operation information satisfying the joining operation time ≦ the calculated value is further selected. Then, the field connection
場つなぎ動作実行部22は、場つなぎ動作決定部21が決定した場つなぎ動作情報が示す場つなぎ動作を音声対話装置10に実行させる。具体的には、場つなぎ動作実行部22は、場つなぎ動作決定部21から場つなぎ動作情報を受け取ると、当該場つなぎ動作情報が示す場つなぎ動作を音声対話装置10に実行させる。例えば、音声出力部4を制御して音声を出力させたり、駆動部5を制御して音声対話装置10の可動部位を動作させたりする。場つなぎ動作実行部22は、場つなぎ動作の実行が完了すると、その旨を応答実行部15に通知する。また、場つなぎ動作実行部22は、場つなぎ動作決定部21から複数の場つなぎ動作情報を受け取った場合、記憶部6に記憶されている場つなぎ順序テーブル62を用いて複数の場つなぎ動作情報が示す場つなぎ動作の実行順序を決定する。
The field connection operation execution unit 22 causes the
ここで、場つなぎ順序テーブル62の詳細について図3を参照して説明する。図3は、記憶部6に記憶されている場つなぎ順序テーブル62のデータ構造およびデータ例を示す図である。なお、図3に示す場つなぎ順序テーブル62は一例であり、データ構造およびデータ例を図3の例に限定するものではない。場つなぎ順序テーブル62は、場つなぎ動作の組み合わせと、当該組み合わせにおける場つなぎ動作の順序とを対応付けたテーブルである。つまり、場つなぎ動作実行部22は、場つなぎ順序テーブル62を参照することで、場つなぎ動作決定部21から受け取った複数の場つなぎ動作情報が示す場つなぎ動作を実行する順序を決定することができる。「場つなぎ動作No」のカラムには、場つなぎ動作テーブル61の「No.」のカラムの数字が複数格納されている。当該カラムにおいては、複数の数字の順序は特に意味を持たない。一方、「動作順序」のカラムにも、場つなぎ動作テーブル61の「No.」のカラムの数字が複数格納されている。ただし、当該カラムにおける数字の順序は、場つなぎ動作を実行する順序を示している。例えば、図3に示すNo.1の動作順序は「3,2」であるので、図2に示すNo.3の場つなぎ動作情報が示す場つなぎ動作を実行した後で、図2に示すNo.2の場つなぎ動作情報が示す場つなぎ動作を実行することを示している。「場つなぎ動作」のカラムには、「動作順序」のカラムに格納された順序に応じた、場つなぎ動作の内容が格納されている。なお、このカラムは動作順序を分かりやすく説明するために示しているものであり、場つなぎ順序テーブル62から省略されてもよい。また、場つなぎ順序テーブル62は、ユーザが編集可能であってもよい。
Here, the details of the joining order table 62 will be described with reference to FIG. FIG. 3 is a diagram illustrating a data structure and data example of the connecting sequence table 62 stored in the
場つなぎ動作実行部22は、場つなぎ順序テーブル62から受け取った複数の場つなぎ動作情報と対応付けられている「No.」の数字の組み合わせを「場つなぎ動作No」のカラムから特定し、複数の場つなぎ動作の動作順序を特定する。そして、特定した動作順序で音声対話装置10に場つなぎ動作を実行させる。なお、複数の場つなぎ動作の動作順序の決定は、上述した場つなぎ順序テーブル62を用いる例に限定されない。例えば、場つなぎ動作実行部22は、複数の場つなぎ動作の動作順序をランダムに決定してもよいし、動作順序を場つなぎ動作に対応付けられている「No.」の数字が若い順としてもよい。この場合、記憶部6は場つなぎ順序テーブル62を記憶していなくてもよい。
The field joining operation execution unit 22 identifies a combination of numbers “No.” associated with a plurality of field joining operation information received from the field joining order table 62 from the “field joining operation No” column. The operation sequence of the spot connection operation is specified. Then, the voice
音声認識部13は、音声入力部2から受け取った音声データについて、音声認識処理を行う。なお、音声認識処理については既存の技術を利用することができる。音声認識部13は、受け取った音声データの音声認識結果を応答生成部14に出力する。
The
応答生成部14は、ユーザが発した音声に対する応答を示す応答情報を生成する。この応答には、音声の出力、音声対話装置10の可動部位の動作、並びに、音声の出力および可動部位の動作の3種類がある。応答生成部14による応答情報の生成には既存の技術を利用することができる。例えば、記憶部6に認識した音声データの内容と応答内容とを対応付けたテーブル(不図示)を格納しておき、当該テーブルを参照することで応答情報を生成してもよい。また、応答生成部14は、応答情報の生成に、明日の天気の情報などの外部データを用いる必要がある場合、通信部3を制御して取得した当該外部データを用いて応答情報を生成する。応答生成部14は、生成した応答情報(音声出力用の音声データや、可動部位を動作させるためのアクションデータなど)を応答実行部15に出力する。
The
応答実行部15は、応答生成部14が生成した応答情報が示す応答を実行する。具体的には、応答実行部15は、応答生成部14から応答情報を受け取り、場つなぎ動作実行部22から場つなぎ動作が完了した旨を通知されると、当該応答情報が示す動作を音声対話装置10に実行させる。例えば、音声出力部4を制御して音声を出力させたり、駆動部5を制御して音声対話装置10の可動部位を動作させたりする。
The
次に、図4に基づいて、制御部1が実行する応答実行処理の流れについて説明する。図4は、制御部1が実行する応答実行処理の流れの一例を示すフローチャートである。
Next, based on FIG. 4, the flow of response execution processing executed by the
まず、音声入力部2は音声の入力を待機している(S1)。音声入力部2は、ユーザが発した音声を取得すると(S1でYES)、取得した音声を音声データに変換し、当該音声データを音声認識部13に出力し、また当該音声データの音声付属情報を待機時間予測部11に出力する。
First, the
続いて待機時間予測部11は待機時間を予測する(S2、待機時間予測ステップ)。待機時間予測部11は予測した待機時間を場つなぎ動作決定部21に出力する。続いて場つなぎ動作決定部21は、場つなぎ動作決定処理を行う(S3)。なお、場つなぎ動作決定処理の詳細については後述する。場つなぎ動作決定部21は、音声対話装置10に実行させると決定した場つなぎ動作を示す場つなぎ動作情報を、場つなぎ動作実行部22に出力する。そして、場つなぎ動作実行部22は、受け取った場つなぎ動作情報に応じて、音声対話装置10に場つなぎ動作を実行させる(S4、場つなぎ動作実行ステップ)。場つなぎ動作実行部22は、場つなぎ動作の実行が完了すると、その旨を応答実行部15に通知する。
Subsequently, the standby
一方、音声認識部13は音声認識処理を行う(S5)。具体的には、音声認識部13は、音声データを受け取ると、当該音声データについて音声認識処理を行い、音声認識結果を応答生成部14に出力する。続いて応答生成部14は応答情報を生成する(S6)。具体的には、応答生成部14は、受け取った音声認識結果に応じた応答情報を生成し、応答実行部15に出力する。
On the other hand, the
なお、図4に示すように、ステップS2、S3、S4の処理とステップS5、S6の処理とは並列に行われる。つまり、応答実行部15は応答情報および場つなぎ動作の実行が完了した旨の通知のいずれか一方のみを受け取った場合、もう一方を受け取るまで待機する。そして、応答実行部15は上記通知と応答情報とを受け取ると、音声対話装置10に応答を実行させる(S7)。具体的には、応答実行部15は、受け取った応答情報に応じて、音声出力部4を制御して音声を出力させたり駆動部5を制御して音声対話装置10の可動部位を動作させたりする。以上で、応答実行処理は終了する。
As shown in FIG. 4, the processes in steps S2, S3, and S4 and the processes in steps S5 and S6 are performed in parallel. That is, when only one of the response information and the notification that the execution of the joining operation is completed is received, the
続いて、図5に基づいて、場つなぎ動作決定部21が実行する場つなぎ動作決定処理の流れについて説明する。図5は、図4のフローチャートにおける場つなぎ動作決定処理の流れの一例を示すフローチャートである。なお、図5のフローチャートにおいて、場つなぎ動作テーブル61に含まれる場つなぎ動作情報には、一般的に想定される待機時間程度の場つなぎ動作時間が対応付けられているものとする。
Next, the flow of the field connection operation determination process executed by the field connection
まず、場つなぎ動作決定部21は、待機時間予測部11から待機時間を受け取ると、場つなぎ動作テーブル61を読み出し、予測した待機時間から各場つなぎ動作時間を減算した減算値TNを算出する(S11)。続いて、場つなぎ動作決定部21は、算出した減算値TNおよび第1許容時間Xを用いて場つなぎ動作テーブル61を参照し、0≦TN≦Xを満たす場つなぎ動作情報があるか否かを判定する(S12)。
First, when a standby time is received from the standby
0≦TN≦Xを満たす場つなぎ動作情報がある場合(S12でYES)、場つなぎ動作決定部21は、当該場つなぎ動作情報のうちの1つが示す場つなぎ動作を、音声対話装置10が実行する場つなぎ動作に決定する(S13、場つなぎ動作決定ステップ)。具体的には、0≦TN≦Xを満たす場つなぎ動作情報のうち、TNの値がより小さい場つなぎ動作情報を選択する。そして、場つなぎ動作決定部21は、選択した場つなぎ動作情報を場つなぎ動作実行部22に出力する。
When there is field connection operation information satisfying 0 ≦ T N ≦ X (YES in S12), the field connection
一方、0≦TN≦Xを満たす場つなぎ動作情報が無い場合(S12でNO)、場つなぎ動作決定部21は、減算値TNから符号変更値−TNを算出し、符号変更値−TNおよび第2許容時間Yを用いて場つなぎ動作テーブル61を参照し、0≦−TN≦Yを満たす場つなぎ動作情報があるか否かを判定する(S14)。
On the other hand, 0 ≦ T N When situ joint operation information satisfying ≦ X is not (NO at S12), the field
0≦−TN≦Yを満たす場つなぎ動作情報がある場合(S14でYES)、場つなぎ動作決定部21は、当該場つなぎ動作情報のうちの1つが示す場つなぎ動作を、音声対話装置10が実行する場つなぎ動作に決定する(S15、場つなぎ動作決定ステップ)。具体的には、0≦−TN≦Yを満たす場つなぎ動作情報のうち、−TNの値がより小さい場つなぎ動作情報を選択する。
When there is field connection operation information satisfying 0 ≦ −T N ≦ Y (YES in S14), the field connection
一方、0≦−TN≦Yを満たす場つなぎ動作情報が無い場合(S14でNO)、複数の場つなぎ動作を組み合わせて、音声対話装置10が実行する場つなぎ動作を示す場つなぎ動作情報とする(S16、場つなぎ動作決定ステップ)。なお、この場合、上記ステップS4において、場つなぎ動作実行部22は、受け取った複数の場つなぎ動作情報および「No.」の数字を用いて場つなぎ順序テーブル62を参照し、複数の場つなぎ動作の実行順序(動作順序)を特定し、特定した動作順序で場つなぎ動作を実行させる。以上で、場つなぎ動作決定処理は終了する。
On the other hand, when there is no field connection operation information satisfying 0 ≦ −T N ≦ Y (NO in S14), the field connection operation information indicating the field connection operation executed by the voice
なお、本実施形態において、待機時間予測部11が予測した待機時間よりも早く応答情報の生成が完了した場合であって、場つなぎ動作決定部21が、複数の場つなぎ動作を選択している場合、場つなぎ動作実行部22は、その時点以降に行う場つなぎ動作の実行をキャンセルしてもよい。具体的には、場つなぎ動作実行部22は、応答実行部15から応答の出力が可能となったことを通知されたとき、その時点以降に行う場つなぎ動作の実行をキャンセルして、場つなぎ動作の実行が完了したことを応答実行部15に通知する。また、場つなぎ動作決定部21は、組み合わせる複数の場つなぎ動作の場つなぎ動作時間を変更してもよい。
In the present embodiment, when the generation of the response information is completed earlier than the standby time predicted by the standby
〔実施形態2〕
本発明の他の実施形態(実施形態2)について、図6〜図8に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
[Embodiment 2]
Another embodiment (second embodiment) of the present invention will be described below with reference to FIGS. For convenience of explanation, members having the same functions as those described in the embodiment are given the same reference numerals, and descriptions thereof are omitted.
上述した実施形態1では、0≦−TN≦Yを満たす場つなぎ動作情報が無い場合、複数の場つなぎ動作情報を組み合わせることで、0≦−TN≦Yを満たす場つなぎ動作情報としていた。一方、本実施形態では、0≦−TN≦Yを満たす場つなぎ動作情報が無い場合、場つなぎ動作情報に対応付けられた場つなぎ動作時間を変更することで、0≦−TN≦Yを満たす場つなぎ動作情報とする例について説明する。 In the first embodiment described above, when there is no field connection operation information that satisfies 0 ≦ −T N ≦ Y, a plurality of field connection operation information is combined to obtain field connection operation information that satisfies 0 ≦ −T N ≦ Y. . On the other hand, in this embodiment, when there is no field connection operation information that satisfies 0 ≦ −T N ≦ Y, by changing the field connection operation time associated with the field connection operation information, 0 ≦ −T N ≦ Y. An example of the connection operation information that satisfies the following conditions will be described.
まず、図6に基づいて、本実施形態に係る音声対話装置10aについて説明する。図6は、本実施形態に係る音声対話装置10aの構成を示すブロック図である。図6に示すように、音声対話装置10aは、実施形態1に係る音声対話装置10と比較して、制御部1に代えて制御部1aを備え、記憶部6に代えて記憶部6aを備えている。本実施形態では、制御部1aは、実施形態1に係る制御部1と比較して、場つなぎ動作制御部12に代えて場つなぎ動作制御部12aを含む。また記憶部6aは、実施形態1に係る記憶部6と比較して、場つなぎ動作テーブル61に代えて場つなぎ動作テーブル61aを記憶している。また、記憶部6aは、記憶部6と異なり場つなぎ順序テーブル62を記憶していない。
First, the voice
場つなぎ動作制御部12aは、場つなぎ動作の決定および実行を行う。場つなぎ動作制御部12aは、場つなぎ動作決定部21aおよび場つなぎ動作実行部22aを含む。
The field connection operation control unit 12a determines and executes the field connection operation. The field connection operation control unit 12a includes a field connection
場つなぎ動作決定部21aは、待機時間予測部11が予測した待機時間に基づいて、音声対話装置10aが実行する場つなぎ動作を決定するものである。場つなぎ動作決定部21aは、実施形態1に係る場つなぎ動作決定部21と異なり、0≦−TN≦Yを満たす場つなぎ動作情報が無い場合、場つなぎ動作テーブル61aを参照して、場つなぎ動作情報に対応付けられた場つなぎ動作時間を変更することで、0≦−TN≦Yを満たす場つなぎ動作情報とする。
The field connection
ここで、図7を参照して、場つなぎ動作テーブル61aの詳細について説明する。図6は、記憶部6aに記憶されている場つなぎ動作テーブル61aのデータ構造およびデータ例を示す図である。場つなぎ動作テーブル61aでは、場つなぎ動作情報と場つなぎ動作時間とに、さらに場つなぎ動作時間の変更幅を示す情報が対応付けられている。「場つなぎ動作時間変更幅」のカラムには、各場つなぎ動作時間の変更可能範囲を示す数値(変更許容情報、以降、変更幅と呼称する)が格納されている。例えば、No.2の場つなぎ動作は、場つなぎ動作時間が1秒であるが、変更幅が0.8〜1.5秒である。これはつまり、No.2の場つなぎ動作、すなわち「えっと。」の発話を0.8〜1.5秒の時間範囲で早くしたり、または遅くしたりすることができることを示している。なお、図7の例では変更幅として時間範囲の情報を格納しているが、変更幅はこの例に限定されない。例えば変更幅として、場つなぎ動作時間を基準時間(100%)とするパーセンテージの情報(例えば、「80〜150%」といった情報)を格納してもよい。また、変更幅はすべての場つなぎ動作情報で同じであってもよい。
Here, with reference to FIG. 7, the detail of the joining operation | movement table 61a is demonstrated. FIG. 6 is a diagram illustrating a data structure and a data example of the joining operation table 61a stored in the
より具体的には、場つなぎ動作決定部21aは、0≦−TN≦Yを満たす場つなぎ動作情報が無い場合、場つなぎ動作テーブル61aを参照して、0≦TN≦Xまたは0≦−TN≦Yを満たすような数値を変更幅に含む場つなぎ動作情報を特定し、当該数値を新たな場つなぎ動作時間とする。そして、特定した場つなぎ動作情報と、変更後の場つなぎ動作時間とを対応付けて場つなぎ動作実行部22aに出力する。なお、変更幅がパーセンテージである場合、場つなぎ動作決定部21aは、場つなぎ動作時間(基準時間)と当該パーセンテージとの乗算によって新たな場つなぎ動作時間を求める。
More specifically, when there is no field connection operation information satisfying 0 ≦ −T N ≦ Y, the field connection
場つなぎ動作実行部22aは、場つなぎ動作決定部21aが決定した場つなぎ動作情報が示す場つなぎ動作を音声対話装置10aに実行させる。場つなぎ動作実行部22aは、実施形態1に係る場つなぎ動作実行部22と異なり、場つなぎ動作決定部21aから場つなぎ動作情報と場つなぎ動作時間とを受け取った場合、当該場つなぎ動作時間で場つなぎ動作情報が示す場つなぎ動作が完了するように、音声対話装置10aに場つなぎ動作を実行させる。例えば、「えっと。」の発話を示す場つなぎ動作情報と、1.5秒という場つなぎ動作時間を受け取った場合、場つなぎ動作実行部22aは、通常は1秒で発話される(音声出力部4から出力される)「えっと。」を、1.5秒に引き伸ばして音声出力部4から出力させる。
The field connection operation execution unit 22a causes the
次に、図8に基づいて、場つなぎ動作決定部21aが実行する場つなぎ動作決定処理の流れについて説明する。図8は、本実施形態における場つなぎ動作決定処理の流れの一例を示すフローチャートである。なお、本実施形態における応答実行処理は、場つなぎ動作決定処理の内容を除いて、実施形態1にて説明した応答実行処理(図4に示す応答実行処理)と同様であるため、ここでの説明を省略する。また、図8に示すフローチャートのうち、ステップS21〜S25については、図5に示すステップS11〜S15と同様であるため、ここでの説明を省略する。
Next, based on FIG. 8, the flow of the field joining operation determination process executed by the field joining
0≦−TN≦Yを満たす場つなぎ動作情報が無い場合(S24でNO)、場つなぎ動作決定部21aは、場つなぎ動作時間を変更して、0≦TN≦Xまたは0≦−TN≦Yを満たす場つなぎ動作とする(S26)。そして、特定した場つなぎ動作情報と変更後の場つなぎ動作時間とを対応付けて場つなぎ動作実行部22aに出力する。なお、この場合、上記ステップS4において、場つなぎ動作実行部22aは、場つなぎ動作決定部21aから場つなぎ動作情報と場つなぎ動作時間とを受け取ると、当該場つなぎ動作時間で場つなぎ動作情報が示す場つなぎ動作が完了するように、音声対話装置10aに場つなぎ動作を実行させる。最後に、場つなぎ動作実行部22aは、場つなぎ動作の実行が完了すると、その旨を応答実行部15に通知する。以上で、場つなぎ動作決定処理は終了する。
When there is no field connection operation information that satisfies 0 ≦ −T N ≦ Y (NO in S24), the field connection
〔実施形態3〕
本発明のさらに別の実施形態(実施形態3)について、図9および図10に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
[Embodiment 3]
The following will describe still another embodiment (Embodiment 3) of the present invention with reference to FIGS. 9 and 10. FIG. For convenience of explanation, members having the same functions as those described in the embodiment are given the same reference numerals, and descriptions thereof are omitted.
上述した実施形態1および2では、待機時間の予測は音声データのデータ量および発話時間の少なくとも1つを用いて行われていた。一方、本実施形態では、さらに音声認識結果を用いる例について説明する。 In the first and second embodiments described above, the standby time is predicted using at least one of the amount of speech data and the speech time. On the other hand, in the present embodiment, an example in which a voice recognition result is further used will be described.
まず、図9に基づいて、本実施形態に係る音声対話装置10bについて説明する。図9は、本実施形態に係る音声対話装置10bの構成を示すブロック図である。図9に示すように、音声対話装置10bは、実施形態1に係る音声対話装置10と比較して、制御部1に代えて制御部1bを備えている。本実施形態では、制御部1bは、実施形態1に係る制御部1と比較して、待機時間予測部11に代えて待機時間予測部11bを含み、場つなぎ動作制御部12に代えて場つなぎ動作制御部12bを含み、音声認識部13に代えて音声認識部13bを含む。
First, the voice
待機時間予測部11bは、実施形態1に係る待機時間予測部11と異なり、まず、ユーザが発した音声を取得してから、音声認識部13bが音声認識を完了するまでの音声認識待機時間を予測する。具体的には、待機時間予測部11bは、音声入力部2から音声付属情報を受け取ると、当該音声データのサイズ(データ量)を用いて音声認識待機時間を予測する。なお、データ量を用いる例については、実施形態1にて既に説明しているため、ここでの説明を省略する。また、待機時間予測部11bは、音声認識部13bから音声認識結果を受け取動作動作ると、音声認識処理が完了してから応答が出力可能となるまでの応答生成待機時間を予測する。具体的には、待機時間予測部11bは、音声データのサイズ(データ量)を用いて応答生成待機時間を予測する。なお、データ量を用いる例については、実施形態1にて既に説明しているため、ここでの説明を省略する。また、待機時間予測部11bは、音声データの時間(ユーザの発話時間)を用いて音声認識待機時間および応答生成待機時間を予測してもよい。また、音声データのデータ量および発話時間の両方を用いて、音声認識待機時間および応答生成待機時間を予測(算出)してもよい。発話時間を用いる例、およびデータ量および発話時間の両方を用いる例については、実施形態1にて既に説明しているため、ここでの説明を省略する。
Unlike the standby
さらに待機時間予測部11bは、予測(算出)した応答生成待機時間を、受け取った音声認識結果に応じて修正する。具体的には、応答生成部14が、通信部3を介して何らかの検索を行う必要があることを、音声認識結果が示している場合、応答情報の生成に要する時間が長くなると予想される。この場合、待機時間予測部11bは、必要な検索の回数に応じて、応答生成待機時間を長くする。例えば、音声認識結果が、音声データ中に「明日の天気」、「降水確率」といった、天気予報を管理する外部サーバから情報を取得する必要がある文言が含まれていることを示している場合、応答生成待機時間を長くする。また、音声対話装置10bが、ユーザを認識する(例えば応答として、ユーザの名前を呼ぶ、ユーザの方向を向く)必要があることを音声認識結果が示している場合、ユーザを識別したり、ユーザがいる場所を特定したりする必要があるため、応答情報の生成に要する時間が長くなると予想される。この場合も、待機時間予測部11bは、応答生成待機時間を長くする。なお、ユーザを識別したり、ユーザのいる場所を特定したりする処理は、音声対話装置10bが備えているカメラ(不図示)から動画または静止画を取得して行うことができる。そして、待機時間予測部11bは、応答生成待機時間を場つなぎ動作決定部21bに出力する。なお、待機時間予測部11bは、音声の認識結果のデータサイズから待機時間を予測するなどの方法で、音声の認識結果のみから応答生成待機時間を予測してもよい。
Further, the standby time prediction unit 11b corrects the predicted (calculated) response generation standby time according to the received voice recognition result. Specifically, when the speech recognition result indicates that the
場つなぎ動作制御部12bは、実施形態1に係る場つなぎ動作制御部12と比較して、場つなぎ動作決定部21に代えて場つなぎ動作決定部21bを含み、場つなぎ動作実行部22に代えて場つなぎ動作実行部22bを含む。
Compared to the field connection
場つなぎ動作決定部21bは、場つなぎ動作決定部21と異なり、待機時間予測部11bから音声認識待機時間または応答生成待機時間を受け取ると、音声対話装置10bに実行させる場つなぎ動作を決定する。なお、決定の詳細は実施形態1に係る場つなぎ動作決定部21と同様であるため、ここでの説明を省略する。
Unlike the field connection
場つなぎ動作実行部22bは、場つなぎ動作実行部22と異なり、音声認識待機時間中の場つなぎ動作の実行が完了し、場つなぎ動作決定部21bから、応答生成待機時間中に音声対話装置10bに実行させる場つなぎ動作の場つなぎ動作情報を受け取ると、応答生成待機時間中の場つなぎ動作を音声対話装置10bに実行させる。
Unlike the field connection operation execution unit 22, the field connection
音声認識部13bは、実施形態1に係る音声認識部13と異なり、音声認識結果を応答生成部14と待機時間予測部11bとに出力する。
Unlike the
次に図10を参照して、制御部1bが実行する応答実行処理の流れについて説明する。図10は制御部1bが実行する応答実行処理の流れの一例を示すフローチャートである。
Next, the flow of response execution processing executed by the
まず、音声入力部2は音声の入力を待機している(S31)。音声入力部2は、ユーザが発した音声を取得すると(S31でYES)、取得した音声を音声データに変換し、当該音声データを音声認識部13bに出力し、また当該音声データの音声付属情報を待機時間予測部11bに出力する。
First, the
続いて、待機時間予測部11bは音声認識待機時間を予測する(S32)。待機時間予測部11bは予測した音声認識待機時間を場つなぎ動作決定部21bに出力する。続いて、場つなぎ動作決定部21bは場つなぎ動作決定処理を行う(S33)。なお、場つなぎ動作決定処理の詳細については、実施形態1と同様であるためここでの説明を省略する。場つなぎ動作決定部21bは、音声対話装置10bに実行させると決定した場つなぎ動作を示す場つなぎ動作情報を、場つなぎ動作実行部22bに出力する。そして、場つなぎ動作実行部22bは、受け取った場つなぎ動作情報に応じて、音声対話装置10bに場つなぎ動作を実行させる(S34)。
Subsequently, the standby time prediction unit 11b predicts a speech recognition standby time (S32). The standby time prediction unit 11b outputs the predicted voice recognition standby time to the
一方、音声認識部13bは音声認識処理を行う(S35)。音声認識部13bは、音声認識結果を待機時間予測部11bおよび応答生成部14に出力する。
On the other hand, the
待機時間予測部11bは、音声認識結果を受け取ると、音声付属情報と音声認識結果とに基づいて応答生成待機時間を予測する(S36)。待機時間予測部11bは予測した応答生成待機時間を場つなぎ動作決定部21bに出力する。続いて場つなぎ動作決定部21bは、場つなぎ動作決定処理を行う(S37)。場つなぎ動作決定部21bは、音声対話装置10bに実行させると決定した場つなぎ動作を示す場つなぎ動作情報を、場つなぎ動作実行部22bに出力する。
When receiving the voice recognition result, the standby time predicting unit 11b predicts a response generation standby time based on the voice attached information and the voice recognition result (S36). The standby time prediction unit 11b outputs the predicted response generation standby time to the
一方、応答生成部14は応答情報を生成する(S39)。具体的には、応答生成部14は、受け取った音声認識結果に応じた応答情報を生成し、応答実行部15に出力する。
On the other hand, the
なお、図10に示すように、場つなぎ動作実行部22bは、ステップS34の場つなぎ動作の実行が終了し、かつ、ステップS37の場つなぎ動作決定処理が終了したとき、場つなぎ動作決定部21bから受け取った場つなぎ動作情報に応じて、音声対話装置10bに場つなぎ動作を実行させる(S38)。ここでステップS34の処理およびステップS37の処理の一方が終了していない場合、場つなぎ動作実行部22bは、当該処理が終了するまで待機する。
As shown in FIG. 10, when the execution of the field connection operation in step S34 is completed and the field connection operation determination process in step S37 is completed, the field connection
また、図10に示すように、ステップS38の処理と、ステップS39の処理とは並列に行われる。つまり、応答実行部15は、応答情報および場つなぎ動作の実行が完了した旨の通知のいずれか一方のみを受け取った場合、もう一方を受け取るまで待機する。そして、応答実行部15は上記通知と応答情報とを受け取ると、音声対話装置10bに応答を実行させる(S40)。以上で、応答実行処理は終了する。
Also, as shown in FIG. 10, the process of step S38 and the process of step S39 are performed in parallel. That is, when only one of the response information and the notification that the execution of the joining operation is completed is received, the
なお、本実施形態では、音声認識処理中にも音声対話装置10bに場つなぎ動作を実行させていたが、音声認識処理中には場つなぎ処理を実行させなくてもよい。この場合、音声入力部2は音声を取得すると当該音声の音声データを音声認識部13bにのみ出力する。またこの場合、図10のステップS32からS34は省略される。つまり、待機時間予測部11bが予測する待機時間は、応答生成待機時間のみとなる。
In the present embodiment, the joining operation is executed in the
〔変形例〕
上述した実施形態1では、ユーザが発した音声の音声認識、および当該音声に対する応答情報の生成は、いずれも音声対話制御装置(制御部1)にて行っていたが、これらの処理は音声対話装置10と通信可能な外部装置(外部サーバ、不図示)が行ってもよい。つまり、音声対話装置10は、音声を取得すると音声データに変換し、通信部3を介して当該音声データを外部装置に送信する。外部装置は、音声認識および応答情報の生成を行い、応答情報を音声対話装置10に送信する。また、第1許容時間Xまたは第2許容時間Yのいずれか一方のみを用いた判定を行ってもよい。また、場つなぎ動作決定部21は、条件を満たす場つなぎ動作情報が複数ある場合、減算値TN(または符号変更値−TN)の値がより小さいものを選択していたが、この例に限定されるものではない。例えば、場つなぎ動作テーブル61に各場つなぎ動作を最後に実行した日時を示す履歴情報を格納するカラムがあり、条件を満たす場つなぎ動作情報が複数ある場合は、当該履歴情報がより古い日時を示しているものを選択してもよい。また、待機時間予測部11が予測した待機時間よりも早く応答情報の生成が完了した場合、場つなぎ動作実行部22は、実行している場つなぎ動作の速度を速めて、当該動作の実行が早く完了するようにしてもよい。具体的には、場つなぎ動作実行部22は、応答実行部15から応答の出力が可能となったことを通知されたとき、実行している場つなぎ動作の速度を速めて実行する。なお、これらの変形例は実施形態2および3にも適用可能である。
[Modification]
In
また、上述した実施形態1において、待機時間予測部11が予測した待機時間よりも応答情報の生成に時間がかかった場合、待機時間予測部11は、音声認識部13が行った音声認識結果を用いて、再度待機時間を予測してもよい。そして、新たな待機時間が以前の待機時間よりも長くなる場合、場つなぎ動作決定部21は、再度場つなぎ動作の決定を行ってもよい。なお、この変形例は実施形態2にも適用可能である。
In the above-described first embodiment, when the response information generation takes longer than the standby time predicted by the standby
また、上述した実施形態1において、場つなぎ動作決定部21が決定した場つなぎ動作の種別が「音声」である場合、決定した場つなぎ動作より場つなぎ動作時間が短く、かつ種別が「身振り」である場つなぎ動作情報を選択し、2つの場つなぎ動作情報を組み合わせて場つなぎ動作実行部22に出力してもよい。同様に、決定した場つなぎ動作の種別が「身振り」である場合は、決定した場つなぎ動作より場つなぎ動作時間が短く、かつ種別が「音声」である場つなぎ動作情報を選択し、2つの場つなぎ動作情報を組み合わせて場つなぎ動作実行部22に出力してもよい。例えば、図2のNo.7の場つなぎ動作情報が示す場つなぎ動作(種別:身振り、「起き上がる」動作を行う)を、音声対話装置10が実行する場つなぎ動作と決定した場合、場つなぎ動作決定部21は、例えば図2のNo.4の場つなぎ動作情報が示す場つなぎ動作(種別:音声、「ちょっと待ってね」と発話する)を音声対話装置10が実行する場つなぎ動作としてさらに決定し、これらの場つなぎ動作情報を場つなぎ動作実行部22に出力する。場つなぎ動作実行部22は、この情報を受けて、音声対話装置10に「『ちょっと待ってね』と発話しながら『起き上がる』動作」を実行させる。これにより、場つなぎ動作のバリエーションが増え、ユーザを飽きさせないようにすることができる。なお、この変形例は実施形態2および3にも適用可能である。
In the above-described first embodiment, when the type of the field connection operation determined by the field connection
〔ソフトウェアによる実現例〕
音声対話制御装置、すなわち制御部1、制御部1a、および制御部1bは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
[Example of software implementation]
The voice interaction control device, that is, the
後者の場合、音声対話装置10は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
In the latter case, the
〔まとめ〕
本発明の態様1に係る音声対話制御装置(制御部1)は、音声対話装置(10)が、ユーザが発した音声を取得した後の所定の時点から、当該音声に対する応答が出力可能になるまでの待機時間を予測する待機時間予測部(11)と、上記待機時間予測部が予測した上記待機時間と、上記音声対話装置が実行可能な動作を示す複数の動作候補それぞれの実行に要する動作時間とに基づいて、上記複数の動作候補から1または複数を場つなぎ動作として選択する場つなぎ動作決定部(21)と、上記場つなぎ動作決定部が選択した上記場つなぎ動作を上記音声対話装置に実行させる場つなぎ動作実行部(22)と、を備える。
[Summary]
The voice conversation control device (control unit 1) according to the first aspect of the present invention can output a response to the voice from a predetermined time after the voice dialogue device (10) acquires the voice uttered by the user. The waiting time prediction unit (11) that predicts the waiting time until the waiting time, the waiting time predicted by the waiting time prediction unit, and the operations required to execute each of a plurality of motion candidates indicating the operations that can be performed by the voice interactive device And, based on the time, select one or more of the plurality of motion candidates as a field connection operation, a field connection operation determination unit (21), and the field connection operation selected by the field connection operation determination unit as the field connection operation. And a connection operation execution unit (22) to be executed.
上記の構成によれば、待機時間と、複数の動作候補それぞれの実行に要する動作時間とに基づいて、複数の動作候補から場つなぎ動作を決定するので、音声対話装置に、待機時間の長さに応じた場つなぎ動作を実行させることができる。例えば、待機時間が短い場合には、「えっと。」と発話するなどの短い時間で完了する場つなぎ動作を実行させる。また、待機時間が長い場合には、「腕を組んで首を上下する動作を定期的に繰り返す」動作の実行などの、完了までに長い時間がかかる場つなぎ動作を実行させる。よって、ユーザと音声対話装置とのコミュニケーションの柔軟性を向上させることができる。 According to the above configuration, since the joining operation is determined from the plurality of motion candidates based on the standby time and the operation time required for each of the plurality of motion candidates, the length of the standby time is determined in the voice interaction device. It is possible to execute the connecting operation according to the situation. For example, when the waiting time is short, a joining operation is executed in a short time such as uttering “um”. When the waiting time is long, a joining operation such as a “repeating periodically the operation of raising and lowering the neck with arms folded” is executed when it takes a long time to complete. Therefore, the flexibility of communication between the user and the voice interaction device can be improved.
なお、「ユーザが発した音声を取得した後の所定の時点」とは、待機時間の始点を示す文言である。当該文言が示す待機時間の始点は、ユーザが発した音声を取得した時点であってもよいし、音声を取得してから所定時間後の時点であってもよいし、音声認識処理を完了して、応答の生成を開始した時点であってもよい。つまり、待機時間の始点は、ユーザが発した音声を取得してから、当該音声に対する応答が出力可能になるまでの間において任意に設定可能である。 The “predetermined time point after acquiring the voice uttered by the user” is a word indicating the start point of the standby time. The start point of the waiting time indicated by the wording may be the time when the voice uttered by the user is acquired, may be the time after a predetermined time after acquiring the voice, or the voice recognition process is completed. It may be the time when the generation of the response is started. In other words, the start point of the waiting time can be arbitrarily set after the voice uttered by the user is acquired until the response to the voice can be output.
本発明の態様2に係る音声対話制御装置は、上記態様1において、上記場つなぎ動作決定部は、上記複数の動作候補のうち、上記動作時間を上記待機時間から減算した第1減算値が、0以上かつ、上記場つなぎ動作の実行が完了してから上記応答が出力可能になるまでに上記音声対話装置が動作しない時間として許容できる時間を示す第1許容時間以下である上記動作候補を、上記場つなぎ動作として決定してもよい。
In the voice interaction control device according to
上記の構成によれば、待機時間が動作時間より長く、待機時間と動作時間との差が第1許容時間以下となる動作を場つなぎ動作として決定するので、場つなぎ動作が終了した後から応答を実行するまでの間で、音声対話装置が動作しない時間を最低限とすることができる。これにより、ユーザが音声対話装置とのコミュニケーションにおいてストレスを感じることを防ぐことができる。 According to the above configuration, since the standby time is longer than the operation time, and the operation in which the difference between the standby time and the operation time is equal to or less than the first allowable time is determined as the joining operation, the response is made after the joining operation is finished. The time during which the voice interactive apparatus does not operate can be minimized until the process is executed. Thereby, it can prevent that a user feels stress in communication with a voice interactive apparatus.
本発明の態様3に係る音声対話制御装置は、上記態様2において、上記第1許容時間は、上記動作候補ごとに、または、上記音声の時間および上記音声から生成された音声データのサイズの少なくとも一方に応じて設定されてもよい。
In the voice interaction control device according to
場つなぎ動作が終了した後から応答を実行するまでの音声対話装置が動作しない時間について、ユーザが許容できる時間は動作ごとに異なると考えられる。そこで上記の構成によれば、第1許容時間を動作候補ごとに設定するので、動作に応じた許容時間とすることができる。例えば、動作時間が短い動作の第1許容時間を短くしたり、動作時間が長い動作の第1許容時間を長くしたりすることで、動作に応じた許容時間とすることができる。 Regarding the time during which the voice interactive device does not operate after the end of the connecting operation until the response is executed, the time that the user can accept is considered to be different for each operation. Therefore, according to the above configuration, the first allowable time is set for each motion candidate, so that the allowable time according to the motion can be set. For example, the allowable time according to the operation can be set by shortening the first allowable time for an operation with a short operation time or increasing the first allowable time for an operation with a long operation time.
また、音声の時間および音声から生成された音声データのサイズが大きい場合、実際の待機時間において、外部からの影響を受けやすくなるため、予測した待機時間とのずれが大きくなると考えられる。そこで上記の構成によれば、第1許容時間を音声の時間および音声から生成された音声データのサイズの少なくとも一方に応じて設定するので、実際の待機時間と予測した待機時間とのずれを考慮した場つなぎ動作の選択を可能とすることができる。例えば、音声データのサイズが大きい場合に、第1許容時間を長くすれば、実際の待機時間が予測した待機時間を超過した場合でも、音声対話装置が動作しない時間を短くすることができる。 Further, when the time of the sound and the size of the sound data generated from the sound are large, the actual standby time is likely to be affected by the outside, so that the deviation from the predicted standby time is considered to be large. Therefore, according to the above configuration, since the first allowable time is set according to at least one of the time of the sound and the size of the sound data generated from the sound, the difference between the actual waiting time and the predicted waiting time is taken into consideration. In this case, it is possible to select a connection operation. For example, when the size of the voice data is large, if the first allowable time is increased, the time during which the voice interactive apparatus does not operate can be shortened even if the actual standby time exceeds the predicted standby time.
本発明の態様4に係る音声対話制御装置は、上記態様1から3のいずれかにおいて、上記場つなぎ動作決定部は、上記複数の動作候補のうち、上記待機時間を上記動作時間から減算した第2減算値が、0以上かつ、上記応答が出力可能になってから上記場つなぎ動作の実行が完了するまでの時間として許容できる時間を示す第2許容時間以下である上記動作候補を、上記場つなぎ動作として決定してもよい。
In the voice interaction control device according to
上記の構成によれば、動作時間が待機時間より長く、待機時間と動作時間との差が第2許容時間以下となる動作を場つなぎ動作として決定するので、応答の生成が完了してから場つなぎ動作が完了するまでの時間を最低限とすることができる。これにより、応答の生成が完了してから応答の実行までの時間を最低限とすることができる。 According to the above configuration, since the operation time is longer than the standby time and the operation in which the difference between the standby time and the operation time is equal to or less than the second allowable time is determined as the bridging operation, the operation is performed after the generation of the response is completed. The time required for completing the joining operation can be minimized. Thereby, the time from the completion of the generation of the response to the execution of the response can be minimized.
本発明の態様5に係る音声対話制御装置は、上記態様4において、上記第2許容時間は、上記動作候補ごとに、または、上記音声の時間および上記音声から生成された音声データのサイズの少なくとも一方に応じて設定されてもよい。
In the voice interaction control device according to
場つなぎ動作が実行される時間について、ユーザが許容できる時間は動作ごとに異なると考えられる。そこで上記の構成によれば、第2許容時間を動作候補ごとに設定するので、動作に応じた許容時間とすることができる。例えば、動作時間が長い動作の第2許容時間を短くすることで、長時間の場つなぎ動作の後で、音声対話装置がすぐに応答を返すこととなる。これにより、ユーザが音声対話装置とのコミュニケーションにおいてストレスを感じることを防ぐことができる。 Regarding the time at which the jointing operation is executed, the time that the user can accept is considered to be different for each operation. Therefore, according to the above configuration, the second allowable time is set for each motion candidate, so that the allowable time according to the motion can be set. For example, by shortening the second permissible time of an operation having a long operation time, the voice interactive apparatus immediately returns a response after a long-time connection operation. Thereby, it can prevent that a user feels stress in communication with a voice interactive apparatus.
また、音声の時間および音声から生成された音声データのサイズが大きい場合、実際の待機時間において、外部からの影響を受けやすくなるため、予測した待機時間とのずれが大きくなると考えられる。そこで上記の構成によれば、第2許容時間を音声の時間および音声から生成された音声データのサイズの少なくとも一方に応じて設定するので、実際の待機時間と予測した待機時間とのずれを考慮した場つなぎ動作の選択を可能とすることができる。例えば、音声データのサイズが大きい場合に、第2許容時間を長くすれば、実際の待機時間が予測した待機時間を超過した場合でも、応答の生成が完了した後、音声対話装置がすぐに応答を返すことができる。 Further, when the time of the sound and the size of the sound data generated from the sound are large, the actual standby time is likely to be affected by the outside, so that the deviation from the predicted standby time is considered to be large. Therefore, according to the above configuration, since the second allowable time is set according to at least one of the time of the sound and the size of the sound data generated from the sound, the difference between the actual waiting time and the predicted waiting time is considered. In this case, it is possible to select a connection operation. For example, if the second allowable time is increased when the size of the voice data is large, even if the actual standby time exceeds the predicted standby time, the voice interactive device immediately responds after the generation of the response is completed. Can be returned.
本発明の態様6に係る音声対話制御装置は、上記態様1から5のいずれかにおいて、上記待機時間予測部は、上記音声の時間および上記音声から生成された音声データのサイズの少なくとも一方を用いて、上記待機時間を予測してもよい。
In the voice interaction control device according to
音声の時間が長いまたは音声データのサイズが大きいと、応答生成に要する時間が長くなると考えられる。そこで上記の構成によれば、音声の時間および音声データのサイズの少なくとも一方を用いて待機時間を予測する。これにより、待機時間を高精度で予測ことができる。 If the voice time is long or the voice data size is large, it is considered that the time required for generating a response becomes long. Therefore, according to the above configuration, the standby time is predicted using at least one of the audio time and the audio data size. As a result, the standby time can be predicted with high accuracy.
本発明の態様7に係る音声対話制御装置は、上記態様6において、上記待機時間予測部は、上記待機時間の予測に、さらに上記音声の認識結果を用いてもよい。
In the voice interaction control device according to
上記の構成によれば、音声の時間および音声データのサイズに加え、さらに音声の認識結果を用いて待機時間を予測するので、音声の内容に応じた待機時間の予測を行うことができ、さらに高精度な予測が可能となる。例えば、音声認識を行った結果、外部サーバにて管理されている情報の検索などを実行する必要がある場合、応答生成に時間がかかることが予想される。このような場合に待機時間を長く予測することで、待機時間と実際の応答生成に要する時間との間のずれをさらに少なくすることができる。 According to the above configuration, since the standby time is predicted using the voice recognition result in addition to the voice time and the size of the voice data, the standby time can be predicted according to the contents of the voice. Precise prediction is possible. For example, if it is necessary to search information managed by an external server as a result of voice recognition, it is expected that it takes time to generate a response. In such a case, it is possible to further reduce the difference between the standby time and the time required for actual response generation by predicting the standby time longer.
本発明の態様8に係る音声対話制御装置は、上記態様1から7のいずれかにおいて、上記動作候補には、上記動作時間と共に、当該動作時間の変更可能範囲が予め設定されており、上記場つなぎ動作決定部は、上記動作時間を上記変更可能範囲内で変更した動作時間に基づいて、上記動作候補を選択してもよい。
In the voice interaction control device according to
上記の構成によれば、実行開始から終了までの時間を変更することができるので、動作時間が固定的であった場合には選択できなかった場つなぎ動作を選択できるようになる。よって、場つなぎ動作のバリエーションを増やすことができる。 According to the above configuration, since the time from the start to the end of execution can be changed, it is possible to select a joint operation that cannot be selected when the operation time is fixed. Therefore, the variation of the joining operation can be increased.
本発明の態様9に係る音声対話制御装置は、上記態様1から8のいずれかにおいて、上記場つなぎ動作決定部は、上記複数の動作候補から、2以上の動作候補を組み合わせて選択してもよい。
In the voice conversation control device according to
上記の構成によれば、2以上の動作候補を組み合わせて選択するので、待機時間中に1つの場つなぎ動作を実行したり、2以上の場つなぎ動作を実行したりすることができる。よって、場つなぎ動作のバリエーションを増やすことができる。 According to the above configuration, since two or more motion candidates are selected in combination, it is possible to execute one place connecting operation or to execute two or more place connecting operations during the standby time. Therefore, the variation of the joining operation can be increased.
本発明の態様10に係る音声対話制御装置は、上記態様9において、上記場つなぎ動作実行部は、上記音声に対する応答が出力可能になった時点で、上記場つなぎ動作決定部により選択され、かつ、実行を開始していない上記場つなぎ動作がある場合、当該場つなぎ動作の実行をキャンセルしてもよい。
In the voice interaction control device according to
上記の構成によれば、応答が出力可能になった時点で、実行を開始していない動作場つなぎ動作の実行をキャンセルするので、応答が出力可能となってから応答の実行までの時間を最低限とすることができる。 According to the above configuration, when the response can be output, the execution of the connection operation that has not started execution is canceled, so the time from when the response can be output until the response is executed is minimized. Limit.
本発明の態様11に係る音声対話制御装置の制御方法は、音声対話装置に実行させる音声対話制御装置の制御方法であって、音声対話装置が、ユーザが発した音声を取得した後の所定の時点から、当該音声に対する応答が出力可能になるまでの待機時間を予測する待機時間予測ステップ(S2)と、上記待機時間予測ステップにて予測された上記待機時間と、上記音声対話装置が実行可能な動作を示す複数の動作候補それぞれの実行に要する動作時間とに基づいて、上記複数の動作候補から1または複数を場つなぎ動作として選択する場つなぎ動作決定ステップ(S13、S15、S16)と、場つなぎ動作決定ステップにて選択された上記場つなぎ動作を上記音声対話装置に実行させる場つなぎ動作実行ステップ(S4)と、を含む。この制御方法によれば、態様1に係る音声対話制御装置と同様の作用効果を有する。
A control method for a voice interaction control device according to an
本発明の態様12に係る音声対話装置は、上記態様1から10のいずれかに係る音声対話制御装置を備えてもよい。上記の構成によれば、この音声対話装置は、ユーザとのコミュニケーションの柔軟性を向上させることができる。
The voice interaction apparatus according to
本発明の各態様に係る音声対話制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声対話制御装置が備える各部(ソフトウェア要素)として動作させることにより上記音声対話制御装置をコンピュータにて実現させる音声対話制御装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。 The voice conversation control device according to each aspect of the present invention may be realized by a computer. In this case, the voice conversation control device is operated by causing the computer to operate as each unit (software element) included in the voice dialogue control device. The control program of the voice interaction control device that realizes the above in a computer and a computer-readable recording medium on which the control program is recorded also fall within the scope of the present invention.
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。 The present invention is not limited to the above-described embodiments, and various modifications are possible within the scope shown in the claims, and embodiments obtained by appropriately combining technical means disclosed in different embodiments. Is also included in the technical scope of the present invention. Furthermore, a new technical feature can be formed by combining the technical means disclosed in each embodiment.
本発明は、ユーザの発話に対して応答する音声対話装置を制御するための音声対話制御装置に利用することができる。 INDUSTRIAL APPLICABILITY The present invention can be used for a voice dialogue control device for controlling a voice dialogue device that responds to a user's utterance.
1、1a、1b 制御部(音声対話制御装置)、10、10a、10b 音声対話装置、11、11b 待機時間予測部、21、21a、21b 場つなぎ動作決定部、22、22a、22b 場つなぎ動作実行部、S2 待機時間予測ステップ、S13、S15、S16 場つなぎ動作決定ステップ、S4 場つなぎ動作実行ステップ 1, 1a, 1b Control unit (voice dialogue control device) 10, 10a, 10b Voice dialogue device, 11, 11b Standby time prediction unit, 21, 21a, 21b Field connection operation determination unit, 22, 22a, 22b Field connection operation Execution unit, S2 standby time prediction step, S13, S15, S16 field connection operation determination step, S4 field connection operation execution step
Claims (6)
上記待機時間予測部が予測した上記待機時間と、上記音声対話装置が実行可能な動作を示す複数の動作候補それぞれの実行に要する動作時間とに基づいて、上記複数の動作候補から1または複数を場つなぎ動作として選択する場つなぎ動作決定部と、
上記場つなぎ動作決定部が選択した上記場つなぎ動作を上記音声対話装置に実行させる場つなぎ動作実行部と、を備え、
上記場つなぎ動作決定部は、上記複数の動作候補のうち、上記動作時間から上記待機時間を減算した第2減算値が、0以上、かつ、上記応答が出力可能になってから上記場つなぎ動作の実行が完了するまでの時間として許容できる時間を示す第2許容時間以下である上記動作候補を、上記場つなぎ動作として決定することを特徴とする音声対話制御装置。 A standby time prediction unit that predicts a standby time from when a voice interaction device acquires a voice uttered by a user until a response to the voice can be output;
Based on the standby time predicted by the standby time prediction unit and the operation time required to execute each of the plurality of operation candidates indicating the operations that can be performed by the voice interactive device, one or more of the plurality of operation candidates is selected. A place-joining operation determining unit to select as a place-joining operation;
A field connection operation execution unit that causes the voice interaction device to execute the field connection operation selected by the field connection operation determination unit ;
The field transition operation determination unit is configured to perform the field transition operation after the second subtraction value obtained by subtracting the waiting time from the operation time is 0 or more and the response can be output among the plurality of motion candidates. execution of the second permissible time less is the operation candidate indicating a time acceptable as the time to complete the voice interaction control apparatus to said Rukoto determined as the field joint operation.
上記場つなぎ動作決定部は、上記動作時間を上記変更可能範囲内で変更した動作時間に基づいて、上記動作候補を選択することを特徴とする請求項1から3のいずれか1項に記載の音声対話制御装置。 In the operation candidate, a changeable range of the operation time is set in advance together with the operation time,
The field joint operation determination unit, the operation time based on operating time was changed within the change range, according to any one of claims 1 to 3, characterized in that selecting the operation candidate Spoken dialogue control device.
音声対話装置が、ユーザが発した音声を取得した後の所定の時点から、当該音声に対する応答が出力可能になるまでの待機時間を予測する待機時間予測ステップと、
上記待機時間予測ステップにて予測された上記待機時間と、上記音声対話装置が実行可能な動作を示す複数の動作候補それぞれの実行に要する動作時間とに基づいて、上記複数の動作候補から1または複数を場つなぎ動作として選択する場つなぎ動作決定ステップと、
上記場つなぎ動作決定ステップにて選択された上記場つなぎ動作を上記音声対話装置に実行させる場つなぎ動作実行ステップと、を含み、
上記場つなぎ動作決定ステップでは、上記複数の動作候補のうち、上記動作時間から上記待機時間を減算した第2減算値が、0以上、かつ、上記応答が出力可能になってから上記場つなぎ動作の実行が完了するまでの時間として許容できる時間を示す第2許容時間以下である上記動作候補を、上記場つなぎ動作として決定することを特徴とする音声対話制御装置の制御方法。 A method for controlling a voice dialogue control device to be executed by a voice dialogue device, comprising:
A standby time prediction step of predicting a standby time from when a voice interaction device acquires a voice uttered by a user until a response to the voice can be output;
Based on the standby time predicted in the standby time prediction step and the operation time required to execute each of the plurality of operation candidates indicating the operations that can be executed by the voice interactive device, one or more of the plurality of operation candidates is A step of determining a joining operation for selecting a plurality of joining operations as a joining operation;
And situ connecting operation execution step of executing the field connecting operation selected by the field joint operation determining step in the voice dialogue system, only including,
In the step of linking operation, the second operation of subtracting the waiting time from the operation time is 0 or more among the plurality of operation candidates, and the linking operation is performed after the response can be output. A control method for a spoken dialogue control apparatus, wherein the motion candidate that is equal to or shorter than a second permissible time indicating a time that is permissible as a time until the execution of the voice is completed is determined as the jointing motion .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015002568A JP6495014B2 (en) | 2015-01-08 | 2015-01-08 | Spoken dialogue control device, control method of spoken dialogue control device, and spoken dialogue device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015002568A JP6495014B2 (en) | 2015-01-08 | 2015-01-08 | Spoken dialogue control device, control method of spoken dialogue control device, and spoken dialogue device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016126293A JP2016126293A (en) | 2016-07-11 |
JP6495014B2 true JP6495014B2 (en) | 2019-04-03 |
Family
ID=56357894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015002568A Active JP6495014B2 (en) | 2015-01-08 | 2015-01-08 | Spoken dialogue control device, control method of spoken dialogue control device, and spoken dialogue device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6495014B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6633008B2 (en) * | 2017-02-01 | 2020-01-22 | ファーハット ロボティクス エービー | Voice interaction device and voice interaction method |
JP6696923B2 (en) | 2017-03-03 | 2020-05-20 | 国立大学法人京都大学 | Spoken dialogue device, its processing method and program |
US11151997B2 (en) | 2017-03-10 | 2021-10-19 | Nippon Telegraph And Telephone Corporation | Dialog system, dialog method, dialog apparatus and program |
JP6664359B2 (en) * | 2017-09-07 | 2020-03-13 | 日本電信電話株式会社 | Voice processing device, method and program |
WO2019138477A1 (en) * | 2018-01-10 | 2019-07-18 | 株式会社ウフル | Smart speaker, smart speaker control method, and program |
JP7225642B2 (en) * | 2018-09-27 | 2023-02-21 | 富士通株式会社 | Communication robot, control method and control program |
CN115565535B (en) * | 2022-09-21 | 2024-04-12 | 南京浮点智算数字科技有限公司 | Intelligent voice customer service system |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6028556B2 (en) * | 2012-12-19 | 2016-11-16 | 富士通株式会社 | Dialog control method and computer program for dialog control |
JP5958475B2 (en) * | 2014-01-17 | 2016-08-02 | 株式会社デンソー | Voice recognition terminal device, voice recognition system, and voice recognition method |
JP6150077B2 (en) * | 2014-10-31 | 2017-06-21 | マツダ株式会社 | Spoken dialogue device for vehicles |
-
2015
- 2015-01-08 JP JP2015002568A patent/JP6495014B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016126293A (en) | 2016-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6495014B2 (en) | Spoken dialogue control device, control method of spoken dialogue control device, and spoken dialogue device | |
JP6495015B2 (en) | Spoken dialogue control device, control method of spoken dialogue control device, and spoken dialogue device | |
JP5195405B2 (en) | Response generating apparatus and program | |
JP6052610B2 (en) | Information communication terminal and interactive method thereof | |
JP5706384B2 (en) | Speech recognition apparatus, speech recognition system, speech recognition method, and speech recognition program | |
KR101741734B1 (en) | Speech recognition with parallel recognition tasks | |
US20140156268A1 (en) | Incremental speech recognition for dialog systems | |
KR102325724B1 (en) | Synchronization of Text Data among a plurality of Devices | |
WO2015098306A1 (en) | Response control device and control program | |
JP5128011B2 (en) | Information processing device | |
JP2011204019A (en) | Gesture input device, gesture input method, and program | |
CN107342085A (en) | Method of speech processing and device | |
US11301870B2 (en) | Method and apparatus for facilitating turn-based interactions between agents and customers of an enterprise | |
US8015007B2 (en) | Speech recognition apparatus and method thereof | |
JP5668838B2 (en) | Elevator call registration device | |
KR101927050B1 (en) | User terminal and computer readable recorindg medium including a user adaptive learning model to be tranined with user customized data without accessing a server | |
WO2017051627A1 (en) | Speech production apparatus and speech production method | |
JP2009104047A (en) | Information processing method and information processing apparatus | |
JP2007193422A (en) | Interactive information processing system, and method for providing help scenario for service scenario | |
JP6772881B2 (en) | Voice dialogue device | |
WO2017159207A1 (en) | Processing execution device, method for controlling processing execution device, and control program | |
US20210241771A1 (en) | Electronic device and method for controlling the electronic device thereof | |
JP5875569B2 (en) | Voice recognition apparatus, method, program, and recording medium | |
JP6553007B2 (en) | Dialogue flow control device, dialogue flow control method and program | |
JP2015143866A (en) | Voice recognition apparatus, voice recognition system, voice recognition method, and voice recognition program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170925 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181009 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190306 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6495014 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |