JP2018063272A - Voice dialogue apparatus, voice dialogue system, and control method of voice dialogue apparatus - Google Patents
Voice dialogue apparatus, voice dialogue system, and control method of voice dialogue apparatus Download PDFInfo
- Publication number
- JP2018063272A JP2018063272A JP2015039573A JP2015039573A JP2018063272A JP 2018063272 A JP2018063272 A JP 2018063272A JP 2015039573 A JP2015039573 A JP 2015039573A JP 2015039573 A JP2015039573 A JP 2015039573A JP 2018063272 A JP2018063272 A JP 2018063272A
- Authority
- JP
- Japan
- Prior art keywords
- term
- unit
- voice
- holding
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Abstract
Description
本開示は、音声対話装置、音声対話システム、および、音声対話装置の制御方法に関する。 The present disclosure relates to a voice interaction device, a voice interaction system, and a control method of the voice interaction device.
特許文献1は、利用者から入力された情報に基づいて、次に入力されると期待される語彙群を利用者が視認可能なように提示する対話列認識装置を開示する。これにより、対話の誤認識に起因して利用者が途方に暮れるという不都合が防止される。
本開示は、ユーザとの対話の内容を簡易な方法により修正する音声対話装置を提供する。 The present disclosure provides a voice interactive apparatus that corrects the content of a dialog with a user by a simple method.
本開示における音声対話装置は、ユーザとの音声による対話を行う音声対話装置であって、対話の内容を示す対話情報を保持するための複数の保持部であって、前記複数の保持部のそれぞれが用語の属性に対応付けられており、それぞれが当該保持部に対応付けられた属性を有する用語を保持するための複数の保持部と、前記複数の保持部が保持する用語の履歴を記憶している記憶部と、ユーザの音声による発話の内容を示す発話データを取得し、取得した前記発話データに含まれる発話用語を、前記複数の保持部のうち前記発話用語の属性に対応付けられた保持部に保持させる取得部と、前記取得部が取得した前記発話データに、前記対話情報を制御するための制御用語が含まれる場合に、前記記憶部が記憶している前記履歴を参照して、前記複数の保持部のそれぞれが保持している用語を、前記制御用語により特定される過去の時点において当該保持部が保持していた用語に変更する変更部とを備える。 The voice interaction device according to the present disclosure is a voice interaction device that performs a voice dialogue with a user, and is a plurality of holding units for holding dialogue information indicating the content of the dialogue, each of the plurality of holding units Are associated with the attribute of the term, each storing a plurality of holding units for holding a term having an attribute associated with the holding unit, and a history of terms held by the plurality of holding units. And utterance data indicating the content of the utterance by the user's voice, and the utterance term included in the obtained utterance data is associated with the attribute of the utterance term among the plurality of holding units When the acquisition unit to be held by the holding unit and the utterance data acquired by the acquisition unit include a control term for controlling the conversation information, refer to the history stored in the storage unit , The term respective serial plurality of holding portions holds, and a changing unit that changes the terms in which the holding portion is retained in the past time specified by the control terms.
本開示における音声対話装置は、ユーザとの対話の内容を簡易な方法により修正することができる。 The voice interaction device according to the present disclosure can correct the content of the dialogue with the user by a simple method.
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。 Hereinafter, embodiments will be described in detail with reference to the drawings as appropriate. However, more detailed description than necessary may be omitted. For example, detailed descriptions of already well-known matters and repeated descriptions for substantially the same configuration may be omitted. This is to avoid the following description from becoming unnecessarily redundant and to facilitate understanding by those skilled in the art.
なお、発明者(ら)は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。 The inventor (s) provides the accompanying drawings and the following description in order for those skilled in the art to fully understand the present disclosure, and is intended to limit the subject matter described in the claims. Not what you want.
(実施の形態)
本実施の形態において、ユーザとの対話の内容を簡易な方法により修正する音声対話装置について説明する。本実施の形態に係る音声対話装置は、ユーザとの音声による対話を行うものであり、ユーザとの対話の内容を示す対話情報を生成及び修正し、その対話情報を外部の処理装置に出力する。また、音声対話装置は、外部の処理装置から処理結果を取得しユーザに提示し、さらにユーザとの対話を継続する。このように、音声対話装置は、ユーザとの対話に基づいて、対話情報を生成及び修正しながら、順次、処理結果をユーザに提示するものである。
(Embodiment)
In the present embodiment, a voice dialogue apparatus for correcting the contents of dialogue with a user by a simple method will be described. The voice dialogue apparatus according to the present embodiment performs voice dialogue with the user, generates and corrects dialogue information indicating the content of the dialogue with the user, and outputs the dialogue information to an external processing device. . Further, the voice interaction device acquires the processing result from the external processing device and presents it to the user, and further continues the dialogue with the user. As described above, the voice interaction device sequentially presents the processing results to the user while generating and correcting the interaction information based on the interaction with the user.
なお、音声対話装置は、ユーザによるキー入力又はパネルへの接触などの操作が不可能又は困難である場合に有用である。例えば、ユーザが運転しているときにユーザの音声による指示を順次受けながら情報検索をするカーナビゲーション装置などの用途があり得る。また、キー又はパネルのようなユーザインタフェースを有さない音声対話装置でも有用である。 The voice interaction device is useful when an operation such as key input or panel touch by the user is impossible or difficult. For example, there may be applications such as a car navigation device that searches information while sequentially receiving instructions from the user's voice when the user is driving. It is also useful in a voice interaction device that does not have a user interface such as a key or a panel.
[1−1.構成]
図1は、本実施の形態に係る音声対話装置20及び音声対話システム1の構成を示すブロック図である。
[1-1. Constitution]
FIG. 1 is a block diagram showing a configuration of a
図1に示されるように、音声対話システム1は、表示装置10と、スピーカ11と、音声合成部12と、マイク13と、音声認識部14と、音声対話装置20と、タスク処理部40とを備える。
As shown in FIG. 1, the
表示装置10は、表示画面を備える表示装置である。表示装置10は、音声対話装置20から取得する表示データに基づいて表示画面に映像を表示する。表示装置10は、例えば、カーナビゲーション装置、スマートフォン(高機能携帯電話端末)、携帯電話端末、又は、PC(Personal Computer)などにより実現される。なお、表示装置10は、音声対話装置20が提示する情報に基づく映像を表示する装置の例として示したが、表示装置10の代わりに、音声対話装置20が提示する情報を音声として出力するスピーカを用いてもよい。このスピーカは、後述のスピーカ11と共用してもよい。
The
スピーカ11は、音声を出力するスピーカである。スピーカ11は、音声合成部12から取得する音声信号に基づいて音声を出力する。スピーカ11が出力した音声は、ユーザに聴取される。
The
音声合成部12は、応答文を音声信号に変換する処理部である。音声合成部12は、音声対話装置20からユーザへ伝達する情報である応答文を音声対話装置20から取得し、スピーカにより出力するための音声信号を、取得した応答文に基づいて生成する。
The
なお、スピーカ11及び音声合成部12は、音声対話装置20の一機能として音声対話装置20の内部に備えられてもよいし、音声対話装置20の外部に備えられてもよい。また、音声合成部12は、音声対話装置20とインターネット経由で通信可能なように、いわゆるクラウドサーバとして実現されてもよい。その場合、音声合成部12と音声対話装置20との接続、及び、音声合成部12とスピーカ11との接続は、インターネットを介した通信路を通じてなされる。
Note that the
マイク13は、音声を取得するマイクロホンである。マイク13は、ユーザの音声を取得し、取得した音声に基づく音声信号を出力する。
The microphone 13 is a microphone that acquires sound. The
音声認識部14は、ユーザの音声を対象として音声認識を行うことで、発話データを生成する処理部である。音声認識部14は、マイク13が生成した音声信号を取得し、取得した音声信号に対して音声認識処理を施すことで、ユーザによる発話の発話データを生成する。発話データは、ユーザから音声対話装置20へ伝達する情報であり、「中華が食べたい」というように、文字(テキスト)で表現されるものである。なお、音声認識処理は、音声信号をテキスト情報に変換するものであるので、テキスト変換処理ということもできる。
The
なお、マイク13及び音声認識部14は、音声合成部12等と同様、音声対話装置20の一機能として音声対話装置20の内部に備えられてもよいし、音声対話装置20の外部に備えられてもよい。また、音声認識部14は、音声合成部12同様、クラウドサーバとして実現されてもよい。
Note that the
タスク処理部40は、ユーザと音声対話装置20との対話の内容に基づいて処理を行い、その処理結果を示す情報又はその関連情報を出力する処理部である。タスク処理部40による処理は、対話の内容に基づく情報処理であればどのようなものであってもよい。例えば、タスク処理部40は、インターネット上のWebページから、対話の内容に適合するレストランのWebページを検索する検索処理を実行し、その検索結果を出力するものとしてもよく、この場合を以下で説明する。なお、タスク処理部40による処理の実行単位のことをタスクともいう。また、タスク処理部40は、処理部に相当する。
The
なお、タスク処理部40による処理の他の例として、対話の内容をデータとして蓄積する処理を実行し、その処理の成否を示す情報を出力するものとしてもよい。また、タスク処理部40は、対話の内容に基づいて複数の電気機器のうち制御対象の電気機器を特定し、その電気機器の固有情報又は動作に関する情報を出力するものとしてもよい。
As another example of the process by the
音声対話装置20は、ユーザとの音声による対話を行う処理装置である。音声対話装置20は、ユーザとの対話の内容を示す対話情報を生成及び修正し、その対話情報をタスク処理部40に出力する。また、音声対話装置20は、タスク処理部40から処理結果を取得しユーザに提示し、さらにユーザとの対話を継続する。
The
音声対話装置20は、応答文生成部21と、発話データ取得部22と、シーケンス制御部23と、タスク制御部24と、操作部25と、解析部26と、メモリ27と、タスク結果解析部28と、提示制御部29とを備える。
The
応答文生成部21は、シーケンス制御部23から応答指示を取得し、取得した応答指示に基づいて応答文を生成する処理部である。応答文は、音声対話装置20からユーザへ伝達する情報であり、具体的には、「地域を指定下さい」というようなユーザに対して発話を促すための文章、「承知しました」というようなユーザの発話に対する相槌、又は、「検索します」というような音声対話装置20の動作を説明する文章である。どのようなときにどのような応答指示をするかについては、後で詳細に説明する。
The response
発話データ取得部22は、ユーザによる発話の発話データを音声認識部14から取得する処理部である。ユーザの音声による発話がなされた場合、マイク13及び音声認識部14により、上記発話の内容を示す発話データが生成され、この生成された発話データを発話データ取得部22が取得する。また、発話データ取得部22が取得する発話データは、対話の内容を過去の時点におけるものに変更するための制御用語を含むこともある。制御用語を含む発話データのことを制御発話データともいう。なお、発話データ取得部22は、取得部の一機能に相当する。
The utterance
シーケンス制御部23は、音声対話装置20とユーザとの対話の対話シーケンスを制御することで、ユーザとの対話を実現する処理部である。ここで、対話シーケンスとは、対話におけるユーザによる発話と音声対話装置20による応答とを時系列で並べたデータのことである。なお、シーケンス制御部23は、取得部の一機能に相当する。
The
具体的には、シーケンス制御部23は、ユーザによる発話の発話データを発話データ取得部22から取得する。そして、取得した発話データ、これまでのユーザとの対話シーケンス、又は、タスク結果解析部28から取得する処理結果に基づいて、次にユーザに提示すべき応答文を作成する指示(以降、「応答指示」ともいう)を生成し、応答文生成部21に送る。シーケンス制御部23がどのような場合にどのような応答指示を生成するかについては、後で具体的に説明する。
Specifically, the
また、シーケンス制御部23は、取得した発話データから用語(発話用語ともいう)を抽出し、抽出した用語を、操作部25を介して、その用語の属性に対応付けられたスロット31に格納し、保持させる。ここで、用語とは、単語のように比較的短い語のことをいい、例えば、1つの名詞、又は、1つの形容詞などが1つの用語に相当する。
Further, the
タスク制御部24は、音声対話装置20とユーザとの対話の内容をタスク処理部40に出力し、出力した対話の内容に基づく処理をタスク処理部40に実行させる処理部である。具体的には、タスク制御部24は、複数のスロット31が保持している用語をタスク処理部40に出力する。また、タスク制御部24は、複数のスロット31の状態についての所定の条件が満たされるか否かを判定し、所定の条件が満たされる場合にのみ、複数のスロット31が保持している用語をタスク処理部40に出力するようにしてもよい。なお、タスク制御部24は、外部処理制御部の一機能に相当する。
The
操作部25は、メモリ27に格納されている対話の内容を示す情報を追加、削除又は変更する処理部である。具体的には、操作部25は、発話データ取得部22が取得した発話データに、対話情報を制御するための制御用語が含まれる場合に、履歴テーブル32を参照して、複数のスロット31のそれぞれが保持している用語を、制御用語により特定される過去の時点において当該スロット31が保持していた用語に変更する。また、操作部25は、タスク結果解析部28からの指示を受けて、履歴テーブル32上の所定のレコードに復元ポイントを設定してもよい。なお、操作部25は、取得部の一機能、及び、変更部の一機能に相当する。
The
解析部26は、メモリ27内のスロット31又は履歴テーブル32を解析し、解析結果に応じた通知をシーケンス制御部23に行う処理部である。具体的には、解析部26は、スロット31のうちの必須スロット群のスロットそれぞれが用語を保持しているか否かを判定し、それぞれが用語を保持している場合には、その旨をシーケンス制御部23に通知する。なお、解析部26は、変更部の一機能に相当する。
The
また、解析部26は、操作部25を利用して、対話の内容を過去の時点に復元するための復元処理を行う。解析部26は、復元処理を行う際に、履歴テーブル32内に設定された復元ポイントが複数あるか否かを判定し、複数の復元ポイントがあると判定した場合には、複数の復元ポイントの中から1つを選択するための条件をシーケンス制御部23に送る。復元処理の具体的な処理内容については後で詳しく説明する。
Further, the
メモリ27は、対話の内容を記憶している記憶装置である。具体的には、メモリ27は、スロット31及び履歴テーブル32を有する。
The
スロット31は、対話の内容を示す対話情報を保持するための記憶領域であり、音声対話装置20に複数備えられる。複数のスロット31は、それぞれが用語の属性に対応付けられており、それぞれが当該スロット31に対応付けられた属性を有する用語を保持する。そして、スロット31のそれぞれに格納された用語全体が、上記対話情報を示している。スロット31は、1つの用語を保持する。そして、スロット31は、1つの用語を保持している状態において新たな用語を保持した場合には、保持していた1つの用語はスロット31上からは消去される。
The
ここで、用語の属性とは、当該用語の性質、特徴又はカテゴリを示す情報のことである。例えば、タスク処理部40の処理がレストラン検索の場合、料理名、地域、予算、個室の有無、駐車場の有無、最寄駅からの徒歩での所要時間、貸切が可能か否か、又は、夜景が見えるか否かというような情報を属性として用いることができる。なお、スロット31が用語を保持することを、スロット31に用語が格納される、又は、登録される、と表現することもできる。なお、メモリ27のうちのスロット31の領域は、保持部に相当する。
Here, the term attribute is information indicating the nature, feature, or category of the term. For example, when the processing of the
また、スロット31には、必須スロット及びオプションスロットという2つの種別が設けられていてもよい。必須スロットとは、当該スロットが用語を保持していないとタスク制御部24がタスク処理部40に用語を出力しないスロットのことである。また、オプションスロットとは、当該オプションスロットが用語を保持していなくても、すべての必須スロットが用語を保持していればタスク制御部24がタスク処理部40に用語を出力するスロットのことである。例えば、タスク処理として検索タスクを実行させる場合、すべてのスロットが保持している用語をタスク制御部24がタスク処理部40に出力する際、必須スロット群に含まれるすべてのスロットが用語を保持している場合に限り出力を行うようにするようにしてもよい。スロット31が、必須スロット及びオプションスロットのうちのどちらであるかは、スロット31ごとに予め定められている。なお、上記2つの種別が設けられず、1つのだけの種別である場合には、スロット31の全てを必須スロットとしてもよいし、オプションスロットとしてもよい。これらのどちらにするかは、タスク処理部40の処理、又は、対話の内容に基づいて適宜定められてよい。
Further, the
履歴テーブル32は、複数のスロット31が保持する用語の履歴を示すテーブルである。具体的には、履歴テーブル32は、複数のスロット31が過去に保持していた用語、及び、現在保持している用語が時系列で収められたテーブルである。スロット31が新たな用語を保持することで、その直前に保持していた用語をスロット31上から消去した場合でも、その消去された用語は、履歴テーブル32には残されている。
The history table 32 is a table showing the history of terms held by the plurality of
なお、履歴テーブル32には、過去に複数のスロット31が保持した用語と共に、その時点での時刻を示す情報(例えば、タイムスタンプ)が格納されてもよい。また、時間の進みと共にレコードを追加的に格納するという前提があれば、履歴テーブル32には、過去に複数のスロット31が保持した用語だけが格納されてもよい。なお、メモリ27のうち、履歴テーブル32が記憶された領域は、記憶部に相当する。
The history table 32 may store information indicating the time at that time (for example, a time stamp) together with terms held by the plurality of
タスク結果解析部28は、タスク処理部40による処理結果を取得し、取得した処理結果を解析する処理部である。タスク結果解析部28は、タスク処理部40から処理結果を取得した場合には、取得した処理結果を解析し、解析結果をシーケンス制御部23に渡す。なお、この解析結果は、履歴テーブル32のうちの現在時刻に対応する時点に復元ポイントを設定するか否かを操作部25が判定する際に用いられる。なお、タスク結果解析部28は、外部処理制御部の一機能に相当する。
The task
例えば、タスク結果解析部28は、タスク処理部40によるレストラン検索処理の結果として、検索された情報が掲載されたWebページのタイトル及びURL(Uniform Resource Locator)を取得する。また、タスク結果解析部28は、検索処理の結果を解析し、検索された情報の件数を算出する。そして、タスク結果解析部28は、検索された情報の件数が、ユーザによる閲覧に適した件数(例えば1件〜30件程度)である場合にのみ復元ポイントを設定するようにしてもよい。また、タスク結果解析部28は、検索された情報の件数が、0件、又は、100件以上というように、ユーザによる閲覧に適さない件数である場合に復元ポイントを設定することを禁止するようにしてもよい。
For example, the task
また、タスク結果解析部28は、必須スロット群のスロットの全てが用語を保持した時点に復元ポイントを設定するようにしてもよいし、スロット31が用語を保持している状態において、保持している用語と異なる用語を保持する状態に変わる時点に復元ポイントを設定してもよい。
In addition, the task
提示制御部29は、表示装置10によりユーザに提示するための提示データを生成し、表示装置10に出力する処理部である。提示制御部29は、タスク処理部40から処理結果を取得し、ユーザに効果的に処理結果を閲覧させるために表示装置10の画面上の位置を整え、また、表示装置10に出力するのに適したデータ形式に変換した上で、提示データを表示装置10に出力する。
The
なお、音声対話装置20の一部又は全部の機能、及び、タスク処理部40は、音声合成部12等同様、クラウドサーバとして実現されてもよい。
Note that part or all of the functions of the
図2は、本実施の形態に係る音声対話システム1による提示の説明図である。図2に示される説明図は、タスク処理部40による処理結果を表示装置10がユーザに提示するときの表示画面に表示される画像の一例である。
FIG. 2 is an explanatory diagram of presentation by the
表示画面内の左側には、属性を示す文字列201〜205が表示されている。文字列201〜205は、複数のスロット31それぞれの属性を示す文字列である。
On the left side of the display screen,
表示画面内の右側には、用語211〜215が表示されている。用語211〜215は、それぞれ、文字列201〜205の属性に対応付けられたスロット31が保持している用語である。
表示画面内の下側には、文字列206及び結果情報216が示されている。文字列206は、文字列206の下方に表示されるものが検索結果であることを示す文字列である。結果情報216は、用語211〜215に基づいてタスク処理部40がレストラン検索を行った結果を示す情報である。
A
このように、対話の内容と、その対話の内容に基づくタスク処理部40による処理結果である結果情報とが表示装置10に表示され、ユーザは、対話の内容が反映された処理結果を知ることができる。
Thus, the content of the dialogue and the result information that is the processing result by the
なお、表示画面に表示される画像は、図2に示されるものに限定されるわけではなく、表示される情報、その配置などの表示の有無、表示位置は、任意に変更されてよい。 The image displayed on the display screen is not limited to that shown in FIG. 2, and the displayed information, the presence / absence of display such as its arrangement, and the display position may be arbitrarily changed.
図3は、本実施の形態に係る対話シーケンス及び履歴情報の第一の説明図である。 FIG. 3 is a first explanatory diagram of a dialogue sequence and history information according to the present embodiment.
図3には、対話シーケンス310、履歴テーブル320、及び、検索結果330が、対話シーケンスの時系列に併せて示されている。なお、図3に示される一列は、1つの時点に対応している。この一列のことを1レコードともいう。
In FIG. 3, the
対話シーケンス310は、対話におけるユーザによる発話と音声対話装置20による応答とを時系列で並べたデータである。
The
時刻情報311(タイムスタンプ)は、ユーザによる発話又は音声対話装置20による応答があった時刻を示す時刻情報である。
The time information 311 (time stamp) is time information indicating the time when the user uttered or responded by the
発話312は、当該時刻におけるユーザによる発話を示す発話データである。具体的には、発話312は、発話データ取得部22が、マイク13及び音声認識部14を介して取得したユーザの音声による発話を示す発話データである。
The
応答313は、当該時刻における音声対話装置20による応答を示す応答文である。具体的には、応答313は、応答文生成部21が、シーケンス制御部23からの応答指示を受けて生成するものである。
The
履歴テーブル320は、必須スロット群321と、オプションスロット群322と、アクション323と、復元ポイント324との各情報を有する。履歴テーブル320は、履歴テーブル32に格納されている、スロット31の履歴を示す情報であり、対話シーケンス310の時刻情報311の時系列に合わせて示されている。履歴テーブル320は、履歴テーブル32の一例である。
The history table 320 includes information on an
必須スロット群321は、スロット31のうちの必須スロットに、当該時点において保持されていた用語である。必須スロット群321には、例えば、「料理名」、「地域」及び「予算」の属性の用語が含まれる。
The
オプションスロット群322は、スロット31のうちのオプションスロットに、当該時点において保持されていた用語である。オプションスロット群322には、例えば、「個室の有無」及び「駐車場の有無」の属性の用語が含まれる。
The
アクション323は、当該時点において音声対話装置20が実行した処理を示す情報であり、複数の情報が格納されることもある。例えば、ある属性のスロット31に新たな用語を保持させた場合には、そのことを示すために、その属性の名称と、「登録」の文字列とが当該時点に設定される。また、タスク制御部24がタスク処理部40に用語を出力して情報検索をさせた時点には、「検索」の文字列が設定される。また、操作部25が、スロット31が保持している用語を過去の時点におけるものに変更した時点には、「復元」の文字列が設定される。
The
復元ポイント324は、当該時点に復元ポイントが設定されているか否かを示す情報である。復元ポイントが設定されている時点には、「1」が設定されている。復元ポイントは、タスク結果解析部28により設定されるか否かが判定され、操作部25により履歴テーブル320に設定されるものである。
The
検索結果330は、当該時点におけるタスク処理部40による検索処理の結果の件数である。検索結果330は、タスク結果解析部28により設定されるものである。
The
図3に示される対話シーケンスは、ユーザが、検索条件を変えながら、順次、異なる検索条件でレストラン検索を行うための対話において、対話の内容をユーザが意図する過去の時点におけるものに変更する場合のものである。 The dialogue sequence shown in FIG. 3 is a case where the user changes the contents of the dialogue to those at the past time intended by the user in the dialogue for performing restaurant search under different search conditions while changing the search conditions. belongs to.
レコードR1〜R7に対応する時点において、順次、ユーザによる発話に含まれる用語が発話データ取得部22等により取得され、取得された用語のそれぞれが当該用語の属性に対応したスロット31に格納される。
At the time corresponding to the records R1 to R7, the terms included in the user's utterance are sequentially acquired by the utterance
レコードR8に対応する時点において、スロット31が保持している用語に基づいた最初の検索処理がタスク処理部40により行われる。これは、レコードR7に対応する時点で必須スロット群に含まれるスロット31の全てに用語が格納されたことを契機として行われたものである。
At the time corresponding to the record R8, the first search process based on the term held in the
レコードR9〜R16に対応する時点において、スロット31が保持している用語に基づいた検索処理が行われる。これは、ユーザが所望する検索結果が得られるように検索語を変えながら、順次、検索処理がなされたものである。
At the time corresponding to the records R9 to R16, search processing based on the terms held in the
レコードR17に対応する時点において、対話の内容を過去の時点に戻すための制御発話がユーザによりなされる。これは、レコードR14又はR16に対応する時点での検索結果が0件であったので、検索件数が0件になる前の過去の時点の検索条件に戻そうと、ユーザが意図して行ったものである。 At the time corresponding to the record R17, the user makes a control utterance to return the content of the dialogue to a past time. This is because the search result at the time corresponding to the record R14 or R16 was 0, and the user intended to return to the search conditions of the past time before the number of searches became 0. Is.
レコードR18〜R20において、スロット31のそれぞれが保持する用語が、レコードR10におけるものに復元される。
In the records R18 to R20, the terms held in the
このようにすることで、音声対話装置20は、対話の内容を、ユーザの音声による発話に基づいた過去の時点に戻し、その状態から新たな対話を継続的に実行することができる。このように、音声対話装置は、ユーザとの対話の内容を簡易な方法により修正することができる。
By doing in this way, the voice
[1−2.動作]
以上のように構成された音声対話装置20及び音声対話システム1について、その動作を以下に説明する。
[1-2. Operation]
The operations of the
図4は、本実施の形態に係る音声対話装置20によるメイン処理のフロー図である。
FIG. 4 is a flowchart of main processing by the
ステップS101において、マイク13は、ユーザによる発話の音声を取得し、取得した音声に基づいて音声信号を生成する。ここで、ユーザによる発話の音声とは、例えば「中華が食べたい」というようにレストラン検索のための用語を含む音声であってもよいし、「守口に戻して」というようにスロット31が保持する用語を過去の時点におけるものに変更するための用語を含む音声であってもよい。
In step S <b> 101, the
ステップS102において、音声認識部14は、ステップS101でマイク13が生成した音声信号に対して音声認識処理を行うことで、ユーザによる発話の発話データを生成する。
In step S102, the
ステップS103において、発話データ取得部22は、ステップS102で音声認識部14が生成した発話データを取得する。
In step S103, the utterance
ステップS104において、シーケンス制御部23は、ステップS103で発話データ取得部22が取得した発話データが空(から)であるか否かを判定する。
In step S104, the
ステップS104で発話データが空であるとシーケンス制御部23が判定した場合(ステップS104で「Y」)、ステップS105に進む。一方、発話データが空でないと判定した場合(ステップS104で「N」)、ステップS121に進む。
If the
ステップS105において、シーケンス制御部23は、操作部25を利用して発話データに含まれる用語をスロット31に格納する。具体的には、シーケンス制御部23は、発話データに含まれる用語のそれぞれについて当該用語の属性を判定し、当該用語の属性に一致する属性を有するスロット31に当該用語を格納する。例えば、シーケンス制御部23は、発話データ「中華が食べたい」に含まれる用語「中華」が、料理名の属性を有する用語であると判定し、用語「中華」を料理名の属性を有するスロット31に格納する。なお、このとき、シーケンス制御部23は、スロット31に格納される用語が本来の名称の略称又は俗称等であるような場合には、本来の名称に変換した上でスロット31に格納してもよい。具体的には、シーケンス制御部23は、用語「中華」が「中華料理」を短縮した名称(略称)であると判定し、スロット31に「中華料理」を格納するようにしてもよい。
In step S <b> 105, the
ステップS106において、操作部25及び提示制御部29は、スロット31が保持している用語を表示装置10により表示する。
In step S <b> 106, the
ステップS107において、操作部25等は、必要な場合に、対話の内容を過去の時点におけるものに変更することで、対話の内容を復元するための復元処理を行う。復元処理の詳細については、後で詳細に説明する。
In step S107, the
ステップS108において、解析部26は、必須スロット群の全てのスロット31に用語が格納されているか否か、つまり、必須スロット群の全てのスロット31が用語を保持しているか否かを判定する。
In step S108, the
ステップS108において全てのスロット31に用語が格納されたと解析部26が判定した場合(ステップS108で「Y」)、ステップS109に進む。一方、全てのスロット31に用語が格納されていないと解析部26が判定した場合(ステップS108で「N」)、つまり、必須スロット群のうちの少なくとも1つのスロット31が空である場合、ステップS122に進む。
When the
ステップS109において、シーケンス制御部23は、タスク処理をタスク処理部40に実行させるための実行指示をタスク制御部24に行う。このとき、操作部25は、履歴テーブル32に検索タスクを実行したことを記録する。具体的には、操作部25は、履歴テーブル320における現時点のアクション323に「検索」を設定する。
In step S <b> 109, the
ステップS110において、タスク制御部24は、ステップS109でのシーケンス制御部23による実行指示に基づいて、スロット31が保持している用語をタスク処理部40に出力し、タスク処理部40に検索処理を実行させる。タスク処理部40は、タスク制御部24が出力した用語を取得し、取得した用語を検索語として用いて検索処理を行い、検索結果を出力する。
In step S110, the
ステップS111において、提示制御部29は、ステップS110でタスク処理部40が出力した検索結果を取得し、取得した検索結果を、表示装置10によりユーザに提示するのに適切な形式(例えば、図2のような表示態様)に成形して表示装置10に出力する。表示装置10は、提示制御部29が出力した検索結果を取得し、表示画面に表示する。
In step S111, the
ステップS112において、タスク結果解析部28は、ステップS110でタスク処理部40が出力した検索結果を取得し、取得した検索結果に基づいて復元ポイント設定処理を行う。復元ポイント設定処理の詳細については、後で詳細に説明する。
In step S112, the task
ステップS113において、シーケンス制御部23は、ユーザに対して次の発話を促すための応答指示を、応答文生成部21に対して行う。
In step S <b> 113, the
ステップS114において、応答文生成部21は、応答指示に基づいて応答文を生成する。また、応答文生成部21は、生成した応答文を音声合成部12に出力し、当該応答文を音声としてスピーカ11より出力し、ユーザに聴取させる。
In step S114, the
ステップS114の処理が終了したら、再びステップS101の処理を実行する。 When the process of step S114 ends, the process of step S101 is executed again.
ステップS121において、シーケンス制御部23は、ユーザに対して再発話(前回と同じ発話を行うこと)を促すための応答指示を、応答文生成部21に対して行う。ステップS104で発話データが空と判定されたことは、マイク13が何らかの音を取得したにもかかわらずその音から音声認識部14が発話データを取得することができなかったことを意味している。よって、ユーザに対して前回と同じ発話を行うことを要請することで、発話データを取得することができると期待される。
In step S <b> 121, the
ステップS122において、シーケンス制御部23は、ユーザに対して次の発話を促すための応答指示を、応答文生成部21に対して行う。シーケンス制御部23は、例えば、必須スロット群に含まれるスロット31のうち、用語を保持していないものがある場合に、用語を保持していないスロット31が保持すべき用語をユーザに発話させるための応答文を生成する応答指示を行う。
In step S <b> 122, the
図5は、本実施の形態に係る音声対話装置による復元処理のフロー図である。図5に示されるフロー図は、図4におけるステップS107の処理を詳細に示すものであり、発話データに制御用語が含まれている場合にスロット31が保持する用語を過去の時点におけるものに変更する処理を示すものである。
FIG. 5 is a flowchart of restoration processing by the voice interaction apparatus according to the present embodiment. The flowchart shown in FIG. 5 shows the details of the process of step S107 in FIG. 4, and when the utterance data includes a control term, the term held in the
より具体的には、操作部25は、発話データ取得部22が取得した発話データに後述する第一用語及び第二用語が含まれるか否かを判定し、第一用語及び第二用語が含まれると判定した場合に、履歴テーブルを参照して、複数のスロット31のそれぞれが保持している用語を、複数のスロット31のうち第二用語の属性に対応付けられたスロット31(対応保持部に相当)が第二用語を保持していた時点において当該スロット31が保持していた用語に変更する。
More specifically, the
ステップS201において、シーケンス制御部23は、発話データ取得部22から取得した発話データに、復元用語(第一用語ともいう)が含まれているか否かを判定する。ここで、復元用語とは、対話情報を過去の時点に変更することを示す予め定められた用語であり、例えば、「(〜に)戻して」、又は、「(〜)じゃない」というようなものである。
In step S <b> 201, the
ステップS201で復元用語が含まれているとシーケンス制御部23が判定した場合(ステップS201で「Y」)には、ステップS202に進む。一方、復元用語が含まれていないと判定した場合(ステップS201で「N」)、図5に示される一連の処理を終了する。
If the
ステップS202において、解析部26は、発話データのうち復元用語を除く部分に含まれる用語(第二用語ともいう)を取得し、取得した用語に基づいて履歴テーブル32から復元ポイントを抽出する。具体的には、解析部26は、取得した用語の属性を判定し、履歴テーブル32に含まれる復元ポイントのうち、取得した用語の属性に対応するスロット31が保持していた用語が、当該取得した用語に一致する復元ポイントを抽出する。なお、上記第一用語及び上記第二用語が含まれている発話データが、制御発話データであるということもできる。なお、複数の設定ポイントが抽出されてもよい。
In step S202, the
ステップS203において、解析部26は、ステップS202で抽出した復元ポイントが1個であるか否かを判定する。
In step S203, the
ステップS203で復元ポイントが1個であると解析部26が判定した場合(ステップS203で「Y」)、ステップS204に進む。一方、復元ポイントが1個でないと解析部26が判定した場合(ステップS203で「N」)、ステップS211に進む。
If the
ステップS204において、操作部25は、履歴テーブル32を参照して、スロット31が保持している用語を、ステップS202で1個抽出された復元ポイントの時点においてスロット31に保持していた用語に変更する。つまり、操作部25は、複数のスロット31が保持している用語を、復元ポイントの時点におけるものに戻すように変更する。また、操作部25は、履歴テーブル320において、復元ポイントの時点における用語に変更した時点に、アクションとして「復元」を設定する。なお、操作部25は、復元ポイントの時点でスロット31が保持していた用語がなかった、つまり、復元ポイントの時点でスロット31が何も用語を保持していなかった場合には、スロット31が用語を保持しない状態にする。
In step S204, the
ステップS211において、シーケンス制御部23は、ユーザに対して復元ポイントが1個だけ抽出されるようにするための発話を促すための応答についての応答指示を、応答文生成部21に対して行う。例えば、履歴テーブル320において、ユーザから「守口に戻して」というような制御発話が取得されたとき、この制御発話から特定される復元ポイントが2個あり得る。ユーザがこの2個の復元ポイントのどちらを意図しているかを指示する発話を促すために、シーケンス制御部23は、「駐車場付で検索したところまで戻せばいいですか」という応答についての応答指示を行う。
In step S <b> 211, the
ステップS211の後、ユーザにより2個の復元ポイントのいずれかを特定する発話がなされた場合には、次回のメイン処理(図4)から実行されるステップS202では、復元ポイントが1個抽出され、ステップS204が実行されることになる。 After step S211, when the user makes an utterance that specifies one of the two restoration points, one restoration point is extracted in step S202 executed from the next main process (FIG. 4). Step S204 is executed.
なお、上記において、第二用語に代えて、属性の名称である属性名を用いてもよい。つまり、操作部25は、発話データ取得部22が取得した発話データに第一用語及び属性名が含まれるか否かを判定し、第一用語及び属性名が含まれると判定した場合に、履歴テーブルを参照して、複数のスロット31のそれぞれが保持している用語を、複数のスロット31のうち上記属性名により示される属性に対応付けられたスロット31(対応保持部に相当)が現在保持している用語を保持する直前の時点において当該スロット31が保持していた用語に変更するようにしてもよい。
In the above, instead of the second term, an attribute name that is an attribute name may be used. That is, the
図6は、本実施の形態に係る音声対話装置による復元ポイント設定処理のフロー図である。図6に示されるフロー図は、図4におけるステップS112の処理を詳細に示すものである。 FIG. 6 is a flowchart of restoration point setting processing by the voice interaction apparatus according to the present embodiment. The flowchart shown in FIG. 6 shows details of the process in step S112 in FIG.
ステップS301において、操作部25は、復元ポイントを設定するための条件に基づいて処理を分岐する。上記条件が、「検索を実行した時点」(条件C)である場合(ステップS301で「条件C」)、ステップS302に進む。一方、上記条件が、『「検索を実行した時点」かつ「検索結果が有効」』(条件D)である場合(ステップS301で「条件D」)、ステップS303に進む。なお、ここでは条件が2つの場合を例として示したが、3つ以上の条件がある場合でも同様の処理が可能である。
In step S301, the
ステップS302において、操作部25は、履歴テーブル320における現在の時点に復元ポイントを設定する。
In step S <b> 302, the
ステップS303において、操作部25は、タスク結果解析部28の解析結果である検索結果を取得し、検索された情報の件数が0件であるか否かを判定する。
In step S303, the
ステップS303で検索された情報の件数が0件である場合(ステップS303で「Y」)、操作部25は、この時点に復元ポイントを設定せずに一連の処理を終了する。すなわち、操作部25は、情報検索の結果を取得した時点であっても、情報検索の結果に含まれる情報が0件であった時点には、復元ポイントを設定することを禁止する。一方、検索された情報の件数が0件でない場合(ステップS303で「N」)、ステップS302に進む。
When the number of information retrieved in step S303 is zero (“Y” in step S303), the
なお、検索された情報の件数がユーザによる閲覧に適さない数(例えば100件以上)である場合にも、0件である場合と同様、この時点に復元ポイントを設定しないことにしてもよい。 Even when the number of retrieved information is not suitable for browsing by the user (for example, 100 or more), the restoration point may not be set at this time as in the case of zero.
図7は、本実施の形態に係る履歴情報の第二の説明図である。図7に示される対話シーケンスは、ユーザが、検索条件を変えながら、順次、異なる検索条件でレストラン検索を行うための対話において、音声の誤認識などに起因して対話の内容がユーザの意図と異なるものとなった場合に、対話の内容を過去の時点におけるものに変更する場合のものである。 FIG. 7 is a second explanatory diagram of history information according to the present embodiment. The dialogue sequence shown in FIG. 7 is a dialogue in which a user sequentially searches a restaurant under different search conditions while changing the search conditions. In this case, the contents of the dialogue are changed to those at the past time when they are different.
図7には、図3と同様、対話シーケンス310等が示されている。
FIG. 7 shows a
レコードR1〜R5に対応する時点において、順次、ユーザによる発話に含まれる用語が発話データ取得部22等により取得され、取得された用語のそれぞれが当該用語の属性に対応したスロット31に格納される。
At the time corresponding to the records R1 to R5, the terms included in the user's utterance are sequentially acquired by the utterance
レコードR6に対応する時点において、スロット31が保持している用語に基づいた最初の検索処理がタスク処理部40により行われる。これは、レコードR5に対応する時点で必須スロット群に含まれるスロット31の全てに用語が格納されたことを契機として行われたものである。
At the time corresponding to the record R6, the
レコードR7〜R14に対応する時点において、スロット31に格納された用語に基づいた検索処理が行われる。これは、ユーザが所望する検索結果が得られるように検索語を変えながら、順次、検索処理がなされたものである。
At a time corresponding to the records R7 to R14, a search process based on the terms stored in the
この対話の中で、音声認識部14による誤認識によりスロット31が保持している用語がユーザの意図と異なるものに変更されている。具体的には、レコードR11に対応する時点においてユーザが検索条件として駐車場を追加する意図で「駐車場も(Chushajomo)」と発話したものの、これを音声認識部14が「中華料理(Chukaryori)」と誤認識し、レコードR12において用語「中華料理」が料理名の属性のスロット31に格納される。また、レコードR13に対応する時点においてユーザが検索条件を修正する意図で「中華じゃなくてイタリア(Chuka-janakute-itaria)」と発話したものの、これを音声認識部14が「入谷(Iriya)」すなわち地名である入谷と誤認識し、レコードR15に対応する時点において用語「入谷」が地域の属性のスロット31に格納される。
In this dialogue, the term held in the
レコードR15に対応する時点において、対話の内容を過去の時点に戻すための発話がユーザによりなされる。これは、レコードR12又はR14に対応する時点でスロット31が保持している用語がユーザの意図と異なり変更されたので、この変更が行われる前の過去の時点の検索条件に戻そうと、ユーザが意図して行ったものである。
At the time corresponding to the record R15, the user makes an utterance for returning the content of the dialogue to the past time. This is because the term held in the
レコードR15〜R16に対応する時点において、スロット31のそれぞれが保持している用語が、レコードR10におけるものに復元される。
At the time corresponding to the records R15 to R16, the terms held in the
このようにすることで、音声対話装置は、対話の内容を、ユーザによる発話に基づいた過去の時点に戻し、その状態から新たな対話を継続的に実行することができる。このように、音声対話装置は、ユーザとの対話の内容を簡易な方法により修正することができる。 In this way, the voice interaction device can return the content of the interaction to a past time point based on the utterance by the user, and continuously execute a new interaction from that state. In this way, the voice interaction device can correct the content of the dialogue with the user by a simple method.
[1−3.変形例]
図8は、本実施の形態の変形例に係る音声対話装置20Aの構成を示すブロック図である。
[1-3. Modified example]
FIG. 8 is a block diagram showing a configuration of a voice
図8に示されるように、音声対話装置20Aは、ユーザとの音声による対話を行う音声対話装置20Aであって、対話の内容を示す対話情報を保持するための複数の保持部103であって、複数の保持部103のそれぞれが用語の属性に対応付けられており、それぞれが当該保持部103に対応付けられた属性を有する用語を保持する複数の保持部103と、複数の保持部103が保持する用語の履歴を記憶している記憶部104と、ユーザの音声による発話の内容を示す発話データを取得し、取得した発話データに含まれる発話用語を、複数の保持部103のうち発話用語の属性に対応付けられた保持部103に保持させる取得部101と、対話情報を制御するための制御用語が含まれる制御発話データを取得部101が取得した場合に、記憶部104を参照して、複数の保持部103のそれぞれが保持している用語を、制御用語により特定される過去の時点において当該保持部103が保持していた用語に変更する変更部102とを備える。
As shown in FIG. 8, the
なお、音声対話装置20Aは、さらに、複数の保持部103のそれぞれが保持している用語を対話情報として、対話情報に基づいて処理を行う処理部に対話情報を出力し、出力の応答として処理の結果を示す情報を取得する外部処理制御部105を備えてもよい。
The
なお、処理部は、取得した用語を検索語として情報検索を実行し、外部処理制御部105は、情報検索の結果を応答として取得し、音声対話装置20Aは、さらに、外部処理制御部105が取得した情報検索の結果をユーザに提示するための提示制御部106を備えてもよい。
The processing unit executes an information search using the acquired term as a search term, the external
図9は、本実施の形態の変形例に係る音声対話装置20Aの制御方法を示すフロー図である。
FIG. 9 is a flowchart showing a control method of the voice
図9に示されるように、ユーザとの音声による対話を行う音声対話装置20Aの制御方法は、ユーザの音声による発話の内容を示す発話データを取得し(ステップS401)、取得した発話データに含まれる発話用語を、複数の保持部103のうち発話用語の属性に対応付けられた保持部103に保持させる(ステップS402)取得ステップと、取得ステップで取得した発話データに、対話情報を制御するための制御用語が含まれる場合に、記憶部104が記憶している履歴を参照して、複数の保持部103のそれぞれが保持している用語を、制御用語により特定される過去の時点において当該保持部103が保持していた用語に変更する(ステップS403)変更ステップとを含む。
As shown in FIG. 9, the control method of the
本変形例に係る音声対話装置20Aは、音声対話装置20と同様の効果を奏する。
The
[1−4.効果等]
以上のように、本実施の形態に係る音声対話装置20は、ユーザとの音声による対話を行う音声対話装置20であって、対話の内容を示す対話情報を保持するための複数のスロット31であって、複数のスロット31のそれぞれが用語の属性に対応付けられており、それぞれが当該スロット31に対応付けられた属性を有する用語を保持するための複数のスロット31と、複数のスロット31が保持する用語の履歴を記憶している履歴テーブル32と、ユーザの音声による発話の内容を示す発話データを取得し、取得した発話データに含まれる発話用語を、複数のスロット31のうち発話用語の属性に対応付けられたスロットに保持させる発話データ取得部22と、発話データ取得部22が取得した発話データに、対話情報を制御するための制御用語が含まれる場合に、履歴テーブル32が記憶している履歴を参照して、複数のスロット31のそれぞれが保持している用語を、制御用語により特定される過去の時点において当該スロット31が保持していた用語に変更する操作部25とを備える。
[1-4. Effect]
As described above, the
これによれば、音声対話装置20は、ユーザの音声に基づいて、対話情報を過去の時点におけるものに変更する、つまり、対話情報を過去の状態に戻すことができる。ここで、過去の時点とは、ユーザの音声により定められる時点である。よって、ユーザは、過去の時点を特定するための制御用語を含む音声による発話をすることで、音声対話装置20との対話の内容である対話情報を、過去の時点におけるものに戻すことができる。このように、音声対話装置20は、ユーザとの対話の内容を簡易な方法により修正することができる。
According to this, the
特に、音声対話装置20は、ユーザの音声に基づいた制御を行うことにより、ユーザとの対話の内容を簡易な方法により修正する点に特徴を有する。ユーザは、従来の音声対話装置との音声対話では対話の内容を時系列で把握することが難しいので、対話の内容をユーザが希望する過去の時点に戻すという操作を行うことが難しい。本実施の形態に係る音声対話装置20は、ユーザの音声に基づいた制御を行うので、対話の内容をユーザが希望する過去の時点に戻すことができる。そして、対話の内容が複雑になる、つまり、用語の数が増えるほど、ユーザの音声に基づく制御の優位性が高まると考えられる。
In particular, the
また、技術進化に伴い対話情報がより複雑になる場合、例えば、保持部が数十個又はそれ以上あるような場合には、上記のような修正の方法の優位性が高い。なぜなら、本実施の形態に示すような十個に満たない保持部を備える音声対話装置であれば、ユーザとの対話の内容を過去の時点に戻すことを行う代わりに、保持部が保持する用語をリセットし、最初から用語を設定し直すことも現実的に可能である。しかし、音声対話装置が数十個又はそれ以上の保持部を備える場合には、保持部が保持する用語を最初から設定し直すことは煩雑であり、ユーザにとって大きな負担となるので、現実的に可能とは言い難い。このような場合に、音声対話装置20は、ユーザとの対話の内容を過去の時点に戻すことができるので、最初から設定し直すことなく、ユーザが希望する過去の時点から対話をやり直すことができる利点がある。
In addition, when the conversation information becomes more complicated as the technology evolves, for example, when there are several tens or more holding units, the above-described correction method is highly advantageous. Because, in the case of a voice dialogue apparatus having less than ten holding units as shown in the present embodiment, the term held by the holding unit instead of returning the content of the dialogue with the user to a past time point It is practically possible to reset and reset the terminology from the beginning. However, in the case where the voice interactive apparatus includes several tens or more holding units, it is complicated to reset the terms held by the holding unit from the beginning, which is a heavy burden on the user. It is hard to say that it is possible. In such a case, since the
また、制御用語は、対話情報を過去の時点に変更することを示す予め定められた用語である第一用語と、予め定められた文字列とは異なる第二用語とを含み、操作部25は、発話データ取得部22が取得した発話データに第一用語及び第二用語が含まれるか否かを判定し、第一用語及び第二用語が含まれると判定した場合に、履歴を参照して、複数のスロット31のそれぞれが保持している用語を、複数のスロット31のうち第二用語の属性に対応付けられたスロット31が第二用語を保持していた時点において当該スロット31が保持していた用語に変更してもよい。
The control terms include a first term that is a predetermined term indicating that the dialogue information is changed to a past time point, and a second term that is different from the predetermined character string. The speech data acquired by the speech
これによれば、音声対話装置20は、取得部が取得した制御用語に基づいて、保持部が保持する用語の内容を用いて具体的に過去の時点を特定する。このように、音声対話装置20は、ユーザとの対話の内容を、より具体的な方法により修正することができる。
According to this, based on the control term acquired by the acquisition unit, the
また、操作部25は、履歴テーブル32が記憶している履歴上のある時点における複数のスロット31の状態が所定の条件を満たす場合に、上記時点に復元ポイントを設定し、複数のスロット31のそれぞれが保持している用語を変更する際には、復元ポイントが設定された時点のうち、複数のスロット31のうち第二用語の属性に対応付けられたスロット31が第二用語を保持していた時点において当該スロット31が保持していた用語に変更してもよい。
In addition, when the state of the plurality of
これによれば、音声対話装置20は、ユーザの音声に基づいた時点に復元ポイントを設定することで、後に保持部が保持する用語を変更する対象となる時点を所定の条件を用いて絞り込んでおくことができる。これにより、音声対話装置20は、保持部が保持する用語を変更する際に、所定の条件により絞り込まれた、より適切な過去の時点に対話の状態を戻すことができる。
According to this, the
また、音声対話装置20は、さらに、複数のスロット31のそれぞれが保持している用語を対話情報として、対話情報に基づいて処理を行うタスク処理部40に出力し、前記出力の応答として前記処理の結果を示す情報を取得するタスク制御部24を備えてもよい。
Further, the
これによれば、音声対話装置20は、複数の保持部が保持する用語を外部の処理部により処理した結果をユーザに提示する。よって、ユーザは、音声対話装置20との対話の内容を反映した処理結果を取得することができる。
According to this, the
また、タスク処理部40は、取得した用語を検索語として情報検索を実行し、タスク制御部24は、情報検索の結果を応答として取得し、音声対話装置20は、さらに、外部処理制御部が取得した前記情報検索の結果を前記ユーザに提示するための提示制御部29を備えてもよい。
In addition, the
これによれば、音声対話装置20は、外部の処理部による処理の結果として、対話の内容に基づいた検索処理の結果を取得し、ユーザに提示することができる。
According to this, the
また、操作部25は、履歴において、タスク制御部24が情報検索の結果を取得した時点に、復元ポイントを設定してもよい。
Further, the
これによれば、音声対話装置20は、復元ポイントを用いて、保持部が保持する用語を、情報検索を行った時点におけるものに戻すことができる。情報検索を行った時点は、その結果が得られる時点でもあり、対話の中でユーザが特定しやすい時点である。このように復元ポイントを設定することで、音声対話装置20は、保持部が保持する用語を、ユーザが直感的に特定しやすい時点におけるものに戻すことができる。
According to this, the
また、操作部25は、履歴において、タスク制御部24が情報検索の結果を取得した時点であっても、情報検索の結果に含まれる情報が0件であった時点には、復元ポイントを設定することを禁止してもよい。
In addition, the
これによれば、音声対話装置20は、情報検索の結果が0件であった時点を、復元ポイントを設定する時点から除外することができる。ユーザが対話の状態を戻そうとする場合、情報検索の結果が1件以上あった時点にするのが有用と考えられる。よって、音声対話装置20は、ユーザとの対話の内容を、ユーザにとって有用な時点におけるものに戻すことができる。
According to this, the voice
また、操作部25は、複数のスロット31のそれぞれが保持している用語を変更する際に、履歴上に2以上の復元ポイントがある場合には、2以上の復元ポイントのうちユーザにより特定される復元ポイントを用いて、用語を変更してもよい。
In addition, when there are two or more restoration points on the history when the terms held by each of the plurality of
これによれば、音声対話装置20は、複数ある復元ポイントのうちユーザが特定する1つの復元ポイントを用いて、ユーザとの対話の内容を過去の時点におけるものに戻すことができる。
According to this, the voice
また、音声対話装置20は、さらに、2以上の復元ポイントのうち用語を変更するのに用いる1つの復元ポイントをユーザから受け付けるための応答文を生成する応答文生成部21を備えてもよい。
Moreover, the voice
これによれば、音声対話装置20は、複数ある復元ポイントのうちからユーザにより1つの復元ポイントを特定させる。これにより、音声対話装置20は、具体的にユーザから復元ポイントの指定を受け付け、ユーザとの対話の内容を過去の時点におけるものに戻すことができる。
According to this, the voice
また、制御用語は、対話情報を過去の時点に変更することを示す予め定められた用語である第一用語と、属性の名称である属性名とを含み、操作部25は、発話データ取得部22が取得した発話データに第一用語及び属性名が含まれるか否かを判定し、第一用語及び属性名が含まれると判定した場合に、履歴を参照して、複数のスロット31のそれぞれが保持している用語を、複数のスロット31のうち属性名により示される属性に対応付けられたスロット31が現在保持している用語を保持する直前の時点において当該スロット31が保持していた用語に変更してもよい。
The control term includes a first term that is a predetermined term indicating that the dialogue information is changed to a past time point, and an attribute name that is a name of the attribute. The
これによれば、音声対話装置20は、取得部が取得した制御用語に基づいて、保持部が対応付けられている属性の名称を用いて具体的に過去の時点を特定する。このように、音声対話装置20は、ユーザとの対話の内容を、より具体的な方法により修正することができる。
According to this, based on the control term acquired by the acquisition unit, the
また、本実施の形態に係る音声対話システム1は、ユーザとの音声による対話を行う音声対話システム1であって、対話の内容を示す対話情報を保持するための複数のスロット31であって、複数のスロット31のそれぞれが用語の属性に対応付けられており、それぞれが当該スロット31に対応付けられた属性を有する用語を保持するための複数のスロット31と、複数のスロット31が保持する用語の履歴を記憶している履歴テーブル32と、ユーザの音声による発話の内容を示す発話データを取得し、取得した発話データに含まれる発話用語を、複数のスロット31のうち発話用語の属性に対応付けられたスロット31に保持させる発話データ取得部22と、発話データ取得部22が取得した発話データに、対話情報を制御するための制御用語が含まれる場合に、履歴テーブル32が記憶している履歴を参照して、複数のスロット31のそれぞれが保持している用語を、制御用語により特定される過去の時点において当該スロット31が保持していた用語に変更する操作部25と、ユーザの音声を取得して音声信号を生成するマイク13と、マイク13が生成した音声信号に対して音声認識処理を施すことで、発話データ取得部22により取得される発話データを生成する音声認識部14と、複数のスロット31が保持している対話情報を取得し、取得した対話情報に対して所定の処理を施し、処理の結果を示す情報を出力するタスク処理部40と、ユーザの音声による発話に対する応答文を生成し、生成した応答文に対して音声合成処理を施すことで音声信号を生成する音声合成部12と、音声合成部12が生成した音声信号を音声として出力するスピーカと、タスク処理部40が出力した処理の結果を表示する表示装置10とを備える。
Further, the
これにより、上記音声対話装置20と同様の効果を奏する。
Thereby, there exists an effect similar to the said voice
また、本実施の形態に係る音声対話方法は、ユーザとの音声による対話を行う音声対話装置20の制御方法であって、音声対話装置20は、対話の内容を示す対話情報を保持するための複数のスロット31であって、複数のスロット31のそれぞれが用語の属性に対応付けられており、それぞれが当該スロット31に対応付けられた属性を有する用語を保持するための複数のスロット31と、複数のスロット31が保持する用語の履歴を記憶している履歴テーブル32とを備え、制御方法は、ユーザの音声による発話の内容を示す発話データを取得し、取得した発話データに含まれる発話用語を、複数のスロット31のうち発話用語の属性に対応付けられたスロット31に保持させる取得ステップと、取得ステップで取得した発話データに、対話情報を制御するための制御用語が含まれる場合に、履歴テーブル32が記憶している履歴を参照して、複数のスロット31のそれぞれが保持している用語を、制御用語により特定される過去の時点において当該スロット31が保持していた用語に変更する変更ステップとを含む。
The voice interaction method according to the present embodiment is a control method of the
これにより、上記音声対話装置20と同様の効果を奏する。
Thereby, there exists an effect similar to the said voice
以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。 As described above, the embodiments have been described as examples of the technology in the present disclosure. For this purpose, the accompanying drawings and detailed description are provided.
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記実装を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。 Accordingly, among the components described in the accompanying drawings and the detailed description, not only the components essential for solving the problem, but also the components not essential for solving the problem in order to illustrate the above implementation. May also be included. Therefore, it should not be immediately recognized that these non-essential components are essential as those non-essential components are described in the accompanying drawings and detailed description.
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。 Moreover, since the above-mentioned embodiment is for demonstrating the technique in this indication, a various change, replacement, addition, abbreviation, etc. can be performed in a claim or its equivalent range.
本開示は、簡易な方法により、ユーザとの対話の内容を修正することができる音声対話装置として有用である。例えば、本開示は、カーナビゲーション装置、スマートフォン(高機能携帯電話端末)、携帯電話端末、又は、PC(Personal Computer)のアプリケーションに適用することができる。 The present disclosure is useful as a speech dialogue apparatus that can correct the content of dialogue with a user by a simple method. For example, the present disclosure can be applied to an application of a car navigation device, a smartphone (high-function mobile phone terminal), a mobile phone terminal, or a PC (Personal Computer).
1 音声対話システム
10 表示装置
11 スピーカ
12 音声合成部
13 マイク
14 音声認識部
20、20A 音声対話装置
21 応答文生成部
22 発話データ取得部
23 シーケンス制御部
24 タスク制御部
25 操作部
26 解析部
27 メモリ
28 タスク結果解析部
29、106 提示制御部
31 スロット
32、320 履歴テーブル
40 タスク処理部
101 取得部
102 変更部
103 保持部
104 記憶部
105 外部処理制御部
310 対話シーケンス
311 時刻情報
312 発話
313 応答
321 必須スロット群
322 オプションスロット群
323 アクション
324 復元ポイント
330 検索結果
DESCRIPTION OF
Claims (12)
対話の内容を示す対話情報を保持するための複数の保持部であって、前記複数の保持部のそれぞれが用語の属性に対応付けられており、それぞれが当該保持部に対応付けられた属性を有する用語を保持するための複数の保持部と、
前記複数の保持部が保持する用語の履歴を記憶している記憶部と、
ユーザの音声による発話の内容を示す発話データを取得し、取得した前記発話データに含まれる発話用語を、前記複数の保持部のうち前記発話用語の属性に対応付けられた保持部に保持させる取得部と、
前記取得部が取得した前記発話データに、前記対話情報を制御するための制御用語が含まれる場合に、前記記憶部が記憶している前記履歴を参照して、前記複数の保持部のそれぞれが保持している用語を、前記制御用語により特定される過去の時点において当該保持部が保持していた用語に変更する変更部とを備える
音声対話装置。 A voice dialogue device that performs voice dialogue with a user,
A plurality of holding units for holding dialogue information indicating the content of the dialogue, wherein each of the plurality of holding units is associated with a term attribute, and each of the plurality of holding units has an attribute associated with the holding unit. A plurality of holding portions for holding the terms having;
A storage unit storing a history of terms held by the plurality of holding units;
Acquisition of utterance data indicating the content of utterances by the user's voice, and acquisition of utterance terms included in the acquired utterance data in a holding unit associated with the attribute of the utterance term among the plurality of holding units And
When the utterance data acquired by the acquisition unit includes a control term for controlling the conversation information, each of the plurality of holding units is referred to with reference to the history stored in the storage unit A voice interaction device comprising: a changing unit that changes a held term to a term held by the holding unit at a past time point specified by the control term.
前記対話情報を過去の時点に変更することを示す予め定められた用語である第一用語と、前記予め定められた文字列とは異なる第二用語とを含み、
前記変更部は、
前記取得部が取得した前記発話データに前記第一用語及び前記第二用語が含まれるか否かを判定し、前記第一用語及び前記第二用語が含まれると判定した場合に、前記履歴を参照して、前記複数の保持部のそれぞれが保持している用語を、前記複数の保持部のうち前記第二用語の属性に対応付けられた対応保持部が前記第二用語を保持していた時点において当該保持部が保持していた用語に変更する
請求項1に記載の音声対話装置。 The control term is:
Including a first term that is a predetermined term indicating that the dialogue information is changed to a past time point, and a second term that is different from the predetermined character string,
The changing unit is
It is determined whether or not the first term and the second term are included in the utterance data acquired by the acquisition unit, and the history is determined when it is determined that the first term and the second term are included. Referring to the term held by each of the plurality of holding units, the corresponding holding unit associated with the attribute of the second term among the plurality of holding units holds the second term. The spoken dialogue apparatus according to claim 1, wherein the term is changed to a term held by the holding unit at the time.
前記記憶部が記憶している前記履歴上のある時点における複数の保持部の状態が所定の条件を満たす場合に、前記時点に復元ポイントを設定し、
前記複数の保持部のそれぞれが保持している用語を変更する際には、前記復元ポイントが設定された時点のうち、前記複数の保持部のうち前記第二用語の属性に対応付けられた保持部が前記第二用語を保持していた時点において当該保持部が保持していた用語に変更する
請求項2に記載の音声対話装置。 The changing unit is
When the state of a plurality of holding units at a certain point on the history stored in the storage unit satisfies a predetermined condition, a restoration point is set at the point in time,
When changing the term held by each of the plurality of holding units, the holding associated with the attribute of the second term among the plurality of holding units at the time when the restoration point is set The spoken dialogue apparatus according to claim 2, wherein when the unit holds the second term, the term is changed to the term held by the holding unit.
前記複数の保持部のそれぞれが保持している用語を前記対話情報として、前記対話情報に基づいて処理を行う処理部に出力し、前記出力の応答として前記処理の結果を示す情報を取得する外部処理制御部を備える
請求項3に記載の音声対話装置。 The voice interaction device further includes:
An external that outputs the terminology held by each of the plurality of holding units as the dialogue information to a processing unit that performs processing based on the dialogue information, and acquires information indicating the result of the processing as a response to the output The voice interactive apparatus according to claim 3, further comprising a processing control unit.
前記外部処理制御部は、前記情報検索の結果を前記応答として取得し、
前記音声対話装置は、さらに、
前記外部処理制御部が取得した前記情報検索の結果を前記ユーザに提示するための提示制御部を備える
請求項4に記載の音声対話装置。 The processing unit performs an information search using the acquired term as a search term,
The external processing control unit acquires the result of the information search as the response,
The voice interaction device further includes:
The voice interactive apparatus according to claim 4, further comprising a presentation control unit for presenting the result of the information search acquired by the external processing control unit to the user.
請求項5に記載の音声対話装置。 The voice interactive apparatus according to claim 5, wherein the changing unit sets the restoration point at the time when the external processing control unit acquires the information search result in the history.
請求項6に記載の音声対話装置。 In the history, the changing unit is configured to restore the restoration when the information included in the information search result is 0 even when the external processing control unit acquires the information search result. The voice interactive apparatus according to claim 6, wherein setting of points is prohibited.
請求項3に記載の音声対話装置。 The change unit may change the term held by each of the plurality of holding units, and if there are two or more restoration points on the history, the user among the two or more restoration points. The spoken dialogue apparatus according to claim 3, wherein the term is changed by using a restoration point specified by
2以上の前記復元ポイントのうち前記用語を変更するのに用いる1つの復元ポイントをユーザから受け付けるための応答文を生成する応答文生成部を備える
請求項8に記載の音声対話装置。 The voice interaction device further includes:
The voice dialogue apparatus according to claim 8, further comprising: a response sentence generation unit that generates a response sentence for accepting, from a user, one restoration point used to change the term among the two or more restoration points.
前記対話情報を過去の時点に変更することを示す予め定められた用語である第一用語と、前記属性の名称である属性名とを含み、
前記変更部は、
前記取得部が取得した前記発話データに前記第一用語及び前記属性名が含まれるか否かを判定し、前記第一用語及び前記属性名が含まれると判定した場合に、前記履歴を参照して、前記複数の保持部のそれぞれが保持している用語を、前記複数の保持部のうち前記属性名により示される属性に対応付けられた対応保持部が現在保持している用語を保持する直前の時点において当該保持部が保持していた用語に変更する
請求項1に記載の音声対話装置。 The control term is:
Including a first term that is a predetermined term indicating that the dialogue information is changed to a past time point, and an attribute name that is a name of the attribute,
The changing unit is
It is determined whether the first term and the attribute name are included in the utterance data acquired by the acquisition unit, and when it is determined that the first term and the attribute name are included, the history is referred to. The term held by each of the plurality of holding units is immediately before holding the term currently held by the correspondence holding unit associated with the attribute indicated by the attribute name among the plurality of holding units. The spoken dialogue apparatus according to claim 1, wherein the term is changed to a term held by the holding unit at the point of time.
対話の内容を示す対話情報を保持するための複数の保持部であって、前記複数の保持部のそれぞれが用語の属性に対応付けられており、それぞれが当該保持部に対応付けられた属性を有する用語を保持するための複数の保持部と、
前記複数の保持部が保持する用語の履歴を記憶している記憶部と、
ユーザの音声による発話の内容を示す発話データを取得し、取得した前記発話データに含まれる発話用語を、前記複数の保持部のうち前記発話用語の属性に対応付けられた保持部に保持させる取得部と、
前記取得部が取得した前記発話データに、前記対話情報を制御するための制御用語が含まれる場合に、前記記憶部が記憶している前記履歴を参照して、前記複数の保持部のそれぞれが保持している用語を、前記制御用語により特定される過去の時点において当該保持部が保持していた用語に変更する変更部と、
ユーザの音声を取得して音声信号を生成するマイクと、
前記マイクが生成した前記音声信号に対して音声認識処理を施すことで、前記取得部により取得される前記発話データを生成する音声認識部と、
前記複数の保持部が保持している前記対話情報を取得し、取得した前記対話情報に対して所定の処理を施し、前記処理の結果を示す情報を出力する処理部と、
前記ユーザの音声による発話に対する応答文を生成し、生成した前記応答文に対して音声合成処理を施すことで音声信号を生成する音声合成部と、
前記音声合成部が生成した前記音声信号を音声として出力するスピーカと、
前記処理部が出力した前記処理の結果を表示する表示装置とを備える
音声対話システム。 A voice dialogue system that performs voice dialogue with a user,
A plurality of holding units for holding dialogue information indicating the content of the dialogue, wherein each of the plurality of holding units is associated with a term attribute, and each of the plurality of holding units has an attribute associated with the holding unit. A plurality of holding portions for holding the terms having;
A storage unit storing a history of terms held by the plurality of holding units;
Acquisition of utterance data indicating the content of utterances by the user's voice, and acquisition of utterance terms included in the acquired utterance data in a holding unit associated with the attribute of the utterance term among the plurality of holding units And
When the utterance data acquired by the acquisition unit includes a control term for controlling the conversation information, each of the plurality of holding units is referred to with reference to the history stored in the storage unit A changing unit that changes the holding term to a term held by the holding unit at a past time specified by the control term;
A microphone that captures the user's voice and generates a voice signal;
A voice recognition unit that generates the utterance data acquired by the acquisition unit by performing a voice recognition process on the voice signal generated by the microphone;
A processing unit that acquires the dialogue information held by the plurality of holding units, performs predetermined processing on the acquired dialogue information, and outputs information indicating a result of the processing;
A speech synthesizer that generates a response signal to an utterance by the user's voice and generates a speech signal by performing speech synthesis processing on the generated response statement;
A speaker that outputs the voice signal generated by the voice synthesizer as voice;
A voice dialogue system comprising: a display device that displays a result of the processing output by the processing unit.
前記音声対話装置は、
対話の内容を示す対話情報を保持するための複数の保持部であって、前記複数の保持部のそれぞれが用語の属性に対応付けられており、それぞれが当該保持部に対応付けられた属性を有する用語を保持するための複数の保持部と、
前記複数の保持部が保持する用語の履歴を記憶している記憶部とを備え、
前記制御方法は、
ユーザの音声による発話の内容を示す発話データを取得し、取得した前記発話データに含まれる発話用語を、前記複数の保持部のうち前記発話用語の属性に対応付けられた保持部に保持させる取得ステップと、
前記取得ステップで取得した前記発話データに、前記対話情報を制御するための制御用語が含まれる場合に、前記記憶部が記憶している前記履歴を参照して、前記複数の保持部のそれぞれが保持している用語を、前記制御用語により特定される過去の時点において当該保持部が保持していた用語に変更する変更ステップとを含む
制御方法。 A method for controlling a voice dialogue apparatus that performs voice dialogue with a user,
The voice interaction device
A plurality of holding units for holding dialogue information indicating the content of the dialogue, wherein each of the plurality of holding units is associated with a term attribute, and each of the plurality of holding units has an attribute associated with the holding unit. A plurality of holding portions for holding the terms having;
A storage unit storing a history of terms held by the plurality of holding units,
The control method is:
Acquisition of utterance data indicating the content of utterances by the user's voice, and acquisition of utterance terms included in the acquired utterance data in a holding unit associated with the attribute of the utterance term among the plurality of holding units Steps,
When the utterance data acquired in the acquisition step includes a control term for controlling the conversation information, each of the plurality of holding units is referred to with reference to the history stored in the storage unit A change step of changing the held term to a term held by the holding unit at a past time specified by the control term.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015039573A JP2018063272A (en) | 2015-02-27 | 2015-02-27 | Voice dialogue apparatus, voice dialogue system, and control method of voice dialogue apparatus |
PCT/JP2016/000855 WO2016136208A1 (en) | 2015-02-27 | 2016-02-18 | Voice interaction device, voice interaction system, control method of voice interaction device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015039573A JP2018063272A (en) | 2015-02-27 | 2015-02-27 | Voice dialogue apparatus, voice dialogue system, and control method of voice dialogue apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018063272A true JP2018063272A (en) | 2018-04-19 |
Family
ID=56788243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015039573A Pending JP2018063272A (en) | 2015-02-27 | 2015-02-27 | Voice dialogue apparatus, voice dialogue system, and control method of voice dialogue apparatus |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2018063272A (en) |
WO (1) | WO2016136208A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019220791A1 (en) * | 2018-05-14 | 2019-11-21 | 株式会社Nttドコモ | Dialogue device |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH086955A (en) * | 1994-06-16 | 1996-01-12 | Canon Inc | Device and method for retrieving information |
JP3765202B2 (en) * | 1999-07-09 | 2006-04-12 | 日産自動車株式会社 | Interactive information search apparatus, interactive information search method using computer, and computer-readable medium recording program for interactive information search processing |
DE10156945A1 (en) * | 2001-11-20 | 2003-05-28 | Philips Corp Intellectual Pty | Method for operation of speech recognition dialogue system for provision of telephone information, etc., whereby navigation is improved as a user can jump straight to a point in a dialogue by giving a marker name |
US7228278B2 (en) * | 2004-07-06 | 2007-06-05 | Voxify, Inc. | Multi-slot dialog systems and methods |
US8798999B2 (en) * | 2009-05-01 | 2014-08-05 | Alpine Electronics, Inc. | Dialog design tool and method |
-
2015
- 2015-02-27 JP JP2015039573A patent/JP2018063272A/en active Pending
-
2016
- 2016-02-18 WO PCT/JP2016/000855 patent/WO2016136208A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2016136208A1 (en) | 2016-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6588637B2 (en) | Learning personalized entity pronunciation | |
US10489112B1 (en) | Method for user training of information dialogue system | |
US10748531B2 (en) | Management layer for multiple intelligent personal assistant services | |
KR101418163B1 (en) | Speech recognition repair using contextual information | |
US11893061B2 (en) | Systems and methods for editing and replaying natural language queries | |
CN111104496B (en) | Retrieving context from previous sessions | |
KR102364400B1 (en) | Obtaining response information from multiple corpuses | |
US9002708B2 (en) | Speech recognition system and method based on word-level candidate generation | |
JP6726354B2 (en) | Acoustic model training using corrected terms | |
US10860289B2 (en) | Flexible voice-based information retrieval system for virtual assistant | |
US9148741B2 (en) | Action generation based on voice data | |
US10586528B2 (en) | Domain-specific speech recognizers in a digital medium environment | |
JP2015176099A (en) | Dialog system construction assist system, method, and program | |
CN109192212B (en) | Voice control method and device | |
WO2016136207A1 (en) | Voice interaction device, voice interaction system, control method of voice interaction device, and program | |
KR20210039352A (en) | Method, device, equipment and medium for determining broadcast text | |
CN111949240A (en) | Interaction method, storage medium, service program, and device | |
JP2018128869A (en) | Search result display device, search result display method, and program | |
JPWO2015102082A1 (en) | Terminal device, program, and server device for providing information in response to user data input | |
CN112269864A (en) | Method, device and equipment for generating broadcast voice and computer storage medium | |
JP2018063272A (en) | Voice dialogue apparatus, voice dialogue system, and control method of voice dialogue apparatus | |
US11657805B2 (en) | Dynamic context-based routing of speech processing | |
US20220415311A1 (en) | Early invocation for contextual data processing | |
WO2022271555A1 (en) | Early invocation for contextual data processing | |
JP2021157617A (en) | Information providing program, information providing method, and information processing device |