JP2015127758A - Response control device and control program - Google Patents
Response control device and control program Download PDFInfo
- Publication number
- JP2015127758A JP2015127758A JP2013273284A JP2013273284A JP2015127758A JP 2015127758 A JP2015127758 A JP 2015127758A JP 2013273284 A JP2013273284 A JP 2013273284A JP 2013273284 A JP2013273284 A JP 2013273284A JP 2015127758 A JP2015127758 A JP 2015127758A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- response
- additional
- candidate
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Abstract
Description
本発明は、ユーザの音声に応答する応答制御装置等に関する。 The present invention relates to a response control device that responds to a user's voice.
従来、自動的に会話等の処理を行うロボットおよび音声処理システムが普及している。例えば特許文献1には、ユーザのリクエストに応じて特定のサーバにリクエストを転送し、サーバは、ローカルの記憶システムにない情報が要求されているとインターネット上の情報空間を検索して検索結果をロボットに送り返す技術が開示されている。
2. Description of the Related Art Conventionally, robots and voice processing systems that automatically process conversations and the like have become widespread. For example, in
しかしながら、上述のような従来技術は、ユーザが発話してから該発話に対する応答を取得するまでの待ち時間が長くなる可能性が高いという課題がある。すなわち、上述のロボットおよび端末では、ローカルの記憶領域での検索処理および端末での処理の後に、インターネット上での検索処理およびサーバでの処理が実行される。従って、上述のロボットおよび端末がユーザの発話を取得してから、該発話に対する応答を出力するまでの時間は長くなる可能性が高い。ここで、ユーザが発話してから該発話に対する応答を取得するまでの待ち時間を短縮するために、端末とサーバとが各々音声処理を並行して実行することが考えられる。しかし、端末とサーバとが各々音声処理を並行して実行する場合、端末の音声処理結果とサーバの音声処理結果のいずれをユーザに出力するかという問題が残る。そして、上述のような従来技術には、端末とサーバとが各々音声処理を並行して実行する場合に端末の音声処理結果とサーバの音声処理結果のいずれをユーザに出力するかという問題を解決する手段は、開示も示唆もされていない。 However, the conventional technology as described above has a problem that there is a high possibility that the waiting time from when a user speaks until a response to the speech is acquired becomes long. That is, in the above-described robot and terminal, after the search process in the local storage area and the process at the terminal, the search process on the Internet and the process at the server are executed. Therefore, there is a high possibility that the time from when the above-described robot and terminal acquire the user's utterance until the response to the utterance is output becomes longer. Here, in order to reduce the waiting time from when the user utters until the response to the utterance is acquired, it is conceivable that the terminal and the server each execute voice processing in parallel. However, when each of the terminal and the server executes voice processing in parallel, there remains a problem of which of the voice processing result of the terminal and the voice processing result of the server is output to the user. The conventional technology as described above solves the problem of outputting to the user either the terminal voice processing result or the server voice processing result when the terminal and the server execute voice processing in parallel. The means to do is not disclosed or suggested.
本発明は、上記問題点に鑑みてなされたものであり、その目的は、ユーザの発話に対して複数の音声処理を並行して得た複数の候補に基づいて、適切な応答を行う応答制御装置等を実現することにある。 The present invention has been made in view of the above problems, and an object of the present invention is to provide response control that makes an appropriate response based on a plurality of candidates obtained in parallel with a plurality of voice processes for a user's utterance. It is to realize an apparatus or the like.
上記の課題を解決するために、本発明の一態様に係る応答制御装置は、音声に対する応答を制御する応答制御装置であって、複数の応答生成手段のそれぞれによって、上記音声に基づいて生成された複数の候補フレーズを取得する候補フレーズ取得手段と、上記候補フレーズ取得手段が取得した上記複数の候補フレーズから、該複数の候補フレーズのそれぞれが有する情報の重要度が最も高い候補フレーズを、応答フレーズとして選択する選択手段とを備えていることを特徴としている。 In order to solve the above-described problem, a response control apparatus according to an aspect of the present invention is a response control apparatus that controls a response to voice, and is generated based on the voice by each of a plurality of response generation units. A candidate phrase acquiring means for acquiring a plurality of candidate phrases, and a candidate phrase having the highest importance of information included in each of the plurality of candidate phrases from the plurality of candidate phrases acquired by the candidate phrase acquiring means It is characterized by comprising selection means for selecting as a phrase.
また、本発明の一態様に係る応答制御装置の制御方法は、音声に対する応答を制御する応答制御装置の制御方法であって、複数の応答生成手段のそれぞれによって、上記音声に基づいて生成された複数の候補フレーズを取得する候補フレーズ取得ステップと、上記候補フレーズ取得ステップが取得した上記複数の候補フレーズから、該複数の候補フレーズのそれぞれが有する情報の重要度が最も高い候補フレーズを、応答フレーズとして選択する選択ステップとを含むことを特徴としている。 The response control apparatus control method according to an aspect of the present invention is a response control apparatus control method for controlling a response to voice, and is generated based on the voice by each of a plurality of response generation means. From the candidate phrase acquisition step for acquiring a plurality of candidate phrases and the plurality of candidate phrases acquired by the candidate phrase acquisition step, the candidate phrase having the highest importance of the information included in each of the plurality of candidate phrases is selected as a response phrase. And a selection step of selecting as a feature.
本発明の一態様によれば、上記音声に対し上記複数の応答生成手段のそれぞれにより生成された複数の候補フレーズに基づいて、適切な応答を行うことができるという効果を奏する。 According to the aspect of the present invention, there is an effect that an appropriate response can be made to the voice based on a plurality of candidate phrases generated by each of the plurality of response generation units.
〔実施形態1〕
以下、本発明の一実施の形態について、図1〜図7を参照して説明する。ここでは、本発明の一態様に係る応答制御装置を、携帯端末1(以下、端末1と略記する)として実現した例について説明する。先ず、図2を参照して、端末1を含む音声応答システム100の概要を説明する。図2は、音声応答システム100の概要を示す図である。図示の通り、本実施の形態に係る音声応答システム100は、端末1と音声処理サーバ2(以下、「サーバ2」と略記する)とを含む構成であり、端末1とサーバ2とは通信可能となっている。端末1は、ユーザの音声に対する応答候補フレーズ(以下、候補フレーズと略記する)を生成する処理(応答生成処理)を自ら行うとともに、サーバ2にも、端末1での応答生成処理と並行して、応答生成処理を実行させる。従って、端末での処理の後にサーバでの処理を実行するような従来の音声処理に比べ、端末1は、ユーザが発話してから該発話に対する応答をユーザが取得するまでのユーザの待ち時間を短縮できる。なお以下では、端末1が生成する候補フレーズを「候補フレーズ(A)」と、サーバ2が生成する候補フレーズを「候補フレーズ(B)」と呼ぶ。端末1は、候補フレーズ(A)と候補フレーズ(B)とを取得する。そして端末1は、上記2つの候補フレーズから、情報の重要度(応答レベル)がより高い候補フレーズを、出力すべき選択応答フレーズ(以下、選択フレーズと略記する)として選択し、該選択フレーズを出力する。例えば、ユーザが端末1に「今日の天気はなに?」と呼びかけると、端末1は、上記呼びかけに対する応答生成処理を自ら実行するとともに、サーバ2に対し、上記呼びかけに対する応答生成処理をリクエストする。端末1およびサーバ2は各々、外部の情報提供サーバ98・99から第1および第2外部情報を取得し、各々の応答生成処理に利用する。なお、端末1およびサーバ2の各々の有する情報検索能力、語彙力等により、端末1とサーバ2とで、応答生成処理の結果は異なり得る。例えば、端末1は、外部の情報提供サーバ98から、「今日の天気は晴れ」との天気情報および「最高気温は○○度」との最高気温情報を第1外部情報として取得すると、「晴れだよ。最高気温は○○度だよ。」との候補フレーズ(A)を生成する。サーバ2は、外部の情報提供サーバ99から、「今日の天気は晴れ」との天気情報、「高気圧に覆われているので晴れ」との天気原因情報、および「最高気温は○○度」との最高気温情報を第2外部情報として取得すると、「晴れだよ。高気圧に覆われているからね。最高気温は○○度だよ。」との候補フレーズ(B)を生成する。そして、サーバ2は候補フレーズ(B)を端末1に通知する。端末1は、候補フレーズ(A)と候補フレーズ(B)とを比較し、情報の重要度が高い方の候補フレーズを、出力すべき選択フレーズとして選択する。図2で、端末1は、候補フレーズ(A)に含まれる天気情報と最高気温情報とに加えて、天気原因情報を含む候補フレーズ(B)を、選択フレーズとして選択し、「晴れだよ。高気圧に覆われているからね。最高気温は○○度だよ。」との選択フレーズを音声出力している。
Hereinafter, an embodiment of the present invention will be described with reference to FIGS. Here, an example in which the response control device according to one embodiment of the present invention is realized as the mobile terminal 1 (hereinafter, abbreviated as the terminal 1) will be described. First, the outline of the voice response system 100 including the
以上に説明した端末1の概要を整理すれば、以下の通りである。すなわち、端末1は、音声に対する応答を制御する応答制御装置であって、第1応答生成部13および第2応答生成部22(複数の応答生成手段)のそれぞれによって、上記音声に基づいて生成された複数の候補フレーズを取得する候補取得部141(候補フレーズ取得手段)と、候補取得部141が取得した上記複数の候補フレーズから、該複数の候補フレーズのそれぞれが有する応答レベル(情報の重要度)が最も高い候補フレーズを、選択フレーズ(応答フレーズ)として選択する応答選択部142(選択手段)とを備えている。従って、端末1は、上記複数の応答生成手段のそれぞれにより上記音声に対して生成された複数の候補フレーズに基づいて、適切な応答を行うことができる。すなわち、端末1は、第1応答生成部13および第2応答生成部22によって並行して生成された複数の候補フレーズから、情報の重要度が最も高い候補フレーズを選択フレーズとして選択し、該選択フレーズを出力する。端末1は、発話取得から応答出力までの時間を短縮するために複数の応答生成処理を並行して実行させ、該複数の応答生成処理の結果から、出力すべき応答を1つ選択する。
The outline of the
本実施の形態において、上記複数の候補フレーズはそれぞれ、1個以上の基準フレーズと0個以上の付加フレーズとからなり、応答選択部142は、付加フレーズを含む候補フレーズを、付加フレーズを含まない候補フレーズよりも応答レベルが高いと判定する。従って、端末1は、第1応答生成部13および第2応答生成部22が各々並行して生成した複数の候補フレーズから、付加フレーズの有無に応じて、出力すべき選択フレーズを選択する。従って、端末1は、ユーザの上記呼びかけに対する直接的な応答である基準フレーズだけでなく、付加的な応答である付加フレーズも出力できる。
In the present embodiment, each of the plurality of candidate phrases includes one or more reference phrases and zero or more additional phrases, and the
端末1は第1応答生成部13(応答生成手段)を備え、自ら応答生成処理を実行する。つまり、端末1は、例えば端末1を携帯するユーザの現在位置情報等、サーバ2が取得できない情報を利用して、自ら応答生成処理を実行する。なお、呼びかけ音声取得から応答までの時間を短縮するために複数の応答生成処理を並行して実行させ、該複数の応答生成処理の結果から出力すべき応答を1つ選択するのに、端末1が第1応答生成部13を備えることは必須ではない。なお、端末1は、第1応答生成部13以外の応答生成手段を備える外部の装置(例えば、第2応答生成部22を備えるサーバ2)に、自らの応答生成処理に並行させて応答処理を実行させ、該外部の装置により生成された候補フレーズを取得する。詳細は後述する。
The
(用語説明)音声応答システム100の実行する「音声処理」とは、音声認識処理と応答生成処理と音声合成処理とを含む処理を指す。「音声認識処理」とは、マイク17が取得したユーザの呼びかけ音声データを、対応する文字データである呼びかけフレーズに変換する処理であり、音声データを文字データに変換する公知の音声認識処理と同様の処理であってもよい。「応答生成処理」とは、上記呼びかけフレーズに対応する文字データである候補フレーズを生成する処理である。「音声合成処理」とは、文字データである候補フレーズに対応する音声データを生成する処理であり、文字データを音声データに変換する公知の音声合成処理と同様の処理であってもよい。音声合成処理により生成された音声データは、スピーカ192から出力される。なお、端末1は、音声認識処理と応答生成処理と音声合成処理とに加え、応答選択処理を実行する。「応答選択処理」とは、詳細は後述するが、各々並行して行われる複数の応答生成処理の結果として生成される複数の候補フレーズから、該複数の候補フレーズのそれぞれが有する情報の重要度が最も高い候補フレーズを、選択フレーズとして選択する処理である。
(Glossary) “Speech processing” executed by the speech response system 100 refers to processing including speech recognition processing, response generation processing, and speech synthesis processing. The “voice recognition process” is a process for converting user call voice data acquired by the
「呼びかけフレーズ」とは、マイク17が取得した或る呼びかけ音声に対し、音声認識部12が音声認識処理を実行して得る、文字データを指す。上記呼びかけフレーズに対し、第1応答生成部13および第2応答生成部22が生成する応答を「候補フレーズ」と呼ぶ。上記候補フレーズは、上記呼びかけフレーズに対する直接的な回答である「基準フレーズ」を含み、また、上記呼びかけフレーズに対する付加的な回答または情報を含む「付加フレーズ」が付加されていてもよい。或る呼びかけフレーズに対し、基準フレーズおよび付加フレーズの少なくとも一方は複数あってもよい。上記候補フレーズは、「基準フレーズのみ」または「基準フレーズと1つ以上の付加フレーズとの組み合わせ」である。例えば、呼びかけフレーズ=「今日の天気は何?」に対し、「晴れだよ。」との基準フレーズ、「高気圧に覆われているからね。」との付加フレーズ(A−1)、「最高気温は○○度になるよ。」との付加フレーズ(A−2)が選択され得る場合、以下の候補フレーズが想定できる。すなわち、基準フレーズのみの「晴れだよ。」という候補フレーズと、基準フレーズに付加フレーズ(A−1)を加えた「晴れだよ。高気圧に覆われているからね。」という候補フレーズと、基準フレーズに付加フレーズ(A−2)を加えた「晴れだよ。最高気温は○○度になるよ。」という候補フレーズと、基準フレーズに付加フレーズ(A−1)および付加フレーズ(A−2)を加えた「晴れだよ。高気圧に覆われているからね。最高気温は○○度だよ。」という候補フレーズという4種類の候補フレーズが想定できる。なお、候補フレーズにおいて、基準フレーズに対し付加フレーズを付加する位置について制限はない。基準フレーズの「後」に付加フレーズを付加してもよいし、基準フレーズの「前」に付加フレーズを付加してもよい。さらに、2つ以上の付加フレーズの間に基準フレーズのある候補フレーズを生成してもよい。また、2以上の付加フレーズの前後について制限はなく、「晴れだよ。高気圧に覆われているからね。最高気温は○○度だよ。」としても、「晴れだよ。最高気温は○○度だよ。高気圧に覆われているからね。」としてもよい。
The “calling phrase” refers to character data obtained by the
(端末の要部構成)図1は、端末1およびサーバ2の要部構成を示すブロック図である。図示の通り、端末1は、第1制御部10、マイク17、第1記憶部18、および出力部19を含む構成である。
マイク17は、音声等を電気信号に変換し、音声認識部12に通知する。
出力部19は、表示部191とスピーカ192とを含む。表示部191は、選択結果出力部143から文字データとして通知される選択フレーズを画像として出力する。スピーカ192は、音声合成部15から通知される音声データを音声として出力する。
第1記憶部18は、端末1が使用する各種データを格納する。第1記憶部18は、端末1の第1制御部10が実行する(1)制御プログラム、(2)OSプログラム、(3)各種機能を実行するためのアプリケーションプログラム、および、(4)該アプリケーションプログラムを実行するときに読み出す各種データを記憶する。上記の(1)〜(4)のデータは、例えば、ROM(read only memory)、フラッシュメモリ、EPROM(Erasable Programmable ROM)、EEPROM(登録商標)(Electrically EPROM)、HDD(Hard Disc Drive)等の不揮発性記憶装置に記憶される。また、第1記憶部18には、第1基準フレーズテーブル181と第1付加フレーズテーブル182とが格納されている。
第1制御部10は、音声認識処理、応答生成処理、応答選択処理、音声合成処理を含む端末1の機能を統括して制御するものであり、第1通信部11、音声認識部12、第1応答生成部13、応答制御部14、音声合成部15および第1外部情報取得部16を含む。
第1通信部11は、サーバ2等との通信を行う。より詳細には、第1通信部11は、(1)音声認識部12から、マイク17が取得した呼びかけ音声に対し音声認識部12が音声認識処理を実行した結果である呼びかけフレーズと、該呼びかけフレーズに対する候補フレーズを生成する処理の実行要求(応答生成処理のリクエスト)とを取得する。そして、上記呼びかけフレーズと応答生成処理のリクエストとをサーバ2へ送信する。(2)サーバ2から、第2応答生成部22の応答生成処理結果である候補フレーズ(B)を受信し、該候補フレーズを候補取得部141に通知する。(3)第1応答生成部13が応答生成処理を実行しようとする際に端末1の保持している情報以外の情報である第1外部情報が必要である場合、該第1外部情報を外部の情報提供サーバ98等から取得し、第1外部情報取得部16に通知する。
音声認識部12は、音声認識処理を実行する。つまり、音声認識部12は先ず、マイク17から通知された呼びかけ音声データを文字データである呼びかけフレーズに変換する。そして、上記呼びかけフレーズと、応答生成処理のリクエストとを、第1通信部11および第1応答生成部13に通知する。音声認識部12は、音声データを文字データに変換する公知の音声認識に関する技術を利用してよく、音声認識処理そのものは従来技術を用いて可能であるので、詳細は省略する。
第1応答生成部13は、応答生成処理を実行する。つまり、第1応答生成部13は、音声認識部12から通知される文字データとしての呼びかけフレーズに対して候補フレーズ(A)を生成する。第1応答生成部13は、第1外部情報取得部16から通知される第1外部情報を利用して候補フレーズ(A)を生成してもよい。詳細は後述する。
応答制御部14は、候補取得部141、応答選択部142および選択結果出力部143を含む。候補取得部141は、第1応答生成部13から候補フレーズ(A)を、第1通信部11から第2応答生成部22が生成した候補フレーズ(B)を、取得し、取得した候補フレーズ(A)および(B)を応答選択部142に通知する。応答選択部142は、応答選択処理を実行する。具体的には、応答選択部142は、候補取得部141から通知された候補フレーズ(A)および(B)から、それぞれの候補フレーズが有する情報の重要度(応答レベル)が高い方の候補フレーズを、出力すべき選択フレーズとして選択する。詳細は後述する。応答選択部142は、上記選択フレーズを、選択結果出力部143に通知する。選択結果出力部143は、応答選択部142から通知された上記選択フレーズを、音声合成部15および表示部191に通知する。
音声合成部15は、音声合成処理を実行する。つまり、音声合成部15は、選択結果出力部143から通知される文字データである選択フレーズを音声データに変換し、スピーカ192に出力させる。音声合成部15は、文字データを音声データに変換する公知の音声合成に関する技術を利用してよく、音声合成処理そのものは従来技術を用いて可能であるので、詳細は省略する。
第1外部情報取得部16は、外部の情報提供サーバ98から、端末1の保持している情報以外の情報等である第1外部情報を取得し、該第1外部情報を第1応答生成部13に通知する。第1外部情報取得部16は、第1応答生成部13からのリクエストに応じて、第1外部情報を取得してもよい。
(Configuration of Main Parts of Terminal) FIG. 1 is a block diagram showing the main configuration of the
The
The
The
The
The
The
The first
The
The
The first external
(サーバの要部構成)サーバ2は、第2制御部20および第2記憶部24を含む構成である。第2記憶部24には、第2基準フレーズテーブル241と第2付加フレーズテーブル242とが格納されており、詳細は後述する。第2制御部20は、第2通信部21、第2応答生成部22および第2外部情報取得部23を含む。
第2通信部21は、(1)端末1から、音声認識部12による音声認識処理の結果である呼びかけフレーズと応答生成処理のリクエストとを受信し、該呼びかけフレーズと応答生成処理のリクエストとを第2応答生成部22へ通知する。(2)第2応答生成部22から、応答生成処理結果である候補フレーズ(B)を取得し、該候補フレーズ(B)を端末1に送信する。(3)第2応答生成部22が応答生成処理を実行しようとする際にサーバ2の保持している情報以外の情報である第2外部情報が必要である場合、該第2外部情報を外部の情報提供サーバ99等から取得し、第2外部情報取得部23に通知する。
第2応答生成部22は、応答生成処理を実行する。つまり、第2応答生成部22は、第2通信部21から通知される呼びかけフレーズに対して候補フレーズ(B)を生成する処理を行う。第2応答生成部22は、第2外部情報取得部23から通知される第2外部情報を利用して、候補フレーズ(B)を生成してもよい。詳細は後述する。
第2外部情報取得部23は、外部の情報提供サーバ99から、サーバ2の保持している情報以外の情報等である第2外部情報を取得し、該第2外部情報を第2応答生成部22に通知する。第2外部情報取得部23は、第2応答生成部22からのリクエストに応じて、上記第2外部情報を取得してもよい。
(Main part configuration of server) The
The second communication unit 21 (1) receives a call phrase and a response generation process request as a result of the voice recognition process by the
The second response generation unit 22 executes a response generation process. That is, the second response generation unit 22 performs a process of generating a candidate phrase (B) for the calling phrase notified from the
The second external
(記憶部に格納されている情報)図3は、端末1およびサーバ2に格納されている第1基準フレーズテーブル181および第2基準フレーズテーブル241の例を示す図である。図4は、端末1およびサーバ2に格納されている第1付加フレーズテーブル182および第2付加フレーズテーブル242の例を示す図である。なお以下では、第1基準フレーズテーブル181と第2基準フレーズテーブル241とを区別する必要がない場合、両者を併せて「基準フレーズテーブル」と呼ぶ。同様に、第1付加フレーズテーブル182と第2付加フレーズテーブル242とを併せて「付加フレーズテーブル」と呼ぶ。
図3の基準フレーズテーブルには、呼びかけフレーズと基準フレーズとが対応付けられている。また、基準フレーズテーブルにおいて、各呼びかけフレーズを識別するための「呼びかけID」が各呼びかけフレーズに対応付けられており、各基準フレーズを識別するための「基準ID」が各基準フレーズに対応付けられている。図4の付加フレーズテーブルには、基準IDと付加フレーズとが対応付けられており、各付加フレーズを識別するための「付加ID」が各付加フレーズに対応付けられている。また、各付加フレーズには、基準フレーズに付加するための条件として、「付加条件」が設定されている。第1応答生成部13および第2応答生成部22は、付加条件を満たす付加フレーズがあると、該付加フレーズを基準フレーズに付加する。なお、第1応答生成部13および第2応答生成部22が応答生成処理を行う際、基準フレーズテーブルの基準フレーズおよび付加フレーズテーブルの付加フレーズの内容は予め決められている。ただし、付加フレーズテーブルにおける付加フレーズの内容は、予め決められていなくともよい。図4の付加フレーズテーブルにおいて、付加ID=「3」の付加フレーズは、付加条件が「天気原因情報の取得に成功」であり、付加フレーズ(の内容)は「取得した天気原因情報による」である。これは、天気(晴れ、曇り、雨など)の原因に係る情報を外部の情報提供サーバ98・99(例えば、天気情報サーバなど)から取得できた場合に、その情報を付加フレーズとすることを示す。天気の原因には様々なものが考えられるが、その原因を予め全て付加フレーズテーブルに保持しておく必要はなく、例えば、天気情報サーバから取得した天気原因情報を付加フレーズとして、候補フレーズの生成時に利用してもよい。付加ID=「4」、「5」の付加フレーズについても同様であり、最高気温および降水確率などの情報を天気情報サーバなどから取得した場合に、付加フレーズの「○○」の箇所を取得した値に置き換えることを想定している。端末1およびサーバ2は各々、基準フレーズテーブルおよび付加フレーズテーブルを格納している。端末1およびサーバ2の各々が格納している基準フレーズテーブルおよび付加フレーズテーブルの内容は、共通であってもよいし、異なっていてもよい。なお、端末1とサーバ2とで基準フレーズテーブルおよび付加フレーズテーブルの内容が同じであったとしても、第1応答生成部13と第2応答生成部22とが、或る呼びかけフレーズに対して常に同じ候補フレーズを生成するとは限らない。つまり、第1基準フレーズテーブル181の内容と第2基準フレーズテーブル241の内容とが同じで、かつ、第1付加フレーズテーブル182の内容と第2付加フレーズテーブル242の内容とが同じでも、例えば、以下のような事態があり得る。すなわち、サーバ2が最高気温に関する情報を取得して付加ID=「4」の付加フレーズを生成できたのに対し、端末1は最高気温に関する情報を取得できず、付加ID=「4」の付加フレーズを生成できない、というような事態である。さらに、端末1およびサーバ2の各々が格納している基準フレーズテーブルおよび付加フレーズテーブルの内容は、以下のように異なっていてもよい。例えば、サーバ2の第2基準フレーズテーブル241および第2付加フレーズテーブル242には、付加条件等として、インターネット上の様々な情報を取得し解析する必要のあるような条件が設定されていてもよい。他方、端末1の第1基準フレーズテーブル181および第1付加フレーズテーブル182には、付加条件等として、今日の日付、および端末1を携帯するユーザの現在位置情報(端末1の備えるGPS(Global Positioning System)等で取得する現在位置情報)など、端末1のみが取得できる条件が設定されていてもよい。
(Information Stored in Storage Unit) FIG. 3 is a diagram showing an example of the first reference phrase table 181 and the second reference phrase table 241 stored in the
In the reference phrase table of FIG. 3, the calling phrase and the reference phrase are associated with each other. In the reference phrase table, “call ID” for identifying each call phrase is associated with each call phrase, and “reference ID” for identifying each reference phrase is associated with each reference phrase. ing. In the additional phrase table of FIG. 4, a reference ID and an additional phrase are associated with each other, and an “addition ID” for identifying each additional phrase is associated with each additional phrase. In each additional phrase, “additional conditions” are set as conditions for adding to the reference phrase. If there is an additional phrase that satisfies the additional condition, the first
(音声処理の概要)図5は、端末1およびサーバ2の行う処理の概要を示すシーケンス図である。端末1の実行する音声処理の基本的な流れは、以下のように整理できる。すなわち、端末1のマイク17がユーザの呼びかけ音声を取得する(S101)と、マイク17は上記呼びかけ音声を音声データに変換し、該音声データを音声認識部12に通知する。音声認識部12は、上記音声データに対し音声認識処理を実行する(S102)。音声認識部12は、上記音声データに対し音声認識処理を実行して呼びかけフレーズを取得し、取得した該呼びかけフレーズを、応答生成処理のリクエストと共に、第1応答生成部13および第1通信部11に通知する(S103)。音声認識部12から上記呼びかけフレーズと応答生成処理のリクエストとを通知されると、第1応答生成部13は応答生成処理を行う(S104)。そして、第1応答生成部13は生成した候補フレーズ(A)を候補取得部141に通知する。また、第1通信部11は、音声認識部12から通知された上記呼びかけフレーズと応答生成処理のリクエストとをサーバ2に送信する。サーバ2の第2通信部21は、端末1から受信した上記呼びかけフレーズと応答生成処理のリクエストとを第2応答生成部22に通知する。第2通信部21から上記呼びかけフレーズと応答生成処理のリクエストとを通知されると、第2応答生成部22は応答生成処理を行う(S104’)。第2応答生成部22は生成した候補フレーズ(B)を第2通信部21に通知し、第2通信部21は該候補フレーズ(B)を端末1に送信する。端末1の第1通信部11は、サーバ2から受信した上記候補フレーズ(B)を候補取得部141に通知する。候補取得部141は、端末1およびサーバ2の応答生成処理の結果を取得し、つまり、第1応答生成部13から候補フレーズ(A)を、第1通信部11から候補フレーズ(B)を取得する(S105)。候補取得部141は、候補フレーズ(A)および(B)を、応答選択部142に通知する。応答選択部142は、応答選択処理を実行し、つまり、候補フレーズ(A)または(B)のいずれかを選択フレーズとして選択する(S106)。応答選択部142は、選択フレーズとして選択した候補フレーズを選択結果出力部143に通知する。選択結果出力部143は、応答選択部142から通知された上記選択フレーズを表示部191および音声合成部15に通知する。音声合成部15は、選択結果出力部143から通知された選択フレーズに対し音声合成処理を実行し、ユーザへ応答を音声出力する(S107)。次に、応答生成処理および応答選択処理の詳細を説明する。
(Outline of Voice Processing) FIG. 5 is a sequence diagram showing an outline of processing performed by the
(応答生成処理)図6は、第1応答生成部13と第2応答生成部22とが実行する応答生成処理の流れを示す図である。なお以下では、第1応答生成部13と第2応答生成部22とを区別する必要がない場合、両者を併せて「応答生成部」と呼ぶ。図6に示す通り、応答生成部は、呼びかけフレーズを通知されると、先ず、基準フレーズテーブルを参照して、呼びかけフレーズに対応する基準フレーズを選択する(S201)。呼びかけフレーズに対応する基準フレーズが複数ある場合、応答生成部は、条件に合致する基準フレーズを選択する。例えば、図3に例示する基準フレーズテーブルにおいて、呼びかけID=「1」の「おはよう。」との呼びかけフレーズに対応する基準フレーズは、基準ID=「1−1」の「おはよう。」との基準フレーズのみである。従って、呼びかけID=「1」の呼びかけフレーズに対し、応答生成部は、基準フレーズテーブルを参照して、基準ID=「1−1」の基準フレーズを選択する。他方、基準フレーズテーブルにおいて、呼びかけID=「2」の「今日の天気は何?」との呼びかけフレーズには、基準ID=「2−1」、「2−2」、「2−3」の3つの基準フレーズが対応付けられている。つまり、呼びかけID=「2」の呼びかけフレーズに対し、応答生成部は、基準フレーズテーブルを参照して、上記3つの基準フレーズを選択しうる。応答生成部は、上記3つの基準フレーズから、条件に合致する基準フレーズを選択する。具体的には、天気情報サーバなどの外部の情報提供サーバ98・99から天気情報を取得し、「今日の天気」が「晴れ」であれば、基準ID=「2−1」の「晴れだよ。」を選択する。天気情報サーバから取得した「今日の天気」が「曇り」であれば、基準ID=「2−2」の「曇りだよ。」を選択する。天気情報を取得できなければ、基準ID=「2−4」の「わからないよ。」を選択する。
応答生成部は、次に、図4に例示する付加フレーズテーブルを参照して、S201で選択した基準IDに対応付けられている(関連する)付加IDを選択する(S202)。例えば、基準フレーズテーブルでは、呼びかけID=「1」の呼びかけフレーズに、基準ID=「1−1」の基準フレーズが対応付けられている。そして、付加フレーズテーブルにおいて、関連する基準ID=「1−1」である付加フレーズの付加IDは、「1」および「2」である。従って、応答生成部は、先ず、付加ID=「1」の付加フレーズについて、付加条件が満たされているかを確認する(S203)。付加ID=「1」の付加フレーズの付加条件が満たされているのを確認できた場合(S203でYes)、付加ID=「1」の付加フレーズを、基準ID=「1−1」の基準フレーズに付加する(S204)。例えば、端末1およびサーバ2の少なくとも一方が、マイク17から取得したユーザの呼びかけ音声に基づき、該ユーザの感情(楽しい、悲しい等)に係る情報を取得できた場合、応答生成部は、付加ID=「1」の付加条件である「ユーザの感情が楽しい」が満たされているかを確認する。そして、ユーザの呼びかけ音声に基づいて「ユーザの感情が楽しい」であることを確認できた場合、応答生成部は、付加ID=「1」の付加フレーズである「今日もいいことあるといいね。」を、基準ID=「1−1」の基準フレーズに付加する。なお、ユーザの音声に基づいて該ユーザの感情を推定する技術そのものは従来技術を用いて可能であるので、説明を省略する。付加ID=「1」の付加フレーズの付加条件が満たされているのを確認できない場合(S203でNo)、付加ID=「1」の付加フレーズを基準ID=「1−1」の基準フレーズに付加せず、S205に遷移する。
応答生成部は、次に、付加フレーズテーブルを参照して、上記基準IDに対応する(関連する)、他の付加IDが無いか確認する(S205)。つまり、応答生成部は、「関連する基準ID」がS201で選択した基準IDである付加IDであって、付加条件が満たされているかを未だ確認していない付加IDが無いか、を確認する。付加条件が満たされているかを未確認の付加IDがある場合(S205でNo)、S202に戻って、付加条件が満たされているかを未確認の付加IDを選択し(S202)、S203以降の処理を繰り返す。例えば、図4に例示する付加フレーズテーブルにおいて、関連する基準IDが「2−1」である付加IDは、「3」、「4」、「5」である。S201で基準ID=「2−1」を選択し、付加ID=「3」の付加条件は既に確認済み、付加ID=「4」、「5」の付加条件は未確認であれば、応答生成部は、次に、付加ID=「4」の付加条件が満たされているかを確認する。付加条件が満たされているかを確認していない付加IDがない場合(S205でYes)、S206へ遷移する。例えば、呼びかけID=「3」の呼びかけフレーズに対し、基準ID=「3−3」の基準フレーズを選択した場合、応答生成部は、該基準フレーズに付加する付加フレーズを以下のように選択する。すなわち、関連する基準IDが「3−3」である付加ID=「8」の付加条件である、「今日=土用の丑の日」との付加条件が満たされるかを確認するため、応答生成部は、先ず、今日の日付を取得する。そして、今日の日付が「土曜の丑の日」でない場合、応答生成部は、S204の処理は実行しない。また、S205で、関連する基準IDが「3−3」であって、関連する基準IDが「3−3」であるその他の付加IDもないため、付加フレーズは選択されず、つまり、「付加フレーズなし」となる。なお、S205でループすることにより応答生成部はS204の処理を複数回実行する可能性があるが、応答生成部は、ループの都度、基準フレーズに付加する付加フレーズを上書きするのではなく、基準フレーズに付加する付加フレーズを追加する。例えば、基準ID=「2−1」の基準フレーズを選択し、付加ID=「3」の付加条件が満たされているのを確認の後、付加ID=「4」の付加条件が満たされているのを確認すると、応答生成部は以下の処理を実行する。すなわち、付加ID=「3」の付加条件が満たされているのを確認して生成した「晴れだよ。高気圧に覆われているからね。」との候補フレーズに、「最高気温は○○度になるよ。」との付加フレーズを付加し、「晴れだよ。高気圧に覆われているからね。最高気温は○○度になるよ。」との候補フレーズを生成する。また、上記説明では、応答生成部は、付加条件を未確認の付加IDがなくなるまでS205の判定を繰り返しているが、付加条件が満たされているかの確認を行った付加フレーズが所定数以上になると、S205の判定をせずにS206に遷移するとしてもよい。また、基準フレーズに付加する付加フレーズが所定数以上になると、S205の判定をせずにS206に遷移するとしてもよい。
応答生成部は、S201で選択した基準フレーズに対しS204で付加フレーズを付加して生成した候補フレーズを、候補取得部141または第2通信部21に通知する候補フレーズとして確定した後、該候補フレーズに応答レベルを付与する(S206)。すなわち、上記候補フレーズが付加フレーズを含む場合は応答レベルを「1」とし、付加フレーズを含まない場合は応答レベルを「0」とする。例えば、基準フレーズが「晴れだよ。」であり、該基準フレーズに関連する付加フレーズであって、付加条件を満たす付加フレーズが「最高気温は○○度になるよ。」である場合、応答生成部は、「晴れだよ。最高気温は○○度になるよ。」との候補フレーズを生成し、該候補フレーズの応答レベルを「1」とする。他方、基準フレーズが「晴れだよ。」であり、該基準フレーズに関連する付加フレーズであって、付加条件を満たす付加フレーズがない場合、応答生成部は、「晴れだよ。」との候補フレーズを生成し、応答レベルを「0」とする。
(Response Generation Processing) FIG. 6 is a diagram showing the flow of response generation processing executed by the first
Next, the response generation unit refers to the additional phrase table illustrated in FIG. 4 and selects an additional ID associated with (related to) the reference ID selected in S201 (S202). For example, in the reference phrase table, a reference phrase with reference ID = “1-1” is associated with a call phrase with call ID = “1”. In the additional phrase table, the additional IDs of the additional phrases with the related reference ID = “1-1” are “1” and “2”. Therefore, the response generation unit first confirms whether the additional condition is satisfied for the additional phrase of the additional ID = “1” (S203). When it can be confirmed that the additional condition of the additional phrase of additional ID = “1” is satisfied (Yes in S203), the additional phrase of additional ID = “1” is changed to the reference of reference ID = “1-1”. It is added to the phrase (S204). For example, when at least one of the
Next, the response generation unit refers to the additional phrase table and confirms whether there is another additional ID corresponding to (related to) the above-mentioned reference ID (S205). That is, the response generation unit confirms whether there is an additional ID whose “related reference ID” is the reference ID selected in S201 and for which an additional condition has not been confirmed yet. . If there is an additional ID that has not been confirmed whether the additional condition is satisfied (No in S205), the process returns to S202, selects an additional ID that has not been confirmed whether the additional condition is satisfied (S202), and performs the processing after S203. repeat. For example, in the additional phrase table illustrated in FIG. 4, the additional IDs whose related reference ID is “2-1” are “3”, “4”, and “5”. If the reference ID = “2-1” is selected in S201, the additional condition of the additional ID = “3” has already been confirmed, and the additional conditions of the additional ID = “4” and “5” have not been confirmed, the response generation unit Next, it is confirmed whether or not the additional condition of additional ID = “4” is satisfied. If there is no additional ID for which it is not confirmed whether the additional condition is satisfied (Yes in S205), the process proceeds to S206. For example, when a reference phrase with reference ID = “3-3” is selected for a call phrase with call ID = “3”, the response generation unit selects an additional phrase to be added to the reference phrase as follows. . That is, in order to confirm whether or not the additional condition “Today = Town Day of Saddle”, which is the additional condition of the additional ID = “8” with the related reference ID “3-3”, is satisfied, the response generation unit First, get today's date. If today's date is not “Saturday Day”, the response generation unit does not execute the process of S204. In S205, since there is no other additional ID having the related reference ID “3-3” and the related reference ID “3-3”, the additional phrase is not selected. "No phrase". Although the response generation unit may execute the process of S204 multiple times by looping in S205, the response generation unit does not overwrite the additional phrase to be added to the reference phrase each time the loop is performed. Add an additional phrase to be added to the phrase. For example, after selecting the reference phrase of reference ID = “2-1” and confirming that the additional condition of additional ID = “3” is satisfied, the additional condition of additional ID = “4” is satisfied. If it is confirmed, the response generation unit executes the following processing. That is, a candidate phrase “Sunny, because it is covered with high pressure” generated by confirming that the additional condition of additional ID = “3” is satisfied is “the highest temperature is XX Add an additional phrase, "It's a degree." And generate a candidate phrase, "It's sunny. It's covered with high pressure. The maximum temperature is XX degrees." Further, in the above description, the response generation unit repeats the determination in S205 until there is no additional ID for which the additional condition has not been confirmed. However, when the number of additional phrases that have confirmed whether the additional condition is satisfied exceeds a predetermined number. The process may transition to S206 without making the determination of S205. Further, when the number of additional phrases to be added to the reference phrase exceeds a predetermined number, the process may proceed to S206 without performing the determination of S205.
The response generation unit confirms the candidate phrase generated by adding the additional phrase in S204 to the reference phrase selected in S201 as the candidate phrase to be notified to the
なお、上記の説明で応答生成部は、基準フレーズを決定した後、付加フレーズを決定したが、応答生成処理の手順はこれに限られるものではない。例えば、以下の順序で処理を実行してもよい。すなわち、先ず、基準フレーズテーブルを参照して、呼びかけフレーズに対応する何れかの基準IDを取得する。その後、付加フレーズテーブルを参照して、取得した上記基準IDに対応する(関連する)付加IDの付加条件を確認する。上記付加条件が満たされていると判定した場合、取得した基準IDの基準フレーズを選択する基準フレーズとして確定する。付加条件が満たされていることを確認できない場合、基準フレーズテーブルを参照して、呼びかけフレーズに対応する別の基準IDを取得し、同様に該基準IDに対応する付加IDの付加条件が満たされているかを確認していく。例えば、基準フレーズテーブルを参照して、呼びかけID=「3」の「今日の晩御飯は何にしよう?」に対し、先ず、基準ID=「3−1」を取得する。次に、付加フレーズテーブルを参照して、基準ID=「3−1」に対応付けられている付加ID=「6」を取得する。付加ID=「6」の付加条件である「気温<10度」が満たされているのを確認すると、基準ID=「3−1」の基準フレーズを選択する基準フレーズとして確定し、同時に、付加ID=「6」の付加フレーズを選択する付加フレーズとして確定する。他方、付加ID=「6」の付加条件が満たされていないことを確認した場合、基準ID=「3−1」の基準フレーズ、および付加ID=「6」の付加フレーズ以外の、基準フレーズおよび付加フレーズの組合せについて、選択の可否を判定する。すなわち、基準フレーズテーブルを参照して、呼びかけID=「3」に対応する、基準ID=「3−1」の次の基準IDである基準ID=「3−2」を取得し、先ほど同様、付加フレーズテーブルを参照して基準ID=「3−2」に対応する付加IDの付加条件が満たされているかを確認する。なお、付加ID=「6」の付加条件が満たされていないことを確認した場合に加え、付加ID=「6」の付加条件が満たされていることを確認できない場合も、基準ID=「3−2」を取得する。
また、上記の説明で応答生成部は、基準フレーズテーブルおよび付加フレーズテーブルにおいて選択しうる基準フレーズおよび付加フレーズが複数ある場合、基準IDおよび付加IDが小さい順に選択するか否かを決定する。例えば、基準ID=「1−1」の基準フレーズに付加し得る付加フレーズの付加IDが「1」と「2」とである場合、応答生成部は、先ず、付加ID=「1」の付加条件を確認し、次に、付加ID=「2」の付加条件を確認する。しかしながら、基準IDおよび付加IDが小さい順に選択するか否かを決定することは必須ではなく、大きい順に決定してもよいし、任意の順序で決定してよい。さらに、上記の説明では応答生成部が候補フレーズに応答レベルを付与するが、候補フレーズに応答レベルを付与するのは応答生成部でなくともよい。例えば、応答選択部142が、候補取得部141から通知される候補フレーズ(A)および(B)を解析することによって、各候補レベルに応答レベルを付与してもよい。そして、応答選択部142は付与した応答レベルが高い方の候補フレーズを選択フレーズとして選択するとしてもよい。具体的には、応答選択部142が(例えば、S211で)各候補フレーズに対し応答レベルを付与した後、応答レベルの高い候補フレーズを選択フレーズとして選択してもよい。
In the above description, the response generation unit determines the additional phrase after determining the reference phrase, but the procedure of the response generation process is not limited to this. For example, the processing may be executed in the following order. That is, first, with reference to the reference phrase table, any reference ID corresponding to the calling phrase is acquired. Thereafter, with reference to the additional phrase table, the additional condition of the additional ID corresponding to (related to) the acquired reference ID is confirmed. When it determines with the said additional conditions being satisfy | filled, it determines as a reference | standard phrase which selects the reference | standard phrase of the acquired reference | standard ID. If it cannot be confirmed that the additional condition is satisfied, the reference phrase table is referred to obtain another reference ID corresponding to the calling phrase, and the additional condition of the additional ID corresponding to the reference ID is also satisfied. I will check if it is. For example, with reference to the reference phrase table, first, reference ID = “3-1” is acquired for “What should we have today's dinner?” With call ID = “3”. Next, with reference to the additional phrase table, the additional ID = “6” associated with the reference ID = “3-1” is acquired. When it is confirmed that the additional condition of “addition ID =“ 6 ”,“ temperature <10 ° C. ”is satisfied, the reference phrase of reference ID =“ 3-1 ”is determined as a reference phrase to be selected and added at the same time. The additional phrase with ID = “6” is determined as the additional phrase to be selected. On the other hand, if it is confirmed that the additional condition of the additional ID = “6” is not satisfied, the reference phrase other than the reference phrase of the reference ID = “3-1” and the additional phrase of the additional ID = “6” Whether or not the combination of additional phrases can be selected is determined. That is, referring to the reference phrase table, the reference ID = “3-2”, which is the next reference ID of the reference ID = “3-1”, corresponding to the call ID = “3” is acquired. With reference to the additional phrase table, it is confirmed whether the additional condition of the additional ID corresponding to the reference ID = “3-2” is satisfied. In addition to confirming that the additional condition of additional ID = “6” is not satisfied, reference ID = “3” is also used when it is not possible to confirm that the additional condition of additional ID = “6” is satisfied. -2 ".
In the above description, when there are a plurality of reference phrases and additional phrases that can be selected in the reference phrase table and the additional phrase table, the response generation unit determines whether or not to select the reference ID and the additional ID in ascending order. For example, when the additional IDs of the additional phrases that can be added to the reference phrase of the reference ID = “1-1” are “1” and “2”, the response generation unit first adds the additional ID = “1”. Confirm the conditions, and then confirm the additional condition of additional ID = “2”. However, it is not essential to determine whether or not the reference ID and the additional ID are selected in ascending order, and may be determined in ascending order or in an arbitrary order. Furthermore, in the above description, the response generation unit gives a response level to the candidate phrase, but the response generation unit may not give the response level to the candidate phrase. For example, the
(応答選択処理)図7は、応答選択部(第1応答生成部13および第2応答生成部22)が行う応答選択処理を説明する図である。応答選択部142は、端末1が生成した候補フレーズ(A)と、サーバ2が生成した候補フレーズ(B)とから、応答レベルの高い候補フレーズをユーザへ出力するための選択フレーズとして選択する(S211)。つまり、応答選択部142は、候補フレーズ(A)と候補フレーズ(B)とから、付加フレーズを含む候補フレーズを、選択フレーズとして選択する。従って、端末1が生成した候補フレーズ(A)と、サーバ2が生成した候補フレーズ(B)とから、付加フレーズの有無によって、出力すべき選択フレーズを選択することによって、ユーザの呼びかけに対する直接的な応答だけでなく、付加的な応答も出力できる。なお、候補フレーズ(A)の応答レベルと候補フレーズ(B)の応答レベルとが等しい場合、いずれの候補フレーズを選択してもよい。「候補フレーズ(A)と(B)とで応答レベルが等しい場合、候補フレーズ(A)を選択する」と予め決めておいてもよいし、逆に「候補フレーズ(B)を選択する」としてもよい。さらに、「候補フレーズ(A)と(B)とで応答レベルが等しい場合には、時間的に一番先に取得した候補フレーズを選択する」としてもよいし、逆に「時間的に一番後に取得した候補フレーズを選択する」としてもよい。
(Response Selection Process) FIG. 7 is a diagram for explaining the response selection process performed by the response selection unit (the first
音声に対する応答を制御する応答制御装置である端末1の処理の流れは以下のように整理できる。すなわち、第1応答生成部13および第2応答生成部22(複数の応答生成手段)のそれぞれによって、音声に基づいて生成された複数の候補フレーズを取得するS105(候補フレーズ取得ステップ)と、S105において応答選択部142が取得した上記複数の候補フレーズから、該複数の候補フレーズのそれぞれが有する応答レベル(情報の重要度)が最も高い候補フレーズを、選択フレーズ(応答フレーズ)として選択するS106またはS211(選択ステップ)とを含む。音声を取得すると該音声に対する応答を音声または文字画像として出力する音声応答システム100は、端末1およびサーバ2の双方の音声処理を利用し、出力する応答フレーズに対するユーザの期待度を最大化する。具体的には、端末1は、端末1とサーバ2とに並行して応答生成処理を実行させることにより、端末での処理の後にサーバでの処理を実行するような従来の音声処理に比べ、呼びかけ音声取得から応答までの待ち時間を短縮できる。また、端末1は、上記複数の候補フレーズから、情報の重要度が最も高い候補フレーズを、選択フレーズとして選択し、該選択フレーズを出力できる。
The process flow of the
〔実施形態2〕
以下、本発明の他の実施形態について、図1、8および9に基づき説明する。なお、上述した各実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し説明を省略する。本実施の形態に係る携帯端末1A(以下、端末1Aと略記する)の概要を説明しておけば、以下の通りである。すなわち、端末1Aは、第1記憶部18に、各付加フレーズに付加ポイントが対応付けられている第1付加フレーズテーブル182Aを格納している。また、端末1Aの応答選択部142A(選択手段)は、候補フレーズに含まれる付加フレーズに設定された上記付加ポイントの合計値を、当該候補フレーズの応答レベル(情報の重要度)とする。端末1が、付加フレーズの有無に応じて、候補フレーズに応答レベルを付与したのに対し、端末1Aは、候補フレーズに含まれる付加フレーズに設定されている付加ポイントに応じて、候補フレーズに応答レベルを付与する。それ以外の点では、端末1Aの基本的な構成は、端末1の構成と同様である。端末1Aは、複数の候補フレーズから、各候補フレーズに含まれる付加フレーズの付加ポイントの合計値によって、出力すべき選択フレーズを選択することにより、情報の重要度の高い候補フレーズを出力できる。サーバ2Aは、第2記憶部24に、各付加フレーズに付加ポイントが対応付けられている第2付加フレーズテーブル242Aを格納している。それ以外の点では、サーバ2Aの基本的な構成は、サーバ2の構成と同様である。図1は、端末1およびサーバ2の要部構成を示すブロック図であるとともに、端末1と同様の構成を備える端末1A、および、サーバ2と同様の構成を備えるサーバ2Aの要部構成を示す。以下、さらに詳細を説明する。なお以下では、第1応答生成部13Aと第2応答生成部22Aとを区別する必要がない場合、両者を併せて「応答生成部」と呼ぶ。同様に、第1付加フレーズテーブル182Aと第2付加フレーズテーブル242Aとを「付加フレーズテーブル」と呼ぶ。また、以下では応答生成部が応答レベルを付与する例を説明するが、応答レベルは、応答選択部142Aが候補フレーズに含まれる付加フレーズの付加ポイントを合計することによって、該候補フレーズに付与してもよい。応答選択部142Aが、候補フレーズに含まれる付加フレーズに設定された付加ポイントの合計値を該候補フレーズの応答レベルとして、該応答レベルが最も高い候補フレーズを選択フレーズとして選択できさえすればよく、応答レベルの付与はどこで行ってもよい。端末1Aは、候補フレーズに含まれる付加フレーズの付加ポイント、つまり該付加フレーズが有する情報の重要度により、出力すべき選択フレーズを選択する。従って、端末1Aは、複数の候補フレーズから、情報の重要度が最も高い候補フレーズを出力できる。
[Embodiment 2]
Hereinafter, another embodiment of the present invention will be described with reference to FIGS. In addition, about the member which has the same function as the member demonstrated in each embodiment mentioned above, the same code | symbol is attached and description is abbreviate | omitted. The outline of
図8は、端末1Aに格納されている第1付加フレーズテーブル182Aおよびサーバ2Aに格納されている第2付加フレーズテーブル242Aの例を示す図である。第1付加フレーズテーブル182Aおよび第2付加フレーズテーブル242Aにおいて、付加フレーズには付加ポイントが設定されている。「付加ポイント」とは、各付加IDに設定されているポイントであり、各付加フレーズが有する情報の重要度を示す。本実施の形態において、各候補フレーズの応答レベルは、各候補フレーズに含まれる付加フレーズに設定された付加ポイントの合計値である。従って、付加フレーズの付加されていない、基準フレーズのみの候補フレーズの応答レベルは「0」である。応答生成部は、基準フレーズに付加フレーズを付加する都度、該基準フレーズを含む候補フレーズの応答レベルに、付加した付加フレーズに設定されている付加ポイントを加算していく。なお、付加ポイントは、全付加フレーズで同じでもよいし、付加フレーズ毎に異なってもよい。全付加フレーズの付加ポイントが同じ場合、応答生成部または応答選択部142Aは、候補フレーズに含まれる付加フレーズの個数に応じて該候補フレーズの応答レベルを設定する。付加ID毎に付加ポイントが異なる場合、応答生成部または応答選択部142Aは、候補フレーズが含む付加フレーズの個数に、各付加フレーズの付加ポイントによる重み付けをして、該候補フレーズの応答レベルを決定する。例えば、図示の付加フレーズテーブルにおいて、付加ID=「8」の付加フレーズの付加ポイント=「2」は、付加ID=「7」の付加フレーズの付加ポイント=「1」より大きい。付加ID=「7」の付加フレーズの付加条件が「気温>30度」であり、付加ID=「8」の付加フレーズの付加条件は「今日=土用の丑の日」である。付加ID=「8」の付加条件は、「今日というその日」についての条件であり、付加ID=「7」の付加条件である「気温」についての条件よりも条件として限定的であり、付加ID=「8」の方が、付加ID=「7」より付加ポイントがより高い。このように、付加条件の満たし難さに応じて、付加ポイントが設定されてもよい。
FIG. 8 is a diagram illustrating an example of the first additional phrase table 182A stored in the
図9は、端末1Aおよびサーバ2Aの応答生成処理の流れを示すシーケンス図である。図9の応答生成処理は、図6の応答生成処理と比べて、S204とS205との間に、S301の処理が追加されている点が異なる。すなわち、S301において応答生成部は、S204において基準フレーズに付加した付加フレーズ(付加ID)の付加ポイントを、応答レベルに加算する。また、図9の応答生成処理は、図6の応答生成処理におけるS206に代えて、S306の処理を含む。すなわち、S306において応答生成部は、S201で選択した基準フレーズに対しS204で付加フレーズを付加して生成した候補フレーズを、候補取得部141Aまたは第2通信部21に通知する候補フレーズとして確定する。また応答生成部は、該候補フレーズに含まれる付加フレーズの付加ポイントの合計値を、該候補フレーズの応答レベルとして確定する。そして応答生成部は、確定した候補フレーズおよび該候補フレーズの応答レベルを候補取得部141Aまたは第2通信部21に通知する。候補取得部141Aは、第1応答生成部13Aが生成した候補フレーズ(A)および該候補フレーズ(A)の応答レベルと、第2応答生成部22Aが生成した候補フレーズ(B)および該候補フレーズ(B)の応答レベルとを、第1応答生成部13Aおよび第1通信部11から取得する。そして候補取得部141Aは、それらを応答選択部142に通知する。応答選択部142は、候補フレーズ(A)および(B)のそれぞれについて、候補フレーズ(A)および(B)のそれぞれに含まれる付加フレーズに設定された付加ポイントの合計値を、候補フレーズ(A)および(B)のそれぞれの応答レベル(重要度)として、該応答レベルの高い方の候補フレーズを、選択フレーズとして選択する。図8に例示する付加フレーズテーブルにおいて、付加ID=「4」の「最高気温は○○度になるよ。」との付加フレーズの付加ポイントは「1」である。また、付加ID=「5」の「降水確率は○○%だよ。」との付加フレーズの付加ポイントは「1」である。従って、呼びかけID=「2」の呼びかけフレーズに対して、第1応答生成部13Aが「晴れだよ。最高気温は○○度になるよ。」との候補フレーズ(A)を生成する場合、該候補フレーズ(A)の応答レベルは「1」である。他方、第2応答生成部22Aが「晴れだよ。最高気温は○○度になるよ。降水確率は○○%だよ。」という候補フレーズ(B)を生成する場合、該候補フレーズ(B)の応答レベルは「2」である。候補取得部141Aは、候補フレーズ(B)の応答レベル=2が、候補フレーズ(A)の応答レベル=1よりも大きいため、候補フレーズ(B)を、出力すべき選択フレーズとして選択する。
FIG. 9 is a sequence diagram showing a flow of response generation processing of the terminal 1A and the server 2A. 9 differs from the response generation process of FIG. 6 in that the process of S301 is added between S204 and S205. That is, in S301, the response generation unit adds the additional point of the additional phrase (addition ID) added to the reference phrase in S204 to the response level. 9 includes the process of S306 instead of S206 in the response generation process of FIG. That is, in S306, the response generation unit determines the candidate phrase generated by adding the additional phrase in S204 to the reference phrase selected in S201 as the candidate phrase to be notified to the
〔実施形態3〕
以下、本発明の他の実施形態について、図10〜13に基づき説明する。なお、上述した各実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し説明を省略する。図10は、本実施の形態に係る応答制御装置である携帯端末3(以下、端末3と略記する)を含む音声応答システム300の要部構成を示すブロック図である。端末3の概要を説明しておけば、以下の通りである。すなわち、端末3は、第1記憶部18に、各付加フレーズにカテゴリが設定されている第1付加フレーズテーブル183を格納している。また、端末3は、応答選択部142A(選択手段)によって選択されなかった候補フレーズであって、応答選択部142Aによって選択された選択フレーズ(応答フレーズ)に含まれる基準フレーズと同内容の基準フレーズを含む候補フレーズが、上記選択フレーズに含まれる付加フレーズに設定されたカテゴリとは異なるカテゴリが設定された付加フレーズを含む場合、該付加フレーズを、上記選択フレーズに付加するフレーズ追加部341(フレーズ追加手段)を備える。なお、第1付加フレーズテーブル183と第2付加フレーズテーブル243とを区別する必要がない場合、両者を併せて「付加フレーズテーブル」と呼ぶ。端末3は、応答選択部142Aによって選択フレーズとして選択されなかった候補フレーズに含まれる付加フレーズを、該選択フレーズに付加することができる。従って、端末3は、単一の応答生成処理のみでは生成できないフレーズを、例えば、第1応答生成部13Aまたは第2応答生成部22Aのみでは生成できないフレーズを、出力できる。また、以下では応答生成部が応答レベルを付与する例を説明するが、応答レベルは、応答選択部142Aが候補フレーズに含まれる付加フレーズの付加ポイントを合計して、該候補フレーズに付与してもよい。
[Embodiment 3]
Hereinafter, other embodiment of this invention is described based on FIGS. In addition, about the member which has the same function as the member demonstrated in each embodiment mentioned above, the same code | symbol is attached and description is abbreviate | omitted. FIG. 10 is a block diagram showing a main configuration of
図11は、端末3および音声処理サーバ2に格納されている付加フレーズテーブルの例を示す図である。図示のように、付加フレーズテーブルにおいて、各付加フレーズにはカテゴリが対応付けられている。カテゴリは、付加フレーズがどのような付加情報に関するかを示す。例えば、図11の付加フレーズテーブルにおいて、付加ID=「1」の「今日もいいことあるといいね。」のカテゴリは「感情」である。これは、「今日もいいことあるといいね。」との付加フレーズは、「感情」という付加情報に関することを示す。
FIG. 11 is a diagram illustrating an example of an additional phrase table stored in the
次に、端末3の実行する処理の流れを図12・13を用いて説明する。図12は、端末3および音声処理サーバ2の応答生成処理の流れを示すシーケンス図である。端末3および音声処理サーバ2の応答生成部は、候補フレーズを生成して該候補フレーズに対し応答レベルを付与するのに加えて、該候補フレーズのカテゴリを決定する。図12の応答生成処理は、図9の応答生成処理におけるS306に代えて、S406の処理を含む。すなわち、S406において応答生成部は、S201において決定した基準フレーズと、S204において決定した付加フレーズとから候補フレーズを生成する。S406において応答生成部は、S201で選択した基準フレーズに対しS204で付加フレーズを付加して生成した候補フレーズを、候補取得部141Aまたは第2通信部21に通知する候補フレーズとして確定する。応答生成部は、上記候補フレーズに含まれる付加フレーズの付加ポイントの合計値を、該候補フレーズの応答レベルとして確定する。さらに応答生成部は、上記候補フレーズに含まれる付加フレーズのカテゴリを、該候補フレーズのカテゴリとして確定する。例えば、S201で「晴れだよ。」を基準フレーズとして選択し、S204で「最高気温は○○度になるよ。」を付加フレーズとして選択した場合、応答生成部は、「晴れだよ。最高気温は○○度になるよ。」との候補フレーズを生成する。そして、S406において応答生成部は、「晴れだよ。最高気温は○○度になるよ。」との候補フレーズのカテゴリを、「最高気温は○○度になるよ。」との付加フレーズのカテゴリである「最高気温」に確定する。同様に、「晴れだよ。最高気温は○○度になるよ。降水確率は○○%だよ。」との候補フレーズを生成した場合、応答生成部は、該候補フレーズのカテゴリを、「最高気温」と「降水確率」とに確定する。つまり、第1応答生成部13Aが「晴れだよ。高気圧に覆われているからね。降水確率は○○%だよ。」との候補フレーズ(A)を生成した場合、該候補フレーズ(A)の応答レベルは「2」、カテゴリは「天気理由、降水確率」である。第2応答生成部22Aが「晴れだよ。最高気温は○○度になるよ。」との候補フレーズ(B)を生成した場合、該候補フレーズ(B)の応答レベルは「1」、カテゴリは「最高気温」である。応答生成部は、確定した候補フレーズ、該候補フレーズの応答レベルおよびカテゴリを候補取得部141Aまたは第2通信部21に通知する。
Next, the flow of processing executed by the
図13は端末3の応答選択処理の流れを示すシーケンス図である。応答選択部142Aは、応答レベル、つまり付加ポイントの合計値の高い候補フレーズを、選択フレーズとして選択する(S411)。例えば、応答レベル=「2」である「晴れだよ。高気圧に覆われているからね。降水確率は○○%だよ。」との候補フレーズ(A)と、応答レベル=「1」である「晴れだよ。最高気温は○○度になるよ。」との候補フレーズ(B)とを取得すると、応答選択部142Aは候補フレーズ(A)を選択フレーズとして選択する。応答選択部142Aは、候補フレーズ(A)と候補フレーズ(B)とを、どちらの候補フレーズを選択フレーズとして選択したかの情報と一緒に、フレーズ追加部341に通知する。
フレーズ追加部341は、選択フレーズとして選択されなかった候補フレーズであって、選択フレーズとして選択された候補フレーズ(A)に含まれる基準フレーズ(A−0)と同内容の基準フレーズを含む候補フレーズがあるか確認する(S412)。具体的には、フレーズ追加部341は、先ず、選択フレーズとして選択された候補フレーズ(A)に含まれる基準フレーズ(A−0)を抽出する。次に、選択フレーズとして選択されなかった候補フレーズ(B)の基準フレーズ(B−0)を抽出する。そして、フレーズ追加部341は、基準フレーズ(A−0)と基準フレーズ(B−0)とが一致するか(同内容か)を判定する。なお、基準フレーズ(A−0)と基準フレーズ(B−0)とが一致するかの判定は、「一言一句同じか」という判定ではなく、該2つの基準フレーズが特定の語を含むか否かという判定でもよい。つまり、例えば、基準フレーズ(A−0)と基準フレーズ(B−0)とが同じ「晴れ」という語を含む場合には、基準フレーズ(A−0)と基準フレーズ(B−0)とは一致していると判定してもよい。例えば、「晴れだよ。高気圧に覆われているからね。降水確率は○○%だよ。」との候補フレーズ(A)の基準フレーズ(A−0)=「晴れだよ。」と、「晴れだよ。最高気温は○○度になるよ。」との候補フレーズ(B)の基準フレーズ(B−0)=「晴れだよ。」とが同内容であるかを判定する。基準フレーズ(A−0)と同内容の基準フレーズを含む、候補フレーズ(A)以外の候補フレーズがある場合(S412でYes)、フレーズ追加部341は、選択フレーズとして選択されなかった候補フレーズであって、基準フレーズ(A−0)と同内容の基準フレーズを含む候補フレーズ(B)を取得する(S413)。例えば、基準フレーズ(A−0)=「晴れだよ。」と、基準フレーズ(B−0)=「晴れだよ。」とが同内容であると判定すると、フレーズ追加部341は、「晴れだよ。最高気温は○○度になるよ。」との候補フレーズ(B)を取得する。基準フレーズ(A−0)と同内容の基準フレーズを含む、候補フレーズ(A)以外の候補フレーズがない場合(S412でNo)、フレーズ追加部341は新たな付加フレーズを候補フレーズ(A)には追加せず、処理を終了する。例えば、選択フレーズとして選択しなかった候補フレーズに含まれる基準フレーズ(B−0)が「雨だよ。」であり、選択フレーズとして選択した候補フレーズに含まれる基準フレーズ(A−0)である「晴れだよ。」である場合、フレーズ追加部341は、基準フレーズ(A−0)と基準フレーズ(B−0)とは一致しないと判定し、処理を終了する。
フレーズ追加部341は、候補フレーズ(B)が、候補フレーズ(A)のカテゴリとは一致しないカテゴリを含むかを判定する(S414)。例えば、「晴れだよ。高気圧に覆われているからね。降水確率は○○%だよ。」との候補フレーズ(A)と、「晴れだよ。最高気温は○○度になるよ。」との候補フレーズ(B)とについて、フレーズ追加部341は、候補フレーズ(A)のカテゴリ=「天気理由、降水確率」と、候補フレーズ(B)のカテゴリ=「最高気温」とは一致しないと判定する。候補フレーズ(B)が候補フレーズ(A)のカテゴリとは一致しないカテゴリを含む場合(S414でYes)、フレーズ追加部341は、候補フレーズ(B)に含まれる付加フレーズであって、候補フレーズ(A)のカテゴリとは一致しないカテゴリに対応する付加フレーズ(B−1)を取得する(S415)。例えば、カテゴリ=「天気理由、降水確率」である「晴れだよ。高気圧に覆われているからね。降水確率は○○%だよ。」との候補フレーズ(A)と、カテゴリ=「最高気温」である「晴れだよ。最高気温は○○度になるよ。」との候補フレーズ(B)とを比較し、フレーズ追加部341は、先ず、候補フレーズ(B)は、候補フレーズ(A)と異なり、「最高気温」とのカテゴリを含むことを確認する。次に、フレーズ追加部341は、候補フレーズ(B)から、カテゴリ=「最高気温」に対応する付加フレーズ=「最高気温は○○度になるよ。」を抽出し取得する。フレーズ追加部341は、付加フレーズ(B−1)を候補フレーズ(A)に付加する(S416)。例えば、フレーズ追加部341は、付加フレーズ=「最高気温は○○度になるよ。」を、「晴れだよ。高気圧に覆われているからね。降水確率は○○%だよ。」との候補フレーズ(A)に付加し、「晴れだよ。高気圧に覆われているからね。降水確率は○○%だよ。最高気温は○○になるよ。」とのフレーズを生成する。そして、フレーズ追加部341は、「晴れだよ。高気圧に覆われているからね。降水確率は○○%だよ。最高気温は○○になるよ。」とのフレーズを、選択結果出力部143Aに通知する。候補フレーズ(B)が候補フレーズ(A)のカテゴリとは一致しないカテゴリを含まない場合(S414でNo)、フレーズ追加部341は新たな付加フレーズを候補フレーズ(A)には追加せず、処理を終了する。
FIG. 13 is a sequence diagram showing the flow of response selection processing of the
The
The
端末3は、各候補フレーズのカテゴリに基づき、選択フレーズとして選択した候補フレーズに新たな付加フレーズを付加して出力する。例えば、第1応答生成部13Aで生成した候補フレーズ(A)に、第2応答生成部22Aで選択した付加フレーズ(B−1)を付加する。従って、端末3は、第1応答生成部13Aまたは第2応答生成部22Aのみでは生成できないフレーズを出力できる。なお、端末3は、或る候補フレーズを出力した後に別の候補フレーズを付加して出力できる。例えば、ネットワーク通信の遅延等でサーバ2からの応答が一定の閾値以上に遅延した場合など、既に先の応答を出力した後であっても、異なるカテゴリの付加フレーズが後の応答に含まれていた場合、先の応答に後の付加フレーズを付加できる。基本的な処理の手順は、図13に示した応答選択処理と同等である。すなわち、先ず、端末3は、出力しようとしている候補フレーズ(A)をいったん第1記憶部18に格納してから、候補フレーズ(A)を出力する。その後、未だ出力していない候補フレーズであって、既に出力した選択フレーズの基礎フレーズと同様の基礎フレーズを含む候補フレーズ(B)を取得すると、端末3は、該候補フレーズ(B)のカテゴリを、上記候補フレーズ(A)のカテゴリと比較する。そして、上記候補フレーズ(B)のカテゴリが、上記候補フレーズ(A)のカテゴリと異なる場合、端末3は、上記候補フレーズ(B)に含まれる付加フレーズであって、上記候補フレーズ(A)のカテゴリとは異なるカテゴリに対応する付加フレーズを取得し、出力する。つまり端末3は、既に出力した候補フレーズに対して新しい付加フレーズを追加したフレーズを出力できる。
The
〔実施形態4〕
端末1、1Aおよび3の制御ブロック(第1制御部10、30)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、端末1、1Aおよび3は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
[Embodiment 4]
The control blocks (
〔変形例〕
端末1、1Aおよび3は、複数の音声処理、特に応答生成処理を並行して実行させることにより、或る音声処理を実行し、または実行させようとしてから、別の音声処理を実行する場合に比べ、ユーザが音声を発してから応答が出力されるまでの時間を短縮できる。また、端末1、1Aおよび3は、並行して生成させた複数の候補フレーズから、情報の重要性(応答レベル)の最も高い候補フレーズを選択し、出力する。つまり、端末1、1Aおよび3にとって、候補取得部141・141Aが複数の候補フレーズを取得でき、応答選択部142・142Aが該複数の候補フレーズから、該複数の候補フレーズのそれぞれが有する情報の重要度が最も高い候補フレーズを、選択フレーズとして選択できればよく、その他の構成は必須ではない。上述の端末1、1Aおよび3が第1応答生成部13・13Aを備え、サーバ2・2Aが第2応答生成部22・22Aを備える例を説明したが、この構成は必須ではない。例えば、端末1は第1応答生成部13を備えず、サーバ2が第1応答生成部13および第2応答生成部22を備えてもよく、逆に、サーバ2は第2応答生成部22を備えず、端末1が第1応答生成部13および第2応答生成部22を備えてもよい。さらに、候補取得部141・141Aが取得する候補フレーズが2つであることも必須ではなく、例えば、3つ以上の候補フレーズを取得してもよい。同様に、応答選択部142・142Aは3つ以上の候補フレーズから、情報の重要度が最も高い候補フレーズを選択フレーズとして選択してもよい。また、端末1の音声認識部12が音声認識処理を実行することも必須ではなく、サーバ2が第2の音声認識部を備え、マイク17からの音声データを端末1がサーバ2に送信して、端末1とサーバ2とがそれぞれ並行して音声認識処理を実行してもよい。端末1の代わりにサーバ2が音声認識部12を備え、マイク17からの音声データに対してサーバ2の音声認識部12が音声認識処理と、応答生成処理のリクエストとを行ってもよい。さらに、端末1の音声合成部15が音声合成処理を実行することも必須ではなく、サーバ2が音声合成部15を備え、選択結果出力部143・143Aから取得する選択フレーズに基づいて、スピーカ192に出力させる音声データを生成してもよい。なお、一般にサーバは、端末に比べ、高い処理能力を備え、豊富な語彙を利用でき、音声認識の認識精度および応答生成の対応可能数が高い。通常、サーバは端末よりも巨大な音響モデル辞書、言語モデル辞書等を有し、音声認識の処理能力が高く、また、数多くの対話応答シナリオに対応でき、さらに、膨大な音素データを持ちクリアな音声を出力する。
[Modification]
When the
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。 The present invention is not limited to the above-described embodiments, and various modifications are possible within the scope shown in the claims, and embodiments obtained by appropriately combining technical means disclosed in different embodiments. Is also included in the technical scope of the present invention. Furthermore, a new technical feature can be formed by combining the technical means disclosed in each embodiment.
本発明は、音声に対する応答を制御する応答制御装置に広く利用することができる。 The present invention can be widely used in response control devices that control responses to voice.
1・1A・3 携帯端末(応答制御装置),13・13A 第1応答生成部(応答生成手段),22・22A 第2応答生成部(応答生成手段),141・141A 候補取得部(候補フレーズ取得手段),142・142A 応答選択部(選択手段),341 フレーズ追加部(フレーズ追加手段) 1 · 1A · 3 mobile terminal (response control device), 13 · 13A first response generator (response generator), 22 · 22A second response generator (response generator), 141 · 141A candidate acquisition unit (candidate phrase) Acquiring means), 142 / 142A Response selecting section (selecting means), 341 Phrase adding section (phrase adding means)
Claims (5)
複数の応答生成手段のそれぞれによって、上記音声に基づいて生成された複数の候補フレーズを取得する候補フレーズ取得手段と、
上記候補フレーズ取得手段が取得した上記複数の候補フレーズから、該複数の候補フレーズのそれぞれが有する情報の重要度が最も高い候補フレーズを、応答フレーズとして選択する選択手段とを備えることを特徴とする応答制御装置。 A response control device for controlling a response to voice,
Candidate phrase acquiring means for acquiring a plurality of candidate phrases generated based on the voice by each of a plurality of response generating means;
Selecting means for selecting, from among the plurality of candidate phrases acquired by the candidate phrase acquiring means, a candidate phrase having the highest importance of information included in each of the plurality of candidate phrases, as a response phrase. Response control device.
上記選択手段は、付加フレーズを含む候補フレーズを、付加フレーズを含まない候補フレーズよりも上記重要度が高いと判定することを特徴とする請求項1に記載の応答制御装置。 Each of the plurality of candidate phrases includes one or more reference phrases and zero or more additional phrases.
The response control apparatus according to claim 1, wherein the selection unit determines that a candidate phrase including an additional phrase is higher in importance than a candidate phrase that does not include an additional phrase.
上記選択手段は、上記候補フレーズに含まれる上記付加フレーズに設定された上記付加ポイントの合計値を、当該候補フレーズの上記重要度とすることを特徴とする請求項2に記載の応答制御装置。 Additional points are set for the above additional phrases,
The response control apparatus according to claim 2, wherein the selection unit uses the total value of the additional points set in the additional phrase included in the candidate phrase as the importance of the candidate phrase.
上記選択手段によって選択されなかった上記候補フレーズであって、上記選択手段によって選択された上記応答フレーズに含まれる上記基準フレーズと同内容の上記基準フレーズを含む上記候補フレーズが、上記応答フレーズに含まれる上記付加フレーズに設定された上記カテゴリとは異なる上記カテゴリが設定された上記付加フレーズを含む場合、該付加フレーズを、上記応答フレーズに付加するフレーズ追加手段をさらに備えることを特徴とする請求項2または3に記載の応答制御装置。 The above additional phrase has a category,
The candidate phrase that is not selected by the selection means and includes the reference phrase having the same content as the reference phrase included in the response phrase selected by the selection means is included in the response phrase The apparatus further comprises phrase adding means for adding the additional phrase to the response phrase when the additional phrase is set with the category different from the category set for the additional phrase. 4. The response control device according to 2 or 3.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013273284A JP2015127758A (en) | 2013-12-27 | 2013-12-27 | Response control device and control program |
PCT/JP2014/079411 WO2015098306A1 (en) | 2013-12-27 | 2014-11-06 | Response control device and control program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013273284A JP2015127758A (en) | 2013-12-27 | 2013-12-27 | Response control device and control program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015127758A true JP2015127758A (en) | 2015-07-09 |
Family
ID=53478184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013273284A Pending JP2015127758A (en) | 2013-12-27 | 2013-12-27 | Response control device and control program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2015127758A (en) |
WO (1) | WO2015098306A1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019091429A (en) * | 2017-11-16 | 2019-06-13 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Method and apparatus for processing information |
WO2020071255A1 (en) * | 2018-10-05 | 2020-04-09 | 株式会社Nttドコモ | Information presentation device |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
EP3809407A1 (en) | 2013-02-07 | 2021-04-21 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
JP6651973B2 (en) * | 2016-05-09 | 2020-02-19 | 富士通株式会社 | Interactive processing program, interactive processing method, and information processing apparatus |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | Low-latency intelligent automated assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (en) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | User activity shortcut suggestions |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4062591B2 (en) * | 2002-03-06 | 2008-03-19 | ソニー株式会社 | Dialog processing apparatus and method, and robot apparatus |
JP4826275B2 (en) * | 2006-02-16 | 2011-11-30 | 株式会社豊田中央研究所 | Response generating apparatus, method, and program |
JP4893655B2 (en) * | 2008-02-20 | 2012-03-07 | 株式会社豊田中央研究所 | Response generator and program |
JP4992925B2 (en) * | 2009-03-23 | 2012-08-08 | トヨタ自動車株式会社 | Spoken dialogue apparatus and program |
-
2013
- 2013-12-27 JP JP2013273284A patent/JP2015127758A/en active Pending
-
2014
- 2014-11-06 WO PCT/JP2014/079411 patent/WO2015098306A1/en active Application Filing
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019091429A (en) * | 2017-11-16 | 2019-06-13 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Method and apparatus for processing information |
WO2020071255A1 (en) * | 2018-10-05 | 2020-04-09 | 株式会社Nttドコモ | Information presentation device |
JPWO2020071255A1 (en) * | 2018-10-05 | 2021-09-02 | 株式会社Nttドコモ | Information provider |
JP7146933B2 (en) | 2018-10-05 | 2022-10-04 | 株式会社Nttドコモ | Information provision device |
Also Published As
Publication number | Publication date |
---|---|
WO2015098306A1 (en) | 2015-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2015098306A1 (en) | Response control device and control program | |
US11398236B2 (en) | Intent-specific automatic speech recognition result generation | |
JP6588637B2 (en) | Learning personalized entity pronunciation | |
US20180190288A1 (en) | System and method of performing automatic speech recognition using local private data | |
US20180330735A1 (en) | Speech Recognition with Parallel Recognition Tasks | |
US10229674B2 (en) | Cross-language speech recognition and translation | |
EP3389044A1 (en) | Management layer for multiple intelligent personal assistant services | |
US8738375B2 (en) | System and method for optimizing speech recognition and natural language parameters with user feedback | |
CN109710727B (en) | System and method for natural language processing | |
US9721563B2 (en) | Name recognition system | |
US9984679B2 (en) | System and method for optimizing speech recognition and natural language parameters with user feedback | |
RU2525440C2 (en) | Markup language-based selection and utilisation of recognisers for utterance processing | |
US8959021B2 (en) | Single interface for local and remote speech synthesis | |
US9922650B1 (en) | Intent-specific automatic speech recognition result generation | |
US10152298B1 (en) | Confidence estimation based on frequency | |
US9082401B1 (en) | Text-to-speech synthesis | |
CN112242144A (en) | Voice recognition decoding method, device and equipment based on streaming attention model and computer readable storage medium | |
US11532301B1 (en) | Natural language processing | |
CN110164416B (en) | Voice recognition method and device, equipment and storage medium thereof | |
KR102536944B1 (en) | Method and apparatus for speech signal processing | |
JP6559417B2 (en) | Information processing apparatus, information processing method, dialogue system, and control program | |
US20190147872A1 (en) | Information processing device | |
JP2015148758A (en) | Voice interactive system and voice interactive method | |
CN110659361B (en) | Conversation method, device, equipment and medium | |
JP2021108095A (en) | Method for outputting information on analysis abnormality in speech comprehension |