JP2008170817A - Interaction control device, interaction control method and interaction control program - Google Patents
Interaction control device, interaction control method and interaction control program Download PDFInfo
- Publication number
- JP2008170817A JP2008170817A JP2007005127A JP2007005127A JP2008170817A JP 2008170817 A JP2008170817 A JP 2008170817A JP 2007005127 A JP2007005127 A JP 2007005127A JP 2007005127 A JP2007005127 A JP 2007005127A JP 2008170817 A JP2008170817 A JP 2008170817A
- Authority
- JP
- Japan
- Prior art keywords
- output
- node
- recognition target
- target word
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、ユーザ入力に応じて所定のシナリオに沿った案内データを出力する対話制御装置に関し、特に、対話制御装置が過去に出力した案内データに対する応答を適時にやり直すことができるようにすることで自然な対話を継続させることができる対話制御装置、対話制御方法及び対話制御プログラムに関する。 The present invention relates to a dialog control apparatus that outputs guidance data according to a predetermined scenario in response to a user input, and more particularly to enable a dialog control apparatus to redo a response to guidance data output in the past in a timely manner. The present invention relates to a dialog control device, a dialog control method, and a dialog control program that can continue a natural dialog.
従来、ユーザが音声入力した言葉を認識し、認識した言葉に対応する音声案内データを音声出力させることでユーザとの対話を継続させる模擬会話システムが知られている(例えば、特許文献1参照。)。 2. Description of the Related Art Conventionally, there is known a simulated conversation system that recognizes a word input by a user and outputs voice guidance data corresponding to the recognized word by voice to continue a conversation with the user (see, for example, Patent Document 1). ).
この模擬会話システムは、模擬会話の会話履歴を記憶しておき、音声出力中の話題(階層構造の質問群で構成される。)の出力継続時間、又は、ユーザによる回答として所与の言葉が音声入力された回数等が所定の条件を満たす場合に、ユーザによる直近の回答(音声入力)の内容にかかわらず、直前に出力した音声案内データの話題とは異なる話題の音声案内データを出力して話題を転換する。 This simulated conversation system stores a conversation history of simulated conversations, and a given word is output as an output duration of a topic (consisting of a hierarchical group of questions) during voice output or as a response by a user. When the number of voice input, etc. satisfies a predetermined condition, voice guidance data of a topic different from the topic of the voice guidance data output immediately before is output regardless of the content of the most recent answer (voice input) by the user. To change the topic.
また、模擬会話システムは、話題転換後の新たな話題のうち既に出力した質問を再出力させず、未出力の質問を出力させるようにすることで、同じ質問を避け、かつ、話題転換により会話が単調となるのを防止しながら、より自然に会話を継続させるようにする。
しかしながら、特許文献1に記載の模擬会話システムは、所定の条件を満たした場合に話題を転換してしまうため、ユーザが直前の話題で出力された質問に対する別の展開を希望する場合、例えば、質問で提示された選択肢のうち既に選択した選択肢とは別の選択肢を選択したい場合等であっても話題が転換されてしまうため、ユーザは所望とする選択肢を選択することができない。
However, since the simulated conversation system described in
また、話題転換後の新たな話題のうち既に出力した質問を再出力させないようにするので、過去の質問で提示された選択肢のうち既に選択した選択肢とは別の選択肢を選択したい場合であっても、ユーザは所望とする選択肢を選択することができない。 Also, since the questions that have already been output in the new topic after the topic change are not re-outputted, it is necessary to select an option that is different from the option already selected among the options presented in the previous question. However, the user cannot select a desired option.
上述の点に鑑み、本発明は、システムが過去に出力した案内データに対する応答を適時にやり直すことができるようにすることで自然な対話を継続させることができる対話制御装置、対話制御方法及び対話制御プログラムを提供することを目的とする。 In view of the above, the present invention provides a dialog control device, a dialog control method, and a dialog capable of continuing a natural dialog by allowing a system to redo a response to guidance data output in the past in a timely manner. An object is to provide a control program.
上述の目的を達成するために、第一の発明に係る対話制御装置は、案内データと該案内データの出力を開始させるためのユーザ入力を定める認識対象語とを有するノードから構成されるシナリオに沿ってユーザとの対話を制御する対話制御装置であって、ユーザ入力をテキストデータとして認識する認識手段と、出力した案内データを有するノードを記録するノード記録手段と、前記ノード記録手段が記録したノードに対応する認識対象語を取得する認識対象語取得手段と、前記認識手段が認識したテキストデータと前記認識対象語取得手段が取得した認識対象語とに基づいて次に出力させる案内データを決定する次出力決定手段と、を備えることを特徴とする。 In order to achieve the above object, a dialogue control apparatus according to a first aspect of the present invention is a scenario comprising a node having guidance data and a recognition target word that defines a user input for starting output of the guidance data. A dialogue control apparatus for controlling a dialogue with a user along with a recognition means for recognizing user input as text data, a node recording means for recording a node having the output guide data, and the node recording means recorded Based on the recognition target word acquisition means for acquiring the recognition target word corresponding to the node, the text data recognized by the recognition means and the recognition target word acquired by the recognition target word acquisition means, the guidance data to be output next is determined. And a next output determination means.
また、第二の発明は、第一の発明に係る対話制御装置であって、前記次出力決定手段は、前記認識手段が認識したテキストデータに前記認識対象語取得手段が取得した認識対象語が含まれる場合に、該認識対象語に対応するノードが有する案内データを次に出力させる案内データとして決定することを特徴とする。 Further, the second invention is the dialogue control apparatus according to the first invention, wherein the next output determining means includes the recognition target word acquired by the recognition target word acquiring means in the text data recognized by the recognition means. When it is included, the guide data included in the node corresponding to the recognition target word is determined as guide data to be output next.
また、第三の発明は、第一又は第二の発明に係る対話制御装置であって、前記案内データの出力は、音声又はテキストによる出力であり、前記ユーザ入力は、音声又はテキストによる入力である、ことを特徴とする。 Moreover, 3rd invention is the dialog control apparatus which concerns on 1st or 2nd invention, Comprising: The output of the said guidance data is an output by an audio | voice or a text, The said user input is an input by an audio | voice or a text It is characterized by that.
また、第四の発明に係る対話制御方法は、案内データと該案内データの出力を開始させるためのユーザ入力を定める認識対象語とを有するノードから構成されるシナリオに沿ってユーザとの対話を制御する対話制御方法であって、ユーザ入力をテキストデータとして認識する認識ステップと、出力した案内データを有するノードを記録するノード記録ステップと、前記ノード記録ステップにおいて記録されたノードに対応する認識対象語を取得する認識対象語取得ステップと、前記認識ステップにおいて認識されたテキストデータと前記認識対象語取得ステップにおいて取得された認識対象語とに基づいて次に出力させる案内データを決定する次出力決定ステップと、を備えることを特徴とする。 According to a fourth aspect of the present invention, there is provided a dialogue control method for carrying out dialogue with a user in accordance with a scenario composed of nodes having guidance data and recognition target words for defining user input for starting output of the guidance data. An interactive control method for controlling, a recognition step for recognizing user input as text data, a node recording step for recording a node having the output guidance data, and a recognition target corresponding to the node recorded in the node recording step A recognition target word acquisition step for acquiring a word; a next output determination for determining next guidance data to be output based on the text data recognized in the recognition step and the recognition target word acquired in the recognition target word acquisition step And a step.
また、第五の発明は、第四の発明に係る対話制御方法であって、前記次出力決定ステップは、前記認識ステップにおいて認識されたテキストデータに前記認識対象語取得ステップにおいて取得された認識対象語が含まれる場合に、該認識対象語に対応するノードが有する案内データを次に出力させる案内データとして決定することを特徴とする。 The fifth invention is the dialogue control method according to the fourth invention, wherein the next output determining step includes the recognition target acquired in the recognition target word acquisition step in the text data recognized in the recognition step. When a word is included, the guide data included in the node corresponding to the recognition target word is determined as guide data to be output next.
また、第六の発明は、第四又は第五の発明に係る対話制御方法であって、前記案内データの出力は、音声又はテキストによる出力であり、前記ユーザ入力は、音声又はテキストによる入力であることを特徴とする。 The sixth invention is the dialogue control method according to the fourth or fifth invention, wherein the output of the guidance data is output by voice or text, and the user input is input by voice or text. It is characterized by being.
また、第七の発明は、第四乃至第六の何れかの発明に係る対話制御方法をコンピュータに実行させるための対話制御プログラムである。 The seventh invention is a dialogue control program for causing a computer to execute the dialogue control method according to any of the fourth to sixth inventions.
上述の手段により、本発明は、システムが過去に出力した案内データに対する応答を適時にやり直すことができるようにすることで自然な対話を継続させることができる対話制御装置、対話制御方法及び対話制御プログラムを提供することができる。 With the above-described means, the present invention provides a dialog control device, a dialog control method, and a dialog control capable of continuing a natural dialog by allowing a system to repeat a response to guidance data output in the past in a timely manner. A program can be provided.
以下、図面を参照しつつ、本発明を実施するための最良の形態の説明を行う。 Hereinafter, the best mode for carrying out the present invention will be described with reference to the drawings.
(1)実施例の概要
本発明に係る対話制御装置は、シナリオに沿って音声案内を出力しながらユーザが必要とする情報を提供する装置であり、例えば、カーナビゲーションシステムにおけるグルメ紹介、ショッピング紹介、観光地紹介、オーディオ操作、機器操作等の各ドメインを行き来させたり、各ドメイン内における入力操作を制御したりするために利用される。
(1) Outline of Embodiment A dialogue control apparatus according to the present invention is an apparatus that provides information required by a user while outputting voice guidance according to a scenario. For example, gourmet introduction and shopping introduction in a car navigation system It is used to move between domains such as sightseeing spot introduction, audio operation, device operation, etc., and to control input operations within each domain.
「シナリオ」とは、音声案内データと次の音声案内データに移行するための移行条件を定める音声認識対象語とから構成される情報の集合(以下、「ノード」という。)をツリー状に連結したデータ構造をいい、このデータ構造により音声案内の順序を定める。 A “scenario” is a collection of information (hereinafter referred to as “nodes”) composed of voice guidance data and a speech recognition target word that defines a transition condition for transition to the next voice guidance data. The voice guidance order is determined by this data structure.
「音声認識対象語」は、ユーザによる発話が期待される語として予め登録される語であり、キーワード又はキーフレーズ等であってもよい。対話制御装置は、所定の音声認識対象語がユーザによって発話されたことを認識すると、所定のノードへの移行条件が満たされたとしてその所定のノードが有する音声案内データを出力させる。 The “voice recognition target word” is a word registered in advance as a word expected to be uttered by the user, and may be a keyword or a key phrase. When the dialogue control device recognizes that a predetermined speech recognition target word is uttered by the user, the dialogue control device outputs the voice guidance data of the predetermined node assuming that the transition condition to the predetermined node is satisfied.
「移行条件」とは、所定のノードに移行するための条件をいい、例えば、所定の音声認識対象語がユーザ発話として認識されることの他、外部情報やユーザプロファイルに基づいて設定されてもよい。なお、対話制御装置が車輌に搭載される場合における「外部情報」には、ウィンドウの開閉状態、エンジンの始動・停止状態、燃料残量、ブレーキ使用状態、車速、アクセル開度、エアコン設定温度、車載ラジオ使用状態等の情報があり、対話制御装置が車輌に搭載される場合における「ユーザプロファイル」には、運転者の性別、家族構成、誕生日、趣味、長時間運転する場合の休憩取得間隔、車輌使用頻度(朝晩毎日、朝晩平日、週末、月一回、夕方毎日等)、好きな食べ物、好きな音楽等がある。 “Transition condition” refers to a condition for transition to a predetermined node. For example, a predetermined speech recognition target word is recognized as a user utterance, or may be set based on external information or a user profile. Good. The “external information” when the interactive control device is mounted on the vehicle includes the open / close state of the window, the engine start / stop state, the remaining fuel amount, the brake usage state, the vehicle speed, the accelerator opening, the air conditioner set temperature, The “user profile” when there is information such as the in-vehicle radio usage status and the dialogue control device is installed in the vehicle includes the driver's gender, family structure, birthday, hobbies, and interval for taking a break when driving for a long time. , Vehicle usage frequency (every morning and evening, morning and evening weekdays, weekends, once a month, every day in the evening, etc.), favorite food, favorite music, etc.
また、各シナリオは、例えば、高速道路走行中に出力されるシナリオ、登録された施設に接近した場合に出力されるシナリオといった特定の内容を有し、ルートノード(ツリー構造の最上位にあるノードをいう。)、ブランチノード(ツリー構造の分岐点にあるノードをいう。)、及び、リーフノード(ツリー構造の末端にあるノードをいう。)から構成される。 Each scenario has specific contents such as a scenario output during driving on an expressway, a scenario output when approaching a registered facility, and the root node (the node at the top of the tree structure). ), Branch nodes (referred to as nodes at the branch point of the tree structure), and leaf nodes (referred to as nodes at the end of the tree structure).
なお、移行条件が満たされた場合に(例えば、ユーザ発話の中に音声認識対象語が含まれる場合をいう。)、所定のノードにおける音声案内等の所定の処理を開始させることをノードの「発火」といい、ノードへの移行条件のことを「発火条件」という。 Note that when the transition condition is satisfied (for example, a case where a speech recognition target word is included in the user utterance), a predetermined process such as voice guidance at a predetermined node is started. This is called “ignition”, and the transition condition to the node is called “ignition condition”.
また、ノードの発火条件が満たされたか否かを判定し、発火条件が満たされた場合に音声案内等の所定の処理を開始させ、発火条件が満たされない場合にはその判定処理を周期的に繰り返し実行させる制御のことを「発火制御」という。 In addition, it is determined whether or not the ignition condition of the node is satisfied, and when the ignition condition is satisfied, a predetermined process such as voice guidance is started, and when the ignition condition is not satisfied, the determination process is periodically performed. Control that is repeatedly executed is called "ignition control".
図2は、シナリオのツリー構造を示す図であり、シナリオAがルートノードN1、ブランチノードN2、N3、リーフノードN4、N5、N6、N7を有することを示す。 FIG. 2 is a diagram showing a tree structure of a scenario, and shows that scenario A has a root node N1, branch nodes N2, N3, and leaf nodes N4, N5, N6, N7.
図3は、ノードの構成例を示す図であり、各ノードは、音声案内データ部50及び音声認識対象語部51を有する。また、図4は、音声認識対象語部51の構成例を示す図であり、音声認識対象語部51は、各音声認識対象語と移行先のノードとの間の対応関係を保持する。
FIG. 3 is a diagram illustrating a configuration example of nodes, and each node includes a voice
例えば、ノードN3の音声案内データ部50に記憶された音声案内データ「観光案内しようか。名物、名産品、見どころの情報があるけどどれがいい?」に対する音声認識対象語には、「名物」、「名産品」、「見どころ」、「聞きたくない」等が登録されており、対話制御装置は、ユーザの発話中に「名物」が含まれることを認識するとノードN5への移行条件が満たされたとしてノードN5を発火させる。
For example, the speech recognition target words for the voice guidance data “Let's guide sightseeing? There are specialties, specialties, and highlights, but which is better?” Stored in the voice
また、対話制御装置は、過去に発火させたノードに関する情報を対話履歴として記録しておき、ユーザの発話を認識すると、対話履歴に記録しておいたノードのそれぞれが有する音声認識対象語をその記録の新しい順に取得して、過去に発火させたノードが有する音声認識対象語(直近のノードが有する音声認識対象語を「現音声認識対象語」とし、現音声認識対象語以外の過去に発火させたノードが有する音声認識対象語を「既出音声認識対象語」として区別する。)がユーザの発話の中に含まれるか否かを判定する。 In addition, the dialog control device records information about nodes that have been ignited in the past as a dialog history, and when recognizing a user's utterance, the speech recognition target word of each of the nodes recorded in the dialog history is Speech recognition target words of nodes that were acquired in the order of new records and fired in the past (the speech recognition target words of the most recent node are designated as “current speech recognition target words” and fired in the past other than the current speech recognition target words It is determined whether or not the speech recognition target word of the selected node is included in the user's utterance as “existing speech recognition target word”.
ユーザの発話の中に現音声認識対象語が含まれる場合、対話制御装置は、その現音声認識対象語に対応するノードを発火させ音声案内を出力させるが、ユーザの発話の中に現音声認識対象語が含まれない場合、対話制御装置は、既出音声認識対象語がユーザの発話の中に含まれるか否かを判定し、ユーザの発話の中に既出音声認識対象語が含まれる場合、その既出音声認識対象語に対応するノードを発火させる。 When the current speech recognition target word is included in the user's utterance, the dialogue control device fires a node corresponding to the current speech recognition target word and outputs a voice guidance, but the current speech recognition is included in the user's utterance. When the target word is not included, the dialogue control apparatus determines whether the already-recognized speech recognition target word is included in the user's utterance, and when the already-spoken speech recognition target word is included in the user's utterance, A node corresponding to the speech recognition target word is fired.
なお、対話制御装置は、その既出音声認識対象語に対応するノードを所定時間内に既に発火させていた場合には、そのノードの発火を禁止するようにしてもよい。 In addition, when the node corresponding to the speech recognition target word has already been ignited within a predetermined time, the dialogue control apparatus may prohibit the ignition of the node.
これにより、対話制御装置は、「さっきの○○ってどういうの?」、「やっぱり○○にする」といったユーザ発話により、ある時点における対話制御装置による質問において選択されなかった選択肢への移行をユーザが希望する場合にも柔軟に対応することができ、自然な対話を継続させることができる。 As a result, the dialog control device shifts to an option that was not selected in a question by the dialog control device at a certain point in time by a user utterance such as “What is XX of the day?” It is possible to flexibly cope with a case where the user desires, and a natural conversation can be continued.
(2)実施例の詳細
図1は、本発明に係る対話制御装置の構成例を示す図であり、対話制御装置100は、制御部1、音声取得部2、記憶部3及び音声出力部4から構成され、所定のシナリオに沿って記憶部3に記憶された音声案内データを読み出して音声出力部4からその音声案内データを出力する。
(2) Details of Embodiment FIG. 1 is a diagram showing a configuration example of a dialogue control apparatus according to the present invention. A
制御部1は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を備えたコンピュータであり、音声認識手段10、データ提供手段11、ノード記録手段12、音声認識対象語取得手段13及び次出力決定手段14に対応するプログラムをROMに記憶し、それらプログラムをRAM上に展開して対応する処理をCPUに実行させる。
The
音声取得部2は、ユーザが発する音声を取得するための装置であり、例えば、対話制御装置100が車輌に搭載された場合、車輌を運転するドライバの音声を確実に認識できるよう指向性を備えたマイクが用いられる。
The
また、音声取得部2は、入力音検知機能を備え、定常雑音以外の音をユーザの発話による音声として取得してもよく、音量や音の長さに基づいて取得する音声を取捨選択してもよい。また、音声取得部2は、発話検出機能を備え、入力される音声のうち人の発話部分のみを検出して取得するようにしてもよい。なお、音声取得部2は、取得したユーザの音声を制御部1に出力する。
In addition, the
記憶部3は、対話制御装置100が必要とする各種情報を記憶するための装置であり、例えば、図2乃至図4で示したデータ構造を有する複数のシナリオを体系的に構成したシナリオデータベース30や後述の対話履歴データベース31を格納するハードディスクである。
The
音声出力部4は、音声案内データを音声出力するための装置であり、例えば、制御部1から出力される音声案内データを音声出力する車載スピーカである。
The
次に、制御部1が有する各種手段について詳細に説明する。
Next, various units included in the
音声認識手段10は、ユーザ発話をテキストデータとして認識するための手段であり、例えば、音声取得部2を介して取得したユーザ発話をテキストデータに変換する。
The voice recognition means 10 is means for recognizing a user utterance as text data. For example, the voice recognition means 10 converts the user utterance acquired via the
また、音声認識手段10は、ユーザ発話をテキストデータとして認識するばかりでなく、認識結果の信頼度、ユーザ発話の長さ(語数又は時間)、ユーザ発話の発話速度若しくは発話速度変化、又は、ユーザ発話の発話音量等の特徴を検出し、それら特徴をテキストデータに関連付けて記憶するようにしてもよい。ユーザが発話に込めた意思をより正確に認識するためである。 The voice recognition means 10 not only recognizes user utterances as text data, but also recognizes the reliability of the recognition result, the length of the user utterance (number of words or time), the utterance speed of the user utterance or the change in the utterance speed, or the user Features such as the utterance volume of an utterance may be detected and stored in association with text data. This is because the user can more accurately recognize the intention put into the utterance.
データ提供手段11は、シナリオに沿って音声案内データを提供するための手段であり、例えば、発火条件を満たしたノードの音声案内データを音声出力部4から出力させる。
The
ノード記録手段12は、出力した音声案内データを有するノードを対話履歴として記録するための手段であり、例えば、図5に示すように、発火の順番を示す発火履歴番号、発火させたノードの番号、及び、そのノードを発火させた時刻等を関連付けて記憶部3にある対話履歴データベース31に記録する。
The
なお、ノード記録手段12は、各ノードが有する音声案内データを表す概念キーワード、又は、その概念に含まれるサブキーワード若しくはサブキーフレーズを対話履歴データベースに記録するようにしてもよい。
Note that the
音声認識対象語取得手段13は、発火させたノードが有する音声認識対象語を取得するための手段であり、例えば、直近に発火させたノードの音声認識対象語部51を参照してそのノードの現音声認識対象語を取得する。
The speech recognition target
また、音声認識対象語取得手段13は、対話履歴データベース31を参照して過去に発火させたノードが有する既出音声認識対象語を取得するようにしてもよい。
Further, the speech recognition target word acquisition means 13 may refer to the
次出力決定手段14は、次に出力させる音声案内を決定するための手段であり、例えば、ドメイン判定手段140、類似シナリオ検索手段141、話題転換手段142及び対話終了手段143等を有し、ユーザの発話内容や発話タイミング等に基づいて次に出力させる音声案内を決定する。
The next
ドメイン判定手段140は、ユーザの発話内容に関連するドメイン(以下、「関連ドメイン」という。)が存在するか否かを判定するための手段であり、例えば、ユーザの発話に含まれる語句等に基づいて関連ドメインの存在の有無を判定する。 The domain determination means 140 is a means for determining whether or not a domain related to the user's utterance content (hereinafter referred to as “related domain”) exists. Based on this, the existence of the related domain is determined.
「ドメイン」とは、共通する内容でまとめられた情報の集合をいい、例えば、カーナビゲーションシステムにおけるグルメ紹介ドメイン、ショッピング紹介ドメイン、観光地紹介ドメイン、オーディオ操作ドメイン、機器操作ドメイン等があり、各ドメインは、自身を特徴付ける概念キーワード(例えば、スポーツがある。)を有し、その概念キーワードは、さらに、その概念に含まれるサブキーワード又はサブキーフレーズ等(例えば、野球、サッカー、バレーボール等がある。)を有する。 “Domain” means a set of information gathered with common contents. For example, there are a gourmet introduction domain, a shopping introduction domain, a sightseeing spot introduction domain, an audio operation domain, and a device operation domain in a car navigation system. The domain has a concept keyword that characterizes itself (for example, there is a sport), and the concept keyword further includes a subkeyword or a subkey phrase included in the concept (for example, baseball, soccer, volleyball, etc.). ).
また、各ドメインは、関連する情報を提供するためのシナリオ(例えば、観光地紹介ドメインにおける観光案内シナリオをいう。)や関連する操作を実行させるためのシナリオ(例えば、オーディオ操作ドメインにおける音量調整シナリオをいう。)を有する。 In addition, each domain has a scenario for providing related information (for example, a tourism guide scenario in the tourist destination introduction domain) and a scenario for executing a related operation (for example, a volume adjustment scenario in the audio operation domain). ).
また、対話制御装置100は、ユーザの発話内容とドメインとの関連を判定するためにシソーラスを備えるようにしてもよく、TF−IDF(Term Frequency−Inverse Document Frequency)法を用いてユーザの発話内容とドメインとの関連を判定するようにしてもよい。
Further, the
類似シナリオ検索手段141は、ユーザの発話内容と内容が類似するシナリオ、又は、発火させたシナリオの内容と内容が類似するシナリオ(以下、「類似シナリオ」という。)を検索するための手段である。 The similar scenario search unit 141 is a unit for searching for a scenario whose content is similar to the content of the user's utterance or a scenario whose content is similar to the content of the fired scenario (hereinafter referred to as “similar scenario”). .
類似シナリオ検索手段141は、例えば、ユーザの発話に含まれる語句等、或いは、直近に発火させたシナリオにおけるノードが有する音声認識対象語やその音声出力データに含まれる語句と、検索対象の各シナリオにおけるノードが有する音声認識対象語やその音声出力データに含まれる語句とに基づいて、全てのシナリオの中から類似シナリオを検索する。 The similar scenario search means 141 includes, for example, a phrase included in the user's utterance, or a speech recognition target word included in a node in a scenario fired recently, a phrase included in the voice output data, and each scenario to be searched A similar scenario is searched from all scenarios based on the speech recognition target word of the node and the phrase included in the speech output data.
各シナリオは、ドメインと同様に、自身を特徴付ける概念キーワード(例えば、観光案内がある。)を有してもよく、さらに、その概念に含まれるサブキーワード又はサブキーフレーズ等(例えば、温泉、展望台、土産物屋等がある。)を有してもよい。 Each scenario may have a concept keyword that characterizes itself (for example, there is a tourist guide) as well as a domain, and further includes a subkeyword or subkey phrase included in the concept (for example, a hot spring, an observation deck). And souvenir shops, etc.).
また、対話制御装置100は、ユーザの発話内容又は発火させたシナリオの内容と検索対象のシナリオの内容との類似度を判定するためにシソーラスを備えるようにしてもよく、TF−IDF法を用いて類似度を判定するようにしてもよい。
Further, the
また、類似シナリオ検索手段141は、ユーザの発話長(一回の発話長であってもよく、各シナリオにおける合計発話長であってもよい。)が所定時間以上の場合に限り、音声認識手段10が認識したテキストデータから自立語を抽出して、類似シナリオを検索するようにしてもよい。 The similar scenario search means 141 is a voice recognition means only when the user's utterance length (one utterance length or the total utterance length in each scenario) is a predetermined time or more. A similar scenario may be searched by extracting an independent word from the text data recognized by 10.
ユーザの発話長が長い場合、ユーザが対話制御装置100との対話に積極的であると推測でき、類似シナリオを発火させることで、対話制御装置100は、ユーザとの自然な対話を継続させることができるからである。
When the user's utterance length is long, it can be assumed that the user is active in the dialog with the
また、ユーザの発話長が短い場合、ユーザが対話制御装置100との対話に消極的であると推測でき、類似シナリオを発火させないようにすることで、対話制御装置100は、関心の薄い話題を提供してユーザに不快感を与えてしまうのを防止することができるからである。
In addition, when the user's utterance length is short, it can be assumed that the user is reluctant to interact with the
話題転換手段142は、話題を転換するための手段であり、例えば、発火させることができるシナリオ群から乱数を用いて特定のシナリオを選択する。
The
対話終了手段143は、対話を終了させる手段であり、例えば、対話の終了をユーザに明示する終了通知メッセージを出力させる。
The
次に、図6を参照しながら、次出力決定手段14が次に出力させる音声案内を決定する処理の流れについて説明する。図6は、この処理の流れを示すフローチャートである。
Next, the flow of processing for determining the voice guidance to be output next by the next
最初に、対話制御装置100は、音声取得部2でユーザ発話を検知すると音声認識手段10による認識ができたか否かを判定する(ステップS1)。
First, when the
ユーザ発話をテキストデータとして認識できた場合(ステップS1のYES)、対話制御装置100は、音声認識対象語取得手段13により、ノード記録手段12が記録した対話履歴データベース31を参照し、過去に発火させたノードが有する音声認識対象語を取得して、テキストデータに音声認識対象語が含まれるか否かを判定する(ステップS2)。
When the user utterance can be recognized as text data (YES in step S1), the
なお、音声認識対象取得手段13は、最後に発火させたノード以外の過去のノードに関しては、「はい」、「いいえ」、「どっちでもいい」、「どっちもいや」、「それ」等の語句を既出音声認識対象語として取得しないようにする。何れのノードに対する回答であるか特定できないためである。 It should be noted that the speech recognition target acquisition means 13 has a phrase such as “Yes”, “No”, “Any”, “Any” or “It” for past nodes other than the last fired node. Is not acquired as a speech recognition target word. This is because it cannot be specified which node the answer is for.
テキストデータに音声認識対象語が含まれる場合(ステップS2のYES)、対話制御装置100は、次出力決定手段14に後述のノード移行処理を実行させる(ステップS3)。
When the text recognition target word is included in the text data (YES in step S2), the
テキストデータに音声認識対象語が含まれない場合(ステップS2のNO)、対話制御装置100は、次出力決定手段14における類似シナリオ検索手段141により、類似シナリオを検索する(ステップS4)。
When the text recognition target word is not included in the text data (NO in step S2), the
類似シナリオが検索できた場合(ステップS4のYES)、対話制御装置100は、データ提供手段11により、その類似シナリオのルートノードが有する音声案内データを音声出力部4から出力させる(ステップS5)。
When a similar scenario can be searched (YES in step S4), the
類似シナリオが検索できない場合(ステップS4のNO)、対話制御装置100は、次出力決定手段14におけるドメイン判定手段140により、ユーザの発話内容に関連するドメインが存在するか否かを判定する(ステップS6)。
When the similar scenario cannot be searched (NO in step S4), the
関連ドメインが存在する場合(ステップS6のYES)、対話制御装置100は、データ提供手段11により、その関連ドメインにあるシナリオのルートノードが有する音声案内データを音声出力部4から出力させ(ステップS7)、関連ドメインが存在しない場合(ステップS6のNO)、次出力決定手段14に後述の対話継続可否判定処理を実行させる(ステップS8)。
When the related domain exists (YES in step S6), the
次に、図7を参照しながら、ノード移行処理の流れについて説明する。なお、図7は、ノード移行処理の流れを示すフローチャートである。 Next, the flow of node migration processing will be described with reference to FIG. FIG. 7 is a flowchart showing the flow of node migration processing.
最初に、次出力決定手段14は、対話履歴データベース31を参照して、テキストデータに含まれる音声認識対象語を有するノード(以下、「該当ノード」という。)の発火後経過時間を算出する(ステップS11)。
First, the next
なお、次出力決定手段14は、該当ノードが複数存在する場合には、発火履歴番号が大きいほう(新しいほう)を優先させる。ユーザは、直前の選択肢や話題に話を戻したい場合が多いと考えられるからである。
When there are a plurality of corresponding nodes, the next
また、次出力決定手段14は、該当ノードが同じシナリオ内に複数存在する場合には、下位のノードを優先させる。シナリオの下位にあるノードは、より上位にあるノードに比べてより具体的な質問を提示しているからであり、ユーザが期待する音声案内をより迅速に提供できると考えられるからである。
Further, the next
但し、ユーザ発話に「昨日」、「お昼」等の日時を特定する語句が含まれる場合には、その日時に合致する発火履歴を有する該当ノードを優先させるようにしてもよい。 However, if the user's utterance includes a phrase specifying a date such as “yesterday” or “noon”, priority may be given to a corresponding node having an ignition history that matches the date and time.
該当ノードの発火後経過時間が閾値T1(例えば、5分)未満の場合(ステップS11のYES)、次出力決定手段14は、対話履歴データベース31を参照して、その音声認識対象語が示す移行先のノード(以下、「対応ノード」という。)が発火済みであるか否かを判定し(ステップS12)、対応ノードが発火済みの場合(ステップS12のYES)、後述の対話継続可否判定処理を実行させる(ステップS13)。
When the elapsed time after firing of the corresponding node is less than a threshold value T1 (for example, 5 minutes) (YES in step S11), the next
対応ノードが発火済みでない場合(ステップS12のNO)、次出力決定手段14は、対応ノードを次に出力させるノードとして決定し(ステップS14)、データ提供手段11によりその対応ノードが有する音声案内データを音声出力部4から出力させる。
If the corresponding node has not been ignited (NO in step S12), the next
一方、該当ノードの発火後経過時間が閾値T1(例えば、5分)以上の場合(ステップS11のNO)、次出力決定手段14は、「○○(ユーザ発話に含まれる音声認識対象語)でいいですか?」、「○○(ユーザ発話に含まれる音声認識対象語)と△△(別の音声認識対象語)のうちの○○ですね。」等の確認メッセージを音声出力し(ステップS15)、ユーザの確認を得た上で(例えば、ユーザ発話「はい」を取得した場合をいう。)(ステップS16のYES)、対応ノードを次に出力させるノードとして決定する(ステップS14)。
On the other hand, when the elapsed time after firing of the corresponding node is equal to or greater than a threshold T1 (for example, 5 minutes) (NO in step S11), the next
ユーザの確認が得られなかった場合(例えば、ユーザ発話「いいえ」を取得した場合をいう。)(ステップS16のNO)、次出力決定手段14は、後述の対話継続可否判定処理を実行させる(ステップS17)。
When the user confirmation is not obtained (for example, the case where the user utterance “No” is acquired) (NO in Step S16), the next
所定時間が経過しているため、対話制御装置100が出力した質問や選択肢の内容をユーザが正確に憶えていない場合があるからである。
This is because, since the predetermined time has elapsed, the user may not correctly remember the contents of questions and options output by the
この場合、その対応ノードが発火済みであっても、次出力決定手段14は、その対応ノードが有する音声案内データを音声出力部4から出力させるようにしてもよい。
In this case, even if the corresponding node has been fired, the next
所定時間が経過しているため、その対応ノードが有する音声案内データを再出力しても、ユーザに煩わしさを感じさせることがないからである。 This is because, since the predetermined time has elapsed, even if the voice guidance data of the corresponding node is output again, the user does not feel bothered.
なお、次出力決定手段14は、記憶部3に格納されたシソーラスを参照して音声認識対象語に類似する語(以下、「類似対象語」という。)を取得し、類似対象語がテキストデータに含まれる場合に、「○○(ユーザ発話に含まれる類似対象語に対応する音声認識対象語)でいいですか?」といった確認メッセージを音声出力するようにしてもよい。
The next
その上で、次出力決定手段14は、ユーザの確認を得た場合に(例えば、ユーザ発話「はい」を取得した場合をいう。)、ノード移行処理を実行するようにしてもよい。対話制御装置100が過去に提示した選択肢をユーザが正確に憶えていない場合もあるからである。
In addition, the next
なお、対話制御装置100は、発火後経過時間に基づいて制御方法を変更するが、対話履歴を幾つ(ノード数)遡ったかに基づいて制御方法を変更するようにしてもよい。
The
次に、図8を参照しながら、対話継続可否判定処理の流れについて説明する。なお、図8は、対話継続可否判定処理の流れを示すフローチャートである。 Next, the flow of the process for determining whether or not to continue the conversation will be described with reference to FIG. FIG. 8 is a flowchart showing the flow of the process for determining whether or not to continue the conversation.
最初に、次出力決定手段14は、発火制御により発火条件を満たすシナリオが存在するか否かを判定する(ステップS21)。
First, the next
発火可能なシナリオが存在する場合(ステップS21のYES)、次出力決定手段14は、類似シナリオ検索手段141により、直近に発火させたシナリオに類似する類似シナリオが存在するか否かを判定する(ステップS22)。
When there is a scenario that can be ignited (YES in step S21), the next
直近に発火させたシナリオに類似する類似シナリオが存在する場合、対話制御装置100は、データ提供手段11により、その類似シナリオのルートノードが有する音声案内データを音声出力部4から出力させる(ステップS23)。
If there is a similar scenario similar to the most recently fired scenario, the
直近に発火させたシナリオに類似する類似シナリオが存在しない場合、対話制御装置100は、次出力決定手段14の話題転換手段142により、発火させることができるシナリオ群から乱数を用いて特定のシナリオを選択させ、データ提供手段11により、その選択させたシナリオのルートノードが有する音声案内データを音声出力部4から出力させる(ステップS24)。
When there is no similar scenario similar to the scenario fired most recently, the
一方、発火可能なシナリオが存在しない場合(ステップS21のNO)、対話制御装置100は、次出力決定手段14の対話終了手段143により、「用があるときはまた呼んでね」といった対話の終了を明示する終了通知メッセージを出力させる(ステップS25)。
On the other hand, if there is no scenario that can be ignited (NO in step S21), the
次に、対話制御装置100とユーザとの間の対話例を用いて対話制御装置100が対話を制御する流れを説明する。
Next, a flow in which the
GPS(Global Positioning System)が出力した位置情報に基づいて車輌が所定地点に到達したことを認識すると、対話制御装置100は、観光案内シナリオA(図2参照。)を発火させ、データ提供手段11により、観光案内シナリオAのノードN1、N2が有する音声案内データを順番に音声出力部4から出力させながら、ユーザとの対話を継続させる。
When recognizing that the vehicle has reached a predetermined point based on position information output by GPS (Global Positioning System), the
その後、対話制御装置100は、観光案内シナリオAのノードN3が有する音声案内データ「観光案内しようか。名物、名産品、見どころの情報があるけどどれがいい?」を音声出力部4から出力させる。
After that, the
なお、ノード記録手段12は、発火させたノードN1、N2、N3を対話履歴データベース31に発火順に記録し、ユーザと対話制御装置100との間の対話の流れを記録する(図5参照。)。
The
ノードN3の音声認識対象語部51には、音声認識対象語「名物」、「名産品」、「見どころ」がノードN5、N6、N7それぞれへの移行条件として登録されており、音声認識対象語「聞きたくない」が対話を終了させる条件として登録されている(図4参照。)。
In the speech recognition
このとき、ユーザが「名物」を発話すると、音声認識手段10は、そのユーザ発話をテキストデータに変換し、音声認識対象語取得手段13は、ノードN1、N2、N3の音声認識対象語部51を参照してノードN1、N2、N3のそれぞれが有する音声認識対象語を取得する。
At this time, when the user utters “special”, the voice recognition means 10 converts the user utterance into text data, and the voice recognition target word acquisition means 13 reads the voice recognition
その後、次出力決定手段14は、そのユーザ発話にノード3における現音声認識対象語「名物」が含まれることを検知し、ノード3の音声認識対象語部51(図4参照。)を参照して現音声認識対象語「名物」に対応付けられたノードN5を次に出力させる音声案内データを有するノードとして決定する。
Thereafter, the next
その後、対話制御装置100は、ノードN5が有する音声案内データ「このあたりの名物は、うなぎだよ」を音声出力部4から出力させる。なお、ノード記録手段12は、発火させたノードN5を対話履歴データベース31に追加する。
Thereafter, the
ノードN5の音声認識対象語部51には、音声認識対象語「うなぎ食べたい」、「いいねぇうなぎ」が後続ノードへの移行条件として登録されており、音声認識対象語「そうなんだ、知らなかった」、「うなぎは好きじゃないんだよね」等が対話を終了させる条件として登録されているものとする。
In the speech recognition
このとき、ユーザが「そうなんだ、知らなかった」を発話すると、音声認識手段10は、そのユーザ発話をテキストデータに変換し、音声認識対象語取得手段13は、ノードN1、N2、N3、N5のそれぞれの音声認識対象語部51を参照してノードN1、N2、N3、N5のそれぞれが有する音声認識対象語を取得する。
At this time, when the user utters “Yes, I did not know”, the voice recognition means 10 converts the user utterance into text data, and the voice recognition target word acquisition means 13 reads the nodes N1, N2, N3, N5. The speech recognition target words included in each of the nodes N1, N2, N3, and N5 are acquired with reference to the respective speech recognition
その後、次出力決定手段14は、そのユーザ発話にノード5における現音声認識対象語「そうなんだ、知らなかった」が含まれることを検知し、ノード5の音声認識対象語部51を参照して対話を終了させる。
Thereafter, the next output determination means 14 detects that the current speech recognition target word “Yes, I did not know” in the
以上のように対話を一旦終了させた後にユーザが発話を再開させた場合、ユーザの発話内容に応じて対話制御装置100がどのように対話を継続させるかを以下に説明する。
As described above, how the
先ず、ユーザが「少し早いけど、食事しようかな。うなぎ食べたい」を発話した場合について説明する。 First, a case will be described in which the user utters “I want to eat a little bit early, but I want to eat.”
この場合、次出力決定手段14は、対話履歴データベース31を参照し、直前に発火させたノードN5の現音声認識対象語「うなぎ食べたい」がユーザ発話の中に含まれることを認識する。
In this case, the next
現音声認識対象語「うなぎ食べたい」に対応する後続ノードは過去に発火しておらず、次出力決定手段14は、その後続ノードが有する音声案内データを次に出力させるものとして決定する。
The subsequent node corresponding to the current speech recognition target word “I want to eat eel” has not fired in the past, and the next
なお、後続ノードが過去に発火していた場合、次出力決定手段14は、同じ質問を繰り返さないよう、「そうそう面白い話があるんだ」といった話題転換メッセージを出力させて話題を転換させたり、「僕からの観光案内は終わりです。もっと勉強しておくね。」といった終了通知メッセージを出力させて対話を明示的に終了させたりしてもよい。 If the subsequent node has fired in the past, the next output determination means 14 may change the topic by outputting a topic change message such as “There is such an interesting story” so as not to repeat the same question, You may explicitly end the dialogue by outputting an end notification message such as “My tourist guide is over. I will study more.”
また、後続ノードが過去に発火していた場合、次出力決定手段14は、類似シナリオを発火させるようにしてもよい。類似シナリオを発火させることで、いつも同じ質問をするといった印象をユーザに与えないようにすることができ、かつ、全く異なる話題を提供してユーザを困惑させることがないようにすることができるからである。
Further, when the subsequent node has fired in the past, the next
次に、ユーザが「少し早いけど、夕食にしちゃおうか」を発話した場合について説明する。 Next, a case where the user utters “Is it a little early but will I have dinner?” Will be described.
この場合、次出力決定手段14は、対話履歴データベース31を参照し、過去に発火させたノードの音声認識対象語がユーザ発話の中に含まれないことを認識する。
In this case, the next
そこで、次出力決定手段14は、記憶部3に格納されたシソーラスを参照して音声認識対象語に類似する類似対象語を取得し、ノードN5の現音声認識対象語「うなぎ食べたい」に類似するとして登録された類似対象語「夕食」がテキストデータに含まれることを認識し、その後続ノードが有する音声案内データを次に出力させるものとして決定する。
Therefore, the next
次に、ユーザが「あ、お土産買うのを忘れてた。名産品は何があったっけ。」を発話した場合について説明する。 Next, a case where the user utters “Oh, I forgot to buy souvenirs. What was the special product?” Will be described.
この場合、次出力決定手段14は、対話履歴データベース31を参照し、2ノード前に発火させたノードN3の既出音声認識対象語「名産品」がユーザ発話の中に含まれることを認識する。
In this case, the next
既出音声認識対象語「名産品」に対応するノードN6は過去に発火しておらず、次出力決定手段14は、既出音声認識対象語「名産品」に対応するノードN6が有する音声案内データを次に出力させるものとして決定する。 The node N6 corresponding to the existing speech recognition target word “special product” has not been ignited in the past, and the next output determining means 14 uses the voice guidance data held by the node N6 corresponding to the existing speech recognition target word “special product”. Next, it is determined to be output.
なお、ノードN6が過去に発火していた場合であっても、発火から所定時間が経過している場合には、次出力決定手段14は、ノードN6が有する音声案内データを次に出力させるものとして決定するようにしてもよい。発火から所定時間が経過している場合、同じ質問を繰り返してもユーザに不快感を与えることはないからである。 Even if the node N6 has fired in the past, if the predetermined time has elapsed since the firing, the next output determining means 14 causes the voice guidance data of the node N6 to be output next. You may make it determine as. This is because when a predetermined time has passed since the ignition, the user is not uncomfortable even if the same question is repeated.
次に、ユーザが「あ、お土産買うのを忘れてた。」を発話した場合について説明する。 Next, a case where the user speaks “Oh, I forgot to buy souvenirs” will be described.
この場合、次出力決定手段14は、対話履歴データベース31を参照し、過去に発火させたノードの音声認識対象語がユーザ発話の中に含まれないことを認識する。
In this case, the next
そこで、次出力決定手段14は、記憶部3に格納されたシソーラスを参照して音声認識対象語に類似する類似対象語を取得し、2ノード前に発火させたノードN3の既出音声認識対象語「名産品」に類似するとして登録された類似対象語「お土産」がテキストデータに含まれることを認識し、既出音声認識対象語「名産品」に対応するノードN6が有する音声案内データを次に出力させるものとして決定する。
Therefore, the next
次に、ユーザが「そういえばこのあたりに有名な温泉があるって聞いたことある気がするんだけど」を発話した場合について説明する。 Next, a case where the user utters “I feel like I have heard that there is a famous hot spring around here” will be described.
この場合、次出力決定手段14は、対話履歴データベース31を参照し、過去に発火させたノードの音声認識対象語及び類似対象語がユーザ発話の中に含まれないことを認識する。
In this case, the next
そこで、次出力決定手段14は、類似シナリオ検索手段141により、自立語「そう」、「いう」、「この」、「あたり」、「有名」、「温泉」、「ある」、「聞く」、「こと」、「ある」、「気」、「する」、「けど」を抽出させ、自立語「温泉」と観光案内シナリオAが有する概念キーワード「観光案内」に対応付けられたサブキーワード「温泉」とが一致することから関連シナリオとして観光案内シナリオAを抽出させる。
Therefore, the next
これにより、次出力決定手段14は、観光案内シナリオAのルートノードN1が有する音声案内データを次に出力させるものとして決定する。
As a result, the next
次に、ユーザが「そういえば昨日の野球の結果教えて」を発話した場合について説明する。 Next, the case where the user utters “Tell me the result of yesterday's baseball” will be described.
この場合、次出力決定手段14は、対話履歴データベース31を参照し、過去に発火させたノードの音声認識対象語及び類似対象語がユーザ発話の中に含まれないことを認識し、類似シナリオも存在しないことを認識する。
In this case, the next
そこで、次出力決定手段14は、ドメイン判定手段140により、自立語「そう」、「いう」、「昨日」、「野球」、「結果」、「教える」を抽出させ、自立語「野球」とスポーツドメインが有する概念キーワード「スポーツ」に対応付けられたサブキーワード「野球」とが一致することから、ユーザ発話がスポーツドメインに関連するものであると判定させる。 Therefore, the next output determination means 14 causes the domain determination means 140 to extract the independent words “so”, “say”, “yesterday”, “baseball”, “result”, “teach”, and the independent word “baseball”. Since the sub-keyword “baseball” associated with the concept keyword “sports” of the sports domain matches, it is determined that the user utterance is related to the sports domain.
これにより、次出力決定手段14は、スポーツドメインにあるシナリオのルートノードが有する音声案内データを次に出力させるものとして決定する。 Thereby, the next output determination means 14 determines as what outputs the voice guidance data which the route node of the scenario in a sports domain has next.
次に、ユーザが「あーなんか眠くなってきた」を発話した場合について説明する。 Next, a case where the user utters “Oh, I am getting sleepy” will be described.
この場合、次出力決定手段14は、対話履歴データベース31を参照し、過去に発火させたノードの音声認識対象語及び類似対象語がユーザ発話の中に含まれないことを認識し、かつ、類似シナリオも関連ドメインも存在しないことを認識する。
In this case, the next
そこで、次出力決定手段14は、発火制御により発火条件を満たすシナリオが存在するか否かを判定し、発火可能なシナリオが存在すれば、そのシナリオのルートノードが有する音声案内データを次に出力させるものとして決定する。
Therefore, the next
一方、発火可能なシナリオが存在しなければ、次出力決定手段14は、終了通知メッセージを次に出力させるものとして決定する。
On the other hand, if there is no scenario that can be ignited, the next
次に、ユーザの発話は検出したが、テキストデータとして認識できなかった場合について説明する。 Next, a case where the user's speech is detected but cannot be recognized as text data will be described.
この場合、次出力決定手段14は、発火制御により発火条件を満たすシナリオが存在するか否かを判定し、発火可能なシナリオが存在すれば、類似シナリオ検索手段141により、直近に発火させたシナリオに類似する類似シナリオが発火可能なシナリオの中に存在するか否かを判定させ、直近に発火させたシナリオに類似する類似シナリオが存在する場合、類似シナリオのルートノードが有する音声案内データを次に出力させるものとして決定する。
In this case, the next
発火可能なシナリオは存在するが類似シナリオは存在しない場合、次出力決定手段14は、乱数を用いて無作為に選択した発火可能なシナリオのルートノードが有する音声案内データを次に出力させるものとして決定する。 When there is a scenario that can be ignited but there is no similar scenario, the next output determination means 14 outputs the voice guidance data that the root node of the scenario that can be ignited randomly using a random number next outputs. decide.
発火可能なシナリオが存在しなければ、次出力決定手段14は、終了通知メッセージを次に出力させるものとして決定する。
If there is no scenario that can be ignited, the next
以上の構成により、対話制御装置100は、複数のノードから構成されるシナリオにおいて既に発火させたノードを記録しておき、既に発火させたノードが有する音声認識対象語がユーザ発話に含まれる場合に、そのノードの下位にあるノードを発火させるので、ユーザが期待する音声案内を迅速かつ適時に提供することができ、自然な対話を継続させることができる。
With the above configuration, the
また、対話制御装置100が直前に提示した質問にしかユーザ発話による応答ができないといった制限を取り除き、対話制御装置100が過去に提示した質問にも直接応答できるようにすることで、自然な対話を継続させることができ、ユーザの対話制御装置100に対する親近感を高め、対話制御装置100の継続利用を促すことができる。
Further, by removing the restriction that only the question presented by the
以上、本発明の好ましい実施例について詳説したが、本発明は、上述した実施例に制限されることはなく、本発明の範囲を逸脱することなしに上述した実施例に種々の変形及び置換を加えることができる。 Although the preferred embodiments of the present invention have been described in detail above, the present invention is not limited to the above-described embodiments, and various modifications and substitutions can be made to the above-described embodiments without departing from the scope of the present invention. Can be added.
例えば、上述の実施例では、各ノードが下位のノードへの移行条件(下位のノードを発火させるための発火条件)及びその移行条件を構成する音声認識対象語に関する情報を有するが、各ノードが自身の発火条件及びその発火条件を構成する音声認識対象語を有するようにしてもよい。 For example, in the above-described embodiment, each node has information on the transition condition to the lower node (ignition condition for firing the lower node) and the speech recognition target words constituting the transition condition. You may make it have the speech recognition target word which comprises its own ignition conditions and the ignition conditions.
また、対話制御装置100は、シナリオに沿って音声案内を出力しながらユーザの発話を認識して次に出力する音声案内を決定するというように、音声による入出力に基づく構成であるが、液晶ディスプレイ等の表示装置にテキストデータを表示しながらキーボード等を介したユーザによるテキスト入力を認識して次に表示するテキストデータを決定するというように、テキストによる入出力に基づく構成となるようにしてもよい。
In addition, the
この場合、シナリオは、テキスト案内データと次のテキスト案内データに移行するための移行条件を定める認識対象語とを有するノードで構成され、認識対象語は、ユーザによるテキスト入力が期待される語句として予め登録される。 In this case, the scenario is composed of nodes having text guidance data and a recognition target word that defines a transition condition for transitioning to the next text guidance data, and the recognition target word is a word that is expected to be input by the user. Registered in advance.
また、音声取得部2は、キーボード、マウス又はタッチパネル等のテキスト入力部に置き換えられ、音声出力部4は、液晶ディスプレイ等のテキスト出力部に置き換えられる。
The
なお、入力を音声、出力をテキストに基づく構成とし、或いは、入力をテキスト、出力を音声に基づく構成としてもよい。 The input may be configured based on voice and the output based on text, or the input may be configured based on text and the output based on speech.
1 制御部
2 音声取得部
3 記憶部
4 音声出力部
10 音声認識手段
11 データ提供手段
12 ノード記録手段
13 音声認識対象語取得手段
14 次出力決定手段
30 シナリオデータベース
31 対話履歴データベース
50 音声案内データ部
51 音声認識対象語部
100 対話制御装置
140 ドメイン判定手段
141 類似シナリオ検索手段
142 話題転換手段
143 対話終了手段
N1〜N7 ノード
DESCRIPTION OF
Claims (7)
ユーザ入力をテキストデータとして認識する認識手段と、
出力した案内データを有するノードを記録するノード記録手段と、
前記ノード記録手段が記録したノードに対応する認識対象語を取得する認識対象語取得手段と、
前記認識手段が認識したテキストデータと前記認識対象語取得手段が取得した認識対象語とに基づいて次に出力させる案内データを決定する次出力決定手段と、
を備えることを特徴とする対話制御装置。 A dialogue control device for controlling dialogue with a user in accordance with a scenario composed of nodes having guidance data and recognition target words for defining user input for starting output of the guidance data,
Recognition means for recognizing user input as text data;
Node recording means for recording a node having the output guidance data;
Recognition target word acquisition means for acquiring a recognition target word corresponding to the node recorded by the node recording means;
Next output determining means for determining guide data to be output next based on the text data recognized by the recognition means and the recognition target word acquired by the recognition target word acquiring means;
A dialogue control apparatus comprising:
ことを特徴とする請求項1に記載の対話制御装置。 The next output determining means, when the recognition target word acquired by the recognition target word acquisition means is included in the text data recognized by the recognition means, next outputs guidance data possessed by a node corresponding to the recognition target word Decide as guidance data to be
The dialogue control apparatus according to claim 1, wherein
前記ユーザ入力は、音声又はテキストによる入力である、
ことを特徴とする請求項1又は2に記載の対話制御装置。 The output of the guidance data is output by voice or text,
The user input is input by voice or text.
The dialogue control apparatus according to claim 1 or 2, wherein
ユーザ入力をテキストデータとして認識する認識ステップと、
出力した案内データを有するノードを記録するノード記録ステップと、
前記ノード記録ステップにおいて記録されたノードに対応する認識対象語を取得する認識対象語取得ステップと、
前記認識ステップにおいて認識されたテキストデータと前記認識対象語取得ステップにおいて取得された認識対象語とに基づいて次に出力させる案内データを決定する次出力決定ステップと、
を備えることを特徴とする対話制御方法。 A dialogue control method for controlling dialogue with a user in accordance with a scenario composed of nodes having guidance data and recognition target words for defining user input for starting output of the guidance data,
A recognition step for recognizing user input as text data;
A node recording step for recording a node having the output guidance data;
A recognition target word acquisition step of acquiring a recognition target word corresponding to the node recorded in the node recording step;
A next output determination step of determining guidance data to be output next based on the text data recognized in the recognition step and the recognition target word acquired in the recognition target word acquisition step;
A dialogue control method comprising:
ことを特徴とする請求項4に記載の対話制御方法。 In the next output determining step, when the recognition target word acquired in the recognition target word acquisition step is included in the text data recognized in the recognition step, the guidance data included in the node corresponding to the recognition target word is Determined as guidance data to be output to
The dialogue control method according to claim 4, wherein:
前記ユーザ入力は、音声又はテキストによる入力である、
ことを特徴とする請求項4又は5に記載の対話制御方法。 The output of the guidance data is output by voice or text,
The user input is input by voice or text.
6. The dialogue control method according to claim 4 or 5, wherein
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007005127A JP2008170817A (en) | 2007-01-12 | 2007-01-12 | Interaction control device, interaction control method and interaction control program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007005127A JP2008170817A (en) | 2007-01-12 | 2007-01-12 | Interaction control device, interaction control method and interaction control program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008170817A true JP2008170817A (en) | 2008-07-24 |
Family
ID=39698945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007005127A Pending JP2008170817A (en) | 2007-01-12 | 2007-01-12 | Interaction control device, interaction control method and interaction control program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008170817A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011030372A1 (en) * | 2009-09-09 | 2011-03-17 | 株式会社 東芝 | Speech interaction device and program |
JP2016045584A (en) * | 2014-08-20 | 2016-04-04 | ヤフー株式会社 | Response generation device, response generation method, and response generation program |
JP2018181018A (en) * | 2017-04-14 | 2018-11-15 | 株式会社エルブズ | Conversation providing device, conversation providing method, and program |
CN109243463A (en) * | 2017-07-10 | 2019-01-18 | 三星电子株式会社 | Remote controler and its method for receiving user speech |
JP7488871B2 (en) | 2022-02-18 | 2024-05-22 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Dialogue recommendation method, device, electronic device, storage medium, and computer program |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006349954A (en) * | 2005-06-15 | 2006-12-28 | Fujitsu Ltd | Dialog system |
-
2007
- 2007-01-12 JP JP2007005127A patent/JP2008170817A/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006349954A (en) * | 2005-06-15 | 2006-12-28 | Fujitsu Ltd | Dialog system |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011030372A1 (en) * | 2009-09-09 | 2011-03-17 | 株式会社 東芝 | Speech interaction device and program |
JP2016045584A (en) * | 2014-08-20 | 2016-04-04 | ヤフー株式会社 | Response generation device, response generation method, and response generation program |
JP2018181018A (en) * | 2017-04-14 | 2018-11-15 | 株式会社エルブズ | Conversation providing device, conversation providing method, and program |
CN109243463A (en) * | 2017-07-10 | 2019-01-18 | 三星电子株式会社 | Remote controler and its method for receiving user speech |
CN109243463B (en) * | 2017-07-10 | 2023-12-05 | 三星电子株式会社 | Remote controller and method for receiving user voice thereof |
JP7488871B2 (en) | 2022-02-18 | 2024-05-22 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Dialogue recommendation method, device, electronic device, storage medium, and computer program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11398236B2 (en) | Intent-specific automatic speech recognition result generation | |
JP7234926B2 (en) | Information processing device, information processing system, information processing method, and program | |
US20230206940A1 (en) | Method of and system for real time feedback in an incremental speech input interface | |
JP4846336B2 (en) | Conversation control device | |
US10917758B1 (en) | Voice-based messaging | |
JP4849662B2 (en) | Conversation control device | |
JP4849663B2 (en) | Conversation control device | |
KR101888801B1 (en) | Device, method, and user interface for voice-activated navigation and browsing of a document | |
US9405741B1 (en) | Controlling offensive content in output | |
US11687526B1 (en) | Identifying user content | |
US9922650B1 (en) | Intent-specific automatic speech recognition result generation | |
WO2007088877A1 (en) | Conversation system and conversation software | |
US11355115B2 (en) | Question answering for a voice user interface | |
WO2020098756A1 (en) | Emotion-based voice interaction method, storage medium and terminal device | |
JP5263875B2 (en) | Computer system, speech recognition method and computer program for speech recognition | |
KR20190051600A (en) | Apparatus and method for recommending function of vehicle | |
JP2008083100A (en) | Voice interactive device and method therefor | |
JP2008170817A (en) | Interaction control device, interaction control method and interaction control program | |
CN107221323A (en) | Method for ordering song by voice, terminal and storage medium | |
US20070256435A1 (en) | Air Conditioner Control Device and Air Conditioner Control Method | |
US11961507B2 (en) | Systems and methods for improving content discovery in response to a voice query using a recognition rate which depends on detected trigger terms | |
JP6644141B2 (en) | Response device, control method of response device, and control program | |
WO2016104193A1 (en) | Response determination device, speech interaction system, method for controlling response determination device, and speech interaction device | |
JP4909053B2 (en) | Data providing apparatus, data providing method, and data providing program | |
JP2002268667A (en) | Presentation system and control method therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110524 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110704 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111115 |