JP2006189730A - Speech interactive method and speech interactive device - Google Patents
Speech interactive method and speech interactive device Download PDFInfo
- Publication number
- JP2006189730A JP2006189730A JP2005003119A JP2005003119A JP2006189730A JP 2006189730 A JP2006189730 A JP 2006189730A JP 2005003119 A JP2005003119 A JP 2005003119A JP 2005003119 A JP2005003119 A JP 2005003119A JP 2006189730 A JP2006189730 A JP 2006189730A
- Authority
- JP
- Japan
- Prior art keywords
- dialog
- recognition
- vocabulary
- recognized
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、ユーザからの音声入力に応じて対話を行う音声対話方法および音声対話装置に関する。 The present invention relates to a voice dialogue method and a voice dialogue apparatus that conduct a dialogue in response to voice input from a user.
従来、ユーザからの音声入力に応じて対話を行う音声対話システムにおいて、ユーザの音声入力に対して正確な音声認識ができずに、円滑に対話が進まない状況に対処するために、いろいろな手法が提案されている。このような手法として、ユーザの再入力に対して、過去の認識結果の1位の語彙を認識対象から除き、過去の認識候補と、今回の処理で得た認識候補との双方を用いて認識結果を決定する音声認識装置が開示されている(例えば、特許文献1参照)。また、誤認識の回数をカウントし、そのカウント値が閾値よりも大きくなつた場合に、会話モ−ドから選択モ−ドへ変更が行われる会話音声理解方法が開示されている(例えば、特許文献2参照)。また、装置が応答を提示し終えた時刻から次に装置に音声が入力されるまでの入力間隔を用いて対話主導権を切り替える対話型情報検索システムが開示されている(例えば、特許文献3参照)。
しかしながら、前記のような従来の手法においては、認識対象語彙を少なくすることにより認識精度を向上させたりユーザの入力回数や入力時間を基に対話制御を変更したりすることにより対話を円滑に進めようとするものであるが、各対話状態において同一の制御を行うため、必ずしも対話を円滑に進めることができない。 However, in the conventional method as described above, the dialogue is smoothly advanced by improving the recognition accuracy by reducing the recognition target vocabulary or changing the dialogue control based on the number of inputs and the input time of the user. However, since the same control is performed in each dialog state, the dialog cannot always proceed smoothly.
例えば、選択を行うような対話状態においては、ユーザはシステムがその場面で受け付けることが可能な語彙(以下単に認識対象語彙)を発話することが多く、また認識対象語彙も少ないので特許文献1のような手法は有効であるが、検索キーワードを入力するような対話状態においては、通常ユーザはシステムがその場面で受け付けることができない語彙(以下単に認識対象外語彙)を発話することが多く、また認識対象語彙も多いので特許文献1のような手法は有効ではない。
For example, in a dialog state where selection is performed, the user often utters a vocabulary (hereinafter simply referred to as a recognition target vocabulary) that the system can accept in the scene, and the recognition target vocabulary is also small. Although such a technique is effective, in a dialogue state in which a search keyword is entered, the user usually utters a vocabulary (hereinafter simply referred to as a non-recognized vocabulary) that the system cannot accept, Since there are many recognition target vocabularies, the technique as in
また、特許文献2の会話音声理解方法では、誤認識の回数が一定の閾値より大きくなると対話制御を会話モードから選択モードに切り替えるが、この閾値を変更することが無いため、前記のような対話状態の違いに関係なく同じ動作をするため、無駄な聞き返しを多く行ってしまうことが生じる。
Further, in the conversation speech understanding method of
そこで、本発明はこのような従来の課題を解決するためになされたものであって、対話を円滑に進め、かつユーザの負担を軽減することができる音声対話方法および音声対話装置を提供することを目的とする。 Therefore, the present invention has been made to solve such a conventional problem, and provides a voice dialogue method and a voice dialogue apparatus capable of smoothly promoting dialogue and reducing the burden on the user. With the goal.
上記目的を達成するため、本発明に係る音声対話方法は、音声を入力して対話する音声対話方法であって、入力された音声を認識して認識結果を出力する音声認識ステップと、現在の対話状態においてユーザが認識可能な語彙を把握している可能性の度合を示す認識語彙既知度合を決定する認識語彙既知度合決定ステップと、前記音声認識ステップにおいて認識された前記認識結果と前記認識語彙既知度合決定ステップにおいて決定された前記認識語彙既知度合とに基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、前記対話決定ステップにおいて決定された対話内容を出力する出力ステップとを含むことを特徴とする。 In order to achieve the above object, a speech dialogue method according to the present invention is a speech dialogue method in which a speech is inputted to perform a dialogue, which recognizes the inputted speech and outputs a recognition result; A recognition vocabulary known degree determination step for determining a recognition vocabulary known degree indicating a degree of possibility of grasping a vocabulary recognizable by a user in a dialog state, the recognition result recognized in the speech recognition step, and the recognition vocabulary Based on the recognized vocabulary known degree determined in the known level determining step, a dialog determining step for determining the next dialog state and the dialog content in the dialog state, and outputting the dialog content determined in the dialog determining step And an output step.
これによって、ユーザが各対話状態において、認識可能な語彙を把握している可能性を考慮した対話制御が可能となり、ユーザにとってより負担が少なく、円滑に対話制御を行うことができる。 Accordingly, it is possible to perform dialogue control in consideration of the possibility that the user grasps a recognizable vocabulary in each dialogue state, and the dialogue control can be performed smoothly with less burden on the user.
また、前記認識語彙既知度合決定ステップでは、対象の対話状態における入力モード毎の前記認識語彙既知度合をあらかじめ格納した既知度合テーブルを用いて、前記認識語彙既知度合を決定してもよい。 In the recognized vocabulary known degree determination step, the recognized vocabulary known degree may be determined using a known degree table in which the recognized vocabulary known degree for each input mode in the target dialog state is stored in advance.
これによって、簡単に認識語彙既知度合を決定することが可能となり、ユーザにとってより負担が少なく、円滑な対話を実現することができる。 As a result, it is possible to easily determine the recognized vocabulary known degree, and it is possible to realize a smooth conversation with less burden on the user.
また、前記認識語彙既知度合決定ステップでは、対象の対話状態における入力モード、認識語彙の変動に関する認識語彙変動情報、認識語彙の属性を示す認識語彙属性情報、全認識対象語彙数、表示認識対象語彙数、ユーザ自身の情報、ユーザのシステム使用履歴、対話進行状態、画面や応答音声による認識語彙に関する情報量の少なくとも一つを用いて、前記認識語彙既知度合を算出してもよい。 In the recognition vocabulary known degree determination step, the input mode in the target conversation state, the recognition vocabulary fluctuation information regarding the fluctuation of the recognition vocabulary, the recognition vocabulary attribute information indicating the attributes of the recognition vocabulary, the total number of recognition target words, the display recognition target word The recognized vocabulary known degree may be calculated by using at least one of the number, the user's own information, the user's system usage history, the dialog progress state, and the amount of information related to the recognized vocabulary based on the screen and response voice.
これによって、例えばユーザや現在の対話進行状況に応じて、より精度よく認識語彙既知度合を求めることが可能となり、ユーザにとってより負担が少なく、円滑な対話を実現することができる。 Accordingly, for example, the recognition vocabulary known degree can be obtained more accurately according to the user and the current progress of the conversation, and a smooth conversation can be realized with less burden on the user.
また、前記対話決定ステップでは、前記認識語彙既知度合を示すための表示または音声応答の少なくとも1つを作成し、前記出力ステップでは、前記対話決定ステップにより作成された前記認識語彙既知度合を示す表示または音声応答の少なくとも1つを出力してもよい。 In the dialog determining step, at least one of a display or a voice response for indicating the recognized vocabulary known level is created, and in the outputting step, a display indicating the recognized vocabulary known level created by the dialog determining step is created. Alternatively, at least one of voice responses may be output.
これによって、ユーザに対して認識語彙既知度合、すなわち認識受理可能度合を伝えることになるので、ユーザの理解が深まり、円滑な対話を実現することができる。 As a result, the recognized vocabulary known level, that is, the recognized receivability level, is communicated to the user, so that the user's understanding is deepened and a smooth conversation can be realized.
また、前記対話決定ステップでは、前記対話内容に前記音声認識ステップにおける認識対象語彙に関する説明を含めるか否かを前記認識語彙既知度合に基づいて決定してもよい。 Further, in the dialogue determination step, whether or not to include an explanation about the recognition target vocabulary in the speech recognition step may be determined based on the recognition vocabulary known degree.
これによって、ユーザに適した出力が可能となり、よりユーザのレベルに応じた、円滑な対話を実現することができる。 As a result, an output suitable for the user is possible, and a smoother dialog according to the level of the user can be realized.
また、前記対話決定ステップでは、前記音声認識ステップにおいて認識された前記認識結果を未知語と判定した場合、前記対話内容を再度入力を促す対話内容とするか、または詳細な対話内容とするかを前記認識語彙既知度合に基づいて決定してもよい。 In the dialog determination step, if the recognition result recognized in the voice recognition step is determined to be an unknown word, whether the dialog content is a dialog content that prompts input again or a detailed dialog content. You may determine based on the said recognition vocabulary known degree.
また、前記対話決定ステップでは、前記再度入力を促す対話内容と決定した際、再入力回数に応じて前記音声認識ステップにおける音声認識用パラメータを変更してもよい。 Further, in the dialog determination step, when the dialog content that prompts input again is determined, the voice recognition parameter in the voice recognition step may be changed according to the number of re-inputs.
また、前記対話決定ステップでは、前記詳細な対話内容と決定した際、さらに前記認識語彙既知度合に基づいて対話内容を変更してもよい。 In the dialog determining step, when the detailed dialog content is determined, the dialog content may be further changed based on the recognized vocabulary known level.
これによって、認識語彙既知度合に応じた円滑な対話を実現することができる。
また、本発明に係る情報検索方法は、音声を入力して情報を検索する情報検索方法であって、入力された音声を認識して認識結果を出力する音声認識ステップと、現在の対話状態においてユーザが認識可能な語彙を把握している可能性の度合を示す認識語彙既知度合を決定する認識語彙既知度合決定ステップと、前記音声認識ステップにおいて認識された前記認識結果と前記認識語彙既知度合決定ステップにおいて決定された前記認識語彙既知度合とに基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、前記対話決定ステップにおいて決定された対話内容を出力する出力ステップと、前記出力ステップにおいて出力されている前記対話内容が情報検索を受け付ける内容である場合に、前記音声認識ステップにおいて認識された前記認識結果に基づいて情報を検索する情報検索ステップとを含むことを特徴とする。
As a result, it is possible to realize a smooth dialogue according to the recognized vocabulary known degree.
The information search method according to the present invention is an information search method for searching for information by inputting voice, in a voice recognition step of recognizing the input voice and outputting a recognition result, A recognition vocabulary known degree determination step for determining a recognition vocabulary known degree indicating a degree of possibility of grasping a vocabulary recognizable by the user, and the recognition result recognized in the speech recognition step and the recognition vocabulary known degree determination. A dialog determination step for determining a next dialog state and a dialog content in the dialog state based on the recognized vocabulary known degree determined in the step; and an output step for outputting the dialog content determined in the dialog determination step; When the dialogue content output in the output step is content for accepting an information search, the voice recognition Characterized in that it comprises an information retrieval step of retrieving information on the basis of the recognized the recognition result in step.
これによって、ユーザが各対話状態において、認識可能な語彙を把握している可能性を考慮した対話制御が可能となり、ユーザにとってより負担が少なく、円滑な対話で情報検索を行うことができる。 As a result, it is possible to perform dialogue control in consideration of the possibility that the user grasps a recognizable vocabulary in each dialogue state, and the information retrieval can be performed in a smooth dialogue with less burden on the user.
なお、本発明は、このような音声対話方法および情報検索方法として実現することができるだけでなく、このような音声対話方法が備える特徴的なステップを手段とする音声対話装置および情報検索装置として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。 The present invention can be realized not only as such a voice interaction method and information retrieval method, but also as a voice interaction device and information retrieval device using the characteristic steps of such a voice interaction method as means. It can also be realized as a program that causes a computer to execute these steps. Needless to say, such a program can be distributed via a recording medium such as a CD-ROM or a transmission medium such as the Internet.
本発明に係る音声対話方法および音声対話装置によれば、ユーザが認識可能な語彙を把握している可能性を考慮した対話制御が可能となり、ユーザにとってより負担の少ない円滑な対話が実現することができる。 According to the voice dialogue method and the voice dialogue apparatus according to the present invention, dialogue control considering the possibility of grasping a vocabulary recognizable by the user is possible, and smooth dialogue with less burden on the user is realized. Can do.
以下、本発明の各実施の形態について、それぞれ図面を参照しながら説明する。
(実施の形態1)
図1は本発明の実施の形態1に係る音声対話方法を用いた音声対話型情報検索装置の構成を示すブロック図である。
Embodiments of the present invention will be described below with reference to the drawings.
(Embodiment 1)
FIG. 1 is a block diagram showing a configuration of a voice interactive information retrieval apparatus using the voice interactive method according to
音声対話型情報検索装置は、音声を入力して対話しながら情報を検索する装置であり、図1に示すように音声認識部101、音声認識辞書102、モデル記憶部103、認識語彙既知度合決定部104、認識語彙既知度合記憶部105、対話決定部106、ユーザ情報入力部107、データベース検索部108、データベース記憶部109、および応答音声・画面出力部110を備えている。
The voice interactive information search device is a device that searches for information while inputting voice and interacting with it. As shown in FIG. 1, the
音声認識部101は、音声認識辞書102およびモデル記憶部103を用いて、ユーザより入力された音声の音声認識を行い、認識結果を出力する。音声認識辞書102は、認識対象語彙が登録されている辞書である。モデル記憶部103は、音響モデルや言語モデルを記憶している。認識語彙既知度合記憶部105は、各対話状態においてユーザが認識対象語彙を把握している可能性を示す認識語彙既知度合を格納している認識語彙既知度合テーブルを記憶している。
The
認識語彙既知度合決定部104は、対話決定部106より入力される現在の対話状態に関する情報で認識語彙既知度合テーブルを検索することにより、現在の対話状態における認識語彙既知度合を決定する。対話決定部106は、音声認識部101より入力される音声認識結果と、認識語彙既知度合決定部104より入力される認識語彙既知度合に基づいて、次の対話状態およびこの対話状態での画面と応答音声とを決定し、必要があればデータベース検索をデータベース検索部108に要求する。
The recognized vocabulary known
ユーザ情報入力部107は、ユーザの性別や年齢などのユーザ情報を入力する。データベース検索部108は、対話決定部106からの情報検索要求に対し、データベース記憶部109に記憶されている情報検索用データベースから情報の検索を行う。データベース記憶部109は、情報検索用データベースを記憶している。応答音声・画面出力部110は、対話決定部106で決定された対話状態での画面や応答音声を出力する。
The user
次に、上記のように構成された音声対話型情報検索装置において、番組情報を検索する際の動作について説明する。図2は音声対話型情報検索装置での対話全体の動作の流れを示すフローチャートである。 Next, an operation when searching for program information in the voice interactive information search apparatus configured as described above will be described. FIG. 2 is a flowchart showing the flow of the entire dialogue in the voice dialogue type information retrieval apparatus.
対話決定部106は対話開始の対話状態を決定し、決定した対話状態での画面と応答音声を決定し、応答音声・画面出力部110から出力することで、ユーザに対して入力要求を行う(ステップS101)。ここで、対話状態とは、対話決定部106で予め決定されているか、もしくは作成される対話の状態遷移全体における一状態を示し、多くの場合、システムの各状態に対応する。図3は具体的な出力画面例を示す図である。ここでは、例えば図3に示すように番組情報を検索する際のメニュー画面が出力され、システム応答として、エージェントの吹き出しの内容が応答音声として音声出力される。なお、吹き出し自体も画面表示してもよい。また、この例では図3における認識可能な語彙は四角で囲まれた「番組名検索」、「今放送中の番組」、…等の語彙のみである。
The
現在の対話状態が決定すると、認識語彙既知度合決定部104は、対話決定部106より入力される現在の対話状態で認識語彙既知度合テーブルを検索することにより、現在の対話状態における認識語彙既知度合を決定する(ステップS102)。図4は認識語彙既知度合テーブルの具体的な例を示す図である。ここで、項目401は対話状態であり、項目402は各対話状態における認識語彙既知度合が格納されている。この例では認識語彙既知度合は0から1までを取り得るパラメータで1に近いほどユーザがシステムの受理可能な語彙、すなわち認識対象語彙を知っていることを示す。例えば、現在の対話状態が「メニュー」であるとすると、認識語彙既知度合決定部104は、対話決定部106より入力される現在の対話状態「メニュー」で認識語彙既知度合テーブルを検索することにより、現在の対話状態における認識語彙既知度合として「0.98」を対話決定部106に出力する。
When the current conversation state is determined, the recognized vocabulary known
なお、この認識語彙既知度合テーブルは予め評価実験等により各対話状態に対して求めておくものである。具体的には、例えば複数人の被験者にシステムを利用してもらい、各対話状態において、どのような発声が行われたかを記録する。その記録に基づき、ユーザが各対話状態において認識可能語彙を発声した割合を計算し、それを認識語彙既知度合としても良いし、さらに、ユーザが各対話状態に遷移してからユーザが発声するまでにかかった時間を加味しても良い。また、直接ユーザに各対話状態で発声する語彙が分かるかアンケートを取りつつ評価実験を進めその結果を集計して認識語彙既知度合を求めても良い。また、評価を年齢別や性別ごとに行い、認識語彙既知度合テーブルを複数用意しても良い。その場合、対話決定部106はユーザ情報入力部107より入力されたユーザ情報を認識語彙既知度合決定部104に出力し、認識語彙既知度合決定部104は対話決定部106より入力されたユーザ情報を基にどの認識語彙既知度合テーブルを利用するか決定する。
This recognized vocabulary known degree table is obtained in advance for each dialog state by an evaluation experiment or the like. Specifically, for example, a plurality of subjects are asked to use the system, and what utterances are made in each dialogue state is recorded. Based on the record, the ratio of the user uttering a recognizable vocabulary in each dialog state may be calculated and used as the recognition vocabulary known level, and further, after the user transitions to each dialog state until the user utters You may take into account the time it took. Further, it is possible to obtain a recognition vocabulary known degree by advancing an evaluation experiment while taking a questionnaire as to whether the user can know the vocabulary uttered in each dialog state directly. Further, the evaluation may be performed for each age and sex, and a plurality of recognized vocabulary known degree tables may be prepared. In this case, the
次に、対話決定部106からの現在の対話状態で認識可能な語彙の辞書登録と音声認識実行の要求により、音声認識部101は、上記の入力要求に対して発声されたユーザの音声入力について音声認識を実行し、認識結果を出力する(ステップS103)。音声認識部101は、認識結果として複数の候補およびそれぞれの候補の詳細な情報を出力すると共に、未知語判定結果も出力する。なお、未知語とはシステムにとって未知の語、すなわちシステムの認識対象外語であり、ユーザが認識対象語彙外の発声を行ったとき、ユーザが未知語を発声したという表現をする。例えば、図3における認識可能な語彙は四角で囲まれた語彙のみであるのに対し、「今何時」と言った発声は未知語発声であるとする。
Next, in response to a dictionary registration of a vocabulary that can be recognized in the current dialog state and a speech recognition execution request from the
図5は音声認識部101が出力する認識結果の具体的な例を示す図である。ここで、項目501は候補順位であり認識スコア(項目506)によって順位付けされた認識結果である。項目502は認識結果文字列、項目503は認識日時、項目504は認識区間であり、ユーザの発声において音声認識に利用された音声区間の長さを示す。項目505は辞書単語数であり、認識が行われた対話状態における認識対象語彙数を示す。項目506は認識スコアであり、認識の確からしさを示す。項目507は未知語スコアであり、ユーザが認識対象外語彙を発声した可能性の度合を示す。ここでは未知語スコアが負であればユーザの発声は既知語、すなわちシステムの認識対象語であり、未知語スコアが正であれば、ユーザの発声は未知語、すなわち認識対象外語彙であると音声認識部101が判断したことを示す。
FIG. 5 is a diagram illustrating a specific example of the recognition result output by the
次に、対話決定部106は、認識語彙既知度合決定部104により決定された認識語彙既知度合と、音声認識部101で認識された認識結果とに基づいて、次に行う対話状態を決定する(ステップS104)。このとき対話決定部106で行われる対話制御を説明する。図6は対話決定部106の動作の流れを示すフローチャートである。
Next, the
まず、対話決定部106は、認識語彙既知度合および認識結果の取得を行う(ステップS201)。次に、対話決定部106は、認識結果を基にユーザ入力音声が未知語であるか否かの判断を行う(ステップS202)。ここで、ユーザ入力音声が未知語または誤認識訂正発話でないと判断した場合(ステップS202でNO)、対話決定部106は、認識結果に基づく次の対話状態の決定を行う(ステップS203)。なお、ここで次の対話状態を決定するために情報検索等の処理が必要であれば行われる。
First, the
具体的には、図2で示す対話状態「メニュー」において、ユーザによって「番組名検索」と音声入力された場合、番組名検索を行う対話状態に対話を遷移させる。対話決定部106は、遷移させた対話状態である「番組名検索」における出力画面と応答音声とを決定する。そして、決定された出力画面と応答音声とが応答音声・画面出力部110から出力される。具体的な例として、「番組名検索」の対話状態へ進んだ場合の画面例を図7に示す。この対話状態での応答音声は「検索したい番組名を言ってください」である。
Specifically, in the dialog state “menu” shown in FIG. 2, when the user inputs “program name search” by voice, the dialog is shifted to the dialog state in which the program name search is performed. The
一方、上記判断おいて、ユーザ入力音声が未知語であると判断した場合(ステップS202でYES)、対話決定部106は、認識語彙既知度合が所定の第1閾値より大きいか否かの判定を行う(ステップS204)。この第1閾値は対話決定部106が保持する値であり、具体的には、例えば「0.8」であるとする。この判定により、対話制御を変更する。なお、この第1閾値も認識語彙既知度合テーブルにおける認識語彙既知度の決定方法と同じように評価実験を行い適当な値を決定することができる。ここで、認識語彙既知度合が第1閾値より大きい場合(ステップS204でYES)には、対話決定部106は対話状態を変えず、再入力を促すものと決定する(ステップS205)。一方、認識語彙既知度合が第1閾値以下である場合(ステップS204でNO)には、対話決定部106は、後述する、認識語彙既知度合に基づいた詳細対話を行うものと決定する(ステップS206)。
On the other hand, in the above determination, when it is determined that the user input speech is an unknown word (YES in step S202), the
具体的な動作例としては、図2で示す対話状態「メニュー」において、ユーザによって「番組名検索」と音声入力されたが、音声認識部101の出力として未知語であると判定された場合、対話状態「メニュー」における認識語彙既知度合は「0.98」であるので、認識語彙既知度合>第1閾値が成立する。この場合、対話決定部106は対話状態を変えず、再入力の応答音声「すいません、もう一度御願いします」を応答音声・画面出力部110へ出力する。なお、再入力の際には対話決定部106は認識精度を向上させるため、認識用パラメータの変更や認識辞書の縮小などを行ってもよい。具体的には未知語判定の閾値を下げたり、認識用音響モデルを発声に適応することでより認識しやすくしたり、前回の1位の認識結果を辞書から取り除いたりする方法が考えられる。さらに、第1閾値の値を上げることにより、詳細対話(ステップS206)に進みやすくしてもよい。なお、これらの処理で行われた認識用パラメータの処理や第1閾値の変更は、対話状態が新たになったときにクリアされるものとする。
As a specific operation example, in the dialog state “menu” shown in FIG. 2, when a user inputs “program name search” as a voice, but is determined as an unknown word as an output of the
対話決定部106は、上記のように次の対話状態を決定すると、決定した対話状態が検索終了を示す対話状態であるか否かの判断を行う(ステップS105)。決定した対話状態が検索終了を示す対話状態である場合(ステップS105でYES)には、対話は終了する。一方、決定した対話状態が検索終了でない場合(ステップS105でNO)には、認識語彙既知度合の決定処理(ステップS102)へ進み、以後上記と同じ動作を行う。
When the
次にデータベース検索を行う対話についての動作例を説明する。具体的には現在の対話状態が「番組名検索」である動作例を説明する。この出力画面は図7であり、応答音声は「検索したい番組名を言って下さい」である。 Next, an operation example of a dialog for performing a database search will be described. Specifically, an operation example in which the current dialog state is “program name search” will be described. This output screen is shown in FIG. 7, and the response voice is “Please say the name of the program you want to search”.
上記と同様に、認識語彙既知度合決定部104は、対話決定部106より入力される現在の対話状態で認識語彙既知度合テーブルを検索することにより、現在の対話状態における認識語彙既知度合を決定する(ステップS102)。ここでは、現在の対話状態が「番組名検索」であるので、認識語彙既知度合決定部104は認識語彙既知度合「0.68」を対話決定部106に出力する。
In the same manner as described above, the recognized vocabulary known
次に、ユーザによって「宮本武蔵」と音声入力されたとすると、音声認識部101は、上記と同様に音声認識を実行し、上記と同様に例えば図5に示すような構造で認識結果を対話決定部106に出力する(ステップS103)。
Next, assuming that the user inputs “Miyamoto Musashi” as a voice, the
対話決定部106は、認識結果と認識語彙既知度合とに基づいて、上記同様図6に示すフローチャートに従って対話状態を決定する(ステップS104)。ここで、ユーザによって入力された「宮本武蔵」が未知語ではない場合には、上記と同じく認識結果に基づく次の対話状態の決定を行う(ステップS203)。具体的には、「宮本武蔵」をキーワードとした番組検索の要求をデータベース検索部108に出力する。データベース検索部108は、対話決定部106より入力されたキーワードよる検索をデータベース記憶部109を用いて行い、検索結果を対話決定部106へ出力する。対話決定部106は、検索結果を表示した画面と、検索結果の選択を促す対話状態を次の対話状態と決定し、例えば図8に示すような画面と応答音声を応答音声・画面出力部110へ出力する。
The
一方、ユーザによって入力された「宮本武蔵」が未知語であると判定された場合には、対話決定部106は、現在の対話状態における認識語彙既知度合「0.68」と第1閾値「0.8」とを比較する。この場合、対話決定部106は、認識語彙既知度合は第1閾値より小さいので認識語彙既知度合に基づいた詳細対話を行うものと決定する(ステップS206)。このとき対話決定部106で行われる詳細対話の対話制御を説明する。図9は対話決定部106で詳細対話の対話制御を行う際の動作の流れを示すフローチャートである。
On the other hand, when it is determined that “Miyamoto Musashi” input by the user is an unknown word, the
まず、対話決定部106は、認識語彙既知度合が上記第1閾値とは別の第2閾値より大きいか否かの判定を行う(ステップS301)。ここで、認識語彙既知度合が第2閾値より大きい場合(ステップS301でYES)には、対話決定部106はその対話状態において発声可能な語彙の情報や認識文法を説明する応答音声や例を示す応答音声を決定する(ステップS302)。具体的には「ここでは、今週1週間の番組名について、音声により発声が可能です。もう一度おっしゃってください」や「『源氏物語』や『豊臣秀吉』のように番組名をおっしゃってください」という応答音声が出力される。
First, the
一方、認識語彙既知度合が第2閾値以下である場合(ステップS301でNO)には、階層型の絞込み検索を行う対話状態を次の対話状態と決定する(ステップS303)。図10は階層型の絞込み検索の画面例を示す図である。階層型絞込み検索においては、例えば図10に示すように頭文字を選択させ番組を絞りこみ、リスト表示を行う。なお、ここでは対話制御の種類を閾値1つ(第2閾値)により判定し、2種類のどちらかに振り分けたが、さらに閾値を増やし、振り分ける対話の種類を増やしてもよい。例えば、上記例の頭文字の指定を行の単位ではなく、ひらがな1文字の単位に更に絞り込む対話を行ったり、未知語である可能性を通知するだけの「すいません、その番組は有りません」といった応答を行う対話制御を行ったり、「それは何曜日の番組ですか?」や「その番組には誰がでていますか?」といった別の属性に関する質問をする応答を行う対話制御を認識語彙既知度合に基づいて行ってもよい。また、この閾値も上記認識語彙既知度合テーブルにおける認識語彙既知度の決定方法と同じように評価実験を行い適当な値を決定することができる。 On the other hand, when the recognized vocabulary known degree is equal to or smaller than the second threshold (NO in step S301), the dialog state in which the hierarchical search is performed is determined as the next dialog state (step S303). FIG. 10 is a diagram showing an example of a screen for hierarchical narrowing search. In the hierarchical narrowing search, for example, as shown in FIG. 10, an initial is selected to narrow down programs and display a list. Here, the type of dialogue control is determined by one threshold value (second threshold value) and distributed to one of the two types, but the threshold value may be further increased to increase the number of types of dialogue to be distributed. For example, “I'm sorry, there is no such program” just to have a dialog to further narrow down the designation of the initial character in the above example to a single character unit of hiragana instead of a line unit, or to notify the possibility of an unknown word Vocabulary known to perform interactive control that responds such as, or to respond to questions about other attributes such as “What day of the week is the program?” Or “Who is on that program?” You may carry out based on the degree. In addition, this threshold value can be determined by performing an evaluation experiment in the same manner as the method for determining the recognized vocabulary known level in the recognized vocabulary known level table.
以後は上記と同じ動作を行い、検索終了まで対話を行う。
以上の動作により、ユーザが各対話状態において、認識可能な語彙を把握している可能性を考慮した対話制御を行うことが可能となり、ユーザにとってより負担の少ない円滑な対話が実現できる。
Thereafter, the same operation as above is performed, and the dialogue is continued until the search is completed.
With the above operation, it is possible to perform dialogue control considering the possibility that the user grasps a recognizable vocabulary in each dialogue state, and a smooth dialogue with less burden on the user can be realized.
(実施の形態2)
上記実施の形態1によれば、各対話状態における認識語彙をユーザが把握している可能性を考慮に入れた対話制御が行えるが、認識語彙既知度合は予め学習された固定値を用いているため、日々検索対象が変わるようなコンテンツ検索の場合、すなわち認識対象語彙が一定でない場合に認識語彙既知度の精度が大きく落ちてしまい、適切な対話制御ができない。本実施の形態では、このような場合に対処するために認識語彙既知度合を算出する場合について説明する。
(Embodiment 2)
According to the first embodiment, dialogue control can be performed in consideration of the possibility that the user knows the recognized vocabulary in each dialogue state. However, the recognized vocabulary known degree uses a fixed value learned in advance. Therefore, in the case of a content search in which the search target changes every day, that is, when the recognition target vocabulary is not constant, the accuracy of the recognition vocabulary known degree greatly decreases, and appropriate dialogue control cannot be performed. In the present embodiment, a case will be described in which the recognized vocabulary known degree is calculated in order to deal with such a case.
図11は本発明の実施の形態2に係る音声対話方法を用いた音声対話型情報検索装置の構成を示すブロック図である。なお、図1に示す上記実施の形態1と同様の部分については、同一の符号を付し、説明を省略する。
FIG. 11 is a block diagram showing a configuration of a voice interactive information search apparatus using the voice interactive method according to
この音声対話型情報検索装置は、上記実施の形態1の構成とは認識語彙既知度合決定部201の構成および対話決定部202における処理が異なるものであり、他は実施の形態1と同様である。
This voice interactive information search device is different from the configuration of the first embodiment in the configuration of the recognized vocabulary known
認識語彙既知度合決定部201は、算出部201aを備えている。この算出部201aは、対話決定部202より入力された対話状態に関する情報を用いて、それぞれの情報における認識語彙既知度合を算出する。さらに、算出部201aは、それぞれの情報における認識語彙既知度合を組み合わせて全体の認識語彙既知度合を算出する。
The recognized vocabulary known
次に、上記のように構成された音声対話型情報検索装置において、番組情報を検索する際の動作について説明する。図12は音声対話型情報検索装置の動作の流れを示すフローチャートである。 Next, an operation when searching for program information in the voice interactive information search apparatus configured as described above will be described. FIG. 12 is a flowchart showing the operation flow of the voice interactive information search apparatus.
対話決定部202は、上記実施の形態1と同様に対話開始の対話状態を決定し、決定した対話状態での画面と応答音声を決定し、応答音声・画面出力部110から出力することで、ユーザに対して入力要求を行う(ステップS401)。
As in the first embodiment, the
次に、対話決定部202は、現在の対話状態を決定すると、認識語彙既知度合決定部201に現在の対話状態に関する情報を出力する(ステップS402)。具体的には、ある対話状態Siにおける情報として、入力モード情報、固定語彙なのか変動語彙なのか、さらに変動語彙であればどの程度の時間間隔で変動する語彙なのかを現す認識語彙変動情報、認識語彙の属性を表す認識語彙属性情報、全認識対象語彙数、および、画面で表示されている表示認識対象語彙数を出力する。
Next, when determining the current dialog state, the
より具体的には、入力モード情報とは、例えば図2に示すような「選択型の入力画面」や例えば図7に示すような「自由型入力画面目」等の入力モード情報である。また、「固定語彙」とは、例えば図2に示すようなメニュー画面における選択用の語彙のように対象の対話状態において常に同一の認識対象語彙であり、「変動語彙」とは例えば図5に示すような番組名検索画面における日々更新される番組名のように、同一対話状態において、認識語彙が一定でない語彙である。また、認識語彙属性情報とは。例えば「コマンド」「番組名」「出演者名」「ジャンル名」「日時」「数字」といった語彙の属性を示す情報である。 More specifically, the input mode information is input mode information such as a “selective input screen” as shown in FIG. 2 and a “free input screen” as shown in FIG. Further, the “fixed vocabulary” is always the same recognition target vocabulary in the target dialog state, such as the vocabulary for selection on the menu screen as shown in FIG. 2, and the “variable vocabulary” is shown in FIG. The recognized vocabulary is a vocabulary that is not constant in the same dialog state, such as a program name updated daily on the program name search screen as shown. What is recognition vocabulary attribute information? For example, it is information indicating vocabulary attributes such as “command”, “program name”, “performer name”, “genre name”, “date / time”, and “number”.
次に、認識語彙既知度合決定部201の算出部201aは、対話決定部202より入力された上記各対話状態に関する情報を用いて、それぞれの情報における認識語彙既知度合を算出する。ここで、入力モード情報を用いて求めた認識語彙既知度合P1、認識語彙変動情報を用いて求めた認識語彙既知度合P2、認識語彙属性情報を用いて求めた認識語彙既知度合P3、全認識対象語彙数と表示認識対象語彙数を用いて求めた認識語彙既知度合P4とする。
Next, the
具体的には、認識語彙既知度合P1は、図2に示すような選択型入力画面の方が図5に示すような自由型入力画面より高い値となる。認識語彙既知度合P2は、図2に示すような対話状態における認識対象語彙のように認識対象語彙が固定である方が図5に示すような対話状態における認識対象語彙のように変動する場合より高くなる。さらに、認識対象語彙の変動が早い方がより認識語彙既知度合P2は小さくなる。認識語彙既知度合P3は、コマンドのように共通認識度が高いものの方が番組名や出演者より高くなる。認識語彙既知度合P4は、認識対象語彙が多いほうが小さくなるが、さらに表示されていない語彙が多いほうが、小さくなる。 Specifically, the recognition vocabulary known degree P1 is higher in the selection type input screen as shown in FIG. 2 than in the free type input screen as shown in FIG. The recognition vocabulary known degree P2 is more variable when the recognition target vocabulary is fixed like the recognition target vocabulary in the dialogue state as shown in FIG. Get higher. Furthermore, the recognized vocabulary known degree P2 becomes smaller as the recognition target vocabulary changes more quickly. The recognition vocabulary known degree P3 is higher for a program having a higher common recognition degree than a program name or performer. The recognized vocabulary known degree P4 decreases as the number of recognition target words increases, but decreases as the number of vocabularies not displayed further increases.
認識語彙既知度合決定部201の算出部201aは、上記のように各対話状態に関する情報を用いて求めた現在の対話状態における認識語彙既知度合を組み合わせて下記の式1により全体の認識語彙既知度合PK(Si)を算出する(ステップS403)。
The
認識語彙既知度合決定部201は、以上のように各対話状態に関する情報を用いて求めた認識語彙既知度合を対話決定部202に出力する。この認識語彙既知度合は、対話決定部202で上記実施の形態1と同様に対話制御の判断基準として利用される。
The recognized vocabulary known
以降、音声認識処理(ステップS404)、次の対話状態の決定処理(ステップS405)、対話終了であるか否かの判断処理(ステップS406)については、上記実施の形態1と同様である。 Thereafter, the voice recognition process (step S404), the next dialog state determination process (step S405), and the process for determining whether or not the dialog is ended (step S406) are the same as those in the first embodiment.
なお、認識語彙既知度合決定部201は、算出部201aで算出した認識語彙既知度合PK(Si)と、上記実施の形態1と同様に認識語彙既知度合記憶部105に記憶されている認識語彙既知度合テーブルを用いて検索決定した認識語彙既知度合との2つの認識語彙既知度合から実際に対話制御で利用する認識語彙既知度合を決定しても良い。
The recognized vocabulary known
また、対話決定部202は、認識語彙既知度合を画面や応答音声に反映させることで、ユーザに現在の対話状態においてユーザ入力の受理可能性を伝えてもよい。図9および図10は具体的な出力画面例を示す図である。図9および図10に示すように、認識語彙既知度合を受理可能性としてバー形式や、エージェントの表情でその度合を表示したり、応答音声の大きさや韻律を変更したりしてもよい。ここでは、図9では認識語彙既知度合が高く、図10では認識語彙既知度合は低い場合を示している。
Further, the
以上のように、本実施の形態においては認識語彙既知度合を対話状態の各種情報から算出するので、日々検索対象が変わるような、例えば、EPGを用いた番組検索など認識対象語彙が一定でない場合においても認識語彙既知度合の精度向上が可能となる。よって、各対話状態に適した対話制御が行え、ユーザにとってより負担の少ない円滑な対話が実現できる。 As described above, in the present embodiment, the recognition vocabulary known degree is calculated from various pieces of information in the dialog state, and therefore the recognition target vocabulary such as a program search using EPG is not constant because the search target changes every day. The accuracy of the recognized vocabulary known level can be improved. Therefore, dialogue control suitable for each dialogue state can be performed, and smooth dialogue with less burden on the user can be realized.
(実施の形態3)
上記実施の形態2によれば、各対話状態における認識語彙をユーザが把握している可能性である認識語彙既知度合を現在の対話状態に関する情報を用いて算出し、対話制御が行えるが、ユーザや対話の進行状態によらない計算手法を用いているため、ユーザに適応した対話制御ができない。本実施の形態では、このような場合に対処するために対話履歴を用いる場合について説明する。
(Embodiment 3)
According to the second embodiment, the recognition vocabulary known degree, which is the possibility that the user knows the recognized vocabulary in each dialog state, is calculated using the information related to the current dialog state, and dialog control can be performed. Because it uses a calculation method that does not depend on the progress status of the dialog, the dialog control adapted to the user cannot be performed. In this embodiment, a case will be described in which a dialogue history is used to deal with such a case.
図15は本発明の実施の形態3に係る音声対話方法を用いた音声対話型情報検索装置の構成を示すブロック図である。なお、図1に示す上記実施の形態1と同様の部分については、同一の符号を付し、説明を省略する。
FIG. 15 is a block diagram showing a configuration of a voice interactive information search apparatus using the voice interactive method according to Embodiment 3 of the present invention. In addition, about the part similar to the said
この音声対話型情報検索装置は、上記実施の形態1の構成に加えてユーザ情報記憶部303および対話履歴記憶部304を備えている。また、認識語彙既知度合決定部301の構成および対話決定部302における処理が異なるものであり、他は実施の形態1および実施の形態2と同様である。従って、本実施の形態においては、認識語彙既知度合決定部301の動作と、対話決定部302における対話制御、また、対話決定部302で作成される上記実施の形態1および実施の形態2において記述の無い出力画面や応答音声方法について説明する。
This voice interactive information search apparatus includes a user
対話決定部302は、現在の対話状態を決定すると、現対話状態および認識結果等を対話履歴記憶部304に記憶すると共に、認識語彙既知度合決定部301に現在の対話状態に関する情報と、ユーザに関する情報、そして対話進行状態に関する情報を出力する。
When the
図16は対話履歴記憶部304に記憶されるデータの具体的な一例を示す図である。ここで、項目1201は対話状態名、項目1202は応答出力開始時刻、項目1203は認識結果であり、認識結果は例えば図5に示すような形で保存されている。項目1204は対話状態と再発声による停滞回数である。より具体的には状態の停滞回数はその対話状態における停滞回数で例えば、例えば図7に示すような番組名検索の対話状態が何回続いたかといった情報を持ち、再発声による停滞回数は同じ発声を何回続けて行っているかを示す情報である。
FIG. 16 is a diagram showing a specific example of data stored in the dialogue
項目1205は認識語彙情報通知レベルであり、画面や応答音声により認識語彙に関する情報をどの程度伝えたかを示すレベルである。図17および図18は具体的な出力画面例を示す図である。図17および図18に示す出力画面例は、同じ対話状態における出力画面であるが、認識語彙既知度合決定部301で決定される認識語彙既知度合により認識語彙に関する情報を伝える情報量を変化させた例である。図17に示す出力画面例は例えばシステムをはじめて使うユーザのように認識語彙既知度合が低い場合の例であり、図18に示す出力画面例は、図17に示す出力画面例より認識語彙既知度合が高い場合の例である。図17に示す出力画面例では認識語彙既知度合が低いため、画面の表示と応答音声にて認識対象語彙に対する情報をなるべく多くユーザに伝え、認識語彙既知度合を上げようと動作する。図18に示す出力画面例では、認識語彙既知度合が図17に示す出力画面例での値より大きくなったユーザに対して認識対象語彙に関する情報を減らした場合である。なお、応答音声は対話時間に大きく影響するため画面での出力情報より先に出力する情報を減らしてもよい。さらに認識語彙既知度合が上がると例えば図2に示すような画面となる。
An
項目1205は認識語彙既知度合であり、対象対話状態において利用した認識語彙既知度合である。なお、ここでは示さなかったが、対話履歴記憶部304には、応答音声や画面に出力された検索結果、対話開始時の対話状態を基準にした階層の深さなどの情報を記憶してもよい。
An
これらの各項目の情報が対話履歴として、図16に示すように対話の進行に伴って1行ずつ、対話履歴記憶部304に記憶されることになる。なお、図16に示す例では、最下段の状態においては、認識語彙情報通知レベルを前の状態の「2」から「6」としたことにより、認識語彙既知度合が前の状態の「0.68」から「0.72」に上がっている例を示している。
The information of each item is stored as a dialog history in the dialog
次に、対話決定部302から認識語彙既知度合決定部301に出力される情報についてより詳細に説明する。
Next, information output from the
現在の対話状態に関する情報は、上記実施の形態2で記載の情報と同一の情報である。ユーザの情報は、ユーザ情報記憶部303で記憶されている情報で、ユーザ自身の情報と、ユーザ使用履歴に関する情報である。具体的には図19に示すように、ユーザ自身の情報としては、例えば、ユーザの年齢や性別、職業や他の機器操作の頻度などがあり、ユーザ使用履歴情報としては、例えばこれまでのシステム利用における、検索達成に関する情報や同一対話状態Siを経験した回数や対話状態Siから次の対話状態Si+1に遷移するのに必要とした平均発声回数などがある。
The information regarding the current dialogue state is the same information as the information described in the second embodiment. The user information is information stored in the user
対話進行状態に関する情報は前述したように図16に示すような形式で対話履歴記憶部304に記憶される履歴情報を基に対話決定部302で作成される情報で、一つ前の対話状態から現在の対話状態までに要した時間や、認識結果、現在の対話状態に何回停滞しているか、現在の認識語彙情報通知レベルといった情報である。さらには特定の動き検出し、出力しても良い。具体的には、同じ対話状態に度々戻ったり、同じシーケンスを繰り返したりといった動作を検出する。
The information related to the dialog progress state is information created by the
認識語彙既知度合決定部301の算出部301aは、対話制御1106より入力されたユーザ自身の情報とユーザ使用履歴情報を用いてそれぞれ認識語彙既知度合を算出する。認識語彙既知度合決定部301の算出部301aは、ユーザ自身の情報を使って計算した認識語彙既知度合P5、これまで行った全ての使用履歴情報を用いて計算した認識語彙既知度合P6、対話進行状態に関する情報を用いて計算した認識語彙既知度合P7を算出する。
The
そして、認識語彙既知度合決定部301の算出部301aは、上記のようにそれぞれ算出した認識語彙既知度合を組み合わせて下記の式2により全体の認識語彙既知度合PK(Si)を算出する。
Then, the
より具体的には、この認識語彙既知度合P5は例えば高齢者や、他の情報検索システムの利用経験が少ないと小さな値となる。また、認識語彙既知度合P6はこれまでに同一対話状態の経験が少なく、その対話状態を通過するのに必要とした平均発話回数が多いほど小さな値となる。また、認識語彙既知度合P7は対話遷移に多くの時間を必要としたり、同じ対話状態に何回も停滞したりすると小さな値となる。 More specifically, the recognized vocabulary known degree P5 becomes a small value when, for example, an elderly person or other information retrieval system has little use experience. Further, the recognized vocabulary known degree P6 has a smaller value as the average number of utterances required to pass through the conversation state is less, so far the experience of the same conversation state is less. Further, the recognized vocabulary known degree P7 becomes a small value when a long time is required for the dialog transition or when the same vocabulary is stagnated many times.
これらは、予め評価実験の結果や開発者の設計により、各項目における値による認識語彙既知度合の決定ルールに従い決定することができる。これは、例えば図20に示すようなテーブルを基に決定しても良いし、IF THENのルールでより細かく設定されたプログラムにより判断してもよい。先にも述べたが、各項目における値の範囲の設定などは、例えば評価実験で得られた大量のデータを基に機械学習(例えば決定木)を用いて決定することができる。 These can be determined in advance according to a rule for determining a recognized vocabulary degree based on a value in each item based on a result of an evaluation experiment or a developer's design. This may be determined based on, for example, a table as shown in FIG. 20, or may be determined by a program set more finely by the IF THEN rule. As described above, the setting of the value range in each item can be determined using machine learning (for example, a decision tree) based on a large amount of data obtained by an evaluation experiment, for example.
なお、認識語彙既知度合決定部301は、上記実施の形態2で記載した対話状態に関する各々の情報を用いて求めた認識語彙既知度合と、上記の認識語彙既知度合P5〜P7を組み合わせて全体の認識語彙既知度合PK(Si)を下記の式3により計算することもできる。
Note that the recognized vocabulary known
本発明に係る音声対話方法および音声対話装置は、音声対話型インタフェースを持つ多くの装置に対して利用可能であり、音声認識対象語彙が時間や場所に応じて変化し、ユーザが認識対象語彙外の発声を行う可能性が高いEPG番組検索装置やカーナビゲーション装置などには特に有用であり、その利用可能性は非常に大きい。 The voice dialogue method and voice dialogue device according to the present invention can be used for many devices having a voice dialogue type interface, and the voice recognition target vocabulary changes according to time and place, and the user is outside the recognition target vocabulary. This is particularly useful for an EPG program search device, a car navigation device, and the like that are highly likely to utter the voice, and its applicability is very large.
101 音声認識部
102 音声認識辞書部
103 モデル記憶部
104、201、301 認識語彙既知度合決定部
105 認識語彙既知度合記憶部
106、202、302 対話決定部
107 ユーザ情報入力部
108 データベース検索部
109 データベース記憶部
110 応答音声・画面出力部
201a、301a 算出部
303 ユーザ情報記憶部
304 対話履歴記憶部
DESCRIPTION OF
Claims (14)
入力された音声を認識して認識結果を出力する音声認識ステップと、
現在の対話状態においてユーザが認識可能な語彙を把握している可能性の度合を示す認識語彙既知度合を決定する認識語彙既知度合決定ステップと、
前記音声認識ステップにおいて認識された前記認識結果と前記認識語彙既知度合決定ステップにおいて決定された前記認識語彙既知度合とに基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、
前記対話決定ステップにおいて決定された対話内容を出力する出力ステップと
を含むことを特徴とする音声対話方法。 A voice dialogue method in which voice is inputted and dialogues are performed.
A speech recognition step for recognizing input speech and outputting a recognition result;
A recognition vocabulary known degree determination step for determining a recognized vocabulary known degree indicating a degree of possibility that the user can recognize a vocabulary that can be recognized in the current dialog state;
A dialog determining step for determining a next dialog state and a dialog content in the dialog state based on the recognition result recognized in the speech recognition step and the recognized vocabulary known level determined in the recognized vocabulary known level determining step. When,
An output step for outputting the content of the dialog determined in the dialog determination step.
対象の対話状態における入力モード毎の前記認識語彙既知度合をあらかじめ格納した既知度合テーブルを用いて、前記認識語彙既知度合を決定する
ことを特徴とする請求項1記載の音声対話方法。 In the recognition vocabulary known degree determination step,
The spoken dialogue method according to claim 1, wherein the recognized vocabulary known degree is determined using a known degree table in which the recognized vocabulary known degree for each input mode in a target dialogue state is stored in advance.
対象の対話状態における入力モード、認識語彙の変動に関する認識語彙変動情報、認識語彙の属性を示す認識語彙属性情報、全認識対象語彙数、表示認識対象語彙数、ユーザ自身の情報、ユーザのシステム使用履歴、対話進行状態、画面や応答音声による認識語彙に関する情報量の少なくとも一つを用いて、前記認識語彙既知度合を算出する
ことを特徴とする請求項1記載の音声対話方法。 In the recognition vocabulary known degree determination step,
Input mode in the conversation state of the target, recognition vocabulary fluctuation information related to recognition vocabulary fluctuation, recognition vocabulary attribute information indicating the attributes of the recognition vocabulary, number of all recognition target vocabulary, number of display recognition target vocabulary, user's own information, user system use The spoken dialogue method according to claim 1, wherein the recognition vocabulary known degree is calculated using at least one of information relating to a recognized vocabulary based on a history, a dialogue progress state, a screen, and response voice.
前記出力ステップでは、前記対話決定ステップにおいて決定された前記対話の画面または音声応答の少なくとも1つを出力する
ことを特徴とする請求項1記載の音声対話方法。 In the dialog determination step, at least one of a dialog screen or a voice response is determined as the dialog content,
The voice dialog method according to claim 1, wherein at the output step, at least one of a screen or a voice response of the dialog determined in the dialog determination step is output.
前記出力ステップでは、前記対話決定ステップにより作成された前記認識語彙既知度合を示す表示または音声応答の少なくとも1つを出力する
ことを特徴とする請求項1記載の音声対話方法。 In the dialog determination step, at least one of a display or a voice response for indicating the recognized vocabulary known degree is created,
The voice dialog method according to claim 1, wherein at the output step, at least one of a display or a voice response indicating the recognized vocabulary known degree created by the dialog determination step is output.
ことを特徴とする請求項1記載の音声対話方法。 2. The speech dialogue method according to claim 1, wherein, in the dialogue determination step, whether or not to include an explanation related to a recognition target vocabulary in the speech recognition step is determined based on the recognition vocabulary known degree.
ことを特徴とする請求項1記載の音声対話方法。 In the dialog determination step, when the recognition result recognized in the voice recognition step is determined as an unknown word, the recognition is performed to determine whether the dialog content is a dialog content that prompts input again or a detailed dialog content. The speech dialogue method according to claim 1, wherein the speech dialogue method is determined based on a vocabulary known degree.
ことを特徴とする請求項7記載の音声対話方法。 8. The voice interaction method according to claim 7, wherein in the dialog determination step, when it is determined that the dialog content prompts the input again, the voice recognition parameter in the voice recognition step is changed according to the number of re-inputs.
ことを特徴とする請求項7記載の音声対話方法。 8. The voice dialogue method according to claim 7, wherein, in the dialogue determination step, when the detailed dialogue content is determined, the dialogue content is further changed based on the recognized vocabulary known degree.
入力された音声を認識して認識結果を出力する音声認識ステップと、
現在の対話状態においてユーザが認識可能な語彙を把握している可能性の度合を示す認識語彙既知度合を決定する認識語彙既知度合決定ステップと、
前記音声認識ステップにおいて認識された前記認識結果と前記認識語彙既知度合決定ステップにおいて決定された前記認識語彙既知度合とに基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、
前記対話決定ステップにおいて決定された対話内容を出力する出力ステップと、
前記出力ステップにおいて出力されている前記対話内容が情報検索を受け付ける内容である場合に、前記音声認識ステップにおいて認識された前記認識結果に基づいて情報を検索する情報検索ステップと
を含むことを特徴とする情報検索方法。 An information search method for searching for information by inputting voice,
A speech recognition step for recognizing input speech and outputting a recognition result;
A recognition vocabulary known degree determination step for determining a recognized vocabulary known degree indicating a degree of possibility that the user can recognize a vocabulary that can be recognized in the current dialog state;
A dialog determining step for determining a next dialog state and a dialog content in the dialog state based on the recognition result recognized in the speech recognition step and the recognized vocabulary known level determined in the recognized vocabulary known level determining step. When,
An output step for outputting the content of the dialog determined in the dialog determination step;
An information search step for searching for information based on the recognition result recognized in the voice recognition step when the dialogue content output in the output step is a content for accepting an information search. How to search for information.
入力された音声を認識して認識結果を出力する音声認識手段と、
現在の対話状態においてユーザが認識可能な語彙を把握している可能性の度合を示す認識語彙既知度合を決定する認識語彙既知度合決定手段と、
前記音声認識手段で認識された前記認識結果と前記認識語彙既知度合決定手段で決定された前記認識語彙既知度合とに基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定手段と、
前記対話決定手段で決定された対話内容を出力する出力手段と
を備えることを特徴とする音声対話装置。 A voice interactive device for inputting voice and interacting,
Speech recognition means for recognizing input speech and outputting a recognition result;
A recognized vocabulary known degree determining means for determining a recognized vocabulary known degree indicating a degree of possibility of grasping a vocabulary recognizable by the user in the current dialog state;
Dialog determining means for determining the next dialog state and the dialog content in the dialog state based on the recognition result recognized by the voice recognition means and the recognized vocabulary known degree determined by the recognized vocabulary known degree determining means. When,
A voice dialog device comprising: output means for outputting the dialog content determined by the dialog determination means.
入力された音声を認識して認識結果を出力する音声認識手段と、
現在の対話状態においてユーザが認識可能な語彙を把握している可能性の度合を示す認識語彙既知度合を決定する認識語彙既知度合決定手段と、
前記音声認識手段で認識された前記認識結果と前記認識語彙既知度合決定手段で決定された前記認識語彙既知度合とに基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定手段と、
前記対話決定手段で決定された対話内容を出力する出力手段と、
前記出力手段で出力されている前記対話内容が情報検索を受け付ける内容である場合に、前記音声認識手段で認識された前記認識結果に基づいて情報を検索する情報検索手段と
を備えることを特徴とする情報検索装置。 An information search device for searching for information by inputting voice,
Speech recognition means for recognizing input speech and outputting a recognition result;
A recognized vocabulary known degree determining means for determining a recognized vocabulary known degree indicating a degree of possibility of grasping a vocabulary recognizable by the user in the current dialog state;
Dialog determining means for determining the next dialog state and the dialog content in the dialog state based on the recognition result recognized by the voice recognition means and the recognized vocabulary known degree determined by the recognized vocabulary known degree determining means. When,
Output means for outputting the content of the dialog determined by the dialog determination means;
An information search means for searching for information based on the recognition result recognized by the voice recognition means when the dialogue content output by the output means is a content for accepting an information search. Information retrieval device.
入力された音声を認識して認識結果を出力する音声認識ステップと、
現在の対話状態においてユーザが認識可能な語彙を把握している可能性の度合を示す認識語彙既知度合を決定する認識語彙既知度合決定ステップと、
前記音声認識ステップにおいて認識された前記認識結果と前記認識語彙既知度合決定ステップにおいて決定された前記認識語彙既知度合とに基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、
前記対話決定ステップにおいて決定された対話内容を出力する出力ステップとをコンピュータに実行させる
ことを特徴とするプログラム。 A program for dialogue by inputting voice,
A speech recognition step for recognizing input speech and outputting a recognition result;
A recognition vocabulary known degree determination step for determining a recognized vocabulary known degree indicating a degree of possibility that the user can recognize a vocabulary that can be recognized in the current dialog state;
A dialog determining step for determining a next dialog state and a dialog content in the dialog state based on the recognition result recognized in the speech recognition step and the recognized vocabulary known level determined in the recognized vocabulary known level determining step. When,
A program for causing a computer to execute an output step of outputting the dialog content determined in the dialog determination step.
入力された音声を認識して認識結果を出力する音声認識ステップと、
現在の対話状態においてユーザが認識可能な語彙を把握している可能性の度合を示す認識語彙既知度合を決定する認識語彙既知度合決定ステップと、
前記音声認識ステップにおいて認識された前記認識結果と前記認識語彙既知度合決定ステップにおいて決定された前記認識語彙既知度合とに基づいて、次の対話状態および当該対話状態における対話内容を決定する対話決定ステップと、
前記対話決定ステップにおいて決定された対話内容を出力する出力ステップと、
前記出力ステップにおいて出力されている前記対話内容が情報検索を受け付ける内容である場合に、前記音声認識ステップにおいて認識された前記認識結果に基づいて情報を検索する情報検索ステップとをコンピュータに実行させる
ことを特徴とするプログラム。
A program for searching for information by inputting voice,
A speech recognition step for recognizing input speech and outputting a recognition result;
A recognition vocabulary known degree determination step for determining a recognized vocabulary known degree indicating a degree of possibility that the user can recognize a vocabulary that can be recognized in the current dialog state;
A dialog determining step for determining a next dialog state and a dialog content in the dialog state based on the recognition result recognized in the speech recognition step and the recognized vocabulary known level determined in the recognized vocabulary known level determining step. When,
An output step for outputting the content of the dialog determined in the dialog determination step;
Causing the computer to execute an information search step of searching for information based on the recognition result recognized in the voice recognition step when the dialogue content output in the output step is a content for receiving an information search. A program characterized by
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005003119A JP4634156B2 (en) | 2005-01-07 | 2005-01-07 | Voice dialogue method and voice dialogue apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005003119A JP4634156B2 (en) | 2005-01-07 | 2005-01-07 | Voice dialogue method and voice dialogue apparatus |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006189730A true JP2006189730A (en) | 2006-07-20 |
JP2006189730A5 JP2006189730A5 (en) | 2008-02-14 |
JP4634156B2 JP4634156B2 (en) | 2011-02-16 |
Family
ID=36796996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005003119A Expired - Fee Related JP4634156B2 (en) | 2005-01-07 | 2005-01-07 | Voice dialogue method and voice dialogue apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4634156B2 (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008084575A1 (en) * | 2006-12-28 | 2008-07-17 | Mitsubishi Electric Corporation | Vehicle-mounted voice recognition apparatus |
JP2008268450A (en) * | 2007-04-18 | 2008-11-06 | Matsushita Electric Works Ltd | Operating device with speech recognition function |
JP2013092823A (en) * | 2011-10-24 | 2013-05-16 | Nifty Corp | Information processing unit, program, and information retrieval system |
JP2016206960A (en) * | 2015-04-23 | 2016-12-08 | 日本電信電話株式会社 | Voice video input/output device |
JP2017167366A (en) * | 2016-03-16 | 2017-09-21 | Kddi株式会社 | Communication terminal, communication method, and program |
JP2019046482A (en) * | 2018-10-09 | 2019-03-22 | 日本電信電話株式会社 | Voice video tracking device |
CN110450789A (en) * | 2019-08-13 | 2019-11-15 | 广州小鹏汽车科技有限公司 | A kind of information processing method and device |
CN112652301A (en) * | 2019-10-12 | 2021-04-13 | 阿里巴巴集团控股有限公司 | Voice processing method, distributed system, voice interaction equipment and voice interaction method |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001296890A (en) * | 2000-04-12 | 2001-10-26 | Auto Network Gijutsu Kenkyusho:Kk | On-vehicle equipment handling proficiency discrimination device and on-vehicle voice outputting device |
JP2003177788A (en) * | 2001-12-12 | 2003-06-27 | Fujitsu Ltd | Audio interactive system and its method |
JP2004258233A (en) * | 2003-02-25 | 2004-09-16 | Fujitsu Ltd | Adaptive speech interactive system and method |
JP2004326198A (en) * | 2003-04-21 | 2004-11-18 | Matsushita Electric Ind Co Ltd | Taste information utilizing-type data retrieving system |
JP2004333543A (en) * | 2003-04-30 | 2004-11-25 | Matsushita Electric Ind Co Ltd | System and method for speech interaction |
-
2005
- 2005-01-07 JP JP2005003119A patent/JP4634156B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001296890A (en) * | 2000-04-12 | 2001-10-26 | Auto Network Gijutsu Kenkyusho:Kk | On-vehicle equipment handling proficiency discrimination device and on-vehicle voice outputting device |
JP2003177788A (en) * | 2001-12-12 | 2003-06-27 | Fujitsu Ltd | Audio interactive system and its method |
JP2004258233A (en) * | 2003-02-25 | 2004-09-16 | Fujitsu Ltd | Adaptive speech interactive system and method |
JP2004326198A (en) * | 2003-04-21 | 2004-11-18 | Matsushita Electric Ind Co Ltd | Taste information utilizing-type data retrieving system |
JP2004333543A (en) * | 2003-04-30 | 2004-11-25 | Matsushita Electric Ind Co Ltd | System and method for speech interaction |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112007003024B4 (en) * | 2006-12-28 | 2013-09-12 | Mitsubishi Electric Corp. | Vehicle mounted speech recognition device |
JPWO2008084575A1 (en) * | 2006-12-28 | 2010-04-30 | 三菱電機株式会社 | In-vehicle speech recognition device |
JP2012027487A (en) * | 2006-12-28 | 2012-02-09 | Mitsubishi Electric Corp | On-vehicle voice recognition device |
US8315868B2 (en) | 2006-12-28 | 2012-11-20 | Mitsubishi Electric Corporation | Vehicle-mounted voice recognition and guidance apparatus |
JP5137853B2 (en) * | 2006-12-28 | 2013-02-06 | 三菱電機株式会社 | In-vehicle speech recognition device |
WO2008084575A1 (en) * | 2006-12-28 | 2008-07-17 | Mitsubishi Electric Corporation | Vehicle-mounted voice recognition apparatus |
JP2008268450A (en) * | 2007-04-18 | 2008-11-06 | Matsushita Electric Works Ltd | Operating device with speech recognition function |
JP2013092823A (en) * | 2011-10-24 | 2013-05-16 | Nifty Corp | Information processing unit, program, and information retrieval system |
JP2016206960A (en) * | 2015-04-23 | 2016-12-08 | 日本電信電話株式会社 | Voice video input/output device |
JP2017167366A (en) * | 2016-03-16 | 2017-09-21 | Kddi株式会社 | Communication terminal, communication method, and program |
JP2019046482A (en) * | 2018-10-09 | 2019-03-22 | 日本電信電話株式会社 | Voice video tracking device |
CN110450789A (en) * | 2019-08-13 | 2019-11-15 | 广州小鹏汽车科技有限公司 | A kind of information processing method and device |
CN110450789B (en) * | 2019-08-13 | 2020-12-15 | 广州小鹏汽车科技有限公司 | Information processing method and device |
CN112652301A (en) * | 2019-10-12 | 2021-04-13 | 阿里巴巴集团控股有限公司 | Voice processing method, distributed system, voice interaction equipment and voice interaction method |
Also Published As
Publication number | Publication date |
---|---|
JP4634156B2 (en) | 2011-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220156039A1 (en) | Voice Control of Computing Devices | |
US10884701B2 (en) | Voice enabling applications | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
JP4604178B2 (en) | Speech recognition apparatus and method, and program | |
JP5089955B2 (en) | Spoken dialogue device | |
JP4705023B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
US9159317B2 (en) | System and method for recognizing speech | |
US10339920B2 (en) | Predicting pronunciation in speech recognition | |
US9275637B1 (en) | Wake word evaluation | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
WO2015151157A1 (en) | Device and method for understanding user intent | |
JP4634156B2 (en) | Voice dialogue method and voice dialogue apparatus | |
JP2011033680A (en) | Voice processing device and method, and program | |
US10152298B1 (en) | Confidence estimation based on frequency | |
CN116543762A (en) | Acoustic model training using corrected terms | |
JP5105943B2 (en) | Utterance evaluation device and utterance evaluation program | |
US20230274727A1 (en) | Instantaneous learning in text-to-speech during dialog | |
US11605387B1 (en) | Assistant determination in a skill | |
US11783824B1 (en) | Cross-assistant command processing | |
JP2006208905A (en) | Voice dialog device and voice dialog method | |
JP2005275348A (en) | Speech recognition method, device, program and recording medium for executing the method | |
US11626106B1 (en) | Error attribution in natural language processing systems | |
EP3704569A1 (en) | Voice control of computing devices | |
KR101830210B1 (en) | Method, apparatus and computer-readable recording medium for improving a set of at least one semantic unit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071227 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100720 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100917 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101026 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101118 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4634156 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131126 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |