JP2009025538A - Voice interactive device - Google Patents
Voice interactive device Download PDFInfo
- Publication number
- JP2009025538A JP2009025538A JP2007188284A JP2007188284A JP2009025538A JP 2009025538 A JP2009025538 A JP 2009025538A JP 2007188284 A JP2007188284 A JP 2007188284A JP 2007188284 A JP2007188284 A JP 2007188284A JP 2009025538 A JP2009025538 A JP 2009025538A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- dictionary
- pattern
- candidate
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声自動応答装置などに使用される音声対話装置に関する。 The present invention relates to a voice interaction device used for an automatic voice response device or the like.
従来、利用者の発話を音声認識技術によって認識し、該認識結果に応じて機器操作を行うような音声インタフェースが知られている。例えば、自動車のナビゲーションシステムや電話応答システムであるIVR(Interactive Voice Response:音声自動応答装置)等に適用されている。こうした音声インタフェースでは、主に利用者とシステムの間で音声対話を行う。すなわち、利用者は決定・制御したい操作タスク(以下、タスクとする。)について、システムからの応答に応える形で音声を入力する。システムは該音声を認識する。音声認識結果から利用者のタスクが一意に決定できる場合は、該操作の実行に移行する。一方、一意に決まらない場合は、利用者に対して、言い直し、あるいは追加情報の発話を促す応答を返す。 2. Description of the Related Art Conventionally, a voice interface is known in which a user's utterance is recognized by a voice recognition technique and device operation is performed according to the recognition result. For example, it is applied to an IVR (Interactive Voice Response) which is a navigation system of a car or a telephone response system. In such a voice interface, a voice dialogue is mainly performed between the user and the system. That is, the user inputs voice in response to a response from the system for an operation task (hereinafter referred to as a task) to be determined and controlled. The system recognizes the voice. If the user's task can be uniquely determined from the speech recognition result, the process proceeds to execution of the operation. On the other hand, if it is not uniquely determined, the user is rephrased or a response that prompts the user to speak additional information is returned.
ところで、音声認識は、認識精度に限界があるため、誤認識は避けられないという問題がある。音声認識の性能は、利用者の発生の傾向や利用環境にも大きく左右される。特に、自動車においては、元来雑音が多い環境であるため、利用環境や利用者によっては頻繁に誤認識が発生しうる。また、近年の車載IT機器の高度化に伴い、音声による制御タスクが益々増加傾向にあり、認識対象が広がってきていることも、誤認識の発生を誘発する原因となりうる。すなわち、認識辞書に登録された認識語彙が音素列の並びであることを考えると、認識語彙の追加に伴い、音素列の並びが類似する認識語彙が生じ易くなるため、ある認識語彙を別の特定の認識語彙に誤り易いという傾向が生じる。更に、ここに利用者の話者性(発話の傾向・癖)が加わると、特定の話者については、度々同様の誤認識が繰り返し発生すると言う問題が生じる。 By the way, since voice recognition has a limit in recognition accuracy, there is a problem that erroneous recognition cannot be avoided. The performance of speech recognition greatly depends on the tendency of users to occur and the usage environment. In particular, in an automobile, since it is an environment with a lot of noise from the beginning, erroneous recognition may frequently occur depending on the use environment and the user. In addition, with the advancement of in-vehicle IT devices in recent years, the number of voice control tasks is increasing, and the recognition targets are expanding. This can also cause the occurrence of misrecognition. In other words, considering that the recognition vocabulary registered in the recognition dictionary is a sequence of phoneme strings, a recognition vocabulary with a similar phoneme string sequence is likely to occur with the addition of the recognition vocabulary. There is a tendency for certain recognition vocabulary to be prone to errors. Furthermore, if the user's speaker characteristics (speech tendency / 癖) are added here, there arises a problem that the same erroneous recognition frequently occurs repeatedly for a specific speaker.
上記の問題に対処する方法として、予め認識語彙全体に対する認識誤り傾向を分析し、認識語彙に優先順位をつける方法が提案されている(特許文献1参照)。本方法では、認識辞書中の音素について、予め誤認識傾向を保持し、利用者からの修正操作が検出された際に、認識誤り傾向に基づき、修正候補を提示する構成となっている。なお、認識誤り傾向は、ある正解パターンにマッチしやすい誤認識パターンの対を記録したものであり、コンフュージョンマトリクス(混同行列)等と呼ばれる。予め認識誤りを把握することで、認識辞書に含まれる認識語彙が含む誤り易さに基づく認識結果の重み付けや優先順位付けといった認識結果の補正が可能となり、認識性能の向上が期待できる。 As a method for coping with the above problem, a method has been proposed in which a recognition error tendency with respect to the entire recognition vocabulary is analyzed in advance and a priority is given to the recognition vocabulary (see Patent Document 1). This method is configured to hold a misrecognition tendency for phonemes in the recognition dictionary in advance and present correction candidates based on the recognition error tendency when a correction operation from a user is detected. The recognition error tendency is a record of a pair of erroneous recognition patterns that easily match a certain correct pattern, and is called a confusion matrix (confusion matrix) or the like. By recognizing recognition errors in advance, it is possible to correct recognition results such as weighting and prioritization of recognition results based on the ease of error included in the recognition vocabulary included in the recognition dictionary, and an improvement in recognition performance can be expected.
また、音素列の並びが類似する認識語彙が生じる原因として、音声による制御タスクの増加による認識語彙の増加のみならず、多様な言い回しに対応するための認識語彙の増加も考慮する必要がある。ある利用者のタスク達成のための言い回しは一通りとは限らないからである。例えば、自動車用の音声インタフェースにおけるタスク「エアコン起動」を考えた場合、「エアコンをつけたい」と思った利用者の意図を反映する言い回しには、「エアコンをつけて」「エアコンをつけてください」「エアコンをつけたい」といったように、語尾の言い回しだけでも複数考えられる。語尾以外を考えると「エアコンON」「エアコン起動」「エアコンスタート」「冷房つけて」「暑い」といった言い回しが考えられる。この問題に対処する方法としては、多数の利用者の音声(一般にコーパスと呼ばれる。)を分析し、頻度の高い言い回しを認識語彙として選定する方法が考えられる。これにより、大多数の利用者の言い回しに対処する事が可能になる。
しかしながら、特許文献1に示した認識誤り傾向を反映した認識方法では、認識語彙数が無数に登録されるような大規模な認識辞書において、予め、全ての認識誤り傾向を把握するのは困難という問題があった。
However, in the recognition method reflecting the recognition error tendency shown in
本発明は、こうした問題に鑑みてなされたものであり、音素列の並びが類似する語彙が生じても、誤認識が繰り返し発生する可能性を低減できる音声対話装置を提供することを目的とする。 The present invention has been made in view of these problems, and an object of the present invention is to provide a voice interactive apparatus that can reduce the possibility of repeated recognition errors even when vocabularies with similar phoneme string sequences occur. .
上記目的達成のため、本発明に係る音声対話装置では、利用者の発話と認識辞書の語彙とを比較して取得された認識候補の組合せから生成された理解状態から、利用者の意図するタスクを決定する理解手段と、当該タスクに基づき、利用者に対して応答を返す応答手段と、一連のタスク達成に至る対話を監視し、認識結果に関する組合せを認識パターンとして抽出するとともに、当該認識パターンに関するタスクを抽出する認識特性抽出手段と、上記認識パターンと上記認識パターンに関する上記タスクに基づいて、上記タスクを優先させる辞書制御手段とを備えることを特徴としている。 In order to achieve the above object, in the spoken dialogue apparatus according to the present invention, the task intended by the user from the understanding state generated from the combination of recognition candidates acquired by comparing the user's utterance and the vocabulary of the recognition dictionary. An understanding means for determining a response, a response means for returning a response to the user based on the task, a dialog for monitoring a series of task achievements, and extracting a combination of recognition results as a recognition pattern. And a dictionary control unit that prioritizes the task based on the recognition pattern and the task related to the recognition pattern.
本発明により、音素列の並びが類似する語彙が生じても、誤認識が繰り返し発生する可能性を低減できる。 According to the present invention, even if a vocabulary having a similar phoneme sequence is generated, the possibility of repeated erroneous recognition can be reduced.
以下に、本発明の第1乃至第4の実施形態に係る音声対話装置について、図1乃至図26を参照して説明する。第1乃至第4の実施形態に係る音声対話装置は、主に自動車内の各種機器(ナビゲーション装置、オーディオ装置、エアコン等)を音声で操作することを目的としている。但し、本発明の実施範囲は、これに留まるものではなく、音声により各種機器を操作するインタフェース全般に適用することが可能である。 Hereinafter, the voice interactive apparatus according to the first to fourth embodiments of the present invention will be described with reference to FIGS. 1 to 26. The voice interaction device according to the first to fourth embodiments is mainly intended to operate various devices (navigation device, audio device, air conditioner, etc.) in an automobile with voice. However, the scope of implementation of the present invention is not limited to this, and can be applied to all interfaces for operating various devices by voice.
(第1の実施形態)
第1の実施形態では、初期発話の認識結果に基づく応答に対して否定および訂正が存在せず、最終的に一連の制御タスクが達成した場合の結果に着目する。上記の場合、認識特性抽出部109(図1参照)は、認識結果に関する組合せを認識パターンとして抽出するとともに、当該認識パターンに関する制御タスクである最終的に達成した制御タスクを抽出する。更に、認識特性抽出部109は、上記認識パターンと上記制御タスクを認識パターンテーブル110(図1参照)に記憶する。その後、利用者の新規発話に対する新規認識候補群が認識パターンと順不同で同じ場合に、辞書制御部111(図1参照)は最終的に達成した制御タスクを優先させて実行させる。具体的には、辞書制御部111に基づいて、理解部104(図1参照)は、認識パターンの最大の認識スコアを持つ認識候補(後述する正解語彙)と同じ新規認識候補の認識スコアに補正値を加算する。理解部104は、更に、加算後の新規認識結果の認識スコアのうち、最大の認識スコアが閾値を上回るか判定する。最大の認識スコアが閾値を上回ると判定した場合、理解部104は、最大の認識スコアを持つ新規認識候補からシステムの理解状態である理解結果を生成する。理解部104は、当該理解結果から制御タスクを決定する。これから、誤認識が繰り返し発生する可能性を低減するものである。なお、第1の実施形態における認識パターンは、利用者の初期発話に対する認識結果、すなわち、認識候補群であるN−bestのうち、認識特性抽出部109により抽出され、記憶された認識候補群を指す。また、認識候補には各々認識スコアが付与されるものとする。認識スコアについては、後述するように尤度や信頼度の尺度を利用することができる。なお、第1の実施形態における認識パターンに関する制御タスクは、最終的に達成した制御タスクである。
(First embodiment)
In the first embodiment, attention is paid to the result when a series of control tasks are finally achieved without denial and correction of the response based on the recognition result of the initial utterance. In the above case, the recognition characteristic extraction unit 109 (see FIG. 1) extracts a combination related to the recognition result as a recognition pattern, and extracts a finally achieved control task that is a control task related to the recognition pattern. Further, the recognition
第1の実施形態の基本的な構成を図1に示す。図1は、本発明の第1の実施形態に係る音声対話装置の基本構成を示したブロック図である。ここで、図1の矢印(a)は利用者の発話音声を示し、矢印(b)はシステムからの出力音声あるいは認識結果に基づくタスクの実行を示している。図1に示すように、第1の実施形態の音声対話装置は、音声入力部101、音声認識手段である音声認識部102、認識辞書103、理解手段である理解部104、機能テーブル105および応答手段である応答生成部106を備えている。更に、応答テーブル107、出力部108、認識特性抽出手段である認識特性抽出部109、認識パターンテーブル110および辞書制御手段である辞書制御部111を備えている。
<基本機能と実現手段>
ここで、図1に示した各部の基本的な機能および具体的な実現手段について、図2を用いて説明する。図2は、図1に示す音声対話装置の実現手段を示したブロック図である。音声入力部101は、利用者の決定・制御したい操作タスク(以下、タスクとする。)について入力される利用者の初期発話音声(図1(a)参照)を取得する。例えば、マイクロフォン201とAD変換部202を組合せることで実現できる。音声認識部102は、音声入力部101を介して取得した初期発話音声の一部あるいは全てについて、特徴抽出処理を行う。音声認識部102は、初期発話音声の特徴量と、後述の認識辞書103に登録された各々の語彙、すなわち、認識対象とする語彙(以下、認識語彙とする。)の特徴量との比較を行う。音声認識部102は、更に、一般的な音声認識処理を行う。具体的には、特徴量の類似度である尤度が高い順に複数個の認識語彙を認識候補の組合せ、すなわち、認識結果として取得する。音声認識部102は、演算装置203および記憶装置204を組合せることで実現できる。なお、上述の複数個の認識語彙、すなわち、認識候補の組合せはN−bestと呼ばれる。
A basic configuration of the first embodiment is shown in FIG. FIG. 1 is a block diagram showing a basic configuration of a voice interactive apparatus according to the first embodiment of the present invention. Here, the arrow (a) in FIG. 1 indicates the speech voice of the user, and the arrow (b) indicates the execution of the task based on the output voice from the system or the recognition result. As shown in FIG. 1, the voice interaction apparatus according to the first embodiment includes a
<Basic functions and implementation methods>
Here, basic functions and specific implementation means of each unit shown in FIG. 1 will be described with reference to FIG. FIG. 2 is a block diagram showing means for realizing the voice interactive apparatus shown in FIG. The
認識辞書103は、音声認識部102における音声認識処理に用いる認識語彙を登録したものであり、記憶装置204によって実現できる。第1の実施形態に係る認識辞書103の一例を図3に示す。図3は、図1に示す認識辞書103の一例を示した図である。また、図3(a)は「初期辞書」、図3(b)は「番号選択辞書」、図3(c)は「施設種別選択辞書」である。図3に示すように、認識辞書103は、図3(a)〜(c)の3通りの辞書を含む構成とされている。これは、理解結果に基づいて、複数の辞書を切り替えながら利用する場合の辞書の構成の一例である。例えば、利用者が初期発話を行う場合、図3(a)の「初期辞書」が有効になっている。利用者の初期発話の理解結果が「登録地へ行く」であれば、目的地設定という一連の制御タスク(図4参照)を達成させるため、次の制御タスク「登録地の番号1番から5番の選択」に移行する。従って、次の制御タスクの移行により、図3(a)から図3(b)の辞書に切替えて、利用者の発話音声を待ち受ける。一方、初期発話の理解結果が「周辺施設検索」であれば、次の制御タスク「周辺施設の種別の選択」に移行する。従って、図3(a)から図3(c)の辞書に切り替えて、利用者の発話音声を待ち受ける。
The
なお、第1の実施形態に係る認識辞書103では、認識語彙を一語毎に登録する形をとっているが、当該認識語彙を単語毎に接続する形で登録することも可能である。一般的には、ネットワーク文法と呼ばれる。例えば、図3中の認識語彙「自宅へ帰る」であれば、「自宅/家」−「ガベージ」−「帰る/戻る」といった形の単語のつながりとして登録する。ここでいうガベージとは、接続詞や間投詞「が、の、えー」等を吸収する語彙として定義したものである。上記のように登録した場合、「自宅へ帰る」、「自宅までかえる」、「家に帰る」、「家に戻る」といった語彙の認識が可能になる。
In the
理解部104は、認識辞書103による音声認識処理にて取得したN−bestに基づき、システムの理解状態である理解結果を生成するものであり、演算装置203および記憶装置204を組合せることで実現できる。なお、理解部104における理解結果の生成方法としては、認識スコアを利用するのが一般的である。例えば、音響・言語的に特徴量がどれだけ認識辞書103のパターンに類似するかを示す尺度である「尤度」を認識スコアとして用い、該スコアが最大となる認識候補を理解結果と決定する方法が知られている。また、「信頼度」を認識スコアとして、該認識スコアが最大となる認識候補を理解結果と決定する方法等が知られている。ここで、「信頼度」とは、認識語彙に類似・競合する語彙の多さを反映した尺度、すなわち、認識候補をどれだけ信頼してよいかという尺度である。信頼度の算出方法としては、例えば、特開平11−85188号公報で開示された方法がある。当該方法では、対象とする認識辞書と当該認識辞書に競合する競合辞書とを用い、音声認識に用いたモデルと競合モデルとの2種類のモデルを使用する。各々のモデルから得られた尤度から尤度比を算出し、認識候補の信頼度として付与する。
The
また、信頼度の算出方法としては、例えば、Frank
Wessel,Ralf Schluter,Klaus Macherey,Hermam Ney:“Confidence Measure for Large Vocabulary Continuous Speech Recognition”,IEEE Transactions Speech and Audio Process Vol.9 No.3
pp.288-298,2001.で開示された方法がある。当該方法では、N−bestを用いて信頼度の計算が行われる。すなわち、音響尤度、言語尤度などを用いて認識候補をN位まで作成し、作成された認識候補を用いて信頼度を算出する。当該方法では、複数の認識候補に多く出現している単語は信頼度が高いとしている。また、信頼度の算出方法として、Thomas
Kemp,Thomas Schaaf:“Estimating
confidence using word lattices”,Proc.
5th Eurospeech,pp.827-830,1997.で開示された方法もある。当該方法では、単語事後確率を用いて信頼度を計算している。すなわち、1単語の音響尤度、単語の言語尤度、forward確率、backward確率を用いて、文中の単語に対する信頼度を算出している。また、信頼度の決定方法としては、例えば、宇津呂 武仁,西崎 博光,小玉 康広,中川 聖一:「複数の大語彙連続音声認識モデルの出力の共通部分を用いた高信頼度部分の推定」,電子情報通信学会論文誌,D-II Vol.J86-D-II No.7 pp.974-987,2003.で開示された方法がある。当該方法では、複数の音声認識モデルを用いて信頼度の決定を行っている。すなわち、音声認識モデルを2つ以上用いて音声認識を行い、全ての音声認識モデルで信頼できると判断された共通部分が信頼できると判断する。
In addition, as a calculation method of reliability, for example, Frank
Wessel, Ralf Schluter, Klaus Macherey, Hermam Ney: “Confidence Measure for Large Vocabulary Continuous Speech Recognition”, IEEE Transactions Speech and Audio Process Vol.9 No.3
There is a method disclosed in pp.288-298, 2001. In this method, the reliability is calculated using N-best. That is, recognition candidates are created up to the Nth position using acoustic likelihood, language likelihood, and the like, and reliability is calculated using the created recognition candidates. In this method, it is assumed that words that frequently appear in a plurality of recognition candidates have high reliability. As a calculation method of reliability, Thomas
Kemp, Thomas Schaaf: “Estimating
confidence using word lattices ”, Proc.
There is also a method disclosed in 5th Eurospeech, pp. 827-830, 1997. In this method, the reliability is calculated using the word posterior probability. That is, the reliability of a word in a sentence is calculated using the acoustic likelihood of one word, the language likelihood of the word, the forward probability, and the backward probability. As methods for determining reliability, for example, Takehito Utsuro, Hiromitsu Nishizaki, Yasuhiro Kodama, and Seiichi Nakagawa: `` Estimation of high-reliability parts using common parts of outputs of multiple large vocabulary continuous speech recognition models '', There is a method disclosed in IEICE Transactions, D-II Vol.J86-D-II No.7 pp.974-987, 2003. In this method, the reliability is determined using a plurality of speech recognition models. That is, speech recognition is performed using two or more speech recognition models, and it is determined that the common part determined to be reliable in all speech recognition models is reliable.
機能テーブル105は、理解部104から発行される辞書切替、応答出力、あるいは、車載機器を制御するための制御タスクコマンドを含む機能と理解結果との対応を記憶するものであり、記憶装置204により実現できる。ここで、機能テーブル105の一例を図4に示す。図4は、図1に示す機能テーブル105の一例を示した図である。図4に示す機能テーブル105には、図3における初期辞書(図3(a)参照)のいずれかの語彙が理解結果として決定された場合に対応する制御タスクと、当該制御タスクが決定された場合に実際に実行される制御内容とを登録する。例えば、理解部104が理解結果「登録地へ行く」を生成した場合、理解部104は機能テーブル105を参照し、制御タスクを「目的地設定(登録地)」と決定する。なお、第1の実施形態に係る機能テーブル105では、制御タスクを「機能名(詳細な条件)」の形式で登録している。
The function table 105 stores correspondence between functions including dictionary switching, response output, or control task commands for controlling in-vehicle devices issued from the
当該制御タスクが決定された結果、理解部104は、制御内容として、「登録地番号選択応答」および「辞書切替」という機能を発行する。具体的には、「登録地番号選択応答」の機能として、登録地番号の選択を利用者に促す応答を応答生成部106に音声出力させる。また、「辞書切替」の機能として、初期辞書(図3(a)参照)から番号選択辞書(図3(b)参照)に認識辞書103を切替えさせる。なお、認識辞書103の切替えは、音声認識部102が行う。同様にして、理解部104が理解結果「自宅へ帰る」を生成した場合、理解部104は制御タスクを「目的地設定(自宅)」と決定する。その後、ナビゲーション装置に対して、現在地から自宅へのルートを検索するコマンドが発行される(図4における機能「現在地〜目的地ルート検索コマンド発行」参照)。この時、制御タスク完了の応答として、「自宅へ帰るルートを探索します」の応答(図5参照)を出力している。
As a result of the determination of the control task, the
応答生成部106は、理解部104が発行した機能に基づき、後述の応答テーブル107を参照し、利用者に返す応答を生成し、当該応答を確定するものであり、演算装置203および記憶装置204を組合せることで実現できる。応答テーブル107は、応答生成部106が応答を生成する際に参照するものであり、記憶装置204により実現できる。ここで、応答テーブル107の一例を図5に示す。図5は、図1に示す応答テーブル107の一例を示した図である。図5に示すように、応答テーブル107には、理解部104が発行した機能と、当該機能に対応する応答内容とを登録している。例えば、理解部104が発行した機能が「登録地番号選択応答」であれば、応答内容として、「登録地の番号1から5番を選択してください」という応答が出力される。なお、上記の例の場合、続けて利用者の発話を促しているため、音声による出力が適切と考えられる。一方、「CD曲順送りコマンド発行」という機能が発行された場合には、機能として完了しており、利用者の追加の発話を必要としない。従って、「次の曲にします」という応答を音声出力せず、画面出力のみとする方法をとっても良い。出力部108は、応答生成部106の生成した応答を利用者に出力するものであり、DA変換部205およびスピーカ/表示装置206を組み合わせることで実現できる。
The
認識特性抽出部109は、一連の制御タスク達成に至る対話、すなわち、認識候補の組合せ(認識候補群)と理解結果を監視し、初期発話の認識候補の組合せを認識パターンとして抽出するとともに、最終的に達成した制御タスクを抽出するものである。演算装置203および記憶装置204を組合せることで実現できる。第1の実施形態では、初期発話の認識結果から理解結果が一意に決まらなかったために出力された確認応答に対して否定および訂正が存在せず、最終的に一連の制御タスクが達成した場合に抽出している。抽出後、認識特性抽出部109は、抽出した上記制御タスクと、上記認識パターンと、上記制御タスク毎の、新規認識候補群が上記認識パターンと順不同で同じになる頻度である出現頻度とを認識パターンテーブル110に記憶する。更に、認識特性抽出部109は、当該認識パターンのうち最大の認識スコアを持つ認識候補に対応させて、上記認識パターンの最大の認識スコアと所定の閾値との差から算出された補正値も認識パターンテーブル110に記憶する。ここで、認識パターンテーブル110は、記憶装置204により実現できる。
The recognition
辞書制御部111は、利用者の新規発話に対する新規認識候補群を音声認識部102が取得した場合に認識パターンテーブル110を参照する。上記新規認識候補群と順不同で同じ認識パターンが存在した場合に、当該認識パターンと対応する制御タスクを優先させるものである。具体的には、辞書制御部111は、当該認識パターンのうち最大の認識スコアを持つ認識候補と同じ新規認識候補の認識スコアに、当該認識パターンと対応する上記補正値を加算させることで、当該認識パターンに関する制御タスクを優先させる。辞書制御部111は、演算装置203および記憶装置204を組合せることで実現できる。なお、辞書制御部111による上記優先処理は、利用者の新規発話に対する新規認識候補の組合せが認識パターンテーブル110に存在する認識パターンと順不同で同じ場合で、かつ、新規認識候補群の各認識スコアに基づいて、理解結果が一意に決まらない場合に適用することが好ましい。ここで、理解結果が一意に決まらない場合とは、すなわち、十分な認識スコアを獲得した認識候補が取得されない場合である。例えば、認識候補群は取得したものの、発話音声に十分に類似するものは存在しない場合(尤度が所定の閾値を上回らない場合)が相当する。また、認識候補群の複数が類似しており、何れであるか確定できない場合(信頼度が所定の閾値を上回らない場合)等が相当する。
The
以下に、具体的な対話例を用いて、認識特性抽出部109および辞書制御部111の動きを説明する。なお、本対話例では、N−best中の上位3認識候補について注目するものとする。上位何位までの認識候補を認識傾向の分析に用いるかによって、適用の精度と適用される頻度が異なるため、システムの認識傾向を鑑みて適切な数を選択するのが好ましい。より下位の認識候補まで利用すれば、下位の認識候補まで一致した時のみ上記優先処理が実行されるため、適用の精度は向上する可能性がある。ただし、下位の認識候補まで一致する認識パターンは上位の認識候補のみが一致する場合より少ないと考えられるため、適用される場面が限定される。
Hereinafter, movements of the recognition
図6は、第1の実施形態の対話例における記憶条件と記憶対象データを示した図である。図6では、利用者が「自宅に帰る」という発話を行ない、自宅へのルート探索が実行されるまでの対話例を示している。図6に示すように、システムが「ご用件をどうぞ」の発話を行うと(ステップS11)、利用者は、「自宅に帰る」の初期発話を行っている(ステップU11)。なお、ステップS11の応答は、例えば、利用者が不図示の音声操作スイッチ(PTTスイッチ、PTAスイッチ等とも呼ばれる。)の押下に伴い出力される。システムは、利用者の初期発話音声を認識し、当該初期発話音声の認識候補群、自宅へ帰る(0.55)、近くのコンビニ(0.40)、テレビON(0.01)を取得している(ステップS12)。括弧は認識スコアである。理解部104は、閾値と認識スコアを比較し、閾値を上回る認識候補があった場合に、当該認識候補から理解結果を生成する。閾値は、システムの認識制度が最大となるように予めコーパスデータの認識結果等から決定される。閾値を上回る認識候補が無い場合は、十分に信用できる語彙が無いと理解し、確認、質問応答が行われる。本対話例では、閾値を0.70とした。結果、理解部104は、閾値を上回る認識候補が見つからないと判定する。なお、当該閾値を調整することにより、システムの応答傾向を変えることが可能である。すなわち、閾値を低く設定すれば、誤認識を覚悟して積極的に一意に決める対話となり、閾値を高く設定すれば、慎重を期して、十分信頼できる時のみ一意に決めるといった対話になる。こうした対話傾向を、例えば、利用者の属性に応じて値を可変にすることも可能である。
FIG. 6 is a diagram illustrating storage conditions and storage target data in the interactive example of the first embodiment. FIG. 6 shows an example of a dialogue until the user utters “going home” and a route search to the home is executed. As shown in FIG. 6, when the system utters “Please give me a request” (step S11), the user makes an initial utterance “go home” (step U11). The response in step S11 is output, for example, when the user presses a voice operation switch (not shown) (also referred to as a PTT switch or a PTA switch). The system recognizes the user's initial utterance voice, acquires the initial utterance voice recognition candidate group, returns home (0.55), nearby convenience store (0.40), TV ON (0.01). (Step S12). Parentheses are recognition scores. The
閾値を上回る認識候補が見つからなかったため、システムは最大の認識スコアを持つ認識候補を用いて、確認応答の出力を行う。図6では、確認(ルート検索、目的地=自宅)と示されている。この結果、応答生成部106は、応答「自宅へ帰るルートを検索しますか?」を音声出力する。システムの上記確認応答に対して、利用者が「はい」と発話している(ステップU12)。システムは当該発話を認識し、その結果、理解部104は閾値を上回る認識候補「はい」が見つかったと判定する(ステップS13)。更に、理解結果として、自宅へのルートを検索するコマンド(図6では、実行(ルート検索、目的地=自宅))を発行する。この結果、応答生成部106は、応答「自宅へ帰るルートを検索します」を音声出力する。ここで、上述した理解結果である確認(ルート検索、目的地=自宅)や実行(ルート検索、目的地=自宅)は、その後の対話の移行を示している。すなわち、確認(○○)であれば、括弧内の制御タスクコマンドを実行してよいか一旦確認を行うフェーズに移行することを示し、実行(○○)であれば、括弧内の制御タスクコマンドの実行に移行する。
Since no recognition candidate exceeding the threshold was found, the system outputs a confirmation response using the recognition candidate having the maximum recognition score. In FIG. 6, confirmation (route search, destination = home) is shown. As a result, the
認識特性抽出部109は、上記一連の制御タスク達成に至る対話を監視し、図6の3列目に示すような記憶対象データを抽出する。すなわち、本対話例においては、
・初期発話の理解結果が一意に決まらなかった(図6の(a)の部分から確定)
・確認応答の結果、否定および訂正が検出されなかった(図6の(b)の部分から確定)
・最終的に制御タスクが決定された(図6の(c)の部分から確定)
という記憶条件を満たすか否か判定する。認識特性抽出部109は、上記条件を満たすと判定し、この場合の認識パターン、すなわち、3つの認識候補および最終的に達成した制御タスク(ルート検索、目的地=自宅)を抽出する。更に、認識特性抽出部109は、抽出した制御タスクおよび認識パターンを認識パターンテーブル110に記憶する。また、認識特性抽出部109は、後述するボーナス値と出現頻度も認識パターンテーブル110に記憶する。
The recognition
・ Understanding of initial utterance was not uniquely determined (determined from part (a) of FIG. 6)
-Negation and correction were not detected as a result of the confirmation response (confirmed from the part (b) in FIG. 6)
-Finally, the control task was determined (determined from the part (c) in FIG. 6)
It is determined whether or not the storage condition is satisfied. The recognition
ここで、認識パターンテーブル110の記憶例を図7に示す。図7は、図1に示す認識パターンテーブル110の一例を示した図である。図6に示した対話例から抽出された制御タスクおよび認識パターンは、No.1の行に記憶されている。上記認識パターンに含まれた3認識候補のうち、最上位の認識候補(図7における「自宅へ帰る」)が正解語彙である。ここで、正解語彙とは、上記認識パターンのうち最大の認識スコアを持つ認識候補から理解結果を生成し、上記制御タスクを達成した場合における当該認識候補である。図7に示すように、認識パターンテーブル110は、上記制御タスク、上記認識パターン、上記補正値であるボーナス値および上記出現頻度を記憶している。ここで、ボーナス値とは、利用者の新規発話に対する新規認識候補群が上記認識パターンと順不同で同じ場合に、上記正解語彙と同じ新規認識候補の認識スコアに加算される認識スコアの加算値である。当該ボーナス値は、上記認識パターンの最大の認識スコア、すなわち、正解語彙の認識スコアと所定の閾値との差(正解語彙が閾値を上回るための不足認識スコア)から算出されている。 Here, a storage example of the recognition pattern table 110 is shown in FIG. FIG. 7 is a diagram showing an example of the recognition pattern table 110 shown in FIG. The control task and recognition pattern extracted from the dialogue example shown in FIG. It is stored in one row. Of the three recognition candidates included in the recognition pattern, the highest recognition candidate (“return to home” in FIG. 7) is the correct vocabulary. Here, the correct vocabulary is a recognition candidate when an understanding result is generated from a recognition candidate having the largest recognition score among the recognition patterns and the control task is achieved. As shown in FIG. 7, the recognition pattern table 110 stores the control task, the recognition pattern, the bonus value as the correction value, and the appearance frequency. Here, the bonus value is an added value of the recognition score added to the recognition score of the same new recognition candidate as the correct vocabulary when the new recognition candidate group for the new utterance of the user is the same in the same order as the recognition pattern. is there. The bonus value is calculated from the maximum recognition score of the recognition pattern, that is, the difference between the recognition score of the correct vocabulary word and a predetermined threshold value (deficiency recognition score for the correct vocabulary value exceeding the threshold value).
具体的に説明すると、図6に示した対話例では、「自宅へ帰る」のスコアが0.55であり、閾値0.70との差は0.15である。よって、ボーナス値として0.15以上の値を加えることで、次回以降の利用者の新規発話に対する新規認識候補群が上記認識パターンと順不同で同じ場合に、上記新規認識候補群から理解結果を一意に決定できる可能性が高くなる。ただし、上記新規認識候補群が上記認識パターンと順不同で同じ場合でも、「自宅へ帰る」の認識スコアが0.55より小さい場合も考えられる。この場合、上記新規認識候補群の上記新規認識候補「自宅へ帰る」の認識スコアに0.15のボーナス値を加算しても閾値0.70を上回らないため、やはり理解結果が一意に決まらない。こうした状況を鑑み、ボーナス値に若干のマージンを与えるようにしている。すなわち、ボーナス値=閾値−認識スコア+αといった計算によりボーナス値を決定する。ここで、αがマージンである。例えば、α=0.10とすれば、
ボーナス値=0.70−0.55+0.10=0.25
となる。なお、継続使用に伴い、上記制御タスクにおける上記認識パターンと順不同で同じ新規認識候補群が発生することが考えられる。上記認識パターンと順不同で同じ新規認識候補群を取得した場合は、取得の都度、最新の認識スコアに基づき、ボーナス値を更新することが望ましい。ボーナス値の更新方法については、単純に最新の認識スコアのみを見て決定する方法、過去のボーナス値と最新のボーナス値の平均を取る方法または過去のボーナス値と最新のボーナス値とを比較し、両値の最大値を取る方法等が考えられる。
More specifically, in the dialogue example shown in FIG. 6, the score of “return to home” is 0.55, and the difference from the threshold value 0.70 is 0.15. Therefore, by adding a value of 0.15 or more as a bonus value, when the new recognition candidate group for a new utterance of the user after the next time is the same as the recognition pattern in no particular order, the understanding result is uniquely identified from the new recognition candidate group. The possibility of being able to decide is increased. However, even when the new recognition candidate group is in the same order as the recognition pattern, the recognition score of “return to home” may be smaller than 0.55. In this case, even if a bonus value of 0.15 is added to the recognition score of the new recognition candidate “go home” in the new recognition candidate group, the threshold value 0.70 is not exceeded, so the understanding result is not uniquely determined. . In view of this situation, a slight margin is given to the bonus value. That is, the bonus value is determined by calculation such as bonus value = threshold value−recognition score + α. Here, α is a margin. For example, if α = 0.10,
Bonus value = 0.70-0.55 + 0.10 = 0.25
It becomes. In addition, it is possible that the same new recognition candidate group will generate | occur | produce out of order with the said recognition pattern in the said control task with continuous use. When the same new recognition candidate group is acquired out of order with the recognition pattern, it is desirable to update the bonus value based on the latest recognition score each time the acquisition is performed. Regarding how to update the bonus value, simply determine by looking only at the latest recognition score, average the past bonus value and the latest bonus value, or compare the past bonus value with the latest bonus value. A method of taking the maximum value of both values can be considered.
また、図7に示すように、認識パターンテーブル110は、上記制御タスク毎の、新規認識候補群が上記認識パターンと順不同で同じになる頻度である出現頻度も記憶している。例えば、図7に示したように、No.1の行の認識パターン、すなわち、図6に示した対話例にて抽出された認識パターンと順不同で同じ新規認識結果が過去に5回発生している。また、No.2の行の認識パターンと順不同で同じ新規認識結果が過去に1度発生している。当該出現頻度を利用して、例えば、当該出現頻度が所定値を上回った場合のみ、ボーナス値を加算しても良い。また、当該出現頻度の多い認識パターンほど、ボーナス値のマージン(上記式のα)を大きくする等の制御を実行しても良い。これにより、利用者の継続使用に伴い、利用者の意図するタスクが正確に達成できる可能性が高くなる。 As shown in FIG. 7, the recognition pattern table 110 also stores the appearance frequency, which is the frequency at which the new recognition candidate group is the same in the order as the recognition pattern for each control task. For example, as shown in FIG. The same new recognition result has occurred five times in the past in the same order as the recognition pattern of one line, that is, the recognition pattern extracted in the dialogue example shown in FIG. No. The same new recognition result occurs once in the past in the same order as the recognition pattern of the second row. Using the appearance frequency, for example, the bonus value may be added only when the appearance frequency exceeds a predetermined value. Further, the control such as increasing the margin of the bonus value (α in the above formula) may be executed for the recognition pattern having a higher appearance frequency. This increases the possibility that the task intended by the user can be accurately achieved with the continuous use of the user.
認識特性抽出部109が上記認識パターン、上記制御タスク、ボーナス値および出現頻度を認識パターンテーブル110に記憶した後に、上記認識パターンと順不同で同じ新規認識候補群が取得された新規発話があった場合の対話例を図8に示す。図8は、図7に示すボーナス値を反映した場合の対話例を示した図である。図8に示すように、利用者は「自宅に帰る」の新規発話を行う(ステップU14)。システムは、利用者の新規発話音声を認識し、当該新規発話音声に対する新規認識候補群、近くのコンビニ(0.50)、自宅へ帰る(0.48)、テレビON(0.02)を取得している(ステップS14)。理解部104は、閾値0.70と認識スコアを比較するものの、閾値0.70を上回る認識スコアを持つ認識候補が見つからないと判定する。そこで、辞書制御部111は、認識パターンテーブル110を参照し、新規認識候補群と順不同で同じ認識パターンの有無を調べる(ステップS14’)。当該認識パターンが存在するため、辞書制御部111は、認識パターンテーブル110のボーナス値を参照する。
After the recognition
理解部104は、辞書制御部111に基づき、正解語彙と同じ新規認識候補「自宅へ帰る」の認識スコアに対して、ボーナス値0.25を加算する。これにより、当該新規認識候補「自宅へ帰る」が閾値0.70を上回るため、理解結果として、自宅へのルートを探索するコマンド(図8における実行(ルート検索、目的地=自宅))を発行する。この結果、応答生成部106は、応答「自宅へ帰るルートを検索します」を出力する。これにより、図6に示した、図8と同様の対話例では、初期発話の認識候補群に対して確認応答(図6のステップS12)が必要であったが、本発明により、当該確認応答を省略している。すなわち、タスク達成時間を大幅に短縮できる。また、新規認識候補群を見るに、僅かの認識スコア差で、新規認識候補「近くのコンビニ」の認識スコアが最大となっている。このままでは、理解部104は最大の認識スコアを持つ新規認識候補「近くのコンビニ」を理解結果として決定するので、誤認識となる。しかし、本発明により、新規認識候補群と順不同で同じ認識パターンがある場合、正解語彙と同じ新規認識候補「自宅へ帰る」の認識スコアにボーナス値を加算するので、誤認識する可能性を低減できる。よって、誤認識が繰り返し発生する可能性を低減することができる。
Based on the
一方、新規認識候補群と順不同で同じ認識パターンが認識パターンテーブル110にある場合でも、対応する制御タスクが異なる可能性も考慮する必要がある。すなわち、図8に示した対話例において、ステップS14’の処理の後、利用者による否定または訂正が存在し、かつ、認識パターンの3認識候補のうち、認識候補「自宅へ帰る」以外の認識候補、例えば、認識候補「近くのコンビニ」に対応する制御タスクが決定されたような場合である。上記の場合、認識パターンテーブル110に記憶した認識パターンに対応する制御タスク、ボーナス値および出現頻度に矛盾が生じることとなる。そこで、矛盾が生じた場合には、一旦当該データをリセットするか、最新の認識パターン、対応する制御タスク、ボーナス値および出現頻度に更新することが望ましい。
<上記構成を用いた具体的な制御処理の流れ>
ここで、上記構成を用いた第1の実施形態に係る音声対話装置の具体的な制御処理の流れを、図9を用いて説明する。図9は、第1の実施形態に係る音声対話装置の制御処理の流れを示したフローチャートである。まず、音声入力部101は、利用者の発話音声を取得する。音声認識部102は、音声入力部101を介して取得した発話音声について音声認識処理を行い、N−bestを取得する(ステップS101)。次に、理解部104は、音声認識部102の認識結果であるN−bestに基づいて、各認識候補について認識スコアを算出する。更に、理解部104は、算出した認識スコアのうち、閾値を上回る認識スコアが存在するか否かを判定する(ステップS102)。閾値を上回る認識スコアがあると理解部104が判定した場合(ステップS102:Yes)、理解結果を一意に決定できるため、ステップS113へ移行する。一方、閾値を上回る認識スコアが無いと理解部104が判定した場合(ステップS102:No)、理解結果を一意に決定できないため、辞書制御部111は、認識パターンテーブル110を参照する(ステップS103)。辞書制御部111は、N−bestと順不同で同じ認識パターンが、認識パターンテーブル110に存在するか否かを判定する(ステップS104)。
On the other hand, even when the same recognition pattern is in the recognition pattern table 110 out of order with the new recognition candidate group, it is necessary to consider the possibility that the corresponding control task is different. That is, in the dialogue example shown in FIG. 8, after the process of step S14 ′, there is a denial or correction by the user, and among the three recognition candidates of the recognition pattern, recognition other than the recognition candidate “return to home” This is a case where a control task corresponding to a candidate, for example, a recognition candidate “near convenience store” is determined. In the above case, a contradiction arises in the control task corresponding to the recognition pattern stored in the recognition pattern table 110, the bonus value, and the appearance frequency. Therefore, when a contradiction occurs, it is desirable to reset the data once or update it to the latest recognition pattern, corresponding control task, bonus value, and appearance frequency.
<Specific control processing flow using the above configuration>
Here, a specific control processing flow of the voice interactive apparatus according to the first embodiment using the above-described configuration will be described with reference to FIG. FIG. 9 is a flowchart showing a flow of control processing of the voice interaction apparatus according to the first embodiment. First, the
N−bestと順不同で同じ認識パターンが認識パターンテーブル110に存在しないと辞書制御部111が判定した場合(ステップS104:No)、ステップS108へ移行する。一方、N−bestと順不同で同じ認識パターンが認識パターンテーブル110に存在すると辞書制御部111が判定した場合(ステップS104:Yes)、認識特性抽出部109は、N−bestと順不同で同じ認識パターンの出現頻度に1加算し、認識パターンテーブル110に記憶する(ステップS105)。次に、辞書制御部111は、N−bestと順不同で同じ認識パターンの正解語彙に対応するボーナス値を認識パターンテーブル110から取得する(ステップS106)。次に、辞書制御部111は、上記正解語彙と同じ新規認識候補の認識スコアに、辞書制御部111が取得したボーナス値を加算させる。すなわち、理解部104は、上記新規認識候補の認識スコアに上記ボーナス値を加算する。更に、理解部104は、再度算出した認識スコアのうち、閾値を上回る認識スコアが存在するか否かを判定する(ステップS107)。
When the
閾値を上回る認識スコアがあると理解部104が判定した場合(ステップS107:Yes)、ステップS113へ移行する。一方、閾値を上回る認識スコアが無いと理解部104が判定した場合(ステップS107:No)、認識特性抽出部109は、認識特性抽出フラグをONにする(ステップS108)。これにより、後述するが、最終的に制御タスクが達成した後、認識特性抽出部109は、N−bestを認識パターンとして抽出する。次に、理解部104は、理解結果を一意に決められないため、利用者に対する確認応答を応答生成部106に音声出力させる(ステップS109)。第1の実施形態では、まず、最大の認識スコアを持つ認識候補を用いて、当該認識候補で合っているか否かを質問する。例えば、最大の認識スコアを持つ認識候補が「自宅へ帰る」であれば、「自宅へ帰るルートの探索で宜しいでしょうか?」といった応答を出力し、利用者からの反応を待つ。次に、認識特性抽出部109は、上記の確認応答に対する利用者の発話音声の認識結果から、利用者の否定が存在するか否かを判定する(ステップS110)。なお、否定以外に、直接訂正後の発話を認識するようにしても良い。この場合は、後述するステップS112の修正再発話要求応答を省略できる。
When the
認識特性抽出部109が上記確認応答に対して、否定が存在しないと判定した場合(ステップS110:No)、ステップS113へ移行する。一方、認識特性抽出部109が上記確認応答に対して、否定が存在すると判定した場合(ステップS110:Yes)、認識特性抽出部109は否定フラグをONにする(ステップS111)。なお、認識特性抽出部109は、否定フラグをONにする制御処理と同時に、否定された認識候補、すなわち、現時点で最大の認識スコアを持つ認識候補に対して、取り消しフラグを付与することが望ましい。これにより、否定後の訂正発話の認識結果に、当該取り消しフラグを付与した認識候補が含まれた場合で、かつ、当該認識候補の認識スコアが高い場合でも、当該認識候補の認識スコアから所定値を減算することができる。よって、当該取り消しフラグを付与した認識候補が、認識結果の上位に含まれないように調整できる。あるいは、当該取り消しフラグを付与した認識候補と同じ語彙を認識辞書103から除外しても良い。これにより、当該取り消しフラグを付与した認識候補を、認識結果に含まれないように調整することが可能である。
When the recognition
次に、理解部104は、利用者の否定に対応して、修正再発話を促す応答の機能を応答生成部106に発行する(ステップS112)。応答生成部106は、理解部104が発行した機能に基づき、修正再発話を促す応答を生成し、音声出力する。例えば、「失礼しました、もう一度コマンドをお聞かせください。」といった発話を行う。その後、利用者の修正再発話があるまで待機する。なお、次に認識スコアが大きい認識候補を理解結果と仮定して、再度ステップS109の確認応答へと移行するようにしても良い。この場合は、例えば、1位および2位の認識スコアを持つ認識候補の双方が否定された場合に、ステップS112へ移行すれば良い。
Next, in response to the denial of the user, the
ステップS102またはS107の制御処理において、閾値を上回る認識スコアがあると理解部104が判定した場合、理解部104は理解結果を決定する(ステップS113)。または、ステップS110の制御処理において、上記確認応答に対して否定が存在しないと認識特性抽出部109が判定した場合、理解部104は理解結果を決定する(ステップS113)。更に、理解部104は、機能テーブル105を参照して、上記決定した理解結果と対応する制御タスクを決定し、当該制御タスクの機能を発行する(ステップS113)。例えば、図4に示したように、理解結果が「自宅へ帰る」であれば、制御タスクは「目的地設定(自宅)」となり、当該制御タスクの機能は制御タスクコマンド「現在地〜目的地ルート検索コマンド発行」となる。当該制御タスクコマンドの発行により、ナビゲーション装置は現在地から自宅へのルート探索処理をスタートさせる。次に、応答生成部106は、当該制御タスクの機能に基づいて応答を生成し、出力する(ステップS114)。制御タスクの機能と応答内容の対応は、図5に示した応答テーブル107を参照する。例えば、制御タスクの機能が制御タスクコマンド「現在地〜目的地ルート検索コマンド発行」であれば、応答内容は「自宅へ帰るルートを検索します」となる。
In the control process of step S102 or S107, when the
次に、認識特性抽出部109は、認識特性抽出フラグがONであるか否かを判定する(ステップS115)。認識特性抽出フラグがONでないと認識特性抽出部109が判定した場合(ステップS115:No)、認識特性抽出部109は、最終的に達成した制御タスクおよびN−bestを抽出する必要がない。そこで、認識特性抽出部109は、全フラグ(認識特性抽出フラグ、否定フラグ、あれば、取り消しフラグも含む。)をOFFにし、本制御処理を終了する。一方、認識特性抽出フラグがONであると認識特性抽出部109が判定した場合(ステップS115:Yes)、認識特性抽出部109は、否定フラグがOFFであるか否か、すなわち、対話中に利用者による否定が存在したか否かを判定する(ステップS116)。否定フラグがONである、すなわち、否定が存在すると認識特性抽出部109が判定した場合(ステップS116:No)、認識特性抽出部109は、上記制御タスクおよびN−bestを抽出する必要がない。そこで、認識特性抽出部109は、全フラグ(認識特性抽出フラグ、否定フラグ、あれば、取り消しフラグも含む。)をOFFにし、本制御処理を終了する。
Next, the recognition
一方、否定フラグがOFFである、すなわち、否定が存在しないと認識特性抽出部109が判定した場合(ステップS116:Yes)、認識特性抽出部109は、N−bestを認識パターンとして抽出する(ステップS117)。更に、認識特性抽出部109は、上記制御タスクを抽出する。認識特性抽出部109は、抽出された上記認識パターンの最大の認識スコアと閾値との差からボーナス値を算出する(ステップS118)。なお、認識パターンテーブル110が、既に、N−bestと順不同で同じ認識パターン、最終的に達成した上記制御タスクおよびボーナス値を記憶している場合、新しいボーナス値との最大値を取るなどとする。詳細は、上述の通りである。次に、抽出した上記認識パターン、上記制御タスクおよび算出した上記ボーナス値を認識パターンテーブル110に記憶する(ステップS119)。認識パターンテーブル110が、上記制御タスクにおける上記認識パターンを記憶していない場合、出現頻度を1として、新規に記憶する。以後、認識特性抽出部109は、全フラグ(認識特性抽出フラグ、否定フラグ、あれば、取り消しフラグも含む。)をOFFにし、本制御処理を終了する。
On the other hand, when the negative flag is OFF, that is, when the recognition
なお、上述の認識パターンの発生傾向には、利用者や発話環境の要因が大きく影響すると考えられる。すなわち、ある利用者aの発話Aは認識パターンαが出やすい、あるいはある雑音環境bにおける発話Bは認識パターンβが出やすいといった傾向である。特に自動車では、利用者が運転者を中心として極めて限定的であること、また車両の走行環境によって雑音環境がある程度特定できることから、第1の実施形態に係る音声対話装置を自動車に用いる場合に特に効果が大きいと考えられる。従って、利用者の音声の特徴量、カメラその他個人認証デバイスによる利用者識別情報に基づいて、発話者の特定が可能な場合は、上記認識パターンおよび最終的に達成した上記制御タスクに対応させて、上記の利用者識別情報を記憶することが望ましい。この場合、辞書制御部111は、新規発話に基づく利用者識別情報と、記憶された利用者識別情報とが同じ場合に、上記正解語彙と同じ新規発話の新規認識候補の認識スコアに、更に、利用者に応じて設定した所定値を加算させることができる。これから、利用者の発話の特性に応じた音声認識処理が可能となり、誤認識する可能性をより低減できる。よって、認識性能の向上が期待できる。
In addition, it is thought that the factors of the user and the utterance environment greatly influence the above-mentioned recognition pattern occurrence tendency. That is, there is a tendency that the utterance A of a certain user a is likely to generate the recognition pattern α, or the utterance B in a certain noise environment b is likely to generate the recognition pattern β. Especially in automobiles, the user is extremely limited, especially the driver, and the noise environment can be specified to some extent depending on the driving environment of the vehicle. Therefore, especially when the voice interactive apparatus according to the first embodiment is used in an automobile. The effect is considered large. Therefore, if it is possible to identify the speaker based on the user's voice feature, user identification information from the camera or other personal authentication device, it is necessary to correspond to the recognition pattern and the control task finally achieved. It is desirable to store the above user identification information. In this case, when the user identification information based on the new utterance and the stored user identification information are the same, the
同様に、走行状態等に基づく雑音環境を複数のセグメントに分類し、現在の雑音環境がどのセグメントに属するかを判定する機構を新たに設けても良い。この場合には、現在の雑音環境がどのセグメントに属するかを示す雑音環境情報を、上記認識パターンおよび最終的に達成した上記制御タスクに対応させて記憶することが望ましい。これにより、辞書制御部111は、新規発話に基づく雑音環境情報と、記憶された雑音環境情報とが同じ場合に、上記正解語彙と同じ新規発話の新規認識候補の認識スコアに、更に、雑音環境に応じて設定した所定値を加算させることができる。これから、雑音環境の特性に応じた音声認識処理が可能となり、誤認識する可能性をより低減できる。よって、認識性能の向上が期待できる。
Similarly, a noise environment based on a running state or the like may be classified into a plurality of segments, and a new mechanism for determining which segment the current noise environment belongs to may be provided. In this case, it is desirable to store noise environment information indicating to which segment the current noise environment belongs in association with the recognition pattern and the control task finally achieved. Thereby, the
以上より、第1の実施形態に係る音声対話装置では、一連の制御タスク達成に至る対話を監視し、初期発話の認識結果を認識パターンとして抽出するとともに、最終的に達成した制御タスクを抽出する認識特性抽出部109を備える。また、当該認識パターンと当該制御タスクに基づいて、当該制御タスクを優先させる辞書制御部111とを備える。更に、辞書制御部111は、新規発話に対する新規認識候補群が当該認識パターンと順不同で同じ場合に、当該制御タスクを優先させる。これから、音素列の並びが類似する語彙が生じても、利用者の過去の発話における認識結果と順不同で同じ認識結果が得られた場合、過去の発話で達成した制御タスクを優先させるので、誤認識が繰り返し発生する可能性を低減できる。
As described above, in the spoken dialogue apparatus according to the first embodiment, the dialogue that achieves a series of control tasks is monitored, the recognition result of the initial utterance is extracted as a recognition pattern, and the finally achieved control task is extracted. A recognition
また、第1の実施形態では、認識特性抽出部109は、初期発話の認識結果に基づく応答生成部106による応答に対して否定および訂正が存在せず、最終的に一連の制御タスクが達成した場合に、上記認識パターンと上記制御タスクを対応させて、認識パターンテーブル110に記憶する。更に、認識特性抽出部109は、上記認識パターンの最大の認識スコアと閾値との差から算出されたボーナス値を、最大の認識スコアを持つ認識候補、すなわち、正解語彙に対応させて、認識パターンテーブル110に記憶する。これから、辞書制御部111は、新規認識候補群が上記認識パターンと順不同で同じ場合に、正解語彙と同じ新規認識候補の認識スコアにボーナス値を加算させることができ、上記制御タスクを優先させることができる。
In the first embodiment, the recognition
(第2の実施形態)
第2の実施形態では、n回目の発話の認識結果に基づく応答に対して否定または訂正が存在し、(n+1)回目以降の発話の認識結果に基づく応答に対して、否定および訂正が存在せず、最終的に一連の制御タスクが達成した場合の結果に着目する。上記の場合、認識特性抽出部209(図10参照)は、認識結果に関する組合せを認識パターンとして抽出するとともに、当該認識パターンに関する制御タスクを抽出する。更に、認識特性抽出部209は、上記認識パターンと上記制御タスクを対応させて、認識パターンテーブル110(図10参照)に記憶する。なお、第2の実施形態における認識パターンは、利用者のn回目の発話の認識結果、すなわち、認識候補群であるN−bestのうち、認識特性抽出部209により抽出され、記憶された認識候補群を指す。また、第1の実施形態と同様に、認識候補には各々認識スコアが付与されるものとする。認識スコアについては、第1の実施形態と同様に、尤度や信頼度の尺度を利用することができる。なお、第2の実施形態における認識パターンに関する制御タスクは、否定および訂正が存在しなかったタスクのうち、該認識パターンに含まれる認識候補に関する制御タスクである。
(Second Embodiment)
In the second embodiment, there is negation or correction for a response based on the recognition result of the nth utterance, and there is no negation and correction for a response based on the recognition result of the (n + 1) th utterance. First, focus on the results when a series of control tasks are finally achieved. In the above case, the recognition characteristic extraction unit 209 (see FIG. 10) extracts a combination related to the recognition result as a recognition pattern and extracts a control task related to the recognition pattern. Further, the recognition
その後、利用者の新規発話に対する新規認識候補群が認識パターンと順不同で同じ場合に、辞書制御部211(図10参照)は、上記認識パターンに関する制御タスクを優先させて実行させる。具体的には、辞書制御部211に基づいて、理解部104(図10参照)は、上記認識パターンに関する制御タスクに関する認識候補と同じ新規認識候補の認識スコアに補正値を加算する。理解部104は、更に、加算後の認識結果の認識スコアのうち、最大の認識スコアが閾値を上回るか判定する。最大の認識スコアが閾値を上回ると判定した場合、理解部104は、最大の認識スコアを持つ新規認識候補からシステムの理解状態である理解結果を生成する。理解部104は、当該理解結果から制御タスクを決定する。これから、誤認識が繰り返し発生する可能性を低減するものである。
Thereafter, when the new recognition candidate group for the user's new utterance is the same as the recognition pattern in no particular order, the dictionary control unit 211 (see FIG. 10) prioritizes and executes the control task related to the recognition pattern. Specifically, based on the
以下、第2の実施形態に係る音声対話装置について、第1の実施形態に係る音声対話装置と異なる点を中心に説明する。また、第2の実施形態に係る音声対話装置について、第1の実施形態に係る音声対話装置と同様の構造には同じ番号を付し、説明を省略する。図10は、本発明の第2の実施形態に係る音声対話装置の基本構成を示したブロック図である。図10に示すように、第2の実施形態に係る音声対話装置の構成は、基本的には、第1の実施形態に係る音声対話装置の構成と同じである。第1の実施形態と異なるのは、認識特性抽出手段である認識特性抽出部209および辞書制御手段である辞書制御部211だけである。よって、認識特性抽出部209および辞書制御部211のみ説明する。
Hereinafter, the voice interactive apparatus according to the second embodiment will be described focusing on differences from the voice interactive apparatus according to the first embodiment. Moreover, the same number is attached | subjected to the structure similar to the voice interactive apparatus which concerns on 1st Embodiment about the voice interactive apparatus which concerns on 2nd Embodiment, and description is abbreviate | omitted. FIG. 10 is a block diagram showing a basic configuration of a voice interactive apparatus according to the second embodiment of the present invention. As shown in FIG. 10, the configuration of the voice interaction apparatus according to the second embodiment is basically the same as the configuration of the voice interaction apparatus according to the first embodiment. The only difference from the first embodiment is a recognition
第2の実施形態の認識特性抽出部209は、一連の制御タスク達成に至る対話、すなわち、認識候補群と理解結果を監視する。そして、n回目の発話の認識候補の組合せ1001(図11参照)を認識パターン1002(図11参照)として抽出するとともに、上記認識パターン1002に関する制御タスク1006(図11参照)を抽出する。第2の実施形態では、対話中に否定または訂正が存在した場合に、否定または訂正直前の認識結果1001に誤認識が含まれていると仮定する。すなわち、認識結果1001中の最大の認識スコアを持つ認識候補「近くのコンビニ」(図11参照)が誤認識であると仮定する。その後、(n+1)回目以降の発話の認識結果に基づく応答に対して、否定および訂正が存在せず、最終的に一連の制御タスクが達成し、上記制御タスク1006の機能が発行された場合、認識特性抽出部209は、一連の制御タスクのうち、認識パターン1002に関する制御タスクに関する認識候補が認識パターン1002に含まれているか否かを判定する。すなわち、認識特性抽出部209は、否定および訂正操作されなかった制御タスク1004(図11参照)に関する認識候補「目的地設定」(図11参照)が認識パターン1002に含まれているか否か判定する。更に、認識特性抽出部209は、否定および訂正操作されなかった制御タスク1006に関する認識候補が認識パターン1002に含まれているか否か判定する。認識パターン1002に認識語彙が含まれていると認識特性抽出部209が判定した場合、認識特性抽出部209は、認識パターン1002を抽出するとともに、認識パターン1002に関する制御タスク1006を抽出する。
The recognition
そして、認識パターン1002と制御タスク1006を対応させて、認識パターンテーブル110に記憶する。更に、認識特性抽出部209は、認識パターンに関する制御タスク毎の、新規認識候補群が認識パターンと順不同で同じになる頻度である出現頻度を認識パターンテーブル110に記憶する。また、認識特性抽出部209は、認識パターン1002の認識候補「自宅に帰る」(図11参照)に対する補正値であるボーナス値を算出し、認識パターンテーブル110に記憶する。ここで、ボーナス値は、認識パターン1002に関する制御タスク1006に関する認識候補「自宅へ帰る」の認識スコア0.40(図11参照)と認識パターン1002の最大の認識スコア0.46(図11参照)との差に基づいて算出される。よって、第2の実施形態の認識パターンテーブル110は、第1の実施形態と同様の書式となる。
Then, the
なお、認識パターンテーブル110は、第1の実施形態と同様に、利用者識別情報を、上記認識パターンに関する上記制御タスクに対応させて、記憶しても良い。このようにすれば、利用者の発話の特性に応じた音声認識処理が可能となり、誤認識する可能性をより低減できる。また、同様に、認識パターンテーブル110は、雑音環境情報を、上記認識パターンに関する上記制御タスクに対応させて、記憶しても良い。このようにすれば、雑音環境の特性に応じた音声認識処理が可能となり、誤認識する可能性をより低減できる。 Note that the recognition pattern table 110 may store user identification information in association with the control task related to the recognition pattern, as in the first embodiment. In this way, speech recognition processing according to the user's utterance characteristics can be performed, and the possibility of erroneous recognition can be further reduced. Similarly, the recognition pattern table 110 may store noise environment information in association with the control task related to the recognition pattern. In this way, speech recognition processing according to the characteristics of the noise environment can be performed, and the possibility of erroneous recognition can be further reduced.
第2の実施形態の辞書制御部211は、第1の実施形態と同様に、利用者の新規発話に対する新規認識候補群を音声認識部102が取得した場合に認識パターンテーブル110を参照する。上記新規認識候補群と順不同で同じ認識パターンが存在した場合に、当該認識パターンに関する制御タスクを優先させるものである。具体的には、辞書制御部111は、当該認識パターン1002に関する制御タスク1006に関する認識候補「自宅へ帰る」と同じ新規認識候補の認識スコアに、上記ボーナス値を加算させることで、当該認識パターンに関する制御タスクを優先させる。なお、認識特性抽出部209は、第1の実施形態と同様に、認識パターンテーブル110に出現頻度を記憶するので、辞書制御部211は、当該出現頻度を利用して、例えば、当該出現頻度が所定値を上回った場合のみ、ボーナス値を加算しても良い。また、当該出現頻度の多い認識パターンほど、ボーナス値のマージンを大きくする等の制御を実行しても良い。これにより、利用者の継続使用に伴い、利用者の意図するタスクが正確に達成できる可能性が高くなる。また、辞書制御部211は、理解部104が(n+1)回目以降の発話の認識結果について認識スコアを算出する際、n回目の発話の認識結果1001のうち最大の認識スコアを持つ認識候補「近くのコンビニ」と同じ認識候補「近くのコンビニ」について、該認識候補の認識スコアから所定値を減算させる。これにより、(n+1)回目以降の発話の認識結果に基づく応答が、n回目の発話の認識結果に基づく応答と同じになる可能性を低減することができる。
Similar to the first embodiment, the
なお、上述のシステムと利用者の否定または訂正後の対話は、音声に限定されるものでない。すなわち、音声により上手く認識できず、タッチパネルの操作等に移行し、タスクを設定した場合も記憶対象となる。また、記憶する制御タスクは、最終的に達成した制御タスクとは限らない。例えば、階層構造を辿るような対話を想定した場合、対話の中間地点(途中階層)においても、制御タスクが発生する。従って、第2の実施形態では、否定または訂正が存在した場合の再発話、すなわち、(n+1)回目以後の発話において、否定および訂正が存在しない場合、もしくは、肯定が存在した場合に、当該発話の認識結果に正解が含まれると仮定する。当該認識結果から生成した制御タスクも記憶対象とする。 The dialogue after the above-mentioned system and user denial or correction is not limited to voice. That is, even if the task cannot be recognized by voice and the operation is shifted to a touch panel operation or the like, and a task is set, it becomes a storage target. Further, the control task to be stored is not necessarily the control task finally achieved. For example, when a dialogue that follows a hierarchical structure is assumed, a control task occurs even at an intermediate point (intermediate layer) of the dialogue. Therefore, in the second embodiment, when there is a negative or correction, the recurrent utterance, that is, in the utterance after the (n + 1) th time, when there is no negation and correction, or when there is an affirmation, the utterance Suppose that the recognition result contains a correct answer. A control task generated from the recognition result is also stored.
以下に、具体的な対話例を用いて、認識特性抽出部209および辞書制御部211の動きを説明する。図11は、第2の実施形態の対話例における記憶条件と記憶対象データを示した図である。図11では、利用者が「自宅に帰る」という初期発話を行ない、自宅へのルート探索が実行されるまでの対話例を示している。なお、本対話例では、初期発話の認識結果に基づく応答に対して、否定または訂正が存在し、次回以降の発話の認識結果に基づく応答に対して、否定および訂正が存在せず、最終的に一連の制御タスクが達成した例を示しているが、これに限定されない。一連の制御タスク達成に至る対話の途中に否定または訂正が存在し、次回以降の発話の認識結果に基づく応答に対して否定および訂正が存在せず、最終的に一連の制御タスクが達成した場合にも適用できる。この場合、否定または訂正操作された直前の応答に関する認識結果を認識パターンとして抽出すれば良い。
Hereinafter, movements of the recognition
図11に示すように、システムが「ご用件をどうぞ」の発話を行うと(ステップS21)、利用者は、「自宅に帰る」の初期発話を行っている(ステップU21)。システムは、利用者の初期発話音声を認識し、当該初期発話音声の認識候補群1001、近くのコンビニ(0.46)、自宅へ帰る(0.40)、テレビON(0.10)を取得している(ステップS22)。括弧は認識スコアである。なお、本対話例では、第1の実施形態と同様に、N−best中の上位3認識候補について注目している。しかし、記憶対象とする認識候補数は、音声対話装置の認識性能を加味して決定するのが望ましい。あるいは、認識スコアが所定の閾値を上回る認識候補のみを記憶対象にしても良い。
As shown in FIG. 11, when the system utters “Please give me business” (step S21), the user is making an initial utterance of “going home” (step U21). The system recognizes the user's initial speech and recognizes the initial speech
理解部104は、当該初期発話音声の認識結果のうち最大の認識スコアを持つ認識候補「近くのコンビニ」に基づき、理解結果を決定する。図11に示した対話例では、理解結果として、周辺施設探索を実行するコマンド(図11では、実行(施設検索、目的地=周辺施設(コンビニ)))を発行する。同時に、応答生成部106は、応答「近くのコンビニエンスストアを探索します」を出力する。なお、第1の実施形態では、所定の閾値0.70を設け、該閾値を上回る認識スコアを持つ認識候補が見つからない限り、確認応答を出力する対話戦略の例を示した。第2の実施形態では、少なくとも初期発話に対する認識結果について、最大の認識スコアを持つ認識候補を用いて、理解結果を積極的に決定する対話戦略の例を示す。ただし、第2の実施形態を、第1の実施形態と同様の対話戦略に適用することも可能である。
The
システムの上記応答に対して、利用者は、否定または訂正操作を行っている(ステップU22)。当該否定または訂正操作は、音声による「違う」または「戻れ」等の発話でも良いし、訂正スイッチの押下でも良い。また、明示的な否定または訂正操作でなく、単純なリセット処理や、制御タスクが達成した直後の取り消し操作等も否定または訂正操作と捉えることが可能である。利用者の上記否定または訂正操作を受けて、システムは、理解結果として「訂正の検出」を取得し、応答生成部106は、当該理解結果に基づいて、応答「失礼しました、再度発話してください」を出力する(ステップS23)。その後、改めて利用者は発話を行う(ステップU23)。本対話例では、利用者は、初期発話と異なる内容の次回発話「目的地設定」を行うことで、タスク達成を試みている。なお、初期発話と同様の内容の発話によって、タスク達成を試みることも可能である。
In response to the response from the system, the user performs a negative or correction operation (step U22). The negation or correction operation may be a speech such as “different” or “return” by voice, or may be a press of a correction switch. In addition, a simple reset process or a cancel operation immediately after a control task is achieved can be regarded as a negate or correct operation instead of an explicit negate or correct operation. Upon receiving the above denial or correction operation of the user, the system acquires “correction detection” as an understanding result, and the
システムは、利用者の次回発話音声を認識し、当該発話音声の認識候補群、目的地設定(0.70)、駅で検索(0.10)、登録地(0.10)を取得している(ステップS24)。理解部104は、当該認識候補群に基づいて、理解結果1003として、目的地を設定するコマンド(図11では、実行(目的地設定方法選択))を発行する。同時に、応答生成部106は、応答「目的地を設定します。自宅、施設の名前、施設住所、施設の電話番号、履歴、登録地から設定できます」を出力する。その後、目的地の設定方法の選択を促された利用者は、「自宅へ帰る」という次々回発話を行う(ステップU24)。なお、この時、画面にて選択肢を提示し、画面操作にて選択できるようにしても良い。利用者の上記発話音声を認識し、当該発話音声の認識候補群、
自宅へ帰る (0.50)
近くのコンビニ(0.40−ペナルティ(0.70)=0.0)
登録地 (0.05)
を取得している(ステップS25)。
The system recognizes the next utterance voice of the user, obtains the recognition candidate group of the utterance voice, destination setting (0.70), search at the station (0.10), and registration location (0.10). (Step S24). Based on the recognition candidate group, the
Return home (0.50)
Nearby convenience store (0.40-Penalty (0.70) = 0.0)
Registration place (0.05)
Is acquired (step S25).
ここで、本対話例では、利用者の次々回発話の認識結果に基づく応答が、初期発話の認識結果に基づく応答と同じになる可能性を低減している。すなわち、初期発話の認識結果のうち最大の認識スコアを持つ認識候補「近くのコンビニ」と同じ認識候補「近くのコンビニ」の認識スコア0.40から所定値であるペナルティ(本対話例では、0.70)を減算する。これから、次々回発話の認識結果のうち最大の認識スコアを持つ認識候補は「自宅へ帰る」となる。理解部104は、理解結果1005として、自宅へのルートを検索するコマンド(図11では、実行(ルート検索、目的地=自宅))を発行する。同時に、応答生成部106は、応答「自宅へ帰るルートを探索します」を出力する。更に、否定または訂正操作後の認識結果について、第1の実施形態と同様に、閾値(例えば、0.70)を上回る認識候補が見つからなかった場合に確認応答を行う対話戦略としても良い。この場合、次々回発話の認識結果に、閾値(例えば、0.70)を上回る認識候補が見つからないので、理解部104は、次々回発話の認識結果のうち最大の認識スコアを持つ認識候補「自宅へ帰る」を用いて、確認応答の出力を行う。この結果、応答生成部106は、応答「自宅へ帰るルートの検索でよろしいですか?」を出力する。その後、システムの上記確認応答に対して、利用者からの肯定の応答を取得した場合に、理解部104は、理解結果1005を決定する。
Here, in this dialogue example, the possibility that the response based on the recognition result of the user's next utterance is the same as the response based on the recognition result of the initial utterance is reduced. That is, a penalty that is a predetermined value from the recognition score 0.40 of the same recognition candidate “near convenience store” as the recognition candidate “near convenience store” having the maximum recognition score among the recognition results of the initial utterance (in this dialogue example, 0) .70) is subtracted. From this, the recognition candidate having the maximum recognition score among the recognition results of the utterances one after another becomes “return to home”. The
上述の対話例を監視した場合、認識特性抽出部209は、
・初期発話の認識結果に基づく応答(ステップS22)の結果、否定または訂正(ステップU22)が検出された(図11の(a)にて確定)
・否定(ステップU22)に伴う次回以降の発話(ステップU23、U24)の認識結果に基づく応答(ステップS24、S25)に対して、否定および訂正が検出されなかった(図11の(b)にて確定)
・最終的に制御タスクが決定された(最終的な制御タスクの決定に対して否定が検出されなかった)(図11の(c)にて確定)
という記憶条件を満たすか否か判定する。認識特性抽出部209は、上記記憶条件を満たすと判定し、初期発話の認識結果1001を認識パターン1002として抽出する。更に、認識特性抽出部209は、中間対話にて決定した理解結果1003に対応する制御タスク1004(目的地設定方法選択)と、最終的に決定した理解結果1005に対応する制御タスク1006(ルート検索、目的地=自宅)を記憶対象とする。ただし、本対話例では、認識パターン1002に関する制御タスクが2候補得られている。そこで、認識特性抽出部209は、上記制御タスクの2候補のうちいずれかが、認識パターン1002に関する制御タスクか判定する。その後、判定された認識パターン1002に関する制御タスクを、認識特性抽出部209は、認識パターンテーブル110に記憶する。
When the above dialogue example is monitored, the recognition
As a result of the response based on the recognition result of the initial utterance (step S22), negation or correction (step U22) is detected (confirmed in (a) of FIG. 11)
-Negation and correction were not detected for the response (steps S24, S25) based on the recognition result of the utterances (steps U23, U24) from the next time onward (step U22) (see (b) of FIG. 11). Confirmed)
Finally, the control task was determined (no negative was detected for the final control task determination) (confirmed in (c) of FIG. 11)
It is determined whether or not the storage condition is satisfied. The recognition
ここで、認識パターン1002に関する制御タスクを判定する方法について説明する。具体的には、利用者により否定または訂正操作された直前の応答に関する発話(初期発話)が、図11に示したように、「自宅へ帰る」であれば、認識パターン1002に関する制御タスクは、制御タスク1006であると判定する。仮に、利用者により否定または訂正操作された直前の応答に関する発話が、「目的地設定」であったなら、認識パターン1002に関する制御タスクは、制御タスク1004であると判定する。図11に示した対話例の場合、初期発話の認識結果1001に、制御タスク1004(目的地設定方法選択)に関する認識候補が存在しない。一方、制御タスク1006(ルート検索、目的地=自宅)に関する認識候補「自宅へ帰る」のみが存在する。これから、認識パターン1002に関する制御タスクは、制御タスク1006であると判定できる。すなわち、制御タスクに関する認識候補が認識パターン1002に含まれているか否か判定することで、認識特性抽出部209は、認識パターン1002に関する制御タスクがいずれの制御タスクか自動的に判定できる。なお、更に進んで、認識パターン1002に、制御タスク1004に関する認識候補(例えば、「目的地設定」等)と制御タスク1006に関する認識候補(例えば、「自宅へ帰る」等)が含まれている場合を考える。この場合、認識特性抽出部209は、上記2候補のうち、認識パターン1002における認識スコアの高い認識候補に関する制御タスクを、認識パターン1002に関する制御タスクと判定すれば良い。
<上記構成を用いた具体的な制御処理の流れ>
ここで、上記構成を用いた第2の実施形態に係る音声対話装置の具体的な制御処理の流れを説明する。第2の実施形態に係る音声対話装置の具体的な制御処理は、第1の実施形態に係る制御処理と同様である。具体的には、図9に示したフローチャートのステップS101乃至S115の制御処理は、全く同じである。次に、認識特性抽出部209は、第1の実施形態と同様に、否定フラグがOFFであるか否か、すなわち、対話中に利用者による否定が存在したか否かを判定する(ステップS116)。否定フラグがOFFである、すなわち、否定が存在しないと認識特性抽出部209が判定した場合(ステップS116:Yes)、第1の実施形態と異なり、認識特性抽出部209は、全フラグをOFFにし、本制御処理を終了する。一方、否定フラグがONである、すなわち、否定が存在すると認識特性抽出部209が判定した場合(ステップS116:No)、認識特性抽出部209は、第1の実施形態と異なり、N−bestを認識パターンとして抽出する(ステップS117)。
Here, a method for determining a control task related to the
<Specific control processing flow using the above configuration>
Here, the flow of a specific control process of the voice interactive apparatus according to the second embodiment using the above configuration will be described. The specific control process of the voice interactive apparatus according to the second embodiment is the same as the control process according to the first embodiment. Specifically, the control processing in steps S101 to S115 in the flowchart shown in FIG. 9 is exactly the same. Next, as in the first embodiment, the recognition
更に、認識特性抽出部209は、上述のように、認識パターンに関する制御タスクを判定し、当該制御タスクを抽出する。抽出された当該制御タスクに関する認識候補の認識スコアと認識パターンの最大の認識スコアとの差に基づいて、ボーナス値を算出する(ステップS118)。なお、認識パターンテーブル110が、既にボーナス値を記憶している場合、第1の実施形態と同様に、新しいボーナス値との最大値を取るなどとする。次に、第1の実施形態と同様に、抽出した上記認識パターン、上記制御タスクおよび算出した上記ボーナス値を認識パターンテーブル110に記憶する(ステップS119)。認識パターンテーブル110が、上記制御タスクにおける上記認識パターンを記憶していない場合、第1の実施形態と同様に、出現頻度を1として、新規に記憶する。以後、認識特性抽出部209は、第1の実施形態と同様に、全フラグをOFFにし、本制御処理を終了する。このようにして、一連の制御タスク達成に至る対話中に否定または訂正が存在する過去の対話結果から、誤認識が発生する際の認識パターンを抽出する。利用者の新規発話に対する新規認識候補群が上記認識パターンと順不同で同じ場合に、上記認識パターンに関する制御タスクに関する認識候補と同じ新規認識候補の認識スコアにボーナス値を加算する。すなわち、認識パターンテーブル110に記憶されたボーナス値に対応する認識候補と同じ新規認識候補の認識スコアにボーナス値を加算する。これから、上記認識パターンに関する制御タスクを優先させている。
Further, as described above, the recognition
こうした誤認識パターンの理解に伴う認識スコア是正措置は、音響的に近い語彙が辞書に存在してしまうことに起因している。この点に着目し、そもそも認識辞書に登録する語彙から音響的に近いものを排除するように語彙を選定してしまう方法も考えられる。しかしながら、実際にそうした語彙の設定を行うとユーザビリティの低下が懸念される。つまり、システム側の都合で語彙を選択してしまうと、利用者にとって不自然な語彙を受け付けることになりかねない。よって、認識辞書に登録する語彙としては、利用者があるタスクに対して想起しやすい語彙を網羅すべきであり、そのために生じる音響的な類似性に伴う誤認識パターンを、第2の実施形態に示した方法にて是正することが望ましいと考える。 The recognition score correction measure accompanying the understanding of such a misrecognition pattern is attributed to the presence of an acoustically close vocabulary in the dictionary. Focusing on this point, a method of selecting a vocabulary so as to exclude words that are acoustically close from the vocabulary registered in the recognition dictionary can be considered. However, if such a vocabulary is actually set, there is a concern that the usability will be reduced. In other words, if a vocabulary is selected for the convenience of the system, it may be possible to accept a vocabulary that is unnatural for the user. Therefore, the vocabulary to be registered in the recognition dictionary should cover vocabularies that can be easily recalled for a certain task, and the erroneous recognition pattern that accompanies the acoustic similarity caused by the vocabulary is the second embodiment. I think that it is desirable to correct with the method shown in.
以上より、第2の実施形態に係る音声対話装置では、一連の制御タスク達成に至る対話を監視し、否定または訂正操作された認識候補が含まれるn回目の発話の認識結果を、認識パターンとして抽出する認識特性抽出部209を備える。更に、認識特性抽出部209は、否定および訂正が存在しなかった制御タスクのうち、上記認識パターンに含まれる認識候補に関する制御タスクを抽出する。また、当該認識パターンと当該制御タスクに基づいて、当該制御タスクを優先させる辞書制御部211とを備える。更に、辞書制御部211は、新規発話に対する新規認識候補群が当該認識パターンと順不同で同じ場合に、当該制御タスクを優先させる。これから、音素列の並びが類似する語彙が生じても、利用者の過去の発話における認識結果と順不同で同じ認識結果が得られた場合、上記認識パターンに関する制御タスクを優先させるので、誤認識が繰り返し発生する可能性を低減できる。
As described above, in the speech dialogue apparatus according to the second embodiment, the dialogue leading to the achievement of a series of control tasks is monitored, and the recognition result of the nth utterance including the recognition candidate that has been negated or corrected is used as a recognition pattern. A recognition
また、第2の実施形態では、認識特性抽出部209は、n回目の発話の認識結果に基づく応答生成部106による応答に対して否定または訂正が存在し、(n+1)回目以降の発話の認識結果に基づく応答に対して、否定および訂正が存在せず、最終的に一連の制御タスクが達成した場合に、上記認識パターンと上記制御タスクを対応させて、認識パターンテーブル110に記憶する。更に、認識特性抽出部209は、上記認識パターンに関する上記制御タスクに関する認識候補の認識スコアと上記認識パターンの最大の前記認識スコアとの差に基づいて算出されたボーナス値を、上記制御タスクに関する認識候補に対応させて、認識パターンテーブル110に記憶する。これから、辞書制御部211は、新規認識候補群が上記認識パターンと順不同で同じ場合に、上記制御タスクに関する認識候補と同じ新規認識候補の認識スコアにボーナス値を加算させることができ、上記制御タスクを優先させることができる。
In the second embodiment, the recognition
また、第2の実施形態では、辞書制御部211は、理解部104が(n+1)回目以降の発話の認識結果について認識スコアを算出する際、n回目の発話の認識結果のうち最大の認識スコアを持つ認識候補と同じ認識候補について、該認識候補の認識スコアから所定値を減算させる。これにより、(n+1)回目以降の発話の認識結果に基づく応答が、n回目の発話の認識結果に基づく応答と同じになる可能性を低減することができる。
In the second embodiment, when the
(第3の実施形態)
第2の実施形態でも述べたとおり、音声対話装置のユーザビリティを向上するための方策として、受理可能な言い回しに多様性を持たせることが考えられる。すなわち、一つのタスクを実行するコマンドの表現を複数持たせることで、利用者の多様な表現を受理するものである。しかしながら、複数の表現を登録することは、すなわち語彙の増加であるため、認識速度の低下、認識精度の低下が免れない。そこで、この相反性を適切にバランスさせる手法が必要である。そこで、利用者が対話装置を継続的に使用するにつれ、表現が収束していく特徴に着目する。
(Third embodiment)
As described in the second embodiment, as a measure for improving the usability of the voice interactive apparatus, it is conceivable to give diversity to acceptable phrases. In other words, by providing multiple expressions of commands for executing one task, various expressions of users are accepted. However, since registering a plurality of expressions is an increase in vocabulary, a reduction in recognition speed and a reduction in recognition accuracy are inevitable. Therefore, a technique for appropriately balancing this reciprocity is necessary. Therefore, attention is paid to the feature that the expression converges as the user continuously uses the interactive device.
具体的には、第3の実施形態では、第1の実施形態と同様に、初期発話の認識結果に基づく応答生成部106による応答に対して否定および訂正が存在せず、最終的に一連の制御タスクが達成した場合の結果に着目する。上記の場合、認識辞書303(図12参照)は、一の制御タスクに対して、認識対象とする語彙(以下、認識語彙とする。)を複数登録する。また、認識特性抽出部309(図12参照)は、最終的に達成した制御タスク毎の、利用者の新規発話に対する新規認識結果のうち最大の認識スコアを持つ認識候補が認識パターンのうち最大の認識スコアを持つ認識候補と同じになる頻度に基づいて、制御タスクにおける語彙毎の認識採用頻度を分析する。更に、辞書制御部311(図12参照)は、上記認識採用頻度が閾値を下回る語彙について、音声認識部302(図12参照)に当該語彙を認識対象から除外させる。これから、辞書制御部311は、認識パターンに関する制御タスクを優先させる。このようにして、認識速度の低下および認識精度の低下を防止し、誤認識が繰り返し発生する可能性を低減するものである。
Specifically, in the third embodiment, as in the first embodiment, there is no negation or correction for the response by the
なお、第3の実施形態における認識パターンは、第1の実施形態と同様に、利用者の初期発話の認識結果、すなわち、認識候補群であるN−bestのうち、認識特性抽出部309により抽出され、記憶された認識候補群を指す。また、第1の実施形態と同様に、認識候補には各々認識スコアが付与されるものとする。認識スコアについては、第1の実施形態と同様に、尤度や信頼度の尺度を利用することができる。なお、第3の実施形態における認識パターンに関する制御タスクは、最終的に達成した制御タスクである。
In addition, the recognition pattern in 3rd Embodiment is extracted by the recognition
以下、第3の実施形態に係る音声対話装置について、第1の実施形態に係る音声対話装置と異なる点を中心に説明する。また、第3の実施形態に係る音声対話装置について、第1の実施形態に係る音声対話装置と同様の構造には同じ番号を付し、説明を省略する。図12は、本発明の第3の実施形態に係る音声対話装置の基本構成を示したブロック図である。図12に示すように、第3の実施形態に係る音声対話装置の構成は、基本的には、第1の実施形態に係る音声対話装置の構成と同じである。第1の実施形態と異なるのは、音声認識手段である音声認識部302、認識辞書303、認識パターンテーブル310、認識特性抽出手段である認識特性抽出部309および辞書制御手段である辞書制御部311だけである。よって、音声認識部302、認識辞書303、認識パターンテーブル310、認識特性抽出部309および辞書制御部311のみ説明する。
Hereinafter, the voice interactive apparatus according to the third embodiment will be described focusing on differences from the voice interactive apparatus according to the first embodiment. Moreover, the same number is attached | subjected to the structure similar to the voice interactive apparatus which concerns on 1st Embodiment about the voice interactive apparatus which concerns on 3rd Embodiment, and description is abbreviate | omitted. FIG. 12 is a block diagram showing a basic configuration of a voice interactive apparatus according to the third embodiment of the present invention. As shown in FIG. 12, the configuration of the voice interaction apparatus according to the third embodiment is basically the same as the configuration of the voice interaction apparatus according to the first embodiment. The difference from the first embodiment is a
第3の実施形態の音声認識部302は、第1の実施形態と同様に、一般的な音声認識処理を行う。なお、音声認識部302は、製品出荷時には認識辞書303の全ての語彙を認識対象とするが、辞書制御部311に基づき、語彙を認識対象から除外することができる。また、認識辞書303は、一の制御タスクに対して、認識語彙を複数登録する。当該語彙は、利用者の言い回しの多様さに対応するために決定される。具体的には、
A.制御タスクに関する語彙に対して、同様の意味や機能を連想する語彙を網羅する
B.制御タスクを言語化した場合の文体のバリエーションを網羅する
のように、辞書作成者側が予め複数の語彙を考える。更に、
C.多数の被験者からある制御タスクを実行したい場合の自発的な発話を取得し(コーパスと呼ばれる)、出現頻度等に基づき語彙を選定する
というプロセスを入れることが望ましい。実際の利用実態を把握し、これを反映する形で語彙を選定することで、初期設定として用いる辞書のサイズをある程度絞り込むことが可能である。
The
A. Covers vocabulary associated with similar meanings and functions for vocabulary related to control tasks. The dictionary creator considers a plurality of vocabularies in advance so as to cover variations in style when the control task is verbalized. Furthermore,
C. It is desirable to include a process of acquiring spontaneous utterances (called a corpus) when performing a control task from a large number of subjects and selecting a vocabulary based on the appearance frequency. It is possible to narrow down the size of the dictionary used as the initial setting to some extent by grasping the actual use situation and selecting the vocabulary in a way that reflects this.
例えば、「ナビゲーション装置における目的地設定」という制御タスクについて、方法Aに基づき、バリエーションを増やす場合、まず、当該制御タスクの機能の代表的なコマンドを「目的地設定」のように決定し、これと同等の機能を連想する語を選定する。「目的地」という語彙に対して、「行き先」、「行く」等が、「設定」という語彙に対しては、「探す」、「検索」、「探索」等のコマンドが生成できる。これらを組み合わせて最終的に、「目的地を探す」、「目的地探索」、「行き先設定」、「行き先を探す」のような語彙が生成できる。同様に、「エアコンのスイッチを入れる」という制御タスクであれば、代表コマンドとして「エアコンオン」等と決定し、語彙「エアコン」に対して、「冷房(暖房)」、「クーラー(ヒーター)」、「空調」を、「オン」に対して「つける」、「入れる」等を選定し、最終的に、「エアコンを入れる」、「エアコンをつける」、「冷房オン」等のコマンドが生成できる。 For example, when the variation of the control task “Destination setting in the navigation device” is increased based on the method A, first, a representative command of the function of the control task is determined as “Destination setting”. Select a word associated with a function equivalent to. Commands such as “Destination”, “Go”, etc. can be generated for the vocabulary “Destination”, and “Search”, “Search”, “Search”, etc. can be generated for the vocabulary “Setting”. By combining these, vocabularies such as “search for destination”, “search for destination”, “set destination”, and “search for destination” can be generated. Similarly, if the control task is to “switch on the air conditioner”, the representative command is determined to be “air conditioner on” and the like, and the vocabulary “air conditioner” is “cooling (heating)”, “cooler (heater)”. Select “ON”, “ON”, etc. for “ON” for “ON”, and finally generate commands such as “ON AC”, “ON AC”, “ON” .
次に、方法Bの文体によるバリエーションを考える。機器操作における表現で現れる文体の代表的なものに、「体言止め」、「命令形」、「希望」、「丁寧調」といったものがある。上述の「エアコンオン」というコマンドであれば、
体言止め:エアコンオン、エアコンをつける
命令形:エアコンをオンにしろ、エアコンをつけろ
希望:エアコンをオンにしたい、エアコンをつけたい
といった形に変形される。なお、丁寧調については、上記それぞれの語尾を、「オンにしてください」、「つけてください」、「つけたいです」のように変形される。
Next, consider variations of the style of Method B. Typical examples of styles that appear in expressions in device operations include “stopping words”, “command type”, “hope”, and “polite”. If the above-mentioned command “air conditioner ON”,
Suppression: Air conditioner on, command form to turn on the air conditioner: Turn on the air conditioner, turn on the air conditioner. Hope: Turn on the air conditioner, turn on the air conditioner. For polite tone, the above endings are transformed to “Please turn on”, “Please add”, “I want to add”.
図13に、上記の手順で選定した語彙を登録した認識辞書303の例を示す。図13は、図12に示す認識辞書303の一例を示した図である。ここで、図13(a)は、各制御タスク名と当該制御タスク名に対応する複数の語彙とが登録されている。これから、ある制御タスクに関する語彙のうち、いずれかが理解結果として決定されれば、該制御タスクが実行される。更に、図13(b)には、単語ネットワークの形式で登録した例を示している。単語ネットワークの形式で登録した方法では、複数の言い回しを含む語彙を、単語、間投詞および接続詞等に分割し、単語、間投詞および接続詞等の接続関係をネットワークとして登録している。全ての接続の組み合わせが、認識語彙となる。なお、図13(a)、(b)は実質同じ語彙を認識することが可能である。
FIG. 13 shows an example of the
認識特性抽出部309は、一連の制御タスク達成に至る対話、すなわち、認識候補群と理解結果を監視する。そして、初期発話の認識結果に基づく応答生成部106による応答に対して否定および訂正が存在せず、最終的に一連の制御タスクが達成した場合に、初期発話の認識候補群である認識パターンを抽出する。更に、最終的に達成した制御タスクを抽出する。当該認識パターンの認識候補には、第1の実施形態と同様に、各々認識スコアが付与されており、当該認識パターンは認識スコアの大きい順に整列されている。そして、認識特性抽出部309は、第1の実施形態と同様に、認識スコア順に整列した認識パターンと上記制御タスクを対応させて、認識パターンテーブル310に記憶する。更に、認識特性抽出部309は、出現頻度を認識パターンテーブル310に記憶する。よって、認識パターンテーブル310は、図7に示した第1の実施形態の認識パターンテーブル110と同様の書式となっている。認識パターンテーブル310が認識パターンテーブル110と異なる点は、ボーナス値の欄が無いことだけである。
The recognition
ここで、出現頻度とは、上記制御タスク毎の、利用者の新規発話に対する新規認識結果のうち最大の認識スコアを持つ認識候補が上記認識パターンのうち最大の認識スコアを持つ認識候補と同じになる頻度である。上記出現頻度を、上記制御タスクが達成する度に記憶していくと、音声認識処理において、上記制御タスク毎に、どの語彙が多く使用されているかを示す認識採用頻度を把握することができる。図14は、図12に示す認識特性抽出部309における語彙毎の認識採用頻度を示した図である。ここで、図14(a)、(b)、(c)は、ある制御タスクA、B、Cに関する語彙毎の認識採用頻度である。図14(a)では、全体的に認識採用頻度が少なく、図14(b)および(c)では、認識採用頻度が多い一部の語彙に偏りが生じている。認識特性抽出部309が分析した認識採用頻度に基づき、後述の辞書制御部311は、認識語彙の絞込みを行う。なお、認識採用頻度に利用する数値は、出現頻度そのものを用いても良い。また、最大の出現頻度を持つ語彙の数値を基準値1とし、他の語彙との出現倍率の差として示しても良い。すなわち、最大の出現頻度を持つ語彙の半分しか使用されていない語彙の出現倍率は0.5となる。
Here, the appearance frequency is the same as the recognition candidate having the largest recognition score among the recognition patterns having the largest recognition score among the new recognition results for the user's new utterance for each control task. Is the frequency. If the appearance frequency is stored each time the control task is achieved, the recognition adoption frequency indicating which vocabulary is frequently used for each control task can be grasped in the speech recognition process. FIG. 14 is a diagram showing the recognition adoption frequency for each vocabulary in the recognition
辞書制御部311は、認識特性抽出部309が分析した認識採用頻度に基づき、語彙毎の認識採用頻度に偏りが生じているか否かを判定する。例えば、図15に示す方法で判定する。図15は、図12に示す辞書制御部311における認識採用頻度と閾値の比較例を示した図である。ここで、図15は、図14に示した制御タスクA、B、Cについて比較した例を示している。図15に示すように、辞書制御部311は、2つの閾値Th1およびTh2を備える。そして、辞書制御部311は、ある語彙の認識採用頻度が閾値Th1を上回った際、認識採用頻度が閾値Th2を下回る語彙があるか否か判定する。認識採用頻度が閾値Th2を下回る語彙があると判定した場合、辞書制御部311は、当該語彙を認識対象から除外するよう、音声認識部302を制御する。例えば、図15(a)に示した制御タスクAの判定結果では、閾値Th1を上回る語彙が無いため、辞書制御部311は、認識採用頻度が閾値Th2を下回る語彙があるか否か判定しない。一方、図15(b)に示した制御タスクBの判定結果では、語彙1301の認識採用頻度が閾値Th1を上回っている。この時、他の語彙の認識採用頻度は閾値Th2を下回っている。従って、辞書制御部311は、語彙1301以外の語彙を認識対象から除外させる。また、図15(c)に示した制御タスクCの判定結果では、語彙1302および1304の認識採用頻度が閾値Th1を上回っている。また、この時、閾値Th2を上回る語彙1303が存在している。従って、辞書制御部311は、語彙1302、1303、1304を除いた語彙を認識対象から除外させる。
The
なお、上述した出現倍率の差を用いる場合、辞書制御部311は、ある出現回数を上回る語彙の出現倍率を1.0とする。そして、上記語彙以外の他の語彙の出現倍率を計算する。更に、辞書制御部311は、ある語彙の出現倍率が所定の閾値、例えば、0.2を下回るか否か判定する。出現倍率が0.2を下回る語彙があると判定した場合、辞書制御部311は、当該語彙を認識対象から除外させるようにすればよい。製品出荷時の出現倍率は、全ての語彙が1.0に設定されている。図16に出現倍率で判定した例を示す。図16は、図12に示す辞書制御部311における認識採用頻度と閾値の他の比較例を示した図である。図16では、所定の閾値をTh3としている。図16(a)に示した制御タスクDの判定結果では、認識パターンテーブル310が十分記憶されていないため、出現倍率が閾値Th3を下回る語彙が存在しない。よって、制御タスクDに関する語彙の全てが認識対象となる。図16(b)に示した制御タスクEの判定結果では、語彙1401(出現倍率1.0)以外の全ての語彙の出現倍率が、閾値Th3を下回っている。よって、語彙1401以外の全ての語彙を認識対象から除外させる。一方、図16(c)に示した制御タスクFの判定結果では、語彙1402の出現倍率を基準として、語彙1403および1404の出現倍率が閾値Th3を上回っている。従って、語彙1402、1403および1404以外の語彙を認識対象から除外させる。
When using the above-described difference in appearance magnification, the
上記の方法により、認識語彙を制御した後の認識辞書303の例を図17に示す。図17は、図12に示す辞書制御部311における認識語彙を制御した後の認識辞書303の一例を示した図である。図13と同様に、図17(a)は各制御タスク名と当該制御タスク名に対応する語彙を登録した例であり、図17(b)は単語ネットワークの形式で登録した例である。図17(a)では、認識辞書303から除外された認識語彙が斜体の文字で示されている。同様に、図17(b)では、除外された単語が点線で示され、当該単語の前後の接続関係が消去されている。なお、辞書制御部311における認識語彙の認識対象除外処理は、利用者とシステムとの対話に否定や訂正が無い場合に用いられる。対話中に否定または訂正が発生した場合は、認識対象から除外した語彙を利用者が発話している可能性がある。そこで、第3の実施形態では、利用者の新規発話に対する新規認識結果に基づく応答に対して否定または訂正が存在した場合に、辞書制御部311は、認識対象から除外した語彙を認識対象に戻すよう、音声認識部302を制御する。更に、否定または訂正が存在した応答の直前の新規発話ついて、再度音声認識するよう、音声認識部302を制御する。これにより、認識対象から除外されていた語彙によって、制御タスクが達成した場合、認識パターンテーブル310の出現頻度にも修正を加える。
FIG. 17 shows an example of the
上記の修正方法に基づく認識採用頻度の経時変化の例について、図18を用いて説明する。図18は、図16に示す認識採用頻度の経時変化を示した図である。図18では、認識採用頻度の値を出現倍率として計算する例を示す。ここで、図18(a)は、図16(b)に示した制御タスクEに関する語彙毎の認識採用頻度と同様である。すなわち、図18(a)に示す語彙毎の認識採用頻度は、上記の修正方法によって修正されていない。図18(a)では、語彙1405の出現倍率が閾値Th3を下回っている。これから、語彙1405は認識対象から除外されている。この状況で、利用者とシステムの対話において否定が発生した場合を考える。すると、辞書制御部311は、認識対象から除外していた語彙を一旦全て認識対象に戻させ、否定が存在した応答の直前の新規発話を再度音声認識させる。この結果に対しても否定が発生した場合には、利用者に再発話を要求し、新たな発話音声を取得する。結果として、制御タスクが達成した場合、
辞書制御部311は、認識対象から除外されていた語彙によって、制御タスクが達成したか否か判定する。認識対象から除外されていた語彙により、制御タスクが達成したと判定した場合、認識パターンテーブル310の出現頻度に修正を加える。
An example of the change over time in the recognition adoption frequency based on the above correction method will be described with reference to FIG. FIG. 18 is a diagram showing the change over time in the recognition adoption frequency shown in FIG. FIG. 18 shows an example in which the value of the recognition adoption frequency is calculated as the appearance magnification. Here, FIG. 18A is the same as the recognition adoption frequency for each vocabulary related to the control task E shown in FIG. That is, the recognition adoption frequency for each vocabulary shown in FIG. 18A is not corrected by the above correction method. In FIG. 18 (a), the appearance ratio of the
The
当該出現頻度への修正は、例えば、図18(b)のように、初期発話では認識対象から除外されていた語彙1405により、制御タスクが達成したと判定した場合、語彙1405の出現倍率が閾値Th3を上回るように、ボーナスを与えることで実現できる。結果として、語彙1401および1405が認識対象となり、語彙1401および1405以外の他の語彙が認識対象から除外される。その後、利用者が語彙1405を継続して発話した結果、図18(c)のような認識採用頻度(出現倍率)になったとする。すると、今度は、語彙1401の出現倍率が閾値Th3を下回ったため、認識対象から除外される。これから、語彙1405のみが認識語彙として残ることとなる。
For example, as shown in FIG. 18B, the correction to the appearance frequency is performed when the
こうした一連の処理の結果、利用者の対話に基づき、言い回しの定着を検出し、適切に認識対象とする語彙を絞り込むことができる。認識語彙が削減されることにより、利用者の発話をより精度よく認識することが可能になると共に、認識対象が減るため、認識速度も向上することができる。なお、こうした語彙の偏りも、第1および第2の実施形態と同様、利用者の個人性に起因する部分が大きいと考えられる。すなわち、ある利用者aはタスクAに対し言い回しαを好んで使い、利用者bはタスクAに対し言い回しβを好んで使うという傾向である。自動車における音声対話装置では、利用者が極めて限定されやすい環境にあると考えられる。従って、第3の実施形態に係る音声対話装置を車両用に用いる場合に、特に効果的に働くことが期待できる。また、音声の特徴量やカメラ、その他個人認証デバイスを用いて利用者を判別する機構を設けることが可能であれば、上述の語彙毎の認識採用頻度を、利用者の識別情報と共に管理することが望ましい。 As a result of such a series of processes, it is possible to detect wording based on the user's dialogue and appropriately narrow down the vocabulary to be recognized. By reducing the recognition vocabulary, it becomes possible to recognize the user's utterance with higher accuracy and to reduce the number of objects to be recognized, thereby improving the recognition speed. In addition, it is considered that such a vocabulary bias is largely due to the individuality of the user, as in the first and second embodiments. That is, there is a tendency that a certain user “a” likes to use α for the task A, and a user “b” likes to use the statement β for the task A. It is considered that a voice dialogue apparatus in an automobile is in an environment where users are extremely limited. Therefore, it can be expected to work particularly effectively when the voice interactive apparatus according to the third embodiment is used for a vehicle. In addition, if it is possible to provide a mechanism for discriminating users using voice features, cameras, and other personal authentication devices, the frequency of recognition adoption for each vocabulary described above should be managed together with the user identification information. Is desirable.
以上より、第3の実施形態に係る音声対話装置では、一の制御タスクに対して、認識対象とする語彙を複数登録した認識辞書303と、認識特性抽出部309と、辞書制御部311とを備える。更に、認識特性抽出部309は、一連の制御タスク達成に至る対話を監視し、初期発話の認識結果に基づく応答に対して否定および訂正が存在せず、最終的に一連の制御タスクが達成した場合に、初期発話の認識結果を認識パターンとして抽出する。同時に、最終的に達成した制御タスクを抽出する。その後、認識特性抽出部309は、抽出した認識パターンと上記制御タスクを認識パターンテーブル310に記憶する。更に、上記制御タスク毎の、利用者の新規発話に対する新規認識結果のうち最大の認識スコアを持つ認識候補が認識パターンのうち最大の認識スコアを持つ認識候補と同じになる頻度である出現頻度を認識パターンテーブル310に記憶する。認識特性抽出部309は、当該出現頻度に基づいて、上記制御タスクにおける語彙毎の認識採用頻度を分析する。辞書制御部311は、上記認識採用頻度が閾値を下回る語彙について、音声認識部302に当該語彙を認識対象から除外させる。これにより、認識語彙が削減されることにより、利用者の発話をより精度よく認識することが可能になると共に、認識対象が減るため、認識速度も向上することができる。よって、誤認識した場合、出現頻度が更新されず、認識採用頻度が低いままとなり、利用者の継続使用により、制御タスクにおける誤認識した語彙は認識対象から除外されるので、誤認識が繰り返し発生する可能性を低減できる。
As described above, in the spoken dialogue apparatus according to the third embodiment, the
また、辞書制御部311は、利用者の新規発話に対する新規認識結果に基づく応答に対して否定または訂正が存在した場合に、認識対象から除外した語彙を認識対象に戻させて、否定または訂正が存在した応答の直前の新規発話ついて、再度音声認識させる。これから、認識対象の絞込みにより、誤認識が発生した場合でも、否定または訂正操作の後、正常に認識することができる。また、利用者の継続使用により、利用者の発話傾向が経時変化しても、当該経時変化に自動的に追従し、誤認識が繰り返し発生する可能性を低減できる。
Further, the
(第4の実施形態)
第3実施形態では、利用者の継続使用に伴う言い回しの定着、すなわち、制御タスクが達成した場合の利用者の発話に含まれた語彙の偏りを、制御タスク毎に判定している。従って、利用者が良く使用するタスクについては、言い回しの定着が検出された場合に、該タスクに対してほとんど発話されない語彙を認識対象から除外することができる。しかし、使用頻度が少ないタスクについては、該言い回しの定着が判定できないため、当該タスクに関する全ての語彙を認識対象とする必要がある。
(Fourth embodiment)
In the third embodiment, the wording included in the user's utterance when the control task is achieved is determined for each control task. Therefore, for a task that is frequently used by a user, when a fixed wording is detected, a vocabulary that is hardly spoken to the task can be excluded from recognition targets. However, for a task that is used infrequently, since it is not possible to determine whether the wording is fixed, it is necessary to recognize all vocabulary related to the task.
ここで、利用者の言い回しの定着について、更に着目すると、利用者が好んで使う言い回しは、特定のタスクのみならず、全体のタスクについて共通したものになる可能性が高いことが考えられる。例えば、エアコンの起動を行う命令について、「エアコンオン」という言い回しを多用する利用者では、CDやラジオを起動する命令についても、「CDオン」、「ラジオオン」のように発話する可能性が「CDを入れる」、「ラジオをつける」のように発話する可能性より高いと予想される。更には、「オン」という語彙を多用する利用者は、当該語彙の対義語として、「オフ」という語彙を使用する可能性が「消す」、「切る」を使用する可能性より高いことが予想される。これは、利用者の操作の継続に伴う成功経験、すなわち、思い通りに操作が完了した際の経験が、「こう言えば正しく動くだろう」というシステムに対する観念(メンタルモデル)の醸成に働くためと考えられる。実際に我々の実験でも、ある利用者が特定のタスクにおいて使用した言い回しを、別タスクにも使用する可能性が高いことがわかっている。こうした利用者側の特性を利用することで、十分に使用されていないタスクに関しても語彙の絞込みを達成することが可能となる。 Here, paying more attention to the fixing of the user's wording, it is possible that the wording that the user preferably uses is likely to be common not only for a specific task but also for the entire task. For example, a user who frequently uses the phrase “air conditioner on” for an instruction to start an air conditioner may utter a command such as “CD on” or “radio on” for an instruction to start a CD or radio. It is expected to be higher than the possibility of speaking like “insert CD” or “turn on radio”. Furthermore, it is expected that users who frequently use the vocabulary “on” are more likely to use the vocabulary “off” as a synonym of the vocabulary than “erase” or “cut”. The This is because the success experience associated with the continuation of the user's operation, that is, the experience when the operation is completed as expected, works to cultivate an idea (mental model) for the system that "it will move correctly in this way". Conceivable. In fact, even in our experiments, we have found that the phrase used by a user for a specific task is likely to be used for another task. By utilizing such user characteristics, it is possible to achieve narrowing down of vocabulary even for tasks that are not fully used.
第4の実施形態に係る音声対話装置では、こうした考えに基づく辞書の構成方法および辞書制御方法について説明する。すなわち、辞書を言い回しの共通性に基づき分類して複数備え、複数の辞書を同時並行的に認識に用いる方法である。更に、第4の実施形態に係る音声対話装置では、第1および第2の実施形態に示した、音響的な特性から生じる認識スコアの偏りや誤認識の発生を是正する方法についても、分割した辞書に拡張して適用する。すなわち、第1および第2の実施形態では単語単位の誤認識パターンに着目して是正する処理を行っていた。しかし、第4の実施形態では、辞書単位の誤選択パターン(誤った辞書の語彙が認識結果として取得されてしまう事象)の抽出に用いる。誤選択パターンに基づき、辞書の優先順位を決定する。 In the spoken dialogue apparatus according to the fourth embodiment, a dictionary construction method and a dictionary control method based on these ideas will be described. In other words, this is a method in which a plurality of dictionaries are classified and provided based on commonality of phrases and a plurality of dictionaries are used for recognition simultaneously. Furthermore, in the voice interactive apparatus according to the fourth embodiment, the method for correcting the bias of recognition scores and the occurrence of misrecognition caused by the acoustic characteristics shown in the first and second embodiments is also divided. Apply to dictionary. That is, in the first and second embodiments, correction processing is performed by paying attention to the erroneous recognition pattern in units of words. However, in the fourth embodiment, it is used for extraction of an erroneous selection pattern (an event in which an erroneous dictionary vocabulary is acquired as a recognition result) in units of dictionary. The priority order of the dictionary is determined based on the erroneous selection pattern.
以下、第4の実施形態に係る音声対話装置について、第1の実施形態に係る音声対話装置と異なる点を中心に説明する。また、第4の実施形態に係る音声対話装置について、第1の実施形態に係る音声対話装置と同様の構造には同じ番号を付し、説明を省略する。図19は、本発明の第4の実施形態に係る音声対話装置の基本構成を示したブロック図である。図19に示すように、第4の実施形態に係る音声対話装置の構成は、基本的には、第1の実施形態に係る音声対話装置の構成と同じである。第1の実施形態と異なるのは、音声認識手段である音声認識部402、認識辞書403、理解手段である理解部404、認識パターンテーブル410、認識特性抽出手段である認識特性抽出部409および辞書制御手段である辞書制御部411だけである。よって、音声認識部402、認識辞書403、理解部404、認識パターンテーブル410、認識特性抽出部409および辞書制御部411のみ説明する。
Hereinafter, the voice interactive apparatus according to the fourth embodiment will be described focusing on differences from the voice interactive apparatus according to the first embodiment. Moreover, the same number is attached | subjected to the structure similar to the voice interactive apparatus which concerns on 1st Embodiment about the voice interactive apparatus which concerns on 4th Embodiment, and description is abbreviate | omitted. FIG. 19 is a block diagram showing a basic configuration of a voice interactive apparatus according to the fourth embodiment of the present invention. As shown in FIG. 19, the configuration of the voice interactive apparatus according to the fourth embodiment is basically the same as the configuration of the voice interactive apparatus according to the first embodiment. The difference from the first embodiment is a
音声認識部402は、後述する認識辞書403が備える複数の辞書に登録された語彙と利用者の発話音声とを同時並列に比較し、複数の辞書から認識結果を取得する。上記認識結果は各辞書から複数の認識候補、すなわち、N−bestを取得することが望ましい。複数辞書の並列認識方法については、田熊、岩野、古井、“並列処理型計算機を用いた音声対話システムの検討”、人口知能学会研究会資料、SIG-SLUD-A201-04,pp.21-26,2002.が詳しい。当該文献では、複数の対話ドメイン(達成させる対話内容)毎に辞書を持つように構成される。当該辞書を並列に認識させることで、利用者が自由に対話のドメインを決定することができる。すなわち、対話ドメインの順序を意識することなく発話することができる。更に、タスクの切り替えも任意のタイミングで行うことができる。また、当該並列認識方法については、特開2004-258289号公報も詳しい。当該文献では、複数の雑音環境に適応させた辞書を複数併せ持ち、当該辞書を並列に認識させることで、多様な雑音の状況下においても、最適な辞書の認識結果が抽出され、認識精度を向上させることができる。
The
認識辞書403は、第3実施形態と同様に、利用者の多様な言い回しを受理できるように、一の制御タスクに対して、認識対象とする語彙を複数選定する。更に、利用者の多様な言い回しの共通性に基づき、選定された語彙を分類して分割した辞書に登録する。認識辞書403の構成例を図20および図21に示す。図20は図19に示す認識辞書403の一例を示した図、図21は図19に示す認識辞書403の他の一例を示した図である。図20は、機器操作における表現で現れる文体に基づき認識辞書403を分類した例を示している。第4の実施形態に述べる文体としては、第3の実施形態で述べたような、「体言止め」、「命令形」、「希望」といった、主に動詞の活用形の違いに基づくものが考えられる。また、「普通調(〜して)」、「丁寧調(〜してください)」といった利用者の発話対象に抱く上下関係に依存するものが考えられる。上記の違いに基づき、認識辞書403は、辞書A、辞書B・・・と分割されている。一方、図21は、図20の文体に加え、主に動詞あるいは動名詞の共通点に基づき細かく分割した例を示している。例えば、辞書A(体言止め)に対し、共通部分「行く」、「探す」、「聴く」、「オン/オフ」毎に分類され、各々辞書A−1、辞書A−2、・・・と分割されている。この場合、制御タスクによっては、全ての辞書に語彙が含まれない場合がある。図21では、語彙が含まれない部分を「null」と表記している。
Similar to the third embodiment, the
理解部404は、音声認識部402が各辞書から取得したN−bestに基づき、理解結果を生成する。具体的には、N−bestに基づいて、最も信頼できる認識候補を理解結果として決定する。更に、理解部404は、第1の実施形態と同様に、機能テーブル105を参照して、当該理解結果に対する制御タスクを決定する。理解結果の決定方法としては、一般的に、各々の辞書から取得したN−bestに含まれる各認識候補について、認識スコアを算出し、最大の認識スコアを持つ認識候補を理解結果として決定する方法が用いられる。
The
認識特性抽出部409では、
A.対話履歴と認識パターンの分析に基づく辞書誤選択(誤った辞書の語彙が選択されることによる誤認識の発生)の分析処理
B.対話履歴と認識パターンの分析に基づく辞書間の認識採用頻度の分析処理
を行う。
In the recognition
A. Analysis processing of dictionary misselection based on analysis of dialogue history and recognition pattern (occurrence of misrecognition due to selection of wrong dictionary vocabulary) Analyzes the frequency of recognition adoption between dictionaries based on dialogue history and recognition pattern analysis.
辞書制御部411では、上記の各処理の結果に基づき、
A.辞書間の認識特性(辞書誤選択の発生しやすさ)に基づく辞書の優先順位付け処理
B.辞書間の認識採用頻度に基づく辞書の優先順位付けおよび辞書除外処理
を行う。以下に、処理A、Bを詳しく説明する。
In the
A. D. Prioritization processing of dictionaries based on recognition characteristics between dictionaries (probability of occurrence of erroneous dictionary selection) Perform dictionary prioritization and dictionary exclusion processing based on recognition adoption frequency between dictionaries. Hereinafter, the processes A and B will be described in detail.
<処理A>
処理Aは、一連の制御タスク達成に至る対話を監視し、誤認識が発生した際、認識パターンおよび認識パターンに関する制御タスクを抽出するものであり、第2の実施形態に類似する処理である。すなわち、n回目の発話の認識結果に基づく応答に対して、否定または訂正が存在し、(n+1)回目以降の発話の認識結果に基づく応答に対して、否定および訂正が存在せず、最終的に一連の制御タスクが達成した場合に、抽出する。なお、第4の実施形態の処理Aでは、認識パターンは、n回目の発話の認識候補群が登録された辞書と上記辞書毎の最大の認識スコアとの組合せを指す。一方、認識パターンに関する制御タスクである正解制御タスク(図24参照)は、否定および訂正が存在しなかった制御タスクのうち、n回目の発話の認識候補群に含まれる認識候補に関する制御タスクである。認識特性抽出部409は、上記認識パターンと上記正解制御タスクとを対応させて、認識パターンテーブル410に記憶する。また、認識特性抽出部409は、n回目の発話の認識候補群に基づいて決定された制御タスクである誤認識制御タスク(図24参照)も認識パターンテーブル410に記憶する。更に、認識特性抽出部409は、上記正解制御タスクに関する上記認識候補を登録した辞書である優先辞書(図24参照)も認識パターンテーブル410に記憶する。
<Process A>
The process A is a process similar to that of the second embodiment, which monitors a dialog that reaches a series of control tasks and extracts a recognition pattern and a control task related to the recognition pattern when a misrecognition occurs. That is, there is negation or correction for the response based on the recognition result of the nth utterance, and there is no negation or correction for the response based on the recognition result of the (n + 1) th utterance and the final result. When a series of control tasks are achieved, they are extracted. In the process A of the fourth embodiment, the recognition pattern indicates a combination of a dictionary in which a recognition candidate group for the n-th utterance is registered and the maximum recognition score for each dictionary. On the other hand, the correct answer control task (see FIG. 24), which is a control task related to the recognition pattern, is a control task related to the recognition candidates included in the recognition candidate group of the nth utterance among the control tasks for which there is no negation or correction. . The recognition
以下に、具体的な対話例を用いて、処理Aにおける認識特性抽出部409の動きを説明する。図22は第4の実施形態の対話例における記憶条件と記憶対象データを示した図、図23は第4の実施形態の他の対話例における記憶条件と記憶対象データを示した図である。なお、第2の実施形態と同様に、図22および図23に示す対話例では、初期発話の認識結果に基づく応答に対して、否定または訂正が存在し、次回以降の発話の認識結果に基づく応答に対して、否定および訂正が存在せず、最終的に一連の制御タスクが達成した例を示しているが、これに限定されない。一連の制御タスク達成に至る対話の途中に否定または訂正が存在し、次回以降の発話の認識結果に基づく応答に対して否定および訂正が存在せず、最終的に一連の制御タスクが達成した場合にも適用できる。この場合、否定または訂正操作された直前の応答に関する認識結果が登録された辞書と当該辞書毎の最大の認識スコアとの組合せを認識パターンとして抽出すれば良い。
Hereinafter, the movement of the recognition
図22に示す対話例では、利用者がコンビニエンスストアのアイコンをナビゲーション画面に表示させるために行った対話例における記憶条件と記憶対象データを示している。図22に示すように、システムが「ご用件をどうぞ」の発話を行うと(ステップS411)、利用者は「コンビニを表示」の初期発話を行っている(ステップU411)。システムは、利用者の初期発話音声を認識し、当該初期発話音声の認識結果1901を取得している(ステップS412)。図22における括弧は認識スコアである。理解部404は、閾値と認識スコアを比較し、閾値を上回る認識候補があった場合に、当該認識結果から理解結果を生成する。本対話例では、閾値は0.70である。結果、理解部404は、閾値を上回る認識候補が見つからないと判定し、認識結果1901のうち、最大の認識スコアを持つ認識候補を用いて、確認応答の出力を行う。図22では、確認(オーディオ切替、オーディオ種別=テレビ)と示されている。この結果、応答生成部106は、応答「テレビに切り替えますか?」を音声出力する。
The dialogue example shown in FIG. 22 shows the storage conditions and the storage target data in the dialogue example performed for the user to display the convenience store icon on the navigation screen. As shown in FIG. 22, when the system utters “Please give me a request” (step S411), the user makes an initial utterance of “display convenience store” (step U411). The system recognizes the initial utterance voice of the user and obtains the
システムの上記応答に対して、利用者は、訂正スイッチを押下している(ステップU412)。なお、「違う」、「いいえ」等の否定の発話でも良い。利用者の上記訂正スイッチの押下を受けて、システムは、理解結果として「訂正」を取得し、応答生成部106は、当該理解結果に基づいて、応答「失礼しました、再度発話してください」を出力する(ステップS413)。その後、改めて利用者は「コンビニエンスストア表示」と発話している(ステップU413)。システムは、利用者の次回発話音声を認識し、当該発話音声の認識結果を取得している(ステップS414)。理解部404は、閾値と認識スコアを比較し、閾値を上回る認識候補が見つからないと判定し、上記認識候補群のうち、最大の認識スコアを持つ認識候補を用いて、確認応答の出力を行う。図22では、確認(施設表示、種別=コンビニエンスストア)と示されている。この結果、応答生成部106は、応答「コンビニエンスストアを表示しますか?」を音声出力する。
In response to the response from the system, the user has pressed the correction switch (step U412). Note that negative utterances such as “No” and “No” may be used. When the user presses the correction switch, the system acquires “correction” as an understanding result, and the
システムの上記確認応答に対して、利用者が「はい」と発話している(ステップU414)。システムは当該発話を認識し、その結果、理解部404は閾値を上回る認識候補「はい」が見つかったと判定する(ステップS415)。更に、理解結果として、コンビニエンスストアを表示するコマンド(図22では、実行(施設表示、種別=コンビニエンスストア))を発行する。この結果、応答生成部106は、応答「コンビニエンスストアを表示します」を音声出力する。これより、最終的な制御タスク、すなわち、コンビニエンスストアの表示を達成している。なお、第2の実施形態と同様に、ステップU413における利用者の次回発話音声の認識では、直前に訂正スイッチを押下された制御タスク(オーディオ切替、オーディオ種別=テレビ)に関する認識候補(例えば、「テレビON」、「テレビを点ける」、「テレビを見る」)について、上位の認識候補として取得しないよう、認識スコアに補正を加えることが望ましい。具体的には、辞書制御部411は、理解部404が(n+1)回目以降の発話(次回発話)の認識結果について認識スコアを算出する際、否定または訂正直前の認識結果、すなわち、n回目の発話(初期発話)の認識結果のうち最大の認識スコアを持つ認識候補「テレビON」と同じ認識候補の認識スコアから所定値を減算させることで実現できる。
In response to the confirmation response from the system, the user speaks “Yes” (step U414). The system recognizes the utterance, and as a result, the
本対話例において、
・初期発話の認識結果1901から生成された理解結果1902に対して訂正が検出された(図22の(a)にて確定)
・訂正直後の次回発話(ステップU413)の認識結果(ステップS414)に対して肯定が検出された(あるいは否定が検出されなかった)(図22の(b)にて確定)
・最終的に制御タスクが決定された(図22の(c)にて確定)
という記憶条件を満たすか否か判定する。認識特性抽出部409は、上記記憶条件を満たすと判定し、初期発話認識候補群1903から認識パターンを抽出する。更に、認識特性抽出部409は、誤認識となった理解結果1902に対応する誤認識制御タスク1904と、最終的に決定した理解結果1905に対応する正解制御タスク1906を抽出する。更に、認識特性抽出部409は、正解制御タスク1906に関する認識候補「コンビニを表示」を登録した辞書Cを優先辞書として抽出する。なお、認識パターンとして、初期発話認識候補群1903から、認識候補の認識スコアと当該認識候補が登録された辞書名を対応させて抽出している点が、第1および第2の実施形態と異なる。その後、抽出した誤認識制御タスク1904、正解制御タスク1906および優先辞書を、認識パターンと対応させて、認識パターンテーブル410に記憶する。
In this dialogue example,
Correction was detected for the understanding result 1902 generated from the
Affirmation was detected for the recognition result (step S414) of the next utterance (step U413) immediately after correction (or no negative was detected) (determined in (b) of FIG. 22)
-Finally, the control task is determined (confirmed in (c) of FIG. 22)
It is determined whether or not the storage condition is satisfied. The recognition
一方、図23に示す他の対話例では、利用者が住所入力により目的地を設定させるために行った対話例における記憶条件と記憶対象データを示している。図23に示した対話例では、図22に示した対話例と異なり、正解制御タスクが2候補得られている。利用者がメニュー階層に従って、システムと複数回の対話を継続するような場合がこれに相当する。図23に示すように、システムが「ご用件をどうぞ」の発話を行うと(ステップS421)、利用者は「目的地を探す」の初期発話を行っている(ステップU421)。システムは、利用者の初期発話音声を認識し、当該初期発話音声の認識結果2001を取得している(ステップS422)。図23における括弧は認識スコアである。理解部404は、当該初期発話音声の認識結果のうち、最大の認識スコアを持つ認識候補「自宅へ帰る」に基づき、理解結果2002を決定する。図23に示した対話例では、理解結果として、自宅へのルートを検索するコマンド(図23では、実行(ルート検索、目的地=自宅)を発行する。同時に、応答生成部106は、応答「自宅へ帰るルートを検索します」を出力する。なお、図23の対話例では、図22に示した対話例と異なり、第2の実施形態と同様に、閾値を設けず、少なくとも初期発話に対する認識結果について、最大の認識スコアを持つ認識候補を用いて、理解結果を積極的に決定する対話戦略を用いた。
On the other hand, the other dialogue example shown in FIG. 23 shows the storage condition and the storage target data in the dialogue example performed for the user to set the destination by inputting the address. In the dialogue example shown in FIG. 23, unlike the dialogue example shown in FIG. 22, two correct control task candidates are obtained. This is the case when the user continues to interact with the system multiple times according to the menu hierarchy. As shown in FIG. 23, when the system utters “Please give me a request” (step S421), the user makes an initial utterance of “Find a destination” (step U421). The system recognizes the initial utterance voice of the user and obtains the
システムの上記応答に対して、利用者は、訂正スイッチを押下している(ステップU422)。なお、「違う」、「いいえ」等の否定の発話でも良い。利用者の上記訂正スイッチの押下を受けて、システムは、理解結果として「訂正」を取得し、応答生成部106は、当該理解結果に基づいて、応答「失礼しました、再度発話してください」を出力する(ステップS423)。その後、改めて利用者は「目的地設定」と発話している(ステップU423)。図23の対話例では、利用者は、初期発話と異なる内容の次回発話「目的地設定」を行うことで、制御タスク達成を試みている。システムは、利用者の次回発話音声を認識し、当該発話音声の認識結果を取得している(ステップS424)。理解部404は、当該認識結果に基づいて、理解結果2005として、目的地を設定するコマンド(図23では、実行(目的地設定方法選択))を発行する。同時に、応答生成部106は、応答「目的地を設定します。自宅、施設の名前、施設住所、施設の電話番号、履歴、登録地から設定できます」2006を出力する。その後、目的地の設定方法の選択を促された利用者は、「住所で探す」という次々回発話を行う(ステップU424)。
In response to the response from the system, the user has pressed the correction switch (step U422). Note that negative utterances such as “No” and “No” may be used. When the user presses the correction switch, the system acquires “correction” as an understanding result, and the
システムは、利用者の次々回発話音声を認識し、当該発話音声の認識結果を取得している(ステップS425)。理解部404は、当該認識結果に基づいて、理解結果2007として、目的地を住所で設定するコマンド(図23では、実行(目的地設定方法選択、方法=住所))を発行する。同時に、応答生成部106は、応答「住所を都道府県名からお話ください」を出力する。その後、利用者は、「神奈川県・・」という次々々回発話を行う(ステップU425)。以降、システムと利用者の間で住所入力に関する対話が継続され、理解部404は、理解結果2009として、神奈川県○○へのルート検索を実行するコマンド(図23では、実行(ルート検索、目的地=神奈川県○○))を発行する。同時に、応答生成部106は、応答「神奈川県○○を目的地に設定します」を出力する。上記の対話より、最終的に住所による目的地設定が完了している。
The system recognizes the utterance voice of the user one after another and acquires the recognition result of the utterance voice (step S425). Based on the recognition result, the
図23に示した対話例において、
・初期発話の認識結果2001から生成された理解結果2002に対して訂正が検出された(図23の(a)にて確定)
・訂正直後の次回発話(ステップU423)の認識結果(ステップS424)に対して肯定が検出された(あるいは否定が検出されなかった)(図23の(b)にて確定)
・最終的に制御タスクが決定された(図23の(c)にて確定)
という記憶条件を満たすか否か判定する。認識特性抽出部409は、上記記憶条件を満たすと判定し、初期発話認識候補群2003から認識パターンを抽出する。更に、誤認識となった理解結果2002に対応する誤認識制御タスク2004を抽出する。また、正解制御タスクとして、中間理解結果2005に対応する制御タスク2008と、最終的に決定した理解結果2009に対応する制御タスク2010を記憶対象とする。
In the dialogue example shown in FIG.
Correction was detected for the
Affirmation was detected for the recognition result (step S424) of the next utterance (step U423) immediately after correction (or no negation was not detected) (confirmed in (b) of FIG. 23)
Finally, the control task is determined (confirmed in (c) of FIG. 23)
It is determined whether or not the storage condition is satisfied. The recognition
ここで、上記の通り、正解制御タスクの候補として、制御タスク2008および2010がある。そこで、認識特性抽出部409は、上記制御タスクの2候補2008および2010のうちいずれかが、正解制御タスクか判定する。正解制御タスクの判定方法は、第2の実施形態と同様に、初期発話認識候補群2003の内容から判定する。すなわち、利用者により否定および訂正操作されなかった制御タスクに関する認識候補が、誤認識制御タスクに関する初期発話認識候補群2003に含まれているか否か判定する。当該認識候補が含まれていた制御タスクを正解制御タスクと判定する。なお、双方の制御タスク2008および2010に関する認識候補が、初期発話認識候補群2003に含まれていた場合、認識スコアの高いほうを正解制御タスクと判定する。また、どちらも存在しない場合は、正解制御タスクは存在しないので、認識パターン、誤認識制御タスク、正解制御タスク、後述する優先辞書を抽出しない。
Here, as described above, there are
図23の対話例では、制御タスク2010に関する認識候補(例えば、「神奈川県○○市」等)が、誤認識制御タスクに関する認識候補群である初期発話認識候補群2003に存在しない。一方、制御タスク2008に関する認識候補「目的地を探す」が、初期発話認識候補群2003に存在する。これから、正解制御タスクは、制御タスク2008と判定される。よって、制御タスク2008も抽出される。また、認識特性抽出部409は、正解制御タスク2008に関する認識候補「目的地を探す」を登録した辞書Fを優先辞書として抽出する。その後、抽出した誤認識制御タスク2004、正解制御タスク2008および優先辞書を、認識パターンと対応させて、認識パターンテーブル410に記憶する。
In the dialogue example of FIG. 23, the recognition candidate related to the control task 2010 (for example, “Kanagawa XX city”) does not exist in the initial utterance
図22および図23の対話例から記憶された認識パターンテーブル410の例を示す。図24は、図19に示す認識パターンテーブル410の一例を示した図である。図22に示した対話例から抽出された認識パターン、誤認識制御タスク1904、正解制御タスク1906および優先辞書は、No.1の行に記憶されている。図23に示した対話例から抽出された認識パターン、誤認識制御タスク2004、正解制御タスク2008および優先辞書は、No.2の行に記憶されている。
The example of the recognition pattern table 410 memorize | stored from the dialogue example of FIG.22 and FIG.23 is shown. FIG. 24 shows an example of the recognition pattern table 410 shown in FIG. The recognition pattern, the
また、第4の実施形態の認識パターンは、上述したように、否定または訂正操作された直前の応答に関する認識結果が登録された辞書と上記辞書毎の最大の認識スコアとの組合せである。優先辞書名は、利用者の新規発話に対する新規認識結果を取得した場合に、優先すべき辞書名である。例えば、図22に示した対話例では、辞書Cに登録された語彙(認識候補)から理解結果を生成すべきところ、辞書Bに登録された語彙(認識候補)から理解結果を生成した結果、誤認識となった。これを是正すべく、該優先辞書名に辞書Cが記憶されている。同様にして、図23に示した対話例では、辞書Fに登録された語彙(認識候補)から理解結果を生成すべきところ、辞書Aに登録された語彙(認識候補)から理解結果を生成した結果、誤認識となった。これを是正すべく、該優先辞書名に辞書Fが記憶されている。 In addition, as described above, the recognition pattern of the fourth embodiment is a combination of a dictionary in which a recognition result related to a response immediately before a negative or correction operation is registered and the maximum recognition score for each dictionary. The priority dictionary name is a dictionary name that should be prioritized when a new recognition result for a user's new utterance is acquired. For example, in the dialogue example shown in FIG. 22, an understanding result should be generated from a vocabulary (recognition candidate) registered in the dictionary C. However, as a result of generating an understanding result from a vocabulary (recognition candidate) registered in the dictionary B, It became misrecognition. In order to correct this, the dictionary C is stored in the priority dictionary name. Similarly, in the dialogue example shown in FIG. 23, the understanding result should be generated from the vocabulary (recognition candidate) registered in the dictionary F, but the understanding result was generated from the vocabulary (recognition candidate) registered in the dictionary A. As a result, it was misrecognized. In order to correct this, the dictionary F is stored in the priority dictionary name.
第4の実施形態の辞書制御部411は、第1の実施形態と同様に、利用者の新規発話に対する新規認識候補群を音声認識部402が取得した場合に認識パターンテーブル410を参照する。第4の実施形態の辞書制御部411は、上記新規認識候補群が登録された辞書群が上記認識パターンの辞書群と順不同で同じで、上記新規認識候補群に基づいて決定された制御タスクが上記誤認識制御タスクと同じで、かつ、上記新規認識候補群の認識スコアと上記認識パターンの認識スコアとの差が所定内の場合に、上記正解制御タスクを優先させるものである。具体的には、上記の場合に、辞書制御部411は、認識パターンテーブル410に記憶した優先辞書に登録された語彙(認識候補)が優先して認識されるよう、当該語彙(認識候補)の認識スコアに所定値を加算する。または、優先辞書に登録された語彙以外の語彙(認識候補)の認識スコアから所定値を減算しても良い。あるいは、認識パターンテーブル410に記憶した正解制御タスクを参照し、制御タスクを直接書き換えても良い。このようにして、誤認識が繰り返し発生する可能性を低減している。
Similar to the first embodiment, the
ここで、上記新規認識候補群の認識スコアが、上記認識パターンの認識スコアと完全に一致することは少ないと思われる。そこで、第4の実施形態では、上記新規認識候補群の認識スコアと上記認識パターンの認識スコアとの差が所定、例えば、±α内の場合に上記正解制御タスクを優先させている。しかし、所定値αはなくても良い。辞書制御部411により、過去の誤認識時の辞書出現パターンと同様のパターンが検出された際に、適切に辞書の優先順位を決定できるため、利用者の訂正操作に基づく認識性能の向上が期待できる。
Here, it is unlikely that the recognition score of the new recognition candidate group completely matches the recognition score of the recognition pattern. Therefore, in the fourth embodiment, when the difference between the recognition score of the new recognition candidate group and the recognition score of the recognition pattern is within a predetermined range, for example, ± α, the correct answer control task is prioritized. However, the predetermined value α may not be present. When the
なお、第4の実施形態では、制御タスク毎に認識パターンを抽出し、認識パターン、制御タスクおよび優先辞書を認識パターンテーブル410に記憶している。一方、辞書に登録する語彙の構成によっては、制御タスクとは無関係に、特定の辞書の認識スコアが高め/低めに出やすいといった、「スコアの偏り」が生じる場合がある。特に後述する、言い回しの共通性に伴う辞書の分類を考える場合、語彙の長さや音響的特徴の観点からも共通した語彙が集合する可能性が高い。この場合、特定の辞書ばかりが高スコアで認識されてしまい、誤認識を頻発する不具合が生じることが考えられる。そこで、制御タスクには着目せず、単純に、誤認識した際の認識候補(語彙)が登録された辞書と、正解語彙(図23に示した対話例では、「目的地設定」)が登録された辞書の対を記録・蓄積する。これを定期的に分析することで、誤認識の発生が所定値を上回る辞書が検出された場合に、当該辞書にペナルティを与える方法を用いることも可能である。 In the fourth embodiment, a recognition pattern is extracted for each control task, and the recognition pattern, control task, and priority dictionary are stored in the recognition pattern table 410. On the other hand, depending on the configuration of the vocabulary registered in the dictionary, there may be a “score bias” in which the recognition score of a specific dictionary tends to be raised / lower regardless of the control task. In particular, when considering dictionary classifications with common wording, which will be described later, there is a high possibility that common vocabularies are gathered from the viewpoint of vocabulary length and acoustic characteristics. In this case, it is conceivable that only a specific dictionary is recognized with a high score, resulting in a problem of frequent misrecognition. Therefore, without paying attention to the control task, a dictionary in which recognition candidates (vocabulary) for misrecognition are registered and a correct vocabulary (in the dialogue example shown in FIG. 23, “destination setting”) are registered. Record and store the dictionary pairs. By analyzing this periodically, it is also possible to use a method of penalizing the dictionary when a dictionary in which the occurrence of erroneous recognition exceeds a predetermined value is detected.
<処理B>
処理Bは、一連の制御タスク達成に至る対話を監視し、認識時に使用された辞書の情報を蓄積することで、高頻度で使用される辞書および低頻度で使用される辞書を検出する。これを反映して認識辞書の優先順位を決定する、もしくは認識辞書の除外処理を行うものである。具体的には、第4の実施形態の処理Bでは、第1の実施形態と同様に、初期発話の認識結果に基づく応答生成部106による応答に対して否定および訂正が存在せず、最終的に一連の制御タスクが達成した場合に、認識特性抽出部409は、認識パターンと認識パターンに関する制御タスクとを抽出する。なお、第4の実施形態の処理Bでは、認識パターンは、初期発話の認識結果のうち最大の認識スコアを持つ認識候補が登録された辞書である。一方、認識パターンに関する制御タスクは、最終的に達成した制御タスクである。認識特性抽出部409は、上記認識パターンと最終的に達成した上記制御タスクとを対応させて、認識パターンテーブル(不図示)に記憶する。また、認識特性抽出部409は、最終的に達成した制御タスク毎の、利用者の新規発話に対する新規認識結果のうち最大の認識スコアを持つ認識候補が登録された辞書が上記認識パターンと同じになる頻度に基づいて、該辞書毎の認識採用頻度を分析する。
<Process B>
The process B detects a dictionary used at a high frequency and a dictionary used at a low frequency by monitoring a dialog to reach a series of control tasks and accumulating information on the dictionary used at the time of recognition. Reflecting this, the priority order of recognition dictionaries is determined, or recognition dictionary exclusion processing is performed. Specifically, in the process B of the fourth embodiment, as in the first embodiment, there is no negation or correction for the response by the
例えば、図20に示した認識辞書403において、辞書Aに登録された語彙(認識候補)「目的地自宅」から理解結果が生成された場合を考える。当該語彙(認識候補)に関する制御タスク(ルート探索、目的地=自宅)が否定されず、最終的に上記制御タスクが達成した場合に、認識候補「目的地自宅」を登録した辞書Aを、認識パターンとして認識パターンテーブル(不図示)に記憶する。また、認識特性抽出部409は、認識パターン(辞書A)に対応させて、上記制御タスクを認識パターンテーブル(不図示)に記憶する。また、認識特性抽出部409は、上記制御タスク毎の、利用者の新規発話に対する新規認識結果のうち最大の認識スコアを持つ認識候補が登録された辞書が上記認識パターン(辞書A)と同じになる頻度である出現頻度を、認識パターンテーブル(不図示)に記憶する。当該出現頻度に基づいて、分割された辞書毎の認識採用頻度を算出する。図25に、辞書毎の認識採用頻度の分析例を示す。図25は、図19に示す認識特性抽出部409における辞書毎の認識採用頻度を示した図である。図25に示すように、最も使用される辞書の認識採用頻度を1.0とし、他の辞書の認識採用頻度を算出している。図25では、利用者が辞書CおよびEに登録された語彙(言い回し)を多用していることがわかる。一方、辞書A、BおよびDに登録された語彙(言い回し)をほとんど使用していないことがわかる。
For example, let us consider a case where an understanding result is generated from the vocabulary (recognition candidate) “destination home” registered in the dictionary A in the
辞書制御部411は、該認識採用頻度が多い辞書に登録された認識候補を、上記認識採用頻度が少ない辞書に登録された認識候補よりも優先させるものである。具体的には、辞書制御部411は、該認識採用頻度が閾値を下回る上記辞書について、音声認識部402に上記辞書を認識対象から除外させている。これから、認識速度の低下および認識精度の低下を防止する。例えば、図25に示した辞書毎の認識採用頻度の分析例では、閾値としてTh4を設定している。辞書制御部411は、各辞書について、上記認識採用頻度が閾値Th4を下回るか否か判定する。上記認識採用頻度が閾値Th4を下回ると判定した場合、辞書制御部411は、認識採用頻度が閾値Th4を下回る辞書を認識対象から除外するよう、音声認識部402を制御する。なお、利用者の新規発話に対する新規認識候補群が登録された辞書群に、閾値Th4を下回る辞書が含まれる場合に、閾値Th4を下回る辞書に登録された認識候補の認識スコアからペナルティを減算しても良い。
The
ここで、認識採用頻度が閾値Th4を下回る辞書を認識対象から除外した認識辞書403の例を図26に示す。図26は、図19に示す辞書制御部411における認識辞書403の制御例を示した図である。ここで、図26(a)は、初期状態(製品出荷時)の認識辞書403の状態であり、全ての辞書が認識対象としてメモリに展開されている。一方、図26(b)は、図25に示した認識採用頻度の分析例に基づき、認識採用頻度の少ない辞書を認識対象から除外した認識辞書403である。図26(b)の場合、辞書A、B、Dは、認識対象としてメモリに展開されず、認識対象とならない。これから、利用者の言い回しの定着に伴い、辞書の優先順位が決定されるため、ほとんど発話される可能性のない言い回しの辞書が認識候補として取得され、誤認識となる可能性を低減できる。更に、処理Bを用いた場合、認識対象とする語彙の数が削減されるため、音声認識処理に必要なリソース(メモリに展開する容量や計算時間等)を大幅に低減することが可能である。
Here, FIG. 26 shows an example of the
なお、処理Bは、利用者による否定または訂正が発生した際には、一時的に中断するのが望ましい。すなわち、利用者の新規発話に対する新規認識結果に基づく応答に対して否定または訂正が存在した場合、辞書制御部411は、認識対象から除外していた全辞書を戻すように、音声認識部402を制御する。更に、辞書制御部411は、否定または訂正が存在した応答の直前の新規発話について、再度音声認識するよう、音声認識部402を制御する。更に、その後の対話にて、認識対象から除外されていた辞書に関する語彙(認識候補)に基づいて、最終的な制御タスクが決定した場合には、この情報に基づき、当該辞書の認識採用頻度に修正を施す。また、上述した認識スコアからペナルティを減算する方法でも、利用者の新規発話に対する新規認識結果に基づく応答に対して否定または訂正が存在した場合、同様に、ペナルティの減算を中止する。更に、同様に、当該辞書の認識採用頻度に修正を施す。
Note that it is desirable to temporarily interrupt the process B when a negative or correction by the user occurs. That is, when there is a negative or correction for the response based on the new recognition result for the user's new utterance, the
なお、上述した処理AおよびBは、同時に利用することが可能である。双方を利用することで、音響的な類似に伴う誤認識を是正すると同時に、言い回しの定着に伴う辞書の適正な有効化無効化を行うことができる。また、第4の実施形態の並列認識方式は、便宜上認識辞書403自体を分割して説明しているが、物理的に分割する方法のほか、辞書自体は一つとし、各語彙に対して、言い回しの共通性に基づく部ループ名を付与して識別することでも同等の機能を実現することが可能である。
Note that the processes A and B described above can be used simultaneously. By using both, it is possible to correct misrecognition associated with acoustic similarity, and at the same time, to appropriately validate and invalidate the dictionary accompanying the establishment of the wording. In the parallel recognition method of the fourth embodiment, the
以上より、第4の実施形態に係る音声対話装置では、一の制御タスクに対して、認識対象とする語彙の分類毎に分割し、かつ、上記語彙を複数登録した複数の辞書を備える認識辞書403と、上記辞書を並列に認識する音声認識部402とを備える。更に、n回目の発話の認識結果に基づく応答生成部106による応答に対して否定または訂正が存在し、(n+1)回目以降の発話の認識結果に基づく応答に対して、否定および訂正が存在せず、最終的に一連の制御タスクが達成した場合に、n回目の発話の認識候補群が登録された辞書と該辞書毎の最大の認識スコアとの組合せを、認識パターンとして抽出する認識特性抽出部409を備える。また、認識特性抽出部409は、否定および訂正が存在しなかった制御タスクのうち、n回目の発話の認識候補群に含まれる認識候補に関する制御タスクである正解制御タスクを抽出する。また、n回目の発話の認識候補群に基づいて決定された制御タスクである誤認識制御タスクも抽出する。認識特性抽出部409は、正解制御タスクおよび誤認識制御タスクを上記認識パターンに対応させて、認識パターンテーブル410に記憶する。更に、認識特性抽出部409は、上記正解制御タスクに関する上記認識候補を登録した辞書である優先辞書を、上記認識パターンに対応させて、認識パターンテーブル410に記憶する。また、上記認識パターンと正解制御タスクに基づいて、正解制御タスクを優先させる辞書制御部411とを備える。具体的には、辞書制御部411は、利用者の新規発話に対する新規認識候補群が登録された辞書群が上記認識パターンの辞書群と順不同で同じで、上記新規認識候補群に基づいて決定された制御タスクが上記誤認識制御タスクと同じで、かつ、上記新規認識候補群の認識スコアと上記認識パターンの認識スコアとの差が所定内の場合に、上記正解制御タスクを優先させる。これから、誤認識が繰り返し発生する可能性を低減できる。
As described above, in the spoken dialogue apparatus according to the fourth embodiment, the recognition dictionary includes a plurality of dictionaries that are divided for each vocabulary classification to be recognized and that have a plurality of the vocabulary registered for one control task. 403 and a
また、第4の実施形態では、辞書制御部411は、理解部404が(n+1)回目以降の発話の認識結果について認識スコアを算出する際、否定または訂正直前の認識結果、すなわち、n回目の発話の認識結果のうち最大の認識スコアを持つ認識候補と同じ認識候補の認識スコアから所定値を減算させる。これにより、(n+1)回目以降の発話の認識結果に基づく応答が、n回目の発話の認識結果に基づく応答と同じになる可能性を低減することができる。
In the fourth embodiment, the
また、第4の実施形態では、認識特性抽出部409は、初期発話の認識結果に基づく応答生成部106による応答に対して否定および訂正が存在せず、最終的に一連の制御タスクが達成した場合に、最終的に達成した制御タスクを抽出する。また、初期発話の認識結果のうち最大の認識スコアを持つ認識候補が登録された辞書である認識パターンを抽出する。認識特性抽出部409は、最終的に達成した上記制御タスクと上記認識パターンとを対応させて、認識パターンテーブル(不図示)に記憶する。更に、認識特性抽出部409は、最終的に達成した上記制御タスク毎の、利用者の新規発話に対する新規認識結果のうち最大の認識スコアを持つ認識候補が登録された辞書が上記認識パターンと同じになる頻度である出現頻度を、上記認識パターンテーブルに記憶する。認識特性抽出部409は、上記出現頻度に基づいて、上記辞書毎の認識採用頻度を分析する。辞書制御部411は、上記認識採用頻度が多い辞書に登録された認識候補を、上記認識採用頻度が少ない辞書に登録された認識候補よりも優先させる。これにより、利用者の言い回しの定着に伴い、認識性能を向上させることができる。具体的には、上記識採用頻度が閾値Th4を下回る辞書について、音声認識部402に当該辞書を認識対象から除外させる。これにより、利用者の言い回しの定着に伴い、認識対象とする語彙が絞られるため、認識性能および認識速度を向上することができる。
Further, in the fourth embodiment, the recognition
また、第4の実施形態では、辞書制御部411は、利用者の新規発話に対する新規認識結果に基づく応答に対して否定または訂正が存在した場合に、認識対象から除外した辞書を認識対象に戻させて、否定または訂正が存在した応答の直前の新規発話ついて、再度音声認識させる。これから、認識対象とする語彙の絞込みにより、認識ができなかった場合であっても、否定または訂正操作の後、正常に認識することができる。
In the fourth embodiment, the
なお、以上に述べた実施形態は、本発明の実施の一例であり、本発明の範囲はこれらに限定されるものでなく、特許請求の範囲に記載した範囲内で、他の様々な実施形態に適用可能である。例えば、第1および第2の実施形態に係る音声対話装置では、認識パターンテーブル110に出現頻度を記憶しているが、特にこれに限定されるものでなく、出現頻度を記憶しなくても良い。しかし、当該出現頻度を利用して、例えば、当該出現頻度が所定値を上回った場合のみ、ボーナス値を加算する制御が可能となる。また、当該出現頻度の多い認識パターンほど、ボーナス値のマージンを大きくする等の制御も可能となる。同様に、認識パターンテーブル110にボーナス値を記憶しているが、特にこれに限定されるものでなく、ボーナス値を記憶しなくても良い。この場合、例えば、利用者の新規発話に対する新規認識候補群が認識パターンと順不同で同じ場合、認識パターンに関する制御タスクに直接書き換えるようにすれば良い。 The embodiment described above is an example of the implementation of the present invention, and the scope of the present invention is not limited thereto, and other various embodiments are within the scope described in the claims. It is applicable to. For example, in the voice interactive apparatus according to the first and second embodiments, the appearance frequency is stored in the recognition pattern table 110, but the present invention is not particularly limited to this, and the appearance frequency may not be stored. . However, using the appearance frequency, for example, it is possible to control to add the bonus value only when the appearance frequency exceeds a predetermined value. In addition, the recognition pattern having a higher appearance frequency can be controlled to increase the bonus value margin. Similarly, although the bonus value is stored in the recognition pattern table 110, the present invention is not particularly limited to this, and the bonus value may not be stored. In this case, for example, when the new recognition candidate group for the user's new utterance is the same as the recognition pattern in any order, it may be directly rewritten to the control task related to the recognition pattern.
また、第1および第2の実施形態に係る音声対話装置では、音声認識部102がN−bestを取得した後、理解部104は、N−bestに基づいて、各認識候補について認識スコアを算出し、算出した認識スコアのうち、閾値を上回る認識スコアが存在するか否かを判定しているが(図9のステップS102)、特にこれに限定されるものでなく、ステップS102の制御処理はなくても良い。しかし、この場合、必ず、認識パターンテーブル110を参照し、新規認識候補群が認識パターンと順不同で同じ場合に、ボーナス値を加算するので、計算時間の増大が懸念される。
Moreover, in the voice interactive apparatus according to the first and second embodiments, after the
また、第2および第4の実施形態では、理解部104、404が(n+1)回目以降の発話の認識結果について認識スコアを算出する際、n回目の発話の認識結果のうち最大の認識スコアを持つ認識候補と同じ認識候補の認識スコアから所定値、すなわち、ペナルティを減算しているが、特にこれに限定されるものでなく、ペナルティは無くても良い。しかし、上記認識候補の認識スコアから所定値を減算した方が、(n+1)回目以降の発話の認識結果に基づく応答が、n回目の発話の認識結果に基づく応答と同じになる可能性を低減することができる。
In the second and fourth embodiments, when the
また、第2の実施形態では、認識パターンテーブル110に、認識パターンに関する制御タスクに関する認識候補の認識スコアと認識パターンの最大の認識スコアとの差に基づいて算出された補正値であるボーナス値を記憶しているが、特にこれに限定されるものでなく、認識パターンの最大の認識スコアと所定の閾値との差から算出された補正値であるペナルティでも良い。この場合、辞書制御部211は、認識パターンの最大の認識スコアを持つ認識候補と同じ新規認識候補からペナルティを減算させれば良い。
In the second embodiment, a bonus value that is a correction value calculated based on the difference between the recognition score of the recognition candidate related to the control task related to the recognition pattern and the maximum recognition score of the recognition pattern is stored in the recognition pattern table 110. Although it is stored, it is not particularly limited to this, and a penalty that is a correction value calculated from the difference between the maximum recognition score of the recognition pattern and a predetermined threshold value may be used. In this case, the
101 音声入力部、102 音声認識部、
103 認識辞書、104 理解部、105 機能テーブル、
106 応答生成部、107 応答テーブル、108 出力部、
109 認識特性抽出部、110 認識パターンテーブル、
111 辞書制御部、
201 マイクロフォン、202 AD変換器、203 演算装置、
204 記憶装置、205 DA変換器、206 スピーカ/表示装置、
209 認識特性抽出部、211 辞書制御部、
302 音声認識部、303 認識辞書、309 認識特性抽出部、
310 認識パターンテーブル、311 辞書制御部、
402 音声認識部、403 認識辞書、404 理解部、
409 認識特性抽出部、410 認識パターンテーブル、
411 辞書制御部、
1001、1901、2001 認識結果、
1002 認識パターン、1003、1005 理解結果、
1004、1006 制御タスク、
1301、1302、1303、1304 語彙、
1401、1402、1403、1404、1405 語彙、
1902、1905、2002、2005、2007、2009 理解結果、
1903、2003 初期発話認識候補群、
1904、1906、2004、2008、2010 制御タスク、
2006 応答
101 voice input unit, 102 voice recognition unit,
103 recognition dictionary, 104 understanding unit, 105 function table,
106 response generation unit, 107 response table, 108 output unit,
109 recognition characteristic extraction unit, 110 recognition pattern table,
111 dictionary controller,
201 microphone, 202 AD converter, 203 arithmetic unit,
204 storage device, 205 DA converter, 206 speaker / display device,
209 recognition characteristic extraction unit, 211 dictionary control unit,
302 voice recognition unit, 303 recognition dictionary, 309 recognition characteristic extraction unit,
310 recognition pattern table, 311 dictionary control unit,
402 voice recognition unit, 403 recognition dictionary, 404 understanding unit,
409 recognition characteristic extraction unit, 410 recognition pattern table,
411 dictionary control unit,
1001, 1901, 2001 Recognition result,
1002 Recognition pattern, 1003, 1005 Understanding result,
1004, 1006 control task,
1301, 1302, 1303, 1304 vocabulary,
1401, 1402, 1403, 1404, 1405 vocabulary,
1902, 1905, 2002, 2005, 2007, 2009 Understanding results,
1903, 2003 Initial utterance recognition candidate group,
1904, 1906, 2004, 2008, 2010 Control tasks,
2006 Response
Claims (22)
前記認識結果に基づき、システムの理解状態を生成し、前記利用者の意図するタスクを前記理解状態から決定する理解手段と、
前記タスクに基づき、前記利用者に対して応答を返す応答手段と、
一連のタスク達成に至る対話を監視し、前記認識結果に関する組合せを認識パターンとして抽出するとともに、該認識パターンに関するタスクを抽出する認識特性抽出手段と、
前記認識パターンと該認識パターンに関する前記タスクに基づいて、該タスクを優先させる辞書制御手段とを備える音声対話装置。 A speech recognition means for comparing a user's utterance with a vocabulary of a recognition dictionary and acquiring a combination of at least one recognition candidate as a recognition result;
An understanding means for generating an understanding state of a system based on the recognition result and determining a task intended by the user from the understanding state;
A response means for returning a response to the user based on the task;
Recognizing characteristic extraction means for monitoring a dialogue to achieve a series of tasks, extracting a combination related to the recognition result as a recognition pattern, and extracting a task related to the recognition pattern;
A spoken dialogue apparatus comprising: the recognition pattern; and a dictionary control unit that prioritizes the task based on the task related to the recognition pattern.
前記認識特性抽出手段は、抽出した前記認識パターンおよび該認識パターンに関する前記タスクを、認識パターンテーブルに記憶することを特徴とする請求項1に記載の音声対話装置。 The understanding means calculates a recognition score for each recognition candidate, generates the understanding state from a recognition candidate having the largest recognition score among the recognition scores,
The spoken dialogue apparatus according to claim 1, wherein the recognition characteristic extraction unit stores the extracted recognition pattern and the task related to the recognition pattern in a recognition pattern table.
前記認識パターンに関する前記タスクは、最終的に達成した前記タスクであり、
前記辞書制御手段は、前記利用者の新規発話に対する新規認識候補群が前記認識パターンと同じ場合に、前記認識パターンのうち最大の前記認識スコアを持つ前記認識候補と同じ新規認識候補を優先させることを特徴とする請求項3に記載の音声対話装置。 The recognition pattern is a combination of the recognition candidates of the initial utterance,
The task related to the recognition pattern is the task finally achieved;
The dictionary control means gives priority to the same new recognition candidate as the recognition candidate having the largest recognition score among the recognition patterns when the new recognition candidate group for the new utterance of the user is the same as the recognition pattern. The voice interactive apparatus according to claim 3.
前記辞書制御手段は、前記頻度が所定値を上回る場合のみ、優先させることを特徴とする請求項4に記載の音声対話装置。 The recognition characteristic extraction unit stores, in the recognition pattern table, the frequency at which the new recognition candidate group is the same as the recognition pattern for each task finally achieved,
5. The spoken dialogue apparatus according to claim 4, wherein the dictionary control means gives priority only when the frequency exceeds a predetermined value.
前記辞書制御手段は、最大の前記認識スコアを持つ前記認識候補と同じ前記新規認識候補の認識スコアに前記補正値を加算させることを特徴とする請求項4または5に記載の音声対話装置。 The recognition characteristic extracting means associates the correction value calculated from the difference between the maximum recognition score of the recognition pattern and a predetermined threshold value with the recognition candidate having the maximum recognition score, and thereby recognizes the recognition pattern. Remember to the table,
The spoken dialogue apparatus according to claim 4 or 5, wherein the dictionary control unit adds the correction value to the recognition score of the new recognition candidate that is the same as the recognition candidate having the maximum recognition score.
前記辞書制御手段は、前記新規発話に基づく利用者識別情報と、記憶された前記利用者識別情報が同じ場合、最大の前記認識スコアを持つ前記認識候補と同じ前記新規認識候補の前記認識スコアに、更に、前記利用者に応じて設定した所定値を加算させることを特徴とする請求項6に記載の音声対話装置。 The recognition characteristic extraction means stores user identification information in the recognition pattern table in correspondence with the recognition pattern and the task finally achieved,
When the user identification information based on the new utterance and the stored user identification information are the same, the dictionary control unit sets the recognition score of the new recognition candidate that is the same as the recognition candidate having the maximum recognition score. Furthermore, the predetermined value set according to the said user is added, The voice interactive apparatus of Claim 6 characterized by the above-mentioned.
前記辞書制御手段は、前記新規発話に基づく雑音環境情報と、記憶された前記雑音環境情報が同じ場合、最大の前記認識スコアを持つ前記認識候補と同じ前記新規認識候補の前記認識スコアに、更に、雑音環境に応じて設定した所定値を加算させることを特徴とする請求項6または7に記載の音声対話装置。 The recognition characteristic extraction unit stores noise environment information in the recognition pattern table in correspondence with the recognition pattern and the task finally achieved,
The dictionary control means, when the noise environment information based on the new utterance and the stored noise environment information are the same, to the recognition score of the new recognition candidate that is the same as the recognition candidate having the maximum recognition score, The spoken dialogue apparatus according to claim 6 or 7, wherein a predetermined value set according to a noise environment is added.
前記認識パターンは、前記初期発話の前記認識候補の組合せであり、
前記認識パターンに関する前記タスクは、最終的に達成した前記タスクであり、
前記認識特性抽出手段は、最終的に達成した前記タスク毎の、前記利用者の新規発話に対する新規認識結果のうち最大の認識スコアを持つ認識候補が前記認識パターンのうち最大の認識スコアを持つ認識候補と同じになる頻度に基づいて、前記タスクにおける前記語彙毎の認識採用頻度を分析し、
前記辞書制御手段は、該認識採用頻度が閾値を下回る語彙について、前記音声認識手段に該語彙を認識対象から除外させることを特徴とする請求項3に記載の音声対話装置。 The recognition dictionary registers a plurality of vocabulary to be recognized for one task,
The recognition pattern is a combination of the recognition candidates of the initial utterance,
The task related to the recognition pattern is the task finally achieved;
The recognition characteristic extracting means recognizes the recognition candidate having the largest recognition score among the new recognition results for the user's new utterance for each task finally achieved having the largest recognition score among the recognition patterns. Based on the frequency that becomes the same as the candidate, analyze the recognition adoption frequency for each vocabulary in the task,
4. The spoken dialogue apparatus according to claim 3, wherein the dictionary control unit causes the voice recognition unit to exclude the vocabulary from recognition targets for a vocabulary whose recognition adoption frequency is lower than a threshold value.
前記辞書は、一のタスクに対して、前記語彙を複数登録し、
前記音声認識手段は、前記辞書を並列に認識し、
前記認識パターンは、前記初期発話の前記認識結果のうち最大の前記認識スコアを持つ認識候補が登録された辞書であり、
前記認識パターンに関する前記タスクは、最終的に達成した前記タスクであり、
前記認識特性抽出手段は、最終的に達成した前記タスク毎の、前記利用者の新規発話に対する新規認識結果のうち最大の前記認識スコアを持つ認識候補が登録された辞書が前記認識パターンと同じになる頻度に基づいて、該辞書毎の認識採用頻度を分析し、
前記辞書制御手段は、該認識採用頻度が多い辞書に登録された認識候補を、前記認識採用頻度が少ない辞書に登録された認識候補よりも優先させることを特徴とする請求項3に記載の音声対話装置。 The recognition dictionary includes a plurality of dictionaries divided for each vocabulary classification to be recognized,
The dictionary registers a plurality of the vocabularies for one task,
The speech recognition means recognizes the dictionary in parallel,
The recognition pattern is a dictionary in which a recognition candidate having the maximum recognition score among the recognition results of the initial utterance is registered,
The task related to the recognition pattern is the task finally achieved;
The recognition characteristic extraction unit is configured such that a dictionary in which a recognition candidate having the maximum recognition score among new recognition results for a new utterance of the user for each task finally achieved is registered is the same as the recognition pattern. Based on the frequency of the analysis, the recognition adoption frequency for each dictionary is analyzed,
4. The voice according to claim 3, wherein the dictionary control unit gives priority to recognition candidates registered in a dictionary having a high recognition adoption frequency over recognition candidates registered in a dictionary having a low recognition adoption frequency. Interactive device.
前記認識パターンに関する前記タスクは、否定および訂正が存在しなかったタスクのうち、該認識パターンに含まれる認識候補に関するタスクであり、
前記辞書制御手段は、前記利用者の新規発話に対する新規認識候補群が前記認識パターンと同じ場合に、該認識候補と同じ新規認識候補を優先させることを特徴とする請求項14に記載の音声対話装置。 The recognition pattern is the recognition result of the nth utterance,
The task related to the recognition pattern is a task related to a recognition candidate included in the recognition pattern among tasks where negation and correction did not exist,
15. The voice dialogue according to claim 14, wherein the dictionary control means prioritizes a new recognition candidate that is the same as the recognition candidate when a new recognition candidate group for the user's new utterance is the same as the recognition pattern. apparatus.
前記辞書制御手段は、前記頻度が所定値を上回る場合のみ、優先させることを特徴とする請求項15に記載の音声対話装置。 The recognition characteristic extraction unit stores, in the recognition pattern table, the frequency at which the new recognition candidate group is the same as the recognition pattern for each task related to the recognition pattern,
16. The spoken dialogue apparatus according to claim 15, wherein the dictionary control unit gives priority only when the frequency exceeds a predetermined value.
前記辞書制御手段は、前記認識パターンに関する前記タスクに関する前記認識候補と同じ前記新規認識候補の認識スコアに前記補正値を加算させることを特徴とする請求項15または16に記載の音声対話装置。 The recognition characteristic extraction unit associates a correction value calculated based on a difference between the recognition score of the recognition candidate related to the task related to the recognition pattern and the maximum recognition score of the recognition pattern with the recognition candidate. , Store in the recognition pattern table,
The spoken dialogue apparatus according to claim 15 or 16, wherein the dictionary control unit adds the correction value to a recognition score of the new recognition candidate that is the same as the recognition candidate related to the task related to the recognition pattern.
前記辞書制御手段は、最大の前記認識スコアを持つ前記認識候補と同じ前記新規認識候補から前記補正値を減算させることを特徴とする請求項15または16に記載の音声対話装置。 The recognition characteristic extracting means associates the correction value calculated from the difference between the maximum recognition score of the recognition pattern and a predetermined threshold value with the recognition candidate having the maximum recognition score, and thereby recognizes the recognition pattern. Remember to the table,
The spoken dialogue apparatus according to claim 15 or 16, wherein the dictionary control means subtracts the correction value from the same new recognition candidate as the recognition candidate having the maximum recognition score.
前記辞書は、一のタスクに対して、前記語彙を複数登録し、
前記音声認識手段は、前記辞書を並列に認識し、
前記認識パターンは、前記n回目の前記発話の前記認識候補群が登録された辞書と該辞書毎の最大の認識スコアとの組合せであり、
前記認識パターンに関する前記タスクは、否定および訂正が存在しなかったタスクのうち、前記n回目の前記発話の前記認識候補群に含まれる認識候補に関するタスクであり、
前記認識特性抽出手段は、前記n回目の前記発話の前記認識候補群に基づいて決定されたタスクと、前記認識パターンに関する前記タスクに関する前記認識候補を登録した辞書である優先辞書とを前記認識パターンテーブルに記憶し、
前記辞書制御手段は、前記利用者の新規発話に対する新規認識候補群が登録された辞書が前記認識パターンの前記辞書と同じで、前記新規認識候補群に基づいて決定されたタスクが前記n回目の前記発話の前記認識候補群に基づいて決定されたタスクと同じで、かつ、前記新規認識候補群の認識スコアと前記認識パターンの前記認識スコアとの差が所定内の場合に、
前記優先辞書に登録された前記認識候補を優先させることを特徴とする請求項14に記載の音声対話装置。 The recognition dictionary includes a plurality of dictionaries divided for each vocabulary classification to be recognized,
The dictionary registers a plurality of the vocabularies for one task,
The speech recognition means recognizes the dictionary in parallel,
The recognition pattern is a combination of a dictionary in which the recognition candidate group of the nth utterance is registered and a maximum recognition score for each dictionary,
The task related to the recognition pattern is a task related to a recognition candidate included in the recognition candidate group of the utterance of the nth time among tasks in which negation and correction did not exist,
The recognition characteristic extracting means includes a task determined based on the recognition candidate group of the n-th utterance and a priority dictionary that is a dictionary in which the recognition candidates related to the task related to the recognition pattern are registered. Remember to the table,
The dictionary control means is configured such that a dictionary in which a new recognition candidate group for a new utterance of the user is registered is the same as the dictionary of the recognition pattern, and a task determined based on the new recognition candidate group is the nth time. When the task is determined based on the recognition candidate group of the utterance and the difference between the recognition score of the new recognition candidate group and the recognition score of the recognition pattern is within a predetermined range,
15. The spoken dialogue apparatus according to claim 14, wherein priority is given to the recognition candidates registered in the priority dictionary.
前記辞書制御手段は、前記新規発話に基づく利用者識別情報と、記憶された前記利用者識別情報が同じ場合、前記認識パターンに関する前記タスクに関する前記認識候補と同じ前記新規認識候補の前記認識スコアに、更に、前記利用者に応じて設定した所定値を加算させることを特徴とする請求項17に記載の音声対話装置。 The recognition characteristic extraction unit stores user identification information in the recognition pattern table in association with the recognition pattern and the task related to the recognition pattern,
When the user identification information based on the new utterance and the stored user identification information are the same, the dictionary control means sets the recognition score of the new recognition candidate to be the same as the recognition candidate related to the task related to the recognition pattern. The voice interactive apparatus according to claim 17, further comprising a predetermined value set in accordance with the user.
前記辞書制御手段は、前記新規発話に基づく雑音環境情報と、記憶された前記雑音環境情報が同じ場合、前記認識パターンに関する前記タスクに関する前記認識候補と同じ前記新規認識候補の前記認識スコアに、更に、雑音環境に応じて設定した所定値を加算させることを特徴とする請求項17または21に記載の音声対話装置。 The recognition characteristic extraction unit stores noise environment information in the recognition pattern table in association with the task related to the recognition pattern and the recognition pattern,
When the noise environment information based on the new utterance and the stored noise environment information are the same, the dictionary control means further adds the recognition score of the new recognition candidate that is the same as the recognition candidate related to the task related to the recognition pattern to the recognition score. The spoken dialogue apparatus according to claim 17 or 21, wherein a predetermined value set according to a noise environment is added.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007188284A JP2009025538A (en) | 2007-07-19 | 2007-07-19 | Voice interactive device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007188284A JP2009025538A (en) | 2007-07-19 | 2007-07-19 | Voice interactive device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009025538A true JP2009025538A (en) | 2009-02-05 |
Family
ID=40397394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007188284A Pending JP2009025538A (en) | 2007-07-19 | 2007-07-19 | Voice interactive device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009025538A (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013175523A1 (en) * | 2012-05-22 | 2013-11-28 | 三菱電機株式会社 | Voice recognition device |
JP2015129794A (en) * | 2014-01-06 | 2015-07-16 | 株式会社デンソー | Voice recognition apparatus |
JP2016109784A (en) * | 2014-12-03 | 2016-06-20 | シャープ株式会社 | Information processing device, information processing method, interactive system and control program |
JP2016519805A (en) * | 2013-03-14 | 2016-07-07 | ロウルズ リミテッド ライアビリティ カンパニー | Serving content on multiple devices |
JP2017126042A (en) * | 2016-01-15 | 2017-07-20 | シャープ株式会社 | Communication support system, communication support method, and program |
US9842584B1 (en) | 2013-03-14 | 2017-12-12 | Amazon Technologies, Inc. | Providing content on multiple devices |
JP2019101264A (en) * | 2017-12-04 | 2019-06-24 | シャープ株式会社 | External controller, voice interactive control system, control method, and program |
US10446146B2 (en) | 2015-03-20 | 2019-10-15 | Kabushiki Kaisha Toshiba | Learning apparatus and method |
CN112579758A (en) * | 2020-12-25 | 2021-03-30 | 北京百度网讯科技有限公司 | Model training method, device, equipment, storage medium and program product |
JP2022531987A (en) * | 2020-02-18 | 2022-07-12 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | Voice interaction methods, devices, equipment, and computer storage media |
US12008990B1 (en) | 2020-11-06 | 2024-06-11 | Amazon Technologies, Inc. | Providing content on multiple devices |
-
2007
- 2007-07-19 JP JP2007188284A patent/JP2009025538A/en active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013175523A1 (en) * | 2012-05-22 | 2013-11-28 | 三菱電機株式会社 | Voice recognition device |
JP2016519805A (en) * | 2013-03-14 | 2016-07-07 | ロウルズ リミテッド ライアビリティ カンパニー | Serving content on multiple devices |
US9842584B1 (en) | 2013-03-14 | 2017-12-12 | Amazon Technologies, Inc. | Providing content on multiple devices |
US10121465B1 (en) | 2013-03-14 | 2018-11-06 | Amazon Technologies, Inc. | Providing content on multiple devices |
US10133546B2 (en) | 2013-03-14 | 2018-11-20 | Amazon Technologies, Inc. | Providing content on multiple devices |
US10832653B1 (en) | 2013-03-14 | 2020-11-10 | Amazon Technologies, Inc. | Providing content on multiple devices |
JP2015129794A (en) * | 2014-01-06 | 2015-07-16 | 株式会社デンソー | Voice recognition apparatus |
JP2016109784A (en) * | 2014-12-03 | 2016-06-20 | シャープ株式会社 | Information processing device, information processing method, interactive system and control program |
US10446146B2 (en) | 2015-03-20 | 2019-10-15 | Kabushiki Kaisha Toshiba | Learning apparatus and method |
JP2017126042A (en) * | 2016-01-15 | 2017-07-20 | シャープ株式会社 | Communication support system, communication support method, and program |
JP2019101264A (en) * | 2017-12-04 | 2019-06-24 | シャープ株式会社 | External controller, voice interactive control system, control method, and program |
CN110058833A (en) * | 2017-12-04 | 2019-07-26 | 夏普株式会社 | External control device, sound conversational control system, control method and recording medium |
JP2022531987A (en) * | 2020-02-18 | 2022-07-12 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | Voice interaction methods, devices, equipment, and computer storage media |
US11978447B2 (en) | 2020-02-18 | 2024-05-07 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speech interaction method, apparatus, device and computer storage medium |
US12008990B1 (en) | 2020-11-06 | 2024-06-11 | Amazon Technologies, Inc. | Providing content on multiple devices |
CN112579758A (en) * | 2020-12-25 | 2021-03-30 | 北京百度网讯科技有限公司 | Model training method, device, equipment, storage medium and program product |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009025538A (en) | Voice interactive device | |
US20220156039A1 (en) | Voice Control of Computing Devices | |
US10884701B2 (en) | Voice enabling applications | |
US11170776B1 (en) | Speech-processing system | |
US11669300B1 (en) | Wake word detection configuration | |
EP1936606B1 (en) | Multi-stage speech recognition | |
US10917758B1 (en) | Voice-based messaging | |
US10037758B2 (en) | Device and method for understanding user intent | |
US9754586B2 (en) | Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems | |
US7826945B2 (en) | Automobile speech-recognition interface | |
US20200184967A1 (en) | Speech processing system | |
KR20020071856A (en) | Natural language interface control system | |
WO2006069381A2 (en) | Turn-taking confidence | |
JP2008058813A (en) | Voice response system, and voice response program | |
JP2012226068A (en) | Interactive device | |
US11715472B2 (en) | Speech-processing system | |
WO2018078885A1 (en) | Interactive device, interactive method, and interactive computer program | |
US20150310853A1 (en) | Systems and methods for speech artifact compensation in speech recognition systems | |
JP5183120B2 (en) | Speech recognition in statistical languages using square root counting. | |
JP2004333543A (en) | System and method for speech interaction | |
JP2006208486A (en) | Voice inputting device | |
US20210241760A1 (en) | Speech-processing system | |
JP2008076811A (en) | Voice recognition device, voice recognition method and voice recognition program | |
US11735178B1 (en) | Speech-processing system | |
KR100622019B1 (en) | Voice interface system and method |