JP2008286930A - Voice interactive device - Google Patents
Voice interactive device Download PDFInfo
- Publication number
- JP2008286930A JP2008286930A JP2007130585A JP2007130585A JP2008286930A JP 2008286930 A JP2008286930 A JP 2008286930A JP 2007130585 A JP2007130585 A JP 2007130585A JP 2007130585 A JP2007130585 A JP 2007130585A JP 2008286930 A JP2008286930 A JP 2008286930A
- Authority
- JP
- Japan
- Prior art keywords
- prediction
- recognition result
- recognition
- likelihood
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、ユーザ発話を認識してこれに応答する音声対話装置に関する。 The present invention relates to a voice interaction apparatus that recognizes and responds to a user utterance.
近年、カーナビゲーションシステムやコールセンター等の分野において、利用者から発せられた音声(以下、ユーザ発話という)を自動的に認識して各種処理を実行するようにした音声認識装置が開発されている。このような音声認識装置にあっては、音声分析によって入力音声の特徴量を抽出した後に、この入力音声の特徴量に合致する音響モデルの列を探索することにより、ユーザ発話の内容を認識するようにしている。また、ユーザ発話の認識精度を向上させるため、言語統計や文法等に基づいて単語の生起確率を定めた言語モデルが設定されており、この言語モデルの拘束下で入力音声に合致する音響モデルの列を探索するようにしている。さらに、単にユーザ発話を認識して認識結果を出力するだけでなく、ユーザ発話の内容に応じて装置側から発せられる音声(以下、システム発話という)を設定することにより、利用者と装置との間で対話を進行させるようにした音声対話装置も開発されている(たとえば、特許文献1参照)。
しかしながら、特許文献1に記載される音声対話装置にあっては、ユーザ発話の認識が成功した場合と、ユーザ発話の認識が失敗した場合とに分けて、ユーザ発話に応答するシステム発話の内容を設定するようにしている。このように、単にユーザ発話の認識が成功したか否かによってシステム発話の内容を設定すると、システム発話の内容を適切に設定することが困難となるため、利用者と装置との対話を円滑に進行させることが困難となり、利用者に対して煩わしさを感じさせてしまうおそれがある。つまり、ユーザ発話の認識に失敗した場合について考えると、ユーザ発話の一部を認識できずに失敗した場合や、ユーザ発話の全てを認識できずに失敗した場合が考えられるため、これらの状況において同一内容のシステム発話を設定することは、利用者との円滑な対話を阻害してしまう要因となっていた。
However, in the speech dialogue apparatus described in
本発明の目的は、システム発話を適切に設定することにより、利用者との対話を円滑に進行させることにある。 An object of the present invention is to smoothly advance a dialog with a user by appropriately setting a system utterance.
本発明の音声対話装置は、予測した発話内容に基づきユーザ発話を認識して予測認識結果を出力する予測認識手段と、所定の単語辞書に基づきユーザ発話を認識して単語認識結果を出力する単語認識手段と、前記予測認識結果と前記単語認識結果とを比較して認識結果の一致度を判定する一致度判定手段と、前記認識結果の一致度に基づいてシステム発話の内容を設定するシステム発話設定手段とを有することを特徴とする。 The speech dialogue apparatus of the present invention includes a prediction recognition unit that recognizes a user utterance based on the predicted utterance content and outputs a prediction recognition result, and a word that recognizes the user utterance based on a predetermined word dictionary and outputs a word recognition result Recognizing means, coincidence degree determining means for comparing the prediction recognition result with the word recognition result to determine the coincidence degree of the recognition result, and system utterance for setting the content of the system utterance based on the coincidence degree of the recognition result And setting means.
本発明の音声対話装置は、前記一致度判定手段は、完全一致、部分一致または完全不一致のいずれかに前記一致度を判定することを特徴とする。 The spoken dialogue apparatus according to the present invention is characterized in that the coincidence degree determining means determines the coincidence degree as one of complete coincidence, partial coincidence or complete disagreement.
本発明の音声対話装置は、所定の大語彙辞書に基づいてユーザ発話を認識して大語彙認識結果の尤度を出力する大語彙認識手段と、前記大語彙認識結果の尤度と前記予測認識手段から出力される前記予測認識結果の尤度とを比較する尤度判定手段とを有し、前記予測認識結果の尤度が前記大語彙認識結果の尤度を上回ると判定されてから、前記一致度判定手段は前記一致度の判定を開始することを特徴とする。 The spoken dialogue apparatus of the present invention includes a large vocabulary recognition unit that recognizes a user utterance based on a predetermined large vocabulary dictionary and outputs a likelihood of a large vocabulary recognition result, and the likelihood of the large vocabulary recognition result and the prediction recognition. A likelihood determination means for comparing the likelihood of the prediction recognition result output from the means, and after determining that the likelihood of the prediction recognition result exceeds the likelihood of the large vocabulary recognition result, The degree of coincidence determination means starts the determination of the degree of coincidence.
本発明によれば、予測認識結果と単語認識結果との一致度を判定し、この判定された一致度に基づいてシステム発話の内容を設定するようにしたので、ユーザ発話の内容を適切に設定することができ、利用者との対話を円滑に進行させることが可能となる。 According to the present invention, the degree of coincidence between the prediction recognition result and the word recognition result is determined, and the content of the system utterance is set based on the determined degree of coincidence. It is possible to facilitate the dialogue with the user.
図1は本発明の一実施の形態である音声対話装置10の構成を示すブロック図である。図1に示すように、音声対話装置10は、利用者から発せられる音声つまりユーザ発話を電気信号に変換するマイク11と、この電気信号から音声特徴量を抽出する音響分析部12とを備えている。また、音声対話装置10には、ユーザ発話を認識する予測認識部(予測認識手段)13、大語彙認識部(大語彙認識手段)14、部分単語認識部(単語認識手段)15が設けられ、これらの各認識部13〜15には音響分析部12を介して音声特徴量が入力されている。
FIG. 1 is a block diagram showing a configuration of a
ここで、図2は予測認識部13、大語彙認識部14、部分単語認識部15の各構成を示すブロック図である。図2に示すように、各認識部13〜15は、音素や音節を単位とした音声特徴量パターンの統計的モデル(隠れマルコフモデル等)である音響モデル16a〜16cと、単語の接続確率や出現確率の統計的モデル(Nグラムモデル等)である言語モデル17a〜17cとをそれぞれに備えている。また、認識対象となる語彙およびその発音を規定するため、各認識部13〜15には大量の単語を収録した辞書18a〜18cが設けられている。なお、辞書18a〜18cに登録される単語は、新聞記事、学会講演、Webページ等によって構成された大量のテキストデータベースから収集されたものである。
Here, FIG. 2 is a block diagram showing the configuration of the
また、各認識部13〜15には音響モデル16a〜16cや言語モデル17a〜17cを用いて音声認識処理(人工知能学会誌Vol.20・No.1「連続音声認識ソフトウェアJulius」河原達也・李晃伸著 41〜49頁参照)を実行するデコーダ19a〜19cが設けられており、このデコーダ19a〜19cによって入力音声Xが最適な単語列Wに変換されている。この音声認識処理は、入力音声Xに対する事後確率p(W|X)が最大となる単語列Wを探索する処理であり、ベイズの定理による以下の式(1)を用いて、様々な単語列Wについての事後確率p(W|X)を計算し、最も高い事後確率p(W|X)が得られた単語列Wを認識結果として採用する処理である(以下の式(2)参照)。この事後確率p(W|X)つまり尤度は、入力音声の認識結果がどれくらい妥当であるかを示す指標となっている。なお、式(1)の分母に示されるp(X)は、単語列Wの決定に影響しないことから無視することが可能である。また、式(2)の確率p(W)は単語列Wの生起確率を表現する言語モデル17a〜17cを意味しており、式(2)の確率p(X|W)は単語列Wから入力音声Xが得られる確率を表現する音響モデル16a〜16cを意味している。
p(W|X)=p(W)*p(X|W)/p(X) ・・・・・(1)
W=argmax p(W)*p(X|W) ・・・・・(2)
In addition, each of the
p (W | X) = p (W) * p (X | W) / p (X) (1)
W = argmax p (W) * p (X | W) (2)
続いて、予測認識部13によって実行される予測認識処理、大語彙認識部14によって実行される大語彙認識処理、部分単語認識部15によって実行される部分単語認識処理について説明する。まず、予測認識部13は、対話場面に基づいて利用者から発せられるユーザ発話を予測し、この予測したユーザ発話を文単位で辞書18aに登録する。次いで、予測認識部13は、辞書登録したユーザ発話を単語または文節単位に区切って認識対象を文単位とした言語モデル17aを作成した後に、この言語モデル17aの拘束下で前述した音声認識処理を実行し、ユーザ発話に対する文単位の認識結果W1(以下、予測認識結果という)と、この予測認識結果W1の尤度R1(以下、予測尤度という)とを出力する。なお、辞書登録したユーザ発話を単語または文節単位に区切って文法を作成し、この文法を用いて音声認識処理を実行するようにしても良い。この予測認識処理にあっては、認識対象を絞り込んだ上で音声認識を実行するため、認識範囲が狭くなるものの認識精度を向上させることが可能である。
Next, the prediction recognition process executed by the
また、大語彙認識部14は、前述した各種テキストデータから収集された辞書(大語彙辞書)18b内の単語を用いて認識対象を文単位とした言語モデル17bを作成する。そして、大語彙認識部14は、作成した言語モデル17bの拘束下で前述した音声認識処理を実行し、ユーザ発話に対する文単位の認識結果W2(以下、大語彙認識結果という)と、この大語彙認識結果W2の尤度R2(以下、大語彙尤度という)とを出力する。この大語彙認識処理にあっては、認識対象を過度に絞り込むことなく音声認識を実行するため、認識精度が低下するものの認識範囲を広げることが可能である。
Further, the large
また、部分単語認識部15は、前述した各種テキストデータから収集された辞書(単語辞書)18c内の単語を用いて認識対象を単語単位とした言語モデル17cを作成する。そして、部分単語認識部15は、作成した言語モデル17cの拘束下で前述した音声認識処理を実行し、ユーザ発話について単語単位の認識結果W3(以下、部分単語認識結果という)を出力する。つまり、前述した予測認識処理や大語彙認識処理はユーザ発話を文単位で認識する処理であるが、この部分単語認識処理はユーザ発話を単語単位で認識する処理となっている。
In addition, the partial
さらに、一致度判定手段として機能する部分単語認識部15には、予測認識部13から予測認識結果W1が入力されており、部分単語認識部15は文単位で認識された予測認識結果W1と単語単位で認識された部分単語認識結果(単語認識結果)W3との一致度を判定してこれを出力する。つまり、予測認識結果W1が「A,B,C」であり部分単語認識結果W3が「A」,「B」,「C」である場合には部分単語認識部15によって完全一致と判定され、予測認識結果W1が「A,B,C」であり部分単語認識結果W3が「A」,「B」,「D」である場合には部分単語認識部15によって部分一致と判定され、予測認識結果W1が「A,B,C」であり部分単語認識結果W3が「D」,「E」,「F」である場合には部分単語認識部15によって完全不一致と判定されることになる。なお、前述したA〜Fはそれぞれに異なる単語を意味している。
Furthermore, the prediction recognition result W1 is input from the
また、音声対話装置10には尤度判定手段としての予測内外判定部20が設けられており、この予測内外判定部20は、予測尤度R1と大語彙尤度R2とを比較して、ユーザ発話の内容が予測認識部13の予測範囲内であるか否かを判定する。予測尤度R1が大語彙尤度R2よりも大きい場合には、予測内外判定部20から後述するシステム発話選択部21に対してユーザ発話が予測内であるとの判定結果が出力される。一方、予測尤度R1が大語彙尤度R2よりも小さい場合には、予測内外判定部20からシステム発話選択部21に対してユーザ発話が予測外であるとの判定結果が出力される。
Further, the
さらに、音声対話装置10にはシステム発話設定手段としてのシステム発話選択部21が設けられており、このシステム発話選択部21には、予測認識結果W1、大語彙認識結果W2、部分単語認識結果W3、部分単語認識部15からの一致度、予測内外判定部20からの判定結果が入力されている。このシステム発話選択部21には、装置側から発せられる音声つまりシステム発話に関する複数の内容や文法が登録されており、システム発話選択部21は入力される各種情報に基づいてシステム発話の内容を選択する。そして、システム発話選択部21は選択したシステム発話のテキストデータを音声合成部22に出力し、音声合成部22はテキストデータを解析して音声波形の電気信号を生成する。次いで、音声合成部22からスピーカ23に対して電気信号が入力され、スピーカ23から利用者に対してシステム発話が発せられることになる。
Further, the
続いて、音声対話装置10による音声対話処理の実行手順をフローチャートに沿って具体的に説明する。ここで、図3は音声対話処理の実行手順を示すフローチャートである。また、図4(A)は予測外と判定される予測認識結果W1および大語彙認識結果W2の一例を示す説明図であり、図4(B)は予測内と判定される予測認識結果W1および大語彙認識結果W2の一例を示す説明図である。さらに、図5(A)は完全一致と判定される予測認識結果W1および部分単語認識結果W3の一例を示す説明図であり、図5(B)は部分一致と判定される予測認識結果W1および部分単語認識結果W3の一例を示す説明図であり、図5(C)は完全不一致と判定される予測認識結果W1および部分単語認識結果W3の一例を示す説明図である。
Subsequently, the execution procedure of the voice dialogue process by the
図3に示すように、ステップS1ではユーザ発話(例えば「AB大学」)が取り込まれ、ステップS2では入力音声に対する予測認識処理が実行され、続くステップS3では入力音声に対する大語彙認識処理が実行される。次いで、ステップS4に進み、予測尤度R1が大語彙尤度R2を上回るか否かが判定される。ステップS4において、予測尤度R1が大語彙尤度R2を下回ると判定された場合には(図4(A)参照)、認識されたユーザ発話の内容が音声認識装置の予測外であると判定されるため、ステップS5に進み、ユーザ発話の分野を広い範囲から特定するためのシステム発話(例えば「ジャンルを言って下さい」)が発せられ、再びステップS1においてユーザ発話が取り込まれる。 As shown in FIG. 3, in step S1, a user utterance (for example, “AB University”) is captured, in step S2, a prediction recognition process for the input voice is executed, and in a subsequent step S3, a large vocabulary recognition process for the input voice is executed. The Subsequently, it progresses to step S4 and it is determined whether the prediction likelihood R1 exceeds the large vocabulary likelihood R2. If it is determined in step S4 that the prediction likelihood R1 is less than the large vocabulary likelihood R2 (see FIG. 4A), it is determined that the content of the recognized user utterance is outside the prediction of the speech recognition apparatus. Therefore, the process proceeds to step S5, where a system utterance (for example, “Please say a genre”) for specifying the field of user utterance from a wide range is uttered, and the user utterance is captured again in step S1.
一方、ステップS4において、予測尤度R1が大語彙尤度R2を上回ると判定された場合には(図4(B)参照)、認識されたユーザ発話の内容が音声認識装置の予測内であると判定されるため、そのままステップS6に進み、入力音声に対する部分単語認識処理が実行される。次いで、ステップS7に進み、予測認識結果W1と部分単語認識結果W3とが比較され、認識結果W1,W3の一致度(完全一致,部分一致,完全不一致)が判定される。 On the other hand, when it is determined in step S4 that the prediction likelihood R1 exceeds the large vocabulary likelihood R2 (see FIG. 4B), the content of the recognized user utterance is within the prediction of the speech recognition apparatus. Therefore, the process proceeds to step S6 as it is, and the partial word recognition process for the input voice is executed. Next, the process proceeds to step S7, where the predicted recognition result W1 and the partial word recognition result W3 are compared, and the degree of coincidence (complete match, partial match, complete mismatch) of the recognition results W1, W3 is determined.
このステップS7において、認識結果W1,W3が完全一致であると判定された場合には(図5(A)参照)、認識結果の確認応答を省略して次の段階のシステム発話(例えば「学部はどこですか?」)が発せられる。このように、予測尤度R1と大語彙尤度R2とに基づいてユーザ発話が予測内と判定され、しかも予測認識結果W1と部分単語認識結果W3とが完全一致であると判定された場合には、ユーザ発話に対する予測認識結果W1の精度が極めて高いと判断できるため、直ちに対話内容を次の段階に移行させることにより、確認応答等による煩わしさを利用者に与えることなく対話を進行させることが可能となる。 In this step S7, when it is determined that the recognition results W1 and W3 are completely coincident (see FIG. 5A), the confirmation response of the recognition result is omitted and the system utterance of the next stage (for example, “Faculty” Where are you? ”). As described above, when the user utterance is determined to be within the prediction based on the prediction likelihood R1 and the large vocabulary likelihood R2, and it is determined that the prediction recognition result W1 and the partial word recognition result W3 are completely identical. Since it can be determined that the accuracy of the prediction recognition result W1 for the user utterance is extremely high, the conversation can be immediately advanced to the next stage so that the conversation can proceed without giving the user troublesome confirmation response or the like. Is possible.
一方、ステップS7において、認識結果W1,W3が部分一致であると判定される場合とは(図5(B)参照)、予測尤度R1と大語彙尤度R2とに基づいてユーザ発話が予測内と判定されているが、予測認識結果W1と部分単語認識結果W3とが部分的に相違している場合である。つまり、ユーザ発話に対する予測認識結果W1の精度が若干低い状態であるため、ステップS9に進み、予測認識結果W1と部分単語認識結果W3との相違点(未確定部分)を確定させるための部分一致処理が実行される。 On the other hand, when it is determined in step S7 that the recognition results W1 and W3 are partially matched (see FIG. 5B), the user utterance is predicted based on the prediction likelihood R1 and the large vocabulary likelihood R2. This is a case where the prediction recognition result W1 and the partial word recognition result W3 are partially different. That is, since the accuracy of the prediction recognition result W1 with respect to the user utterance is in a slightly low state, the process proceeds to step S9 and partial matching is performed to determine the difference (undefined part) between the prediction recognition result W1 and the partial word recognition result W3. Processing is executed.
ここで、図6は部分一致処理の実行手順を示すフローチャートである。図6に示すように、まずステップS21では未確定部分に関するユーザ発話を促すためのシステム発話(例えば「AB何々ですか?」)が発せられる。そして、ステップS22ではユーザ発話(例えば「大学です」)が取り込まれ、ステップS23では未確定部分を辞書に追加して入力音声に対する予測認識処理が実行される。次いで、ステップS24では予測識結果W1を利用者に確認するためのシステム発話(例えば「AB大学ですね」)が発せられ、続くステップS25ではシステム発話に対する回答のユーザ発話(例えば「はい」)が取り込まれる。 Here, FIG. 6 is a flowchart showing an execution procedure of the partial matching process. As shown in FIG. 6, first, in step S21, a system utterance (for example, “What is AB?”) For prompting a user utterance regarding an uncertain part is uttered. In step S22, a user utterance (for example, “is a university”) is captured, and in step S23, an uncertain part is added to the dictionary, and a prediction recognition process for the input speech is executed. Next, in step S24, a system utterance (for example, “AB University”) for confirming the predicted knowledge result W1 to the user is uttered, and in a succeeding step S25, a user utterance (for example, “yes”) for an answer to the system utterance is issued. It is captured.
続いて、ステップS26ではユーザ発話に対する予測認識処理が実行され、続くステップS27ではユーザ発話の認識結果が肯定(例えば「はい」)であるか否かが判定される。ステップS27において認識結果が肯定であると判定された場合には、予測認識結果W1に対する部分単語認識結果W3の相違点が解消されたと判断され、ステップS28に進み、次の段階のシステム発話(例えば「学部はどこですか?」)が発せられる。一方、ステップS27において認識結果が否定であると判定された場合には、予測認識結果W1と部分単語認識結果W3との相違点が解消されていないと判断され、ステップS29に進み、再度のユーザ発話を促すシステム発話(例えば「もう一度言って下さい」)が発せられる。 Subsequently, in step S26, a prediction recognition process for the user utterance is executed, and in subsequent step S27, it is determined whether or not the recognition result of the user utterance is affirmative (eg, “yes”). If it is determined in step S27 that the recognition result is affirmative, it is determined that the difference of the partial word recognition result W3 with respect to the predicted recognition result W1 has been resolved, and the process proceeds to step S28, where the system utterance of the next stage (for example, "Where is your faculty?") On the other hand, if it is determined in step S27 that the recognition result is negative, it is determined that the difference between the predicted recognition result W1 and the partial word recognition result W3 has not been resolved, and the process proceeds to step S29, where the user again A system utterance prompting utterance (eg, “Please say again”) is uttered.
このように、ユーザ発話が音声対話装置10の予測内であると判定された上で、認識結果W1,W3が部分一致であると判定された場合には、実際のユーザ発話と予測認識結果W1とが若干相違している状態であるため、この相違点を確定させるためのシステム発話が設定されるようになっている。これにより、最低限の対話によって相違点を解消することができるため、利用者に対して不快感を与えずに対話を進行させることが可能となる。
As described above, when it is determined that the user utterance is within the prediction of the
また、図3に示すように、ステップS7において、認識結果W1,W3が完全不一致であると判定された場合には(図5(C)参照)、予測尤度R1と大語彙尤度R2とに基づいてユーザ発話が予測内と判定されているが、予測認識結果W1と部分単語認識結果W3とが完全に相違している場合である。つまり、ユーザ発話に対して予測認識結果W1が外れている状態であるため、ステップS10に進み、予測認識結果W1と部分単語認識結果W3との相違点を確定させるための完全不一致処理が実行される。 As shown in FIG. 3, when it is determined in step S7 that the recognition results W1 and W3 are completely inconsistent (see FIG. 5C), the prediction likelihood R1 and the large vocabulary likelihood R2 This is a case where the user utterance is determined to be within the prediction based on the above, but the prediction recognition result W1 and the partial word recognition result W3 are completely different. That is, since the prediction recognition result W1 is out of the user's utterance, the process proceeds to step S10, and complete mismatch processing is performed to determine the difference between the prediction recognition result W1 and the partial word recognition result W3. The
ここで、図7は完全不一致処理の実行手順を示すフローチャートである。図7に示すように、まずステップS31では未確定部分に関するユーザ発話を促すためのシステム発話(例えば「大学ですか?銀行ですか?」,「ABですか?XYですか?」)が発せられる。そして、ステップS32ではユーザ発話(例えば「AB大学です」,「大学です」,「ABです」)が取り込まれ、ステップS33では入力音声に対する予測認識処理が実行される。次いで、ステップS34では予測認識処理によって認識された単語を利用者に確認するためのシステム発話(例えば「AB大学ですね」,「大学ですね」,「ABですね」)が発せられ、続くステップS35ではユーザ発話(例えば「はい」)が取り込まれる。 Here, FIG. 7 is a flowchart showing an execution procedure of complete mismatch processing. As shown in FIG. 7, first, in step S31, a system utterance (for example, “Are you a university? A bank?”, “AB? XY?”) For prompting a user utterance regarding an uncertain part is issued. . In step S32, user utterances (eg, “AB university”, “university”, “AB”) are captured, and in step S33, predictive recognition processing for the input speech is executed. Next, in step S34, a system utterance (for example, “AB university”, “university”, “AB” ”) for confirming the word recognized by the prediction recognition process to the user is uttered. In S35, a user utterance (for example, “Yes”) is captured.
続いて、ステップS36ではユーザ発話に対する予測認識処理が実行され、続くステップS37ではユーザ発話の認識結果が肯定(例えば「はい」)であるか否かが判定される。ステップS37において認識結果が肯定であると判定された場合には、予測認識結果W1に対する部分単語認識結果W3の相違点が解消された状態であるため、ステップS38に進み、次の段階のシステム発話(例えば「学部はどこですか?」)が発せられる。一方、ステップS37において認識結果が否定であると判定された場合には、予測認識結果W1と部分単語認識結果W3との相違点が解消されていない状態であるため、ステップS39に進み、利用者に対して再度のユーザ発話を促すシステム発話(例えば「もう一度言って下さい」)が発せられる。 Subsequently, in step S36, a prediction recognition process for the user utterance is executed, and in subsequent step S37, it is determined whether or not the recognition result of the user utterance is affirmative (eg, “yes”). If it is determined in step S37 that the recognition result is affirmative, the difference between the partial word recognition result W3 and the predicted recognition result W1 has been eliminated, and the process proceeds to step S38, where the system utterance in the next stage is performed. (For example, “Where is your faculty?”) On the other hand, if it is determined in step S37 that the recognition result is negative, the difference between the predicted recognition result W1 and the partial word recognition result W3 has not been resolved. A system utterance prompting the user to speak again (for example, “Please say again”) is uttered.
このように、ユーザ発話が音声対話装置10の予測内であると判定された上で、認識結果W1,W3が完全不一致であると判定された場合には、実際のユーザ発話と予測認識結果W1とが部分一致の場合よりも大きく相違している状態であるため、この相違点を確定させるためのシステム発話が設定されるようになっている。これにより、最低限の対話によって相違点を解消することができるため、利用者に対して不快感を与えずに対話を進行させることが可能となる。
As described above, when it is determined that the user utterance is within the prediction of the
これまで説明したように、予測尤度R1と大語彙尤度R2とを比較することにより、ユーザ発話の内容が音声対話装置10の予測内であるか否かを判定し、この判定結果に応じてシステム発話の内容を変更するようにしたので、ユーザ発話が絞られていない段階であっても、ユーザ発話に対する認識処理を適切に実行することが可能となる。
As described so far, by comparing the prediction likelihood R1 and the large vocabulary likelihood R2, it is determined whether or not the content of the user utterance is within the prediction of the
また、予測認識処理によって得られる文単位の予測認識結果W1と、部分単語認識によって得られる単語単位の部分単語認識結果W3との一致度に応じて、その後のシステム発話の内容を変更するようにしたので、ユーザ発話の認識度に応じて適切なシステム発話を設定することができ、利用者との対話を円滑に進行させることが可能となる。すなわち、認識結果W1,W3が相違する場合であっても、認識結果W1,W3が部分的に相違している状態であるか、認識結果W1,W3が完全に相違している状態であるかに応じて、認識結果を正解に導くために発せられるシステム発話の内容を変化させることができるため、最低限の対話によって認識結果W1,W3の相違点を解消することが可能となる。これにより、利用者に対して不快感を与えることなく円滑に対話を進行させることが可能となる。 Further, the content of the subsequent system utterance is changed in accordance with the degree of coincidence between the prediction recognition result W1 in sentence units obtained by the prediction recognition process and the partial word recognition result W3 in word units obtained by partial word recognition. Therefore, an appropriate system utterance can be set according to the degree of recognition of the user utterance, and the conversation with the user can proceed smoothly. That is, even if the recognition results W1 and W3 are different, whether the recognition results W1 and W3 are partially different or whether the recognition results W1 and W3 are completely different. Accordingly, it is possible to change the contents of the system utterance that is uttered in order to lead the recognition result to the correct answer, so that the difference between the recognition results W1 and W3 can be eliminated by a minimum dialogue. Thereby, it becomes possible to advance a conversation smoothly, without giving a user discomfort.
本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。また、図示する音声対話装置10にあっては、カーナビゲーションシステムやコールセンター等の様々な対話分野において有効に適用することが可能である。
It goes without saying that the present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the scope of the invention. The illustrated
10 音声対話装置
13 予測認識部(予測認識手段)
14 大語彙認識部(大語彙認識手段)
15 部分単語認識部(単語認識手段,一致度判定手段)
18a 辞書(大語彙辞書)
18b 辞書(単語辞書)
20 予測内外判定部(尤度判定手段)
21 システム発話選択部(システム発話設定手段)
10
14 Large vocabulary recognition section (large vocabulary recognition means)
15 Partial word recognition unit (word recognition means, coincidence determination means)
18a Dictionary (Large Vocabulary Dictionary)
18b Dictionary (word dictionary)
20 Predicted inside / outside determination unit (likelihood determination means)
21 System utterance selection part (system utterance setting means)
Claims (3)
所定の単語辞書に基づきユーザ発話を認識して単語認識結果を出力する単語認識手段と、
前記予測認識結果と前記単語認識結果とを比較して認識結果の一致度を判定する一致度判定手段と、
前記認識結果の一致度に基づいてシステム発話の内容を設定するシステム発話設定手段とを有することを特徴とする音声対話装置。 A prediction recognition means for recognizing a user utterance based on the predicted utterance content and outputting a prediction recognition result;
Word recognition means for recognizing a user utterance based on a predetermined word dictionary and outputting a word recognition result;
A degree of coincidence determination means for comparing the prediction recognition result and the word recognition result to determine the degree of coincidence of the recognition result;
And a system utterance setting unit configured to set the contents of the system utterance based on the degree of coincidence of the recognition results.
前記一致度判定手段は、完全一致、部分一致または完全不一致のいずれかに前記一致度を判定することを特徴とする音声対話装置。 The voice interaction apparatus according to claim 1, wherein
The coincidence degree determining means determines the degree of coincidence according to any of perfect coincidence, partial coincidence, and complete disagreement.
所定の大語彙辞書に基づいてユーザ発話を認識して大語彙認識結果の尤度を出力する大語彙認識手段と、
前記大語彙認識結果の尤度と前記予測認識手段から出力される前記予測認識結果の尤度とを比較する尤度判定手段とを有し、
前記予測認識結果の尤度が前記大語彙認識結果の尤度を上回ると判定されてから、前記一致度判定手段は前記一致度の判定を開始することを特徴とする音声対話装置。 The voice interaction apparatus according to claim 1 or 2,
Large vocabulary recognition means for recognizing a user utterance based on a predetermined large vocabulary dictionary and outputting the likelihood of a large vocabulary recognition result;
Likelihood determining means for comparing the likelihood of the large vocabulary recognition result with the likelihood of the prediction recognition result output from the prediction recognition means;
The speech dialogue apparatus according to claim 1, wherein after the likelihood of the prediction recognition result is determined to be greater than the likelihood of the large vocabulary recognition result, the coincidence degree determination unit starts the determination of the coincidence degree.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007130585A JP2008286930A (en) | 2007-05-16 | 2007-05-16 | Voice interactive device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007130585A JP2008286930A (en) | 2007-05-16 | 2007-05-16 | Voice interactive device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008286930A true JP2008286930A (en) | 2008-11-27 |
Family
ID=40146729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007130585A Withdrawn JP2008286930A (en) | 2007-05-16 | 2007-05-16 | Voice interactive device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008286930A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2382761A1 (en) * | 2009-01-26 | 2011-11-02 | 24/7 Customer, Inc. | Predictive engine for interactive voice response system |
-
2007
- 2007-05-16 JP JP2007130585A patent/JP2008286930A/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2382761A1 (en) * | 2009-01-26 | 2011-11-02 | 24/7 Customer, Inc. | Predictive engine for interactive voice response system |
EP2382761A4 (en) * | 2009-01-26 | 2013-08-21 | 24 7 Customer Inc | Predictive engine for interactive voice response system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9812122B2 (en) | Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium | |
Li et al. | Spoken language recognition: from fundamentals to practice | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
JP4301102B2 (en) | Audio processing apparatus, audio processing method, program, and recording medium | |
JP4542974B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP5200712B2 (en) | Speech recognition apparatus, speech recognition method, and computer program | |
WO2015151157A1 (en) | Device and method for understanding user intent | |
JPWO2007097176A1 (en) | Speech recognition dictionary creation support system, speech recognition dictionary creation support method, and speech recognition dictionary creation support program | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
JP4340685B2 (en) | Speech recognition apparatus and speech recognition method | |
WO2009156903A2 (en) | Method and device for generating vocabulary entry from acoustic data | |
JP2007047412A (en) | Apparatus and method for generating recognition grammar model and voice recognition apparatus | |
Siniscalchi et al. | A bottom-up modular search approach to large vocabulary continuous speech recognition | |
Droppo et al. | Context dependent phonetic string edit distance for automatic speech recognition | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP6001944B2 (en) | Voice command control device, voice command control method, and voice command control program | |
JP5300000B2 (en) | Articulation feature extraction device, articulation feature extraction method, and articulation feature extraction program | |
Patc et al. | Phonetic segmentation using KALDI and reduced pronunciation detection in causal Czech speech | |
JP2008286930A (en) | Voice interactive device | |
JP3378547B2 (en) | Voice recognition method and apparatus | |
US8024191B2 (en) | System and method of word lattice augmentation using a pre/post vocalic consonant distinction | |
Imseng | Multilingual speech recognition: a posterior based approach | |
KR20140051519A (en) | Method for continuous speech recognition and apparatus thereof | |
WO2009147745A1 (en) | Retrieval device | |
Lei et al. | DBN-based multi-stream models for Mandarin toneme recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20100803 |