JP2005257917A - Phonetic interpretion method, phonetic interpreting device, and phonetic interpretation program - Google Patents
Phonetic interpretion method, phonetic interpreting device, and phonetic interpretation program Download PDFInfo
- Publication number
- JP2005257917A JP2005257917A JP2004067729A JP2004067729A JP2005257917A JP 2005257917 A JP2005257917 A JP 2005257917A JP 2004067729 A JP2004067729 A JP 2004067729A JP 2004067729 A JP2004067729 A JP 2004067729A JP 2005257917 A JP2005257917 A JP 2005257917A
- Authority
- JP
- Japan
- Prior art keywords
- word
- interpretation
- speech
- reliability
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は音声を用いて人の要求を受け付ける音声解釈システムの音声解釈方法および音声解釈装置、音声解釈プログラムに関する。 The present invention relates to a speech interpretation method, speech interpretation apparatus, and speech interpretation program for a speech interpretation system that accepts a human request using speech.
システムに音声を入力する音声入力手段と、音声を単語の系列として認識する音声認識手段と、認識した各単語に対してその認識の信頼性を評価する音声認識信頼性評価手段と、認識した単語の系列と各単語の認識の信頼性をもとに入力された音声を解釈する音声解釈手段とで構成される音声解釈システムの音声解釈方法であって、音声入力手段から入力された音声を、音声認識手段によって単語の系列として認識し、単語の系列から入力された音声に対する解釈結果を特定することに関する従来技術に、単語の系列を中間表現に変換し、中間表現の共起確率を統計モデルとして表現することで音声認識の誤りの影響で解釈結果に誤りが生じることを避けるという技術がある(非特許文献1)。
従来の技術では、音声認識手段によって得られる単語の系列のみを利用して音声解釈を行っていたため、認識した単語の系列のどの単語が認識誤りであるかを考慮することができなかった。そのことにより、音声認識手段によって十分な確信を持って単語の系列が得られた場合でも、ほとんど確信が持てないような単語の系列が得られた場合でも、その単語の系列自体が一致していれば、同じ解釈の結果が導かれることになり、音声認識の誤りによる悪影響を軽減する効果は十分でない。また、従来の技術で利用されている統計的モデルを利用するためには十分な量の人間の発話データベースが学習のために必要であり、そのデータを集めるために別の音声解釈システムを利用したり、人間同士の対話によって人間とコンピュータシステムとの対話を模擬的に記録することが必要であった。 In the conventional technique, since speech interpretation is performed using only the word sequence obtained by the speech recognition means, it is not possible to consider which word in the recognized word sequence is a recognition error. As a result, even if a word sequence is obtained with sufficient confidence by the speech recognition means, or even if a word sequence with little confidence is obtained, the word sequence itself is consistent. Thus, the result of the same interpretation is derived, and the effect of reducing the adverse effects due to the error in speech recognition is not sufficient. In addition, a sufficient amount of human utterance database is necessary for learning to use the statistical model used in the conventional technology, and another speech interpretation system is used to collect the data. Or, it was necessary to record a dialogue between a human and a computer system in a simulated manner by a dialogue between humans.
この発明の請求項1では、音声を用いてシステムに入力を行う音声入力処理と、上記の音声を単語の系列として認識する音声認識処理と、認識した各単語に対してその認識の信頼性を評価する音声認識信頼性評価処理と、認識した単語の系列と各単語の認識の信頼性をもとに入力された音声を解釈する音声解釈処理とを含む音声解釈システムの音声解釈方法であって、上記音声入力処理から入力された音声(A)を、音声認識処理によって単語の系列(B)として認識し、この単語の系列に含まれる単語(B0),(B1),…,(Bn)のそれぞれに対して音声認識信頼性評価処理によって音声認識の信頼性評価値(C0),(C1),…,(Cn)を計算し、単語(B0),…,(Bn)と認識の信頼性評価値(C0),(C1),…,(Cn)から、入力された音声(A)に対する音声解釈結果(D)を特定する音声解釈方法を提案する。 According to the first aspect of the present invention, a voice input process for inputting voice into the system, a voice recognition process for recognizing the voice as a sequence of words, and a reliability of recognition for each recognized word. A speech interpretation method for a speech interpretation system, comprising speech recognition reliability evaluation processing to be evaluated, and speech interpretation processing for interpreting speech input based on a recognized word sequence and the reliability of recognition of each word. The speech (A) input from the speech input processing is recognized as a word sequence (B) by the speech recognition processing, and the words (B0), (B1),..., (Bn) included in this word sequence , (Cn) is calculated by the speech recognition reliability evaluation process for each of the above, and the word (B0),..., (Bn) and the recognition reliability are calculated. Sex evaluation values (C0), (C1), ..., From cn), we propose a sound interpretation to identify the voice interpretation result (D) for the audio (A) entered.
この発明の請求項2では、音声入力処理から入力された音声(A)を、音声認識処理によって単語の系列(B)として認識し、この単語の系列に含まれる単語(B0),…,(Bn)と、音声認識信頼性評価処理によって計算された音声認識の信頼性評価値(C0),(C1),…,(Cn)から、入力された音声(A)に対する音声解釈結果(D)を特定する音声解釈方法を実現するために、登録された特定の単語の系列(E0),(E1),…,(Ei)を含む単語の系列が入力されたとき、それと対応する解釈結果の系列(F0),(F1),…,(Fj)を出力する規則型解釈処理と、ある特定の種類の単語(G)を含む単語の系列が入力されたとき、(G)を出力する特定種単語抽出処理と、データベース内に事例として蓄積されている単語の系列(H0),(H1),…,(Hk)と対応する解釈結果の系列(I0),(I1),…,(Il)の組があり、(H0),…,(Hk)を含む単語の系列が入力されたとき、(I0),…,(Il)を出力する事例型解釈処理とに基づき、規則型解釈処理、特定種単語抽出処理、事例型解釈処理を組み合わせた有限状態トランスデューサを利用した解釈結果選別処理によって、最善の音声解釈結果(D)を特定する音声解釈方法を提案する。
この発明の請求項3では請求項2記載の音声解釈方法において、データベースに蓄積する事例として音声認識信頼性評価値(Mi)がある値よりも大きい単語系列(Ji),(Li)の組を登録し、この登録された単語系列(Ji),(Li)を事例型解釈処理で事例として利用する音声解釈方法を提案する。
According to
According to a third aspect of the present invention, in the speech interpretation method according to the second aspect, as a case of accumulating in the database, a set of word sequences (Ji), (Li) larger than a certain value as a speech recognition reliability evaluation value (Mi) is stored. A speech interpretation method is proposed in which the registered word series (Ji) and (Li) are used as examples in the case type interpretation process.
この発明の請求項4では、請求項3に記載の音声解釈方法において、事例型解釈処理で用いる音声認識信頼性評価値(Mi)は対話情報記録手段に記録した対話情報から実際に発話したと推定される単語の系列(P)を抽出し、この抽出した単語の系列(P)から解釈される上記対話情報の内容を(P)′に特定し、単語の系列(P)に含まれる単語をそれぞれ(Q0),(Q1),(Q2),…,(Qn)として抽出し、単語系列(P)に対応する実際に発話した単語の系列の正解を(R)と特定し、この単語の系列の正解(R)から解釈される上記対話情報の内容の正解を(R)′と特定し、単語列(Qi)に対応する対話情報の実際に発話した単語を(Si)と特定し、抽出された単語の系列(P)をその結果の候補として推定するために計算した指標に加え、上記対話情報記録手段に記録された対話情報で得られる指標を、発話単位及び単語単位でそれぞれについて発話単位指標値及び単語単位指標値を計算し、計算された発話単位指標値及び単語単位指標値と、上記対話情報記録手段から読み出された対話情報をシステムが認識した単語の系列と、上記対話情報記録手段により記録されている実際に発話した単語の系列(P)の正解(R)とを比較して得られる発話単位及び単語単位での正しさを0と1の二値で示した指標との関連を求めることにより、発話単位及び単語単位での信頼性を評価するための信頼性尺度を作成し、作成された信頼性尺度によって、その信頼性を評価すべき音声認識結果の指標値を計算し、信頼性尺度の評価式に当てはめて求めた信頼性評価値とした音声解釈方法を提案する。 According to a fourth aspect of the present invention, in the voice interpretation method according to the third aspect, the speech recognition reliability evaluation value (Mi) used in the case type interpretation process is actually spoken from the dialogue information recorded in the dialogue information recording means. An estimated word sequence (P) is extracted, the content of the dialogue information interpreted from the extracted word sequence (P) is specified as (P) ′, and the words included in the word sequence (P) Are extracted as (Q0), (Q1), (Q2),..., (Qn), the correct answer of the actually spoken word sequence corresponding to the word sequence (P) is identified as (R), and this word The correct answer of the content of the dialog information interpreted from the correct answer (R) of the sequence is specified as (R) ′, and the actually spoken word of the dialog information corresponding to the word string (Qi) is specified as (Si). In order to estimate the extracted word sequence (P) as a result candidate In addition to the index calculated in the above, the index obtained by the dialog information recorded in the dialog information recording means is calculated as the utterance unit index value and the word unit index value for each utterance unit and word unit, and the calculated utterance unit An index value and a word unit index value, a series of words in which the system recognizes the dialogue information read from the dialogue information recording means, and a series of words actually spoken recorded by the dialogue information recording means (P ) In the utterance unit and the word unit by determining the relationship between the correctness in the utterance unit and the word unit obtained by comparing the correct answer (R) of) with an index indicating binary values of 0 and 1 The reliability measure for evaluating the reliability, the index value of the speech recognition result for which the reliability should be evaluated is calculated based on the created reliability measure, and the reliability obtained by applying it to the evaluation formula of the reliability measure Evaluation To propose a sound interpretation methods with.
この発明によれば、音声解釈のために定義した規則と、注目したい特定種の単語とを利用することで、簡易な定義によって音声解釈を可能にし、さらに事例を集めることでより多様な表現に対して柔軟に音声解釈をできるように変更可能で、かつ、音声認識の誤りに対して、信頼性の低い単語を棄却して音声解釈をする枠組みが組み込まれており、音声認識の誤りに対して頑健な音声解釈を可能にする。また、事例型解釈のための事例は、あらかじめデータを収集して、発話を書き起こし、対応する解釈結果のラベルを付けた形式で作成するだけでなく、システムが集めた対話記録から信頼性の高い事例を集めて、自動的に作成することも可能である。 According to the present invention, by using rules defined for speech interpretation and a specific type of word to be noticed, speech interpretation can be performed with a simple definition, and more cases can be collected by collecting examples. It is possible to change the voice interpretation so that it can be flexibly interpreted, and it incorporates a framework that rejects words with low reliability for speech recognition errors and incorporates speech interpretation errors. And robust speech interpretation. In addition, cases for case-type interpretation are not only created in a format in which data is collected in advance, the utterances are transcribed, and the corresponding interpretation results are labeled. It is also possible to collect high cases and create them automatically.
図1にこの発明を実施するための最良の形態を示す。図1に示す10はこの発明による音声解釈装置、20はこの音声解釈装置10で用いるデータベースを作成するデータベース作成部を示す。
この発明による音声解釈装置10は、入力音声11を取り込むための音声入力手段12と、入力された音声の内容を音声認識する音声認識手段13と、音声認識手段13で音声認識した認識結果に信頼性情報を付加する信頼性情報付加手段14と、信頼性情報が付加された単語の系列から、データベース17に登録されているデータに従って割当られたモードに従って解釈結果を出力し、有限状態トランスデューサを生成する有限状態トランスデューサ生成部18と、有限状態トランスデューサ生成部18が出力した有限状態トランスデューサを利用して最善のものを選別する解釈結果選別手段15とによって構成され、この解釈結果選別手段15から音声解釈結果16が出力され、音声又は文字として表示される。
FIG. 1 shows the best mode for carrying out the present invention. 1 denotes a speech interpretation apparatus according to the present invention, and 20 denotes a database creation unit that creates a database used in the
The
有限状態トランスデューサ生成部18は信頼性情報付加手段14で信頼性情報を付加された単語の系列から、データベース17に登録された特定の単語の系列を抽出し、対応する解釈結果を出力する規則型解釈手段18Aと、同じく信頼性情報を付加された単語の系列から、データベース17に登録された特定の種類の単語を抽出し、出力する特定種単語抽出手段18Bと、同じく信頼性情報を付加された単語の系列から、データベース17内に事例として蓄積されている単語の系列を抽出し、データベース17内の対応する解釈結果の値を参照して出力する事例型解釈手段18Cとによって構成される。
データベース作成部20は事例ファイル21から事例登録手段22を通じてデータベース17に事例を登録する構成と、対話情報記録手段23から事例信頼性情報付加手段24で対話情報に音声認識信頼性情報を付加し、この音声認識信頼性情報が付加された対話情報の中から信頼性の高い情報を事例選択手段25で選択し、その選択した情報を事例登録手段22を通じてデータベース17に書き込む構成とが考えられる。
The finite state
The
以下に各部の動作を図1に示した各ステップ表示に従って説明する。
ステップ1 データベース17には規則型解釈手段18Aで利用される音声解釈規則、特定種単語抽出手段18Bで利用される特定種単語、事例型解釈手段18Cで利用されるデータベース17中の事例を記述したファイル(システム記述ファイル)を準備する。
ステップ2 システム記述ファイルで定義された音声解釈規則に基づいて、音声認識手段13で音声認識した音声認識結果の単語の系列を解釈するための規則型解釈手段18Aを起動する。具体的には、規則で定義された単語の系列を入力とし、対応する解釈結果を出力とするような重み付き有限状態トランスデューサとして表現する。ここで、ひとつの規則の適用に対して、一定の重みを加える。
ステップ3 音声認識手段13で音声認識した単語の中でシステム記述ファイルで定義された特定の内容を表す種類の単語が存在した場合、その単語を出力する形で解釈とする機能を持つ特定種単語抽出手段18Bを起動する。具体的には、特定種の単語が入力された場合には特定種類の単語であることを明示した上で、一定の重みで単語を出力し、それ以外の単語については、それより大きな重みでそのまま単語を出力するような重み付き有限状態トランスデューサとして表現する。
ステップ4 システム記述ファイルに記載された、データベース17に蓄積されている単語の系列と対応する解釈結果の事例に基づいて、過去の事例にあった解釈を利用して音声解釈を行う事例型解釈手段18Cを起動する。動作は規則型解釈手段18Aの場合とほぼ同じで、重み付き有限状態トランスデューサの重みの与え方が異なる。事例による解釈を適用するときの重みは、データベース17中での事例の生起確率の対数の符号を反転させた値を用いる。
ステップ5 規則型解釈手段18A・特定種単語抽出手段18B・事例型解釈手段18Cのそれぞれで生成した3つの重み付き有限状態トランスデューサを結合し、解釈結果選別手段15に入力する。
ステップ6 音声入力手段12により入力音声11を受け取る。
ステップ7 音声認識手段13により音声認識処理を行う。
ステップ8 信頼性情報付加手段14により、音声認識の結果得られる単語の系列に、音声認識信頼性情報を付加した有限状態トランスデューサに変換する。信頼性の高い単語が優先されるように、信頼性評価値の高いものほど小さい重みを持つようにする。
ステップ9 音声認識の信頼性情報を付加した有限状態トランスデューサと、規則型解釈手段・特定種単語抽出手段・事例型解釈手段を組み合わせた重み付き有限状態トランスデューサと合成し、合成された重み付き有限状態トランスデューサ(解釈結果選別手段)から、もっとも重みの小さい経路を選び、その出力を音声解釈結果16として出力する。
The operation of each part will be described below according to each step display shown in FIG.
Step 7 Voice recognition processing is performed by the voice recognition means 13.
Step 9 A finite state transducer to which reliability information of speech recognition is added is combined with a weighted finite state transducer that is a combination of a regular interpretation unit, a specific-type word extraction unit, and a case type interpretation unit. The path with the smallest weight is selected from the transducer (interpretation result selection means), and the output is output as the
データベース作成部20では一つの方法として、
ステップA1 人間が実際に発話した単語の系列と、対応する解釈結果について記述した情報を記録したファイル(事例ファイル21)を準備する。
ステップA2 事例登録手段22により、事例ファイル21の単語の系列と解釈結果の組をデータベース17の事例に登録する。
他の方法として、
ステップB1 事例信頼性情報付加手段24により、対話記録の音声認識結果の単語の系列に対し、発話単位信頼性評価値を計算し、対話記録の音声認識結果の単語の系列に発話単位信頼性情報を付加する。この発話単位信頼性評価値の算出方法に関しては先願である「特願2003−27926号」で提案した「音声認識信頼性評価方法」を用いることができる。先願の発話単位信頼性評価値の計算方法に関しては後に詳細に説明する。
ステップB2 事例選択手段25により、信頼性評価値が別に指定した閾値より大きい音声認識結果を選別し、ファイル(選択事例ファイル)として保存する。
ステップB3 事例登録手段22により、選択事例ファイルに書き出された信頼性の高い音声認識結果の単語の系列と、対応する解釈結果をデータベース17の事例に登録する。
In the
Step A1 A file (example file 21) is prepared that records a series of words actually spoken by a human and information describing the corresponding interpretation result.
Step A2 The case registration means 22 registers the word sequence and interpretation result set in the
As an alternative,
Step B1 The case reliability
Step B2 The case selection means 25 selects a speech recognition result whose reliability evaluation value is larger than a separately designated threshold value, and saves it as a file (selected case file).
Step B3 The case registration means 22 registers the word series of the speech recognition result with high reliability written in the selected case file and the corresponding interpretation result in the case of the
以下に各部の実施例を説明する。例として、バスの時刻表をコンピュータシステムに質問するための音声解釈システムを用いる。同システムでは、人間はシステムに「乗車するバス停」「降車するバス停」「バスの経由地」「出発時間もしくは到着時間」「曜日」の5つの情報を伝えることができる。
信頼性情報付加手段14
音声認識手段13で音声認識した単語の系列を、各単語の音声認識の信頼性の情報を付加した重み付き有限状態トランスデューサに変換する。ここで用いる信頼性評価方法としては例えば参考文献1に記載の技術を用いることができる。
(参考文献1)
“Recognition confidence scoring and its use in speech understanding systems”,Timothy J.Hazen,Stephanie Seneff and Joseph Polifroni,Computer Speech and Language 2002 vol.16 pp.46-67
信頼性の高い単語が優先されるように、信頼性評価値が高いものほど小さい重みが与えられるようにする。本実施例では、信頼性評価値の符号を反転させた数を重みとして用いる。そして、音声認識の誤りがあった場合に、誤って認識された単語を棄却することができるように、有限状態トランスデューサの状態遷移の際に一定の重みで単語を棄却する枠組みを導入する。
Examples of each part will be described below. As an example, a speech interpretation system for querying a computer system for a bus timetable is used. In this system, a human can convey five types of information to the system: “bus stop to get on”, “bus stop to get off”, “bus stop”, “departure time or arrival time”, and “day of the week”.
Reliability
The sequence of words recognized by the
(Reference 1)
“Recognition confidence scoring and its use in speech understanding systems”, Timothy J. Hazen, Stephanie Seneff and Joseph Polifroni, Computer Speech and Language 2002 vol.16 pp.46-67
The higher the reliability evaluation value, the smaller the weight is given so that the word with high reliability is given priority. In this embodiment, the number obtained by inverting the sign of the reliability evaluation value is used as the weight. Then, a framework for rejecting words with a constant weight at the time of state transition of the finite state transducer is introduced so that an erroneously recognized word can be rejected when there is a speech recognition error.
例として、単語を棄却する場合の状態遷移の重みを+3.0とし、音声認識結果の第一候補が「バスセンター(信頼性評価値+2.0)から(信頼性評価値+1.2)」、第二候補が「バスセンター(信頼性評価値+2.0)から(信頼性評価値+1.0)は(信頼性評価値−0.8)」であった場合の重み付き有限状態トランスデューサの表現は、以下のようになる。以下の例では、各行が遷移規則を表し、第1列が現在の状態番号、第2列が遷移先の状態番号、第3列が状態遷移の際の入力シンボル、第4列が状態遷移の際の出力シンボル、第5列が状態遷移の重み(空欄の場合は0)である。状態番号0が開始状態で、第1列にのみ要素が入っている場合は、その状態番号が終了状態となる。epsilonは何も入力されない、もしくは何も出力されない状態遷移であることを示している。単語の棄却は、出力がepsilonとなるような状態遷移によって実現される。
========
第1列 第2列 第3列 第4列 第5列
0 1 epsilon epsilon
1 2 バスセンター バスセンター -2.0
1 2 バスセンター epsilon 3.0
2 3 から バスセンター -1.2
2 3 から epsilon 3.0
3
0 4 バスセンター バスセンター -2.0
0 4 バスセンター epsilon 3.0
4 5 から バスセンター -1.0
4 5 から epsilon 3.0
5 6 は は 0.8
5 6 は epsilon 3.0
========
規則型解釈手段18A
あらかじめ定義された音声解釈規則に基づいて、音声認識結果の単語の系列を解釈する。具体的には、規則で定義された単語の系列を入力とし、対応する解釈結果を出力とするような重み付き有限状態トランスデューサとして表現する。ひとつの規則の適用に対して、一定の重みを加える。
As an example, the weight of state transition when rejecting a word is +3.0, and the first candidate of the speech recognition result is “from bus center (reliability evaluation value +2.0) (reliability evaluation value +1.2)”, The expression of the weighted finite state transducer when the second candidate is “bus center (reliability evaluation value +2.0) to (reliability evaluation value +1.0) is (reliability evaluation value−0.8)” is It becomes as follows. In the following example, each row represents a transition rule, the first column is the current state number, the second column is the destination state number, the third column is the input symbol for the state transition, and the fourth column is the state transition. The output symbol at the time, the fifth column is the weight of state transition (0 in case of blank). If
========
1st row 2nd row 3rd row 4th row
1 2 Bus Center Bus Center -2.0
1 2 Bus Center epsilon 3.0
2 3 to Bus Center -1.2
2 3 to epsilon 3.0
3
0 4 Bus Center Bus Center -2.0
0 4 Bus Center epsilon 3.0
4 5 to Bus Center -1.0
4 to 5 epsilon 3.0
5 6 is 0.8
5 6 is epsilon 3.0
========
Regular interpretation means 18A
A sequence of words of the speech recognition result is interpreted based on a predefined speech interpretation rule. Specifically, it is expressed as a weighted finite state transducer that takes as input a series of words defined by rules and outputs the corresponding interpretation result. A certain weight is added to the application of one rule.
例として、規則を適用する際の重みを+1.0とし、「研究所前 から バスセンター まで」という単語の系列が入力されたとき、「stopfrom=(busstop=(研究所前)),stopto=(busstop=(バスセンター))」という音声解釈結果を出力するような音声解釈規則を適用する重み付き有限状態トランスデューサは、以下のようになる。
========
0 1 epsilon stopfrom=(研究所前)),stopto=(busstop=(バスセンター)) 1.0
1 2 研究所前 epsilon
2 3 から epsilon
3 4 バスセンター epsilon
4 5 まで epsilon
5
========
特定種単語抽出手段18B
あらかじめ定義された特定の内容を表す種類の単語について、その単語を出力する形で解釈とする機能を実現する。具体的には、特定種の単語が入力された場合には特定種類の単語であることを明示した上で、一定の重みで単語を出力し、それ以外の単語については、それより大きな重みでそのまま単語を出力するような重み付き有限状態トランスデューサとして表現する。
As an example, if the weight for applying the rule is +1.0 and the word sequence “From the laboratory to the bus center” is input, “stopfrom = (busstop = (before the laboratory)), stopto = ( A weighted finite state transducer applying a speech interpretation rule that outputs a speech interpretation result of “busstop = (bus center))” is as follows.
========
0 1 epsilon stopfrom = (in front of the laboratory)), stopto = (busstop = (bus center)) 1.0
1 2 In front of the laboratory epsilon
2 3 to epsilon
3 4 Bus Center epsilon
Up to 4 5 epsilon
5
========
Specific word extraction means 18B
A function of interpreting a word of a type representing a specific content defined in advance by outputting the word is realized. Specifically, when a specific type of word is input, it is clearly indicated that it is a specific type of word, and the word is output with a constant weight, and other words are output with a higher weight. It is expressed as a weighted finite state transducer that outputs a word as it is.
例として、特定種単語を出力するときの重みを+2.0、特定種単語として明示的に定義されてはいないが、システムが扱うことのできる語彙に含まれる単語を出力するときの重みを+3.0とし、「バス停名はバスセンター」という内容を表すbusstopという種類の単語「バスセンター」と、「時間は8時」という内容を表すhourという種類の単語「8時」と、種類が明示的に定義されていない単語「です」を扱う重み付き有限状態トランスデューサは以下のようになる。
========
0 1 バスセンター busstop=(バスセンター) 2.0
0 1 8時 hour=(8) 3.0
0 1 です です 3.0
1
========
事例型解釈手段18C
データベース17に蓄積されている単語の系列と対応する解釈結果の事例に基づいて、過去の事例にあった解釈を利用して音声解釈を行う。構成法は規則型解釈手段18Aの場合とほぼ同じで、重み付き有限状態トランスデューサの重みの与え方が異なる。事例による解釈を適用するときの重みは、データベース中での事例の生起確率の対数の符号を反転させた値を用いる。
For example, the weight for outputting a specific seed word is +2.0, and the weight for outputting a word included in a vocabulary that is not explicitly defined as a specific seed word but can be handled by the system is +3. , The word “bus center” of the type “busstop” representing the content “bus stop name is bus center”, and the word “8 o'clock” of the type “hour” representing the content “hour is 8 o'clock”. A weighted finite state transducer that handles the undefined word "is" is
========
0 1 Bus Center busstop = (Bus Center) 2.0
0 1 8:00 hour = (8) 3.0
0 1 is 3.0
1
========
Case type interpretation means 18C
Based on the case of the interpretation result corresponding to the word sequence stored in the
例として、「研究所前10時 発」という単語の系列と、「stopfrom=(busstop=(研究所前)),departtime=(hour=(8))」という解釈結果の組がデータベースに蓄積されており、そのデータベース中での生起確率が0.001であったとすると、この事例を適用する重み付き有限状態トランスデューサは以下のようになる。
========
0 1 epsilon stopfrom=(研究所前)),departtime=(hour=(8)) -log(0.001)
1 2 研究所前 epsilon
2 3 10時 epsilon
3 4 発 epsilon
4
========
解釈結果選別手段15
規則型解釈手段18A、特定種単語抽出手段18B、事例型解釈手段18Cのそれぞれを利用して単語の系列に対する解釈結果を与えることができるが、それぞれが独立して動作すると上記3つのどの手段によって得られた解釈結果が妥当であるかを判別することができないため、それぞれで構成された重み付き有限状態トランスデューサを並列に組み合わせることで、組み合わされた重み付き有限状態トランスデューサで受理される単語の系列の中で最も重みの小さくなるものを選択し、解釈結果として採用する。その際、任意の長さの単語の系列と、音声理解規則にある単語の系列・特定種単語・データベース中の事例にある単語の系列の任意の回数の繰り返しに対応するために、規則型解釈手段18A・特定種単語抽出手段18B・事例型解釈手段18Cのそれぞれの重み付き有限状態トランスデューサを並列に組み合わせ、さらにその閉包(トランスデューサの各終了状態から開始状態への経路が存在し、任意の回数繰り返してトランスデューサのネットワークをたどれるようにしたもの)を構成し、解釈結果を選別する手段として用いる。
事例登録手段22
As an example, a series of words “10 o'clock in front of the laboratory” and an interpretation result of “stopfrom = (busstop = (in front of the laboratory)), departtime = (hour = (8))” are stored in the database. If the occurrence probability in the database is 0.001, the weighted finite state transducer to which this case is applied is as follows.
========
0 1 epsilon stopfrom = (in front of laboratory)), departtime = (hour = (8)) -log (0.001)
1 2 In front of the laboratory epsilon
2 3 10 o'clock epsilon
3 4 epsilon
4
========
Interpretation result selection means 15
The rule type interpretation means 18A, specific-type word extraction means 18B, and case type interpretation means 18C can be used to give interpretation results for word sequences. Since it is impossible to determine whether the obtained interpretation result is valid, a series of words accepted by the combined weighted finite state transducer by combining the weighted finite state transducers configured in parallel with each other. The one with the smallest weight is selected and adopted as the interpretation result. In that case, to interpret the word sequence of arbitrary length and the sequence of words in the speech comprehension rule, the specific species word, or the sequence of words in the case of the example in the database, rule-type interpretation The weighted finite state transducers of the
Case registration means 22
事例型解釈手段18Cが用いるデータベースへ蓄積する事例として、単語の系列と対応する解釈結果の組を登録するための手段である。単語の系列と対応する解釈結果の組を書き出したファイルを入力として、その組を事例としてデータベースに登録する。入力とされるファイルには2種類のものがあり、1種類目は、人間とコンピュータシステムとの対話記録を基に、実際に人間が発話した単語の系列(書き起こし)と、その解釈結果をラベルづけしたものを書き出したファイル(事例ファイル)であり、2種類目は、事例選択手段25によって作成されたファイル(選択事例ファイル)である。
事例選択手段25
人間が書き起こしや意味内容のラベルづけなどをした、整備された対話記録を用いるのではなく、システムが記録しただけで整備されていない対話記録を用いて、事例型解釈手段18Cが用いるデータベース17への事例の登録を可能にするための方法である。事例信頼性情報付加手段24によって信頼性情報が付加された音声認識結果の単語の系列と対応する解釈結果の組から、信頼性評価値が一定値よりも高いものを選択して、データベース17に備えたファイル(選択事例ファイル)に書き出す。
事例信頼性情報付加手段24
事例信頼性情報付加手段24により、対話記録の音声認識結果の単語の系列に対し、発話単位信頼性評価値を計算し、対話記録の音声認識結果の単語の系列に発話単位信頼性情報を付加し、事例選択手段25に渡す。その際利用する信頼性評価法として、「特願2003−27926号で提案した音声認識信頼性評価方法」を適用することができる。
This is a means for registering a series of words and a corresponding interpretation result as examples stored in the database used by the case type interpretation means 18C. A file in which a set of interpretation results corresponding to a word sequence is written is input, and the set is registered in the database as an example. There are two types of files that are input. The first type is a sequence of words (transcriptions) actually spoken by humans based on the conversation records between humans and computer systems, and the interpretation results. The labeled file is written (case file), and the second type is a file created by the case selecting means 25 (selected case file).
Case selection means 25
The
Case reliability
The case reliability
[実施の処理の流れ]
まず、音声解釈装置10の動作を説明する。以下の例では説明の簡略化のため、バスの時刻表を扱う音声解釈システムの、「経由地」に関する情報を解釈する部分についてのみ触れる。他の内容について解釈する部分についても同様の処理が行われる。
音声解釈規則は以下のような書式でXML形式のファイル(A.xml:システム記述ファイル)に記録しておく。
<class name=“specify_via”type=“Action”>
<entry>観音坂 経由</entry>
<entry>経由地 は 船子</entry>
<class>
上記の例では、「経由地を指定する(specify_via)」というタイプの発話を定義している。
[Flow of implementation process]
First, the operation of the
The speech interpretation rules are recorded in an XML format file (A.xml: system description file) in the following format.
<class name = “specify_via” type = “Action”>
<entry> via Kannonzaka </ entry>
<entry> The waypoint is a ship </ entry>
<class>
In the above example, the type of utterance “specify_via” is defined.
特定種単語の定義は、以下のような書式で同じXMLファイル(A.xml)に記録しておく。
<class name=“via”type=“Key”>
<entry>観音坂</entry>
<entry>船子</entry>
<entry>広町橋</entry>
</class>
上記の例では、「経由地(via)」という種類の単語を定義している。
The definition of the specific type word is recorded in the same XML file (A.xml) in the following format.
<class name = “via” type = “Key”>
<entry> Kannonzaka </ entry>
<entry> Ferry </ entry>
<entry> Hiromachi Bridge </ entry>
</ class>
In the above example, a word of the type “via” is defined.
一方、事例型解釈手段18Cが参照するデータベースは、以下のような書式で単語の系列と対応する解釈結果を事例としてデータベース17に備えたシステム記述ファイルに記録されている。
観音坂 を 経由:specify_via via=(観音坂)
船子 を 通る:specify_via via=(広町橋)
上記の事例を含むファイルは、実際に人間が発話した単語の系列と対応する解釈結果の組をあらかじめデータを収集して、発話を書き起こし、対応する解釈結果のラベルを付けた形式の事例ファイルとして作成するか、人間とシステムとの対話記録を参照し、後に説明する特願2003−027926の音声認識信頼性評価方法を用いて、発話単位信頼性評価値を計算し、音声認識結果の発話単位信頼性評価値が付加された下記の書式のファイルを作成し、この中から信頼性評価値が一定の閾値より大きい(例えば0より大)ものを選択した選択事例ファイルとして作成する。
20021114-02-02_08,0.861485:船子 を 通る[CONCEPT]specify_via via=(船子)
20021114-02-02_21,-1.65177:1時 まで[CONCEPT]specify_time hour=(1)
上記のファイルの書式は、左から発話のID、発話単位信頼性評価値、音声認識結果の単語の系列、そして[CONCEPT]以下が音声認識結果の単語の系列に対応する音声解釈結果である。
On the other hand, the database referred to by the case type interpretation means 18C is recorded in the system description file provided in the
Via Kannonzaka: specify_via via = (Kannonzaka)
Go through Funako: specify_via via = (Hiromachi Bridge)
A file containing the above examples is a case file in a format in which a set of interpretation results corresponding to a word sequence actually spoken by a human is collected in advance, the utterances are transcribed, and the corresponding interpretation results are labeled. Or by referring to the dialogue record between the human and the system, and using the speech recognition reliability evaluation method of Japanese Patent Application No. 2003-027926 described later, the speech unit reliability evaluation value is calculated, and the speech recognition result speech A file having the following format to which the unit reliability evaluation value is added is created, and a selection example file in which a reliability evaluation value larger than a certain threshold (for example, greater than 0) is selected is created.
20021114-02-02_08,0.861485: [CONCEPT] specify_via via = (Ship)
20021114-02-02_21, -1.65177: Until 1 o'clock [CONCEPT] specify_time hour = (1)
The format of the above file is an utterance ID, an utterance unit reliability evaluation value, a word sequence of a speech recognition result, and a speech interpretation result corresponding to the word sequence of the speech recognition result below [CONCEPT].
そして、データベースに蓄積された事例を取り出し、以下のような書式でシステム記述ファイル(A.xml)に記録しておく。
<example>
<entry acttype=“specify_via”concept=“via=(観音坂)”prob=“0.01”>観音坂 を 経由</entry>
<entry acttype=“specify_via”concept=“via=(広町橋)”prob=“0.001”>船子 を 通る</entry>
</example>
上記の例では、観音坂という経由地を指定する「観音坂 を 経由」という単語の系列が、確率0.01でデータベース中の事例に含まれており、また、広町橋という経由地を指定する「広町橋 を 通る」という単語の系列が、確率0.001でデータベース中の事例に含まれていることを示している。
The cases stored in the database are taken out and recorded in the system description file (A.xml) in the following format.
<example>
<entry acttype = “specify_via” concept = “via = (Kannonzaka)” prob = “0.01”> Via Kannonzaka </ entry>
<entry acttype = “specify_via” concept = “via = (Hiromachibashi)” prob = “0.001”> Passing the boat </ entry>
</ example>
In the above example, the word sequence “Via Kannonzaka” is specified in the database with a probability of 0.01, which specifies the transit location called Kannonzaka, and the transit location called Hiromachi Bridge is also specified. This means that the word sequence “passing through Hiromachi Bridge” is included in the cases in the database with a probability of 0.001.
上記のような内容が記録されたシステム記述ファイル(A.xml)を処理して、規則型解釈手段18A、特定種単語抽出手段18B、事例型解釈手段18Cでそれぞれの重み付き有限状態トランスデューサを作成する。なお、規則型解釈手段18Aで定義した単語の系列や事例型解釈手段18Cで利用される事例の単語の系列に特定種単語が含まれる場合は、同じ種類の単語に置き換えても同じ規則が適用できるように変更を加える。なお、規則型解釈手段18Aで規則を適用する際の重みは+1.0、特定種単語抽出手段18Bで特定種単語(この例では「観音坂」「船子」「広町橋」)を抽出する際の重みは+2.0、特定種として定義されていない単語(特定種単語として定義されていないものすべて:この例では「えーと」「バス」「です」など)を受け付ける際の重みは+3.0、とした。そして、それらを並列に組み合わせた上、閉包とした重み付き有限状態トランスデューサの例を図2に示す。
The system description file (A.xml) in which the contents as described above are recorded is processed, and each weighted finite state transducer is created by the rule type interpretation means 18A, the specific seed word extraction means 18B, and the case type interpretation means 18C. To do. In addition, when a specific type word is included in the word series defined by the rule
図中で、初期状態は0、各状態を丸印で示してあり、丸印の中の数字が状態番号である。二重丸で示されている状態は終了状態を示す。また、状態遷移の矢印は、「入力シンボル、出力シンボル/重み」の書式で状態遷移時の入力シンボル、出力シンボル、重みの情報を表示している。入力シンボルと出力シンボルのepsilonは、入力シンボルもしくは出力シンボルがない状態遷移であることを示す。
このとき、この重み付き有限状態トランスデューサを用い、重みが最小となるような状態遷移系列を求めることで、音声解釈結果を得ることが可能となる。
In the figure, the initial state is 0, each state is indicated by a circle, and the number in the circle is the state number. A state indicated by a double circle indicates an end state. In addition, the state transition arrows display information on input symbols, output symbols, and weights at the time of state transition in the format of “input symbol, output symbol / weight”. The epsilon of the input symbol and the output symbol indicates a state transition in which there is no input symbol or output symbol.
At this time, by using this weighted finite state transducer and obtaining a state transition sequence that minimizes the weight, a speech interpretation result can be obtained.
上記の音声解釈規則および特定種単語の定義に基づいて、「(経由地)種に含まれる単語」経由」および「経由地は(「経由地」種に含まれる単語)」という単語の系列に対して解釈が可能となる。例として、「経由地 は 広町橋」という単語の系列に対する解釈結果はspecify_via via=(広町橋)(広町橋という経由地を指定している)のようになる。その際の状態遷移系列は、0->1->6-(「経由地」を入力)->7-(「は」を入力)->8-(「広町橋」を入力)->9->10(終了状態)で、重みは1となる。このとき、音声解釈装置10からの出力は、
1.0 specify_via via=(広町橋)
のようになり、この解釈の重みと、解釈結果の組として出力される。
Based on the above speech interpretation rules and the definition of a specific species word, the word sequence “via (word) included in (route) species” and “passage (word included in“ route ”species)” Interpretation is possible. As an example, the interpretation result for the word sequence “passage is Hiromachi Bridge” is as follows: specify_via via = (Hiromachi Bridge). The state transition sequence at that time is 0->1-> 6- (Enter "route")-> 7- (Enter "ha")-> 8- (Enter "Hiromachibashi")->9-> 10 (end state), weight is 1. At this time, the output from the
1.0 specify_via via = (Hiromachibashi)
And output as a set of interpretation weights and interpretation results.
また、「えーと 観音坂」のように、音声解釈規則には含まれていないが、特定種(経由地)の単語を含む単語の系列に対しては、via=(観音坂)(観音坂という経由地を発話をした)という解釈結果が得られる。その際の状態遷移系列は、0->1->11-(「えーと」を入力)->12->13->24->0->1->11-(「観音坂」を入力)->12->13(終了状態)で、重みは5となる。このとき、音声解釈装置10からの出力は、
5.0 via=(観音坂)
のようになる。
Also, like “Et Kannonzaka”, it is not included in the speech interpretation rules, but via = (Kannonzaka) (Kannonzaka) Interpretation results are obtained. The state transition sequence at that time is 0->1-> 11- (input "Eto")->12->13->24->0->1-> 11- (input "Kannonzaka") ->12-> 13 (end state), the weight is 5. At this time, the output from the
5.0 via = (Kannonzaka)
become that way.
さらに、「船子 を 通る バス です」という単語の系列が入力された場合は、「船子 を 通る」という単語の系列はデータベースの事例に含まれているため、事例型解釈手段18Cによって解釈され、「バス です」という特定種単語として定義されていない単語に対しては、特定種単語抽出手段18Bで特定種でない単語として扱われるため、specify_via via=(船子)という解釈結果が得られる。この際の状態遷移系列は、0->1->19-(「船子」を入力)->20-(「を」を入力)->21-(「通る」を入力)->22->23->24->0->1->11-(「バス」を入力)->12->13->24->0->1->11-(「です」を入力)->12->13(終了状態)で、重みは8となる(-log(0.001)=3)。このとき、音声解釈装置10からの出力は、
8.0 specify_via via=(船子)
のようになり、この解釈の重みと、解釈結果の組として出力される。
Furthermore, when the word sequence “passing through the boat” is input, the word sequence “passing through the boat” is included in the database examples, and is interpreted by the case type interpretation means 18C. Since the word that is not defined as the specific type word “is a bus” is treated as a non-specific type word by the specific type word extracting means 18B, an interpretation result of “specify_via via = (ship)” is obtained. In this case, the state transition sequence is 0->1-> 19- (enter "Ship")-> 20- (enter "O")-> 21- (enter "Pass")-> 22- >23->24->0->1-> 11- (enter "bus")->12->13->24->0->1-> 11- (enter "is")-> At 12-> 13 (end state), the weight is 8 (-log (0.001) = 3). At this time, the output from the
8.0 specify_via via = (Funako)
And output as a set of interpretation weights and interpretation results.
そして、以下のような音声認識結果が得られたとき、
観音坂(信頼性評価値+1.5)は(信頼性評価値-0.5)経由(信頼性評価値+1.0)
観音坂(信頼性評価値+1.5)が(信頼性評価値-1.0)経由(信頼性評価値+1.0)
認識結果の単語を棄却するときの重みを+3.0としたとき、信頼性情報付加手段14によって信頼性情報を付加(信頼性評価値の符号を反転させた値を重みとする)した重み付き有限状態トランデューサは図3のようになる。図3の音声認識結果の単語系列を表す重み付き有限状態トランスデューサの出力シンボルを、図2の音声解釈手段を表す重み付き有限状態トランスデューサの入力シンボルとして扱う形で、2つの重み付き有限状態トランスデューサを合成し、合成された重み付き有限状態トランスデューサ上で重みが最小となるような状態遷移系列を求めれば、最適な音声解釈結果を得ることができる。図2と図3の例では、図3側の状態遷移系列を0->1->2-(「観音坂」を入力、「観音坂」を出力)->3-(「は」を入力、「は」は棄却)->4-(「経由」を入力、「経由」を出力)->5(終了状態)とし、「観音坂 経由」という出力をして、図2側の状態遷移系列は0->1->2-(「観音坂」を入力)->3-(「経由」を入力)->4->5(終了状態)としたときが最も重みが小さくなり、その際の図3側での重みは0.5、図2側での重みは1となる。最終的に、
1.5 specify_via via=(観音坂)
という解釈結果が得られる。仮に、図3の単語の棄却をする枠組みがなかったとし、「観音坂 は 経由」という単語の系列を図3の重み付き有限状態トランスデューサの状態遷移に当てはめると、規則型解釈、事例型解釈によって解釈できないことから、
8.0 via=(観音坂)
となり、「経由地を指定する」という発話タイプであることを解釈できない。
And when the following speech recognition results are obtained,
Kannonzaka (reliability evaluation value +1.5) via (reliability evaluation value -0.5) (reliability evaluation value +1.0)
Kannonzaka (reliability evaluation value +1.5) via (reliability evaluation value -1.0) (reliability evaluation value +1.0)
When the weight when rejecting the word of the recognition result is +3.0, the reliability information is added by the reliability information adding means 14 (the value obtained by inverting the sign of the reliability evaluation value is used as the weight). The finite state transducer is as shown in FIG. Two weighted finite state transducers are treated in such a manner that the output symbol of the weighted finite state transducer representing the word sequence of the speech recognition result of FIG. 3 is treated as the input symbol of the weighted finite state transducer representing the speech interpreting means of FIG. By synthesizing and obtaining a state transition sequence that minimizes the weight on the synthesized weighted finite state transducer, an optimal speech interpretation result can be obtained. In the example of Fig. 2 and Fig. 3, the state transition sequence of Fig. 3 is 0->1-> 2- ("Kannonzaka" is input, "Kannonzaka" is output)->3-("Ha" is input , "Ha" is rejected)-> 4- (input "via", output "via")-> 5 (end state), output "via Kannonzaka", state transition on the side of Figure 2 The series has the smallest weight when 0->1-> 2- (input "Kannonzaka")-> 3- (input "via")->4-> 5 (end state) The weight on the side of FIG. 3 is 0.5, and the weight on the side of FIG. Finally,
1.5 specify_via via = (Kannonzaka)
The interpretation result is obtained. Suppose that there was no framework for rejecting the words in Fig. 3, and applying the sequence of words "Kannonzaka via" to the state transition of the weighted finite state transducer in Fig. 3, Because it cannot be interpreted,
8.0 via = (Kannonzaka)
Therefore, it cannot be interpreted that the utterance type is “designating a waypoint”.
以下に先願である特願2003−27926号で提案した音声認識信頼性評価方法を説明する。先の出願では音声対話システムに併設する音声認識信頼性評価方法及び装置を提案している。以下では可能な限り音声認識信頼性評価方法及び装置に絞って説明することにする。
図4は先に出願した音声対話システムに用いる音声認識信頼性評価方法を実行する場合の手順の一例を示す。尚、ここでは対話終了後に音声認識信頼性評価の処理を開始するものとして説明する。
The speech recognition reliability evaluation method proposed in Japanese Patent Application No. 2003-27926, which is a prior application, will be described below. In the previous application, a speech recognition reliability evaluation method and apparatus provided in the speech dialogue system has been proposed. The following description will focus on the speech recognition reliability evaluation method and apparatus as much as possible.
FIG. 4 shows an example of a procedure for executing the speech recognition reliability evaluation method used in the previously filed spoken dialogue system. Here, the description will be made assuming that the speech recognition reliability evaluation process is started after the end of the dialogue.
図4に示すステップSP1で対話情報記憶手段から対話情報を読み込む。
ステップSP2ではユーザが情報要求のために発話したと推定される単語の系列(P)を抽出する。
ステップSP3では推定した単語の系列(P)から解釈されるユーザの情報要求内容を(P)′と特定する。
ステップSP4ではステップSP2で抽出した単語の系列(P)に含まれる単語をそれぞれ(Q0)(Q1)(Q2)…(Qn)として特定する。
ステップSP5では単語の系列(P)に対応するユーザが情報要求のために実際に発話した単語の系列の正解を(R)と特定する。
ステップSP6では単語の系列の正解(R)から解釈されるユーザの情報要求内容の正解を(R)′と特定する。
ステップSP7では単語列(Qi)に対応するユーザが情報要求のために実際に発話した単語を(Si)と特定する。
In step SP1 shown in FIG. 4, dialogue information is read from the dialogue information storage means.
In step SP2, a sequence (P) of words estimated to be spoken by the user for requesting information is extracted.
In step SP3, the user's information request content interpreted from the estimated word sequence (P) is specified as (P) ′.
In step SP4, the words included in the word sequence (P) extracted in step SP2 are identified as (Q0) (Q1) (Q2).
In step SP5, the correct answer of the word sequence actually spoken by the user corresponding to the word sequence (P) for information request is specified as (R).
In step SP6, the correct answer of the information request content of the user interpreted from the correct answer (R) of the word series is specified as (R) ′.
In step SP7, the word actually spoken by the user corresponding to the word string (Qi) for the information request is specified as (Si).
図5に示すステップSP8ではユーザとシステムのやり取りの各時点において音声認識手段がユーザの音声を認識し、ユーザが発話したと推定される単語の系列(P)をその結果の候補として推定するために計算した指標に加え、ユーザとシステムとのやり取りが終了した時点で得られる指標を発話単位及び単語単位でそれぞれについて会話単位指標値及び単語単位指標値を計算する。
ステップSP9では計算された発話単位指標値及び単語単位指標値と、ユーザの発話をシステムが認識した単語の系列と、上記対話情報記録手段により記録されている実際に発話した単語の系列の正解とを比較して得られる発話単位及び単語単位での正しさを0と1の二値で示した指標との関連を求めることにより、発話単位及び単語単位での信頼性を評価するための尺度を作成する。
ステップSP10では、ステップSP2と同様に単語系列(P)を抽出する。ステップSP11では、ステップSP3と同様に単語系列(P)から解釈されるユーザの情報要求内容を(P)′と特定する。
In step SP8 shown in FIG. 5, the voice recognition means recognizes the user's voice at each point of time between the user and the system, and estimates a word sequence (P) that is estimated to be spoken by the user as a result candidate. In addition to the calculated index, the conversation unit index value and the word unit index value are calculated for the utterance unit and the word unit for the index obtained when the exchange between the user and the system ends.
In step SP9, the calculated utterance unit index value and the word unit index value, the word sequence in which the system recognizes the user's utterance, the correct answer of the actually uttered word sequence recorded by the dialog information recording means, A measure for evaluating the reliability of the utterance unit and the word unit is obtained by obtaining the relationship between the correctness in the utterance unit and the word unit obtained by comparing the two values and the index indicating the binary value of 0 and 1. create.
In step SP10, the word series (P) is extracted as in step SP2. In step SP11, as in step SP3, the user's information request content interpreted from the word sequence (P) is specified as (P) ′.
ステップSP12では、ステップSP4と同様に単語列(Q0)(Q1)(Q2)…(Qn)を特定する。
ステップSP13では、ステップSP8と同様に発話単位及び単語単位でそれぞれ指標値を計算する。
ステップSP14では、計算された発話単位指標値および単語単位指標値を、ステップSP9で作成した発話単位信頼性尺度および単語単位信頼性尺度に当てはめ、発話単位信頼性評価値および単語単位信頼性評価値を計算する。
In step SP12, the word string (Q0) (Q1) (Q2)... (Qn) is specified as in step SP4.
In step SP13, the index value is calculated for each utterance and each word as in step SP8.
In step SP14, the calculated utterance unit index value and word unit index value are applied to the utterance unit reliability scale and word unit reliability scale created in step SP9, and the utterance unit reliability evaluation value and word unit reliability evaluation value are calculated. Calculate
図6にコンピュータによって実現した音声対話システムと、この音声対話システムの音声認識信頼性の評価を行なう音声認識信頼性評価装置の実施例を示す。
コンピュータはよく知られているように、プログラムを解読し、実行するCPU31と、読出専用メモリROM32と、プログラム等を格納し、実行するためのRAM33と、入力ポート34、出力ポート35等によって構成される。尚、出力ポート35には拡声装置41が接続され、この拡声装置41でスピーカを駆動し、システムからの応答が音声で出力される場合を示す。
FIG. 6 shows an embodiment of a voice dialogue system realized by a computer and a voice recognition reliability evaluation apparatus for evaluating the voice recognition reliability of the voice dialogue system.
As is well known, the computer includes a
RAM33には情報要求入力手段33Aを構成するためのプログラムと、対話情報記録手段33Bを構成するプログラム、形式変換手段33Cを構成するプログラム、音声認識手段33Dを構成するプログラム、対話終了判定手段33Eを構成するプログラム、情報提供手段33Fを構成するプログラムが格納され、これらのプログラムとCPU31とによって音声対話システム100が構成される。
音声認識信頼性評価装置200は音声対話システム100の構成に加えて、RAM33に単語系列(P)の抽出手段33Gを構成するプログラムと、情報要求内容(P)′特定手段33Hを構成するためのプログラム、単語列Q0、Q1、Q2…抽出手段33Iを構成するプログラム、正解単語特定手段33Jを構成するプログラム、正解情報内容特定手段33Kを構成するプログラム、発話単語特定手段33Lを構成するプログラム、発話単位指標値計算手段及び単語単位指標値計算手段33Mを構成するプログラム、発話単位信頼性尺度作成手段及び単語単位信頼性尺度作成手段33Nを構成するプログラム、発話単位及び単語単位信頼性評価値計算手段33Pを構成するプログラムが格納され、これらのプログラムが音声対話システム100を構成するプログラムと共にCPU31により実行されて音声認識信頼性評価装置200が構成され音声認識信頼性評価方法が実行される。
The
In addition to the configuration of the speech dialogue system 100, the speech recognition reliability evaluation apparatus 200 is configured to configure a program that constitutes the word sequence (P) extraction means 33G in the
以下に各部の実施例を説明する。例として、音声対話によるバス時刻表案内システムを用いる。同システムでは、ユーザはシステムに「乗車するバス停」「降りるバス停」「バスの経由地」「時間」「指定するのは出発する時間/到着する時間のどちらか」「曜日」の6つの情報を伝え、システムは、該当するバスの発車時刻をユーザに伝える。
同システムにおける対話情報記録手段、指標値計算手段、信頼性尺度作成手段の詳細は以下のようになる。
Examples of each part will be described below. As an example, a bus timetable guidance system using voice dialogue is used. In this system, the user has six types of information: “bus stop to get on”, “bus stop to get off”, “bus stop”, “time”, “departure time / arrival time”, and “day of the week”. The system informs the user of the departure time of the corresponding bus.
Details of the dialogue information recording means, index value calculating means, and reliability measure creating means in the system are as follows.
対話情報記録手段
音声対話システムはユーザの情報要求を、属性と値の対として理解する。これをスロットと呼ぶ。システムは複数のスロットから成るデータ構造を用いて、ユーザの情報要求を保持し、対話を進める。このデータ構造を対話状態と呼ぶ。バス時刻表案内システムにおける対話状態は、以下の6つのスロットで構成される。
(STOP_FROM.value):「乗車するバス停」
(STOP_TO.value):「降りるバス停」
(VIA.value):「バスの経由地」
(TIME.value):「時間」
(TIME_TYPE.value):「指定するのは出発する時間/到着する時間のどちらか」(DAY.value):「曜日」
また、ユーザの発話をシステムが解釈した結果得られる、「スロット(S)に値(s)を埋める」などの、ユーザの発話に含まれる意味表現を、対話行為と呼ぶ。例えば、「○○バスセンターから※※学院大学まで」というユーザの発話に対する対話行為は、以下のように表現される。
(SET-STOP_FROM(○○バスセンター))(SET-STOP_TO(**学院大学))
システムはユーザとの対話の各時点における、ユーザの発話音声と、対話が終了した時点で、確定しているユーザの情報要求内容を、対話状態の形で対話記録として記録する。
Dialog information recording means The voice dialog system understands user information requests as attribute-value pairs. This is called a slot. The system uses a data structure consisting of a plurality of slots to hold user information requests and to proceed with the dialogue. This data structure is called a dialog state. The dialogue state in the bus timetable guidance system is composed of the following six slots.
(STOP_FROM.value): "Bus stop to get on"
(STOP_TO.value): "Get off the bus stop"
(VIA.value): "Bus stop"
(TIME.value): "Time"
(TIME_TYPE.value): “Specify either departure / arrival time” (DAY.value): “Day of the week”
A semantic expression included in the user's utterance, such as “fill value (s) in slot (S)”, obtained as a result of the system interpreting the user's utterance, is called a dialogue action. For example, the dialogue action for the user's utterance “From the bus center to ** Gakuin University” is expressed as follows.
(SET-STOP_FROM (XX Bus Center)) (SET-STOP_TO (** Gakuin University))
The system records the user's utterance voice at each point of dialogue with the user and the information request contents of the user who have been confirmed when the dialogue is completed as a dialogue record in the form of a dialogue state.
発話単位指標値計算手段
記録されたユーザの各発話音声に対し、対話記録時と同じ音声認識手段を用い、ユーザの発話音声を認識し、ユーザが発話した単語の系列を、最大5個まで推定し、各認識結果候補に対し、各認識結果候補の単語の系列と認識の過程で用いたスコアに基づいて、図7に示す発話単位での指標値U1〜U19を計算する。
発話単位信頼性尺度作成手段
発話単位指標値計算手段で計算された指標値に基づいて、ユーザの発話を認識した結果得られる単語の系列を(P)、対応する発話を人間が書き起こして得られる単語の系列の正解を(Q)として、(P)を解釈したときの対話行為が、(Q)を解釈したときの対話行為と一致する信頼性を、計算する尺度を作成する。文献[“Recognition confidence scoring and its speech understanding systems”,Timothy J.Hazen,Stephanie Seneff and Joseph Polefroni,Computer Speech and Language 2002 vol.16 pp.46-67]
Utterance unit index value calculation means For each user's utterance voice recorded, the same voice recognition means as that used during conversation recording is used to recognize the user's utterance voice and estimate a maximum of five sequences of words spoken by the user. Then, for each recognition result candidate, index values U1 to U19 in units of utterances shown in FIG. 7 are calculated based on the word sequence of each recognition result candidate and the score used in the recognition process.
Utterance unit reliability scale creation means Based on the index value calculated by the utterance unit index value calculation means, a sequence of words obtained as a result of recognizing the user's utterance (P), and a corresponding utterance is obtained by human transcription. A scale for calculating the reliability with which the dialogue action when (P) is interpreted coincides with the dialogue action when (Q) is interpreted, with the correct answer of the sequence of words as (Q). Literature [“Recognition confidence scoring and its speech understanding systems”, Timothy J. Hazen, Stephanie Seneff and Joseph Polefroni, Computer Speech and Language 2002 vol.16 pp.46-67]
発話単位指標値計算手段で算出された指標の列ベクトルf^、同次元の列ベクトルp^を用いて、(P)を解釈したときの対話行為が、(Q)を解釈したときの対話行為と一致する信頼性を、式1及び式2により、1次元の値Rを用いて評価する。
発話単位信頼性尺度作成手段では、発話音声認識結果に対する正解となる、対応する発話音声の書き起こしの存在する少量の記録を用いて、発話音声認識結果と、その発話認識結果を解釈して得られる対話行為が正しいかどうかの二値表現との関係から、式(1)―(4)を適用するためにに必要な、ベクトルp^の各要素の最適な値を求め、対応するt、μ(correct)σ2(correct)、μ(incorrect)、σ2(incorrect)を求める。P^は、Fisherの線形判別分析法に基づいて初期値を設定し、正解/不正解の分類誤りが最小になるように、各要素の値を山登り法に基づいて繰り返し更新して求める。 The utterance unit reliability scale creation means interprets the utterance speech recognition result and the utterance recognition result by using a small amount of records in which the transcript of the corresponding utterance speech exists as a correct answer to the utterance speech recognition result. The optimal value of each element of the vector p ^ necessary for applying the equations (1)-(4) is obtained from the relationship with the binary expression as to whether the dialogue action to be performed is correct, and the corresponding t, Find μ (correct) σ 2 (correct), μ (incorrect), and σ 2 (incorrect). P ^ is determined by setting an initial value based on Fisher's linear discriminant analysis method and repeatedly updating the value of each element based on the hill-climbing method so that the correct / incorrect classification error is minimized.
発話単位信頼性評価値計算手段
信頼性尺度を作成したときとは別の対話記録中の音声認識結果に対して計算された発話単位指標値を、発話単位信頼性尺度(式2)に当てはめ、発話単位信頼性評価値を計算する。
単語単位指標値計算手段
発話単位指標値計算手段で用いたものと同じユーザの発話音声認識結果を用い、各認識結果候補の単語の系列と認識の過程で用いたスコアに基づいて、各認識結果に含まれる単語に対して、図8に示す単語単位での指標値W1〜W13を計算する。図8の“utterance score”に関しては、発話単位信頼性尺度作成手段で作成された尺度を用いて計算する。
Utterance unit reliability evaluation value calculation means Apply the utterance unit index value calculated for the speech recognition result in the conversation recording different from the time when creating the reliability scale to the utterance unit reliability scale (Equation 2), The utterance unit reliability evaluation value is calculated.
Word unit index value calculation means Using the same user utterance speech recognition results as those used in the utterance unit index value calculation means, each recognition result based on the word sequence of each recognition result candidate and the score used in the recognition process Index values W1 to W13 are calculated in units of words shown in FIG. The “utterance score” in FIG. 8 is calculated using the scale created by the utterance unit reliability scale creating means.
単語単位信頼性尺度作成手段
ユーザの発話を認識した結果得られる単語を(R)、対応する発話を人間が書き起こして得られる単語の正解を(S)として、発話単位信頼性尺度作成手段と同様の処理を施すことにより、単語単位での信頼性尺度を作成することができる。
単語単位信頼性評価値計算手段
信頼性尺度を作成したときとは別の対話記録中の音声認識結果に対して計算された単語単位指標値を、単語単位信頼性尺度(式2)に当てはめ、単語単位信頼性評価値を計算する。
Word unit reliability scale creation means , where (R) is a word obtained as a result of recognizing a user's utterance, and (S) is a word answer obtained by human transcription of the corresponding utterance. By performing the same processing, a reliability measure in units of words can be created.
Word unit reliability evaluation value calculation means Apply the word unit index value calculated for the speech recognition result in the conversation recording different from the time when creating the reliability scale to the word unit reliability scale (Formula 2), The word unit reliability evaluation value is calculated.
音声対話システムを用いてデータ収集を行なう。対話例を以下に示す。対話例中、Sはシステムの発話を、Uはユーザの発話をシステムが認識した結果得られた単語の系列を示す。また、括弧内は実際のユーザの発話を書き起こしたものである。
U:○○バスセンター8時は※※学院大学へ1時
(○○バスセンター発、※※学院大行き)
S:はい
U:11時台出発のバス午後7時の3時
(11台出発のバスを教えてください)
S:はい
S:出発地はどちらですか?
U:○○バスセンターです
(○○バスセンターです)
S:はい
S:どちらのバス停までですか?
U:※※学院大学で
(※※学院大学です)
S:はい
S:経由地を指定しますか?
U:しません
(しません)
S:はい
S:平日、土曜、日曜の、どの時刻表ですか?
U:休日です
(休日です)
S:はい○○バスセンターから※※学院大学まで経由地指定なし休日19時までに到着の時刻表ということでよろしいでしょうか?
U:12時台に出発の時刻表です
(11時台に出発の時刻表です)
S:12時台に出発デスネ?
U:11時発車で
(11時発です)
S:11時台に出発デスネ?
U:はい
(はい)
S:○○バスセンターから※※学院大学まで経由地指定なし休日11時台に出発の時刻表ということでよろしいでしょうか?
U:はい
(はい)
S:かしこまりました○○バスセンター発○○36系統△△経由※※学院大学方面※※学院大学行き休日11時台のバスの発車時刻は5分55分です。
Data collection is performed using a spoken dialogue system. An example of dialogue is shown below. In the dialogue example, S indicates an utterance of the system, and U indicates a sequence of words obtained as a result of the system recognizing the user's utterance. The parentheses are the transcripts of actual user utterances.
U: XX bus center at 8:00 1:00 to Gakuin University
(Depart from XX Bus Center, bound for Gakuin University)
S: Yes U: 3pm at 7pm bus leaving 11am
(Please tell me the departure bus for 11 cars)
S: Yes S: Where is your departure?
U: XX bus center
(This is the ○○ Bus Center)
S: Yes S: Where is the bus stop?
U: ** At Gakuin University
(※※ Gakuin University)
S: Yes S: Do you want to specify a stopover?
U: Not (Not)
S: Yes S: Which timetable is weekday, Saturday, Sunday?
U: Holiday (holiday)
S: Yes From ○○ Bus Center ** No way to go to Gakuin University. Is there a timetable for arrival by 19:00 on holidays?
U: Timetable for departure at 12:00
(Departure timetable at 11 o'clock)
S: Desune leaving at 12:00?
U: Depart at 11:00
(It's 11 o'clock)
S: Desnay leaving at 11 o'clock?
U: Yes
(Yes)
S: From XX bus center to ** Gakuin University.
U: Yes
(Yes)
S: From the bus center ○○ Bus Center ○○ 36 Routes △△ ※※ To Gakuin University ※※ The departure time for the 11:00 bus to Gakuin University is 5 minutes 55 minutes.
対話情報記録手段23は、対話の各時点におけるユーザの発話音声及び、対話終了時に確定したユーザの情報要求内容(以下に例示)を記録する。
(TIME_TYPE.DEPARTURE)(TIME.11)(DAY.休日)
(STOP_TO.※※学院大学)(VIA.ARBITRARY)(STOP_FROM.○○バスセンター)
次に、対話の各時点において記録したユーザの発話音声を、データを収集したときと同じ音声認識手段(図1に示す音声認識手段13に相当する)を用いて認識し、最大5個の認識結果候補及び、音声認識スコアファイル1に出力させる。ファイル1の内容は以下のようになる(以下は最尤候補のみを抜粋)。
The dialogue information recording means 23 records the user's utterance voice at each point in the dialogue and the user's information request content (explained below) determined at the end of the dialogue.
(TIME_TYPE.DEPARTURE) (TIME.11) (DAY. Holiday)
(STOP_TO. ** Gakuin University) (VIA.ARBITRARY) (STOP_FROM.XX Bus Center)
Next, the user's utterance voice recorded at each time point of the dialogue is recognized using the same voice recognition means (corresponding to the voice recognition means 13 shown in FIG. 1) when data is collected, and a maximum of five recognitions are recognized. The result candidate and the speech
sentencel:11時発車で
wseq1:<s>11時発車で</s>
phseq1:silB| j u: i ch i j i | h a q sh a | d e | silE
score1:−6708.832031
===word alignment begin===
id:from to n_score CM−meam CM−var CM−min CM−max
applied HMMs (logical [physical ]or[pseudo])
――――――――――――――――――――――――――――――――――
(0:0 52 −22.2466−1.0495 0.7000−2.8045 0.0000 silB)
(1:53 166−26.9416−2.204 1.8629−9.2010 0.0000 j+u:[j+u] j−u:+i[y−u:+i] u:−i+ch[u−i+ch] i−ch+i ch−i+j i−j+i j−i+h[v−i+h])
(2:167 232−27.1568−2.9200 1.8325−7.3065 0.0000 i−h+a h−a+q a−q+sh q−sh+a sh−a+d[y−a+d])
(3:233 250 −27.1151−2.9540 2.4125−8.7062 −0.4162 a−d+e d−e)
(4:251 254 −28.4927−6.0016 1.6088−8.5824 −4.3282 silE)
re−conputed AM score:−6645.894531
(log−likelihood−ratio:−576.595320 (normalized to−2.261158))
Acoustic−score :−6645.894531(normalized to−26.062331)
===Word alignment end===
ファイル1の内容で、
re−computed AM scoreを単語数で除算したものが、図7の指標U6に相当する。
sentencel: at 11 o'clock
wseq1: </ s> at <s> 11:00 departure
phseq1: silB | ju: i ch iji | haq sh a | de | silE
score1: −6708.832031
=== word alignment begin ===
id: from to n_score CM−meam CM−var CM−min CM−max
applied HMMs (logical [physical] or [pseudo])
――――――――――――――――――――――――――――――――――
(0: 0 52 −22.2466−1.0495 0.7000−2.8045 0.0000 silB)
(1:53 166−26.9416−2.204 1.8629−9.2010 0.0000 j + u: [j + u] j−u: + i [y−u: + i] u: −i + ch [u−i + ch] i−ch + i ch−i + j i−j + i j− i + h [v-i + h])
(2: 167 232-27.1568-2.9200 1.8325-7.3065 0.0000 i−h + a h−a + q a−q + sh q−sh + a sh−a + d [y−a + d])
(3: 233 250 −27.1151−2.9540 2.4125−8.7062 −0.4162 a−d + e d−e)
(4: 251 254 -28.4927-6.0016 1.6088-8.5824 -4.3282 silE)
re-conputed AM score: −6645.894531
(log−likelihood−ratio: −576.595320 (normalized to−2.261158))
Acoustic-score: −6645.894531 (normalized to−26.062331)
=== Word alignment end ===
In the contents of
A value obtained by dividing the re-computed AM score by the number of words corresponds to the index U6 in FIG.
各単語のtoとfromの差が、図8の指標W7に相当する。
各単語のn−scoreが、図8の指標W12に相当する。
各単語のCM−meanが、図8の指標W5に相当する。
各単語のCM−varの平行根が、図8の指標W4に相当する。
各単語のCM−minが、図8の指標W3に相当する。
また、認識結果候補の数が、図8の指標W9に相当する。
そして、ファイル1に出力された認識結果候補から、図7の指標U10、U12と図8の指標U10、U12と図8の指標W11を得るために必要な、認識結果候補での単語出現頻度を計算する。以下に示すように、認識結果候補間で一致する単語の位置を合わせをして、認識結果候補中のある単語が、他の認識結果で同じ場所に現れる頻度を計算する。以下の例では、「発車」という単語の出現頻度は100%、「1時」という単語の出現頻度は60%である。
The difference between to and from of each word corresponds to the index W7 in FIG.
The n-score of each word corresponds to the index W12 in FIG.
CM-mean of each word corresponds to the index W5 in FIG.
The parallel root of CM-var of each word corresponds to the index W4 in FIG.
CM-min of each word corresponds to the index W3 in FIG.
Further, the number of recognition result candidates corresponds to the index W9 in FIG.
Then, from the recognition result candidates output to the
最尤候補:11時 発車 で
第2候補:10時1時 発車 で
第3候補:15時1時 発車 で
第4候補:14時1時 発車 で
第5候補:12時 で 発車 まで
また、システムが単語の系列を構文解析するために用いる語彙定義及び文節定義(以下に抜粋)を用いて、
(1時 いちじ 時間 nil 1)
(11時 じゅーいちじ 時間 nil 11)
(12時 じゅーにじ 時間 nil 12)
(14時 じゅーよじ 時間 nil 14)
(15時 じゅーごじ 時間 nil 15)
(で で 助詞デ * *)
(まで まで 助詞マデ :made *)
(発車 発車 普通名詞_出発:departure)
(普通名詞_出発文節
(普通名詞_出発(opt(or助詞ハ 提示する語 助詞デ))))
(時間文節
(時間(opt 普通名詞_台))
(opt(or
助詞ノ 助詞デ 助詞ニ (助詞マデ(opt 助詞ニ))
提示する語 終助詞の間投詞的用法))))
各認識結果候補を構文解析した結果(以下に抜粋)から正しく構文解析できなかった単語の系列(未知文節と呼ぶ)を探し、図7の指標U19及び図8の指標W13を計算する。
Maximum likelihood candidate: 11:00 departure, 2nd candidate: 10: 1 departure, 3rd candidate: 15: 1 departure, 4th candidate: 14: 1 departure, 5th candidate: 12:00 departure until departure Using vocabulary definitions and phrase definitions (excerpts below) used to parse word sequences,
(1
(11:00 Juichiji time nil 11)
(12 o'clock Juniji time nil 12)
(14:00 Jyuyoji time nil 14)
(15 o'clock jugoji time nil 15)
(De in particle de * *)
(Until particle made: made *)
(Departure Departure)
(Common noun_starting phrase
(Common noun_departure (opt (or particle c)
(Time clause
(Time (opt common noun _ table))
(opt (or
Particle no particle particle particle particle (particle particle (opt particle particle))
Presented word final particle interjective usage))))
A series of words (referred to as unknown phrases) that cannot be correctly parsed is searched from the result of parsing each recognition result candidate (excerpted below), and index U19 in FIG. 7 and index W13 in FIG. 8 are calculated.
(11時)時間文節|(発車で)普通名詞_出発文節
(10時)時間文節|(1時)時間文節|(発車で) 普通名詞_出発文節
(15時)時間文節|(1時)時間文節|(発車で) 普通名詞_出発文節
(14時)時間文節|(1時)時間文節|(発車で) 普通名詞_出発文節
(12時で)時間文節|(発車) 普通名詞_出発文節|(まで)未知文節
そして、対話中の各ユーザ発話に対する各認識結果候補システムが解釈した結果得られる対話行為(以下に抜粋)を求め、図7の指標U18を、さらに、対話終了時に確定したユーザの情報要求内容を比較し、図7のU16、U17を計算する。
(11 o'clock) time clause | (by departure) common noun _ departure clause
(10 o'clock) time clause | (1 o'clock) time clause | (by departure) common noun _ departure clause
(15 o'clock) time clause | (1 o'clock) time clause | (by departure) common noun _ departure clause
(14:00) Time clause | (1) Time clause | (On departure) Common noun _ Departure clause
(At 12 o'clock) time clause | (departure) common noun_starting clause | (until) unknown clause And the dialogue action (excerpt below) obtained as a result of interpretation by each recognition result candidate system for each user utterance during dialogue Then, the index U18 in FIG. 7 is compared with the information request contents of the user determined at the end of the dialogue, and U16 and U17 in FIG. 7 are calculated.
(SET−TIME(11))(SET_TYPE(DEPARTURE))
(SET−TIME(10))(SET_TYPE(DEPARTURE))
(SET−TIME(15))(SET_TYPE(DEPARTURE))
(SET−TIME(14))(SET_TYPE(DEPARTURE))
(SET−TIME(12))(SET_TYPE(DEPARTURE))
また、各ユーザ発話を人間が書き起こした単語の系列と、各認識結果候補の各単語一致していいるかどうかが、書き起こした単語の系列から得られる対話行為と、認識結果候補から得られる対話行為がすべて一致しているかどうかを比較して、その結果を0と1の二値で表現する。
(SET−TIME (11)) (SET_TYPE (DEPARTURE))
(SET−TIME (10)) (SET_TYPE (DEPARTURE))
(SET−TIME (15)) (SET_TYPE (DEPARTURE))
(SET−TIME (14)) (SET_TYPE (DEPARTURE))
(SET−TIME (12)) (SET_TYPE (DEPARTURE))
In addition, a dialogue sequence obtained from a sequence of transcribed words and a dialogue obtained from a recognition result candidate indicate whether a sequence of words transcribed by humans and each word of each recognition result candidate match. Compare whether all actions match, and express the result as binary values of 0 and 1.
書き起こした単語の系列及びそれらから得られる対話行為
11時発です(*「発」は認識語彙に含まれていない)
(SET−TIME(11))(SET−TIME_TYPE(DEPARTURE))
以上から得た指標値をまとめ、発話単位の指標をファイル2に、単語単位の指標をファイル3に、それぞれ書き出す。図8の指標W11はまだ計算できないため、記号で表現してある。
ファイル2の内容(抜粋)
ID correct U6 U10 U12 U16 U17 U18 U19
20021125−02−04_10 1 −26.062331 84 76.5517241379311 0.5 0.5 0.2 0
ファイル3の内容(抜粋)
ID correct W3 W4 W5 W7 W9 W10 W11 W12 W13
11時1 −9.2010 1.8629 −2.2024 113 0.04 5 [UTTERANCE_SCORE]
−2.69416 0
発車 0 −7.3065 1.8325 −2.9200 65 1 5 [UTTERANCE_SCORE]−27.1568
0
で 0 −8.7062 2.4125 −2.9540 17 1 5 [UTTERANCE_SCORE]−27.1151
0
複数の対話記録のユーザ発話に対して以上の処理を行ない、発話単位の指標をまとめたファイル2を用いて、発話単位信頼性尺度を作成する。作成された信頼性尺度の各パラメータを以下に示す。各指標名に対応する値が、式1のベクトルpの各要素であり、CORRECT_GAUSSIAN−INCPRRECT_GAUSSIANに対応する値が、左からそれぞれ平均μ、分散σ2、事後確率Pである。
A series of transcribed words and dialogue actions obtained from them
11 o'clock departure (* "departure" is not included in the recognition vocabulary)
(SET−TIME (11)) (SET−TIME_TYPE (DEPARTURE))
The index values obtained from the above are summarized, and the utterance unit index is written in the
Contents of file 2 (excerpt)
ID correct U6 U10 U12 U16 U17 U18 U19
20021125−02−04_10 1 −26.062331 84 76.5517241379311 0.5 0.5 0.2 0
Contents of file 3 (excerpt)
ID correct W3 W4 W5 W7 W9 W10 W11 W12 W13
11
−2.69416 0
0
0 −8.7062 2.4125 −2.9540 17 1 5 [UTTERANCE_SCORE] −27.1151
0
The above processing is performed on the user utterances of a plurality of dialogue records, and the utterance unit reliability scale is created using the
top_choice_average_acoustic_score 0.4071058
top_choice_average_nbest_purity 0.0590583
average_nbest_purity 0.0049878
top_choice_average_consistent_concept_rate 2.2632635
top_choice_inconsistent_concept_rate −8.8873672
top_choice_average_concept_frepuency 6.3129411
top_choice_unparsed_bunsetsu_rate 0.0453356
CORRECT_GAUSSIAN: −25.7632580 1.4265214 0.47988507
INCORRECT_GAUSSIAN:−30.7077694 4.5412450 0.52011490
発話単位の信頼性評価値は、上記のパラメータを持つ尺度に対し、発話単位指標値を当てはめて式2の計算をすることで得られる。ファイル3の記号[UTTERANCE_SCORE]を、対応する発話の発話単位信頼性評価値を計算し、その値に置き換える。
top_choice_average_acoustic_score 0.4071058
top_choice_average_nbest_purity 0.0590583
average_nbest_purity 0.0049878
top_choice_average_consistent_concept_rate 2.2632635
top_choice_inconsistent_concept_rate −8.8873672
top_choice_average_concept_frepuency 6.3129411
top_choice_unparsed_bunsetsu_rate 0.0453356
CORRECT_GAUSSIAN: −25.7632580 1.4265214 0.47988507
INCORRECT_GAUSSIAN: −30.7077694 4.5412450 0.52011490
The reliability evaluation value of the utterance unit is obtained by calculating
更新されたファイル3の内容(抜粋)
11時1−9.2010 1.8629−2.2024 113 0.04 5−2.07607612356411−26.9416 0
発車 0−7.3065 1.8325−2.9540 17 1 5 −2.07607613256411−27.1151 0
で 0−8.7062 2.4125−2.9540 17 1 5 −2.07607613256411−27.1151 0
更新されたファイル3を用いて、単語単位信頼性尺度を作成された信頼性尺度のパラメータを以下に示す。
minimum_acoustic_score 0.1656796
acoustic_score_standard_deviation −0.0581996
mean_difference_from_maximum_score 2.0266259
number_of_acoustic_observations 0.0187305
square_nbest_purity 1.6731033
number_of_nbest −0.1339422
utterance_score 0.1814701
noumalized_score −0.1636039
unparsed_bunsetsu_violation −0.5617342
CORRECT_GAUSSIAN: 1.3205144 2.4545729 0.58425194
INCORRECT_GAUSSIAN:−3.6866648 4.1660976 0.41574803
単語単位の信頼性評価値は、上記のパラメータを持つ尺度に対し、単語単位指標値を当てはめて式2の計算をすることで得られる。
Updated
11 o'clock 1 -9.2010 1.8629 -2.2024 113 0.04 5 -2.07607612356411 -26.9416 0
0−8.7062 2.4125−2.9540 17 1 5 −2.07607613256411−27.1151 0
The parameters of the reliability measure for which the word unit reliability measure is created using the updated
minimum_acoustic_score 0.1656796
acoustic_score_standard_deviation −0.0581996
mean_difference_from_maximum_score 2.0266259
number_of_acoustic_observations 0.0187305
square_nbest_purity 1.6731033
number_of_nbest −0.1339422
utterance_score 0.1814701
noumalized_score −0.1636039
unparsed_bunsetsu_violation −0.5617342
CORRECT_GAUSSIAN: 1.3205144 2.4545729 0.58425194
INCORRECT_GAUSSIAN: −3.6866648 4.1660976 0.41574803
The word unit reliability evaluation value is obtained by calculating the
ここで、信頼性を評価したい、別の対話記録中の発話について、発話単位指標値をファイル4に、単語単位指標値をファイル5に、それぞれ書き出す。
ファイル4の内容(抜粋)
20021127-01-03_06-24.188667 100 90 1 0 0.157894736842105 0
ファイル5の内容(抜粋)
○○○○駅 -6.5979 1.2797-1.4625 123 1 4[UTTERANCE_SCORE] -24.1581 0
出発 1-6.3325 1.4448-1.9726 67 1 4[UTTERANCE_SCORE] -25.0312 0
ファイル4の発話単位指標値と、発話単位信頼性尺度を用いて、発話単位信頼性評価値を計算する。
20021127-01-03_06 1.84255589061485
また、この発話単位信頼性評価値でファイル5の記号[UTTERANCE_SCORE]を置き換え、更新されたファイル5の内容(抜粋)
○○○○駅 -6.5979 1.2797-1.4625 123 1 4 1.84255589061485-24.1581 0
出発 1-6.3325 1.4448-1.9726 67 1 4 1.84255589061485-25.0312 0
更新されたファイル5の発話単位信頼性評価値と、単語単位信頼性尺度を用いて、単語単位信頼性評価値を計算する。
○○○○駅 2.24738419391751
出発 1.19691584999685
以上説明した音声認識評価方法によれば発話に対する評価値の信頼性が高い。従って例えば音声解読装置或は対話システム等に適用することにより、発話に対する理解度が向上し、人との対話を円滑に実行できることとなる。
Here, the utterance unit index value is written in the
Contents of file 4 (excerpt)
20021127-01-03_06-24.188667 100 90 1 0 0.157894736842105 0
Contents of file 5 (excerpt)
○○○○ Station -6.5979 1.2797-1.4625 123 1 4 [UTTERANCE_SCORE] -24.1581 0
Departure 1-6.3325 1.4448-1.9726 67 1 4 [UTTERANCE_SCORE] -25.0312 0
The utterance unit reliability evaluation value is calculated using the utterance unit index value of the
20021127-01-03_06 1.84255589061485
In addition, the symbol [UTTERANCE_SCORE] of the
○○○○ Station -6.5979 1.2797-1.4625 123 1 4 1.84255589061485-24.1581 0
Departure 1-6.3325 1.4448-1.9726 67 1 4 1.8425558906 1485-25.0312 0
The word unit reliability evaluation value is calculated using the updated utterance unit reliability evaluation value of the
○○○○ Station 2.24738419391751
Departure 1.19691584999685
According to the speech recognition evaluation method described above, the reliability of the evaluation value for speech is high. Therefore, for example, by applying it to a speech decoding device or a dialogue system, the degree of understanding of utterances can be improved, and dialogue with people can be executed smoothly.
以上説明したこの発明による音声解釈方法及び装置はコンピュータが解読可能な符号列で記述された音声解釈プログラムをコンピュータに備えられているCPUに解読させ、実行させることにより実現される。音声解釈プログラムはコンピュータが読み取り可能な記録媒体に記録されてコンピュータにインストールされて実行されるか、又は通信回線を通じてコンピュータにインストールされる場合もある。 The speech interpretation method and apparatus according to the present invention described above is realized by causing a CPU provided in a computer to decode and execute a speech interpretation program described by a computer-readable code string. The speech interpretation program may be recorded on a computer-readable recording medium and installed in the computer for execution, or may be installed in the computer through a communication line.
この発明による音声解釈方法及び装置は例えば音声対話システム、自動案内システム等に活用することができる。 The speech interpretation method and apparatus according to the present invention can be used in, for example, a speech dialogue system, an automatic guidance system, and the like.
10 音声解釈装置
11 入力音声
12 音声入力手段
13 音声認識手段
14 信頼性情報付加手段
15 解釈結果選別手段
16 音声解釈結果
17 データベース
18 有限状態トランスデューサ生成部
18A 規則型解釈手段
18B 特性種単語抽出手段
18C 事例型解釈手段
21 事例ファイル
22 事例登録手段
23 対話情報記録手段
24 事例信頼性情報付加手段
25 事例選択手段
DESCRIPTION OF
Claims (9)
システムに音声情報を入力する音声入力処理と、音声を単語の系列として認識する音声認識処理と、認識した各単語に対してその認識の信頼性を逐次評価する音声認識信頼性評価処理と、認識した単語の系列と各単語の認識の信頼性を基に入力された音声情報を解釈する音声解釈処理とを実行させる音声解釈システムの音声解釈方法であって、
上記音声入力処理で得られた音声情報(A)を、音声認識処理によって単語の系列(B)として認識し、この単語の系列に含まれる単語(B0),(B1),…,(Bn)のそれぞれに対して音声認識信頼性評価処理によって音声認識の信頼性評価値(C0),(C1),…,(Cn)を計算し、単語(B0),…,(Bn)と、音声認識の信頼性評価値(C0),(C1),…,(Cn)から入力された音声(A)に対する音声解釈結果(D)を特定することを特徴とする音声解釈方法。 On the computer,
Speech input processing for inputting speech information to the system, speech recognition processing for recognizing speech as a sequence of words, speech recognition reliability evaluation processing for sequentially evaluating the recognition reliability for each recognized word, and recognition A speech interpretation method of a speech interpretation system that executes speech interpretation processing for interpreting speech information input based on a series of words and reliability of recognition of each word,
The voice information (A) obtained by the voice input process is recognized as a word series (B) by the voice recognition process, and the words (B0), (B1),..., (Bn) included in this word series. , (Cn) is calculated by the speech recognition reliability evaluation process for each of the words, and the words (B0),. A speech interpretation method characterized by identifying speech interpretation results (D) for speech (A) input from reliability evaluation values (C0), (C1),.
登録された特定の単語の系列(E0),(E1),…,(Ei)を含む単語の系列が入力されたとき、それと対応する解釈結果の系列(F0),(F1),…,(Fj)を出力する規則型解釈処理と、
ある特定種類の単語(G)を含む単語の系列が入力されたとき、上記特定種類の単語(G)を出力する特定種単語抽出処理と、
データベース内に事例として蓄積されている単語の系列(H0),(H1),…,(Hk)と対応する解釈結果の系列(I0),(I1),…,(Ii)の組があり、上記単語の系列(H0),…,(Hk)を含む単語の系列が入力されたとき、上記解釈結果の系列(I0),(I1),…,(Ii)を出力する事例型解釈処理とに基づき、上記規則型解釈処理、特定種単語抽出処理、事例型解釈処理とを組み合わせた有限状態トランスデューサを用いた解釈結果選別処理とを実行して最善の音声解釈結果(D)を特定する音声解釈方法。 The speech interpretation method according to claim 1,
When a sequence of words including a registered sequence of specific words (E0), (E1),..., (Ei) is input, a sequence of interpretation results (F0), (F1),. Fj) to output a regular interpretation process;
A specific word extraction process for outputting the specific type of word (G) when a series of words including a specific type of word (G) is input;
There are pairs of word sequences (H0), (H1),..., (Hk) stored as examples in the database and corresponding interpretation result sequences (I0), (I1),. A case type interpretation process for outputting a series (I0), (I1),..., (Ii) of the interpretation result when a series of words including the word series (H0),. The speech that identifies the best speech interpretation result (D) by executing interpretation result selection processing using a finite state transducer that combines the above-mentioned regular type interpretation processing, specific type word extraction processing, and case type interpretation processing based on Interpretation method.
上記データベースに蓄積する事例として音声認識信頼性評価値(Mi)がある値よりも大きい単語系列(Ji),(Li)の組を登録し、この登録された単語系列(Ji),(Li)を上記事例型解釈処理で事例として利用することを特徴とする音声解釈方法。 The speech interpretation method according to claim 2,
As a case of accumulating in the database, a set of word sequences (Ji), (Li) having a speech recognition reliability evaluation value (Mi) larger than a certain value is registered, and the registered word sequences (Ji), (Li) Is used as a case in the case type interpretation process described above.
上記事例型解釈処理で用いる音声認識信頼性評価値(Mi)は、
上記対話情報記録手段に記録した対話情報から実際に発話したと推定される単語の系列(P)を抽出し、
この抽出した単語の系列(P)から解釈される上記対話情報の内容を(P)′に特定し、
上記単語の系列(P)に含まれる単語をそれぞれ(Q0),(Q1),(Q2),…,(Qn)として抽出し、
上記単語の系列(P)に対応する実際に発話した単語の系列の正解を(R)と特定し、
この単語の系列の正解(R)から解釈される上記対話情報の内容の正解を(R)′と特定し、
上記単語列(Qi)に対応する上記対話情報の実際に発話した単語を(Si)と特定し、
上記抽出された単語の系列(P)をその結果の候補として推定するために計算した指標に加え、上記対話情報記録手段に記録された対話情報で得られる指標を、発話単位及び単語単位でそれぞれについて発話単位指標値及び単語単位指標値を計算し、計算された発話単位指標値及び単語単位指標値と、上記対話情報記録手段から読み出された対話情報をシステムが認識した単語の系列と、上記対話情報記録手段により記録されている実際に発話した単語の系列(P)の正解(R)とを比較して得られる発話単位及び単語単位での正しさを0と1の二値で示した指標との関連を求めることにより、発話単位及び単語単位での信頼性を評価するための信頼性尺度を作成し、作成された信頼性尺度によって、その信頼性を評価すべき音声認識結果の指標値を計算し、信頼性尺度の評価式に当てはめて求めた信頼性評価値であることを特徴とする音声解釈方法。 The speech interpretation method according to claim 3,
The speech recognition reliability evaluation value (Mi) used in the case type interpretation process is
Extracting a sequence (P) of words estimated to be actually spoken from the dialogue information recorded in the dialogue information recording means,
The content of the dialogue information interpreted from the extracted word sequence (P) is specified as (P) ′,
Extract the words included in the word series (P) as (Q0), (Q1), (Q2), ..., (Qn),
The correct answer of the word sequence actually spoken corresponding to the word sequence (P) is identified as (R),
The correct answer of the content of the dialogue information interpreted from the correct answer (R) of the word sequence is specified as (R) ′,
The word actually spoken in the dialogue information corresponding to the word string (Qi) is identified as (Si),
In addition to the index calculated to estimate the extracted word sequence (P) as a candidate for the result, the index obtained from the dialog information recorded in the dialog information recording means is expressed in utterance units and word units, respectively. Utterance unit index value and word unit index value for the calculated utterance unit index value and word unit index value, a series of words that the system has recognized the dialogue information read from the dialogue information recording means, The utterance unit obtained by comparing the correct answer (R) of the actually spoken word sequence (P) recorded by the dialog information recording means and the correctness in word units are shown as binary values of 0 and 1. The reliability measure for evaluating the reliability of the utterance unit and the word unit is created by obtaining the relationship with the index, and the reliability of the speech recognition result whose reliability is to be evaluated by the created reliability measure. Audio interpretation, characterized in that the target value is calculated, a reliability evaluation value obtained by applying the evaluation formula confidence measures.
上記音声入力手段から入力された音声(A)を、音声認識手段によって単語の系列(B)として認識し、この単語の系列に含まれる単語(B0),(B1),…,(Bn)のそれぞれに対して音声認識信頼性評価手段によって音声認識の信頼性評価値(C0),(C1),…,(Cn)を計算し、単語(B0),…,(Bn)と認識の信頼性評価値(C0),(C1),…,(Cn)から、入力された音声(A)に対する音声解釈結果(D)を特定することを特徴とする音声解釈装置。 Speech input means for inputting speech information to the system; speech recognition means for recognizing the speech information as a sequence of words; speech recognition reliability evaluation means for evaluating the recognition reliability of each recognized word; A speech interpretation system comprising a sequence of recognized words and speech interpretation means for interpreting speech input based on the reliability of recognition of each word,
The voice (A) input from the voice input means is recognized as a word series (B) by the voice recognition means, and the words (B0), (B1),..., (Bn) included in the word series are recognized. Voice recognition reliability evaluation values (C0), (C1),..., (Cn) are calculated for the respective voice recognition reliability evaluation means, and the word (B0),. A speech interpretation apparatus that identifies a speech interpretation result (D) for an input speech (A) from evaluation values (C0), (C1),..., (Cn).
登録された特定単語の系列(E0),(E1),…,(Ei)を含む単語の系列が入力されたとき、それと対応する解釈結果の系列(F0),(F1),…,(Fj)を出力する規則型解釈手段と、ある特定種類の単語(G)を含む単語の系列が入力されたとき、上記特定種類の単語(G)を出力する特定種単語抽出手段と、データベース内に事例として蓄積されている単語の系列(H0),(H1),…,(Hk)と対応する解釈結果の系列(I0),(I1),…,(Il)の組があり、上記単語の系列(H0),…,(Hk)を含む単語の系列が入力されたとき、上記解釈結果の系列(I0),…,(Il)を出力する事例型解釈手段とに基づき、規則型解釈手段、特定種単語抽出手段、事例型解釈手段を組み合わせた有限状態トランスデューサを利用した解釈結果選別手段によって、最善の音声解釈結果(D)を特定する音声解釈装置。 The speech interpretation apparatus according to claim 5,
When a series of words including registered specific word series (E0), (E1),..., (Ei) is input, a series of interpretation results (F0), (F1),. ), A specific type word extracting unit for outputting the specific type word (G) when a series of words including a specific type of word (G) is input, and a database There are pairs of word sequences (H0), (H1),..., (Hk) accumulated as examples and corresponding interpretation result sequences (I0), (I1),. Based on the case type interpretation means for outputting the interpretation result series (I0),..., (Il) when a series of words including the series (H0),. , A finite state transaction that combines specific word extraction means and case type interpretation means The interpretation result sorting means utilizing inducer, speech interpreter to identify the best speech interpretation results (D).
上記データベースに蓄積する事例として音声認識信頼性評価値(Mi)がある値よりも大きい単語系列(Ji),(Li)の組を登録する事例登録手段を具備し、この登録された単語系列(Ji),(Li)を上記事例型解釈手段が事例として利用することを特徴とする音声解釈装置。 The speech interpretation apparatus according to claim 6,
As examples stored in the database, the speech recognition reliability evaluation value (Mi) includes case registration means for registering a set of word sequences (Ji), (Li) larger than a certain value, and this registered word sequence ( A speech interpretation apparatus in which Ji) and (Li) are used as examples by the case type interpretation means.
この単語系列抽出手段が抽出した単語の系列(P)から解釈される上記情報の内容を(P)′に特定する情報内容特定手段と、
上記単語の系列(P)に含まれる単語をそれぞれ(Q0),(Q1),(Q2),…,(Qn)として抽出する単語抽出手段と、
上記単語系列(P)に対応する上記実際に発話した単語の系列の正解を(R)と特定する正解単語特定手段と、
この正解単語特定手段が特定した単語の系列の正解(R)から解釈される上記情報内容の正解を(R)′と特定する正解情報特定手段と、
上記単語列(Qi)に対応する上記実際に発話した単語を(Si)と特定する発話単語特定手段と、
上記抽出された単語の系列(P)をその結果の候補として推定するために計算した指標に加え、上記対話情報記録手段に記録されている対話情報で得られる指標を、発話単位及び単語単位でそれぞれについて発話単位指標値及び単語単位指標値を計算する発話単位指標値計算手段及び単語単位指標値計算手段と、
計算された発話単位指標値及び単語単位指標値と、上記対話情報記録手段から読み出された対話情報をシステムが認識した単語の系列と、上記対話情報記録手段により記録されている実際に発話した単語の系列の正解とを比較して得られる発話単位及び単語単位での正しさを0と1の二値で示した指標との関連を求めることにより、発話単位及び単語単位での信頼性を評価するための尺度作成する発話単位信頼性尺度作成手段及び単語単位信頼性尺度作成手段と、
作成された信頼性尺度によって、その信頼性を評価すべき音声認識結果の指標値を計算し、信頼性尺度の評価式に当てはめて信頼性評価値を得る発話単位信頼性評価値計算手段および単語単位信頼性評価値計算手段とによって算出されることを特徴とする音声解釈装置。 8. The speech interpretation apparatus according to claim 7, wherein the speech recognition reliability evaluation value (Mi) used in the case type interpretation means is a sequence of words estimated to be actually uttered from dialogue information recorded in the dialogue information recording means (P ) To extract word series,
Information content specifying means for specifying (P) ′ as the content of the information interpreted from the word sequence (P) extracted by the word sequence extracting means;
Word extraction means for extracting the words included in the word series (P) as (Q0), (Q1), (Q2),..., (Qn);
Correct word specifying means for specifying, as (R), the correct answer of the series of words actually spoken corresponding to the word series (P);
Correct information specifying means for specifying (R) ′ as the correct answer of the information content interpreted from the correct answer (R) of the series of words specified by the correct word specifying means;
An utterance word specifying means for specifying the actually spoken word corresponding to the word string (Qi) as (Si);
In addition to the index calculated to estimate the extracted word sequence (P) as a candidate for the result, the index obtained from the dialog information recorded in the dialog information recording means is expressed in utterance units and word units. An utterance unit index value calculating means and a word unit index value calculating means for calculating an utterance unit index value and a word unit index value for each;
The calculated utterance unit index value and word unit index value, a series of words in which the system recognizes the dialog information read from the dialog information recording means, and the actual utterance recorded by the dialog information recording means The reliability of the utterance unit and the word unit is obtained by obtaining the relationship between the utterance unit obtained by comparing the correct word sequence and the index indicating the correctness in the word unit by binary values of 0 and 1. An utterance unit reliability scale creation means and a word unit reliability scale creation means for creating a scale for evaluation;
An utterance unit reliability evaluation value calculation means and a word for calculating an index value of a speech recognition result whose reliability should be evaluated by the created reliability measure, and obtaining the reliability evaluation value by applying the evaluation value of the reliability scale A speech interpretation apparatus characterized by being calculated by unit reliability evaluation value calculation means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004067729A JP2005257917A (en) | 2004-03-10 | 2004-03-10 | Phonetic interpretion method, phonetic interpreting device, and phonetic interpretation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004067729A JP2005257917A (en) | 2004-03-10 | 2004-03-10 | Phonetic interpretion method, phonetic interpreting device, and phonetic interpretation program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005257917A true JP2005257917A (en) | 2005-09-22 |
Family
ID=35083713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004067729A Pending JP2005257917A (en) | 2004-03-10 | 2004-03-10 | Phonetic interpretion method, phonetic interpreting device, and phonetic interpretation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005257917A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008293019A (en) * | 2007-05-22 | 2008-12-04 | Honda Motor Co Ltd | Language understanding device |
WO2009028647A1 (en) * | 2007-08-31 | 2009-03-05 | National Institute Of Information And Communications Technology | Non-dialogue learning device and dialogue learning device |
JP2015526766A (en) * | 2012-08-24 | 2015-09-10 | インタラクティブ・インテリジェンス・インコーポレイテッド | Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems |
JP2019079034A (en) * | 2017-10-26 | 2019-05-23 | 株式会社日立製作所 | Dialog system with self-learning natural language understanding |
-
2004
- 2004-03-10 JP JP2004067729A patent/JP2005257917A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008293019A (en) * | 2007-05-22 | 2008-12-04 | Honda Motor Co Ltd | Language understanding device |
US8244522B2 (en) | 2007-05-22 | 2012-08-14 | Honda Motor Co., Ltd. | Language understanding device |
WO2009028647A1 (en) * | 2007-08-31 | 2009-03-05 | National Institute Of Information And Communications Technology | Non-dialogue learning device and dialogue learning device |
US8868410B2 (en) | 2007-08-31 | 2014-10-21 | National Institute Of Information And Communications Technology | Non-dialogue-based and dialogue-based learning apparatus by substituting for uttered words undefined in a dictionary with word-graphs comprising of words defined in the dictionary |
JP2015526766A (en) * | 2012-08-24 | 2015-09-10 | インタラクティブ・インテリジェンス・インコーポレイテッド | Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems |
JP2019079034A (en) * | 2017-10-26 | 2019-05-23 | 株式会社日立製作所 | Dialog system with self-learning natural language understanding |
CN110019745A (en) * | 2017-10-26 | 2019-07-16 | 株式会社日立制作所 | Conversational system with self study natural language understanding |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11990127B2 (en) | User recognition for speech processing systems | |
US11270685B2 (en) | Speech based user recognition | |
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
Chen et al. | Advances in speech transcription at IBM under the DARPA EARS program | |
JP4301102B2 (en) | Audio processing apparatus, audio processing method, program, and recording medium | |
US8209182B2 (en) | Emotion recognition system | |
Jung et al. | Data-driven user simulation for automated evaluation of spoken dialog systems | |
US20070100618A1 (en) | Apparatus, method, and medium for dialogue speech recognition using topic domain detection | |
CN111402862B (en) | Speech recognition method, device, storage medium and equipment | |
WO2018192186A1 (en) | Speech recognition method and apparatus | |
Ghai et al. | Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study | |
JP6031316B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
JP6552999B2 (en) | Text correction device, text correction method, and program | |
Mary et al. | Searching speech databases: features, techniques and evaluation measures | |
Serrino et al. | Contextual Recovery of Out-of-Lattice Named Entities in Automatic Speech Recognition. | |
Badenhorst et al. | Collecting and evaluating speech recognition corpora for 11 South African languages | |
Alrumiah et al. | Intelligent Quran Recitation Recognition and Verification: Research Trends and Open Issues | |
Harere et al. | Quran recitation recognition using end-to-end deep learning | |
CN114255754A (en) | Speech recognition method, electronic device, program product, and storage medium | |
JP2005257917A (en) | Phonetic interpretion method, phonetic interpreting device, and phonetic interpretation program | |
Rashmi et al. | Hidden Markov Model for speech recognition system—a pilot study and a naive approach for speech-to-text model | |
Price et al. | A hybrid approach to scalable and robust spoken language understanding in enterprise virtual agents | |
Hoffmeister | Bayes risk decoding and its application to system combination | |
JP2005275348A (en) | Speech recognition method, device, program and recording medium for executing the method | |
JP4733436B2 (en) | Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium |