JP2003308094A - 音声認識における認識誤り箇所の訂正方法 - Google Patents

音声認識における認識誤り箇所の訂正方法

Info

Publication number
JP2003308094A
JP2003308094A JP2002054639A JP2002054639A JP2003308094A JP 2003308094 A JP2003308094 A JP 2003308094A JP 2002054639 A JP2002054639 A JP 2002054639A JP 2002054639 A JP2002054639 A JP 2002054639A JP 2003308094 A JP2003308094 A JP 2003308094A
Authority
JP
Japan
Prior art keywords
recognition
sentence
error
recognition error
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002054639A
Other languages
English (en)
Inventor
Sumiyuki Okimoto
純幸 沖本
Hiroshi Yamamoto
博史 山本
Eiichiro Sumida
英一郎 隅田
Genichiro Kikui
玄一郎 菊井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2002054639A priority Critical patent/JP2003308094A/ja
Publication of JP2003308094A publication Critical patent/JP2003308094A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 この発明は、認識誤り箇所の訂正率の向上化
が図れる音声認識における認識誤り箇所の訂正方法を提
供することを目的とする。 【解決手段】 音声認識装置によって認識された認識結
果文から認識誤り箇所を検出する第1ステップ、予め用
意した用例コーパスから第1ステップによって認識誤り
箇所が検出された認識結果文に類似する用例文を検索
し、検索した各用例文から認識誤り箇所に対応する代替
候補を抽出する第2ステップ、および第2ステップによ
って抽出された各代替候補と上記認識誤り箇所との音韻
的な距離を考慮して、各代替候補から最適候補を選択す
る第3ステップを備えている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声認識におけ
る認識誤り箇所の訂正方法に関する。
【0002】
【従来の技術】近年多くの音声認識システムが開発さ
れ、その幾つかは実用レベルに近付きつつある。しか
し、現状の認識システムにおいて誤認識の問題は避けら
れない。従来は認識誤りを、モデルと探索手法の改良に
よって低減するアプローチが採られてきたが、本発明者
らは認識誤り箇所の検出とこれの訂正というアプローチ
の検討を進めている。これは、従来の音声認識の枠組に
よって得られる認識結果について、より広い範囲のコン
テキスト情報などを用いることで、局所的な認識誤りを
訂正できるとの考えに基づく。
【0003】本発明者らは過去において認識誤り箇所の
検出について検討を行ってきた(文献[1] 参照)。
【0004】文献[1] : Y. Okimoto et al.: "Evalua
tion of Mis-Recognition Detection Using COnfidence
Measures", In Proc. ICSP'01, pp. 685-690, 2001.
【0005】今回は認識誤り箇所の訂正方法について検
討を行った。認識誤り箇所訂正のための先行研究は、O
CRの分野(文献 [2], [3] 参照)で多くなされてき
た。
【0006】文献[2] : 竹内孔一ら: "統計的言語モ
デルを用いたOCR誤り訂正システムの構築", 情報処
理学会論文誌, 40(6), pp. 2679-2689. 文献[3] : 永田昌明: "文字類似度と統計的言語モデ
ルを用いた日本語文字認識誤り訂正手法",電子情報通信
学会論文誌, J81-D-II(11), pp. 2624-2634.
【0007】しかし、文字認識に比べて、音声認識では
入力音声の曖昧性がはるかに大きいため探索空間が広が
り過ぎて、これらの手法を音声認識にそのまま適用する
のは難しい。音声認識の分野では、例えば正しく認識で
きた部分のみ翻訳する方法(文献[4] 参照)などが提案
されているが、誤り訂正そのものを行う検討はあまり多
くなされていない。
【0008】文献[4] : 脇田由美ら: "意味的類似性
を用いた音声認識正解部分の特定法と正解部分のみ翻訳
する音声翻訳手法", 自然言語処理, 5(4), pp. 111-12
5, 1998.
【0009】その中で、石川ら(文献[5] 参照)は、検
出された誤り箇所に対して音韻的に類似した単語を用い
て代替候補を生成し、音韻的距離と意味的距離によって
候補の妥当性を判断する誤り訂正法を提案して一定の成
果を収めた。しかしこの方法で用いている意味距離は、
多義語の問題などのために充分な制約力を持たず、また
オープンテストに対する性能も良くなかった。
【0010】文献[5] : 石川開ら: "テキストデータ
を使った音声認識誤りの訂正", 自然言語処理, 7(4),
pp. 205-227, 2000.
【0011】
【発明が解決しようとする課題】この発明は、認識誤り
箇所の訂正率の向上化が図れる音声認識における認識誤
り箇所の訂正方法を提供することを目的とする。
【0012】
【課題を解決するための手段】請求項1に記載の発明
は、音声認識装置によって認識された認識結果文から認
識誤り箇所を検出する第1ステップ、予め用意した用例
コーパスから第1ステップによって認識誤り箇所が検出
された認識結果文に類似する用例文を検索し、検索した
各用例文から認識誤り箇所に対応する代替候補を抽出す
る第2ステップ、および第2ステップによって抽出され
た各代替候補と上記認識誤り箇所との音韻的な距離を考
慮して、各代替候補から最適候補を選択する第3ステッ
プを備えていることを特徴とする。
【0013】請求項2に記載の発明は、請求項1に記載
の発明において、第2ステップは、第1ステップによっ
て認識誤り箇所が検出された認識結果文と用例コーパス
に含まれる各用例文との距離を算出し、算出された距離
に基づいて、認識誤り箇所が検出された認識結果文に類
似する用例文を検索する検索ステップ、および検索した
各用例文と上記認識結果文の各単語の対応関係に基づい
て、検索した各用例文から認識誤り箇所に対応する代替
候補を抽出する代替候補抽出ステップを備えていること
を特徴とする。
【0014】請求項3に記載の発明は、請求項2に記載
の発明において、検索ステップは、認識誤り箇所が検出
された認識結果文と用例文との間で文頭・文末が一致し
ているという制約のもとで、認識結果文と各用例文との
距離を算出し、算出された距離に基づいて、認認識結果
文に類似する用例文を検索するものであることを特徴と
する。
【0015】請求項4に記載の発明は、請求項2に記載
の発明において、検索ステップは、認識誤り箇所が検出
された認識結果文と用例文との間で文頭・文末に余分に
含まれている単語を除いて、認識結果文と各用例文との
距離を算出し、算出された距離に基づいて、認認識結果
文に類似する用例文を検索するものであることを特徴と
する。
【0016】請求項5に記載の発明は、音声認識装置に
よって認識された認識結果文から認識誤り箇所を検出す
る第1ステップ、予め用意した用例コーパスから第1ス
テップによって認識誤り箇所が検出された認識結果文中
の認識誤り箇所を含む認識誤り箇所近傍の単語系列に類
似する部分系列を検索し、検索した各部分系列から認識
誤り箇所に対応する代替候補を抽出する第2ステップ、
および第2ステップによって抽出された各代替候補から
最適候補を選択する第3ステップを備えていることを特
徴とする。
【0017】請求項6に記載の発明は、請求項3に記載
の発明において、第2ステップは、第1ステップによっ
て認識誤り箇所が検出された認識結果文中の認識誤り箇
所を含む認識誤り箇所近傍の単語系列と用例コーパスに
含まれる各用例文中の部分系列との距離を算出し、算出
された距離に基づいて、認識誤り箇所が検出された認識
結果文における認識誤り箇所を含む認識誤り箇所近傍の
単語系列に類似する部分系列を検索する検索ステップ、
および検索した各部分系列と上記認識誤り箇所近傍の単
語系列の各単語の対応関係に基づいて、検索した各部分
系列から認識誤り箇所に対応する代替候補を抽出する代
替候補抽出ステップを備えていることを特徴とする。
【0018】請求項7に記載の発明は、請求項1乃至6
に記載の発明において、第3ステップは、第2ステップ
によって抽出された各代替候補と上記認識誤り箇所との
音韻的な距離を考慮して、各代替候補から最適候補を選
択するものであることを特徴とする。
【0019】請求項8に記載の発明は、請求項1乃至4
に記載の発明において、第3ステップは、第2ステップ
によって抽出された各代替候補と上記認識誤り箇所との
音韻的な距離と、各代替候補を含む用例文と認識誤り箇
所が検出された認識結果文との距離とを考慮して、各代
替候補から最適候補を選択するものであることを特徴と
する。
【0020】請求項9に記載の発明は、請求項5乃至6
に記載の発明において、第3ステップは、第2ステップ
によって抽出された各代替候補と上記認識誤り箇所との
音韻的な距離と、第2ステップによって抽出された各代
替候補を含む部分系列と上記認識誤り箇所近傍の単語系
列との距離とを考慮して、各代替候補から最適候補を選
択するものであることを特徴とする。
【0021】請求項10に記載の発明は、請求項7乃至
9に記載の発明において、各代替候補と上記認識誤り箇
所との音韻的な距離は、代替候補の音素系列と上記認識
誤り箇所の音素系列とに基づいて算出され、認識誤り箇
所の音素系列としては、認識誤り箇所の単語に対応する
音素系列が用いられることを特徴とする。
【0022】請求項11に記載の発明は、請求項7乃至
9に記載の発明ににおいて、各代替候補と上記認識誤り
箇所との音韻的な類似度は、代替候補の音素系列と上記
認識誤り箇所の音素系列とに基づいて算出され、認識誤
り箇所の音素系列として、音声認識装置の音響モデルと
言語モデルのうち、音響モデルと語彙制約のない言語モ
デルとを使用して生成される音素系列が用いられること
を特徴とする。
【0023】
【発明の実施の形態】以下、図面を参照して、この発明
の実施の形態について説明する。
【0024】〔1〕本発明の概要についての説明 旅行会話のような対話における多くの発話は、会話表現
集に見られるように単文を中心とした比較的単純な構造
であり、大量の用例を収集することによって頻度の高い
表現をカバーすることができると考えられる。そこで本
発明者らは、用例コーパス中の用例文を用いて、用例文
そのものを制約とする認識誤り箇所の訂正方法を考案し
た。この認識誤り箇所の訂正方法では、認識結果文の類
似用例を用例コーパスから探索し、これを基に誤り箇所
の代替候補を生成し訂正を行う。評価実験の結果、提案
方法によって20%以上の誤り箇所が正しく訂正できる
ことが確認された。
【0025】図1は、本発明による認識誤り箇所の訂正
方法の手順を示している。
【0026】音声認識装置は通常複数の認識候補 (N-be
st) を出力するが、この実施の形態では、このうちの1
位候補 (1-best) の系列のみを用いて、その誤り箇所を
訂正する。また、この実施の形態では、旅行会話音声
(日本語)に対する認識誤り箇所を訂正する場合につい
て説明する。
【0027】(1)まず、音声認識装置によって認識さ
れた文(認識結果文)から認識誤り箇所を検出する(ス
テップ1)。
【0028】(2)次に、予め用意した用例コーパスか
らステップ1によって認識誤り箇所が検出された認識結
果文に類似する用例文を検索し、検索した各用例文と上
記認識結果文の各単語の対応関係に基づいて、検索した
各用例文から認識誤り箇所に対応する代替候補を抽出す
る(ステップ2)。
【0029】本発明手法では、認識誤り箇所訂正のため
の情報源として、認識結果文に類似する用例文そのもの
が用いられる。これは、同一ドメインで同じ内容を伝え
る文はいくつかの類似した文に大別されるであろうとい
う仮定に基づいており、また用例文という強い言語的制
約によって、誤り箇所が訂正されることを期待するもの
である。従って本発明手法は、あらゆる発話の認識誤り
を保証するものではなく、認識対象と同一ドメインの用
例コーパスによって規定された、対象領域の発話の認識
誤りを訂正するものである。
【0030】(3)ステップ2によって生成された各代
替候補のうちから最適候補を選択する(ステップ3)。
【0031】〔2〕各ステップについての説明 〔2−1〕認識誤り箇所を検出するステップ1について
の説明
【0032】認識誤り箇所は、たとえば、文献[8] ,
[9] に記載された従来法を用いることによって検出す
る。
【0033】文献[8] : T. Kemp et al.: "Estimatin
g Confidence Using Word Lattice", In Proc. Eurospe
ech'97, pp. 827-830, 1997. 文献[9] : F. Wessel et al.: "Using Word Probabil
ities as ConfidenceMeasures", In Proc. ICASSP'98,
pp. 225-228, 1998.
【0034】なお、後述する評価実験においては、認識
誤り箇所は正確に検出できるものとして検討を行った。
すなわち、あらかじめ手作業で与えた正解の単語ラベル
と、音声認識装置の出力する 1-best の単語系列の単語
ラベルを比べて、置換および挿入誤りであった部分を認
識誤り箇所とした。脱落誤り箇所については、認識結果
中に該当単語が表れないため検出できないので無視し
た。
【0035】〔2−2〕代替候補を含む用例を選択する
ステップ2についての説明
【0036】ステップ2では、ステップ1によって検出
された音声認識誤りの箇所に対する代替候補を生成す
る。代替候補の探索範囲として用例コーパスを用いる。
すなわち、誤り箇所を含む認識結果文に類似する用例を
コーパス中から選択する。類似用例の選択には、コーパ
ス中の各文と認識結果文との間でDPマッチングに基づ
く距離計算(文献[6] 参照)を行い、これを類似度とし
て順序付けを行う。そして、認識結果文の各単語と選択
した用例文の各単語の対応関係から、認識結果文の認識
誤り箇所に対応する単語を選択した用例文から取り出し
て代替候補とする。
【0037】文献[6] : E. Sumita: "Example-based
machine translation using DP-matching between word
sequences", In Proc. ACL-2001 Workshop (DDMT), p
p. 1-8, 2001.
【0038】用例コーパスおよび用例の選択方法につい
てさらに詳しく説明する。
【0039】〔2−2−1〕用例コーパスについての説
【0040】本発明者らは、旅行会話音声翻訳器のため
の音声認識部の開発を進めている(文献[7] 参照)。
【0041】文献[7] : T. Takezawa et al.: "A Jap
anese-to-English Speech Translation System: ATR-MA
TRIX", In Proc. IC-SLP'98, pp. 957-960, 1998
【0042】そこで、この実施の形態においては、音声
認識装置の認識タスクを、旅行会話音声としている。こ
のタスクの音声の認識誤りを訂正するための用例コーパ
スとしては、旅行者向けのフレーズブックに表れるよう
な旅行会話の基本表現を大量に集めたものを用いる。集
められた用例文の数は、重なりなしでおよそ9万文であ
る。表1にこの用例コーパスの統計値をまとめる。
【0043】
【表1】
【0044】〔2−2−2〕 用例の選択方法
【0045】認識誤り箇所の代替候補の集合を生成する
ために、用例コーパスから認識誤り箇所を含む認識結果
文に類似する用例文を検索する。この類似文の探索は、
認識結果文と各用例文との間のDPマッチングに基づい
て行う。なお、認識結果文中の認識誤り箇所について
は、”誤り単語”を意味する特別なIDを与えて、他の
いかなる単語とも異なる単語としてマッチングを行う。
認識結果文と用例文の距離は、たとえば、次式(1)に
よって定義される。
【0046】 dist=(I+D+Σdi )/Lin …(1)
【0047】上記式(1)において、IおよびDは、そ
れぞれ挿入誤りと脱落誤りの回数を示しており、di
置換誤りにおける単語間の距離を示している。またLin
は、認識結果文の単語系列長を意味する。
【0048】ここで、挿入誤りとは、認識結果文に存在
する単語に対応する単語が、用例文に存在しない場合を
いう。脱落誤りとは、用例文に存在する単語に対応する
単語が、認識結果文に存在しない場合をいう。置換誤り
とは、認識結果文と用例文との間で単語が異なる場合を
いう。
【0049】単語間の距離としては、いくつかの方法を
考えることができる。最も単純には、di =1.0とい
う定数値を与える方法がある。
【0050】単語間の距離として、単語間の意味距離を
用いてもよい。これは、シソーラス上での意味属性の位
置関係により単語間に0〜1の意味距離を与えるもので
ある。この詳細については、後述する。
【0051】以上のような距離計算によって各用例ごと
に得られた類似度のうち、上位n位の類似度を有する用
例(距離distが小さい用例)を代替候補単語を含む文と
して選択する。
【0052】〔2−3〕最適候補を選択するステップ3
についての説明
【0053】認識誤り箇所に対する代替候補の集合中か
ら、認識誤り箇所に最も当てはまると考えられる単語を
選択する。これには認識結果文の認識誤り箇所の音素系
列と、発音辞書に示された代替候補単語の音素系列とを
DPマッチングさせた結果を用いて、次式(2)、
(3)によって示されるスコア(score) によって行う。
つまり、スコア(score) が最も小さい代替候補単語を、
最適候補として選択する。ここでは、認識誤り箇所の音
素系列として、認識誤り箇所の単語に対応する音素系列
が用いられている。
【0054】 score =λ・dist+(1−λ)・phdist …(2) phdist=(Iph+Dph+Sph)/Lph …(3)
【0055】上記式(2)、(3)において、Iph,D
ph,Sphは、それぞれ認識結果文の認識誤り箇所の音素
系列と代替候補単語の音素系列とのDPマッチングによ
る、挿入誤り、脱落誤り、置換誤りの回数である。また
phは、誤り区間の音素系列の系列長である。また、λ
は、重み係数である。
【0056】ここで、挿入誤りとは、認識誤り箇所の音
素系列に存在する音素に対応する音素が、代替候補単語
の音素系列に存在しない場合をいう。脱落誤りとは、代
替候補単語の音素系列に存在する音素に対応する音素
が、認識誤り箇所の音素系列に存在しない場合をいう。
置換誤りとは、認識誤り箇所の音素系列と代替候補単語
の音素系列との間で音素が異なる場合をいう。
【0057】上記式(2)は、認識結果文と用例文の文
としての近さと、単語の音素系列の近さ(すなわち音響
的近さ)との2つの要因の重み付け和によって代替候補
単語を順序付けすることを表している。
【0058】なお、認識結果文の認識誤り箇所の音素系
列としては認識誤り箇所の単語に対応した音素系列が用
いられているが、後述するように、認識誤り箇所の音素
系列として、音声認識装置の音響モデルと語彙制約のな
い言語モデルとを使用して生成される音素系列を用いて
もよい。
【0059】〔3〕本発明手法の評価 〔3−1〕 実験条件
【0060】本発明手法の基本性能を評価する実験を行
った。実験に用いた音声認識装置の概要を表2にまとめ
る。
【0061】
【表2】
【0062】認識に用いた音声は、上記〔2−2−1〕
で説明したコーパスを作成する際には利用しなかった別
の旅行会話文セットを、複数の男女が発声したものを用
い、総発話数は2,037発話であった。上記音声認識
装置による評価では、この音声データに対する認識精度
は単語 Accuracy で83.9%であった。正解の単語ラ
ベルと認識結果を比較した結果では、計897箇所に認
識誤りがあった。
【0063】実験では、上記〔2−2−1〕で説明した
用例セットを用いて認識誤り箇所の訂正を行った。用例
の類似度(文間距離)の計算は上記式(1)に基づいて
行い、置換誤りにおける単語間距離di は一律に1.0
を与えた。代替候補の順序付けを行うために用いられる
上記式(2)では、認識結果文の認識誤り箇所の音素系
列としてとして、誤り区間の 1-best の単語の音素系列
をそのまま用いることにした。
【0064】〔3−2〕 実験結果
【0065】以上に述べたような実験条件の下で、次の
点に着目した評価を行った。
【0066】(1)1つの誤り箇所に対する平均代替候
補数 (2)全誤り箇所に対して、正解候補を含む代替候補が
得られた誤りの箇所の割合(可能誤り訂正率、correcta
ble error rate) (3)全誤り箇所に対して、代替候補中から正しく正解
候補を選び出すことのできた誤り箇所の割合(誤り訂正
率、corrected error rate)
【0067】ただし認識誤り箇所とは、連続した誤り単
語をまとめた区間を指す。これは、本発明手法では連続
して誤っている区間全体をまとめて訂正を行うためであ
る。
【0068】この結果を図2、3に示す。図2は、類似
度(文間距離)の上位何位までを類似用例とみなすか
(上位選択順位数、Q-best) に対する、平均代替候補数
(破線で示すグラフ)および可能誤り訂正率(実線で示
すグラフ)を示すものである。上位選択順位数に対する
平均代替候補数は、縦軸右側のスケールで示されてお
り、可能誤り訂正率は縦軸左側のスケールで示されてい
る。
【0069】本来、上位選択順位数と平均代替候補数は
近い値となると予想されるが、ここでは平均代替候補数
が非常に多い。これは、同じ類似度を持つ用例が非常に
多く表れるケースがあるためである。たとえば、「<Err
or> をお願いします」という誤り文では、非常に多くの
類似用例が得られる。図2に示された結果からは、上位
選択順位数を大きくするに伴い、より多くの認識誤り箇
所に対して正解候補を含む代替候補が得られるようにな
るが、選択順位を10位以上に広げても、可能誤り訂正
率は伸びないことが示されている。また、選択上位順位
数を15位とした場合で、可能誤り訂正率は約33%で
あり、本実験で行った方法で、1/3の誤り箇所が正し
く訂正できる可能性があることを示している。
【0070】また、図3は、代替候補を上記〔2−3〕
で説明した方法によって順序付けた場合の誤り訂正率を
示している。このグラフにおいて横軸は、上記式(2)
における重み係数λの値を示し、縦軸は誤り訂正率を示
している。このグラフでは、上位選択順位数は15位と
している。比較のため、図2に示した上位選択順位数1
5位における可能誤り訂正率を、誤り訂正率の上限値と
して合わせて示している。この結果から、本発明手法に
より全誤り箇所の約20%を正しく訂正できることが示
されている。
【0071】〔4〕音素距離の検討
【0072】上記実験では、用例により得られた代替候
補を上記式(2)に基づいて順序付けする際、1位の誤
り認識単語の音素系列と、代替候補単語の音素系列との
間の類似度を用いた。しかし、音声認識の過程で、単語
候補の生成には音響モデルと言語モデルという2つの制
約が用いられている。このため、誤り認識単語の音素系
列は言語的な制約による影響を受けており、しかもこれ
は誤った影響である可能性がある。
【0073】そこで、誤り認識単語の音素系列として、
音響モデルと語彙制約のない言語モデルとを使用して生
成される音素系列を用いた場合についての比較実験を行
った。具体的には、音声認識の過程でモーラタイプライ
タを並行に走らせ、認識誤り区間と判定された区間に該
当する音素系列をこのモーラタイプライタ結果から取り
出した。
【0074】この実験の結果を、先の誤り認識単語の音
素系列を用いた場合と合わせて図4に示す。縦・横軸の
意味は図3と同じで、音素類似度と文類似度の重みλに
対する、誤り訂正率の関係を示している。図4の実線の
グラフが音素系列としてモーラタイプライタによるもの
を用いた場合の結果を示し、破線のグラフが図3と同じ
結果を示している。図4に示されるように、参照する音
素系列としてモーラタイプライタによるものを用いた方
が、より多くの誤り箇所を正しく訂正できることが示さ
れている。
【0075】この結果に基づき、以下の評価実験では最
適候補選択のための音素系列として、モーラタイプライ
タによる音素系列を用いるものとする。
【0076】〔5〕文類似度の評価 〔5−1〕 文類似度
【0077】これまでの実験では、認識結果文と用例文
の距離として、置換誤りにおける単語間距離di (上記
式(1)参照)を定数値1.0とした結果について示し
た。ここでは、置換誤りにおける単語間の距離を単語ご
とに変えた場合について評価する。
【0078】この実験では、単語間の距離を意味距離に
基づいて可変とする。ここで言う意味距離は、シソーラ
ス上での単語意味属性の一致度で計算をする。単語のシ
ソーラス階層数がNで、2つの単語の意味属性が最上層
から第N−k階層まで共通であるなら、意味距離dsem
は、次式(4)によって計算される。
【0079】dsem =k/N …(4)
【0080】今回の実験では、シソーラスの階層数はN
=3で固定としているため、dsem={δ,1/3,2
/3,1}の4種類の値を取る。dsem の最小値(k=
0であるが、両単語が異なる単語である場合)をδとし
たのは、両単語が同一である場合の距離を0.0とし、
これとの差別化を図るためである。
【0081】しかし、通常1つの単語には複数の語義が
付される。このため上記式(4)のみでは、単語間の距
離を決定することができない。本実験では、次式(5)
により評価を行った。
【0082】
【数1】
【0083】上記式(5)において、d(w1 ,w2
は、単語w1とw2との間の距離を表している。また、
1iは単語w1 の第i番目の語義を示し、w2jは単語w
2 の第j番目の語義を示している。この式(5)は、両
単語w1 ,w2 の複数語義の間の意味距離d
sem (w1i,w2j)のうちの、最小値を当該単語間の意
味距離とすることを意味している。
【0084】この実験では、式(5)によって得られた
意味距離d(w1 ,w2 )が、上記式(1)の置換誤り
における単語間距離di として用いた。
【0085】〔5−2〕 実験結果 実験結果を、単語間距離を1.0に固定した場合と比較
して、図5に示す。縦・横軸の意味は図3と同じで、音
素類似度と文類似度の重みλに対する、誤り訂正率の関
係を示している。図5において、実線が置換誤りにおけ
る単語間距離d i として意味距離を用いた場合の結果を
示し、破線が置換誤りにおける単語間距離di を1.0
に固定した場合の結果を示している。
【0086】この結果からは、用例検索において単語間
の意味距離を用いることによる効果は表れていない。こ
の原因は次のように考えられる。
【0087】認識結果文と用例文を対応させて文類似度
を計算する際、認識結果中の認識誤り箇所は、”誤り単
語”を意味するIDによってマスクされており、いかな
る単語とも距離は1.0となる。このため肝心な箇所で
意味距離が働かず、その効果が低減してしまっている。
また、単語が持つ複数の語義を解消する方法として、今
回、最小距離を用いたが、このような単純な方法では充
分な解消ができていないことも原因として挙げられる。
【0088】〔6〕誤り訂正結果の分析 〔6−1〕 誤り長ごとの評価
【0089】この明細書においては、誤り箇所とは連続
する誤り単語の区間を指す。本発明手法によって、どの
程度の誤り長(誤り区間における正解単語の系列長)の
誤りを訂正できるのか調査した。
【0090】この結果を誤り長に対する可能誤り訂正率
および誤り訂正率の関係として図6に示す。また同時
に、各誤り長の誤りが、全誤りの中でどの程度の割合で
出現するかを棒グラフによって重ねて示している。図6
において、可能誤り訂正率および誤り訂正率は、縦軸左
側のスケールで示されており、各誤り長の割合は縦軸右
側のスケールで示されている。
【0091】この実験の結果から、本発明手法により訂
正可能な誤りは誤り長が2程度までの誤りであって、こ
れ以上の長い誤りについてはほとんど、訂正の見込みが
ないことが示されている。なお誤り長が2までの誤り
は、全誤り箇所のおよそ80%であることもグラフから
読み取れる。
【0092】〔6−2〕 品詞ごとの評価
【0093】誤り箇所の単語に対し、その品詞ごとの可
能誤り訂正率、誤り訂正率を比較する。ここでは、長さ
1の誤り箇所のみについて、その正解単語の品詞ごとに
分類した。
【0094】この結果を図7に示す。図中で棒グラフ
は、誤り長1の全ての誤り箇所に対して、各品詞の占め
る割合を縦軸右側のスケールで示している。また各品詞
ごとの可能誤り訂正率および誤り訂正率を、折れ線グラ
フによって縦軸左側のスケールで示している。
【0095】この結果からは、第1に格助詞といった機
能語の誤りについてはこれらの語が前後のコンテキスト
から比較的容易に正解語が類推できること、内容語に比
べて種類が少ないこと等の理由により、比較的高い割合
で代替候補中に正解語が含まれることが判る。しかし、
最適候補選択においては、正解候補を正しく選択できて
いない。これは、これらの語が1、2音節程度の短い語
であるため、候補選択において音素距離による差がつき
にくいためであると考えられる。
【0096】また第2に、普通名詞、本動詞、形容詞と
いった内容語については、代替候補を選択した段階です
でに正解語が含まれていないことが多い。これは、これ
らの品詞は単語の種類が多いため、同様のコンテキスト
で交換可能な語が多く、用例文から得た代替候補のみで
は候補生成が不十分であるためと考えられる。しかし、
棒グラフで示された誤りに占める品詞の割合から言って
も、また文の内容を正しく捉えるという意味において
も、特に普通名詞、本動詞の誤りは、訂正の効果を上げ
る上で重要なターゲットであると考える。
【0097】〔7〕 まとめ
【0098】本発明手法によれば、代替候補のリスコア
リング方法などいくつかの比較実験を行った結果、全認
識誤り箇所のうちの22.0%を正しく訂正できること
を認識した。また、リスコアリングにより正しく正解候
補を導くことのできなかった誤り箇所でも、代替候補中
には正解候補が含まれているケースがあり、適切なリス
コアリング方法を用いることでさらに訂正性能が向上す
る可能性がある。
【0099】また実際に訂正できた誤り箇所についての
分析から、本発明手法は、全誤りの80%を占める、誤
り系列長が2以下の誤りに対して効果的であることが確
認された。
【0100】〔8〕 変形例1の説明 上記実施の形態では、認識結果文に類似する用例を選択
する際には、図8に示すように、認識結果文の文頭と文
末は、用例文の文頭と文末と一致するものとして、DP
マッチングを行っている。このようなDPマッチングを
始終端固定DPマッチングということにする。
【0101】これに対して、認識結果文と用例文との間
で、文頭・文末が一致しているという制約を外してDP
マッチングを行うようにしてもよい。つまり、認識結果
文と用例文との間で文頭・文末に余分に含まれている単
語を除いてDPマッチングを行うようにしてもよい。こ
のようなDPマッチングを始終端フリーDPマッチング
ということにする。
【0102】始終端フリーDPマッチングでは、図9に
示すように、文頭・文末に余分に含まれている単語(図
9の例では用例文のX,Y)は、マッチングの対象とみ
なされなくなる。
【0103】図11の破線と白丸のグラフは、始終端フ
リーDPマッチングを行った場合の、音素類似度と文類
似度の重みλに対する誤り訂正率の結果を示している。
実験条件は、上記〔3−1〕で説明した実施条件と同じ
である。ただし、誤り認識単語の音素系列としてモーラ
タイプライタによるものが用いられている。図11か
ら、全誤り箇所の23.2%が正しく訂正できることが
確認できた。
【0104】
〔9〕 変形例2の説明 上記実施の形態では、代替候補の生成に関し、認識結果
文と用例文の全体のDPマッチング(始終端固定DPマ
ッチング)によって、上記変形例1では認識結果文と用
例文との間で、文頭・文末が一致しているという制約を
外した始終端フリーDPマッチングによって、認識結果
文に類似する用例(類似用例)の検索が行われている。
しかしながら、誤り訂正という目的に関しては、文全体
でのコンテキストが類似していなくても、誤り箇所近傍
のコンテキストが類似している用例を用いれば、誤り訂
正が可能ではないかと考えられる。
【0105】そこで、認識結果文の認識誤り箇所近傍に
窓を設定し、この窓内の単語系列と類似する部分系列を
用例コーパス中の用例文中から検索し、検索した類似部
分系列と認識結果文の上記窓内の単語系列の各単語の対
応関係に基づいて、検索した類似部分系列から認識誤り
箇所に対応する代替候補を検索することを試みた。
【0106】認識誤り箇所近傍を規定するための窓とし
ては、図10(a)に示すようなものと、図10(b)
に示すようなものを用いた。図10において、ハッチン
グが入れられた四角は認識結果文中の誤り区間を、黒丸
は内容語を、白丸は機能語をそれぞれ示している。
【0107】図10(a)の窓(Window_1)は、誤り区
間の前後それぞれに、内容語を1語含む範囲を規定する
ような窓であり、図8(b)の窓(Window_2)は、誤り
区間の前後それぞれに、内容語2語含む範囲を規定する
ような窓である。ただし、いずれの窓を用いた場合に
も、その窓内の単語系列と類似する部分系列を検索する
際には、内容語・機能語を区別することなくDPマッチ
ング(上記式(1)参照)を行っている。ただし、ここ
でのDPマッチングは、窓内の単語系列と用例文との間
で、文頭・文末が一致しているという制約を外した始終
端フリーDPマッチングである。なお、この方法の場
合、上記式(1)、(2)中のdistは、窓内の単語系列
と、用例コーパス中の用例文中の部分系列との距離を表
すことになる。
【0108】図11の+と破線のグラフと黒三角と実線
のグラフは、この方法によって得られた、音素類似度と
文類似度の重みλに対する誤り訂正率の結果を示してい
る。実験条件は、上記〔3−1〕で説明した実施条件と
同じである。ただし、誤り認識単語の音素系列としてモ
ーラタイプライタによるものが用いられている。
【0109】図11中、白丸と破線のグラフは、窓を用
いない場合(代替候補の生成に関し、認識結果文と用例
文の全体の始終端フリーDPマッチングによって、認識
結果文に類似する用例の検索を行った場合)の結果を示
している。また、+と破線のグラフはWindow_1 を用い
た場合の結果を、黒三角と実線のグラフはWindow_2を
用いた場合の結果を、それぞれ示している。
【0110】図9の結果から、代替候補生成のための用
例検索において、認識結果文全体を用いて用例文を検索
するより、認識結果文の誤り区間の近傍の単語系列を用
いて部分用例を検索する方が、誤り訂正率が高くなるこ
とがわかる。この例では、認識結果文の誤り区間の近傍
の単語系列を用いて部分用例を検索して誤りを訂正を行
った場合、最大で23.7%の誤り訂正率を達成してい
る。
【0111】この理由としては、誤り区間の代替候補の
予測に充分な制約力を持っていない、誤り区間から遠く
離れたコンテキスト、を無視するようにしたたため、こ
れまで捨てられていた類似部分用例が救われ、訂正率の
改善につながったと考えられる。
【0112】
【発明の効果】この発明によれば、認識誤り箇所の訂正
率の向上化が図れるようになる。
【図面の簡単な説明】
【図1】本発明による認識誤り箇所の訂正方法の手順を
示すフローチャートである。
【図2】類似度(文間距離)の上位何位までを類似用例
とみなすか(上位選択順位数、Q-best) に対する、平均
代替候補数および可能誤り訂正率の実験結果を示すグラ
フである。
【図3】音素類似度と文類似度の重みλに対する誤り訂
正率の実験結果を示すグラフである。
【図4】誤り認識単語の音素系列として、1位の誤り認
識単語の音素系列を用いた場合と、音響モデルと語彙制
約のない言語モデルとを使用して生成される音素系列を
用いた場合との比較実験結果を示すグラフである。
【図5】置換誤りにおける単語間距離di を1.0に固
定した場合と、置換誤りにおける単語間距離di として
意味距離を用いた場合との比較実験結果を示すグラフで
ある。
【図6】誤り長に対する可能誤り訂正率および誤り訂正
率の実験結果を示すグラフである。
【図7】品詞ごとの可能誤り訂正率、誤り訂正率の実験
結果を示すグラフである。
【図8】認識結果文と用例文との間で文頭・文末が一致
しているという制約のもとで行われる始終端固定DPマ
ッチングを説明するための模式図である。
【図9】認識結果文と用例文との間で、文頭・文末が一
致しているという制約を外して行われる始終端フリーD
Pマッチングを説明するための模式図である。
【図10】認識誤り箇所近傍を規定するための窓の例を
示す模式図である。
【図11】代替候補生成のための用例検索において、認
識結果文全体を用いて用例文を検索した場合と、認識結
果文の誤り区間の近傍の単語系列を用いて部分用例を検
索した場合との比較実験結果を示すグラフである。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 隅田 英一郎 京都府相楽郡精華町光台二丁目2番地2 株式会社国際電気通信基礎技術研究所内 (72)発明者 菊井 玄一郎 京都府相楽郡精華町光台二丁目2番地2 株式会社国際電気通信基礎技術研究所内 Fターム(参考) 5D015 BB01 BB02 LL04

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 音声認識装置によって認識された認識結
    果文から認識誤り箇所を検出する第1ステップ、 予め用意した用例コーパスから第1ステップによって認
    識誤り箇所が検出された認識結果文に類似する用例文を
    検索し、検索した各用例文から認識誤り箇所に対応する
    代替候補を抽出する第2ステップ、および第2ステップ
    によって抽出された各代替候補から最適候補を選択する
    第3ステップ、 を備えている音声認識における認識誤り箇所の訂正方
    法。
  2. 【請求項2】 第2ステップは、第1ステップによって
    認識誤り箇所が検出された認識結果文と用例コーパスに
    含まれる各用例文との距離を算出し、算出された距離に
    基づいて、認識誤り箇所が検出された認識結果文に類似
    する用例文を検索する検索ステップ、および検索した各
    用例文と上記認識結果文の各単語の対応関係に基づい
    て、検索した各用例文から認識誤り箇所に対応する代替
    候補を抽出する代替候補抽出ステップを備えている請求
    項1に記載の音声認識における認識誤り箇所の訂正方
    法。
  3. 【請求項3】 検索ステップは、認識誤り箇所が検出さ
    れた認識結果文と用例文との間で文頭・文末が一致して
    いるという制約のもとで、認識結果文と各用例文との距
    離を算出し、算出された距離に基づいて、認認識結果文
    に類似する用例文を検索するものである請求項2に記載
    の音声認識における認識誤り箇所の訂正方法。
  4. 【請求項4】 検索ステップは、認識誤り箇所が検出さ
    れた認識結果文と用例文との間で文頭・文末に余分に含
    まれている単語を除いて、認識結果文と各用例文との距
    離を算出し、算出された距離に基づいて、認認識結果文
    に類似する用例文を検索するものである請求項2に記載
    の音声認識における認識誤り箇所の訂正方法。
  5. 【請求項5】 音声認識装置によって認識された認識結
    果文から認識誤り箇所を検出する第1ステップ、 予め用意した用例コーパスから第1ステップによって認
    識誤り箇所が検出された認識結果文中の認識誤り箇所を
    含む認識誤り箇所近傍の単語系列に類似する部分系列を
    検索し、検索した各部分系列から認識誤り箇所に対応す
    る代替候補を抽出する第2ステップ、および第2ステッ
    プによって抽出された各代替候補から最適候補を選択す
    る第3ステップ、 を備えている音声認識における認識誤り箇所の訂正方
    法。
  6. 【請求項6】 第2ステップは、第1ステップによって
    認識誤り箇所が検出された認識結果文中の認識誤り箇所
    を含む認識誤り箇所近傍の単語系列と用例コーパスに含
    まれる各用例文中の部分系列との距離を算出し、算出さ
    れた距離に基づいて、認識誤り箇所が検出された認識結
    果文における認識誤り箇所を含む認識誤り箇所近傍の単
    語系列に類似する部分系列を検索する検索ステップ、お
    よび検索した各部分系列と上記認識誤り箇所近傍の単語
    系列の各単語の対応関係に基づいて、検索した各部分系
    列から認識誤り箇所に対応する代替候補を抽出する代替
    候補抽出ステップを備えている請求項3に記載の音声認
    識における認識誤り箇所の訂正方法。
  7. 【請求項7】 第3ステップは、第2ステップによって
    抽出された各代替候補と上記認識誤り箇所との音韻的な
    距離を考慮して、各代替候補から最適候補を選択するも
    のである請求項1、2、3、4、5および6のいずれか
    に記載の音声認識における認識誤り箇所の訂正方法。
  8. 【請求項8】 第3ステップは、第2ステップによって
    抽出された各代替候補と上記認識誤り箇所との音韻的な
    距離と、第2ステップによって抽出された各代替候補を
    含む用例文と認識誤り箇所が検出された認識結果文との
    距離とを考慮して、各代替候補から最適候補を選択する
    ものである請求項1、2、3および4のいずれかに記載
    の音声認識における認識誤り箇所の訂正方法。
  9. 【請求項9】 第3ステップは、第2ステップによって
    抽出された各代替候補と上記認識誤り箇所との音韻的な
    距離と、第2ステップによって抽出された各代替候補を
    含む部分系列と上記認識誤り箇所近傍の単語系列との距
    離とを考慮して、各代替候補から最適候補を選択するも
    のである請求項5および6のいずれかに記載の音声認識
    における認識誤り箇所の訂正方法。
  10. 【請求項10】 各代替候補と上記認識誤り箇所との音
    韻的な距離は、代替候補の音素系列と上記認識誤り箇所
    の音素系列とに基づいて算出され、認識誤り箇所の音素
    系列としては、認識誤り箇所の単語に対応する音素系列
    が用いられる請求項7、8および9のいずれかに記載の
    音声認識における認識誤り箇所の訂正方法。
  11. 【請求項11】 各代替候補と上記認識誤り箇所との音
    韻的な距離は、代替候補の音素系列と上記認識誤り箇所
    の音素系列とに基づいて算出され、認識誤り箇所の音素
    系列として、音声認識装置の音響モデルと言語モデルの
    うち、音響モデルと語彙制約のない言語モデルとを使用
    して生成される音素系列が用いられる請求項7、8およ
    び9のいずれかに記載の音声認識における認識誤り箇所
    の訂正方法。
JP2002054639A 2002-02-12 2002-02-28 音声認識における認識誤り箇所の訂正方法 Pending JP2003308094A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002054639A JP2003308094A (ja) 2002-02-12 2002-02-28 音声認識における認識誤り箇所の訂正方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2002-34018 2002-02-12
JP2002034018 2002-02-12
JP2002054639A JP2003308094A (ja) 2002-02-12 2002-02-28 音声認識における認識誤り箇所の訂正方法

Publications (1)

Publication Number Publication Date
JP2003308094A true JP2003308094A (ja) 2003-10-31

Family

ID=29405068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002054639A Pending JP2003308094A (ja) 2002-02-12 2002-02-28 音声認識における認識誤り箇所の訂正方法

Country Status (1)

Country Link
JP (1) JP2003308094A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009271117A (ja) * 2008-04-30 2009-11-19 Mitsubishi Electric Corp 音声検索装置および音声検索方法
WO2012004955A1 (ja) * 2010-07-06 2012-01-12 株式会社日立製作所 テキスト補正方法及び認識方法
JP2014149490A (ja) * 2013-02-04 2014-08-21 Nippon Hoso Kyokai <Nhk> 音声認識誤り修正装置及びそのプログラム
JP2014521115A (ja) * 2011-07-01 2014-08-25 日本電気株式会社 信頼度計算の方法及び装置
CN103871407B (zh) * 2012-12-07 2017-04-19 浦项工科大学校产学协力团 语音识别错误的纠正方法及装置
CN106782560A (zh) * 2017-03-06 2017-05-31 海信集团有限公司 确定目标识别文本的方法及装置
CN110992944A (zh) * 2019-12-17 2020-04-10 广州小鹏汽车科技有限公司 语音导航的纠错方法、语音导航装置、车辆和存储介质
WO2021104102A1 (zh) * 2019-11-25 2021-06-03 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009271117A (ja) * 2008-04-30 2009-11-19 Mitsubishi Electric Corp 音声検索装置および音声検索方法
WO2012004955A1 (ja) * 2010-07-06 2012-01-12 株式会社日立製作所 テキスト補正方法及び認識方法
JP2014521115A (ja) * 2011-07-01 2014-08-25 日本電気株式会社 信頼度計算の方法及び装置
US9336769B2 (en) 2011-07-01 2016-05-10 Nec Corporation Relative semantic confidence measure for error detection in ASR
CN103871407B (zh) * 2012-12-07 2017-04-19 浦项工科大学校产学协力团 语音识别错误的纠正方法及装置
JP2014149490A (ja) * 2013-02-04 2014-08-21 Nippon Hoso Kyokai <Nhk> 音声認識誤り修正装置及びそのプログラム
CN106782560A (zh) * 2017-03-06 2017-05-31 海信集团有限公司 确定目标识别文本的方法及装置
WO2021104102A1 (zh) * 2019-11-25 2021-06-03 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质
CN110992944A (zh) * 2019-12-17 2020-04-10 广州小鹏汽车科技有限公司 语音导航的纠错方法、语音导航装置、车辆和存储介质

Similar Documents

Publication Publication Date Title
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
Chelba et al. Retrieval and browsing of spoken content
JP3720068B2 (ja) 質問の転記方法及び装置
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US9336769B2 (en) Relative semantic confidence measure for error detection in ASR
US20040254795A1 (en) Speech input search system
US9361879B2 (en) Word spotting false alarm phrases
US20080221863A1 (en) Search-based word segmentation method and device for language without word boundary tag
Simonnet et al. Simulating ASR errors for training SLU systems
Simonnet et al. ASR error management for improving spoken language understanding
Toselli et al. Making two vast historical manuscript collections searchable and extracting meaningful textual features through large-scale probabilistic indexing
CN109948144B (zh) 一种基于课堂教学情境的教师话语智能处理的方法
Yamamoto et al. Topic segmentation and retrieval system for lecture videos based on spontaneous speech recognition.
Teixeira et al. A bootstrapping approach for training a ner with conditional random fields
CN112183073A (zh) 一种适用于法律热线语音识别的文本纠错和补全方法
Gandhe et al. Using web text to improve keyword spotting in speech
Chen et al. Integrating natural language processing with image document analysis: what we learned from two real-world applications
CN115510863A (zh) 一种面向问句匹配任务的数据增强方法
CN116127015A (zh) 基于人工智能自适应的nlp大模型分析系统
JP2003308094A (ja) 音声認識における認識誤り箇所の訂正方法
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
Decadt et al. Transcription of out-of-vocabulary words in large vocabulary speech recognition based on phoneme-to-grapheme conversion
JP2000259645A (ja) 音声処理装置及び音声データ検索装置
Besacier et al. Word confidence estimation for speech translation
JP2010277036A (ja) 音声データ検索装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060906

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061227