JP2999768B1

JP2999768B1 - 音声認識誤り訂正装置

Info

Publication number: JP2999768B1
Application number: JP11056910A
Authority: JP
Inventors: 開石川; 英一郎隅田
Original assignee: 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date: 1999-03-04
Filing date: 1999-03-04
Publication date: 2000-01-17
Anticipated expiration: 2019-03-04
Also published as: JP2000250589A

Abstract

【要約】【課題】訂正箇所の特定を行うことができ誤り訂正の
変換処理を行う。【解決手段】音声認識誤り訂正装置１０は音声認識結
果の入力文に対して構造解析して解析木形式の依存構造
を生成し、各係り受けに対して係り受けに対する用例単
語と入力単語との間の意味的距離を計算ししきい値より
も大きい係り受けを含む訂正箇所を抽出する。用例文か
ら訂正箇所の文字列に編集距離の近い文字列を含む用例
文を検索し、検索された用例文の形態素列から訂正箇所
に対応する形態素部分列を抽出し訂正箇所の形態素部分
列と置き換えることにより入力文の形態素列を訂正して
訂正候補の形態素列を得る。変換辞書を用いて訂正前後
の認識結果の形態素列を音素列に変換し、訂正前の認識
結果の音素列に対する訂正候補の音素列の音韻的距離を
計算し小さい音韻的距離の訂正候補を残し、再計算され
た意味的距離がしきい値以下である訂正候補を誤り訂正
結果とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、発声音声文の音声
信号を音声認識し、その音声認識結果に対して誤り訂正
処理を行う音声認識誤り訂正装置に関する。

【０００２】

【従来の技術】例えば、音声翻訳装置では、翻訳モジュ
ールは音声認識工程に帰因するエラーを含む発話を受け
入れる必要がある。従って、強力なエラー処理のフレー
ムワークの開発が、音声翻訳システムの性能を向上させ
る上で極めて重要である。

【０００３】例えば、従来技術文献１「H.Saito et a
l.,”Parsing Noisy Sentences”,Proceedings of COLI
NG '88,pp.561-566,1988年」においては、音素列に対し
て誤り部分の正解仮説を生成し、構文解析結果に基づく
仮説の検証を行なうが、訂正可能な領域が局所的である
という問題点があった。

【０００４】この問題点を解決するために、従来技術文
献２「脇田由実ほか，”意味的類似性を用いた後処理的
な音声認識正解部分特定法と音声翻訳手法への導入”，
人工知能学会音声言語情報処理研究会，１７−４，１９
９７年７月１８日」において、話し言葉を音声認識した
場合の誤り文の解析を目的として、音声認識処理後の結
果文から正解部分のみを特定する方法が提案されてい
る。この方法では、話し言葉の文法記述が困難であるこ
とと、音声認識用の言語処理が文の局所的な部分のみ制
約をかけていることを考慮し、用例に依存した単語間の
意味的距離と意味的距離の近さから決定された単語間の
依存関係とを用いて、音声認識の際の言語的な制約範囲
と比べてより大局的な範囲での表現の自然性を判断する
ことにより正解部分を特定している。この方法では、特
開平６−２７４１９２号公報において開示された言語構
成素境界パーザ（Constituent Boundary parser；以
下、ＣＢパーザという。）を用いて各局部的な部分木に
ついて計算されたその意味的距離に従って判断された発
話中の高信頼部分のみを翻訳するものである。

【０００５】しかしながらこの方法では、発話全体に対
する翻訳部分の再現率が低く、また翻訳が出力されない
場合がある。また、意味的距離を用いて正解部分の特定
を行なうが、認識誤りを訂正する枠組がないという問題
点があった。

【０００６】この問題点を解決するために、本特許出願
人は、特願平１０−２７５３２３号の特許出願におい
て、発声音声文の音声信号を音声認識し、その音声認識
結果に対して誤り訂正処理を行う音声認識誤り訂正装置
を開示している。この従来例の音声認識誤り訂正装置で
は、所定の用例文に対して所定の構造解析処理を行って
得られた用例解析木を格納する記憶手段と、上記音声認
識結果に対して所定の構造解析処理を行って入力解析木
を生成して出力する構造解析処理手段と、上記構造解析
処理手段から出力される入力解析木と、上記記憶手段に
格納された用例解析木とに基づいて、入力解析木の部分
木である各入力部分木と、用例解析木の部分木である各
用例部分木との間で音韻的に近接する部分木対を検索し
て、入力解析木と用例解析木との間の互換可能な構造に
基づいて誤り訂正処理を行って入力解析木の誤り訂正結
果を出力する誤り訂正処理手段と、上記誤り訂正処理手
段から出力される誤り訂正結果を含む発声音声文全体に
対して、単語間の類語の概念階層における位置関係に依
存して計算される意味的距離を計算することにより文全
体の大局的な妥当性を判断し、計算された意味的距離が
所定のしきい値以下のときに誤り訂正結果を含む発声音
声文の解析木を出力する意味的距離計算処理及び出力手
段とを備えたことを特徴としている。

【０００７】

【発明が解決しようとする課題】しかしながら、従来例
の音声認識誤り訂正装置においては、解析木データを用
いて誤り訂正を行なうが、用例と認識結果の解析木を照
合する際、認識誤りのために構造の不一致が生じると、
適切な句構造での訂正が妨げられ、誤り訂正の変換処理
を行うことができないという問題点があった。

【０００８】本発明の目的は以上の問題点を解決し、さ
らに従来例に比較して訂正箇所の特定を行うことができ
る音声認識誤り訂正装置を提供することにある。

【０００９】

【課題を解決するための手段】本発明に係る請求項１記
載の音声認識誤り訂正装置は、発声音声文の音声信号を
音声認識し、その音声認識結果の入力文に対して誤り訂
正処理を行う音声認識誤り訂正装置において、学習用テ
キストデータに基づいて所定の形態素解析を予め行って
得られた品詞付き形態素列を含む用例文を記憶する記憶
手段（２２）と、上記音声認識結果の入力文に対して所
定の構造解析処理を行って解析木形式の依存構造を生成
し、この際、各係り受けに対して、係り受けに対する用
例単語と入力単語との間の意味的距離を計算し、上記生
成された依存構造のすべての係り受けのうち、計算され
た意味的距離が所定の第１のしきい値よりも大きい係り
受けを含む訂正箇所を抽出する抽出手段（Ｓ１−Ｓ５）
と、上記記憶手段（２２）に記憶された用例文から、上
記抽出手段（Ｓ１−Ｓ５）によって抽出された訂正箇所
の文字列との間の編集距離の比が所定の第２のしきい値
以下である文字列を含む用例文を検索し、検索された用
例文の形態素列から上記訂正箇所に対応する形態素部分
列を抽出し、抽出した用例文中の形態素部分列を上記訂
正箇所の形態素部分列と置き換えることにより、入力文
の形態素列を訂正して訂正候補の形態素列を得る検索置
換手段（Ｓ６，Ｓ７）と、単語から音素列への所定の変
換辞書を用いて、上記検索置換手段（Ｓ６，Ｓ７）によ
る訂正前の認識結果の形態素列を音素列に変換するとと
もに、上記検索置換手段（Ｓ６，Ｓ７）による訂正候補
の形態素列を音素列に変換し、訂正前の認識結果の音素
列に対する訂正候補の音素列の編集距離の比を表す音韻
的距離を計算し、音韻的距離が所定の第３のしきい値よ
り小さい訂正候補のみを残す選別手段（Ｓ８）と、上記
選別手段（Ｓ８）によって残った訂正候補に対して上記
構造解析処理を行って解析木形式の依存構造を生成し、
この際、各係り受けに対して、係り受けに対する用例単
語と入力単語との間の意味的距離を再計算し、再計算さ
れた意味的距離が上記第１のしきい値以下であるとき
に、当該訂正候補を誤り訂正結果として出力する再計算
手段（Ｓ９−Ｓ１１，Ｓ１３）とを備えたことを特徴と
する。

【００１０】また、請求項２記載の音声認識誤り訂正装
置は、請求項１記載の音声認識誤り訂正装置において、
上記再計算された意味的距離が上記第１のしきい値を超
えるときに、上記抽出手段（Ｓ５）と、上記検索置換手
段（Ｓ６，Ｓ７）と、上記選別手段（Ｓ８）と、上記再
計算手段（Ｓ９−Ｓ１１，Ｓ１３）の処理を繰り返す再
帰的訂正手段をさらに備えたことを特徴とする。

【００１１】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【００１２】図１は、本発明に係る一実施形態である音
声認識誤り訂正装置の構成を示すブロック図であり、図
２は、図１の音声認識誤り訂正装置１０によって実行さ
れる音声認識誤り訂正処理を示すフローチャートであ
る。本実施形態の音声認識誤り訂正装置は、音声認識装
置２と、音声認識誤り訂正装置１０とを備えて構成さ
れ、音声認識誤り訂正装置１０は図２の音声認識誤り訂
正処理を実行し、特に、従来例に比較して、訂正箇所特
定処理（ステップS５）、用例文検索処理（ステップＳ
６）及び訂正箇所との対応付け及び形態素列の置換処理
（ステップＳ７）を実行することを特徴としている。本
実施形態では、テキストコーパス中の用例文を、解析木
でなく形態素列で照合する訂正手法を用いる。本手法に
よれば、用例を構造に依存しない形態素列によって照合
するので、用例のより柔軟な照合が可能である。

【００１３】図１において、音声認識の後誤り訂正の対
象となり得る発声音声（日本語又は英語などの自然言語
文からなる）はマイクロホン１に入力されて、音声信号
に変換された後、音声認識装置２に入力される。音声認
識装置２は、例えば特開平９−１３４１９２号公報で開
示されたような公知の音声認識装置であって、入力され
る音声信号をＡ／Ｄ変換した後ＬＰＣ分析を行って音響
的特徴パラメータを抽出した後、音素隠れマルコフモデ
ル（音素ＨＭＭ）を用いて音素列を特定し、かつ所定の
統計的言語モデルを用いて単語列からなる自然言語文の
音声認識結果を得て音声認識誤り訂正装置１０に出力す
る。これに応答して、音声認識誤り訂正装置１０は、タ
グ付き形態素列データメモリ２２内の品詞タグ付き形態
素列データと、単語音素変換辞書メモリ２３内の単語音
素変換辞書とに基づいて、図２の音声認識誤り訂正処理
を実行して、構造解析結果のタグを含み訂正候補で訂正
された音声認識結果を出力する。

【００１４】次いで、図２を参照して、音声認識誤り訂
正装置１０によって実行される音声認識誤り訂正処理に
ついて詳細に説明する。

【００１５】まず、図２の処理の流れについて簡単に説
明する。ステップＳ１乃至Ｓ３の意味的訂正判断処理で
は、まず入力された音声認識結果を公知のＣＢパーザを
用いて構造解析し、解析木構造を得る。この際、構造の
各ノード及び構造全体に対し、意味的距離が計算され、
得られた構造全体に対する意味的距離が所定のしきい値
Θよりも小さい場合（ステップＳ３でＮＯ）、誤り訂正
は不要と判断して構造解析結果の依存構造を含む入力文
を音声認識結果として出力する（ステップＳ４）。一
方、得られた構造全体に対する意味的距離が所定のしき
い値Θよりも大きい場合（ステップＳ３でＹＥＳ）、し
きい値Θを超える意味距離を持つすべての部分構造を抽
出し、その部分構造が含む形態素列を訂正箇所とする
（ステップＳ５）。次いで、ステップＳ６乃至Ｓ８の形
態素列訂正処理では、まず、類似文字列検索によりテキ
ストコーパス中から似た文字列を含む用例文を検索し
（ステップＳ６）、この検索された用例文の形態素列か
ら、訂正箇所の形態素列に対応する部分を抽出し、この
部分に関して認識結果の形態素列を置換することで訂正
候補を得る（ステップＳ７）。この訂正候補の認識結果
に対する音韻的距離を計算し、計算された音韻的距離が
所定のしきい値Δより小さな候補のみを残す（ステップ
Ｓ８）。さらに、ステップＳ９乃至Ｓ１１の訂正候補の
妥当性判断処理では、ステップＳ８で残った訂正候補に
対してステップＳ１乃至Ｓ３の処理と同様に構造解析を
行い、訂正候補に対する解析木構造を得る。訂正候補の
中で、構造全体に対する意味的距離の値が所定のしきい
値Θより小さいものが存在した場合、それら全ての候補
は誤りを回復したものとみなし、音韻的距離が最小のも
のを最終的な誤り訂正結果として終了する（ステップＳ
１１及びＳ１３）。候補中に条件を満たすものが存在し
ない場合（ステップＳ１１でＹＥＳ）、処理回数のチェ
ックを行った（ステップＳ１２）後ステップＳ５に戻
り、それぞれの訂正候補から再帰的に訂正を試みる。

【００１６】図２のステップＳ１において、構造解析及
び意味的距離計算処理を実行する。この処理では、音声
認識装置２から入力された音声認識結果（自然言語の文
字列）を公知のＣＢパーザ（上述の従来技術の項で説明
したものであって、特開平６−２７４１９２号公報にお
いて開示されている。）を用いて形態素解析処理を含む
構造解析処理を実行し、ＣＢパーザは、入力文に対して
依存関係を適用し、ボトムアップに多分木の解析木形式
を有する依存構造を作成する。同時に、依存構造の各係
り受けに対して、意味的距離が計算される。この意味的
距離は、構造解析のときに用いる各言語パターンに対し
て予め格納された用例単語と入力単語との間の意味的距
離であり、シソーラスの意味情報（例えば、従来技術文
献３「大野晋ほか編集，”角川類語新辞典”，角川書
店，１９８１発行」において定義されたものを使用す
る。）に基づいて計算される。適切な係り受けである場
合、この意味的距離が小さな値をとる。このため、係り
受けの妥当性の指標とすることができる。

【００１７】ここで、解析木は、文の形態素列に対し
て、構造解析の際に照合された言語パターン及びその属
性値、計算された意味的距離が添付され、言語パターン
による係り受けをノードとし、形態素を終端記号に持つ
木構造をなす。解析木には、解析木中の各ノードを頂点
とし、終端記号を下位構造（底辺）に持つような部分構
造、すまわち閉じた部分木が含まれる。従って、解析木
がそれ自身の頂点を含めてＮ個のノードを持つ場合、解
析木に含まれる閉じた部分木の数もＮである。ここで部
分木には解析木全体自身も含まれる。

【００１８】また、言語パターンの意味的距離について
説明する。言語パターンに関する意味的距離は、言語パ
ターンの各変項について、入力単語と用例単語の意味的
距離を計算し、計算された単語間の意味的距離に重みを
乗じて累積した値である。単語間の意味的距離は、単語
間の類語の概念階層における位置関係に依存して０から
１までの値を与える。２つの単語が全く同じ概念に属し
ていれば意味的距離は０であり、全く関係のない概念で
あれば１となる。単語間の意味的距離は概念階層におけ
る位置を示した類語コードに基づいて計算される。この
類語コードは上述のように、ステップＳ１の処理で付加
される。

【００１９】以下、単語間の意味的距離の計算方法の具
体例について説明する。言語パターンにおける入力単語
と用例単語との意味的距離計算は、変項を具体化する中
心単語について行う。言語パターン”X at Y”（動詞
句）は”leaves verb-propn Kyoto at eleven a.m.”と
照合する場合、変項Ｘ、Ｙを具体化する文字列は、それ
ぞれ、”leaves verb-propn Kyoto”と”eleven a.m.”
である。各言語パターンには中心語句となるべき部分が
指定されており、例えば、”X verb-propn Y”では
Ｘ、”X a.m.”では”a.m.”と指定されている。従っ
て、”leaves verb-propn Kyoto”と”eleven a.m.”の
中心単語は”leaves”と”a.m.”であり、”X atY”に
おける意味的距離計算の入力となる。

【００２０】言語パターン”X at Y”（動詞句）は、変
項Ｘ、Ｙを具体化する用例として、「Ｘ＝present，Ｙ
＝conference，」、「Ｘ＝arrive，Ｙ＝p.m.」などを、
例えば言語パターン検索テーブルに予め記憶されていた
とする。このとき、入力単語（Ｘ＝leaves，Ｙ＝a.
m.）と用例単語（Ｘ＝arrive，Ｙ＝p.m.，）の距離
は、変項Ｘに関する”leaves”と”arrive”の距離を
０．３３とし、変項Ｙに関する”a.m.”と”p.m.”の距
離を０．００とすれば、変項ＸとＹの重みを一律に０．
５とすれば入力とこの用例の距離は

【数１】０．３３×０．５＋０．００×０．５＝０．１７と計算することができる。ここで、言語パターンの用例
単語のすべてについて入力単語との距離を計算し、最小
の距離を、入力単語と用例単語との距離とする。

【００２１】図２のステップＳ１の処理における構造解
析の結果得られた最尤構造を以降の処理における入力解
析木とする。解析木は、入力文の形態素列に対して、構
造解析の際に照合された言語パターン及びその属性値、
計算された意味的距離が添付され、言語パターンによる
係り受けをノードとし、形態素を終端記号に持つ木構造
を有する。

【００２２】次いで、図２のステップＳ２において、計
算された意味的距離の値を所定のしきい値Θと比較し、
得られた構造全体に対する意味的距離がしきい値Θより
も小さい場合（ステップＳ３のＮＯ）、誤り訂正は不要
と判断し、ステップＳ４で構造解析結果の解析木を含む
入力文の形態素列を音声認識結果として出力して当該音
声認識誤り訂正処理を終了する。一方、得られた構造全
体に対する意味的距離がしきい値Θよりも大きい場合
（ステップＳ３のＹＥＳ）、誤り訂正が必要と判断し、
ステップＳ５以降の処理を実行する。

【００２３】図２のステップＳ５では、訂正箇所特定処
理を実行する。この処理では、しきい値Θを超える意味
的距離を持つすべての部分構造を抽出し、その部分構造
が含む形態素列を訂正箇所とする。すなわち、構造解析
の結果得られた依存構造と意味的距離に基づいて、訂正
箇所の特定を行う。依存構造の各係り受けに対する意味
的距離は、値が小さければ依存関係が妥当であると信頼
できる。それゆえ、訂正箇所としては、逆に信頼性の低
い依存関係を含む部分を特定すればよい。まず、依存構
造の全ての係り受けのうちしきい値Θよりも大きな意味
的距離を持つ係り受けを信頼性が低いものとし、これら
の係り受けより上位の部分構造をすべて取り出す。そし
て、これらの部分構造それぞれに対応する形態素部分列
を訂正箇所とする。なお、本実施形態において、形態素
列と単語列との間で特に区別はしていない。また、形態
素列に対応した文字列とは、各形態素を構成する文字列
を形態素列の並び順に接続して得られる文字列のことで
ある。

【００２４】ここで、訂正箇所特定処理について、図３
を参照して、具体例を挙げて説明する。図３において、
“認識結果”では、ステップＳ１における入力文の具体
例を示す。ここで、“いずれの戦”の部分が認識誤りで
あり、正解は“いずれも税”である。この入力文に対し
て、ステップＳ１の処理の結果、“形態素解析の結果”
に示す形態素列を得て、これに対する解析木形式の“依
存構造”を得る。図３では、依存構造を木構造で表現
し、各係り受けａ，ｂ，ｃ，ｄ，ｅ，ｆ，ｇ，ｈに対し
て計算された意味的距離の値を横に数値で示す。

【００２５】ここで、意味的距離のしきい値Θが０．３
である場合、依存構造の全ての係り受けのうち、しきい
値Θよりも大きな意味的距離を持つのは係り受けｃであ
る。ｃより上位のすべての部分構造は、ｃ，ｄ，ｆ，
ｇ，ｈをそれぞれ頂点に持つ部分構造である。これに対
する形態素列として、“訂正箇所”に示す（Ａ１）−
（Ａ５）のような形態素部分列を得る。例えば、（Ａ
１）の形態素部分列（８，１０）は、形態素列の始点と
終点を“形態素解析の結果”における形態素番号を用い
て示しており、具体的に“戦サービス料”を表わす。

【００２６】次いで、図２のステップＳ６では、タグ付
き形態素列データメモリ２２内のタグ付き形態素列デー
タを参照して用例文検索処理を実行する。ここで、タグ
付き形態素列データは、以下のように生成されたもので
ある。所定の自然言語の発声発話文を書き下したテキス
トデータは、学習用テキストデータメモリ２１に格納さ
れ、当該テキストデータは、公知の形態素解析処理（例
えば、特開平８−０４４７４０号公報で開示されてい
る。）を用いて形態素解析装置２０によって、タグ付き
形態素列データに変換された後、タグ付き形態素列デー
タメモリ２２に格納される。具体例として、テキストデ
ータ“もしもしわたし田中弘子といいますがそちらのホ
テルの予約したいのですが”に対して生成されるタグ付
き形態素列データを以下に示す。

【００２７】

【表１】タグ付き形態素列データの一例 ―――――――――――――――――――――――――――――――――― (:MORPH((:WORD”もしもし”:REG-EXP”もしもし”:POS感動詞:ATTRIBUTE NIL:S EM-CODE(789):COMPOUND NIL)(:WORD”わたし”:REG-EXP”私”:POS代名詞:ATTRI BUTE NIL:SEM-CODE(501):COMPOUND NIL)(:WORD”田中”:REG-EXP”田中”:POS普通名詞:ATTRIBUTE NIL:SEM-CODE(822):COMPOUND NIL)(:WORD”弘子”:REG-EXP” 弘子”:POS普通名詞:ATTRIBUTE NIL:SEM-CODE(822):COMPOUND NIL)(:WORD”と” :REG-EXP”と”:POS格助詞:ATTRIBUTE NIL:SEM-CODE NIL:COMPOUND NIL)(:WORD ”いい”:REG-EXP”言う”:POS本動詞:ATTRIBUTE((:CONJ-FORM.連用)):SEM-CODE (822340):COMPOUND NIL)(:WORD”ます”:REG-EXP”ます”:POS助動詞:ATTRIBUTE ((:CONJ-FORM.基本)):SEM-CODE NIL:COMPOUND NIL)(:WORD”が”:REG-EXP”が” :POS接続助詞:ATTRIBUTE NIL:SEM-CODE NIL:COMPOUND NIL)(:WORD”そちら”:RE G-EXP”そちら”:POS代名詞:ATTRIBUTE NIL:SEM-CODE(503109101):COMPOUND NIL )(:WORD”の”:REG-EXP”の”:POS連体助詞:ATTRIBUTE NIL:SEM-CODE NIL:COMPO UND NIL)(:WORD”ホテル”:REG-EXP”ホテル”:POS普通名詞:ATTRIBUTE NIL:SEM -CODE(729):COMPOUND NIL)(:WORD”の”:REG-EXP”の”:POS連体助詞:ATTRIBUTE NIL:SEM-CODE NIL:COMPOUND NIL)(:WORD”予約する”:REG-EXP”予約する”:PO S本動詞:ATTRIBUTE((:CONJ-FORM.連用)):SEM-CODE(448):COMPOUND NIL)(:WORD” たい”:REG-EXP”たい”:POS助動詞:ATTRIBUTE((:CONJ-FORM.基本)):SEM-CODE N IL:COMPOUND NIL)(:WORD”のです”:REG-EXP”のです”:POS助動詞:ATTRIBUTE(( :CONJ-FORM.基本)):SEM-CODE NIL:COMPOUND NIL)(:WORD”が”:REG-EXP”が”:P OS接続助詞:ATTRIBUTE NIL:SEM-CODE NIL:COMPOUND NIL))) ――――――――――――――――――――――――――――――――――

【００２８】図２のステップＳ６の用例文検索処理で
は、タグ付き形態素列データメモリ２２内の用例文の中
から、訂正箇所の形態素部分列に音韻的に近い形態素列
を含む用例文を検索する。ここで、音韻的な近さを文字
列の編集距離によって近似することにより、訂正箇所の
文字列とテキストコーパスの文字列間の誤りを許した照
合の問題に帰着する。本実施形態では、訂正箇所の文字
列に対して、編集距離の比が所定のしきい値δ以下の文
字列を含む用例文を検索する。

【００２９】具体的には、形態素列データ中のすべての
用例文に対して文字列を生成し、これに対して訂正箇所
の形態素部分列から生成された文字列を検索要求とした
類似文字列検索を行う。文字列の生成方法として、例え
ば上記のタグ付き形態素列データから、“:REG-EXP”の
要素のみを抜き出して並べることにより、文字列“もし
もし私田中弘子と言うますがそちらのホテルの予約する
たいのですが”を得る。一方、訂正箇所として得られた
形態素部分列からも同様にして文字列を得る。訂正箇所
に対して得られた文字列を検索要求として、形態素列デ
ータのすべての用例の文字列に対して、類似文字列検索
を、公知の類似文字列検索方法（例えば、従来技術文献
４「Ｙ．Ｌｅｐａｇｅ，”ＳｔｒｉｎｇＡｐｐｒｏｘ
ｉｍａｔｅＰａｔｔｅｒｎ−Ｍａｔｃｈｉｎｇ”，情
報処理学会第５５回全国大会講演論文集，Ｖｏｌ．３，
ｐｐ．１３９−１４０，１９９７年」や特開平１０−１
３４０８５号公報参照。）を用いて実行する。このと
き、編集距離のしきい値として訂正箇所の文字列の長さ
と、所定のしきい値δの積の値を用いる。これにより、
訂正箇所の文字列に対して、編集距離の比がしきい値δ
以下の文字列を含む用例文が検索される。

【００３０】次いで、図２のステップＳ７で訂正箇所の
対応付け及び形態素列の置換処理を実行する。この処理
では、ステップＳ６で検索された各用例文から、認識結
果の訂正箇所に対応する形態素部分列を抽出する。ここ
では、用例文の可能な形態素部分列のうち、訂正箇所に
対して形態素部分列の編集距離が最小となるものをＤＰ
マッチング法によって求める。具体的には、用例文の形
態素列から切り出されるすべての可能な形態素部分列に
対して、訂正箇所の形態素列との間の形態素に関する編
集距離を計算し、このうち最小の値を持つ形態素列部分
を用例文中の訂正箇所に対応する部分とする。このよう
にして得られた用例文の形態素部分列を認識結果の訂正
部分と置き換えることにより、訂正候補の形態素列が得
られる。

【００３１】さらに、ステップＳ８の訂正候補の音韻的
選別処理では、訂正前の認識結果の形態素列を単語音素
変換辞書メモリ２３内の単語音素変換辞書を参照して形
態素列から音素列への変換処理を行って訂正前の認識結
果の音素列を得るとともに、訂正候補の形態素列を単語
音素変換辞書メモリ２３内の単語音素変換辞書を参照し
て形態素列から音素列への変換処理を行って訂正候補の
音素列を得る。そして、訂正前の認識結果の音素列に対
する訂正候補の音素列の編集距離の比を音韻的距離と定
義し、訂正候補の認識結果に対する音韻的距離が所定の
しきい値Δより小さな訂正候補（すなわち、音韻的に近
接又は類似している訂正候補）のみを残す。これによ
り、訂正候補の中で元の認識結果に音韻的に近いものだ
けが得られる。ここで、編集距離とは、公知の通り、入
力音素列に対して、用例の音素列を得るために、音素を
削除、挿入又は置換する操作を行うときの処理操作の数
の和をいう。

【００３２】単語音素変換辞書メモリ２３は、単語から
音素列に変換するためのそれらの対の複数のデータが格
納される。この一例を以下に示す。左側の単語の表現形
に対する音素列が、右側に記述されている。

【００３３】

【表２】 ―――――――――――――――――――――――――――――――――― １０３４０［そして］ｓｏｓｈｉｔｅ｛｜−｝＃そして｜ソシテ｜そして｜接続詞｜｜｜｜ ―――――――――――――――――――――――――――――――――― １０３４１［両日］ｒｊｏｏｚｈｉｔｓｕ｛｜−｝＃両日｜リョウジツ｜両日｜普通名詞｜｜｜｜ ―――――――――――――――――――――――――――――――――― １０３４２［とも］ｔｏｍｏ｛｜−｝＃とも｜トモ｜とも｜普通名詞｜｜｜｜ ―――――――――――――――――――――――――――――――――― １０３４３［てくださっ］ｔｅｋｕｄａｓａｑ＃てくださっ｜テクダサッ｜てくださる｜助動詞｜特殊ラ｜た｜｜ ―――――――――――――――――――――――――――――――――― １０３４４［ぐらい］ｇｕｒａｉ｛｜−｝＃ぐらい｜グライ｜ぐらい｜副助詞｜｜｜｜ ―――――――――――――――――――――――――――――――――― １０３４５［参り］ｍａｉｒｉ｛｜−｝＃参り｜マイリ｜参る｜本動詞｜五段ラ｜連用｜｜ ―――――――――――――――――――――――――――――――――― １０３４６［京都観光ホテル］ｋｊｏｏｔｏｋａｎｇｋｏｏｈｏｔｅｒｕ｛｜−｝＃京都観光ホテル｜キョウトカンコウホテル｜京都観光ホテル｜普通名詞｜｜｜｜ ―――――――――――――――――――――――――――――――――― １０３４７［フロント］ｈｕｒｏｎｇｔｏ｛｜−｝＃フロント｜フロント｜フロント｜普通名詞｜｜｜｜ ―――――――――――――――――――――――――――――――――― １０３４８［日曜日］ｎｉｃｈｉｊｏｏｂｉ｛｜−｝＃日曜日｜ニチヨウビ｜日曜日｜普通名詞｜｜｜｜＜一部＞ ――――――――――――――――――――――――――――――――――

【００３４】次いで、ステップＳ９及びＳ１０では、訂
正候補で訂正された音声認識結果に対して、ステップＳ
１及びＳ２と同様に、構造解析及び意味的距離計算処
理、並びに計算された意味的距離の値としきい値との比
較処理を実行する。すなわち、訂正候補の妥当性判断を
行い、ステップＳ８で残った訂正候補に対してステップ
Ｓ１と同様に構造解析を行い、解析木構造を有する音声
認識結果の訂正候補を得る。そして、訂正候補の中で、
構造全体に対する意味的距離の値がしきい値Θより小さ
いものが存在した場合（ステップＳ１１でＮＯ）、それ
ら全ての候補は誤りを回復したものとみなし、音韻的距
離が最小のものを最終的な訂正結果とし、構造解析結果
の依存構造を含む音声認識結果の訂正結果を出力して当
該音声認識誤り訂正処理を終了する。一方、訂正候補中
に条件を満たすものが存在しない場合（ステップＳ１１
でＹＥＳ）、ステップＳ１２でステップＳ５以降の処理
回数が所定のしきい値回数（例えば、２，３回程度）以
下であるか否かが判断され、ＹＥＳであれば、ステップ
Ｓ５に戻り、上記の処理を繰り返す。一方、ＮＯであれ
ば、さらに繰り返しても回答が収束せず、訂正候補を得
ることができないと判断して、ステップＳ４で構造解析
結果の依存構造を含む、入力文を音声認識結果として出
力する。

【００３５】すなわち、ステップＳ５乃至Ｓ８で音韻的
に認識結果に近い訂正候補が得られても、ステップＳ９
乃至Ｓ１１で、意味的距離の観点で誤りが回復したと判
断されなければ訂正結果としては認めない。このような
訂正候補の中には、単に訂正が間違いであるものの他
に、訂正は正しく部分的には誤りが回復したが、訂正箇
所以外にさらに誤りが存在するために完全には回復して
いないものも含まれる。このような後者の候補に対して
は、さらに誤り訂正を繰り返すことで完全な回復が見込
まれる。このため、訂正候補中に意味的距離の条件を満
たすものが存在しない場合、ステップＳ５に戻り、それ
ぞれの訂正候補から再帰的に訂正を試みる。

【００３６】以上の実施形態において、音声認識装置２
と音声認識誤り訂正装置１０と形態素解析装置２０と
は、例えばデジタル計算機などの中央演算処理装置で構
成され、また、学習用テキストデータメモリ２１とタグ
付き形態素列データメモリ２２と単語音素変換辞書メモ
リ２３とは、例えば、ハードディスクメモリなどの記憶
装置で構成される。

【００３７】以上の実施形態においては、日本語に関す
る処理を例示しているが、本発明はこれらの言語に限ら
ず、他の種々の自然言語に適用することができる。

【００３８】

【実施例】本発明者は、本実施形態の手法の有効性を確
認するために、本実施形態の手法を音声翻訳システムに
組み込んで翻訳実験を行った。すなわち、実験で用いた
システムは、図１のシステムにおいて音声認識装置２と
音声認識誤り訂正装置１０との間に機械翻訳装置が挿入
された音声翻訳システムとなる。入力は日英翻訳システ
ムで学習済みの旅行会話データのうち日本語３３７文を
用いた。学習用テキストコーパスは、同様に旅行会話デ
ータのうち入力文を含んだ異なり１５，２６４文を用い
た。ここで、意味的距離に対するしきい値Θは１．０
を、音韻的距離に対するしきい値Δは０．３を、類似文
字列検索に対するしきい値δは０．３を用いた。

【００３９】まず、訂正必要性判断と認識誤りの関係を
表３に示す。ステップＳ３の訂正必要性判断において、
音声認識結果が正しいものに対しては、９１％の精度で
訂正が不要と判断し、認識誤りのある入力に対しては、
５９％の精度で訂正が必要と判断している。さらに、訂
正が必要と判断されたものに対して、訂正結果が出力さ
れたのは認識誤りのある入力のうち２７％であり、正し
いにも関わらず訂正が必要と判断された入力に対しては
訂正は得られていない。

【００４０】

【表３】訂正必要性判断と認識誤りの関係（全３３７入力文） ―――――――――――――――――――――――――――――――――― 誤った入力正しい入力２２４９３ ―――――――――――――――――――――――――――――――――― 訂正必要１５３１４５（５９％）８（９％） ―――――――――――――――――――――――――――――――――― （訂正出力６６）６６（２７％）０（０％） ―――――――――――――――――――――――――――――――――― 訂正不要１８４９９（４１％）８５（９１％） ――――――――――――――――――――――――――――――――――

【００４１】次に、翻訳結果の評価について述べる。翻
訳結果に対する評価基準として、以下に示すような、情
報伝達に着目した４段階の基準を用いた。

【００４２】

【表４】翻訳結果の評価基準 ―――――――――――――――――――――――――――――――――― 評価Ａ（完全）原言語正解分と完全に同じ意味にとれる。 ―――――――――――――――――――――――――――――――――― 評価Ｂ（十分）原言語正解分とほぼ同じ意味にとれる。 ―――――――――――――――――――――――――――――――――― 評価Ｃ（部分）原言語正解文の主要情報が部分的には伝わる。 ―――――――――――――――――――――――――――――――――― 評価Ｄ（不適）原言語正解文の主要情報が伝わらない／誤解が生じる。 ――――――――――――――――――――――――――――――――――

【００４３】入力３３７文の音声認識結果に対して、直
接翻訳処理した結果と、本実施形態の手法を用いた結果
を評価した結果を以下に示す。

【００４４】

【表５】本実施形態の装置による翻訳結果（全３３７入力文） ―――――――――――――――――――――――――――――――――― 訂正なし訂正あり ―――――――――――――――――――――――――――――――――― 翻訳率６４％（２１７）７４％（２４９） ―――――――――――――――――――――――――――――――――― 評価Ａ４１％（１３９）５４％（１８５）評価Ｂ１１％（３８）１０％（３４）評価Ｃ１２％（４０）９％（３０）評価Ｄ２５％（８５）１８％（６１）該当なし１０％（３５）８％（２７） ――――――――――――――――――――――――――――――――――

【００４５】訂正によって評価Ａへ回復したものが多
く、翻訳率（評価ＡＢＣの合計）も６４％から７４％に
向上していることが分かる。さらに訂正の出力が得られ
た６６文のみに関して、比較してみると、以下のように
なる。

【００４６】

【表６】訂正の得られた６６入力文に関する比較 ―――――――――――――――――――――――――――――――――― 訂正なし訂正あり ―――――――――――――――――――――――――――――――――― 翻訳率４５％（３０）９４％（６２） ―――――――――――――――――――――――――――――――――― 評価Ａ５％（３）７４％（４９）評価Ｂ２０％（１３）１４％（９）評価Ｃ２１％（１４）６％（４）評価Ｄ４２％（２８）６％（４）該当なし１２%（８）０％（０） ――――――――――――――――――――――――――――――――――

【００４７】訂正の得られた入力文は、訂正前の翻訳率
が４５％であり、全入力文に対する値６４％よりもかな
り低い。これに対して訂正後は９４％と高い値を得てい
る。この結果は、比較的誤りのひどい入力に対しても本
実施形態の手法が有効であり、適切な訂正結果が得られ
ることを示している。

【００４８】次いで、従来例の装置との比較について説
明する。本実施形態では、解析木データを用いる従来例
の装置の問題を解決するために、用例を構造を持たない
形態素列として照合する手法を検討した。その他の相違
点として、訂正箇所の特定、及び再帰的訂正処理が挙げ
られる。これらのうち、訂正箇所の特定に関しては、従
来例の装置ですべての部分構造を考慮していたのに比
べ、意味的距離の観点で訂正箇所を絞り込むことによ
り、訂正候補の作成における計算コストを削減すること
が可能となった。また、再帰的訂正処理により、複数箇
所の誤りを持つ入力が複数回の訂正処理で回復されるこ
とも確認された。しかしながら、今回の評価の中では、
訂正結果の得られる発話数は、認識誤りに対して訂正処
理が行われたうちの約５割程度であり、従来例の装置で
の結果との間で大きな差は認められなかった。その理由
として、用例中に認識結果の正解が含まれる実験条件で
は、認識結果と用例の照合において、どちらの手法でも
正解との対応がある程度保証されるため、性能に差が出
ないと考えられる。

【００４９】以上説明したように、本実施形態によれ
ば、テキストコーパス中の用例文を、解析木でなく形態
素列で照合する訂正方法を用いたので、用例を構造に依
存しない形態素列によって照合するので、用例のより柔
軟な照合が可能である。すなわち、意味的な観点で誤り
訂正が可能であって、従来例の装置と同様の誤り訂正の
精度で音声認識誤り訂正を行うことができる。また、再
計算された意味的距離が所定のしきい値Θよりも大きい
ときに、再度ステップＳ５からの処理を実行するので、
複数箇所の誤りの再帰的な訂正が可能である。

【００５０】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の音声認識誤り訂正装置によれば、発声音声文の
音声信号を音声認識し、その音声認識結果の入力文に対
して誤り訂正処理を行う音声認識誤り訂正装置におい
て、学習用テキストデータに基づいて所定の形態素解析
を予め行って得られた品詞付き形態素列を含む用例文を
記憶する記憶手段（２２）と、上記音声認識結果の入力
文に対して所定の構造解析処理を行って解析木形式の依
存構造を生成し、この際、各係り受けに対して、係り受
けに対する用例単語と入力単語との間の意味的距離を計
算し、上記生成された依存構造のすべての係り受けのう
ち、計算された意味的距離が所定の第１のしきい値より
も大きい係り受けを含む訂正箇所を抽出する抽出手段
（Ｓ１−Ｓ５）と、上記記憶手段（２２）に記憶された
用例文から、上記抽出手段（Ｓ１−Ｓ５）によって抽出
された訂正箇所の文字列との間の編集距離の比が所定の
第２のしきい値以下である文字列を含む用例文を検索
し、検索された用例文の形態素列から上記訂正箇所に対
応する形態素部分列を抽出し、抽出した用例文中の形態
素部分列を上記訂正箇所の形態素部分列と置き換えるこ
とにより、入力文の形態素列を訂正して訂正候補の形態
素列を得る検索置換手段（Ｓ６，Ｓ７）と、単語から音
素列への所定の変換辞書を用いて、上記検索置換手段
（Ｓ６，Ｓ７）による訂正前の認識結果の形態素列を音
素列に変換するとともに、上記検索置換手段（Ｓ６，Ｓ
７）による訂正候補の形態素列を音素列に変換し、訂正
前の認識結果の音素列に対する訂正候補の音素列の編集
距離の比を表す音韻的距離を計算し、音韻的距離が所定
の第３のしきい値より小さい訂正候補のみを残す選別手
段（Ｓ８）と、上記選別手段（Ｓ８）によって残った訂
正候補に対して上記構造解析処理を行って解析木形式の
依存構造を生成し、この際、各係り受けに対して、係り
受けに対する用例単語と入力単語との間の意味的距離を
再計算し、再計算された意味的距離が上記第１のしきい
値以下であるときに、当該訂正候補を誤り訂正結果とし
て出力する再計算手段（Ｓ９−Ｓ１１，Ｓ１３）とを備
える。従って、本発明によれば、学習用テキストデータ
であるテキストコーパス中の用例文を、解析木でなく形
態素列で照合する訂正方法を用いたので、用例を構造に
依存しない形態素列によって照合するので、用例のより
柔軟な照合が可能である。すなわち、意味的な観点で誤
り訂正が可能であって、従来例の装置と同様の誤り訂正
の精度で音声認識誤り訂正を行うことができる。

【００５１】また、請求項２記載の音声認識誤り訂正装
置によれば、請求項１記載の音声認識誤り訂正装置にお
いて、上記再計算された意味的距離が上記第１のしきい
値を超えるときに、上記抽出手段（Ｓ５）と、上記検索
置換手段（Ｓ６，Ｓ７）と、上記選別手段（Ｓ８）と、
上記再計算手段（Ｓ９−Ｓ１１，Ｓ１３）の処理を繰り
返す再帰的訂正手段をさらに備える。従って、本発明に
よれば、複数箇所の誤りの再帰的な訂正が可能である。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である音声認識誤り
訂正装置の構成を示すブロック図である。

【図２】図１の音声認識誤り訂正装置１０によって実
行される音声認識誤り訂正処理を示すフローチャートで
ある。

【図３】図２の訂正箇所特定処理の一例を説明するた
めの説明図である。

【符号の説明】

１…マイクロホン、２…音声認識装置、１０…音声認識誤り訂正装置、２０…形態素解析装置、２１…学習用テキストデータメモリ、２２…タグ付き形態素列データメモリ、２３…単語音素変換辞書メモリ。

フロントページの続き (56)参考文献特公平７−69710（ＪＰ，Ｂ２) 特許2950823（ＪＰ，Ｂ１) 情報処理学会研究報告［音声言語情報処理］Ｖｏｌ．98，Ｎｏ．49，98−ＳＬＰ−21−４，「文字連鎖の統計的情報を利用した音声認識誤り訂正手法」ｐ．47 −54，（1998／５／29発表) 情報処理学会日本文入力方式研究会資料，Ｖｏｌ．19，「音声入力における誤認識訂正処理」ｐ．19，１．１−19. １．８，（1984／12／５) 情報処理学会第41回（平成２年後期) 全国大会講演論文集（３），２Ｓ−７, 「音声言語翻訳のための日本語解析」, ｐ．３−127〜３−128，（平成２年) Ｈ．Ｓａｉｔｏｅｔａｌ．，”ＰａｒｓｉｎｇＮｏｉｓｙＳｅｎｔｅｎｃｅｓ”，ＰｒｏｃｅｅｄｉｎｇｓｏｆＣＯＬＩＮＧ’88，ｐｐ．561− 566，1988年脇田由実ほか，「意味的類似性を用いた後処理的な音声認識正解部分特定法と音声翻訳手法への導入」，人工知能学会音声言語情報処理研究会，17−４，1997 年７月18日 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 3/00 561 G10L 3/00 537 G06F 17/27 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】発声音声文の音声信号を音声認識し、そ
の音声認識結果の入力文に対して誤り訂正処理を行う音
声認識誤り訂正装置において、学習用テキストデータに基づいて所定の形態素解析を予
め行って得られた品詞付き形態素列を含む用例文を記憶
する記憶手段（２２）と、上記音声認識結果の入力文に対して所定の構造解析処理
を行って解析木形式の依存構造を生成し、この際、各係
り受けに対して、係り受けに対する用例単語と入力単語
との間の意味的距離を計算し、上記生成された依存構造
のすべての係り受けのうち、計算された意味的距離が所
定の第１のしきい値よりも大きい係り受けを含む訂正箇
所を抽出する抽出手段（Ｓ１−Ｓ５）と、上記記憶手段（２２）に記憶された用例文から、上記抽
出手段（Ｓ１−Ｓ５）によって抽出された訂正箇所の文
字列との間の編集距離の比が所定の第２のしきい値以下
である文字列を含む用例文を検索し、検索された用例文
の形態素列から上記訂正箇所に対応する形態素部分列を
抽出し、抽出した用例文中の形態素部分列を上記訂正箇
所の形態素部分列と置き換えることにより、入力文の形
態素列を訂正して訂正候補の形態素列を得る検索置換手
段（Ｓ６，Ｓ７）と、単語から音素列への所定の変換辞書を用いて、上記検索
置換手段（Ｓ６，Ｓ７）による訂正前の認識結果の形態
素列を音素列に変換するとともに、上記検索置換手段
（Ｓ６，Ｓ７）による訂正候補の形態素列を音素列に変
換し、訂正前の認識結果の音素列に対する訂正候補の音
素列の編集距離の比を表す音韻的距離を計算し、音韻的
距離が所定の第３のしきい値より小さい訂正候補のみを
残す選別手段（Ｓ８）と、上記選別手段（Ｓ８）によって残った訂正候補に対して
上記構造解析処理を行って解析木形式の依存構造を生成
し、この際、各係り受けに対して、係り受けに対する用
例単語と入力単語との間の意味的距離を再計算し、再計
算された意味的距離が上記第１のしきい値以下であると
きに、当該訂正候補を誤り訂正結果として出力する再計
算手段（Ｓ９−Ｓ１１，Ｓ１３）とを備えたことを特徴
とする音声認識誤り訂正装置。
【請求項２】上記再計算された意味的距離が上記第１
のしきい値を超えるときに、上記抽出手段（Ｓ５）と、
上記検索置換手段（Ｓ６，Ｓ７）と、上記選別手段（Ｓ
８）と、上記再計算手段（Ｓ９−Ｓ１１，Ｓ１３）の処
理を繰り返す再帰的訂正手段をさらに備えたことを特徴
とする請求項１記載の音声認識誤り訂正装置。