JP2014115646A

JP2014115646A - 音声認識のエラー修正方法及び装置

Info

Publication number: JP2014115646A
Application number: JP2013243198A
Authority: JP
Inventors: Geun Bae Lee; グンペイ; Jun Hwi Choi; ジュンフィチェ; In Jae Lee; インデイ; Dong Hyun Lee; ドンヒョンイ; Hong Suck Seo; ホンソクソ; Yon Hi Kim; ヨンヒキム; Son Han Yu; ソンハンユ; Sang Jun Koo; サンジュンク
Original assignee: Academy Industry Foundation of POSTECH
Current assignee: Academy Industry Foundation of POSTECH
Priority date: 2012-12-07
Filing date: 2013-11-25
Publication date: 2014-06-26
Anticipated expiration: 2033-11-25
Also published as: US9318102B2; CN103871407B; CN103871407A; JP5788953B2; KR101364774B1; US20140163975A1

Abstract

【課題】音声認識のエラー修正方法及び装置を提供する。
【解決手段】音声認識のエラー修正方法は、音声認識結果のエラー可能性を判別するステップと、エラー可能性が予め定義された基準より大きい場合、正解コーパス及び音声認識結果の同一性によって並列コーパスを生成するステップと、並列コーパスを基盤として音声認識モデルを生成するステップと、音声認識モデル及び言語モデルを基盤として音声認識結果のエラーを修正するステップと、を含む。本発明によれば、音声認識により発生するエラーを修正することができる。
【選択図】図２

Description

本発明は、音声認識のエラー修正方法及び装置に関し、より詳細には、音声認識器で発生するエラーを修正するための音声認識のエラー修正方法及び装置に関する。

スマートフォン、タブレットＰＣなどのようなモバイル器機の普及に従って音声認識応用ソフトウェア(例えば、ＡＰＰＬＥ社のＳＩＲＩのような対話システム)に対する関心が増加している。しかし、現在音声認識技術の正確度は高くないで、これによって、音声認識のエラーがよく発生するようになり、このようなエラーにより音声認識応用ソフトウェアが誤作動するようになる問題点がある。

したがって、本発明は前記のような従来の諸問題点を解消するために提案されたものであって、本発明の目的は、並列コーパスを基盤として音声認識のエラーを修正するための音声認識のエラー修正方法を提供することにある。

本発明のほかの目的は、並列コーパスを基盤として音声認識のエラーを修正するための音声認識のエラー修正装置を提供することにある。

上記の目的を達成するための本発明の一実施例による音声認識のエラー修正方法は、正解コーパス及びドメインコーパスを通じて学習された言語モデルを基盤として、音声認識結果のエラー可能性を判別するステップと、前記エラー可能性が予め定義された基準より大きい場合、前記正解コーパス及び前記音声認識結果の同一性によって並列コーパスを生成するステップと、前記並列コーパスを基盤として音声認識モデルを生成するステップと、前記音声認識モデル及び前記言語モデルを基盤として音声認識結果のエラーを修正するステップと、を含む。

ここで、前記エラー可能性を判別するステップは、前記音声認識結果の生成確率によってエラー可能性を判別することができる。
ここで、前記並列コーパスを生成するステップは、前記正解コーパス及び前記音声認識結果から正解対を検出するステップと、前記正解コーパス及び前記音声認識結果からエラー対を検出するステップと、前記正解コーパス、前記音声認識結果、前記正解対及び前記エラー対を基盤として前記並列コーパスを生成するステップと、を含むことができる。

ここで、前記音声認識モデルを生成するステップは、前記並列コーパスから音声認識前の第１の構文を検出するステップと、前記並列コーパスから音声認識後の第２の構文を検出するステップと、前記第１の構文と前記第２の構文との間の音声認識確率を算出するステップと、前記第１の構文、前記第２の構文及び前記音声認識確率を基盤として前記音声認識モデルを生成するステップと、を含むことができる。

ここで、前記音声認識結果のエラーを修正するステップは、前記第１の構文と前記第２の構文の対応関係によるグラフを生成するステップと、前記グラフから最小のエラーを有する経路を検出するステップと、検出された経路を基盤として前記音声認識結果のエラーを修正するステップと、を含むことができる。

ここで、前記グラフを生成するステップは、任意の第２の構文と対応する任意の第１の構文が存在しない場合、前記任意の第２の構文を前記任意の第１の構文で仮定することができる。

ここで、前記検出された経路を基盤として前記音声認識結果のエラーを修正するステップは、前記言語モデルによる再配列過程なしに前記音声認識結果のエラーを修正することができる。

前記目的を達成するための本発明の他の実施例による音声認識のエラー修正装置は、正解コーパス及びドメインコーパスを通じて学習された言語モデルを基盤として音声認識結果のエラー可能性を判別し、前記エラー可能性が予め定義された基準より大きい場合、前記正解コーパス及び前記音声認識結果の同一性によって並列コーパスを生成し、前記並列コーパスを基盤として音声認識モデルを生成し、前記音声認識モデル及び前記言語モデルを基盤として音声認識結果のエラーを修正する処理部と、前記処理部で処理される情報及び処理された情報を保存する保存部と、を含む。

ここで、前記処理部は、前記音声認識結果の生成確率によってエラー可能性を判別することができる。
ここで、前記処理部は、前記正解コーパス及び前記音声認識結果から正解対を検出し、前記正解コーパス及び前記音声認識結果からエラー対を検出し、前記正解コーパス、前記音声認識結果、前記正解対及び前記エラー対を基盤として前記並列コーパスを生成することができる。

ここで、前記処理部は、前記並列コーパスから音声認識前の第１の構文を検出し、前記並列コーパスから音声認識後の第２の構文を検出し、前記第の構文と前記第２の構文との間の音声認識確率を算出し、前記第１の構文、前記第２の構文及び前記音声認識確率を基盤として前記音声認識モデルを生成することができる。

ここで、前記処理部は、前記第１の構文と前記第２の構文の対応関係によるグラフを生成し、前記グラフから最小のエラーを有する経路を検出し、検出された経路を基盤として前記音声認識結果のエラーを修正することができる。

ここで、前記処理部は、任意の第２の構文と対応する任意の第１の構文が存在しない場合、前記任意の第２の構文を前記任意の第１の構文で仮定して前記グラフを生成することができる。

ここで、前記処理部は、前記言語モデルによる再配列過程なしに前記音声認識結果のエラーを修正することができる。

本願発明によれば、音声認識により発生するエラーを修正することができ、これによって、音声認識の正確度を向上させることができる。

音声認識装置を示したブロック図である。本発明の一実施例による音声認識のエラー修正方法を示したフローチャートである。本発明の一実施例による音声認識のエラー修正方法において並列コーパスを生成するステップを示したフローチャートである。本発明の一実施例による音声認識のエラー修正方法において音声認識モデルを生成するステップを示したフローチャートである。音声認識モデルを示した概念図である。本発明の一実施例による音声認識のエラー修正方法において音声認識結果のエラーを修正するステップを示したフローチャートである。構文の対応関係によるグラフを示した概念図である。本発明の一実施例による音声認識のエラー修正装置を示したブロック図である。本発明の他の実施例による音声認識のエラー修正装置を示したブロック図である。

本発明は、多様に変更可能であり、さまざまな実施形態を有することができる。ここでは、特定の実施形態を図面に例示して詳細に説明する。しかし、これは本発明の好ましい実施態様に過ぎず、本発明の実施の範囲を限定するものではなく、本発明の明細書及び図面内容に基づいてなされた均等な変更および付加は、いずれも本発明の特許請求の範囲内に含まれるものとする。

第１、第２、Ａ、Ｂなどの用語は、多様な構成要素を説明するために使用することができるが、前記構成要素は前記用語により限定されものではない。前記用語は、一つの構成要素を他の構成要素から区別するための目的のみで使用される。例えば、本発明の権利範囲を脱しない範囲で、第１の構成要素は第２の構成要素と命名することができ、類似に第２の構成要素も第１の構成要素と命名することができる。及び/またはとの用語は、複数の関連された記載された項目の組み合わせまたは複数の関連された記載された項目の中のいずれか一項目を含む。

いかなる構成要素が他の構成要素に「連結されて」いるかあるいは「接続されて」いるとの用語は、ある構成要素が他の構成要素に直接的に連結されるかあるいは接続されることもできるが、中間に他の構成要素が介在することもできることを意味する。一方に、ある構成要素が他の構成要素に「直接連結されて」いるかあるいは「直接接続されて」いるとの用語は、中間に他の構成要素が存在しないことを意味する。

本明細書で使用した用語は、但し、特定の実施形態を説明するために使用されたもので、本発明はこれに限定されるものではない。単数の表現は、文脈上明白に相違に記載しない限り複数の表現を含む。本出願において、「含む」または「有する」などの用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、部品またはこれらを組み合わせたものが存在することを指定するのであって、一つまたはその以上の他の特徴や数字、ステップ、動作、構成要素、部品またはこれらを組み合わせたものなどの存在または付加可能性を予め排除することではない。

特定しない限り、技術的や科学的な用語を含んでここで使用されるすべての用語は、本発明が属する技術分野で通常の知識を有する者により一般的に理解される意味と同一な意味を有する。一般的に使用される辞典に定義された用語は、関連技術の文脈上有する意味と一致することと解でき、本出願において明白に定義しない限り、理想的や過度に形式的な意味を有することで解釈できない。

以下、添付した図面を参照して本発明の好ましい実施形態について詳細に説明する。各図面の説明において、類似な構成要素に対して類似な参照符号を付与し、その重複説明は省略する。

図１は、音声認識装置を示したブロック図である。
図１を参照すれば、音声認識装置は、音声認識部２０と、エラー修正部３０と、音声認識応用部４０と、を含む。音声認識部２０は、音声信号１０を受信することができ、音声信号１０を認識して音声認識結果(すなわち、テキスト(ｔｅｘｔ))を生成することができる。エラー修正部３０は、音声認識結果にエラーが含まれているか否かを分析することができ、エラーが含まれている場合、音声認識結果に含まれたエラーを修正することができる。エラー修正部３０は、図８及び図９に示した音声認識のエラー修正装置３０と実質的に同一な構成である。

音声認識応用部４０は、音声認識結果を多様なアプリケーション(ａｐｐｌｉｃａｔｉｏｎ)に適用することができる。アプリケーションは、音声ワープロ、音声対話システムなどを意味する。

図２は、本発明の一実施例による音声認識のエラー修正方法を示したフローチャートである。
図２を参照すれば、音声認識のエラー修正方法は、正解コーパス及びドメイン(ｄｏｍａｉｎ)コーパスを通じて学習された言語モデルを基盤として、音声認識結果のエラー可能性を判別するステップ(ステップＳ１００)と、エラー可能性が予め定義された基準より大きい場合、正解コーパス及び音声認識結果の同一性によって並列コーパスを生成するステップ(ステップＳ２００)と、並列コーパスを基盤として音声認識モデルを生成するステップ(ステップＳ３００)と、音声認識モデル及び言語モデルを基盤として音声認識結果のエラーを修正するステップ(ステップＳ４００)と、を含む。ここで、音声認識のエラー修正方法の各ステップは、図８及び図９に示した音声認識のエラー修正装置３０により実行される。

音声認識のエラー修正装置は、音声認識結果にエラーが含まれているか否か(すなわち、エラー可能性)を判別する(ステップＳ１００)。音声認識のエラー修正装置は、音声認識結果に関連された正解コーパスと大容量のドメインコーパスを通じて学習された言語モデルを使用してエラー可能性を判別する。ここで、言語モデルでは、Ｎ-ｇｒａｍを使用することができ、具体的には、バイグラム(ｂｉｇｒａｍ)、トリグラム(ｔｒｉｇｒａｍ)を使用することができる。

例えば、音声認識結果が「りんごはおいしく食べた」の場合、音声認識のエラー修正装置は、バイグラム(ｂｉｇｒａｍ)を通じて「りんごはおいしく」、「おいしく食べた」の生成確率を算出することができ、トリグラム(ｔｒｉｇｒａｍ)を通じて「りんごはおいしく食べた」の生成確率を算出することができる。この時、言語モデルは、正解コーパスを通じて学習されたので、バイグラムである「りんごはおいしく」は低い生成確率を有するようになり、したがって、音声認識のエラー修正装置は、「りんごはおいしく」を高いエラー可能性を有する構文で判別することができる。結局、音声認識のエラー修正装置は、「りんごはおいしく食べた」を高いエラー可能性を有する構文で判別することができる。

音声認識のエラー修正装置は、エラー可能性が予め定義された基準より大きい場合、正解コーパス及び音声認識結果の同一性によって並列コーパスを生成する(ステップＳ２００)。

図３は、本発明の一実施例による音声認識のエラー修正方法において並列コーパスを生成するステップを示したフローチャートである。
図３を参照すれば、並列コーパスを生成するステップ(ステップＳ２００)は、正解コーパス及び音声認識結果から正解対を検出するステップ(ステップＳＳ２１０)と、正解コーパス及び音声認識結果からエラー対を検出するステップ(ステップＳ２２０)と、正解コーパス、音声認識結果、正解対及びエラー対を基盤として並列コーパスを生成するステップ(ステップＳ２３０)と、を含む。

音声認識のエラー修正装置は、正解コーパス及び音声認識結果を含む既存並列コーパスから正解対を検出する(ステップＳ２１０)。

表１は、正解コーパス及び音声認識結果を含む既存並列コーパスを示す。ここで、左側列に記載された「りんごはおいしく食べた」、「りんごは洗う」、「謝って毒を入れた」は音声認識結果を意味し、右側列に記載された「りんごをおいしく食べた」、「りんごは赤い」、「りんごに毒を入れた」は正解コーパスを意味する。

例えば、表１の二番目の行で音声認識結果である「りんごは」は正解コーパスである「りんごは」と同一であるので、音声認識のエラー修正装置は、「りんごは」を正解対で検出することができる。また、表１の三番目の行で音声認識結果である「毒を入れた」は正解コーパスである「毒を入れた」と同一であるので、音声認識のエラー修正装置は、「毒を入れた」を正解対で検出することができる。

音声認識のエラー修正装置は、正解コーパス及び音声認識結果を含む既存並列コーパスからエラー対を検出することができる(ステップＳ２２０)。
例えば、表１の二番目の行で音声認識結果である「洗う」と正解コーパスである「赤い」は同一ではないので、音声認識のエラー修正装置は、「洗う、赤い」をエラー対で検出することができる。また、表１の三番目の行で音声認識結果である「謝って」と正解コーパスである「りんごに」は同一ではないので、音声認識のエラー修正装置は、「謝って、りんごに」をエラー対で検出することができる。

ここで、ステップＳ２１０を先に実行た後ステップＳ２２０を実行することで説明したが、ステップＳ２２０を先に実行した後ステップＳ２１０を実行してもよい。
音声認識のエラー修正装置は、正解コーパス、音声認識結果、正解対及びエラー対を含む拡張された並列コーパスを生成することができる(ステップＳ２３０)。

表２は、正解コーパス、音声認識結果、正解対及びエラー対を含む拡張された並列コーパスを示す。備考１、２、３において、左側列に記載された「りんごはおいしく食べた」、「りんごは洗う」、「謝って毒を入れた」は音声認識結果を意味し、右側列に記載された「りんごをおいしく食べた」、「りんごは赤い」、「りんごに毒を入れた」は正解コーパスを意味する。

備考５、６、９において、「おいしく食べた、おいしく食べた」、「りんごは、りんごは」及び「毒を入れた、毒を入れた」は正解対を意味する。備考７、８において、「洗う、赤い」及び「謝って、りんごに」はエラー対を意味する。

すなわち、音声認識のエラー修正装置は、前記表２のように、正解コーパス、音声認識結果、正解対及びエラー対を含む拡張された並列コーパスを生成することができる。
ここで、表１の一番目の行で音声認識結果である「りんごは」と正解コーパスである「りんごを」は同一ではないが、「りんごは」が正解対で検出(表２の備考６)されたので、音声認識のエラー修正装置は、「りんごは、りんごを」をエラー対で検出しない(表２の備考４参照)。すなわち、音声認識のエラー修正装置は、エラー対に含まれたテキストが正解対に含まれている場合、該当エラー対をエラー対で検出しない。これを通じて、音声認識のエラー修正装置は、エラーの発生を減らすことができる。

音声認識のエラー修正装置は、並列コーパスを基盤として音声認識モデルを生成することができる(ステップＳ３００)。
図４は、本発明の一実施例による音声認識のエラー修正方法において音声認識モデルを生成するステップを示したフローチャートである。

図４を参照すれば、音声認識モデルを生成するステップ(ステップＳ３００)は、並列コーパスから音声認識前の第１の構文を検出するステップ(ステップＳ３１０)と、並列コーパスから音声認識後の第２の構文を検出するステップ(ステップＳ３２０)と、第１の構文と第２の構文との間の音声認識確率を算出するステップ(ステップＳ３３０)と、第１の構文、第２の構文及び音声認識確率を基盤として音声認識モデルを生成するステップ(ステップＳ３４０)と、を含む。

音声認識のエラー修正装置は、拡張された並列コーパス(すなわち、表２参照)から音声認識前の第１の構文を検出することができる(ステップＳ３１０)。すなわち、音声認識のエラー修正装置は、拡張された並列コーパスに含まれた正解コーパスを第１の構文で検出する。

音声認識のエラー修正装置は、拡張された並列コーパス(すなわち、表２参照)から音声認識後の第２の構文を検出することができる(ステップＳ３２０)。すなわち、音声認識のエラー修正装置は、拡張された並列コーパスに含まれた音声認識結果を第２の構文で検出する。

ここでは、先にステップＳ３１０を実行した後ステップＳ３２０を実行することで説明したが、ステップＳ３２０を実行した後ステップＳ３１０を実行してもよい。
音声認識のエラー修正装置は、第１の構文と第２の構文との間の音声認識確率を算出することができる(ステップＳ３３０)。すなわち、音声認識のエラー修正装置は、第１の構文が第２の構文に認識される音声認識確率を算出することができ、この時、拡張された並列コーパスを使用して音声認識確率を算出することができる。

音声認識のエラー修正装置は、第１の構文、第２の構文及び音声認識確率を基盤として音声認識モデルを生成することができる(ステップＳ３４０)。
図５は、音声認識モデルを示した概念図である。

図５を参照すれば、図５の(Ａ)は、英語をドイツ語に翻訳する音声認識モデルを意味し、図５の(Ｂ)は、ドイツ語を英語に翻訳する音声認識モデルを意味し、図５の(Ｃ)は、図５の(Ａ)と(Ｂ)を結合した音声認識モデルを意味する。

図５(Ａ)の音声認識モデルにおいて、行は英語(すなわち、第１の構文に対応する)を示し、列はドイツ語(すなわち、第２の構文に対応する)を示す。ここで、黒い色で表示された行列は、第１の構文が第２の構文に翻訳される確率が高いことを意味する(例えば、「ｔｈａｔ」は「ｄａｓｓ」に翻訳される確率が高い)。

図５の(Ｂ)の音声認識モデルにおいて、行は英語(すなわち、第２の構文に対応する)を示し、列はドイツ語(すなわち、第１の構文に対応する)を示す。ここで、黒い色で表示された行列は、第１の構文が第２の構文に翻訳される確率が高いことを意味する(例えば、「ｇｅｈｔ」は「ａｓｓｕｍｅｓ」に翻訳される確率が高い)。

図５の(Ｃ)の音声認識モデルは、図５の(Ａ)の音声認識モデルと図５の(Ｂ)の音声認識モデルを結合したモデルで、図５の(Ａ)と図５の(Ｂ)の両方ともにおいて第１の構文が第２の構文に翻訳される確率が高いことで判断された行列は黒い色で表示され(例えば、「ｔｈａｔ」→「ｄａｓｓ」)、図５の(Ａ)と図５の(Ｂ)の中で一つで第１の構文が第２の構文に翻訳される確率が高いことで判断された行列は灰色で表示される(「ｔｈｅ」→「ｉｍ」)。

このような方法を通じて、音声認識のエラー修正装置は、音声認識モデルを生成することができる。すなわち、音声認識のエラー修正装置は、第１の構文(例えば、正解コーパス)を行に設定して第１の構文に対応する第２の構文(例えば、音声認識結果)を列に設定してマトリックス(ｍａｔｒｉｘ)を生成することができ、第１の構文が第２の構文で認識される確率が高いことで判断される構文の行列を黒い色で表示して第１の音声認識モデルを生成することができる。

音声認識のエラー修正装置は、第１の構文(例えば、音声認識結果)を列に設定して第１の構文に対応する第２の構文(例えば、正解コーパス)を行に設定してマトリックスを生成することができ、第１の構文が第２の構文に認識される確率が高いことで判断される構文の行列を黒い色で表示して第２の音声認識モデルを生成することができる。

音声認識のエラー修正装置は、第１の音声認識モデルと第２の音声認識モデルを結合して最終音声認識モデルを生成することができる。
音声認識のエラー修正装置は、音声認識モデル及び言語モデルを基盤として音声認識結果のエラーを修正することができる(ステップＳ４００)。

図６は、本発明の一実施例による音声認識のエラー修正方法において音声認識結果のエラーを修正するステップを示したフローチャートである。
図６を参照すれば、音声認識結果のエラーを修正するステップ(ステップＳ４００)は、第１の構文と第２の構文の対応関係によるグラフを生成するステップ(ステップＳ４１０)と、グラフから最小のエラーを有する経路を検出するステップ(ステップＳ４２０)と、検出された経路を基盤として音声認識結果のエラーを修正するステップ(ステップＳ４３０)と、を含む。

音声認識のエラー修正装置は、第１の構文と第２の構文の対応関係によるグラフを生成することができる(ステップＳ４１０)。
図７は、構文の対応関係によるグラフを示した概念図である。

図７を参照すれば、「図面符号５０(例えば、第１の構文)」はスペイン語を示し、「図面符号６０(例えば、第２の構文)」は英語を示す。すなわち、「Ｍａｒｉａ」は「Ｍａｒｙ」に対応し、「ｎｏ」は「ｎｏｔ」、「ｄｉｄｎｏｔ」及び「ｎｏ」に対応する。

このような方法を通じて、音声認識のエラー修正装置は、各々の第１の構文(すなわち、正解コーパス)に対応する第２の構文(すなわち、音声認識結果)を検出することができ、これを基盤として第１の構文と第２の構文の対応関係によるグラフを生成することができる。

この時、音声認識のエラー修正装置は、任意の第２の構文と対応する任意の第１の構文が存在しない場合、任意の第２の構文を任意の第１の構文で仮定することができる。すなわち、任意の第２の構文に対応する任意の第１の構文が存在しない場合、任意の第１の構文に対するグラフ上の部分はブランクで見なされるので、音声認識のエラー修正装置はこれを防止するために任意の第２の構文を任意の第１の構文で仮定することができる。

例えば、音声認識のエラー修正装置は、任意の第２の構文である「謝って」に対応する任意の第１の構文が存在しない場合、任意の第２の構文である「謝って」を任意の第１の構文で仮定することができる。

音声認識のエラー修正装置は、グラフから最小のエラーを有する経路を検出することができる(ステップＳ４２０)。この時、音声認識のエラー修正装置は、公知された技術(例えば、ｖｉｔｅｒｂｉｓｅａｒｃｈ)を通じて最小のエラーを有する経路を検出することができる。

音声認識のエラー修正装置は、検出された経路を基盤として音声認識結果のエラーを修正することができる(ステップＳ４３０)。すなわち、音声認識のエラー修正装置は、音声認識結果と検出された経路とを比較することができ、比較結果、差がある場合、検出された経路を基準で音声認識の結果を修正することができる。例えば、音声認識結果が「りんごはおいしく食べた」であり、検出された経路が「りんごをおいしく食べた」の場合、音声認識のエラー修正装置は、音声認識の結果を「りんごをおいしく食べた」で修正することができる。

ここで、音声認識のエラー修正装置は、言語モデルによる再配列過程なしに音声認識結果のエラーを修正することができる。再配列過程とは言語間の語順が相違であるので翻訳時に語順を再配列することを意味する。例えば、英語を韓国語に翻訳する場合、「Ｉｈａｖｅａｎａｐｐｌｅ」を「私は有しているりんごを」に翻訳することができ、言語モデルによる再配列過程によれば、「私は有しているりんごを」を「私はりんごを有している」に再配列することができる。音声認識のエラー修正方法は、同一な言語間にエラーを修正する方法であるので、音声認識のエラー修正装置は前記のような再配列過程を実行しない。

図８は、本発明の一実施例による音声認識のエラー修正装置を示したブロック図である。
図８を参照すれば、音声認識のエラー修正装置３０は、処理部３１及び保存部３２を含む。処理部３１は、正解コーパス及びドメインコーパスを通じて学習された言語モデルを基盤として音声認識結果のエラー可能性を判別することができ、エラー可能性が予め定義された基準より大きい場合、正解コーパス及び音声認識結果の同一性によって並列コーパスを生成することができ、並列コーパスを基盤として音声認識モデルを生成し、音声認識モデル及び言語モデルを基盤として音声認識結果のエラーを修正することができる。保存部３２は、処理部３１で処理される情報及び処理された情報を保存することができる。

処理部３１は、上述したステップＳ１００を基礎として音声認識結果のエラー可能性を判別することができる。具体的には、処理部３１は、音声認識結果に関連された正解コーパスと大容量のドメインコーパスを通じて学習された言語モデルを使用してエラー可能性を判別することができる。ここで、言語モデルでは、Ｎ−ｇｒａｍを使用することができ、具体的には、バイグラム(ｂｉｇｒａｍ)、トリグラム(ｔｒｉｇｒａｍ)を使用することができる。

例えば、音声認識結果が「りんごはおいしく食べた」の場合、処理部３１は、バイグラム(ｂｉｇｒａｍ)を通じて「りんごはおいしく」、「おいしく食べた」の生成確率を算出することができ、トリグラム(ｔｒｉｇｒａｍ)を通じて「りんごはおいしく食べた」の生成確率を算出することができる。この時、言語モデルは、正解コーパスを通じて学習されたので、バイグラム(ｂｉｇｒａｍ)である「りんごはおいしく」は低い生成確率を有するようになり、したがって、処理部３１は、「りんごはおいしく」を高いエラー可能性を有する構文で判別することができる。結局、処理部３１は、「りんごはおいしく食べた」を高いエラー可能性を有する構文で判別することができる。

処理部３１は、上述したステップＳ２００を基礎としれ並列コーパスを生成することができる。具体的には、処理部３１は、上述したステップＳ２１０を基礎として正解対を検出することができる。例えば、前記表１の二番目の行で音声認識結果である「りんごは」は、正解コーパスである「りんごは」と同一であるので、処理部３１は、「りんごは」を正解対で検出することができる。また、前記表１の三番目の行で音声認識結果である「毒を入れた」は正解コーパスである「毒を入れた」と同一であるので、処理部３１は、「毒を入れた」を正解対で検出することができる。

処理部３１は、上述したステップＳ２２０を基礎としてエラー対を検出することができる。例えば、前記表１の二番目の行で音声認識結果である「洗う」と正解コーパスである「赤い」は同一ではないので、処理部３１は、「洗う、赤い」をエラー対で検出することができる。また、前記表１の三番目の行で音声認識結果である「謝って」と正解コーパスである「りんごに」は同一ではないので、処理部３１は、「謝って、りんごに」をエラー対で検出することができる。

処理部３１は、上述したステップＳ２３０を基礎として並列コーパスを生成することができ、前記表２のように、正解コーパス、音声認識結果、正解対及びエラー対を含む拡張された並列コーパスを生成することができる。

処理部３１は、上述したステップＳ３００基礎として音声認識モデルを生成することができる。具体的には、処理部３１は、上述したステップＳ３１０を基礎として音声認識前の第１の構文を検出することができ、上述したステップＳ３２０を基礎として音声認識後の第２の構文を検出することができ、上述したステップＳ３３０を基礎として構文の間の音声認識確率を算出することができ、上述したステップＳ３４０を基礎として音声認識モデルを生成することができる。

すなわち、処理部３１は、図５のように音声認識モデルを生成することができる。処理部３１は、第１の構文(例えば、正解コーパス)を行に設定し、第１の構文に対応する第２の構文(例えば、音声認識結果)を列に設定してマトリックスを生成することができ、第１の構文が第２の構文に認識される確率が高いことで判断される構文の行列を黒い色で表示して第１の音声認識モデルを生成することができる。

処理部３１は、第１の構文(例えば、音声認識結果)を列に設定して第１の構文に対応する第２の構文(例えば、正解コーパス)を行に設定してマトリックスを生成することができ、第１の構文が第２の構文に認識される確率が高いことで判断される構文の行列を黒い色で表示して第２の音声認識モデルを生成することができる。

処理部３１は、第１の音声認識モデルと第２の音声認識モデルを結合して最終音声認識モデルを生成することができる。
処理部３１は、上述したステップＳ４００を基礎として音声認識結果のエラーを修正することができる。具体的には、処理部３１は、上述したステップＳ４１０を基礎として構文間の対応関係によるグラフを生成することができ、図７のように、各々の第１の構文(すなわち、正解コーパス)に対応する第２の構文(すなわち、音声認識結果)を検出することができ、これを基盤として第１の構文と第２の構文の対応関係によるグラフを生成することができる。

処理部３１は、上述したステップＳ４２０を基礎として最小のエラーを有する経路を検出することができ、公知された技術(例えば、ｖｉｔｅｒｂｉｓｅａｒｃｈ)を通じて最小のエラーを有する経路を検出することができる。

処理部３１は、上述したステップＳ４３０を基礎として音声認識結果のエラーを修正することができる。すなわち、処理部３１は、音声認識結果と検出された経路とを比較することができ、比較結果、差がある場合、検出された経路を基準として音声認識の結果を修正することができる。例えば、音声認識結果が「りんごはおいしく食べた」で検出された経路が「りんごをおいしく食べた」の場合、音声認識のエラー修正装置は、音声認識の結果を「りんごをおいしく食べた」に修正することができる。

処理部３１が実行する機能は、実質的にプロセッサ(例えば、ＣＰＵ(ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ)及び/またはＧＰＵ(ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ)など)で実行することができる。

図９は、本発明の他の実施例による音声認識のエラー修正装置を示したブロック図である。
図９を参照すれば、音声認識のエラー修正装置３０は、エラー判別部３３と、コーパス生成部３４と、モデル生成部３５と、デコーダ３６と、を含む。図９に示した音声認識のエラー修正装置３０は、実質的に図８に示した音声認識のエラー修正装置３０と同一である。

エラー判別部３３は、上述したステップＳ１００を基礎として音声認識結果のエラー可能性を判別することができる。コーパス生成部３４は、上述したステップＳ２００を基礎として並列コーパスを生成することができる。モデル生成部３５は、上述したステップＳ３００を基礎として音声認識モデルを生成することができる。デコーダ３６は、上述したステップＳ４００を基礎として音声認識結果のエラーを修正することができる。

エラー判別部３３、コーパス生成部３４、モデル生成部３５及びデコーダ３６が実行する機能は、実質的にプロセッサ(例えば、ＣＰＵ及び/またはＧＰＵなど)で実行できる。
また、エラー判別部３３、コーパス生成部３４、モデル生成部３５及びデコーダ３６は、一つの単一形態、一つの物理的な装置または一つのモジュールで具現することができる。さらに、エラー判別部３３、コーパス生成部３４、モデル生成部３５及びデコーダ３６は、各々一つの物理的な装置または集団ではない複数の物理的装置または集団で具現してもよい。

本発明による方法は、多様なコンピュータ手段を通じて実行できるプログラム命令形態で具現されてコンピュータ判読可能媒体に記録できる。コンピュータ判読可能媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含むことができる。コンピュータ判読可能媒体に記録されるプログラム命令は、本発明のために特別に設計され構成されたものであるかあるいはコンピュータソフトウェア当業者に公知されているものである。コンピュータ判読可能媒体の例には、ＲＯＭ(ＲｅａｄＯｎｌｙＭｅｍｏｒｙ)、ＲＡＭ、フラッシュメモリー(ｆｌａｓｈｍｅｍｏｒｙ)などのようにプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例には、コンパイラ(ｃｏｍｐｉｌｅｒ)により作られるもののような機械語コードだけではなくインタプリタ(ｉｎｔｅｒｐｒｅｔｅｒ)などを使用してコンピュータにより実行される高級言語コードを含む。上述したハードウェア装置は、本発明の動作を実行するために少なくとも一つのソフトウェアモジュールで作動するように構成されることができ、その逆も同様である。

以上、添付した図面を参照して本発明の実施形態について説明したが、本発明が属する技術の分野における通常の知識を有する者であれば、本発明の技術的思想を逸脱しない範囲内で、様々な置換、変形及び変更が可能であるので、上述した実施例及び添付された図面に限定されるものではない。

Claims

音声認識のエラー修正装置で実行される音声認識のエラー修正方法であって、
正解コーパス及びドメイン(ｄｏｍａｉｎ)コーパスを通じて学習された言語モデルを基盤として、音声認識結果のエラー可能性を判別するステップと、
前記エラー可能性が予め定義された基準より大きい場合、前記正解コーパス及び前記音声認識結果の同一性によって並列コーパスを生成するステップと、
前記並列コーパスを基盤として音声認識モデルを生成するステップと、
前記音声認識モデル及び前記言語モデルを基盤として音声認識結果のエラーを修正するステップと、を含むこと
を特徴とする音声認識のエラー修正方法。
前記エラー可能性を判別するステップは、前記音声認識結果の生成確率によってエラー可能性を判別することを特徴とする請求項１に記載の音声認識のエラー修正方法。
前記並列コーパスを生成するステップは、
前記正解コーパス及び前記音声認識結果から正解対を検出するステップと、
前記正解コーパス及び前記音声認識結果からエラー対を検出するステップと、
前記正解コーパス、前記音声認識結果、前記正解対及び前記エラー対を基盤として前記並列コーパスを生成するステップと、を含むこと
を特徴とする請求項１に記載の音声認識のエラー修正方法。
前記音声認識モデルを生成するステップは、
前記並列コーパスから音声認識前の第１の構文を検出するステップと、
前記並列コーパスから音声認識後の第２の構文を検出するステップと、
前記第１の構文と前記第２の構文との間の音声認識確率を算出するステップと、
前記第１の構文、前記第２の構文及び前記音声認識確率を基盤として前記音声認識モデルを生成するステップと、を含むこと
を特徴とする請求項１に記載の音声認識のエラー修正方法。
前記音声認識結果のエラーを修正するステップは、
前記第１の構文と前記第２の構文の対応関係によるグラフを生成するステップと、
前記グラフから最小のエラーを有する経路を検出するステップと、
検出された経路を基盤として前記音声認識結果のエラーを修正するステップと、を含むこと
を特徴とする請求項4に記載の音声認識のエラー修正方法。
前記グラフを生成するステップは、任意の第２の構文と対応する任意の第１の構文が存在しない場合、前記任意の第２の構文を前記任意の第１の構文で仮定することを特徴とする請求項５に記載の音声認識のエラー修正方法。
前記検出された経路を基盤として前記音声認識結果のエラーを修正するステップは、前記言語モデルによる再配列過程なしに前記音声認識結果のエラーを修正することを特徴とする請求項５に記載の音声認識のエラー修正方法。
正解コーパス及びドメイン(ｄｏｍａｉｎ)コーパスを通じて学習された言語モデルを基盤として音声認識結果のエラー可能性を判別し、前記エラー可能性が予め定義された基準より大きい場合、前記正解コーパス及び前記音声認識結果の同一性によって並列コーパスを生成し、前記並列コーパスを基盤として音声認識モデルを生成し、前記音声認識モデル及び前記言語モデルを基盤として音声認識結果のエラーを修正する処理部と、
前記処理部で処理される情報及び処理された情報を保存する保存部と、を含むこと
を特徴とする音声認識のエラー修正装置。
前記処理部は、前記音声認識結果の生成確率によってエラー可能性を判別することを特徴とする請求項８に記載の音声認識のエラー修正装置。
前記処理部は、前記正解コーパス及び前記音声認識結果から正解対を検出し、前記正解コーパス及び前記音声認識結果からエラー対を検出し、前記正解コーパス、前記音声認識結果、前記正解対及び前記エラー対を基盤として前記並列コーパスを生成することを特徴とする請求項８に記載の音声認識のエラー修正装置。
前記処理部は、前記並列コーパスから音声認識前の第１の構文を検出し、前記並列コーパスから音声認識後の第２の構文を検出し、前記第の構文と前記第２の構文との間の音声認識確率を算出し、前記第１の構文、前記第２の構文及び前記音声認識確率を基盤として前記音声認識モデルを生成することを特徴とする請求項８に記載の音声認識のエラー修正装置。
前記処理部は、前記第１の構文と前記第２の構文の対応関係によるグラフを生成し、前記グラフから最小のエラーを有する経路を検出し、検出された経路を基盤として前記音声認識結果のエラーを修正することを特徴とする請求項１１に記載の音声認識のエラー修正装置。
前記処理部は、任意の第２の構文と対応する任意の第１の構文が存在しない場合、前記任意の第２の構文を前記任意の第１の構文で仮定して前記グラフを生成することを特徴とする請求項１２に記載の音声認識のエラー修正装置。
前記処理部は、前記言語モデルによる再配列過程なしに前記音声認識結果のエラーを修正することを特徴とする請求項１２に記載の音声認識のエラー修正装置。