JP2014115646A - 音声認識のエラー修正方法及び装置 - Google Patents

音声認識のエラー修正方法及び装置 Download PDF

Info

Publication number
JP2014115646A
JP2014115646A JP2013243198A JP2013243198A JP2014115646A JP 2014115646 A JP2014115646 A JP 2014115646A JP 2013243198 A JP2013243198 A JP 2013243198A JP 2013243198 A JP2013243198 A JP 2013243198A JP 2014115646 A JP2014115646 A JP 2014115646A
Authority
JP
Japan
Prior art keywords
speech recognition
error
syntax
corpus
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013243198A
Other languages
English (en)
Other versions
JP5788953B2 (ja
Inventor
Geun Bae Lee
グン ペ イ
Jun Hwi Choi
ジュン フィ チェ
In Jae Lee
イン デ イ
Dong Hyun Lee
ドン ヒョン イ
Hong Suck Seo
ホン ソク ソ
Yon Hi Kim
ヨン ヒ キム
Son Han Yu
ソン ハン ユ
Sang Jun Koo
サン ジュン ク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Academy Industry Foundation of POSTECH
Original Assignee
Academy Industry Foundation of POSTECH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Academy Industry Foundation of POSTECH filed Critical Academy Industry Foundation of POSTECH
Publication of JP2014115646A publication Critical patent/JP2014115646A/ja
Application granted granted Critical
Publication of JP5788953B2 publication Critical patent/JP5788953B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

【課題】音声認識のエラー修正方法及び装置を提供する。
【解決手段】音声認識のエラー修正方法は、音声認識結果のエラー可能性を判別するステップと、エラー可能性が予め定義された基準より大きい場合、正解コーパス及び音声認識結果の同一性によって並列コーパスを生成するステップと、並列コーパスを基盤として音声認識モデルを生成するステップと、音声認識モデル及び言語モデルを基盤として音声認識結果のエラーを修正するステップと、を含む。本発明によれば、音声認識により発生するエラーを修正することができる。
【選択図】図2

Description

本発明は、音声認識のエラー修正方法及び装置に関し、より詳細には、音声認識器で発生するエラーを修正するための音声認識のエラー修正方法及び装置に関する。
スマートフォン、タブレットPCなどのようなモバイル器機の普及に従って音声認識応用ソフトウェア(例えば、APPLE社のSIRIのような対話システム)に対する関心が増加している。しかし、現在音声認識技術の正確度は高くないで、これによって、音声認識のエラーがよく発生するようになり、このようなエラーにより音声認識応用ソフトウェアが誤作動するようになる問題点がある。
したがって、本発明は前記のような従来の諸問題点を解消するために提案されたものであって、本発明の目的は、並列コーパスを基盤として音声認識のエラーを修正するための音声認識のエラー修正方法を提供することにある。
本発明のほかの目的は、並列コーパスを基盤として音声認識のエラーを修正するための音声認識のエラー修正装置を提供することにある。
上記の目的を達成するための本発明の一実施例による音声認識のエラー修正方法は、正解コーパス及びドメインコーパスを通じて学習された言語モデルを基盤として、音声認識結果のエラー可能性を判別するステップと、前記エラー可能性が予め定義された基準より大きい場合、前記正解コーパス及び前記音声認識結果の同一性によって並列コーパスを生成するステップと、前記並列コーパスを基盤として音声認識モデルを生成するステップと、前記音声認識モデル及び前記言語モデルを基盤として音声認識結果のエラーを修正するステップと、を含む。
ここで、前記エラー可能性を判別するステップは、前記音声認識結果の生成確率によってエラー可能性を判別することができる。
ここで、前記並列コーパスを生成するステップは、前記正解コーパス及び前記音声認識結果から正解対を検出するステップと、前記正解コーパス及び前記音声認識結果からエラー対を検出するステップと、前記正解コーパス、前記音声認識結果、前記正解対及び前記エラー対を基盤として前記並列コーパスを生成するステップと、を含むことができる。
ここで、前記音声認識モデルを生成するステップは、前記並列コーパスから音声認識前の第1の構文を検出するステップと、前記並列コーパスから音声認識後の第2の構文を検出するステップと、前記第1の構文と前記第2の構文との間の音声認識確率を算出するステップと、前記第1の構文、前記第2の構文及び前記音声認識確率を基盤として前記音声認識モデルを生成するステップと、を含むことができる。
ここで、前記音声認識結果のエラーを修正するステップは、前記第1の構文と前記第2の構文の対応関係によるグラフを生成するステップと、前記グラフから最小のエラーを有する経路を検出するステップと、検出された経路を基盤として前記音声認識結果のエラーを修正するステップと、を含むことができる。
ここで、前記グラフを生成するステップは、任意の第2の構文と対応する任意の第1の構文が存在しない場合、前記任意の第2の構文を前記任意の第1の構文で仮定することができる。
ここで、前記検出された経路を基盤として前記音声認識結果のエラーを修正するステップは、前記言語モデルによる再配列過程なしに前記音声認識結果のエラーを修正することができる。
前記目的を達成するための本発明の他の実施例による音声認識のエラー修正装置は、正解コーパス及びドメインコーパスを通じて学習された言語モデルを基盤として音声認識結果のエラー可能性を判別し、前記エラー可能性が予め定義された基準より大きい場合、前記正解コーパス及び前記音声認識結果の同一性によって並列コーパスを生成し、前記並列コーパスを基盤として音声認識モデルを生成し、前記音声認識モデル及び前記言語モデルを基盤として音声認識結果のエラーを修正する処理部と、前記処理部で処理される情報及び処理された情報を保存する保存部と、を含む。
ここで、前記処理部は、前記音声認識結果の生成確率によってエラー可能性を判別することができる。
ここで、前記処理部は、前記正解コーパス及び前記音声認識結果から正解対を検出し、前記正解コーパス及び前記音声認識結果からエラー対を検出し、前記正解コーパス、前記音声認識結果、前記正解対及び前記エラー対を基盤として前記並列コーパスを生成することができる。
ここで、前記処理部は、前記並列コーパスから音声認識前の第1の構文を検出し、前記並列コーパスから音声認識後の第2の構文を検出し、前記第の構文と前記第2の構文との間の音声認識確率を算出し、前記第1の構文、前記第2の構文及び前記音声認識確率を基盤として前記音声認識モデルを生成することができる。
ここで、前記処理部は、前記第1の構文と前記第2の構文の対応関係によるグラフを生成し、前記グラフから最小のエラーを有する経路を検出し、検出された経路を基盤として前記音声認識結果のエラーを修正することができる。
ここで、前記処理部は、任意の第2の構文と対応する任意の第1の構文が存在しない場合、前記任意の第2の構文を前記任意の第1の構文で仮定して前記グラフを生成することができる。
ここで、前記処理部は、前記言語モデルによる再配列過程なしに前記音声認識結果のエラーを修正することができる。
本願発明によれば、音声認識により発生するエラーを修正することができ、これによって、音声認識の正確度を向上させることができる。
音声認識装置を示したブロック図である。 本発明の一実施例による音声認識のエラー修正方法を示したフローチャートである。 本発明の一実施例による音声認識のエラー修正方法において並列コーパスを生成するステップを示したフローチャートである。 本発明の一実施例による音声認識のエラー修正方法において音声認識モデルを生成するステップを示したフローチャートである。 音声認識モデルを示した概念図である。 本発明の一実施例による音声認識のエラー修正方法において音声認識結果のエラーを修正するステップを示したフローチャートである。 構文の対応関係によるグラフを示した概念図である。 本発明の一実施例による音声認識のエラー修正装置を示したブロック図である。 本発明の他の実施例による音声認識のエラー修正装置を示したブロック図である。
本発明は、多様に変更可能であり、さまざまな実施形態を有することができる。ここでは、特定の実施形態を図面に例示して詳細に説明する。しかし、これは本発明の好ましい実施態様に過ぎず、本発明の実施の範囲を限定するものではなく、本発明の明細書及び図面内容に基づいてなされた均等な変更および付加は、いずれも本発明の特許請求の範囲内に含まれるものとする。
第1、第2、A、Bなどの用語は、多様な構成要素を説明するために使用することができるが、前記構成要素は前記用語により限定されものではない。前記用語は、一つの構成要素を他の構成要素から区別するための目的のみで使用される。例えば、本発明の権利範囲を脱しない範囲で、第1の構成要素は第2の構成要素と命名することができ、類似に第2の構成要素も第1の構成要素と命名することができる。及び/またはとの用語は、複数の関連された記載された項目の組み合わせまたは複数の関連された記載された項目の中のいずれか一項目を含む。
いかなる構成要素が他の構成要素に「連結されて」いるかあるいは「接続されて」いるとの用語は、ある構成要素が他の構成要素に直接的に連結されるかあるいは接続されることもできるが、中間に他の構成要素が介在することもできることを意味する。一方に、ある構成要素が他の構成要素に「直接連結されて」いるかあるいは「直接接続されて」いるとの用語は、中間に他の構成要素が存在しないことを意味する。
本明細書で使用した用語は、但し、特定の実施形態を説明するために使用されたもので、本発明はこれに限定されるものではない。単数の表現は、文脈上明白に相違に記載しない限り複数の表現を含む。本出願において、「含む」または「有する」などの用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、部品またはこれらを組み合わせたものが存在することを指定するのであって、一つまたはその以上の他の特徴や数字、ステップ、動作、構成要素、部品またはこれらを組み合わせたものなどの存在または付加可能性を予め排除することではない。
特定しない限り、技術的や科学的な用語を含んでここで使用されるすべての用語は、本発明が属する技術分野で通常の知識を有する者により一般的に理解される意味と同一な意味を有する。一般的に使用される辞典に定義された用語は、関連技術の文脈上有する意味と一致することと解でき、本出願において明白に定義しない限り、理想的や過度に形式的な意味を有することで解釈できない。
以下、添付した図面を参照して本発明の好ましい実施形態について詳細に説明する。各図面の説明において、類似な構成要素に対して類似な参照符号を付与し、その重複説明は省略する。
図1は、音声認識装置を示したブロック図である。
図1を参照すれば、音声認識装置は、音声認識部20と、エラー修正部30と、音声認識応用部40と、を含む。音声認識部20は、音声信号10を受信することができ、音声信号10を認識して音声認識結果(すなわち、テキスト(text))を生成することができる。エラー修正部30は、音声認識結果にエラーが含まれているか否かを分析することができ、エラーが含まれている場合、音声認識結果に含まれたエラーを修正することができる。エラー修正部30は、図8及び図9に示した音声認識のエラー修正装置30と実質的に同一な構成である。
音声認識応用部40は、音声認識結果を多様なアプリケーション(application)に適用することができる。アプリケーションは、音声ワープロ、音声対話システムなどを意味する。
図2は、本発明の一実施例による音声認識のエラー修正方法を示したフローチャートである。
図2を参照すれば、音声認識のエラー修正方法は、正解コーパス及びドメイン(domain)コーパスを通じて学習された言語モデルを基盤として、音声認識結果のエラー可能性を判別するステップ(ステップS100)と、エラー可能性が予め定義された基準より大きい場合、正解コーパス及び音声認識結果の同一性によって並列コーパスを生成するステップ(ステップS200)と、並列コーパスを基盤として音声認識モデルを生成するステップ(ステップS300)と、音声認識モデル及び言語モデルを基盤として音声認識結果のエラーを修正するステップ(ステップS400)と、を含む。ここで、音声認識のエラー修正方法の各ステップは、図8及び図9に示した音声認識のエラー修正装置30により実行される。
音声認識のエラー修正装置は、音声認識結果にエラーが含まれているか否か(すなわち、エラー可能性)を判別する(ステップS100)。音声認識のエラー修正装置は、音声認識結果に関連された正解コーパスと大容量のドメインコーパスを通じて学習された言語モデルを使用してエラー可能性を判別する。ここで、言語モデルでは、N-gramを使用することができ、具体的には、バイグラム(bigram)、トリグラム(trigram)を使用することができる。
例えば、音声認識結果が「りんごはおいしく食べた」の場合、音声認識のエラー修正装置は、バイグラム(bigram)を通じて「りんごはおいしく」、「おいしく食べた」の生成確率を算出することができ、トリグラム(trigram)を通じて「りんごはおいしく食べた」の生成確率を算出することができる。この時、言語モデルは、正解コーパスを通じて学習されたので、バイグラムである「りんごはおいしく」は低い生成確率を有するようになり、したがって、音声認識のエラー修正装置は、「りんごはおいしく」を高いエラー可能性を有する構文で判別することができる。結局、音声認識のエラー修正装置は、「りんごはおいしく食べた」を高いエラー可能性を有する構文で判別することができる。
音声認識のエラー修正装置は、エラー可能性が予め定義された基準より大きい場合、正解コーパス及び音声認識結果の同一性によって並列コーパスを生成する(ステップS200)。
図3は、本発明の一実施例による音声認識のエラー修正方法において並列コーパスを生成するステップを示したフローチャートである。
図3を参照すれば、並列コーパスを生成するステップ(ステップS200)は、正解コーパス及び音声認識結果から正解対を検出するステップ(ステップSS210)と、正解コーパス及び音声認識結果からエラー対を検出するステップ(ステップS220)と、正解コーパス、音声認識結果、正解対及びエラー対を基盤として並列コーパスを生成するステップ(ステップS230)と、を含む。
音声認識のエラー修正装置は、正解コーパス及び音声認識結果を含む既存並列コーパスから正解対を検出する(ステップS210)。
Figure 2014115646
表1は、正解コーパス及び音声認識結果を含む既存並列コーパスを示す。ここで、左側列に記載された「りんごはおいしく食べた」、「りんごは洗う」、「謝って毒を入れた」は音声認識結果を意味し、右側列に記載された「りんごをおいしく食べた」、「りんごは赤い」、「りんごに毒を入れた」は正解コーパスを意味する。
例えば、表1の二番目の行で音声認識結果である「りんごは」は正解コーパスである「りんごは」と同一であるので、音声認識のエラー修正装置は、「りんごは」を正解対で検出することができる。また、表1の三番目の行で音声認識結果である「毒を入れた」は正解コーパスである「毒を入れた」と同一であるので、音声認識のエラー修正装置は、「毒を入れた」を正解対で検出することができる。
音声認識のエラー修正装置は、正解コーパス及び音声認識結果を含む既存並列コーパスからエラー対を検出することができる(ステップS220)。
例えば、表1の二番目の行で音声認識結果である「洗う」と正解コーパスである「赤い」は同一ではないので、音声認識のエラー修正装置は、「洗う、赤い」をエラー対で検出することができる。また、表1の三番目の行で音声認識結果である「謝って」と正解コーパスである「りんごに」は同一ではないので、音声認識のエラー修正装置は、「謝って、りんごに」をエラー対で検出することができる。
ここで、ステップS210を先に実行た後ステップS220を実行することで説明したが、ステップS220を先に実行した後ステップS210を実行してもよい。
音声認識のエラー修正装置は、正解コーパス、音声認識結果、正解対及びエラー対を含む拡張された並列コーパスを生成することができる(ステップS230)。
Figure 2014115646
表2は、正解コーパス、音声認識結果、正解対及びエラー対を含む拡張された並列コーパスを示す。備考1、2、3において、左側列に記載された「りんごはおいしく食べた」、「りんごは洗う」、「謝って毒を入れた」は音声認識結果を意味し、右側列に記載された「りんごをおいしく食べた」、「りんごは赤い」、「りんごに毒を入れた」は正解コーパスを意味する。
備考5、6、9において、「おいしく食べた、おいしく食べた」、「りんごは、りんごは」及び「毒を入れた、毒を入れた」は正解対を意味する。備考7、8において、「洗う、赤い」及び「謝って、りんごに」はエラー対を意味する。
すなわち、音声認識のエラー修正装置は、前記表2のように、正解コーパス、音声認識結果、正解対及びエラー対を含む拡張された並列コーパスを生成することができる。
ここで、表1の一番目の行で音声認識結果である「りんごは」と正解コーパスである「りんごを」は同一ではないが、「りんごは」が正解対で検出(表2の備考6)されたので、音声認識のエラー修正装置は、「りんごは、りんごを」をエラー対で検出しない(表2の備考4参照)。すなわち、音声認識のエラー修正装置は、エラー対に含まれたテキストが正解対に含まれている場合、該当エラー対をエラー対で検出しない。これを通じて、音声認識のエラー修正装置は、エラーの発生を減らすことができる。
音声認識のエラー修正装置は、並列コーパスを基盤として音声認識モデルを生成することができる(ステップS300)。
図4は、本発明の一実施例による音声認識のエラー修正方法において音声認識モデルを生成するステップを示したフローチャートである。
図4を参照すれば、音声認識モデルを生成するステップ(ステップS300)は、並列コーパスから音声認識前の第1の構文を検出するステップ(ステップS310)と、並列コーパスから音声認識後の第2の構文を検出するステップ(ステップS320)と、第1の構文と第2の構文との間の音声認識確率を算出するステップ(ステップS330)と、第1の構文、第2の構文及び音声認識確率を基盤として音声認識モデルを生成するステップ(ステップS340)と、を含む。
音声認識のエラー修正装置は、拡張された並列コーパス(すなわち、表2参照)から音声認識前の第1の構文を検出することができる(ステップS310)。すなわち、音声認識のエラー修正装置は、拡張された並列コーパスに含まれた正解コーパスを第1の構文で検出する。
音声認識のエラー修正装置は、拡張された並列コーパス(すなわち、表2参照)から音声認識後の第2の構文を検出することができる(ステップS320)。すなわち、音声認識のエラー修正装置は、拡張された並列コーパスに含まれた音声認識結果を第2の構文で検出する。
ここでは、先にステップS310を実行した後ステップS320を実行することで説明したが、ステップS320を実行した後ステップS310を実行してもよい。
音声認識のエラー修正装置は、第1の構文と第2の構文との間の音声認識確率を算出することができる(ステップS330)。すなわち、音声認識のエラー修正装置は、第1の構文が第2の構文に認識される音声認識確率を算出することができ、この時、拡張された並列コーパスを使用して音声認識確率を算出することができる。
音声認識のエラー修正装置は、第1の構文、第2の構文及び音声認識確率を基盤として音声認識モデルを生成することができる(ステップS340)。
図5は、音声認識モデルを示した概念図である。
図5を参照すれば、図5の(A)は、英語をドイツ語に翻訳する音声認識モデルを意味し、図5の(B)は、ドイツ語を英語に翻訳する音声認識モデルを意味し、図5の(C)は、図5の(A)と(B)を結合した音声認識モデルを意味する。
図5(A)の音声認識モデルにおいて、行は英語(すなわち、第1の構文に対応する)を示し、列はドイツ語(すなわち、第2の構文に対応する)を示す。ここで、黒い色で表示された行列は、第1の構文が第2の構文に翻訳される確率が高いことを意味する(例えば、「that」は 「dass」に翻訳される確率が高い)。
図5の(B)の音声認識モデルにおいて、行は英語(すなわち、第2の構文に対応する)を示し、列はドイツ語(すなわち、第1の構文に対応する)を示す。ここで、黒い色で表示された行列は、第1の構文が第2の構文に翻訳される確率が高いことを意味する(例えば、「geht」は「assumes」に翻訳される確率が高い)。
図5の(C)の音声認識モデルは、図5の(A)の音声認識モデルと図5の(B)の音声認識モデルを結合したモデルで、図5の(A)と図5の(B)の両方ともにおいて第1の構文が第2の構文に翻訳される確率が高いことで判断された行列は黒い色で表示され(例えば、「that」→「dass」)、図5の(A)と図5の(B)の中で一つで第1の構文が第2の構文に翻訳される確率が高いことで判断された行列は灰色で表示される(「the」→「im」)。
このような方法を通じて、音声認識のエラー修正装置は、音声認識モデルを生成することができる。すなわち、音声認識のエラー修正装置は、第1の構文(例えば、正解コーパス)を行に設定して第1の構文に対応する第2の構文(例えば、音声認識結果)を列に設定してマトリックス(matrix)を生成することができ、第1の構文が第2の構文で認識される確率が高いことで判断される構文の行列を黒い色で表示して第1の音声認識モデルを生成することができる。
音声認識のエラー修正装置は、第1の構文(例えば、音声認識結果)を列に設定して第1の構文に対応する第2の構文(例えば、正解コーパス)を行に設定してマトリックスを生成することができ、第1の構文が第2の構文に認識される確率が高いことで判断される構文の行列を黒い色で表示して第2の音声認識モデルを生成することができる。
音声認識のエラー修正装置は、第1の音声認識モデルと第2の音声認識モデルを結合して最終音声認識モデルを生成することができる。
音声認識のエラー修正装置は、音声認識モデル及び言語モデルを基盤として音声認識結果のエラーを修正することができる(ステップS400)。
図6は、本発明の一実施例による音声認識のエラー修正方法において音声認識結果のエラーを修正するステップを示したフローチャートである。
図6を参照すれば、音声認識結果のエラーを修正するステップ(ステップS400)は、第1の構文と第2の構文の対応関係によるグラフを生成するステップ(ステップS410)と、グラフから最小のエラーを有する経路を検出するステップ(ステップS420)と、検出された経路を基盤として音声認識結果のエラーを修正するステップ(ステップS430)と、を含む。
音声認識のエラー修正装置は、第1の構文と第2の構文の対応関係によるグラフを生成することができる(ステップS410)。
図7は、構文の対応関係によるグラフを示した概念図である。
図7を参照すれば、「図面符号50(例えば、第1の構文)」はスペイン語を示し、「図面符号60(例えば、第2の構文)」は英語を示す。すなわち、「Maria」は「Mary」に対応し、「no」は「not」、「did not」及び「no」に対応する。
このような方法を通じて、音声認識のエラー修正装置は、各々の第1の構文(すなわち、正解コーパス)に対応する第2の構文(すなわち、音声認識結果)を検出することができ、これを基盤として第1の構文と第2の構文の対応関係によるグラフを生成することができる。
この時、音声認識のエラー修正装置は、任意の第2の構文と対応する任意の第1の構文が存在しない場合、任意の第2の構文を任意の第1の構文で仮定することができる。すなわち、任意の第2の構文に対応する任意の第1の構文が存在しない場合、任意の第1の構文に対するグラフ上の部分はブランクで見なされるので、音声認識のエラー修正装置はこれを防止するために任意の第2の構文を任意の第1の構文で仮定することができる。
例えば、音声認識のエラー修正装置は、任意の第2の構文である「謝って」に対応する任意の第1の構文が存在しない場合、任意の第2の構文である「謝って」を任意の第1の構文で仮定することができる。
音声認識のエラー修正装置は、グラフから最小のエラーを有する経路を検出することができる(ステップS420)。この時、音声認識のエラー修正装置は、公知された技術(例えば、viterbi search)を通じて最小のエラーを有する経路を検出することができる。
音声認識のエラー修正装置は、検出された経路を基盤として音声認識結果のエラーを修正することができる(ステップS430)。すなわち、音声認識のエラー修正装置は、音声認識結果と検出された経路とを比較することができ、比較結果、差がある場合、検出された経路を基準で音声認識の結果を修正することができる。例えば、音声認識結果が「りんごはおいしく食べた」であり、検出された経路が「りんごをおいしく食べた」の場合、音声認識のエラー修正装置は、音声認識の結果を「りんごをおいしく食べた」で修正することができる。
ここで、音声認識のエラー修正装置は、言語モデルによる再配列過程なしに音声認識結果のエラーを修正することができる。再配列過程とは言語間の語順が相違であるので翻訳時に語順を再配列することを意味する。例えば、英語を韓国語に翻訳する場合、「I have an apple」を「私は有しているりんごを」に翻訳することができ、言語モデルによる再配列過程によれば、「私は有しているりんごを」を「私はりんごを有している」に再配列することができる。音声認識のエラー修正方法は、同一な言語間にエラーを修正する方法であるので、音声認識のエラー修正装置は前記のような再配列過程を実行しない。
図8は、本発明の一実施例による音声認識のエラー修正装置を示したブロック図である。
図8を参照すれば、音声認識のエラー修正装置30は、処理部31及び保存部32を含む。処理部31は、正解コーパス及びドメインコーパスを通じて学習された言語モデルを基盤として音声認識結果のエラー可能性を判別することができ、エラー可能性が予め定義された基準より大きい場合、正解コーパス及び音声認識結果の同一性によって並列コーパスを生成することができ、並列コーパスを基盤として音声認識モデルを生成し、 音声認識モデル及び言語モデルを基盤として音声認識結果のエラーを修正することができる。保存部32は、処理部31で処理される情報及び処理された情報を保存することができる。
処理部31は、上述したステップS100を基礎として音声認識結果のエラー可能性を判別することができる。具体的には、処理部31は、音声認識結果に関連された正解コーパスと大容量のドメインコーパスを通じて学習された言語モデルを使用してエラー可能性を判別することができる。ここで、言語モデルでは、N−gramを使用することができ、具体的には、バイグラム(bigram)、トリグラム(trigram)を使用することができる。
例えば、音声認識結果が「りんごはおいしく食べた」の場合、処理部31は、バイグラム(bigram)を通じて「りんごはおいしく」、「おいしく食べた」の生成確率を算出することができ、トリグラム(trigram)を通じて「りんごはおいしく食べた」の生成確率を算出することができる。この時、言語モデルは、正解コーパスを通じて学習されたので、バイグラム(bigram)である「りんごはおいしく」は低い生成確率を有するようになり、したがって、処理部31は、「りんごはおいしく」を高いエラー可能性を有する構文で判別することができる。結局、処理部31は、「りんごはおいしく食べた」を高いエラー可能性を有する構文で判別することができる。
処理部31は、上述したステップS200を基礎としれ並列コーパスを生成することができる。具体的には、処理部31は、上述したステップS210を基礎として正解対を検出することができる。例えば、前記表1の二番目の行で音声認識結果である「りんごは」は、正解コーパスである「りんごは」と同一であるので、処理部31は、「りんごは」を正解対で検出することができる。また、前記表1の三番目の行で音声認識結果である「毒を入れた」は正解コーパスである「毒を入れた」と同一であるので、処理部31は、「毒を入れた」を正解対で検出することができる。
処理部31は、上述したステップS220を基礎としてエラー対を検出することができる。例えば、前記表1の二番目の行で音声認識結果である「洗う」と正解コーパスである「赤い」は同一ではないので、処理部31は、「洗う、赤い」をエラー対で検出することができる。また、前記表1の三番目の行で音声認識結果である「謝って」と正解コーパスである「りんごに」は同一ではないので、処理部31は、「謝って、りんごに」をエラー対で検出することができる。
処理部31は、上述したステップS230を基礎として並列コーパスを生成することができ、前記表2のように、正解コーパス、音声認識結果、正解対及びエラー対を含む拡張された並列コーパスを生成することができる。
処理部31は、上述したステップS300基礎として音声認識モデルを生成することができる。具体的には、処理部31は、上述したステップS310を基礎として音声認識前の第1の構文を検出することができ、上述したステップS320を基礎として音声認識後の第2の構文を検出することができ、上述したステップS330を基礎として構文の間の音声認識確率を算出することができ、上述したステップS340を基礎として音声認識モデルを生成することができる。
すなわち、処理部31は、図5のように音声認識モデルを生成することができる。処理部31は、第1の構文(例えば、正解コーパス)を行に設定し、第1の構文に対応する第2の構文(例えば、音声認識結果)を列に設定してマトリックスを生成することができ、第1の構文が第2の構文に認識される確率が高いことで判断される構文の行列を黒い色で表示して第1の音声認識モデルを生成することができる。
処理部31は、第1の構文(例えば、音声認識結果)を列に設定して第1の構文に対応する第2の構文(例えば、正解コーパス)を行に設定してマトリックスを生成することができ、第1の構文が第2の構文に認識される確率が高いことで判断される構文の行列を黒い色で表示して第2の音声認識モデルを生成することができる。
処理部31は、第1の音声認識モデルと第2の音声認識モデルを結合して最終音声認識モデルを生成することができる。
処理部31は、上述したステップS400を基礎として音声認識結果のエラーを修正することができる。具体的には、処理部31は、上述したステップS410を基礎として構文間の対応関係によるグラフを生成することができ、図7のように、各々の第1の構文(すなわち、正解コーパス)に対応する第2の構文(すなわち、音声認識結果)を検出することができ、これを基盤として第1の構文と第2の構文の対応関係によるグラフを生成することができる。
処理部31は、上述したステップS420を基礎として最小のエラーを有する経路を検出することができ、公知された技術(例えば、viterbi search)を通じて最小のエラーを有する経路を検出することができる。
処理部31は、上述したステップS430を基礎として音声認識結果のエラーを修正することができる。すなわち、処理部31は、音声認識結果と検出された経路とを比較することができ、比較結果、差がある場合、検出された経路を基準として音声認識の結果を修正することができる。例えば、音声認識結果が「りんごはおいしく食べた」で検出された経路が「りんごをおいしく食べた」の場合、音声認識のエラー修正装置は、音声認識の結果を「りんごをおいしく食べた」に修正することができる。
処理部31が実行する機能は、実質的にプロセッサ(例えば、CPU(Central Processing Unit)及び/またはGPU(Graphics Processing Unit)など)で実行することができる。
図9は、本発明の他の実施例による音声認識のエラー修正装置を示したブロック図である。
図9を参照すれば、音声認識のエラー修正装置30は、エラー判別部33と、コーパス生成部34と、モデル生成部35と、デコーダ36と、を含む。図9に示した音声認識のエラー修正装置30は、実質的に図8に示した音声認識のエラー修正装置30と同一である。
エラー判別部33は、上述したステップS100を基礎として音声認識結果のエラー可能性を判別することができる。コーパス生成部34は、上述したステップS200を基礎として並列コーパスを生成することができる。モデル生成部35は、上述したステップS300を基礎として音声認識モデルを生成することができる。デコーダ36は、上述したステップS400を基礎として音声認識結果のエラーを修正することができる。
エラー判別部33、コーパス生成部34、モデル生成部35及びデコーダ36が実行する機能は、実質的にプロセッサ(例えば、CPU及び/またはGPUなど)で実行できる。
また、エラー判別部33、コーパス生成部34、モデル生成部35及びデコーダ36は、一つの単一形態、一つの物理的な装置または一つのモジュールで具現することができる。さらに、エラー判別部33、コーパス生成部34、モデル生成部35及びデコーダ36は、各々一つの物理的な装置または集団ではない複数の物理的装置または集団で具現してもよい。
本発明による方法は、多様なコンピュータ手段を通じて実行できるプログラム命令形態で具現されてコンピュータ判読可能媒体に記録できる。コンピュータ判読可能媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含むことができる。コンピュータ判読可能媒体に記録されるプログラム命令は、本発明のために特別に設計され構成されたものであるかあるいはコンピュータソフトウェア当業者に公知されているものである。コンピュータ判読可能媒体の例には、ROM(ReadOnlyMemory)、RAM、フラッシュメモリー(flash memory)などのようにプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例には、コンパイラ(compiler)により作られるもののような機械語コードだけではなくインタプリタ(interpreter)などを使用してコンピュータにより実行される高級言語コードを含む。上述したハードウェア装置は、本発明の動作を実行するために少なくとも一つのソフトウェアモジュールで作動するように構成されることができ、その逆も同様である。
以上、添付した図面を参照して本発明の実施形態について説明したが、本発明が属する技術の分野における通常の知識を有する者であれば、本発明の技術的思想を逸脱しない範囲内で、様々な置換、変形及び変更が可能であるので、上述した実施例及び添付された図面に限定されるものではない。

Claims (14)

  1. 音声認識のエラー修正装置で実行される音声認識のエラー修正方法であって、
    正解コーパス及びドメイン(domain)コーパスを通じて学習された言語モデルを基盤として、音声認識結果のエラー可能性を判別するステップと、
    前記エラー可能性が予め定義された基準より大きい場合、前記正解コーパス及び前記音声認識結果の同一性によって並列コーパスを生成するステップと、
    前記並列コーパスを基盤として音声認識モデルを生成するステップと、
    前記音声認識モデル及び前記言語モデルを基盤として音声認識結果のエラーを修正するステップと、を含むこと
    を特徴とする音声認識のエラー修正方法。
  2. 前記エラー可能性を判別するステップは、前記音声認識結果の生成確率によってエラー可能性を判別することを特徴とする請求項1に記載の音声認識のエラー修正方法。
  3. 前記並列コーパスを生成するステップは、
    前記正解コーパス及び前記音声認識結果から正解対を検出するステップと、
    前記正解コーパス及び前記音声認識結果からエラー対を検出するステップと、
    前記正解コーパス、前記音声認識結果、前記正解対及び前記エラー対を基盤として前記並列コーパスを生成するステップと、を含むこと
    を特徴とする請求項1に記載の音声認識のエラー修正方法。
  4. 前記音声認識モデルを生成するステップは、
    前記並列コーパスから音声認識前の第1の構文を検出するステップと、
    前記並列コーパスから音声認識後の第2の構文を検出するステップと、
    前記第1の構文と前記第2の構文との間の音声認識確率を算出するステップと、
    前記第1の構文、前記第2の構文及び前記音声認識確率を基盤として前記音声認識モデルを生成するステップと、を含むこと
    を特徴とする請求項1に記載の音声認識のエラー修正方法。
  5. 前記音声認識結果のエラーを修正するステップは、
    前記第1の構文と前記第2の構文の対応関係によるグラフを生成するステップと、
    前記グラフから最小のエラーを有する経路を検出するステップと、
    検出された経路を基盤として前記音声認識結果のエラーを修正するステップと、を含むこと
    を特徴とする請求項4に記載の音声認識のエラー修正方法。
  6. 前記グラフを生成するステップは、任意の第2の構文と対応する任意の第1の構文が存在しない場合、前記任意の第2の構文を前記任意の第1の構文で仮定することを特徴とする請求項5に記載の音声認識のエラー修正方法。
  7. 前記検出された経路を基盤として前記音声認識結果のエラーを修正するステップは、前記言語モデルによる再配列過程なしに前記音声認識結果のエラーを修正することを特徴とする請求項5に記載の音声認識のエラー修正方法。
  8. 正解コーパス及びドメイン(domain)コーパスを通じて学習された言語モデルを基盤として音声認識結果のエラー可能性を判別し、前記エラー可能性が予め定義された基準より大きい場合、前記正解コーパス及び前記音声認識結果の同一性によって並列コーパスを生成し、前記並列コーパスを基盤として音声認識モデルを生成し、前記音声認識モデル及び前記言語モデルを基盤として音声認識結果のエラーを修正する処理部と、
    前記処理部で処理される情報及び処理された情報を保存する保存部と、を含むこと
    を特徴とする音声認識のエラー修正装置。
  9. 前記処理部は、前記音声認識結果の生成確率によってエラー可能性を判別することを特徴とする請求項8に記載の音声認識のエラー修正装置。
  10. 前記処理部は、前記正解コーパス及び前記音声認識結果から正解対を検出し、前記正解コーパス及び前記音声認識結果からエラー対を検出し、前記正解コーパス、前記音声認識結果、前記正解対及び前記エラー対を基盤として前記並列コーパスを生成することを特徴とする請求項8に記載の音声認識のエラー修正装置。
  11. 前記処理部は、前記並列コーパスから音声認識前の第1の構文を検出し、前記並列コーパスから音声認識後の第2の構文を検出し、前記第の構文と前記第2の構文との間の音声認識確率を算出し、前記第1の構文、前記第2の構文及び前記音声認識確率を基盤として前記音声認識モデルを生成することを特徴とする請求項8に記載の音声認識のエラー修正装置。
  12. 前記処理部は、前記第1の構文と前記第2の構文の対応関係によるグラフを生成し、前記グラフから最小のエラーを有する経路を検出し、検出された経路を基盤として前記音声認識結果のエラーを修正することを特徴とする請求項11に記載の音声認識のエラー修正装置。
  13. 前記処理部は、任意の第2の構文と対応する任意の第1の構文が存在しない場合、前記任意の第2の構文を前記任意の第1の構文で仮定して前記グラフを生成することを特徴とする請求項12に記載の音声認識のエラー修正装置。
  14. 前記処理部は、前記言語モデルによる再配列過程なしに前記音声認識結果のエラーを修正することを特徴とする請求項12に記載の音声認識のエラー修正装置。
JP2013243198A 2012-12-07 2013-11-25 音声認識のエラー修正方法及び装置 Expired - Fee Related JP5788953B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020120141972A KR101364774B1 (ko) 2012-12-07 2012-12-07 음성 인식의 오류 수정 방법 및 장치
KR10-2012-0141972 2012-12-07

Publications (2)

Publication Number Publication Date
JP2014115646A true JP2014115646A (ja) 2014-06-26
JP5788953B2 JP5788953B2 (ja) 2015-10-07

Family

ID=50271426

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013243198A Expired - Fee Related JP5788953B2 (ja) 2012-12-07 2013-11-25 音声認識のエラー修正方法及び装置

Country Status (4)

Country Link
US (1) US9318102B2 (ja)
JP (1) JP5788953B2 (ja)
KR (1) KR101364774B1 (ja)
CN (1) CN103871407B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467340B2 (en) 2015-01-02 2019-11-05 Samsung Electronics Co., Ltd. Grammar correcting method and apparatus

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016045420A (ja) * 2014-08-25 2016-04-04 カシオ計算機株式会社 発音学習支援装置およびプログラム
KR102298457B1 (ko) 2014-11-12 2021-09-07 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
CN104809923A (zh) * 2015-05-13 2015-07-29 苏州清睿信息技术有限公司 可自编自导的智能语音对话生成方法和系统
CN105468468B (zh) * 2015-12-02 2018-07-27 北京光年无限科技有限公司 面向问答系统的数据纠错方法及装置
CN105869634B (zh) * 2016-03-31 2019-11-19 重庆大学 一种基于领域的带反馈语音识别后文本纠错方法及系统
CN107122346B (zh) * 2016-12-28 2018-02-27 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置
CN107220235B (zh) * 2017-05-23 2021-01-22 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及存储介质
CN107357775A (zh) * 2017-06-05 2017-11-17 百度在线网络技术(北京)有限公司 基于人工智能的循环神经网络的文本纠错方法及装置
DE102017213946B4 (de) * 2017-08-10 2022-11-10 Audi Ag Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät
JP2019057123A (ja) * 2017-09-21 2019-04-11 株式会社東芝 対話システム、方法、及びプログラム
CN110111793B (zh) * 2018-02-01 2023-07-14 腾讯科技(深圳)有限公司 音频信息的处理方法、装置、存储介质及电子装置
US11520992B2 (en) 2018-03-23 2022-12-06 Servicenow, Inc. Hybrid learning system for natural language understanding
US10713441B2 (en) * 2018-03-23 2020-07-14 Servicenow, Inc. Hybrid learning system for natural language intent extraction from a dialog utterance
CN108549637A (zh) * 2018-04-19 2018-09-18 京东方科技集团股份有限公司 基于拼音的语义识别方法、装置以及人机对话系统
CN109036424A (zh) * 2018-08-30 2018-12-18 出门问问信息科技有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
KR20200056712A (ko) 2018-11-15 2020-05-25 삼성전자주식회사 전자 장치 및 그 제어 방법
CN109922371B (zh) * 2019-03-11 2021-07-09 海信视像科技股份有限公司 自然语言处理方法、设备及存储介质
CN110134952B (zh) * 2019-04-29 2020-03-31 华南师范大学 一种错误文本拒识方法、装置及存储介质
US11487945B2 (en) 2019-07-02 2022-11-01 Servicenow, Inc. Predictive similarity scoring subsystem in a natural language understanding (NLU) framework
CN110265019B (zh) * 2019-07-03 2021-04-06 中通智新(武汉)技术研发有限公司 一种语音识别的方法及语音机器人系统
US11455357B2 (en) 2019-11-06 2022-09-27 Servicenow, Inc. Data processing systems and methods
US11468238B2 (en) 2019-11-06 2022-10-11 ServiceNow Inc. Data processing systems and methods
US11481417B2 (en) 2019-11-06 2022-10-25 Servicenow, Inc. Generation and utilization of vector indexes for data processing systems and methods
CN111539231A (zh) * 2020-04-29 2020-08-14 北京金山安全软件有限公司 一种翻译方法、装置、服务器及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02171876A (ja) * 1988-12-23 1990-07-03 Nippon Telegr & Teleph Corp <Ntt> パターン認識処理方式
JP2005234236A (ja) * 2004-02-19 2005-09-02 Canon Inc 音声認識装置、音声認識方法、記憶媒体およびプログラム
JP2008033198A (ja) * 2006-08-01 2008-02-14 Nec System Technologies Ltd 音声対話システム、音声対話方法、音声入力装置、プログラム
JP2009198647A (ja) * 2008-02-20 2009-09-03 Nippon Telegr & Teleph Corp <Ntt> 音声認識誤り分析装置、方法、プログラム及びその記録媒体
JP2010134074A (ja) * 2008-12-03 2010-06-17 Toshiba Corp 音声認識装置、方法、およびプログラム
JP2011002656A (ja) * 2009-06-18 2011-01-06 Nec Corp 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
WO2012004955A1 (ja) * 2010-07-06 2012-01-12 株式会社日立製作所 テキスト補正方法及び認識方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3126945B2 (ja) * 1997-10-30 2001-01-22 株式会社エイ・ティ・アール音声翻訳通信研究所 文字誤り校正装置
JP2003308094A (ja) * 2002-02-12 2003-10-31 Advanced Telecommunication Research Institute International 音声認識における認識誤り箇所の訂正方法
US7539619B1 (en) * 2003-09-05 2009-05-26 Spoken Translation Ind. Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy
KR100639931B1 (ko) 2004-11-24 2006-11-01 한국전자통신연구원 대화형 음성인식 시스템의 인식오류 수정장치 및 그 방법
US7552053B2 (en) * 2005-08-22 2009-06-23 International Business Machines Corporation Techniques for aiding speech-to-speech translation
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
KR100825690B1 (ko) 2006-09-15 2008-04-29 학교법인 포항공과대학교 음성 인식 시스템에서의 인식 오류 수정 방법
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US8788258B1 (en) * 2007-03-15 2014-07-22 At&T Intellectual Property Ii, L.P. Machine translation using global lexical selection and sentence reconstruction
US8645119B2 (en) * 2007-03-26 2014-02-04 Google Inc. Minimum error rate training with a large number of features for machine learning
US9002869B2 (en) * 2007-06-22 2015-04-07 Google Inc. Machine translation for query expansion
US7890525B2 (en) * 2007-11-14 2011-02-15 International Business Machines Corporation Foreign language abbreviation translation in an instant messaging system
BRPI0910706A2 (pt) * 2008-04-15 2017-08-01 Mobile Tech Llc método para atualizar o vocabulário de um sistema de tradução de fala
JP4709887B2 (ja) * 2008-04-22 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
US8407049B2 (en) * 2008-04-23 2013-03-26 Cogi, Inc. Systems and methods for conversation enhancement
KR100961717B1 (ko) * 2008-09-16 2010-06-10 한국전자통신연구원 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
KR101149521B1 (ko) * 2008-12-10 2012-05-25 한국전자통신연구원 도메인 온톨로지를 이용한 음성 인식 방법 및 그 장치
EP2211336B1 (en) * 2009-01-23 2014-10-08 Harman Becker Automotive Systems GmbH Improved speech input using navigation information
CN101655837B (zh) * 2009-09-08 2010-10-13 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
US20110238406A1 (en) * 2010-03-23 2011-09-29 Telenav, Inc. Messaging system with translation and method of operation thereof
KR101828273B1 (ko) * 2011-01-04 2018-02-14 삼성전자주식회사 결합기반의 음성명령 인식 장치 및 그 방법
TWI441163B (zh) * 2011-05-10 2014-06-11 Univ Nat Chiao Tung 中文語音辨識裝置及其辨識方法
KR101181928B1 (ko) 2011-07-18 2012-09-11 포항공과대학교 산학협력단 문법오류 검출 장치 및 이를 이용한 문법오류 검출 방법
US20130091138A1 (en) * 2011-10-05 2013-04-11 Microsoft Corporation Contextualization, mapping, and other categorization for data semantics
US9311293B2 (en) * 2012-04-13 2016-04-12 Google Inc. Techniques for generating translation clusters
CN102799579B (zh) * 2012-07-18 2015-01-21 西安理工大学 具有错误自诊断和自纠错功能的统计机器翻译方法
US9916306B2 (en) * 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02171876A (ja) * 1988-12-23 1990-07-03 Nippon Telegr & Teleph Corp <Ntt> パターン認識処理方式
JP2005234236A (ja) * 2004-02-19 2005-09-02 Canon Inc 音声認識装置、音声認識方法、記憶媒体およびプログラム
JP2008033198A (ja) * 2006-08-01 2008-02-14 Nec System Technologies Ltd 音声対話システム、音声対話方法、音声入力装置、プログラム
JP2009198647A (ja) * 2008-02-20 2009-09-03 Nippon Telegr & Teleph Corp <Ntt> 音声認識誤り分析装置、方法、プログラム及びその記録媒体
JP2010134074A (ja) * 2008-12-03 2010-06-17 Toshiba Corp 音声認識装置、方法、およびプログラム
JP2011002656A (ja) * 2009-06-18 2011-01-06 Nec Corp 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
WO2012004955A1 (ja) * 2010-07-06 2012-01-12 株式会社日立製作所 テキスト補正方法及び認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467340B2 (en) 2015-01-02 2019-11-05 Samsung Electronics Co., Ltd. Grammar correcting method and apparatus

Also Published As

Publication number Publication date
US9318102B2 (en) 2016-04-19
CN103871407B (zh) 2017-04-19
CN103871407A (zh) 2014-06-18
JP5788953B2 (ja) 2015-10-07
KR101364774B1 (ko) 2014-02-20
US20140163975A1 (en) 2014-06-12

Similar Documents

Publication Publication Date Title
JP5788953B2 (ja) 音声認識のエラー修正方法及び装置
US11176141B2 (en) Preserving emotion of user input
US10467340B2 (en) Grammar correcting method and apparatus
CN109635305B (zh) 语音翻译方法及装置、设备及存储介质
US8521511B2 (en) Information extraction in a natural language understanding system
US20120166942A1 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
JP6578941B2 (ja) 含意判定装置、含意判定方法及びプログラム
US20200286486A1 (en) Voice identification method, device, apparatus, and storage medium
US11074406B2 (en) Device for automatically detecting morpheme part of speech tagging corpus error by using rough sets, and method therefor
US20150205779A1 (en) Server for correcting error in voice recognition result and error correcting method thereof
CN105373527B (zh) 一种省略恢复方法及问答系统
US10540600B2 (en) Method and apparatus for detecting changed data
US20180158456A1 (en) Speech recognition device and method thereof
CN105632500B (zh) 语音识别装置及其控制方法
US9460344B2 (en) Generating multi-logogram phrases from logogram radicals
US8548800B2 (en) Substitution, insertion, and deletion (SID) distance and voice impressions detector (VID) distance
US9904374B2 (en) Displaying corrected logogram input
CN112863518B (zh) 一种语音数据主题识别的方法及装置
CN106815191B (zh) 修正词的确定方法和装置
JP6193736B2 (ja) 同音異義語除去方法と複合語除去方法と同音異義語・複合語除去方法とそれらの装置とプログラム
JP6365010B2 (ja) 学習プログラム及び情報処理装置
CN112905025A (zh) 信息处理方法、电子设备及可读存储介质
US10095673B2 (en) Generating candidate logograms
KR20160053587A (ko) 엔-그램 언어 모델의 데이터베이스 사이즈 최소화 방법
KR101559129B1 (ko) 영단어 추천 방법 및 장치

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141111

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150210

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150310

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150512

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150730

R150 Certificate of patent or registration of utility model

Ref document number: 5788953

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees