JP2008515078A - 自動テキスト訂正 - Google Patents
自動テキスト訂正 Download PDFInfo
- Publication number
- JP2008515078A JP2008515078A JP2007534155A JP2007534155A JP2008515078A JP 2008515078 A JP2008515078 A JP 2008515078A JP 2007534155 A JP2007534155 A JP 2007534155A JP 2007534155 A JP2007534155 A JP 2007534155A JP 2008515078 A JP2008515078 A JP 2008515078A
- Authority
- JP
- Japan
- Prior art keywords
- text
- training
- conversion rule
- rule
- text conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/16—Automatic learning of transformation rules, e.g. from examples
Abstract
本発明は、音声テキスト変換システムに対するテキスト変換ルールを生成する方法を提供する。テキスト変換ルールは、音声テキスト変換システムにより生成される誤りテキストと正しい参照テキストとを比較することにより生成される。誤りテキストと参照テキストとの比較は、トレーニングテキストへの厳密な適用と参照テキストとのさらなる比較によって評価されるテキスト変換ルールセットを求めることを可能にする。テキスト変換ルールの評価は、自動生成されたテキスト変換ルールの何れが誤りテキストの向上又は劣化を提供するか決定するのに十分なアプローチを提供する。このように、誤りテキストの向上を保証するテキスト変換ルールセットの当該テキスト変換ルールのみが、選択される。このように、自動音声認識又は自然言語処理システムのシステマティックエラーが、効果的に補償可能である。
Description
本発明は、対応する正しい参照テキストとの比較を利用することによって、誤っているテキストの自動訂正の分野に関する。
音声からテキストへの変換処理により生成されるテキスト文書は、典型的には、各種特徴により誤りのないものではない。最新の自動音声認識(ASR)及び自然言語処理(NLP)システムはすでに、音声テキスト変換、自動非発話句読点挿入、自動テキストセグメント化、見出し挿入、自動日付フォーマットか、ユニット、省略などに関するかなりのパフォーマンスを提供しているが、結果として得られるテキストには依然として、システムティックな誤りが生じている。例えば、自動音声認識システムは、特定のワードを類似した音声ワードとして誤って解釈するかもしれない。また、自動音声認識システムによって使用される用語集又は辞書のエントリは、誤りの影響を受けるかもしれない。このため、自動音声認識又は音声変換システムは、当該特定の辞書エントリが与えられた音声において認識されると、スペルミスしたワードをシステマティックに生成するかもしれない。
一般に、すべてのASR及びNLPシステムは誤りの傾向がある。特に、高度な音声テキスト変換装置はしばしば、ASRシステムの認識エラーのマイナスとなる多数のフォーマット化処理が実行される必要があるときなど、複雑なタスクに対して高いエラーレートを示す。これらの事実は周知であるが、ASR及びNLPシステムのシステマティックな誤りを検出及び解消する一般的なアプローチはまだ存在しない。
文献US2002/0165716は、音声認識中にコンセンサス復号化(consensus decoding)が使用されるとき、誤り数を減少する技術を開示している。一般に、いくつかの訂正ルールが、リアルタイムの音声認識中に抽出されるコンフュージョンセット(confusion set)に適用される。訂正ルールは、多数のトレーニングコンフュージョンセットの使用を伴う音声認識システムのトレーニング中に決定される。トレーニングコンフュージョンセットに適用可能なテンプレートルールと呼ばれるいくつかの可能なルールを生成する学習プロセスが、利用される。学習プロセスはまた、テンプレートルールから訂正ルールを決定する。訂正ルールは、仮説ワードが必ずしも最も高いスコアを有するワードであるとは限らないコンフュージョンセットから仮説ワードを選択するため、リアルタイムにコンフュージョンセットに対して機能する。
US2002/0165716の開示では、訂正ルールは、コンセンサス復号化によりワードラティス(word lattice)から変換される多数のトレーニングコンフュージョンセットを利用することによって決定される。ワードラティスは、認識装置の用語集のエントリをデコーダが利用することによって生成される。このように、訂正ルールの決定及び導出は、音声認識システムの用語集に基づく。このように、認識装置の用語集の外部のワードは実現可能でなく、このため、訂正ルールを決定するプロセス全体は、音声認識システムにすでに知られているワードに基づくものとなる。さらに、各コンフュージョンセットは、認識されたワードと、当該認識されたワードを置換できる代替ワードセットとから構成される。すなわち、当該セットは、削除に対応する「エンプティワード」を潜在的に含む他の単一ワードにより単一ワードを置換する可能性を提供する。
従って、本発明は、ASR又はNLPに固有のトレーニングデータ、用語集又は他の所定のテキストデータベースに関係なく、ASR又はNLPシステムにより生成される任意のタイプの所与のテキストのシステマティックエラーを検出及び解消する一般的アプローチを提供することを目的とする。
本発明は、少なくとも1つの誤りトレーニングテキストと対応する正しい参照テキストとを利用することによって、自動テキスト訂正のためのテキスト変換ルールを生成する方法を提供する。本発明の方法は、少なくとも1つの誤りトレーニングテキストと正しい参照テキストとを比較し、トレーニングテキストと参照テキストとの間の乖離を利用することによってテキスト変換ルールセットを求めることを利用する。これらの乖離は、誤りトレーニングテキストと正しい参照テキストとの間の比較により検出される。テキスト変換ルールセットを求めた後、テキスト変換ルールセットは、各変換ルールをトレーニングテキストに適用することによって評価される。このテキスト変換ルールの評価に応じて、評価されたテキスト変換ルールセットの少なくとも1つが、自動テキスト訂正のため選択される。
誤りトレーニングテキストは、自動音声認識システム又は他の何れかのタイプの音声テキスト変換システムによって提供されてもよい。参照テキストは、トレーニングテキストに対応し、誤りのないものであるべきである。この正しい参照テキストは、ASR及び/又はNLPシステムの認識されたテキストの校正者によって手動により生成されてもよい。あるいは、典型的には電子形式による任意の参照テキストが、本発明のテキスト訂正システム、すなわち、本発明の方法を実行するのに適用可能なシステムに提供され、誤りトレーニングテキストが、参照テキストを音声としてASR及び/又はNLPシステムに入力し、変換されたテキストをASR及び/又はNLPシステムによって生成される誤りトレーニングテキストとして受け付けることによって生成されるかもしれない。
テキスト変換ルールを生成する方法はさらに、参照テキストと誤りトレーニングテキストとの間の乖離を検出することを利用する。乖離の検出は、ワード単位の比較に限定されず、各フレーズがテキストのワードセットを有するフレーズ単位の比較を含むものであってもよい。さらに、トレーニングテキストと参照テキストとの間の乖離は、音声テキスト変換システムが生成可能な任意のタイプの考えられる誤りを表すかもしれない。このように、誤りトレーニングテキストの任意のタイプの誤りが、検出及び分類される。
検出された誤りの分類は、典型的には、テキストの置換、挿入又は削除を表す。例えば、トレーニングテキストの各ワードが、参照テキストの対応するワードに割り当てられ、これら2つのワードが正確に一致するとき、正しいとマーク付けされるかもしれない。あるワードがASRやNLPシステムにより解釈ミスされる場合、例えば、システムが“home”の代わりに“bone”に変換すると、ワード“home”はワード“bone”と置換されるとマーク付けされるかもしれない。多数のワードが1つのワードに、又は端は異に1つのワードが多数のワードに変換される他のシナリオでは、検出された乖離は、典型的には置換と共に削除又は挿入によりマーク付けされるかもしれない。これは、例えば、“a severe”が“weird”としてミス解釈されたとなどに適用されるかもしれない。
検出された各乖離は、典型的には、正しい参照テキストの対応するワードに割り当てられる。トレーニングテキストのテキスト部分の対応する訂正されたテキスト部分へのアライメント(alignment)は、最小編集距離又はLevenshteinアライメントなどのいくつかの標準的な技術を利用することによって実行することが可能である。誤りテキスト部分と対応する正しいテキスト部分との間のアライメントと適切な分類とに基づき、テキスト変換ルールが生成可能である。“a severe”が“weird”と解釈ミスされた上記与えられた例について、テキスト変換ルールは、一般にワード“weird”が“a severe”に置換される必要があることを規定するかもしれない。しかしながら、このテキスト変換ルールは、ASR又はNLPシステムのシステマティックエラーに対応するものでないかもしれず、テキストに一貫して適用されると、ワード“weird”の各出現は、他の出現についてワード“weird”が正しく変換されたか否かに関係なく、“a severe”に置換されるかもしれない。
テキスト変換ルールの生成は、文法又は意味内容の情報をワードストリームに割り当てるタグ付けプロセスを訂正する変換ルールを求めるフレームワークにおいて知られている変換ベース学習(TBL)と同様に実行することができる。本発明によって、変換ベース学習は、参照テキストを誤りテキスト部分に割り当てるため、変更及び調整される。
切り替えされるシステマティックエラーと偶発的な再生不可能な誤りを区別するため、自動生成されたテキスト変換ルールが評価される必要がある。このため、生成されたテキスト変換ルールの何れが音声テキスト変換手続のシステマティックエラーに対応するか決定される必要がある。この評価は、典型的には、生成されたテキスト変換ルールのそれぞれをトレーニングテキストに適用し、テキスト変換ルールが誤りの解消を提供するか、又はその結果として適用がトレーニングテキストにより多くの誤りを導入するか決定するため、参照テキストとの以降の比較を実行することによって行われる。生成されたテキスト変換ルールが特定の1つの誤りを解消したとしても、それはまた、トレーニングテキストの正しいテキスト部分にさらなる多数の誤りを導入するかもしれない。
テキスト変換ルールセットの評価は、トレーニングテキストに適用されると、トレーニングテキストの向上をもたらすテキスト変換ルールのみを直感的に選択するため、テキスト変換ルールのランク付けを実行することを可能にする。このため、自動生成されたテキスト変換ルールセットのこれらのテキスト変換ルールのみが選択され、ASR及び/又はNLPシステムのシステマティックエラーを検出及び解消するため、自動テキスト訂正に提供される。
本発明の好適な実施例によると、テキスト変換ルールを求めるステップは、トレーニングテキストと参照テキストの各領域の間の割当に関して実行される。これらのテキスト領域は、隣接及び/若しくは非隣接フレーズ並びに/又は単一の若しくは複数のワード、数及び/若しくは句読点を規定する。このように、本発明の方法は、それらがワード、句読点、数又はそれらの組み合わせを表すか否かに関係なく、任意のタイプのテキスト部分又はテキスト領域に一般に適用可能である。トレーニングテキストと参照テキストの各テキスト領域の間の上記割当及びアライメントは、ワード単位のマッピングによって、すなわち、誤りワードをそれの訂正された参照対応ワードと置換することによって実行されるかもしれない。
ワード単位の割当はしばしば曖昧であるため、本方法はワード単位のマッピングに限定されない。さらに、トレーニングテキストと参照テキストの間の割り当ては、より大きな範囲に対して実行されてもよい。このため、多数のワードを有するテキストが、誤りのない領域と誤り領域に分割されてもよい。このタイプの分割に基づき、曖昧さを低減し、より長い範囲のフレーズ単位のマッピングを学習することを可能にする、完全な誤り領域の間のマッピングが実行されてもよい。このようなフレーズ単位のマッピングは、例えば、“the patient has weird problem”という誤りテキスト部分と“the patient has a severe problem”という正しい表現との間のマッピングとして表現されてもよい。
さらに、誤り領域のサブ領域を規定する部分誤り領域に基づき、割当が実行されてもよい。これは、好ましくは、短い範囲の誤り領域の誤りが他のコンテクストに再出現する可能性があるときに適用可能である。例えば、部分的な誤り領域は、“one hours”などの文法的に誤った表現を規定するかもしれない。
トレーニングテキストと参照テキストとの間の不一致又は乖離を検出すると、1つのテキスト変換ルールだけでなく、複数の重複するテキスト変換ルールもまた生成されるかもしれない。あるテキスト変換ルールの生成と乖離のローカルな検出により、本方法は、生成されたテキスト変換ルールのグローバルなパフォーマンス又はクオリティを把握していない。従って、検出された誤りに適用可能な複数のルールを生成することが効果的である。例えば、“the patient has a severe problem”というセンテンスが“the patient has weird problem”として変換された場合、テキスト変換ルールセット全体が生成されるかもしれない。極めてシンプルなワード単位変換ルールが、“weird”を“severe”に置換することを規定するかもしれない。他のテキスト変換ルールは、“weird”をフレーズ“a severe”と置換するよう規定するかもしれない。さらなる他のテキスト変換ルールは、“はsweird”を“has a severe”に置換する規定するかもしれず、以下同様である。
明らかに、これら自動的に生成されたテキスト変換ルールのいくつかは、テキストに厳密に適用されると、テキストのクオリティを向上させるだけでなく、劣化するかもしれない。従って、テキスト変換ルールセットの評価は、生成されたテキスト変換ルールセットの妥当なテキスト変換ルールを検出するため、適用される必要がある。
本発明のさらなる好適な実施例によると、テキスト変換ルールは、トレーニングテキストのテキスト領域と参照テキストのテキスト領域との間の少なくとも1つの割当を有し、さらに当該割当が適用可能な状況を規定する適用条件を利用する。このように、テキスト変換ルールは、追加的な条件が充足されるときに限って、異なるテキスト領域を訂正されたテキスト領域と置換するよう規定するかもしれない。これは、正しいテキストが影響を受けない状態にされている間、テキスト変換ルールを誤りを訂正するのに十分固有なものにすることを可能にする。
例えば、何れか2つのワードの間に、又はワード“and”の何れかの出現前にカンマを単に導入することは、正しいカンマを導入することより不適切なカンマをテキストに確実に挿入することとなる。この場合、適用条件は、次のワードが“and”であり、ある欠落したカンマを挿入するため、当該“and”の2つ前のポジションにカンマが存在することを要求するなどの主張の形式により表現されるかもしれない。
さらに、適用条件は、テキスト変換ルールの適用可能性を不可にする排除を規定するかもしれない。例えば、テキスト変換ルールは、“colon”を“:”に置換するよう規定するかもしれない。ワード“colon”が冠詞に後続する場合など、当該テキスト変換ルールの適用を禁止することが効果的である。さらに多くの適用条件が考えられ、ワードクラスによって表現されるワードコンテクストを利用しさえするかもしれない。このようなワードクラスは、例えば、メトリックユニットを規定するかもしれず、適用条件は、次のワードがクラスメトリックユニットからのものである場合、ワード“one”を“1”に変換するよう規定するかもしれない。これは、単なる基本的な具体例であり、適用条件もまた、テキストセグメント化及びトピックラベリングスキームを利用するより長い範囲のコンテクスト条件を利用するかもしれない。
本発明のさらなる好適な実施例によると、テキスト変換ルールセットの評価は、テキスト変換ルールセットの各テキスト変換ルールを個別に評価することを利用する。このテキスト変換ルールの個別評価はさらに、誤り低減指標を利用し、テキスト変換ルールをトレーニングテキストに適用するステップと、正のカウント数を決定するステップと、負のカウント数を決定するステップと、正及び負のカウント数に基づき誤り低減指標を求めるステップとを有する。
テキスト変換ルールをトレーニングテキストに適用することは、テキスト変換ルールの厳密な適用を表し、変換されたトレーニングテキストを提供する。その後、初期的なトレーニングテキストと変換されたトレーニングテキストの両方が、当該テキスト変換ルールのパフォーマンスを決定するため、正しい参照テキストと比較される。このように、テキスト変換ルールの適用が初期的なトレーニングテキストの誤りの解消をどの程度の頻度により提供するか正確に決定することができる。トレーニングテキストの誤りの各解消に対して、テキスト変換ルールの正のカウントがインクリメントされる。同様に、変換されたトレーニングテキストと参照テキストとの間の比較は、テキスト変換ルールの適用が、トレーニングテキストにおけるエラーの生成をどの程度の頻度により提供するか決定することを可能にする。この場合、負のカウント数がインクリメントされる。
これらの正及び負のカウント数に基づき、誤り低減指標を求めることができる。典型的には、誤り低減指標は、正のカウントから負のカウントを減算することによって取得することができる。当該結果が正である場合、当該テキスト変換ルールは一般に、トレーニングテキストに対する向上を提供する。他方のケースでは、当該結果が負であるとき、このテキスト変換ルールの厳密な適用は、自動テキスト訂正システムにより適用されると、テキストに対して負の影響を及ぼすであろう。さらに、誤り低減指標は、当該テキスト変換ルールの1回の適用によって、いくつの誤りが生成又は解消されるか規定するあるタイプの誤り数量によりスケーリングされるかもしれない。これは、各種テキスト変換ルールのパフォーマンスを比較するのに利用可能な一般的な誤り低減指標を取得することを可能にする。
原則的には、各テキスト変換ルールに対して誤り低減指標を利用することによって、トレーニングテキストに対して正の影響を有するテキスト変換ルールの選択が実行可能である。この場合、テキスト訂正ルールセットの各種ルール間の可能性のあるやりとりは、考慮されない。各種テキスト変換ルールが重複する可能性があるため、すなわち、同一又は部分的に重複したテキスト領域を意味するため、各種ルールの同一テキスト領域への以降の適用は、さらにテキストの劣化を招く可能性がある。
本発明のさらなる好適な実施例によると、テキスト変換ルールセットの評価及び導出はさらに、評価手続の繰り返しの実行を有する。ここで、第1ステップでは、テキスト変換ルールセットのランク付けが、ルール低減指標を利用することによって実行される。その後、最も高くランク付けされたテキスト変換ルールが、第1の変換されたトレーニングテキストを生成するため、トレーニングテキストに適用される。最も高くランク付けされたルールは、テキストの最大の向上と最小の劣化を提供するテキスト変換ルールセット全体を表す。この最も高くランク付けされたテキスト変換ルールの適用が初期的なトレーニングテキストに影響を与えるため、残りのすべてのルールが、変更されたトレーニングテキストを処理するため、少なくとも再評価及び/又は再設計される必要がある。
一般に、残りのルールのランク付けは、もはや有効でないかもしれない。従って、第2のテキスト変換ルールセットが、参照テキストと第1の変換されたトレーニングテキストとに基づき求められる。第2のテキスト変換ルールセットの導出は、典型的には、第1のテキスト変換ルールセットの生成と同様に、すなわち、第1の変換されたトレーニングテキストと参照テキストとを比較し、これら2つのテキストの間の乖離を検出し、適当なテキスト変換ルールを生成することによって実行される。
当該第2のテキスト変換ルールセットを求めた後、この第2のテキスト変換ルールセットと第1の変換されたトレーニングテキストとに基づき、第2のランク付けが実行される。このランク付けは、テキスト変換ルールセットの初期的なランク付けと同様に実行され、従って、それは第2のテキスト変換ルールセットの各ルールに対して誤り低減指標を利用する。その後、第2のテキスト変換ルールセットの最も高くランク付けされたルールが、第2の変換されたトレーニングテキストを生成するため、第1の変換されたトレーニングテキストに適用される。その後、当該手続の全体が繰り返し適用され、第3のテキスト変換ルールセットが、第2の変換されたトレーニングテキストともとの参照テキストとの間の比較に基づき生成される。好ましくは、この繰り返しの手続は、n番目の変換されたトレーニングテキストが参照テキストに等しくなるまで、又はn番目の変換されたトレーニングテキストが(n−1)番目の変換されたトレーニングテキストに関して何れの向上も示さなくなるまで実行されるかもしれない。典型的には、各繰り返しの中の最も高くランク付けされたルールが、自動テキスト訂正システムのテキスト変換ルールとして選択される。
当該繰り返し手続を利用することによって、各種テキスト変換ルールの間の相互作用が考慮され、評価及びルール生成手続を実行するのに確実なアプローチを提供する。しかしながら、この繰り返しの評価手続は大きな計算量を要求し、このため、不適切な計算時間と計算リソースを必要とするかもしれない。
本発明のさらに好適な実施例によると、テキスト変換ルールセットの評価は、第1及び第2テキスト変換ルールがトレーニングテキストの同一のテキスト領域を実質的に表している場合、テキスト変換ルールセットの第1及び第2テキスト変換ルールの第1テキスト変換ルールを破棄することを有する。第1テキスト変換ルールは、当該第1テキスト変換ルールが第2テキスト変換ルールより低く評価された場合、すなわち、第1ルールの誤り低減指標が第2ルールの誤り低減指標より低い場合、破棄される。破棄は、ルールをペア毎に破棄することに限定されるものではない。さらに、同一のテキスト領域を参照するすべてのルールを構成し、テキスト領域を参照するこれらのルールのランク付けを実行することが効果的である。このとき、各テキスト領域に対して、より大きな誤り低減指標を特徴付けるルールのみが選択され、テキスト訂正システムに提供される。このように、繰り返しの手続は、ルール相互作用に関して良好なルールを検出するため、明示的に適用される必要はない。
本発明のさらに好適な実施例によると、テキスト変換ルールセットの導出はさらに、あるタイプのテキスト誤りに固有の“words”又はテキストユニットの少なくとも1つのクラスを利用する。典型的には、ワードクラスとも呼ばれるこのようなテキストユニットのクラスは、文法ルール又はコンテクストに固有のルールを表す。ワードクラスは、例えば、メートル、キロメートル、ミリメートルなどのメトリック単位のクラスを規定するかもしれない。効果的には、変換ルールは、ワードクラスにより規定されるメトリック表現に先行するとき、書かれた数字をそれの数字の部分と置換などするため、このようなワードクラスを利用するかもしれない。他の具体例は、“horses,cars,pencils,...”などの複数のワードに決して先行しない“a,an,one”などの不定冠詞のクラスを表すかもしれない。ワードクラスを利用するテキスト変換ルールはまた、テキスト変換ルールに対して上述した適用条件を利用することによって実現されてもよい。
本発明のさらなる好適な実施例によると、テキスト変換ルール自体は、典型的には、正しいテキスト領域の誤りテキスト領域への意図しない変換を示すある条件が充足されない場合には、テキスト領域を他のテキスト領域に変換するよう規定することができる。このように、テキスト変換ルールは、積極的な意味において置換、挿入又は削除を規定するだけでなく、正しい可能性が高いテキスト領域の変換を禁止するかもしれない。
本発明のさらなる好適な実施例によると、テキスト変換ルールの評価及び/又は選択は、テキスト変換ルールセットの少なくとも一部をユーザに提供することを有する。その後、ユーザは、提供されたテキスト変換ルールの何れかを手動により評価及び/又は選択するかもしれない。このように、テキスト変換ルールを実行する評価及び選択の重要なタスクは、ユーザとのやりとりによって実行可能である。典型的には、テキスト変換ルールが、例えば、テキスト変換ルールの具体的な置換を可視化し、テキスト変換ルールに対して適用条件を規定する論理表現を提供することによって、可視化によりユーザに提供されてもよい。ユーザには、同一のテキスト領域などを表す獲得したテキスト変換ルールセットが提供されるかもしれない。その後、ユーザは提供された他のテキスト変換ルールの1つを選択するかもしれない。
本発明のさらなる好適な実施例によると、誤りトレーニングテキストが、自動音声認識システム、自然言語理解システム又は一般に音声テキスト変換システムによって提供される。このため、本発明の方法は、各自のテキスト出力と対応する正しい参照テキストとの比較とに基づき、これらのシステムのシステマティックエラーを検出するためのものである。
本発明の方法はさらに、検出されたシステマティックエラーを補償することを可能にするテキスト変換ルールを自動生成する。さらに、本発明の方法は一般に、誤りテキストと参照テキストとを、そのもとのものに関係なく比較することを可能にする。このように、本発明の方法は、トレーニー又は学生が潜在的な誤りテキストを生成し、本発明の方法がテキストの訂正後に学生にフィードバックを提供し、又はテキストと参照テキストとの比較を変更するのに利用可能な教育プログラムに適用されてもよい。
他の特徴では、本発明は、誤りテキストを訂正するテキスト変換ルールを利用するテキスト訂正システムを提供する。テキスト訂正システムは、少なくとも1つの誤りトレーニングテキストと対応する正しい参照テキストとを利用することによって、テキスト変換ルールを生成するよう構成される。本発明のテキスト訂正システムは、少なくとも1つの誤りトレーニングテキストと正しい参照テキストとを比較する手段と、トレーニングテキストと参照テキストとの間の乖離を利用することによって、テキスト変換ルールセットを求める手段とを有し、これにより、当該乖離が、比較により検出される。テキスト訂正システムはさらに、各変換ルールをトレーニングテキストに適用することによって、テキスト変換ルールセットを評価する手段と、テキスト訂正システムの評価されたテキスト変換ルールセットの少なくとも1つのテキスト変換ルールを選択する手段とを有する。
さらなる他の特徴では、本発明は、自動テキスト訂正のためテキスト変換ルールを生成するコンピュータプログラムを提供する。コンピュータプログラムは、少なくとも1つの誤りトレーニングテキストと対応する正しい参照テキストとを処理するよう構成される。コンピュータプログラムは、少なくとも1つの誤りトレーニングテキストと対応する正しい参照テキストとを比較し、トレーニングテキストと参照テキストとの間の乖離を利用することによって、テキスト変換ルールセットを求めるよう動作可能なプログラム手段を有する。典型的には、これらの乖離は、コンピュータによりサポートされる比較により検出される。コンピュータプログラムのプログラム手段はさらに、各変換ルールをトレーニングテキストに適用し、テキスト訂正システムに対して評価されたテキスト変換ルールセットの少なくとも1つのテキスト変換ルールを最終的に選択するよう動作可能である。
さらなる他の特徴では、本発明は、音声をテキストに変換する音声テキスト変換システムを提供する。音声テキスト変換システムは、テキストの誤りを訂正するテキスト変換ルールを利用するテキスト訂正モジュールと、音声テキスト変換システムにより生成される少なくとも1つの誤りトレーニングテキストと対応する正しい参照テキストとを利用することによって、テキスト変換ルールを生成するルール生成モジュールとを有する。音声テキスト変換システムと、特にそれのルール生成モジュールは、参照及びトレーニングテキストを格納するストレージモジュールと、少なくとも1つの誤りトレーニングテキストと正しい参照テキストとを比較する比較モジュールと、テキスト変換ルールセットを求める変換ルール生成部と、各変換ルールをトレーニングテキストに適用することによって、テキスト変換ルールセットを評価するよう構成される評価部と、最後に、テキスト訂正モジュールに対して評価されたテキスト変換ルールセットの少なくとも1つのテキスト変換ルールを選択する選択モジュールとを有する。
本発明のさらなる好適な実施例によると、音声テキスト変換システム及び/又はテキスト訂正システムは、テキスト変換ルール毎の推定又は計算された誤り変化又は誤り低減指標の情報と共に、生成されたテキスト変換ルールを可視化するユーザインタフェースを有する。ユーザインタフェースは、各ルール又はルールセットをソート、選択及び/又は破棄することを可能にする選択ツールを有する。さらに、ユーザインタフェースはまた、ユーザによる手動の規定及びテキスト変換ルールの生成を提供するかもしれない。従って、ユーザ自身が、任意のルールを定義又は規定するかもしれない。このユーザにより定義されたルールは、その後、評価モジュールに提供され、ユーザには、当該提案されたルールのパフォーマンスに関するフィードバックが提供されるかもしれない。ユーザにより定義されたルールはまた、統計的証拠及び人間の直感が最大の効果のため組み合わされる自動生成されたルールによるランク付けに含まれるかもしれない。
さらに、ユーザインタフェースは、ユーザがワードクラスのマージや分割などのワードクラスの変更を手動により制御及び規定することができるように、ワードクラスを可視化するかもしれない。さらに、ユーザインタフェースは、テキスト変換ルールの適用を受けた変更されたテキストの領域をグラフィカルにハイライトするようにしてもよい。ハイライト処理は、あるルールにより導入された変更の容易な補償を可能にするundo機能と共に提供されてもよい。
さらなる好適な実施例によると、ルールとそれらの適用に対する条件とのリストが、1以上のトレーニング及び参照テキストの比較から生成される。その後、特定のユーザからトレーニング及び参照テキストを受け付けると、すべてのルールがこれらのテキストに基づき評価される。このアプローチは、異なる誤り特徴を有する複数のユーザから生じるかもしれない以前に生成及び格納されたルールの長いリストからのルールのユーザ固有の選択を可能にする。予めより長いデータセットからルールを生成することは、しばしば制限されたユーザ固有のデータのみから抽出可能なより多くのルール、又はあるルールを利用又は禁止すべき時期に関する向上した条件を提供するかもしれない。さらに、オンラインシステムにおいてルールを生成する時間を短縮することが可能である。
従って、本発明は、そのうちの1つがいくつかの誤りを特徴付ける何れか2つの対応するテキストに一般に適用可能な方法を提供する。本方法及びテキスト訂正システムは、音声テキスト変換システムにより一般に実現可能であり、これらのシステムのシステマティックエラーを補償し、又はASR及び/又はNLPなどの音声テキスト変換システムの将来的な適用に対して、テキストにおいて検出された誤りがどのように解消可能であることを示唆をユーザに少なくとも提供することを可能にする。
請求項の参照符号は本発明の範囲を制限するものとして解釈されるべきでないということにさらに留意すべきである。
図1は、少なくとも1つの誤りトレーニングテキストと対応する正しい参照テキストとを利用するテキスト変換ルールを生成する本発明の方法を実行するフローチャートを示す。典型的には、参照テキストはすでに、自動テキスト訂正システムに提供され、適当なメモリに格納されている。その後、第1ステップ100において、トレーニングテキストとも呼ばれる誤りテキストが受け付けされ、適当なメモリに格納される。このようにして、誤りテキストと参照テキストは、誤りテキストの比較及び変更を可能にするため、別々に格納される。
典型的には、誤りテキストは、自動音声認識システム及び/又は自然言語処理システム又は他の何れかのタイプの音声テキスト変換システムにより提供される。ステップ100において、誤りテキストが受け付けされた後、次のステップ102において、誤りテキストと参照テキストが比較される。この比較は、ワード単位の比較又は複数のワード、数字、句読点及び同様のテキストユニットを含むテキスト領域全体を比較することに基づくものとすることが可能である。効果的には、この比較は、最小編集距離及び/又は誤りテキスト部分と対応する訂正テキスト部分との乖離の指標を提供するLevenshteinアライメントにより実行することができる。
この比較に基づき、ステップ104において、テキストアライメントのセットを求めることが可能となると共に、ステップ106において、アライメント条件のセットを求めることが可能である。テキストアライメントは、誤りテキスト領域をそれの対応する訂正対応部分に変換するため、必要な任意のタイプのテキスト変更を表すかもしれない。このように、テキストアライメントは、挿入、削除又は置換を表すかもしれない。例えば、“the patient has weird problem”などの誤った表現は、“the patient has a severe problem”という参照テキストの訂正表現に割り当てられるかもしれない。
典型的には、検出された各乖離に対して、誤りテキスト部分と対応する訂正テキスト部分との間のいくつかの可能性のあるテキスト割当が生成されるかもしれない。上述した具体例を参照するに、“weird”から“severe”の置換と共に、“weird”から“a severe”の置換などが考えられる。テキスト割当に加えて、ステップ106において、各テキスト割当に対する割当条件のセットが求められるかもしれない。割当条件は、あるテキスト割当が特定の割当条件が充足されたときに限って適用される必要があるということを規定するかもしれない。例えば、あるテキスト割当がワード“and”の前にカンマを挿入することを規定するものであるとき、当該割当条件は、テキスト割当により規定される挿入が、“and”の出現前の2つのポジションにカンマが与えられるときに限って適用可能であるということを規定するかもしれない。テキスト割当の他の例は、ワード“colon”を符号“:”と置換することによって与えられるかもしれない。ここで、割当条件は、先行するワードが冠詞であるか、又は“a,an,the”などのテキスト要素又はテキスト領域のクラスに属する場合には、テキスト割当を適用しないよう規定するかもしれない。他の禁止条件は、現在のセンテンスがある胃腸診断などに属することを示すより高いレベルのテキストセグメント化であるかもしれない。
テキスト割当又はテキストマッピングに対する割当条件は、関連するテキストマッピングの統計的評価を利用することによって抽出されてもよい。このため、あるテキスト割当を厳密に適用し、当該テキスト割当の厳密な適用が誤りを解消又は導入するか判断することによって、テキスト割当の周囲のテキスト部分を考慮するとき、ある割当条件を求めることができる。“the patient has weird problem”を“the patient has a severe problem”にマッピングする上記の例では、“weird”を“a severe”にする中心的な置換の周囲のワードが、積極的な意味において条件として規定されるかもしれない。ここで、1つの化のuseのある条件は、“先行するワードが‘has’であるか、又は‘has’を含むあるワードクラスからのものである”として記述することが可能である。
もちろん、“カンマを有しなければならない2ワード前”という条件など、隣接しないテキスト領域を含むより長いレンジの従属性が、比較されたテキストから直接的に抽出可能である。
原則的に、ステップ104において求められたテキスト割当と、ステップ106において求められた割当条件の対応するセットとは、テキスト変換ルールを規定するのに十分なものである。最も簡単な実施例では、すでにテキスト割当を求めることによって、置換、挿入、削除などは具体的なテキスト変換ルールを規定するのに十分であるかもしれない。
効果的には、各種テキスト変換ルール、すなわち、テキスト変換ルールセットがステップ108において、先行するステップ104と106を利用することにより導出及び生成される。このように、テキスト割当及び割当条件は効果的にマージされる。ステップ108において、テキスト変換ルールが生成されると、それらはあるタイプのストレージにより格納される。ステップ108におけるテキスト変換ルールセットの導出後、テキスト変換ルール全体が、誤りテキストを生成した音声テキスト変換システムのシステマティックエラーを表す上記テキスト変換ルールを選択する評価される必要がある。
テキスト変換ルールの評価は、複数の方法により実行可能である。基本的アプローチは、各テキスト変換ルールをトレーニングテキストに個別に適用し、当該テキスト変換ルールがトレーニングテキストのエラーレートに対して正又は負の効果を有するか判断するため、変換されたトレーニングテキストと参照テキストとを比較することを利用するものである。例えば、各テキスト変換ルールに対して、正及び負のカウンターが、それぞれルールの適用による誤りの解消又は生成に対してインクリメントされる。これらの正及び負のカウンターに基づき、誤りテキストに関するテキスト変換ルールの全体的なパフォーマンスを示す誤り低減指標を求めることができる。
複数のテキスト変換ルールを評価するより高度なアプローチは、繰り返しの評価処理を実行することに基づく。各種テキスト変換ルールが、それらの誤り低減指標などに関してランク付けされ、最も高くランクされたテキスト変換ルールのみが誤りテキストに適用される。その後、変更された誤りテキストは、第2のテキスト変換ルールセットを生成するため、参照テキストと繰り返し比較される。この第2のテキスト変換ルールセットがまたランク付けされ、再び最も高くランク付けされたルールが、第2の変更されたトレーニングテキストを生成するため、変更されたトレーニングテキストに適用される。この手順が繰り返し実行され、各種ルール間の相互作用に関して各種テキスト変換ルールを評価することを可能にする。
他のアプローチは、各種テキスト変換ルールをそれらの共通のテキスト割当に関して調整することを利用するものである。この調整は、同じタイプの誤りなどに適用する部分的に重複したルールを説明する。このように、各種テキスト変換ルールグループが生成され、各テキスト変換ルールグループに対して、典型的にはベストパフォーマンスのルール、すなわち、最も高くランクされたルールである1つのルールが実際に選択される。このため、ステップ110において実行されたテキスト変換ルールの評価は、各種テキスト変換ルールがテキスト訂正システムに対して選択された後続するステップ112にリンクされるかもしれない。
これらのルールがステップ112において選択されると、それらはステップ114において、上記テキスト変換ルールを選択された順序に厳密に適用するよう構成されるテキスト訂正システムに提供される。評価及び選択されたテキスト変換ルールは、誤りテキストを生成した音声テキスト変換システム又はASRシステムのシステマティックエラー又は誤りテキストのシステマティックエラーに特有なものであるため、生成されたルールは、ASRシステムのシステマティックエラーを保証するため、又はASRシステムを再設計するため、一般に的に適用することが可能である。このため、テキスト変換ルールを生成する本発明の方法は、商業的に利用可能な任意の音声テキスト変換システムに一般に適用することが可能である。このとき、生成されたテキスト変換ルールは、音声テキスト変換システムのシステマティックエラーを訂正するよう構成される自動テキスト訂正システムによって利用されてもよいし、又は音声テキスト変換システムを向上させるためのフィードバックとして利用されてもよい。
図2に示されるブロック図は、参照テキスト200と誤りテキスト部分を有するトレーニングテキスト204とを示す。一例として、参照テキストは“the patient has a severe problem”などのテキスト部分202を有し、トレーニングテキスト204は、“the patient has weird problem”の対応する誤りテキスト部分206を有する。参照テキスト200とトレーニングテキスト204を比較することによって、これらの2つの表現202と206との間の乖離が検出される。このトレーニングテキスト204の誤り部分の検出は、ワード単位の比較、フレーズ単位の比較、又は誤りテキスト部分206の訂正及び誤りテキスト領域への分割を利用することによって実行されるかもしれない。
2つのテキスト要素又はテキスト領域202と206との間の乖離は、様々な理由によるかもしれない。従って、テーブル208に示されるように、検出された乖離に対して、テキスト変換ルールセットの全体が生成される。典型的には、テキスト変換ルールは、カラム218に示される訂正テキストと置換される必要があるカラム216に格納される誤りテキストを規定する。これら代わりとなる各割当は、各々がカラム220により与えられる適用条件を有する相異なるテキスト変換ルール210、212及び214を規定する。上述したように、“has weird”を“has a severe”と置換するルール214はまた、先行ワードが“has”となる必要がある追加的条件220によって、“weird”を“a severe”と置換するルール212などとして解釈されるかもしれない。このように、周囲のテキスト部分の解析から、条件を自動抽出することが可能である。同様に、より高いレベルのセグメント化又は何れかのタイプのタグ処理が利用可能である場合、当該追加情報が条件220として機能するかもしれない。
誤りテキスト要素206とそれの対応する訂正要素202とに関して、各種置換が考えられる。例えば、ルール210は、“weird”が“severe”と置換される必要があるということを規定するかもしれない。ルール212は、“weird”が2つのワード“a severe”と置換される必要があることを規定し、ルール214は、“has weird”という表現が“has a severe”という表現と置換される必要があることを規定するかもしれない。これらのルール210、212及び214の生成は、当該ルールのコンテンツ及び潜在的なパフォーマンスに関係なく実行される。例えば、一般にワード“weird”を“severe”に置換することは、ワード“weird”を利用する訂正テキスト部分がワード“severe”と置換されるため、明らかに良好な選択ではない。従って、存在する場合には、各自の関連する条件220を含む各種生成されたルール210、212及び214の評価及びランク付けが要求される。
図3は、繰り返しの評価手順を実行するフローチャートを示す。繰り返しの評価手順は、誤りトレーニングテキストと正しい参照テキストの比較により検出及び生成された複数のテキスト変換ルールを利用する。第1ステップ300において、テキスト変換ルールセットの各テキスト変換ルールに対して、誤り低減指標が決定される。誤り低減指標の決定は、テキスト変換ルールを誤りテキストに厳密に適用し、その後、変換されたテキストをもとの参照テキストと比較することによって効果的に実行することが可能である。このように、テキスト変換ルールの適用が誤りの解消又は生成を導いたか検出することができる。新たに生成された誤りと解消された誤りの出現は、各テキスト変換ルールに対して誤り低減指標を求めることを可能にする正負のカウントを利用することによって決定される。この誤り低減指標は、例えば、正のカウントから負のカウントを減算するなどによって決定可能であり、これにより、特定のテキスト変換ルールが誤りトレーニングテキストに対して良好又は不良な影響を有するか示す。
誤り低減指標に基づき、後続するステップ302において、テキスト変換ルールセットがランク付け及び再ソート可能である。従って、各種テキスト変換ルールが、各自の誤り低減指標に関してソートされるかもしれない。典型的には、負の誤り低減指標を特徴付けるテキスト変換ルール、すなわち、それらが解消したものより多くの誤りを導入したルールは破棄されるかもしれない。
ステップ302においてテキスト変換ルールのランク付けが実行された後、後続するステップ304において、最も高くランク付けされたテキスト変換ルールがトレーニングテキストに適用される。最も高くランク付けされたテキスト変換ルールの適用は、当該変換ルールのみの厳密な適用を意味する。この結果、トレーニングテキストは、適切に変更される。その後、ステップ306において、最も高くランク付けされた変換ルールの厳密な適用の結果である変換されたトレーニングテキストが、参照テキストと比較される。ステップ306において実行される当該比較は、初期的なテキスト変換ルールセットの生成に適用された同一の技術を利用する。このため、変換されたトレーニングテキストと参照テキストとの間の乖離が検出され、対応するテキスト変換ルールが生成される。
ステップ306において実行される当該比較に基づき、後続するステップ308において、次のテキスト変換ルールセットが生成される。その後のステップ310において、繰り返し評価手続の停止基準がチェックされる。この停止基準は、例えば、10回目の繰り返しの後に、評価手続がチェックされるということを規定するものであってもよい。あるいは、当該停止基準は、ステップ308において、変換されたトレーニングテキストと参照テキストがほとんど正確に一致することを示す限られた個数の変換ルールのみが生成されたときに、当該手続を停止するよう規定してもよい。ステップ310における停止基準が充足された場合、当該手続はステップ312に続き、テキスト変換ルールセットの評価が停止し、各繰り返しの最も高くランク付けされたルールが、テキスト訂正システムに提供されるテキスト変換ルールとして選択される。
他方のケースでは、ステップ310において停止基準が充足されないとき、当該手続はステップ314に続き、ステップ308により生成された次のテキスト変換ルールセットが個別に評価される。この個別の評価は、初期的なテキスト変換ルールセットに対してステップ300において実行されたように、次のテキスト変換ルールセットの各テキスト変換ルールに対して誤り低減指標を決定することを意味する。これにより、次のテキスト変換ルールセットのランク付けがまた、別のテキスト変換ルールの誤り低減指標に基づき実行される。その後、当該手続はステップ304に戻って、最も高くランク付けされたテキスト変換ルールがトレーニングテキストに適用される。
好ましくは、ステップ304の当該繰り返される実行において、最も高くランク付けされたテキスト変換ルールは、初期的なトレーニングテキストでなく、初期的なテキスト変換ルールセットの最も高くランク付けされた変換ルールの最初の適用から生じるトレーニングテキストに適用される。
テキスト変換ルールの当該評価及び選択の繰り返しの手続は、例えば、テキスト変換ルールがある重複を対象とするとき、各種テキスト変換ルールの間の相互作用を説明することを可能にする。このように、最も良く評価されたテキスト変換ルールを適用した後、変更されたテキストとトレーニングテキストを比較し、テキスト変換ルールセットを決定し、テキスト変換ルールの評価とランク付けを実行する手続全体が繰り返し適用される。
図4は、テキスト変換ルールを生成及び評価するよう構成されるルール生成モジュール400のブロック図を示す。ルール生成モジュール400は、ルール生成モジュール400に誤りテキスト入力を提供する自動音声認識システム402とやりとりするかもしれない。さらに、ルール生成モジュール400は、テキスト訂正システム404とユーザ406とやりとりするよう構成される。あるいは、図示されたルール生成モジュール400は、テキスト訂正システム404及び/又はASR402などの音声テキスト変換システムに実現されるかもしれない。
ルール生成モジュール400は、誤りテキストをトレーニングテキストとしてトレーニングテキストストレージブロック422に格納し、正しい参照テキストを参照テキストストレージブロック424に別々に格納することを可能にするストレージモジュール408を有する。典型的には、トレーニングテキストと参照テキストは、1つの再構成可能なストレージモジュール408の各ストレージブロックに格納される。トレーニングテキスト共に参照テキストは、典型的には電子形式によりルール生成モジュール400に提供される。
ルール生成モジュール400はさらに、比較モジュール412、ルール生成部414、ルールストレージ416、ディスプレイ418、ルール選択部420、ユーザインタフェース428及びルール評価部410を有する。典型的には、ルール評価部410はさらに、ストレージと、特に一時的ストレージモジュール426とを有する。
比較モジュール412は、参照テキストとトレーニングテキストとの間の乖離を検出するため、トレーニングテキストと参照テキストとを比較するのに利用される。この比較は、これら2つのテキストの間のワード単位の比較及びワード単位のマッチングを利用するかもしれないが、ワード単位のマッピングに限定されるものでない。さらに、比較モジュール412は、トレーニングテキストと参照テキストのテキスト要素又はテキスト領域の乖離を検出及び分類するため、最小編集距離アルゴリズムを利用し、又はLevenshteinアライメントを実行するよう構成される。比較モジュール412は、フレーズ単位のマッチングを利用して、テキストを誤り領域と非誤り領域に分割するようにしてもよい。
比較モジュール412の結果に基づき、ルール生成部414は、各誤りテキスト領域に対する少なくとも1つのルールを生成するよう構成される。典型的には、ルール生成部は、誤りテキスト領域を対応する訂正テキスト領域に割り当て、さらに当該割当に対する適用条件を規定するようにしてもよい。典型的には、ルール生成部414は、検出された各乖離に対して代替ルールセットを生成するよう構成される。これは特に、検出された誤りを解消するのに考えられる適切な訂正ルールをカバーするのに効果的である。
ルールストレージモジュール416は、ルール生成部414により生成されるルールを格納するよう構成される。ルール評価部410は、ルール生成モジュール400の他のほとんど任意のコンポーネントとやりとりするよう構成される。ルール評価部は、ストレージブロック422に格納されるトレーニングテキストにルール生成部414により生成されるルールを適用するのに利用される。ルール評価部414は、ルールストレージモジュール416に格納されたルールの厳密な適用によって変更された変更したトレーニングテキストを格納するためなどの一時的ストレージモジュール426を有する。
当該ルールを適用し、その結果を一時的ストレージモジュール426に格納するのとは別に、ルール評価部410はさらに、変更されたトレーニングテキストと参照テキストとを比較するよう構成される。典型的には、当該比較は、比較モジュール412により実行されてもよい。このように、ルール評価部410は、変更されたトレーニングテキストと参照テキストとを比較するため、比較モジュール412を制御する。この比較の結果は、ルール評価部に提供され、ルール評価部が適用されたルールに対する誤り低減指標を抽出及び導出するようにしてもよい。この誤り低減指標は、その後、対応するルールに割り当てられたルールストレージモジュール416に提供されるかもしれない。
ルール評価部410はさらに、上述したルール評価手続の何れかを実行するよう構成される。このため、ルール評価部は、ルールストレージモジュール416に格納されているルールのランク付けを実行し、最も高くランク付けされたルールをトレーニングテキストに適用するよう構成される。その後、ルール評価部410は、変更されたトレーニングテキストと参照テキストとの間の比較に基づき、第2のテキスト変換ルールセットを生成するため、比較モジュール412、ルール生成部414及びルールストレージ416を制御するようにしてもよい。各繰り返しによって、最も高くランク付けされたルールのみがルール選択部420に提供されるようにしてもよい。最終的には、ルール評価部410とルール選択部420によって評価及び選択されたルールが、テキスト訂正システム404に提供され、音声テキスト変換のフレームワークにおいて以降の適用に厳密に適用されるようにしてもよい。
さらに、ルール評価部410は、ディスプレイ418とユーザインタフェース428とやりとりするようにしてもよい。あるいは、ユーザインタフェース428と共にディスプレイ418は、ルール生成モジュール400の外部コンポーネントとして実現されてもよい。何れの場合も、ユーザ406は、ディスプレイ418とユーザインタフェース428によってルール生成モジュール400とやりとりするかもしれない。このように、ルール生成部414により生成される各種ルールは、生成されたルールの一部を手動により選択、選択解除、ソート又は破棄するユーザに表示可能である。このとき、ユーザ入力は、テキスト訂正システム404に対する適切なルールを抽出するため、ルール評価部及び/又はルール選択部420に提供される。さらに、ユーザは、生成モジュール410及び比較モジュール412によって評価され、その結果がユーザにフィードバックされてもよいし、又はルール選択部により利用されてもよい。
200 参照テキスト
202 テキスト要素
204 トレーニングテキスト
206 テキスト要素
208 テキスト変換ルールセット
210、212、214 テキスト変換ルール
216 誤りテキスト要素
218 訂正テキスト要素
220 割当適用条件
400 ルール生成モジュール
402 自動音声認識システム
404 テキスト訂正システム
406 ユーザ
408 ストレージモジュール
410 ルール評価部
412 比較モジュール
414 ルール生成部
416 ルールストレージ
418 ディスプレイ
420 ルール選択部
422 トレーニングテキストストレージモジュール
424 参照テキストストレージモジュール
426 一時的ストレージモジュール
428 ユーザインタフェース
202 テキスト要素
204 トレーニングテキスト
206 テキスト要素
208 テキスト変換ルールセット
210、212、214 テキスト変換ルール
216 誤りテキスト要素
218 訂正テキスト要素
220 割当適用条件
400 ルール生成モジュール
402 自動音声認識システム
404 テキスト訂正システム
406 ユーザ
408 ストレージモジュール
410 ルール評価部
412 比較モジュール
414 ルール生成部
416 ルールストレージ
418 ディスプレイ
420 ルール選択部
422 トレーニングテキストストレージモジュール
424 参照テキストストレージモジュール
426 一時的ストレージモジュール
428 ユーザインタフェース
Claims (14)
- 少なくとも1つの誤りトレーニングテキストと対応する正しい参照テキストとを利用することによって、自動テキスト訂正に対するテキスト変換ルールを生成する方法であって、
前記少なくとも1つの誤りトレーニングテキストと前記正しい参照テキストとを比較するステップと、
前記比較するステップによって検出される、前記トレーニングテキストと前記参照テキストとの間の乖離を利用することによって、テキスト変換ルールセットを求めるステップと、
各変換ルールを前記トレーニングテキストに適用することによって、前記テキスト変換ルールセットを評価するステップと、
前記自動テキスト訂正に対する前記評価されたテキスト変換ルールセットの少なくとも1つのテキスト変換ルールを選択するステップと、
を有する方法。 - 前記テキスト変換ルールを求めるステップは、隣接及び/若しくは非隣接フレーズ並びに/又は単一の若しくは複数のワード、数字及び/若しくは句読点を規定する、前記トレーニングテキストと前記参照テキストの各テキスト領域の間の割当に関して実行される、請求項1記載の方法。
- テキスト変換ルールは、前記トレーニングテキストのテキスト領域と前記参照テキストのテキスト領域との間の少なくとも1つの割当を有し、さらに該割当が適用可能である状況を規定する適用条件を利用する、請求項1記載の方法。
- 前記テキスト変換ルールセットを評価するステップは、前記テキスト変換ルールセットの各テキスト変換ルールを個別に評価することを利用し、
該テキスト変換ルールの評価はさらに、誤り低減指標を利用し、
前記テキスト変換ルールセットを評価するステップは、
変換されたトレーニングテキストを生成するため、前記テキスト変換ルールを前記トレーニングテキストに適用するステップと、
前記テキスト変換ルールの適用が前記トレーニングテキストの誤りの解消をどの程度の頻度により提供するか示す正のカウント数を決定するステップと、
前記テキスト変換ルールの適用が前記トレーニングテキストにおける誤りの生成をどの程度の頻度により提供するか示す負のカウント数を決定するステップと、
前記正のカウント数と前記負のカウント数とを利用することによって、前記テキスト変換ルールに対する誤り低減指標を求めるステップと、
有する、請求項1記載の方法。 - 前記テキスト変換ルールセットを評価するステップは、繰り返しの評価手続を有し、
1回の繰り返しは、
前記誤り低減指標を利用することによって、前記テキスト変換ルールセットのランク付けを実行するステップと、
第1の変換されたトレーニングテキストを生成するため、最も高くランク付けされたテキスト変換ルールを前記トレーニングテキストに適用するステップと、
前記参照テキストと前記第1の変換されたトレーニングテキストとに基づき、第2のテキスト変換ルールセットを求めるステップと、
を有し、
後続する繰り返しは、前記第2のテキスト変換ルールセットの第2の評価と第2のランク付けとを実行するステップを有する、請求項4記載の方法。 - 前記テキスト変換ルールセットを評価するステップは、前記テキスト変換ルールセットの第1及び第2テキスト変換ルールの第1テキスト変換ルールを、前記第1及び第2テキスト変換ルールが前記トレーニングテキストの同一のテキスト領域に実質的に表している場合に破棄するステップを有し、
前記第1テキスト変換ルールが前記第2テキスト変換ルールより低く評価される場合に、前記第1テキスト変換ルールは破棄される、請求項4記載の方法。 - 前記テキスト変換ルールセット及び/又は前記適用条件を求めるステップは、少なくとも1つのワードクラスを利用する、請求項1記載の方法。
- 前記テキスト変換ルールはさらに、訂正テキスト領域の誤りテキスト領域への変換を禁止する条件を規定する、請求項1記載の方法。
- 前記テキスト変換ルールを評価及び/又は選択するステップは、ユーザが提供されたテキスト変換ルールを手動により評価及び/又は選択することを可能にする、前記テキスト変換ルールセットの少なくとも一部を前記ユーザに提供するステップを有する、請求項1記載の方法。
- ユーザにより規定されるルールが評価され、
前記評価されたルールが、前記自動テキスト訂正に対して選択され、及び/又は手動選択のため前記ユーザに提供される、請求項1記載の方法。 - 前記誤りトレーニングテキストは、自動音声認識システム、自然言語理解システム又は音声テキスト変換システムによって提供される、請求項1記載の方法。
- 誤りテキストを訂正するためテキスト変換ルールを利用するテキスト訂正システムであって、
当該テキスト訂正システムは、少なくとも1つの誤りトレーニングテキストと対応する正しい参照テキストとを利用することによって、前記テキスト変換ルールを生成するよう構成され、
前記少なくとも1つの誤りトレーニングテキストと前記正しい参照テキストとを比較する手段と、
前記比較する手段によって検出される、前記トレーニングテキストと前記参照テキストとの間の乖離を利用することによって、テキスト変換ルールセットを求める手段と、
各変換ルールを前記トレーニングテキストに適用することによって、前記テキスト変換ルールセットを評価する手段と、
前記テキスト訂正システムに対する前記評価されたテキスト変換ルールセットの少なくとも1つのテキスト変換ルールを選択する手段と、
を有するテキスト訂正システム。 - テキスト訂正システムに対するテキスト変換ルールを生成するコンピュータプログラムであって、
当該コンピュータプログラムは、少なくとも1つの誤りトレーニングテキストと対応する正しい参照テキストとを処理するよう構成され、
前記少なくとも1つの誤りトレーニングテキストと前記正しい参照テキストとを比較し、
前記比較によって検出される、前記トレーニングテキストと前記参照テキストとの間の乖離を利用することによって、テキスト変換ルールセットを求め、
各変換ルールを前記トレーニングテキストに適用することによって、前記テキスト変換ルールセットを評価し、
前記テキスト訂正システムに対する前記評価されたテキスト変換ルールセットの少なくとも1つのテキスト変換ルールを選択する、
よう動作可能なプログラム手段を有するコンピュータプログラム。 - 音声をテキストに変換する音声テキスト変換システムであって、
当該音声テキスト変換システムは、前記テキストの誤りを訂正するテキスト変換ルールを利用するテキスト訂正モジュールと、当該音声テキスト変換システムによって生成される少なくとも1つの誤りトレーニングテキストと対応する正しい参照テキストとを利用することによって、前記テキスト変換ルールを生成するルール生成モジュールとを有し、
当該音声テキスト変換システムは、
前記参照テキストと前記トレーニングテキストとを格納するストレージモジュールと、
前記少なくとも1つの誤りトレーニングテキストと前記正しい参照テキストとを比較する比較モジュールと、
前記処理モジュールにより検出される、前記トレーニングテキストと前記参照テキストとの間の乖離を利用するよう構成され、テキスト変換ルールセットを求める変換ルール生成部と、
各変換ルールを前記トレーニングテキストに適用することによって、前記テキスト変換ルールセットを評価するよう構成される評価部と、
前記テキスト訂正モジュールに対して前記評価されたテキスト変換ルールセットの少なくとも1つのテキスト変換ルールを選択する選択モジュールと、
を有する音声テキスト変換システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04104789 | 2004-09-30 | ||
PCT/IB2005/053193 WO2006035402A1 (en) | 2004-09-30 | 2005-09-28 | Automatic text correction |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008515078A true JP2008515078A (ja) | 2008-05-08 |
Family
ID=35427500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007534155A Withdrawn JP2008515078A (ja) | 2004-09-30 | 2005-09-28 | 自動テキスト訂正 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20070299664A1 (ja) |
EP (1) | EP1797506A1 (ja) |
JP (1) | JP2008515078A (ja) |
CN (1) | CN101031913A (ja) |
WO (1) | WO2006035402A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200001814A (ko) * | 2018-06-28 | 2020-01-07 | (주) 엠티콤 | 크라우드전사장치 및 그 동작 방법 |
WO2022085296A1 (ja) * | 2020-10-19 | 2022-04-28 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、コンピュータプログラム、フォーマット変換装置、オーディオコンテンツ自動転記システム、学習済みモデル、並びに表示装置 |
Families Citing this family (155)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8407052B2 (en) * | 2006-04-17 | 2013-03-26 | Vovision, Llc | Methods and systems for correcting transcribed audio files |
FR2902542B1 (fr) * | 2006-06-16 | 2012-12-21 | Gilles Vessiere Consultants | Correcteur semantiques, syntaxique et/ou lexical, procede de correction, ainsi que support d'enregistrement et programme d'ordinateur pour la mise en oeuvre de ce procede |
US8521510B2 (en) | 2006-08-31 | 2013-08-27 | At&T Intellectual Property Ii, L.P. | Method and system for providing an automated web transcription service |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8321197B2 (en) * | 2006-10-18 | 2012-11-27 | Teresa Ruth Gaudet | Method and process for performing category-based analysis, evaluation, and prescriptive practice creation upon stenographically written and voice-written text files |
US20100070263A1 (en) * | 2006-11-30 | 2010-03-18 | National Institute Of Advanced Industrial Science And Technology | Speech data retrieving web site system |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US20110022387A1 (en) * | 2007-12-04 | 2011-01-27 | Hager Paul M | Correcting transcribed audio files with an email-client interface |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US9280971B2 (en) * | 2009-02-27 | 2016-03-08 | Blackberry Limited | Mobile wireless communications device with speech to text conversion and related methods |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US8775183B2 (en) * | 2009-06-12 | 2014-07-08 | Microsoft Corporation | Application of user-specified transformations to automatic speech recognition results |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9218807B2 (en) * | 2010-01-08 | 2015-12-22 | Nuance Communications, Inc. | Calibration of a speech recognition engine using validated text |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8719014B2 (en) * | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
CN103678271B (zh) * | 2012-09-10 | 2016-09-14 | 华为技术有限公司 | 一种文本校正方法及用户设备 |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN103714048B (zh) * | 2012-09-29 | 2017-07-21 | 国际商业机器公司 | 用于校正文本的方法和系统 |
KR102118209B1 (ko) | 2013-02-07 | 2020-06-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
US20160004502A1 (en) * | 2013-07-16 | 2016-01-07 | Cloudcar, Inc. | System and method for correcting speech input |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9678947B2 (en) * | 2014-11-21 | 2017-06-13 | International Business Machines Corporation | Pattern identification and correction of document misinterpretations in a natural language processing system |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
CN104615591B (zh) * | 2015-03-10 | 2019-02-05 | 上海触乐信息科技有限公司 | 基于上下文的前向输入纠错方法和装置 |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US9535894B2 (en) | 2015-04-27 | 2017-01-03 | International Business Machines Corporation | Automated correction of natural language processing systems |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
CN105702252B (zh) * | 2016-03-31 | 2019-09-17 | 海信集团有限公司 | 一种语音识别方法及装置 |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10430042B2 (en) * | 2016-09-30 | 2019-10-01 | Sony Interactive Entertainment Inc. | Interaction context-based virtual reality |
US10104221B2 (en) | 2016-09-30 | 2018-10-16 | Sony Interactive Entertainment Inc. | Language input presets for messaging |
CN106548778B (zh) * | 2016-10-13 | 2019-10-11 | 北京云知声信息技术有限公司 | 一种字符转换规则的生成方法及装置 |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
CN107895251A (zh) * | 2016-12-24 | 2018-04-10 | 上海壹账通金融科技有限公司 | 数据纠错方法及装置 |
US10460035B1 (en) * | 2016-12-26 | 2019-10-29 | Cerner Innovation, Inc. | Determining adequacy of documentation using perplexity and probabilistic coherence |
CN108241612B (zh) * | 2016-12-27 | 2021-11-05 | 北京国双科技有限公司 | 标点符号处理方法和装置 |
CN106710597B (zh) * | 2017-01-04 | 2020-12-11 | 广东小天才科技有限公司 | 语音数据的录音方法及装置 |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11222056B2 (en) | 2017-11-13 | 2022-01-11 | International Business Machines Corporation | Gathering information on user interactions with natural language processor (NLP) items to order presentation of NLP items in documents |
US11782967B2 (en) * | 2017-11-13 | 2023-10-10 | International Business Machines Corporation | Determining user interactions with natural language processor (NPL) items in documents to determine priorities to present NPL items in documents to review |
US10417328B2 (en) * | 2018-01-05 | 2019-09-17 | Searchmetrics Gmbh | Text quality evaluation methods and processes |
CN110021295B (zh) * | 2018-01-07 | 2023-12-08 | 国际商业机器公司 | 用于识别由语音识别系统生成的错误转录的方法和系统 |
EP3544001B8 (en) * | 2018-03-23 | 2022-01-12 | Articulate.XYZ Ltd | Processing speech-to-text transcriptions |
KR102199835B1 (ko) * | 2018-12-31 | 2021-01-07 | 주식회사 엘솔루 | 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법 |
US11537789B2 (en) | 2019-05-23 | 2022-12-27 | Microsoft Technology Licensing, Llc | Systems and methods for seamless application of autocorrection and provision of review insights through adapted user interface |
CN113270088B (zh) * | 2020-02-14 | 2022-04-29 | 阿里巴巴集团控股有限公司 | 文本处理、数据处理和语音处理方法、装置和电子设备 |
US11790916B2 (en) | 2020-05-04 | 2023-10-17 | Rovi Guides, Inc. | Speech-to-text system |
US11532308B2 (en) * | 2020-05-04 | 2022-12-20 | Rovi Guides, Inc. | Speech-to-text system |
US11544467B2 (en) | 2020-06-15 | 2023-01-03 | Microsoft Technology Licensing, Llc | Systems and methods for identification of repetitive language in document using linguistic analysis and correction thereof |
CN111951805A (zh) * | 2020-07-10 | 2020-11-17 | 华为技术有限公司 | 一种文本数据处理方法及装置 |
US11568135B1 (en) * | 2020-09-23 | 2023-01-31 | Amazon Technologies, Inc. | Identifying chat correction pairs for training models to automatically correct chat inputs |
US11861923B2 (en) * | 2021-12-31 | 2024-01-02 | Huawei Technologies Co., Ltd. | Methods, apparatuses, and computer-readable storage media for image-based sensitive-text detection |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5999896A (en) * | 1996-06-25 | 1999-12-07 | Microsoft Corporation | Method and system for identifying and resolving commonly confused words in a natural language parser |
US6411932B1 (en) * | 1998-06-12 | 2002-06-25 | Texas Instruments Incorporated | Rule-based learning of word pronunciations from training corpora |
US6314397B1 (en) * | 1999-04-13 | 2001-11-06 | International Business Machines Corp. | Method and apparatus for propagating corrections in speech recognition software |
US6704709B1 (en) * | 1999-07-28 | 2004-03-09 | Custom Speech Usa, Inc. | System and method for improving the accuracy of a speech recognition program |
US6789231B1 (en) * | 1999-10-05 | 2004-09-07 | Microsoft Corporation | Method and system for providing alternatives for text derived from stochastic input sources |
US6684201B1 (en) * | 2000-03-31 | 2004-01-27 | Microsoft Corporation | Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites |
US6912498B2 (en) * | 2000-05-02 | 2005-06-28 | Scansoft, Inc. | Error correction in speech recognition by correcting text around selected area |
US6859774B2 (en) * | 2001-05-02 | 2005-02-22 | International Business Machines Corporation | Error corrective mechanisms for consensus decoding of speech |
EP1444629A4 (en) * | 2001-10-23 | 2006-06-14 | Electronic Data Syst Corp | SYSTEM AND METHOD FOR EXPENDITURE MANAGEMENT |
-
2005
- 2005-09-28 WO PCT/IB2005/053193 patent/WO2006035402A1/en active Application Filing
- 2005-09-28 CN CNA2005800333761A patent/CN101031913A/zh active Pending
- 2005-09-28 EP EP05786831A patent/EP1797506A1/en not_active Withdrawn
- 2005-09-28 US US11/575,674 patent/US20070299664A1/en not_active Abandoned
- 2005-09-28 JP JP2007534155A patent/JP2008515078A/ja not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200001814A (ko) * | 2018-06-28 | 2020-01-07 | (주) 엠티콤 | 크라우드전사장치 및 그 동작 방법 |
KR102171658B1 (ko) | 2018-06-28 | 2020-10-29 | (주) 엠티콤 | 크라우드전사장치 및 그 동작 방법 |
WO2022085296A1 (ja) * | 2020-10-19 | 2022-04-28 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、コンピュータプログラム、フォーマット変換装置、オーディオコンテンツ自動転記システム、学習済みモデル、並びに表示装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101031913A (zh) | 2007-09-05 |
EP1797506A1 (en) | 2007-06-20 |
WO2006035402A1 (en) | 2006-04-06 |
US20070299664A1 (en) | 2007-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008515078A (ja) | 自動テキスト訂正 | |
US7424675B2 (en) | Language input architecture for converting one text form to another text form with tolerance to spelling typographical and conversion errors | |
US7165019B1 (en) | Language input architecture for converting one text form to another text form with modeless entry | |
US20090192787A1 (en) | Grammer checker | |
US7016827B1 (en) | Method and system for ensuring robustness in natural language understanding | |
JP4680714B2 (ja) | 音声認識装置および音声認識方法 | |
EP0992979A2 (en) | Compound word recognition | |
JP2007172657A (ja) | 一般に混同するワードを自然言語パーザにおいて識別及び分析する方法及びシステム | |
JP5703491B2 (ja) | 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 | |
US20060149543A1 (en) | Construction of an automaton compiling grapheme/phoneme transcription rules for a phoneticizer | |
JP6778655B2 (ja) | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム | |
Lease et al. | Recognizing disfluencies in conversational speech | |
Glass et al. | A naive salience-based method for speaker identification in fiction books | |
CN110147546B (zh) | 一种英语口语的语法校正方法及装置 | |
CN113343671B (zh) | 一种语音识别后的语句纠错方法、装置、设备及存储介质 | |
CN110929514A (zh) | 文本校对方法、装置、计算机可读存储介质及电子设备 | |
Jansche | Computer-Aided Quality Assurance of an Icelandic Pronunciation Dictionary. | |
JP4220151B2 (ja) | 音声対話装置 | |
KR100474823B1 (ko) | 자연어의품사태깅장치및그방법 | |
Hladek et al. | Unsupervised spelling correction for Slovak | |
US11341961B2 (en) | Multi-lingual speech recognition and theme-semanteme analysis method and device | |
KR20150111678A (ko) | 자연어를 점진적으로 분석하는 장치와 이를 이용한 적응적인 응답 장치 및 방법 | |
JPWO2009088067A1 (ja) | 機械翻訳装置および機械翻訳方法 | |
CN113468305B (zh) | 一种识别口语冗余成分的方法及装置 | |
Huang | An evaluation of POS taggers for the CHILDES corpus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080926 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20100723 |