JP2007280364A - 言語モデルの切替・適応方法及び言語モデル切替・適応装置 - Google Patents

言語モデルの切替・適応方法及び言語モデル切替・適応装置 Download PDF

Info

Publication number
JP2007280364A
JP2007280364A JP2007056012A JP2007056012A JP2007280364A JP 2007280364 A JP2007280364 A JP 2007280364A JP 2007056012 A JP2007056012 A JP 2007056012A JP 2007056012 A JP2007056012 A JP 2007056012A JP 2007280364 A JP2007280364 A JP 2007280364A
Authority
JP
Japan
Prior art keywords
language model
language
request
target application
switching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007056012A
Other languages
English (en)
Other versions
JP2007280364A5 (ja
Inventor
U Genkuuin
ウ ゲンクゥイン
Liqin Xu
キュ リキン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Publication of JP2007280364A publication Critical patent/JP2007280364A/ja
Publication of JP2007280364A5 publication Critical patent/JP2007280364A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 言語モデルの切替及び適応のための装置及び方法を提供する。
【解決手段】 この言語モデル切替・適応装置は、目的アプリケーションの状態が変更される場合、現在の状態情報あるいは目的アプリケーションの言語モデルに対する要求の言語モデル切替え部に通知する通知管理部と、受信した現在の状態情報あるいは要求に従って言語モデルセットから切り替える1つ以上の言語モデルを選択する言語モデル切替え部と、選択された言語モデルを用いてユーザの入力をデコードするLMBエンジンと、デコードされた結果を受け取り、デコードされた結果に基づいて選択された言語モデルを修正する言語モデル適応部を備える。
【選択図】 図1

Description

本発明は、自然言語処理の技術に関し、特に、言語モデルの切替及び適応のための装置及び方法に関する。
言語モデル技術(Language model technology)は、自然言語処理(Natural Language Processing)における主要な構成要素のうちの1つである。それは、多くの分野において広く利用されている。例えば、音声認識(SR)のように、光学文字認識(OCR)、予測的テキスト入力(PTE:Predictive Text Entry)等である。予測的テキスト入力は、しばしば非英語および完全文テキスト入力のために文章レベル入力方法(Sentence-Level Input Method)と称される。一般に、言語モデルは文の確率を推測するためにしばしば利用される。例えば、音声認識において、音声認識装置は音声仮定シーケンス(acoustic hypothesis sequence)を供給する。それは種々の文候補を生成することができる。その後、候補文はそれぞれ言語モデルによってスコアが付けられ、最も高いスコアを有するものが最良の候補であると考えられる。同様に、中国語のような非英語のテキスト入力あるいは携帯電話のような10ボタン装置へのテキスト入力は、困難である。これは、ユーザがコード・シーケンスを入力し、かつ長いリストから適切な候補を選択しなければならないためである。言語モデルは、適切な候補を自動的に選択することを支援することができる。例えば、携帯電話の数字シーケンス「4663」は3つの英単語候補「good/home/gone」に対応している。前の単語が「go」であれば、言語モデルは、「home」が第1の候補であると自動的に予測することができる。要するに、言語モデルは言語モデルに関連する曖昧さが生じる場合に、候補を選ぶために利用することができる。
しかし、言語モデルのパフォーマンスは完全にドメイン(domain)依存である。言語モデルに基づいたアプリケーションが、その専門フィールド以外のドメインにおいて動作すると、パフォーマンスは劇的に低下する。この問題を解決するために、ドメインが変わる場合、言語モデルは修正されるべきである。しかし、アプリケーションが多くの別個のドメインの間で頻繁に切り替わる必要がある場合、パフォーマンスはモデルの修正から利益を得ないばかりか、修正がモデルを使用不可能にすることもある。この現象は次のセクションで説明される。
上述したように、言語モデリングにおける一般的な問題はドメイン依存の問題である。目的アプリケーションが固定ドメインにおいて動作する場合、この問題は目立たないかもしれない。しかし、アプリケーションが、互いに全く異なる多くのドメインにおいて利用されると、この問題が言語モデルパフォーマンスを制限する。
一般的に言えば、ドメイン依存の問題を解決する2つの典型的な方法がある。第1の方法は、言語モデル適応(LMA)である。また、第2の方法は言語モデル切替(LMS)である。それらは両方とも、入力方法によって生成された入力テキストのような最新の入力データによって提供される情報に従ってモデルを高めようとする。
従来の言語モデル適応は、最新のトピック(topic)が局所的に静止していると仮定する。すなわち、ドメインは、言語モデル使用の処理手続きを通じて不変である。従って、最新の出力テキストは、モデルが次に続く処理手続きにおいてよりよく動作するように、言語モデルを修正するために利用することができる。最も一般的な方法では、最近のテキストの利用のためにキャッシュ・モデルを設定し、補間を利用するためにキャッシュ・モデルと一般的なモデルを組み合わせる。長いドキュメントの音声認識や印刷された長いドキュメントのOCR処理において、この方法は効果的に動作する。
従来の言語モデル切替方法も、同様に最新のトピックが局所的に静止していると仮定する。これらのケースにおいて、最近のテキストストリームは言語モデルを高めるのには十分ではないが、代わりに、最近のテキストストリームが、最新のトピックを判断しかつ最新のトピックについて予め設定されている適切なモデルを選択するのに利用される。
従来の方法は単に最近のテキストストリームを言語モデル適応および切り替えに利用するので、ここでは、それらをテキストストリームに基づいた言語モデル適応/切り替え方法と呼ぶ。
上述したように、テキストストリームに基づいたLMA/LMS方法は、両方とも最新のトピックが局所的に静止していると仮定し、それによって、最新のテキストストリームをモデルの性能を高めるために利用することができる。実際、この仮定は必ずしも満たされるとは限らない。あるケースにおいては、テキストストリームの量が少なすぎると、言語モデル適応において利用することができない。また、このようなテキストは言語モデル適応にはほとんど役に立たない。他のいくつかのケースにおいては、言語モデルアプリケーションが、いかなるテキストストリームも提供しないで、コンテキストから他のコンテキストへ頻繁に切り替わる。すなわち、局所的な静止特性が破壊される。従って、言語モデル適応も言語モデル切替方法も効果的に作用しない。
特に、テキストストリームに基づいた方法が利用することができるのはただ一つ最新のテキストストリームである。トピックの静止していない性質のために、言語モデル適応あるいは切り替えを誤る可能性がある。さらに、アプリケーションが動作している場合、現在のアプリケーションのドメインが多くのフィールド中で切り替わる可能性がある。現在の既存の解決法は、モデルを修正するかあるいはモデルを選択するために最近のテキストストリームを利用することでこの問題に対処する。明らかに、ドメイン切り替えが非常に頻繁にあれば、モデルは劇的に修正される。あるいは、新しいモデルが単に選択されているとすぐにドメインが変わる。これは、以前の判定が次の入力要求と調和しないという重大な結果になる。それは、改良をもたらすのではなくかえってモデルの性能を損なう。
最近広く利用されている中国語の入力方法を例にとると、それらは、現在の編集フィールドをテキスト文字列で記入する必要があることを識別するだけであり、現在のアプリケーションあるいは現在のフィールドがどのような優先権を持っているか留意しない。実際、ユーザがコンタクトマネージャ(contact manage)において項目に記入する場合、名前、住所、勤め口、趣味および電話番号のようなフィールドを編集することが必要である。明らかに、それらのフィールドは互いには全く異なる。また、名前入力から取得した情報がアドレス入力を改善しない可能性があると共に、さらにアドレス入力を誤らせる可能性もある。この場合、テキストストリームに基づいた方法は少しもうまく機能しない。
他の例として10ボタン携帯電話のための文レベル入力方法を考える。ユーザがショートメッセージを入力する場合、ドメインはショートメッセージ会話ドメインである。ユーザが、アドレス帳の名前欄に書き入れる場合、そのドメインが名前である。ユーザがスマートフォンを介してインターネット・サーフィンを行う場合、ユーザはインターネットURLをブラウザーのアドレスバーに書き入れる必要がある。また、ユーザが自分の友達にダイヤルする場合、入力ドメインは電話番号である。同様に、テキストストリームに基づいた方法はこの場合もまた助けにならない。
音声認識システムをこれらの2つの例における入力方法と置き換えたとしても、状態は類似している。
すなわち、以上の説明から以下のことが判明する。純粋なテキストストリームに基づいた方法は、上記の文脈依存のケースにおいて、その言語モデルがどのドメインに現在利用されているかを(あるいは、そのような固定ドメインは全く存在しないかを)識別するために効果的な手段を提供しない。また、それらの方法は、LMBエンジン・アプリケーションが多くのドメイン間で頻繁に切り替わる場合にドメイン依存問題に対処する効果的な手法を有していない。
さらに、ドメイン検出が不正確であるため、モデル適応は成功か失敗となる。
実際、ある場合において、言語モデル要求が固定的でかつ具体的であることが分かる。例えば、携帯電話によるコンタクトマネージャの入力フィールドは、名前入力を要求する。本特許出願の発明者は、言語モデル切り替えと適応のためにこの要求を取得して利用することが可能であることを見出した。
本発明は上記の問題に解決するためになされたものであり、言語モデルの切替えと適応のための方法および装置を提供することを目的とする。
本発明は、目的アプリケーションの状態が変更された場合に、特定の場面に対して適切な言語モデルを選択する。また特定のモデルを修正するためにテキストストリームフィードバックを用いる。
従って、切り替えが様々な言語モデル間で実行される場合にドメイン依存問題が解決され、特定の言語モデルについての適応が言語モデルの特性を向上させる。
第1の本発明による言語モデル切替・適応装置は、目的アプリケーションの状態が変更された場合、現在の状態情報あるいは目的アプリケーションの言語モデルに対する要求の言語モデル切替え部に通知する通知管理部と、受信した現在の状態情報あるいは要求に従って言語モデルセットから切り替える1つ以上の言語モデルを選択する言語モデル切替え部と、1つ以上の選択された言語モデルを用いてユーザの入力をデコードするLMBエンジンと、デコードされた結果を受け取り、デコードされた結果に基づいて1つ以上の選択された言語モデルを変更する言語モデル適応部を備える。
第2の本発明による言語モデルの切替・適応方法は、目的アプリケーションの状態が変更された場合に、現在の状態情報あるいは前記目的アプリケーションの言語モデルに対する要求を通知する通知ステップと、通知された現在の状態情報あるいは要求に従って、言語モデルセットから切り替える1以上の言語モデルを選択する言語モデル切替ステップと、1以上の選択された言語モデルを用いて、ユーザの入力をデコードするでデコードステップと、デコードされた結果を受け取り、デコードされた結果に基づいて1以上の選択された言語モデルを修正する言語モデル適応ステップとを有する。
言語モデルのドメイン依存の問題のための従来の解決法と違って、本発明は、対応するドメインに対して特定のモデルを構築し目的アプリケーションの状態を利用する。また、また、テキストデータの履歴を用いる。また、LMBエンジンは目的アプリケーションと通信し、重要な情報を交換する。
本発明の効果について以下に述べる。
1.多数の異なるドメインにおいて動作し、かつそれらの間で頻繁に切り替えられるLMBエンジンを実現することができる。
2.各言語モデルは互いに大きく異なっていてもよいし、語彙も全く異なっていても適用することが可能である。このことはLMBエンジンをより柔軟にする。
3.言語モデルの適応が現在の特定のモデルについてなされるので、従来のモデル適応より遥かに効果的な性能向上が達成される。
4.LBMエンジンが目的アプリケーションと通信することができるので、ユニークな要求をする新しい目的アプリケーションを開発することが可能となる。また、通信手段は、新しい要求に応じる言語モデルセットに対して新しい言語モデルを追加するために用いることが可能である。この手段は、拡張性に富むLBMエンジンアプリケーションを提供する。
上述した効果に起因して、LMBエンジンの性能を向上させることが可能となる。
図1は、本発明による言語モデルの切替え及び適応のための装置の概略構成示すブロック図である。この装置は、全てのアプリケーションのための計算能力を提供するCPU01と、装置がメモリ07と固定記憶装置04(ハードディスクやフラッシュメモリ等の記憶装置)との間のデータをやり取りする内部バス02と、汎用アプリケーション09及びユーザ・インタフェース03(特にキー入力のためのキーボードおよび音声入力用のマイクロホン等)を備えている。固定記憶装置04は、言語モデルセット05及びその他のデータ06を記憶する。本装置は、さらに目的アプリケーション14と、言語モデル適応部12と、言語モデル切替部11と、通知管理部13及び言語モデル関連(LMB)エンジン10を含む。
LMBエンジン10は、一般に言語モデルを利用し、アプリケーションのための言語モデル関連サービスを提供する。LMBエンジン10は、例えばテキスト入力エンジンあるいは音声認識エンジンである。目的アプリケーション14は、ノートパッド、単語アプリケーション及びメール・エディタ等のような、LMBエンジン10から言語モデル関連サービスを受け取るアプリケーションである。
言語モデルセット05は、種々の状況のための言語モデルの組を管理する。
言語モデル切替部11は、様々な言語モデル間で切り替えを行う。通知管理部13は、言語モデル切替部11と目的アプリケーション14との間の通知情報を通信する。目的アプリケーション14の状態が変更されるか、特定の言語モデルに対する要求が送信された時、通知管理部13はそれを認識する。そこで、通知管理部13は、言語モデル切替部11に対して、特定の言語モデルの具体的な要求あるいは目的アプリケーションの状態情報を送信する。それにより、言語モデル切替部11は、性能を上げるために現在の言語モデルを適切なものに切り替える。言語モデル切替部11は、状態情報を言語モデルの要求に変換し、マッピングテーブルに従って対応する言語モデルを選択する。そのようなマッピングテーブルは、固定記憶装置4上に他のデータ06として記憶される。このマッピングテーブルの例を図5に示す。
言語モデル適応部12は、フィードバック入力結果に従って言語モデルを自己適応するために利用される。LMBエンジン10が現在稼動中の言語モデルを用いることによりユーザからの入力をデコードする場合、言語モデル適応部12は、デコードされた入力を受取り、デコードされた入力(入力のデコード結果)に従って現在活動中の言語モデルを修正する。
従って、言語モデル適応部12は、現在稼動中の言語モデルについて適応を実行するためにLMBエンジン10からの結果テキストを利用する結果フィードバック経路を提供する。また、言語モデル切替部11及び言語モデル適応部12は、言語モデルセットにアクセスするためのインタフェースとしての機能を提供する。通知管理部13は、これらの構成要素間のブリッジとしての役割を果たす。
なお、言語モデルセット05、言語モデル切替部11、言語モデル適応部12及び通知管理部13については、それらを、単一のモジュールに併合することが可能であるし、あるいはLMBエンジン10に組み込むことも可能である。
図2は、言語モデルの切替及び適応処理手順を実行する図1の装置の主要な構成要素を示す。図2においては、主要な構成要素05、10、11、12、13及び14だけが図示されている。説明を分かりやすくするために、目的アプリケーションの状態は14’によって示される。目的アプリケーション14は、それぞれ目的アプリケーション状態DAS4(141)のような、状態14’を有している。現在の目的アプリケーション14が変更すると(あるいは、同じアプリケーションにおいてある分野から他の分野に切り替わり、新しい要求が発生すると)、状態が変更される。通知管理部13は、この変更を認識して、適切なモデルを選択するか、あるいはこの特別な状態に現在のモデルを適応させるために言語モデル切替部11に通知する。1つの言語モデルは、1つ以上の目的アプリケーション状態で利用される可能性がある。例えば、LM2は、DA1とDA4の両方によって用いられている。また、1つの状態が、その要求に応じて組み合わせるために1つ以上の言語モデルを必要とする場合がある。例えば、LM3とLM4がDAS2用に利用するために互いに組み合わせされる。
図2において、DAS4(141)は現在活動中の目的アプリケーション状態である。また、言語モデル0501は、現在活動中の言語モデルである。それらの間の点線111はこの関係を示している。また、太い点線101及び102は、現在の活動中の言語モデルを現在の活動中の目的アプリケーション状態のために用いるLMBエンジン10を示している。言語モデル切替部11が現在の目的アプリケーションDAS4(141)のために言語モデルセット0501から適切な言語モデルを選択した後、フィードバック結果、現在の活動中の言語モデル0501を改善するために用いられ、また、言語モデル適応部12によって適応される言語モデルは、05011として示される。LMBエンジン10は、ユーザの入力をデコードし、言語モデル適応部12にデコードされた入力結果を供給する。それにより、言語モデル適応部12は、現在活動中の言語モデル0501について適応された言語モデル05011を修正する。フィードバック結果が利用可能でない場合には、適応処理を省くことも可能である。
ここで、言語モデルを切り替えて適応する方法について、図3及び図1を参照して説明する。図3は、その方法の概略フローチャートを示している。ステップS3010で、目的アプリケーションの現在の状態が変更される。これは、現在の目的アプリケーションの新たなフィールドが活性化されるか、新しい目的アプリケーションが活性化され、あるいは、ある言語モデルの要求が目的アプリケーションから送信されることを意味している。ステップS3011で、通知管理部13はこの変更を認識し、ステップS3012において、現在の状況情報あるいは言語モデルの要求を言語モデル切替部11に通知する。言語モデル切替部11は、ステップS3013において、この通知を受け取り、ステップS3014において、現在の状況情報あるいは言語モデルの要求に従って対応する言語モデルを選択する。ここで、状況情報を受け取ると、言語モデル切替部11は、まず状況情報を言語モデルの要求に翻訳する。ステップS3015で、LMBエンジン10は、ユーザから受信した入力をデコードするために新しい活動中の言語モデルを用いる。また、デコードされた結果は、ステップS3016において、目的アプリケーション14に送られる。さらに、デコードされた結果は、言語モデル適応のために言語モデル適応部12にフィードバックされ、これにより、ステップS3017で、対応するモデルの性能が向上される。
このように、デコード及びフィードバック適応のループは、ステップS3015、S3016及びS3017を実行することにより終了する。もし、ステップS3018で、現在の目的アプリケーション状態14‘が変更しないことが判定されると、処理手順はステップS3015に移行し、デコード及び適応ループが繰り返される。他方、現在の目的アプリケーション状態1400が変更し、ステップS3019でユーザがプログラムを終了しない場合には、処理手順はステップS3010に移行し、全工程が繰り返される。
図4は、本発明による言語モデルセットの論理的な構成を示す。図4においては、5つの言語モデルが示されている。また、言語モデルLM1は053で示されている。LM1(053)は、特定の言語I(必要ならば、いくつかの言語の結合であってもよい)の全空間を示している。部分052は、言語Iの空間の部分集合(サブセット)1であり、特定の領域に対応している。LM1(053)はこの部分集合1上に作成され、その特性について記述している。部分集合は言語の部分空間である。例えば、中国語の名前、親族称呼、身分証明書番号等である(中国語には、身分証明書番号のためのいくつかの規則がある)。図4に示すように、1つの言語に複数の特定の言語モデルがある場合もある。また、2つ以上の部分集合間でオーバラップすることもあり、それは許容される。
図5は、本発明による対応付けテーブルの構成例を示している。対応付けテーブルは、言語モデルセットにおける言語モデルの要求に目的アプリケーション状態をマップしている。対応付けテーブルは、特定の目的アプリケーション状態に対する適切な言語モデルを選択する言語モデル切替部11及び言語モデル適応部12を支援する。
部分1411は目的アプリケーション状態を示している。目的アプリケーション状態は、アプリケーション名、入力フィールド名、入力フィールドIDなどを含んでいる。目的アプリケーション状態は、部分11011、部分11012、部分11013のように、具体的な要求に、あるいは特定の領域にマップされる。その後、要求は、言語モデルセット05内のそのドメインのための、特定の言語モデル(例えば、モデル0501、0502のような言語モデル)にマップされる。この実施例の対応付けテーブルにおいて、リクエスト内の部分11012は一つのモデル0501に対応する。一方、リクエスト内の部分11013は2つのモデル0501および0502に対応している。目的アプリケーションが具体的なリクエスト(つまり言語モデルの要求)を提供すると、言語モデル切替部11はリクエストによって適切な言語モデルを検索する。目的アプリケーションが具体的なリクエストでなく状態を提供するなら、言語モデル切替部11は、まずその状態を具体的なリクエストに変換する。
図6は、言語モデル適応を実行する本実施例の装置を図示している。この図は、LMBエンジン10が、目的アプリケーション(例えば、ショートメッセージ・マネージャ14)のために動作する場合、言語モデル適応がどのように処理されるかを示している。
ショートメッセージ・マネージャ14において、3つのビューが表示されている。SM(Short Message:ショートメッセージ)エディタは、新しいメッセージを作成するかあるいは入力メッセージに応答するために使用される。また、SMインボックスとSMアウトボックスは他から受信したメッセージ、および送信されたメッセージを格納するためにそれぞれ使用される。この図は特定のモデルのパフォーマンスを高めるために適応テキストがどのように使用されるかを示すためのものであるので、言語モデル適応のための主要な構成要素だけを示している。また、通知マネージャ13および言語モデル切替部11のような他の構成要素は、ここでは省略されている。言語モデル適応部12は、ショートメッセージ・マネージャから現在の会話のテキストストリームを取得し、そして、そのテキストストリームに基づいて言語モデルセット05内の現在の言語モデル0503を修正する。また、LMBエンジン10は、入力復号化を指示するために拡張モデルを使用する。
図7は、目的アプリケーションの状態変更の例を示す概略図である。名前カード・マネージャは目的アプリケーション14の一例である。名前カード・マネージャは、その種々のフィールドのために多くの別個の入力を要求する。ユーザは、名前カード・マネージャに記入するために情報を入力する。図7に示されるように、部分1411は現在の入力フィールドであって、会社名フィールドである。この要求は通知マネージャ13によって読み取られる。また、言語モデル切替部11は、ユーザによる入力をより的確にするために言語モデルセット05から適切なモデル0504を選択する。
図8は、本発明の実施例による言語モデル切替および適応のための装置の概略図を示す。この装置100は、WinCE OSの元で動作している。この図の主な構成要素(通知マネージャ13)は、マイクロソフトMSDNドキュメント(Microsoft MSDN document)によって提供される。また、以下の具体例は部分的にMSDNドキュメントで提供される。テキスト入力エンジン10´は、ユーザによる入力を意味のあるコンテンツに変換するためのアプリケーションである。例えば、漢字はピンインにエンコードされる。実際、各ピンインはアルファベット文字の列であり、発音に対応している。漢字の数は莫大であるため、漢字をキーによって直接入力することができない(実際、それほど多くのキーを備えるようなキーボードは存在しない)。代わりに、ユーザはピンイン文字列を入力し、デコード候補結果から適切な文字を選択する。中国語においては非常に多くの同音異義語があるので、言語モデルは全ての候補を取得するために使用される。特に、文レベル入力方法(sentence level input method)のために、言語モデルは非常に不可欠である。
この図において、目的アプリケーション14は例えばポケットワード(Pocket WORD)である。目的アプリケーションのために全部の文候補を予測するために、テキスト入力エンジン10´は、言語モデル切替部11および適応部12を介して言語モデルセット05を使用する。テキスト入力エンジン10´は通知マネージャ13を介して目的アプリケーション14と通信する。
通知マネージャ13は、2つのユニットである、GWESグラフィック・ユーザ・インタフェース1301およびソフトキーボード入力パネル(SIP)1302から構成される。GWESグラフィック・ユーザ・インタフェース1301は、GWES(Graphics, Windowing, and Events Subsystem、これらは中核となるMicrosoft(登録商標) Windows(登録商標) CEの機能の大部分を含んでいる)モジュールである。また、それはローレベルのシステム支援を提供する。GWESグラフィック・ユーザ・インタフェース1301は、目的アプリケーション14のために状態の変更を検出する。SIP1302は実際にタッチ・スクリーンを管理し、目的アプリケーションとテキスト入力エンジン(Text Input Engine)の間の通信サポートを提供する。SIP1302はWinCE OSの一部であり、目的アプリケーションの状態取り替えを認識する。SIP1302は、状態取り替えのテキスト入力エンジン10´に通知し、かつテキスト入力エンジン10´に動作と情報を要求するための手段を備えている。特に、それは関数インタフェース(function interface)(詳細はマイクロソフト開発ネットワークを参照)を含んでおり、通信のために多くの処理をすることができる。SIP1302は、目的アプリケーション14がその状態を変化させていることをテキスト入力エンジン10´に通知する。例えば、目的アプリケーションの現在の入力フィールドが中国語の名前を入力することを要求する名前欄であること、あるいは、現在のフィールドが古い中国の詩(Old Chinese Poem)を入力するために要求している欄であること等である。古い中国語の詩(Old Chinese Poem)は、現代の中国語とは全く異なっている。中国の詩(Old Chinese Poem)においては、1つの文は普通5あるいは7文字を含んでおり、また、1つの詩は普通4文を含んでいる。さらに、その要求が非常に奇妙で、テキスト入力エンジン10´がそのようなエリア情報を含んでいないことを目的アプリケーション14が識別している場合、特定のドメインのための入力の性能を高めるために、言語モデルセットに専門の辞書および新しい言語モデルをさらに加えることができる。すなわち、この手段はテキスト入力エンジン10´のために十分な拡張性を提供する。
言語モデル切替部11は2ユニットを含んでいる。1つは受信変換ユニット1101である。また、他方は言語モデル選択ユニット1102である。受信変換ユニット1101は、目的アプリケーション14および種々の入力フィールドのためのそれらの対応する要求のリストを管理する。受信変換ユニット1101は状態情報を受信し、要求を分析する、あるいは状態情報を言語モデルのための具体的な要求に変換し、次に、どの言語モデルが使用されるかを決めるためにその変換結果を言語モデル選択ユニット1102へ渡す。
実際、現在の入力フィールドの要求を決定するために言語モデル切替部11用の2つのモードがある。一つは受動的なモードであり、もう1つは能動的なモードである。能動的なモードにおいては、目的アプリケーションは、言語モデル切替部によって定義されたリクエスト仕様の詳細を識別し、通知マネージャ13を介して言語モデル切替部11に言語モデルのためのその要求を直接送信する。言語モデル切替部11は、言語モデルのためのその要求を受信し、モデルを切り替える。受動的なモードにおいては、目的アプリケーション14は言語モデル切替部11を認識しておらず、何も送信しない。言語モデル切替部11は目的アプリケーションの状態(例えば、アプリケーションのタイトル、入力フィールドタイトル、入力フィールドのID等)を調査する。受信変換ユニット1101はこの情報を得て、情報を具体的な要求に変換する。ある場合には、受動的なモードと能動的なモードの両方が状態決定に使用される。
言語モデル適応部12は選択された言語モデルを適応させする。言語モデル適応はモデルセット全体ではなくアクティブなモデルについての処理であることに留意すべきである。通知マネージャ13が適切なモデルを選択した後、テキスト入力エンジン10´はユーザからの入力情報を解読し、言語モデル適応部12にそれを提供する。従って、言語モデル適応部12は、アクティブなモデルのパフォーマンスを高めるためにこのフィードバックを利用する。
本発明の上記実施例によれば、目的アプリケーションのリクエストが変わる場合、入力方法のためにソフトキーボードのレイアウトを変化させる必要はない。現在の特定のリクエストに応じるために異なる言語モデルを単にロードする必要があるだけである。
図9は、本発明の他の実施例による、言語モデル切替および適応用の装置の概略構成を示している。この装置は、グローバル言語モデル対応付け部14001、目的アプリケーション14、通知マネージャ13、LMBエンジン10、言語モデル切替部11、言語モデル適応部12および言語モデルセット05から構成される。グローバル言語モデル対応付け部14001は、グローバル言語モデル対応付け部14001上に格納される標準化された言語モデルドメイン区分仕様書に従った言語モデルへ目的アプリケーション14の状態を対応付ける。この仕様書において、言語ドメインはいくつかの小さなドメインに分割される。また、ドメインにはそれぞれユニークなIDが割り当てられる。分割されたドメインは、言語モデルのための要求に対応している。また、要求はこの仕様書に詳細に明示されている。要求は、図5に示すように、例えば中国語の名前や英語の名前である。グローバル言語モデル対応付け部14001は、装置の演算システムに埋め込むことができる。
従って、目的アプリケーション14は、その状態が変化する場合に、対応する具体的な要求を決定するためにグローバルな言語モデル対応付け部14001および標準化された要求フラグ14002を使用する。これにより、要求は少しも不明瞭さを有することなく表現される。標準化された要求フラグ14002は、目的アプリケーション14に埋め込まれている。目的アプリケーションの状態が変化する場合、標準化された要求フラグは、言語モデルのための要求を提示する。必要であれば、通知マネージャ13は、現在の具体的な要求に適切なモデルを選択し、かつ特定のモデルを適応させるために、LMBエンジン10、言語モデル切替部11および言語モデル適応部12と協同して動作する。図8と異なり、言語モデル切替部11は、受信変換ユニット1101ではなく受信ユニット1103を含んでいる。目的アプリケーション14が、グローバルな言語モデル対応付け部14001を利用することによりその要求を認識しており、通知マネージャ13のもとへその要求を直接送信するため、言語モデル切替部1103は、標準要求の受信のみを行い、何ら変換処理をする必要はない。
以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも、上記実施の形態に限定されるものでなく、その技術的思想の範囲内において様々に変形して実施することができる。
本発明の他の目的および利点は、以下の図面と共に示した実施例の説明から明白となりかつより容易に理解されるはずである。
本発明の一実施例による言語モデル切替および適応のための装置の概略構成を示すブロック図である。 本発明による切り替えおよび適応処理手順を実行する装置の主要な構成要素を示すブロック図である。 言語モデルを切り替えて適応する方法を説明するフローチャートである。 本発明の言語モデルセットの論理的な構成を示す図である。 本発明による対応付けテーブルの構成例を示す図である。 言語モデル適応を実行する実施例の装置を示すブロック図である。 目的アプリケーションの状態取り替えの実施例を示すブロック図である。 本発明の実施例による、言語モデル切替および適応のための装置の構成を示すブロック図である。 本発明の他の実施例による、言語モデル切替および適応のための装置の構成を示すブロック図である。
符号の説明
01:CPU
02:内部バス
03:ユーザ・インタフェース
04:固定記憶装置
05:言語モデルセット
07:メモリ
08:オペレーティング・システム
09:汎用アプリケーション
10:LMBエンジン
11:言語モデル切替部
12:言語モデル適応部
13:通知管理部
14:目的アプリケーション
1101:受信変換ユニット
1102:言語モデル選択ユニット
1103:受信ユニット
1301:GWESグラフィック・ユーザ・インタフェース
1302:ソフトキーボード入力パネル
14001:グローバル言語モデル対応付け部
14002:標準化された要求フラグ

Claims (16)

  1. 目的アプリケーションの状態が変更された場合、現在の状態情報あるいは目的アプリケーションの言語モデルに対する要求を言語モデル切替部に通知する通知管理部と、
    受信した現在の状態情報あるいは要求に従って言語モデルセットから切り替える1以上の前記言語モデルを選択する言語モデル切替部と、
    1以上の選択された前記言語モデルを用いてユーザの入力をデコードするLMBエンジンと、
    デコード結果を受信し、当該デコード結果に基づいて、1以上の選択された前記言語モデルを修正する言語モデル適応部と
    を備えることを特徴とする言語モデル切替・適応装置。
  2. 前記LMBエンジンが、音声認識エンジンであることを特徴とする請求項1に記載の言語モデル切替・適応装置。
  3. 前記LMBエンジンが、テキスト入力エンジンであることを特徴とする請求項1に記載の言語モデル切替・適応装置。
  4. 前記言語モデル切替部が、
    前記通知管理部から現在の状態情報あるいは前記言語モデルに対する要求を受信し、現在の状態情報を受信した場合に、対応付けテーブルを検索することにより、前記状態情報を言語モデルに対する要求に変換する受信変換ユニットと、
    前記言語モデルに対する要求あるいは変換された要求に基づいて前記言語モデルセットから切り替える1つ以上の言語モデルを選択する言語モデル選択ユニットを備えることを特徴とする請求項1から請求項3の何れか1項に記載の言語モデル切替・適応装置。
  5. 前記通知管理部が、
    前記目的アプリケーションの状態の変更を検知するGWESグラフィック・ユーザ・インタフェースと、
    現在の状態情報あるいは前記目的アプリケーションの言語モデルに対する要求を前記言語モデル切替部に通知するソフトウェア・キーボード入力パネルを備えることを特徴とする請求項1から請求項4の何れか1項に記載の言語モデル切替・適応装置。
  6. 前記言語モデルセットの1つの言語モデルが、1つの言語ドメイン内において他の言語モデルとオーバラップし、あるいはオーバラップしないことを特徴とする請求項1に記載の言語モデル切替・適応装置。
  7. 目的アプリケーションの状態を対応する1以上の言語モデルに対応付けるグローバル言語モデル対応付け部を備え、
    前記目的アプリケーションが、要求フラグおよび前記グローバル言語モデル対応付け部によって言語モデルに対する要求を識別し、前記通知管理部へ言語モデルに対する要求を送信することを特徴とする請求項1に記載の言語モデル切替・適応装置。
  8. 前記言語モデル切替部が、
    前記通知管理部から目的アプリケーションの言語モデルに対する要求を受信する受信モジュールと、
    受信した要求に従って、前記言語モデルセットから切り替える1以上の言語モデルを選択する言語モデル選択モジュールを備えることを特徴とする請求項7に記載の言語モデル切替・適応装置。
  9. 目的アプリケーションの状態が変更された場合に、現在の状態情報あるいは前記目的アプリケーションの言語モデルに対する要求を通知する通知ステップと、
    通知された現在の状態情報あるいは要求に従って、言語モデルセットから切り替える1以上の言語モデルを選択する言語モデル切替ステップと、
    1以上の選択された言語モデルを用いて、ユーザの入力をデコードするでデコードステップと、
    デコードされた結果を受け取り、デコードされた結果に基づいて1以上の選択された言語モデルを修正する言語モデル適応ステップと
    を有することを特徴とする言語モデルの切替・適応方法。
  10. 前記ユーザの入力が、音声認識入力であることを特徴とする請求項9に記載の言語モデルの切替・適応方法。
  11. 前記ユーザの入力が、テキスト入力であることを特徴とする請求項9に記載の言語モデルの切替・適応方法。
  12. 前記言語モデル切替ステップが、
    前記現在の状態情報あるいは前記言語モデルに対する要求を受信し、現在の状態情報を受信した場合に、対応付けテーブルを検索することにより、前記状態情報を言語モデルに対する要求に変換する受信変換ステップと、
    前記言語モデルに対する要求あるいは変換された要求に基づいて前記言語モデルセットから切り替える1つ以上の言語モデルを選択する言語モデル選択ステップを有することを特徴とする請求項9から請求項11の何れか1項に記載の言語モデルの切替・適応方法。
  13. 前記通知ステップが、
    前記目的アプリケーションの状態の変更を検知する検知ステップと、
    現在の状態情報あるいは前記目的アプリケーションの言語モデルに対する要求を通知する通信ステップを有することを特徴とする請求項9から請求項12の何れか1項に記載の言語モデルの切替・適応方法。
  14. 前記言語モデルセットの1つの言語モデルが、1つの言語ドメイン内において他の言語モデルとオーバラップし、あるいはオーバラップしないことを特徴とする請求項9に記載の言語モデルの切替・適応方法。
  15. 目的アプリケーションの状態を対応する1以上の言語モデルに対応付けるグローバル言語モデル対応付けステップを有し、
    前記目的アプリケーションが、要求フラグおよび前記グローバル言語モデル対応付けステップによって言語モデルに対する要求を識別し、前記通知ステップへ言語モデルに対する要求を提供することを特徴とする請求項9に記載の言語モデルの切替・適応方法。
  16. 前記言語モデル切替ステップが、
    目的アプリケーションから言語モデルに対する要求を受信するステップと、
    受信した要求に従って、前記言語モデルセットから切り替える1以上の言語モデルを選択する言語モデル選択ステップを有することを特徴とする請求項15に記載の言語モデルの切替・適応方法。
JP2007056012A 2006-03-10 2007-03-06 言語モデルの切替・適応方法及び言語モデル切替・適応装置 Pending JP2007280364A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2006100547856A CN101034390A (zh) 2006-03-10 2006-03-10 用于语言模型切换和自适应的装置和方法

Publications (2)

Publication Number Publication Date
JP2007280364A true JP2007280364A (ja) 2007-10-25
JP2007280364A5 JP2007280364A5 (ja) 2009-02-26

Family

ID=38681697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007056012A Pending JP2007280364A (ja) 2006-03-10 2007-03-06 言語モデルの切替・適応方法及び言語モデル切替・適応装置

Country Status (3)

Country Link
US (1) US8078467B2 (ja)
JP (1) JP2007280364A (ja)
CN (1) CN101034390A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009216591A (ja) * 2008-03-11 2009-09-24 Hitachi High-Technologies Corp 自動分析装置
WO2010100853A1 (ja) * 2009-03-04 2010-09-10 日本電気株式会社 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体
KR20110012920A (ko) * 2009-07-31 2011-02-09 삼성전자주식회사 동적 화면에 따라 음성을 인식하는 장치 및 방법
JP2012008554A (ja) * 2010-05-24 2012-01-12 Denso Corp 音声認識装置
WO2012105231A1 (ja) * 2011-02-03 2012-08-09 日本電気株式会社 モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム
JP2014523543A (ja) * 2011-06-19 2014-09-11 エムモーダル アイピー エルエルシー コンテキストアウェア認識モデルを使用した音声認識
JP2018536905A (ja) * 2015-11-06 2018-12-13 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 発話認識方法及び装置
JP7488382B2 (ja) 2018-11-16 2024-05-21 グーグル エルエルシー 自動音声認識のためのコンテキスト非正規化

Families Citing this family (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7490092B2 (en) 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US7996219B2 (en) 2005-03-21 2011-08-09 At&T Intellectual Property Ii, L.P. Apparatus and method for model adaptation for spoken language understanding
US8838457B2 (en) * 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20110054898A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Multiple web-based content search user interface in mobile search application
US20090030697A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8886540B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US20080221884A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US8635243B2 (en) * 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US20090030688A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US20110054897A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Transmitting signal quality information in mobile dictation application
US20110054899A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
US20110054895A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Utilizing user transmitted text to improve language model in mobile dictation application
US10056077B2 (en) * 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US20080221902A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile browser environment speech processing facility
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US20090030685A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using speech recognition results based on an unstructured language model with a navigation system
US7925505B2 (en) * 2007-04-10 2011-04-12 Microsoft Corporation Adaptation of language models and context free grammar in speech recognition
US9405513B2 (en) * 2008-04-18 2016-08-02 Software Ag Systems and methods for graphically developing rules for transforming models between description notations
US8713016B2 (en) 2008-12-24 2014-04-29 Comcast Interactive Media, Llc Method and apparatus for organizing segments of media assets and determining relevance of segments to a query
US9442933B2 (en) 2008-12-24 2016-09-13 Comcast Interactive Media, Llc Identification of segments within audio, video, and multimedia items
US11531668B2 (en) 2008-12-29 2022-12-20 Comcast Interactive Media, Llc Merging of multiple data sets
US8176043B2 (en) 2009-03-12 2012-05-08 Comcast Interactive Media, Llc Ranking search results
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
GB0905457D0 (en) * 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
GB201016385D0 (en) * 2010-09-29 2010-11-10 Touchtype Ltd System and method for inputting text into electronic devices
US9424246B2 (en) * 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
US8798983B2 (en) * 2009-03-30 2014-08-05 Microsoft Corporation Adaptation for statistical language model
US20100250614A1 (en) * 2009-03-31 2010-09-30 Comcast Cable Holdings, Llc Storing and searching encoded data
US8214366B2 (en) * 2009-11-17 2012-07-03 Glace Holding Llc Systems and methods for generating a language database that can be used for natural language communication with a computer
US9805020B2 (en) 2009-04-23 2017-10-31 Deep Sky Concepts, Inc. In-context access of stored declarative knowledge using natural language expression
US8972445B2 (en) 2009-04-23 2015-03-03 Deep Sky Concepts, Inc. Systems and methods for storage of declarative knowledge accessible by natural language in a computer capable of appropriately responding
US8275788B2 (en) 2009-11-17 2012-09-25 Glace Holding Llc System and methods for accessing web pages using natural language
US8533223B2 (en) 2009-05-12 2013-09-10 Comcast Interactive Media, LLC. Disambiguation and tagging of entities
US8442826B2 (en) * 2009-06-10 2013-05-14 Microsoft Corporation Application-dependent information for recognition processing
US9892730B2 (en) 2009-07-01 2018-02-13 Comcast Interactive Media, Llc Generating topic-specific language models
WO2011004367A1 (en) * 2009-07-09 2011-01-13 Eliyahu Mashiah Content sensitive system and method for automatic input language selection
US9576570B2 (en) 2010-07-30 2017-02-21 Sri International Method and apparatus for adding new vocabulary to interactive translation and dialogue systems
US8527270B2 (en) * 2010-07-30 2013-09-03 Sri International Method and apparatus for conducting an interactive dialogue
GB201200643D0 (en) 2012-01-16 2012-02-29 Touchtype Ltd System and method for inputting text
EP2678861B1 (en) * 2011-02-22 2018-07-11 Speak With Me, Inc. Hybridized client-server speech recognition
CN102122506B (zh) * 2011-03-08 2013-07-31 天脉聚源(北京)传媒科技有限公司 一种语音识别的方法
US9679561B2 (en) 2011-03-28 2017-06-13 Nuance Communications, Inc. System and method for rapid customization of speech recognition models
CN102902362B (zh) * 2011-07-25 2017-10-31 深圳市世纪光速信息技术有限公司 文字输入方法及系统
US9786281B1 (en) * 2012-08-02 2017-10-10 Amazon Technologies, Inc. Household agent learning
US9378737B2 (en) * 2012-11-05 2016-06-28 Mitsubishi Electric Corporation Voice recognition device
CN103871402B (zh) * 2012-12-11 2017-10-10 北京百度网讯科技有限公司 语言模型训练系统、语音识别系统及相应方法
US20160154634A1 (en) * 2013-06-26 2016-06-02 Hewlett-Packard Development Company, L.P. Modifying an analytic flow
US11386886B2 (en) 2014-01-28 2022-07-12 Lenovo (Singapore) Pte. Ltd. Adjusting speech recognition using contextual information
CN103903613A (zh) * 2014-03-10 2014-07-02 联想(北京)有限公司 一种信息处理方法及电子设备
US20170046330A1 (en) * 2014-04-28 2017-02-16 Google Inc. Context specific language model for input method editor
US9536521B2 (en) * 2014-06-30 2017-01-03 Xerox Corporation Voice recognition
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
US9524293B2 (en) * 2014-08-15 2016-12-20 Google Inc. Techniques for automatically swapping languages and/or content for machine translation
US10515151B2 (en) * 2014-08-18 2019-12-24 Nuance Communications, Inc. Concept identification and capture
US9966073B2 (en) 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US10403271B2 (en) 2015-06-11 2019-09-03 Nice Ltd. System and method for automatic language model selection
US20170031897A1 (en) * 2015-07-31 2017-02-02 Lenovo (Singapore) Pte. Ltd. Modification of input based on language content background
CN105068870B (zh) * 2015-09-29 2019-07-26 北京网诺星云科技有限公司 多语言信息切换的方法及装置
US10468016B2 (en) 2015-11-24 2019-11-05 International Business Machines Corporation System and method for supporting automatic speech recognition of regional accents based on statistical information and user corrections
CN109313896B (zh) * 2016-06-08 2020-06-30 谷歌有限责任公司 可扩展的动态类语言建模方法、用于生成话语转录的系统、计算机可读介质
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
CN106373565A (zh) * 2016-08-24 2017-02-01 安徽咪鼠科技有限公司 一种自动切换语音识别引擎的方法
US10741174B2 (en) * 2017-01-24 2020-08-11 Lenovo (Singapore) Pte. Ltd. Automatic language identification for speech
US10089983B1 (en) * 2017-06-08 2018-10-02 Amazon Technologies, Inc. Third party account linking for voice user interface
CN109151155B (zh) * 2017-06-27 2021-03-23 北京搜狗科技发展有限公司 一种通信处理方法、装置及机器可读介质
KR102426717B1 (ko) * 2017-06-27 2022-07-29 삼성전자주식회사 발화 인식 모델을 선택하는 시스템 및 전자 장치
KR102225984B1 (ko) * 2018-09-03 2021-03-10 엘지전자 주식회사 음성 인식 서비스를 제공하는 서버
US10510348B1 (en) 2018-09-28 2019-12-17 International Business Machines Corporation Smart medical room optimization of speech recognition systems
KR20210052563A (ko) * 2018-11-02 2021-05-10 주식회사 엘솔루 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
CN110415698B (zh) * 2018-11-15 2022-05-13 腾讯科技(深圳)有限公司 一种人工智能的数据检测方法及装置、存储介质
US11055491B2 (en) 2019-02-05 2021-07-06 International Business Machines Corporation Geographic location specific models for information extraction and knowledge discovery
CN111797631B (zh) * 2019-04-04 2024-06-21 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN111814779A (zh) * 2020-07-08 2020-10-23 重庆农村商业银行股份有限公司 一种票据文本识别方法、装置、设备及存储介质
CN112017645B (zh) * 2020-08-31 2024-04-26 广州市百果园信息技术有限公司 一种语音识别方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000330983A (ja) * 1999-05-17 2000-11-30 Nec Software Hokkaido Ltd かな漢字変換システム、かな漢字変換方法、および記録媒体
JP2004062517A (ja) * 2002-07-29 2004-02-26 Nec Corp 音声制御装置、音声制御方法、およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5613036A (en) * 1992-12-31 1997-03-18 Apple Computer, Inc. Dynamic categories for a speech recognition system
US6233545B1 (en) * 1997-05-01 2001-05-15 William E. Datig Universal machine translator of arbitrary languages utilizing epistemic moments
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000330983A (ja) * 1999-05-17 2000-11-30 Nec Software Hokkaido Ltd かな漢字変換システム、かな漢字変換方法、および記録媒体
JP2004062517A (ja) * 2002-07-29 2004-02-26 Nec Corp 音声制御装置、音声制御方法、およびプログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009216591A (ja) * 2008-03-11 2009-09-24 Hitachi High-Technologies Corp 自動分析装置
WO2010100853A1 (ja) * 2009-03-04 2010-09-10 日本電気株式会社 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体
KR20110012920A (ko) * 2009-07-31 2011-02-09 삼성전자주식회사 동적 화면에 따라 음성을 인식하는 장치 및 방법
US9269356B2 (en) 2009-07-31 2016-02-23 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speech according to dynamic display
KR101597289B1 (ko) * 2009-07-31 2016-03-08 삼성전자주식회사 동적 화면에 따라 음성을 인식하는 장치 및 방법
JP2012008554A (ja) * 2010-05-24 2012-01-12 Denso Corp 音声認識装置
WO2012105231A1 (ja) * 2011-02-03 2012-08-09 日本電気株式会社 モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム
JP2014523543A (ja) * 2011-06-19 2014-09-11 エムモーダル アイピー エルエルシー コンテキストアウェア認識モデルを使用した音声認識
JP2018536905A (ja) * 2015-11-06 2018-12-13 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 発話認識方法及び装置
US10741170B2 (en) 2015-11-06 2020-08-11 Alibaba Group Holding Limited Speech recognition method and apparatus
US11664020B2 (en) 2015-11-06 2023-05-30 Alibaba Group Holding Limited Speech recognition method and apparatus
JP7488382B2 (ja) 2018-11-16 2024-05-21 グーグル エルエルシー 自動音声認識のためのコンテキスト非正規化

Also Published As

Publication number Publication date
CN101034390A (zh) 2007-09-12
US20080040099A1 (en) 2008-02-14
US8078467B2 (en) 2011-12-13

Similar Documents

Publication Publication Date Title
JP2007280364A (ja) 言語モデルの切替・適応方法及び言語モデル切替・適応装置
US10629193B2 (en) Advancing word-based speech recognition processing
CN106598939B (zh) 一种文本纠错方法及装置、服务器、存储介质
US7395203B2 (en) System and method for disambiguating phonetic input
US8229733B2 (en) Method and apparatus for linguistic independent parsing in a natural language systems
US8738356B2 (en) Universal text input
JP5513898B2 (ja) 共有された言語モデル
US20090326945A1 (en) Methods, apparatuses, and computer program products for providing a mixed language entry speech dictation system
US11216292B2 (en) Adapting client application of feature phone based on experiment parameters
KR20220004224A (ko) 음성 인식을 위한 컨텍스트 바이어싱
KR20100065317A (ko) 개인용 통신 장치를 위한 음성-텍스트 전사
US8805869B2 (en) Systems and methods for cross-lingual audio search
KR20020094760A (ko) 컴퓨터용 소프트웨어의 언어표시방법 및언어표시시스템과, 언어표시방법과 언어표시시스템이저장된 기록매체
CN113822044B (zh) 语法纠错数据生成方法、装置、计算机设备及存储介质
US7197494B2 (en) Method and architecture for consolidated database search for input recognition systems
JP5998298B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP7250180B2 (ja) グラフィカルユーザインターフェース内への内容の音声制御入力
JP5442212B2 (ja) 電子機器
CN116306620B (zh) 文本处理方法、训练方法、存储介质及电子设备
JP2018072509A (ja) 音声読み上げ装置、音声読み上げシステム、音声読み上げ方法、およびプログラム
JP5336831B2 (ja) 文章入力を支援するための方法、並びにそのプログラム及び電子機器
CN118197292A (zh) 基于上下文信息的方言变体语音识别模型训练方法及系统
JP2021085996A (ja) 音声認識システム、音声認識方法
Lin et al. A Tibetan input method based on syllable word for mobile phone
JP2004178396A (ja) 日本語変換装置、方法、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100420