JP2003195889A - 言語モデルと共に使用されるクラスエンティティディクショナリを適応させるための方法および装置 - Google Patents

言語モデルと共に使用されるクラスエンティティディクショナリを適応させるための方法および装置

Info

Publication number
JP2003195889A
JP2003195889A JP2002327348A JP2002327348A JP2003195889A JP 2003195889 A JP2003195889 A JP 2003195889A JP 2002327348 A JP2002327348 A JP 2002327348A JP 2002327348 A JP2002327348 A JP 2002327348A JP 2003195889 A JP2003195889 A JP 2003195889A
Authority
JP
Japan
Prior art keywords
entity
class
probability
computer
modified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002327348A
Other languages
English (en)
Inventor
Zheng Chen
ゼン チェン
Jianfeng Gao
ジャンフェン ガオ
Mingjing Li
ミンジン リ
Feng Zhang
フェン ザン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2003195889A publication Critical patent/JP2003195889A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 クラスエンティティディクショナリ(41
2)を備えた言語モデル(410)を、ユーザが行った
訂正に基づいて補強するための方法と装置が提供されて
いる。 【解決手段】 この方法と装置によれば、ユーザは、そ
の一部が言語モデル(410)に基づいている出力を、
出力セグメントを正しいセグメントに置き換えることに
よって訂正する。正しいセグメントは、クラスエンティ
ティディクショナリ(412)の中の、あるクラスのセ
グメントに追加され、そのクラスが与えられたときの、
正しいセグメントが現れる確率は、出力セグメントに関
するnグラム(n-gram)確率と、そのクラスに関連するn
グラム確率に基づいて見積もられる。このように見積も
られた確率は、別の出力を生成するときに使用される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は言語モデルに関し、
具体的には、言語モデルをユーザの入力に基づいて適応
させることに関する。
【0002】
【従来の技術】言語モデル(language model)は、一連の
単語がテキストストリングの中に、どの程度の可能性で
現れるかを知る手がかりを提供する。このようなモデル
は、音声認識(speech recognition)、中国語の単語セグ
メント化、および中国語における音声から文字への変
換、例えばピンイン(pinyin)から簡体字(hanzi)への変
換において用いられ、起こり得るシーケンスのラチス(l
attice)が与えられると、最も出現可能性のある単語の
シーケンスが特定される。例えば、音声認識において、
言語モデルによって、"go to bed"というフレーズが、
音声的に似ている"gotoo bed"というフレーズよりも出
現する可能性が高いものとして特定される。
【0003】
【発明が解決しようとする課題】いくつかのシステムで
は、言語モデルが犯した誤りをユーザが訂正できるよう
になっている。しかし、訂正したことをシステムに知ら
せた後でさえ、その訂正によって作られた単語のシーケ
ンスが出現する確率を推定する方法がないために、シス
テムは、いずれの方法によっても、その訂正に基づいて
言語モデルを調整することができない。このような理由
から、システムは、一般的に、将来同じ入力に出くわし
たときも、同じ誤りを犯すであろう。
【0004】従って、言語モデルとダイナミックディク
ショナリを、ユーザが行った訂正に基づいて修正できる
ようにするシステムが要望されている。
【0005】
【課題を解決するための手段】本発明によれば、クラス
エンティティディクショナリ(class entity dictionar
y)を備えた言語モデルを、ユーザが行った訂正に基づい
て補強するための方法と装置が提供される。この方法と
装置によれば、ユーザは、出力セグメントを正しいセグ
メントに置き換えることによって、言語モデルに一部基
づく出力を訂正する。正しいセグメントは、クラスエン
ティティディクショナリの中の、あるクラスのセグメン
トに追加され、そのクラスが与えられたとき正しいセグ
メントが現れる確率は、出力セグメントに関するnグラ
ム(n-gram)確率と、そのクラスに関連するnグラム確率
に基づいて推定される。このように推定された確率は、
さらに別の出力を生成する際に使用される。
【0006】
【発明の実施の形態】通常、言語モデルは、センテンス
のコーパス(corpus)に基づいてトレーニングされる。こ
のようなコーパスは、一般的な単語を処理するよう言語
モデルをトレーニングするには効果的であるが、人や企
業の名前のような、固有名詞を処理するため言語モデル
をトレーニングするのには余り効果的ではない。その理
由は、固有名詞がコーパスの中に現れる頻度が、正確に
モデリングするのに十分のものではないからである。
【0007】図1は、本発明を実現するのに適したコン
ピューティングシステム環境100の例を示す図であ
る。このコンピューティングシステム環境100は、適
したコンピューティング環境の単なる一例であり、本発
明の使用範囲または機能が制限されることを意味するも
のではない。また、このコンピューティング環境100
は、例示の動作環境100に示すコンポーネントまたは
組み合わせのいずれにも依存し、または要求されると解
釈されるべきではない。
【0008】本発明は、多数の、他の汎用または専用目
的のコンピューティングシステム環境または構成で動作
することが可能である。本発明で使用するのに適した周
知のコンピューティングシステム、環境、および/また
は構成の例としては、パーソナルコンピュータ、サーバ
コンピュータ、ハンドヘルドまたはラップトップデバイ
ス、マルチプロセッサシステム、マイクロプロセッサベ
ースのシステム、セットトップボックス(set top bo
x)、プログラマブルコンシューマエレクトロニクス、ネ
ットワークPC、ミニコンピュータ、メインフレームコン
ピュータ、テレホニシステム、上記に挙げたシステムま
たはデバイスのいずれかを含んでいる分散型コンピュー
ティング環境などがあるが、これらに限定されるもので
はない。
【0009】本発明は、プログラムモジュールのよう
に、コンピュータによって実行されるコンピュータ実行
可能命令の一般的なコンテクストで説明することができ
る。一般的に、プログラムモジュールの中には、特定の
タスクを実行する、あるいは特定の抽象データ型を実装
しているルーチン、プログラム、オブジェクト、コンポ
ーネント、データ構造などが含まれている。本発明は、
通信ネットワークを通してリンクされたリモート処理デ
バイスによってタスクが実行されるような、分散型コン
ピューティング環境で実施することも可能である。分散
型コンピューティング環境では、プログラムモジュール
は、メモリストレージデバイスを含む、ローカルとリモ
ートの双方のコンピュータ格納媒体に置くことができ
る。
【0010】図1を参照して説明すると、本発明を実現
するための例示システムは、コンピュータ110の形態
をした汎用コンピューティングデバイスを含んでいる。
コンピュータ110のコンポーネントとしては、処理ユ
ニット120、システムメモリ130、およびシステム
メモリを含む種々システムコンポーネントを処理ユニッ
ト120に結合しているシステムバス121があるが、
これに限定されない。システムバス121は、任意の数
種類のバス構造にすることが可能であり、その中には、
種々のバスアーキテクチャのいずれかを用いたメモリバ
スまたはメモリコントローラ、ペリフェラル(周辺)バ
ス、およびローカルバスが含まれている。そのようなア
ーキテクチャの例としては、業界標準アーキテクチャ(I
ndustryStandard Architecture ISA)バス、マイクロチ
ャネルアーキテクチャ(Micro Channel Architecture M
CA)バス、拡張ISA (Enhanced ISA - EISA)バス、ビデオ
エレクトロニクス標準協会(Video Electronics Standar
ds Association VESA)ローカルバス、およびメザニン
(Mezzanine)バスとも呼ばれているペリフェラルコンポ
ーネント相互接続(Peripheral Component Interconnect
PCI)バスがあるが、これらに限定されない。
【0011】コンピュータ110は、種々のコンピュー
タ読取可能媒体を装備しているのが代表的である。コン
ピュータ読取可能媒体は、媒体として利用可能で、コン
ピュータ100によってアクセス可能なものならば、い
ずれの媒体とすることも可能であり、その中には、揮発
性媒体と不揮発性媒体、取り外し可能媒体と固定媒体が
含まれている。コンピュータ読取可能媒体の例を挙げる
と、コンピュータ格納媒体と通信媒体があるが、これら
に限定されない。コンピュータ格納媒体の中には、コン
ピュータ読取可能命令、データ構造、プログラムモジュ
ール、あるいは他のデータなどの情報を格納しておくた
めの方法やテクノロジで実現されている揮発性媒体と不
揮発性媒体、取り外し可能媒体と固定媒体が含まれてい
る。コンピュータ格納媒体の例を挙げると、RAM、ROM、
EEPROM、フラッシュメモリまたは他のメモリテクノロ
ジ、CD-ROM、デジタルバーサタイルディスク(digital v
ersatile disk- DVD)または他の光ディスクストレー
ジ、磁気カセット、磁気テープ、磁気ディスクストレー
ジまたは他の磁気ストレージデバイス、あるいは必要と
する情報を格納しておくために使用でき、コンピュータ
110によってアクセス可能な他の媒体も含まれるが、
これらに限定されない。通信媒体は、通常コンピュータ
読取可能命令、データ構造、プログラムモジュールまた
は他のデータを、搬送波や他のトランスポートメカニズ
ムなどの変調データ信号の形で具現化しており、あらゆ
る情報配信媒体が含まれている。ここで、用語「変調デ
ータ信号 (modulated data signal)」とは、その特性の
1つまたは2つ以上が、信号の中の情報を符号化(encod
e)するような形で設定または変更されている信号を意味
している。通信媒体の例を挙げると、有線(wired)ネ
ットワークや直接有線(direct-wired)コネクションなど
の有線媒体、および音響、RF、赤外線、他のワイヤレス
媒体などのワイヤレス媒体があるが、これらに限定され
ない。上記に挙げたものを任意に組み合わせたものも、
当然コンピュータ読取可能媒体の範囲に含まれる。
【0012】システムメモリ130には、リードオンリ
メモリ(read only memory ROM)131やランダムアク
セスメモリ(random access memory RAM)132のよう
な、揮発性および不揮発性メモリといった形態のコンピ
ュータ格納媒体が含まれている。コンピュータ110内
のエレメント間で、例えばスタートアップ時に情報の転
送を支援する基本ルーチンで構成された基本入出力シス
テム(basic input/output system BIOS)133は、通
常、ROM131に格納されている。RAM132には、通常
データおよび/またはプログラムモジュールが置かれて
いるが、これらは処理ユニット120より即時にアクセ
スされ、および/または現時点における操作の対象とな
っている。一例を挙げると、図1には、オペレーティン
グシステム134、アプリケーションプログラム13
5、他のプログラムモジュール136、およびプログラ
ムデータが示されているが、これらに限定されない。
【0013】コンピュータ110は、他の取り外し可能
/固定で、揮発性/不揮発性のコンピュータ格納媒体を装
備することも可能である。例を挙げると、図1には、固
定の不揮発性磁気媒体との間で読み書きを行うハードデ
ィスクドライブ141、取り外し可能な不揮発性磁気デ
ィスク152との間で読み書きを行う磁気ディスクドラ
イブ151、およびCD-ROMや他の光媒体などの取り外し
可能な不揮発性光ディスク156との間で読み書きを行
う光ディスクドライブ155が示されているが、これら
に限定されない。例示の動作環境で使用できる、その他
の取り外し可能/固定の揮発性/不揮発性コンピュータ格
納媒体としては、磁気テープカセット、フラッシュメモ
リカード、デジタルバーサタイルディスク、デジタルビ
デオテープ、ソリッドステートRAM、ソリッドステートR
OMなどがあるが、これらに限定されない。ハードディス
クドライブ141は、インタフェース140のような、
固定のメモリのインタフェースを通してシステムバス1
21に接続されるのが代表的であり、磁気ディスクドラ
イブ151と光ディスクドライブ155は、インタフェ
ース150のような、取り外し可能なメモリのインタフ
ェースを通してシステムバス121に接続されるのが代
表的である。
【0014】上記で検討し、図1に示すドライブとそれ
ぞれに関連するコンピュータ格納媒体は、コンピュータ
読取可能命令、データ構造、プログラムモジュール、そ
の他のデータをコンピュータ110のために格納してい
る。例えば、図1では、ハードディスクドライブ141
は、オペレーティングシステム144、アプリケーショ
ンプログラム145、その他のプログラムモジュール1
46、およびプログラムデータ147を格納するものと
して示されている。なお、以上のコンポーネントは、オ
ペレーティングシステム134、アプリケーションプロ
グラム135、その他のプログラムモジュール136、
およびプログラムデータ137と同じであってもよい
し、別であってもよいことに留意されたい。ここで、オ
ペレーティングシステム144、アプリケーションプロ
グラム145、その他のプログラムモジュール146、
およびプログラムデータ147に別の番号が付されてい
るのは、少なくとも、これらが単なるコピーとは異なる
ことを示すためである。
【0015】ユーザは、キーボード162、マイクロホ
ン163、およびマウスやトラックボール、タッチパッ
ドなどの入力デバイスを通して、コマンドおよび情報を
コンピュータ110に入力することができる。その他の
入力デバイス(図示せず)としては、ジョイスティッ
ク、ゲームパッド、サテライトディッシュ、スキャナな
どがある。これらの入力デバイスと他の入力デバイス
は、システムバスに結合されたユーザ入力インタフェー
ス160を通して処理ユニット120に接続されている
ことが多いが、パラレルポートやゲームポート、ユニバ
ーサルシリアルバス(universal serial bus USB)など
の、他のインタフェースやバス構造を介して接続するこ
とも可能である。モニタ191や他のタイプのディスプ
レイデバイスも、ビデオインタフェース190のような
インタフェースを介してシステムバス121に接続され
ている。モニタのほかに、コンピュータは、スピーカ1
97やプリンタ196などの、他のペリフェラル出力デ
バイスを装備することも可能であり、これらは出力ペリ
フェラルインタフェース190を介して接続可能になっ
ている。
【0016】コンピュータ110は、リモートコンピュ
ータ180のような、1つまたは2つ以上のリモートコ
ンピュータとの論理的コネクションを使用するネットワ
ーキング環境で動作させることが可能である。リモート
コンピュータ180は、パーソナルコンピュータ、ハン
ドヘルドデバイス、サーバ、ルータ、ネットワークPC、
ピアデバイスまたは他の一般的なネットワークノード(c
ommon network node)とすることができ、通常コンピュ
ータ110に関連して上述したエレメントの多くまたは
全部を装備している。図1に示す論理的コネクションと
しては、ローカルエリアネットワーク(local area netw
ork LAN)171と広域ネットワーク(wide area networ
k WAN)173があるが、他のネットワークを含めるこ
とも可能である。このようなネットワーキング環境は、
オフィス、企業内(enterprise-wide)コンピュータネッ
トワーク、イントラネットおよびインターネット(the I
nternet)で普及している。
【0017】LANネットワーキング環境で使用されると
き、コンピュータ110は、ネットワークインタフェー
スまたはアダプタ170を通してLAN171に接続され
ている。WANネットワーキング環境で使用されるとき
は、コンピュータ110は、通常インターネットなど
の、WAN173上のコミュニケーションを確立するため
のモデム172や他の手段を装備している。モデム17
2は内蔵型と外付け型があり、どちらも、ユーザ入力イ
ンタフェース160または他の適当なメカニズムを介し
てシステムバス160に接続することができる。ネット
ワーキング環境では、コンピュータ110に関連して上
述したプログラムモジュールまたはその一部は、リモー
トのメモリストレージデバイスに格納しておくことがで
きる。一例を挙げると、図1は、リモートのアプリケー
ションプログラム185がリモートコンピュータ180
に置かれていることを示しているが、これに限定されな
い。図示のネットワークコネクションは例示であり、コ
ンピュータ間の通信リンクを確立する他の手段を使用す
ることも可能であることが、理解されるであろう。
【0018】図2は、別の例示のコンピューティング環
境である、モバイルデバイス200を示すブロック図で
ある。モバイルデバイス200は、マイクロプロセッサ
202、メモリ204、入出力(I/O)コンポーネント2
06、およびリモートコンピュータや他のモバイルデバ
イスと通信するための通信インタフェースを装備してい
る。一実施形態では、前記のコンポーネントは、適当な
バス210を利用して相互に通信するように結合されて
いる。
【0019】メモリ204は、ランダムアクセスメモリ
(RAM)などの不揮発性エレクトロニックメモリとして実
現され、モバイルデバイス200への商用電源が遮断さ
れたとき、メモリ204に格納された情報が失われない
ようにするバッテリバックアップモジュール(図示せ
ず)を備えている。メモリ204の一部は、プログラム
を実行するのためのアドレス可能メモリとして割り振ら
れ、一方、メモリ204の別の部分は、ディスクドライ
ブ上にストレージをシミュレートするような、ストレー
ジとして使用されるのが望ましい。
【0020】メモリ204には、オペレーティングシス
テム212、アプリケーションプログラム214が、オ
ブジェクトストア216と共に置かれている。動作時に
は、オペレーティングシステム212は、メモリ204
からプロセッサ202によって実行されるのが望まし
い。オペレーティングシステム212は、好ましい一実
施形態では、マイクロソフト(登録商標)コーポレイシ
ョンから商用化されているWINDOWS(登録商標)CEブラ
ンドのオペレーティングシステムになっている。オペレ
ーティングシステム212は、モバイルデバイス用に設
計され、公表されているアプリケーションプログラミン
グインタフェースとメソッドを通して、アプリケーショ
ン214によって利用できるデータベースフィーチャ(f
eature)を実装しているのが望ましい。オブジェクトス
トア216に置かれているオブジェクトは、少なくとも
部分的には、公表されたアプリケーションプログラミン
グインタフェースとメソッドへのコールに応答して、ア
プリケーション214とオペレーティングシステム21
2によって維持管理されている。
【0021】通信インタフェース208は、モバイルデ
バイス200が情報を送受信できるようにする多数のデ
バイスとテクノロジを表している。デバイスのいくつか
を挙げると、有線(wired)モデムとワイヤレスモデム、
衛星受信機および放送チューナなどがある。モバイルデ
バイス200は、コンピュータに直接接続して、コンピ
ュータとデータをやりとりするようにすることもでき
る。そのような場合、通信インタフェース208は、ス
トリーミング情報を伝送する機能を備えている赤外線ト
ランシーバやシリアルまたはパラレル通信コネクション
にすることができる。
【0022】入出力コンポーネント206には、タッチ
センシティブスクリーン、ボタン、ローラ、マイクロホ
ンなどの種々の入力デバイスとともに、オーディオジェ
ネレータ、振動デバイス、ディスプレイなどの種々の出
力デバイスが含まれる。上に挙げたデバイスは例示であ
り、またすべてがモバイルデバイス200に存在する必
要もない。さらに、本発明の範囲を逸脱しない限り、他
の入力デバイスをモバイルデバイス200に接続するこ
とも、モバイルデバイス200に装備させることも可能
である。
【0023】本発明は、統計的言語モデル(statistical
language model)とクラスベースのディクショナリ(cla
ss-based dictionary)を、種々のアプリケーションで使
用し、適応させるための手段を提供している。統計的言
語モデルによると、ある単語のシーケンスが言語の中に
現れる可能性を知ることができる。一般的に、nグラム
(n-gram)言語モデルは、単語のシーケンスが現れる確率
を次のように定義している。
【0024】
【数1】
【0025】上記において、Hは、単語のシーケンス
w1, w2, ..., wtであり、tはそのシーケンスの中の単
語の数であり、n-1は、次の単語を予測するために使用
される先行単語の数であり、Pr(wi|wi-(n-1), ..., w
i-1) は、n-1個の先行単語が与えられているときのi番
目の単語が現れる確率である。従って、2グラム (bigr
am)言語モデルでは、n = 2、3グラム(trigram) 言語
モデルでは、n = 3である。
【0026】統計的言語モデルの1つの問題は、固有名
詞のように、未知の単語やまれにしか使用されない単語
が現れる正確な確率が得られないことである。この問題
を解消するために、本発明によれば、クラスベースの言
語モデルが利用されている。
【0027】本発明のクラスベースの言語モデルでは、
クラスに属する単語と個々の単語のシーケンスが現れる
確率が予測される。このために、式1は、1つまたは2
つ以上の単語の個所にクラスが使用されるように修正さ
れている。例えば、3グラム(trigram)言語モデルで
は、クラストークンNに関連して計算される確率は次の
ようになっている。
【0028】
【数2】
【0029】上記において、式2には、単純化のためク
ラス確率に近い確率だけが示されており、Niは、シーケ
ンスの中のi番目の位置にあるクラスであり、Tiは、ク
ラスNに属するエンティティであり、Pr(Ti|Ni)は、クラ
スNが与えられたときの、エンティティTの確率が得られ
る内側確率(inside probabilities)である。一実施形態
によれば、内側確率は、各クラスに現れる単語を定義し
ているクラスエンティティディクショナリによって得ら
れる。一実施形態では、クラスエンティティディクショ
ナリには、特定のクラスに現れる既知の単語を定義す
る、文法ルールのセットが与えられる。例えば、クラス
[NAME]の文脈自由文法(context-free grammar)には、"H
ank Hanson"ルールを含めることができる。外側確率(ou
tside probabilities)(先行単語が与えられたときの、
クラスの確率)は、クラスベースの言語モデルによって
得られる。
【0030】クラスベースの言語モデルによると、ある
種のクラスの単語、例えば固有名詞に起こる、低頻度(s
parseness)問題を解消することができる。この種の単語
は、トレーニングデータ(training data)中に現れる頻
度が低いために、クラスを使用しない言語モデルでは、
常に、使用頻度の低い単語よりも、一般的単語の方が優
先されている。クラスを使用すると、本発明の言語モデ
ルによれば、あるクラスの単語がトレーニングデータの
中に現れる頻度が、そのクラスの個別の単語よりも高く
なるので、クラスが特定される可能性が大きくなる。
【0031】クラスベースの言語モデルまたはクラスエ
ンティティディクショナリを使用できるようにするに
は、その前にそれらをトレーニングしておかなければな
らない。一実施形態によれば、初期時には、クラスベー
スの言語モデルとクラスエンティティディクショナリ
は、最初に、ヒューリスティック(heuristics)のセット
に基づいてトレーニングコーパスにタグを付けることに
よって、クラスに属する単語を特定するようにトレーニ
ングされる。ヒューリスティックのセットには、あるク
ラスの単語が置かれている個所を、入力の中の他の単語
に基づいて予測するルールセットが用意されている。例
えば、"call"という動詞が入力の中に現れる可能性のあ
る単語である場合、ヒューリスティックのルールによる
と、"call"の後の次の単語または次の2単語が、[NAME]
クラスの一部であることを知ることができる(例え
ば、"Call Jack Jones")。
【0032】ヒューリスティックを使用して特定された
単語は、そのクラスで置き換えられ、次にクラスベース
の言語モデルは、コーパスの中の単語とクラスに基づ
き、標準的なトレーニング手法を用いてトレーニングさ
れる。
【0033】クラスエンティティディクショナリは、初
めに、クラス別に特定された単語をサブコンポーネント
に分割することによってトレーニングされる。そのあ
と、これらのサブコンポーネントは、クラスが与えられ
たときの、単語が現れる確率を特定するために標準的n
グラムトレーニング手法で使用される。これらの確率
が、クラスの内側確率を形成する。
【0034】本発明の別の態様によって、クラスエンテ
ィティディクショナリとクラスベースの言語モデルは、
ユーザに与えられた入力に基づいて更新し、拡張され
る。具体的には、ユーザが復号化された単語シーケンス
を変更したとき、クラスエンティティディクショナリは
拡張され、クラスエンティティディクショナリに存在し
ない単語が、その修正シーケンスに含められる。例え
ば、クラスベースの言語モデルとクラスエンティティデ
ィクショナリが、"write a letter to Phil"という単語
シーケンスを復号化していて、ユーザがそのシーケンス
を "write a letterto Bill"に変更したときは、"Bill"
がまだクラスエンティティディクショナリに存在してい
なければ、"Bill"がクラスエンティティディクショナリ
に追加される。
【0035】あるエンティティをクラスエンティティデ
ィクショナリに追加するためには、そのエンティティの
内側確率が決定されなければならない。上述したよう
に、内側確率によると、クラスが与えられたときの、エ
ンティティの確率を得ることができる。この確率は、所
与のクラスについてのエンティティが出現する可能性を
明確化するには、データが十分ではないため、正確に計
算することができない。これに対して、本発明の実施形
態によれば、この内側確率は、エンティティに対する内
側確率とクラスに対する言語モデル確率の積が、少なく
とも、デコーダ(decoder)によって不正確に特定された
単語に対する言語モデル確率に等しくなるはずであると
想定することによって見積もられる。
【0036】3グラム言語モデルを式で表したとき、上
記想定は次式で表される。
【0037】
【数3】
【0038】上記において、Pr(Ti|Ni) は、クラスNi
与えられたときの、修正エンティティTiの内側確率であ
り、Pr(Ni|wi-2, wi-1) は、2先行単語がシーケンスの
中にあるときの、クラスNiの言語モデル確率であり、Pr
(Pi|wi-2, wi-1) は、復号化された正しくないエンティ
ティPiであって、そのあとで修正エンティティTiを作る
ように修正されたエンティティの言語モデル確率であ
る。
【0039】上記想定を使用すると、内側確率は次式の
ように見積もられる。
【0040】
【数4】
【0041】しかし、この見積もりは、シーケンスの中
の先行単語に依存する度合いが高くなっている。この依
存度を低くし、見積もりをより一般化するために、確率
は次式のように書き直されている。
【0042】
【数5】
【0043】上記において、Pr(Pi|<unknown>i-2,<unkn
own>i-1は、任意の2先行単語が与えられているときの、
Piの確率を表し、Pr(Ni|<unknown>i-2,<unknown>
i-1は、任意の2先行単語が与えられているときの、ク
ラスNiの確率を表している。なお、Pr(Pi|<unknown
>i-2,<unknown>i-1と Pr(Pi|<unknown>i-2,<unknown>
i-1は、先行単語を<unknown>トークンに置き換え、<unk
nown>トークンが与えられているときの、PiとNiの確率
を判断することによって、トレーニング期間に言語モデ
ルにストアされる。
【0044】確率が修正エンティティについて推定され
ると、次に、修正エンティティと推定された内側確率
は、該当するクラスの個所でクラスエンティティディク
ショナリに追加される。
【0045】復号化された単語シーケンスに対するユー
ザの修正には、クラスエンティティディクショナリに存
在しなかった単語が常に係わっているとは限らない。そ
の代わりに、もともと復号化された単語または修正され
た単語のどちらかが、クラスエンティティディクショナ
リに存在していたかもしれない。図3は、クラスエンテ
ィティディクショナリを、ユーザの修正に基づいてどの
ように変更すべきかを判断するとき使用されるステップ
を示すフロー図である。
【0046】概要を説明すると、図3のプロセスは、内
側確率を3通りの方法で調整することができる。クラス
エンティティディクショナリにすでに存在していた修正
された単語については、その単語が復号化されなかった
ことは、その内側確率が低すぎることを示している。そ
のため、その確率は大きくしなければならない。クラス
エンティティディクショナリに存在する復号化された単
語については、ユーザがその単語を修正したことは、復
号化された単語の内側確率が高すぎることを示してい
る。そのため、その確率は小さくしなければならない。
ディクショナリにない修正された単語については、その
修正された単語をディクショナリに追加し、その初期確
率を、上記式5を使用して計算しなければならない。
【0047】どの調整を行うかを決定するため、図3の
プロセスはステップ300から開始され、そこで、ユーザ
の修正によって得られた単語シーケンスが検査され、修
正された単語がクラスエンティティディクショナリにあ
るかどうかが決定される。修正された単語がクラスエン
ティティディクショナリにあれば、ステップ320でそ
の修正された単語が単一のクラスだけに見つかったかど
うかを決定される。
【0048】修正された単語が2つ以上のクラスに見つ
かった場合は、クラスベースの言語モデルは、別々のシ
ーケンスの中で起こり得るクラスの各々を使用し、出現
可能性が最も高いシーケンスを特定することによって、
最も出現可能性のあるクラスを選択するために使用され
る。これは、図3にステップ322として示されてい
る。
【0049】修正された単語がステップ320で単一の
クラスだけに見つかった場合や単一のクラスがステップ
322で特定されたあとでは、修正文字の内側確率を調
整する必要が起こる。なぜなら、修正された単語がたと
えクラスエンティティディクショナリにあったとして
も、内側確率が低すぎたためデコーダが修正された単語
を入力から特定しなかったからである。これを訂正する
ために、クラスエンティティディクショナリにストアさ
れている、修正された文字の内側確率は、ステップ32
4で大きくされる。いくつかの実施形態では、内側確率
は係数1.5倍まで大きくされる。
【0050】修正文字がステップ300でクラスエンテ
ィティディクショナリになかった場合は、ヒューリステ
ィックのセットがステップ302で使用され、修正文字
の起こり得るクラスが決定される。次に、これらのクラ
スの各々は、別々のシーケンスまたは単語を他の復号化
された単語とともに構築するために使用される。そのあ
と、クラスベースの言語モデルは、最も出現可能性のあ
るシーケンス、従って修正された単語の最も出現可能性
のあるクラスを特定するために使用される。
【0051】修正された単語のクラスがステップ304
で特定できる場合は、修正された単語の内側確率は、ス
テップ308で上記の式5を使用して決定され、修正さ
れた単語と確率は、ステップ310でクラスエンティテ
ィディクショナリに追加される。
【0052】修正された単語のクラスがステップ304
で特定できない場合は、復号化され、ユーザによって修
正された単語はステップ312で検査され、その復号化
された単語がクラスエンティティディクショナリにある
かどうかが判断される。復号化された単語がステップ3
12でディクショナリに見つかった場合、修正された単
語ではなく、復号化された単語が特定されたことは、復
号化された単語の内側確率が余りに高く設定されている
ことを意味する。これを訂正するために、復号化された
単語の内側確率はステップ314で小さくされる。いく
つかの実施形態では、内側確率は係数1.5だけ小さくさ
れる(換言すれば、内側確率は1.5で除算され、新しい
確率が得られる)。
【0053】復号化された単語がステップ312でクラ
スエンティティディクショナリに見つからなかったとき
は、復号化された単語と修正された単語のどちらも、ク
ラスに属していないので、クラスエンティティディクシ
ョナリに対する変更は行わないで済むことになる。その
ため、クラスエンティティディクショナリは、ステップ
318で未変更のままにされる。
【0054】
【実施例】本発明によるクラスベースの言語モデルとク
ラスエンティティディクショナリを更新する方法は、多
くのシステムで使用することができる。例えば、図4
は、図1と図2の環境内で実現することが可能な、本発
明の実施形態を利用する音声から文字への変換システム
400を示すブロック図である。このシステムのオペレ
ーションは、図5のフロー図に示されている。
【0055】図5のステップ500では、音声入力40
2、つまり、中国語、日本語、または韓国語(朝鮮語)
などの文字ベースの言語に見られる、文字を音声で表し
たものが、デコーダ(decoder)404に入力される。中
国語では、音声入力の一実施形態は、ピンイン入力にな
っている。ステップ502で、デコーダ404は、最初
に、語彙(lexicon)406を使用して音声入力で表現可
能な、起こり得る単語のラチス (lattice)を構築する。
次に、クラスエンティティディクショナリ412とヒュ
ーリスティックのルール416を使用してラチス内の単
語からクラスエンティティを特定することによって、ス
テップ504で、このラチスは拡張される。特定された
クラスは、ラチス内の別々のノードとして追加される。
【0056】ステップ506では、デコーダ404は、
ラチス内を通る各パス(path)の確率を決定する。パス上
の各単語が音声セグメントを表している確率を用意して
いる音声モデル408、クラスの内側確率を用意してい
るクラスエンティティディクショナリ、単語のシーケン
スおよび/またはクラスが言語に現れる確率を用意して
いる言語モデル310、および上記の式2を使用して、
この決定が行われる。パス上の単語シーケンスのうち、
出現可能性が最も高い単語シーケンスが、ステップ50
8で復号化された単語のストリングとして出力される。
【0057】復号化シーケンスがユーザに与えられたあ
と、システムは、ステップ510でユーザによる修正を
受け取ることができる。この修正は、ユーザがその入力
で意図していた正しい単語を示している。ステップ51
2では、このユーザ修正が検査され、クラスエンティテ
ィディクショナリを変更するために修正をどのように使
用したらよいかが、図3のプロセスを使用して判断され
る。具体的に説明すると、クラス抽出ユニット(class e
xtraction unit)422は、ヒューリスティックス41
6とクラスエンティティディクショナリ412を使用し
て、修正された単語のクラスを特定するとともに、クラ
スエンティティディクショナリにあるのは復号化された
単語であるか、修正された単語であるかを判断する。次
に、確率決定ユニット(probability determination uni
t)424は、修正された単語がディクショナリに存在し
ていなければ、修正された単語の確率を計算するか、あ
るいは修正された単語または復号化された単語の新しい
確率を決定して、図3で上述したようにデコーダのパフ
ォーマンスを向上させる。
【0058】第2の実施形態では、本発明のクラスベー
スの言語モデルは、図6にあるような、音声認識システ
ムで使用されている。図6において、スピーカ600か
らの入力音声信号と付加的ノイズ602は、アナログ−
デジタル(A-to-D: A/D)コンバータ606に接続されて
いるマイクロホン604によって電気信号に変換され
る。
【0059】A/Dコンバータ606は、マイクロホン6
04からのアナログ信号を一連のデジタル値に変換す
る。いくつかの実施形態では、A/Dコンバータ606
は、16 kHzおよびサンプル当たり16ビットでアナログ信
号をサンプリングし、これによって、毎秒32キロバイト
の音声データが作成される。
【0060】A/Dコンバータ606から得られたデジタ
ルデータは、オプションのノイズ低減モジュール(noise
reduction module)608に送られ、そこで1つまたは
2つ以上のノイズ低減手法を使用して、デジタル信号に
含まれるノイズの一部が除去される。
【0061】ノイズ低減モジュール608の出力は、フ
ィーチャエクストラクタ(feature extractor)610に
送られ、そこでデジタル音声信号から特徴が抽出され
る。特徴抽出モジュールの例としては、線形予測符号化
(Linear Predictive Coding LPC)、LPC派生ケプストラ
ム(LPC derived cepstrum)、知覚線形予測(PerceptiveL
inear Prediction PLP)、聴覚モデルの特徴抽出(Audit
ory model feature extraction)、およびメル周波数ケ
プストラム係数(Mel-Frequency Cepstrum Coefficients
MFCC)の特徴抽出を実行するモジュールがある。な
お、本発明は、これらの特徴抽出モジュールに限定され
るものではなく、本発明の範囲を逸脱しない限り、他の
モジュールを使用することも可能である。
【0062】特徴抽出モジュールは、ノイズ低減モジュ
ール608からデジタル値のストリームを受け取り、各
々が音声信号のフレームと関連付けられている特徴ベク
トル(feature vector)のストリームを出力する。多くの
実施形態では、フレームの中心は、10ミリ秒だけ離され
ている。
【0063】なお、ノイズ低減モジュール608は、図
6の実施形態ではフィーチャエクストラクタ610の前
に置かれているが、他の実施形態では、フィーチャエク
ストラクタ610の後に置かれている。
【0064】抽出モジュールによって出力された特徴ベ
クトルのストリームは、デコーダ612に送られ、そこ
で最も出現可能性のある単語シーケンスが、特徴ベクト
ルのストリーム、語彙614、言語モデル616、音響
モデル618、ヒューリスティックのルール622およ
びクラスエンティティディクショナリ620に基づいて
特定される。
【0065】音響モデル618からは、入力特徴ベクト
ルが、セノン(senone)、音素(phoneme)、ダイホン(diph
one)、またはトライホン(triphone) などの言語単位の
発音によって作成される可能性が与えられる。
【0066】言語モデル616、クラスエンティティデ
ィクショナリ620およびヒューリスティックのルール
622は、デコーダ404が言語モデル410、クラス
エンティティディクショナリ412およびヒューリステ
ィックルール416を使用するのと同じ方法でデコーダ
612によって使用される。
【0067】音響モデル、言語モデル、語彙、クラスエ
ンティティディクショナリ、およびヒューリスティック
のルールに基づいて、デコーダ612は、起こり得る、
すべての単語シーケンスから最も出現する可能性のある
単語シーケンスを特定する。具体的には、デコーダ61
2は、図5のステップ500、502、504、50
6、および508を使用して、最も出現する可能性のあ
る単語シーケンスを特定する。
【0068】最も出現する可能性のある単語シーケンス
は、起こり得るユーザの修正630を受けることにな
る。ユーザが復号化シーケンスの中の単語を修正した場
合は、その修正された単語は、クラス抽出ユニット63
4と確率決定ユニット634に送られ、これらは、図4
のクラス抽出ユニット422と確率決定ユニット424
と同じように動作する。図3のプロセスを使用して、ク
ラスエンティティディクショナリ620は、復号化され
た単語のユーザ修正に基づいて修正される。
【0069】以上、特定の実施形態を参照して本発明を
説明してきたが、この分野の精通者ならば理解されるよ
うに、本発明の精神と範囲から逸脱しない限り、種々の
態様にその形態と細部を変更することが可能である。
【図面の簡単な説明】
【図1】本発明を実施することができるコンピューティ
ング環境を示すブロック図である。
【図2】本発明を実施することができる、別のコンピュ
ーティング環境を示すブロック図である。
【図3】本発明の一実施形態のクラスエンティティディ
クショナリを更新するためのフローを示す図である。
【図4】本発明の実施形態のピンニンから文字への変換
を示すブロック図である。
【図5】本発明の一実施形態のクラスエンティティディ
クショナリを利用するためのフローを示す図である。
【図6】本発明の実施形態のパターン認識システムを示
すブロック図である。
【符号の説明】
100 コンピューティングシステム環境 110 コンピュータ 120 処理ユニット 121 システムバス 130 システムメモリ 131 ROM 132 RAM 133 BIOS 134、144 オペレーティングシステム 135、145 アプリケーションプログラム 136、146 他のプログラムモジュール 137、147 プログラムデータ 140 インタフェース 141 ハードディスクドライブ 150 取り外し可能不揮発性メモリインタフェース 151 磁気ディスクドライブ 152 取り外し可能な不揮発性磁気ディスク 155 光ディスクドライブ 156 取り外し可能な不揮発性光ディスク 160 ユーザ入力インタフェース 161 ポインティングデバイス 162 キーボード 163、604 マイクロホン 170 ネットワークインタフェース 171 ローカルエリアネットワーク 172 モデム 173 広域ネットワーク 180 広域ネットワーク 185 リモートのアプリケーションプログラム 190 ビデオインタフェース 191 モニタ 195 他のペリフェラルインタフェース 196 プリンタ 197 スピーカ 200 モバイルデバイス 202 マイクロプロセッサ 204 メモリ 206 入出力コンポーネント 208 通信インタフェース 212 OS 214 アプリケーション 216 オブジェクトストア 402 音声入力 404、612 デコーダ 406、614 語彙 408 ピンインモデル 410、616 言語モデル 412、620 クラスエンティティディクショナリ 416、622 ヒューリスティックルール 420、630 ユーザ修正 422、632 クラス抽出 424、634 確率のクラス決定 600 スピーカ 602付加的ノイズ 606 A/Dコンバータ 608 ノイズ低減 610 フィーチャエクストラクタ 618 音響モデル
───────────────────────────────────────────────────── フロントページの続き (72)発明者 チェン ゼン 中華人民共和国 ペキン ハイディアン ディストリクト ジチュン ドンリ 9ナ ンバー−1801 (72)発明者 ガオ ジャンフェン 中華人民共和国 100039 ペキン ペキン ラバー インダストリアル インスティ テュート ビルディング 10 ルーム 13 (72)発明者 リ ミンジン 中華人民共和国 100081 ペキン ハイデ ィアン ディストリクト ゾジュンミォ 14 ビルディング 8 ルーム 1101 (72)発明者 ザン フェン アメリカ合衆国 24060 バージニア州 ブラックスバーグ マクドナルド ストリ ート 300 アパートメント 34シー Fターム(参考) 5B091 AA15 BA19 CB12 CC16 EA01 5D015 AA05 EE05 LL11

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 入力を復号化する方法であって、 該入力から可能な単語のシーケンスを特定し、 クラスベースの言語モデルとクラスエンティティディク
    ショナリを用いて、前記可能な単語シーケンスの1つを
    出力シーケンスとして選択し、 出力シーケンスに対して行われた修正を受け取り、およ
    び前記修正を用いてクラスエンティティディクショナリ
    を変更することを特徴とする方法。
  2. 【請求項2】 コンピュータ実行可能命令を格納してい
    るコンピュータ読取可能な媒体であって、前記コンピュ
    ータ実行可能命令は、 少なくとも1つのクラスに属するエンティティの確率を
    与えるクラスエンティティディクショナリに部分的に基
    づいて、単語シーケンスを生成するステップと、 該単語シーケンスの中の復号化されたエンティティを修
    正されたエンティティに修正することにより、前記単語
    シーケンスに対しなされた修正を受け取るステップとを
    有し、 復号化されたエンティティと修正されたエンティティの
    少なくとも1つに、少なくとも部分的に基づいて、クラ
    スエンティティディクショナリの中にあるエンティティ
    の確率を設定することを特徴とするコンピュータ読取可
    能媒体。
  3. 【請求項3】 請求項1に記載の方法において、前記修
    正を用いてクラスエンティティディクショナリを変更す
    る処理は、前記修正を用いてエンティティを前記クラス
    エンティティディクショナリに追加する処理を備えたこ
    とを特徴とする方法。
  4. 【請求項4】 請求項3に記載の方法において、前記修
    正を用いてエンティティを追加する処理は、該エンティ
    ティを追加するクラスが与えられた追加されたエンティ
    ティの確率を見積もることを、さらに備えたことを特徴
    とする方法。
  5. 【請求項5】 請求項4に記載の方法において、前記エ
    ンティティの確率を見積もることは、前記出力シーケン
    スの中の復号化されたエンティティに関連する確率に、
    部分的に基づいて確率を見積もることを備えたことを特
    徴とする方法。
  6. 【請求項6】 請求項5に記載の方法において、前記エ
    ンティティの確率を見積もることは、前記復号化された
    エンティティに関連するnグラム確率と、前記修正中の
    修正されたエンティティが追加されるクラスに関連する
    nグラム確率とに基づいて確率を見積もることを備えた
    ことを特徴とする方法。
  7. 【請求項7】 請求項1に記載の方法において、前記修
    正を用いてクラスエンティティディクショナリを変更す
    る処理は、該クラスエンティティディクショナリ中のエ
    ンティティに関連する確率を大きくする処理を備えたこ
    とを特徴とする方法。
  8. 【請求項8】 請求項1に記載の方法において、前記修
    正を用いてクラスエンティティディクショナリを変更す
    る処理は、該クラスエンティティディクショナリ中のエ
    ンティティに関連する確率を小さくする処理を備えたこ
    とを特徴とする方法。
  9. 【請求項9】 請求項2に記載のコンピュータ読取可能
    媒体において、クラスエンティティディクショナリ中に
    あるエンティティの確率を設定する処理は、前記修正さ
    れたエンティティを前記クラスエンティティディクショ
    ナリに追加し、前記修正されたエンティティの確率を選
    択する処理を備えたことを特徴とするコンピュータ読取
    可能媒体。
  10. 【請求項10】 請求項9に記載のコンピュータ読取可
    能媒体において、前記修正されたエンティティの確率を
    選択する処理は、前記復号化されたエンティティに関連
    する確率に基づいて確率を見積もることを備えたことを
    特徴とするコンピュータ読取可能媒体。
  11. 【請求項11】 請求項10に記載のコンピュータ読取
    可能媒体において、前記確率を見積もることは、復号化
    されたエンティティに関連するnグラム確率と、前記修
    正中の修正されたエンティティが追加されるクラスに関
    連するnグラム確率とに基づいて、確率を見積もること
    を備えたことを特徴とするコンピュータ読取可能媒体。
  12. 【請求項12】 請求項2に記載のコンピュータ読取可
    能媒体において、前記エンティティの確率を設定する処
    理は、前記エンティティの確率を大きくする処理を備え
    たことを特徴とするコンピュータ読取可能媒体。
  13. 【請求項13】 請求項2に記載のコンピュータ読取可
    能媒体において、前記エンティティの確率を設定する処
    理は、前記エンティティの確率を小さくする処理を備え
    たことを特徴とするコンピュータ読取可能媒体。
JP2002327348A 2001-11-13 2002-11-11 言語モデルと共に使用されるクラスエンティティディクショナリを適応させるための方法および装置 Pending JP2003195889A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/008,432 US7124080B2 (en) 2001-11-13 2001-11-13 Method and apparatus for adapting a class entity dictionary used with language models
US10/008,432 2001-11-13

Publications (1)

Publication Number Publication Date
JP2003195889A true JP2003195889A (ja) 2003-07-09

Family

ID=21731556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002327348A Pending JP2003195889A (ja) 2001-11-13 2002-11-11 言語モデルと共に使用されるクラスエンティティディクショナリを適応させるための方法および装置

Country Status (3)

Country Link
US (1) US7124080B2 (ja)
JP (1) JP2003195889A (ja)
CN (1) CN100389381C (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7493251B2 (en) * 2003-05-30 2009-02-17 Microsoft Corporation Using source-channel models for word segmentation
US8321506B2 (en) * 2003-10-23 2012-11-27 Microsoft Corporation Architecture for an extensible real-time collaboration system
US20050089023A1 (en) * 2003-10-23 2005-04-28 Microsoft Corporation Architecture for an extensible real-time collaboration system
CA2486125C (en) * 2003-10-30 2011-02-08 At&T Corp. A system and method of using meta-data in speech-processing
GB0406451D0 (en) * 2004-03-23 2004-04-28 Patel Sanjay Keyboards
JP4652737B2 (ja) * 2004-07-14 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
CN100530171C (zh) * 2005-01-31 2009-08-19 日电(中国)有限公司 字典学习方法和字典学习装置
JP4393404B2 (ja) * 2005-03-04 2010-01-06 株式会社東芝 データベース管理装置およびデータベース管理方法
GB0505942D0 (en) 2005-03-23 2005-04-27 Patel Sanjay Human to mobile interfaces
GB0505941D0 (en) 2005-03-23 2005-04-27 Patel Sanjay Human-to-mobile interfaces
US8433558B2 (en) 2005-07-25 2013-04-30 At&T Intellectual Property Ii, L.P. Methods and systems for natural language understanding using human knowledge and collected data
JP2007058509A (ja) * 2005-08-24 2007-03-08 Toshiba Corp 言語処理システム
US7665037B2 (en) * 2006-06-30 2010-02-16 Research In Motion Limited Method of learning character segments from received text, and associated handheld electronic device
US7565624B2 (en) * 2006-06-30 2009-07-21 Research In Motion Limited Method of learning character segments during text input, and associated handheld electronic device
US8395586B2 (en) 2006-06-30 2013-03-12 Research In Motion Limited Method of learning a context of a segment of text, and associated handheld electronic device
CA2653843C (en) * 2006-06-30 2012-02-07 Research In Motion Limited Learning character segments during text input
CA2658586C (en) * 2006-06-30 2012-07-10 Research In Motion Limited Learning character segments from received text
JP4446313B2 (ja) * 2006-12-15 2010-04-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理用の辞書に登録するべき新規語句を検索する技術
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
US20100185438A1 (en) * 2009-01-21 2010-07-22 Joseph Anthony Delacruz Method of creating a dictionary
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US9218807B2 (en) * 2010-01-08 2015-12-22 Nuance Communications, Inc. Calibration of a speech recognition engine using validated text
CN102122506B (zh) * 2011-03-08 2013-07-31 天脉聚源(北京)传媒科技有限公司 一种语音识别的方法
WO2012145519A1 (en) * 2011-04-20 2012-10-26 Robert Bosch Gmbh Speech recognition using multiple language models
US8688454B2 (en) * 2011-07-06 2014-04-01 Sri International Method and apparatus for adapting a language model in response to error correction
CN103631802B (zh) * 2012-08-24 2015-05-20 腾讯科技(深圳)有限公司 歌曲信息检索方法、装置及相应的服务器
TWI508057B (zh) * 2013-07-15 2015-11-11 Chunghwa Picture Tubes Ltd 語音辨識系統以及方法
US9437189B2 (en) 2014-05-29 2016-09-06 Google Inc. Generating language models
US20170018268A1 (en) * 2015-07-14 2017-01-19 Nuance Communications, Inc. Systems and methods for updating a language model based on user input
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
CN108682420B (zh) * 2018-05-14 2023-07-07 平安科技(深圳)有限公司 一种音视频通话方言识别方法及终端设备
CN109885664A (zh) * 2019-01-08 2019-06-14 厦门快商通信息咨询有限公司 一种智能对话方法、机器人对话系统、服务器及存储介质
WO2021029627A1 (en) * 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. Server that supports speech recognition of device, and operation method of the server
EP4205018A1 (en) * 2020-08-27 2023-07-05 Unified Compliance Framework (Network Frontiers) Automatically identifying multi-word expressions
US11232793B1 (en) * 2021-03-30 2022-01-25 Chief Chief Technologies Oy Methods, systems and voice managing servers for voice recognition to perform action

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251316A (en) * 1991-06-28 1993-10-05 Digital Equipment Corporation Method and apparatus for integrating a dynamic lexicon into a full-text information retrieval system
US5852801A (en) * 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
US5765132A (en) * 1995-10-26 1998-06-09 Dragon Systems, Inc. Building speech models for new words in a multi-word utterance
EP0925579B1 (de) * 1996-09-10 2001-11-28 Siemens Aktiengesellschaft Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE19708183A1 (de) * 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
JP3441400B2 (ja) * 1998-06-04 2003-09-02 松下電器産業株式会社 言語変換規則作成装置、及びプログラム記録媒体
JP2968792B1 (ja) * 1998-09-18 1999-11-02 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的言語モデル生成装置及び音声認識装置
US6138099A (en) * 1998-10-19 2000-10-24 International Business Machines Corp. Automatically updating language models
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
CN1159661C (zh) * 1999-04-08 2004-07-28 肯特里奇数字实验公司 用于中文的标记和命名实体识别的系统
DE19933984C2 (de) * 1999-07-20 2001-05-31 Siemens Ag Verfahren zur Bildung und/oder Aktualisierung von Wörterbüchern zum automatischen Adreßlesen
US6334102B1 (en) * 1999-09-13 2001-12-25 International Business Machines Corp. Method of adding vocabulary to a speech recognition system
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US6975985B2 (en) * 2000-11-29 2005-12-13 International Business Machines Corporation Method and system for the automatic amendment of speech recognition vocabularies
US20020087309A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented speech expectation-based probability method and system

Also Published As

Publication number Publication date
CN100389381C (zh) 2008-05-21
US20030093263A1 (en) 2003-05-15
US7124080B2 (en) 2006-10-17
CN1419184A (zh) 2003-05-21

Similar Documents

Publication Publication Date Title
JP2003195889A (ja) 言語モデルと共に使用されるクラスエンティティディクショナリを適応させるための方法および装置
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
US8280733B2 (en) Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections
US7254529B2 (en) Method and apparatus for distribution-based language model adaptation
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
JP4818683B2 (ja) 言語モデルを作成する方法
JP2002287787A (ja) 明確化言語モデル
US6917918B2 (en) Method and system for frame alignment and unsupervised adaptation of acoustic models
CN110870004B (zh) 基于音节的自动语音识别
JP2002533771A (ja) 音声認識履歴にもとづく言語モデル
WO2004034378A1 (ja) 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法
US7076422B2 (en) Modelling and processing filled pauses and noises in speech recognition
EP1443495A1 (en) Method of speech recognition using hidden trajectory hidden markov models
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
US6772116B2 (en) Method of decoding telegraphic speech
US11043212B2 (en) Speech signal processing and evaluation
JPH11259088A (ja) 音声認識方法及び音声認識装置並びに記録媒体
CN113763938B (zh) 语音识别方法、介质、装置和计算设备
WO2014035437A1 (en) Using character describer to efficiently input ambiguous characters for smart chinese speech dictation correction
Švec et al. Real-time large vocabulary spontaneous speech recognition for spoken dialog systems
JPH07104784A (ja) 統計的言語モデルを用いた音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051107

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20051107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090626

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091204