JP2002287787A - 明確化言語モデル - Google Patents

明確化言語モデル

Info

Publication number
JP2002287787A
JP2002287787A JP2002024740A JP2002024740A JP2002287787A JP 2002287787 A JP2002287787 A JP 2002287787A JP 2002024740 A JP2002024740 A JP 2002024740A JP 2002024740 A JP2002024740 A JP 2002024740A JP 2002287787 A JP2002287787 A JP 2002287787A
Authority
JP
Japan
Prior art keywords
phrase
language model
computer
readable medium
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002024740A
Other languages
English (en)
Inventor
Yun-Cheng Ju
ユンチェン ジュ
Fileno A Alleva
エー.アレーバ フィレノ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2002287787A publication Critical patent/JP2002287787A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Abstract

(57)【要約】 【課題】 音声認識システムなどの言語処理システム用
の言語モデルを提供すること。 【解決手段】 音声認識システムなどの言語処理システ
ム用の言語モデルは、関連付けられた文字、語句、およ
び文脈キューの関数として形成される。言語モデルをト
レーニングする際に使用されるトレーニングコーパスを
生成するための方法および装置、並びにこうした言語モ
デルを使用するシステムまたはモジュールを開示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は言語モデリングに関
する。さらに詳細には、入力された音声を文字認識する
際などに不明確さを最小限にするための言語モデルの作
成および使用に関する。
【0002】
【従来の技術】音声(speech)を正確に認識するには、
ユーザが発声した正しいワードを選択するために、単な
る音響モデル以上のものが必要である。すなわち、どの
ワードが発声されたかを音声認識装置によって選択また
は判定しなければならない場合、すべてのワードの発声
される可能性が同じなら、音声認識装置は典型的には十
分な機能を果たさないことになる。言語モデルは、語彙
中のどのワードシーケンスが起こり得るかを指定する方
法または手段を提供するか、または一般に、様々なワー
ドシーケンスの可能性に関する情報を提供する。
【0003】言語認識は、トップダウンの言語処理形態
を採ると考えられることが多い。一般的な言語処理は、
「トップダウン」と「ボトムアップ」の2つの形態を含
む。トップダウン言語処理は、文(a sentence)などの
最も大きな言語単位の認識から始まり、これを句(phra
ses)などのより小さな単位に分類し、次にこれをワー
ドなどのさらに小さな単位に分類していくものである。
これに対して、ボトムアップ言語処理はワードから始ま
り、これをさらに大きな句および/または文に組み立て
ていくものである。どちらの言語処理も、言語モデルの
恩恵を受けることができる。
【0004】分類の一般的な手法の一つが、N−gra
m言語モデルを使用することである。N−gramは大
量のデータを使ってトレーニングすることができるた
め、nワード依存性は、構文と意味の両方の表層の構造
に継ぎ目なく適応できる場合が多い。N−gram言語
モデルは、一般的なディクテーションにはかなりの成果
を挙げることができるが、同音異義語は重大なエラーを
引き起こす可能性がある。同音異義語とは、文字や音節
などの言語の一要素であり、発音はよく似ているが綴り
(spelling)の異なる2つまたはそれ以上の要素の一つ
である。例えば、ユーザが文字の綴りを言っているとき
に、一部の文字の発音が同じであるために音声認識モジ
ュールが間違った文字を出力してしまうことがある。同
様に、音声認識モジュールは、単に発声するときに互い
のサウンドが似ているだけの異なる文字(例えば「m」
と「n」)について、間違った文字を出力してしまうこ
とがある。
【0005】不明確さの問題は、特に、漢字体系で書か
れることが多い日本語や中国語などの言語に関連してい
る。これらの言語の文字は、サウンドと意味とを表す多
くの複雑な表意文字である。限られた音節を形成する文
字が、今度は、ディクテーションによって文書を作成す
るのに必要な時間をかなり長引かせる多くの同音異義語
を作り出す。具体的に言えば、文書中で間違った同音異
義文字を識別し、次いで正しい同音異義文字を挿入しな
ければならない。
【0006】
【発明が解決しようとする課題】したがって、異なる意
味を持ちサウンドが似ている音声が発声されるときに不
明確さを最小限にするための新しい方法を継続的に開発
していく必要がある。技術が進歩し、より多くの適用分
野で音声認識が実現されていくにしたがって、より正確
な言語モデルが入手可能でなければならない。
【0007】
【課題を解決するための手段】音声認識装置は一般に、
正確さを向上させるN−gram言語モデルなどの言語
モデルを使用する。本発明の第一の態様は、ワードの綴
りを言うときなどに、話し手が一つまたはいくつかの文
字(例えば音節)を識別する際に特に役立つ、言語モデ
ルの生成を含む。言語モデルは、同音異義語を明確化す
る場合、および異なる文字が互いに類似のサウンドであ
る場合に助けとなる。言語モデルは、文字列(単一の文
字の場合もある)、文字列を有する語句(単一の語の場
合もある)、および文脈キュー(a context cue)とい
う関連する要素を含むトレーニングコーパス(training
corpus)から構築される。トレーニングコーパスは、
ワードのリストまたは辞書を使用し、語句、文脈キュ
ー、および語句の文字列を含むそれぞれの語句につい
て、部分的な文(a partial sentence)または句を形成
することによって自動的に生成することができる。他の
実施形態では、語句のそれぞれの文字について句が作成
される。
【0008】本発明の他の態様は、発声された文字を認
識する際に前述の言語モデルを使用するシステムまたは
モジュールである。関連付けられた語句における文脈キ
ューに関連して文字列が発声されると、音声認識モジュ
ールは、ユーザが綴りを言っているか、またはそうでな
ければ文字を識別していることを確認する。次いで音声
認識モジュールは、識別された文字だけを出力し、文脈
キューまたは関連付けられた語句は出力しない。他の実
施形態では、音声認識モジュールは、認識された文字と
認識された語句とを比較して正しい文字が識別されたこ
とを検証する。認識された文字が認識された語句の中に
ない場合、出力される文字は認識された語句の文字とな
る。
【0009】
【発明の実施の形態】図1は、言語入力12を受け取
り、言語入力12を処理して言語出力14を提供する言
語処理システム10の概略を示す図である。例えば、言
語処理システム10は、ユーザによって発声されたかま
たは記録された言語を言語入力12として受け取る音声
認識システムまたはモジュール(a speech recognition
systemor module)として実施することができる。言語
処理システム10は発声された言語を処理し、出力とし
て、典型的にはテキスト出力形式の認識されたワードお
よび/または文字として提供する。
【0010】処理中に音声認識システムまたはモジュー
ル10は、どのワードが、および具体的に言えば言語の
どの同音異義語または他の類似のサウンドの要素が発声
されたのかを判定するため、言語モデル16にアクセス
することができる。言語モデル16は、英語、中国語、
日本語などの特定の言語を符号化する。図示された実施
形態では、言語モデル16は、N−gram言語モデル
などの統計的言語モデル、文脈自由文法(context-free
-grammar)、または同様の混成であってよく、それらは
すべて当技術分野においてよく知られている。本発明の
幅広い態様の一つが、言語モデル16を作成または構築
する方法である。他の幅広い態様は、同様のものを音声
認識において使用することである。
【0011】本発明について詳細に論じる前に、動作環
境の概要について説明した方がよいであろう。図2およ
びこれに関する考察は、本発明を実施可能な好適なコン
ピュータシステム環境20について、その概要を簡単に
説明したものである。コンピュータシステム環境20
は、好適なコンピュータシステム環境の一例にすぎず、
本発明の使用または機能性の範囲を限定することを意図
するものではない。さらに、コンピューティング動作環
境20は、例示的なコンピューティング動作環境20に
図示された構成要素のいずれか一つ、またはいずれかの
組み合わせに関して、如何なる依存関係または要件も持
たないものと解釈しなければならない。
【0012】本発明は、多くの他の汎用または特殊用途
向けコンピュータシステム環境または構成を用いて動作
可能である。本発明で使用するのに好適なよく知られた
コンピュータシステム、環境、および/または構成の例
には、パーソナルコンピュータ、サーバコンピュータ、
ハンドヘルドまたはラップトップ装置、マルチプロセッ
サシステム、マイクロプロセッサベースシステム、セッ
トトップボックス、プログラマブルな民生用電子製品、
ネットワークPC、ミニコンピュータ、メインフレーム
コンピュータ、上記システムまたは装置のいずれかを含
む分散型コンピュータ環境などが含まれるが、これらに
限定されるものではない。さらに本発明は、電話システ
ムでも使用可能である。
【0013】本発明は、コンピュータによって実行され
るプログラムモジュールなどの、コンピュータ実行可能
命令の一般的な文脈(context)おいて説明することが
できる。一般に、プログラムモジュールは、特定のタス
クを実行するかまたは特定の抽象データタイプ(abstra
ct data types)を実施するルーチン、プログラム、オ
ブジェクト、構成要素、データ構造などを含む。本発明
は、通信ネットワークを介してリンクされたリモート処
理装置によってタスクが実行される、分散型コンピュー
ティング環境において実施されてもよい。分散型コンピ
ューティング環境では、メモリストレージ装置を含むロ
ーカルおよびリモートの両方のコンピュータ記憶媒体に
プログラムモジュールが位置することができる。プログ
ラムおよびモジュールによって実行されるタスクについ
ては、図面を参照して下記で説明する。当業者であれ
ば、この説明および図面を、どのような形態のコンピュ
ータ可読媒体上にも書き込むことができるプロセッサ実
行可能命令として実施することができる。
【0014】図2を参照すると、本発明を実施するため
の例示的なシステムは、コンピュータ30の形態の汎用
コンピューティングデバイスを含む。コンピュータ30
の構成要素は、処理ユニット40と、システムメモリ5
0と、システムメモリを含む様々なシステム構成要素を
処理ユニット40に結合させるシステムバス41を含ん
でいるが、これらに限定されるものではない。システム
バス41は、様々なバスアーキテクチャのうちのいずれ
かを使用するメモリバスまたはメモリ制御装置と、周辺
バスと、ローカルバスとを含む、いくつかのタイプのバ
ス構造のうちいずれかであってよい。例を挙げると、こ
うしたアーキテクチャは、Industry Stan
dard Architecture(ISA)バス、
Micro Channel Architectur
e(MCA)バス、拡張ISA(EISA)バス、Vi
deo Electronics Standards
Association(VESA)ローカルバス、お
よびMezzanine(メザニン)バスとも呼ばれる
Peripheral Component Inte
rconnect(PCI)バスを含むが、これらに限
定されるものではない。
【0015】コンピュータ30は、典型的には様々なコ
ンピュータ可読媒体を含んでいる。コンピュータ可読媒
体はコンピュータ30がアクセス可能な任意の使用可能
媒体であってよく、揮発性および不揮発性媒体、取り外
し可能および取り外し不可能媒体の両方が含まれる。例
を挙げると、コンピュータ可読媒体はコンピュータ記憶
媒体および通信媒体を含むが、これらに限定されるもの
ではない。コンピュータ記憶媒体は、コンピュータ可読
命令、データ構造、プログラムモジュール、または他の
データなどの情報を記憶するための任意の方法または技
術において実施される揮発性および不揮発性、取り外し
可能および取り外し不可能の両方の媒体を含む。コンピ
ュータ記憶媒体は、RAM、ROM、EEPROM、フ
ラッシュメモリまたは他のメモリ技術、CD−ROM、
デジタル汎用ディスク(DVD)または他の光ディスク
ストレージ、磁気カセット、磁気テープ、磁気ディスク
ストレージまたは他の磁気ストレージ装置、あるいは、
所望の情報をストアするのに使用可能であって、コンピ
ュータシステム環境20がアクセス可能な任意の他の媒
体を含むが、これらに限定されるものではない。通信媒
体は、典型的にはコンピュータ可読命令、データ構造、
プログラムモジュール、または他のデータを、搬送波ま
たは他の転送メカニズムなどの変調データ信号として具
体化するものであって、任意の情報送達媒体を含む。
「変調データ信号」という用語は、その1つ以上の特徴
を信号中で情報を符号化するように設定または変更した
信号を意味する。例を挙げると、通信媒体は、有線ネッ
トワークまたは直接有線接続などの有線媒体、並びに音
響、FR、赤外線、および他の無線媒体などの無線媒体
を含むが、これらに限定されるものではない。前述のい
ずれの組み合わせも、コンピュータ可読媒体の範囲内に
含まれるものでなければならない。
【0016】システムメモリ50は、読み取り専用メモ
リ(ROM)51およびランダムアクセスメモリ(RA
M)52などの、揮発性および/または不揮発性のメモ
リ形態のコンピュータ記憶媒体を含む。起動時などにコ
ンピュータ30内の要素間で情報を転送するのに役立つ
基本ルーチンを含む基本入出力システム(BIOS)5
3は、典型的にはROM51にストアされる。RAM5
2は、典型的には即時アクセスが可能であり、並びに/
あるいは処理ユニット40によって現在動作中のデータ
および/またはプログラムモジュールを含む。図2に
は、オペレーティングシステム54、アプリケーション
プログラム55、他のプログラムモジュール56、およ
びプログラムデータ57が例示的に示されているが、こ
れらに限定されるものではない。
【0017】コンピュータ30には、他の取り外し可能
/取り外し不可能の揮発性/不揮発性コンピュータ記憶
媒体を含めることもできる。図2には、取り外し不可能
な不揮発性磁気媒体からの読取り、またはこれへの書込
みを行うハードディスクドライブ61と、取り外し可能
な不揮発性磁気ディスク72からの読取り、またはこれ
への書込みを行う磁気ディスクドライブ71と、CD−
ROMまたは他の光媒体などの取り外し可能な不揮発性
光ディスク76からの読取り、またはこれへの書込みを
行う光ディスクドライブ75とが例示的に示されてい
る。例示的な動作環境で使用可能な他の取り外し可能/
取り外し不可能な揮発性/不揮発性コンピュータ記憶媒
体には、磁気テープカセット、フラッシュメモリカー
ド、デジタル汎用ディスク、デジタルビデオテープ、ソ
リッドステートRAM、ソリッドステートROMなどを
含むが、これらに限定されるものではない。ハードディ
スクドライブ61は、典型的にはインターフェース60
などの取り外し不可能メモリインターフェースを介して
システムバス41に接続され、磁気ディスクドライブ7
1および光ディスクドライブ75は、典型的にはインタ
ーフェース70などの取り外し可能メモリインターフェ
ースによってシステムバス41に接続される。
【0018】上述し、図2に図示されたドライブおよび
それに関連付けられたコンピュータ記憶媒体は、コンピ
ュータ30に関するコンピュータ読取り可能命令、デー
タ構造、プログラムモジュール、および他のデータの記
憶領域(storage)を提供する。例えば図2では、ハー
ドディスクドライブ61は、オペレーティングシステム
64、アプリケーションプログラム65、他のプログラ
ムモジュール66、およびプログラムデータ67をスト
アしているように図示されている。これらの構成要素
は、オペレーティングシステム54、アプリケーション
プログラム55、他のプログラムモジュール56、およ
びプログラムデータ57と同じであるか異なるかのいず
れでもよいことに留意されたい。オペレーティングシス
テム64、アプリケーションプログラム65、他のプロ
グラムモジュール66、およびプログラムデータ67に
は、少なくとも異なる複製物であることを示すために、
ここでは異なる番号が与えられている。
【0019】ユーザは、キーボード82やマイクロフォ
ン83、マウス、トラックボール、またはタッチパッド
などのポインティングデバイス81などといった入力装
置を介して、コマンドおよび情報をコンピュータ30に
入力することができる。他の入力装置(図示せず)に
は、ジョイスティック、ゲームパッド、衛星放送用パラ
ボラアンテナ、スキャナなどが含まれる。これらおよび
その他の入力装置は、システムバスに結合されたユーザ
入力インターフェース80を介して処理ユニット40に
接続されることが多いが、他のインターフェースおよび
パラレルポート、ゲームポート、またはUnivers
al Serial Bus(USB)などのバス構造
によって接続することも可能である。モニタ84または
他のタイプのディスプレイ装置も、ビデオインターフェ
ース85などのインターフェースを介してシステムバス
41に接続される。コンピュータは、モニタに加え、出
力周辺インターフェース88を介して接続可能なスピー
カ87およびプリンタ86などの他の周辺出力装置を含
むこともできる。
【0020】コンピュータ30は、リモートコンピュー
タ94などの1つ以上のリモートコンピュータへの論理
接続を使用するネットワーク化された環境で動作するこ
とができる。リモートコンピュータ94は、パーソナル
コンピュータ、ハンドヘルドデバイス、サーバ、ルー
タ、ネットワークPC、ピアデバイス、または他の共通
ネットワークノードであってよく、典型的には、コンピ
ュータ30に関して上記で述べた多くの、またはすべて
の要素を含む。図2に示された論理接続は、ローカルエ
リアネットワーク(LAN)91およびワイドエリアネ
ットワーク(WAN)93を含んでいるが、他のネット
ワークを含むことも可能である。こうしたネットワーク
環境は、会社、企業規模のコンピュータネットワーク、
イントラネット、およびインターネットによく見られる
ものである。
【0021】LANネットワーク環境で使用される場
合、コンピュータ30はネットワークインターフェー
ス、すなわちアダプタ90を介してLAN91に接続さ
れる。WANネットワーク環境で使用される場合、コン
ピュータ30は典型的には、モデム92、またはインタ
ーネットなどのWAN93を介して通信を確立するため
の他の手段を含む。モデム92は内蔵または外付けのい
ずれでもよく、ユーザ入力インターフェース80または
他の適切なメカニズムを介してシステムバス41に接続
することができる。ネットワーク環境では、コンピュー
タ30に関して示されたプログラムモジュールまたはそ
の一部を、リモートメモリストレージ装置にストアする
ことができる。図2では、リモートコンピュータ94に
リモートアプリケーションプログラム95が常駐してい
るように示されているが、これは例示的であって限定的
なものではない。図示されたネットワーク接続は例示的
なものであって、コンピュータ間に通信リンクを確立す
る他の手段が使用可能であることを理解されよう。
【0022】音声認識システム100の実施例を図3に
示す。音声認識システム100は、マイクロフォン8
3、アナログ/デジタル(A/D)変換器104、トレ
ーニングモジュール105、特徴抽出モジュール10
6、語彙目録記憶モジュール110、音響モデルおよび
senoneツリー112、ツリー検索エンジン11
4、言語モデル16、および汎用言語モデル111を含
む。音声認識システム100の全体または一部が図2に
示された環境で実施可能であることに留意されたい。例
えば、マイクロフォン83は、適切なインターフェース
およびA/D変換器104を介したコンピュータ30へ
の入力装置として提供可能なことが好ましい。トレーニ
ングモジュール105および特徴抽出モジュール106
は、コンピュータ30内のハードウェアモジュールまた
は図2に開示されたいずれかの情報ストレージ装置にス
トアされたソフトウェアモジュールのいずれかであって
よく、処理ユニット40または他の好適なプロセッサに
よりアクセス可能である。さらに、語彙目録記憶モジュ
ール110、音響モデル112、並びに言語モデル16
および111も、図2に示されたいずれかのメモリ装置
にストアされることが好ましい。さらに、ツリー検索エ
ンジン114は、処理ユニット40(1つ以上のプロセ
ッサを含むことが可能)内で実施されるか、またはコン
ピュータ30が使用する専用の音声認識プロセッサによ
って実施可能である。
【0023】例示された実施形態によれば、音声認識時
に、音声はユーザによるマイクロフォン83への可聴音
声信号の形で、音声認識システム100への入力として
提供される。マイクロフォン83は可聴音声信号をアナ
ログ電気信号に変換し、これがA/D変換器104に送
られる。A/D変換器104は、アナログ音声信号をデ
ジタル信号シーケンスに変換し、これが特徴抽出モジュ
ール106に送られる。一実施形態では、特徴抽出モジ
ュール106は、デジタル信号のスペクトル分析を実行
して周波数スペクトルの各周波数帯の値を計算する従来
のアレイプロセッサである。例示的な一実施形態では、
信号は、A/D変換器104によって略16kHzのサ
ンプリングレートで特徴抽出モジュール106に送られ
る。
【0024】特徴抽出モジュール106は、A/D変換
器104から受け取ったデジタル信号を複数のデジタル
サンプルを含むフレームに分割する。それぞれのフレー
ムの持続時間はおよそ10ミリ秒である。その後フレー
ムは、特徴抽出モジュール106によって、複数の周波
数帯のスペクトル特性を表す特徴ベクトルに符号化され
る。離散的で半連続的な隠れMarkovモデリングの
場合、特徴抽出モジュール106は、ベクトル量子化手
法およびトレーニングデータから導出されたコードブッ
クを使用して、特徴ベクトルを1つ以上の符号語にも符
号化する。したがって、特徴抽出モジュール106はそ
の出力に、発声されたそれぞれの言葉について特徴ベク
トル(または符号語)を提供する。特徴抽出モジュール
106は、1特徴ベクトル(または符号語)レートで、
あるいはおよそ10ミリ秒ごとに、特徴ベクトル(また
は符号語)を提供する。
【0025】その後、分析される特定フレームの特徴ベ
クトル(または符号語)を使用して隠れMarkovモ
デルに対する出力確率分布が計算される。これらの確率
分布は、その後、Viterbi復号化プロセスまたは
同様の種類の処理手法を実行する際に使用される。
【0026】特徴抽出モジュール106から符号語を受
け取ると、ツリー検索エンジン114は音響モデル11
2にストアされた情報にアクセスする。音響モデル11
2は、音声認識システム100によって検出される音声
単位を表す隠れMarkovモデルなどの音響モデルを
ストアする。一実施形態では、音響モデル112は、隠
れMarkovモデルでの各Markov状態に関連付
けられたsenoneツリーを含む。例示的な一実施形
態では、隠れMarkovモデルは音素を表す。音響モ
デル112のsenoneに基づいて、ツリー検索エン
ジン114は、特徴抽出モジュール106から受け取っ
た、したがってシステムのユーザから受け取った言葉を
代表する特徴ベクトル(または符号語)によって最もよ
く表される音素を決定する。
【0027】ツリー検索エンジン114は、語彙目録記
憶モジュール110にストアされた語彙目録(lexico
n)にもアクセスする。音響モデル112へのアクセス
に基づいてツリー検索エンジン114が受け取った情報
は、語彙目録記憶モジュール110をサーチして特徴抽
出モジュール106から受け取った符号語または特徴ベ
クトルを最もよく表すワードを決定する際に使用され
る。また、ツリー検索エンジン114は、言語モデル1
6と111にもアクセスする。一実施形態において、言
語モデル16は入力音声によって最もよく表される文字
を識別する際に使用されるワードN−gramであり、
これは、文字、文脈キュー、および文字を識別するため
の語句(a word phrase)を含んでいる。例えば、入力
音声が「Nas in Nancy」である場合、ここ
で「N」(小文字の場合もある)が所望の文字であり、
「as in」は文脈キュー、「Nancy」は所望の
文字を明らかにするかまたは識別するように文字「N」
に関連付けられた語句である。「N as in Na
ncy」という句に関して、音声認識システム100の
出力は文字「N」だけとなる可能性がある。言い換えれ
ば、音声認識システム100は「N as in Na
ncy」の句に関する入力音声データを分析する際に、
ユーザが文字の綴りを言うことを選択したことを確認す
る。したがって、文脈キューおよび関連付けられた語句
が出力テキストから省略される。ツリー検索エンジン1
14は、必要であれば文脈キューおよび関連付けられた
語句を除去することができる。
【0028】この実施形態で留意されたいことは、汎用
言語モデル111が、一般的なディクテーションのため
の入力音声によって最もよく表されるワードを識別する
際に使用されるワードN−gramであることである。
例えば、音声認識システムがディクテーションシステム
として具体化される場合、汎用言語モデル111は一般
的なディクテーションについて最もよく表されるワード
を指し示すが、ユーザが文脈キューのある句を使用して
いる場合、同じ句に関する汎用言語モデル111の値よ
りも言語モデル16からの出力の方が高い値を有する可
能性がある。言語モデル16からの高い値は、ユーザが
文脈キューおよび語句を使用して文字を識別する音声認
識システム100において目安(indication)として使
用することができる。したがって、文脈キューを有する
入力句の場合、ツリー検索エンジン114または音声認
識システム100の他の処理要素は、文脈キューおよび
語句を省略し、所望の文字だけを出力することができ
る。言語モデル16の使用法に関して、以下でさらに論
じる。
【0029】以上、音声認識システム100がHMMモ
デリングおよびsenoneツリーを使用する場合につ
いて述べてきたが、これは実施形態の一例に過ぎないこ
とを理解されたい。当業者であればわかるように、音声
認識システム100には多くの形態が可能であり、必要
なことは、言語モデル16の機能を使用して、ユーザが
発声したテキストを出力として提供することだけであ
る。
【0030】よく知られているように、統計的なN−g
ram言語モデルでは、そのワードまでのワードシーケ
ンスが与えられた(すなわちワード履歴Hが与えられ
た)ワードの確率推定値を作成する。N−gram言語
モデルは、履歴Hにおける以前のワード(n−1)のみ
が、次のワードの確率に与える影響を有するものとみな
す。例えば、bi−gram(すなわち2−gram)
言語モデルは、前のワードが次のワードに与える影響を
有するとみなす。したがって、N−gram言語モデル
では、ワードの発生する確率は以下の式で表される。
【0031】 P(w/H)=P(w/w1,w2,...w(n−1)) (1)
【0032】上式で、wは興味のあるワード、w1はワ
ードwより前のn−1位置に位置するワード、w2はワ
ードwより前のn−2位置に位置するワード、w(n−
1)はシーケンス内でワードwより前の最初のワードで
ある。
【0033】また、ワードシーケンスの確率は、履歴
(history)が与えられたそれぞれのワードの確率を乗
算することに基づいても決定される。したがって、ワー
ドシーケンス(w1...wm)の確率は以下の式で表
される。
【0034】
【数1】
【0035】N−gramモデルは、N−gramアル
ゴリズムをテキストトレーニングデータのコーパス
(句、文、文の断片、段落などの集まり)に適用するこ
とで得られる。N−gramアルゴリズムは、例えば、
Katzの手法または2項事後分布(binominal poster
ior distribution)バックオフ手法などの知られた統計
的手法を使用することができる。これらの手法を使用す
る場合、アルゴリズムは、ワードw(n)がw1、w
2、...w(n−1)であるワードシーケンスに従っ
た確率を推定する。これらの確率値は、集合的にN−g
ram言語モデルを形成する。以下で説明する本発明の
態様中には、標準的な統計的N−gramモデルの構築
に適用可能なものもある。
【0036】本発明の第1の幅広い態様が、文字を示す
ための言語処理システム用に言語モデルを作成する方法
140として図4に示されている。図5も参照すると、
システムまたは装置142は、方法140を実施するた
めの命令を備えたモジュールを含む。一般に方法140
は、ステップ144において、語句リストのそれぞれの
語句について、語句の文字列および語句を文字列の識別
を示す文脈キューに関連付けることを含む。文字列には
単一の文字を含めることができることに留意されたい。
同様に、語句には単一の語句を含めることができる。例
えば、1文字に等しい文字列および1ワードに等しい語
句の場合、ステップ144では、ワードリスト141に
あるそれぞれのワードについて、ワードの文字を文脈キ
ューに関連付ける。文脈キューとは、一般に、語句内の
言語要素を識別するために話し手が使用する特定言語の
ワードまたは語句である。英語の文脈キューの例とし
て、「as in」、「for example」、
「as found in」、「like」、「suc
h as」などを含む。他の言語についても、日本語の
「の」および中国語の「的」など、類似のワードまたは
語句が見られる。一実施形態では、ステップ144は、
語句のコーパス143を構築することを含む。それぞれ
の語句は、文字列、語句、および文脈キューを含む。単
一の文字がワードに関連付けられている場合、典型的に
は、そのワードの他の文字も使用可能であるが、最初の
文字が使用される。こうした語句の例は、「N as
in Nancy」、「P as in Paul」、
および「Z as in zebra」を含む。
【0037】他の実施形態では、ワードの他の文字がワ
ードおよび文脈キューに関連付けられており、さらに、
1文字、2文字、または3文字しか含まないワードが多
い中国語などの一部の言語では、ワードの各文字を文脈
キュー中のワードに関連付けることが有用な場合があ
る。前述のように、所望の文字を対応するワードおよび
文脈キューに関連付けるための簡単な方法は、同じ語句
を形成することである。したがって、ワードリスト14
1が与えられると、言語モデルをトレーニングするため
の語句のコーパス143を、すべての所望の文脈キュー
について容易に生成することができる。
【0038】コーパス143に基づいて、言語モデル1
6は、言語モデル16を構築するためのよく知られた手
法を実施するN−gram構築モジュールなどの従来の
構築モジュール146を使用して構築される。ブロック
148は、方法140における言語モデル16の構築を
表しており、言語モデル16はN−gram言語モデ
ル、文脈自由文法、または同様の混成を含むことができ
るが、これらに限定されるものではない。
【0039】生成された句には、言語モデルの形成時に
適切な確率値をもたらすことになる好適な数値を割り当
てることができる。上記の例では、「N as in
Nancy」は「N as in notch」の句よ
りも発声されることが多い可能性がある。したがって、
本発明の他の機能は、言語モデル中の関連付けられた文
字列および語句のそれぞれに対する確率スコアの調整を
含むことができる。確率スコアは、言語モデル16の作
成時にマニュアルで調整することができる。他の実施形
態では、十分な数の全く同一の語句をコーパス143に
含め、言語モデル中で関連付けられた文字および語句に
関する適切な確率スコアを引き出すことによって、確率
スコアを調整することができる。確率スコアは、語句を
使用する可能性の関数の場合もある。一般に、文字を識
別する際に他のものよりも使用されることの多い語句が
存在する。こうした語句には、言語モデル中でより高い
確率スコアが割り当てられるか、そうでなければ与えら
れる。
【0040】図6は、一般的な音声認識モジュール18
0および言語モデル16を示す図である。音声認識モジ
ュール180は前述のタイプであってよいが、音声認識
モジュール180が多くの形式を採ることができるとい
う点で、音声認識モジュール180はその実施形態に限
定されるものではないことを理解されたい。前述のよう
に、音声認識モジュール180は入力音声を示すデータ
を受け取り、入力音声が文脈キューを有する句を含んで
いるかどうかを確かめるために言語モデル16にアクセ
スする。文脈キューを有する語句が検出された場合、音
声認識モジュール180は、文脈キューまたは語句では
なく、文脈キューおよび語句に関連付けられた文字のみ
を出力として提供することができる。換言すれば、音声
認識モジュールは「N as in Nancy」の完
全な句を検出してはいるが、出力としては「N」だけを
提供することになる。この出力は、話し手が所望の文字
を個別に示すように選択しているディクテーションシス
テムにおいて特に有用である。
【0041】ここで、前述の言語モデル16が本質的
に、関連付けられた文字列、語句、および文脈キューか
らなるものであることから、言語モデル16は、この形
態の入力音声には特に敏感であることに留意されたい。
図3の実施形態では、文字列、語句、および文脈キュー
の特有の形態を有することのない入力音声に対して、汎
用言語モデル111を使用することができる。ただし、
代替実施形態では、所望であれば言語モデル16と11
1を組み合わせることができることも理解されたい。
【0042】入力音声を受け取り、言語モデル16にア
クセスすると、音声認識モジュール180は入力音声に
関して認識された文字列と認識された語句を決定する。
多くの場合、認識された文字列は、言語モデル16を使
用することによって正しいものとなる。ただし、他の実
施形態では、音声認識モジュール180によって発生し
たエラーの少なくとも一部を修正するために、文字検証
モジュール182を含めることができる。文字検証モジ
ュール182は、音声認識モジュール180によって確
認された認識された文字列と認識された語句へのアクセ
スを有し、認識された文字列を認識された語句と比較す
るものであり、具体的には、認識された文字列が認識さ
れた語句中に存在することを検証する。認識された語句
中に認識された文字列が存在しない場合、エラーは、話
し手が「M as in Nancy」などの正しくな
い句をディクテーションすることによって発生したか、
または音声認識モジュール180が認識された文字列ま
たは認識された語句を間違って理解したことによるもの
であるが、エラーが発生したことは明らかである。一実
施形態において文字検証モジュール182は、認識され
た文字列内でエラーが発生する可能性が最も高いと想定
して、それによって認識された文字列に関する認識され
た語句に存在する文字を置換することができる。認識さ
れた文字列を認識された語句の文字と置き換える際に
は、認識された文字列と認識された語句の文字の間の音
響的な類似性を比較し、これに基づいて実行することが
できる。したがって、文字検証モジュール182は、個
々の文字が発声されたときのサウンドに直接関係するス
トアされたデータへのアクセスを有することができる。
文字検証モジュール182は、認識された語句中に在る
文字を使用して、認識された語句中のそれぞれの文字の
ストアされた音響データを認識された文字列と比較す
る。その後、最も近い文字が出力として提供される。当
業者ならば理解されるように、文字検証モジュール18
2は音声認識モジュール180内に含めることができる
が、説明が容易なように別個に図示してある。
【0043】以上、本発明について好ましい実施形態を
参照しながら説明してきたが、当業者であれば、本発明
の精神および範囲を逸脱しない形態および内容での変更
が可能なことを理解されよう。
【図面の簡単な説明】
【図1】言語処理システムの構成図である。
【図2】例示的なコンピュータシステム環境を示す構成
図である。
【図3】例示的に音声認識システムを示す構成図であ
る。
【図4】本発明の方法を示す流れ図である。
【図5】図4の方法を実施するためのモジュールを示す
構成図である。
【図6】音声認識モジュールおよびオプションの文字検
証モジュールを示す構成図である。
【符号の説明】
10 言語処理システム(モジュール) 12 言語入力 14 言語出力 16 言語モデル 20 コンピュータシステム環境(コンピューティング
動作環境) 30 コンピュータ 40 処理ユニット 41 システムバス 50 システムメモリ 53 基本入出力システム(BIOS) 54,64 オペレーティングシステム(OS) 55,65 アプリケーションプログラム 56,66 プログラムモジュール 57,67 プログラムデータ 60,70 インターフェース 61 ハードディスクドライブ 71 磁気ディスクドライブ 72 不揮発性磁気ディスク 75 光ディスクドライブ 76 不揮発性光ディスク 80 ユーザ入力インターフェース 81 ポインティングデバイス 82 キーボード 83 マイクロフォン 84 モニタ 85 ビデオインターフェース 86 プリンタ 87 スピーカ 88 出力周辺インターフェース 90 ネットワークインターフェース(アダプタ) 91 ローカルエリアネットワーク 92 モデム 93 ワイドエリアネットワーク 94 リモートコンピュータ 95 リモートアプリケーションプログラム 100 音声認識システム 104 A/D変換器 105 トレーニングモジュール 106 特徴抽出モジュール 110 語彙目録記憶モジュール 111 汎用言語モデル 112 音響モデル(Senoneツリー) 114 ツリー検索エンジン 140 方法 141 ワードリスト 142 装置 143 コーパス 146 構築モジュール 148 ブロック 180 音声認識モジュール 182 文字検証モジュール
───────────────────────────────────────────────────── フロントページの続き (72)発明者 フィレノ エー.アレーバ アメリカ合衆国 98052 ワシントン州 レッドモンド ノースイースト 48 スト リート 16516 Fターム(参考) 5D015 GG00 HH00

Claims (40)

    【特許請求の範囲】
  1. 【請求項1】 文字を表示する音声認識システム用の言
    語モデルを作成する方法であって、 語句リストのそれぞれの語句について、語句の文字列お
    よび語句を文字列の識別を示す文脈キューに関連付ける
    ステップと、 関連付けられた語句および文字列の関数として言語モデ
    ルを構築するステップとを含むことを特徴とする方法。
  2. 【請求項2】 言語モデルは統計的言語モデルを含むこ
    とを特徴とする請求項1に記載の方法。
  3. 【請求項3】 言語モデルはN−gram言語モデルを
    含むことを特徴とする請求項2に記載の方法。
  4. 【請求項4】 言語モデルは文脈自由文法を含むことを
    特徴とする請求項2に記載の方法。
  5. 【請求項5】 関連付けるステップは、関連付けられた
    文字列および語句のコーパス、および文脈キューを構築
    することを含み、 言語モデルを構築するステップはコーパスへアクセスす
    ることを含むことを特徴とする請求項1に記載の方法。
  6. 【請求項6】 関連付けるステップは、各語句の最初の
    文字を語句に関連付けることを含むことを特徴とする請
    求項1に記載の方法。
  7. 【請求項7】 関連付けるステップは、少なくとも一部
    の語句の最初の文字以外の他の文字を対応する語句に関
    連付けることを含むことを特徴とする請求項6に記載の
    方法。
  8. 【請求項8】 関連付けるステップは、少なくとも一部
    の語句の各文字を対応する語句に関連付けることを含む
    ことを特徴とする請求項7に記載の方法。
  9. 【請求項9】 関連付けるステップは、各語句の各文字
    を対応する語句に関連付けることを含むことを特徴とす
    る請求項7に記載の方法。
  10. 【請求項10】 言語モデル中の関連付けられた文字列
    および語句のそれぞれについて、確率スコアを調整する
    ステップをさらに含むことを特徴とする請求項1に記載
    の方法。
  11. 【請求項11】 関連付けるステップは、語句の文字
    列、語句、および文脈キューを含む句を語句リストの各
    語句について形成することを含むことを特徴とする請求
    項1に記載の方法。
  12. 【請求項12】 文脈キューは英語の「as in」と
    類似であることを特徴とする請求項11に記載の方法。
  13. 【請求項13】 文脈キューは中国語の「的」を含むこ
    とを特徴とする請求項11に記載の方法。
  14. 【請求項14】 文脈キューは日本語の「の」を含むこ
    とを特徴とする請求項11に記載の方法。
  15. 【請求項15】 各語句は単一のワードであることを特
    徴とする請求項1に記載の方法。
  16. 【請求項16】 各文字列は単一の文字であることを特
    徴とする請求項15に記載の方法。
  17. 【請求項17】 各文字列は単一の文字であることを特
    徴とする請求項1に記載の方法。
  18. 【請求項18】 プロセッサによって実行されたとき
    に、発声された文字を認識する方法を実行する命令を有
    するコンピュータ可読媒体であって、 前記方法は、 文字列と、文字列を有する語句と、文脈キューとを有す
    る入力音声を受け取るステップと、 文字列を語句および文脈キューのないテキストとして出
    力するステップとを含むことを特徴とするコンピュータ
    可読媒体。
  19. 【請求項19】 複数の句を示す言語モデルにアクセス
    するための命令をさらに含み、 各句が文字列と、文字列を有する語句と、文脈キューと
    を有することを特徴とする請求項18に記載のコンピュ
    ータ可読媒体。
  20. 【請求項20】 言語モデルは、本質的に、関連付けら
    れた文字列と、文字列を有する語句と、文脈キューとか
    らなる句を示すことを特徴とする請求項19に記載のコ
    ンピュータ可読媒体。
  21. 【請求項21】 文字列を出力するステップは、言語モ
    デルを使用して文字列を認識することの関数として文字
    列を出力することを含むことを特徴とする請求項19に
    記載のコンピュータ可読媒体。
  22. 【請求項22】 言語モデルは統計的言語モデルを含む
    ことを特徴とする請求項21のコンピュータ可読媒体。
  23. 【請求項23】 言語モデルはN−gram言語モデル
    を含むことを特徴とする請求項22に記載のコンピュー
    タ可読媒体。
  24. 【請求項24】 文字列を出力するステップは、受け取
    った入力音声のN−gramの関数としてのみ、文字列
    を出力することを含むことを特徴とする請求項21に記
    載のコンピュータ可読媒体。
  25. 【請求項25】 文字列を出力するステップは、認識さ
    れた文字列と認識された語句との比較結果の関数として
    文字列を出力することを含むことを特徴とする請求項2
    1に記載のコンピュータ可読媒体。
  26. 【請求項26】 認識された文字列が認識された語句中
    に存在しない場合、出力される文字列は認識された語句
    の文字列であることを特徴とする請求項25に記載のコ
    ンピュータ可読媒体。
  27. 【請求項27】 言語モデルは文脈自由文法を含むこと
    を特徴とする請求項21に記載のコンピュータ可読媒
    体。
  28. 【請求項28】 各語句は単一のワードであることを特
    徴とする請求項18に記載のコンピュータ可読媒体。
  29. 【請求項29】 各文字列は単一の文字であることを特
    徴とする請求項28に記載のコンピュータ可読媒体。
  30. 【請求項30】 各文字列は単一の文字であることを特
    徴とする請求項18に記載のコンピュータ可読媒体。
  31. 【請求項31】 プロセッサによって実行されたとき
    に、発声された文字列を認識するための命令を有するコ
    ンピュータ可読媒体であって、 前記命令は、 本質的に、関連付けられた文字列と、文字列を有する語
    句と、文脈キューとからなる句を示す言語モデルと、 入力音声を示すデータを受け取り、言語モデルにアクセ
    スし、ユーザによって発声された文字列を出力するため
    の認識モジュールであって、入力音声が文字列を有する
    語句と文脈キューとを含むものとを含むことを特徴とす
    るコンピュータ可読媒体。
  32. 【請求項32】 認識モジュールは文字列のみを出力す
    ることを特徴とする請求項31に記載のコンピュータ可
    読媒体。
  33. 【請求項33】 言語モデルは統計的言語モデルを含む
    ことを特徴とする請求項31に記載のコンピュータ可読
    媒体。
  34. 【請求項34】 言語モデルはN−gram言語モデル
    を含むことを特徴とする請求項31に記載のコンピュー
    タ可読媒体。
  35. 【請求項35】 言語モデルは文脈自由文法を含むこと
    を特徴とする請求項31に記載のコンピュータ可読媒
    体。
  36. 【請求項36】 認識モジュールは、認識された文字列
    と認識された語句との比較結果の関数として文字列を出
    力することを特徴とする請求項31に記載のコンピュー
    タ可読媒体。
  37. 【請求項37】 認識された文字列が認識された語句中
    に存在しない場合、出力される文字列は認識された語句
    の文字列であることを特徴とする請求項36に記載のコ
    ンピュータ可読媒体。
  38. 【請求項38】 各語句は単一のワードであることを特
    徴とする請求項31に記載のコンピュータ可読媒体。
  39. 【請求項39】 各文字列は単一の文字であることを特
    徴とする請求項38に記載のコンピュータ可読媒体。
  40. 【請求項40】 各文字列は単一の文字であることを特
    徴とする請求項31に記載のコンピュータ可読媒体。
JP2002024740A 2001-01-31 2002-01-31 明確化言語モデル Pending JP2002287787A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/773,242 2001-01-31
US09/773,242 US6934683B2 (en) 2001-01-31 2001-01-31 Disambiguation language model

Publications (1)

Publication Number Publication Date
JP2002287787A true JP2002287787A (ja) 2002-10-04

Family

ID=25097632

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002024740A Pending JP2002287787A (ja) 2001-01-31 2002-01-31 明確化言語モデル

Country Status (3)

Country Link
US (2) US6934683B2 (ja)
JP (1) JP2002287787A (ja)
TW (1) TW546631B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004355629A (ja) * 2003-05-29 2004-12-16 Microsoft Corp 高度対話型インターフェースに対する理解同期意味オブジェクト
JP2006503328A (ja) * 2002-10-16 2006-01-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ディレクトリアシスタント方法及び装置
JP2009163109A (ja) * 2008-01-09 2009-07-23 Mitsubishi Electric Corp 言語モデル生成装置及び音声認識装置

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
US20020169597A1 (en) * 2001-03-12 2002-11-14 Fain Systems, Inc. Method and apparatus providing computer understanding and instructions from natural language
US7613601B2 (en) * 2001-12-26 2009-11-03 National Institute Of Information And Communications Technology Method for predicting negative example, system for detecting incorrect wording using negative example prediction
US7716207B2 (en) * 2002-02-26 2010-05-11 Odom Paul S Search engine methods and systems for displaying relevant topics
US7340466B2 (en) * 2002-02-26 2008-03-04 Kang Jo Mgmt. Limited Liability Company Topic identification and use thereof in information retrieval systems
US20060004732A1 (en) * 2002-02-26 2006-01-05 Odom Paul S Search engine methods and systems for generating relevant search results and advertisements
US7392182B2 (en) * 2002-12-18 2008-06-24 Harman International Industries, Inc. Speech recognition system
KR100554442B1 (ko) * 2003-10-06 2006-02-22 주식회사 팬택앤큐리텔 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법
WO2005086908A2 (en) * 2004-03-09 2005-09-22 Ashwin Rao System and method for computer recognition and interpretation of arbitrary spoken-characters
US7299181B2 (en) * 2004-06-30 2007-11-20 Microsoft Corporation Homonym processing in the context of voice-activated command systems
US8036893B2 (en) 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
KR100718147B1 (ko) * 2005-02-01 2007-05-14 삼성전자주식회사 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법
US20070180384A1 (en) * 2005-02-23 2007-08-02 Demetrio Aiello Method for selecting a list item and information or entertainment system, especially for motor vehicles
US8700404B1 (en) 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US20070055520A1 (en) * 2005-08-31 2007-03-08 Microsoft Corporation Incorporation of speech engine training into interactive user tutorial
US9165039B2 (en) * 2005-11-29 2015-10-20 Kang Jo Mgmt, Limited Liability Company Methods and systems for providing personalized contextual search results
JP5088701B2 (ja) * 2006-05-31 2012-12-05 日本電気株式会社 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
US8346555B2 (en) 2006-08-22 2013-01-01 Nuance Communications, Inc. Automatic grammar tuning using statistical language model generation
US8374862B2 (en) * 2006-08-30 2013-02-12 Research In Motion Limited Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
US9830912B2 (en) 2006-11-30 2017-11-28 Ashwin P Rao Speak and touch auto correction interface
US20080133243A1 (en) * 2006-12-01 2008-06-05 Chin Chuan Lin Portable device using speech recognition for searching festivals and the method thereof
US7912707B2 (en) * 2006-12-19 2011-03-22 Microsoft Corporation Adapting a language model to accommodate inputs not found in a directory assistance listing
US9071729B2 (en) 2007-01-09 2015-06-30 Cox Communications, Inc. Providing user communication
US8433576B2 (en) * 2007-01-19 2013-04-30 Microsoft Corporation Automatic reading tutoring with parallel polarized language modeling
US8789102B2 (en) 2007-01-23 2014-07-22 Cox Communications, Inc. Providing a customized user interface
US7698263B2 (en) 2007-01-23 2010-04-13 Cox Communications, Inc. Providing a lateral search
US9135334B2 (en) 2007-01-23 2015-09-15 Cox Communications, Inc. Providing a social network
US8869191B2 (en) 2007-01-23 2014-10-21 Cox Communications, Inc. Providing a media guide including parental information
US8806532B2 (en) 2007-01-23 2014-08-12 Cox Communications, Inc. Providing a user interface
US8175248B2 (en) 2007-01-29 2012-05-08 Nuance Communications, Inc. Method and an apparatus to disambiguate requests
US8271003B1 (en) 2007-03-23 2012-09-18 Smith Micro Software, Inc Displaying visual representation of voice messages
US7925505B2 (en) * 2007-04-10 2011-04-12 Microsoft Corporation Adaptation of language models and context free grammar in speech recognition
US7912503B2 (en) * 2007-07-16 2011-03-22 Microsoft Corporation Smart interface system for mobile communications devices
US8165633B2 (en) * 2007-07-16 2012-04-24 Microsoft Corporation Passive interface and software configuration for portable devices
US8086441B1 (en) * 2007-07-27 2011-12-27 Sonicwall, Inc. Efficient string search
US8306822B2 (en) * 2007-09-11 2012-11-06 Microsoft Corporation Automatic reading tutoring using dynamically built language model
US8595004B2 (en) * 2007-12-18 2013-11-26 Nec Corporation Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
US8615388B2 (en) * 2008-03-28 2013-12-24 Microsoft Corporation Intra-language statistical machine translation
US9460708B2 (en) 2008-09-19 2016-10-04 Microsoft Technology Licensing, Llc Automated data cleanup by substitution of words of the same pronunciation and different spelling in speech recognition
US9922640B2 (en) 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
US8364487B2 (en) * 2008-10-21 2013-01-29 Microsoft Corporation Speech recognition system with display information
KR101537078B1 (ko) * 2008-11-05 2015-07-15 구글 인코포레이티드 사용자 정의 언어 모델들
US8973049B2 (en) * 2009-12-04 2015-03-03 Cox Communications, Inc. Content recommendations
US8832749B2 (en) 2010-02-12 2014-09-09 Cox Communications, Inc. Personalizing TV content
US9167302B2 (en) 2010-08-26 2015-10-20 Cox Communications, Inc. Playlist bookmarking
US8789117B2 (en) 2010-08-26 2014-07-22 Cox Communications, Inc. Content library
US8364013B2 (en) 2010-08-26 2013-01-29 Cox Communications, Inc. Content bookmarking
US8239366B2 (en) * 2010-09-08 2012-08-07 Nuance Communications, Inc. Method and apparatus for processing spoken search queries
US8838449B2 (en) * 2010-12-23 2014-09-16 Microsoft Corporation Word-dependent language model
US10658074B1 (en) 2011-04-11 2020-05-19 Zeus Data Solutions, Inc. Medical transcription with dynamic language models
US8676580B2 (en) * 2011-08-16 2014-03-18 International Business Machines Corporation Automatic speech and concept recognition
US9218339B2 (en) * 2011-11-29 2015-12-22 Educational Testing Service Computer-implemented systems and methods for content scoring of spoken responses
US9224383B2 (en) * 2012-03-29 2015-12-29 Educational Testing Service Unsupervised language model adaptation for automated speech scoring
US9128915B2 (en) * 2012-08-03 2015-09-08 Oracle International Corporation System and method for utilizing multiple encodings to identify similar language characters
US8977555B2 (en) 2012-12-20 2015-03-10 Amazon Technologies, Inc. Identification of utterance subjects
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9864741B2 (en) * 2014-09-23 2018-01-09 Prysm, Inc. Automated collective term and phrase index
KR102167719B1 (ko) * 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
EP3460791A4 (en) * 2016-05-16 2019-05-22 Sony Corporation INFORMATION PROCESSING DEVICE
CN107422872B (zh) * 2016-05-24 2021-11-30 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
US20180210872A1 (en) * 2017-01-23 2018-07-26 Microsoft Technology Licensing, Llc Input System Having a Communication Model
US10664656B2 (en) * 2018-06-20 2020-05-26 Vade Secure Inc. Methods, devices and systems for data augmentation to improve fraud detection

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
CN1120436C (zh) * 1997-09-19 2003-09-03 国际商业机器公司 用于识别孤立、非相关汉字的语音识别方法和系统
WO1999016051A1 (en) * 1997-09-24 1999-04-01 Lernout & Hauspie Speech Products N.V Apparatus and method for distinguishing similar-sounding utterances in speech recognition
JPH11167393A (ja) * 1997-12-04 1999-06-22 Hitachi Eng & Service Co Ltd 音声認識装置および音声認識装置用辞書
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
KR100749289B1 (ko) * 1998-11-30 2007-08-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 텍스트의 자동 세그멘테이션 방법 및 시스템
US6562078B1 (en) * 1999-06-29 2003-05-13 Microsoft Corporation Arrangement and method for inputting non-alphabetic language
US6321196B1 (en) * 1999-07-02 2001-11-20 International Business Machines Corporation Phonetic spelling for speech recognition
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
GB2353887B (en) * 1999-09-04 2003-09-24 Ibm Speech recognition system
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006503328A (ja) * 2002-10-16 2006-01-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ディレクトリアシスタント方法及び装置
JP2004355629A (ja) * 2003-05-29 2004-12-16 Microsoft Corp 高度対話型インターフェースに対する理解同期意味オブジェクト
US8301436B2 (en) 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
JP2009163109A (ja) * 2008-01-09 2009-07-23 Mitsubishi Electric Corp 言語モデル生成装置及び音声認識装置

Also Published As

Publication number Publication date
US20020128831A1 (en) 2002-09-12
US7251600B2 (en) 2007-07-31
US20050171761A1 (en) 2005-08-04
TW546631B (en) 2003-08-11
US6934683B2 (en) 2005-08-23

Similar Documents

Publication Publication Date Title
US6934683B2 (en) Disambiguation language model
JP4249538B2 (ja) 表意文字言語のマルチモーダル入力
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
US7590533B2 (en) New-word pronunciation learning using a pronunciation graph
JP5014785B2 (ja) 表音ベース音声認識システム及び方法
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US7124080B2 (en) Method and apparatus for adapting a class entity dictionary used with language models
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
US8868431B2 (en) Recognition dictionary creation device and voice recognition device
US8275621B2 (en) Determining text to speech pronunciation based on an utterance from a user
US7765102B2 (en) Generic spelling mnemonics
JP2008209717A (ja) 入力された音声を処理する装置、方法およびプログラム
US6449589B1 (en) Elimination of left recursion from context-free grammars
Menacer et al. An enhanced automatic speech recognition system for Arabic
Arısoy et al. A unified language model for large vocabulary continuous speech recognition of Turkish
JP2003186494A (ja) 音声認識装置および方法、記録媒体、並びにプログラム
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
WO2014035437A1 (en) Using character describer to efficiently input ambiguous characters for smart chinese speech dictation correction
Reddy et al. Incorporating knowledge of source language text in a system for dictation of document translations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050114

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070327

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070627

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070702

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070726

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070827

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080926