JP2001519043A

JP2001519043A - コンテキスト・フリー・グラマーを使用するテキスト正規化

Info

Publication number: JP2001519043A
Application number: JP54205298A
Authority: JP
Inventors: アレヴァ，フィレノ・エイ; ロザク，マイケル・ジェイ; イスラエル，ラリー・ジェイ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1997-04-03
Filing date: 1998-04-03
Publication date: 2001-10-16
Also published as: CN1285068C; US5970449A; DE69829389D1; EP1016074A1; WO1998044484A1; DE69829389T2; EP1016074B1; CN1255224A

Abstract

(57)【要約】テキスト正規化器（３８）は、音声認識器（３２）から出力されるテキストを正規化する。このテキストの正規化は、このテキストの受け取り手にとって扱いにくさが少なくしかもより馴染みのあるテキスト（５０）を発生する。テキスト（５０）は、オーディオ・コンテンツ(５８)、ビデオ・コンテンツ(５６)、またはオーディオ・コンテンツとビデオ・コンテンツの組合せを含むように正規化することができる。テキスト（５０）は、ハイパーテキスト・ドキュメント（６０）を発生するように正規化することもできる。テキスト正規化は、コンテキスト・フリー・グラマーを使用して実行する。このコンテキスト・フリー・グラマーは、どのようにテキストを正規化すべきかを指定するルールを含む。このフリー・グラマーは、テキストをパーズし正規化を容易にするのに使用するツリーとして組織することができる。コンテキスト・フリー・グラマーは、拡張可能であり、また容易に変更することもできる。

Description

【発明の詳細な説明】コンテキスト・フリー・グラマーを使用するテキスト正規化技術分野本発明は、一般的には、データ処理システムに関し、より特定すると、コンテキスト・フリー・グラマー（context-free grammar）を使用するテキスト正規化（text normalization）に関するものである。発明の背景音声認識器（speech recognizer）は、近年一般的になってきている。ある音声認識器は、代表的にはソフトウェアを備えていて、これがコンピュータ・システム上で走って話されたワードまたはフレーズを認識するようになっている。この音声認識器は、一般的には話された入力のその解釈に対応するテキストを出力する。例えば、話し手が、ワード“ドッグ(dog)”を話す場合、音声認識器は、その話されたワードを認識し、そしてテキスト“ドッグ”と出力する。残念ながら、音声認識器は、受け取り手には始末に困るかあるいは馴染みのないテキスト出力を発生することがよくあった。例えば、話し手がフレーズ“ワン・ハンドレッド・フォーティー・セブン(one hundred forty seven)”を話す場合、音声認識器は、数字のシーケンス“１４７”ではなく、“ワン・ハンドレッド・フォーティー・セブン(one hundred forty seven)”と出力する。これと同様のやっかいなテキスト出力は、日付、時間、金額、電話番号、住所、頭字語を指定する入力に対して、音声認識器が発生する。その結果、テキスト出力の受け取り手は、そのテキストを手で編集してより満足な形式にせざるを得ない。音声認識器がドキュメント作成ソフトウェアに組み込まれるにつれ、音声認識器が実質上満足なテキスト出力を発生できないことは、そのようなソフトウェアの有用性を減少させるものである。発明の摘要本発明は、テキストを正規化（normalize）するためのファシリティを提供することにより、従来技術の音声認識器の制限を克服することである。テキストの正規化は、受け取り手にとってより受け入れ可能な出力テキストを発生する。この正規化は、テキスト・コンテンツを、非テキストのコンテンツ、例えばオーディオ・コンテンツ、ビデオ・コンテンツ、あるいはさらにはハイパーテキスト・コンテンツに置換することも含む。本発明の第１の形態によれば、入力音声内のコンテンツを認識する音声認識エンジンを有するコンピュータ・システムにおいて方法を実施する。音声入力に対応するテキストは、前記コンピュータ・システムが前記音声認識エンジンから受ける。コンテキスト・フリー・グラマーを適用することにより、前記受けたテキストに対する代替コンテンツを識別する。前記受けたテキストは、前記代替コンテンツで置換する。本発明の別の形態によれば、テキストを正規化するためのコンテキスト・フリー・グラマーのルールを記載するため、ファイルをコンピュータ・システム内に提供する。テキストは、音声入力内の音声の部分を認識する音声認識器から受ける。前記テキストは、音声入力に対応する。前記テキストの少なくとも１部分は、正規化することにより、前記一部分を正規化した英数字ストリングで置換する (この文脈で使用する“英数字”は、ASCIIおよびUnicodeを含むよう意図している)。前記正規化は、前記コンテキスト・フリー・グラマーからのルールを適用して、正規化する前記テキストの前記部分を前記正規化した英数字ストリングで置換する。本発明の別の形態によれば、テキスト正規化器を含むアプリケーション・プログラム・インターフェース（API）をコンピュータ・システム内に提供する。前記コンピュータは、アプリケーション・プログラムを走らせ、また音声入力内の音声の部分を認識しそして前記認識した音声部分に対応するテキストを出力する音声認識器を含む。前記テキストは、コンテキスト・フリー・グラマーからのルールを適用することにより前記テキストのコンテンツを変更しそして正規化したテキストを発生することにより、前記テキスト正規化器が正規化する。前記正規化したテキストは、前記アプリケーション・プログラムに渡す。本発明のさらに別の形態によれば、コンピュータ・システムは、音声入力内の音声の各部分を認識しそして該認識した音声部分に対応するテキスト出力を発生する音声認識器を含む。前記コンピュータ・システムは、また、テキストを正規化するためのルールを含むコンテキスト・フリー・グラマーと、前記コンテキスト・フリー・グラマーからの少なくとも１つのルールを適用することにより前記音声認識器からのテキスト出力を正規化するテキスト正規化器（text normalize r）と、を含む。図面の簡単な説明本発明の好ましい実施形態について、以下の図面を参照して説明する。図１は、本発明の好ましい実施形態を実施するのに適当なコンピュータ・システムを示すブロック図。図２は、本発明の好ましい実施形態を実施するのに適当な分散型システムを示すブロック図。図３Ａ−図３Ｅは、音声認識器と、テキスト正規化器と、そして異なったタイプの正規化のためのアプリケーション・プログラムとの間のデータ・フローを示す。図４は、コンテキスト・フリーのグラマーを保有するテキスト・ファイルの論理的フォーマットを示す。図５は、図４のテキスト・ファイル内に記載したその他のルールのカテゴリを示す。図６は、テキストを正規化するためこのテキスト・ファイルを使用するのに実行する、ステップを示すフローチャート。図７は、コンテキスト・フリー・グラマーのツリーの例示の１部分を示す。図８は、いつコンテキスト・フリー・グラマーからあるルールを適用するかを決定するのに実行する、ステップを示すフローチャート。図９は、テキストの１部分の正規化の１例を示す。図１０は、アプリケーション・プログラムが正規化したテキストを受けるのに実行するステップを示すフローチャート。図１１は、１つのコンテキスト・フリー・グラマーを別のものと置き換えるのに実行するステップを示すフローチャート。図１２は、コンテキスト・フリー・グラマーを編集するのに実行するステップを示すフローチャート。発明の詳細な説明本発明の好ましい実施形態は、音声認識器から受けたテキストを正規化する機構を提供する。コンテキスト・フリー・グラマーは、このテキスト正規化を実行するのに適用する。コンテキスト・フリー・グラマーは、いかにテキストを正規化すべきかを指定する多くのルールを含んでいる。これらルールは、音声認識器から受けるテキスト出力に適用することにより正規化したテキストを発生する。本発明の好ましい実施形態においては、テキスト正規化は、アプリケーション・プログラム・インターフェース（ＡＰＩ）内で実行し、このプログラムは、アプリケーション・プログラムが音声入力に対応するテキストを受けるのに呼び出すことができる。本発明の好ましい実施形態は、多数のタイプのテキスト正規化を提供することができる。例えば、テキストを正規化して正規化したテキストを発生することができる。同様に、テキストを正規化して、異なったタイプの媒体コンテンツを発生することもできる。テキストを正規化してオーディオ・コンテンツおよびビデオ・コンテンツを発生することもできる。テキストを正規化して、そのテキストの代替のハイパーテキスト・コンテンツを発生することもできる。本発明の好ましい実施形態において利用するコンテキスト・フリー・グラマーは、拡張可能である。このコンテキスト・フリー・グラマーは、以下で詳細に説明するように、テキスト・ファイル内で指定する。このテキスト・ファイルは、別のコンテキスト・フリー・グラマーを指定する代替のテキスト・ファイルで置き換えることもできる。さらに、テキスト・ファイルは、コンテキスト・フリー・グラマーの内容を変更するために編集することもできる。コンテキスト・フリー・グラマーはテキスト・ファイル内で指定するため、コンテキスト・フリー・グラマーは人が読み取り可能である。図１は、本発明の好ましい実施形態を実施するのに適当なコンピュータ・システム１０を示す。コンピュータ・システム１０は、このコンピュータ・システムの動作を監督する中央処理ユニット（ＣＰＵ）１２を備えている。ＣＰＵ１２は、多くの異なったタイプのマイクロプロセッサの内の任意のもので実現することができる。このコンピュータ・システムはまた、多くの周辺デバイスも含むことができ、これには、キーボード１４，マウス１６，マイクロホン１８，ビデオ・ディスプレイ２０，およびラウド・スピーカ２２が含まれる。マイクロホン１８は、話し手から音声入力を受けるのに使用することができ、そしてラウド・スピーカ２２は、音声のようなオーディオ・コンテンツを出力するのに使用することができる。コンピュータ・システム１０はまた、このコンピュータ・システムをローカル・エリア・ネットワータ（ＬＡＮ）またはワイド・エリア・ネットワータ（ＷＡＮ）のようなネットワークとインターフェースするためのネットワーク・アダプタ２４を備えることができる。当業者には判るように、多くの異なったタイプのネットワーク・アダプタを本発明を実施するのに利用することができる。コンピュータ・システム１０はまた、このコンピュータ・システムがアナログ電話回線を介してリモートのコンピューティング資源と通信できるようにするためモデムを備えることもできる。コンピュータ・システム１０は、加えて、一次メモリ２８と二次メモリ３０とを備える。一次メモリは、ランダム・アクセス・メモリ（ＲＡＭ）あるいは当業者に知られたその他のタイプの内部メモリ記憶装置として実現することができる。二次メモリ３０は、ハードディスク・ドライブ、ＣＤ−ＲＯＭドライブあるいはその他のタイプの二次記憶デバイスの形態を取ることができる。一般には、二次メモリ３０は、ＣＤ−ＲＯＭのようなコンピュータ読み取り可能でリムーバブルの記憶媒体を格納する二次記憶デバイスとして実現することができる。一次メモリ２８は、音声認識器３２を構成するソフトウェアあるいはその他のコードを保有することができる。音声認識器は、音声認識エンジンの形態を取ることもでき、そしてこれは、辞書等の補助ファシリティを備えることもできる。適当な音声認識エンジンは、１９９６年５月１日出願で出願番号第08/655,273号の“Method And System For Speech Recognition Using Continuous Density Hi dden Markov Models”と題する同時係属中の出願に記述されており、これは、言及により本文に明示的に含まれるものとする。当業者には理解されるように、音声認識器３２の種々の部分は、二次メモリ３０に記憶させることもできる。一次メモリ２８は、音声アプリケーション・プログラム・インターフェース（ＡＰＩ）３４を保持し、これは、音声認識器３２と共に働いて、音声入力内の認識した音声に対応するテキスト出力を発生する。アプリケーション・プログラム３６は、音声ＡＰＩ３４を呼び出すことにより、音声入力の認識された部分に対応するテキスト出力を受けることができる。これらアプリケーション・プログラム３６には、ディクテーション・アプリケーション、ワード・プロセシング・プログラム、スプレッドシート・プログラム等が含まれる。音声ＡＰＩ３４は、テキスト正規化を実行するためのテキスト正規化器３８を含むことができる。テキスト正規化器３８は、音声認識器３２から音声ＡＰＩ３４が受けたテキストを正規化するのを担当する資源である。テキスト正規化器３８が実行する正規化のタイプは、以下に詳細に説明する。当業者には判るように、テキスト正規化器３８は、音声ＡＰＩ３４の一部分である必要はなく、別個のエンティティとして存在させたり、あるいは音声認識器３２内に組み込むこともできる。音声認識器は、コンテキスト・フリー・グラマー４０を使用し、これは、図１においては、二次記憶装置３０に格納したものとして示している。当業者には判るように、コンテキスト・フリー・グラマー４０は、一次メモリ２８に格納することもできる。理解されるべきであるが、図１が指示するコンピュータシステム・コンフィギュレーションは、単に例示であって本発明を限定するものではないことを意図したものである。本発明は、その他のコンピュータシステム・コンフィギュレーションで実施することもできる。これらその他のコンフィギュレーションは、図１に示したものよりも少ないコンポーネントを含んだり、あるいは図１に示したものと異なった追加のコンポーネントを含んだりすることができる。さらに、本発明は、シングルプロセッサのコンピュータ上で実施する必要はなく、マルチプロセッサおよび分散型システムを含むマルチプロセッサ環境で実施することもできる。図２は、コンピュータ・システム１０が、ネットワーク４４へのアクセスを有するクライアント・コンピュータである場合を示している。このネットワーク４４は、ＬＡＮまたはＷＡＮとすることができる。ネットワーク４４は、インターネット、イントラネット（Intranet）またはエクストラネット（Extranet）とすることができる。クライアント・コンピュータ１０は、ネットワーキング・サポート４２を含む。ネットワーキング・サポート４２は、ネットワーク・オペレーティング・システム、在来のオペレーティング・システム、またはウェブ・ブラウザのためのクライアント・コードを含むことができる。ネットワーキング・サポート４２は、クライアント・コンピュータ１０が、ネットワーク４４内のサーバ４６と通信できるようにする。サーバ４６は、クライアント・コンピュータ１０がテキストの正規化の際に使用するオーディオ・データ、ビデオ・データ、テキスト・データまたはハイパーテキスト・ドキュメントのような媒体コンテンツ４８を保有することができる。上記したように、テキスト正規化器３８は、音声認識器３２から受けたテキストを正規化することにより、正規化したコンテンツを発生する。図３Ａは、音声認識器３２と、テキスト正規化器３８と、アプリケーション・プログラム３６との間のデータのフローを示している。一般に、音声認識器３２はテキスト５０を発生し、これは、マイクロホン１８を介して受けたあるいは二次記憶装置３０に記憶された音声入力内の音声の認識した各部分に対応している。このテキスト５０は、一時に１ワードずつテキスト正規化器３８に出力することができる。しかし、当業者には理解されるように、音声認識器３２が発生するテキスト出力の粒状性（granularity）は、変化させることができ、文字またはフレーズを含ませることもできる。テキスト正規化器３８が発生する正規化したコンテンツ５２は、これがアプリケーション・プログラム３６に渡す。図３Ｂは、テキスト正規化器３８が正規化したテキスト５４を発生しそしてこれをアプリケーション・プログラム３６に渡す場合を示している。正規化したテキスト５４は、認識器３２が出力したテキスト５０に置き換わる代替テキストを含む。しかし、図３Ｃに示すように、テキスト正規化器３８は、代替的には、テキストを正規化することにより、ビットマップ、メタファイル、あるいはイメージのその他の表現のようなイメージ・データ５６を、アプリケーション・プログラム３６に対し発生するようにすることもできる。テキスト５０は、このイメージの表現の識別子を指定することができる。この場合、テキスト正規化器３８は、その識別子を、識別子が識別したそのイメージの実際の表現と置き換える。図３Ｄは、テキスト正規化器３８が音声認識器３２からのテキスト５０を受けそしてオーディオ・コンテンツ５８を正規化したコンテンツとして発生する場合を示している。この場合、テキスト５０は、オーディオ・クリップ、またはオーディオ・データを保有するファイルを識別することができる。この識別子は、正規化するときには、その関連したオーディオ・クリップと置き換える。代替的には、このテキストは、１つのワードまたは１つのフレーズであって、このワードまたはフレーズに対してテキスト正規化器３８がオーディオ表現を有しそしてそのワードまたはフレーズに対しそのオーディオ表現を代替することを希望しているようなワードまたはフレーズとすることができる。図３Ｅは、テキスト正規化器３８が音声認識器３２からテキスト５０を受けそしてハイパーテキスト・ドキュメント６０をアプリケーション・プログラム３６に出力する場合を示している。テキスト５０には、ハイパーテキスト・ドキュメント６０と関連したユニフォーム・リソース・ロケータ（ＵＲＬ）のような識別子を含ませることができる。テキスト正規化器３８が正規化のためテキスト５０を受けたとき、これは、そのテキストを、これに関連するハイパーテキスト・ドキュメント６０と置き換える。理解されるべきであるが、テキスト正規化器は、アプリケーション・プログラムに送るその結果生じた正規化したコンテンツ５２内の異なったタイプの媒体コンテンツを組み合わせることができる。また、理解されるべきであるが、テキスト正規化器３８は、ネットワーク４４内の媒体コンテンツまたは資源を利用して、その正規化を行うこともできる。簡単かつ明瞭にするため、以下の説明は、図３Ｂに示した場合（テキスト５０をテキスト正規化器３８が正規化して正規化したテキスト５４を発生する）に焦点を合わせることにする。上述したように、コンテキスト・フリー・グラマー４０は、テキスト・ファイルとして記憶する。このテキスト・ファイルは、コンテキスト・フリー・グラマーのルールの仕様を保持している。図４は、テキスト・ファイル６２の論理的組織を示している。テキスト・ファイル６２は、３つの主要なセクション６４，６６および６８に分割する。これらセクションの各々は、テキスト・ファイル６２内のヘッダまたはタグにより叙述（delineate）する(例えば、“[spacing]”， “[Capitalization]”…“[Rules]”)。第１のセクションは、スペーシング（sp acing）セクション６４であり、これは、スペーシングに関するコンテキスト・フリー・グラマーのルールを指定する。これらルールは、１つのテーブルとして実装する。このテーブル内のルールの１つの仕様の１例は、以下の通りである。このテーブルは、“左”列を含み、これは、左に現れる文字を指定し、“右”列は、その右に現れる文字を指定し、“代替(substitution)”列は、正しい文字に対する提案の代替を保持し、そして“スイッチ”列は、このルールが有効か否かを指定する。上記例における最初のルールは、もしピリオド（すなわち、左文字）の後にスペース（すなわち、右文字）が続く場合、２つのスペースを１つのスペースの代わりに代用する。スイッチ列は、“１”の値を保持しており、このため、これはこのルールが有効であることを示している。第２のルール（上記の例における第１のルールの直ぐ下で指定）は、ピリオドには単一のスペースが続くことを示している。しかし、このスイッチ列は、“!1”を保持しており、これは、このルールが有効でないことを示している。注意すべきであるが、プロパティ・シートのようなユーザ・インターフェースを設けることにより、ユーザが、これらスペーシング・ルールのどれを有効とするかどうかを選択できるようにする。このユーザ選択は、テーブル内のスイッチ・フィールドをセットするのに使用する。また、大文字化（capitalization）セクション６６も、スペーシング・セクション６４に対して設けたもののようなテーブルとして組織することができる。このセクション６６は、１つのセンテンスを終わらせるピリオドに続くワードの最初の文字は大文字にする、というような大文字化ルールを保持する。これらルールもまた、スイッチ可能として実装することにより、ユーザが大文字化ルールの選択を行えるようにすることができる。第３のセクションは、他ルール・セクション６８である。この他ルール・セクションは、大文字化またはスペーシングに関係しない多くの異なったルールの仕様を保持する。このセクションは、“Rules”ヘディングまたはタグにより叙述する。このようなルールの１例は、以下の通りである。 <Digitｓ>=[1+]<0.9> <0..9>=zero"0" <0..9>=one"1" ・・・・・・ <0..9>=nine"9" このルールは、書かれた（written）数字が、数字を含む１以上のワードを含むことがあることを示し、またこのルールは、書かれた数字ストリングに対する代替を指定する（すなわち、“ワン(one)”に対し“１”）図５は、本発明の好ましい実施形態にしたがい実装することができる他ルールのカテゴリを示している。グロッサリー・カテゴリ７０のルールは、テキストを代替のテキストで置換することを指定する。ユーザは、グロッサリーの一部分としてそのような代替をタイプ入力することにより、テキストをドキュメントに追加する速記方法を可能にすることができる。数カテゴリ７２は、書かれた形式のワード（すなわち、ワードのストリング）を数字のみからなる数字表現で代替することを指定するルールを含む。例えば、“ワン・ハンドレッド・フォーティー・セブン(one hundred forty seven)”は、このルール・カテゴリ７２内のルールを適用することにより、“１４７”で置き換える。日付カテゴリ７４は、いかにして話された形態の日付を正規化すべきかに関するルールを含む。例えば、出力テキスト“エイプリル・ファースト・ナインティーン・ナインティ・セブン(april first nineteen ninety seven)”を“４月１日，１９９７”に正規化する。通貨カテゴリ７６は、金額の使用を正規化するルールを保持する。例えば、フレーズ“テン・セント(ten cents)”を、このカテゴリ７６内のルールにより、 “１０ｃ”に正規化することができる。時間カテゴリ７８は、時間の仕様を正規化するのに使用するルールを保持する。例えば、テキスト“フォー・オクロック・イン・ジ・アフタヌーン(four o'cl ock in the afternoon)”は、このカテゴリ７８内のルールにより“4p.m.”に正規化することができる。分数カテゴリ８０は、分数を数学的形式に正規化する。したがって、テキスト “ワン・フォース(one-fourth)”は、このカテゴリ８０内のルールにより、“１／４”に正規化することができる。頭字語カテゴリ８２は、頭字語を指定するテキストを正規化する。例えば、テキスト“C.I.A.”は、カテゴリ８２内のルールにより、“C.l.A.”に正規化できる。住所カテゴリ８４は、住所の仕様を正規化するルールを含む。例えば、ストリング“ワン・ハンドレッド・フィフティー・シックスス(one hundred fifty six th)”は、このカテゴリ８４内のルールにより、“１５６ｔｈ”に正規化することができる。電話番号カテゴリ８６は、電話番号の仕様を正規化する。ユーザが電話番号を話したとき、音声認識器が、この電話番号を単なる数字のシーケンスとして解釈することができる。例えば、ストリング“ナイン・スリー・シックス・シックス・ゼロ・ゼロ・ゼロ(nine three six six three zero zero zero)”は、このカテゴリ８６内のルールにより“936-3000”に正規化することができる。シティ／ステート／郵便番号（city,state,zip code）カテゴリ８８は、どのようにしてシティ、ステート、郵便番号のシーケンスが現れるべきかを指定するためのルールを保持する。例えば、テキスト“シアトル、ワシントン、ナイン、エイト、ゼロ、ファイブ、ツー(Seattle Washington nine eight zero five two )”は、このカテゴリ８８内のルールにより、“シアトル、ＷＡ９８０５２(Seattle，WA 9 8052)”に正規化することができる。測定単位カテゴリ９０は、測定値の仕様に関するルールを適用する。例えば、テキスト“ナインティーン・フィート(nineteen feet)”は、このカテゴリ９０内のルールにより“１９ｆｔ.”に正規化する。当業者には理解されるように、テキスト・ファイル６２は、図４内に示したもの以外の異なったフォーマットを有するようにすることもできる。さらに、テキスト・ファイル６２には、テキストをオーディオ・コンテンツまたはビデオ・コンテンツで代替するためのルールを含めることができる。また、テキストをハイパーテキスト・ドキュメントで代替するためのルールも含めることができる。当業者には理解されるように、コンテキスト・フリー・グラマーは、本発明を実施する際にテキスト・ファイルとして指定する必要はない。さらに、当業者には理解されるように、図５に示したもの以外の追加のルール・カテゴリを利用することもできる。さらにまた、図５に示したものよりも少ないルール・カテゴリまたは図５に示したものと異なったルール・カテゴリを適用することもできる。コンテキスト・フリー・グラマー４０を利用するためには、テキスト・ファイル６２を読み取りかつ処理しなければならない。図６は、テキストを正規化する際にコンテキスト・フリー・グラマーを利用するのに実行するステップを示すフローチャートである。最初に、コンテキスト・フリー・グラマーを保有するテキスト・ファイル６２を読み取る(図６のステップ９２)。この中に保持されたコンテンツを使用することにより、コンテキスト・フリー・グラマーのツリー表現を構築する(図６のステップ９４)。このツリー表現は、音声認識器３２から受ける入力テキストをパーズする際に使用する。このツリーの各パスは、テキストを正規化するためのルールの一部分を指定する。したがって、音声認識器３２から受けたテキストをテキスト正規化器３８により処理することにより、このテキストをツリー内に含まれたルールと比較し、そして適当な正規化を実行する。したがって、テキストを音声認識器から受け(図６のステップ９６)、そしてこれを正規化する(図６のステップ９８)。このツリーは、主として、音声認識器３２から受けたテキストのどの部分を正規化すべきか、またこれら部分をどのように正規化すべきかを判断するためのパーズ機構として働く。図７は、テキスト・ファイルからルールを読み取ることにより構築したツリーの一部分の例を示している。このツリーは、最適化のため、二進形態で記憶することができる。このサブツリーは、テキスト・ファイル６２内に設けたルールの１例として上記した“数字”ルールの部分を指定する。ツリーは、開始ルール・ノード１００を含み、これに続いて数字ルール・ノード１０２がある。ノード１０４と１０６は、受けたテキストが“０”の場合にそのテキストを正規化して“ ０”と置換すべきことを指定する。同様に、ノード１０８，１１０，１１２および１１４は、“ワン(one)”に対し“１”そして“ナイン(nine)”に対し“９” の代替を示す。例は、図７に示したサブツリーをどのようにして使用することができるかを例示するのに有益である。ここで、テキスト正規化器３８がストリング“ゼロ(zer o)”を受けると仮定すると、テキスト正規化器は、開始ルール１００から始め、そして次に、ストリング“ゼロ”が１つの数字を指定していることを判定する。次に、ノード１０４へのパスを辿り、そしてこれらの間に一致があると判定する。テキスト正規化器は次に、ノード１０６で指定した代替または正規化したストリング“０”を使用して、その受けたストリングを正規化する。ルールは、ワード毎に適用することは必ずしも必要でない。代わりとして、本システムは、音声認識器３２から受けたテキスト内の最も長いストリングを正規化することになるルールを適用しようと努める。図８は、ルールを適用する際に実行するステップを示すフローチャートである。一般的には、少なくとも１つの完全なルールを識別したときには、１つのルールを適用し、１つのルールの更なる部分を適用することはできない。このため、図８のステップ１１６において、テキスト正規化器が、テキストの所与の部分の正規化を完了したかどうか判定する。テキスト正規化器が完了した場合(図８のステップ１１６参照)、テキスト正規化器は、非正規化のテキスト内の最長のストリングを正規化するルールを適用する(図８のステップ１２０)。ここで、注意すべきであるが、多数のルールが適用する場合があり、したがってどのルールを実際に利用すべきかを判定するための基準がなければならない場合がある。本発明の好ましい実施形態は、非正規化のストリングの最長部分を正規化するルールを利用する。しかし、ルールの更なる適用が行われるべきであると判定した場合(図８のステップ１１６参照)、それらルールの追加部分を適用する(図８のステップ１１８)。いつルールを適用ししかもどのようにして正規化を実行するかを示すため、例は有益である。図９は、テキスト・ストリング“ファイブ、チキンズ、アット、ツウェンティー、セント、イーチ(five chickens at twenty cents each)”の例を示している。これらワードは、テキスト正規化器３８が使用するテキスト・バッファ１２２内に記憶させる。第１のワード“ファイブ(five)”は、テキスト正規化器により処理して、一致するルールがあるか否か判定する。このワードに対しては、数字ルール１２６内に一致がある。このルールを適用する前に、テキスト正規化器３８は、次のワード“チキンズ(chickens)”を見るが、フレーズ“ファイブ、チキンズ(five chickens)”に適用されるルールがないため、テキスト正規化器３８は、完了（図８のステップ１１６）であると了解し、そして数字ルールを適用して、“ファイブ(five)”を“５”に置換する。この値“５”は、正規化したテキスト出力を保持する処理済みバッファ１２４に格納する。本システムは、“チキンズ(chickens)”に対するルールをもっておらず、したがってこのワードを処理済みバッファ１２４に対し渡さない。同様に、テキスト正規化器３８は、ワード“アット(at)”に対するルールをもっておらず、このためワード“アット(at)”を処理済みバッファ１２４に渡すことになる。しかし、テキスト正規化器３８が“ツウェンティー(twenty)”に出会うと、これは、適用するルールをもっている(数ルール１２８)。このルールを実際に使用する前に、テキスト正規化器３８は、次のワード“セント(cents)”を見て、フレーズ“ツウェンティー、セント(twenty cents)”を正規化するルールがないことを判定する。その結果、数ルール１２８を適用して、“ツウェンティー(twenty)”を“２０ｃ”と置き換える。続いて、通貨ルール１３０を適用して、“セント(cents) ”を“ｃ”と置換する。最後に、ワード“イーチ(each)”を正規化せず、文字通りの形式で処理済みバッファ１２４に渡す。上述したように、テキスト正規化器３８は、音声ＡＰＩ３４内で使用する。図１０は、いかにしてテキスト正規化器をこのコンテキストで使用するかのステップを示すフローチャートである。最初に、アプリケーション・プログラム３６が音声ＡＰＩ３４を呼び出して、入力音声のテキスト解釈を受ける(図１０のステップ１３２)。音声認識器は、この音声入力を処理することにより、テキスト出力を発生する(図１０のステップ１３４)。次に、テキスト正規化器３８は、このテキストを上記したように正規化する(図１０のステップ１３８)。音声ＡＰＩ３４は、正規化したコンテンツを、これを要求しているアプリケーション・プログラム３６に送る(図１０のステップ１３８)。本発明の好ましい実施形態は、融通性がありかつ拡張可能という利点を有している。コンテキスト・フリー・グラマーは、コンテンツを変化させたり追加したり、あるいはまた完全に新たなコンテキスト・フリー・グラマーを指定することができる、という点で拡張可能である。図１１は、コンテキスト・フリー・グラマーを新たなコンテキスト・フリー・グラマーと置換するのに実行するステップを示すフローチャートである。既存のコンテキスト・フリー・グラマーは、新たなテキスト・ファイルを提供することにより置換することができる。新たなテキスト・ファイルは、その新たなコンテキスト・フリー・グラマーのための仕様を保有する。コンピュータ・システム１０は、このとき、その新テキスト・ファイルをそのコンテキスト・フリー・グラマーを求めて読み出す(図１１のステップ１４０)。このテキスト・ファイル内の情報を利用することにより、この新コンテキスト・フリー・グラマーのための新たなツリーを構築する(図１１のステップ１４２)。次に、この新ツリーは、テキストを正規化するのに使用する(図11のステップ１４４)。このテキスト・ファイルは、その全体を、ユーザがコンテキスト・フリー・グラマーの変更を希望する度に置き換える必要はない。テキスト・ファイルは、単に編集するようにすることができる。図１２は、コンテキスト・フリー・グラマーをこの様式で変更するのに実行するステップを示すフローチャートである。最初は、コンテキスト・フリー・グラマーは、編集されたファイルをチェックする (図１２のステップ１４６)。ツリーは、編集されたテキスト・ファイルからコンテンツを読み出すことにより、それに応じて修正し、ツリーを一致する様式に変更する(図１２のステップ１４８)。次に、この修正したツリーは、正規化テキストに利用することができる(図１２のステップ１５０)。以上、本発明について好ましい実施形態を参照して説明したが、当業者には判るように、添付の請求の範囲に定めた本発明の意図する範囲から逸脱せずに、形態および細部において種々の変更を行うことができる。例えば、テキスト正規化は、概して、テキスト・コンテンツを多くの異なったタイプの媒体の内の任意のものと置換するために適用することができる。さらに、テキスト正規化器は、音声ＡＰＩの一部分またはシステムに提供された資源の一部分とする必要はない。

───────────────────────────────────────────────────── フロントページの続き (72)発明者イスラエル，ラリー・ジェイアメリカ合衆国ワシントン州98006，ベルビュー，サマーセット・ドライブ・サウス・イースト 4718

Claims

【特許請求の範囲】１．入力音声内のコンテンツを認識する音声認識エンジンを有するコンピュータ・システムにおいて、前記音声認識エンジンからの音声入力に対応するテキストを受けるステップと、コンテキスト・フリー・グラマーを適用して、前記受けたテキストに対する代替コンテンツを識別するステップと、前記テキストを前記代替コンテンツで置換するステップと、のコンピュータ実施ステップから成る方法。２．請求項１記載の方法において、前記代替コンテンツは、英数字ストリングを含むこと、を特徴とする方法。３．請求項１記載の方法において、前記代替コンテンツはグラフィカル・コンテンツを含むこと、を特徴とする方法。４．請求項１記載の方法において、前記受けたテキストは、分散型システムにおける媒体コンテンツの識別子であり、前記代替コンテンツは媒体コンテンツであること、を特徴とする方法。５．請求項４記載の方法において、前記受けたテキストは、ユニフォーム・リソース・ロケータ（ＵＲＬ）であること、を特徴とする方法。６．請求項５記載の方法において、前記代替コンテンツは、ハイパーテキスト・ドキュメントであること、を特徴とする方法。７．請求項１記載の方法において、前記代替コンテンツは、ハイパーテキスト・ドキュメントであること、を特徴とする方法。８．請求項１記載の方法において、前記代替コンテンツは、オーディオ・コンテンツであること、を特徴とする方法。９．請求項１記載の方法において、前記コンテキスト・フリー・グラマーは、前記受けたテキストに対し前記代替コンテンツを置換するための少なくとも１つのルールを含むこと、を特徴とする方法。１０．請求項１記載の方法において、前記コンピュータ・システムは、アプリケーション・プログラムを走らせ、また前記代替コンテンツは、前記アプリケーション・プログラムに送ること、を特徴とする方法。１１．請求項１記載の方法において、前記受けたテキストは、ワードのストリングであり、前記代替コンテンツは、前記ワードのストリングの少なくともある部分に対応する一連の数字を含むこと、を特徴とする方法。１２．請求項１記載の方法において、前記受けたテキストは、住所を指定するワードのストリングであり、前記代替コンテンツは、前記住所の少なくとも一部分を指定する一連の数字を含むこと、を特徴とする方法。１３．請求項１記載の方法において、前記受けたテキストは通貨の額を識別するワードのストリングであり、前記代替コンテンツは、前記通貨額を指定する数字および通貨記号を含むこと、を特徴とする方法。１４．請求項１記載の方法において、前記受けたテキストは分数を指定するストリングであり、前記代替コンテンツは、前記分数を合わさって指定する数字および数学的演算を含むこと、を特徴とする方法。１５．音声入力内の音声の部分を認識する音声認識器を有するコンピュータ・システムにおいて、テキストを正規化するためのコンテキスト・フリー・グラマーのルールを記載したファイルを提供するステップと、前記音声認識器からテキストを受けるステップであって、前記テキストが音声入力に対応する、前記のステップと、前記テキストの少なくとも１部分を正規化することにより、前記テキストの前記一部分を正規化した英数字ストリングで置換するステップであって、前記正規化は、前記コンテキスト・フリー・グラマーからのルールを適用して、正規化する前記テキストの前記部分を前記正規化した英数字ストリングで置換する、前記のステップと、のコンピュータ実施ステップから成る方法。１６．請求項１５記載の方法であって、さらに、前記ファイルを、異なったコンテキスト・フリー・グラマーのルールを記載する代替ファイルで置換するステップと、前記異なったコンテキスト・フリー・グラマーを使用して新たなテキストを正規化するステップと、を含むこと、を特徴とする方法。１７．請求項１５記載の方法であって、さらに、前記ファイルを使用して、前記正規化において使用する前記コンテキスト・フリー・グラマーのためのツリーを構築するステップ、を含むことを特徴とする方法。１８．請求項１５記載の方法において、前記ファイルはテキスト・ファイルであること、を特徴とする方法。１９．請求項１５記載の方法において、前記ファイルは、大文字化に関するルールを含むこと、を特徴とする方法。２０．請求項１５記載の方法において、前記ファイルは、スペーシングに関するルールを含むこと、を特徴とする方法。２１．請求項１５記載の方法において、前記ファイルは、ルールを前記コンテキスト・フリー・グラマーの一部分として使用すべきか否かを識別するスイッチの仕様を含むこと、を特徴とする方法。２２．請求項１５記載の方法であって、さらに、前記コンテキスト・フリー・グラマーを変更するために前記ファイルのコンテンツを変更するステップ、を含むことを特徴とする方法。２３．請求項１５記載の方法であって、さらに、追加のテキストを受けるステップと、前記コンテキスト・フリー・グラマーからの別のルールを適用することにより前記追加テキストを非テキストのコンテンツで置換することにより該追加テキストを正規化するステップと、を含むこと、を特徴とする方法。２４．請求項２３記載の方法において、前記非テキストのコンテンツは、イメージ・データを含むこと、を特徴とする方法。２５．請求項２２記載の方法において、前記非テキストのコンテンツは、オーディオ・データを含むこと、を特徴とする方法。２６．アプリケーション・プログラムと、音声入力内の音声の部分を認識しそして前記認識した音声部分に対応するテキストを出力する音声認識器と、を有するコンピュータ・システムにおいて、テキスト正規化器を含むアプリケーション・プログラム・インターフェース（ API）を提供するステップと、前記音声認識器からのテキストを前記テキスト正規化器で受けるステップと、コンテキスト・フリー・グラマーからのルールを適用することにより前記テキストからのルールを適用することにより前記テキストを正規化して、前記テキストのコンテンツを変更しそして正規化したテキストを発生するステップと、前記正規化したテキストを前記アプリケーション・プログラムに渡すステップと、のコンピュータ実施ステップから成る方法。２７．請求項２６記載の方法において、前記ＡＰＩは、音声ＡＰＩであって、認識した音声入力に対応するテキスト出力を前記アプリケーション・プログラムに提供する音声ＡＰＩであること、を特徴とする方法。２８．請求項２６記載の方法において、前記アプリケーション・プログラムは、前記ＡＰＩからのテキストを要求して、前記正規化したテキストを前記アプリケーション・プログラムへ渡すことをプロンプトすること、を特徴とする方法。２９．コンピュータ・システムであって、音声入力内の音声の部分を認識しそして該認識した音声部分に対応するテキスト出力を発生する音声認識器と、テキストを正規化するためのルールを含むコンテキスト・フリー・グラマーと、前記音声認識器からのテキスト出力に少なくとも１つのルールを適用して正規化するテキスト正規化器と、から成るコンピュータ・システム。３０．請求項２９記載のコンピュータ・システムにおいて、前記テキスト正規化器はアプリケーション・プログラム・インターフェース（ＡＰＩ）の一部分であること、を特徴とするコンピュータ・システム。３１．請求項３０記載のコンピュータ・システムにおいて、前記テキスト正規化器はアプリケーション・プログラム・インターフェース（ＡＰＩ）の一部分であること、を特徴とするコンピュータ・システム。３２．入力音声内のコンテンツを認識するための音声認識エンジンを有するシステムにおいて、前記音声認識エンジンからの音声入力に対応するテキストを受けるステップと、コンテキスト・フリー・グラマーを適用して、前記受けたテキストに対する代替コンテンツを識別するステップと、前記テキストを前記代替コンテンツで置換するステップと、のコンピュータ実施ステップから成る方法を実行するコンピュータ読み取り可能命令を保有するコンピュータ読み取り可能媒体。３３．請求項３２記載のコンピュータ読み取り可能媒体において、前記代替コンテンツは、英数字ストリングを含むこと、を特徴とするコンピュータ読み取り可能媒体。３４．請求項３２記載のコンピュータ読み取り可能媒体において、前記代替コンテンツはグラフィカル・コンテンツを含むこと、を特徴とするコンピュータ読み取り可能媒体。３５．請求項３２記載のコンピュータ読み取り可能媒体において、前記受けたテキストは、分散型システムにおける媒体コンテンツの識別子であり、前記代替コンテンツは媒体コンテンツであること、を特徴とするコンピュータ読み取り可能媒体。３６．請求項３５記載のコンピュータ読み取り可能媒体において、前記受けたテキストは、ユニフォーム・リソース・ロケータ（ＵＲＬ）であること、を特徴とするコンピュータ読み取り可能媒体。３７．請求項３６記載のコンピュータ読み取り可能媒体において、前記代替コンテンツは、ハイパーテキスト・ドキュメントであること、を特徴とするコンピュータ読み取り可能媒体。３８．請求項３２記載のコンピュータ読み取り可能媒体において、前記代替コンテンツは、ハイパーテキスト・ドキュメントであること、を特徴とするコンピュータ読み取り可能媒体。３９．請求項３２記載のコンピュータ読み取り可能媒体において、前記代替コンテンツは、オーディオ・コンテンツであること、を特徴とするコンピュータ読み取り可能媒体。４０．請求項３２記載のコンピュータ読み取り可能媒体において、前記受けたテキストは、ワードのストリングであり、前記代替コンテンツは、前記ワードのストリングの少なくともある部分に対応する一連の数字を含むこと、を特徴とするコンピュータ読み取り可能媒体。４１．請求項３２記載のコンピュータ読み取り可能媒体において、前記受けたテキストは、住所を指定するワードのストリングであり、前記代替コンテンツは、前記住所の少なくとも一部分を指定する一連の数字を含むこと、を特徴とするコンピュータ読み取り可能媒体。４２．請求項３２記載のコンピュータ読み取り可能媒体において、前記受けたテキストは通貨の額を識別するワードのストリングであり、前記代替コンテンツは、前記通貨額を指定する数字および通貨記号を含むこと、を特徴とするコンピュータ読み取り可能媒体。４３．請求項３２記載のコンピュータ読み取り可能媒体において、前記受けたテキストは分数を指定するストリングであり、前記代替コンテンツは、前記分数を合わさって指定する数字および数学的演算を含むこと、を特徴とするコンピュータ読み取り可能媒体。４４．音声入力内の音声の部分を認識する音声認識器を有するコンピュータ・システムにおいて、テキストを正規化するためのコンテキスト・フリー・グラマーのルールを記載したファイルを提供するステップと、前記音声認識器からテキストを受けるステップであって、前記テキストが音声入力に対応する、前記のステップと、前記テキストの少なくとも１部分を正規化することにより、前記テキストの前記一部分を正規化した英数字ストリングで置換するステップであって、前記正規化は、前記コンテキスト・フリー・グラマーからのルールを適用して、正規化する前記テキストの前記部分を前記正規化した英数字ストリングで置換する、前記のステップと、のコンピュータ実施ステップから成る方法を実行するコンピュータ読み取り可能命令を保有するコンピュータ読み取り可能媒体。４５．請求項４４記載のコンピュータ読み取り可能媒体であって、前記方法が、さらに、前記ファイルを、異なったコンテキスト・フリー・グラマーのルールを記載する代替ファイルで置換するステップと、前記異なったコンテキスト・フリー・グラマーを使用して新たなテキストを正規化するステップと、を含むこと、を特徴とするコンピュータ読み取り可能媒体。４６．請求項４４記載のコンピュータ読み取り可能媒体において、前記ファイルはテキスト・ファイルであること、を特徴とするコンピュータ読み取り可能媒体。４７．請求項４４記載のコンピュータ読み取り可能媒体において、前記ファイルは、ルールを前記コンテキスト・フリー・グラマーの一部分として使用すべきか否かを識別するスイッチの仕様を含むこと、を特徴とするコンピュータ読み取り可能媒体。４８．請求項４４記載のコンピュータ読み取り可能媒体であって、前記方法が、さらに、前記コンテキスト・フリー・グラマーを変更するために前記ファイルのコンテンツを変更するステップ、を含むことを特徴とするコンピュータ読み取り可能媒体。４９．アプリケーション・プログラムと、音声入力内の音声の部分を認識しそして前記認識した音声部分に対応するテキストを出力する音声認識器と、を有するコンピュータ・システムにおいて、テキスト正規化器を含むアプリケーション・プログラム・インターフェース（ API）を提供するステップと、前記音声認識器からのテキストを前記テキスト正規化器で受けるステップと、コンテキスト・フリー・グラマーからのルールを適用することにより前記テキストからのルールを適用することにより前記テキストを正規化して、前記テキストのコンテンツを変更しそして正規化したテキストを発生するステップと、前記正規化したテキストを前記アプリケーション・プログラムに渡すステップと、のコンピュータ実施ステップから成る方法を実行するコンピュータ読み取り可能命令を保有するコンピュータ読み取り可能媒体。５０．請求項４９記載のコンピュータ読み取り可能媒体において、前記ＡＰＩは、音声ＡＰＩであって、認識した音声入力に対応するテキスト出力を前記アプリケーション・プログラムに提供する音声ＡＰＩであること、を特徴とするコンピュータ読み取り可能媒体。５１．請求項４９記載のコンピュータ読み取り可能媒体において、前記アプリケーション・プログラムは、前記ＡＰＩからのテキストを要求して、前記正規化したテキストを前記アプリケーション・プログラムヘ渡すことをプロンプトすること、を特徴とするコンピュータ読み取り可能媒体。