JP2001519043A - コンテキスト・フリー・グラマーを使用するテキスト正規化 - Google Patents

コンテキスト・フリー・グラマーを使用するテキスト正規化

Info

Publication number
JP2001519043A
JP2001519043A JP54205298A JP54205298A JP2001519043A JP 2001519043 A JP2001519043 A JP 2001519043A JP 54205298 A JP54205298 A JP 54205298A JP 54205298 A JP54205298 A JP 54205298A JP 2001519043 A JP2001519043 A JP 2001519043A
Authority
JP
Japan
Prior art keywords
text
content
computer
context
readable medium
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP54205298A
Other languages
English (en)
Inventor
アレヴァ,フィレノ・エイ
ロザク,マイケル・ジェイ
イスラエル,ラリー・ジェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2001519043A publication Critical patent/JP2001519043A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 テキスト正規化器(38)は、音声認識器(32)から出力されるテキストを正規化する。このテキストの正規化は、このテキストの受け取り手にとって扱いにくさが少なくしかもより馴染みのあるテキスト(50)を発生する。テキスト(50)は、オーディオ・コンテンツ(58)、ビデオ・コンテンツ(56)、またはオーディオ・コンテンツとビデオ・コンテンツの組合せを含むように正規化することができる。テキスト(50)は、ハイパーテキスト・ドキュメント(60)を発生するように正規化することもできる。テキスト正規化は、コンテキスト・フリー・グラマーを使用して実行する。このコンテキスト・フリー・グラマーは、どのようにテキストを正規化すべきかを指定するルールを含む。このフリー・グラマーは、テキストをパーズし正規化を容易にするのに使用するツリーとして組織することができる。コンテキスト・フリー・グラマーは、拡張可能であり、また容易に変更することもできる。

Description

【発明の詳細な説明】 コンテキスト・フリー・グラマー を使用するテキスト正規化技術分野 本発明は、一般的には、データ処理システムに関し、より特定すると、コンテ キスト・フリー・グラマー(context-free grammar)を使用するテキスト正規化 (text normalization)に関するものである。発明の背景 音声認識器(speech recognizer)は、近年一般的になってきている。ある音 声認識器は、代表的にはソフトウェアを備えていて、これがコンピュータ・シス テム上で走って話されたワードまたはフレーズを認識するようになっている。こ の音声認識器は、一般的には話された入力のその解釈に対応するテキストを出力 する。例えば、話し手が、ワード“ドッグ(dog)”を話す場合、音声認識器は、 その話されたワードを認識し、そしてテキスト“ドッグ”と出力する。 残念ながら、音声認識器は、受け取り手には始末に困るかあるいは馴染みのな いテキスト出力を発生することがよくあった。例えば、話し手がフレーズ“ワン ・ハンドレッド・フォーティー・セブン(one hundred forty seven)”を話す場 合、音声認識器は、数字のシーケンス“147”ではなく、“ワン・ハンドレッ ド・フォーティー・セブン(one hundred forty seven)”と出力する。これと同 様のやっかいなテキスト出力は、日付、時間、金額、電話番号、住所、頭字語を 指定する入力に対して、音声認識器が発生する。その結果、テキスト出力の受け 取り手は、そのテキストを手で編集してより満足な形式にせざるを得ない。音声 認識器がドキュメント作成ソフトウェアに組み込まれるにつれ、音声認識器が実 質上満足なテキスト出力を発生できないことは、そのようなソフトウェアの有用 性を減少させるものである。発明の摘要 本発明は、テキストを正規化(normalize)するためのファシリティを提供す ることにより、従来技術の音声認識器の制限を克服することである。テキストの 正規化は、受け取り手にとってより受け入れ可能な出力テキストを発生する。こ の正規化は、テキスト・コンテンツを、非テキストのコンテンツ、例えばオーデ ィオ・コンテンツ、ビデオ・コンテンツ、あるいはさらにはハイパーテキスト・ コンテンツに置換することも含む。 本発明の第1の形態によれば、入力音声内のコンテンツを認識する音声認識エ ンジンを有するコンピュータ・システムにおいて方法を実施する。音声入力に対 応するテキストは、前記コンピュータ・システムが前記音声認識エンジンから受 ける。コンテキスト・フリー・グラマーを適用することにより、前記受けたテキ ストに対する代替コンテンツを識別する。前記受けたテキストは、前記代替コン テンツで置換する。 本発明の別の形態によれば、テキストを正規化するためのコンテキスト・フリ ー・グラマーのルールを記載するため、ファイルをコンピュータ・システム内に 提供する。テキストは、音声入力内の音声の部分を認識する音声認識器から受け る。前記テキストは、音声入力に対応する。前記テキストの少なくとも1部分は 、正規化することにより、前記一部分を正規化した英数字ストリングで置換する (この文脈で使用する“英数字”は、ASCIIおよびUnicodeを含むよう意図してい る)。前記正規化は、前記コンテキスト・フリー・グラマーからのルールを適用 して、正規化する前記テキストの前記部分を前記正規化した英数字ストリングで 置換する。 本発明の別の形態によれば、テキスト正規化器を含むアプリケーション・プロ グラム・インターフェース(API)をコンピュータ・システム内に提供する。前 記コンピュータは、アプリケーション・プログラムを走らせ、また音声入力内の 音声の部分を認識しそして前記認識した音声部分に対応するテキストを出力する 音声認識器を含む。前記テキストは、コンテキスト・フリー・グラマーからのル ールを適用することにより前記テキストのコンテンツを変更しそして正規化した テキストを発生することにより、前記テキスト正規化器が正規化する。前記正規 化したテキストは、前記アプリケーション・プログラムに渡す。 本発明のさらに別の形態によれば、コンピュータ・システムは、音声入力内の 音声の各部分を認識しそして該認識した音声部分に対応するテキスト出力を発生 する音声認識器を含む。前記コンピュータ・システムは、また、テキストを正規 化するためのルールを含むコンテキスト・フリー・グラマーと、前記コンテキス ト・フリー・グラマーからの少なくとも1つのルールを適用することにより前記 音声認識器からのテキスト出力を正規化するテキスト正規化器(text normalize r)と、を含む。図面の簡単な説明 本発明の好ましい実施形態について、以下の図面を参照して説明する。 図1は、本発明の好ましい実施形態を実施するのに適当なコンピュータ・シス テムを示すブロック図。 図2は、本発明の好ましい実施形態を実施するのに適当な分散型システムを示 すブロック図。 図3A−図3Eは、音声認識器と、テキスト正規化器と、そして異なったタイ プの正規化のためのアプリケーション・プログラムとの間のデータ・フローを示 す。 図4は、コンテキスト・フリーのグラマーを保有するテキスト・ファイルの論 理的フォーマットを示す。 図5は、図4のテキスト・ファイル内に記載したその他のルールのカテゴリを 示す。 図6は、テキストを正規化するためこのテキスト・ファイルを使用するのに実 行する、ステップを示すフローチャート。 図7は、コンテキスト・フリー・グラマーのツリーの例示の1部分を示す。 図8は、いつコンテキスト・フリー・グラマーからあるルールを適用するかを 決定するのに実行する、ステップを示すフローチャート。 図9は、テキストの1部分の正規化の1例を示す。 図10は、アプリケーション・プログラムが正規化したテキストを受けるのに 実行するステップを示すフローチャート。 図11は、1つのコンテキスト・フリー・グラマーを別のものと置き換えるの に実行するステップを示すフローチャート。 図12は、コンテキスト・フリー・グラマーを編集するのに実行するステップ を示すフローチャート。発明の詳細な説明 本発明の好ましい実施形態は、音声認識器から受けたテキストを正規化する機 構を提供する。コンテキスト・フリー・グラマーは、このテキスト正規化を実行 するのに適用する。コンテキスト・フリー・グラマーは、いかにテキストを正規 化すべきかを指定する多くのルールを含んでいる。これらルールは、音声認識器 から受けるテキスト出力に適用することにより正規化したテキストを発生する。 本発明の好ましい実施形態においては、テキスト正規化は、アプリケーション・ プログラム・インターフェース(API)内で実行し、このプログラムは、アプ リケーション・プログラムが音声入力に対応するテキストを受けるのに呼び出す ことができる。 本発明の好ましい実施形態は、多数のタイプのテキスト正規化を提供すること ができる。例えば、テキストを正規化して正規化したテキストを発生することが できる。同様に、テキストを正規化して、異なったタイプの媒体コンテンツを発 生することもできる。テキストを正規化してオーディオ・コンテンツおよびビデ オ・コンテンツを発生することもできる。テキストを正規化して、そのテキスト の代替のハイパーテキスト・コンテンツを発生することもできる。 本発明の好ましい実施形態において利用するコンテキスト・フリー・グラマー は、拡張可能である。このコンテキスト・フリー・グラマーは、以下で詳細に説 明するように、テキスト・ファイル内で指定する。このテキスト・ファイルは、 別のコンテキスト・フリー・グラマーを指定する代替のテキスト・ファイルで置 き換えることもできる。さらに、テキスト・ファイルは、コンテキスト・フリー ・グラマーの内容を変更するために編集することもできる。コンテキスト・フリ ー・グラマーはテキスト・ファイル内で指定するため、コンテキスト・フリー・ グラ マーは人が読み取り可能である。 図1は、本発明の好ましい実施形態を実施するのに適当なコンピュータ・シス テム10を示す。コンピュータ・システム10は、このコンピュータ・システム の動作を監督する中央処理ユニット(CPU)12を備えている。CPU12は 、多くの異なったタイプのマイクロプロセッサの内の任意のもので実現すること ができる。このコンピュータ・システムはまた、多くの周辺デバイスも含むこと ができ、これには、キーボード14,マウス16,マイクロホン18,ビデオ・ ディスプレイ20,およびラウド・スピーカ22が含まれる。マイクロホン18 は、話し手から音声入力を受けるのに使用することができ、そしてラウド・スピ ーカ22は、音声のようなオーディオ・コンテンツを出力するのに使用すること ができる。コンピュータ・システム10はまた、このコンピュータ・システムを ローカル・エリア・ネットワータ(LAN)またはワイド・エリア・ネットワー タ(WAN)のようなネットワークとインターフェースするためのネットワーク ・アダプタ24を備えることができる。当業者には判るように、多くの異なった タイプのネットワーク・アダプタを本発明を実施するのに利用することができる 。コンピュータ・システム10はまた、このコンピュータ・システムがアナログ 電話回線を介してリモートのコンピューティング資源と通信できるようにするた めモデムを備えることもできる。 コンピュータ・システム10は、加えて、一次メモリ28と二次メモリ30と を備える。一次メモリは、ランダム・アクセス・メモリ(RAM)あるいは当業 者に知られたその他のタイプの内部メモリ記憶装置として実現することができる 。二次メモリ30は、ハードディスク・ドライブ、CD−ROMドライブあるい はその他のタイプの二次記憶デバイスの形態を取ることができる。一般には、二 次メモリ30は、CD−ROMのようなコンピュータ読み取り可能でリムーバブ ルの記憶媒体を格納する二次記憶デバイスとして実現することができる。 一次メモリ28は、音声認識器32を構成するソフトウェアあるいはその他の コードを保有することができる。音声認識器は、音声認識エンジンの形態を取る こともでき、そしてこれは、辞書等の補助ファシリティを備えることもできる。 適当な音声認識エンジンは、1996年5月1日出願で出願番号第08/655,273号 の“Method And System For Speech Recognition Using Continuous Density Hi dden Markov Models”と題する同時係属中の出願に記述されており、これは、言 及により本文に明示的に含まれるものとする。当業者には理解されるように、音 声認識器32の種々の部分は、二次メモリ30に記憶させることもできる。一次 メモリ28は、音声アプリケーション・プログラム・インターフェース(API )34を保持し、これは、音声認識器32と共に働いて、音声入力内の認識した 音声に対応するテキスト出力を発生する。アプリケーション・プログラム36は 、音声API34を呼び出すことにより、音声入力の認識された部分に対応する テキスト出力を受けることができる。これらアプリケーション・プログラム36 には、ディクテーション・アプリケーション、ワード・プロセシング・プログラ ム、スプレッドシート・プログラム等が含まれる。音声API34は、テキスト 正規化を実行するためのテキスト正規化器38を含むことができる。テキスト正 規化器38は、音声認識器32から音声API34が受けたテキストを正規化す るのを担当する資源である。テキスト正規化器38が実行する正規化のタイプは 、以下に詳細に説明する。 当業者には判るように、テキスト正規化器38は、音声API34の一部分で ある必要はなく、別個のエンティティとして存在させたり、あるいは音声認識器 32内に組み込むこともできる。音声認識器は、コンテキスト・フリー・グラマ ー40を使用し、これは、図1においては、二次記憶装置30に格納したものと して示している。当業者には判るように、コンテキスト・フリー・グラマー40 は、一次メモリ28に格納することもできる。 理解されるべきであるが、図1が指示するコンピュータシステム・コンフィギ ュレーションは、単に例示であって本発明を限定するものではないことを意図し たものである。本発明は、その他のコンピュータシステム・コンフィギュレーシ ョンで実施することもできる。これらその他のコンフィギュレーションは、図1 に示したものよりも少ないコンポーネントを含んだり、あるいは図1に示したも のと異なった追加のコンポーネントを含んだりすることができる。さらに、本発 明は、シングルプロセッサのコンピュータ上で実施する必要はなく、マルチプロ セッサおよび分散型システムを含むマルチプロセッサ環境で実施することもでき る。 図2は、コンピュータ・システム10が、ネットワーク44へのアクセスを有 するクライアント・コンピュータである場合を示している。このネットワーク4 4は、LANまたはWANとすることができる。ネットワーク44は、インター ネット、イントラネット(Intranet)またはエクストラネット(Extranet)とす ることができる。クライアント・コンピュータ10は、ネットワーキング・サポ ート42を含む。ネットワーキング・サポート42は、ネットワーク・オペレー ティング・システム、在来のオペレーティング・システム、またはウェブ・ブラ ウザのためのクライアント・コードを含むことができる。ネットワーキング・サ ポート42は、クライアント・コンピュータ10が、ネットワーク44内のサー バ46と通信できるようにする。サーバ46は、クライアント・コンピュータ1 0がテキストの正規化の際に使用するオーディオ・データ、ビデオ・データ、テ キスト・データまたはハイパーテキスト・ドキュメントのような媒体コンテンツ 48を保有することができる。 上記したように、テキスト正規化器38は、音声認識器32から受けたテキス トを正規化することにより、正規化したコンテンツを発生する。図3Aは、音声 認識器32と、テキスト正規化器38と、アプリケーション・プログラム36と の間のデータのフローを示している。一般に、音声認識器32はテキスト50を 発生し、これは、マイクロホン18を介して受けたあるいは二次記憶装置30に 記憶された音声入力内の音声の認識した各部分に対応している。このテキスト5 0は、一時に1ワードずつテキスト正規化器38に出力することができる。しか し、当業者には理解されるように、音声認識器32が発生するテキスト出力の粒 状性(granularity)は、変化させることができ、文字またはフレーズを含ませ ることもできる。テキスト正規化器38が発生する正規化したコンテンツ52は 、これがアプリケーション・プログラム36に渡す。 図3Bは、テキスト正規化器38が正規化したテキスト54を発生しそしてこ れをアプリケーション・プログラム36に渡す場合を示している。正規化したテ キスト54は、認識器32が出力したテキスト50に置き換わる代替テキストを 含む。しかし、図3Cに示すように、テキスト正規化器38は、代替的には、テ キストを正規化することにより、ビットマップ、メタファイル、あるいはイメー ジのその他の表現のようなイメージ・データ56を、アプリケーション・プログ ラム36に対し発生するようにすることもできる。テキスト50は、このイメー ジの表現の識別子を指定することができる。この場合、テキスト正規化器38は 、その識別子を、識別子が識別したそのイメージの実際の表現と置き換える。 図3Dは、テキスト正規化器38が音声認識器32からのテキスト50を受け そしてオーディオ・コンテンツ58を正規化したコンテンツとして発生する場合 を示している。この場合、テキスト50は、オーディオ・クリップ、またはオー ディオ・データを保有するファイルを識別することができる。この識別子は、正 規化するときには、その関連したオーディオ・クリップと置き換える。代替的に は、このテキストは、1つのワードまたは1つのフレーズであって、このワード またはフレーズに対してテキスト正規化器38がオーディオ表現を有しそしてそ のワードまたはフレーズに対しそのオーディオ表現を代替することを希望してい るようなワードまたはフレーズとすることができる。 図3Eは、テキスト正規化器38が音声認識器32からテキスト50を受けそ してハイパーテキスト・ドキュメント60をアプリケーション・プログラム36 に出力する場合を示している。テキスト50には、ハイパーテキスト・ドキュメ ント60と関連したユニフォーム・リソース・ロケータ(URL)のような識別 子を含ませることができる。テキスト正規化器38が正規化のためテキスト50 を受けたとき、これは、そのテキストを、これに関連するハイパーテキスト・ド キュメント60と置き換える。 理解されるべきであるが、テキスト正規化器は、アプリケーション・プログラ ムに送るその結果生じた正規化したコンテンツ52内の異なったタイプの媒体コ ンテンツを組み合わせることができる。また、理解されるべきであるが、テキス ト正規化器38は、ネットワーク44内の媒体コンテンツまたは資源を利用して 、その正規化を行うこともできる。簡単かつ明瞭にするため、以下の説明は、図 3Bに示した場合(テキスト50をテキスト正規化器38が正規化して正規化し たテキスト54を発生する)に焦点を合わせることにする。 上述したように、コンテキスト・フリー・グラマー40は、テキスト・ファイ ルとして記憶する。このテキスト・ファイルは、コンテキスト・フリー・グラマ ーのルールの仕様を保持している。図4は、テキスト・ファイル62の論理的組 織を示している。テキスト・ファイル62は、3つの主要なセクション64,6 6および68に分割する。これらセクションの各々は、テキスト・ファイル62 内のヘッダまたはタグにより叙述(delineate)する(例えば、“[spacing]”, “[Capitalization]”…“[Rules]”)。第1のセクションは、スペーシング(sp acing)セクション64であり、これは、スペーシングに関するコンテキスト・ フリー・グラマーのルールを指定する。これらルールは、1つのテーブルとして 実装する。このテーブル内のルールの1つの仕様の1例は、以下の通りである。 このテーブルは、“左”列を含み、これは、左に現れる文字を指定し、“右”列 は、その右に現れる文字を指定し、“代替(substitution)”列は、正しい文字に 対する提案の代替を保持し、そして“スイッチ”列は、このルールが有効か否か を指定する。上記例における最初のルールは、もしピリオド(すなわち、左文字 )の後にスペース(すなわち、右文字)が続く場合、2つのスペースを1つのス ペースの代わりに代用する。スイッチ列は、“1”の値を保持しており、このた め、これはこのルールが有効であることを示している。第2のルール(上記の例 における第1のルールの直ぐ下で指定)は、ピリオドには単一のスペースが続く ことを示している。しかし、このスイッチ列は、“!1”を保持しており、これは 、このルールが有効でないことを示している。 注意すべきであるが、プロパティ・シートのようなユーザ・インターフェース を設けることにより、ユーザが、これらスペーシング・ルールのどれを有効とす るかどうかを選択できるようにする。このユーザ選択は、テーブル内のスイッチ ・フィールドをセットするのに使用する。 また、大文字化(capitalization)セクション66も、スペーシング・セクシ ョン64に対して設けたもののようなテーブルとして組織することができる。こ のセ クション66は、1つのセンテンスを終わらせるピリオドに続くワードの最初の 文字は大文字にする、というような大文字化ルールを保持する。これらルールも また、スイッチ可能として実装することにより、ユーザが大文字化ルールの選択 を行えるようにすることができる。 第3のセクションは、他ルール・セクション68である。この他ルール・セク ションは、大文字化またはスペーシングに関係しない多くの異なったルールの仕 様を保持する。このセクションは、“Rules”ヘディングまたはタグにより叙述 する。このようなルールの1例は、以下の通りである。 <Digits>=[1+]<0.9> <0..9>=zero"0" <0..9>=one"1" ・ ・ ・ ・ ・ ・ <0..9>=nine"9" このルールは、書かれた(written)数字が、数字を含む1以上のワードを含む ことがあることを示し、またこのルールは、書かれた数字ストリングに対する代 替を指定する(すなわち、“ワン(one)”に対し“1”) 図5は、本発明の好ましい実施形態にしたがい実装することができる他ルール のカテゴリを示している。グロッサリー・カテゴリ70のルールは、テキストを 代替のテキストで置換することを指定する。ユーザは、グロッサリーの一部分と してそのような代替をタイプ入力することにより、テキストをドキュメントに追 加する速記方法を可能にすることができる。数カテゴリ72は、書かれた形式の ワード(すなわち、ワードのストリング)を数字のみからなる数字表現で代替す ることを指定するルールを含む。例えば、“ワン・ハンドレッド・フォーティー ・セブン(one hundred forty seven)”は、このルール・カテゴリ72内のルー ルを適用することにより、“147”で置き換える。 日付カテゴリ74は、いかにして話された形態の日付を正規化すべきかに関す るルールを含む。例えば、出力テキスト“エイプリル・ファースト・ナインティ ーン・ナインティ・セブン(april first nineteen ninety seven)”を“4月1 日,1997”に正規化する。 通貨カテゴリ76は、金額の使用を正規化するルールを保持する。例えば、フ レーズ“テン・セント(ten cents)”を、このカテゴリ76内のルールにより、 “10c”に正規化することができる。 時間カテゴリ78は、時間の仕様を正規化するのに使用するルールを保持する 。例えば、テキスト“フォー・オクロック・イン・ジ・アフタヌーン(four o'cl ock in the afternoon)”は、このカテゴリ78内のルールにより“4p.m.”に正 規化することができる。 分数カテゴリ80は、分数を数学的形式に正規化する。したがって、テキスト “ワン・フォース(one-fourth)”は、このカテゴリ80内のルールにより、“1 /4”に正規化することができる。 頭字語カテゴリ82は、頭字語を指定するテキストを正規化する。例えば、テ キスト“C.I.A.”は、カテゴリ82内のルールにより、“C.l.A.”に正規化でき る。 住所カテゴリ84は、住所の仕様を正規化するルールを含む。例えば、ストリ ング“ワン・ハンドレッド・フィフティー・シックスス(one hundred fifty six th)”は、このカテゴリ84内のルールにより、“156th”に正規化するこ とができる。 電話番号カテゴリ86は、電話番号の仕様を正規化する。ユーザが電話番号を 話したとき、音声認識器が、この電話番号を単なる数字のシーケンスとして解釈 することができる。例えば、ストリング“ナイン・スリー・シックス・シックス ・ゼロ・ゼロ・ゼロ(nine three six six three zero zero zero)”は、このカ テゴリ86内のルールにより“936-3000”に正規化することができる。 シティ/ステート/郵便番号(city,state,zip code)カテゴリ88は、どの ようにしてシティ、ステート、郵便番号のシーケンスが現れるべきかを指定する ためのルールを保持する。例えば、テキスト“シアトル、ワシントン、ナイン、 エイト、ゼロ、ファイブ、ツー(Seattle Washington nine eight zero five two )”は、この カテゴリ88内のルールにより、“シアトル、WA 98052(Seattle,WA 9 8052)”に正規化することができる。 測定単位カテゴリ90は、測定値の仕様に関するルールを適用する。例えば、 テキスト“ナインティーン・フィート(nineteen feet)”は、このカテゴリ90 内のルールにより“19ft.”に正規化する。 当業者には理解されるように、テキスト・ファイル62は、図4内に示したも の以外の異なったフォーマットを有するようにすることもできる。さらに、テキ スト・ファイル62には、テキストをオーディオ・コンテンツまたはビデオ・コ ンテンツで代替するためのルールを含めることができる。また、テキストをハイ パーテキスト・ドキュメントで代替するためのルールも含めることができる。当 業者には理解されるように、コンテキスト・フリー・グラマーは、本発明を実施 する際にテキスト・ファイルとして指定する必要はない。 さらに、当業者には理解されるように、図5に示したもの以外の追加のルール ・カテゴリを利用することもできる。さらにまた、図5に示したものよりも少な いルール・カテゴリまたは図5に示したものと異なったルール・カテゴリを適用 することもできる。 コンテキスト・フリー・グラマー40を利用するためには、テキスト・ファイ ル62を読み取りかつ処理しなければならない。図6は、テキストを正規化する 際にコンテキスト・フリー・グラマーを利用するのに実行するステップを示すフ ローチャートである。最初に、コンテキスト・フリー・グラマーを保有するテキ スト・ファイル62を読み取る(図6のステップ92)。この中に保持されたコン テンツを使用することにより、コンテキスト・フリー・グラマーのツリー表現を 構築する(図6のステップ94)。このツリー表現は、音声認識器32から受ける 入力テキストをパーズする際に使用する。このツリーの各パスは、テキストを正 規化するためのルールの一部分を指定する。したがって、音声認識器32から受 けたテキストをテキスト正規化器38により処理することにより、このテキスト をツリー内に含まれたルールと比較し、そして適当な正規化を実行する。したが って、テキストを音声認識器から受け(図6のステップ96)、そしてこれを正規 化する(図6のステップ98)。このツリーは、主として、音声認識器32から受 けたテキストのどの部分を正規化すべきか、またこれら部分をどのように正規化 すべきかを判断するためのパーズ機構として働く。 図7は、テキスト・ファイルからルールを読み取ることにより構築したツリー の一部分の例を示している。このツリーは、最適化のため、二進形態で記憶する ことができる。このサブツリーは、テキスト・ファイル62内に設けたルールの 1例として上記した“数字”ルールの部分を指定する。ツリーは、開始ルール・ ノード100を含み、これに続いて数字ルール・ノード102がある。ノード1 04と106は、受けたテキストが“0”の場合にそのテキストを正規化して“ 0”と置換すべきことを指定する。同様に、ノード108,110,112およ び114は、“ワン(one)”に対し“1”そして“ナイン(nine)”に対し“9” の代替を示す。 例は、図7に示したサブツリーをどのようにして使用することができるかを例 示するのに有益である。ここで、テキスト正規化器38がストリング“ゼロ(zer o)”を受けると仮定すると、テキスト正規化器は、開始ルール100から始め、 そして次に、ストリング“ゼロ”が1つの数字を指定していることを判定する。 次に、ノード104へのパスを辿り、そしてこれらの間に一致があると判定する 。テキスト正規化器は次に、ノード106で指定した代替または正規化したスト リング“0”を使用して、その受けたストリングを正規化する。 ルールは、ワード毎に適用することは必ずしも必要でない。代わりとして、本 システムは、音声認識器32から受けたテキスト内の最も長いストリングを正規 化することになるルールを適用しようと努める。図8は、ルールを適用する際に 実行するステップを示すフローチャートである。一般的には、少なくとも1つの 完全なルールを識別したときには、1つのルールを適用し、1つのルールの更な る部分を適用することはできない。このため、図8のステップ116において、 テキスト正規化器が、テキストの所与の部分の正規化を完了したかどうか判定す る。テキスト正規化器が完了した場合(図8のステップ116参照)、テキスト正 規化器は、非正規化のテキスト内の最長のストリングを正規化するルールを適用 する(図8のステップ120)。ここで、注意すべきであるが、多数のルールが適 用する場合があり、したがってどのルールを実際に利用すべきかを判定するため の基準がなければならない場合がある。本発明の好ましい実施形態は、非正規化 のストリングの最長部分を正規化するルールを利用する。しかし、ルールの更な る適用が行われるべきであると判定した場合(図8のステップ116参照)、それ らルールの追加部分を適用する(図8のステップ118)。 いつルールを適用ししかもどのようにして正規化を実行するかを示すため、例 は有益である。図9は、テキスト・ストリング“ファイブ、チキンズ、アット、 ツウェンティー、セント、イーチ(five chickens at twenty cents each)”の例 を示している。これらワードは、テキスト正規化器38が使用するテキスト・バ ッファ122内に記憶させる。第1のワード“ファイブ(five)”は、テキスト正 規化器により処理して、一致するルールがあるか否か判定する。このワードに対 しては、数字ルール126内に一致がある。このルールを適用する前に、テキス ト正規化器38は、次のワード“チキンズ(chickens)”を見るが、フレーズ“フ ァイブ、チキンズ(five chickens)”に適用されるルールがないため、テキスト 正規化器38は、完了(図8のステップ116)であると了解し、そして数字ル ールを適用して、“ファイブ(five)”を“5”に置換する。この値“5”は、正 規化したテキスト出力を保持する処理済みバッファ124に格納する。 本システムは、“チキンズ(chickens)”に対するルールをもっておらず、した がってこのワードを処理済みバッファ124に対し渡さない。同様に、テキスト 正規化器38は、ワード“アット(at)”に対するルールをもっておらず、このた めワード“アット(at)”を処理済みバッファ124に渡すことになる。しかし、 テキスト正規化器38が“ツウェンティー(twenty)”に出会うと、これは、適用 するルールをもっている(数ルール128)。このルールを実際に使用する前に、 テキスト正規化器38は、次のワード“セント(cents)”を見て、フレーズ“ツ ウェンティー、セント(twenty cents)”を正規化するルールがないことを判定す る。その結果、数ルール128を適用して、“ツウェンティー(twenty)”を“2 0c”と置き換える。続いて、通貨ルール130を適用して、“セント(cents) ”を“c”と置換する。最後に、ワード“イーチ(each)”を正規化せず、文字通 りの形式で処理済みバッファ124に渡す。 上述したように、テキスト正規化器38は、音声API34内で使用する。図 10は、いかにしてテキスト正規化器をこのコンテキストで使用するかのステッ プを示すフローチャートである。最初に、アプリケーション・プログラム36が 音声API34を呼び出して、入力音声のテキスト解釈を受ける(図10のステ ップ132)。音声認識器は、この音声入力を処理することにより、テキスト出 力を発生する(図10のステップ134)。次に、テキスト正規化器38は、この テキストを上記したように正規化する(図10のステップ138)。音声API3 4は、正規化したコンテンツを、これを要求しているアプリケーション・プログ ラム36に送る(図10のステップ138)。 本発明の好ましい実施形態は、融通性がありかつ拡張可能という利点を有して いる。コンテキスト・フリー・グラマーは、コンテンツを変化させたり追加した り、あるいはまた完全に新たなコンテキスト・フリー・グラマーを指定すること ができる、という点で拡張可能である。図11は、コンテキスト・フリー・グラ マーを新たなコンテキスト・フリー・グラマーと置換するのに実行するステップ を示すフローチャートである。既存のコンテキスト・フリー・グラマーは、新た なテキスト・ファイルを提供することにより置換することができる。新たなテキ スト・ファイルは、その新たなコンテキスト・フリー・グラマーのための仕様を 保有する。コンピュータ・システム10は、このとき、その新テキスト・ファイ ルをそのコンテキスト・フリー・グラマーを求めて読み出す(図11のステップ 140)。このテキスト・ファイル内の情報を利用することにより、この新コン テキスト・フリー・グラマーのための新たなツリーを構築する(図11のステッ プ142)。次に、この新ツリーは、テキストを正規化するのに使用する(図11の ステップ144)。 このテキスト・ファイルは、その全体を、ユーザがコンテキスト・フリー・グ ラマーの変更を希望する度に置き換える必要はない。テキスト・ファイルは、単 に編集するようにすることができる。図12は、コンテキスト・フリー・グラマ ーをこの様式で変更するのに実行するステップを示すフローチャートである。最 初は、コンテキスト・フリー・グラマーは、編集されたファイルをチェックする (図12のステップ146)。ツリーは、編集されたテキスト・ファイルからコン テンツを読み出すことにより、それに応じて修正し、ツリーを一致する様式に変 更する(図12のステップ148)。次に、この修正したツリーは、正規化テキス トに利用することができる(図12のステップ150)。 以上、本発明について好ましい実施形態を参照して説明したが、当業者には判 るように、添付の請求の範囲に定めた本発明の意図する範囲から逸脱せずに、形 態および細部において種々の変更を行うことができる。例えば、テキスト正規化 は、概して、テキスト・コンテンツを多くの異なったタイプの媒体の内の任意の ものと置換するために適用することができる。さらに、テキスト正規化器は、音 声APIの一部分またはシステムに提供された資源の一部分とする必要はない。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 イスラエル,ラリー・ジェイ アメリカ合衆国ワシントン州98006,ベル ビュー,サマーセット・ドライブ・サウ ス・イースト 4718

Claims (1)

  1. 【特許請求の範囲】 1. 入力音声内のコンテンツを認識する音声認識エンジンを有するコンピュー タ・システムにおいて、 前記音声認識エンジンからの音声入力に対応するテキストを受けるステップと 、 コンテキスト・フリー・グラマーを適用して、前記受けたテキストに対する代 替コンテンツを識別するステップと、 前記テキストを前記代替コンテンツで置換するステップと、 のコンピュータ実施ステップから成る方法。 2. 請求項1記載の方法において、前記代替コンテンツは、英数字ストリング を含むこと、を特徴とする方法。 3. 請求項1記載の方法において、前記代替コンテンツはグラフィカル・コン テンツを含むこと、を特徴とする方法。 4. 請求項1記載の方法において、前記受けたテキストは、分散型システムに おける媒体コンテンツの識別子であり、前記代替コンテンツは媒体コンテンツで あること、を特徴とする方法。 5. 請求項4記載の方法において、前記受けたテキストは、ユニフォーム・リ ソース・ロケータ(URL)であること、を特徴とする方法。 6. 請求項5記載の方法において、前記代替コンテンツは、ハイパーテキスト ・ドキュメントであること、を特徴とする方法。 7. 請求項1記載の方法において、前記代替コンテンツは、ハイパーテキスト ・ドキュメントであること、を特徴とする方法。 8. 請求項1記載の方法において、前記代替コンテンツは、オーディオ・コン テンツであること、を特徴とする方法。 9. 請求項1記載の方法において、前記コンテキスト・フリー・グラマーは、 前記受けたテキストに対し前記代替コンテンツを置換するための少なくとも1つ のルールを含むこと、を特徴とする方法。 10. 請求項1記載の方法において、前記コンピュータ・システムは、アプリ ケーション・プログラムを走らせ、また前記代替コンテンツは、前記アプリケー ション・プログラムに送ること、を特徴とする方法。 11. 請求項1記載の方法において、前記受けたテキストは、ワードのストリ ングであり、前記代替コンテンツは、前記ワードのストリングの少なくともある 部分に対応する一連の数字を含むこと、を特徴とする方法。 12. 請求項1記載の方法において、前記受けたテキストは、住所を指定する ワードのストリングであり、前記代替コンテンツは、前記住所の少なくとも一部 分を指定する一連の数字を含むこと、を特徴とする方法。 13. 請求項1記載の方法において、前記受けたテキストは通貨の額を識別す るワードのストリングであり、前記代替コンテンツは、前記通貨額を指定する数 字および通貨記号を含むこと、を特徴とする方法。 14. 請求項1記載の方法において、前記受けたテキストは分数を指定するス トリングであり、前記代替コンテンツは、前記分数を合わさって指定する数字お よび数学的演算を含むこと、を特徴とする方法。 15. 音声入力内の音声の部分を認識する音声認識器を有するコンピュータ・ システムにおいて、 テキストを正規化するためのコンテキスト・フリー・グラマーのルールを記載 したファイルを提供するステップと、 前記音声認識器からテキストを受けるステップであって、前記テキストが音声 入力に対応する、前記のステップと、 前記テキストの少なくとも1部分を正規化することにより、前記テキストの前 記一部分を正規化した英数字ストリングで置換するステップであって、前記正規 化は、前記コンテキスト・フリー・グラマーからのルールを適用して、正規化す る前記テキストの前記部分を前記正規化した英数字ストリングで置換する、前記 のステップと、 のコンピュータ実施ステップから成る方法。 16. 請求項15記載の方法であって、さらに、前記ファイルを、異なったコ ンテキスト・フリー・グラマーのルールを記載する代替ファイルで置換するステ ップと、前記異なったコンテキスト・フリー・グラマーを使用して新たなテキス トを正規化するステップと、を含むこと、を特徴とする方法。 17. 請求項15記載の方法であって、さらに、前記ファイルを使用して、前 記正規化において使用する前記コンテキスト・フリー・グラマーのためのツリー を構築するステップ、を含むことを特徴とする方法。 18. 請求項15記載の方法において、前記ファイルはテキスト・ファイルで あること、を特徴とする方法。 19. 請求項15記載の方法において、前記ファイルは、大文字化に関するル ールを含むこと、を特徴とする方法。 20. 請求項15記載の方法において、前記ファイルは、スペーシングに関す るルールを含むこと、を特徴とする方法。 21. 請求項15記載の方法において、前記ファイルは、ルールを前記コンテ キスト・フリー・グラマーの一部分として使用すべきか否かを識別するスイッチ の仕様を含むこと、を特徴とする方法。 22. 請求項15記載の方法であって、さらに、前記コンテキスト・フリー・ グラマーを変更するために前記ファイルのコンテンツを変更するステップ、を含 むことを特徴とする方法。 23. 請求項15記載の方法であって、さらに、追加のテキストを受けるステ ップと、前記コンテキスト・フリー・グラマーからの別のルールを適用すること により前記追加テキストを非テキストのコンテンツで置換することにより該追加 テキストを正規化するステップと、を含むこと、を特徴とする方法。 24. 請求項23記載の方法において、前記非テキストのコンテンツは、イメ ージ・データを含むこと、を特徴とする方法。 25. 請求項22記載の方法において、前記非テキストのコンテンツは、オー ディオ・データを含むこと、を特徴とする方法。 26. アプリケーション・プログラムと、音声入力内の音声の部分を認識しそ して前記認識した音声部分に対応するテキストを出力する音声認識器と、を有す るコンピュータ・システムにおいて、 テキスト正規化器を含むアプリケーション・プログラム・インターフェース( API)を提供するステップと、 前記音声認識器からのテキストを前記テキスト正規化器で受けるステップと、 コンテキスト・フリー・グラマーからのルールを適用することにより前記テキ ストからのルールを適用することにより前記テキストを正規化して、前記テキス トのコンテンツを変更しそして正規化したテキストを発生するステップと、 前記正規化したテキストを前記アプリケーション・プログラムに渡すステップ と、 のコンピュータ実施ステップから成る方法。 27. 請求項26記載の方法において、前記APIは、音声APIであって、 認識した音声入力に対応するテキスト出力を前記アプリケーション・プログラム に提供する音声APIであること、を特徴とする方法。 28. 請求項26記載の方法において、前記アプリケーション・プログラムは 、前記APIからのテキストを要求して、前記正規化したテキストを前記アプリ ケーション・プログラムへ渡すことをプロンプトすること、を特徴とする方法。 29. コンピュータ・システムであって、 音声入力内の音声の部分を認識しそして該認識した音声部分に対応するテキス ト出力を発生する音声認識器と、 テキストを正規化するためのルールを含むコンテキスト・フリー・グラマーと 、 前記音声認識器からのテキスト出力に少なくとも1つのルールを適用して正規 化するテキスト正規化器と、 から成るコンピュータ・システム。 30. 請求項29記載のコンピュータ・システムにおいて、前記テキスト正規 化器はアプリケーション・プログラム・インターフェース(API)の一部分で あること、を特徴とするコンピュータ・システム。 31. 請求項30記載のコンピュータ・システムにおいて、前記テキスト正規 化器はアプリケーション・プログラム・インターフェース(API)の一部分で あること、を特徴とするコンピュータ・システム。 32. 入力音声内のコンテンツを認識するための音声認識エンジンを有するシ ステムにおいて、 前記音声認識エンジンからの音声入力に対応するテキストを受けるステップと 、 コンテキスト・フリー・グラマーを適用して、前記受けたテキストに対する代 替コンテンツを識別するステップと、 前記テキストを前記代替コンテンツで置換するステップと、 のコンピュータ実施ステップから成る方法を実行するコンピュータ読み取り可能 命令を保有するコンピュータ読み取り可能媒体。 33. 請求項32記載のコンピュータ読み取り可能媒体において、前記代替コ ンテンツは、英数字ストリングを含むこと、を特徴とするコンピュータ読み取り 可能媒体。 34. 請求項32記載のコンピュータ読み取り可能媒体において、前記代替コ ンテンツはグラフィカル・コンテンツを含むこと、を特徴とするコンピュータ読 み取り可能媒体。 35. 請求項32記載のコンピュータ読み取り可能媒体において、前記受けた テキストは、分散型システムにおける媒体コンテンツの識別子であり、前記代替 コンテンツは媒体コンテンツであること、を特徴とするコンピュータ読み取り可 能媒体。 36. 請求項35記載のコンピュータ読み取り可能媒体において、前記受けた テキストは、ユニフォーム・リソース・ロケータ(URL)であること、を特徴 とするコンピュータ読み取り可能媒体。 37. 請求項36記載のコンピュータ読み取り可能媒体において、前記代替コ ンテンツは、ハイパーテキスト・ドキュメントであること、を特徴とするコンピ ュータ読み取り可能媒体。 38. 請求項32記載のコンピュータ読み取り可能媒体において、前記代替コ ンテンツは、ハイパーテキスト・ドキュメントであること、を特徴とするコンピ ュータ読み取り可能媒体。 39. 請求項32記載のコンピュータ読み取り可能媒体において、前記代替コ ンテンツは、オーディオ・コンテンツであること、を特徴とするコンピュータ読 み取り可能媒体。 40. 請求項32記載のコンピュータ読み取り可能媒体において、前記受けた テキストは、ワードのストリングであり、前記代替コンテンツは、前記ワードの ストリングの少なくともある部分に対応する一連の数字を含むこと、を特徴とす るコンピュータ読み取り可能媒体。 41. 請求項32記載のコンピュータ読み取り可能媒体において、前記受けた テキストは、住所を指定するワードのストリングであり、前記代替コンテンツは 、前記住所の少なくとも一部分を指定する一連の数字を含むこと、を特徴とする コンピュータ読み取り可能媒体。 42. 請求項32記載のコンピュータ読み取り可能媒体において、前記受けた テキストは通貨の額を識別するワードのストリングであり、前記代替コンテンツ は、前記通貨額を指定する数字および通貨記号を含むこと、を特徴とするコンピ ュータ読み取り可能媒体。 43. 請求項32記載のコンピュータ読み取り可能媒体において、前記受けた テキストは分数を指定するストリングであり、前記代替コンテンツは、前記分数 を合わさって指定する数字および数学的演算を含むこと、を特徴とするコンピュ ータ読み取り可能媒体。 44. 音声入力内の音声の部分を認識する音声認識器を有するコンピュータ・ システムにおいて、 テキストを正規化するためのコンテキスト・フリー・グラマーのルールを記載 したファイルを提供するステップと、 前記音声認識器からテキストを受けるステップであって、前記テキストが音声 入力に対応する、前記のステップと、 前記テキストの少なくとも1部分を正規化することにより、前記テキストの前 記一部分を正規化した英数字ストリングで置換するステップであって、前記正規 化は、前記コンテキスト・フリー・グラマーからのルールを適用して、正規化す る前記テキストの前記部分を前記正規化した英数字ストリングで置換する、前記 のステップと、 のコンピュータ実施ステップから成る方法を実行するコンピュータ読み取り可能 命令を保有するコンピュータ読み取り可能媒体。 45. 請求項44記載のコンピュータ読み取り可能媒体であって、前記方法が 、さらに、前記ファイルを、異なったコンテキスト・フリー・グラマーのルール を記載する代替ファイルで置換するステップと、前記異なったコンテキスト・フ リー・グラマーを使用して新たなテキストを正規化するステップと、を含むこと 、を特徴とするコンピュータ読み取り可能媒体。 46. 請求項44記載のコンピュータ読み取り可能媒体において、前記ファイ ルはテキスト・ファイルであること、を特徴とするコンピュータ読み取り可能媒 体。 47. 請求項44記載のコンピュータ読み取り可能媒体において、前記ファイ ルは、ルールを前記コンテキスト・フリー・グラマーの一部分として使用すべき か否かを識別するスイッチの仕様を含むこと、を特徴とするコンピュータ読み取 り可能媒体。 48. 請求項44記載のコンピュータ読み取り可能媒体であって、前記方法が 、さらに、前記コンテキスト・フリー・グラマーを変更するために前記ファイル の コンテンツを変更するステップ、を含むことを特徴とするコンピュータ読み取り 可能媒体。 49. アプリケーション・プログラムと、音声入力内の音声の部分を認識しそ して前記認識した音声部分に対応するテキストを出力する音声認識器と、を有す るコンピュータ・システムにおいて、 テキスト正規化器を含むアプリケーション・プログラム・インターフェース( API)を提供するステップと、 前記音声認識器からのテキストを前記テキスト正規化器で受けるステップと、 コンテキスト・フリー・グラマーからのルールを適用することにより前記テキ ストからのルールを適用することにより前記テキストを正規化して、前記テキス トのコンテンツを変更しそして正規化したテキストを発生するステップと、 前記正規化したテキストを前記アプリケーション・プログラムに渡すステップ と、 のコンピュータ実施ステップから成る方法を実行するコンピュータ読み取り可能 命令を保有するコンピュータ読み取り可能媒体。 50. 請求項49記載のコンピュータ読み取り可能媒体において、前記API は、音声APIであって、認識した音声入力に対応するテキスト出力を前記アプ リケーション・プログラムに提供する音声APIであること、を特徴とするコン ピュータ読み取り可能媒体。 51. 請求項49記載のコンピュータ読み取り可能媒体において、前記アプリ ケーション・プログラムは、前記APIからのテキストを要求して、前記正規化 したテキストを前記アプリケーション・プログラムヘ渡すことをプロンプトする こと、を特徴とするコンピュータ読み取り可能媒体。
JP54205298A 1997-04-03 1998-04-03 コンテキスト・フリー・グラマーを使用するテキスト正規化 Pending JP2001519043A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/840,117 1997-04-03
US08/840,117 US5970449A (en) 1997-04-03 1997-04-03 Text normalization using a context-free grammar
PCT/US1998/006852 WO1998044484A1 (en) 1997-04-03 1998-04-03 Text normalization using a context-free grammar

Publications (1)

Publication Number Publication Date
JP2001519043A true JP2001519043A (ja) 2001-10-16

Family

ID=25281495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP54205298A Pending JP2001519043A (ja) 1997-04-03 1998-04-03 コンテキスト・フリー・グラマーを使用するテキスト正規化

Country Status (6)

Country Link
US (1) US5970449A (ja)
EP (1) EP1016074B1 (ja)
JP (1) JP2001519043A (ja)
CN (1) CN1285068C (ja)
DE (1) DE69829389T2 (ja)
WO (1) WO1998044484A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021530749A (ja) * 2018-11-16 2021-11-11 グーグル エルエルシーGoogle LLC 自動音声認識のためのコンテキスト非正規化

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2945887B2 (ja) * 1997-10-09 1999-09-06 オリンパス光学工業株式会社 コードイメージ記録装置
US6523031B1 (en) * 1997-11-21 2003-02-18 International Business Machines Corporation Method for obtaining structured information exists in special data format from a natural language text by aggregation
JP2000163418A (ja) * 1997-12-26 2000-06-16 Canon Inc 自然言語処理装置及びその方法、及びそのプログラムを格納した記憶媒体
US6493662B1 (en) * 1998-02-11 2002-12-10 International Business Machines Corporation Rule-based number parser
US6513002B1 (en) * 1998-02-11 2003-01-28 International Business Machines Corporation Rule-based number formatter
US7181399B1 (en) * 1999-05-19 2007-02-20 At&T Corp. Recognizing the numeric language in natural spoken dialogue
JP3709305B2 (ja) * 1999-07-01 2005-10-26 日立オムロンターミナルソリューションズ株式会社 地名文字列照合方法、地名文字列照合装置、地名文字列認識装置及び郵便物区分システム
US6762699B1 (en) 1999-12-17 2004-07-13 The Directv Group, Inc. Method for lossless data compression using greedy sequential grammar transform and sequential encoding
US6640098B1 (en) * 2000-02-14 2003-10-28 Action Engine Corporation System for obtaining service-related information for local interactive wireless devices
US8478732B1 (en) * 2000-05-02 2013-07-02 International Business Machines Corporation Database aliasing in information access system
US6704728B1 (en) 2000-05-02 2004-03-09 Iphase.Com, Inc. Accessing information from a collection of data
US9699129B1 (en) 2000-06-21 2017-07-04 International Business Machines Corporation System and method for increasing email productivity
US8290768B1 (en) 2000-06-21 2012-10-16 International Business Machines Corporation System and method for determining a set of attributes based on content of communications
US6408277B1 (en) 2000-06-21 2002-06-18 Banter Limited System and method for automatic task prioritization
US20020099734A1 (en) * 2000-11-29 2002-07-25 Philips Electronics North America Corp. Scalable parser for extensible mark-up language
US7644057B2 (en) 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US7136846B2 (en) * 2001-04-06 2006-11-14 2005 Keel Company, Inc. Wireless information retrieval
US7152029B2 (en) * 2001-07-18 2006-12-19 At&T Corp. Spoken language understanding that incorporates prior knowledge into boosting
EP1464045A1 (en) * 2001-12-17 2004-10-06 Empirix Inc. Method of testing a voice application
US7343372B2 (en) 2002-02-22 2008-03-11 International Business Machines Corporation Direct navigation for information retrieval
US7257531B2 (en) * 2002-04-19 2007-08-14 Medcom Information Systems, Inc. Speech to text system using controlled vocabulary indices
US7146320B2 (en) * 2002-05-29 2006-12-05 Microsoft Corporation Electronic mail replies with speech recognition
US7328146B1 (en) 2002-05-31 2008-02-05 At&T Corp. Spoken language understanding that incorporates prior knowledge into boosting
US8495002B2 (en) 2003-05-06 2013-07-23 International Business Machines Corporation Software tool for training and testing a knowledge base
US20050187913A1 (en) 2003-05-06 2005-08-25 Yoram Nelken Web-based customer service interface
CN1830022B (zh) * 2003-06-02 2010-05-05 国际商业机器公司 语音应答系统及其方法
US7343604B2 (en) 2003-07-25 2008-03-11 International Business Machines Corporation Methods and apparatus for creation of parsing rules
US7672436B1 (en) * 2004-01-23 2010-03-02 Sprint Spectrum L.P. Voice rendering of E-mail with tags for improved user experience
US20050216256A1 (en) * 2004-03-29 2005-09-29 Mitra Imaging Inc. Configurable formatting system and method
US20050240408A1 (en) * 2004-04-22 2005-10-27 Redin Jaime H Method and apparatus for entering verbal numerals in electronic devices
DE102004028724A1 (de) * 2004-06-14 2005-12-29 T-Mobile Deutschland Gmbh Verfahren zur natürlichsprachlichen Erkennung von Nummern
US8335688B2 (en) * 2004-08-20 2012-12-18 Multimodal Technologies, Llc Document transcription system training
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US7630892B2 (en) * 2004-09-10 2009-12-08 Microsoft Corporation Method and apparatus for transducer-based text normalization and inverse text normalization
CN100462966C (zh) * 2004-09-14 2009-02-18 株式会社Ipb 将文件配置成时间序列的文件相关图的制成装置
US8977953B1 (en) * 2006-01-27 2015-03-10 Linguastat, Inc. Customizing information by combining pair of annotations from at least two different documents
JP5167256B2 (ja) * 2006-06-22 2013-03-21 マルチモーダル・テクノロジーズ・エルエルシー コンピュータ実装方法
US7841366B2 (en) * 2006-08-21 2010-11-30 Wpw, Llc Systems and methods for pipeline rehabilitation installation
US8671341B1 (en) 2007-01-05 2014-03-11 Linguastat, Inc. Systems and methods for identifying claims associated with electronic text
US7813929B2 (en) * 2007-03-30 2010-10-12 Nuance Communications, Inc. Automatic editing using probabilistic word substitution models
US20080312928A1 (en) * 2007-06-12 2008-12-18 Robert Patrick Goebel Natural language speech recognition calculator
US20090157385A1 (en) * 2007-12-14 2009-06-18 Nokia Corporation Inverse Text Normalization
JP2009244639A (ja) * 2008-03-31 2009-10-22 Sanyo Electric Co Ltd 発話装置、発話制御プログラムおよび発話制御方法
US9460708B2 (en) * 2008-09-19 2016-10-04 Microsoft Technology Licensing, Llc Automated data cleanup by substitution of words of the same pronunciation and different spelling in speech recognition
US8364487B2 (en) * 2008-10-21 2013-01-29 Microsoft Corporation Speech recognition system with display information
US8990088B2 (en) * 2009-01-28 2015-03-24 Microsoft Corporation Tool and framework for creating consistent normalization maps and grammars
US8370155B2 (en) * 2009-04-23 2013-02-05 International Business Machines Corporation System and method for real time support for agents in contact center environments
CN102339228B (zh) * 2010-07-22 2017-05-10 上海果壳电子有限公司 上下文无关文法的解析方法
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
US9110852B1 (en) * 2012-07-20 2015-08-18 Google Inc. Methods and systems for extracting information from text
US9146919B2 (en) * 2013-01-16 2015-09-29 Google Inc. Bootstrapping named entity canonicalizers from English using alignment models
US9471561B2 (en) * 2013-12-26 2016-10-18 International Business Machines Corporation Adaptive parser-centric text normalization
US9535904B2 (en) * 2014-03-26 2017-01-03 Microsoft Technology Licensing, Llc Temporal translation grammar for language translation
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
CN104360897B (zh) * 2014-10-29 2017-09-22 百度在线网络技术(北京)有限公司 对话处理方法和对话管理系统
US10579834B2 (en) * 2015-10-26 2020-03-03 [24]7.ai, Inc. Method and apparatus for facilitating customer intent prediction
US20170154029A1 (en) * 2015-11-30 2017-06-01 Robert Martin Kane System, method, and apparatus to normalize grammar of textual data
US11404148B2 (en) 2017-08-10 2022-08-02 Nuance Communications, Inc. Automated clinical documentation system and method
US11316865B2 (en) 2017-08-10 2022-04-26 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US10496382B2 (en) * 2018-02-22 2019-12-03 Midea Group Co., Ltd. Machine generation of context-free grammar for intent deduction
US11250383B2 (en) 2018-03-05 2022-02-15 Nuance Communications, Inc. Automated clinical documentation system and method
CN111370083B (zh) * 2018-12-26 2023-04-25 阿里巴巴集团控股有限公司 一种文本结构化方法及装置
US11182504B2 (en) * 2019-04-29 2021-11-23 Microsoft Technology Licensing, Llc System and method for speaker role determination and scrubbing identifying information
US11482214B1 (en) * 2019-12-12 2022-10-25 Amazon Technologies, Inc. Hypothesis generation and selection for inverse text normalization for search

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4914704A (en) * 1984-10-30 1990-04-03 International Business Machines Corporation Text editor for speech input
US4829576A (en) * 1986-10-21 1989-05-09 Dragon Systems, Inc. Voice recognition system
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US5349526A (en) * 1991-08-07 1994-09-20 Occam Research Corporation System and method for converting sentence elements unrecognizable by a computer system into base language elements recognizable by the computer system
EP0543329B1 (en) * 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating human-computer interaction
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
EP0598514B1 (en) * 1992-11-18 1999-12-29 Canon Information Systems, Inc. Method and apparatus for extracting text from a structured data file and converting the extracted text to speech
US5632002A (en) * 1992-12-28 1997-05-20 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
JPH0736882A (ja) * 1993-07-19 1995-02-07 Fujitsu Ltd 辞書検索装置
US5651096A (en) * 1995-03-14 1997-07-22 Apple Computer, Inc. Merging of language models from two or more application programs for a speech recognition system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021530749A (ja) * 2018-11-16 2021-11-11 グーグル エルエルシーGoogle LLC 自動音声認識のためのコンテキスト非正規化
JP2021193464A (ja) * 2018-11-16 2021-12-23 グーグル エルエルシーGoogle LLC 自動音声認識のためのコンテキスト非正規化
JP7230145B2 (ja) 2018-11-16 2023-02-28 グーグル エルエルシー 自動音声認識のためのコンテキスト非正規化
US11676607B2 (en) 2018-11-16 2023-06-13 Google Llc Contextual denormalization for automatic speech recognition

Also Published As

Publication number Publication date
CN1285068C (zh) 2006-11-15
US5970449A (en) 1999-10-19
DE69829389D1 (de) 2005-04-21
EP1016074A1 (en) 2000-07-05
WO1998044484A1 (en) 1998-10-08
DE69829389T2 (de) 2006-02-09
EP1016074B1 (en) 2005-03-16
CN1255224A (zh) 2000-05-31

Similar Documents

Publication Publication Date Title
JP2001519043A (ja) コンテキスト・フリー・グラマーを使用するテキスト正規化
US8290775B2 (en) Pronunciation correction of text-to-speech systems between different spoken languages
JP5162697B2 (ja) 情報検索手法による統一化されたタスク依存の言語モデルの生成
US7243069B2 (en) Speech recognition by automated context creation
JP4901155B2 (ja) 音声認識装置が使用するのに適した文法を生成するための方法、媒体、およびシステム
US20020095289A1 (en) Method and apparatus for identifying prosodic word boundaries
US6963831B1 (en) Including statistical NLU models within a statistical parser
US8392191B2 (en) Chinese prosodic words forming method and apparatus
US20020123877A1 (en) Method and apparatus for performing machine translation using a unified language model and translation model
EP1331574B1 (en) Named entity interface for multiple client application programs
Hasegawa-Johnson et al. Grapheme-to-phoneme transduction for cross-language ASR
Wang et al. Rapid development of spoken language understanding grammars
Di Fabbrizio et al. AT&t help desk.
Rouhe et al. An equal data setting for attention-based encoder-decoder and HMM/DNN models: A case study in Finnish ASR
JP5851130B2 (ja) 日本語のための音声キー
JP3691773B2 (ja) 文章解析方法とその方法を利用可能な文章解析装置
JP6998017B2 (ja) 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム
US20040034524A1 (en) Hybrid baseform generation
Akinwonmi Development of a prosodic read speech syllabic corpus of the Yoruba language
JP3029403B2 (ja) 文章データ音声変換システム
JP2005208483A (ja) 音声認識装置、音声認識プログラム、言語モデル生成方法、及び言語モデル生成装置
Donaj et al. Manual sorting of numerals in an inflective language for language modelling
JP2004118461A (ja) 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体
JP2817406B2 (ja) 連続音声認識方式
Sunitha et al. Minimum data generation for Telugu speech recognition

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050328

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050328

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090128

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100209