JP4740837B2

JP4740837B2 - 音声認識における統計的言語モデリング方法、システム及び記録媒体

Info

Publication number: JP4740837B2
Application number: JP2006509862A
Authority: JP
Inventors: ウェン，フリアン; ラグフナタン，バドリ; シュミット，ホーク
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2003-04-30
Filing date: 2004-04-08
Publication date: 2011-08-03
Anticipated expiration: 2024-04-08
Also published as: EP1623412A4; KR20060007407A; EP1623412A2; US7197457B2; KR100660495B1; DE602004028008D1; CN1836225A; US20040220813A1; WO2004100126A2; EP1623412B1; JP2006525552A; WO2004100126A3; CN100380370C

Description

発明の分野
本発明は、音声認識における統計的言語モデリング方法に関する。
背景情報
音声認識は、発声された波形を、例えば英語で表現されたセンテンスのようなテキストの単語列に変換する処理として定義することができる。

音声認識処理は、３つの主要な段階に分類され得る。即ち、前処理段階、聴覚モデリング段階及び言語モデリング段階である。前処理段階において、「生の」音声信号が、顕著な特徴についてスペクトル分析され、デジタル・エンコードされた特徴ベクトルのシーケンスに変換される。聴覚モデリング段階において、音響環境、性差及び方言差、並びに音声学に関する知識を用いて、特徴ベクトルのシーケンスが調べられ、音シーケンス（例えば、単母音、または協和音）が抽出される。言語モデリング段階において、可能性の在る単語を構成するのは何か、どの単語がどの順序で発生し得るかに関する知識を用いて、音シーケンスが対応する単語シーケンスに変換される。

最近の進歩にも拘わらず、音声認識システムは、人間が有する精巧さのレベルに達していないと信じられている。特に、様々な音響環境と組み合わされた言語の複雑性は、真に人間に近い音声認識システムの実現に対して、重大な課題を提起する。例えば、音声認識システムは、語彙的及び文法的な複雑性、並びに、各種の口語、及び様々なアクセント及び会話スタイルによる音声の不確定性に取り組まなければならない。そのため、複雑性を低減し、不確定性を制限するために、音声認識システムは、例えば航空便／旅行情報システム（ＡＴＩＳ）又は電話帳情報システムのような特定ドメインのアプリケーションのために小規模で構築されても良い。

高品質な音声認識システムを構築するため、システムによる音声の解釈を案内し、システムが適切なアクションを決定することを可能とするよう、様々な言語的現象を含む大量のドメイン・データが必要とされ得る。例えば、約２、０００語の中程度のサイズのアプリケーション特有ドメインをサポートする音声認識システムは、適正な言語トレーニング・モデルを構築するために、２０、０００個の「ドメイン内の」センテンスを集めることを必要とし得ると信じられている。そのようなシステムのためのデータ収集は、退屈で、時間がかかり、高価で、且つ、会話スタイル又は慣用的用法のような音声の重要な側面を無視し得る。更に、集められたドメイン内のセンテンスの数が必要とされる量より少ない場合、システムが特定のドメインで利用される可能性のある表現の全種類をカバーするのに十分なデータを欠く、「データ欠乏」の問題が起こり得る。従って、新しいアプリケーション・ドメインをサポートするための音声認識システムのトレーニングには、集める必要があり得るデータ量のために、かなりの量の時間及び労力が必要とされ得る。

音声対話システムのためにデータを合成する様々な技法が存在し得る。Ａ．Ｈｕｎｔ及びＡ．Ｂｌａｃｋによる「連結音声合成システムにおける大型言語音声データベースを用いたユニット選択」（ＩＣＡＳＳＰ−９６Ｐｒｏｃ、１９９６年、ジョージア州アトランタ）に示されている通り、まず、韻律的特長と、音声を合成するために必要とされる音素列とを定義する目標仕様を設定し、次に、連結のためのデータベースから適切な音素ユニットを選択することにより、音声が合成され得る。Ｍ．Ｒａｙｎｅｒら（編集者）により印刷された、Ｆ．Ｌ．Ｗｅｎｇ、Ａ．Ｓｔｏｌｃｋｅ及びＭ．Ｃｏｈｅｎによる「多言語音声翻訳のための言語モデリング」（Spoken Language Translator Cambridge University Press、２０００年、２８１）に示されている通り、既存の文法を利用してフレーズの塊（即ち、完全な又は部分的な発話）が生成され、例えば数千個のセンテンスである少量のドメイン内のデータに挿入され得る。Ｐ．Ｆ．Ｂｒｏｗｎらによる「自然言語のクラスに基づくｎグラムモデル」（Association for Computational Linguistics １８（４）、１９９２年、４６７−４７９頁）に示される通り、テキストのサンプルにおける先行する単語からの単語の予測の問題は、単語のクラスに基づくｎグラムモデルにより対処され得る。ｎグラムモデルは、統計的アルゴリズムを利用し、該単語が他の単語と同時に現れる頻度に基づいて、単語をクラスに割り当て得る。単語クラスは、例えば音声認識又は文法訂正などの広範なアプリケーションを提供する言語モデリングにおいて利用され得る。新しいドメインに対するデータの生成は、この取り組みによって容易に得られるものではないと信じられてきた。なぜなら、下位のｎグラムは十分な長距離の情報を含まず、上位のｎグラムモデルは、入手可能及び／又は実現可能ではないかもしれない大量のトレーニング・データを必要とし得るからである。

発明の概要
本発明の例としての実施の形態及び／又は例としての方法は、既存ドメインのデータ、言語知識及び統計手法を用いて新しいドメインのデータを構築することにより、音声認識システムのデータ収集要求を低減又は除去する。人間の会話における、かなりの量の言語的現象は、１つの音声アプリケーション・ドメインから他のドメインに移すことが可能であるため、１つの音声アプリケーション・ドメインのために開発されたデータは、最小の又は少ない努力で、他の音声アプリケーション・ドメインのためのデータに適応され得ると信じられる。このため、本発明は、多数の一般的に利用可能な情報源を用いて、例えば、ペンシルヴァニア大学の言語データ・コンソーシアム（ＬＤＣ）によるＰｅｎｎＴｒｅｅｂａｎｋにおけるスイッチボード・データ、或いは、例えばＷｏｒｄＮｅｔなどのオンライン語彙参照システムのような、新しいデータを生成し得る。

他のデータ収集技法と比べて、本発明の例としての方法は、新しいドメインのためのデータを生成するために、予め存在するドメイン特有の文法を必要としない。新しいドメインと関連付けられる文法的な制約の多くは、既存のドメインの中に備わっていると信じられるからである。従って、新しいドメインに対する語彙のみが必要とされ得る。このため、既存ドメインのドメイン特有のデータは、例えば２０，０００個のセンテンスなどの合理的なサイズであってよく、該データは、新しいドメインに対するデータを生成するための最初の基礎として利用され得る。

本発明の例としての実施の形態及び／又は例としての方法は、また、例えば新しいドメインに対するセンテンスのセットを生成するために単語レベルで動作する言語的及び統計的な手段を含む、データ合成のための言語的及び統計的な手段を利用し得る。このため、新しいドメインに対する語彙及び概念マッピングテーブルを除いて、目標仕様は不必要とされ得る。

本発明の例としての実施の形態及び／又は例としての方法は、合成されたデータの局所的及び大域的な自然さを提供するために、例えば、局所的及び大域的な連語統計と併せた言語的不変条件の利用を含む、隣接単語又は隣接フレーズ間の統計的関係に依存し得る。

本発明の例としての実施の形態及び／又は例としての方法は、例えば自動車ナビゲーション・システム、ホテル及びレストラン情報システム、ハンドヘルド・デバイス、及び携帯電話機などを含む様々なアプリケーション・ドメインに対するデータを生成し得る。本発明の例としての実施の形態及び／又は例としての方法は、また、新しいユーザが、運転中、歩行中、飛行中などであったとしても音声言語対話システムの恩恵を受け得るよう、音声言語対話システムに新しいアプリケーションを追加するための時間量を低減し得る。

本発明の例としての実施の形態は、音声認識システムのための言語モデリングデータを生成するシステムであって、言語知識ベースを用いて既存ドメインのドメイン特有データから表現を抽出する表現抽出装置と、新しいドメインに対する語彙を用いて、抽出された表現を新しいドメインにおける表現にマッピングする概念構造マッピング装置と、抽出された表現をドメインに共通のデータと連結する連結モジュールと、マッピングされ連結された表現の少なくとも１つにおける非現実的な表現を識別しフィルター処理するフィルター構成とを有するシステムを目的とする。

本発明の更に他の例としての実施の形態は、予め存在するドメイン特有の文法なしに言語モデリングデータを生成するよう構成されたシステムを目的とする。
本発明の更に他の例としての実施の形態は、抽出された表現がドメインに不変な表現を含むシステムを目的とする。

本発明の更に他の例としての実施の形態は、抽出された表現が、慣用表現、時間的表現、空間的表現、及び金銭的表現のうちの少なくとも１つを含むシステムを目的とする。
本発明の更に他の例としての実施の形態は、抽出された表現が時間的表現と空間的表現との組合せを含むシステムを目的とする。

本発明の更に他の例としての実施の形態は、言語知識ベースが語彙的な参照情報源を含むシステムを目的とする。
本発明の更に他の例としての実施の形態は、語彙的な参照情報源が辞書を含むシステムを目的とする。

本発明の更に他の例としての実施の形態は、辞書が電子辞書を含むシステムを目的とする。
本発明の更に他の例としての実施の形態は、電子辞書がデータネットワークを介して利用可能なシステムを目的とする。

本発明の更に他の例としての実施の形態は、データネットワークがインターネットを含むシステムを目的とする。
本発明の更に他の例としての実施の形態は、概念構造マッピング装置が、既存ドメインの少なくとも１つの単語を新しいドメインの少なくとも１つの単語に相関させるための、ドメイン特有の単語対マッピングテーブルを含むシステムを目的とする。

本発明の例としての方法は、音声認識システムのための言語モデリングデータを生成する方法であって、言語知識ベースを用いて既存ドメインに対するドメイン特有データから表現を抽出するステップと、新しいドメインに対する語彙を用いて抽出された表現を新しいドメインの表現にマッピングするステップと、ドメインに共通のデータを用いて、抽出された表現を連結するステップと、マッピングされ連結された表現のうちの少なくとも１つをフィルター処理するステップとを含む方法を目的とする。

本発明の更に他の例としての方法は、言語モデリングデータを生成する方法であって、抽出された表現をマッピングするステップが、既存ドメインの少なくとも１つの単語を識別し、新しいドメインの少なくとも１つの単語と相関付けるためにドメイン特有の単語対マッピングテーブルを確立するステップを含む方法を目的とする。

本発明の更に他の例としての方法は、言語モデリングデータを生成する方法であって、抽出された表現をマッピングするステップが、マッピングされた表現の自然さを確認するために、マッピングされた表現に対して、隣接単語連語確認検定を実行するステップを含む方法を目的とする。

本発明の更に他の例としての方法は、言語モデリングデータを生成する方法であって、連結するステップが、隣接単語及び隣接フレーズのうちの少なくとも１つの滑らかさを保証するために、連結された表現の統計的連語測定を実行するステップと、新しいドメインに対する候補センテンスを形成するために、連語度の高い対を連鎖させるステップとを含む方法を目的とする。

本発明の更に他の例としての方法は、言語モデリングデータを生成する方法であって、フィルター処理するステップが、候補センテンスの追加の統計的連語測定を実行するステップと、所定の値より低い連語値を有する候補センテンスを除去するステップとを含む方法を目的とする。

本発明の更に他の例としての方法は、言語モデリングデータを生成する方法であって、新しいドメインが、ナビゲーション・システム、ホテル情報システム及びレストラン情報システムのうちの少なくとも１つを含む方法を目的とする。

本発明の更に他の例としての方法は、言語モデリングデータを生成する方法であって、ナビゲーション・システムが自動車ナビゲーション・システムを含む方法を目的とする。
本発明の更に他の例としての方法は、言語モデリングデータを生成する方法であって、ナビゲーション・システムがハンドヘルド・デバイスを含む方法を目的とする。

本発明の更に他の例としての方法は、言語モデリングデータを生成する方法であって、ハンドヘルド・デバイスが携帯電話機を含む方法を目的とする。
本発明の例としての実施の形態及び／又は例としての方法は、言語知識ベースを用いて既存ドメインに対するドメイン特有のデータから表現を抽出するステップと、新しいドメインに対する語彙を用いて、抽出された表現を新しいドメインの表現にマッピングするステップと、ドメインに共通のデータを用いて、抽出された表現を連結するステップと、マッピングされ連結された表現のうちの少なくとも１つをフィルター処理するステップとを含むシーケンスを実行する方法を実現するために、プロセッサにより実行される命令セットを有する記憶媒体を目的とする。

詳細な説明
本発明の例としての実施の形態は、コンピュータ、マイクロプロセッサ、又は本明細書に説明する方法を実現又は実行するために利用される他の適切な処理装置を含み得る。

図１は、言語知識ベースと新しいドメインに対する語彙とを用いて、１つのアプリケーション・ドメインのために開発されたデータセットを、新しいアプリケーション・ドメインにおける使用に適応するための例としてのシステム１００を示す。例としてのシステム１００は、慣用表現抽出装置１０１と、概念構造マッピング装置１０２と、連結モジュール１０３と、フィルター構造１０４とを備える。慣用表現抽出装置１０１は、既存ドメインからのドメイン特有データ１５１と、一般に利用可能な辞書及び他の情報源からの言語知識１５２とを用いて、会話スタイルの表現を生成する。概念構造マッピング装置１０２は、新しいドメインからの語彙１５４を用いて、既存ドメインと新しいドメインの間のドメイン特有表現のマッピングを確立する。連結モジュール１０３は、ドメインに共通のデータ１５３と、抽出された表現とを用いて、新しいドメインのための表現１５５を生成する。フィルター構成１０４は、非現実的な表現を除去する。

図２は、１つのアプリケーション・ドメインのために開発されたデータセットを新しいアプリケーション・ドメインにおける使用に適応させる例としての方法１００を示す。例としての方法１００は、抽出段階Ｓ２１と、概念マッピング段階Ｓ２２及び／又は連結段階Ｓ２３と、フィルター処理段階Ｓ２４とを含む。抽出段階Ｓ２１において、ドメインに不変な表現を取得するために、言語知識ベースを用いて、会話スタイルの言語表現が抽出される。概念マッピング段階Ｓ２２において、目標ドメインにおける新しい構造が取得される。連結段階Ｓ２３において、目標ドメインにおける新しいセンテンス・パターンが利用可能なデータ情報源から繋ぎ合わされる。フィルター処理段階Ｓ２４において、不適切又は望ましくないと考えられる表現の組合せが新しいドメインから除去される。段階Ｓ２１〜Ｓ２４のそれぞれは、以下に詳細に説明される。

抽出段階Ｓ２１において、例えばロングマン出版社により出版されたロングマン現代英語辞典（ＬＤＯＣＥ）、又はプリンストン大学のジョージ・ミラー教授及びその協力者により提供されるオープンなリソースであるＷｏｒｄＮｅｔ（プリンストン大学のウェブサイトの認知科学グループ以下を参照）などの言語知識ベースを用いて、既存ドメインに特有のデータセットから、会話スタイルを有する言語表現が抽出される。特に、慣用表現、時間的表現及び／又は空間的表現という３つの種別の表現が抽出され得る。慣用表現は、特定の言語に特有又は特徴的な表現であり、例えば、センテンス開始表現（例えば、「I would like to」又は「Please tell me」）、センテンス終了表現（例えば、「You got it right?」又は「Is it ok?」）、及び談話標識（例えば、「Now」又は「But」）を含み得る。時間的表現は、例えばカレンダー日付又は時刻などの時間の態様を伝達する表現（例えば、「２００３年１月１４日月曜日」又は「午後３時まで」）である。空間的表現は、地理的な場所又は位置の指示などの、空間的範囲の態様に関する表現（例えば、「カリフォルニア州パロアルト」）である。より自然な表現の抽出が達成され得るよう、抽出目標は２つの種別の組合せであるため、時間的及び空間的な種別の表現は、一緒に抽出され得る。

慣用表現、時間的表現及び空間的表現は、ドメインに不変である傾向がある。即ち、特定のアプリケーション・ドメインに特有のものではなく、任意のドメインにおいて見出すことができる。従って、慣用表現、時間的表現及び空間的表現は、抽出されると、センテンスの合成又は連結の基礎ユニットとして役立ち得る。慣用表現、時間的表現及び空間的表現に加えて、例えば金銭的表現、及び人や組織の固有名称などの他のドメインに不変な表現もまた、抽出され得る。

概念マッピング段階Ｓ２２において、既存アプリケーション・ドメインのドメイン特有表現が、新しいアプリケーション・ドメインの対応する単語にマッピングされる。特に、新しいドメインの１つ又はそれ以上の対応する単語と同様の概念を伝達する既存ドメインの１つ又はそれ以上の単語を識別し相関付けるために、ドメイン特有単語対マッピングテーブルが確立され得る。例えば、航空旅行情報システム（ＡＴＩＳ）のアプリケーション・ドメインに対する「飛行」という単語は、自動車ナビゲーション・システムのアプリケーション・ドメインにおける「走行」という単語と同様の概念を伝達し得る。また、テレビ番組ガイドのアプリケーション・ドメインにおける「走査」という単語は、電話帳支援のアプリケーション・ドメインにおける「検索」という単語と同様の概念を伝達し得る。

ドメイン特有単語対マッピングテーブルは、例えばロングマン現代英語辞典又はＷｏｒｄＮｅｔなどの一般に入手可能な辞書からの対応する項構造とともに、既存ドメインから抽出された多数の「見出し」単語、即ち主要な名詞、動詞又は他の品詞のマッピングを含み得る。

概念マッピング段階Ｓ２２は、更に、例えば、通常の日常会話の中で２つの単語が対として一緒に現れる頻度を測定する、例えば相互情報検定、尤度比検定、又はｘ二乗検定などの、隣接単語連語確認検定を含み得る。そのような検定は、生成されたデータの「自然さ」を確認するために利用され得る単語連語統計測定値を生成する。特に、高い連語統計測定値は、「現実生活」の会話において当該対がしばしば一緒に利用されることを示し、低い連語統計測定値は、当該対があまり頻繁には一緒に利用されないか、又は全く一緒に利用されないことを示す。従って、マッピングは、確認のために特定の統計的測定値が達成された場合にのみ成功とみなされる。

特定の単語対が自然であるか否かを決定する際、隣接単語連語確認検定は、２つの単語が、該２つの単語の一方のみを含む又はいずれをも含まない他の単語対に比べ、いかに頻繁に一緒に現れるかを決定し得る。例えば、特定の単語対、例えば（ｗ１、ｗ２）が特定のデータセットにおいて自然であるか否かを知ることが望まれる場合、以下の４つの可能性のある出現シナリオに対して、統計的測定が実行され得る。即ち、（ｗ１、ｗ２）、（ｗ１、〜ｗ２）、（〜ｗ１、ｗ２）、及び（〜ｗ１、〜ｗ２）である。ただし、（ｗ１、ｗ２）は、それらの単語の一緒の対としての出現を表し、（ｗ１、〜ｗ２）は、ｗ１と、ｗ２ではない任意の単語との一緒の出現を表し、（〜ｗ１、ｗ２）は、ｗ１ではない任意の単語と、ｗ２との一緒の出現を表し、（〜ｗ１、〜ｗ２）は、ｗ１ではない任意の単語と、ｗ２ではない任意の単語との一緒の出現を表す。４つの可能性のある出現シナリオに対する統計が生成されると、結果としてのｘ^２スコアが、特定の閾値と比較される。ｘ^２スコアが閾値より高い場合に、（ｗ１、ｗ２）は自然とみなされ、そうではない場合に、（ｗ１、ｗ２）は不自然とみなされる。

概念マッピング段階Ｓ２２の代わりに、又は概念マッピング段階Ｓ２２に加えて、抽出された表現の適切な「滑らかさ」を保証するために、連結段階Ｓ２３が実行される。連結段階は、局所レベルの連結と大域レベルの連結という２つのレベルで実現され得る。局所レベルにおいて、統計的連語測定は、隣接する単語／フレーズの各対の滑らかさを保証するために利用される。大域レベルでは、候補センテンスを形成するために、有効な対が繋ぎ合わされる。

２つのフレーズの滑らかさを測定する際、対応するフレーズの主要語が連結に利用される。フレーズの主要語を識別するために、キーワード発見技法が利用され得る。キーワード発見技法は、手がかりを用いて、フレーズが特定の意味カテゴリに属するか否か、及びどの単語が当該フレーズの主要語かを識別する。例えば、「通り」という単語は、通りの名前のフレーズの意味カテゴリに対する手がかりであると同時に、通りの名前のフレーズ（例えば、メイン通り）に対する主要単語であり得る。「市」という単語は、市の名前のフレーズの意味カテゴリに対する手がかりであると同時に、市の名前のフレーズ（例えば、ニューヨーク市）に対する主要語であり得る。また、「へ」という単語は、目的地フレーズの意味カテゴリに対する手がかりであり得る。

隣接単語対の統計は、例えばＰｅｎｎＴｒｅｅｂａｎｋデータセットの中のウォール・ストリート・ジャーナルのような、ドメイン特有ではないデータから得られ、ドメインから独立であると考えられ得る。このことは、主要語の対の統計に対しても同様に当てはまり得る。

フィルター処理段階Ｓ２４において、取得されたデータが過剰生成されないことを保証するために、新しいドメインにおいて出現しそうもないと考えられ得る非現実的な表現又は表現の組合せが取り除かれ得る。非現実的なパターンは、ネイティブ・スピーカーにより、又は自動処理を通じて、特定され得る。自動処理において、単語のセンテンスは、最初の２段階の副産物である意味カテゴリのシーケンスに変換される。主要な動作又は動詞、並びに意味カテゴリのシーケンスが与えられると、任意の一般的なコーパスにおける出現頻度が測定され得る。

図３は、表現を抽出するための例としての方法３００を示す。ステップＳ３１において、例えば「ｗｈｏ」、「ｗｈａｔ」、「ｗｈｅｒｅ」、「ｗｈｅｎ」、「ｗｈｙ」、「ｗｈｉｃｈ」、「ｏｎｅｏｆｗｈｉｃｈ」、及び「ｗｈａｔｅｖｅｒ」などの表現を含むｗｈ型表現が抽出される。ステップＳ３２において、時間、日付及び場所の表現が抽出される。特に、「連続的」又は「純粋な」（即ち、他の種別の表現を含まない）、時間、日付及び場所のみの表現が抽出される。ステップＳ３３において、動詞、名詞、形容詞、形容動詞、限定詞、及び他の開集合要素が、例えば商業的に入手可能なタグ付けアプリケーションによって抽出される。

図４は、ｗｈ型表現を抽出する例としての方法４００を示す。ステップＳ４１において、既存ドメインのセンテンス（Ａ）は、既存ドメインのタグ付けされたセンテンスのセット（ＳＴ＿Ａ）を形成するために、フレーズタグをつけられる。ステップＳ４２において、談話標識で始まるセンテンス及びｗｈ型の単語を含むセンテンスについて、タグ付けされたセンテンスのセット（ＳＴ＿Ａ）が検索され、談話標識及びｗｈ型単語を有する、既存ドメインのタグ付けされたセンテンスのサブセット（Ｓｄｗ＿Ａ）が形成される。ステップＳ４３において、ｗｈ型フレーズのセット（Ｓｗｈｐ）を形成するために、既存ドメインの談話標識及びｗｈ型単語を有するタグ付けされたセンテンスのサブセット（Ｓｗｄ＿Ａ）の各センテンスからｗｈ型表現が取得される。

図５は、既存ドメインの談話標識及びｗｈ型単語を有するタグ付けされたセンテンスのサブセット（Ｓｗｄ＿Ａ）の各センテンスからｗｈ型表現を取得する例としての方法５００を示す。ステップＳ５１において、現在のタグ付けされたセンテンスの第２位置の単語が、例えば、当該単語が、前置詞、接続詞又は限定詞等のセットのようなタグ付けされた単語の特定のセットに属することを示すようタグ付けされているかどうかが調べられる。現在の位置の単語がタグ付けされている場合、ステップＳ５２において、第１位置から始まり現在の位置までの単語シーケンスが、ｗｈ型フレーズのセット（Ｓｗｈｐ）に追加される。そうではない場合、ステップＳ５３において、次の位置が調べられる。例としての方法５００は、既存ドメインの談話標識及びｗｈ型単語を有するタグ付けされたセンテンスのサブセット（Ｓｄｗ＿Ａ）の各センテンスについて実行される。

図６は、時間、日付及び場所に対する連続的な表現を抽出する例としての方法６００を示す。ステップＳ６１において、時間、日付及び／又は場所フレーズの構成に関連する単語及びタグのセットが決定され、「フレーズ内」のタグセットとして集合的に識別される。これらの単語は、例えば、現地時間、昼又は夜の期間、カレンダー日付、平日、月、太陰周期、地理的な場所又は位置、或いはそれらの任意の組合せなどの表現を、それらの単語を接続する前置詞及び／又は接続詞とともに含み得る。ステップＳ６２において、例えばアプリケーション特有の名詞、代名詞、動詞、助動詞等、又はそれらの任意の組合せにより、アプリケーション・ドメインに特有の語彙が生成される。ステップＳ６３において、時間、日付及び場所の表現に関連するとは通常考えられない単語及びタグのセットが決定され、「フレーズ外」のセットとして集合的に識別される。ステップＳ６４において、フレーズ内タグセットからのタグを付けられた単語を含むが、フレーズ外タグセットからのタグを付けられた単語は含まないフレーズが抽出される。

図７は、フレーズ内タグセットからのタグを付けられた単語を含むが、フレーズ外タグセットからのタグを付けられた単語を含まないフレーズを抽出する、例としての方法７００を示す。ステップＳ７１及びＳ７２において、ｂフレーズがオフに設定され、センテンスの単語が第１位置から最終位置まで順次調べられる。現在調べられている単語がフレーズ外のタグセットのタグを付けられている場合、ステップＳ７３において、終了の表現が除去されるが、現在調べられている単語がフレーズ内のタグセットのタグを付けられている場合、ステップＳ７４において、ｂフレーズ・フラグがオンにされ、ｂフレーズ・フラグがオンの場合には、ステップＳ７５において、フレーズが連結される。

図８は、フレーズ表現を抽出する例としての方法８００を示す。ステップＳ８１及びＳ８３において、入力された表現が、終了位置から第１位置への逆の順番で、フレーズ内の表現セットに含まれる単語かどうか、順次調べられる。単語がフレーズ内の表現セットに含まれることがわかった場合、ステップＳ８２において、第１の単語から現在の単語までの単語シーケンスが返される。

図９は、既存ドメインからの表現を新しいドメインの対応する表現にマッピングする例としての方法９００を示す。ステップＳ９１において、新しいドメインに存在する代替可能又は交換可能な表現に対応する、既存ドメインに存在する表現セットが作成される。ステップＳ９２において、新しいドメインに存在する受容可能な表現に対応する既存ドメインに存在する表現のセットが作成される。ステップＳ９３において、新しいドメインには存在しない表現のセットが作成される。ステップＳ９４において、上記の代替可能、受容可能及び受容不可能な表現の３つの新しいセットと、既存ドメインのタグ付けされたセンテンスのセット（ＳＴ＿Ａ）とを用いて、既存ドメインから新しいドメインへの表現のマッピングが実行される。

図１０は、代替可能、受容可能及び受容不可能な表現の上記の３つの新しく作成されたセットと、既存ドメインのタグ付けされたセンテンス（ＳＴ＿Ａ）のセットとを用いて既存ドメインから新しいドメインへ表現をマッピングする例としての方法１０００を示す。ステップＳ１００１において、代替可能、受容可能及び受容不可能な表現の上記の３つの新しく作成されたセットに含まれる表現について、タグ付けされたセンテンスが調べられる。表現が、代替可能な表現のセットに含まれることがわかった場合、ステップＳ１００２において、該表現が代替可能表現に置き換えられる。表現が、受容可能表現のセットに含まれることがわかった場合、ステップＳ１００３において、該表現はそのままにされる。表現が、受容不可能表現のセットに含まれることがわかった場合、センテンスが除去されるか、又はステップＳ１００５において、該センテンスが、新しいドメインのタグ付けされたセンテンスのセット（ＳＴ＿Ｂ）に含められる。例としての方法１０００は、既存ドメインのタグ付けされたセンテンスのセット（ＳＴ＿Ａ）に含まれる各センテンスについて実行される。

図１１は、航空情報システム（ＡＴＩＳ）アプリケーション・ドメインの表現の、自動車ナビゲーション・システムのアプリケーション・ドメインの表現への表現のマッピングを支援するための、代替可能な表現対の例としてのテーブル１１００を示す。大文字のエントリはフレーズタグを表し、小文字のエントリは表現の実際の単語を表す。

図１２は、航空情報システム（ＡＴＩＳ）のアプリケーション・ドメインから自動車ナビゲーション・システムのアプリケーション・ドメインへの直接変換のための、受容可能な表現の例としてのテーブル１２００を示す。直接変換のための受容可能な表現の種別には、例えば、場所、日付、時間、金銭、ｗｈ型、前置詞、接続詞、助動詞及び限定詞が含まれる。

図１３は、連語統計を生成する例としての方法１３００を示す。ステップＳ１３０１において、可能性の或る表現の全てのサブセットが集められる。これらのサブセットには、例えば、センテンス開始タグで始まりセンテンス終了タグで終了する表現であって、全てのｗｈ型表現のセット（例えば、全てのｗｈ名詞、ｗｈ動詞、及びｗｈンテンスを含む）、全ての時間表現のセット、全ての場所表現のセット、全ての助動詞のセット、全ての接続詞のセット、新しいドメインの全ての動詞のセット、新しいドメインの全ての名詞のセット、及び新しいドメインの全ての形容詞のセットからの要素の任意の組合せを含む表現が含まれ得る。ステップＳ１３０２において、全ての可能性のある表現対を形成するために、可能性のある表現のサブセットの各インスタンスが、該サブセットの全ての他のインスタンスと対にされる。ステップＳ１３０３において、可能性のある表現の対の各インスタンスに対する連語値が計算され、所定の閾値と比較される。計算された連語値が閾値を超える場合、ステップＳ１３０４において、特定の対のインスタンスが連語度の高い対のセットに記憶される。

図１４は、表現を連結する例としての方法１４００であって、特に、連語度の高い対のセットを、新しいドメインのための合成されたセンテンスに連結する方法を示す。ステップＳ１４０１において、対の第１位置（即ち、対の左側部分）にセンテンス開始タグを含む、連語度の高い対のセットに記憶された全ての表現対により、新しいドメインのためのセンテンス列が開始される。ステップＳ１４０２において、センテンス列を完成するために、センテンス終了タグが現れるまで、各センテンス列が、右側部分が該センテンス列の一番左の部分と一致する対と、繰り返し連結される。ステップＳ１４０３において、完成したセンテンス列が、新しいドメインに対するタグ付けされたセンテンスのセットＳＴ＿Ｂに割り当てられる。連語度の高い表現対から合成されたセンテンスを作成する例としての方法１４００は、再帰的な方法で実行され得る。

連結の擬似コードの例は、以下の通りである。

図１５は、表現をフィルター処理する例としての方法１５００を示す。ステップＳ１５０１において、合成されるセンテンスのそれぞれが調べられ、動詞、名詞、時間、日付及び場所の要素が存在する場合に、それらが識別される。ステップＳ１５０２において、それらの要素に対する連語値が計算される。例えば、センテンスの連結された動詞／名詞、動詞／時間、動詞／日付、動詞／場所、名詞／時間、名詞／日付、及び名詞／場所の要素対に対する連語値が計算される。ステップＳ１５０３において、計算された連語値が所定の値より低い連結要素対が除去される。

フィルター処理の擬似コードの例は、以下の通りである。

図１は、言語知識ベースと、新しいドメインに対する語彙とを用いて、１つのアプリケーション・ドメインのために開発されたデータセットを、新しいアプリケーション・ドメインにおける利用に適応させるための例としてのシステムを示す。図２は、１つのアプリケーション・ドメインのために開発されたデータセットを、新しいアプリケーション・ドメインにおける使用に適応させる例としての方法を示す。図３は、表現を抽出する例としての方法を示す。図４は、ｗｈ型表現を抽出する例としての方法を示す。図５は、タグ付けされたセンテンスのサブセットからｗｈ型表現を抽出する例としての方法を示す。図６は、時間、日付、及び場所に対する連続的表現を抽出する例としての方法を示す。図７は、フレーズ内で定義されたタグセットからタグ付けされた単語を含むが、フレーズ外で定義されたタグセットからタグ付けされた単語を含まないフレーズを抽出する例としての方法を示す。図８は、フレーズを抽出する例としての方法を示す。図９は、既存ドメインからの表現を、新しいドメインの対応する表現にマッピングする例としての方法を示す。図１０は、代替可能表現、受容可能表現、及び許容不可能表現のセットを用いて、既存ドメインからの表現を新しいドメインにマッピングする例としての方法を示す。図１１は、航空情報システム（ＡＴＩＳ）の表現の自動車ナビゲーション・システムへのマッピングを支援するための代替可能表現対の例としてのテーブルを示す。図１２は、航空情報システム（ＡＴＩＳ）から自動車ナビゲーション・システムへの変換のための受容可能表現の例としてのテーブルを示す。図１３は、連語統計を生成するための例としての方法を示す。図１４は、表現を連結するための例としての方法を示す。図１５は、表現をフィルター処理するための例としての方法を示す。

Claims

音声認識システムのための言語モデリングデータを生成するシステムであって、
言語知識ベースを用いて既存ドメインのドメイン特有センテンスのセットからドメインに不変なフレーズとドメイン特有のフレーズとを識別して抽出する表現抽出装置と、
新しいドメインに対する語彙を用いて、前記識別され抽出されたドメイン特有のフレーズを新しいドメインにおける第１フレーズにマッピングする概念構造マッピング装置と、
前記識別され抽出されたドメインに不変なフレーズを、ドメインに共通のフレーズと連結して前記新しいドメインにおける第２フレーズにする連結モジュールと、
非現実的なフレーズを前記第１フレーズ及び第２フレーズから識別し除去するフィルター構成と、
前記非現実的なフレーズの除去の後に前記第１フレーズおよび第２フレーズの残りのものを前記言語モデリングデータとして記憶するためのデータ記憶アレンジメントと、
を備えるシステム。
請求項１記載のシステムであって、前記新しいドメインに対する語彙を用い前記新しいドメインの文法を用いることなしに前記言語モデリングデータを生成するよう構成されるシステム。
請求項１記載のシステムであって、前記ドメインに不変なフレーズは、慣用言語要素、時間的言語要素、空間的言語要素、及び金銭的言語要素のうちの少なくとも１つを含むシステム。
請求項１記載のシステムであって、前記ドメインに不変なフレーズは、時間的言語要素と空間的言語要素の組合せを含むシステム。
請求項１記載のシステムであって、前記言語知識ベースが語彙的な参照情報源を含むシステム。
請求項５記載のシステムであって、前記語彙的な参照情報源が辞書を含むシステム。
請求項６記載のシステムであって、前記辞書が電子辞書を含むシステム。
請求項７記載のシステムであって、前記電子辞書がデータネットワークを介して利用可能なシステム。
請求項８記載のシステムであって、前記データネットワークがインターネットを含むシステム。
請求項１記載のシステムであって、前記概念構造マッピング装置が、前記既存ドメインの少なくとも１つの単語を前記新しいドメインの少なくとも１つの単語に相関させるドメイン特有の単語対マッピングテーブルを含むシステム。
音声認識システムのための言語モデリングデータを生成するためのコンピュータによって実行される方法であって、
コンピュータプロセッサにより既存ドメインのドメイン特有センテンスのセットから言語知識ベースを用いて、ドメインに不変なフレーズとドメイン特有のフレーズとを識別し抽出するステップと、
コンピュータプロセッサにより新しいドメインに対する語彙を用いて、前記識別され抽出されたドメイン特有のフレーズを新しいドメインの第１フレーズにマッピングするステップと、
コンピュータプロセッサによりドメインに共通のフレーズと、前記識別され抽出されたドメインに不変なフレーズを連結して前記新しいドメインにおける第２フレーズにするステップと、
コンピュータプロセッサにより前記第１フレーズ及び前記第２フレーズから非現実的なフレーズを除去するステップと、
前記非現実的なフレーズの除去の後に前記第１フレーズ及び第２フレーズの残りのものを前記言語モデリングデータとして記憶するステップと、
を含む方法。
請求項１１記載の方法であって、前記抽出されたドメイン特有のフレーズをマッピングするステップが、既存ドメインの少なくとも１つの単語を識別し、新しいドメインの少なくとも１つの単語と相関付けるためのドメイン特有の単語対マッピングテーブルを用いるステップを含む方法。
請求項１１記載の方法であって、前記抽出されたドメイン特有のフレーズをマッピングするステップが、前記マッピングされたドメイン特有のフレーズの自然さを確認するために、前記マッピングされたドメイン特有のフレーズに対して、隣接単語連語確認検定を実行するステップを含む方法。
請求項１１記載の方法であって、前記連結するステップが、隣接する単語及び隣接するフレーズのうちの少なくとも１つの滑らかさを保証するために、前記連結されたドメインに不変なフレーズに対する統計的連語測定を実行するステップと、新しいドメインに対する候補センテンスを形成するために、連語度の高い対を連鎖させるステップとを含む方法。
請求項１４記載の方法であって、前記フィルター処理するステップが、前記候補センテンスの追加の統計的連語測定を実行するステップと、所定値より低い連語値を有する候補センテンスを除去するステップとを含む方法。
請求項１１記載の方法であって、前記新しいドメインが、ナビゲーション・システム、ホテル情報システム及びレストラン情報システムのうちの少なくとも１つを含む方法。
請求項１６記載の方法であって、前記ナビゲーション・システムが自動車ナビゲーション・システムを含む方法。
請求項１６記載の方法であって、前記ナビゲーション・システムがハンドヘルド・デバイスを含む方法。
請求項１８記載の方法であって、前記ハンドヘルド・デバイスが携帯電話機を含む方法。
プログラムを記録したコンピュータ読み取り可能な記録媒体であって、コンピュータに、
言語知識ベースを用いて既存ドメインのドメイン特有センテンスのセットからドメインに不変なフレーズとドメイン特有のフレーズとを識別し抽出するステップと、
新しいドメインに対する語彙を用いて、識別され抽出されたドメイン特有のフレーズを新しいドメインの第１フレーズにマッピングするステップと、
ドメインに共通のデータと、前記識別され抽出されたドメインに不変なフレーズを連結して前記新しいドメインにおける第２フレーズにするステップと、
前記第１フレーズ及び第２フレーズから非現実的なフレーズを除去するステップと、
前記非現実的なフレーズの除去の後に前記第１フレーズと前記第２フレーズの残りのものを言語モデリングデータとして記憶するステップと、
を実行させるためのプログラムを記録した、記録媒体。
請求項２０記載の記録媒体であって、前記抽出されたドメイン特有のフレーズをマッピングするステップが、既存ドメインの少なくとも１つの単語を識別し、新しいドメインの少なくとも１つの単語と相関付けるためのドメイン特有の単語対マッピングテーブルを用いるステップを含む記録媒体。
請求項２０記載の記録媒体であって、前記抽出されたドメイン特有のフレーズをマッピングするステップが、前記マッピングされたドメイン特有のフレーズの自然さを確認するために、前記マッピングされたドメイン特有のフレーズに対して、隣接単語連語確認検定を実行するステップを含む記録媒体。
請求項２０記載の記録媒体であって、前記連結するステップが、隣接する単語及び隣接するフレーズのうちの少なくとも１つの滑らかさを保証するために、前記連結されたドメインに不変なフレーズに対する統計的連語測定を実行するステップと、新しいドメインに対する候補センテンスを形成するために、連語度の高い対を連鎖させるステップとを含む記録媒体。
請求項２３記載の記録媒体であって、前記フィルター処理するステップが、前記候補センテンスの追加の統計的連語測定を実行するステップと、所定の値より低い連結値を有する候補センテンスを除去するステップとを含む記録媒体。
請求項２０記載の記録媒体であって、前記新しいドメインが、ナビゲーション・システム、ホテル情報システム及びレストラン情報システムのうちの少なくとも１つを含む記録媒体。
請求項２５記載の記録媒体であって、前記ナビゲーション・システムが自動車ナビゲーション・システムを含む記録媒体。
請求項２５記載の記録媒体であって、前記ナビゲーション・システムがハンドヘルド・デバイスを含む記録媒体。
請求項２７記載の記録媒体であって、前記ハンドヘルド・デバイスが携帯電話機を含む記録媒体。