JP4740837B2 - 音声認識における統計的言語モデリング方法、システム及び記録媒体 - Google Patents

音声認識における統計的言語モデリング方法、システム及び記録媒体 Download PDF

Info

Publication number
JP4740837B2
JP4740837B2 JP2006509862A JP2006509862A JP4740837B2 JP 4740837 B2 JP4740837 B2 JP 4740837B2 JP 2006509862 A JP2006509862 A JP 2006509862A JP 2006509862 A JP2006509862 A JP 2006509862A JP 4740837 B2 JP4740837 B2 JP 4740837B2
Authority
JP
Japan
Prior art keywords
domain
phrase
recording medium
phrases
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006509862A
Other languages
English (en)
Other versions
JP2006525552A (ja
Inventor
ウェン,フリアン
ラグフナタン,バドリ
シュミット,ホーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of JP2006525552A publication Critical patent/JP2006525552A/ja
Application granted granted Critical
Publication of JP4740837B2 publication Critical patent/JP4740837B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

発明の分野
本発明は、音声認識における統計的言語モデリング方法に関する。
背景情報
音声認識は、発声された波形を、例えば英語で表現されたセンテンスのようなテキストの単語列に変換する処理として定義することができる。
音声認識処理は、3つの主要な段階に分類され得る。即ち、前処理段階、聴覚モデリング段階及び言語モデリング段階である。前処理段階において、「生の」音声信号が、顕著な特徴についてスペクトル分析され、デジタル・エンコードされた特徴ベクトルのシーケンスに変換される。聴覚モデリング段階において、音響環境、性差及び方言差、並びに音声学に関する知識を用いて、特徴ベクトルのシーケンスが調べられ、音シーケンス(例えば、単母音、または協和音)が抽出される。言語モデリング段階において、可能性の在る単語を構成するのは何か、どの単語がどの順序で発生し得るかに関する知識を用いて、音シーケンスが対応する単語シーケンスに変換される。
最近の進歩にも拘わらず、音声認識システムは、人間が有する精巧さのレベルに達していないと信じられている。特に、様々な音響環境と組み合わされた言語の複雑性は、真に人間に近い音声認識システムの実現に対して、重大な課題を提起する。例えば、音声認識システムは、語彙的及び文法的な複雑性、並びに、各種の口語、及び様々なアクセント及び会話スタイルによる音声の不確定性に取り組まなければならない。そのため、複雑性を低減し、不確定性を制限するために、音声認識システムは、例えば航空便/旅行情報システム(ATIS)又は電話帳情報システムのような特定ドメインのアプリケーションのために小規模で構築されても良い。
高品質な音声認識システムを構築するため、システムによる音声の解釈を案内し、システムが適切なアクションを決定することを可能とするよう、様々な言語的現象を含む大量のドメイン・データが必要とされ得る。例えば、約2、000語の中程度のサイズのアプリケーション特有ドメインをサポートする音声認識システムは、適正な言語トレーニング・モデルを構築するために、20、000個の「ドメイン内の」センテンスを集めることを必要とし得ると信じられている。そのようなシステムのためのデータ収集は、退屈で、時間がかかり、高価で、且つ、会話スタイル又は慣用的用法のような音声の重要な側面を無視し得る。更に、集められたドメイン内のセンテンスの数が必要とされる量より少ない場合、システムが特定のドメインで利用される可能性のある表現の全種類をカバーするのに十分なデータを欠く、「データ欠乏」の問題が起こり得る。従って、新しいアプリケーション・ドメインをサポートするための音声認識システムのトレーニングには、集める必要があり得るデータ量のために、かなりの量の時間及び労力が必要とされ得る。
音声対話システムのためにデータを合成する様々な技法が存在し得る。A.Hunt及びA.Blackによる「連結音声合成システムにおける大型言語音声データベースを用いたユニット選択」(ICASSP−96 Proc、1996年、ジョージア州アトランタ)に示されている通り、まず、韻律的特長と、音声を合成するために必要とされる音素列とを定義する目標仕様を設定し、次に、連結のためのデータベースから適切な音素ユニットを選択することにより、音声が合成され得る。M.Raynerら(編集者)により印刷された、F.L.Weng、A.Stolcke及びM.Cohenによる「多言語音声翻訳のための言語モデリング」(Spoken Language Translator Cambridge University Press、2000年、281)に示されている通り、既存の文法を利用してフレーズの塊(即ち、完全な又は部分的な発話)が生成され、例えば数千個のセンテンスである少量のドメイン内のデータに挿入され得る。P.F.Brownらによる「自然言語のクラスに基づくnグラムモデル」(Association for Computational Linguistics 18(4)、1992年、467−479頁)に示される通り、テキストのサンプルにおける先行する単語からの単語の予測の問題は、単語のクラスに基づくnグラムモデルにより対処され得る。nグラムモデルは、統計的アルゴリズムを利用し、該単語が他の単語と同時に現れる頻度に基づいて、単語をクラスに割り当て得る。単語クラスは、例えば音声認識又は文法訂正などの広範なアプリケーションを提供する言語モデリングにおいて利用され得る。新しいドメインに対するデータの生成は、この取り組みによって容易に得られるものではないと信じられてきた。なぜなら、下位のnグラムは十分な長距離の情報を含まず、上位のnグラムモデルは、入手可能及び/又は実現可能ではないかもしれない大量のトレーニング・データを必要とし得るからである。
発明の概要
本発明の例としての実施の形態及び/又は例としての方法は、既存ドメインのデータ、言語知識及び統計手法を用いて新しいドメインのデータを構築することにより、音声認識システムのデータ収集要求を低減又は除去する。人間の会話における、かなりの量の言語的現象は、1つの音声アプリケーション・ドメインから他のドメインに移すことが可能であるため、1つの音声アプリケーション・ドメインのために開発されたデータは、最小の又は少ない努力で、他の音声アプリケーション・ドメインのためのデータに適応され得ると信じられる。このため、本発明は、多数の一般的に利用可能な情報源を用いて、例えば、ペンシルヴァニア大学の言語データ・コンソーシアム(LDC)によるPenn Treebankにおけるスイッチボード・データ、或いは、例えばWordNetなどのオンライン語彙参照システムのような、新しいデータを生成し得る。
他のデータ収集技法と比べて、本発明の例としての方法は、新しいドメインのためのデータを生成するために、予め存在するドメイン特有の文法を必要としない。新しいドメインと関連付けられる文法的な制約の多くは、既存のドメインの中に備わっていると信じられるからである。従って、新しいドメインに対する語彙のみが必要とされ得る。このため、既存ドメインのドメイン特有のデータは、例えば20,000個のセンテンスなどの合理的なサイズであってよく、該データは、新しいドメインに対するデータを生成するための最初の基礎として利用され得る。
本発明の例としての実施の形態及び/又は例としての方法は、また、例えば新しいドメインに対するセンテンスのセットを生成するために単語レベルで動作する言語的及び統計的な手段を含む、データ合成のための言語的及び統計的な手段を利用し得る。このため、新しいドメインに対する語彙及び概念マッピングテーブルを除いて、目標仕様は不必要とされ得る。
本発明の例としての実施の形態及び/又は例としての方法は、合成されたデータの局所的及び大域的な自然さを提供するために、例えば、局所的及び大域的な連語統計と併せた言語的不変条件の利用を含む、隣接単語又は隣接フレーズ間の統計的関係に依存し得る。
本発明の例としての実施の形態及び/又は例としての方法は、例えば自動車ナビゲーション・システム、ホテル及びレストラン情報システム、ハンドヘルド・デバイス、及び携帯電話機などを含む様々なアプリケーション・ドメインに対するデータを生成し得る。本発明の例としての実施の形態及び/又は例としての方法は、また、新しいユーザが、運転中、歩行中、飛行中などであったとしても音声言語対話システムの恩恵を受け得るよう、音声言語対話システムに新しいアプリケーションを追加するための時間量を低減し得る。
本発明の例としての実施の形態は、音声認識システムのための言語モデリングデータを生成するシステムであって、言語知識ベースを用いて既存ドメインのドメイン特有データから表現を抽出する表現抽出装置と、新しいドメインに対する語彙を用いて、抽出された表現を新しいドメインにおける表現にマッピングする概念構造マッピング装置と、抽出された表現をドメインに共通のデータと連結する連結モジュールと、マッピングされ連結された表現の少なくとも1つにおける非現実的な表現を識別しフィルター処理するフィルター構成とを有するシステムを目的とする。
本発明の更に他の例としての実施の形態は、予め存在するドメイン特有の文法なしに言語モデリングデータを生成するよう構成されたシステムを目的とする。
本発明の更に他の例としての実施の形態は、抽出された表現がドメインに不変な表現を含むシステムを目的とする。
本発明の更に他の例としての実施の形態は、抽出された表現が、慣用表現、時間的表現、空間的表現、及び金銭的表現のうちの少なくとも1つを含むシステムを目的とする。
本発明の更に他の例としての実施の形態は、抽出された表現が時間的表現と空間的表現との組合せを含むシステムを目的とする。
本発明の更に他の例としての実施の形態は、言語知識ベースが語彙的な参照情報源を含むシステムを目的とする。
本発明の更に他の例としての実施の形態は、語彙的な参照情報源が辞書を含むシステムを目的とする。
本発明の更に他の例としての実施の形態は、辞書が電子辞書を含むシステムを目的とする。
本発明の更に他の例としての実施の形態は、電子辞書がデータネットワークを介して利用可能なシステムを目的とする。
本発明の更に他の例としての実施の形態は、データネットワークがインターネットを含むシステムを目的とする。
本発明の更に他の例としての実施の形態は、概念構造マッピング装置が、既存ドメインの少なくとも1つの単語を新しいドメインの少なくとも1つの単語に相関させるための、ドメイン特有の単語対マッピングテーブルを含むシステムを目的とする。
本発明の例としての方法は、音声認識システムのための言語モデリングデータを生成する方法であって、言語知識ベースを用いて既存ドメインに対するドメイン特有データから表現を抽出するステップと、新しいドメインに対する語彙を用いて抽出された表現を新しいドメインの表現にマッピングするステップと、ドメインに共通のデータを用いて、抽出された表現を連結するステップと、マッピングされ連結された表現のうちの少なくとも1つをフィルター処理するステップとを含む方法を目的とする。
本発明の更に他の例としての方法は、言語モデリングデータを生成する方法であって、抽出された表現をマッピングするステップが、既存ドメインの少なくとも1つの単語を識別し、新しいドメインの少なくとも1つの単語と相関付けるためにドメイン特有の単語対マッピングテーブルを確立するステップを含む方法を目的とする。
本発明の更に他の例としての方法は、言語モデリングデータを生成する方法であって、抽出された表現をマッピングするステップが、マッピングされた表現の自然さを確認するために、マッピングされた表現に対して、隣接単語連語確認検定を実行するステップを含む方法を目的とする。
本発明の更に他の例としての方法は、言語モデリングデータを生成する方法であって、連結するステップが、隣接単語及び隣接フレーズのうちの少なくとも1つの滑らかさを保証するために、連結された表現の統計的連語測定を実行するステップと、新しいドメインに対する候補センテンスを形成するために、連語度の高い対を連鎖させるステップとを含む方法を目的とする。
本発明の更に他の例としての方法は、言語モデリングデータを生成する方法であって、フィルター処理するステップが、候補センテンスの追加の統計的連語測定を実行するステップと、所定の値より低い連語値を有する候補センテンスを除去するステップとを含む方法を目的とする。
本発明の更に他の例としての方法は、言語モデリングデータを生成する方法であって、新しいドメインが、ナビゲーション・システム、ホテル情報システム及びレストラン情報システムのうちの少なくとも1つを含む方法を目的とする。
本発明の更に他の例としての方法は、言語モデリングデータを生成する方法であって、ナビゲーション・システムが自動車ナビゲーション・システムを含む方法を目的とする。
本発明の更に他の例としての方法は、言語モデリングデータを生成する方法であって、ナビゲーション・システムがハンドヘルド・デバイスを含む方法を目的とする。
本発明の更に他の例としての方法は、言語モデリングデータを生成する方法であって、ハンドヘルド・デバイスが携帯電話機を含む方法を目的とする。
本発明の例としての実施の形態及び/又は例としての方法は、言語知識ベースを用いて既存ドメインに対するドメイン特有のデータから表現を抽出するステップと、新しいドメインに対する語彙を用いて、抽出された表現を新しいドメインの表現にマッピングするステップと、ドメインに共通のデータを用いて、抽出された表現を連結するステップと、マッピングされ連結された表現のうちの少なくとも1つをフィルター処理するステップとを含むシーケンスを実行する方法を実現するために、プロセッサにより実行される命令セットを有する記憶媒体を目的とする。
詳細な説明
本発明の例としての実施の形態は、コンピュータ、マイクロプロセッサ、又は本明細書に説明する方法を実現又は実行するために利用される他の適切な処理装置を含み得る。
図1は、言語知識ベースと新しいドメインに対する語彙とを用いて、1つのアプリケーション・ドメインのために開発されたデータセットを、新しいアプリケーション・ドメインにおける使用に適応するための例としてのシステム100を示す。例としてのシステム100は、慣用表現抽出装置101と、概念構造マッピング装置102と、連結モジュール103と、フィルター構造104とを備える。慣用表現抽出装置101は、既存ドメインからのドメイン特有データ151と、一般に利用可能な辞書及び他の情報源からの言語知識152とを用いて、会話スタイルの表現を生成する。概念構造マッピング装置102は、新しいドメインからの語彙154を用いて、既存ドメインと新しいドメインの間のドメイン特有表現のマッピングを確立する。連結モジュール103は、ドメインに共通のデータ153と、抽出された表現とを用いて、新しいドメインのための表現155を生成する。フィルター構成104は、非現実的な表現を除去する。
図2は、1つのアプリケーション・ドメインのために開発されたデータセットを新しいアプリケーション・ドメインにおける使用に適応させる例としての方法100を示す。例としての方法100は、抽出段階S21と、概念マッピング段階S22及び/又は連結段階S23と、フィルター処理段階S24とを含む。抽出段階S21において、ドメインに不変な表現を取得するために、言語知識ベースを用いて、会話スタイルの言語表現が抽出される。概念マッピング段階S22において、目標ドメインにおける新しい構造が取得される。連結段階S23において、目標ドメインにおける新しいセンテンス・パターンが利用可能なデータ情報源から繋ぎ合わされる。フィルター処理段階S24において、不適切又は望ましくないと考えられる表現の組合せが新しいドメインから除去される。段階S21〜S24のそれぞれは、以下に詳細に説明される。
抽出段階S21において、例えばロングマン出版社により出版されたロングマン現代英語辞典(LDOCE)、又はプリンストン大学のジョージ・ミラー教授及びその協力者により提供されるオープンなリソースであるWordNet(プリンストン大学のウェブサイトの認知科学グループ以下を参照)などの言語知識ベースを用いて、既存ドメインに特有のデータセットから、会話スタイルを有する言語表現が抽出される。特に、慣用表現、時間的表現及び/又は空間的表現という3つの種別の表現が抽出され得る。慣用表現は、特定の言語に特有又は特徴的な表現であり、例えば、センテンス開始表現(例えば、「I would like to」又は「Please tell me」)、センテンス終了表現(例えば、「You got it right?」又は「Is it ok?」)、及び談話標識(例えば、「Now」又は「But」)を含み得る。時間的表現は、例えばカレンダー日付又は時刻などの時間の態様を伝達する表現(例えば、「2003年1月14日月曜日」又は「午後3時まで」)である。空間的表現は、地理的な場所又は位置の指示などの、空間的範囲の態様に関する表現(例えば、「カリフォルニア州パロアルト」)である。より自然な表現の抽出が達成され得るよう、抽出目標は2つの種別の組合せであるため、時間的及び空間的な種別の表現は、一緒に抽出され得る。
慣用表現、時間的表現及び空間的表現は、ドメインに不変である傾向がある。即ち、特定のアプリケーション・ドメインに特有のものではなく、任意のドメインにおいて見出すことができる。従って、慣用表現、時間的表現及び空間的表現は、抽出されると、センテンスの合成又は連結の基礎ユニットとして役立ち得る。慣用表現、時間的表現及び空間的表現に加えて、例えば金銭的表現、及び人や組織の固有名称などの他のドメインに不変な表現もまた、抽出され得る。
概念マッピング段階S22において、既存アプリケーション・ドメインのドメイン特有表現が、新しいアプリケーション・ドメインの対応する単語にマッピングされる。特に、新しいドメインの1つ又はそれ以上の対応する単語と同様の概念を伝達する既存ドメインの1つ又はそれ以上の単語を識別し相関付けるために、ドメイン特有単語対マッピングテーブルが確立され得る。例えば、航空旅行情報システム(ATIS)のアプリケーション・ドメインに対する「飛行」という単語は、自動車ナビゲーション・システムのアプリケーション・ドメインにおける「走行」という単語と同様の概念を伝達し得る。また、テレビ番組ガイドのアプリケーション・ドメインにおける「走査」という単語は、電話帳支援のアプリケーション・ドメインにおける「検索」という単語と同様の概念を伝達し得る。
ドメイン特有単語対マッピングテーブルは、例えばロングマン現代英語辞典又はWordNetなどの一般に入手可能な辞書からの対応する項構造とともに、既存ドメインから抽出された多数の「見出し」単語、即ち主要な名詞、動詞又は他の品詞のマッピングを含み得る。
概念マッピング段階S22は、更に、例えば、通常の日常会話の中で2つの単語が対として一緒に現れる頻度を測定する、例えば相互情報検定、尤度比検定、又はx二乗検定などの、隣接単語連語確認検定を含み得る。そのような検定は、生成されたデータの「自然さ」を確認するために利用され得る単語連語統計測定値を生成する。特に、高い連語統計測定値は、「現実生活」の会話において当該対がしばしば一緒に利用されることを示し、低い連語統計測定値は、当該対があまり頻繁には一緒に利用されないか、又は全く一緒に利用されないことを示す。従って、マッピングは、確認のために特定の統計的測定値が達成された場合にのみ成功とみなされる。
特定の単語対が自然であるか否かを決定する際、隣接単語連語確認検定は、2つの単語が、該2つの単語の一方のみを含む又はいずれをも含まない他の単語対に比べ、いかに頻繁に一緒に現れるかを決定し得る。例えば、特定の単語対、例えば(w1、w2)が特定のデータセットにおいて自然であるか否かを知ることが望まれる場合、以下の4つの可能性のある出現シナリオに対して、統計的測定が実行され得る。即ち、(w1、w2)、(w1、〜w2)、(〜w1、w2)、及び(〜w1、〜w2)である。ただし、(w1、w2)は、それらの単語の一緒の対としての出現を表し、(w1、〜w2)は、w1と、w2ではない任意の単語との一緒の出現を表し、(〜w1、w2)は、w1ではない任意の単語と、w2との一緒の出現を表し、(〜w1、〜w2)は、w1ではない任意の単語と、w2ではない任意の単語との一緒の出現を表す。4つの可能性のある出現シナリオに対する統計が生成されると、結果としてのxスコアが、特定の閾値と比較される。xスコアが閾値より高い場合に、(w1、w2)は自然とみなされ、そうではない場合に、(w1、w2)は不自然とみなされる。
概念マッピング段階S22の代わりに、又は概念マッピング段階S22に加えて、抽出された表現の適切な「滑らかさ」を保証するために、連結段階S23が実行される。連結段階は、局所レベルの連結と大域レベルの連結という2つのレベルで実現され得る。局所レベルにおいて、統計的連語測定は、隣接する単語/フレーズの各対の滑らかさを保証するために利用される。大域レベルでは、候補センテンスを形成するために、有効な対が繋ぎ合わされる。
2つのフレーズの滑らかさを測定する際、対応するフレーズの主要語が連結に利用される。フレーズの主要語を識別するために、キーワード発見技法が利用され得る。キーワード発見技法は、手がかりを用いて、フレーズが特定の意味カテゴリに属するか否か、及びどの単語が当該フレーズの主要語かを識別する。例えば、「通り」という単語は、通りの名前のフレーズの意味カテゴリに対する手がかりであると同時に、通りの名前のフレーズ(例えば、メイン通り)に対する主要単語であり得る。「市」という単語は、市の名前のフレーズの意味カテゴリに対する手がかりであると同時に、市の名前のフレーズ(例えば、ニューヨーク市)に対する主要語であり得る。また、「へ」という単語は、目的地フレーズの意味カテゴリに対する手がかりであり得る。
隣接単語対の統計は、例えばPenn Treebankデータセットの中のウォール・ストリート・ジャーナルのような、ドメイン特有ではないデータから得られ、ドメインから独立であると考えられ得る。このことは、主要語の対の統計に対しても同様に当てはまり得る。
フィルター処理段階S24において、取得されたデータが過剰生成されないことを保証するために、新しいドメインにおいて出現しそうもないと考えられ得る非現実的な表現又は表現の組合せが取り除かれ得る。非現実的なパターンは、ネイティブ・スピーカーにより、又は自動処理を通じて、特定され得る。自動処理において、単語のセンテンスは、最初の2段階の副産物である意味カテゴリのシーケンスに変換される。主要な動作又は動詞、並びに意味カテゴリのシーケンスが与えられると、任意の一般的なコーパスにおける出現頻度が測定され得る。
図3は、表現を抽出するための例としての方法300を示す。ステップS31において、例えば「who」、「what」、「where」、「when」、「why」、「which」、「one of which」、及び「whatever」などの表現を含むwh型表現が抽出される。ステップS32において、時間、日付及び場所の表現が抽出される。特に、「連続的」又は「純粋な」(即ち、他の種別の表現を含まない)、時間、日付及び場所のみの表現が抽出される。ステップS33において、動詞、名詞、形容詞、形容動詞、限定詞、及び他の開集合要素が、例えば商業的に入手可能なタグ付けアプリケーションによって抽出される。
図4は、wh型表現を抽出する例としての方法400を示す。ステップS41において、既存ドメインのセンテンス(A)は、既存ドメインのタグ付けされたセンテンスのセット(ST_A)を形成するために、フレーズタグをつけられる。ステップS42において、談話標識で始まるセンテンス及びwh型の単語を含むセンテンスについて、タグ付けされたセンテンスのセット(ST_A)が検索され、談話標識及びwh型単語を有する、既存ドメインのタグ付けされたセンテンスのサブセット(Sdw_A)が形成される。ステップS43において、wh型フレーズのセット(Swhp)を形成するために、既存ドメインの談話標識及びwh型単語を有するタグ付けされたセンテンスのサブセット(Swd_A)の各センテンスからwh型表現が取得される。
図5は、既存ドメインの談話標識及びwh型単語を有するタグ付けされたセンテンスのサブセット(Swd_A)の各センテンスからwh型表現を取得する例としての方法500を示す。ステップS51において、現在のタグ付けされたセンテンスの第2位置の単語が、例えば、当該単語が、前置詞、接続詞又は限定詞等のセットのようなタグ付けされた単語の特定のセットに属することを示すようタグ付けされているかどうかが調べられる。現在の位置の単語がタグ付けされている場合、ステップS52において、第1位置から始まり現在の位置までの単語シーケンスが、wh型フレーズのセット(Swhp)に追加される。そうではない場合、ステップS53において、次の位置が調べられる。例としての方法500は、既存ドメインの談話標識及びwh型単語を有するタグ付けされたセンテンスのサブセット(Sdw_A)の各センテンスについて実行される。
図6は、時間、日付及び場所に対する連続的な表現を抽出する例としての方法600を示す。ステップS61において、時間、日付及び/又は場所フレーズの構成に関連する単語及びタグのセットが決定され、「フレーズ内」のタグセットとして集合的に識別される。これらの単語は、例えば、現地時間、昼又は夜の期間、カレンダー日付、平日、月、太陰周期、地理的な場所又は位置、或いはそれらの任意の組合せなどの表現を、それらの単語を接続する前置詞及び/又は接続詞とともに含み得る。ステップS62において、例えばアプリケーション特有の名詞、代名詞、動詞、助動詞等、又はそれらの任意の組合せにより、アプリケーション・ドメインに特有の語彙が生成される。ステップS63において、時間、日付及び場所の表現に関連するとは通常考えられない単語及びタグのセットが決定され、「フレーズ外」のセットとして集合的に識別される。ステップS64において、フレーズ内タグセットからのタグを付けられた単語を含むが、フレーズ外タグセットからのタグを付けられた単語は含まないフレーズが抽出される。
図7は、フレーズ内タグセットからのタグを付けられた単語を含むが、フレーズ外タグセットからのタグを付けられた単語を含まないフレーズを抽出する、例としての方法700を示す。ステップS71及びS72において、bフレーズがオフに設定され、センテンスの単語が第1位置から最終位置まで順次調べられる。現在調べられている単語がフレーズ外のタグセットのタグを付けられている場合、ステップS73において、終了の表現が除去されるが、現在調べられている単語がフレーズ内のタグセットのタグを付けられている場合、ステップS74において、bフレーズ・フラグがオンにされ、bフレーズ・フラグがオンの場合には、ステップS75において、フレーズが連結される。
図8は、フレーズ表現を抽出する例としての方法800を示す。ステップS81及びS83において、入力された表現が、終了位置から第1位置への逆の順番で、フレーズ内の表現セットに含まれる単語かどうか、順次調べられる。単語がフレーズ内の表現セットに含まれることがわかった場合、ステップS82において、第1の単語から現在の単語までの単語シーケンスが返される。
図9は、既存ドメインからの表現を新しいドメインの対応する表現にマッピングする例としての方法900を示す。ステップS91において、新しいドメインに存在する代替可能又は交換可能な表現に対応する、既存ドメインに存在する表現セットが作成される。ステップS92において、新しいドメインに存在する受容可能な表現に対応する既存ドメインに存在する表現のセットが作成される。ステップS93において、新しいドメインには存在しない表現のセットが作成される。ステップS94において、上記の代替可能、受容可能及び受容不可能な表現の3つの新しいセットと、既存ドメインのタグ付けされたセンテンスのセット(ST_A)とを用いて、既存ドメインから新しいドメインへの表現のマッピングが実行される。
図10は、代替可能、受容可能及び受容不可能な表現の上記の3つの新しく作成されたセットと、既存ドメインのタグ付けされたセンテンス(ST_A)のセットとを用いて既存ドメインから新しいドメインへ表現をマッピングする例としての方法1000を示す。ステップS1001において、代替可能、受容可能及び受容不可能な表現の上記の3つの新しく作成されたセットに含まれる表現について、タグ付けされたセンテンスが調べられる。表現が、代替可能な表現のセットに含まれることがわかった場合、ステップS1002において、該表現が代替可能表現に置き換えられる。表現が、受容可能表現のセットに含まれることがわかった場合、ステップS1003において、該表現はそのままにされる。表現が、受容不可能表現のセットに含まれることがわかった場合、センテンスが除去されるか、又はステップS1005において、該センテンスが、新しいドメインのタグ付けされたセンテンスのセット(ST_B)に含められる。例としての方法1000は、既存ドメインのタグ付けされたセンテンスのセット(ST_A)に含まれる各センテンスについて実行される。
図11は、航空情報システム(ATIS)アプリケーション・ドメインの表現の、自動車ナビゲーション・システムのアプリケーション・ドメインの表現への表現のマッピングを支援するための、代替可能な表現対の例としてのテーブル1100を示す。大文字のエントリはフレーズタグを表し、小文字のエントリは表現の実際の単語を表す。
図12は、航空情報システム(ATIS)のアプリケーション・ドメインから自動車ナビゲーション・システムのアプリケーション・ドメインへの直接変換のための、受容可能な表現の例としてのテーブル1200を示す。直接変換のための受容可能な表現の種別には、例えば、場所、日付、時間、金銭、wh型、前置詞、接続詞、助動詞及び限定詞が含まれる。
図13は、連語統計を生成する例としての方法1300を示す。ステップS1301において、可能性の或る表現の全てのサブセットが集められる。これらのサブセットには、例えば、センテンス開始タグで始まりセンテンス終了タグで終了する表現であって、全てのwh型表現のセット(例えば、全てのwh名詞、wh動詞、及びwhンテンスを含む)、全ての時間表現のセット、全ての場所表現のセット、全ての助動詞のセット、全ての接続詞のセット、新しいドメインの全ての動詞のセット、新しいドメインの全ての名詞のセット、及び新しいドメインの全ての形容詞のセットからの要素の任意の組合せを含む表現が含まれ得る。ステップS1302において、全ての可能性のある表現対を形成するために、可能性のある表現のサブセットの各インスタンスが、該サブセットの全ての他のインスタンスと対にされる。ステップS1303において、可能性のある表現の対の各インスタンスに対する連語値が計算され、所定の閾値と比較される。計算された連語値が閾値を超える場合、ステップS1304において、特定の対のインスタンスが連語度の高い対のセットに記憶される。
図14は、表現を連結する例としての方法1400であって、特に、連語度の高い対のセットを、新しいドメインのための合成されたセンテンスに連結する方法を示す。ステップS1401において、対の第1位置(即ち、対の左側部分)にセンテンス開始タグを含む、連語度の高い対のセットに記憶された全ての表現対により、新しいドメインのためのセンテンス列が開始される。ステップS1402において、センテンス列を完成するために、センテンス終了タグが現れるまで、各センテンス列が、右側部分が該センテンス列の一番左の部分と一致する対と、繰り返し連結される。ステップS1403において、完成したセンテンス列が、新しいドメインに対するタグ付けされたセンテンスのセットST_Bに割り当てられる。連語度の高い表現対から合成されたセンテンスを作成する例としての方法1400は、再帰的な方法で実行され得る。
連結の擬似コードの例は、以下の通りである。
Figure 0004740837
図15は、表現をフィルター処理する例としての方法1500を示す。ステップS1501において、合成されるセンテンスのそれぞれが調べられ、動詞、名詞、時間、日付及び場所の要素が存在する場合に、それらが識別される。ステップS1502において、それらの要素に対する連語値が計算される。例えば、センテンスの連結された動詞/名詞、動詞/時間、動詞/日付、動詞/場所、名詞/時間、名詞/日付、及び名詞/場所の要素対に対する連語値が計算される。ステップS1503において、計算された連語値が所定の値より低い連結要素対が除去される。
フィルター処理の擬似コードの例は、以下の通りである。
Figure 0004740837
図1は、言語知識ベースと、新しいドメインに対する語彙とを用いて、1つのアプリケーション・ドメインのために開発されたデータセットを、新しいアプリケーション・ドメインにおける利用に適応させるための例としてのシステムを示す。 図2は、1つのアプリケーション・ドメインのために開発されたデータセットを、新しいアプリケーション・ドメインにおける使用に適応させる例としての方法を示す。 図3は、表現を抽出する例としての方法を示す。 図4は、wh型表現を抽出する例としての方法を示す。 図5は、タグ付けされたセンテンスのサブセットからwh型表現を抽出する例としての方法を示す。 図6は、時間、日付、及び場所に対する連続的表現を抽出する例としての方法を示す。 図7は、フレーズ内で定義されたタグセットからタグ付けされた単語を含むが、フレーズ外で定義されたタグセットからタグ付けされた単語を含まないフレーズを抽出する例としての方法を示す。 図8は、フレーズを抽出する例としての方法を示す。 図9は、既存ドメインからの表現を、新しいドメインの対応する表現にマッピングする例としての方法を示す。 図10は、代替可能表現、受容可能表現、及び許容不可能表現のセットを用いて、既存ドメインからの表現を新しいドメインにマッピングする例としての方法を示す。 図11は、航空情報システム(ATIS)の表現の自動車ナビゲーション・システムへのマッピングを支援するための代替可能表現対の例としてのテーブルを示す。 図12は、航空情報システム(ATIS)から自動車ナビゲーション・システムへの変換のための受容可能表現の例としてのテーブルを示す。 図13は、連語統計を生成するための例としての方法を示す。 図14は、表現を連結するための例としての方法を示す。 図15は、表現をフィルター処理するための例としての方法を示す。

Claims (28)

  1. 音声認識システムのための言語モデリングデータを生成するシステムであって、
    言語知識ベースを用いて既存ドメインのドメイン特有センテンスのセットからドメインに不変なフレーズとドメイン特有のフレーズとを識別して抽出する表現抽出装置と、
    新しいドメインに対する語彙を用いて、前記識別され抽出されたドメイン特有のフレーズを新しいドメインにおける第1フレーズにマッピングする概念構造マッピング装置と、
    前記識別され抽出されたドメインに不変なフレーズを、ドメインに共通のフレーズと連結して前記新しいドメインにおける第2フレーズにする連結モジュールと、
    非現実的なフレーズを前記第1フレーズ及び第2フレーズから識別し除去するフィルター構成と、
    前記非現実的なフレーズの除去の後に前記第1フレーズおよび第2フレーズの残りのものを前記言語モデリングデータとして記憶するためのデータ記憶アレンジメントと、
    を備えるシステム。
  2. 請求項1記載のシステムであって、前記新しいドメインに対する語彙を用い前記新しいドメインの文法を用いることなしに前記言語モデリングデータを生成するよう構成されるシステム。
  3. 請求項1記載のシステムであって、前記ドメインに不変なフレーズは、慣用言語要素、時間的言語要素、空間的言語要素、及び金銭的言語要素のうちの少なくとも1つを含むシステム。
  4. 請求項1記載のシステムであって、前記ドメインに不変なフレーズは、時間的言語要素と空間的言語要素の組合せを含むシステム。
  5. 請求項1記載のシステムであって、前記言語知識ベースが語彙的な参照情報源を含むシステム。
  6. 請求項5記載のシステムであって、前記語彙的な参照情報源が辞書を含むシステム。
  7. 請求項6記載のシステムであって、前記辞書が電子辞書を含むシステム。
  8. 請求項7記載のシステムであって、前記電子辞書がデータネットワークを介して利用可能なシステム。
  9. 請求項8記載のシステムであって、前記データネットワークがインターネットを含むシステム。
  10. 請求項1記載のシステムであって、前記概念構造マッピング装置が、前記既存ドメインの少なくとも1つの単語を前記新しいドメインの少なくとも1つの単語に相関させるドメイン特有の単語対マッピングテーブルを含むシステム。
  11. 音声認識システムのための言語モデリングデータを生成するためのコンピュータによって実行される方法であって、
    コンピュータプロセッサにより既存ドメインのドメイン特有センテンスのセットから言語知識ベースを用いて、ドメインに不変なフレーズとドメイン特有のフレーズとを識別し抽出するステップと、
    コンピュータプロセッサにより新しいドメインに対する語彙を用いて、前記識別され抽出されたドメイン特有のフレーズを新しいドメインの第1フレーズにマッピングするステップと、
    コンピュータプロセッサによりドメインに共通のフレーズと、前記識別され抽出されたドメインに不変なフレーズを連結して前記新しいドメインにおける第2フレーズにするステップと、
    コンピュータプロセッサにより前記第1フレーズ及び前記第2フレーズから非現実的なフレーズを除去するステップと、
    前記非現実的なフレーズの除去の後に前記第1フレーズ及び第2フレーズの残りのものを前記言語モデリングデータとして記憶するステップと、
    を含む方法。
  12. 請求項11記載の方法であって、前記抽出されたドメイン特有のフレーズをマッピングするステップが、既存ドメインの少なくとも1つの単語を識別し、新しいドメインの少なくとも1つの単語と相関付けるためのドメイン特有の単語対マッピングテーブルを用いるステップを含む方法。
  13. 請求項11記載の方法であって、前記抽出されたドメイン特有のフレーズをマッピングするステップが、前記マッピングされたドメイン特有のフレーズの自然さを確認するために、前記マッピングされたドメイン特有のフレーズに対して、隣接単語連語確認検定を実行するステップを含む方法。
  14. 請求項11記載の方法であって、前記連結するステップが、隣接する単語及び隣接するフレーズのうちの少なくとも1つの滑らかさを保証するために、前記連結されたドメインに不変なフレーズに対する統計的連語測定を実行するステップと、新しいドメインに対する候補センテンスを形成するために、連語度の高い対を連鎖させるステップとを含む方法。
  15. 請求項14記載の方法であって、前記フィルター処理するステップが、前記候補センテンスの追加の統計的連語測定を実行するステップと、所定値より低い連語値を有する候補センテンスを除去するステップとを含む方法。
  16. 請求項11記載の方法であって、前記新しいドメインが、ナビゲーション・システム、ホテル情報システム及びレストラン情報システムのうちの少なくとも1つを含む方法。
  17. 請求項16記載の方法であって、前記ナビゲーション・システムが自動車ナビゲーション・システムを含む方法。
  18. 請求項16記載の方法であって、前記ナビゲーション・システムがハンドヘルド・デバイスを含む方法。
  19. 請求項18記載の方法であって、前記ハンドヘルド・デバイスが携帯電話機を含む方法。
  20. プログラムを記録したコンピュータ読み取り可能な記録媒体であって、コンピュータに、
    言語知識ベースを用いて既存ドメインのドメイン特有センテンスのセットからドメインに不変なフレーズとドメイン特有のフレーズとを識別し抽出するステップと、
    新しいドメインに対する語彙を用いて、識別され抽出されたドメイン特有のフレーズを新しいドメインの第1フレーズにマッピングするステップと、
    ドメインに共通のデータと、前記識別され抽出されたドメインに不変なフレーズを連結して前記新しいドメインにおける第2フレーズにするステップと、
    前記第1フレーズ及び第2フレーズから非現実的なフレーズを除去するステップと、
    前記非現実的なフレーズの除去の後に前記第1フレーズと前記第2フレーズの残りのものを言語モデリングデータとして記憶するステップと、
    を実行させるためのプログラムを記録した記録媒体。
  21. 請求項20記載の記録媒体であって、前記抽出されたドメイン特有のフレーズをマッピングするステップが、既存ドメインの少なくとも1つの単語を識別し、新しいドメインの少なくとも1つの単語と相関付けるためのドメイン特有の単語対マッピングテーブルを用いるステップを含む記録媒体。
  22. 請求項20記載の記録媒体であって、前記抽出されたドメイン特有のフレーズをマッピングするステップが、前記マッピングされたドメイン特有のフレーズの自然さを確認するために、前記マッピングされたドメイン特有のフレーズに対して、隣接単語連語確認検定を実行するステップを含む記録媒体。
  23. 請求項20記載の記録媒体であって、前記連結するステップが、隣接する単語及び隣接するフレーズのうちの少なくとも1つの滑らかさを保証するために、前記連結されたドメインに不変なフレーズに対する統計的連語測定を実行するステップと、新しいドメインに対する候補センテンスを形成するために、連語度の高い対を連鎖させるステップとを含む記録媒体。
  24. 請求項23記載の記録媒体であって、前記フィルター処理するステップが、前記候補センテンスの追加の統計的連語測定を実行するステップと、所定の値より低い連結値を有する候補センテンスを除去するステップとを含む記録媒体。
  25. 請求項20記載の記録媒体であって、前記新しいドメインが、ナビゲーション・システム、ホテル情報システム及びレストラン情報システムのうちの少なくとも1つを含む記録媒体。
  26. 請求項25記載の記録媒体であって、前記ナビゲーション・システムが自動車ナビゲーション・システムを含む記録媒体。
  27. 請求項25記載の記録媒体であって、前記ナビゲーション・システムがハンドヘルド・デバイスを含む記録媒体。
  28. 請求項27記載の記録媒体であって、前記ハンドヘルド・デバイスが携帯電話機を含む記録媒体。
JP2006509862A 2003-04-30 2004-04-08 音声認識における統計的言語モデリング方法、システム及び記録媒体 Expired - Fee Related JP4740837B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/427,601 US7197457B2 (en) 2003-04-30 2003-04-30 Method for statistical language modeling in speech recognition
US10/427,601 2003-04-30
PCT/US2004/010992 WO2004100126A2 (en) 2003-04-30 2004-04-08 Method for statistical language modeling in speech recognition

Publications (2)

Publication Number Publication Date
JP2006525552A JP2006525552A (ja) 2006-11-09
JP4740837B2 true JP4740837B2 (ja) 2011-08-03

Family

ID=33310197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006509862A Expired - Fee Related JP4740837B2 (ja) 2003-04-30 2004-04-08 音声認識における統計的言語モデリング方法、システム及び記録媒体

Country Status (7)

Country Link
US (1) US7197457B2 (ja)
EP (1) EP1623412B1 (ja)
JP (1) JP4740837B2 (ja)
KR (1) KR100660495B1 (ja)
CN (1) CN100380370C (ja)
DE (1) DE602004028008D1 (ja)
WO (1) WO2004100126A2 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
JP4267385B2 (ja) * 2003-06-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
ATE400047T1 (de) * 2005-02-17 2008-07-15 Loquendo Spa Verfahren und system zum automatischen bereitstellen linguistischer formulierungen, die ausserhalb einer erkennungsdomäne eines automatischen spracherkennungssystems liegen
US20080130699A1 (en) * 2006-12-05 2008-06-05 Motorola, Inc. Content selection using speech recognition
US8332207B2 (en) * 2007-03-26 2012-12-11 Google Inc. Large language models in machine translation
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US20090132237A1 (en) * 2007-11-19 2009-05-21 L N T S - Linguistech Solution Ltd Orthogonal classification of words in multichannel speech recognizers
KR101005786B1 (ko) * 2008-12-10 2011-01-06 한국전자통신연구원 차량용 네비게이션 단말기의 음성인식 방법
JP5413622B2 (ja) * 2009-04-30 2014-02-12 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、およびプログラム
US8359311B2 (en) 2010-06-01 2013-01-22 Microsoft Corporation Federated implicit search
US9679561B2 (en) 2011-03-28 2017-06-13 Nuance Communications, Inc. System and method for rapid customization of speech recognition models
US9064492B2 (en) * 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
CN104021186A (zh) * 2014-06-13 2014-09-03 中国民航信息网络股份有限公司 基于语音识别的航班动态智能查询系统及方法
KR102386863B1 (ko) 2015-09-09 2022-04-13 삼성전자주식회사 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치
RU2618374C1 (ru) * 2015-11-05 2017-05-03 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Выявление словосочетаний в текстах на естественном языке
CN107844473B (zh) * 2017-09-25 2020-12-18 沈阳航空航天大学 基于语境相似度计算的词义消歧方法
US11107475B2 (en) 2019-05-09 2021-08-31 Rovi Guides, Inc. Word correction using automatic speech recognition (ASR) incremental response
CN110473524B (zh) * 2019-08-30 2022-03-15 思必驰科技股份有限公司 语音识别系统的构建方法和装置
KR102306053B1 (ko) * 2020-03-16 2021-09-29 주식회사 이드웨어 음성 인식 모델을 이용한 노년층 대상의 언어 훈련 방법 및 그 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04291399A (ja) * 1991-03-20 1992-10-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JPH0713598A (ja) * 1993-06-24 1995-01-17 Osaka Gas Co Ltd 特定タスク音声データベース生成装置
WO2000073936A1 (en) * 1999-05-28 2000-12-07 Sehda, Inc. Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
JP2001516903A (ja) * 1997-09-17 2001-10-02 シーメンス アクチエンゲゼルシヤフト コンピュータによる言語認識の際に少なくとも2つの単語から成るシーケンスの発生する確率を求める方法
JP2002342323A (ja) * 2001-05-15 2002-11-29 Mitsubishi Electric Corp 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
JP2003036093A (ja) * 2001-07-23 2003-02-07 Japan Science & Technology Corp 音声入力検索システム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311157B1 (en) * 1992-12-31 2001-10-30 Apple Computer, Inc. Assigning meanings to utterances in a speech recognition system
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
US6021384A (en) * 1997-10-29 2000-02-01 At&T Corp. Automatic generation of superwords
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
US7031908B1 (en) * 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US20020087311A1 (en) * 2000-12-29 2002-07-04 Leung Lee Victor Wai Computer-implemented dynamic language model generation method and system
EP1320086A1 (en) * 2001-12-13 2003-06-18 Sony International (Europe) GmbH Method for generating and/or adapting language models

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04291399A (ja) * 1991-03-20 1992-10-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JPH0713598A (ja) * 1993-06-24 1995-01-17 Osaka Gas Co Ltd 特定タスク音声データベース生成装置
JP2001516903A (ja) * 1997-09-17 2001-10-02 シーメンス アクチエンゲゼルシヤフト コンピュータによる言語認識の際に少なくとも2つの単語から成るシーケンスの発生する確率を求める方法
WO2000073936A1 (en) * 1999-05-28 2000-12-07 Sehda, Inc. Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
JP2002342323A (ja) * 2001-05-15 2002-11-29 Mitsubishi Electric Corp 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
JP2003036093A (ja) * 2001-07-23 2003-02-07 Japan Science & Technology Corp 音声入力検索システム

Also Published As

Publication number Publication date
EP1623412A4 (en) 2008-03-19
KR20060007407A (ko) 2006-01-24
EP1623412A2 (en) 2006-02-08
US7197457B2 (en) 2007-03-27
KR100660495B1 (ko) 2006-12-22
DE602004028008D1 (de) 2010-08-19
CN1836225A (zh) 2006-09-20
US20040220813A1 (en) 2004-11-04
WO2004100126A2 (en) 2004-11-18
EP1623412B1 (en) 2010-07-07
JP2006525552A (ja) 2006-11-09
WO2004100126A3 (en) 2006-06-01
CN100380370C (zh) 2008-04-09

Similar Documents

Publication Publication Date Title
JP4740837B2 (ja) 音声認識における統計的言語モデリング方法、システム及び記録媒体
JP4058071B2 (ja) 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
Batliner et al. The prosody module
US20170199867A1 (en) Dialogue control system and dialogue control method
US20040153306A1 (en) Recognition of proper nouns using native-language pronunciation
JP2000353161A (ja) 自然言語生成における文体制御方法及び装置
JP2005520251A (ja) 名前付きエンティティの翻訳
JP2008209717A (ja) 入力された音声を処理する装置、方法およびプログラム
US20080147405A1 (en) Chinese prosodic words forming method and apparatus
KR20110024075A (ko) 패턴 데이터베이스화 장치 및 그 방법, 이를 이용한 음성 이해 장치 및 그 방법
JP5073024B2 (ja) 音声対話装置
KR20060070605A (ko) 영역별 언어모델과 대화모델을 이용한 지능형 로봇 음성인식 서비스 장치 및 방법
Yang et al. Vocabulary expansion through automatic abbreviation generation for Chinese voice search
Ronzhin et al. Survey of russian speech recognition systems
JP2005257954A (ja) 音声検索装置、音声検索方法および音声検索プログラム
JP3441400B2 (ja) 言語変換規則作成装置、及びプログラム記録媒体
Zhou et al. Statistical natural language generation for speech-to-speech machine translation
Wang Porting the galaxy system to Mandarin Chinese
JP2950823B1 (ja) 音声認識誤り訂正装置
Chege et al. Developing an Open source Spell-checker for Gıkuyu
JP2006343405A (ja) 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体
JP2001117583A (ja) 音声認識装置および音声認識方法、並びに記録媒体
Gordon et al. An Evaluation Framework for Natural Language Understanding in Spoken Dialogue Systems.
Watanabe et al. Xinjian Li Carnegie Mellon University
Xu et al. Semantic understanding by combining extended cfg parser with hmm model

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090227

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090526

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090602

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100114

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100413

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100420

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100512

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100519

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100729

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101028

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101217

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110407

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110502

R150 Certificate of patent or registration of utility model

Ref document number: 4740837

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees