JP2000509836A - 自動言語認識 - Google Patents

自動言語認識

Info

Publication number
JP2000509836A
JP2000509836A JP9539620A JP53962097A JP2000509836A JP 2000509836 A JP2000509836 A JP 2000509836A JP 9539620 A JP9539620 A JP 9539620A JP 53962097 A JP53962097 A JP 53962097A JP 2000509836 A JP2000509836 A JP 2000509836A
Authority
JP
Japan
Prior art keywords
path
model
elements
language
position marker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9539620A
Other languages
English (en)
Inventor
ハベル、サイモン・アレクサンダー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JP2000509836A publication Critical patent/JP2000509836A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

(57)【要約】 パラメータ表示の言語を、モデル言語要素(12b,12c)を含むパスのダイナミックに延在するパスのネットワークと整合させることによって言語認識を行なう。ユニットは前後関係と関係し、例えばトライフォンである。要素をパスに組込むことが必要なとき、前後関係は関連するときに定められないので、いくつかの要素を同時にモデルに変換することはできない。書換え可能にするために、要素は位置マーカ(21,22,23,24)として書き換えられて、それが位置マーカを変換されて、トライフォンの定義により、後の延長が完了する。位置マーカ(12a)を使用して、次に延長する場所を識別できる。

Description

【発明の詳細な説明】 自動言語認識 本発明は自動言語認識、とくに前後関係(コンテキスト)に関係する要素、例 えばトライフォンを使用する自動言語認識に関する。 自動言語認識は、例えばディクテーション(書取り)システムのような、多く の潜在的な応用をもち、種々の機構、例えばビデオレコーダの言語制御を行なう 。自動言語認識は、例えば電話によって、家庭用機器の遠隔制御に使用すること もできる。多くの電話サービス、例えば自動インデックスを使用する広範な種々 のサービスがあり、自動言語認識を合成言語と組み合わせて実行することができ る。多くの応用では、言語を認識し損なっても容認可能な結果としてみなされて いる。例えば、話者がミスをしてもよく、また仮に故障があると、それは自動シ ステムの故障でないとしてよい。システムはしばしば、不完全なまたは不適切な 発話を認識しないように設計され、例えばシステムは繰り返し要求できる。 言語認識は通常、言語信号のパラメータ表示の(パラメータ化)サンプルをネ ットワークと整合することによって行われ、ネットワークはそれぞれが可能な発 話を表す複数のパスを定めている。パラメータ表示の言語は言語認識技術で十分 に理解でき、当業者はパラメータ表示にするためのいくつかの方法に気付くであ ろう。パスは一連のモデル言語要素、例えばモデルフォニームから形成されてい る。“モデル”という用語は、要素がパラメータ表示のサンプルと直接に比較す るのに適した形式で表されることを示唆している。各比較によって1または複数 の基本測定基準(elementary metric)を生成し、これによりモデル要素とパラメ ータ表示のサンプルとの類似性を示す。基本測定基準はパスおよび部分的なパス に集積され、こうしていずれのパスまたは部分的なパスが受信した信号に最も似 ているかを確立する。最初に、多くの可能性のあるパスがあり、認識は何れのパ スが受信した信号に最もよく整合するかを選択することに等しい。 自動言語認識の複雑なまたは詳細な実施形態には、整合プロセス用に非常に多 くの代替例を準備する必要がある。すなわちそれらは多くのパスを使用しなけれ ばならない。パスは一連の部分的なパスと考えられる。多くの発話は同じところ から始まり、同じ部分的パスから始まった多くのパスに分岐して、その後何度も 分岐し、その結果部分的パスは多くの完全なパスで共通している。したがってパ スをネットワークとして記憶し、このネットワークがその中に含まれる全てのパ スおよび部分的なパスを定めるのがよい。認識プロセスは、ネットワークを通る 最良のパスを見付けることに相当する。 本発明はダイナミックネットワークを使用する。言い換えると、認識を始める ときに最初のネットワークのみが定められ、部分的なパスを時に応じてネットワ ークに、例えば種々の部分的なパスの最後に付加する。各延長部分(extension) は普通完全なユニット、例えば完全な単語またはシラブルの形をとる。これらの ユニットは記号要素(symbolic element)(例えば、フォニーム)から形成されて おり、記号要素はパラメータ表示のサンプルに整合させるには適していない。認 識するのに記号要素が使用できる前には、モデル要素、すなわちパラメータ表示 のサンプルに整合できる形に変換されなければならない。 簡単な自動言語認識では、記号要素とモデル要素との間に1対1の対応がある 。これにより変換は比較的に簡単になるが、実際には要素、例えばフォニームの 発音はその前後関係に依存するので、整合品質を下げる結果になる。記号フォニ ームを隣接する記号フォニームの前後関係で表すモデル要素を使用すると、認識 精度は明らかに向上する。言い換えると、記号要素(フォニーム)は種々の異な る発音をもち、複数の異なるモデル要素(フォニーム)はこの種々の異なる発音 を表すのに必要である。すなわち各発音には1つのモデル要素(フォニーム)が 必要である。本発明は、前後関係が依存するモデル要素、とくに後続する記号要 素に依存するモデル要素を使用する。好ましい実施形態では、本発明はトライフ ォン(triphone)を使用する。すなわち各モデルフォニームは1つのみの記号フォ ニームと関係するが、その前後の記号フォニームも考慮に入れられる。 ここで本発明を添付の図面を引用して例示的に記載することにする。 図1は、トライフォンを使用して記号フォニームをモデルフォニームに変換す るメモリを示す。 図2は、部分的なパスの端部を示す。 図3は、ネットワークに付加される記号フォニームのツリーを示す。 図4aは、モデルフォニームに変換した図3のツリーを示し、図4bは図4a の変形であり、該ツリーから位置マーカを取り除いたツリーを示す。 図5は、この方法を実行する装置を示す。 図6は、この方法のフローチャートである。 図7は、遠隔通信システムの前後関係として本発明の装置を示す。 図1はトライフォンメモリの内容を示す。このトライフォンメモリは図5の部 品56としても記載されている。実際には、さらにより多くのエントリが含まれて いるが、そのいくつかのみを記載した。とくに、普通は無声音以外の特徴を表す 項目、例えば“息継ぎ音(breatth sound)”および“チャンネルノイズ”を含む 。図1に示した項目は全てトライフォンであり、すなわち各項目はフォニームそ れ自身、その左隣り(先行フォニーム)および右隣り(後続フォニーム)を含む 。 図1は、“中央(CENTER)”を見出しにもつ列であり、変換される記号フ ォニームを識別する。“左(LEFT)”および“右(RIGHT)”を見出しにも つ列は、先行のおよび後続のフォニームを識別する。“モデル”は小文字を括弧 でくくって示される。その理由は、モデルを定義するのに必要なたくさんのデー タを表示するのは実行不可能だからである(何れの場合でも、モデルは従来のも のであり、当業者によく知られている)。モデルには番号が付され、これにより 各記号フォニームに対して複数のモデルフォニームがあることが強調される。ト ライフォンを使用して、“中央”を見出しにもつ列で記号フォニームを識別し、 左および右の見出しをもつ列で左および右側の記号フォニームを識別することが 要求される。これは適切なトライフォンを識別して、その前後関係における中央 の要素を変換する。 単語“LEAPT”および“MET”の変換について検討する。通常のスペリ ングは別のやり方で示しているが、“LEAPT”内の“EA”は単一のフォニ ームであるだけでなく、“met”内の“E”と同じフォニームである。しかし ながら前後関係は異なり、図1のアドレス113および114はトライフォンに基づい て必要な変換を行なうことが明らかである。いずれの単語も、適切なトライフォ ンを定める右側のフォニームがないので、記号フォニーム“T”は変換できない 。本発明はダイナミックネットワークを使用し、ネットワークの各部分的なパス は一度に1ユニット(例えば、単語)ずつ延長される。単語は記号フォニームで あり、サンプルと比較する前に、モデルフォニームに変換できることが必要であ る。 変換を行なうとき、各部分的なパスは(たくさんあり)、トライフォンの一部に( まだ)なっていない最後の記号フォニームをもっている。最後のフォニームの前 後関係は定められていないので、変換できない。これは、ダイナミックネットワ ークで前後関係に関係する要素を使用する際の主要な問題である。前後関係がト ライフォンであるとき、しばしば“クロスワードトライフォン”という用語がよ く使用される。その理由は、トライフォンの左および右側の要素が異なる単語内 に置かれているからである。したがって問題は、“クロスワードトライフオンの 問題”として知られている。 本発明は特許請求の範囲においてより完全に規定されており、これによると“ 位置マーカ(place marker)”を使用してこの問題を克服する。位置マーカはモデ ルフォニームに類似しており、パス内に配置できるが、比較に必要な情報は何も 含まれていない。したがって位置マーカはダミーモデルと考えることができる。 もっと重要なことは、位置マーカは記号フォニーム、例えば、ネットワーク内に 配置されたときに変換されなかったもの(変換されなかった理由は、挿入時に前 後関係が適切に判断されなかったからである)を識別することである。 位置マーカは将来パスを延長する位置を識別し、さらに部分的なパスの最後を 識別するのにも使用できる。 位置マーカによって識別される記号要素は、パラメータで表示したサンプルと 比較するのに適していないので、位置マーカがパスに組み込まれた後は更新する 必要はなく、この更新は後でパスを1または複数回の延長するときに行われる( したがって、パスはネットワークの一部を構成している)。延長するときはほぼ 必ずパスが位置マーカから分岐する。したがって普通位置マーカから分岐する複 数の延長部分が存在することになる。複数の延長部分は位置マーカに対して複数 の異なる前後関係を構成しており、したがってモデル要素は前後関係に関係して いるので、複数の異なるモデル要素が必要になることが予想される。ここで、更 新の2つの方法、すなわち置換方法と継続方法を記載する。 置換方法 置換方法では、パスから位置マーカを取り出して、前後関係が関係するモデル 要素に置換して、位置マーカを記号要素として定められる。上述のように、この 置換は複数の異なるモデル要素を要求して、複数の異なる前後関係に対処する。 位置マーカが取り除かれるとき、その場所は失われ、その場所からさらに延長す ることはできない。したがって、同時に異なる延長部分の全てを作ることが適切 である。 継続方法 継続方法(continuation method)では、ネットワーク内にパスが残っている限 り、位置マーカは残る。位置マーカはパラメータ表示のサンプルと比較するのに 必要な情報に関して“ブランク”であり、したがって位置マーカは比較の役に立 たず、パスの選択に影響を与えない。更新された延長部分は位置マーカから続き 、必要であれば、いくつかの異なる延長部分が同じ位置マーカから続いてもよい 。各延長部分は都合よく位置マーカ内で識別された要素で始まり、ここではこの 要素の前後関係が完全に特定されているので、適切な前後関係に関係するモデル 形式に要素を変換することができる。パスを延長した後では位置マーカはパスの 最後に存在しないことは明らかであろう。それにも関わらず位置マーカはパス内 に残り、余分の分岐を作る別の延長部分に配置して使用することができる。 所望であれば、位置マーカは付加的な情報、例えば、位置マーカで終了する単 語またはユニットの識別を含むことができる。(延長方法を使用するとき、位置 マーカはパス内に残り、その中に含まれる付加的な情報もパス内に残ることにな る。)したがってこの情報は、必要なときにアクセスできる。 本発明は次の方法を含む: (a)位置マーカを使用してパスおよびネットワークを延長すること、 (b)位置マーカを含むダイナミックネットワークを使用して言語を認識するこ と、 (c)(b)で認識した言語によって装置を制御すること、および、 (d)方法(a)乃至(c)が遠隔通信の使用を含むこと。 本発明は、上述に示した方法(a)乃至(d)を実行する装置も含む。 ここで本発明にしたがって図1乃至5を参照して位置マーカの使用を開示する 。 図2は、ネットワークの1つの部分的なパスの延長部分に関し、(例示目的で )部分的なパスは“cat”という単語で終わっていると仮定する。最終的にパ ス の全てを延長する。各延長は実質的に同じ方法で行われるので、プロセスは反復 性である。全ての反復(繰返し)は実質的に同じであるので、1つのみ、すなわ ちこの部分的パスに延長するもののみを記載することにする。 検討対象の延長は、複数の単語を図2に示した部分的なパスの最後に付加する ことによって達成される。“C”(10)はネットワークの残りを示す。“C”は先 の反復の間に変換されたので、この(または他の将来の)反復の役には立たない 。“cat”の“A”(図2の参照符号11)も変換され、図1のモデルフォニーム (a1)、すなわちアドレス111として示される。それにも関わらず、それに続くト ライフォンを定めるのを助けることが必要とされる。 cat(図2の参照符号12)の“T”には後続するものがないので、トライフ ォンに基づいてモデルに変換できない。しかしながら、先行の反復では“T”を ネットワーク内に配置する必要はないので、位置マーカが使用された。位置マー カ12はさらに部分的なパスの最後をはっきりと示し、パラメータ表示のサンプ ルとは整合できない。 装置(図5に示され、下記に一層詳細に記載されている)は延長装置50を含 み、延長装置(extender)50は辞書(lexicon)57およびトライフォンメモリ56を含 む。トライフォンメモリ56は図1に一層詳しく記載されている。(辞書57および トライフォンメモリ56の両方は種々の項目を表す信号のメモリ領域である。これ らの信号は自動処理に適した形である。)辞書57は、装置によって承認されてい る全ての単語を含み;他のユニット、例えばシラブルまたは特定の応用に重要な 項目を含むことができる。延長装置50は、延長するためにユニット、例えば単語 を出力することによってネットワーク内に含まれる部分的なパスを延長すること ができる。 この反復を説明するために、延長装置は次の4つの単語のリストを出力すると 仮定することにする。 SAT SL(EE)PS SLEPT L(EA)PT 説明には4つの単語で十分であるが、“実際の”リストははるかに長くてもよ い。単語“sleeps”および“leapt”におぃて、“ee”および“e a”が2つの文字を含んでいても、単一の記号後フォニームであることを括弧で 示す。 モデルフォニームに変換し、次にネットワークへ付加する準備をするために、 これらの単語はトリーの形にされる。図2の位置マーカ12の場所にツリーを付加 すると、位置マーカ12に含まれる記号フォニームをモデルフォニームに変換する 準備が完了する。したがって位置マーカ12および先行するフォニーム11をツリー に組み込む。とくに、先行するフォニーム11および位置マーカ12はツリーの始め を構成する。 ツリーは4つの単語、位置マーカ12、および先行するフォニーム11から形成さ れている。ツリーを図3に示した。 図3に示した項目の全ては、“最後の文字”21,22,23,および24および最初 の文字“A”(11)を除いて、メモリ56(同じく図1参照)に含まれる規定のト ライフォンである。従って変換が定められる。最初の文字“A”は、モデルフォ ニームに既に変換されているので、変換する必要がない。最初の文字“A”は、 図2の位置マーカ12から得て、項目12の変換を定めるのでツリー内に必要である 。最後の文字21,22,23,および24は、それに後続する要素がまだ判断されてい ないので、トライフォンに変換できない。図3のトリーは完全に変換せずにネッ トワークに結合できないので、変換できないことは主要な障害となる。本発明に よると、最後の文字21,22,23,および24は位置マーカに変換する。ネットワ ークは位置マーカを収めることができる。 図4は、変換の結果および先行するネットワークとの結合を示す。項目11は、 先行の“最後に変換された”要素である。項目(12a)は変更されないままの古い( old)位置マーカである。ここでこの例は2つの異なる前後関係を示すので、位置 マーカ12aに含まれる記号フォニームは2つの異なるモデルフォニーム12bに変 換される。したがって1つの分岐において、位置マーカ12aの記号フォニームは フォニームメモリ56のアドレス128からモデルフォニーム12bになる。したがっ てモデルフォニーム(t3)が与えられ、その前にはAが、その後にはSが配置 されている。ネットワークの異なる分岐において、位置マーカ12aからの記号フ ォニームは(t1)になり、(t1)はフオニームメモリ56のアドレス126からの 項目12cである。ネットワークのこの分岐では、Tの前にはAが、後にはLが続 いているのでこの形式が選択される。ここで古いネットワークを分岐して、4つ の新しい位置マーカ21,22,23,および24を生成する。新しい位置マーカの中に 含まれる記号フォニームが上述のようにモデルフォニームに置換されるとき、新 しい位置マーカは将来の反復における延長部分の開始点として働くことになる。 図4aから分かるように、位置マーカは変換後のネットワークに残る。これら の位置マーカはサンプルとの比較に関する情報を含まないので、パスの選択に影 響を与えない。それにも関わらず、位置マーカはネットワークが分岐するところ に配置され、ネットワークを定めるのに使用できる。上述のように、位置マーカ は変換用に記号フォニームを含み、特別な情報、例えばトライフォンを定める先 行のフォニームを含むことができる。位置マーカ21乃至24によって示されている ように、位置マーカはネットワークに挿入されるユニットに対応し、所望であれ ば、位置マーカはそれを導き出したユニットを識別することができる。 別の実施形態(図4b参照)では、位置マーカに含まれるフォニームをモデル に変換するとき、位置マーカが取り除かれる。明らかに、位置マーカが取り除か れると、位置マーカに関係する情報はないが、図4bから分かるように、ネット ワークの構成は依然として定められている。 別の変形例では、図示されていないが、ユニットの完全性が保たれている。各 ユニットはモデルフォニームおよび位置マーカに別々に変換されるので、図3に 示したトリーは生成されない。次に変換されたユニットは、単一のエンティティ として、ネットワークに付加される。 ネットワークを延長するのに使用する装置を図5に示した。この装置は、既存 のパスを延ばすための延長装置50を含む。延長装置50は辞書57を含み、ここで記 号フォニームのユニット、例えば単語およびシラブルを表す信号を記憶する。延 長装置50はトライフォンメモリ56も含み、ここで記号フォニームをモデルフォニ ームに変換するコンバータ55が使用する信号を記憶する。コンバータ55はネット ワークメモリ51にも動作的に接続され、延長部分をその中に記憶したネットワー クに付加することができる。延長装置はネットワークメモリ51から部 分的なパスの端部、例えば位置マーカ内に含まれる記号フォニームを得て、延長 部分のための入力を構成することができる。 装置はさらに、サンプリンクおよびパラメータ表示のための言語信号を得る受 信機54も含む。信号はディジタル波形の形態であることが好ましい;アナログ信 号が供給されるときは、アナログ対ディジタルコンバータ(図示されていない) が含まれている。サンプラ53はパラメータ表示にし、普通1秒当り50乃至10 0サンプルを含む。(電話ディジタル言語は通常、1秒当り8000サンプルを 含む。)コンパレータ52は、最適なパスを識別するまで、メモリ51内に保持され ているネットワークとサンプルを整合させる。最適なパスはインターフェイスへ 出力される。インターフェイス58は、備え付けられた装置(図5に示されていな い)を制御するか、または遠隔通信システムによって選択的にオーディオまたは ビジュアル信号として識別確認を行なうようにされている。 パスを延長するための反復を示す方法をフローチャートで図6に示す。 フローチャートには3つの特徴、すなわち受信およびサンプリング、比較、お よびネットワークの延長がある。 受信はフローチャートのボックス60に、サンプリングはボックス61に示した。 ネットワークの延長はボックス62乃至64に示し、これは次の主要な段階を含む 。 ボックス62 (メモリ51内の)既存のネットワークを走査して、位置マーカの1つを選択す る。位置マーカは、次の延長部分を付加することになる点を判断する。通常、位 置マーカは部分的なパスの最後も識別する。 ボックス63 延長装置50は、記号フォニームを表す信号で、辞書57からユニットを選択する 。 ボックス64 ボックス63で選択したユニットは、記号フォニームのトリーの形で整理される 。ボックス62で選択した位置マーカはトリーの始めとして含まれる。 ボックス65 ボックス64で整理されたトリーはモデルフォニームに変換され、最後のフォニ ームは位置マーカに変換され、この位置マーカはボックス62の将来の延長の際に 選択されることになる。ボックス62で選択された位置マーカの記号フォニームは 、さらにモデルフォニームに変換される。これらの変換は、フォニームメモリ56 を使用して実行される(その内容は図1に示されている)。変換後に、メモリ51内 に含まれるネットワークにトリーを付加する。 モデルフォニームへの変換はボックス65で行ない、一方でフォニームおよびそ の前後関係の識別は先行のボックス63および64で達成されることを認識すること が大切である。ボックス63および64を実行するとき、最後のフォニームは前後関 係がないので変換できない。位置マーカはモデルフォニームでなくても、ネット ワークと両立可能であり、モデル要素による位置マーカは後の反復中にモデル要 素に更新されるので、位置マーカを使用してボックス65で特定した段階を行なう ことができる。 ボックス66 ボックス61で生成されたサンプルは、ネットワークメモリ51に記憶されたネッ トワークと比較され、最良のパスを選択する。 ボックス67 最良のパスはボックス67で出力される。 図6に示した反復は、処理を進め続ける信号を受信する限り、繰り返される。 最後を検出するのを助けるために、チャンネルノイズおよび息継ぎ音を表すモデ ルフォニームを含むことが適切である。最初に、例えば言語を受取る前に、標準 の、所定の構成を使用してネットワークを初期化する。“黙音(silent)”要素は とくに初期化に適している。 図7では、例えばディレクトリ照会または他の類似のサービス、例えば鉄道の 時刻表、またはエアラインサービスのために、直接にまたは遠隔通信システムを 介して自動音声制御として本発明が使用されている。 本発明の言語認識器70はインターフェイス71に接続され、インターフェイス71 は言語として受信され、認識器70によって識別される命令によってインデッ クス72を制御するようにされている。認識器70およびインターフェイス71は遠隔 通信システム73に接続され、遠隔通信システム73は遠隔の電話装置74を含み、ユ ーザ75はこれを使用できる。インデックス72に質問するために、ユーザ75は(通 常の遠隔通信技術によって)認識器70にアクセスする。発話での要求はシステム 73によって認識器へ送られる。次に認識器70によって識別され、インターフェ イス71を介してインデックス72へ送られる。要求の結果はインターフェイス71お よびシステム73を介してユーザ75へ戻される。 いくつかの応用では、例えばフィードバックループによって命令が正しく理解 されたことを検査できるようにすることが望ましい。都合よく、これは認識器70 に合成言語機能を組込むことによって達成される。これにより、認識器は必要で あれば遠隔通信システムを介してユーザへ翻訳を識別することができる。翻訳は スクリーン上に表示することもできる。この検査は、とくに生成されたテキスト がスクリーン上に表示されるときに、自動ディクテーションのような応用におい ては当然に備えられるものである。 これらの応用のほとんどにおいて、言語が全く認識されない可能性がある。こ れは、この環境がユーザに知らされるときは許容可能な結果として認識される。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(GH,KE,LS,MW,S D,SZ,UG),EA(AM,AZ,BY,KG,KZ ,MD,RU,TJ,TM),AL,AM,AT,AU ,AZ,BA,BB,BG,BR,BY,CA,CH, CN,CU,CZ,DE,DK,EE,ES,FI,G B,GE,GH,HU,IL,IS,JP,KE,KG ,KP,KR,KZ,LC,LK,LR,LS,LT, LU,LV,MD,MG,MK,MN,MW,MX,N O,NZ,PL,PT,RO,RU,SD,SE,SG ,SI,SK,TJ,TM,TR,TT,UA,UG, US,UZ,VN,YU

Claims (1)

  1. 【特許請求の範囲】 1.言語信号を認識する方法であり: (a)前記信号を受信し(60)、それを一連のサンプルに分割する(61)こと と; (b)それぞれがサンプルとの比較に適した形態の一連のモデル言語要素を 含む複数のパスを準備する(63)ことと; (c)サンプルをパスと比較して(66)、個々のパスと受信した信号との間の 整合の緊密度にアクセスすることと; (d)受信した信号と最良の整合を構成するパスを選択する(67)ことと; モデル要素の少なくともいくつかは、モデルが次の要素を考慮に入れることに 関係する前後関係であり; 前記比較に適していない形態の言語要素を定める位置マーカ(12)をパスに挿 入し、その後前記位置マーカ内に定められた言語要素をモデル要素(12b,12c )に変換することを特徴とする言語信号を認識する方法。 2.それぞれ前後関係が関係するモデル要素は、中央の要素、左側の要素、右側 の要素から構成されているトライフォンに基づいており;モデルは右側の要素と 左側の要素との前後関係で中央の要素に関係している請求項1記載の方法。 3.パス内に既に存在している位置マーカ(12)によって識別される場所に延長 部分を付加し、延長部分の少なくとも1つが一連の1または複数のモデル要素お よび新しい位置マーカ(21,22,23,24)を含み、一連の要素(12b,12c)の 一方がパス内の位置マーカによって定められるモデル要素(12a)の変換であり 、新しい位置マーカ(21,22,23,24)が将来の延長部分の場所を識別する請求 項1または2記載の方法。 4.パスがネットワークの形態に構成されている請求項1乃至3の何れか1項記 載の方法。 5.各サンプルが、サンプルの言語特徴を表すパラメータの形態である請求項1 乃至4の何れか1項記載の方法。 6.入力言語が遠隔通信システム(74)から受信される請求項1乃至5の何れか 1項記載の方法。 7.応答を生成して、認識結果を識別することを含む請求項1乃至6の何れか1 項記載の方法。 8.前記識別が、入力を識別しなかった指標を含む請求項7記載の方法。 9.(a)コンピュータに記憶したインデックスの認識結果の送信(72)と; (b)インデックス(72)からの情報の検索と; (c)検索した情報の出力とを含む請求項1乃至7の何れか1項記載の方法 。 10.応答または検索した情報、あるいはその両方を遠隔通信システム(74)を 介して送ることを含む請求項7乃至9の何れか1項記載の方法。 11.言語信号との比較に適したモデル要素を含むパスを延長する方法であり、 任意の延長中にパス内に位置マーカを挿入することと、後の延長中に位置マーカ 内に定められた記号要素をモデル要素と置換することとを含む方法。 12.各延長部分が、位置マーカ(12a)によって示される場所に付加される請 求項11記載の方法。 13.(a)変換のために言語信号を得る受信機(54)と; (b)獲得した信号を、サンプルの言語特徴に関係するパラメータの形態 で一連のサンプルに変換する受信機(54)に接続されたパラメータライザ(53) と: (c)パラメータ表示のサンプルと比較するのに適した形態のモデル言語 要素を含む前記パスを含むパスメモリ(51)と; (d)パスメモリに含まれるパスに延長部分を生成するが、前記延長部分 がパラメータで表示されたサンプルと比較するのに適していない記号要素の形態 である延長装置(50)と: (e)前記延長装置(50)によって生成される延長部分を前後関係が関係 するモデル要素に変換するコンバータ(55)であり、さらにパスメモリ(51)に 動作的にリンクされて、パスメモリ(51)内に含まれるネットワークに前記変換 されたものを付加するコンバータ(55)と; (f)パラメータライザ(53)およびパスメモリ(51)に動作的にリンク されて、サンプルをパスと比較して、最良の整合を選択するコンパレータ(52) とを含み: コンバータ(55)が適切に定められた前後関係をもたない要素を位置マーカ に変換し、前記位置マーカをパスメモリ(51)内に含まれるネットワークに付加 するようにされていることと、前記コンバータ(55)が前記パスメモリ(51)内 の位置マーカ内に含まれる記号要素を配置し、記号要素を前後関係が関係付けら れているモデル要素に変換し、位置マーカによって示される場所で前記前後関係 が関係付けられるモデル要素をパスメモリ(51)に付加するようにされているこ ととを特徴とする言語信号を認識するための装置。 14.コンバータが複数の記憶場所をもつ辞書メモリ(57)を含み、各記憶場所 が装置によって認識可能な言語ユニットを定める信号を含む請求項13記載の装 置。 15.コンバータがトライフォンメモリ(56)を含み、トライフォンメモリ(56)が トライフォンに基づくアクセス部とトライフォンの中央要素に相当するモデル要 素を定める信号を含む出力部とをもつ請求項13または14記載の装置。 16.遠隔通信システム(73)に接続されている請求項13乃至15の何れか1項記載 の装置。
JP9539620A 1996-05-03 1997-04-24 自動言語認識 Pending JP2000509836A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP96303141.4 1996-05-03
EP96303141 1996-05-03
PCT/GB1997/001134 WO1997042626A1 (en) 1996-05-03 1997-04-24 Automatic speech recognition

Publications (1)

Publication Number Publication Date
JP2000509836A true JP2000509836A (ja) 2000-08-02

Family

ID=8224916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9539620A Pending JP2000509836A (ja) 1996-05-03 1997-04-24 自動言語認識

Country Status (10)

Country Link
EP (1) EP0896710B1 (ja)
JP (1) JP2000509836A (ja)
KR (1) KR20000005278A (ja)
CN (1) CN1217808A (ja)
AU (1) AU709376B2 (ja)
CA (1) CA2247512C (ja)
DE (1) DE69700472T2 (ja)
NO (1) NO985093L (ja)
NZ (1) NZ331430A (ja)
WO (1) WO1997042626A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004094257A (ja) * 2002-09-03 2004-03-25 Microsoft Corp 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182038B1 (en) * 1997-12-01 2001-01-30 Motorola, Inc. Context dependent phoneme networks for encoding speech information
KR100677197B1 (ko) * 2000-01-26 2007-02-05 엘지전자 주식회사 음성 인식 기술 방법
DE10120513C1 (de) 2001-04-26 2003-01-09 Siemens Ag Verfahren zur Bestimmung einer Folge von Lautbausteinen zum Synthetisieren eines Sprachsignals einer tonalen Sprache
US7587321B2 (en) * 2001-05-08 2009-09-08 Intel Corporation Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system
JP2003208195A (ja) * 2002-01-16 2003-07-25 Sharp Corp 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
CN1674092B (zh) * 2004-03-26 2010-06-09 松下电器产业株式会社 连续数字识别的声韵母跨词建模、解码方法及系统
DE602005012596D1 (de) * 2004-10-19 2009-03-19 France Telecom Spracherkennungsverfahren mit temporaler markereinfügung und entsprechendes system
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4859431A (en) * 1986-11-10 1989-08-22 The Curators Of The University Of Missouri Rhenium generator system and its preparation and use
US5053186A (en) * 1989-10-02 1991-10-01 Neorx Corporation Soluble irradiation targets and methods for the production of radiorhenium
EP0590173A1 (de) * 1992-09-28 1994-04-06 International Business Machines Corporation Computersystem zur Spracherkennung

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004094257A (ja) * 2002-09-03 2004-03-25 Microsoft Corp 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
JP4499389B2 (ja) * 2002-09-03 2010-07-07 マイクロソフト コーポレーション 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
US7788096B2 (en) 2002-09-03 2010-08-31 Microsoft Corporation Method and apparatus for generating decision tree questions for speech processing

Also Published As

Publication number Publication date
AU2397797A (en) 1997-11-26
WO1997042626A1 (en) 1997-11-13
NO985093D0 (no) 1998-11-02
CA2247512C (en) 2002-10-01
KR20000005278A (ko) 2000-01-25
EP0896710A1 (en) 1999-02-17
DE69700472T2 (de) 2000-07-13
DE69700472D1 (de) 1999-10-07
NZ331430A (en) 2000-07-28
CA2247512A1 (en) 1997-11-13
CN1217808A (zh) 1999-05-26
NO985093L (no) 1998-11-02
EP0896710B1 (en) 1999-09-01
AU709376B2 (en) 1999-08-26

Similar Documents

Publication Publication Date Title
JP3135233B2 (ja) 音声認識を用いたロボットホテル従業員
US6085160A (en) Language independent speech recognition
EP0974141B1 (en) Extensible speech recognition system that provides a user with audio feedback
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
US6094633A (en) Grapheme to phoneme module for synthesizing speech alternately using pairs of four related data bases
US5440663A (en) Computer system for speech recognition
US20090248395A1 (en) Systems and methods for building a native language phoneme lexicon having native pronunciations of non-natie words derived from non-native pronunciatons
CA2399456A1 (en) Improved speech recognition by modifying a pronunciation
EP1473708A1 (en) Method for recognizing speech
US20020065653A1 (en) Method and system for the automatic amendment of speech recognition vocabularies
US20070294082A1 (en) Voice Recognition Method and System Adapted to the Characteristics of Non-Native Speakers
US5905971A (en) Automatic speech recognition
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
US5812974A (en) Speech recognition using middle-to-middle context hidden markov models
JP2000509836A (ja) 自動言語認識
JP2002062891A (ja) 音素割当て方法
KR20060014369A (ko) 화자 종속 음성 인식 방법 및 음성 인식 시스템
US7464033B2 (en) Decoding multiple HMM sets using a single sentence grammar
KR100467590B1 (ko) 발음 사전 갱신 장치 및 방법
Hatala Practical speech recognition with htk
JP2001296886A (ja) 音声認識システム用の言語モデル及び音響モデルの作成方法
Imperl et al. Clustering of triphones using phoneme similarity estimation for the definition of a multilingual set of triphones
EP1668630B1 (en) Improvements to an utterance waveform corpus
US7818172B2 (en) Voice recognition method and system based on the contexual modeling of voice units
JP2912513B2 (ja) ヒドン・マルコフ・モデルの学習方法