JPH11501410A - 言語認識 - Google Patents

言語認識

Info

Publication number
JPH11501410A
JPH11501410A JP8526715A JP52671596A JPH11501410A JP H11501410 A JPH11501410 A JP H11501410A JP 8526715 A JP8526715 A JP 8526715A JP 52671596 A JP52671596 A JP 52671596A JP H11501410 A JPH11501410 A JP H11501410A
Authority
JP
Japan
Prior art keywords
node
speech
measure
sequences
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8526715A
Other languages
English (en)
Other versions
JP4180110B2 (ja
Inventor
スカヒル、フランシス・ジェイムズ
サイモンズ、アリソン・ダイアン
ホイットテイカー、スティーブン・ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JPH11501410A publication Critical patent/JPH11501410A/ja
Application granted granted Critical
Publication of JP4180110B2 publication Critical patent/JP4180110B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Feedback Control In General (AREA)
  • Computer And Data Communications (AREA)
  • Selective Calling Equipment (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 認識器は(例えば、先の認識から)、種々の単語に対する認識器の語彙が特定のコンテキスト内で発生する可能性を示すアプリオリ確率値を有し、“認識”得点は、1つの(または複数の)結果を選択する前にこれらの値によって重み付けをされる。認識器はさらに“プルーニング”を採用して、低い得点の部分的な結果を放棄し、認識プロセスを加速する。プルーニングを決定する前に確率値を適用して、可能性のより高い単語を早まってプルーニングすることを回避する。これらの確率値を適用する方法が記載されている。

Description

【発明の詳細な説明】 言語認識 本発明は、入力音声信号が最も明らかに似ている単語(または、より一般的に は話声)の語彙の何れか1つを確認するために認識プロセスを実行し、単語の語 葉と関係しているアプリオリ確率に関して情報が有効である言語認識器に関する 。(訳者注:sppech recognitionは音声認識の訳語をあてることが多いが、ここ ではvoice ではなく話し言葉speechの訳に言語をあてる。)この状況の1例は、 我々の共願の国際特許出願第WO95/02524号明細書に記載された自動電話番号案内 システムである。このシステムでは、 (i)ユーザは都市の名前を話し; (ii)言語認識器は、記憶された都市のデータを参照することによって、話 された都市の名前に最もよく整合する幾つかの都市を識別し、“得点(スコア) ”または整合の一致度を示す確率を生成し; (iii)リストは識別された都市に存在する全ての道路名からコンパイルされ ; (iv)ユーザは道路名を話し; (v)言語認識器はリストに含まれるものの中から幾つかの道路名を識別し 、話された道路名に最もよく整合するものだけ得点を与え、 (vi)道路得点は、その道路が位置する都市が得た得点にしたがってそれぞ れ重み付けをされ、最も可能性の高い“道路”が最も重み付けされた得点を有す ると考えられる。 アプリオリ確率は、前の言語認識プロセスから始まる必要はない;例えば上記 の特許出願に記載されている別の番号案内システムでは、呼の発生源を識別する 信号を使用して、その領域から照会者が望んでいる可能性の最も高い都市に関す る統計的情報にアクセスして、都市名認識プロセスの結果に重み付けをする。 このプロセスは、留保条件のために信頼度が高いという利点を有する。この留 保条件とは、例えば、道路名認識段階で第1の選定都市の道路よりも第2の選定 都市の道路の方が著しく得点が高くなければ、第2の選定都市からは道路を選定 しないというものである。しかしながらこのプロセスの欠点は、道路名認識段階 を実行するとき、認識器が道路名の制限された数だけしか生成しないので、この 短い道路名リストでは、低得点の都市に位置する道路名しか含むことができない 、すなわち高得点の都市内に位置する道路の低得点の道路名は、重み付けプロセ スを適用する前に認識器によって既に“プルーニング”されていることである。 米国特許第47838303号明細書は、アプリオリ確率が先に認識された1又は複数 のパターンの所定のコンテキストに関係している言語認識装置を記載している。 ある単語の後にある別の単語が発生する確率を示す言語得点は、それらの単語を 含むシーケンスに対して得られる得点と共同される。 本発明にしたがうと、言語認識方法であって: 未知の話声の部分を基準モデルと繰返し比較して類似性について累積された 尺度を生成して、この累積された尺度が、基準話声の複数の許容できるシーケン スを定義する記憶されたデータにより定義された該シーケンスの各々に対して生 成されるようにし、この類似性の累積された尺度が、それぞれの許容できるシー ケンス内の以前の話声に対応する基準モデルと話声の1又は複数の以前の部分と の比較から得られた、以前に生成された尺度からの寄与分を含むものであるが、 別の繰返しの比較から、他のシーケンスに対する尺度より、所定のプルーニング 基準によって定義された程度まで類似性の指標を小さくするようなシーケンスを 除くものであるようにし; 該累積された尺度に許容されたシーケンスの各々に対する重み付け因子に従 って重み付けをし、この重み付けが部分的シーケンスに対する尺度もしくは累積 された尺度の各計算に対して、この部分的シーケンスで始まる許容できるシーケ ンスの各々に対する重み付け因子から、話声もしくはこの部分的シーケンスで始 まるより短いシーケンスに対して生成された尺度に加えられる重み付け因子を差 引いた組合せた値による重み付けであるようにする言語認識方法が提供される。 好ましくは、前記重み付けをした累積された尺度が他のシーケンスに対するよ りも、プルーニング基準により定義された程度まで類似性の指標を小さくするよ うなシーケンスが、別の繰返し比較から排除される。プルーニングは、生成され た尺度の数に依存して行われ、さらなる繰返し比較から除外されずに、その数を 一定に保つようにする。 本発明の別の態様では、言語認識装置であって: 話声を表す基準モデルに関係するデータと基準話声の許容できるシーケンス を定義するデータとを記憶するための記憶手段と; 未知の話声の部分を基準モデルと繰返し比較して類似性の累積された尺度を 、基準話声の複数の許容できるシーケンスを定義する記憶されたデータにより定 義されたこのシーケンスの各々に対して生成し、該累積された尺度は前に生成さ れた尺度からの寄与分を含むものであって、それぞれの許容できるシーケンス内 の以前の話声に対応する基準モデルと話声の1又は複数の以前の部分との比較か ら得られた尺度であるように生成するための比較手段と; 該累積された尺度に許容されたシーケンスの各々に対する重み付け因子に従 って重み付けをし、この重み付けが部分的シーケンスに対する尺度もしくは累積 された尺度の各計算に対してこの部分的シーケンスで始まる許容できるシーケン スの各々に対する重み付け因子から、話声もしくはこの部分的シーケンスで始ま るより短いシーケンスに対して生成された尺度に加えられる重み付け因子を差引 いた組合せた値による重み付けとするよう重み付けをする手段とから成る言語認 識装置が提供される。 さらに別の態様では、本発明は、音に対応する基準モデルと定義する記憶され たデータと認識すべき話声に各シーケンスが対応しており、かつこのモデルの許 容できるシーケンスを定義する記憶されたデータとを参照することにより言語認 識をする方法であって: 未知の話声の部分を基準モデルと比較して話声の以前の部分と部分的に許容 できるシーケンスとの間の類似性を示す尺度を更新し、話声のより長い部分とよ り長い部分的に許容できるシーケンスとの間の類似性を示す尺度を作るようにし ; これら部分的なシーケンスでその尺度が類似性について定義された度合いよ りも小さな尺度となるようなものを識別し; 識別された部分的なシーケンスの1つで始まるシーケンス又は部分的なシー ケンスに関する尺度のさらなる生成を抑制し; て成り、該識別は尺度の閾値との比較により実行され、またこの閾値は生成され かつ抑制されていない尺度の数に依存して繰返し調節されて、その数が定数を維 持するようにされていることを特徴とする方法が提供される。 本発明のさらに別の態様では、基準話声の複数の許容できるシーケンスを表す 言語認識網の各ノードに重み付け因子を指定する方法であって: 各ノードに対して、そのノードを取込んでいる部分的シーケンスで始まる許 容できるシーケンスの各々に対する重み付け因子の値と、その部分的シーケンス で始まる話声もしくはより短いシーケンスに適用される重み付け因子を差引く値 の組合せをすることを含む方法が提供される。 重み付け因子はログ変域内で生成することができ、所定の重み付け因子のログ は、許容できるシーケンスに対応する網の最終ノードに対して指定され; 各先行するノードに対してログ確率値としてノードまたは後段のノードに指 定されたそれらの値の最大値を指定され; 各ノードに対する値から先行するノードに指定された値を減ずる。 前記ノードは基準話声を表すモデルと関係しており、関係するモデルのパラメ ータは各ノードに指定された重み付け因子を反映して修正することができる。 本発明はとくに、木(トリー)構造を有し、第1のノード以外の少なくとも1 つのノードが2以上の枝をもつ認識網に応用可能である。 ここで本発明の幾つかの実施形態を例示的に添付の図面を参照して記載する。 図1は、本発明の1実施形態にしたがう装置のブロック図である。 図2は、隠れたマルコフモデル(Hidden Markov Models)のネットワークの概略 図を示す。 図3は、図1のトークンメモリの内容を示す。 図4は、図1の装置によって重み付けの配置を示す。 図5は、図1のノードメモリの内容を示す。 図6は、図1の動作を示すフローチャートを示す。 図7は、図1の語彙メモリの内容を示す。 図8は、図4の配置に対する代わりの重み付け手順を示す。 言語認識には基本的に2つの方法がある。並列処理方法は、各話声(例えば、 単語)が基準テンプレートまたはモデルを連続的に比較して、もっも類似するも のを1つ以上識別するやり方であり、トリー処理方法は、話声の一部分(例えば 、フォニーム)が基準テンプレートまたはモデル(なお“モデル”は一般的な意 味 で使用している)と比較して、その部分を識別し、さらに次の部分に対して同様 の処理を行なうやり方である。 ここでトリー構造を使用する実施形態を記載する。 図1の言語認識器は、言語信号用の入力1を有し、これはデジタル対アナログ コンバータ2によってデジタル形式に変換される。次にこのデジタル信号は、例 えば10msの間多数のパラメータまたは“特徴”をもつ継続するフレームのそ れぞれを計算する特徴抽出器3に供給される。通常使用される特徴、例えばMe 1周波数セプストラル係数(Me1 frequency cepstral coefficients)または変形 予測係数を選択することができる。 フレーム毎の可能な特徴値の組合せの数は相当に大きく、後の処理を処理可能 な程度まで減少するために、ベクトル量子化を応用するのが一般的で、すなわち 特徴の組を制限された数mの標準の特徴の組合せ(v1、v2、…、vm)の1つ に整合させるのが一般的である。これはベクトル量子化器(VQ)4によって行 われ、単一の数または“観察”Oj(j番目フレームに対して)を生成する。次 にこれが、分類器5に供給され、通常ここでは観察シーケンス[Oj]をモデル メモリ6に記憶された1組のモデルに整合させる。各モデルは異なるサブワード 、例えばフォニームに対応する。分類器は、プログラムメモリ52、ノードメモリ 53、およびトークンメモリ54内の記憶プログラムによって制御される中央プロセ ッサ51を含んでいる。分類器は、隠れたマルコフモデルを使用して分類処理を行 なう。ここでその原理を記載する。 概念的に、隠れたマルコフモデルは“ブラックボックス”として扱われ、nの 可能な状態を有し、正規間隔で1つの状態から次の状態へ進むことができるか、 またはその代わりに確率のパラメータにしたがって同じ状態に留まることができ る。状態iから状態jへの遷移確率はaijであり、状態iに留まる確率はaiiで ある。したがって、次の式のようになる。 言語音の時間的順序が原因で、左−右モデルが一般的に、aijが0j−i 1のときのみゼロ以外になるものに対して使用される。特定の状態で、出力が生 成され、それは可能な限定された数mの出力、例えば、第2の組の確率にしたが ってv1、v2、…、vmの1つであってもよい。このコンテキストでは、vkは特 定の組の言語の特徴を識別する。状態jのときに出力vkを生成する確率はbjk である。したがって、 第3のパラメータは、特定の状態から始まる確率である。状態iから始まる確 率はπiである。 したがってモデルは、1組のパラメータ、 A=[aij](i=1…n,j=1…n) B=[bjk](i=1…n,j=1…n) π=[πi] (i=1…n)、 およびこのパラメータに適用されて、出力シーケンスを生成することができる1 組の規則から成る。事実、モデルは存在せず、出力シーケンスも生成されない。 むしろ、言語認識の問題は、vのシーケンス(各vは観察された言語の特徴の組 を表している)を与えるとき、A、B、πによって定められるモデルMがこのシ ーケンス(観察シーケンス)を生成できる確率Pが何であるか”という質問とし て形成される。 この質問は、それぞれが(例えば)異なるフォニームを表している多数の異な るモデルに対して照会されるとき、最も高い確率を有するモデルによって表され るフォニームが認識されたと考えられる。 観察シーケンスが時間t=1乃至t=Tに対してO1、O2、・・・、OTであると 想定する。この観察で状態jに到達する確率αT(j)は、次の反復式によって得 られる。 モデルMによって生成される観察シーケンスOの確率は、次のとおりである。 これは、全ての可能な状態のシーケンスを考慮した観察シーケンスOの確率で あり;実際には、一定量の計算を減少するために、通常はViterbiアルゴ リズムを呼出し、観察シーケンスを生成するのに最高の確率をもっている状態シ ーケンスと関係する確率を計算する。この場合式1乃至3が次の式と置換される 。 または、ログ変域では、 モデルメモリ6は、相関言語の各フォニームに対するA、B、およびπの値( これらは一緒にモデルMと呼ばれる)を含む。モデルのパラメータを生成するた めのトレーニングプロセスは一般的であるので、さらに説明を加えない。S.J.Co xによる"Hidden Markov Models for Automatic Speech Recognition: Theory an d Application"(British Telecom Technology Journal Vol.6,No.2,1988年 2 月)を参照されたい。特定の観察シーケンスOのフォニームは、各モデルM1・・・ MQ(なお、Qはモデルの数である)に対してPr v (O|Mi)を計算すること によって認識される。最も高いpr vを生成するモデルを有するフォニームは、認 識されると考えられる。 もちろん、実際には単語を認識することが必要である。この処理は、多数のノ ードを有するネットワークまたはトリー構造の形態で視覚化することができる。 この構造は、後で分かるように各ノードはメモリの各領域に対応するという意味 でのみ存在する。 図2は、“yes”と“no”を区別する簡単なネットワークを示している。 ここではこれらのフォニームを{y}{eh}{s}および{n}{ow}で示 している。 図2でノード10は、最後のノード16と同様にノイズモデル(全体的に1つの状 態のモデル)に対応しており、これらは前後の“黙音(silence)”を表している 。最後のノードを除く残りのノードは、図示されたフォニームに対応している。 例えば、ノード11は“yes”のフォニーム[y]に対応している。 動作において、ノードは図3に示されている次の情報を含むトークンを受取る : −前のノードから累積された得点; −前のノードの識別子(ノードメモリ内のアドレス); −このトークンを生成した前のノードによって受取られるトークンの識別子 (トークンメモリ内のアドレス); −トークンはさらに活性/不活性フラグも含み、この使用は以下に記載する 。 このようなトークンは全て、将来の参照のためにトークンメモリ54に記憶され る。 第1のノードはフレームレートでエンプティトークンを供給される。ノードに 到達するトークンは、そのノードへ向うパス上のノードと関係するモデルにこれ までの言語入力が対応する尤度(実際には確率の対数)を示す得点を含んでいる ; したがってノード13に到達するトークンは、ここまでの言語が話声{y}{eh }に対応する尤度を示す得点を含んでいる。ノードに関連するタスクは、新しい 言語入力フレームとそのモデルを比較することである。これは、新しいフレーム に関して式7乃至9の計算を行って、到来する得点に付加されて、得点を更新す る確率pr vを得ることによって行われる。新しいトークンはこの得点を含む出力 であり、次のノードへ送られる。普通、この得点は、トークンを出力する前にモ デルの状態の数(一般的に3)に等しいフレーム数に累積される。その後、トー クンはフレーム毎に生成される。ノードが別のトークンを受取る一方で、それが 依然として第1のノードを処理しているとき、このノードは別のトークンの得点 と第1のノードの最新の得点を比較し(すなわち、最新のログpr vと到来する トークンの得点とを加算し)、新しいトークンを無視するか、または別のトーク ンの得点が2つの得点の高い方であるか低い方であるかにしたがって新しいトー クンのために現在の処理を放棄する。 与えられた例では、パスは最後のノードを除いて収束しない。パスが収束可能 なとき、多数のパスの伝搬が可能であっても、2つのトークンの同時到着の確率 は、普通より低い得点を有するものを無視することによって処理される。 最後のノード16では、収束するパスの最も高い得点のノードを除いた全てを拒 絶することができるが、多くの応用では、2つ以上を保持することが望ましい。 さらに、最後のノードで望ましい得点になる機会はないと考えられるほど低い得 点を保持するトークンの伝搬を終了する準備が行われる。以下でさらにこの“プ ルーニング”処理を説明する。ネットワークを通るパスを識別して、話声のフォ ニームを発見することができる。これは、出力トークンから戻って成功したトー クンシーケンスをトレースする、“前のトークン”アドレスを使用してトークン メモリ内のトークンを識別することによって認識されると考えられる。 トリー構造に組込まれるHMモデルは単一の大きなモデルであると考えられる ことを記載しておくべきであろう。 ここまでに説明したように、認識器は、一般的な意味で、通常のものである。 ここで記載される認識器の別の特徴は、認識トリーへアプリオリ確率を“伝搬す る”目的を有することである。単語“cat”、“cab”、“cob”、“d og”、および“den”を区別するための図4に示されたトリーを検討する。 前のプロセスの結果として、これらを行うアプリオリ確率は、値0.5、0.2 、0.3、0.1、0.1を重み付けすることによって表されると想定する。こ れは、ノード23,24,26,29,31の得点入力を、別の決定が行われる前にこれらの値 によって重み付けをされる必要があることを意味している。しかしながら、重み 付けは、次に示すようにトリー内の各ノードに対して行われる。したがってその 単語が“cat”または“cab”または“cob”である確率は、0.5+0 .2+0.3=1.0の重み付けをすることによって表され、一方で“dog” または“den”に対する対応する値は0.1+0.1+0.05=0.2であ る。その結果、ノード21に対する得点入力は、1.0に因子によって重み付けさ れ、 ノード27に対する入力は0.2の因子によって重み付けされる。一方で“cat ”または“cab”に関連する値は0.7であり、他方で“cob”に関連する 値は0.3であるので、ノード22および25への入力に適切に重み付けをする必要 がある。しかしながら、1.0の因子はノード21によってこのブランチに既に適 用されているので、ノード22および25における重み付けは以下のように表すこと ができる。 ノード22における重み付け=0.7/1.0=0.7 ノード25における重み付け=0.3/1.0=0.3 同様に、ノード23および24は以下のように表すことができる。 ノード23における重み付け=0.5/1.0×0.7=5/7 ノード24における重み付け=0.2/1.0×0.7=2/7 また、ノード28および30は以下のように表すことができる。 0.1/0.2=0.5 もちろん、図4のトリーは、このプロセスを概念的に表しているだけである。 実際には、各ノードは、以下の情報を有するノードメモリ(図5参照)内のエン トリによって表される。 −使用されるモデルの(モデルメモリ内の)アドレス; −ネットワーク内の次のノードのアドレス; −ノードが活性であるか否かを示すフラグ; −そのノードに関係する重み付けを示すログ値; −計算の結果に対する一時的ストレージ。 最初の2つの項目の内容は、認識器の語彙を設定するときに決定される。この プロセスは、認識される単語のリストを含む語彙メモリ7(図1参照)を参照す ることによって実行され、各単語に対して、アドレスのストリングがその単語の 言語音(sound)に対応するフォニームモデルのシーケンスを識別する(同じく図 7参照)。ノードメモリの内容の生成(以下で説明されるログの重み付け値の内 容のセーブ)は一般的である;それは、各単語に対応するノードアドレスのシー ケンスの語量メモリへの挿入を含む。 CPU51は、図6のフローチャートに示されているように、プログラムメモリ 52内に記憶されるプログラム制御のもとで以下の処理を行う; 第1に、第1のノードへの入力としてエンプティトークンを生成する、すなわ ちゼロ(すなわち、ログ(1))の得点およびゼロを発生するノードアドレス(こ れはトークンが第1のノードによって処理されることを意味すると考えられる) および前のフレームの日付を有するトークンメモリ内にエントリを生成する。こ れらの第1のノードはそこで“活性”であると考えられる。 次に、各フレーム期間では以下の段階を実行する: 各活性ノードに対して: −HMMプロセスを開始し、かつこのノードによって処理されるトークンが 最後のフレーム内で生成されなかったときには、現在のフレーム観察Oを使用し てHMMプロセスを更新する。プロセスがnフレームに到達したとき(なおnは このノードに関係する特定のHMMの状態の数である)、ノードメモリに記憶さ れたログのアプリオリ確率値を計算された尤度の値に加算し、その結果を使って トークンメモリ内に新しいエントリを生成する(それにも関わらず、現在のプロ セスは次のフレームに対しても続けることができることに注意すべきである); −プロセスを開始せず、このノードによって処理されるトークンが最後のフ レーム中に生成されなかったとき、(すなわち、活性フラグがちょうど設定され たとき)現在のフレーム観察を使用して、新しいHMMプロセスを開始する。単 一の状態のHMMの場合、その結果を使用して、トークンメモリ内に新しいエン トリを生成する;(それにも関わらず現在のプロセスは次のフレームまで続ける ことができることに注意すべきである); −プロセスを開始し、このノードによって処理されるトークンが生成された とき、到来する得点と内部の得点とを比較し、その結果にしたがって上述のプロ セスを継続し、無変化のままか、あるいは第1の状態への入力として到来するス コアを付加する。 −生成された各トークンに対して、 −トークン得点から発生ノードアドレスを得て; −発生ノードに対するノードメモリエントリから“次のノード”アドレス を得て; −このような次のノードのそれぞれを次のフレームに対して活性であると フラグを立てる。 −トークンメモリ内に新しいエントリが生成されるときは、 −関係する得点が、記憶された“全てのトークンに対する最高得点”数を 越えているとき、この数字を更新し; −関係する得点が、記憶された“全てのトークンに対する最高得点”数よ りも所定のマージン(例えば、50)よりも大きい分だけ小さければ、トークン メモリのエントリを除去する(“プルーニング”段階)。この結果ノードが入力 および出力の両トークンをもたないとき、それを不活性にする(すなわち、ノー ドメモリのエントリを除去する)。 −最後のノードでは、 認識が完了したとき、および認識パスのトレースバックを行うことができる ことに関する決定は、特定の測定を検査する規則および閾値のシステムに基づい て行われる。したがって、各フレームに対して、最後のノードで現れる最良のト ークンをトレースバックして、最後のノイズノードで幾つのフレームが費やされ たかを検査する。(ネットワーク内の全てのパスは、端部にノイズノードを有す ると想定する)。継続期間が閾値よりも長く、パスの得点が別の閾値よりも高い とき、認識を止める(すなわち、完全なパスに対する認識得点が適度に好ましく なり、パスが端部に適度な量のノイズ、一般的に20フレーム、すなわち0.3 2フレームを含むまで、待たなければならない)。これは、言語検出アルゴリズ ムの終了を最も簡単に記述したものである。実際には、アルゴリズムは日付に対 する信号のSNRおよびノイズエネルギーの分散に関する付加的な検査によって 拡張することができる。さらに多数のタイムアウトがあって上述の検査が連続し て失敗するとき、言語検出の終了が結局はトリガすることが確実となるようにす る。 次に、最高の得点トークン、またはNoutの最高の得点トークンにこでNoutは 所望の数の出力選択である)に対して、 (a)トークンから先のノードおよびそこから関連するモデル識別子を検索 し; (b)前のトークンメモリエントリを検索し; (c)全てのモデルを識別するまで、(a)および(b)を反復する。 ここで認識された単語は、関連する得点と一緒に使用できる。 上述は、認識プロセスである:このプロセスを開始する前に、ログのアプリオ リ確率をノードメモリに入力することが必要である。前の認識プロセスによって 、図7に示されたフォーマットでアプリオリ確率値を生成したと仮定する。ここ では(例として)多数の都市名のそれぞれがそれに割当てられた確率を有すると する。CPU52は、ノードアプリオリの確率の値を導き出すための次の設定プロ セスを実行する。 第1に、語彙メモリ7を参照することによって、単語をノードシーケンスに変 換することが必要であり、その結果、認識トリーを通る各可能なパスに対して、 各ノードへ向う途中のログのアプリオリ値の合計が分かる。次に、図4に示され ているように、各ノードに対して個々の値を計算することが必要であり、次のよ うになる: (a)所定の確率値を各単語に対応する最後のノードに割当て; (b)右側から左側へ進み(図4参照)、各ノードに対して、それにしたが うノードに割当てられたものの合計である確率値を割当て(図4では、第1のノ ードは割当てられた値の1を有するようにとられている); (c)左側から右側へ進み、前のノードに割当てられた値によって各ノード に対する確率値を分割し; (d)全ての値のログを取る。 実際には、全体的に計算の面倒の少ない技術がログ値と共に行われ、合計では なく、最大値を取る。したがって、(図8に示されているように): (a)所定のログの確率値を各単語に対応する最後のノードに割当て; (b)ノードまたは後段のノードに割当てられた最大値であるログ確率値を 各ノードに割当て; (c)各ノードに対する値から、前のノードに割当てられた値を控除する。 もちろん分岐していないリンクの計算(正方形のブラケットで示されている) は行う必要がない。 上述では、第1の基準は、トークンは閾値より下の得点を保持する、すなわち 、如何なるときにおいても“最良のパス”の得点数を保持するときにトークンを 消去するというものである。事実、ログ確率を使用するので、ログの得点と、最 良のログ得点から最良の平均動作を与えるように設定された固定マージン値を引 いたものとの間で比較が行われる。 しかしながら、実際には使用するための最適のプルーニングレベルは実際に話 された話声に依存する。したがって、変形例では、プルーニングは認識器の現在 の計算上の負荷の関数として調節される。例えば、それは活性ノードの数に依存 して調節することができる。したがって、 1.幾つかのノードのみが活性であるとき、プルーニング閾値は緩められ、より 多くのノードが活性状態を保ち、潜在的に精度を高められる。 2.多くのノードが活性であるとき、プルーニング閾値はきつくされ、計算量を 減少する。 これに関して、閾値を調節して、活性ノードの数を一定に保つことは可能であ る。このときは、各時間フレームにおいて、活性ノードnaの数は所望の目標nt (例えば、1300)と比較される。閾値のマージン値MTを段階値Ms(例えば 、2)によって、Moの開始値(例えば、100)から最小値Mmin(例えば、7 5)と最大値(例えば、150)との間で変化させることができる。各時間フレ ームごとに以下の段階をとることができる。 (1)na>ntおよびMT>Mminのとき、M=M−Ms (2)na<ntおよびMT<Mminのとき、M=M+Ms しかしながら他の基準を適用できるときもあり、例えば活性モデル状態数また は(とくに非常に多くの語彙を有する認識器のときは)活性単語数に基づいて決 定することができる。 この動的な閾値の調節は、アプリオリの重み付けを行わないシステムで使用す ることもできる。 上述の認識器は、特定の状態で行われる限定された数の可能な観察を行うよう に制限されている。しかしながら望むのであれば、観察Oに対する値を有する連 続する確率密度bj(O)によって確率bjkを置換することができる。周知のよ うに、全体的な連続確率密度は、もっと拘束された形態−通常ガウス分布の連続 関数の離散数の重み付けをした合計(または混合)によってうまい具合に近似値 を得ることができる。したがって確率密度の関数は、 なお、Xは混合における成分(または“モード”)の数であり、cjkは状態jに おけるモードxの重み付けであり、N[O、μjx、Ujx]は、中間ベクトルμjx および共分散マトリックスUjxで多変量垂直分布からベクトルOを引出す確率で ある。 ガウス分布に対して、次の式が成り立つ。 なお、dはベクトルの大きさである。これは、Uが項目(term)σiを有する対角 行列であるとき、次のように減少する。 なお、υiはOの要素である。 式1乃至9の認識プロセスは変更されず、bの定義のみが変化する。この連続 する密度モデルのトレーニングプロセスは知られているので、以下で説明しない 。 並列処理方法は、上述で説明したトリー処理方法よりも簡単である。プルーニ ングを含むこの典型的な処理方法は、モデルを検査するときの実行リストの上か ら(例えば)6つの“最良”の候補を維持することを含む。例えば、 (a)未知の単語を最初の6つのモデルと比較し、これらのモデルのリスト を生成し、それぞれに対して類似の得点を記録し; (b)未知の単語を別のモデルと比較する。得られた得点が、リスト内の他 の何れよりも高ければ−すなわち類似度がより高いときは、リスト内の最も低い 得点エントリに新しいモデルおよび得点を代入し; (c)全てのモデルを処理するまで段階(b)を反復する。このプロセスは 、上から6つの高得点のモデルのリストを生成する。最良の候補を選択する前に 、アプリオリの確率が適用されるとき、6つの得点のそれぞれが相関する重み付 け因子によって乗算され、最良の重み付けをされた得点を有する候補が選択され る。 提案された方法では、認識プロセス中に重み付けが行われる;すなわち、 (a)未知の単語を第1の6つのモデルと比較し、それぞれに対して類似の 得点を発生する。各モデルに対する重み付け因子によって得点を乗算する。これ らのモデルのリストを生成し、それぞれに対して重み付けされた得点を記録し; (b)未知の単語を別のモデルと比較する。このモデルに対する重み付け因 子によって得点を乗算する。得られた重み付けした得点がリスト内の他のものよ りも高いときは、最も低く重み付けをされた得点を有するリストにおいてエント リに対する新しいモデルおよび重み付けされた得点を代入し; (c)全てのモデルが処理されるまで、段階(b)を繰返す。
【手続補正書】特許法第184条の8第1項 【提出日】1997年4月28日 【補正内容】 トークンの得点とを加算し)、新しいトークンを無視するか、または別のトーク ンの得点が2つの得点の高い方であるか低い方であるかにしたがって新しいトー クンのために現在の処理を放棄する。 与えられた例では、パスは最後のノードを除いて収束しない。パスが収束可能 なとき、多数のパスの伝搬が可能であっても、2つのトークンの同時到着の確率 は、普通より低い得点を有するものを無視することによって処理される。 最後のノード16では、収束するパスの最も高い得点のノードを除いた全てを拒 絶することができるが、多くの応用では、2つ以上を保持することが望ましい。 さらに、最後のノードで望ましい得点になる機会はないと考えられるほど低い得 点を保持するトークンの伝搬を終了する準備が行われる。以下でさらにこの“プ ルーニング”処理を説明する。ネットワークを通るパスを識別して、話声のフォ ニームを発見することができる。これは、出力トークンから戻って成功したトー クンシーケンスをトレースする、“前のトークン”アドレスを使用してトークン メモリ内のトークンを識別することによって認識されると考えられる。 トリー構造に組込まれるHMモデルは単一の大きなモデルであると考えられる ことを記載しておくべきであろう。 ここまでに説明したように、認識器は、一般的な意味で、通常のものである。 ここで記載される認識器の別の特徴は、認識トリーへアプリオリ確率を“伝搬す る”目的を有することである。単語“cat”、“cab”、“cob”、“d og”、および“den”を区別するための図4に示されたトリーを検討する。 前のプロセスの結果として、これらを行うアプリオリ確率は、値0.5、0.2 、0.3、0.1、0.1を重み付けすることによって表されると想定する。こ れは、ノード23,24,26,29,31の得点入力を、別の決定が行われる前にこれらの値 によって重み付けをされる必要があることを意味している。しかしながら、重み 付けは、次に示すようにトリー内の各ノードに対して行われる。したがってその 単語が“cat”または“cab”または“cob”である確率は、0.5+0 .2+0.3=1.0の重み付けをすることによって表され、一方で“dog” または“den”に対する対応する値は0.1+0.1=0.2である。その結 果、ノード21に対する得点入力は、1.0に因子によって重み付けされ、
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(KE,LS,MW,SD,S Z,UG),UA(AM,AZ,BY,KG,KZ,MD ,RU,TJ,TM),AL,AM,AT,AU,AZ ,BB,BG,BR,BY,CA,CH,CN,CZ, DE,DK,EE,ES,FI,GB,GE,HU,I S,JP,KE,KG,KP,KR,KZ,LK,LR ,LS,LT,LU,LV,MD,MG,MK,MN, MW,MX,NO,NZ,PL,PT,RO,RU,S D,SE,SG,SI,SK,TJ,TM,TR,TT ,UA,UG,US,UZ,VN (72)発明者 サイモンズ、アリソン・ダイアン イギリス国、アイピー10・0エフエフ、サ フォーク、イプスウィッチ、トリムレイ・ セント・メリー、フォークナーズ・ウェイ 117 (72)発明者 ホイットテイカー、スティーブン・ジョン イギリス国、アイピー4・4エルピー、サ フォーク、イプスウィッチ、ブリストル・ ロード 53

Claims (1)

  1. 【特許請求の範囲】 1.言語認識方法であって: 類似性の尺度を生成するために未知の話声の一部分を基準モデルと比較し; 該未知の話声の別の部分を基準モデルと繰返し比較して類似性の累積された 尺度を生成して、この累積された尺度が、基準話声の複数の許容できるシーケン スを定義する記憶されたデータにより定義された該シーケンスの各々に対して生 成され、前に生成された尺度からの寄与分を含むものであり、かつそれぞれの許 容できるシーケンス内の以前の話声に対応する基準モデルと話声の1又は複数の 以前の部分との比較から得られた尺度であるようにし; 該累積された尺度に許容されたシーケンスの各々に対する重み付け因子に従 って重み付けをし、この重み付けが部分的シーケンスに対する尺度もしくは累積 された尺度の各計算に対してこの部分的シーケンスで始まる許容できるシーケン スの各々に対する重み付け因子から、話声もしくはこの部分的シーケンスで始ま るより短いシーケンスに対して生成された尺度に加えられる重み付け因子を差引 いた組合せた値による重み付けであるようにする;言語認識の方法。 2.前記重み付けをした累積された尺度が他のシーケンスに対する尺度よりも、 プルーニング規準により定義された程度まで類似性の指標を小さくするようなさ らなるシーケンスの繰返し比較を排除するようにした請求項1記載の方法。 3.前記プルーニング規準は生成され、かつさらなる繰返し比較から排除されな かった尺度の数に依存して繰返して調節されて、その数が一定に保たれるように する請求項2記載の方法。 4.言語認識装置であり: 話声を表す基準モデルに関係するデータと基準話声の許容できるシーケンス を定義するデータとを記憶するための記憶手段と; 未知の話声の部分を基準モデルと繰返し比較して類似性の累積された尺度を 、基準話声の複数の許容できるシーケンスを定義する記憶されたデータにより定 義されたこのシーケンスの各々に対して生成し、該累積された尺度は前に生成さ れた尺度からの寄与分を含むものであって、それぞれの許容できるシーケンス内 の以前の話声に対応する基準モデルと話声の1又は複数の以前の部分との比較か ら 得られた尺度であるように生成するための比較手段と; 該累積された尺度に許容されたシーケンスの各々に対する重み付け因子に従 って重み付けをし、この重み付けが部分的シーケンスに対する尺度もしくは累積 された尺度の各計算に対してこの部分的シーケンスで始まる許容できるシーケン スの各々に対する重み付け因子から、話声もしくはこの部分的シーケンスで始ま るより短いシーケンスに対して生成された尺度に加えられる重み付け因子を差引 いた組合せた値による重み付けをする重み付け手段と;から成る言語認識装置。 5.重み付けした累積された尺度が他のシーケンスに対する尺度よりも、所定の プルーニン規準によって定義された程度まで、低い類似性を示すさらなるシーケ ンスの繰返し比較を排除する手段をさらに含む請求項4記載の方法。 6.プルーニン規準が、さらなる繰返し比較から生成され排除されていない尺度 数にしたがって繰返し調節され、その数を一定に保つのに役立つ請求項5記載の 装置。 7.言語音に対応する基準モデルを定義する記憶されたデータと、認識すべき話 声に各シーケンスが対応しており、かつこのモデルの許容できるシーケンスを定 義する記憶されたデータとを参照することにより言語認識をする方法であって: 未知の話声の部分を基準モデルと比較して話声の以前の部分と部分的に許容 できるシーケンスとの間の類似性を示す尺度を更新し、話声のより長い部分とよ り長い部分的に許容できるシーケンスとの間の類似性を示す尺度を作るようにし ; これら部分的なシーケンスでその尺度が類似性について定義された度合いよ りも小さな尺度となるようなものを識別し; 識別された部分的なシーケンスの1つで始まるシーケンス又は部分的なシー ケンスに関する尺度のさらなる生成を抑制し; て成り、該識別は尺度の閾値との比較により実行され、またこの閾値は生成され かつ抑制されていない尺度の数に依存して繰返し調節されて、その数が定数を維 持するようにされていることを特徴とする方法。 8.基準話声の複数の許容できるシーケンスを表す言語認識網の各ノードに重み 付け因子を指定する方法であって: 各ノードに対して、そのノードを取り込んでいる部分的シーケンスで始まる 許容できるシーケンスの各々に対する重み付け因子の値とその部分的シーケンス で始まる話声もしくはより短いシーケンスに適用される重み付け因子を差引く値 の組合せをすることを含む方法。 9.許容できるシーケンスに対応する網の最終ノードに対して与えられた重み付 け因子のログを指定し; 各先行するノードに対してログ確率値として後段のノードに指定されたそれ らの値の最大値を指定し; 各ノードに対する値から先行するノードに指定された値を減ずることを含む 請求項8記載の方法。 10.前記ノードは基準話声を表すモデルと関係しており、関係するモデルのパ ラメータは各ノードに指定された重み付け因子を反映して修正される請求項8ま たは9記載の方法。 11.前記認識網は木構造を有し、第1のノード以外の少なくとも1つのノード が2以上の枝をもっている請求項8乃至10の何れか1項記載の方法。 12.請求項8乃至11の何れか1項記載の方法によって生成された重み付け因 子を含むネットワークを使用する言語認識方法。 13.請求項8乃至11の何れか1項記載の方法によって生成された重み付け因 子を含むネットワークを使用する言語認識装置。 14.添付の図面を参照して実施形態に実質的に記載されたように重み付け因子 を割当てる方法。 15.添付の図面を参照して実施形態に実質的に記載された言語認識方法。 16.添付の図面を参照して実施形態に実質的に記載された言語認識装置。
JP52671596A 1995-03-07 1996-03-07 言語認識 Expired - Lifetime JP4180110B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB95301477.6 1995-03-07
EP95301477 1995-03-07
PCT/GB1996/000531 WO1996027872A1 (en) 1995-03-07 1996-03-07 Speech recognition

Publications (2)

Publication Number Publication Date
JPH11501410A true JPH11501410A (ja) 1999-02-02
JP4180110B2 JP4180110B2 (ja) 2008-11-12

Family

ID=8221113

Family Applications (1)

Application Number Title Priority Date Filing Date
JP52671596A Expired - Lifetime JP4180110B2 (ja) 1995-03-07 1996-03-07 言語認識

Country Status (13)

Country Link
US (1) US5999902A (ja)
EP (1) EP0813735B1 (ja)
JP (1) JP4180110B2 (ja)
KR (1) KR100406604B1 (ja)
CN (1) CN1150515C (ja)
AU (1) AU702903B2 (ja)
CA (1) CA2211636C (ja)
DE (1) DE69615667T2 (ja)
ES (1) ES2164870T3 (ja)
MX (1) MX9706407A (ja)
NO (1) NO974097L (ja)
NZ (1) NZ302748A (ja)
WO (1) WO1996027872A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220020362A1 (en) * 2020-07-17 2022-01-20 Samsung Electronics Co., Ltd. Speech signal processing method and apparatus

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3061114B2 (ja) * 1996-11-25 2000-07-10 日本電気株式会社 音声認識装置
GB9723214D0 (en) * 1997-11-03 1998-01-07 British Telecomm Pattern recognition
US6411929B1 (en) * 1997-11-27 2002-06-25 Hitachi, Ltd. Speech recognition method and system
US7937260B1 (en) * 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6574596B2 (en) * 1999-02-08 2003-06-03 Qualcomm Incorporated Voice recognition rejection scheme
CN1343337B (zh) * 1999-03-05 2013-03-20 佳能株式会社 用于产生包括音素数据和解码的字的注释数据的方法和设备
US6424960B1 (en) 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
US20050149462A1 (en) * 1999-10-14 2005-07-07 The Salk Institute For Biological Studies System and method of separating signals
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
DE60036486T2 (de) * 1999-10-28 2008-06-12 Canon K.K. Methode und apparat zum prüfen von musterübereinstimmungen
WO2001048737A2 (en) * 1999-12-23 2001-07-05 Intel Corporation Speech recognizer with a lexical tree based n-gram language model
US6920421B2 (en) * 1999-12-28 2005-07-19 Sony Corporation Model adaptive apparatus for performing adaptation of a model used in pattern recognition considering recentness of a received pattern data
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
GB0027178D0 (en) 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) * 2000-11-20 2001-01-03 Canon Kk Speech processing system
EP1380153B1 (en) * 2001-04-19 2009-09-02 BRITISH TELECOMMUNICATIONS public limited company Voice response system
EP1397797B1 (en) * 2001-04-19 2007-09-12 BRITISH TELECOMMUNICATIONS public limited company Speech recognition
US20030018451A1 (en) * 2001-07-16 2003-01-23 Level 3 Communications, Inc. System, method and computer program product for rating enterprise metrics
JP2003108187A (ja) * 2001-09-28 2003-04-11 Fujitsu Ltd 類似性評価方法及び類似性評価プログラム
KR100450396B1 (ko) * 2001-10-22 2004-09-30 한국전자통신연구원 트리탐색기반 음성 인식 방법 및 이를 이용한 대용량 연속음성 인식 시스템
US7356466B2 (en) * 2002-06-28 2008-04-08 Samsung Electronics Co., Ltd. Method and apparatus for performing observation probability calculations
EP1387232A1 (fr) * 2002-07-29 2004-02-04 Centre National De La Recherche Scientifique Procédé de détermination de la valeur à donner à différents paramètres d'un système
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
US7805299B2 (en) * 2004-03-01 2010-09-28 Coifman Robert E Method and apparatus for improving the transcription accuracy of speech recognition software
US7852993B2 (en) * 2003-08-11 2010-12-14 Microsoft Corporation Speech recognition enhanced caller identification
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
WO2005109846A1 (en) 2004-05-03 2005-11-17 Somatic Technologies, Inc. System and method for providing particularized audible alerts
US9117460B2 (en) * 2004-05-12 2015-08-25 Core Wireless Licensing S.A.R.L. Detection of end of utterance in speech recognition system
WO2006069381A2 (en) * 2004-12-22 2006-06-29 Enterprise Integration Group Turn-taking confidence
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US20090024183A1 (en) 2005-08-03 2009-01-22 Fitchmun Mark I Somatic, auditory and cochlear communication system and method
KR100748720B1 (ko) 2006-02-09 2007-08-13 삼성전자주식회사 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치
WO2007142102A1 (ja) * 2006-05-31 2007-12-13 Nec Corporation 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
US7899251B2 (en) * 2006-06-05 2011-03-01 Microsoft Corporation Balancing out-of-dictionary and in-dictionary recognition scores
CN101105894B (zh) * 2006-07-12 2011-08-10 陈修志 多功能语言学习机
KR100925479B1 (ko) * 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치
GB2453366B (en) 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
US7437291B1 (en) * 2007-12-13 2008-10-14 International Business Machines Corporation Using partial information to improve dialog in automatic speech recognition systems
US20090198490A1 (en) * 2008-02-06 2009-08-06 International Business Machines Corporation Response time when using a dual factor end of utterance determination technique
US20090307003A1 (en) * 2008-05-16 2009-12-10 Daniel Benyamin Social advertisement network
US8086631B2 (en) * 2008-12-12 2011-12-27 Microsoft Corporation Search result diversification
KR101217525B1 (ko) 2008-12-22 2013-01-18 한국전자통신연구원 비터비 디코더와 이를 이용한 음성 인식 방법
FI20086260A (fi) * 2008-12-31 2010-09-02 Teknillinen Korkeakoulu Menetelmä hahmon löytämiseksi ja tunnistamiseksi
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8504550B2 (en) * 2009-05-15 2013-08-06 Citizennet Inc. Social network message categorization systems and methods
US8306191B2 (en) * 2009-06-12 2012-11-06 Avaya Inc. Caller recognition by voice messaging system
US8380697B2 (en) * 2009-10-21 2013-02-19 Citizennet Inc. Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
US8554854B2 (en) * 2009-12-11 2013-10-08 Citizennet Inc. Systems and methods for identifying terms relevant to web pages using social network messages
US8612293B2 (en) 2010-10-19 2013-12-17 Citizennet Inc. Generation of advertising targeting information based upon affinity information obtained from an online social network
US8615434B2 (en) 2010-10-19 2013-12-24 Citizennet Inc. Systems and methods for automatically generating campaigns using advertising targeting information based upon affinity information obtained from an online social network
US9063927B2 (en) 2011-04-06 2015-06-23 Citizennet Inc. Short message age classification
US9002892B2 (en) 2011-08-07 2015-04-07 CitizenNet, Inc. Systems and methods for trend detection using frequency analysis
US9053497B2 (en) 2012-04-27 2015-06-09 CitizenNet, Inc. Systems and methods for targeting advertising to groups with strong ties within an online social network
CN103544952A (zh) * 2012-07-12 2014-01-29 百度在线网络技术(北京)有限公司 语音自适应方法、装置及系统
US10055767B2 (en) 2015-05-13 2018-08-21 Google Llc Speech recognition for keywords
CN105356935B (zh) * 2015-11-27 2017-10-31 天津光电通信技术有限公司 一种实现同步数字体系高阶交叉的交叉板及实现方法
JP6618884B2 (ja) * 2016-11-17 2019-12-11 株式会社東芝 認識装置、認識方法およびプログラム
US10565320B1 (en) 2018-09-28 2020-02-18 International Business Machines Corporation Dynamic multilingual speech recognition
RU2744063C1 (ru) 2018-12-18 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система определения говорящего пользователя управляемого голосом устройства
CN112786007B (zh) * 2021-01-20 2024-01-26 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN117166996B (zh) * 2023-07-27 2024-03-22 中国地质大学(北京) 地质参数门槛值的确定方法、装置、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4860358A (en) * 1983-09-12 1989-08-22 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition arrangement with preselection
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
JP2974387B2 (ja) * 1990-09-05 1999-11-10 日本電信電話株式会社 ワードスポッティング音声認識方法
KR920013250A (ko) * 1990-12-28 1992-07-28 이헌조 음성인식 시스템의 변별적 특성을 이용한 숫자음 인식방법
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
JPH06175685A (ja) * 1992-12-09 1994-06-24 Matsushita Electric Ind Co Ltd パタン認識装置及びヒドゥンマルコフモデル作成装置
US5699456A (en) * 1994-01-21 1997-12-16 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
JP2775140B2 (ja) * 1994-03-18 1998-07-16 株式会社エイ・ティ・アール人間情報通信研究所 パターン認識方法、音声認識方法および音声認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220020362A1 (en) * 2020-07-17 2022-01-20 Samsung Electronics Co., Ltd. Speech signal processing method and apparatus
US11670290B2 (en) * 2020-07-17 2023-06-06 Samsung Electronics Co., Ltd. Speech signal processing method and apparatus

Also Published As

Publication number Publication date
NO974097L (no) 1997-09-08
EP0813735A1 (en) 1997-12-29
CA2211636A1 (en) 1996-09-12
CA2211636C (en) 2002-01-22
NO974097D0 (no) 1997-09-05
MX9706407A (es) 1997-11-29
DE69615667T2 (de) 2002-06-20
US5999902A (en) 1999-12-07
CN1150515C (zh) 2004-05-19
WO1996027872A1 (en) 1996-09-12
DE69615667D1 (de) 2001-11-08
KR100406604B1 (ko) 2004-02-18
AU4887696A (en) 1996-09-23
NZ302748A (en) 1999-04-29
AU702903B2 (en) 1999-03-11
CN1178023A (zh) 1998-04-01
JP4180110B2 (ja) 2008-11-12
ES2164870T3 (es) 2002-03-01
KR19980702723A (ko) 1998-08-05
EP0813735B1 (en) 2001-10-04

Similar Documents

Publication Publication Date Title
JPH11501410A (ja) 言語認識
US5983177A (en) Method and apparatus for obtaining transcriptions from multiple training utterances
US5719997A (en) Large vocabulary connected speech recognition system and method of language representation using evolutional grammer to represent context free grammars
US5033087A (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
JP3672595B2 (ja) 結合されたストリングモデルの最小誤認率訓練
KR100924399B1 (ko) 음성 인식 장치 및 음성 인식 방법
US5625748A (en) Topic discriminator using posterior probability or confidence scores
US7881935B2 (en) Speech recognition device and speech recognition method and recording medium utilizing preliminary word selection
US20080312926A1 (en) Automatic Text-Independent, Language-Independent Speaker Voice-Print Creation and Speaker Recognition
JPH08506430A (ja) 2経路検索による音声認識方法
JPH09127972A (ja) 連結数字の認識のための発声識別立証
JPH10505687A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JP3130524B2 (ja) 音声信号認識方法およびその方法を実施する装置
JP3962445B2 (ja) 音声処理方法及び装置
JPH1185188A (ja) 音声認識方法及びそのプログラム記録媒体
Hochberg et al. Connectionist model combination for large vocabulary speech recognition
JP3914709B2 (ja) 音声認識方法およびシステム
JP3104900B2 (ja) 音声認識方法
JP4104831B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JPH07104780A (ja) 不特定話者連続音声認識方法
JPH1097273A (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
JP2731133B2 (ja) 連続音声認識装置
McDermott et al. Prototype-based MCE/GPD training for word spotting and connected word recognition
JP3369121B2 (ja) 音声認識方法および音声認識装置
Dong et al. Fast confidence measure algorithm for continuous speech recognition.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060207

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060508

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080729

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080827

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110905

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120905

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130905

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term