JP3078279B2 - ニューラルネットワークとマルコフモデル認識技術を用いた音声認識の方法及び装置 - Google Patents

ニューラルネットワークとマルコフモデル認識技術を用いた音声認識の方法及び装置

Info

Publication number
JP3078279B2
JP3078279B2 JP11125902A JP12590299A JP3078279B2 JP 3078279 B2 JP3078279 B2 JP 3078279B2 JP 11125902 A JP11125902 A JP 11125902A JP 12590299 A JP12590299 A JP 12590299A JP 3078279 B2 JP3078279 B2 JP 3078279B2
Authority
JP
Japan
Prior art keywords
recognition
list
hypothesis
score
scores
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP11125902A
Other languages
English (en)
Other versions
JP2000029495A (ja
Inventor
ルキアノ・フイツソーレ
ロベルト・ゲメロ
フランコ・ラヴエラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telecom Italia Lab SpA
Original Assignee
Telecom Italia Lab SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telecom Italia Lab SpA filed Critical Telecom Italia Lab SpA
Publication of JP2000029495A publication Critical patent/JP2000029495A/ja
Application granted granted Critical
Publication of JP3078279B2 publication Critical patent/JP3078279B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自動音声認識シス
テムに関し、特に、大きな語彙中で孤立したワードを認
識するための方法及び装置に関する。ワードは、言語の
音響音声単位の結合により表され、認識は、ニューラル
ネットワークとマルコフモデルの技術がそれぞれ用いら
れる2つのシーケンシャルステップを通して実行され
る。両技術の結果は、認識精度を改善するよう適当に結
合される。
【0002】
【従来の技術】ニューラルネットワークは、大脳皮質組
織を非常に単純化した形式にて再現する並列処理構造で
ある。ニューラルネットワークは、ニューロンと称され
る多数の処理単位により形成され、これらのニューロン
が、シナプス又は相互連結重みと称される異なる強度の
リンクを介して強く相互連結される。一般に、ニューロ
ンは、入力層、1以上の中間層、及び出力層から成る階
層構造に従って組織化される。入力ユニットから開始し
て、該入力ユニットが処理されるべき信号を受け取り、
処理がネットワーク中を出力ユニットに向けて後続層に
伝搬し、出力ユニットが結果を与える。ニューラルネッ
トワークの種々の実現について、例えばD.Rumelhart
による書籍「並列分散処理(Parallel Distributed Proc
essing) 」、創刊Vol.1 、MIT Press 、Cambridge 、Ma
ss. 、1986年に記載されている。ニューラルネット
ワーク技術は、多くの分野、特に音声認識に対して適用
できる。音声認識の場合には、ニューラルネットワーク
は、入力音声信号の一部のパラメータ表現Xが与えられ
たときの音声単位の確率P(Q|X)を概算するのに用
いられる。認識されるべきワードは、音声単位の連結と
して表され、動的プログラミングアルゴリズムが、発せ
られている確率が最も高いワードを識別するのに使用さ
れる。
【0003】隠れマルコフモデルは、古典的な音声認識
技術である。このタイプのモデルは、可能な遷移により
相互連結された幾つかの状態により形成される。遷移
は、元の状態から目的状態に移行する確率に関係する。
さらに、各状態は、所与の確率分布に従って有限アルフ
ァベットのシンボルを放出し得る。音声認識に対して使
用される場合、各モデルは、左から右へのオートマトン
による音響音声単位を表し、該オートマトンでは、循環
遷移により各状態に残るか、又は次の状態に移行するこ
とができる。さらに、各状態は、Xにおいて定義された
確率密度と関連する。このXは、10ms毎に音声信号
から引き出されたパラメータのベクトルを表す。従っ
て、状態に関連する確率密度に従って放出されたシンボ
ルは、入力ベクトルの多次元空間におけるガウシアン曲
線の混合により与えられる。隠れマルコフモデルの場合
にも、認識されるべきワードは、音声単位の連結として
表され、動的プログラミングアルゴリズム(ビテルビ(V
iterbi) アルゴリズム)が使用され、所与の入力音声信
号に対して最も高い確率にて発せられたワードを見つけ
る。
【0004】この認識技術についてのさらなる詳細は、
例えばL.Rabiner 、B- H.Juang による「音声認識
の基礎(Fundamentals of speech recognition)」、Pren
ticeHall 、Englewood Cliffs、New Jersey(米国)か
ら得られる。この発明の方法は、ニューラルネットワー
ク技術とマルコフモデル技術の両方を2ステップ認識に
より使用し、両技術により得られる結果の結合を利用す
る。異なる認識器のスコアーが組み合わされて認識精度
の点で性能を改善する認識システムが、S.Austin、
G.Zavaliagkos 、J.Makhoul 及びR.Schwartzによ
る論文「セグメントニューラルネットを用いた音声認識
(Speech recognitionusing segmental neural net
s)」、ICASSP 92 Conferenceにて発表、サンフランシス
コ、1992年3月23〜26日、に記載されている。
この公知システムは、隠れマルコフモデルにより第1認
識を行い、N個の最良認識仮説のリスト(例えば20
個)、すなわち実際に発せられた文である最も高い確率
を有するN個の文のリストを、それらの尤度(likelihoo
d)スコアーと共に与える。マルコフ認識ステージは、ニ
ューラルネットワークに基づいて、各仮説の音声セグメ
ンテーションも行い、セグメンテーション結果を第2認
識ステージに転送する。このステージは、ニューラル認
識技術に従って、第1マルコフステップにより与えられ
た音声セグメントから開始して認識を行い、各々が尤度
スコアーに関連した仮説のリストを与える。両方のスコ
アーは、線形結合されて単一のリストを形成し、このよ
うな結合から生じる最良仮説が、認識された発声として
選択される。
【0005】この種のシステムは、いくつかの欠点を有
する。第1の欠点は、第2認識ステップが第1ステップ
により与えられた音声セグメントから開始して実行され
ることによる。すなわち、セグメンテーションが時間エ
ラーにより影響されるならば、第2ステップは最終リス
トに伝搬する認識エラーを発生するであろう。さらに、
このようなシステムは、大きな語彙内での孤立ワードの
認識には適当でない。というのは、このように特定の状
況下では計算負荷の観点からニューラル認識器より僅か
に効率の低いマルコフ認識器を第1ステージとして使用
するからである。加えて、マルコフ認識器やニューラル
ネットワーク認識器により与えられる仮説は異なるスコ
アーダイナミックスを示すことを考えれば、スコアーの
シアー(shear) 線形結合は重要でない結果を導き得る。
最後に、この公知システムは、行われた認識についての
如何なる信頼性情報をも与えない。孤立ワードを使用す
るシステムにおける上記情報の利用可能性は、一方では
特に重要な特徴である。すなわち、実際問題として、こ
れらのシステムはユーザーに発声されたワードを確認す
ることを一般に要求し、従って、より長い手順時間を必
要とする。もし信頼性情報が与えられれば、システム
は、認識信頼性が所与の閾値より低くなったときのみ確
認を要求でき、手順をスピードアップできユーザーとシ
ステムオペレーターの両方にとって利益となる。
【0006】
【発明が解決しようとする課題】本発明の目的は、上記
タイプの認識方法及び装置を提供することであり、これ
らは、大きな語彙内での孤立ワードを認識するよう適宜
設計され、認識精度を改善でき、認識信頼性評価が得ら
れる。
【0007】
【課題を解決するための手段】特に、本発明による方法
は、認識されるべき同じ発声に対して2つの認識ステッ
プを連続して作用させること、すなわち、ニューラルス
テップがアクティブ語彙全体を分析し、マルコフステッ
プがニューラルステップの結果として与えられる仮説リ
ストによりのみ表される部分語彙を分析すること、及び
さらに結合の結果得られかつ最良仮説に関連するスコア
ーと再配列リスト内の後続位置にある1以上の仮説に関
連するスコアーに基づいて、再配列されたリストの最良
仮説に対して認識信頼性の評価が行われ、それにより、
「確実」又は「不確実」として夫々見なされる認識に対
応する少なくとも2つの値を有し得る信頼性インデック
スを発生することを特徴とする。上記方法を行うための
認識器は、ニューラルネットワークユニットが、隠れマ
ルコフモデルに基づく認識ユニットの前に配置され、ア
クティブ語彙全体に作用することによりその認識を行う
ことができ、隠れマルコフモデルに基づく認識ユニット
が、ニューラルネットワークにより与えられるリストに
含まれる仮説により形成される部分語彙に作用すること
により、ニューラルネットワーク認識ユニットとは独立
にその認識を行うことができること、及び処理ユニット
が、再配列されたリストに含まれる仮説に関連の結合ス
コアーを用いることにより、仮説の再配列リスト内の最
尤スコアーを有する仮説に対する認識信頼性を評価する
ための評価手段を含み、該評価手段は、信頼性インデッ
クスを与えることができ、信頼性インデックスは、この
ような仮説に対して「確実」又は「不確実」として夫々
見なされる認識に対応する少なくとも2つの値を有し得
ることを特徴とする。
【0008】
【実施例】図1は、本発明による認識システムを示す。
この認識システムは、2つの認識器NE,MAにより形
成され、連続しかつ独立した2つの認識ステップにおい
てライン1を介して到達した音声信号を操作する。当技
術では通常、ライン1上に存在する信号は、話者により
発せられるワードの適当なパラメーター表現(例えばケ
プストラル(cepstral)表現)とされ、これは、処理装置
(図示せず)において得られ、例えば10〜15msの
持続時間のフレームに編成される。第1ステップで動作
する認識器NEは、ニューラルネットワーク技術に基づ
いており、アクティブ語彙全体を使用することにより認
識を実行する。NEは、出力2上にM(nn)ワードの
リストを与える。これらのワードは、特定タイプのニュ
ーラルネットワークに従って最良認識仮説を形成し、か
つ、各々はそれぞれの音響尤度スコアーnni に関連す
る。NEの出力2は、第2認識器MAにも接続される。
第2認識器MAは、ライン1に存在する信号を受け取
り、隠れマルコフモデル(HMM)技術に基づいて認識
を行う。この認識は、可能な認識仮説の選択を、認識器
NEにより識別されたM(nn)ワードにより表される
語彙に制限することにより行われる。MAは、出力3に
M(hmm)ワードのリストを与える。これらのワード
は、マルコフモデルによる最良認識仮説を表し、かつ各
々は、それぞれの音響尤度スコアーhmmj に関連す
る。
【0009】従来の方法では、両方のリストとも整列さ
れたリストとして発行される。最も一般的な場合には、
それらは異なる長さを有し、また、MAの動作特性ゆえ
に、MAにより与えられるM(hmm)ワードはNEに
より与えられるM(nn)ワードの部分集合となること
に留意すべきである。両認識器NE、MAの出力2、3
は、スコアー処理装置ELに接続され、スコアー処理装
置は、次の2種類の操作を行わなければならない。 (1)各ワードのスコアーを標準化し標準化されたスコ
アーを結合することにより、2つのリストに存在するワ
ードに関するスコアーを処理し、このような処理の終わ
りに、結合スコアーにより再配列された新しいリストを
システムの第1出力4に与えること。 (2)もし両方の認識器NE、MAが同じワードを最良
認識仮説として識別したならば、このように結合された
リスト内の尤度スコアーに関する幾つかの所与の条件が
満たされていることを確かめることにより、このような
ワードに対する信頼性インデックス(もちろん結合リス
ト内で最良仮説となる)を計算しシステムの第2出力5
に放出すること。
【0010】この二重機能を考慮して、3つの機能ブロ
ックUE1、CM、UE2が、図中スコアー処理装置E
L内に描かれている。UE1は、NEとMAにより与え
られるリストのスコアー標準化、標準化されたスコアー
の結合、及び結合されたスコアーに基づいた再配列リス
トの発生についての操作を実行する処理ユニットであ
る。再配列リストは、出力4に与えられる。CMは、比
較ユニットであり、最良認識されたワードが両方のリス
トにおいて同じであるかどうかを確認し、それが肯定的
ならばユニットUE2をイネーブルする。ユニットUE
2は、結合されたスコアーに対する所望の条件が満たさ
れているか否かを確認し、その結果として信頼性インデ
ックスを出力5に与える処理ユニットである。ここに記
載の実施例では、このようなインデックスは「確実」又
は「不確実」としてそれぞれ見なされる認識に対応する
2つの値を取り得ることが仮説される。
【0011】ユニットUE1、UE2が上記操作を行う
方法を、以下詳細に説明する。採用された解決策は、マ
ルコフ認識器MAの前に配置されたニューラル認識器N
Eを用いて全体効率を改善する。実際問題として、ニュ
ーラルネットワーク技術は、大きな語彙でのより速い認
識スピードを可能とし、一方、マルコフモデル技術は、
制限された語彙へのより良い性能を提案する。ニューラ
ル認識器NEにより得られた最良M(nn)仮説に対応
する語彙のみが使用される第2認識ステップの間、マル
コフ認識器MAを用いることにより、全体の認識時間を
短縮できる。例えば同一出願人による欧州特許出願EP
−A0733982に記載のように、ニューラルネット
ワークにより与えられるスピードの利点は、特にニュー
ラル認識器NEが、処理結果の伝搬がインクリメンタル
である(すなわち、NEが、一つの層からより上位の層
への伝搬が、次の瞬間でのニューロンの活性化値間で有
為な差を含むような多層ネットワークを含む)タイプの
場合に得られる。マルコフ認識器MAに対しては特別な
要求は存在せず、当技術において公知のタイプのいずれ
でもよい。
【0012】図1は機能ブロック図であり、従ってブロ
ックUE1、CM、UE2は一般に処理装置ELに記憶
されたプログラムの異なる部分に対応すること留意され
たい。個々の認識器NE、MAも適当にプログラミング
された処理装置により実現されることを考慮すると、同
じ処理装置が、1より多い表示ブロックのタスクを実行
できることは明らかである。図1の装置により実行され
る認識工程全体は、図2のフローチャートによっても示
される。上記説明により、さらなる説明は必要ないであ
ろう。NEとMAにより与えられる両リストに含まれる
仮説に対するスコアー処理操作について、UE1により
実行される第1ステップは、平均μ(nn)、μ(hm
m)及び2つのリストの各々に対するスコアーの分散σ
(nn)、σ(hmm)の計算であり、次の公知の公式
による。
【0013】
【数1】 ここで、M(hmm)、M(nn)、nni 、hmmj
は上記述べた意味を有する。
【0014】次のステップは、平均及び分散に対するス
コアー標準化を行い、ゼロ平均及び単位(unitary) 分散
を有するスコアーの2リストNNi 、HMMj を得るこ
とである。このために、UE1は、次の関係式により表
される操作を行う。
【数2】 UE1は、リスト内のワード数が所与の閾値Mより少な
くない場合にのみ、そのリストに対してスコアーの平均
及び分散の計算(及びそれらの標準化)を行う。好まし
い実施態様では、M=3、すなわち平均と分散の計算が
可能な最小値とされた。リスト中のワード数が閾値Mよ
り少ない場合には、それぞれの認識器により与えられる
スコアーの代わりに、UE1は予め定められたスコアー
値を使用する。これは、標準化の一種である。これまで
行われた実験では、1つの仮説のみの場合にはスコアー
値3.0が割り当てられ、2つだけの仮説の場合には値
2.0と1.0が割り当てられた。認識器は、これらの
パラメーター値にはほとんど感知しないことが示され
た。このように、良い尤度に対応するいかなる値でも使
用できる。
【0015】最後に、2つのリスト内の同じワードIP
h (HMM)、IPk (NN)に関連するスコアーの実
際の結合が行われ、可能なワードの最終リストが発生さ
れる。この最終リストは、結合されたスコアーに従って
再配列される。線形結合が行われ、その結果、新しいリ
スト内の任意のワードIPxは、次式により与えられる
結合スコアーSxを有する。 Sx=α・NNh +β・HMMk ここで、αとβは2つの認識器の各々に割り当たられた
重みである。好ましくは、2つの重み(ユニットUE1
内に記憶されている)は、関係式β=1−αを満たす。
両方の認識器が実質的に同様の性能を有するならば、α
=0.5である。異なる性能を有する場合には、値αと
βの適当な範囲は、0.4〜0.6とし得る。ただ1つ
のリストに存在するワードの場合には、スコアー結合は
行われないことは明らかである。これらのワード(上記
説明した理由により一般にニューラルネットワークによ
り与えられるリストに属する)は、放棄又は最小スコア
ーに関係付けられ得、スコアー結合が実行されたものの
後の最終リストに挿入される。ゼロ平均と単位分散を有
するリストを与える標準化のおかげで、両認識器により
与えられるスコアーの異なるダイナミックス故の効果が
除去され、認識信頼性が改善される。
【0016】この方法は、図3のフローチャートにも示
される。上記説明が与えられれば、このフローチャート
に対するさらなる説明は不要であろう。一旦UE1が結
合スコアーを得て再配列リストを準備したなら、ブロッ
クUE2は、リスト中の第1ワードの認識信頼性を決定
できる。既に述べたように、もし同一ワードがNE及び
MAにより与えられるリスト内で第1位置を有するこ
と、すなわちIP1(NN)=IP1(HMM)を認識
すれば、UE2の動作は比較器CMによりイネーブルさ
れる。信頼性評価のため、UE2は、最良ワードに関連
するスコアー、及びそのワードとリスト内の後続ワード
の幾つかの間のスコアー差を評価する。特に、認識を
「確実」と見なすためには、(2つのリスト内の最良ワ
ードの同一性に関する条件を同時に満たし)以下の条件
も満たすことが必要である。 (1)再配列リスト内の第1ワードの結合スコアーS1
が、第1閾値T1よりも大きくなければならないこと。 (2)再配列リスト内の第1ワードに関連する結合スコ
アーS1と第2及び第5ワードに関連するスコアーS
2、S5間の差が、それぞれ第2及び第3閾値T2、T
3より大きいこと。十分な数の仮説が存在する場合にの
み、差S1−S2とS1−S5が計算され、それぞれの
閾値と比較される。そうでない場合には、条件(2)が
満足されたと考える。
【0017】閾値は、認識器が使用される用途に従って
設定される。例えば、実行された実験では、次の値が採
用された。すなわち、T1=2.0、T2=0.9、T
3=2.3。直感的には、上記述べた条件(両リストに
より与えられる最良認識仮説の同一性に加えて、リスト
中の最良仮説と後続のものの間の十分なスコアー差をも
要求する。)が、いかにして認識信頼性の実際の評価を
可能にするかが分かる。認識信頼性の評価操作は、図4
のフローチャートにも示される。この図では両リスト内
の最良ワードの同一性は、他の条件の確認に対する予備
条件として見なされる代わりに、他の条件と共に共同確
認される条件として示されたことが分かる。しかし、同
じ原理の実行の詳細のみが存在することは明らかであ
る。この図に関しても更なる説明は不要であろう。
【0018】上記説明は単に非制限的な例として与えら
れていること、及び本発明の範囲から逸脱することなく
変更及び/又は改変が可能であることは明らかである。
例えば、信頼性を評価するため、最良ワードスコアーが
第2ワードのスコアーより十分に大きいか否かのみを確
認することが可能であり、それにより、別のワード(第
5のものでもないが、第2のものから十分離れた別のワ
ードであり得る。)との比較が避けられる。認識信頼性
を確認するため、「確実」と「不確実」の間の中間評価
度を導入するように、異なる方法で上記与えられた条件
を結合することができ、又は更なる条件を加えることが
できる。例えば、中間評価度は、閾値T3ではなくT1
及びT2のみに対する条件を満たすことにより表し得
る。最後に、たとえ孤立ワード認識についての説明しか
為されてないとしても、連続的な音声に対しても本認識
器が使用できる。
【図面の簡単な説明】
【図1】本発明による認識システムのブロック図であ
る。
【図2】本発明による認識方法のフローチャートであ
る。
【図3】スコアー結合のための操作のフローチャートで
ある。
【図4】認識信頼性の計算操作のフローチャートであ
る。
【符号の説明】
NE 認識器 MA 認識器 EL スコアー処理装置 UE1、UE2、CM 機能ユニット
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ロベルト・ゲメロ イタリー国 10091 アルピグナノ(ト リノ)、ヴイア・ヴイラ 10 (72)発明者 フランコ・ラヴエラ イタリー国 10073 シリエ(トリノ)、 ヴイア・ヴイグナ 32 (56)参考文献 特開 平3−15898(JP,A) 特開 平4−218100(JP,A) 特開 昭56−101199(JP,A) 特開 昭58−52696(JP,A) 特開 昭58−159598(JP,A) 特開 昭61−114299(JP,A) 特開 昭63−254498(JP,A) 特開 平2−298998(JP,A) 特許2577891(JP,B2) 特許2654917(JP,B2) 特許3039408(JP,B2) 特公 平4−54960(JP,B2) 米国特許5566270(US,A) 英国特許出願公開2231698(GB,A) 英国特許出願公開2230370(GB,A) 仏国特許出願公開2647249(FR,A 1) 欧州特許出願公開955628(EP,A 2) 電子情報通信学会技術研究報告[音声 ]Vol.97,No.114,SP97−15, 深田俊明外,「リカレントニューラルネ ットワークを用いた音素境界推定と音声 認識への応用」p.41−48(1997年6月 19日発行) IEEE Transactions on Speech and Aud io Processing,Vol. 2,No.1,Part.▲II▼,J anuary 1994,G.Zavali agkos et al,”A Hyb rid Segmental Neur al Net/Hidden Mark ov Model System fo r Continuous Speec h Recognition”,p. 151−160 IEEE Transactions on Speech and Aud io Processing,Vol. 2,No.1,Part.▲II▼,J anuary 1994,C.Dugast et al,”Combining TDNN and HMM in a Hybrid System for Improved Continuou s−Speech Recogniti on”,p.217−223 Proceedings of IE EE 1990 Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.1,S8.3,”TDNN Labeling for a HM M Recognizer”,p.421 −423 Proceedings of th e 1991 IEEE Workshop on Neural Network s for Signal Proce ssing,S.Austin et al,”A Hybrid Conti nuous Speech Recog nition System Usin g Segmental Neural Nets with Hidden Markov Models”,p. 347−356 Proceedings of IE EE 1993 Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.1,R.P.Lippma nn et al,”Hybrid N eural−Network/HMM Approaches to Word spotting”p.I−565−I− 568 Proceedings of 1993 IEEE Internationa l Conference on Ne ural Networks,Vol. 3,N.M.Botros et a l,”Automatic Speec h Recognition Usin g Hidden Markov Mo dels and Artificia l Neural Network s”,p.1770−1775 Proceedings of 1996 IEEE Third Worksh op on Interactive Voice Technology f or Telecommunicati ons Applications, I.Gavat et al,”A H ybrid NN−HMM Syste m for Connected Di git Recognition Ov er Telephone in Ro manian Language”, p.37−40 Proceedings of 1998 IEEE World Congre ss on Computationa l Intelligence,1998 IEEE International Joint Conference on Neural Network s,Vol.1,K.Na et a l,”An HMM/MLP Hybr id Approach for Im proving Discrimina tion in Speech Rec ognition”,p.156−159 Proceedings of 1998 IEEE Forth Intern ational Conference on Signal Process ing,Vol.1,Y.Jia et al,”Recognition o f Chinese Speech U sing Hybrid HMM/HN N Models”,p726−729 Proceedings of 1998 SBT/IEEE Internat ional Telecommunic ations Symposium,V ol.1,C.A.Ynoguti e t al,”A Comparison Between HMM and H ybrid ANN−HMM Base d Systems for Cont inuous Speech Reco gnition”,p.135−140 Proceedings of IE EE International J oint Symposia on I ntelligence and Sy stems,1998,S.−M.Geor gescu,”Probability Estimation in Hyb rid NN−HMM Speech Recognition System s with Real−Time N eural Networks”,p. 412−417 Proceedings of UK IT 1990 Conference, IEE Conference Pub lication No.316,Y.A rriola et al,”Inte gration of Multi−L ayer Perceptron an d Markov Models fo r Automatic Speech Recognition”,p.413 −420 (58)調査した分野(Int.Cl.7,DB名) G10L 15/28 G06F 15/18 560 G10L 15/14 G10L 15/16 INSPEC(DIALOG) JICSTファイル(JOIS) WPI(DIALOG)

Claims (16)

    (57)【特許請求の範囲】
  1. 【請求項1】 2つの認識ステップ(NE、MA)、す
    なわちニューラルネットワークの使用に基づいた認識ス
    テップと隠れマルコフモデルの使用に基づいた認識ステ
    ップを行い、各ステップは、各認識仮説が夫々の音響尤
    度スコアーに関連した認識仮説のリストをそれぞれ与
    え;各リストの尤度スコアーを処理し;そして、処理し
    たスコアーに基づいて再配列された単一のリストを与え
    る音声認識方法であって、 ニューラルステップ(NE)がアクティブ語彙全体を分
    析し且つマルコフステップ(MA)がニューラルステッ
    プ(NE)の結果として得られる仮説のリストにより表
    される部分語彙のみを分析するように、2つの認識ステ
    ップ(NE、MA)を認識すべき同一発声に対して連続
    して作用させ、 上記スコアーの結合から得られかつ最良仮説に関連する
    スコアー、及び再配列されたリスト内の後続位置を占め
    る1以上の仮説に関連するスコアーに基づいて、再配列
    リストの最良仮説に対して認識信頼性の評価を行い、
    「確実」又は「不確実」と見なされる認識の場合にそれ
    ぞれ対応する少なくとも2つの値を取り得る信頼性イン
    デックスを発生することを特徴とする音声認識方法。
  2. 【請求項2】 尤度スコアー処理が、(ア)各リストに
    おいて仮説に関連するスコアーの平均と分散を計算する
    こと、(イ)それぞれの平均と分散に対して各リスト内
    の仮説に関連するスコアーを標準化し、これらのリスト
    を、スコアーがゼロ平均と単位分散を有するリストに変
    換すること、(ウ)両リストに存在する認識仮説に関連
    する標準化スコアーを線形結合すること、なる操作を含
    むことを特徴とする請求項1記載の方法。
  3. 【請求項3】 平均と分散の計算及びリストに対するス
    コアー標準化が、そのようなリストが最小値以上の数の
    仮説を含む場合にのみ実行されることを特徴とする請求
    項2記載の方法。
  4. 【請求項4】 このような最小値より小さい数の仮説を
    含むリストに対して、このようなリストに含まれる仮説
    のスコアーが所定の値に割り当てられることを特徴とす
    る請求項3記載の方法。
  5. 【請求項5】 前記線形結合のため、両リストに存在す
    る仮説のスコアーが、単位総和を有する重みにより重み
    付けされることを特徴とする請求項1〜請求項4のいず
    れか一項に記載の方法。
  6. 【請求項6】 前記単一リストの作成のため、1つのリ
    ストにのみ存在する仮説が放棄されることを特徴とする
    請求項1〜請求項5のいずれか一項に記載の方法。
  7. 【請求項7】 前記単一リストの作成のため、1つのリ
    ストにのみ存在する仮説が、両リストに存在する仮説の
    最小結合スコアーより小さい所与の最小スコアーである
    ことを特徴とする請求項1〜請求項5のいずれか一項に
    記載の方法。
  8. 【請求項8】 前記単一リスト内の最良認識仮説に対す
    る認識信頼性の前記評価が、前記仮説が両リスト中で最
    良であった場合に実行され、また、(ア)前記最良仮説
    に関連する結合スコアーを第1閾値と比較すること、
    (イ)前記最良仮説に関連する結合スコアーと次に小さ
    いスコアーを有する仮説に関連するものとの差により与
    えられる第1スコアー差を計算すること、及び(ウ)前
    記第1差を第2閾値と比較することなる操作を含み、 もし前記結合スコアーと前記第1差が両方ともそれらの
    夫々の閾値より大きいならば、信頼性インデックスが、
    確実と見なされる認識に対応する値として与えられる、
    ことを特徴とする請求項1〜請求項7のいずれか一項に
    記載の方法。
  9. 【請求項9】 前記認識信頼性評価が、(ア)前記最良
    仮説に関連する結合スコアーと、再配列されたリスト内
    での所定数の位置だけ間隔を置いた次の位置を有する別
    の仮説に関連したものとの差により与えられる第2スコ
    アー差を計算すること、及び(イ)前記第2差を第3閾
    値と比較すること、なる操作をも含み、 もし前記別の差がそれぞれの閾値より大きいならば、信
    頼性インデックスが、確実と見なされる認識に対応する
    値として与えられる、ことを特徴とする請求項8記載の
    方法。
  10. 【請求項10】 リストが最小値以上の数の仮説を含む
    場合にのみ、前記差の計算が行われることを特徴とする
    請求項8又は請求項9に記載の方法。
  11. 【請求項11】 前記最小値より小さい数の仮説を有す
    るリストの場合に、第2及び第3閾値を越える条件が満
    足されると見なされることを特徴とする請求項10記載
    の方法。
  12. 【請求項12】 (ア)カスケード接続された一対の認
    識ユニット(NN、MA)であって、ニューラルネット
    ワークに基づいた認識技術と隠れマルコフモデルに基づ
    いた認識技術をそれぞれ使用し、認識仮説の夫々のリス
    トを与え、各仮説は、夫々の音響尤度スコアーに関連し
    ている前記認識ユニット、及び(イ)処理ユニット(E
    L)であって、両認識ユニット(NN、MA)により決
    められるスコアーを結合し且つ結合スコアーに基づいて
    再配列されたリストを与えるための結合手段(UE1)
    を含む前記処理ユニットを含む音声認識器であって、 ニューラルネットワーク認識ユニット(NN)が、隠れ
    マルコフモデルに基づく認識ユニット(MA)の前に配
    置され、アクティブ語彙全体に作用することにより認識
    を実行するよう構成され、隠れマルコフモデルに基づく
    認識ユニット(MA)が、ニューラルネットワークユニ
    ットにより与えられるリストに存在する仮説により形成
    される部分語彙に作用することによりニューラルネット
    ワーク認識ユニット(NN)とは独立に認識を行うよう
    構成され、 処理ユニット(EL)が、再配列リストに存在する仮説
    に関連する結合スコアーを使用することにより、再配列
    リスト内の最良尤度スコアーを有する仮説の認識信頼性
    を評価するための認識評価手段(CM、UE2)を含
    み、前記評価手段(CM、UE2)は、このような仮説
    に対して「確実」又は「不確実」と見なされる認識にそ
    れぞれ対応する少なくとも2つの値を取り得る信頼性イ
    ンデックスを与えることができることを特徴とする音声
    認識器。
  13. 【請求項13】 前記結合手段(UE1)は、その事前
    処理を行った後、両リストに含まれる認識仮説に関連す
    る尤度スコアーを線形結合するよう構成され、前記事前
    処理として、(ア)各リスト内の前記仮説に関連するス
    コアーの平均と分散を計算すること、(イ)前記仮説に
    関連するスコアーをそれら夫々のリストの平均及び分散
    に対して標準化し、前記リストをゼロ平均及び単位分散
    を有するスコアーリストに変換すること、なる操作が含
    まれることを特徴とする請求項12記載の認識器。
  14. 【請求項14】 このようなリストが最小値以上の数の
    仮説を含む場合にのみ、このような結合手段(UE1)
    がイネーブルされて平均及び分散の計算及び各認識ユニ
    ット(NN、MA)により与えられるリストのスコアー
    の標準化を実行することを特徴とする請求項13記載の
    認識器。
  15. 【請求項15】 前記評価手段(CM、UE2)が、第
    1比較手段(CM)及び第2比較手段(UE2)を含
    み、第1比較手段(CM)は、ニューラルネットワーク
    認識ユニット(NN)により識別された最良認識仮説を
    隠れマルコフモデルに基づく認識ユニット(MA)によ
    り与えられるものと比較し、もしそのような最良仮説が
    一致したならイネーブル信号を放出し、第2比較手段
    (UE2)は、前記イネーブル信号によりイネーブルさ
    れ、再配列リスト内の最良仮説のスコアー、及び再配列
    リスト内の最良仮説に関連したスコアーとすぐ下のスコ
    アーを有する仮説に関連したスコアーとの差をそれぞれ
    の閾値と比較し、これらのスコアー及び前記差がそれら
    の夫々の閾値を越える場合に確実と見なされる認識に対
    応する値を有する前記信頼性インデックスを与えるよう
    構成されることを特徴とする請求項12〜請求項14の
    いずれか一項に記載の認識器。
  16. 【請求項16】 前記第2比較手段(UE2)が、再配
    列リストの最良仮説に関連したスコアーと再配列リスト
    内で次の位置を有し且つ所定数の位置だけ間隔を置いた
    仮説に関連したスコアーとの差を別の閾値を比較し、こ
    のような差がこのような別の閾値を越える場合に「確
    実」と見なされる認識に対応する値を有する前記信頼性
    インデックスを与えるよう構成されることを特徴とする
    請求項15記載の認識器。
JP11125902A 1998-05-07 1999-05-06 ニューラルネットワークとマルコフモデル認識技術を用いた音声認識の方法及び装置 Expired - Fee Related JP3078279B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IT98TO000383A ITTO980383A1 (it) 1998-05-07 1998-05-07 Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
IT98A000383 1998-05-07

Publications (2)

Publication Number Publication Date
JP2000029495A JP2000029495A (ja) 2000-01-28
JP3078279B2 true JP3078279B2 (ja) 2000-08-21

Family

ID=11416735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11125902A Expired - Fee Related JP3078279B2 (ja) 1998-05-07 1999-05-06 ニューラルネットワークとマルコフモデル認識技術を用いた音声認識の方法及び装置

Country Status (6)

Country Link
US (1) US6185528B1 (ja)
EP (1) EP0955628B1 (ja)
JP (1) JP3078279B2 (ja)
CA (1) CA2270326C (ja)
DE (1) DE69938374T2 (ja)
IT (1) ITTO980383A1 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6148284A (en) 1998-02-23 2000-11-14 At&T Corporation Method and apparatus for automatic speech recognition using Markov processes on curves
DE19842151A1 (de) * 1998-09-15 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Adaption von linguistischen Sprachmodellen
EP1215662A4 (en) * 2000-02-28 2005-09-21 Sony Corp SPEECH RECOGNITION DEVICE, SPEECH RECOGNITION METHOD, AND RECORDING MEDIUM
US6662158B1 (en) * 2000-04-27 2003-12-09 Microsoft Corporation Temporal pattern recognition method and apparatus utilizing segment and frame-based models
US6629073B1 (en) 2000-04-27 2003-09-30 Microsoft Corporation Speech recognition method and apparatus utilizing multi-unit models
US6735562B1 (en) * 2000-06-05 2004-05-11 Motorola, Inc. Method for estimating a confidence measure for a speech recognition system
AU2001268293A1 (en) * 2000-06-12 2001-12-24 L And H Holdings Usa, Inc. Using utterance-level confidence estimates
US6754629B1 (en) 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
US7158935B1 (en) * 2000-11-15 2007-01-02 At&T Corp. Method and system for predicting problematic situations in a automated dialog
US7027987B1 (en) 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7398256B2 (en) * 2001-02-23 2008-07-08 The Trustees Of The University Of Pennsylvania Dynamical brain model for use in data processing applications
US6772116B2 (en) * 2001-03-27 2004-08-03 International Business Machines Corporation Method of decoding telegraphic speech
FR2825496B1 (fr) * 2001-06-01 2003-08-15 Synomia Procede et systeme d'analyse syntaxique large de corpus, notamment de corpus specialises
WO2003017252A1 (de) * 2001-08-13 2003-02-27 Knittel, Jochen Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge
TW517221B (en) * 2001-08-24 2003-01-11 Ind Tech Res Inst Voice recognition system
WO2006087040A1 (en) * 2005-02-17 2006-08-24 Loquendo S.P.A. Method and system for automatically providing linguistic formulations that are outside a recognition domain of an automatic speech recognition system
CA2609247C (en) * 2005-05-24 2015-10-13 Loquendo S.P.A. Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
US20100125459A1 (en) * 2008-11-18 2010-05-20 Nuance Communications, Inc. Stochastic phoneme and accent generation using accent class
US8660678B1 (en) * 2009-02-17 2014-02-25 Tonara Ltd. Automatic score following
US8260763B2 (en) * 2010-01-15 2012-09-04 Hewlett-Packard Devlopment Company, L.P. Matching service entities with candidate resources
JPWO2013125203A1 (ja) * 2012-02-21 2015-07-30 日本電気株式会社 音声認識装置、音声認識方法およびコンピュータプログラム
CN103631802B (zh) * 2012-08-24 2015-05-20 腾讯科技(深圳)有限公司 歌曲信息检索方法、装置及相应的服务器
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US20180247640A1 (en) * 2013-12-06 2018-08-30 Speech Morphing Systems, Inc. Method and apparatus for an exemplary automatic speech recognition system
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9520127B2 (en) * 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9627532B2 (en) * 2014-06-18 2017-04-18 Nuance Communications, Inc. Methods and apparatus for training an artificial neural network for use in speech recognition
US9717006B2 (en) 2014-06-23 2017-07-25 Microsoft Technology Licensing, Llc Device quarantine in a wireless network
US10304440B1 (en) * 2015-07-10 2019-05-28 Amazon Technologies, Inc. Keyword spotting using multi-task configuration
KR102069699B1 (ko) 2016-01-18 2020-01-23 한국전자통신연구원 음성인식 장치 및 방법
JP2019536298A (ja) * 2016-08-01 2019-12-12 ハネウェル・インターナショナル・インコーポレーテッドHoneywell International Inc. データ通信又は音声通信を聞くためのポータブルデータリンク機器
JP7326033B2 (ja) * 2018-10-05 2023-08-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者認識装置、話者認識方法、及び、プログラム
US20220246138A1 (en) * 2019-06-07 2022-08-04 Nippon Telegraph And Telephone Corporation Learning apparatus, speech recognition apparatus, methods and programs for the same
JP7294458B2 (ja) * 2020-01-16 2023-06-20 日本電信電話株式会社 音声認識装置、方法及びプログラム
US11783818B2 (en) * 2020-05-06 2023-10-10 Cypress Semiconductor Corporation Two stage user customizable wake word detection
KR20220010259A (ko) * 2020-07-17 2022-01-25 삼성전자주식회사 음성 신호 처리 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2230370A (en) 1989-04-12 1990-10-17 Smiths Industries Plc Speech recognition
GB2231698A (en) 1989-05-18 1990-11-21 Smiths Industries Plc Speech recognition
US5566270A (en) 1993-05-05 1996-10-15 Cselt-Centro Studi E Laboratori Telecomunicazioni S.P.A. Speaker independent isolated word recognition system using neural networks
JP2577891B2 (ja) 1986-08-06 1997-02-05 日本電信電話株式会社 単語音声予備選択装置
JP3039408B2 (ja) 1996-12-27 2000-05-08 日本電気株式会社 音類別方式

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5278911A (en) * 1989-05-18 1994-01-11 Smiths Industries Public Limited Company Speech recognition using a neural net
JP2964507B2 (ja) * 1989-12-12 1999-10-18 松下電器産業株式会社 Hmm装置
GB2240203A (en) * 1990-01-18 1991-07-24 Apple Computer Automated speech recognition system
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2577891B2 (ja) 1986-08-06 1997-02-05 日本電信電話株式会社 単語音声予備選択装置
GB2230370A (en) 1989-04-12 1990-10-17 Smiths Industries Plc Speech recognition
GB2231698A (en) 1989-05-18 1990-11-21 Smiths Industries Plc Speech recognition
FR2647249A1 (fr) 1989-05-18 1990-11-23 Smiths Industries Plc Procede de reconnaissance de la parole
US5566270A (en) 1993-05-05 1996-10-15 Cselt-Centro Studi E Laboratori Telecomunicazioni S.P.A. Speaker independent isolated word recognition system using neural networks
JP2654917B2 (ja) 1993-05-05 1997-09-17 クセルト−セントロ・ステユデイ・エ・ラボラトリ・テレコミニカチオーニ・エツセ・ピー・アー ニューラル・ネットワークを使用する話者独立孤立単語音声認識システム
JP3039408B2 (ja) 1996-12-27 2000-05-08 日本電気株式会社 音類別方式

Non-Patent Citations (13)

* Cited by examiner, † Cited by third party
Title
IEEE Transactions on Speech and Audio Processing,Vol.2,No.1,Part.▲II▼,January 1994,C.Dugast et al,"Combining TDNN and HMM in a Hybrid System for Improved Continuous−Speech Recognition",p.217−223
IEEE Transactions on Speech and Audio Processing,Vol.2,No.1,Part.▲II▼,January 1994,G.Zavaliagkos et al,"A Hybrid Segmental Neural Net/Hidden Markov Model System for Continuous Speech Recognition",p.151−160
Proceedings of 1993 IEEE International Conference on Neural Networks,Vol.3,N.M.Botros et al,"Automatic Speech Recognition Using Hidden Markov Models and Artificial Neural Networks",p.1770−1775
Proceedings of 1996 IEEE Third Workshop on Interactive Voice Technology for Telecommunications Applications,I.Gavat et al,"A Hybrid NN−HMM System for Connected Digit Recognition Over Telephone in Romanian Language",p.37−40
Proceedings of 1998 IEEE Forth International Conference on Signal Processing,Vol.1,Y.Jia et al,"Recognition of Chinese Speech Using Hybrid HMM/HNN Models",p726−729
Proceedings of 1998 IEEE World Congress on Computational Intelligence,1998 IEEE International Joint Conference on Neural Networks,Vol.1,K.Na et al,"An HMM/MLP Hybrid Approach for Improving Discrimination in Speech Recognition",p.156−159
Proceedings of 1998 SBT/IEEE International Telecommunications Symposium,Vol.1,C.A.Ynoguti et al,"A Comparison Between HMM and Hybrid ANN−HMM Based Systems for Continuous Speech Recognition",p.135−140
Proceedings of IEEE 1990 International Conference on Acoustics,Speech and Signal Processing,Vol.1,S8.3,"TDNN Labeling for a HMM Recognizer",p.421−423
Proceedings of IEEE 1993 International Conference on Acoustics,Speech and Signal Processing,Vol.1,R.P.Lippmann et al,"Hybrid Neural−Network/HMM Approaches to Wordspotting"p.I−565−I−568
Proceedings of IEEE International Joint Symposia on Intelligence and Systems,1998,S.−M.Georgescu,"Probability Estimation in Hybrid NN−HMM Speech Recognition Systems with Real−Time Neural Networks",p.412−417
Proceedings of the 1991 IEEE Workshop on Neural Networks for Signal Processing,S.Austin et al,"A Hybrid Continuous Speech Recognition System Using Segmental Neural Nets with Hidden Markov Models",p.347−356
Proceedings of UK IT 1990 Conference,IEE Conference Publication No.316,Y.Arriola et al,"Integration of Multi−Layer Perceptron and Markov Models for Automatic Speech Recognition",p.413−420
電子情報通信学会技術研究報告[音声]Vol.97,No.114,SP97−15,深田俊明外,「リカレントニューラルネットワークを用いた音素境界推定と音声認識への応用」p.41−48(1997年6月19日発行)

Also Published As

Publication number Publication date
US6185528B1 (en) 2001-02-06
DE69938374T2 (de) 2009-04-30
EP0955628A2 (en) 1999-11-10
EP0955628A3 (en) 2000-07-26
CA2270326C (en) 2002-02-26
ITTO980383A1 (it) 1999-11-07
JP2000029495A (ja) 2000-01-28
EP0955628B1 (en) 2008-03-19
CA2270326A1 (en) 1999-11-07
DE69938374D1 (de) 2008-04-30

Similar Documents

Publication Publication Date Title
JP3078279B2 (ja) ニューラルネットワークとマルコフモデル認識技術を用いた音声認識の方法及び装置
Sukkar et al. Vocabulary independent discriminative utterance verification for nonkeyword rejection in subword based speech recognition
Bourlard et al. Optimizing recognition and rejection performance in wordspotting systems
JP3049259B2 (ja) 音声認識方法
US11972751B2 (en) Method and apparatus for detecting voice end point using acoustic and language modeling information for robust voice
JP2000099080A (ja) 信頼性尺度の評価を用いる音声認識方法
US7346497B2 (en) High-order entropy error functions for neural classifiers
Boite et al. A new approach towards keyword spotting.
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
WO2019212375A1 (ru) Способ получения дикторозависимых малоразмерных высокоуровневых акустических признаков речи
JP2002358097A (ja) 音声認識装置
KR101529918B1 (ko) 다중 스레드를 이용한 음성 인식 장치 및 그 방법
JP3039634B2 (ja) 音声認識装置
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
JP2905674B2 (ja) 不特定話者連続音声認識方法
Li A detection approach to search-space reduction for HMM state alignment in speaker verification
JP3428805B2 (ja) 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法
JP4391179B2 (ja) 話者認識システム及び方法
JP3104900B2 (ja) 音声認識方法
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
Jiang et al. A data selection strategy for utterance verification in continuous speech recognition.
JP3873418B2 (ja) 音声スポッティング装置
JPH11249688A (ja) 音声認識装置およびその方法
JP2875179B2 (ja) 話者適応化装置及び音声認識装置
CN114299962A (zh) 基于音频流的对话角色分离方法、系统、设备及存储介质

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080616

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090616

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100616

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100616

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110616

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120616

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120616

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130616

Year of fee payment: 13

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees