JPH0470640B2 - - Google Patents

Info

Publication number
JPH0470640B2
JPH0470640B2 JP62306091A JP30609187A JPH0470640B2 JP H0470640 B2 JPH0470640 B2 JP H0470640B2 JP 62306091 A JP62306091 A JP 62306091A JP 30609187 A JP30609187 A JP 30609187A JP H0470640 B2 JPH0470640 B2 JP H0470640B2
Authority
JP
Japan
Prior art keywords
label
word
generated
probability
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP62306091A
Other languages
English (en)
Other versions
JPH01167898A (ja
Inventor
Kazuhide Sugawara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP62306091A priority Critical patent/JPH01167898A/ja
Priority to EP88310172A priority patent/EP0319140B1/en
Priority to DE8888310172T priority patent/DE3878852T2/de
Priority to US07/278,055 priority patent/US5018201A/en
Publication of JPH01167898A publication Critical patent/JPH01167898A/ja
Publication of JPH0470640B2 publication Critical patent/JPH0470640B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】
A 産業上の利用分野 この発明は音声認識装置に関し、とくに高速、
高精度かつ安定した候補単語の予備選択を行える
ようにしたものである。 B 従来技術 マルコフ・モデルを用いる音声認識装置では、
入力音声を一定の短かい時間間隔(たとえば約1
ミリ秒、以下フレームという)ごとに分析し、ラ
ベル付けを行つて入力音声に応じたラベル列を生
成するという前処理を行うのが一般的である。そ
してこのような方式に適合した候補単語の予備選
択手法としては1−状態マルコフ・モデルを用い
るポーリング・フアースト・マツチ(Polling
Fast Match)手法が知られている(特願昭61−
58464号、米国特許出願番号第738930号)。この手
法では語彙に含まれる単語ごとにその単語の任意
のフレームにおいてラベル・アルフアベツト(ラ
ベルの組)の各ラベルが出力される確率を予め求
めておき、未知入力音声のラベル系列の各ラベル
に応じて各単語ごとに対応する確率を累積してい
き、各単語の累積値に応じて語彙の中から候補単
語を選択するようにしている。選択された単語は
こののち詳細マツチングされる。 ところでこのポーリング・フアースト・マツチ
手法では時間情報を全く利用していないため、発
声の語頭部分と似た語尾を持つ単語を候補として
しまうなど明らかな誤りをし、認識精度を下げる
結果となつていた。 なお他の関連する先行技術としては、
“Speaker Independent Isolated Word
Recognition Using Label Histograms”、
Proceedings of ICASSP′86、pp.2679−2682、
1986年4月、O.WatanukiおよびT.Kanekcおよ
び“Experiments in Isolated Digit
Recognition with a Cochlear Model”、
Proceedings of ICASSP′87、pp.1131−1134、
1987年4月、Eric P.LoebおよびRichard F.
Lyonがある。 前者においては、語彙に含まれる単語のN分割
ブロツクごとに、そのブロツクの任意のフレーム
においてラベル・アルフアベツトの各ラベルが出
力される確率を予め求めておき、未知入力音声の
ラベル系列をN分割し、ラベル系列の各ラベルお
よびそれが属するブロツクに応じて各単語ごとに
対応する確率を累積していき、累積値の最大のも
のを認識単語とするようになつている。後者では
Nを2として同様な処理を行つている。これらの
手法では入力音声をNまたは2分割するのに入力
音声すべての入力が完了するまで待たなくてはな
らず実時間での処理が困難となる。また各ブロツ
ク間で時間方向の平滑化を行わないため時間方向
のゆらぎに弱いという不都合がある。 なお上述2つの手法は音声認識自体に関するも
のであり、候補単語の予備選択に関するものでは
ない。 C 発明が解決しようとする題点 この発明は以上の事情を考慮してなされたもの
であり、時間情報を利用した高精度の候補単語の
予備選択を、音声の入力終了を待つことなく高速
に実行できる音声認識装置を提供することを目的
としている。また、この発明は個々の発声の時間
方向のゆらぎによる不安定性を極力抑えて候補単
語の予備選択を行える音声認識装置を提供するこ
とを目的としている。 D 問題点を解決するための手段 この発明では以上の目的を達成するために、語
彙に含まれる単語の固定長の前半部ごとおよび残
存後半部ごとにその前半部または残存後半部の任
意のフレームにおいてラベル・フルフアベツトの
各ラベルが出力される確率を予め求めておき、未
知音声の入力に際しては、前半部の固定長の時間
が経過するまで、ラベル列のラベルに応じて前半
部に関するラベル出力確率を単語ごとに累積し、
経過後はラベル列のラベルに応じて残存後半部に
関するラベル出力確率を単語ごとに累積していく
ようにしている。このようにして未知音声の入力
の終了を待つことなく処理を進めることができ
る。 また学習用音声に基づいて単語の前半部ごとお
よび残存後半部ごとにラベル出力確率を求める際
に、時間軸方向に平滑化を行う重みを付して統計
情報を得るようにし、発声の時間方向のゆらぎを
吸収するようにしている。 E 実施例 以下この発明の一実施例について図面を参照し
ながら説明しよう。 第1図はこの実施例を全体として示すものであ
り、この第1図において、入力音声データはマイ
クロホン1および増幅器2を介してアナログ・デ
ジタル(A/D)変換器3に供給され、ここでデ
ジタル・データとされる。デジタル化された音声
データは特徴量抽出回路4およびパワー抽出回路
5に供給され声データの特徴量およびパワーが抽
出される。特徴量はラベル付回路6に供給され、
ラベル・プロトタイプ辞書7の参照の下ラベルに
変換されていく。なお辞書7のラベル・プロトタ
イプはクラスタリングにより生成されたものであ
り、その個数は32である。 パワー抽出回路5からのパラー・データは単語
切出回路8に供給され、この単語切出回路8がパ
ワー・データに基づいて単語の前縁および後縁の
フレームを検出する。この検出では、たとえば第
2図に示すように発声のパワー・データUPが閾
値THを上まわつた直後を前縁フレーム(丸で囲
んで示す)とし、下まわる直前を後縁フレーム
(四角で囲んで示す)としている。なお第2図の
例は「円」の発声に関するものであり、数字の列
は「円」の発声に対応する一連のラベル番号を示
す。 単語切り出し回路8は語頭部分および語尾部分
のフレームの検出に応じてゲート信号をゲート回
路9に供給し、発声に対応するラベル列を後段に
送出する。 ラベル列は予備選択部10および詳細認識部1
1にそれぞれ供給される。予備選択部10は切換
回路に、スコア表作成部13、スコア表記憶部1
4および尤度計算部15からなつている。切換回
路12は学習時にラベル列をスコア表作成部13
に供給し、認識時に尤度計算部15に供給する。
スコア表作成部13は単語ごとに第3図に示すよ
うな単語の前半部用のスコア表T1と単語の後半
部用の同様のスコア表T2(図示しない)とを生成
し、これをスコア表記憶部14に記憶させる。ス
コア表T1,T2の生成の詳細についてはのちに
第4図を参照して説明する。第3図の例から明ら
かなようにスコア表T1には各単語の前半部の
各々においてラベルの各々が出力される確率が示
されている。たとえば丸で囲んだ「0.08」は番号
1の単語の前半部分の任意フレームで番号1のラ
ベル出力される確率が0.08であることを示す。単
語の前半部は前半の15個のフレームからなる固定
長の部分であり、後半部は残りの部分である。 尤度計算部15はスコア表記憶部14の各単語
のスコア表T1,T2を参照しながら入力音声が
単語の各々とどの程度似ているかを求めるもので
あり、似ている順にM個の候補単語を識別し、識
別データを詳細認識部11に供給する。詳細認識
部11は入力音声のラベル列をM個の候補単語の
マルコフ・モデルにたとえばビタービ・アルゴリ
ズムで整列させ、最も似ている候補単語を認識結
果として出力する。 つぎに第1図のスコア表作成部13について説
明する。 スコア表作成部13は第4図に示手順を実行し
てスコア表T1,T2を作成するものである。な
おこの手順は語彙中の単語ごとに行われる。以下
では単語の番号をkで表わす。第4図において、
ステツプS1で語頭の検出を待期し、語頭が検出
されるとすべてのラベル番号i(i=0〜31)に
対して単語前半部用のカウントCOUNT1(k,
i)および単語後半部用のカウントCOUNT2
(k,i)をゼロにし、フレーム番号t(t=1,
2,……)を1にする初期化が行われる(ステツ
プS2)。こののちステツプS3ではフレーム番号t
に応じて単後前半部用の重みW1および単語後半
部用の重みW2を設定する。この重みW1、W2は
たとえば〔表〕および第5図に示すように設定さ
れる。〔表〕および第5図から理解されるように
10<t≦20のフレームのラベルは発声の時間軸方
向のゆらぎを考慮して前半部用のスコア表T1お
よび後半部用のスコア表T2のそれぞれの作成に
あたり集計されるようになつている。しかもこの
集計を、フレーム番号に応じてなめらかに変化す
る重みにより平滑化するようにしている。
【表】 ステツプS4ではt番目のラベルltに対応したカ
ウントCOUNT1(k,lt)およびカウント
COUNT2(k,lt)を重みW1およびW2だけ増
加させる。こののちこのフレームが語尾でなけれ
ばステツプS6でフレーム番号tを1だけ増加さ
せたのちステツプS3に戻る。もし語尾であれば
ステツプS7に進む(ステツプS5)。ステツプ7で
はつぎの式によりカウントの正規化を行ない、す
べてのラベル番号iに対してスコア表T1および
T2の値すなわちラベルiの出力確率P1(k,i)
およびP2(k,i)を得る。 P1(k,i)=COUNT1(k,i)/Nj=1 COUNT1(k,
j) P2(k,i)=COUNT2(k,i)/Nj=1 COUNT2(k,
j) (ただし、Nは発声の全フレーム数である) ステツプS8ではラベル間の平滑化をつぎの式
で行う。これにより学習データが少なく、発生さ
れなかつたラベル種類が多い場合でもある程度安
定したラベル出力確率を得ることができる。 P1′(k,j)=〓iP1(k,j)C(i,j) P2′(k,j)=〓iP2(k,i)C(i,j) (ただしC(i,j)はC(i,j)≧0かつ〓j
(i,j)=1であるような平滑化行列) 平滑化行列はラベル間の距離に基づくものであ
り、たとえば第6図に示すようなものである。 第7C図および第7D図はこの実施例のスコア
表T1,T2のラベル出力確率を「円」の発生を
例にとつて示している。これに対し第7A図は単
語全体のスコア表に関するものであり、第7B図
は第7A図のものにラベル間平滑処理を施したも
のである。これらの図から明らかなようにラベル
間平滑化を行うと確率ゼロのラベルが少なくな
り、話者の音質の変化を吸収できる。またスコア
表T1とスコア表T2とを比較すると前者では/
e/に相当する第3番および第8番のラベルの出
力確率が若干大きく、/N/に相当する第23〜26
番のラベルの出力確率が小さくなつていることが
わかる。このようにスコア表T1,T2には時間
情報が含まれている。 つぎに第1図に尤度計算部15について第8図
を参照して説明する。この尤度計算部15では入
力音声のうち前半の15フレームについては前半部
用スコア表T1を用い、残りの後半部については
後半部用スコア表T2を用いるようになつている。 第8図において、ステツプS11で語頭の検出を
待期し、語頭が検出されると語彙中のすべての単
語kについてスコアs(k)をゼロにし、フレーム番
号tを1にする初期化が行われる(ステツプ
S12)。ステツプS13ではフレーム番号tが前半部
および後半部の境界に対応する番号15を超えてい
るかどうかを判別し、超えていなければステツプ
S14へ、超えていればステツプS15へ進む。ステ
ツプS14では各単語に対して前半部用のスコア表
T1を用い、t番目のラベルltに対応した出力確
率P1′(k,lt)をスコアS(k)に加算する。他方ス
テツプS15では後半部用のスコア表T2を用い、
P2′(k,lt)をスコアS(k)に加算する。こののち
ステツプS16で現在のフレームが語尾かどうかを
判別し、フレームが語尾でなければステツプS17
でフレーム番号tを1だけ増加させたのち、ステ
ツプS12に戻る。他方フレームが語尾であればス
テツプS18に進み、スコア(k)を大きさの順に整列
させて、上位M個の候補単語を選択し、これらを
詳細認識部11に渡す(ステツプS19)。 この実施例では発声を固定長の前半部と、残り
の後半部にわけて個別のスコア表を用いて予備選
択用の尤度計算を行うようにしているため全部の
発声が終了するのを待つことなくフレーム同期で
処理を行うことができる(従前の例では等分して
いたので全部の発声の終了を待つ必要がある)。
また前半部用および後半部用のスコア表を作成す
る際に平滑化を行うようにしているため発声の時
間軸方向のゆらぎに対し安定した予備選択を行え
る。さらにラベル間の平滑化も行つているため少
ない学習でも良好なスコア表を形成することがで
きる。 なお、この実施例では予備選択部10、詳細認
識部11、単語切り出し回路8およびゲート回路
9をパーソナル・コンピユータ上のソフトウエア
で実現し、特徴量抽出回路4、ラベル付け回路6
およびパワー抽出回路5をパーソナル・コンピユ
ータに実装された信号処理ボードで実現するよう
にしている。もちろんすべてハードウエアで実現
する等種々の変更が可能である。 F 発明の効果 以上説明したようにこの発明によれば発声の固
定長の前半部および残りの後半部を個別のスコア
表で評価するようにしているので時間情報を利用
できるとともにフレーム同期で処理を行うことが
できる。またスコア表を作成する際に時間軸方向
の平滑化を行うようにしているので発声の時間軸
方向のゆらぎに対して安定した候補単語の予備選
択を行える。
【図面の簡単な説明】
第1図はこの発明の一実施例を示すブロツク
図、第2図は第1図の単語切り出し回路を説明す
るタイムチヤート、第3図は第1図のスコア表作
成部で生成されるスコア表を示す図、第4図はス
コア表作成部の動作を説明するフローチヤート、
第5図および第6図はスコア表作成部におけるカ
ウントの重みおよびラベル間平滑化行列をそれぞ
れ説明する図、第7A図は「円」の発声に基づい
て生成したスコア表であつてラベル間の平滑化も
2分割も行つていない場合のものを示す図、第7
B図は同様のスコア表であつてラベル間の平滑化
のみ行つた場合のものを示す図、第7C図および
第7D図は第1図の実施例で「円」の発声に基づ
いて作成した前半部用および後半部用のスコア表
それぞれを示す図、第8図は第1図の尤度計算部
の動作を説明するフローチヤートである。 6…ラベル付回路、8…単語切出回路、10…
予備選択部、11…詳細認識部、13…スコア表
作成部、14…スコア表記憶部、15…尤度計算
部。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声を所定の微小時間間隔ごとにラベル
    に変換し、このラベルの系列に対して音声認識処
    理を実行する音声認識装置において、 認識対象語彙中の各単語についてその発声の固
    定長の前半部分の任意の微小時間間隔においてラ
    ベル組中の各ラベルが生成される確率を記憶する
    第1記憶手段と、 上記認識対象語彙中の各単語についてその発声
    のうち上記前半部分に続く後半部分の任意の微小
    時間間隔において上記ラベル組中の各ラベルが生
    成される確率を記憶する第2記憶手段と、 未知入力音声に対してラベルが生成される都度
    そのラベルが上記前半部分に属するのか上記後半
    部分に属するのかを判別する手段と、 上記未知入力音声に対して生成されたラベルが
    上記前半部分に属するときに、上記第1記憶手段
    を参照して、上記認識対象語彙中の各単語ごとに
    その単語の発声の前半部分の任意の微小時間間隔
    において当該ラベルが生成される確率を出力する
    手段と、 上記未知入力音声に対して生成されたラベルが
    上記後半部分に属するときに、上記第2記憶手段
    を参照して、上記認識対象語彙中の各単語ごとに
    その単語の発声の後半部分の任意の微小時間間隔
    において当該ラベルが生成される確率を出力する
    手段と、 上記出力された確率を累積する手段と、 上記累積された値の大きさに応じて1以上の候
    補単語を特定する手段と、 特定された候補単語に対して詳細な認識処理を
    実行する手段とを有する音声認識装置。 2 入力音声を所定の微小時間間隔ごとにラベル
    に変換し、このラベルの系列に対して音声認識処
    理を実行する音声認識装置において、 認識対象語彙中の各単語ごとに、その単語の学
    習用発声に対してラベルが生成されるたびに、上
    記発声の前縁からラベル生成時点までの経過時間
    の関数である第1の重みおよび第2の重みを、上
    記ラベルの第1の統計値および第2の統計値を得
    るためにそれぞれ累積する手段と、 上記認識対象語彙中の各単語ごとに上記ラベル
    組中の各ラベルの第1の統計値および第2の統計
    値をそれぞれ正規化する手段と、 上記認識対象語彙中の各単語ごとに正規化され
    た上記ラベル組中の各ラベルの第1の統計値を、
    その単語の発声の固定長の前半部分の任意の微小
    時間間隔において上記ラベル組中の各ラベルが生
    成される確率として記憶する第1記憶手段と、 上記認識対象語彙中の各単語ごとに正規化され
    た上記ラベル組中の各ラベルの第2の統計値を、
    その単語の発声のうち上記前半部分に続く後半部
    分の任意の微小時間間隔において上記ラベル組中
    の各ラベルが生成される確率として記憶する第2
    記憶手段と、 未知入力音声に対して生成されたラベルが上記
    前半部分に属するのか上記後半部分に属するのか
    を判別する手段と、 上記未知入力音声に対して生成されたラベルが
    上記前半部分に属するときに、上記第1記憶手段
    を参照して、上記認識対象語彙中の各単語ごとに
    その単語を発声の前半部分の任意の微小時間間隔
    において当該ラベルが生成される確率を出力する
    手段と、 上記未知入力音声に対して生成されたラベルが
    上記後半部分に属するときに、上記第2記憶手段
    を参照して、上記認識対象語彙中の各単語ごとに
    その単語の発声の後半部分の任意の微小時間間隔
    において当該ラベルが生成される確率を出力する
    手段と、 上記出力された確率を累積する手段と、 上記累積された値の大きさに応じて1以上の候
    補単語を特定する手段と、 特定された候補単語に対して詳細な認識処理を
    実行する手段とを有する音声認識装置。 3 少なくとも上記ラベル生成時点が上記前半部
    分および後半部分の境界の近傍であるときに、上
    記ラベル生成時点が遅くなるにつれて上記第1の
    重みが漸時小さくなり、上記第2の重みが漸時大
    きくなるようにした特許請求の範囲第2項記載の
    音声認識装置。 4 上記学習用発声については、ラベルが生成さ
    れるたびに、生成されたラベルに対して上記ラベ
    ル組中の各ラベルが混同を生じる確率だけ上記各
    ラベルが確率的に生成したとして上記第1の重み
    および第2の重みを累積するようにした特許請求
    の範囲第2項または第3項記載の音声認識装置。
JP62306091A 1987-12-04 1987-12-04 音声認識装置 Granted JPH01167898A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP62306091A JPH01167898A (ja) 1987-12-04 1987-12-04 音声認識装置
EP88310172A EP0319140B1 (en) 1987-12-04 1988-10-28 Speech recognition
DE8888310172T DE3878852T2 (de) 1987-12-04 1988-10-28 Spracherkennung.
US07/278,055 US5018201A (en) 1987-12-04 1988-11-30 Speech recognition dividing words into two portions for preliminary selection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62306091A JPH01167898A (ja) 1987-12-04 1987-12-04 音声認識装置

Publications (2)

Publication Number Publication Date
JPH01167898A JPH01167898A (ja) 1989-07-03
JPH0470640B2 true JPH0470640B2 (ja) 1992-11-11

Family

ID=17952920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62306091A Granted JPH01167898A (ja) 1987-12-04 1987-12-04 音声認識装置

Country Status (4)

Country Link
US (1) US5018201A (ja)
EP (1) EP0319140B1 (ja)
JP (1) JPH01167898A (ja)
DE (1) DE3878852T2 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02150899A (ja) * 1988-12-02 1990-06-11 Toshiba Corp 音声認識方式
JP2836159B2 (ja) * 1990-01-30 1998-12-14 株式会社日立製作所 同時通訳向き音声認識システムおよびその音声認識方法
US5345536A (en) * 1990-12-21 1994-09-06 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
US5710711A (en) * 1992-10-21 1998-01-20 Lucent Technologies Inc. Method and integrated circuit adapted for partial scan testability
US5628002A (en) * 1992-11-02 1997-05-06 Woodrum; Luther J. Binary tree flag bit arrangement and partitioning method and apparatus
CA2091658A1 (en) * 1993-03-15 1994-09-16 Matthew Lennig Method and apparatus for automation of directory assistance using speech recognition
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
US5917891A (en) * 1996-10-07 1999-06-29 Northern Telecom, Limited Voice-dialing system using adaptive model of calling behavior
US6167117A (en) * 1996-10-07 2000-12-26 Nortel Networks Limited Voice-dialing system using model of calling behavior
US5905789A (en) * 1996-10-07 1999-05-18 Northern Telecom Limited Call-forwarding system using adaptive model of user behavior
US5912949A (en) * 1996-11-05 1999-06-15 Northern Telecom Limited Voice-dialing system using both spoken names and initials in recognition
US6208713B1 (en) 1996-12-05 2001-03-27 Nortel Networks Limited Method and apparatus for locating a desired record in a plurality of records in an input recognizing telephone directory
US7406084B2 (en) * 1997-09-19 2008-07-29 Nokia Siemens Networks Gmbh & Co. Kg Flexible software architecture for a call processing system
US7720682B2 (en) * 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US8938688B2 (en) * 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
US7319957B2 (en) * 2004-02-11 2008-01-15 Tegic Communications, Inc. Handwriting and voice input with automatic correction
US7679534B2 (en) 1998-12-04 2010-03-16 Tegic Communications, Inc. Contextual prediction of user words and user actions
US7712053B2 (en) * 1998-12-04 2010-05-04 Tegic Communications, Inc. Explicit character filtering of ambiguous text entry
GB0004095D0 (en) * 2000-02-22 2000-04-12 Domain Dynamics Ltd Waveform shape descriptors for statistical modelling
DE10060654C1 (de) 2000-12-06 2002-06-20 Varetis Ag Verfahren und Vorrichtung zur automatischen Auskunfterteilung mittels einer Suchmaschine
US7355716B2 (en) * 2002-01-24 2008-04-08 The General Hospital Corporation Apparatus and method for ranging and noise reduction of low coherence interferometry LCI and optical coherence tomography OCT signals by parallel detection of spectral bands
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
US8583440B2 (en) * 2002-06-20 2013-11-12 Tegic Communications, Inc. Apparatus and method for providing visual indication of character ambiguity during text entry
EP2293031B8 (en) * 2003-10-27 2024-03-20 The General Hospital Corporation Method and apparatus for performing optical imaging using frequency-domain interferometry
US20050192802A1 (en) * 2004-02-11 2005-09-01 Alex Robinson Handwriting and voice input with automatic correction
US8095364B2 (en) 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
JP4298672B2 (ja) * 2005-04-11 2009-07-22 キヤノン株式会社 混合分布hmmの状態の出力確率計算方法および装置
US7796270B2 (en) * 2006-01-10 2010-09-14 The General Hospital Corporation Systems and methods for generating data based on one or more spectrally-encoded endoscopy techniques
EP2659852A3 (en) * 2006-02-01 2014-01-15 The General Hospital Corporation Apparatus for applying a plurality of electro-magnetic radiations to a sample
CN106710606B (zh) * 2016-12-29 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
CN115132198B (zh) * 2022-05-27 2024-03-15 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备、程序产品及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4513436A (en) * 1980-09-16 1985-04-23 Oki Electric Industry, Co., Ltd. Speech recognition system
JPS5972496A (ja) * 1982-10-19 1984-04-24 株式会社東芝 単音識別装置
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4852171A (en) * 1984-11-09 1989-07-25 Alcatel Usa Corp. Apparatus and method for speech recognition
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
DE3690416T1 (ja) * 1986-04-16 1988-03-10
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition

Also Published As

Publication number Publication date
EP0319140B1 (en) 1993-03-03
US5018201A (en) 1991-05-21
EP0319140A2 (en) 1989-06-07
JPH01167898A (ja) 1989-07-03
DE3878852D1 (de) 1993-04-08
EP0319140A3 (en) 1990-03-21
DE3878852T2 (de) 1993-09-23

Similar Documents

Publication Publication Date Title
JPH0470640B2 (ja)
CN108711422B (zh) 语音识别方法、装置、计算机可读存储介质和计算机设备
Sainath et al. Exemplar-based sparse representation features: From TIMIT to LVCSR
US5794196A (en) Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules
US6330536B1 (en) Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
JPH06175696A (ja) 音声コード化装置及びその方法並びに音声認識装置及びその方法
JPH04122996A (ja) 自動音声認識用に音類似に基づく文脈依存カテゴリへ音素の発音をグループ化する方法と装置
JP3299408B2 (ja) 動的特徴を使用した音声認識方法及び装置
Barakat et al. Keyword spotting based on the analysis of template matching distances
JP2002215187A (ja) 音声認識方法及びその装置
Alshawi Effective utterance classification with unsupervised phonotactic models
JPH0250198A (ja) 音声認識システム
JP3444108B2 (ja) 音声認識装置
CN110875044B (zh) 一种基于字相关得分计算的说话人识别方法
JPH0823758B2 (ja) 話者適応形音声認識装置
JP2938865B1 (ja) 音声認識装置
JP2000099084A (ja) 音声認識方法及びその装置
Liu et al. State-time-alignment phone clustering based language-independent phone recognizer front-end for phonotactic language recognition
JPH0997095A (ja) 音声認識装置
JPH0619497A (ja) 音声認識方法
Peng et al. SVM-UBM based automatic language identification using a vowel-guided segmentation
JP3428834B2 (ja) 音声認識方法及び装置
Liu et al. Improved DNN-HMM English Acoustic Model Specially For Phonotactic Language Recognition
JPH0627985A (ja) 音声認識方法
JPH06100919B2 (ja) 音声認識装置