JPH01167898A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH01167898A
JPH01167898A JP62306091A JP30609187A JPH01167898A JP H01167898 A JPH01167898 A JP H01167898A JP 62306091 A JP62306091 A JP 62306091A JP 30609187 A JP30609187 A JP 30609187A JP H01167898 A JPH01167898 A JP H01167898A
Authority
JP
Japan
Prior art keywords
label
word
generated
utterance
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62306091A
Other languages
English (en)
Other versions
JPH0470640B2 (ja
Inventor
Kazuhide Sugawara
菅原 一秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP62306091A priority Critical patent/JPH01167898A/ja
Priority to DE8888310172T priority patent/DE3878852T2/de
Priority to EP88310172A priority patent/EP0319140B1/en
Priority to US07/278,055 priority patent/US5018201A/en
Publication of JPH01167898A publication Critical patent/JPH01167898A/ja
Publication of JPH0470640B2 publication Critical patent/JPH0470640B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 A、産業上の利用分野 この発明は音声認識装置に関し、とくに高速。
高精度かつ安定した候補単語の予備選択を行えるように
したものである。
B、従来技術 マルコフ・モデルを用いる音声認識装置では、入力音声
を一定の短かい時間間隔(たとえば約12ミリ秒、以下
フレームという)ごとに分析し、ラベル付けを行って入
力音声に応じたラベル列を生成するという前処理を行う
のが一般的である。
そしてこのような方式に適合した候補単語の予備選択手
法としては1−状態マルコフ・モデルを用いるポーリン
グ・ファースト中マツチ(PollingFast M
atch)手法が知られている(特願昭61−5846
4号、米国特許出願番号第738930号)、この手法
では語索に含まれる単語ごとにその単語の任意のフレー
ムにおいてラベル・アルファベット(ラベルの組)の各
ラベルが出力される確率を予め求めておき、未知入力音
声のラベル系列の各ラベルに応じて各単語ごとに対応す
る確率を累積していき、各単語の累積値に応じて語常の
中から候補単語を選択するようにしている。選択された
単語はこののち詳細マツチングされる。
ところでこのポーリング・ファースト・マツチ手法では
時間情報を全く利用していないため、発声の語頭部分と
似た語尾を持つ単語を候補としてしまうなど明らかな誤
りをし、認識精度を下げる結果となっていた。
なお他の関連する先行技術としては“SpeakerI
ndependent l5olated Word 
Recognition UsingLabel Hi
stograms”、Proceedings of 
 ICASSP′86、pp、2679−2682.1
986年4月、0.WatanukiおよびT、Kan
ekoおよび”Experiments in l5o
lated Digit Recognition++
+ith  a  Cochlear  Model”
、Proceedings  ofICASSP  ’
 87、pp、  1131−1134.1987年4
月、Er1c P、LoebおよびRichard F
、Lyonがある。
前者においては、語常に含まれる単語のN分割ブロック
ごとに、そのブロックの任意のフレームにおいてラベル
・アルファベットの各ラベルが出力される確率を予め求
めておき、未知入力音声のラベル系列をN分割し、ラベ
ル系列の各ラベルおよびそれが属するブロックに応じて
各単語ごとに対応する確率を累積していき、累積値の最
大のものを認識単語とするようになっている。後者では
Nを2として同様な処理を行っている。これらの手法で
は入力音声をNまたは2分割するのに入力音声すべての
入力が完了するまで待たなくてはならず実時間での処理
が困難となる。また各ブロック間で時間方向の平滑化を
行わないため時間方向のゆらぎに弱いという不都合があ
る。
なお上述2つの手法は音声認識自体に関するものであり
、候補単語の予備選択に関するものではない。
C0発明が解決しようとする問題点 この発明は以上の事情を考慮してなされたものであり、
時間情報を利用した高精度の候補単語の予備選択を、音
声の入力終了を待つことなく高速に実行できる音声認識
装置を提供することを目的としている。また、この発明
は個々の発声の時間方向のゆらぎによる不安定性を極力
抑えて候補単語の予備選択を行える音声認識装置を提供
することを目的としている。
D6問題点を解決するための手段 この発明では以上の目的を達成するために、語堂に含ま
れる単語の固定長の前半部ごとおよび残存後半部ごとに
その前半部または残存後半部の任意のフレームにおいて
ラベル・アルファベットの各ラベルが出力される確率を
予め求めておき、未知音声の入力に際しては、前半部の
固定長の時間が経過するまで、ラベル列のラベルに応じ
て前半部に関するラベル出力確率を単語ごとに累積し、
経過後はラベル列のラベルに応じて残存後半部に関する
ラベル出力確率を単語ごとに累積していくようにしてい
る。このようにして未知音声の入力の終了を待つことな
く処理を進めることができる。
また学習用音声に基づいて単語の前半部ごとおよび残存
後半部ごとにラベル出力確率を求める際に、時間軸方向
に平滑化を行う重みを付して統計情報を得るようにし、
発声の時間方向のゆらぎを吸収するようにしている。
E、実施例 以下この発明の一実施例について図面を参照しながら説
明しよう。
第1図はこの実施例を全体として示すものであり、この
第1図において、入力音声データはマイクロホン1およ
び増幅器2を介してアナログ・デジタル(A/D)変換
器3に供給され、ここでデジタル・データとされる。デ
ジタル化された音声データは特徴量抽出回路4およびパ
ワー抽出回路5に供給され音声データの特微量およびパ
ワーが抽出される。特微量はラベル付回路6に供給され
、ラベル・プロトタイプ辞書7の参照の下ラベルに変換
されていく。なお辞書7のラベル・プロトタイプはクラ
スタリングにより生成されたものであり、その個数は3
2である。
パワー抽出回路5からのパラ−・データは単語切出回路
8に供給され、この単語切出回路8がパワー・データに
基づいて単語の前縁および後縁のフレームを検出する。
この検出では、たとえば第2図に示すように発声のパワ
ー・データUPが閾値THを上まわった直後を前縁フレ
ーム(丸で囲んで示す)とし、下まわる直前を後縁フレ
ーム(四角で囲んで示す)としている。なお第2図の例
は「円」の発声に関するものであり、数字の列は「円」
の発声に対応する一連のラベル番号を示す。
単語切り出し回路8は語頭部分および語尾部分のフレー
ムの検出に応じてゲート信号をゲート回路9に供給し1
発声に対応するラベル列を後段に送出する。
ラベル列は予備選択部10および詳細認識部11にそれ
ぞれ供給される。予備選択部10は切換回路に、スコア
表作成部13、スコア表記憶部14および尤度計算部1
5からなっている。切換回路12は学習時にラベル列を
スコア表作成部13に供給し、認識時に尤度計算部15
に供給する。
スコア表作成部13は単゛語ごとに第3図に示すような
単語の前半部用のスコア表T1と単語の後半部用の同様
のスコア表T2(図示しない)とを生成し、これをスコ
ア表記憶部14に記憶させる。
スコア表T1.T2の生成の詳細についてはのちに第4
図を参照して説明する。第3図の例から明らかなように
スコア表T1には各単語の前半部の各々においてラベル
の各々が出力される確率が示されている。たとえば丸で
囲んだro、08Jは番号1の単語の前半部分の任意の
フレームで番号1のラベル出力される確率が0.08で
あることを示す。単語の前半部は前半の15個のフレー
ムからなる固定長の部分であり、後半部は残りの部分で
ある。
尤度計算部15はスコア表記憶部14の各単語のスコア
表T1、T2を参照しながら入力音声が単語の各々とど
の程度能ているかを求めるものであり、似ている順にM
個の候補単語を識別し、識別データを詳細認識部11に
供給する。詳細認識部11は入力音声のラベル列をM個
の候補単語のマルコフ・モデルにたとえばビタービ・ア
ルゴリズムで整列させ、最も似ている候補単語を認識結
果として出力する。
つぎに第1図のスコア表作成部13について説明する。
スコア表作成部13は第4図に示す手順を実行してスコ
ア表T1、T2を作成するものである。
なおこの手順は語食中の単語ごとに行われる。以下では
単語の番号をkで表わす、第4図において。
ステップS1で語頭の検出を待期し1語頭が検出される
とすべてのラベル番号i (i=o〜31)に対して単
語前半部用のカウントC0UNT1(k、i)および単
語後半部用のカウントC0UNT2 (k、i)をゼロ
にし、フレーム番号t(t=1.2、・・・・)を1に
する初期化が行われる(ステップS2)。こののちステ
ップS3ではフレーム番号tに応じて単語前半部用の重
みWlおよび単語後半部用の重みW2を設定する。この
重みWl、W2はたとえば(表〕および第5図に示すよ
うに設定される。【表〕および第5図から理解されるよ
うに10くt≦20のフレームのラベルは発声の時間軸
方向のゆらぎを考慮して前半部用のスコア表T1および
後半部用のスコア表T2のそれぞれの作成にあたり集計
されるようになっている。しかもこの集計を、フレーム
番号に応じてなめらかに変化する重みにより平滑化する
ようにしている。
〔表〕フレーム番号による重みの配分 ステップS4ではt番目のラベルQtに対応したカウン
トC0UNTI (k、Qt)およびカウントcOUN
T2 (k、 Qt)を重みWlおよびWまたけ増加さ
せる。この゛のちこのフレームが語尾でなければステッ
プS6でフレーム番号tを1だけ増加させたのちステッ
プS3に戻る。もし語尾であればステップS7に進む(
ステップS5)。ステップ7ではつぎの式によりカウン
トの正規化を行ない、すべてのラベル番号iに対してス
コア表T1およびT2の値すなわちラベルiの出力確率
PL  (k、i)およびP2 (k、i)を得る。
(ただし、Nは発声の全フレーム数である)ステップS
8ではラベル間の平滑化をつぎの式で行う。これにより
学習データが少なく、発生されなかったラベル種類が多
い場合でもある程度安定したラベル出力確率を得ること
ができる。
Pi’(k、 j)=ΣPi(k、 1)C(i、 j
)i P2′(k、j)=ΣP2(k、 1)C(i、 j)
(ただしC(i、 j)はC(i、 j)≧0かつΣC
(i、 j)=1であるような平滑化行列) 平滑化行列はラベル間の距離に基づくものであり、たと
えば第6図に示すようなものである。
第7C図および第7D図はこの実施例のスコア表T1、
T2のラベル出力確率を1円」の発生を例にとって示し
ている。これに対し第7A図は単語全体のスコア表に関
するものであり、第7B図は第7A図のものにラベル間
平滑処理を施したものである。これらの図から明らかな
ようにラベル間平滑化を行うと確率ゼロのラベルが少な
くなり、話者の音質の変化を吸収できる。またスコア表
T1とスコア表T2とを比較すると前者では/ e /
に相当する第3番および第8番のラベルの出力確率が若
干大きく、7N/に相当する第23〜26番のラベルの
出力確率が小さくなっていることがわかる。このように
スコア表T1、T2には時間情報が含まれている。
つぎに第1図の尤度計算部15について第8図を参照し
て説明する。この尤度計算部15では入力音声のうち前
半の15フレームについては前半部用スコア表T1を用
い、残りの後半部については後半部用スコア表T2を用
いるようになっている。
第8図において°、ステップ311で語頭の検出を待期
し、語頭が検出されると語索中のすべての単語kについ
てスコア5(k)をゼロにし、フレーム番号tを1にす
る初期化が行われる(ステップ512)。ステップS1
3ではフレーム番号tが前半部および後半部の境界に対
応する番号15を超えているかどうかを判別し、超えて
いなければステップS14へ、超えていればステップ5
IF)へ進む、ステップS14では各単語に対して前半
部用のスコア表T1を用い、を番目のラベルQtに対応
した出力確率PL’(k、H)をスコア5(k)に加算
する。他方ステップs15では後半部用のスコア表T2
を用い、P2’(k、at)をスコア5(k)に加算す
る。こののちステップ816で現在のフレームが語尾か
どうかを判別し、フレームが語尾でなければステップS
17でフレーム番号tを1だけ増加させたのち、ステッ
プS12に戻る。他方フレームが語尾であればステップ
S18に進み、スコアS (k)を大きさの順に整列さ
せて、上位M個の候補単語を選択し、これらを詳細認識
部11に渡す(ステップ519)。
この実施例では発声を固定長の前半部と、残りの後半部
にわけて個別のスコア表を用いて予備選択用の尤度計算
を行うようにしているため全部の発声が終了するのを待
つことなくフレーム同期で処理を行うことができる(従
前の例では等分していたので全部の発声の終了を待つ必
要がある)。
また前半部用および後半部用のスコア表を作成する際に
平滑化を行うようにしているため発声の時間軸方向のゆ
らぎに対し安定した予備選択を行える。さらにラベル間
の平滑化も行っているため少ない学習でも良好なスコア
表を形成することができる。
なお、この実施例では予備選択部1o、詳細認識部11
.単語切り出し回路8およびゲート回路9をパーソナル
・コンピュータ上のソフトウェアで実現し、特徴址抽出
回路4、ラベル付は回路6およびパワー抽出回路5をパ
ーソナル・コンピュータに実装された信号処理ボードで
実現するようにしている。もちろんすべてハードウェア
で実現する等種々の変更が可能である。
F0発明の詳細 な説明したようにこの発明によれば発声の固定長の前半
部および残りの後半部を個別のスコア表で評価するよや
にしているので時間情報を利用できる仁ともにフレーム
同期で処理を行うことができる。またスコア表を作成す
る際に時間軸方向の平滑化を行うようにしているので発
声の時間軸方向のゆらぎに対して安定した候補単語の予
備選択を行える。
【図面の簡単な説明】
第1図はこの発明の一実施例を示すブロック図。 第2図は第1図の単語切り出し回路を説明するりイムチ
ャート、第3図は第1図のスコア表作成部で生成される
スコア表を示す図、第4図はスコア表作成部の動作を説
明するフローチャート、第5図および第6図はスコア表
作成部におけるカウントの重みおよびラベル間平滑化行
列をそれぞれ説明する図、第7A図は「円」の発声に基
づいて生成したスコア表であってラベル間の平滑化も2
分割も行っていない場合のものを示す図、第7B図は同
様のスコア表であってラベル間の平滑化のみ行った場合
のものを示す図、第7C図および第7D図は第1図の実
施例で「円」の発声に基づいて作成した前半部用および
後半部用のスコア表それぞれを示す図、第8図は第1図
の尤度計算部の動作を説明するフローチャートである。 6・・・・ラベル付回路、8・・・・単語切出回路、1
0・・・・予備選択部、11・・・・詳細認識部、13
・・・・スコア表作成部、14・・・・スコア表記憶部
、15・・・・尤度計算部。 第1図 第2図 M3図 フし一ム番号(時fVsl 第5図 第6は ラベル出力確率         ラベ゛ル出功確率第
7A図      第7B図 ラベ1し出力lk奉          ラベル出ψ層
1車第7C図      第7D図

Claims (3)

    【特許請求の範囲】
  1. (1)入力音声を所定の微小時間間隔ごとにラベルに変
    換し、このラベルの系列に対して音声認識処理を実行す
    る音声認識装置において、 認識対象語彙中の各単語についてその発声の固定長の前
    半部分の任意の微小時間間隔においてラベル組中の各ラ
    ベルが生成される確率を記憶する第1記憶手段と、 上記認識対象語彙中の各単語についてその発声のうち上
    記前半部分に続く後半部分の任意の微小時間間隔におい
    て上記ラベル組中の各ラベルが生成される確率を記憶す
    る第2記憶手段と、 未知入力音声に対してラベルが生成される都度そのラベ
    ルが上記前半部分に属するのか上記後半部分に属するの
    かを判別する手段と、 上記未知入力音声に対して生成されたラベルが上記前半
    部分に属するときに、上記第1記憶手段を参照して、上
    記認識対象語彙中の各単語ごとにその単語の発声の前半
    部分の任意の微小時間間隔において当該ラベルが生成さ
    れる確率を出力する手段と、 上記未知入力音声に対して生成されたラベルが上記後半
    部分に属するときに、上記第2記憶手段を参照して、上
    記認識対象語彙中の各単語ごとにその単語の発声の後半
    部分の任意の微小時間間隔において当該ラベルが生成さ
    れる確率を出力する手段と、 上記出力された確率を累積する手段と、 上記累積された値の大きさに応じて1以上の候補単語を
    特定する手段と、 特定された候補単語に対して詳細な認識処理を実行する
    手段とを有する音声認識装置。
  2. (2)入力音声を所定の微小時間間隔ごとにラベルに変
    換し、このラベルの系列に対して音声認識処理を実行す
    る音声認識装置において、 認識対象語彙中の各単語ごとに、その単語の学習用発声
    に対してラベルが生成されるたびに、上記発声の前縁か
    らラベル生成時点までの経過時間の関数である第1の重
    みおよび第2の重みを、上記ラベルの第1の統計値およ
    び第2の統計値を得るためにそれぞれ累積する手段と、 上記認識対象語彙中の各単語ごとに上記ラベル組中の各
    ラベルの第1の統計値および第2の統計値をそれぞれ正
    規化する手段と、 上記認識対象語彙中の各単語ごとに正規化された上記ラ
    ベル組中の各ラベルの第1の統計値を、その単語の発声
    の固定長の前半部分の任意の微小時間間隔において上記
    ラベル組中の各ラベルが生成される確率として記憶する
    第1記憶手段と、上記認識対象語彙中の各単語ごとに正
    規化された上記ラベル組中の各ラベルの第2の統計値を
    、その単語の発声のうち上記前半部分に続く後半部分の
    任意の微小時間間隔において上記ラベル組中の各ラベル
    が生成される確率として記憶する第2記憶手段と、 未知入力音声に対して生成されたラベルが上記前半部分
    に属するのか上記後半部分に属するのかを判別する手段
    と、 上記未知入力音声に対して生成されたラベルが上記前半
    部分に属するときに、上記第1記憶手段を参照して、上
    記認識対象語彙中の各単語ごとにその単語を発声の前半
    部分の任意の微小時間間隔において当該ラベルが生成さ
    れる確率を出力する手段と、 上記未知入力音声に対して生成されたラベルが上記後半
    部分に属するときに、上記第2記憶手段を参照して、上
    記認識対象語彙中の各単語ごとにその単語の発声の後半
    部分の任意の微小時間間隔において当該ラベルが生成さ
    れる確率を出力する手段と、 上記出力された確率を累積する手段と、 上記累積された値の大きさに応じて1以上の候補単語を
    特定する手段と、 特定された候補単語に対して詳細な認識処理を実行する
    手段とを有する音声認識装置。
  3. (3)少なくとも上記ラベル生成時点が上記前半部分お
    よび後半部分の境界の近傍であるときに、上記ラベル生
    成時点が遅くなるにつれて上記第1の重みが漸時小さく
    なり、上記第2の重みが漸時大きくなるようにした特許
    請求の範囲第(2)項記載の音声認識装置。(4)上記
    学習用発声については、ラベルが生成されるたびに、生
    成されたラベルに対して上記ラベル組中の各ラベルが混
    同を生じる確率だけ上記各ラベルが確率的に生成したと
    して上記第1の重みおよび第2の重みを累積するように
    した特許請求の範囲第(2)項または第(3)項記載の
    音声認識装置。
JP62306091A 1987-12-04 1987-12-04 音声認識装置 Granted JPH01167898A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP62306091A JPH01167898A (ja) 1987-12-04 1987-12-04 音声認識装置
DE8888310172T DE3878852T2 (de) 1987-12-04 1988-10-28 Spracherkennung.
EP88310172A EP0319140B1 (en) 1987-12-04 1988-10-28 Speech recognition
US07/278,055 US5018201A (en) 1987-12-04 1988-11-30 Speech recognition dividing words into two portions for preliminary selection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62306091A JPH01167898A (ja) 1987-12-04 1987-12-04 音声認識装置

Publications (2)

Publication Number Publication Date
JPH01167898A true JPH01167898A (ja) 1989-07-03
JPH0470640B2 JPH0470640B2 (ja) 1992-11-11

Family

ID=17952920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62306091A Granted JPH01167898A (ja) 1987-12-04 1987-12-04 音声認識装置

Country Status (4)

Country Link
US (1) US5018201A (ja)
EP (1) EP0319140B1 (ja)
JP (1) JPH01167898A (ja)
DE (1) DE3878852T2 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02150899A (ja) * 1988-12-02 1990-06-11 Toshiba Corp 音声認識方式
JP2836159B2 (ja) * 1990-01-30 1998-12-14 株式会社日立製作所 同時通訳向き音声認識システムおよびその音声認識方法
US5345536A (en) * 1990-12-21 1994-09-06 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
US5710711A (en) * 1992-10-21 1998-01-20 Lucent Technologies Inc. Method and integrated circuit adapted for partial scan testability
US5628002A (en) * 1992-11-02 1997-05-06 Woodrum; Luther J. Binary tree flag bit arrangement and partitioning method and apparatus
CA2091658A1 (en) * 1993-03-15 1994-09-16 Matthew Lennig Method and apparatus for automation of directory assistance using speech recognition
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
US5905789A (en) * 1996-10-07 1999-05-18 Northern Telecom Limited Call-forwarding system using adaptive model of user behavior
US6167117A (en) * 1996-10-07 2000-12-26 Nortel Networks Limited Voice-dialing system using model of calling behavior
US5917891A (en) * 1996-10-07 1999-06-29 Northern Telecom, Limited Voice-dialing system using adaptive model of calling behavior
US5912949A (en) * 1996-11-05 1999-06-15 Northern Telecom Limited Voice-dialing system using both spoken names and initials in recognition
US6208713B1 (en) 1996-12-05 2001-03-27 Nortel Networks Limited Method and apparatus for locating a desired record in a plurality of records in an input recognizing telephone directory
US7406084B2 (en) * 1997-09-19 2008-07-29 Nokia Siemens Networks Gmbh & Co. Kg Flexible software architecture for a call processing system
US7679534B2 (en) 1998-12-04 2010-03-16 Tegic Communications, Inc. Contextual prediction of user words and user actions
US7720682B2 (en) * 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US7319957B2 (en) * 2004-02-11 2008-01-15 Tegic Communications, Inc. Handwriting and voice input with automatic correction
US8938688B2 (en) 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7712053B2 (en) * 1998-12-04 2010-05-04 Tegic Communications, Inc. Explicit character filtering of ambiguous text entry
GB0004095D0 (en) * 2000-02-22 2000-04-12 Domain Dynamics Ltd Waveform shape descriptors for statistical modelling
DE10060654C1 (de) * 2000-12-06 2002-06-20 Varetis Ag Verfahren und Vorrichtung zur automatischen Auskunfterteilung mittels einer Suchmaschine
US7355716B2 (en) * 2002-01-24 2008-04-08 The General Hospital Corporation Apparatus and method for ranging and noise reduction of low coherence interferometry LCI and optical coherence tomography OCT signals by parallel detection of spectral bands
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
US8583440B2 (en) * 2002-06-20 2013-11-12 Tegic Communications, Inc. Apparatus and method for providing visual indication of character ambiguity during text entry
CN103181754A (zh) * 2003-10-27 2013-07-03 通用医疗公司 用于使用频域干涉测量法进行光学成像的方法和设备
US20050192802A1 (en) * 2004-02-11 2005-09-01 Alex Robinson Handwriting and voice input with automatic correction
US8095364B2 (en) 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
JP4298672B2 (ja) * 2005-04-11 2009-07-22 キヤノン株式会社 混合分布hmmの状態の出力確率計算方法および装置
WO2007082228A1 (en) * 2006-01-10 2007-07-19 The General Hospital Corporation Systems and methods for generating data based on one or more spectrally-encoded endoscopy techniques
JP5680829B2 (ja) * 2006-02-01 2015-03-04 ザ ジェネラル ホスピタル コーポレイション 複数の電磁放射をサンプルに照射する装置
CN106710606B (zh) * 2016-12-29 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
CN115132198B (zh) * 2022-05-27 2024-03-15 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备、程序产品及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4513436A (en) * 1980-09-16 1985-04-23 Oki Electric Industry, Co., Ltd. Speech recognition system
JPS5972496A (ja) * 1982-10-19 1984-04-24 株式会社東芝 単音識別装置
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4852171A (en) * 1984-11-09 1989-07-25 Alcatel Usa Corp. Apparatus and method for speech recognition
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
GB2194661B (en) * 1986-04-16 1989-12-06 Ricoh Kk Voice pattern matching method of a voice recognition unit
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition

Also Published As

Publication number Publication date
US5018201A (en) 1991-05-21
JPH0470640B2 (ja) 1992-11-11
DE3878852D1 (de) 1993-04-08
DE3878852T2 (de) 1993-09-23
EP0319140A3 (en) 1990-03-21
EP0319140B1 (en) 1993-03-03
EP0319140A2 (en) 1989-06-07

Similar Documents

Publication Publication Date Title
JPH01167898A (ja) 音声認識装置
CN108305634B (zh) 解码方法、解码器及存储介质
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US20160336007A1 (en) Speech search device and speech search method
EP0769184B1 (en) Speech recognition methods and apparatus on the basis of the modelling of new words
JP3299408B2 (ja) 動的特徴を使用した音声認識方法及び装置
Hwang et al. Online keyword spotting with a character-level recurrent neural network
Paliwal Lexicon-building methods for an acoustic sub-word based speech recognizer
JP2002215187A (ja) 音声認識方法及びその装置
JP2955297B2 (ja) 音声認識システム
EP0562138A1 (en) Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
JPH0372997B2 (ja)
Zhang et al. Wake-up-word spotting using end-to-end deep neural network system
US20140142925A1 (en) Self-organizing unit recognition for speech and other data series
JP3444108B2 (ja) 音声認識装置
JP2938865B1 (ja) 音声認識装置
EP3496092B1 (en) Voice processing apparatus, voice processing method and program
JPH0823758B2 (ja) 話者適応形音声認識装置
JP4689497B2 (ja) 音声認識装置
Laface et al. Experimental results on a large lexicon access task
JP3291073B2 (ja) 音声認識方式
JP3128251B2 (ja) 音声認識装置
JP3439700B2 (ja) 音響モデル学習装置、音響モデル変換装置及び音声認識装置
JPH10254480A (ja) 音声認識方法
JPH04291399A (ja) 音声認識方法