JPH01204099A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH01204099A
JPH01204099A JP63029678A JP2967888A JPH01204099A JP H01204099 A JPH01204099 A JP H01204099A JP 63029678 A JP63029678 A JP 63029678A JP 2967888 A JP2967888 A JP 2967888A JP H01204099 A JPH01204099 A JP H01204099A
Authority
JP
Japan
Prior art keywords
phoneme
speech
unit
output
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63029678A
Other languages
English (en)
Other versions
JP2531227B2 (ja
Inventor
Kenichi Iso
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63029678A priority Critical patent/JP2531227B2/ja
Publication of JPH01204099A publication Critical patent/JPH01204099A/ja
Application granted granted Critical
Publication of JP2531227B2 publication Critical patent/JP2531227B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は音素などの単語より短い単位を基に音声を認識
する音声認識装置の改良に関する。
(従来の技術) 従来から大語粟の単語音声認識装置を実現するために、
音素や音節などの単語より短い音声の単位(以下音素と
称する)を定義して、各音素毎に標準パターンを用意し
、音素標準パターンを音素表記の単語辞書に従って接続
して構成した単語標準パターンと入力音声パターンとを
DPマツチングによって比較照合することによって単語
認識を行なう方法が検討されている。その詳細に関して
は電子情報通信学会論文誌り分冊、Vol、J70−D
、No、12、第2460頁(1987年12月) r
語中のCV音節を標準パターンとする不特定話者の大語
禦単語音声認識」に解説されている。
また、DPマツチング以外にも統計的認識アルゴリズム
として隠れマルコフ・モデルによる音素モデルを用意し
て、その接続によって単語を認識する方法も検討されて
いる。その詳細はアール・シュワルツ(R,Schwa
rz)他により1985年音響・音声・信号処理国際会
議(International Conferevc
e on Acoustics、 5peech an
d Signal Processing)論文集31
.3.1、第1205頁以下に発表された論文「コンチ
クスト デイペンデントモデリング フォー アコース
ティック フォーネティク レコグニツション オブ 
コンティニュアス スピーチ(Cont、ext−de
pendent ModeliBfor Acoust
ic−phonetic Recognition o
f Continu′ous 5peech) 」に解
説されている。
(発明が解決しようとする問題点) 上記のような音素に基づいて単語を認識する方式は、大
語禦の音声認識を実現するためには必須と考えられるが
、現状では音素認識率が低いために必ずしも成功してい
るとは言えない。
その原因として、DPマツチングや隠れマルコフ・モデ
ルでは音素パターンの話者内或は間の時間軸方向・周波
数軸方向の変動を吸収しきれていない為と考えられる。
即ち、DPマツチングの場合には音素パターンの周波数
軸方向の変動を吸収するために、代表的な変動を表わす
標準パターンを複数個用意して対応しているが、必ずし
も音声の複雑な変動を捉えきれていない。
また、隠れマルコフ・モデルは統計的手法を導入するこ
とよって、音素パターンの変動を少数のパラメータで効
率良く記述しようとしているが、音声時系列の時間構造
としてマルコフ性を仮定しているために、時系列のある
時点での判断を行なう際に過去の影響をうまく反映させ
ることができず、満足なものとは言えない。
本発明の目的は、音声系列パターン内の前後音素の影響
を音素認識に反映させると共に、さまざまな変動を含む
音声パターンを提示して教師付き学習を行なうことによ
ってパターンの変動に強い認識処理を行なうように構成
するとができる音素に基づく音素認識装置を提供するこ
とにある。
(問題点を解決するための手段) 本発明はNp個の単語より短い単位(以下音素と称する
)を基に音声パターンを認識するに際して、 入力音声データをフレーム単位に分析して、各フレーム
の特徴ベクトルを逐次出力する音声分析部と、 前記音声分析部がら出力される特徴ベクトルの時系列か
ら始点を1フレームづつ移動しながら固定フレーム長分
だけの特徴ベクトル列を切り出して逐次出力するバッフ
ァ部と、 バッファ部から固定フレーム長の特徴ベクトル列を入力
層に入力されるユニット間結合係数記憶部に記憶されて
いるユニット間結合係数を用いて、前記入力特徴ベクト
ル列の中央のフレームに対する音素記号の推定結果を、
NP個の各々が音素記号に対応している出力ユニットの
活性度のパターン、即ちN、次元の出力活性度ベクトル
として出力する階層型ニューラル・ネットワーク前方伝
播部と、 前記階層型ニューラル・ネットワーク前方伝播部から出
力される出力活性度ベクトルの成分の内で最大値を持つ
成分に対応する音素記号を推定音素記号として出力する
判定結果出力部と、前記判定結果出力部からフレーム単
位に逐次出力される推定音素記号列を音素表記単語辞書
部に記憶されている全ての単語を表わす音素列と比較照
合し、最も類似度の高い単語を認識結果として出力する
単語照合部とを有することを特徴とする。
(作用) 本発明の基本的な原理は、入力音声をフレーム単位に分
析して特徴ベクトルの時系列に変換して、その各フレー
ム・ベクトル毎に対応する音素記号を定めるようなニュ
ーラル・ネットワークを構成しようというものである。
このニューラル・ネットワークを用いて入力音声時系列
を音素記号列に変換する。こうして得られる音素記号列
は必ずしも100%の精度で音素記号が対応付けられて
いるとは限らず、誤りも含まれている。そこで、単語認
識を行なうためにこの音素記号列を音素表記の単語辞書
と記号レベルでDPマツチングを行ない、継続時間長の
相違と部分的な音素認識誤りを吸収して、累積距離の最
も小さい単語を認識結果とする。
このように本発明では、音素認識を行なうニューラル・
ネットワークを構成しておくので、認識したい対象語禦
を増やす場合には単語辞書にその単語の音素記号表記を
加えるだけでよく、語禦の追加が容易で大語禦の音声認
識に向いている。
以下に本発明の内容について詳細に説明する。
本発明ではフレーム単位の音素認識を行なうニューラル
・ネットワークとして有効な学習アルゴリズムが知られ
ているバックプロパゲーション・ネットワークを用いる
。このネットワークの学習アルゴリズム(バックプロパ
ゲーション学習と呼ばれている)に関しては[日経エレ
クトロニクス」誌、第427号の第115頁(昭和62
年8月10日発行) [ニューラル・ネットをパターン
認識、信号処理、知識処理に使う」に解説されている。
(以下、文献1と称する。) バックプロパゲーション・ネットワークは階層構造を有
するネットワークで、入力データを受は取る入力層と、
計算結果を出力する出力層と、その間の何層かの隠れ層
とから構成されている。入力データが入力層のユニット
の活性度の組としてネットワークに入力されると、入力
層から順次隣接する層へ活性度が伝播され、最後に出力
層の出力ユニットの活性度が定まると、その活性度の組
が音素認識結果となる。
このようなニューラル・ネットワークを用いて、フレー
ム単位の音素認識を行なうためには出力層には各音素記
号に対応するユニットを用意すれば良いが、入力層に音
声パターンをどのように提示するかという点が問題にな
る。本発明では入力音声より一定フレーム長の特徴ベク
トルの時系列を切り出して、ニューラル・ネットワーク
に入力する。ニューラル・ネットワークは入力された特
徴ベクトル列の中央のフレームのベクトルに対する音素
認識結果を出力層に出力する。このような構成にするこ
とによってニューラル・ネットワークは入力音声データ
のある1フレームに対応する音素記号を決定する際に前
後の数フレーム分の音声データを参考にすることができ
るので、音声時系列の前後の影響を考慮にいれた音素認
識を実現することができる。
ニューラル・ネットワークへの音声の入力法として、特
徴ベクトルを直接入力する代わりにフレーム単位のベク
トル量子化によって求められた量子化符号を入力するこ
ともできる。以下ではベクトル量子化を用いる場合につ
いて説明する。
ベクトル量子化法の詳細に関しては文献I EEEトラ
ンザクションズ オン アコウスティックススピーチ 
アンド シグナル プロセッシング(IEEE  Tr
ansactions  on  Acoustics
、  5peech、  and  Signal  
Processing)、 Vo  1.  ASSP
−30,No、2.(1982年春) 「デイクストー
ション パフォーマンス オブ ベクトル クアンティ
ゼイション フォー エル・ビー・シーボイスコーティ
ング(Distortion Performance
 。
f  Vector  Quantization  
for  LPCVoice  Coding)1に解
説されている。
本発明の認識的に於ける処理の流れは以下の通りである
入力された音声データはフレーム単位に分析されて、特
徴ベクトルの時系列に変換される。更にこの特徴ベクト
ルの時系列はあらかじめ用意された大きさNv、、の符
号帳を用いてベクトル量子化されて、量子化符号列に変
換される。各量子化符号は後の便宜のためにNvq次元
のベクトルで表わす。このベクトルは符号帳の符号ベク
トルに0番からNv91番の番号をつけておき、量子化
によって対応付けられた符号ベクトルの番号に対応する
成分だけを1にして他の成分は0にした2値のベクトル
である。結局、入力音声データは次のような2値ベクト
ルの時系列として表わされる。
a(lla(21−・・a(i) ・−a(T)(Tは
入力音声データのフレーム数)・・・・・・(1)ここ
で上述のa (i)はNvQ次元の2値ベクトルで、そ
の第j成分をa (i;j)とすると以下のように表わ
せる。
a(i;j)  =O(if j#−n)      
 −121= 1  (if j=n) 但しnは量子化符号の番号である。
このような2値ベクトル時系列をニューラル・ネットワ
ークに入力するために長さNwの固定長2値ベクトル時
系列を逐次切り出す。k番目に切り出した固定長2値ベ
クトル時系列をb (k、Cj)とする。
b (k、s;j)  =  a <k+園;j)(m
=1〜Nw、  k=1〜T  Nw>・’=・131
こうして入力音声データから長さNv、×Nwの2値パ
ターンが切り出されたので、このデータをニューラル・
ネットワークの入力層のNy+1XNIf個の入力ユニ
ットの活性度パターンx(p)(p−1〜NvqXNw
)としてネットワークに入力する。
x(l*Nvq+j) =b(k、鵬;j)     
      ・・・・・・(41ニユーラル・ネットワ
ークはこの人力x(p)を受は取るとユニット間結合係
数を用いて出力層の出力ユニットの活性度パターンy(
q)を出力する。ここで出力ユニットは各音素記号に対
応しており、音素記号の種類数NP個個用型る。第9番
目の音素記号に対応する出力ユニットの活性度y(q)
は0.0から1.0の実数値をとる。
y (q)−[0,1]  (q=1〜Np)・・・・
・・(5)ニユーラル・ネットワークが入力層の活性度
パターンからユニット間結合係数を用いて出力層の活性
度パターンを計算する過程については、文献1に詳しい
記述があるので省略する。
k番目の固定長2値ベクトル時系列に対する音素認識結
果は活性度が最大値をとる出力ユニットの番号z(k)
として得られる。
z (k ) =argmax [3/ (Q ) ]
     −−(61結局、長さTフレームの入力音声
データから同じ長さTの音素記号列z (k)が得られ
る。またこの方法のように入力音声の各フレーム毎に逐
次対応する音素記号を求める代わりに、入力音声の数フ
レーム毎に上述の処理を行なって対応する間引きされた
音素記号列を求めることもできる。この場合には以下の
認識処理の計算量を低減することができる。
この音素記号列と音素表記された単語辞書とを記号レベ
ルで比較照合することにより、単語認識を行なう。音素
記号列と辞書中の単語音素列は長さが異なり、またニュ
ーラル・ネットワークによって求められた音素記号列に
は音素認識誤りも含まれている可能性があるので、比較
照合には音素記号間の距離を定義して、DPマツチング
を行なう。
音素記号iと音素記号jの間の距離Dijとしては、あ
らかじめ正解音素記号列が知られている試験用音声デー
タ時系列を上記ニューラル・ネ・・lトワークで音素記
号列に変換して、正解音素記号列と比較することによっ
て、音素記号iの音素を音素記号jの音素と誤認識して
しまう割合Cij(コンフユージヨン行列)が得られる
ので、Cijの値が大きいほどDijが小さくなるよう
に定義すれば良い。
例えば、rを正の定数として、 D、、=O(i=j>・・・・・・(力=1/((1:
+j)’   (i≠j)このようにコンフユージヨン
行列を用いて距離を定義すれば誤り易い音素間の距離は
小さくなるので、ニューラル・ネットワークによる音素
認識結果に誤認識があってもDPマツチングの累積距離
には大きな寄与をしないので精度の高い単語認識結果を
得ることができる。
次に、上述のような構成の音声認識装置に於てニューラ
ル・ネットワークの音素認識精度を決定するパラメータ
であるユニット間結合係数を学習によって決める方法に
ついて説明する。
まず、学習用の音声データに上記の音声分析、音声符号
化、固定長2値ベクトルの切り出し処理を行なって、ニ
ューラル・ネットワークに人力できる形態のデータに変
換する。このデータを入力データとし、学習用音声デー
タの各フレームでの対応する正解音素記号列を教師信号
として前記文献1に詳しいバックプロパゲーション学習
を行なって、ニューラル・ネットワークが学習用音声デ
ータに対しては正しい音素認識を行なうようにユニッ′
ト間結合係数を決定する。
最後に冗長な学習の繰り返しを避けて、学習に要する時
間を短縮する方法について説明する。即ち、符号化され
た学習用音声データの時系列中に於て、同じ符号がNw
個以上連続している場合には、ニューラル・ネットワー
クに入力される固定長2値ベクトル時系列は全く同じパ
ターンが繰り返されることになるので、同じ符号がNw
個以上連続しないように学習データから省いてしまうこ
とができる。このようにすることによって母音部分など
の同じパターンが繰り返されることが多い部分に学習が
偏ることなく、より識別が困難な子音部分の学習を重点
的に行なうことができるようになる。
また、この方法を認識的に適用することによって、母音
部分などで同じ音素記号の連続する部分が長くなり過ぎ
て、DPマツチングの累積距離に大きな寄与をしてしま
い、子音部分の累積距離がマスクされて誤認識に至ると
いうことを防ぐことができる。
(実施例) 第1図は本発明を実現した装置の一実施例を示したブロ
ック図である。認識時には入力された音声は音声分析部
1でフレーム単位に分析されて特徴ベクトルの時系列に
変換され、各特徴ベクトルは音声符号化部2で符号帳記
憶部3に記憶されている0番から(Nvq 1)番に番
号付けされなNv9個の符号帳ベクトルと比較され、最
も類似した符号帳ベクトルの番号をnとして、第n成分
のみが1で他の成分はOであるNv4次元の2値符号ベ
クトルに変換される。バッファ部5は2値符号ベクトル
の時系列から固定長の符号ベクトル列を切り出して逐次
階層型ニューラル・ネットワーク前方伝播部6へ入力す
る。階層型ニューラル・ネットワーク前方伝播部6はユ
ニット間結合係数記憶部10に記憶されているユニット
間結合を用いて出力層の活性度を算出して活性度ベクト
ルとして出力する。判定結果出力部7は階層型ニューラ
ル・ネットワーク前方伝播部6の出力である出力層の活
性度ベクトルの最大値を持つ成分を判定して対応する音
素記号を音素認識結果として出力する。判定結果出力部
7から出力される音素記号の時系列はDP照合部8で、
コンフユージヨン行列記憶部13に記憶されているコン
フユージヨン行列から音素記号間距離計算部14によっ
て計算され、音素記号間距離記憶部15に格納・記憶さ
れている音素間距離を用いて、音素表記単語辞書部9に
記憶されている単語音素列とDP照合されて、累積距離
が最小となる単語が認識結果として出力される。
学習時には、音声分析部1への入力として学習用音声を
入力して、認識時と同じ処理の流れで階層型ニューラル
・ネットワーク前方伝播部6の出力として出力層の活性
度ベクトルが出力されると、ユニット間結合係数修正部
11がその活性度ベクトルと学習用音声に対応する教師
信号を比較してバックプロパゲーション学習法によって
ユニット間結合係数の修正量を算出して、ユニット間結
合係数記憶部10に記憶されているユニット間結合係数
を修正する。
DP照合時に用いられる音素記号間距離を算出するため
のコンフユージヨン行列の決定は次のように行なわれる
。上記のユニット間結合係数の学習が終了した後で、試
験用の音声データを音声分析部1に入力して、認識時と
同じ処理の流れで判定結果出力部7から認識結果として
得られる音素記号列をコンフユージヨン行列要素計算部
12が正解音素記号列と比較して、音素記号iの音素を
音素記号jの音素と誤認識としている割合をi行j列の
要素として算出し、コンフユージヨン行列記憶部13に
格納する。
また認識時、学習時共に音声符号化部2の出力である2
値打号ベクトル時系列における同じ2値打号ベクトルの
繰り返しがバッファ部5で切り出される長さNwより長
くなっている場合には時系列圧縮部4で繰り返しがNw
より長くならないように圧縮して次のバッファに部に入
力するようにする事ができる。
(発明の効果) 以上述べたように本発明によれば、音声時系列パターン
内の前後音素の影響を音素認識に反映させることができ
ると共に、さまざまな変動を含む音声パターンを提示し
て教師付き学習を行なうことによってパターンの変動に
強い音素単位の認識に基づく音声認識装置を構成するこ
とができる。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図である。第
1図において、1は音声分析部、2は音声符号化部、3
は符号帳記憶部、4は時系列圧縮部、5はバッファ部、
6は階層型ニューラル・ネットワーク前方伝播部、7は
判定結果出力部、8はDP照合部、9は音素表記辞書部
、10はユニット間結合係数記憶部、11はユニット間
結合係数修正部、12はコンフユージヨン行列要素計算
部、13はコンフユージヨン行列記憶部、14は音素記
号間距離計算部、15は音素記号間距離記憶部である。

Claims (8)

    【特許請求の範囲】
  1. (1)N_P個の単語より短い単位(以下音素と称する
    )を基に音声パターンを認識するに際して、入力音声デ
    ータをフレーム単位に分析して、各フレームの特徴ベク
    トルを逐次出力する音声分析部と、 前記音声分析部から出力される特徴ベクトルの時系列か
    ら始点を1フレームづつ移動しながら固定フレーム長分
    だけの特徴ベクトル列を切り出して逐次出力するバッフ
    ァ部と、 バッファ部から固定フレーム長の特徴ベクトル列が入力
    層に入力されるとユニット間結合係数記憶部に記憶され
    ているユニット間結合係数を用いて、前記入力特徴ベク
    トル列の中央のフレームに対する音素記号の推定結果を
    、N_P個の各々が音素記号に対応している出力ユニッ
    トの活性度パターン、即ちN_P次元の出力活性度ベク
    トルとして出力する階層型ニューラル・ネットワーク前
    方伝播部と、 前記階層型ニューラル・ネットワーク前方伝播部から出
    力される出力活性度ベクトルの成分の内で最大値を持つ
    成分に対応する音素記号を推定音素記号として出力する
    判定結果出力部と、 前記判定結果出力部からフレーム単位に逐次出力される
    推定音素記号列を音素表記単語辞書部に記憶されている
    全ての単語を表わす音素列と比較照合し、最も類似度の
    高い単語を認識結果として出力する単語照合部とを有す
    ることを特徴とする音声認識装置。
  2. (2)請求項1記載の音声認識装置において、音声分析
    部から出力される特徴ベクトルを符号帳記憶部に記憶さ
    れている0番から(N_v_q−1)番に番号付けされ
    たN_v_q個の符号帳ベクトルと比較し、最も類似し
    た符号帳ベクトルの番号をnとして、第n成分のみが1
    で他の成分は0であるN_v_q次元の符号ベクトルを
    出力する音声符号化部を有し、 前記音声符号化部から出力される符号ベクトルの時系列
    から始点を1フレームづつ移動しながら固定フレーム長
    (長さN_wフレーム)分だけの符号ベクトル列を切り
    出して逐次出力するバッファ部と、 入力層としてN_w×N_v_q個の入力ユニットを有
    し、前記バッファ部の出力である固定長の符号ベクトル
    列の2値パターンを入力ユニットの活性度パターンとし
    て入力したときに、ユニット間結合係数記憶部に記憶さ
    れているユニット間結合係数を用いて、前記入力符号ベ
    クトル列の中央のフレームに対する音素記号の推定結果
    を、N_P個の各々が音素記号に対応している出力ユニ
    ットの活性度のパターン、即ち、N_P次元の出力活性
    度ベクトルとして出力する階層型ニューラル・ネットワ
    ーク前方伝播部とを有することを特徴とする音声認識装
    置。
  3. (3)請求項1または、2記載の音声認識装置において
    、 学習用音声データ時系列とその各時刻点での対応すべき
    音素記号を与える音素記号データ時系列を用いて、教師
    付き学習によって前記ユニット間結合係数を定めるに際
    して、 前記学習用音声データ時系列を入力音声として前記音声
    分析部に入力することにより、ニューラル・ネッワーク
    前方伝播部から出力される出力活性度ベクトルと、前記
    音素記号データ時系列の対応するフレームの音素記号に
    対応する成分のみが1で他の成分は0である教師活性度
    ベクトルの差を用いて、バックプロパゲーション法によ
    ってユニット間結合係数の修正量を算出し、前記ユニッ
    ト間結合係数記憶部に記憶されているユニット間結合係
    数を修正するユニット間結合係数修正部を有することを
    特徴とする音声認識装置。
  4. (4)請求項2または3記載の音声認識装置において、 前記音声符号化部から出力される符号ベクトルの時系列
    に於て、同じ符号ベクトルがN_wフレーム以上連続し
    ている場合には、長さN_wフレームに圧縮して出力す
    る入力データ圧縮部を有することを特徴とする音声認識
    装置。
  5. (5)請求項2、3または4記載の音声認識装置のバッ
    ファ部において、 固定長の特徴ベクトル列を切り出す始点を1フレームづ
    つでなく、数フレームづつ移動しながら、特徴ベクトル
    列を切り出して出力することを特徴とする音声認識装置
  6. (6)請求項1、2、3、4または5記載の音声認識装
    置において、 長さの異なる推定音素記号列と辞書の単語音素列を比較
    照合する前記単語照合部が、 音素記号iの音素と音素記号jの音素の間の距離D_i
    _jを記憶しておく音素間距離記憶部と、前記音素間距
    離記憶部に記載されている距離を用いて推定音素記号列
    と辞書の単語音素列をDPマッチング法によって照合す
    るDP照合部とから構成されることを特徴とする音声認
    識装置。
  7. (7)特許請求項6記載の音声認識装置において、音素
    記号iの音素を音素記号jの音素と誤ってしまう割合C
    _i_jを行列要素とするN_p×N_p次元のコンフ
    ュージョン行列(C_i_j)を記憶しているコンフュ
    ージョン行列記憶部と、 コンフュージョン行列記憶部から読みだした行列要素C
    _i_jの値が大きいほど距離が小さくなるように音素
    iと音素jの間の距離D_i_jを算出する音素間距離
    計算部と、 予め前記音素間距離計算部によって計算された音素記号
    間距離を記憶しておく音声間距離記憶部と、 前記音素間距離記憶部に記憶されている距離を用いて推
    定音素記号列と辞書の単語音素列をDPマッチング法に
    よって照合するDP照合部とから構成される単語照合部
    を有することを特徴とする音声認識装置。
  8. (8)請求項7記載の音声認識装置において、試験用音
    声データ時系列を前記音声分析部に入力して、前記判定
    結果出力部から出力される推定音素記号を試験用音声デ
    ータ時系列の対応する時刻点での正解音素記号と比較し
    て一致・不一致を判定し、試験用音声データ時系列全体
    に於て音素記号iの音素を音素記号jの音素として誤つ
    た推定結果を出力した割合、即ちコンフュージョン行列
    の行列要素C_i_jを算出してコンフュージョン行列
    記憶部に格納するコンフュージョン行列要素計算部を有
    することを特徴とする音声認識装置。
JP63029678A 1988-02-09 1988-02-09 音声認識装置 Expired - Fee Related JP2531227B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63029678A JP2531227B2 (ja) 1988-02-09 1988-02-09 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63029678A JP2531227B2 (ja) 1988-02-09 1988-02-09 音声認識装置

Publications (2)

Publication Number Publication Date
JPH01204099A true JPH01204099A (ja) 1989-08-16
JP2531227B2 JP2531227B2 (ja) 1996-09-04

Family

ID=12282773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63029678A Expired - Fee Related JP2531227B2 (ja) 1988-02-09 1988-02-09 音声認識装置

Country Status (1)

Country Link
JP (1) JP2531227B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03144176A (ja) * 1989-10-28 1991-06-19 Sekisui Chem Co Ltd 音声制御給湯装置
JPH03269500A (ja) * 1990-03-19 1991-12-02 Sharp Corp 音声認識装置
JPH0457099A (ja) * 1990-06-27 1992-02-24 Sharp Corp 音声認識装置
JPH06274197A (ja) * 1993-03-18 1994-09-30 Sharp Corp 音声認識装置
JPH07306691A (ja) * 1993-07-12 1995-11-21 Meidensha Corp 不特定話者音声認識装置およびその方法
JPH08297500A (ja) * 1995-02-28 1996-11-12 Meidensha Corp 離散単語音声認識システムにおける誤認識不能処理方法
JP2006243230A (ja) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International 歌声評定装置およびプログラム
JP2019525233A (ja) * 2016-07-22 2019-09-05 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声認識方法及び装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03144176A (ja) * 1989-10-28 1991-06-19 Sekisui Chem Co Ltd 音声制御給湯装置
JPH03269500A (ja) * 1990-03-19 1991-12-02 Sharp Corp 音声認識装置
JPH0457099A (ja) * 1990-06-27 1992-02-24 Sharp Corp 音声認識装置
JPH06274197A (ja) * 1993-03-18 1994-09-30 Sharp Corp 音声認識装置
JPH07306691A (ja) * 1993-07-12 1995-11-21 Meidensha Corp 不特定話者音声認識装置およびその方法
JPH08297500A (ja) * 1995-02-28 1996-11-12 Meidensha Corp 離散単語音声認識システムにおける誤認識不能処理方法
JP2006243230A (ja) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International 歌声評定装置およびプログラム
JP4524634B2 (ja) * 2005-03-02 2010-08-18 株式会社国際電気通信基礎技術研究所 歌声評定装置およびプログラム
JP2019525233A (ja) * 2016-07-22 2019-09-05 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声認識方法及び装置
US10997966B2 (en) 2016-07-22 2021-05-04 Baidu Online Network Technology (Beijing) Co., Ltd. Voice recognition method, device and computer storage medium

Also Published As

Publication number Publication date
JP2531227B2 (ja) 1996-09-04

Similar Documents

Publication Publication Date Title
US6125345A (en) Method and apparatus for discriminative utterance verification using multiple confidence measures
US5345536A (en) Method of speech recognition
US5745873A (en) Speech recognition using final decision based on tentative decisions
US6845357B2 (en) Pattern recognition using an observable operator model
EP0302663B1 (en) Low cost speech recognition system and method
EP1477966B1 (en) Adaptation of compressed acoustic models
JP4531166B2 (ja) 信頼性尺度の評価を用いる音声認識方法
US20050273325A1 (en) Removing noise from feature vectors
El Choubassi et al. Arabic speech recognition using recurrent neural networks
JPH10254483A (ja) 音素シンボルの事後確率演算装置及び音声認識装置
US5461696A (en) Decision directed adaptive neural network
US20230070000A1 (en) Speech recognition method and apparatus, device, storage medium, and program product
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
Robinson et al. Phoneme recognition from the TIMIT database using recurrent error propagation networks
JPH01204099A (ja) 音声認識装置
JPH0486899A (ja) 標準パターン適応化方式
Thangthai Computer lipreading via hybrid deep neural network hidden Markov models
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
Aşlyan Syllable Based Speech Recognition
Li Speech recognition of mandarin monosyllables
JPH0823758B2 (ja) 話者適応形音声認識装置
Meng Discriminative and adaptive training for robust speech recognition and understanding.
KR100476337B1 (ko) 음성인식기의유사단어인식방법
Ibrahim et al. A comparative survey of DTW and HMM using Hausa isolated digits recognition in human computer interaction sytem

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees