JPH03174600A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPH03174600A
JPH03174600A JP1312272A JP31227289A JPH03174600A JP H03174600 A JPH03174600 A JP H03174600A JP 1312272 A JP1312272 A JP 1312272A JP 31227289 A JP31227289 A JP 31227289A JP H03174600 A JPH03174600 A JP H03174600A
Authority
JP
Japan
Prior art keywords
speech
feature
pattern
word
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1312272A
Other languages
English (en)
Inventor
Yasuyuki Masai
康之 正井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP1312272A priority Critical patent/JPH03174600A/ja
Publication of JPH03174600A publication Critical patent/JPH03174600A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は標準パターン作成時の特徴ノくターン抽出誤り
を少なくして精度の高い標準ノくターンを得、入力単語
音声に対する認識性能を高めることのできる単語音声認
識方式に関する。
(従来の技術) 音声による情報の人出力は人間にとって自然性が高く、
優れたマンマシン・インターフェースを実現する手法と
して着目され、音声認識装置や音声合成装置等として従
来より種々研究・開発されている。
さて現在、実用化されている音声認識装置の殆どは、そ
の認識対象を単語音声とするもので、−般的には第3図
に示すように構成されている。即ち、この種の装置は、
発声入力された音声を電気信号に変換して取り込み、バ
ンドパス・フィルタ等からなる音響分析部1にて音響分
析してその特徴パラメータの系列を求め、例えばその音
声パワーの変化から始端・終端検出部2にてその単語音
声区間を検出する。そして入力音声の上記単語音声区間
における音響分析データ(特徴パラメータの系列;音声
パターン等の特徴情報)と、標準パターン辞書3に予め
登録されている認識対象単語についての標準パターンと
の間での類似度や距離等を類似度演算部4にて計算し、
その計算結果を認識結果出力部5にて判定することで、
例えば最も高い類似度値を得た標準パターンのカテゴリ
名を前記入力音声に対する認識結果として求めるものと
なっている。
尚、上記始端・終端検出部2における音声区間検出は、
従来一般的には入力単語音声のパワー時系列を求め、そ
の音声パワーPが所定の閾値T1より大きくなった時点
を入力音声単語の始端Sとして検出し、またこの音声始
端検出後に上記音声パワーPが所定の閾値T2より小さ
くなった時点をその入力音声単語の終端Eとして検出す
ることにより行われる。
ところがこのような音声区間検出では、その音声区間が
一意に決定されるので、例えば実際の音声区間の前後に
息洩れや舌打ちノイズ等が存在すると、これをも音声区
間の一部として検出してしまうと云う不具合がある。ま
た逆に音節の先頭や最終音節が無声化し易い単語音声の
場合には、その無声化音節部分のパワーPが極端に小さ
くなるので、この部分が検出音節区間から脱落し易いと
云う欠点がある。
このような音声区間の検出誤りを防ぐ手法として、同一
単語について複数回発声した入力音声からそれぞれ求め
られる特徴パターン間で相互に類似度を計算し、この類
似度計算結果に従って正しい単語音声区間を検出する方
式が提唱されている。
しかし複数回の発声の全てに同じようなノイズの付加や
音声区間の脱落が生じると、上述した特徴パターン間の
類似度計算による発声区間の比較だけでは音声区間の検
出誤りを防ぐことができないと云う問題がある。
ところで従来、類似度計算に用いられる入力音声の特徴
パターンは、一般的に始端・終端検出された音声区間の
特徴パラメータの系列を時間軸方向に、例えば16点程
度に亘って等間隔にリサンプル抽出して求められる。こ
のリサンプル点数をより多くすれば、その分、その特徴
パターンにて表現される特徴量が大きくなり、高性能な
認識が可能となる。しかし入力音声から求められる特徴
パターンと標準パターン辞書3に登録された複数の認識
対象カテゴリについての各標準パターンとの間で行われ
る類似度演算の量が膨大化することが否めず、その演算
処理に必要なメモリ容量も非常に大きくなる。このよう
な事情から従来一般的には、上述したように16点程度
のリサンプルによりその特徴パターンを求めるものとな
っている。
また標準パターンの作成に際しても、上述した如く求め
られる特徴パターンをそのまま用いて行われているのが
実情である。
然し乍ら、認識処理の基準となる標準パターンを上述し
た次数の低い特徴パターンをそのまま用いて作成すると
、認識対象カテゴリの特徴を十分に表現できないことが
多々あり、認識性能の向上を図る上での解決すべき大き
な課題となっている。
(発明が解決しようとする課題) このように従来にあっては、標準パターンの作成に際し
ても、認識処理時に用いられる特徴パターンと同様な特
徴パターンを用いているので、標準パターン辞書の性能
を高めて認識性能の向上を図ることが非常に困難である
と云う問題があった。
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、標準パターンの辞書の性能を十
分に高めて認識対象単語音声に対する認識性能を十分に
高めることのできる単語音声認識方式を提供することに
ある。
[発明の構成] (課題を解決するための手段) 本発明に係る音声認識処理は、入力単語音声から求めら
れる特徴パターンに基づく標準パターンの作成時の類似
度演算量が、入力音声に対する認識処理時の類似度演算
量に比較して十分に少ないことに着目してなされたもの
で、 入力単語音声を音響分析して求められる特徴パラメータ
から上記入力単語音声の音声区間候補を求め、この音声
区間候補毎に前記特徴パラメータをリサンプルにより正
規化して認識処理に用いられる前記入力音声の特徴パタ
ーンを生成し、この入力単語音声の特徴パターンと認識
対象単語音声の標準パターンとの類似度を計算して前記
入力音声に対する認識結果を求める入力単語音声認識処
理に対して、 標準パターンの作成時には、認識対象カテゴリの入力単
語音声を音響分析して求められる特徴パラメータを、前
記音声区間候補毎にリサンプルして標準パターンの作成
に用いられる特徴パターンを生成する際、そのリサンプ
ル点数を前述した認識処理時よりも多く設定し、これに
よって特徴量が多く含まれる特徴パターンを得ることで
、単語区間精度の高い標準パターンを高性能に作成し得
るようにしたことを特徴とするものである。
(作 用) 本発明によれば、標準パターンの作成に用いられる特徴
パターンのリサンプル点数を、音声認識処理に用いられ
る特徴パターンのリサンプル点数よりも多く設定するの
で、そのサンプル点数が少ないことに起因する音声単語
の特徴の欠落を防ぎ、その特徴パターンに対する音声区
間検出精度を十分に高めて標準パターンを高性能に作成
することが可能となる。しかも標準パターンを作成する
為に必要な特徴パターンに対する類似度演算量がさほど
多くないので、その処理負担を徒に増大させることなく
標準パターン辞書の性能を効果的に高めて認識性能の向
上を図ることが可能となる。
(実施例) 以下、図面を参照して本発明に係る単語音声認識方式の
一実施例について説明する。
第1図は実施例方式が適用される音声認識装置の要部概
略構成図であり、11は入力音声を音響分析してその特
徴パラメータを求める音響分析部である。この音響分析
部11は音声区間検出に用いる為の特徴量としてその音
声パワー時系列を求めると共に、認識辞書との照合に用
いる為の特徴量として、例えば周波数分析したバンドパ
スフィルタ群出力を求める。
単語境界仮説生成部12は上記音響分析部11で求めら
れた入力音声の特徴パラメータに対して種々の音声区間
検出パラメータを適応的に設定して複数の音声区間候補
を設定する。具体的には、単語境界仮説生成部12は入
力単語音声に対して複数の始端候補(Sl、S2.〜S
M)と複数の終端候補(E l、E 2.〜EN)とを
それぞれ求め、これらの各候補に対して所定の規則に従
って確率(f sl。
fs2.〜fsM) 、  (fel、  fe2.〜
feN)をそれぞれ与える。
そして上記始端候補(SL、S2.〜.SM)と終端候
補(El、E2.〜EN)の組み合わせとして求められ
る複数の音声区間候補[Sa+、En]  (但し。
m−1,2、〜M −n = 1.2、〜N ) 1.
: ツいての尤度LLIInをLsn   −fsI 
 X    fenとして計算し、これらの音声区間候
補[Sm、En]についての尤度Llnをその値の高い
ものから順に、上位の複数の音声区間候補を検出する。
しかして第1のリサンプル部13は上述した如く求めら
れる複数の音声区間候補[Sm、Enコについて、前記
音響分析部11にて周波数分析して求められたバンドパ
スフィルタ群出力からなる特徴パラメータを、例えば1
6点に亘って等分割にリサンプルし、各音声区間候補に
おける入力単語音声の正規化された第1の特徴パターン
をそれぞれ求める。
尚、尤度の高い音声区間候補が1つしか求めらレナい場
合には、その音声区間候補についてのみリサンプル処理
が行われ、1つの第1の特徴パターンだけが求められる
第1の類似度計算部I4はこのようにして求められる入
力単語音声についての第1の特徴パターンと、標準パタ
ーン辞書15に予め登録されている認識対象単語につい
ての後述する標準パターンとの間での類似度をそれぞれ
計算する。認識結果出力部i8は、上記第1の類似度計
算部14にて求められる入力単語音声の第1の特徴パタ
ーンと認識対象単語についての標準パターンとの類似度
を相互に比較し、高い類似度結果を得た所定数の認識対
象単語のカテゴリ名とその類似度値をそれぞれ求める。
そしてこれらの上位複数個のカテゴリ名を前記入力単語
音声に対する認識候補として出力したり、或いはその類
似度値が最上位の認識対象単語のカテゴリ名を前記入力
単語音声に対する認識結果として出力する。
ところで前記標準パターン辞書15に登録される認識対
象単語についての標準パターンは、いま1つ別の処理系
統として設けられた第2のリサンプル部17と第2の類
似度演算部18、および標準パターン作成部19とによ
り生成される。
第2のリサンプル部I7は、前記単語境界仮説生成部1
2にて求められた複数の音声区間候補[S[lI。
En]について、前記第1のリサンプル部13よりも多
いリサンプル点数(標本化点数)、例えば32点に亘っ
て前記音響分析部11で求められた認識対象カテゴリに
ついての入力単語音声の特徴パラメータをリサンプル処
理し、以下に説明する標本パターン作成時の音声区間検
出に供する為の第2の特徴パターンをそれぞれ抽出する
第2の類似度演算部18は、標準パターン作成時にカテ
ゴリ名の既知なる認識対象単語音声を複数回に亘って発
声入力したとき、前述した第2のリサンプル部17にて
それぞれ求められる次数の高い複数の第2の特徴パター
ンを用いて、複数の発声入力単語音声間での類似度を計
算する。この類似度計算は、従来より種々提唱されてい
る部分空間法やDPマツチング法等の手法を用いて行わ
れる。
しかしてこの第2の類似度演算部18は、複数の発声入
力音声からそれぞれ求められた第2特徴パターン間の類
似度から、その類似度が所定の閾値を越える複数の発声
に亘る特徴パターンの組み合わせが存在するか否かを判
定している。そしてその類似度が成る閾値を越える第2
の特徴パターンの組み合わせが上記複数の発声入力単語
音声中で存在することが検出されたとき、その第2特徴
パターンと音声区間を同じくする第1の特徴パターンを
前記第1のリサンプル部I3から抽出し、これを標準パ
ターン作成部19に与えている。尚、上記類似度が成る
閾値を越える第2の特徴パターンの組み合わせが上記複
数の発声入力単語音声中で存在しない場合には、当該単
語音声の再発声入力が促される。
標準パターン作成部19はこのようにして尤度が所定の
閾値を越える第2特徴パターンの組み合わせをなしてい
る前記各入力単語音声の前記第1の特徴パターンをその
認識対象単語についての標準パターンとして求め、その
標準パターンに入力音声のカテゴリ名を付して前記標準
パターン辞書15に登録する。
この標準パターンの作成について更に詳しく説明すると
、標準パターン作成時にはカテゴリ名の既知なる単語音
声を複数回に亘って発声入力する。
そしてこれらの入力単語音声について前述した音響分析
部11にて音響分析してその特徴パラメータを求め、前
記単語境界仮説生成部12にて確からしい音声区間候補
をそれぞれ求める。そしてこれらの各音声区間候補につ
いて前記第2のリサンプル部17にてその特徴パターン
、つまり第2の特徴パターンをそれぞれ求める。
具体的には第2図に示すように、1回目の発声時にその
音声区間候補L 11.  L L2を求め、これらの
音声区間候補Lll、  L12での特徴パターンP 
11゜PL2を第2のリサンプル部17にてそれぞれ求
める。
同様にして2回目の発声時にはその音声区間候補L21
. L22についてその特徴パターンP 21.  P
 22をそれぞれ求め、更に3回目の発声時にもその音
声区間候補L81. L12についてその特徴パターン
P31.  P32を第2のリサンプル部17にてそれ
ぞれ求める。
尚、ここでは各入力単語音声について2つの音声区間候
補を求め、それらの特徴パターンを求めているが、3個
以上の音声区間候補についての特徴パターンをそれぞれ
求める場合もある。また3回の発声で十分なる結果が得
られない場合には、4回以上の発声が促される場合も勿
論ある。
第2の類似度演算部18はこのようにして求められる各
発声入力音声の複数の特徴パターン間で、相互にその類
似度(尤度)を計算し、その類似度が所定の閾値を越え
る特徴パターンの組み合わせが上記複数の発声入力単語
音声中に存在するか否かを調べる。
例えば上述した1回目の発声入力音声から求められた音
声区間Lllに対応する2回目の発声入力音声から得た
音声区間を求めるべく、上記音声区間Lllの特徴パタ
ーンpHと、2回目の発声入力音声から求められる音声
区間L2L、  L22の各特徴パターンP21.  
P22との間で、その間の類似度Qを次のようにそれぞ
れ計算する。
Q21− [Pll−P21] 、 Q22− [Pl
l−P22]そしてこれらの類似度の中で最大値に対し
て、成る閾値Tを越えているか否かの判定を行い、類似
度が閾値T以上である場合には、その特徴パターンを前
記特徴パターンPLIに対応する特徴パターンとして求
め、音声区間の対応付けを行う。
例えばQ21≧Q22であって、Q21≧Tである場合
、2回目の発声入力音声から求められた特徴パターンP
21を1回目の発声入力音声から求められた特徴パター
ンpHに対応する特徴パターンであるとして求め、音声
区間LllとL2+とが対応しているとの結果を求める
しかる後、前記音声区間Lllに対応する3回目の発声
入力音声から得た音声区間を求めるべく、この3回目の
発声入力音声から求められる音声区間L81.  L3
2の各特徴パターンP 31.  P 32との間で、
その間の類似度Qを次のようにそれぞれ計算する。
Q31−   [Pll  ・ P31コ 、   Q
32−   [pH・ P 32]そして同様にしてこ
れらの類似度の中で最大値に対して、成る閾値Tを越え
ているか否かの判定を行い、類似度が閾値T以上である
場合には、その特徴パターンを前記特徴パターンpHに
対応する特徴パターンとして求め、音声区間の対応付け
を行う。
例えばQ32≧Q31であって、Q32kTである場合
、2回目の発声入力音声から求められた特徴パターンP
32を1回目の発声入力音声から求められた特徴パター
ンPLIに対応する特徴パターンであるとして求め、音
声区間LllとL32とが対応しているとの結果を求め
る。
このような類似度に対する判定処理により、この例では
音声区間L11.  L21.  L32が相互に対応
する音声区間の組み合わせであるとして求められる。
同様にして前述した1回目の発声入力音声から求められ
る音声区間L12についても2回目の発声入力音声から
求められる音声区間L21.  L22に対し、それら
の音声区間の特徴パターンについて、その類似度Qをそ
れぞれ次のように計算する。
Q21’ −[P21・P31]。
Q22’   −[P21  ・ P32コそしてこの
場合、仮に021’ k Q 22’であった場合には
、Q21’が所定の閾値T以上であるか否かの判定が行
われる。しかしこの場合には、特徴パターンP12は正
しい音声区間の前方にノイズが加わった特徴パターンで
あることから、正しい音声区間の特徴パターンP21と
の類似度Q21’ は小さいものとなっている。この結
果、例えば前述した所定の閾値Tより大きいと云う条件
が満たされなくなるので、この場合には2回目の発声入
力音声から求められた音声区間には前記音声区間LL2
に対応するものがないと判定される。
しかし仮にQ21′が所定の閾値T以上である場合には
、音声区間L12と音声区間L21とが対応するとして
判定される。従ってこの場合には、3回目の発声入力音
声から求められた音声区間L31゜L32に対して同様
に。それらの音声区間における特徴パターン間での類似
度Qが次のように計算される。
Q31’  −[P21−P31コ 。
Q32’   −[P21  ・ P32コそしてQ3
1’ ≧Q32′なる関係が導き出された場合には、Q
 81’が所定の閾値T以上であるか否かの判定が行わ
れる。
しかしこの場合、前述したように特徴パターンP12は
正しい音声区間の前方にノイズ区間が加わって求められ
た特徴パターンであることから、3回目の発声入力音声
から求められた特徴パターンP31との類似度Q31の
値は小さく、−膜内には前述した所定の閾値Tに対する
条件が満たされない。
このような結果から、3回目の発声入力音声から求めら
れる音声区間L31.  L32は前述した1回目の発
声から求められる音声区間LL2には対応しないとして
判定される。
このようにして1回目の発声入力音声から求められた音
声区間L12に対して、2回目および3回目の発声入力
音声から求められた音声区間中に対応するものがないと
判定された場合、その音声区間は正しくないと判定され
る。この結果、この第2図に示す例では、1回目乃至3
回目の発声入力音声から求められた音声区間Lll、 
 L21.  L82の組み合わせについてだけ、それ
らの間の類似度に対する判定条件が満たされることから
、これらの音声区間の組が正しい音声区間のものである
と判断される。そしてこれらの音声区間に対応する第1
の特徴パターンpH,P21.  P32を前記第1の
リサンプル部13から求め、これらの第1の特徴パター
ンpH,P21.  P32に基づいて該入力音声カテ
ゴリについての標準パターンの作成が行われる。
この標準パターンの作成は、例えばこれらの第1の特徴
パターンPIL、  P21.  P31を平均化する
等して求められる。
ところで上述したようにして複数回の発声入力音声から
それぞれ求められる特徴パターンの組み合わせを求める
場合、その特徴パターンの組み合わせが複数通り求めら
れる場合がある。
このような場合には、そのいずれの組み合わせの特徴パ
ターンが正しい音声区間のものであるかをこのままでは
判定することができないので、例えばその組み合わせ判
定に使用した類似度Qの情報を用い、類似度Qが大きい
方をより信頼性の高い音声区間のものであると判定する
ようにすれば良い。
或いは1回目の特徴パターンの組み合わせを得た類似度
の内の大きい方wax [Q 21+ Q 32]と、
2回目の特徴パターンの組み合わせを得た類似度の内の
大きい方wax [Q 21+ Q 32] とをそれ
ぞれ求め、これらを相互に判定してその値の大きい方を
標準パターン作成用として採用するようにすれば良い。
また逆に1回目の特徴パターンの組み合わせを得た類似
度の内の小さい方win CQ 21+ Q 32]と
、2回目の特徴パターンの組み合わせを得た類似度の内
の小さい方win [Q 21+ Q 82] とをそ
れぞれ求め、これらを相互に判定して標準パターンの選
択決定を行うようにすることも可能である。
またこのような類似度に着目することに代えて、特徴パ
ターンの組み合わせについて、その音声区間長を調べ、
その長さの長い方を最長マツチングの原則に従って標準
パターン作成用として採用することも可能である。この
音声区間長を比較する場合にも、その組み合わせにおけ
る特徴パターンの各音声区間長の和を求めたり、最大区
間長や最小区間長を相互に比較するようにすれば良い。
尚、最長マツチングの原則は、複数回の発声において正
しい音声区間にそれぞれ同様なノイズが付加され、これ
によって正しい音声区間より長い音声区間の特徴パター
ンの組み合わせが求められることは極めて希であり、一
般にその音声区間が最も長い特徴パターンの組み合わせ
が、その音声区間を正しく表現しているとの観点に立脚
したものである。
そして実際的には、無声化等により正しい音声区間の一
部が欠落して正しい音声区間よりも短い音声区間の特徴
パターンの組み合わせが求められることが多々在る。ま
た多くの場合、単語は複数の音声により構成されて有音
区間と無音区間とが交互に繰り返されることが多い。こ
のような場合にも、正しい音声区間よりも短い区間での
特徴ベクトルの組み合わせが求められることが往々にし
である。従ってこのようなことを配慮し、特徴パターン
の組み合わせが複数通り求められるような場合には、上
述したようにその中で音声区間が最も長いものを正しい
音声区間の特徴パターンであると判定することは非常に
有用であると云える。
尚、特徴パターンの組み合わせが複数通り求められるよ
うな場合、これらの特徴パターンのそれぞれから標準パ
ターンを求め、これによって標準パターン辞書15の学
習を行うようにすることも有用である。
このようにして本装置では、複数回の同一カテゴリの発
声入力単語音声についてそれぞれ求められる音声区間候
補のリサンプル数の多い第2の特徴パターン間での類似
度(尤度)を求め、所定の閾値Tを越える音声区間候補
の組み合わせが各発声での音声区間中に存在するとき、
これを正しく区間検出された音声区間として抽出してい
る。そしてこれらの正しく区間検出された音声区間の第
1の特徴パターンを抽出し、この第1の特徴パターンに
基づいてその標準パターンを作成し、標準パターン辞書
15に登録して単語音声の認識処理に供するものとなっ
ている。
従って本装置によれば、標準パターン自体をその音声区
間が正しく検出されているときの特徴パターンとするこ
とができるので、その認識辞書性能を十分高いものとす
ることができる。この結果、その認識性能を十分に高く
することができる。
また上述したように入力音声の音声区間を、特徴パター
ン間での類似度から音声区間候補の組み合わせとしで評
価し、正しい音声区間での特徴パターンだけを抽出して
標準パターンを作成するので、その処理手続きが非常に
簡単であり、処理効率が高い。そして少ない発声回数で
効果的にその標準パターンを作成していくことができ、
る等の効果が奏せられる。しかもその処理負担がさほど
増大することがない等の効果が奏せられる。
尚、本発明は上述した実施例に限定されるものではない
。例えば4回以上の発声入力音声についての特徴パター
ン間で類似度(尤度)を計算して音声区間の正しい特徴
パターンを抽出するようにしても良い。このようにすれ
ば、標準パターン作成の信頼性を高め、より性能の高い
標準パターン(認識辞書)を構築していくことが可能と
なる。
また上述した実施例では、1回目の発声入力音声から求
められる特徴パターンを基準として2回目および3回目
の発声入力音声から求められる特徴パターンとの組み合
わせを決定するようにしたが、2回目や3回目の発声入
力音声から求められる特徴パターンを基準としてその組
み合わせ決定を行うようにしても良い。また候補区間数
の多い発声入力音声の音声区間候補を基準として組み゛
合わせ決定処理を進めることも可能である。更には音声
区間検出に用いる特徴パターンのリサンプル点数は、そ
の仕様に応じて認識処理に用いる特徴パターンのリサン
プル点数よりも多くなるように定めれば良いものである
。その他、本発明はその要旨を逸脱しない範囲で種々変
形して実施することができる。
[発明の効果] 以上説明したように本発明によれば、ノイズの付加や音
声区間の脱落の影響を排除して入力音声の音声区間を正
しく検出してその特徴パターンを抽出するので、信頼性
の高い音声区間候補の特徴パターンだけを用いて効率的
に高性能な標準パターンを作成することができ、その認
識性能の向上を効果的に図ることができる等の実用上多
大なる効果が奏せられる。
【図面の簡単な説明】
準パターン作成時での複数回の入力音声に対する音声区
間候補とその特徴パターンについて模式的に示す図、第
3図は従来の一般的な単語音声認識装置の概略構成図で
ある。 it・・・音響分析部、12・・・単語境界仮説生成部
、13・・・第1のリサンプル部、14・・・第1の類
似度計算部(特徴パターンと標準パターンとの類似度計
算手段)、15・・・標準パターン辞書、i6・・・認
識結果出力部、17・・・第2のリサンプル部、18・
・・第2の類似度計算部(特徴パターン間での尤度計算
処理)、19・・・標準パターン作成部。

Claims (1)

    【特許請求の範囲】
  1. 入力単語音声を音響分析してその特徴パラメータを求め
    る音響分析部と、この音響分析された特徴パラメータか
    ら上記入力単語音声の音声区間候補を求める単語境界仮
    説生成部と、この単語境界仮説生成部にて求められる音
    声区間毎に前記特徴パラメータを正規化して認識処理に
    用いられる前記入力音声の特徴パターンを生成する第1
    のリサンプル部と、この第1のリサンプル部で求められ
    る入力単語音声の特徴パターンと認識対象単語音声の標
    準パターンとの類似度を計算する類似度演算部と、この
    類似度演算結果に従って前記入力単語音声に対する単語
    音声認識結果を求める認識結果出力部と、前記音響分析
    部にて音響分析して求められる認識対象単語音声につい
    ての特徴パラメータを、前記単語境界仮説生成部にて求
    められる音声区間毎に前記第1のリサンプル部よりも多
    い標本化点数で正規化して標準パターンの作成に用いら
    れる特徴パターンを生成する第2のリサンプル部と、こ
    の第2のリサンプル部で求められた認識対象単語音声に
    ついての特徴パターンから当該認識対象単語の前記標準
    パターンを作成する標準パターン作成部とを具備したこ
    とを特徴とする単語音声認識方式。
JP1312272A 1989-12-02 1989-12-02 音声認識方式 Pending JPH03174600A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1312272A JPH03174600A (ja) 1989-12-02 1989-12-02 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1312272A JPH03174600A (ja) 1989-12-02 1989-12-02 音声認識方式

Publications (1)

Publication Number Publication Date
JPH03174600A true JPH03174600A (ja) 1991-07-29

Family

ID=18027246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1312272A Pending JPH03174600A (ja) 1989-12-02 1989-12-02 音声認識方式

Country Status (1)

Country Link
JP (1) JPH03174600A (ja)

Similar Documents

Publication Publication Date Title
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
US8321218B2 (en) Searching in audio speech
JPS59121100A (ja) 連続音声認識装置
US20110218802A1 (en) Continuous Speech Recognition
JP2020060757A (ja) 話者認識装置、話者認識方法、及び、プログラム
Hirschberg et al. Generalizing prosodic prediction of speech recognition errors
WO2007114346A1 (ja) 音声認識装置
JPH03174600A (ja) 音声認識方式
JPS58108590A (ja) 音声認識装置
CA2896801C (en) False alarm reduction in speech recognition systems using contextual information
JP2005173008A (ja) 音声解析処理およびそれを用いた音声処理装置および媒体
KR20000025827A (ko) 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법
JPH03174599A (ja) 音声認識方式
Pop et al. Sound event recognition in smart environments
JPH02298996A (ja) 単語音声認識装置
JPS6147999A (ja) 音声認識装置
Kalantari et al. Incorporating visual information for spoken term detection
Asani An Enhanced Speech Recognition Algorithm Using Levinson-Durbin, DTW and Maximum Likelihood Classification
JP2004309654A (ja) 音声認識装置
KR101195742B1 (ko) 키워드별 필러 모델을 구비하는 키워드 검출 시스템 및 키워드별 필러 모델 구현 방법
Mantri et al. Performance Evaluation of Human Voice Recognition System based on MFCC feature and HMM classifier
JPH054678B2 (ja)
JPH04166900A (ja) 音声認識装置
JPH0554678B2 (ja)
JP2000137495A (ja) 音声認識装置および音声認識方法