JPH01185599A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH01185599A
JPH01185599A JP63007931A JP793188A JPH01185599A JP H01185599 A JPH01185599 A JP H01185599A JP 63007931 A JP63007931 A JP 63007931A JP 793188 A JP793188 A JP 793188A JP H01185599 A JPH01185599 A JP H01185599A
Authority
JP
Japan
Prior art keywords
word
speech
candidates
edge point
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63007931A
Other languages
English (en)
Inventor
Teruhiko Ukita
浮田 輝彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP63007931A priority Critical patent/JPH01185599A/ja
Publication of JPH01185599A publication Critical patent/JPH01185599A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、連続発声された音声を単語単位で認識する音
声認識装置に関し、特に少ない計算時間で正確な音声区
間による認識を可能にした音声認識装置に関する。
(従来の技術) 従来より連続発声された音声を認識する方式の1つとし
て、認識単位を音素レベルとし、入力音声の特徴パラメ
ータの時系列を、−旦、音素しベルの列やセグメント・
ラティスに変換して前記入力音声から単語や文を抽出す
る方式が知られている。しかし、連続発声された音声に
おいては、同じ音素であっても、その前後の音素環境に
よっては調音結合が生じ、異なる音響パターンとなるこ
とがあるため、音素レベルでの正確な検出が難しいとい
う問題があった。
これに対し、認識単位を単語レベルにまで拡大し、入力
音声の特徴パラメータの時系列から統計的パターン認識
法に基づいて単語を直接同定した後、認識された単語の
列を文として認識する方式も提案されている(特開昭5
9−121098号、特開昭fig−173598号等
)。この方式では、単語単位の標準パターンを持つため
、前述した調音結合による音響的な変形の問題を回避で
きる。この単語同定法の基本的なアルゴリズムは、各単
語に対して、標準パターンを統計的に準備された特徴パ
ラメータの時系列(パターンベクトル)として準備する
そして、入力音声の部分区間について上記標準パターン
との類似度を求め、最大類似度を与える単語を判定する
ものである。そして、単語列としての入力音声との類似
度を連続する部分区間の組合わせについて評価し、最大
の累積類似度を持ち、かつ入力音声の全体に対応する単
語列を認識結果として褥るものである。これにより、正
しく検出された音声区間に対して、不特定の話者が発声
した連続単語が認識できる。
しかしながら、実際の利用者にあっては、発声時に息継
ぎ音や息洩れ等の雑音が認識対象の連続音声に混入する
場合があり、音声区間の検出誤りが発生することがあっ
た。このような音声区間の検出誤りは、単語の認識性能
の低下及び単語列の評価の信頼性の低下を招き、認識誤
りを引起こすという問題がある。例えば、数字列“1・
・・・・・°を発声した場合の4イ”の部分や4・・・
・・・6”の“り0の部分は、とりわけ連続発声の場合
、声の大きさの変動が大きく、上記のような雑音と区別
が付き難く、音声区間検出誤りを起こし易い。
このような雑音に関しては、L、P、La5el他。
’An 1sprovcd Endpolnt Det
ector for l5olatedWord  R
ecognition  ’  (IEEE、Tran
s、^SSP、Vol。
ASSP−29,No、4vp777−785.198
1)に示されるように、音声区間の候補を複数出力して
おき、それら複数の音声区間候補のそれぞれについて単
語認識を行ない、最小の距離が得られる区間を正しい音
声区間と判断してそのときの認識結果を出力する方法が
ある。しかし、この方法は孤立発声の単語認識を対象と
しており、これを連続発声の音声認識にそのまま適用し
て複数の開始位置と複数の終了位置を考慮した全組合わ
せについてそれぞれ連続発声の4諧処理を行なおうとす
ると、膨大な計算量が必要となるという問題があった。
(発明が解決しようとする課題) このように、従来の認識単位を単語単位とする連続音声
認識においては、音声区間の検出誤りによって誤認識を
起こす二とがあり、また全ての音声区間候補について単
語列を求めようとすると膨大な計算量が必要になるとい
う聞届があった。
本発明は、連続音声の認識において、処理時間の増加を
殆ど招くことなく正確な音声区間が特定でき、認識性能
を大幅に向上させ得る音声認識装置を提供することを目
的とする。
[発明の構成] 11jを解決するための手段) 本発明に係る音声認識装置は、以下のような音響分析手
段と、端点候補検出手段と、音声区間尤度計算手段と、
単語認識手段と、単語列評価手段とを具備している。
音響分析手段は、入力音声の特徴パラメータを一定フレ
ーム毎に求める。
端点候補検出手段は、前記入力音声の音声区間候補を特
定する一又は複数の始端点候補及び終端点候補を検出す
る。
音声区間尤度計算手段は、前記端点候補検出手段で検出
された始端点候補又は終端点候補が複数存在する場合に
は、端点候補間の音声らしさを音声区間尤度情報として
算出する。
単語認識手段は、所定の単語列評価点毎に該評価点を終
端とする一又は複数の部分区間の単語候補とその単語尤
度情報とを前記特徴パラメータに基づいて求める。
単語列評価手段は、前記単語認識手段によって求められ
、前記始端点候補から開始される第1単語の前記単語尤
度情報とに基づいて前記始端点候補から1つの始端点候
補を音声区間の始端点として決定するとともに、前記始
端点から前記各単語列評価点までの単語列を評価して評
価の高い単語列が得られる部分区間とその評価値とを上
記単語列評価点毎に求め、更に前記終端点候補に対応す
る前記単語列評価点の評価値と前記音声区間尤度計算手
段で求められた音声区間尤度情報とに基づいて前記終端
点候補から1つの終端点候補を前記音声区間の終端点と
して決定する。
(作用) 本発明では、端点候補検出手段が、複数の始端点候補と
複数の終端点候補とを検出すると、単語列評価手段は、
これら複数の始端点候補から所定の単語列評価点までを
第1単語とし、前記単語認識手段による上記第1単語の
類似度や統計的距離等の単語尤度情報と、音声区間尤度
計算手段で算出された音声区間尤度情報とを用いて始端
点を決定するとともに、単語列評価手段による各単語列
評価点の評価値のうち、終端点候補の位置に対応する評
価点の評価値と前記音声区間尤度情報とに基づいて終端
点を決定する。
したがって、本発明によれば、始端点の決定に始端点数
だけの第1単語の4職処理を行ない、終端点の決定に終
端点の数の比較処理を行なうので、始端点及び終端点の
検出のための計算量は僅かに増えるものの、計算の大部
分を占める認識処理の計算量は全く増えないので、全体
的な計算量を殆ど増やすことなしに正確な音声区間の検
出が可能である。しかも、本発明では上記のように、始
端点及び終端点の決定に、音声区間らしさを加味した判
断を行なっているので、雑音を音声であると判定してし
まう確率を大幅に少なくすることができ、認識性能を向
上させることができる。
(実施例) 以下、図面を参照しながら本発明の一実施例について説
明する。
なお、ここでは入力音声の認識単位を単語単位として説
明しているが、ここで言う“単語”とは、言語学的な意
味での単語ではなく、音声認識処理における認識の基本
単位として定義されるものである。従って、例えば音節
や母音−子音−母音の音韻連鎖又はこれらに類するもの
をも含む広い意味である。また、゛単語境界”とは、認
識単位である単語の始端若しくは終端の位置に対応する
フレームの位置を指している。
第1図は本実施例に係る音声認識装置の構成を示すブロ
ック図である。
即ち、この装置は、音響分析部1と、端点候補検出部2
と、音声区間尤度計算部3と、境界フレーム判定部4と
、単語類似度計算部5と、単語列評価部6とから構成さ
れている。
音響分析部1は、例えば16〜30チャネル程度の帯域
通過フィルタからなるフィルタバンクにより構成され、
連続発声された入力音声を一定の分析時間間隔(フレー
ム周期)毎にサンプリングし、スペクトル分析してその
分析結果を特徴パラメータとして出力する。特徴パラメ
ータのサンプリング時間は、音声の音韻的特徴を十分に
考慮して数1sec 〜1018cc%長くても20 
m5oc程度に設定される。
端点候補検出部2は、第2図に示すように、例えば音響
分析部1からの各フィルタ出力、即ち特徴ベクトルの各
要素を二乗和して求められた音声パワー情報と、しきい
値θB、θE、θOと比較することにより、音声区間の
始端位置、後端位置の候補を必要に応じて複数出力する
ものである。
この音声区間候補検出部2は、例えば第3図に示すよう
に、入力される特徴パラメータから音声パワー情報を生
成する二乗和計算部11と、この二乗和:1°算部11
からの音声パワー情報を50〜100フレ一ム分(0,
5〜1.0sec)程度記憶できるバッファ12と、こ
のバッファに格納された各時点の音声パワー情報としき
い値θ0゜θB、θEとを比較するコンパレータ13と
、このコンパレータ13の比較結果に基づいて始端点候
補及び終端点候補を求め、これを出力する判定11g1
4とから構成されている。
音声区間尤度計算部3は、端点候補検出部2から複数の
始端点候補若しくは終端点候補が検出されたら、これら
端点候補間の音声らしさを音声区間尤度情報(例えば類
似度)として計算する。この実施例では、音声区間尤度
情報として音声の平均パワーを用いている。
境界フレーム設定部4は、前記音響分析部1から逐次出
力される特徴パラメータの時系列から補助特徴であるス
ペクトル変化値を抽出し、その値に応じて境界信号を出
力する。
単語類似度計算部5は、現時刻までに得られている入力
音声の特徴パラメータについて、境界フレーム判定部2
から出力される境界信号を参照して単語の類似度を計算
する。この実施例では、類似度としてパターンの変形の
吸収能力の高い複合類似度を用いている。したがって、
ここでは、各単語のクラス毎に数種の互いに直交したベ
クトルを用意して、入カバターンとの内積を計算するこ
とにより類似度が求められる。この単語類似度計算部5
の更に詳細な構成を第4図に示す。パターンベクトル発
生部21は、現在の境界点のフレームから距@Ll  
(i=1.2.・・・)だけ遡った境界点までの区間で
、最大単語長L waxから最短単語長L sinの間
の範囲に入る一又は複数の区間を、音声の部分区間と決
め、各部分区間毎に入力音声から一定次元のパターンベ
クトルを生成する。−方、単語辞書記憶部22には、各
単語毎の標準パターンベクトルが記憶されている。類似
度計算部23は、各部分区間について単語辞書記憶部2
2に記憶された各単語と人カバターンベクトルとの間の
類似度を計算する。最大判定部24は、類似度計算部2
3で得られた類似度を判定し、各部分区間毎に最大の類
似度を与える単語名とその類似度とを出力する。Wレジ
スタ25は、最大判定部24から出力される単語名とそ
の類似度とを、各部分区間の区間長と対応させて記憶す
る。即ち、Wレジスタ25には、部分区間の長さの順に
、その区間における単語名と、類似度が記憶されること
になる。尚、類似度の値が所定のしきい値よりモ小さい
ものは、Wレジスタ25への格納を行なわないようにす
ると、その後の処理時間が更に短縮される。
単語列評価部6は、単語類似度計算部5で得られた各部
分区間に対する単語名及び類似度と、端点候補検出部2
から出力される始端点候補及び終端点候補と、音声区間
尤度計算部3から出力される音声区間尤度情報とに基づ
いて、始端点及び終端点を確定するとともに、確定され
た音声区間内の単語列を評価し、認識結果として出力す
るものである。この単語列評価部6は、第1単語の判定
、中間単語の判定及び最終判定の3つの処理を行なうも
ので、例えば第5図に示すように、単語列類似度計算部
31とにレジスタ32と、結果判定部33とで構成され
ている。単語列類似度計算部31は、現時点のフレーム
を終端とした場合に、最大の累積類似度が得られる部分
区間及び単語名の組合わせを、Wレジスタ25の内容と
にレジスタ32に既に格納されている内容とに基づいて
計算する。Kレジスタ32は、各境界点のフレーム毎に
最大の累積類似度が得られた区間長とその累積類似度と
単語名とを記憶する。なお、始端点は、第1単語の判定
時に最も類似度の高い区間長と単語名とをにレジスタ3
2に格納することで確定される。結果判定部33は、K
レジスタ32に格納されている境界点フレームのエント
リから終端点を確定するとともに、その確定された終端
点からにレジスタ32内の区間長情報をもとにバックト
ラックして認識結果を出力するものである。
次に以上のように構成された本実施例に係る音声認識装
置の動作について説明する。
音響分析部1に入力された音声は、音響分析部でスペク
トル分析され特徴パラメータに変換される。この特徴パ
ラメータは、音声区間候補検出部2によって音声パワー
情報に変換され、始端点及び終端点候補検出に供される
第6図(a)に基づき始端点候補の検出方法を説明する
。先ずバッファ12内に格納された前方の一定区間の音
声パワー情報から、TB’時間連続してしきい値θBを
超えた場合、音声が開始したと判定する。実際の開始位
置は、上記しきい値θBを超えた位置の端点B′から更
に音声パワー情報がしきい値θBよりも小さなしきい値
θ0を下回る点まで遡り、その点を始端点候補BOとす
る。更に始端点候補BOから78時間だけ遡ったところ
までの期間にしきい値θOを超えるパワーがあるかどう
かを確認し、パワーが確認された場合には、その点をそ
れぞれ始端点候補とする。図示の例では、2つの始端点
候補BO,Blが求められる。
次に第6図(b)に基づき終端点候補の検出方法を説明
する。ここでは、音声パワー情報がしきい値66未満と
なった期間がTE’を超えた場合、音声が終了したと判
定する。そして、上記しきい値66未満となった点E′
から更に後方にしきい値θGを下回る点EOを検出し、
この点を終端点候補とする。そして、終端点候補EOか
らTE時間の間にしきい値θEを超えるパワーが観測さ
れたら、その終端点をそれぞれ終端点候補として出力す
る。図示の例では、終端点候補としてEO。
El、E2の3点が求められる。
これら始端点候補及び終端点候補は、音声区間尤度計算
部3に与えられる。音声区間尤度計算部3では、第6図
の始端点BO,Blに関して区間[BO,B11の音声
らしさを、また終端点候補EO,E1.E2に関して区
間[El、EO]。
[E2.EO]の音声らしさを、それぞれ次のように算
出する。即ち、いまp (1)を第iフレームの音声パ
ワーであるとすると、区間[a、b]の平均パワーP 
(a、b)は、 により求められる。ここで始端点候補BOを基準とした
始端点候補Blまでの平均パワーをP ’(B i)、
終端点候補EOを基準とした始端点候補Ejまでの平均
パワーをP’(Ej)とすると、次にこれら平均パワー
P’(Bi)、P’(Ej)を類似度の尺度(1以下)
に変換するため、これらを音声区間の粗検出に用いたし
きい値θB、θEで割りたP ’(B l)/θB又は
P ’(E j)/θEをそれぞれ類似度S ’(B 
[)、  S ’(E j)とする(但し、S ’(B
 O)−S ’(E O)−1)。従って、この類似度
S°は第7図(a)に示すように、区間[BO,B11
に含まれる信号のパワーが相対的に少ない場合には、音
声らしさとして小さな値が、また同図(b)のように、
信号パワーが大きいときには大きい値を持つことになる
。これらの類似度S“は単語列評価部6において単語類
似度に加算されるので、次のようにスコアSに変換する
ここで、SOは0.95〜0.97程度の定数、XはB
1又はEjである。これにより求められたスコアS (
X)が音声区間尤度情報として単語列評価部6に出力さ
れる。なお、始端候補あるいは終端候補が1r3所しか
検出されなかった場合には、特に上記のような評価は行
なわない。
一方、音響分析部1から出力される特徴パラメータが、
境界フレーム判定部4に入力されると、そのスペクトル
変化値から境界信号が生成される。
第8図に示すように、スペクトル変化値は、特徴パラメ
ータの時間的な変化の激しい所では大きく、また時間的
な変化の少ない所では小さな値となっている。特徴パラ
メータの時間的変化の大きい所は、音素の境界、即ち単
語の境界である可能性が高く、逆に特徴パラメータの時
間的な変化の少ない所は音素の境界でない可能性が高い
。従って、境界フレーム判定部4は、基本的にはスペク
トル変化値の高いところで境界信号を出力する。また、
例えば単語列“21” (/ni: its’ i /
)のような場合には、nとtの間の特徴パラメータの変
化は少ないが、この間に境界信号が最低1つ出力される
必要がある。また、雑音の影響によって頻繁に境界信号
が出力されるのを防止する必要もある。
このため、境界フレーム判定部4では、境界信号の周期
(間隔)の上限値(例えば605sec)と下限[(例
えば201sec)とを設定し、両者の間の周期で境界
信号が出力される。そして、この境界信号が出力された
フレームが単語境界フレームであることを示す単語境界
フラグを付与する。
音響分析部1から単語類似度計算部5に特徴パラメータ
が入力されると、゛まず、部分区間毎に入カバターンが
生成される。
即ち、いま、人カバターンをXi  (i=1〜N)と
すると、この入カバターンXtは、部分区間の位置に従
って周波数方向にF点(バイトパスフィルタのチャネル
数)、時間軸方向にT点(実際には区間をT分割したと
きの各分割点近傍のフレーム)の計FXT (−N)次
元のベクトルである。
なお、時間軸方向のT点は、部分区間を正確に1等分し
て決定する必要はなく、部分区間を1等分する位置の最
近傍フレームを取出すことにより決定すれば十分である
。T点を構成する各フレームの現フレームからの相対位
置は、区間長を変数とする関数の形で与えられる。これ
はテーブル化して予め準備しておくのが良い。
さて、いま −(−一1〜M)を単語Cに対して用意さ
れる直交ベクトルの数とし、単Fic(c−1〜C)の
辞書パターンをReal とすると、パターンXiの単
語Cに対する類似度S’cは、(αC−は重み) によって計算できる。
この類似度計算を全単語について行ない、最大類似度の
単語を選択する。そして、音声区間尤度計算部3におけ
る処理と同様、定数SOを減じることによりスコアSc
に変換される。そのスコアScと、その単語名C及び部
分区間の長さ(フレーム数)とを記憶する。
この計算は、現フレーム(例えば第8図のFT)を終了
点とし、L sax −L slnの長さの全ての部分
区間(例えば第8図中Ll、L2.L3の3区間)つい
て行なわれる。そして、これら各部分区間(第8図中L
1.i−1,2,3)における単語名(C1,FT )
 、類似度のスコア(S i、FT)、と区間長(フレ
ーム数、Ll)が、例えば第9図に示すような形態でW
レジスタ25に記憶されることになる。
単語列評価部5では、Kレジスタ32とWレジスタ25
中に記憶される部分区間の単語名とそのスコアを用いて
単語列を評価する。Kレジスタ32には、音声区間の始
端からあるフレームを終端として仮定された単語列につ
いて、そのフレーム番号、区間長、単語名、累積スコア
が、累積スコアの上位り部分の単語について記憶されて
いる。
Kレジスタに記憶されるデータは、次のような処理によ
って求められる。まずWレジスタから1つの部分区間に
対応する区間長L1単語名C1スコアSが読出される。
そして、現時刻を表すフレーム番号Fからその区間の開
始フレーム番号BをB−F−L+1なる計算によって求
める。続いてにレジスタ中の最新にエントリされたもの
から過去のものへ遡りつつ、フレーム番号Bのエントリ
を捜し、このフレーム番号Bのエントリに入っている累
積スコアTから、新たな累積スコアUをU−T+Sなる
計算によって求め、単語名01区間長しとともに図示し
ないバッファに一時的に保持する。続いて、これらの計
算をWレジスタに記憶された全ての部分区間、Kレジス
タに記憶された仝てのD個の候補について行ない、それ
らを上記バッファに一時的に格納する。その後、求めら
れた全での累積スコアUの中から大きいものを選択し、
大きいものから順に累積スコアT1区間長L1単語名C
1現フレーム番号Fの4項目をD組だけにレジスタの新
たなエントリにセットする。
このようにしてセットされたにレジスタの内容をN41
0図に示す。これらの一連の単語類似度演算と中語列処
理は1つの境界信号の間隔内終了することが望ましい。
以上の単語列評価において、類似度として音声区間尤度
情報である類似度S (Bi)、S (Ej)を用いる
と、音声区間の始端候補及終端候補が上記の累積類似度
の算出処理によって求められる。
即ち、始端点候補B1を含む区間[:Bi、F]  (
i−1〜N)の長さがL■aXとLa1nの間にある場
合、 U   −3+5(Bi) BI   B1.P を計算し、これを第1単語についての累積スコアとして
、区間[B1.F]の長さ、CB1.FとTBIととも
にバッファに記憶する。ここで、S  は区B1.P 間[B1.F]の単語類似度、5(Bl)は音声区間尤
度情報としての類似度であるから、累積スコアυ0 は
、始端点候補B1の音声らしさの情報を加味して評価さ
れた評価値となっている。従って、単語列評価部6にお
ける通常の累積スコアの算出処理で、同時に正しい始点
候補を検出することができる。
2単語目以降の単語列に対しては、Kレジスタに記憶さ
れている第xフレームで終了する第に位(k−1〜D)
の累積スコアを、 K       K U  x−SX、P +T  x なる計算で求め、同じ(区間の長さ、単語名をバッファ
に記憶する。これらはFからL■aX 。
L sinの範囲にある全ての単語境界候補からなる区
間について計算する。次にバッファ中に蓄えられている
全ての組をUについてソートした後に、大きいものから
順にD個をにレジスタに格納する。
そして、音声終了信号が検出されるまで、上の処理を行
なう。最後に音声終了信号が検出され、それが複数個あ
る場合には、最後の終端候補位置(第2図のE2)まで
上記始端点における類似の算出方法と同様、音声区間尤
度情報としての類似度5(Ej)を加味した類似度によ
る累積スコアを求め、最後に最終判定処理を行なう。
最終判定処理では、第10図に示すにレジスタからそれ
ぞれEj  (j−0〜M)に応じた位置に記憶されて
いる累積類似度中の最大のものを選び、これを最終認識
結果として取出す。そして、逆向きにテーブルを探索し
て認識結果を出力する。即ち、単語列評価部6ではにレ
ジスタの最終フレーム番号のエントリからバックトラッ
クして、認識結果を出力する。その方法は、まず最終フ
レーム番号をFとする。次に繰返し処理として、このF
に対し、Kレジスタ中に記憶されている単語名Wを出力
し、その区間の開始フレーム位置をB−F−L+1によ
り求める。このとき、B≦0なら処理を終了する。それ
以外のとき、Bと等しいフレーム番号Fをにレジスタ中
から捜す。そして、これを新しいFとして再度これらの
処理を繰返す。これにより、認識結果として単語名Wが
逆順に求められることになる。
このように本実施例によれば、50フレ一ム程度の長さ
のバッファによって音声区間の始端部と終端部をチエツ
クして始端点候補と終端点候補とを求めているので、1
単語以上のものが抜は落ちることはない。また、部分区
間の長さに依存しない一定次元のベクトルを用いて単語
の回定が行われるので、始端の候補が複数個ある場合で
も、始めの第1単語についての判定によって始端位置を
確定できる。また、終端位置についても、単に累積類似
度の比較を行なうだけで確定できる。しかも、この装置
によれば、始端点候補と終端点候補の音声区間尤度情報
を求めるとともに、この情報を加味した単語類似度の計
算を行なうことにより、始端点及び終端点を確定するよ
うにしているので、雑音を誤って音声と認識してしまう
ことがない。
従って、始端点候補及び終端点候補が複数ある場合でも
認識処理の計算時間を殆ど増加させずに正確な始端点位
置及び終端点位置を求められる。
[発明の効果] 以上述べたように、本発明によれば、入力音声の音声区
間の検出において複数の始端点候補と複数の終端点候補
とが検出された場合でも、これら端点候補の音声らしさ
の情報を単語類似度の計算に反映させることにより始端
点と終端点とを正確に確定できる。このため、複数の音
声区間候補の全てについて単語列の認識結果を求める必
要がなく、処理時間を殆ど増加させることなしに正確な
音声区間の検出、即ち認識性能の向上を図ることが可能
である。
【図面の簡単な説明】
第1図は本発明の一実施例に係る音声認識装置の構成を
示すブロック図、第2図は入力音声と始端点及び終端点
候補との関係を示す波形図、第3図は同装置における端
点候補検出部の構成を示すブロック図、第4図は同装置
における単語類似度計算部の構成を示すブロック図、第
5図は同装置における単語列評価部の構成を示すブロッ
ク図、第6図は同装置における音声区間候補検出部の動
作を説明するための波形図、第7図は同装置における音
声区間用度計算部の動作を説明するための波形図、第8
図は同装置における単語列評価部の動作を説明するため
の波形図、第9図は前記単語類似変度計算部におけるW
レジスタの記憶情報を示す図、第10図は前記単語列評
価部におけるにレジスタの記憶情報を示す図である。 1・・・音響分析部、2・・・端点候補検出部、3・・
・音声区間尤度計算部、4・・・境界フレーム判定部、
5・・・単語類似度計算部、6・・・単語列評価部。 出願人代理人 弁理士 鈴江武彦 第1図 第2図 第3図 第4図 !@5図 TB       Tら TE’ 第6図 (a) 81BO (b)

Claims (1)

    【特許請求の範囲】
  1. 入力音声の特徴パラメータを一定フレーム毎に求める音
    響分析手段と、前記入力音声の音声区間候補を特定する
    一又は複数の始端点候補及び終端点候補を検出する端点
    候補検出手段と、この端点候補検出手段で検出された始
    端点候補又は終端点候補が複数存在する場合には、端点
    候補間の音声らしさを音声区間尤度情報として算出する
    音声区間尤度計算手段と、所定の単語列評価点毎に該評
    価点を終端とする一又は複数の部分区間の単語候補とそ
    の単語尤度情報とを前記特徴パラメータに基づいて求め
    る単語認識手段と、前記音声区間尤度計算手段で求めら
    れた音声区間尤度情報と、前記単語認識手段によって求
    められ、前記始端点候補から開始される第1単語の前記
    単語尤度情報とに基づいて前記始端点候補から1つの始
    端点候補を音声区間の始端点として決定するとともに、
    前記始端点から前記各単語列評価点までの単語列を評価
    して評価の高い単語列が得られる部分区間とその評価値
    とを上記単語列評価点毎に求め、更に前記終端点候補に
    対応する前記単語列評価点の評価値と前記音声区間尤度
    計算手段で求められた音声区間尤度情報とに基づいて前
    記終端点候補から1つの終端点候補を前記音声区間の終
    端点として決定する単語列評価手段とを具備したことを
    特徴とする音声認識装置。
JP63007931A 1988-01-18 1988-01-18 音声認識装置 Pending JPH01185599A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63007931A JPH01185599A (ja) 1988-01-18 1988-01-18 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63007931A JPH01185599A (ja) 1988-01-18 1988-01-18 音声認識装置

Publications (1)

Publication Number Publication Date
JPH01185599A true JPH01185599A (ja) 1989-07-25

Family

ID=11679265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63007931A Pending JPH01185599A (ja) 1988-01-18 1988-01-18 音声認識装置

Country Status (1)

Country Link
JP (1) JPH01185599A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003050595A (ja) * 2001-08-07 2003-02-21 Casio Comput Co Ltd 音声認識装置及び方法、並びにプログラム
KR100395222B1 (ko) * 1998-12-12 2003-10-17 엘지전자 주식회사 음성사서함서비스(브이엠에스)를 위한 음성인식시스템
KR100557100B1 (ko) * 1998-12-26 2006-05-17 삼성전자주식회사 음성 우편 시스템의 음성 편집 장치 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100395222B1 (ko) * 1998-12-12 2003-10-17 엘지전자 주식회사 음성사서함서비스(브이엠에스)를 위한 음성인식시스템
KR100557100B1 (ko) * 1998-12-26 2006-05-17 삼성전자주식회사 음성 우편 시스템의 음성 편집 장치 및 방법
JP2003050595A (ja) * 2001-08-07 2003-02-21 Casio Comput Co Ltd 音声認識装置及び方法、並びにプログラム
JP4604424B2 (ja) * 2001-08-07 2011-01-05 カシオ計算機株式会社 音声認識装置及び方法、並びにプログラム

Similar Documents

Publication Publication Date Title
US6535850B1 (en) Smart training and smart scoring in SD speech recognition system with user defined vocabulary
US4972485A (en) Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
US6134527A (en) Method of testing a vocabulary word being enrolled in a speech recognition system
US6922668B1 (en) Speaker recognition
EP0237934B1 (en) Speech recognition system
US4937870A (en) Speech recognition arrangement
JPS59121100A (ja) 連続音声認識装置
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JPH01185599A (ja) 音声認識装置
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2853418B2 (ja) 音声認識方法
JP5161174B2 (ja) 経路探索装置、音声認識装置、これらの方法及びプログラム
JP2577891B2 (ja) 単語音声予備選択装置
JP3868798B2 (ja) 音声認識装置
JP3461789B2 (ja) 音声認識装置および音声認識方法、並びに、プログラム記録媒体
Scagliola et al. Continuous speech recognition via diphone spotting a preliminary implementation
WO2001039179A1 (en) System and method for speech recognition using tonal modeling
JPH02272498A (ja) 音声認識方法
JPH0455518B2 (ja)
JPS62111295A (ja) 音声認識装置
JPH0451037B2 (ja)
JPS6336678B2 (ja)
JPS60147797A (ja) 音声認識装置
JPH1097284A (ja) 音声認識方法,音声認識装置,及び記憶媒体