JPH07146699A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH07146699A
JPH07146699A JP5295137A JP29513793A JPH07146699A JP H07146699 A JPH07146699 A JP H07146699A JP 5295137 A JP5295137 A JP 5295137A JP 29513793 A JP29513793 A JP 29513793A JP H07146699 A JPH07146699 A JP H07146699A
Authority
JP
Japan
Prior art keywords
similarity
word
frame
voice
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5295137A
Other languages
English (en)
Other versions
JP3114468B2 (ja
Inventor
Maki Yamada
麻紀 山田
Masakatsu Hoshimi
昌克 星見
Taisuke Watanabe
泰助 渡辺
Katsuyuki Futayada
勝行 二矢田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP05295137A priority Critical patent/JP3114468B2/ja
Priority to US08/347,089 priority patent/US5692097A/en
Publication of JPH07146699A publication Critical patent/JPH07146699A/ja
Application granted granted Critical
Publication of JP3114468B2 publication Critical patent/JP3114468B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 入力音声と単語標準パターンの分析時間(フ
レーム)毎のフレーム間類似度を用いて単語を認識する
不特定話者音声認識方法において高い認識率を得ること
を目的とする。 【構成】 フレーム間類似度計算部12で得られた入力
と単語標準パターンのフレーム間類似度値から事後確率
化部13で一定値を引くという簡単な近似により事後確
率化してDPマッチングを行ない、単語類似度計算部1
5でその累積類似度を単語類似度とし、最も類似度の大
きい単語を認識結果とする。フレーム間類似度はn個の
音素類似度およびそのn個の回帰係数およびパワー差分
を特徴パラメータとして求める。さらにDPマッチング
において、入力音声の各フレームの最大音素類似度から
非音声区間でのフレーム間類似度が低くなるような重み
づけを行なう。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】 本発明は、人間の声を機械に認
識させる音声認識方法に関するものである。
【0002】
【従来の技術】従来、不特定話者の音声認識を行なう手
法の1つとして特開平5−88692号公報に記載され
たような、少数話者の発声データにより作成した音声片
標準パターンを接続して単語を認識する手法がある。
【0003】図8は、この手法による音声認識を具現化
するための機能ブロック図である。図8において、1は
音響分析部、2は特徴パラメータ抽出部、3は音素類似
度計算部、4は音素標準パターン格納部、5は正規化類
似度ベクトル計算部、6は回帰係数計算部、7は正規化
回帰係数ベクトル計算部、8はパラメータ系列作成部、
9は音声標準パターン格納部、10は音声片系列単語辞
書格納部、11は単語標準パターン格納部、12はフレ
ーム間類似度計算部、14はDPマッチング部、20は
正規化単語類似度計算部である。
【0004】図8において、入力音声が入力されると音
響分析部1で分析時間(フレームと呼ぶ、本例では1フ
レーム=10msec)毎に線形予測(LPC)分析を行な
う。次に、特徴パラメータ抽出部2で、LPCケプスト
ラム係数(本例ではC0〜C8まで9個)および音声のパ
ワーの時間方向の差分値V0 を求める。音素標準パター
ン格納部4には、あらかじめ多くの話者が発声したデー
タから作成した20種類の音素標準パターンを格納してい
る。音素標準パタ−ンとしては/a/,/o/,/u/,/i/,/e/,/j
/,/w/,/m/,/n/,
【0005】
【外1】
【0006】,/b/,/d/,/r/,/z/,/h/,/s/,/c/,/p/,/t/,/
k/の20個のパターンを用意する。音素標準パタ−ンの作
成方法は以下の通りである。
【0007】音素標準パターンは各音素の特徴部(その
音素の特徴をよく表現する時間的な位置)を目視によっ
て正確に検出し、この特徴フレームを中心とした特徴パ
ラメータの時間パターンを使用して作成する。具体的に
は、特徴フレームの前8フレーム、後3フレーム、計1
2フレーム分のLPCケプストラム係数(C0〜C8)およ
びパワー差分(V0)を1次元にしたパラメータ系列
【0008】
【外2】
【0009】を使用する。(数1)にこれを示す。
【0010】
【数1】
【0011】ここで
【0012】
【外3】
【0013】は特徴部の第kフレームにおけるi番目の
LPCケプストラム係数,
【0014】
【外4】
【0015】は特徴部の第kフレームにおけるi番目の
パワー差分である。パワーそのものではなく差分値を用
いるのは発声の大きさの影響を避けるためである。多く
のデータに対してパラメータ系列(数1)を抽出し、各
要素を平均化した値を要素として持つ平均値ベクトル
【0016】
【外5】
【0017】と要素間の共分散行列
【0018】
【外6】
【0019】を求め音素標準パターンとする。このよう
に音素標準パターンは複数フレームの特徴パラメータを
使用している。すなわちパラメータの時間的動きを考慮
して標準パターンを作成しているのが特徴である。
【0020】次にこの20種類の音素標準パターンと特徴
抽出部で得られた特徴パラメータ(LPCケプストラム
係数およびパワー差分)の時系列との類似度をそれぞれ
フレーム毎に音素類似度計算部3で求める。入力と音素
pの標準パターンとの類似度は(数2)で表されるマハ
ラノビス距離dpを用いる。
【0021】
【数2】
【0022】ここで共分散行列(外6)を各音素共通と
すると(数3)のように簡単な式に展開できる。共通化
された共分散行列を
【0023】
【外7】
【0024】とする。
【0025】
【数3】
【0026】ここでは計算量の少ない(数3)を用いて
音素類似度を求める。
【0027】
【外8】
【0028】、bpが音素pに対する標準パターンであり
音素標準パターン格納部4にあらかじめ格納されてい
る。
【0029】(数3)により20種類の音素に対してフレ
ーム毎に類似度を計算すると図9に示すような類似度ベ
クトルの時系列が得られる。図9は「赤い」(aka
i)と発声した場合の例で、横軸が時間方向で縦軸が各
音素に対する類似度を示す。図9において、入力を1フ
レームずつシフトさせながら/a/の音素標準パターンと
マッチングを行なって得られた類似度の時系列が40,46,
68,60,42,1,4,6,20,40,65,81,64,49,15,10,14,16であ
る。このように音素類似度を20個の音素標準パターンす
べてに対して同様に求める。あるフレームにおいて20個
の音素類似度を要素とする20次元のベクトルを類似度ベ
クトルとする。図9の斜線で示した部分が1つの類似度
ベクトルである。
【0030】正規化類似度ベクトル計算部5では、フレ
ーム毎に得られた20次元の類似度ベクトルの各要素をこ
の類似度ベクトルの大きさで割って、類似度ベクトルの
大きさを1に正規化する。
【0031】回帰係数計算部6ではこの正規化類似度ベ
クトルの時系列に対して各音素の類似度の時間的変化量
である回帰係数をフレーム毎に求める。回帰係数は、フ
レームの前後2フレームの類似度値(計5フレームの類
似度値)の最小2乗近似直線の傾き(類似度の時間的変
化量)を使用する。図10は入力を1フレームずつシフト
させながら音素/a/の音素標準パターンとマッチングを
行なって得られた類似度を、フレーム毎にプロットした
ものである。図10において横軸がフレーム、縦軸が音素
類似度である。第iフレームを中心に第i-2から第i+2フ
レームの最小二乗直線の傾きを求め、これを第iフレー
ムにおける類似度の時間変化量(回帰係数)とする。回
帰係数を求める式を(数4)に示す。(数4)において
xt(t=1,2,3,…)は音素/a/に対する類似度の時系列を表
し、Kは時刻t+2における音素/a/の回帰係数である。
【0032】
【数4】
【0033】この回帰係数を音素毎に全フレームに対し
て求める。あるフレームにおいて20個の音素に対する回
帰係数を要素とする20次元のベクトルを回帰係数ベクト
ルとする。
【0034】正規化回帰係数ベクトル計算部7において
類似度ベクトルと同様に回帰係数ベクトルをフレーム毎
に大きさを1に正規化する。
【0035】パラメータ系列作成部8で、このようにし
て求めた正規化類似度ベクトルおよび正規化回帰係数ベ
クトルの時系列を入力音声のパラメータとする。
【0036】音声片標準パターン格納部9には、定めら
れた音声単位(音声片)、ここでは母音の時間的な中心
から子音の時間的中心までのVCパターン、子音の時間
的中心から母音の時間的中心までのCVパターン、母音
中心から母音中心までのVVパターンごとの正規化類似
度ベクトルおよび正規化回帰係数ベクトルの時系列が登
録されている。音声片標準パターンの作成方法は以下の
通りである。
【0037】音韻環境を考慮した単語セットをあらかじ
め少数の話者が発声して分析し、前記の20個の音素標準
パターンとフレーム毎に音素類似度計算を行い、その結
果得られる正規化類似度ベクトルおよび正規化回帰係数
ベクトルの時系列から音声片を切り出し、複数個得られ
た同一の音声片を互いにDPマッチングすることにより
時間的整合を図って平均化し音声片標準パターンとす
る。複数のパターンを平均化することによって、音声片
辞書の精度を向上させ、より高い認識率を得ることがで
きる。音素の中心フレームを境界にすると子音から母
音、母音から子音に音声が遷移する情報を有効に取り入
れることができるので高い認識率を得ることができる。
図11の(1)に「朝日」(「asahi」)、(2)に「酒」
(「sake」)、(3)に「パーク」(「paak
u」)の場合のCVとVCとVVの切り出し方の例を示
す。図に示すように「asahi」の場合は、「<A」、
「AS」,「SA」,「AH」,「HI」と「I>」(ただし、記号"
<",">"はそれぞれ語頭、語尾を表し、語中のパターンと
は区別する。)の6個の音声片から構成されている。
「sake」の場合は、「<SA」,「AK」,「KE」,「E>」
の4個の音声片から構成されている。「paaku」の
場合は、「<PA」,「AA」,「AK」,「KU」,「U>」の5個
の音声片から構成されている。
【0038】認識対象となる単語集団の音声片記号列を
あらかじめ音声片系列単語辞書格納部10に記述してお
き、これにしたがって音声片標準パターン格納部9から
各辞書項目を作成するのに必要なCV,VC,VVパター
ンを取り出して接続を行ない、単語標準パターンを作成
し単語標準パターン格納部11に登録する。たとえば
「赤い」(「akai」)という辞書項目を作成するに
は「<A」,「AK」,「KA」,「AI」,「I>」の5つのCV,
VCパターンを接続して作成する。このように任意の単
語の単語標準パターンが音声片の記号列から作成できる
ため、認識対象語彙の変更が容易である。
【0039】フレーム間類似度計算部12において、パ
ラメータ系列作成部で得られた入力音声のパラメータ時
系列と単語標準パターン格納部にあるパラメータ時系列
とのフレーム間類似度を求め、DPマッチング部14に
おいて連続DPマッチングを行ないフレーム毎に各単語
の類似度を求め、最も類似度の大きくなるフレームで最
も類似度の大きい単語を認識結果とする。
【0040】フレーム間類似度の距離尺度は、ユークリ
ッド距離、重み付ユークリッド距離、相関余弦距離など
が使用できる。ここでは相関余弦を用いた場合について
説明を行なう。入力音声のjフレームにおける正規化類
似度ベクトルを、(数5)
【0041】
【数5】
【0042】辞書のiフレームにおける正規化類似度ベ
クトルを(数6)
【0043】
【数6】
【0044】入力音声のjフレームにおける正規化回帰
係数ベクトルを(数7)
【0045】
【数7】
【0046】辞書のiフレームにおける正規化回帰係数
ベクトルを(数8)
【0047】
【数8】
【0048】とすると、相関距離を用いた場合のフレー
ム間類似度l(i,j)は、(数9)のようになる。
【0049】
【数9】
【0050】w1,w2は類似度とその回帰係数の混合の
重みであり、w1は0.4から0.6がよい。(数9)におい
て右辺の第1、2項の分母はそれぞれ1となるため、類
似度ベクトルと回帰係数ベクトルのそれぞれの相関余弦
をとることは正規化類似度ベクトルと正規化回帰係数ベ
クトルのそれぞれの内積をとることと等価である。した
がって(数9)は(数10)のようになる。
【0051】
【数10】
【0052】この距離尺度を用いて連続DPマッチング
を行なう。ここではDPパスは図12に示した非対称DP
パスを用いる。DPマッチングを行なう漸化式を(数1
1)に示す。ここで、辞書の長さをIフレーム、入力の
長さをJフレーム、第iフレームと第jフレームの累積類
似度をg(i,j)とする。
【0053】
【数11】
【0054】正規化単語類似度計算部20において、最
終累積類似度からその単語に対する単語類似度を求め
る。単語標準パターンの終端フレームIにおける最終累
積類似度g(I,j)が時刻jを終端とするその単語の最終累
積類似度である。入力音声の終端が検出された後に、累
積類似度g(I,j)が最大となるようなフレーム位置jを求
め(j=J)、そのときの最終累積類似度をその単語標準パ
ターンのフレーム長Iで割ったものを正規化単語類似度
Sとする。これを式で表すと(数12)となる。
【0055】
【数12】
【0056】これを認識対象単語すべてについてそれぞ
れ求め、最も大きな値をもつ単語を認識結果として出力
する。
【0057】
【発明が解決しようとする課題】しかし、以上のような
方法では発声された音声の始終端位置がわかっている場
合には高い認識性能を示すが、音声の始終端位置がわか
らず音声を含む区間中から連続DP法により単語をスポ
ッティングする場合には認識性能が悪くなるとう欠点が
あった。これはDPの距離尺度として相関余弦を用いる
ため、ノイズ区間においてもフレーム毎に類似度ベクト
ルの大きさを1に正規化してしまい、ノイズであるにも
かかわらず不正解単語とある程度高いスコアでマッチン
グしてしまうことに起因している。また、入力音声を類
似度パラメータに変換してから単語マッチングするた
め、単語マッチングの時点ではパワー差分などのパワー
情報が失われてしまうことも、スポッティング性能が劣
化する原因の1つである。
【0058】本発明は上記従来の問題点を解決するもの
で、スポッティングにおいても高い認識性能をもつ音声
認識方法を提供することを目的とする。
【0059】
【課題を解決するための手段】上記目的を達成するため
の本発明の考え方は次のようなものである。
【0060】第1に、スポッティングでは、長い単語中
の一部に他の短い単語に似た部分区間があった場合、そ
の部分が短い単語に誤認識してしまうことが多く起こ
る。これを解決するために、入力と単語標準パターンの
フレーム間類似度値から一定値を引くという簡単な線形
近似によって類似度値の事後確率化を行ない、これを累
積したものをフレーム長で正規化せずにそのままその単
語の類似度とし、最も高い類似度を出した単語を認識結
果とする。事後確率化された類似度値は正解の単語標準
パターンとマッチングした場合には正の値を、それ以外
の場合には負の値をもつため、正しくマッチングしてい
る限り累積すればするほど値は大きくなり長い単語が有
利になる。
【0061】第2に従来の認識法では単語のDPマッチ
ングの距離尺度として、類似度ベクトルおよびその回帰
係数ベクトルのそれぞれの相関余弦の和のみを用いてお
り、音声のパワー情報は用いていなかった。そこで認識
性能向上のためにこれにパワー差分を導入する。
【0062】第3に非音声区間で単語標準パターンと高
いスコアでマッチングしないようにするために、非音声
区間において入力音声と単語標準パターンのフレーム間
類似度を相対的に低くするような重みづけをおこなう。
この重みは、あらかじめ不特定話者用に作成したn種類
の音素標準パターンと入力音声とのマッチングにより得
られるn個の類似度値の中で最大となる音素の類似度値
や、あらかじめ用意したノイズ標準パターンと入力音声
とのマッチングにより得られる類似度値から求める。
【0063】第4に上記第1、第2、第3の方法を併用
することにより、さらなる認識性能の向上を図る。
【0064】
【作用】第1に入力と単語標準パターンのフレーム間類
似度値から一定値を引くという簡単な線形近似によって
類似度値の事後確率化を行ないこれを累積したものをそ
のままその単語の類似度とし最も高い類似度を出した単
語を認識結果とすることの作用は次の通りである。事後
確率化された類似度値は正解の単語標準パターンとマッ
チングした場合には正の値を、それ以外の場合には負の
値をもつため、正しくマッチングしている限り累積すれ
ばするほど値は大きくなり長い単語が有利になる。した
がって長い単語中の一部に他の短い単語に似た部分区間
があった場合でも、その部分が短い単語に誤認識してし
まうことがなくなる。また間違った部分とマッチングし
た場合には累積値はだんだん小さくなるため不必要に長
い単語の類似度が高くなることはない。
【0065】第2にパワー差分を導入することによる作
用は次の通りである。非音声区間では音声のパワーは非
常に小さく、音声区間では非音声区間よりも音声のパワ
ーは大きくなる。とくに母音、鼻音ではパワーが大き
く、無声破裂音(/p/,/t/,/k/)や無声破擦音(/c/)では破
裂の直前でパワーが非常に小さくなり破裂時点で急激に
大きくなるなど音声のパワーが音声の識別に役立つこと
はよく知られている。しかしパワーそのものの値は発声
された声の大きさの影響を受けるため音声のパワーの時
間差分を特徴パラメータの一つとして導入する。音声の
始端ではパワーが大きくなり終端ではパワーが小さくな
るため、この情報を用いることにより単語識別性能、特
にスポッティングの性能を上げることができる。
【0066】第3に非音声区間において入力音声と単語
標準パターンのフレーム間の類似度を相対的に低くする
ような重みづけをおこなうことにより、非音声区間で単
語標準パターンと高いスコアでマッチングしなくなるた
め、発声音声区間外へマッチングするような誤認識が減
り、スポッティング性能が向上する。
【0067】第4にこれらを併用することによりさらに
認識性能、特にスポッティング性能が向上する。
【0068】
【実施例】以下本発明の第1の実施例について、図面を
参照しながら説明する。図1は本実施例の構成を表す図
である。図8に示した従来例と同一構成部分には同一番
号を付して詳細な説明を省略する。従来例と異なるの
は、フレーム間類似度計算部12で得られた類似度値を
事後確率化部13で事後確率化し、これを距離尺度とし
て連続DPマッチングを行ない、単語類似度計算部15
において累積類似度をそのまま単語類似度とするところ
である。
【0069】フレーム間類似度計算部12において(数
10)により単語標準パターンと入力音声のフレーム間
類似度l(i,j)を求めるところまでは従来例と同じであ
る。異なるのはDPの距離尺度として、フレーム間類似
度l(i,j)を事後確率化した尤度lp(i,j)を用いること
である。
【0070】ここでいう事後確率は、相関余弦の和によ
って求められる入力音声と単語標準パターンのフレーム
間類似度値Xが得られたときにそれが最適パス上にある
確率P(K|X)である。P(K|X)はベイズの公式
により(数13)で表される。
【0071】
【数13】
【0072】P(X|K)は正しいパス上での類似度値
Xの出現確率、P(X)はすべての格子点についての類
似度値Xの出現確率である。P(K)は正しいパスの存
在する確率で定数と考えてよい。(数13)の両辺の対
数を取ると、(数14)となる。
【0073】
【数14】
【0074】ここで右辺第1項
【0075】
【数15】
【0076】について考える。P(X|K)とP(X)
の値が等しくなるような類似度値Xが得られたときには
(数15)の値は0となる。またP(X|K)の方がP
(X)よりも大きいような類似度値Xが得られたとき、
すなわち正解パス上にある確率の方が高いとき(数1
5)の値は正となり、逆にP(X|K)よりP(X)の
方が大きいような類似度値Xが得られたとき、すなわち
正解パス上にある確率の方が小さいとき(数15)の値
は負となる。したがって(数15)の値は0を中心に正
負に振れ、入力と単語標準パターンが正しくマッチング
しているかしていないかの尺度になる。また(数14)
の右辺第2項は正しい格子点の存在する確率で定数であ
り、入力と単語標準パターンとのマッチングの度合いと
は関係のない尺度である。そこで単語類似度Sを、最適
パス上の格子点における(数15)の和と定義する。
【0077】
【数16】
【0078】最適パスは(数17)を距離尺度とし(数
18)を漸化式とする連続DPマッチングにより求ま
る。
【0079】
【数17】
【0080】
【数18】
【0081】(数16)は最終累積類似度g(I,j)が最
大となるようなフレーム位置j(j=J)での最終累積類似度
g(I,J)と等しくなる。これを式で表すと(数19)と
なる。
【0082】
【数19】
【0083】この単語類似度Sを認識対象単語すべてに
ついてそれぞれ求め、最も大きな値をもつ単語を認識結
果として出力する。
【0084】(数17)は正解の単語標準パターンとマ
ッチングした場合には正の値を、それ以外の場合には負
の値をもつため、正しくマッチングしている限り累積す
ればするほど値は大きくなり長い単語が有利になる。し
たがって長い単語中の一部に他の短い単語に似た部分区
間があった場合でも、その部分が短い単語に誤認識して
しまうことがなくなる。また間違った部分とマッチング
した場合には累積値はだんだん小さくなるため不必要に
長い単語の類似度が高くなることはない。
【0085】以下、入力音声と単語標準パターンのフレ
ーム間類似度(相関余弦の和)から(数17)の値を求
める方法を述べる。(数17)におけるP(X|K)お
よびP(X)は頻度分布(確率密度関数)として実際の
音声データから統計的に求めることができる。電子協10
0地名50名分の音声データと単語標準パターンとのDP
マッチングを行ない、P(X|K)およびP(X)の頻
度分布(類似度値Xの出現頻度)を求め示したのが図2
である。図2において、(a)は正解単語の正解パス上で
のフレーム間類似度値の出現頻度分布でありP(X|
K)の確率密度関数を表している。(b)は音声+ノイズ
区間における全音声片標準パターンとのフレーム間類似
度値の出現頻度分布でありP(X)の確率密度関数を表
している。横軸は類似度値X、縦軸は出現頻度である。
確率密度にするため(a),(b)の面積は1に正規化してあ
る。(c)は各類似度値毎に(数15)の値を求めてプロ
ットしたものである。(c)のグラフを見てわかるとおり
(数15)の関数はほぼ直線になる。そこでこれを(数
20)のような線形式に近似することができる。ここで
α,βは定数である。
【0086】
【数20】
【0087】(数20)を(数16)に代入すると単語
類似度Sは(数21)となる。
【0088】
【数21】
【0089】このようにして単語類似度を求めた場合、
単語間の大小関係は定数βに関係なくなる。したがって
(数20)は(数22)と、(数21)は(数23)と
してもよい。定数αの値は実験により求める。
【0090】
【数22】
【0091】
【数23】
【0092】ここでXは類似度ベクトルとその回帰係数
ベクトルの相関余弦の和であるのでXは(数24)であ
る。ただし入力音声のjフレーム、辞書のiフレームにお
ける正規化類似度ベクトルをそれぞれ(数5),(数
6)と、入力音声のjフレーム、辞書のiフレームにおけ
る正規化回帰係数ベクトルをそれぞれ(数7),(数
8)とする。w1,w2は類似度とその回帰係数の混合の
重みである。
【0093】
【数24】
【0094】(数24)を(数22)に代入するとlp
(i,j)は(数25)のようになる。
【0095】
【数25】
【0096】(数25)を(数23)に代入すると単語
類似度Sは(数26)のようになる。
【0097】
【数26】
【0098】なお、辞書軸基本としたDPパスを用いる
場合には、最適パスは辞書側のすべてのフレームを1回
づつ通るので(数26)は(数27)のようにも計算で
きるため、単語のDPマッチングを終了した後に定数I
αを加算するだけでよく、計算量の削減ができる。
【0099】
【数27】
【0100】以上のように、本実施例によれば入力音声
と単語標準パターンのフレーム間類似度値を事後確率化
したものは一定値を引くという簡単な線形近似で求める
ことができる。事後確率化された類似度値は正解の単語
標準パターンとマッチングした場合には正の値を、それ
以外の場合には負の値をもつため、正しくマッチングし
ている限り累積すればするほど値は大きくなり長い単語
が有利になる。したがって長い単語中の一部に他の短い
単語に似た部分区間があった場合でも、その部分が短い
単語に誤認識してしまうことがなくなる。また間違った
部分とマッチングした場合には累積値はだんだん小さく
なるため不必要に長い単語の類似度が高くなることはな
い。よって、以上のような方法によりスポッティング性
能が向上する。
【0101】本実施例を用いて50名の話者が発声した電
子協100地名単語音声データ(8kHzサンプリング、デー
タショウノイズ付加)の単語スポッティング認識実験を
行なった。その結果従来例では87.94%、本実施例では9
2.28%と3%以上もの認識率の改善が見られ本手法の有
効性が示された。
【0102】以下本発明の第2の実施例について図面を
参照しながら説明する。図3は音声パワーの時間差分を
用いた音声認識方法を具現化するための機能ブロック図
である。本方法でフレーム間類似度を求めた後は、従来
例と同様にDPマッチングを行なってもよいが、本実施
例では第1の実施例と同様にフレーム間類似度から一定
値を引いて事後確率化を行なってからDPマッチングを
行なうこととする。そこで、図3においては、図1に示
した第1の実施例と同一構成部分には同一番号を付して
詳細な説明を省略する。
【0103】第1の実施例と異なるのは、特徴パラメー
タ抽出部2で得られた入力音声のパワー差分をV0差分
格納部16に格納しパラメータ系列作成部8で認識のパ
ラメータとして用いるようにすることである。音声片標
準パターン格納部9にも同様に、正規化類似度ベクトル
および正規化回帰係数ベクトルのそれぞれの平均値ベク
トルの時系列パターンと、V0差分の平均値、分散の時
系列パターンを格納しておく。V0差分の平均値、分散
は、音声片標準パターン作成用音声データから複数個得
られた同一の音声片を互いにDPマッチングすることに
より時間的整合を図って、対応するフレームの集合に対
してそれぞれ求める。フレーム間類似度計算部12では
フレーム間類似度を、正規化類似度ベクトル間の類似度
と正規化回帰係数ベクトル間の類似度とパワー差分間の
類似度の重み付き和として求める。すなわち入力音声の
第jフレームと単語標準パターンの第iフレームのパワー
差分の類似度をdv(i,j)とすると、フレーム間類似度lv
(i,j)は(数28)となる。
【0104】
【数28】
【0105】パワー差分の距離尺度としては、ユークリ
ッド距離、重み付けユークリッド距離、マハラノビス距
離などを用いることができる。本実施例では事後確率化
されたマハラノビス距離を用いる。入力音声の第jフレ
ームのパワー差分値をvj、単語標準パターンの第iフレ
ームのパワー差分の平均値、分散をそれぞれμi,σi、
また事後確率化のために入力として考えられ得るすべて
の音声について求めたパワー差分の平均値、分散をそれ
ぞれμx,σxとすると、入力音声の第jフレームと単語標
準パターンの第iフレームのパワー差分の類似度dv(i,j)
は(数29)で表される。
【0106】
【数29】
【0107】これを第1の実施例と同様にして事後確率
化部13においてフレーム間類似度lv(i,j)を事後確率
化し、lvp(i,j)とする。
【0108】
【数30】
【0109】(数30)において定数αの値は実験によ
り求める。DPマッチング部14において連続DPマッ
チングを行ない単語類似度計算部15において単語類似
度を求め認識結果を出力する方法は第1の実施例と同じ
である。DPの距離尺度としては(数30)を用い、D
Pの漸化式は(数31)を用いる。
【0110】
【数31】
【0111】以上のように、入力音声と単語標準パター
ンのマッチングにパワー差分を導入することにより単語
のマッチング精度が高くなり、単語識別性能、特にスポ
ッティングの性能を上げることができる。
【0112】本実施例を用いて50名の話者が発声した電
子協100地名単語音声データ(8kHzサンプリング、デー
タショウノイズ付加)の単語スポッティング認識実験を
行なった。その結果本実施例では93.88%と、第1の実
施例に比べさらに1.6%程度の認識率の向上が見られ本
手法の有効性が示された。
【0113】以下本発明の第3の実施例について図面を
参照しながら説明する。図4は最大音素類似度により入
力音声と単語標準パターンのフレーム間類似度に重みを
付ける音声認識方法を具現化するための機能ブロック図
である。図1に示した第1の実施例と同一構成部分には
同一番号を付して詳細な説明を省略する。従来例と異な
るのは、最大類似度による重み計算部17において、音
素類似度計算部3で得られた音素類似度値から入力音声
の各フレームに対しそのフレーム内で最大となる音素類
似度値によって重みを計算し、この重みをDPマッチン
グ部において事後確率化されたフレーム間類似度にかけ
たものを距離尺度として連続DPマッチングを行なうこ
とである。ただし音素類似度計算部3で求める類似度値
は異なるフレームにおける類似度値が比較できるよう事
後確率化されている必要がある。
【0114】ノイズ区間では、どの音素にも類似しない
ため音素類似度はどれも小さくなる。そこで類似度ベク
トルを大きさ1に正規化する前の類似度値そのものを用
いて入力音声に重みを付ける。本実施例ではフレーム毎
に最大音素類似度を求め時間方向にスムージングし、こ
の値が大きいフレームは音声区間であるとの考えに基づ
き大きな重みを、この値が小さいフレームは非音声区間
であるとの考えに基づき小さな重みをつける。入力音声
の第jフレームにおけるp番目の音素に対する音素類似度
をa(p,j)とするとき第jフレームの最大音素類似度S(j)
は(数32)で定義する。ただしn=3とする。
【0115】
【数32】
【0116】S(j)は音声に似ているかどうかの尺度で、
値が大きいほど音声に近いことを表す。これを用いて第
jフレームの入力音声に対する重みq(j)を(数33)の
ように定義する。重みq(j)は最大で1、最小でmの値をと
る。
【0117】
【数33】
【0118】ただし、パラメータm,γの値は実験により
求める。これを事後確率化部13によって第1の実施例
と同様にして事後確率化されたフレーム間類似度lp(i,
j)にかけたものを新たな距離尺度として連続DPマッチ
ングを行なう。すなわちDPの距離尺度は(数34)の
ように表される。定数αの値は実験により求める。
【0119】
【数34】
【0120】DPの漸化式は(数35)のようになる。
【0121】
【数35】
【0122】単語類似度計算部15において単語類似度
を求め認識結果を出力する方法は第1の実施例と同じで
ある。
【0123】以上のようにして最大音素類似度の値を用
いて入力音声と単語標準パターンのフレーム間類似度に
重みを付けることによりノイズ区間と単語標準パターン
のフレーム間類似度は小さくなるため、ノイズ区間には
み出してスポッティングする誤認識が少なくなり、スポ
ッティング性能の向上を図ることができる。本方法では
音素に対する類似度により重みを求めるため、認識時の
ノイズのスペクトル特性の変化に影響を受けにくいとい
うメリットがある。
【0124】本実施例を用いて50名の話者が発声した電
子協100地名単語音声データ(8kHzサンプリング、デー
タショウノイズ付加)の単語スポッティング認識実験を
行なった。その結果本実施例では93.74%と、第1の実
施例に比べさらに1.5%程度の認識率の向上が見られ本
手法の有効性が示された。
【0125】なお、フレーム間類似度にかける重みは入
力音声のパワーから求めてもよい。このとき全域パワ
ー、高域パワー、中域パワー、低域パワーなどの組合わ
せにより求めることもできる。
【0126】以下本発明の第4の実施例について図面を
参照しながら説明する。図5はノイズ類似度により入力
音声と単語標準パターンのフレーム間類似度に重みを付
ける音声認識方法を具現化するための機能ブロック図で
ある。図1に示した第1の実施例と同一構成部分には同
一番号を付して詳細な説明を省略する。従来例と異なる
のは、ノイズ標準パターン格納部19に格納されている
音素標準パタ−ンと同様の形式のノイズ標準パターンと
入力音声との類似度を、ノイズ類似度計算部18におい
て音素類似度計算部3と同様の計算式で求め、これを用
いて入力音声の正規化類似度ベクトルを計算することで
ある。
【0127】ノイズ標準パターンは多くのノイズ区間に
おける音素標準パタ−ンと同じパラメータ(ケプストラ
ム係数C0〜C8、パワー差分V0)時系列で作成し、あ
らかじめノイズ標準パターン格納部19に格納してお
く。ノイズ標準パターンに対する類似度は音素類似度と
同様に(数3)により求める。ノイズ類似度はノイズ区
間で大きく音声区間では小さくなる。これを利用して正
規化類似度ベクトルの計算は次のように行なう。まず入
力音声の各フレームに対し20個の音素類似度と1個のノ
イズ類似度を求め、フレーム毎にノイズ類似度を含めた
21次元の類似度ベクトルを大きさ1に正規化し、そのう
ちの音素類似度20個を認識に用いることにする。すなわ
ち、入力音声のp番目の音素に対する音素類似度をxp(p
=1,…,20)、ノイズ標準パターンに対するノイズ類似度
をxnとすると、正規化後の類似度ベクトルは(数3
6)となる
【0128】
【数36】
【0129】このとき正規化類似度ベクトルの大きさは
1にはらない。ノイズ区間においてはノイズ類似度が大
きい値を持つため、正規化後の類似度ベクトルの大きさ
は小さくなり、音声区間においてはノイズ類似度は十分
小さい値を持つため、正規化後の類似度ベクトルの大き
さはほぼ1になる。したがって以上のようにして正規化
類似度ベクトルを求めることは、入力音声の非音声区間
におけるフレーム間類似度に小さな重みをかけることと
同様の作用をする。こうして求めた正規化類似度ベクト
ルから時間方向の回帰係数ベクトルを求めて正規化しD
Pマッチングに用いる以降の方法は第1の実施例と同じ
である。
【0130】以上のようにしてノイズ類似度を用いて入
力音声の類似度ベクトルを正規化することにより、入力
のノイズ区間においては単語標準パターンとのフレーム
間類似度が小さくなるため、ノイズ区間にはみ出してス
ポッティングする誤認識が少なくなり、スポッティング
性能の向上を図ることができる。本方法ではDPマッチ
ング時の計算量の増加がないというメリットがある。
【0131】本実施例を用いて50名の話者が発声した電
子協100地名単語音声データ(8kHzサンプリング、デー
タショウノイズ付加)の単語スポッティング認識実験を
行なった。その結果本実施例では93.48%と、第1の実
施例に比べさらに1.2%程度の認識率の向上が見られ本
手法の有効性が示された。
【0132】以下本発明の第5の実施例について図面を
参照しながら説明する。図6は第1、2、3の実施例を
併用した音声認識方法を具現化するための機能ブロック
図である。図1、図3、図4に示した実施例と同一構成
部分には同一番号を付して詳細な説明を省略する。DP
マッチング部における連続DPの距離尺度は(数37)
のようになり、DPの漸化式は(数38)のようにな
る。定数αの値は実験により求める。
【0133】
【数37】
【0134】
【数38】
【0135】そして単語類似度計算部15において第1
の実施例と同様に(数19)により単語類似度Sを求
め、最も大きな値をもつ単語を認識結果として出力す
る。
【0136】以上のように本発明の複数の実施例を組合
わせることにより、音声区間の一部分と不正解単語がマ
ッチングしてしまう誤認識、音声区間外へ不正解単語が
マッチングしてしまう誤認識ともに減り、スポッティン
グ性能をさらに向上させることができる。
【0137】本実施例を用いて50名の話者が発声した電
子協100地名単語音声データ(8kHzサンプリング、デー
タショウノイズ付加)の単語スポッティング認識実験を
行なった。その結果本実施例では94.94%と非常に高い
認識率が得られ本手法の有効性が示された。
【0138】なお、以上5つの実施例ではいずれもDP
パスは図12に示したDPパスを用いたが、フレーム間類
似度を事後確率化して累積しフレーム数で正規化せずに
単語類似度とする場合には、辞書軸を基本軸にする必要
はなくパスの重みも自由に決めてよい。第5の実施例を
用いて図7に示すようなDPパスを用いて50名の話者が
発声した電子協100地名単語音声データを評価したとこ
ろ95.22%の認識率が得られた。
【0139】
【発明の効果】本発明は、次のような効果を奏する。第
1に、入力と単語標準パターンのフレーム間類似度値か
ら一定値を引くという簡単な線形近似によって類似度値
の事後確率化を行ない、これを累積したものをそのまま
その単語の類似度として認識を行なうことにより、長い
単語中の一部に他の短い単語に似た部分区間があった場
合でも単語としての類似度は小さくなるため、その部分
が短い単語に誤認識してしまうことがなくなる。第2
に、単語マッチングにパワー情報を導入することによ
り、単語のマッチング精度が高くなり、単語識別性能が
向上する。第3に、非音声区間において入力音声と単語
標準パターンのフレーム間類似度を相対的に低くするよ
うな重みづけをおこなうことにより、発声音声外の区間
へマッチングするような誤認識が削減できる。したがっ
て、上記第1乃至第3のそれぞれにおいて、スポッティ
ング性能が向上する。
【0140】以上により、本発明は高い認識率を得るこ
とができるものであるが、これら第1乃至第3の方法を
併用することにより、単語識別性能、特にスポッティン
グ性能がさらに向上し、より高い認識率を得ることがで
きる。
【図面の簡単な説明】
【図1】本発明の第1実施例における音声認識方法を具
現化する装置の機能ブロック図
【図2】同実施例におけるP(X|K)およびP(X)
の頻度分布図
【図3】本発明の第2実施例における音声認識方法を具
現化する装置の機能ブロック図
【図4】本発明の第3実施例における音声認識方法を具
現化する装置の機能ブロック図
【図5】本発明の第4実施例における音声認識方法を具
現化する装置の機能ブロック図
【図6】本発明の第5実施例における音声認識方法を具
現化する装置の機能ブロック図
【図7】DPパスの例を示す概念図
【図8】従来の音声認識方法を具現化する装置の機能ブ
ロック図
【図9】類似度ベクトルの時系列の説明図
【図10】回帰係数の説明図
【図11】CV、VCパターンの説明図
【図12】DPパスの例を示す概念図
【符号の説明】
1 音響分析部 2 特徴パラメータ抽出部 3 類似度計算部 4 音素標準パターン格納部 5 正規化類似度ベクトル計算部 6 回帰係数計算部 7 正規化回帰係数ベクトル計算部 8 パラメータ系列作成部 9 音声片標準パターン格納部 10 音声片系列単語辞書格納部 11 単語標準パターン格納部 12 フレーム間類似度計算部 13 事後確率化部 14 DPマッチング部 15 単語類似度計算部 16 V0差分格納部 17 最大類似度による重み計算部 18 ノイズ類似度計算部 19 ノイズ標準パターン格納部 20 正規化単語類似度計算部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 二矢田 勝行 神奈川県川崎市多摩区東三田3丁目10番1 号 松下技研株式会社内

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力音声から得られる特徴パラメータと
    単語標準パターンとの分析時間(フレーム)毎のフレー
    ム間類似度を用いて各単語の類似度を求め、類似度が最
    大となる単語を認識結果とする音声認識方法において、
    入力音声と単語標準パターンのフレーム間類似度値から
    一定値を引くことによって類似度値の事後確率化を行な
    い、これをDP法で累積したものをその単語の類似度と
    して用いることを特徴とする音声認識方法。
  2. 【請求項2】 認識対象音声を少数の話者が発声し、分
    析時間(フレーム)毎に得られるm個の特徴パラメータ
    とあらかじめ多数の話者で作成したn種類の音素標準パ
    ターンとのマッチングを行ない、n個の音素類似度とそ
    の時間変化量である回帰係数をフレーム毎に求め、この
    類似度ベクトルと回帰係数ベクトルおよび音声パワーの
    時間差分で作成した時系列パターンを単語標準パターン
    としてあらかじめ登録しておき、認識させたい入力音声
    も分析時間毎に得られるm個の特徴パラメータと前記n
    種類の音素標準パターンとのマッチングを行ない、n次
    元の類似度ベクトルと回帰係数ベクトルおよび音声パワ
    ーの時間差分の時系列を求め、これと単語標準パターン
    とを照合することによって各単語の類似度を求め、類似
    度が最大となる単語を認識結果とすることを特徴とする
    音声認識方法。
  3. 【請求項3】 あらかじめ音韻環境を考慮した単語セッ
    トを少数の話者が発声し、分析時間毎に得られるm個の
    特徴パラメータとn種類の音素標準パターンとのマッチ
    ングを行なって求めたn次元の類似度ベクトルと回帰係
    数ベクトルおよび音声パワーの時間差分で作成した時系
    列パターンから音声片を切り出して音声片標準パターン
    として登録しておき、これを接続することにより単語標
    準パターンを作成することを特徴とする請求項2記載の
    音声認識方法。
  4. 【請求項4】 認識対象音声を少数の話者が発声し、分
    析時間(フレーム)毎に得られるm個の特徴パラメータ
    とあらかじめ多数の話者で作成したn種類の音素標準パ
    ターンとのマッチングを行ない、n個の音素類似度とそ
    の時間変化量である回帰係数をフレーム毎に求め、この
    類似度ベクトルと回帰係数ベクトルで作成した時系列パ
    ターンを単語標準パターンとしてあらかじめ登録してお
    き、認識させたい入力音声も分析時間毎に得られるm個
    の特徴パラメータと前記n種類の音素標準パターンとの
    マッチングを行ない、n次元の類似度ベクトルと回帰係
    数ベクトルの時系列を求め、これと単語標準パターンと
    のフレーム間類似度から各単語の類似度を求め、類似度
    が最大となる単語を認識結果とする音声認識方法におい
    て、前記入力音声中の非音声区間と単語標準パターンの
    フレーム間類似度よりも、音声区間と単語標準パターン
    のフレーム間類似度を高くするように、フレーム間類似
    度に重みをつけることを特徴とする音声認識方法。
  5. 【請求項5】 あらかじめ音韻環境を考慮した単語セッ
    トを少数の話者が発声し、分析時間毎に得られるm個の
    特徴パラメータとn種類の音素標準パターンとのマッチ
    ングを行なって求めたn次元の類似度ベクトルと回帰係
    数ベクトルで作成した時系列パターンから音声片を切り
    出して音声片標準パターンとして登録しておき、これを
    接続することにより単語標準パターンを作成することを
    特徴とする請求項4記載の音声認識方法。
  6. 【請求項6】 あらかじめ不特定話者用に作成したn種
    類の音素標準パターンとフレーム毎にマッチングを行な
    って得られるn個の類似度値の中で最大となる音素の類
    似度値によって、入力音声と単語標準パターンのフレー
    ム間類似度に重みを付けることを特徴とする請求項4記
    載の音声認識方法。
  7. 【請求項7】 あらかじめ音素標準パターンと同形式の
    ノイズ標準パターンをノイズデータから作成しておき、
    これと入力音声をフレーム毎に照合することによりノイ
    ズ類似度を求め、この値を用いて入力音声と単語標準パ
    ターンのフレーム間類似度に重みを付けることを特徴と
    する請求項4記載の音声認識方法。
  8. 【請求項8】 請求項1、2、4記載の音声認識方法の
    いずれか2つ又は全てを併用することを特徴とする音声
    認識方法。
JP05295137A 1993-11-25 1993-11-25 音声認識方法 Expired - Lifetime JP3114468B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP05295137A JP3114468B2 (ja) 1993-11-25 1993-11-25 音声認識方法
US08/347,089 US5692097A (en) 1993-11-25 1994-11-23 Voice recognition method for recognizing a word in speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05295137A JP3114468B2 (ja) 1993-11-25 1993-11-25 音声認識方法

Publications (2)

Publication Number Publication Date
JPH07146699A true JPH07146699A (ja) 1995-06-06
JP3114468B2 JP3114468B2 (ja) 2000-12-04

Family

ID=17816763

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05295137A Expired - Lifetime JP3114468B2 (ja) 1993-11-25 1993-11-25 音声認識方法

Country Status (2)

Country Link
US (1) US5692097A (ja)
JP (1) JP3114468B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1091789A (ja) * 1996-09-11 1998-04-10 Oki Electric Ind Co Ltd 単語認識装置
EP1017041A1 (en) * 1995-11-15 2000-07-05 Hitachi, Ltd. Character recognizing and translating system and voice recognizing and translating system
US7729921B2 (en) 2006-08-14 2010-06-01 Nuance Communications, Inc. Apparatus, method, and program for supporting speech interface design
JP6336219B1 (ja) * 2017-03-24 2018-06-06 三菱電機株式会社 音声認識装置および音声認識方法

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3114468B2 (ja) 1993-11-25 2000-12-04 松下電器産業株式会社 音声認識方法
JPH08335091A (ja) * 1995-06-09 1996-12-17 Sony Corp 音声認識装置、および音声合成装置、並びに音声認識合成装置
JP3050180B2 (ja) * 1997-08-08 2000-06-12 日本電気株式会社 音声認識装置
EP0897224A3 (en) * 1997-08-14 2002-12-11 Her Majesty The Queen In Right Of Canada as represented by the Minister of Industry Method of enhanced max-log-a posteriori probability processing
US6018708A (en) * 1997-08-26 2000-01-25 Nortel Networks Corporation Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies
JP2001075964A (ja) * 1999-08-31 2001-03-23 Sony Corp 情報処理装置および情報処理方法、並びに記録媒体
US7035788B1 (en) * 2000-04-25 2006-04-25 Microsoft Corporation Language model sharing
US7392287B2 (en) 2001-03-27 2008-06-24 Hemisphere Ii Investment Lp Method and apparatus for sharing information using a handheld device
US6915259B2 (en) * 2001-05-24 2005-07-05 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on linear separation of variability sources
US6996527B2 (en) * 2001-07-26 2006-02-07 Matsushita Electric Industrial Co., Ltd. Linear discriminant based sound class similarities with unit value normalization
US20040117181A1 (en) * 2002-09-24 2004-06-17 Keiko Morii Method of speaker normalization for speech recognition using frequency conversion and speech recognition apparatus applying the preceding method
US6931374B2 (en) * 2003-04-01 2005-08-16 Microsoft Corporation Method of speech recognition using variational inference with switching state space models
TWI229844B (en) * 2003-05-08 2005-03-21 Acer Inc Recognition method to integrate speech input and handwritten input, and system thereof
TWI235358B (en) * 2003-11-21 2005-07-01 Acer Inc Interactive speech method and system thereof
US7831549B2 (en) * 2004-09-17 2010-11-09 Nokia Corporation Optimization of text-based training set selection for language processing modules
KR20060066483A (ko) * 2004-12-13 2006-06-16 엘지전자 주식회사 음성 인식을 위한 특징 벡터 추출 방법
CN101460994A (zh) * 2006-06-02 2009-06-17 皇家飞利浦电子股份有限公司 语音区分
JP5088030B2 (ja) * 2007-07-26 2012-12-05 ヤマハ株式会社 演奏音の類似度を評価する方法、装置およびプログラム
CA2639320C (en) 2007-09-07 2016-10-25 Becton, Dickinson And Company Pen-needle assembly for preventing under-torquing and over-torquing of pen-needle
US8983832B2 (en) * 2008-07-03 2015-03-17 The Board Of Trustees Of The University Of Illinois Systems and methods for identifying speech sound features
TWI396184B (zh) * 2009-09-17 2013-05-11 Tze Fen Li 一種語音辨認所有語言及用語音輸入單字的方法
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
US8688454B2 (en) * 2011-07-06 2014-04-01 Sri International Method and apparatus for adapting a language model in response to error correction
JP6461660B2 (ja) 2015-03-19 2019-01-30 株式会社東芝 検出装置、検出方法およびプログラム
US10943580B2 (en) * 2018-05-11 2021-03-09 International Business Machines Corporation Phonological clustering
KR102199694B1 (ko) 2019-05-15 2021-01-07 (주)풍림파마텍 조립이 용이한 주사바늘 재사용 방지구
JP2022082049A (ja) * 2020-11-20 2022-06-01 パナソニックIpマネジメント株式会社 発話評価方法および発話評価装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57147781A (en) * 1981-03-06 1982-09-11 Nec Corp Pattern matching device
JPS59192A (ja) * 1982-06-25 1984-01-05 株式会社東芝 個人照合装置
US4817159A (en) * 1983-06-02 1989-03-28 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
JPH0792673B2 (ja) * 1984-10-02 1995-10-09 株式会社東芝 認識用辞書学習方法
US4882755A (en) * 1986-08-21 1989-11-21 Oki Electric Industry Co., Ltd. Speech recognition system which avoids ambiguity when matching frequency spectra by employing an additional verbal feature
JPH0760318B2 (ja) * 1986-09-29 1995-06-28 株式会社東芝 連続音声認識方式
JPS63225300A (ja) * 1987-03-16 1988-09-20 株式会社東芝 パタ−ン認識装置
JP2739950B2 (ja) 1988-03-31 1998-04-15 株式会社東芝 パターン認識装置
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
JP2852298B2 (ja) * 1990-07-31 1999-01-27 日本電気株式会社 標準パターン適応化方式
JP2943445B2 (ja) 1991-01-25 1999-08-30 松下電器産業株式会社 音声認識方法
JP2574557B2 (ja) 1991-07-11 1997-01-22 松下電器産業株式会社 音声認識方法
JP2692382B2 (ja) 1990-12-21 1997-12-17 松下電器産業株式会社 音声認識方法
JPH04362698A (ja) * 1991-06-11 1992-12-15 Canon Inc 音声認識方法及び装置
JP2870224B2 (ja) 1991-06-19 1999-03-17 松下電器産業株式会社 音声認識方法
JP2943473B2 (ja) 1992-01-14 1999-08-30 松下電器産業株式会社 音声認識方法
JP3114468B2 (ja) 1993-11-25 2000-12-04 松下電器産業株式会社 音声認識方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1017041A1 (en) * 1995-11-15 2000-07-05 Hitachi, Ltd. Character recognizing and translating system and voice recognizing and translating system
US6148105A (en) * 1995-11-15 2000-11-14 Hitachi, Ltd. Character recognizing and translating system and voice recognizing and translating system
JPH1091789A (ja) * 1996-09-11 1998-04-10 Oki Electric Ind Co Ltd 単語認識装置
US7729921B2 (en) 2006-08-14 2010-06-01 Nuance Communications, Inc. Apparatus, method, and program for supporting speech interface design
US7747443B2 (en) 2006-08-14 2010-06-29 Nuance Communications, Inc. Apparatus, method, and program for supporting speech interface design
JP6336219B1 (ja) * 2017-03-24 2018-06-06 三菱電機株式会社 音声認識装置および音声認識方法
WO2018173270A1 (ja) * 2017-03-24 2018-09-27 三菱電機株式会社 音声認識装置および音声認識方法

Also Published As

Publication number Publication date
US5692097A (en) 1997-11-25
JP3114468B2 (ja) 2000-12-04

Similar Documents

Publication Publication Date Title
JP3114468B2 (ja) 音声認識方法
US7647224B2 (en) Apparatus, method, and computer program product for speech recognition
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JPS6336676B2 (ja)
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
Geetha et al. Automatic phoneme segmentation of Tamil utterances
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
KR100322731B1 (ko) 음성인식방법및이에적합한음성패턴의시간정규화방법
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JP3277522B2 (ja) 音声認識方法
KR100488121B1 (ko) 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법
Thalengala et al. Performance Analysis of Isolated Speech Recognition System Using Kannada Speech Database.
Takahashi et al. Isolated word recognition using pitch pattern information
JP3357752B2 (ja) パターンマッチング装置
JP2943445B2 (ja) 音声認識方法
JP2862306B2 (ja) 音声認識装置
Fukuda et al. Combining feature space discriminative training with long-term spectro-temporal features for noise-robust speech recognition
JP2658426B2 (ja) 音声認識方法
JP2692382B2 (ja) 音声認識方法
Kumar et al. Speech Recognition Using Hmm and Combinations: A Review
Bhosale Rajkumar et al. A Review on Various Approach of Speech Recognition Technique

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080929

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080929

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090929

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090929

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100929

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110929

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120929

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130929

Year of fee payment: 13

EXPY Cancellation because of completion of term