JPH0451037B2 - - Google Patents

Info

Publication number
JPH0451037B2
JPH0451037B2 JP60251360A JP25136085A JPH0451037B2 JP H0451037 B2 JPH0451037 B2 JP H0451037B2 JP 60251360 A JP60251360 A JP 60251360A JP 25136085 A JP25136085 A JP 25136085A JP H0451037 B2 JPH0451037 B2 JP H0451037B2
Authority
JP
Japan
Prior art keywords
speech
similarity
interval
standard pattern
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP60251360A
Other languages
English (en)
Other versions
JPS62111293A (ja
Inventor
Katsuyuki Futayada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP60251360A priority Critical patent/JPS62111293A/ja
Publication of JPS62111293A publication Critical patent/JPS62111293A/ja
Priority to US07/628,987 priority patent/US5241649A/en
Publication of JPH0451037B2 publication Critical patent/JPH0451037B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は人間の声を機械に認識させる音声認識
方法に関するものである。
従来の技術 近年音声認識技術の開発が活発に行なわれ、商
品化されているが、これらのほとんどは声を登録
した人のみを認識対象とする特定話者用である。
特定話者用の装置は認識すべき言葉をあらかじめ
装置に登録する手間を要するため、連続的に長時
間使用する場合を除けば、使用者にとつて大きな
負担となる。これに対し、声の登録を必要とせ
ず、使い勝手のよい不特定話者用の認識技術の研
究が最近では精力的に行なわれるようになつた。
音声認識方法を一般的に言うと、入力音声と辞
書中に格納してある標準的な音声(こけらはパラ
メータ化してある)のパターンマツチングを行な
つて、類似度が最も高い辞書中の音声を認識結果
として出力するということである。この場合、入
力音声と辞書中の音声が物理的に全く同じものな
らば問題はないわけであるが、一般には同一音声
であつても、人が違つたり、言い方が違つている
ため、全く同じにはならない。
人の違い、言い方の違いなどは、物理的にはス
ペクトルの特徴の違いと時間的な特徴の違いとし
て表現される。すなわち、調音器官(口、舌、の
どなど)の形状は人ごとに異なつているので、人
が違えば同じ言葉でもスペクトル形状は異なる。
また早口で発声するか、ゆつくり発声するかによ
つて時間的な特徴は異なる。
不特定話者用の認識技術では、このようなスペ
クトルおよびその時間的変動を正規化して、標準
パターンと比較する必要がある。
不特定話者の音声認識に有効な方法として、本
出願人は既にパラメータの時系列情報と統計的距
離尺度を併用する方法に関して特許を出願してい
る(特願昭60−29547号)ので、その方法を以下
に説明する。
第10図は本願出願人が以前に提案した音声認
識方法の具現化を示す機能ブロツク図である。
図において、1は入力音声をデイジタル信号に
変換するAD変換部、2は音声を分析区間(フレ
ーム)毎に分析しスペクトル情報を求める音響分
析部、3は特徴パラメータを求める特徴パラメー
タ抽出部、4は始端フレームと終端フレームを検
出する音声区間検出部、5は単語長の伸縮を行う
時間軸正規化部、6は入力パターンと標準パター
ンとの類似度を計算する距離計算部、7は予め作
成された標準パターンを格納する標準パターン格
納部である。上記構成において以下その動作を説
明する。
入力音声をAD変換部1によつて12ビツトのデ
イジタル信号に変換する。標本化周波数は8KHz
である。音響分析部2では、1フレーム
(10msec)ごとに自己相関法によるLPC分析を行
なう。分析の次数は10次とし、線形予測係数〓0,
〓1,〓2…〓10を求める。またここではフレームご
との音声パワーWpも求めておく。特徴パラメー
タ抽出部3では線形予測係数を用いて、LPCケ
プストラム係数C1〜Cp(pは打切り次数)および
正規化対数残差パワーCpを求める。なお、LPC
分析とLPCケプストラム係数の抽出法に関して
は、例えば、J.D.マーケル、A.H.グレイ著、鈴木
久喜訳「音声の線形予測」に詳しく記述してある
ので、ここでは説明を省略する。また特徴パラメ
ータ抽出部3では対数パワーLWpを次式で求め
る。
LWp=10log10Wp (式1) 音声区間検出部4は(式1)で求めたLWpを閾
値θSと比較し、LWp>θsのフレームがlsフレーム
以上持続する場合、その最初のフレームを音声区
間の始端フレームFsとする。またFsの後におい
て、LWpと閾値θeを比較し、LWp<θeとなるフレ
ームがleフレーム以上連続するとき、その最初の
フレームを音声区間の終端フレームFeとする。
このようにしてFsからFeまでを音声区間とする。
いま説明を簡単にするために、改めてFsを第1フ
レームと考え、フレームナンバーを(1,2,…
j,…J)とする。ただし、J=Fe−Fs+1で
ある。
時間軸正規化部5では、単語長をIフレームの
長さに分割することにより線形に伸縮をする。伸
縮後の第iフレームと入力音声の第jフレームは
(式2)の関係を持つ。
i=〔J−1/J−1j+J−/J−1+0.5〕
(式2) ただし〔 〕は、その数を超えない最大の整数
を表す。例ではI=16としている。
次に伸縮後の特徴パラメータを時系列に並べ、
時系列パターン〓xを作成する。いま第iフレー
ムの特徴パラメータ(LPCケプストラム係数)
をCx i,k(k=0,1,2,…P:d個)とする
と〓xは次式となる。
x=(C(x) 1,0,C(x) 1,1,C(x) 1,2…C(x) 1
,p
……C(x) i0,C(x) i,1…………C(x)〓,0C(x)〓,1

C(x)〓,P) (式3) すなわち〓xは、・(P+1)すなわち・D
次元のベクトルとなる(Dは1フレームあたりの
パラメータ数)。
距離計算部6は入力パターン〓xと標準パター
ン格納部7に格納されている各音声の標準パター
ンとの類似度を統計的な距離尺度を用いて計算
し、最も距離が小さくなる音声を認識結果として
出力する。標準パターン格納部7に格納されてい
る第k番目の音声に対応する標準パターンを〓k
(平均値)、対象とする全音声に共通な共分散行列
を〓とすると、入力パターン〓kと第k番目の標
準パターンとのマハラノビス距離Skは次式で計算
される。
Sk=(〓x−〓kt・〓-1・(〓x−〓k) (式4) 添字tは転置を、また−1は逆行列であること
を表す。(式4)を展開すると Sk=〓t x・〓-1・〓x−2〓t k・〓-1・〓x +〓t x・〓-1・〓k (式5) (式5)の第1項はnに無関係なので大小比較を
するときは考慮しなくてもよい。したがつて第1
項を取除いて、SkをDkに置きかえると、Dkは次
のようになる。
Dk=bk−〓t k・〓x (式6) ただし〓k=2〓-1・〓k (式7) bk=〓t/k・〓-1・〓k (式8) Dkを全てのk(k=1,2…N)について計算
し、Dkを最小とする音声を認識結果とする。こ
こでkは標準パターン格納部7に格納されている
音声標準パターンの数である。実際には標準パタ
ーンは〓kとbkが1対として、音声の数(K種
類)だけ格納されている。
(式6)に要する計算量は積和演算がI・(P
+1)回、減算が1回であり、非常に計算量が少
ないのが特長である。実用的にはI=16,P=4
とすれば十分なので、積和演算回数は1単語あた
り80回である。
次に標準パターン〓k,〓(実際には〓k,
bkに変換される)の作成方法について説明する。
標準パターンは、各音声ごとに多くのデータサ
ンプルを用いて作成する。各音声に対して、用い
るサンプルの数をMとする。各サンプルに対して
(式2)を適用して、フレーム数をIに揃える。
音声kに対して平均値ベクトルを求める。
〓k=(C(k) 1,0,C(k) 1,1,C(k) 1,2,…C(k
)
1
p……C(k) i,0,C(k) i,1…………C(k)〓,0,C(k)
〓,
1,…C(k)〓,P) (式9) ただし C(k) i,n=1/MMm=1 Ci,(k) o,m (式10) i=1,2,…I:Iフレーム n=0,1,2,…P:d個 ここでCi,n,mは音声kの第m番目のサンプ
ルで、第iフレームの第n次のケプストラム係数
を示す。平均値ベクトルと同様な手順で音声kの
共分散行列Wkを求める。全音声に共通な共分散
行列〓は次式で求める。
〓=1/K(〓(1)+〓(2)+…+〓k+…+〓K) (式11) 〓k,〓を(式7),(式8)によつて〓k,
bkに変換し、標準パターン格納部7にあらかじ
め格納しておく。
発明が解決しようとする問題点 かかる方法における問題点は、パターンマツチ
ングを行なう以前に音声区間が一意に確実に決め
られていると仮定している点にある。現実の音声
データは種々のノイズを含んでいたり、語頭や語
尾における発生が不明瞭であるため、音声区間を
正確に決められない場合やも音声以外の区間を誤
まつて検出する場合が多々ある。誤まつた音声区
間に対して従来例の方法を適用すると、当然のこ
とながら、認識率が大きく低下してしまう。
本考案の目的は上記問題点を解決するもので、
音声区間の検出という操作を必要としないで、入
力信号中から音声を自動的に抽出して認識でき
る、高い認識率を有する音声認識方法を提供する
ものである。
問題点を解決するための手段 本発明は上記目的を達成するもので、認識すべ
き音声とその前後の騒音を含む十分長い区間を入
力信号区間とし、この入力信号区間に、ある時間
的な基準点を設け、基準点を端点としてそれから
N1フレームの区間とN2フレームの区間(N1
N2)の2区間を設定して、これらを音声区間の
それぞれ最小値と最大値と考えて、N2−N1+1
とおりの音声区間候補のそれぞれに対して、音声
区間長を一定時間長に伸縮しながら各単語の標準
パターンとのマツチングを行なつて各単語の類似
度または距離を求め、この操作を基準点を全入力
信号区間の始めから終りまで走査して行ない、全
ての基準点位置の全ての音声区間候補に対する類
似度または距離を各単語について比較し、類似度
を最大または距離を最小とする単語を認識結果と
して出力するものである。
作 用 本発明は、全入力信号区間を対象として1フレ
ームずつずらせながら線形伸縮した入力と標準パ
ターンとの間のパターンマツチングを行ない、類
似度最大または距離最小となる音声とその区間と
を自動的に求めるので音声区間の検出が必要でな
くなり、騒音環境下で発声した音声を高い確率で
認識することができる。
実施例 以下に本発明の実施例を図面を用いて詳細に説
明する。第1図は本発明の一実施例における音声
認識方法の具現化を示す機能ブロツク図である。
まず実施例の考え方を第2図〜第4図を用いて
説明する。同じ言葉を発声しても、発声の時間的
な長さ(音声長)は発声方法によつても異なる
し、人の違いによつても異なる。パターンマツチ
ングによる音声認識方法では入力音声の長さを、
標準的な音声に正規化したうえで類似度計算を行
なつて音声長の認識を行なう。第2図は音声長の
正規化の様子を示したものである。入力音声の長
さの最小長をN1、最大長をN2とし、音声の標準
的な長さ(標準パターン長)をIとすると、第2
図に示すように、長さN(N1≦N≦N2)の音声
長を伸縮して長さIに正規化することになる。第
2図では音声の終端を一致させて、伸縮するよう
になつている。伸縮には(式2)と同様に、線形
伸縮式を用いる。
i=[I−1/N−1・n+N−I/N−1+0.5
](式12) 未知入力と標準パターンの類似度を計算する場
合、未知入力の音声長Nを(式12)によつて標準
パターン長に伸縮することになるが、この様子を
図示したのが第3図である。よこ軸に入力長、た
て軸に標準パターン長をとり、終端を一致させる
と、入力音声長はN1〜N2の範囲であるから、入
力と標準パターンとのマツチングルートは、入力
軸のN1≦N≦N2内の1点を始点とし、Pを終端
とする直線となる。したがつて、類似度計算は全
て三角形の内側で行なわれることになる。
いま、時間長NUの未知入力があり、その内容
が音声kであつたとする。ただし、未知入力の終
端は既知であるが終端は未知である(したがつ
て、NUも未知である)とする。この未知入力と
単語kの標準パターンSkの照合を行なう場合、N
をN1からN2まで、1フレームずつずらせなが
ら、各フレームに対して(式12)を用いて時間長
をIに伸縮し、未知入力パラメータと標準パター
ンとの類似度を求める。このとき標準パターンは
Skであるので、発声が正確ならば、N=NUにお
いて類似度は最大となるはずである。また他の任
意の標準パターンSk′に対するよりも、Skに対し
て類似度が大きくなるはずである。このようにし
て、未知入力の始端が決められる(したがつて音
声長が決められる)と同時に音声kが認識でき
る。
さて、第3図においては終端が既知として説明
を行なつたが、両端が未知の場合(すなわち音声
区間が不明である場合)にも、この方法を拡張で
きる。第4図はその説明図である。図において終
端点の横軸(入力の時間軸)座標をjとする。こ
こでもしjの位置が入力音声の終端に一致してい
れば第3図の場合と同じであるが、今度は両端点
が未知という仮定であるので、必ずしもjが音声
の終了点と一致するとは限らない。しかしなが
ら、jを音声区間が十分に入る広い範囲j1≦j≦
j2でスキヤンすれば、jが音声の終端と一致する
時点j=j0が必ず存在する。その場合、始端単は
j0−N2〜j0−N1の範囲内の点j0−NUに存在するは
ずである。そして、このようにスキヤンした場合
においても、発声した言葉と標準パターンが一致
していれば、始端がj0−NU、終端がj0のときの類
似度が、他のどのようなjおよびNの組合せより
も大きくなる。しかも、この類似度は他の標準パ
ターンに対する類似度よりも大きい。したがつ
て、認識結果が求められると同時に、音声の始端
点、終端点が定まる。
このように第4図に示した方法は、騒音と音声
が混在した信号から、標準パターンに最も類似し
た部分を切り出して認識することができる。した
がつて、一般に用いられているような複雑な音声
区間検出の手続きを必要とせず、音声区間は認識
された音声とともに結果として出力される。
類似度の計算は以下に述べるように、特徴パラ
メータの時系列パターンを用い、統計的距離尺度
(事後確率に基く距離)によつて計算する。
1フレームあたりの特徴パラメータの個数をD
とすると、Iフレームの時系列パターンはDX
次元のベクトルとなる。いま、未知入力の第iフ
レームのパラメータを〓i、単語kの標準パター
ンの第iフレームの成分をak iとすると、 〓i=(x1,i,x2,i,…xd,i,…xD
i) (式13) 〓k i=(ak 1,i,…ak 2,i,…ak d,i,…ak D
i) (式14) 時系列パターンをそれぞれ〓,〓kとすると 〓=(〓1,〓2,…,〓i,…,〓I) (式15) 〓k=(〓k 1,〓k 2,…〓k i,…,〓k I) (式16) である。単語kに対する類似度をLkとすると、 Lk=Bk−〓t k・〓 (式17) =BkIi=1 (〓k it・〓i (式18) =BkIi=1Dz=1 ak d,i・xd,i) (式19) ここで〓k,Bkは単語kの標準パターンであ
る。
k=2〓-1〓(〓k−〓e) (式20) Bk=〓t k・〓-1〓・〓k−〓t x・〓-1 a・〓e
(式21) ただし、〓kは単語kの平均値ベクトル、〓e
全ての単語の周囲情報の平均値ベクトルである。
また〓aは共分散行列であり、各単語の共分散行
列〓kと周囲情報の共分散行列〓eを用いて作成で
きる。akk=1 (〓Wke)/(K+1) (式22) kは単語の種類である。
e,〓eは各単語に属する多くのサンプルを用
いて、次のように作成する。第5図に示すよう
に、音声とその周囲の区間に対して、1フレーム
ずつずらせながら複数の区間(区間長はIフレー
ム)を設定する。このような操作を各単語の多く
のサンプルに対して行ない、それらの区間のパラ
メータの平均値ベクトル〓eと共分散行列〓eを作
成する。
(式17)は(式6)と同じ形であるので、類似
度計算に要する演算量は従来例と変わらない。標
準パターン作成の式((式7),(式8)と(式
20),(式21))のみが異なつている。周囲情報を
e,〓eとして標準パターンに取り込んでいるの
が本発明の特徴である。このようにすると、(式
17)は擬似的な事後確率に基づく距離となる。
第1図において10は入力信号をデイジタル信
号に変換するAD変換部、11は音声分析区間
(フレーム)ごとに分析する音響分析部、12は
特徴パラメータ抽出部であり、低次の6つの
LPCケプストラム係数(C0〜C5)をフレーム
(10msec)ごとに出力する。特徴パラメータ抽出
部12の出力が(式13)の〓に相当する(したが
つてD=6である)。なおブロツク10〜12の機能
は第10図のブロツク1〜3の機能と同じであ
る。特徴パラメータはLPCケプストラム係数の
他に、自己相関係数、PARCOR係数、帯域通過
フイルタの出力などがある。
以下、各ブロツクの機能を第6図のフローチヤ
ートを参照しながら説明する。フレーム同期信号
発生部13は、1フレームごとに同期信号を発生
する。フレーム番号をjとし、入力音声を含む十
分広い区間j1≦j≦j2で類似度の計算を行なうも
のとする。1フレームの期間で次の操作を行な
う。
標準パターン選択部18は、認識対象とする音
声(ここでは単語)の1つ1つを選択する(単語
数をKとする)。選択された標準パターンに対し
て、区間候補設定部15では、各単語の最小音声
区間長N1(k)と最大音声区間長N2(k)を設定
する。そして、区間長N(N1(k)≦N<N2(k))
に対して、特徴パラメータ抽出部12で得られた
未知入力パラメータをj−n〜jフレームの時間
分だけ並べて、入力パラメータの時系列を作り、
時間軸正規化部14において、時系列パラメータ
の時間を(式12)を用いてIフレームに伸縮し、
(式15)に相当するパラメータ系列を得る。類似
度計算部16はこのパラメータ系列と、標準パタ
ーン選択部18で選ばれた標準パターン格納部1
7中の標準パターン〓k,Bkとの間で、(式17)
を用いて類似度Lk(N)を計算する。類似度比較
部20では、Lk(N)と1次記憶19に蓄積され
ているこの時点までの最大類似度値(距離の最小
値Lmin)を比較し、Lk(N)<LminならばLmin
をLk(N)に置きかえてその時のkをk^として1
次記憶19を更新し、Lkn≧Lminならば1次記
憶19の内容は更新しない。
このような一連の操作を、1つの標準パターン
に対してN2(k)−N1(k)+1回ずつ、1フレー
ムの間にK個の標準パターンに対して行なう。そ
して更に、それをj1〜j2フレームの期間に対して
行なう。認識結果は、j2フレームまで到達した時
点におけるk^であり、その時の類似度値はLmin
である。また最大類似度を得た時点のフレームj^
とその時の区間長N^を1次記憶19に蓄積してお
けば、これらを用いて音声区間を結果として求め
ることができる。
以上述べたように、本実施例はj1〜j2の区間を、
音声がその中に十分に入るように広く取つておき
さえすれば、音声区間検出という操作を必要とせ
ずに音声を認識することができる。第1図で示し
た第1の実施例は、解りやすいので、方法の説明
には有用であり、このとおりに実現することはも
ちろん可能である。しかし、リアルタイム化を図
ろうとした場合、計算量が多すぎるという難点が
ある。その原因は、区間候補設定部15で設定し
た全ての区間について、まともに(式17)を計算
している点にある。
次に述べる第2の実施例は、計算量を削減し
た、より実用的な方法である。まず原理的な説明
を行なう。
認識結果を得るには類似度計算式(18)におい
て、Lkを最小とするk=k^を求めればよい。すな
わち、 minLk=min{BkIi=1 (〓k it・〓i} =Bk−max{Ii=1 (〓k it・〓i} (式23) =Bk−max{Ii=1 lk i(N)} (式24) =Bk−maxMk(N) (式25) ここで lk i(N)=(ak it・〓i (式26) は、マツチングルートNに従つて時間伸縮された
後の第iフレームの入力〓iと標準パターンkの
部分類似度である。次に時間伸縮の意味するとこ
ろを考えてみる。時間伸縮をされる前の未知入力
ベクトルを〓とすると、 〓=(〓1,〓2,…〓o,…〓N) (式27) と表わされる。nとiは両方とも整数であり、
(式12)で関係づけられている。したがつて(式
15)のベクトル〓は(式27)の未知入力ベクトル
〓の中から、(式12)で関係づけられるフレーム
をIフレーム分だけ選択して時間的順序を並べた
ものである。マツチングルートに従つて選択する
という操作を便宜上、次式で表わす。
i=〓〓i〓N (式28) そうすると部分類似度(式26)は lk i(N)=(k it・〓〓i〓N (式29) また部分類似度の和Mk(N)は Mk(N)=Ii=1 lk i(N)=Ii=1 (〓k it・〓i〓N (式30) すなわち(式17)は、部分類似度lk i(N)が先
に求められていれば、それらを(式12)の関係に
従つてIフレーム分だけ加えるという操作に置き
かえられる。(式12)はNを与えれば一意にiと
nの関係が求まるので、N1≦N<N2の範囲であ
らかじめ計算して、テーブルなどに蓄積しておく
ことができる。
次に第7図を参照してlk i(N)の求め方につい
て考えてみる。図において、点Pを標準パターン
と未知入力の終端点とし、未知入力の終端点の座
標をN0とする。N1,N2は以前と同様に、音声の
最小長と最大長である。いま、未知入力の始端点
がNの場合の類似度を求めるものとすると、マツ
チングルートは直線PNである。PN上で(式12)
を満足する、任意の一点(n′,i)における部分
類似度li(N)は、入力のn′フレームのベクトルと
標準パターンのiフレーム成分のベクトル〓1
積である。(n′,i)点は、現時点ではPN上に位
置しているが、P点は時間とともにシフトするの
で、n′フレーム以前にはP′N′O上に存在していた
はずである。したがつて、P点の時点で(n′,
i)の部分類似度を求めてそれを蓄積しておき、
P′の時点で使用することができる。(n′,i)は
ΔPN2N1上の任意の点であるから、他の点につい
ても同様のことが言える。このように考えると、
各フレームにおける計算は次のように2つに分け
ることができる。
PNO上での部分類似度を計算して、バツフア
に蓄積する。(積和演算) (式30)によつて計算する部分類似度和に用
いるlk i(N)は、それ以前のフレームで計算し
てバツフアに蓄積されていたものを取り出して
用いる。(加算演算) 第8図はフレームあたりの計算方法をブロツク
図で示したものである。図において、30はlk i
(NO)を計算する積和器であり、標準パターンの
フレーム数(I)だけ用意されている。各積和器
の下部からは第jフレームの入力ベクトル〓
(j)が入力され、左側から標準パターンが入力
される。そして(式29)に相当する計算を行な
い、lk i(NO)を出力する。遅延バツフア31は、
積和器の計算結果を1フレームの期間保存して、
次段へ伝播する。遅延バツフアの数は、1単語あ
たり、第7図のΔPN2N0内の点の数だけ用意され
ている。32は加算器であり、(式30)に相当す
る計算を行なつて類似度和を求める。加算器32
はI個の入力端を持ち、その各々は(式12)で規
定されるマツチングルートに従つて、遅延バツフ
アの出力端に接続されている。33は比較器であ
り、maxMk(N)を求める。34は減算器であ
り、(式25)の計算を行なつて、単語kに対する
最小値を求める。
以上、第2の実施例における方法の説明を行な
つた。第9図は第2の実施例における音声認識装
置の具現化を示す機能ブロツク図である。第9図
において、第1図と同じ番号を有するブロツクは
同一機能を有するので、説明を省略または簡略化
する。
第9図において、AD変換部10、音響分析部
11、特徴パラメータ抽出部12で入力音声をデ
イジタル化してLPC分析を行ない、特徴パラメ
ータ(LPCケプストラム係数)をフレームごと
に求める。1フレームの期間内に以下の操作を行
なう。
標準パターン選択部18は、標準パターン格納
部17に格納されているK個の標準パターンを、
1つずつ選択する。部分類似度計算部21は、入
力特徴パラメータと選択された標準パターンとの
間で(式29)の計算を行ないlk i(NO)を求め、類
似度バツフア22へ蓄積する。類似度バツフア
は、1単語あたり第7図のΔPN2N0内の類似度を
蓄積できる容量を持つており、時間伸縮テーブル
24で指定されたアドレスの内容を読み出す。時
間伸縮テーブルには入力長N(N1≦N≦N2)の
各々に対して(式12)で規定されるnとiの関係
が記述されている。N1,N2は単語ごとに異な
り、区間候補設定部15によつて設定される。類
似度加算部23は、マツチングルートN1〜N2
各々に対して、時間伸縮テーブル24で指定され
たアドレスで読出される類似度バツフア22の出
力を加算して(式30)の計算を行ない、類似度和
Mk(N)を求める。類似度比較部20はMk(N)
と1次記憶19の内容を比較し、Mk(N)の方が
大きい場合のみ、1次記憶の内容をMk(N)に置
きかえる。N=N2まで計算し終えると(式18)
によつてLkを求め、1次記憶19に蓄積されて
いる、それ以前の最小値と比較し、Lkが小さい
場合のみ1次記憶19の内容を更新する。そし
て、標準パターン選択部18は次の単語を選択し
て同様の操作を行なう。さらに全単語を終了する
とフレームを進める。
対象とする全区間(j=j1〜j2)に対してこの
ような操作を行なうと、j=j2フレームを終了し
た時点では、類似度の最小値L^とその時の単語名
k^を認識結果として求めることができる。
第2の実施例では、第1の実施例に比べて、類
似度を求めるための積和演算の回数が非常に少な
くなつている。いま、単語数K=10、標準パター
ン長I=16、平均最小時間長N1=21、平均最大
時間長N2=40、1フレームあたりのパラメータ
数D=6とすると、第1の実施例における積和演
算量は19800回に対し、第2の実施例では960回で
ある。
本実施例の方法を用いて、成人男女計330名が
電話機を通して発生した10数字単語を評価した結
果、平均認識率93.75%を得た。高騒音下の発声
であることを考慮すれば、この値は低いとは言え
ない。また本実施例による認識誤まりの原因を分
析した結果、誤まりのほとんどはある単語の一部
を他の単語として認識してしまうために生ずるこ
とがわかつた。たとえば/Zero/の/ro/の部
分を/go/と誤認識するのがその1例である。
このため、第2候補までを正解とすると97%以上
の認識率を得る。したがつて、他の方法を少し併
用すれば、第1候補としてさらに高い認識率が得
られることが容易に推察される。
発明の効果 以上要するに本発明は、認識すべき音声とその
前後の騒音を含む入力信号区間に、ある時間的な
基準点を設け、基準点を端点としてそれからN1
フレームの区間とN2フレームの区間(N1<N2
の2区間を設定して、これらを音声区間のそれぞ
れ最小値と最大値と考えて、N2−N1+1とおり
の音声区間候補のそれぞれに対して、音声区間長
を一定時間長に伸縮しながら各単語の標準パター
ンとのマツチングを行なつて各単語の類似度また
は距離を求め、この操作を基準点を全入力信号区
間の始めから終りまで走査して行ない、全ての基
準点位置の全ての音声区間候補に対する類似度ま
たは距離を各単語について比較し、類似度を最大
または距離を最小とする単語を認識結果として出
力するもので、音声区間の検出を必要とせず、騒
音と音声が混在した信号から音声に相当する部分
のみを切出して認識でき、従来は複雑なルールを
用いて音声区間の検出を行なつていたが、それで
も騒音レベルが高い場合や非定常的なノイズが混
入する場合には音声区間の検出を誤まり、したが
つて誤認識をしていたが、本発明は複雑な音声区
間検出アルゴリズムを除去することによつて、シ
ステムを簡略化し、また高騒音入力に対して安定
した認識率を確保することができ、その効果は大
きい。
【図面の簡単な説明】
第1図は本発明の第1の実施例における音声認
識方法を具現化する機能ブロツク図、第2図乃至
第4図は同実施例の音声区間長の伸縮を説明する
概念図、第5図は同実施例の音声の標準パターン
作成時の、周囲情報の標準パターン作成法を説明
する概念図、第6図は同実施例の処理手順を説明
するフローチヤート、第7図は本発明の第2の実
施例における音声認識方法の部分類似度の求め方
を示す概念図、第8図は同実施例のフレームあた
りの計算方法を示すブロツク図、第9図は同実施
例における音声認識方法を具現化する機能ブロツ
ク図、第10図は従来の音声認識方法を示す機能
ブロツク図である。 10……AD変換部、11……音響分析部、1
2……特徴パラメータ抽出部、13……フレーム
同期信号発生部、14……時間軸正規化部、15
……区間候補設定部、16……類似度計算部、1
7……標準パターン格納部、18……標準パター
ン選択部、19……1次記憶、20……類似度比
較部。

Claims (1)

  1. 【特許請求の範囲】 1 予め、認識対象とする音声の各々の標準パタ
    ーンを、各々の音声に属するデータと認識対象と
    する全音声のデータおよび全音声のデータの周囲
    情報を用いて作成しておき、一方、認識すべき音
    声とその周囲の情報を含む未知入力内に時間的な
    基準点を設け、基準点を端点としてそれから時間
    長N1およびN2(N1<N2)の2つの区間を設定し
    て、基準点とN1の間の区間を音声区間の最小値
    そして基準点とN2の間の区間を音声区間の最大
    値と考えて、最小音声区間と最大音声区間の間に
    複数の音声区間を仮定し、仮定したそれぞれの音
    声区間長を一定時間長に伸縮しながら前記各音声
    の標準パターンとの照合を行なつて各音声に対す
    る類似度または距離を求め、仮定した全音声区間
    の全標準パターンに対する最大類似度または最小
    距離とその場合の標準パターン名を記憶し、次に
    未知入力内の基準点を単位区間シフトさせて、同
    様にして新たに最大類似度または最小距離を求
    め、記憶されている以前の最大類似度または最小
    距離と新たな最大類似度または最小距離を比較し
    て大きい方の類似度または小さい方の距離とその
    ときの標準パターン名を記憶し、このような操作
    を、基準点を単位時間ずつシフトさせながら、未
    知入力の十分広い区間に対して行ない、基準点が
    最終点に到達したときに記憶されている標準パタ
    ーン名に対応する音声を認識結果とすることを特
    徴とする音声認識方法。 2 予め、音声区間長と、その音声区間長を一定
    時間長に伸縮した時の標準パターンの時間的な位
    置との対応関係を求めておき、一方、類似度また
    は距離の計算においては未知入力と標準パターン
    の部分類似度または距離を先に求め、仮定した音
    声区間長の未知入力と標準パターンの類似度また
    は距離を、前記対応関係を参照しながら部分類似
    度を加算することを特徴とする特許請求の範囲第
    1項記載の音声認識方法。 3 類似度または距離の計算を、事後確率を基本
    とした尺度を用いて行なつたことを特徴とする特
    許請求の範囲第1項記載の音声認識方法。 4 特徴パラメータがLPCケプストラム係数、
    自己相関係数、帯域通過フイルタの出力のいずれ
    かであることを特徴とする特許請求の範囲第1項
    記載の音声認識方法。 5 周囲情報を正確な始端付近l1フレームと正確
    な終端付近l2フレームを組合わせて定まる音声区
    間を用い、全対象単語に属する多くのデータサン
    プルから統計的に作成することを特徴とする特許
    請求の範囲第1項記載の音声認識方法。 6 ある音声nの標準パターンを、nに属するデ
    ータを用いて統計的に求めた標準パターンから周
    囲情報を除去した形で求めることを特徴とする特
    許請求の範囲第1項記載の音声認識方法。 7 類似度を計算する式が1次判別関数であるこ
    とを特徴とする特許請求の範囲第1項記載の音声
    認識方法。
JP60251360A 1985-02-18 1985-11-08 音声認識方法 Granted JPS62111293A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP60251360A JPS62111293A (ja) 1985-11-08 1985-11-08 音声認識方法
US07/628,987 US5241649A (en) 1985-02-18 1990-12-17 Voice recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60251360A JPS62111293A (ja) 1985-11-08 1985-11-08 音声認識方法

Publications (2)

Publication Number Publication Date
JPS62111293A JPS62111293A (ja) 1987-05-22
JPH0451037B2 true JPH0451037B2 (ja) 1992-08-17

Family

ID=17221667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60251360A Granted JPS62111293A (ja) 1985-02-18 1985-11-08 音声認識方法

Country Status (1)

Country Link
JP (1) JPS62111293A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62134699A (ja) * 1985-12-06 1987-06-17 松下電器産業株式会社 音声認識方法
JP2870224B2 (ja) * 1991-06-19 1999-03-17 松下電器産業株式会社 音声認識方法
JP2746803B2 (ja) * 1992-12-11 1998-05-06 松下電器産業株式会社 音声認識方法

Also Published As

Publication number Publication date
JPS62111293A (ja) 1987-05-22

Similar Documents

Publication Publication Date Title
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
US5241649A (en) Voice recognition method
JP2870224B2 (ja) 音声認識方法
US5487129A (en) Speech pattern matching in non-white noise
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
JP2002366192A (ja) 音声認識方法及び音声認識装置
JP3428058B2 (ja) 音声認識装置
JPH0451037B2 (ja)
JP2853418B2 (ja) 音声認識方法
JP2502880B2 (ja) 音声認識方法
JPH06266386A (ja) ワードスポッティング方法
JP2506730B2 (ja) 音声認識方法
JP2705061B2 (ja) 音声認識方法
JP2001083978A (ja) 音声認識装置
JP2870268B2 (ja) 音声認識装置
JPH09305195A (ja) 音声認識装置および音声認識方法
JP2577891B2 (ja) 単語音声予備選択装置
JPH054680B2 (ja)
JP2746803B2 (ja) 音声認識方法
JPH054679B2 (ja)
JP2882088B2 (ja) 音声認識方法
JPH11288297A (ja) 音声認識装置
JPH054678B2 (ja)
JPH01185599A (ja) 音声認識装置
Dong et al. Fast confidence measure algorithm for continuous speech recognition.

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term