JPH07146699A

JPH07146699A - 音声認識方法

Info

Publication number: JPH07146699A
Application number: JP5295137A
Authority: JP
Inventors: Maki Yamada; 麻紀山田; Masakatsu Hoshimi; 昌克星見; Taisuke Watanabe; 泰助渡辺; Katsuyuki Futayada; 勝行二矢田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1993-11-25
Filing date: 1993-11-25
Publication date: 1995-06-06
Anticipated expiration: 2015-12-04
Also published as: US5692097A; JP3114468B2

Abstract

(57)【要約】【目的】入力音声と単語標準パターンの分析時間（フ
レーム）毎のフレーム間類似度を用いて単語を認識する
不特定話者音声認識方法において高い認識率を得ること
を目的とする。【構成】フレーム間類似度計算部１２で得られた入力
と単語標準パターンのフレーム間類似度値から事後確率
化部１３で一定値を引くという簡単な近似により事後確
率化してＤＰマッチングを行ない、単語類似度計算部１
５でその累積類似度を単語類似度とし、最も類似度の大
きい単語を認識結果とする。フレーム間類似度はｎ個の
音素類似度およびそのｎ個の回帰係数およびパワー差分
を特徴パラメータとして求める。さらにＤＰマッチング
において、入力音声の各フレームの最大音素類似度から
非音声区間でのフレーム間類似度が低くなるような重み
づけを行なう。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、人間の声を機械に認
識させる音声認識方法に関するものである。

【０００２】

【従来の技術】従来、不特定話者の音声認識を行なう手
法の１つとして特開平５−８８６９２号公報に記載され
たような、少数話者の発声データにより作成した音声片
標準パターンを接続して単語を認識する手法がある。

【０００３】図８は、この手法による音声認識を具現化
するための機能ブロック図である。図８において、１は
音響分析部、２は特徴パラメータ抽出部、３は音素類似
度計算部、４は音素標準パターン格納部、５は正規化類
似度ベクトル計算部、６は回帰係数計算部、７は正規化
回帰係数ベクトル計算部、８はパラメータ系列作成部、
９は音声標準パターン格納部、１０は音声片系列単語辞
書格納部、１１は単語標準パターン格納部、１２はフレ
ーム間類似度計算部、１４はＤＰマッチング部、２０は
正規化単語類似度計算部である。

【０００４】図８において、入力音声が入力されると音
響分析部１で分析時間（フレームと呼ぶ、本例では１フ
レーム＝10msec）毎に線形予測（ＬＰＣ）分析を行な
う。次に、特徴パラメータ抽出部２で、ＬＰＣケプスト
ラム係数（本例ではＣ0〜Ｃ8まで９個）および音声のパ
ワーの時間方向の差分値Ｖ0 を求める。音素標準パター
ン格納部４には、あらかじめ多くの話者が発声したデー
タから作成した20種類の音素標準パターンを格納してい
る。音素標準パタ−ンとしては/a/,/o/,/u/,/i/,/e/,/j
/,/w/,/m/,/n/,

【０００５】

【外１】

【０００６】,/b/,/d/,/r/,/z/,/h/,/s/,/c/,/p/,/t/,/
k/の20個のパターンを用意する。音素標準パタ−ンの作
成方法は以下の通りである。

【０００７】音素標準パターンは各音素の特徴部（その
音素の特徴をよく表現する時間的な位置）を目視によっ
て正確に検出し、この特徴フレームを中心とした特徴パ
ラメータの時間パターンを使用して作成する。具体的に
は、特徴フレームの前８フレーム、後３フレーム、計１
２フレーム分のＬＰＣケプストラム係数(Ｃ0〜Ｃ8)およ
びパワー差分(Ｖ0)を１次元にしたパラメータ系列

【０００８】

【外２】

【０００９】を使用する。（数１）にこれを示す。

【００１０】

【数１】

【００１１】ここで

【００１２】

【外３】

【００１３】は特徴部の第ｋフレームにおけるｉ番目の
ＬＰＣケプストラム係数,

【００１４】

【外４】

【００１５】は特徴部の第ｋフレームにおけるｉ番目の
パワー差分である。パワーそのものではなく差分値を用
いるのは発声の大きさの影響を避けるためである。多く
のデータに対してパラメータ系列（数１）を抽出し、各
要素を平均化した値を要素として持つ平均値ベクトル

【００１６】

【外５】

【００１７】と要素間の共分散行列

【００１８】

【外６】

【００１９】を求め音素標準パターンとする。このよう
に音素標準パターンは複数フレームの特徴パラメータを
使用している。すなわちパラメータの時間的動きを考慮
して標準パターンを作成しているのが特徴である。

【００２０】次にこの20種類の音素標準パターンと特徴
抽出部で得られた特徴パラメータ（ＬＰＣケプストラム
係数およびパワー差分）の時系列との類似度をそれぞれ
フレーム毎に音素類似度計算部３で求める。入力と音素
pの標準パターンとの類似度は（数２）で表されるマハ
ラノビス距離ｄpを用いる。

【００２１】

【数２】

【００２２】ここで共分散行列（外６）を各音素共通と
すると（数３）のように簡単な式に展開できる。共通化
された共分散行列を

【００２３】

【外７】

【００２４】とする。

【００２５】

【数３】

【００２６】ここでは計算量の少ない（数３）を用いて
音素類似度を求める。

【００２７】

【外８】

【００２８】、ｂpが音素pに対する標準パターンであり
音素標準パターン格納部４にあらかじめ格納されてい
る。

【００２９】（数３）により20種類の音素に対してフレ
ーム毎に類似度を計算すると図９に示すような類似度ベ
クトルの時系列が得られる。図９は「赤い」（ａｋａ
ｉ）と発声した場合の例で、横軸が時間方向で縦軸が各
音素に対する類似度を示す。図９において、入力を１フ
レームずつシフトさせながら/a/の音素標準パターンと
マッチングを行なって得られた類似度の時系列が40,46,
68,60,42,1,4,6,20,40,65,81,64,49,15,10,14,16であ
る。このように音素類似度を20個の音素標準パターンす
べてに対して同様に求める。あるフレームにおいて20個
の音素類似度を要素とする20次元のベクトルを類似度ベ
クトルとする。図９の斜線で示した部分が１つの類似度
ベクトルである。

【００３０】正規化類似度ベクトル計算部５では、フレ
ーム毎に得られた20次元の類似度ベクトルの各要素をこ
の類似度ベクトルの大きさで割って、類似度ベクトルの
大きさを１に正規化する。

【００３１】回帰係数計算部６ではこの正規化類似度ベ
クトルの時系列に対して各音素の類似度の時間的変化量
である回帰係数をフレーム毎に求める。回帰係数は、フ
レームの前後２フレームの類似度値（計５フレームの類
似度値）の最小２乗近似直線の傾き（類似度の時間的変
化量）を使用する。図10は入力を１フレームずつシフト
させながら音素/a/の音素標準パターンとマッチングを
行なって得られた類似度を、フレーム毎にプロットした
ものである。図10において横軸がフレーム、縦軸が音素
類似度である。第iフレームを中心に第i-2から第i+2フ
レームの最小二乗直線の傾きを求め、これを第iフレー
ムにおける類似度の時間変化量（回帰係数）とする。回
帰係数を求める式を（数４）に示す。（数４）において
ｘt(t=1,2,3,…)は音素/a/に対する類似度の時系列を表
し、Ｋは時刻t+2における音素/a/の回帰係数である。

【００３２】

【数４】

【００３３】この回帰係数を音素毎に全フレームに対し
て求める。あるフレームにおいて20個の音素に対する回
帰係数を要素とする20次元のベクトルを回帰係数ベクト
ルとする。

【００３４】正規化回帰係数ベクトル計算部７において
類似度ベクトルと同様に回帰係数ベクトルをフレーム毎
に大きさを１に正規化する。

【００３５】パラメータ系列作成部８で、このようにし
て求めた正規化類似度ベクトルおよび正規化回帰係数ベ
クトルの時系列を入力音声のパラメータとする。

【００３６】音声片標準パターン格納部９には、定めら
れた音声単位（音声片）、ここでは母音の時間的な中心
から子音の時間的中心までのＶＣパターン、子音の時間
的中心から母音の時間的中心までのＣＶパターン、母音
中心から母音中心までのＶＶパターンごとの正規化類似
度ベクトルおよび正規化回帰係数ベクトルの時系列が登
録されている。音声片標準パターンの作成方法は以下の
通りである。

【００３７】音韻環境を考慮した単語セットをあらかじ
め少数の話者が発声して分析し、前記の20個の音素標準
パターンとフレーム毎に音素類似度計算を行い、その結
果得られる正規化類似度ベクトルおよび正規化回帰係数
ベクトルの時系列から音声片を切り出し、複数個得られ
た同一の音声片を互いにＤＰマッチングすることにより
時間的整合を図って平均化し音声片標準パターンとす
る。複数のパターンを平均化することによって、音声片
辞書の精度を向上させ、より高い認識率を得ることがで
きる。音素の中心フレームを境界にすると子音から母
音、母音から子音に音声が遷移する情報を有効に取り入
れることができるので高い認識率を得ることができる。
図11の(1)に「朝日」（「ａｓａｈｉ」）、(2)に「酒」
（「ｓａｋｅ」）、(3)に「パーク」（「ｐａａｋ
ｕ」）の場合のＣＶとＶＣとＶＶの切り出し方の例を示
す。図に示すように「ａｓａｈｉ」の場合は、「<A」、
「AS」,「SA」,「AH」,「HI」と「I>」（ただし、記号"
<",">"はそれぞれ語頭、語尾を表し、語中のパターンと
は区別する。）の６個の音声片から構成されている。
「ｓａｋｅ」の場合は、「<SA」,「AK」,「KE」,「E>」
の４個の音声片から構成されている。「ｐａａｋｕ」の
場合は、「<PA」,「AA」,「AK」,「KU」,「U>」の５個
の音声片から構成されている。

【００３８】認識対象となる単語集団の音声片記号列を
あらかじめ音声片系列単語辞書格納部１０に記述してお
き、これにしたがって音声片標準パターン格納部９から
各辞書項目を作成するのに必要なＣＶ,ＶＣ,ＶＶパター
ンを取り出して接続を行ない、単語標準パターンを作成
し単語標準パターン格納部１１に登録する。たとえば
「赤い」（「ａｋａｉ」）という辞書項目を作成するに
は「<A」,「AK」,「KA」,「AI」,「I>」の５つのＣＶ,
ＶＣパターンを接続して作成する。このように任意の単
語の単語標準パターンが音声片の記号列から作成できる
ため、認識対象語彙の変更が容易である。

【００３９】フレーム間類似度計算部１２において、パ
ラメータ系列作成部で得られた入力音声のパラメータ時
系列と単語標準パターン格納部にあるパラメータ時系列
とのフレーム間類似度を求め、ＤＰマッチング部１４に
おいて連続ＤＰマッチングを行ないフレーム毎に各単語
の類似度を求め、最も類似度の大きくなるフレームで最
も類似度の大きい単語を認識結果とする。

【００４０】フレーム間類似度の距離尺度は、ユークリ
ッド距離、重み付ユークリッド距離、相関余弦距離など
が使用できる。ここでは相関余弦を用いた場合について
説明を行なう。入力音声のjフレームにおける正規化類
似度ベクトルを、（数５）

【００４１】

【数５】

【００４２】辞書のiフレームにおける正規化類似度ベ
クトルを（数６）

【００４３】

【数６】

【００４４】入力音声のjフレームにおける正規化回帰
係数ベクトルを（数７）

【００４５】

【数７】

【００４６】辞書のiフレームにおける正規化回帰係数
ベクトルを（数８）

【００４７】

【数８】

【００４８】とすると、相関距離を用いた場合のフレー
ム間類似度ｌ(i,j)は、（数９）のようになる。

【００４９】

【数９】

【００５０】ｗ1,ｗ2は類似度とその回帰係数の混合の
重みであり、ｗ1は0.4から0.6がよい。（数９）におい
て右辺の第１、２項の分母はそれぞれ１となるため、類
似度ベクトルと回帰係数ベクトルのそれぞれの相関余弦
をとることは正規化類似度ベクトルと正規化回帰係数ベ
クトルのそれぞれの内積をとることと等価である。した
がって（数９）は（数１０）のようになる。

【００５１】

【数１０】

【００５２】この距離尺度を用いて連続ＤＰマッチング
を行なう。ここではＤＰパスは図12に示した非対称ＤＰ
パスを用いる。ＤＰマッチングを行なう漸化式を（数１
１）に示す。ここで、辞書の長さをIフレーム、入力の
長さをJフレーム、第iフレームと第jフレームの累積類
似度をｇ(i,j)とする。

【００５３】

【数１１】

【００５４】正規化単語類似度計算部２０において、最
終累積類似度からその単語に対する単語類似度を求め
る。単語標準パターンの終端フレームIにおける最終累
積類似度ｇ(I,j)が時刻jを終端とするその単語の最終累
積類似度である。入力音声の終端が検出された後に、累
積類似度ｇ(I,j)が最大となるようなフレーム位置jを求
め(j=J)、そのときの最終累積類似度をその単語標準パ
ターンのフレーム長Ｉで割ったものを正規化単語類似度
Ｓとする。これを式で表すと（数１２）となる。

【００５５】

【数１２】

【００５６】これを認識対象単語すべてについてそれぞ
れ求め、最も大きな値をもつ単語を認識結果として出力
する。

【００５７】

【発明が解決しようとする課題】しかし、以上のような
方法では発声された音声の始終端位置がわかっている場
合には高い認識性能を示すが、音声の始終端位置がわか
らず音声を含む区間中から連続ＤＰ法により単語をスポ
ッティングする場合には認識性能が悪くなるとう欠点が
あった。これはＤＰの距離尺度として相関余弦を用いる
ため、ノイズ区間においてもフレーム毎に類似度ベクト
ルの大きさを１に正規化してしまい、ノイズであるにも
かかわらず不正解単語とある程度高いスコアでマッチン
グしてしまうことに起因している。また、入力音声を類
似度パラメータに変換してから単語マッチングするた
め、単語マッチングの時点ではパワー差分などのパワー
情報が失われてしまうことも、スポッティング性能が劣
化する原因の１つである。

【００５８】本発明は上記従来の問題点を解決するもの
で、スポッティングにおいても高い認識性能をもつ音声
認識方法を提供することを目的とする。

【００５９】

【課題を解決するための手段】上記目的を達成するため
の本発明の考え方は次のようなものである。

【００６０】第１に、スポッティングでは、長い単語中
の一部に他の短い単語に似た部分区間があった場合、そ
の部分が短い単語に誤認識してしまうことが多く起こ
る。これを解決するために、入力と単語標準パターンの
フレーム間類似度値から一定値を引くという簡単な線形
近似によって類似度値の事後確率化を行ない、これを累
積したものをフレーム長で正規化せずにそのままその単
語の類似度とし、最も高い類似度を出した単語を認識結
果とする。事後確率化された類似度値は正解の単語標準
パターンとマッチングした場合には正の値を、それ以外
の場合には負の値をもつため、正しくマッチングしてい
る限り累積すればするほど値は大きくなり長い単語が有
利になる。

【００６１】第２に従来の認識法では単語のＤＰマッチ
ングの距離尺度として、類似度ベクトルおよびその回帰
係数ベクトルのそれぞれの相関余弦の和のみを用いてお
り、音声のパワー情報は用いていなかった。そこで認識
性能向上のためにこれにパワー差分を導入する。

【００６２】第３に非音声区間で単語標準パターンと高
いスコアでマッチングしないようにするために、非音声
区間において入力音声と単語標準パターンのフレーム間
類似度を相対的に低くするような重みづけをおこなう。
この重みは、あらかじめ不特定話者用に作成したｎ種類
の音素標準パターンと入力音声とのマッチングにより得
られるｎ個の類似度値の中で最大となる音素の類似度値
や、あらかじめ用意したノイズ標準パターンと入力音声
とのマッチングにより得られる類似度値から求める。

【００６３】第４に上記第１、第２、第３の方法を併用
することにより、さらなる認識性能の向上を図る。

【００６４】

【作用】第１に入力と単語標準パターンのフレーム間類
似度値から一定値を引くという簡単な線形近似によって
類似度値の事後確率化を行ないこれを累積したものをそ
のままその単語の類似度とし最も高い類似度を出した単
語を認識結果とすることの作用は次の通りである。事後
確率化された類似度値は正解の単語標準パターンとマッ
チングした場合には正の値を、それ以外の場合には負の
値をもつため、正しくマッチングしている限り累積すれ
ばするほど値は大きくなり長い単語が有利になる。した
がって長い単語中の一部に他の短い単語に似た部分区間
があった場合でも、その部分が短い単語に誤認識してし
まうことがなくなる。また間違った部分とマッチングし
た場合には累積値はだんだん小さくなるため不必要に長
い単語の類似度が高くなることはない。

【００６５】第２にパワー差分を導入することによる作
用は次の通りである。非音声区間では音声のパワーは非
常に小さく、音声区間では非音声区間よりも音声のパワ
ーは大きくなる。とくに母音、鼻音ではパワーが大き
く、無声破裂音(/p/,/t/,/k/)や無声破擦音(/c/)では破
裂の直前でパワーが非常に小さくなり破裂時点で急激に
大きくなるなど音声のパワーが音声の識別に役立つこと
はよく知られている。しかしパワーそのものの値は発声
された声の大きさの影響を受けるため音声のパワーの時
間差分を特徴パラメータの一つとして導入する。音声の
始端ではパワーが大きくなり終端ではパワーが小さくな
るため、この情報を用いることにより単語識別性能、特
にスポッティングの性能を上げることができる。

【００６６】第３に非音声区間において入力音声と単語
標準パターンのフレーム間の類似度を相対的に低くする
ような重みづけをおこなうことにより、非音声区間で単
語標準パターンと高いスコアでマッチングしなくなるた
め、発声音声区間外へマッチングするような誤認識が減
り、スポッティング性能が向上する。

【００６７】第４にこれらを併用することによりさらに
認識性能、特にスポッティング性能が向上する。

【００６８】

【実施例】以下本発明の第１の実施例について、図面を
参照しながら説明する。図１は本実施例の構成を表す図
である。図８に示した従来例と同一構成部分には同一番
号を付して詳細な説明を省略する。従来例と異なるの
は、フレーム間類似度計算部１２で得られた類似度値を
事後確率化部１３で事後確率化し、これを距離尺度とし
て連続ＤＰマッチングを行ない、単語類似度計算部１５
において累積類似度をそのまま単語類似度とするところ
である。

【００６９】フレーム間類似度計算部１２において（数
１０）により単語標準パターンと入力音声のフレーム間
類似度ｌ(i,j)を求めるところまでは従来例と同じであ
る。異なるのはＤＰの距離尺度として、フレーム間類似
度ｌ(i,j)を事後確率化した尤度ｌp(i,j)を用いること
である。

【００７０】ここでいう事後確率は、相関余弦の和によ
って求められる入力音声と単語標準パターンのフレーム
間類似度値Ｘが得られたときにそれが最適パス上にある
確率Ｐ（Ｋ｜Ｘ）である。Ｐ（Ｋ｜Ｘ）はベイズの公式
により（数１３）で表される。

【００７１】

【数１３】

【００７２】Ｐ（Ｘ｜Ｋ）は正しいパス上での類似度値
Ｘの出現確率、Ｐ（Ｘ）はすべての格子点についての類
似度値Ｘの出現確率である。Ｐ（Ｋ）は正しいパスの存
在する確率で定数と考えてよい。（数１３）の両辺の対
数を取ると、（数１４）となる。

【００７３】

【数１４】

【００７４】ここで右辺第１項

【００７５】

【数１５】

【００７６】について考える。Ｐ（Ｘ｜Ｋ）とＰ（Ｘ）
の値が等しくなるような類似度値Ｘが得られたときには
（数１５）の値は０となる。またＰ（Ｘ｜Ｋ）の方がＰ
（Ｘ）よりも大きいような類似度値Ｘが得られたとき、
すなわち正解パス上にある確率の方が高いとき（数１
５）の値は正となり、逆にＰ（Ｘ｜Ｋ）よりＰ（Ｘ）の
方が大きいような類似度値Ｘが得られたとき、すなわち
正解パス上にある確率の方が小さいとき（数１５）の値
は負となる。したがって（数１５）の値は０を中心に正
負に振れ、入力と単語標準パターンが正しくマッチング
しているかしていないかの尺度になる。また（数１４）
の右辺第２項は正しい格子点の存在する確率で定数であ
り、入力と単語標準パターンとのマッチングの度合いと
は関係のない尺度である。そこで単語類似度Ｓを、最適
パス上の格子点における（数１５）の和と定義する。

【００７７】

【数１６】

【００７８】最適パスは（数１７）を距離尺度とし（数
１８）を漸化式とする連続ＤＰマッチングにより求ま
る。

【００７９】

【数１７】

【００８０】

【数１８】

【００８１】（数１６）は最終累積類似度ｇ(I,j)が最
大となるようなフレーム位置j(j=J)での最終累積類似度
ｇ(I,J)と等しくなる。これを式で表すと（数１９）と
なる。

【００８２】

【数１９】

【００８３】この単語類似度Ｓを認識対象単語すべてに
ついてそれぞれ求め、最も大きな値をもつ単語を認識結
果として出力する。

【００８４】（数１７）は正解の単語標準パターンとマ
ッチングした場合には正の値を、それ以外の場合には負
の値をもつため、正しくマッチングしている限り累積す
ればするほど値は大きくなり長い単語が有利になる。し
たがって長い単語中の一部に他の短い単語に似た部分区
間があった場合でも、その部分が短い単語に誤認識して
しまうことがなくなる。また間違った部分とマッチング
した場合には累積値はだんだん小さくなるため不必要に
長い単語の類似度が高くなることはない。

【００８５】以下、入力音声と単語標準パターンのフレ
ーム間類似度（相関余弦の和）から（数１７）の値を求
める方法を述べる。（数１７）におけるＰ（Ｘ｜Ｋ）お
よびＰ（Ｘ）は頻度分布（確率密度関数）として実際の
音声データから統計的に求めることができる。電子協10
0地名50名分の音声データと単語標準パターンとのＤＰ
マッチングを行ない、Ｐ（Ｘ｜Ｋ）およびＰ（Ｘ）の頻
度分布（類似度値Ｘの出現頻度）を求め示したのが図2
である。図２において、(a)は正解単語の正解パス上で
のフレーム間類似度値の出現頻度分布でありＰ（Ｘ｜
Ｋ）の確率密度関数を表している。(b)は音声＋ノイズ
区間における全音声片標準パターンとのフレーム間類似
度値の出現頻度分布でありＰ（Ｘ）の確率密度関数を表
している。横軸は類似度値Ｘ、縦軸は出現頻度である。
確率密度にするため(a),(b)の面積は１に正規化してあ
る。(c)は各類似度値毎に（数１５）の値を求めてプロ
ットしたものである。(c)のグラフを見てわかるとおり
（数１５）の関数はほぼ直線になる。そこでこれを（数
２０）のような線形式に近似することができる。ここで
α,βは定数である。

【００８６】

【数２０】

【００８７】（数２０）を（数１６）に代入すると単語
類似度Ｓは（数２１）となる。

【００８８】

【数２１】

【００８９】このようにして単語類似度を求めた場合、
単語間の大小関係は定数βに関係なくなる。したがって
（数２０）は（数２２）と、（数２１）は（数２３）と
してもよい。定数αの値は実験により求める。

【００９０】

【数２２】

【００９１】

【数２３】

【００９２】ここでＸは類似度ベクトルとその回帰係数
ベクトルの相関余弦の和であるのでＸは（数２４）であ
る。ただし入力音声のjフレーム、辞書のiフレームにお
ける正規化類似度ベクトルをそれぞれ（数５）,（数
６）と、入力音声のjフレーム、辞書のiフレームにおけ
る正規化回帰係数ベクトルをそれぞれ（数７）,（数
８）とする。ｗ1,ｗ2は類似度とその回帰係数の混合の
重みである。

【００９３】

【数２４】

【００９４】（数２４）を（数２２）に代入するとｌp
(i,j)は（数２５）のようになる。

【００９５】

【数２５】

【００９６】（数２５）を（数２３）に代入すると単語
類似度Ｓは（数２６）のようになる。

【００９７】

【数２６】

【００９８】なお、辞書軸基本としたＤＰパスを用いる
場合には、最適パスは辞書側のすべてのフレームを１回
づつ通るので（数２６）は（数２７）のようにも計算で
きるため、単語のＤＰマッチングを終了した後に定数Ｉ
αを加算するだけでよく、計算量の削減ができる。

【００９９】

【数２７】

【０１００】以上のように、本実施例によれば入力音声
と単語標準パターンのフレーム間類似度値を事後確率化
したものは一定値を引くという簡単な線形近似で求める
ことができる。事後確率化された類似度値は正解の単語
標準パターンとマッチングした場合には正の値を、それ
以外の場合には負の値をもつため、正しくマッチングし
ている限り累積すればするほど値は大きくなり長い単語
が有利になる。したがって長い単語中の一部に他の短い
単語に似た部分区間があった場合でも、その部分が短い
単語に誤認識してしまうことがなくなる。また間違った
部分とマッチングした場合には累積値はだんだん小さく
なるため不必要に長い単語の類似度が高くなることはな
い。よって、以上のような方法によりスポッティング性
能が向上する。

【０１０１】本実施例を用いて50名の話者が発声した電
子協100地名単語音声データ（8kHzサンプリング、デー
タショウノイズ付加）の単語スポッティング認識実験を
行なった。その結果従来例では87.94％、本実施例では9
2.28％と3％以上もの認識率の改善が見られ本手法の有
効性が示された。

【０１０２】以下本発明の第２の実施例について図面を
参照しながら説明する。図３は音声パワーの時間差分を
用いた音声認識方法を具現化するための機能ブロック図
である。本方法でフレーム間類似度を求めた後は、従来
例と同様にＤＰマッチングを行なってもよいが、本実施
例では第１の実施例と同様にフレーム間類似度から一定
値を引いて事後確率化を行なってからＤＰマッチングを
行なうこととする。そこで、図３においては、図１に示
した第１の実施例と同一構成部分には同一番号を付して
詳細な説明を省略する。

【０１０３】第１の実施例と異なるのは、特徴パラメー
タ抽出部２で得られた入力音声のパワー差分をＶ0差分
格納部１６に格納しパラメータ系列作成部８で認識のパ
ラメータとして用いるようにすることである。音声片標
準パターン格納部９にも同様に、正規化類似度ベクトル
および正規化回帰係数ベクトルのそれぞれの平均値ベク
トルの時系列パターンと、Ｖ0差分の平均値、分散の時
系列パターンを格納しておく。Ｖ0差分の平均値、分散
は、音声片標準パターン作成用音声データから複数個得
られた同一の音声片を互いにＤＰマッチングすることに
より時間的整合を図って、対応するフレームの集合に対
してそれぞれ求める。フレーム間類似度計算部１２では
フレーム間類似度を、正規化類似度ベクトル間の類似度
と正規化回帰係数ベクトル間の類似度とパワー差分間の
類似度の重み付き和として求める。すなわち入力音声の
第jフレームと単語標準パターンの第iフレームのパワー
差分の類似度をdv(i,j)とすると、フレーム間類似度ｌv
(i,j)は（数２８）となる。

【０１０４】

【数２８】

【０１０５】パワー差分の距離尺度としては、ユークリ
ッド距離、重み付けユークリッド距離、マハラノビス距
離などを用いることができる。本実施例では事後確率化
されたマハラノビス距離を用いる。入力音声の第jフレ
ームのパワー差分値をｖj、単語標準パターンの第iフレ
ームのパワー差分の平均値、分散をそれぞれμi,σi、
また事後確率化のために入力として考えられ得るすべて
の音声について求めたパワー差分の平均値、分散をそれ
ぞれμx,σxとすると、入力音声の第jフレームと単語標
準パターンの第iフレームのパワー差分の類似度dv(i,j)
は（数２９）で表される。

【０１０６】

【数２９】

【０１０７】これを第１の実施例と同様にして事後確率
化部１３においてフレーム間類似度ｌv(i,j)を事後確率
化し、ｌvp(i,j)とする。

【０１０８】

【数３０】

【０１０９】（数３０）において定数αの値は実験によ
り求める。ＤＰマッチング部１４において連続ＤＰマッ
チングを行ない単語類似度計算部１５において単語類似
度を求め認識結果を出力する方法は第１の実施例と同じ
である。ＤＰの距離尺度としては（数３０）を用い、Ｄ
Ｐの漸化式は（数３１）を用いる。

【０１１０】

【数３１】

【０１１１】以上のように、入力音声と単語標準パター
ンのマッチングにパワー差分を導入することにより単語
のマッチング精度が高くなり、単語識別性能、特にスポ
ッティングの性能を上げることができる。

【０１１２】本実施例を用いて50名の話者が発声した電
子協100地名単語音声データ（8kHzサンプリング、デー
タショウノイズ付加）の単語スポッティング認識実験を
行なった。その結果本実施例では93.88％と、第１の実
施例に比べさらに1.6％程度の認識率の向上が見られ本
手法の有効性が示された。

【０１１３】以下本発明の第３の実施例について図面を
参照しながら説明する。図４は最大音素類似度により入
力音声と単語標準パターンのフレーム間類似度に重みを
付ける音声認識方法を具現化するための機能ブロック図
である。図１に示した第１の実施例と同一構成部分には
同一番号を付して詳細な説明を省略する。従来例と異な
るのは、最大類似度による重み計算部１７において、音
素類似度計算部３で得られた音素類似度値から入力音声
の各フレームに対しそのフレーム内で最大となる音素類
似度値によって重みを計算し、この重みをＤＰマッチン
グ部において事後確率化されたフレーム間類似度にかけ
たものを距離尺度として連続ＤＰマッチングを行なうこ
とである。ただし音素類似度計算部３で求める類似度値
は異なるフレームにおける類似度値が比較できるよう事
後確率化されている必要がある。

【０１１４】ノイズ区間では、どの音素にも類似しない
ため音素類似度はどれも小さくなる。そこで類似度ベク
トルを大きさ１に正規化する前の類似度値そのものを用
いて入力音声に重みを付ける。本実施例ではフレーム毎
に最大音素類似度を求め時間方向にスムージングし、こ
の値が大きいフレームは音声区間であるとの考えに基づ
き大きな重みを、この値が小さいフレームは非音声区間
であるとの考えに基づき小さな重みをつける。入力音声
の第jフレームにおけるp番目の音素に対する音素類似度
をa(p,j)とするとき第jフレームの最大音素類似度S(j)
は（数３２）で定義する。ただしn=3とする。

【０１１５】

【数３２】

【０１１６】S(j)は音声に似ているかどうかの尺度で、
値が大きいほど音声に近いことを表す。これを用いて第
jフレームの入力音声に対する重みq(j)を（数３３）の
ように定義する。重みq(j)は最大で1、最小でmの値をと
る。

【０１１７】

【数３３】

【０１１８】ただし、パラメータm,γの値は実験により
求める。これを事後確率化部１３によって第１の実施例
と同様にして事後確率化されたフレーム間類似度ｌp(i,
j)にかけたものを新たな距離尺度として連続ＤＰマッチ
ングを行なう。すなわちＤＰの距離尺度は（数３４）の
ように表される。定数αの値は実験により求める。

【０１１９】

【数３４】

【０１２０】ＤＰの漸化式は（数３５）のようになる。

【０１２１】

【数３５】

【０１２２】単語類似度計算部１５において単語類似度
を求め認識結果を出力する方法は第１の実施例と同じで
ある。

【０１２３】以上のようにして最大音素類似度の値を用
いて入力音声と単語標準パターンのフレーム間類似度に
重みを付けることによりノイズ区間と単語標準パターン
のフレーム間類似度は小さくなるため、ノイズ区間には
み出してスポッティングする誤認識が少なくなり、スポ
ッティング性能の向上を図ることができる。本方法では
音素に対する類似度により重みを求めるため、認識時の
ノイズのスペクトル特性の変化に影響を受けにくいとい
うメリットがある。

【０１２４】本実施例を用いて50名の話者が発声した電
子協100地名単語音声データ（8kHzサンプリング、デー
タショウノイズ付加）の単語スポッティング認識実験を
行なった。その結果本実施例では93.74％と、第１の実
施例に比べさらに1.5％程度の認識率の向上が見られ本
手法の有効性が示された。

【０１２５】なお、フレーム間類似度にかける重みは入
力音声のパワーから求めてもよい。このとき全域パワ
ー、高域パワー、中域パワー、低域パワーなどの組合わ
せにより求めることもできる。

【０１２６】以下本発明の第４の実施例について図面を
参照しながら説明する。図５はノイズ類似度により入力
音声と単語標準パターンのフレーム間類似度に重みを付
ける音声認識方法を具現化するための機能ブロック図で
ある。図１に示した第１の実施例と同一構成部分には同
一番号を付して詳細な説明を省略する。従来例と異なる
のは、ノイズ標準パターン格納部１９に格納されている
音素標準パタ−ンと同様の形式のノイズ標準パターンと
入力音声との類似度を、ノイズ類似度計算部１８におい
て音素類似度計算部３と同様の計算式で求め、これを用
いて入力音声の正規化類似度ベクトルを計算することで
ある。

【０１２７】ノイズ標準パターンは多くのノイズ区間に
おける音素標準パタ−ンと同じパラメータ（ケプストラ
ム係数Ｃ0〜Ｃ8、パワー差分Ｖ0）時系列で作成し、あ
らかじめノイズ標準パターン格納部１９に格納してお
く。ノイズ標準パターンに対する類似度は音素類似度と
同様に（数３）により求める。ノイズ類似度はノイズ区
間で大きく音声区間では小さくなる。これを利用して正
規化類似度ベクトルの計算は次のように行なう。まず入
力音声の各フレームに対し20個の音素類似度と1個のノ
イズ類似度を求め、フレーム毎にノイズ類似度を含めた
21次元の類似度ベクトルを大きさ１に正規化し、そのう
ちの音素類似度20個を認識に用いることにする。すなわ
ち、入力音声のp番目の音素に対する音素類似度をｘp(p
=1,…,20)、ノイズ標準パターンに対するノイズ類似度
をｘnとすると、正規化後の類似度ベクトルは（数３
６）となる

【０１２８】

【数３６】

【０１２９】このとき正規化類似度ベクトルの大きさは
１にはらない。ノイズ区間においてはノイズ類似度が大
きい値を持つため、正規化後の類似度ベクトルの大きさ
は小さくなり、音声区間においてはノイズ類似度は十分
小さい値を持つため、正規化後の類似度ベクトルの大き
さはほぼ１になる。したがって以上のようにして正規化
類似度ベクトルを求めることは、入力音声の非音声区間
におけるフレーム間類似度に小さな重みをかけることと
同様の作用をする。こうして求めた正規化類似度ベクト
ルから時間方向の回帰係数ベクトルを求めて正規化しＤ
Ｐマッチングに用いる以降の方法は第１の実施例と同じ
である。

【０１３０】以上のようにしてノイズ類似度を用いて入
力音声の類似度ベクトルを正規化することにより、入力
のノイズ区間においては単語標準パターンとのフレーム
間類似度が小さくなるため、ノイズ区間にはみ出してス
ポッティングする誤認識が少なくなり、スポッティング
性能の向上を図ることができる。本方法ではＤＰマッチ
ング時の計算量の増加がないというメリットがある。

【０１３１】本実施例を用いて50名の話者が発声した電
子協100地名単語音声データ（8kHzサンプリング、デー
タショウノイズ付加）の単語スポッティング認識実験を
行なった。その結果本実施例では93.48％と、第１の実
施例に比べさらに1.2％程度の認識率の向上が見られ本
手法の有効性が示された。

【０１３２】以下本発明の第５の実施例について図面を
参照しながら説明する。図６は第１、２、３の実施例を
併用した音声認識方法を具現化するための機能ブロック
図である。図１、図３、図４に示した実施例と同一構成
部分には同一番号を付して詳細な説明を省略する。ＤＰ
マッチング部における連続ＤＰの距離尺度は（数３７）
のようになり、ＤＰの漸化式は（数３８）のようにな
る。定数αの値は実験により求める。

【０１３３】

【数３７】

【０１３４】

【数３８】

【０１３５】そして単語類似度計算部１５において第１
の実施例と同様に（数１９）により単語類似度Ｓを求
め、最も大きな値をもつ単語を認識結果として出力す
る。

【０１３６】以上のように本発明の複数の実施例を組合
わせることにより、音声区間の一部分と不正解単語がマ
ッチングしてしまう誤認識、音声区間外へ不正解単語が
マッチングしてしまう誤認識ともに減り、スポッティン
グ性能をさらに向上させることができる。

【０１３７】本実施例を用いて50名の話者が発声した電
子協100地名単語音声データ（8kHzサンプリング、デー
タショウノイズ付加）の単語スポッティング認識実験を
行なった。その結果本実施例では94.94％と非常に高い
認識率が得られ本手法の有効性が示された。

【０１３８】なお、以上５つの実施例ではいずれもＤＰ
パスは図12に示したＤＰパスを用いたが、フレーム間類
似度を事後確率化して累積しフレーム数で正規化せずに
単語類似度とする場合には、辞書軸を基本軸にする必要
はなくパスの重みも自由に決めてよい。第５の実施例を
用いて図７に示すようなＤＰパスを用いて50名の話者が
発声した電子協100地名単語音声データを評価したとこ
ろ95.22％の認識率が得られた。

【０１３９】

【発明の効果】本発明は、次のような効果を奏する。第
１に、入力と単語標準パターンのフレーム間類似度値か
ら一定値を引くという簡単な線形近似によって類似度値
の事後確率化を行ない、これを累積したものをそのまま
その単語の類似度として認識を行なうことにより、長い
単語中の一部に他の短い単語に似た部分区間があった場
合でも単語としての類似度は小さくなるため、その部分
が短い単語に誤認識してしまうことがなくなる。第２
に、単語マッチングにパワー情報を導入することによ
り、単語のマッチング精度が高くなり、単語識別性能が
向上する。第３に、非音声区間において入力音声と単語
標準パターンのフレーム間類似度を相対的に低くするよ
うな重みづけをおこなうことにより、発声音声外の区間
へマッチングするような誤認識が削減できる。したがっ
て、上記第１乃至第３のそれぞれにおいて、スポッティ
ング性能が向上する。

【０１４０】以上により、本発明は高い認識率を得るこ
とができるものであるが、これら第１乃至第３の方法を
併用することにより、単語識別性能、特にスポッティン
グ性能がさらに向上し、より高い認識率を得ることがで
きる。

【図面の簡単な説明】

【図１】本発明の第１実施例における音声認識方法を具
現化する装置の機能ブロック図

【図２】同実施例におけるＰ（Ｘ｜Ｋ）およびＰ（Ｘ）
の頻度分布図

【図３】本発明の第２実施例における音声認識方法を具
現化する装置の機能ブロック図

【図４】本発明の第３実施例における音声認識方法を具
現化する装置の機能ブロック図

【図５】本発明の第４実施例における音声認識方法を具
現化する装置の機能ブロック図

【図６】本発明の第５実施例における音声認識方法を具
現化する装置の機能ブロック図

【図７】ＤＰパスの例を示す概念図

【図８】従来の音声認識方法を具現化する装置の機能ブ
ロック図

【図９】類似度ベクトルの時系列の説明図

【図10】回帰係数の説明図

【図11】ＣＶ、ＶＣパターンの説明図

【図12】ＤＰパスの例を示す概念図

【符号の説明】

１音響分析部２特徴パラメータ抽出部３類似度計算部４音素標準パターン格納部５正規化類似度ベクトル計算部６回帰係数計算部７正規化回帰係数ベクトル計算部８パラメータ系列作成部９音声片標準パターン格納部１０音声片系列単語辞書格納部１１単語標準パターン格納部１２フレーム間類似度計算部１３事後確率化部１４ＤＰマッチング部１５単語類似度計算部１６Ｖ0差分格納部１７最大類似度による重み計算部１８ノイズ類似度計算部１９ノイズ標準パターン格納部２０正規化単語類似度計算部

───────────────────────────────────────────────────── フロントページの続き (72)発明者二矢田勝行神奈川県川崎市多摩区東三田３丁目10番１号松下技研株式会社内

Claims

【特許請求の範囲】

【請求項１】入力音声から得られる特徴パラメータと
単語標準パターンとの分析時間（フレーム）毎のフレー
ム間類似度を用いて各単語の類似度を求め、類似度が最
大となる単語を認識結果とする音声認識方法において、
入力音声と単語標準パターンのフレーム間類似度値から
一定値を引くことによって類似度値の事後確率化を行な
い、これをＤＰ法で累積したものをその単語の類似度と
して用いることを特徴とする音声認識方法。
【請求項２】認識対象音声を少数の話者が発声し、分
析時間（フレーム）毎に得られるｍ個の特徴パラメータ
とあらかじめ多数の話者で作成したｎ種類の音素標準パ
ターンとのマッチングを行ない、ｎ個の音素類似度とそ
の時間変化量である回帰係数をフレーム毎に求め、この
類似度ベクトルと回帰係数ベクトルおよび音声パワーの
時間差分で作成した時系列パターンを単語標準パターン
としてあらかじめ登録しておき、認識させたい入力音声
も分析時間毎に得られるｍ個の特徴パラメータと前記ｎ
種類の音素標準パターンとのマッチングを行ない、ｎ次
元の類似度ベクトルと回帰係数ベクトルおよび音声パワ
ーの時間差分の時系列を求め、これと単語標準パターン
とを照合することによって各単語の類似度を求め、類似
度が最大となる単語を認識結果とすることを特徴とする
音声認識方法。
【請求項３】あらかじめ音韻環境を考慮した単語セッ
トを少数の話者が発声し、分析時間毎に得られるｍ個の
特徴パラメータとｎ種類の音素標準パターンとのマッチ
ングを行なって求めたｎ次元の類似度ベクトルと回帰係
数ベクトルおよび音声パワーの時間差分で作成した時系
列パターンから音声片を切り出して音声片標準パターン
として登録しておき、これを接続することにより単語標
準パターンを作成することを特徴とする請求項２記載の
音声認識方法。
【請求項４】認識対象音声を少数の話者が発声し、分
析時間（フレーム）毎に得られるｍ個の特徴パラメータ
とあらかじめ多数の話者で作成したｎ種類の音素標準パ
ターンとのマッチングを行ない、ｎ個の音素類似度とそ
の時間変化量である回帰係数をフレーム毎に求め、この
類似度ベクトルと回帰係数ベクトルで作成した時系列パ
ターンを単語標準パターンとしてあらかじめ登録してお
き、認識させたい入力音声も分析時間毎に得られるｍ個
の特徴パラメータと前記ｎ種類の音素標準パターンとの
マッチングを行ない、ｎ次元の類似度ベクトルと回帰係
数ベクトルの時系列を求め、これと単語標準パターンと
のフレーム間類似度から各単語の類似度を求め、類似度
が最大となる単語を認識結果とする音声認識方法におい
て、前記入力音声中の非音声区間と単語標準パターンの
フレーム間類似度よりも、音声区間と単語標準パターン
のフレーム間類似度を高くするように、フレーム間類似
度に重みをつけることを特徴とする音声認識方法。
【請求項５】あらかじめ音韻環境を考慮した単語セッ
トを少数の話者が発声し、分析時間毎に得られるｍ個の
特徴パラメータとｎ種類の音素標準パターンとのマッチ
ングを行なって求めたｎ次元の類似度ベクトルと回帰係
数ベクトルで作成した時系列パターンから音声片を切り
出して音声片標準パターンとして登録しておき、これを
接続することにより単語標準パターンを作成することを
特徴とする請求項４記載の音声認識方法。
【請求項６】あらかじめ不特定話者用に作成したｎ種
類の音素標準パターンとフレーム毎にマッチングを行な
って得られるｎ個の類似度値の中で最大となる音素の類
似度値によって、入力音声と単語標準パターンのフレー
ム間類似度に重みを付けることを特徴とする請求項４記
載の音声認識方法。
【請求項７】あらかじめ音素標準パターンと同形式の
ノイズ標準パターンをノイズデータから作成しておき、
これと入力音声をフレーム毎に照合することによりノイ
ズ類似度を求め、この値を用いて入力音声と単語標準パ
ターンのフレーム間類似度に重みを付けることを特徴と
する請求項４記載の音声認識方法。
【請求項８】請求項１、２、４記載の音声認識方法の
いずれか２つ又は全てを併用することを特徴とする音声
認識方法。