JP2574557B2

JP2574557B2 - 音声認識方法

Info

Publication number: JP2574557B2
Application number: JP17090891A
Authority: JP
Inventors: 麻紀宮田; 昌克星見
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1991-07-11
Filing date: 1991-07-11
Publication date: 1997-01-22
Anticipated expiration: 2012-01-22
Also published as: JPH0519786A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、不特定話者を対象とす
る音声認識方法に関するものである。

【０００２】

【従来の技術】従来の不特定話者を対象とする単語音声
認識は、図９に示すようにして行われていた。即ち、入
力音声を音響分析部１４で分析し、あらかじめ多くの話
者が認識対象単語を発声したデータを用いて人間が目視
などで音声区間を切り出して作成した単語標準パタ−ン
１５とのマッチングを単語認識部１６で行い、単語の認
識を行っていた。不特定話者を対象とした音声認識は、
たとえば、”ワードスポッティング手法を用いた不特定
話者・少数語向け音声認識装置”（電子通信情報学会
ＳＰ８８ー１８）に記載された構成が知られている。

【０００３】この方法では、不特定話者用の認識対象単
語辞書を作成するために、実際に３３０名の話者が発声
した音声データを使用している。３３０名が１０数字を
発声した音声データに対して人間がスペクトル波形など
を参考にして目視で音声区間を切出して、分析時間毎に
得られる特徴パラメータ（ＬＰＣケプストラム係数）の
時系列を求め、各単語毎に決められた発声時間になるよ
うに線形に音声データの圧縮を行ない、３３０名分のデ
ータの絶対値によって単語の標準パターンを作成する。
未知入力音声とこのようにして作成した標準パターンと
の照合を統計的距離尺度であるマハラノビス距離を用い
て行なうことによって、不特定話者の音声認識を可能に
している。この方法は、統計的距離尺度を用いて標準パ
ターンとの照合および比較を行なうことによって、不特
定話者のスペクトル変動を統計的に吸収しようという考
え方に基づいている。しかし、統計的距離尺度のための
標準パターン作成には、１つの認識単語に対して数百名
以上の話者が発声したデータが必要である。

【０００４】不特定話者用認識の他の既存の方法とし
て、マルチ標準パターンを用いる方法がある。この方法
は、多くのデータを分析して、それらの中から代表的な
ものを複数個選択し、複数の標準パターンと未知入力の
照合を行なうことによって不特定話者のスペクトル変動
に対処しようとするものである。しかし、この方法にお
いても、複数の標準パターンを作成するためには、数百
名のデータの収集と分析を必要とする。

【０００５】また、不特定話者の単語音声を認識するた
めの別の方法として、図１０に示すような音素認識によ
る方法がある。単語の入力音声を音響分析部１７で分析
して分析時間（分析時間）毎に特徴パラメータを抽出
し、セグメンテーション部１８において入力音声を母音
区間と子音区間に切り分ける。音素標準パタ−ン１９は
あらかじめ多数の話者が発声した音声データを音響分析
して音素毎に作成しておく。

【０００６】次に音素認識部２０において、母音区間は
母音の音素標準パターンと、子音区間は子音の音素標準
パターンとそれぞれ照合して音素の認識を行い、入力音
声に対して音素記号列を求める。求められた音素記号列
を今度は単語認識部２１で音素表記された単語辞書２２
と照合して単語の類似度を算出し、認識を行う。この方
法は上記した方法に比べ、単語辞書を音素表記として登
録できるため、単語標準パターン作成のために膨大なデ
ータの収集・分析する必要がなく、単語辞書の変更が容
易であるという利点があるが、音素を認識の基本単位と
するため音素から音素へ時間的に変化する部分の情報が
利用されず、認識率の点で限界がある。

【０００７】

【発明が解決しようとする課題】このように、最初に述
べた従来の技術による既存の不特定話者用音声認識方法
のような構成では、認識対象音声の標準パターン作成に
データの収集、音声区間の切出しなどの膨大な作業量が
あり、そのために容易に認識対象音声を変更できないと
いう課題を有していた。

【０００８】また、第２に述べた従来の技術では、単語
認識を行う際に音素から音素への遷移部分における時間
的な動きの要素が利用されないため、認識率の点で限界
があるという課題を有していた。

【０００９】本発明は上記課題を解決するもので、１名
から数名の少数話者が発声した認識対象音声を用いて不
特定話者の音声の認識を可能にし、容易に認識対象音声
が変更でき、しかも高い認識率を得ることができる音声
認識方法を提供することを目的とする。

【００１０】

【課題を解決するための手段】この目的を達成するため
に、本発明は、認識対象音声を１名から数名の少数の話
者が発声し、分析時間毎にｍ個（ｍは整数）の特徴パラ
メータを求め、次にあらかじめ多数の話者で作成してお
いたｎ種類（ｎは整数）の標準パターンとマッチングを
行なって分析時間毎にｎ個の類似度を求めて類似度ベク
トルとし、この類似度ベクトルを強調関数に通し分析時
間毎に正規化を行い、このｎ次元の類似度ベクトルで作
成した時系列パターンを辞書として登録しておく過程
と、入力音声を認識させるときに、入力音声を音響分析
し分析時間毎にｍ個の特徴パラメータを求め、次に前記
ｎ種類の標準パターンとマッチングを行ないｎ次元の類
似度ベクトルを求め、辞書登録時と同様の強調関数を通
し分析時間毎に正規化を行い、類似度ベクトルの時系列
を作成し、辞書に登録されている類似度ベクトルの時系
列と動的計画法を用いて照合する過程とを設け、前記照
合する過程において、マッチングの重みを分析時間の平
均類似度の大きさに応じて変え、平均類似度が低い区間
でのマッチングは重みを小さくし、累積類似度への影響
を少なくすることにより認識対象音声を登録した話者お
よびその他の話者の入力音声を認識するように構成され
ている。

【００１１】

【作用】本発明は上記構成により、まず１名から数名の
少数の話者が発声した音声を分析して得られる特徴パラ
メータに対して多数の話者で作成したｎ種類の音素や音
節などの標準パターンとの類似度を単位時間毎（フレー
ム毎）に求める。この類似度は多数の話者で作成した汎
用性のある標準パターンとのマッチング結果なので、ｎ
種類の類似度値の相対関係は個人性の影響を受けにく
い。したがって、単位時間毎の類似度の相対関係をパラ
メータとして使用すれば不特定話者に対して有効であ
る。

【００１２】さらに、認識率を向上させるためには認識
に寄与する部分を強調すればよいため、この類似度ベク
トルを、類似度の大きいところはより大きくし類似度の
小さいところは認識に寄与しないような小さい値にする
強調関数に通す。また音声区間全体に渡って１フレーム
内の類似度の相対関係の特徴を平等にとらえるため、類
似度ベクトルをフレーム毎に正規化する。このようにし
て求まるｎ次元の類似度ベクトルの時系列を辞書として
登録しておく。次に、入力音声を認識させる場合は、辞
書として用意したｎ次元の類似度ベクトルの時系列と、
入力音声から辞書作成時と同様の手続きで得られる類似
度ベクトルの時系列とを照合する。これにより、少数の
話者で作成した辞書で不特定話者の音声を認識すること
ができる。本発明では単位時間毎の類似度として、最も
信頼できるものを１つだけ用いるのではなく、複数の候
補を用いているのでより高い認識率を得ることができ
る。

【００１３】なお、どのような言葉も音素や音節の組合
せで記述できるのでｎ種類の音素や音節の標準パターン
は１度作成しておけば、認識対象音声を変更しても常に
同じものが使用できる。辞書を変更して他の音声を認識
できるようにする（すなわち認識語いの変更）には、少
数の話者が発声するのみで良い。したがって、簡単な手
続きで不特定話者の音声認識が可能であり、さらに、語
いの変更などに対して柔軟性のある認識装置の実現が可
能になる。

【００１４】

【実施例】以下、本発明の実施例について説明するが、
その前に本発明の概略について説明する。

【００１５】人の声は有声音では声帯の振動として発せ
られ、その振動音が喉頭、咽頭、舌、あご、唇など（こ
れらを調音器官と呼ぶ）で形成される声道を通る間に様
々な変調をうけて口から音声として出力される。ア、
イ、ウ、・・・などの音韻性は声道の形状として与えられ
る。無声音は音源が声帯でない場合もあるが、音韻性は
やはり声道の形状で決められる。ところが、声道を形成
する喉、舌、歯、あご、唇などの形状や寸法は人ごとに
微妙に異なっているし、声帯の大きさも性別や年齢で異
なる。このために、人ごとの声の違いが生じることにな
る。つまり、人の違いによる声の差異は調音器官の違い
によるところが大きい。

【００１６】一方、声がア、イ、ウ、・・・など音韻とし
てではなく、単語や文として発せられるとき、声道の形
が時間的に変化する。すなわち、声道の時間的変化によ
って言葉が形成される。たとえば、「赤い」（ａｋａ
ｉ）と発声する場合、声道は、あごが開き舌の後方に狭
めのある／ａ／の発声から喉頭部の閉鎖と急激な開放を
伴う破裂音／ｋ／に移り、さらに再び／ａ／の形状に戻
ってから徐々に舌を唇側に移動し、口を閉じた／ｉ／に
移る。このような声道の変化パターンは発声しようとし
ている言葉によって決るものであり、人の違いによる差
異は少ないと考えられる。このように言葉としての音声
を静的な声道の形状とその時間的な変化に分割して考え
ると、前者のみが話者によって異なり、後者は話者によ
る差は小さいと見なすことが出来る。したがって、静的
な声道の形状の違いに基づく差異を何等かの方法で正規
化できれば、不特定話者の認識が可能となる。

【００１７】ところで、声道の形状の違いは発せられた
音声信号中では周波数スペクトルの違いとして表現され
る。周波数スペクトルを話者間で正規化する最も単純な
方法は、音素や音節をなど短時間の音声標準パターンと
のマッチングを行なって、クラス分けをすることであ
る。不特定話者用として作成された汎用的な標準パター
ンを用いれば話者の違いに大きく左右されない類似度情
報を得ることが出来る。すなわち、スペクトルをパター
ンマッチングによって類似度情報に変換することは、話
者間の差異を軽減することに相当する。一方、声道の変
化パターンは話者による差異が少ないのであるから、１
名から数名の少数話者の情報を用いれば十分である。し
たがって、少数話者の単語や文節などの発声を類似度情
報の時間パターンとして辞書に登録すれば、それは不特
定話者用の辞書である。

【００１８】（実施例１）以下、本発明の第一の実施例
について図１を参照しながら説明する。図１は、第一の
実施例の構成図である。

【００１９】図１において、１は音響分析部、２は特徴
パラメータ抽出部、３は標準パターン格納部、４は類似
度計算部、５は類似度の強調部、６は類似度の正規化
部、７は回帰係数計算部、８は回帰係数の正規化部、９
はパラメータ系列作成部、１０はＤＰ重み計算部、１１
は辞書格納部、１２はパターンマッチング部である。

【００２０】第一の実施例では、フレームの平均類似度
の小さい区間においてＤＰパスの重みを小さくすること
により認識を行う方法について述べる。まず１名の話者
の音声を辞書に登録する場合について最初に説明を行
う。

【００２１】本実施例では、まず最初に１名の発声した
認識対象音声を入力音声として辞書を作成しておき、認
識時にはその辞書を用いて不特定話者の入力音声の認識
を行う。

【００２２】図１において、入力音声が入力されると音
響分析部１で分析時間（フレームと呼ぶ、本実施例では
１フレーム＝１０msec）毎に線形予測係数（ＬＰＣ）を
求める。

【００２３】次に、特徴パラメータ抽出部２で、ＬＰＣ
ケプストラム係数（Ｃ₀〜Ｃ₈まで９個）を求める。

【００２４】標準パターン格納部３には、あらかじめ多
くの話者が発声したデータから作成したｎ種類の音素標
準パターンを格納している。本実施例ではｎ＝２０と
し、

【００２５】

【外１】

【００２６】の２０個の音素標準パターンを使用する。
音素標準パターンは各音素の特徴フレーム（その音素の
特徴をよく表現する時間的な位置）を目視によって正確
に検出し、この特徴フレームを中心とした特徴パラメー
タの時間パターンを使用して作成する。本実施例では時
間パターンとして、特徴フレームの前８フレーム、後３
フレーム、計１２フレーム分のＬＰＣケプストラム係数
（Ｃ₀〜Ｃ₈）によってパラメータ系列を構成する。

【００２７】そして多くの人が発声した多量のデータに
対してパラメータ系列を抽出し、各要素の平均値ベクト
ル

【００２８】

【外２】

【００２９】と要素間の共分散行列

【００３０】

【外３】

【００３１】を求め標準パターンとする。このように本
実施例で用いている音素標準パターンは複数フレームの
特徴パラメータを使用している。すなわちパラメータの
時間的動きを考慮して標準パターンを作成しているのが
特徴である。

【００３２】この２０種類の音素標準パターンと特徴パ
ラメータ抽出部２で得られた特徴パラメータ（ＬＰＣケ
プストラム係数）との類似度を、類似度計算部４でフレ
ーム毎に計算する。すなわち、入力を１フレームずつシ
フトさせながら標準パターンとマッチングを行ない、図
２のような類似度の時系列を求める。本実施例では類似
度計算の距離尺度として共分散行列を共通化したマハラ
ノビス距離を用いる。入力と音素pの標準パターンとの
類似度計算のためのマハラノビス距離ｄ_pは（数１）で
表される。ここで、

【００３３】

【外４】

【００３４】は入力の時間パターンである１２フレーム
分の特徴パラメータによって構成されたベクトルであ
る。

【００３５】

【数１】

【００３６】ここで共分散行列

【００３７】

【外５】

【００３８】を各音素共通とすると、（数２）のように
簡単な式に展開できる。共通化された共分散行列を

【００３９】

【外６】

【００４０】とする。

【００４１】

【数２】

【００４２】本実施例では、計算量の少ない（数２）を
用いる。

【００４３】

【外７】

【００４４】、ｂ_pが音素pに対する標準パターンであ
り、標準パターン格納部３にあらかじめ格納されてい
る。このようにして得られた２０種類の音素標準パタ−
ンに対する類似度を要素とするベクトル（図２の斜線部
分）を、類似度ベクトルと呼ぶことにする。

【００４５】次に類似度の強調部５において、類似度計
算部４で求まった類似度を指数関数で表される強調関数
に通すことによって、値の大きい類似度がより大きくな
るよう変換する。この強調関数Ｇは、入力音声の類似度
ベクトルを

【００４６】

【外８】

【００４７】とすると（数３）で表される。

【００４８】

【数３】

【００４９】α、βは全音素、全フレームに対して共通
な定数である。強調前の類似度ベクトルを

【００５０】

【外９】

【００５１】とすると、強調後の類似度ベクトル

【００５２】

【外１０】

【００５３】は、a_i'=Ｇ(a_i)で表される。これにより全
フレームに対して新たに類似度ベクトルを計算する。

【００５４】なお、本実施例では強調関数を指数関数と
したが、類似度の大きいものを強調するような関数であ
れば指数関数でなくてもかまわない。

【００５５】さらに類似度の正規化部６において、この
ｎ次元の類似度ベクトルをフレーム毎に大きさ１に正規
化し新たな類似度ベクトル

【００５６】

【外１１】

【００５７】を作成する。これを式で表すと（数４）の
ようになる。

【００５８】

【数４】

【００５９】フレーム毎の類似度ベクトルの大きさを１
にすることにより、全音声区間に渡って類似度の相対関
係の特徴を平等に扱うことができるようになる。

【００６０】次に回帰係数計算部７で、正規化された各
類似度の時系列に対して類似度の時間的変化量である回
帰係数（ｎ個）をフレーム毎に求める。回帰係数は、各
音素に対する類似度のそれぞれの時間方向の傾きであ
る。すなわち、たとえばまず音素/a/の標準パターンに
対する類似度の時系列の、あるフレームの前後２フレー
ムの類似度値（計５フレームの類似度値）の最小２乗近
似直線の傾き（類似度の時間的変化量）を求める。これ
を（数５）に示す。

【００６１】

【数５】

【００６２】ここでｘ_t(t=1,2,3,・・・)は、音素/a/に対
する類似度の時系列を表し、Ｋ(/a/)は時刻t+2における
音素/a/の回帰係数である。これを各音素に対する類似
度について２０個求め、さらに１フレーム毎に全フレー
ムに対して求め、回帰係数ベクトルの時系列とする。

【００６３】次に回帰係数の正規化部８で、類似度と同
様に回帰係数ベクトルをフレーム毎に大きさ１に正規化
する。

【００６４】そしてパラメータ系列作成部９で、指数関
数によって強調を施した大きさ１のｎ次元の類似度ベク
トルおよび、そこから求めた大きさ１のｎ次元の回帰係
数ベクトルの時系列の両方をパラメータ系列とする。

【００６５】ここまでの手続きは辞書作成時、認識時と
もに同じである。まず最初に１名の発声した認識対象音
声を入力音声として辞書を作成し、認識時にはその辞書
を用いて不特定話者の入力音声の認識を行う。

【００６６】辞書作成時には、ＤＰ重み計算部１０にお
いて正規化前のフレームの平均類似度の大きさから辞書
軸側のＤＰの重みを計算し、これをパラメータ系列作成
部９で求まったパラメータ系列と共に辞書格納部１１に
登録する。

【００６７】認識時には、パターンマッチング部１２に
おいて、辞書登録時と同様の方法で求めたパラメータ系
列と辞書格納部１１にあるパラメータ系列とを相関余弦
を用いてＤＰマッチングする。ただし辞書格納部１１に
あるＤＰ重みに従ってＤＰマッチングし、もっとも類似
度の大きい辞書項目を認識結果とする。

【００６８】ここで、ＤＰ重み計算部１０およびパター
ンマッチング部１２について詳しく説明する。

【００６９】パターンマッチング部１２では、辞書軸側
を基本軸とした非対称ＤＰを行う。ＤＰマッチングを行
なう漸化式の例を（数６）に示す。ただし、辞書の長さ
をＪフレーム、入力の長さをＩフレーム、第iフレーム
と第jフレームの距離関数をｌ(i,j)、累積類似度をｇ
(i,j)とする。

【００７０】

【数６】

【００７１】これは、図３に示すような非対称ＤＰパス
である。ＤＰの重みw₁、w₂は辞書作成用音声からＤＰ重
み計算部１０において求められ、辞書格納部１１に格納
されている。ＤＰ重み計算部１０についてはあとで説明
する。

【００７２】（数６）における距離関数ｌ(i,j)の距離
尺度として本実施例では余弦相関を用いる。入力音声の
iフレームにおける類似度ベクトルを

【００７３】

【外１２】

【００７４】、回帰係数ベクトルを

【００７５】

【外１３】

【００７６】、辞書のjフレームにおける類似度ベクト
ルを

【００７７】

【外１４】

【００７８】、回帰係数ベクトルを

【００７９】

【外１５】

【００８０】とすると、ｌ(i,j)は（数７）のようにな
る。

【００８１】

【数７】

【００８２】ただし、ｐは類似度と回帰係数の混合比率
である。ｐの値は0.4〜0.6が良い。実際にはすでに類似
度ベクトル、回帰係数ベクトルとも大きさ１に正規化さ
れているため、それぞれ内積を求めｐ:(１−ｐ)の重み
で足し合わせるだけでよい。すなわち（数８）のように
なる。

【００８３】

【数８】

【００８４】ここでＤＰ重み計算部１０において、（数
６）におけるＤＰの重みw₁、w₂を求める方法について説
明する。

【００８５】本発明では類似度ベクトルをフレーム毎に
正規化するため、音素から音素へのわたりの部分におけ
る音素標準パタ−ンへの類似度の相対関係を他の部分と
同等に扱うことができるという利点がある半面、あまり
類似度が小さい区間は信頼性が低いため音声区間全体を
一律の重みでＤＰマッチングすると誤認識の原因とな
る。本実施例では類似度を求めるための音素標準パター
ンは母音区間および子音区間で作成しているため、無音
区間などではどの音素標準パターンに対しても類似度は
小さく雑音の影響も受けやすいため、発声環境によって
類似度の現われ方はまちまちである。そこで類似度の小
さい区間よりも類似度の大きい区間におけるマッチング
スコアの重みを大きくすることによって、信頼性の低い
区間のマッチングスコアの累積類似度に対する影響を少
なくする。

【００８６】まずフレームの平均類似度ｍを辞書音声区
間全体にわたってフレーム毎に求める。辞書音声のjフ
レームの正規化前の類似度ベクトルを

【００８７】

【外１６】

【００８８】とするとjフレームの平均類似度ｍは（数
９）で求まる。

【００８９】

【数９】

【００９０】ＤＰパスの重みw₁、w₂は線形関数、シグモ
イド関数などの関数によって求める。たとえば次のよう
な関数が考えられる。（数６）において辞書音声のjフ
レームの正規化前の平均類似度をｍとすると、ＤＰパス
の重みは数式１０で求められる。

【００９１】

【数１０】

【００９２】ただしS₁、S₂は、フレーム毎の平均類似度
の統計量から決定する。w₂についても辞書音声のj-1フ
レームの正規化前の平均類似度をｍとすると同様の式で
求められる。

【００９３】また、ＤＰパスの重みw₁、w₂をしきい値S
を用いて（数１１）のように離散的に決定することもで
きる。

【００９４】

【数１１】

【００９５】ただし、しきい値Sはフレーム毎の平均類
似度の統計量から決定する。w₂についても辞書音声のj-
1フレームの正規化前の平均類似度をｍとすると同様の
式で求められる。

【００９６】さらに、音声データにラベル付けされてい
る音素の始終端情報を用いて、辞書音声の促音や無声破
裂音の手前の無音区間を検出し、この区間でＤＰパスの
重みを小さくすることもできる。ＤＰパスの重みw₁、w₂
は、（数１２）によって求まる（図４参照）。

【００９７】

【数１２】

【００９８】なお本実施例では、類似度と類似度の時間
変化量を併用する方法について述べたが、類似度の時間
変化量は用いず、強調関数を通しフレーム毎に正規化し
た類似度ベクトルのみを用いてもかまわない。

【００９９】次に、２名以上の発声話者の音声を辞書に
登録する場合について説明を行う。認識方法はすでに述
べた１名の発声から辞書を登録した場合と同様である。
ただしラベルにより無音区間を検出する場合は、どちら
かの話者の音声データのラベルから決定する。まず最初
に複数話者の発声した同一音声をＤＰマッチングにより
時間調整を行って１つの辞書として登録する方法につい
て説明し、次に複数話者の発声した同一音声をマルチ標
準パターンとして辞書に登録する方法について説明す
る。

【０１００】発声話者が２名の場合は、２名の発声した
同一音声を、認識する場合と同様にＤＰマッチングを行
ない時間整合を行なう。時間整合について図５を用いて
説明を行なう。図５は「赤い」(akai)と２名の話者が発
声した例である。話者によって発声の時間長が異なるの
で、２名の話者の同一の認識対象音声間でＤＰマッチン
グを行ない、その結果からＤＰパスを逆トレースし時間
整合を行なう。時間整合することによって、同じ音素の
区間(/a/,/k/,/a/,/i/)が整合するようになる。そして
この時間的に整合したフレーム間で各類似度の平均値を
求め、その時系列を辞書として登録する。すなわち、図
５の斜線で示した話者１の第iフレームと話者２の第jフ
レームが時間的に整合する場合は、話者１の第iフレー
ムの類似度ベクトルを

【０１０１】

【外１７】

【０１０２】、話者２の第jフレームを

【０１０３】

【外１８】

【０１０４】とすると、新しく類似度ベクトル

【０１０５】

【外１９】

【０１０６】を求め、この類似度ベクトル

【０１０７】

【外２０】

【０１０８】を辞書のiフレームの類似度ベクトルとし
て登録する。そして、新しく求まった類似度ベクトルの
時系列に対し、フレーム毎に回帰係数を求め、これを新
しい回帰係数ベクトルの時系列として辞書に登録する。
ＤＰ重みはどちらか一方の話者の平均類似度から求めて
登録する。３名以上の場合は、同じ作業を繰り返し、複
数話者の平均化した類似度ベクトルの時系列を作成し辞
書に登録する。

【０１０９】こうすることによって、辞書の精度を向上
させ、より高い認識率を得ることができる。

【０１１０】次に、複数話者の発声した音声をマルチ標
準パターンとして辞書に登録する方法であるが、認識対
象音声を複数話者が発声した音声の類似度ベクトル時系
列および回帰係数ベクトル時系列をそのまま辞書として
複数個登録する。ＤＰ重みも同様にそのまま辞書として
複数個登録する。この場合は、辞書項目毎に複数個登録
されている標準パターンの中のどの辞書で認識されても
その辞書項目を認識したものとする。

【０１１１】ただし、２名以上の話者の発声によって辞
書を作成する際、辞書パターンの男女差を減らすため、
男女各１名ずつまたは男女ほぼ同数の発声によって辞書
を作成する。

【０１１２】以上、本実施例の構成を用いて２１２単語
を発声した２０名の音声データの認識実験を行った。評
価話者２０名とは異なる男女各１名の２１２単語発声デ
ータを用いて辞書を作成した。

【０１１３】女性話者１名のデータから辞書を作成した
場合、類似度の平均値がしきい値以下のところでＤＰパ
スの重みを小さくしたときは91.34％となり、重みを変
えなかったときの89.09％に比べ2.25％の認識率の向上
が見られた。音声データにラベル付けされている無音区
間に対するＤＰパスの重みを小さくしたときは90.98％
と、重みを変えなかったときの89.09％に比べ1.89％の
認識率の向上が見られた。また男女各１名の計２名の
発声データを用いて時間整合を行って平均化した辞書を
用いた場合、類似度の平均値がしきい値以下のところで
ＤＰパスの重みを小さくしたときは93.88％となり、重
みを変えなかったときの92.58％に比べ1.30％の認識率
の向上が見られた。音声データにラベル付けされている
無音区間に対するＤＰパスの重みを小さくしたときは9
3.83％と、重みを変えなかったときの92.58％に比べ1.2
5％の認識率の向上が見られた。

【０１１４】以上のように、フレーム毎に得られる音素
類似度をパラメータとして単語辞書とのＤＰマッチング
を行う際、フレームの平均類似度の低い区間のＤＰパス
の重みを小さくし、全体の累積類似度に対する無音区間
におけるマッチングスコアの影響を小さくすることによ
り、精度良く音声の認識をすることができる。また、無
音区間のＤＰパスの重みを小さくすることによっても精
度良く認識することができる。この方法は、辞書を作成
する音声の発声速度が遅いほど無音区間が長くなるため
有効である。

【０１１５】（実施例２）第二の実施例では、辞書との
照合においてフレーム間距離を計算する際、類似度が定
常な区間において類似度の回帰係数よりも類似度の重み
を大きくすることにより認識を行う方法について述べ
る。

【０１１６】第二の実施例について図６を参照しながら
説明する。構成および動作は基本的には図１に示した第
一の実施例と同じであるので、同一構成部分には同一番
号を付して重複する部分は省略する。

【０１１７】図６において、１は音響分析部、２は特徴
パラメータ抽出部、３は標準パターン格納部、４は類似
度計算部、５は類似度の強調部、６は類似度の正規化
部、７は回帰係数計算部、８は回帰係数の正規化部、９
はパラメータ系列作成部、１３は混合比率計算部、１１
は辞書格納部、１２はパターンマッチング部である。第
一の実施例と異なるのはＤＰ重み計算部１０の代りに混
合比率計算部１３を設けた点およびパターンマッチング
部１１におけるＤＰの計算方法である。

【０１１８】混合比率計算部１３およびパターンマッチ
ング部１１について詳細な説明を行う。

【０１１９】本実施例では類似度ベクトルおよび回帰係
数ベクトルをフレーム毎に大きさ１に正規化するため、
音素から音素へのわたりの部分の特徴を他の区間と同等
の重みで扱うことができるようになる半面、母音の定常
部など回帰係数の絶対値が小さい区間でフレーム毎に大
きさ１に正規化すると、ばらつきが大きくなるため同じ
母音区間で同じような回帰係数の相対関係が得られると
は限らない。そこで、本実施例ではＤＰマッチングをす
る際、フレーム間距離を求めるのに、母音の定常区間で
は類似度ベクトル間の距離を回帰係数ベクトル間の距離
よりも大きな重みで足し合わせる。

【０１２０】ＤＰマッチングを行なう漸化式は第一の実
施例と同様に（数６）で表される。ただしＤＰ重みはw₁
=1、w₂=1である。また、（数６）において距離関数ｌ
(i,j)の距離尺度は第一の実施例と同様に（数８）で表
される。（数８）において、ｐは類似度と回帰係数の混
合比率であるが、このｐの値を可変としフレームの平均
類似度時間変化量の大きさに応じてｐの値を連続的に求
める。

【０１２１】まずフレームの類似度時間変化量ｎを辞書
音声区間全体にわたってフレーム毎に求める。辞書音声
のjフレームの正規化前の回帰係数ベクトルを

【０１２２】

【外２１】

【０１２３】とすると、jフレームの平均回帰係数ｎは
（数１３）で求まる。

【０１２４】

【数１３】

【０１２５】混合比率ｐの値は線形関数、シグモイド関
数などの関数によって求める。たとえば次のような関数
が考えられる。数式８において、辞書音声のjフレーム
の正規化前の回帰係数の平均値をxとすると、混合比率
ｐは（数１４）で求まる。

【０１２６】

【数１４】

【０１２７】ただし、K₁、K₂はフレーム毎の平均回帰係
数の統計量から決定する。また、混合比率ｐをしきい値
Kを用いて（数１５）のように離散的に決定することも
できる。

【０１２８】

【数１５】

【０１２９】ただし、しきい値Kはフレーム毎の平均回
帰係数の統計量から決定する。さらに、音声データにラ
ベル付けされている音素の始終端情報を用いて、辞書音
声の母音の定常区間ではｐ=0.8、非定常区間ではｐ=0.5
とすることもできる。すなわち、混合比率ｐは（数１
６）によって求まる。

【０１３０】

【数１６】

【０１３１】本実施例では、母音の定常区間を音素/a/,
/o/,/u/,/i/,/e/の始終端フレームから４フレーム以内
の区間とした（図７の斜線部分）。

【０１３２】なお、第一の実施例ですでに述べた方法と
同様にして、２名以上の少数話者の発声した同一音声か
ら作成し登録しても良い。混合比率ｐは第一の実施例で
ＤＰ重みを登録したときと同様にして登録する。

【０１３３】以上、第二の実施例を用いて２１２単語を
発声した２０名の音声データの認識実験を行った。評価
話者２０名とは異なる男女各１名の２１２単語発声デー
タを用いて辞書を作成した。評価話者の２０名と、辞書
作成話者２名は第一の実施例と同じ話者セットである。

【０１３４】女性話者１名のデータから辞書を作成した
場合、類似度の回帰係数の平均絶対値がしきい値以下の
ところで混合比率ｐを0.8、それ以外のところで0.5とし
たとき90.91％となり、一律に混合比率を0.5としたとき
の89.09％に比べ、1.82％の認識率の向上が見られた。
音声データのラベル情報を用いて母音定常区間に対する
混合比率ｐを0.8、非定常区間に対する混合比率を0.5と
したときは91.29％と、一律に混合比率を0.5としたとき
の89.09％に比べ、2.20％の認識率の向上が見られた。

【０１３５】また男女各１名の計２名の発声データを用
いて時間整合を行って平均化した辞書を用いた場合、類
似度の回帰係数の平均絶対値がしきい値以下のところで
混合比率ｐを0.8、それ以外のところで0.5としたとき9
3.56％となり、一律に混合比率を0.5としたときの92.58
％に比べ、0.98％の認識率の向上が見られた。音声デー
タのラベル情報を用いて母音定常区間に対する混合比率
ｐを0.8、非定常区間に対する混合比率を0.5としたとき
は93.78％と、一律に混合比率を0.5としたときの92.58
％に比べ、1.20％の認識率の向上が見られた。

【０１３６】以上のように、フレーム毎に得られる音素
類似度をパラメータとして単語辞書とのＤＰマッチング
を行う際、フレームとフレームの距離を計算するとき
に、母音定常区間で類似度ベクトルの距離を回帰係数ベ
クトルの距離より大きい重みで足し合わせることによ
り、精度良く音声の認識をすることができる。また、ラ
ベル情報による母音定常区間ではなく、回帰係数の絶対
値の平均値の低い区間で類似度ベクトルの距離を回帰係
数ベクトルの距離より大きい重みで足し合わせることに
よっても、ある程度精度良く認識することができる。こ
の方法は、辞書を作成する音声の発声速度が遅いほど母
音の定常区間が長くなるため有効である。

【０１３７】（実施例３）第三の実施例では、辞書との
照合において、フレームの平均類似度の小さい区間にお
いてＤＰパスの重みを小さくし、かつフレーム間距離を
計算する際に類似度が定常な区間において類似度の回帰
係数よりも類似度の重みを大きくすることにより認識を
行う方法について述べる。

【０１３８】第三の実施例について図８を参照しながら
説明する。第三の実施例では、構成および動作は図１お
よび図６に示した第一の実施例および第二の実施例を組
合せたものである。

【０１３９】ＤＰマッチングを行う漸化式は第一の実施
例と同じく（数６）で表され、そのときの距離関数ｌ
(i,j)は（数８）で表される。（数６）においてＤＰパ
スの重みであるw₁、w₂は、（数１０）、（数１１）、ま
たは（数１２）で表される。（数８）において混合比率
ｐは、（数１４）、（数１５）、または（数１６）で表
される。

【０１４０】なお、第一の実施例ですでに述べた方法と
同様にして、２名以上の少数話者の発声した同一音声か
ら作成し登録しても良い。

【０１４１】以上、第三の実施例を用いて２１２単語を
発声した２０名の音声データの認識実験を行った。評価
話者２０名とは異なる男女各１名の２１２単語発声デー
タを用いて辞書を作成した。評価話者の２０名と、辞書
作成話者２名は第一の実施例と同じ話者セットである。

【０１４２】女性話者１名のデータから辞書を作成した
場合、無音区間に対するＤＰパスの1フレームあたりの
重みを0.5、無音以外の区間に対する重みを1とし、母音
定常区間に対する類似度と回帰係数の距離の混合比率を
0.8、非定常区間に対する混合比率を0.5としたときの認
識率は92.42％となり、ＤＰパスの重みも類似度と回帰
係数の混合比率も全区間で一定にしたときの認識率89.0
9％より、3.33％の向上が見られた。

【０１４３】また男女各１名の計２名の発声データを用
いて時間整合を行って平均化した辞書を用いた場合、無
音区間に対するＤＰパスの1フレームあたりの重みを0.
5、無音以外の区間に対する重みを1とし、母音定常区間
に対する類似度と回帰係数の距離の混合比率を0.8、非
定常区間に対する混合比率を0.5としたときの認識率は9
4.40％となり、ＤＰパスの重みも類似度と回帰係数の混
合比率も全区間で一定にしたときの認識率92.58％よ
り、1.82％の向上が見られた。

【０１４４】以上のように、フレーム毎に得られる音素
類似度をパラメータとして単語辞書とのＤＰマッチング
を行う際、フレームの平均類似度の低い無音区間のＤＰ
パスの重みを小さくし全体の累積類似度に対するマッチ
ングスコアの影響を小さくする方法と、フレームとフレ
ームの距離を計算するときに、類似度の定常な区間で類
似度ベクトルの距離を回帰係数ベクトルの距離より大き
い重みで足し合わせる方法を併用することにより、さら
に精度良く音声の認識をすることができる。

【０１４５】

【発明の効果】以上のように本発明は、入力音声の汎用
標準パターンに対する類似度または類似度とその回帰係
数の時系列を特徴パラメータとして認識を行う音声認識
方法において、単語辞書とのＤＰマッチングを行う際
に、辞書音声のフレームの平均類似度の小さい区間また
は無音区間でのＤＰパスの重みを小さくするようにした
ので、１名から数名の少数の話者が発声した認識対象音
声を辞書として登録するだけで、精度良く不特定話者の
音声の認識を行うことができる。

【０１４６】また、単語辞書とのＤＰマッチングを行う
際に、類似度の平均時間変化量の小さな区間または母音
の定常区間で類似度ベクトル間距離を類似度の回帰係数
ベクトル間距離より大きな重みで足し合わせるようにし
たので、精度良く不特定話者の音声の認識を行うことが
できる。

【０１４７】さらにまた、上記２つの方法を併用するこ
とにより、さらに精度良く不特定話者の音声の認識を行
うことができる。

【０１４８】これらの方法は、いずれも１名の話者の発
声を辞書とすることにより精度の良い不特定話者の音声
認識が可能であるが、男女同数の少数話者の発声した音
声データから辞書を作成することにより、さらに高い認
識率を得ることができる。

【０１４９】このように本発明は、不特定話者用音声認
識装置の性能向上およびいろいろな用途へ適用するため
の柔軟性の向上に対して極めて大きく貢献する。

【図面の簡単な説明】

【図１】本発明の第一の実施例における音声認識方法の
ブロック結線図

【図２】本発明の第一の実施例における類似度ベクトル
の時系列の概念図

【図３】本発明の第一の実施例におけるＤＰパスの概念
図

【図４】本発明の第一の実施例における無音区間におけ
るＤＰパスの概念図

【図５】本発明の第一の実施例における２名の話者の登
録音声に対する時間整合の概念図

【図６】本発明の第二の実施例における音声認識方法の
ブロック結線図

【図７】本発明の第二の実施例における母音定常部と非
定常部における混合比率の概念図

【図８】本発明の第三の実施例における音声認識方法の
ブロック結線図

【図９】従来の音声認識方法を説明するブロック結線図

【図１０】従来の音声認識方法を説明するブロック結線
図

【符号の説明】

１音響分析部２特徴パラメータ抽出部３標準パターン格納部４類似度計算部５類似度の強調部６類似度の正規化部７回帰係数計算部８回帰係数の正規化部９パラメータ系列作成部１０ＤＰ重み計算部１１辞書格納部１２パターンマッチング部１３混合比率計算部１４音響分析部１５単語標準パターン１６単語認識部１７音響分析部１８セグメンテーション部１９音素標準パタ−ン２０音素認識部２１単語認識部２２単語辞書

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平１−140200（ＪＰ，Ａ) 特開昭63−158596（ＪＰ，Ａ) 星見、宮田、平岡、二矢田、”小数話者の発声で単語音声の動的特徴をモデル化した不特定話者音声認識法”、電子情報通信学会技術研究報告ＳＰ91−20．ＰＰ．17−24

Claims

(57)【特許請求の範囲】

【請求項１】認識対象音声を１名から数名の少数の話
者が発声し、分析時間毎にｍ個（ｍは整数）の特徴パラ
メータを求め、次にあらかじめ多数の話者で作成してお
いたｎ種類（ｎは整数）の標準パターンとマッチングを
行なって分析時間毎にｎ個の類似度を求めて類似度ベク
トルとし、この類似度ベクトルを強調関数に通し分析時
間毎に正規化を行い、このｎ次元の類似度ベクトルで作
成した時系列パターンを辞書として登録しておく過程
と、入力音声を認識させるときに、入力音声を音響分析
し分析時間毎にｍ個の特徴パラメータを求め、次に前記
ｎ種類の標準パターンとマッチングを行ないｎ次元の類
似度ベクトルを求め、辞書登録時と同様の強調関数を通
し分析時間毎に正規化を行い、類似度ベクトルの時系列
を作成し、辞書に登録されている類似度ベクトルの時系
列と動的計画法を用いて照合する過程とを有し、前記照
合する過程において、マッチングの重みを辞書に登録さ
れている分析時間毎の類似度ベクトルの平均類似度の大
きさに応じて変え、辞書に登録されている類似度ベクト
ルの平均類似度が低い区間でのマッチングは重みを小さ
くし、累積類似度への影響を少なくすることにより認識
対象音声を登録した話者およびその他の話者の入力音声
を認識することを特徴とする音声認識方法。
【請求項２】強調関数を通したｎ次元の各類似度ベク
トルの時系列それぞれの次元に対して類似度の時間変化
量を分析時間毎にｎ個求め、分析時間毎に正規化し、前
記類似度の時間変化量のｎ次元ベクトルと分析時間毎に
正規化した類似度のｎ次元ベクトルを併用して時系列パ
ターンを作成することを特徴とする請求項１記載の音声
認識方法。
【請求項３】動的計画法を用いて辞書と照合する際
に、辞書の無音区間におけるマッチングの重みを小さく
し、累積類似度への影響を少なくすることを特徴とする
請求項１または２記載の音声認識方法。
【請求項４】認識対象音声を１名から数名の少数の話
者が発声し、分析時間毎にｍ個の特徴パラメータを求め
る過程と、次にあらかじめ多数の話者で作成しておいた
ｎ種類の標準パターンとマッチングを行なって分析時間
毎にｎ個の類似度を求めて類似度ベクトルとし、この類
似度ベクトルを強調関数に通したあと、ｎ次元の各類似
度ベクトルの時系列それぞれの次元に対して類似度の時
間変化量を分析時間毎にｎ個求め、分析時間毎に正規化
し、この類似度の時間変化量のｎ次元ベクトルと分析時
間毎に正規化した類似度のｎ次元ベクトルを併用して時
系列パターンを作成し、これを辞書として登録しておく
過程と、入力音声を認識させるときに、入力音声を音響
分析し分析時間毎にｍ個の特徴パラメータを求め、次に
前記ｎ種類の標準パターンとマッチングを行ないｎ次元
の類似度ベクトルを求め、辞書登録時と同様の強調関数
を通し、それぞれの次元に対して類似度の時間変化量を
分析時間毎にｎ個求め、分析時間毎に正規化し、この類
似度の時間変化量のｎ次元ベクトルと分析時間毎に正規
化した類似度のｎ次元ベクトルを併用して時系列パター
ンを作成し、辞書に登録されている時系列パターンと動
的計画法を用いて照合する過程を有し、前記照合する過
程において、分析時間距離Ｌを類似度の時間変化量ベク
トル間の距離Ｌkと類似度ベクトル間の距離Ｌsの重み付
き和Ｌ＝ｐＬs＋（１−ｐ）Ｌkとし、分析時間毎に辞書
に登録されている類似度ベクトルの各類似度の時間変化
量の平均の大きさに応じて混合比率ｐの値を変え、類似
度が定常な区間すなわち分析時間の平均類似度時間変化
量が小さい区間でｐの値を大きくすることによって、認
識対象音声を登録した話者およびその他の話者の入力音
声を認識することを特徴とする音声認識方法。
【請求項５】動的計画法を用いて辞書と照合する際
に、辞書の母音の定常区間では、類似度の時間変化量ベ
クトル間の距離Ｌkと類似度ベクトル間の距離Ｌsの混合
比率ｐの値をそれ以外の区間より大きくすることを特徴
とする請求項４記載の音声認識方法。
【請求項６】請求項２記載の音声認識方法と、請求項
４記載の音声認識方法を組み合せることを特徴とする音
声認識方法。
【請求項７】請求項２記載の音声認識方法と、請求項
５記載の音声認識方法を組み合せることを特徴とする音
声認識方法。
【請求項８】動的計画法を用いて入力音声と辞書とを
照合する際に、辞書の無音区間におけるマッチングの重
みを小さくし、累積類似度への影響を少なくすることを
特徴とする請求項４または５記載の音声認識方法。
【請求項９】同一の認識対象音声を２名以上の話者が
発声し、それぞれ分析して得られるｎ次元類似度ベクト
ルまたはｎ次元類似度ベクトルとｎ次元時間変化量ベク
トルの時系列に対して、ＤＰマッチングによって話者間
の時間整合を行ない、時間的に整合した分析時間間で各
類似度の平均値を求め、その平均値の時系列パターンを
辞書に登録することを特徴とする請求項１乃至８のいず
れかに記載の音声認識方法。
【請求項１０】同一の認識対象音声を２名以上の話者
が発声し、それぞれ分析してｎ次元類似度ベクトルまた
はｎ次元類似度ベクトルとｎ次元時間変化量ベクトルの
時系列を複数個求め、これらを辞書として登録し、マル
チ標準パターンとして使用することを特徴とする請求項
１乃至８のいずれかに記載の音声認識方法。
【請求項１１】２名以上の話者の発声によって辞書を
作成する際に、男女各１名ずつまたは男女ほぼ同数の発
声によって辞書を作成することを特徴とする請求項９ま
たは１０記載の音声認識方法。