JP2943445B2

JP2943445B2 - 音声認識方法

Info

Publication number: JP2943445B2
Application number: JP3234388A
Authority: JP
Inventors: 昌克星見; 麻紀宮田; 省二平岡; 勝行二矢田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1991-01-25
Filing date: 1991-09-13
Publication date: 1999-08-30
Anticipated expiration: 2014-08-30
Also published as: JPH0588692A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識方法に関する
ものである。

【０００２】

【従来の技術】従来から、不特定話者の音声認識を行な
うための音声標準パターンの作成には、予め多くの話者
が認識対象単語を発声したデータを用い、人間が目視な
どで音声区間を切出して、それらを統計的に処理してい
た。不特定話者を対象とした音声認識は、たとえば、”
ワードスポッティング手法を用いた不特定話者・少数語
向け音声認識装置”（電子通信情報学会ＳＰ８８ー１
８）に記載された構成が知られている。

【０００３】この方法では、不特定話者用の認識対象単
語辞書を作成するために、実際に３３０名の話者が発声
した音声データを使用している。３３０名が１０数字を
発声した音声データに対して人間がスペクトル波形など
を参考にして目視で音声区間を切出して、分析時間毎に
得られる特徴パラメータ（ＬＰＣケプストラム係数）の
時系列を求め、各単語毎に決められた発声時間になるよ
うに線形に音声データの圧縮を行ない３３０名分のデー
タの絶対値によって単語の標準パターンを作成する。未
知入力音声とこのようにして作成した標準パターンとの
照合を統計的距離尺度であるマハラノビス距離を用いて
行なうことによって、不特定話者の音声認識を可能にし
ている。

【０００４】この方法は、統計的距離尺度を用いて標準
パターンとの照合、比較を行なうことによって、不特定
話者のスペクトル変動を統計的に吸収しようという考え
方に基づいている。しかし、統計的距離尺度のための標
準パターン作成には、１つの認識単語に対して数百名以
上の話者が発声したデータが必要である。

【０００５】不特定話者用認識の他の既存の方法とし
て、マルチ標準パターンを用いる方法がある。この方法
は、多くのデータを分析して、それらの中から代表的な
ものを複数個選択し、複数の標準パターンと未知入力の
照合を行なうことによって不特定話者のスペクトル変動
に対処しようとするものである。しかし、この方法にお
いても、複数の標準パターンを作成するためには、数百
名のデータの収集と分析を必要とする。

【０００６】

【発明が解決しようとする課題】このように、既存の方
法のような構成では、認識対象音声の標準パターン作成
には、データの収集、音声区間の切出しなどの膨大な作
業量があり、そのために容易に認識対象音声を変更でき
ないという課題を有していた。

【０００７】本発明は上記課題を解決するもので、１名
から数名の少数話者が発声した、音韻環境を考慮した単
語セットから音声片のパターンを切出して、それを接続
することによって認識対象音声の標準パターンを作成
し、これを用いて不特定話者の音声の認識を可能にする
方法に関するもので、容易に認識対象音声を変更出来る
音声認識方法を提供することを目的とするものである。

【０００８】

【課題を解決するための手段】上記目的を達成するため
の本発明の考え方は次のようなものである。

【０００９】人の声は有声音では声帯の振動として発せ
られ、その振動音が喉頭、咽頭、舌、あご、唇など（こ
れらを調音器官と呼ぶ）で形成される声道を通る間に様
々な変調をうけて口から音声として出力される。ア、
イ、ウなどの音韻性は声道の形状として与えられる。無
声音は音源が声帯でない場合もあるが、音韻性はやはり
声道の形状で決められる。ところが、声道を形成する
喉、舌、歯、あご、唇などの形状や寸法は人ごとに微妙
に異なっているし、声帯の大きさも性別や年齢で異な
る。このために、人ごとの声の違いが生じることにな
る。つまり、人の違いによる声の差異は調音器官の違い
によるところが大きい。

【００１０】一方、声がア、イ、ウなど音韻としてでは
なく、単語や文として発せられるとき、声道の形が時間
的に変化する。すなわち、声道の時間的変化によって言
葉が形成される。たとえば、「赤い」（ａｋａｉ）と発
声する場合、声道は、あごが開き舌の後方に狭めのある
／ａ／の発声から喉頭部の閉鎖と急激な開放を伴う破裂
音／ｋ／に移り、さらに再び／ａ／の形状に戻ってから
徐々に舌を唇側に移動し、口を閉じた／ｉ／に移る。こ
のような声道の変化パターンは発声しようとしている言
葉によって決るものであり、人の違いによる差異は少な
いと考えられる。

【００１１】このように言葉としての音声を静的な声道
の形状とその時間的な変化に分割して考えると、前者の
みが話者によって異なり、後者は話者による差は小さい
と見なすことが出来る。従って、静的な声道の形状の違
いに基づく差異を何等かの方法で正規化できれば、不特
定話者の認識が可能となる。

【００１２】ところで、声道の形状の違いは発せられた
音声信号中では周波数スペクトルの違いとして表現され
る。周波数スペクトルを話者間で正規化する最も単純な
方法は、音素や音節をなど短時間の音声標準パターンと
のマッチングを行なって、クラス分けをすることであ
る。不特定話者用として作成された汎用的な標準パター
ンを用いれば話者の違いに大きく左右されない類似度情
報を得ることが出来る。すなわち、スペクトルをパター
ンマッチングによって類似度情報に変換することは、話
者間の差異を軽減することに相当する。

【００１３】一方、声道の変化パターンは話者による差
異が少ないのであるから、１名から数名の少数話者の情
報を用いれば十分である。従って、少数話者の発声した
単語や文節などの発声から得られる類似度情報の時間パ
ターンを辞書に登録すれば、それは不特定話者用の辞書
になる。

【００１４】このような考え方に基づき、上記目的を達
成するための本発明の技術的解決手段は、１名から数名
の話者が発声した、音韻環境を考慮した単語セットを分
析して得られる特徴パラメータと、予め多数の話者で作
成したｎ種類の音素などの標準パターンと分析時間（１
フレーム）毎にマッチングを行ない、得られるｎ次元の
類似度ベクトルの時系列から音声片パターンを切出して
音声片辞書として登録しておき、また認識対象辞書の各
項目にはこの音声片辞書に登録された音声片パターンを
接続して作成したものを登録しておき、認識させたい入
力音声も同様にｎ種類の音素などの標準パターンとマッ
チングを行ない、得られるｎ次元の類似度ベクトルの時
系列を求め、前記音声片を接続して作成した認識対象辞
書の各項目との照合を行なうことによって不特定話者の
音声認識を行なうものである。

【００１５】

【作用】本発明は上記構成により、まず１名から数名の
少数の話者が発声した音韻環境を考慮した単語セットを
分析して得られる特徴パラメータに対して多数の話者で
作成したｎ種類の音素や音節などの標準パターンとの類
似度を単位時間（フレーム）毎に求める。この類似度は
多数の話者で作成した汎用性のある標準パターンとのマ
ッチング結果なので、ｎ種類の類似度値の相対関係は個
人性の影響を受けにくい。

【００１６】従って、単位時間毎の類似度の相対関係を
パラメータとして使用すれば不特定話者に対して有効で
ある。この単語セットから音声片パターンを切出して音
声片辞書として登録する。そして、単語などを表現する
認識対象辞書の各項目は音声片辞書に登録されている音
声片パターンを接続して類似度系列で作成しておく。

【００１７】また認識対象辞書の各項目は音声片の接続
手順を記しておいても良い。認識時には入力音声から得
られる類似度ベクトルの時系列と認識対象辞書の各項目
に登録されている音声片から作成された類似度ベクトル
の時系列パターンとを照合することにより、不特定話者
の音声を認識することができる。

【００１８】また、単位時間毎の類似度として、最も信
頼できるものを１つだけ用いるのではなく、複数の候補
（すなわちｎ種類の類似度値）を用いているのでより高
い認識率を得ることが出来る。

【００１９】なお、音声片パターンは１度作成しておけ
ば、認識対象音声を変更しても常に同じものが使用でき
る。また、認識対象辞書項目を変更して他の音声を認識
出来るようにする（すなわち認識語いの変更）には、音
声片辞書に登録されている音声片パターンを接続して認
識対象辞書の各項目を作成し登録するだけで良い。した
がって、簡単な手続きで不特定話者の音声認識が可能で
あり、更に、語いの変更などに対して柔軟性のある認識
装置の実現が可能になる。

【００２０】

【実施例】以下、本発明の第一の実施例について説明す
る。

【００２１】本実施例では、音韻環境を考慮した単語セ
ット（５３０単語セット）を２名の話者が発声し、音声
片としてＣＶ（子音＋母音）とＶＣ（母音＋子音）を使
用し、時系列パターンを接続して認識対象辞書項目を作
成し、入力音声とＤＰマッチングを行ない認識する場合
について説明する。

【００２２】図１は、本実施例の構成図である。図１に
おいて、１は音響分析部、２は特徴パラメータ抽出部、
３は類似度計算部、４は標準パターン格納部、５はパラ
メータ系列作成部、６は音声片辞書格納部、７は認識対
象辞書項目作成部、８は認識対象辞書格納部、９は認識
部である。

【００２３】最初にＣＶパターンとＶＣパターンを切出
して音声片辞書格納部６に登録する方法について説明を
行なう。

【００２４】図１において、入力音声が入力されると音
響分析部１で分析時間（フレームと呼ぶ、本実施例では
１フレーム＝１０ｍｓｅｃ）毎に線形予測係数（ＬＰ
Ｃ）を求める。次に、特徴パラメータ抽出部２で、ＬＰ
Ｃケプストラム係数（Ｃ０〜Ｃ８まで９個）を求める。
標準パターン格納部４には、予め多くの話者が発声し
たデータから作成した２０種類の音素標準パターンを格
納している。

【００２５】本実施例では、／ａ／，／ｏ／，／ｕ／，
／ｉ／，／ｅ／，／ｊ／，／ｗ／，／ｍ／，／ｎ／，

【００２６】

【外１】

【００２７】，／ｂ／，／ｄ／，／ｒ／，／ｚ／，／ｈ
／，／ｓ／，／ｃ／，／ｐ／，／ｔ／，／ｋ／の２０個
の音素標準パターンを使用する。音素標準パターンは各
音素の特徴部（その音素の特徴をよく表現する時間的な
位置）を目視によって正確に検出し、この特徴フレーム
を中心とした特徴パラメータの時間パターンを使用して
作成する。

【００２８】本実施例では、時間パターンとして、特徴
フレームの前８フレーム、後３フレーム、計１２フレー
ム分のＬＰＣケプストラム係数（Ｃ０〜Ｃ８）を１次元
にしたパラメータ系列

【００２９】

【外２】

【００３０】を使用する。（数１）に前記パラメータ系
列を示す。

【００３１】

【数１】

【００３２】ここで

【００３３】

【外３】

【００３４】は特徴部の第ｋフレームにおけるｉ番目の
ＬＰＣケプストラム係数である。多くのデータに対して
パラメータ系列を抽出し、各要素の平均値ベクトル

【００３５】

【外４】

【００３６】と要素間の共分散行列

【００３７】

【外５】

【００３８】を求め標準パターンとする。平均値ベクト
ルは（数２）のようになる。

【００３９】

【数２】

【００４０】このように本実施例で用いている音素標準
パターンは複数フレームの特徴パラメータを使用してい
る。すなわちパラメータの時間的動きを考慮して標準パ
ターンを作成しているのが特徴である。

【００４１】入力と音素pの標準パターンとの類似度計
算のためのマハラノビス距離ｄpは（数３）で表され
る。

【００４２】

【数３】

【００４３】ここで共分散行列

【００４４】

【外６】

【００４５】を各音素共通とすると（数４）のように簡
単な式に展開できる。

【００４６】

【数４】

【００４７】共通化された共分散行列を

【００４８】

【外７】

【００４９】とする。本実施例では、計算量の少ない
（数４）を用いる。

【００５０】

【外８】

【００５１】、ｂpが音素pに対する標準パターンであり
標準パターン格納部４にあらかじめ格納されている。

【００５２】この２０種類の音素標準パターンと特徴抽
出部で得られた特徴パラメータ（ＬＰＣケプストラム係
数）と類似度計算部３でフレーム毎に類似度計算を行な
う。類似度計算部の結果から、パラメータ時系列作成部
５で類似度ベクトルの時系列を求める。類似度ベクトル
の時系列の例を図２に示す。

【００５３】図２は「赤い」（ａｋａｉ）と発声した場
合の例で、横軸が時間方向で縦軸が各時間における類似
度を示す。／ａ／の標準パターンについて説明すると、
入力を１フレームずつシフトさせながら標準パターンと
マッチングを行ない類似度の時系列を求める。図２の例
では、40,46,68,60,42,1,4,6,20,40,65,81,64,49,15,1
0,14,16が類似度の時系列である。この類似度を２０個
の音素標準パターン全てに対して同様に求める。類似度
ベクトルは図２の斜線で示した部分を指す。図２で示し
たような類似度ベクトルの時系列を認識部９に送る。

【００５４】音声片辞書格納部６には、あらかじめ２人
の話者が発声した、音韻環境を考慮した単語セットの音
声を分析し上記の２０個の標準パターンとフレーム毎に
類似度計算を行なった結果得られる類似度ベクトルの時
系列（図２と同様な形式のもの）から子音から母音へ遷
移する部分を切出したＣＶパターンと逆に母音から子音
へ遷移する部分を切出したＶＣパターンが格納されてい
る。

【００５５】この音韻環境を考慮した単語セットには人
間がスペクトル情報などを参考に音素の位置があらかじ
めラベル付けされている。この音素ラベルにしたがって
ＣＶは子音の中心フレームから後続母音の中心フレーム
まで、ＶＣは母音の中心フレームから子音の中心フレー
ムまで切出しを行ない音声片辞書格納部６に登録する。
母音と子音の中心フレームを境界にすると子音から母
音、母音から子音に音声が遷移する情報を有効に取り入
れることが出来るので高い認識率を得ることが出来る。
図３の（1）に「朝日」（／ａｓａｈｉ／）、（2）に
「酒」（／ｓａｋｅ／）、（3）に「パーク」（／ｐａ
ａｋｕ／）の場合ＣＶとＶＣの切出し方の例を示す。図
に示すように／ａｓａｈｉ／の場合は、語頭の／ａ／，
語中の／ａｓ／，／ｓａ／，／ａｈ／，／ｈｉ／，と語
尾の／ｉ／の６個の音声片から構成されている。／ｓａ
ｋｅ／の場合は、語頭の／ｓａ／，語中の／ａｋ／，／
ｋｅ／，語尾の／ｅ／の４個の音声片から構成されてい
る。／ｐａａｋｕ／の場合は語頭の／ｐａ／，語中の／
ａａ／、／ａｋ／、／ｋｕ／、語尾の／ｕ／の５個の音
声片から構成されている。

【００５６】音声片が１個しか出現しない場合は、その
まま音声片辞書として音声片辞書格納部に格納する。同
じ音声片が２個出現した場合は、２個の同一音声片同士
でＤＰマッチングを行ない時間整合を行なう。たとえ
ば、音声片／ａｋ／は／ｓａｋｅ／と／ｐａａｋｕ／の
単語から切出される。切出された音声片によって持続時
間長が異なるので、ＤＰマッチング法で時間整合を行な
う。図４に時間整合の例を示す。時間整合することによ
って、同じ音素の区間（／ａ／，／ｋ／）が整合するよ
うになる。この時間的に整合したフレーム間で各類似度
の平均値を求める。この平均化した類似度ベクトルを音
声片辞書として登録する。３個以上の場合は、同じ作業
を繰返し複数個の平均化した類似度ベクトルの時系列を
作成し音声片辞書に登録する。

【００５７】図４の斜線で示した音声片１の第ｉフレー
ムの類似度ベクトル

【００５８】

【外９】

【００５９】を（数５）とし、

【００６０】

【数５】

【００６１】音声片２の第ｊフレームの類似度ベクトル

【００６２】

【外１０】

【００６３】を（数６）とすると、

【００６４】

【数６】

【００６５】音声片１の第ｉフレームと音声片２の第ｊ
フレームとが時間的に整合する場合は、新しく類似度ベ
クトル

【００６６】

【外１１】

【００６７】を（数７）で求め、

【００６８】

【数７】

【００６９】この類似度ベクトルを辞書のｉフレームの
類似度ベクトルとして登録する。こうすることによっ
て、音声片辞書の精度を向上させ、より高い認識率を得
ることが出来る。

【００７０】認識対象辞書項目作成部７では、認識対象
辞書項目が与えられると音声片辞書格納部から各辞書項
目を作成するのに必要なＣＶ・ＶＣパターンを取り出し
て接続を行ない認識対象辞書の各項目パターンを作成し
辞書格納部８に登録する。たとえば「赤い」（／ａｋａ
ｉ／）という辞書項目を作成するには語頭の／ａ／，／
ａｋ／，／ｋａ／，／ａｉ／と語尾の／ｉ／の５つのＣ
Ｖ・ＶＣパターンを接続して作成する。たとえば、語頭
の／ａ／は／ａｓａｈｉ／と発声した音声データから切
出された語頭の／ａ／のパターンを使用し、語中の／ａ
ｋ／は／ｓａｋｅ／と発声したデータから切出された語
中の／ａｋ／のパターンを使用する。

【００７１】このように／ａｋａｉ／という単語パター
ンを作成するにはあらかじめ切出されたＣＶ・ＶＣパタ
ーンが登録されている音声片辞書格納部６から必要なＣ
Ｖ・ＶＣを取り出して接続を行ない認識対象辞書の各項
目パターンを作成し認識対象辞書格納部８に格納する。
認識部９では、認識対象辞書格納部８にある類似度ベク
トルの時系列と入力音声を分析して得られる類似度ベク
トルの時系列パターンとをマッチングし最もスコアの大
きい辞書項目を認識結果とする。

【００７２】認識対象辞書格納部８には、類似度ベクト
ルの時系列そのものではなく音声片を接続する手順のみ
を記述したものを格納しておいても良い。そして入力と
の類似度計算のとき、この手順にしたがって類似度ベク
トルを合成しても良い。マッチング方法として本実施例
ではＤＰマッチングを行なう。ＤＰマッチングを行なう
漸化式の例を（数８）に示す。

【００７３】

【数８】

【００７４】ここで、辞書の長さをＪフレーム、入力の
長さをＩフレーム、第ｉフレームと第ｊフレームの距離
関数をｌ（ｉ，ｊ），累積類似度をｇ（ｉ，ｊ）とす
る。

【００７５】距離関数ｌ（ｉ，ｊ）の距離尺度は、ユー
クリッド距離、重み付ユークリッド距離、相関余弦距離
などが使用できる。本実施例では、距離尺度として相関
余弦を用いた場合について説明を行なう。入力音声のｉ
フレームにおける類似度ベクトル

【００７６】

【外１２】

【００７７】を（数９）で表わし、

【００７８】

【数９】

【００７９】，辞書のｊフレームにおける類似度ベクト
ル

【００８０】

【外１３】

【００８１】を（数１０）で表わすとすると、

【００８２】

【数１０】

【００８３】相関距離を用いた場合のｌ（ｉ，ｊ）は、
（数１１）の様になる。

【００８４】

【数１１】

【００８５】以上のような図１の構成において、以下そ
の動作について説明する。あらかじめ多数の話者で作成
した音素標準パターンは標準パターン格納部４に格納さ
れている。認識対象音声を１名または数名の少数話者が
発声し、分析して得られた類似度ベクトルの時系列から
ＣＶ・ＶＣパターンを切出したパターンが音声片辞書格
納部６に登録されている。認識対象辞書項目は、認識対
象辞書項目作成部７でＣＶ・ＶＣパターンを接続して作
成を行ない認識対象辞書格納部８に格納する。

【００８６】未知音声を認識する場合は、入力音声を音
響分析部１で分析し、特徴パラメータ抽出部２でＬＰＣ
ケプストラム係数を求める。このＬＰＣケプストラム係
数と標準パターンとのマッチングを類似度計算部３でフ
レームごとに行ない、パラメータ系列作成部５で類似度
ベクトルの時系列を求める（図２の形式のもの）。この
類似度ベクトルの時系列と認識対象辞書格納部８に格納
されいる各辞書項目の類似度ベクトルの時系列とを認識
部９でＤＰマッチングを行ない最も類似度の大きい辞書
項目を認識結果とする。

【００８７】ＤＰ法ではなくＨＭＭ（隠れマルコフモデ
ル）を用いる場合は、切出された各ＣＶ、ＶＣのパター
ンに対してＨＭＭの学習を行ないＣＶとＶＣを基本単位
とするＨＭＭを作成する。辞書項目は、このＣＶとＶＣ
を基本単位とするＨＭＭを接続することによって作成し
認識を行なう。

【００８８】本実施例の様に入力音声を分析して得られ
る特徴パラメータをそのまま使用せずに、多数の話者の
音声データで作成した標準パターンとの類似度計算から
得られる類似度ベクトルを入力ベクトルとしＤＰ法など
で認識を行なうことによって１名または数名の少数話者
の発声した音声データから切出したＣＶ・ＶＣパターン
を接続した辞書項目を作成するするだけで不特定話者の
音声を認識することが出来るようになる。

【００８９】なお、音声片としては、上記以外にＶＣＶ
（母音＋子音＋母音）またはＣＶ、ＶＣ、ＶＣＶを任意
に組み合せたものであっても良い。

【００９０】次に、回帰係数を併用する第２の実施例に
ついて、図５を用いて説明を行なう。図５において、１
０は音響分析部、１１は特徴パラメータ抽出部、１２は
類似度計算部、１３は標準パターン格納部、１４は回帰
係数計算部、１５はパラメータ系列作成部、１６は音声
片辞書格納部、１７は認識対象辞書項目作成部、１８は
認識対象辞書格納部、１９は認識部である。

【００９１】本実施例においても、前記第１の実施例と
同様に類似度ベクトルの時系列を類似度計算部１２で求
める。各類似度の時系列に対して類似度の時間的変化量
である回帰係数（ｎ個）を回帰係数計算部１４でフレー
ム毎に求める。回帰係数は、フレームの前後２フレーム
の類似度値（計５フレームの類似度値）の最小２乗近似
直線の傾き（類似度の時間的変化量）を使用する。

【００９２】図６を用いて類似度の回帰係数について説
明を行なう。たとえば、音素／ａ／の標準パターンで説
明すると、入力を１フレームずつシフトさせながら／ａ
／の標準パターンとマッチングを行ない類似度の時系列
を求める。このフレーム毎の類似度をプロットしたのが
図６である。図６において横軸がフレーム、縦軸が類似
度である。第ｉフレームを中心に第ｉ−２から第ｉ＋２
フレームの最小二乗直線の傾きを求め、これを第ｉフレ
ームにおける類似度の時間変化量（回帰係数）とする。
回帰係数を求める式を（数１２）に示す。

【００９３】

【数１２】

【００９４】この回帰係数を１フレームごとに全フレー
ムに対して求める。また、他の標準パターンに対しても
同様にして回帰係数を全フレームに対して求める。この
フレーム毎に求められたｎ次元の類似度ベクトルとｎ次
元の回帰係数ベクトルの両方をパラメータとして認識を
行なう。前記実施例では、入力音声のｉフレームにおけ
る類似度ベクトルと辞書のｊフレームにおける類似度ベ
クトルの距離として（数２）の相関距離を使用してい
た。回帰係数を併用した場合の距離関数ｌ（ｉ，ｊ）
は，（数１３）を用いる。

【００９５】

【数１３】

【００９６】ここで、入力音声のｉフレームにおける回
帰係数ベクトル

【００９７】

【外１４】

【００９８】を（数１４）とし、

【００９９】

【数１４】

【０１００】，辞書のｊフレームにおける回帰係数ベク
トル

【０１０１】

【外１５】

【０１０２】を（数１５）とする。

【０１０３】

【数１５】

【０１０４】ｗは類似度と回帰係数の混合比率であり、
０．４から０．６がよい。以上の相関余弦を用いて前記
実施例と同様の方法でＤＰマッチングを行ない類似度を
求め最も類似度の大きい辞書項目を認識結果とする。

【０１０５】本実施例は入力音声を分析して得られる特
徴パラメータをそのまま使用せずに、いったん多数の話
者の音声データで作成した標準パターンとのマッチング
によって、類似度と類似度の回帰係数に変換し、これら
を入力ベクトルとしＤＰ法などで認識を行なうことによ
って、１名または数名の少数の話者の発声した音声デー
タから切出したＣＶとＶＣパターンを辞書として登録し
これを接続して辞書項目を作成するだけで不特定話者の
音声を認識することが出来るようになる。

【０１０６】第２の実施例を用いて２１２単語を発声し
た２０名のデータを用いて認識実験を行なった。音声片
は２名の話者が音韻環境を考慮した５３０単語を発声し
たデータからＣＶ・ＶＣを切出したものを辞書として登
録し、２０名の発声した２１２単語を認識する実験を行
なった。類似度ベクトルと回帰係数ベクトルを併用する
と、９４．３％の単語認識率が得られた。

【０１０７】なお、上記実施例では標準パターンのマッ
チング距離尺度として各標準パターンの共分散行列を共
通化したマハラノビス距離について述べたが、それに限
定されるものではなく、ベイズ判定に基づく距離、マハ
ラノビス距離、ニューラルネット、ＨＭＭ（隠れマルコ
フモデル）、ＬＶＱ（学習ベクトル量子化）を用いても
同じ効果が得られる。

【０１０８】

【発明の効果】以上の様に本発明は、音声を分析して得
られた特徴パラメータに対して予め多くの話者で作成し
たｎ種類の標準パターンとの類似度計算を行なって類似
度を求め、ｎ次元の類似度ベクトルまたはｎ次元の類似
度ベクトルとｎ次元の類似度の時間的変化量ベクトルを
音声認識のための特徴パラメータとすることによって、
１名から数名の少数の話者が音韻環境を考慮した単語セ
ットを発声した音声データから音声片パターンを切出し
て音声片辞書として登録しこの音声片パターンを接続し
て辞書項目を作成するだけで、不特定話者の音声を認識
することが出来る手段を提供するものである。したがっ
て、１人または数名の少数の話者が発声した音韻環境を
考慮した単語セットの音声データから音声片パターンを
切出して音声片辞書として１度作成しておけば、自由に
辞書が作成できるので辞書変更が極めて容易である。こ
のように本発明は不特定話者用音声認識装置の性能向上
およびいろいろな用途へ適用するための柔軟性の向上に
対して極めて大きく貢献することができる。

【図面の簡単な説明】

【図１】本発明の第１の実施例における音声認識方法を
具現化する装置の機能ブロック図

【図２】第１の実施例における音声認識方法の類似度ベ
クトルの時系列を示す模式図

【図３】（１）第１の実施例における音声認識方法のＣ
Ｖ・ＶＣパターンの一例を説明する模式図（２）第１の実施例における音声認識方法のＣＶ・ＶＣ
パターンの他の例を説明する模式図（３）第１の実施例における音声認識方法のＣＶ・ＶＣ
パターンのもう一つの例を説明する模式図

【図４】第１の実施例における音声認識方法において２
名の話者の登録音声片に対する時間整合を説明する模式
図

【図５】本発明の第２の実施例における音声認識方法を
具現化する装置の機能ブロック図

【図６】第２の実施例における回帰係数の説明図

【符号の説明】

１音響分析部２特徴パラメータ抽出部３類似度計算部４標準パターン格納部５パラメータ系列作成部６音声片辞書格納部７認識対象辞書項目作成部８認識対象辞書格納部９認識部１０音響分析部１１特徴パラメータ抽出部１２標準パターン格納部１３類似度計算部１４回帰係数計算部１５パラメータ系列作成部１６音声片辞書格納部１７認識対象辞書項目作成部１８認識対象辞書格納部１９認識部

───────────────────────────────────────────────────── フロントページの続き (72)発明者二矢田勝行神奈川県川崎市多摩区東三田３丁目10番１号松下技研株式会社内 (56)参考文献特開平１−216397（ＪＰ，Ａ) 特開昭59−7998（ＪＰ，Ａ) 特開昭61−137199（ＪＰ，Ａ) 特開昭60−164800（ＪＰ，Ａ) 特開昭61−236598（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 - 9/20 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】予め、音韻環境を考慮した単語セットを１
名から数名の少数の話者が発声し、分析時間（フレー
ム）毎に得られるｍ個の特徴パラメータと、多数の話者
で作成したｎ種類の標準パターンとのマッチングを行な
いｎ個の類似度をフレーム毎に求め、この類似度ベクト
ルで作成した時系列パターンから音声片を切出して音声
片辞書として登録しておき、更に前記音声片辞書の音声
片を接続して作成した類似度ベクトルの時系列パターン
または音声片の接続手順を各認識対象項目ごとに作成し
て認識対象辞書に格納しておき、認識時には入力音声を
同様にして分析して得られるｍ個の特徴パラメータと、
前記ｎ種類の標準パターンとのマッチングを行なってｎ
次元の類似度ベクトルの時系列を求め、認識対象辞書の
各項目に登録されている類似度ベクトルの時系列パター
ンまたは音声片の接続手順に従って合成された類似度ベ
クトルの時系列パターンを照合することによって、辞書
に登録した話者およびその他の話者の入力音声を認識す
ることを特徴とする音声認識方法。
【請求項２】予め、音韻環境を考慮した単語セットを１
名から数名の少数の話者が発声し、分析時間（フレー
ム）毎に得られるｍ個の特徴パラメータと、多数の話者
で作成したｎ種類の標準パターンとのマッチングを行な
いｎ個の類似度とｎ個の類似度の時間変化量をフレーム
毎に求め、この類似度ベクトルと類似度の時間変化量ベ
クトルで作成した時系列パターンから音声片を切出して
音声片辞書として登録しておき、更に認識対象辞書の各
項目を前記音声片辞書の音声片を接続して作成した類似
度ベクトルの時系列パターンまたは音声片の接続手順を
各認識対象項目ごとに作成して認識対象辞書に格納して
おき、認識時には、入力音声を同様にして分析して得ら
れるｍ個の特徴パラメータと、前記ｎ種類の標準パター
ンとマッチングを行ないｎ次元の類似度ベクトルとｎ次
元の類似度の時間変化量ベクトルの時系列を求め、認識
対象辞書の各項目に登録されている類似度ベクトルと類
似度の時間変化量ベクトルの時系列パターンまたは音声
片の接続手順にしたがって合成された類似度ベクトルと
類似度の時間変化量ベクトルの時系列パターンを照合す
ることによって、辞書に登録した話者およびその他の話
者の入力音声を認識することを特徴とする音声認識方
法。
【請求項３】音声片として、子音＋母音、母音＋子音、
母音＋子音＋母音またはこれらの任意の組合せのいずれ
かを用いることを特徴とする請求項１または２記載の音
声認識方法。
【請求項４】音声片パターンとして切出された類似度ベ
クトルの時系列パターンまたは類似度ベクトルと類似度
の時間変化量ベクトルの時系列パターンを接続すること
によって認識対象辞書の各項目を作成し、入力音声とＤ
Ｐマッチングを行なって認識することを特徴とする請求
項１または２記載の音声認識方法。
【請求項５】音声片として切出された類似度ベクトルの
時系列パターンまたは類似度ベクトルと類似度の時間変
化量ベクトルの時系列パターンに対してＨＭＭ（隠れマ
ルコフモデル）を適用して認識を行なうことを特徴とす
る請求項１または２記載の音声認識方法。
【請求項６】同一の認識対象音声を２名以上の話者が発
声し、それぞれ分析して得られる類似度ベクトルの時系
列パターンに対して、ＤＰマッチングによって話者間の
時間整合を行ない、時間的に整合したフレーム間で各類
似度の平均値を求めその平均値の時系列パターンから切
出した音声片を音声片辞書に登録することを特徴とする
請求項１記載の音声認識方法。
【請求項７】類似度の時間変化情報として回帰係数を用
いることを特徴とする請求項２記載の音声認識方法。
【請求項８】同一の認識対象音声を２名以上の話者が発
声し、それぞれ分析して得られるｎ次元類似度ベクトル
とｎ次元回帰係数ベクトルの時系列に対して、ＤＰマッ
チングによって話者間の時間整合を行ない，時間的に整
合したフレーム間で各類似度と各類似度の時間変化量の
平均値を求めその平均値の時系列パターンから切出した
音声片を辞書に登録することを特徴とする請求項２記載
の音声認識方法。
【請求項９】類似度ベクトル間または類似度の時間変化
ベクトル間の距離を求める距離尺度として、ユークリッ
ド距離、重み付ユークリッド距離、相関余弦を用いるこ
とを特徴とする請求項１または２記載の音声認識方法。
【請求項１０】標準パターンとして音素、音節、半音
節、音素片などの音響学的な基本単位に基づくカテゴリ
ーの標準パターンを使用することを特徴とする請求項１
または２記載の音声認識方法。
【請求項１１】標準パターンとのマッチングの距離尺度
として、ベイズ判定に基づく距離、マハラノビス距離、
各標準パターンの共分散行列を共通化したマハラノビス
距離、ニューラルネット、ＨＭＭ（隠れマルコフモデ
ル）、ＬＶＱ（学習ベクトル量子化）を用いることを特
徴とする請求項１または２記載の音声認識方法。