JPH0221598B2

JPH0221598B2 -

Info

Publication number: JPH0221598B2
Application number: JP57014685A
Authority: JP
Inventors: Sadahiro Furui; Noboru Sugamura
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1982-02-01
Filing date: 1982-02-01
Publication date: 1990-05-15
Also published as: JPS58132299A

Description

【発明の詳細な説明】＜発明の背景＞この発明はあらかじめ蓄積した認識対象単語を
示す複数のパタン系列と、未知入力音声単語との
マツチングを行つて、不特定話者の未知入力音声
を認識する不特定話者単語音声認識方法に関する
ものである。

従来不特定話者が発声した単語音声を認識する
方法としては、主に次の二つの方法が用いられて
いる。その一つは例えば日本音響学会昭和56年度
春季研究発表会講演論文集、３−１−23「不特
定話者用単語音声認識装置の試作」に示されるも
ので、音声波から抽出した特徴量（スペクトルパ
ラメータ）の系列に関して、多数話者の音声が高
い精度で正しく各単語に分離されるような識別関
数を作成し、未知入力音声の特徴量の系列にこの
関数を適用したときの関数値によつて単語の認識
を行う方法である。他の一つは各単語毎に多数話
者の特徴量の系列から代表的な複数の系列を選ん
で蓄えておき、未知入力音声の特徴量の系列と、
これらの系列との時間正規化マツチングを行つ
て、最も確らしい単語が発声されたものと認識す
る方法である。

前者の方法は識別関数の次元数にあうように時
間正規化された特徴量系列を未知入力音声から自
動的に抽出する方法と、適切な識別関数の作成法
や修正法とに困難な点が多く、後者の方法は認識
対象単語のスペクトルパラメータを短時間毎にす
べて蓄積しておく必要があり、しかも各単語毎に
複数の系列を蓄積するので単語数が大きくなると
記憶容量が膨大なものとなるとともに、マツチン
グの際の計算量も莫大となる問題点がある。

＜発明の概要＞この発明の目的は識別関数を用いず、従つて識
別関数の作成、修正のような困難を伴うことな
く、しかも少ない記憶容量、少ない計算量で不特
定話者の単語音声を高い認識率で認識することが
できる不特定話者単語音声認識方法を提供するこ
とにある。

この発明によれば複数の話者の音声から、クラ
スタリング手法により音声の短時間のスペクトル
の特徴を表わす擬音韻パタンを作成し、この擬音
韻パタンを蓄積し認識すべき単語を擬音韻パタン
系列として蓄積し、この場合不特定話者によるパ
タン系列の変動を考慮して多数の話者の音声のス
ペクトル系列のクラスタリングによつて各単語毎
に代表となる複数系列を作成して蓄えておき、不
特定話者よりの未知入力単語音声をスペクトル分
析し、これと上記各単語ごとの複数の擬音韻パタ
ン系列との時間正規化マツチングを行うことによ
り未知入力音声単語の認識をする。

＜実施例＞第１図はこの発明による音声認識方法の実施例
を示し、音声入力は音声入力端子１よりスペクト
ルパラメータ抽出部２に入力される。抽出された
スペクトルパラメータはスイツチS₁により擬音韻
標準パタンを作成する擬音韻標準パタン作成部
３、または擬音韻標準パタンとの距離を計算する
スペクトル距離計算部５へ供給される。作成部３
で作成された擬音韻標準パタンは擬音韻標準パタ
ン蓄積部４に記憶され、この記憶された擬音韻パ
タンは距離計算部５へ供給される。距離計算部５
で計算されたスペクトル距離はスイツチS₂により
最小のものを選択する最小スペクトル距離パタン
選択部６、または系列間距離計算部８、もしくは
時間正規化スペクトルマツチング部１２に切替え
供給される。選択部６で選択された単語ごとの擬
音韻標準パタンの系列は擬音韻パタン系列蓄積部
７に蓄積され、この擬音韻パタン系列はスペクト
ル距離計算部５で計算されたスペクトル距離の値
を用いて全認識単語の学習入力音声と擬音韻パタ
ン系列との時間正規化マツチングを行い、全体的
な距離の計算が系列間距離計算部８で行われる。
距離計算部８で計算された系列間距離は系列間距
離蓄積部９に蓄積される。これら系列間距離にも
とづいて代表的な系列が代表系列選択部１０で選
択されて代表系列蓄積部１１に蓄積される。時間
正規化スペクトルマツチング部１２ではスペクト
ル距離計算部５で計算されたスペクトル距離の値
を用いて未知入力音声と代表系列とのマツチング
を行う。そのもつともよくマツチングしたものは
最小スペクトル距離系列選択部１３で選択され、
認識結果出力端子１４へ出力される。

＜スペクトルパラメータ抽出部の例＞スペクトルパラメータ抽出部２は例えば第２図
に示すように構成される。即ち入力端子２１より
入力された音声信号は低域通過フイルタ２２によ
り、例えば4KHz以上の高域周波数成分が除去さ
れる。この高域除去された音声信号はＡ／Ｄ変換
器２３において、例えば8KHzの標本化周波数、
12ビツトの量子化精度でデイジタル信号に変換さ
れる。次にこのデイジタル信号はハミング窓乗算
回路２４に入力され、例えば16msの短時間ごと
に、例えば32msの長さのハミング窓が乗じられ
て音声信号が切り出される。切り出された音声信
号は相関関数演算回路２５に入力されて、例えば
10次までの相関関数が計算される。この計算は次
式により行われる。

r_k＝１／Ｍ_M-K 〓^l=1 ｘ（ｌ）ｘ（ｌ＋ｋ）ここでr_kはｋ次の相関関数、Ｍは切り出された
音声信号に含まれる標本点の数、ｘ（ｌ）はｌ番
目の標本点における音声信号の値である。r_pは切
り出された区間の平均パワーを表現しているの
で、この値r_pを音声区間検出回路２６に入力し、
この値r_pがあらかじめ定めたしきい値よりも大き
い区間が、あらかじめ定めた長さよりも長く続い
たときこの区間を音声区間、それ以外を雑音また
は無音区間と判定する。その音声区間と判定され
た区間の各次数の相関関数を、同じ標本点の０次
の相関関数r_pで徐算して正規化することにより相
関係数に変換したのちラグ窓乗算回路２７に入力
しラグ窓を乗ずる。ラグ窓を乗じたのちの相関係
数は線形予測分析回路２８に入力され、線形予測
係数に変換される。この具体的アルゴリズムは例
えば文献、板倉・斎藤：統計的手法による音声ス
ペクトル密度とホルマント周波数の推定、電子通
信学会誌56−Ａ、１、P35、1970に示されている
方法を用いる。

次にこの線形予測係数をケプストラム変換回路
２９に入力して例えば16次までのケプストラムに
変換する。この計算にはたとえば文献、B.S.
Atal：Effectiveness of linear prediction
characteristics of the speech wave for
automatic speaker identification and
verification、J.Aconst.Soc−Amer、55、６、ｐ
−1304、1974に示されている方法を用いる。同時
に回路２８で得られた線形予測係数と回路２７よ
りの相関係数とをLPC相関係数抽出回路３０に
入力し、同じく16次までの相関係数を抽出する。
この計算にはたとえば文献、A.H.Gray J.D.
Markel：Distance measure for speech
processing、IEEE Trans.Aconst、Speech＆
Signal Process、ASSP−24、５、p380、1976に
示されている方法を用いる。このようにして抽出
された16次までの相関係数とケプストラムの値は
出力端子３１から出力される。

＜擬音韻標準パタン作成部の例＞次に第１図中の擬音韻標準パタン作成部３の一
例を第３図を参照して説明する。まず入力端子４
１よりスペクトルパラメータのセツト（この一つ
一つのセツトをフレームと呼ぶ）を次々に入力
し、これをいつたんスペクトルパラメータ蓄積部
４２に蓄える。つぎにこれらのスペクトルパラメ
ータのうちポーズ区間、即ちパワーレベルがある
しきい値よりも小さいフレームのスペクトルパラ
メータセツトや近接類似スペクトルパラメータセ
ツトを除去し、この残り（Ｎフレームとする）を
フレーム間距離計算回路４３に入力する。フレー
ム間距離計算回路４３では各スペクトルパラメー
タセツト相互間（フレーム相互間）の距離を計算
し、この値をＮ×Ｎの行列の形でフレーム間距離
行列蓄積部４４に蓄える。この距離の計算方法と
しては、例えばスペクトルパラメータのセツトが
相関係数とケプストラムで表現されているときに
は、これらを用いて次のようなWLR距離を計算
する。

D_ij＝_o 〓^K=1 （C_ik−C_jk）（ρ_ik−ρ_jk）ここでD_ijはｉ番目のフレームとｊ番目のフレ
ームとのスペクトル距離（WLR距離）を表わし
ており、C_ik、C_jkはｋ次のケプストラム、ρ_ik、ρ_jk
はｋ次の相関係数、ｎはパラメータの最高次数で
ある。

つぎにこのフレーム間距離行列をしきい値内フ
レーム計数回路４５に入力し、同時にしきい値入
力端子４６からあらかじめ定められたしきい値を
入力して、各フレームｉごとにD_ij≦θ（θはしき
い値）となるｊの値とその個数を数えあげる。こ
の個数をM_iとする。この値M_iとM_i種類のフレー
ム番号ｊをしきい値内フレーム番号蓄積部４７に
入力し蓄える。次に制御部５１にあらかじめ用意
しておく擬音韻標準パタン番号カウンタを１にセ
ツトしてしきい値内フレーム番号蓄積部４７に蓄
えられている内容を最大クラスタ選択回路４８に
入力し、すべてのM_iのうちの最大値とそのｉの
値を調べる。こののちｉ番目のフレームのスペク
トルパラメータと、D_ij≦θとなるM_i種類のフレ
ームのスペクトルパラメータとをスペクトルパラ
メータ蓄積部４２から読出してスペクトルパラメ
ータ平均回路４９に入力する。スペクトルパラメ
ータ平均回路４９ではこれら入力されたスペクト
ルパラメータの値を、各パラメータの各次数ごと
に平均化して、平均値を擬音韻標準パタンのスペ
クトルパラメータとして擬音韻標準パタン出力端
子５０より出力する。

つぎにしきい値内フレーム番号蓄積部４７に蓄
えられているフレーム番号から、上述の平均化に
用いたフレームの番号を除去し、制御部５１の擬
音韻標準パタン番号カウンタを一つ上げてこの状
態における最大のM_iの値を調べ、上述と同様に
して凝音韻標準パタンを出力する。この操作をあ
らかじめ設定された数の擬音韻標準パタンが出力
されるか、しきい値内フレーム番号蓄積部４７に
蓄えられているフレーム番号がつきるまで繰返
し、次々に擬音韻標準パタンを出力する。

この擬音韻標準パタンを得るために複数の話者
からの音声を入力し、前述のような操作により、
つまり感覚的ではなく物理的な尺度を用いて短時
間（フレーム）のスペクトルパラメータを似たも
のにクラス分けし、このクラス分けした短時間ス
ペクトルパラメータの系列によりすべての音声を
表現することができ、すべての音声を音韻パタン
の系列で表わすことができることと対応するから
その短時間のスペクトルパラメータを擬音韻標準
パタンと呼ぶ。

＜代表系列選択部の例＞第１図中の代表系列選択部１０の一例を第４図
に示す。即ち系列間距離蓄積部９からの系列間距
離行列は系列間距離入力端子６１を経てしきい値
内系列計数回路６２に入力され、同時にしきい値
入力端子６３からあらかじめ定められたしきい値
が回路６２に入力され、各系列ｍごとに距離がし
きい値よりも小さい系列の番号ｈとその個数を数
えあげる。この個数をL_nとする。この値L_nとL_n
種類の系列の番号ｈはしきい値内系列番号蓄積部
６４に蓄えられる。次に制御部６７にあらかじめ
用意してある代表単語番号カウンタを１にセツト
して、しきい値内系列番号蓄積部６４に蓄えられ
ている内容を最大クラスタ選択回路６５に入力
し、すべてのL_nのうちの最大値とそのｍの値を
調べる。このｍの値を１番目の代表単語番号とし
て代表単語番号出力端子６６から出力する。

つぎにしきい値内系列番号蓄積部６４に蓄えら
れている系列の番号のうち、上述の代表単語の系
列からしきい値よりも小さい距離にあるL_n種類
の系列の番号を除去し、制御部６７の代表単語番
号カウンタを一つ上げてこの状態における最大の
L_nの値を調べ、代表単語番号ｍを出力する。こ
の操作をあらかじめ設定された数の代表単語番号
が出力されるか、しきい値内系列番号蓄積部６４
に蓄えられている系列番号がつきるまで繰返し、
次々に代表単語番号を出力する。

認識対象となる各単語を複数の話者によりそれ
ぞれ入力した音声について前述の代表系列選択処
理を行つて、各単語について複数の音声をクラス
分けし、その多い数のクラスから順に代表音声と
する。

第１図中の系列間距離計算部８および時間正規
化スペクトルマツチング部１２においては、たと
えば文献、鹿野：大語い単語音声認識における
LPCスペクトルマツチング尺度の評価、日本音
響学会音声研究会資料、S80−60、1980に示され
ている動的計画法を用いた時間軸非線形伸縮マツ
チング法を用いる。

＜認識手順＞この不特定話者単語音声認識方法は使用に際し
てつぎの三つの段階に分けられる。

(1) 擬音韻標準パタンの作成と蓄積 (2) 擬音韻パタン系列の作成と蓄積 (3) 未知単語音声認識まず(1)の段階ではスイツチS₁は擬音韻標準パタ
ン作成部３に接続される。１人または複数の話者
が発声した音声入力（この場合の音声は必ずしも
認識対象単語でなくてよい）は入力端子１からス
ペクトルパラメータ抽出部２に供給され、短時間
スペクトル分析され、短時間（例えば16ms）ご
とにスペクトルパラメータのセツト｛P_i（ｉ＝１，
ｎ）が抽出される。この抽出されたパラメータは
相関係数やケプストラムなどであり、ｎはパラメ
ータの個数を表わしている。つぎに短時間ごとに
抽出された多くのスペクトルパラメータのセツト
を用いて擬音韻標準パタン作成部３で凝音韻標準
パタンを作成する。この作成は第３図について説
明したように必要に応じて前処理として無音区
間、近接類似スペクトルパラメータセツト等の不
必要なパラメータセツトを除去し、次にスペクト
ルパラメータセツト相互間のスペクトル距離を計
算し、この距離にもとづいてスペクトルパラメー
タセツトのクラスタリング（クラス分け）を行
い、このクラスタリングにより得られた代表的な
スペクトルパラメータセツトをあらかじめ設定さ
れたパタン数だけ凝音韻パタン蓄積部４に蓄積す
る。

(2)の擬音韻パタン系列の作成蓄積段階ではスイ
ツチS₁はスペクトル距離計算部５に接続され、ス
イツチS₂はまず最小スペクトル距離パタン選択部
６に接続される。各認識対象単語ごとに多数の話
者の音声を擬音韻標準パタンを用いた系列として
表わしていつたん蓄積する。即ちスペクトルパラ
メータ抽出部２からの各音声をスペクトル分析し
たパラメータと、擬音韻パタン蓄積部４に蓄積さ
れている各擬音韻標準パタンとのスペクトル距離
計算がスペクトル距離計算部５で短時間ごとに行
われ、その計算結果より最小スペクトル距離パタ
ン選択部６で最小スペクトル距離を有する擬音韻
標準パタンが選択される。このような操作を多数
話者の単語音声（同一認識対象単語）のそれぞれ
について行い、これら各単語音声を擬音韻パタン
の系列で表現する。即ち各音声は擬音韻パタンを
示す記号の系列で表現される。これらはいつたん
擬音韻パタン系列蓄積部７に蓄積される。

つぎにスイツチS₂は系列間距離計算部８に接続
される。この状態で上述多数話者の単語音声を上
述の処理と同じ順序でそれぞれスペクトル分析し
スペクトル距離計算部５で短時間ごとに各擬音韻
標準パタンとのスペクトル距離を計算する。この
距離計算結果を系列間距離計算部８に入力して擬
音韻パタン系列蓄積部７に蓄積されている各系列
と入力単語音声の時間正規化スペクトルマツチン
グを行い、各系列との距離を計算する。上述多数
話者の単語音声のすべてについて同様の手続きを
行い、それぞれの単語音声と各系列との距離計算
結果を代表系列選択部１０に入力する。これらの
距離計算結果は多数話者の単語音声相互間の距離
を表わしているので、代表系列選択部１１では擬
音韻標準パタン作成部３における演算と同様の演
算により単語音声のクラスタリング、即ち擬音韻
パタン系列蓄積部７に蓄積されている擬音韻パタ
ン系列のクラスタリングを行う。具体的には第４
図に示したように各単語音声ごとにその単語音声
からの距離があらかじめ設定したしきい値より小
さい単語音声の数を調べ、この数が最も大きい単
語音声を１番目の代表単語音声とする。すべての
単語音声からこの代表単語音声と、この代表単語
音声からしきい値よりも小さい距離にある単語音
声を除去し、残りの単語音声相互間の距離をもと
に２番目の代表単語音声を選択する。以上の操作
をあらかじめ定めた一定数の代表単語音声が選択
されるか、すべての単語音声が除去されつくされ
るまで繰返し、選択された代表単語音声に対応す
る擬音韻パタン系列を擬音韻パタン系列蓄積部７
から読出して代表系列蓄積部１１に蓄積する。こ
の操作を認識対象単語のすべてについて行い、各
認識対象単語ごとに複数の代表系列を代表系列蓄
積部１１に蓄積する。

(3)の未知音声認識段階ではスイツチS₁はスペク
トル距離計算部５に接続され、スイツチS₂は時間
正規化スペクトルマツチング部１２に接続され
る。入力端子１からの入力音声はスペクトルパラ
メータ抽出部２でスペクトル分析され、その分析
結果について短時間ごとにスペクトル距離計算部
５で擬音韻標準パタン蓄積部４から読出した各擬
音韻パタンとのスペクトル距離を計算する。この
計算結果と代表系列蓄積部１１に蓄積した認識対
象単語の擬音韻パタン系列とを用いて音声の時間
伸縮を吸収するスペクトルマツチングを時間正規
化スペクトルマツチング部１２で行い、最もよく
マツチングされたものを最小スペクトル距離系列
選択部１３で選択して認識結果として出力端子１
４に出力する。この際各認識対象単語に対して複
数の代表系列があるので、最小スペクトル距離系
列選択部１３ではスペクトル距離が最も小さい３
種類程度の系列をとり出し、その単語名に関する
多数決による決定を行えば、信頼度の高い単語決
定を行うことができる。

＜効果＞以上の各段階のうち(1)における擬音韻標準パタ
ンの決定は、何ら言語情報を必要とせず、物理的
なパラメータのみを用いたクラスタリングによつ
てなされるので極めて容易に行うことができる。
擬音韻標準パタンの決定のために入力する音声は
30単語程度でよく、認識対象単語である必要はな
い。

(2)では多数話者の単語音声相互間の距離を計算
するために全単語音声をいつたん蓄積する必要が
あるが、この発明方法によれば各単語音声は擬音
韻パタン名（記号）を単位とする記号系列で表現
されるので、その記憶容量はスペクトルパラメー
タを蓄積する方法に比べ大幅に少なくてすむ。擬
音韻パタンの数はたとえば256個程度でよい。ま
た単語音声相互間の距離を計算する際、系列間距
離計算部８でマツチングの都度スペクトル距離を
計算する必要がなく、スペクトル距離計算部５で
計算した擬音韻パタンとの距離の値のみを参照し
て共通に利用できるので時間正規化マツチングに
おける距離計算回数を大幅に減少することができ
る。このようにして計算された単語音声相互間の
距離にもとづいて各単語毎に代表的な系列がクラ
スタリングによつて自動的に決定されるので、こ
の処理も極めて容易に行うことができる。これら
の代表系列は記号系列であるので広い範囲の声の
個人差がカバーされるように各単語毎に10通り程
度あるいはそれ以上の代表系列を蓄積してもその
記憶容量は極めて少なくてすむ。

(3)では入力単語音声と認識対象単語との距離を
(2)における単語音声相互間の距離の計算と同様に
して行うので、時間正規化スペクトルマツチング
における距離計算回数を大幅に減少することがで
きる。つまり従来において各認識対象単語をスペ
クトルパラメータとして記憶しておき、未知入力
単語音声のスペクトルパラメータとの時間正規化
マツチングを行つているため、その都度距離計算
を行うことになり、各単語について複数の標準パ
タンを用いるような場合には特に計算量が膨大に
なる問題点があつた。しかしこの発明では距離計
算を計算部５で行つたのちにその計算結果を用い
て、つまり標準パタンにおきかえてマツチングを
行つているためその計算は頗る簡単である。

なおスペクトルパラメータ抽出部２、擬音韻標
準パタン作成部３、スペクトル距離計算部５、最
小スペクトル距離パタン選択部６、系列間距離計
算部８、代表系列選択部１０、時間正規化スペク
トルマツチング部１２および最小スペクトル距離
系列選択部１３の一部又は全部は電子計算機によ
りその機能を実行させることができる。また系列
間距離計算部８と時間正規化スペクトルマツチン
グ部１２は同一の機能を有するので、同一回路ま
たは同一計算機プログラムによつて実行すること
も可能である。

交換機と内線を通つた31単語について音声認識
を行つた。未知音声の話者は31名で、擬音韻は１
名で作り、単語辞書、即ち代表系列蓄積部１１の
蓄積代表系列は264名の音声を用いて前述したク
ラスタ化により作成した。その代表系列の数は１
単語当り平均17.6であつた。この時の認識率は
48.0％となつた。一方単語辞書として本人を除く
30名の系列をそのまま用いた場合は認識率は97.2
％となつた。つまりこの発明によれば少ない系列
で高い認識率が得られる。

以上説明したようにこの発明による不特定話者
単語音声認識方法によればマツチングに必要な距
離計算が入力音声と擬音韻標準パタンとの計算だ
けでよく、計算量を大幅に減少できる利点があ
る。例えば擬音韻標準パタンの数をｎ、認識単語
数をｍ、各単語の平均標準パタン（代表音声）数
をｌ、マツチングのウインドをＷとすると、従来
のパラメータ蓄積方法とこの発明の方法との計算
回数はmlW：ｎの関係になる。更に認識対象単
語の標準パタンは擬音韻パタンの系列で表現して
いるのでこのための記憶容量は、従来のパラメー
タそのものを蓄積しておく方法に比べ数十分の一
で済む利点がある。また擬音韻パタンおよび各単
語の代表系列はクラスタリングによつて自動的か
つ容易に作ることができ、しかも物理的尺度にも
とづいているため認識のための有効性が高い利点
がある。

【図面の簡単な説明】

第１図はこの発明による不特定話者単語音声認
識方法の基本的な構成を示すブロツク図、第２図
は第１図中のスペクトルパラメータ抽出部２の一
例を示すブロツク図、第３図は第１図中の擬音韻
標準パタン作成部３の一例を示すブロツク図、第
４図は第１図中の代表系列選択部１０の一例を示
すブロツク図である。１：音声入力端子、２：スペクトルパラメータ
抽出部、３：擬音韻標準パタン作成部、４：擬音
韻標準パタン蓄積部、５：スペクトル距離計算
部、６…最小スペクトル距離パタン選択部、７：
擬音韻パタン系列蓄積部、８：系列間距離計算
部、９：系列間距離蓄積部、１０：代表系列選択
部、１１：代表系列蓄積部、１２：時間正規化ス
ペクトルマツチング部、１３：最小スペクトル距
離系列選択部、１４：認識結果出力端子。

Claims

【特許請求の範囲】

１音声の短時間のスペクトルの特徴を表す擬音
韻パタンと、これらの擬音韻パタンを用いて認識
対象単語を擬音韻パタン系列として表したものと
をあらかじめ蓄積しておき、未知入力単語音声を
スペクトル分析し、これと上記擬音韻パタンとの
距離を計算し、その計算結果を用いて上記擬音韻
パタン系列と時間正規化マツチングを行うことに
より、未知入力音声単語を認識する単語音声認識
において、上記擬音韻パタンは複数の話者の音声
から作成され、上記擬音韻パタン系列は複数の話
者の音声から作成された複数の擬音韻パタン系列
をクラスタリングすることによつて各単語毎に代
表となる複数系列が作成され、これらと未知入力
単語音声の時間正規化マツチングを行うことによ
り、未知入力音声単語を認識することを特徴とす
る不特定話者単語音声認識方法。