JPH0465392B2

JPH0465392B2 -

Info

Publication number: JPH0465392B2
Application number: JP61196269A
Authority: JP
Inventors: Yoichi Yamada; Keiko Takahashi
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1986-08-21
Filing date: 1986-08-21
Publication date: 1992-10-19
Also published as: JPS6350896A; US4979212A

Description

【発明の詳細な説明】（産業上の利用分野）この発明は音声認識装置、特にパタンマツチン
グ方式の音声認識装置に関するものである。

（従来の技術）音声認識を行うための一般的な技術としてパタ
ンマツチングによる技術がある。

パタンマツチングは、入力音声に対して所定の
時間間隔（以後、フレームと称す）毎に特徴量
（一般的によく用いられる例として複数の異なる
中心周波数（以後、この番号付けをチヤネルと称
す）によるバンドパスフイルタ分析がある）を抽
出する処理を音声始端時刻より音声終端時刻まで
行い、その結果得られる時系列特徴ベクトルを予
め用意されている標準パタン（認識カテゴリ各々
についてそのカテゴリの標準的と考えられる時系
列特徴ベクトル）と類似度計算を行い、全ての標
準パタンの中で類似度が最大となる標準パタンが
属するカテゴリ名を認識結果とする技術である。

このマツチング技術の例として次の２つがあげ
られる。

先ず、第１例は線形マツチング法と呼ばれる技
術である。例えば、文献：沖研究開発第118号
vol.49、P.53〜P.58に開示されているように、入
力された音声パタンを時間軸方向に線形伸縮させ
て発声速度の違いを吸収し、音声標準パタンと対
応づけてマツチングを行うものである。

第２例は、DPマツチング法と呼ばれる非線形
マツチング技術である。これは特公昭50−23941
号に開示されているが、動的計画法を用いて音声
パタンと音声標準パタンを時間軸方向に非線形に
対応させ、発声速度の変動等の歪みを最適化する
方法等を用いてマツチングを行うものである。

パタンマツチング技術は、同一の分析処理を施
した音声パタンと音声標準パタンとの相違を類似
度で評価し、最大の類似度を与える音声標準パタ
ンのカテゴリ名を認識結果とする技術であつた。
これは音声パタンと音声標準パタンとが同じカテ
ゴリである場合は、類似度は大きくなることが期
待され、逆に、異なるカテゴリである場合は、類
似度は小さくなることが期待されるからである。

（発明が解決しようとする問題点）しかし、個人差や発声時の周囲の状況等で発声
速度に様々な変動がみられ、同一カテゴリといえ
ども両者の類似度が大きくなるとはいえない。
又、音声は発声速度の変動に伴い、母音部では大
きく伸縮し、子音部ではあまり伸縮しないため、
時間軸方向の線形伸縮では音声パタンと音声標準
パタンとの対応がうまくいかない。即ち、音声パ
タンの母音部に音声標準パタンの母音部がうまく
対応しなくなる場合が起こり、類似度が大きくな
るといえない。

前述の従来のマツチング技術の第１例である線
形マツチングは、このような変動に対処するた
め、１つのカテゴリに対して複数の音声標準パタ
ンを用意している。しかし、この技術では発声速
度の変動を予想した多数の音声標準パタンを格納
しなければならず、メモリ容量が大きくなる問題
点がある。

この従来のマツチング技術の第２例のDPマツ
チング法は、この多数の音声標準パタンをもつ線
形マツチングの問題点を解決するために考えられ
た技術の１つである。この技術は、音声の非線形
な伸縮を動的計画法を用いて対処しており、音声
標準パタンの数は少なくてすむが、音声パタンと
音声標準パトンとの最適対応づけを決定する処理
が複雑であるため回路規模が大きくなり、装置が
大型化するという問題点がある。

この発明は、以上述べた従来用いられている線
形マツチング技術においては、音声の発声速度の
変動に対処するために多数の音声標準パタンをも
つ必要があるために大容量のメモリが必要となる
という問題点と、発声の非線形な伸縮に対処する
DPマツチング法の処理の複雑さのため回路規模
が大きくなるという問題点とを解決するために成
されたものである。

従つて、この発明の目的は、隣接フレームとの
フレーム間距離累積値を用いた時間軸非線形分割
技術と、音声標準パタン数が少なくて済む簡単な
線形マツチング技術とを用いることによつて、メ
モリ容量が小さく、処理が簡単な認識精度の良い
音声認識装置を提供することにある。

（問題点を解決するための手段）この目的の達成を図るため、この発明は、入力
音声に対し周波数分析を施し音声区間を決定され
た音声パタンに対し所要の処理を行う下記のよう
な手段を具える。即ち、音声の始端フレームから終端フレームまでに
存在する音節数を音声パワーの変化量などから
抽出し、各音節の開始フレーム番号及び終了フ
レーム番号を決定する手段を具える。

各音節に含む分割領域数を各音節に対してほ
ぼ同等となるよう決定する手段を具える。但
し、音節間の部分（直前音節の終了フレームか
ら該音節の開始フレーム）で１つの分割領域と
なるように決定する。

音声の始端フレームから終端フレームまでの
各フレーム毎にその直前のフレームとの間でフ
レーム間距離（スペクトル距離）を算出する手
段を具える。

この場合、隣接するフレーム間での差が小さ
い周波数成分については距離値加算を行わない
ようにすることが好適である。又、音声パワー
が小であるフレームについては距離値を相対的
に小とする操作を行うことによつて距離値を算
出するのが好適である。

音節開始フレームより音節終了フレームまで
の各フレーム毎に当該フレームまでのフレーム
間距離の累積加算値を逐次算出する手段を具え
る。

各音節毎に該音節終端フレームの累積距離加
算値より該音節開始フレームの累積距離加算値
を減算した値を項で該音節に対して与えられ
た分割領域数で等分割した値に該音節開始フレ
ームの累積距離加算値を加算した値を等分割さ
れた分割点での累積距離加算値を分割点決定閾
値として求める手段を具える。

各音節毎に累積距離加算値が音節開始フレー
ムから時間軸正方向に向つて各分割点決定閾値
を初めて越えるフレームを分割領域始端フレー
ムとすることで音声パタンを非線形分割する手
段を具える。

１つの分割領域始端フレームと、分割領域終
端フレームとまでの区間内での時間軸正規化パ
タンの代表的なスペクトルを音声パタンとして
出力する手段を具える。

（作用）このように、この発明によれば、標準パタンと
の線形マツチングを行うべき音声パタンを、入力
音声の各音節間の発生の時間長の大小関係のばら
つきの影響を受けない時間軸分割を行つて得られ
た時間軸正規化パタンとしたので、線形マツチン
グによる認識処理の性能が高い。

（実施例）以下、図面を参照してこの発明の音声認識装置
の実施例につき説明する。

第１図はこの発明の音声認識装置の実施例を示
すブロツク図、第２図は音声パタンの時間軸分割
の処理を行う機能手段を示す機能ブロツク図、第
３図Ａ〜Ｇばその処理手順を示す流れ図である。
尚、ここで説明する処理手順は単なる好適例であ
り、他の手段であつてもこの発明での処理を行う
ことが出来る。

入力信号Ｄ１は周波数分析部１０へ入力され
る。

周波数分析部１０は所定の帯域数のバンドパス
フイルタ分析結果であるところの周波数スペクト
ルＤ２を所定の時間間隔（フレーム）毎に算出
し、音声記号記憶部１１及び音声区間検出部１２
へ出力する。

音声区間検出部１２は周波数スペクトル値の大
きさ等から始端時刻と終端時刻を決定し、始端時
刻信号Ｄ３及び終端時刻信号Ｄ４を音声信号記憶
部１１へ出力すると共に、この発明の実施例では
時間軸正規化部１３に対しても出力する。

音声信号記憶部１１は始端時刻から数端時刻ま
で（音声区間）の周波数スペクトルを記憶し、所
定のタイミングでこの周波数スペクトルＤ５を時
間軸正規化部１３へ出力する。

この発明の実施例では、時間軸正規化部１３は
第２図は参照して後述する手順により時間軸正規
化パタンＤ６を算出しこの正規化パタンＤ６を類
似度計算部１４へ出力する。

類似度計算部１４は時間軸正規化パタンＤ６と
予め標準パタン記憶部１５に記憶されている全て
の標準パタンとの類似度を線形マツチングにより
計算し（類似度の尺度として市街地距離、ユーク
リツド距離等が挙げられる）、各認識対象カテゴ
リに対する類似度を表す信号Ｄ７を判定部１６へ
出力する。

判定部１６は全ての認識対象カテゴリの中で最
大の類似度を与えるカテゴリ名を認識結果Ｄ８と
して出力する。

上述した音声認識装置において、周波数分析部
１０、音声信号記憶部１１、音声区間検出部１
２、類似度計算部１４、標準パタン記憶部１５及
び判定部１６等の各構成部の機能及び構成は、従
来提案されている音声認識装置に用いられている
対応する構成部と同一または類似しているので、
その詳細な説明は省略する。

従つて、次に第２図に示す機能ブロツク図及び
第３図Ａ〜Ｇに示す動作の流れ図に従つて、この
発明の装置の一主要部となる時間軸正規化部１３
の動作につき詳細に説明する。尚、以下の説明に
おいて処理のステツプをＳで示す。

[1] 音節数検出手段（第２図に２０で示す）これは音声区間内に存在する音節数を音声パ
ワーの変化から検出し、各音節の始端フレーム
と終端フレームを決定する手段である。

音声始端フレーム番号をSFR、音声終端フ
レーム番号をEFR、周波数分析チヤネル数を
CHNNOとする。先ず音声区間内における周
波数スペクトル強度をＳ（ｉ、ｊ）但し、ｉ；
チヤネル番号、ｊ；フレーム番号）を求める
（S1）。次に音声パワーPOW（ｊ）即ち POW(j)＝_CHNNO 〓^k=1 Ｓ（ｋ、ｊ）を算出する（S2）。次に音声区間内における
POW(j)の最大値MAXPOWを求める（S3）。
音節開始フレーム番号をSSFR(L)、（Ｌ：音節
番号）、音節終了フレーム番号をEEFR(L)、
（Ｌ；音節番号）とする。

SSFR(1)＝SFR と初期設定した後（S4）、始端フレームSFRか
ら時間軸正方向へ向つて、 POW(j)≦MAXPOW／Ｎ（但し、Ｎは経験によつて定められる正の定数
とする）を満足するフレームが所定の閾値以上継続した
かどうか判定し（S5）、継続していた時、該区
間の開始フレーム番号から１を差し引いた値を
該音節の終了フレーム番号とすると共に、該区
間の終了フレーム番号に１を加算した値を次の
音節の開始フレーム番号とする（S6）。継続し
ていない時はステツプS5を繰り返す。

上記操作は終端フレームEFRまで終了して
いない時はS5、S6のステツプを終端フレーム
まで繰り返し行う。

終端フレームまで行つた後、検出した音節数
VNOを求め（S8）、続いて EEFR（VNO）＝EFR （VNO；検出した音節数）を求め（S9）、この手段の処理を終える。

[2] 分割領域決定手段（第２図に２１で示す）これは検出した各音節区間（音節開始フレー
ムから音節終了フレームまで）の分割領域数を
各音節間でほぼ同等となるよう設定する手段で
ある。

所定の時間軸分割数をDIVとする時、検出し
た各音節区間の分割領域数DNO(k)（但し、
ｋ；領域番号）を求める。そのため、先ず（DIV−VNO＋１）／VNO＝Ａを求める（S10）。次にＭ＝MOD（DIV−VNO＋１、VNO）（MOD（Ｂ、Ｃ）はＢをＣで徐算した余り）としたとき、Ｍ＞０（S11）である時は、 DNO(k)＝INT(A)（ｋ＝１〜VNO）（INT(A)はＡを小数点以下切捨てた値）を求める（S12）。次に音節フレーム数（音節
開始フレームから音節終了フレームまでのフレ
ーム数）が大である音節から順番に分割領域数
DNO(k)に１を加算する処理を余りＭに対応す
るＭ個の音節について行う（S13）。

例えば、TDIV＝８、VNO＝２である時、 DNO(1)＝４ DNO(2)＝３［ifEEFR(1)−SSFR(1)≧EEFR(2)−SSFR(2)］ DNO(1)＝３ DNO(2)＝４［ifEEFR(2)−SSFR(2)＞EEFR(1)−SSFR(1)］となる。

一方、Ｍ＝０であるときは、上述したような
余りの分配は行わずに全ての音節に対して
DNO(k)＝Ａが求まる（S14）。

[3] フレーム間距離算出手段（第２図に２２で
示す）これは、音声区間内のあるフレームの音声パ
タンと、このフレームの直前のフレームの音声
パタンとの間の距離、即ちフレーム間距離（又
はスペクトル距離或はベクトル間距離ともい
う）を音声パワーを加味して算出する手段であ
る。

先ず、音声区間内のあるフレーム（ｊ番目の
フレームとする）における音声パワーが加味さ
れていないフレーム間距離DST(j)は第(1)式で
定義される。

DST(j)＝_CHNNO 〓ⁱ⁼¹ SUB(i) SUB(i)＝｜Ｓ（ｉ、ｊ）−Ｓ（ｉ、ｊ−１）｜……
(1) 但し、SUB(i)＜DTHLのとき SUB(i)＝０ ……(2) 尚、ここでSUB(i)はフレーム間での周波数
スペクトル強度差であつて、DTHLは閾値で
ある。このとき閾値DTHLの値は経験的に設
定出来る。

従つて先ず、SUB(i)を求め（S15）、続いて
SUB(i)＜DTHLかどうかの判定を行い（S16）、
これを満足する場合にはSUB(i)＝０とし
（S17）、満足しない場合にはSUB(i)はステツプ
（S15）にて算出した値とする。次に、これら
の結果を用いてDST(j)を算出する（S18）。

第(1)式で定義される距離DST(j)は、第(2)式
の条件を加えることで音声区間中の母音定常部
の如く、スペクトル変化が小さい部分で距離値
が相対的に小さくなるようにしている。

この距離DST(j)に音声パワーPOW(j)による
パワー加重を行つたものを、あるフレームにお
けるフレーム間距離DSTP(j)とする。

DSTP(j)は第(3)式のように定義する。

DSTP(j)＝DST(j)×POW(j)／CONST ……(3) 但し、 POW(j)＝_CHNNO 〓ⁱ⁼¹ Ｓ（ｉ、ｊ） CONST：正定数この(3)式の演算処理を行つて（S19）、DSTP(j)
を求める。

このように、パワー加重を行うことにより、
音声区間中の無音区間（破裂音の直前に発声
し、音声パタンのレベルは無音時と同等にな
り、音声信号の特徴を表すスペクトルは出力さ
れない区間）における距離値が相対的に小さく
なるよう設定する。

第(2)式及び第(3)式による処理を行うことによ
り、発声速度の変動が小さい子音部や非定常部
における前記距離値は相対的に大きくなる。

上記処理を音声始端フレームSFRから音声
終端フレームEFRまで行う（S20）。

[4] 累積距離加算値算出手段（第２図に２３で
示す）これは始端フレームから終端フレームまでの
各フレーム毎に該始端フレームからそれぞれの
フレームまでの前記フレーム間距離を逐次加算
して累積距離加算値として算出する手段であ
る。

求められたフレーム間距離DSTP(j)の全フレ
ームにわたる累積距離加算値SUM(j)を算出す
る（S22）。

SUM(j)＝_j 〓^k=SFR DSTP(k) ……(4) 第(4)式の操作をフレーム番号SFRからフレ
ーム番号EFRまでの逐次行う（S23）。

[5] 分割点決定閾値設定手段（第２図に２４で
示す）これは検出した各音節毎に、前記累積距離加
算値の値より(b)項で与えられた分割領域数に分
割するための分割点決定閾値を算出する手段で
ある。

ここで上述した［４］項で算出した累積距離
加算値SUM(j)を用いて分割点となるフレーム
を決定する分割点決定閾値BTHL（ｍ）を求め
る。分割点決定閾値BTHL（ｍ）は以下のよう
に定義される。

音節数検出手段２０で検出した音節数VNO
が１であるか又は２以上であるかを判定する
（S24）。

〔1〕までVNOが１である場合 BTHL（ｍ）＝SUM（EFR）×ｍ／DIV ……(5) の演算処理を行う（S25）。但し、EFR；終
端フレーム番号、ｍ＝１〜（DIV−１）〔2〕検出した音節数VNOが２以上である場合音
節番号ｋとした場合に以下の処理を行う。

(a) DNO(k)＞１であるか否か決定し
（S26）、DNO(k)＞１である音節について
のみ以下の操作を行う（S27）。

BTHL（ms＋ｌ）＝〔｛SUM（EEFR(k)）−SUM（S
SFR(k)）｝・ｌ／DNO(k)〕＋SUM（SSFR(k)）但し、ｌ＝１〜DNO(k)−１、 ms＝０（if ｋ＝１） ms＝_k-1 〓^S=1 DNO（Ｓ）＋ｋ−１（if ｋ≠１） (b) 次に、ｋ≠VNOであるか否か判定し
（S28）、ｋ≠VNOである時のみ以下の操作を
行う。

先ず BTHL（ns）＝SUM（EEFR(k)）を求め（S29）、次に BTHL（ns＋１）＝SUM（SSFR（ｋ＋１））を求める（S30）。但し、これらにおいて ns＝_k 〓^S-1 DNO（Ｓ）＋ｋ−１である。

[6] 分割領域始端フレーム番号決定手段（第２
図に２５で示す）これは累積距離加算値が、前記始端フレーム
より時間軸正方向に向つて前記各分割点決定閾
値を初めて越えるフレームを分割領域始端フレ
ームとする時間軸非線形分割を行う手段であ
る。

機能ブロツク２３及び２４から得られる累積
距離加算値SUM(j)及び分割点決定閾値BTHL
（ｍ）から SUM（jm）＜BTHL（ｍ）≦SUM（j_n＋１）の条件をみたすフレーム番号j_nを判定し
（S31）、このフレーム番号j_nが（ｍ＋１）番目
の分割領域始端フレームＢ（ｍ）となる処理
（S32）を所定の数の分割領域について行い
（S33）、所定の分割数の時間軸非線形分割が終
了する。

[7] 時間軸正規化パタン出力手段（第２図に２
６で示す）次に、１つの分割領域始端フレームと、分割
領域終端フレームまでの区間内での時間軸正規
化パタンを出力する。この場合、例えば、当該
区間内での平均化パタンを全分割領域について
それぞれ求める（S34、S35）。

以上の各機能手段２０〜２６によつて順次に行
われるステツプS20〜ステツプS35で時間軸正規
化部９の動作は終了する。

次に、このようにして求められた代表スペクト
ルすなわち時間軸正規化パタンを類似度計算部１
４へ送り、既に説明した通り、そこで予め用意さ
れた全ての音声標準パタンとの類似度を求める。
この類似度を表わす信号を判定部１６に送り、そ
こでは既に説明した通り、全ての音声標準パタン
の中で最大の類似度をもつ音声標準パタンに与え
られるカテゴリを認識結果として出力させる。

次に、第４図Ａ及び第４図Ｂは音声「ハジメ」
を例にとつて各音節「ハ」、「ジ」、「メ」の発声時
間長の大小関係が異なる場合の時間軸分割の時間
軸分割の時間軸分割数DIV＝８として動作を示し
たものである。第４図Ａ及びＢにおいて横軸にフ
レーム番号ｊをプロツトして示し、それぞれの上
側の図は縦軸に音声パワーをプロツトして示し、
下側の図は累積距離加算値SUM(j)をプロツトし
て示してある。尚、第４図Ａ及びＢの右側には分
割点決定閾値BTHL（ｍ）（ｍ＝１、２、……、
７）を示してあり、横軸の下側にこれら閾値によ
つて分割される領域の分割領域始端フレームＢ
（ｍ）（ｍ＝１、２、……７）が示してある。

第４図Ａは「ハ」の発声時間長が短く、「メ」
の発声時間長が長いが、第４図Ｂでは「ハ」の発
声時間長が長く、「メ」の発声時間長が短い。こ
れら図からも理解出来るように、発声時間長の相
違の影響を受けることなく、同じ分割領域番号に
同じ音声部分を含む動作をしている。

（発明の効果）上述した説明から明らかなように、この発明に
よれば、入力音声の各音節間の発声時間長の大小
関係のばらつきの影響を受けない時間軸分割を行
い、標準パタンとの線形マツチングにより認識処
理を行う方法としたので、認識性能の高い音声認
識装置の実現が可能となる。

【図面の簡単な説明】

第１図はこの発明の音声認識装置の実施例を示
すブロツク図、第２図はこの発明の主要部である
時間軸正規化部での処理を実行するための機能ブ
ロツク図、第３図Ａ〜Ｇはこの発明の時間軸正規
化の処理手順を示す流れ図、第４図Ａ及びＢはこ
の発明の時間軸正規化の結果を説明するための図
である。１０……周波数分析部、１１……音声信号記憶
部、１２……音声区間検出部、１３……時間軸正
規化部、１４……類似度計算部、１５……標準パ
タン記憶部、１６……判定部、２０……音節数検
出手段、２１……分割領域決定手段、２２……フ
レーム間距離算出手段、２３……累積距離加算値
算出手段、２４……分割点決定閾値設定手段、２
５……分割領域始端フレーム番号決定手段、２６
……時間軸正規化パタン出力手段。

Claims

【特許請求の範囲】１入力音声に対し音声分析処理を行つた後、検
出された音声区間内の音声パタンと、予め用意さ
れている音声標準パタンとの線形マツチングによ
つて類似度を求め、全ての音声標準パタンの中で
最大の類似度をもつ音程標準パタンのカテゴリ名
を認識結果として出力させることにより音声認識
を行う音声認識装置において、 (a) 前記音声区間内に存在する音節数を音声パワ
ーの変化から検出し、各音節の始端フレームと
終端フレームを決定する手段と、 (b) 前記検出した各音節間（音節開始フレームか
ら音節終了フレームまで）の分割領域数を各音
節間でほぼ同等となるよう設定する手段と、 (c) 前記音声区間の始端フレームから終端フレー
ムまでの各フレーム毎に当該フレームの音声パ
タンと当該フレームの直前フレームの音声パタ
ンとの間のフレーム間距離を算出する手段と、 (d) 前記始端フレームから終端フレームまでの各
フレーム毎に該始端フレームからそれぞれのフ
レームまでの前記フレーム間距離を逐次加算し
て累積距離加算値として算出する手段と、 (e) 前記検出した各音節毎に、前記累積距離加算
値の値より(b)項で与えられた分割領域数に分割
するための分割点決定閾値を算出する手段と、 (f) 累積距離加算値が、前記始端フレームより時
間軸正方向に向つて前記各分割点決定閾値を初
めて越えるフレームを分割領域始端フレームと
する時間軸非線形分割を行う手段と、 (g) この時間軸非線形に分割された区間毎の時間
軸正規化パタンの代表スペクトルを前記音声パ
タンとして出力する手段とを具えることを特徴とする音声認識装置。２前記分割点決定閾値の算出は、 (a) 検出した音節数が１以下である場合、前記終
端フレームにおける累積距離加算値を所定の時
間軸分割数で等分割した値とし、 (b) 検出した音節数が２以上である場合、検出し
た各音節毎に該音節の開始フレームにおける累
積距離加算値と、該音節の終了フレームにおけ
る累積距離加算値から該音節の開始フレームに
おける累積距離加算値を減算した値を該音節の
分割領域数で等分割した値を加算した値、該音
節の終了フレームにおける累積距離加算値及び
該音節の時間軸正方向に隣接する音節の開始フ
レームにおける累積距離加算値とする処理を逐
次行うことにより算出することを特徴とする特許請求の範囲第１項に記載の
音声認識装置。３前記代表スペクトルを分割された区間内にお
ける平均スペクトルとしたことを特徴とする特許
請求の範囲第１項に記載の音声認識装置。４前記代表スペクトルを分割された区間内にお
いて最大の音声パワーを与えるフレームに対応す
るスペクトルとしたことを特徴とする特許請求の
範囲第１項に記載の音声認識装置。５前記代表スペクトルを分割された区間内の中
心に位置するフレームにおけるスペクトルとした
ことを特徴とする特許請求の範囲第１項に記載の
音声認識装置。