JP3065088B2

JP3065088B2 - 音声認識装置

Info

Publication number: JP3065088B2
Application number: JP1224956A
Authority: JP
Inventors: 敬三木
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1989-08-31
Filing date: 1989-08-31
Publication date: 2000-07-12
Anticipated expiration: 2015-07-12
Also published as: JPH0387900A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、音声信号から抽出された特徴ベクトルに基
づいて音声マッチングパタンを生成し、この音声マッチ
ングパタンと比較マッチングパタンとの類似度を算出す
ることにより音声を認識する音声認識装置に関するもの
である。

〔従来の技術〕

第２図は従来の音声認識装置の構成を示すブロック図
である。

この音声認識装置においては、入力端子T_INから入力
された音声信号が音声分析部11によりアナログ／デジタ
ル変換され、音声分析部11に備えられた中心周波数の異
なるｐ個のバンドパスフィルタ群によって抽出された帯
域内周波数成分をフレーム周期毎に取り出されて特徴ベ
クトルが算出され、この特徴ベクトルの要素S_ij（ｉは
フレーム番号、ｊ＝1,2,…,p）から対数音声パワーP_iが
算出される。

音声区間検出部12では対数音声パワーP_iに基づいて音
声区間、即ち、音声の始端フレーム及び音声の終端フレ
ームが決定される。

線形伸縮部13では音声区間における特徴ベクトル系列
で表される音声パタンを所定のフレーム数に線形伸縮し
て音声マッチングパタンを生成する。この線形伸縮は、
線形伸縮前のフレーム番号をｉ、線形伸縮前の始端フレ
ームの番号I_S、線形伸縮前の終端フレームの番号をI_E、
線形伸縮後のフレーム番号をｌとした場合に、次の式
（１）により行われる。

ｉ＝｛I_S（32−ｌ）＋I_E（ｌ−１）｝／（32−１） ……式（１）この結果、音声パタンは、線形伸縮されてなる音声マッチングパタンとなる。尚、ここで、である。

線形伸縮部15では、音声標準パタンとして比較パタン
メモリ部14に予め格納されている比較マッチングパタン
と音声マッチングパタンとの間の類似度を算出する。

判定部16では、算出された類似度の中で最大値を与え
る比較マッチングパタンに付与されている単語名（以
下、カテゴリと称する）を出力する。

〔発明が解決しようとする課題〕

しかしながら、上記した従来の音声認識装置において
は、時間軸の伸縮操作を単なる線形伸縮により行ってい
たので、この伸縮操作に際してフレーム数を減少させた
場合、音声の特徴点を有するフレームが欠落することが
あり認識性能が悪いという問題があった。特に、長母音
や撥音の無音部分等のような音響的性質が変化しない音
節を多く含む単語の認識性能が悪かった。

そこで、本発明は上記したような従来技術の課題を解
決するためになされたものであり、その目的とするとこ
ろは、認識性能の良好な音声認識装置を提供することに
ある。

〔課題を解決するための手段〕

本発明に係る音声認識装置は、音声信号を周波数分析
し、一定の時間間隔であるフレーム毎に上記音声信号の
特徴を表わす特徴ベクトルを算出し、この特徴ベクトル
からフレーム毎に対数音声パワーを算出する音声分析部
と、上記対数音声パワーより上記音声信号の始端と終端
とを検出する音声区間検出部と、上記対数音声パワーよ
り対数音声パワーの短時間変化量を算出する特徴変化量
算出部と、上記音声信号の始端から終端までの区間内に
おける上記短時間変化量の累積値を算出し、上記音声信
号の始端からの経過時間に応じて増加し上記音声信号の
終端で最大になる時間経過項を算出し、上記累積値と上
記時間経過項とを重み付け加算して得られた総合変化量
を算出し、この総合変化量に基づいて上記音声信号の始
端から終端までの特徴ベクトル系列を伸縮して一定長の
音声マッチングパタンを生成する非線形伸縮部と、学習
用の音声信号に基づく標準パタンである比較マッチング
パタンを予め格納しておく比較パタンメモリ部と、上記
非線形伸縮部より出力された音声マッチングパタンと上
記比較パタンメモリ部に格納された比較マッチングパタ
ンとの間の類似度を算出する類似度算出部と、上記算出
された類似度の中で最大値を与える比較マッチングパタ
ンに付与されているカテゴリ名を出力する判定部とを有
することを特徴としている。

〔作用〕

本発明においては、音声信号の特徴を表わす特徴ベク
トルより算出された対数音声パワーから、対数音声パワ
ーの短時間変化量を算出し、この対数音声パワーの短時
間変化量の累積値を算出し、上記音声信号の始端からの
経過時間に応じて増加し上記音声信号の終端で最大にな
る時間経過項を算出し、上記累積値と上記時間経過項と
を重み付け加算して得られた総合変化量を算出し、この
総合変化量に基づいて音声信号の始端から終端までの特
徴ベクトル系列を伸縮して一定長の音声マッチングパタ
ンを生成している。即ち、特徴ベクトル系列の伸縮を対
数音声パワーの短時間変化量の累積値と、音声信号の始
端からの経過時間に応じて増加し音声信号の終端で最大
になる時間経過項とを重み付け加算して得られた総合変
化量に基づいて非線形に行っている。このような音声の
特徴に基づく非線形の伸縮により、音声パタンの伸縮に
際いてフレーム数が削減されても音声の特徴点を有する
フレームを欠落させないようにしている。

〔実施例〕

以下に本発明を図示の実施例に基づいて説明する。

第１図は本発明に係る音声認識装置の一実施例を示す
ブロック図である。

同図において、１は音声分析部であり、この音声分析
部１は中心周波数が少しずつ異なる複数のバンドパスフ
ィルタ群を有し、入力端子T_INから入力された音声信号
を特徴ベクトルの時系列に変換する。尚、この音声分析
部１としては高速フーリエ変換により特徴ベクトルの時
系列を生成するものもある。

音声分析部１による処理を詳細に説明すると、この音
声分析部１は入力された音声信号をアナログ／デジタル
変換し、その後、バンドパスフィルタ群によって各フィ
ルタ固有の周波数成分のみを抽出し、抽出された各フィ
ルタの出力の絶対値の平均値をフレーム周期毎に算出す
る。この算出値は、そのフレームにおける各バンドパス
フィルタの特徴ベクトルの大きさになる。バンドパスフ
ィルタがｐチャネルある場合には、ｉ番目のフレームに
おける特徴ベクトルの大きさA_ij（ｊ＝1,2,…,p）は、
次のようになる。

A_ij＝（A_il,A_i2,…,A_ip）また、音声分析部１においては、この特徴ベクトルの
大きさA_ijから、次の式（２）に基づいて対数音声パワ
ーP_iを、式（３）に基づいて特徴ベクトル（特徴ベクト
ルの要素をS_ijで表す）を算出する。

２は音声区間検出部であり、この音声区間検出部２は
音声分析部１から送出される対数音声パワーP_iに基づい
て音声区間、即ち、音声の始端フレーム（ｉ＝ａ）及び
音声の終端フレーム（ｉ＝ｂ）を決定する（例えば、特
開昭60−254100号公報に開示されている）。

３は特徴変化量算出部であり、この特徴変化量算出部
３は以下の処理を行う。先ず、音声分析部１により得ら
れた対数音声パワーP_iから、フレーム毎に、次の式
（４）により短時間パワー変化量R_iを算出する。

４は非線形伸縮部であり、この非線形伸縮部４は、先
ず、短時間パワー変化量R_iから次の式（５）により累積
値（累積変化量）Ｙを算出する。

ここで、ｂ＜ｉのときにＹをｎとし、ｉ＜ａのときに
Ｙを０としたのは、式（５）の演算を統一的に行うため
である。

さらに、非線形伸縮部４は、式（６）により累積値Ｙ
（第１項）と音声始端からの時間経過を考慮するための
時間経過項（第２項）とを重み付けし加算して得られた
総合変化量Q_iを算出する。

Q_i ＝μＸ（ｉ） ……第１項＋（１−μ）（ｎ−１）（ｂ−ａ）^-1（ｉ−ａ） ……第２項 ……式（６）ここで、μは各々の変化量の重み係数（０〜１）であ
り、通常、0.6程度に設定される。

式（６）において第１項に第２項を加えた理由は、短
時間パワー変化量R_iの累積値に基づく第１項のみでは長
母音や撥音等のような音響変化率の少ない音節を多く含
む単語の認識率の向上が不十分な場合があるので（例え
ば、母音「あ」は音響パワーの変化は小さく０に近いの
で短時間パワー変化量R_iでは識別しにくい）、時間経過
項である第２項を加えることにより音響変化率の少ない
音節を多く含む単語の認識率を向上させるためである。
換言すれば、式（６）は第２項を加えるという簡単な処
理により長母音や撥音等の認識率を向上させるものであ
る。

尚、この総合変化量Ｑ（ｉ）は音声始端（ｉ＝ａ）で
は０、音声終端（ｉ＝ｂ）ではｎ−１となる増加関数と
なる。

そして、次に、式（６）の逆関数である式（７）を求
める。

ｉ＝X^-1（Ｙ）（Ｘ（ｉ）≦Ｙ＜Ｘ（ｉ＋１）のとき） ……式（７）ここで、伸縮後のフレーム番号をｌ（ｌ＝1,2,…,n）
とすると、フレーム番号ｌに対応する伸縮前のフレーム
番号ｉは次の式（８）により表される。

ｉ＝X^-1（ｌ−１） ……式（８）従って、伸縮前の音声パタンは、伸縮されてなる特徴ベクトル系列からなる音声マッチングパタンと
なる。

５は比較パタンメモリ部であり、この比較パタンメモ
リ部５には予め学習用の音声信号に基づく標準パタンで
ある比較マッチングパタンが格納されている。この比較
マッチングパタンは、例えば、話者を限定する特定話者
音声認識では、認識対象となる単語（以下、カテゴリと
称する）を予め発声し、既に説明した音声分析部１、音
声区間検出部２、情報変化量算出部３及び非線形伸縮部
４により処理と同一の処理を特定話者の音声信号に施し
て求める。

６は類似度算出部であり、この類似度算出部６では音
声マッチングパタンと比較マッチングパタンとの類似度
を、例えば、DP（ダイナミックプログラミング）マッチ
ング法や線形マッチング法（例えば、特開昭62−73299
号に開示されたものがある）により計算する。

７は判定部であり、この判定部７は類似度算出部６に
おいて比較マッチングパタン毎に計算された類似度を用
いて、最大類似度を与える比較パタンに与えられたカテ
ゴリ名を認識結果として出力端子T_OUTから出力する。

以上説明したように、本実施例においては、音声信号
の特徴を表わす特徴ベクトルより算出された対数音声パ
ワーから、対数音声パワーの短時間変化量を算出し、こ
の対数音声パワーの短時間変化量の累積値を算出し、上
記音声信号の始端からの経過時間に応じて増加し上記音
声信号の終端で最大になる時間経過項を算出し、上記累
積値と上記時間経過項とを重み付け加算して得られた総
合変化量を算出し、この総合変化量に基づいて音声信号
の始端から終端までの特徴ベクトル系列を伸縮して一定
長の音声マッチングパタンを生成している。このよう
に、音声の特徴に基づく非線形の伸縮により所定のフレ
ーム数の音声マッチングパタンを生成しているので、音
声の特徴点を有するフレームを欠落させない伸縮が可能
になり、よって、認識率の向上を図ることができる。ま
た、認識率が向上することによって、従来は32フレーム
であった伸縮後のフレーム数を16フレーム程度にまで削
減できるので、認識に要する類似度算出処理が少なくな
り、認識処理を迅速にすることが可能になる。

次に、他の発明に係る音声認識装置の実施例（以下、
第二実施例という）について説明する。第二実施例は、
先に説明された第１図の実施例（以下、第一実施例とい
う）と特徴変化量算出部３及び非線形伸縮部４の機能の
みが相違する。従って、以下に特徴変化量算出部３及び
非線形伸縮部４の機能を中心に説明する。尚、この実施
例は第一実施例と同様の構成を有しているので、以下の
説明においては第１図を参照する。

第二実施例の特徴変化量算出部３は、音声分析部１で
算出された対数音声パワーP_iの短時間変化量と、次と式
（９） G_ij＝S_ij−P_i ……式（９）で表される正規化特徴ベクトル（正規化特徴ベクトルの
要素をG_ijで表す）から、次の式（10）によりフレーム
毎に特徴変化量R_iを算出する。

ここで、C_p,C_gは音声区間内の各々の変化量を正規化
する係数であり、それぞれ式（11）、式（12）で表され
る。

尚、μは各々の変化量の重み係数（０〜１）であり、
通例0.5程度に設定される。

非線形伸縮部４は、先ず、短時間パワー変化量Riから
次の式（13）により累積値（累積変化量）Ｙを算出す
る。

ここで、ｂ＜ｉのときにＹをｎとし、ｉ＜ａのときに
Ｙを０としたのは、式（13）の演算を統一的に行うため
である。

そして、次に、式（13）の逆関数である式（14）を求
める。

ｉ＝X^-1（Ｙ）（Ｘ（ｉ）≦Ｙ＜Ｘ（ｉ＋１）のとき）ｉ＋１＝X^-1（Ｙ）（Ｙ＝Ｘ（ｉ）＝Ｘ（ｉ＋１）のとき） ……式（14）ここで、伸縮後のフレーム番号をｌ（ｌ＝1,2,…,n）
とすると、フレーム番号ｌに対応する伸縮前のフレーム
番号ｉは次の式（15）により表される。

ｉ＝X^-1（ｌ−１） ……式（15）従って、伸縮前の音声パタンは、伸縮されてなる特徴ベクトル系列からなる音声マッチングパタンと
なる。

以上説明したように、第二実施例においても、第一実
施例と同様に音声の特徴に基づく非線形の伸縮により所
定のフレーム数の音声マッチングパタンを生成している
ので、音声の特徴点を有するフレームを欠落させない伸
縮が可能になり、認識率の向上を図ることができる。ま
た、認識率が向上することによって、フレーム数を削減
できるので、認識に要する類似度算出処理が少なくな
り、認識処理を迅速にすることが可能になる。

さらに、第二実施例においては、対数音声パワーの短
時間変化量のみならず音声信号の特徴を表わす特徴ベク
トルの周波数スペクトルの要素の短時間変化量をも考慮
した特徴変化量に基づいて非線形の伸縮を行っているの
で、上記第一実施例よりは処理が複雑になるが、対数音
声パワーの短時間変化量だけを考慮した場合に認識され
にくい傾向がある長母音や撥音のような音響的性質が変
化しない音節の認識性能を一層良好にできる。

これは、音響的性質が変化しない音節であっても（例
えば、母音「あ」）、特徴ベクトルの周波数スペクトル
毎の要素の短時間変化量で見れば長母音や撥音に固有の
特徴が現れる（母音「あ」は周波数毎に固有のパワーの
分布を持っている）からである。換言すれば、第二実施
例は処理内容は複雑になるが、長母音や撥音等の認識率
を第一実施例より一層向上させるものである。このた
め、第二実施例においては、第一実施例の式（６）に示
されるような時間経過項を設ける必要性が少ないという
ことができるが、式（６）に示されるように時間経過項
を考慮した処理を行うこと可能である。

〔発明の効果〕

以上詳細に説明したように、請求項１の発明によれ
ば、音声信号の始端から終端までの区間内における短時
間変化量の累積値を算出し、音声信号の始端からの経過
時間に応じて増加し音声信号の終端で最大になる時間経
過項を算出し、上記累積値と上記時間経過項とを重み付
け加算して得られた総合変化量を算出し、この総合変化
量に基づいて音声信号の始端から終端までの特徴ベクト
ル系列を伸縮して一定長の音声マッチングパタンを生成
しているので、音声の特徴点を有するフレームを欠落さ
せない伸縮が可能になり、特に、時間経過項を加えるこ
とにより音響変化率の少ない音節を多く含む単語の認識
率の向上を図ることができるという効果がある。

また、認識率が向上することによって、フレーム数を
少なくすることができるので、認識処理を迅速にできる
という効果がある。

一方、請求項２の発明によれば、音声の特徴に基づく
非線形の伸縮により所定のフレーム数の音声マッチング
パタンを生成しているので、音声の特徴点を有するフレ
ームを欠落させない伸縮が可能になり、認識率の向上を
図ることができるという効果がある。

また、認識率が向上することによって、フレーム数を
少なくすることができるので、認識処理を迅速にするこ
とができるという効果がある。

さらに、対数音声パワーの短時間変化量のみならず音
声信号の特徴を表わす特徴ベクトルの周波数スペクトル
の要素の短時間変化量をも考慮した特徴変化量に基づい
て非線形の伸縮を行っているので、対数音声パワーの短
時間変化量だけを考慮した場合に認識されにくい傾向が
ある長母音や撥音のような音響的性質が変化しない音節
の認識性能を一層良好にできるという効果がある。

【図面の簡単な説明】

第１図は本発明に係る音声認識装置の一実施例を示すブ
ロック図、第２図は従来の音声認識装置のブロック図である。１……音声分析部、２……音声区間検出部、３……特徴変化量算出部、４……非線形伸縮部、５……比較パタンメモリ部、６……類似度算出部、７……判定部、 T_IN……入力端子、 T_OUT……出力端子。

フロントページの続き (56)参考文献特開昭61−183697（ＪＰ，Ａ) 特開平１−170998（ＪＰ，Ａ) 特開昭56−144498（ＪＰ，Ａ) 特開昭61−292695（ＪＰ，Ａ) 特開昭58−130391（ＪＰ，Ａ) 特開昭56−158386（ＪＰ，Ａ) 特公平５−74836（ＪＰ，Ｂ２) 特公平１−15079（ＪＰ，Ｂ２) 特公平４−9319（ＪＰ，Ｂ２) 特公平１−19595（ＪＰ，Ｂ２) 特公昭61−14520（ＪＰ，Ｂ２) 特公平２−22960（ＪＰ，Ｂ２) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 17/00

Claims

(57)【特許請求の範囲】

【請求項１】音声信号を周波数分析し、一定の時間間隔
であるフレーム毎に上記音声信号の特徴を表わす特徴ベ
クトルを算出し、この特徴ベクトルからフレーム毎に対
数音声パワーを算出する音声分析部と、上記対数音声パワーより上記音声信号の始端と終端とを
検出する音声区間検出部と、上記対数音声パワーより対数音声パワーの短時間変化量
を算出する特徴変化量算出部と、上記音声信号の始端から終端までの区間内における上記
短時間変化量の累積値を算出し、上記音声信号の始端か
らの経過時間に応じて増加し上記音声信号の終端で最大
になる時間経過項を算出し、上記累積値と上記経過時間
項とを重み付け加算して得られた総合変化量を算出し、
この総合変化量に基づいて上記音声信号の始端から終端
までの特徴ベクトル系列を伸縮して一定長の音声マッチ
ングパタンを生成する非線形伸縮部と、学習用の音声信号に基づく標準パタンである比較マッチ
ングパタンを予め格納しておく比較パタンメモリ部と、上記非線形伸縮部より出力された音声マッチングパタン
と上記比較パタンメモリ部に格納された比較マッチング
パタンとの間の類似度を算出する類似度算出部と、上記算出された類似度の中で最大値を与える比較マッチ
ングパタンに付与されているカテゴリ名を出力する判定
部とを有することを特徴とする音声認識装置。