JPH0345839B2

JPH0345839B2 -

Info

Publication number: JPH0345839B2
Application number: JP58007781A
Authority: JP
Inventors: Katsuyuki Futayada; Hideji Morii; Satoshi Fujii
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1983-01-19
Filing date: 1983-01-19
Publication date: 1991-07-12
Also published as: JPS59131999A

Description

【発明の詳細な説明】

産業上の利用分野本発明は不特定話者を対象とした音声認識装置
に関するものである。従来例の構成とその問題点音素判別は、話者識別とその考え方と異にす
る。即ち音素判別は、人の口から発せられた音声
の中に含まれる情報のうち、音韻性情報（話者が
話したい意味内容を表現する情報）を抽出して認
識するものであるのに対し、話者識別は話者情報
（話をしている人が誰であるかを表わす情報）の
みを抽出するもので、基本的な考え方が異なる。
音声の認識を行なう場合、マイクロホンによつて
電気信号に変換された時系列の音声信号を、フレ
ームと呼ばれる単位に区切つて、各々のフレーム
を単位として分析を行ない、特徴パラメータに変
換し、音声信号を特徴パラメータ系列に変換する
のが一般的な方法である。この場合、１フレーム
は10msec程度に選ばれる。また分析方法として、
フイルタ分析法や線形予測（LPC）分析法がよ
く利用される。次に、特徴パラメータを複数の音素または擬音
素（音素に類するもの；例えば／hiと／ha／で
は／ｈ／のパターンが異なり、前者を／ｈ／とし
後者を／h^*／とする）の標準パターンと比較し
て、特徴パラメータとの類似度が最も大きい音素
または擬音素を標準パターンの中から選び、その
符号でフレームを代表させる手法がよく使われ
る。このようにすれば、各フレームごとに多くの
記憶容量を必要とする音声信号（たとえば精度12
ビツトで12kHzサンプリングされたデータは
10msecあたり1440ビツトである）が８ビツト程
度に圧縮されることになり、以後の認識過程が簡
単となる。従来例の代表として、上記の方法において特徴
パラメータとして自己相関関数を用い、類似度を
予測残差距離で求める方法を説明する。いま未知特徴パラメータを、〓＝（υ₁，υ₂……υ_o） ……(1) ただしυ_iはｉ次の自己相関関数、ｎはパラメー
タ数音素または擬音素ｊ（ｊ＝１，……ｌ；ｌは標
準パターンの数）に対する標準パターンを〓_j＝（a_j1，a_j2，……a_Jo） ……(2) ただしa_jiはｉ次の最尤スペクトルパラメータと
すると、類似度（距離）d_jは d_j＝〓^T _j・〓 ……(3) Ｔは転置を表わす。であるｊ＝j_nのときd_jが最小となれば、j_nに相当
する音素または擬音素をそのフレームの結果とす
る。第１図は従来法を実現するためのブロツク図で
ある。マイクロホンで電気信号に変換された音声
信号はAD変換器１でデイジタル信号に変換さ
れ、フレームごとに相関器２で自己相関関数υ₁〜
υ_o（特徴パラメータ）に変換される。３は距離計
算部で、標準パターンメモリ４から標準パターン
A_jiを読み出し、自己相関関数υ_iとの間に式(3)の計
算を行なつて、類似度d_jが最小となるｊ＝j_nを求
め、j_nに相当する音素または擬音素を出力する部
分である。音声認識部５は、フレームごとに入つ
てくる音素、擬音素を単語辞書６の辞書項目と比
較し、最も類似度の高い単語を認識結果として出
力する。この方法は計算式が簡単で、高速の認識に適し
た方法である。特定話者を対象とする場合や、小
数語の不特定話者を対象とする場合には、このよ
うな方法でもかなり良い結果を得ることができ
る。しかし不特定話者、多数語を対象とする場合
には、調音結合の微妙な影響や個人性による特徴
パラメータの差異によつて、認識率が低下する。
不特定話者、多数語を対象として高い認識率を確
保するためには、特徴パラメータとして、調音結
合や個人性の影響を受けにくいものを使用し、類
似度の計算に対しては、これらの変動によるばら
つきを考慮に入れた距離尺度を使用する必要があ
る。しかし、そのような方法は一般に認識に要す
る計算が複雑であり、高速で認識できるシステム
を構成することが不可能であつた。発明の目的本発明は不特定話者・多数語を対象として高い
認識率を確保し、高速（リアルタイム）で認識処
理を行なうことができる音声認識装置を提供する
ことを目的とする。発明の構成本発明は上記目的を達成するもので、音声信号
を音素または擬音素の系列に変換し、これを単語
辞書と照合することによつて音声認識を行なう音
声認識製置であつて、音声信号を音素または擬音
素系列に変換するために、特徴パラメータとして
特徴パラメータとしてLPCケプストラム係数を
算出する特徴パラメータ算出部と、前記特徴パラ
メータと音素または擬音素の標準パターンとを照
合しベイズ判定に基づく距離（以下ベイズ判定と
略す）、マハラノビス距離、線形判別関数等の統
計的距離尺度によつて類似度を算出する類似度算
出部と、各音素または擬音素の標準パターンとし
て、多くの音声データから該当する音素の部分を
抽出して、前記抽出された音素の部分を用いて音
素の統計的分布を表現する標準パターンを音素ご
とに予め作成して格納する標準パターン格納部
と、音声信号を音素または擬音素の系列に変換す
る判定部と、前記音素または擬音素を単語辞書と
照合する音声認識部とを具備し、前記特徴パラメ
ータ算出部の前段に入力信号を切り替える第１の
切替手段を設け、前記特徴パラメータ算出部が、
前記第１の切替手段により入力信号が選択的に入
力される第１及び第２の記憶手段、前記第１又は
第２の記憶手段の情報を選択的に取り出す第２の
切替手段及び第１のプロセツサから少なくともな
り、前記類似度算出部が、前記第１のプロセツサ
によつて算出された特徴パラメータを格納するた
めの共通メモリ、前記共通メモリ内の特徴パラメ
ータと前記標準パターンとの間の類似度を算出す
る第２のプロセツサ及び前記第２のプロセツサの
出力を格納する類似度メモリから少なくとも構成
され、前記特徴パラメータ算出部と類似度算出部
とが各フレームごとにパイプライン処理されるこ
とによつて不特定話者の音声認識を行うことを特
徴とする音声認識装置を提供するものである。実施例の説明本発明の基本的な考え方は調音結合や個人性に
よる変動の影響を受けにくい特徴パラメータとし
てLPCケプストラム係数を使用し、また調音結
合や個人性の影響による特徴パラメータのばらつ
きを考慮した距離尺度として、ハマラノビス距
離、ベイズ判定や線形判別関数などの統計的距離
尺度を使用するものである。第２図は本発明を実現するためのブロツク図を
示したものである。図において１はAD変換器で
あり第１図と同じである。７は特徴パラメータ算
出部であり、窓計算、LPC分析およびLPCケプ
ストラム計算を行なう部分である。LPCケプス
トラム係数は、LPC分析によつて音声波から声
帯音源の特性を除去し、その後に得られるスペク
トルの包絡特性を記述するパラメータである。 LPCケプストラム係数は、LPC分析によつて
得られる線形予測係数を使つて式(4)で計算でき
る。（LPC分析に関しては例えば中田和男著
『音声』日本音響学会編などに詳しい説明があ
る。） C_i＝−α_i−_i-1 〓^k=1 ｉ−ｋ／ｉ・αk・C_i-k ……(4) （ｉ＝１，２……ｎ）ただしα_iはｉ次の線形予測係数である。８は類
似度計算部で、本実施例では距離尺度として、マ
ハラノビス距離、ベイズ判定や線形判別関数など
の統計的距離尺度を使用する。前者２つの距離尺
度はパラメータの分布状態を標準パターンの中に
所持している。また後者は、パラメータの分布を
考慮して係数の値を設定したものである。距離尺
度は次のようにして算出される。音素または擬音素ｊに対する標準パターンとし
て、その平均値を〓_j、共分散行列を〓_jとする
と、未知入力ベクトル〓に対する確率密度は式(5)
で表わされる。 P_j（ｘ）＝１／（2π）^n/2・｜W_j｜^1/2exp ｛−１／２（ｘ−μ_j）^T・W^-1(+)・（ｘ−μ_j）
｝ ……(5) ただし、｜〓｜は行列式の値、〓^-1は逆行列、
添字、Ｔは転置を表わす。式(5)で標準パターン〓_j，〓_jは音素名が判つて
いる多くのデータ（LPCケプストラム係数）を
使用して、あらかじめ作成しておく。したがつ
て、これらは定数である。またｘは判別すべきデ
ータ（LPCケプストラム係数）である。ベイズ判定は式(5)を最大とする音素または擬音
素ｊ＝j_nを判別結果とする方法である。式(5)の自
然対数を求めて l_j＝−１／２（〓−〓_j）^T・〓^-1 _j・（〓−〓_j）−L_j ……(6) ただしL_j＝log_e｛（2π）〓・｜W_j｜〓｝として
式(6)を最大とする音素または擬音素を求めても同
じ結果となり、しかも計算量が減少する。本発明
では式(6)を使用している。マハラバビス距離は式(6)の第１項で定義され
る。すなわち d_j＝（〓−〓_j）^T・〓^-1 _j・（〓−〓_j） ……(7) である。判別結果はd_jを最小とするｊ＝j_nを求め
ることによつて得られる。いずれにしても統計的距離尺度は〓^T・〓・〓
（〓はベクトル、〓マトリツクス）という演算が
基本である。類似度計算部８では標準パターンメ
モリ９に格納してある標準パターンとの間で式(6)
または式(7)の計算を行なう。１０は判別部であ
り、ベイズ判定の場合は最大値を、マハラノビス
距離の場合は最小値を求めて、該当する音素また
は擬音素の符号を出力する。５は音声認識部、６
は単語辞書であり、音声認識部５により、フレー
ムごとに入つてくる音素、擬音素を単語辞書６の
辞書項目と比較し、最も類似度の高い単語を認識
結果として出力する。このように、調音結合や個人性の影響によるば
らつきの少ない特徴パラメータと、ばらつきの状
態を考慮した距離尺度を組合わせることによつ
て、不特定話者・多数語を対象とした場合におい
ても、高い認識率を確保することができる。第１
表は、母音に関して従来の方法（自己相関関数と
予測残差距離）と、本実施例に関する方法を比較
したものである。比較のために使用したデータ
は、男声話者10名各々が発声した212単語の中の
母音に相当する全フレームである。比較の尺度は
正しく認識できたフレームの数の全フレームに対
する割合（％表示）である。

【表】第１表から明らかなように本実施例は従来例よ
りも格段に良い結果を得ることができる。第２図の処理を実時間で行なう場合、AD変換
器１、特徴パラメータ算出部７、類似度計算部８
および判別部１０のブロツクはフレーム単位（た
とえば10msec以内）で行なわねばならない。そ
れに対して音声認識部５の処理は単語単位でよ
い。したがつて前者の高速化が大きな課題であ
る。しかし、１フレームの時間内にLPC計算と
式(4)の計算および式(6)または式(7)の計算を標準パ
ターンの数だけ行なうことは現在の技術では困難
である。特に特徴パラメータ算出部７と類似度計
算部８の部分の計算量が多い。本実施例ではこの問題を、パイプライン処理を
行なうことによつて解決している。第３図はパイプライン処理によつて実時間処理
を行なう方法を実施例によつて説明したものであ
る。また第４図はパイプライン処理のタイムチヤ
ートである。第３図において第２図と同じ機能を
持つブロツクは同一の番号となつている。また破
線の部分は第２図との対応を示している。以下第３図と第４図によつて実施例の説明を行
なう。本実施例において、AD変換のサンプリン
グ周波数は12kHz、フレーム長は10msec、窓計算
における窓長は20msecである。したがつて、１
フレーム内のデータ数は120ワードである。また
LPC分析におけるフイルタの次数は１５である。第３図において、１１と１２はAD変換器１後
の入力データを蓄積しておくメモリであり、各々
１フレーム分のデータが蓄積できる容量（120ワ
ード）を有している。１１をメモリＡ、１２をメ
モリＢと呼ぶことにする。これらのメモリ１１，
１２の入出力はスイツチ１３と１４によつて切替
えられる。スイツチ１３がａ側に接続されている
時スイツチ１４はｄに接続され、スイツチ１３が
ｂ側のときスイツチ１４はｃ側に接続されるよう
になつている。これは、データの入力と計算を非
同期で行なうためである。１５はメモリＡ１１ま
たはメモリＢ１２から送出されたデータに対し、
窓計算、自己相関関数、LPC計算、LPCケプス
トラム計算などを行なうための第１のデイジタル
シグナルプロセツサ（DSPと記す）である。１
６は共通メモリであり、前のフレームの終わりに
第１のDSP（DSP−１）１５からLPCケプストラ
ム係数を受け取り次のフレームの初めに第２の
DSP（DSP−２）１７へ送出する。１７は類似度
の計算その他を行うためのDSPであり、入力パ
ラメータと標準パターンメモリ９に格納されてい
る各標準パターンとの間に式(6)または式(7)の計算
などを行なう。そして各標準パターンに対する類
似度を類似度メモリ１８に送出する。１９は単語
認識部でフレームごとに送出されてくる類似度デ
ータを受けとり、音素または擬音素の系列になお
して単語辞書６の辞書項目と比較して単語認識を
行なう部分である。第４図は第３図で説明した処理を行なうタイム
チヤートであり、各フレームのデータがパイプラ
イン処理されることを示している。AD変換器１
に入力された各フレームの音声信号は４フレーム
の時間（40msec）で音素または擬音素に変換さ
れる。これによつて見かけ上、処理時間を４倍に
伸ばすことができる。図において例えば第ｉフレ
ームのデータに対して最初の10msecの間にメモ
リＡ１１に取り込み、次の10msecで第１のDSP
（DSP−１）１５によつて特徴パラメータを抽出
し、次の10msecで第２のDSP（DSP−２）１７に
よつて類似度を計算し、次の10msecでそれを単
語認識部１９に送出する。第ｉ＋１フレームのデ
ータは最初メモリＢ１２へ取り込まれ、その後は
同様である。このように同一の時間で、各ブロツ
クが異なつたフレームのデータを処理し、それを
次々と伝送してゆくという方法（パイプライン処
理）を行なえば複雑な計算を実時間で行うことが
できる。第２表は上に述べたパイプライン処理を行なつ
た場合において、DSP−１およびDSP−２で行
なうべき計算量を示したものである。ただし、
DSP−２の計算量において標準パターン数は30
とした。各々のDSPはこれだけの計算を10msec
で行なえばよく、サイクルタイム250msec程度の
ものでよい。この程度のDSPは市販のマイクロ
プロセツサを使用して容易に作成することができ
る。

【表】一方、パイプライン処理を行なわなければ、
10msecの間に第２表の両者を加えた回数に更に
データ転送などの処理が加わるためサイクルタイ
ム100nsec以内のDSPが必要となり、現技術では
容易には作成が困難である。以上のように本実施例は特徴パラメータとして
LPCケプストラム係数を用い、これと標準パタ
ーンを比較する距離尺度として統計的距離尺度を
用いることにより、不特定話者・多数語の音声認
識においても高い認識率が確保できた。すなわち
男女各20名各々が発声した200単語に対して、単
語認識率が平均で95％という良い結果を得ること
ができた。また特徴パラメータの計算と距離計算
（類似度計算）の部分に対してパイプライン処理
を適用すると、認識を実時間で行ない得ることが
確認できた。発明の効果以上のように本発明は特徴パラメータとして
LPCケプストラム係数を算出する特徴パラメー
タ算出部と、前記特徴パラメータと音素または擬
音素の標準パターンとを照合し統計的距離尺度に
よつて類似度を算出する類似度算出部とを少なく
とも設け、前記両算出部を各フレームごとにパイ
プライン処理される構成とし、前記両算出部を用
いて音声信号を音素または擬音素の系列に変換
し、前記音素または擬音素を単語辞書と照合する
ことによつて音声認識を行い、前記特徴パラメー
タ算出部と類似度算出部とを各フレームごとにパ
イプライン処理するもので、高い認識率と高速認
識処理とが達成できる。

【図面の簡単な説明】

第１図は従来の音声認識装置のブロツク図、第
２図は本発明の実施例である音声認識装置のブロ
ツク図、第３図は本発明の音声認識装置の具体構
成のブロツク図、第４図は本実施例のタイミング
チヤートである。１……AD変換器、２……相関器、３……距離
計算部、４……標準パターン（最大スペクトルパ
ラメータ）格納部、５……音声認識部、６……単
語辞書、７……特徴パラメータ算出部、８……類
似度計算部、９……標準パターンメモリ、１０…
…判別部、１１，１２……入力メモリ、１３，１
４……切替スイツチ、１５……第１のデイジタル
シグナルプロセツサ（DSP−１）、１６……共通
メモリ、１７……第２のデイジタルシグナルプロ
セツサ（DSP−２）、１８……類似度メモリ、１
９……単語認識部。

Claims

【特許請求の範囲】１特徴パラメータとしてLPCケプストラム係
数を算出する特徴パラメータ算出部と、前記特徴
パラメータと音素または擬音素の標準パターンと
を照合し統計的距離尺度によつて類似度を算出す
る類似度算出部と、各音素または擬音素の標準パ
ターンとして、多くの音声データから該当する音
素の部分を抽出して、前記抽出された音素の部分
を用いて音素の統計的分布を表現する標準パター
ンを音素ごとに予め作成して格納する標準パター
ン格納部と、音声信号を音素または擬音素の系列
に変換する判定部と、前記音素または擬音素を単
語辞書と照合する音声認識部とを具備し、前記特
徴パラメータ算出部の前段に入力信号を切り替え
る第１の切替手段を設け、前記特徴パラメータ算
出部が、前記第１の切替手段により入力信号が選
択的に入力される第１及び第２の記憶手段、前記
第１又は第２の記憶手段の情報を選択的に取り出
す第２の切替手段及び第１のプロセツサから少な
くともなり、前記類似度算出部が、前記第１のプ
ロセツサによつて算出された特徴パラメータを格
納するための共通メモリ、前記共通メモリ内の特
徴パラメータと前記標準パターンとの間の類似度
を算出する第２のプロセツサ及び前記第２のプロ
セツサの出力を格納する類似度メモリから少なく
とも構成され、前記特徴パラメータ算出部と類似
度算出部とが各フレームごとにパイプライン処理
されることによつて不特定話者の音声認識を行う
ことを特徴とする音声認識装置。２統計的距離尺度がベイズ判定に基づく距離、
マハラノビス距離、線形判別関数のいずれかであ
ることを特徴とする特許請求の範囲第１項記載の
音素認識装置。