JPH0345840B2

JPH0345840B2 -

Info

Publication number: JPH0345840B2
Application number: JP58098359A
Authority: JP
Inventors: Hideji Morii; Katsuyuki Futayada; Satoshi Fujii
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1983-06-02
Filing date: 1983-06-02
Publication date: 1991-07-12
Also published as: JPS59223499A

Description

【発明の詳細な説明】

産業上の利用分野本発明は音声認識、ろうあ者用発声訓練等に用
いられる不特定話者を対象とした音素認識装置に
関するものである。従来例の構成とその問題点音素判別は、話者識別とその考え方を異にす
る。すなわち不特定話者を対象とした音素判別
は、人の口から発声された音声の中に含まれる情
報のうち、音韻性情報（話者が伝えたい意味内容
を表現する情報）を抽出して認識するものである
のに対し、話者識別は話者情報（話をする個人の
特徴を表す情報）のみを抽出するもので、基本的
な考え方が異なる。音素を認識する従来例として
は、音声認識の方式の中に見ることが出来る。音
声の認識を行なう場合、マイクロホンによつて電
気信号に変換された時系列の音声信号ををフレー
ムと呼ばれる単位に区切つて、各々のフレームを
単位として分析を行ない、特徴パラメータに変換
し、音声信号を特徴パラメータ系列に変換するの
が一般的な方法である。この場合、１フレームは
10msec程度に選ばれる。また分析方法として、
フイルタ分析法や線形予測（LPC）分析法がよ
く利用される。次に、特徴パラメータを複数の音素または擬音
素（音素に類するもの：例えば／hi／と／ha／で
は／ｈ／のパターンが異なり、前者を／ｈ／と
し、後者を／h^*／とする）の標準パターンと照
合して、特徴パラメータとの類似度が最も大きい
標準パターンの音素でそのフレームを代表させ
る。このように各フレーム毎の音素を認識し、そ
の音素の系列により音声を認識するという手法が
よく使われる。このように音素に変換すれば、各
フレーム毎に多くの記憶容量を必要とする音声信
号（例えば精度12ビツトで12KHzでサンプリング
されたデータは10msecあたり1440ビツト）が８
ビツト程度に圧縮されることになり、以後の認識
過程が簡単となる。音素認識の従来例の代表として、特徴パラメー
タとして自己相関関数を用い、類似度を予測残差
距離で求める方法を説明する。いま音素が未知の音声信号より算出される特徴
パラメータを〓＝（V₁，V₂……V_o）…… (1) ただし、V_iはｉ次の自己相関関数、ｎはパラメ
ータ数とし、音素または擬音素ｊ（ｊ＝１，２…
…ｌ、ｌは標準パターンの数）に対する標準パタ
ーンを〓ｊ＝（aj₁，aj₂……aj_o…… (2) ただし、ajiはｉ次の最尤スペクトルパラメー
タとすると、類似度（距離）djは dj＝〓^T _j・〓…… (3) ただし、Ｔは転置を表す。である。ｊ＝jmのときdjが最小となれば、jmに
相当する音素または擬音素をその音声信号の音素
認識結果とする。第１図は従来例を実現するための構成図であ
る。マイクロホンで電気信号に変換された音声信
号はAD変換器１でデジタル信号に変換され、フ
レーム毎に相関器２で自己相関関数V₁〜V_o（特徴
パラメータ）に変換される。３は距離計算部で標
準パターン格納部４から標準パターンAjiを読み
出し、自己相関関数Viとの間に（式３）の計算
を行なつて類似度djが最小となるｊ＝jmを求め
jmに相当する音素または擬音素を出力する。この方法は計算式が簡単で、高速の認識に適し
た方法である。特定話者を対象とする場合はこの
ような方法でもかなり良い結果を得ることが出来
る。しかし不特定話者を対象とする場合には、調
音結合の微妙な影響や個人性による特徴パラメー
タの差異によつて、認識率が低下する。不特定話
者を対象とし高い認識率を確保するためには、特
徴パラメータとして、調音結合や個人性の影響を
受けにくいものを使用し、類似度の計算に対して
はこれらの変動によるばらつきを考慮に入れた距
離尺度を使用する必要がある。しかし、そのよう
な方法は一般に認識に要する計算が複雑であり高
速で認識できるシステムを構成することが不可能
であつた。発明の目的本発明は不特定話者を対象として高い認識率を
確保し、しかも高速（リアルタイム）に認識結果
を得ることが出来る音素認識装置を提供すること
を目的とする。発明の構成本発明は上記目的を達成するもので、音声信号
からフレーム毎の音素または擬音素の認識を実時
間で行う音素認識装置である。音声信号から音素または擬音素の認識を行なう
ために、特徴パラメータとしてLPCケプストラ
ム係数を算出する特徴パラメータ算出部と、多く
の話者の音声データから該当する音素の部分を抽
出して、音素の統計的分布を表現する標準パター
ンを音素ごとにあらかじめ作成して格納する標準
パターン格納部と、前記特徴パラメータと音素ま
たは擬音素の標準パターンを照合するためにベイ
ズ判定に基く距離、マハラノビス距離、線形判別
関数などの統計的な距離尺度によつて類似度を算
出し音素を判別する音素判別部とを少なくとも有
する。そしてさらに処理を高速にするため、特徴
パラメータ算出部の前段に入力データ蓄積部と、
前記特徴パラメータ算出部と音素判別部との間に
データ交換部を設け、前記入力データ蓄積部を、
第１及び第２の記憶手段と、入力信号を前記第１
又は第２の記憶手段に切り替える第１の切替手段
と、前記第１又は第２の記憶手段の情報を選択的
に取り出す第２の切替手段とから少なくとも構成
し、前記データ交換部を、第３及び第４の記憶手
段と、特徴パラメータ算出部からの情報を前記第
３又は第４の記憶手段に切り替える第３の切替手
段と、前記第３又は第４の記憶手段と音素判別部
とを選択的に接続する第４の切替手段と、前記第
３又は第４の記憶手段の情報を選択的に読み出す
第５の切替手段とから少なくとも構成し、音声の
入力、特徴パラメータの算出、音素の判別、認識
結果の出力という４つの処理をフレームごとにパ
イプライン処理により行ない不特定話者の音素認
識を行なうことを特徴とし、高い認識率と認識処
理をパイプライン処理により実時間で行なうこと
が出来る音素認識装置を提供するものである。実施例の説明本発明の基本的な考え方は調音結合や個人性に
よる変動を受けにくい特徴パラメータとして
LPCケプストラム係数を使用し、また調音結合
や個人性の影響による特徴パラメータのばらつき
を考慮した距離尺度として、マハラノビス距離、
ベイズ判定、線形判別関数などの統計的距離尺度
を使用するものである。第２図は本発明の一実施例における音素認識装
置の基本構成ブロツク図を示したものである。第２図において１はAD変換器であり第１図の
ものと同じである。５は特徴パラメータ算出部で
窓計算、LPC分析およびLPCケプストラム係数
計算を行う部分である。LPCケプストラム係数
は、LPC分析によつて音声信号から声帯音源の
特性を除去し、その後得られるスペクトルの包絡
特性を記述するパラメータである。 LPCケプストラム係数は、LPC分析により得
られる線形予測係数を使つて式(4)で計算できる
（LPC分析に関しては例えば中田和男著『音声』
日本音響学会編などに詳しい説明がある）。 Ci＝−αi−_i-1 〓^k=1 ｉ−ｋ／ｉ・αk・Ci−ｋ…… (4) ただし、αiはｉ次の線形予測係数 Ciはｉ次のLPCケプストラム係数である。６は音素判定部で、本実施例では、マハラノビス
距離、ベイズ判定や線形判別関数などの統計的距
離尺度を使用して音素の判定を行つている。前者
２つの距離尺度はパラメータの分布状態を標準パ
ターンの中に所持している。また後者は、パラメ
ータの分布を考慮して係数の値を設定したもので
ある。距離尺度は次のように算出される。音素または
擬音素ｊに対する標準パターンとして、特徴パラ
メータの平均値ベクトルをμj、共分散行列を〓ｊ
とすると、未知入力の特徴パラメータベクトルｘ
に対する確率密度は式(5)で表わされる。 Pj（ｘ）＝１／２（π）^n/2・｜W_j｜^1/2・exp ｛−１／２（ｘ−〓ｊ）^T・〓j^-1（ｘ−〓ｊ）｝ …… (5) ただし、｜Ｗ｜は行列式の値、〓^-1は逆行列、
Ｔは転置を表わす。式(5)で標準パターン〓ｊ、〓ｊは音素名が判つて
いる多くの音声データより得られるLPCケプス
トラム係数を使用して、あらかじめ作成してお
く。したがつて、これらは定数である。またｘは
判別すべき音声データより得られるLPCケプス
トラム係数である。ベイズ判定は式(5)を最大とする音素または擬音素
ｊ＝jmを判別結果とする方法である。また式(5)
の自然対数を求め、 lj＝−１／２（ｘ−〓ｊ）^T・〓j^-1・（ｘ−〓ｊ）−Lj…… (6) ただししLj＝loge｛（2π）^n/2・｜〓ｊ｜^1/2｝として、式(6)を最大とする音素または擬音素を求
めても同じ結果となり、しかも計算量が減少す
る。マハラノビス距離は式(6)の第１項で定義され
る。すなわち、 dj＝（ｘ−〓ｊ）^T・Wj・（ｘ−〓ｊ）……(7) である。判別結果はdjを最小とするｊ＝jmを求
めることによつて得られる。いずれにしても統計的距離尺度は〓^T・〓・〓
（〓はベクトル、〓はマトリツクス）という演算
が基本となる。音素判別部６は標準パターンメモリ７に格納し
てある標準パターンとの間で式(6)、または式(7)の
計算を行ない音素を判別し、音素認識結果として
出力する。このように、調音結合や個人性の影響によるば
らつきの少ない特徴パラメータと、ばらつきの状
態を考慮した距離尺度を組合わせることによつて
不特定話者を対象とした場合においても高い認識
率を確保することが出来る。第１表は、母音に関
して従来の方法（自己相関関数と予測残差距離）
と、本実施例による方法とを比較したものであ
る。比較のために使用した音声データは、男性話
者10名が各々が発声した212単語の中の母音に相
当する全フレーム（１フレーム10msec長）であ
る。比較の尺度は正しく認識したフレームの数の全フ
レームに対する割合（％表示）である。

【表】第１表から明らかなように本実施例は従来例よ
りも格段に良い結果を得ることが出来る。ところで第２図の処理を実時間で行なう場合、
AD変換器１からの入力と特徴パラメータ算出部
７、音素判別部ｇの２つのブロツクにおける全て
の処理を１フレームの時間（たとえば10msec）
内で行なわなければならない。しかし、１フレー
ムの時間内にLPC計算と式(4)の計算および式(6)
または式(7)の計算を音素標準パターンの数だけ行
うことは現在の技術では困難である。本実施例では、第２図の基本構成に加えて第３
図に示すように、特徴パラメータ算出部５の前段
に入力データ蓄積部１８を、音素判定部６の前段
にデータ交換部１９を設け、音声の入力、特徴パ
ラメータの算出、音素の判別、結果の出力という
４つの処理をパイプライン処理により同時に行え
るようにしてこの問題を解決している。第４図は本発明の実施例の具体的構成を示した
ものである。また第５図はパイプライン処理のタ
イミングを示している。第４図において第２図及
び第３図と同じ機能をもつブロツクは同一の符号
を付している。以下第４図と第５図によつて本発明の実施例の
説明を行なう。本実施例において、AD変換のサ
ンプリング周波数は12KHz、フレーム長は
10msec、窓計算における窓長は20msecである。
したがつて１フレーム内の音声データサンプルは
120ワードである。またLPC分析におけるフイル
タの次数は15である。第４図において８と９はAD変換器１から12K
Hz周期毎に送られてくる音声データを一時蓄積し
ておくメモリであり、各々１フレーム分のデータ
が蓄積出来る容量（120ワード）を有している。
８をメモリＡ、９をメモリＢと呼ぶことにする。
これらのメモリの入出力は切替スイツチ１３と１
４により切替えられる。切替スイツチ１３がａ側
に接続されているとき、切替スイツチ１４はｄ側
に接続される。反対に切替スイツチＢがｂ側に接続されていると
き、切替スイツチ１４はｃ側に接続される。この
切替スイツチ１３と１４はフレーム同期信号発生
部１２により発生されるフレーム周期毎のパルス
により切替が行なわれる。このようにすることに
より、AD変換器１から送られてくる音声データ
の入力と、特徴パラメータ算出部５における計算
を同時に独立して行うことが出来る。この特徴パ
ラメータ算出部５はマイクロプロセツサにより構
成され、メモリＡ８またはメモリＢ９に格納され
ている音声データに対し、窓計算、自己相関計算
LPC計算、LPCケプストラム計算などを行うも
のである。１０と１１は結果を格納しておくため
のメモリで、１０をメモリＣ、１１をメモリＤと
呼ぶことにする。これらのメモリ１０，１１の入出力は切替スイツ
チ１５，１６，１７によつて切替えられる。切替
スイツチ１５がｅ側に接続されているとき、切替
スイツチ１６，１７はそれぞれｈ側、ｉ側に接続
され、反対に切替スイツチ１５がｆ側に接続され
ているときは、切替スイツチ１６，１７はそれぞ
れｇ側、ｊ側に接続されるようになつている。ま
たこの切替スイツチ１５，１６，１７の切替の変
更は切替スイツチ１３，１４と同時にフレーム同
期信号発生部１２により発生されるフレーム周期
毎のパルスにより行なわれる。これにより特徴パ
ラメータ算出部５における計算と音素判別部６に
おける距離計算、そして外部装置に対する音素認
識結果の出力という三つの処理を同時に独立して
行うことが出来る。特徴パラメータ算出部５によ
つて算出されたLPCケプストラム係数は、メモ
リ１０またはメモリ１１に書き込まれ、次のフレ
ームの間保持される。音素判別部６は、音素の判
別を行うためのマイクロプロセツサであり、メモ
リ１０またはメモリ１１に格納されているLPC
ケプストラム係数と標準パターンメモリ７に格納
されている標準パターンとの間で式(6)または式(7)
の計算により音素の判定を行なう。音素判定結果はただ１つの音素を決め出力するの
ではなく、第１候補、第２候補というように複数
個がそれぞれの類似度と共にメモリ１０またはメ
モリ１１に書き込まれる。この音素認識結果はメ
モリ１０またはメモリ１１において、特徴パラメ
ータ算出部５によりLPCケプストラム係数が書
き込まれている領域より後ろの領域に書き込まれ
次のフレームの間保持され、音声認識装置などの
外部装置に出力される。第５図は第４図で説明した処理を行なうタイミ
ングを示したものである。第ｉフレームにおける
第４図の切替スイツチ１３，１４，１５，１６，
１７がそれぞれａ側、ｄ側、ｅ側、ｈ側、ｉ側に
接続されているとした場合、12KHz周期ごとに
AD変換器１から送られてくる音声データはメモ
リＡ８に格納される。また、このとき、特徴パラ
メータ算出部５はメモリＢ９に格納されているｉ
−１フレームの音声データを用いLPCケプスト
ラム係数を計算し結果をメモリＣ１０に書く。音
素判別部６はメモリＤ１１に格納されているｉ−
２フレームのLPCケプストラム係数と標準パタ
ーンとの類似度を計算し判定結果をメモリ１１に
書く。そして、メモリ１０に格納されているｉ−
３フレームの音素認識結果は外部装置に出力され
る。次の第ｉ＋１フレームの場合、第４図におけ
る切替スイツチ１３，１４，１５，１６，１７は
それぞれｂ側、ｃ側、ｆ側、ｇ側、ｊ側に切り替
えられ、AD変換器１からの入力、特徴パラメー
タの算出、音素の判定、結果の出力は、それぞれ
ｉ＋１，ｉ，ｉ−１，ｉ−２のフレームのデータ
を処理する。このように特徴パラメータ算出用マ
イクロプロセツサと音素判別用マイクロプロセツ
サに第４図８，９，１３，１４で構成される入力
データ蓄積部１８と、第４図１０，１１，１５，
１６，１７で構成されるデータ交換部１９を設け
ることにより、音声データの入力、特徴パラメー
タの算出、音素判別、認識結果の外部装置への出
力という４つの処理を同一の時間に独立して行な
うことが可能となる。そして、上記４つの処理の結果はフレーム周期に
同期し後段で利用される。また各部の処理結果は
メモリを切替えることにより行なわれるため、処
理ブロツク間におけるデータの受け渡しを高速に
することが出来る。このようなフレーム周期に同
期したパイプライン処理により本実施例では音声
信号が入力されてから４フレームの時間
（40msec）で音素を認識することが出来る。また
第４図１０，１１，１５，１６，１７の構成によ
るデータ交換部１９により、音素認識結果出力用
のバツフアメモリを別に設ける必要性をなくした
という特徴もある。第２表は本実施例におけるパイプライン処理を
行なつた場合の、特徴パラメータ算出部５のマイ
クロプロセツサ、音素判別部６のマイクロプロセ
ツサで行なうべき計算量を示したものである。た
だし、音素判別部６における標準パターンの数は
30とした。各々のマイクロプロセツサはこれだけ
の計算を10msecで行なえばよく、サイクルタイ
ム250msec程度のものでよい。この程度のものは
信号処理用マイクロプロセツサと称されるものを
用いることにより容易に作成することが出来る。

【表】一方、パイプライン処理を行なわなければ
10msecの間に第２表の両者を加えた回数に更に
データ転送などの処理が加わるため、そのサイク
ルタイムは100msec以下となり作成が困難であ
る。以上のように本実施例は、特徴パラメータとし
てLPCケプストラム係数を用い、これを標準パ
ターンを照合する距離尺度として統計的距離尺度
を用いることにより、不特定話者を対象としても
高い音素認識率を確保し、さらにパイプライン処
理を可能とする構成をとるより認識を実時間で行
ない得る音素認識装置である。発明の効果以上のように本発明は、特徴パラメータとして
LPCケプストラム係数を算出する特徴パラメー
タ算出部と、前記特徴パラメータと音素または擬
音素の標準パターンとを照合し、統計的距離尺度
によつて音素を判別する音素判別部と、さらに前
記特徴パラメータ算出部の前段に入力データ蓄積
部を、前記特徴パラメータ算出部と音素判別部と
の間にデータ交換部を設け、前記入力データ蓄積
部を、第１及び第２の記憶手段と、入力信号を前
記第１又は第２の記憶手段に切り替える第１の切
替手段と、前記第１又は第２の記憶手段の情報を
選択的に取り出す第２の切替手段とから少なくと
も構成し、前記データ交換部を、第３及び第４の
記憶手段と、特徴パラメータ算出部からの情報を
前記第３又は第４の記憶手段に切り替える第３の
切替手段と、前記第３又は第４の記憶手段と音素
判別部とを選択的に接続する第４の切替手段と、
前記第３又は第４の記憶手段の情報を選択的に読
み出す第５の切替手段とから少なくとも構成し、
これらを用いて音声の入力、特徴パラメータの算
出、音素の判別、認識結果の出力という４つの処
理をフレームに同期したパイプライン処理するこ
とにより音声信号を音素または擬音素の系列に変
換するという音素認識を行なうもので、不特定話
者を対象としても高い認識率と高速認識処理とが
達成できる利点を有する。

【図面の簡単な説明】

第１図は従来の音声認識装置における音素認識
部のブロツク図、第２図は本発明の実施例である
音素認識装置の基本構成を示すブロツク図、第３
図は本発明の実施例である音素認識装置の構成を
示すブロツク図、第４図は第３図に示す音素認識
装置の具体的構成を示すブロツク図、第５図は本
実施例のタイミングチヤートである。１……AD変換器、２……相関器、３……距離
計算部、４……標準パターン（最大スペクトルパ
ラメータ）格納部、５……特徴パラメータ算出
部、６……音素判別部、７……標準パターンメモ
リ、８，９……音声信号蓄積用メモリ、１０，１
１……データ交換用メモリ、１２……フレーム同
期信号発生部、１３，１４，１５，１６，１７…
…切替スイツチ、１８……入力データ蓄積部、１
９……データ変換部。

Claims

【特許請求の範囲】１特徴パラメータとしてのLPCケプストラム
係数を算出する特徴パラメータ算出部と、多くの
話者の音声データから該当する音素の部分を抽出
して、音素の統計的分布を表現する標準パターン
を音素ごとにあらかじめ作成して格納する標準パ
ターン格納部と、前記特徴パラメータと、音素の
標準パターンとを照合し、統計的距離尺度によつ
て類似度を算出し音素を判別する音素判別部とを
少なくとも有し、前記特徴パラメータ算出部の前
段に入力データ蓄積部を、前記特徴パラメータ算
出部と音素判別部との間にデータ交換部を設け、
前記入力データ蓄積部を、第１及び第２の記憶手
段と、入力信号を前記第１又は第２の記憶手段に
切り替える第１の切替手段と、前記第１又は第２
の記憶手段の情報を選択的に取り出す第２の切替
手段とから少なくとも構成し、前記データ交換部
を、第３及び第４の記憶手段と、特徴パラメータ
算出部からの情報を前記第３又は第４の記憶手段
に切り替える第３の切替手段と、前記第３又は第
４の記憶手段と音素判別部とを選択的に接続する
第４の切替手段と、前記第３又は第４の記憶手段
の情報を選択的に読み出す第５の切替手段とから
少なくとも構成し、音声の入力、特徴パラメータ
の算出、音素の判別、認識結果の出力という４つ
の処理をフレームごとにパイプライン処理により
行ない不特定話者の音素認識を行なうことを特徴
とする音素認識装置。２統計的距離尺度がベイズ判定に基づく距離、
マハラノビス距離、線形判別関数のいずれかであ
ることを特徴とする特許請求の範囲第１項記載の
音素認識装置。