JPH0345839B2 - - Google Patents

Info

Publication number
JPH0345839B2
JPH0345839B2 JP58007781A JP778183A JPH0345839B2 JP H0345839 B2 JPH0345839 B2 JP H0345839B2 JP 58007781 A JP58007781 A JP 58007781A JP 778183 A JP778183 A JP 778183A JP H0345839 B2 JPH0345839 B2 JP H0345839B2
Authority
JP
Japan
Prior art keywords
phoneme
similarity
standard pattern
speech recognition
feature parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58007781A
Other languages
English (en)
Other versions
JPS59131999A (ja
Inventor
Katsuyuki Futayada
Hideji Morii
Satoshi Fujii
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58007781A priority Critical patent/JPS59131999A/ja
Publication of JPS59131999A publication Critical patent/JPS59131999A/ja
Publication of JPH0345839B2 publication Critical patent/JPH0345839B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
産業上の利用分野 本発明は不特定話者を対象とした音声認識装置
に関するものである。 従来例の構成とその問題点 音素判別は、話者識別とその考え方と異にす
る。即ち音素判別は、人の口から発せられた音声
の中に含まれる情報のうち、音韻性情報(話者が
話したい意味内容を表現する情報)を抽出して認
識するものであるのに対し、話者識別は話者情報
(話をしている人が誰であるかを表わす情報)の
みを抽出するもので、基本的な考え方が異なる。
音声の認識を行なう場合、マイクロホンによつて
電気信号に変換された時系列の音声信号を、フレ
ームと呼ばれる単位に区切つて、各々のフレーム
を単位として分析を行ない、特徴パラメータに変
換し、音声信号を特徴パラメータ系列に変換する
のが一般的な方法である。この場合、1フレーム
は10msec程度に選ばれる。また分析方法として、
フイルタ分析法や線形予測(LPC)分析法がよ
く利用される。 次に、特徴パラメータを複数の音素または擬音
素(音素に類するもの;例えば/hiと/ha/で
は/h/のパターンが異なり、前者を/h/とし
後者を/h*/とする)の標準パターンと比較し
て、特徴パラメータとの類似度が最も大きい音素
または擬音素を標準パターンの中から選び、その
符号でフレームを代表させる手法がよく使われ
る。このようにすれば、各フレームごとに多くの
記憶容量を必要とする音声信号(たとえば精度12
ビツトで12kHzサンプリングされたデータは
10msecあたり1440ビツトである)が8ビツト程
度に圧縮されることになり、以後の認識過程が簡
単となる。 従来例の代表として、上記の方法において特徴
パラメータとして自己相関関数を用い、類似度を
予測残差距離で求める方法を説明する。 いま未知特徴パラメータを、 〓=(υ1,υ2……υo) ……(1) ただしυiはi次の自己相関関数、nはパラメー
タ数 音素または擬音素j(j=1,……l;lは標
準パターンの数)に対する標準パターンを 〓j=(aj1,aj2,……aJo) ……(2) ただしajiはi次の最尤スペクトルパラメータと
すると、類似度(距離)djは dj=〓T j・〓 ……(3) Tは転置を表わす。 であるj=jnのときdjが最小となれば、jnに相当
する音素または擬音素をそのフレームの結果とす
る。 第1図は従来法を実現するためのブロツク図で
ある。マイクロホンで電気信号に変換された音声
信号はAD変換器1でデイジタル信号に変換さ
れ、フレームごとに相関器2で自己相関関数υ1
υo(特徴パラメータ)に変換される。3は距離計
算部で、標準パターンメモリ4から標準パターン
Ajiを読み出し、自己相関関数υiとの間に式(3)の計
算を行なつて、類似度djが最小となるj=jnを求
め、jnに相当する音素または擬音素を出力する部
分である。音声認識部5は、フレームごとに入つ
てくる音素、擬音素を単語辞書6の辞書項目と比
較し、最も類似度の高い単語を認識結果として出
力する。 この方法は計算式が簡単で、高速の認識に適し
た方法である。特定話者を対象とする場合や、小
数語の不特定話者を対象とする場合には、このよ
うな方法でもかなり良い結果を得ることができ
る。しかし不特定話者、多数語を対象とする場合
には、調音結合の微妙な影響や個人性による特徴
パラメータの差異によつて、認識率が低下する。
不特定話者、多数語を対象として高い認識率を確
保するためには、特徴パラメータとして、調音結
合や個人性の影響を受けにくいものを使用し、類
似度の計算に対しては、これらの変動によるばら
つきを考慮に入れた距離尺度を使用する必要があ
る。しかし、そのような方法は一般に認識に要す
る計算が複雑であり、高速で認識できるシステム
を構成することが不可能であつた。 発明の目的 本発明は不特定話者・多数語を対象として高い
認識率を確保し、高速(リアルタイム)で認識処
理を行なうことができる音声認識装置を提供する
ことを目的とする。 発明の構成 本発明は上記目的を達成するもので、音声信号
を音素または擬音素の系列に変換し、これを単語
辞書と照合することによつて音声認識を行なう音
声認識製置であつて、音声信号を音素または擬音
素系列に変換するために、特徴パラメータとして
特徴パラメータとしてLPCケプストラム係数を
算出する特徴パラメータ算出部と、前記特徴パラ
メータと音素または擬音素の標準パターンとを照
合しベイズ判定に基づく距離(以下ベイズ判定と
略す)、マハラノビス距離、線形判別関数等の統
計的距離尺度によつて類似度を算出する類似度算
出部と、各音素または擬音素の標準パターンとし
て、多くの音声データから該当する音素の部分を
抽出して、前記抽出された音素の部分を用いて音
素の統計的分布を表現する標準パターンを音素ご
とに予め作成して格納する標準パターン格納部
と、音声信号を音素または擬音素の系列に変換す
る判定部と、前記音素または擬音素を単語辞書と
照合する音声認識部とを具備し、前記特徴パラメ
ータ算出部の前段に入力信号を切り替える第1の
切替手段を設け、前記特徴パラメータ算出部が、
前記第1の切替手段により入力信号が選択的に入
力される第1及び第2の記憶手段、前記第1又は
第2の記憶手段の情報を選択的に取り出す第2の
切替手段及び第1のプロセツサから少なくともな
り、前記類似度算出部が、前記第1のプロセツサ
によつて算出された特徴パラメータを格納するた
めの共通メモリ、前記共通メモリ内の特徴パラメ
ータと前記標準パターンとの間の類似度を算出す
る第2のプロセツサ及び前記第2のプロセツサの
出力を格納する類似度メモリから少なくとも構成
され、前記特徴パラメータ算出部と類似度算出部
とが各フレームごとにパイプライン処理されるこ
とによつて不特定話者の音声認識を行うことを特
徴とする音声認識装置を提供するものである。 実施例の説明 本発明の基本的な考え方は調音結合や個人性に
よる変動の影響を受けにくい特徴パラメータとし
てLPCケプストラム係数を使用し、また調音結
合や個人性の影響による特徴パラメータのばらつ
きを考慮した距離尺度として、ハマラノビス距
離、ベイズ判定や線形判別関数などの統計的距離
尺度を使用するものである。 第2図は本発明を実現するためのブロツク図を
示したものである。図において1はAD変換器で
あり第1図と同じである。7は特徴パラメータ算
出部であり、窓計算、LPC分析およびLPCケプ
ストラム計算を行なう部分である。LPCケプス
トラム係数は、LPC分析によつて音声波から声
帯音源の特性を除去し、その後に得られるスペク
トルの包絡特性を記述するパラメータである。 LPCケプストラム係数は、LPC分析によつて
得られる線形予測係数を使つて式(4)で計算でき
る。 (LPC分析に関しては例えば中田和男著
『音声』日本音響学会編などに詳しい説明があ
る。) Ci=−αii-1k=1 i−k/i・αk・Ci-k ……(4) (i=1,2……n) ただしαiはi次の線形予測係数である。8は類
似度計算部で、本実施例では距離尺度として、マ
ハラノビス距離、ベイズ判定や線形判別関数など
の統計的距離尺度を使用する。前者2つの距離尺
度はパラメータの分布状態を標準パターンの中に
所持している。また後者は、パラメータの分布を
考慮して係数の値を設定したものである。距離尺
度は次のようにして算出される。 音素または擬音素jに対する標準パターンとし
て、その平均値を〓j、共分散行列を〓jとする
と、未知入力ベクトル〓に対する確率密度は式(5)
で表わされる。 Pj(x)=1/(2π)n/2・|Wj1/2exp {−1/2(x−μjT・W-1(+)・(x−μj
} ……(5) ただし、|〓|は行列式の値、〓-1は逆行列、
添字、Tは転置を表わす。 式(5)で標準パターン〓j,〓jは音素名が判つて
いる多くのデータ(LPCケプストラム係数)を
使用して、あらかじめ作成しておく。したがつ
て、これらは定数である。またxは判別すべきデ
ータ(LPCケプストラム係数)である。 ベイズ判定は式(5)を最大とする音素または擬音
素j=jnを判別結果とする方法である。式(5)の自
然対数を求めて lj=−1/2(〓−〓jT・ 〓-1 j・(〓−〓j)−Lj ……(6) ただしLj=loge{(2π)〓・|Wj|〓}として
式(6)を最大とする音素または擬音素を求めても同
じ結果となり、しかも計算量が減少する。本発明
では式(6)を使用している。 マハラバビス距離は式(6)の第1項で定義され
る。 すなわち dj=(〓−〓jT・〓-1 j・(〓−〓j) ……(7) である。判別結果はdjを最小とするj=jnを求め
ることによつて得られる。 いずれにしても統計的距離尺度は〓T・〓・〓
(〓はベクトル、〓マトリツクス)という演算が
基本である。類似度計算部8では標準パターンメ
モリ9に格納してある標準パターンとの間で式(6)
または式(7)の計算を行なう。10は判別部であ
り、ベイズ判定の場合は最大値を、マハラノビス
距離の場合は最小値を求めて、該当する音素また
は擬音素の符号を出力する。5は音声認識部、6
は単語辞書であり、音声認識部5により、フレー
ムごとに入つてくる音素、擬音素を単語辞書6の
辞書項目と比較し、最も類似度の高い単語を認識
結果として出力する。 このように、調音結合や個人性の影響によるば
らつきの少ない特徴パラメータと、ばらつきの状
態を考慮した距離尺度を組合わせることによつ
て、不特定話者・多数語を対象とした場合におい
ても、高い認識率を確保することができる。第1
表は、母音に関して従来の方法(自己相関関数と
予測残差距離)と、本実施例に関する方法を比較
したものである。比較のために使用したデータ
は、男声話者10名各々が発声した212単語の中の
母音に相当する全フレームである。比較の尺度は
正しく認識できたフレームの数の全フレームに対
する割合(%表示)である。
【表】 第1表から明らかなように本実施例は従来例よ
りも格段に良い結果を得ることができる。 第2図の処理を実時間で行なう場合、AD変換
器1、特徴パラメータ算出部7、類似度計算部8
および判別部10のブロツクはフレーム単位(た
とえば10msec以内)で行なわねばならない。そ
れに対して音声認識部5の処理は単語単位でよ
い。したがつて前者の高速化が大きな課題であ
る。しかし、1フレームの時間内にLPC計算と
式(4)の計算および式(6)または式(7)の計算を標準パ
ターンの数だけ行なうことは現在の技術では困難
である。特に特徴パラメータ算出部7と類似度計
算部8の部分の計算量が多い。 本実施例ではこの問題を、パイプライン処理を
行なうことによつて解決している。 第3図はパイプライン処理によつて実時間処理
を行なう方法を実施例によつて説明したものであ
る。また第4図はパイプライン処理のタイムチヤ
ートである。第3図において第2図と同じ機能を
持つブロツクは同一の番号となつている。また破
線の部分は第2図との対応を示している。 以下第3図と第4図によつて実施例の説明を行
なう。本実施例において、AD変換のサンプリン
グ周波数は12kHz、フレーム長は10msec、窓計算
における窓長は20msecである。したがつて、1
フレーム内のデータ数は120ワードである。また
LPC分析におけるフイルタの次数は15である。 第3図において、11と12はAD変換器1後
の入力データを蓄積しておくメモリであり、各々
1フレーム分のデータが蓄積できる容量(120ワ
ード)を有している。11をメモリA、12をメ
モリBと呼ぶことにする。これらのメモリ11,
12の入出力はスイツチ13と14によつて切替
えられる。スイツチ13がa側に接続されている
時スイツチ14はdに接続され、スイツチ13が
b側のときスイツチ14はc側に接続されるよう
になつている。これは、データの入力と計算を非
同期で行なうためである。15はメモリA11ま
たはメモリB12から送出されたデータに対し、
窓計算、自己相関関数、LPC計算、LPCケプス
トラム計算などを行なうための第1のデイジタル
シグナルプロセツサ(DSPと記す)である。1
6は共通メモリであり、前のフレームの終わりに
第1のDSP(DSP−1)15からLPCケプストラ
ム係数を受け取り次のフレームの初めに第2の
DSP(DSP−2)17へ送出する。17は類似度
の計算その他を行うためのDSPであり、入力パ
ラメータと標準パターンメモリ9に格納されてい
る各標準パターンとの間に式(6)または式(7)の計算
などを行なう。そして各標準パターンに対する類
似度を類似度メモリ18に送出する。19は単語
認識部でフレームごとに送出されてくる類似度デ
ータを受けとり、音素または擬音素の系列になお
して単語辞書6の辞書項目と比較して単語認識を
行なう部分である。 第4図は第3図で説明した処理を行なうタイム
チヤートであり、各フレームのデータがパイプラ
イン処理されることを示している。AD変換器1
に入力された各フレームの音声信号は4フレーム
の時間(40msec)で音素または擬音素に変換さ
れる。これによつて見かけ上、処理時間を4倍に
伸ばすことができる。図において例えば第iフレ
ームのデータに対して最初の10msecの間にメモ
リA11に取り込み、次の10msecで第1のDSP
(DSP−1)15によつて特徴パラメータを抽出
し、次の10msecで第2のDSP(DSP−2)17に
よつて類似度を計算し、次の10msecでそれを単
語認識部19に送出する。第i+1フレームのデ
ータは最初メモリB12へ取り込まれ、その後は
同様である。このように同一の時間で、各ブロツ
クが異なつたフレームのデータを処理し、それを
次々と伝送してゆくという方法(パイプライン処
理)を行なえば複雑な計算を実時間で行うことが
できる。 第2表は上に述べたパイプライン処理を行なつ
た場合において、DSP−1およびDSP−2で行
なうべき計算量を示したものである。ただし、
DSP−2の計算量において標準パターン数は30
とした。各々のDSPはこれだけの計算を10msec
で行なえばよく、サイクルタイム250msec程度の
ものでよい。この程度のDSPは市販のマイクロ
プロセツサを使用して容易に作成することができ
る。
【表】 一方、パイプライン処理を行なわなければ、
10msecの間に第2表の両者を加えた回数に更に
データ転送などの処理が加わるためサイクルタイ
ム100nsec以内のDSPが必要となり、現技術では
容易には作成が困難である。 以上のように本実施例は特徴パラメータとして
LPCケプストラム係数を用い、これと標準パタ
ーンを比較する距離尺度として統計的距離尺度を
用いることにより、不特定話者・多数語の音声認
識においても高い認識率が確保できた。すなわち
男女各20名各々が発声した200単語に対して、単
語認識率が平均で95%という良い結果を得ること
ができた。また特徴パラメータの計算と距離計算
(類似度計算)の部分に対してパイプライン処理
を適用すると、認識を実時間で行ない得ることが
確認できた。 発明の効果 以上のように本発明は特徴パラメータとして
LPCケプストラム係数を算出する特徴パラメー
タ算出部と、前記特徴パラメータと音素または擬
音素の標準パターンとを照合し統計的距離尺度に
よつて類似度を算出する類似度算出部とを少なく
とも設け、前記両算出部を各フレームごとにパイ
プライン処理される構成とし、前記両算出部を用
いて音声信号を音素または擬音素の系列に変換
し、前記音素または擬音素を単語辞書と照合する
ことによつて音声認識を行い、前記特徴パラメー
タ算出部と類似度算出部とを各フレームごとにパ
イプライン処理するもので、高い認識率と高速認
識処理とが達成できる。
【図面の簡単な説明】
第1図は従来の音声認識装置のブロツク図、第
2図は本発明の実施例である音声認識装置のブロ
ツク図、第3図は本発明の音声認識装置の具体構
成のブロツク図、第4図は本実施例のタイミング
チヤートである。 1……AD変換器、2……相関器、3……距離
計算部、4……標準パターン(最大スペクトルパ
ラメータ)格納部、5……音声認識部、6……単
語辞書、7……特徴パラメータ算出部、8……類
似度計算部、9……標準パターンメモリ、10…
…判別部、11,12……入力メモリ、13,1
4……切替スイツチ、15……第1のデイジタル
シグナルプロセツサ(DSP−1)、16……共通
メモリ、17……第2のデイジタルシグナルプロ
セツサ(DSP−2)、18……類似度メモリ、1
9……単語認識部。

Claims (1)

  1. 【特許請求の範囲】 1 特徴パラメータとしてLPCケプストラム係
    数を算出する特徴パラメータ算出部と、前記特徴
    パラメータと音素または擬音素の標準パターンと
    を照合し統計的距離尺度によつて類似度を算出す
    る類似度算出部と、各音素または擬音素の標準パ
    ターンとして、多くの音声データから該当する音
    素の部分を抽出して、前記抽出された音素の部分
    を用いて音素の統計的分布を表現する標準パター
    ンを音素ごとに予め作成して格納する標準パター
    ン格納部と、音声信号を音素または擬音素の系列
    に変換する判定部と、前記音素または擬音素を単
    語辞書と照合する音声認識部とを具備し、前記特
    徴パラメータ算出部の前段に入力信号を切り替え
    る第1の切替手段を設け、前記特徴パラメータ算
    出部が、前記第1の切替手段により入力信号が選
    択的に入力される第1及び第2の記憶手段、前記
    第1又は第2の記憶手段の情報を選択的に取り出
    す第2の切替手段及び第1のプロセツサから少な
    くともなり、前記類似度算出部が、前記第1のプ
    ロセツサによつて算出された特徴パラメータを格
    納するための共通メモリ、前記共通メモリ内の特
    徴パラメータと前記標準パターンとの間の類似度
    を算出する第2のプロセツサ及び前記第2のプロ
    セツサの出力を格納する類似度メモリから少なく
    とも構成され、前記特徴パラメータ算出部と類似
    度算出部とが各フレームごとにパイプライン処理
    されることによつて不特定話者の音声認識を行う
    ことを特徴とする音声認識装置。 2 統計的距離尺度がベイズ判定に基づく距離、
    マハラノビス距離、線形判別関数のいずれかであ
    ることを特徴とする特許請求の範囲第1項記載の
    音素認識装置。
JP58007781A 1983-01-19 1983-01-19 音声認識装置 Granted JPS59131999A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58007781A JPS59131999A (ja) 1983-01-19 1983-01-19 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58007781A JPS59131999A (ja) 1983-01-19 1983-01-19 音声認識装置

Publications (2)

Publication Number Publication Date
JPS59131999A JPS59131999A (ja) 1984-07-28
JPH0345839B2 true JPH0345839B2 (ja) 1991-07-12

Family

ID=11675211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58007781A Granted JPS59131999A (ja) 1983-01-19 1983-01-19 音声認識装置

Country Status (1)

Country Link
JP (1) JPS59131999A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59223499A (ja) * 1983-06-02 1984-12-15 松下電器産業株式会社 音素認識装置
JPS6067996A (ja) * 1983-09-22 1985-04-18 松下電器産業株式会社 音声認識方法
JPH0760318B2 (ja) * 1986-09-29 1995-06-28 株式会社東芝 連続音声認識方式
JPH067343B2 (ja) * 1987-02-23 1994-01-26 株式会社東芝 パタ−ン識別装置
EP0316112A3 (en) * 1987-11-05 1989-05-31 AT&T Corp. Use of instantaneous and transitional spectral information in speech recognizers

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5548812A (en) * 1978-10-02 1980-04-08 Yorimoto Tanno Compressing and expanding unit for time axis of audio
JPS56168695A (en) * 1980-05-30 1981-12-24 Dainippon Printing Co Ltd Voice recognizing device
JPS5734596A (en) * 1980-08-11 1982-02-24 Matsushita Electric Ind Co Ltd Voice recognizing device
JPS6336678A (ja) * 1986-07-31 1988-02-17 Matsushita Electric Ind Co Ltd 復調装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5548812A (en) * 1978-10-02 1980-04-08 Yorimoto Tanno Compressing and expanding unit for time axis of audio
JPS56168695A (en) * 1980-05-30 1981-12-24 Dainippon Printing Co Ltd Voice recognizing device
JPS5734596A (en) * 1980-08-11 1982-02-24 Matsushita Electric Ind Co Ltd Voice recognizing device
JPS6336678A (ja) * 1986-07-31 1988-02-17 Matsushita Electric Ind Co Ltd 復調装置

Also Published As

Publication number Publication date
JPS59131999A (ja) 1984-07-28

Similar Documents

Publication Publication Date Title
Vergin et al. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition
US4933973A (en) Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
JP3114975B2 (ja) 音素推定を用いた音声認識回路
US5459815A (en) Speech recognition method using time-frequency masking mechanism
US4696040A (en) Speech analysis/synthesis system with energy normalization and silence suppression
US5528725A (en) Method and apparatus for recognizing speech by using wavelet transform and transient response therefrom
JPS58130393A (ja) 音声認識装置
JPH0361959B2 (ja)
JPS58102299A (ja) 部分単位音声パタン発生装置
JPS6128998B2 (ja)
Elenius et al. Effects of emphasizing transitional or stationary parts of the speech signal in a discrete utterance recognition system
KR102508640B1 (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
JPH0345840B2 (ja)
JPH0345839B2 (ja)
JPH10247093A (ja) オーディオ情報分類装置
JP4461557B2 (ja) 音声認識方法および音声認識装置
JPH0215080B2 (ja)
US5765124A (en) Time-varying feature space preprocessing procedure for telephone based speech recognition
JP3250604B2 (ja) 音声認識方法および装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JPH10133678A (ja) 音声再生装置
JPH0738114B2 (ja) フオルマント型パタンマツチングボコ−ダ
Nara et al. Large-vocabulary spoken word recognition using simplified time-warping patterns
Rajoriya et al. Hindi paired word recognition using probabilistic neural network
JP2658426B2 (ja) 音声認識方法