JPH0311480B2

JPH0311480B2 -

Info

Publication number: JPH0311480B2
Application number: JP58126238A
Authority: JP
Inventors: Yutaka Iizuka
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1983-07-13
Filing date: 1983-07-13
Publication date: 1991-02-18
Also published as: JPS6019200A

Description

【発明の詳細な説明】（技術分野）この発明は、認識性能の向上を図るようにした
音声認識方法に関する。

（従来技術）従来の音声認識装置は第１図のように構成され
ており、１は入力端子、２は周波数分析部、３は
スペクトル変換部、４は音声区間決定部、５は非
類似度演算部、６は標準パターンメモリ、７は判
定部、８は認識結果出力端子である。

従来の音声認識装置では、スペクトル変換した
入力音声パターンと標準パターンｋ，（ｋ＝１〜
Ｋ）との非類似度演算において、非類似度D_kを
入力パターンの時間標本点第ｎ番目のｍチヤネル
目の要素をＡ（ｍ，ｎ）とし、標準パターンｋの
時間標本点ｎ番目のｍチヤネル目の要素をS_k（ｍ，
ｎ）とした時に D_k＝_N 〓ⁿ⁼¹ _M 〓〓^m=1 ｜Ａ（ｍ，ｎ）−S_k（ｍ，ｎ）｜×Ｗ（ｍ，ｎ）…(
1) (1)式により計算しＫ個の標準パターンの中で
D_kを最小とする標準パターンのカテゴリを認識
結果としている。ここで重みＷ（ｍ，ｎ）の計算
方法については数々の方式があるが、本発明の目
的でないので省略する。

従来の音声認識装置では入力音声を周波数分析
し、音声スペクトルの最小２乗近似直線を計算
し、最小２乗近似直線の傾きをスペクトル傾斜値
としている。そしてスペクトル傾斜値が負の場合
は入力音声を有声音と判定し、音声スペクトルか
ら音声スペクトルの最小２乗近似直線を引き、ス
ペクトル傾斜値が正の場合には入力音声を無声音
と判定し、音声スペクトルから音声スペクトルの
平均を引くことにより、入力音声の声帯音源特性
の傾きおよび発声強度の差の正規化を行なつてい
る。その結果「サン」と「ヨン」を誤認識した
り、「ニ」と「キユウ」を誤認識する場合がある。

第２図に「サン」と「ヨン」、「ニ」と「キユ
ウ」の音声パターンのソナグラムの例を示す。第
２図で横方向は周波数軸、たて方向が時間軸であ
る。

このように前記の変換により「サン」と「ヨ
ン」、「ニ」と「キユウ」はかなり似かよつたパタ
ーンになり、その差としては「サン」の先頭数フ
レームは無声音であるが「ヨン」では有声音であ
ること、又「キユウ」の先頭数フレームは無声音
だが「ニ」では有声音であることがあげられる
が、その差はごくわずかであり、前記変換作用に
より、ほとんど同じようなパターンとなつてしま
い、結果として誤認識されることがあり、認識率
低下の原因となつた。

（発明の目的）この発明の目的は、認識率をなくして認識率の
向上をはかることの出来る音声認識方法を提供す
るにある。

（発明の概要）この発明では、上記目的を達成するため非類似
度演算処理時に音声入力パターンと標準パターン
間のスペクトル傾斜値の比較を行わせるようにし
たものであり、以下詳細に説明する。

（発明の実施例）第３図はこの発明の１実施例を示したブロツク
図である。第３図において、１００は入力端子、
２００は周波数分析部である。３００はスペクト
ル変換部であり、カウンタ３０１、乗算回路３０
２、加算回路３０３、レジスタ３０４、加算回路
３０５、レジスタ３０６、マルチプレクサ３０
７，３０８、乗算回路３０９，３１０、減算除算
回路３１１、レジスタ３１２、減算除算回路３１
３、レジスタ３１４、カウンタ３１５、乗算回路
３１６、加算回路３１７、遅延回路３１８、減算
回路３１９、切り換え回路３２０，３２１から成
る。４００は音声区間決定部である。５００は非
類似度演算部であり、入力パターンメモリ５０
１、減算回路５０２、絶対値回路５０３、乗算回
路５０４、重み決定回路５０５、切り換え回路５
０６、アキユムレータ５０７、入力パターンスペ
クトル傾斜値メモリ５０８、コンパレータ５０
９，５１０，標準パターンスペクトル傾斜値メモ
リ５１１、AND回路５１２，５１３，OR回路５
１４、定数発生回路５１５から成る。６００は標
準パターンメモリ、７００は判定部、８００は認
識結果出力端子である。

このような構成において、入力端子１００から
入力される入力音声信号は周波数分析部２００に
入力され、複数の周波数帯域に対応した量子化信
号として周波数分析され、スペクトル変換部３０
０に送られる。周波数分析部２００で、ある時刻
ｎに分析されたＭ個のデータをｘ（ｍ，ｎ）（ｍ＝
１〜Ｍ）とすると、スペクトル変換された入力ス
ペクトルデータＡ（ｍ，ｎ），（ｍ＝１〜Ｍ）は(1)
式で与えられる。

Ａ（ｍ，ｎ）＝ｘ（ｍ，ｎ）−（α_o・ｍ＋β_o）…(1
) (1)式においてα_o，β_oはそれぞれｘ（ｍ，ｎ）の
最小２乗近似直線の傾き及び切片を意味するもの
で、それぞれ次式によつて求められる。

(2)，(3)式においてデータ数Ｍを固定すれば_M 〓^m=1
ｍ，_M 〓^m=1 m²は定数となり、従つて(2)，(3)式の分母
も定数となる。

C₁＝_M 〓^m=1 ｍ，C₂＝_M 〓^m=1 m²とおけば、(2)，(3)式はとなる。ここにC₃＝Ｍ・_M 〓^m=1 m²−（_M 〓^m=1 ｍ）²である。
(4)，(5)式から明らかのように入力データから_M 〓^m=1
ｍ・ｘ（ｍ，ｎ）及び_M 〓^m=1 ｘ（ｍ，ｎ）を求めれば、
(4)，(5)式によりα_o，β_oの値を求めることができ、
さらに(1)式により入力スペクトルデータＡ（ｍ，
ｎ）を求めることができる。

第３図ではこの入力スペクトルデータＡ（ｍ，
ｎ）を次の如くして作つている。まず、周波数分
析部２００より入力された入力データｘ（ｍ，ｎ）
と、入力データと同期して計算するカウンタ３０
１によつて発生したｍとの積を乗算回路３０２に
よつて求め、さらに加算回路３０３とレジスタ３
０４によりｍ・ｘ（ｍ，ｎ）の値を累積させるこ
とにより、レジスタ３０４に_M 〓^m=1 ｍ・ｘ（ｍ，ｎ）
の値をセツトすることができる。また、加算回路
３０５とレジスタ３０６により同様に、レジスタ
３０６に_M 〓^m=1 ｘ（ｍ，ｎ）の値をセツトすることが
できる。

次にマルチプレクサ３０７，３０８において、
それぞれＭ，C₁の値を選択することにより、乗
算回路３０９ではＭ・_M 〓^m=1 ｍ・ｘ（ｍ，ｎ）が、乗
算回路３１０では C₁・_M 〓^m=1 ｘ（ｍ，ｎ）が得られ、切り換え回路３２０，３２１により減
算除算回路３１１側に接続させてさらに減算除算
回路３１１により（Ｍ・_M 〓^m=1 ｍ・ｘ（ｍ，ｎ）−
C₁・_M 〓^m=1 ｘ（ｍ，ｎ））／C₃の演算により、結果す
なわちα_oの値をレジスタ３１２にセツトする。ま
た、その値を入力パターンスペクトル傾斜値とし
て入力パターンスペクトル傾斜値メモリ５０８に
出力する。同様に、マルチプレクサ３０７，３０
８においてそれぞれC₁，C₂を選択させ、乗算回
路３０９，３１０及び切り換え回路３２０，３２
１を減算除算回路３１３側に切り換え、減算除算
回路３１３を使用して（C₂・_M 〓^m=1 ｘ（ｍ，ｎ）−C_1M 〓^m=1 ｍ・ｘ（ｍ，ｎ））／C₃の演算を行ない、その
結果すなわちβ_oの値をレジスタ３１４にセツトす
る。

続いてカウンタ３１５によりｍを発生させ、乗
算回路３１６によりα_o・ｍを求め、さらに加算回
路３１７によりα_o・ｍ＋β_oを求めることができ
る。次に遅延回路３１８により遅延した入力デー
タｘ（ｍ，ｎ）と加算回路３１７で求めたα_o・ｍ
＋β_oの減算を減算回路３１９によつて行なえば、
スペクトル変換データＡ（ｍ，ｎ）が入力パター
ンメモリ５０１に出力される。

第４図は入力データｘ（ｍ，ｎ）、直線Ｙ＝α_o・
ｍ＋β_o，入力スペクトルデータＡ（ｍ，ｎ）の関
係を表わした図である。（ｎはある時刻、ｍ＝１
〜Ｍ）Ｙ＝α_o・ｍ＋β_oはｘ（ｍ，ｎ）の最小２乗
近似直線であり、ｘ（ｍ，ｎ）からα_o・ｍ＋β_oを
さし引いたものがＡ（ｍ，ｎ）である。

音声区間決定部４００は音声区間の始端及び終
端を決定し非類似度演算部に始端決定信号及び終
端検出信号を送るものであり、簡易的な決定法と
してはサンプル周期毎の周波数分析部２００から
のＭ個の分析データの平均値を求めその値があら
かじめ設定された閾値を最初に越えた時点を始点
とし、最後に閾値以下になつた時点を終端とする
決定法がある。

音声区間決定部において、音声の始端が決定さ
れると入力スペクトルパターンデータＡ（ｍ，ｎ）
の入力パターンメモリ５０１への書き込みとスペ
クトル傾斜値の入力パターンスペクトル傾斜値メ
モリ５０８への書き込みが開始される。また、音
声の終端が決定されると入力スペクトルパターン
データの入力パターンメモリ５０１への書き込み
とスペクトル傾斜値が入力パターンスペクトル傾
斜値メモリ５０８への書き込みが打ち切られ、非
類似度演算処理が開始される。まず、スペクトル
変換部３００からスペクトル変換された音声デー
タが入力パターンメモリ５０１に書き込まれる。
入力パターンメモリは２次元のメモリであり、そ
の要素をＡ（ｍ，ｎ）、（ｍ＝１〜Ｍ，ｎ＝１〜Ｎ）
で表わす。また、スペクトル変換部３００から入
力パターンのスペクトル傾斜値が入力パターンス
ペクトル傾斜値メモリ５０８に書き込まれる。入
力パターンスペクトル傾斜値メモリ５０８は１次
元のメモリであり、その要素をIA（ｎ），（ｎ＝１
〜Ｎ）で表わす。非類似度演算部５００ではＫ個
の標準パターンと入力パターンとの非類似度を計
算するが、ここではｋ番目の標準パターンとの非
類似度を計算することを考える。

非類似度D_kは次式で表わされる。

D_k＝_N 〓ⁿ⁼¹ _M 〓^m=1 ｜Ａ（ｍ，ｎ）−S_k（ｍ，ｎ）｜×Ｗ（ｍ，ｎ）＋_N 〓ⁿ⁼¹ CC（ｎ）×WA CC（ｎ）＝１ IA（ｎ）≧Q1かつAA_k（ｎ）≦Q2 又はIA（ｎ）≦Q2かつAA_k（ｎ）≧Q1 ＝０その他 (6) ここで、S_k（ｍ，ｎ）はｋ番目の標準パターン
の要素（ｍ＝１〜Ｍ，ｎ＝１〜Ｎ）。Ｗ（ｍ，ｎ）
は重み決定回路５０５により決定される重み、
AA_k（ｎ）（ｎ＝１〜Ｎ）は標準パターンｋのス
ペクトル傾斜値、Q1，Q2は定数、WAは非類似
度D_kの中でのスペクトル傾斜値による非類似度
の割合を決定するための重み係数である。

まず、非類似度計算用アキユムレータ５０７を
ゼロクリアする。次に、入力音声パターンメモリ
５０１から入力パターンの要素Ａ（ｍ，ｎ）と標
準パターンメモリ６００から標準パターンｋの要
素S_k（ｍ，ｎ）を読み込み減算回路５０２により
Ａ（ｍ，ｎ）−S_k（ｍ，ｎ）を計算し、絶対値回路
５０３により絶対値をとり、乗算回路５０４によ
り重み係数Ｗ（ｍ，ｎ）を乗じる。重み係数Ｗ
（ｍ，ｎ）は重み決定回路５０５により決定され
る。重み決定方式については数々の方式があり、
その例としては特願昭56−184416「音声認識装置」
に開示されており、この発明の目的ではないので
説明は省略する。さらに乗算回路５０４の出力を
切り換え回路５０６を通じアキユムレータ５０７
に加算する。ｍ，ｎをｍ＝１〜Ｍ，ｎ＝１〜Ｎま
で以上の動作を繰り返し、D_kの第１項が計算さ
れることになる。

次に入力パターンスペクトル傾斜値メモリ５０
８から入力パターンのスペクトル傾斜値IA（ｎ），
（ｎ＝１〜Ｎ）を順に読み出し、定数Q1とのコン
パレータ５０９と定数Q2とのコンパレータ５１
０に加える。ここでIA（ｎ）≧Q1なら定数Q1との
コンパレータ５０９の出力「１」となりIA（ｎ）
＜Q1なら「０」となる。又IA（ｎ）≦Q2なら定数
Q2とのコンパレータ５１０の出力は「１」とな
り、IA（ｎ）＞Q2なら「０」となる。一方、標準
パターンスペクトル傾斜メモリ５１１には標準パ
ターンを構成する音声パターンのスペクトル傾斜
値AA_k（ｎ）と定数Q1およびQ2と比較しAA_k
（ｎ）がどの範囲にあるかにより標準パターンス
ペクトル傾斜比較値XY_k（ｎ）に「10」，「00」，
「01」の形であらかじめ書き込んでおく。ここで、 AA_k（ｎ）≧Q1ならXY_k（ｎ）＝「10」 Q1＞AA_k（ｎ）＞Q2ならXY_k（ｎ）＝「00」 AA_k（ｎ）≦Q2ならXY_k（ｎ）＝「01」である。この標準パターンスペクトル傾斜比較値
XY_k（ｎ）の上位１ビツトはAND回路５１３に入
力され、下位１ビツトはAND回路５１２に入力
される。次に、標準パターンスペクトル傾斜値メ
モリ５１１からQ1，Q2との標準パターンスペク
トル傾斜比較値XY_k（ｎ）を順に読み出し、定数
Q1とのコンパレータ５０９、定数Q2とのコンパ
レータ５１０の出力とともにAND回路５１２お
よびAND回路５１３に加える。ここで、IA（ｎ）
≧Q1かつAA_k（ｎ）≦Q2ならばAND回路５１２の
出力は「１」となり、IA（ｎ）≦Q2かつAA_k（ｎ）
≧Q1ならばAND回路５１３の出力は「１」にな
る。次にAND回路５１２およびAND回路５１３
の出力をOR回路５１４に加えることにより、IA
（ｎ）≧Q1かつAA_k（ｎ）≦Q2又はIA（ｎ）≦Q2かつ
AA_k≧Q1の時にOR回路５１４の出力は「１」に
なる。OR回路５１４の出力が「１」になつた時
に定数発生回路５１５から定数WAを発生し、切
り換え回路５０６を通じアキユムレータ５０７に
加算する。ｎを１〜Ｎまで変化させてアキユムレ
ータへの加算が終了したら加算結果を非類似度
D_kとして判定部７００に出力する。判定部７０
０では非類似度が最も小さい標準パターンのカテ
ゴリを認識結果とする。定数Q1，Q2はスペクト
ル傾斜値が正から負へ変化する位置が発声ごとに
ずれる場合があること、又、ノイズにより符号が
逆転する場合にそなえ、入力パターンと標準パタ
ーンのスペクトル傾斜値の符号が明らかに異なる
部分のみ類似度に加算するために 0.2≦Q1≦１ −１≦Q2≦−0.2 程度に設定する。Q1，Q2の絶対値が大きすぎる
場合は非類似度に加算されることが少なく効果が
小さい。定数WAの値は入力パターンと標準パタ
ーンのスペクトル傾斜値の符号が異なるフレーム
が２〜３フレームあつた時に１位，２位のカテゴ
リが逆転するように設定される。

以上説明したように第１の実施例では通常のパ
ターンマツチングに加え音声のスペクトル傾斜値
を比較している。第５図は「サン」と「ヨン」の
スペクトル傾斜値を比較した図である。「サン」
の先頭数フレームは無声音であり、スペクトル傾
斜値が正になつているが、ヨンの先頭数フレーム
は有声音であるためにスペクトル傾斜値が負にな
つている。このため例えば「サン」と発声された
入力スペクトルパターンと「ヨン」の標準パター
ンを本発明による非類似度演算部で比較すれば従
来よりも非類似度が大きくなる。又、「サン」と
発声された入力パターンを「サン」の標準パター
ンと比較する場合には、発声スピードの違いによ
りスペクトル傾斜値が正から負へ変化する点が多
少ずれたとしても、どちらか一方がQ2〜Q1の範
囲内であれば非類似度に失点として加算されるこ
とはないので、非類似度は従来よりも大きくはな
らない。

したがつて、「ヨン」の標準パターンと「サン」
と発声された音声の非類似度はより大きくなり、
「サン」と発声された認識の非類似度はほとんど
変化しないので、誤認識が少なくなり、認識率が
向上する。これらの関係は「ニ」と「キユウ」の
間でも成立する。

（発明の効果）この発明は、通常のパターンマツチングに加
え、音声のスペクトル傾斜値を比較し、非類似度
を演算しているので、「サン」と「ヨン」、「ニ」
と「キユウ」などの間の誤認識が少なく、認識率
が向上するので音声認識応答システムに利用する
ことができる。

【図面の簡単な説明】

第１図は従来の音声認識装置のブロツク図、第
２図は音声パターンの例、第３図はこの発明によ
る音声認識装置の一実施例、第４図は入力データ
ｘ（ｍ，ｎ）とスペクトル変換データＡ（ｍ，ｎ）
との関係を表わした図、第５図はスペクトル傾斜
値の比較図である。１００……入力端子、２００……周波数分析
部、３００……スペクトル変換部、４００……音
声区間決定部、５００……非類似度演算部、５０
１……入力パターンメモリ、５０２……減算回
路、５０３……絶対値回路、５０４……乗算回
路、５０５……重み決定回路、５０６……切り換
え回路、５０７……アキユムレータ、５０８……
入力パターンスペクトル傾斜値メモリ、５０９，
５１０……コンパレータ、５１１……標準パター
ンスペクトル傾斜値メモリ、５１２，５１３……
AND回路、５１４……OR回路、５１５……定数
発生回路、６００……標準パターンメモリ、７０
０……判定部、８００……認識結果出力端子。

Claims

【特許請求の範囲】１入力音声のスペクトル傾斜値を作成する過程
と、入力音声のスペクトル傾斜で正規化されたスペ
クトルパターンを作成する過程と、標準音声の予め用意されたスペクトルパターン
と入力音声の前記スペクトルパターンとのパター
ンマツチングを行い、第１の非類似度を算出する
過程と、入力音声のスペクトル傾斜値が正のある一定値
Q₁以上で前記標準音声のスペクトル傾斜値が負
のある一定値Q₂以下であるか、又は入力音声の
スペクトル傾斜値が負のある一定値Q₂以下で前
記標準音声のスペクトル傾斜値が正のある一定値
Q₁以上である時に定数を発生させるものであつ
てこれらを入力音声のスペクトル傾斜値パターン
の全区間にわたつて行い、発生する定数を累算す
る過程と、前記第１の非類似度と累算された前記定数とを
加算する過程とを備え、その加算値を入力音声と前記標準音声との非類
似度として入力音声を認識することを特徴とした
音声認識方法。