JPH0311479B2

JPH0311479B2 -

Info

Publication number: JPH0311479B2
Application number: JP58126237A
Authority: JP
Inventors: Yutaka Iizuka
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1983-07-13
Filing date: 1983-07-13
Publication date: 1991-02-18
Also published as: JPS6019199A

Description

【発明の詳細な説明】（技術分野）この発明は認識性能の向上を図るようにした音
声認識方法に関する。

（従来技術）従来の音声認識装置は第１図のように構成され
ており、１は入力端子、２は周波数分析部、３は
スペクトル変換部、４は音声区間決定部、５は非
類似度演算部、６は標準音声スペクトルパターン
メモリ、７は判定部、８は認識結果出力端子であ
る。

従来の音声認識装置では、スペクトル変換した
入力音声スペクトルパターンと標準スペクトルパ
ターンｋ（ｋ＝１〜Ｋ）との非類似度演算部にお
いて、非類似度D_kを入力スペクトルパターンの
時間標本点第ｎ番目のｍチヤネル目の要素をＡ
（ｍ，ｎ）とし、標準スペクトルパターンｋの時
間標本点ｎ番目のｍチヤネル目の要素をS_k（ｍ，
ｎ）とした時に、 D_k＝_N 〓ⁿ⁼¹ _M 〓〓^m=1 ｜Ａ（ｍ，ｎ）−S_k（ｍ，ｎ）｜×Ｗ（ｍ，ｎ）…(
1) (1)式により計算し、Ｋ個の標準スペクトルパタ
ーンの中でD_kを最小とする標準スペクトルパタ
ーンのカテゴリを認識結果としている。ここで重
みＷ（ｍ，ｎ）の計算方法については数々の方式
があるが、この本発明の目的でないので省略す
る。

従来の認識装置ではスペクトル変換により入力
音声のパワー情報は完全に失なわれる。その結
果、例えば「イチ」を「ニ」と誤認識したり
「ゴ」を「ロク」に誤認識するという場合がある。

第２図に「イチ」，「ニ」，「ゴ」，「ロク」の音声
パターンソナグラムの例を示す。第２図で横方向
は周波数軸、たて方向が時間軸である。

このようにスペクトル変換により「イチ」と
「ニ」，「ゴ」と「ロク」はかなり似かよつたパタ
ーンとなりその差としては「イ」と「チ」の間の
無音区間、「ロ」と「ク」の間の無音区間が大き
いがパワー情報は失なわれているので、結果とし
て誤認識されることがあり、認識率低下の原因と
なつた。

（発明の目的）この発明の目的はこれらの欠点を解決し、認識
率を向上させることの出来る音声認識方法を提供
するにある。

（発明の概要）この発明では、非類似度演算処理時に音声入力
と標準音声間のパワーパターンの比較を行わせる
ようにしたものであり、以下詳細に説明する。

（発明の実施例）第３図はこの発明の１実施例を示したブロツク
図である。第３図において、１００は入力端子、
２００は周波数分析部である。３００はスペクト
ル変換部であり、カウンタ３０１、乗算回路３０
２、加算回路３０３、レジスタ３０４、加算回路
３０５、レジスタ３０６、マルチプレクサ３０
７，３０８、乗算回路３０９，３１０、減算除算
回路３１１、レジスタ３１２、減算除算回路３１
３、レジスタ３１４、カウンタ３１５、乗算回路
３１６、加算回路３１７、遅延回路３１８、減算
回路３１９、切り換え回路３２０，３２１、除算
回路３２２から成る。

４００は音声区間決定部である。５００は非類
似度演算部であり、入力音声スペクトルパターン
メモリ５０１、減算回路５０２、絶対値回路５０
３、乗算回路５０４、重み決定回路５０５、定数
発生回路５０６、アキユムレータ、入力音声パワ
ーパターンメモリ５０８、加算回路５０９、レジ
スタ５１０、除算回路５１１、標準音声平均パワ
ーメモリ５１２、減算回路５１３、標準音声パワ
ーパターンメモリ５１４、加算回路５１５、切り
換え回路５１６，５１７，５１８から成る。

６００は標準音声スペクトルパターンメモリ、
７００は判定部、８００は認識結果出力端子であ
る。

入力端子１００から入力される入力音声信号は
周波数分析部２００に入力され、複数の周波数帯
域に対応した量子化信号として周波数分析され、
スペクトル変換部３００に送られる。

周波数分析部２００で、ある時刻ｎに分析され
たＭ個のデータをｘ（ｍ，ｎ）（ｍ＝１〜Ｍ）とす
ると、スペクトル変換された入力スペクトルデー
タＡ（ｍ，ｎ），（ｍ＝１〜Ｍ）は(1)式で与えられ
る。

Ａ（ｍ，ｎ）＝ｘ（ｍ，ｎ）−（α_o・ｍ＋β_o）…(1
) (1)式においてα_o，β_oはそれぞれｘ（ｍ，ｎ）の
最小２乗近似直線の傾き及び切片を意味するもの
で、それぞれ次式によつて求められる。

(2)，(3)式においてデータ数Ｍを固定すれば_M 〓^m=1
ｍ，_M 〓^m=1 m²は定数となり、従つて(2)，(3)式の分母
も定数となる。

C₁＝_M 〓^m=1 ｍ，C₂＝_M 〓^m=1 m²とおけば、(2)，(3)式はとなる。ここにC₃＝Ｍ・_M 〓^m=1 m²−（_M 〓^m=1 ｍ）²である。

(4)，(5)式から明らかのように入力データから_M 〓^m=
^１ｍ・ｘ（ｍ，ｎ）及び_M 〓^m=1 ｘ（ｍ，ｎ）を求めれ
ば、(4)，(5)式によりα_o，β_oの値を求めることがで
き、さらに(1)式により入力スペクトルデータＡ
（ｍ，ｎ）を求めることができる。第４図ではこ
の入力スペクトルデータＡ（ｍ，ｎ）を次の如く
作成している。まず、周波数分析部２００より入
力された入力データｘ（ｍ，ｎ）と、入力データ
と同期して計算するカウンタ３０１によつて発生
したｍとの積を乗算回路３０２によつて求め、さ
らに加算回路３０３とレジスタ３０４によりｍ・
ｘ（ｍ，ｎ）の値を累積させることにより、レジ
スタ３０４に_M 〓^m=1 ｍ・ｘ（ｍ，ｎ）の値をセツトす
ることができる。また、加算回路３０５とレジス
タ３０６により同様に、レジスタ３０６に_M 〓^m=1 ｘ
（ｍ，ｎ）の値をセツトすることができる。又、
その結果を除算回路３２２によりＭで除し、音声
パワーP_oとして出力する。

ただし P_o＝１／Ｍ_M 〓^m=1 ｘ（ｍ，ｎ）である。

次にマルチプレクサ３０７，３０８において、
それぞれＭ，C₁の値を選択することにより、乗
算回路３０９ではＭ・_M 〓^m=1 ｍ・ｘ（ｍ，ｎ）が、乗
算回路３１０では C₁・_M 〓^m=1 ｘ（ｍ，ｎ）が得られ、切り換え回路３２０，３２１により減
算除算回路３１１側に接続させてさらに減算除算
回路３１１により（Ｍ・_M 〓^m=1 ｍ・ｘ（ｍ，ｎ）−
（１・_M 〓^m=1 ｘ（ｍ，ｎ））／C₃演算により、結果すな
わちα_oの値をレジスタ３１２にセツトし、これを
非類似度演算部へ出力する。

同様に、マルチプレクサ３０７，３０８におい
てそれぞれC₁，C₂を選択させ、乗算回路３０９，
３１０及び切り換え回路３２０，３２１を減算除
算回路３１３側に切り換え、減算除算回路３１３
を使用して（C₂・_M 〓^m=1 ｘ（ｍ，ｎ）−C_1M 〓^m=1 ｍ・ｘ
（ｍ，ｎ））／C₃の演算を行ない、その結果すな
わちβ_oの値をレジスタ３１４にセツトする。

続いてカウンタ３１５によりｍを発生させ、乗
算回路３１６によりα_o・ｍを求め、さらに加算回
路３１７によりα_o・ｍ＋β_oを求めることができ
る。次に遅延回路３１８により遅延した入力デー
タｘ（ｍ，ｎ）と加算回路３１７で求めたα_o・ｍ
＋β_oの減算を減算回路３１９によつて行なえば、
スペクトル変換された入力スペクトルデータＡ
（ｍ，ｎ）が入力スペクトルパターンメモリ５０
１に出力される。

第４図は入力データｘ（ｍ，ｎ）、直線Ｙ＝α_o・
ｍ＋β_o，入力スペクトルパターンデータＡ（ｍ，
ｎ）の関係を表わした図である。（ｎはある時刻、
ｍ＝１〜Ｍ）Ｙ＝α_o・ｍ＋β_oはｘ（ｍ，ｎ）の最
小２乗近似直線であり、ｘ（ｍ，ｎ）からα_o・ｍ
＋β_oをさし引いたものがＡ（ｍ，ｎ）である。

音声区間決定部４００は音声区間の始端及び終
端を決定し非類似度演算部に始端検出信号及び終
端検出信号を送るものであり、簡易的な決定法と
してはサンプル周期毎の周波数分析部からのＭ個
の分析データの平均値を求めその値があらかじめ
設定された閾値を最初に越えた時点を始点とし、
最後に閾値以下になつた時点を終端とする決定法
がある。

音声区間決定部４００において、音声の始端が
決定されると、入力スペクトルデータＡ（ｍ，ｎ）
の入力音声スペクトルパターンメモリ５０１への
書き込み、入力音声のパワー情報P_oの入力音声
パワーパターンメモリ５０８への書き込みが開始
される。また音声の終端が決定されると、入力音
声スペクトルパターンメモリ５０１、入力音声パ
ワーパターンメモリ５０８への書き込みが打ち切
られ、非類似度演算処理が開始される。入力音声
スペクトルパターンメモリ５０１は２次元のメモ
リであり、その要素が入力スペクトルデータＡ
（ｍ，ｎ）（ｍ＝１〜Ｍ，ｎ＝１〜Ｎ）で表わされ
る。入力音声パワーパターンメモリ５０８は１次
元のメモリであり、その要素をIP（ｎ）、（ｎ＝１
〜Ｎ）で表わす。非類似度演算部５００ではＫ個
の標準音声と入力音声との非類似度を計算する
が、ここではｋ番目の標準音声との非類似度を計
算することを考える。非類似度D_kは次式で表わ
される。

D_k＝_N 〓ⁿ⁼¹ _M 〓^m=1 ｜Ａ（ｍ，ｎ）−S_k（ｍ，ｎ）｜×Ｗ（ｍ，ｎ）＋_N 〓ⁿ⁼¹ ｜IP（ｎ）−P_k（ｎ）−PP＋AP_k｜×WP …(6) ここで、S_k（ｍ，ｎ）はｋ番目の標準音声のス
ペクトルパターンの要素（ｍ＝１〜Ｍ，ｎ＝１〜
Ｎ）。Ｗ（ｍ，ｎ）は重み決定回路５０５により決
定される重み、P_k（ｎ）（ｎ＝１〜Ｎ）はその標
準音声ｋのパワーパターンの要素、PPは入力音
声の平均パワー、AP_kは標準音声ｋの平均パワー
であり、すなわちAP_k＝１／Ｎ_N 〓ⁿ⁼¹ P_k（ｎ）であり、 WPは非類似度中のパワーパターンによる非類似
度の割合を設定するための重み係数である。

まず、非類似度計算用アキユムレータ５０５を
ゼロクリアする。

次に、入力音声パワーパターンメモリ５０１か
ら入力音声の要素Ａ（ｍ，ｎ）を切り換え回路５
１６を通じ読み出し、又、標準音声スペクトルパ
ターンメモリ６００から標準音声ｋの要素S_k（ｍ，
ｎ）を切り換え回路５１７を通じ読み込み、減算
回路５０２によりＡ（ｍ，ｎ）−S_k（ｍ，ｎ）を計
算し、絶対値回路５０３により絶対値をとり、切
り換え回路５１９を通じ乗算回路５０４により重
み係数Ｗ（ｍ，ｎ）を乗じる。重み係数Ｗ（ｍ，
ｎ）は重み決定回路５０５により決定される。重
み決定方式については数々の方式があり、その例
としては、特願昭56−184416「音声認識装置」に
開示されており、本発明の目的ではないので説明
は省略する。さらに、乗算回路の出力をアキユム
レータ５０５で加算する。ｍ，ｎをｍ＝１〜Ｍ，
ｎ＝１〜ｎまで以上の動作をくり返し、D_kの第
１項が計算されることになる。

次に入力音声の平均パワーPPを計算する。入
力音声パワーパターンメモリ５０８から入力音声
のパワーパターンIP（ｎ），ｎ＝１〜Ｎを読み出
し、加算回路５０９とレジスタ５１０により累算
してレジスタ５１０に_N 〓ⁿ⁼¹ IP（ｎ）の値をセツトす
る。この値を除算回路５１１によりＮで除し、入
力音声の平均パワーPPを求める。PPは次式で表
わせる。

PP＝１／Ｎ_N 〓ⁿ⁼¹ IP（Ｎ） …(7) 次に、標準音声平均パワーメモリ５１２から標
準音声ｋの平均パワーAP_kを読み出し、減算回路
５１３によりPPからAP_kを減し、パワー補正値
PP−AP_kを計算する。

次に標準音声パワーパターンメモリ５１４から
標準音声ｋのパワーパターンP_k（ｎ）を加算回路
５１５によりパワー補正値（PP−AP_k）と加算
する。加算結果は（P_k（ｎ）＋（PP−AP_k））とな
る。

一方、入力音声パワーパターンメモリ５０８か
ら入力音声パワーパターンIP（ｎ）（ｎ＝１，Ｎ）
を切り換え回路５１７を通じて読み出し、切り換
え回路５１７により加算回路５１５の出力を選択
し、減算回路５０２でIP（ｎ）−（P_k（ｎ）＋（PP−
AP_k））を計算し、絶対値回路５０３でその絶対
値をとる。

次に定数WP発生回路５０６から定数WPを出
力し、切り換え回路５１８を通じ乗算回路５０４
により絶対値回路の出力に乗じアキユムレータ５
０５に加算していく。ｎを１〜Ｎまで変化させて
アキユムレータへの加算が終了したら加算結果を
非類似度演算結果として判定部７００に出力す
る。判定部７００では非類似度が最も小さい標準
音声のカテゴリを認識結果とする。定数WPの値
はシユミレーシヨンの結果1/2〜２程度が最適で
ある。

第５図はパワーパターンの比較を非類似度に組
込む場合の重み係数WPの値を決定するために行
なつたシユミレーシヨンの結果である。約400人
が発声した12語音声（ゼロ，イチ…キユウ，ハ
イ，イイエ）を学習し、標準音声パターンを作成
し評価したものである。この時標準音声パターン
数を192パターンとして、WPを０〜４まで変化
させている。

このように従来の非類似度演算部（WP＝０に
相当する）に比較して明らかに認識率が向上し
WPの値は1/2〜２が最適であることがわかる。

以上説明したように、第１の実施例では、通常
のパターンマツチングに加え音声のパワーパター
ンを比較している。

第６図は「イチ」と「ニ」の音声のパワーを比
較した図である。「チ」は無声破裂音であるため
に、「イ」と「チ」の間は無音になる。一方「ニ」
の方はパワーが連続しているので、例えば「イ
チ」と発声された入力音声のパターンと「ニ」の
標準音声パターンを本発明による非類似度演算部
で比較すれば、従来よりも非類似度が大きくな
る。

又、「ニ」と発生された入力音声パターンを
「ニ」の標準音声パターンと比較すれば、両方と
も単語内の無音区間は存在しないし、声の大きさ
が異なつたとしても、音声の平均パワーで正規化
しているため、非類似度は大きくならない。

したがつて、「ニ」の標準音声パターンと「イ
チ」と発声された音声との非類似度はより大きく
なり、「ニ」と発声された音声との非類似度はほ
とんど変化しないので、誤認識が少なくなり認識
率が向上する。これらの関係は「ゴ」と「ロク」，
「ハイ」と「ハチ」の間でも成立する。

（発明の効果）この発明は通常のパターンマツチングに加え、
パワー正規化した形で音声のパワーパターンを比
較し、非類似度を演算しているので、「イチ」と
「ニ」、「ゴ」と「ロク」、「ハイ」と「ハチ」など
の間の誤認識が少なく、認識率が向上するので、
音声認識応答システムに利用することができる。

【図面の簡単な説明】

第１図は従来の音声認識装置のブロツク図、第
２図は音声パターンの例、第３図はこの発明によ
る音声認識装置の一実施例を示した図、第４図は
入力データｘ（ｍ，ｎ）と入力スペクトルパター
ンデータＡ（ｍ，ｎ）との関係を示した図、第５
図は重み係数WP決定のためのシユミレーシヨン
結果、第６図はパワーパターンの例である。１００……入力端子、２００……周波数分析
部、３００……スペクトル変換部、４００……音
声区間決定部、５００……非類似度演算部、５０
１……入力音声スペクトルパターンメモリ、５０
２……減算回路、５０３……絶対値回路、５０４
……乗算回路、５０５……重み決定回路、５０６
……定数発生回路、５０７……アキユムレータ、
５０８……入力音声パワーパターンメモリ、５０
９……加算回路、５１０……レジスタ、５１１…
…除算回路、５１２……標準音声平均パワーメモ
リ、５１３……減算回路、５１４……標準音声パ
ワーパターンメモリ、５１５……加算回路、５１
６，５１７，５１８……切り換え回路、６００…
…標準音声スペクトルパターンメモリ、７００…
…判定部。

Claims

【特許請求の範囲】１入力音声のパワーパターンを作成する過程
と、入力音声の、スペクトル傾斜で正規化されたス
ペクトルパターンを作成する過程と、標準音声の予め用意されたスペクトルパターン
と入力音声の前記スペクトルパターンとのパター
ンマツチングを行い、第１の非類似度を算出する
過程と、_N 〓ⁿ⁼¹ ｜IP（ｎ）−P_k（ｎ）−PP＋AP_k｜なる計算によつて（但し、Ｎは音声区間のパワー
データの総数、IP（ｎ）は入力音声のｎ番目のパ
ワーデータ、P_k（ｎ）は標準音声のｎ番目のパワ
ーデータ、PPは入力音声の平均パワーデータ、
AP_kは標準音声の平均パワーデータ）、標準音声
の予め用意されたパワーパターンと入力音声の前
記パワーパターンとのパターンマツチングを行
い、第２の非類似度を算出する過程と、前記第１の非類似度に（1/2〜２）の重みを付
けた後、前記第２の非類似度と加算する過程とを
備え、その加算値を入力音声と前記標準音声との非類
似度として入力音声を認識することを特徴とした
音声認識方法。