JPH02238498A

JPH02238498A - 音声認識装置

Info

Publication number: JPH02238498A
Application number: JP5992389A
Authority: JP
Inventors: Masahiro Hamada; 正宏浜田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1989-03-13
Filing date: 1989-03-13
Publication date: 1990-09-20
Anticipated expiration: 2010-08-02
Also published as: JPH0772838B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は登録型離散音声認識装置に関するものである。

従来の技術近年、音声認識装置は産業用分野のみならず民生用分野
においても徐々に利用されるようになってきた。

以下図面を参照しながら、従来の登録型離散音声認識装
置について説明する。

第２図は従来の登録型離散音声認識装置の一構成例を示
すものである。第２図において１０は分析手段であり、
音声が入力される。分析手段１０の出力は切り替え手段
２０に入力されている。切り替え手段２０の第１の出力
は第１の記憶手段３０に入力され、第２の出力は第２の
記憶手段４０に入力されている。また５０は照合手段で
あり、第１の記憶千段３０の出力と第２の記憶手段４０
の出力とが入力されている。照合手段５０からは認識結
果が出力される。

以上のように構成された登録型離散音声認識装置に関し
、以下にその動作について説明する。

音声登録時には切り替え手段２０で分析手段１０と第１
の記憶手段３０とを接続し、登録音声を一定周期毎に分
析して得られた複数次数のケプストラム係数のパターン
を第１の記憶手段３０に記憶する。

一方音声認識時には切り替え手段２０で分析手段１と第
２の記憶手段４０とを接続し、認識音声を一定周期毎に
分析して得られた複数次数のケプストラム係数のパター
ンを第２の記憶手段４０に記憶し、さらに第２の記憶手
段４０の内容を照合手段５０に入力する。また既に登録
された音声のパターンを第１の記憶手段３０から１単語
づつ照合手段５０に入力する。

そして照合手段５０で認識音声と登録音声のそれぞれと
の間の距離を算出する。算出に当たっては、ケプストラ
ム係数の特質を十分に生かし、あるいは耐騒音性を向上
させる目的で次式に示す重み付けケブストラム距離を用
い、この距離に基づいてダイナミックプログラミング手
法で認識音声と登録音声との非線形時間伸縮を行う。

ｄ＋１　　＝　　　Σ　’ｗ　ｈ　（　ａ　＋ｂ−　ｂ
　＋ｋ）　２ここでｋ　：次数ａｓｈ：　入力音声の第ｉ分析周期部のケプストラム係
数ｂａｋ：　登録音声の第ｊ分析周期部のケプストラム係
数Ｗｋ：重み係数ｄＢ：　　ａｓｈとｂＪｋとの間の重み付けケプストラ
ム距離この結果、最も小さな距離を与えた登録音声を以て認識
結果とみなして出力する。

また上式における重みの一例について、すでに東倉氏　
　フ゛口七イーテ゛インク゛ス　オフ゜　号′　インタ
ーナショナル　コンフェレンス　オン　アコースティフ
クス、　スヒ”−チ　アント゛　シク゜ナル　フ゜Ｏｔ
シンゲ、（Ｐｒｏｃｅｅｄｉｎｇｓ　　ｏｆ　　ｔｈｅ
　　Ｉｎｔｅｒｎａｔｉｏｎａｌ　　Ｃｏｎｆｅｒｅｎ
−ｃｅ　　ｏｎ　　Ａｃｏｕｓｔｉｃｓ，　　Ｓｐｅｅ
ｃｈ　　ａｎｄ　　Ｓ１ｇｎａｌ　　Ｐｒｏｃｅｓｓｔ
一ｎｇ，ｐｐ．７６１−７８４．１９８［ｉ）　　や、
　　ヒ゛一・ハンソン　（Ｂ．　　■ａｎｓｏｎ）氏、
　　　フ゜口ｔイーテ゜インク゜ス　オフ゜　号゜　イ
ンターナショナル　コンフェレンスオン　アコースティ
フクス、　スヒ゜−チ　７ント゛　シク゜ナル　フ′口
ｔシンク゜　（　Ｐｒ−ｏｃｅｅｄｌｎｇｓ　　ｏｆ　
　ｔｈｅ　　Ｉｎｔｅｒｎａｔｉｏｎａｌ　　Ｃｏｎｆ
ｅｒｅｎｃｅ　　ｏｎＡｃｏｕｓｔｉｃｓ，　　Ｓｐｅ
ｅｃｈ　　ａｎｄ　　Ｓｌｇｎａｌ　　ＰｒＯｅｅＳＳ
Ｉｎｇｌｌ）ｐ．７５７〜７ＧＯ，１９８Ｇ）　　から
提案がなされている。東倉氏の重み付けは各ケプストラ
ム係数の分布の分散の逆数（ｗｉ＝　１　／　ａ　＊２
）であり、Ｂ．■ａｎｓｏｎ氏の重み付けは係数そのも
のを自乗した値（ｗｂ＝ｋ２）である。環境騒音として
典型的な低周波数に偏りを持つ騒音が重畳することによ
って入力音声のスペクトル概形の傾きが変化した場合に
は、このような重み付けを行った距離が従来より優れた
認識結果をもたらすことが示されている。

発明が解決しようとする課題しかしながら上記のような構成では、音声を記憶すべき
第１の記憶手段３０と第２の記憶手段４０とに大容量の
記憶手段を必要とするばかりか、照合手段５０において
重み付けを乗じるために余分な計算量が必要となるとい
う問題点を有していた。

本発明は、上記課題に鑑み、ケプストラム係数の特質を
十分に生かす、あるいは耐騒音性を向上させるという二
つの特徴の一方あるいは両方を実現しつつ、さらに、大
容量の記憶手段を必要とせず、重み付けを乗じるための
余分な計算量も必要としない、という特徴を実現するこ
とによって、高い音声認識性能を達成できる登録型離散
音声認識装置を提供する事を目的とする。

課題を解決するための手段本発明の特許請求の範囲第１項記載の音声認識装置は、
入力音声を一定周期毎にケプストラム分析し、前記一定
周期毎に複数次数のケプストラム係数を出力する分析手
段と、前記分析手段から得られた複数次数のケプストラ
ム係数を次数毎に異なった量子化幅で量子化して次数毎
に少数のビット数で表現された複数次数の符号語を得る
量子化手段と、複数の登録音声に関して前記量子化手段
から得られる前記複数次数の符号語を前記一定周期毎に
記憶する第１の記憶手段と、認識音声に関して前記景子
化手段から得られる前記複数次数の符号語を前記一定周
期毎に記憶する第２の記憶手段と、前記第２の記憶手段
の内容と前記第１の記憶手段の内容とを入力し、前記認
識音声と前記複数の登録音声のそれぞれとの間の距離を
算出する照合手段とから構成されている。

本発明の特許請求の範囲第２項記載の音声認識装置は、
請求項１記載の音声認識装置において、量子化手段が、
得られた複数次数のケプストラム係数のうち低次のもの
は粗い幅で量子化し、高次のものは細かい幅で量子化し
て次数毎に少数のビット数で表現された複数次数の符号
語を得ることを特徴としている。

本発明の特許請求の籟囲第３項記載の音声認識装置は、
請求項１記載の音声認識装置において、■子化手段が、
ケプストラム係数の統計的分布のおおよその上●下限値
を含み込むよう次数毎に予め定められた２種の数値を用
い、この２種の数値の範囲で各次数のケプストラム係数
を少ビット数で量子化して複数次数の符号語を得ること
を特徴としている。

本発明の特許請求の範囲第４項記載の音声認識装置は、
請求項３記載の音声認識装置において、照合手段が、認
識音声と複数の登録音声のそれぞれとの距離の算出に当
たって、前記複数次数の符号語に基づいたチェビシェフ
距離を用いることを特徴としている。

作用（１）特許請求の範囲第１項記載の発明では前記の構成
によって、量子化手段において複数次数のケプストラム
係数を次数毎に異なった量子化幅で量子化することによ
り従来の重み付けと等価な効果が得られ、これにより次
数毎に異なった音響的性質を持つケプストラム係数の特
質を十分に生かすことができると共に、重み付けを乗じ
るための余分な計算量も必要とｔ７ない。また少数のビ
ット数で表現された複数次数の符号語を得ることにより
、大容量の記憶手段を必要としない。

（２）特許請求．の範囲第２項記載の発明では前記の構
成によって、量子化手段において得られた複数次数のケ
プストラム係数のうち低次のものは粗い幅で量子化し、
高次のものは細かい幅で量子化して次数毎に少数のビッ
ト数で表現された複数次数の符号語を得ることにより、
環境騒音として典型的な低周波数に偏りを持つ騒音が重
畳することによって入力音声のスペクトル概形の傾きが
変化した場合にも認識性能が大きく劣化することがない
。それ以外の作用は、作用第１項記載の内容と同一であ
る。

（３）特許請求の範囲第３項記載の発明では前記の構成
によって、量子化手段においてケプストラム係数の統計
的分布のおおよその上番下限値を含み込むよう次数毎に
予め定められた２種の数値を用い、この２種の数値の範
囲で各次数のケプストラム係数を少ビット数で量子化し
て複数次数の符号語を得ることにより、分布範囲がそれ
ぞれ異なる各次数のケブストラム係数に関し、■子化に
よる係数のオーバーフローやアンダーフローを生じに《
い量子化法実現が可能となる。

それ以外の作用は、作用第２項記載の内容と同一である
。

（４）特許請求の範囲第４項記載の発明では前記の構成
によって、照合手段において認識音声と複数の登録音声
の各々との距離の算出に当たって、チェビシェフ距離を
用いることにより乗除算等の複雑な計算を必要とせず、
距離の算出が容易に実現できる。

それ以外の作用は、作用３項記載の内容と同一である。

実施例以下に、本発明の実施例について図面を参照しながら説
明する。

（１）第１図は本特許請求の範囲第１項記載の発明にな
る一実施例における登録型離散音声認識装置の構成を示
すブロック図である。

この装置は次数毎に異なった音響的性質を持つケプスト
ラム係数の特質を十分に生かし、大容量の音声記憶手段
を必要とせず、重み付けを乗じるための余分な計算量も
必要としないという高い音声認識性能を達成することを
目的としている。

１は分析手段であり、音声が入力される。分析手段１の
出力は量子化手段６に入力され、量子化手段６の出力は
切り替え手段２に入力されている。

切り替え手段２の第１の出力は第１の記憶手段３に入力
され、第２の出力は第２の記憶手段４に入力されている
。また５は照合手段であり、第１の記憶手段３の出力と
第２の記憶手段４の出力とが入力されている。照合手段
５からは認識結果が出力される。

以上のように構成された登録型離散音声認！ａ装置に関
し、以下にその動作について説明する。

音声登録時には切り替え手段２で量子化手段６と第１の
記憶手段３とを接続し、登録音声を一定周期毎に分析し
て得られた複数次数のケプストラム係数の符号語のパタ
ーンを第１の記憶手段３に記憶する。一方音声認識時に
は切り替え手段２で量子化手段６と第２の記憶手段４と
を接続し、認識音声を一定周期毎に分析して得られた複
数次数のケプストラム係数の符号語のパターンを第２の
記憶手段４に記憶し、第２の記憶手段４の内容を照合手
段５に入力し、さらに既に登録された音声のパターンを
第１の記憶手段３から１単語づつ照合手段５に入力し、
照合手段５で認識音声と登録音声のそれぞれとの間の距
離を算出する。この結果、最も小さな距離を与えた登録
音声を以て認識結果とみなして出力する。

ところで量子化手段６は複数次数のケプストラム係数を
次数毎に異なった量子化幅で量子化することにより、等
価的に次数毎に異なった重みを各ケブストラム係数に与
えることになる。ここでいう「次数毎に異なった量子化
幅で量子化する」とは、一定ビット数の固定小数点表現
データのＭＳＢ側から、元のデータ長より短くかつ次数
毎に異なったビット数のビット列を取り出し整数表現の
データとして読み代えること（量子化法Ａと呼ぶ）でも
よく、また一定ビット数の固定小数点表現データに予め
次数毎に適当な数値を乗じた後に、ＭＳＢ側から一定ビ
ット数のビット列を取り出し整数表現のデータとして読
み代えること（量子化法Ｂと呼ぶ）でもよい。

一方ケブストラム係数はその本来の定義から明らかなよ
うに、低次の係数がスペクトル概形の傾きあるいは大局
的なうねりを表し、高次の係数がスペクトルの詳細形状
を表している。

従って次数毎に異なった量子化幅で量子化するコトハ、
スペクトル概形の傾きあるいは大局的なうねりとスペク
トルの詳細形状とを異なった重みで表現することと等価
である。

本実施例においては、このようにして得られた符号語か
ら成る音声パターンが照合手段５における距離算出に用
いられるため、認識結果にも上記の異なった重みが加味
され、次数毎に異なった音響的性質を持つケプストラム
係数の特質を十分に生かすことができる。

また各符号語は少数のビット数で表現されて第１の記憶
手段３と第２の記憶手段４とに記憶されるため、大容量
の記憶手段を必要としないという効果を得ることができ
る。

さらに距離計算の際に、従来例に見られたような重み付
け係数の乗算が不用であるため、計算時間の短縮あるい
は計算装置規模の縮小が可能となる。

（２）次に、本特許請求の範囲第２項記載の発明になる
一実施例における離散音声認識装置について説明する。

この発明の構成は、前記実施例第１項記載の構成とほぼ
同様であるので、全体の構成は改めて述べることはしな
い。またこの発明は、前記実施例第１項記載の目的と付
加騒音への耐性実現の目的との二つの目的を有する。

以下その動作及び効果について、第１項記載の内容と異
なる量子化手段の部分のみに関して説明する。実施例第
１項に記載した効果は本実施例においても同様に得られ
るので、改めて述べることはしない。

この場合の量子化手段６′は、得られた複数次数のケブ
ストラム係数のうち低次のものは粗い幅で量子化し、高
次のものは細かい幅で量子化して次数毎に少数のビット
数で表現された複数次数の符号語を得る。この結果、照
合手段５で得られる距離及び認識結果にも量子化幅に起
因する重みが加味される。即ち、スペクトル概形の傾き
あるいは大局的なうねりを示す係数は粗い量子化を受け
てその影響度は経減され、スペクトルの詳細形状を示す
係数は細かい量子化を受けてその影響度は増大される。

ところで平均的自動車交通騒音あるいはファンノイズ等
の一般的環境騒音は、広帯域でありつつもスペクトルに
偏りを持ち、ピンクノイズやホスノイズで近似すること
ができる。これらの騒音（今後偏帯域騒音と呼ぶ）が統
計的加法性を保ちつつ音声に付加された場合には、スペ
クトル概形の傾きあるいは大局的なうねりが変化し、こ
れに起因する距離の増大が誤認識を引き起こす要因とな
っている。従って音声認識装置の偏帯域騒音付加に対す
る耐性実現を図るには、これらのスペクトル変化の影響
を受け難い距離を用いることが望ましい。本実施例にお
いては、量子化手段６における低次数ケプストラム係数
への重みの軽減動作が、偏帯域騒音付加に対する耐性を
実現している。

なお粗い量子化とは、前記方法Ａにおいて短いビット列
を取り出すことあるいは前記方法Ｂにおいて小さな数値
を乗じることを指し、細かい量子化とは、前記方法Ａに
おいて長いビット列を取り出すことあるいは前記方法Ｂ
において大きな数値を乗じることを指す。

（３）本特許請求の範囲第３項記載の発明になる一実施
例における離散音声認識装置について説明する。

この発明の構成は、前記実施例第１項記載の構成とほぼ
同様であるので、その全体構成は改めて述べることはし
ない。またこの発明は、前記実施例第１項記載の目的と
、偏帯域騒音付加への耐性実現の目的と、係数のオーバ
ーフローやアンダーフローを生じにくい量子化法実現の
目的との三つの目的を有する。

以下その動作及び効果について、第１項記載の内容と異
なる量子化手段の部分のみに関して説明する。

量子化手段６１は、ケブストラム係数の統計的分布のお
およその上●下限値を含み込むよう次数毎に予め定めら
れた２種の数値を用い、この２種の数値の範囲で各次数
のケプストラム係数を少ビット数で量子化して複数次数
の符号語を得る。この結果、分布範囲がそれぞれ異なる
各次数のケプストラム係数に関し、量子化による係数の
オーバーフローやアンダーフローを生じにくい量子化法
実現が可能となる。

照合手段５で得られる距離及び認識結果にも前記２種の
数値の範囲に起因する重みが加味される。

即ち、２種の数値の隔たりの大きな次数のケプストラム
係数は粗い量子化を受けてその影響度は軽減ざれ、隔た
りの小さな次数の係数は細かい量子化を受けてその影響
度は増大される。一般の音声では低次の係数ほどその分
布範囲が広いため、低次の係数ほど認識結果に与える影
響が軽減される。

この事実により、実施例第２項で述べたのと同様の理由
により、量子化手段６″における量子化動作が偏帯域騒
音付加に対する耐性を実現している。

（４）本特許請求の範囲第４項記載の発明になる一実施
例における離散音声認識装置について説明する。

この発明の構成は、前記実施例第３項記載の構成とほぼ
同様であるので、その全体の構成は改めて述べることは
しない。またこの発明は、前記実施例第３項記載の目的
と、距離の計算量削減の目的との二つの目的を有する。

以下その動作及び効果について、第３項記載の内容と異
なる照合手段の部分のみに関して説明する。

照合手段５′は、認識音声と複数の登録音声のそれぞれ
との距離の算出に当たって、特許請求の範囲第３項記載
の複数次数の符号語に基づいたチェビシェフ距離を用い
る。チェビシェフ距離は実施例第３項記載の量子化が加
味された符号語を用いて次式で求められ、乗除算等の複
雑な計算を必要としないので算出が容易である。

ｅ＝，’７，，　　ＩＣ＋ｋ−ｄｌ１ここでｋ　：次数Ｃ＋ｈ：　次数毎の量子化を施した、入力音声の第ｉ分
析周期部のケプストラム係数ｄＩｖ：　次数毎の量子化を施した、登録音声の第ｊ分
析周期部のケプストラム係数ｅ，，：　　Ｃ＋ｋと（ＩＢとの間のチェビシェフ距離
発明の効果以上のように本発明は、入力音声を一定周期毎にケプス
トラム分析し、前記一定周期毎に複数次数のケブストラ
ム係数を出力する分析手段と、前記分析手段から得られ
た複数次数のケプストラム係数を次数毎に異なったｍ子
化幅で量子化して次数毎に少数のビット数で表現された
複数次数の符号語を得る量子化手段と、複数の登録音声
に関して前記量子化手段から得られる前記複数次数の符
号語を前記一定周期毎に記憶する第１の記憶手段と、認
識音声に関して前記量子化手段から得られる前記複数次
数の符号語を前記一定周期毎に記憶する第２の記憶手段
と、前記第２の記憶手段の内容と前記第１の記憶手段の
内容とを入力し、前記認識音声と前記複数の登録音声の
それぞれとの間の距離を算出する照合手段とを設けてい
るので、ケプストラム係数の特質を十分に生かしつつ、
大容量の記憶手段を必要とせず、重み付けを乗じるため
の余分な計算量も必要としない、という特徴を実現する
ことができ、高い音声認識性能を達成できる登録型離散
音声認識装置を提供することができる。

また同様の構成において、量子化手段あるいは照合手段
に前述した実施例中の動作を行なわせることにより、耐
騒音性を向上させ、係数のオーバーフローやアンダーフ
ローが生じに＜＜シ、距離の計算量を削減できる、とい
う特徴の一部あるいは全部を上述した特徴と併せて実現
することができ、さらに高い音声認識性能を達成できる
登録型離散音声認識装置を提供することができる。

【図面の簡単な説明】

第１図は本発明にかかる一実施例における登録型離散音
声認識装置を示すブロック図、第２図は従来の技術に基
づく登録型離散音声認識装置の構成を示すブロック図で
ある。１●φ●分析手段、２Φ●●切り替え手段、３●φ●第
１の記憶手段、４●●●第２の記憶手段、５、５′●●
●照合手段、６、６′、６”’４　８　４量子化手段、
１０●φ●分析手段、２０●●●切り替え手段、３０●
φ●第１の記憶手段、４０●●●第２の記憶手段、５０
●●●照合手段。

Claims

【特許請求の範囲】

（１）入力音声を一定周期毎にケプストラム分析し、前
記一定周期毎に複数次数のケプストラム係数を出力する
分析手段と、前記分析手段から得られた複数次数のケプ
ストラム係数を次数毎に相異なった量子化幅で量子化し
、次数毎に少数のビット数で表現された複数次数の符号
語を得る量子化手段と、複数の登録音声に関して前記量
子化手段から得られる前記複数次数の符号語を前記一定
周期毎に記憶する第１の記憶手段と、認識音声に関して
前記量子化手段から得られる前記複数次数の符号語を前
記一定周期毎に記憶する第２の記憶手段と、前記第２の
記憶手段の内容と前記第１の記憶手段の内容とを入力し
、前記認識音声と前記複数の登録音声のそれぞれとの間
の距離を算出する照合手段とを有することを特徴とする
音声認識装置。
（２）量子化手段は、得られた複数次数のケプストラム
係数のうち低次のものは粗い幅で量子化し、高次のもの
は細かい幅で量子化して、次数毎に少数のビット数で表
現された複数次数の符号語を得ることを特徴とする請求
項１記載の音声認識装置。
（３）量子化手段は、ケプストラム係数の統計的分布の
おおよその上・下限値を含み込むよう次数毎に予め定め
られた２種の数値を用い、この２種の数値の範囲で各次
数のケプストラム係数を少ビット数で量子化して複数次
数の符号語を得ることを特徴とする請求項１記載の音声
認識装置。
（４）照合手段は、認識音声と複数の登録音声のそれぞ
れとの距離の算出に当たって、前記複数次数の符号語に
基づいたチェビシェフ距離を用いることを特徴とする請
求項３記載の音声認識装置。