JPS59123897A

JPS59123897A - 音声認識装置

Info

Publication number: JPS59123897A
Application number: JP57229279A
Authority: JP
Inventors: 教幸藤本; 佐藤　泰雄; 杉田　忠靖
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1982-12-29
Filing date: 1982-12-29
Publication date: 1984-07-17
Also published as: JPH0146080B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（５）　発明の技術分野本発明は音声認識方式、特に帯域フィルタ群を用いて入
力音声の周波数分析を行い、単音節または単語等の音声
認識を行う音声認識方式において。

音声認識率を低下させることなく、照合すべき特徴パラ
メータ時系列のパラメータ量を削減可能とした音声認識
方式に関するものである−（１勺　技術の背景と問題点音声認識方式として、広帯域の音声周波数分析を行うた
め、多数チャネルの帯域通過フィルタを使用し、各フィ
ルタの出力を整流精分等によって帯域別スペクトル電力
を求め、スペクトルの正規化のため、全チャネルの平均
値が零となるように帯域別対数スペクトル電力を変換し
た後、正規化されたすべての帯域別対数スペクトル電力
を照合用特徴パラメータ時系列として使用し、予め辞書
に登録された標準特徴パラメータ時系列と２例えばダイ
ナミックプログラミング（ＤＰ）マツチング法等により
照合して、単音節または単語等の音声認識を行う方式が
知らｆｌている。

上記音声認識方式において、音声の認識率を高めるため
には、帯域フィルタの数、すなわちチャネル数を多くす
る必要がある。しかし、チャネル数を増加させると、音
声周波継を分析するためのハードウェア量が多く必要に
なるだけで’：Ｃ＜ｌ特徴パラメータの要素が増えるこ
とから、照合に用いるメモリ量が多く必要になり、また
辞書に格納する標準特徴パラメータ時系列の格納領域も
多く必要になる。さらに、■が合のための演算処」“■
時間も多くかかることになる。

しかし、チャネル数を減らせば、必要とするメモＩＪ　
ｉ等を少なくすることができるが、音声認識率が劣化す
ることになる、（Ｑ　発明の目的と構成本発明は上記問題点の解決を図り、音声認識率を低下さ
せることなく、照合すべき特徴）（ラメータ・音を減少
させて、メモＩＪ−を等の削減を可能とすることを目的
としている。換言すれば、従来と同じ特徴パラメータ量
であれば、音声の認識率がさらに向上するようにするこ
とを目的としている。

本発明者等は１本発明の完成に先立って、多くの実験・
研究を積み重ねた結果、音声認識における次のような特
性を発見した。音声周波数分析は。

高周波数帯域部分も含めて、広帯域にわたって行ったほ
うが良好な結果が得られるが、特に高周波数帯域部分に
ついては、各サンプリングごとのパワースペクトルの相
対的な音声エネルギー量が重要であり９例えば、そのパ
ワースペクトルのピークが、５ＫＥ［ｚの周波数部分に
あるか、７ＫＥＩＺの周波数部分にあるかは、音声認識
上それ程重要ではないということである。これは９人間
の耳では。

おそらく高周波数帯域における周波数のわずかな違いは
、認識が困難であるためと考えられる。

本発明は、上記の点に鑑み、高周波数帯域部分も含めた
複数の帯域フィルターで分析したパラメータを正規化し
た後、高域部分の複数チャネルのパラメータを除去する
ようにして９本発明の目的を達成するようにしたもので
ある。すなわち。

本発明の音声認識方式は、音声を周波数分析して得られ
る特徴パラメータ時系列の照合を行い音声を認識する音
声認識方式において、所定の帯域特性をもつ多数チャネ
ルの帯域フイ／ｌ／夕と、上記各帯域フィルタの出力を
帯域別のスペクトル電力に変換する回路と、上記帯域別
スペクトル電力を対数変換して帯域別対数スペクトル電
力を算出する対数変換部と、全チャネルについての上記
帯域別対数スペクトル電力の平均値を算出する平均値算
出部と、該平均値算出部の出力結果に基づし・て上記全
チャネルのうち高周波数帯域部分の１またをマ爽数チャ
ネルを除く低域部分の上記帯域別対数スペクトル電力に
ついて正規化の変換を行う変換部とをそなえ、照合用特
徴）くラメータ時系列として。

上記変換後の帯域別対数スペクトル電力を使用すること
を特徴としている。以下９図面を参照１２つつ説明する
。

（Ｄ）　　発明の実施例図は本発明の一実施例構成を示す。

図中、１は音声入力部、２はパラメータ抽出部。

３−１ないし３−ｎは帯域通過フィルタ、４−１ないし
４−ｎは整流器、５−１ないし５　’−ｎはアナログ・
ディジタル変換器、６−１ないし５−１１は対数変換部
、７は平均値算出部、８−１ないし８−２ｎは減算器、
９は音声認識部、１０は辞書を表わす。

音声入力部１から入力された単音節または単語からなる
音声のアナログ信号は、ノクラメータ抽出部２に入力さ
ｌｌｌする。パラメータ抽出部２は、音声アナログ信号
の周波数分析を行い、認識すべき入力音声の特徴パラメ
ータ時系列を抽出生成するものである。そのため、帯域
別に複数（ｎ個）の帯域通過フィルタ３−１〜３−２２
を有している。図において、上部の帯域通過フィルり３
−１から順に下位に向うに従って９通過周波数が高くな
っている。帯域通過フィルタ３−１〜３−７７は２例え
ば隣接する帯域通過フィルタの３ｄＢの減衰点カー一致
するように配置され１例えば１８０　Ｈｚから７．８　
ＫＨｚまでの広帯域にわたってカッ（−するようにされ
る。

以下に本発明者等が用いた帯域通過フィルタの構成例を
示す。帯域通過フィルタ３−１〜３−１１として、１９
１固のフィルりを用いている。

以下余白フィルタ構成例音声入力部１からの音声信号は、帯域通過フィルタ３−
１〜３−Ｈによって帯域別にろ波され。

それぞれ整流器４−１〜４−ｎに入力される。各整流器
４−１〜４−ｎは９例えば１０フｎＳの整流積分時定数
でもって、入力信号の整流平滑化を行う。整流器４−１
〜４−ｔｌの出力は、アナログ・ディジタル変換器５−
１〜５−Ｈに入力され、帯域別スペクトル軍刀をディジ
タル量として表わしたものが求められる。

この帯域別スペクトル電力は１人間が感じる音の強弱に
合わせるために、対数変換部６−１〜６−ｎによって、
対数変換されて、帯域別対数スペクトル電力が求められ
る。次に、この帯域別対数スペクトル電力は、大きな声
であっても、小さな声であっても同じ特徴パラメータと
して表われるようにするために、正規化が行われる。

そのため、まず平均値算出部７によって、全チャネルに
ついての帯域別対数スペクトル電力の平均値が算出され
る。ここで、従来方式によれば。

２１個の対数変換部６−１〜６−　ｎからの帯域別対数
スペクトル？Ｅ力から、そハぞね上記平均値算出部７に
よって−り１りめら牙また平均値の減算を行い、その結
果正規化されたｎ個の帯域別対数スペクトル電力を特徴
パラメータＰ１ｙＰ２ｔＰ３ｙ・・・、　Ｐｎとして。

使用するようにされていた。

本発明においては、高域部分の１または複数チャネルに
ついての帯域別対数スペクトル電力は。

平均値算出部７において平均値灯出のためには用いるが
、音声の特徴パラメータとしては、用いないようにされ
、除去される。すなわち、（？７２＋１）番目の対数変
換部から、ｎ番目の最高周波数帯域の対数変換部６−ｎ
までの出力は、平均値算出のためにだけ用いられ、平均
値算出後は除去される。

そして、求められた平均値を帯域別対数スペクトル電力
から減算するための減算器８−１〜８−Ｍ２は２図示の
如く、低域部のチャネルに対応してｍ個用意される。対
数変換部６−１〜６−７７２の出力である帯域別対数ス
ペクトル電力は、各減算器８−１〜８−ｍによって平均
値が減算され、その結果が特徴パラメータＰ１．Ｐ２＊
・・・、Ｐｍとして、音声認識部９に伝達される。

音声認識部９は、　ｔｎ個の特徴パラメータの組からな
る特徴パラメータ時系列によって、予め辞書１０に登録
さねた標準特徴パラメータ時系列と。

例えばＤＰマツチング法により照合することにより入力
音声の認識を行う。すなわち、簡単に言えば時間軸の正
規化を行い、対応する時点におけるｍ個の入力特徴パラ
メータＰｉと標準特徴パラメータＰｉとの距’？、ｆＰ
　（Ｐｉ　　Ｐｇ　）をｉ＝１からｉ＝ｍまで加算し、
これを一連の時系列について加えた結果が最小になる標
準特徴パラメータに対応する単音節または単語を認識結
果とする。

本発明者等は、上述した１９個の帯域通過フィルタを用
いて周波数分析を行い、全チャネルの帯域別対数スペク
トル電力についての平均値を算出した後、上述のチャネ
ル（ＣＨ）番号が１７から１９までのもの、すなわち４
．８　ＫＨｚから７．８　Ｋ）ｌｚに対応する帯域別対
数スペクトル電力を除いた１６個の帯域別対数スペクト
ル成力について、上記平均値による補正を行って、その
補正された１６個の帯域別対数スペクトル電力を照合用
特徴パラメータとして、音声認識を行った。これと、１
９個の全チャネルから１９個の特徴パラメータを抽出し
て音声認識を行った結果とを比較したが、音声認識率の
低下は見らねなかった。

一方、高周波数帯域のチャネルＬ丁；号１７から１９ま
でのものを除いた１６個の帯域通過フィルタを用いて１
６チヤネルについての周波数分析を行い。

１６個の特徴パラメータを抽出して音声認識を試みたが
、この場合には、　　４．８Ｋ）Ｉｚから７．８仰２ま
での高域部分の情報が全く特徴パラメータに加味されな
いため、明らかに音声認識率が劣化することとなった。

なお９周波数分析を行うチャネル数、帯域幅および抽出
する特徴パラメータ時系列の数は、上記実施例の場合に
限定さＪするわけではなく、要求される音声認識率、お
よび用意できるメモリ惜、演算機構、辞書サイズ、許容
できる照合処理時間等によって適宜選択してよい。

■　発明の詳細な説明した如く本発明によれば、簡単な手段によって、
音声認識率を低下させることなく、照合／格納特徴パラ
メータ量を削減することができ。

メモリ量、演算機構等を節減し、認識処理時間を短縮す
ることができる。また、従来と同数の特徴パラメータ号
で音声認識を行５１１）のとすＪｌば、音声認識率が向
上することとなる。

【図面の簡単な説明】

図は本発明の一実施例構成を示す。図中、１は音声入力部、２はパラメータ抽出部。３−１ないし３−ｎは帯域通過フィルタ、４−１ないし
４−ｎは整流器、５−１ないし５−ｎはアナログ・ディ
ジタル変換器、６−１ないし６−ｎは対数変換部、７は
平均値算出部、８−１ないしＢ　−？７Ｚは減算器、９
は音声認識部、１０は辞書を表わす。特許出願人　富士通株式会社

Claims

【特許請求の範囲】

音声を周波数分析して得られる特徴パラメータ時系列の
照合を行い音声を認識する音声認識方式において、所定
の帯域特性をもつ多数チャネルの帯域フィルタと、上記
各帯域フィルタの出力を帯域別のスペクトル電力に安浄
する回路と、上記帯域別スペクトル電力を対数変換して
帯域別対数スペクトル電力を算出する対数変換部と、全
チャネルについての上記帯域別対数スペクトル電力の平
均値を算出する平均値算出部と、該平均値算出部の出力
結果に基づいて上記全チャネルのうち高周波数帯域部分
の１または複数チャネルを除く低域部分の上記帯域別対
数スペクトル電力について正規化の変換を行う変換部と
をそなえ、照合用特徴パラメータ時系列として、上記変
換後の帯域別対数スペクトル電力を使用することを特徴
とする音声認識方式。