JPS59123897A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS59123897A JPS59123897A JP57229279A JP22927982A JPS59123897A JP S59123897 A JPS59123897 A JP S59123897A JP 57229279 A JP57229279 A JP 57229279A JP 22927982 A JP22927982 A JP 22927982A JP S59123897 A JPS59123897 A JP S59123897A
- Authority
- JP
- Japan
- Prior art keywords
- band
- spectral power
- logarithmic
- average value
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(5) 発明の技術分野
本発明は音声認識方式、特に帯域フィルタ群を用いて入
力音声の周波数分析を行い、単音節または単語等の音声
認識を行う音声認識方式において。
力音声の周波数分析を行い、単音節または単語等の音声
認識を行う音声認識方式において。
音声認識率を低下させることなく、照合すべき特徴パラ
メータ時系列のパラメータ量を削減可能とした音声認識
方式に関するものである−(1勺 技術の背景と問題点 音声認識方式として、広帯域の音声周波数分析を行うた
め、多数チャネルの帯域通過フィルタを使用し、各フィ
ルタの出力を整流精分等によって帯域別スペクトル電力
を求め、スペクトルの正規化のため、全チャネルの平均
値が零となるように帯域別対数スペクトル電力を変換し
た後、正規化されたすべての帯域別対数スペクトル電力
を照合用特徴パラメータ時系列として使用し、予め辞書
に登録された標準特徴パラメータ時系列と2例えばダイ
ナミックプログラミング(DP)マツチング法等により
照合して、単音節または単語等の音声認識を行う方式が
知らflている。
メータ時系列のパラメータ量を削減可能とした音声認識
方式に関するものである−(1勺 技術の背景と問題点 音声認識方式として、広帯域の音声周波数分析を行うた
め、多数チャネルの帯域通過フィルタを使用し、各フィ
ルタの出力を整流精分等によって帯域別スペクトル電力
を求め、スペクトルの正規化のため、全チャネルの平均
値が零となるように帯域別対数スペクトル電力を変換し
た後、正規化されたすべての帯域別対数スペクトル電力
を照合用特徴パラメータ時系列として使用し、予め辞書
に登録された標準特徴パラメータ時系列と2例えばダイ
ナミックプログラミング(DP)マツチング法等により
照合して、単音節または単語等の音声認識を行う方式が
知らflている。
上記音声認識方式において、音声の認識率を高めるため
には、帯域フィルタの数、すなわちチャネル数を多くす
る必要がある。しかし、チャネル数を増加させると、音
声周波継を分析するためのハードウェア量が多く必要に
なるだけで’:C<l特徴パラメータの要素が増えるこ
とから、照合に用いるメモリ量が多く必要になり、また
辞書に格納する標準特徴パラメータ時系列の格納領域も
多く必要になる。さらに、■が合のための演算処」“■
時間も多くかかることになる。
には、帯域フィルタの数、すなわちチャネル数を多くす
る必要がある。しかし、チャネル数を増加させると、音
声周波継を分析するためのハードウェア量が多く必要に
なるだけで’:C<l特徴パラメータの要素が増えるこ
とから、照合に用いるメモリ量が多く必要になり、また
辞書に格納する標準特徴パラメータ時系列の格納領域も
多く必要になる。さらに、■が合のための演算処」“■
時間も多くかかることになる。
しかし、チャネル数を減らせば、必要とするメモIJ
i等を少なくすることができるが、音声認識率が劣化す
ることになる、 (Q 発明の目的と構成 本発明は上記問題点の解決を図り、音声認識率を低下さ
せることなく、照合すべき特徴)(ラメータ・音を減少
させて、メモIJ−を等の削減を可能とすることを目的
としている。換言すれば、従来と同じ特徴パラメータ量
であれば、音声の認識率がさらに向上するようにするこ
とを目的としている。
i等を少なくすることができるが、音声認識率が劣化す
ることになる、 (Q 発明の目的と構成 本発明は上記問題点の解決を図り、音声認識率を低下さ
せることなく、照合すべき特徴)(ラメータ・音を減少
させて、メモIJ−を等の削減を可能とすることを目的
としている。換言すれば、従来と同じ特徴パラメータ量
であれば、音声の認識率がさらに向上するようにするこ
とを目的としている。
本発明者等は1本発明の完成に先立って、多くの実験・
研究を積み重ねた結果、音声認識における次のような特
性を発見した。音声周波数分析は。
研究を積み重ねた結果、音声認識における次のような特
性を発見した。音声周波数分析は。
高周波数帯域部分も含めて、広帯域にわたって行ったほ
うが良好な結果が得られるが、特に高周波数帯域部分に
ついては、各サンプリングごとのパワースペクトルの相
対的な音声エネルギー量が重要であり9例えば、そのパ
ワースペクトルのピークが、5KE[zの周波数部分に
あるか、7KEIZの周波数部分にあるかは、音声認識
上それ程重要ではないということである。これは9人間
の耳では。
うが良好な結果が得られるが、特に高周波数帯域部分に
ついては、各サンプリングごとのパワースペクトルの相
対的な音声エネルギー量が重要であり9例えば、そのパ
ワースペクトルのピークが、5KE[zの周波数部分に
あるか、7KEIZの周波数部分にあるかは、音声認識
上それ程重要ではないということである。これは9人間
の耳では。
おそらく高周波数帯域における周波数のわずかな違いは
、認識が困難であるためと考えられる。
、認識が困難であるためと考えられる。
本発明は、上記の点に鑑み、高周波数帯域部分も含めた
複数の帯域フィルターで分析したパラメータを正規化し
た後、高域部分の複数チャネルのパラメータを除去する
ようにして9本発明の目的を達成するようにしたもので
ある。すなわち。
複数の帯域フィルターで分析したパラメータを正規化し
た後、高域部分の複数チャネルのパラメータを除去する
ようにして9本発明の目的を達成するようにしたもので
ある。すなわち。
本発明の音声認識方式は、音声を周波数分析して得られ
る特徴パラメータ時系列の照合を行い音声を認識する音
声認識方式において、所定の帯域特性をもつ多数チャネ
ルの帯域フイ/l/夕と、上記各帯域フィルタの出力を
帯域別のスペクトル電力に変換する回路と、上記帯域別
スペクトル電力を対数変換して帯域別対数スペクトル電
力を算出する対数変換部と、全チャネルについての上記
帯域別対数スペクトル電力の平均値を算出する平均値算
出部と、該平均値算出部の出力結果に基づし・て上記全
チャネルのうち高周波数帯域部分の1またをマ爽数チャ
ネルを除く低域部分の上記帯域別対数スペクトル電力に
ついて正規化の変換を行う変換部とをそなえ、照合用特
徴)くラメータ時系列として。
る特徴パラメータ時系列の照合を行い音声を認識する音
声認識方式において、所定の帯域特性をもつ多数チャネ
ルの帯域フイ/l/夕と、上記各帯域フィルタの出力を
帯域別のスペクトル電力に変換する回路と、上記帯域別
スペクトル電力を対数変換して帯域別対数スペクトル電
力を算出する対数変換部と、全チャネルについての上記
帯域別対数スペクトル電力の平均値を算出する平均値算
出部と、該平均値算出部の出力結果に基づし・て上記全
チャネルのうち高周波数帯域部分の1またをマ爽数チャ
ネルを除く低域部分の上記帯域別対数スペクトル電力に
ついて正規化の変換を行う変換部とをそなえ、照合用特
徴)くラメータ時系列として。
上記変換後の帯域別対数スペクトル電力を使用すること
を特徴としている。以下9図面を参照12つつ説明する
。
を特徴としている。以下9図面を参照12つつ説明する
。
(D) 発明の実施例
図は本発明の一実施例構成を示す。
図中、1は音声入力部、2はパラメータ抽出部。
3−1ないし3−nは帯域通過フィルタ、4−1ないし
4−nは整流器、5−1ないし5 ’−nはアナログ・
ディジタル変換器、6−1ないし5−11は対数変換部
、7は平均値算出部、8−1ないし8−2nは減算器、
9は音声認識部、10は辞書を表わす。
4−nは整流器、5−1ないし5 ’−nはアナログ・
ディジタル変換器、6−1ないし5−11は対数変換部
、7は平均値算出部、8−1ないし8−2nは減算器、
9は音声認識部、10は辞書を表わす。
音声入力部1から入力された単音節または単語からなる
音声のアナログ信号は、ノクラメータ抽出部2に入力さ
lllする。パラメータ抽出部2は、音声アナログ信号
の周波数分析を行い、認識すべき入力音声の特徴パラメ
ータ時系列を抽出生成するものである。そのため、帯域
別に複数(n個)の帯域通過フィルタ3−1〜3−22
を有している。図において、上部の帯域通過フィルり3
−1から順に下位に向うに従って9通過周波数が高くな
っている。帯域通過フィルタ3−1〜3−77は2例え
ば隣接する帯域通過フィルタの3dBの減衰点カー一致
するように配置され1例えば180 Hzから7.8
KHzまでの広帯域にわたってカッ(−するようにされ
る。
音声のアナログ信号は、ノクラメータ抽出部2に入力さ
lllする。パラメータ抽出部2は、音声アナログ信号
の周波数分析を行い、認識すべき入力音声の特徴パラメ
ータ時系列を抽出生成するものである。そのため、帯域
別に複数(n個)の帯域通過フィルタ3−1〜3−22
を有している。図において、上部の帯域通過フィルり3
−1から順に下位に向うに従って9通過周波数が高くな
っている。帯域通過フィルタ3−1〜3−77は2例え
ば隣接する帯域通過フィルタの3dBの減衰点カー一致
するように配置され1例えば180 Hzから7.8
KHzまでの広帯域にわたってカッ(−するようにされ
る。
以下に本発明者等が用いた帯域通過フィルタの構成例を
示す。帯域通過フィルタ3−1〜3−11として、19
1固のフィルりを用いている。
示す。帯域通過フィルタ3−1〜3−11として、19
1固のフィルりを用いている。
以下余白
フィルタ構成例
音声入力部1からの音声信号は、帯域通過フィルタ3−
1〜3−Hによって帯域別にろ波され。
1〜3−Hによって帯域別にろ波され。
それぞれ整流器4−1〜4−nに入力される。各整流器
4−1〜4−nは9例えば10フnSの整流積分時定数
でもって、入力信号の整流平滑化を行う。整流器4−1
〜4−tlの出力は、アナログ・ディジタル変換器5−
1〜5−Hに入力され、帯域別スペクトル軍刀をディジ
タル量として表わしたものが求められる。
4−1〜4−nは9例えば10フnSの整流積分時定数
でもって、入力信号の整流平滑化を行う。整流器4−1
〜4−tlの出力は、アナログ・ディジタル変換器5−
1〜5−Hに入力され、帯域別スペクトル軍刀をディジ
タル量として表わしたものが求められる。
この帯域別スペクトル電力は1人間が感じる音の強弱に
合わせるために、対数変換部6−1〜6−nによって、
対数変換されて、帯域別対数スペクトル電力が求められ
る。次に、この帯域別対数スペクトル電力は、大きな声
であっても、小さな声であっても同じ特徴パラメータと
して表われるようにするために、正規化が行われる。
合わせるために、対数変換部6−1〜6−nによって、
対数変換されて、帯域別対数スペクトル電力が求められ
る。次に、この帯域別対数スペクトル電力は、大きな声
であっても、小さな声であっても同じ特徴パラメータと
して表われるようにするために、正規化が行われる。
そのため、まず平均値算出部7によって、全チャネルに
ついての帯域別対数スペクトル電力の平均値が算出され
る。ここで、従来方式によれば。
ついての帯域別対数スペクトル電力の平均値が算出され
る。ここで、従来方式によれば。
21個の対数変換部6−1〜6− nからの帯域別対数
スペクトル?E力から、そハぞね上記平均値算出部7に
よって−り1りめら牙また平均値の減算を行い、その結
果正規化されたn個の帯域別対数スペクトル電力を特徴
パラメータP1yP2tP3y・・・、 Pnとして。
スペクトル?E力から、そハぞね上記平均値算出部7に
よって−り1りめら牙また平均値の減算を行い、その結
果正規化されたn個の帯域別対数スペクトル電力を特徴
パラメータP1yP2tP3y・・・、 Pnとして。
使用するようにされていた。
本発明においては、高域部分の1または複数チャネルに
ついての帯域別対数スペクトル電力は。
ついての帯域別対数スペクトル電力は。
平均値算出部7において平均値灯出のためには用いるが
、音声の特徴パラメータとしては、用いないようにされ
、除去される。すなわち、(?72+1)番目の対数変
換部から、n番目の最高周波数帯域の対数変換部6−n
までの出力は、平均値算出のためにだけ用いられ、平均
値算出後は除去される。
、音声の特徴パラメータとしては、用いないようにされ
、除去される。すなわち、(?72+1)番目の対数変
換部から、n番目の最高周波数帯域の対数変換部6−n
までの出力は、平均値算出のためにだけ用いられ、平均
値算出後は除去される。
そして、求められた平均値を帯域別対数スペクトル電力
から減算するための減算器8−1〜8−M2は2図示の
如く、低域部のチャネルに対応してm個用意される。対
数変換部6−1〜6−772の出力である帯域別対数ス
ペクトル電力は、各減算器8−1〜8−mによって平均
値が減算され、その結果が特徴パラメータP1.P2*
・・・、Pmとして、音声認識部9に伝達される。
から減算するための減算器8−1〜8−M2は2図示の
如く、低域部のチャネルに対応してm個用意される。対
数変換部6−1〜6−772の出力である帯域別対数ス
ペクトル電力は、各減算器8−1〜8−mによって平均
値が減算され、その結果が特徴パラメータP1.P2*
・・・、Pmとして、音声認識部9に伝達される。
音声認識部9は、 tn個の特徴パラメータの組からな
る特徴パラメータ時系列によって、予め辞書10に登録
さねた標準特徴パラメータ時系列と。
る特徴パラメータ時系列によって、予め辞書10に登録
さねた標準特徴パラメータ時系列と。
例えばDPマツチング法により照合することにより入力
音声の認識を行う。すなわち、簡単に言えば時間軸の正
規化を行い、対応する時点におけるm個の入力特徴パラ
メータPiと標準特徴パラメータPiとの距’?、fP
(Pi Pg )をi=1からi=mまで加算し、
これを一連の時系列について加えた結果が最小になる標
準特徴パラメータに対応する単音節または単語を認識結
果とする。
音声の認識を行う。すなわち、簡単に言えば時間軸の正
規化を行い、対応する時点におけるm個の入力特徴パラ
メータPiと標準特徴パラメータPiとの距’?、fP
(Pi Pg )をi=1からi=mまで加算し、
これを一連の時系列について加えた結果が最小になる標
準特徴パラメータに対応する単音節または単語を認識結
果とする。
本発明者等は、上述した19個の帯域通過フィルタを用
いて周波数分析を行い、全チャネルの帯域別対数スペク
トル電力についての平均値を算出した後、上述のチャネ
ル(CH)番号が17から19までのもの、すなわち4
.8 KHzから7.8 K)lzに対応する帯域別対
数スペクトル電力を除いた16個の帯域別対数スペクト
ル成力について、上記平均値による補正を行って、その
補正された16個の帯域別対数スペクトル電力を照合用
特徴パラメータとして、音声認識を行った。これと、1
9個の全チャネルから19個の特徴パラメータを抽出し
て音声認識を行った結果とを比較したが、音声認識率の
低下は見らねなかった。
いて周波数分析を行い、全チャネルの帯域別対数スペク
トル電力についての平均値を算出した後、上述のチャネ
ル(CH)番号が17から19までのもの、すなわち4
.8 KHzから7.8 K)lzに対応する帯域別対
数スペクトル電力を除いた16個の帯域別対数スペクト
ル成力について、上記平均値による補正を行って、その
補正された16個の帯域別対数スペクトル電力を照合用
特徴パラメータとして、音声認識を行った。これと、1
9個の全チャネルから19個の特徴パラメータを抽出し
て音声認識を行った結果とを比較したが、音声認識率の
低下は見らねなかった。
一方、高周波数帯域のチャネルL丁;号17から19ま
でのものを除いた16個の帯域通過フィルタを用いて1
6チヤネルについての周波数分析を行い。
でのものを除いた16個の帯域通過フィルタを用いて1
6チヤネルについての周波数分析を行い。
16個の特徴パラメータを抽出して音声認識を試みたが
、この場合には、 4.8K)Izから7.8仰2ま
での高域部分の情報が全く特徴パラメータに加味されな
いため、明らかに音声認識率が劣化することとなった。
、この場合には、 4.8K)Izから7.8仰2ま
での高域部分の情報が全く特徴パラメータに加味されな
いため、明らかに音声認識率が劣化することとなった。
なお9周波数分析を行うチャネル数、帯域幅および抽出
する特徴パラメータ時系列の数は、上記実施例の場合に
限定さJするわけではなく、要求される音声認識率、お
よび用意できるメモリ惜、演算機構、辞書サイズ、許容
できる照合処理時間等によって適宜選択してよい。
する特徴パラメータ時系列の数は、上記実施例の場合に
限定さJするわけではなく、要求される音声認識率、お
よび用意できるメモリ惜、演算機構、辞書サイズ、許容
できる照合処理時間等によって適宜選択してよい。
■ 発明の詳細
な説明した如く本発明によれば、簡単な手段によって、
音声認識率を低下させることなく、照合/格納特徴パラ
メータ量を削減することができ。
音声認識率を低下させることなく、照合/格納特徴パラ
メータ量を削減することができ。
メモリ量、演算機構等を節減し、認識処理時間を短縮す
ることができる。また、従来と同数の特徴パラメータ号
で音声認識を行511)のとすJlば、音声認識率が向
上することとなる。
ることができる。また、従来と同数の特徴パラメータ号
で音声認識を行511)のとすJlば、音声認識率が向
上することとなる。
図は本発明の一実施例構成を示す。
図中、1は音声入力部、2はパラメータ抽出部。
3−1ないし3−nは帯域通過フィルタ、4−1ないし
4−nは整流器、5−1ないし5−nはアナログ・ディ
ジタル変換器、6−1ないし6−nは対数変換部、7は
平均値算出部、8−1ないしB −?7Zは減算器、9
は音声認識部、10は辞書を表わす。 特許出願人 富士通株式会社
4−nは整流器、5−1ないし5−nはアナログ・ディ
ジタル変換器、6−1ないし6−nは対数変換部、7は
平均値算出部、8−1ないしB −?7Zは減算器、9
は音声認識部、10は辞書を表わす。 特許出願人 富士通株式会社
Claims (1)
- 音声を周波数分析して得られる特徴パラメータ時系列の
照合を行い音声を認識する音声認識方式において、所定
の帯域特性をもつ多数チャネルの帯域フィルタと、上記
各帯域フィルタの出力を帯域別のスペクトル電力に安浄
する回路と、上記帯域別スペクトル電力を対数変換して
帯域別対数スペクトル電力を算出する対数変換部と、全
チャネルについての上記帯域別対数スペクトル電力の平
均値を算出する平均値算出部と、該平均値算出部の出力
結果に基づいて上記全チャネルのうち高周波数帯域部分
の1または複数チャネルを除く低域部分の上記帯域別対
数スペクトル電力について正規化の変換を行う変換部と
をそなえ、照合用特徴パラメータ時系列として、上記変
換後の帯域別対数スペクトル電力を使用することを特徴
とする音声認識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57229279A JPS59123897A (ja) | 1982-12-29 | 1982-12-29 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57229279A JPS59123897A (ja) | 1982-12-29 | 1982-12-29 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS59123897A true JPS59123897A (ja) | 1984-07-17 |
JPH0146080B2 JPH0146080B2 (ja) | 1989-10-05 |
Family
ID=16889618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57229279A Granted JPS59123897A (ja) | 1982-12-29 | 1982-12-29 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59123897A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61278899A (ja) * | 1985-06-05 | 1986-12-09 | 株式会社東芝 | 話者照合用フイルタ |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS565597A (en) * | 1979-06-26 | 1981-01-21 | Sanyo Electric Co | Voice identifier |
-
1982
- 1982-12-29 JP JP57229279A patent/JPS59123897A/ja active Granted
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS565597A (en) * | 1979-06-26 | 1981-01-21 | Sanyo Electric Co | Voice identifier |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61278899A (ja) * | 1985-06-05 | 1986-12-09 | 株式会社東芝 | 話者照合用フイルタ |
Also Published As
Publication number | Publication date |
---|---|
JPH0146080B2 (ja) | 1989-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0077558B1 (en) | Method and apparatus for speech recognition and reproduction | |
EP1250699B1 (en) | Speech recognition | |
CN106782500A (zh) | 一种基于基音周期和mfcc的融合特征参数提取方法 | |
EP1093112A2 (en) | A method for generating speech feature signals and an apparatus for carrying through this method | |
CN112017658A (zh) | 一种基于智能人机交互的操作控制系统 | |
JP3240908B2 (ja) | 声質変換方法 | |
JPS59123897A (ja) | 音声認識装置 | |
CN112992131A (zh) | 一种在复杂场景下提取目标人声的乒乓球指令的方法 | |
Li et al. | A high-performance auditory feature for robust speech recognition. | |
CN112581975B (zh) | 基于信号混叠和双声道相关性的超声波语音指令防御方法 | |
JPH0146078B2 (ja) | ||
JPH0146079B2 (ja) | ||
JPS59172695A (ja) | 音声パラメ−タ抽出方式 | |
JPS61228500A (ja) | 音声認識方法 | |
JPS6334477B2 (ja) | ||
JPS5837695A (ja) | 音声認識装置 | |
JP2557497B2 (ja) | 男女声の識別方法 | |
JPS61206000A (ja) | 音声認識装置 | |
JPS61281300A (ja) | 音声認識装置 | |
JPS6229798B2 (ja) | ||
Umakanthan et al. | A perceptual masking based feature set for speech recognition | |
CN115602190A (zh) | 一种基于主体滤波的伪造语音检测算法及系统 | |
Fukui et al. | Signal processor application to voice dialing equipment | |
JP3002211B2 (ja) | 不特定話者音声認識装置 | |
JPH02127700A (ja) | 音声応答装置 |