JPH0461359B2 - - Google Patents
Info
- Publication number
- JPH0461359B2 JPH0461359B2 JP58183842A JP18384283A JPH0461359B2 JP H0461359 B2 JPH0461359 B2 JP H0461359B2 JP 58183842 A JP58183842 A JP 58183842A JP 18384283 A JP18384283 A JP 18384283A JP H0461359 B2 JPH0461359 B2 JP H0461359B2
- Authority
- JP
- Japan
- Prior art keywords
- filter
- audio signal
- digital filter
- input
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000605 extraction Methods 0.000 claims description 20
- 230000005236 sound signal Effects 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 230000010354 integration Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Description
【発明の詳細な説明】
[発明の技術分野]
この発明は、単語音声認識装置に関し、特にた
とえば音声によつて種々の機器を制御したり、デ
ータをエントリするための単語音声認識装置に関
する。さらに特定的には、音声の特徴の1つとし
て有声音の周波数スペクトルを用いて認識する単
語音声認識装置に関する。
とえば音声によつて種々の機器を制御したり、デ
ータをエントリするための単語音声認識装置に関
する。さらに特定的には、音声の特徴の1つとし
て有声音の周波数スペクトルを用いて認識する単
語音声認識装置に関する。
[従来技術]
第1図は従来の単語音声認識装置(以下単に認
識装置と称する)の一例を示す概略ブロツク図で
ある。図において、音声入力部1は、図示しない
が、マイクロホン、アンプ、低域通過フイルタな
どを含み、音声を電気信号に変換して入力するも
のである。この音声入力部1の出力は特徴抽出部
2に与えられるとともに、始終端検出回路6に与
えられる。特徴抽出部2は、入力された音声信号
を分析し、音声の特徴パラメータを抽出する。特
徴抽出部2で抽出された音声の特徴パラメータ
は、認識処理部5に与えられる。始終端検出回路
6は、単語音声の始端と終端とを検出する回路で
ある。始終端検出回路6の検出結果は認識処理部
5に与えられる。この認識処理部5は、マイクロ
プロセツサやマイクロコンピユータなどによつて
構成され、音声の認識処理を行なうものである。
この認識処理部5には、入力パターンメモリ3お
よび登録パターンメモリ4が接続される。
識装置と称する)の一例を示す概略ブロツク図で
ある。図において、音声入力部1は、図示しない
が、マイクロホン、アンプ、低域通過フイルタな
どを含み、音声を電気信号に変換して入力するも
のである。この音声入力部1の出力は特徴抽出部
2に与えられるとともに、始終端検出回路6に与
えられる。特徴抽出部2は、入力された音声信号
を分析し、音声の特徴パラメータを抽出する。特
徴抽出部2で抽出された音声の特徴パラメータ
は、認識処理部5に与えられる。始終端検出回路
6は、単語音声の始端と終端とを検出する回路で
ある。始終端検出回路6の検出結果は認識処理部
5に与えられる。この認識処理部5は、マイクロ
プロセツサやマイクロコンピユータなどによつて
構成され、音声の認識処理を行なうものである。
この認識処理部5には、入力パターンメモリ3お
よび登録パターンメモリ4が接続される。
上述のような認識装置においては、音声波形を
一定時間のフレームに分割し、そのフレームごと
の周波数スペクトラムを特徴パラメータとして抽
出する。そして、認識処理部5は、登録モードに
おいては、抽出された登録語の特徴パラメータあ
るいは標準音声の特徴パラメータを登録パターン
メモリ4に書込む。すなわち、登録パターンメモ
リ4には、予め複数単語の音声の特徴パラメータ
が記憶される。また、認識処理部5は、音声の認
識モードにおいては、抽出された単語音声の特徴
パラメータを入力パターンメモリ3に書込む。そ
して、この入力パターンメモリ3に記憶された特
徴パラメータと登録パターンメモリ4に記憶され
た複数単語の特徴パラメータとの類似度を順次計
算し、その計算結果に基づいて単語音声の認識を
行なう。
一定時間のフレームに分割し、そのフレームごと
の周波数スペクトラムを特徴パラメータとして抽
出する。そして、認識処理部5は、登録モードに
おいては、抽出された登録語の特徴パラメータあ
るいは標準音声の特徴パラメータを登録パターン
メモリ4に書込む。すなわち、登録パターンメモ
リ4には、予め複数単語の音声の特徴パラメータ
が記憶される。また、認識処理部5は、音声の認
識モードにおいては、抽出された単語音声の特徴
パラメータを入力パターンメモリ3に書込む。そ
して、この入力パターンメモリ3に記憶された特
徴パラメータと登録パターンメモリ4に記憶され
た複数単語の特徴パラメータとの類似度を順次計
算し、その計算結果に基づいて単語音声の認識を
行なう。
第2図は第1図に示す特徴抽出部2の詳細を示
す回路図である。図において、音声入力部1から
の音声信号は、帯域通過フイルタ201−1,2
01−2…201−Nに与えられる。これら帯域
通過フイルタは、音声信号波形の特定の周波数成
分を通過させるものである。各帯域通過フイルタ
201−1〜201−Nの出力は、それぞれ平滑
回路202−1〜202−Nに与えられる。各平
滑回路202−1〜202−Nの出力はアナログ
マルチプレクサ203に与えられる。このアナロ
グマルチプレクサ203は、各平滑回路202−
1〜202−Nの出力を時分割で通過させる回路
である。アナログマルチプレクサ203の出力は
A/D変換回路203に与えられ、デイジタルデ
ータに変換されて出力される。
す回路図である。図において、音声入力部1から
の音声信号は、帯域通過フイルタ201−1,2
01−2…201−Nに与えられる。これら帯域
通過フイルタは、音声信号波形の特定の周波数成
分を通過させるものである。各帯域通過フイルタ
201−1〜201−Nの出力は、それぞれ平滑
回路202−1〜202−Nに与えられる。各平
滑回路202−1〜202−Nの出力はアナログ
マルチプレクサ203に与えられる。このアナロ
グマルチプレクサ203は、各平滑回路202−
1〜202−Nの出力を時分割で通過させる回路
である。アナログマルチプレクサ203の出力は
A/D変換回路203に与えられ、デイジタルデ
ータに変換されて出力される。
第3図は第2図に示す帯域通過フイルタ201
−1〜201−Nの周波数特性を示す図である。
この第3図に示すように、N個のフイルタによつ
て、音声波形のすべての周波数成分をほぼ均等に
抽出するように設定されている。この場合、音声
の特徴はN個のフイルタによつて抽出された周波
数成分のN個の値の大小パターンによつて表現さ
れる。上記Nは通常8〜16で、音声波形に雑音が
混入していない場合は比較的良好な音声の特徴パ
ラメータを得ることができる。したがつて、認識
性能も十分満足できるものであつた。しかしなが
ら、音声に工場騒音や他者の話し声などの騒音が
混入している場合には、音声と同時に騒音の周波
数成分も帯域通過フイルタを通過し、特徴パラメ
ータの値に影響を与えることになる。特徴パラメ
ータの抽出精度をスペクトラムの歪で評価するな
らば、従来の認識装置では、入力波形の騒音によ
るスペクトラム歪がそのまま特徴パラメータにも
現われることになる。したがつて、従来の認識装
置は騒音の高い環境で使用した場合、認識性能が
著しく劣化するという欠点があつた。
−1〜201−Nの周波数特性を示す図である。
この第3図に示すように、N個のフイルタによつ
て、音声波形のすべての周波数成分をほぼ均等に
抽出するように設定されている。この場合、音声
の特徴はN個のフイルタによつて抽出された周波
数成分のN個の値の大小パターンによつて表現さ
れる。上記Nは通常8〜16で、音声波形に雑音が
混入していない場合は比較的良好な音声の特徴パ
ラメータを得ることができる。したがつて、認識
性能も十分満足できるものであつた。しかしなが
ら、音声に工場騒音や他者の話し声などの騒音が
混入している場合には、音声と同時に騒音の周波
数成分も帯域通過フイルタを通過し、特徴パラメ
ータの値に影響を与えることになる。特徴パラメ
ータの抽出精度をスペクトラムの歪で評価するな
らば、従来の認識装置では、入力波形の騒音によ
るスペクトラム歪がそのまま特徴パラメータにも
現われることになる。したがつて、従来の認識装
置は騒音の高い環境で使用した場合、認識性能が
著しく劣化するという欠点があつた。
[発明の概要]
この発明は上述のような従来の認識装置の欠点
を除去するためになされたものであり、特徴抽出
部を音声のピツチに適応したデイジタルフイルタ
を用いて構成することにより、騒音環境下でも優
れた認識性能を持つ音声認識装置を提供すること
を目的としている。
を除去するためになされたものであり、特徴抽出
部を音声のピツチに適応したデイジタルフイルタ
を用いて構成することにより、騒音環境下でも優
れた認識性能を持つ音声認識装置を提供すること
を目的としている。
以下、図面に示す実施例とともにこの発明をよ
り具体的に説明する。
り具体的に説明する。
[発明の実施例]
第4図はこの発明の一実施例を示す概略ブロツ
ク図である。図において、音声入力部10は、マ
イクロホン11と、マイクロホンアンプ12と、
AGC回路13と、A/D変換回路14と、波形
メモリ15とを含む。音声入力部10の出力は、
レベル計算回路7に与えられるとともに、特徴抽
出部20に与えられる。レベル計算回路7の出力
は始終端検出回路6に与えられるとともに、認識
処理部50に与えられる。始終端検出回路6の出
力は認識処理部50に与えられる。一方、特徴抽
出部20は、ピツチ周期抽出回路21と、フイル
タ係数設定回路22と、デイジタルフイルタ23
とを含む。ピツチ周期抽出回路21およびデイジ
タルフイルタ23には、前述の音声入力部10の
出力が与えられる。ピツチ周期抽出回路21の出
力は、認識処理部50に与えられるとともに、フ
イルタ係数設定回路22に与えられる。フイルタ
係数設定回路22の出力はデイジタルフイルタ2
3に与えられる。デイジタルフイルタ23の出力
は認識処理部50に与えられる。認識処理部50
には、第1図の回路と同様の入力パターンメモリ
3および登録パターンメモリ4が接続される。
ク図である。図において、音声入力部10は、マ
イクロホン11と、マイクロホンアンプ12と、
AGC回路13と、A/D変換回路14と、波形
メモリ15とを含む。音声入力部10の出力は、
レベル計算回路7に与えられるとともに、特徴抽
出部20に与えられる。レベル計算回路7の出力
は始終端検出回路6に与えられるとともに、認識
処理部50に与えられる。始終端検出回路6の出
力は認識処理部50に与えられる。一方、特徴抽
出部20は、ピツチ周期抽出回路21と、フイル
タ係数設定回路22と、デイジタルフイルタ23
とを含む。ピツチ周期抽出回路21およびデイジ
タルフイルタ23には、前述の音声入力部10の
出力が与えられる。ピツチ周期抽出回路21の出
力は、認識処理部50に与えられるとともに、フ
イルタ係数設定回路22に与えられる。フイルタ
係数設定回路22の出力はデイジタルフイルタ2
3に与えられる。デイジタルフイルタ23の出力
は認識処理部50に与えられる。認識処理部50
には、第1図の回路と同様の入力パターンメモリ
3および登録パターンメモリ4が接続される。
次に、第4図の実施例の動作を説明する。マイ
クロホン11で取込んだ音声の入力波形はマイク
ロホンアンプ12で増幅され、波形の最高値が一
定水準になるようにAGC回路13で調整されて、
A/D変換回路14でサンプリング点ごとにデイ
ジタル数値に変換される。1フレーム分のサンプ
リングデータは波形メモリ15に一時記憶され
る。レベル計算回路7および特徴抽出部20は波
形メモリ15のデータx(i)、(i=1,2,…
If)を用いて以下に示すような処理を行なう。
クロホン11で取込んだ音声の入力波形はマイク
ロホンアンプ12で増幅され、波形の最高値が一
定水準になるようにAGC回路13で調整されて、
A/D変換回路14でサンプリング点ごとにデイ
ジタル数値に変換される。1フレーム分のサンプ
リングデータは波形メモリ15に一時記憶され
る。レベル計算回路7および特徴抽出部20は波
形メモリ15のデータx(i)、(i=1,2,…
If)を用いて以下に示すような処理を行なう。
まず、レベル計算回路7は、次式(1)に示すよう
に、サンプリングデータの自乗和Pを計算し、そ
のフレームの電力(パワー)に対応する数値を求
める。
に、サンプリングデータの自乗和Pを計算し、そ
のフレームの電力(パワー)に対応する数値を求
める。
P=If
〓i=1
×(i)2 …(1)
この数値Pは認識処理部50に与えられて、入
力された波形信号が有声音であるか否かの判定に
用いられる。
力された波形信号が有声音であるか否かの判定に
用いられる。
次に、ピツチ周期抽出回路21は、次式(2)で示
すように、波形メモリ15の波形データの自己相
関関数値COR(τ)を計算し、ピツチ周期をピツ
チ周期探索範囲内のうち最大の自己関数値を与え
るτとして求める。
すように、波形メモリ15の波形データの自己相
関関数値COR(τ)を計算し、ピツチ周期をピツ
チ周期探索範囲内のうち最大の自己関数値を与え
るτとして求める。
COR(τ)=If
〓i=1
×(i)・×(i+τ) …(2)
フイルタ係数設定回路22は、ピツチ周波数
(ピツチ周期の逆数)の整数倍がデイジタルフイ
ルタ23の共振周波数になるようなフイルタ係数
を発生し、その発生したフイルタ係数をデイジタ
ルフイルタ23に設定する。なお、このフイルタ
係数設定回路22は、フイルタ係数テーブルを
ROMなどで構成し、ピツチ周波数およびその整
数倍に対応してROMの内容を検索する手段によ
つて実現される。
(ピツチ周期の逆数)の整数倍がデイジタルフイ
ルタ23の共振周波数になるようなフイルタ係数
を発生し、その発生したフイルタ係数をデイジタ
ルフイルタ23に設定する。なお、このフイルタ
係数設定回路22は、フイルタ係数テーブルを
ROMなどで構成し、ピツチ周波数およびその整
数倍に対応してROMの内容を検索する手段によ
つて実現される。
第5図は第4図に示すデイジタルフイルタ23
の一構成例を示すブロツク図である。図において
第4図の波形メモリ15の出力x(i)は1次差
分回路231に与えられる。この1次差分回路2
31は、たとえば減算器などによつて構成され、
高域周波数を強調するためのものである。1次差
分回路231の出力は、2段格子形フイルタ23
2に与えられる。この2段格子形フイルタ232
は、3個の加減算器2321〜2323と、3個
の乗算器2324〜2326と、2個の遅延回路
2327〜2328とを含んで構成される。2段
格子形フイルタ232の出力は自乗回路233に
与えられる。この自乗回路233の出力は積算回
路234に与えられる。この積算回路234の出
力s(n)がフイルタ出力として認識処理部50
に与えられる。
の一構成例を示すブロツク図である。図において
第4図の波形メモリ15の出力x(i)は1次差
分回路231に与えられる。この1次差分回路2
31は、たとえば減算器などによつて構成され、
高域周波数を強調するためのものである。1次差
分回路231の出力は、2段格子形フイルタ23
2に与えられる。この2段格子形フイルタ232
は、3個の加減算器2321〜2323と、3個
の乗算器2324〜2326と、2個の遅延回路
2327〜2328とを含んで構成される。2段
格子形フイルタ232の出力は自乗回路233に
与えられる。この自乗回路233の出力は積算回
路234に与えられる。この積算回路234の出
力s(n)がフイルタ出力として認識処理部50
に与えられる。
次に、上述のデイジタルフイルタ23の動作に
ついて説明する。第4図の波形メモリ15に記憶
されたサンプリングデータ×(i)はデイジタル
フイルタの1次差分回路231に入力され、ここ
で次式(3)の計算が行なわれる。
ついて説明する。第4図の波形メモリ15に記憶
されたサンプリングデータ×(i)はデイジタル
フイルタの1次差分回路231に入力され、ここ
で次式(3)の計算が行なわれる。
Δ×(i)=×(i)−×(i−1) …(3)
1次差分回路231の出力△×(i)は2段格
子形フイルタ232に与えられる。この2段格子
形フイルタ232では、次式(4)〜(7)の逐次計算が
実行される。
子形フイルタ232に与えられる。この2段格子
形フイルタ232では、次式(4)〜(7)の逐次計算が
実行される。
y2(i)=Δ×(i)
+K2(n)・b2(i−1) …(4)
y1(i)=y2(i)
+K1(n)・b1(i−1) …(5)
b2(i)=b1(i−1)
−K1(n)・y1(i) …(6)
b1(i)=y1(i) …(7)
2段格子形フイルタ232の出力y1(i)は自乗
回路233および積算回路234にて次式(8)の演
算が行なわれる。
回路233および積算回路234にて次式(8)の演
算が行なわれる。
s(n)=If
〓i=1
y1(i)・y1(i) …(8)
以上のごとくして、フイルタ出力s(n)が導
出される。ただし、初期値b2(1),b1(1)は0
である。また、nはフイルタ係数設定回路22の
設定したn番目の計数値を意味し、これはピツチ
周波数のn次調波に対応した計数値でもある。
出される。ただし、初期値b2(1),b1(1)は0
である。また、nはフイルタ係数設定回路22の
設定したn番目の計数値を意味し、これはピツチ
周波数のn次調波に対応した計数値でもある。
2段格子形フイルタ232は、共振周波数fo、
バンド幅Boの共振特性を有し、フイルタ係数K1
(n),K2(n)と共振特性の間に次式(9),(10)の関
係がある。
バンド幅Boの共振特性を有し、フイルタ係数K1
(n),K2(n)と共振特性の間に次式(9),(10)の関
係がある。
K1(n)≒cos2π(fo/fs) …(9)
K2(n)≒−exp(−2πBo/fs) …(10)
但し、fsはサンプリング周波数である。
K2(n)≒−1すなわちバンド幅B。が極めて
小さい場合はQの高い鋭峰性の第6図に示すよう
な特性を有する。デイジタルフイルタ23の演算
処理は、所定の次数Nまでのフイルタ係数値に対
して同一の波形データx(i)についてN回実行
され、N個の出力s(n)(n=1,2,…N)を
得る。既に述べたように、フイルタ係数K1(n),
K2(n)はフイルタ係数設定回路22によつてピ
ツチ周波数の調波成分がフイルタの共振周波数に
一致するように設定されるので、フイルタ出力s
(n)は波形データx(i)に含まれるピツチ周波
数調波成分のみを抽出した値に対応することにな
る。このフイルタ出力s(n)は第4図に示す認
識処理部50に与えられて、認識処理のための主
要データとして用いられる。
小さい場合はQの高い鋭峰性の第6図に示すよう
な特性を有する。デイジタルフイルタ23の演算
処理は、所定の次数Nまでのフイルタ係数値に対
して同一の波形データx(i)についてN回実行
され、N個の出力s(n)(n=1,2,…N)を
得る。既に述べたように、フイルタ係数K1(n),
K2(n)はフイルタ係数設定回路22によつてピ
ツチ周波数の調波成分がフイルタの共振周波数に
一致するように設定されるので、フイルタ出力s
(n)は波形データx(i)に含まれるピツチ周波
数調波成分のみを抽出した値に対応することにな
る。このフイルタ出力s(n)は第4図に示す認
識処理部50に与えられて、認識処理のための主
要データとして用いられる。
認識処理部50はデイジタルフイルタ23から
与えられる特徴パラメータs(n)の振幅、時間
軸の正規化を行なつた後、登録モードにおいては
正規化したスペクトル時系列パターンを登録パタ
ーンメモリ4に書込み、認識モードでは入力パタ
ーンメモリ3に書込む。さらに認識モードでは、
認識処理部5は登録パターンメモリ4の内容と入
力パターンメモリ3の内容との類似度をパターン
マツチングにより計算し認識結果を得る。なお、
音声信号の始終端検出については、始終端検出回
路6がレベル計算回路7の計算するパワーに基づ
いて行なう。これらの動作は、第1図における回
路の動作とほぼ同様である。
与えられる特徴パラメータs(n)の振幅、時間
軸の正規化を行なつた後、登録モードにおいては
正規化したスペクトル時系列パターンを登録パタ
ーンメモリ4に書込み、認識モードでは入力パタ
ーンメモリ3に書込む。さらに認識モードでは、
認識処理部5は登録パターンメモリ4の内容と入
力パターンメモリ3の内容との類似度をパターン
マツチングにより計算し認識結果を得る。なお、
音声信号の始終端検出については、始終端検出回
路6がレベル計算回路7の計算するパワーに基づ
いて行なう。これらの動作は、第1図における回
路の動作とほぼ同様である。
次に、第4図に示す実施例の特徴となる機能を
説明する。この実施例の特徴の1つは、デイジタ
ル処理によりフレームごとに波形のレベルを計算
し、音声波形の有意な部分すなわち母音のフレー
ムを検出することである。他の特徴は、係る母音
フレームについてピツチ周期を自己相関法などの
手段により求めることである。さらに他の特徴
は、共振形デイジタルフイルタを設けることによ
つてピツチ周波数の調波成分のみを抽出すること
である。音声波形の一般的な特徴として、母音な
ど有声音はパワーが大きく、高い騒音の混入によ
る音声情報のマスクされる割合が小さい。また、
自己相関法などのピツチ抽出法を用いれば白色性
雑音の混入があつてもピツチ周期の抽出は精度良
く行なえる。また、母音などの有声音はピツチ周
波数の整数倍のところにのみ成分を有する離散ス
ペクトル構造を有し、このスペクトラムのパター
ンが母音の識別に有効な情報となつている。した
がつて、第4図の認識装置の特徴抽出部20が抽
出するピツチ周波数の整数倍の周波数に共振する
デイジタルフイルタ23の出力は、母音の特徴を
そのまま表現した特徴パラメータとなつている。
しかも、高い騒音の混入があつても、その騒音の
ほとんどの周波数成分は、デイジタルフイルタ2
3によつて遮断され出力されることがない。した
がつて、入力音声波形が騒音によつて大きなスペ
クトル歪を有したものであつても、特徴パラメー
タは歪を受けることが小さく、認識にとつて有効
な特徴パラメータとすることができる。したがつ
て、第4図の認識装置では、騒音による認識性能
の劣化を極めて小さくでき、認識性能の向上を図
ることができる。
説明する。この実施例の特徴の1つは、デイジタ
ル処理によりフレームごとに波形のレベルを計算
し、音声波形の有意な部分すなわち母音のフレー
ムを検出することである。他の特徴は、係る母音
フレームについてピツチ周期を自己相関法などの
手段により求めることである。さらに他の特徴
は、共振形デイジタルフイルタを設けることによ
つてピツチ周波数の調波成分のみを抽出すること
である。音声波形の一般的な特徴として、母音な
ど有声音はパワーが大きく、高い騒音の混入によ
る音声情報のマスクされる割合が小さい。また、
自己相関法などのピツチ抽出法を用いれば白色性
雑音の混入があつてもピツチ周期の抽出は精度良
く行なえる。また、母音などの有声音はピツチ周
波数の整数倍のところにのみ成分を有する離散ス
ペクトル構造を有し、このスペクトラムのパター
ンが母音の識別に有効な情報となつている。した
がつて、第4図の認識装置の特徴抽出部20が抽
出するピツチ周波数の整数倍の周波数に共振する
デイジタルフイルタ23の出力は、母音の特徴を
そのまま表現した特徴パラメータとなつている。
しかも、高い騒音の混入があつても、その騒音の
ほとんどの周波数成分は、デイジタルフイルタ2
3によつて遮断され出力されることがない。した
がつて、入力音声波形が騒音によつて大きなスペ
クトル歪を有したものであつても、特徴パラメー
タは歪を受けることが小さく、認識にとつて有効
な特徴パラメータとすることができる。したがつ
て、第4図の認識装置では、騒音による認識性能
の劣化を極めて小さくでき、認識性能の向上を図
ることができる。
第7図は第4図に示すデイジタルフイルタ23
の他の構成例を示すブロツク図である。なお、こ
の第7図では以下の点を除いて第5図に示すデイ
ジタルフイルタと同様の構成であり、相当する部
分には同一の参照番号を付しその説明を省略す
る。この実施例は、1次差分回路231の前段に
乗算器235を設け、音声波形の拡大縮小ができ
ることが特徴である。乗算器235を挿入するこ
とにより、前述の第(3)式は次式(11)で示すように
なる。
の他の構成例を示すブロツク図である。なお、こ
の第7図では以下の点を除いて第5図に示すデイ
ジタルフイルタと同様の構成であり、相当する部
分には同一の参照番号を付しその説明を省略す
る。この実施例は、1次差分回路231の前段に
乗算器235を設け、音声波形の拡大縮小ができ
ることが特徴である。乗算器235を挿入するこ
とにより、前述の第(3)式は次式(11)で示すように
なる。
Δ×(i)=α{×(i)−×(i−1)} …(11)
ここで、αは任意に値を設定できる波形乗算係
数である。音声波形のパワーが大きすぎると、前
述の第(8)式で示す積算結果s(n)がオーバフロ
ーする可能性がある。そこで、波形のパワーが大
きければαを小さくし、パワーが小さければαを
大きくすれば、フイルタ演算のダイナミツクレン
ジが向上する。パワー値はレベル計算回路7が計
算したものを用いることができる。α=α1とαが
一定のときフイルタ演算が発散しない保証のある
パワーをPHとすると、パワーがPH以下のときは α=α1 …(12) パワーがPHを越えるときは α=α1√H …(13) とすればスペクトル演算の発散を防ぐことができ
る。なお、上述の第(13)式においてPはパワーを
表わす。このαとパワーの関係を第8図に示す。
認識処理部50はレベル計算回路7からパワーが
与えられると、αの計算を行ない、乗算器235
にこのαを設定する。
数である。音声波形のパワーが大きすぎると、前
述の第(8)式で示す積算結果s(n)がオーバフロ
ーする可能性がある。そこで、波形のパワーが大
きければαを小さくし、パワーが小さければαを
大きくすれば、フイルタ演算のダイナミツクレン
ジが向上する。パワー値はレベル計算回路7が計
算したものを用いることができる。α=α1とαが
一定のときフイルタ演算が発散しない保証のある
パワーをPHとすると、パワーがPH以下のときは α=α1 …(12) パワーがPHを越えるときは α=α1√H …(13) とすればスペクトル演算の発散を防ぐことができ
る。なお、上述の第(13)式においてPはパワーを
表わす。このαとパワーの関係を第8図に示す。
認識処理部50はレベル計算回路7からパワーが
与えられると、αの計算を行ない、乗算器235
にこのαを設定する。
第9図は第4図に示すデイジタルフイルタ23
のさらに他の構成例を示すブロツク図である。な
お、第5図に示すデイジタルフイルタと同様の部
分には同一の参照番号を付し、その説明を省略す
る。この実施例は、積算回路234の後段に乗算
器236を挿入してフイルタの周波数特性の調整
ができることが特徴である。2段格子形フイルタ
232のゲインGN(n)は、次式(14)で表わされ
る。
のさらに他の構成例を示すブロツク図である。な
お、第5図に示すデイジタルフイルタと同様の部
分には同一の参照番号を付し、その説明を省略す
る。この実施例は、積算回路234の後段に乗算
器236を挿入してフイルタの周波数特性の調整
ができることが特徴である。2段格子形フイルタ
232のゲインGN(n)は、次式(14)で表わされ
る。
なお、上述の第(14)式においてB1,B2は次式(1
5),(16)で表わされるものである。
5),(16)で表わされるものである。
B1=K1(n)−K1(n)・K2(n)
B2=K2(n) …(16)
フイルタ係数設定回路22は、K1(n),K2
(n)だけでなく、次式(17)で示されるゲイン補
正係数を乗算器236に設定する。
(n)だけでなく、次式(17)で示されるゲイン補
正係数を乗算器236に設定する。
G(n)=1/(GN2(n)) …(17)
このように、乗算器236を設け、フイルタ演
算により得たスペクトル値s(n)にG(N)を掛
けることにより、ゲイン一定のフイルタ演算結果
を得ることができる。そして、これにより認識性
能の向上を図ることができる。
算により得たスペクトル値s(n)にG(N)を掛
けることにより、ゲイン一定のフイルタ演算結果
を得ることができる。そして、これにより認識性
能の向上を図ることができる。
なお、以上説明した実施例では、説明の都合上
認識装置を特定話者登録形として説明したが、単
語音声の特徴パラメータを予めROMに記憶して
いる不特定話者の音声認識装置でも実現可能なこ
とは言うまでもない。
認識装置を特定話者登録形として説明したが、単
語音声の特徴パラメータを予めROMに記憶して
いる不特定話者の音声認識装置でも実現可能なこ
とは言うまでもない。
また、以上の実施例では、デイジタルフイルタ
の2段格子形フイルタを中心に説明したが、フレ
ームごとに特性を変化することのできるQの高い
極形のデイジタルフイルタであれば、2段格子形
フイルタでなくてもよい。
の2段格子形フイルタを中心に説明したが、フレ
ームごとに特性を変化することのできるQの高い
極形のデイジタルフイルタであれば、2段格子形
フイルタでなくてもよい。
また、上述の実施例では、1個のデイジタルフ
イルタに時分割的にフイルタ係数を設定して用い
るようにしたが、複数個のデイジタルフイルタを
並列的に設け、各デイジタルフイルタに同時に異
なるフイルタ係数を設定し、それによつて各デイ
ジタルフイルタの共振周波数がピツチ周波数の整
数倍となるようにしてもよい。
イルタに時分割的にフイルタ係数を設定して用い
るようにしたが、複数個のデイジタルフイルタを
並列的に設け、各デイジタルフイルタに同時に異
なるフイルタ係数を設定し、それによつて各デイ
ジタルフイルタの共振周波数がピツチ周波数の整
数倍となるようにしてもよい。
さらに、第7図に示す実施例においては、波形
乗算係数αを音声信号のパワーにより求めたが、
パワー以外にその他音声信号の波形の大きさに対
応する量(たとえばレベル)を計算し、この計算
した量によりαを求めるようにしてもよい。
乗算係数αを音声信号のパワーにより求めたが、
パワー以外にその他音声信号の波形の大きさに対
応する量(たとえばレベル)を計算し、この計算
した量によりαを求めるようにしてもよい。
さらに、第9図に示す実施例においては、フイ
ルタ出力のゲインが完全に一定になるようにゲイ
ン補正係数を定めたが、フイルタ出力のゲインは
完全に一定にならなくともよく、多少のばらつき
があつてもよい。
ルタ出力のゲインが完全に一定になるようにゲイ
ン補正係数を定めたが、フイルタ出力のゲインは
完全に一定にならなくともよく、多少のばらつき
があつてもよい。
[発明の効果]
以上のように、この発明によれば、音声信号の
ピツチ周波数の調波成分のみを特徴パラメータと
して抽出するようにしているので、入力音声信号
は騒音によつて大きなスペクトル歪を有したもの
であつても特徴パラメータは歪を受けることが小
さく、したがつて騒音による認識性能の劣化の極
めて小さい優れた認識装置を得ることができる。
ピツチ周波数の調波成分のみを特徴パラメータと
して抽出するようにしているので、入力音声信号
は騒音によつて大きなスペクトル歪を有したもの
であつても特徴パラメータは歪を受けることが小
さく、したがつて騒音による認識性能の劣化の極
めて小さい優れた認識装置を得ることができる。
第1図は従来の認識装置の一例を示す概略ブロ
ツク図である。第2図は第1図に示す特徴抽出部
2の詳細を示すブロツク図である。第3図は第2
図に示す帯域通過フイルタ201−1〜201−
Nの周波数特性を示す図である。第4図はこの発
明の一実施例を示す概略ブロツク図である。第5
図は第4図に示すデイジタルフイルタ23の一構
成例を示すブロツク図である。第6図は第5図に
示す2段格子形フイルタ232の周波数特性を示
す図である。第7図は第4図に示すデイジタルフ
イルタ23の他の構成例を示すブロツク図であ
る。第8図は音声信号のパワーと第7図に示す乗
算器235に設定される波形乗算係数αとの関係
を示す図である。第9図は第4図に示すデイジタ
ルフイルタ23のさらに他の構成例を示すブロツ
ク図である。 図において、3は入力パターンメモリ、4は登
録パターンメモリ、7はレベル計算回路、10は
音声入力部、20は特徴抽出部、21はピツチ周
期抽出回路、22はフイルタ係数設定回路、23
はデイジタルフイルタ、50は認識処理部、23
2は2段格子形フイルタを示す。
ツク図である。第2図は第1図に示す特徴抽出部
2の詳細を示すブロツク図である。第3図は第2
図に示す帯域通過フイルタ201−1〜201−
Nの周波数特性を示す図である。第4図はこの発
明の一実施例を示す概略ブロツク図である。第5
図は第4図に示すデイジタルフイルタ23の一構
成例を示すブロツク図である。第6図は第5図に
示す2段格子形フイルタ232の周波数特性を示
す図である。第7図は第4図に示すデイジタルフ
イルタ23の他の構成例を示すブロツク図であ
る。第8図は音声信号のパワーと第7図に示す乗
算器235に設定される波形乗算係数αとの関係
を示す図である。第9図は第4図に示すデイジタ
ルフイルタ23のさらに他の構成例を示すブロツ
ク図である。 図において、3は入力パターンメモリ、4は登
録パターンメモリ、7はレベル計算回路、10は
音声入力部、20は特徴抽出部、21はピツチ周
期抽出回路、22はフイルタ係数設定回路、23
はデイジタルフイルタ、50は認識処理部、23
2は2段格子形フイルタを示す。
Claims (1)
- 【特許請求の範囲】 1 音声を電気信号に変換して入力する音声信号
入力手段、 前記音声信号入力手段から入力される音声信号
の波形の特徴パラメータを抽出する特徴抽出手
段、 前記特徴抽出手段で抽出された認識すべき単語
音声の特徴パラメータを記憶する入力パターン記
憶手段、 前記特徴抽出手段で抽出された複数個の単語音
声の特徴パラメータを予め記憶しておく登録パタ
ーン記憶手段、および 前記入力パターン記憶手段に記憶された入力音
声の特徴パラメータと前記登録パターン記憶手段
に記憶された複数個単語音声の特徴パラメータと
の類似度を計算し、音声の認識処理を行なう音声
認識処理手段を備え、 前記特徴抽出手段は、 前記音声信号入力手段から入力される音声信号
のピツチ周波数を検出する手段と、 設定されるフイルタ係数に応じてその共振周波
数が変化し、かつ前記音声信号のスペクトラムデ
ータを前記特徴パラメータとして抽出するデイジ
タルフイルタと、 前記デイジタルフイルタの共振周波数が前記ピ
ツチ周波数の整数倍となるように、前記デイジタ
ルフイルタのフイルタ係数を設定する手段とを含
む、単語音声認識装置。 2 前記デイジタルフイルタは1個設けられ、 前記フイルタ係数設定手段は、前記デイジタル
フイルタに時分割的に前記フイルタ係数を設定す
ることを特徴とする、特許請求の範囲第1項記載
の単語音声認識装置。 3 前記デイジタルフイルタは複数個並列的に設
けられ、 前記フイルタ係数設定手段は、前記並列的に設
けられた各デイジタルフイルタに異なるフイルタ
係数を設定することを特徴とする、特許請求の範
囲第1項記載の単語音声認識装置。 4 前記デイジタルフイルタは、入力音声信号の
レベルに応じて該入力音声信号のレベルを調整す
る手段をさらに含む、特許請求の範囲第1項ない
し第3項のいずれかに記載の単語音声認識装置。 5 前記デイジタルフイルタは、各共振周波数で
の出力信号のレベルが一定となるように、共振周
波数に応じてその出力信号のレベルを調整する手
段をさらに含む、特許請求の範囲第1項ないし第
3項のいずれかに記載の単語音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58183842A JPS6075898A (ja) | 1983-09-30 | 1983-09-30 | 単語音声認識装置 |
US07/228,149 US4833714A (en) | 1983-09-30 | 1988-08-04 | Speech recognition apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58183842A JPS6075898A (ja) | 1983-09-30 | 1983-09-30 | 単語音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6075898A JPS6075898A (ja) | 1985-04-30 |
JPH0461359B2 true JPH0461359B2 (ja) | 1992-09-30 |
Family
ID=16142790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58183842A Granted JPS6075898A (ja) | 1983-09-30 | 1983-09-30 | 単語音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6075898A (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2830276B2 (ja) * | 1990-01-18 | 1998-12-02 | 松下電器産業株式会社 | 信号処理装置 |
KR101185511B1 (ko) | 2004-06-28 | 2012-09-24 | 가부시키가이샤 다이키샤 | 축열식 가스 처리 장치 |
JP4571871B2 (ja) * | 2005-02-03 | 2010-10-27 | 日本電信電話株式会社 | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
-
1983
- 1983-09-30 JP JP58183842A patent/JPS6075898A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPS6075898A (ja) | 1985-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5842162A (en) | Method and recognizer for recognizing a sampled sound signal in noise | |
US6493668B1 (en) | Speech feature extraction system | |
EP0838805B1 (en) | Speech recognition apparatus using pitch intensity information | |
JPS634200B2 (ja) | ||
US4833714A (en) | Speech recognition apparatus | |
TWI767696B (zh) | 自我語音抑制裝置及方法 | |
JPH0461359B2 (ja) | ||
JP2642694B2 (ja) | 雑音除去方法 | |
JPH056193A (ja) | 音声区間検出方式及び音声認識装置 | |
JP3346200B2 (ja) | 音声認識装置 | |
JP2966452B2 (ja) | 音声認識装置の雑音除去システム | |
JPS60166993A (ja) | 単語音声認識装置 | |
JPH1097288A (ja) | 背景雑音除去装置及び音声認識装置 | |
JPS59124397A (ja) | 無音区間検出回路 | |
JPS63274998A (ja) | 単語音声認識装置 | |
JP2975808B2 (ja) | 音声認識装置 | |
JPS6229798B2 (ja) | ||
JP3015477B2 (ja) | 音声認識方法 | |
JP2003241792A (ja) | 音声認識装置及び方法 | |
JPH0648440B2 (ja) | 音声特徴抽出装置 | |
JPH1078798A (ja) | 音声信号処理装置 | |
JPH05134697A (ja) | 音声認識装置 | |
JPS6113600B2 (ja) | ||
JPH01200294A (ja) | 音声認識装置 | |
JP2003241791A (ja) | 音声認識装置及び方法 |