JP3410789B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3410789B2
JP3410789B2 JP33810493A JP33810493A JP3410789B2 JP 3410789 B2 JP3410789 B2 JP 3410789B2 JP 33810493 A JP33810493 A JP 33810493A JP 33810493 A JP33810493 A JP 33810493A JP 3410789 B2 JP3410789 B2 JP 3410789B2
Authority
JP
Japan
Prior art keywords
frequency
signal
noise
reference signal
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33810493A
Other languages
English (en)
Other versions
JPH07199990A (ja
Inventor
潤一郎 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP33810493A priority Critical patent/JP3410789B2/ja
Publication of JPH07199990A publication Critical patent/JPH07199990A/ja
Application granted granted Critical
Publication of JP3410789B2 publication Critical patent/JP3410789B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力された音声の特徴
量を予め用意された標準パターンの特徴量と比較するこ
とで入力された音声を認識する音声認識装置に関する。
【0002】
【従来の技術】近年、人間が発生する言語の音韻性情報
を認識する音声認識技術が盛んに研究され、この音声認
識技術を具体的な装置に応用した音声認識装置の開発が
進められている。音韻性情報を認識するには、一般に、
予め単語や音節等を単位とする複数の標準パターンを用
意し、未知の入力音声と各標準パターンとを比較し、入
力音声に最も類似している標準パターンを見つけ出し、
この標準パターンが発声された音声であると判定する等
の手法が用いられる。このような音声認識技術を具体的
な装置に応用する際に必ず問題となるのが騒音である。
つまり、音声と騒音とを区別して認識することが困難な
ことから、入力音声に騒音が入り込むと認識精度が低下
してしまうという問題がある。
【0003】このような騒音に対する対策として一番容
易に行うことができるのは、音声認識装置の集音部であ
るマイクロフォンに口を近付けることである。そこで、
音声認識装置にあっては、頭部にセットされる固定器具
からロット状のマイクロフォン素子を口の近くに位置す
るように延出させたヘッドセットと称される装置が広く
用いられている。このようなヘッドセットを使用するこ
とで音声信号と雑音との比率であるS/N比(signal-t
o-noise ratio )を高くすることができ、騒音に強い音
声認識が可能になる。
【0004】ところが、ヘッドセットには、使い勝手が
悪かったり、音源である口と受音点であるマイクロフォ
ン素子との間の僅かな距離変化が入力音声の特性に大き
な影響を及ぼしたり、更には、大きな騒音に対しては良
好な効果が得られない等の問題がある。そこで、従来、
騒音に対する対策として、入力された音声に所定の信号
処理を施すことによる種々の対策が提案されている。
【0005】まず、騒音対策の第一の従来例として、入
力された音声信号を櫛形フィルタに通し、音声信号から
騒音だけを除去するような研究成果が発表されている
(長渕裕実:通信学会技報S79−48)。これは、母
音のスペクトル構造を利用し、櫛形フィルタで音声信号
をフィルタリングすることによって、音声信号中、倍音
構造を有するスペクトルのみを通過させてそうでないス
ペクトルを遮断し、音声信号から騒音信号を除去すると
いう提案である。ところが、このような騒音除去方式
は、個人性情報を持つ母音のスペクトルに櫛形フィルタ
の特性を合わせなければならず、また、騒音と類似した
特性を有する子音が櫛形フィルタに遮断され、このよう
な子音を音声信号として取り出すことができない。した
がって、汎用性を持たせるのが困難であり、音声認識の
正確さに欠けるという問題がある。
【0006】次いで、騒音対策の第二の従来例として、
スペクトル・サブトラクションと称されている対策が発
表され(Steven F. Boll:IEEE Trans ASSP(1979) )、
現在広く用いられている。この提案は、音声入力前の騒
音を音声入力用の集音部であるマイクロフォンで取り込
んでその周波数スペクトルを記憶しておき、その後にそ
のマイクロフォンを通じて入力された音声信号から騒音
の周波数スペクトルを差し引き、差し引いた残りの信号
を音声認識用に利用するというものである。しかしなが
ら、このような騒音除去方式は、騒音が一定の特徴量を
維持している場合には良好な騒音除去を実現できる反
面、騒音取り込み時と音声取り込み時とでの騒音の周波
数的特徴及び音の大きさが相違すると、確実な騒音除去
を実行することができないばかりか、却って音声の誤認
識を生じさせてしまうことがあるという問題がある。
【0007】そこで、騒音対策の第三の従来例として、
ウィドロウが提案した適応フィルタの考え方を応用し、
音声入力用の集音部であるマイクロフォンを二つ用いる
方式の騒音対策が発表されている(梅田哲夫、尾関和
彦、安広輝夫:通信学会技報S81−81)。この第三
の従来例を実現させる装置の一例を図10に示す。すな
わち、音声源用と雑音源用とに二つのマイクロフォン1
a,1bが設けられ、音声源用のマイクロフォン1aは
加算器2を介して図示しない区間検出部や音声認識部等
に接続され、雑音源用のマイクロフォン1bは適応フィ
ルタ3を介して加算器2に接続されている。そして、加
算器2の出力が誤差εとして適応フィルタ3に入力され
るように構成されている。
【0008】このような構造のものは、マイクロフォン
1aからは雑音信号nを含んだ音声信号sである主信号
snが入力され、マイクロフォン1bからは雑音信号n
´のみからなる参照信号n´が入力される。そして、マ
イクロフォン1aから入力された主信号snは、加算器
2を通過することで参照信号n´が差し引かれて出力さ
れる。この際、参照信号n´が減じられた主信号sn
は、適応フィルタ3に誤差εとして入力され、この誤差
εを加味した参照信号n´が適応フィルタ3より加算器
2に入力される。これにより、適応フィルタ3では、主
信号snから参照信号n´が差し引かれた絶対値が最小
となるように、参照信号n´の振幅と位相とが制御され
る。つまり、その絶対値が最小となるということは、主
信号sn中の雑音信号nの値と参照信号n´中の雑音信
号n´の値とが一致しているということを意味する。し
たがって、主信号snから参照信号n´を差し引いた絶
対値が最小となる場合の主信号sn中の音声信号sは、
雑音が除去された音声信号ということになる。そこで、
この音声信号sを区間検出部や音声認識部に対する出力
信号zとすることで、雑音の影響がない正確な音声認識
が実現する。
【0009】より詳細には、主信号snに含まれる音声
信号をs(t)、雑音をn(t)とし、参照信号nに含まれ
る雑音をn´(t)とすると、適応フィルタ2を通過した
出力であるz(t)は、 z(t)=s(t)+n(t)−n´(t) ………(1) である。ここで、z(t)をある時間区間で最小にするた
めには、 <z2(t)>=<{s(t)+n(t)−n´(t)}2> =<s2(t)>+2・<s(t)・{n(t)−n´(t)}> +<{n(t)−n´(t)}2> ………(2) を最小にすれば良い。ここで、< >は時間平均を意味
している。そして、式(2)の第2項は、音声信号s
(t)と騒音n(t)及びn´(t)との間に相関関係がない
ことを考えると0となるため、式(2)は <z2(t)>=<s2(t)>+<{n(t)−n´(t)}2> ………(3) となる。この式(3)を最小とするのは、n(t)=n´
(t)の場合であるため、この場合に出力信号z(t)が本
来的に取り出したい音声信号s(t)となる。このよう
に、出力信号z(t)が最小となれば、騒音の特性を明確
にすることなく、騒音nを含む音声信号sである主信号
snから音声信号sのみを取り出すことができる。
【0010】
【発明が解決しようとする課題】しかしながら、図10
に例示した装置では、主信号snから音声信号sだけを
取り出すには、主信号snから参照信号n´を差し引い
た絶対値が最小となるように、適応フィルタ3で参照信
号n´の振幅と位相とを制御しなければならない。とこ
ろが、このような制御には膨大な演算量を必要とする。
すなわち、騒音対策の第三の従来例として説明した手法
は、n(t)−n´(t)=0とするために、n(t)とn´
(t)との間の振幅及び位相を合わせる必要があり、その
ための演算量が膨大になってしまうという欠点を有す
る。
【0011】そこで、このような第三の従来例として説
明した手法の欠点を補う騒音対策として、主信号snと
参照信号n´とを周波数変換した後に演算処理する手法
が提案され、発表されている(有吉敬、松下貢、藤本潤
一郎:音響学会講演論文集平成2年9月 第9頁〜第1
0頁)。この手法は、前述した式(1)を次式のように
変形し、 Z(ω)=S(ω)+N(ω)+k・N´(ω) ………(4) Z(ω)を音声認識に用いようというものである。ここ
で、z(t)をフーリエ変換したものをZ(ω)、s(t)を
フーリエ変換したものをS(ω)、n(t)をフーリエ変換
したものをN(ω)、n´(t)をフーリエ変換したものを
N´(ω)とする。そして、上記式(4)において、係数
kは、音声入力前の主信号SN、すなわち、S=0であ
る場合のNと参照信号N´との比とする。このような手
法によれば、音声入力前に係数kが決定され、この係数
kに基づきZ(ω)の最小値が容易に求まるため、第三の
従来例として説明した手法に比べ、演算量を大幅に少な
くすることができる。しかも、複数の周波数帯域毎に式
(4)の演算処理を適用することができるというメリッ
トもある。
【0012】ところが、上記式(4)を用いる騒音対策
の手法では、現実に音声が入力されない状態で係数kが
決定されるため、音声入力中に騒音のスペクトルが変化
した場合には、正確な出力を得ることができないという
問題がある。しかも、参照信号N´が小さい場合には、
N/N´の分母が0に近くなり、誤差が大きくなってし
まうという問題もある。
【0013】
【課題を解決するための手段】請求項1記載の発明は、
音声信号入力用の第一集音部と、この第一集音部から入
力された主信号を周波数変換する第一周波数変換部と、
騒音信号入力用の第二集音部と、この第二集音部から入
力された参照信号を周波数変換する第二周波数変換部
と、主信号と参照信号とに時間対応を付ける時間対応手
段と、周波数変換された主信号の周波数成分と参照信号
の周波数成分との差が最も小さくなる周波数成分を求め
る騒音除去手段と、この騒音除去手段により求められた
周波数成分に基づき音声認識処理を実行する音声認識部
とを含み、騒音除去手段では、主信号の周波数成分と参
照信号の周波数成分との差が最も小さくなる周波数成分
を算出する際の検出ステップ幅をファジィ制御で決定す
る。
【0014】請求項2記載の発明は、音声信号入力用の
第一集音部と、この第一集音部から入力された主信号を
周波数変換する第一周波数変換部と、騒音信号入力用の
第二集音部と、この第二集音部から入力された参照信号
を周波数変換する第二周波数変換部と、主信号と参照信
号とに時間対応を付ける時間対応手段と、周波数変換さ
れた主信号の周波数成分と参照信号の周波数成分との差
が最も小さくなる周波数成分を求める騒音除去手段と、
この騒音除去手段により求められた周波数成分に基づき
音声認識処理を実行する音声認識部とを含み、騒音除去
手段は、周波数変換部により変換された周波数成分に主
信号の周波数成分と参照信号の周波数成分との差が最も
小さくなる補正係数を乗ずる補正係数乗算手段と、周波
数成分の差に関する現在値と過去値との誤差及び周波数
成分の差の値とをパラメータとするファジィ制御により
補正係数を決定する補正係数決定手段とを含む。
【0015】請求項3記載の発明は、音声信号入力用の
第一集音部と、この第一集音部から入力された主信号を
周波数変換する第一周波数変換部と、騒音信号入力用の
第二集音部と、この第二集音部から入力された参照信号
を周波数変換する第二周波数変換部と、主信号と参照信
号とに時間対応を付ける時間対応手段と、周波数変換さ
れた主信号の周波数成分と参照信号の周波数成分との差
が最も小さくなる周波数成分を求める騒音除去手段と、
この騒音除去手段により求められた周波数成分に基づき
音声認識処理を実行する音声認識部とを含み、騒音除去
手段は、周波数変換部により変換された周波数成分に主
信号の周波数成分と参照信号の周波数成分との差が最も
小さくなる補正係数を乗ずる補正係数乗算手段と、周波
数成分の差に関する現在値と過去値との誤差、第一周波
数変換部により周波数変換された主信号に関する現在値
と過去値との誤差及び第二周波数変換部により周波数変
換された参照信号に関する現在値と過去値との誤差をパ
ラメータとするファジィ制御により補正係数を決定する
補正係数決定手段とを含む。
【0016】請求項4記載の発明は、音声信号入力用の
第一集音部と、この第一集音部から入力された主信号を
周波数変換する第一周波数変換部と、騒音信号入力用の
第二集音部と、この第二集音部から入力された参照信号
を周波数変換する第二周波数変換部と、主信号と参照信
号とに時間対応を付ける時間対応手段と、周波数変換さ
れた主信号の周波数成分と参照信号の周波数成分との差
が最も小さくなる周波数成分を求める騒音除去手段と、
この騒音除去手段により求められた周波数成分に基づき
音声認識処理を実行する音声認識部と、第一集音部及び
第二集音部から入力された主信号及び参照信号をサンプ
リングするサンプリング処理部とを含み、騒音除去手段
は、サンプリング処理部でサンプリングされた1フレー
ムのデータについて誤差の変化のみを目的関数とする複
数回の誤差最小化演算をファジー制御によって実行する
ことで主信号の周波数成分と参照信号の周波数成分との
差が最も小さくなる周波数成分を求める。
【0017】
【作用】発明では、第一集音部には音声信号に騒音信
号が混入した主信号が取り込まれ、この主信号は第一周
波数変換部により周波数変換される。また、第二集音部
には騒音のみの参照信号が取り込まれ、この参照信号は
第二周波数変換部により周波数変換される。この際、主
信号と参照信号とは、時間対応手段により時間対応が付
けられる。そして、主信号の周波数成分と参照信号の周
波数成分との差が最も小さくなる周波数成分、すなわち
主信号中から騒音信号が除去された残りの音声信号が騒
音除去手段により求められ、こうして求められた周波数
成分が音声認識部に送られて音声認識のための入力信号
として扱われる。したがって、音声認識部には、常に、
騒音が除去された音声信号だけが送られ、正確な音声認
識が実行される。この際、周波数変換された信号につい
て騒音除去のための演算処理がなされるため、その演算
量が少なくなり、処理が簡略化する。この際、騒音除去
手段による処理にファジィ制御が導入され、これにより
効率良く音声信号から駆動信号が除去され、この処理に
必要な演算量が少なくなる。また、請求項4記載の発明
では、デジタル変換された後に周波数変換された信号が
各種の処理で扱われるため、必要な演算量がより少なく
なる。
【0018】
【実施例】発明の第一の参考例を図1及び図2に基づ
いて説明する。まず、マイクロフォン等により構成され
ている第一集音部11と第二集音部12とが設けられ、
前記第一集音部11は第一周波数変換部13と加算器1
4とを介して区間検出部15と音声認識部16とに順に
接続されている。また、前記第二集音部12は、時間対
応手段としての遅延回路17を介して第二周波数変換部
18を介して補正係数設定部19に接続されている。そ
して、この補正係数設定部19には前記加算器14の出
力が入力され、この加算器14に前記補正係数設定部1
9の出力が入力されるように構成されており、ここに騒
音除去手段20が構成されている。
【0019】ここで、前記第一集音部11は、音声信号
sに騒音信号nが含まれた主信号snを取り込むための
ものであり、前記第二集音部12は、騒音信号n´のみ
からなる参照信号n´を取り込むためのものである。ま
た、前記周波数変換部13,17は、前記集音部11,
12に入力された信号を周波数変換する構造のものであ
る。周波数変換は、例えば、FFT( fast Fourier tr
ansfer:高速フーリエ変換)等の方法によりなされる。
この際、前記第二集音部12に入力された参照信号n´
は、その周波数変換に先立って前記遅延回路17で遅延
され、前記第一集音部11により集音された主信号sn
と時間対応が付けられるように構成されている。
【0020】次いで、前記加算器14は、主信号snか
ら参照信号n´を差し引いた値を出力する構造のもので
あり、前記補正係数設定部19は、周波数変換された参
照信号n´に所定の補正係数kを乗じた値を前記加算器
14に送る構造のものである。この際、補正係数kは、
前記補正係数設定部19に入力された前記加算器14の
出力に基づき決定される。
【0021】そして、前記区間検出部15は、例えば、
連続DP法等のワードスポッティングを実現する構造の
ものであり、前記音声認識部16は、その区間検出部1
5でワードスポッティングされた単語等を標準パターン
と比較し、その類似度を判定する構造のものである。
【0022】このような構成において、第一集音部11
に入力された主信号snは、第一周波数変換部13で周
波数変換され、第二集音部12に入力された参照信号n
´は、遅延回路17で遅延されて主信号snと時間対応
が付けられた後、第二周波数変換部18で周波数変換さ
れる。そして、周波数変換された主信号snから周波数
変換された参照信号n´が加算器14で差し引かれ、騒
音信号nが取り除かれた音声信号sだけが区間検出部1
5、音声認識部16に送られて音声認識に供される。
【0023】この際、加算器14の出力は補正係数設定
部19にも出力され、この出力を参考に補正係数設定部
19では補正係数kが演算される。この補正係数kは、
参照信号n´に乗ぜられる補正係数kであり、加算器1
4の出力が最小となるような値をとる。その結果、主信
号snに含まれる騒音信号nと参照信号n´における騒
音信号n´とが一致することになり、加算器14からは
騒音信号nが取り除かれた主信号sn、すなわち音声信
号だけが出力されることになる。これにより、区間検出
部15及び音声認識部16での判定結果の精度が向上す
る。
【0024】ここで、本参考例における騒音除去方式の
原理を詳細に説明する。まず、主信号snに含まれてい
る音声信号をs(t)、雑音信号をn(t)とし、参照信号
n´に含まれている騒音信号をn´(t)とすると、加算
器14の出力であるz(t)は、 z(t)=s(t)+n(t)−n´(t) ………(5) である。これを周波数領域で書き直すと、 Z(ω)=S(ω)+N(ω)−N´(ω) ………(6) となる。ここで、この式(6)が最小となる条件を考え
ると、 Z2(ω)={S(ω)+N(ω)−N´(ω)}2 ={S(ω)}2+2・S(ω)・{N(ω)−N´(ω)} +{N(ω)−N´(ω)}2 ………(7) である。ここで、 X(ω)=N(ω)−N´(ω) ………(8) と置くと、この式(7)の第2項は、 S(ω)・{N(ω)−N´(ω)}=S(ω)・X(ω) ………(9) となり、これは畳み込み積分に他ならず、 S(ω)・X(ω)=F{∫s(τ)・x(t−τ)dτ} ………(10) である。右辺の積分は、s(t)とx(t)とが無相関であ
ると仮定すれば0となり、したがって、 S(ω)・X(ω)=0 ………(11) である。その結果、 Z2(ω)={S(ω)}2+{N(ω)−N´(ω)}2 ………(12) もN=N´の場合にZが最小値S(ω)となる。この際、
Nの値が不明であるが、Nの値を不明としたまま式(1
2)を最小化することによって、望む信号であるS(ω)
を得ることができる。
【0025】したがって、主信号snから騒音信号nを
除去して音声信号sのみを取り出すには、式(12)にお
けるN(ω)−N´(ω)を0に近付ければ良いので、騒音
除去手段20における補正係数設定部19では、 N(ω)−k・N´(ω)=0 ………(13) となるkを演算処理で求めれば良いことになる。そこ
で、本参考例では、kの値を変化させ、加算器14の出
力が最小になる処理が実行される。例えば、20ms毎
に周波数変換されたスペクトルが得られるとすると、 S´(ω)=S(ω)+N(ω) と置き、現スペクトルをS´n(ω)、N´n(ω)とする
と、次のスペクトルS´n+1(ω)、N´n+1(ω)が得られ
るまでの20msの間に、 |Zn(ω)|=|S´n(ω)−N´n(ω)| =|S´n(ω)−kn・N´n(ω)| ………(14) が最小となるようなknを見つければ良いことになる。
このようなknを見つける簡単な手法としては、例え
ば、kに所定の初期値を与えておき、式(14)を計算し
て山登り法等の周知の方法で値が小さくなる方向にkを
変化させる手法がある。そして、この時に得られたZ
(ω)を区間検出部15、音声認識部16に送ることで、
高精度な音声認識が実行される。この際、式(14)を最
小化することで、音声入力中の騒音の辺かに追従して望
む信号が得られ、また、参照信号n´の入力レベルが低
くても誤差が大きくなるようなことがない。そして、k
を求めるための演算量が少なく、処理速度を高速度化す
ることができる。
【0026】なお、区間検出や音声認識の方式について
は、特に本参考例の方式に限定するものではないが、周
波数変換部13,18で信号をスペクトルに変換するこ
とから、認識の特徴量としてスペクトルを用いる方式が
望ましい。
【0027】次いで、本参考例における遅延回路17、
つまり時間対応手段の変形例を図2に基づいて説明す
る。ここでは、二つの変形例を説明するが、いずれの変
形例も遅延回路17を省略した構造となっている。
【0028】まず、第一の変形例は、周波数変換部1
3,17をサンプリング処理部及び周波数分析部として
構成し、第一集音部11と第二集音部12との間の間隔
を周波数変換部13,17での周波数分析の周期以下と
なる間隔に設定することで、時間対応手段が構成されて
いる。ここで、騒音も音声信号と同様に、20ms程度
ではその周波数特性が変化しないものと仮定すると、2
0ms程度の間隔で周波数変換すれば良い。この際、図
2に示すように、音源21に対して第一集音部11と第
二集音部12とを配置する。そして、音速を340m/
sとすると、 x/340=20×10~3 ………(15) となるxを求め、このxより小さな値に集音部11,1
2の間の間隔を設定する。この場合は、集音部11,1
2の間の間隔x=6.8m以下であれば良い。
【0029】次いで、第二の変形例は、二つの集音部1
1,12の間の間隔が予め決められている場合、この間
隔を音速で割った値よりも長い値に周波数変換部13,
17での周波数分析の周期を設定することで、時間対応
手段が構成されている。つまり、 x/340=f ………(16) より、具体的な数値をxに与えてfを求めれば良い。こ
の変形例は、音声に比べて騒音の変化が激しく、長い窓
でフーリエ変換できないようなときに利用する。例え
ば、集音部11,12の間の間隔が1mであるなら、f
=2.9×10~3となり、2.9ms以上の時間間隔で
フーリエ変換すれば良いことになる。
【0030】次いで、請求項1記載の発明に対応する実
施例として、本発明の第の実施例を図3ないし図5に
基づいて説明する。なお、第一の参考例と同一部分は同
一符号で示し説明も省略する(以下同様)。本実施例
は、騒音除去手段20に関する。まず、加算器14の出
力側に関数器31が接続され、この関数器31の出力側
には累積加算器32、第二加算器33及び波形合成部3
4を介して補正係数設定部19が接続されている。ま
た、前記累積加算器32にはレジスタ35が接続されて
おり、前記関数器31の出力側が区間検出部15に接続
されている。
【0031】このような構成において、本実施例では、
補正係数設定部19で設定される補正係数kの検出ステ
ップ幅がファジー制御される。すなわち、加算器14の
出力は関数器31に入力されて検出ステップ幅について
の所定の関数計算がなされ、その値が累積加算器32で
累積加算処理されてレジスタ35に一時登録される。そ
して、レジスタ35に一時登録されたデータと累積加算
器32で更に演算処理されたデータとを基に第二加算器
33で差し引き処理がなされ、その値に基づき所定の波
形が波形合成部34で生成され、その生成されたデータ
に従って補正係数kが設定される。そして、この補正係
数kが参照信号に乗ぜられる。したがって、こうして補
正係数kを決定する補正係数決定手段とこのような補正
係数kを参照信号に乗ずる補正係数除算手段とが騒音除
去手段20により構成されている。
【0032】ここで、本実施例での処理をより詳細に説
明する。まず、本実施例では、前述した式(14)、すな
わち、 |Zn(ω)|=|S´n(ω)−kn・N´n(ω)| ………(14) を最小にする際、knを予め決められた一定のステップ
幅で変化させて最小値を求める場合、ステップ数が小さ
すぎると処理が遅くなって次の周波数データを得るまで
の限られた時間内に最小値が求まらず、ステップ数が大
きすぎると|S´n(ω)−kn・N´n(ω)|を0に近付
けることができないという問題の発生が予想される。そ
こで、本実施例では、 En=|Zn(ω)|−|Zn-1(ω)| kn=kn-1+δ・kn-1 とおき、Enの大きさによってknを決定する。この決定
の仕方にファジー制御の手法が用いられる。つまり、予
め次のようなルールを決めておく。 <ルール1> 1.誤差Eが大きければ、ステップ幅を大きくする。 2.誤差Eが中くらいならば、ステップ幅を中くらいに
する。 3.誤差Eが小ければ、ステップ幅を小さくする。 このようなルールの下、まず、補正係数kの初期値を予
め与えておき、参照信号n´から第一集音部11に混入
する騒音分を予測し、主信号snから差し引いて絶対値
|Z|を求める。そして、この|Z|とレジスタ35の
登録内容との差をとってEとするが、レジスタ35の登
録内容は、最初は0である。そこで、現信号をレジスタ
35に登録し、予め決めておいたメンバーシップ関数か
らkのステップ幅を決定する。例えば、Eとステップ幅
のメンバーシップ関数の「小さい」、「中くらい」、
「大きい」は、図4(a)に例示するように定義してお
く。そして、この際の図4(b)に示すδの求め方とし
ては、仮りに誤差e1 が与えられたとして説明すると、
誤差e1 は図4(a)のEの大きさを定義するメンバー
シップ関数中、「小さい」には全く該当しないのでこれ
を省略し、図5(a)に例示する「中くらい」の一致度
からδの「中くらい」の大きさを定義するメンバーシッ
プ関数を帰属度で頭切りにし、図5(b)に例示する
「大きい」の一致度からδの「大きい」の大きさを定義
するメンバーシップ関数を帰属度で頭切りにする。そし
て、二つの頭切りしたメンバーシップ関数を重ね合わ
せ、その重心からステップ幅δ1 を決定する。この際の
符号は、レジスタ35内の値と現在の値との差の符号と
現在の値とで考慮すれば良い。これによって、少ない演
算量で木目細かい制御が可能になる。
【0033】次いで、請求項記載の発明に対応する実
施例として、本発明の第の実施例を図6に基づいて説
明する。なお、本実施例でも第の実施例と同様のメン
バーシップ関数を用いるため、これに関する部分につい
ては第の実施例と同一符号で示し説明も省略する。ま
ず、加算器14の出力側が関数器41に接続され、この
関数器41の出力側は累積加算器42を介してレジスタ
43とファジー制御部44とに接続されている。また、
前記レジスタ43の出力側は第二加算器45を介して前
記ファジー制御部44に接続され、その第二加算器45
には前記累積加算器42の出力側も接続されている。そ
して、前記ファジー制御部44の出力側は補正係数設定
部19に接続され、前記関数器41の出力側は前記区間
検出部15に接続されている。
【0034】このような構成において、加算器14の出
力と予めレジスタ43に登録されているデータとの差が
求められ、現在のデータである加算器14の出力がレジ
スタ43に登録される。そして、レジスタ43に登録さ
れていた一つ前のデータと現在のデータとの差が第二加
算器45で算出されてその値がファジー制御部44に入
力される。また、このファジー制御部44には、加算器
14の出力値である現在の値も入力され、これらの二つ
のデータを基にファジー制御がなされて補正係数kが決
定される。
【0035】より詳細には、ここでのファジー制御を2
次元で考える場合には、例えば表1として示すマップを
使用する。
【0036】
【表1】 このマップ中、各記号は、 L:「大きい」 M:「中くらい」 S:「小さい」 Z:「ゼロ」 P:「正」 N:「負」  ̄:符号の逆転 と定義される。したがって、PMを例にとると、このP
Mは「正の中くらいの大きさ」と定義される。そして、
このようなマップと図4及び図5に例示したメンバーシ
ップ関数とに基づき補正係数kが決定される。例えば、
現在の誤差が「中くらい」で誤差の差が「負の中くら
い」の場合には、Mに ̄が付されたデータ、すなわちδ
は逆符号で中くらいの値に設定される。そして、それぞ
れのメンバーシップ関数の値から実際の制御値を求める
やり方は、第の実施例で説明した通りのやり方に準ず
る。
【0037】次いで、請求項記載の発明に対応する実
施例として、本発明の第の実施例を図7に基づいて説
明する。なお、本実施例でも第の実施例と同様のメン
バーシップ関数を用いるため、これに関する部分につい
ては第の実施例と同一符号で示し説明も省略する。ま
た、本実施例でも、第の実施例で説明した手法で補正
係数kが決定されるため、そのための手法の説明は省略
する。まず、本実施例では、周波数変換部13,18の
出力側にレジスタ51,レジスタ52と第二加算器
53,54とを介して接続されるファジー制御部55が
設けられている。また、加算器14の出力側には関数器
56と累積加算器57とレジスタ58がそれぞれ接続
され、累積加算器57とレジスタ58との出力は第三
加算器59を介して前記ファジー制御部55に入力され
るように構成されている。そして、このファジー制御部
55の出力側は補正係数設定部19に接続され、前記関
数器56の出力が区間検出部15に接続されている。
【0038】このような構成において、本実施例では、
音声信号snと騒音信号n´とのいずれが大きくなって
いるのかのデータを加味したファジー制御により補正係
数kが決定される。つまり、主信号snがレジスタ5
1に格納され、参照信号n´がレジスタ52に格納さ
れ、加算器14の出力がレジスタ58に格納される。
そして、レジスタ51に格納された主信号と現在の主
信号との差及び現在の主信号、レジスタ52に格納さ
れた参照信号と現在の参照信号との差及び現在の参照信
号、レジスタ58に格納された加算器14の出力信号
と現在の加算器14の出力信号及び現在の加算器14の
主力信号がそれぞれファジー制御部55に入力される。
ファジー制御部55では、これらの各信号に基づき所定
のルール2にしたがったファジー制御により補正係数k
を決定する。
【0039】ここで、ルール2は、例えば次のように決
められている。 <ルール2> 1.騒音信号が大きくなっていて誤差の差が正で大きく
なっていれば、δの変化は小さくする。 2.騒音信号が大きくなっていて誤差の差が正で小さく
なっていれば、δの値は0近くにする。 3.騒音信号が大きくなっていて誤差の差が負で大きく
なっていれば、δの変化は逆符号で大きくする。 4.騒音信号が小さくなっていて誤差の差が負で大きく
なっていれば、δの変化は逆符号で小さくする。 5.騒音信号が小さくなっていて誤差の差が正で大きく
なっていれば、δの変化は0近くにする。 6.騒音信号が小さくなっていて誤差の差が正で小さく
なっていれば、δの変化は小さくする。 7.騒音信号が小さくなっていて誤差の差が負で大きく
なっていれば、δの値は逆符号で大きくする。 8.騒音信号が小さくなっていて誤差の差が負で小さく
なっていれば、δの値は逆符号でで中くらいにする。 このルール2は、できるだけ簡単なルールとしたが、こ
れにレジスタ58に格納された加算器14の出力信号
と現在の加算器14の出力信号の差を加味すると、 A.参照信号は大きくなっていないが主信号のレベルが
大きくなっている。 B.参照信号は大きくなっていないが主信号のレベルが
小さくなっている。 C.参照信号のレベルも主信号のレベルも変化していな
い。 等の要素をルール2に加える必要がある。ここで、この
ルール2として、騒音信号と誤差の差とを「大きい」と
「小さい」との二通り以上に決め細かく設定するように
しても良い。そして、制御の仕方は第の実施例と同様
である。これとは違う制御の仕方としては、例えば、菅
野:「ファジー制御」(日刊新聞社)等に詳しい。
【0040】次いで、請求項記載の発明に対応する実
施例として、本発明の第の実施例を図8に基づいて説
明する。騒音除去手段20に関する。まず、主信号sn
用の周波数変換部13の出力側にレジスタ61が接続
され、参照信号n´用の周波数変換部18の出力側にレ
ジスタ62が接続され、加算器14の出力側にはレジ
スタ63が接続されている。そして、前記周波数変換
部13,18は、集音部11,12より入力された信号
をサンプリング等してデジタル処理することができる構
造を有しており、サンプリング処理部ともなっている。
【0041】このような構成において、集音部11,1
2より入力された信号は周波数変換部13,18でサン
プリング、クォンタイジング及びコーディングされてデ
ジタル変換され、更に所定の関数窓が乗ぜられ、1フレ
ーム分のデータ中、主信号snがレジスタ61に、参
照信号n´がレジスタ62にそれぞれ格納される。そ
して、これらのレジスタ61及びレジスタ62に格
納された1フレーム分のデータを基に加算器14の出力
を最小にする最小化演算処理が実行される。この最小化
演算処理に際しては、加算器14の出力、すなわちレジ
スタ61のデータとレジスタ62のデータとの値の
差をレジスタ63に登録しておき、補正係数kの値を
順次変更していく。これにより変更される加算器14の
出力がレジスタ63に格納されている値よりも小さい
場合には補正係数kの値を変更する処理を続行し、その
値をレジスタ63に登録する。そして、次のフレーム
のデータがレジスタ61及びレジスタ62に登録さ
れるタイミングで、レジスタに格納された最小値を区
間検出部15に送るという処理が実行される。
【0042】したがって、本実施例では、周波数変換さ
れる前に信号がデジタル化され、これにより、必要な演
算量がますます少なくなる。
【0043】なお、1フレーム分のデータで最小化演算
処理を実行する場合には、集音部11,12から入力さ
れる信号の変化はその処理に重要性を持たない。したが
って、誤差の変化だけに注目すれば良いため、実施に当
たっては、最小化演算処理に際し、誤差の変化のみを目
的関数として最小化演算処理を実行するようにしても良
い。また、このような目的関数の最小化演算をファジー
制御によって実行するようにしても良い。これらの手法
を採用することで、より演算量を減少させることができ
る。
【0044】次いで、本発明の第二の参考例を図9に基
づいて説明する。本参考例では、主信号sn用の周波数
変換部13の出力側に補正係数設定部19が接続され、
参照信号n´用の周波数変換部18の出力側に加算器1
4が接続され、この加算器14の出力側は直接的に区間
検出部15に接続されず、これらの加算器14と区画検
出部15との間には自動利得調整部71が介在されてい
る。
【0045】このような構成において、主信号snに対
して補正係数kが乗ぜられ、加算器14の出力の最小化
処理がなされる。この場合、出力されるスペクトルの大
きさの変動が予想されるが、このような変動は自動利得
調整部71により吸収されて是正される。
【0046】
【発明の効果】発明は、音声信号入力用の第一集音部
と、この第一集音部から入力された主信号を周波数変換
する第一周波数変換部と、騒音信号入力用の第二集音部
と、この第二集音部から入力された参照信号を周波数変
換する第二周波数変換部と、主信号と参照信号とに時間
対応を付ける時間対応手段と、周波数変換された主信号
の周波数成分と参照信号の周波数成分との差が最も小さ
くなる周波数成分を求める騒音除去手段と、この騒音除
去手段により求められた周波数成分に基づき音声認識処
理を実行する音声認識部とを設けたので、騒音除去手段
により主信号の周波数成分と参照信号の周波数成分との
差が最も小さくなる周波数成分、すなわち主信号中から
騒音信号が除去された残りの音声信号が求められ、こう
して求められた周波数成分に基づき音声認識部による音
声認識を実行することで音声認識の精度を向上させるこ
とができ、この際、周波数変換された信号について騒音
除去のための演算処理がなされるため、その演算量を少
なくして処理の簡略化を図ることができ、したがって、
音声信号に入り込んでしまう騒音の特性が音声の取り込
み中に変動する場合、少ない演算量でその騒音の認識結
果への影響を除去することができる。また、騒音除去手
段による処理にファジィ制御が導入され、これにより効
率良く音声信号から駆動信号を除去し、この処理に必要
な演算量を極めて少なくすることができ、したがって、
処理の高速度化を図ることができる等の効果を有する。
さらに、請求項4記載の発明は、デジタル変換された後
に周波数変換された信号を各種の処理で扱わせることが
できるため、必要な演算量をより少なくすることがで
き、したがって、処理の高速度化を図ることができる等
の効果を有する。
【図面の簡単な説明】
【図1】本発明の第一の参考例を示す各部のブロック図
である。
【図2】時間対応手段の二つの変形例を説明するための
概念図であり、音源に対する第一集音部と第二集音部と
の配置関係を示す。
【図3】本発明の第の実施例を示す各部のブロック図
である。
【図4】適応フィルタの出力から第二集音部に入力され
た騒音に乗ずる係数kを決定するためのファジィ処理を
説明するためのグラフであり、(a)は適応フィルタの
出力とその誤差とのメンバーシップ関数を例示するグラ
フ、(b)は係数kとその誤差とのメンバーシップ関数
を例示するグラフである。
【図5】適応フィルタの出力から係数kを決定するため
のファジィ処理を説明するためのグラフであり、(a)
は係数kのステップ幅が中であるグラフでの頭切り処理
を示し、(b)は係数kのステップ幅が大であるグラフ
での頭切り処理を示し、(c)は(a)と(b)とに示
される処理から求められる係数kを例示するグラフであ
る。
【図6】本発明の第の実施例を示す各部のブロック図
である。
【図7】本発明の第の実施例を示す各部のブロック図
である。
【図8】本発明の第の実施例を示す各部のブロック図
である。
【図9】本発明の第二の参考例を示す各部のブロック図
である。
【図10】従来の一例を示す各部のブロック図である。
【符号の説明】
11 第一集音部 12 第二集音部 13 第一周波数変換部、サンプリング処理部、周
波数分析部 16 音声認識部 17 時間対応手段 18 第二周波数変換部、サンプリング処理部、周
波数分析部 20 騒音除去手段、補正係数乗算手段、補正係数
決定手段 sn 主信号 n´ 参照信号
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭58−194098(JP,A) 特開 平1−239596(JP,A) 特開 平4−16900(JP,A) 特開 平5−216495(JP,A) 特開 平5−66700(JP,A) 特開 平4−184400(JP,A) 特開 平3−258197(JP,A) 特開 平5−297893(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 15/20 G10L 21/02

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声信号入力用の第一集音部と、この第
    一集音部から入力された主信号を周波数変換する第一周
    波数変換部と、騒音信号入力用の第二集音部と、この第
    二集音部から入力された参照信号を周波数変換する第二
    周波数変換部と、主信号と参照信号とに時間対応を付け
    る時間対応手段と、周波数変換された主信号の周波数成
    分と参照信号の周波数成分との差が最も小さくなる周波
    数成分を求める騒音除去手段と、この騒音除去手段によ
    り求められた周波数成分に基づき音声認識処理を実行す
    る音声認識部とを含み、前記騒音除去手段では、主信号
    の周波数成分と参照信号の周波数成分との差が最も小さ
    くなる周波数成分を算出する際の検出ステップ幅をファ
    ジィ制御で決定することを特徴とする音声認識装置。
  2. 【請求項2】 音声信号入力用の第一集音部と、この第
    一集音部から入力された主信号を周波数変換する第一周
    波数変換部と、騒音信号入力用の第二集音部と、この第
    二集音部から入力された参照信号を周波数変換する第二
    周波数変換部と、主信号と参照信号とに時間対応を付け
    る時間対応手段と、周波数変換された主信号の周波数成
    分と参照信号の周波数成分との差が最も小さくなる周波
    数成分を求める騒音除去手段と、この騒音除去手段によ
    り求められた周波数成分に基づき音声認識処理を実行す
    る音声認識部とを含み、前記騒音除去手段は、前記周波
    数変換部により変換された周波数成分に主信号の周波数
    成分と参照信号の周波数成分との差が最も小さくなる補
    正係数を乗ずる補正係数乗算手段と、前記周波数成分の
    差に関する現在値と過去値との誤差及び前記周波数成分
    の差の値とをパラメータとするファジィ制御により前記
    補正係数を決定する補正係数決定手段とを含むことを特
    徴とする音声認識装置。
  3. 【請求項3】 音声信号入力用の第一集音部と、この第
    一集音部から入力された主信号を周波数変換する第一周
    波数変換部と、騒音信号入力用の第二集音部と、この第
    二集音部から入力された参照信号を周波数変換する第二
    周波数変換部と、主信号と参照信号とに時間対応を付け
    る時間対応手段と、周波数変換された 主信号の周波数成
    分と参照信号の周波数成分との差が最も小さくなる周波
    数成分を求める騒音除去手段と、この騒音除去手段によ
    り求められた周波数成分に基づき音声認識処理を実行す
    る音声認識部とを含み、前記騒音除去手段は、前記周波
    数変換部により変換された周波数成分に主信号の周波数
    成分と参照信号の周波数成分との差が最も小さくなる補
    正係数を乗ずる補正係数乗算手段と、前記周波数成分の
    差に関する現在値と過去値との誤差、前記第一周波数変
    換部により周波数変換された主信号に関する現在値と過
    去値との誤差及び前記第二周波数変換部により周波数変
    換された参照信号に関する現在値と過去値との誤差をパ
    ラメータとするファジィ制御により前記補正係数を決定
    する補正係数決定手段とを含むことを特徴とする音声認
    識装置。
  4. 【請求項4】 音声信号入力用の第一集音部と、この第
    一集音部から入力された主信号を周波数変換する第一周
    波数変換部と、騒音信号入力用の第二集音部と、この第
    二集音部から入力された参照信号を周波数変換する第二
    周波数変換部と、主信号と参照信号とに時間対応を付け
    る時間対応手段と、周波数変換された主信号の周波数成
    分と参照信号の周波数成分との差が最も小さくなる周波
    数成分を求める騒音除去手段と、この騒音除去手段によ
    り求められた周波数成分に基づき音声認識処理を実行す
    る音声認識部と、前記第一集音部及び前記第二集音部か
    ら入力された主信号及び参照信号をサンプリングするサ
    ンプリング処理部とを含み、前記騒音除去手段は、前記
    サンプリング処理部でサンプリングされた1フレームの
    データについて誤差の変化のみを目的関数とする複数回
    の誤差最小化演算をファジー制御によって実行すること
    で主信号の周波数成分と参照信号の周波数成分との差が
    最も小さくなる周波数成分を求めることを特徴とする音
    声認識装置。
JP33810493A 1993-12-28 1993-12-28 音声認識装置 Expired - Fee Related JP3410789B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33810493A JP3410789B2 (ja) 1993-12-28 1993-12-28 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33810493A JP3410789B2 (ja) 1993-12-28 1993-12-28 音声認識装置

Publications (2)

Publication Number Publication Date
JPH07199990A JPH07199990A (ja) 1995-08-04
JP3410789B2 true JP3410789B2 (ja) 2003-05-26

Family

ID=18314955

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33810493A Expired - Fee Related JP3410789B2 (ja) 1993-12-28 1993-12-28 音声認識装置

Country Status (1)

Country Link
JP (1) JP3410789B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4608650B2 (ja) * 2003-05-30 2011-01-12 独立行政法人産業技術総合研究所 既知音響信号除去方法及び装置
KR100806769B1 (ko) 2003-09-02 2008-03-06 닛본 덴끼 가부시끼가이샤 신호 처리 방법 및 장치
JP5867209B2 (ja) * 2012-03-19 2016-02-24 富士通株式会社 音除去装置、音検査装置、音除去方法、及び音除去プログラム

Also Published As

Publication number Publication date
JPH07199990A (ja) 1995-08-04

Similar Documents

Publication Publication Date Title
EP0637012B1 (en) Signal processing device
EP1638084B1 (en) Method and apparatus for multi-sensory speech enhancement
EP0219712B1 (en) Method of and system for speech recognition
EP0459364B1 (en) Noise signal prediction system
EP0763811B1 (en) Speech signal processing apparatus for detecting a speech signal
US6173258B1 (en) Method for reducing noise distortions in a speech recognition system
EP0240330A2 (en) Noise compensation in speech recognition
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
US6751588B1 (en) Method for performing microphone conversions in a speech recognition system
JP3410789B2 (ja) 音声認識装置
US4637046A (en) Speech analysis system
JPH0462398B2 (ja)
EP0474496B1 (en) Speech recognition apparatus
JP2779325B2 (ja) ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法
EP1229517B1 (en) Method for recognizing speech with noise-dependent variance normalization
JP2000310993A (ja) 音声検出装置
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
JP3270866B2 (ja) 雑音除去方法および雑音除去装置
JP3106543B2 (ja) 音声信号処理装置
JP2817429B2 (ja) 音声認識装置
US7155387B2 (en) Noise spectrum subtraction method and system
JP2992324B2 (ja) 音声区間検出方法
JP3321841B2 (ja) ピッチ周波数推定方法及びその装置
JP3065739B2 (ja) 音声区間検出装置
JP3063855B2 (ja) 音声認識におけるマッチング距離値の極小値探索方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees