JPH03122699A - 雑音除去装置及び該装置を用いた音声認識装置 - Google Patents
雑音除去装置及び該装置を用いた音声認識装置Info
- Publication number
- JPH03122699A JPH03122699A JP26109989A JP26109989A JPH03122699A JP H03122699 A JPH03122699 A JP H03122699A JP 26109989 A JP26109989 A JP 26109989A JP 26109989 A JP26109989 A JP 26109989A JP H03122699 A JPH03122699 A JP H03122699A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- feature
- speech
- voice
- noise removal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 abstract description 33
- 238000000034 method Methods 0.000 description 23
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
技五分更
本発明は、音声認識装置に入力する音声からその音声信
号に混入する周囲雑音の成分の除去技術に関し、周囲の
雑音の大きい環境、例えば、事務所内、自動車内、家庭
内、工場内での音声認識装置に応用して好適なものであ
る。
号に混入する周囲雑音の成分の除去技術に関し、周囲の
雑音の大きい環境、例えば、事務所内、自動車内、家庭
内、工場内での音声認識装置に応用して好適なものであ
る。
災米技先
音声認識装置に於て、入力した音声に周囲の雑音が混入
した場合、著しく認識率を低下させるので、音声認識装
置の実用化に際して周囲雑音の除去は重要な課題となっ
ている。
した場合、著しく認識率を低下させるので、音声認識装
置の実用化に際して周囲雑音の除去は重要な課題となっ
ている。
そこで、タイムスペクトルパターンを音声の特徴量とし
て用いる音声認識装置に於て、従来より雑音除去技術と
して一般的に行われている方法は、“5uppress
ion of Acoustic No1se in
SpeechUsing 5pectral 5ubt
raction”(S、F、Boll、 IEEETr
ans、 ASSP−27,No、2. ppH3−
120,1979)に代表されるスペクトルサブトラク
ション法である。これは、音声が存在していない区間で
の入力を平均化して雑音のスペクトルとして保持し、音
声区間中に入力された雑音を含む音声のスペクトルから
この雑音のスペクトルを差し引いて音声のスペクトルと
する方法である。しかしながら、この方法は1周囲の雑
音が定常的であることを仮定しており、定常雑音の場合
、または、雑音が小さい場合は効果があるが、比較的大
きなレベルの非定常雑音環境下では雑音の成分を適切に
除去することが出来ないという欠点がある。
て用いる音声認識装置に於て、従来より雑音除去技術と
して一般的に行われている方法は、“5uppress
ion of Acoustic No1se in
SpeechUsing 5pectral 5ubt
raction”(S、F、Boll、 IEEETr
ans、 ASSP−27,No、2. ppH3−
120,1979)に代表されるスペクトルサブトラク
ション法である。これは、音声が存在していない区間で
の入力を平均化して雑音のスペクトルとして保持し、音
声区間中に入力された雑音を含む音声のスペクトルから
この雑音のスペクトルを差し引いて音声のスペクトルと
する方法である。しかしながら、この方法は1周囲の雑
音が定常的であることを仮定しており、定常雑音の場合
、または、雑音が小さい場合は効果があるが、比較的大
きなレベルの非定常雑音環境下では雑音の成分を適切に
除去することが出来ないという欠点がある。
一方、2つの入カスベクトルの比を取る方法が。
特開昭63−262695号公報等に記載されている。
この方法は、2つの入力手段を用いて雑音を含む音声の
スペクトルと、雑音のスペクトルとを求め、音声が存在
していない区間でこの2つのスペクトルから各帯域毎に
比を雑音伝達系の周波数特性として求めておき、音声区
間中の雑音を含む音声のスペクトルから、雑音のスペク
トルとこの比との積を、差し引いて音声のスペクトルと
するものである。この方法は、非定常雑音下で良好な雑
音成分除去を行い得る長所がある反面、比較的雑音が小
さい時に、2つのスペクトルの比に大きな誤差を生じる
ために、適切な雑音成分除去が行えないという問題点が
ある。
スペクトルと、雑音のスペクトルとを求め、音声が存在
していない区間でこの2つのスペクトルから各帯域毎に
比を雑音伝達系の周波数特性として求めておき、音声区
間中の雑音を含む音声のスペクトルから、雑音のスペク
トルとこの比との積を、差し引いて音声のスペクトルと
するものである。この方法は、非定常雑音下で良好な雑
音成分除去を行い得る長所がある反面、比較的雑音が小
さい時に、2つのスペクトルの比に大きな誤差を生じる
ために、適切な雑音成分除去が行えないという問題点が
ある。
そこで、この2つの長所、短所から、あるしきい値を設
けて周囲の雑音レベルによ?て、この2つの方法を切り
替えて用いる方法が考えられるが。
けて周囲の雑音レベルによ?て、この2つの方法を切り
替えて用いる方法が考えられるが。
周囲の雑音レベルがそのしきい値付近にある場合に、各
々の方式の欠点が現れて来るだけでなく。
々の方式の欠点が現れて来るだけでなく。
上記2つの方式が雑音除去して出力する音声のスペクト
ルにパターン上の違いがあるので、発声中に周囲の雑音
レベルが変わり雑音除去方式が切り替わると、その時点
の音声は上記2つの方式により雑音除去された音声のパ
ターンが混在し、極端に認識されにくいという問題点と
、2つの方式の処理を平行して行うので処理量が増加す
るという問題点が新たに生じる。
ルにパターン上の違いがあるので、発声中に周囲の雑音
レベルが変わり雑音除去方式が切り替わると、その時点
の音声は上記2つの方式により雑音除去された音声のパ
ターンが混在し、極端に認識されにくいという問題点と
、2つの方式の処理を平行して行うので処理量が増加す
るという問題点が新たに生じる。
且−一匁
本発明は、上述のごとき実情に鑑みてなされたもので、
特に、上述した従来技術の欠点を排除し、周囲の雑音レ
ベルがどの様であっても、また、非定常雑音であっても
、入力された周囲の雑音を含む音声信号から周囲の雑音
成分を除去出来、更に、その雑音除去処理が高速に行わ
れる雑音除去装置、及び、その雑音除去装置を用いた音
声認識装置を実現することを目的とするものである。
特に、上述した従来技術の欠点を排除し、周囲の雑音レ
ベルがどの様であっても、また、非定常雑音であっても
、入力された周囲の雑音を含む音声信号から周囲の雑音
成分を除去出来、更に、その雑音除去処理が高速に行わ
れる雑音除去装置、及び、その雑音除去装置を用いた音
声認識装置を実現することを目的とするものである。
癒−一威
本発明は、上記目的を達成するために、(1)雑音を含
む音声の特徴量X (f)(f=1.2.、。
む音声の特徴量X (f)(f=1.2.、。
n)を求めるための複数個nチャンネルから成る第1の
特徴抽出部と、雑音の特徴量N(f)を求めるための複
数個nチャンネルから成る第2の特徴抽出部と、雑音を
含む音声の特徴量X (f)から雑音成分を除去するた
めの、上記nチャンネル毎の第1の雑音除去変数k (
f) 、及び、第2の雑音除去変数d (f)の少なく
とも2組の雑音除去変数を持ち、雑音を含む音声の特徴
量X (f)と雑音の特徴量N (f)とから、上記雑
音除去変数k (f) 、及び、f (f)を決定し、
更に、雑音を含む音声の特徴量X (f)と雑音の特徴
量N(f)と雑音除去変数k (f) 、及びd (f
)とから、雑音成分を除去した音声の特徴量S (f)
を求める雑音除去部とを具備して成り、上記雑音除去部
は、雑音成分を除去した音声の特徴量S (f)を求め
るために、雑音を含む音声の特徴iX (f)から、雑
音の特徴量N (f)と第1の雑音除去変数k (f)
との積と、第2の雑音除去変数d (f)とを減じる方
法を用いる雑音除去装置、及び、(2)上記(1)記載
の雑音除去装置と、該雑音除去装置で得られた音声の特
徴量から、音声の入力パターンを作成するパターン作成
部と、予め登録された音声の標準パターンを記憶する標
準パターンメモリと、上記パターン作成部で得られた入
力パターンと上記標準パターンメモリに記憶されている
標準パターンとを用いて認識処理を行う認識部とを具備
して成る音声認識装置を特徴としたものである。以下、
本発明の実施例に基づいて説明する。
特徴抽出部と、雑音の特徴量N(f)を求めるための複
数個nチャンネルから成る第2の特徴抽出部と、雑音を
含む音声の特徴量X (f)から雑音成分を除去するた
めの、上記nチャンネル毎の第1の雑音除去変数k (
f) 、及び、第2の雑音除去変数d (f)の少なく
とも2組の雑音除去変数を持ち、雑音を含む音声の特徴
量X (f)と雑音の特徴量N (f)とから、上記雑
音除去変数k (f) 、及び、f (f)を決定し、
更に、雑音を含む音声の特徴量X (f)と雑音の特徴
量N(f)と雑音除去変数k (f) 、及びd (f
)とから、雑音成分を除去した音声の特徴量S (f)
を求める雑音除去部とを具備して成り、上記雑音除去部
は、雑音成分を除去した音声の特徴量S (f)を求め
るために、雑音を含む音声の特徴iX (f)から、雑
音の特徴量N (f)と第1の雑音除去変数k (f)
との積と、第2の雑音除去変数d (f)とを減じる方
法を用いる雑音除去装置、及び、(2)上記(1)記載
の雑音除去装置と、該雑音除去装置で得られた音声の特
徴量から、音声の入力パターンを作成するパターン作成
部と、予め登録された音声の標準パターンを記憶する標
準パターンメモリと、上記パターン作成部で得られた入
力パターンと上記標準パターンメモリに記憶されている
標準パターンとを用いて認識処理を行う認識部とを具備
して成る音声認識装置を特徴としたものである。以下、
本発明の実施例に基づいて説明する。
第1図は、請求項第1項に記載した雑音除去装置の一実
施例を説明するための構成図で、図中。
施例を説明するための構成図で、図中。
10は第1の特徴量抽出部、20は第2の特徴量抽出部
、31は音声区間検出部、32は雑音除去部で、第1の
特徴量抽出部10及び第2の特徴量抽出部20は、それ
ぞれ、マイクアンプ11゜21;プリエンファシス回路
12.22;バンドパスフィルタバンク13.23;A
/Dコンバータ14.24から成っている。マイクアン
プ11は、雑音を含む音声を入力するためのマイクから
入力された信号の増幅を行い、プリエンファシス回路1
2は、マイクアンプ11の出力信号の高域を強調する。
、31は音声区間検出部、32は雑音除去部で、第1の
特徴量抽出部10及び第2の特徴量抽出部20は、それ
ぞれ、マイクアンプ11゜21;プリエンファシス回路
12.22;バンドパスフィルタバンク13.23;A
/Dコンバータ14.24から成っている。マイクアン
プ11は、雑音を含む音声を入力するためのマイクから
入力された信号の増幅を行い、プリエンファシス回路1
2は、マイクアンプ11の出力信号の高域を強調する。
バンドパスフィルタバンク13は、プリエンファシス回
路12の出力信号のパワースペクトルを求めるために、
250Hzから6350HzまでLOG軸上で等間隔に
配置された中心周波数を持つ15チヤンネルから成るバ
ンドパスフィルタ、検波器、ローパスフィルタ等で構成
されている。A/Dコンバータ14は、バンドパスフィ
ルタバンク13の出力をマルチプレクスしてフレーム周
期10m5毎に出力する。これらマイクアンプ11.プ
リエンファシス回路12、バンドパスフィルタバンク1
3、及び、A/Dコンバータ14は雑音を含む音声のパ
ワースペクトルX (f)を抽出するための第1の特徴
量抽出部10を構成している。
路12の出力信号のパワースペクトルを求めるために、
250Hzから6350HzまでLOG軸上で等間隔に
配置された中心周波数を持つ15チヤンネルから成るバ
ンドパスフィルタ、検波器、ローパスフィルタ等で構成
されている。A/Dコンバータ14は、バンドパスフィ
ルタバンク13の出力をマルチプレクスしてフレーム周
期10m5毎に出力する。これらマイクアンプ11.プ
リエンファシス回路12、バンドパスフィルタバンク1
3、及び、A/Dコンバータ14は雑音を含む音声のパ
ワースペクトルX (f)を抽出するための第1の特徴
量抽出部10を構成している。
一方、マイクアンプ21は、周囲の雑音を入力するため
のマイクから入力された信号の増幅を行い、プリエンフ
ァシス回路22は、マイクアンプ21の出力信号の高域
を強調し、バンドパスフィルタバンク23は、プリエン
ファシス回路22の出力信号のパワースペクトルを求め
るために250Hzから6350H2までLOG軸上で
等間隔に配置された中心周波数を持つ15チヤンネルか
ら成るバンドパスフィルタ、検波器、ローパスフィルタ
で構成されたフィルタバンクで、A/Dコンバータ24
は、バンドパスフィルタバンクの出力をマルチプレクス
してフレーム周期10m5毎に出力する。これらマイク
アンプ21、プリエンファシス回路22、バンドパスフ
ィルタバンク23、及び、A/Dコンバータ24は雑音
のパワースペクトルN (f)を抽出するための第2の
特徴量抽出部20を構成している、 音声区間検出部31は、A/Dコンバータ14とA/D
コンバータ24がら得られた2つのパワースペクトルX
(f) 、及び、 N (f)の時系列。
のマイクから入力された信号の増幅を行い、プリエンフ
ァシス回路22は、マイクアンプ21の出力信号の高域
を強調し、バンドパスフィルタバンク23は、プリエン
ファシス回路22の出力信号のパワースペクトルを求め
るために250Hzから6350H2までLOG軸上で
等間隔に配置された中心周波数を持つ15チヤンネルか
ら成るバンドパスフィルタ、検波器、ローパスフィルタ
で構成されたフィルタバンクで、A/Dコンバータ24
は、バンドパスフィルタバンクの出力をマルチプレクス
してフレーム周期10m5毎に出力する。これらマイク
アンプ21、プリエンファシス回路22、バンドパスフ
ィルタバンク23、及び、A/Dコンバータ24は雑音
のパワースペクトルN (f)を抽出するための第2の
特徴量抽出部20を構成している、 音声区間検出部31は、A/Dコンバータ14とA/D
コンバータ24がら得られた2つのパワースペクトルX
(f) 、及び、 N (f)の時系列。
即ち、タイムスペクトルパターンから音声区間を検出す
る。即ち、しきい値Thに対して、の区間を音声区間と
する。ここで、Σ X (f)、ΣN (f)の値は、
バンドパスフィルタ13,23の他に15チヤンネルの
帯域全ての信号を透過するフィルタを設けて求めてもよ
い。このしきい値Thは、周囲の雑音レベルに応じて変
えることが出来る。
る。即ち、しきい値Thに対して、の区間を音声区間と
する。ここで、Σ X (f)、ΣN (f)の値は、
バンドパスフィルタ13,23の他に15チヤンネルの
帯域全ての信号を透過するフィルタを設けて求めてもよ
い。このしきい値Thは、周囲の雑音レベルに応じて変
えることが出来る。
雑音除去部32は、雑音による雑音成分を除去するため
の、15チヤンネル毎にk (f)、及び、d (f)
の2組の雑音除去変数(f=1.2.、、。
の、15チヤンネル毎にk (f)、及び、d (f)
の2組の雑音除去変数(f=1.2.、、。
15)を持ち、音声区間検出部31が音声区間でないと
判断した時に、その時の雑音を含む音声のパワースペク
トルXn(f)と雑音のパワースペクトルN n (f
)とから、雑音除去変数k (f)、及び、d (f)
を下式に従って決定し、順次更新していく。
判断した時に、その時の雑音を含む音声のパワースペク
トルXn(f)と雑音のパワースペクトルN n (f
)とから、雑音除去変数k (f)、及び、d (f)
を下式に従って決定し、順次更新していく。
(添え字nは非音声区間を表す。また、定数COOであ
る。) k(f)”((Xn(f)”−C”)/ Nn−(f)
”)” (1)ただし Xn(f)> Cの時 k(f)=0
(2)ただし Xn(f)≦Cの時 d(f):Xn(f) −k(f)・Nn(f)
(3)ここで、Xn(f)、N(f)は、音
声区間でない時の数フレームの平均でもよい。この時、
音声のパワースペクトル5n(f)は、5n(f) =
0とする。
る。) k(f)”((Xn(f)”−C”)/ Nn−(f)
”)” (1)ただし Xn(f)> Cの時 k(f)=0
(2)ただし Xn(f)≦Cの時 d(f):Xn(f) −k(f)・Nn(f)
(3)ここで、Xn(f)、N(f)は、音
声区間でない時の数フレームの平均でもよい。この時、
音声のパワースペクトル5n(f)は、5n(f) =
0とする。
雑音除去部32は、更に、音声区間検出部31が音声区
間と判断した時に、その時の雑音を含む音声のパワース
ペクトルX5(f)、及び、雑音のパワースペクトルN
5(f)と雑音除去変数k(f)及びd(f)とから音
声のパワースペクトル5s(f)を下式のように求める
。(添え字Sは音声区間を表す。)Ss(t、f) =
X5(f) −k(f) ・N5(f) −d(f)
(4)この時、雑音除去変数k(f)、d(f)は
、更新せず、それまでの値を保持する。
間と判断した時に、その時の雑音を含む音声のパワース
ペクトルX5(f)、及び、雑音のパワースペクトルN
5(f)と雑音除去変数k(f)及びd(f)とから音
声のパワースペクトル5s(f)を下式のように求める
。(添え字Sは音声区間を表す。)Ss(t、f) =
X5(f) −k(f) ・N5(f) −d(f)
(4)この時、雑音除去変数k(f)、d(f)は
、更新せず、それまでの値を保持する。
式(1)のXn(f)、 Nn(f)とk (f)の関
係は、Xn(f)2− k(f)2・Nn(f)”二C
”で表すことが出来、これをグラフにすると第3図のよ
うな双曲線の一部になる。
係は、Xn(f)2− k(f)2・Nn(f)”二C
”で表すことが出来、これをグラフにすると第3図のよ
うな双曲線の一部になる。
、図でも明らかなように1周囲雑音が十分大きい時、即
ち。
ち。
Xn(f)、 Nn(f) >> Cの時は。
K(f) = Xn(f) / Nn(f)d(f)
= O(5) となる(正確には近づく)、この時1式(4)は、5s
(f) = l5(f) −k(f) ・N5(f)
(6)であり、2つの入力の雑音の比を用い
て雑音を除去する方法と同様になる。その逆に、周囲騒
音が小さいとき、即ち。
= O(5) となる(正確には近づく)、この時1式(4)は、5s
(f) = l5(f) −k(f) ・N5(f)
(6)であり、2つの入力の雑音の比を用い
て雑音を除去する方法と同様になる。その逆に、周囲騒
音が小さいとき、即ち。
Xn(f)≦C
の時は。
k(f) = 0
d(f) =: Xn(f)
(7)となり、式(4)は。
(7)となり、式(4)は。
5s(f) = X5(f) −d(f) =Xs(f
)−Xn(f) (8)であり、これはスペクトル
サブトラクション法と同様になる。
)−Xn(f) (8)であり、これはスペクトル
サブトラクション法と同様になる。
尚、式(1)〜(4)の演算は、LOGテーブルと、E
XPテーブルを参照することにより高速に実行すること
ができる。
XPテーブルを参照することにより高速に実行すること
ができる。
また、式(1)は、例えば、
k(f)=((Xn(f)”−Cl2)/ Nn(f)
”+Cz”) (Cx+Cz〉0)Xn(f) >
C,の時 (1’) で表わされる双曲線でもよいし、双曲線に限らずこれに
類似する曲線の関係でもよい。
”+Cz”) (Cx+Cz〉0)Xn(f) >
C,の時 (1’) で表わされる双曲線でもよいし、双曲線に限らずこれに
類似する曲線の関係でもよい。
更にこの実施例では、音声区間検出部の結果を用いて、
音声区間中は雑音除去変数k(f)、d (f)を保持
しているが、雑音除去変数のある程度以上の急激な変化
を許さないという手法を用いるなどすれば、音声区間中
でも雑音除去変数を更新することが出来る。
音声区間中は雑音除去変数k(f)、d (f)を保持
しているが、雑音除去変数のある程度以上の急激な変化
を許さないという手法を用いるなどすれば、音声区間中
でも雑音除去変数を更新することが出来る。
第2図は、上述のごとき雑音除去装置を用いた請求項2
記載の音声認識装置の一実施例を説明するためのブロッ
ク図で1図中、50は雑音除去装置部、60はパターン
作成部、70は標準パターンメモリ、80は認識部で、
雑音除去装置部5゜は、上述の雑音除去装置から成り雑
音を含む音声のスペクトルと雑音のスペクトルとから音
声のスペクトルを求める。パターン作成部60は、雑音
除去装置部50で得られた音声の特徴量から、音声の入
力パターンを作成する。雑準パターンメモリ70は、予
め登録された音声の複数個の標準パターンを記憶する。
記載の音声認識装置の一実施例を説明するためのブロッ
ク図で1図中、50は雑音除去装置部、60はパターン
作成部、70は標準パターンメモリ、80は認識部で、
雑音除去装置部5゜は、上述の雑音除去装置から成り雑
音を含む音声のスペクトルと雑音のスペクトルとから音
声のスペクトルを求める。パターン作成部60は、雑音
除去装置部50で得られた音声の特徴量から、音声の入
力パターンを作成する。雑準パターンメモリ70は、予
め登録された音声の複数個の標準パターンを記憶する。
認識部8oは、上記パターン作成部60で得られた入力
パターンと上記標準パターンメモリ70に記憶されてい
る標準パターンとを用いて認識処理を行い最も類似度の
高い標準パターンに対応する結果を認識結果として出方
する。
パターンと上記標準パターンメモリ70に記憶されてい
る標準パターンとを用いて認識処理を行い最も類似度の
高い標準パターンに対応する結果を認識結果として出方
する。
ここで、パターン作成部60で作成される音声の入力パ
ターンと標準パターンメモリ7oに記憶された音声の標
準パターンは、[2値のTSPを用いた単語音声認識シ
ステムの開発」 (安田他、電学論C,108巻IO号
、pp858−865、昭63)等で公知となっている
バイナリ−タイムスペクトルパターン(B TS P)
である、また、認識部8゜で行われる認識処理は、上記
文献等により公知となっているBTSP方式の認識処理
である。
ターンと標準パターンメモリ7oに記憶された音声の標
準パターンは、[2値のTSPを用いた単語音声認識シ
ステムの開発」 (安田他、電学論C,108巻IO号
、pp858−865、昭63)等で公知となっている
バイナリ−タイムスペクトルパターン(B TS P)
である、また、認識部8゜で行われる認識処理は、上記
文献等により公知となっているBTSP方式の認識処理
である。
尚、これら音声のパターン、及び、認識方式は、BTS
P方式に限らず、他の方式、例えば、DPマツチングを
用いた方式でも実現できる。
P方式に限らず、他の方式、例えば、DPマツチングを
用いた方式でも実現できる。
効−一二展
以上の説明から明らかなように、請求項第1項に記載の
雑音除去装置によると、雑音を含む音声のスペクトルX
(f)と雑音のスペクトルN (f)とから式(1)、
(2)、 (3)で表される2組の雑音除去変数k(
f)、d(f)を用い、式(4)に従って音声のスペク
トル5(f)を求めているので、周囲雑音の小さい場合
には、この場合に適した変数d (f)が主に雑音成分
を適切に除去し1周囲雑音が大きい場合には、この場合
に適した変数k (f)が主に雑音成分を適切に除去し
、周囲雑音がそれらの中間の場合には、2つの変数k(
f)、 d(f)が分担して雑音成分を除去するので、
広い範囲のレベルの周囲雑音、及び、非定常な周囲雑音
に対して適切な雑音成分の除去が行える。更に、本発明
のアルゴリズムは、場合分けが少なく処理が単純であり
、プログラム量が少なく、かつ、演算速度が速いという
長所がある。
雑音除去装置によると、雑音を含む音声のスペクトルX
(f)と雑音のスペクトルN (f)とから式(1)、
(2)、 (3)で表される2組の雑音除去変数k(
f)、d(f)を用い、式(4)に従って音声のスペク
トル5(f)を求めているので、周囲雑音の小さい場合
には、この場合に適した変数d (f)が主に雑音成分
を適切に除去し1周囲雑音が大きい場合には、この場合
に適した変数k (f)が主に雑音成分を適切に除去し
、周囲雑音がそれらの中間の場合には、2つの変数k(
f)、 d(f)が分担して雑音成分を除去するので、
広い範囲のレベルの周囲雑音、及び、非定常な周囲雑音
に対して適切な雑音成分の除去が行える。更に、本発明
のアルゴリズムは、場合分けが少なく処理が単純であり
、プログラム量が少なく、かつ、演算速度が速いという
長所がある。
また、請求項第2項に記載の音声認識装置によると、こ
の音声認識装置は、請求項1記載の雑音除去装置を含ん
でいるので、広い範囲のレベルの周囲雑音、及び、非定
常な周囲雑音の環境下で発声された音声に対して高い音
声認識率を得ることが出来る。更に、!55項1記載の
雑音除去装置のアルゴリズムはプログラム量が少なく、
かつ、演算速度が速いので、従来認識処理等を実行して
いたCOU等の処理回路に認識処理等と併せて雑音除去
処理を実行させることも容易であり、雑音除去のための
ハードウェアの増加を極力防ぐことが出来る。
の音声認識装置は、請求項1記載の雑音除去装置を含ん
でいるので、広い範囲のレベルの周囲雑音、及び、非定
常な周囲雑音の環境下で発声された音声に対して高い音
声認識率を得ることが出来る。更に、!55項1記載の
雑音除去装置のアルゴリズムはプログラム量が少なく、
かつ、演算速度が速いので、従来認識処理等を実行して
いたCOU等の処理回路に認識処理等と併せて雑音除去
処理を実行させることも容易であり、雑音除去のための
ハードウェアの増加を極力防ぐことが出来る。
等の利点がある。
第1図は、本発明による雑音除去装置の一実施例を説明
するための構成図、第2図は、本発明による音声認識装
置の一実施例を説明するための構成図、第3図は、雑音
成分と雑音除去変数との関係を示すグラフである。 1o・・・第1の特徴量抽出部、11・・・マイクアン
プ、12・・・プリエンファシス回路、13・・・バン
ドパスフィルタ、バンク、14・・・A/Dコンバータ
、20・・・第2の特徴量抽出部、21・・・マイクア
ンプ、22・・・プリエンファシス回路、23・・・バ
ンドパスフィルタバンク、24・・・A/Dコンバータ
、31・・音声区間検出部、32・・・雑音除去部、5
o・・・雑音除去装置部、60・・・パターン作成部、
70・・・標準パターンメモリ、80・・・認識部。 第1図 認識結果
するための構成図、第2図は、本発明による音声認識装
置の一実施例を説明するための構成図、第3図は、雑音
成分と雑音除去変数との関係を示すグラフである。 1o・・・第1の特徴量抽出部、11・・・マイクアン
プ、12・・・プリエンファシス回路、13・・・バン
ドパスフィルタ、バンク、14・・・A/Dコンバータ
、20・・・第2の特徴量抽出部、21・・・マイクア
ンプ、22・・・プリエンファシス回路、23・・・バ
ンドパスフィルタバンク、24・・・A/Dコンバータ
、31・・音声区間検出部、32・・・雑音除去部、5
o・・・雑音除去装置部、60・・・パターン作成部、
70・・・標準パターンメモリ、80・・・認識部。 第1図 認識結果
Claims (1)
- 【特許請求の範囲】 1、雑音を含む音声の特徴量X(f)(f=1、2、、
、n)を求めるための複数個nチャンネルから成る第1
の特徴抽出部と、雑音の特徴量N(f)を求めるための
複数個nチャンネルから成る第2の特徴抽出部と、雑音
を含む音声の特徴量X(f)から雑音成分を除去するた
めの、上記nチャンネル毎の第1の雑音除去変数k(f
)、及び、第2の雑音除去変数d(f)の少なくとも2
組の雑音除去変数を持ち、雑音を含む音声の特徴量X(
f)と雑音の特徴量N(f)とから、上記雑音除去変数
k(f)、及び、f(f)を決定し、更に、雑音を含む
音声の特徴量X(f)と雑音の特徴量N(f)と雑音除
去変数k(f)、及びd(f)とから、雑音成分を除去
した音声の特徴量S(f)を求める雑音除去部とを具備
して成り、上記雑音除去部は、雑音成分を除去した音声
の特徴量S(f)を求めるために、雑音を含む音声の特
徴量X(f)から、雑音の特徴量N(f)と第1の雑音
除去変数k(f)との積と、第2の雑音除去変数d(f
)とを減じることを特徴とした雑音除去装置。 2、請求項1記載の雑音除去装置と、該雑音除去装置で
得られた音声の特徴量から、音声の入力パターンを作成
するパターン作成部と、予め登録された音声の標準パタ
ーンを記憶する標準パターンメモリと、上記パターン作
成部で得られた入力パターンと上記標準パターンメモリ
に記憶されている標準パターンとを用いて認識処理を行
う認識部とを具備して成ることを特徴とする音声認識装
置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1261099A JP2863214B2 (ja) | 1989-10-05 | 1989-10-05 | 雑音除去装置及び該装置を用いた音声認識装置 |
DE19904012349 DE4012349A1 (de) | 1989-04-19 | 1990-04-18 | Einrichtung zum beseitigen von geraeuschen |
US07/873,976 US5212764A (en) | 1989-04-19 | 1992-04-24 | Noise eliminating apparatus and speech recognition apparatus using the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1261099A JP2863214B2 (ja) | 1989-10-05 | 1989-10-05 | 雑音除去装置及び該装置を用いた音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03122699A true JPH03122699A (ja) | 1991-05-24 |
JP2863214B2 JP2863214B2 (ja) | 1999-03-03 |
Family
ID=17357069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1261099A Expired - Lifetime JP2863214B2 (ja) | 1989-04-19 | 1989-10-05 | 雑音除去装置及び該装置を用いた音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2863214B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006178333A (ja) * | 2004-12-24 | 2006-07-06 | Nippon Telegr & Teleph Corp <Ntt> | 近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3434215B2 (ja) | 1998-02-20 | 2003-08-04 | 日本電信電話株式会社 | 収音装置,音声認識装置,これらの方法、及びプログラム記録媒体 |
JP3435686B2 (ja) | 1998-03-02 | 2003-08-11 | 日本電信電話株式会社 | 収音装置 |
JP3435687B2 (ja) | 1998-03-12 | 2003-08-11 | 日本電信電話株式会社 | 収音装置 |
-
1989
- 1989-10-05 JP JP1261099A patent/JP2863214B2/ja not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006178333A (ja) * | 2004-12-24 | 2006-07-06 | Nippon Telegr & Teleph Corp <Ntt> | 近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体 |
JP4533126B2 (ja) * | 2004-12-24 | 2010-09-01 | 日本電信電話株式会社 | 近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2863214B2 (ja) | 1999-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4177755B2 (ja) | 発話特徴抽出システム | |
US5212764A (en) | Noise eliminating apparatus and speech recognition apparatus using the same | |
EP0763812B1 (en) | Speech signal processing apparatus for detecting a speech signal from a noisy speech signal | |
KR100804881B1 (ko) | 음성이 포함된 오디오 신호들의 양해도 개선용 회로장치 및 처리방법 | |
US7418379B2 (en) | Circuit for improving the intelligibility of audio signals containing speech | |
JP2004531767A5 (ja) | ||
EP0459384B1 (en) | Speech signal processing apparatus for cutting out a speech signal from a noisy speech signal | |
US20060009968A1 (en) | Unified treatment of resolved and unresolved harmonics | |
EP3696815B1 (en) | Nonlinear noise reduction system | |
EP1216527B1 (en) | Apparatus and method for de-esser using adaptive filtering algorithms | |
JPH03122699A (ja) | 雑音除去装置及び該装置を用いた音声認識装置 | |
JP2701431B2 (ja) | 音声認識装置 | |
JP3707135B2 (ja) | カラオケ採点装置 | |
US6314394B1 (en) | Adaptive signal separation system and method | |
JPH04227338A (ja) | 音声信号処理装置 | |
JPH04340599A (ja) | 雑音除去装置 | |
DE4012349A1 (de) | Einrichtung zum beseitigen von geraeuschen | |
JPH056193A (ja) | 音声区間検出方式及び音声認識装置 | |
JPH04238399A (ja) | 音声認識装置 | |
JP2859634B2 (ja) | 雑音除去装置 | |
Muhsina et al. | Signal enhancement of source separation techniques | |
JP3847989B2 (ja) | 信号抽出装置 | |
JP2001249676A (ja) | 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法 | |
JPH01200294A (ja) | 音声認識装置 | |
JP2959792B2 (ja) | 音声信号処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071211 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081211 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081211 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091211 Year of fee payment: 11 |
|
EXPY | Cancellation because of completion of term |