JPS5850360B2 - 音声認識装置における前処理方法 - Google Patents
音声認識装置における前処理方法Info
- Publication number
- JPS5850360B2 JPS5850360B2 JP53055556A JP5555678A JPS5850360B2 JP S5850360 B2 JPS5850360 B2 JP S5850360B2 JP 53055556 A JP53055556 A JP 53055556A JP 5555678 A JP5555678 A JP 5555678A JP S5850360 B2 JPS5850360 B2 JP S5850360B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- band
- inverse
- inverse filter
- waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 title claims description 19
- 238000007781 pre-processing Methods 0.000 title claims description 10
- 238000005070 sampling Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims description 45
- 230000005540 biological transmission Effects 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000010183 spectrum analysis Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 14
- 230000015654 memory Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000006866 deterioration Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
- Telephonic Communication Services (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
【発明の詳細な説明】
本発明は、音声認識装置における前処理方法、特に、電
話回線網などの伝送系を通して入力される音声を認識す
るための音声認識装置における前処理方法に関するもの
である。
話回線網などの伝送系を通して入力される音声を認識す
るための音声認識装置における前処理方法に関するもの
である。
計算機システムを含む情報サービスセンタと電話回線網
とを結びつけた情報サービスシステムでは、情報サービ
スセンタからの出力は音声応答装置の音声を用い、電話
回線網への通話者からの入力は押釦信号または直接音声
を用いており、通話者からの入力音声は電話回線網を経
て情報サービスセンタに送られ、そこで、標準音声との
類似度を調べて音声認識を行っている。
とを結びつけた情報サービスシステムでは、情報サービ
スセンタからの出力は音声応答装置の音声を用い、電話
回線網への通話者からの入力は押釦信号または直接音声
を用いており、通話者からの入力音声は電話回線網を経
て情報サービスセンタに送られ、そこで、標準音声との
類似度を調べて音声認識を行っている。
このように、回線網を経た入力音声は、伝送系の伝送特
性の影響を受けて歪んだものとなっており、また、回線
網の歪の特性は一様ではなく、経路によって異なるのが
普通である。
性の影響を受けて歪んだものとなっており、また、回線
網の歪の特性は一様ではなく、経路によって異なるのが
普通である。
したがって、音声認識装置では、異った歪の特性を持っ
た回線から送られて来る入力音声を比較することになる
ので、この歪の影響を除くか正規化するなどして低減す
る必要がある。
た回線から送られて来る入力音声を比較することになる
ので、この歪の影響を除くか正規化するなどして低減す
る必要がある。
そのため、入力音声のスペクトルの回線による歪を補正
する方法として、同一発明者による特願昭52−192
40号のような方法が考えられている。
する方法として、同一発明者による特願昭52−192
40号のような方法が考えられている。
第1図は、この方法を実現する音声認識装置の構成を示
すもので、第2図は第1図の各部のスペクトルおよび伝
送特性を示すものである。
すもので、第2図は第1図の各部のスペクトルおよび伝
送特性を示すものである。
第1図において、音声SPはある伝送特性を有する電話
系1を経た後、サンプリングによる折返し雑音防止用の
低域済波器2を通り、アナログディジタル変換器(以下
、A−D変換器という。
系1を経た後、サンプリングによる折返し雑音防止用の
低域済波器2を通り、アナログディジタル変換器(以下
、A−D変換器という。
)により、所定周波数でサンプリングされて、ディジタ
ル信号に変換される。
ル信号に変換される。
そして、このディジタル変換された音声から分析部4に
おいて所定分析区間における特徴パラメータが求められ
それが逆フィルタ5に入力され、入力音声をこの逆フィ
ルタ5に通すことによって、電話系1の特性の相違を打
消した音声が認識部6に入力される。
おいて所定分析区間における特徴パラメータが求められ
それが逆フィルタ5に入力され、入力音声をこの逆フィ
ルタ5に通すことによって、電話系1の特性の相違を打
消した音声が認識部6に入力される。
認識部6では、このようにして得られた音声と標準音声
とを比較し、その類似度を求めて、認識を行う。
とを比較し、その類似度を求めて、認識を行う。
第2図aは電話系1を通す前の音声の平均スペクトルを
模擬的に示しており、第2図すは電話系1の伝送特性を
示している。
模擬的に示しており、第2図すは電話系1の伝送特性を
示している。
第2図すから解るように、電話系1の伝送特性は0.3
KHz〜3.4 KHzの帯域内を有しているため、電
話系1を経た音声の平均スペクトルは第2図Cのように
、急峻な特性で帯域制限され、帯域外に雑音を含んでい
る。
KHz〜3.4 KHzの帯域内を有しているため、電
話系1を経た音声の平均スペクトルは第2図Cのように
、急峻な特性で帯域制限され、帯域外に雑音を含んでい
る。
また、サンプリングによる折返し雑音を防止する低域済
波器2はあまり急峻な遮断特性とすると、後の処理に悪
影響を与えるため、通常は、第2図dに示すように、電
話帯域の上限の3.4 KHzより多少下の周波数から
減衰を開始し、4〜5K)lz(例えば、4.2 KH
2)に遮断周波数fcを持つフィルタが使用される。
波器2はあまり急峻な遮断特性とすると、後の処理に悪
影響を与えるため、通常は、第2図dに示すように、電
話帯域の上限の3.4 KHzより多少下の周波数から
減衰を開始し、4〜5K)lz(例えば、4.2 KH
2)に遮断周波数fcを持つフィルタが使用される。
このような低VF波器2を通すことにより、遮断周波数
fc以上の雑音成分はほとんど除かれるが、3.4 K
Hz以下の音声帯域の情報も多少けずられ、情報の劣化
が生ずるという問題がある。
fc以上の雑音成分はほとんど除かれるが、3.4 K
Hz以下の音声帯域の情報も多少けずられ、情報の劣化
が生ずるという問題がある。
A−D変換器3では、通常、サンプリング周波数8〜1
0KHzでサンプリングを行っているので、A−D変換
器3で得られるディジタル信号の平均パワースペクトル
は、第2図eに示すように、サンプリング周波数の半分
の周波数である周波数fsを中心に線対称形状でサンプ
リング周波数まで延びている。
0KHzでサンプリングを行っているので、A−D変換
器3で得られるディジタル信号の平均パワースペクトル
は、第2図eに示すように、サンプリング周波数の半分
の周波数である周波数fsを中心に線対称形状でサンプ
リング周波数まで延びている。
このA−D変換器3の出力を分析部4でスペクトル分析
し、分析されたスペクトルの逆特性を逆フィルタ5に設
定することにより、逆フィルタ5の伝送特性は第2図f
のようになる。
し、分析されたスペクトルの逆特性を逆フィルタ5に設
定することにより、逆フィルタ5の伝送特性は第2図f
のようになる。
このように、第2図eに示すようなスペクトルを有する
音声を分析部4で分析し、その結果で逆フィルタ5の特
性を設定する場合、第2図eに示すスペクトルは電話系
の帯域の上限および下限で急峻に立下っており、分析部
4で分析される帯域、すなわち、周波数0−fsの内に
これらの急峻な特性を含んでおり、したがって、分析結
果のスペクトルの逆特性が設定される逆フィルタは、電
話帯域の上限および下限部分の急峻な特性をフォローす
る部分で不安定になり易く、また、電話帯域内の特性の
フォローも悪くなるという問題がある。
音声を分析部4で分析し、その結果で逆フィルタ5の特
性を設定する場合、第2図eに示すスペクトルは電話系
の帯域の上限および下限で急峻に立下っており、分析部
4で分析される帯域、すなわち、周波数0−fsの内に
これらの急峻な特性を含んでおり、したがって、分析結
果のスペクトルの逆特性が設定される逆フィルタは、電
話帯域の上限および下限部分の急峻な特性をフォローす
る部分で不安定になり易く、また、電話帯域内の特性の
フォローも悪くなるという問題がある。
さらに、逆フィルタを経た音声の平均スペクトルは、第
2図gに示すように、帯域内では電話系の影響が正規化
され平坦になるが、帯域外では、雑音成分を大きく増幅
したものとなっている。
2図gに示すように、帯域内では電話系の影響が正規化
され平坦になるが、帯域外では、雑音成分を大きく増幅
したものとなっている。
なぜなら、逆フィルタでは、入力音声のスペクトルの小
さい部分が逆に強調されるためである。
さい部分が逆に強調されるためである。
本発明の目的は、逆フィルタの安定性を増加し、帯域内
の音声情報の劣化を防止し、かつ、帯域外の雑音の影響
を受けないようにした音声認識装置の前処理方法を提供
することにある。
の音声情報の劣化を防止し、かつ、帯域外の雑音の影響
を受けないようにした音声認識装置の前処理方法を提供
することにある。
このような目的を達成するために、本発明では、伝送系
を経て入力され、サンプリングされてディジタル化され
た音声をフーリエ変換して周波数スペクトルを得、この
スペクトルの内、伝送系の帯域内の成分およびサンプリ
ングによる折返し成分のみをOK)lzから始まる連続
する周波数帯域として取り出し、それを新たなスペクト
ルとして逆フーリエ変換し、その変換結果を逆フィルタ
の特性として使用するようにしたことに特徴がある。
を経て入力され、サンプリングされてディジタル化され
た音声をフーリエ変換して周波数スペクトルを得、この
スペクトルの内、伝送系の帯域内の成分およびサンプリ
ングによる折返し成分のみをOK)lzから始まる連続
する周波数帯域として取り出し、それを新たなスペクト
ルとして逆フーリエ変換し、その変換結果を逆フィルタ
の特性として使用するようにしたことに特徴がある。
以下、本発明の実施例を図面により詳細に説明する。
なお、本発明でいう音声認識とは、単語認識、話者認識
、話者識別などのように、音声波形情報を認識、計測な
どするものを総称したものである。
、話者識別などのように、音声波形情報を認識、計測な
どするものを総称したものである。
第3図は本発明による前処理方法を実現する音声認識装
置の一実施例を示すもので、第4図は第3図の動作を説
明するためのスペクトルおよび特性を示す。
置の一実施例を示すもので、第4図は第3図の動作を説
明するためのスペクトルおよび特性を示す。
第3図において、Tは高速フーリエ変換器、8は帯域選
択回路、9は逆フーリエ変換器を示す。
択回路、9は逆フーリエ変換器を示す。
そして、低域ろ波器2の遮断周波数fcは、第4図aの
ように、電話帯域の上限3.4 KHz以下の音声を損
わない程度に充分に高く、かつ、サンプリング周波数の
半分の周波数fsより低くなるように設定される。
ように、電話帯域の上限3.4 KHz以下の音声を損
わない程度に充分に高く、かつ、サンプリング周波数の
半分の周波数fsより低くなるように設定される。
したがって、周波数fsは電話帯域の上限である3、
4 KHzよりは高くなければならない。
4 KHzよりは高くなければならない。
このような構成において、音声SPが第2図すに示す特
性を有する電話系1を経て、第4図aに示すように、電
話帯域の上限より高い周波数で減衰を始め、遮断周波数
fcが充分高いような減衰特性を持った低域ろ波器2を
通過し、A−D変換器3に入力されると、上述したよう
に規定されるサンプリング周波数でサンプリングされ、
所定ビットのディジタル信号に変換される。
性を有する電話系1を経て、第4図aに示すように、電
話帯域の上限より高い周波数で減衰を始め、遮断周波数
fcが充分高いような減衰特性を持った低域ろ波器2を
通過し、A−D変換器3に入力されると、上述したよう
に規定されるサンプリング周波数でサンプリングされ、
所定ビットのディジタル信号に変換される。
この変換出力は高速フーリエ変換器7で、分析対象音声
の全区間を一括してフーリエ変換され、第4図すに示す
ようなスペクトル特性が得られる。
の全区間を一括してフーリエ変換され、第4図すに示す
ようなスペクトル特性が得られる。
次に、帯域選択回路8では、第4図すに示すスペクトル
から、音声の存在する帯域、すなわち、電話帯域0.3
〜3.4 KHzとサンプリングによる折返し成分の帯
域だけを取り出し、それらを第4図CのようにOHzか
ら並び換えたスペクトルを得る。
から、音声の存在する帯域、すなわち、電話帯域0.3
〜3.4 KHzとサンプリングによる折返し成分の帯
域だけを取り出し、それらを第4図CのようにOHzか
ら並び換えたスペクトルを得る。
この時、高速フーリエ変換器7は、2のべき乗の音声波
形データに対して行うのが便利であるので、入力される
音声波形データが2のべき乗にならない時は、そのデー
タの後にOを挿入して全体として2のべき乗となるよう
にすれば好都合である。
形データに対して行うのが便利であるので、入力される
音声波形データが2のべき乗にならない時は、そのデー
タの後にOを挿入して全体として2のべき乗となるよう
にすれば好都合である。
また、逆フーリエ変換器9のデータ数も2のべき乗であ
ると便利である。
ると便利である。
例えば、第4図Cから解るように、選択されたスペクト
ルの等価サンプリング周波数、すなわち 2 X f
s/は電話帯域中3.1 K)lz (= 3.4 K
)lz −0,3K11z )の2倍である6、2に1
1zとなるから、その2倍の12.4KI(zをA−D
変換器3のサンプリング周波数2fsとすれば、その半
分の周波数fsは6.2KHzとなり、電話帯域の上限
3.4 KH7より太きいという条件も満たす。
ルの等価サンプリング周波数、すなわち 2 X f
s/は電話帯域中3.1 K)lz (= 3.4 K
)lz −0,3K11z )の2倍である6、2に1
1zとなるから、その2倍の12.4KI(zをA−D
変換器3のサンプリング周波数2fsとすれば、その半
分の周波数fsは6.2KHzとなり、電話帯域の上限
3.4 KH7より太きいという条件も満たす。
したがって、2fs′までを表わすスペクトルのデータ
の数が2のべき乗の値であれば、2fs=2(2fs′
)の関係から、2fsまでを表わすスペクトルのデータ
の数も2のべき乗となり、好都合である。
の数が2のべき乗の値であれば、2fs=2(2fs′
)の関係から、2fsまでを表わすスペクトルのデータ
の数も2のべき乗となり、好都合である。
通常、音声波形のサンプル値は数ioo点以上であるか
ら、その値を2のべき乗に選択することにより、2fs
′、2fsも自動的に2のべき乗となる。
ら、その値を2のべき乗に選択することにより、2fs
′、2fsも自動的に2のべき乗となる。
上述した例では、2fsは2fs′の2倍にとっである
が、一般には、2fsは2 f s’の2n倍(n≧2
)にとることができる。
が、一般には、2fsは2 f s’の2n倍(n≧2
)にとることができる。
しかしながら、この場合、サンプリング周波数が大きく
なり、それだけデータメモリの容量も大きくなり、高速
フーリエ変換器の処理量も増大することを考えると、必
要最小限度である2倍にとるのが望ましい。
なり、それだけデータメモリの容量も大きくなり、高速
フーリエ変換器の処理量も増大することを考えると、必
要最小限度である2倍にとるのが望ましい。
すなわち、電話帯域が周波数f1から周波数f2までで
ある時、(f2 fl)X2n+1≧f2×2の関係
を満足する最小のn(n=1,2.・・・)を選び(f
2−fl)X2n+1でサンプリングスルツカよい。
ある時、(f2 fl)X2n+1≧f2×2の関係
を満足する最小のn(n=1,2.・・・)を選び(f
2−fl)X2n+1でサンプリングスルツカよい。
第4図Cとbとを比較して解るように、逆フーリエ変換
器9に入力される周波数スペクトル(第4図C)には、
音声音域外の成分は全くなくなっているため、分析部4
で分析される帯域、すなわち、0〜f s/の中には帯
域遮断の急峻な特性が消滅し、かつ、帯域外の雑音成分
も消滅している。
器9に入力される周波数スペクトル(第4図C)には、
音声音域外の成分は全くなくなっているため、分析部4
で分析される帯域、すなわち、0〜f s/の中には帯
域遮断の急峻な特性が消滅し、かつ、帯域外の雑音成分
も消滅している。
その結果、逆フィルタ5に不安定な要因となる急峻な特
性を要求しないで済むので、安定で、かつ帯域内の伝送
特性を良くフォローする逆フィルタが実現できるととも
に、帯域内の音声情報を劣化させることなく、帯域外の
雑音を完全に除去させることができる。
性を要求しないで済むので、安定で、かつ帯域内の伝送
特性を良くフォローする逆フィルタが実現できるととも
に、帯域内の音声情報を劣化させることなく、帯域外の
雑音を完全に除去させることができる。
また、上述したように、サンプリング周波数の半分子s
を高い周波数、例えば、6.2KHzに設定できるので
、低域ろ波器2の減衰特性を、電話帯域の上限3.4
Kflzより高い値で立上るように設定でき、帯域内の
音声情報をこの部分で劣化させるようなことはない。
を高い周波数、例えば、6.2KHzに設定できるので
、低域ろ波器2の減衰特性を、電話帯域の上限3.4
Kflzより高い値で立上るように設定でき、帯域内の
音声情報をこの部分で劣化させるようなことはない。
さらに、逆フィルタに入力される変換波形の等価サンプ
リング周波数2 f s/は6.2KIIzとなり、従
来のように、8〜l0KH7のサンプリング周波数と比
べて非常に低い値となっているため、分析部4、逆フィ
ルタ5、認識部6で処理される処理量は減少され、それ
だけ、これらの処理速度は向上され、高速フーリエ変換
器7、帯域選択回路8、逆フーリエ変換器9での処理が
増加することを考慮に入れても、全体としてはむしろ従
来より向上している。
リング周波数2 f s/は6.2KIIzとなり、従
来のように、8〜l0KH7のサンプリング周波数と比
べて非常に低い値となっているため、分析部4、逆フィ
ルタ5、認識部6で処理される処理量は減少され、それ
だけ、これらの処理速度は向上され、高速フーリエ変換
器7、帯域選択回路8、逆フーリエ変換器9での処理が
増加することを考慮に入れても、全体としてはむしろ従
来より向上している。
第5図は第3図の前処理装置部分の一実施例の構成を示
すもので、第3図の高速フーリエ変換器7、帯域選択回
路8、逆フーリエ変換部9、分析部4、逆フィルタ5に
相当する部分である。
すもので、第3図の高速フーリエ変換器7、帯域選択回
路8、逆フーリエ変換部9、分析部4、逆フィルタ5に
相当する部分である。
図において、11〜15はレジスタ、16はフーリエ変
換装置、17は逆フーリエ変換装置、18は逆フイルタ
係数計算回路、19は逆フイルタ通過回路、20は制御
部を示す。
換装置、17は逆フーリエ変換装置、18は逆フイルタ
係数計算回路、19は逆フイルタ通過回路、20は制御
部を示す。
このような構成において、レジスタ11には第3図のA
−D変換器3からのディジタル音声波形が格納されてお
り、このレジスタ11内の音声波形はフーリエ変換装置
16に送られ、入力音声波形のデータ数を下まわらない
2のべき乗の最小の数のデータのフーリエ変換がなされ
、その結果がレジスタ12に送られる。
−D変換器3からのディジタル音声波形が格納されてお
り、このレジスタ11内の音声波形はフーリエ変換装置
16に送られ、入力音声波形のデータ数を下まわらない
2のべき乗の最小の数のデータのフーリエ変換がなされ
、その結果がレジスタ12に送られる。
したがって、レジスタ12には、第4図すに示すような
スペクトル情報が記憶される。
スペクトル情報が記憶される。
制御部20からの制御信号により、レジスタ12内の電
話帯域0.3〜3.4 K11zおよびその折り返し成
分の帯域のスペクトルが取り出され、レジスタ13に、
第4図Cに示すように、帯域を詰めた状態のスペクトル
が記憶される。
話帯域0.3〜3.4 K11zおよびその折り返し成
分の帯域のスペクトルが取り出され、レジスタ13に、
第4図Cに示すように、帯域を詰めた状態のスペクトル
が記憶される。
次に、逆フーリエ変換装置11では、フーリエ変換装置
16で行ったフーリエ変換の点数の半分の数の逆フーリ
エ変換を行いレジスタ14に送る。
16で行ったフーリエ変換の点数の半分の数の逆フーリ
エ変換を行いレジスタ14に送る。
逆フイルタ係数計算回路18では、制御部20からの制
御信号によりレジスタ14から所定長さの音声データを
順次一定間隔ずらして取り出して、スペクトル分析し、
所定のパラメータ、例えば、偏自己相関係数を求め、そ
の係数を逆フイルタ通過回路19に送って、その中の逆
フィルタの特性を設定する。
御信号によりレジスタ14から所定長さの音声データを
順次一定間隔ずらして取り出して、スペクトル分析し、
所定のパラメータ、例えば、偏自己相関係数を求め、そ
の係数を逆フイルタ通過回路19に送って、その中の逆
フィルタの特性を設定する。
さらに、制御部20からの制御信号でレジスタ14内の
音声データが順次逆フイルタ通過回路19に通され、逆
フィルタリングされ、その結果レジスタ15に格納され
る。
音声データが順次逆フイルタ通過回路19に通され、逆
フィルタリングされ、その結果レジスタ15に格納され
る。
第6図は第5図の一部、すなわち、逆フイルタ係数計算
回路18、逆フイルタ通過回路19部分の具体的構成の
一例を示すもので、公知の技術であるPARCOR分析
技術(例えば、特公昭4918007号公報に示されて
いる。
回路18、逆フイルタ通過回路19部分の具体的構成の
一例を示すもので、公知の技術であるPARCOR分析
技術(例えば、特公昭4918007号公報に示されて
いる。
)を利用して、偏自己相関係数を求め、その係数で逆フ
ィルタの特性を設定する例である。
ィルタの特性を設定する例である。
図において、100,200は入力端子、101〜10
3,201〜203は信号遅延メモリ、111.112
は相関器、121,122,131゜132.221,
222,231,232は掛算器、141〜14P、1
51〜15P、241〜24P、251〜25Pは加算
器、160はシフトレジスタ、170は平均値算出装置
を示す。
3,201〜203は信号遅延メモリ、111.112
は相関器、121,122,131゜132.221,
222,231,232は掛算器、141〜14P、1
51〜15P、241〜24P、251〜25Pは加算
器、160はシフトレジスタ、170は平均値算出装置
を示す。
第6図において、分析すべき音声は端子100より入力
され、三分して一方は信号遅延メモリ101へ、他方の
信号は更に三分され相関器111、掛算器131および
加算器151に行く。
され、三分して一方は信号遅延メモリ101へ、他方の
信号は更に三分され相関器111、掛算器131および
加算器151に行く。
遅延メモリ101で遅延された信号は三分され、自己相
関器1丁η、掛算器121、加算器141に行く。
関器1丁η、掛算器121、加算器141に行く。
相関器111は二つの入力信号の間の相関を求める機能
を持った公知の装置で、その出力は第一次の偏自己相関
係数181 (PARCOR係数)として出力される一
方、掛算器121と131の一方の入力として用いられ
る。
を持った公知の装置で、その出力は第一次の偏自己相関
係数181 (PARCOR係数)として出力される一
方、掛算器121と131の一方の入力として用いられ
る。
偏自己相関係数181はシフトレジスタ160に貯えら
れる。
れる。
掛算器121と131の出力は各々第一次の前向き及び
後向き波形予測値であって加算器151と141に加え
られ、入力端子100からの入力と遅延メモリ101の
出力との差が各々第一次の前向きおよび後向き予測信号
差と遅延メモリ102への入力として出力される。
後向き波形予測値であって加算器151と141に加え
られ、入力端子100からの入力と遅延メモリ101の
出力との差が各々第一次の前向きおよび後向き予測信号
差と遅延メモリ102への入力として出力される。
以下同様にして第P次までの偏自己相関係数182〜1
8Pと第P次の藺向き予測誤差が分析抽出される。
8Pと第P次の藺向き予測誤差が分析抽出される。
端子100にはサンプリング間隔で次々と音声データが
はいってくるので偏自己相関係数181〜18Pも刻々
計算され、シフトレジスタ160へ格納されていく。
はいってくるので偏自己相関係数181〜18Pも刻々
計算され、シフトレジスタ160へ格納されていく。
シフトレジスタ160のレジスタシフトの周期をサンプ
リングの間隔に一致させておけば、全区間終了時には、
全区間の偏自己相関係数が、各次数ごとにシフトレジス
タ160に格納されていることになる。
リングの間隔に一致させておけば、全区間終了時には、
全区間の偏自己相関係数が、各次数ごとにシフトレジス
タ160に格納されていることになる。
平均値算出装置110は全区間の分析終了後、各次数の
偏自己相関係数の平均をとり、その平均値をその次数の
偏自己相関係数として逆フィルタにセットし、逆フイル
タ操作が行われている間その値を保持する。
偏自己相関係数の平均をとり、その平均値をその次数の
偏自己相関係数として逆フィルタにセットし、逆フイル
タ操作が行われている間その値を保持する。
逆フィルタはスペクトル分析部、すなわち逆フイルタ係
数計算回路におけるPARCOR分析フィルタと同じ構
造を持つが、スペクトル分析部において求められた偏自
己相関係数パラメータが予め設定されているところのみ
が異なり、分析された音声の全平均スペクトルの逆特性
のフィルタとなる。
数計算回路におけるPARCOR分析フィルタと同じ構
造を持つが、スペクトル分析部において求められた偏自
己相関係数パラメータが予め設定されているところのみ
が異なり、分析された音声の全平均スペクトルの逆特性
のフィルタとなる。
入力端子200から入力されるレジスタ14中の音声デ
ータは上記逆フィルタによりフィルタリングされる。
ータは上記逆フィルタによりフィルタリングされる。
第7図は、第3図の認識部6の具体的構成の一例を示す
もので、15は第6図の同じ符号に対応するレジスタ、
21はバッファレジスタ、22はパラメータ抽出装置、
23はパラメータレジスタ、24は標準パラメータメモ
リ、25は距離計算回路、26は距離レジスタ、27は
最小値計算回路、28は制御部を示す。
もので、15は第6図の同じ符号に対応するレジスタ、
21はバッファレジスタ、22はパラメータ抽出装置、
23はパラメータレジスタ、24は標準パラメータメモ
リ、25は距離計算回路、26は距離レジスタ、27は
最小値計算回路、28は制御部を示す。
このような構成において、レジスタ15には逆フィルタ
を通過した音声データが格納されており、制御部28か
らの制御信号により、その音声データを一定の長さずつ
、一定の間隔で順次取り出し、バッファレジスタ21を
経由してパラメータ抽出装置22に送る。
を通過した音声データが格納されており、制御部28か
らの制御信号により、その音声データを一定の長さずつ
、一定の間隔で順次取り出し、バッファレジスタ21を
経由してパラメータ抽出装置22に送る。
このパラメータ抽出装置22は認識に必要なパラメータ
を抽出するもので、例えは、特公昭49−18009号
公報に示す分析部が使用でき、パラメータとして偏自己
相関係数が抽出され、パラメータレジスタ23に入力さ
れる。
を抽出するもので、例えは、特公昭49−18009号
公報に示す分析部が使用でき、パラメータとして偏自己
相関係数が抽出され、パラメータレジスタ23に入力さ
れる。
一方、標準パラメータメモリ24には、予め計算され登
録されているパラメータの組(単語認識の場合は、各単
語のパラメータ時系列、話者認識の場合は、各話者のパ
ラメータ時系列)が格納されており、制御部28からの
制御信号により、この格納内容を順次取り出し、距離計
算回路25に入力する。
録されているパラメータの組(単語認識の場合は、各単
語のパラメータ時系列、話者認識の場合は、各話者のパ
ラメータ時系列)が格納されており、制御部28からの
制御信号により、この格納内容を順次取り出し、距離計
算回路25に入力する。
距離計算回路25では、パラメータレジスタ23から出
力された特徴パラメータと、標準パラメータメモリ24
からの標準パラメータとを比較して、その類仰度、すな
わち距離を計算し、その結果を距離レジスタ26に送る
。
力された特徴パラメータと、標準パラメータメモリ24
からの標準パラメータとを比較して、その類仰度、すな
わち距離を計算し、その結果を距離レジスタ26に送る
。
この距離計算回路25としては、例えば、特開昭47−
30242号公報に示す技術が利用できる。
30242号公報に示す技術が利用できる。
全ての標準パラメータとの距離を算出し終ると、制御部
28からの信号により、距離レジスタ26の中の全距離
を最小値計算回路27に送って距離の最小値を求め、そ
の最小値を示す標準パラメータを代表するカテゴリを出
力する。
28からの信号により、距離レジスタ26の中の全距離
を最小値計算回路27に送って距離の最小値を求め、そ
の最小値を示す標準パラメータを代表するカテゴリを出
力する。
第8図は、第3図の認識部6の具体的構成の他の例を示
すもので、マイクロコンピユータラ使った例を示す。
すもので、マイクロコンピユータラ使った例を示す。
図において、30は前処理装置からの音声データを記憶
するランダムアクセスメモリ、31はデータバス、32
は演算ユニット、33はシーケンサやマイクロ命令メモ
リなどからなる制御部、34は掛算器、35は結果の表
示回路、36は標準音声のパラメータメモリを示す。
するランダムアクセスメモリ、31はデータバス、32
は演算ユニット、33はシーケンサやマイクロ命令メモ
リなどからなる制御部、34は掛算器、35は結果の表
示回路、36は標準音声のパラメータメモリを示す。
以下、このような構成のマイクロコンピュータで実行さ
れる認識処利方法について説明する。
れる認識処利方法について説明する。
音声を上述したPARCOR技術により分析し、音声間
の類似性を評価する場合は、各種のパラメータが波形の
自己相関係数から求められることは良く知られている。
の類似性を評価する場合は、各種のパラメータが波形の
自己相関係数から求められることは良く知られている。
したがって、上述した偏自己相関係数にや線形予測係数
αは自己相関係数ρから求めることができる。
αは自己相関係数ρから求めることができる。
また、線形予測係数αや偏自己相関係数にで表現される
波形のスペクトルの類似性の評価も自己相関係数ρと線
形予測係数αから得られることも良く知られている。
波形のスペクトルの類似性の評価も自己相関係数ρと線
形予測係数αから得られることも良く知られている。
このような手法を用いると、以下に述べるように、逆フ
ィルタの処理も実現できる。
ィルタの処理も実現できる。
いま、ランダムアクセスメモリ30に記憶されている音
声波形x1の全区間Nに亘る自己相関係数ρτを、 次の(1)式とする。
声波形x1の全区間Nに亘る自己相関係数ρτを、 次の(1)式とする。
但し、IPは逆フィルタの次数、τは自己相関係数の次
数である。
数である。
この式より、全体のスペクトルを表わす線形予測係数α
は、良く知られた手法で、次の(2)式で示す連立−次
方程式を解くことにより求められる。
は、良く知られた手法で、次の(2)式で示す連立−次
方程式を解くことにより求められる。
一方、メモリ30内の音声波形をT秒ずつずらしなから
Mサンプル(1フレーム)ずつ取り出した場合における
、その部分の自己相関係数を考える。
Mサンプル(1フレーム)ずつ取り出した場合における
、その部分の自己相関係数を考える。
いま、K番回目に取り出したM個のサンプル波形値(以
下、K番目のフレームという。
下、K番目のフレームという。
)の自己相関係数をにρτとすると、それは、上述した
全音声の場合と同様に、次の(4)式で表わされる。
全音声の場合と同様に、次の(4)式で表わされる。
この式と(3)式とから、次の(5)式を求めると、そ
のにγτは、音声全体のスペクトルの逆特性を持った逆
フィルタを通ったに番目のフレームの音声の自己相関係
数となっている。
のにγτは、音声全体のスペクトルの逆特性を持った逆
フィルタを通ったに番目のフレームの音声の自己相関係
数となっている。
Kγτ−AoKρτ+ ΣAJ (Kρτ−j+にρτ
十j)・・・(5)」=1 この(5)式のにγは逆フィルタを通した音声波形の自
己相関係数であり、逆フィルタのスペクトルと入力音声
波形のスペクトルが完全に逆極性であれば、逆フィルタ
の出力波形のスペクトルは白色(無声音)となり、自己
相関係数にγは最小となる。
十j)・・・(5)」=1 この(5)式のにγは逆フィルタを通した音声波形の自
己相関係数であり、逆フィルタのスペクトルと入力音声
波形のスペクトルが完全に逆極性であれば、逆フィルタ
の出力波形のスペクトルは白色(無声音)となり、自己
相関係数にγは最小となる。
すなわち、この方法を応用すれば、2つの音声波形のス
ペクトルの合致の度合を評価することができる。
ペクトルの合致の度合を評価することができる。
この評価の方法をより具体的に説明する。
2つの音声の内、第1の音声の自己相関係数をにγ(1
)、第2の音声の自己相関係数をに′γ(2)としく第
1の音声のKと第2音声のKは時間的に線形な関係で評
価する場合には一致するが、非線形な時間軸をとるダイ
ナミックプログラミング(DP)マツチングなどでは一
致しない。
)、第2の音声の自己相関係数をに′γ(2)としく第
1の音声のKと第2音声のKは時間的に線形な関係で評
価する場合には一致するが、非線形な時間軸をとるダイ
ナミックプログラミング(DP)マツチングなどでは一
致しない。
)、同様に、それより得られる逆スペクトル係数をKA
(1)、 K’A(2)とすると、2つの音声のKとに
′番目のフレーム間の類似度dは次の(6)式で表現さ
れる。
(1)、 K’A(2)とすると、2つの音声のKとに
′番目のフレーム間の類似度dは次の(6)式で表現さ
れる。
dの値が小さいほど2つの音声のスペクトルは類似する
ことになる。
ことになる。
2つの音声波形のスペクトルが完全に一致すると、(6
)式の第1項と第2項の各々の分母、分子が等しくなり
、d−2となる。
)式の第1項と第2項の各々の分母、分子が等しくなり
、d−2となる。
一般には、両者は一致しないから、不一致の場合は、分
子の方が分母より大きくなって、dの値は大きくなる。
子の方が分母より大きくなって、dの値は大きくなる。
上述した手法を用いる場合は、逆フィルタを波形領域で
実行しなくても、自己相関係数の形で得るようにしても
よいことが解る。
実行しなくても、自己相関係数の形で得るようにしても
よいことが解る。
この場合、処理の途中で線形予測パラメータの一種であ
る線形予測係数(回帰係数とも呼ばれている。
る線形予測係数(回帰係数とも呼ばれている。
)Kαを得て処理しており、この係数にαの値が充分安
定であることが必要なことは言うまでもない。
定であることが必要なことは言うまでもない。
特に、間接的に逆フィルタを通した結果を自己相関係数
にγの形で得るため、その安定性から受ける影響は大き
い。
にγの形で得るため、その安定性から受ける影響は大き
い。
Kγ。
は0次の自己相関係数であり、逆フィルタの出力波形の
パワースペクトルを表わしているので、得られた線形予
測係数にαが不安定であると、物理的にあり得ない負の
値を取ることもある。
パワースペクトルを表わしているので、得られた線形予
測係数にαが不安定であると、物理的にあり得ない負の
値を取ることもある。
この場合でも、上述した処理を施すことによって非常に
安定な係数にαが得られ、結果として、非常に優れた認
識結果が得られる。
安定な係数にαが得られ、結果として、非常に優れた認
識結果が得られる。
上述したような、逆スペクトルパラメータを経た出力波
形(残差波形)の残差相関を利用した評価法では、スペ
クトル全体の合致の度合いを評価しているため、第1図
の例のように、偏自己相関係数の一致の度合いの総合で
評価するより安定である。
形(残差波形)の残差相関を利用した評価法では、スペ
クトル全体の合致の度合いを評価しているため、第1図
の例のように、偏自己相関係数の一致の度合いの総合で
評価するより安定である。
なぜなら、偏自己相関係数を求めるための演算精度の影
響などが個々の係数に表われ、全体としての誤差は小さ
いが、個々の係数では誤差が大きく表われる場合がある
からである。
響などが個々の係数に表われ、全体としての誤差は小さ
いが、個々の係数では誤差が大きく表われる場合がある
からである。
上述した処理を第8図の装置で実現する場合、ランダム
アクセスメモリ30に記憶された音声波形を1フレーム
ずつ順次取り出し、データバス31を介して演算ユニッ
ト32に送り、制御部33からの指令に従って、掛算器
34とともに次の演算を行わせる。
アクセスメモリ30に記憶された音声波形を1フレーム
ずつ順次取り出し、データバス31を介して演算ユニッ
ト32に送り、制御部33からの指令に従って、掛算器
34とともに次の演算を行わせる。
まず、(4)式に従って、自己相関係数にρを求め、こ
の係数を利用して、(2)式に従って線形予測係数にα
を求める。
の係数を利用して、(2)式に従って線形予測係数にα
を求める。
次1こ、この線形予測係数にαを利用して(3)式に従
って逆スペクトルパラメータKAを算出し、それから、
(5)式に従って逆フィルタを通した音声波形の自己相
関係数にγを求める。
って逆スペクトルパラメータKAを算出し、それから、
(5)式に従って逆フィルタを通した音声波形の自己相
関係数にγを求める。
さらに、標準パラメータメモリ36に格納されている標
準パラメータに’A 、 K’γを順次読み出して、そ
れと上述したように求められたKA、にγとによって、
(6)式に従って類似度dを求め、その類似度の大小に
よって音声認識処理を行う。
準パラメータに’A 、 K’γを順次読み出して、そ
れと上述したように求められたKA、にγとによって、
(6)式に従って類似度dを求め、その類似度の大小に
よって音声認識処理を行う。
上述した本発明の実施例の効果を、電話音声を対象にし
た話者照合の例について述べる。
た話者照合の例について述べる。
この例では、異なる2個所の市外局から市外回線を経て
第3の個所で記録した音声を用いて評価した結果であっ
て、第7図に示す認識部を用いて、偏自己相関係数の特
徴パラメータで認識した場合、第・1図の従来の認識方
法によれば、話者照合率(本人の音声を他人と見なして
誤って拒否する率と、他人の音声を誤って本人と見なし
て受付ける率が等しくなる:よう判定域値を定め、その
値により判定した時の正答率をいう。
第3の個所で記録した音声を用いて評価した結果であっ
て、第7図に示す認識部を用いて、偏自己相関係数の特
徴パラメータで認識した場合、第・1図の従来の認識方
法によれば、話者照合率(本人の音声を他人と見なして
誤って拒否する率と、他人の音声を誤って本人と見なし
て受付ける率が等しくなる:よう判定域値を定め、その
値により判定した時の正答率をいう。
)は65饅程度であるが、第3図の本発明による認識で
は、話者照合率は78饅に改善されている。
は、話者照合率は78饅に改善されている。
また、第8図の認識部を用い、残差相関を照合に利用し
た場合、第1図の従来の認識では話者照合率は75%程
度であるが、第3図の本発明の認識では約90俤の照合
率が得られた。
た場合、第1図の従来の認識では話者照合率は75%程
度であるが、第3図の本発明の認識では約90俤の照合
率が得られた。
話者照合では、本来、その照合率が、音韻認識とは基本
的に異なり、100%可能である保証は全くなく、雑音
と回線歪みのない理想的条件でも95%程度であること
を考えると、上述した90%の照合率は画期的である。
的に異なり、100%可能である保証は全くなく、雑音
と回線歪みのない理想的条件でも95%程度であること
を考えると、上述した90%の照合率は画期的である。
なお、前処理を施した音声波形の認識部としては、上述
した例に限らず、種々の公知の認識手段が使用できるこ
とは言うまでもない。
した例に限らず、種々の公知の認識手段が使用できるこ
とは言うまでもない。
また、第3図のフーリエ変換装置、帯域選択回路、逆フ
ーリエ変換装置の代りに、マイクロコンピュータなどを
使用し、上述した装置の動作をプログラムで実行させる
ようにしてもよい。
ーリエ変換装置の代りに、マイクロコンピュータなどを
使用し、上述した装置の動作をプログラムで実行させる
ようにしてもよい。
さらに、サンプリング周波数、電話帯域などは上述した
例の値に限らず、任意の値をとり得る。
例の値に限らず、任意の値をとり得る。
以上述べたように、本発明によれば、逆フィルタの安定
性を増加させ、帯域内の音声情報の劣化を防止し、かつ
、帯域外の雑音の影響を受けないようにできるので、充
分に高い確度で音声認識を行うことができる。
性を増加させ、帯域内の音声情報の劣化を防止し、かつ
、帯域外の雑音の影響を受けないようにできるので、充
分に高い確度で音声認識を行うことができる。
第1図は従来の音声認識装置の構成図、第2図は第1図
の各部のスペクトルおよび特性を示す図、第3図は本発
明による前処理方法を実現する音声認識装置の一実施例
の構成図、第4図は第3図の各部のスペクトルおよび特
性を示す図、第5図は第3図の前処理装置部分の具体的
構成の一例を示す構成図、第6図は第5図の一部の具体
的構成の一例を示す構成図、第7図および第8図はそれ
ぞれ第3図の認識部の具体的構成の一例を示す構成図で
ある。 1・・・・・・電話系、3・・・・・・A−D変換器、
4・・・・・・分析器、5・・・・・・逆フィルタ、7
・・・・・・フーリエ変換装置、8・・・・・・帯域選
択回路、9・・・・・・逆フーリエ変換装置。
の各部のスペクトルおよび特性を示す図、第3図は本発
明による前処理方法を実現する音声認識装置の一実施例
の構成図、第4図は第3図の各部のスペクトルおよび特
性を示す図、第5図は第3図の前処理装置部分の具体的
構成の一例を示す構成図、第6図は第5図の一部の具体
的構成の一例を示す構成図、第7図および第8図はそれ
ぞれ第3図の認識部の具体的構成の一例を示す構成図で
ある。 1・・・・・・電話系、3・・・・・・A−D変換器、
4・・・・・・分析器、5・・・・・・逆フィルタ、7
・・・・・・フーリエ変換装置、8・・・・・・帯域選
択回路、9・・・・・・逆フーリエ変換装置。
Claims (1)
- 【特許請求の範囲】 1 ある伝送帯域を有する伝送系を通して入力される音
声波形を分析して所定パラメータを得、このパラメータ
の逆特性を有する逆フィルタに上記音声波形を通した後
、音声波形の認識処理を行う音声認識装置において、上
記音声波形をフーリエ変換して周波数スペクトルを得、
該スペクトルから上記伝送帯域内のスペクトルのみを抽
出して逆フーリエ変換し、その変換結果をスペクトル分
析するとともに、上記逆フィルタに通すようにしたこと
を特徴とする前処理方法。 2 前記伝送系の帯域中のは72n”川(nは正の整数
)倍をサンプリング周波数として、前記音声波形をディ
ジタル信号に変換した後フーリエ変換することを特徴と
する特許請求の範囲第1項記載の音声認識装置における
前処理方法。 3 前記分析パラメータとして偏自己相関係数を使用し
たことを特徴とする特許請求の範囲第1項記載の前処理
方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP53055556A JPS5850360B2 (ja) | 1978-05-12 | 1978-05-12 | 音声認識装置における前処理方法 |
US06/037,026 US4283601A (en) | 1978-05-12 | 1979-05-08 | Preprocessing method and device for speech recognition device |
DE2919085A DE2919085C2 (de) | 1978-05-12 | 1979-05-11 | Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung |
GB7916488A GB2022896B (en) | 1978-05-12 | 1979-05-11 | Preprocessing a speech signal for a speech recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP53055556A JPS5850360B2 (ja) | 1978-05-12 | 1978-05-12 | 音声認識装置における前処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS54147708A JPS54147708A (en) | 1979-11-19 |
JPS5850360B2 true JPS5850360B2 (ja) | 1983-11-10 |
Family
ID=13001966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP53055556A Expired JPS5850360B2 (ja) | 1978-05-12 | 1978-05-12 | 音声認識装置における前処理方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US4283601A (ja) |
JP (1) | JPS5850360B2 (ja) |
DE (1) | DE2919085C2 (ja) |
GB (1) | GB2022896B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6458874A (en) * | 1987-08-28 | 1989-03-06 | Kitz Corp | Ball valve |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4397006A (en) * | 1980-12-31 | 1983-08-02 | Mobil Oil Corporation | Cross trace coherent noise filtering for seismograms |
CA1171945A (en) * | 1981-04-16 | 1984-07-31 | Mitel Corporation | Voice recognizing telephone call denial system |
JPS58145998A (ja) * | 1982-02-25 | 1983-08-31 | ソニー株式会社 | 音声過渡点検出方法 |
DE3216871A1 (de) * | 1982-05-03 | 1983-11-03 | Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin | Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem |
US4451700A (en) * | 1982-08-27 | 1984-05-29 | M. A. Kempner, Inc. | Automatic audience survey system |
US4991217A (en) * | 1984-11-30 | 1991-02-05 | Ibm Corporation | Dual processor speech recognition system with dedicated data acquisition bus |
US4790016A (en) * | 1985-11-14 | 1988-12-06 | Gte Laboratories Incorporated | Adaptive method and apparatus for coding speech |
US4628529A (en) * | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
US4630304A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic background noise estimator for a noise suppression system |
JPH01118900A (ja) * | 1987-11-01 | 1989-05-11 | Ricoh Co Ltd | 雑音抑圧装置 |
IL84948A0 (en) * | 1987-12-25 | 1988-06-30 | D S P Group Israel Ltd | Noise reduction system |
US5276765A (en) * | 1988-03-11 | 1994-01-04 | British Telecommunications Public Limited Company | Voice activity detection |
IN184794B (ja) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
FR2722631B1 (fr) * | 1994-07-13 | 1996-09-20 | France Telecom Etablissement P | Procede et systeme de filtrage adaptatif par egalisation aveugle d'un signal telephonique numerique et leurs applications |
JP3452443B2 (ja) * | 1996-03-25 | 2003-09-29 | 三菱電機株式会社 | 騒音下音声認識装置及び騒音下音声認識方法 |
EP0954854A4 (en) * | 1996-11-22 | 2000-07-19 | T Netix Inc | PARTIAL VALUE-BASED SPEAKER VERIFICATION BY UNIFYING DIFFERENT CLASSIFIERS USING CHANNEL, ASSOCIATION, MODEL AND THRESHOLD ADAPTATION |
JP4279357B2 (ja) * | 1997-04-16 | 2009-06-17 | エマ ミックスト シグナル シー・ブイ | 特に補聴器における雑音を低減する装置および方法 |
US6003000A (en) * | 1997-04-29 | 1999-12-14 | Meta-C Corporation | Method and system for speech processing with greatly reduced harmonic and intermodulation distortion |
EP0945852A1 (en) * | 1998-03-25 | 1999-09-29 | BRITISH TELECOMMUNICATIONS public limited company | Speech synthesis |
US6912496B1 (en) * | 1999-10-26 | 2005-06-28 | Silicon Automation Systems | Preprocessing modules for quality enhancement of MBE coders and decoders for signals having transmission path characteristics |
GB2355834A (en) | 1999-10-29 | 2001-05-02 | Nokia Mobile Phones Ltd | Speech recognition |
GB0023498D0 (en) * | 2000-09-26 | 2000-11-08 | Domain Dynamics Ltd | Spectral reconfiguration permutation and mapping |
DE10116358A1 (de) * | 2001-04-02 | 2002-11-07 | Micronas Gmbh | Vorrichtung und Verfahren zur Erfassung und Unterdrückung von Störungen |
US6751564B2 (en) | 2002-05-28 | 2004-06-15 | David I. Dunthorn | Waveform analysis |
WO2005034395A2 (en) * | 2003-09-17 | 2005-04-14 | Nielsen Media Research, Inc. | Methods and apparatus to operate an audience metering device with voice commands |
WO2007070789A2 (en) * | 2005-12-12 | 2007-06-21 | Nielsen Media Research, Inc. | Systems and methods to wirelessly meter audio/visual devices |
US9015740B2 (en) | 2005-12-12 | 2015-04-21 | The Nielsen Company (Us), Llc | Systems and methods to wirelessly meter audio/visual devices |
US9124769B2 (en) | 2008-10-31 | 2015-09-01 | The Nielsen Company (Us), Llc | Methods and apparatus to verify presentation of media content |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4032710A (en) * | 1975-03-10 | 1977-06-28 | Threshold Technology, Inc. | Word boundary detector for speech recognition equipment |
JPS5272504A (en) * | 1975-12-15 | 1977-06-17 | Fuji Xerox Co Ltd | Device for recognizing word audio |
-
1978
- 1978-05-12 JP JP53055556A patent/JPS5850360B2/ja not_active Expired
-
1979
- 1979-05-08 US US06/037,026 patent/US4283601A/en not_active Expired - Lifetime
- 1979-05-11 DE DE2919085A patent/DE2919085C2/de not_active Expired
- 1979-05-11 GB GB7916488A patent/GB2022896B/en not_active Expired
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6458874A (en) * | 1987-08-28 | 1989-03-06 | Kitz Corp | Ball valve |
Also Published As
Publication number | Publication date |
---|---|
GB2022896A (en) | 1979-12-19 |
DE2919085A1 (de) | 1979-11-15 |
JPS54147708A (en) | 1979-11-19 |
US4283601A (en) | 1981-08-11 |
GB2022896B (en) | 1982-09-08 |
DE2919085C2 (de) | 1983-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS5850360B2 (ja) | 音声認識装置における前処理方法 | |
US4864620A (en) | Method for performing time-scale modification of speech information or speech signals | |
JP3423906B2 (ja) | 音声の動作特性検出装置および検出方法 | |
US20180233120A1 (en) | Method and a system for decomposition of acoustic signal into sound objects, a sound object and its use | |
US7508948B2 (en) | Reverberation removal | |
JP4350690B2 (ja) | 音声品質向上方法及び装置 | |
Kopec et al. | Speech analysis homomorphic prediction | |
WO1998043237A1 (en) | Recognition system | |
JP4050350B2 (ja) | 音声認識をする方法とシステム | |
Deepak et al. | Epoch extraction using zero band filtering from speech signal | |
CN111883154B (zh) | 回声消除方法及装置、计算机可读的存储介质、电子装置 | |
JPH05108099A (ja) | 音声認識用回路装置 | |
Keerthana et al. | CWT-based approach for epoch extraction from telephone quality speech | |
Gangamohan et al. | A Robust and Alternative Approach to Zero Frequency Filtering Method for Epoch Extraction. | |
JPS6356560B2 (ja) | ||
JP3270866B2 (ja) | 雑音除去方法および雑音除去装置 | |
JP4166405B2 (ja) | 駆動信号分析装置 | |
Dasgupta et al. | Detection of Glottal Excitation Epochs in Speech Signal Using Hilbert Envelope. | |
JP4537821B2 (ja) | オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 | |
JPH10190470A (ja) | 周波数荷重評価関数に基づくスペクトル特徴パラメータ抽出装置 | |
JPH0318720B2 (ja) | ||
Govind et al. | Improved epoch extraction from speech signals using wavelet synchrosqueezed transform | |
JP2003316380A (ja) | 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム | |
JP2880683B2 (ja) | 雑音抑制装置 | |
JP4313740B2 (ja) | 残響除去方法、プログラムおよび記録媒体 |