JP4566493B2 - 信号分析方法及び装置 - Google Patents
信号分析方法及び装置 Download PDFInfo
- Publication number
- JP4566493B2 JP4566493B2 JP2001535156A JP2001535156A JP4566493B2 JP 4566493 B2 JP4566493 B2 JP 4566493B2 JP 2001535156 A JP2001535156 A JP 2001535156A JP 2001535156 A JP2001535156 A JP 2001535156A JP 4566493 B2 JP4566493 B2 JP 4566493B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- basement membrane
- segment
- time
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title description 2
- 238000000034 method Methods 0.000 claims abstract description 140
- 238000001914 filtration Methods 0.000 claims abstract description 27
- 230000002441 reversible effect Effects 0.000 claims abstract description 4
- 238000013144 data compression Methods 0.000 claims abstract description 3
- 210000002469 basement membrane Anatomy 0.000 claims description 160
- 230000000737 periodic effect Effects 0.000 claims description 81
- 238000010586 diagram Methods 0.000 claims description 53
- 230000004044 response Effects 0.000 claims description 48
- 238000004422 calculation algorithm Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 38
- 230000005284 excitation Effects 0.000 claims description 22
- 238000001228 spectrum Methods 0.000 claims description 22
- 210000003477 cochlea Anatomy 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000015572 biosynthetic process Effects 0.000 claims description 15
- 230000000873 masking effect Effects 0.000 claims description 15
- 230000001419 dependent effect Effects 0.000 claims description 14
- 230000010354 integration Effects 0.000 claims description 14
- 238000012937 correction Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 9
- 230000001427 coherent effect Effects 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 8
- 238000003786 synthesis reaction Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 6
- 230000001537 neural effect Effects 0.000 claims description 6
- 230000006872 improvement Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000003362 replicative effect Effects 0.000 claims 3
- 238000004590 computer program Methods 0.000 claims 2
- 238000013500 data storage Methods 0.000 claims 1
- 230000010076 replication Effects 0.000 claims 1
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 18
- 210000000721 basilar membrane Anatomy 0.000 abstract description 2
- 230000001976 improved effect Effects 0.000 abstract description 2
- 239000011295 pitch Substances 0.000 description 76
- 230000000875 corresponding effect Effects 0.000 description 43
- 230000000694 effects Effects 0.000 description 32
- 238000009826 distribution Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 25
- 230000002829 reductive effect Effects 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 10
- 230000002123 temporal effect Effects 0.000 description 10
- 230000009471 action Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 8
- 238000010606 normalization Methods 0.000 description 8
- 238000007792 addition Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 6
- 230000001052 transient effect Effects 0.000 description 6
- 238000006073 displacement reaction Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 210000003027 ear inner Anatomy 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 210000002768 hair cell Anatomy 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000010355 oscillation Effects 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000011179 visual inspection Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 241000237858 Gastropoda Species 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 230000001010 compromised effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000000708 deep reactive-ion etching Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000220010 Rhode Species 0.000 description 1
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 238000004833 X-ray photoelectron spectroscopy Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000036982 action potential Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 210000003050 axon Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 210000000133 brain stem Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- WOWHHFRSBJGXCM-UHFFFAOYSA-M cetyltrimethylammonium chloride Chemical compound [Cl-].CCCCCCCCCCCCCCCC[N+](C)(C)C WOWHHFRSBJGXCM-UHFFFAOYSA-M 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000000860 cochlear nerve Anatomy 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 210000001983 hard palate Anatomy 0.000 description 1
- 201000000615 hard palate cancer Diseases 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000004379 membrane Anatomy 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 239000011306 natural pitch Substances 0.000 description 1
- 238000005312 nonlinear dynamic Methods 0.000 description 1
- 210000002985 organ of corti Anatomy 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 210000005182 tip of the tongue Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R23/00—Arrangements for measuring frequencies; Arrangements for analysing frequency spectra
- G01R23/16—Spectrum analysis; Fourier analysis
- G01R23/175—Spectrum analysis; Fourier analysis by delay means, e.g. tapped delay lines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Analysing Materials By The Use Of Radiation (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Complex Calculations (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
【技術分野】
本発明は、請求項1の前文に記載の周波数特性を推定するための装置に係る。更に、本発明は、請求項7の前文に記載の信号のスペクトルを推定する装置にも係る。更に、本発明は、このような装置及び装置の機能を遂行するための方法を含む信号認識システム、データ圧縮システム、及び信号改善システム装置にも係る。
【0002】
【背景技術】
上記装置は、ESCA Eurospeech 97,Rhodes,Greece,ISSN 1018-4074の第2859−2862ページに掲載されたT.アンドリンガ著の「Using an Auditory Model and Leaky Autocorrelators to Tune In to Speech」と題する論文から知られている。このアンドリンガ著の1997年の論文から基底膜の作用原理を模擬する聴覚モデルを使用することが知られている。このモデルのセグメントの出力は、特定の固定の周期に同調された1組の漏洩性自己相関ユニットの入力として使用される。従って、セグメント番号の関数としての応答性自己相関ユニットのアクティビティは、検出されるべき周期的信号のスペクトルに対する直接的な尺度となる。
【0003】
この公知の文献に記載された装置では、基本的周期が既知であり且つ一定である信号のエネルギースペクトルを再構成することができる。しかしながら、既知の装置は、周期が未知であるか又は一定でないか或いはその両方であるときにはエネルギースペクトルの正しい及び/又は最適な再構成を与えないという問題が生じる。本発明の目的は、音声信号の周期が未知であり及び/又は一定でないときに、信号の正しい再構成を行えるようにする装置を提供することである。
【0004】
【発明の開示】
この目的に対する本発明の第1の特徴において、本発明は、請求項1に記載の装置を提供する。この目的に対する本発明の第2の特徴において、本発明は、請求項8に記載の装置を提供する。
【0005】
本発明の特に効果的な構成は、従属請求項に記載する。本発明の更に別の目的、構成、変形、作用及び細部は、添付図面を参照した以下の詳細な説明から明らかとなろう。
【0006】
【発明を実施するための最良の形態】
以下、信号におけるスピーチの認識について本発明を説明する。本発明は、スピーチ認識の分野に効果的に適用できるが、本発明は、一般に、信号処理に適用され、そして音響信号やスピーチを含む信号の処理に何ら限定されるものではない。更に、この方法の次々の段階を互いに対話式に説明するが、これらステップは、以下に説明するように、異なる方法にも適用できる。
【0007】
本明細書では、単一ソースの全推定可能な又は決定可能な情報を理想的に表わす表示として聴覚事象が定義される。多数の信号処理方法及び装置に対し、このような表示にできるだけ接近することが重要である。
【0008】
このような表示に接近することが意図された既知の(スピーチ)信号処理方法のほとんどは、「擬似静止仮定」をベースとしている。これは、振幅や周波数内容といった信号の幾つかの特徴を、短い周期(スピーチの場合、ほぼ10msの値が通常選択される)にわたって一定であると仮定できるプロセスから発生するものとしてモデリングすることができる。この仮定に対する根本的理由は、信号即ちスピーチが無限に速く変化し得ない物理的システムによって発生されることである。
【0009】
これは、本発明において広範囲に使用される非常に合理的な仮定である。しかしながら、この仮定は、専ら、単一ソースの信号に対してのみ有効である。信号が2つのソースによって発生される場合には、それが、単一ソースの予想可能なものよりも非常に迅速に且つ確実に異なる仕方で変化する。従って、単一ソースの場合に有効な擬似静止の形態は、混合ソースには適用できない。任意の未知の環境では、状態が一層悪化する。というのは、擬似静止が決して有用な近似ではないところの信号作用が生じ得るからである。それでも、擬似静止が適用される場合には、誘起される近似エラーが合成信号を回復不能なほど劣化させ、それ故、信号の正しい記述及び/又は正しい認識結果に到達する確率を低下させる。
【0010】
擬似静止は、信号をフレームへブロック化し、そして一連の連続するフレームが、時間に伴う信号の周波数内容の充分な記述を与えると仮定することにより、しばしば実施される。フレームの巾(又はウインドウの有効巾)が周波数分解能に逆比例するので、時間分解能と周波数分解能との間の妥協が導入される。周波数の詳細及び時間の詳細の両方が重要である信号は、フレームベースの解決策では最適に処理することができない。時間に伴う情報の組合せが、重要な問題となる。フレームの使用は不連続性を導入し、その下に横たわる信号成分の連続性を決定することを困難にする。これは、次いで、単一ソースの信号情報を単一表示に指定するのを益々困難にする。非長方形ウインドウ及び破棄段階の使用(ウインドウ処理された信号内の時間情報)は、この問題をより一層悪化させる。
【0011】
これは、非常に多数の信号処理技術及び実際には全てのスピーチ信号処理技術が任意の信号に使用するのに不適ということになる。より詳細には、短時間フーリエ変換(STFT)、直線的予想(LP)、及びフレームベースのフィルタバンク方法に類似した技術は、任意信号に対して使用してはならない。それでも、これらの技術は、これらの信号に適用されているが、大きな成功を収めることはほとんどないか、又は非常に狭い適応範囲においてのみ成功を収めている。
【0012】
適切なサンプリング時間を伴う擬似静止は、単一ソースの信号作用にしか安全に適用できない。(音響)ソースの未知の混合に対しては、もっと適当な形態の信号処理が必要とされる。本発明の目的は、このようなシステムを提供することである。
【0013】
それ故、ソースの規則性をできるだけ良好に利用するシステムが提供される。不都合にも、ソースはまだ分類されていないのでソースの規則性は未知である。この場合に、システムは、最も弱い考えられる公知の知識しか仮定できない。しかし、いかなる(音響)ソースも、オンセット、任意の連続的な展開、及びオフセットを示す。従って、インパルス状でない全ての(音響)ソースは、連続的に展開する部分を有する。
【0014】
スピーチ、ほとんどの種類の音楽、及び多数の他の信号の場合には、連続的な展開がほとんどの時間にわたって卓越している。スピーチの場合には、/t/、/k/又は/p/のような幾つかの破裂音のみに対して、連続的な展開が存在しないと主張されてもよい。他方、「Why I owe you an hour?」のような発声は、完全な発声が単一の連続した総体を形成するように発音することができる。
【0015】
周波数及び振幅の連続性は、多数の音響ソースにより共有される良好に定義された信号特性である。それ故、このような連続性は、信号から正当化できるとすれば、信号の形式についてそれ以上の知識を伴わず利用することができる。それ故、信号成分の連続性は、聴覚事象に対して個々の音響ソースの音響兆候を指定する上で助けとなるよう非常に良く適している。信号成分が連続的な展開を示す限り、それはおそらく信号ソースから生じる。これは非常に安全な結論である。というのは、非相関ソースが、互いに円滑に適合する信号成分を招く確率が低いからである。更に、基本的な周波数輪郭のような信号特性も連続的であり、異なる信号成分を一緒にグループ編成するのを助けることができ、即ち単一の擬似周期性音響ソースの全高調波は、基本的周波数の整数倍に保たれる。ある基本的周波数輪郭に一致する周波数輪郭は、おそらく同一のソースに属するか、又は音楽の場合にしばしばそうであるように、相関する時間的展開を伴う多数のソースに属する。
【0016】
従って、信号成分の連続性は、単一ソースの情報を単一表示に指定するための最も信頼性のあるキューの1つを形成する。このプロセスは完全でないが、時間及び周波数を経ての連続性は、保存されねばならない。
【0017】
上記の制約を満足する本発明により単一ソースの情報を単一表示に指定する例示的方法のフローチャートが図1.9に示されている。
【0018】
最初に、基底膜のセグメントのBM信号が、ステップIにおいて、基底膜モデル装置から発生される。このBM信号は、基底膜の入力に印加される信号をベースとする。このステップは、「BMモデル」という表題のセクションで詳細に説明する。
【0019】
第2に、ステップIIにおいて、各セグメントを励起するための尺度を与えるためにBM信号が積分される。セグメントx時間x励起尺度の三次元マトリクスをこの積分に基づいて形成することができる。このマトリクスの視覚表示を蝸牛図(cochleogram)と称する。このステップは、「蝸牛図」という表題のセクションで詳細に説明する。
【0020】
第3に、ステップIIIにおいて、三次元マトリクスにより与えられた情報に基づき、隆起と称する個々の信号成分がマトリクスにおいて推定される。これら個々の成分は、瞬時周波数輪郭を推定することのできるセグメント−時間領域である。このステップは、「隆起の推定」という表題のセクションで詳細に説明する。
【0021】
第4に、ステップIVにおいて、輪郭の周期性の尺度を与える隆起のもとでの自己相関が遂行される。このステップは、「隆起のもとでの連続的自己相関」という表題のセクションで詳細に説明する。
【0022】
第5に、ステップVにおいて、基本的周期輪郭の展開の各瞬間に対するローカル周波数を決定するために自己相関値が分析される。このローカル周波数は、セグメント及び時間においてローカルである。このステップは、「ローカル瞬時周波数輪郭」という表題のセクションで詳細に説明する。
【0023】
第6に、ステップVIにおいて、信号のピッチを推定するためにローカル周波数が使用される。正式には、ピッチ及び基本的周波数という用語は交換可能ではないが、最初のものが(物理的に測定可能な)最後のものの(主観的な)理解を参照して、これらの用語を本明細書全体にわたり交換可能に使用する。このステップは、「基本的周期輪郭推定」という表題のセクションで詳細に説明する。
【0024】
第7に、ステップVIIにおいて、BMモデルのセグメントの励起を相関する方法を適用する。非相関励起が同じ信号に属することはあり得ないので、全ての相関信号成分を取り出すことにより、信号が近似される。このステップは、「同調自己相関」という表題のセクションで詳細に説明する。
【0025】
第8に、ステップVIIIにおいて、どの基底膜セグメントが、セグメント自身の特性周波数に対応する周期性を示すか決定するための方法が適用される。これは、励起と、セグメントの最良周期に基づいてシフトされた励起との間の相関により実行される。このステップで決定される情報は、周期性と、ノイズバースト及びオンセットのような非周期的信号作用の両方を推定するのに使用できる。このステップは、「特性周期相関」という表題のセクションで詳細に説明する。
【0026】
第9に、ステップIXにおいて、オンセット検出装置が適用される。このステップは、特性周期相関装置又は蝸牛図の出力における急激な変化をサーチすることによりオンセット及びオフセットを検出する。このステップは、「オンセット検出」という表題のセクションにおいて詳細に説明する。
【0027】
第10に、ステップXにおいて、マスク形成方法が適用される。このマスキング装置は、この段階で得られる情報を使用して、おそらくターゲットソースから発生するであろう領域を時間的及び場所的にマークする。このステップは、「マスク形成」という表題のセクションにおいて詳細に説明する。
【0028】
第11に、ステップXIにおいて、逆基底膜フィルタリング装置が適用される。このステップは、マスキング装置により識別された領域を使用して基底膜の励起をフィルタリングし、マスクの下の信号情報を表わす再合成信号に到達する。このステップは、「逆基底膜フィルタリング」という表題のセクションで詳細に説明する。
【0029】
第12に、ステップXIIにおいて、蝸牛図装置の再構成が適用される。このステップは、信号から推定されそしてマスクにより表わされた情報を使用して、個々の信号成分を測定し、そして個々の信号成分を加算することにより信号を再構成する。このステップは、「蝸牛図装置の再構成」という表題のセクションで詳細に説明する。
【0030】
第13に、ステップXIIIにおいて、再構成された蝸牛図にパラメータ化装置を適用することができる。このステップは、確認装置の入力として適当な情報を与える。このステップは、「パラメータ化」という表題のセクションで詳細に説明する。
【0031】
BMモデル
本発明による方法は、BM信号の発生でスタートする。聴覚系では、音響即ち圧力変動から神経情報への変換が、図2.1に概略的に示す「基底膜(basilar membrane)」と称する構造体の周りで実行される。この基底膜は、伝送ラインの物理学により説明できるコヒレントな物理的構造体である。伝送ラインは、時間及び場所の両方が連続している構造体であり、基底膜の場合に、場所は周波数に対応する。というのは、膜上の各場所は、それ自身の特性周波数を有するからである。従って、基底膜は、音響振動を神経情報に変換し、時間及び周波数(場所への対応性を経て)の連続性が更なる処理に対して保存されるようにする。
【0032】
図2.1は、基底膜1の本質的な特徴を非常に概略的に示す。基底膜は、約1cm3の蝸牛殻、即ちかたつむりの家状の構造体に配置された長さ3.5cmのコイル巻き構造体2である。かたつむりの家の開口付近の基底膜の側は、約20kHzの周波数に最も敏感であり、蝸牛殻の更に内側では、各位置が最も敏感な周波数が、(ほぼ)対数的な場所−周波数関係に基づき20Hzまで減少する。それ故、基底膜の周波数レンジは、3桁の大きさ又は約10オクターブである。基底膜に沿って均一に分布した約3000の有毛細胞が、局部的な振動を等級付けされたポテンシャルに変換し、これらのポテンシャルは、次いで、アクションポテンシャルとしてコード化され、そして30000のニューロンにより脳幹へ伝送される。これらニューロンの軸索が聴覚神経を形成する。
【0033】
ここに例示する装置では、基底膜の一次元伝送ラインモデルが使用され、これは、次のものから知られている。Duifhuis, H., Hoogstraten, H. W., van Netten, S. M., Diependaal, R. J., and Bialek, W. (1985)。"Modelling the cochlear partition with coupled Van der Pol oscillators", in: Peripheral Auditory Mechanism, eds. J. B. Allen, J. L. Hall, A. E. Hubbard, S. T. Neely and A. Tubis (Springer, New York) pp. 290-297。このモデルの最も関連のある特性は、時間及び場所の両方の連続性と、1対1の場所−周波数関係である。これに伴い、基底膜モデルは、物理的に結合されたフィルタを有するフィルタバンクとして解釈することができ、隣接するフィルタは、全てのポイントにおいて時間的に同様の変位を示す。しかしながら、基底膜(BM)モデルは、哺乳動物の聴覚系の部分に類似しているが、本発明は、哺乳動物の聴覚系のこのような類似性をもつ伝送ラインモデルに限定されるものではない。明瞭化のために、本明細書では、「BMモデル」という用語は、蝸牛殻と同様の機能を有する非均一伝送ラインに対して使用される。
【0034】
例えば、実際の基底膜と同様に非直線的である既知の基底膜モデルのような異なる基底膜モデルを適用することができる。本発明のこの実施形態では、このモデルの好都合にも直線的なバージョンが使用される。非直線的なモデルは、良好な性能を有するとしばしば考えられるが、人間の聴覚系により厳密に類似しているので、満足する性能で直線的モデルを実施できることが分かった。BMモデル装置のこの直線的バージョンは、あまり処理を必要とせず、設計及び実施が簡単である。
【0035】
この直線性は、重畳及び加算フィルタバンクとして効率的に実施することができ、そして「信号の混合をいかに分離するか」という中心的な問題を解決する助けとなる。全ての直線性が加算性を伴った後に、これは、信号a及びbの混合物を、a及びbの両方に依存する交差項を導入せずに分割できると解釈することができる。ほとんどの非直線性システムにおいて保証することのできない交差項が存在しないと、信号分離システムの設計及び実施は簡単になり、且つあまり処理を必要としない。
【0036】
更に、既知の基底膜モデルは、400kHzの内部更新周波数を有し且つ人間の全周波数レンジに及ぶ400個のセグメントより成る。処理時間を短縮するために、更に別の実施形態では、図示されたBMモデルが、30Hzと6100Hzとの間の周波数レンジに及ぶ100個のチャンネルを有するフィルタバンクとして実施される。フィルタバンクの実施は、20kHzの入力及び出力サンプル周波数を必要とする。従って、既知のモデルに比して、計算効率の増加が達成される。
【0037】
図1.1には、内耳の基底膜の電気等価回路の一部分が示されている。この図の左側には、信号Vsoundを表わすことができ、これは、一連の400個までの相互に接続された二次フィルタによって処理され、これらは、セグメントと称される。各二次フィルタは、ある質量慣性(コイル)、スチフネス及び減衰を表わし、これは、表示された信号Vsoundにおける振動が、相互に接続された二次フィルタによりいかに迅速に減衰されるかを決定する。実際の内耳においてモデリングされるものとして、神経束への個別のセグメントのカップリングが行われ、これは、音響信号の印象を脳へ伝達する。
【0038】
ここに述べるBMモデルは、図1.9を参照して上述した方法に好都合に適用される。しかしながら、BMモデルは、BM信号を使用するものである限りいかなる信号認識システムにも好都合に適用することができる。
【0039】
蝸牛図
FFTベースのエネルギースペクトル図のような時間−周波数表示は、信号を解釈するための最も関連のある情報を表わすと考えられる。不都合なことに、これは、時間及び周波数の両方が不連続である。場所(及び間接的には周波数)が連続的であるスペクトル図状の時間−周波数表示は、各基底膜セグメントの(重畳する)フレームのエネルギーを平均化することにより計算できる。しかしながら、この手順は擬似静止を包含し、この擬似静止は、これが保持する信号として入力がまだ識別されないので回避されねばならない。
【0040】
これらの問題は、FFTスペクトル図に対し時間及び場所(周波数)の両方についての連続的な代替物を使用することによって解決される。このような代替物は、変位の漏洩性積分平方、又は基底膜セグメントの速度の平方であると分かっている。速度(変位の一次導関数である)の使用は、変位の使用より好ましい。というのは、速度を使用すると、高周波成分が増強され、これにより、低周波成分による高周波成分のマスキング作用が減少されるからである。漏洩性積分は、システムが、各時点において、その以前の状態に関する情報を失うが、現在に関して学習するプロセスを記述する。この実施形態では、次の漏洩性積分方法が選択される。
【数1】
rs(t)=rs(t−Δt)e- Δ t/ τ+xs(t)xs(t)、
s=1・・smax (1)
【0041】
この式において、rs(t)は、時間tにおけるセグメントsの漏洩性積分エネルギーの値を表わし、Δtは、サンプル周期であり、t−Δtは、以前のサンプルの時間を表わし、そしてxs(t)は、チャンネルの現在出力値である。この一次システムの時定数τは、記憶の範囲を表わす。τの値が大きい場合には、指数が1に非常に接近し、τの値が小さい場合には、指数の影響がより顕著になる。というのは、xs(t)の以前の値の作用を減少するからである。平方項xs(t)xs(t)は、負でない。それ故、rs(t)も負でない。
式1は、次のように一般化することができる。
【数2】
rs(t)=L(xs(t)) (2)
但し、関数Lは、任意の形式のローパスフィルタリングを表わす。従って、いかなる種類のローパスフィルタリングも適用できるが、漏洩性積分器の適用が特に効果的である。というのは、漏洩性積分器は、更に説明するように、人間の聴覚系の機能に類似した機能を遂行するからである。信号X(t)は、ローカルアクチベーションの尺度の任意の形式である。従って、半波整流された速度、変位又は加速度、或いはローカルアクチベーションの(負でない)尺度を与える他の形式を使用することができる。しかしながら、速度の平方を使用するのが特に効果的である。というのは、速度は、人間の聴覚系における有毛細胞の駆動力であると仮定され、この値を平方するのは、計算が簡単な演算であり、エネルギー尺度を与えるからである。
【0042】
ローパスフィルタリングの後に、信号を決定するための更に別のステップを実行することができる。例えば、蝸牛図の簡単な視覚検査を適用することができる。自動的に実行できる信号に対する信頼性の高い解決策を与えるために、更に別のステップを設けねばならない。本発明は、以下に述べるように、このようなステップを与える。しかしながら、本発明は、これらの特定の更に別のステップに限定されるものではない。
【0043】
τの値は、本明細書全体にわたり10msに保持されるが、状態に適応できる。真のニューロンは、漏洩性積分プロセスも実行し、そして10msは、聴覚系におけるニューロンの正常値である。式1の入力は、平方された基底膜速度であるが、神経生理学的に同等のものは、全て正の振幅の圧縮された半波整流された基底膜速度である。半波整流は、コルチ器における有毛細胞により遂行される。自然の系統は、3乗根(〜x0.3)としてしばしば近似されるBM運動xの動的範囲圧縮を示す。
【0044】
この動的範囲圧縮は、全ての関連特徴を同じ範囲内にもっていくために必要である。これが重要であるのは、式2に基づいて計算されるrs(t)が、スピーチのような自然信号の特性により、50dB以上の動的範囲を有するからである。式2における平方を補償するために、3乗根の作用が2倍にされそしてx0.15により近似される。
【数3】
Rs(t)=[rs(t)]0.15 (3)
この非直線的動的範囲圧縮は、視覚表示に対して排他的に使用される。全ての視覚表示は、明確に指示のない限り、この形式の圧縮を使用する。
【0045】
漏洩性積分プロセスはローパスフィルタリングプロセスであるので、出力rs(t)は、積分時定数程度のサンプリングレートへとダウンサンプリングすることができる。先鋭なオンセットを受け入れるために、5ms当り1サンプルに対応する200Hzのサンプリングレートが選択される。これは、所望の2倍の連続的時間−周波数表示としての蝸牛図に通じる。図2.2は、女性の話し手により話されたオランダ語/NUL/(英語のZERO)の蝸牛図である。このワードは、本明細書を通じて未知の信号の例として使用されるターゲットセンテンス/NUL EEN TWEE DRIE/の一部分である。サンプルは、音響信号であるが、本発明は、上述したように、スピーチ又は音響に何ら限定されるものではない。
【0046】
図2.2において、ほぼt=50ms及びf=220Hzでスタートする広い帯域は、基本周波数f0に対応する第1高調波h1である。基本周波数は、発音中に、350Hz以上の値まで上昇する。第1高調波と平行で且つそれより高い帯域は、第2高調波h2である。最も低い幾つかの高調波は、第1フォルマントF1を形成する。第2フォルマントF2は、t=120msにおいて/N/から/U/へ遷移した後に目に見えるようになり、そして/L/の間に2000Hzから数百Hzの値に下降する。フォルマント位置のこの変化に伴い、異なる高調波が、最も顕著なローカル周波数作用として互いに成功することに注意されたい。第3フォルマントF3は、/N/の間にかろうじて目に見えるが、残りの発音の間に顕著となる。高い周波数領域では、第4及びおそらくは第5のフォルマントも目に見える。
【0047】
/U/から/L/への遷移は、滑らかであり、/N/から/U/への遷移は、鼻音/N/から母音/U/への遷移により部分的に不連続である。/N/の終りに、舌の先が固い口蓋を離れ、鼻腔に加えて口腔を作用させることができる。ワードのオンセット不連続性は先鋭であり、そしてオフセットは滑らかであることに注意されたい。これは、漏洩性積分プロセスの指数関数的な減衰と、基底膜のリンギング・アウト効果とが式3の非直線性に組み合わされることによる。
【0048】
t=175msにおける蝸牛図の垂直断面が図2.3に示されている。この図は、セグメント数(上の水平軸)の関数として、又は図2.2における垂直線の下の情報に対応する対応周波数(下の軸)の関数としてエネルギー分布を表わすものである。ピークをもつ構造に注意されたい。低いセグメント数においては、ピークが、分解された高調波に対応する。高いセグメント数の場合には、個々の高調波が良好に分析されず、最終的に、フォルマントへと合体する。この振舞いは、非直線的な場所−周波数関係の直接的な作用である。多数の高調波が図示されている。最初の3つ、即ち第9、第13、第18及び第25の高調波が応答を左右する。第10ないし第12高調波は、目に見える最小の形跡しか示さないので、第4ないし第8高調波だけが分析される。これらの高調波は、他の成分により(部分的に)マスクされる。より高い高調波は分析されないが、それらは、依然としてフォルマントの形状に作用し、そして母音/U/の音色に作用する。
【0049】
セグメントのエントレインメントは、伝送ラインモデルの非常に重要な特性であり、そして基底膜が単一の連続構造体を形成することによるものである。顕著な信号成分があるセグメントを駆動するときには、セグメントがそれに沿ってその隣接セグメントを引きずり、そしてそれらが、それに沿ってその隣接セグメントを引きずり、等々となる。この作用は、場所の関数として急速に減衰する。他の信号成分の補充効果を克服することのできる信号成分のみがローカルの支配を達成し、そしてピークを形成する。エントレインメントは、マスキングと同様に、低周波数側よりも高周波側でより顕著である。
【0050】
ほとんどの図は、実験的に推定された場所−周波数関係を使用している。オリジナルのBMモデルでは、非結合セグメントの共振周波数が、グリーンウッドの場所−周波数関係に基づいて選択される。但し、xは、頂点からmmで測定される。
【数4】
fc=190・100.6x[mm]−145「Hz」
s=(400/3)・(x[mm]/3.5[mm]) (4)
セグメントインデックスsは、BMの長さと、オリジナルモデルにおけるセグメントの数と、この実施形態では3つのセグメントの1つしか実際には使用されないという事実とを使用して、xに関係付けすることができる。
【0051】
セグメント間の相互作用は、特性周波数を若干低い値にシフトする。図2.4は、グリーンウッドの場所−周波数関係を破線で示している。セグメント番号の関数としての真の特性周波数は、細い黒線で示されている。これは、常に、グリーンウッドの場所−周波数関係より下にある。セグメントの特性周波数と同様に、各周波数は、特性セグメントを有する。実際の場所−周波数関係は、単位振幅の対数的に離間されたシヌソイドの範囲に対して各セグメントの応答強度を測定することに基づいている。これにより得られるマトリクスは、その値が対数的にグレースケールコード化され、図2.4の背景を形成する。高周波数セグメントが低周波数刺激に対して応答する程度は、その逆の場合より強いことに注意されたい。
【0052】
(擬似)周期性信号は、正弦波作用の組合せより成るので、単一周波数刺激に対するBMの応答を研究するのが有用である。ある周波数に対するBMの応答をサイン応答と称する。図2.5には、多数の例が示されている。駆動周波数に関わらず、全てのBM応答は、より顕著なテールが低周波数側よりも高周波数側に向かうような同様の非対称的形態を有する。
【0053】
図2.5は、充分な数(例えば、10個)の振動及び/又は数回(例えば、5回)の積分時定数tの後にしか到達し得ない定常状態を示す。自然の信号が、この定常の仮定を完全に正当化するに充分なほどゆっくりと変化する信号成分を示すことはほとんどない。BMの低周波数側では、ピッチ及び振幅が、定常状態に到達するのに必要な50ms以上の間充分に一定であることは滅多にない。その結果、理想的なサイン応答よりも広い応答となる。BMの高周波数側では、定常状態に迅速に到達するが、自然信号のピッチがランダムに変動するために、この場合も応答が広げられる。
【0054】
積分器及びそれに対応する蝸牛図は、図1を参照して上述した方法で使用されるが、振動信号成分の場合にアクチベーションの尺度が必要とされる全ての状態において、上記手順を使用することができる。
【0055】
個々の信号成分の推定
この信号認識システムに使用されるBMモデルは直線的であるので、その応答は、駆動音響ソースの個々の成分に対する応答の加算である。擬似周期的音響ソースs(t)の場合には、入力を次のように書き表すことができる。
【数5】
【0056】
但し、an(t)は、高調波作用hn(t)の振幅である。高調波は、周期性輪郭T(t)及び位相関数fn(t)に基づく。
【0057】
この信号の蝸牛図は、式1により定義される。平方及び充分に長い積分時定数tは、ここでは考えられないある例外的な減少を除いて、位相項φn(t)の作用が消失するよう確保する。ほとんどの場合、a(t)は、式1の漏洩性積分プロセスの時定数tの値に比してゆっくりと変化する。これは、an(t)を、hn(t)の蝸牛図作用を係数<an 2(t)>でスケーリングする定数として処理できる(短いインターバルに対し)ことを意味する。<>は、漏洩性積分プロセスにより推定された時間的平均を表わす。hn(t)の蝸牛図作用は、R[hn(t)]として表わされる。ゆっくり展開するhn(t)の場合に、R[hn(t)]は、図2.4及び図2.5に与えられたサイン応答により近似することができる。
【0058】
これは、式1に基づき信号s(t)から生じる蝸牛図R(t)を次のように近似できることを意味する。
【数6】
【0059】
Rn(t)は、ローカル瞬時周波数hn(t)の時間的展開に対応する最良のセグメントの一連のサイン応答により近似された単位振幅高調波作用hn(t)の応答である。重みwn(t)は、このサイン応答のスケーリングを決定する。
【0060】
原理的に、サイン応答の重みwn(t)は未知であり、信号から推定されねばならない。図2.3において信号の個々の高調波の作用を推定するために、2つの異なる解決策が適当であると考えられる。
【0061】
本出願人により開発された第1の解決策は、低周波数側に向うマスキングを無視することによりサイン応答における非対称性を利用するものである。この場合に、図2.3の信号は、基本周波数の周波数に対応するサイン応答を最初に重み付けすることにより近似される。これは、第2高調波の位置における励起の一部分を考慮し、残余は、第2高調波に起因する。次の高調波の位置において、以前の高調波の作用が減算され、そして残余は、現在高調波に起因する。このプロセスは、高調波の周波数が最後のセグメントの特性周波数を越えるまで続けることができるが、実際には、高調波が分析されるBM領域に限定される。それ故、この方法は、第1高調波に対して特に良好に作用し、そして以下に説明するように、スペクトルの再構成に使用される。
【0062】
本出願人により開発された第2の方法は、マトリクス方程式:Rw=Eの数値解を見出すことである。この式において、Eは、ターゲット蝸牛図断面であり、Rは、個々の高調波の周波数に関連した1組のサイン応答であり、そしてwは、所望の重み値である。図2.3の信号に適用されたときには、基本周波数f0が1/4.60=217Hzである(図2.8のTNCから推定できるように)。関連高調波周波数は、nf0である。BMの最後のセグメントの特性周波数は、6100Hzであり、それ故、表現することのできる最大高調波番号は、28である。各周波数に対し、サイン応答を選択してマトリクスRに追加することができる。w=R・1E(最小平方の意味で)を解きそしてwnの負の値をゼロに設定すると、図2.0の結果を招く。
【0063】
図2.6の上部パネルは、ターゲットEを連続線で示し、そして下部パネルは、各高調波のスケーリングされた作用wnを表わす。上部パネルのドットポイントストライプ曲線は、サイン応答の重み付けされた和を与える。明らかに、一致は非常に良好であり、そして最初の3つのフォルマントの高調波内容は、確実に推定することができる。最も高い高調波の重みは、フォルマントピークの周りでしか確実に推定できない。他の位置において、高調波に関連したサイン応答は、ほぼ完全に重畳し、そして数値エラーが結果に影響を及ぼす。低い基本周波数はこの問題を一層悪化するが、BMモデルにより多くのセグメントを使用すると、問題が軽減される。
【0064】
この第2の方法は、基本周波数輪郭が既知であるときに周期的信号の高調波内容を分析するための効率的で且つ若干優雅な方法である。この技術は、信号のピッチが急速に変化するときにも機能する。この場合には、高調波のローカル瞬時周波数を反映する1組の周波数を選択することによりグループ遅延の影響を考慮することができる。更に、この修正は、正しいピッチ輪郭が与えられる場合には単純である。
【0065】
同調型自己相関
信号の原点について確実性をもたない信号の混合を分割するには、考えられる最も弱い基本的仮定の使用、即ち最も一般的な信号特性の使用を必要とする。重要な一般的特性は、信号が擬似周期的であるかどうかである。スピーチ、音楽及び多数の他の信号においては、擬似周期的信号が時間及びエネルギーの最も大きな部分を表す。完全な周期的信号は頻繁に発生しないことに注意されたい。ほとんどの自然の信号は、ソースの特性による振幅及び/又は周波数変調を示す。これは、1997年、アンドリンガにおいて提示された既知のシステムの有用性を制限した。
【0066】
音響ソースy(t)は、各高調波yi(t)に対して次のようであれば、基本的な周期輪郭を伴う擬似周期性であると定義される。
【数7】
yi(t)=yi(t+T(t)) (7)
音響ソースの高調波yi(t)が基底膜のセグメントsを随伴する場合には、セグメントの応答xs(t)も擬似周期性を示す。従って、次のようになる。
【数8】
xs(t)=xs(t+T(t)) (8)
T(t)が既知である場合には、式8を式2と組合せて、次の式が得られる。
【数9】
rs,o(t)=L(xs(t)、xs(t))
=L(xs(t+T(t))、xs(t))
=rs,T(t)(t) (9)
【0067】
これは、T(t)が正しい基本的周期輪郭であるという条件のもとで、全てのセグメントに対し音響ソースy(t)により補充される蝸牛図作用をrs,T(t)(t)が厳密に近似することを意味する。これが重要であるのは、T(t)が、音響ソースy(t)に対して独特である確率が非常に高い信号特性だからである。同調型自己相関(TAC)として1組の値rs,T(t)(t)が定義される。というのは、これが自己相関値をベースとしそして基本的周期輪郭T(t)(ひいては、基本的周波数輪郭f0(t)=1/T(t))に同調されるからである。
【0068】
式9は、正しい基本的周期輪郭に対してのみ成り立つ。ターゲットソースの輪郭に相関しない基本的周期輪郭の場合には、xs(t)及びxs(t+T)の値が相関せずそしてそれらの平均がゼロに接近する。これは、TACが、正しく推定された周期輪郭に対して蝸牛図のエネルギー尺度と同様の値を有し、そしてランダムに選択された周期輪郭又は非相関の周期輪郭に対して0に近い値を有することを意味する。
【数10】
【0069】
この特性は、特定の音響ソースの情報を聴覚事象に指定するための基礎を形成する。
【0070】
どのセグメントが擬似周期的ソースにより補充されるか知らないときには、全セグメントのTACが次の式を用いて計算される。
【数11】
rs,T(t)(t)=L(xs(t)、xs(t+Ts(t)))
=L(xs(t)、xs(t+T(t+ds))) (11)
【0071】
この式は、セグメント依存グループ遅延に対する修正を含む。直線的システムの応答時間は、グループ遅延として形式化することができる。直線的システムのグループ遅延は、セグメントsの平方インパルス応答hs(t)の重心として定義することができる。
【数12】
【0072】
グループ遅延は、周期輪郭に対応する高調波の式におけるセグメント依存時間シフトを招く。図2.7の結果は、正しいセグメント依存周期輪郭Ts(t)=T(t+ds)を使用して計算される。
【数13】
rs,T(t)(t)=rs,T(t)(t−Δt)e- Δ t/t+xs(t)xs(t+Ts(t))
s=1、・・Smax (13)
図2.7の上部パネルは、ワード/NUL/(図2.2を参照)の蝸牛図と、関連TACの正の値とを示す。下部パネルは、カクテルパーティノイズが追加されて信号対雑音比が0になったときのこの信号の蝸牛図を示す(信号及びノイズエネルギーの等価性)。右下のパネルは、関連TACを示す。上のパネルに比して、顕著な構造のほとんどが保存される。TACは、完全な500msを越えて定義されない。というのは、音響ソースが存在するときしか音響ソースの周期輪郭が定義されないからである。TAC表示の負の値は、目に見える表示においてのみゼロにセットされることに注意されたい。これは、本明細書全体を通して行われる。
【0073】
適切に推定された周期輪郭から生じる同調型自己相関は、この輪郭に一致する擬似周期情報を表わす。全情報が同じソースに属する保証はないが、BM領域を随伴するターゲットソースの全ての周期的作用が表示されることは保証される。
【0074】
同調型自己相関は、非常に健全である。それには多数の理由がある。第1に、同調型自己相関は、ターゲット高調波によって支配される全てのセグメント範囲を選択する。若干の高調波又はフォルマントが優勢であるスピーチのような広帯域信号の場合には、ピーク付きの蝸牛図が生じる。他の音響のフォルマント又は同様の構造が、同じ領域をより顕著に支配するのに成功するより強力なピークを発生する確率は、通常は低い(ゼロではないが)。この確率は、もちろん、信号対雑音比(SNR)、及び周波数レンジにわたるエネルギーの分布に大きく左右される。−6dBの信号対雑音比(比=1:4)でターゲットスピーチをマスクする通常の広帯域信号では、ターゲットスピーチの非マスクピークの数は、聴覚事象をサーチするために1組の信頼性あるスタートポイントを見出すのが困難になるレベルまで減少される。これらの状態では、人間のスピーチ認識力が急激に低下する。
【0075】
TACの健全さについての第2の理由は、ソースが、一貫したローカル作用を与えるように優勢である必要がないことである。優勢でないソースの平均作用x(t)x(t+T)が、ローカルで優勢であるソースの平均x'(t)x'(t+T)より大きい限り、優勢でないソースは、たとえ光学的にマスクされても、正の作用を与える。ピークが存在しないので、この状態は、聴覚事象の推定に対して信頼性あるスタートポイントを与えるものではない。これは、聞き手が何を期待するか知らないときに第1の表示においてあるノイズ性のセンテンスを確認できないが、聞き手が正しい期待を形成できるときには同じセンテンスを確認できるという理由を説明できる。例えば、純真な聞き手は、−6dBのSNRではターゲットセンテンスについて困難を伴うが、経験のある聞き手は、−10DB以下でも、ターゲットセンテンスを確認することができる。
【0076】
TACの適用に伴う最も重大な問題は、基本的周期輪郭T(t)の正しい推定を必要とすることである。これは、直接的に得られないので、信号から推定しなければならない。多数のピッチ推定技術が存在するが、任意の(ノイズ性)信号に対し適切に機能するものは皆無である。同調型自己相関は、任意のノイズ性信号に対して適切に機能する健全なピッチ推定技術と組合せて好都合に適用することができる。このような技術は、ピッチ推定のセクションで説明する。
【0077】
ここで、図1.1を参照すれば、内耳の基底膜の電気技術等価回路図の一部分が示されている。図の左側では、入力信号Vsoundを与えることができ、これは、400個までの一連の相互に結合された二次フィルタ、セグメントと称する、によって処理される。各二次フィルタは、ある質量慣性(コイル)、スチフネス及び減衰を表わし、これは、与えられた信号Vsoundにおける振動が、相互に結合された二次フィルタによりいかに迅速に減衰されるかを決定する。実際の内耳においてモデリングされるものとして、神経束への個別のセグメントのカップリングが行われ、これは、音響信号の印象を脳へ伝達する。
【0078】
図1.1に示された基底膜の電気等価回路モデルの助けにより、本発明の装置が動作する。このため、図1.1の基底膜モデルが、図1.2において参照番号1のブロックに含まれる。基底膜モデル1には、ノイズで汚染されることのある音響信号2が印加される。基底膜モデル1の1つ以上のセグメントには、ローパスフィルタ3が接続される。このローパスフィルタ3は、入力信号2の推定を構成する出力信号4を発生する。
【0079】
ローパスフィルタ3に含まれるフィルタ機能は、効果的に選択される。このため、本発明の第1の変形において、ローパスフィルタは、第1及び第2入力を有するマルチプライヤーとして設計され、その第1入力には、基底膜のセグメントから発生して所定の時間周期中存在する信号が印加され、その第2入力には、調整可能な時間T1にわたってシフトされた信号が印加され、そしてマルチプライヤーは、時間T1に依存する出力信号を発生し、これは、そのセグメントの信号に実質的に存在する周波数に依存し、そして音響信号の周波数内容の尺度を形成する。
【0080】
本発明の別の変形においては、ローパスフィルタは、第1及び第2入力を有するマルチプライヤーとして設計され、一方、基底膜の各セグメントに対し、第1入力には、そのセグメントから発生する信号が印加され、第2入力には、時間T2にわたってシフトされた信号が印加され、そしてマルチプライヤーは、セグメントに依存する出力信号を発生し、これは、その時間周期中に音響信号に実質的に存在する周波数エネルギースペクトルの尺度を形成する。
【0081】
更に数学的な式及びグラフィック表示においては、本発明は、次のように更に説明することができる。
【0082】
周波数内容及び周波数エネルギースペクトルを計算するために、図1.6のブロック図が使用され、ここで、xs(t)は、基底膜モデル1から発生する信号を表わし、そしてTは、調整可能な時間シフトを表わす。
【0083】
ここで、α=e- δ t/Tであり、そして更に、δt=1であるようにスケーリングされた時間軸(t及びTに対する)が使用される。
【0084】
周波数内容を決定するための装置の実施形態では、基底膜モデル1から到来する情報信号が、段階的連続関数であるセグメント級数s(t)であり、従って、図1.7のグラフィック表示において所定の時間周期内でセグメント番号が一定である。出力セット{rs(t),0(t)、・・rs(t),Tm(t)}は、時間tにおけるセグメント輪郭のもとでの現在自己相関を表わす。
【0085】
図1.3は、Tがx軸上に指示された状態で、特定時間tにおける上記出力セットの典型的な曲線を示す。
【0086】
周波数エネルギースペクトルを決定するための装置の実施形態において、低い周波数を表わす基底膜モデル1からのセグメントの測定結果は、高い周波数に関連したセグメントに対してある程度の遅延を伴って現れる。所与の信号T(t)に対し、これは、式Ts(t)=T(t+ds)による修正を必要とする。但し、dsはセグメントsのローカルグループ遅延である。
【0087】
これは、図1.8に示す次の実施を導く。
【0088】
この場合に、エネルギー内容は、基底膜モデル1の各セグメントに対して決定され、時間tに関連した出力セット{r1,T1(t)(t)、・・rsm、Tsm(t)}を生じさせる。
【0089】
図1.4は、基底膜モデル1のセグメント番号がx軸に指示された状態で対応測定結果をグラフ表示している。
【0090】
更に、図1.5を参照すれば、自己相関値のグラフを示すと共に、変数として、x軸上に時間シフトTをそしてy軸上に基底膜モデルのセグメント番号を示している。ここでは、1つのセグメントの周波数内容を決定するための装置の実施形態は、例えば、約470Hzの共振周波数を有する基底膜モデルのセグメントに対して決定できるような水平断面に対応する測定結果を与えることに注意されたい。基底膜モデルの全セグメントの周波数エネルギースペクトルを決定するように働く装置は、例えば、t=4.7msにおいて得られた垂直方向の断面に対応する測定結果を与える。
【0091】
時間正規化型コレログラム
式18は、より一般的な連続自己相関関数へと一般化することができる。
【数14】
rs,T(t)=L(xs(t)、xs(t+T)) (14)
s=1、・・smax T∈[0、Tmax]
この関数は、通常、次元(#セグメント)x(#周期)の時間進化マトリクスとして実施される。本明細書において、これは、時間正規化型コレログラム(TNC)と称される。TNCの正の値は、TACスペクトル図の場合と同様に描くことができる。これが図2.8に示されている。
【0092】
この図は、NULの/U/の中間部にt=175msに対するTNCを示している。T=0における垂直線は、図2.3に示されたエネルギースペクトルに対応する。T=4.6msにおける垂直の帯は、基本周期T0に対するTACを表わす。この帯は、2T0の場合にほぼ9.2msで繰り返される。これらの帯は、個々の高調波の周波数が高くなるにつれて狭くなる大きな垂直構造体のピークを形成する。各広帯域擬似周期的ソースは、瞬時基本周期により全構造が排他的に決定される同様の構造を有する。
【0093】
最も重要なことは、TNCが、時間的、周期的及び場所的に連続していることである(場所は周波数に関連している)。TNCの名称は、式14におけるその定義が次のことを確保することから由来する。即ち、擬似周期信号が時間t0においてスタートした場合にそのTNCがその信号の周期Tに関わりなくこの時間に蓄積し始め、即ちt<t0の場合には、x(t)x(t+T(t))の時間的平均がゼロに接近し、一方、t0の後には、それが大きく且つ正となり、T(t)の値とは独立したものになる。この形式のオンセット時間正規化は、全形式のソースの時間的展開を研究する上で助けとなる。コレログラムの異なる定義を比較するような更に詳細な説明を以下に行う。
【0094】
非相関ソースが瞬時基本周波数の同様の展開を示すことはあり得ないので、異なるソースの垂直構造が重畳する確率は低い。全ての音響ソースが互いに上下に表わされるようなT=0におけるエネルギー項についてはこの限りでない。特別な信号次元として周期性を導入すると、周期的及び非周期的信号の混合を分割できるだけでなく、擬似周期的信号の混合も分割できる。これは、理想化の一部分であり、即ち2つ以上の擬似周期的信号を組み合せると、個々のTNCが重ね合わされ、単一のものより解釈がより困難となる。
【0095】
TNCの垂直断面は、全セグメントsに対する自己相関遅れTに対応する。その水平断面は、単一セグメントの全連続自己相関に対応する。非周期的信号については、相関がTの関数として急激に低下するが、このソースは周期的であるために、自己相関は見掛け上コサインとなる。ほとんどのセグメントは、単一の高調波によって支配されることに注意されたい。これは、低い高調波に対応するセグメントに対して最も顕著である。ローカルの連続自己相関の周期性は、セグメントの主駆動力の周波数を時間の関数として反映する。全てのセグメントに発生する第1周期は、217Hzに対応する4.60msである。第2高調波については、第2周期が4.6msにおいてピークとなる。これは、予想されるように1/(4.6/2)=434Hzの瞬時周波数に対応する。2000Hzのすぐ上では、BMの領域が第9高調波により支配される。この領域は、第2フォルマントに対応する。第10高調波の位置は、第9高調波によってマスクされるので推定できないことに注意されたい。第3フォルマントは、3000Hzのすぐ下に表現され、2826Hzの第13高調波により支配される。TNCは、非常に高い精度で瞬時ローカル周波数を決定できることに注意されたい。これは、連続性の保存及びフレームベース解決策の回避の直接的な結果である。ローカル周波数推定アルゴリズムを詳細に説明する。
【0096】
TNCは、非常に貴重な表示であるが、その最も重要な特徴は、時間(t)、場所(s)及び周期性(T)により任意の連続経路を表示できることである。
【0097】
これは、周期輪郭T(t)を知っているか又はソース特性として仮定する場合に、T(t)の結果を時間の連続関数として検査できることを意味する。一方、セグメントシーケンスs(t)が単一音響ソースの情報を表わすと分かっている場合には、TNCを使用して、セグメントシーケンスs(t)のもとで連続自己相関により表わされた情報の展開を研究することができる。セグメントに沿った時間依存経路を使用するのが効果的である。というのは、スピーチ音響や音楽音響のような種々様々な信号にとって信号の基本的周期は時間的に一定でないからである。
【0098】
TNCは、相関の方向の入念な選択を使用することに注意されたい。次の式に基づくフレームベースの自己相関の場合には、
【数15】
【0099】
相関がt+nに対応する遅れに基づいても又はt−nに対応する遅れに基づいても何ら相違は生じない。全ての作用が加算される限り、結果は同じである。これまでのやり方では、マイナス符号が選択される。というのは、遅延を伴わない通常のシステムに類似しているからである。常時更新される(即ち連続)自己相関については、「t−n」を選択すると、情報の時間的順序付けが、「t+n」の実施の場合とは異なることになる。
【0100】
ここでは、漏洩性積分ベースのコレログラムの3つの異なる連続的実施について説明する。しかしながら、本発明は、他の多数の相関形態にも適用できる。第1の選択は、次の通りである。
【数16】
s=1、・・smax T∈[0、Tmax] (16)
【0101】
この式は、時間進化マトリクスのマトリクス素子の定義関数である。式11の適合は、セグメントsの自己相関の値と、自己相関遅れTとを示す。上に沿えた「−」は、最後の項におけるマイナス符号を指す。s次元のマトリクスインデックスが延び、そしてT次元のマトリクスインデックスが延びている。この場合も、xs(t)は、BMセグメントsの出力を表わす。この実施は、遅延の必要性を伴わない通常のものである。
【0102】
TNCを定義する第2の実施形態は、時間的に待機することである。
【数17】
【0103】
インデックスを落とすと、この実施形態は、r+(t)と称する。将来の情報はそれが得られるまで処理できないので、この実施形態は、現在時間tと、Tmax(例えば、12.5ms)の全コレログラムが得られるときとの間に時間差を伴う。
【0104】
ある形式のグループ遅延正規化がしばしば実行される。正規化の間に、グループ遅延は、エネルギーの式の時間的不鮮明さ及び遅延の合成ではなく、遅延として処理される。グループ遅延の正規化は、基底膜セグメントの応答をローカルグループ遅延dsで時間シフトすることにより実行される。時間tにおける高周波数セグメントの情報が、30ms以上時間的に遅い低周波数セグメントの情報と合成される。これは、しばしば便利なエネルギー式の表示を導く。グループ遅延の正規化は、「+」又は「−」符号で行うことができる。ここでは、「+」バージョンについてのみ考えるが、「−」バージョンも考えられる。
【数18】
【0105】
式14と比較すると、更に長い遅延が必要である。式14の最小遅延はTmaxであったが、ここでは、遅延がTmax+dsである。Tmaxの逆数は、コレログラムにおいて表現されるべき最低周波数である。スピーチの場合に、有用な下限は、80Hz又は12.5msであり、そして対応するグループ遅延は28msである。従って、合成遅延は、40ms以上である。この遅延より重要なことは、rgd(t)が、最初に30ms以上時間的に分離されていた情報を与えることである。5msのフレームサンプリングレートでは、これが6フレーム以上に対応する。
【0106】
連続性を保存する観点から、式18は、他の実施形態よりも、時間の連続性をあまり良く保存しない。これら実施形態では、時間tにおける隣接セグメントaとbとの間の変化が時間的に最小ステップを伴うが、グループ遅延正規化の場合には、有効な変化が次の通りである。
【数19】
sa(t) → sb(t+Δt+d(sb)−d(sa)) (19)
【0107】
グループ遅延は、隣接セグメント間で若干異なるので、信号の急激な変化中に連続性の仮定の有効性を低減する追加の時間的シフトが導入される。TNCの連続性は基本的な仮定(即ち、処理中にチェックできない仮定)であるから、連続性に違反すると、予想し得ない結果を招く。しかしながら、グループ遅延自体は、ここで使用する伝送ラインモデルにおける場所の連続的関数である。これは、グループ遅延との結合において連続性が保証された状態に保たれることを意味する。
【0108】
自然の信号は、ほとんど静止状態とならず、従って、非静止信号を反映するために最も適したコレログラムバージョンを選択しなければならない。これがTNCである。というのは、r(t)及びrgd(t)と比較して、オンセット及び信号変化をそれらが発生する瞬間に反映するからである。更に、r(t)が蓄積する仕方は、この概要の残り部分のタスク及び解決策に関連して、特にオンセット及び急速な変化中に、あらゆる種類の実際的な問題を招く。それ故、r(t)は適当な選択ではない。グループ遅延正規化との組合せにおけるマイナス符号の結合は、これを更に複雑にする。これが最初に考えられなかった理由はこのためである。
【0109】
グループ遅延正規化の使用は、必ずしも必要でない。しかしながら、r(t)とは異なり、rgd(t)は、付加的な問題を伴わずに使用することができる。これは、グループ遅延の作用が部分的に修正された視覚表示を与える。
【0110】
リッジの推定
TNCと共に得られる瞬時ローカル周波数情報は、雑音の多い未知の環境内のピッチ・輪郭の最適推定のための基礎を形成する。TNCは、それが(セグメント数)×(毎秒のサンプル数)×(周期の数)の次数であるから、計算的には極めて非効率である。セグメントが100であり、サンプル周波数が20kHzであり、そして最大周期が25msである場合(500の異なる値)、これは毎秒109×(2乗算+1加算)に対応する。計算の効率を大幅に向上させることは可能ではあるが、より効率的なアプローチが要求されている。
【0111】
このアプローチは、単一信号成分(例えば、調波)に関する優れた情報を与えるものと考えられるコクレオグラム(cochleogram)の領域を決定することによって見出される。図2.3に関して説明したように、各信号寄与は、基底膜の領域を補充することを試みる。これは、各位置が単一信号成分によってほぼ支配されることを意味する。更に、これらの領域は、その信号成分の周波数に対応する位置にピークを呈する。これは、各ピークが単一信号成分に対応していることを意味している。図2.3の第10乃至第12高調波に似た信号寄与は、より強い寄与によって殆ど完全にマスクされ、分離したピークには見えない。探索空間がコクレオグラム内のピークに縮小されると、個々の信号成分の情報を信頼するに足る推定を可能にする位置が効率的に選択される。
【0112】
偽(スプリアス)ピークの数を減少させるために、リッジは時間中のピークを組合わせて形成させることができる。信頼できるリッジのメンバーとして分類することができない全てのピーク・位置(その選択の詳細に関しては、「信頼性測度」の章において説明する)は破棄される。このようにして得られたものが図2.9であり、推定されたリッジが2つの相補的表現で示されている。左側の図には0dBカクテルパーティー雑音内で推定されたリッジが、/NUL/のコクレオグラム上に重畳されている。右側の図は相補的情報を示しており、リッジはきれいな信号内で推定されている。
【0113】
これらの図によって、雑音中のリッジ推定と、きれいな状況での推定とを都合よく比較することができる。雑音の多い信号でのリッジ推定は、きれいな目標の最も顕著なピークと一致することが多い。リッジは雑音の多い信号から推定されるから、それらは源の情報が支配している位置をも表している。右側の図から明らかなように、カクテルパーティー背景は、主として他の話し手のスピーチの強度ピークからなる。これらの強度ピークの持続時間は全音源よりも短いから、リッジはそれ程信頼できない。多くの相関しない源からなる背景、または周期的な雑音を含む背景の場合には、このようであることが多い。これは、最も重要な情報源をピンポイントすることによって探索空間を効率的に減少させるから、この要求は問題を解くのを援助する。
【0114】
2つの信号寄与が単一セグメントに対応するか、またはその直ぐ近隣の周波数を有している場合には重要な問題が発生する。この場合、建設的な、及び破壊的な干渉を有する周期が交互する。これは、両信号成分間の周波数差の逆数である周期を有する振幅変調と、両成分の加重平均周波数に対応する位置にリッジの形成とをもたらす。このリッジに関連する漏れ多く積分されたエネルギ値は、振幅変調を示す。雑音の多い状況では、これは中断されたリッジを生じさせ得る。
【0115】
信号成分間の別の重要な相互作用は、信号成分が更に離間しているセグメントに対応し、両信号成分がそれらの対応する最良セグメントをエントレインする場合に生じる。合間の何処かに(マスキングが非対称的性質であるので、通常は高周波数セグメントに近い)両成分から同じような影響を感じるセグメントが存在する。これらのセグメントは、BMを破断することなく2つの差周波数に従わなければならない。従って、平均ローカル振幅(従って、対応するエネルギ)は小さい。対応するローカルエネルギも、同様に小さい。これは、必然的に、谷によって分離された2つのピークを有する状況をもたらす。ある時間にわたって持続する信号寄与の場合には、対応するピーク列が一緒になって時相リッジを形成する。これは、十分に離間した連続的に展開する信号成分に対応する安定なリッジの存在を立証している。
【0116】
ランニング自己相関の推定
ローカル瞬時周波数・輪郭は、ランニング自己相関を使用して推定される。リッジを決定するための新しい方法を使用して今では1組の連続リッジ{si(t)}を有したことになる。TNCは時間t及び場所s内で連続であるから、リッジs(t)に沿うランニング自己相関を計算することができる。
【数20】
(s(t),T(t)=L(xs(t)(t),xs(t)(t+T)) (20)
T=[0,Tmax]
ピーク位置が滑らかに変化するにつれて、その関連する自己相関もそのようになる。式13の調整された自己相関に伴う対称性に注目されたい。この式は、時間の関数としての周期・輪郭T(t)を有する全てのセグメントにわたる1組の関数を表していたが、式20は時間の関数としてのセグメントシーケンスs(t)を有する全てのTにわたる1組の関数である。TACはTNCの垂直断面、及びランニング自己相関水平断面を記述している。
【0117】
このようにして推定された自己相関の典型例を、図2.10の左側に示す。上側の自己相関は、大部分のリッジを代表する典型的な十分に形成された例である。若干の状況においては、自己相関は周波数寄与の混合を示す。下側の自己相関は、第3高調波が部分的に第2高調波によってマスクされている例である。これにより混乱した自己相関、及びより複雑化した、または不可能でさえある「ローカル瞬時周波数」(LIF)推定がもたらされる(次章において説明する)。システムは、十分に形成された自己相関を取る。時には不十分に形成された自己相関が発生し、セグメント特性周波数に対応しない(不正確な)LIF推定をもたらす。これらの値は、破棄できることを見出した。
【0118】
ローカル瞬時周波数輪郭(LIF)の推定
図2.10の上側の自己相関は、時点t=285msにおける図2.9の目標信号の第4高調波に対応する。この状況は、それが極めて顕著なリッジに対応せず、ローカル周波数がかなり急速に変化しているので選択したものである。ローカル瞬時周波数は、平均ピーク距離(この場合には、12.0msの中に適合する13振動)を計算することによって近似することができる。これは、1083Hzに相当する。しかしながら以下に説明するように、これは、t=285msとt=285+12msとの間の「平均」ローカル周波数をもたらす準静止の不要な適用である。
【0119】
ピーク間距離の展開の一次近似を使用することにより、ローカル瞬時周波数推定が改善される。これは、ピーク間のサンプルの距離を取り、これらの値を通して一次モデルを適合させることにより実現することができる。T=0における自己相関ピークのためのこのモデルの値が、LIFのための推定を発生する。これは効率的な方法であるが、この方法は、0.05msのサンプル周期が0.94msのローカル瞬時周期に比して僅かに小さいとは言えないので、時間離散化(descretisation)効果を受け易い。
【0120】
時間離散化効果は、3点二次適合を使用してピーク位置の推定を改善することによって減少する。これにより、ピーク位置推定が10倍改善される。右側の図は、再推定されたピーク間距離、及びこれらの値を通しての線形適合に対応する周波数を示している。ピーク0の位置において得られたLIF値は、1064±5Hzである。誤差は、0.5%より小さい。スピーチ音の場合、ピッチの変動がより高い精度を妨げる。LIFが、10ms当たり25Hzまたは2.35%変化することに注目されたい。10ms当たり2.35%の変化率は、秒当たりの係数10に、または3.3オクターブに対応する。無意識スピーチの場合、これらは自然値である。
【0121】
ローカル瞬時周波数推定は、固定時間・ウィンドウが回避されているので、時間的に、及び周波数的に極めて正確である。「ウィンドウ」された信号を使用するローカル瞬時周波数の推定は、準静止の適用、及び時間と周波数の分解能のトレードオフによって制限される。
【数21】
Δt=1/Δf (21)
ウィンドウの幅の選択は、時間分解能、並びに周波数分解能を決定する。ウィンドウのサイズを増加させると時間分解能Δtは低下するが、周波数分解能Δfは増加し、その逆もまた真である。
【0122】
信号が単一の調和複素数からなるものとするような信号に関する付加的な想定は、瞬時周波数推定を増加させるが、任意信号では、これらの想定の有効性を保証することはできない。
【0123】
TNCをベースとするLIF推定も同様に式21の対象であるが、異なる方法においてである。それは、エントレインメントに基づくものであり、リッジをもたらす信号寄与に制限される。これは、近隣セグメントに対応する周波数を有する2つの成分は単一のリッジをもたらさないから、それらを分解できないことを意味している。このことは、1つの成分が他の成分をマスクしているような状況においても真である。この不可能性は、BMセグメントの数を増加させ、レスポンス曲線を鋭くすることによって軽減することができる。しかしながら、レスポンス曲線を鋭くすると、式21に従って群遅延を増加させることになる。送信回線においては、式21のΔtは群遅延と考えることができ、Δfは調整曲線の鋭さの測度を表す。
【0124】
従って、TNCをベースとするLIF推定の精度は、リッジを発生する信号成分に制限される。それは更に、ランニング自己相関におけるピークの数、及びピーク位置の精度によっても制限される。最後に、それは、一次近似の有効性によって制限される。ゆるやかに変化する信号寄与の場合には安定なリッジが形成され、自己相関の最大の遅れは、一次近似を無効にすることなく極めて正確なLIF推定を可能にする周期の数を表すように選択することができる。一次適合に伴う誤差が、推定の信頼性の測度になることに注目されたい。例えば、これはピッチ推定中に使用することができる。
【0125】
図2.11は、雑音の多い/NUL/から、時点t=250ms(図2.9参照)において推定された幾つかの自己相関の例である。下側の図は、図2.9の左側の図のt=250msにおけるリッジ2、4、6、7、及び8(下側のリッジから始まる番号を付してある)のランニング自己相関を示している。これらの自己相関は、これらのリッジが同一の源に属する調波から生じていることを示唆しており、それらは全て4.10ms(244Hz)の周期性に一致する。上側の図は、この周期性には一致しないリッジ1、3、及び5の自己相関を示している。これらのリッジ3及び5は、2.9、5.8、または8.7msの周期性に一致している。
【0126】
ローカル瞬時周波数推定は、雑音に対して頑強である。LIF値を2つの条件に関して計算し、それを図2.12に示してある。点は、きれいな/NUL/から推定されたローカル瞬時周波数の値である。星は、雑音の多い/NUL/から推定されている。きれいな信号内の殆どの周波数寄与が、雑音の多い環境内に明白に存在し続けていることに注目されたい。接近した試験によれば、動揺は2%より小さいことが多いことが分かった。これは、リッジが、個々の信号成分のための極めて信頼できる情報源を形成していることを示している。
【0127】
基本周期・輪郭推定
信頼でき、且つ頑強なピッチ推定技術の開発は困難である。その主な理由は、源を認識する前に、どの信号寄与が、またはどの信号特性がある源に属しているのかを決定することが一般に不可能だからである。これは、信号を認識することができずに、信号の型(例えば、その信号がスピーチであるのか否か)を決定することはできないことの直接的な結果である。
【0128】
更に、この問題は一般的には解決不能であるが、滑らかに展開する調波のような若干の特色を使用することはできる。これらは、他の型の音が発生しないことをユーザが保証する限り使用することはできるが、不幸にも、これは、未知の状況を取扱うことができるシステムに要求されるものではない。
【0129】
2つの基本周期・輪郭推定技術が開発されている。1つはきれいな信号のためのものであり、「きれいな信号のピッチの推定」の章において説明する。1つは雑音に汚染された、または複数の源からの信号を含む信号のためのものであり、次章で説明する。
【0130】
雑音の多い信号のための頑強な基本周期輪郭推定
この章においては、複雑な信号の周期輪郭を推定するための技術の実施の形態について説明する。第1の部分では概要を説明し、第2の部分ではより詳細に説明する。
【0131】
この特性は、図2.14の下側の図に示すような輪郭のために使用される。図2.15の上側の図は、図2.14の平滑された輪郭と矛盾しない全ての基本周期・輪郭仮設(hypotheses)を示している。若干の基本周期・輪郭仮設は、互いに「滑らかに」重複し合うか、または伸びている。これは、周期・輪郭が同一の源に由来すること、相関していない周期・輪郭が矛盾のない全体を形成する確率が小さいことを強く示している。下側の図は、3つの主基準に基づく上側の図の選択を示している。これらの基準とは、輪郭は、例えば50msのようなある最小長さを有していなければならないこと、それらは十分に平滑でなければならないこと、及び複数の共点(concurrent)輪郭の場合、最長の輪郭だけが選択されることである。これは大幅な縮小をもたらし、またほぼ正確なピッチ・輪郭候補を含むセットをもたらすことが多い。
【0132】
最終ステップは、残余の共点候補と、図2.14に示す元のローカル周期性情報とを比較してどの候補が殆どの周期値を説明しているかを決定し、またオクターブ誤差を防ぐために、奇数及び偶数調波の合理的な比を有している。これらの要望に最良に合致する候補が、アルゴリズムの最終出力を形成する。
【0133】
図2.16は、バブル雑音の異なる信号対雑音比を有する信号から推定されたピッチ・輪郭の比較を示している。オン及びオフセット中の若干の差を除いて、アルゴリズムは−3dB及びそれより良好なSNRのための正しい輪郭を見出すことができる。アルゴリズムが正しい輪郭を発生する場合、通常、実際の値の十分に1%以内で整合する。アルゴリズムは、目標音の最も顕著な調波が未だに事実上これらの条件内で局部的に支配できる領域を識別し、周期性情報を使用して可能な限り多くのこれらの領域を組合わせるピッチ・輪郭を見出す。これらの領域内の周期性情報が未だに事実上損なわれていないので、ピッチ・輪郭はきれいな状態で推定されたものと類似の品質でなければならない。オンセット及びオフセット中にはローカル信号対雑音比はより不利になり、周期・輪郭を明白に決定することを困難にする。
【0134】
ピッチ・輪郭推定技術は、長い、滑らかな、そして十分に支援された基本周波数・輪郭を探すから、それは、支援することができる証拠の全ての組合わせを見出す。
【0135】
雑音中の基本周期・輪郭推定
どの信号寄与、または信号特性が目標クラスに属しているのかを、信号を認識する前に決定することは一般的に不可能であるので、信頼でき、且つ頑健なピッチ推定技術の開発は簡単ではない。第1の周期・輪郭推定デバイスを、複雑な、未知の、そして可変環境内で発生するスピーチのような信号のために開発する。このデバイスに関してはこの章において説明する。第2の基本周期輪郭推定デバイスを、無雑音信号のために開発する。その機能は、目標が雑音によって汚染されていないものと想定している。このデバイスは、周期的な源の全ての調波が共通の周期性を呈する特性に基づいている。本発明は、「無雑音信号のための基本周期推定」の章に記述することにする。
【0136】
信頼できる情報源のためのインディケータは、
1.各瞬間における殆どのエネルギッシュなリッジ、
2.長いリッジ、
3.滑らかなリッジ、
4.ローカル特性周波数に対応する周波数を有するリッジ、
であるとして見出される。
【0137】
これらの特色がより多く組合わされているリッジは、特に信頼することができる。説明する実施の形態は完全な発声に対して動作するアプローチを使用しているが、僅か100msまたはそれ以下の遅延を伴う周期・輪郭仮設の推定を供給する手法でデバイスを再実現することが可能である。この遅延の下限は、群遅延効果、ローカル周波数の計算に要する時間の範囲、及び最も重要なものとして、システムが発生することを許容されている周期仮設の数の組合わせによって決定される。50msの遅延では、有望な基本周期候補の数を減少させるために利用できる情報が、システムが100msにわたって情報を積分することを許容される場合よりも少なくなる。オプションとして遅延を信号自体に依存させる。極めて信頼できる情報は小さい遅延を必要とし、それ程信頼できない情報はより多くの、そしてより長い処理を必要とする。
【0138】
この章では、殆どの環境において良好に働く1組の固定基準に頼るデバイスを説明する。次章では、実施の形態の柔軟性及び信頼性を高めるために、この実施の形態の固定基準を置換できる1組の信頼性測度を説明する。
【0139】
この実施の形態は周期ドメインを使用し、代替実施の形態は周波数ドメインを使用する。
【0140】
図3.6は、頑強な基本周期・輪郭推定アルゴリズムの5ステップの概要である。
【0141】
ステップ1は、リッジ及びローカル瞬時周期輪郭(LIF輪郭の逆)を推定する。ステップ2は、最も信頼できる瞬時周期輪郭を選択する。ステップ3は、これらの輪郭を全ての可能な基本周期輪郭へクローンする。ステップ4は、クローンされた周期輪郭を、信頼できる基本周期輪郭仮設に組合わせる。ステップ5はオプションであり、各時点に単一の基本周期輪郭仮設だけが存在するように、最も信頼できる基本周期輪郭を選択する。
【0142】
アルゴリズムのための入力は図2.9に示されているような情報であり、コクレオグラム、リッジ、及びローカル瞬時周期を含んでいる。
【0143】
第1のステップは、LIF推定の章において説明済みである。
アルゴリズムの第2のステージは、最もエネルギッシュなリッジの選択及び平滑化である。このアルゴリズムは、対応する最良セグメントが、リッジの最良セグメントとは1セグメントより多く異なっている瞬時周期の検出から開始される。これらの周期値は、セグメント特性周期(最良周期ともいう)によって置換される。利用可能な情報は、図2.14の上側に示してある。見易くするために、5msより小さい周期(即ち、200Hzより高い周波数)だけを示してある。この表現は信号対雑音比が0dBである状況に基づいているから、破棄しなければならない多くの偽の寄与を示している。
【0144】
各リッジが後続し、連続する周期が互いの5%以内である限り、それらは同一の周期・輪郭に割当てられる。連続する2つの周期が5%以内になければ、次の値が5%以内にあるか否かを調べるために付加的な検査が遂行される。もし有効な次の値を見出すことができればその間隙はその近隣の平均で充填され、そうでない場合には新しい輪郭が開始される。全ての輪郭が輪郭の平滑されたバージョンp(t)で増補される(2.14の下側の図を参照されたい)。平滑化は5点(25ms)線形近似を使用して遂行される。輪郭の中央においては、平滑されたローカル周期は両側の2フレームのローカル近隣に基づいている。輪郭の2つの最初と最後の点においては、平滑されたローカル周期は一次近似の対応する値に基づいている。最後に、各輪郭の平均通常度(ordinality)が計算される。通常度とは、エネルギに関する相対的な重要度の測度である。最もエネルギッシュなリッジのセグメントの通常度が1であり、第2の最もエネルギッシュなリッジのセグメントの通常度が2である等々である。周期・輪郭は、その長さが50msを越え、その平均通常度が2より小さいかまたは等しい場合に、または代替として、その長さが75msを越える場合に受入れられる。
【0145】
滑らかなリッジp(t)は、目標スピーチの調波に由来することも、由来しないこともあり得る。各輪郭が、開始から終了までの単一の調波番号を表しているものとする。もし調波番号nを知れば、基本周期p0(t)が分かる。それは、
【数22】
p0(t)=p(t)n または f0(t)=f(t)/n (22)
だからである。
【0146】
さらなる制限として、有効基本周期値は、殆どの話し手をスパンする範囲である2.5ms(400Hz)と13.3ms(75Hz)との間に制限されている。例えば、周期p=6msは、基本周期p0=12msの第2高調波の結果であることも、またはp0=6msの第1調波の結果であることもできる。周期p’=2msは、2乃至6の範囲内の何れかの調波番号を表すことができる。これは、セット{4、6、8、10、12}ms内の何れかのp0に対応する。もしp及びp’が同一の源に由来すれば、それらは同一の基本周期p0を共有する。この場合、6または12msの何れかである。
【0147】
図2.15の上側に図示するように、平滑された周期・輪郭は、各可能な調波番号を乗ぜられ、全ての可能な基本周期にクローンされる。これは、輪郭の対応する特性セグメントの変化を含み、各セグメントはそれ自体の群遅延を有しているので、これは、
【数23】
t→t+d(snp)−d(sp)nt{1,2,…} (23)
に従う時間的なシフトを暗示している。d(sp)及びd(snp)は、それぞれ、周期p及び周期npに最も鋭敏なセグメントに関連する群遅延である。この時間シフト暗示は、第1調波の周期として瞬時基本周期を定義する。
【0148】
第3ステップは、クローンされた輪郭を、滑らかな基本周期・輪郭仮設に組合わせる。輪郭は異なる方法で組合わされ得ることが多いので、これは複雑なプロセスである。2つのクローンされた輪郭のローカル周期が、平均で互いの3%以内にある場合には、それらは単一の仮設に組合わされる。部分的に、または完全に互いに伸びている輪郭は、25ms中に両輪郭を3%以内に整合させる二次適合を推定できる場合に組合わされる。式22の時間シフトは、複数の輪郭の信頼できる比較を可能にするので極めて重要である。この形状の群遅延補正を行わない場合には、同一源の輪郭は、ピッチの急速な変化中は組合わされない。最後に、50msより短い基本周期仮設が破棄される。これによって大幅に縮小され、大体正確なピッチ・輪郭候補を含むセットをもたらすことが多い。このセットを、図2.15の下側に示す。基本周期輪郭仮設の現セットから、適当な出力を形成することができる。しかしながら、時間ステップ当たり最大1周期輪郭を選択することが重要であるような応用の場合には、オプションとしての最後のステップを遂行することが可能である。
【0149】
このオプションの第5の、そして最後のステップは、共点輪郭仮設間の強制選択を含む。標準ASRシステムに適用される場合、それは、どの聴覚イベントが形成されるのかを決定するから、これは極めて重要なステージである。この選択は、信号のどの部分を、予測、及び認知システムの制限に従って翻訳するのかを決定する。このステージにおける誤差は、認知誤差をもたらす。これは、利用可能な全ての情報(即ち、全てのリッジ及びそれらの対応する瞬時周期)に基づく極めて注意深い決定プロセスを保証する。この決定プロセスは、各瞬間毎に多くとも1つの周期・輪郭を選択する。選択された仮設は、それが可能な調波として要求できる瞬時周期値の数を、偶数及び奇数調波の公平な分布と組合わせて、最大にする。
【0150】
基本周期・輪郭仮設p(t)によって要求される調波の数は、
【数24】
cos[{p(t+ds)/ps,t}2π]>0.95 (24)
を満足する瞬時周期値の数をカウントすることによって決定される。p、tはセグメントs内の時点tにおいてリッジから導出された瞬時周期値である。またp(t+ds)は、セグメントsの位置の予測される瞬時基本周期を表す値dsで補正された群遅延である基本周期仮設である。基底膜の差領域の瞬時周波数情報が比較されるので、この場合も群遅延補正が必要である。上式の基準は、予測される値の周りの5.1%の偏差を受入れることと同等である。
【0151】
予測される値の5.1%以内にある奇数及び偶数調波の数をカウントするために、この式の変形を使用することができる。即ち、
【数25】
Np(t)=No p(t)+Ne p(t)
=Σi[cos{p(t+di)/pi}π<−0.95]
+Σi[cos{p(t+di)/pi}π>0.95] (25)
添字iは全ての可能な値ps、tを意味し、p(t+di)はセグメントs内の時点tに反映されるローカル瞬時基本周期のための所要群遅延補正値である。Np(t)は受入れられた調波の合計数であり、No p(t)及びNe p(t)は奇数及び偶数調波の数である。この場合には、奇数調波は最小値の周りにあり、偶数調波は余弦関数の最大値に一致する。大括弧はブール値を表し、もしステートメントが真であれば1であり、ステートメントが偽であれば0である。
【0152】
2つまたはそれ以上の共点仮設の最良仮設は、
フレーム当たりの平均調波の数・分数奇数調波
【数26】
=(Np(t)/L)・(No p(t)/Np(t))=Ne p(t) /L (26)
を最大にするものである。Lはフレームの数で表された基本周期・輪郭仮設の長さである。両基準は重要である。要求された調波の平均数は、仮設の質の測度であり、通常は、フレーム当たり多数の調波を要求する短い仮設の方が、フレーム当たりそれ程多くない数の調波を要求する長い仮設よりも好ましい。奇数調波の分数は、基本周期・輪郭が1オクターブ低い場合には低い。偽寄与が、要求される調波の平均数を増加させる傾向にあるので、これは極めて屡々発生する。組合わされた基準は、フレーム当たりの奇数調波の平均数まで縮小する。この単純な基準は、補正仮設を選択する高い確率を有している。
【0153】
選択された仮設は、全ての要求された調波を使用して再推定され、平滑される。平滑化は、第1のステージにおいて適用される平滑化に類似している。全ての要求された調波が推定に寄与するから、データ点の数は遙かに多くなる。各フレームにおけるローカル線形近似は、今度は群遅延補正後の、25msの環境に対応する全てのデータ点に基づく。より小さい環境に対応する25データ点が存在する場合には、ローカル推定はこれらの25点に基づく。式22を使用すると、第1調波の瞬時周期・輪郭として基本周期・輪郭が定義される。「周期信号寄与の選択」の章の選択アルゴリズムの要望に応ずるために、周期・輪郭は、第1調波の瞬時周期の代わりに、源の瞬時周期を反映するように時間シフトされる。
【0154】
アルゴリズムの最終出力は、各フレームにおける一次近似を定義するパラメータのシーケンスである。一方のパラメータはローカル瞬時基本周期を与え、他方は時間導関数を与える。両者は時間的に平滑されているから、実際の周期は推定された値の周りを変動し得る。「周期信号寄与の選択」に記載されている技術は、最終の、そして最適の値を決定する。
【0155】
図2.16は、バブル雑音の異なる信号対雑音比を有する信号から推定されたピッチ・輪郭の比較を示している。オン及びオフセット中の若干の差を除いて、アルゴリズムは、−3dB及びそれより良好なSNRのための正しい輪郭を見出すことができる。アルゴリズムが正しい輪郭を発生する場合、通常、実際の値の十分に1%以内で整合する。デバイスは、目標音の最も顕著な調波が未だに事実上局部的に支配できる領域を識別し、またデバイスは、周期性情報を使用してこれらの領域の可能な限り多くを組合わせるピッチ・輪郭を見出す。これらの領域内の周期性情報が未だに事実上損なわれていないので、ピッチ・輪郭はきれいな状態で推定されたものと類似の品質でなければならない。オンセット及びオフセット中にはローカル信号対雑音比はより不利になり、周期・輪郭を明白に決定することを困難にする。
【0156】
0dBより高いSNRを伴う最も雑音の多い状況のために、多くの場合に95%より多くの正しい周期輪郭を推定することができることを実験が示唆している。これらの場合には、それは極めて良好なTAC・推定を可能にする。0乃至−3dBの間では、正しい推定の確率は70%に低下し、−3dB以下では、固定パラメータのためにデバイスを信頼することはできない。その信頼性は、次の章に示す信頼性測度を使用して増加させることができる。
【0157】
次の章において、時間の各(サンプリング)瞬間における可能なピッチ値を決定する(ステップ3)代替方法を説明する。これらの値は、リッジの推定に関して説明済みの手順(「リッジ推定」の章において説明)と類似の手法でピッチ輪郭を形成するように接続することができる。これらのピッチ輪郭のためのグローバル信頼性スコアの形成に関しては、次章においても説明する。
【0158】
この代替方法によれば、この章において上述したように、最小の遅延でピッチ輪郭を決定することができる。
【0159】
信頼性測度
上述したように、基本周期輪郭推定は、最も信頼できる情報を選択する。システム(セレクタデバイス)の最高レベルにおいて信頼性測度を決定しなければならない場合、より低いレベルにおいて決定された信頼性測度が重要な役割を果たす。あるレベルにおける(1つまたは複数の)信頼性測度は、より低いレベルからの利用可能な信頼性測度から、及びそのレベル自体において得られた新しい情報から構築される。最低から最高のレベルまで、以下の信頼性の測度を定義することができる。
【0160】
1)時間のある瞬間におけるエネルギ出力内の個々のピークの信頼性。この測度はローカル信号対雑音比(SNR)に依存する。
2)リッジの(グローバル)信頼性は、リッジを構築するのに使用されるピークのために決定された(ローカル)信頼性値から構築することができる。他の影響は、リッジの長さ、及びリッジの連続性(位置及びエネルギ共)から生ずる。
3)周波数輪郭の信頼性は、周波数が決定されたリッジの信頼性に依存する。また、周波数の連続性は、ある役割を、及びある標準形状との自己相関の適合を果たすことができる。
4)リッジの選択中には信頼性測度は決定されないが、同一の源に属すると見做すことができるリッジだけを選択することによって、より高いレベルにおける信頼性に寄与する。
5)ピッチ輪郭の(グローバル)信頼性は、以下のものから構築される。
−ピッチの決定に寄与するリッジ/このピッチ輪郭に適合するリッジの信頼性
−ピッチ決定方法内で決定された適合度の測度
−ピッチの連続性
6)最終選択の信頼性測度は、選択の基礎であるピッチ輪郭の信頼性に基づくことができる。また、全ての位置に多分存在するマスキングの量を決定することができ、時間及び場所に依存する信頼性スコアを与えるように使用される。
【0161】
上述した測度に関して以下に詳細に説明する。図3.1を参照して、ピーク探索、及びローカルSNRの推定を以下に詳細に説明する。時間の各瞬間において、BMモデルのエネルギ出力内にピークを見出すことができる。これらのピークは、(位置の関数としてのエネルギの)ローカル最大である。ピークの位置は、二次補間を使用することによって、モデル内に使用されている離散化ステップよりも高精度で決定することができる。次のステップは、ローカル最大の位置に最も近いピークを有するピークテンプレート(所定のセットのピークテンプレート内の)を探索することである。これは、全てのピークに関して個々に行われる。
【0162】
次に、テンプレート(grSpec)に良好に適合するエネルギスペクトル(ES)の点を決定しなければならない。ESとgrSpecとの間の垂直距離を使用する適合方法は、テンプレートの鋭い勾配においては悪い適合をもたらし、一方、より浅い領域においては遙かに良好に適合する。従って、ESの点をテンプレートgrSpec上に配置するのに必要な回転の角度を使用する方法が開発された。この方法は、ピーク位置から開始される。先ず、それは、この位置の左側の点を調べる。もしES上の点及びgrSpec上の点を見出すことができる方向が1°より大きく離れていなければ、それは、ES点をテンプレートgrSpec上に配置できるものと考え、注意を次の点に向ける。ES点をテンプレートgrSpec上に配置するために必要な回転の角度が1°より小さい限り、そのESの点はテンプレートに適合するものとする。1°より大きい回転を必要とする点が見出された場合には、その点は不適合として分類されて左方への探索が終了し、プロセスはピークの右側について繰り返される。
【0163】
図3.2aは、エネルギスペクトルを、1つのピークのためのテンプレートと共に示している。図3.2bは、ES点をテンプレート上に配置するのに必要な回転の角度の余弦を示している。ピークに近い点では、余弦が1に近い(小さい角度)ことは明白である。0に近い値(または、負の値でさえも)への変化はかなり急峻であり、我々が適合領域として直感的に指示する領域の限界と良好に対応する。図3.2において、最後に、ピークテンプレートに良好に適合するものと印象付けた点が、赤に着色される。
【0164】
図3.3aは、信号‘140’の場合の、時間及び位置の関数としての蝸牛のエネルギ出力を示している。図3.3bにおいて、赤に着色された領域がピークテンプレートへの適合として分類される部分である。
【0165】
もしある領域がピークに適合するものと決定されれば、ローカルSNRのためのある測度を得ることができる。この測度は、ピークにおけるエネルギと、適合領域の両端におけるエネルギとの比を与えるべきである。両端における値は極めて異なるので、2つの平均が使用される。dBスケールはSNRのために使用される論理スケールであるので、両側のSNRはdBで決定され、次いで平均される。図3.3cでは、適合領域は、その適合領域のために決定されたSNR値でカラーコード化される。図3.4は、雑音状態(自動車工場雑音、0dB)におけるこの技術の結果を示している。この方法が、雑音の中でのスピーチ信号の有声部分の周波数内容を決定するための信頼できる情報を得ることができる領域を識別していることは明白である。
【0166】
この章では、リッジの下のローカル周波数の決定を説明する。リッジの下の信号はほぼ正弦形状であり、周波数はローカル特性(または、最良)周波数fcに接近しているので、自己相関は余弦形状であり、その第1の最大が1/fcに対応する遅延にあるとすることができる。これは、ピーク探索のための第1の推定として1/fcを採用し得ることを暗示している。それは、説明した方法よりもかなり高速で、且つより正確にピークを見出すために、例えば補間を使用することができる。信頼性の特別な測度として、自己相関値と想定した余弦形状との一致を決定することができる。
【0167】
先行部分においてはリッジが決定された。今度は、どのリッジが一緒に属しているのか、及び/または、どのリッジが目標源に属しているのかを決定しなければならない。このために、目標が、時間(各5msフレーム内の)の各瞬間において独特に定義されたピッチを有しているものとする。従って、どのリッジが共通ピッチを共用しているかを決定しなければならない。換言すれば、見出された殆どのリッジを説明するピッチ周波数を見出さなければならない。このピッチ推定は、背景から源を選択するための基礎として、次の章において使用することができる。
【0168】
ピッチ推定は、先行章において決定された全てのリッジの周波数を使用する。これらの周波数は、いわゆる副高調波加算(詳細に関しては、1988年1月のJASA 83(1)に所載のD.J. Hermesの論文“副高調波加算によるピッチの測定”を参照されたい)への入力を形成している。
【0169】
この副高調波加算は、以下に説明するように動作する。見出された各周波数毎に、この周波数を生じさせることができたピッチ値が決定される。これらの可能なピッチ値を、副高調波と呼ぶ。特に低周波数範囲において、多数の可能なピッチ値を回避するために、可能なピッチ値の範囲は[45Hz−400Hz]に制限されている。この範囲は、人の音声に見出されるピッチ値をスパンしている。また、可能な入力周波数の範囲も([70Hz−2000Hz]に)制限されている。これは周波数を正確に決定することができる範囲である。これで、現フレーム内に見出された各周波数毎に、1組の可能なピッチ値を有することになる。
【0170】
周波数は無限大の精度で決定することはできないので、各可能なピッチ値の周りにガウス分布が形成される。これにより、現フレーム内で見出された各周波数(入力周波数)毎のピッチ候補の確率分布がもたらされる。これらの分布は、全ての入力周波数にわたって加算される。もしピッチが、分布の殆どにおいて高い確率を有していれば、それは加算された分布内に高い確率を得ることになる。もしピッチ値が、個々の分布の小さい断片内だけに高い確率を有していれば、加算された分布内の確率は低下する。この手順により、個々の分布の最大断片内に存在するピッチにおける高いピークがもたらされる。これを、図3.3に示す。
【0171】
図3.3A−Dは、個々の周波数のためのピッチ分布を示している。図3.3Aにおいては、175Hzの入力周波数が使用されている。図3.3Bにおいては、350Hzの入力周波数が使用されている。図3.3Cにおいては、525Hzの入力周波数が使用されている。図3.3Dにおいては、750Hzの入力周波数が使用されている。図3.3Aにおいて、最低周波数(175Hz)はピッチ範囲内に2つだけの可能ピッチ(87.5Hz及び175Hz)を有している。図3.3B−Dのより高い調波の場合には、可能ピッチの数が増加している。論理的には、図3.3A−Dの全てにおいて175Hzにピークが存在している。しかしながら、87.5Hzにおいては、全4つの分布の中にピークが存在している。これは、それが正確に175Hz/2だからである。これは、175Hzの全ての調波が87.5Hzの調波でもあることを意味している。全4つの調波がピークを有する範囲[45Hz−400Hz]内には、2つの周波数だけしか存在しない。分布を加算すると、図3.3Eに示すグラフが得られる。87.5Hz及び175Hzが最良候補であることは既に明白であるが、他の周波数(例えば、350Hz及び116.6667Hz)に重要な寄与が得られる。
【0172】
しかしながら、これらのピッチ候補は、入力周波数の部分だけを説明しているに過ぎない。従って、各ピッチ候補に、それを説明している入力周波数の分数を乗ずる。これにより、3.3Fのグラフが得られる。分布内の特別なピークが大幅に減少していることが分かる。しかしながら、それでも2つの候補(87.5Hz及び175Hz)は残されている。175Hzの調波を選択したので、これを、得られる最良の候補であるようにしたい。これを達成する方法は、87.5Hzにおける候補を“罰する”ことによる。それは、これが入力内には存在しない262.5Hz、437.5Hz、612.5Hz等に中間調波を発生させるからである。87.5Hzの候補は、その調波の半分が入力から失われるという事実によって“罰せられる”のである。この状況から、175Hz及び87.5Hzの場合に周波数が発生し、いわゆる「オクターブ誤差」をもたらすことを見出した。失われた調波に対する罰はより厳格である(二次、これはこの補正の二重適用とみることができる)。図3.3Gのグラフに示されている最終分布は、175Hzに高いピークを示し、高い確率を有する実の代替は存在していない。将にこれは、我々が望む方法である。
【0173】
この状況は、250Hz、375Hz、500Hz、及び750Hzの周波数を使用する場合には僅かに複雑になる。得られたグラフを、図3.3A−Gのグラフと同じ順序で、図3.4A−Gに示す。これらの周波数は、125Hzの第2、第3、第4、及び第6高調波であることができる。この場合、実質的な数の調波が失われる。もしくは、250Hzの第1、第2、及び第3高調波、及び偶然に、他のある源からの375Hz成分を有することができる。図3.4Eから、副高調波加算の結果が何であるのかが理解できる。この場合、そのピッチのための2つの代替、即ち125Hz及び250Hzが存在し、これらの代替がほぼ等しく正確らしいことが分かる。
【0174】
この種の状況においては、2つの代替の何れかを選択できるように、他のフレームからの付加的な情報を使用しなければならない。もし次の、または先行フレーム内に125Hzの他の調波を見出せば、それが選択されることになる代替である。しかしながら、もし250Hzの調波だけを見出し、375Hz成分が他とは異なる時間に発生すれば、それは異なる源が発生したものと結論付けることができる。
【0175】
現フレーム内の全ての周波数成分の副高調波の分布を決定するには、かなりの計算量になり得るので、多数(550)の入力周波数のための副高調波分布を用いて充填されたマトリックスを形成する方法を選択した。これをピッチマトリックスと呼び、初期化において計算することができる。このマトリックスから、入力周波数に最も近い周波数で2つの行の間を補間することによって、入力周波数の分布を容易に決定することができる。マトリックス、及び175、350、525、及び700Hzを組合わせた場合に選択された行を、得られた最終分布と共に図3.5に示す。
【0176】
無雑音信号のための基本周期推定
無雑音(スピーチ)信号に適用できる基本周期推定を開発した。この章で説明するアルゴリズムは、上述したより一般的な周期推定技術に対する高速代替を意図している。このデバイスは、自動スピーチ認識に先立って、スピーチデータベースのための基本周期輪郭を推定するために使用することができる。
【0177】
スピーチ認識システムの頑強さを測定する基本周期推定アルゴリズムに対する要望は、可能な限り多くの源を選択して追跡することを目的とするシステムとは多少異なっている。これは、一般的な基本周期推定内で最適化されている。
【0178】
ASR試験の場合、格納されているテンプレートに可能な限り似せた信号表現を発生させる必要があり、これは、雑音がその選択を可能な限り汚染しないことを意味している。オンセット中には、しかしオフセット中にはより屡々、信号エネルギは比較的低く、言語情報は殆ど運ばれない。例えば、図2.2内の語/NUL/におけるt=360ms後の情報は殆ど重要ではないが、少なくとも別の100msの間の上昇するピッチを推定することができる。これらの最後の100ms中に信号対雑音比が急速に低下し、より汚染されたTAC選択がもたらされる。この汚染を減少させるために、保存性でありながら、信号の開始または終了が有声であるか否かを決定することが有益である。
【0179】
これは、基底膜モデルの低周波数半分内のリッジのエネルギ及び減衰挙動の両者を制限することによって実現される。基底膜のこの部分は、無声信号成分による影響を殆ど受けない。エネルギ損失が10ms以内に50%またはそれ以上に対応する場合、またはエネルギが発声の予測される最大エネルギの1%を越えない場合には、フレームは無声であると見做される。この組合わされた基準は、より巧緻な基準によって置換することもできる。
【0180】
減衰・基準は、入力が欠如する場合の漏れの多い積分プロセスの減衰よりも制限的なビットである。漏れの多い積分の10msの時定数に伴う10ms以内の減衰はe・10/t=e・1=0.37であり、一方、適用されるしきい値は0.5である。スピーチ信号の場合、このしきい値が極めて効率的である。基本周期・輪郭推定は極めて良好であるので、また信号内には小さい駆動エネルギしか存在しないので、間欠基本周期・輪郭に基づく選択は、通常は、周期・輪郭の連続バージョンに基づく選択と区別することはできない。両基準を組合わせると、ASR応用において要求されるような、早期のオフセットを有する傾向がある基本周期・輪郭が得られる。
【0181】
基本周期アルゴリズムは、リッジに沿う自己相関の加算に基づいている。このアルゴリズムは、人のピッチ知覚の面をモデルすることを要求するコレログラムをベースとするアルゴリズムに類似している。主な差は、FFTをベースとするコレログラムを計算して加算する代わりに、リッジ下のランニング自己相関を使用することである。これは計算負荷を減少させ、また準静止性を適用しないので、急速に変化するピッチを有する信号のために瞬時ピッチのより良い推定を達成することができる。図2.7に関して説明したように、同一の源に由来するリッジに沿う自己相関は、基本周期が全てのリッジが共有する第1の共通周期性と一致する。図3.7は、1組の自己相関及び対応する加算の典型例を示している。全ての自己相関が単純に加え合わされ、群遅延補正が遂行されていないことに注目されたい。従って、結果は近似である。選択アルゴリズムにおける最適化(「周期信号寄与の選択」参照)が、最終瞬時基本周期を決定する。
【0182】
各フレームにおいて、加算された自己相関内の3つの最高ピーク(リッジに沿うローカルエネルギの0.3倍より高い値を有する)が選択され、分類される(自己相関値の最高のものを第1に)。どのピークも基準を満足しない場合には、そのフレームは無声であると見做される。これらの自己相関遅れの1つが、このフレームのための所望の基本周期値に対応するものとしている。選択されたピークは時間輪郭に組合わされる。25msより短い持続時間の輪郭は破棄される。各フレームにおいて、残余の輪郭は、最低リッジのセグメントの対応する最良周波数と比較される。最低リッジの最良周波数の10%以内の時間の60%またはそれ以上に入る輪郭が選択され、他の輪郭は破棄される。最後に、「雑音中の基本周期推定」の章で説明した手順と同一の手順を用いて、選択された周期・輪郭が平滑される。「周期信号寄与の選択」の章のTAC選択アルゴリズムの要望に適合するアルゴリズムの最終出力は、各フレームにおけるローカル瞬時基本周期の一次近似を定義するパラメータである。
【0183】
この技術は、互いに補足し合う2つの知識の源、即ち周期性情報、及び位置情報を組合わせる。自己相関における周期性情報は正確な周期性推定を与え、位置情報は正しい基本周期候補の選択を容易にする。
【0184】
周期性信号寄与率の選択
次のステップは、聴覚事象に対する実際の情報割当てである。図2.17の下方パネルは、TACベースの聴覚事象の代表的な例を示している。単一の制約条件(周期-輪郭)の適用は、すでに、上方パネルにおける雑音の多い信号に有利な結果を与えている。低周波側では、TACコクレオグラムは、確実に第1の倍音を選んでおり、高周波側では、聴覚事象に対して時間-周波数(実際には、時間-場所)プレーンの大きなエリアを割り当てる。低周波側では、選定領域は、単一の倍音によって支配される。高周波側では、領域はフォルマント(すなわち、共通の基本周期に一致する倍音の合成音)によって支配される。
【0185】
小ピッチ評価エラーが大きな影響を与える可能性があるので、TACセレクションは、好ましくは、局所最適化プロセスに基づく。ピッチ評価アルゴリズムによって評価されるような基本的な周期-輪郭は、周期-輪郭の一般な発生を良く記述しているが、急速なピッチ変動を表していない。評価プロセスは、フレーム毎に、周期値および局所時間導関数を生じさせる。これは、局所時間的発生の信頼性ある指標となるが、実際の瞬間的な周期はこの平均的発生まわりに変動する可能性がある。局所周期評価およびその導関数は、局所瞬間周期性値Tsを導く。図2.18の破線は、これらの値を局所瞬間周期性曲線として示している。瞬間周期について最適な値を評価するために、この曲線を周期性について上下(すなわち、図2.18では左右)にシフトし、局所瞬間周期の選択毎に対応するTNC値を計算する。圧縮TNCの正の値の合計を最大にする瞬間周期の選択は、セレクションが基礎を置く最終的な瞬間周期として選択される。
【0186】
最良の瞬間周期は、正の値およびx軸の下にある領域を最適化する値である。この最適化手順は、自然ピッチ変動および小周期評価エラーの影響を減らす非常に効率的な方法である。
【0187】
図2.17に示すようなセレクションは、正しい周期-輪郭に基づいていたが、セレクションが正しいとは保証され得ない。すなわち、背景スピーカのうちの1つが、周期-輪郭のうちの1つのソースとなるかも知れないのである。スピーカの音声タイプおよびすべての言語状況のような可能な限りのソース・タイプの知識を使用してさらに処理を続けてこの問題を解決しなければならない。幸いにも、聴覚事象によって表され、むしろ雑音の多い状況において評価される正しい周期-輪郭に基づく情報が、個々の倍音およびフォルマントの相対的な重要性に関する正確な情報を包含する。このことは、2、3の仮説に対するデータの可能な解釈の数を減らすのに充分である。
【0188】
TACアプローチは非周期的な情報を聴覚事象に割り当てることはできないが、同じストリームに割り当てられるかも知れない非周期的聴覚事象の有望な候補の位置を決定する際に助けとなり得る。通常の音声において、非周期信号成分の位置は、周期成分に大きく関連する。たいていの場合、これらの寄与は、オンセットのちょっと前あるいはその最中に終わり、或る周期性寄与のオンセット中またはその後に始まる。t=1000ミリ秒で始まり、図2.17の上方パネルにおける90〜100のセグメント範囲で最も無視し得る/TWEE/(/TWO/)の/T/の場合、単純なテンプレート・マッチング形態で非周期寄与の有望な候補を検出するには充分であるかも知れない。
【0189】
特性周期相関(CPC)
オンセットおよび非周期性ノイズのような非周期性信号を取扱うために、他の装置が工夫された。周期的な信号が個別セットの信号寄与によって特徴付けられる一方で、非周期的信号は連続的な周波数分布によって特徴付けられる。単位パルスのような代表的な非周期的信号は、均等に重み付けされた周波数分布を表す。各周波数範囲は、対応する特性周波数fcを有する基底膜セグメントの範囲を引きずろうとする。これは、以下に式に示すように特性周期相関(CPC)の仮定義に通じる。
【数27】
rsC(t)=C(xs(t), xs(t+Tc,s)) (27)
ここで、Tc、sはセグメント特性周期を示している。CPCは、特性周期で振動する基底膜領域についてのコクレオグラムのエネルギ値の近い値を提供する。また、特性周期のかなり大きい周期で振動する低周波成分によって引きずられる領域についての高い値を生成する。CPCが確実に後者の領域に対するより低い感度を持つように、CPCは、以下のように再定義し得る。
【数28】
rsC(t)={C(xs(t), xs(t+Tc))-C(xs(t), xs(t+Tc/2)) (28)
これは、xs(t)、xs(t+Tc、s)間の相関とxs(t)、xs(t+Tc,s/2)間の相関との差の半分と一致する。セグメントが特性周期に近い周期で振動するとき、後者の相関は負となる。しかしながら、その絶対値は最初の相関の絶対値に相当する。これら2つの相関の差の半分はコクレオグラム値に近いCPC値を生じる。特性周期の2倍よりも大きい周期で振動するセグメントの場合、xs(t)、xs(t+Tc,s/2)間の正の相関が生じ、CPCをコクレオグラムのものと比較して小さい値まで減らす。Tcの異なった分数に依存して寄与率を結合することによって類似した挙動を示すCPCの別の実施例を公式化することが可能である。
【0190】
CPCは、非周期的(および周期的)な信号成分を評価する装置で使用することができる。その定義に従って、CPCは、特性周波数に近い周期で振動するセグメントについて最大限に応答する。これがホールドする領域は、以下の基準を使用して識別し得る。
【数29】
rsC(t)>Csrs(t)、Cs<7 (29)
ここで、Csは、セグメント番号に依存し得る常数である。この定数の代表的な値は、すべてのs値について0.85である。この基準を満たすセグメント-時間プレーンの領域は、特性振動数に対応する周波数を有する信号成分によって引きずられる。ここで、CPCが非周期信号成分を決定する有用な方法を与えるが、また、周期信号成分によって強化された領域を識別することができる精度を効果的に向上させるのにも使用できることに注目されたい。これは、信頼性処置の評価において使用し得る。
【0191】
オンセット検出およびオフセット検出
CPCならびにコクレオグラムは、オンセットおよびオフセットを特定するのに使用し得る。これらは、定義毎に非周期的であり、したがって、周波数成分の連続体を生じさせる。オンセットは、立ち上がり時間で異なる可能性がある。シヌソイドの急速オンセットは、理想的な正弦応答に対する局所グループ遅延dsの2、3倍内で展開する非常に広い周波数コンテントを有する過渡状態を生じさせる。シヌソイドがより段階的に立ち上がる場合には、理想的な正弦応答の強さの段階的な立ち上がりと組み合って過渡状態を低下させることになる。シヌソイドの立ち上がり時間が局所グループ遅延と比較して小さいときには、過渡状態は広い周波数範囲を表し、これが顕著なインパルス様応答を生じさせることになる。立ち上がり時間が局部グループ遅延と比較して大きいときには、過渡状態は小さいかあるいは存在しない。オンセット後の各時点で、理想的な正弦応答はBM応答に近くなる。ここで、オフセットが、古い信号と破壊的に干渉する新しい信号のオンセットとして現れることに注目されたい。したがって、オフセットの検出技術は、オンセットの検出に非常に類似している。したがって、焦点はオンセットに絞る。
【0192】
オンセットを検出し得る方法の1つは、コクレオグラムあるいはCPCのいずれかから生じるスケールド・エネルギ勾配が閾値を上回るかどうかを測定することである。
【数30】
(30)
【0193】
使用できる閾値Conset(s、t0)の一例は、[t-t0,t]ms中のn×エネルギ・バリアンスである(雑音の多い音声の場合、n=2、t0=20が良く作動する)。局所グループ遅延に依存するおよび/またはセグメント方向sにおける勾配に依存する別の閾値を公式化してもよい。
【0194】
たいていの用途において、開始する信号成分のタイプを識別することが重要である。これは、オンセットの詳細および信号成分の連続的な展開をより注意深く分析することによって達成することができる。定常状態信号の立ち上がり時間との組み合わせにおける初期過渡状態の広大さ(応答しているセグメントの周波数範囲に関するもの)および持続時間は、信号の立ち上がり時間の信頼性の高いインジケータである。音声の場合、破裂音/B/、/P/、特に/T/は、多数のセグメントを含む過渡状態を引き起こす。これらは、オンセットのグラフィック描写における垂直方向構造を示す。これらの広大な過渡状態は、/s/、/f/のようなノイズ・バーストがないかあるいは最小限である。有声音化音声のオンセットは、しばしば、局部グループ遅延に比較してゆっくりであり、オンセット効果は最小である。電話器のビープ音のような人工的サウンドは、音声についての特徴のない急速オンセット(およびオフセット)に基づいて容易に識別され得る。
【0195】
マスク形成
自動音声認識のような用途の場合、認識されるべき信号のタイプの特性要件に一致する信号成分を識別するのに音声・コーディングが重要である。コクレオグラム、CPCおよびTACセレクションの対応する周期-輪郭との組み合わせを使用して、目標クラスの要件を満たす信号成分を反映するセグメント-時間プレーンにおけるマスク、すなわち、一組のエリアを識別することができる。マスクは、音声・コーディングあるいは音声認識中にどの信号成分が処理されることになるかを定義するのであるから、きわめて重要である。
【0196】
マスクを形成するということは2つのステージ・プロセスである。ステージ1において、すべての信号成分は個々に記述され、目標信号クラスの特性要件を満たさない信号成分は廃棄される。ステージ2において、すべての許容された信号成分は、互いの組み合わせで評価され、最終的なセレクションが行われる。マスク形成は目標クラスの特性に決定的に依存しているので、或る完全な基準セットを公式化することは不可能である。このセクションの残りの部分では、一例として音声信号処理を使用していくつかの有用な基準を説明する。
【0197】
信号成分のステージ1評価は、個々の信号成分の識別を伴う。このステージは、不十分なエネルギの領域またはローパスフィルタリングと関連した率に近い率でエネルギが減少する領域を排除することによって容易になる。ローパスフィルタリングを漏出性積分器として使用する場合、τミリ秒内の入力がないとして、オリジナル値をe-1=0.37まで減らす。τミリ秒あたりのエネルギの半分の損失に対応する率で減衰する信号成分すべてを排除する音声閾値が適当である。この領域排除は以下のように実施され得る。
【数31】
(31)
【0198】
MOrgは完全なセグメント-時間プレーンである。CEnergy(s,t)はエネルギについての閾値である。この閾値は、絶対値または局所エネルギの長期間平均に依存する値であり得る。CDecay(t)は減衰率についての閾値である。
【0199】
準周期信号の場合、基本的な周期-輪郭を評価し、TACセレクションを計算し得る。TACセレクション内で最も重要な倍音寄与を識別し、付帯的な相関による最もスプリアスな寄与を廃棄するために、TACセレクションをコクレオグラムのエネルギ値と比較してもよい。TACセレクションが局所エネルギの或る率、たとえば、0.25を上回るときはいつでも、対応する時間-セグメント領域は許容される。これは、以下に定義されるマスクMTACを生じさせる。
【数32】
(32)
【0200】
Mは完全なセグメント-時間プレーンを示し、CTAC(s、t)はsおよびtに依存し得るアクセプタンスについての閾値であり、rs,T(t)およびrs(t)はそれぞれTACセレクションおよびコクレオグラムを示している。ここで、各周期-輪郭T(t)がTACマスクを生じさせることに注目されたい。
【0201】
マッチング周波数成分によって引きずられる領域は、以下によって識別され得る。
【数33】
(33)
【0202】
ここで、rcs(t)は、たとえば、計算されるようなCPCを示し、CCPC(s)は、局所エントレインメントについてのセグメント依存基準である。
【0203】
オンセットは、同様の作戦を使用して識別することができる。
【数34】
(34)
【0204】
ここで、スケールド・エネルギ勾配(CPCまたはコクレオグラムを使用して計算する)は、BMに沿った位置ならびにt0に依存する或る時間範囲に依存し得る閾値COnset(s, t0)を越えてはならない。
【0205】
ここで、オンセット・マスクがしばしばCPCマスクおよび/またはTACマスクのサブセットであることに注目されたい。TACセレクションのピークは、CPCマスクにも現れている。組み合わされたマスクの「下」に表される情報は、さらなる処理からマスク領域を排除するのに使用し得る大量の基本的信号特性を提供する。これには、目標信号についての知識を必要とする。さらなる処理から或る領域を排除する代表的な音声基準は、以下のものを含む。
(過度に)不変のピッチを有するTACセレクション。
非現実的なフォルマント・パターンを伴うTACセレクション。
非現実的な急速オンセットを伴うTACセレクション。
【0206】
短くあるべき(たとえば、高周波成分については20ミリ秒、低周波成分については40ミリ秒)あるいは2または3より少ないセグメントを含むTACマスクのコヒーレント・エリア。
【0207】
非周期寄与の評価は、2つの補完的な方法を適用することによって可能である。第1の方法は、以下の式に従ってCPCマスクから、TACマスクによって表される領域(各周期-輪郭T(t)について1つずつ)を排除する。
【数35】
(35)
【0208】
これは、非周期的情報についてのマスクを生じさせる。このマスクは、クラス特有基準によるセグメント-時間プレーンの充分なエリアのコヒーレント寄与のみを示すように処理し得る。
【0209】
もう1つの方法は、CPCマスクの主コヒーレント領域について運転時自己相関を計算することである。自己相関が局所特性周期の2、3倍以内でゼロに近い値まで減少するとき、領域は非周期的である。この方法は、最初のパスで評価された領域が真に非周期的であることを確認するのに用いることができる。これら両方の方法の組み合わせで、非周期的領域を反映するセグメント-時間プレーンのコヒーレント領域を確実に評価することができる。
【0210】
マスク形成の第2ステージにおいて、個々の信号成分を結合する。このステージについては、他の目標-クラス依存制約を使用しなければならない。音声についての代表的な制約は、以下のものである。
【0211】
音声信号の非有声音化成分は、音声の有声音化部分と強く相関する。孤立した有声音化信号成分は廃棄してもよい。
【0212】
平均ピッチにおいてあまりに大きく異なる有声音化成分は、同じソースから始まりそうにない。許容された有声音化信号寄与は、言語学的にもっともらしく思われる周期-輪郭を形成しなければならない。
【0213】
重なり合うピッチ輪郭は、同じソースから生じることはあり得ない。
【0214】
これらの制約の適用は、目標ソースから生じるかも知れない多種多様な情報形態を表す1つまたはそれ以上のマスクを生じさせる。この情報を最適に使用することが、さらなる処理ステージの作業である。
【0215】
ここで、マスクを発生させるのに用いられる変数のすべてが関連する信頼性尺度を有することに注目されたい。これらの信頼性尺度は、マスク形成プロセス中に使用することができる。
【0216】
逆基底膜フィルタリング
TACが情報の聴覚事象への割り当てについての信頼性ある基礎を形成するので、これを使用して組み合わせサウンドを構成サウンド・ソースに分割することができるかどうかに疑問を持つかも知れない。
【0217】
TACコクレオグラムの時間-場所プレーンにおける或る領域を支配するすべての準周期的信号寄与は、基底膜振動を表す。基底膜モデルのこの実施例は、インパルス応答ベースの有限インパルス応答(FIR)フィルタとして実施されるので、時間内インパルス応答を逆にし、基底膜フィルタの二重使用によって生じる周波数効果を補正することによってフィルタリングを反転させることができる。
【0218】
完全反転はオリジナルの信号混合体を生じさせる。しかしながら、逆フィルタリングが目標ソースによって強化される時間-場所プレーンの領域に基づく場合には、出力は、理想的には、もっぱら目標の情報に基づく。先のセクションで定義したマスクはこの目的のために使用することができる。オンセットおよびオフセットの影響を減らすために、マスクは、単一のセグメントの長い連続的寄与からなるように処理する。すなわち、TACトレースの正の値における小さいホールを満たし、孤立した正ポイントを廃棄する。最後に、マスクは、滑らかな、10ミリ秒幅のオンセット、オフセットを備える。これは、図2.19の下方パネルに示すようなマスクを生じさせる。
【0219】
音質を改善するために、バックグラウンドは完全に廃棄されることはないが、調節可能な因数で低減する。この場合、100の振幅因数(エネルギによれば40dB)である。バックグラウンドを完全に廃棄しないことによって、不自然な「深い」無音が減らされ、/TWEE/の/T/のような非周期的寄与の或る種の証拠が信号に残る。これが認識を容易にする。こうして生じた再合成サウンドが基底膜モデルに与えられたとき、再び、再合成サウンドのコクレオグラムが計算され得る。これは、図2.20の中間パネルに示してある。再合成は、非有声音化領域を含むことはないが、これらの領域はマスクに加えることはできる。しかしながら、有声音化、非有声音化領域を確実に結合すること非常に難しい。
【0220】
上方パネルは、オリジナル信号のコクレオグラムを示している。この信号は、唯一の情報ソースを形成した。演繹的な情報は使用されなかったし、必要もない。下方パネルはきれいな基準を形成している。最後の単語の、完全にマスクをかけられている第2フォルマント構造とは別に、すべての重要な周期寄与が忠実に表してある。ここで、再合成されたコクレオグラムがより「fuzzy」であり、これが、バックグラウンドのスプリアス寄与によるものであることに注目されたい。これを避ける方法は、すべての個別の信号成分を測定し、平滑化し、それらを真の音声合成プロセスにおいて一緒に加えることである。
【0221】
コクレオグラムの再構築
先のセクションにおいて計算されるような再合成サウンドは、標準認識システム(例えばPhilips Freespeech and L&H VoiceXPressのような音声認識ソフトウェア)のための入力として使用し得る。認識システムの代わりの計算機的に有利な入力は、TAC-コクレオグラムに基づくものであってもよい。
【0222】
ASRシステムのための適切な入力は、ピッチの効果を抑制しながら目標音声のスペクトル・エンベロプの時間展開を記述する表現である。図2.7の上方右側パネルが示すように、きれいな信号の有声音化部分のTACコクレオグラムは標準コクレオグラムによく似ている。図2.17の下方パネルにあるTACコクレオグラムは、負の値を満たすことによってきれいなコクレオグラムにより良く似るように処理することができる。
【0223】
この再構築プロセスは、図2.21に示す2テップ・プロセスである。第1ステージは、個々の倍音の証拠を検索し、再構築の下半分を計算するのにこの証拠を使用する。第2ステージは、マスクおよび多種多様なマスク効果の近似を使用してスペクトルの残りの部分についての情報を加える。
【0224】
アルゴリズムの第1ステージは、セレクションの最初の60個のセグメントにおけるコヒーレント・リッジの評価である。これらのリッジは、セグメント番号に関して2未満異なる連続したピークを結合することによって、基本的な周期評価アルゴリズムにおけると同様に、形成される。15ミリ秒より長いリッジは、倍音の候補として許容される。基本的な周期-輪郭は知られているので、第1倍音のセグメント番号を予測することが可能である。平均して、最初の4つの倍音の予想値の1セグメント内にあるリッジは、倍音として許容される。ここで、この基準が時間的展開におけるミスマッチに基づいてスプリアス・リッジを廃棄できることに注目されたい。この方法でモデル化し得る倍音の数は、基底膜の空間的分解能に依存する。よりシャープにチューンしたBMモデルおよびより多いセグメント数の場合、より多い数の倍音を個別にモデル化することができる。この場合、最初の4つの倍音の許容領域が現在のBMモデルにおいて重なり合わないので、4つの倍音が個別に処理された。このアルゴリズムは、このパラメータの値にのみ弱い感度を持つ。
【0225】
図2.21の上方左側パネルは、すべての候補リッジを示す。これらのリッジに沿ったエネルギ展開は、各値を3ポイント局所平均値と取り替えることによって平滑化される。平滑化された倍音リッジは、式6に一致する連続した倍音の寄与を加えることによってオリジナルのコクレオグラムの評価を再構築するのに用いる。このプロセスは、図2.22の頂部パネルに示してある。
【0226】
再構築は、基本周波数の理想的なサイン-応答(図2.5に示すようなもの)を重み付けすることで開始する。ここで、倍音が周波数において上向きにのみ各々に影響を与えると仮定する。第2倍音の位置のところで、エネルギの一部は第1倍音によるものであり得、エネルギの残りの部分は、第2倍音の理想的なサイン-応答を重み付けるのに使用される。図2.22において、第3倍音の位置のエネルギのかなりの部分が第2倍音によるものでなければならず、第4倍音は比較的重要である。4つの倍音のみを使用して生じた部分的な再構築が黒で示してある。
【0227】
アルゴリズムの第2ステージは、高周波範囲の再構築である。マスクは、再び、目標の情報を最も表している領域を正確に指摘するのに用いられる。部分的な再構築を上回るマスクの下の選定値が、部分的な再構築の値と置き換わる。このステップの結果が、図2.21の下方左側パネルに示してある。このステージは、非現実的な上向き、下向きの勾配を有する高周波寄与に通じる。図2.22の上方パネルにおける黒のピークはこれを明瞭に示している。再構築を余分な情報を付加することなくより現実的にするために、マスクのリッジを、フランクの次のピークの位置を刺激するソースと一致するマスキング効果を表すフランクと共に増大させてもよい。これらは、再び、サイン-応答から評価し、再構築に付加することができる。最後に、BMのリンギング・アウト効果および漏出性積分の効果を指数関数型減衰としてモデル化することができる。これは、再構築の順方向マスキング効果をモデル化する。最終的な再構築が図2.21の下方右側パネルに示してあり、図2.22の下方パネルに黒で描いてある。
【0228】
視覚点検は、再構築がしばしば高品質であることを示す。信号の一部(たとえば、図2.22の高周波範囲は、非常に好ましくない局所的信号対雑音比を有する。図2.22の下方パネルで分かるように、破線の目標が全エネルギに対応する一点鎖線に近いとき、正しい再構築の確率が高い。これは、局所SNRが好ましい(SNR>3dB)場合の状況と一致する。破線と一点鎖線の距離が大きくなると、再構築が不正確となる確率が高くなる。距離が3dB(0dBの局所SNRに対応する)より大きくなると、再構築はスプリアス寄与を含むことになりそうである。一例がセグメント71まわりに見える。
【0229】
これにより、図2.28に示すように、合成コレログラムが生じる。上方パネルが、きれいな信号のTACに基づく「再構築」を示している。図2.20の下方パネルと比較すると、両方の図の主成分が非常に類似しているがわかる。これは、再構築方法の妥当性を示す。図2.23の下方パネルは、雑音の多いデータから推定されるようなTACに基づく再構築を示している。この信号の一部はマスキングされており、バックグラウンドのいくつかのスプリアス寄与が付加されているので、完全一致はないが、両方の図の主特徴は類似している(視覚点検の下で)。
【0230】
ここで説明した手順は、個別のソースから信号を再構築することができる唯一の可能性ある方法ではない。種々のサブプロセスの説明において言及したように、選択肢が利用できる。このような選択肢は、信頼性セクションで説明したように、個別の倍音の強さを決定するためにマスク形成または逆マトリックス方法をガイドする信頼性手段の使用も含むことになろう。
【0231】
再構築プロセスの別の実施例では、個別信号成分評価のセクションで説明した信号成分評価技術の変形例を使用する。この実施例においては、マスクは信頼性が高い領域を正確に指摘するのに用いる。マスク外側の値がゼロにセットされるようにE、Rの両方を適用する。w=R-1の解が所望の重み付けを与える。
【0232】
この再構築プロセスは、また、選定した信号の倍音内容を記述するのにも使用され得る。この記述は、たとえば、信号を表しているデータを効果的に符号化するのに使用し得る。このような倍音内容記述は、また、さらなる信号分析においても使用し得る。
【0233】
パラメータ化
HMMベースのASRシステムでは、ピッチ情報のような誤った選択肢なしに目標音声のスペクトル・エンベロプの評価を必要とする。図2.23に示すような表現は、最もエネルギのある成分が第1倍音であるから、あまり適切でない。これらはフォルマント情報を担持しているが、第1フォルマントの細部実現はピッチに強く依存する。無関係なピッチ差の影響を減らし、そして、第2、第3のフォルマントを強調するために、圧縮コクレオグラムの値にセグメント依存係数を掛け合わせてもよい。この係数は、たとえば、第1セグメントについて1であり、最終セグメントについては5である。中間セグメントの乗算係数は、2つの極値間の線形補間であってもよい。
【0234】
これは、プレエンファシスとしての類似した効果を伴う操作である。すなわち、ASRの標準方法内で通常適用され、すべての周波数が類似したエネルギを導くスペクトルを生じさせるハイパス・フィルタリングの形をしている。このプレエンファシス形態に続いて、スペクトル・エンベロプを評価するアルゴリズムを使用、たとえば、連続的な倍音のピークを連結してもよい。
【0235】
最終ステップとして、コクレオグラムのエンベロプをできる限り効率的に符号化しなければならない。MFCC値と同様のパラメータのセットとして生成するために、「強化された」コクレオグラムのコサイン変換を実施してもよい。その結果は、ケプストラムのバリアントである。低い空間周波数を表すケプストラムの最初の8〜14個の値を保持し、残りを廃棄する。最後に、連続したフレーム間の時間ステップを、連続した値を平均することによって、5ミリ秒から10ミリ秒まで増大させる。これにより、フレーム・ステップを標準値に持って行き、処理速度を上げる。これらの値は、ハードディスクに保存し、音声認識システムのために入力として使用する。
【0236】
保存したパラメータはあまり参考にならないが、逆コサイン変換を使用してコクレオグラム様表現へ変換し戻してもよい。結果が図2.24に示してある。
【0237】
両方のパネルは、音声認識システムに利用できる情報を反映する。上方パネルはオリジナルのきれいな信号に基づいている。セグメントあたりのエネルギ寄与は1〜5の値だけ強化され、スペクトル・エンベロプは12個のセプスタル係数で符号化される。図2.24の下方パネルと比較して、高周波セグメントはかなり目立っており、第1倍音はそれより目立たず、そして、フォルマント特徴がより広くなっている。下方パネルは、図2.23の再構築されたTACコクレオグラムに基づいており、それは理想的なコクレオグラムとの良好な全体的な一致を示しているが、マスキングおよびスプリアス・バックグラウンド寄与による雑音が多い。これら2つの表現は、認識システムのための入力として適当である。
【図面の簡単な説明】
【図1.1】 既知の基底膜を示す図である。
【図1.2】 本発明による装置のブロック図である。
【図1.3】 基底膜モデルの1つのセグメントに対して決定される自己相関関数を示す図である。
【図1.4】 基底膜モデルの全セグメントに対して決定される周波数エネルギー推定スペクトルを示す図である。
【図1.5】 二次元図に集合された図1.3及び図1.4の結果を示す図である。
【図1.6】 図1.2に示されたローパスフィルタの第1例のブロック図である。
【図1.7】 図1.2に示されたローパスフィルタの第2例のブロック図である。
【図1.8】 図1.7に示されたローパスフィルタの第2例の拡張のブロック図である。
【図1.9】 本発明による方法例のフローチャートである。
【図2.1】 非コイル状基底膜を概略的に示すと共に、BMセグメント速度を時間の関数として例示するグラフである。
【図2.2】 ワード「NUL」に対するBMモデルのセグメントの動きを時間の関数として示す二次元グラフ即ち蝸牛図である。
【図2.3】 図2.2の蝸牛図において175msのバーの位置の断面を示す図である。
【図2.4】 セグメント位置の関数としてBMモデルの周波数応答を示すグラフである。
【図2.5】 異なる周波数の正弦波に対しセグメント位置の関数としてエネルギーを示すグラフである。
【図2.6】 セグメント位置の関数としてのエネルギー分布、及びエネルギー分布の高調波近似の選択を示すグラフである。
【図2.7】 ノイズなし信号と、カクテルパーティノイズが追加された信号とに対する同調自己相関(TAC)を示すグラフである。
【図2.8】 /NUL/における/U/から導出される時間正規化コレログラムを示す図である。
【図2.9】 ノイズを伴う及び伴わない信号から決定される隆起を示すグラフである。
【図2.10】 幾つかの隆起及びこれら隆起の1つから推定されるローカル周波数の自己相関を示すグラフである。
【図2.11】 図2.9において/NUL/からt=250msで推定される自己相関のグラフである。
【図2.12】 クリーンな及びノイズのある条件において時間の関数として推定される瞬時周波数を示すグラフである。
【図2.13】 センテンス/NUL EEN TWEE DRIE/に対し、蝸牛図、隆起のグラフ及び瞬時周波数輪郭を時間の関数として示す。
【図2.14】 ローカル瞬時周期のグラフ、図2.13の瞬時周波数輪郭の反転、及びこれらローカル瞬時周期に適用される平滑化方法のグラグ結果である。
【図2.15】 図2.14の平滑化された輪郭に一致する基本的周期輪郭仮説のグラフ、及びこれらの仮説から選択される基本的周期輪郭を示す。
【図2.16】 図2.15の選択された輪郭から推定されるピッチ輪郭を時間の関数として示すグラフである。
【図2.17】 図2.16の推定された周期輪郭に基づく同調された自己相関選択の結果を示すグラフである。
【図2.18】 図2.10の自己相関が導出されるところの時間正規化相関(TNC)の一部分を示す図である。
【図2.19】 TAC値がローカルエネルギーの1/4より大きい図2.13の領域及びこれら領域から導出されるマスクのグラフである。
【図2.20】 ノイズ性信号、クリーンな信号、及びノイズ性信号から導出される再合成信号を示すグラフである。
【図2.21】 再構成プロセスの次々の段階における図2.20のノイズ性信号のグラフである。
【図2.22】 図2.21においてt=275msに対応する再構成された蝸牛図の断面を示す。
【図2.23】 確認に使用されるケプストラム係数により表わされる情報の蝸牛図である。
【図3.1】 ピークテンプレートをベースとするスペクトルにおけるピークの選択を示すグラフである。
【図3.2 A−C】 ピーク選択の次々の段階の結果を示すグラフである。
【図3.3 A−G】 入力周波数175Hz、350Hz、525Hz及び750Hzに対するピッチ分布を示すグラフである。
【図3.4 A−G】 入力周波数250Hz、375Hz、500Hz及び750Hzに対するピッチ分布を示すグラフである。
【図3.5 A−B】 図3.3の入力周波数の組合せに対して選択されたマトリクス及び行と、それにより得られる最終的な分布とを示す図である。
【図3.6】 一般的なピッチ推定方法の次々の段階を概略的に示すフローチャートである。
【図3.7 A−B】 自己相関及び加算自己相関のグラフである。
Claims (53)
- 入力信号の周波数特性を推定するための装置であって、
音響振動を神経情報に変換する基底膜をモデル化した装置と、前記基底膜モデル装置に接続された相関装置と、を備え、前記基底膜をモデル化した装置には前記入力信号が印加され、
前記相関装置は、
第1入力が前記基底膜モデルのセグメントに接続されることで該セグメントから生じる、前記基底膜モデルの出力信号の基底膜信号を受信し、この基底膜信号は、所定の時間周期中に存在するものであり、更に、
少なくとも1つの第2入力が前記基底膜モデル装置の同じセグメントに接続され、調整可能な時間シフトT1にわたってシフトされた基底膜信号を受信し、更に、
前記相関装置は、時間シフトT1に依存した出力信号を発生し、該出力信号は、前記セグメントの基底膜信号に実質的に存在する周波数に更に依存すると共に、各ピークの位置が単一信号成分により支配されるコレオグラムの表現態様によって前記入力信号の広帯域な周期構造を表現し、前記コレオグラムにおいては前記ピークの組み合わせでリッジが形成され、そして信頼性できるリッジのメンバーとして分類されることができない前記ピークの位置を破棄して、前記コレオグラムのピークにサーチ領域を縮小することにより、前記入力信号の広帯域な周期構造が前記時間シフトT1に依存した出力信号により排他的に決定され、該出力信号は、前記入力信号の周波数内容の尺度を形成する、
というように構成された装置。 - 前記調整可能な時間シフトT1は、前記セグメントの特性周波数の逆数に実質的に対応するように調整される、請求項1に記載の装置。
- 前記基底膜モデルの複数のセグメントが、各々、別々の相関装置に接続され、そして前記装置は、更に、前記セグメントの基底膜信号に主として存在する共通の周期を決定するために少なくとも幾つかの前記相関装置の各出力に接続された相互相関装置を備えた、請求項1又は2の記載の装置。
- 前記相関装置は、群遅延を修正する装置を伴う時間正規化相関装置として実施される、請求項1から6のいずれかに記載の装置。
- ソース信号のスペクトルを決定するための装置において、
音響振動を神経情報に変換するための基底膜をモデル化した装置と、
前記基底膜モデルに接続された相関装置と、を備え、前記基底膜をモデル化した装置にはソース信号を含む入力信号が印加され、
前記相関装置は、
前記基底膜の複数のセグメントの各々に対して前記基底膜のセグメントから生じる、前記基底膜モデルの出力信号の基底膜信号を受信するための第1入力、及び
調整可能な時間シフトT2にわたりシフトされた基底膜信号を受信するための少なくとも1つの第2入力、
を含み、前記相関装置は、各ピークの位置が単一信号成分により支配されるコレオグラムの表現態様によって前記入力信号の広帯域な周期構造を表現し、前記コレオグラムにおいては前記ピークの組み合わせでリッジが形成され、そして信頼性できるリッジのメンバーとして分類されることができない前記ピークの位置を破棄して、前記コレオグラムのピークにサーチ領域を縮小することにより、前記ソース信号の広帯域な周期構造が前記時間シフトT2に依存して排他的に決定され、前記ソース信号に主として存在するエネルギースペクトルに対する尺度を形成するセグメントによって決まる出力信号を発生させる、
というように構成された装置。 - 前記調整可能な時間T2は、前記セグメントの基底膜信号に主として存在する少なくとも1つの共通の周期に依存するようにセットされる、請求項3から9のいずれかに記載の装置。
- 前記調整可能な時間T2が、基底膜信号のセグメントによって決まる群遅延に更に依存するようにセットされる、請求項10に記載の装置。
- 信号のピークを決定するための装置において、
信号が印加される基底膜モデル装置と、
前記基底膜モデルのセグメントへの入力に各々接続された複数の積分装置であって、前記基底膜信号から励起信号を発生して、その励起信号を前記積分装置の出力へ送信し、時間×セグメント位置×励起信号の三次元マトリクスが蝸牛図(コレオグラム)を形成するような積分装置と、
前記積分装置の出力に接続されて、前記励起信号のピークを決定するためのピークサーチ装置と、を備え、
前記基底膜モデルのセグメントには相関装置が接続され、該相関装置は、前記ピークサーチ装置にも通信接続されると共に、該相関装置には、選択された位置のセグメントの励起信号が印加され、該選択された位置、及びそれに対応するセグメントは、前記ピークサーチ装置により決定されたピークに基づいて時間的に変化し、前記相関装置は、各ピークの位置が単一信号成分により支配される蝸牛図の表現態様によって前記入力信号の広帯域な周期構造を表現し、前記蝸牛図においては前記ピークの組み合わせでリッジが形成され、そして信頼性できるリッジのメンバーとして分類されることができない前記ピークの位置を破棄して、前記蝸牛図のピークにサーチ領域を縮小する、
というように構成された装置。 - 前記相関装置は、群遅延を修正する装置を伴う時間正規化相関装置として実施される、請求項12から14のいずれかに記載の装置。
- 前記基底膜モデル装置に接続された基本周期の輪郭推定(fundamental period contour estimation)のための装置を更に備え、該装置が、
前記基底膜モデルに接続された入力、
推定されたリッジ及び瞬時周期の輪郭を決定するためのリッジ決定装置、
前記リッジ決定装置に接続され、最も信頼性のある平滑な瞬時周期の輪郭を選択するためのリッジセレクタ装置、
前記リッジセレクタ装置に接続され、周期輪郭を全ての考えられる基本周期に複製するための高調波複製装置であって、考えられる基本周期の周期的な輪郭の各組み合せで輪郭の理論的な仮定を形成する当該高調波複製装置、
前記高調波の複製装置に接続され、最も信頼性のある周期輪郭を選択するための複製輪郭のセレクタ装置、
前記複製輪郭のセレクタ装置に接続され、前記選択された最も信頼性があり且つ平滑化された瞬時周期の輪郭の実質的な部分に対応する輪郭の理論的な仮定を少なくとも1つ選択するためのセレクタ装置、及び
前記セレクタ装置に接続され、前記選択された輪郭の理論的な仮定を更に送信するための出力、を含んでいる請求項1から16のいずれかに記載の装置。 - 前記信号は音響信号である、請求項1から17のいずれかに記載の装置。
- 入力と、
請求項1から18のいずれかに記載の装置と、
前記装置に接続され、確認されるべき信号を表わすデータを含むメモリ手段と、
前記装置の出力からの信号を、前記確認されるべき信号と比較し、そして前記確認されるべき信号から、前記装置の出力からの信号に最も良く似た最類似信号を決定するように構成されたプロセッサ装置と、
出力と、
を備えた信号認識システム。 - 前記認識されるべき信号は、スピーチ信号を表わす、請求項19に記載の信号認識システム。
- 入力と、
前記入力に接続された、請求項1から18のいずれかに記載の装置と、
前記装置の入力に受け取られた信号の、前記装置により決定された信号成分値を読み取り、そしてそれらの値を送信するためのプロセッサ手段と、
前記プロセッサ手段に接続された出力と、
を備えたデータ圧縮システム。 - 請求項21に記載のシステムで決定される信号成分値を受け取るための入力と、
前記信号成分値を読み取って、オリジナル信号を再構成するためのプロセッサ手段と、 前記オリジナル信号を出力するための出力と、
を備えたデータ拡張システム。 - 入力と、
請求項1から18のいずれかに記載の第1装置と、
前記第1装置の出力に接続されて、基底膜信号の一部分を選択するためのマスキング装置と、
前記第1装置とは実質的に逆であって、基底膜信号の前記選択された部分の蝸牛図(コレオグラム)におけるリッジの評価によってハーモニックス(倍音)を検索し、且つ高調波範囲にマスキング処理をすることよって前記蝸牛図を再構成し、そして前記マスキング装置の出力に接続された入力を有している第2装置と、
前記第2装置の出力に接続された出力と、
を備えた信号改善システム。 - 前記マスキング装置は、
同位相の(coherent)リッジを選択するためのリッジ推定装置と、
前記選択された同位相のリッジを正弦波応答に置き換えるための正弦波応答加算装置と、
前記正弦波応答の強度がオリジナル信号の強度より低い場合には、正弦波応答をオリジナル信号と置き換えるための加算装置と、
前記信号の不連続部を除去するための平滑化装置と、
を備えた請求項22に記載の信号改善システム。 - ソース信号の周波数特性を推定するための方法において、
前記ソース信号を入力で受信するステップと、
多数のセグメントを有する基底膜の前記ソース信号に対する応答をシミュレーションして、入力信号を発生するステップと、
前記入力信号から基底膜のセグメントに少なくとも1つの励起信号を発生させて、セグメント×時間×励起信号の三次元マトリクスで蝸牛図(コレオグラム)を形成するようにするステップと、
調整可能な時間シフトで前記少なくとも1つの励起信号の少なくとも1つをシフトすることによりシフト信号を発生するステップと、
前記少なくとも1つの励起信号の少なくとも1つを前記シフト信号と合成して、前記励起信号と前記少なくとも1つのシフト信号の少なくとも1つとの間の相関の尺度を得るステップと、
各ピークの位置が単一信号成分により支配される蝸牛図の表現態様によって前記入力信号の広帯域な周期構造を表現し、前記蝸牛図においては前記ピークの組み合わせでリッジが形成され、そして信頼性できるリッジのメンバーとして分類されることができない前記ピークの位置を破棄して、前記蝸牛図のピークにサーチ領域を縮小するステップと、
を備えた方法。 - 前記シフト信号は、入力信号から発生され、且つ前記シフト信号は、その同じ入力信号と合成される、請求項25に記載の方法。
- 前記シフト信号は、入力信号から発生され、且つ前記シフト信号は、複数の基底膜セグメントの各々に対してその同じ入力信号と合成される、請求項26に記載の方法。
- 前記合成は、群遅延を修正するステップを含む時間正規化相関ステップにより遂行される、請求項25から29のいずれかに記載の方法。
- 調整可能な時間T2は、前記セグメントの基底膜信号に主として存在する少なくとも1つの共通の周期に依存するようにセットされる、請求項25から31のいずれかに記載の方法。
- 少なくとも1つの励起信号を発生する前記ステップの後で、前記蝸牛図のセグメント領域が有している励起信号の周波数を基に、時間を決定するステップを遂行し、そして
前記決定された領域に基づいて前記時間シフトを調整する、請求項32に記載の方法。 - 信号のピークを決定する方法において、
ソース信号を入力装置で受信するステップと、
多数のセグメントを有する基底膜の前記ソース信号に対する応答をシミュレーションして、入力信号を発生するステップと、
前記入力信号から基底膜セグメントの少なくとも1つの励起信号を発生するステップと、
前記励起信号のピークを決定するステップと、
選択された位置のセグメントの励起信号を合成するステップであって、選択された位置及びそれに対応するセグメントは、前記決定されたピークに基づいて時間的に変化する当該ステップと、
各ピークの位置が単一信号成分により支配されるコレオグラムの表現態様によって前記入力信号の広帯域な周期構造を表現し、前記コレオグラムにおいては前記ピークの組み合わせでリッジが形成され、そして信頼性できるリッジのメンバーとして分類されることができない前記ピークの位置を破棄して、前記コレオグラムのピークにサーチ領域を縮小するステップと、
を備えた方法。 - 前記合成は、群遅延の修正を伴う時間正規化相関ステップとして遂行される、請求項33から35のいずれかに記載の方法。
- 基本周期の輪郭を推定するステップを更に備え、このステップは、
推定されたリッジ及び瞬時周期の輪郭を決定する段階、
最も信頼性のある平滑な瞬時周期の輪郭を選択する段階、
周期輪郭を全ての考えられる基本周期に複製する段階であって、考えられる基本周期の周期的な輪郭の各組み合せで輪郭の理論的な仮定を形成する当該複製段階、
最も信頼性のある周期輪郭を選択する段階、
前記選択された最も信頼性があり且つ平滑化された瞬時周期の輪郭の実質的な部分に対応する輪郭の理論的な仮定を少なくとも1つ選択する段階、及び
前記選択された輪郭の理論的な仮定を更に送信する段階、
を含む請求項25から37のいずれかに記載の方法。 - 前記信号は音響信号である、請求項25から38のいずれかに記載の方法。
- 信号を確認する方法において、
請求項25から39のいずれかに記載の方法と、
出力信号を確認されるべき信号と比較して、前記確認されるべき信号から、前記信号に最も良く似た最類似信号を決定するステップと、
を備えた方法。 - 前記確認されるべき信号はスピーチ信号を表わす、請求項40に記載の方法。
- データを圧縮する方法において、
請求項25から42のいずれかに記載の方法と、
受信した信号の、前記方法で決定された信号成分値を読み取って、その値を更に送信するステップと、
を備えた方法。 - データを拡張する方法において、
請求項43に記載の方法で決定された信号成分値を受け取るステップと、
前記信号成分値を読み取って、オリジナル信号を再構成するステップと、
前記オリジナル信号を出力するステップと、
を備えた方法。 - 信号を改善する方法において、
請求項25から39のいずれかに記載の第1の方法と、
基底膜信号の部分を選択するステップと、
前記第1の方法の実質的に逆であって、前記選択された部分を入力として使用し、前記基底膜信号の前記選択された部分の蝸牛図におけるリッジの評価によってハーモニックス(倍音)を検索し、且つ高調波範囲にマスキング処理をすることよって前記蝸牛図を再構成するための第2の方法と、
を備えた方法。 - 前記選択ステップは、
同位相の(coherent)リッジを選択する段階、
前記選択された同位相のリッジを正弦波応答に置き換える段階、
前記正弦波応答の強度がオリジナル信号の強度より低い場合に正弦波応答をオリジナル信号に置き換える段階、
信号の不連続部を除去する段階、
を含む請求項45に記載の方法。 - 前記音響信号は、少なくとも1人の話し手からのスピーチを含む、請求項25から46のいずれかに記載の方法。
- 前記ソース信号は、信号の未知の混合である、請求項25から47のいずれかに記載の方法。
- 前記検出信号を選択するステップの後に、前記検出信号を更に分析する、請求項24から48のいずれかに記載の方法。
- コンピュータシステムで実行されるコンピュータプログラムにおいて、コンピュータシステムで実行されるときに請求項25から49のいずれかに記載の方法のステップを遂行するためのコード部分を含むことを特徴とするコンピュータプログラム。
- 請求項50に記載のコンピュータプログラムを記録したコンピュータ読取り可能なデータ記憶媒体。
- ノイズを示す音響信号の周波数内容を推定する装置であって、
多数の直列接続のセグメントを有し、前記音響信号を受信するように構成された音響振動を神経情報に変換する基底膜をモデル化した装置と、前記基底膜に接続されて、推定信号を発生するローパスフィルタとを含み、
前記ローパスフィルタは、第1及び第2入力を有する乗算器として設計され、前記第1入力は、前記基底膜のセグメントから生じて所定の時間中存在する信号を受信するように構成され、且つ前記第2入力は、調整可能な時間T1にわたってシフトされた信号を受信するように構成され、
更に、前記乗算器は、時間T1によって決まる出力信号を発生し、該出力信号は、前記セグメントの信号に実質的に存在する周波数によって決まると共に、
各ピークの位置が単一信号成分により支配されるコレオグラムの表現態様によって前記音響信号の広帯域な周期構造を表現し、前記コレオグラムにおいては前記ピークの組み合わせでリッジが形成され、そして信頼性できるリッジのメンバーとして分類されることができない前記ピークの位置を破棄して、前記コレオグラムのピークにサーチ領域を縮小することにより、前記音響信号の広帯域な周期構造が前記時間シフトT1に依存した出力信号により排他的に決定され、前記音響信号の周波数内容に対する尺度を形成するものであることを特徴とする装置。 - ノイズを示す音響信号のスペクトルを推定する装置であって、
前記音響信号を受信するように構成され、多数の直列接続されたセグメントを有する基底膜モデルと、前記基底膜に接続されて、推定信号を発生するローパスフィルタとを含み、
前記ローパスフィルタは、第1及び第2入力を有する乗算器として設計され、使用中、前記基底膜の各セグメントに対して、前記第1入力には、前記セグメントから生じる信号が印加され、且つ前記第2入力には、前記信号が時間T2にわたってシフトされて印加され、更に、前記乗算器は、各ピークの位置が単一信号成分により支配されるコレオグラムの表現態様によって前記音響信号の広帯域な周期構造を表現し、前記コレオグラムにおいては前記ピークの組み合わせでリッジが形成され、そして信頼性できるリッジのメンバーとして分類されることができない前記ピークの位置を破棄して、前記コレオグラムのピークにサーチ領域を縮小することにより、前記音響信号の広帯域な周期構造が前記時間シフトT2に依存した信号により排他的に決定され、前記音響信号に実質的に存在する周波数エネルギースペクトルに対する尺度を形成するセグメントによって決まる出力信号を発生することを特徴とする装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL1013500 | 1999-11-05 | ||
NL1013500A NL1013500C2 (nl) | 1999-11-05 | 1999-11-05 | Inrichting voor het schatten van de frequentie-inhoud of het spectrum van een geluidssignaal in een ruizige omgeving. |
PCT/NL2000/000808 WO2001033547A1 (en) | 1999-11-05 | 2000-11-06 | Methods and apparatuses for signal analysis |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003513339A JP2003513339A (ja) | 2003-04-08 |
JP4566493B2 true JP4566493B2 (ja) | 2010-10-20 |
Family
ID=19770203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001535156A Expired - Fee Related JP4566493B2 (ja) | 1999-11-05 | 2000-11-06 | 信号分析方法及び装置 |
Country Status (10)
Country | Link |
---|---|
US (1) | US6745155B1 (ja) |
EP (1) | EP1228502B1 (ja) |
JP (1) | JP4566493B2 (ja) |
CN (1) | CN1286084C (ja) |
AT (1) | ATE354849T1 (ja) |
AU (1) | AU1740801A (ja) |
CA (1) | CA2390244C (ja) |
DE (1) | DE60033549T2 (ja) |
NL (1) | NL1013500C2 (ja) |
WO (1) | WO2001033547A1 (ja) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1244093B1 (en) * | 2001-03-22 | 2010-10-06 | Panasonic Corporation | Sound features extracting apparatus, sound data registering apparatus, sound data retrieving apparatus and methods and programs for implementing the same |
US7136813B2 (en) * | 2001-09-25 | 2006-11-14 | Intel Corporation | Probabalistic networks for detecting signal content |
FR2834363B1 (fr) * | 2001-12-27 | 2004-02-27 | France Telecom | Procede de caracterisation d'un signal sonore |
US7065485B1 (en) * | 2002-01-09 | 2006-06-20 | At&T Corp | Enhancing speech intelligibility using variable-rate time-scale modification |
US7376553B2 (en) * | 2003-07-08 | 2008-05-20 | Robert Patel Quinn | Fractal harmonic overtone mapping of speech and musical sounds |
US7672834B2 (en) * | 2003-07-23 | 2010-03-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for detecting and temporally relating components in non-stationary signals |
US7522961B2 (en) | 2004-11-17 | 2009-04-21 | Advanced Bionics, Llc | Inner hair cell stimulation model for the use by an intra-cochlear implant |
US7242985B1 (en) * | 2004-12-03 | 2007-07-10 | Advanced Bionics Corporation | Outer hair cell stimulation model for the use by an intra—cochlear implant |
US7742914B2 (en) * | 2005-03-07 | 2010-06-22 | Daniel A. Kosek | Audio spectral noise reduction method and apparatus |
US20060206320A1 (en) * | 2005-03-14 | 2006-09-14 | Li Qi P | Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers |
JP2006309162A (ja) * | 2005-03-29 | 2006-11-09 | Toshiba Corp | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム |
KR100724736B1 (ko) * | 2006-01-26 | 2007-06-04 | 삼성전자주식회사 | 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치 |
US7729775B1 (en) | 2006-03-21 | 2010-06-01 | Advanced Bionics, Llc | Spectral contrast enhancement in a cochlear implant speech processor |
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
US8457754B2 (en) * | 2006-06-16 | 2013-06-04 | Second Sight Medical Products, Inc. | Apparatus and method for electrical stimulation of human neurons |
US8311634B2 (en) * | 2006-06-16 | 2012-11-13 | Second Sight Medical Products Inc. | Apparatus and method for electrical stimulation of human retina |
US7995771B1 (en) | 2006-09-25 | 2011-08-09 | Advanced Bionics, Llc | Beamforming microphone system |
US7864968B2 (en) * | 2006-09-25 | 2011-01-04 | Advanced Bionics, Llc | Auditory front end customization |
US10319313B2 (en) * | 2007-05-21 | 2019-06-11 | E Ink Corporation | Methods for driving video electro-optic displays |
EP2028651A1 (en) * | 2007-08-24 | 2009-02-25 | Sound Intelligence B.V. | Method and apparatus for detection of specific input signal contributions |
JP4925018B2 (ja) * | 2008-04-04 | 2012-04-25 | アンリツ株式会社 | 基本波ビート成分検出方法及びそれを用いる被測定信号のサンプリング装置並びに波形観測システム |
KR20090122143A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
JP2012503212A (ja) * | 2008-09-19 | 2012-02-02 | ニューサウス イノベーションズ ピーティーワイ リミテッド | オーディオ信号分析方法 |
US8359195B2 (en) * | 2009-03-26 | 2013-01-22 | LI Creative Technologies, Inc. | Method and apparatus for processing audio and speech signals |
US20110178800A1 (en) * | 2010-01-19 | 2011-07-21 | Lloyd Watts | Distortion Measurement for Noise Suppression System |
CN101806835B (zh) * | 2010-04-26 | 2011-11-09 | 江苏中凌高科技有限公司 | 基于包络分解的间谐波测量仪 |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
US20120143611A1 (en) * | 2010-12-07 | 2012-06-07 | Microsoft Corporation | Trajectory Tiling Approach for Text-to-Speech |
US20120197643A1 (en) * | 2011-01-27 | 2012-08-02 | General Motors Llc | Mapping obstruent speech energy to lower frequencies |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
KR102212225B1 (ko) * | 2012-12-20 | 2021-02-05 | 삼성전자주식회사 | 오디오 보정 장치 및 이의 오디오 보정 방법 |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
EP2963646A1 (en) | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal |
CN106797512B (zh) | 2014-08-28 | 2019-10-25 | 美商楼氏电子有限公司 | 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质 |
US9980046B2 (en) * | 2016-09-29 | 2018-05-22 | Invensense, Inc. | Microphone distortion reduction |
CN109540545B (zh) * | 2018-11-30 | 2020-04-14 | 厦门大学 | 拖拉机用动力输出总成异响诊断信号采集装置及处理方法 |
CN112763980B (zh) * | 2020-12-28 | 2022-08-05 | 哈尔滨工程大学 | 一种基于方位角及其变化率的目标运动分析方法 |
US11830481B2 (en) * | 2021-11-30 | 2023-11-28 | Adobe Inc. | Context-aware prosody correction of edited speech |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3622706A (en) * | 1969-04-29 | 1971-11-23 | Meguer Kalfaian | Phonetic sound recognition apparatus for all voices |
DE3070698D1 (en) * | 1979-05-28 | 1985-07-04 | Univ Melbourne | Speech processor |
CA1189147A (en) * | 1980-12-12 | 1985-06-18 | James F. Patrick | Speech processors |
US5473759A (en) * | 1993-02-22 | 1995-12-05 | Apple Computer, Inc. | Sound analysis and resynthesis using correlograms |
US6072885A (en) * | 1994-07-08 | 2000-06-06 | Sonic Innovations, Inc. | Hearing aid device incorporating signal processing techniques |
WO1997013127A1 (en) * | 1995-09-29 | 1997-04-10 | International Business Machines Corporation | Mechanical signal processor based on micromechanical oscillators and intelligent acoustic detectors and systems based thereon |
US5856722A (en) * | 1996-01-02 | 1999-01-05 | Cornell Research Foundation, Inc. | Microelectromechanics-based frequency signature sensor |
US5879283A (en) * | 1996-08-07 | 1999-03-09 | St. Croix Medical, Inc. | Implantable hearing system having multiple transducers |
US6501399B1 (en) * | 1997-07-02 | 2002-12-31 | Eldon Byrd | System for creating and amplifying three dimensional sound employing phase distribution and duty cycle modulation of a high frequency digital signal |
EP0980064A1 (de) * | 1998-06-26 | 2000-02-16 | Ascom AG | Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen |
-
1999
- 1999-11-05 NL NL1013500A patent/NL1013500C2/nl not_active IP Right Cessation
-
2000
- 2000-11-06 EP EP00980108A patent/EP1228502B1/en not_active Expired - Lifetime
- 2000-11-06 AU AU17408/01A patent/AU1740801A/en not_active Abandoned
- 2000-11-06 US US10/129,460 patent/US6745155B1/en not_active Expired - Lifetime
- 2000-11-06 AT AT00980108T patent/ATE354849T1/de not_active IP Right Cessation
- 2000-11-06 CA CA2390244A patent/CA2390244C/en not_active Expired - Fee Related
- 2000-11-06 DE DE60033549T patent/DE60033549T2/de not_active Expired - Lifetime
- 2000-11-06 CN CN00818227.2A patent/CN1286084C/zh not_active Expired - Fee Related
- 2000-11-06 WO PCT/NL2000/000808 patent/WO2001033547A1/en active Search and Examination
- 2000-11-06 JP JP2001535156A patent/JP4566493B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US6745155B1 (en) | 2004-06-01 |
CN1421030A (zh) | 2003-05-28 |
NL1013500C2 (nl) | 2001-05-08 |
DE60033549T2 (de) | 2007-11-22 |
EP1228502A1 (en) | 2002-08-07 |
EP1228502B1 (en) | 2007-02-21 |
JP2003513339A (ja) | 2003-04-08 |
ATE354849T1 (de) | 2007-03-15 |
DE60033549D1 (de) | 2007-04-05 |
WO2001033547A1 (en) | 2001-05-10 |
CA2390244A1 (en) | 2001-05-10 |
CA2390244C (en) | 2011-07-19 |
CN1286084C (zh) | 2006-11-22 |
AU1740801A (en) | 2001-05-14 |
WO2001033547B1 (en) | 2001-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4566493B2 (ja) | 信号分析方法及び装置 | |
Boersma | Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound | |
Kawahara et al. | Restructuring speech representations using a pitch-adaptive time–frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds | |
Fulop | Speech spectrum analysis | |
Krishnamoorthy et al. | Enhancement of noisy speech by temporal and spectral processing | |
Quatieri et al. | Audio signal processing based on sinusoidal analysis/synthesis | |
Story et al. | Formant measurement in children’s speech based on spectral filtering | |
Mittal et al. | Study of characteristics of aperiodicity in Noh voices | |
JP4516157B2 (ja) | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム | |
Manfredi et al. | Perturbation measurements in highly irregular voice signals: Performances/validity of analysis software tools | |
Abe et al. | Sinusoidal model based on instantaneous frequency attractors | |
Narendra et al. | Estimation of the glottal source from coded telephone speech using deep neural networks | |
Bansal et al. | Low bit-rate speech coding based on multicomponent AFM signal model | |
JP4469986B2 (ja) | 音響信号分析方法および音響信号合成方法 | |
Srivastava | Fundamentals of linear prediction | |
Elie et al. | Robust tonal and noise separation in presence of colored noise, and application to voiced fricatives | |
Kodukula | Significance of excitation source information for speech analysis | |
KR100579797B1 (ko) | 음성 코드북 구축 시스템 및 방법 | |
Arakawa et al. | High quality voice manipulation method based on the vocal tract area function obtained from sub-band LSP of STRAIGHT spectrum | |
Park et al. | Improving pitch detection through emphasized harmonics in time-domain | |
Tabet et al. | Speech analysis and synthesis with a refined adaptive sinusoidal representation | |
Hasan et al. | An approach to voice conversion using feature statistical mapping | |
Arroabarren et al. | Voice production mechanisms of vocal vibrato in male singers | |
Kawahara | STRAIGHT-TEMPO: A universal tool to manipulate linguistic and para-linguistic speech information | |
Kumaraswamy et al. | Modified square difference function using fourier series approximation for pitch estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040812 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060612 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060912 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060920 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070326 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070626 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070703 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070726 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070926 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090312 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090331 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20090508 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100804 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4566493 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130813 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130813 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130813 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |