JP4566493B2

JP4566493B2 - 信号分析方法及び装置

Info

Publication number: JP4566493B2
Application number: JP2001535156A
Authority: JP
Inventors: チェールドカサリヌスアンドリンガ; ヘンドリクスドイフヒュイス; ヘンゲルピエテルウィレムジャンヴァン; ミカエルゲラルダスヘームスケルク; マールティエマルイョレインニールセン
Original assignee: ヒューキュースピーチテクノロジーズベスローテンフェンノートチャップ
Priority date: 1999-11-05
Filing date: 2000-11-06
Publication date: 2010-10-20
Anticipated expiration: 2020-11-06
Also published as: AU1740801A; US6745155B1; DE60033549D1; CA2390244A1; WO2001033547A1; JP2003513339A; ATE354849T1; CA2390244C; CN1421030A; WO2001033547B1; EP1228502A1; CN1286084C; NL1013500C2; DE60033549T2; EP1228502B1

Description

【０００１】
【技術分野】
本発明は、請求項１の前文に記載の周波数特性を推定するための装置に係る。更に、本発明は、請求項７の前文に記載の信号のスペクトルを推定する装置にも係る。更に、本発明は、このような装置及び装置の機能を遂行するための方法を含む信号認識システム、データ圧縮システム、及び信号改善システム装置にも係る。
【０００２】
【背景技術】
上記装置は、ESCA Eurospeech 97,Rhodes,Greece,ISSN 1018-4074の第２８５９−２８６２ページに掲載されたＴ．アンドリンガ著の「Using an Auditory Model and Leaky Autocorrelators to Tune In to Speech」と題する論文から知られている。このアンドリンガ著の１９９７年の論文から基底膜の作用原理を模擬する聴覚モデルを使用することが知られている。このモデルのセグメントの出力は、特定の固定の周期に同調された１組の漏洩性自己相関ユニットの入力として使用される。従って、セグメント番号の関数としての応答性自己相関ユニットのアクティビティは、検出されるべき周期的信号のスペクトルに対する直接的な尺度となる。
【０００３】
この公知の文献に記載された装置では、基本的周期が既知であり且つ一定である信号のエネルギースペクトルを再構成することができる。しかしながら、既知の装置は、周期が未知であるか又は一定でないか或いはその両方であるときにはエネルギースペクトルの正しい及び／又は最適な再構成を与えないという問題が生じる。本発明の目的は、音声信号の周期が未知であり及び／又は一定でないときに、信号の正しい再構成を行えるようにする装置を提供することである。
【０００４】
【発明の開示】
この目的に対する本発明の第１の特徴において、本発明は、請求項１に記載の装置を提供する。この目的に対する本発明の第２の特徴において、本発明は、請求項８に記載の装置を提供する。
【０００５】
本発明の特に効果的な構成は、従属請求項に記載する。本発明の更に別の目的、構成、変形、作用及び細部は、添付図面を参照した以下の詳細な説明から明らかとなろう。
【０００６】
【発明を実施するための最良の形態】
以下、信号におけるスピーチの認識について本発明を説明する。本発明は、スピーチ認識の分野に効果的に適用できるが、本発明は、一般に、信号処理に適用され、そして音響信号やスピーチを含む信号の処理に何ら限定されるものではない。更に、この方法の次々の段階を互いに対話式に説明するが、これらステップは、以下に説明するように、異なる方法にも適用できる。
【０００７】
本明細書では、単一ソースの全推定可能な又は決定可能な情報を理想的に表わす表示として聴覚事象が定義される。多数の信号処理方法及び装置に対し、このような表示にできるだけ接近することが重要である。
【０００８】
このような表示に接近することが意図された既知の（スピーチ）信号処理方法のほとんどは、「擬似静止仮定」をベースとしている。これは、振幅や周波数内容といった信号の幾つかの特徴を、短い周期（スピーチの場合、ほぼ１０ｍｓの値が通常選択される）にわたって一定であると仮定できるプロセスから発生するものとしてモデリングすることができる。この仮定に対する根本的理由は、信号即ちスピーチが無限に速く変化し得ない物理的システムによって発生されることである。
【０００９】
これは、本発明において広範囲に使用される非常に合理的な仮定である。しかしながら、この仮定は、専ら、単一ソースの信号に対してのみ有効である。信号が２つのソースによって発生される場合には、それが、単一ソースの予想可能なものよりも非常に迅速に且つ確実に異なる仕方で変化する。従って、単一ソースの場合に有効な擬似静止の形態は、混合ソースには適用できない。任意の未知の環境では、状態が一層悪化する。というのは、擬似静止が決して有用な近似ではないところの信号作用が生じ得るからである。それでも、擬似静止が適用される場合には、誘起される近似エラーが合成信号を回復不能なほど劣化させ、それ故、信号の正しい記述及び／又は正しい認識結果に到達する確率を低下させる。
【００１０】
擬似静止は、信号をフレームへブロック化し、そして一連の連続するフレームが、時間に伴う信号の周波数内容の充分な記述を与えると仮定することにより、しばしば実施される。フレームの巾（又はウインドウの有効巾）が周波数分解能に逆比例するので、時間分解能と周波数分解能との間の妥協が導入される。周波数の詳細及び時間の詳細の両方が重要である信号は、フレームベースの解決策では最適に処理することができない。時間に伴う情報の組合せが、重要な問題となる。フレームの使用は不連続性を導入し、その下に横たわる信号成分の連続性を決定することを困難にする。これは、次いで、単一ソースの信号情報を単一表示に指定するのを益々困難にする。非長方形ウインドウ及び破棄段階の使用（ウインドウ処理された信号内の時間情報）は、この問題をより一層悪化させる。
【００１１】
これは、非常に多数の信号処理技術及び実際には全てのスピーチ信号処理技術が任意の信号に使用するのに不適ということになる。より詳細には、短時間フーリエ変換（ＳＴＦＴ）、直線的予想（ＬＰ）、及びフレームベースのフィルタバンク方法に類似した技術は、任意信号に対して使用してはならない。それでも、これらの技術は、これらの信号に適用されているが、大きな成功を収めることはほとんどないか、又は非常に狭い適応範囲においてのみ成功を収めている。
【００１２】
適切なサンプリング時間を伴う擬似静止は、単一ソースの信号作用にしか安全に適用できない。（音響）ソースの未知の混合に対しては、もっと適当な形態の信号処理が必要とされる。本発明の目的は、このようなシステムを提供することである。
【００１３】
それ故、ソースの規則性をできるだけ良好に利用するシステムが提供される。不都合にも、ソースはまだ分類されていないのでソースの規則性は未知である。この場合に、システムは、最も弱い考えられる公知の知識しか仮定できない。しかし、いかなる（音響）ソースも、オンセット、任意の連続的な展開、及びオフセットを示す。従って、インパルス状でない全ての（音響）ソースは、連続的に展開する部分を有する。
【００１４】
スピーチ、ほとんどの種類の音楽、及び多数の他の信号の場合には、連続的な展開がほとんどの時間にわたって卓越している。スピーチの場合には、／ｔ／、／ｋ／又は／ｐ／のような幾つかの破裂音のみに対して、連続的な展開が存在しないと主張されてもよい。他方、「Why I owe you an hour?」のような発声は、完全な発声が単一の連続した総体を形成するように発音することができる。
【００１５】
周波数及び振幅の連続性は、多数の音響ソースにより共有される良好に定義された信号特性である。それ故、このような連続性は、信号から正当化できるとすれば、信号の形式についてそれ以上の知識を伴わず利用することができる。それ故、信号成分の連続性は、聴覚事象に対して個々の音響ソースの音響兆候を指定する上で助けとなるよう非常に良く適している。信号成分が連続的な展開を示す限り、それはおそらく信号ソースから生じる。これは非常に安全な結論である。というのは、非相関ソースが、互いに円滑に適合する信号成分を招く確率が低いからである。更に、基本的な周波数輪郭のような信号特性も連続的であり、異なる信号成分を一緒にグループ編成するのを助けることができ、即ち単一の擬似周期性音響ソースの全高調波は、基本的周波数の整数倍に保たれる。ある基本的周波数輪郭に一致する周波数輪郭は、おそらく同一のソースに属するか、又は音楽の場合にしばしばそうであるように、相関する時間的展開を伴う多数のソースに属する。
【００１６】
従って、信号成分の連続性は、単一ソースの情報を単一表示に指定するための最も信頼性のあるキューの１つを形成する。このプロセスは完全でないが、時間及び周波数を経ての連続性は、保存されねばならない。
【００１７】
上記の制約を満足する本発明により単一ソースの情報を単一表示に指定する例示的方法のフローチャートが図１．９に示されている。
【００１８】
最初に、基底膜のセグメントのＢＭ信号が、ステップＩにおいて、基底膜モデル装置から発生される。このＢＭ信号は、基底膜の入力に印加される信号をベースとする。このステップは、「ＢＭモデル」という表題のセクションで詳細に説明する。
【００１９】
第２に、ステップＩＩにおいて、各セグメントを励起するための尺度を与えるためにＢＭ信号が積分される。セグメントｘ時間ｘ励起尺度の三次元マトリクスをこの積分に基づいて形成することができる。このマトリクスの視覚表示を蝸牛図(cochleogram)と称する。このステップは、「蝸牛図」という表題のセクションで詳細に説明する。
【００２０】
第３に、ステップＩＩＩにおいて、三次元マトリクスにより与えられた情報に基づき、隆起と称する個々の信号成分がマトリクスにおいて推定される。これら個々の成分は、瞬時周波数輪郭を推定することのできるセグメント−時間領域である。このステップは、「隆起の推定」という表題のセクションで詳細に説明する。
【００２１】
第４に、ステップＩＶにおいて、輪郭の周期性の尺度を与える隆起のもとでの自己相関が遂行される。このステップは、「隆起のもとでの連続的自己相関」という表題のセクションで詳細に説明する。
【００２２】
第５に、ステップＶにおいて、基本的周期輪郭の展開の各瞬間に対するローカル周波数を決定するために自己相関値が分析される。このローカル周波数は、セグメント及び時間においてローカルである。このステップは、「ローカル瞬時周波数輪郭」という表題のセクションで詳細に説明する。
【００２３】
第６に、ステップＶＩにおいて、信号のピッチを推定するためにローカル周波数が使用される。正式には、ピッチ及び基本的周波数という用語は交換可能ではないが、最初のものが（物理的に測定可能な）最後のものの（主観的な）理解を参照して、これらの用語を本明細書全体にわたり交換可能に使用する。このステップは、「基本的周期輪郭推定」という表題のセクションで詳細に説明する。
【００２４】
第７に、ステップＶＩＩにおいて、ＢＭモデルのセグメントの励起を相関する方法を適用する。非相関励起が同じ信号に属することはあり得ないので、全ての相関信号成分を取り出すことにより、信号が近似される。このステップは、「同調自己相関」という表題のセクションで詳細に説明する。
【００２５】
第８に、ステップＶＩＩＩにおいて、どの基底膜セグメントが、セグメント自身の特性周波数に対応する周期性を示すか決定するための方法が適用される。これは、励起と、セグメントの最良周期に基づいてシフトされた励起との間の相関により実行される。このステップで決定される情報は、周期性と、ノイズバースト及びオンセットのような非周期的信号作用の両方を推定するのに使用できる。このステップは、「特性周期相関」という表題のセクションで詳細に説明する。
【００２６】
第９に、ステップＩＸにおいて、オンセット検出装置が適用される。このステップは、特性周期相関装置又は蝸牛図の出力における急激な変化をサーチすることによりオンセット及びオフセットを検出する。このステップは、「オンセット検出」という表題のセクションにおいて詳細に説明する。
【００２７】
第１０に、ステップＸにおいて、マスク形成方法が適用される。このマスキング装置は、この段階で得られる情報を使用して、おそらくターゲットソースから発生するであろう領域を時間的及び場所的にマークする。このステップは、「マスク形成」という表題のセクションにおいて詳細に説明する。
【００２８】
第１１に、ステップＸＩにおいて、逆基底膜フィルタリング装置が適用される。このステップは、マスキング装置により識別された領域を使用して基底膜の励起をフィルタリングし、マスクの下の信号情報を表わす再合成信号に到達する。このステップは、「逆基底膜フィルタリング」という表題のセクションで詳細に説明する。
【００２９】
第１２に、ステップＸＩＩにおいて、蝸牛図装置の再構成が適用される。このステップは、信号から推定されそしてマスクにより表わされた情報を使用して、個々の信号成分を測定し、そして個々の信号成分を加算することにより信号を再構成する。このステップは、「蝸牛図装置の再構成」という表題のセクションで詳細に説明する。
【００３０】
第１３に、ステップＸＩＩＩにおいて、再構成された蝸牛図にパラメータ化装置を適用することができる。このステップは、確認装置の入力として適当な情報を与える。このステップは、「パラメータ化」という表題のセクションで詳細に説明する。
【００３１】
ＢＭモデル
本発明による方法は、ＢＭ信号の発生でスタートする。聴覚系では、音響即ち圧力変動から神経情報への変換が、図２．１に概略的に示す「基底膜(basilar membrane)」と称する構造体の周りで実行される。この基底膜は、伝送ラインの物理学により説明できるコヒレントな物理的構造体である。伝送ラインは、時間及び場所の両方が連続している構造体であり、基底膜の場合に、場所は周波数に対応する。というのは、膜上の各場所は、それ自身の特性周波数を有するからである。従って、基底膜は、音響振動を神経情報に変換し、時間及び周波数（場所への対応性を経て）の連続性が更なる処理に対して保存されるようにする。
【００３２】
図２．１は、基底膜１の本質的な特徴を非常に概略的に示す。基底膜は、約１ｃｍ³の蝸牛殻、即ちかたつむりの家状の構造体に配置された長さ３．５ｃｍのコイル巻き構造体２である。かたつむりの家の開口付近の基底膜の側は、約２０ｋＨｚの周波数に最も敏感であり、蝸牛殻の更に内側では、各位置が最も敏感な周波数が、（ほぼ）対数的な場所−周波数関係に基づき２０Ｈｚまで減少する。それ故、基底膜の周波数レンジは、３桁の大きさ又は約１０オクターブである。基底膜に沿って均一に分布した約３０００の有毛細胞が、局部的な振動を等級付けされたポテンシャルに変換し、これらのポテンシャルは、次いで、アクションポテンシャルとしてコード化され、そして３００００のニューロンにより脳幹へ伝送される。これらニューロンの軸索が聴覚神経を形成する。
【００３３】
ここに例示する装置では、基底膜の一次元伝送ラインモデルが使用され、これは、次のものから知られている。Duifhuis, H., Hoogstraten, H. W., van Netten, S. M., Diependaal, R. J., and Bialek, W. (1985)。"Modelling the cochlear partition with coupled Van der Pol oscillators", in: Peripheral Auditory Mechanism, eds. J. B. Allen, J. L. Hall, A. E. Hubbard, S. T. Neely and A. Tubis (Springer, New York) pp. 290-297。このモデルの最も関連のある特性は、時間及び場所の両方の連続性と、１対１の場所−周波数関係である。これに伴い、基底膜モデルは、物理的に結合されたフィルタを有するフィルタバンクとして解釈することができ、隣接するフィルタは、全てのポイントにおいて時間的に同様の変位を示す。しかしながら、基底膜（ＢＭ）モデルは、哺乳動物の聴覚系の部分に類似しているが、本発明は、哺乳動物の聴覚系のこのような類似性をもつ伝送ラインモデルに限定されるものではない。明瞭化のために、本明細書では、「ＢＭモデル」という用語は、蝸牛殻と同様の機能を有する非均一伝送ラインに対して使用される。
【００３４】
例えば、実際の基底膜と同様に非直線的である既知の基底膜モデルのような異なる基底膜モデルを適用することができる。本発明のこの実施形態では、このモデルの好都合にも直線的なバージョンが使用される。非直線的なモデルは、良好な性能を有するとしばしば考えられるが、人間の聴覚系により厳密に類似しているので、満足する性能で直線的モデルを実施できることが分かった。ＢＭモデル装置のこの直線的バージョンは、あまり処理を必要とせず、設計及び実施が簡単である。
【００３５】
この直線性は、重畳及び加算フィルタバンクとして効率的に実施することができ、そして「信号の混合をいかに分離するか」という中心的な問題を解決する助けとなる。全ての直線性が加算性を伴った後に、これは、信号ａ及びｂの混合物を、ａ及びｂの両方に依存する交差項を導入せずに分割できると解釈することができる。ほとんどの非直線性システムにおいて保証することのできない交差項が存在しないと、信号分離システムの設計及び実施は簡単になり、且つあまり処理を必要としない。
【００３６】
更に、既知の基底膜モデルは、４００ｋＨｚの内部更新周波数を有し且つ人間の全周波数レンジに及ぶ４００個のセグメントより成る。処理時間を短縮するために、更に別の実施形態では、図示されたＢＭモデルが、３０Ｈｚと６１００Ｈｚとの間の周波数レンジに及ぶ１００個のチャンネルを有するフィルタバンクとして実施される。フィルタバンクの実施は、２０ｋＨｚの入力及び出力サンプル周波数を必要とする。従って、既知のモデルに比して、計算効率の増加が達成される。
【００３７】
図１．１には、内耳の基底膜の電気等価回路の一部分が示されている。この図の左側には、信号Ｖ_soundを表わすことができ、これは、一連の４００個までの相互に接続された二次フィルタによって処理され、これらは、セグメントと称される。各二次フィルタは、ある質量慣性（コイル）、スチフネス及び減衰を表わし、これは、表示された信号Ｖ_soundにおける振動が、相互に接続された二次フィルタによりいかに迅速に減衰されるかを決定する。実際の内耳においてモデリングされるものとして、神経束への個別のセグメントのカップリングが行われ、これは、音響信号の印象を脳へ伝達する。
【００３８】
ここに述べるＢＭモデルは、図１．９を参照して上述した方法に好都合に適用される。しかしながら、ＢＭモデルは、ＢＭ信号を使用するものである限りいかなる信号認識システムにも好都合に適用することができる。
【００３９】
蝸牛図
ＦＦＴベースのエネルギースペクトル図のような時間−周波数表示は、信号を解釈するための最も関連のある情報を表わすと考えられる。不都合なことに、これは、時間及び周波数の両方が不連続である。場所（及び間接的には周波数）が連続的であるスペクトル図状の時間−周波数表示は、各基底膜セグメントの（重畳する）フレームのエネルギーを平均化することにより計算できる。しかしながら、この手順は擬似静止を包含し、この擬似静止は、これが保持する信号として入力がまだ識別されないので回避されねばならない。
【００４０】
これらの問題は、ＦＦＴスペクトル図に対し時間及び場所（周波数）の両方についての連続的な代替物を使用することによって解決される。このような代替物は、変位の漏洩性積分平方、又は基底膜セグメントの速度の平方であると分かっている。速度（変位の一次導関数である）の使用は、変位の使用より好ましい。というのは、速度を使用すると、高周波成分が増強され、これにより、低周波成分による高周波成分のマスキング作用が減少されるからである。漏洩性積分は、システムが、各時点において、その以前の状態に関する情報を失うが、現在に関して学習するプロセスを記述する。この実施形態では、次の漏洩性積分方法が選択される。
【数１】
ｒ_s(ｔ)＝ｒ_s(ｔ−Δｔ)ｅ^- ^Δ ^t/ ^τ＋ｘ_s(ｔ)ｘ_s(ｔ)、
ｓ＝１・・ｓ_max （１）
【００４１】
この式において、ｒ_s(ｔ)は、時間ｔにおけるセグメントｓの漏洩性積分エネルギーの値を表わし、Δｔは、サンプル周期であり、ｔ−Δｔは、以前のサンプルの時間を表わし、そしてｘ_s(ｔ)は、チャンネルの現在出力値である。この一次システムの時定数τは、記憶の範囲を表わす。τの値が大きい場合には、指数が１に非常に接近し、τの値が小さい場合には、指数の影響がより顕著になる。というのは、ｘ_s(ｔ)の以前の値の作用を減少するからである。平方項ｘ_s(ｔ)ｘ_s(ｔ)は、負でない。それ故、ｒ_s(ｔ)も負でない。
式１は、次のように一般化することができる。
【数２】
ｒ_s(ｔ)＝Ｌ(ｘ_s(ｔ)) （２）
但し、関数Ｌは、任意の形式のローパスフィルタリングを表わす。従って、いかなる種類のローパスフィルタリングも適用できるが、漏洩性積分器の適用が特に効果的である。というのは、漏洩性積分器は、更に説明するように、人間の聴覚系の機能に類似した機能を遂行するからである。信号Ｘ(ｔ)は、ローカルアクチベーションの尺度の任意の形式である。従って、半波整流された速度、変位又は加速度、或いはローカルアクチベーションの（負でない）尺度を与える他の形式を使用することができる。しかしながら、速度の平方を使用するのが特に効果的である。というのは、速度は、人間の聴覚系における有毛細胞の駆動力であると仮定され、この値を平方するのは、計算が簡単な演算であり、エネルギー尺度を与えるからである。
【００４２】
ローパスフィルタリングの後に、信号を決定するための更に別のステップを実行することができる。例えば、蝸牛図の簡単な視覚検査を適用することができる。自動的に実行できる信号に対する信頼性の高い解決策を与えるために、更に別のステップを設けねばならない。本発明は、以下に述べるように、このようなステップを与える。しかしながら、本発明は、これらの特定の更に別のステップに限定されるものではない。
【００４３】
τの値は、本明細書全体にわたり１０ｍｓに保持されるが、状態に適応できる。真のニューロンは、漏洩性積分プロセスも実行し、そして１０ｍｓは、聴覚系におけるニューロンの正常値である。式１の入力は、平方された基底膜速度であるが、神経生理学的に同等のものは、全て正の振幅の圧縮された半波整流された基底膜速度である。半波整流は、コルチ器における有毛細胞により遂行される。自然の系統は、３乗根（〜ｘ^0.3）としてしばしば近似されるＢＭ運動ｘの動的範囲圧縮を示す。
【００４４】
この動的範囲圧縮は、全ての関連特徴を同じ範囲内にもっていくために必要である。これが重要であるのは、式２に基づいて計算されるｒ_s(ｔ)が、スピーチのような自然信号の特性により、５０ｄＢ以上の動的範囲を有するからである。式２における平方を補償するために、３乗根の作用が２倍にされそしてｘ^0.15により近似される。
【数３】
Ｒ_s(ｔ)＝［ｒ_s(ｔ)］^0.15 （３）
この非直線的動的範囲圧縮は、視覚表示に対して排他的に使用される。全ての視覚表示は、明確に指示のない限り、この形式の圧縮を使用する。
【００４５】
漏洩性積分プロセスはローパスフィルタリングプロセスであるので、出力ｒ_s(ｔ)は、積分時定数程度のサンプリングレートへとダウンサンプリングすることができる。先鋭なオンセットを受け入れるために、５ｍｓ当り１サンプルに対応する２００Ｈｚのサンプリングレートが選択される。これは、所望の２倍の連続的時間−周波数表示としての蝸牛図に通じる。図２．２は、女性の話し手により話されたオランダ語／ＮＵＬ／（英語のＺＥＲＯ）の蝸牛図である。このワードは、本明細書を通じて未知の信号の例として使用されるターゲットセンテンス／ＮＵＬＥＥＮＴＷＥＥＤＲＩＥ／の一部分である。サンプルは、音響信号であるが、本発明は、上述したように、スピーチ又は音響に何ら限定されるものではない。
【００４６】
図２．２において、ほぼｔ＝５０ｍｓ及びｆ＝２２０Ｈｚでスタートする広い帯域は、基本周波数ｆ₀に対応する第１高調波ｈ₁である。基本周波数は、発音中に、３５０Ｈｚ以上の値まで上昇する。第１高調波と平行で且つそれより高い帯域は、第２高調波ｈ₂である。最も低い幾つかの高調波は、第１フォルマントＦ₁を形成する。第２フォルマントＦ₂は、ｔ＝１２０ｍｓにおいて／Ｎ／から／Ｕ／へ遷移した後に目に見えるようになり、そして／Ｌ／の間に２０００Ｈｚから数百Ｈｚの値に下降する。フォルマント位置のこの変化に伴い、異なる高調波が、最も顕著なローカル周波数作用として互いに成功することに注意されたい。第３フォルマントＦ₃は、／Ｎ／の間にかろうじて目に見えるが、残りの発音の間に顕著となる。高い周波数領域では、第４及びおそらくは第５のフォルマントも目に見える。
【００４７】
／Ｕ／から／Ｌ／への遷移は、滑らかであり、／Ｎ／から／Ｕ／への遷移は、鼻音／Ｎ／から母音／Ｕ／への遷移により部分的に不連続である。／Ｎ／の終りに、舌の先が固い口蓋を離れ、鼻腔に加えて口腔を作用させることができる。ワードのオンセット不連続性は先鋭であり、そしてオフセットは滑らかであることに注意されたい。これは、漏洩性積分プロセスの指数関数的な減衰と、基底膜のリンギング・アウト効果とが式３の非直線性に組み合わされることによる。
【００４８】
ｔ＝１７５ｍｓにおける蝸牛図の垂直断面が図２．３に示されている。この図は、セグメント数（上の水平軸）の関数として、又は図２．２における垂直線の下の情報に対応する対応周波数（下の軸）の関数としてエネルギー分布を表わすものである。ピークをもつ構造に注意されたい。低いセグメント数においては、ピークが、分解された高調波に対応する。高いセグメント数の場合には、個々の高調波が良好に分析されず、最終的に、フォルマントへと合体する。この振舞いは、非直線的な場所−周波数関係の直接的な作用である。多数の高調波が図示されている。最初の３つ、即ち第９、第１３、第１８及び第２５の高調波が応答を左右する。第１０ないし第１２高調波は、目に見える最小の形跡しか示さないので、第４ないし第８高調波だけが分析される。これらの高調波は、他の成分により（部分的に）マスクされる。より高い高調波は分析されないが、それらは、依然としてフォルマントの形状に作用し、そして母音／Ｕ／の音色に作用する。
【００４９】
セグメントのエントレインメントは、伝送ラインモデルの非常に重要な特性であり、そして基底膜が単一の連続構造体を形成することによるものである。顕著な信号成分があるセグメントを駆動するときには、セグメントがそれに沿ってその隣接セグメントを引きずり、そしてそれらが、それに沿ってその隣接セグメントを引きずり、等々となる。この作用は、場所の関数として急速に減衰する。他の信号成分の補充効果を克服することのできる信号成分のみがローカルの支配を達成し、そしてピークを形成する。エントレインメントは、マスキングと同様に、低周波数側よりも高周波側でより顕著である。
【００５０】
ほとんどの図は、実験的に推定された場所−周波数関係を使用している。オリジナルのＢＭモデルでは、非結合セグメントの共振周波数が、グリーンウッドの場所−周波数関係に基づいて選択される。但し、ｘは、頂点からｍｍで測定される。
【数４】
ｆ_c＝１９０・１０^0.6x[mm]−１４５「Ｈｚ」
ｓ＝（４００／３）・（ｘ［ｍｍ］／３．５［ｍｍ］）（４）
セグメントインデックスｓは、ＢＭの長さと、オリジナルモデルにおけるセグメントの数と、この実施形態では３つのセグメントの１つしか実際には使用されないという事実とを使用して、ｘに関係付けすることができる。
【００５１】
セグメント間の相互作用は、特性周波数を若干低い値にシフトする。図２．４は、グリーンウッドの場所−周波数関係を破線で示している。セグメント番号の関数としての真の特性周波数は、細い黒線で示されている。これは、常に、グリーンウッドの場所−周波数関係より下にある。セグメントの特性周波数と同様に、各周波数は、特性セグメントを有する。実際の場所−周波数関係は、単位振幅の対数的に離間されたシヌソイドの範囲に対して各セグメントの応答強度を測定することに基づいている。これにより得られるマトリクスは、その値が対数的にグレースケールコード化され、図２．４の背景を形成する。高周波数セグメントが低周波数刺激に対して応答する程度は、その逆の場合より強いことに注意されたい。
【００５２】
（擬似）周期性信号は、正弦波作用の組合せより成るので、単一周波数刺激に対するＢＭの応答を研究するのが有用である。ある周波数に対するＢＭの応答をサイン応答と称する。図２．５には、多数の例が示されている。駆動周波数に関わらず、全てのＢＭ応答は、より顕著なテールが低周波数側よりも高周波数側に向かうような同様の非対称的形態を有する。
【００５３】
図２．５は、充分な数（例えば、１０個）の振動及び／又は数回（例えば、５回）の積分時定数ｔの後にしか到達し得ない定常状態を示す。自然の信号が、この定常の仮定を完全に正当化するに充分なほどゆっくりと変化する信号成分を示すことはほとんどない。ＢＭの低周波数側では、ピッチ及び振幅が、定常状態に到達するのに必要な５０ｍｓ以上の間充分に一定であることは滅多にない。その結果、理想的なサイン応答よりも広い応答となる。ＢＭの高周波数側では、定常状態に迅速に到達するが、自然信号のピッチがランダムに変動するために、この場合も応答が広げられる。
【００５４】
積分器及びそれに対応する蝸牛図は、図１を参照して上述した方法で使用されるが、振動信号成分の場合にアクチベーションの尺度が必要とされる全ての状態において、上記手順を使用することができる。
【００５５】
個々の信号成分の推定
この信号認識システムに使用されるＢＭモデルは直線的であるので、その応答は、駆動音響ソースの個々の成分に対する応答の加算である。擬似周期的音響ソースｓ(ｔ)の場合には、入力を次のように書き表すことができる。
【数５】

【００５６】
但し、ａ_n(ｔ)は、高調波作用ｈ_n(ｔ)の振幅である。高調波は、周期性輪郭Ｔ(ｔ)及び位相関数ｆ_n(ｔ)に基づく。
【００５７】
この信号の蝸牛図は、式１により定義される。平方及び充分に長い積分時定数ｔは、ここでは考えられないある例外的な減少を除いて、位相項φ_n(ｔ)の作用が消失するよう確保する。ほとんどの場合、ａ(ｔ)は、式１の漏洩性積分プロセスの時定数ｔの値に比してゆっくりと変化する。これは、ａ_n(ｔ)を、ｈ_n(ｔ)の蝸牛図作用を係数＜ａ_n ²(ｔ)＞でスケーリングする定数として処理できる（短いインターバルに対し）ことを意味する。＜＞は、漏洩性積分プロセスにより推定された時間的平均を表わす。ｈ_n(ｔ)の蝸牛図作用は、Ｒ［ｈ_n(ｔ)］として表わされる。ゆっくり展開するｈ_n(ｔ)の場合に、Ｒ［ｈ_n(ｔ)］は、図２．４及び図２．５に与えられたサイン応答により近似することができる。
【００５８】
これは、式１に基づき信号ｓ(ｔ)から生じる蝸牛図Ｒ(ｔ)を次のように近似できることを意味する。
【数６】

【００５９】
Ｒ_n(ｔ)は、ローカル瞬時周波数ｈ_n(ｔ)の時間的展開に対応する最良のセグメントの一連のサイン応答により近似された単位振幅高調波作用ｈ_n(ｔ)の応答である。重みｗ_n(ｔ)は、このサイン応答のスケーリングを決定する。
【００６０】
原理的に、サイン応答の重みｗ_n(ｔ)は未知であり、信号から推定されねばならない。図２．３において信号の個々の高調波の作用を推定するために、２つの異なる解決策が適当であると考えられる。
【００６１】
本出願人により開発された第１の解決策は、低周波数側に向うマスキングを無視することによりサイン応答における非対称性を利用するものである。この場合に、図２．３の信号は、基本周波数の周波数に対応するサイン応答を最初に重み付けすることにより近似される。これは、第２高調波の位置における励起の一部分を考慮し、残余は、第２高調波に起因する。次の高調波の位置において、以前の高調波の作用が減算され、そして残余は、現在高調波に起因する。このプロセスは、高調波の周波数が最後のセグメントの特性周波数を越えるまで続けることができるが、実際には、高調波が分析されるＢＭ領域に限定される。それ故、この方法は、第１高調波に対して特に良好に作用し、そして以下に説明するように、スペクトルの再構成に使用される。
【００６２】
本出願人により開発された第２の方法は、マトリクス方程式：Ｒｗ＝Ｅの数値解を見出すことである。この式において、Ｅは、ターゲット蝸牛図断面であり、Ｒは、個々の高調波の周波数に関連した１組のサイン応答であり、そしてｗは、所望の重み値である。図２．３の信号に適用されたときには、基本周波数ｆ₀が１／４．６０＝２１７Ｈｚである（図２．８のＴＮＣから推定できるように）。関連高調波周波数は、ｎｆ₀である。ＢＭの最後のセグメントの特性周波数は、６１００Ｈｚであり、それ故、表現することのできる最大高調波番号は、２８である。各周波数に対し、サイン応答を選択してマトリクスＲに追加することができる。ｗ＝Ｒ・¹Ｅ（最小平方の意味で）を解きそしてｗ_nの負の値をゼロに設定すると、図２．０の結果を招く。
【００６３】
図２．６の上部パネルは、ターゲットＥを連続線で示し、そして下部パネルは、各高調波のスケーリングされた作用ｗ_nを表わす。上部パネルのドットポイントストライプ曲線は、サイン応答の重み付けされた和を与える。明らかに、一致は非常に良好であり、そして最初の３つのフォルマントの高調波内容は、確実に推定することができる。最も高い高調波の重みは、フォルマントピークの周りでしか確実に推定できない。他の位置において、高調波に関連したサイン応答は、ほぼ完全に重畳し、そして数値エラーが結果に影響を及ぼす。低い基本周波数はこの問題を一層悪化するが、ＢＭモデルにより多くのセグメントを使用すると、問題が軽減される。
【００６４】
この第２の方法は、基本周波数輪郭が既知であるときに周期的信号の高調波内容を分析するための効率的で且つ若干優雅な方法である。この技術は、信号のピッチが急速に変化するときにも機能する。この場合には、高調波のローカル瞬時周波数を反映する１組の周波数を選択することによりグループ遅延の影響を考慮することができる。更に、この修正は、正しいピッチ輪郭が与えられる場合には単純である。
【００６５】
同調型自己相関
信号の原点について確実性をもたない信号の混合を分割するには、考えられる最も弱い基本的仮定の使用、即ち最も一般的な信号特性の使用を必要とする。重要な一般的特性は、信号が擬似周期的であるかどうかである。スピーチ、音楽及び多数の他の信号においては、擬似周期的信号が時間及びエネルギーの最も大きな部分を表す。完全な周期的信号は頻繁に発生しないことに注意されたい。ほとんどの自然の信号は、ソースの特性による振幅及び／又は周波数変調を示す。これは、１９９７年、アンドリンガにおいて提示された既知のシステムの有用性を制限した。
【００６６】
音響ソースｙ(ｔ)は、各高調波ｙ_i(ｔ)に対して次のようであれば、基本的な周期輪郭を伴う擬似周期性であると定義される。
【数７】
ｙ_i(ｔ)＝ｙ_i(ｔ＋Ｔ(ｔ)) （７）
音響ソースの高調波ｙ_i(ｔ)が基底膜のセグメントｓを随伴する場合には、セグメントの応答ｘ_s(ｔ)も擬似周期性を示す。従って、次のようになる。
【数８】
ｘ_s(ｔ)＝ｘ_s(ｔ＋Ｔ(ｔ)) （８）
Ｔ(ｔ)が既知である場合には、式８を式２と組合せて、次の式が得られる。
【数９】
ｒ_s,o(ｔ)＝Ｌ(ｘ_s(ｔ)、ｘ_s(ｔ))
＝Ｌ(ｘ_s(ｔ＋Ｔ(ｔ))、ｘ_s(ｔ))
＝ｒ_s,T(t)(ｔ) （９）
【００６７】
これは、Ｔ(ｔ)が正しい基本的周期輪郭であるという条件のもとで、全てのセグメントに対し音響ソースｙ(ｔ)により補充される蝸牛図作用をｒ_s,T(t)(ｔ)が厳密に近似することを意味する。これが重要であるのは、Ｔ(ｔ)が、音響ソースｙ(ｔ)に対して独特である確率が非常に高い信号特性だからである。同調型自己相関（ＴＡＣ）として１組の値ｒ_s,T(t)(ｔ)が定義される。というのは、これが自己相関値をベースとしそして基本的周期輪郭Ｔ(ｔ)（ひいては、基本的周波数輪郭ｆ₀(ｔ)＝１／Ｔ(ｔ)）に同調されるからである。
【００６８】
式９は、正しい基本的周期輪郭に対してのみ成り立つ。ターゲットソースの輪郭に相関しない基本的周期輪郭の場合には、ｘ_s(ｔ)及びｘ_s(ｔ＋Ｔ)の値が相関せずそしてそれらの平均がゼロに接近する。これは、ＴＡＣが、正しく推定された周期輪郭に対して蝸牛図のエネルギー尺度と同様の値を有し、そしてランダムに選択された周期輪郭又は非相関の周期輪郭に対して０に近い値を有することを意味する。
【数１０】

【００６９】
この特性は、特定の音響ソースの情報を聴覚事象に指定するための基礎を形成する。
【００７０】
どのセグメントが擬似周期的ソースにより補充されるか知らないときには、全セグメントのＴＡＣが次の式を用いて計算される。
【数１１】
ｒ_s,T(t)(ｔ)＝Ｌ(ｘ_s(ｔ)、ｘ_s(ｔ＋Ｔ_s(ｔ)))
＝Ｌ(ｘ_s(ｔ)、ｘ_s(ｔ＋Ｔ(ｔ＋ｄ_s))) （１１）
【００７１】
この式は、セグメント依存グループ遅延に対する修正を含む。直線的システムの応答時間は、グループ遅延として形式化することができる。直線的システムのグループ遅延は、セグメントｓの平方インパルス応答ｈ_s(ｔ)の重心として定義することができる。
【数１２】

【００７２】
グループ遅延は、周期輪郭に対応する高調波の式におけるセグメント依存時間シフトを招く。図２．７の結果は、正しいセグメント依存周期輪郭Ｔ_s(ｔ)＝Ｔ(ｔ＋ｄ_s)を使用して計算される。
【数１３】
ｒ_s,T(t)(ｔ)＝ｒ_s,T(t)(ｔ−Δｔ)ｅ^- ^Δ ^t/t＋ｘ_s(ｔ)ｘ_s(ｔ＋Ｔ_s(ｔ))
ｓ＝１、・・Ｓ_max （１３）
図２．７の上部パネルは、ワード／ＮＵＬ／（図２．２を参照）の蝸牛図と、関連ＴＡＣの正の値とを示す。下部パネルは、カクテルパーティノイズが追加されて信号対雑音比が０になったときのこの信号の蝸牛図を示す（信号及びノイズエネルギーの等価性）。右下のパネルは、関連ＴＡＣを示す。上のパネルに比して、顕著な構造のほとんどが保存される。ＴＡＣは、完全な５００ｍｓを越えて定義されない。というのは、音響ソースが存在するときしか音響ソースの周期輪郭が定義されないからである。ＴＡＣ表示の負の値は、目に見える表示においてのみゼロにセットされることに注意されたい。これは、本明細書全体を通して行われる。
【００７３】
適切に推定された周期輪郭から生じる同調型自己相関は、この輪郭に一致する擬似周期情報を表わす。全情報が同じソースに属する保証はないが、ＢＭ領域を随伴するターゲットソースの全ての周期的作用が表示されることは保証される。
【００７４】
同調型自己相関は、非常に健全である。それには多数の理由がある。第１に、同調型自己相関は、ターゲット高調波によって支配される全てのセグメント範囲を選択する。若干の高調波又はフォルマントが優勢であるスピーチのような広帯域信号の場合には、ピーク付きの蝸牛図が生じる。他の音響のフォルマント又は同様の構造が、同じ領域をより顕著に支配するのに成功するより強力なピークを発生する確率は、通常は低い（ゼロではないが）。この確率は、もちろん、信号対雑音比（ＳＮＲ）、及び周波数レンジにわたるエネルギーの分布に大きく左右される。−６ｄＢの信号対雑音比（比＝１：４）でターゲットスピーチをマスクする通常の広帯域信号では、ターゲットスピーチの非マスクピークの数は、聴覚事象をサーチするために１組の信頼性あるスタートポイントを見出すのが困難になるレベルまで減少される。これらの状態では、人間のスピーチ認識力が急激に低下する。
【００７５】
ＴＡＣの健全さについての第２の理由は、ソースが、一貫したローカル作用を与えるように優勢である必要がないことである。優勢でないソースの平均作用ｘ(ｔ)ｘ(ｔ＋Ｔ)が、ローカルで優勢であるソースの平均ｘ'(ｔ)ｘ'(ｔ＋Ｔ)より大きい限り、優勢でないソースは、たとえ光学的にマスクされても、正の作用を与える。ピークが存在しないので、この状態は、聴覚事象の推定に対して信頼性あるスタートポイントを与えるものではない。これは、聞き手が何を期待するか知らないときに第１の表示においてあるノイズ性のセンテンスを確認できないが、聞き手が正しい期待を形成できるときには同じセンテンスを確認できるという理由を説明できる。例えば、純真な聞き手は、−６ｄＢのＳＮＲではターゲットセンテンスについて困難を伴うが、経験のある聞き手は、−１０ＤＢ以下でも、ターゲットセンテンスを確認することができる。
【００７６】
ＴＡＣの適用に伴う最も重大な問題は、基本的周期輪郭Ｔ(ｔ)の正しい推定を必要とすることである。これは、直接的に得られないので、信号から推定しなければならない。多数のピッチ推定技術が存在するが、任意の（ノイズ性）信号に対し適切に機能するものは皆無である。同調型自己相関は、任意のノイズ性信号に対して適切に機能する健全なピッチ推定技術と組合せて好都合に適用することができる。このような技術は、ピッチ推定のセクションで説明する。
【００７７】
ここで、図１．１を参照すれば、内耳の基底膜の電気技術等価回路図の一部分が示されている。図の左側では、入力信号Ｖ_soundを与えることができ、これは、４００個までの一連の相互に結合された二次フィルタ、セグメントと称する、によって処理される。各二次フィルタは、ある質量慣性（コイル）、スチフネス及び減衰を表わし、これは、与えられた信号Ｖ_soundにおける振動が、相互に結合された二次フィルタによりいかに迅速に減衰されるかを決定する。実際の内耳においてモデリングされるものとして、神経束への個別のセグメントのカップリングが行われ、これは、音響信号の印象を脳へ伝達する。
【００７８】
図１．１に示された基底膜の電気等価回路モデルの助けにより、本発明の装置が動作する。このため、図１．１の基底膜モデルが、図１．２において参照番号１のブロックに含まれる。基底膜モデル１には、ノイズで汚染されることのある音響信号２が印加される。基底膜モデル１の１つ以上のセグメントには、ローパスフィルタ３が接続される。このローパスフィルタ３は、入力信号２の推定を構成する出力信号４を発生する。
【００７９】
ローパスフィルタ３に含まれるフィルタ機能は、効果的に選択される。このため、本発明の第１の変形において、ローパスフィルタは、第１及び第２入力を有するマルチプライヤーとして設計され、その第１入力には、基底膜のセグメントから発生して所定の時間周期中存在する信号が印加され、その第２入力には、調整可能な時間Ｔ１にわたってシフトされた信号が印加され、そしてマルチプライヤーは、時間Ｔ１に依存する出力信号を発生し、これは、そのセグメントの信号に実質的に存在する周波数に依存し、そして音響信号の周波数内容の尺度を形成する。
【００８０】
本発明の別の変形においては、ローパスフィルタは、第１及び第２入力を有するマルチプライヤーとして設計され、一方、基底膜の各セグメントに対し、第１入力には、そのセグメントから発生する信号が印加され、第２入力には、時間Ｔ２にわたってシフトされた信号が印加され、そしてマルチプライヤーは、セグメントに依存する出力信号を発生し、これは、その時間周期中に音響信号に実質的に存在する周波数エネルギースペクトルの尺度を形成する。
【００８１】
更に数学的な式及びグラフィック表示においては、本発明は、次のように更に説明することができる。
【００８２】
周波数内容及び周波数エネルギースペクトルを計算するために、図１．６のブロック図が使用され、ここで、ｘ_s(ｔ)は、基底膜モデル１から発生する信号を表わし、そしてＴは、調整可能な時間シフトを表わす。
【００８３】
ここで、α＝ｅ^- ^δ ^t/Tであり、そして更に、δｔ＝１であるようにスケーリングされた時間軸（ｔ及びＴに対する）が使用される。
【００８４】
周波数内容を決定するための装置の実施形態では、基底膜モデル１から到来する情報信号が、段階的連続関数であるセグメント級数ｓ(ｔ)であり、従って、図１．７のグラフィック表示において所定の時間周期内でセグメント番号が一定である。出力セット｛ｒ_s(t),0(ｔ)、・・ｒ_s(t),Tm(ｔ)｝は、時間ｔにおけるセグメント輪郭のもとでの現在自己相関を表わす。
【００８５】
図１．３は、Ｔがｘ軸上に指示された状態で、特定時間ｔにおける上記出力セットの典型的な曲線を示す。
【００８６】
周波数エネルギースペクトルを決定するための装置の実施形態において、低い周波数を表わす基底膜モデル１からのセグメントの測定結果は、高い周波数に関連したセグメントに対してある程度の遅延を伴って現れる。所与の信号Ｔ(ｔ)に対し、これは、式Ｔ_s(ｔ)＝Ｔ(ｔ＋ｄ_s)による修正を必要とする。但し、ｄ_sはセグメントｓのローカルグループ遅延である。
【００８７】
これは、図１．８に示す次の実施を導く。
【００８８】
この場合に、エネルギー内容は、基底膜モデル１の各セグメントに対して決定され、時間ｔに関連した出力セット｛ｒ_1,T1(t)(ｔ)、・・ｒ_sm、Tsm(ｔ)｝を生じさせる。
【００８９】
図１．４は、基底膜モデル１のセグメント番号がｘ軸に指示された状態で対応測定結果をグラフ表示している。
【００９０】
更に、図１．５を参照すれば、自己相関値のグラフを示すと共に、変数として、ｘ軸上に時間シフトＴをそしてｙ軸上に基底膜モデルのセグメント番号を示している。ここでは、１つのセグメントの周波数内容を決定するための装置の実施形態は、例えば、約４７０Ｈｚの共振周波数を有する基底膜モデルのセグメントに対して決定できるような水平断面に対応する測定結果を与えることに注意されたい。基底膜モデルの全セグメントの周波数エネルギースペクトルを決定するように働く装置は、例えば、ｔ＝４．７ｍｓにおいて得られた垂直方向の断面に対応する測定結果を与える。
【００９１】
時間正規化型コレログラム
式１８は、より一般的な連続自己相関関数へと一般化することができる。
【数１４】
ｒ_s,T(ｔ)＝Ｌ（ｘ_s(ｔ)、ｘ_s(ｔ＋Ｔ)）（１４）
ｓ＝１、・・ｓ_max Ｔ∈［０、Ｔ_max］
この関数は、通常、次元（＃セグメント）ｘ（＃周期）の時間進化マトリクスとして実施される。本明細書において、これは、時間正規化型コレログラム（ＴＮＣ）と称される。ＴＮＣの正の値は、ＴＡＣスペクトル図の場合と同様に描くことができる。これが図２．８に示されている。
【００９２】
この図は、ＮＵＬの／Ｕ／の中間部にｔ＝１７５ｍｓに対するＴＮＣを示している。Ｔ＝０における垂直線は、図２．３に示されたエネルギースペクトルに対応する。Ｔ＝４．６ｍｓにおける垂直の帯は、基本周期Ｔ₀に対するＴＡＣを表わす。この帯は、２Ｔ₀の場合にほぼ９．２ｍｓで繰り返される。これらの帯は、個々の高調波の周波数が高くなるにつれて狭くなる大きな垂直構造体のピークを形成する。各広帯域擬似周期的ソースは、瞬時基本周期により全構造が排他的に決定される同様の構造を有する。
【００９３】
最も重要なことは、ＴＮＣが、時間的、周期的及び場所的に連続していることである（場所は周波数に関連している）。ＴＮＣの名称は、式１４におけるその定義が次のことを確保することから由来する。即ち、擬似周期信号が時間ｔ₀においてスタートした場合にそのＴＮＣがその信号の周期Ｔに関わりなくこの時間に蓄積し始め、即ちｔ＜ｔ₀の場合には、ｘ(ｔ)ｘ(ｔ＋Ｔ(ｔ))の時間的平均がゼロに接近し、一方、ｔ₀の後には、それが大きく且つ正となり、Ｔ(ｔ)の値とは独立したものになる。この形式のオンセット時間正規化は、全形式のソースの時間的展開を研究する上で助けとなる。コレログラムの異なる定義を比較するような更に詳細な説明を以下に行う。
【００９４】
非相関ソースが瞬時基本周波数の同様の展開を示すことはあり得ないので、異なるソースの垂直構造が重畳する確率は低い。全ての音響ソースが互いに上下に表わされるようなＴ＝０におけるエネルギー項についてはこの限りでない。特別な信号次元として周期性を導入すると、周期的及び非周期的信号の混合を分割できるだけでなく、擬似周期的信号の混合も分割できる。これは、理想化の一部分であり、即ち２つ以上の擬似周期的信号を組み合せると、個々のＴＮＣが重ね合わされ、単一のものより解釈がより困難となる。
【００９５】
ＴＮＣの垂直断面は、全セグメントｓに対する自己相関遅れＴに対応する。その水平断面は、単一セグメントの全連続自己相関に対応する。非周期的信号については、相関がＴの関数として急激に低下するが、このソースは周期的であるために、自己相関は見掛け上コサインとなる。ほとんどのセグメントは、単一の高調波によって支配されることに注意されたい。これは、低い高調波に対応するセグメントに対して最も顕著である。ローカルの連続自己相関の周期性は、セグメントの主駆動力の周波数を時間の関数として反映する。全てのセグメントに発生する第１周期は、２１７Ｈｚに対応する４．６０ｍｓである。第２高調波については、第２周期が４．６ｍｓにおいてピークとなる。これは、予想されるように１／（４．６／２）＝４３４Ｈｚの瞬時周波数に対応する。２０００Ｈｚのすぐ上では、ＢＭの領域が第９高調波により支配される。この領域は、第２フォルマントに対応する。第１０高調波の位置は、第９高調波によってマスクされるので推定できないことに注意されたい。第３フォルマントは、３０００Ｈｚのすぐ下に表現され、２８２６Ｈｚの第１３高調波により支配される。ＴＮＣは、非常に高い精度で瞬時ローカル周波数を決定できることに注意されたい。これは、連続性の保存及びフレームベース解決策の回避の直接的な結果である。ローカル周波数推定アルゴリズムを詳細に説明する。
【００９６】
ＴＮＣは、非常に貴重な表示であるが、その最も重要な特徴は、時間（ｔ）、場所（ｓ）及び周期性（Ｔ）により任意の連続経路を表示できることである。
【００９７】
これは、周期輪郭Ｔ(ｔ)を知っているか又はソース特性として仮定する場合に、Ｔ(ｔ)の結果を時間の連続関数として検査できることを意味する。一方、セグメントシーケンスｓ(ｔ)が単一音響ソースの情報を表わすと分かっている場合には、ＴＮＣを使用して、セグメントシーケンスｓ(ｔ)のもとで連続自己相関により表わされた情報の展開を研究することができる。セグメントに沿った時間依存経路を使用するのが効果的である。というのは、スピーチ音響や音楽音響のような種々様々な信号にとって信号の基本的周期は時間的に一定でないからである。
【００９８】
ＴＮＣは、相関の方向の入念な選択を使用することに注意されたい。次の式に基づくフレームベースの自己相関の場合には、
【数１５】

【００９９】
相関がｔ＋ｎに対応する遅れに基づいても又はｔ−ｎに対応する遅れに基づいても何ら相違は生じない。全ての作用が加算される限り、結果は同じである。これまでのやり方では、マイナス符号が選択される。というのは、遅延を伴わない通常のシステムに類似しているからである。常時更新される（即ち連続）自己相関については、「ｔ−ｎ」を選択すると、情報の時間的順序付けが、「ｔ＋ｎ」の実施の場合とは異なることになる。
【０１００】
ここでは、漏洩性積分ベースのコレログラムの３つの異なる連続的実施について説明する。しかしながら、本発明は、他の多数の相関形態にも適用できる。第１の選択は、次の通りである。
【数１６】

ｓ＝１、・・ｓ_max Ｔ∈［０、Ｔ_max］（１６）
【０１０１】
この式は、時間進化マトリクスのマトリクス素子の定義関数である。式１１の適合は、セグメントｓの自己相関の値と、自己相関遅れＴとを示す。上に沿えた「−」は、最後の項におけるマイナス符号を指す。ｓ次元のマトリクスインデックスが延び、そしてＴ次元のマトリクスインデックスが延びている。この場合も、ｘ_s(ｔ)は、ＢＭセグメントｓの出力を表わす。この実施は、遅延の必要性を伴わない通常のものである。
【０１０２】
ＴＮＣを定義する第２の実施形態は、時間的に待機することである。
【数１７】

【０１０３】
インデックスを落とすと、この実施形態は、ｒ⁺(ｔ)と称する。将来の情報はそれが得られるまで処理できないので、この実施形態は、現在時間ｔと、Ｔ_max（例えば、１２．５ｍｓ）の全コレログラムが得られるときとの間に時間差を伴う。
【０１０４】
ある形式のグループ遅延正規化がしばしば実行される。正規化の間に、グループ遅延は、エネルギーの式の時間的不鮮明さ及び遅延の合成ではなく、遅延として処理される。グループ遅延の正規化は、基底膜セグメントの応答をローカルグループ遅延ｄ_sで時間シフトすることにより実行される。時間ｔにおける高周波数セグメントの情報が、３０ｍｓ以上時間的に遅い低周波数セグメントの情報と合成される。これは、しばしば便利なエネルギー式の表示を導く。グループ遅延の正規化は、「＋」又は「−」符号で行うことができる。ここでは、「＋」バージョンについてのみ考えるが、「−」バージョンも考えられる。
【数１８】

【０１０５】
式１４と比較すると、更に長い遅延が必要である。式１４の最小遅延はＴ_maxであったが、ここでは、遅延がＴ_max＋ｄ_sである。Ｔ_maxの逆数は、コレログラムにおいて表現されるべき最低周波数である。スピーチの場合に、有用な下限は、８０Ｈｚ又は１２．５ｍｓであり、そして対応するグループ遅延は２８ｍｓである。従って、合成遅延は、４０ｍｓ以上である。この遅延より重要なことは、ｒ^gd(ｔ)が、最初に３０ｍｓ以上時間的に分離されていた情報を与えることである。５ｍｓのフレームサンプリングレートでは、これが６フレーム以上に対応する。
【０１０６】
連続性を保存する観点から、式１８は、他の実施形態よりも、時間の連続性をあまり良く保存しない。これら実施形態では、時間ｔにおける隣接セグメントａとｂとの間の変化が時間的に最小ステップを伴うが、グループ遅延正規化の場合には、有効な変化が次の通りである。
【数１９】
ｓ_a(ｔ) → ｓ_b(ｔ＋Δｔ＋ｄ(ｓ_b)−ｄ(ｓ_a)) （１９）
【０１０７】
グループ遅延は、隣接セグメント間で若干異なるので、信号の急激な変化中に連続性の仮定の有効性を低減する追加の時間的シフトが導入される。ＴＮＣの連続性は基本的な仮定（即ち、処理中にチェックできない仮定）であるから、連続性に違反すると、予想し得ない結果を招く。しかしながら、グループ遅延自体は、ここで使用する伝送ラインモデルにおける場所の連続的関数である。これは、グループ遅延との結合において連続性が保証された状態に保たれることを意味する。
【０１０８】
自然の信号は、ほとんど静止状態とならず、従って、非静止信号を反映するために最も適したコレログラムバージョンを選択しなければならない。これがＴＮＣである。というのは、ｒ(ｔ)及びｒ^gd(ｔ)と比較して、オンセット及び信号変化をそれらが発生する瞬間に反映するからである。更に、ｒ(ｔ)が蓄積する仕方は、この概要の残り部分のタスク及び解決策に関連して、特にオンセット及び急速な変化中に、あらゆる種類の実際的な問題を招く。それ故、ｒ(ｔ)は適当な選択ではない。グループ遅延正規化との組合せにおけるマイナス符号の結合は、これを更に複雑にする。これが最初に考えられなかった理由はこのためである。
【０１０９】
グループ遅延正規化の使用は、必ずしも必要でない。しかしながら、ｒ(ｔ)とは異なり、ｒ^gd(ｔ)は、付加的な問題を伴わずに使用することができる。これは、グループ遅延の作用が部分的に修正された視覚表示を与える。
【０１１０】
リッジの推定
ＴＮＣと共に得られる瞬時ローカル周波数情報は、雑音の多い未知の環境内のピッチ・輪郭の最適推定のための基礎を形成する。ＴＮＣは、それが（セグメント数）×（毎秒のサンプル数）×（周期の数）の次数であるから、計算的には極めて非効率である。セグメントが100であり、サンプル周波数が20ｋHzであり、そして最大周期が25ｍｓである場合（500の異なる値）、これは毎秒10⁹×（２乗算＋１加算）に対応する。計算の効率を大幅に向上させることは可能ではあるが、より効率的なアプローチが要求されている。
【０１１１】
このアプローチは、単一信号成分（例えば、調波）に関する優れた情報を与えるものと考えられるコクレオグラム（cochleogram）の領域を決定することによって見出される。図２．３に関して説明したように、各信号寄与は、基底膜の領域を補充することを試みる。これは、各位置が単一信号成分によってほぼ支配されることを意味する。更に、これらの領域は、その信号成分の周波数に対応する位置にピークを呈する。これは、各ピークが単一信号成分に対応していることを意味している。図２．３の第１０乃至第１２高調波に似た信号寄与は、より強い寄与によって殆ど完全にマスクされ、分離したピークには見えない。探索空間がコクレオグラム内のピークに縮小されると、個々の信号成分の情報を信頼するに足る推定を可能にする位置が効率的に選択される。
【０１１２】
偽（スプリアス）ピークの数を減少させるために、リッジは時間中のピークを組合わせて形成させることができる。信頼できるリッジのメンバーとして分類することができない全てのピーク・位置（その選択の詳細に関しては、「信頼性測度」の章において説明する）は破棄される。このようにして得られたものが図２．９であり、推定されたリッジが２つの相補的表現で示されている。左側の図には０ｄBカクテルパーティー雑音内で推定されたリッジが、／ＮＵＬ／のコクレオグラム上に重畳されている。右側の図は相補的情報を示しており、リッジはきれいな信号内で推定されている。
【０１１３】
これらの図によって、雑音中のリッジ推定と、きれいな状況での推定とを都合よく比較することができる。雑音の多い信号でのリッジ推定は、きれいな目標の最も顕著なピークと一致することが多い。リッジは雑音の多い信号から推定されるから、それらは源の情報が支配している位置をも表している。右側の図から明らかなように、カクテルパーティー背景は、主として他の話し手のスピーチの強度ピークからなる。これらの強度ピークの持続時間は全音源よりも短いから、リッジはそれ程信頼できない。多くの相関しない源からなる背景、または周期的な雑音を含む背景の場合には、このようであることが多い。これは、最も重要な情報源をピンポイントすることによって探索空間を効率的に減少させるから、この要求は問題を解くのを援助する。
【０１１４】
２つの信号寄与が単一セグメントに対応するか、またはその直ぐ近隣の周波数を有している場合には重要な問題が発生する。この場合、建設的な、及び破壊的な干渉を有する周期が交互する。これは、両信号成分間の周波数差の逆数である周期を有する振幅変調と、両成分の加重平均周波数に対応する位置にリッジの形成とをもたらす。このリッジに関連する漏れ多く積分されたエネルギ値は、振幅変調を示す。雑音の多い状況では、これは中断されたリッジを生じさせ得る。
【０１１５】
信号成分間の別の重要な相互作用は、信号成分が更に離間しているセグメントに対応し、両信号成分がそれらの対応する最良セグメントをエントレインする場合に生じる。合間の何処かに（マスキングが非対称的性質であるので、通常は高周波数セグメントに近い）両成分から同じような影響を感じるセグメントが存在する。これらのセグメントは、ＢＭを破断することなく２つの差周波数に従わなければならない。従って、平均ローカル振幅（従って、対応するエネルギ）は小さい。対応するローカルエネルギも、同様に小さい。これは、必然的に、谷によって分離された２つのピークを有する状況をもたらす。ある時間にわたって持続する信号寄与の場合には、対応するピーク列が一緒になって時相リッジを形成する。これは、十分に離間した連続的に展開する信号成分に対応する安定なリッジの存在を立証している。
【０１１６】
ランニング自己相関の推定
ローカル瞬時周波数・輪郭は、ランニング自己相関を使用して推定される。リッジを決定するための新しい方法を使用して今では１組の連続リッジ｛ｓ_i(t)｝を有したことになる。ＴＮＣは時間ｔ及び場所ｓ内で連続であるから、リッジｓ(t)に沿うランニング自己相関を計算することができる。
【数２０】
（ｓ(t)，Ｔ^(t)＝Ｌ（ｘ_s(t)(t)，ｘ_s(t)(t＋Ｔ)）（２０）
Ｔ＝［０，Ｔ_max］
ピーク位置が滑らかに変化するにつれて、その関連する自己相関もそのようになる。式１３の調整された自己相関に伴う対称性に注目されたい。この式は、時間の関数としての周期・輪郭T(t)を有する全てのセグメントにわたる１組の関数を表していたが、式２０は時間の関数としてのセグメントシーケンスｓ(t)を有する全てのTにわたる１組の関数である。ＴＡＣはＴＮＣの垂直断面、及びランニング自己相関水平断面を記述している。
【０１１７】
このようにして推定された自己相関の典型例を、図２．１０の左側に示す。上側の自己相関は、大部分のリッジを代表する典型的な十分に形成された例である。若干の状況においては、自己相関は周波数寄与の混合を示す。下側の自己相関は、第３高調波が部分的に第２高調波によってマスクされている例である。これにより混乱した自己相関、及びより複雑化した、または不可能でさえある「ローカル瞬時周波数」（ＬＩＦ）推定がもたらされる（次章において説明する）。システムは、十分に形成された自己相関を取る。時には不十分に形成された自己相関が発生し、セグメント特性周波数に対応しない（不正確な）ＬＩＦ推定をもたらす。これらの値は、破棄できることを見出した。
【０１１８】
ローカル瞬時周波数輪郭（ＬＩＦ）の推定
図２．１０の上側の自己相関は、時点ｔ＝285ｍｓにおける図２．９の目標信号の第４高調波に対応する。この状況は、それが極めて顕著なリッジに対応せず、ローカル周波数がかなり急速に変化しているので選択したものである。ローカル瞬時周波数は、平均ピーク距離（この場合には、12.0ｍｓの中に適合する13振動）を計算することによって近似することができる。これは、1083Ｈｚに相当する。しかしながら以下に説明するように、これは、ｔ＝285ｍｓとｔ＝285＋12ｍｓとの間の「平均」ローカル周波数をもたらす準静止の不要な適用である。
【０１１９】
ピーク間距離の展開の一次近似を使用することにより、ローカル瞬時周波数推定が改善される。これは、ピーク間のサンプルの距離を取り、これらの値を通して一次モデルを適合させることにより実現することができる。T＝０における自己相関ピークのためのこのモデルの値が、ＬＩＦのための推定を発生する。これは効率的な方法であるが、この方法は、0.05ｍｓのサンプル周期が0.94ｍｓのローカル瞬時周期に比して僅かに小さいとは言えないので、時間離散化（descretisation）効果を受け易い。
【０１２０】
時間離散化効果は、３点二次適合を使用してピーク位置の推定を改善することによって減少する。これにより、ピーク位置推定が10倍改善される。右側の図は、再推定されたピーク間距離、及びこれらの値を通しての線形適合に対応する周波数を示している。ピーク０の位置において得られたＬＩＦ値は、1064±５Ｈｚである。誤差は、0.5％より小さい。スピーチ音の場合、ピッチの変動がより高い精度を妨げる。ＬＩＦが、10ｍｓ当たり25Ｈｚまたは2.35％変化することに注目されたい。10ｍｓ当たり2.35％の変化率は、秒当たりの係数10に、または3.3オクターブに対応する。無意識スピーチの場合、これらは自然値である。
【０１２１】
ローカル瞬時周波数推定は、固定時間・ウィンドウが回避されているので、時間的に、及び周波数的に極めて正確である。「ウィンドウ」された信号を使用するローカル瞬時周波数の推定は、準静止の適用、及び時間と周波数の分解能のトレードオフによって制限される。
【数２１】
Δｔ＝１／Δｆ（２１）
ウィンドウの幅の選択は、時間分解能、並びに周波数分解能を決定する。ウィンドウのサイズを増加させると時間分解能Δｔは低下するが、周波数分解能Δｆは増加し、その逆もまた真である。
【０１２２】
信号が単一の調和複素数からなるものとするような信号に関する付加的な想定は、瞬時周波数推定を増加させるが、任意信号では、これらの想定の有効性を保証することはできない。
【０１２３】
ＴＮＣをベースとするＬＩＦ推定も同様に式２１の対象であるが、異なる方法においてである。それは、エントレインメントに基づくものであり、リッジをもたらす信号寄与に制限される。これは、近隣セグメントに対応する周波数を有する２つの成分は単一のリッジをもたらさないから、それらを分解できないことを意味している。このことは、１つの成分が他の成分をマスクしているような状況においても真である。この不可能性は、ＢＭセグメントの数を増加させ、レスポンス曲線を鋭くすることによって軽減することができる。しかしながら、レスポンス曲線を鋭くすると、式２１に従って群遅延を増加させることになる。送信回線においては、式２１のΔｔは群遅延と考えることができ、Δｆは調整曲線の鋭さの測度を表す。
【０１２４】
従って、ＴＮＣをベースとするＬＩＦ推定の精度は、リッジを発生する信号成分に制限される。それは更に、ランニング自己相関におけるピークの数、及びピーク位置の精度によっても制限される。最後に、それは、一次近似の有効性によって制限される。ゆるやかに変化する信号寄与の場合には安定なリッジが形成され、自己相関の最大の遅れは、一次近似を無効にすることなく極めて正確なＬＩＦ推定を可能にする周期の数を表すように選択することができる。一次適合に伴う誤差が、推定の信頼性の測度になることに注目されたい。例えば、これはピッチ推定中に使用することができる。
【０１２５】
図２．１１は、雑音の多い／ＮＵＬ／から、時点ｔ＝250ｍｓ（図２．９参照）において推定された幾つかの自己相関の例である。下側の図は、図２．９の左側の図のｔ＝250ｍｓにおけるリッジ２、４、６、７、及び８（下側のリッジから始まる番号を付してある）のランニング自己相関を示している。これらの自己相関は、これらのリッジが同一の源に属する調波から生じていることを示唆しており、それらは全て4.10ｍｓ（244Ｈｚ）の周期性に一致する。上側の図は、この周期性には一致しないリッジ１、３、及び５の自己相関を示している。これらのリッジ３及び５は、2.9、5.8、または8.7ｍｓの周期性に一致している。
【０１２６】
ローカル瞬時周波数推定は、雑音に対して頑強である。ＬＩＦ値を２つの条件に関して計算し、それを図２．１２に示してある。点は、きれいな／ＮＵＬ／から推定されたローカル瞬時周波数の値である。星は、雑音の多い／ＮＵＬ／から推定されている。きれいな信号内の殆どの周波数寄与が、雑音の多い環境内に明白に存在し続けていることに注目されたい。接近した試験によれば、動揺は２％より小さいことが多いことが分かった。これは、リッジが、個々の信号成分のための極めて信頼できる情報源を形成していることを示している。
【０１２７】
基本周期・輪郭推定
信頼でき、且つ頑強なピッチ推定技術の開発は困難である。その主な理由は、源を認識する前に、どの信号寄与が、またはどの信号特性がある源に属しているのかを決定することが一般に不可能だからである。これは、信号を認識することができずに、信号の型（例えば、その信号がスピーチであるのか否か）を決定することはできないことの直接的な結果である。
【０１２８】
更に、この問題は一般的には解決不能であるが、滑らかに展開する調波のような若干の特色を使用することはできる。これらは、他の型の音が発生しないことをユーザが保証する限り使用することはできるが、不幸にも、これは、未知の状況を取扱うことができるシステムに要求されるものではない。
【０１２９】
２つの基本周期・輪郭推定技術が開発されている。１つはきれいな信号のためのものであり、「きれいな信号のピッチの推定」の章において説明する。１つは雑音に汚染された、または複数の源からの信号を含む信号のためのものであり、次章で説明する。
【０１３０】
雑音の多い信号のための頑強な基本周期輪郭推定
この章においては、複雑な信号の周期輪郭を推定するための技術の実施の形態について説明する。第１の部分では概要を説明し、第２の部分ではより詳細に説明する。
【０１３１】
この特性は、図２．１４の下側の図に示すような輪郭のために使用される。図２．１５の上側の図は、図２．１４の平滑された輪郭と矛盾しない全ての基本周期・輪郭仮設（hypotheses）を示している。若干の基本周期・輪郭仮設は、互いに「滑らかに」重複し合うか、または伸びている。これは、周期・輪郭が同一の源に由来すること、相関していない周期・輪郭が矛盾のない全体を形成する確率が小さいことを強く示している。下側の図は、３つの主基準に基づく上側の図の選択を示している。これらの基準とは、輪郭は、例えば50ｍｓのようなある最小長さを有していなければならないこと、それらは十分に平滑でなければならないこと、及び複数の共点（concurrent）輪郭の場合、最長の輪郭だけが選択されることである。これは大幅な縮小をもたらし、またほぼ正確なピッチ・輪郭候補を含むセットをもたらすことが多い。
【０１３２】
最終ステップは、残余の共点候補と、図２．１４に示す元のローカル周期性情報とを比較してどの候補が殆どの周期値を説明しているかを決定し、またオクターブ誤差を防ぐために、奇数及び偶数調波の合理的な比を有している。これらの要望に最良に合致する候補が、アルゴリズムの最終出力を形成する。
【０１３３】
図２．１６は、バブル雑音の異なる信号対雑音比を有する信号から推定されたピッチ・輪郭の比較を示している。オン及びオフセット中の若干の差を除いて、アルゴリズムは−３ｄB及びそれより良好なＳＮＲのための正しい輪郭を見出すことができる。アルゴリズムが正しい輪郭を発生する場合、通常、実際の値の十分に１％以内で整合する。アルゴリズムは、目標音の最も顕著な調波が未だに事実上これらの条件内で局部的に支配できる領域を識別し、周期性情報を使用して可能な限り多くのこれらの領域を組合わせるピッチ・輪郭を見出す。これらの領域内の周期性情報が未だに事実上損なわれていないので、ピッチ・輪郭はきれいな状態で推定されたものと類似の品質でなければならない。オンセット及びオフセット中にはローカル信号対雑音比はより不利になり、周期・輪郭を明白に決定することを困難にする。
【０１３４】
ピッチ・輪郭推定技術は、長い、滑らかな、そして十分に支援された基本周波数・輪郭を探すから、それは、支援することができる証拠の全ての組合わせを見出す。
【０１３５】
雑音中の基本周期・輪郭推定
どの信号寄与、または信号特性が目標クラスに属しているのかを、信号を認識する前に決定することは一般的に不可能であるので、信頼でき、且つ頑健なピッチ推定技術の開発は簡単ではない。第１の周期・輪郭推定デバイスを、複雑な、未知の、そして可変環境内で発生するスピーチのような信号のために開発する。このデバイスに関してはこの章において説明する。第２の基本周期輪郭推定デバイスを、無雑音信号のために開発する。その機能は、目標が雑音によって汚染されていないものと想定している。このデバイスは、周期的な源の全ての調波が共通の周期性を呈する特性に基づいている。本発明は、「無雑音信号のための基本周期推定」の章に記述することにする。
【０１３６】
信頼できる情報源のためのインディケータは、
１．各瞬間における殆どのエネルギッシュなリッジ、
２．長いリッジ、
３．滑らかなリッジ、
４．ローカル特性周波数に対応する周波数を有するリッジ、
であるとして見出される。
【０１３７】
これらの特色がより多く組合わされているリッジは、特に信頼することができる。説明する実施の形態は完全な発声に対して動作するアプローチを使用しているが、僅か100ｍｓまたはそれ以下の遅延を伴う周期・輪郭仮設の推定を供給する手法でデバイスを再実現することが可能である。この遅延の下限は、群遅延効果、ローカル周波数の計算に要する時間の範囲、及び最も重要なものとして、システムが発生することを許容されている周期仮設の数の組合わせによって決定される。50ｍｓの遅延では、有望な基本周期候補の数を減少させるために利用できる情報が、システムが100ｍｓにわたって情報を積分することを許容される場合よりも少なくなる。オプションとして遅延を信号自体に依存させる。極めて信頼できる情報は小さい遅延を必要とし、それ程信頼できない情報はより多くの、そしてより長い処理を必要とする。
【０１３８】
この章では、殆どの環境において良好に働く１組の固定基準に頼るデバイスを説明する。次章では、実施の形態の柔軟性及び信頼性を高めるために、この実施の形態の固定基準を置換できる１組の信頼性測度を説明する。
【０１３９】
この実施の形態は周期ドメインを使用し、代替実施の形態は周波数ドメインを使用する。
【０１４０】
図３．６は、頑強な基本周期・輪郭推定アルゴリズムの５ステップの概要である。
【０１４１】
ステップ１は、リッジ及びローカル瞬時周期輪郭（ＬＩＦ輪郭の逆）を推定する。ステップ２は、最も信頼できる瞬時周期輪郭を選択する。ステップ３は、これらの輪郭を全ての可能な基本周期輪郭へクローンする。ステップ４は、クローンされた周期輪郭を、信頼できる基本周期輪郭仮設に組合わせる。ステップ５はオプションであり、各時点に単一の基本周期輪郭仮設だけが存在するように、最も信頼できる基本周期輪郭を選択する。
【０１４２】
アルゴリズムのための入力は図２．９に示されているような情報であり、コクレオグラム、リッジ、及びローカル瞬時周期を含んでいる。
【０１４３】
第１のステップは、ＬＩＦ推定の章において説明済みである。
アルゴリズムの第２のステージは、最もエネルギッシュなリッジの選択及び平滑化である。このアルゴリズムは、対応する最良セグメントが、リッジの最良セグメントとは１セグメントより多く異なっている瞬時周期の検出から開始される。これらの周期値は、セグメント特性周期（最良周期ともいう）によって置換される。利用可能な情報は、図２．１４の上側に示してある。見易くするために、５ｍｓより小さい周期（即ち、200Ｈｚより高い周波数）だけを示してある。この表現は信号対雑音比が０ｄBである状況に基づいているから、破棄しなければならない多くの偽の寄与を示している。
【０１４４】
各リッジが後続し、連続する周期が互いの５％以内である限り、それらは同一の周期・輪郭に割当てられる。連続する２つの周期が５％以内になければ、次の値が５％以内にあるか否かを調べるために付加的な検査が遂行される。もし有効な次の値を見出すことができればその間隙はその近隣の平均で充填され、そうでない場合には新しい輪郭が開始される。全ての輪郭が輪郭の平滑されたバージョンｐ(t)で増補される（２．１４の下側の図を参照されたい）。平滑化は５点（25ｍｓ）線形近似を使用して遂行される。輪郭の中央においては、平滑されたローカル周期は両側の２フレームのローカル近隣に基づいている。輪郭の２つの最初と最後の点においては、平滑されたローカル周期は一次近似の対応する値に基づいている。最後に、各輪郭の平均通常度（ordinality）が計算される。通常度とは、エネルギに関する相対的な重要度の測度である。最もエネルギッシュなリッジのセグメントの通常度が１であり、第２の最もエネルギッシュなリッジのセグメントの通常度が２である等々である。周期・輪郭は、その長さが50ｍｓを越え、その平均通常度が２より小さいかまたは等しい場合に、または代替として、その長さが75ｍｓを越える場合に受入れられる。
【０１４５】
滑らかなリッジｐ(t)は、目標スピーチの調波に由来することも、由来しないこともあり得る。各輪郭が、開始から終了までの単一の調波番号を表しているものとする。もし調波番号ｎを知れば、基本周期ｐ₀(t)が分かる。それは、
【数２２】
ｐ₀(t)＝ｐ(t)ｎまたはｆ₀(t)＝ｆ(t)／ｎ（２２）
だからである。
【０１４６】
さらなる制限として、有効基本周期値は、殆どの話し手をスパンする範囲である2.5ｍｓ（400Ｈｚ）と13.3ｍｓ（75Hz）との間に制限されている。例えば、周期ｐ＝６ｍｓは、基本周期ｐ₀＝12ｍｓの第２高調波の結果であることも、またはｐ₀＝６ｍｓの第１調波の結果であることもできる。周期ｐ’＝２ｍｓは、２乃至６の範囲内の何れかの調波番号を表すことができる。これは、セット｛４、６、８、10、12｝ｍｓ内の何れかのｐ₀に対応する。もしｐ及びｐ’が同一の源に由来すれば、それらは同一の基本周期ｐ₀を共有する。この場合、６または12ｍｓの何れかである。
【０１４７】
図２．１５の上側に図示するように、平滑された周期・輪郭は、各可能な調波番号を乗ぜられ、全ての可能な基本周期にクローンされる。これは、輪郭の対応する特性セグメントの変化を含み、各セグメントはそれ自体の群遅延を有しているので、これは、
【数２３】
ｔ→ｔ＋ｄ（ｓ_np）−ｄ（ｓ_p）ｎｔ｛１，２，…｝（２３）
に従う時間的なシフトを暗示している。ｄ（ｓ_p）及びｄ（ｓ_np）は、それぞれ、周期ｐ及び周期ｎｐに最も鋭敏なセグメントに関連する群遅延である。この時間シフト暗示は、第１調波の周期として瞬時基本周期を定義する。
【０１４８】
第３ステップは、クローンされた輪郭を、滑らかな基本周期・輪郭仮設に組合わせる。輪郭は異なる方法で組合わされ得ることが多いので、これは複雑なプロセスである。２つのクローンされた輪郭のローカル周期が、平均で互いの３％以内にある場合には、それらは単一の仮設に組合わされる。部分的に、または完全に互いに伸びている輪郭は、25ｍｓ中に両輪郭を３％以内に整合させる二次適合を推定できる場合に組合わされる。式２２の時間シフトは、複数の輪郭の信頼できる比較を可能にするので極めて重要である。この形状の群遅延補正を行わない場合には、同一源の輪郭は、ピッチの急速な変化中は組合わされない。最後に、50ｍｓより短い基本周期仮設が破棄される。これによって大幅に縮小され、大体正確なピッチ・輪郭候補を含むセットをもたらすことが多い。このセットを、図２．１５の下側に示す。基本周期輪郭仮設の現セットから、適当な出力を形成することができる。しかしながら、時間ステップ当たり最大１周期輪郭を選択することが重要であるような応用の場合には、オプションとしての最後のステップを遂行することが可能である。
【０１４９】
このオプションの第５の、そして最後のステップは、共点輪郭仮設間の強制選択を含む。標準ＡＳＲシステムに適用される場合、それは、どの聴覚イベントが形成されるのかを決定するから、これは極めて重要なステージである。この選択は、信号のどの部分を、予測、及び認知システムの制限に従って翻訳するのかを決定する。このステージにおける誤差は、認知誤差をもたらす。これは、利用可能な全ての情報（即ち、全てのリッジ及びそれらの対応する瞬時周期）に基づく極めて注意深い決定プロセスを保証する。この決定プロセスは、各瞬間毎に多くとも１つの周期・輪郭を選択する。選択された仮設は、それが可能な調波として要求できる瞬時周期値の数を、偶数及び奇数調波の公平な分布と組合わせて、最大にする。
【０１５０】
基本周期・輪郭仮設ｐ(t)によって要求される調波の数は、
【数２４】
cos［｛ｐ（ｔ＋ｄ_s）／ｐ_s,t｝２π］＞0.95 （２４）
を満足する瞬時周期値の数をカウントすることによって決定される。ｐ、ｔはセグメントｓ内の時点ｔにおいてリッジから導出された瞬時周期値である。またｐ（ｔ＋ｄ_s）は、セグメントｓの位置の予測される瞬時基本周期を表す値ｄ_sで補正された群遅延である基本周期仮設である。基底膜の差領域の瞬時周波数情報が比較されるので、この場合も群遅延補正が必要である。上式の基準は、予測される値の周りの5.1％の偏差を受入れることと同等である。
【０１５１】
予測される値の5.1％以内にある奇数及び偶数調波の数をカウントするために、この式の変形を使用することができる。即ち、
【数２５】
Ｎ_p(t)＝Ｎ^o _p(t)＋Ｎ^e _p(t)
＝Σ_i［cos｛ｐ（ｔ＋ｄ_i）／ｐ_i｝π＜−0.95］
＋Σ_i［cos｛ｐ（ｔ＋ｄ_i）／ｐ_i｝π＞0.95］（２５）
添字ｉは全ての可能な値ｐs、ｔを意味し、ｐ(ｔ＋ｄ_i)はセグメントｓ内の時点ｔに反映されるローカル瞬時基本周期のための所要群遅延補正値である。Ｎ_p(t)は受入れられた調波の合計数であり、Ｎ^o _p(t)及びＮ^e _p(t)は奇数及び偶数調波の数である。この場合には、奇数調波は最小値の周りにあり、偶数調波は余弦関数の最大値に一致する。大括弧はブール値を表し、もしステートメントが真であれば１であり、ステートメントが偽であれば０である。
【０１５２】
２つまたはそれ以上の共点仮設の最良仮設は、
フレーム当たりの平均調波の数・分数奇数調波
【数２６】
＝（Ｎ_p(t)／Ｌ）・（Ｎ^o _p(t)／Ｎ_p(t)）＝Ｎ^e _p(t) ／Ｌ（２６）
を最大にするものである。Ｌはフレームの数で表された基本周期・輪郭仮設の長さである。両基準は重要である。要求された調波の平均数は、仮設の質の測度であり、通常は、フレーム当たり多数の調波を要求する短い仮設の方が、フレーム当たりそれ程多くない数の調波を要求する長い仮設よりも好ましい。奇数調波の分数は、基本周期・輪郭が１オクターブ低い場合には低い。偽寄与が、要求される調波の平均数を増加させる傾向にあるので、これは極めて屡々発生する。組合わされた基準は、フレーム当たりの奇数調波の平均数まで縮小する。この単純な基準は、補正仮設を選択する高い確率を有している。
【０１５３】
選択された仮設は、全ての要求された調波を使用して再推定され、平滑される。平滑化は、第１のステージにおいて適用される平滑化に類似している。全ての要求された調波が推定に寄与するから、データ点の数は遙かに多くなる。各フレームにおけるローカル線形近似は、今度は群遅延補正後の、25ｍｓの環境に対応する全てのデータ点に基づく。より小さい環境に対応する25データ点が存在する場合には、ローカル推定はこれらの25点に基づく。式２２を使用すると、第１調波の瞬時周期・輪郭として基本周期・輪郭が定義される。「周期信号寄与の選択」の章の選択アルゴリズムの要望に応ずるために、周期・輪郭は、第１調波の瞬時周期の代わりに、源の瞬時周期を反映するように時間シフトされる。
【０１５４】
アルゴリズムの最終出力は、各フレームにおける一次近似を定義するパラメータのシーケンスである。一方のパラメータはローカル瞬時基本周期を与え、他方は時間導関数を与える。両者は時間的に平滑されているから、実際の周期は推定された値の周りを変動し得る。「周期信号寄与の選択」に記載されている技術は、最終の、そして最適の値を決定する。
【０１５５】
図２．１６は、バブル雑音の異なる信号対雑音比を有する信号から推定されたピッチ・輪郭の比較を示している。オン及びオフセット中の若干の差を除いて、アルゴリズムは、−３ｄB及びそれより良好なＳＮＲのための正しい輪郭を見出すことができる。アルゴリズムが正しい輪郭を発生する場合、通常、実際の値の十分に１％以内で整合する。デバイスは、目標音の最も顕著な調波が未だに事実上局部的に支配できる領域を識別し、またデバイスは、周期性情報を使用してこれらの領域の可能な限り多くを組合わせるピッチ・輪郭を見出す。これらの領域内の周期性情報が未だに事実上損なわれていないので、ピッチ・輪郭はきれいな状態で推定されたものと類似の品質でなければならない。オンセット及びオフセット中にはローカル信号対雑音比はより不利になり、周期・輪郭を明白に決定することを困難にする。
【０１５６】
０ｄBより高いＳＮＲを伴う最も雑音の多い状況のために、多くの場合に95％より多くの正しい周期輪郭を推定することができることを実験が示唆している。これらの場合には、それは極めて良好なＴＡＣ・推定を可能にする。０乃至−３ｄＢの間では、正しい推定の確率は70％に低下し、−３ｄＢ以下では、固定パラメータのためにデバイスを信頼することはできない。その信頼性は、次の章に示す信頼性測度を使用して増加させることができる。
【０１５７】
次の章において、時間の各（サンプリング）瞬間における可能なピッチ値を決定する（ステップ３）代替方法を説明する。これらの値は、リッジの推定に関して説明済みの手順（「リッジ推定」の章において説明）と類似の手法でピッチ輪郭を形成するように接続することができる。これらのピッチ輪郭のためのグローバル信頼性スコアの形成に関しては、次章においても説明する。
【０１５８】
この代替方法によれば、この章において上述したように、最小の遅延でピッチ輪郭を決定することができる。
【０１５９】
信頼性測度
上述したように、基本周期輪郭推定は、最も信頼できる情報を選択する。システム（セレクタデバイス）の最高レベルにおいて信頼性測度を決定しなければならない場合、より低いレベルにおいて決定された信頼性測度が重要な役割を果たす。あるレベルにおける（１つまたは複数の）信頼性測度は、より低いレベルからの利用可能な信頼性測度から、及びそのレベル自体において得られた新しい情報から構築される。最低から最高のレベルまで、以下の信頼性の測度を定義することができる。
【０１６０】
１）時間のある瞬間におけるエネルギ出力内の個々のピークの信頼性。この測度はローカル信号対雑音比（ＳＮＲ）に依存する。
２）リッジの（グローバル）信頼性は、リッジを構築するのに使用されるピークのために決定された（ローカル）信頼性値から構築することができる。他の影響は、リッジの長さ、及びリッジの連続性（位置及びエネルギ共）から生ずる。
３）周波数輪郭の信頼性は、周波数が決定されたリッジの信頼性に依存する。また、周波数の連続性は、ある役割を、及びある標準形状との自己相関の適合を果たすことができる。
４）リッジの選択中には信頼性測度は決定されないが、同一の源に属すると見做すことができるリッジだけを選択することによって、より高いレベルにおける信頼性に寄与する。
５）ピッチ輪郭の（グローバル）信頼性は、以下のものから構築される。
−ピッチの決定に寄与するリッジ／このピッチ輪郭に適合するリッジの信頼性
−ピッチ決定方法内で決定された適合度の測度
−ピッチの連続性
６）最終選択の信頼性測度は、選択の基礎であるピッチ輪郭の信頼性に基づくことができる。また、全ての位置に多分存在するマスキングの量を決定することができ、時間及び場所に依存する信頼性スコアを与えるように使用される。
【０１６１】
上述した測度に関して以下に詳細に説明する。図３．１を参照して、ピーク探索、及びローカルＳＮＲの推定を以下に詳細に説明する。時間の各瞬間において、ＢＭモデルのエネルギ出力内にピークを見出すことができる。これらのピークは、（位置の関数としてのエネルギの）ローカル最大である。ピークの位置は、二次補間を使用することによって、モデル内に使用されている離散化ステップよりも高精度で決定することができる。次のステップは、ローカル最大の位置に最も近いピークを有するピークテンプレート（所定のセットのピークテンプレート内の）を探索することである。これは、全てのピークに関して個々に行われる。
【０１６２】
次に、テンプレート（grSpec）に良好に適合するエネルギスペクトル（ＥＳ）の点を決定しなければならない。ＥＳとgrSpecとの間の垂直距離を使用する適合方法は、テンプレートの鋭い勾配においては悪い適合をもたらし、一方、より浅い領域においては遙かに良好に適合する。従って、ＥＳの点をテンプレートgrSpec上に配置するのに必要な回転の角度を使用する方法が開発された。この方法は、ピーク位置から開始される。先ず、それは、この位置の左側の点を調べる。もしＥＳ上の点及びgrSpec上の点を見出すことができる方向が１°より大きく離れていなければ、それは、ＥＳ点をテンプレートgrSpec上に配置できるものと考え、注意を次の点に向ける。ＥＳ点をテンプレートgrSpec上に配置するために必要な回転の角度が１°より小さい限り、そのＥＳの点はテンプレートに適合するものとする。１°より大きい回転を必要とする点が見出された場合には、その点は不適合として分類されて左方への探索が終了し、プロセスはピークの右側について繰り返される。
【０１６３】
図３．２ａは、エネルギスペクトルを、１つのピークのためのテンプレートと共に示している。図３．２ｂは、ＥＳ点をテンプレート上に配置するのに必要な回転の角度の余弦を示している。ピークに近い点では、余弦が１に近い（小さい角度）ことは明白である。０に近い値（または、負の値でさえも）への変化はかなり急峻であり、我々が適合領域として直感的に指示する領域の限界と良好に対応する。図３．２において、最後に、ピークテンプレートに良好に適合するものと印象付けた点が、赤に着色される。
【０１６４】
図３．３ａは、信号‘１４０’の場合の、時間及び位置の関数としての蝸牛のエネルギ出力を示している。図３．３ｂにおいて、赤に着色された領域がピークテンプレートへの適合として分類される部分である。
【０１６５】
もしある領域がピークに適合するものと決定されれば、ローカルＳＮＲのためのある測度を得ることができる。この測度は、ピークにおけるエネルギと、適合領域の両端におけるエネルギとの比を与えるべきである。両端における値は極めて異なるので、２つの平均が使用される。ｄＢスケールはＳＮＲのために使用される論理スケールであるので、両側のＳＮＲはｄＢで決定され、次いで平均される。図３．３ｃでは、適合領域は、その適合領域のために決定されたＳＮＲ値でカラーコード化される。図３．４は、雑音状態（自動車工場雑音、０ｄＢ）におけるこの技術の結果を示している。この方法が、雑音の中でのスピーチ信号の有声部分の周波数内容を決定するための信頼できる情報を得ることができる領域を識別していることは明白である。
【０１６６】
この章では、リッジの下のローカル周波数の決定を説明する。リッジの下の信号はほぼ正弦形状であり、周波数はローカル特性（または、最良）周波数ｆ_cに接近しているので、自己相関は余弦形状であり、その第１の最大が１／ｆ_cに対応する遅延にあるとすることができる。これは、ピーク探索のための第１の推定として１／ｆ_cを採用し得ることを暗示している。それは、説明した方法よりもかなり高速で、且つより正確にピークを見出すために、例えば補間を使用することができる。信頼性の特別な測度として、自己相関値と想定した余弦形状との一致を決定することができる。
【０１６７】
先行部分においてはリッジが決定された。今度は、どのリッジが一緒に属しているのか、及び／または、どのリッジが目標源に属しているのかを決定しなければならない。このために、目標が、時間（各５ｍｓフレーム内の）の各瞬間において独特に定義されたピッチを有しているものとする。従って、どのリッジが共通ピッチを共用しているかを決定しなければならない。換言すれば、見出された殆どのリッジを説明するピッチ周波数を見出さなければならない。このピッチ推定は、背景から源を選択するための基礎として、次の章において使用することができる。
【０１６８】
ピッチ推定は、先行章において決定された全てのリッジの周波数を使用する。これらの周波数は、いわゆる副高調波加算（詳細に関しては、1988年１月のJASA 83(1)に所載のD.J. Hermesの論文“副高調波加算によるピッチの測定”を参照されたい）への入力を形成している。
【０１６９】
この副高調波加算は、以下に説明するように動作する。見出された各周波数毎に、この周波数を生じさせることができたピッチ値が決定される。これらの可能なピッチ値を、副高調波と呼ぶ。特に低周波数範囲において、多数の可能なピッチ値を回避するために、可能なピッチ値の範囲は［45Ｈｚ−400Ｈｚ］に制限されている。この範囲は、人の音声に見出されるピッチ値をスパンしている。また、可能な入力周波数の範囲も（［70Ｈｚ−2000Ｈｚ］に）制限されている。これは周波数を正確に決定することができる範囲である。これで、現フレーム内に見出された各周波数毎に、１組の可能なピッチ値を有することになる。
【０１７０】
周波数は無限大の精度で決定することはできないので、各可能なピッチ値の周りにガウス分布が形成される。これにより、現フレーム内で見出された各周波数（入力周波数）毎のピッチ候補の確率分布がもたらされる。これらの分布は、全ての入力周波数にわたって加算される。もしピッチが、分布の殆どにおいて高い確率を有していれば、それは加算された分布内に高い確率を得ることになる。もしピッチ値が、個々の分布の小さい断片内だけに高い確率を有していれば、加算された分布内の確率は低下する。この手順により、個々の分布の最大断片内に存在するピッチにおける高いピークがもたらされる。これを、図３．３に示す。
【０１７１】
図３．３Ａ−Ｄは、個々の周波数のためのピッチ分布を示している。図３．３Ａにおいては、175Ｈｚの入力周波数が使用されている。図３．３Ｂにおいては、350Ｈｚの入力周波数が使用されている。図３．３Ｃにおいては、525Ｈｚの入力周波数が使用されている。図３．３Ｄにおいては、750Ｈｚの入力周波数が使用されている。図３．３Ａにおいて、最低周波数（175Ｈｚ）はピッチ範囲内に２つだけの可能ピッチ（87.5Ｈｚ及び175Ｈｚ）を有している。図３．３Ｂ−Ｄのより高い調波の場合には、可能ピッチの数が増加している。論理的には、図３．３Ａ−Ｄの全てにおいて175Ｈｚにピークが存在している。しかしながら、87.5Ｈｚにおいては、全４つの分布の中にピークが存在している。これは、それが正確に175Ｈｚ／２だからである。これは、175Ｈｚの全ての調波が87.5Ｈｚの調波でもあることを意味している。全４つの調波がピークを有する範囲［45Ｈｚ−400Ｈｚ］内には、２つの周波数だけしか存在しない。分布を加算すると、図３．３Ｅに示すグラフが得られる。87.5Ｈｚ及び175Ｈｚが最良候補であることは既に明白であるが、他の周波数（例えば、350Ｈｚ及び116.6667Ｈｚ）に重要な寄与が得られる。
【０１７２】
しかしながら、これらのピッチ候補は、入力周波数の部分だけを説明しているに過ぎない。従って、各ピッチ候補に、それを説明している入力周波数の分数を乗ずる。これにより、３．３Ｆのグラフが得られる。分布内の特別なピークが大幅に減少していることが分かる。しかしながら、それでも２つの候補（87.5Ｈｚ及び175Ｈｚ）は残されている。175Ｈｚの調波を選択したので、これを、得られる最良の候補であるようにしたい。これを達成する方法は、87.5Ｈｚにおける候補を“罰する”ことによる。それは、これが入力内には存在しない262.5Ｈｚ、437.5Ｈｚ、612.5Ｈｚ等に中間調波を発生させるからである。87.5Ｈｚの候補は、その調波の半分が入力から失われるという事実によって“罰せられる”のである。この状況から、175Ｈｚ及び87.5Ｈｚの場合に周波数が発生し、いわゆる「オクターブ誤差」をもたらすことを見出した。失われた調波に対する罰はより厳格である（二次、これはこの補正の二重適用とみることができる）。図３．３Ｇのグラフに示されている最終分布は、175Ｈｚに高いピークを示し、高い確率を有する実の代替は存在していない。将にこれは、我々が望む方法である。
【０１７３】
この状況は、250Ｈｚ、375Ｈｚ、500Ｈｚ、及び750Ｈｚの周波数を使用する場合には僅かに複雑になる。得られたグラフを、図３．３Ａ−Ｇのグラフと同じ順序で、図３．４Ａ−Ｇに示す。これらの周波数は、125Ｈｚの第２、第３、第４、及び第６高調波であることができる。この場合、実質的な数の調波が失われる。もしくは、250Ｈｚの第１、第２、及び第３高調波、及び偶然に、他のある源からの375Ｈｚ成分を有することができる。図３．４Ｅから、副高調波加算の結果が何であるのかが理解できる。この場合、そのピッチのための２つの代替、即ち125Ｈｚ及び250Ｈｚが存在し、これらの代替がほぼ等しく正確らしいことが分かる。
【０１７４】
この種の状況においては、２つの代替の何れかを選択できるように、他のフレームからの付加的な情報を使用しなければならない。もし次の、または先行フレーム内に125Ｈｚの他の調波を見出せば、それが選択されることになる代替である。しかしながら、もし250Ｈｚの調波だけを見出し、375Ｈｚ成分が他とは異なる時間に発生すれば、それは異なる源が発生したものと結論付けることができる。
【０１７５】
現フレーム内の全ての周波数成分の副高調波の分布を決定するには、かなりの計算量になり得るので、多数（550）の入力周波数のための副高調波分布を用いて充填されたマトリックスを形成する方法を選択した。これをピッチマトリックスと呼び、初期化において計算することができる。このマトリックスから、入力周波数に最も近い周波数で２つの行の間を補間することによって、入力周波数の分布を容易に決定することができる。マトリックス、及び175、350、525、及び700Ｈｚを組合わせた場合に選択された行を、得られた最終分布と共に図３．５に示す。
【０１７６】
無雑音信号のための基本周期推定
無雑音（スピーチ）信号に適用できる基本周期推定を開発した。この章で説明するアルゴリズムは、上述したより一般的な周期推定技術に対する高速代替を意図している。このデバイスは、自動スピーチ認識に先立って、スピーチデータベースのための基本周期輪郭を推定するために使用することができる。
【０１７７】
スピーチ認識システムの頑強さを測定する基本周期推定アルゴリズムに対する要望は、可能な限り多くの源を選択して追跡することを目的とするシステムとは多少異なっている。これは、一般的な基本周期推定内で最適化されている。
【０１７８】
ＡＳＲ試験の場合、格納されているテンプレートに可能な限り似せた信号表現を発生させる必要があり、これは、雑音がその選択を可能な限り汚染しないことを意味している。オンセット中には、しかしオフセット中にはより屡々、信号エネルギは比較的低く、言語情報は殆ど運ばれない。例えば、図２．２内の語／ＮＵＬ／におけるｔ＝360ｍｓ後の情報は殆ど重要ではないが、少なくとも別の100ｍｓの間の上昇するピッチを推定することができる。これらの最後の100ｍｓ中に信号対雑音比が急速に低下し、より汚染されたＴＡＣ選択がもたらされる。この汚染を減少させるために、保存性でありながら、信号の開始または終了が有声であるか否かを決定することが有益である。
【０１７９】
これは、基底膜モデルの低周波数半分内のリッジのエネルギ及び減衰挙動の両者を制限することによって実現される。基底膜のこの部分は、無声信号成分による影響を殆ど受けない。エネルギ損失が10ｍｓ以内に50％またはそれ以上に対応する場合、またはエネルギが発声の予測される最大エネルギの１％を越えない場合には、フレームは無声であると見做される。この組合わされた基準は、より巧緻な基準によって置換することもできる。
【０１８０】
減衰・基準は、入力が欠如する場合の漏れの多い積分プロセスの減衰よりも制限的なビットである。漏れの多い積分の10ｍｓの時定数に伴う10ｍｓ以内の減衰はｅ・10／ｔ＝ｅ・１＝0.37であり、一方、適用されるしきい値は0.5である。スピーチ信号の場合、このしきい値が極めて効率的である。基本周期・輪郭推定は極めて良好であるので、また信号内には小さい駆動エネルギしか存在しないので、間欠基本周期・輪郭に基づく選択は、通常は、周期・輪郭の連続バージョンに基づく選択と区別することはできない。両基準を組合わせると、ＡＳＲ応用において要求されるような、早期のオフセットを有する傾向がある基本周期・輪郭が得られる。
【０１８１】
基本周期アルゴリズムは、リッジに沿う自己相関の加算に基づいている。このアルゴリズムは、人のピッチ知覚の面をモデルすることを要求するコレログラムをベースとするアルゴリズムに類似している。主な差は、ＦＦＴをベースとするコレログラムを計算して加算する代わりに、リッジ下のランニング自己相関を使用することである。これは計算負荷を減少させ、また準静止性を適用しないので、急速に変化するピッチを有する信号のために瞬時ピッチのより良い推定を達成することができる。図２．７に関して説明したように、同一の源に由来するリッジに沿う自己相関は、基本周期が全てのリッジが共有する第１の共通周期性と一致する。図３．７は、１組の自己相関及び対応する加算の典型例を示している。全ての自己相関が単純に加え合わされ、群遅延補正が遂行されていないことに注目されたい。従って、結果は近似である。選択アルゴリズムにおける最適化（「周期信号寄与の選択」参照）が、最終瞬時基本周期を決定する。
【０１８２】
各フレームにおいて、加算された自己相関内の３つの最高ピーク（リッジに沿うローカルエネルギの0.3倍より高い値を有する）が選択され、分類される（自己相関値の最高のものを第１に）。どのピークも基準を満足しない場合には、そのフレームは無声であると見做される。これらの自己相関遅れの１つが、このフレームのための所望の基本周期値に対応するものとしている。選択されたピークは時間輪郭に組合わされる。25ｍｓより短い持続時間の輪郭は破棄される。各フレームにおいて、残余の輪郭は、最低リッジのセグメントの対応する最良周波数と比較される。最低リッジの最良周波数の10％以内の時間の60％またはそれ以上に入る輪郭が選択され、他の輪郭は破棄される。最後に、「雑音中の基本周期推定」の章で説明した手順と同一の手順を用いて、選択された周期・輪郭が平滑される。「周期信号寄与の選択」の章のＴＡＣ選択アルゴリズムの要望に適合するアルゴリズムの最終出力は、各フレームにおけるローカル瞬時基本周期の一次近似を定義するパラメータである。
【０１８３】
この技術は、互いに補足し合う２つの知識の源、即ち周期性情報、及び位置情報を組合わせる。自己相関における周期性情報は正確な周期性推定を与え、位置情報は正しい基本周期候補の選択を容易にする。
【０１８４】
周期性信号寄与率の選択
次のステップは、聴覚事象に対する実際の情報割当てである。図２．１７の下方パネルは、ＴＡＣベースの聴覚事象の代表的な例を示している。単一の制約条件（周期-輪郭）の適用は、すでに、上方パネルにおける雑音の多い信号に有利な結果を与えている。低周波側では、ＴＡＣコクレオグラムは、確実に第１の倍音を選んでおり、高周波側では、聴覚事象に対して時間-周波数（実際には、時間-場所）プレーンの大きなエリアを割り当てる。低周波側では、選定領域は、単一の倍音によって支配される。高周波側では、領域はフォルマント（すなわち、共通の基本周期に一致する倍音の合成音）によって支配される。
【０１８５】
小ピッチ評価エラーが大きな影響を与える可能性があるので、ＴＡＣセレクションは、好ましくは、局所最適化プロセスに基づく。ピッチ評価アルゴリズムによって評価されるような基本的な周期-輪郭は、周期-輪郭の一般な発生を良く記述しているが、急速なピッチ変動を表していない。評価プロセスは、フレーム毎に、周期値および局所時間導関数を生じさせる。これは、局所時間的発生の信頼性ある指標となるが、実際の瞬間的な周期はこの平均的発生まわりに変動する可能性がある。局所周期評価およびその導関数は、局所瞬間周期性値Ｔｓを導く。図２．１８の破線は、これらの値を局所瞬間周期性曲線として示している。瞬間周期について最適な値を評価するために、この曲線を周期性について上下（すなわち、図２．１８では左右）にシフトし、局所瞬間周期の選択毎に対応するＴＮＣ値を計算する。圧縮ＴＮＣの正の値の合計を最大にする瞬間周期の選択は、セレクションが基礎を置く最終的な瞬間周期として選択される。
【０１８６】
最良の瞬間周期は、正の値およびｘ軸の下にある領域を最適化する値である。この最適化手順は、自然ピッチ変動および小周期評価エラーの影響を減らす非常に効率的な方法である。
【０１８７】
図２．１７に示すようなセレクションは、正しい周期-輪郭に基づいていたが、セレクションが正しいとは保証され得ない。すなわち、背景スピーカのうちの１つが、周期-輪郭のうちの１つのソースとなるかも知れないのである。スピーカの音声タイプおよびすべての言語状況のような可能な限りのソース・タイプの知識を使用してさらに処理を続けてこの問題を解決しなければならない。幸いにも、聴覚事象によって表され、むしろ雑音の多い状況において評価される正しい周期-輪郭に基づく情報が、個々の倍音およびフォルマントの相対的な重要性に関する正確な情報を包含する。このことは、２、３の仮説に対するデータの可能な解釈の数を減らすのに充分である。
【０１８８】
ＴＡＣアプローチは非周期的な情報を聴覚事象に割り当てることはできないが、同じストリームに割り当てられるかも知れない非周期的聴覚事象の有望な候補の位置を決定する際に助けとなり得る。通常の音声において、非周期信号成分の位置は、周期成分に大きく関連する。たいていの場合、これらの寄与は、オンセットのちょっと前あるいはその最中に終わり、或る周期性寄与のオンセット中またはその後に始まる。ｔ＝１０００ミリ秒で始まり、図２．１７の上方パネルにおける９０〜１００のセグメント範囲で最も無視し得る／ＴＷＥＥ／（／ＴＷＯ／）の／Ｔ／の場合、単純なテンプレート・マッチング形態で非周期寄与の有望な候補を検出するには充分であるかも知れない。
【０１８９】
特性周期相関（ＣＰＣ）
オンセットおよび非周期性ノイズのような非周期性信号を取扱うために、他の装置が工夫された。周期的な信号が個別セットの信号寄与によって特徴付けられる一方で、非周期的信号は連続的な周波数分布によって特徴付けられる。単位パルスのような代表的な非周期的信号は、均等に重み付けされた周波数分布を表す。各周波数範囲は、対応する特性周波数f_cを有する基底膜セグメントの範囲を引きずろうとする。これは、以下に式に示すように特性周期相関（ＣＰＣ）の仮定義に通じる。
【数２７】
r_sC_(t)=C(x_s(t), x_s(t+T_c,s)) （２７）
ここで、Ｔ_c、sはセグメント特性周期を示している。ＣＰＣは、特性周期で振動する基底膜領域についてのコクレオグラムのエネルギ値の近い値を提供する。また、特性周期のかなり大きい周期で振動する低周波成分によって引きずられる領域についての高い値を生成する。ＣＰＣが確実に後者の領域に対するより低い感度を持つように、ＣＰＣは、以下のように再定義し得る。
【数２８】
r_sC_(t)={C(x_s(t), x_s(t+T_c))-C(x_s(t), x_s(t+T_c/2)) （２８）
これは、x_s(t)、x_s（t+T_c、s）間の相関とx_s(t)、x_s（t+T_c,s/2）間の相関との差の半分と一致する。セグメントが特性周期に近い周期で振動するとき、後者の相関は負となる。しかしながら、その絶対値は最初の相関の絶対値に相当する。これら２つの相関の差の半分はコクレオグラム値に近いＣＰＣ値を生じる。特性周期の２倍よりも大きい周期で振動するセグメントの場合、x_s(t)、x_s(t+T_c,s/2)間の正の相関が生じ、ＣＰＣをコクレオグラムのものと比較して小さい値まで減らす。T_cの異なった分数に依存して寄与率を結合することによって類似した挙動を示すＣＰＣの別の実施例を公式化することが可能である。
【０１９０】
ＣＰＣは、非周期的（および周期的）な信号成分を評価する装置で使用することができる。その定義に従って、ＣＰＣは、特性周波数に近い周期で振動するセグメントについて最大限に応答する。これがホールドする領域は、以下の基準を使用して識別し得る。
【数２９】
ｒ_sＣ_(t)＞Ｃ_sｒ_s（ｔ）、Ｃ_s＜７（２９）
ここで、Ｃ_sは、セグメント番号に依存し得る常数である。この定数の代表的な値は、すべてのｓ値について０．８５である。この基準を満たすセグメント-時間プレーンの領域は、特性振動数に対応する周波数を有する信号成分によって引きずられる。ここで、ＣＰＣが非周期信号成分を決定する有用な方法を与えるが、また、周期信号成分によって強化された領域を識別することができる精度を効果的に向上させるのにも使用できることに注目されたい。これは、信頼性処置の評価において使用し得る。
【０１９１】
オンセット検出およびオフセット検出
ＣＰＣならびにコクレオグラムは、オンセットおよびオフセットを特定するのに使用し得る。これらは、定義毎に非周期的であり、したがって、周波数成分の連続体を生じさせる。オンセットは、立ち上がり時間で異なる可能性がある。シヌソイドの急速オンセットは、理想的な正弦応答に対する局所グループ遅延ｄｓの２、３倍内で展開する非常に広い周波数コンテントを有する過渡状態を生じさせる。シヌソイドがより段階的に立ち上がる場合には、理想的な正弦応答の強さの段階的な立ち上がりと組み合って過渡状態を低下させることになる。シヌソイドの立ち上がり時間が局所グループ遅延と比較して小さいときには、過渡状態は広い周波数範囲を表し、これが顕著なインパルス様応答を生じさせることになる。立ち上がり時間が局部グループ遅延と比較して大きいときには、過渡状態は小さいかあるいは存在しない。オンセット後の各時点で、理想的な正弦応答はＢＭ応答に近くなる。ここで、オフセットが、古い信号と破壊的に干渉する新しい信号のオンセットとして現れることに注目されたい。したがって、オフセットの検出技術は、オンセットの検出に非常に類似している。したがって、焦点はオンセットに絞る。
【０１９２】
オンセットを検出し得る方法の１つは、コクレオグラムあるいはＣＰＣのいずれかから生じるスケールド・エネルギ勾配が閾値を上回るかどうかを測定することである。
【数３０】

（３０）
【０１９３】
使用できる閾値C_onset(s、t₀）の一例は、[t-t0,t]ｍｓ中のn×エネルギ・バリアンスである（雑音の多い音声の場合、ｎ＝２、ｔ０＝２０が良く作動する）。局所グループ遅延に依存するおよび／またはセグメント方向ｓにおける勾配に依存する別の閾値を公式化してもよい。
【０１９４】
たいていの用途において、開始する信号成分のタイプを識別することが重要である。これは、オンセットの詳細および信号成分の連続的な展開をより注意深く分析することによって達成することができる。定常状態信号の立ち上がり時間との組み合わせにおける初期過渡状態の広大さ（応答しているセグメントの周波数範囲に関するもの）および持続時間は、信号の立ち上がり時間の信頼性の高いインジケータである。音声の場合、破裂音／Ｂ／、／Ｐ／、特に／Ｔ／は、多数のセグメントを含む過渡状態を引き起こす。これらは、オンセットのグラフィック描写における垂直方向構造を示す。これらの広大な過渡状態は、／ｓ／、／ｆ／のようなノイズ・バーストがないかあるいは最小限である。有声音化音声のオンセットは、しばしば、局部グループ遅延に比較してゆっくりであり、オンセット効果は最小である。電話器のビープ音のような人工的サウンドは、音声についての特徴のない急速オンセット（およびオフセット）に基づいて容易に識別され得る。
【０１９５】
マスク形成
自動音声認識のような用途の場合、認識されるべき信号のタイプの特性要件に一致する信号成分を識別するのに音声・コーディングが重要である。コクレオグラム、ＣＰＣおよびＴＡＣセレクションの対応する周期-輪郭との組み合わせを使用して、目標クラスの要件を満たす信号成分を反映するセグメント-時間プレーンにおけるマスク、すなわち、一組のエリアを識別することができる。マスクは、音声・コーディングあるいは音声認識中にどの信号成分が処理されることになるかを定義するのであるから、きわめて重要である。
【０１９６】
マスクを形成するということは２つのステージ・プロセスである。ステージ１において、すべての信号成分は個々に記述され、目標信号クラスの特性要件を満たさない信号成分は廃棄される。ステージ２において、すべての許容された信号成分は、互いの組み合わせで評価され、最終的なセレクションが行われる。マスク形成は目標クラスの特性に決定的に依存しているので、或る完全な基準セットを公式化することは不可能である。このセクションの残りの部分では、一例として音声信号処理を使用していくつかの有用な基準を説明する。
【０１９７】
信号成分のステージ１評価は、個々の信号成分の識別を伴う。このステージは、不十分なエネルギの領域またはローパスフィルタリングと関連した率に近い率でエネルギが減少する領域を排除することによって容易になる。ローパスフィルタリングを漏出性積分器として使用する場合、τミリ秒内の入力がないとして、オリジナル値をｅ-１＝０．３７まで減らす。τミリ秒あたりのエネルギの半分の損失に対応する率で減衰する信号成分すべてを排除する音声閾値が適当である。この領域排除は以下のように実施され得る。
【数３１】

（３１）
【０１９８】
Ｍ_Orgは完全なセグメント-時間プレーンである。Ｃ_Energy(s,t)はエネルギについての閾値である。この閾値は、絶対値または局所エネルギの長期間平均に依存する値であり得る。Ｃ_Decay(t)は減衰率についての閾値である。
【０１９９】
準周期信号の場合、基本的な周期-輪郭を評価し、ＴＡＣセレクションを計算し得る。ＴＡＣセレクション内で最も重要な倍音寄与を識別し、付帯的な相関による最もスプリアスな寄与を廃棄するために、ＴＡＣセレクションをコクレオグラムのエネルギ値と比較してもよい。ＴＡＣセレクションが局所エネルギの或る率、たとえば、０．２５を上回るときはいつでも、対応する時間-セグメント領域は許容される。これは、以下に定義されるマスクＭ_TACを生じさせる。
【数３２】

（３２）
【０２００】
Ｍは完全なセグメント-時間プレーンを示し、Ｃ_TAC（ｓ、ｔ）はｓおよびｔに依存し得るアクセプタンスについての閾値であり、r_s,T(t)およびr_s(t)はそれぞれＴＡＣセレクションおよびコクレオグラムを示している。ここで、各周期-輪郭T(t)がＴＡＣマスクを生じさせることに注目されたい。
【０２０１】
マッチング周波数成分によって引きずられる領域は、以下によって識別され得る。
【数３３】

（３３）
【０２０２】
ここで、ｒ_cs（ｔ）は、たとえば、計算されるようなＣＰＣを示し、Ｃ_CPC（ｓ）は、局所エントレインメントについてのセグメント依存基準である。
【０２０３】
オンセットは、同様の作戦を使用して識別することができる。
【数３４】

（３４）
【０２０４】
ここで、スケールド・エネルギ勾配（ＣＰＣまたはコクレオグラムを使用して計算する）は、ＢＭに沿った位置ならびにｔ₀に依存する或る時間範囲に依存し得る閾値Ｃ_Onset(ｓ, ｔ₀)を越えてはならない。
【０２０５】
ここで、オンセット・マスクがしばしばＣＰＣマスクおよび／またはＴＡＣマスクのサブセットであることに注目されたい。ＴＡＣセレクションのピークは、ＣＰＣマスクにも現れている。組み合わされたマスクの「下」に表される情報は、さらなる処理からマスク領域を排除するのに使用し得る大量の基本的信号特性を提供する。これには、目標信号についての知識を必要とする。さらなる処理から或る領域を排除する代表的な音声基準は、以下のものを含む。
（過度に）不変のピッチを有するＴＡＣセレクション。
非現実的なフォルマント・パターンを伴うＴＡＣセレクション。
非現実的な急速オンセットを伴うＴＡＣセレクション。
【０２０６】
短くあるべき（たとえば、高周波成分については２０ミリ秒、低周波成分については４０ミリ秒）あるいは２または３より少ないセグメントを含むＴＡＣマスクのコヒーレント・エリア。
【０２０７】
非周期寄与の評価は、２つの補完的な方法を適用することによって可能である。第１の方法は、以下の式に従ってＣＰＣマスクから、ＴＡＣマスクによって表される領域（各周期-輪郭Ｔ（ｔ）について１つずつ）を排除する。
【数３５】

（３５）
【０２０８】
これは、非周期的情報についてのマスクを生じさせる。このマスクは、クラス特有基準によるセグメント-時間プレーンの充分なエリアのコヒーレント寄与のみを示すように処理し得る。
【０２０９】
もう１つの方法は、ＣＰＣマスクの主コヒーレント領域について運転時自己相関を計算することである。自己相関が局所特性周期の２、３倍以内でゼロに近い値まで減少するとき、領域は非周期的である。この方法は、最初のパスで評価された領域が真に非周期的であることを確認するのに用いることができる。これら両方の方法の組み合わせで、非周期的領域を反映するセグメント-時間プレーンのコヒーレント領域を確実に評価することができる。
【０２１０】
マスク形成の第２ステージにおいて、個々の信号成分を結合する。このステージについては、他の目標-クラス依存制約を使用しなければならない。音声についての代表的な制約は、以下のものである。
【０２１１】
音声信号の非有声音化成分は、音声の有声音化部分と強く相関する。孤立した有声音化信号成分は廃棄してもよい。
【０２１２】
平均ピッチにおいてあまりに大きく異なる有声音化成分は、同じソースから始まりそうにない。許容された有声音化信号寄与は、言語学的にもっともらしく思われる周期-輪郭を形成しなければならない。
【０２１３】
重なり合うピッチ輪郭は、同じソースから生じることはあり得ない。
【０２１４】
これらの制約の適用は、目標ソースから生じるかも知れない多種多様な情報形態を表す１つまたはそれ以上のマスクを生じさせる。この情報を最適に使用することが、さらなる処理ステージの作業である。
【０２１５】
ここで、マスクを発生させるのに用いられる変数のすべてが関連する信頼性尺度を有することに注目されたい。これらの信頼性尺度は、マスク形成プロセス中に使用することができる。
【０２１６】
逆基底膜フィルタリング
ＴＡＣが情報の聴覚事象への割り当てについての信頼性ある基礎を形成するので、これを使用して組み合わせサウンドを構成サウンド・ソースに分割することができるかどうかに疑問を持つかも知れない。
【０２１７】
ＴＡＣコクレオグラムの時間-場所プレーンにおける或る領域を支配するすべての準周期的信号寄与は、基底膜振動を表す。基底膜モデルのこの実施例は、インパルス応答ベースの有限インパルス応答（ＦＩＲ）フィルタとして実施されるので、時間内インパルス応答を逆にし、基底膜フィルタの二重使用によって生じる周波数効果を補正することによってフィルタリングを反転させることができる。
【０２１８】
完全反転はオリジナルの信号混合体を生じさせる。しかしながら、逆フィルタリングが目標ソースによって強化される時間-場所プレーンの領域に基づく場合には、出力は、理想的には、もっぱら目標の情報に基づく。先のセクションで定義したマスクはこの目的のために使用することができる。オンセットおよびオフセットの影響を減らすために、マスクは、単一のセグメントの長い連続的寄与からなるように処理する。すなわち、ＴＡＣトレースの正の値における小さいホールを満たし、孤立した正ポイントを廃棄する。最後に、マスクは、滑らかな、１０ミリ秒幅のオンセット、オフセットを備える。これは、図２．１９の下方パネルに示すようなマスクを生じさせる。
【０２１９】
音質を改善するために、バックグラウンドは完全に廃棄されることはないが、調節可能な因数で低減する。この場合、１００の振幅因数（エネルギによれば４０ｄＢ）である。バックグラウンドを完全に廃棄しないことによって、不自然な「深い」無音が減らされ、／ＴＷＥＥ／の／Ｔ／のような非周期的寄与の或る種の証拠が信号に残る。これが認識を容易にする。こうして生じた再合成サウンドが基底膜モデルに与えられたとき、再び、再合成サウンドのコクレオグラムが計算され得る。これは、図２．２０の中間パネルに示してある。再合成は、非有声音化領域を含むことはないが、これらの領域はマスクに加えることはできる。しかしながら、有声音化、非有声音化領域を確実に結合すること非常に難しい。
【０２２０】
上方パネルは、オリジナル信号のコクレオグラムを示している。この信号は、唯一の情報ソースを形成した。演繹的な情報は使用されなかったし、必要もない。下方パネルはきれいな基準を形成している。最後の単語の、完全にマスクをかけられている第２フォルマント構造とは別に、すべての重要な周期寄与が忠実に表してある。ここで、再合成されたコクレオグラムがより「ｆｕｚｚｙ」であり、これが、バックグラウンドのスプリアス寄与によるものであることに注目されたい。これを避ける方法は、すべての個別の信号成分を測定し、平滑化し、それらを真の音声合成プロセスにおいて一緒に加えることである。
【０２２１】
コクレオグラムの再構築
先のセクションにおいて計算されるような再合成サウンドは、標準認識システム（例えばPhilips Freespeech and L&H VoiceXPressのような音声認識ソフトウェア）のための入力として使用し得る。認識システムの代わりの計算機的に有利な入力は、ＴＡＣ-コクレオグラムに基づくものであってもよい。
【０２２２】
ＡＳＲシステムのための適切な入力は、ピッチの効果を抑制しながら目標音声のスペクトル・エンベロプの時間展開を記述する表現である。図２．７の上方右側パネルが示すように、きれいな信号の有声音化部分のＴＡＣコクレオグラムは標準コクレオグラムによく似ている。図２．１７の下方パネルにあるＴＡＣコクレオグラムは、負の値を満たすことによってきれいなコクレオグラムにより良く似るように処理することができる。
【０２２３】
この再構築プロセスは、図２．２１に示す２テップ・プロセスである。第１ステージは、個々の倍音の証拠を検索し、再構築の下半分を計算するのにこの証拠を使用する。第２ステージは、マスクおよび多種多様なマスク効果の近似を使用してスペクトルの残りの部分についての情報を加える。
【０２２４】
アルゴリズムの第１ステージは、セレクションの最初の６０個のセグメントにおけるコヒーレント・リッジの評価である。これらのリッジは、セグメント番号に関して２未満異なる連続したピークを結合することによって、基本的な周期評価アルゴリズムにおけると同様に、形成される。１５ミリ秒より長いリッジは、倍音の候補として許容される。基本的な周期-輪郭は知られているので、第１倍音のセグメント番号を予測することが可能である。平均して、最初の４つの倍音の予想値の１セグメント内にあるリッジは、倍音として許容される。ここで、この基準が時間的展開におけるミスマッチに基づいてスプリアス・リッジを廃棄できることに注目されたい。この方法でモデル化し得る倍音の数は、基底膜の空間的分解能に依存する。よりシャープにチューンしたＢＭモデルおよびより多いセグメント数の場合、より多い数の倍音を個別にモデル化することができる。この場合、最初の４つの倍音の許容領域が現在のＢＭモデルにおいて重なり合わないので、４つの倍音が個別に処理された。このアルゴリズムは、このパラメータの値にのみ弱い感度を持つ。
【０２２５】
図２．２１の上方左側パネルは、すべての候補リッジを示す。これらのリッジに沿ったエネルギ展開は、各値を３ポイント局所平均値と取り替えることによって平滑化される。平滑化された倍音リッジは、式６に一致する連続した倍音の寄与を加えることによってオリジナルのコクレオグラムの評価を再構築するのに用いる。このプロセスは、図２．２２の頂部パネルに示してある。
【０２２６】
再構築は、基本周波数の理想的なサイン-応答（図２．５に示すようなもの）を重み付けすることで開始する。ここで、倍音が周波数において上向きにのみ各々に影響を与えると仮定する。第２倍音の位置のところで、エネルギの一部は第１倍音によるものであり得、エネルギの残りの部分は、第２倍音の理想的なサイン-応答を重み付けるのに使用される。図２．２２において、第３倍音の位置のエネルギのかなりの部分が第２倍音によるものでなければならず、第４倍音は比較的重要である。４つの倍音のみを使用して生じた部分的な再構築が黒で示してある。
【０２２７】
アルゴリズムの第２ステージは、高周波範囲の再構築である。マスクは、再び、目標の情報を最も表している領域を正確に指摘するのに用いられる。部分的な再構築を上回るマスクの下の選定値が、部分的な再構築の値と置き換わる。このステップの結果が、図２．２１の下方左側パネルに示してある。このステージは、非現実的な上向き、下向きの勾配を有する高周波寄与に通じる。図２．２２の上方パネルにおける黒のピークはこれを明瞭に示している。再構築を余分な情報を付加することなくより現実的にするために、マスクのリッジを、フランクの次のピークの位置を刺激するソースと一致するマスキング効果を表すフランクと共に増大させてもよい。これらは、再び、サイン-応答から評価し、再構築に付加することができる。最後に、ＢＭのリンギング・アウト効果および漏出性積分の効果を指数関数型減衰としてモデル化することができる。これは、再構築の順方向マスキング効果をモデル化する。最終的な再構築が図２．２１の下方右側パネルに示してあり、図２．２２の下方パネルに黒で描いてある。
【０２２８】
視覚点検は、再構築がしばしば高品質であることを示す。信号の一部（たとえば、図２．２２の高周波範囲は、非常に好ましくない局所的信号対雑音比を有する。図２．２２の下方パネルで分かるように、破線の目標が全エネルギに対応する一点鎖線に近いとき、正しい再構築の確率が高い。これは、局所ＳＮＲが好ましい（ＳＮＲ＞３ｄＢ）場合の状況と一致する。破線と一点鎖線の距離が大きくなると、再構築が不正確となる確率が高くなる。距離が３ｄＢ（０ｄＢの局所ＳＮＲに対応する）より大きくなると、再構築はスプリアス寄与を含むことになりそうである。一例がセグメント７１まわりに見える。
【０２２９】
これにより、図２．２８に示すように、合成コレログラムが生じる。上方パネルが、きれいな信号のＴＡＣに基づく「再構築」を示している。図２．２０の下方パネルと比較すると、両方の図の主成分が非常に類似しているがわかる。これは、再構築方法の妥当性を示す。図２．２３の下方パネルは、雑音の多いデータから推定されるようなＴＡＣに基づく再構築を示している。この信号の一部はマスキングされており、バックグラウンドのいくつかのスプリアス寄与が付加されているので、完全一致はないが、両方の図の主特徴は類似している（視覚点検の下で）。
【０２３０】
ここで説明した手順は、個別のソースから信号を再構築することができる唯一の可能性ある方法ではない。種々のサブプロセスの説明において言及したように、選択肢が利用できる。このような選択肢は、信頼性セクションで説明したように、個別の倍音の強さを決定するためにマスク形成または逆マトリックス方法をガイドする信頼性手段の使用も含むことになろう。
【０２３１】
再構築プロセスの別の実施例では、個別信号成分評価のセクションで説明した信号成分評価技術の変形例を使用する。この実施例においては、マスクは信頼性が高い領域を正確に指摘するのに用いる。マスク外側の値がゼロにセットされるようにＥ、Ｒの両方を適用する。ｗ＝Ｒ^-1の解が所望の重み付けを与える。
【０２３２】
この再構築プロセスは、また、選定した信号の倍音内容を記述するのにも使用され得る。この記述は、たとえば、信号を表しているデータを効果的に符号化するのに使用し得る。このような倍音内容記述は、また、さらなる信号分析においても使用し得る。
【０２３３】
パラメータ化
ＨＭＭベースのＡＳＲシステムでは、ピッチ情報のような誤った選択肢なしに目標音声のスペクトル・エンベロプの評価を必要とする。図２．２３に示すような表現は、最もエネルギのある成分が第１倍音であるから、あまり適切でない。これらはフォルマント情報を担持しているが、第１フォルマントの細部実現はピッチに強く依存する。無関係なピッチ差の影響を減らし、そして、第２、第３のフォルマントを強調するために、圧縮コクレオグラムの値にセグメント依存係数を掛け合わせてもよい。この係数は、たとえば、第１セグメントについて１であり、最終セグメントについては５である。中間セグメントの乗算係数は、２つの極値間の線形補間であってもよい。
【０２３４】
これは、プレエンファシスとしての類似した効果を伴う操作である。すなわち、ＡＳＲの標準方法内で通常適用され、すべての周波数が類似したエネルギを導くスペクトルを生じさせるハイパス・フィルタリングの形をしている。このプレエンファシス形態に続いて、スペクトル・エンベロプを評価するアルゴリズムを使用、たとえば、連続的な倍音のピークを連結してもよい。
【０２３５】
最終ステップとして、コクレオグラムのエンベロプをできる限り効率的に符号化しなければならない。ＭＦＣＣ値と同様のパラメータのセットとして生成するために、「強化された」コクレオグラムのコサイン変換を実施してもよい。その結果は、ケプストラムのバリアントである。低い空間周波数を表すケプストラムの最初の８〜１４個の値を保持し、残りを廃棄する。最後に、連続したフレーム間の時間ステップを、連続した値を平均することによって、５ミリ秒から１０ミリ秒まで増大させる。これにより、フレーム・ステップを標準値に持って行き、処理速度を上げる。これらの値は、ハードディスクに保存し、音声認識システムのために入力として使用する。
【０２３６】
保存したパラメータはあまり参考にならないが、逆コサイン変換を使用してコクレオグラム様表現へ変換し戻してもよい。結果が図２．２４に示してある。
【０２３７】
両方のパネルは、音声認識システムに利用できる情報を反映する。上方パネルはオリジナルのきれいな信号に基づいている。セグメントあたりのエネルギ寄与は１〜５の値だけ強化され、スペクトル・エンベロプは１２個のセプスタル係数で符号化される。図２．２４の下方パネルと比較して、高周波セグメントはかなり目立っており、第１倍音はそれより目立たず、そして、フォルマント特徴がより広くなっている。下方パネルは、図２．２３の再構築されたＴＡＣコクレオグラムに基づいており、それは理想的なコクレオグラムとの良好な全体的な一致を示しているが、マスキングおよびスプリアス・バックグラウンド寄与による雑音が多い。これら２つの表現は、認識システムのための入力として適当である。
【図面の簡単な説明】
【図１．１】既知の基底膜を示す図である。
【図１．２】本発明による装置のブロック図である。
【図１．３】基底膜モデルの１つのセグメントに対して決定される自己相関関数を示す図である。
【図１．４】基底膜モデルの全セグメントに対して決定される周波数エネルギー推定スペクトルを示す図である。
【図１．５】二次元図に集合された図１．３及び図１．４の結果を示す図である。
【図１．６】図１．２に示されたローパスフィルタの第１例のブロック図である。
【図１．７】図１．２に示されたローパスフィルタの第２例のブロック図である。
【図１．８】図１．７に示されたローパスフィルタの第２例の拡張のブロック図である。
【図１．９】本発明による方法例のフローチャートである。
【図２．１】非コイル状基底膜を概略的に示すと共に、ＢＭセグメント速度を時間の関数として例示するグラフである。
【図２．２】ワード「ＮＵＬ」に対するＢＭモデルのセグメントの動きを時間の関数として示す二次元グラフ即ち蝸牛図である。
【図２．３】図２．２の蝸牛図において１７５ｍｓのバーの位置の断面を示す図である。
【図２．４】セグメント位置の関数としてＢＭモデルの周波数応答を示すグラフである。
【図２．５】異なる周波数の正弦波に対しセグメント位置の関数としてエネルギーを示すグラフである。
【図２．６】セグメント位置の関数としてのエネルギー分布、及びエネルギー分布の高調波近似の選択を示すグラフである。
【図２．７】ノイズなし信号と、カクテルパーティノイズが追加された信号とに対する同調自己相関（ＴＡＣ）を示すグラフである。
【図２．８】／ＮＵＬ／における／Ｕ／から導出される時間正規化コレログラムを示す図である。
【図２．９】ノイズを伴う及び伴わない信号から決定される隆起を示すグラフである。
【図２．１０】幾つかの隆起及びこれら隆起の１つから推定されるローカル周波数の自己相関を示すグラフである。
【図２．１１】図２．９において／ＮＵＬ／からｔ＝２５０ｍｓで推定される自己相関のグラフである。
【図２．１２】クリーンな及びノイズのある条件において時間の関数として推定される瞬時周波数を示すグラフである。
【図２．１３】センテンス／ＮＵＬＥＥＮＴＷＥＥＤＲＩＥ／に対し、蝸牛図、隆起のグラフ及び瞬時周波数輪郭を時間の関数として示す。
【図２．１４】ローカル瞬時周期のグラフ、図２．１３の瞬時周波数輪郭の反転、及びこれらローカル瞬時周期に適用される平滑化方法のグラグ結果である。
【図２．１５】図２．１４の平滑化された輪郭に一致する基本的周期輪郭仮説のグラフ、及びこれらの仮説から選択される基本的周期輪郭を示す。
【図２．１６】図２．１５の選択された輪郭から推定されるピッチ輪郭を時間の関数として示すグラフである。
【図２．１７】図２．１６の推定された周期輪郭に基づく同調された自己相関選択の結果を示すグラフである。
【図２．１８】図２．１０の自己相関が導出されるところの時間正規化相関（ＴＮＣ）の一部分を示す図である。
【図２．１９】ＴＡＣ値がローカルエネルギーの１／４より大きい図２．１３の領域及びこれら領域から導出されるマスクのグラフである。
【図２．２０】ノイズ性信号、クリーンな信号、及びノイズ性信号から導出される再合成信号を示すグラフである。
【図２．２１】再構成プロセスの次々の段階における図２．２０のノイズ性信号のグラフである。
【図２．２２】図２．２１においてｔ＝２７５ｍｓに対応する再構成された蝸牛図の断面を示す。
【図２．２３】確認に使用されるケプストラム係数により表わされる情報の蝸牛図である。
【図３．１】ピークテンプレートをベースとするスペクトルにおけるピークの選択を示すグラフである。
【図３．２Ａ−Ｃ】ピーク選択の次々の段階の結果を示すグラフである。
【図３．３Ａ−Ｇ】入力周波数１７５Ｈｚ、３５０Ｈｚ、５２５Ｈｚ及び７５０Ｈｚに対するピッチ分布を示すグラフである。
【図３．４Ａ−Ｇ】入力周波数２５０Ｈｚ、３７５Ｈｚ、５００Ｈｚ及び７５０Ｈｚに対するピッチ分布を示すグラフである。
【図３．５Ａ−Ｂ】図３．３の入力周波数の組合せに対して選択されたマトリクス及び行と、それにより得られる最終的な分布とを示す図である。
【図３．６】一般的なピッチ推定方法の次々の段階を概略的に示すフローチャートである。
【図３．７Ａ−Ｂ】自己相関及び加算自己相関のグラフである。

Claims

入力信号の周波数特性を推定するための装置であって、
音響振動を神経情報に変換する基底膜をモデル化した装置と、前記基底膜モデル装置に接続された相関装置と、を備え、前記基底膜をモデル化した装置には前記入力信号が印加され、
前記相関装置は、
第１入力が前記基底膜モデルのセグメントに接続されることで該セグメントから生じる、前記基底膜モデルの出力信号の基底膜信号を受信し、この基底膜信号は、所定の時間周期中に存在するものであり、更に、
少なくとも１つの第２入力が前記基底膜モデル装置の同じセグメントに接続され、調整可能な時間シフトＴ１にわたってシフトされた基底膜信号を受信し、更に、
前記相関装置は、時間シフトＴ１に依存した出力信号を発生し、該出力信号は、前記セグメントの基底膜信号に実質的に存在する周波数に更に依存すると共に、各ピークの位置が単一信号成分により支配されるコレオグラムの表現態様によって前記入力信号の広帯域な周期構造を表現し、前記コレオグラムにおいては前記ピークの組み合わせでリッジが形成され、そして信頼性できるリッジのメンバーとして分類されることができない前記ピークの位置を破棄して、前記コレオグラムのピークにサーチ領域を縮小することにより、前記入力信号の広帯域な周期構造が前記時間シフトＴ１に依存した出力信号により排他的に決定され、該出力信号は、前記入力信号の周波数内容の尺度を形成する、
というように構成された装置。
前記調整可能な時間シフトＴ１は、前記セグメントの特性周波数の逆数に実質的に対応するように調整される、請求項１に記載の装置。
前記基底膜モデルの複数のセグメントが、各々、別々の相関装置に接続され、そして前記装置は、更に、前記セグメントの基底膜信号に主として存在する共通の周期を決定するために少なくとも幾つかの前記相関装置の各出力に接続された相互相関装置を備えた、請求項１又は２の記載の装置。
前記相関装置は、次の数学アルゴリズムで表わされた演算を遂行するように構成されたリーク自己相関装置として実施され、

但し、ｒは、相関装置の出力信号であり、Ｘは、基底膜信号であり、ｓは、セグメント位置であり、ｔは、時間であり、Ｔは、調整可能な時間シフトであり、そしてＬは、ローパスフィルタリング方法である、請求項１から３のいずれかに記載の装置。
前記相関装置は、次の数学アルゴリズムで表わされた演算を遂行するように構成されたローパスフィルタリング装置として実施され、

但し、ｒは、相関装置の出力信号であり、Ｘは、基底膜信号であり、ｓは、セグメント位置であり、ｔは、時間であり、Ｔは、調整可能な時間シフトであり、そしてＬは、ローパスフィルタリング方法である、請求項１から４のいずれかに記載の装置。
前記相関装置は、次の数学アルゴリズムで表わされた演算を遂行するように構成された時間正規化相関装置として実施され、

但し、Ｒ⁺は、出力信号であり、Ｘは、基底膜信号であり、ｓは、セグメント位置であり、ｔは、時間であり、Ｔは、調整可能な時間シフトであり、そしてＬは、ローパスフィルタリング方法である、請求項１から３のいずれかに記載の装置。
前記相関装置は、群遅延を修正する装置を伴う時間正規化相関装置として実施される、請求項１から６のいずれかに記載の装置。
前記群遅延を修正する装置を伴う時間正規化相関装置は、次の数学アルゴリズムで表わされた演算を遂行するように構成され、

但し、Ｒ^gdは、出力信号であり、Ｘは、基底膜信号であり、ｓは、セグメント位置であり、ｔは、時間であり、Ｔは、調整可能な時間シフトであり、ｄ_sは、セグメント位置の関数としての群遅延であり、そしてＬは、ローパスフィルタリング方法である、請求項７に記載の装置。
ソース信号のスペクトルを決定するための装置において、
音響振動を神経情報に変換するための基底膜をモデル化した装置と、
前記基底膜モデルに接続された相関装置と、を備え、前記基底膜をモデル化した装置にはソース信号を含む入力信号が印加され、
前記相関装置は、
前記基底膜の複数のセグメントの各々に対して前記基底膜のセグメントから生じる、前記基底膜モデルの出力信号の基底膜信号を受信するための第１入力、及び
調整可能な時間シフトＴ２にわたりシフトされた基底膜信号を受信するための少なくとも１つの第２入力、
を含み、前記相関装置は、各ピークの位置が単一信号成分により支配されるコレオグラムの表現態様によって前記入力信号の広帯域な周期構造を表現し、前記コレオグラムにおいては前記ピークの組み合わせでリッジが形成され、そして信頼性できるリッジのメンバーとして分類されることができない前記ピークの位置を破棄して、前記コレオグラムのピークにサーチ領域を縮小することにより、前記ソース信号の広帯域な周期構造が前記時間シフトＴ２に依存して排他的に決定され、前記ソース信号に主として存在するエネルギースペクトルに対する尺度を形成するセグメントによって決まる出力信号を発生させる、
というように構成された装置。
前記調整可能な時間Ｔ２は、前記セグメントの基底膜信号に主として存在する少なくとも１つの共通の周期に依存するようにセットされる、請求項３から９のいずれかに記載の装置。
前記調整可能な時間Ｔ２が、基底膜信号のセグメントによって決まる群遅延に更に依存するようにセットされる、請求項１０に記載の装置。
信号のピークを決定するための装置において、
信号が印加される基底膜モデル装置と、
前記基底膜モデルのセグメントへの入力に各々接続された複数の積分装置であって、前記基底膜信号から励起信号を発生して、その励起信号を前記積分装置の出力へ送信し、時間×セグメント位置×励起信号の三次元マトリクスが蝸牛図（コレオグラム）を形成するような積分装置と、
前記積分装置の出力に接続されて、前記励起信号のピークを決定するためのピークサーチ装置と、を備え、
前記基底膜モデルのセグメントには相関装置が接続され、該相関装置は、前記ピークサーチ装置にも通信接続されると共に、該相関装置には、選択された位置のセグメントの励起信号が印加され、該選択された位置、及びそれに対応するセグメントは、前記ピークサーチ装置により決定されたピークに基づいて時間的に変化し、前記相関装置は、各ピークの位置が単一信号成分により支配される蝸牛図の表現態様によって前記入力信号の広帯域な周期構造を表現し、前記蝸牛図においては前記ピークの組み合わせでリッジが形成され、そして信頼性できるリッジのメンバーとして分類されることができない前記ピークの位置を破棄して、前記蝸牛図のピークにサーチ領域を縮小する、
というように構成された装置。
前記相関装置は、次の数学アルゴリズムで表わされた演算を遂行するように構成されたリーク自己相関装置として実施され、

但し、ｒは、相関装置の出力信号であり、Ｘは、基底膜信号であり、ｓは、セグメント位置であり、ｔは、時間であり、Ｔは、調整可能な時間シフトであり、そしてＬは、ローパスフィルタリング方法である、請求項１２に記載の装置。
前記相関装置は、次の数学アルゴリズムで表わされた演算を遂行するように構成された時間正規化相関装置として実施され、

但し、Ｒ⁺は、相関装置の出力信号であり、Ｘは、基底膜信号であり、ｓは、セグメント位置であり、ｔは、時間であり、Ｔは、調整可能な時間シフトであり、そしてＬは、ローパスフィルタリング方法である、請求項１２から１３のいずれかに記載の装置。
前記相関装置は、群遅延を修正する装置を伴う時間正規化相関装置として実施される、請求項１２から１４のいずれかに記載の装置。
前記群遅延を修正する装置を伴う時間正規化相関装置は、次の数学アルゴリズムで表わされた演算を遂行するように構成され、

但し、Ｒ^gdは、相関装置の出力信号であり、Ｘは、基底膜信号であり、ｓは、セグメント位置であり、ｔは、時間であり、Ｔは、調整可能な時間シフトであり、ｄ_sは、セグメント位置の関数としての群遅延であり、そしてＬは、ローパスフィルタリング方法である、請求項１４に記載の装置。
前記基底膜モデル装置に接続された基本周期の輪郭推定(fundamental period contour estimation)のための装置を更に備え、該装置が、
前記基底膜モデルに接続された入力、
推定されたリッジ及び瞬時周期の輪郭を決定するためのリッジ決定装置、
前記リッジ決定装置に接続され、最も信頼性のある平滑な瞬時周期の輪郭を選択するためのリッジセレクタ装置、
前記リッジセレクタ装置に接続され、周期輪郭を全ての考えられる基本周期に複製するための高調波複製装置であって、考えられる基本周期の周期的な輪郭の各組み合せで輪郭の理論的な仮定を形成する当該高調波複製装置、
前記高調波の複製装置に接続され、最も信頼性のある周期輪郭を選択するための複製輪郭のセレクタ装置、
前記複製輪郭のセレクタ装置に接続され、前記選択された最も信頼性があり且つ平滑化された瞬時周期の輪郭の実質的な部分に対応する輪郭の理論的な仮定を少なくとも１つ選択するためのセレクタ装置、及び
前記セレクタ装置に接続され、前記選択された輪郭の理論的な仮定を更に送信するための出力、を含んでいる請求項１から１６のいずれかに記載の装置。
前記信号は音響信号である、請求項１から１７のいずれかに記載の装置。
入力と、
請求項１から１８のいずれかに記載の装置と、
前記装置に接続され、確認されるべき信号を表わすデータを含むメモリ手段と、
前記装置の出力からの信号を、前記確認されるべき信号と比較し、そして前記確認されるべき信号から、前記装置の出力からの信号に最も良く似た最類似信号を決定するように構成されたプロセッサ装置と、
出力と、
を備えた信号認識システム。
前記認識されるべき信号は、スピーチ信号を表わす、請求項１９に記載の信号認識システム。
入力と、
前記入力に接続された、請求項１から１８のいずれかに記載の装置と、
前記装置の入力に受け取られた信号の、前記装置により決定された信号成分値を読み取り、そしてそれらの値を送信するためのプロセッサ手段と、
前記プロセッサ手段に接続された出力と、
を備えたデータ圧縮システム。
請求項２１に記載のシステムで決定される信号成分値を受け取るための入力と、
前記信号成分値を読み取って、オリジナル信号を再構成するためのプロセッサ手段と、前記オリジナル信号を出力するための出力と、
を備えたデータ拡張システム。
入力と、
請求項１から１８のいずれかに記載の第１装置と、
前記第１装置の出力に接続されて、基底膜信号の一部分を選択するためのマスキング装置と、
前記第１装置とは実質的に逆であって、基底膜信号の前記選択された部分の蝸牛図（コレオグラム）におけるリッジの評価によってハーモニックス（倍音）を検索し、且つ高調波範囲にマスキング処理をすることよって前記蝸牛図を再構成し、そして前記マスキング装置の出力に接続された入力を有している第２装置と、
前記第２装置の出力に接続された出力と、
を備えた信号改善システム。
前記マスキング装置は、
同位相の(coherent)リッジを選択するためのリッジ推定装置と、
前記選択された同位相のリッジを正弦波応答に置き換えるための正弦波応答加算装置と、
前記正弦波応答の強度がオリジナル信号の強度より低い場合には、正弦波応答をオリジナル信号と置き換えるための加算装置と、
前記信号の不連続部を除去するための平滑化装置と、
を備えた請求項２２に記載の信号改善システム。
ソース信号の周波数特性を推定するための方法において、
前記ソース信号を入力で受信するステップと、
多数のセグメントを有する基底膜の前記ソース信号に対する応答をシミュレーションして、入力信号を発生するステップと、
前記入力信号から基底膜のセグメントに少なくとも１つの励起信号を発生させて、セグメント×時間×励起信号の三次元マトリクスで蝸牛図（コレオグラム）を形成するようにするステップと、
調整可能な時間シフトで前記少なくとも１つの励起信号の少なくとも１つをシフトすることによりシフト信号を発生するステップと、
前記少なくとも１つの励起信号の少なくとも１つを前記シフト信号と合成して、前記励起信号と前記少なくとも１つのシフト信号の少なくとも１つとの間の相関の尺度を得るステップと、
各ピークの位置が単一信号成分により支配される蝸牛図の表現態様によって前記入力信号の広帯域な周期構造を表現し、前記蝸牛図においては前記ピークの組み合わせでリッジが形成され、そして信頼性できるリッジのメンバーとして分類されることができない前記ピークの位置を破棄して、前記蝸牛図のピークにサーチ領域を縮小するステップと、
を備えた方法。
前記シフト信号は、入力信号から発生され、且つ前記シフト信号は、その同じ入力信号と合成される、請求項２５に記載の方法。
前記シフト信号は、入力信号から発生され、且つ前記シフト信号は、複数の基底膜セグメントの各々に対してその同じ入力信号と合成される、請求項２６に記載の方法。
前記合成は、次の数学アルゴリズムで表わされた演算の遂行を含むリーク自己相関ステップにより遂行され、

但し、ｒは、相関装置の出力信号であり、Ｘは、基底膜信号であり、ｓは、セグメント位置であり、ｔは、時間であり、Ｔは、調整可能な時間シフトであり、そしてＬは、ローパスフィルタリング方法である、請求項２５から２７のいずれかに記載の方法。
前記合成は、次の数学アルゴリズムで表わされた演算の遂行を含む時間正規化相関ステップにより遂行され、

但し、Ｒ⁺は、出力信号であり、Ｘは、基底膜信号であり、ｓは、セグメント位置であり、ｔは、時間であり、Ｔは、調整可能な時間シフトであり、そしてＬは、ローパスフィルタリング方法である、請求項２５から２７のいずれかに記載の方法。
前記合成は、群遅延を修正するステップを含む時間正規化相関ステップにより遂行される、請求項２５から２９のいずれかに記載の方法。
前記合成は、次の数学アルゴリズムで表わされた演算の遂行を含む時間正規化相関ステップにより遂行され、

但し、Ｒ^gdは、出力信号であり、Ｘは、基底膜信号であり、ｓは、セグメント位置であり、ｔは、時間であり、Ｔは、調整可能な時間シフトであり、ｄ_sは、セグメント位置の関数としての群遅延であり、そしてＬは、ローパスフィルタリング方法である、請求項３０に記載の方法。
調整可能な時間Ｔ２は、前記セグメントの基底膜信号に主として存在する少なくとも１つの共通の周期に依存するようにセットされる、請求項２５から３１のいずれかに記載の方法。
少なくとも１つの励起信号を発生する前記ステップの後で、前記蝸牛図のセグメント領域が有している励起信号の周波数を基に、時間を決定するステップを遂行し、そして
前記決定された領域に基づいて前記時間シフトを調整する、請求項３２に記載の方法。
信号のピークを決定する方法において、
ソース信号を入力装置で受信するステップと、
多数のセグメントを有する基底膜の前記ソース信号に対する応答をシミュレーションして、入力信号を発生するステップと、
前記入力信号から基底膜セグメントの少なくとも１つの励起信号を発生するステップと、
前記励起信号のピークを決定するステップと、
選択された位置のセグメントの励起信号を合成するステップであって、選択された位置及びそれに対応するセグメントは、前記決定されたピークに基づいて時間的に変化する当該ステップと、
各ピークの位置が単一信号成分により支配されるコレオグラムの表現態様によって前記入力信号の広帯域な周期構造を表現し、前記コレオグラムにおいては前記ピークの組み合わせでリッジが形成され、そして信頼性できるリッジのメンバーとして分類されることができない前記ピークの位置を破棄して、前記コレオグラムのピークにサーチ領域を縮小するステップと、
を備えた方法。
前記合成は、次の数学アルゴリズムで表わされた演算の遂行を含むリーク自己相関ステップにより遂行され、

但し、ｒは、相関装置の出力信号であり、Ｘは、基底膜信号であり、ｓは、セグメント位置であり、ｔは、時間であり、Ｔは、調整可能な時間シフトであり、そしてＬは、ローパスフィルタリング方法である、請求項３４に記載の方法。
前記合成は、次の数学アルゴリズムで表わされた演算の遂行を含む時間正規化相関ステップにより遂行され、

但し、Ｒ⁺は、相関装置の出力信号であり、Ｘは、基底膜信号であり、ｓは、セグメント位置であり、ｔは、時間であり、Ｔは、調整可能な時間シフトであり、そしてＬは、ローパスフィルタリング方法である、請求項３４に記載の方法。
前記合成は、群遅延の修正を伴う時間正規化相関ステップとして遂行される、請求項３３から３５のいずれかに記載の方法。
前記群遅延の修正を伴う時間正規化相関は、次の数学アルゴリズムで表わされた演算の遂行を含み、

但し、Ｒ^gdは、相関装置の出力信号であり、Ｘは、基底膜信号であり、ｓは、セグメント位置であり、ｔは、時間であり、Ｔは、調整可能な時間シフトであり、ｄ_sは、セグメント位置の関数としての群遅延であり、そしてＬは、ローパスフィルタリング方法である、請求項３７に記載の方法。
基本周期の輪郭を推定するステップを更に備え、このステップは、
推定されたリッジ及び瞬時周期の輪郭を決定する段階、
最も信頼性のある平滑な瞬時周期の輪郭を選択する段階、
周期輪郭を全ての考えられる基本周期に複製する段階であって、考えられる基本周期の周期的な輪郭の各組み合せで輪郭の理論的な仮定を形成する当該複製段階、
最も信頼性のある周期輪郭を選択する段階、
前記選択された最も信頼性があり且つ平滑化された瞬時周期の輪郭の実質的な部分に対応する輪郭の理論的な仮定を少なくとも１つ選択する段階、及び
前記選択された輪郭の理論的な仮定を更に送信する段階、
を含む請求項２５から３７のいずれかに記載の方法。
前記信号は音響信号である、請求項２５から３８のいずれかに記載の方法。
信号を確認する方法において、
請求項２５から３９のいずれかに記載の方法と、
出力信号を確認されるべき信号と比較して、前記確認されるべき信号から、前記信号に最も良く似た最類似信号を決定するステップと、
を備えた方法。
前記確認されるべき信号はスピーチ信号を表わす、請求項４０に記載の方法。
データを圧縮する方法において、
請求項２５から４２のいずれかに記載の方法と、
受信した信号の、前記方法で決定された信号成分値を読み取って、その値を更に送信するステップと、
を備えた方法。
データを拡張する方法において、
請求項４３に記載の方法で決定された信号成分値を受け取るステップと、
前記信号成分値を読み取って、オリジナル信号を再構成するステップと、
前記オリジナル信号を出力するステップと、
を備えた方法。
信号を改善する方法において、
請求項２５から３９のいずれかに記載の第１の方法と、
基底膜信号の部分を選択するステップと、
前記第１の方法の実質的に逆であって、前記選択された部分を入力として使用し、前記基底膜信号の前記選択された部分の蝸牛図におけるリッジの評価によってハーモニックス（倍音）を検索し、且つ高調波範囲にマスキング処理をすることよって前記蝸牛図を再構成するための第２の方法と、
を備えた方法。
前記選択ステップは、
同位相の(coherent)リッジを選択する段階、
前記選択された同位相のリッジを正弦波応答に置き換える段階、
前記正弦波応答の強度がオリジナル信号の強度より低い場合に正弦波応答をオリジナル信号に置き換える段階、
信号の不連続部を除去する段階、
を含む請求項４５に記載の方法。
前記音響信号は、少なくとも１人の話し手からのスピーチを含む、請求項２５から４６のいずれかに記載の方法。
前記ソース信号は、信号の未知の混合である、請求項２５から４７のいずれかに記載の方法。
前記検出信号を選択するステップの後に、前記検出信号を更に分析する、請求項２４から４８のいずれかに記載の方法。
コンピュータシステムで実行されるコンピュータプログラムにおいて、コンピュータシステムで実行されるときに請求項２５から４９のいずれかに記載の方法のステップを遂行するためのコード部分を含むことを特徴とするコンピュータプログラム。
請求項５０に記載のコンピュータプログラムを記録したコンピュータ読取り可能なデータ記憶媒体。
ノイズを示す音響信号の周波数内容を推定する装置であって、
多数の直列接続のセグメントを有し、前記音響信号を受信するように構成された音響振動を神経情報に変換する基底膜をモデル化した装置と、前記基底膜に接続されて、推定信号を発生するローパスフィルタとを含み、
前記ローパスフィルタは、第１及び第２入力を有する乗算器として設計され、前記第１入力は、前記基底膜のセグメントから生じて所定の時間中存在する信号を受信するように構成され、且つ前記第２入力は、調整可能な時間Ｔ１にわたってシフトされた信号を受信するように構成され、
更に、前記乗算器は、時間Ｔ１によって決まる出力信号を発生し、該出力信号は、前記セグメントの信号に実質的に存在する周波数によって決まると共に、
各ピークの位置が単一信号成分により支配されるコレオグラムの表現態様によって前記音響信号の広帯域な周期構造を表現し、前記コレオグラムにおいては前記ピークの組み合わせでリッジが形成され、そして信頼性できるリッジのメンバーとして分類されることができない前記ピークの位置を破棄して、前記コレオグラムのピークにサーチ領域を縮小することにより、前記音響信号の広帯域な周期構造が前記時間シフトＴ１に依存した出力信号により排他的に決定され、前記音響信号の周波数内容に対する尺度を形成するものであることを特徴とする装置。
ノイズを示す音響信号のスペクトルを推定する装置であって、
前記音響信号を受信するように構成され、多数の直列接続されたセグメントを有する基底膜モデルと、前記基底膜に接続されて、推定信号を発生するローパスフィルタとを含み、
前記ローパスフィルタは、第１及び第２入力を有する乗算器として設計され、使用中、前記基底膜の各セグメントに対して、前記第１入力には、前記セグメントから生じる信号が印加され、且つ前記第２入力には、前記信号が時間Ｔ２にわたってシフトされて印加され、更に、前記乗算器は、各ピークの位置が単一信号成分により支配されるコレオグラムの表現態様によって前記音響信号の広帯域な周期構造を表現し、前記コレオグラムにおいては前記ピークの組み合わせでリッジが形成され、そして信頼性できるリッジのメンバーとして分類されることができない前記ピークの位置を破棄して、前記コレオグラムのピークにサーチ領域を縮小することにより、前記音響信号の広帯域な周期構造が前記時間シフトＴ２に依存した信号により排他的に決定され、前記音響信号に実質的に存在する周波数エネルギースペクトルに対する尺度を形成するセグメントによって決まる出力信号を発生することを特徴とする装置。