JP2012503212A

JP2012503212A - オーディオ信号分析方法

Info

Publication number: JP2012503212A
Application number: JP2011527151A
Authority: JP
Inventors: ルウェンリャン; センディパンジャン
Original assignee: ニューサウスイノベーションズピーティーワイリミテッド
Priority date: 2008-09-19
Filing date: 2009-09-11
Publication date: 2012-02-02
Also published as: EP2329399A4; WO2010031109A1; AU2009295251B2; AU2009295251A1; US8990081B2; EP2329399A1; US20110213614A1

Abstract

オーディオ信号を分析する方法を開示する。オーディオ信号のディジタル表現が受信され、ディジタル表現への生理学モデルの応答に基づいて、第１の出力関数が生成される。第１の出力関数の少なくとも１つのプロパティが決定され得る。１つまたは複数の値が、オーディオ信号の分析において使用するために、第１の出力関数の決定プロパティに基づいて決定される。

Description

本発明は、概して、オーディオに関し、具体的には、オーディオ信号を分析する方法および機器に関する。さらに、本発明は、オーディオ信号を分析するコンピュータプログラムを記録したコンピュータ可読媒体を含むコンピュータプログラム製品に関する。

電気通信網ならびに聴覚補綴システムにおける多数の音声符号化および合成システムの展開により、音声信号、より一般的にはオーディオ信号の品質を正確に評価し監視する重要性が増している。

公知の方法としては、主観的試験に基づいて音声品質を評価するものがある。平均オピニオン評点（ＭＯＳ）試験のような絶対範疇尺度法（ＡＣＲ）システムは、１次元の品質測定を行う。診断容認性尺度（Diagnostic Acceptability Measure:ＤＡＭ）は、主観的試験を必要とする別の音声品質評価方法である。診断容認性尺度は、「中断（ｉｎｔｅｒｒｕｐｔｅｄ）」や「金属的（ｔｉｎｎｙ）」などの軸に基づく多次元の品質測定を可能にする。

主観的測定方法に代わるものとしては、客観的音声品質測定方法がある。このような客観的音声品質測定方法の１つは、音声品質知覚評価（ＰＥＳＱ）アルゴリズムとして知られている。音声品質知覚評価アルゴリズムは、国際電気通信連合（ＩＴＵ）によって標準化されている。ただし、音声品質知覚評価アルゴリズムは、低ビットレート・ボコーダ（すなわち、４ｋｂｐｓ未満）ならびにバブルや軍用車両ノイズなどの環境条件によって劣化された音声を含む多くの合成システムには適さない。さらに、音声品質知覚評価アルゴリズムは、低域通過フィルタリングされた音声ならびに狭帯域ノイズによって劣化された音声の品質を予測することができない。

音声品質知覚評価アルゴリズムでは、平均オピニオン評定を予測するために音響心理学的マスキングモデル（ＰＭＭ）を用いる。心理音響学的マスキングモデルは、人間の蝸牛の高度に非線形な流体力学であるものの線形成分をモデリングする試みである。本質的に、音響心理学的マスキングモデルは、基底膜（ＢＭ）応答の線形成分を非常に大まかに推定したものである。したがって、音響心理学的マスキングモデルは、蝸牛およびそれに対応する心理物理学の実際の生理学的応答のいくつかの線形および非線形特性を予測することはできない。

本発明の目的は、既存の構成の１つまたは複数の欠点をほぼ克服あるいは少なくとも改善することである。

本開示の第１の態様によれば、（ａ）オーディオ信号のディジタル表現を受信するステップと、（ｂ）前記ディジタル表現への生理学モデルの応答に基づいて第１の出力関数を生成するステップと、（ｃ）前記第１の出力関数の少なくとも１つのプロパティを決定するステップと、（ｄ）前記第１の出力関数の決定された前記プロパティに基づいて、前記オーディオ信号の分析に使用する１つまたは複数の値を決定するステップと、を含むオーディオ信号分析方法が提供される。

本開示の別の態様によれば、オーディオ信号のディジタル表現を受信する手段と、前記ディジタル表現への生理学モデルの応答に基づいて第１の出力関数を生成する手段と、前記第１の出力関数の少なくとも１つのプロパティを決定する手段と、前記第１の出力関数の決定された前記プロパティに基づいて、前記オーディオ信号の分析に使用する１つまたは複数の値を決定する手段と、を備えたオーディオ信号分析機器が提供される。

本開示の別の態様によれば、データおよびコンピュータプログラムを含むメモリと、前記コンピュータプログラムを実行する前記メモリに結合されたプロセッサとを備え、前記コンピュータプログラムは、（ａ）オーディオ信号のディジタル表現を受信する命令と、（ｂ）前記ディジタル表現への生理学モデルの応答に基づいて第１の出力関数を生成する命令と、（ｃ）前記第１の出力関数の少なくとも１つのプロパティを決定する命令と、（ｄ）前記第１の出力関数の決定された前記プロパティに基づいて、前記オーディオ信号の分析に使用する１つまたは複数の値を決定する命令と、を含むオーディオ信号分析システムが提供される。

本開示の別の態様によれば、上述した方法のいずれか１つを実装するコンピュータプログラムを記録したコンピュータ可読媒体を含むコンピュータプログラム製品が提供される。

本発明の他の態様も開示される。

次に、本発明の１つまたは複数の実施形態を、図面を参照して記載する。

オーディオ信号を分析する方法を示す図である。音源が人間の発話の有声セクションであるときの出力関数を例示的に可視化したものを示す図である。音源が人間の発話の無声セクションであるときの出力関数を例示的に可視化したものを示す図である。図２Ａにおける例示的に可視化したものを示す別の図である。図２Ａにおける例示的に可視化したものを例示的に断面可視化したものを示す図である。記載する構成が実施され得る汎用コンピュータシステムを示す概略ブロック図である。図１の方法に従って決定される突出フォルマント点を用いる話者識別および検証の方法を示すフロー図である。図２Ａの出力関数においてローカルピークを含む複数のトラックを識別する方法を示すフロー図である。複数の第２の出力関数を決定する方法を示すフロー図である。図１の方法に従って決定される突出フォルマント点を用いて音声品質の客観的尺度を決定する方法を示すフロー図である。図１の方法に従って決定される突出フォルマント点を用いる音声認識の方法を示すフロー図である。図１の方法に従って決定される突出フォルマント点を用いて高忠実度オーディオ合成システムを評価する方法を示すフロー図である。

添付の図面のいずれか１つまたは複数において、同じ参照番号をもつステップおよびまたは特徴に対して参照が行われる場合、こうしたステップおよびまたは特徴は、本説明の目的のために、反対の意図が示されない限りは同じ機能（１つもしくは複数）または動作（１つもしくは複数）を有する。

図１は、オーディオ信号を分析する方法１００を示すフロー図である。方法１００は、図３に示すように、コンピュータシステム３００を使って実装されてもよい。図３に見られるように、コンピュータシステム３００は、コンピュータモジュール３０１と、キーボード３０２、マウスポインタ装置３０３、スキャナ３２６、マイクロフォン３８０などの入力装置と、プリンタ３１５、表示装置３１４およびラウドスピーカ３１７を含む出力装置とによって形成される。

外部変復調（モデム）トランシーバ装置３１６が、コンピュータモジュール３０１によって、接続３２１を介した通信ネットワーク３２０との間の通信用に使われてもよい。ネットワーク３２０は、インターネットや専用ＷＡＮなどのワイドエリアネットワーク（ＷＡＮ）でよい。接続３２１が電話回線の場合、モデム３１６は従来の「ダイアルアップ」モデムでよい。あるいは、接続３２１が高容量（たとえば、ケーブル）接続の場合、モデム３１６はブロードバンドモデムでよい。ワイヤレスモデムも、ネットワーク３２０へのワイヤレス接続のために使われてもよい。

コンピュータモジュール３０１は、通常、少なくとも１つのプロセッサユニット３０５と、たとえば半導体ランダムアクセスメモリ（ＲＡＭ）および半導体読出し専用メモリ（ＲＯＭ）から形成されるメモリユニット３０６とを含む。また、モジュール３０１は、ビデオディスプレイ３１４、ラウドスピーカ３１７およびマイクロフォン３８０に結合するオーディオ／ビデオインタフェース３０７を含むいくつかの入出力（Ｉ／Ｏ）インタフェースと、キーボード３０２、マウス３０３およびスキャナ３２６用のＩ／Ｏインタフェース３１３と、外部モデム３１６およびプリンタ３１５用のインタフェース３０８とを含む。一部の実装形態では、マイクロフォン３８０は、コンピュータモジュール３０１内部に組み込まれてもよい。また、一部の実装形態では、モデム３１６は、コンピュータモジュール３０１内部、たとえばインタフェース３０８内部に組み込まれてもよい。コンピュータモジュール３０１は、接続３２３を介して、コンピュータシステム３００と、ローカルエリアネットワーク（ＬＡＮ）として知られるローカルコンピュータネットワーク３２２との結合を可能にするローカルネットワークインタフェース３１１も有する。また、図に示すように、ローカルネットワーク３２２は、いわゆる「ファイアウォール」装置または同様の機能性の装置を通常は含むワイドネットワーク３２０にも、接続３２４を介して結合されてもよい。インタフェース３１１は、イーサネット（商標）回路カード、ブルートゥース（商標）ワイヤレス構成またはＩＥＥＥ８０２．１１ワイヤレス構成によって形成されてもよい。

インタフェース３０８、３１３は、直列および並列接続性の一方または両方を与えてもよく、前者は、通常、ユニバーサルシリアルバス（ＵＳＢ）標準に従って実装され、対応するＵＳＢコネクタ（図示せず）を有する。記憶装置３０９が設けられ、通常は、ハードディスクドライブ（ＨＤＤ）３１０を備えている。フロッピーディスクドライブおよび磁気テープドライブ（図示せず）など、他の記憶装置も使われ得る。光ディスクドライブ３１２が通常、不揮発性データソースとして作用するように設けられる。たとえば、光ディスク（たとえば、ＣＤ−ＲＯＭ、ＤＶＤ）、ＵＳＢ−ＲＡＭおよびフロッピーディスクなどの可搬型メモリ装置が、必要に応じて、システム３００へのデータソースとして使われてもよい。

コンピュータモジュール３０１の構成要素３０５〜３１３は、通常、相互接続バス３０４を介して、当業者に公知であるコンピュータシステム３００の従来の動作モードを生じるように通信する。記載する構成が実施され得るコンピュータの例は、ＩＢＭ−ＰＣおよび互換機、Ｓｕｎのスパークステーション、ＡｐｐｌｅのＭａｃ（登録商標）またはこれらから発展した同様のコンピュータシステムを含む。

方法１００は、コンピュータシステム３００内部で実行可能な１つまたは複数のソフトウェアアプリケーションプログラム３３３として実装されてもよい。具体的には、方法１００のステップは、コンピュータシステム３００内部で実施されるソフトウェア中の命令によって作用される。ソフトウェアは、２つの別々の部分に分割されてもよく、第１の部分およびこれに対応するソフトウェアモジュールが、記載する方法１００を実施し、第２の部分およびこれに対応するソフトウェアモジュールが、第１の部分とユーザとの間のユーザインタフェースを管理する。

ソフトウェアは、たとえば後で説明する記憶装置を含むコンピュータ可読媒体に格納されてもよい。ソフトウェアは、コンピュータ可読媒体からコンピュータシステム３００にロードされ、次いで、コンピュータシステム３００によって実行される。このようなソフトウェアまたはコンピュータプログラムを記録したコンピュータ可読媒体が、コンピュータプログラム製品である。このコンピュータプログラム製品をコンピュータシステム３００において使用することにより、好ましくは、記載する方法を実装する有利な機器がもたらされる。

ソフトウェア３３３は通常、ハード・ディスクドライブ３１０またはメモリ３０６に格納される。ソフトウェアは、コンピュータ可読媒体からコンピュータシステム３００にロードされ、次いで、コンピュータシステム３００によって実行される。このように、たとえば、ソフトウェアは、光ディスクドライブ３１２によって読み取られる光学的可読ＣＤ−ＲＯＭ媒体３２５に格納されてもよい。このようなソフトウェアまたはコンピュータプログラムを記録したコンピュータ可読媒体が、コンピュータプログラム製品である。このコンピュータプログラム製品をコンピュータシステム３００において使用することにより、好ましくは、記載する方法を実装する有利な機器がもたらされる。

一部の事例では、アプリケーションプログラム３３３は、１つまたは複数のＣＤ−ＲＯＭ３２５でエンコードされてユーザに供給され、対応するドライブ３１２を介して読み取られてもよく、あるいは、ネットワーク３２０または３２２からユーザによって読み取られてもよい。さらに、ソフトウェアは、他のコンピュータ可読媒体からコンピュータシステム３００にロードされることもできる。コンピュータ可読記憶媒体は、実行および／または処理のための、コンピュータシステム３００への命令およびまたはデータの提供に関与するどの記憶媒体も指す。このような記憶媒体の例は、フロッピーディスク、磁気テープ、ＣＤ−ＲＯＭ、ハード・ディスクドライブ、ＲＯＭもしくは集積回路、ＵＳＢメモリ、光磁気ディスク、またはたとえばＰＣＭＣＩＡカードなどのコンピュータ可読カードを含み、このような装置がコンピュータモジュール３０１の内部にあるか、それとも外部にあるかは問われない。また、コンピュータモジュール３０１へのソフトウェア、アプリケーションプログラム、命令および／またはデータの提供に関与し得るコンピュータ可読伝送媒体の例は、無線または赤外線伝送チャネルおよび別のコンピュータまたはネットワーク接続装置へのネットワーク接続、ならびにｅメール伝送およびウェブサイト上に記録された情報を含むインターネットまたはイントラネットなどを含む。

上述したアプリケーションプログラム３３３の第２の部分およびこれに対応するコードモジュールは、ディスプレイ３１４上に描画され、あるいは表されるべき１つまたは複数のグラフィカルユーザインタフェース（ＧＵＩ）を実装するように実行されてもよい。通常は、キーボード３０２およびマウス３０３の操作により、コンピュータシステム３００およびアプリケーションのユーザは、ＧＵＩ（１つまたは複数）に関連づけられたアプリケーションにコマンドおよびまたは入力の制御を与えるように、機能的に適合可能にインタフェースを操作してもよい。ラウドスピーカ３１７およびマイクロフォン３８０により入力されるユーザのボイスコマンドを介して出力される音声プロンプトを使用するオーディオインタフェースなど、機能的に適合可能な他の形のユーザインタフェースも実装されてもよい。

オーディオ信号を分析する方法１００は、代替的には、方法１００の機能または副次機能を実施する１つまたは複数の集積回路などの専用ハードウェア内に実装されてもよい。このような専用ハードウェアは、ディジタル信号プロセッサ、または１つもしくは複数のマイクロプロセッサ、関連メモリ、周辺機器およびディスプレイを含んでもよい。このような専用ハードウェアの例は、電話、移動電話、無線トランスレシーバ、携帯情報端末（ＰＤＡ）、Ｂｌａｃｋｂｅｒｒｙ（商標）、ラップトップまたは同様の装置を含んでもよい。

方法１００は、ステップ１１０で始まり、ここでプロセッサ３０５は、オーディオ信号のディジタル化表現にアクセスする。オーディオ信号のディジタル化表現は、メモリ３０６および／またはハードディスクドライブ３１０に格納されてもよい。あるいは、ディジタル化表現は、Ｉ／Ｏインタフェース３０８を介してプロセッサ３０５によって獲得されてもよい。

オーディオ信号は、プロセッサ３０５によって、マイクロフォン３８０およびオーディオ／ビデオインタフェース３０７を介して受信されている場合がある。通常、オーディオ信号は音響波である。マイクロフォン３８０で受信されるオーディオ信号は、所望の音源およびバックグラウンド音源から発した音響波を重畳したものである。所望の音源は、人間の発話でよく、バックグラウンド音源は、望ましくない人間の発話および環境ノイズを含む１つまたは複数の望ましくないノイズからなっていてもよい。

マイクロフォン３８０は、オーディオ信号を電気信号に変換し、オーディオ／ビデオインタフェース３０７は、電気信号を、コンピュータシステム３００によって要求されるディジタル化表現に変換する。ディジタル化表現は、メモリ３０６に格納される。一部の実装形態では、ディジタル化表現は、ハードディスクドライブ３１０にさらに格納されてもよい。

また、ディジタル化表現は、コーダ（図示せず）を使って符号化され得る。コーダは、ハードディスクドライブ３１０上にあり、実行の際は、プロセッサ３０５によって制御されるソフトウェアとして実装されてもよい。コーダは、国際電気通信連合の標準Ｇ．７２９やＧ．７２３など、任意の適切な標準に合わせて構成されてもよい。コーダは、符号化ノイズにより、ディジタル化表現に付加的なノイズをもたらす場合がある。概して、符号化ノイズは、ディジタル化表現と強く相関するが、特定の環境ノイズ（「バブル」ノイズなど）も、ディジタル化表現と相関し得る。

別の実装形態では、オーディオ信号のディジタル化表現は、記憶装置３０９上または光学的可読ＣＤ−ＲＯＭ媒体３２５上に既に格納されている場合がある。このような代替実装形態では、コンピュータシステム３００は、ディジタル化表現をメモリ３０６中に転送する。

さらに別の実装形態では、オーディオ信号のディジタル化表現は、人工的に生成されたテキストまたはテキストによって生成された音声から、音声合成システムに発してもよい。

オーディオ信号のディジタル化表現は、次のステップ１２０で、生理学モデルのための入力関数として働く。生理学モデルは、コンピュータシステム３００によって実行可能なソフトウェアアプリケーションプログラム３３３の１つとして実装されてもよい。ステップ１２０で、生理学モデルは、プロセッサ３０５の実行下で、入力関数を使って第１の出力関数を生成する。第１の出力関数は、オーディオ信号への生理学モデルのシミュレート応答である。第１の出力関数については後で詳しく説明する。

生理学モデルは、好ましくは、人間の蝸牛における様々な電気的および機械的応答を決定する１、２または３次元流体力学的蝸牛モデル（ＣＭ）である。こうした電気的および機械的応答は、基底膜（ＢＭ）応答、内有毛細胞（ＩＨＣ）応答、基底膜速度および内有毛細胞の細胞内電圧を含む。

オーディオ信号のディジタル化表現は、好ましくは、オーディオ信号の時間ｔ変化を含む１次元入力関数である。第１の出力関数は、好ましくは、様々な蝸牛応答の時間ｔおよび空間ｐ変化を含む２次元関数である。したがって、入力関数はベクトルと見なすことができ、各要素は、オーディオ信号の振幅である。第１の出力関数は行列と見なすこともでき、行列の各要素は、基底膜応答、内有毛細胞応答、基底膜速度および内有毛細胞の細胞内電圧からなる群から選択される。

入力関数において、隣接要素は、通常、１〜２５０μｓの差分に対応する。第１の出力関数において、時間軸に沿った隣接要素は、１〜２５０μｓの差分に対応し、空間軸に沿った隣接要素は、０．０１〜０．１マイクロメートルの距離に対応する。上記範囲は、典型的な値の範囲を与えることを意図しており、ハードウェアおよび計算量要件によってのみ制限される。

図２Ａは、所望の音源が人間の発話の有声セクションであるときの第１の出力関数２０５を例示的に可視化したものを示す。図２Ｂは、所望の音源が人間の発話の無声セクションであるときの第１の出力関数２９５を例示的に可視化したものである。図２Ｃは、図２Ａの第１の出力関数２０５の別の可視化である。図２Ｄは、図２Ａに見られる所与の空間位置ｐ_０２０１に対する第１の出力関数２０５を例示的に断面可視化したものである。

図２Ａおよび２Ｂは、時間領域および空間領域に渡る第１の出力関数（たとえば、２０５、２９５）の発展を表わしている。図２Ａにおいて、第１の出力関数２０５は、緩徐な、時間および位置に渡って確定的に繰り返す複数のピーク（たとえば、２２０、２２１、２２２）を特徴とし、こうしたピークは、明確なパターンまたは構造を形成している。これは、図２Ｂに示す出力関数例２９５のような確定的なパターンが欠如しているものとは対照的である。さらに、人間の発話の有声セクションに対する第１の出力関数２０５の振幅は、人間の発話の無声セクションに対する第１の出力関数２９５の振幅よりはるかに大きい。

図２Ｃは、第１の出力関数２０５の別の可視化である。図２Ｃは、第１の出力関数２０５を２次元で示している。図２Ａの複数のピーク（たとえば、２２０、２２１、２２２）は、図２Ｃの暗い領域に対応する。図２Ｃの暗い領域（たとえば、２２０、２２１、２２２）は、第１の出力関数２０５に対する高振幅のエリアに対応する。図２Ｃにおいて、複数のピークの発展は、第１の出力関数２０５における各ピーク（たとえば、２２０）が空間−時間次元に沿ってたどる一連の連続する線または「トラック」（たとえば、２１０、２１１、２１２）で示される。一連のトラック（たとえば、２１０、２１１、２１２）は、出力関数２０５が発展するのに伴って、時間領域および空間領域に渡る複数のピーク（たとえば、２２０、２２１、２２２）の進行を示している。

図２Ａ及び２Ｃに示される人間の発話の有声セクションは、途切れずに長く続くトラック（たとえば、２１０、２１１、２１２）で示される。これは、空間および時間に渡る第１の出力関数２０５の緩徐で一定した発展を示している。所望の音源が人間の発話の有声セクションであるときの第１の出力関数２０５の別の特性は、図２Ｃの暗いエリア（たとえば、２２０、２２１、２２２）で示される１つまたは複数の高振幅領域である。複数のピーク（たとえば、２２０、２２１、２２２）は、複数の「フォルマント」としても知られ、各フォルマントは、人間の声道が共振する周波数に対応する。複数のピーク（たとえば、２２０、２２１、２２２）の付近では、一連のトラック（たとえば、２１０、２１１、２１２）は途切れず、空間および時間においてほぼ周期的である。このような特性は通常、人間の発話の無声セクションに対する第１の出力関数２９５には存在しない。

図２Ｄは、時間関数としての、所与の固定された空間位置ｐ_０２０１における第１の出力関数２０５を例示的に断面可視化したものである。入力関数が人間の発話であるとき、流体力学的蝸牛モデルの応答ＣＭ_ｐ０（ｔ）２６１は、擬似周期的波形である。応答２６１は、周期Ｔ_ｃ２６２を有する第１の周期性モードおよび周期Ｔ_ｐ２６４をもつ第２の周期性モードからなる。第１の周期性モードは、応答２６１の特性周波数ｆ＝１／Ｔ_ｃに対応する。第２の周期性モードは、応答２６１の平滑低域通過エンベロープｅ_ｐ０（ｔ）２６６に対応し、ここでｅ_ｐ０（ｔ）＝Ｅ｛ＣＭ_ｐ０（ｔ）｝であり、Ｅは、エンベロープオペレータを表す。第２の周期性モードＴ_ｐ２６４は、人間の発話のピッチに起因し、緩徐な空間発展の場合を除いて、位置ｐによるものではない。

因果律に起因して、所望の音源が人間の発話であるとき、隣接する空間位置、すなわちｐ_０＋１で、エンベロープ２６６は、ゆっくりではあるが発展している。このような発展の速度は、発声量の関数であり、強く発声されたセクションの場合、この発展は遅くなる。対照的に、図２Ｂに見られるように、所望の音源が人間の発話の無声セクションであるとき、発展速度は高速になる。

同様に、エンベロープ２６６の発展速度は、２つの時間位置ｔ_０およびｔ_０＋１で観察することができ、ここで、空間応答ＣＭ_ｔ０（ｐ）は、第１の時間位置ｔ_０での空間変化ｐの関数である。第１の出力関数２０５の発展はこのように、エンベロープ２６６が空間および時間次元両方で発展しているので、空間的に、および時間的に追跡される。図２Ａ、図２Ｃは、出力関数２０５の発展を示す。

方法１００は、次のステップ１３０に進み、ここでプロセッサ３０５は、図２Ａ〜２Ｄの例とまさに同じように、第１の出力関数（２０５、２９５）の空間ｐおよび時間ｔ変化両方を用いて、第１の出力関数（２０５、２９５）の少なくとも１つのプロパティを識別する。具体的には、第１の出力関数（たとえば、２０５）における複数のピーク（たとえば、２２０Ａ、２２０Ｂ、２２０Ｃ）の位置が、トラック関数Ｔに格納される。ステップ１３０で実行される、第１の出力関数における複数のピーク（たとえば、２２０Ａ、２２０Ｂ、２２０Ｃ）を識別する方法５００については、図５を参照して後で詳しく説明する。

次いで、方法１００の次のステップ１４０で、プロセッサ３０５は、トラック関数Ｔおよび第１の出力関数を使用して、トラック中心点（ＴＣＰ）および突出フォルマント点（ＳＦＰ）と呼ばれる複数の第２の出力関数を生成する。記載したように、第１の出力関数は、１次元入力関数への生理学モデル応答であり、入力関数は、オーディオ信号のディジタル化表現である。ステップ１４０で実行される複数の第２の出力関数を決定する方法６００については、図６を参照して後で詳しく説明する。これ以降で記載するように、複数の第２の出力関数は、第１の出力関数２０５の決定されたプロパティ（たとえば、ピーク２２０Ａ、２２０Ｂ、２２０Ｃの位置）に基づいて、オーディオ信号（すなわち、入力関数）を分析する際に使われる。

ステップ１３０で実行される第１の出力関数における複数のピーク（たとえば、２２０Ａ、２２０Ｂ、２２０Ｃ）を識別する方法５００については、図５を参照して以下で詳しく説明する。方法５００は、第１の出力関数２０５に関する例として記載される。方法５００は、ディスクドライブ３１０上にあり、実行の際はプロセッサ３０５によって制御されるソフトウェアとして実装されてもよい。

方法５００は、ステップ５２０で始まり、ここで、プロセッサ３０５は、第１の出力関数の時間ｔ変化（すなわち、固定された空間位置ｘ）を用いて、複数のピーク、すなわちＰ_ｘ（ｔ_ｋ，ｘ）、ｋ＝１：Ｍ_ｘを識別し、ここでＭ_ｘは、固定された空間位置ｘでのピークの最大数を表し、ｔ_ｋは、ピーク（たとえば、２２０Ａ、２２０Ｂ、２２０Ｃ）が起こる時間位置を表す。

次のステップ５３０で、プロセッサ３０５は、選択されたピークＰ_ｘ（ｔ_ｋ，ｘ）の１つ（たとえば、２２０Ａ）が、隣接するピークＰ_ｘ−１（ｔ_{ｋ，ｘ−１}）と同じ近傍にあるかどうかを隣の空間位置、すなわちｘ−１（図示せず）から判定する。プロセッサ３０５は、選択されたピークＰ_ｘ（ｔ_ｋ，ｘ）を、別個の近傍にある隣接するピークＰ_ｘ−１（ｔ_{ｋ，ｘ−１}）と比較することによって、ステップ５３０を実行する（すなわち、ｔ_{ｋ，ｘ−１}−ｔ_{ｂａｃｋｗａｒｄ}≦ｔ_ｋ，ｘ≦ｔ_{ｋ，ｘ−１}＋ｔ_{ｆｏｒｗａｒｄ}）。選択されたピークＰ_ｘ（ｔ_ｋ，ｘ）（たとえば、２２０Ａ）が、別個の近傍にあることが分かった場合、選択されたピークＰ_ｘ（ｔ_ｋ，ｘ）（たとえば、２２０Ａ）は、隣の空間位置ｔ_{ｋ，ｘ−１}にある隣接するピークと同じトラック（たとえば、２１０）の一部であると見なされる。複数のピークが別個の近傍において見つかった場合、点ｔ_{ｋ，ｘ−１}に最も近いピークが選択される。別個の近傍においてピークが見つからない場合、トラック２１０は位置ｘ−１で終了され、トラック２１０に沿ったそれ以上のサーチは、今後は実施されない。

因果律により、トラック（たとえば、２１０）は常に、時間および位置が増す方向に動く。この理由のため、ｔ_{ｂａｃｋｗｏｒｄ}は小さく、またはゼロにさえ設定され得る。以前の場所に関連づけられていない新規ピークは破棄されるのではなく、たとえば、今後のトラッキングのために、トラックが終了するまでメモリ３０６に格納されることを保証することによって、より高い場所（すなわち、隣の空間位置ｘ−１ではなく）で発するどの新規トラックも引き起こされ得る。

ステップ５３０の結果が真の場合、方法５００は、「ＹＥＳ」矢印に従って、ステップ５４０に進む。ステップ５４０で、プロセッサ３０５は、選択されたピークＰ_ｘ（ｔ_ｋ，ｘ）（たとえば、２２０Ａ）が、隣接するピークＰ_ｘ−１（ｔ_{ｋ，ｘ−１}）と同じトラック（たとえば、２１０）に属すと判定し、結果は、メモリ３０６中に配置されたトラック関数Ｔに格納される。

ステップ５３０の結果が偽の場合、方法５００は、「ＮＯ」矢印に従って、ステップ５４５に進み、このステップは、新規トラックを開始し、結果は、メモリ３０６中に配置されたトラック関数Ｔに格納される。

方法５００は、次のステップ５５０に進み、ここでプロセッサ３０５は、ステップ５３０が、所与の空間位置ｘでピークすべてに対して実施されているかどうか判定する。ステップ５５０の結果が真の場合、方法５００は、「ＹＥＳ」矢印に従って、ステップ５６０に進む。ステップ５５０の結果が偽の場合、方法５００は、「ＮＯ」矢印に従って、ステップ５３０に進む。ステップ５６０で、プロセッサ３０５は、ステップ５２０が空間位置ｘすべてに対して実施されているかどうか判定する。

検査ステップ５６０の結果が真の場合、方法５００は、「ＹＥＳ」矢印に従って進み、方法５００は終わる。ステップ５６０の結果が偽の場合、方法５００は、「ＮＯ」矢印に従って進んで、ステップ５２０に戻る。方法５００の完了に続いて、トラック関数Ｔはメモリ３０６に格納される。

所望の音源が人間の発話である実装形態において、ステップ１４０で生成された複数の第２の出力関数は、トラック中心点ＴＣＰ、および突出フォルマント点ＳＦＰを含む。

記載したように、複数のフォルマントは、図２Ｃの出力関数２０５を可視化したものにおいても見られる複数のピーク（たとえば、２２０、２２１、２２２）として、図２Ａの第１の出力関数２０５において現れる。第１の出力関数２０５、２９５（すなわち、蝸牛モデル応答）の観点から、複数のフォルマントは、特性周波数をもつ蝸牛の長さに沿った各位置の間の関連づけを反映して、時間エンティティではなく、空間（すなわち、周波数）エンティティとして区別される。

図２Ｃの例示的に可視化したものにおいて、複数のピーク（たとえば、２２０、２２１、２２２）は、複数の知覚的関連領域（ＰＲＲ）（たとえば、２３０、２３１、２３２）内で容易に区別可能である。各知覚関連領域は、第１の出力関数２０５において高エネルギーの領域として現れる。各知覚関連領域を決定するステップ６２０については、図６を参照して後で詳しく説明する。

図２Ａおよび２Ｃでは、３つの突出領域（２３０、２３１、２３２）が、空間的に明確に識別され得る。こうした３つの突出領域（２３０、２３１、２３２）は、基底膜の基部から約２３．１１ｍｍ、２４．２０ｍｍおよび２５．５７ｍｍを中心とする空間領域として現れる。突出領域の空間位置は、時間とともに最小限に変わり得る。上記空間位置は、約４４６１Ｈｚ、３７０７Ｈｚおよび２９１１Ｈｚに対応する。空間位置におけるこの最小変化は、ピーク（たとえば、２２０）の数が、発声された音声が持続する間だけ変わらないままであるという事実、ならびに、特に図２Ｃに見られる突出領域（２３０、２３１、２３２）に対応する領域では、複数のトラック（たとえば、２１０、２１１、２１２）が互いにほぼ平行であるという事実によって、第１の出力関数２０５において観察されることができる。突出領域（たとえば、２３０、２３１、２３２）での第１の出力関数２０５の別の特性は、第１の出力関数２０５の高振幅である。

ステップ１４０で実行される第２の出力関数を決定する方法６００について、図６を参照して以下で詳しく説明する。方法６００は、ハードディスクドライブ３１０内にあり、実行の際はプロセッサ３０５によって制御されるソフトウェアとして実装されてもよい。

方法６００は、ステップ６２０で始まり、ここで、プロセッサ３０５は、知覚的関連領域（ＰＲＲ）（たとえば、２３０、２３１、２３２）を決定する。知覚的関連領域（たとえば、２３０）は、突出情報（たとえば、２２０）が存在すると思われる低い場所ｐ_ｌ（たとえば、２３３）から高い場所ｐ_ｈ（たとえば、２３４）までの空間範囲を定義する。したがって、空間範囲［ｐ_ｌ、ｐ_ｈ］は、ステップ６２０で決定される。通常、知覚的関連領域（たとえば、２３０、２３１、２３２）は、メモリ３０６に変数として格納される。

低い場所ｐ_ｌ（たとえば、２３３）および高い場所ｐ_ｈ（たとえば、２３４）は、２つの制約で決定される。第１の制約は、空間範囲［ｐ_ｌ，ｐ_ｈ］内の第１の出力関数２０５のエネルギーが、信号依存閾値を上回ることを保証する。これは、フォルマント領域（たとえば、２３０、２３１、２３２）内の第１の出力関数２０５の振幅が、他の領域よりはるかに高いという事実を反映している。第２の制約は、隣接し合うトラックに対する時間距離が、空間範囲［ｐ_ｌ，ｐ_ｈ］内でほぼ等しくなることを保証する。

方法６００は、次のステップ６３０に進み、プロセッサ３０５は、知覚的関連領域（たとえば、２３０）内の各第ｋトラックに対するトラック中心点を決定する。この空間範囲内の第１の出力関数２０５は、ＣＭ_ｐｌ（ｔ_ｌ）およびＣＭ_ｐｈ（ｔ_ｈ）を境界とし、ここで［ｔ_ｌ，ｔ_ｈ］は、第１の出力関数２０５の空間範囲［ｐ_ｌ，ｐ_ｈ］に対応する。トラック中心点ＴＣＰは、空間範囲に渡る第１の出力関数２０５の重心により与えられる。知覚的関連領域内のすべての第ｋトラックおよび第ｉフォルマントに対するトラック中心点ＴＣＰは、３つの値、すなわちトラック中心点応答ＴＣＰ（ψ，τ）、時間変数τおよび空間位置ψによって特徴づけられ、こうした値は、以下の式（１）に従って算出される。

ここで、知覚的関連領域（たとえば、２３０）でのトラック（たとえば、２１１）の一特性は、トラックが時間−空間平面において擬似平行であるということである。二次周期性モードＴ_ｐ２３４に渡る隣接するトラック（たとえば、２１０、２１２）も、強度に関しては隣接するトラックとほぼ同様である。

トラックの１つ（たとえば、２１０）の最も突出した成分を保ちながら次元数の削減をさらに試みると、単一の二次周期性モードＴ_ｐ２３４にあるすべてのトラックが、一周期においてトラック中心点の重心によって与えられる一地点まで削減され得る。

次のステップ６３５で、プロセッサ３０５は、時間インデックスｊでの第ｉのフォルマントに対するトラックの数Ｎ_ｉ（ｊ）を決定する。ピッチ周期は、入力関数（オーディオ信号のディジタル表現）または第１の出力関数２０５のどちらから決定されてもよい。

次いで、ステップ６４０で、プロセッサ３０５は、突出フォルマント点を決定する。一ピッチ周期におけるトラック中心点ＴＣＰは、一ピッチ周期におけるトラック中心点すべての重心をとることによって、一地点に削減され得る。この組合せの結果は、突出フォルマント点ＳＦＰと呼ばれる。プロセッサ３０５は、以下の式（２）に従って、突出フォルマント点ＳＦＰ値を決定する。

ここで、突出フォルマント点ＳＦＰは、修正時間変数τ’および修正空間位置ψ’によってインデックスされる。

トラック中心点ＴＣＰおよび突出フォルマント点ＳＦＰを含む複数の第２の出力関数は、メモリ３０６および／またはハードディスクドライブ３１０に格納される。

方法１００は、異なる様々な音声ベースのアプリケーションにおいて有用であり得る。突出フォルマント点およびトラック中心点などの第２の出力関数は、音声認識、話者認識および話者検証などのアプリケーションにおいて使うのに役立つ。こうしたアプリケーションそれぞれにおいて、突出フォルマント点およびトラック中心点は、所望の認識および検証を遂行するための統計的パターン認識の基礎をなす既存の１組の特徴（メル周波数ケプストラム係数、すなわちＭＦＣＣなど）を補足する。以下の段落では、突出フォルマント点およびトラック中心点を使い得るアプリケーションの一部を概説する。

図７は、方法１００に従って決定される突出フォルマント点ＳＦＰを使って音声品質の客観的尺度を決定する方法７００を示すフロー図である。方法７００は、ボイスオーバーインターネットプロトコル（ＶｏＩＰ）電気通信システムなどの電気通信システムのサービス品質の決定に関し、例として記載する。ただし、方法７００は、通信システムの診断試験、オーディオ機器の忠実度の決定、職業環境（たとえば、工場、車両内、会議室）における歪みの特徴づけ、および娯楽環境（たとえば、コンサートホール）における歪みの特徴づけなど、他の様々なアプリケーションにも用いられてもよい。方法７００は、ハードディスクドライブ３１０上にあり、実行の際はプロセッサ３０５によって制御されるソフトウェアとして実装されてもよい。

方法７００は通常、オーディオ信号の第１および第２のディジタル化表現を必要とする。第１のディジタル化表現は、「リファレンス」または「オリジナル」と呼ばれ、破損していない所望のオーディオ信号である。通常、所望のオーディオ信号は人間の発話である。第２のディジタル化表現は、「破損した」または「歪んだ」ものと呼ばれ、歪みおよびノイズの付加によって破損された所望のオーディオ信号である。本例では、電気通信システムのサービス品質の決定に関し、所望のオーディオ信号は、電気通信網、送信機と受信機との間の関連機器、ならびに人間の発話を記録する間にマイクロフォン３８０によって記録された環境ノイズに起因して破損され得る。環境ノイズは、車ノイズおよびバブルノイズであり得る。

方法７００の一実装形態では、第２のディジタル化表現が作成されてもよい。第２のディジタル化表現は、電気通信システムの送信機側で、電気通信網を通して所望のオーディオ信号を伝送し（歪みおよびノイズを加え）、電気通信システムの受信機側で、破損されている所望のオーディオ信号を収集して、オーディオ信号を生成することによって作成されてもよい。別の実装形態では、第２のディジタル化表現は、既知のオーディオ信号に歪み関数を適用することによって作成され得る。このような歪み関数は、時間領域または周波数領域内に存在し得る。例として、低レート音声コーダおよびノイズのある伝送チャネルなど、電気通信システムのディジタルシミュレーションを含む。別の実装形態は、プロセッサ３０５が環境ノイズのディジタル化サンプルを既知のオーディオ信号に加えることを伴う。歪み関数は、コンピュータシステム３００内で実行可能なソフトウェアアプリケーションプログラム３３３のうち１つのプログラムの形で実装されてもよく、第２のディジタル化表現はメモリ３０６に格納される。

方法７００は、ステップ７１０で始まり、ここで、プロセッサ３０５は、上述したように、方法１００に従って、第１のディジタル化表現を使って第２の出力関数の第１の集合を決定する。第２の出力関数の第１の集合は、メモリ３０６に格納される。第２の出力関数の第１の集合の突出フォルマント点は、オリジナル突出フォルマント点、すなわちＳＦＰ_{ＯＲＩＧＩＮＡＬ}と呼ばれる。

次のステップ７１５で、プロセッサ３０５は、上述したように、方法１００に従って、第２のディジタル化表現を使って第２の出力関数の第２の集合を決定する。第２の出力関数の第２の集合は、メモリ３０６に格納される。第２の出力関数の第２の集合の突出フォルマント点は、歪み突出フォルマント点、すなわちＳＦＰ_{ＤＩＳＴＯＲＴ}と呼ばれる。

次いで、次のステップ７２０で、プロセッサ３０５は、以下の式（３）に示す差分関数Ｆに従い、２つの第２の出力関数を使って、突出フォルマント点ＳＦＰ_{ＯＲＩＧＩＮＡＬ}とＳＦＰ_{ＤＩＳＴＯＲＴ}との間の距離Ｄを判定する。関数Ｆは、単純な減算、絶対値の減算、減算後の絶対値、対数領域における減算、非線形変換後の減算（たとえば、整数または非整数累乗をとる）、除算、統計的検出、および他の適切な方法を含む様々な計算方法を表し得る。
Ｄ＝Ｆ（ＳＦＰ_{ＯＲＩＧＩＮＡＬ}，ＳＦＰ_{ＤＩＳＴＯＲＴ}）（３）

方法７００は、次のステップ７３０に進み、プロセッサ３０５は、歪みの主観的知覚を予測する。歪みの主観的知覚は、ステップ７２０で判定された距離Ｄの様々な統計的分析によって決定される。歪みの主観的知覚により、時間がほぼ局所化された１つまたは複数の歪みが予測され得る。一実装形態では、歪みの主観的知覚は、以下の表１に示すように、１つまたは複数の診断容認性尺度（ＤＡＭ）パラメータの予測を伴う。ＳＦ、ＳＤ、ＳＩおよびＳＢなどの診断容認性尺度パラメータは、時間が局所化されることが分かっている歪み記述子である。このようなパラメータを算出するのに、統計的分析技法が用いられ得る。たとえば、距離Ｄの標準偏差が、ＳＢ、ＳＦおよびＳＩパラメータを算出するのに用いられ得る。あるいは、ＳＤパラメータを算出するのに、歪みの発展速度（すなわち、δＤ／δｔ）を用いてもよい。

さらに、複雑度がより高い他の統計モデリングおよび分析技法、たとえば、隠れマルコフモデル、混合モデル、ニューラルネットワークおよび多項式回帰等を音声品質予測に用いてもよい。

診断容認性尺度（ＤＡＭ）パラメータは、メモリ３０６に格納されてもよい。診断容認性尺度（ＤＡＭ）パラメータは、記憶装置３０９の１つまたは複数にさらに格納されてもよい。通常、診断容認性尺度（ＤＡＭ）パラメータは、表示装置３１４に表示される。

図８は、方法１００に従って決定される突出フォルマント点ＳＦＰを用いる音声認識の方法８００を示すフロー図である。方法８００は、ディジタル口述ソフトウェアアプリケーションなど、音声−テキスト変換システムに関する例として記載される。ただし、方法８００は、音声ベースのユーザインタフェース（たとえば、対話型キオスク、行列システム、呼問合せ管理）など、他の様々なアプリケーションにおいて用いることができる。方法８００は、ハードディスクドライブ３１０上にあり、実行の際はプロセッサ３０５によって制御されるソフトウェアとして実装されてもよい。

方法８００は、ステップ８１０で始まり、プロセッサ３０５は、方法１００に従って、（たとえば、口述している人からの）音声オーディオ信号のディジタル化表現を使って、上述したように複数の第２の出力関数を決定する。複数の第２の出力関数は、メモリ３０６に格納される。プロセッサ３０５は、複数の第２の出力関数から突出フォルマント点ＳＦＰを選択する。

方法８００は、ステップ８２０に進み、プロセッサ３０５は、突出フォルマント点ＳＦＰをデータベースに格納された複数の既知の音素と比較する。一実装形態では、データベースは、ハードディスクドライブ３１０またはメモリ３０６内に構成される。音素の各１つは、既知の単語の少なくとも一部に関連づけられる。突出フォルマント点と音素との間の比較に基づいて、プロセッサ３０５は、突出フォルマント点を候補単語に突き合わせる。ステップ８２０で突出フォルマント点を候補単語に突き合わせるために、プロセッサ３０５は、突出フォルマント点と候補単語に対応する音素との間の距離を決定する。プロセッサ３０５は、ステップ８２０で距離を決定するのに適切などの統計的パターン認識方法を用いてもよい。このようなパターン認識方法は、１組の距離から抽出された統計的情報に基づいて距離（パターン）を決定する。統計的パターン認識方法は、クラスタリング、線形判別分析、非線形判別分析、ベイズの定理、隠れマルコフモデル、ガウスの混合モデル、およびニューラルネットワークの使用を伴ってもよい。したがって、方法８００に従って、突出フォルマント点は、候補単語を決定するためにオーディオ信号を評価するのに使われる。

一実装形態では、プロセッサ３０５は、ステップ８２０でデータベース中を選択的にサーチする。選択的サーチは、バイナリサーチ戦略、およびハッシュ（ルックアップ）テーブルを伴い得る。候補単語は、突出フォルマント点ＳＦＰと対応する音素との間の距離が設定閾値未満の単語である。設定閾値は、プログラム３３３によって定義され得る。代替実装形態では、プロセッサ３０５は、データベース全体をサーチすることができる。この事例において、候補単語は、突出フォルマント点ＳＦＰと対応する音素との間の距離が最小の単語である。

次のステップ８３０で、プロセッサ３０５は、候補単語をディスプレイユニット３１４に表示する。

図４は、方法１００による人（または「話者」）の識別および検証の方法４００を示すフロー図である。方法４００は、話者の声を認証キーとして用いるセキュリティドアなどのセキュリティアクセスシステムに関する例として記載される。ただし、方法４００は、会議発信者識別、監視およびセキュリティアプリケーションなど、他の様々なアプリケーションにおいて用いられ得る。方法４００は、ハードディスクドライブ３１０上にあり、実行の際はプロセッサ３０５によって制御されるソフトウェアとして実装されてもよい。

方法４００は、ステップ４１０で始まり、プロセッサ３０５は、上述したように、方法１００に従って、話者（すなわち、人）からのオーディオ信号のディジタル化表現を用いて複数の第２の出力関数を決定する。複数の第２の出力関数は、メモリ３０６に格納される。プロセッサ３０５は、複数の第２の出力関数から突出フォルマント点ＳＦＰを選択する。

方法４００は、ステップ４２０に進み、プロセッサ３０５は、突出フォルマント点ＳＦＰを、複数の認証済みの人に対する複数の既知の特徴ベクトルを含む話者データベースと比較する。いくつかの既知の特徴ベクトルが、認証済みの各人に割り当てられ得る。認証済みの各人は、セキュリティドアへのアクセスを有すると認証され得る。話者データベースは、ハードディスクドライブ３１０またはディスク記憶媒体３２５のどちらに格納してもよい。あるいは、話者データベースは、ローカルネットワーク３２２またはワイドネットワーク３２０を通してリモートにアクセスされ得る。プログラム３３３が実行中のとき、話者データベース、または話者データベースの少なくとも一部分は通常、メモリ３０６および／または記憶装置３０９のどちらかに格納される。

突出フォルマント点と複数の既知の特徴ベクトルとの間での比較に基づいて、プロセッサ３０５は、１）話者が話者データベースに存在するかどうか、および１）が真の場合は、２）話者データベース中の認証済みの人のうち１人に対応する話者の識別を判定する。

ステップ４２０で認証された候補への突出フォルマント点を識別するために、プロセッサ３０５は、突出フォルマント点と認証済みの人に対応する既知の特徴ベクトルとの間の距離を判定する。プロセッサ３０５は、ステップ４２０で距離を判定するのに、適切などの統計的パターン認識方法を用いてもよい。通常、統計的パターン認識方法は、クラスタリング、線形判別分析、非線形判別分析、ベイズの定理、隠れマルコフモデル、ガウスの混合物モデリング、ニューラルネットワークの使用を伴ってもよい。したがって、方法４００により、突出フォルマント点は、話者がセキュリティドアへのアクセスを有するかどうか、および有する場合は、認証済みの人の識別を判定するために、話者のオーディオ信号を評価するのに使われる。ただし、話者が話者データベースに含まれない場合、（話者がアクセスを有すると認証されないので）認証済みの人は、入ることを許されない。

一実装形態では、プロセッサ３０５は、ステップ４２０で話者データベース中を選択的にサーチする。選択的サーチは、バイナリサーチ戦略、およびハッシュ（ルックアップ）テーブルを伴ってもよい。代替実装形態では、プロセッサ３０５は、データベース全体をサーチしてもよい。

方法４００は、検査ステップ４３０に進み、プロセッサ３０５は、ステップ４２０によって認証済みの人が見つかったかどうか判定する。検査ステップ４３０の結果が真の場合、方法４００は、「ＹＥＳ」矢印に従って、ステップ４４０に進み、このステップは、識別成功を話者に知らせ、セキュリティドアを開く。通常、これは、セキュリティドアの掛け金またはデッドボルトに取り付けられたアクチュエータをコンピュータシステム３００が制御することを伴う。検査ステップ４４０の結果が偽である（ステップ４２０によって戻された認証済み候補が空である）場合、方法４００はステップ４４５に進み、このステップは、識別失敗を話者に知らせる。

方法１００に従って決定される突出フォルマント点ＳＦＰを使って高忠実度オーディオ合成システムを評価する方法９００も実施され得る。方法９００は、ハードディスクドライブ３１０上にあり、実行の際はプロセッサ３０５によって制御されるソフトウェアとして実装され得る。

方法９００は、通常、オーディオ信号の第１および第２のディジタル化表現を必要とする。第１のディジタル化表現は所望のオーディオ信号であり、第２のディジタル化表現は、合成された所望のオーディオ信号である。所望のオーディオ信号は、音楽または他の複合オーディオ信号でよい。

方法９００は、ステップ９１０で始まり、プロセッサ３０５は、上述したように、方法１００に従って、第１のディジタル化表現を使って第２の出力関数の第１の集合を決定する。第２の出力関数の第１の集合は、メモリ３０６に格納される。第２の出力関数の第１の集合の突出フォルマント点は、ＳＦＰ_{ＯＲＩＧＩＮＡＬ}と呼ばれる。

次のステップ９１５で、プロセッサ３０５は、方法１００に従って、上述したように、第２のディジタル化表現を使って第２の出力関数の第２の集合を決定する。第２の出力関数の第２の集合は、メモリ３０６に格納される。第２の出力関数の第２の集合の突出フォルマント点は、ＳＦＰ_{ＳＹＮＴＨＥＳＩＳＥＤ}と呼ばれる。

次のステップ９２０で、プロセッサ３０５は、以下の式（４）に示す差分関数Ｆによって、２つの第２の出力関数から、突出フォルマント点ＳＦＰ_{ＯＲＩＧＩＮＡＬ}とＳＦＰ_{ＳＹＮＴＨＥＳＩＳＥＤ}との間の距離Ｄを判定する。関数Ｆは、単純な減算、絶対値の減算、減算後の絶対値、対数領域における減算、非線形変換後の減算（たとえば、整数または非整数累乗をとる）、除算、統計的検出、および他の適切な方法を含む様々な計算方法を表し得る。
Ｄ＝Ｆ（ＳＦＰ_{ＯＲＩＧＩＮＡＬ}，ＳＦＰ_{ＳＹＮＴＨＥＳＩＳＥＤ}）（４）

後続ステップ９３０で、プロセッサ３０５は、品質の主観的知覚を予測する。品質の主観的知覚は、距離Ｄの様々な統計的分析によって決定され得る。統計的分析は、距離Ｄの標準偏差、距離Ｄの発展速度（すなわちδＤ／δｔ）、隠れマルコフモデル、混合モデル、ニューラルネットワークおよび多項式回帰からなってもよい。

上述したオーディオ信号を評価する方法は、代替的には、オーディオ信号を特徴づける機能または副次機能を実施する１つまたは複数の集積回路などの専用ハードウェアで実装されてもよい。このような専用ハードウェアは、グラフィックプロセッサ、ディジタル信号プロセッサ、または１つもしくは複数のマイクロプロセッサおよび関連メモリを含んでもよい。

上記内容から、記載した構成は、コンピュータおよびデータ処理産業に適用可能であることが明らかである。

以上、本発明の一部の実施形態のみを記載したが、本発明の範囲および精神から逸脱することなく、修正および／または変更を行ってよく、こうした実施形態は例示的であって、制約的ではない。

本明細書のコンテキストにおいて、「ｃｏｍｐｒｉｓｉｎｇ（備える）」という単語は、「主として含むが、必ずしもそれだけを含むものではない」または「有する」もしくは「含む」ことを意味し、「のみからなる」ことを意味するのではない。「ｃｏｍｐｒｉｓｉｎｇ」の単語の変化形、たとえば「ｃｏｍｐｒｉｓｅ」および「ｃｏｍｐｒｉｓｅｓ」も、それに応じて変化した意味を有する。

Claims

（ａ）オーディオ信号のディジタル表現を受信するステップと、
（ｂ）前記ディジタル表現への生理学モデルの応答に基づいて第１の出力関数を生成するステップと、
（ｃ）前記第１の出力関数の少なくとも１つのプロパティを決定するステップと、
（ｄ）前記第１の出力関数の決定された前記プロパティに基づいて、前記オーディオ信号の分析に使用する１つまたは複数の値を決定するステップと、
を含むオーディオ信号分析方法。
前記決定は、前記第１の出力関数によりステップ（ｄ）で行われる請求項１に記載の方法。
前記生理学モデルは、１、２または３次元の流体力学的蝸牛モデルであり、前記次元は空間次元を指す請求項１に記載の方法。
前記第１の出力関数は、基底膜応答を含む請求項３に記載の方法。
前記第１の出力関数は、内有毛細胞応答を含む請求項３に記載の方法。
前記第１の出力関数は、第１の次元および第２の次元を含む次元行列とされ、前記第１の次元が時間軸に対応し、前記第２の次元が空間軸に対応する請求項４または５に記載の方法。
前記ステップ（ｃ）が、
（ｃａ）前記第１の出力関数の時間変化を選択するステップと、
（ｃｂ）前記第１の出力関数の前記選択された時間変化から、複数のピークを識別するステップと、
（ｃｃ）前記複数のピークのうち、前記ピークの１つが近傍に属するかどうかを判定するステップと、
（ｃｄ）前記ステップ（ｃｃ）の結果を用いて、トラック関数を生成するステップと、
を含む請求項１から６のいずれか一項に記載の方法。
前記ステップ（ｄ）が、
（ｄａ）空間範囲を選択するステップと、
（ｄｂ）前記空間範囲内の前記第１の出力関数を組み合わせることによって、複数の第２の出力関数に属するトラック中心点を決定するステップと、
（ｄｃ）前記空間範囲内の前記トラック中心点に対するトラックの数を分析するステップと、
（ｄｄ）前記空間範囲内の前記トラック数および前記空間範囲内のフォルマントの場所を組み合わせることによって、前記複数の第２の出力関数に属する突出フォルマント点を決定するステップと、
を含む請求項１から７のいずれか一項に記載の方法。
前記オーディオ信号から抽出された前記決定された値に基づいて、音声品質の客観的尺度を決定するステップを含む請求項１に記載の方法。
前記オーディオ信号から抽出された前記決定された値に基づいて、単語を突き合わせるステップを含む請求項１に記載の方法。
前記オーディオ信号から抽出された前記決定された値に基づいて、話者を識別するステップを含む請求項１に記載の方法。
オーディオ信号のディジタル表現を受信する手段と、
前記ディジタル表現への生理学モデルの応答に基づいて第１の出力関数を生成する手段と、
前記第１の出力関数の少なくとも１つのプロパティを決定する手段と、
前記第１の出力関数の前記決定プロパティに基づいて、前記オーディオ信号の分析において使用するために１つまたは複数の値を決定する手段と、
を備えたオーディオ信号分析機器。
データおよびコンピュータプログラムを含むメモリと、
前記コンピュータプログラムを実行する前記メモリに結合されたプロセッサとを備え、前記コンピュータプログラムが、
（ａ）オーディオ信号のディジタル表現を受信する命令と、
（ｂ）前記ディジタル表現への生理学モデルの応答に基づいて第１の出力関数を生成する命令と、
（ｃ）前記第１の出力関数の少なくとも１つのプロパティを決定する命令と、
（ｄ）前記第１の出力関数の前記決定プロパティに基づいて、前記オーディオ信号の分析において使用するために１つまたは複数の値を決定する命令と、
を含むオーディオ信号分析システム。