JP2012503212A - オーディオ信号分析方法 - Google Patents

オーディオ信号分析方法 Download PDF

Info

Publication number
JP2012503212A
JP2012503212A JP2011527151A JP2011527151A JP2012503212A JP 2012503212 A JP2012503212 A JP 2012503212A JP 2011527151 A JP2011527151 A JP 2011527151A JP 2011527151 A JP2011527151 A JP 2011527151A JP 2012503212 A JP2012503212 A JP 2012503212A
Authority
JP
Japan
Prior art keywords
output function
audio signal
determining
output
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011527151A
Other languages
English (en)
Inventor
ル ウェンリャン
セン ディパンジャン
Original Assignee
ニューサウス イノベーションズ ピーティーワイ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AU2008904883A external-priority patent/AU2008904883A0/en
Application filed by ニューサウス イノベーションズ ピーティーワイ リミテッド filed Critical ニューサウス イノベーションズ ピーティーワイ リミテッド
Publication of JP2012503212A publication Critical patent/JP2012503212A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

オーディオ信号を分析する方法を開示する。オーディオ信号のディジタル表現が受信され、ディジタル表現への生理学モデルの応答に基づいて、第1の出力関数が生成される。第1の出力関数の少なくとも1つのプロパティが決定され得る。1つまたは複数の値が、オーディオ信号の分析において使用するために、第1の出力関数の決定プロパティに基づいて決定される。

Description

本発明は、概して、オーディオに関し、具体的には、オーディオ信号を分析する方法および機器に関する。さらに、本発明は、オーディオ信号を分析するコンピュータプログラムを記録したコンピュータ可読媒体を含むコンピュータプログラム製品に関する。
電気通信網ならびに聴覚補綴システムにおける多数の音声符号化および合成システムの展開により、音声信号、より一般的にはオーディオ信号の品質を正確に評価し監視する重要性が増している。
公知の方法としては、主観的試験に基づいて音声品質を評価するものがある。平均オピニオン評点(MOS)試験のような絶対範疇尺度法(ACR)システムは、1次元の品質測定を行う。診断容認性尺度(Diagnostic Acceptability Measure:DAM)は、主観的試験を必要とする別の音声品質評価方法である。診断容認性尺度は、「中断(interrupted)」や「金属的(tinny)」などの軸に基づく多次元の品質測定を可能にする。
主観的測定方法に代わるものとしては、客観的音声品質測定方法がある。このような客観的音声品質測定方法の1つは、音声品質知覚評価(PESQ)アルゴリズムとして知られている。音声品質知覚評価アルゴリズムは、国際電気通信連合(ITU)によって標準化されている。ただし、音声品質知覚評価アルゴリズムは、低ビットレート・ボコーダ(すなわち、4kbps未満)ならびにバブルや軍用車両ノイズなどの環境条件によって劣化された音声を含む多くの合成システムには適さない。さらに、音声品質知覚評価アルゴリズムは、低域通過フィルタリングされた音声ならびに狭帯域ノイズによって劣化された音声の品質を予測することができない。
音声品質知覚評価アルゴリズムでは、平均オピニオン評定を予測するために音響心理学的マスキングモデル(PMM)を用いる。心理音響学的マスキングモデルは、人間の蝸牛の高度に非線形な流体力学であるものの線形成分をモデリングする試みである。本質的に、音響心理学的マスキングモデルは、基底膜(BM)応答の線形成分を非常に大まかに推定したものである。したがって、音響心理学的マスキングモデルは、蝸牛およびそれに対応する心理物理学の実際の生理学的応答のいくつかの線形および非線形特性を予測することはできない。
本発明の目的は、既存の構成の1つまたは複数の欠点をほぼ克服あるいは少なくとも改善することである。
本開示の第1の態様によれば、(a)オーディオ信号のディジタル表現を受信するステップと、(b)前記ディジタル表現への生理学モデルの応答に基づいて第1の出力関数を生成するステップと、(c)前記第1の出力関数の少なくとも1つのプロパティを決定するステップと、(d)前記第1の出力関数の決定された前記プロパティに基づいて、前記オーディオ信号の分析に使用する1つまたは複数の値を決定するステップと、を含むオーディオ信号分析方法が提供される。
本開示の別の態様によれば、オーディオ信号のディジタル表現を受信する手段と、前記ディジタル表現への生理学モデルの応答に基づいて第1の出力関数を生成する手段と、前記第1の出力関数の少なくとも1つのプロパティを決定する手段と、前記第1の出力関数の決定された前記プロパティに基づいて、前記オーディオ信号の分析に使用する1つまたは複数の値を決定する手段と、を備えたオーディオ信号分析機器が提供される。
本開示の別の態様によれば、データおよびコンピュータプログラムを含むメモリと、前記コンピュータプログラムを実行する前記メモリに結合されたプロセッサとを備え、前記コンピュータプログラムは、(a)オーディオ信号のディジタル表現を受信する命令と、(b)前記ディジタル表現への生理学モデルの応答に基づいて第1の出力関数を生成する命令と、(c)前記第1の出力関数の少なくとも1つのプロパティを決定する命令と、(d)前記第1の出力関数の決定された前記プロパティに基づいて、前記オーディオ信号の分析に使用する1つまたは複数の値を決定する命令と、を含むオーディオ信号分析システムが提供される。
本開示の別の態様によれば、上述した方法のいずれか1つを実装するコンピュータプログラムを記録したコンピュータ可読媒体を含むコンピュータプログラム製品が提供される。
本発明の他の態様も開示される。
次に、本発明の1つまたは複数の実施形態を、図面を参照して記載する。
オーディオ信号を分析する方法を示す図である。 音源が人間の発話の有声セクションであるときの出力関数を例示的に可視化したものを示す図である。 音源が人間の発話の無声セクションであるときの出力関数を例示的に可視化したものを示す図である。 図2Aにおける例示的に可視化したものを示す別の図である。 図2Aにおける例示的に可視化したものを例示的に断面可視化したものを示す図である。 記載する構成が実施され得る汎用コンピュータシステムを示す概略ブロック図である。 図1の方法に従って決定される突出フォルマント点を用いる話者識別および検証の方法を示すフロー図である。 図2Aの出力関数においてローカルピークを含む複数のトラックを識別する方法を示すフロー図である。 複数の第2の出力関数を決定する方法を示すフロー図である。 図1の方法に従って決定される突出フォルマント点を用いて音声品質の客観的尺度を決定する方法を示すフロー図である。 図1の方法に従って決定される突出フォルマント点を用いる音声認識の方法を示すフロー図である。 図1の方法に従って決定される突出フォルマント点を用いて高忠実度オーディオ合成システムを評価する方法を示すフロー図である。
添付の図面のいずれか1つまたは複数において、同じ参照番号をもつステップおよびまたは特徴に対して参照が行われる場合、こうしたステップおよびまたは特徴は、本説明の目的のために、反対の意図が示されない限りは同じ機能(1つもしくは複数)または動作(1つもしくは複数)を有する。
図1は、オーディオ信号を分析する方法100を示すフロー図である。方法100は、図3に示すように、コンピュータシステム300を使って実装されてもよい。図3に見られるように、コンピュータシステム300は、コンピュータモジュール301と、キーボード302、マウスポインタ装置303、スキャナ326、マイクロフォン380などの入力装置と、プリンタ315、表示装置314およびラウドスピーカ317を含む出力装置とによって形成される。
外部変復調(モデム)トランシーバ装置316が、コンピュータモジュール301によって、接続321を介した通信ネットワーク320との間の通信用に使われてもよい。ネットワーク320は、インターネットや専用WANなどのワイドエリアネットワーク(WAN)でよい。接続321が電話回線の場合、モデム316は従来の「ダイアルアップ」モデムでよい。あるいは、接続321が高容量(たとえば、ケーブル)接続の場合、モデム316はブロードバンドモデムでよい。ワイヤレスモデムも、ネットワーク320へのワイヤレス接続のために使われてもよい。
コンピュータモジュール301は、通常、少なくとも1つのプロセッサユニット305と、たとえば半導体ランダムアクセスメモリ(RAM)および半導体読出し専用メモリ(ROM)から形成されるメモリユニット306とを含む。また、モジュール301は、ビデオディスプレイ314、ラウドスピーカ317およびマイクロフォン380に結合するオーディオ/ビデオインタフェース307を含むいくつかの入出力(I/O)インタフェースと、キーボード302、マウス303およびスキャナ326用のI/Oインタフェース313と、外部モデム316およびプリンタ315用のインタフェース308とを含む。一部の実装形態では、マイクロフォン380は、コンピュータモジュール301内部に組み込まれてもよい。また、一部の実装形態では、モデム316は、コンピュータモジュール301内部、たとえばインタフェース308内部に組み込まれてもよい。コンピュータモジュール301は、接続323を介して、コンピュータシステム300と、ローカルエリアネットワーク(LAN)として知られるローカルコンピュータネットワーク322との結合を可能にするローカルネットワークインタフェース311も有する。また、図に示すように、ローカルネットワーク322は、いわゆる「ファイアウォール」装置または同様の機能性の装置を通常は含むワイドネットワーク320にも、接続324を介して結合されてもよい。インタフェース311は、イーサネット(商標)回路カード、ブルートゥース(商標)ワイヤレス構成またはIEEE802.11ワイヤレス構成によって形成されてもよい。
インタフェース308、313は、直列および並列接続性の一方または両方を与えてもよく、前者は、通常、ユニバーサルシリアルバス(USB)標準に従って実装され、対応するUSBコネクタ(図示せず)を有する。記憶装置309が設けられ、通常は、ハードディスクドライブ(HDD)310を備えている。フロッピーディスクドライブおよび磁気テープドライブ(図示せず)など、他の記憶装置も使われ得る。光ディスクドライブ312が通常、不揮発性データソースとして作用するように設けられる。たとえば、光ディスク(たとえば、CD−ROM、DVD)、USB−RAMおよびフロッピーディスクなどの可搬型メモリ装置が、必要に応じて、システム300へのデータソースとして使われてもよい。
コンピュータモジュール301の構成要素305〜313は、通常、相互接続バス304を介して、当業者に公知であるコンピュータシステム300の従来の動作モードを生じるように通信する。記載する構成が実施され得るコンピュータの例は、IBM−PCおよび互換機、Sunのスパークステーション、AppleのMac(登録商標)またはこれらから発展した同様のコンピュータシステムを含む。
方法100は、コンピュータシステム300内部で実行可能な1つまたは複数のソフトウェアアプリケーションプログラム333として実装されてもよい。具体的には、方法100のステップは、コンピュータシステム300内部で実施されるソフトウェア中の命令によって作用される。ソフトウェアは、2つの別々の部分に分割されてもよく、第1の部分およびこれに対応するソフトウェアモジュールが、記載する方法100を実施し、第2の部分およびこれに対応するソフトウェアモジュールが、第1の部分とユーザとの間のユーザインタフェースを管理する。
ソフトウェアは、たとえば後で説明する記憶装置を含むコンピュータ可読媒体に格納されてもよい。ソフトウェアは、コンピュータ可読媒体からコンピュータシステム300にロードされ、次いで、コンピュータシステム300によって実行される。このようなソフトウェアまたはコンピュータプログラムを記録したコンピュータ可読媒体が、コンピュータプログラム製品である。このコンピュータプログラム製品をコンピュータシステム300において使用することにより、好ましくは、記載する方法を実装する有利な機器がもたらされる。
ソフトウェア333は通常、ハード・ディスクドライブ310またはメモリ306に格納される。ソフトウェアは、コンピュータ可読媒体からコンピュータシステム300にロードされ、次いで、コンピュータシステム300によって実行される。このように、たとえば、ソフトウェアは、光ディスクドライブ312によって読み取られる光学的可読CD−ROM媒体325に格納されてもよい。このようなソフトウェアまたはコンピュータプログラムを記録したコンピュータ可読媒体が、コンピュータプログラム製品である。このコンピュータプログラム製品をコンピュータシステム300において使用することにより、好ましくは、記載する方法を実装する有利な機器がもたらされる。
一部の事例では、アプリケーションプログラム333は、1つまたは複数のCD−ROM325でエンコードされてユーザに供給され、対応するドライブ312を介して読み取られてもよく、あるいは、ネットワーク320または322からユーザによって読み取られてもよい。さらに、ソフトウェアは、他のコンピュータ可読媒体からコンピュータシステム300にロードされることもできる。コンピュータ可読記憶媒体は、実行および/または処理のための、コンピュータシステム300への命令およびまたはデータの提供に関与するどの記憶媒体も指す。このような記憶媒体の例は、フロッピーディスク、磁気テープ、CD−ROM、ハード・ディスクドライブ、ROMもしくは集積回路、USBメモリ、光磁気ディスク、またはたとえばPCMCIAカードなどのコンピュータ可読カードを含み、このような装置がコンピュータモジュール301の内部にあるか、それとも外部にあるかは問われない。また、コンピュータモジュール301へのソフトウェア、アプリケーションプログラム、命令および/またはデータの提供に関与し得るコンピュータ可読伝送媒体の例は、無線または赤外線伝送チャネルおよび別のコンピュータまたはネットワーク接続装置へのネットワーク接続、ならびにeメール伝送およびウェブサイト上に記録された情報を含むインターネットまたはイントラネットなどを含む。
上述したアプリケーションプログラム333の第2の部分およびこれに対応するコードモジュールは、ディスプレイ314上に描画され、あるいは表されるべき1つまたは複数のグラフィカルユーザインタフェース(GUI)を実装するように実行されてもよい。通常は、キーボード302およびマウス303の操作により、コンピュータシステム300およびアプリケーションのユーザは、GUI(1つまたは複数)に関連づけられたアプリケーションにコマンドおよびまたは入力の制御を与えるように、機能的に適合可能にインタフェースを操作してもよい。ラウドスピーカ317およびマイクロフォン380により入力されるユーザのボイスコマンドを介して出力される音声プロンプトを使用するオーディオインタフェースなど、機能的に適合可能な他の形のユーザインタフェースも実装されてもよい。
オーディオ信号を分析する方法100は、代替的には、方法100の機能または副次機能を実施する1つまたは複数の集積回路などの専用ハードウェア内に実装されてもよい。このような専用ハードウェアは、ディジタル信号プロセッサ、または1つもしくは複数のマイクロプロセッサ、関連メモリ、周辺機器およびディスプレイを含んでもよい。このような専用ハードウェアの例は、電話、移動電話、無線トランスレシーバ、携帯情報端末(PDA)、Blackberry(商標)、ラップトップまたは同様の装置を含んでもよい。
方法100は、ステップ110で始まり、ここでプロセッサ305は、オーディオ信号のディジタル化表現にアクセスする。オーディオ信号のディジタル化表現は、メモリ306および/またはハードディスクドライブ310に格納されてもよい。あるいは、ディジタル化表現は、I/Oインタフェース308を介してプロセッサ305によって獲得されてもよい。
オーディオ信号は、プロセッサ305によって、マイクロフォン380およびオーディオ/ビデオインタフェース307を介して受信されている場合がある。通常、オーディオ信号は音響波である。マイクロフォン380で受信されるオーディオ信号は、所望の音源およびバックグラウンド音源から発した音響波を重畳したものである。所望の音源は、人間の発話でよく、バックグラウンド音源は、望ましくない人間の発話および環境ノイズを含む1つまたは複数の望ましくないノイズからなっていてもよい。
マイクロフォン380は、オーディオ信号を電気信号に変換し、オーディオ/ビデオインタフェース307は、電気信号を、コンピュータシステム300によって要求されるディジタル化表現に変換する。ディジタル化表現は、メモリ306に格納される。一部の実装形態では、ディジタル化表現は、ハードディスクドライブ310にさらに格納されてもよい。
また、ディジタル化表現は、コーダ(図示せず)を使って符号化され得る。コーダは、ハードディスクドライブ310上にあり、実行の際は、プロセッサ305によって制御されるソフトウェアとして実装されてもよい。コーダは、国際電気通信連合の標準G.729やG.723など、任意の適切な標準に合わせて構成されてもよい。コーダは、符号化ノイズにより、ディジタル化表現に付加的なノイズをもたらす場合がある。概して、符号化ノイズは、ディジタル化表現と強く相関するが、特定の環境ノイズ(「バブル」ノイズなど)も、ディジタル化表現と相関し得る。
別の実装形態では、オーディオ信号のディジタル化表現は、記憶装置309上または光学的可読CD−ROM媒体325上に既に格納されている場合がある。このような代替実装形態では、コンピュータシステム300は、ディジタル化表現をメモリ306中に転送する。
さらに別の実装形態では、オーディオ信号のディジタル化表現は、人工的に生成されたテキストまたはテキストによって生成された音声から、音声合成システムに発してもよい。
オーディオ信号のディジタル化表現は、次のステップ120で、生理学モデルのための入力関数として働く。生理学モデルは、コンピュータシステム300によって実行可能なソフトウェアアプリケーションプログラム333の1つとして実装されてもよい。ステップ120で、生理学モデルは、プロセッサ305の実行下で、入力関数を使って第1の出力関数を生成する。第1の出力関数は、オーディオ信号への生理学モデルのシミュレート応答である。第1の出力関数については後で詳しく説明する。
生理学モデルは、好ましくは、人間の蝸牛における様々な電気的および機械的応答を決定する1、2または3次元流体力学的蝸牛モデル(CM)である。こうした電気的および機械的応答は、基底膜(BM)応答、内有毛細胞(IHC)応答、基底膜速度および内有毛細胞の細胞内電圧を含む。
オーディオ信号のディジタル化表現は、好ましくは、オーディオ信号の時間t変化を含む1次元入力関数である。第1の出力関数は、好ましくは、様々な蝸牛応答の時間tおよび空間p変化を含む2次元関数である。したがって、入力関数はベクトルと見なすことができ、各要素は、オーディオ信号の振幅である。第1の出力関数は行列と見なすこともでき、行列の各要素は、基底膜応答、内有毛細胞応答、基底膜速度および内有毛細胞の細胞内電圧からなる群から選択される。
入力関数において、隣接要素は、通常、1〜250μsの差分に対応する。第1の出力関数において、時間軸に沿った隣接要素は、1〜250μsの差分に対応し、空間軸に沿った隣接要素は、0.01〜0.1マイクロメートルの距離に対応する。上記範囲は、典型的な値の範囲を与えることを意図しており、ハードウェアおよび計算量要件によってのみ制限される。
図2Aは、所望の音源が人間の発話の有声セクションであるときの第1の出力関数205を例示的に可視化したものを示す。図2Bは、所望の音源が人間の発話の無声セクションであるときの第1の出力関数295を例示的に可視化したものである。図2Cは、図2Aの第1の出力関数205の別の可視化である。図2Dは、図2Aに見られる所与の空間位置p201に対する第1の出力関数205を例示的に断面可視化したものである。
図2Aおよび2Bは、時間領域および空間領域に渡る第1の出力関数(たとえば、205、295)の発展を表わしている。図2Aにおいて、第1の出力関数205は、緩徐な、時間および位置に渡って確定的に繰り返す複数のピーク(たとえば、220、221、222)を特徴とし、こうしたピークは、明確なパターンまたは構造を形成している。これは、図2Bに示す出力関数例295のような確定的なパターンが欠如しているものとは対照的である。さらに、人間の発話の有声セクションに対する第1の出力関数205の振幅は、人間の発話の無声セクションに対する第1の出力関数295の振幅よりはるかに大きい。
図2Cは、第1の出力関数205の別の可視化である。図2Cは、第1の出力関数205を2次元で示している。図2Aの複数のピーク(たとえば、220、221、222)は、図2Cの暗い領域に対応する。図2Cの暗い領域(たとえば、220、221、222)は、第1の出力関数205に対する高振幅のエリアに対応する。図2Cにおいて、複数のピークの発展は、第1の出力関数205における各ピーク(たとえば、220)が空間−時間次元に沿ってたどる一連の連続する線または「トラック」(たとえば、210、211、212)で示される。一連のトラック(たとえば、210、211、212)は、出力関数205が発展するのに伴って、時間領域および空間領域に渡る複数のピーク(たとえば、220、221、222)の進行を示している。
図2A及び2Cに示される人間の発話の有声セクションは、途切れずに長く続くトラック(たとえば、210、211、212)で示される。これは、空間および時間に渡る第1の出力関数205の緩徐で一定した発展を示している。所望の音源が人間の発話の有声セクションであるときの第1の出力関数205の別の特性は、図2Cの暗いエリア(たとえば、220、221、222)で示される1つまたは複数の高振幅領域である。複数のピーク(たとえば、220、221、222)は、複数の「フォルマント」としても知られ、各フォルマントは、人間の声道が共振する周波数に対応する。複数のピーク(たとえば、220、221、222)の付近では、一連のトラック(たとえば、210、211、212)は途切れず、空間および時間においてほぼ周期的である。このような特性は通常、人間の発話の無声セクションに対する第1の出力関数295には存在しない。
図2Dは、時間関数としての、所与の固定された空間位置p201における第1の出力関数205を例示的に断面可視化したものである。入力関数が人間の発話であるとき、流体力学的蝸牛モデルの応答CMp0(t)261は、擬似周期的波形である。応答261は、周期T262を有する第1の周期性モードおよび周期T264をもつ第2の周期性モードからなる。第1の周期性モードは、応答261の特性周波数f=1/Tに対応する。第2の周期性モードは、応答261の平滑低域通過エンベロープep0(t)266に対応し、ここでep0(t)=E{CMp0(t)}であり、Eは、エンベロープオペレータを表す。第2の周期性モードT264は、人間の発話のピッチに起因し、緩徐な空間発展の場合を除いて、位置pによるものではない。
因果律に起因して、所望の音源が人間の発話であるとき、隣接する空間位置、すなわちp0+1で、エンベロープ266は、ゆっくりではあるが発展している。このような発展の速度は、発声量の関数であり、強く発声されたセクションの場合、この発展は遅くなる。対照的に、図2Bに見られるように、所望の音源が人間の発話の無声セクションであるとき、発展速度は高速になる。
同様に、エンベロープ266の発展速度は、2つの時間位置tおよびt0+1で観察することができ、ここで、空間応答CMt0(p)は、第1の時間位置tでの空間変化pの関数である。第1の出力関数205の発展はこのように、エンベロープ266が空間および時間次元両方で発展しているので、空間的に、および時間的に追跡される。図2A、図2Cは、出力関数205の発展を示す。
方法100は、次のステップ130に進み、ここでプロセッサ305は、図2A〜2Dの例とまさに同じように、第1の出力関数(205、295)の空間pおよび時間t変化両方を用いて、第1の出力関数(205、295)の少なくとも1つのプロパティを識別する。具体的には、第1の出力関数(たとえば、205)における複数のピーク(たとえば、220A、220B、220C)の位置が、トラック関数Tに格納される。ステップ130で実行される、第1の出力関数における複数のピーク(たとえば、220A、220B、220C)を識別する方法500については、図5を参照して後で詳しく説明する。
次いで、方法100の次のステップ140で、プロセッサ305は、トラック関数Tおよび第1の出力関数を使用して、トラック中心点(TCP)および突出フォルマント点(SFP)と呼ばれる複数の第2の出力関数を生成する。記載したように、第1の出力関数は、1次元入力関数への生理学モデル応答であり、入力関数は、オーディオ信号のディジタル化表現である。ステップ140で実行される複数の第2の出力関数を決定する方法600については、図6を参照して後で詳しく説明する。これ以降で記載するように、複数の第2の出力関数は、第1の出力関数205の決定されたプロパティ(たとえば、ピーク220A、220B、220Cの位置)に基づいて、オーディオ信号(すなわち、入力関数)を分析する際に使われる。
ステップ130で実行される第1の出力関数における複数のピーク(たとえば、220A、220B、220C)を識別する方法500については、図5を参照して以下で詳しく説明する。方法500は、第1の出力関数205に関する例として記載される。方法500は、ディスクドライブ310上にあり、実行の際はプロセッサ305によって制御されるソフトウェアとして実装されてもよい。
方法500は、ステップ520で始まり、ここで、プロセッサ305は、第1の出力関数の時間t変化(すなわち、固定された空間位置x)を用いて、複数のピーク、すなわちP(tk,x)、k=1:Mを識別し、ここでMは、固定された空間位置xでのピークの最大数を表し、tは、ピーク(たとえば、220A、220B、220C)が起こる時間位置を表す。
次のステップ530で、プロセッサ305は、選択されたピークP(tk,x)の1つ(たとえば、220A)が、隣接するピークPx−1(tk,x−1)と同じ近傍にあるかどうかを隣の空間位置、すなわちx−1(図示せず)から判定する。プロセッサ305は、選択されたピークP(tk,x)を、別個の近傍にある隣接するピークPx−1(tk,x−1)と比較することによって、ステップ530を実行する(すなわち、tk,x−1−tbackward≦tk,x≦tk,x−1+tforward)。選択されたピークP(tk,x)(たとえば、220A)が、別個の近傍にあることが分かった場合、選択されたピークP(tk,x)(たとえば、220A)は、隣の空間位置tk,x−1にある隣接するピークと同じトラック(たとえば、210)の一部であると見なされる。複数のピークが別個の近傍において見つかった場合、点tk,x−1に最も近いピークが選択される。別個の近傍においてピークが見つからない場合、トラック210は位置x−1で終了され、トラック210に沿ったそれ以上のサーチは、今後は実施されない。
因果律により、トラック(たとえば、210)は常に、時間および位置が増す方向に動く。この理由のため、tbackwordは小さく、またはゼロにさえ設定され得る。以前の場所に関連づけられていない新規ピークは破棄されるのではなく、たとえば、今後のトラッキングのために、トラックが終了するまでメモリ306に格納されることを保証することによって、より高い場所(すなわち、隣の空間位置x−1ではなく)で発するどの新規トラックも引き起こされ得る。
ステップ530の結果が真の場合、方法500は、「YES」矢印に従って、ステップ540に進む。ステップ540で、プロセッサ305は、選択されたピークP(tk,x)(たとえば、220A)が、隣接するピークPx−1(tk,x−1)と同じトラック(たとえば、210)に属すと判定し、結果は、メモリ306中に配置されたトラック関数Tに格納される。
ステップ530の結果が偽の場合、方法500は、「NO」矢印に従って、ステップ545に進み、このステップは、新規トラックを開始し、結果は、メモリ306中に配置されたトラック関数Tに格納される。
方法500は、次のステップ550に進み、ここでプロセッサ305は、ステップ530が、所与の空間位置xでピークすべてに対して実施されているかどうか判定する。ステップ550の結果が真の場合、方法500は、「YES」矢印に従って、ステップ560に進む。ステップ550の結果が偽の場合、方法500は、「NO」矢印に従って、ステップ530に進む。ステップ560で、プロセッサ305は、ステップ520が空間位置xすべてに対して実施されているかどうか判定する。
検査ステップ560の結果が真の場合、方法500は、「YES」矢印に従って進み、方法500は終わる。ステップ560の結果が偽の場合、方法500は、「NO」矢印に従って進んで、ステップ520に戻る。方法500の完了に続いて、トラック関数Tはメモリ306に格納される。
所望の音源が人間の発話である実装形態において、ステップ140で生成された複数の第2の出力関数は、トラック中心点TCP、および突出フォルマント点SFPを含む。
記載したように、複数のフォルマントは、図2Cの出力関数205を可視化したものにおいても見られる複数のピーク(たとえば、220、221、222)として、図2Aの第1の出力関数205において現れる。第1の出力関数205、295(すなわち、蝸牛モデル応答)の観点から、複数のフォルマントは、特性周波数をもつ蝸牛の長さに沿った各位置の間の関連づけを反映して、時間エンティティではなく、空間(すなわち、周波数)エンティティとして区別される。
図2Cの例示的に可視化したものにおいて、複数のピーク(たとえば、220、221、222)は、複数の知覚的関連領域(PRR)(たとえば、230、231、232)内で容易に区別可能である。各知覚関連領域は、第1の出力関数205において高エネルギーの領域として現れる。各知覚関連領域を決定するステップ620については、図6を参照して後で詳しく説明する。
図2Aおよび2Cでは、3つの突出領域(230、231、232)が、空間的に明確に識別され得る。こうした3つの突出領域(230、231、232)は、基底膜の基部から約23.11mm、24.20mmおよび25.57mmを中心とする空間領域として現れる。突出領域の空間位置は、時間とともに最小限に変わり得る。上記空間位置は、約4461Hz、3707Hzおよび2911Hzに対応する。空間位置におけるこの最小変化は、ピーク(たとえば、220)の数が、発声された音声が持続する間だけ変わらないままであるという事実、ならびに、特に図2Cに見られる突出領域(230、231、232)に対応する領域では、複数のトラック(たとえば、210、211、212)が互いにほぼ平行であるという事実によって、第1の出力関数205において観察されることができる。突出領域(たとえば、230、231、232)での第1の出力関数205の別の特性は、第1の出力関数205の高振幅である。
ステップ140で実行される第2の出力関数を決定する方法600について、図6を参照して以下で詳しく説明する。方法600は、ハードディスクドライブ310内にあり、実行の際はプロセッサ305によって制御されるソフトウェアとして実装されてもよい。
方法600は、ステップ620で始まり、ここで、プロセッサ305は、知覚的関連領域(PRR)(たとえば、230、231、232)を決定する。知覚的関連領域(たとえば、230)は、突出情報(たとえば、220)が存在すると思われる低い場所p(たとえば、233)から高い場所p(たとえば、234)までの空間範囲を定義する。したがって、空間範囲[p、p]は、ステップ620で決定される。通常、知覚的関連領域(たとえば、230、231、232)は、メモリ306に変数として格納される。
低い場所p(たとえば、233)および高い場所p(たとえば、234)は、2つの制約で決定される。第1の制約は、空間範囲[p,p]内の第1の出力関数205のエネルギーが、信号依存閾値を上回ることを保証する。これは、フォルマント領域(たとえば、230、231、232)内の第1の出力関数205の振幅が、他の領域よりはるかに高いという事実を反映している。第2の制約は、隣接し合うトラックに対する時間距離が、空間範囲[p,p]内でほぼ等しくなることを保証する。
方法600は、次のステップ630に進み、プロセッサ305は、知覚的関連領域(たとえば、230)内の各第kトラックに対するトラック中心点を決定する。この空間範囲内の第1の出力関数205は、CMpl(t)およびCMph(t)を境界とし、ここで[t,t]は、第1の出力関数205の空間範囲[p,p]に対応する。トラック中心点TCPは、空間範囲に渡る第1の出力関数205の重心により与えられる。知覚的関連領域内のすべての第kトラックおよび第iフォルマントに対するトラック中心点TCPは、3つの値、すなわちトラック中心点応答TCP(ψ,τ)、時間変数τおよび空間位置ψによって特徴づけられ、こうした値は、以下の式(1)に従って算出される。
Figure 2012503212
ここで、知覚的関連領域(たとえば、230)でのトラック(たとえば、211)の一特性は、トラックが時間−空間平面において擬似平行であるということである。二次周期性モードT234に渡る隣接するトラック(たとえば、210、212)も、強度に関しては隣接するトラックとほぼ同様である。
トラックの1つ(たとえば、210)の最も突出した成分を保ちながら次元数の削減をさらに試みると、単一の二次周期性モードT234にあるすべてのトラックが、一周期においてトラック中心点の重心によって与えられる一地点まで削減され得る。
次のステップ635で、プロセッサ305は、時間インデックスjでの第iのフォルマントに対するトラックの数N(j)を決定する。ピッチ周期は、入力関数(オーディオ信号のディジタル表現)または第1の出力関数205のどちらから決定されてもよい。
次いで、ステップ640で、プロセッサ305は、突出フォルマント点を決定する。一ピッチ周期におけるトラック中心点TCPは、一ピッチ周期におけるトラック中心点すべての重心をとることによって、一地点に削減され得る。この組合せの結果は、突出フォルマント点SFPと呼ばれる。プロセッサ305は、以下の式(2)に従って、突出フォルマント点SFP値を決定する。
Figure 2012503212
ここで、突出フォルマント点SFPは、修正時間変数τ’および修正空間位置ψ’によってインデックスされる。
トラック中心点TCPおよび突出フォルマント点SFPを含む複数の第2の出力関数は、メモリ306および/またはハードディスクドライブ310に格納される。
方法100は、異なる様々な音声ベースのアプリケーションにおいて有用であり得る。突出フォルマント点およびトラック中心点などの第2の出力関数は、音声認識、話者認識および話者検証などのアプリケーションにおいて使うのに役立つ。こうしたアプリケーションそれぞれにおいて、突出フォルマント点およびトラック中心点は、所望の認識および検証を遂行するための統計的パターン認識の基礎をなす既存の1組の特徴(メル周波数ケプストラム係数、すなわちMFCCなど)を補足する。以下の段落では、突出フォルマント点およびトラック中心点を使い得るアプリケーションの一部を概説する。
図7は、方法100に従って決定される突出フォルマント点SFPを使って音声品質の客観的尺度を決定する方法700を示すフロー図である。方法700は、ボイスオーバーインターネットプロトコル(VoIP)電気通信システムなどの電気通信システムのサービス品質の決定に関し、例として記載する。ただし、方法700は、通信システムの診断試験、オーディオ機器の忠実度の決定、職業環境(たとえば、工場、車両内、会議室)における歪みの特徴づけ、および娯楽環境(たとえば、コンサートホール)における歪みの特徴づけなど、他の様々なアプリケーションにも用いられてもよい。方法700は、ハードディスクドライブ310上にあり、実行の際はプロセッサ305によって制御されるソフトウェアとして実装されてもよい。
方法700は通常、オーディオ信号の第1および第2のディジタル化表現を必要とする。第1のディジタル化表現は、「リファレンス」または「オリジナル」と呼ばれ、破損していない所望のオーディオ信号である。通常、所望のオーディオ信号は人間の発話である。第2のディジタル化表現は、「破損した」または「歪んだ」ものと呼ばれ、歪みおよびノイズの付加によって破損された所望のオーディオ信号である。本例では、電気通信システムのサービス品質の決定に関し、所望のオーディオ信号は、電気通信網、送信機と受信機との間の関連機器、ならびに人間の発話を記録する間にマイクロフォン380によって記録された環境ノイズに起因して破損され得る。環境ノイズは、車ノイズおよびバブルノイズであり得る。
方法700の一実装形態では、第2のディジタル化表現が作成されてもよい。第2のディジタル化表現は、電気通信システムの送信機側で、電気通信網を通して所望のオーディオ信号を伝送し(歪みおよびノイズを加え)、電気通信システムの受信機側で、破損されている所望のオーディオ信号を収集して、オーディオ信号を生成することによって作成されてもよい。別の実装形態では、第2のディジタル化表現は、既知のオーディオ信号に歪み関数を適用することによって作成され得る。このような歪み関数は、時間領域または周波数領域内に存在し得る。例として、低レート音声コーダおよびノイズのある伝送チャネルなど、電気通信システムのディジタルシミュレーションを含む。別の実装形態は、プロセッサ305が環境ノイズのディジタル化サンプルを既知のオーディオ信号に加えることを伴う。歪み関数は、コンピュータシステム300内で実行可能なソフトウェアアプリケーションプログラム333のうち1つのプログラムの形で実装されてもよく、第2のディジタル化表現はメモリ306に格納される。
方法700は、ステップ710で始まり、ここで、プロセッサ305は、上述したように、方法100に従って、第1のディジタル化表現を使って第2の出力関数の第1の集合を決定する。第2の出力関数の第1の集合は、メモリ306に格納される。第2の出力関数の第1の集合の突出フォルマント点は、オリジナル突出フォルマント点、すなわちSFPORIGINALと呼ばれる。
次のステップ715で、プロセッサ305は、上述したように、方法100に従って、第2のディジタル化表現を使って第2の出力関数の第2の集合を決定する。第2の出力関数の第2の集合は、メモリ306に格納される。第2の出力関数の第2の集合の突出フォルマント点は、歪み突出フォルマント点、すなわちSFPDISTORTと呼ばれる。
次いで、次のステップ720で、プロセッサ305は、以下の式(3)に示す差分関数Fに従い、2つの第2の出力関数を使って、突出フォルマント点SFPORIGINALとSFPDISTORTとの間の距離Dを判定する。関数Fは、単純な減算、絶対値の減算、減算後の絶対値、対数領域における減算、非線形変換後の減算(たとえば、整数または非整数累乗をとる)、除算、統計的検出、および他の適切な方法を含む様々な計算方法を表し得る。
D=F(SFPORIGINAL,SFPDISTORT) (3)
方法700は、次のステップ730に進み、プロセッサ305は、歪みの主観的知覚を予測する。歪みの主観的知覚は、ステップ720で判定された距離Dの様々な統計的分析によって決定される。歪みの主観的知覚により、時間がほぼ局所化された1つまたは複数の歪みが予測され得る。一実装形態では、歪みの主観的知覚は、以下の表1に示すように、1つまたは複数の診断容認性尺度(DAM)パラメータの予測を伴う。SF、SD、SIおよびSBなどの診断容認性尺度パラメータは、時間が局所化されることが分かっている歪み記述子である。このようなパラメータを算出するのに、統計的分析技法が用いられ得る。たとえば、距離Dの標準偏差が、SB、SFおよびSIパラメータを算出するのに用いられ得る。あるいは、SDパラメータを算出するのに、歪みの発展速度(すなわち、δD/δt)を用いてもよい。
さらに、複雑度がより高い他の統計モデリングおよび分析技法、たとえば、隠れマルコフモデル、混合モデル、ニューラルネットワークおよび多項式回帰等を音声品質予測に用いてもよい。
Figure 2012503212
診断容認性尺度(DAM)パラメータは、メモリ306に格納されてもよい。診断容認性尺度(DAM)パラメータは、記憶装置309の1つまたは複数にさらに格納されてもよい。通常、診断容認性尺度(DAM)パラメータは、表示装置314に表示される。
図8は、方法100に従って決定される突出フォルマント点SFPを用いる音声認識の方法800を示すフロー図である。方法800は、ディジタル口述ソフトウェアアプリケーションなど、音声−テキスト変換システムに関する例として記載される。ただし、方法800は、音声ベースのユーザインタフェース(たとえば、対話型キオスク、行列システム、呼問合せ管理)など、他の様々なアプリケーションにおいて用いることができる。方法800は、ハードディスクドライブ310上にあり、実行の際はプロセッサ305によって制御されるソフトウェアとして実装されてもよい。
方法800は、ステップ810で始まり、プロセッサ305は、方法100に従って、(たとえば、口述している人からの)音声オーディオ信号のディジタル化表現を使って、上述したように複数の第2の出力関数を決定する。複数の第2の出力関数は、メモリ306に格納される。プロセッサ305は、複数の第2の出力関数から突出フォルマント点SFPを選択する。
方法800は、ステップ820に進み、プロセッサ305は、突出フォルマント点SFPをデータベースに格納された複数の既知の音素と比較する。一実装形態では、データベースは、ハードディスクドライブ310またはメモリ306内に構成される。音素の各1つは、既知の単語の少なくとも一部に関連づけられる。突出フォルマント点と音素との間の比較に基づいて、プロセッサ305は、突出フォルマント点を候補単語に突き合わせる。ステップ820で突出フォルマント点を候補単語に突き合わせるために、プロセッサ305は、突出フォルマント点と候補単語に対応する音素との間の距離を決定する。プロセッサ305は、ステップ820で距離を決定するのに適切などの統計的パターン認識方法を用いてもよい。このようなパターン認識方法は、1組の距離から抽出された統計的情報に基づいて距離(パターン)を決定する。統計的パターン認識方法は、クラスタリング、線形判別分析、非線形判別分析、ベイズの定理、隠れマルコフモデル、ガウスの混合モデル、およびニューラルネットワークの使用を伴ってもよい。したがって、方法800に従って、突出フォルマント点は、候補単語を決定するためにオーディオ信号を評価するのに使われる。
一実装形態では、プロセッサ305は、ステップ820でデータベース中を選択的にサーチする。選択的サーチは、バイナリサーチ戦略、およびハッシュ(ルックアップ)テーブルを伴い得る。候補単語は、突出フォルマント点SFPと対応する音素との間の距離が設定閾値未満の単語である。設定閾値は、プログラム333によって定義され得る。代替実装形態では、プロセッサ305は、データベース全体をサーチすることができる。この事例において、候補単語は、突出フォルマント点SFPと対応する音素との間の距離が最小の単語である。
次のステップ830で、プロセッサ305は、候補単語をディスプレイユニット314に表示する。
図4は、方法100による人(または「話者」)の識別および検証の方法400を示すフロー図である。方法400は、話者の声を認証キーとして用いるセキュリティドアなどのセキュリティアクセスシステムに関する例として記載される。ただし、方法400は、会議発信者識別、監視およびセキュリティアプリケーションなど、他の様々なアプリケーションにおいて用いられ得る。方法400は、ハードディスクドライブ310上にあり、実行の際はプロセッサ305によって制御されるソフトウェアとして実装されてもよい。
方法400は、ステップ410で始まり、プロセッサ305は、上述したように、方法100に従って、話者(すなわち、人)からのオーディオ信号のディジタル化表現を用いて複数の第2の出力関数を決定する。複数の第2の出力関数は、メモリ306に格納される。プロセッサ305は、複数の第2の出力関数から突出フォルマント点SFPを選択する。
方法400は、ステップ420に進み、プロセッサ305は、突出フォルマント点SFPを、複数の認証済みの人に対する複数の既知の特徴ベクトルを含む話者データベースと比較する。いくつかの既知の特徴ベクトルが、認証済みの各人に割り当てられ得る。認証済みの各人は、セキュリティドアへのアクセスを有すると認証され得る。話者データベースは、ハードディスクドライブ310またはディスク記憶媒体325のどちらに格納してもよい。あるいは、話者データベースは、ローカルネットワーク322またはワイドネットワーク320を通してリモートにアクセスされ得る。プログラム333が実行中のとき、話者データベース、または話者データベースの少なくとも一部分は通常、メモリ306および/または記憶装置309のどちらかに格納される。
突出フォルマント点と複数の既知の特徴ベクトルとの間での比較に基づいて、プロセッサ305は、1)話者が話者データベースに存在するかどうか、および1)が真の場合は、2)話者データベース中の認証済みの人のうち1人に対応する話者の識別を判定する。
ステップ420で認証された候補への突出フォルマント点を識別するために、プロセッサ305は、突出フォルマント点と認証済みの人に対応する既知の特徴ベクトルとの間の距離を判定する。プロセッサ305は、ステップ420で距離を判定するのに、適切などの統計的パターン認識方法を用いてもよい。通常、統計的パターン認識方法は、クラスタリング、線形判別分析、非線形判別分析、ベイズの定理、隠れマルコフモデル、ガウスの混合物モデリング、ニューラルネットワークの使用を伴ってもよい。したがって、方法400により、突出フォルマント点は、話者がセキュリティドアへのアクセスを有するかどうか、および有する場合は、認証済みの人の識別を判定するために、話者のオーディオ信号を評価するのに使われる。ただし、話者が話者データベースに含まれない場合、(話者がアクセスを有すると認証されないので)認証済みの人は、入ることを許されない。
一実装形態では、プロセッサ305は、ステップ420で話者データベース中を選択的にサーチする。選択的サーチは、バイナリサーチ戦略、およびハッシュ(ルックアップ)テーブルを伴ってもよい。代替実装形態では、プロセッサ305は、データベース全体をサーチしてもよい。
方法400は、検査ステップ430に進み、プロセッサ305は、ステップ420によって認証済みの人が見つかったかどうか判定する。検査ステップ430の結果が真の場合、方法400は、「YES」矢印に従って、ステップ440に進み、このステップは、識別成功を話者に知らせ、セキュリティドアを開く。通常、これは、セキュリティドアの掛け金またはデッドボルトに取り付けられたアクチュエータをコンピュータシステム300が制御することを伴う。検査ステップ440の結果が偽である(ステップ420によって戻された認証済み候補が空である)場合、方法400はステップ445に進み、このステップは、識別失敗を話者に知らせる。
方法100に従って決定される突出フォルマント点SFPを使って高忠実度オーディオ合成システムを評価する方法900も実施され得る。方法900は、ハードディスクドライブ310上にあり、実行の際はプロセッサ305によって制御されるソフトウェアとして実装され得る。
方法900は、通常、オーディオ信号の第1および第2のディジタル化表現を必要とする。第1のディジタル化表現は所望のオーディオ信号であり、第2のディジタル化表現は、合成された所望のオーディオ信号である。所望のオーディオ信号は、音楽または他の複合オーディオ信号でよい。
方法900は、ステップ910で始まり、プロセッサ305は、上述したように、方法100に従って、第1のディジタル化表現を使って第2の出力関数の第1の集合を決定する。第2の出力関数の第1の集合は、メモリ306に格納される。第2の出力関数の第1の集合の突出フォルマント点は、SFPORIGINALと呼ばれる。
次のステップ915で、プロセッサ305は、方法100に従って、上述したように、第2のディジタル化表現を使って第2の出力関数の第2の集合を決定する。第2の出力関数の第2の集合は、メモリ306に格納される。第2の出力関数の第2の集合の突出フォルマント点は、SFPSYNTHESISEDと呼ばれる。
次のステップ920で、プロセッサ305は、以下の式(4)に示す差分関数Fによって、2つの第2の出力関数から、突出フォルマント点SFPORIGINALとSFPSYNTHESISEDとの間の距離Dを判定する。関数Fは、単純な減算、絶対値の減算、減算後の絶対値、対数領域における減算、非線形変換後の減算(たとえば、整数または非整数累乗をとる)、除算、統計的検出、および他の適切な方法を含む様々な計算方法を表し得る。
D=F(SFPORIGINAL,SFPSYNTHESISED) (4)
後続ステップ930で、プロセッサ305は、品質の主観的知覚を予測する。品質の主観的知覚は、距離Dの様々な統計的分析によって決定され得る。統計的分析は、距離Dの標準偏差、距離Dの発展速度(すなわちδD/δt)、隠れマルコフモデル、混合モデル、ニューラルネットワークおよび多項式回帰からなってもよい。
上述したオーディオ信号を評価する方法は、代替的には、オーディオ信号を特徴づける機能または副次機能を実施する1つまたは複数の集積回路などの専用ハードウェアで実装されてもよい。このような専用ハードウェアは、グラフィックプロセッサ、ディジタル信号プロセッサ、または1つもしくは複数のマイクロプロセッサおよび関連メモリを含んでもよい。
上記内容から、記載した構成は、コンピュータおよびデータ処理産業に適用可能であることが明らかである。
以上、本発明の一部の実施形態のみを記載したが、本発明の範囲および精神から逸脱することなく、修正および/または変更を行ってよく、こうした実施形態は例示的であって、制約的ではない。
本明細書のコンテキストにおいて、「comprising(備える)」という単語は、「主として含むが、必ずしもそれだけを含むものではない」または「有する」もしくは「含む」ことを意味し、「のみからなる」ことを意味するのではない。「comprising」の単語の変化形、たとえば「comprise」および「comprises」も、それに応じて変化した意味を有する。

Claims (13)

  1. (a)オーディオ信号のディジタル表現を受信するステップと、
    (b)前記ディジタル表現への生理学モデルの応答に基づいて第1の出力関数を生成するステップと、
    (c)前記第1の出力関数の少なくとも1つのプロパティを決定するステップと、
    (d)前記第1の出力関数の決定された前記プロパティに基づいて、前記オーディオ信号の分析に使用する1つまたは複数の値を決定するステップと、
    を含むオーディオ信号分析方法。
  2. 前記決定は、前記第1の出力関数によりステップ(d)で行われる請求項1に記載の方法。
  3. 前記生理学モデルは、1、2または3次元の流体力学的蝸牛モデルであり、前記次元は空間次元を指す請求項1に記載の方法。
  4. 前記第1の出力関数は、基底膜応答を含む請求項3に記載の方法。
  5. 前記第1の出力関数は、内有毛細胞応答を含む請求項3に記載の方法。
  6. 前記第1の出力関数は、第1の次元および第2の次元を含む次元行列とされ、前記第1の次元が時間軸に対応し、前記第2の次元が空間軸に対応する請求項4または5に記載の方法。
  7. 前記ステップ(c)が、
    (ca)前記第1の出力関数の時間変化を選択するステップと、
    (cb)前記第1の出力関数の前記選択された時間変化から、複数のピークを識別するステップと、
    (cc)前記複数のピークのうち、前記ピークの1つが近傍に属するかどうかを判定するステップと、
    (cd)前記ステップ(cc)の結果を用いて、トラック関数を生成するステップと、
    を含む請求項1から6のいずれか一項に記載の方法。
  8. 前記ステップ(d)が、
    (da)空間範囲を選択するステップと、
    (db)前記空間範囲内の前記第1の出力関数を組み合わせることによって、複数の第2の出力関数に属するトラック中心点を決定するステップと、
    (dc)前記空間範囲内の前記トラック中心点に対するトラックの数を分析するステップと、
    (dd)前記空間範囲内の前記トラック数および前記空間範囲内のフォルマントの場所を組み合わせることによって、前記複数の第2の出力関数に属する突出フォルマント点を決定するステップと、
    を含む請求項1から7のいずれか一項に記載の方法。
  9. 前記オーディオ信号から抽出された前記決定された値に基づいて、音声品質の客観的尺度を決定するステップを含む請求項1に記載の方法。
  10. 前記オーディオ信号から抽出された前記決定された値に基づいて、単語を突き合わせるステップを含む請求項1に記載の方法。
  11. 前記オーディオ信号から抽出された前記決定された値に基づいて、話者を識別するステップを含む請求項1に記載の方法。
  12. オーディオ信号のディジタル表現を受信する手段と、
    前記ディジタル表現への生理学モデルの応答に基づいて第1の出力関数を生成する手段と、
    前記第1の出力関数の少なくとも1つのプロパティを決定する手段と、
    前記第1の出力関数の前記決定プロパティに基づいて、前記オーディオ信号の分析において使用するために1つまたは複数の値を決定する手段と、
    を備えたオーディオ信号分析機器。
  13. データおよびコンピュータプログラムを含むメモリと、
    前記コンピュータプログラムを実行する前記メモリに結合されたプロセッサとを備え、前記コンピュータプログラムが、
    (a)オーディオ信号のディジタル表現を受信する命令と、
    (b)前記ディジタル表現への生理学モデルの応答に基づいて第1の出力関数を生成する命令と、
    (c)前記第1の出力関数の少なくとも1つのプロパティを決定する命令と、
    (d)前記第1の出力関数の前記決定プロパティに基づいて、前記オーディオ信号の分析において使用するために1つまたは複数の値を決定する命令と、
    を含むオーディオ信号分析システム。
JP2011527151A 2008-09-19 2009-09-11 オーディオ信号分析方法 Pending JP2012503212A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AU2008904883 2008-09-19
AU2008904883A AU2008904883A0 (en) 2008-09-19 Method of Analysing an Audio Signal
PCT/AU2009/001203 WO2010031109A1 (en) 2008-09-19 2009-09-11 Method of analysing an audio signal

Publications (1)

Publication Number Publication Date
JP2012503212A true JP2012503212A (ja) 2012-02-02

Family

ID=42038999

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011527151A Pending JP2012503212A (ja) 2008-09-19 2009-09-11 オーディオ信号分析方法

Country Status (5)

Country Link
US (1) US8990081B2 (ja)
EP (1) EP2329399A4 (ja)
JP (1) JP2012503212A (ja)
AU (1) AU2009295251B2 (ja)
WO (1) WO2010031109A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US8442823B2 (en) * 2010-10-19 2013-05-14 Motorola Solutions, Inc. Methods for creating and searching a database of speakers
TWI406266B (zh) * 2011-06-03 2013-08-21 Univ Nat Chiao Tung 語音辨識裝置及其辨識方法
US9472199B2 (en) * 2011-09-28 2016-10-18 Lg Electronics Inc. Voice signal encoding method, voice signal decoding method, and apparatus using same
US9805738B2 (en) * 2012-09-04 2017-10-31 Nuance Communications, Inc. Formant dependent speech signal enhancement
US9679555B2 (en) 2013-06-26 2017-06-13 Qualcomm Incorporated Systems and methods for measuring speech signal quality
JP6167733B2 (ja) * 2013-07-30 2017-07-26 富士通株式会社 生体特徴ベクトル抽出装置、生体特徴ベクトル抽出方法、および生体特徴ベクトル抽出プログラム
US10803875B2 (en) * 2019-02-08 2020-10-13 Nec Corporation Speaker recognition system and method of using the same

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003514262A (ja) * 1999-11-08 2003-04-15 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 割込みのない言語品質の評価
JP2004334160A (ja) * 2002-09-24 2004-11-25 Matsushita Electric Ind Co Ltd 特徴量抽出装置
US20050234366A1 (en) * 2004-03-19 2005-10-20 Thorsten Heinz Apparatus and method for analyzing a sound signal using a physiological ear model
US20060025989A1 (en) * 2004-07-28 2006-02-02 Nima Mesgarani Discrimination of components of audio signals based on multiscale spectro-temporal modulations
JP2006195449A (ja) * 2004-12-15 2006-07-27 Yamaha Corp 声質判定装置、声質判定方法、および声質判定プログラム
WO2007000231A1 (de) * 2005-06-29 2007-01-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, verfahren und computerprogramm zur analyse eines audiosignals
JP2007143202A (ja) * 1992-06-24 2007-06-07 British Telecommun Plc <Bt> 電気通信装置の客観的音声品質測定の方法および装置
JP2007264432A (ja) * 2006-03-29 2007-10-11 Univ Meijo 音源分離システム、エンコーダおよびデコーダ

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2938079A (en) * 1957-01-29 1960-05-24 James L Flanagan Spectrum segmentation system for the automatic extraction of formant frequencies from human speech
US3740476A (en) * 1971-07-09 1973-06-19 Bell Telephone Labor Inc Speech signal pitch detector using prediction error data
GB1541041A (en) * 1976-04-30 1979-02-21 Int Computers Ltd Sound analysing apparatus
US4363102A (en) * 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
US4661915A (en) * 1981-08-03 1987-04-28 Texas Instruments Incorporated Allophone vocoder
US4721923A (en) * 1987-01-07 1988-01-26 Motorola, Inc. Radio receiver speech amplifier circuit
US4805218A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech analysis and speech recognition
US5381512A (en) * 1992-06-24 1995-01-10 Moscom Corporation Method and apparatus for speech feature recognition based on models of auditory signal processing
GB9213459D0 (en) * 1992-06-24 1992-08-05 British Telecomm Characterisation of communications systems using a speech-like test stimulus
US5388182A (en) * 1993-02-16 1995-02-07 Prometheus, Inc. Nonlinear method and apparatus for coding and decoding acoustic signals with data compression and noise suppression using cochlear filters, wavelet analysis, and irregular sampling reconstruction
GB9419388D0 (en) * 1994-09-26 1994-11-09 Canon Kk Speech analysis
KR19990028694A (ko) * 1995-07-27 1999-04-15 세모스 로버트 어니스트 빅커스 음성 전달 신호의 속성 평가 방법 및 장치
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5768474A (en) * 1995-12-29 1998-06-16 International Business Machines Corporation Method and system for noise-robust speech processing with cochlea filters in an auditory model
US5856722A (en) * 1996-01-02 1999-01-05 Cornell Research Foundation, Inc. Microelectromechanics-based frequency signature sensor
US5940798A (en) * 1997-12-31 1999-08-17 Scientific Learning Corporation Feedback modification for reducing stuttering
CA2230188A1 (en) * 1998-03-27 1999-09-27 William C. Treurniet Objective audio quality measurement
US6505152B1 (en) * 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
NL1013500C2 (nl) * 1999-11-05 2001-05-08 Huq Speech Technologies B V Inrichting voor het schatten van de frequentie-inhoud of het spectrum van een geluidssignaal in een ruizige omgeving.
AUPQ820500A0 (en) * 2000-06-19 2000-07-13 Cochlear Limited Travelling wave sound processor
US6701291B2 (en) * 2000-10-13 2004-03-02 Lucent Technologies Inc. Automatic speech recognition with psychoacoustically-based feature extraction, using easily-tunable single-shape filters along logarithmic-frequency axis
JP4147445B2 (ja) * 2001-02-26 2008-09-10 アドフォクス株式会社 音響信号処理装置
US6898568B2 (en) * 2001-07-13 2005-05-24 Innomedia Pte Ltd Speaker verification utilizing compressed audio formants
US7162415B2 (en) * 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
JP4240878B2 (ja) * 2001-12-13 2009-03-18 四一 安藤 音声認識方法及び音声認識装置
US20100042406A1 (en) * 2002-03-04 2010-02-18 James David Johnston Audio signal processing using improved perceptual model
WO2004075162A2 (en) * 2003-02-20 2004-09-02 Ramot At Tel Aviv University Ltd. Method apparatus and system for processing acoustic signals
AU2003901538A0 (en) * 2003-03-28 2003-05-01 Cochlear Limited Maxima search method for sensed signals
US7376553B2 (en) * 2003-07-08 2008-05-20 Robert Patel Quinn Fractal harmonic overtone mapping of speech and musical sounds
WO2005013870A1 (ja) * 2003-08-07 2005-02-17 Hamamatsu Foundation For Science And Technology Promotion 人工内耳の音声変換方法
CA2452945C (en) * 2003-09-23 2016-05-10 Mcmaster University Binaural adaptive hearing system
US7672838B1 (en) * 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
US8023673B2 (en) * 2004-09-28 2011-09-20 Hearworks Pty. Limited Pitch perception in an auditory prosthesis
US7480615B2 (en) * 2004-01-20 2009-01-20 Microsoft Corporation Method of speech recognition using multimodal variational inference with switching state space models
US20050171774A1 (en) * 2004-01-30 2005-08-04 Applebaum Ted H. Features and techniques for speaker authentication
US7941223B2 (en) * 2004-03-08 2011-05-10 Med-El Elektromedizinische Geraete Gmbh Cochlear implant stimulation with variable number of electrodes
US20050226398A1 (en) * 2004-04-09 2005-10-13 Bojeun Mark C Closed Captioned Telephone and Computer System
US7522961B2 (en) * 2004-11-17 2009-04-21 Advanced Bionics, Llc Inner hair cell stimulation model for the use by an intra-cochlear implant
KR100634526B1 (ko) * 2004-11-24 2006-10-16 삼성전자주식회사 포만트 트래킹 장치 및 방법
DE102006006296B3 (de) * 2006-02-10 2007-10-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren, Vorrichtung und Computerprogramm zum Erzeugen eines Ansteuersignals für ein Cochlea-Implantat basierend auf einem Audiosignal
CN101136199B (zh) * 2006-08-30 2011-09-07 纽昂斯通讯公司 语音数据处理方法和设备
US8611560B2 (en) * 2007-04-13 2013-12-17 Navisense Method and device for voice operated control
US8280087B1 (en) * 2008-04-30 2012-10-02 Arizona Board Of Regents For And On Behalf Of Arizona State University Delivering fundamental frequency and amplitude envelope cues to enhance speech understanding
US8155967B2 (en) * 2008-12-08 2012-04-10 Begel Daniel M Method and system to identify, quantify, and display acoustic transformational structures in speech
US8359195B2 (en) * 2009-03-26 2013-01-22 LI Creative Technologies, Inc. Method and apparatus for processing audio and speech signals
US8311812B2 (en) * 2009-12-01 2012-11-13 Eliza Corporation Fast and accurate extraction of formants for speech recognition using a plurality of complex filters in parallel
DK2375782T3 (en) * 2010-04-09 2019-03-18 Oticon As Improvements in sound perception by using frequency transposing by moving the envelope

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007143202A (ja) * 1992-06-24 2007-06-07 British Telecommun Plc <Bt> 電気通信装置の客観的音声品質測定の方法および装置
JP2003514262A (ja) * 1999-11-08 2003-04-15 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 割込みのない言語品質の評価
JP2004334160A (ja) * 2002-09-24 2004-11-25 Matsushita Electric Ind Co Ltd 特徴量抽出装置
US20050234366A1 (en) * 2004-03-19 2005-10-20 Thorsten Heinz Apparatus and method for analyzing a sound signal using a physiological ear model
US20060025989A1 (en) * 2004-07-28 2006-02-02 Nima Mesgarani Discrimination of components of audio signals based on multiscale spectro-temporal modulations
JP2006195449A (ja) * 2004-12-15 2006-07-27 Yamaha Corp 声質判定装置、声質判定方法、および声質判定プログラム
WO2007000231A1 (de) * 2005-06-29 2007-01-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, verfahren und computerprogramm zur analyse eines audiosignals
JP2008545170A (ja) * 2005-06-29 2008-12-11 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声信号を分析する装置、方法、およびコンピュータ・プログラム
JP2007264432A (ja) * 2006-03-29 2007-10-11 Univ Meijo 音源分離システム、エンコーダおよびデコーダ

Also Published As

Publication number Publication date
EP2329399A4 (en) 2011-12-21
WO2010031109A1 (en) 2010-03-25
AU2009295251B2 (en) 2015-12-03
AU2009295251A1 (en) 2010-03-25
US8990081B2 (en) 2015-03-24
EP2329399A1 (en) 2011-06-08
US20110213614A1 (en) 2011-09-01

Similar Documents

Publication Publication Date Title
JP4202090B2 (ja) スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法
JP2012503212A (ja) オーディオ信号分析方法
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
EP1995723B1 (en) Neuroevolution training system
Deshwal et al. Feature extraction methods in language identification: a survey
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
JP4515054B2 (ja) 音声認識の方法および音声信号を復号化する方法
EP1998320A1 (en) System and method for evaluating performance of microphone for long-distance speech recognition in robot
Dubey et al. Non-intrusive speech quality assessment using several combinations of auditory features
Karbasi et al. Twin-HMM-based non-intrusive speech intelligibility prediction
Gallardo Human and automatic speaker recognition over telecommunication channels
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
US11823669B2 (en) Information processing apparatus and information processing method
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
WO2021152566A1 (en) System and method for shielding speaker voice print in audio signals
US20230252971A1 (en) System and method for speech processing
Di Persia et al. Objective quality evaluation in blind source separation for speech recognition in a real room
Huber et al. Single-ended speech quality prediction based on automatic speech recognition
Lipeika Optimization of formant feature based speech recognition
Sadeghi et al. The effect of different acoustic noise on speech signal formant frequency location
Kobayashi et al. Performance Evaluation of an Ambient Noise Clustering Method for Objective Speech Intelligibility Estimation
Nathwani et al. Speech intelligibility enhancement using an optimal formant shifting approach
Gallardo Human and automatic speaker recognition over telecommunication channels
Zhang et al. An advanced entropy-based feature with a frame-level vocal effort likelihood space modeling for distant whisper-island detection
Sharma SPEECH ASSESSMENT AND CHARACTERIZATION FOR

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120903

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130423

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130924