JP6339187B2

JP6339187B2 - 音声信号品質を測定するためのシステムおよび方法

Info

Publication number: JP6339187B2
Application number: JP2016523900A
Authority: JP
Inventors: セン、ディパンジャン; ル、ウェンリアン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-06-26
Filing date: 2014-06-25
Publication date: 2018-06-06
Anticipated expiration: 2034-06-25
Also published as: US20150006162A1; WO2014210204A1; CN105378839B; JP2016525702A; EP3014613A1; US9830905B2; CN105378839A; WO2014210208A1; KR20160023767A; US20150006164A1; US9679555B2

Description

関連出願

[0001] 本出願は、「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＭＥＡＳＵＲＩＮＧＳＰＥＥＣＨＳＩＧＮＡＬＱＵＡＬＩＴＹ」に関して、２０１３年６月２６日に出願された米国仮特許出願第６１／８３９，８０７号、「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＭＥＡＳＵＲＩＮＧＳＰＥＥＣＨＳＩＧＮＡＬＱＵＡＬＩＴＹ」に関して、２０１３年１０月９日に出願された米国仮特許出願第６１／８８８，９４５号、「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＩＮＴＲＵＳＩＶＥＦＥＡＴＵＲＥＥＸＴＲＡＣＴＩＯＮ」に関して、２０１３年６月２６日に出願された米国仮特許出願第６１／８３９，７９６号、「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＮＯＮ−ＩＮＴＲＵＳＩＶＥＦＥＡＴＵＲＥＥＸＴＲＡＣＴＩＯＮ」に関して、２０１３年６月２６日に出願された米国仮特許出願第６１／８３９，８００号、および「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＦＥＡＴＵＲＥＥＸＴＲＡＣＴＩＯＮ」に関して、２０１３年９月１０日に出願された米国仮特許出願第６１／８７６，１７７に関し、これらの優先権を主張するものである。

[0002] 本開示は、一般に、電子デバイスに関する。より詳細には、本開示は、音声信号品質を測定するためのシステムおよび方法に関する。

[0003] ここ数１０年間で、電子デバイスの使用が一般的になった。特に、電子技術における進歩は、ますます複雑で有用な電子デバイスの費用を削減した。費用低減と消費者需要は、近代社会で実際に遍在するように、電子デバイスの使用を急増させた。電子デバイスの使用が拡大したので、電子デバイスの新しく改良された特徴の需要も拡大した。より詳細には、新機能を行い、および／または、機能をより速く、より効率的に、あるいはより高品質に行う電子デバイスが求められることが多い。

[0004] いくつかの電子デバイス（例えば、セルラーフォン、スマートフォン、オーディオレコーダ、カムコーダ、コンピュータなど）は、オーディオ信号を取り込み、または利用する。例えば、スマートフォンは音声信号を取り込み得る。

[0005] 音声信号品質は、定量化することが困難であり得る。さらに、人々がどのように音声信号を知覚するかに影響を与える音声信号の特性は、識別および／または定量化することが困難であり得る。音声信号品質を評価することは、時間がかかる場合があり、また費用がかかる場合もある。この説明からわかるように、音声信号の評価を改善するシステムおよび方法は有益であり得る。

[0006] 電子デバイスによって音声信号品質(speech signal quality)を測定するための方法が説明される。修正された単一チャネル音声信号(modified single-channel speech signal)が取得される。複数の客観的ひずみ(Multiple objective distortions)は、修正された単一チャネル音声信号に基づいて推定される。複数の客観的ひずみは、少なくとも１つの前景ひずみ(foreground distortion)と、少なくとも１つの背景ひずみ(background distortion)とを含む。前景品質および背景品質は、複数の客観的ひずみに基づいて推定される。全体品質は、前景品質および背景品質に基づいて推定される。

[0007] 音声信号品質を測定することは複数の階層レベルを含む階層構造(hierarchical levels)に従って行われ得る。各階層レベルは、任意の各相対的に低い階層レベルに依存し得る。複数の階層レベルは３つのレベルを含み得る。第１の階層レベルは複数の客観的ひずみを推定することを含み得る。第２の階層レベルは前景品質と背景品質とを推定することを含み得る。第３の階層レベルは全体品質を推定することを含み得る。

[0008] 全体品質を推定することはさらに複数の客観的ひずみに直接基づき得る。複数の客観的ひずみの各々は、音声品質(speech quality)の独立した次元を表し得る。前景ひずみは、粗さ(roughness)と、不連続性(discontinuity)と、鈍さ(dullness)と、薄さ(thinness)とを含み得る。背景ひずみは、ヒッシング(hissing)と、変動性(variability)とを含み得る。

[0009] 修正された単一チャネル音声信号は、元の音声信号に基づき得る。複数の客観的ひずみは、元の音声信号を伴わずに推定され得る。元の音声信号が取得され得、複数の客観的ひずみはさらに元の音声信号に基づき得る。

[0010] また、音声信号品質を測定するための電子デバイスが説明される。電子デバイスは、修正された単一チャネル音声信号に基づいて、複数の客観的ひずみを推定する計算形ひずみ推定器(computational distortion estimator)を含む。複数の客観的ひずみは、少なくとも１つの前景ひずみと、少なくとも１つの背景ひずみとを含む。電子デバイスは、また、計算形ひずみ推定器に結合された計算形前景品質推定器(computational foreground quality estimator)を含む。計算形前景品質推定器は、複数の客観的ひずみに基づいて前景品質を推定する。電子デバイスは、計算形ひずみ推定器()に結合された計算形背景品質推定器(computational background quality estimator)をさらに含む。計算形背景品質推定器は、複数の客観的ひずみに基づいて背景品質を推定する。電子デバイスは、計算形ひずみ推定器に結合された計算形全体品質推定器(computational overall quality estimator)を追加的に含む。計算形全体品質推定器は、前景品質および背景品質に基づいて全体品質を推定する。

[0011] また、音声信号品質を測定するためのコンピュータプログラム製品が説明される。コンピュータプログラム製品は、命令を有する非一時的有形コンピュータ可読媒体を含む。命令は、電子デバイスに、修正された単一チャネル音声信号を取得させるためのコードを含む。命令は、また、電子デバイスに、修正された単一チャネル音声信号に基づいて複数の客観的ひずみを推定させるためのコードを含む。複数の客観的ひずみは、少なくとも１つの前景ひずみと、少なくとも１つの背景ひずみとを含む。命令は、また、電子デバイスに、複数の客観的ひずみに基づいて前景品質と背景品質とを推定させるためのコードを含む。命令は、電子デバイスに、前景品質および背景品質に基づいて全体品質を推定させるためのコードをさらに含む。

[0012] また、音声信号品質測定するための装置が説明される。装置は、修正された単一チャネル音声信号を取得するための手段を含む。装置は、また、修正された単一チャネル音声信号に基づいて複数の客観的ひずみを推定するための手段を含む。複数の客観的ひずみは、少なくとも１つの前景ひずみと、少なくとも１つの背景ひずみとを含む。装置は、複数の客観的ひずみに基づいて前景品質と背景品質とを推定するための手段をさらに含む。装置は、前景品質および背景品質に基づいて全体品質を推定するための手段を追加的に含む。

主観的方法を使用する品質分析を示す図である。音声信号の品質の客観的な決定のための２つの方法を示すブロック図である。知覚的客観的受聴品質評価（Ｐ．ＯＬＱＡ）の現在のＩＴＵ標準を使用してＭＯＳを予測することの精度を示すグラフである。音声信号品質を測定するための方法の一構成を示す流れ図である。音声信号品質を測定するために構成される電子デバイスの一構成を示すブロック図である。本明細書で開示されるシステムおよび方法に従って実施され得る階層構造の一例を示すブロック図である。本明細書で開示されるシステムおよび方法に従って実施され得る階層構造の別の例を示すブロック図である。抽出された特徴およびトレーニング音声サンプルに基づく、主観的な品質測定スコアの単一次元の予測を示すブロック図である。図９Ａ〜図９Ｃに対応する一例の複数の部分を示すブロック図である。特徴行列を示すブロック図である。追加の特徴を示すブロック図である。重み付けの適用を示すブロック図である。音声信号品質を測定するために実施され得る階層構造の一例を示す流れ図である。音声信号品質を測定するために構成される、ネットワークデバイスおよび２つの電子デバイスの一構成を示すブロック図である。音声信号品質を測定するために構成される電子デバイスの一構成を示すブロック図である。音声信号品質を測定するために電子デバイスによって実施される方法を示す流れ図である。音声信号品質を測定するためにネットワークデバイスによって実施される方法を示す流れ図である。特徴抽出のための電子デバイスの一構成を示すブロック図である。特徴抽出のための方法の一構成を示す流れ図である。生理学的蝸牛モデルの出力の一例を示すグラフである。嵌入的特徴抽出モジュールの一構成を示すブロック図である。非嵌入的特徴抽出モジュールの一構成を示すブロック図である。セクションＡ〜Ｄへ分割されている蝸牛モデルの出力の一例を示すブロック図である。蝸牛モデル出力のセクションから空間ベース分析ベクトルを抽出することの一例を示すブロック図である。蝸牛モデル出力のセクションＡから空間ベース分析ベクトルを抽出することの別の例を示すブロック図である。蝸牛モデル出力のセクションから時間ベース分析ベクトルを抽出することの一例を示すブロック図である。蝸牛モデル出力のセクションＡから時間ベース分析ベクトルを抽出することの別の例を示すブロック図である。特徴決定モジュールの構成を示すブロック図である。特徴決定の一例を示す図である。特徴決定の別の例を示す図である。本明細書で開示されるシステムおよび方法による客観的予測の一例を示す図である。本明細書で開示されるシステムおよび方法による客観的予測の別の例を示す図である。本明細書で開示されるシステムおよび方法による客観的予測の別の例を示す図である。図３１Ａ〜図３１Ｄに対応する一例の複数の部分を示すブロック図である。嵌入的特徴抽出を使用して粗さひずみを推定または予測することの一例の一部分を示すブロック図である。嵌入的特徴抽出を使用して粗さひずみを推定または予測することの一例の別の部分を示すブロック図である。嵌入的特徴抽出を使用して粗さひずみを推定または予測することの一例の別の部分を示すブロック図である。嵌入的特徴抽出を使用して粗さひずみを推定または予測することの一例のさらに別の部分を示すブロック図である。図３２Ａ〜図３２Ｄに対応する一例の複数の部分を示すブロック図である。非嵌入的特徴抽出を使用して粗さひずみを推定または予測することの一例の一部分を示すブロック図である。非嵌入的特徴抽出を使用して粗さひずみを推定または予測することの一例の別の部分を示すブロック図である。非嵌入的特徴抽出を使用して粗さひずみを推定または予測することの一例の別の部分を示すブロック図である。非嵌入的特徴抽出を使用して粗さひずみを推定または予測することの一例のさらに別の部分を示すブロック図である。特徴抽出のための方法のより具体的な構成を示す流れ図である。嵌入的特徴抽出のための方法の一構成を示す流れ図である。非嵌入的特徴抽出のための方法の一構成を示す流れ図である。嵌入的特徴抽出のより具体的な構成を示すブロック図である。音声信号品質の測定および／または特徴抽出のためのシステムおよび方法が実装され得るワイヤレス通信デバイスの一構成を示すブロック図である。電子デバイス／ワイヤレスデバイス内に含まれ得るいくつかの構成要素を示す図である。

[0062] 本明細書で開示されるシステムおよび方法のいくつかの構成は、音声ひずみと全体品質とを診断することの階層的なシステムを利用する。音声信号の品質は、人間の聞き手(human listeners)によって最も正確に測定される。しかしながら、複数の聞き手によるそのような評価を引き受けることは、時間と金銭の両方の観点から費用がかかる。従って、人間の聞き手の反応(human listener responses)（音声品質に関する）を正確に複製できるシステムおよび方法（例えば、アルゴリズム、計算形システムなど）は、有益であることになる。例えば、これらのシステムおよび方法は、複数の人間の聞き手に対する要件を置換できる。

[0063] 本明細書で開示されるシステムおよび方法は、人間の蝸牛(human cochlea)の流体力学的機能(hydro-mechanical function)、聴神経(Auditory nerve)および内有毛細胞／外有毛細胞(inner/outer hair cells)の機能性(functionality)へのその力学的な神経支配(mechanical innervation)をエミュレートする計算形エンジン(computational engine)を提供する。内有毛細胞の（計算形エンジンからの）出力は、人間の音声知覚の様々な態様を推測するために使用され得る。人間の聞くプロセス(human listening process)は、極めて複雑であり、蝸牛の中で、上側聴覚路および中枢神経系（ＣＮＳ：Central Nervous System）の中で（蝸牛機能の後で）電気的に変換された信号をニューラル処理することへの流体力学を伴う。全体品質を（１次元の数量(uni-dimensional quantity)として）予測することを試みてきた知られている手法は、広い範囲のひずみを包含することまたは高い精度を達成することができなかった。例えば、現在の国際電気通信連合（ＩＴＵ：International Telecommunications Union）標準の知覚的客観的受聴品質評価（Ｐ．ＯＬＱＡ：Perceptual Objective Listening Quality Assessment）（平均オピニオン評点（ＭＯＳ：mean opinion score）を予測するＰ．８６３）は、Ｐ．ＯＬＱＡがそれに対して設計されなかったシステムによって劣化された音声の品質を推定する場合、正確でない。

[0064] 特に、本システムおよび方法は、人間の蝸牛の計算形モデルの出力から特徴を抽出し得る。特徴は、次いで、音声品質を予測するためにさらに分析され得る。本明細書で説明される特徴は音声品質を予測することに関連して説明されるが、特徴は、何か適切な用途(any suitable application)で使用され得、音声品質の予測(speech quality prediction)に限定されない。使用される蝸牛の計算形モデル(computational model)は、音声信号を内有毛細胞の反応(inner hair cell responses)へ正確に変換する流体力学的な生理学的モデルである。特に、機能蝸牛モデル(functional cochlear model)は、蝸牛の入力および出力に注目し得、蝸牛がどのように働くかを理解することなく、蝸牛の機能をエミュレートすることを試み得る。対照的に、本システムおよび方法の生理学的蝸牛モデル(physiological cochlear model)は、蝸牛の特有の生理学的反応をエミュレート（例えば、鼓膜(eardrum)、外耳道(ear canal)、蝸牛の内側の流体(fluid)、様々な膜(membranes)の力(forces)／変位(displacement)／速度(velocity)、内有毛細胞−およびこれらの構造の質量、弾性および／または摩擦特性などの生理学的特性(physiological properties)のための計算）することを試み、その場合、基礎物理学(fundamental physics)、およびそれに限定されないが出力を生成するためにＨｅｉｎｚ、Ｂａｕｍｇａｒｔｅ、ＭｅｄｄｉｓまたはＺｗｉｃｋｅｒの研究におけるものと同様の電子回路を使用するモデル化などの近似の使用を通じて、モデル化が行われる。従って、音声品質を予測するために生理学的蝸牛モデルを適用することは、本明細書で開示されるシステムおよび方法の１つの固有の特徴である。

[0065] 本明細書で開示されるシステムおよび方法のいくつかの構成は、「分割統治(divide and conquer)」の方策を利用する。例えば、本明細書で開示されるシステムおよび方法は、最初に、音声品質の個別の属性／次元(individual attributes/dimensions)（例えば、ひずみ）を診断することを試み得、次いで、信号の全体品質を予測するためにこれら個別の属性を組み合わせ得る。例えば、階層的な手法が利用され得、その場合、最初に複数のひずみ診断が行われ、次いで前景ひずみ診断および背景ひずみ診断が行われ、最後に計算形モデルを用いて全体品質が推定される。

[0066] 本明細書で開示されるシステムおよび方法は、音声品質の客観的測定を提供する。従来、主観的な受聴テストは、平均オピニオン評点（ＭＯＳ）を決定するために行われる。これらの主観的な受聴テストは、金銭がかかる場合があり、時間がかかる場合があり、反復可能でない場合がある。

[0067] 音声品質の客観的測定は、主観的な受聴テストの不都合を克服し得る。主観的な測定は最も正確であると想像されるが、客観的な測定は主観的な測定の出力を予測するために利用され得る。

[0068] 音声品質テストの客観的測定の間、元の音声は、エンコーダ（例えば、拡張可変レートコーデック（ＥＶＲＣ：Enhanced Variable Rate Codec）のコーデック）に供給され得る。音響心理学的分析(Psychoacoustic analysis)が、元の音声および符号化された音声について行われ得る。結果は、ＭＯＳを推定するために比較され得る。この手法の例は、Ｐ．８６１、Ｐ．８６２およびＰ．８６３などの国際電気通信連合（ＩＴＵ）標準を含む。これらの３つは全て、ＩＴＵ標準Ｐ．８００に記載されるような主観的なＭＯＳテストの結果を予測することを試みる。

[0069] 雑音は、元の音声の中へ注入され得る。雑音に悩まされる音声(noise-afflicted speech)は、向上アルゴリズム(enhancement algorithm)（例えば、雑音抑圧器）へ提供され得る。音響心理学的分析は、元の音声および向上した音声（例えば、雑音が抑圧された音声）について行われ得る。結果は、ＭＯＳを推定するために比較され得る。この手法の一例は、欧州電気通信標準化機構（ＥＴＳＩ：European Telecommunications Standards Institute）により提供され、ＩＴＵ標準Ｐ．８３５に記載されるような主観的テスト(subjective testing)の結果を予測することを試みる。

[0070] 音声品質の客観的測定の知られている手法は１次元的であり得る。しかしながら、音声品質は多次元的である。１つの次元は、十分または正確であり得ない。例えば、現在のＩＴＵ標準Ｐ．ＯＬＱＡ（ＭＯＳを予測するＰ．８６３）は、完全に正確とは限らない。それは、ＥＶＲＣコーデックに対してＭＯＳを不正確に予測し得る。このことの１つの例は、ＩＴＵＱ９ＷＰ２寄稿ＣＯＭ１２−Ｃ２７０ｒｅｖ１−Ｅ（２０１１１０）である。本明細書で開示されるシステムおよび方法は、ＭＯＳを予測する際に、知られている手法と比較してより高い精度をもたらし得る。いくつかの構成では、本明細書で開示されるシステムおよび方法が、予想されるＩＴＵ標準（例えば、Ｐ．ＴＣＡ、Ｐ．ＯＮＲＡおよびＰ．ＡＭＤ）へ組み込まれ得る。表１は、音声品質を測定するためのいくつかの手法（例えば、標準化されたもの、および進行中のもの）を示す。本明細書で開示されるシステムおよび方法は、標準化の進行中にある標準に適用され得る。

[0071] 本明細書で開示されるシステムおよび方法は、複数の独立したひずみを検出する能力を有する１次元の音声信号品質テストを置換するために適用され得る。一旦多次元的な「検出可能性」が達成されると、全体品質はそれに従って予測され得る。本明細書で開示されるシステムおよび方法は、「分割統治」の方策を採用し得る。例えば、新規のフレームワークおよび特徴（例えば、高度な知覚的特徴(advanced perceptual features)）が提供される。

[0072] 階層的なシステムまたは構造は、音声ひずみと全体品質とを診断するために利用され得る。このことは、全体品質での予測の改善された精度という結果となり得る。さらなる利点は、音声信号についての診断情報を提供することと、ネットワークの不具合についての診断情報を潜在的に提供することと、コーディング／向上のアルゴリズムを開発するための可能なツールを提供することと、品質におけるリアルタイムなフィードバックを提供することとを含む。

[0073] 次に、様々な構成が、同一の参照番号が機能的に類似の要素を示し得る図面を参照して記載される。本明細書において一般的に記載され図面で例示されているようなシステムおよび方法は、広範な様々な別の構成でアレンジおよび設計され得る。従って、これら図面において示されるような、以下に示すいくつかの構成のより詳細な記載は、特許請求されたような範囲を限定することではなく、単に、これらシステムおよび方法の代表であることが意図されている。

[0074] 図１は、主観的方法(subjective method)を使用する音声信号品質分析を示す。主観的方法は、人間の聞き手１０４ａ〜ｃの知覚に基づいて１つまたは複数の音声信号の品質を測定することの手法である。主観的モデルは、１つまたは複数の音声信号を１人または複数の人間の聞き手１０４ａ〜ｃに提供する音声信号源１０２を含み得る。１人または複数の人間の聞き手１０４ａ〜ｃは、１つまたは複数の音声信号を聞き、１つまたは複数の音声信号の品質を人間の聞き手１０４ａ〜ｃの品質の知覚(human listener’s 104a-c perceptions of quality)に基づいて格付け(rate)し得る。例えば、人間の聞き手１０４ａは音声信号の品質が良好１０６ａと決定し得、別の人間の聞き手１０４ｂは同じ音声信号の品質が劣悪１０６ｂと決定し得、第３の人間の聞き手１０４ｃは同じ音声信号の品質が適正１０６ｃと決定し得る。主観的なテストにおいて、３つの格付けは、平均化プログラム１０８によって平均化され、適正の平均オピニオン評点（ＭＯＳ）１１０が与えられることになる。

[0075] 主観的方法が１人または複数の人間の聞き手１０４ａ〜ｃと試験者の両方にとって時間がかかることにより、この方法は一貫して使用することが困難である。この主観的方法を使用することの別の潜在的な欠点は、主観的方法は費用がかかり得ることである。この主観的方法は、人間の聞き手１０４ａ〜ｃに彼らの時間に対して報酬を受けさせ得、また、テストが結果をより一貫させるための専用のエリアを必要とし得る。主観的方法は、また、反復可能な結果を取得することが困難であり得る。というのも、音声信号の品質を決定するとき、人間の聞き手１０４ａ〜ｃが極端な差を有し得るからである。例えば、同じ音声信号は、２つの異なる主観的方法のテストで使用され得る。第１の主観的方法のテストは、音声信号が音声信号品質の適正の格付けを有する結果となり得、第２の主観的方法のテストは、同じ音声信号が音声信号品質の良好の格付けを有する結果となり得る。

[0076] アルゴリズムまたは計算形システムは、人間の聞き手１０４ａ〜ｃの反応を正確に複製できるようにし得る。このことは、テストに費やされるお金を削減し得る。例えば、人間の聞き手１０４ａ〜ｃの音声の知覚をシミュレートできる計算形エンジンは、生理学的蝸牛モデルであり得る。生理学的蝸牛モデルは、本明細書で説明される方法を使用して、音声信号の全体の音声品質を予測できる。生理学的蝸牛モデルは、蝸牛の中の流体力学と、人間の耳の上側聴覚路および中枢神経系の中でなされるニューラル処理とを、複製できる。生理学的蝸牛モデルは、音声品質の個別の次元を診断することができ、次いで、音声信号の全体の音声品質をより正確に予測するために、これら個別の属性を組み合わせることができる。音声信号品質分析のための生理学的蝸牛モデルの使用は、全体品質の予測を改善し得、音声信号についての診断情報を提供し得、リアルタイムの品質フィードバックを使用する向上アルゴリズムのための可能なツールを提供し得る。

[0077] 図２は、音声信号の品質の主観的な決定を計算的に予測し、−それによって、客観的なスコアを生成するための２つの方法を示すブロック図である。元の音声信号２１２ａ〜ｂは、例えば、コーダ２１４および／またはエンハンスメント２２２を通過した後、ひずんだ音声信号になり得る。Ｐ．８３５は、特に、ひずまされて、次いで、後で様々なアルゴリズムを使用して向上させられた信号のための、ＩＴＵの主観的なテストの標準である。Ｐ．８００は、範囲においてＰ．８３５よりも一般的であり、任意のひずんだ信号に対して有効である、ＩＴＵの主観的なテストの標準である。図２に示す２つの方法は、人間の聴覚知覚をシミュレートすることに基づいて、（コーディングおよび／またはエンハンスメント２１４、２２２の後の）ひずんだ音声信号の品質の客観的なスコアを提供し得る。図示される２つの方法は、ＭＯＳ（Ｐ．８００）およびＰ．８３５の主観的なテストの方法を使用する、主観的な評価の計算的予測（客観的なスコア）を与える。方法Ｐ．８００は全体的なスコアが付けられたＭＯＳを与え、方法Ｐ．８３５は３つのスコア、すなわち、Ｓ−ＭＯＳと、Ｎ−ＭＯＳと、Ｇ−ＭＯＳとを与える。Ｓ−ＭＯＳは音声信号の前景品質に対するスコアであり、Ｎ−ＭＯＳは音声信号の背景雑音に対するスコアであり、Ｇ−ＭＯＳは音声信号の全体品質に対するスコアである。両方のテスト方法は、嵌入的な方法または非嵌入的な方法を使用し得る。

[0078] 明快のために、主観的な音声品質におけるＩＴＵ標準のいくつかの説明が、次のように与えられる。音声信号に対して、Ｐ．８００は、ＭＯＳと呼ばれるただ１つのＯＶＥＲＡＬＬスコアを与える。Ｐ．８３５は、３つのスコア、すなわち、Ｓ−ＭＯＳと、Ｎ−ＭＯＳと、Ｇ−ＭＯＳとを与える。Ｓ−ＭＯＳは前景／信号のみに対するスコアであり、Ｎ−ＭＯＳは背景／雑音品質のみに対するスコアである。Ｇ−ＭＯＳは全体品質に対するスコアであり、Ｐ．８００におけるＭＯＳと実際には同じである。Ｐ．８０６（２０１４年前半にＩＴＵ標準へ最終承認された）は、８つのスコアを与える。

[0079] 図２の方法は、ひずんだ音声信号（例えば、コーディングおよび／またはエンハンスメント２１４、２２２の後）のみ、またはひずんだ／修正された音声信号(distorted/modified speech signal)（コーダ２１４またはエンハンスメントモジュール２２２によって出力される）と元の音声信号２１２ａ〜ｂ（比較するための基準として使用される）の組合せを使用してなされ得る。前者（元の音声信号２１２ａ〜ｂが存在しない場合）は非嵌入的な方法(non-intrusive method)であり、後者（修正された／ひずんだ信号と元の音声信号２１２ａ〜ｂの両方が存在する場合）は嵌入的な方法(intrusive method)である。修正音声信号は、元の音声２１２ａ〜ｂの信号への変更を含み得、変更は処理することを含む。処理された音声信号(processed speech signal)は、修正音声信号(modified speech signal)の一例であり得る。

[0080] ＭＯＳスコアを予測する方法は、元の音声２１２ａの信号を取得し得る。元の音声２１２ａの信号は、人間の知覚をシミュレートしようとした音響心理学的分析２１６ａのための入力として使用され得る。元の音声２１２ａの信号は、また、ワイヤレスネットワークによってなされ得る信号圧縮および他のタイプの信号処理をシミュレートするために、コーダ２１４への入力として使用され得る。コーダ２１４は、修正音声信号を出力し得、ＭＯＳスコアを予測する方法がテストの非嵌入的な方法を含むことができるようにする。修正音声信号は、人間の知覚をシミュレートしようとする音響心理学的分析２１６ｂのための入力として使用され得る。

[0081] 元の音声信号および修正音声信号の音響心理学的分析２１６ａ〜ｂからの結果は、次いで、比較され得る２１８ａ。元の音声信号と修正音声信号との比較は、全体的なＭＯＳ２２０ａを提供し得る。ＭＯＳのスコアリングは、１から５までわたり得る。１のスコアは「不良(bad)」の品質を有し得、２は「劣悪(poor)」の品質を有し得、３は「適正(fair)」の品質を有し得、４は「良好(good)」の品質を有し得、５は「優秀(excellent)」の品質を有し得る。

[0082] 雑音抑圧アルゴリズムを含む音声信号を評価するための客観的なテスト方法は、また、分析のために元の音声２１２ｂの信号と雑音２２４とを取得し得る。この方法は、Ｓ−ＭＯＳ、Ｎ−ＭＯＳおよびＧ−ＭＯＳのスコアを含み得るＰ．８３５スコアを与え得る。元の音声２１２ｂの信号および雑音２２４は、人間の聴覚知覚をシミュレートしようとする音響心理学的分析２１６ｃのための入力として使用され得る。元の音声２１２ｂの信号および雑音２２４は、エンハンスメントモジュール２２２への入力として使用され得る。例えば、エンハンスメントモジュール２２２は、元の音声２１２ｂの信号の中に存在し得る雑音またはエコーを低減し得る。エンハンスメントモジュール２２２は、修正音声信号を出力し得、Ｐ．８３５の予測方法がテストの非嵌入的な方法を含むことができるようにする。修正音声信号は、人間の聴覚知覚をシミュレートしようとする音響心理学的分析２１６ｄのための入力として使用され得る。

[0083] 元の音声２１２ｂの信号および修正音声信号の音響心理学的分析２１６ｃ〜ｄからの結果は、次いで、比較され得る２１８ｂ。元の音声２１２ｂの信号と修正音声信号との比較は、Ｐ．８３５２２０ｂのテストの品質格付けのうちの１つまたは複数を提供し得る。Ｐ．８３５のスコアリングは、３つの格付け、すなわち、前景音声品質に対するＳ−ＭＯＳと、背景雑音品質に対するＮ−ＭＯＳと、全体の音声品質に対するＧ−ＭＯＳとを有し得る。３つの格付けは全て、１から５までわたり得る。Ｓ−ＭＯＳに対する１のスコアは「極めてひずんでいる」の格付けを有し得、２は「相当にひずんでいる」の格付けを有し得、３は「いくらかひずんでいる」の格付けを有し得、４は「わずかにひずんでいる」の格付けを有し得、５は「ひずんでいない」の格付けを有し得る。Ｎ−ＭＯＳに対する１のスコアは「極めて嵌入的」の格付けを有し得、２は「いくらか嵌入的」の格付けを有し得、３は「目立っているが嵌入的でない」の格付けを有し得、４は「わずかに目立っている」の格付けを有し得、５は「目立っていない」の格付けを有し得る。Ｇ−ＭＯＳに対する１のスコアは「不良」の格付けを有し得、２は「劣悪」の格付けを有し得、３は「適正」の格付けを有し得、４は「良好」の格付けを有し得、５は「優秀」の格付けを有し得る。

[0084] 図３は、知覚的客観的受聴品質評価（Ｐ．ＯＬＱＡ）の現在のＩＴＵ標準を使用してＭＯＳを予測することの精度を示すグラフである。グラフのＸ−軸は音声信号のＭＯＳ３１９の格付けに対応し、Ｙ軸は音声信号のＰ．ＯＬＱＡ３１７の格付けに対応する。Ｐ．ＯＬＱＡは、デジタル分析を通じて音声信号の品質を予測するために使用される標準である。

[0085] 図３のグラフは、音声信号のＰ．ＯＬＱＡスコアをＰ．８００スコア（ＭＯＳ）と比較する。Ｐ．ＯＬＱＡの分析が適切にスコアを予測する場合、そのスコアは、音声信号のＭＯＳに一致するか、または接近しているはずである。グラフの対角線は、Ｐ．ＯＬＱＡのスコアおよびＭＯＳが近い場合に点が存在するべき場所を示す。

[0086] 図３のグラフは、現在のＰ．ＯＬＱＡ分析が常に音声信号のＭＯＳ格付けに一致するとは限らないことを示す。通常、拡張可変レートコーデック（ＥＶＲＣ）の修正を通り抜けた音声信号のＰ．ＯＬＱＡ格付けは、グラフに示すように、予測されたものの下方にあり得る。ＥＶＲＣ修正音声信号の結果は、菱形および正方形として示される。

[0087] 図４は、音声信号品質を測定するための方法４００の一構成を示す流れ図である。方法４００は、電子デバイスによって行われ得る。電子デバイスの例は、モバイルデバイス（例えば、スマートフォン、セルラーフォン、タブレットデバイス、ラップトップコンピュータなど）、デスクトップコンピュータ、携帯情報端末（ＰＤＡ）、機器、テレビジョン、ゲームシステムおよびサーバ（例えば、ネットワークデバイスに含まれるサーバ）を含む。電子デバイスは、オプションで元の音声信号を取得し得る４０２。例えば、電子デバイスは、１つまたは複数のマイクロフォンを用いて音声信号を取り込み得、または別のデバイス（例えば、記憶デバイス、コンピュータ、電話、ヘッドセットなど）から音声信号を受信し得る。元の音声信号は、未加工または未修正の信号であり得る。例えば、元の音声信号は、符号化および／または圧縮されていない、音声信号の電子的に標本化されたバージョンであり得る。元の音声信号が取得される手法は、嵌入的な手法または方法と呼ばれ得る。例えば、嵌入的な手法は、元の音声信号と修正音声信号（例えば、ひずんだ音声信号）との間の明示的な減算を含み得る。他の手法では、元の音声信号が取得され得ない。これらの手法は、非嵌入的な手法または方法と呼ばれ得る。非嵌入的な手法では、例えば、元の音声信号が利用できないことがある（例えば、修正音声信号と元の音声信号との間の明示的な減算が存在し得ない）。例えば、方法４００は、いくつかの実装形態および／またはシナリオで、元の音声信号を取得することなく行われ得る。特に、「元の」または「きれいな」信号が比較のために利用できない場合、特徴は、品質を予測することに特に適用できることがある。元の／きれいな信号を必要としないそのようなシステムは、非嵌入的なシステムと呼ばれる。上で説明したように、蝸牛の計算形モデルは、音声信号を内有毛細胞の反応へ正確に変換する流体力学的モデルであり得る。従って、非嵌入的な特徴は、知覚領域での音声およびオーディオ信号分析のために、蝸牛モデルから抽出され得る。他の類似のモデルも使用され得る。

[0088] いくつかの構成では、電子デバイスが、修正音声信号を取得するために元の音声信号を処理し得る。例えば、電子デバイスは、修正音声信号を取得するために元の音声信号を符号化し得る（および／または、例えば、得られた符号化音声信号を復号し得る）。追加または代替として、電子デバイスは、修正音声信号を取得するために元の音声信号を向上させ得る。例えば、電子デバイスは、元の音声信号の雑音が注入されたバージョンで雑音抑圧を行い得る。電子デバイスは、修正された単一チャネル音声信号を取得し得る４０４。「単一チャネル」音声信号は、音声信号を、任意の一時点における単一サンプル（例えば、圧力の）として表し得る。例えば、修正された単一チャネル音声信号は、情報を空間的に区別することをもたらす複数の信号を含み得ない。いくつかの構成では、例えば、修正された単一チャネル音声信号が、単一のマイクロフォンで取り込まれた元の音声信号に基づき得る。

[0089] 他の構成では、電子デバイスが、修正音声信号を別のデバイス（例えば、記憶デバイス、コンピュータ、電話、ヘッドセット、エンコーダなど）から取得し得る。例えば、電子デバイスは、修正音声信号をネットワーク化された電子デバイスから受信し得る。

[0090] 修正音声信号は、元の音声信号に基づき得る。例えば、修正音声信号は、元の音声信号のひずんだバージョンであり得る。向上、符号化、復号、雑音抑圧、元の音声信号の伸張および圧縮は、修正音声信号の１つまたは複数の特性が元の音声信号の特性と異なるように、元の音声信号をひずませ得る。

[0091] いくつかの構成では、電子デバイスが、本明細書で説明されるような生理学的モデル（例えば、生理学的蝸牛モデル）を使用して、修正音声信号を処理し得る。生理学的モデルを使用して修正音声信号を処理することは、人間の聴覚系によって行われる処理をより正確に近似し得る（例えば、機能モデルよりも）。このことは、人間の聞き手によって知覚されるように音声信号品質をより正確に推定することの助けとなり得る。例えば、生理学的モデルを使用して修正音声信号を処理することは、内有毛細胞データを提供し得る。内有毛細胞データ(inner hair cell data)と基底膜データ(basilar membrane data)との間の差は、内有毛細胞データが人間の聴覚系において基底膜データよりも後のデータ収集点から収集され−従って、基底膜において見られるものを越えるさらなる処理の対象となることである。ほとんどの機能モデルは主に基底膜の反応を近似し、少数の他の機能モデルは内有毛細胞の反応を−シリアル方式で近似し始めているが、これらの機能モデルのいずれもが、生理学的な構成要素の各部がフィードフォワードおよびフィードバックのやり方で互いに依存する全体論的な方法で、完全な蝸牛（生理学的構造、流体など）の系を扱わない。本明細書で開示されるシステムおよび方法は、内有毛細胞データ、基底膜データまたは両方のデータタイプを使用して適用され得る。

[0092] 電子デバイスは、修正音声信号に基づいて複数の客観的ひずみを推定し得る４０６。例えば、客観的ひずみは、修正音声信号のひずみを表す１つまたは複数のメトリック（例えば、元の音声信号と修正音声信号との間の差）であり得る。いくつかの実装形態では、電子デバイスが、元の音声信号に追加的に基づいて複数の客観的ひずみを推定し得る。例えば、複数の客観的ひずみのうちの１つまたは複数は、修正音声信号、元の音声信号、または修正音声信号と元の音声信号の両方に基づき得る。複数の客観的ひずみは、例えば、いくつかの手法と並行して推定され得る。

[0093] いくつかの構成では、複数の客観的ひずみの各々が、音声品質の独立した次元を表し得る。例えば、ひずみの各々は、人間の聞き手のフィードバックに従って互いに近似的に無相関であり得る。例えば、人間の聞き手は、音声信号の別個のひずみを検出し得る。言い換えれば、ひずみを記述するための多くのデスクリプタが与えられると、人間の聞き手は、音声品質の相互関係のある次元に、類似のスコアを割り当てる傾向がある。１つの例では、人間の聞き手には、ひずみを記述するためのデスクリプタ「ラフ（ｒｏｕｇｈ）」、「ハーシュ（ｈａｒｓｈ）」、「フラッタリング（ｆｌｕｔｔｅｒｉｎｇ）」、「ディスコンティニュアス（ｄｉｓｃｏｎｔｉｎｕｏｕｓ）」、「ダル（ｄｕｌｌ）」、「マフルド（ｍｕｆｆｌｅｄ）」、「ディスタント（ｄｉｓｔａｎｔ）」、「シン（ｔｈｉｎ）」、「ヒッシング（ｈｉｓｓｉｎｇ）」、「ラッシング（ｒｕｓｈｉｎｇ）」、「ローリング（ｒｏａｒｉｎｇ）」、「バブリング（ｂｕｂｂｌｉｎｇ）」、「インターミッテント（ｉｎｔｅｒｍｉｔｔｅｎｔ）」および「バリアブル（ｖａｒｉａｂｌｅ）」が与えられる。この例では、人間の聞き手が、「ラフ」と「ハーシュ」とに、「フラッタリング」と「ディスコンティニュアス」とに、「ダル」と「マフルド」とに、「ディスタント」と「シン」とに、「ヒッシング」と「ラッシング」と「ローリング」とに、「バブリング」と「インターミッテント」と「バリアブル」とに、類似のスコアを割り当てる傾向がある。従って、これらのデスクリプタは、音声品質の無相関のまたは独立した次元にグループ化され得る。

[0094] いくつかの構成では、「粗さ」ひずみが、「ラフ」および「ハーシュ」デスクリプタに対応し得る。音声信号の粗さは、音声信号の高速な、時間的に局所化された劣化であり得る。粗さは、時間的な前景ひずみであり得る。「不連続性」ひずみは、「フラッタリング」および「ディスコンティニュアス」デスクリプタに対応し得る。音声信号の不連続性は、音声信号の低速な、時間的に局所化された劣化であり得る。不連続性は、時間的な前景ひずみであり得る。「鈍さ」ひずみは、「ダル」および「マフルド」デスクリプタに対応し得る。音声信号の鈍さは、音声信号の高周波数帯域の劣化であり得る。鈍さは、スペクトル（例えば、周波数）の前景ひずみであり得る。「薄さ」ひずみは、「ディスタント」および「シン」デスクリプタに対応し得る。音声信号の薄さは、音声信号の低周波数帯域の劣化であり得る。薄さは、スペクトルの前景ひずみであり得る。「ヒッシング」ひずみは、「ヒッシング」、「ラッシング」および「ローリング」デスクリプタに対応し得る。音声信号のヒッシングは、音声信号の中の背景雑音のレベルに起因する劣化であり得る。「変動性」ひずみは、「バブリング」、「インターミッテント」および「バリアブル」デスクリプタに対応し得る。音声信号の変動性は、音声信号の中の雑音の変動性に起因する劣化であり得る。これらのひずみの各々は、音声品質の独立した次元を表し得る。複数の客観的ひずみの各々は、格付けされ得、スコアが提供され得る。スコアは、複数の客観的ひずみの各々が音声信号に引き起こし得るひずみのレベルを示し得る。他の用語が音声品質の独立した次元に対して使用され得ることに留意されたい。例えば、ＩＴＵ標準Ｐ．８０６は、複数の客観的ひずみに密接に対応する知覚的品質（ＰＱ：Perceptual Quality）スケールを提示する。ＰＱスケールは、Ｓ−ＦＬＴと、Ｓ−ＲＵＦと、Ｓ−ＬＦＣと、Ｓ−ＨＦＣと、Ｂ−ＬＶＬと、Ｂ−ＶＡＲとを含む。Ｓ−ＦＬＴは、音声信号の低速に変化する劣化（不連続性）に関する。Ｓ−ＲＵＦは、音声信号の高速に変化する劣化（粗さ）に関する。Ｓ−ＬＦＣは、音声信号の低周波数のカラーレーション(low frequency coloration)の劣化（鈍さ）に関する。Ｓ−ＨＦＣは、音声信号の高周波数のカラーレーション(high frequency coloration)の劣化（薄さ）に関する。Ｂ−ＬＶＬは、音声信号の背景雑音のレベルに起因する劣化（ヒッシング）に関する。Ｂ−ＶＡＲは、音声信号の背景雑音の変動性に起因する劣化（変動性）に関する。Ｐ．８０６がラウドネスに対するＬＯＵＤスコアを含むこと、ＯＶＲＬが全体品質に対するスコアであることにも留意され得る。ＯＶＲＬは、Ｐ．８００のＭＯＳおよびＰ．８３５のＧ−ＭＯＳと同じであり得る。

[0095] いくつかの構成では、複数の客観的ひずみが、少なくとも１つの前景ひずみ、および／または少なくとも１つの背景ひずみを含み得る。例えば、複数の客観的ひずみは、４つの前景ひずみと２つの背景ひずみとを含み得る。４つの前景ひずみは、「粗さ」と、「不連続性」と、「鈍さ」と、「薄さ」とを含み得る。２つの背景ひずみは、「ヒッシング」と、「変動性」とを含み得る。前景ひずみは、音声信号の中の音声の劣化に起因する音声信号のひずみであり得る。背景ひずみは、音声信号の中で見られる雑音に起因する音声信号のひずみであり得る。従って、本明細書で開示されるシステムおよび方法は、時間的なひずみとスペクトルのひずみの両方を利用し得る。

[0096] 電子デバイスは、複数の客観的ひずみに基づいて前景品質と背景品質とを推定し得る４０８。前景ひずみは計算形前景品質推定器によって受信され得、次いで、計算形前景品質推定器は、本明細書で説明される方法と手順とを使用して音声信号の前景品質を算出し得る。前景品質は、前景ひずみに対応する修正音声信号の品質を示すメトリックであり、ＩＴＵ標準Ｐ．８３５のＳ−ＭＯＳスコアに相当し得る。背景ひずみは、計算形背景品質推定器によって受信され得、次いで、計算形背景品質推定器は、本明細書で説明される方法と手順とを使用して音声信号の背景品質を算出し得る。背景品質は、背景ひずみに対応する修正音声信号の品質を示すメトリックであり、ＩＴＵＰ．８３５のＮ−ＭＯＳスコアに相当し得る。

[0097] 電子デバイスは、前景品質および背景品質に基づいて全体品質を推定し得る４１０。例えば、電子デバイスは、本明細書で開示される方法と手順とを使用して修正音声信号の全体品質を推定するメトリックを生成し得る。この全体品質は、前景品質および背景品質に基づく客観的な測定であり得る。この全体品質は、また、音声品質の主観的な測定を近似し得る。例えば、全体品質は、主観的な聞き手の平均オピニオン評点（ＭＯＳ）を近似し得る。例えば、全体品質は、国際電気通信連合（ＩＴＵ）標準Ｐ．８００、並びに／またはＰ．８３５および／もしくはＰ．８０６によって取り上げられる主観的な測定を近似し得る。

[0098] いくつかの構成では、全体品質を推定することが、さらに複数の客観的ひずみに直接基づき得る。例えば、電子デバイスは、前景品質および背景品質に加えて、（例えば、前景品質および背景品質を介して複数の客観的ひずみに間接的にのみ基づくのではなく）複数の客観的ひずみに直接基づいて全体品質を推定し得る。言い換えれば、全体品質は、前景品質、背景品質、粗さスコア、不連続性スコア、鈍さスコア、薄さスコア、ヒッシングスコアおよび変動性スコアに基づき得る。言い換えれば、全体品質が前景品質、背景品質、粗さスコア、不連続性スコア、鈍さスコア、薄さスコア、ヒッシングスコアおよび変動性スコアに基づく場合、全体品質はこれらの相異なるファクタ次第であり得る。

[0099] 全体品質は、１つまたは複数の方法で適用され得る。例えば、全体品質は、エンコーダ、エンコーダ／デコーダ（例えば、コーデック）および／または雑音抑圧器（例えば、雑音抑圧アルゴリズム）の品質を評価するために利用され得る。いくつかの構成では、全体品質が通信システム（例えば、セルラーフォンのネットワーク）のためのネットワークおよび／またはデバイスの設定を自動的に調整して音声品質を改善するために利用され得る。全体品質は、エンコーダ、エンコーダ／デコーダ（例えば、コーデック）および／または雑音抑圧器（例えば、雑音抑圧アルゴリズム）を設計するために利用され得る。例えば、全体品質は、復号、符号化および雑音抑圧を比較するために、いくつかの動作パラメータをテストするために使用され得る。

[00100] 本明細書で開示されるシステムおよび方法は、主観的な測定を近似する全体品質の客観的な測定を提供し得る。本明細書で開示されるシステムおよび方法の利点のうちのいくつかは、コスト削減を含む。例えば、全体品質は、より迅速に、また人間の聞き手を伴わずに推定され得る。さらに、本明細書の全体品質推定は反復可能であり得るが、主観的方法は一貫した結果を提供しないことがある。本明細書で開示されるシステムおよび方法に従って決定される全体品質推定は、複数の客観的ひずみ（例えば、音声品質の複数の次元）に基づき得るが、他の客観的な手法は１次元的である。従って、本明細書で開示されるシステムおよび方法による全体品質推定は、他の客観的な手法（例えば、ＩＴＵ標準Ｐ．８６３（Ｐ．ＯＬＱＡ））よりも正確に主観的な測定（例えば、ＭＯＳ）を近似し得る。

[00101] （図４に関して説明したように）音声信号品質を測定することは、階層構造に従って行われ得る。階層構造は、複数の階層レベルを含み得、その場合、各階層レベルは、任意の各相対的に低い階層レベルに依存する。例えば、複数の階層レベルは３つのレベルを含み得る。第１の階層レベル（例えば、最低の階層レベル）は、複数の客観的ひずみを推定することを含み得る。第２の階層レベルは、前景品質と背景品質とを推定することを含み得る。第３の階層レベル（例えば、最高の階層レベル）は、全体品質を推定することを含み得る。従って、第２の階層レベルは第１の階層レベルに基づき得、第３の階層レベルは第２の階層レベルおよび（少なくとも間接的に）第１の階層レベルに基づき得る。従って、前景品質および背景品質は、複数の客観的ひずみに基づいて推定され、全体品質は、前景品質および背景品質に基づいて推定される。

[00102] 本明細書で開示されるシステムおよび方法に従って複数の階層レベルを使用することは、音声信号の伝送を伴う問題を診断および解決するための能力の改善をもたらし得る。例えば、音声信号品質が許容できる場合、全体品質は提供され、全体品質は検証するべきデータの単一の点である。しかしながら、音声信号品質が許容できない場合、音声信号は、前景品質データと背景品質データとを使用してさらに分析され得る。背景品質データが、背景品質が許容できないことを示す場合、直ちに前景品質に対応する４つの複数の客観的ひずみが除外される。音声信号は、次いで、背景品質に対応する複数の客観的ひずみを使用して、さらに分析され得る。

[00103] 本明細書で開示されるシステムおよび方法によって提供されるような、音声信号品質を測定すること（および／またはそこに含まれる１つまたは複数の手順）が、性質において予言的であり得ることに留意されたい。例えば、全体品質を「推定すること」は、主観的な受聴テストが実際に行われたとしたら主観的な品質測定（例えば、ＭＯＳ）がどうであったはずかを、予測することを含み得る。しかしながら、本明細書で開示されるシステムおよび方法によれば、受聴テストが必要でないことにも留意されたい。言い換えれば、本明細書で開示されるシステムおよび方法は、客観的な結果を比較するべき主観的な受聴テストを伴わずに行われ得る。

[00104] 図５は、音声信号品質を測定するために構成される電子デバイス５５６の一構成を示すブロック図である。電子デバイスは、図４に関して説明した方法４００の手順のうちの１つまたは複数を行い得るはずである。電子デバイス５５６は、オプションの計算形前景品質推定器５４０およびオプションの計算形背景品質推定器５４２と結合された計算形ひずみ推定器５２６、および／または計算形全体品質推定器５５２を含む。ハードウェアが結合される場合、構成要素は、直接的または間接的のいずれかで接続される。例えば、第１の構成要素が第２の構成要素に結合される場合、構成要素が直接のリンクを有し得るか、またはリンク中に介在する構成要素が存在し得るかのどちらかである。電子デバイス５５６および／またはその１つまたは複数の構成要素は、ハードウェア（例えば、回路）、ソフトウェア、または両方の組合せで実装され得る。電子デバイス５５６の例は、モバイルデバイス（例えば、スマートフォン、セルラーフォン、タブレットデバイス、ラップトップコンピュータなど）、サーバ（例えば、ネットワークデバイスに含まれるサーバ）およびソフトフォンデバイス（例えば、Ｓｋｙｐｅ、ＦａｃｅＴｉｍｅなど）を含む。

[00105] 電子デバイス５５６（および／または、例えば、計算形ひずみ推定器５２６）は、修正された単一チャネル音声信号５２４を取得し得る。いくつかの実装形態および／またはシナリオでは、電子デバイス５５６が、元の音声信号５１２を追加的に取得し得る。他の実装形態および／またはシナリオでは、電子デバイス５５６が、元の音声信号５１２を取得しないことがある。これは、図４に関して上で説明したように達成され得る。

[00106] 計算形ひずみ推定器５２６は、修正された単一チャネル音声信号５２４に基づいて（および／または、オプションで元の音声信号５１２に基づいて）、複数の客観的ひずみを推定し得る。聞き手はひずみを主観的に評価しないので、ひずみは客観的である。いくつかの実装形態および／またはシナリオでは（例えば、非嵌入的な手法では）、計算形ひずみ推定器５２６は、元の音声信号５１２を伴わずに複数の客観的ひずみを推定し得る。これは、図４に関して上で説明したように達成され得る。例えば、計算形ひずみ推定器５２６は、修正された単一チャネル音声信号５２４および／または元の音声信号５１２に基づいて、粗さ５２８、不連続性５３０、鈍さ５３２、薄さ５３４、ヒッシング５３６および／または変動性５３８を推定し得る。計算形ひずみ推定器５２６は、客観的ひずみ推定を行うための計算形アルゴリズムを利用し得る。主観的な人間の聞き手がひずみ推定を決定しないので、これは「客観的」であり得る。

[00107] いくつかの構成では、複数の客観的ひずみのうちの１つまたは複数が、計算形前景品質推定器５４０に供給され得る。これは、図４に関して上で説明したように達成され得る。例えば、粗さ５２８、不連続性５３０、鈍さ５３２および薄さ５３４のひずみは、計算形前景品質推定器５４０に供給され得る。計算形前景品質推定器５４０は、複数の客観的ひずみ（例えば、粗さ５２８、不連続性５３０、鈍さ５３２および薄さ５３４のひずみ）に基づいて、前景品質５５０を推定し得る。前景品質５５０は、計算形全体品質推定器５５２に供給され得る。

[00108] いくつかの構成では、複数の客観的ひずみのうちの１つまたは複数が、計算形背景品質推定器５４２に供給され得る。これは、図４に関して上で説明したように達成され得る。例えば、ヒッシング５３６および変動性５３８のひずみは、計算形背景品質推定器５４２に供給され得る。計算形背景品質推定器５４２は、複数の客観的ひずみ（例えば、ヒッシング５３６および変動性５３８のひずみ）に基づいて、背景品質５４８を推定し得る。背景品質５４８は、計算形全体品質推定器５５２に供給され得る。

[00109] 計算形全体品質推定器５５２は、前景品質５５０および背景品質５４８に基づいて、全体品質５５４を推定し得る。これは、図４に関して上で説明したように達成され得る。例えば、計算形全体品質推定器５５２は、前景品質５５０および背景品質５４８に基づいて、全体品質５５４を推定し得る。別の例では、計算形全体品質推定器５５２が、前景品質５５０および背景品質５４８に加えて、粗さ５２８、不連続性５３０、鈍さ５３２、薄さ５３４、ヒッシング５３６および／または変動性５３８のひずみに直接基づいて、全体品質５５４を推定し得る。電子デバイス５５６が、図４に関して説明したような階層構造に従って音声信号品質を測定し得ることに留意されたい。

[00110] 図６は、本明細書で開示されるシステムおよび方法に従って実施され得る階層構造６００の一例を示すブロック図である。図６に示す階層構造６００は、嵌入的な手法の一例である。いくつかの構成では、特徴が、元の音声信号６１２および修正音声信号６２４から抽出され得る６５６。例えば、元の音声信号６１２および修正音声６２４の信号は、人間の蝸牛をモデル化する蝸牛モデラに供給され得る。蝸牛モデルは、人間の蝸牛の聴覚処理における影響を近似するために、元の音声信号６１２と修正音声信号６２４とを修正する。

[00111] この階層構造６００において、複数の客観的ひずみは、元の音声信号６１２（例えば、蝸牛モデル化された元の音声信号）および修正音声信号６２４（例えば、蝸牛モデル化された修正音声信号）に基づいて推定され得る。１つの例では、ひずみが、粗さ６２８、不連続性６３０、鈍さ６３２、薄さ６３４、ヒッシング６３６および／または変動性６３８のひずみを含み得る。上で説明したように、粗さ６２８のひずみは、「ラフ」および「ハーシュ」デスクリプタに対応し得る。粗さ６２８のひずみは、粗さモジュール６５８によって決定され得る。不連続性６３０のひずみは、「フラッタリング」および「ディスコンティニュアス」デスクリプタに対応し得る。不連続性６３０のひずみは、不連続性モジュール６６０によって決定され得る。鈍さ６３２のひずみは、「ダル」および「マフルド」デスクリプタに対応し得る。鈍さ６３２のひずみは、鈍さモジュール６６２によって決定され得る。薄さ６３４のひずみは、「ディスタント」および「シン」デスクリプタに対応し得る。薄さ６３４のひずみは、薄さモジュール６６４によって決定され得る。ヒッシング６３６のひずみは、「ヒッシング」、「ラッシング」および「ローリング」デスクリプタに対応し得る。ヒッシング６３６のひずみは、ヒッシングモジュール６６６によって決定され得る。変動性６３８のひずみは、「バブリング」、「インターミッテント」および「バリアブル」デスクリプタに対応し得る。変動性６３８のひずみは、変動性モジュール６６８によって決定され得る。

[00112] 粗さ６２８、不連続性６３０、鈍さ６３２および薄さ６３４のひずみは、前景ひずみとして分類され得る。ヒッシング６３６および変動性６３８のひずみは、背景ひずみとして分類され得る。上で説明したように、前景品質６５０は、粗さ６２８、不連続性６３０、鈍さ６３２および薄さ６３４のひずみに基づいて、オプションで推定され得る。さらに、背景品質６４８は、ヒッシング６３６および変動性６３８のひずみに基づいて、オプションで推定され得る。

[00113] 構造に示すように、全体品質６５４は、前景品質６５０および背景品質６４８に直接基づき得る。オプションで、全体品質６５４は、前景品質６５０および背景品質６４８に加えて、複数の客観的ひずみに直接基づき得る。

[00114] 個別のひずみの客観的なスコアは、２つの全体スコア、すなわち、前景品質６５０に対する一方および背景品質６４８に対する他方に合成され得る。例えば、前景品質６５０は、信号品質（ＳＩＧ、ＳＧＮ）が表され得、背景品質６４８は、背景品質４３６（ＢＧＮ）として表され得る。

[00115] 前景品質６５０および背景品質６４８のスコアは、１つの最終の全体品質６５４のスコアに合成され得る。全体品質６５４は、全体品質６５４（ＭＯＳ）として表され得る。いくつかの考えられる合成手法は、（それだけには限らないが）線形回帰(linear regression)（例えば、ＭＯＳ＝ｂ₂＊ＳＩＧ＋ｂ₁＊ＢＧＮ＋ｂ₀）または非線形回帰(non-linear regression)（例えば、ＭＯＳ＝ｂ₄＊ＳＧＮ²＋ｂ₃＊ＳＧＮ＋ｂ₂＊ＢＧＮ²＋ｂ₁＊ＢＧＮ＋ｂ₀）として与えられる。

[00116] 本明細書で開示されるシステムおよび方法は、テスト対象の各音声信号に対して３つのレベルの客観的なスコアを提供し得、そうしたスコアは、高周波数ひずみおよび背景雑音のレベルなどの音声品質ひずみのより多くの詳細を提供し得る。さらに、本明細書で開示されるシステムおよび方法は、アルゴリズムの開発をより簡単にし得る。例えば、開発者は、いくつかのタイプの属性／ひずみに集中することができ、従って、調査するべきファクタの範囲を低減できる。本明細書で開示されるシステムおよび方法は、また、全体品質６５４の予測の改善された精度を提供し得る。いくつかの個別のスコアから合成される場合、例えば、全体品質６５４の予測は、単一のスコアに直接基づいてそれを予測するよりも正確であり得る。

[00117] 階層構造６００は、モバイルデバイス、移動局、加入者局、クライアント、クライアント局、ユーザ機器（ＵＥ）、遠隔局、アクセス端末、モバイル端末、端末、ユーザ端末、加入者ユニットなどとも呼ばれるワイヤレス通信デバイスなどの、電子デバイス５５６によって実施され得る。電子デバイス５５６の他の例は、ラップトップコンピュータまたはデスクトップコンピュータ、セルラーフォン、スマートフォン、ワイヤレスモデム、電子リーダー、タブレットデバイス、ゲームシステムなどを含む。さらに、本システムおよび方法は、適応雑音消去などを行う基地局、電子デバイス５５６で使用され得る。

[00118] 階層構造６００によって決定される全体品質６５４は、音声の所与の部分に対する人間の主観的なスコアをシミュレートし得る。言い換えれば、階層構造６００は、人間の聞き手１４０ａ〜ｃがリアルタイムに主観的なスコアを提示することを必要とする代わりに、訓練されたデータに基づいて全体品質６５４を決定し得る。これを行うために、階層構造６００は、相異なるひずみを分離するために、修正音声信号または元の音声信号６１２からの特徴６５６の抽出を使用し得る。特徴は、複数の客観的ひずみの次元の各々に対して、予測スコアを決定するために使用され得る。

[00119] 図７は、本明細書で開示されるシステムおよび方法に従って実施され得る階層構造７００の別の例を示すブロック図である。図７に示す階層構造７００は、非嵌入的な手法の一例である。この例で説明される要素は、図６に関して説明したような対応する要素と類似であり得る。但し、この例では、修正音声信号７２４に基づいて（例えば、元の音声信号６１２を伴わずに）特徴が抽出され得、ひずみが決定され得る。

[00120] この階層構造７００において、複数の客観的ひずみは、修正音声信号７２４（例えば、蝸牛モデル化された修正音声信号）に基づいて推定され得る。１つの例では、ひずみが、粗さ７２８、不連続性７３０、鈍さ７３２、薄さ７３４、ヒッシング７３６および／または変動性７３８のひずみを含み得る。上で説明したように、粗さ７２８のひずみは、「ラフ」および「ハーシュ」デスクリプタに対応し得る。粗さ７２８のひずみは、粗さモジュール７５８によって決定され得る。不連続性７３０のひずみは、「フラッタリング」および「ディスコンティニュアス」デスクリプタに対応し得る。不連続性７３０のひずみは、不連続性モジュール７６０によって決定され得る。鈍さ７３２のひずみは、「ダル」および「マフルド」デスクリプタに対応し得る。鈍さ７３２のひずみは、鈍さモジュール７６２によって決定され得る。薄さ７３４のひずみは、「ディスタント」および「シン」デスクリプタに対応し得る。薄さ７３４のひずみは、薄さモジュール７６４によって決定され得る。ヒッシング７３６のひずみは、「ヒッシング」、「ラッシング」および「ローリング」デスクリプタに対応し得る。ヒッシング７３６のひずみは、ヒッシングモジュール７６６によって決定され得る。変動性７３８のひずみは、「バブリング」、「インターミッテント」および「バリアブル」デスクリプタに対応し得る。変動性７３８のひずみは、変動性モジュール７６８によって決定され得る。

[00121] 粗さ７２８、不連続性７３０、鈍さ７３２および薄さ７３４のひずみは、前景ひずみとして分類され得る。ヒッシング７３６および変動性７３８のひずみは、背景ひずみとして分類され得る。上で説明したように、前景品質７５０は、粗さ７２８、不連続性７３０、鈍さ７３２および薄さ７３４のひずみに基づいて、オプションで推定され得る。さらに、背景品質７４８は、ヒッシング７３６および変動性７３８のひずみに基づいて、オプションで推定され得る。

[00122] 構造に示すように、全体品質７５４は、前景品質７５０および背景品質７４８に直接基づき得る。オプションで、全体品質７５４は、前景品質７５０および背景品質７４８に加えて、複数の客観的ひずみに直接基づき得る。

[00123] 個別のひずみの客観的なスコアは、２つの全体スコア、すなわち、前景品質７５０に対する一方および背景品質７４８に対する他方に合成され得る。例えば、前景品質７５０は、信号品質（ＳＩＧ、ＳＧＮ）が表され得、背景品質７４８は、背景品質４３６（ＢＧＮ）として表され得る。

[00124] 前景品質７５０および背景品質７４８のスコアは、１つの最終の全体品質７５４のスコアに合成され得る。全体品質７５４は、全体品質７５４（ＭＯＳ）として表され得る。いくつかの考えられる合成手法は、（それだけには限らないが）線形回帰（例えば、ＭＯＳ＝ｂ₂＊ＳＩＧ＋ｂ₁＊ＢＧＮ＋ｂ₀）または非線形回帰（例えば、ＭＯＳ＝ｂ₄＊ＳＧＮ²＋ｂ₃＊ＳＧＮ＋ｂ₂＊ＢＧＮ²＋ｂ₁＊ＢＧＮ＋ｂ₀）として与えられる。

[00125] 本明細書で開示されるシステムおよび方法は、テスト対象の各音声信号に対して３つのレベルの客観的なスコアを提供し得、そうしたスコアは、高周波数ひずみおよび背景雑音のレベルなどの音声品質ひずみのより多くの詳細を提供し得る。さらに、本明細書で開示されるシステムおよび方法は、アルゴリズムの開発をより簡単にし得る。例えば、開発者は、いくつかのタイプの属性／ひずみに集中することができ、従って、調査するべきファクタの範囲を低減できる。本明細書で開示されるシステムおよび方法は、また、全体品質７５４の予測の改善された精度を提供し得る。いくつかの個別のスコアから合成される場合、例えば、全体品質７５４の予測は、単一のスコアに直接基づいてそれを予測するよりも正確であり得る。

[00126] 階層構造７００は、モバイルデバイス、移動局、加入者局、クライアント、クライアント局、ユーザ機器（ＵＥ）、遠隔局、アクセス端末、モバイル端末、端末、ユーザ端末、加入者ユニットなどとも呼ばれるワイヤレス通信デバイスなどの、電子デバイス５５６によって実施され得る。電子デバイス５５６の他の例は、ラップトップコンピュータまたはデスクトップコンピュータ、セルラーフォン、スマートフォン、ワイヤレスモデム、電子リーダー、タブレットデバイス、ゲームシステムなどを含む。さらに、本システムおよび方法は、適応雑音消去などを行う基地局、電子デバイス５５６で使用され得る。

[00127] 階層構造７００によって決定される全体品質７５４は、音声の所与の部分に対する人間の主観的なスコアをシミュレートし得る。言い換えれば、階層構造７００は、人間の聞き手１４０ａ〜ｃがリアルタイムに主観的なスコアを提示することを必要とする代わりに、訓練されたデータに基づいて全体品質７５４を決定し得る。これを行うために、階層構造７００は、相異なるひずみを分離するために、修正音声信号または元の音声信号７１２からの特徴７５６の抽出を使用し得る。特徴は、複数の客観的ひずみの次元の各々に対して、予測スコアを決定するために使用され得る。

[00128] 図８は、抽出された特徴８５６ａおよび１つまたは複数のトレーニング音声サンプル８６８に基づく、主観的な品質測定スコアの、１つの単一次元の予測のための方法８００を示すブロック図である。トレーニングデータベース８８２は、特徴がそこから抽出される８５６ａ、１つまたは複数のトレーニング音声サンプル８６８を含み得る。トレーニングデータベース８８２は、また、１つまたは複数のトレーニング音声サンプル８６８に対して、対応する主観的なスコア８７２を含み得る。これらは、主観的な人間の聞き手の方法を使用して収集され得、すなわち、ここで、多くの人間の聞き手１０４ａ〜ｃは各々、１つまたは複数のトレーニング音声サンプル８６８を聞くように頼まれ、次いで、１つまたは複数のトレーニング音声サンプル８６８を１つまたは複数のカテゴリの中で格付けするように頼まれる。１つの構成では、トレーニングデータベース８８２が、図５に示すひずみの次元、すなわち、粗さ５２８、不連続性５３０、鈍さ５３２、薄さ５３４、ヒッシング５３６および変動性５３８の各々における、１つまたは複数のトレーニング音声サンプル８６８に対するスコアを含み得る。さらに、トレーニングデータベース８８２は、多くの異なる条件（例えば、異なるコーデック、異なるネットワーク技術、異なる変調方式など）に対する１つまたは複数のトレーニング音声サンプル８６８を、対応する主観的なスコア８７２と一緒に有し得る。

[00129] 推定重み８７０は、次いで、１つまたは複数のトレーニング音声サンプル８６８から抽出された特徴８５６ａ、および対応する主観的なスコア８７２に基づいて推定され得る。言い換えれば、１つまたは複数のトレーニング音声サンプル８６８から抽出された特徴８５６ａに１つまたは複数のトレーニング音声サンプル８６８に対応する推定重み８７０を生成させることになる、推定重み８７０が決定され得る。このトレーニングは、計算形全体品質推定器５４０（例えば、図５に示したような）が元の音声信号５１２の一部分に対する全体品質５５４を決定する前に、オフラインで行われ得る。

[00130] 特徴に対する重み８７４は、次いで、１つまたは複数のテスト音声サンプル８７６（すなわち、全体品質５５４がそれに対して望まれる元の音声５１２または劣化した音声）から抽出された特徴８５６ｂに、例えば、線形回帰８７８のアルゴリズムを使用して適用され得る。１つまたは複数のテスト音声サンプル８７６は、テストデータベース８８４の中に配置され得る。１つの構成では、特徴８７４に対する１組の重みが、ひずみの次元、すなわち、粗さ５２８、不連続性５３０、鈍さ５３２、薄さ５３４、ヒッシング５３６および変動性５３８の各々に対するトレーニングデータから決定され得る。従って、特定の次元に対する主観的なスコアの予測８８０は、特定のひずみの次元に対する特徴に対する重み８７４を、テスト音声サンプル８７６の抽出された特徴８５６ｂに適用することによって決定され得る。

[00131] 図９は、図９Ａ〜図９Ｃに対応する一例の複数の部分を示すブロック図である。重み９９６（ベクトルｂとして図９Ｃに表される）は、トレーニング期間中に（例えば、全体品質５５４が決定される前にオフラインで）決定され得る。重み９９６は、音声の全体品質５５４を決定するためのランタイム中に、図９Ｂ（嵌入的または非嵌入的）に示す音声特徴９９２ａ〜ｎに適用され得る。詳細には、１組の重み９９６、ｂは、各ひずみの次元に対して決定され得る。

[00132] トレーニングデータベース８８２は、図９Ａに示すようにＮ個の条件９８８ａ〜ｎに対するトレーニング音声サンプル８６８を含み得、各条件９８８ａ〜ｎは、例えば、異なるコーデック、異なるネットワーク技術、異なる変調方式などの、音声が受信された状況の異なるセットに対応する。トレーニングデータベース８８２は、また、Ｎ個の条件の各々についての各ひずみの次元に対する主観的なスコア９８６ａ〜ｎを含み得る。言い換えれば、各条件に対して、トレーニングデータベースは、各ひずみの次元に対して１つ、６個の主観的なスコア８７２を有し得る。一括して、特定のひずみの次元（図９Ｃの粗さ）にとっての全てのＮ個の条件に対する主観的なスコアは、Ｓと呼ばれ得る。

[00133] 特徴行列(feature matrix)９９４の中の各特徴ベクトル（例えば、ＦＭの中の各列）は、特定の条件９８８ａ〜ｎに対して、すなわち、蝸牛モデル出力９９０ａ〜ｎの選択されたセクションの分析シリアルを介した嵌入的または非嵌入的特徴抽出(intrusive or non-intrusive feature extraction)を使用して、決定され得る。特徴ベクトルは、特徴行列９９４、ＦＭの中に配置される。従って、Ｎ個の条件９８８ａ〜ｎが使用される場合、特徴ベクトルはＮ個の列を有し得る。特に、この例ではＦＭ９９４は５４×Ｎ行列であるが、データの固有のサイズ(specific sizes)は変化し得る。

[00134] 重み９９６は、次いで、特徴行列９９４、ＦＭ、および知られている主観的なスコア９８６ａ〜ｎ、Ｓに基づいて推定され得る。言い換えれば、特徴行列９８６、ＦＭにＮ個の条件９８８ａ〜ｎに対応する主観的なスコア９８６ａ〜ｎ、Ｓを生成させることになる、重み９９６、ｂが決定され得る。従って、図９Ｃに示すような重み９９６、ｂは、式（１）を満たすように算出され、

[00135] ここで、ＦＭはトレーニング音声のＮ個の条件９８８ａ〜ｎに対して決定された特徴行列９９４であり、ｂは特定のひずみの次元に対する所望の重み９９６であり、Ｓは特定のひずみの次元に対する主観的なスコア９８６ａ〜ｎのベクトルである。従って、重み９９６は、式（２）に従って算出され得、

[00136] ここで、ＦＭ^-1は逆の特徴行列９９４である。重みセット９９６、ｂは、各ひずみの次元に対して決定され得、各ひずみの次元、すなわち、粗さ５２８、不連続性５３０、鈍さ５３２、薄さ５３４、ヒッシング５３６および変動性５３８に対する予測スコアの将来の予測のために保存され得る。式（２）が理論的解法であることに留意されたい。実際には、ＦＭ＊ｂを最良にＳと一致させる「ｂ」を見つけるための他の方法、例えば、多重線形回帰が存在し得る。

[00137] 計算形全体品質推定器５５２（例えば、図５に示すような）が元の音声信号５１２の一部分に対する全体品質５５４を決定する前に、このトレーニングはオフラインで行われ得るけれども、重み９９６は、次いで、全体品質５５４がそれに対して望まれるテスト音声サンプル８７６から抽出された特徴に適用され得る。

[00138] 図１０は、音声信号品質を測定するために実施され得る階層構造１０００の一例を示す流れ図である。階層構造１０００は、電子デバイス５５６によって行われ得る。電子デバイス５５６は、修正音声信号５２４の複数の客観的ひずみを推定することによって、または元の音声信号５１２に基づいて、第１の階層構造レベルを行い得る１００２。例えば、客観的ひずみは、修正音声信号５２４のひずみを表す１つまたは複数のメトリックであり得る。複数の客観的ひずみは、音声品質の独立した次元を表し得る。例えば、複数の客観的な音声ひずみは、粗さ５２８、不連続性５３０、鈍さ５３２、薄さ５３４、ヒッシング５３６、および変動性５３８であり得る。

[00139] 電子デバイス５５６は、次いで、前景品質５５０と背景品質５４８とを推定することによって、第２の階層構造レベルを行い得る１００４。前景品質５５０および背景品質５４８は、第１の階層構造レベルで推定された複数の客観的ひずみに基づき得る。言い換えれば、第２の階層構造レベルは、第１の階層構造レベルの前に行われることはない。前景品質５５０は、前景品質推定器５４０によって推定され得、背景品質５４８は、背景品質推定器５４２によって推定され得る。

[00140] 前景品質５５０は、客観的ひずみのうちの１つまたは複数に基づくことができる。例えば、粗さ５２８、不連続性５３０、鈍さ５３２および薄さ５３４は、前景客観的ひずみであり得る。前景品質５５０は、鈍さ５３２および薄さ５３４のみを、または前景客観的ひずみの任意の他の可能な組合せを使用して決定され得る。背景品質５４８は、客観的ひずみのうちの１つまたは複数に基づくことができる。背景客観的ひずみは、ヒッシング５３６および変動性５３８であり得る。背景品質５４８は、ヒッシング５３６と変動性５３８の両方を、またはヒッシング５３６もしくは変動性５３８のみを使用して見つけられ得る。本明細書で開示されるシステムおよび方法は、客観的ひずみの任意の組合せを使用し得る。客観的ひずみは、粗さ５２８、不連続性５３０、鈍さ５３２、薄さ５３４、ヒッシング５３６または変動性５３８だけでなくそれ以上を含み得る。

[00141] 電子デバイス５５６は、次いで、音声信号の全体品質５５４を推定することによって、第３の階層構造レベルを行い得る１００６。音声信号の全体品質５５４は、前景品質５５０、背景品質５４８に基づき得、オプションで複数の客観的ひずみに直接基づき得る。言い換えれば、第３の階層構造レベルは、第１の階層構造レベルまたは第２の階層構造レベルの前に行われることはない。客観的ひずみは、全体品質５５４を決定するために、前景品質５５０および背景品質５４８を通じて間接的に使用され得る。さらに、客観的ひずみは、前景品質５５０および背景品質５４８に加えて、全体品質５５４を決定するために直接使用され得る。全体品質５５４は、音声品質の主観的な測定を近似し得る。

[00142] 図１１は、音声信号品質を測定するために構成される、ネットワークデバイス１１０１および２つの電子デバイス１１５６ａ〜ｂの一構成を示すブロック図である。ネットワークデバイス１１０１は、音声評価器１１９８ｂと、適応モジュール１１０３ｂと、フィードバックモジュール１１０５ｂとを含み得る。ネットワークデバイス１１０１は、ワイヤレスルータ、サーバ、基地局、セル電話タワーまたはコンピュータシステムであり得る。音声評価器１１９８ｂは、本明細書で開示される方法を行うために使用され得る。音声評価器１１９８ｂは、計算形ひずみ推定器５２６と、計算形前景品質推定器５４０と、計算形背景品質推定器５４２と、計算形全体品質推定器５５２とを含み得る。ネットワークデバイス１１０１は、１つまたは複数の音声信号１１０７ａ〜ｂを１つまたは複数の電子デバイス１１５６ａ〜ｂから取得し得る。音声信号１１０７ａ〜ｂは、修正音声信号５２４、元の音声５１２の信号、または修正音声信号５２４と元の音声信号５１２の両方であり得る。ネットワークデバイス１１０１は、音声信号１１０７ａ〜ｂで見つけられる複数の客観的ひずみを決定するために、音声評価器１１９８ｂを使用し得る。複数の客観的ひずみは、音声信号１１０７ａ〜ｂの前景品質５５０と背景品質５４８とを決定するために使用され得る。次いで、音声信号１１０７ａ〜ｂの全体品質５５４は、前景品質５５０と背景品質５４８とを使用して決定され得る。

[00143] 音声信号１１０７ａ〜ｂの全体品質５５４に応じて、処理構造に変更が加えられる必要があることを、ネットワークデバイス１１０１は決定し得る。変更は、適応モジュール１１０３ｂによって加えられ得る。例えば、適応モジュール１１０３ｂは、ネットワークデバイス１１０１によってなされる符号化、復号またはトランスコーディングを修正することができ得る。適応モジュール１１０３ｂは、また、音声信号１１０７ａ〜ｂに対して割り当てられた帯域幅を変更すること、またはネットワークデバイス１１０１のビットレートを変更することができ得る。別の例では、電子デバイス１１５６ａ〜ｂが、音声信号１１０７ａ〜ｂをネットワークデバイス１１０１へ送り得る。ネットワークデバイス１１０１は、同じ音声信号１１０７ａ〜ｂを別の電子デバイス１１５６ａ〜ｂへ送り得、その後、音声評価器１１９８ｂは、ネットワークデバイス１１０１が音声信号１１０７ａ〜ｂを受信したときの音声信号１１０７ａ〜ｂの全体品質５５４と、ネットワークデバイス１１０１がそれを他の電子デバイス１１５６ａ〜ｂへ送ったときの音声信号１１０７ａ〜ｂの全体品質５５４とを決定し得る。送られた音声信号１１０７ａ〜ｂの全体品質５５４が低すぎる場合、ネットワークデバイス１１０１は、ネットワークデバイス１１０１によって行われ劣化を引き起こした可能性のある符号化を決定するために、音声評価器１１９８ｂを使用し得る。ネットワークデバイス１１０１は、次いで、符号化方法を、音声信号１１０７ａ〜ｂにより良く行うものへ変更するために、適応モジュール１１０３ｂを使用し得る。この例では適応モジュール１１０３ｂはこれらの変更のみを加えることができ得るが、他の構成では適応モジュール１１０３ｂが加え得る固有の変更は変化し得る。

[00144] ネットワークデバイス１１０１が１つまたは複数の電子デバイス１１５６ａ〜ｂに接続されている間に、ネットワークデバイス１１０１は変更を加え得る。ネットワークデバイス１１０１は、また、より広範な変更が加えられる必要があり得ることを決定し得、電子デバイス１１５６ａ〜ｂがネットワークデバイス１１０１に接続されていない間に、これらの変更をオフラインで加え得る。ネットワークデバイス１１０１は、また、音声信号１１０７ａ〜ｂの全体品質５５４のスコアを、フィードバックモジュール１１０５ｂに記憶し得る。ネットワークデバイス１１０１に保守または保全が行われているとき、フィードバックモジュール１１０５ｂは、音声信号１１０７ａ〜ｂの全体品質５５４のスコアを提供し得る。全体品質５５４の記憶されているスコアを使用する場合、いくつかの変更が保守および保全の間にハードウェアに加えられ得る。例えば、音声信号１１０７ａ〜ｂの全体品質５５４が低すぎるとセル電話タワーにおいて一貫して決定される場合、セル電話タワーのハードウェアは、より新しいハードウェアを用いて更新または置換され得る。

[00145] フィードバックモジュール１１０５ｂは、また、ネットワークデバイス１１０１に接続されている１つまたは複数の電子デバイス１１５６ａ〜ｂにフィードバックを提供し得る。フィードバックは、ネットワークデバイス１１０１がそれらを受信したときの音声信号１１０７ａ〜ｂに対する全体品質５５４のスコアを含み得、ネットワークデバイス１１０１がそれらを別の電子デバイス１１５６ａ〜ｂへ送ったときの音声信号１１０７ａ〜ｂに対する全体品質５５４のスコアも含み得る。フィードバックは、ネットワークデバイス１１０１が音声信号１１０７ａ〜ｂの音声信号の劣化の原因でないかもしれないことを示し得る。１つまたは複数の電子デバイス１１５６ａ〜ｂに提供されるフィードバックは、また、電子デバイス１１５６ａ〜ｂから当初送信されたときの音声信号の全体品質５５４が低かったことを示し得、場合によっては、ネットワークデバイス１１０１が信号の劣化の原因でないかもしれないことを示し得る。フィードバックは、電子デバイス１１５６ａ〜ｂが送信された音声信号１１０７ａ〜ｂの全体品質５５４を改善できる方法を示し得る。例えば、フィードバックは、電子デバイス１１５６ａ〜ｂによって行われた音声信号１１０７ａ〜ｂの圧縮が適切に機能していないことを示し得る。

[00146] 電子デバイス１１５６ａは、音声評価器１１９８ａと、適応モジュール１１０３ａと、フィードバックモジュール１１０５ａとを含み得る。音声評価器１１９８ａは、本明細書で開示される方法を行うために使用され得る。電子デバイス１１５６ａは、ネットワークデバイス１１０１への音声信号１１０７ａを取得または送信し得る。音声信号１１０７ａは、修正音声信号５２４、元の音声信号５１２、または修正音声信号５２４と元の音声信号５１２の両方であり得る。電子デバイス１１５６ａは、音声信号１１０７ａの複数の客観的ひずみと全体品質５５４とを決定するために、音声評価器１１９８ａを使用し得る。適応モジュール１１０３ａは、音声信号１１０７ａの全体品質５５４に基づいて、電子デバイス１１５６ａの性能を変更し得る。フィードバックモジュール１１０５ａは、全体品質５５４、および電子デバイス１１５６ａによって行われている処理のタイプについてのキャリアフィードバックを、ネットワークデバイス１１０１に提供し得る。従って、本明細書で開示されるシステムおよび方法は、スマートフォンおよび／または他のデバイスにおける客観的な品質の測定（および、音声品質の悪化の関連した診断）を提供し得る（例えば、ユーザおよび／またはネットワークプロバイダが彼らの音声会話の品質の「メトリック」を得ることができ得るように）。上記に類似して、品質のこれらのメトリックは、また、Ｓｋｙｐｅなどのソフトフォンの用途に含まれ得る。

[00147] 図１２は、音声信号品質を測定するために構成される電子デバイス１２５６の一構成を示すブロック図である。電子デバイス１２５６は、コンピュータシステム、ゲームシステム、サーバまたはモバイルデバイスであり得る。電子デバイス１２５６は、また、一緒に働く１つまたは複数の電子デバイス１２５６であり得る。すなわち、Ｂｌｕｅｔｏｏｔｈ（登録商標）ヘッドフォン、雑音消去ヘッドフォン、モバイルデバイスまたはスピーカ。

[00148] 電子デバイス１２５６は、音声評価器１２９８と、適応モジュール１２０３と、ディスプレイ１２０５とを含み得る。音声評価器１２９８は、計算形ひずみ推定器５２６と、計算形前景品質推定器５４０と、計算形背景品質推定器５４２と、計算形全体品質推定器５５２とを含み得る。音声評価器１２９８は、電子デバイス１２５６が送っているとともに受信している１つまたは複数の音声信号の、複数の客観的ひずみと、前景品質５５０と、背景品質５４８と、全体品質５５４とを決定するために使用され得る。例えば、電子デバイス１２５６は、異なるワイヤレス通信サービスプロバイダから生じた音声信号を受信しているモバイルデバイスであり得る。音声評価器１２９８は、電子デバイス１２５６によって受信されたときの音声信号の全体品質５５４を決定し得る。音声評価器１２９８は、次いで、モバイルデバイスによって受信された音声信号の全体品質５５４と、音声信号がワイヤレス通信サービスプロバイダのネットワーク内でネットワークデバイス１１０１によって最初に受信されたときの音声信号の全体品質５５４とを比較するために、フィードバックをネットワークデバイス１１０１へ送り得る。

[00149] 電子デバイス１２５６は、また、その性能および処理パラメータを、適応モジュール１２０３を使用して適応させることができ得る。適応モジュール１２０３は、電子デバイス１２５６によってなされる符号化、復号またはトランスコーディングを修正することができ得る。適応モジュール１２０３は、また、１つまたは複数の音声信号に対して割り当てられた帯域幅を変更すること、または電子デバイス１２５６のビットレートを変更することができ得る。例えば、音声信号の全体品質５５４が低すぎることがあり、適応モジュール１２０３は、電子デバイス１２５６がアンテナ電力を増大させるべきであると決定することがある。アンテナ電力を増大させることは、セルタワーと電子デバイス１２５６との間の接続を改善し得る。音声評価器１２９８は、全体品質５５４の新しいスコアが許容できると決定し得、適応モジュール１２０３は、増大されたアンテナ電力で継続するように電子デバイス１２５６に指示し得る。別の例では、電子デバイス１２５６が、１組の雑音消去ヘッドフォンであり得る。雑音消去ヘッドフォンは、アクティブな雑音消去を行い得、その場合、ヘッドフォンは、どんな雑音が抑圧されておりどんな雑音が許容されているかを、複数の客観的ひずみを使用して決定する。ひずみのうちの１つまたは複数が音声信号を劣化させている場合、雑音消去ヘッドフォンは、消去されている雑音と、どんな雑音が許可されているかとを適応させるために、適応モジュール１２０３内に配置されているアクティブな雑音抑圧を使用し得る。

[00150] 電子デバイス１２５６は、全体品質５５４のスコアを電子デバイス１２５６において示すために、ディスプレイ１２０５を使用し得る。ディスプレイ１２０５は、音声信号の複数の客観的ひずみのスコア、前景品質５５０、背景品質５４８または全体品質５５４を示し得る。この情報は、電子デバイス１２５６のハードウェアまたは処理パラメータに修正またはアップグレードを行うために、電子デバイス１２５６のオペレータによって、または保守の間に使用され得る。ディスプレイ１２０５上で提示される情報は、また、音声信号がネットワークデバイス１１０１によって受信されたときの音声信号の全体品質５５４を示すために使用され得る。この情報により、電子デバイス１２５６のオペレータは、音声信号の劣化が電子デバイス１２５６で発生しているのか、または音声信号の劣化がネットワークデバイス１１０１で発生しているのか、または音声信号はネットワークデバイス１１０１によって受信されたときにすでに劣化していることを、知ることができるようになり得る。

[00151] 図１３は、音声信号品質を測定するために電子デバイス１２５６によって実施される方法１３００を示す流れ図である。方法１３００は、電子デバイス１２５６（例えば、図１１および図１２に関して説明した電子デバイス）によって行われ得る。電子デバイス１２５６の例は、モバイルデバイス（例えば、スマートフォン、セルラーフォン、タブレットデバイス、ラップトップコンピュータなど）、デスクトップコンピュータ、携帯情報端末（ＰＤＡ）、機器、テレビジョン、ゲームシステムおよびサーバ（例えば、ネットワークデバイスに含まれるサーバ）を含む。電子デバイス１２５６は、音声信号を取得し得る１３０２。音声信号は、修正音声信号５２４、元の音声信号５１２、または修正音声信号５２４と元の音声信号５１２の両方であり得る。電子デバイス１２５６は、音声信号に基づいて複数の客観的ひずみを決定するために１３０４、音声評価器１２９８を使用し得る。すなわち、粗さ５２８、不連続性５３０、鈍さ５３２、薄さ５３４、ヒッシング５３６および変動性５３８。

[00152] 電子デバイス１２５６は、次いで、キャリアフィードバックをネットワークデバイス１１０１へ、オプションで送り得る１３０６。キャリアフィードバックは、複数の客観的ひずみの分析を含み得、または単に複数の客観的ひずみのスコアであり得る。キャリアフィードバックは、音声信号の品質を改善するために、電子デバイス１２５６、ネットワークデバイス１１０１、または電子デバイス１２５６とネットワークデバイス１１０１の両方のいずれかで、処理を適応させるために使用され得る。

[00153] 図１４は、音声信号品質を測定するためにネットワークデバイス１１０１によって実施される方法１４００を示す流れ図である。方法は、ネットワークデバイス１１０１（例えば、図１１に関して説明したネットワークデバイス）によって行われ得る。ネットワークデバイス１１０１の例は、デスクトップコンピュータ、サーバおよびセルタワーを含む。ネットワークデバイス１１０１は、音声信号を取得し得る１４０２。音声信号は、修正音声信号５２４、元の音声５１２の信号、または修正音声信号５２４と元の音声信号５１２の両方であり得る。ネットワークデバイス１１０１は、音声信号に基づいて複数の客観的ひずみを決定するために１４０４、音声評価器１１９８ｂを使用し得る。すなわち、粗さ５２８、不連続性５３０、鈍さ５３２、薄さ５３４、ヒッシング５３６および変動性５３８。

[00154] ネットワークデバイス１１０１は、次いで、複数の客観的ひずみに基づいて音声信号処理の１つまたは複数の態様を適応させることを、オプションで決定し得る１４０６。例えば、ネットワークデバイス１１０１は、音声信号が最初に取得されるときにネットワークデバイス１１０１によって行われている復号が十分でないことを決定し得る。ネットワークデバイス１１０１は、次いで、ネットワークデバイス１１０１に接続されている電子デバイス１１５６ａ〜ｂに、フィードバックをオプションで提供し得る１４０８。フィードバックは、複数の客観的ひずみのうちの１つまたは複数を改善するためにネットワークデバイス１１０１が行っている適応を示し得る。電子デバイス１１５６ａ〜ｂは、次いで、それに従って、通信がネットワークデバイス１１０１と電子デバイス１１５６ａ〜ｂとの間で継続できるようにするための適応を行い得る。

[00155] 図１５は、特徴抽出のための電子デバイス１５０７の一構成を示すブロック図である。電子デバイス１５０７は、特徴抽出モジュール１５２９を含み得る。電子デバイス１５０７および／またはその１つまたは複数の構成要素は、ハードウェア（例えば、回路）、またはハードウェアとソフトウェアとの組合せで実装され得る。追加または代替として、「モジュール」という用語は、構成要素がハードウェア（例えば、回路）、またはハードウェアとソフトウェアとの組合せで実装されることを示し得る。例えば、特徴抽出モジュール１５２９は、ハードウェア（例えば、回路）、またはハードウェアとソフトウェア（例えば、実行可能な命令を有するプロセッサ）との組合せで実装され得る。図のうちの１つまたは複数において図示された線または矢印は、構成要素および／またはモジュールの間の結合を表し得る。「結合」は、直接的または間接的であり得る。例えば、１つのモジュールは、直接的（いかなる介在する構成要素も伴わない）または間接的（１つまたは複数の介在する構成要素を伴う）に、別のモジュールに結合され得る。

[00156] 電子デバイス１５０７の例は、モバイルデバイス（例えば、スマートフォン、セルラーフォン、タブレットデバイス、ラップトップコンピュータなど）、コンピュータ（例えば、デスクトップコンピュータ）、ネットワークデバイス（例えば、基地局、ルータ、スイッチ、ゲートウェイ、サーバなど）、テレビジョン、自動車エレクトロニクス（例えば、自動車のコンソールに一体化された電子デバイス）、ゲームシステム、電子機器などを含む。いくつかの構成では、電子デバイス１５０７が、図５に関して説明した電子デバイス５５６の構成要素のうちの１つまたは複数を含み得、および／またはそうした機能のうちの１つまたは複数を行い得る。

[00157] 特徴抽出モジュール１５２９は、修正音声信号１５１１に基づいて、１つまたは複数の特徴１５２７を決定し得る。いくつかの構成では、１つまたは複数の特徴１５２７を決定することが、修正音声信号１５１１と元の音声信号１５０９の両方に基づき得る。

[00158] 電子デバイス１５０７は、元の音声信号１５０９をオプションで取得し得る。例えば、電子デバイス１５０７は、マイクロフォンを用いて音声信号を取り込み得、または別のデバイス（例えば、記憶デバイス、コンピュータ、電話、ヘッドセットなど）から音声信号を受信し得る。元の音声信号１５０９は、未加工または未処理の信号であり得る。例えば、元の音声信号１５０９は、修正（例えば、劣化、歪曲、符号化、圧縮、復号、処理など）されていない、音声信号の電子的に標本化されたバージョンであり得る。元の音声信号１５０９が取得される手法は、嵌入的な手法または方法と呼ばれ得る。例えば、嵌入的な手法は、元の音声信号１５０９と修正音声信号１５１１（例えば、処理、劣化、歪曲、向上などされていない音声信号）との間の明示的な減算を含み得る。他の手法では、元の音声信号１５０９が取得され得ない。これらの手法は、非嵌入的な手法または方法と呼ばれ得る。非嵌入的な手法では、例えば、元の音声信号１５０９が利用できないことがある（例えば、修正音声信号１５１１と元の音声信号１５０９との間の明示的な減算が存在し得ない）。例えば、本明細書で開示されるシステムおよび方法は、いくつかの実装形態および／またはシナリオで、元の音声信号１５０９を取得することなく利用され得る。

[00159] 嵌入的および／または非嵌入的な手法は、音声品質（例えば、ひずみ−次元）を客観的に測定するために利用され得る。特徴は、所与の用途に応じて、音声の有声および／または無音の部分に対して本明細書で説明されるように抽出され得る。例えば、特徴の２つのセットは知覚領域の中にあり得、従って、音声品質測定にとって必然的に適当であり得る。全ての特徴が本明細書で開示されるシステムおよび方法の用途にとって必要であり得るとは限らないことに留意されたい。簡単な合成プロセスがトレーニングおよび予測のために利用され得、および／または複雑なプロセスが改善のために利用され得る。説明される数多くの特徴は、幅広い音声ひずみを考慮に入れる。マッピングモデルが、抽出された特徴をいくつかのタイプのひずみスコアにマッピングするために利用され得る。１つの簡単な手法は、本明細書で説明されるように線形回帰を使用することである。より高次の回帰またはニューラルネットワークなどのより複雑なモデルは、抽出された特徴を予測スコアにマッピングするために同様に採用され得る。所与の用途に対して、トレーニング処理は、マッピングモデルのための適切なパラメータおよび／または重み付けをセットアップするために利用され得る。例えば、主観的なスコアに対して誤差が最小の予測をもたらす最適化された重み付けが実現され得る。訓練されたモデルは、次いで、ひずんだ信号に直接適用され得る（例えば、トレーニングプールの中ではなく）。例えば、訓練されたマッピングモデルには、音声品質スコアの予測を得るためにテストされるべき音声から抽出された特徴が与えられる。

[00160] 電子デバイス１５０７は、修正音声信号１５１１を取得し得る。いくつかの構成では、電子デバイス１５０７が、修正音声信号１５１１を取得するために元の音声信号１５０９を処理し得る。例えば、電子デバイス１５０７は、修正音声信号１５１１を取得するために元の音声信号１５０９を符号化（および／または、例えば、得られた符号化音声信号を復号）し得る。追加または代替として、電子デバイス１５０７は、修正音声信号１５１１を取得するために元の音声信号１５０９を向上させ得る。例えば、電子デバイス１５０７は、元の音声信号１５０９の雑音が注入されたバージョンに雑音抑圧を行い得る。「単一チャネル」音声信号は、音声信号を、任意の一時刻における単一サンプル（例えば、圧力の）として表し得る。例えば、単一チャネル音声信号は、情報を空間的に区別することをもたらす複数の信号を含み得ない。いくつかの構成では、例えば、修正音声信号１５１１が、単一のマイクロフォンで取り込まれた元の音声信号１５０９に基づき得る。

[00161] いくつかの構成では、電子デバイス１５０７が、修正音声信号１５１１を別のデバイス（例えば、記憶デバイス、コンピュータ、電話、ヘッドセット、エンコーダなど）から取得し得る。例えば、電子デバイス１５０７は、修正音声信号１５１１をネットワーク化された電子デバイスから受信し得る。

[00162] 修正音声信号１５１１は、元の音声信号１５０９に基づき得る。例えば、修正音声信号１５１１は、元の音声信号１５０９のひずんだバージョンであり得る。元の音声信号１５０９の向上、符号化、復号、トランスコーディング、送信、受信、および／または誤り訂正は、修正音声信号１５１１の１つまたは複数の特性が元の音声信号１５０９の特性と異なるように、元の音声信号１５０９をひずませ得る。

[00163] いくつかの構成では、修正音声信号１５１１および／または元の音声信号１５０９が、時間期間（例えば、「フレーム」）に分割され得る。例えば、修正音声信号１５１１の各期間は、いくつかのサンプルを時間にわたって含み得る。時間期間またはフレームは、長さが一様でもよく、または長さが異なってもよい。

[00164] 特徴抽出モジュール１５２９は、修正音声信号１５１１を取得し得る。オプションで、特徴抽出モジュール１５２９は、元の音声信号１５０９を追加的に取得し得る。特徴抽出モジュール１５２９は、生理学的蝸牛モデル１５１３、セクション分析モジュール１５１７、ベクトル抽出モジュール１５２１、および／または特徴決定モジュール１５２５を含み得る。いくつかの構成では、特徴抽出モジュール１５２９が、図５に関して説明した計算形ひずみ推定器５２６に含まれ得る。他の構成では、特徴抽出モジュール１５２９が、計算形ひずみ推定器５２６から別個であり得、または計算形ひずみ推定器５２６を含み得る。いくつかの構成では、特徴抽出モジュール１５２９が、図６に関して説明した特徴抽出モジュール６５６の一例であり得、および／または図７に関して説明した特徴抽出モジュール７５６の一例であり得る。

[00165] 電子デバイス１５０７（例えば、特徴抽出モジュール１５２９）は、１つまたは複数の生理学的蝸牛モデル１５１３を使用して、音声（例えば、修正音声信号１５１１および／または元の音声信号１５０９）を処理し得る。生理学的蝸牛モデル１５１３は、蝸牛の１つまたは複数の物理的な構成要素の反応をモデル化し得る。例えば、生理学的蝸牛モデル１５１３は、内有毛細胞（ＩＨＣ：inner hair cells）、蝸牛の長さ、および／または蝸牛の流体力学をモデル化し得る。生理学的蝸牛モデル１５１３を使用して音声（例えば、修正音声信号１５１１）を処理することは、人間の聴覚系によって行われる処理をより正確に近似し得る（例えば、機能モデルと比較して）。このことは、人間の聞き手によって知覚されるように、音声信号品質をより正確に推定することの助けとなり得る。例えば、生理学的モデルを使用して修正音声信号１５１１を処理することは、内有毛細胞データを提供し得る。これは、例えば、機能モデルを使用して近似される基底膜データと異なる。

[00166] いくつかの構成では、生理学的蝸牛モデルが、以下の式および説明のうちの１つまたはに従って、実施され得る。グリーン関数の積分方程式(Green’s function integral equation)は、基底膜（ＢＭ）の速度にわたる積分が、あぶみ骨の粒子速度ｕ_sの、階の高さＨ倍に等しいことを保証する（法線速度は上側壁で０である）。グリーン関数の積分方程式を解くことが、本明細書で開示されるシステムおよび方法の出発点である。グリーン関数の積分方程式は、

により与えられ、ここで、φはポテンシャルの速度であり、Ｖ_nは四角形の中への＋を用いて定義される、階の速度の法線成分である。

[00167] 以下の変数のリストは、本明細書で開示される式において使用され得る。
ｐ（ｘ，ｔ）；２ｐ（ｘ，ｔ）→蝸牛孔に関する圧力；ＢＭを横切る圧力
ｘ→あぶみ骨から測定される、ＢＭに沿った位置変数
ｆ→周波数（Ｈｚ）
ω→角振動数＝２πｆ
ρ→水の密度
η→水の粘性
Ｋｐ（ｘ）→ＢＭパーティションの硬度パラメータ
Ｒｐ（ｘ）→ＢＭパーティションの抵抗値
ｍｐ→ＢＭパーティションの質量
Ｖｏｈｃ→ＯＨＣ電圧
Ｔ（Ｖｏｈｃ）→ＢＭ張力
ｘＬ→ＢＭの長さ
ｙＨ→蝸牛階の高さ
Ｘ（ｆ）→蝸牛のマップ関数（ＢＭ空間対周波数）
Ｘｚ（ｆ）→第２の蝸牛のマップ関数
ｉ→√−１
ξ（ｘ，ｔ）、ξ’（ｘ，ｔ）、ξ’’（ｘ，ｔ）→ＢＭの粒子変位、速度、加速度
ζ（ｘ，ｔ）、ζ’（ｘ，ｔ）、ζ’’（ｘ，ｔ）→繊毛の変位、速度、加速度
ｆ（ｘ，ｔ）→ＴＭの力
ｕｓ（ｔ）、ｕ’ｓ（ｔ）→あぶみ骨の粒子速度および加速度
（ｎ＋１，ｎ，ｎ−１）→離散時間（未来，現在，過去）
＊→空間的畳み込み
Ｌ（ｔ）→「瞬間の」ラウドネス
Ｉｍ、Ｉｐ→マスカーおよびプローブの強度
[00168] 基本の蝸牛の式(basic cochlear equation)は、

により与えられ、ここでρは水の密度であり、

はＢＭの粒子加速度であり、＊は空間的畳み込みであり、

はあぶみ骨の粒子加速度である。この式は、ＡｌｌｅｎおよびＳｏｎｄｈｉによって作り出された式と類似であるが、蓋膜（ＴＭ）の力を含むように修正されている。蓋膜の力は、

により定義される。

[00169] ここで、

はＢＭの粒子速度である。

[00170] 式（４）を積分することにより、ＢＭの変位ξ（ｘ，ｔ）を見つけることができるようになり、あぶみ骨の加速度

が与えられる。しかしながら、最後の式が容易には解かれないので、この厳密な手法を用いて進める場合、重大な問題がある。

[00171] ＡｌｌｅｎおよびＳｏｎｄｈｉの式では、インピーダンスＺ_tが存在しなかった（すなわち、無限）。本公式化におけるＴＭのインピーダンスの追加は、４次の時間項

を式（３）にもたらし、それは小さい最高次の係数を有する。そのような式は、硬い微分方程式と古典的に呼ばれ、非正則特性を有する。

[00172] ｐとξとの間の伝達関数（すなわち、ｚ_p（ｔ））の次数を確立するための方法は、ラプラス変換の使用による。近似的なパーティションインピーダンス

は、繊毛のインピーダンスＺ_c（ｘ，ｆ）を無視することによって得られる。上付き文字（１）は、修正された（すなわち、近似された）Ｚ_tcを示す。完全なパーティションインピーダンスを、ＢＭの変位

の上でＢＭを横切る圧力−２Ｐ（ｘ，ｓ）に換算して書き出すと、ｓＺ_p（ｘ，ｓ）、すなわち、

が与えられる。

[00173] このことからの結論は、繊毛のインピーダンスを除去することが、ＢＭインピーダンスの５パーセントの変化からのみの原因となることである。従って、式の次数を２から４へ引き上げるが、式は時間方程式において本質的に２次としての役割を果たす。このことは、式の公式化において処理されなければならない極めて悪い数値特性をもたらす。

[00174] ＴＭおよび繊毛のインピーダンスの並列ｚ_tc（ｘ，ｔ）は、処理するためにこの時点で近似されなければならない。相対的な大きい（すなわち、硬い）インピーダンスｚ_c≫ｚ_tを式（４）から削除した後、最後の式に対する解が得られ得る。

式（７）において、そのｚ_c≫ｚ_tという所見の結果として得られるＺ_tc≡Ｚ_t｜｜Ｚ_c≒Ｚ_tという近似。

[00175] カーネル関数Ｆ（ｘ）は、ＢＭ加速度に作用する。また、ＢＭの加速度に比例するＢＭのインピーダンスの成分が存在する。これら２つの加速度の項は、式が解かれ得る前に上のようにグループ化されなければならない。インピーダンスが２次の形式をとる場合、この再グループ化が容易になされることを理解しなければならない。一般的なケースでの進め方はそれほど明白でなく、従って、２次であり、それによって、インピーダンスの中に加速度の項を現している式（７）へ導く、ＢＭのインピーダンス関数への近似を行うことが必要であった。

[00176] インピーダンス関数は最小位相であり、全ての最小位相関数はＭ（ｓ）を示し、

の形式で書かれてもよく、ここで、

であり、ここで、Ｒ（ｓ）は上の式をＲ（ｓ）について解くことによって見つけられるＭ（ｓ）／ｍ₀に対応する反射率である。インピーダンス（すなわち、Ｍ）をこの形式で書くこと、およびそれを時間領域において表すことによって、グリーンの関数方程式（３）とともに蝸牛の反応を定義するｍ（ｔ）に対する再帰的な時間領域の畳み込み方程式を形成できる。最後の蝸牛の式が、カーネル関数Ｆを反転させるときにインピーダンスの中の加速度成分を考慮しなければならないので、この一見複雑な手法が必要である。

[00177] 拡大されたカーネルは、

により定義され、ここで、ｍ_p≒ｍ_O＋ｇ²ｍ_tであり、

となる。

[00178] 質量の項は、ＢＭの加速度

との空間における畳み込みとして書き直される。このことにより、質量の項およびカーネルはグループ化され得る。この表現は、畳み込みの関係

に依存する。この式は容易に検証される。

[00179] 拡大されたカーネルは、インピーダンス質量の項

をカーネルに含めるために定義され得る。というのも、両方がＢＭの加速度

に作用するからである。この拡大は、各々が総質量の半分を有して、実数の奇数調波の対称性(real odd-harmonic symmetry)に従って、２つの特異点における２つのデルタ関数で質量を広げることを必要とする。

[00180] 拡大されたカーネルの観点から、動きのＢＭの式は、

となり、これはＱ（ｘ）を反転させることによって解かれ、

が与えられる。

[00181] 一旦ＢＭの変位が式（１３）の積分によって見つけられると、繊毛の変位は、繊毛の変位Θ（ｘ，ｓ）⇔θ（ｘ，ｔ）について解くことによる計算であり得、ＢＭの変位

は、繊毛の変位の伝達関数に対してＢＭによって記述されるように与えられる。

または、時間領域で、

となる。

[00182] 明快のため繰り返すと、式（１３）においてＢＭの変位ξについて解く場合にｚ_tが無視されたが、この式においてそれを無視することは必要でなく適切でもない。式（１３）のケースでは、それが小さい項であり、無視することが正当化される。繊毛の式では、それが大きく、極めて重要なインピーダンスである。

[00183] 有限差分離散時間の蝸牛の式(finite difference discrete-time cochlear equation)は、

となる。

[00184] フーリエ変換によって数値的な空間的畳み込みを行うと、長さの要素ｄｘはΔ≡Ｌ／Ｋとして定義され、ここで、整数Ｋは２のべき乗であり、Ｌは蝸牛の長さである。従って、基底膜の座標ｘ＝０．．．Ｌは、

となる。

[00185] 長さ４Ｌにわたる「奇数調波」の巡回畳み込み(“odd-harmonic” circular convolution)のための公式は、すなわち、

となる。

[00186] カーネル関数のサンプル値Ｑ_kとテスト関数のサンプル値ξ_kとの間の離散のケースに対して、ここで、ｋは空間的なインデックス（この例に関して時間インデックスｎは抑圧される）を表し、

によって与えられる。

[00187] 帯域制限関数のために、サンプル値は、サンプル時間において評価される関数の簡単な値、すなわち、ξ_k≡ξ（ｘ_k）である。ｋ＝０（すなわち、ｘ＝０）の場合、カーネルのサンプル値Ｆ₀は無限である。幸いにも、この対数特異点は積分可能である。従って、対数特異点上で積分し、Δによって除算することにより、０におけるサンプル値を定義する。

[00188] 積分は、テイラー級数において指数を展開すること、次いで、最低次の項を積分することによってなされ得、

が与えられる。

[00189] 類似の方法では、拡大されたカーネルにおける２つの非正則な質量項のサンプル値が、同様に、

として定義されなければならない。

[00190] 見いだされる定義から、

となる。

[00191] 一方、１≦ｋ≦Ｋ−１に対して、

となる。

[00192] 奇数調波の対称性のため、Ｑ_k＝Ｑ_-k＝−Ｑ_2K-kである。最後に、逆カーネルＱ^-1は、

として計算され、ここで、Ｆは長さ４ＬのＦＦＴである。

[00193] 流体量(fluid volume)の保存が持続しなければならないので、ＢＭに沿った体積積分はあぶみ骨の体積速度

と等しくなければならない。この重要な数値的に制御は、最終のプログラムの中であぶみ骨入力を０に設定し（すなわち、

）、ｔ＝０における体積速度をｘ＝Ｌ／２において１に設定し、この初期条件を伝搬させることによってテストされ得る。このテストのために、パルスがｘ＝Ｌに到達するまでＢＭの体積速度は１のままでなければならない。

[00194] 式（１６）をξ_n+1について解くことにより、

が与えられ、ここで、

である。

[00195] 式（２６）および式（２７）は、蝸牛反応の最後の数値解であり、蝸牛の再帰的な式（ＢＭと流体との間のフィードバックループ）を表す。

[00196] 繊毛の変位は、最後に式（１３）から算出され得、

となる。

[00197] または、離散時間の形式で、

となる。

[00198] 式（２９）をＸ_nについて解くと、

となる。

[00199] 共通項において再配列されると、

となり、これは検査

によって係数ａ≡［ａ₁，ａ₂]およびｂ≡［ｂ，ｂ₁，ｂ₂］を定義する。係数ベクトルｂが式（２７）によって定義されるｂ_nと無関係であることに留意されたい。

[00200] 最後のステップは、記載されたＲａｂｉｎｅｒおよびＧｏｌｄのように、インパルス不変変換(impulse invariance transformation)に基づくｓ空間からｚ平面への根変換を用いて最良に行われる。この変換は、デジタルおよびアナログのサンプル値の不変性に基づく。言い換えれば、ξ_n＝ξ（ｎＴ）は、ｓ領域からＺ領域への間のマッピングを決定する。これらのインパルス不変係数は、より正確であり、デジタルの解法をより高い周波数（すなわち、最大周波数、ナイキストのサンプリングレートの半分にかなり近い）へ拡張する。

[00201] ２次のデジタル共振子(digital resonator)は、通常、アナログのｓ平面内の極ｓ_pおよび零点ｓ_zに関して、インパルス不変の円錐形によって定義される。

[00202] この系は、ｓ_p＝σ_p±ｉｗ_pおよびｓ_z＝σ_z±ｉｗ_zによって決定される１対の複素共役の極および零点の角振動数を有し、減衰パラメータはＲ_p＝ｅ^σpTおよびＲ_z＝ｅ^σzTによって定義される。ナイキスト周波数は、ｆ_Nyquist＝１／Ｔによるサンプル期間Ｔに関係する。

[00203] これらの２組の係数ａ、ｂは、アナログ領域内で定義される補助パラメータ

を介して最良に定義される。

[00204] インパルス不変性に基づいて、デジタル共振子係数の定義を導く。

[00205] 有限差分とインパルス不変係数との間に簡単な関係が存在する。インパルス不変性に基づくａ₂がＴの中での次数１へのテイラー展開の中で拡張される場合、それほど正確でない有限差分ａ₂は、

という結果になる。

[00206] 係数ｋ_t、ｋ_c、ｍ_tおよびｍ_cを見つけるために、文献から知られているｗ_p（ｘ）、ｗ_x（ｘ）およびｗ_cf（ｘ）に関する定義から決定される以下の３つの式を解く。

[00207] 最後に同調曲線の勾配(tuning curve slope)を決定する式は、

となる。

[00208] ポアズイユの公式(Poiseuille formula)からの繊毛のパラメータは、

となる。

[00209] 最後に、ＴＭ質量の式は、

となる。

[00210] いくつかの構成では、生理学的蝸牛モデル１５１３が、反応データ（例えば、内有毛細胞データ）を蝸牛の長さにわたって提供し得る。例えば、いくつかの空間点（例えば、サンプル）は、生理学的蝸牛モデル１５１３の反応を、蝸牛の長さにわたって音声の各サンプルに対して（例えば、修正音声信号１５１１の各サンプルに対して）、モデル化し得る。空間点は、蝸牛の長さに沿った空間に対応し得る。蝸牛の長さに沿った空間は、特定の周波数における音に対応し得、そうした音に反応し得る。例えば、１組の空間点における最初の空間点は、近似的に２０キロヘルツ（ｋＨｚ）の範囲の中の音に対応し得、最後の空間点は、極めて低い周波数（例えば、１２ヘルツ（Ｈｚ））における音に対応し得る。従って、生理学的蝸牛モデル１５１３は、各音声サンプルに対して複数の空間点を生成し得るという点において、「オーバーサンプリング」できる。いくつかの構成では、生理学的蝸牛モデル１５１３が、修正音声信号１５１１の各サンプルに対して１組の空間点を生成し得る。

[00211] 生理学的蝸牛モデル１５１３は、出力１５１５を生成し得る。出力１５１５は、ある長さの時間にわたって、空間点を含み得る。例えば、出力１５１５は、各音声サンプルに対してある長さの時間にわたって、１組の空間点を含み得る。出力１５１５は、セクション分析モジュール１５１７に供給され得る。セクション分析モジュール１５１７は、生理学的蝸牛モデル１５１３の出力１５１５のセクションを分析し得る。例えば、セクション分析モジュール１５１７は、出力１５１５（例えば、出力の部分）を複数のセクション１５１９にグループ化（例えば、分割）し得る。セクション１５１９の各々は、蝸牛の長さに沿った空間範囲に対応し得る。いくつかの構成では、セクション分析モジュール１５１７が、出力１５１５を４つのセクション１５１９にグループ化し得る。例えば、第１のセクションは１から１５０までの空間点を含み得、第２のセクションは１５１から２７５までの空間点を含み得、第３のセクションは２７６から４５０までの空間点を含み得、第４のセクションは４５１から５１２までの空間点を含み得る。セクションの各々は、ある長さの時間（例えば、Ｎサンプル）にわたって、空間点を含み得る。セクション１５１９の他のサイズが利用され得ることに留意されたい。

[00212] セクション１５１９は、ベクトル抽出モジュール１５２１に供給され得る。ベクトル抽出モジュール１５２１は、各セクション１５１９に対するベクトル１５２３を抽出し得る。詳細には、ベクトル抽出モジュール１５２１は、各セクション１５１９に対する空間ベース分析ベクトルと時間ベース分析ベクトルとを抽出し得る。「空間ベース分析ベクトル」は、空間にわたって複数の値を含むベクトルである。例えば、ベクトル抽出モジュール１５２１は、時間にわたってセクション１５１９を平均化することによって空間ベース分析ベクトルを決定し得る（例えば、空間にわたって複数の値を伴うベクトルを与える）。「時間ベース分析ベクトル」は、時間にわたって複数の値を含むベクトルである。例えば、ベクトル抽出モジュール１５２１は、空間にわたってセクション１５１９を平均化することによって時間ベース分析ベクトルを決定し得る（例えば、時間にわたって複数の値を伴うベクトルを与える）。

[00213] ベクトル１５２３（例えば、１つまたは複数の時間ベース分析ベクトルおよび１つまたは複数の空間ベース分析ベクトル）は、特徴決定モジュール１５２５に供給され得る。特徴決定モジュール１５２５は、１つまたは複数の特徴１５２７を各ベクトル１５２３（例えば、分析ベクトル）から決定し得る。特徴１５２７は、ベクトル１５２３の特性を定量化するメトリックであり得る。特徴１５２７の例は、平均値（averages)（例えば、平均値（ｍｅａｎ））、中央値(medians)、幾何学的シフト(geometric shifts)、調和平均(harmonic means)、標準偏差(standard deviations)、非対称度(skewnesses)、分散(variances)および他を含む。特徴決定モジュール１５２５は、これらの種類の特徴１５２７のうちの１つまたは複数を、各ベクトル１５２３から決定し得る。いくつかの構成では、特徴決定モジュール１５２５が、各ベクトル１５２３の平均値、中央値、幾何学的シフト、調和平均、標準偏差および非対称度を決定し得る。

[00214] いくつかの構成では、電子デバイス１５０７が、１つまたは複数の特徴１５２７に基づいてひずみを推定し得る。例えば、電子デバイス１５０７は、１つまたは複数の特徴１５２７に基づいて１つまたは複数のひずみ推定するひずみ推定モジュール（図示せず）を含み得る。例えば、ひずみ推定モジュールは、ひずみを推定するために、特徴１５２７のうちの１つまたは複数、および１つまたは複数の重みに基づいて、回帰（例えば、線形回帰(linear regression)、多項式回帰(polynomial regression)、２次回帰(second order regression)、非線形回帰(non-linear regression)など）を行い得る。いくつかの構成では、電子デバイス１５０７が、本明細書で説明されるように、１つまたは複数のひずみに基づいて１つまたは複数の品質（例えば、前景品質、背景品質、全体品質など）を推定し得る。

[00215] 図１６は、特徴抽出のための方法１６００の一構成を示す流れ図である。電子デバイス１５０７は、方法１６００の１つまたは複数のステップ、機能および／または手順を行い得る。

[00216] 電子デバイス１５０７は、１つまたは複数の生理学的蝸牛モデル１５１３を使用して音声（例えば、修正音声信号１５１１および／または元の音声信号１５０９）を処理し得る１６０２。これは、上記で説明されるように達成され得る。例えば、電子デバイス１５０７は、修正音声信号１５１１および／または元の音声信号１５０９に基づいて、１つまたは複数の生理学的蝸牛モデル１５１３の反応を決定し得る。例えば、電子デバイス１５０７は、音声信号（例えば、修正音声信号１５１１）の各サンプルに対して１組の空間点（例えば、サンプル）を決定し得る。生理学的蝸牛モデル１５１３の出力１５１５は、ある長さの時間（例えば、Ｎサンプル）にわたる空間点のセットを含み得る。

[00217] 電子デバイス１５０７は、生理学的蝸牛モデル１５１３の出力１５１５のセクションを分析し得る１６０４。これは、上記で説明されるように達成され得る。例えば、電子デバイス１５０７は、出力１５１５の部分を複数のセクション１５１９（例えば、４つのセクションまたは別の数のセクション）にグループ化（例えば、分割）し得る。セクション１５１９の各々は、特定のサイズを（例えば、いくつかの空間点にいくつかのＮ個のサンプルを掛けて）有し得る。

[00218] 電子デバイス１５０７は、各セクション１５１９に対するベクトル１５２３を抽出し得る１６０６。詳細には、電子デバイス１５０７は、各セクション１５１９に対する空間ベース分析ベクトルと時間ベース分析ベクトルとを抽出し得る。これは、上記で説明されるように達成され得る。例えば、電子デバイス１５０７は、空間ベース分析ベクトル１５２３を生成するためにセクション１５１９を時間にわたって平均化し得、時間ベース分析ベクトル１５２３を生成するためにセクション１５１９を空間にわたって平均化し得る。

[00219] 電子デバイス１５０７は、１つまたは複数の特徴１５２７を各ベクトル１５２３（例えば、分析ベクトル）から決定し得る１６０８。これは、上記で説明されるように達成され得る。例えば、電子デバイス１５０７は、各ベクトル１５２３の平均値、中央値、幾何学的シフト、調和平均、標準偏差および非対称度を決定し得る。

[00220] 図１７は、生理学的蝸牛モデルの出力の一例を示すグラフである。詳細には、グラフは、音声の有声部分に対する生理学的蝸牛モデルの出力の一例を示す。グラフの軸は、空間（サンプル単位）１７３５と、時間（ミリ秒（ｍｓ）単位）１７３１と、内有毛細胞１７３３（入力音声信号の振幅）とを含む。生理学的蝸牛モデル（ＣＭ：Cochlear Model）は、知られている音響心理学的マスキングモデル（ＰＭＭ：Psychoacoustic Masking Models）よりも正確である。詳細には、生理学的蝸牛モデルは、かなり高い時間−空間分解能を提供し得る。生理学的蝸牛モデルにより、人間の知覚を近似する音の測定が可能になる。このことにより、音声ひずみでの人間の知覚をより良く反映する音声品質スコアの決定が可能になり得る。ＣＭ出力の傾向は、グラフに含まれる２つの線１７３７ａ〜ｂによって示される。

[00221] 図１７に示す例では、ＣＭ出力が３つの軸を有する。時間軸は簡単であり、ここで、全ての入力は１つの出力を有する。図１７は、３９００から４１５０ミリ秒（ｍｓ）の間の時間１７３１プロットを示す。サンプリングレートが８キロヘルツ（ｋＨｚ）の入力音声に対して、これは実際には８ポイント／ｍｓを与える。空間１７３５軸は、全体で５１２ポイントを提供し、それらは１５〜２００００ヘルツ（Ｈｚ）へマッピング（非線形に）する。図１７は、より良い例示のために、空間１７３５軸に沿って３００〜４００からプロットされている。ＩＨＣ軸１７３３は、入力振幅である。

[00222] 図１８は、嵌入的特徴抽出モジュール１８２９の一構成を示すブロック図である。嵌入的特徴抽出モジュール１８２９は、図１５に関して説明した特徴抽出モジュール１５２９の一例であり得る。嵌入的特徴抽出モジュール１８２９は、遅延推定モジュール１８３７、蝸牛モデルＡ〜Ｂ１８１３ａ〜ｂ、部分選択モジュール１８４３、セクション分析モジュール１８１７、ベクトル抽出モジュール１８２１および／または特徴決定モジュール１８２５を含み得る。元の音声信号１８０９および修正音声信号１８１１（例えば、元の音声信号１８０９の劣化したバージョン）は、特徴抽出のための入力として使用され得る。言い換えれば、嵌入的特徴抽出モジュール１８２９は、１つまたは複数の特徴１８２７を決定し得る。１つまたは複数の特徴１８２７は、修正音声信号１８１１に対する１つまたは複数のひずみ１８４９を推定（例えば、予測）するために使用され得る。元の音声信号１８０９および／または修正音声信号１８１１の長さは、１つのフレーム、複数のフレームまたは任意の適切な時間長（例えば、１、２、５、１０秒など）であり得る。追加または代替として、元の音声信号１８０９および／または修正音声信号１８１１の長さは、音声自体（例えば、全センテンス）に基づき得る。例えば、元の音声信号および／または修正音声信号１８１１の長さは、（例えば、ワイヤレスネットワークのオペレータによって、および／またはユーザによって）構成可能であり得る。

[00223] 元の音声信号１８０９および修正音声信号１８１１は、遅延推定モジュール１８３７にオプションで供給され得る。遅延推定モジュール１８３７は、元の音声信号１８０９と修正音声信号１８１１との間の遅延を推定し得る。例えば、遅延推定モジュール１８３７は、遅延を決定するために（例えば、遅延が存在する場合）、元の音声信号１８０９と修正音声信号１８１１との間の相関を行い得る。遅延推定モジュール１８３７は、修正音声信号１８１１と元の音声信号１８０９とを位置合わせするために、修正音声信号１８１１、元の音声信号１８０９または両方を遅延させ得る。例えば、修正音声信号１８１１が元の音声信号１８０９に比べていくつかのサンプルだけ遅延していると遅延推定モジュール１８３７が推定する場合、遅延推定モジュール１８３７は、元の音声信号１８０９と修正音声信号１８１１とを位置合わせするために元の音声信号１８０９を遅延させ得る。従って、遅延推定モジュール１８３７は、位置合わせされた元の音声信号１８３９と、位置合わせされた修正音声信号１８４１とを提供し得、その場合、位置合わせされた元の音声信号１８３９および位置合わせされた修正音声信号１８４１は時間的に（例えば、サンプル）位置合わせされる。

[00224] 位置合わせされた元の音声信号１８３９は、蝸牛モデルＡ１８１３ａに供給され得る。位置合わせされた修正音声信号１８４１は、蝸牛モデルＢ１８１３ｂに供給され得る。蝸牛モデルＡ〜Ｂ１８１３ａ〜ｂは、図１５に関して説明した生理学的蝸牛モデル１５１３の例であり得る。蝸牛モデルＡ〜Ｂ１８１３ａ〜ｂは、図１５に関して説明したように機能し得る。従って、蝸牛モデルＡ１８１３ａは出力Ａ１８１５ａを生成し得、蝸牛モデルＢ１８１３ｂは出力Ｂ１８１５ｂを生成し得る。

[00225] 平均の人間の蝸牛は、長さが約３．５センチメートル（ｃｍ）であり、その場合、蝸牛の上の各点は相異なる周波数に反応する。例えば、最後の空間点は知覚できる近似的な最低周波数に対応し得、最初の空間点は知覚できる近似的な最高周波数に対応し得る。いくつかの構成では、蝸牛モデルＡ〜Ｂ１８１３ａ〜ｂが、蝸牛の長さをいくつかの空間点（例えば、５１２個の空間点またはサンプル）に離散化し得る。例えば、元の音声信号１８０９の各サンプルに対して、蝸牛モデルＡ１８１３ａは５１２個の空間点を生成し得、修正音声信号１８１１の各サンプルに対して、蝸牛モデルＢ１８１３ｂは５１２個の空間点を生成し得る。出力Ａ〜Ｂ１８１５ａ〜ｂは、サンプルの範囲（例えば、Ｎ）にわたる空間点のセットを含み得る。例えば、出力Ａ１８１５ａは、元の音声信号１８０９（例えば、位置合わせされた元の音声信号１８３９）に対応するＮ組の空間点を含み得、出力Ｂ１８１５ｂは、修正音声信号１８１１（例えば、位置合わせされた修正音声信号１８４１）に対応するＮ組の空間点を含み得る。

[00226] 出力Ａ〜Ｂ１８１５ａ〜ｂは、部分選択モジュール１８４３に供給され得る。部分選択モジュール１８４３は、部分Ａ〜Ｂ１８４５ａ〜ｂ（例えば、「対象の部分」）を蝸牛モデルＡ〜Ｂ１８１３ａ〜ｂの出力Ａ〜Ｂ１８１５ａ〜ｂの中から選択し得る。例えば、元の音声信号１８０９および修正音声信号１８１１の有声部分が選択され得る。例えば、音声信号の有声部分は、知覚される音声品質に著しく寄与し得る母音を含み得る。いくつかの構成では、部分選択モジュール１８４３が、出力Ａ１８１５ａおよび／または出力Ｂ１８１５ｂのエネルギーを決定し得る。部分Ａ１８４５ａは、出力Ａ１８１５ａのエネルギーが第１のしきい値以上である出力Ａ１８１５ａのサンプルの範囲として選択され得る。部分Ｂ１８４５ｂは、出力Ｂ１８１５ｂのエネルギーが第２のしきい値以上である出力Ｂ１８１５ｂのサンプルの範囲として選択され得る。第１および第２のしきい値は、互いに同一であってもよく、または異なってもよい。部分選択モジュール１８４３は、部分Ａ〜Ｂ１８４５ａ〜ｂを決定するために、他のボイスアクティビティ検出（ＶＡＤ）の手法またはモジュールを利用してもよい。

[00227] 出力Ａ〜Ｂ１８１５ａ〜ｂまたは部分Ａ〜Ｂ１８４５ａ〜ｂは、セクション分析モジュール１８１７に供給され得る。セクション分析モジュール１８１７は、図１５に関して説明したセクション分析モジュール１５１７の一例であり得る。セクション分析モジュール１８１７は、蝸牛モデルＡ〜Ｂ１８１３ａ〜ｂの出力Ａ〜Ｂ１８１５ａ〜ｂ、または部分Ａ〜Ｂ１８４５ａ〜ｂの、セクションを分析し得る。例えば、セクション分析モジュール１８１７は、出力Ａ〜Ｂ１８１５ａ〜ｂまたは部分Ａ〜Ｂ１８４５ａ〜ｂを、複数のセクションＡ〜Ｂ１８１９ａ〜ｂにグループ化（例えば、分割）し得る。いくつかの構成では、セクション分析モジュール１８１７が、出力Ａ〜Ｂ１８１５ａ〜ｂまたは部分Ａ〜Ｂ１８４５ａ〜ｂの各々を、４つのセクションＡ〜Ｂ１８１９ａ〜ｂに各々グループ化し得る。例えば、第１のセクションは１から１５０までの空間点を含み得、第２のセクションは１５１から２７５までの空間点を含み得、第３のセクションは２７６から４５０までの空間点を含み得、第４のセクションは４５１から５１２までの空間点を含み得る。セクションＡ〜Ｂ１８１９ａ〜ｂの各々は、ある長さの時間（例えば、Ｎサンプル）にわたって、空間点を含み得る。

[00228] セクションＡ〜Ｂ１８１９ａ〜ｂは、ベクトル抽出モジュール１８２１に供給され得る。ベクトル抽出モジュール１８２１は、図１５に関して説明したベクトル抽出モジュール１５２１の一例であり得る。ベクトル抽出モジュール１８２１は、セクションＡ〜Ｂ１８１９ａ〜ｂに対するベクトル１８２３を抽出し得る。詳細には、ベクトル抽出モジュール１８２１は、セクションＡ〜Ｂ１８１９ａ〜ｂに対する空間ベース分析ベクトルと時間ベース分析ベクトルとを抽出し得る。

[00229] ベクトル１８２３（例えば、１つまたは複数の時間ベース分析ベクトルおよび１つまたは複数の空間ベース分析ベクトル）は、特徴決定モジュール１８２５に供給され得る。特徴決定モジュール１８２５は、図１５に関して説明した特徴決定モジュール１５２５の一例であり得る。特徴決定モジュール１８２５は、１つまたは複数の特徴１８２７を各ベクトル１８２３（例えば、分析ベクトル）から決定し得る。例えば、特徴決定モジュール１８２５は、各ベクトル１８２３の平均値、中央値、幾何学的シフト、調和平均、標準偏差および非対称度を決定し得る。

[00230] いくつかの構成では、特徴１８２７が、ひずみ推定モジュール１８４７に供給され得る。ひずみ推定モジュール１８４７は、図１５に関して説明したひずみ推定モジュールの一例であり得る。ひずみ推定モジュール１８４７は、１つまたは複数の特徴１８２７に基づいて、１つまたは複数のひずみ１８４９を推定し得る。例えば、ひずみ推定モジュール１８４７は、１つまたは複数の特徴１８２７に基づいて１つまたは複数のひずみ１８４９を推定する、線形回帰モジュール１８５１を含み得る。例えば、線形回帰モジュール１８５１は、１つまたは複数のひずみ１８４９を推定するために、特徴１８２７のうちの１つまたは複数および重み付け１８５３（例えば、１つまたは複数の重み）に基づいて、線形回帰を行い得る。重み付け１８５３は、本明細書で説明されるような（例えば、図８〜図９のうちの１つまたは複数に関して説明したような）トレーニングに基づいて決定され得る。いくつかの構成では、ひずみ推定モジュール１８４７が、ひずみ１８４９を推定するために、多項式回帰、２次回帰、非線形回帰などを、追加または代替として行い得る。いくつかの構成では、１つまたは複数の品質（例えば、前景品質、背景品質、全体品質など）が、本明細書で説明されるように、１つまたは複数のひずみ１８４９に基づいて推定され得る。

[00231] 本明細書で開示されるシステムおよび方法に関して説明した嵌入的手法のいくつかの利点は、以下のうちの１つまたは複数を含み得る。手法は、人間の知覚志向であり得る。手法は、音声品質測定において高い精度をもたらし得る。手法は、様々なタイプの音声ひずみに洞察（例えば、デスクリプション）をもたらし得る。手法は、流体力学的な蝸牛モデル出力を利用し得る（他の知られている解決策はそうし得ないが）。

[00232] 図１９は、非嵌入的特徴抽出モジュール１９２９の一構成を示すブロック図である。例えば、図１９は、知覚領域における音声およびオーディオ信号分析のための蝸牛モデルからの非嵌入的特徴抽出の手法を示す。非嵌入的特徴抽出モジュール１９２９は、図１５に関して説明した特徴抽出モジュール１５２９の一例であり得る。非嵌入的特徴抽出は特徴抽出の嵌入的なモデルと類似であり得るが、元の音声（ひずんでいない）が利用できないことがある。非嵌入的特徴抽出モジュール１９２９は、蝸牛モデル１９１３、部分選択モジュール１９４３、セクション分析モジュール１９１７、ベクトル抽出モジュール１９２１および／または特徴決定モジュール１９２５を含み得る。修正音声信号１９１１（例えば、元の音声信号の劣化したバージョン）は、特徴抽出のための入力として使用され得る。言い換えれば、非嵌入的特徴抽出モジュール１９２９は、１つまたは複数の特徴１９２７を決定し得る。１つまたは複数の特徴１９２７は、修正音声信号１９１１に対する１つまたは複数のひずみ１９４９を推定（例えば、予測）するために使用され得る。元の音声信号１９０９および／または修正音声信号１９１１の長さは、１つのフレーム、複数のフレームまたは任意の適切な時間長（例えば、１、２、５、１０秒など）であり得る。追加または代替として、修正音声信号１９１１の長さは、音声自体（例えば、全センテンス）に基づき得る。例えば、修正音声信号１９１１の長さは、（例えば、ワイヤレスネットワークのオペレータによって、および／またはユーザによって）構成可能であり得る。

[00233] 修正音声信号１９１１は、蝸牛モデル１９１３に供給され得る。蝸牛モデル１９１３は、図１５に関して説明した生理学的蝸牛モデル１５１３の一例であり得る。蝸牛モデル１９１３は、図１５に関して説明したように機能し得る。従って、蝸牛モデル１９１３は、出力１９１５を生成し得る。

[00234] 上で説明したように、平均の人間の蝸牛は長さが約３．５ｃｍであり、その場合、蝸牛の上の各点は（例えば、知覚できる近似的な最低周波数から知覚できる近似的な最高周波数までにわたる）相異なる周波数に反応する。いくつかの構成では、蝸牛モデル１９１３が、蝸牛の長さをいくつかの空間点（例えば、５１２個の空間点またはサンプル）に離散化し得る。例えば、修正音声信号１９１１の各サンプルに対して、蝸牛モデル１９１３は５１２個の空間点を生成し得る。出力１９１５は、サンプルの範囲（例えば、Ｎ）にわたる空間点のセットを含み得る。例えば、出力１９１５は、修正音声信号１９１１に対応するＮ組の空間点を含み得る。

[00235] 出力１９１５は、部分選択モジュール１９４３に供給され得る。部分選択モジュール１９４３は、部分１９４５（例えば、「対象の部分」）を蝸牛モデル１９１３の出力１９１５の中から選択し得る。例えば、修正音声信号１９１１の有声部分が選択され得る（例えば、母音を含む有声部分）。いくつかの構成では、部分選択モジュール１９４３が、出力１９１５のエネルギーを決定し得る。部分１９４５は、出力１９１５のエネルギーがしきい値以上である出力１９１５のサンプルの範囲として選択され得る。部分選択モジュール１９４３は、部分１９４５を決定するために、他のボイスアクティビティ検出（ＶＡＤ）の手法またはモジュールを利用してもよい。あるいは、無音部分が検出および／または選択されてもよい。

[00236] 出力１９１５または部分１９４５は、セクション分析モジュール１９１７に供給され得る。セクション分析モジュール１９１７は、図１５に関して説明したセクション分析モジュール１５１７の一例であり得る。セクション分析モジュール１９１７は、蝸牛モデル１９１３の出力１９１５または部分１９４５のセクションを分析し得る。例えば、セクション分析モジュール１９１７は、出力１９１５または部分１９４５を複数のセクション１９１９にグループ化（例えば、分割）し得る。いくつかの構成では、セクション分析モジュール１９１７が、出力１９１５または部分１９４５を４つのセクション１９１９にグループ化し得る。例えば、第１のセクションは１から１５０までの空間点を含み得、第２のセクションは１５１から２７５までの空間点を含み得、第３のセクションは２７６から４５０までの空間点を含み得、第４のセクションは４５１から５１２までの空間点を含み得る。セクション１９１９の各々は、ある長さの時間（例えば、Ｎサンプル）にわたって、空間点を含み得る。

[00237] セクション１９１９の各々は、ベクトル抽出モジュール１９２１に供給され得る。ベクトル抽出モジュール１９２１は、図１５に関して説明したベクトル抽出モジュール１５２１の一例であり得る。ベクトル抽出モジュール１９２１は、セクション１９１９の各々に対するベクトル１９２３を抽出し得る。詳細には、ベクトル抽出モジュール１９２１は、各セクション１９１９に対する空間ベース分析ベクトルと時間ベース分析ベクトルとを抽出し得る。

[00238] ベクトル１９２３（例えば、１つまたは複数の時間ベース分析ベクトルおよび１つまたは複数の空間ベース分析ベクトル）は、特徴決定モジュール１９２５に供給され得る。特徴決定モジュール１９２５は、図１５に関して説明した特徴決定モジュール１５２５の一例であり得る。特徴決定モジュール１９２５は、１つまたは複数の特徴１９２７を各ベクトル１９２３（例えば、分析ベクトル）から決定し得る。例えば、特徴決定モジュール１９２５は、各ベクトル１９２３の平均値、中央値、幾何学的シフト、調和平均、標準偏差および非対称度を決定し得る。

[00239] いくつかの構成では、特徴１９２７が、ひずみ推定モジュール１９４７に供給され得る。ひずみ推定モジュール１９４７は、図１５に関して説明したひずみ推定モジュールの一例であり得る。ひずみ推定モジュール１９４７は、１つまたは複数の特徴１９２７に基づいて、１つまたは複数のひずみ１９４９を推定し得る。例えば、ひずみ推定モジュール１９４７は、１つまたは複数の特徴１９２７に基づいて１つまたは複数のひずみ１９４９を推定する、線形回帰モジュール１９５１を含み得る。例えば、線形回帰モジュール１９５１は、１つまたは複数のひずみ１９４９を推定するために、特徴１９２７のうちの１つまたは複数および重み付け１９５３（例えば、１つまたは複数の重み）に基づいて、線形回帰を行い得る。重み付け１９５３は、本明細書で説明されるような（例えば、図８〜図９のうちの１つまたは複数に関して説明したような）トレーニングに基づいて決定され得る。いくつかの構成では、ひずみ推定モジュール１９４７が、ひずみ１９４９を推定するために、多項式回帰、２次回帰、非線形回帰などを、追加または代替として行い得る。いくつかの構成では、１つまたは複数の品質（例えば、前景品質、背景品質、全体品質など）が、本明細書で説明されるように、１つまたは複数のひずみ１９４９に基づいて推定され得る。

[00240] 本明細書で開示されるシステムおよび方法に関して説明した非嵌入的手法のいくつかの利点は、以下のうちの１つまたは複数を含み得る。手法は、人間の知覚志向であり得る。手法は、音声品質測定において高い精度をもたらし得る。手法は、様々なタイプの音声ひずみに洞察（例えば、デスクリプション）をもたらし得る。手法は、流体力学的な蝸牛モデル出力を利用し得る（他の知られている解決策はそうし得ないが）。非嵌入的な手法は、嵌入的な方法ほど多くの情報にアクセスし得ないことに留意されたい。従って、非嵌入的な手法は、品質測定において嵌入的な手法よりも正確でないことがある。

[00241] 図２０は、セクションＡ〜Ｄ２０１９ａ〜ｄへ分割されている蝸牛モデルの出力２０１５の一例を示すブロック図である。この例では、蝸牛モデルが、全てのサンプル入力に対して５１２個の空間点（例えば、サンプル）を出力し得、その場合、５１２個の空間点の各々は、人間の蝸牛上の点に対応する。従って、Ｎ個のサンプルが入力される場合、蝸牛モデルは、５１２×Ｎ個のサンプルを出力し得る（例えば、蝸牛モデル出力２０１５はサイズが５１２×Ｎである）。図２０に示すように、水平軸は時間２０５７に示される。図２０に示すように、垂直軸は空間２０５５（例えば、周波数にマッピングされ得る、蝸牛の長さに沿った空間または位置）に示される。この例では、出力２０１５が、音声信号のＮ個のサンプルの各々に対して５１２個の空間点を含む。

[00242] 上で説明したように、出力２０１５は、より小さいセクションにグループ化または分割され得る。例えば、セクション分析モジュール（例えば、セクション分析モジュール１５１７、１８１７、１９１７）は、蝸牛モデルの出力２０１５を４つのより小さいセクションＡ〜Ｄ２０１９ａ〜ｄに分割し得る。セクションＡ２０１９ａは、時間軸２０５７のＮ個のサンプルにわたって空間点１〜１５０を含み得る（例えば、結果としてある範囲（Ｋ１＝１５０）の空間点が得られる）。セクションＢ２０１９ｂは、時間軸２０５７のＮ個のサンプルにわたって空間点１５１〜２７５を含み得る（例えば、結果としてある範囲（Ｋ２＝１２５）の空間点が得られる）。セクションＣ２０１９ｃは、時間軸２０５７のＮ個のサンプルにわたって空間点２７６〜４５０を含み得る（例えば、結果としてある範囲（Ｋ３＝１７５）の空間点が得られる）。セクションＤ２０１９ｄは、時間軸２０５７のＮ個のサンプルにわたって空間点４５１〜５１２を含み得る（例えば、結果としてある範囲（Ｋ４＝６２）の空間点が得られる）。セクション２０１９は特有の値とともに示されるが、任意の適切な線引き(delineation)がセクション２０１９を定義するために使用され得る。さらに、「セクション」および「領域」という用語は、蝸牛モデル出力の部分を参照するために互換的に使用され得る。出力２０１５をより小さいセクションに分割することにより、大量のデータを管理するための、および／または周波数関連の分析のための手法が可能になり得る。

[00243] 図２１は、蝸牛モデル出力２１１５のセクション２１１９から空間ベース分析ベクトル２１２３を抽出することの一例を示すブロック図である。詳細には、図２１は、元の音声に対する蝸牛モデル出力Ａ２１１５ａのセクションＡ２１１９ａ、および修正された（例えば、劣化した）音声に対する蝸牛モデル出力Ｂ２１１５ｂのセクションＥ２１１９ｅに基づいて、空間ベース（例えば、「タイプ１」）の分析ベクトルを抽出することの一例を示す。図２１に関して説明した動作のうちの１つまたは複数は、図１５に関して説明した電子デバイス１５０７（例えば、特徴抽出モジュール１５２９）によって行われ得る。

[00244] 詳細には、この例は、元の音声信号に基づく蝸牛モデルの出力Ａ２１１５ａを示す。出力Ａ２１１５ａは、セクションＡ〜Ｄ２１１９ａ〜ｄを含む。さらに、この例は、修正音声信号に基づく蝸牛モデルの出力Ｂ２１１５ｂを示す。出力Ｂ２１１５ｂは、セクションＥ〜Ｈ２１１９ｅ〜ｈを含む。

[00245] セクション分析モジュールＡ２１１７ａは、出力Ａ２１１５ａをセクションＡ〜Ｄ２１１９ａ〜ｄに分割し、セクションＡ２１１９ａを平均化モジュールＡ２１５９ａに供給する。言い換えれば、セクション分析モジュールＡ２１１７ａは、蝸牛モデル出力Ａ２１１５ａのＫ１×Ｎ個のサンプル（例えば、セクションＡ２１１９ａ）を平均化モジュールＡ２１５９ａに供給する。平均化モジュールＡ２１５９ａは、セクションＡ２１１９ａを時間にわたって平均化する。この平均値は、平均値にｌｏｇ₁₀演算を行う対数モジュールＡ２１６１ａに供給される。平均値の対数（例えば、第１のログ平均）は、加算器２１６３に供給される。

[00246] セクション分析モジュールＢ２１１７ｂは、出力Ｂ２１１５ｂをセクションＥ〜Ｈ２１１９ｅ〜ｈに分割し、セクションＥ２１１９ｅを平均化モジュールＢ２１５９ｂに供給する。言い換えれば、セクション分析モジュールＢ２１１７ｂは、蝸牛モデル出力Ｂ２１１５ｂのＫ１×Ｎ個のサンプル（例えば、セクションＥ２１１９ｅ）を平均化モジュールＢ２１５９ｂに供給する。平均化モジュールＢ２１５９ｂは、セクションＥ２１１９ｅを時間にわたって平均化する。この平均値は、平均値にｌｏｇ₁₀演算を行う対数モジュールＢ２１６１ｂに供給される。平均値の対数（例えば、第２のログ平均）は、加算器２１６３に供給される。

[00247] 加算器は、分析ベクトル２１２３（例えば、「タイプ１」分析ベクトル）を生成するために、第１のログ平均と第２のログ平均との差を取る。この分析ベクトル２１２３（例えば、「タイプ１」分析ベクトル）は、空間ベース分析ベクトルまたは嵌入的な空間ベース分析ベクトルと呼ばれ得る。例えば、空間ベース分析ベクトル２１２３は、元の音声信号と修正音声信号とを利用する嵌入的な手法で決定され得る。これらの演算は出力Ａ〜Ｂ２１１５ａ〜ｂの第１のセクション（セクションＡ２１１９ａおよびセクションＥ２１１９ｅ）に対して示されるが、分析ベクトル２１２３は、図２０および図２１のうちの１つまたは複数に示す４つのセクションのうちの任意および／または全てのものに対して決定され得る。本明細書において、「分析シリアル」および「分析ベクトル」という用語は、音声の特徴がそこから抽出される中間的なベクトルを参照するために互換的に使用され得る。

[00248] 図２２は、蝸牛モデル出力２２１５のセクションＡ２２１９ａから空間ベース分析ベクトル２２２３を抽出することの別の例を示すブロック図である。詳細には、図２２は、修正された（例えば、劣化した）音声に対する蝸牛モデル出力２２１５のセクションＡ２２１９ａに基づいて、空間ベース（例えば、「タイプ２」）の分析ベクトルを抽出することの一例を示す。類似の手法が元の音声に対する空間ベース分析ベクトルを抽出するために利用され得ることに留意されたい。図２２に関して説明した動作のうちの１つまたは複数は、図１５に関して説明した電子デバイス１５０７（例えば、特徴抽出モジュール１５２９）によって行われ得る。

[00249] 詳細には、この例は、修正音声信号に基づく蝸牛モデルの出力２２１５を示す。出力２２１５は、セクションＡ〜Ｄ２２１９ａ〜ｄを含む。セクション分析モジュール２２１７は、出力２２１５をセクションＡ〜Ｄ２２１９ａ〜ｄに分割し、セクションＡ２２１９ａを平均化モジュール２２５９に供給する。言い換えれば、セクション分析モジュール２２１７は、蝸牛モデル出力２２１５のＫ１×Ｎ個のサンプル（例えば、セクションＡ２２１９ａ）を平均化モジュール２２５９に供給する。平均化モジュール２２５９は、セクションＡ２２１９ａを時間にわたって平均化する。この平均値は、平均値にｌｏｇ₁₀演算を行う対数モジュール２２６１に供給される。平均値の対数（例えば、ログ平均）は、分析ベクトル２２２３（例えば、「タイプ２」分析ベクトル）である。この分析ベクトル２２６３（例えば、「タイプ２」分析ベクトル）は、空間ベース分析ベクトルまたは非嵌入的な空間ベース分析ベクトルと呼ばれ得る。例えば、空間ベース分析ベクトル２２２３は、修正音声信号を利用する（例えば、元の音声信号を利用しない）非嵌入的な手法で決定され得る。これらの演算は出力２２１５の第１のセクション（セクションＡ２２１９ａ）に対して示されるが、分析ベクトル２２２３は、図２０および図２２のうちの１つまたは複数に示す４つのセクションのうちの任意および／または全てのものに対して決定され得る。

[00250] 図２３は、蝸牛モデル出力２３１５のセクション２３１９から時間ベース分析ベクトル２３２３を抽出することの一例を示すブロック図である。詳細には、図２３は、元の音声に対する蝸牛モデル出力Ａ２３１５ａのセクションＡ２３１９ａ、および修正された（例えば、劣化した）音声に対する蝸牛モデル出力Ｂ２３１５ｂのセクションＥ２３１９ｅに基づいて、時間ベース（例えば、「タイプ３」）の分析ベクトルを抽出することの一例を示す。図２３に関して説明した動作のうちの１つまたは複数は、図１５に関して説明した電子デバイス１５０７（例えば、特徴抽出モジュール１５２９）によって行われ得る。

[00251] 詳細には、この例は、元の音声信号に基づく蝸牛モデルの出力Ａ２３１５ａを示す。出力Ａ２３１５ａは、セクションＡ〜Ｄ２３１９ａ〜ｄを含む。さらに、この例は、修正音声信号に基づく蝸牛モデルの出力Ｂ２３１５ｂを示す。出力Ｂ２３１５ｂは、セクションＥ〜Ｈ２３１９ｅ〜ｈを含む。

[00252] セクション分析モジュールＡ２３１７ａは、出力Ａ２３１５ａをセクションＡ〜Ｄ２３１９ａ〜ｄに分割し、セクションＡ２３１９ａを平均化モジュールＡ２３５９ａに供給する。言い換えれば、セクション分析モジュールＡ２３１７ａは、蝸牛モデル出力Ａ２３１５ａのＫ１×Ｎ個のサンプル（例えば、セクションＡ２３１９ａ）を平均化モジュールＡ２３５９ａに供給する。平均化モジュールＡ２３５９ａは、セクションＡ２３１９ａを空間にわたって平均化する。この平均値は、平均値にｌｏｇ₁₀演算を行う対数モジュールＡ２３６１ａに供給される。平均値の対数（例えば、第１のログ平均）は、加算器２３６３に供給される。

[00253] セクション分析モジュールＢ２３１７ｂは、出力Ｂ２３１５ｂをセクションＥ〜Ｈ２３１９ｅ〜ｈに分割し、セクションＥ２３１９ｅを平均化モジュールＢ２３５９ｂに供給する。言い換えれば、セクション分析モジュールＢ２３１７ｂは、蝸牛モデル出力Ｂ２３１５ｂのＫ１×Ｎ個のサンプル（例えば、セクションＥ２３１９ｅ）を平均化モジュールＢ２３５９ｂに供給する。平均化モジュールＢ２３５９ｂは、セクションＥ２３１９ｅを空間（例えば、周波数に対応し得る、蝸牛に沿った空間）にわたって平均化する。この平均値は、平均値にｌｏｇ₁₀演算を行う対数モジュールＢ２３６１ｂに供給される。平均値の対数（例えば、第２のログ平均）は、加算器２３６３に供給される。

[00254] 加算器は、分析ベクトル２３２３（例えば、「タイプ３」分析ベクトル）を生成するために、第１のログ平均と第２のログ平均との差を取る。この分析ベクトル２３２３（例えば、「タイプ３」分析ベクトル）は、時間ベース分析ベクトルまたは嵌入的な時間ベース分析ベクトルと呼ばれ得る。例えば、時間ベース分析ベクトル２３２３は、元の音声信号と修正音声信号とを利用する嵌入的な手法で決定され得る。これらの演算は出力Ａ〜Ｂ２３１５ａ〜ｂの第１のセクション（セクションＡ２３１９ａおよびセクションＥ２３１９ｅ）に対して示されるが、分析ベクトル２３２３は、図２０および図２３のうちの１つまたは複数に示す４つのセクションのうちの任意および／または全てのものに対して決定され得る。

[00255] 図２４は、蝸牛モデル出力２４１５のセクションＡ２４１９ａから時間ベース分析ベクトル２４２３を抽出することの別の例を示すブロック図である。詳細には、図２４は、修正された（例えば、劣化した）音声に対する蝸牛モデル出力２４１５のセクションＡ２４１９ａに基づいて、時間ベース（例えば、「タイプ４」）の分析ベクトルを抽出することの一例を示す。類似の手法が元の音声に対する時間ベース分析ベクトルを抽出するために利用され得ることに留意されたい。図２４に関して説明した動作のうちの１つまたは複数は、図１５に関して説明した電子デバイス１５０７（例えば、特徴抽出モジュール１５２９）によって行われ得る。

[00256] 詳細には、この例は、修正音声信号に基づく蝸牛モデルの出力２４１５を示す。出力２４１５は、セクションＡ〜Ｄ２４１９ａ〜ｄを含む。セクション分析モジュール２４１７は、出力２４１５をセクションＡ〜Ｄ２４１９ａ〜ｄに分割し、セクションＡ２４１９ａを平均化モジュール２４５９に供給する。言い換えれば、セクション分析モジュール２４１７は、蝸牛モデル出力２４１５のＫ１×Ｎ個のサンプル（例えば、セクションＡ２４１９ａ）を平均化モジュール２４５９に供給する。平均化モジュール２４５９は、セクションＡ２４１９ａを空間（例えば、周波数に対応し得る、蝸牛に沿った空間）にわたって平均化する。この平均値は、平均値にｌｏｇ₁₀演算を行う対数モジュール２４６１に供給される。平均値の対数（例えば、ログ平均）は、分析ベクトル２４２３（例えば、「タイプ４」分析ベクトル）である。この分析ベクトル２４６３（例えば、「タイプ４」分析ベクトル）は、時間ベース分析ベクトルまたは非嵌入的な時間ベース分析ベクトルと呼ばれ得る。例えば、時間ベース分析ベクトル２４２３は、修正音声信号を利用する（例えば、元の音声信号を利用しない）非嵌入的な手法で決定され得る。これらの演算は出力２４１５の第１のセクション（セクションＡ２４１９ａ）に対して示されるが、分析ベクトル２４２３は、図２０および図２４のうちの１つまたは複数に示す４つのセクションのうちの任意および／または全てのものに対して決定され得る。

[00257] 図２５は、特徴決定モジュール２５２５の構成を示すブロック図を含む。図２５に関して説明した特徴決定モジュール２５２５は、本明細書で説明される特徴決定モジュール１５２５、１８２５、１９２５のうちの１つまたは複数の一例であり得る。特徴決定モジュール２５２５は、特徴算出モジュール２５６３、肯定的モジュール２５６５および／または否定的モジュール２５６９を含み得る。いくつかの構成では、肯定的モジュール２５６５および否定的モジュール２５６９が、嵌入的な手法で実施および／または利用され得る。いくつかの構成では、肯定的モジュール２５６５および否定的モジュール２５６９が、オプションであり、および／または非嵌入的な手法で実施および／または利用され得る。

[00258] ベクトル２５２３ａは、特徴決定モジュール２５２５に供給され得る。詳細には、ベクトル２５２３ａは、特徴算出モジュール２５６３、肯定的モジュール２５６５および／または否定的モジュール２５６９に供給され得る。

[00259] 肯定的モジュール２５６５は、ベクトル２５２３ａの肯定的部分２５６７を決定し得る。例えば、肯定的モジュール２５６５は、ベクトル２５２３ａの中の任意の否定的な値をゼロに変更し得る。肯定的モジュール２５６５は、また、ベクトル２５２３ａの中の任意の肯定的な値を変更されないままにしておき得る。

[00260] 否定的モジュール２５６９は、ベクトル２５２３ａの否定的部分２５７１を決定し得る。例えば、否定的モジュール２５６９は、ベクトル２５２３ａの中の任意の肯定的な値をゼロに変更し得る。否定的モジュール２５６９は、また、ベクトル２５２３ａの中の任意の否定的な値を変更されないままにしておき得る。

[00261] ベクトル２５２３ａ、肯定的部分２５６７および／または否定的部分２５７１は、特徴算出モジュール２５６３に供給され得る。特徴算出モジュール２５６３は、ベクトル２５２３ａ、肯定的部分２５６７および／または否定的部分２５７１の各々に対して、１つまたは複数の特徴を決定（例えば、算出）し得る。例えば、特徴算出モジュール２５６３は、ベクトル２５２３ａ、肯定的部分２５６７および／または否定的部分２５７１の各々に対して、平均値（ａｖｅｒａｇｅ）（例えば、平均値（ｍｅａｎ））、中央値、幾何学的シフト、調和平均、標準偏差、非対称度および／または他の特徴を算出し得る。

[00262] ベクトル２５２３ｂの肯定的部分と否定的部分とを決定するための１つの手法を、図２５に示す。詳細には、図２５は、肯定的部分および否定的部分の決定２５７３の一例を提供する。ベクトル２５２３ｂ（例えば、分析ベクトルまたは分析シリアル）は、ｎ個の値またはエントリ、すなわちＰ１〜Ｐｎを有し得る。肯定的部分２５７５（例えば、肯定的ベクトル、肯定的分析シリアル）および否定的部分２５７７（例えば、否定的ベクトル、否定的分析シリアル）が作り出され得る。肯定的部分２５７５の中の各値は、同じインデックスを有するベクトル２５２３ｂの中の対応する値に基づいて作り出され得る（例えば、肯定的部分２５７５の中の第１のエントリはベクトル２５２３ｂの中の第１のエントリに基づく）。例えば、ベクトル２５２３ｂの中でＰ１＞０である場合、肯定的部分２５７５の中のＰ１はＰ１である。しかしながら、ベクトル２５２３ｂの中でＰ１＜＝０である場合、肯定的部分２５７５の中のＰ１は０である。反対に、ベクトル２５２３ｂの中でＰ＜０である場合、否定的部分２５７７の中のＰ１はＰ１である。しかしながら、ベクトル２５２３ｂの中でＰ１＞＝０である場合、否定的部分２５７７の中のＰ１は０である。特徴（例えば、特徴２５２７）がそこから抽出され得る肯定的部分２５７５および／または否定的部分２５７７を埋めるために、ベクトル２５２３ｂの中の全ての値またはエントリに対して、このことがなされ得る。

[00263] 図２６は、特徴決定の一例を示す。いくつかの構成では、図２６に示す特徴決定が、本明細書で説明される特徴決定モジュール１５２５、１８２５、２５２５のうちの１つまたは複数によって行われ得る。詳細には、図２６に示す特徴決定は、（例えば、嵌入的な空間ベースのベクトル（「タイプ１」）に対する、および嵌入的な時間ベースのベクトル（「タイプ３」）に対する）嵌入的な手法で行われ得る。この例では、単一の嵌入的な空間ベースベクトルまたは単一の嵌入的な時間ベースのベクトルが、１８個の特徴（例えば、特徴値）、すなわち、ベクトル２６２３自体から６個と、分析ベクトル２６２３の肯定的部分２６６７から６個と、分析ベクトル２６２３の否定的部分２６７１から６個とを生成し得る。いくつかの構成では、特徴または特徴値の各々が、対応するモジュールによって決定（例えば、算出）され得る。例えば、各モジュールは単一の特徴または特徴値を与え得る。

[00264] いくつかの構成では、特徴決定モジュール（例えば、図２５に関して説明した特徴決定モジュール２５２５）が、ベクトル２６２３の肯定的部分２６６７に対して、平均値Ａ２６７９ａと、中央値Ａ２６８１ａと、幾何学的シフトＡ２６８３ａと、調和平均Ａ２６８５ａと、標準偏差Ａ２６８７ａと、非対称度Ａ２６８９ａとを決定し得る。追加または代替として、特徴決定モジュールは、ベクトル２６２３自体に対して、平均値Ｂ２６７９ｂと、中央値Ｂ２６８１ｂと、幾何学的シフトＢ２６８３ｂと、調和平均Ｂ２６８５ｂと、標準偏差Ｂ２６８７ｂと、非対称度Ｂ２６８９ｂとを決定し得る。追加または代替として、特徴決定モジュールは、ベクトル２６２３の否定的部分２６７１に対して、平均値Ｃ２６７９ｃと、中央値Ｃ２６８１ｃと、幾何学的シフトＣ２６８３ｃと、調和平均Ｃ２６８５ｃと、標準偏差Ｃ２６８７ｃと、非対称度Ｃ２６８９ｃとを決定し得る。

[00265] 肯定的部分２６６７に対して、特徴決定モジュールは、１つまたは複数の他Ａ２６９１ａの特徴または特徴値を決定し得る。ベクトル２６２３に対して、特徴決定モジュールは、追加または代替として、１つまたは複数の他Ｂ２６９１ｂの特徴または特徴値を決定し得る。否定的部分２６７１に対して、特徴決定モジュールは、追加または代替として、１つまたは複数の他Ｃ２６９１ｃの特徴または特徴値を決定し得る。１つまたは複数の特徴または特徴値は、特徴セットの中で一緒にグループ化され得る。例えば、平均値Ｂ２６７９ｂ、中央値Ｂ２６８１ｂ、幾何学的シフトＢ２６８３ｂ、調和平均Ｂ２６８５ｂ、標準偏差Ｂ２６８７ｂ、および非対称度Ｂ２６８９ｂは、特徴セットにグループ化され得る。

[00266] 図２７は、特徴決定の別の例を示す。いくつかの構成では、図２７に示す特徴決定が、本明細書で説明される特徴決定モジュール１５２５、１８２５、１９２５、２５２５のうちの１つまたは複数によって行われ得る。詳細には、図２７に示す特徴決定は、（例えば、非嵌入的な空間ベースのベクトル（「タイプ２」）に対する、および非嵌入的な時間ベースのベクトル（「タイプ４」）に対する）非嵌入的な手法で、および／または（例えば、嵌入的な空間ベースのベクトル（「タイプ１」）に対する、および嵌入的な時間ベースのベクトル（「タイプ３」）に対する）嵌入的な手法で行われ得る。この例では、単一の嵌入的な空間ベースのベクトルまたは単一の嵌入的な時間ベースのベクトルが、６個の特徴（例えば、特徴値）をベクトル２７２３から生成し得る。いくつかの構成では、特徴または特徴値の各々が、対応するモジュールによって決定（例えば、算出）され得る。例えば、各モジュールは単一の特徴または特徴値を与え得る。

[00267] いくつかの構成では、特徴決定モジュール（例えば、図２５に関して説明した特徴決定モジュール２５２５）が、ベクトル２７２３に対して、平均値２７７９と、中央値２７８１と、幾何学的シフト２７８３と、調和平均２７８５と、標準偏差２７８７と、非対称度２７８９とを決定し得る。ベクトル２７２３に対して、特徴決定モジュールは、追加または代替として、１つまたは複数の他２７９１の特徴または特徴値を決定し得る。１つまたは複数の特徴または特徴値は、特徴セットの中で一緒にグループ化され得る。例えば、平均値２７７９、中央値２７８１、幾何学的シフト２７８３、調和平均２７８５、標準偏差２７８７、および非対称度２７８９は、特徴セットにグループ化され得る。

[00268] 図２８は、本明細書で開示されるシステムおよび方法による客観的予測の一例を示す。詳細には、図２８は、グラフＡ２８９３ａとグラフＢ２８９３ｂとを含む。グラフＡ２８９３ａがＳ−ＭＯＳ予測２８９５スコアの垂直軸とともに示され、垂直軸は、１〜５の範囲を有し、音声信号の前景品質に対する客観的予測スコア、またはＳ−ＭＯＳの予測（例えば、前景スコアのＳＩＧ平均予測）を示す。グラフＡ２８９３ａは、また、主観的なＳ−ＭＯＳ２８９７スコアの水平軸とともに示され、水平軸は、同様に１〜５の範囲を有し、前景品質に対する知られている手法を使用する測定の一例である。グラフＡ２８９３ａは、Ｐ．８３５のＳＩＧスコア対知られている手法での客観的予測の散布図である。観察され得るように、知られている手法は、２．５よりも小さい主観的なスコアに対して良好に予測しない。図２８〜図３０において、点が対角線に近ければ近いほど、それらはより正確な予測を表す。図２８〜図３０のＡグラフの全てが、あるデータベース（例えば、ＳＩＧ（２８９３ａ）、ＢＡＫ（２９９３ａ）およびＯＶＲ（３０９３ａ））に関することに留意されたい。また、図２８〜図３０のＢグラフの全てが、別のデータベース（例えば、ＳＩＧ（２８９３ｂ）、ＢＡＫ（２９９３ｂ）およびＯＶＲ（３０９３ｂ））に関することに留意されたい。

[00269] グラフＢ２８９３ｂが客観的なＳＩＧ２８９９スコアの垂直軸とともに示され、垂直軸は、１〜５の範囲を有し、音声信号の前景品質に対するＩＴＵ標準Ｐ．８３５を使用する予測スコアである。グラフＢ２８９３ｂは、また、主観的なＳＩＧ２８０２スコアの水平軸とともに示され、水平軸は、同様に１〜５の範囲を有し、本明細書で開示されるシステムおよび方法による客観的な予測器の一例である。観察され得るように、本明細書で開示されるシステムおよび方法は、知られている手法よりも高い精度で主観的なＭＯＳを予測し得る。

[00270] 図２９は、本明細書で開示されるシステムおよび方法による客観的予測の別の例を示す。詳細には、図２９は、グラフＡ２９９３ａとグラフＢ２９９３ｂとを含む。グラフＡ２９９３ａが客観的なＰ．８３５のＢＡＫ２９０４スコアでの垂直軸とともに示され、垂直軸は、１〜５の範囲を有し、音声信号の背景雑音に対するＩＴＵ標準Ｐ．８３５を使用する予測スコアである。グラフＡ２９９３ａは、また、主観的なＮ−ＭＯＳ２９０６スコアでの水平軸とともに示され、水平軸は、同様に１〜５の範囲を有し、背景雑音に対する知られている手法を使用する測定の一例である。グラフＡ２９９３ａは、Ｐ．８３５のＢＡＫスコア対知られている手法での客観的予測の散布図である。観察され得るように、知られている手法は、適正に密接して対象スコアを予測する。

[00271] グラフＢ２９９３ｂが客観的なＰ．３８５のＮＭＯＳ（ＢＡＫ）２９０８スコアでの垂直軸とともに示され、垂直軸は、１〜５の範囲を有し、音声信号の背景雑音に対するＩＴＵ標準Ｐ．８３５を使用する予測スコアである。グラフＢ２９９３ｂは、また、主観的なＮＭＯＳ２９１０スコアでの水平軸とともに示され、水平軸は、同様に１〜５の範囲を有し、本明細書で開示されるシステムおよび方法による客観的な予測器の一例である。観察され得るように、本明細書で開示されるシステムおよび方法は、知られている手法よりもわずかに低い精度でスコアを予測し得るが、両方の結果は主観的なスコアに適正に接近している。

[00272] 図３０は、本明細書で開示されるシステムおよび方法による客観的予測の別の例を示す。詳細には、図３０は、グラフＡ３０９３ａとグラフＢ３０９３ｂとを含む。グラフＡ３０９３ａが客観的なＯＶＲＬのＰ．８３５３０１２スコアでの垂直軸とともに示され、垂直軸は、１〜５の範囲を有し、音声信号の全体品質に対するＩＴＵ標準Ｐ．８３５を使用する予測スコアである。グラフＡ３０９３ａは、また、主観的なＧ−ＭＯＳ３０１４スコアでの水平軸とともに示され、水平軸は、同様に１〜５の範囲を有し、全体品質に対する知られている手法を使用する測定の一例である。グラフＡ３０９３ａは、Ｐ．８３５のＢＡＫスコア対知られている手法での客観的予測の散布図である。観察され得るように、知られている手法は、適正に密接して対象スコアを予測する。

[00273] グラフＢ３０９３ｂが客観的なＧＭＯＳ（ＯＶＲ）３０１６スコアでの垂直軸とともに示され、垂直軸は、１〜５の範囲を有し、音声信号の全体品質に対するＩＴＵ標準Ｐ．８３５を使用する予測スコアである。グラフＢは、また、主観的なＧＭＯＳ（ＯＶＲ）３０１８スコアでの水平軸とともに示され、水平軸は、同様に１〜５の範囲を有し、本明細書で開示されるシステムおよび方法による客観的な予測器の一例である。観察され得るように、本明細書で開示されるシステムおよび方法は、知られている手法よりも高い精度でスコアを予測し得る。

[00274] Ｐ．８３５のスコアを予測するための本明細書で開示されるシステムおよび方法の能力のいくつかの暫定結果が、表２に与えられる。例えば、本明細書で開示されるシステムおよび方法は、Ｐ．ＯＮＲＡのためのモデルに適用され得る。本明細書で説明される手法では、流体力学的な蝸牛モデルが、音声を知覚領域に変換するために使用され得る。蝸牛モデル出力、内有毛細胞（ＩＨＣ）電圧は、時間軸および空間軸（例えば、基底膜に沿った距離）において本質的に音声信号の表現であり得る。従来の音響心理学的モデルに比較されるとき、表現は、より高い時間的な分解能と、より正確な空間的な精度を有する。ＩＨＣ電圧のさらなる処理は、例えば、ＳＭＯＳ、ＮＭＯＳおよびＧＭＯＳを予測するために、簡単で線形の欧州電気通信標準化機構（ＥＴＳＩ）のＴＳ１０３１０６回帰モデルを通って後で供給され得る「顕著な特徴セット」を与える。

[00275] 本明細書で提示する暫定結果において、本明細書で説明される手法は、３つの主観的なデータベース（各々６０個の条件を有する）のみを用いて訓練されたが、比較における知られている手法は、７つのデータベースを用いて訓練された。例えば、本明細書で開示されるシステムおよび方法は、検証目的のためのいくつかのＰ．８３５データベースの上でテストされた。４つのデータベースが使用された。各データベースは、６０個の条件と、２人の話し手と、４つのセンテンスを含んでいた。３つのデータベースがトレーニングのために使用され、１つがテストのために使用された。本明細書で説明されるように、トレーニングおよび／または予測は、特徴の線形回帰を用いて行われ得る。複雑なトレーニングモデル（例えば、ニューラルネットワーク）も本明細書で開示されるシステムおよび方法によって適用され得ることに留意されたい。例えば、トレーニングプロセスは改善され得る。表２は、知られている手法（「既知(Known)」）と比較して、本明細書で開示されるシステムおよび方法（「新規(New)」）のいくつかの暫定結果の例を提供する。「ＲＭＳＥ」は「２乗平均誤差」を意味する。

[00276] 表２は、１つの主観的なテストデータベースに関する予測結果を示す。同じデータベース上のＴＳ１０３１０６による予測（７個の主観的なデータベースを用いて再訓練されている）が、比較のために「既知」の手法としてここで記載されている。結果は、本明細書で開示されるシステムおよび方法がＳ−ＭＯＳとＧ−ＭＯＳとを予測できることにおいてより優れていることを示す。詳細な比較を図２８に示す。ＴＳ１０３１０６の性能は、主観的なＳ−ＭＯＳを伴う条件に対して、３未満低下している。Ｎ−ＭＯＳ性能に関する詳細な比較を図２９に示す。相関係数（両方とも０．９９を示す）に関して差はない。Ｇ−ＭＯＳは、Ｓ−ＭＯＳおよびＮ−ＭＯＳから合成され得る。本明細書で開示されるシステムおよび方法は、ＴＳ１０３１０６よりもわずかに良好な予測を提供する。主観的なスコアと客観的なスコアとの間の相関係数は、０．９９対０．９７である。現在のモデルは、また、より小さいＲＭＳＥ（０．１６対０．３６）およびＲＭＳＥ＊（０．０９対０．２３）を示す。Ｇ−ＭＯＳの比較を図３０に示す。

[00277] 図３１は、図３１Ａ〜図３１Ｄに対応する一例の複数の部分を示すブロック図である。図３１Ａ〜図３１Ｄは、嵌入的特徴抽出を使用して粗さひずみを推定または予測することの一例を示すブロック図を示す。特有の数が例示のために使用され得るが、本システムおよび方法の任意の点における様々なデータの実際のサイズは変化し得る。

[00278] 図３１Ａに示すような元の音声信号３１０９および修正された（例えば、劣化した）音声信号３１１１（各々１０００サンプル長として示される）は、蝸牛モデルに供給され得る。蝸牛モデルは、全てのサンプル入力に対して５１２個のサンプルを出力し得る。詳細には、出力Ａ３１１５ａは元の音声信号３１０９に対応し得、出力Ｂ３１１５ｂは修正音声信号３１１１に対応し得る。

[00279] 出力Ａ〜Ｂ３１１５ａ〜ｂから、第１の有声部分は、４つのセクション３１１９ａ〜ｂ（例えば、元の音声信号３１０９に基づく蝸牛モデルの出力Ａ３１１５ａに対する４つのセクション３１１９ａ、および修正音声信号３１１１に基づく蝸牛モデルの出力Ｂ３１１９ｂに基づく４つのセクション３１１９ｂ）に分割され得る。

[00280] １つまたは複数の分析ベクトルまたは分析シリアル（ＡＳ：analysis serials）３１２３は、セクション３１１９ａ〜ｂから決定され得る。図示したように、Ｒ１ＡＳ１は、第１のセクションから決定され得、ここで、Ｒ１はそれが第１の有声部分の第１のセクションから決定されたという事実を指し、ＡＳ１はそれがタイプ１の分析ベクトルであるという事実を指す。Ｒ１ＡＳ１に加えて、以下の分析ベクトル３１２３、すなわち、Ｒ１ＡＳ３、Ｒ２ＡＳ１、Ｒ２ＡＳ３、Ｒ３ＡＳ１、Ｒ３ＡＳ３、Ｒ４ＡＳ１、Ｒ４ＡＳ３、Ｒ３ＡＳ２、およびＲ３ＡＳ４が決定され得る。これらのベクトルは、図１５〜図１６、図１８および図２１〜図２４のうちの１つまたは複数に関して説明したように決定され得る。従って、選択された各セクションに対して抽出された分析ベクトル３１２３のタイプは、音声品質の嵌入的な測定のためのタイプを示した表３に従って決定され得る。

[00281] さらに、タイプ１の分析ベクトルが、元の音声および修正された（例えば、劣化した）音声から決定される顕著な特徴点（ＳＦＰ：salient feature point）ベクトル３１２４を得るために抽出され得る。ＳＦＰベクトルは、時間的に集中したひずみに関係する。ＳＦＰベクトルを取得するためのプロセスは、（１）ＣＭ出力を取得し有声部分を取る、（２）有声部分の中の１つまたは複数（例えば、全ての）トラックを見つける、（３）振幅が大きい１つまたは複数のセクションを使用する、および（４）有声部分の中の１つまたは複数のトラックからＳＦＰベクトル３１２４を算出する、であり得る。従って、選択されたセクションに対して特徴３１２７（例えば、特徴ベクトル）を決定するために、１１個のベクトル（１０個の分析ベクトル３１２３およびＳＦＰ３１２４）が使用され得、各々が６個または１８個の特徴を生成する。ＳＦＰは、「知覚的なピッチ」と見なされ得、従来のピッチの概念と異なり得る。なぜならＳＦＰが３次元的であり得、ＳＦＰの中の各点が、時間と空間と振幅とを有することを意味するからである。従来のピッチの概念は、知覚領域の中に振幅を有し得ない。

[00282] 詳細には、タイプ１またはタイプ３の各分析ベクトルは、１８個の特徴３１２７を生成し得る（例えば、図２５〜図２６に関して説明したように）。図示したように、ＡＳ１およびＡＳ３ベクトルは、肯定的部分（例えば、ＲＳ１ＡＳ１肯定的）と、否定的部分（例えば、ＲＳ１ＡＳ１否定的）とを取得するために利用され得る。

[00283] タイプ２またはタイプ４の各分析ベクトルは、６個の特徴を生成し得る（例えば、図２５および図２７に関して説明したように）。特徴３１２７は、この例では１７４個のエントリを有する特徴ベクトルの中に配置され得る。別の１７４個のエントリの特徴ベクトルを生成するために、特徴抽出の同じ処理が、元の音声および修正音声に対する蝸牛の出力の第２の部分（例えば、有声部分）で行われ得る。同じ処理が任意の適切な数の部分（例えば、有声部分）に対して反復され得、各々は最初に選択されたセクションのものと類似の特徴ベクトルを生成する。

[00284] 一旦全ての選択されたセクションに対する特徴ベクトルが決定されると、特徴３１２７は図３１Ｂおよび図３１Ｃに示すように平均化され得る。言い換えれば、特徴ベクトルの各々の中の最初のエントリ（平均値として示される）は、平均化され得る。同様に、全てのインデックスにおけるエントリは、この例では１７４エントリのベクトルとして示される単一の平均特徴ベクトル３１２０を生成するために、互いに平均化される。単一の平均特徴ベクトル３１２０は、（例えば、図８〜図９のうちの１つまたは複数に関して説明したように）予めトレーニング中に学習された重み付け３１５３によって乗算した（例えば、重みを使用して重み付けられ得る）。重み付けの後、単一の平均特徴ベクトルの中の特徴の各々は、図３１Ｄに示すような粗さひずみ３１４９（例えば、予測スコア）を生成するために、合計され得る。類似の手順が他のひずみに対して続き得る。

[00285] 音声品質の客観的測定のための知られている手法は、ＩＴＵ標準ＰＥＳＱ／Ｐ．ＯＬＱＡなどの全体品質に直接取り組むことである。知られている手法では、特徴が、人間の知覚のおおまかな近似である音響心理学的なマスキングモデルまたは類似のものから抽出された。知覚的なホルマントのような特徴(Perceptual formant-like features)は、流体力学的な蝸牛モデルの出力から抽出され、時間的に局所化されたひずみの測定のために使用されてきた。

[00286] いくつかの構成では、システムおよび方法の１つまたは複数の手順が下記のように行われ得る。１つの手法では、ここで提起される新しい特徴セットは、嵌入的（劣化した音声信号と元の音声信号の両方を使用する）である。元の音声および対応する劣化した音声（位置合わせされ(aligned)水準化された(leveled)Ｓ^oriおよびＳ^dis）を仮定する。Ｓ^oriおよびＳ^disは、（流体力学的な蝸牛モデルまたは音響心理学的モデルなどの）聴覚の計算形モデルを通過させられ得る。そのようなモデルは、ＣＭと呼ばれ得、元の信号およびひずんだ信号に起因する出力は、ＣＭ^oriおよびＣＭ^disと呼ばれる。

[00287] 元の音声およびひずんだ音声は、流体力学的な蝸牛モデル（ＣＭ）を通過させられ得、出力は、時間領域と周波数領域の両方に沿って高い精度を有する。出力は、知覚領域の中の音声を表す。

[00288] 分析シリアル（ＡＳ）は、対象とされるセクションから抽出され得る。特徴ＶＳＦ１４４は、分析の目的に応じて、本明細書で説明される同じアルゴリズムを用いて、音声の有声セクション（ＶＳ：voiced sections）および無音（ＳＩＬ：silence）セクションから抽出され得る。Ｋ個の対象とされるセクションが存在すると仮定する。

[00289] 周波数関連の分析シリアルは、次のように記述され得る。第ｋの対象領域に対して、劣化したＣＭ出力

および対応する元のＣＭ出力

は、各々サイズがＰ＊Ｔである。

[00290] 異なる知覚的モデルに対して、ＣＭはサイズが異なり得る。以下の部分では、蝸牛モデルを使用する。いくつかの出力に対して数値が調整され得ることに留意されたい。この例におけるＰは、範囲１〜５１２を有し、４つの領域、すなわち、（Ａ）１〜１５０、（Ｂ）１５１〜２７５、（Ｃ）ａ２７６〜４５０および（Ｄ）４５０〜５１２に切り分けられる。従って、空間に応じて４つの異なる関数が存在する。

[00291] 別の関数が、元の音声、但し顕著な領域（領域Ｃ）の中のみについて記述される。

Ｐ１_k（ｐ）（長さＮの）は、

に分離され得る。同じ手順が、

を与えるために、Ｐ２_k（ｐ）、Ｐ３_k（ｐ）、Ｐ４_k（ｐ）に適用され得る。これらは分析シリアルと呼ばれ得る。

[00292] 時間関連の分析シリアルは、次のように取得され得る。各有声セクション（ＶＳ）に対して、劣化したＣＭ出力

および、対応する元のＣＭ出力

が存在し、ここで、各々はサイズがＰ＊Ｔである。下記が算出され得、

ここで、ｒ_1,2は、「第１の行、第２の列」（例えば、１５０）を意味する。より多くの領域（例えば、単に領域Ｃよりも）が利用され得ることに留意されたい。従って、空間に応じて４つの異なる関数が存在する。別の関数が、元の音声、但し顕著な領域（領域Ｃ）の中のみについて記述される。

Ｔ１_k（ｔ）（長さＴの）は、

に分離され得る。同じ手順が、

を与えるためにＴ２_k（ｐ）、Ｔ３_k（ｐ）、Ｔ４_k（ｐ）に適用され得る。これらも分析シリアルと呼ばれ得る。

[00293] ＳＦＰも取得され得る。対象とされるセクションが有声セクションである場合、ＳＦＰ_pは、第ｋの有声セクションのＣＭ出力から抽出される。いくつかの構成では、ＳＦＴが、欧州特許出願公開第２３２９３９９Ａ４号に記載されるように取得され得る。３つのＡＳ

がここで形成される。

[00294] ＡＳからの特徴抽出は、次のように進み得る。各ＡＳ（例えば、

およびＴ３_k）に対して、これらは長さがＮであり、特徴は次のように抽出される

[00295]

、Ｐ１_kから抽出される特徴はＦ１〜Ｆ１８である。

、Ｐ２_kから抽出される特徴はＦ１９〜Ｆ３６である。

、Ｐ３_kから抽出される特徴はＦ３７〜Ｆ５４である。

、Ｐ４_kから抽出される特徴はＦ５５〜Ｆ７２である。領域Ｃの中の元の値であるＰ５_kに対して、６個の特徴のみ、すなわち、Ｆ７３〜Ｆ７８が存在する。

[00296]

、Ｔ１_kから抽出される特徴はＦ７９〜Ｆ９６である。

、Ｔ２_kから抽出される特徴はＦ９７〜Ｆ１１４である。

、Ｔ３_kから抽出される特徴はＦ１１５〜Ｆ１３２である。

、Ｔ４_kから抽出される特徴はＦ１３３〜Ｆ１５０である。領域Ｃの中の元の値であるＰ５_kに対して、６個の特徴のみ、すなわち、Ｆ１５１〜Ｆ１５６が存在する。

、ＳＦＰ_kから抽出される特徴はＦ１５７〜Ｆ１７４である。

[00297] 最後の特徴スコアが全ての有声セクションに対するその特徴の平均値を含み得る（例えば、

）ことに留意されたい。特徴Ｆ１７５は、話し手が男性であるのかそれとも女性であるのかのバイナリインジケータであり得る（例えば、男性に対して０、女性に対して−１）。特徴Ｆ１７６は、便利なオブ線形回帰のために、定数であり得る（例えば、通常は１に設定される）。

[00298] 本明細書で開示されるシステムおよび方法は、音声品質測定の出力を提供し得る。コーディングおよび／または伝送の開発者のためのフィードバック（例えば、リアルタイムなフィードバック）が、追加または代替として提供され得る。音声ひずみの特性および／または洞察が、追加または代替として提供され得る。本明細書で開示されるシステムおよび方法は、所与の音声の特性（例えば、ひずみ）を知覚領域の中で記述するための多くのパラメータを提供し得る。これらの特徴は、一般的なツールボックスへ組み込まれてもよく、特定の目標（例えば、周波数で局所化されたひずみの測定）のために組み合わされてもよい。言い換えれば、本明細書で説明されるシステムおよび方法は、音声品質測定における高い精度と、様々なタイプの音声ひずみでのデスクリプションへの洞察と、人間の知覚へ志向された手法とを提供し得る。他の知られている手法が流体力学的な蝸牛モデル出力を使用し得ないことに留意されたい。

[00299] 図３２図３２は、図３２Ａ〜図３２Ｄに対応する一例の複数の部分を示すブロック図である。図３２Ａ〜図３２Ｄは、非嵌入的特徴抽出を使用して粗さひずみを推定または予測することの一例を示すブロック図を示す。特有の数が例示のために使用され得るが、本システムおよび方法の任意の点における様々なデータの実際のサイズは変化し得る。

[00300] 図３２Ａに示すような修正された（例えば、劣化した）音声信号３２１１（１０００サンプル長として示される）は、蝸牛モデルに供給され得る。蝸牛モデルは、全てのサンプル入力に対して５１２個のサンプルを出力し得る。詳細には、出力３２１５は、修正音声信号３２１１に対応し得る。出力３２１５から、第１の有声部分は、４つのセクション３２１９（例えば、修正音声信号３２１１に基づく蝸牛モデルの出力３２１５に基づく４つのセクション３２１９）に分割され得る。

[00301] １つまたは複数の分析ベクトルまたは分析シリアル（ＡＳ）３２２３は、セクション３２１９から決定され得る。図示したように、Ｒ１ＡＳ２は、第１のセクションから決定され得、ここで、Ｒ１はそれが第１の有声部分の第１のセクションから決定されたという事実を指し、ＡＳ２はそれがタイプ２の分析ベクトルであるという事実を指す。Ｒ１ＡＳ２に加えて、以下の分析ベクトル３２２３、すなわち、Ｒ１ＡＳ４、Ｒ２ＡＳ２、Ｒ２ＡＳ４、Ｒ３ＡＳ２、Ｒ３ＡＳ４、Ｒ４ＡＳ２およびＲ４ＡＳ４が決定され得る。これらのベクトルは、図１５〜図１６、図１９、図２２および図２４のうちの１つまたは複数に関して説明したように決定され得る。従って、選択された各セクションに対して抽出された分析ベクトルのタイプは、音声品質の非嵌入的な測定のためのタイプを示す表４に従って決定され得る。

[00302] さらに、タイプ２の分析ベクトルが、修正音声から決定される顕著な特徴点（ＳＦＰ）ベクトル３２２４を得るために抽出され得る。ＳＦＰベクトルは、時間的に局所化されたひずみに関係する。従って、選択されたセクションに対して特徴ベクトルを決定するために、９個のベクトル（８個の分析ベクトル３２２３およびＳＦＰ３２２４）が使用され得、各々は６個の特徴を生成する。

[00303] 詳細には、タイプ２またはタイプ４の各分析ベクトルは、６個の特徴３２２７を生成し得る（例えば、図２５および図２７に関して説明したように）。特徴３２２７は、この例では５４個のエントリを有する特徴ベクトルの中に配置され得る。別の５４エントリの特徴ベクトルを生成するために、特徴抽出の同じ処理が、蝸牛の出力３２１５の第２の部分（例えば、有声部分）で行われ得る。同じ処理が任意の適切な数の部分（例えば、有声部分）に対して反復され得、各々は最初に選択されたセクションのものと類似の特徴ベクトルを生成する。

[00304] 一旦全ての選択されたセクションに対する特徴ベクトルが決定されると、特徴３２２７は図３２Ｂおよび図３２Ｃに示すように平均化され得る。言い換えれば、特徴ベクトルの各々の中の最初のエントリ（平均値として示される）は、平均化され得る。同様に、全てのインデックスにおけるエントリは、この例では５４エントリのベクトルとして示される単一の平均特徴ベクトル３２２０を生成するために、互いに平均化される。単一の平均特徴ベクトル３２２０は、（例えば、図８〜図９のうちの１つまたは複数に関して説明したように）予めトレーニング中に学習された重み付け３２５３によって乗算され得る（例えば、重みを使用して重み付けられ得る）。重み付けの後、単一の平均特徴ベクトルの中の特徴の各々は、図３２Ｄに示すような粗さひずみ３２４９（例えば、予測スコア）を生成するために、合計され得る。類似の手順が他のひずみに対して続き得る。

[00305] 図３１〜図３２は、粗さひずみ３１４９、３２４９に対する予測スコアを示すが、予測スコアはひずみの次元のうちの任意のものに対し得る。例えば、鈍さ／マフルドネス(dullness/muffledness)のひずみの次元に対する予測スコアを決定する場合、使用される重みは、粗さひずみの次元の代わりに鈍さ／マフルドネスのひずみの次元に対する主観的なスコアに対応し得る。各ひずみの次元に対する予測スコアは、前景品質と背景品質とを決定するために、（例えば、図６〜図７に関して説明したような）客観的音声品質モジュールによって使用され得る。全体品質が、次いで、決定され得る。全体品質は、人間の聞き手が音声の一部分を主観的にスコアリングすることから決定される平均オピニオン評点（ＭＯＳ）の代わりに、またはそれに加えて使用され得る。

[00306] いくつかの構成では、システムおよび方法の１つまたは複数の手順が下記のように行われ得る。１つの手法では、ここで提起される新しい特徴セットが、非嵌入的（劣化した音声信号を使用する）である。劣化した音声（Ｓ^dis）を仮定する。Ｓ^disは、（流体力学的な蝸牛モデルまたは音響心理学的モデルなどの）聴覚の計算形モデルを通過させられ得る。そのようなモデルは、ＣＭと呼ばれ得、ひずんだ信号に起因する出力は、ＣＭ^disと呼ばれる。出力は、時間領域と周波数領域の両方に沿って高い精度を有する。出力は、知覚領域の中の音声を表す。

[00307] 分析シリアル（ＡＳ）は、分析の目的に応じて、本明細書で説明される同じアルゴリズムを用いて、音声の有声セクション（ＶＳ）および無音（ＳＩＬ）セクションから抽出され得る。Ｋ個の対象とされるセクションが存在すると仮定する。

[00308] 周波数関連の分析シリアルは、次のように記述され得る。第ｋの対象領域に対して、劣化したＣＭ出力

は、サイズがＰ＊Ｔである。

[00309] 異なる知覚的モデルに対して、ＣＭはサイズが異なり得る。以下の部分では、蝸牛モデルを使用する。いくつかの出力に対して数値が調整され得ることに留意されたい。この例におけるＰは、範囲１〜５１２を有し、４つの領域、すなわち、（Ａ）１〜１５０、（Ｂ）１５１〜２７５、（Ｃ）ａ２７６〜４５０および（Ｄ）４５０〜５１２に切り分けられる。従って、空間に応じて４つの異なる関数が存在する。

これらは分析シリアルと呼ばれ得る。

[00310] 時間関連の分析シリアルは、次のように取得され得る。各有声セクション（ＶＳ）に対して、劣化したＣＭ出力

が存在することは、サイズがＰ＊Ｔである。下記が算出され得、

ここで、ｒ_1,2は、「第１の行、第２の列」（例えば、１５０）を意味する。これらも分析シリアルと呼ばれ得る。

[00311] ＳＦＰも取得され得る。対象とされるセクションが有声セクションである場合、ＳＥＰ_kは、第ｋの有声セクションのＣＭ出力から抽出される。ＡＳからの特徴抽出は、次のように進み得る。各ＡＳ（例えばＴ３_k）に対して、これらは長さがＮであり、特徴は次のように抽出される。

[00312] Ｐ１_kから抽出される特徴はＦ１〜Ｆ６である。Ｐ２_kから抽出される特徴はＦ７〜Ｆ１２である。Ｐ３_kから抽出される特徴はＦ１３〜Ｆ１８である。Ｐ４_kから抽出される特徴はＦ１９〜Ｆ２４である。

[00313] Ｔ１_kから抽出される特徴はＦ２５〜Ｆ３０である。Ｔ２_kから抽出される特徴はＦ３１〜Ｆ３６である。Ｔ３_kから抽出される特徴はＦ３７〜Ｆ４２である。Ｔ４_kから抽出される特徴はＦ４３〜Ｆ４８である。ＳＦＰ_kから抽出される特徴はＦ４９〜Ｆ５４である。

[00314] 最後の特徴スコアが全ての有声セクションに対するその特徴の平均値を含み得る（例えば、

）ことに留意されたい。特徴Ｆ５５は、話し手が男性であるのかそれとも女性であるのかのバイナリインジケータであり得る（例えば、男性に対して０、女性に対して−１）。特徴Ｆ５６は、便利なオブ線形回帰のために、定数であり得る（例えば、通常は１に設定される）。

[00315] 本明細書で開示されるシステムおよび方法は、音声品質測定の出力を提供し得る。コーディングおよび／または伝送の開発者のためのフィードバック（例えば、リアルタイムなフィードバック）が、追加または代替として提供され得る。音声ひずみの特性および／または洞察が、追加または代替として提供され得る。本明細書で開示されるシステムおよび方法は、所与の音声の特性（例えば、ひずみ）を知覚領域の中で記述するための多くのパラメータを提供し得る。これらの特徴は、一般的なツールボックスへ組み込まれてもよく、特定の目標（例えば、周波数で局所化されたひずみの測定）のために組み合わされてもよい。言い換えれば、本明細書で説明されるシステムおよび方法は、音声品質測定における高い精度と、様々なタイプの音声ひずみでのデスクリプションへの洞察と、人間の知覚本位の手法(human-perceptually oriented approach)とを提供し得る。他の知られている手法が流体力学的な蝸牛モデル出力を使用し得ないことに留意されたい。

[00316] 図３３は、特徴抽出のための方法３３００のより具体的な構成を示す流れ図である。電子デバイス１５０７（例えば、音声評価器および／または特徴抽出モジュール）は、方法３３００の１つまたは複数のステップ、機能および／または手順を行い得る。

[00317] 電子デバイスは、元の音声信号と修正された（例えば、劣化した）音声信号とを取得し得る。元の音声信号および修正音声信号は、嵌入的特徴抽出のために同じ期間にわたって記録され得る。言い換えれば、修正音声信号は、元の音声信号の処理されたバージョンであり得る。あるいは、修正音声信号のみが非嵌入的特徴抽出のために取得されてもよい。

[00318] 電子デバイスは、生理学的蝸牛モデルを使用して音声を処理し得る３３０２。これは、例えば、図１５〜図１９および図３１〜図３２のうちの１つまたは複数に関して上で説明したように達成され得る。

[00319] 電子デバイスは、蝸牛モデルの出力から一部分を選択し得る３３０４。これは、例えば、図１８〜図１９および図３１〜図３２のうちの１つまたは複数に関して上で説明したように達成され得る。部分は、元の音声信号に対する生理学的蝸牛モデル出力の一部分であり得、および／または、音声の知覚的な品質に著しく影響を及ぼす修正音声信号（例えば、有声部分、母音など）に対する蝸牛モデル出力の部分であり得る。例えば、部分を選択すること３３０４は、１つまたは複数の信号のエネルギーを計算することと、エネルギーがしきい値を超える部分を選択することとを含み得る。

[00320] 電子デバイスは、生理学的蝸牛モデルの出力のセクションを分析し得る３３０６。これは、例えば、図１５〜図１６、図１８〜図２４および図３１〜図３２のうちの１つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、出力の部分を複数のセクション（例えば、４つのセクションまたは別の数のセクション）にグループ化（例えば、分割）し得る。セクションの各々は、特定のサイズを（例えば、いくつかの空間点にいくつかのＮサンプルを掛けて）有し得る。

[00321] 電子デバイスは、各セクションに対するベクトルを抽出し得る３３０８。詳細には、電子デバイスは、各セクションに対する空間ベース分析ベクトルと時間ベース分析ベクトルとを抽出し得る。これは、例えば、図１５〜図１６、図１８〜図１９、図２１〜図２４および図３１〜図３２のうちの１つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、空間ベース分析ベクトルを生成するためにセクションを時間にわたって平均化し得、および／または時間ベース分析ベクトルを生成するためにセクションを空間にわたって平均化し得る。いくつかの構成では、分析ベクトルが、上の表３に示すようにセクション番号ごとに抽出され得る３３０８。言い換えれば、少なくとも１つの空間ベース分析ベクトルおよび１つの時間ベース分析ベクトルは、各セクションに対して抽出され得る３３０８。

[00322] 電子デバイスは、１つまたは複数の特徴を各ベクトル（例えば、分析ベクトル）から決定し得る３３１０。これは、例えば、図１５〜図１６、図１８〜図１９、図２５〜図２７および図３１〜図３２のうちの１つまたは複数に関して説明したように達成され得る。

[00323] 電子デバイスは、１つまたは複数の特徴、およびひずみの次元に対応する重み付け（例えば、重みセット）に基づいて、ひずみを推定（例えば、予測）し得る３３１２。これは、図１５、図１８〜図１９および図３１〜図３２のうちの１つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、特徴を重み付けて粗さひずみ（例えば、粗さ次元に対する予測スコア）を生成するために、粗さひずみに対する重み付け（例えば、予めオフラインで決定された重みセット）を使用し得る。１つまたは複数のひずみが推定され得る３３１２。例えば、電子デバイスは、上で説明したように、粗さ、不連続性、鈍さ、薄さ、ヒッシングおよび変動性のうちの１つまたは複数を推定し得る３３１２。電子デバイスは、追加および／または代替のひずみを推定し得る３３１２。いくつかの構成では、ひずみ（例えば、予測スコア）が、図４〜図７に関して上で説明した、全ての４つの前景ひずみの次元および両方の背景ひずみの次元に対して決定され得る。いくつかの構成では、電子デバイスが、ひずみ（例えば、客観的ひずみ）に基づいて、前景品質および／または背景品質を推定し得る。これは、図４〜図７のうちの１つまたは複数に関して上で説明したように達成され得る。追加または代替として、全体品質は、前景品質および背景品質から推定され得る。これは、図４〜図７のうちの１つまたは複数に関して上で説明したように達成され得る。全体品質は、主観的な平均オピニオン評点（ＭＯＳ）の代わりに利用され得る、修正音声信号の全体的な客観的品質スコアとしての役割を果たし得る。

[00324] 図３４は、嵌入的特徴抽出のための方法３４００の一構成を示す流れ図である。電子デバイス１５０７（例えば、音声評価器および／または特徴抽出モジュール）は、方法３４００の１つまたは複数のステップ、機能および／または手順を行い得る。

[00325] 電子デバイスは、元の音声信号と修正された（例えば、劣化した）音声信号とを取得し得る３４０２。これは、図１５に関して上で説明したように達成され得る。例えば、電子デバイスは、１つまたは複数のフレームまたは時間期間の元の音声信号および修正音声信号を取得し得る。元の音声信号および修正音声信号は、嵌入的特徴抽出のために同じ時間期間にわたって記録され得る。言い換えれば、修正音声信号は、元の音声信号の処理されたバージョンであり得る。

[00326] 電子デバイスは、生理学的蝸牛モデルを使用して音声を処理し得る３４０４。これは、例えば、図１５〜図１９および図３１〜図３２のうちの１つまたは複数に関して上で説明したように達成され得る。詳細には、電子デバイスは、１つまたは複数の蝸牛モデルを使用して、元の音声信号および修正音声信号を処理し得る３４０４。

[00327] 電子デバイスは、生理学的蝸牛モデルの出力から一部分を選択し得る３４０６。これは、例えば、図１８〜図１９および図３１〜図３２のうちの１つまたは複数に関して上で説明したように達成され得る。部分は、元の音声信号に対する生理学的蝸牛モデル出力の一部分であり得、および／または、音声の知覚的な品質に著しく影響を及ぼす修正音声信号（例えば、有声部分、母音など）に対する蝸牛モデル出力の部分であり得る。例えば、部分を選択すること３４０６は、１つまたは複数の信号のエネルギーを計算することと、エネルギーがしきい値を超える部分を選択することとを含み得る。

[00328] 電子デバイスは、生理学的蝸牛モデルの出力のセクションを分析し得る３４０８。これは、例えば、図１５〜図１６、図１８〜図２４および図３１〜図３２のうちの１つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、出力の部分を複数のセクション（例えば、４つのセクションまたは別の数のセクション）にグループ化（例えば、分割）し得る。セクションの各々は、特定のサイズを（例えば、いくつかの空間点にいくつかのＮサンプルを掛けて）有し得る。

[00329] 電子デバイスは、各セクションに対するベクトルを抽出し得る３４１０。詳細には、電子デバイスは、各セクションに対する空間ベース分析ベクトルと時間ベース分析ベクトルとを抽出し得る３４１０。これは、例えば、図１５〜図１６、図１８〜図１９、図２１〜図２４および図３１〜図３２のうちの１つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、空間ベース分析ベクトルを生成するためにセクションを時間にわたって平均化し得、および／または時間ベース分析ベクトルを生成するためにセクションを空間にわたって平均化し得る。いくつかの構成では、分析ベクトルが、上の表３に示すようにセクション番号ごとに抽出され得る３４１０。言い換えれば、少なくとも１つの嵌入的な空間ベース分析ベクトル（例えば、タイプ１）および１つの時間ベース分析ベクトル（例えば、タイプ３）は、各セクションに対して抽出され得る３４１０。表３に示すように、電子デバイスは、オプションで追加的に、１つまたは複数のセクション（例えば、セクションＣ）に対して、非嵌入的な空間ベースのベクトル（例えば、タイプ２）および／または非嵌入的な時間ベースのベクトル（例えば、タイプ４）を抽出し得る。

[00330] 電子デバイスは、１つまたは複数の特徴を各ベクトル（例えば、分析ベクトル）から決定し得る３４１２。これは、例えば、図１５〜図１６、図１８〜図１９、図２５〜図２７および図３１〜図３２のうちの１つまたは複数に関して説明したように達成され得る。いくつかの構成では、６個および／または１８個の特徴が、各ベクトルに基づいて決定され得る３４１２。

[00331] 電子デバイスは、１つまたは複数の特徴、およびひずみの次元に対応する重み付け（例えば、重みセット）に基づいて、ひずみを推定（例えば、予測）し得る３４１４。これは、図１５、図１８〜図１９および図３１〜図３２のうちの１つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、特徴を重み付けて粗さひずみ（例えば、粗さ次元に対する予測スコア）を生成するために、粗さひずみに対する重み付け（例えば、予めオフラインで決定された重みセット）を使用し得る。１つまたは複数のひずみが推定され得る３４１４。例えば、電子デバイスは、上で説明したように、粗さ、不連続性、鈍さ、薄さ、ヒッシングおよび変動性のうちの１つまたは複数を推定し得る３４１４。電子デバイスは、追加および／または代替のひずみを推定し得る３４１４。いくつかの構成では、ひずみ（例えば、予測スコア）が、図４〜図７に関して上で説明した、全ての４つの前景ひずみの次元および両方の背景ひずみの次元に対して決定され得る。いくつかの構成では、電子デバイスが、ひずみ（例えば、客観的ひずみ）に基づいて、前景品質および／または背景品質を推定し得る。これは、図４〜図７のうちの１つまたは複数に関して上で説明したように達成され得る。追加または代替として、全体品質は、前景品質および背景品質から推定され得る。これは、図４〜図７のうちの１つまたは複数に関して上で説明したように達成され得る。全体品質は、主観的な平均オピニオン評点（ＭＯＳ）の代わりに利用され得る、修正音声信号の全体的な客観的品質スコアとしての役割を果たし得る。

[00332] 図３５は、非嵌入的特徴抽出のための方法３５００の一構成を示す流れ図である。電子デバイス１５０７（例えば、音声評価器および／または特徴抽出モジュール）は、方法３５００の１つまたは複数のステップ、機能および／または手順を行い得る。

[00333] 電子デバイスは、修正された（例えば、劣化した）音声信号を取得し得る３５０２。これは、図１５に関して上で説明したように達成され得る。例えば、電子デバイスは、１つまたは複数のフレームまたは時間期間の修正音声信号を取得し得る。修正音声信号は、元の音声信号の処理された（例えば、劣化した）バージョンであり得る。非嵌入的な手法では、電子デバイスが、元の音声信号を取得し得ない。このことにより、元の音声信号を取得、送信または受信する必要なく、様々なデバイスにおける音声品質評価が可能になり得る。

[00334] 電子デバイスは、生理学的蝸牛モデルを使用して修正音声を処理し得る３５０４。これは、例えば、図１５〜図１７、図１９および図３２のうちの１つまたは複数に関して上で説明したように達成され得る。詳細には、電子デバイスは、蝸牛モデルを使用して、修正音声信号のみを処理し得る（元の音声信号を処理しない）３５０４。

[00335] 電子デバイスは、生理学的蝸牛モデルの出力から一部分を選択し得る３５０６。これは、例えば、図１９および図３２のうちの１つまたは複数に関して上で説明したように達成され得る。部分は、音声の知覚的な品質に著しく影響を及ぼす修正音声信号（例えば、有声部分、母音など）に対する生理学的蝸牛モデル出力の部分であり得る。例えば、部分を選択すること３５０６は、修正音声信号のエネルギーを計算することと、エネルギーがしきい値を超える部分を選択することとを含み得る。

[00336] 電子デバイスは、生理学的蝸牛モデルの出力のセクションを分析し得る３５０８。これは、例えば、図１５〜図１６、図１９〜図２０、図２２、図２４および図３２のうちの１つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、出力の部分を複数のセクション（例えば、４つのセクションまたは別の数のセクション）にグループ化（例えば、分割）し得る。セクションの各々は、特定のサイズを（例えば、いくつかの空間点にいくつかのＮサンプルを掛けて）有し得る。

[00337] 電子デバイスは、各セクションに対するベクトルを抽出し得る３５１０。詳細には、電子デバイスは、各セクションに対する非嵌入的な空間ベース分析ベクトルと非嵌入的な時間ベース分析ベクトルとを抽出し得る３５１０。これは、例えば、図１５〜図１６、図１９、図２２、図２４および図３２のうちの１つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、空間ベース分析ベクトルを生成するためにセクションを時間にわたって平均化し得、および／または時間ベース分析ベクトルを生成するためにセクションを空間にわたって平均化し得る。いくつかの構成では、分析ベクトルが、上の表４に示すようにセクション番号ごとに抽出され得る３５１０。言い換えれば、少なくとも１つの非嵌入的な空間ベース分析ベクトル（例えば、タイプ２）および１つの非嵌入的な時間ベース分析ベクトル（例えば、タイプ４）は、各セクションに対して抽出され得る３５１０。

[00338] 電子デバイスは、１つまたは複数の特徴を各ベクトル（例えば、分析ベクトル）から決定し得る３５１２。これは、例えば、図１５〜図１６、図１９、図２５、図２７および図３２のうちの１つまたは複数に関して説明したように達成され得る。いくつかの構成では、６個の特徴が、各ベクトルに基づいて決定され得る３５１２。

[00339] 電子デバイスは、１つまたは複数の特徴、およびひずみの次元に対応する重み付け（例えば、重みセット）に基づいて、ひずみを推定（例えば、予測）し得る３５１４。これは、図１５、図１９および図３２のうちの１つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、特徴を重み付けて粗さひずみ（例えば、粗さ次元に対する予測スコア）を生成するために、粗さひずみに対する重み付け（例えば、予めオフラインで決定された重みセット）を使用し得る。１つまたは複数のひずみが推定され得る３５１４。例えば、電子デバイスは、上で説明したように、粗さ、不連続性、鈍さ、薄さ、ヒッシングおよび変動性のうちの１つまたは複数を推定し得る３５１４。電子デバイスは、追加および／または代替のひずみを推定し得る３５１４。いくつかの構成では、ひずみ（例えば、予測スコア）が、図４〜図７に関して上で説明した、全ての４つの前景ひずみの次元および両方の背景ひずみの次元に対して決定され得る。いくつかの構成では、電子デバイスが、ひずみ（例えば、客観的ひずみ）に基づいて、前景品質および／または背景品質を推定し得る。これは、図４〜図７のうちの１つまたは複数に関して上で説明したように達成され得る。追加または代替として、全体品質は、前景品質および背景品質から推定され得る。これは、図４〜図７のうちの１つまたは複数に関して上で説明したように達成され得る。全体品質は、主観的な平均オピニオン評点（ＭＯＳ）の代わりに利用され得る、修正音声信号の全体的な客観的品質スコアとしての役割を果たし得る。

[00340] 図３６は、嵌入的特徴抽出のより具体的な構成を示すブロック図である。例えば、図３６は、顕著な特徴をＩＨＣ電圧から抽出することの一例を提供する。後端におけるニューラルネットワークなどのより精巧な統計モデルが、性能を改善し得、付加的代替的に利用され得ることに留意されたい。図２６に関して説明した構成要素のうちの１つまたは複数は、図１５〜図２７および図３１〜図３５のうちの１つまたは複数に関して説明した構成要素のうちの１つまたは複数の例であり得、および／またはそうした手順のうちの１つまたは複数を行い得る。詳細には、図３６は、遅延推定モジュール３６３７、蝸牛モデルＡ〜Ｂ３６１３ａ〜ｂ、減算器３６２０、部分選択モジュール３６４３、周波数平均化モジュール３６２２、時間平均化モジュール３６２４、特徴決定モジュール３６２５および／または回帰モジュール３６５１の例を示す。

[00341] 元の音声信号３６０９および修正音声信号３６１１（例えば、元の音声信号３６０９の劣化したバージョン）は、遅延推定モジュール３６３７に供給され得る。遅延推定モジュール３６３７は、元の音声信号３６０９と修正音声信号３６１１とを位置合わせし得、それらは、蝸牛モデルＡ３６１３ａおよび蝸牛モデルＢ３６１３ｂに供給され得る。蝸牛モデルＡ３６１３ａの出力は、減算器３６２０によって蝸牛モデルＢ３６１３ｂの出力から減算され得る。この差は、部分選択モジュール３６４３に供給され得る。部分選択モジュール３６４３は、差から部分を選択し得る。例えば、差の有声部分が選択され得る。

[00342] 有声部分は、周波数平均化モジュール３６２２および時間平均化モジュール３６２４に供給され得る。周波数平均化モジュール３６２２および時間平均化モジュール３６２４は、周波数および時間それぞれにわたって有声部分を平均化し得る。周波数平均化モジュール３６２２は、１つまたは複数の時間領域を生成し得る。時間平均化モジュール３６２４は、１つまたは複数の周波数領域３６２６を生成し得る。１つまたは複数の周波数領域３６２６は、上で説明した空間ベースのベクトルの別の表現であり得る。周波数平均化モジュール３６２２は、１つまたは複数の時間領域３６２８を生成し得る。１つまたは複数の時間領域３６２８は、上で説明した時間ベースのベクトルに対応し得る。

[00343] 周波数領域３６２６および／または時間領域３６２８は、特徴決定モジュール３６２５に供給され得る。特徴決定モジュール３６２５は、特徴３６２７（例えば、統計的特徴）を各領域から決定（例えば、抽出）し得る。特徴３６２７は、特徴セットにグループ化され得る。

[00344] いくつかの構成では、特徴３６２７が、回帰モジュール３６５１に供給され得る。回帰モジュール３６５１は、１つまたは複数のひずみ３６４９を推定するために、特徴３６２７のうちの１つまたは複数および重み付け３６５３（例えば、１つまたは複数の重み）に基づいて、線形回帰を行い得る。いくつかの構成では、回帰モジュール３６５１が、ひずみ３６４９を推定するために、多項式回帰、２次回帰、非線形回帰などを、代替として行い得る。いくつかの構成では、１つまたは複数の品質（例えば、前景品質、背景品質、全体品質など）が、本明細書で説明されるように、１つまたは複数のひずみ３６４９に基づいて推定され得る。

[00345] 図３７は、音声信号品質の測定および／または特徴抽出のためのシステムおよび方法が実装され得るワイヤレス通信デバイス３７３０の一構成を示すブロック図である。図３７に示すワイヤレス通信デバイス３７３０は、本明細書で説明される電子デバイス５５６、１５０７のうちの１つまたは複数の一例であり得る。ワイヤレス通信デバイス３７３０は、アプリケーションプロセッサ３７４２を含み得る。アプリケーションプロセッサ３７４２は、一般に、ワイヤレス通信デバイス３７３０で機能を行うために命令を処理する（例えば、プログラムを稼働させる）。アプリケーションプロセッサ３７４２は、オーディオコーダ／デコーダ（コーデック）３７４０に結合され得る。

[00346] オーディオコーデック３７４０は、オーディオ信号をコーディングおよび／または復号するために使用され得る。オーディオコーデック３７４０は、少なくとも１つのスピーカ３７３２、イヤピース３７３４、出力ジャック３７３６、および／または少なくとも１つのマイクロフォン３７３８に結合され得る。スピーカ３７３２は、電気信号または電子信号を音響信号に変換する１つまたは複数の電気音響トランスデューサを含み得る。例えば、スピーカ３７３２は、音楽を再生するため、またはスピーカフォンの会話を出力するためなどに使用され得る。イヤピース３７３４は、音響信号（例えば、音声信号）をユーザに出力するために使用され得る別のスピーカまたは電気音響トランスデューサであり得る。例えば、イヤピース３７３４は、ユーザのみが音響信号を確実に聴取できるように使用され得る。出力ジャック３７３６は、オーディオを出力するために、ワイヤレス通信デバイス３７３０にヘッドフォンなどの他のデバイスを結合するために使用され得る。スピーカ３７３２、イヤピース３７３４および／または出力ジャック３７３６は、一般に、オーディオコーデック３７４０からオーディオ信号を出力するために使用され得る。少なくとも１つのマイクロフォン３７３８は、音響信号（ユーザの音声など）を、オーディオコーデック３７４０に提供される電気信号または電子信号に変換する音響電気トランスデューサであり得る。

[00347] いくつかの構成では、オーディオコーデック３７４０が、音声評価器Ａ３７６８ａを含み得る。音声評価器Ａ３７６８ａは、図４〜図２７および図３１〜図３６のうちの１つまたは複数に関して説明した手順および／もしくは機能のうちの１つまたは複数を行い得、並びに／またはそうしたモジュールおよび／もしくは構成要素のうちの１つまたは複数を含み得る。詳細には、音声評価器Ａ３７６８ａは、１つまたは複数の特徴を抽出し得、および／または音声信号品質を測定し得る。追加または代替として、アプリケーションプロセッサ３７４２は、音声評価器Ｂ３７６８ｂを含み得る。音声評価器Ｂ３７６８ｂは、音声評価器Ａ３７６８ａに関して説明した手順および／もしくは機能のうちの１つまたは複数を行い得、並びに／またはそうしたモジュールおよび／もしくは構成要素のうちの１つまたは複数を含み得る。

[00348] アプリケーションプロセッサ３７４２は、また、電力管理回路３７５２に結合され得る。電力管理回路３７５２の一例は、ワイヤレス通信デバイス３７３０の電力消費を管理するために使用され得る電力管理集積回路（ＰＭＩＣ）である。電力管理回路３７５２は、バッテリ３７５４に結合され得る。バッテリ３７５４は、一般に、ワイヤレス通信デバイス３７３０に電力を供給し得る。例えば、バッテリ３７５４および／または電力管理回路３７５２は、ワイヤレス通信デバイス３７３０内に含まれる要素のうちの少なくとも１つに結合され得る。

[00349] アプリケーションプロセッサ３７４２は、入力を受信するための少なくとも１つの入力デバイス３７５６に結合され得る。入力デバイス３７５６の例は、赤外線センサ、画像センサ、加速度計、タッチセンサ、キーパッドなどを含む。入力デバイス３７５６は、ワイヤレス通信デバイス３７３０とのユーザ対話を可能にし得る。アプリケーションプロセッサ３７４２は、また、１つまたは複数の出力デバイス３７５８に結合され得る。出力デバイス３７５８の例は、プリンタ、プロジェクタ、スクリーン、触覚デバイスなどを含む。出力デバイス３７５８は、ワイヤレス通信デバイス３７３０が、ユーザによって体験され得る出力を生成することを可能にし得る。

[00350] アプリケーションプロセッサ３７４２は、アプリケーションメモリ３７６０に結合され得る。アプリケーションメモリ３７６０は、電子情報を記憶することが可能な任意の電子デバイスであり得る。アプリケーションメモリ３７６０の例は、ダブルデータレートシンクロナスダイナミックランダムアクセスメモリ（ＤＤＲＳＤＲＡＭ）、シンクロナスダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）、フラッシュメモリなどを含む。アプリケーションメモリ３７６０は、アプリケーションプロセッサ３７４２のための記憶装置を提供し得る。例えば、アプリケーションメモリ３７６０は、アプリケーションプロセッサ３７４２上で稼働されるプログラムの機能のためのデータおよび／または命令を記憶し得る。

[00351] アプリケーションプロセッサ３７４２はディスプレイコントローラ３７６２に結合され得、ディスプレイコントローラ３７６２はディスプレイ３７６４に結合され得る。ディスプレイコントローラ３７６２は、ディスプレイ３７６４上に画像を生成するために使用されるハードウェアブロックであり得る。例えば、ディスプレイコントローラ３７６２は、アプリケーションプロセッサ３７４２からの命令および／またはデータを、ディスプレイ３７６４上に提示され得る画像に変換し得る。ディスプレイ３７６４の例は、液晶ディスプレイ（ＬＣＤ）パネル、発光ダイオード（ＬＥＤ）パネル、陰極線管（ＣＲＴ）ディスプレイ、プラズマディスプレイなどを含む。

[00352] アプリケーションプロセッサ３７４２は、ベースバンドプロセッサ３７４４に結合され得る。ベースバンドプロセッサ３７４４は、一般に、通信信号を処理する。例えば、ベースバンドプロセッサ３７４４は、受信された信号を復調および／または復号し得る。追加または代替として、ベースバンドプロセッサ３７４４は、送信に備えて信号を符号化および／または変調し得る。

[00353] ベースバンドプロセッサ３７４４は、ベースバンドメモリ３７６６に結合され得る。ベースバンドメモリ３７６６は、ＳＤＲＡＭ、ＤＤＲＡＭ、フラッシュメモリなどの、電子情報を記憶することが可能な任意の電子デバイスであり得る。ベースバンドプロセッサ３７４４は、ベースバンドメモリ３７６６から情報（例えば、命令および／またはデータ）を読み取り得、および／または、ベースバンドメモリ３７６６に情報を書き込み得る。追加または代替として、ベースバンドプロセッサ３７４４は、通信動作を行うために、ベースバンドメモリ３７６６に記憶された命令および／またはデータを使用し得る。

[00354] ベースバンドプロセッサ３７４４は、無線周波数（ＲＦ）送受信機３７４６に結合され得る。ＲＦ送受信機３７４６は、電力増幅器３７４８および１つまたは複数のアンテナ３７５０に結合され得る。ＲＦ送受信機３７４６は、無線周波数信号を送信および／または受信し得る。例えば、ＲＦ送受信機３７４６は、電力増幅器３７４８と少なくとも１つのアンテナ３７５０とを使用してＲＦ信号を送信し得る。ＲＦ送受信機３７４６は、また、１つまたは複数のアンテナ３７５０を使用してＲＦ信号を受信し得る。

[00355] 図３８は、電子デバイス／ワイヤレスデバイス３８６８内に含まれ得るいくつかの構成要素を示す。電子デバイス／ワイヤレスデバイス３８６８は、アクセス端末、移動局、ユーザ機器（ＵＥ）、基地局、アクセスポイント、ブロードキャスト送信機、ノードＢ、発展型ノードＢ、サーバ、コンピュータ、ルータ、スイッチなどであり得る。電子デバイス／ワイヤレスデバイス３８６８は、本明細書で説明される電子デバイス５５６、１５０７のうちの１つまたは複数に従って実施され得る。電子デバイス／ワイヤレスデバイス３８６８はプロセッサ３８８４を含む。プロセッサ３８８４は、汎用のシングルチップまたはマルチチップマイクロプロセッサ（例えば、ＡＲＭ）、専用マイクロプロセッサ（例えば、デジタル信号プロセッサ（ＤＳＰ））、マイクロコントローラ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などであり得る。プロセッサ３８８４は、中央処理ユニット（ＣＰＵ）と呼ばれ得る。電子デバイス／ワイヤレスデバイス３８６８中に単一のプロセッサ３８８４のみが示されるが、代替構成では、プロセッサ（例えば、ＡＲＭ、ＤＳＰおよびＦＰＧＡ）の組合せが使用され得る。

[00356] 電子デバイス／ワイヤレスデバイス３８６８は、また、メモリ３８７０を含む。メモリ３８７０は、電子情報を記憶することが可能な任意の電子コンポーネントであり得る。メモリ３８７０は、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、磁気ディスク記憶媒体、光記憶媒体、ＲＡＭ中のフラッシュメモリデバイス、プロセッサ３８８４に含まれるオンボードメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭ（登録商標）メモリ、レジスタなど、およびそれらの組合せとして実施され得る。

[00357] データ３８７４ａおよび命令３８７２ａがメモリ３８７０に記憶され得る。命令３８７２ａは、本明細書で開示される方法のうちの１つまたは複数を実施するために、プロセッサ３８８４によって実行可能であり得る。命令３８７２ａを実行することは、メモリ３８７０に記憶されたデータ３８７４ａの使用を伴い得る。プロセッサ３８８４が命令３８７２ａを実行すると、命令３８７２ｂの様々な部分がプロセッサ３８８４上にロードされ得、様々ないくつかのデータ３８７４ｂがプロセッサ３８８４上にロードされ得る。

[00358] 電子デバイス／ワイヤレスデバイス３８６８は、また、電子デバイス／ワイヤレスデバイス３８６８との間での信号の送信および受信を可能にするために、送信機３８７６と受信機３８７８とを含み得る。送信機３８７６および受信機３８７８は、送受信機３８８８と総称されることがある。１つまたは複数のアンテナ３８８６ａ〜ｎが、送受信機３８８８に電気的に結合され得る。電子デバイス／ワイヤレスデバイス３８６８は、また、複数の送信機、複数の受信機、複数の送受信機および／または追加のアンテナを含み得る（図示せず）。

[00359] 電子デバイス／ワイヤレスデバイス３８６８は、デジタル信号プロセッサ（ＤＳＰ）３８８０を含み得る。電子デバイス／ワイヤレスデバイス３８６８は、また、通信インターフェース３８８２を含み得る。通信インターフェース３８８２は、ユーザが電子デバイス／ワイヤレスデバイス３８６８と対話することを可能にし得る。

[00360] 電子デバイス／ワイヤレスデバイス３８６８の様々な構成要素は、電力バス、制御信号バス、ステータス信号バス、データ３８７４バスなどを含み得る、１つまたは複数のバスによって互いに結合され得る。明快のために、図３８では様々なバスはバスシステム３８９０として示される。

[00361] 上記の説明では、参照番号が様々な用語と関連付けて時々使用された。用語が参照番号とともに使用されている場合、これは、図の１つまたは複数に示された特定の要素を指すことが意図され得る。用語が参照番号を伴わずに使用されている場合、これは一般に、任意の特定の図に限定されない用語を指すことが意図され得る。

[00362] 「決定すること」という用語は、多種多様のアクションを含み、従って、「決定すること」は、算出することと、計算することと、処理することと、引き出すことと、調査することと、探索すること（例えば、テーブル、データベースまたは別のデータ構造を調べること）と、確かめることなどを含み得る。また、「決定すること」は、受け取ること（例えば、情報を受け取ること）、アクセスすること（例えば、メモリ内のデータにアクセスすること）などを含み得る。また、「決定すること」は、解決すること、選択すること、選ぶこと、確立することなどを含み得る。

[00363] 「に基づいて」という句は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という句は、「のみに基づいて」と「に少なくとも基づいて」の両方を表す。

[00364] 本明細書で説明された構成のうちのいずれか１つに関して説明された特徴、機能、手順、構成要素、要素、構造などのうちの１つまたは複数は、互換性がある、本明細書で説明された他の構成のうちのいずれかに関して説明された機能、手順、構成要素、要素、構造などのうちの１つまたは複数と組み合わせられ得ることに留意されたい。言い換えれば、本明細書で説明された機能と、手順と、構成要素と、要素などの何らかの互換性のある組合せは、本明細書で開示されたシステムおよび方法に従って実装され得る。

[00365] 本明細書で説明された機能は、１つまたは複数の命令として、プロセッサ可読媒体またはコンピュータ可読媒体に記憶され得る。「コンピュータ可読媒体」という用語は、コンピュータまたはプロセッサによってアクセスされ得る何らかの利用可能な媒体を指す。例として、限定はされないが、そのような媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、ＣＤ−ＲＯＭもしくは他の光ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、または所望のプログラムコードを命令もしくはデータ構造の形式で記憶するために使用され得るとともにコンピュータによってアクセスされ得る何らかの他の媒体を備え得る。本明細書で使用されるように、ディスク（ｄｉｓｋ）およびディスク（ｄｉｓｃ）は、コンパクトディスク（ＣＤ）と、レーザーディスク（登録商標）と、光ディスクと、デジタルバーサタイルディスク（ＤＶＤ）と、フロッピー（登録商標）ディスクと、ブルーレイ（登録商標）ディスクとを含み、ディスク（ｄｉｓｋ）は通常データを磁気的に再生し、ディスク（ｄｉｓｃ）はレーザでデータを光学的に再生する。コンピュータ可読媒体は有形および非一時的であり得ることに留意されたい。「コンピュータプログラム製品」という用語は、コンピューティングデバイスまたはプロセッサによって実行され得るか、処理され得るか、または計算され得るコードまたは命令（例えば、「プログラム」）と組み合わされたコンピューティングデバイスまたはプロセッサを指す。本明細書で使用されるように、「コード」という用語は、コンピューティングデバイスまたはプロセッサによって実行可能であるソフトウェア、命令、コードまたはデータを指すことがある。

[00366] ソフトウェアまたは命令は、また、伝送媒体を介して伝送され得る。例えば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから伝送される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、伝送媒体の定義に含まれる。

[00367] 本明細書で開示された方法は、説明された方法を達成するための１つまたは複数のステップまたはアクションを備える。方法のステップおよび／またはアクションは、特許請求の範囲を逸脱することなく互いに交換され得る。言い換えれば、説明されている方法の適切な動作のために、ステップまたはアクションの特定の順序が必要とされない限り、特定のステップおよび／またはアクションの順序および／または使用は、特許請求の範囲を逸脱することなく、変更され得る。

[00368] 特許請求の範囲が上記に示した正確な構成と構成要素に制限されないことが理解されるべきである。特許請求の範囲を逸脱することなく、本明細書で説明されたシステム、方法、および装置の構成、動作、および詳細において、様々な修正、変更、および変形が行われ得る。
以下に、本願の出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］電子デバイスによって音声信号品質を測定するための方法であって、
修正された単一チャネル音声信号を取得することと、
前記修正された単一チャネル音声信号に基づいて、複数の客観的ひずみを推定することと、ここにおいて、前記複数の客観的ひずみは、少なくとも１つの前景ひずみと、少なくとも１つの背景ひずみとを含む、
前記複数の客観的ひずみに基づいて、前景品質と背景品質とを推定することと、
前記前景品質および前記背景品質に基づいて、全体品質を推定することと
を備える方法。
［Ｃ２］音声信号品質を測定することは複数の階層レベルを含む階層構造に従って行われ、ここにおいて、各階層レベルは任意の各相対的に低い階層レベルに依存する、Ｃ１に記載の方法。
［Ｃ３］前記複数の階層レベルは３つのレベルを備え、ここにおいて、第１の階層レベルは前記複数の客観的ひずみを推定することを備え、第２の階層レベルは前記前景品質と前記背景品質とを推定することを備え、第３の階層レベルは前記全体品質を推定することを備える、Ｃ２に記載の方法。
［Ｃ４］前記全体品質を推定することはさらに前記複数の客観的ひずみに直接基づく、Ｃ１に記載の方法。
［Ｃ５］前記複数の客観的ひずみの各々は音声品質の独立した次元を表す、Ｃ１に記載の方法。
［Ｃ６］前記前景ひずみは、粗さと、不連続性と、鈍さと、薄さとを含む、Ｃ１に記載の方法。
［Ｃ７］前記背景ひずみは、ヒッシングと、変動性とを含む、Ｃ１に記載の方法。
［Ｃ８］前記修正された単一チャネル音声信号は元の音声信号に基づく、Ｃ１に記載の方法。
［Ｃ９］前記複数の客観的ひずみは元の音声信号を伴わなずに推定される、Ｃ１に記載の方法。
［Ｃ１０］元の音声信号を取得することをさらに備え、ここにおいて、前記複数の客観的ひずみを推定することはさらに前記元の音声信号に基づく、Ｃ１に記載の方法。
［Ｃ１１］音声信号品質を測定するための電子デバイスであって、
修正された単一チャネル音声信号に基づいて、複数の客観的ひずみを推定する計算形ひずみ推定器と、ここにおいて、前記複数の客観的ひずみは、少なくとも１つの前景ひずみと、少なくとも１つの背景ひずみとを含む、
前記計算形ひずみ推定器に結合された計算形前景品質推定器と、ここにおいて、前記計算形前景品質推定器は前記複数の客観的ひずみに基づいて前景品質を推定する、
前記計算形ひずみ推定器に結合された計算形背景品質推定器と、ここにおいて、前記計算形背景品質推定器は前記複数の客観的ひずみに基づいて背景品質を推定する、
前記計算形ひずみ推定器に結合された計算形全体品質推定器と、ここにおいて、前記計算形全体品質推定器は前記前景品質および前記背景品質に基づいて全体品質を推定する、
を備える電子デバイス。
［Ｃ１２］音声信号品質を測定することは複数の階層レベルを含む階層構造に従って行われ、ここにおいて、各階層レベルは任意の各相対的に低い階層レベルに依存する、Ｃ１１に記載の電子デバイス。
［Ｃ１３］前記複数の階層レベルは３つのレベルを備え、ここにおいて、第１の階層レベルは前記複数の客観的ひずみを推定することを備え、第２の階層レベルは前記前景品質と前記背景品質とを推定することを備え、第３の階層レベルは前記全体品質を推定することを備える、Ｃ１２に記載の電子デバイス。
［Ｃ１４］前記複数の客観的ひずみは元の音声信号を伴わずに推定される、Ｃ１１に記載の電子デバイス。
［Ｃ１５］前記計算形ひずみ推定器は、さらに元の音声信号に基づいて前記複数の客観的ひずみを推定する、Ｃ１１に記載の電子デバイス。
［Ｃ１６］命令をその上に有する非一時的有形コンピュータ可読媒体を備える、音声信号品質を測定するためのコンピュータプログラム製品であって、前記命令は、
電子デバイスに、修正された単一チャネル音声信号を取得させるためのコードと、
前記電子デバイスに、前記修正された単一チャネル音声信号に基づいて複数の客観的ひずみを推定させるためのコードと、ここにおいて、前記複数の客観的ひずみは少なくとも１つの前景ひずみと、少なくとも１つの背景ひずみとを含む、
前記電子デバイスに、前記複数の客観的ひずみに基づいて前景品質と背景品質とを推定させるためのコードと、
前記電子デバイスに、前記前景品質および前記背景品質に基づいて全体品質を推定するためのコードと
を備える、コンピュータプログラム製品。
［Ｃ１７］音声信号品質を測定することは複数の階層レベルを含む階層構造に従って行われ、ここにおいて、各階層レベルは任意の各相対的に低い階層レベルに依存する、Ｃ１６に記載のコンピュータプログラム製品。
［Ｃ１８］前記複数の階層レベルは３つのレベルを備え、ここにおいて、第１の階層レベルは前記複数の客観的ひずみを推定することを備え、第２の階層レベルは前記前景品質と前記背景品質とを推定することを備え、第３の階層レベルは前記全体品質を推定することを備える、Ｃ１７に記載のコンピュータプログラム製品。
［Ｃ１９］前記複数の客観的ひずみは元の音声信号を伴わずに推定される、Ｃ１６に記載のコンピュータプログラム製品。
［Ｃ２０］前記電子デバイスに、元の音声信号を取得させるためのコードをさらに備え、ここにおいて、前記複数の客観的ひずみを推定することはさらに前記元の音声信号に基づく、Ｃ１６に記載のコンピュータプログラム製品。
［Ｃ２１］音声信号品質を測定するための装置であって、
修正された単一チャネル音声信号を取得するための手段と、
前記修正された単一チャネル音声信号に基づいて複数の客観的ひずみを推定するための手段と、ここにおいて、前記複数の客観的ひずみは、少なくとも１つの前景ひずみと、少なくとも１つの背景ひずみとを含む、
前記複数の客観的ひずみに基づいて前景品質と背景品質とを推定するための手段と、
前記前景品質および前記背景品質に基づいて全体品質を推定するための手段と
を備える装置。
［Ｃ２２］音声信号品質を測定することは複数の階層レベルを含む階層構造に従って行われ、ここにおいて、各階層レベルは任意の各相対的に低い階層レベルに依存する、Ｃ２１に記載の装置。
［Ｃ２３］前記複数の階層レベルは３つのレベルを備え、ここにおいて、第１の階層レベルは前記複数の客観的ひずみを推定することを備え、第２の階層レベルは前記前景品質と前記背景品質とを推定することを備え、第３の階層レベルは前記全体品質を推定することを備える、Ｃ２２に記載の装置。
［Ｃ２４］前記全体品質を推定することはさらに前記複数の客観的ひずみに直接基づく、Ｃ２１に記載の装置。
［Ｃ２５］前記複数の客観的ひずみの各々は音声品質の独立した次元を表す、Ｃ２１に記載の装置。
［Ｃ２６］前記前景ひずみは、粗さと、不連続性と、鈍さと、薄さとを含む、Ｃ２１に記載の装置。
［Ｃ２７］前記背景ひずみは、ヒッシングと、変動性とを含む、Ｃ２１に記載の装置。
［Ｃ２８］前記修正された単一チャネル音声信号は元の音声信号に基づく、Ｃ２１に記載の装置。
［Ｃ２９］前記複数の客観的ひずみは元の音声信号を伴わずに推定される、Ｃ２１に記載の装置。
［Ｃ３０］元の音声信号を取得するための手段をさらに備え、ここにおいて、前記複数の客観的ひずみを推定することはさらに前記元の音声信号に基づく、Ｃ２１に記載の装置。

Claims

電子デバイスによって音声信号品質を測定するための方法であって、
修正された単一チャネル音声信号を取得することと、
前記修正された単一チャネル音声信号に基づいて、複数の客観的ひずみを推定することと、ここにおいて、前記複数の客観的ひずみを推定することは、複数の前景ひずみスコアを推定することと、複数の背景ひずみスコアを推定することとを備える、
前記複数の客観的ひずみに基づいて、前景品質と背景品質とを推定することと、ここにおいて、前記前景品質を推定することは、前景品質スコアを決定するために、前記複数の前景ひずみスコアを合成することを備え、前記背景品質を推定することは、背景品質スコアを決定するために、前記複数の背景ひずみスコアを合成することを備える、
前記前景品質および前記背景品質に基づいて、全体品質を推定することと
を備える方法。
音声信号品質を測定することは複数の階層レベルを含む階層構造に従って行われ、ここにおいて、各階層レベルは任意の各相対的に低い階層レベルに依存する、請求項１に記載の方法。
前記複数の階層レベルは３つのレベルを備え、ここにおいて、第１の階層レベルは前記複数の客観的ひずみを推定することを備え、第２の階層レベルは前記前景品質と前記背景品質とを推定することを備え、第３の階層レベルは前記全体品質を推定することを備える、請求項２に記載の方法。
前記全体品質を推定することはさらに前記複数の客観的ひずみに直接基づく、請求項１に記載の方法。
前記複数の客観的ひずみの各々は音声品質の独立した次元を表す、請求項１に記載の方法。
前記複数の前景ひずみスコアは、粗さスコアと、不連続性スコアと、鈍さスコアと、薄さスコアとを含む、請求項１に記載の方法。
前記複数の背景ひずみスコアを推定することは、ヒッシングスコアを推定することと、前記修正された単一チャネル音声信号の中の雑音の変動性を示す変動性スコアを推定することとを備える、請求項１に記載の方法。
前記修正された単一チャネル音声信号は元の音声信号に基づく、請求項１に記載の方法。
前記複数の客観的ひずみは元の音声信号を伴わずに推定される、請求項１に記載の方法。
元の音声信号を取得することをさらに備え、ここにおいて、前記複数の客観的ひずみを推定することはさらに前記元の音声信号に基づく、請求項１に記載の方法。
音声信号品質を測定するための電子デバイスであって、
修正された単一チャネル音声信号に基づいて、複数の客観的ひずみを推定する計算形ひずみ推定器と、ここにおいて、前記複数の客観的ひずみを推定することは、複数の前景ひずみスコアを推定することと、複数の背景ひずみスコアを推定することとを備える、
前記計算形ひずみ推定器に結合された計算形前景品質推定器と、ここにおいて、前記計算形前景品質推定器は前記複数の客観的ひずみに基づいて前景品質を推定し、前記前景品質を推定することは、前景品質スコアを決定するために、前記複数の前景ひずみスコアを合成することを備える、
前記計算形ひずみ推定器に結合された計算形背景品質推定器と、ここにおいて、前記計算形背景品質推定器は前記複数の客観的ひずみに基づいて背景品質を推定し、前記背景品質を推定することは、背景品質スコアを決定するために、前記複数の背景ひずみスコアを合成することを備える、
前記計算形ひずみ推定器に結合された計算形全体品質推定器と、ここにおいて、前記計算形全体品質推定器は前記前景品質および前記背景品質に基づいて全体品質を推定する、
を備える電子デバイス。
音声信号品質を測定することは複数の階層レベルを含む階層構造に従って行われ、ここにおいて、各階層レベルは任意の各相対的に低い階層レベルに依存する、請求項１１に記載の電子デバイス。
前記複数の階層レベルは３つのレベルを備え、ここにおいて、第１の階層レベルは前記複数の客観的ひずみを推定することを備え、第２の階層レベルは前記前景品質と前記背景品質とを推定することを備え、第３の階層レベルは前記全体品質を推定することを備える、請求項１２に記載の電子デバイス。
前記複数の客観的ひずみは元の音声信号を伴わずに推定される、請求項１１に記載の電子デバイス。
前記計算形ひずみ推定器は、さらに元の音声信号に基づいて前記複数の客観的ひずみを推定する、請求項１１に記載の電子デバイス。
音声信号品質を測定する電子デバイスを構成するプロセッサのためのコンピュータプログラムであって、
前記プロセッサに、修正された単一チャネル音声信号を取得させるためのコードと、
前記プロセッサに、前記修正された単一チャネル音声信号に基づいて複数の客観的ひずみを推定させるためのコードと、ここにおいて、前記複数の客観的ひずみを推定することは複数の前景ひずみスコアを推定することと、複数の背景ひずみスコアを推定することとを備える、
前記プロセッサに、前記複数の客観的ひずみに基づいて前景品質と背景品質とを推定させるためのコードと、ここにおいて、前記前景品質を推定することは、前景品質スコアを決定するために、前記複数の前景ひずみスコアを合成することを備え、前記背景品質を推定することは、背景品質スコアを決定するために、前記複数の背景ひずみスコアを合成することを備える、
前記プロセッサに、前記前景品質および前記背景品質に基づいて全体品質を推定させるためのコードと
を備える、コンピュータプログラム。
音声信号品質を測定することは複数の階層レベルを含む階層構造に従って行われ、ここにおいて、各階層レベルは任意の各相対的に低い階層レベルに依存する、請求項１６に記載のコンピュータプログラム。
前記複数の階層レベルは３つのレベルを備え、ここにおいて、第１の階層レベルは前記複数の客観的ひずみを推定することを備え、第２の階層レベルは前記前景品質と前記背景品質とを推定することを備え、第３の階層レベルは前記全体品質を推定することを備える、請求項１７に記載のコンピュータプログラム。
前記複数の客観的ひずみは元の音声信号を伴わずに推定される、請求項１６に記載のコンピュータプログラム。
前記プロセッサに、元の音声信号を取得させるためのコードをさらに備え、ここにおいて、前記複数の客観的ひずみを推定することはさらに前記元の音声信号に基づく、請求項１６に記載のコンピュータプログラム。
音声信号品質を測定するための装置であって、
修正された単一チャネル音声信号を取得するための手段と、
前記修正された単一チャネル音声信号に基づいて複数の客観的ひずみを推定するための手段と、ここにおいて、前記複数の客観的ひずみを推定することは、複数の前景ひずみスコアを推定することと、複数の背景ひずみスコアを推定することとを備える、
前記複数の客観的ひずみに基づいて前景品質と背景品質とを推定するための手段と、ここにおいて、前記前景品質を推定することは、前景品質スコアを決定するために、前記複数の前景ひずみスコアを合成することを備え、前記背景品質を推定することは、背景品質スコアを決定するために、前記複数の背景ひずみスコアを合成することを備える、
前記前景品質および前記背景品質に基づいて全体品質を推定するための手段と
を備える装置。
音声信号品質を測定することは複数の階層レベルを含む階層構造に従って行われ、ここにおいて、各階層レベルは任意の各相対的に低い階層レベルに依存する、請求項２１に記載の装置。
前記複数の階層レベルは３つのレベルを備え、ここにおいて、第１の階層レベルは前記複数の客観的ひずみを推定することを備え、第２の階層レベルは前記前景品質と前記背景品質とを推定することを備え、第３の階層レベルは前記全体品質を推定することを備える、請求項２２に記載の装置。
前記全体品質を推定することはさらに前記複数の客観的ひずみに直接基づく、請求項２１に記載の装置。
前記複数の客観的ひずみの各々は音声品質の独立した次元を表す、請求項２１に記載の装置。
前記複数の前景ひずみスコアは、粗さスコアと、不連続性スコアと、鈍さスコアと、薄さスコアとを含む、請求項２１に記載の装置。
前記複数の背景ひずみスコアを推定することは、ヒッシングスコアを推定することと、前記修正された単一チャネル音声信号の中の雑音の変動性を示す変動性スコアを推定するとを備える、請求項２１に記載の装置。
前記修正された単一チャネル音声信号は元の音声信号に基づく、請求項２１に記載の装置。
前記複数の客観的ひずみは元の音声信号を伴わずに推定される、請求項２１に記載の装置。
元の音声信号を取得するための手段をさらに備え、ここにおいて、前記複数の客観的ひずみを推定することはさらに前記元の音声信号に基づく、請求項２１に記載の装置。