[0001] 本出願は、「SYSTEMS AND METHODS FOR MEASURING SPEECH SIGNAL QUALITY」に関して、2013年6月26日に出願された米国仮特許出願第61/839,807号、「SYSTEMS AND METHODS FOR MEASURING SPEECH SIGNAL QUALITY」に関して、2013年10月9日に出願された米国仮特許出願第61/888,945号、「SYSTEMS AND METHODS FOR INTRUSIVE FEATURE EXTRACTION」に関して、2013年6月26日に出願された米国仮特許出願第61/839,796号、「SYSTEMS AND METHODS FOR NON−INTRUSIVE FEATURE EXTRACTION」に関して、2013年6月26日に出願された米国仮特許出願第61/839,800号、および「SYSTEMS AND METHODS FOR FEATURE EXTRACTION」に関して、2013年9月10日に出願された米国仮特許出願第61/876,177に関し、これらの優先権を主張するものである。
[0062] 本明細書で開示されるシステムおよび方法のいくつかの構成は、音声ひずみと全体品質とを診断することの階層的なシステムを利用する。音声信号の品質は、人間の聞き手(human listeners)によって最も正確に測定される。しかしながら、複数の聞き手によるそのような評価を引き受けることは、時間と金銭の両方の観点から費用がかかる。従って、人間の聞き手の反応(human listener responses)(音声品質に関する)を正確に複製できるシステムおよび方法(例えば、アルゴリズム、計算形システムなど)は、有益であることになる。例えば、これらのシステムおよび方法は、複数の人間の聞き手に対する要件を置換できる。
[0063] 本明細書で開示されるシステムおよび方法は、人間の蝸牛(human cochlea)の流体力学的機能(hydro-mechanical function)、聴神経(Auditory nerve)および内有毛細胞/外有毛細胞(inner/outer hair cells)の機能性(functionality)へのその力学的な神経支配(mechanical innervation)をエミュレートする計算形エンジン(computational engine)を提供する。内有毛細胞の(計算形エンジンからの)出力は、人間の音声知覚の様々な態様を推測するために使用され得る。人間の聞くプロセス(human listening process)は、極めて複雑であり、蝸牛の中で、上側聴覚路および中枢神経系(CNS:Central Nervous System)の中で(蝸牛機能の後で)電気的に変換された信号をニューラル処理することへの流体力学を伴う。全体品質を(1次元の数量(uni-dimensional quantity)として)予測することを試みてきた知られている手法は、広い範囲のひずみを包含することまたは高い精度を達成することができなかった。例えば、現在の国際電気通信連合(ITU:International Telecommunications Union)標準の知覚的客観的受聴品質評価(P.OLQA:Perceptual Objective Listening Quality Assessment)(平均オピニオン評点(MOS:mean opinion score)を予測するP.863)は、P.OLQAがそれに対して設計されなかったシステムによって劣化された音声の品質を推定する場合、正確でない。
[0064] 特に、本システムおよび方法は、人間の蝸牛の計算形モデルの出力から特徴を抽出し得る。特徴は、次いで、音声品質を予測するためにさらに分析され得る。本明細書で説明される特徴は音声品質を予測することに関連して説明されるが、特徴は、何か適切な用途(any suitable application)で使用され得、音声品質の予測(speech quality prediction)に限定されない。使用される蝸牛の計算形モデル(computational model)は、音声信号を内有毛細胞の反応(inner hair cell responses)へ正確に変換する流体力学的な生理学的モデルである。特に、機能蝸牛モデル(functional cochlear model)は、蝸牛の入力および出力に注目し得、蝸牛がどのように働くかを理解することなく、蝸牛の機能をエミュレートすることを試み得る。対照的に、本システムおよび方法の生理学的蝸牛モデル(physiological cochlear model)は、蝸牛の特有の生理学的反応をエミュレート(例えば、鼓膜(eardrum)、外耳道(ear canal)、蝸牛の内側の流体(fluid)、様々な膜(membranes)の力(forces)/変位(displacement)/速度(velocity)、内有毛細胞−およびこれらの構造の質量、弾性および/または摩擦特性などの生理学的特性(physiological properties)のための計算)することを試み、その場合、基礎物理学(fundamental physics)、およびそれに限定されないが出力を生成するためにHeinz、Baumgarte、MeddisまたはZwickerの研究におけるものと同様の電子回路を使用するモデル化などの近似の使用を通じて、モデル化が行われる。従って、音声品質を予測するために生理学的蝸牛モデルを適用することは、本明細書で開示されるシステムおよび方法の1つの固有の特徴である。
[0065] 本明細書で開示されるシステムおよび方法のいくつかの構成は、「分割統治(divide and conquer)」の方策を利用する。例えば、本明細書で開示されるシステムおよび方法は、最初に、音声品質の個別の属性/次元(individual attributes/dimensions)(例えば、ひずみ)を診断することを試み得、次いで、信号の全体品質を予測するためにこれら個別の属性を組み合わせ得る。例えば、階層的な手法が利用され得、その場合、最初に複数のひずみ診断が行われ、次いで前景ひずみ診断および背景ひずみ診断が行われ、最後に計算形モデルを用いて全体品質が推定される。
[0066] 本明細書で開示されるシステムおよび方法は、音声品質の客観的測定を提供する。従来、主観的な受聴テストは、平均オピニオン評点(MOS)を決定するために行われる。これらの主観的な受聴テストは、金銭がかかる場合があり、時間がかかる場合があり、反復可能でない場合がある。
[0067] 音声品質の客観的測定は、主観的な受聴テストの不都合を克服し得る。主観的な測定は最も正確であると想像されるが、客観的な測定は主観的な測定の出力を予測するために利用され得る。
[0068] 音声品質テストの客観的測定の間、元の音声は、エンコーダ(例えば、拡張可変レートコーデック(EVRC:Enhanced Variable Rate Codec)のコーデック)に供給され得る。音響心理学的分析(Psychoacoustic analysis)が、元の音声および符号化された音声について行われ得る。結果は、MOSを推定するために比較され得る。この手法の例は、P.861、P.862およびP.863などの国際電気通信連合(ITU)標準を含む。これらの3つは全て、ITU標準P.800に記載されるような主観的なMOSテストの結果を予測することを試みる。
[0069] 雑音は、元の音声の中へ注入され得る。雑音に悩まされる音声(noise-afflicted speech)は、向上アルゴリズム(enhancement algorithm)(例えば、雑音抑圧器)へ提供され得る。音響心理学的分析は、元の音声および向上した音声(例えば、雑音が抑圧された音声)について行われ得る。結果は、MOSを推定するために比較され得る。この手法の一例は、欧州電気通信標準化機構(ETSI:European Telecommunications Standards Institute)により提供され、ITU標準P.835に記載されるような主観的テスト(subjective testing)の結果を予測することを試みる。
[0070] 音声品質の客観的測定の知られている手法は1次元的であり得る。しかしながら、音声品質は多次元的である。1つの次元は、十分または正確であり得ない。例えば、現在のITU標準P.OLQA(MOSを予測するP.863)は、完全に正確とは限らない。それは、EVRCコーデックに対してMOSを不正確に予測し得る。このことの1つの例は、ITU Q9 WP2寄稿COM12−C270rev1−E(201110)である。本明細書で開示されるシステムおよび方法は、MOSを予測する際に、知られている手法と比較してより高い精度をもたらし得る。いくつかの構成では、本明細書で開示されるシステムおよび方法が、予想されるITU標準(例えば、P.TCA、P.ONRAおよびP.AMD)へ組み込まれ得る。表1は、音声品質を測定するためのいくつかの手法(例えば、標準化されたもの、および進行中のもの)を示す。本明細書で開示されるシステムおよび方法は、標準化の進行中にある標準に適用され得る。
[0071] 本明細書で開示されるシステムおよび方法は、複数の独立したひずみを検出する能力を有する1次元の音声信号品質テストを置換するために適用され得る。一旦多次元的な「検出可能性」が達成されると、全体品質はそれに従って予測され得る。本明細書で開示されるシステムおよび方法は、「分割統治」の方策を採用し得る。例えば、新規のフレームワークおよび特徴(例えば、高度な知覚的特徴(advanced perceptual features))が提供される。
[0072] 階層的なシステムまたは構造は、音声ひずみと全体品質とを診断するために利用され得る。このことは、全体品質での予測の改善された精度という結果となり得る。さらなる利点は、音声信号についての診断情報を提供することと、ネットワークの不具合についての診断情報を潜在的に提供することと、コーディング/向上のアルゴリズムを開発するための可能なツールを提供することと、品質におけるリアルタイムなフィードバックを提供することとを含む。
[0073] 次に、様々な構成が、同一の参照番号が機能的に類似の要素を示し得る図面を参照して記載される。本明細書において一般的に記載され図面で例示されているようなシステムおよび方法は、広範な様々な別の構成でアレンジおよび設計され得る。従って、これら図面において示されるような、以下に示すいくつかの構成のより詳細な記載は、特許請求されたような範囲を限定することではなく、単に、これらシステムおよび方法の代表であることが意図されている。
[0074] 図1は、主観的方法(subjective method)を使用する音声信号品質分析を示す。主観的方法は、人間の聞き手104a〜cの知覚に基づいて1つまたは複数の音声信号の品質を測定することの手法である。主観的モデルは、1つまたは複数の音声信号を1人または複数の人間の聞き手104a〜cに提供する音声信号源102を含み得る。1人または複数の人間の聞き手104a〜cは、1つまたは複数の音声信号を聞き、1つまたは複数の音声信号の品質を人間の聞き手104a〜cの品質の知覚(human listener’s 104a-c perceptions of quality)に基づいて格付け(rate)し得る。例えば、人間の聞き手104aは音声信号の品質が良好106aと決定し得、別の人間の聞き手104bは同じ音声信号の品質が劣悪106bと決定し得、第3の人間の聞き手104cは同じ音声信号の品質が適正106cと決定し得る。主観的なテストにおいて、3つの格付けは、平均化プログラム108によって平均化され、適正の平均オピニオン評点(MOS)110が与えられることになる。
[0075] 主観的方法が1人または複数の人間の聞き手104a〜cと試験者の両方にとって時間がかかることにより、この方法は一貫して使用することが困難である。この主観的方法を使用することの別の潜在的な欠点は、主観的方法は費用がかかり得ることである。この主観的方法は、人間の聞き手104a〜cに彼らの時間に対して報酬を受けさせ得、また、テストが結果をより一貫させるための専用のエリアを必要とし得る。主観的方法は、また、反復可能な結果を取得することが困難であり得る。というのも、音声信号の品質を決定するとき、人間の聞き手104a〜cが極端な差を有し得るからである。例えば、同じ音声信号は、2つの異なる主観的方法のテストで使用され得る。第1の主観的方法のテストは、音声信号が音声信号品質の適正の格付けを有する結果となり得、第2の主観的方法のテストは、同じ音声信号が音声信号品質の良好の格付けを有する結果となり得る。
[0076] アルゴリズムまたは計算形システムは、人間の聞き手104a〜cの反応を正確に複製できるようにし得る。このことは、テストに費やされるお金を削減し得る。例えば、人間の聞き手104a〜cの音声の知覚をシミュレートできる計算形エンジンは、生理学的蝸牛モデルであり得る。生理学的蝸牛モデルは、本明細書で説明される方法を使用して、音声信号の全体の音声品質を予測できる。生理学的蝸牛モデルは、蝸牛の中の流体力学と、人間の耳の上側聴覚路および中枢神経系の中でなされるニューラル処理とを、複製できる。生理学的蝸牛モデルは、音声品質の個別の次元を診断することができ、次いで、音声信号の全体の音声品質をより正確に予測するために、これら個別の属性を組み合わせることができる。音声信号品質分析のための生理学的蝸牛モデルの使用は、全体品質の予測を改善し得、音声信号についての診断情報を提供し得、リアルタイムの品質フィードバックを使用する向上アルゴリズムのための可能なツールを提供し得る。
[0077] 図2は、音声信号の品質の主観的な決定を計算的に予測し、−それによって、客観的なスコアを生成するための2つの方法を示すブロック図である。元の音声信号212a〜bは、例えば、コーダ214および/またはエンハンスメント222を通過した後、ひずんだ音声信号になり得る。P.835は、特に、ひずまされて、次いで、後で様々なアルゴリズムを使用して向上させられた信号のための、ITUの主観的なテストの標準である。P.800は、範囲においてP.835よりも一般的であり、任意のひずんだ信号に対して有効である、ITUの主観的なテストの標準である。図2に示す2つの方法は、人間の聴覚知覚をシミュレートすることに基づいて、(コーディングおよび/またはエンハンスメント214、222の後の)ひずんだ音声信号の品質の客観的なスコアを提供し得る。図示される2つの方法は、MOS(P.800)およびP.835の主観的なテストの方法を使用する、主観的な評価の計算的予測(客観的なスコア)を与える。方法P.800は全体的なスコアが付けられたMOSを与え、方法P.835は3つのスコア、すなわち、S−MOSと、N−MOSと、G−MOSとを与える。S−MOSは音声信号の前景品質に対するスコアであり、N−MOSは音声信号の背景雑音に対するスコアであり、G−MOSは音声信号の全体品質に対するスコアである。両方のテスト方法は、嵌入的な方法または非嵌入的な方法を使用し得る。
[0078] 明快のために、主観的な音声品質におけるITU標準のいくつかの説明が、次のように与えられる。音声信号に対して、P.800は、MOSと呼ばれるただ1つのOVERALLスコアを与える。P.835は、3つのスコア、すなわち、S−MOSと、N−MOSと、G−MOSとを与える。S−MOSは前景/信号のみに対するスコアであり、N−MOSは背景/雑音品質のみに対するスコアである。G−MOSは全体品質に対するスコアであり、P.800におけるMOSと実際には同じである。P.806(2014年前半にITU標準へ最終承認された)は、8つのスコアを与える。
[0079] 図2の方法は、ひずんだ音声信号(例えば、コーディングおよび/またはエンハンスメント214、222の後)のみ、またはひずんだ/修正された音声信号(distorted/modified speech signal)(コーダ214またはエンハンスメントモジュール222によって出力される)と元の音声信号212a〜b(比較するための基準として使用される)の組合せを使用してなされ得る。前者(元の音声信号212a〜bが存在しない場合)は非嵌入的な方法(non-intrusive method)であり、後者(修正された/ひずんだ信号と元の音声信号212a〜bの両方が存在する場合)は嵌入的な方法(intrusive method)である。修正音声信号は、元の音声212a〜bの信号への変更を含み得、変更は処理することを含む。処理された音声信号(processed speech signal)は、修正音声信号(modified speech signal)の一例であり得る。
[0080] MOSスコアを予測する方法は、元の音声212aの信号を取得し得る。元の音声212aの信号は、人間の知覚をシミュレートしようとした音響心理学的分析216aのための入力として使用され得る。元の音声212aの信号は、また、ワイヤレスネットワークによってなされ得る信号圧縮および他のタイプの信号処理をシミュレートするために、コーダ214への入力として使用され得る。コーダ214は、修正音声信号を出力し得、MOSスコアを予測する方法がテストの非嵌入的な方法を含むことができるようにする。修正音声信号は、人間の知覚をシミュレートしようとする音響心理学的分析216bのための入力として使用され得る。
[0081] 元の音声信号および修正音声信号の音響心理学的分析216a〜bからの結果は、次いで、比較され得る218a。元の音声信号と修正音声信号との比較は、全体的なMOS220aを提供し得る。MOSのスコアリングは、1から5までわたり得る。1のスコアは「不良(bad)」の品質を有し得、2は「劣悪(poor)」の品質を有し得、3は「適正(fair)」の品質を有し得、4は「良好(good)」の品質を有し得、5は「優秀(excellent)」の品質を有し得る。
[0082] 雑音抑圧アルゴリズムを含む音声信号を評価するための客観的なテスト方法は、また、分析のために元の音声212bの信号と雑音224とを取得し得る。この方法は、S−MOS、N−MOSおよびG−MOSのスコアを含み得るP.835スコアを与え得る。元の音声212bの信号および雑音224は、人間の聴覚知覚をシミュレートしようとする音響心理学的分析216cのための入力として使用され得る。元の音声212bの信号および雑音224は、エンハンスメントモジュール222への入力として使用され得る。例えば、エンハンスメントモジュール222は、元の音声212bの信号の中に存在し得る雑音またはエコーを低減し得る。エンハンスメントモジュール222は、修正音声信号を出力し得、P.835の予測方法がテストの非嵌入的な方法を含むことができるようにする。修正音声信号は、人間の聴覚知覚をシミュレートしようとする音響心理学的分析216dのための入力として使用され得る。
[0083] 元の音声212bの信号および修正音声信号の音響心理学的分析216c〜dからの結果は、次いで、比較され得る218b。元の音声212bの信号と修正音声信号との比較は、P.835 220bのテストの品質格付けのうちの1つまたは複数を提供し得る。P.835のスコアリングは、3つの格付け、すなわち、前景音声品質に対するS−MOSと、背景雑音品質に対するN−MOSと、全体の音声品質に対するG−MOSとを有し得る。3つの格付けは全て、1から5までわたり得る。S−MOSに対する1のスコアは「極めてひずんでいる」の格付けを有し得、2は「相当にひずんでいる」の格付けを有し得、3は「いくらかひずんでいる」の格付けを有し得、4は「わずかにひずんでいる」の格付けを有し得、5は「ひずんでいない」の格付けを有し得る。N−MOSに対する1のスコアは「極めて嵌入的」の格付けを有し得、2は「いくらか嵌入的」の格付けを有し得、3は「目立っているが嵌入的でない」の格付けを有し得、4は「わずかに目立っている」の格付けを有し得、5は「目立っていない」の格付けを有し得る。G−MOSに対する1のスコアは「不良」の格付けを有し得、2は「劣悪」の格付けを有し得、3は「適正」の格付けを有し得、4は「良好」の格付けを有し得、5は「優秀」の格付けを有し得る。
[0084] 図3は、知覚的客観的受聴品質評価(P.OLQA)の現在のITU標準を使用してMOSを予測することの精度を示すグラフである。グラフのX−軸は音声信号のMOS319の格付けに対応し、Y軸は音声信号のP.OLQA317の格付けに対応する。P.OLQAは、デジタル分析を通じて音声信号の品質を予測するために使用される標準である。
[0085] 図3のグラフは、音声信号のP.OLQAスコアをP.800スコア(MOS)と比較する。P.OLQAの分析が適切にスコアを予測する場合、そのスコアは、音声信号のMOSに一致するか、または接近しているはずである。グラフの対角線は、P.OLQAのスコアおよびMOSが近い場合に点が存在するべき場所を示す。
[0086] 図3のグラフは、現在のP.OLQA分析が常に音声信号のMOS格付けに一致するとは限らないことを示す。通常、拡張可変レートコーデック(EVRC)の修正を通り抜けた音声信号のP.OLQA格付けは、グラフに示すように、予測されたものの下方にあり得る。EVRC修正音声信号の結果は、菱形および正方形として示される。
[0087] 図4は、音声信号品質を測定するための方法400の一構成を示す流れ図である。方法400は、電子デバイスによって行われ得る。電子デバイスの例は、モバイルデバイス(例えば、スマートフォン、セルラーフォン、タブレットデバイス、ラップトップコンピュータなど)、デスクトップコンピュータ、携帯情報端末(PDA)、機器、テレビジョン、ゲームシステムおよびサーバ(例えば、ネットワークデバイスに含まれるサーバ)を含む。電子デバイスは、オプションで元の音声信号を取得し得る402。例えば、電子デバイスは、1つまたは複数のマイクロフォンを用いて音声信号を取り込み得、または別のデバイス(例えば、記憶デバイス、コンピュータ、電話、ヘッドセットなど)から音声信号を受信し得る。元の音声信号は、未加工または未修正の信号であり得る。例えば、元の音声信号は、符号化および/または圧縮されていない、音声信号の電子的に標本化されたバージョンであり得る。元の音声信号が取得される手法は、嵌入的な手法または方法と呼ばれ得る。例えば、嵌入的な手法は、元の音声信号と修正音声信号(例えば、ひずんだ音声信号)との間の明示的な減算を含み得る。他の手法では、元の音声信号が取得され得ない。これらの手法は、非嵌入的な手法または方法と呼ばれ得る。非嵌入的な手法では、例えば、元の音声信号が利用できないことがある(例えば、修正音声信号と元の音声信号との間の明示的な減算が存在し得ない)。例えば、方法400は、いくつかの実装形態および/またはシナリオで、元の音声信号を取得することなく行われ得る。特に、「元の」または「きれいな」信号が比較のために利用できない場合、特徴は、品質を予測することに特に適用できることがある。元の/きれいな信号を必要としないそのようなシステムは、非嵌入的なシステムと呼ばれる。上で説明したように、蝸牛の計算形モデルは、音声信号を内有毛細胞の反応へ正確に変換する流体力学的モデルであり得る。従って、非嵌入的な特徴は、知覚領域での音声およびオーディオ信号分析のために、蝸牛モデルから抽出され得る。他の類似のモデルも使用され得る。
[0088] いくつかの構成では、電子デバイスが、修正音声信号を取得するために元の音声信号を処理し得る。例えば、電子デバイスは、修正音声信号を取得するために元の音声信号を符号化し得る(および/または、例えば、得られた符号化音声信号を復号し得る)。追加または代替として、電子デバイスは、修正音声信号を取得するために元の音声信号を向上させ得る。例えば、電子デバイスは、元の音声信号の雑音が注入されたバージョンで雑音抑圧を行い得る。電子デバイスは、修正された単一チャネル音声信号を取得し得る404。「単一チャネル」音声信号は、音声信号を、任意の一時点における単一サンプル(例えば、圧力の)として表し得る。例えば、修正された単一チャネル音声信号は、情報を空間的に区別することをもたらす複数の信号を含み得ない。いくつかの構成では、例えば、修正された単一チャネル音声信号が、単一のマイクロフォンで取り込まれた元の音声信号に基づき得る。
[0089] 他の構成では、電子デバイスが、修正音声信号を別のデバイス(例えば、記憶デバイス、コンピュータ、電話、ヘッドセット、エンコーダなど)から取得し得る。例えば、電子デバイスは、修正音声信号をネットワーク化された電子デバイスから受信し得る。
[0090] 修正音声信号は、元の音声信号に基づき得る。例えば、修正音声信号は、元の音声信号のひずんだバージョンであり得る。向上、符号化、復号、雑音抑圧、元の音声信号の伸張および圧縮は、修正音声信号の1つまたは複数の特性が元の音声信号の特性と異なるように、元の音声信号をひずませ得る。
[0091] いくつかの構成では、電子デバイスが、本明細書で説明されるような生理学的モデル(例えば、生理学的蝸牛モデル)を使用して、修正音声信号を処理し得る。生理学的モデルを使用して修正音声信号を処理することは、人間の聴覚系によって行われる処理をより正確に近似し得る(例えば、機能モデルよりも)。このことは、人間の聞き手によって知覚されるように音声信号品質をより正確に推定することの助けとなり得る。例えば、生理学的モデルを使用して修正音声信号を処理することは、内有毛細胞データを提供し得る。内有毛細胞データ(inner hair cell data)と基底膜データ(basilar membrane data)との間の差は、内有毛細胞データが人間の聴覚系において基底膜データよりも後のデータ収集点から収集され−従って、基底膜において見られるものを越えるさらなる処理の対象となることである。ほとんどの機能モデルは主に基底膜の反応を近似し、少数の他の機能モデルは内有毛細胞の反応を−シリアル方式で近似し始めているが、これらの機能モデルのいずれもが、生理学的な構成要素の各部がフィードフォワードおよびフィードバックのやり方で互いに依存する全体論的な方法で、完全な蝸牛(生理学的構造、流体など)の系を扱わない。本明細書で開示されるシステムおよび方法は、内有毛細胞データ、基底膜データまたは両方のデータタイプを使用して適用され得る。
[0092] 電子デバイスは、修正音声信号に基づいて複数の客観的ひずみを推定し得る406。例えば、客観的ひずみは、修正音声信号のひずみを表す1つまたは複数のメトリック(例えば、元の音声信号と修正音声信号との間の差)であり得る。いくつかの実装形態では、電子デバイスが、元の音声信号に追加的に基づいて複数の客観的ひずみを推定し得る。例えば、複数の客観的ひずみのうちの1つまたは複数は、修正音声信号、元の音声信号、または修正音声信号と元の音声信号の両方に基づき得る。複数の客観的ひずみは、例えば、いくつかの手法と並行して推定され得る。
[0093] いくつかの構成では、複数の客観的ひずみの各々が、音声品質の独立した次元を表し得る。例えば、ひずみの各々は、人間の聞き手のフィードバックに従って互いに近似的に無相関であり得る。例えば、人間の聞き手は、音声信号の別個のひずみを検出し得る。言い換えれば、ひずみを記述するための多くのデスクリプタが与えられると、人間の聞き手は、音声品質の相互関係のある次元に、類似のスコアを割り当てる傾向がある。1つの例では、人間の聞き手には、ひずみを記述するためのデスクリプタ「ラフ(rough)」、「ハーシュ(harsh)」、「フラッタリング(fluttering)」、「ディスコンティニュアス(discontinuous)」、「ダル(dull)」、「マフルド(muffled)」、「ディスタント(distant)」、「シン(thin)」、「ヒッシング(hissing)」、「ラッシング(rushing)」、「ローリング(roaring)」、「バブリング(bubbling)」、「インターミッテント(intermittent)」および「バリアブル(variable)」が与えられる。この例では、人間の聞き手が、「ラフ」と「ハーシュ」とに、「フラッタリング」と「ディスコンティニュアス」とに、「ダル」と「マフルド」とに、「ディスタント」と「シン」とに、「ヒッシング」と「ラッシング」と「ローリング」とに、「バブリング」と「インターミッテント」と「バリアブル」とに、類似のスコアを割り当てる傾向がある。従って、これらのデスクリプタは、音声品質の無相関のまたは独立した次元にグループ化され得る。
[0094] いくつかの構成では、「粗さ」ひずみが、「ラフ」および「ハーシュ」デスクリプタに対応し得る。音声信号の粗さは、音声信号の高速な、時間的に局所化された劣化であり得る。粗さは、時間的な前景ひずみであり得る。「不連続性」ひずみは、「フラッタリング」および「ディスコンティニュアス」デスクリプタに対応し得る。音声信号の不連続性は、音声信号の低速な、時間的に局所化された劣化であり得る。不連続性は、時間的な前景ひずみであり得る。「鈍さ」ひずみは、「ダル」および「マフルド」デスクリプタに対応し得る。音声信号の鈍さは、音声信号の高周波数帯域の劣化であり得る。鈍さは、スペクトル(例えば、周波数)の前景ひずみであり得る。「薄さ」ひずみは、「ディスタント」および「シン」デスクリプタに対応し得る。音声信号の薄さは、音声信号の低周波数帯域の劣化であり得る。薄さは、スペクトルの前景ひずみであり得る。「ヒッシング」ひずみは、「ヒッシング」、「ラッシング」および「ローリング」デスクリプタに対応し得る。音声信号のヒッシングは、音声信号の中の背景雑音のレベルに起因する劣化であり得る。「変動性」ひずみは、「バブリング」、「インターミッテント」および「バリアブル」デスクリプタに対応し得る。音声信号の変動性は、音声信号の中の雑音の変動性に起因する劣化であり得る。これらのひずみの各々は、音声品質の独立した次元を表し得る。複数の客観的ひずみの各々は、格付けされ得、スコアが提供され得る。スコアは、複数の客観的ひずみの各々が音声信号に引き起こし得るひずみのレベルを示し得る。他の用語が音声品質の独立した次元に対して使用され得ることに留意されたい。例えば、ITU標準P.806は、複数の客観的ひずみに密接に対応する知覚的品質(PQ:Perceptual Quality)スケールを提示する。PQスケールは、S−FLTと、S−RUFと、S−LFCと、S−HFCと、B−LVLと、B−VARとを含む。S−FLTは、音声信号の低速に変化する劣化(不連続性)に関する。S−RUFは、音声信号の高速に変化する劣化(粗さ)に関する。S−LFCは、音声信号の低周波数のカラーレーション(low frequency coloration)の劣化(鈍さ)に関する。S−HFCは、音声信号の高周波数のカラーレーション(high frequency coloration)の劣化(薄さ)に関する。B−LVLは、音声信号の背景雑音のレベルに起因する劣化(ヒッシング)に関する。B−VARは、音声信号の背景雑音の変動性に起因する劣化(変動性)に関する。P.806がラウドネスに対するLOUDスコアを含むこと、OVRLが全体品質に対するスコアであることにも留意され得る。OVRLは、P.800のMOSおよびP.835のG−MOSと同じであり得る。
[0095] いくつかの構成では、複数の客観的ひずみが、少なくとも1つの前景ひずみ、および/または少なくとも1つの背景ひずみを含み得る。例えば、複数の客観的ひずみは、4つの前景ひずみと2つの背景ひずみとを含み得る。4つの前景ひずみは、「粗さ」と、「不連続性」と、「鈍さ」と、「薄さ」とを含み得る。2つの背景ひずみは、「ヒッシング」と、「変動性」とを含み得る。前景ひずみは、音声信号の中の音声の劣化に起因する音声信号のひずみであり得る。背景ひずみは、音声信号の中で見られる雑音に起因する音声信号のひずみであり得る。従って、本明細書で開示されるシステムおよび方法は、時間的なひずみとスペクトルのひずみの両方を利用し得る。
[0096] 電子デバイスは、複数の客観的ひずみに基づいて前景品質と背景品質とを推定し得る408。前景ひずみは計算形前景品質推定器によって受信され得、次いで、計算形前景品質推定器は、本明細書で説明される方法と手順とを使用して音声信号の前景品質を算出し得る。前景品質は、前景ひずみに対応する修正音声信号の品質を示すメトリックであり、ITU標準P.835のS−MOSスコアに相当し得る。背景ひずみは、計算形背景品質推定器によって受信され得、次いで、計算形背景品質推定器は、本明細書で説明される方法と手順とを使用して音声信号の背景品質を算出し得る。背景品質は、背景ひずみに対応する修正音声信号の品質を示すメトリックであり、ITU P.835のN−MOSスコアに相当し得る。
[0097] 電子デバイスは、前景品質および背景品質に基づいて全体品質を推定し得る410。例えば、電子デバイスは、本明細書で開示される方法と手順とを使用して修正音声信号の全体品質を推定するメトリックを生成し得る。この全体品質は、前景品質および背景品質に基づく客観的な測定であり得る。この全体品質は、また、音声品質の主観的な測定を近似し得る。例えば、全体品質は、主観的な聞き手の平均オピニオン評点(MOS)を近似し得る。例えば、全体品質は、国際電気通信連合(ITU)標準P.800、並びに/またはP.835および/もしくはP.806によって取り上げられる主観的な測定を近似し得る。
[0098] いくつかの構成では、全体品質を推定することが、さらに複数の客観的ひずみに直接基づき得る。例えば、電子デバイスは、前景品質および背景品質に加えて、(例えば、前景品質および背景品質を介して複数の客観的ひずみに間接的にのみ基づくのではなく)複数の客観的ひずみに直接基づいて全体品質を推定し得る。言い換えれば、全体品質は、前景品質、背景品質、粗さスコア、不連続性スコア、鈍さスコア、薄さスコア、ヒッシングスコアおよび変動性スコアに基づき得る。言い換えれば、全体品質が前景品質、背景品質、粗さスコア、不連続性スコア、鈍さスコア、薄さスコア、ヒッシングスコアおよび変動性スコアに基づく場合、全体品質はこれらの相異なるファクタ次第であり得る。
[0099] 全体品質は、1つまたは複数の方法で適用され得る。例えば、全体品質は、エンコーダ、エンコーダ/デコーダ(例えば、コーデック)および/または雑音抑圧器(例えば、雑音抑圧アルゴリズム)の品質を評価するために利用され得る。いくつかの構成では、全体品質が通信システム(例えば、セルラーフォンのネットワーク)のためのネットワークおよび/またはデバイスの設定を自動的に調整して音声品質を改善するために利用され得る。全体品質は、エンコーダ、エンコーダ/デコーダ(例えば、コーデック)および/または雑音抑圧器(例えば、雑音抑圧アルゴリズム)を設計するために利用され得る。例えば、全体品質は、復号、符号化および雑音抑圧を比較するために、いくつかの動作パラメータをテストするために使用され得る。
[00100] 本明細書で開示されるシステムおよび方法は、主観的な測定を近似する全体品質の客観的な測定を提供し得る。本明細書で開示されるシステムおよび方法の利点のうちのいくつかは、コスト削減を含む。例えば、全体品質は、より迅速に、また人間の聞き手を伴わずに推定され得る。さらに、本明細書の全体品質推定は反復可能であり得るが、主観的方法は一貫した結果を提供しないことがある。本明細書で開示されるシステムおよび方法に従って決定される全体品質推定は、複数の客観的ひずみ(例えば、音声品質の複数の次元)に基づき得るが、他の客観的な手法は1次元的である。従って、本明細書で開示されるシステムおよび方法による全体品質推定は、他の客観的な手法(例えば、ITU標準P.863(P.OLQA))よりも正確に主観的な測定(例えば、MOS)を近似し得る。
[00101] (図4に関して説明したように)音声信号品質を測定することは、階層構造に従って行われ得る。階層構造は、複数の階層レベルを含み得、その場合、各階層レベルは、任意の各相対的に低い階層レベルに依存する。例えば、複数の階層レベルは3つのレベルを含み得る。第1の階層レベル(例えば、最低の階層レベル)は、複数の客観的ひずみを推定することを含み得る。第2の階層レベルは、前景品質と背景品質とを推定することを含み得る。第3の階層レベル(例えば、最高の階層レベル)は、全体品質を推定することを含み得る。従って、第2の階層レベルは第1の階層レベルに基づき得、第3の階層レベルは第2の階層レベルおよび(少なくとも間接的に)第1の階層レベルに基づき得る。従って、前景品質および背景品質は、複数の客観的ひずみに基づいて推定され、全体品質は、前景品質および背景品質に基づいて推定される。
[00102] 本明細書で開示されるシステムおよび方法に従って複数の階層レベルを使用することは、音声信号の伝送を伴う問題を診断および解決するための能力の改善をもたらし得る。例えば、音声信号品質が許容できる場合、全体品質は提供され、全体品質は検証するべきデータの単一の点である。しかしながら、音声信号品質が許容できない場合、音声信号は、前景品質データと背景品質データとを使用してさらに分析され得る。背景品質データが、背景品質が許容できないことを示す場合、直ちに前景品質に対応する4つの複数の客観的ひずみが除外される。音声信号は、次いで、背景品質に対応する複数の客観的ひずみを使用して、さらに分析され得る。
[00103] 本明細書で開示されるシステムおよび方法によって提供されるような、音声信号品質を測定すること(および/またはそこに含まれる1つまたは複数の手順)が、性質において予言的であり得ることに留意されたい。例えば、全体品質を「推定すること」は、主観的な受聴テストが実際に行われたとしたら主観的な品質測定(例えば、MOS)がどうであったはずかを、予測することを含み得る。しかしながら、本明細書で開示されるシステムおよび方法によれば、受聴テストが必要でないことにも留意されたい。言い換えれば、本明細書で開示されるシステムおよび方法は、客観的な結果を比較するべき主観的な受聴テストを伴わずに行われ得る。
[00104] 図5は、音声信号品質を測定するために構成される電子デバイス556の一構成を示すブロック図である。電子デバイスは、図4に関して説明した方法400の手順のうちの1つまたは複数を行い得るはずである。電子デバイス556は、オプションの計算形前景品質推定器540およびオプションの計算形背景品質推定器542と結合された計算形ひずみ推定器526、および/または計算形全体品質推定器552を含む。ハードウェアが結合される場合、構成要素は、直接的または間接的のいずれかで接続される。例えば、第1の構成要素が第2の構成要素に結合される場合、構成要素が直接のリンクを有し得るか、またはリンク中に介在する構成要素が存在し得るかのどちらかである。電子デバイス556および/またはその1つまたは複数の構成要素は、ハードウェア(例えば、回路)、ソフトウェア、または両方の組合せで実装され得る。電子デバイス556の例は、モバイルデバイス(例えば、スマートフォン、セルラーフォン、タブレットデバイス、ラップトップコンピュータなど)、サーバ(例えば、ネットワークデバイスに含まれるサーバ)およびソフトフォンデバイス(例えば、Skype、FaceTimeなど)を含む。
[00105] 電子デバイス556(および/または、例えば、計算形ひずみ推定器526)は、修正された単一チャネル音声信号524を取得し得る。いくつかの実装形態および/またはシナリオでは、電子デバイス556が、元の音声信号512を追加的に取得し得る。他の実装形態および/またはシナリオでは、電子デバイス556が、元の音声信号512を取得しないことがある。これは、図4に関して上で説明したように達成され得る。
[00106] 計算形ひずみ推定器526は、修正された単一チャネル音声信号524に基づいて(および/または、オプションで元の音声信号512に基づいて)、複数の客観的ひずみを推定し得る。聞き手はひずみを主観的に評価しないので、ひずみは客観的である。いくつかの実装形態および/またはシナリオでは(例えば、非嵌入的な手法では)、計算形ひずみ推定器526は、元の音声信号512を伴わずに複数の客観的ひずみを推定し得る。これは、図4に関して上で説明したように達成され得る。例えば、計算形ひずみ推定器526は、修正された単一チャネル音声信号524および/または元の音声信号512に基づいて、粗さ528、不連続性530、鈍さ532、薄さ534、ヒッシング536および/または変動性538を推定し得る。計算形ひずみ推定器526は、客観的ひずみ推定を行うための計算形アルゴリズムを利用し得る。主観的な人間の聞き手がひずみ推定を決定しないので、これは「客観的」であり得る。
[00107] いくつかの構成では、複数の客観的ひずみのうちの1つまたは複数が、計算形前景品質推定器540に供給され得る。これは、図4に関して上で説明したように達成され得る。例えば、粗さ528、不連続性530、鈍さ532および薄さ534のひずみは、計算形前景品質推定器540に供給され得る。計算形前景品質推定器540は、複数の客観的ひずみ(例えば、粗さ528、不連続性530、鈍さ532および薄さ534のひずみ)に基づいて、前景品質550を推定し得る。前景品質550は、計算形全体品質推定器552に供給され得る。
[00108] いくつかの構成では、複数の客観的ひずみのうちの1つまたは複数が、計算形背景品質推定器542に供給され得る。これは、図4に関して上で説明したように達成され得る。例えば、ヒッシング536および変動性538のひずみは、計算形背景品質推定器542に供給され得る。計算形背景品質推定器542は、複数の客観的ひずみ(例えば、ヒッシング536および変動性538のひずみ)に基づいて、背景品質548を推定し得る。背景品質548は、計算形全体品質推定器552に供給され得る。
[00109] 計算形全体品質推定器552は、前景品質550および背景品質548に基づいて、全体品質554を推定し得る。これは、図4に関して上で説明したように達成され得る。例えば、計算形全体品質推定器552は、前景品質550および背景品質548に基づいて、全体品質554を推定し得る。別の例では、計算形全体品質推定器552が、前景品質550および背景品質548に加えて、粗さ528、不連続性530、鈍さ532、薄さ534、ヒッシング536および/または変動性538のひずみに直接基づいて、全体品質554を推定し得る。電子デバイス556が、図4に関して説明したような階層構造に従って音声信号品質を測定し得ることに留意されたい。
[00110] 図6は、本明細書で開示されるシステムおよび方法に従って実施され得る階層構造600の一例を示すブロック図である。図6に示す階層構造600は、嵌入的な手法の一例である。いくつかの構成では、特徴が、元の音声信号612および修正音声信号624から抽出され得る656。例えば、元の音声信号612および修正音声624の信号は、人間の蝸牛をモデル化する蝸牛モデラに供給され得る。蝸牛モデルは、人間の蝸牛の聴覚処理における影響を近似するために、元の音声信号612と修正音声信号624とを修正する。
[00111] この階層構造600において、複数の客観的ひずみは、元の音声信号612(例えば、蝸牛モデル化された元の音声信号)および修正音声信号624(例えば、蝸牛モデル化された修正音声信号)に基づいて推定され得る。1つの例では、ひずみが、粗さ628、不連続性630、鈍さ632、薄さ634、ヒッシング636および/または変動性638のひずみを含み得る。上で説明したように、粗さ628のひずみは、「ラフ」および「ハーシュ」デスクリプタに対応し得る。粗さ628のひずみは、粗さモジュール658によって決定され得る。不連続性630のひずみは、「フラッタリング」および「ディスコンティニュアス」デスクリプタに対応し得る。不連続性630のひずみは、不連続性モジュール660によって決定され得る。鈍さ632のひずみは、「ダル」および「マフルド」デスクリプタに対応し得る。鈍さ632のひずみは、鈍さモジュール662によって決定され得る。薄さ634のひずみは、「ディスタント」および「シン」デスクリプタに対応し得る。薄さ634のひずみは、薄さモジュール664によって決定され得る。ヒッシング636のひずみは、「ヒッシング」、「ラッシング」および「ローリング」デスクリプタに対応し得る。ヒッシング636のひずみは、ヒッシングモジュール666によって決定され得る。変動性638のひずみは、「バブリング」、「インターミッテント」および「バリアブル」デスクリプタに対応し得る。変動性638のひずみは、変動性モジュール668によって決定され得る。
[00112] 粗さ628、不連続性630、鈍さ632および薄さ634のひずみは、前景ひずみとして分類され得る。ヒッシング636および変動性638のひずみは、背景ひずみとして分類され得る。上で説明したように、前景品質650は、粗さ628、不連続性630、鈍さ632および薄さ634のひずみに基づいて、オプションで推定され得る。さらに、背景品質648は、ヒッシング636および変動性638のひずみに基づいて、オプションで推定され得る。
[00113] 構造に示すように、全体品質654は、前景品質650および背景品質648に直接基づき得る。オプションで、全体品質654は、前景品質650および背景品質648に加えて、複数の客観的ひずみに直接基づき得る。
[00114] 個別のひずみの客観的なスコアは、2つの全体スコア、すなわち、前景品質650に対する一方および背景品質648に対する他方に合成され得る。例えば、前景品質650は、信号品質(SIG、SGN)が表され得、背景品質648は、背景品質436(BGN)として表され得る。
[00115] 前景品質650および背景品質648のスコアは、1つの最終の全体品質654のスコアに合成され得る。全体品質654は、全体品質654(MOS)として表され得る。いくつかの考えられる合成手法は、(それだけには限らないが)線形回帰(linear regression)(例えば、MOS=b2*SIG+b1*BGN+b0)または非線形回帰(non-linear regression)(例えば、MOS=b4*SGN2+b3*SGN+b2*BGN2+b1*BGN+b0)として与えられる。
[00116] 本明細書で開示されるシステムおよび方法は、テスト対象の各音声信号に対して3つのレベルの客観的なスコアを提供し得、そうしたスコアは、高周波数ひずみおよび背景雑音のレベルなどの音声品質ひずみのより多くの詳細を提供し得る。さらに、本明細書で開示されるシステムおよび方法は、アルゴリズムの開発をより簡単にし得る。例えば、開発者は、いくつかのタイプの属性/ひずみに集中することができ、従って、調査するべきファクタの範囲を低減できる。本明細書で開示されるシステムおよび方法は、また、全体品質654の予測の改善された精度を提供し得る。いくつかの個別のスコアから合成される場合、例えば、全体品質654の予測は、単一のスコアに直接基づいてそれを予測するよりも正確であり得る。
[00117] 階層構造600は、モバイルデバイス、移動局、加入者局、クライアント、クライアント局、ユーザ機器(UE)、遠隔局、アクセス端末、モバイル端末、端末、ユーザ端末、加入者ユニットなどとも呼ばれるワイヤレス通信デバイスなどの、電子デバイス556によって実施され得る。電子デバイス556の他の例は、ラップトップコンピュータまたはデスクトップコンピュータ、セルラーフォン、スマートフォン、ワイヤレスモデム、電子リーダー、タブレットデバイス、ゲームシステムなどを含む。さらに、本システムおよび方法は、適応雑音消去などを行う基地局、電子デバイス556で使用され得る。
[00118] 階層構造600によって決定される全体品質654は、音声の所与の部分に対する人間の主観的なスコアをシミュレートし得る。言い換えれば、階層構造600は、人間の聞き手140a〜cがリアルタイムに主観的なスコアを提示することを必要とする代わりに、訓練されたデータに基づいて全体品質654を決定し得る。これを行うために、階層構造600は、相異なるひずみを分離するために、修正音声信号または元の音声信号612からの特徴656の抽出を使用し得る。特徴は、複数の客観的ひずみの次元の各々に対して、予測スコアを決定するために使用され得る。
[00119] 図7は、本明細書で開示されるシステムおよび方法に従って実施され得る階層構造700の別の例を示すブロック図である。図7に示す階層構造700は、非嵌入的な手法の一例である。この例で説明される要素は、図6に関して説明したような対応する要素と類似であり得る。但し、この例では、修正音声信号724に基づいて(例えば、元の音声信号612を伴わずに)特徴が抽出され得、ひずみが決定され得る。
[00120] この階層構造700において、複数の客観的ひずみは、修正音声信号724(例えば、蝸牛モデル化された修正音声信号)に基づいて推定され得る。1つの例では、ひずみが、粗さ728、不連続性730、鈍さ732、薄さ734、ヒッシング736および/または変動性738のひずみを含み得る。上で説明したように、粗さ728のひずみは、「ラフ」および「ハーシュ」デスクリプタに対応し得る。粗さ728のひずみは、粗さモジュール758によって決定され得る。不連続性730のひずみは、「フラッタリング」および「ディスコンティニュアス」デスクリプタに対応し得る。不連続性730のひずみは、不連続性モジュール760によって決定され得る。鈍さ732のひずみは、「ダル」および「マフルド」デスクリプタに対応し得る。鈍さ732のひずみは、鈍さモジュール762によって決定され得る。薄さ734のひずみは、「ディスタント」および「シン」デスクリプタに対応し得る。薄さ734のひずみは、薄さモジュール764によって決定され得る。ヒッシング736のひずみは、「ヒッシング」、「ラッシング」および「ローリング」デスクリプタに対応し得る。ヒッシング736のひずみは、ヒッシングモジュール766によって決定され得る。変動性738のひずみは、「バブリング」、「インターミッテント」および「バリアブル」デスクリプタに対応し得る。変動性738のひずみは、変動性モジュール768によって決定され得る。
[00121] 粗さ728、不連続性730、鈍さ732および薄さ734のひずみは、前景ひずみとして分類され得る。ヒッシング736および変動性738のひずみは、背景ひずみとして分類され得る。上で説明したように、前景品質750は、粗さ728、不連続性730、鈍さ732および薄さ734のひずみに基づいて、オプションで推定され得る。さらに、背景品質748は、ヒッシング736および変動性738のひずみに基づいて、オプションで推定され得る。
[00122] 構造に示すように、全体品質754は、前景品質750および背景品質748に直接基づき得る。オプションで、全体品質754は、前景品質750および背景品質748に加えて、複数の客観的ひずみに直接基づき得る。
[00123] 個別のひずみの客観的なスコアは、2つの全体スコア、すなわち、前景品質750に対する一方および背景品質748に対する他方に合成され得る。例えば、前景品質750は、信号品質(SIG、SGN)が表され得、背景品質748は、背景品質436(BGN)として表され得る。
[00124] 前景品質750および背景品質748のスコアは、1つの最終の全体品質754のスコアに合成され得る。全体品質754は、全体品質754(MOS)として表され得る。いくつかの考えられる合成手法は、(それだけには限らないが)線形回帰(例えば、MOS=b2*SIG+b1*BGN+b0)または非線形回帰(例えば、MOS=b4*SGN2+b3*SGN+b2*BGN2+b1*BGN+b0)として与えられる。
[00125] 本明細書で開示されるシステムおよび方法は、テスト対象の各音声信号に対して3つのレベルの客観的なスコアを提供し得、そうしたスコアは、高周波数ひずみおよび背景雑音のレベルなどの音声品質ひずみのより多くの詳細を提供し得る。さらに、本明細書で開示されるシステムおよび方法は、アルゴリズムの開発をより簡単にし得る。例えば、開発者は、いくつかのタイプの属性/ひずみに集中することができ、従って、調査するべきファクタの範囲を低減できる。本明細書で開示されるシステムおよび方法は、また、全体品質754の予測の改善された精度を提供し得る。いくつかの個別のスコアから合成される場合、例えば、全体品質754の予測は、単一のスコアに直接基づいてそれを予測するよりも正確であり得る。
[00126] 階層構造700は、モバイルデバイス、移動局、加入者局、クライアント、クライアント局、ユーザ機器(UE)、遠隔局、アクセス端末、モバイル端末、端末、ユーザ端末、加入者ユニットなどとも呼ばれるワイヤレス通信デバイスなどの、電子デバイス556によって実施され得る。電子デバイス556の他の例は、ラップトップコンピュータまたはデスクトップコンピュータ、セルラーフォン、スマートフォン、ワイヤレスモデム、電子リーダー、タブレットデバイス、ゲームシステムなどを含む。さらに、本システムおよび方法は、適応雑音消去などを行う基地局、電子デバイス556で使用され得る。
[00127] 階層構造700によって決定される全体品質754は、音声の所与の部分に対する人間の主観的なスコアをシミュレートし得る。言い換えれば、階層構造700は、人間の聞き手140a〜cがリアルタイムに主観的なスコアを提示することを必要とする代わりに、訓練されたデータに基づいて全体品質754を決定し得る。これを行うために、階層構造700は、相異なるひずみを分離するために、修正音声信号または元の音声信号712からの特徴756の抽出を使用し得る。特徴は、複数の客観的ひずみの次元の各々に対して、予測スコアを決定するために使用され得る。
[00128] 図8は、抽出された特徴856aおよび1つまたは複数のトレーニング音声サンプル868に基づく、主観的な品質測定スコアの、1つの単一次元の予測のための方法800を示すブロック図である。トレーニングデータベース882は、特徴がそこから抽出される856a、1つまたは複数のトレーニング音声サンプル868を含み得る。トレーニングデータベース882は、また、1つまたは複数のトレーニング音声サンプル868に対して、対応する主観的なスコア872を含み得る。これらは、主観的な人間の聞き手の方法を使用して収集され得、すなわち、ここで、多くの人間の聞き手104a〜cは各々、1つまたは複数のトレーニング音声サンプル868を聞くように頼まれ、次いで、1つまたは複数のトレーニング音声サンプル868を1つまたは複数のカテゴリの中で格付けするように頼まれる。1つの構成では、トレーニングデータベース882が、図5に示すひずみの次元、すなわち、粗さ528、不連続性530、鈍さ532、薄さ534、ヒッシング536および変動性538の各々における、1つまたは複数のトレーニング音声サンプル868に対するスコアを含み得る。さらに、トレーニングデータベース882は、多くの異なる条件(例えば、異なるコーデック、異なるネットワーク技術、異なる変調方式など)に対する1つまたは複数のトレーニング音声サンプル868を、対応する主観的なスコア872と一緒に有し得る。
[00129] 推定重み870は、次いで、1つまたは複数のトレーニング音声サンプル868から抽出された特徴856a、および対応する主観的なスコア872に基づいて推定され得る。言い換えれば、1つまたは複数のトレーニング音声サンプル868から抽出された特徴856aに1つまたは複数のトレーニング音声サンプル868に対応する推定重み870を生成させることになる、推定重み870が決定され得る。このトレーニングは、計算形全体品質推定器540(例えば、図5に示したような)が元の音声信号512の一部分に対する全体品質554を決定する前に、オフラインで行われ得る。
[00130] 特徴に対する重み874は、次いで、1つまたは複数のテスト音声サンプル876(すなわち、全体品質554がそれに対して望まれる元の音声512または劣化した音声)から抽出された特徴856bに、例えば、線形回帰878のアルゴリズムを使用して適用され得る。1つまたは複数のテスト音声サンプル876は、テストデータベース884の中に配置され得る。1つの構成では、特徴874に対する1組の重みが、ひずみの次元、すなわち、粗さ528、不連続性530、鈍さ532、薄さ534、ヒッシング536および変動性538の各々に対するトレーニングデータから決定され得る。従って、特定の次元に対する主観的なスコアの予測880は、特定のひずみの次元に対する特徴に対する重み874を、テスト音声サンプル876の抽出された特徴856bに適用することによって決定され得る。
[00131] 図9は、図9A〜図9Cに対応する一例の複数の部分を示すブロック図である。重み996(ベクトルbとして図9Cに表される)は、トレーニング期間中に(例えば、全体品質554が決定される前にオフラインで)決定され得る。重み996は、音声の全体品質554を決定するためのランタイム中に、図9B(嵌入的または非嵌入的)に示す音声特徴992a〜nに適用され得る。詳細には、1組の重み996、bは、各ひずみの次元に対して決定され得る。
[00132] トレーニングデータベース882は、図9Aに示すようにN個の条件988a〜nに対するトレーニング音声サンプル868を含み得、各条件988a〜nは、例えば、異なるコーデック、異なるネットワーク技術、異なる変調方式などの、音声が受信された状況の異なるセットに対応する。トレーニングデータベース882は、また、N個の条件の各々についての各ひずみの次元に対する主観的なスコア986a〜nを含み得る。言い換えれば、各条件に対して、トレーニングデータベースは、各ひずみの次元に対して1つ、6個の主観的なスコア872を有し得る。一括して、特定のひずみの次元(図9Cの粗さ)にとっての全てのN個の条件に対する主観的なスコアは、Sと呼ばれ得る。
[00133] 特徴行列(feature matrix)994の中の各特徴ベクトル(例えば、FMの中の各列)は、特定の条件988a〜nに対して、すなわち、蝸牛モデル出力990a〜nの選択されたセクションの分析シリアルを介した嵌入的または非嵌入的特徴抽出(intrusive or non-intrusive feature extraction)を使用して、決定され得る。特徴ベクトルは、特徴行列994、FMの中に配置される。従って、N個の条件988a〜nが使用される場合、特徴ベクトルはN個の列を有し得る。特に、この例ではFM994は54×N行列であるが、データの固有のサイズ(specific sizes)は変化し得る。
[00134] 重み996は、次いで、特徴行列994、FM、および知られている主観的なスコア986a〜n、Sに基づいて推定され得る。言い換えれば、特徴行列986、FMにN個の条件988a〜nに対応する主観的なスコア986a〜n、Sを生成させることになる、重み996、bが決定され得る。従って、図9Cに示すような重み996、bは、式(1)を満たすように算出され、
[00135] ここで、FMはトレーニング音声のN個の条件988a〜nに対して決定された特徴行列994であり、bは特定のひずみの次元に対する所望の重み996であり、Sは特定のひずみの次元に対する主観的なスコア986a〜nのベクトルである。従って、重み996は、式(2)に従って算出され得、
[00136] ここで、FM-1は逆の特徴行列994である。重みセット996、bは、各ひずみの次元に対して決定され得、各ひずみの次元、すなわち、粗さ528、不連続性530、鈍さ532、薄さ534、ヒッシング536および変動性538に対する予測スコアの将来の予測のために保存され得る。式(2)が理論的解法であることに留意されたい。実際には、FM*bを最良にSと一致させる「b」を見つけるための他の方法、例えば、多重線形回帰が存在し得る。
[00137] 計算形全体品質推定器552(例えば、図5に示すような)が元の音声信号512の一部分に対する全体品質554を決定する前に、このトレーニングはオフラインで行われ得るけれども、重み996は、次いで、全体品質554がそれに対して望まれるテスト音声サンプル876から抽出された特徴に適用され得る。
[00138] 図10は、音声信号品質を測定するために実施され得る階層構造1000の一例を示す流れ図である。階層構造1000は、電子デバイス556によって行われ得る。電子デバイス556は、修正音声信号524の複数の客観的ひずみを推定することによって、または元の音声信号512に基づいて、第1の階層構造レベルを行い得る1002。例えば、客観的ひずみは、修正音声信号524のひずみを表す1つまたは複数のメトリックであり得る。複数の客観的ひずみは、音声品質の独立した次元を表し得る。例えば、複数の客観的な音声ひずみは、粗さ528、不連続性530、鈍さ532、薄さ534、ヒッシング536、および変動性538であり得る。
[00139] 電子デバイス556は、次いで、前景品質550と背景品質548とを推定することによって、第2の階層構造レベルを行い得る1004。前景品質550および背景品質548は、第1の階層構造レベルで推定された複数の客観的ひずみに基づき得る。言い換えれば、第2の階層構造レベルは、第1の階層構造レベルの前に行われることはない。前景品質550は、前景品質推定器540によって推定され得、背景品質548は、背景品質推定器542によって推定され得る。
[00140] 前景品質550は、客観的ひずみのうちの1つまたは複数に基づくことができる。例えば、粗さ528、不連続性530、鈍さ532および薄さ534は、前景客観的ひずみであり得る。前景品質550は、鈍さ532および薄さ534のみを、または前景客観的ひずみの任意の他の可能な組合せを使用して決定され得る。背景品質548は、客観的ひずみのうちの1つまたは複数に基づくことができる。背景客観的ひずみは、ヒッシング536および変動性538であり得る。背景品質548は、ヒッシング536と変動性538の両方を、またはヒッシング536もしくは変動性538のみを使用して見つけられ得る。本明細書で開示されるシステムおよび方法は、客観的ひずみの任意の組合せを使用し得る。客観的ひずみは、粗さ528、不連続性530、鈍さ532、薄さ534、ヒッシング536または変動性538だけでなくそれ以上を含み得る。
[00141] 電子デバイス556は、次いで、音声信号の全体品質554を推定することによって、第3の階層構造レベルを行い得る1006。音声信号の全体品質554は、前景品質550、背景品質548に基づき得、オプションで複数の客観的ひずみに直接基づき得る。言い換えれば、第3の階層構造レベルは、第1の階層構造レベルまたは第2の階層構造レベルの前に行われることはない。客観的ひずみは、全体品質554を決定するために、前景品質550および背景品質548を通じて間接的に使用され得る。さらに、客観的ひずみは、前景品質550および背景品質548に加えて、全体品質554を決定するために直接使用され得る。全体品質554は、音声品質の主観的な測定を近似し得る。
[00142] 図11は、音声信号品質を測定するために構成される、ネットワークデバイス1101および2つの電子デバイス1156a〜bの一構成を示すブロック図である。ネットワークデバイス1101は、音声評価器1198bと、適応モジュール1103bと、フィードバックモジュール1105bとを含み得る。ネットワークデバイス1101は、ワイヤレスルータ、サーバ、基地局、セル電話タワーまたはコンピュータシステムであり得る。音声評価器1198bは、本明細書で開示される方法を行うために使用され得る。音声評価器1198bは、計算形ひずみ推定器526と、計算形前景品質推定器540と、計算形背景品質推定器542と、計算形全体品質推定器552とを含み得る。ネットワークデバイス1101は、1つまたは複数の音声信号1107a〜bを1つまたは複数の電子デバイス1156a〜bから取得し得る。音声信号1107a〜bは、修正音声信号524、元の音声512の信号、または修正音声信号524と元の音声信号512の両方であり得る。ネットワークデバイス1101は、音声信号1107a〜bで見つけられる複数の客観的ひずみを決定するために、音声評価器1198bを使用し得る。複数の客観的ひずみは、音声信号1107a〜bの前景品質550と背景品質548とを決定するために使用され得る。次いで、音声信号1107a〜bの全体品質554は、前景品質550と背景品質548とを使用して決定され得る。
[00143] 音声信号1107a〜bの全体品質554に応じて、処理構造に変更が加えられる必要があることを、ネットワークデバイス1101は決定し得る。変更は、適応モジュール1103bによって加えられ得る。例えば、適応モジュール1103bは、ネットワークデバイス1101によってなされる符号化、復号またはトランスコーディングを修正することができ得る。適応モジュール1103bは、また、音声信号1107a〜bに対して割り当てられた帯域幅を変更すること、またはネットワークデバイス1101のビットレートを変更することができ得る。別の例では、電子デバイス1156a〜bが、音声信号1107a〜bをネットワークデバイス1101へ送り得る。ネットワークデバイス1101は、同じ音声信号1107a〜bを別の電子デバイス1156a〜bへ送り得、その後、音声評価器1198bは、ネットワークデバイス1101が音声信号1107a〜bを受信したときの音声信号1107a〜bの全体品質554と、ネットワークデバイス1101がそれを他の電子デバイス1156a〜bへ送ったときの音声信号1107a〜bの全体品質554とを決定し得る。送られた音声信号1107a〜bの全体品質554が低すぎる場合、ネットワークデバイス1101は、ネットワークデバイス1101によって行われ劣化を引き起こした可能性のある符号化を決定するために、音声評価器1198bを使用し得る。ネットワークデバイス1101は、次いで、符号化方法を、音声信号1107a〜bにより良く行うものへ変更するために、適応モジュール1103bを使用し得る。この例では適応モジュール1103bはこれらの変更のみを加えることができ得るが、他の構成では適応モジュール1103bが加え得る固有の変更は変化し得る。
[00144] ネットワークデバイス1101が1つまたは複数の電子デバイス1156a〜bに接続されている間に、ネットワークデバイス1101は変更を加え得る。ネットワークデバイス1101は、また、より広範な変更が加えられる必要があり得ることを決定し得、電子デバイス1156a〜bがネットワークデバイス1101に接続されていない間に、これらの変更をオフラインで加え得る。ネットワークデバイス1101は、また、音声信号1107a〜bの全体品質554のスコアを、フィードバックモジュール1105bに記憶し得る。ネットワークデバイス1101に保守または保全が行われているとき、フィードバックモジュール1105bは、音声信号1107a〜bの全体品質554のスコアを提供し得る。全体品質554の記憶されているスコアを使用する場合、いくつかの変更が保守および保全の間にハードウェアに加えられ得る。例えば、音声信号1107a〜bの全体品質554が低すぎるとセル電話タワーにおいて一貫して決定される場合、セル電話タワーのハードウェアは、より新しいハードウェアを用いて更新または置換され得る。
[00145] フィードバックモジュール1105bは、また、ネットワークデバイス1101に接続されている1つまたは複数の電子デバイス1156a〜bにフィードバックを提供し得る。フィードバックは、ネットワークデバイス1101がそれらを受信したときの音声信号1107a〜bに対する全体品質554のスコアを含み得、ネットワークデバイス1101がそれらを別の電子デバイス1156a〜bへ送ったときの音声信号1107a〜bに対する全体品質554のスコアも含み得る。フィードバックは、ネットワークデバイス1101が音声信号1107a〜bの音声信号の劣化の原因でないかもしれないことを示し得る。1つまたは複数の電子デバイス1156a〜bに提供されるフィードバックは、また、電子デバイス1156a〜bから当初送信されたときの音声信号の全体品質554が低かったことを示し得、場合によっては、ネットワークデバイス1101が信号の劣化の原因でないかもしれないことを示し得る。フィードバックは、電子デバイス1156a〜bが送信された音声信号1107a〜bの全体品質554を改善できる方法を示し得る。例えば、フィードバックは、電子デバイス1156a〜bによって行われた音声信号1107a〜bの圧縮が適切に機能していないことを示し得る。
[00146] 電子デバイス1156aは、音声評価器1198aと、適応モジュール1103aと、フィードバックモジュール1105aとを含み得る。音声評価器1198aは、本明細書で開示される方法を行うために使用され得る。電子デバイス1156aは、ネットワークデバイス1101への音声信号1107aを取得または送信し得る。音声信号1107aは、修正音声信号524、元の音声信号512、または修正音声信号524と元の音声信号512の両方であり得る。電子デバイス1156aは、音声信号1107aの複数の客観的ひずみと全体品質554とを決定するために、音声評価器1198aを使用し得る。適応モジュール1103aは、音声信号1107aの全体品質554に基づいて、電子デバイス1156aの性能を変更し得る。フィードバックモジュール1105aは、全体品質554、および電子デバイス1156aによって行われている処理のタイプについてのキャリアフィードバックを、ネットワークデバイス1101に提供し得る。従って、本明細書で開示されるシステムおよび方法は、スマートフォンおよび/または他のデバイスにおける客観的な品質の測定(および、音声品質の悪化の関連した診断)を提供し得る(例えば、ユーザおよび/またはネットワークプロバイダが彼らの音声会話の品質の「メトリック」を得ることができ得るように)。上記に類似して、品質のこれらのメトリックは、また、Skypeなどのソフトフォンの用途に含まれ得る。
[00147] 図12は、音声信号品質を測定するために構成される電子デバイス1256の一構成を示すブロック図である。電子デバイス1256は、コンピュータシステム、ゲームシステム、サーバまたはモバイルデバイスであり得る。電子デバイス1256は、また、一緒に働く1つまたは複数の電子デバイス1256であり得る。すなわち、Bluetooth(登録商標)ヘッドフォン、雑音消去ヘッドフォン、モバイルデバイスまたはスピーカ。
[00148] 電子デバイス1256は、音声評価器1298と、適応モジュール1203と、ディスプレイ1205とを含み得る。音声評価器1298は、計算形ひずみ推定器526と、計算形前景品質推定器540と、計算形背景品質推定器542と、計算形全体品質推定器552とを含み得る。音声評価器1298は、電子デバイス1256が送っているとともに受信している1つまたは複数の音声信号の、複数の客観的ひずみと、前景品質550と、背景品質548と、全体品質554とを決定するために使用され得る。例えば、電子デバイス1256は、異なるワイヤレス通信サービスプロバイダから生じた音声信号を受信しているモバイルデバイスであり得る。音声評価器1298は、電子デバイス1256によって受信されたときの音声信号の全体品質554を決定し得る。音声評価器1298は、次いで、モバイルデバイスによって受信された音声信号の全体品質554と、音声信号がワイヤレス通信サービスプロバイダのネットワーク内でネットワークデバイス1101によって最初に受信されたときの音声信号の全体品質554とを比較するために、フィードバックをネットワークデバイス1101へ送り得る。
[00149] 電子デバイス1256は、また、その性能および処理パラメータを、適応モジュール1203を使用して適応させることができ得る。適応モジュール1203は、電子デバイス1256によってなされる符号化、復号またはトランスコーディングを修正することができ得る。適応モジュール1203は、また、1つまたは複数の音声信号に対して割り当てられた帯域幅を変更すること、または電子デバイス1256のビットレートを変更することができ得る。例えば、音声信号の全体品質554が低すぎることがあり、適応モジュール1203は、電子デバイス1256がアンテナ電力を増大させるべきであると決定することがある。アンテナ電力を増大させることは、セルタワーと電子デバイス1256との間の接続を改善し得る。音声評価器1298は、全体品質554の新しいスコアが許容できると決定し得、適応モジュール1203は、増大されたアンテナ電力で継続するように電子デバイス1256に指示し得る。別の例では、電子デバイス1256が、1組の雑音消去ヘッドフォンであり得る。雑音消去ヘッドフォンは、アクティブな雑音消去を行い得、その場合、ヘッドフォンは、どんな雑音が抑圧されておりどんな雑音が許容されているかを、複数の客観的ひずみを使用して決定する。ひずみのうちの1つまたは複数が音声信号を劣化させている場合、雑音消去ヘッドフォンは、消去されている雑音と、どんな雑音が許可されているかとを適応させるために、適応モジュール1203内に配置されているアクティブな雑音抑圧を使用し得る。
[00150] 電子デバイス1256は、全体品質554のスコアを電子デバイス1256において示すために、ディスプレイ1205を使用し得る。ディスプレイ1205は、音声信号の複数の客観的ひずみのスコア、前景品質550、背景品質548または全体品質554を示し得る。この情報は、電子デバイス1256のハードウェアまたは処理パラメータに修正またはアップグレードを行うために、電子デバイス1256のオペレータによって、または保守の間に使用され得る。ディスプレイ1205上で提示される情報は、また、音声信号がネットワークデバイス1101によって受信されたときの音声信号の全体品質554を示すために使用され得る。この情報により、電子デバイス1256のオペレータは、音声信号の劣化が電子デバイス1256で発生しているのか、または音声信号の劣化がネットワークデバイス1101で発生しているのか、または音声信号はネットワークデバイス1101によって受信されたときにすでに劣化していることを、知ることができるようになり得る。
[00151] 図13は、音声信号品質を測定するために電子デバイス1256によって実施される方法1300を示す流れ図である。方法1300は、電子デバイス1256(例えば、図11および図12に関して説明した電子デバイス)によって行われ得る。電子デバイス1256の例は、モバイルデバイス(例えば、スマートフォン、セルラーフォン、タブレットデバイス、ラップトップコンピュータなど)、デスクトップコンピュータ、携帯情報端末(PDA)、機器、テレビジョン、ゲームシステムおよびサーバ(例えば、ネットワークデバイスに含まれるサーバ)を含む。電子デバイス1256は、音声信号を取得し得る1302。音声信号は、修正音声信号524、元の音声信号512、または修正音声信号524と元の音声信号512の両方であり得る。電子デバイス1256は、音声信号に基づいて複数の客観的ひずみを決定するために1304、音声評価器1298を使用し得る。すなわち、粗さ528、不連続性530、鈍さ532、薄さ534、ヒッシング536および変動性538。
[00152] 電子デバイス1256は、次いで、キャリアフィードバックをネットワークデバイス1101へ、オプションで送り得る1306。キャリアフィードバックは、複数の客観的ひずみの分析を含み得、または単に複数の客観的ひずみのスコアであり得る。キャリアフィードバックは、音声信号の品質を改善するために、電子デバイス1256、ネットワークデバイス1101、または電子デバイス1256とネットワークデバイス1101の両方のいずれかで、処理を適応させるために使用され得る。
[00153] 図14は、音声信号品質を測定するためにネットワークデバイス1101によって実施される方法1400を示す流れ図である。方法は、ネットワークデバイス1101(例えば、図11に関して説明したネットワークデバイス)によって行われ得る。ネットワークデバイス1101の例は、デスクトップコンピュータ、サーバおよびセルタワーを含む。ネットワークデバイス1101は、音声信号を取得し得る1402。音声信号は、修正音声信号524、元の音声512の信号、または修正音声信号524と元の音声信号512の両方であり得る。ネットワークデバイス1101は、音声信号に基づいて複数の客観的ひずみを決定するために1404、音声評価器1198bを使用し得る。すなわち、粗さ528、不連続性530、鈍さ532、薄さ534、ヒッシング536および変動性538。
[00154] ネットワークデバイス1101は、次いで、複数の客観的ひずみに基づいて音声信号処理の1つまたは複数の態様を適応させることを、オプションで決定し得る1406。例えば、ネットワークデバイス1101は、音声信号が最初に取得されるときにネットワークデバイス1101によって行われている復号が十分でないことを決定し得る。ネットワークデバイス1101は、次いで、ネットワークデバイス1101に接続されている電子デバイス1156a〜bに、フィードバックをオプションで提供し得る1408。フィードバックは、複数の客観的ひずみのうちの1つまたは複数を改善するためにネットワークデバイス1101が行っている適応を示し得る。電子デバイス1156a〜bは、次いで、それに従って、通信がネットワークデバイス1101と電子デバイス1156a〜bとの間で継続できるようにするための適応を行い得る。
[00155] 図15は、特徴抽出のための電子デバイス1507の一構成を示すブロック図である。電子デバイス1507は、特徴抽出モジュール1529を含み得る。電子デバイス1507および/またはその1つまたは複数の構成要素は、ハードウェア(例えば、回路)、またはハードウェアとソフトウェアとの組合せで実装され得る。追加または代替として、「モジュール」という用語は、構成要素がハードウェア(例えば、回路)、またはハードウェアとソフトウェアとの組合せで実装されることを示し得る。例えば、特徴抽出モジュール1529は、ハードウェア(例えば、回路)、またはハードウェアとソフトウェア(例えば、実行可能な命令を有するプロセッサ)との組合せで実装され得る。図のうちの1つまたは複数において図示された線または矢印は、構成要素および/またはモジュールの間の結合を表し得る。「結合」は、直接的または間接的であり得る。例えば、1つのモジュールは、直接的(いかなる介在する構成要素も伴わない)または間接的(1つまたは複数の介在する構成要素を伴う)に、別のモジュールに結合され得る。
[00156] 電子デバイス1507の例は、モバイルデバイス(例えば、スマートフォン、セルラーフォン、タブレットデバイス、ラップトップコンピュータなど)、コンピュータ(例えば、デスクトップコンピュータ)、ネットワークデバイス(例えば、基地局、ルータ、スイッチ、ゲートウェイ、サーバなど)、テレビジョン、自動車エレクトロニクス(例えば、自動車のコンソールに一体化された電子デバイス)、ゲームシステム、電子機器などを含む。いくつかの構成では、電子デバイス1507が、図5に関して説明した電子デバイス556の構成要素のうちの1つまたは複数を含み得、および/またはそうした機能のうちの1つまたは複数を行い得る。
[00157] 特徴抽出モジュール1529は、修正音声信号1511に基づいて、1つまたは複数の特徴1527を決定し得る。いくつかの構成では、1つまたは複数の特徴1527を決定することが、修正音声信号1511と元の音声信号1509の両方に基づき得る。
[00158] 電子デバイス1507は、元の音声信号1509をオプションで取得し得る。例えば、電子デバイス1507は、マイクロフォンを用いて音声信号を取り込み得、または別のデバイス(例えば、記憶デバイス、コンピュータ、電話、ヘッドセットなど)から音声信号を受信し得る。元の音声信号1509は、未加工または未処理の信号であり得る。例えば、元の音声信号1509は、修正(例えば、劣化、歪曲、符号化、圧縮、復号、処理など)されていない、音声信号の電子的に標本化されたバージョンであり得る。元の音声信号1509が取得される手法は、嵌入的な手法または方法と呼ばれ得る。例えば、嵌入的な手法は、元の音声信号1509と修正音声信号1511(例えば、処理、劣化、歪曲、向上などされていない音声信号)との間の明示的な減算を含み得る。他の手法では、元の音声信号1509が取得され得ない。これらの手法は、非嵌入的な手法または方法と呼ばれ得る。非嵌入的な手法では、例えば、元の音声信号1509が利用できないことがある(例えば、修正音声信号1511と元の音声信号1509との間の明示的な減算が存在し得ない)。例えば、本明細書で開示されるシステムおよび方法は、いくつかの実装形態および/またはシナリオで、元の音声信号1509を取得することなく利用され得る。
[00159] 嵌入的および/または非嵌入的な手法は、音声品質(例えば、ひずみ−次元)を客観的に測定するために利用され得る。特徴は、所与の用途に応じて、音声の有声および/または無音の部分に対して本明細書で説明されるように抽出され得る。例えば、特徴の2つのセットは知覚領域の中にあり得、従って、音声品質測定にとって必然的に適当であり得る。全ての特徴が本明細書で開示されるシステムおよび方法の用途にとって必要であり得るとは限らないことに留意されたい。簡単な合成プロセスがトレーニングおよび予測のために利用され得、および/または複雑なプロセスが改善のために利用され得る。説明される数多くの特徴は、幅広い音声ひずみを考慮に入れる。マッピングモデルが、抽出された特徴をいくつかのタイプのひずみスコアにマッピングするために利用され得る。1つの簡単な手法は、本明細書で説明されるように線形回帰を使用することである。より高次の回帰またはニューラルネットワークなどのより複雑なモデルは、抽出された特徴を予測スコアにマッピングするために同様に採用され得る。所与の用途に対して、トレーニング処理は、マッピングモデルのための適切なパラメータおよび/または重み付けをセットアップするために利用され得る。例えば、主観的なスコアに対して誤差が最小の予測をもたらす最適化された重み付けが実現され得る。訓練されたモデルは、次いで、ひずんだ信号に直接適用され得る(例えば、トレーニングプールの中ではなく)。例えば、訓練されたマッピングモデルには、音声品質スコアの予測を得るためにテストされるべき音声から抽出された特徴が与えられる。
[00160] 電子デバイス1507は、修正音声信号1511を取得し得る。いくつかの構成では、電子デバイス1507が、修正音声信号1511を取得するために元の音声信号1509を処理し得る。例えば、電子デバイス1507は、修正音声信号1511を取得するために元の音声信号1509を符号化(および/または、例えば、得られた符号化音声信号を復号)し得る。追加または代替として、電子デバイス1507は、修正音声信号1511を取得するために元の音声信号1509を向上させ得る。例えば、電子デバイス1507は、元の音声信号1509の雑音が注入されたバージョンに雑音抑圧を行い得る。「単一チャネル」音声信号は、音声信号を、任意の一時刻における単一サンプル(例えば、圧力の)として表し得る。例えば、単一チャネル音声信号は、情報を空間的に区別することをもたらす複数の信号を含み得ない。いくつかの構成では、例えば、修正音声信号1511が、単一のマイクロフォンで取り込まれた元の音声信号1509に基づき得る。
[00161] いくつかの構成では、電子デバイス1507が、修正音声信号1511を別のデバイス(例えば、記憶デバイス、コンピュータ、電話、ヘッドセット、エンコーダなど)から取得し得る。例えば、電子デバイス1507は、修正音声信号1511をネットワーク化された電子デバイスから受信し得る。
[00162] 修正音声信号1511は、元の音声信号1509に基づき得る。例えば、修正音声信号1511は、元の音声信号1509のひずんだバージョンであり得る。元の音声信号1509の向上、符号化、復号、トランスコーディング、送信、受信、および/または誤り訂正は、修正音声信号1511の1つまたは複数の特性が元の音声信号1509の特性と異なるように、元の音声信号1509をひずませ得る。
[00163] いくつかの構成では、修正音声信号1511および/または元の音声信号1509が、時間期間(例えば、「フレーム」)に分割され得る。例えば、修正音声信号1511の各期間は、いくつかのサンプルを時間にわたって含み得る。時間期間またはフレームは、長さが一様でもよく、または長さが異なってもよい。
[00164] 特徴抽出モジュール1529は、修正音声信号1511を取得し得る。オプションで、特徴抽出モジュール1529は、元の音声信号1509を追加的に取得し得る。特徴抽出モジュール1529は、生理学的蝸牛モデル1513、セクション分析モジュール1517、ベクトル抽出モジュール1521、および/または特徴決定モジュール1525を含み得る。いくつかの構成では、特徴抽出モジュール1529が、図5に関して説明した計算形ひずみ推定器526に含まれ得る。他の構成では、特徴抽出モジュール1529が、計算形ひずみ推定器526から別個であり得、または計算形ひずみ推定器526を含み得る。いくつかの構成では、特徴抽出モジュール1529が、図6に関して説明した特徴抽出モジュール656の一例であり得、および/または図7に関して説明した特徴抽出モジュール756の一例であり得る。
[00165] 電子デバイス1507(例えば、特徴抽出モジュール1529)は、1つまたは複数の生理学的蝸牛モデル1513を使用して、音声(例えば、修正音声信号1511および/または元の音声信号1509)を処理し得る。生理学的蝸牛モデル1513は、蝸牛の1つまたは複数の物理的な構成要素の反応をモデル化し得る。例えば、生理学的蝸牛モデル1513は、内有毛細胞(IHC:inner hair cells)、蝸牛の長さ、および/または蝸牛の流体力学をモデル化し得る。生理学的蝸牛モデル1513を使用して音声(例えば、修正音声信号1511)を処理することは、人間の聴覚系によって行われる処理をより正確に近似し得る(例えば、機能モデルと比較して)。このことは、人間の聞き手によって知覚されるように、音声信号品質をより正確に推定することの助けとなり得る。例えば、生理学的モデルを使用して修正音声信号1511を処理することは、内有毛細胞データを提供し得る。これは、例えば、機能モデルを使用して近似される基底膜データと異なる。
[00166] いくつかの構成では、生理学的蝸牛モデルが、以下の式および説明のうちの1つまたはに従って、実施され得る。グリーン関数の積分方程式(Green’s function integral equation)は、基底膜(BM)の速度にわたる積分が、あぶみ骨の粒子速度usの、階の高さH倍に等しいことを保証する(法線速度は上側壁で0である)。グリーン関数の積分方程式を解くことが、本明細書で開示されるシステムおよび方法の出発点である。グリーン関数の積分方程式は、
により与えられ、ここで、φはポテンシャルの速度であり、Vnは四角形の中への+を用いて定義される、階の速度の法線成分である。
[00167] 以下の変数のリストは、本明細書で開示される式において使用され得る。
p(x,t);2p(x,t)→蝸牛孔に関する圧力;BMを横切る圧力
x→あぶみ骨から測定される、BMに沿った位置変数
f→周波数(Hz)
ω→角振動数=2πf
ρ→水の密度
η→水の粘性
Kp(x)→BMパーティションの硬度パラメータ
Rp(x)→BMパーティションの抵抗値
mp→BMパーティションの質量
Vohc→OHC電圧
T(Vohc)→BM張力
xL→BMの長さ
yH→蝸牛階の高さ
X(f)→蝸牛のマップ関数(BM空間対周波数)
Xz(f)→第2の蝸牛のマップ関数
i→√−1
ξ(x,t)、ξ’(x,t)、ξ’’(x,t)→BMの粒子変位、速度、加速度
ζ(x,t)、ζ’(x,t)、ζ’’(x,t)→繊毛の変位、速度、加速度
f(x,t)→TMの力
us(t)、u’s(t)→あぶみ骨の粒子速度および加速度
(n+1,n,n−1)→離散時間(未来,現在,過去)
*→空間的畳み込み
L(t)→「瞬間の」ラウドネス
Im、Ip→マスカーおよびプローブの強度
[00168] 基本の蝸牛の式(basic cochlear equation)は、
により与えられ、ここでρは水の密度であり、
はBMの粒子加速度であり、*は空間的畳み込みであり、
はあぶみ骨の粒子加速度である。この式は、AllenおよびSondhiによって作り出された式と類似であるが、蓋膜(TM)の力を含むように修正されている。蓋膜の力は、
により定義される。
[00169] ここで、
はBMの粒子速度である。
[00170] 式(4)を積分することにより、BMの変位ξ(x,t)を見つけることができるようになり、あぶみ骨の加速度
が与えられる。しかしながら、最後の式が容易には解かれないので、この厳密な手法を用いて進める場合、重大な問題がある。
[00171] AllenおよびSondhiの式では、インピーダンスZtが存在しなかった(すなわち、無限)。本公式化におけるTMのインピーダンスの追加は、4次の時間項
を式(3)にもたらし、それは小さい最高次の係数を有する。そのような式は、硬い微分方程式と古典的に呼ばれ、非正則特性を有する。
[00172] pとξとの間の伝達関数(すなわち、zp(t))の次数を確立するための方法は、ラプラス変換の使用による。近似的なパーティションインピーダンス
は、繊毛のインピーダンスZc(x,f)を無視することによって得られる。上付き文字(1)は、修正された(すなわち、近似された)Ztcを示す。完全なパーティションインピーダンスを、BMの変位
の上でBMを横切る圧力−2P(x,s)に換算して書き出すと、sZp(x,s)、すなわち、
が与えられる。
[00173] このことからの結論は、繊毛のインピーダンスを除去することが、BMインピーダンスの5パーセントの変化からのみの原因となることである。従って、式の次数を2から4へ引き上げるが、式は時間方程式において本質的に2次としての役割を果たす。このことは、式の公式化において処理されなければならない極めて悪い数値特性をもたらす。
[00174] TMおよび繊毛のインピーダンスの並列ztc(x,t)は、処理するためにこの時点で近似されなければならない。相対的な大きい(すなわち、硬い)インピーダンスzc≫ztを式(4)から削除した後、最後の式に対する解が得られ得る。
式(7)において、そのzc≫ztという所見の結果として得られるZtc≡Zt||Zc≒Ztという近似。
[00175] カーネル関数F(x)は、BM加速度に作用する。また、BMの加速度に比例するBMのインピーダンスの成分が存在する。これら2つの加速度の項は、式が解かれ得る前に上のようにグループ化されなければならない。インピーダンスが2次の形式をとる場合、この再グループ化が容易になされることを理解しなければならない。一般的なケースでの進め方はそれほど明白でなく、従って、2次であり、それによって、インピーダンスの中に加速度の項を現している式(7)へ導く、BMのインピーダンス関数への近似を行うことが必要であった。
[00176] インピーダンス関数は最小位相であり、全ての最小位相関数はM(s)を示し、
の形式で書かれてもよく、ここで、
であり、ここで、R(s)は上の式をR(s)について解くことによって見つけられるM(s)/m0に対応する反射率である。インピーダンス(すなわち、M)をこの形式で書くこと、およびそれを時間領域において表すことによって、グリーンの関数方程式(3)とともに蝸牛の反応を定義するm(t)に対する再帰的な時間領域の畳み込み方程式を形成できる。最後の蝸牛の式が、カーネル関数Fを反転させるときにインピーダンスの中の加速度成分を考慮しなければならないので、この一見複雑な手法が必要である。
[00177] 拡大されたカーネルは、
により定義され、ここで、mp≒mO+g2mtであり、
となる。
[00178] 質量の項は、BMの加速度
との空間における畳み込みとして書き直される。このことにより、質量の項およびカーネルはグループ化され得る。この表現は、畳み込みの関係
に依存する。この式は容易に検証される。
[00179] 拡大されたカーネルは、インピーダンス質量の項
をカーネルに含めるために定義され得る。というのも、両方がBMの加速度
に作用するからである。この拡大は、各々が総質量の半分を有して、実数の奇数調波の対称性(real odd-harmonic symmetry)に従って、2つの特異点における2つのデルタ関数で質量を広げることを必要とする。
[00180] 拡大されたカーネルの観点から、動きのBMの式は、
となり、これはQ(x)を反転させることによって解かれ、
が与えられる。
[00181] 一旦BMの変位が式(13)の積分によって見つけられると、繊毛の変位は、繊毛の変位Θ(x,s)⇔θ(x,t)について解くことによる計算であり得、BMの変位
は、繊毛の変位の伝達関数に対してBMによって記述されるように与えられる。
または、時間領域で、
となる。
[00182] 明快のため繰り返すと、式(13)においてBMの変位ξについて解く場合にztが無視されたが、この式においてそれを無視することは必要でなく適切でもない。式(13)のケースでは、それが小さい項であり、無視することが正当化される。繊毛の式では、それが大きく、極めて重要なインピーダンスである。
[00183] 有限差分離散時間の蝸牛の式(finite difference discrete-time cochlear equation)は、
となる。
[00184] フーリエ変換によって数値的な空間的畳み込みを行うと、長さの要素dxはΔ≡L/Kとして定義され、ここで、整数Kは2のべき乗であり、Lは蝸牛の長さである。従って、基底膜の座標x=0...Lは、
となる。
[00185] 長さ4Lにわたる「奇数調波」の巡回畳み込み(“odd-harmonic” circular convolution)のための公式は、すなわち、
となる。
[00186] カーネル関数のサンプル値Qkとテスト関数のサンプル値ξkとの間の離散のケースに対して、ここで、kは空間的なインデックス(この例に関して時間インデックスnは抑圧される)を表し、
によって与えられる。
[00187] 帯域制限関数のために、サンプル値は、サンプル時間において評価される関数の簡単な値、すなわち、ξk≡ξ(xk)である。k=0(すなわち、x=0)の場合、カーネルのサンプル値F0は無限である。幸いにも、この対数特異点は積分可能である。従って、対数特異点上で積分し、Δによって除算することにより、0におけるサンプル値を定義する。
[00188] 積分は、テイラー級数において指数を展開すること、次いで、最低次の項を積分することによってなされ得、
が与えられる。
[00189] 類似の方法では、拡大されたカーネルにおける2つの非正則な質量項のサンプル値が、同様に、
として定義されなければならない。
[00190] 見いだされる定義から、
となる。
[00191] 一方、1≦k≦K−1に対して、
となる。
[00192] 奇数調波の対称性のため、Qk=Q-k=−Q2K-kである。最後に、逆カーネルQ-1は、
として計算され、ここで、Fは長さ4LのFFTである。
[00193] 流体量(fluid volume)の保存が持続しなければならないので、BMに沿った体積積分はあぶみ骨の体積速度
と等しくなければならない。この重要な数値的に制御は、最終のプログラムの中であぶみ骨入力を0に設定し(すなわち、
)、t=0における体積速度をx=L/2において1に設定し、この初期条件を伝搬させることによってテストされ得る。このテストのために、パルスがx=Lに到達するまでBMの体積速度は1のままでなければならない。
[00194] 式(16)をξn+1について解くことにより、
が与えられ、ここで、
である。
[00195] 式(26)および式(27)は、蝸牛反応の最後の数値解であり、蝸牛の再帰的な式(BMと流体との間のフィードバックループ)を表す。
[00196] 繊毛の変位は、最後に式(13)から算出され得、
となる。
[00197] または、離散時間の形式で、
となる。
[00198] 式(29)をXnについて解くと、
となる。
[00199] 共通項において再配列されると、
となり、これは検査
によって係数a≡[a1,a2]およびb≡[b,b1,b2]を定義する。係数ベクトルbが式(27)によって定義されるbnと無関係であることに留意されたい。
[00200] 最後のステップは、記載されたRabinerおよびGoldのように、インパルス不変変換(impulse invariance transformation)に基づくs空間からz平面への根変換を用いて最良に行われる。この変換は、デジタルおよびアナログのサンプル値の不変性に基づく。言い換えれば、ξn=ξ(nT)は、s領域からZ領域への間のマッピングを決定する。これらのインパルス不変係数は、より正確であり、デジタルの解法をより高い周波数(すなわち、最大周波数、ナイキストのサンプリングレートの半分にかなり近い)へ拡張する。
[00201] 2次のデジタル共振子(digital resonator)は、通常、アナログのs平面内の極spおよび零点szに関して、インパルス不変の円錐形によって定義される。
[00202] この系は、sp=σp±iwpおよびsz=σz±iwzによって決定される1対の複素共役の極および零点の角振動数を有し、減衰パラメータはRp=eσpTおよびRz=eσzTによって定義される。ナイキスト周波数は、fNyquist=1/Tによるサンプル期間Tに関係する。
[00203] これらの2組の係数a、bは、アナログ領域内で定義される補助パラメータ
を介して最良に定義される。
[00204] インパルス不変性に基づいて、デジタル共振子係数の定義を導く。
[00205] 有限差分とインパルス不変係数との間に簡単な関係が存在する。インパルス不変性に基づくa2がTの中での次数1へのテイラー展開の中で拡張される場合、それほど正確でない有限差分a2は、
という結果になる。
[00206] 係数kt、kc、mtおよびmcを見つけるために、文献から知られているwp(x)、wx(x)およびwcf(x)に関する定義から決定される以下の3つの式を解く。
[00207] 最後に同調曲線の勾配(tuning curve slope)を決定する式は、
となる。
[00208] ポアズイユの公式(Poiseuille formula)からの繊毛のパラメータは、
となる。
[00209] 最後に、TM質量の式は、
となる。
[00210] いくつかの構成では、生理学的蝸牛モデル1513が、反応データ(例えば、内有毛細胞データ)を蝸牛の長さにわたって提供し得る。例えば、いくつかの空間点(例えば、サンプル)は、生理学的蝸牛モデル1513の反応を、蝸牛の長さにわたって音声の各サンプルに対して(例えば、修正音声信号1511の各サンプルに対して)、モデル化し得る。空間点は、蝸牛の長さに沿った空間に対応し得る。蝸牛の長さに沿った空間は、特定の周波数における音に対応し得、そうした音に反応し得る。例えば、1組の空間点における最初の空間点は、近似的に20キロヘルツ(kHz)の範囲の中の音に対応し得、最後の空間点は、極めて低い周波数(例えば、12ヘルツ(Hz))における音に対応し得る。従って、生理学的蝸牛モデル1513は、各音声サンプルに対して複数の空間点を生成し得るという点において、「オーバーサンプリング」できる。いくつかの構成では、生理学的蝸牛モデル1513が、修正音声信号1511の各サンプルに対して1組の空間点を生成し得る。
[00211] 生理学的蝸牛モデル1513は、出力1515を生成し得る。出力1515は、ある長さの時間にわたって、空間点を含み得る。例えば、出力1515は、各音声サンプルに対してある長さの時間にわたって、1組の空間点を含み得る。出力1515は、セクション分析モジュール1517に供給され得る。セクション分析モジュール1517は、生理学的蝸牛モデル1513の出力1515のセクションを分析し得る。例えば、セクション分析モジュール1517は、出力1515(例えば、出力の部分)を複数のセクション1519にグループ化(例えば、分割)し得る。セクション1519の各々は、蝸牛の長さに沿った空間範囲に対応し得る。いくつかの構成では、セクション分析モジュール1517が、出力1515を4つのセクション1519にグループ化し得る。例えば、第1のセクションは1から150までの空間点を含み得、第2のセクションは151から275までの空間点を含み得、第3のセクションは276から450までの空間点を含み得、第4のセクションは451から512までの空間点を含み得る。セクションの各々は、ある長さの時間(例えば、Nサンプル)にわたって、空間点を含み得る。セクション1519の他のサイズが利用され得ることに留意されたい。
[00212] セクション1519は、ベクトル抽出モジュール1521に供給され得る。ベクトル抽出モジュール1521は、各セクション1519に対するベクトル1523を抽出し得る。詳細には、ベクトル抽出モジュール1521は、各セクション1519に対する空間ベース分析ベクトルと時間ベース分析ベクトルとを抽出し得る。「空間ベース分析ベクトル」は、空間にわたって複数の値を含むベクトルである。例えば、ベクトル抽出モジュール1521は、時間にわたってセクション1519を平均化することによって空間ベース分析ベクトルを決定し得る(例えば、空間にわたって複数の値を伴うベクトルを与える)。「時間ベース分析ベクトル」は、時間にわたって複数の値を含むベクトルである。例えば、ベクトル抽出モジュール1521は、空間にわたってセクション1519を平均化することによって時間ベース分析ベクトルを決定し得る(例えば、時間にわたって複数の値を伴うベクトルを与える)。
[00213] ベクトル1523(例えば、1つまたは複数の時間ベース分析ベクトルおよび1つまたは複数の空間ベース分析ベクトル)は、特徴決定モジュール1525に供給され得る。特徴決定モジュール1525は、1つまたは複数の特徴1527を各ベクトル1523(例えば、分析ベクトル)から決定し得る。特徴1527は、ベクトル1523の特性を定量化するメトリックであり得る。特徴1527の例は、平均値(averages)(例えば、平均値(mean))、中央値(medians)、幾何学的シフト(geometric shifts)、調和平均(harmonic means)、標準偏差(standard deviations)、非対称度(skewnesses)、分散(variances)および他を含む。特徴決定モジュール1525は、これらの種類の特徴1527のうちの1つまたは複数を、各ベクトル1523から決定し得る。いくつかの構成では、特徴決定モジュール1525が、各ベクトル1523の平均値、中央値、幾何学的シフト、調和平均、標準偏差および非対称度を決定し得る。
[00214] いくつかの構成では、電子デバイス1507が、1つまたは複数の特徴1527に基づいてひずみを推定し得る。例えば、電子デバイス1507は、1つまたは複数の特徴1527に基づいて1つまたは複数のひずみ推定するひずみ推定モジュール(図示せず)を含み得る。例えば、ひずみ推定モジュールは、ひずみを推定するために、特徴1527のうちの1つまたは複数、および1つまたは複数の重みに基づいて、回帰(例えば、線形回帰(linear regression)、多項式回帰(polynomial regression)、2次回帰(second order regression)、非線形回帰(non-linear regression)など)を行い得る。いくつかの構成では、電子デバイス1507が、本明細書で説明されるように、1つまたは複数のひずみに基づいて1つまたは複数の品質(例えば、前景品質、背景品質、全体品質など)を推定し得る。
[00215] 図16は、特徴抽出のための方法1600の一構成を示す流れ図である。電子デバイス1507は、方法1600の1つまたは複数のステップ、機能および/または手順を行い得る。
[00216] 電子デバイス1507は、1つまたは複数の生理学的蝸牛モデル1513を使用して音声(例えば、修正音声信号1511および/または元の音声信号1509)を処理し得る1602。これは、上記で説明されるように達成され得る。例えば、電子デバイス1507は、修正音声信号1511および/または元の音声信号1509に基づいて、1つまたは複数の生理学的蝸牛モデル1513の反応を決定し得る。例えば、電子デバイス1507は、音声信号(例えば、修正音声信号1511)の各サンプルに対して1組の空間点(例えば、サンプル)を決定し得る。生理学的蝸牛モデル1513の出力1515は、ある長さの時間(例えば、Nサンプル)にわたる空間点のセットを含み得る。
[00217] 電子デバイス1507は、生理学的蝸牛モデル1513の出力1515のセクションを分析し得る1604。これは、上記で説明されるように達成され得る。例えば、電子デバイス1507は、出力1515の部分を複数のセクション1519(例えば、4つのセクションまたは別の数のセクション)にグループ化(例えば、分割)し得る。セクション1519の各々は、特定のサイズを(例えば、いくつかの空間点にいくつかのN個のサンプルを掛けて)有し得る。
[00218] 電子デバイス1507は、各セクション1519に対するベクトル1523を抽出し得る1606。詳細には、電子デバイス1507は、各セクション1519に対する空間ベース分析ベクトルと時間ベース分析ベクトルとを抽出し得る。これは、上記で説明されるように達成され得る。例えば、電子デバイス1507は、空間ベース分析ベクトル1523を生成するためにセクション1519を時間にわたって平均化し得、時間ベース分析ベクトル1523を生成するためにセクション1519を空間にわたって平均化し得る。
[00219] 電子デバイス1507は、1つまたは複数の特徴1527を各ベクトル1523(例えば、分析ベクトル)から決定し得る1608。これは、上記で説明されるように達成され得る。例えば、電子デバイス1507は、各ベクトル1523の平均値、中央値、幾何学的シフト、調和平均、標準偏差および非対称度を決定し得る。
[00220] 図17は、生理学的蝸牛モデルの出力の一例を示すグラフである。詳細には、グラフは、音声の有声部分に対する生理学的蝸牛モデルの出力の一例を示す。グラフの軸は、空間(サンプル単位)1735と、時間(ミリ秒(ms)単位)1731と、内有毛細胞1733(入力音声信号の振幅)とを含む。生理学的蝸牛モデル(CM:Cochlear Model)は、知られている音響心理学的マスキングモデル(PMM:Psychoacoustic Masking Models)よりも正確である。詳細には、生理学的蝸牛モデルは、かなり高い時間−空間分解能を提供し得る。生理学的蝸牛モデルにより、人間の知覚を近似する音の測定が可能になる。このことにより、音声ひずみでの人間の知覚をより良く反映する音声品質スコアの決定が可能になり得る。CM出力の傾向は、グラフに含まれる2つの線1737a〜bによって示される。
[00221] 図17に示す例では、CM出力が3つの軸を有する。時間軸は簡単であり、ここで、全ての入力は1つの出力を有する。図17は、3900から4150ミリ秒(ms)の間の時間1731プロットを示す。サンプリングレートが8キロヘルツ(kHz)の入力音声に対して、これは実際には8ポイント/msを与える。空間1735軸は、全体で512ポイントを提供し、それらは15〜20000ヘルツ(Hz)へマッピング(非線形に)する。図17は、より良い例示のために、空間1735軸に沿って300〜400からプロットされている。IHC軸1733は、入力振幅である。
[00222] 図18は、嵌入的特徴抽出モジュール1829の一構成を示すブロック図である。嵌入的特徴抽出モジュール1829は、図15に関して説明した特徴抽出モジュール1529の一例であり得る。嵌入的特徴抽出モジュール1829は、遅延推定モジュール1837、蝸牛モデルA〜B1813a〜b、部分選択モジュール1843、セクション分析モジュール1817、ベクトル抽出モジュール1821および/または特徴決定モジュール1825を含み得る。元の音声信号1809および修正音声信号1811(例えば、元の音声信号1809の劣化したバージョン)は、特徴抽出のための入力として使用され得る。言い換えれば、嵌入的特徴抽出モジュール1829は、1つまたは複数の特徴1827を決定し得る。1つまたは複数の特徴1827は、修正音声信号1811に対する1つまたは複数のひずみ1849を推定(例えば、予測)するために使用され得る。元の音声信号1809および/または修正音声信号1811の長さは、1つのフレーム、複数のフレームまたは任意の適切な時間長(例えば、1、2、5、10秒など)であり得る。追加または代替として、元の音声信号1809および/または修正音声信号1811の長さは、音声自体(例えば、全センテンス)に基づき得る。例えば、元の音声信号および/または修正音声信号1811の長さは、(例えば、ワイヤレスネットワークのオペレータによって、および/またはユーザによって)構成可能であり得る。
[00223] 元の音声信号1809および修正音声信号1811は、遅延推定モジュール1837にオプションで供給され得る。遅延推定モジュール1837は、元の音声信号1809と修正音声信号1811との間の遅延を推定し得る。例えば、遅延推定モジュール1837は、遅延を決定するために(例えば、遅延が存在する場合)、元の音声信号1809と修正音声信号1811との間の相関を行い得る。遅延推定モジュール1837は、修正音声信号1811と元の音声信号1809とを位置合わせするために、修正音声信号1811、元の音声信号1809または両方を遅延させ得る。例えば、修正音声信号1811が元の音声信号1809に比べていくつかのサンプルだけ遅延していると遅延推定モジュール1837が推定する場合、遅延推定モジュール1837は、元の音声信号1809と修正音声信号1811とを位置合わせするために元の音声信号1809を遅延させ得る。従って、遅延推定モジュール1837は、位置合わせされた元の音声信号1839と、位置合わせされた修正音声信号1841とを提供し得、その場合、位置合わせされた元の音声信号1839および位置合わせされた修正音声信号1841は時間的に(例えば、サンプル)位置合わせされる。
[00224] 位置合わせされた元の音声信号1839は、蝸牛モデルA1813aに供給され得る。位置合わせされた修正音声信号1841は、蝸牛モデルB1813bに供給され得る。蝸牛モデルA〜B1813a〜bは、図15に関して説明した生理学的蝸牛モデル1513の例であり得る。蝸牛モデルA〜B1813a〜bは、図15に関して説明したように機能し得る。従って、蝸牛モデルA1813aは出力A1815aを生成し得、蝸牛モデルB1813bは出力B1815bを生成し得る。
[00225] 平均の人間の蝸牛は、長さが約3.5センチメートル(cm)であり、その場合、蝸牛の上の各点は相異なる周波数に反応する。例えば、最後の空間点は知覚できる近似的な最低周波数に対応し得、最初の空間点は知覚できる近似的な最高周波数に対応し得る。いくつかの構成では、蝸牛モデルA〜B1813a〜bが、蝸牛の長さをいくつかの空間点(例えば、512個の空間点またはサンプル)に離散化し得る。例えば、元の音声信号1809の各サンプルに対して、蝸牛モデルA1813aは512個の空間点を生成し得、修正音声信号1811の各サンプルに対して、蝸牛モデルB1813bは512個の空間点を生成し得る。出力A〜B1815a〜bは、サンプルの範囲(例えば、N)にわたる空間点のセットを含み得る。例えば、出力A1815aは、元の音声信号1809(例えば、位置合わせされた元の音声信号1839)に対応するN組の空間点を含み得、出力B1815bは、修正音声信号1811(例えば、位置合わせされた修正音声信号1841)に対応するN組の空間点を含み得る。
[00226] 出力A〜B1815a〜bは、部分選択モジュール1843に供給され得る。部分選択モジュール1843は、部分A〜B1845a〜b(例えば、「対象の部分」)を蝸牛モデルA〜B1813a〜bの出力A〜B1815a〜bの中から選択し得る。例えば、元の音声信号1809および修正音声信号1811の有声部分が選択され得る。例えば、音声信号の有声部分は、知覚される音声品質に著しく寄与し得る母音を含み得る。いくつかの構成では、部分選択モジュール1843が、出力A1815aおよび/または出力B1815bのエネルギーを決定し得る。部分A1845aは、出力A1815aのエネルギーが第1のしきい値以上である出力A1815aのサンプルの範囲として選択され得る。部分B1845bは、出力B1815bのエネルギーが第2のしきい値以上である出力B1815bのサンプルの範囲として選択され得る。第1および第2のしきい値は、互いに同一であってもよく、または異なってもよい。部分選択モジュール1843は、部分A〜B1845a〜bを決定するために、他のボイスアクティビティ検出(VAD)の手法またはモジュールを利用してもよい。
[00227] 出力A〜B1815a〜bまたは部分A〜B1845a〜bは、セクション分析モジュール1817に供給され得る。セクション分析モジュール1817は、図15に関して説明したセクション分析モジュール1517の一例であり得る。セクション分析モジュール1817は、蝸牛モデルA〜B1813a〜bの出力A〜B1815a〜b、または部分A〜B1845a〜bの、セクションを分析し得る。例えば、セクション分析モジュール1817は、出力A〜B1815a〜bまたは部分A〜B1845a〜bを、複数のセクションA〜B1819a〜bにグループ化(例えば、分割)し得る。いくつかの構成では、セクション分析モジュール1817が、出力A〜B1815a〜bまたは部分A〜B1845a〜bの各々を、4つのセクションA〜B1819a〜bに各々グループ化し得る。例えば、第1のセクションは1から150までの空間点を含み得、第2のセクションは151から275までの空間点を含み得、第3のセクションは276から450までの空間点を含み得、第4のセクションは451から512までの空間点を含み得る。セクションA〜B1819a〜bの各々は、ある長さの時間(例えば、Nサンプル)にわたって、空間点を含み得る。
[00228] セクションA〜B1819a〜bは、ベクトル抽出モジュール1821に供給され得る。ベクトル抽出モジュール1821は、図15に関して説明したベクトル抽出モジュール1521の一例であり得る。ベクトル抽出モジュール1821は、セクションA〜B1819a〜bに対するベクトル1823を抽出し得る。詳細には、ベクトル抽出モジュール1821は、セクションA〜B1819a〜bに対する空間ベース分析ベクトルと時間ベース分析ベクトルとを抽出し得る。
[00229] ベクトル1823(例えば、1つまたは複数の時間ベース分析ベクトルおよび1つまたは複数の空間ベース分析ベクトル)は、特徴決定モジュール1825に供給され得る。特徴決定モジュール1825は、図15に関して説明した特徴決定モジュール1525の一例であり得る。特徴決定モジュール1825は、1つまたは複数の特徴1827を各ベクトル1823(例えば、分析ベクトル)から決定し得る。例えば、特徴決定モジュール1825は、各ベクトル1823の平均値、中央値、幾何学的シフト、調和平均、標準偏差および非対称度を決定し得る。
[00230] いくつかの構成では、特徴1827が、ひずみ推定モジュール1847に供給され得る。ひずみ推定モジュール1847は、図15に関して説明したひずみ推定モジュールの一例であり得る。ひずみ推定モジュール1847は、1つまたは複数の特徴1827に基づいて、1つまたは複数のひずみ1849を推定し得る。例えば、ひずみ推定モジュール1847は、1つまたは複数の特徴1827に基づいて1つまたは複数のひずみ1849を推定する、線形回帰モジュール1851を含み得る。例えば、線形回帰モジュール1851は、1つまたは複数のひずみ1849を推定するために、特徴1827のうちの1つまたは複数および重み付け1853(例えば、1つまたは複数の重み)に基づいて、線形回帰を行い得る。重み付け1853は、本明細書で説明されるような(例えば、図8〜図9のうちの1つまたは複数に関して説明したような)トレーニングに基づいて決定され得る。いくつかの構成では、ひずみ推定モジュール1847が、ひずみ1849を推定するために、多項式回帰、2次回帰、非線形回帰などを、追加または代替として行い得る。いくつかの構成では、1つまたは複数の品質(例えば、前景品質、背景品質、全体品質など)が、本明細書で説明されるように、1つまたは複数のひずみ1849に基づいて推定され得る。
[00231] 本明細書で開示されるシステムおよび方法に関して説明した嵌入的手法のいくつかの利点は、以下のうちの1つまたは複数を含み得る。手法は、人間の知覚志向であり得る。手法は、音声品質測定において高い精度をもたらし得る。手法は、様々なタイプの音声ひずみに洞察(例えば、デスクリプション)をもたらし得る。手法は、流体力学的な蝸牛モデル出力を利用し得る(他の知られている解決策はそうし得ないが)。
[00232] 図19は、非嵌入的特徴抽出モジュール1929の一構成を示すブロック図である。例えば、図19は、知覚領域における音声およびオーディオ信号分析のための蝸牛モデルからの非嵌入的特徴抽出の手法を示す。非嵌入的特徴抽出モジュール1929は、図15に関して説明した特徴抽出モジュール1529の一例であり得る。非嵌入的特徴抽出は特徴抽出の嵌入的なモデルと類似であり得るが、元の音声(ひずんでいない)が利用できないことがある。非嵌入的特徴抽出モジュール1929は、蝸牛モデル1913、部分選択モジュール1943、セクション分析モジュール1917、ベクトル抽出モジュール1921および/または特徴決定モジュール1925を含み得る。修正音声信号1911(例えば、元の音声信号の劣化したバージョン)は、特徴抽出のための入力として使用され得る。言い換えれば、非嵌入的特徴抽出モジュール1929は、1つまたは複数の特徴1927を決定し得る。1つまたは複数の特徴1927は、修正音声信号1911に対する1つまたは複数のひずみ1949を推定(例えば、予測)するために使用され得る。元の音声信号1909および/または修正音声信号1911の長さは、1つのフレーム、複数のフレームまたは任意の適切な時間長(例えば、1、2、5、10秒など)であり得る。追加または代替として、修正音声信号1911の長さは、音声自体(例えば、全センテンス)に基づき得る。例えば、修正音声信号1911の長さは、(例えば、ワイヤレスネットワークのオペレータによって、および/またはユーザによって)構成可能であり得る。
[00233] 修正音声信号1911は、蝸牛モデル1913に供給され得る。蝸牛モデル1913は、図15に関して説明した生理学的蝸牛モデル1513の一例であり得る。蝸牛モデル1913は、図15に関して説明したように機能し得る。従って、蝸牛モデル1913は、出力1915を生成し得る。
[00234] 上で説明したように、平均の人間の蝸牛は長さが約3.5cmであり、その場合、蝸牛の上の各点は(例えば、知覚できる近似的な最低周波数から知覚できる近似的な最高周波数までにわたる)相異なる周波数に反応する。いくつかの構成では、蝸牛モデル1913が、蝸牛の長さをいくつかの空間点(例えば、512個の空間点またはサンプル)に離散化し得る。例えば、修正音声信号1911の各サンプルに対して、蝸牛モデル1913は512個の空間点を生成し得る。出力1915は、サンプルの範囲(例えば、N)にわたる空間点のセットを含み得る。例えば、出力1915は、修正音声信号1911に対応するN組の空間点を含み得る。
[00235] 出力1915は、部分選択モジュール1943に供給され得る。部分選択モジュール1943は、部分1945(例えば、「対象の部分」)を蝸牛モデル1913の出力1915の中から選択し得る。例えば、修正音声信号1911の有声部分が選択され得る(例えば、母音を含む有声部分)。いくつかの構成では、部分選択モジュール1943が、出力1915のエネルギーを決定し得る。部分1945は、出力1915のエネルギーがしきい値以上である出力1915のサンプルの範囲として選択され得る。部分選択モジュール1943は、部分1945を決定するために、他のボイスアクティビティ検出(VAD)の手法またはモジュールを利用してもよい。あるいは、無音部分が検出および/または選択されてもよい。
[00236] 出力1915または部分1945は、セクション分析モジュール1917に供給され得る。セクション分析モジュール1917は、図15に関して説明したセクション分析モジュール1517の一例であり得る。セクション分析モジュール1917は、蝸牛モデル1913の出力1915または部分1945のセクションを分析し得る。例えば、セクション分析モジュール1917は、出力1915または部分1945を複数のセクション1919にグループ化(例えば、分割)し得る。いくつかの構成では、セクション分析モジュール1917が、出力1915または部分1945を4つのセクション1919にグループ化し得る。例えば、第1のセクションは1から150までの空間点を含み得、第2のセクションは151から275までの空間点を含み得、第3のセクションは276から450までの空間点を含み得、第4のセクションは451から512までの空間点を含み得る。セクション1919の各々は、ある長さの時間(例えば、Nサンプル)にわたって、空間点を含み得る。
[00237] セクション1919の各々は、ベクトル抽出モジュール1921に供給され得る。ベクトル抽出モジュール1921は、図15に関して説明したベクトル抽出モジュール1521の一例であり得る。ベクトル抽出モジュール1921は、セクション1919の各々に対するベクトル1923を抽出し得る。詳細には、ベクトル抽出モジュール1921は、各セクション1919に対する空間ベース分析ベクトルと時間ベース分析ベクトルとを抽出し得る。
[00238] ベクトル1923(例えば、1つまたは複数の時間ベース分析ベクトルおよび1つまたは複数の空間ベース分析ベクトル)は、特徴決定モジュール1925に供給され得る。特徴決定モジュール1925は、図15に関して説明した特徴決定モジュール1525の一例であり得る。特徴決定モジュール1925は、1つまたは複数の特徴1927を各ベクトル1923(例えば、分析ベクトル)から決定し得る。例えば、特徴決定モジュール1925は、各ベクトル1923の平均値、中央値、幾何学的シフト、調和平均、標準偏差および非対称度を決定し得る。
[00239] いくつかの構成では、特徴1927が、ひずみ推定モジュール1947に供給され得る。ひずみ推定モジュール1947は、図15に関して説明したひずみ推定モジュールの一例であり得る。ひずみ推定モジュール1947は、1つまたは複数の特徴1927に基づいて、1つまたは複数のひずみ1949を推定し得る。例えば、ひずみ推定モジュール1947は、1つまたは複数の特徴1927に基づいて1つまたは複数のひずみ1949を推定する、線形回帰モジュール1951を含み得る。例えば、線形回帰モジュール1951は、1つまたは複数のひずみ1949を推定するために、特徴1927のうちの1つまたは複数および重み付け1953(例えば、1つまたは複数の重み)に基づいて、線形回帰を行い得る。重み付け1953は、本明細書で説明されるような(例えば、図8〜図9のうちの1つまたは複数に関して説明したような)トレーニングに基づいて決定され得る。いくつかの構成では、ひずみ推定モジュール1947が、ひずみ1949を推定するために、多項式回帰、2次回帰、非線形回帰などを、追加または代替として行い得る。いくつかの構成では、1つまたは複数の品質(例えば、前景品質、背景品質、全体品質など)が、本明細書で説明されるように、1つまたは複数のひずみ1949に基づいて推定され得る。
[00240] 本明細書で開示されるシステムおよび方法に関して説明した非嵌入的手法のいくつかの利点は、以下のうちの1つまたは複数を含み得る。手法は、人間の知覚志向であり得る。手法は、音声品質測定において高い精度をもたらし得る。手法は、様々なタイプの音声ひずみに洞察(例えば、デスクリプション)をもたらし得る。手法は、流体力学的な蝸牛モデル出力を利用し得る(他の知られている解決策はそうし得ないが)。非嵌入的な手法は、嵌入的な方法ほど多くの情報にアクセスし得ないことに留意されたい。従って、非嵌入的な手法は、品質測定において嵌入的な手法よりも正確でないことがある。
[00241] 図20は、セクションA〜D2019a〜dへ分割されている蝸牛モデルの出力2015の一例を示すブロック図である。この例では、蝸牛モデルが、全てのサンプル入力に対して512個の空間点(例えば、サンプル)を出力し得、その場合、512個の空間点の各々は、人間の蝸牛上の点に対応する。従って、N個のサンプルが入力される場合、蝸牛モデルは、512×N個のサンプルを出力し得る(例えば、蝸牛モデル出力2015はサイズが512×Nである)。図20に示すように、水平軸は時間2057に示される。図20に示すように、垂直軸は空間2055(例えば、周波数にマッピングされ得る、蝸牛の長さに沿った空間または位置)に示される。この例では、出力2015が、音声信号のN個のサンプルの各々に対して512個の空間点を含む。
[00242] 上で説明したように、出力2015は、より小さいセクションにグループ化または分割され得る。例えば、セクション分析モジュール(例えば、セクション分析モジュール1517、1817、1917)は、蝸牛モデルの出力2015を4つのより小さいセクションA〜D2019a〜dに分割し得る。セクションA2019aは、時間軸2057のN個のサンプルにわたって空間点1〜150を含み得る(例えば、結果としてある範囲(K1=150)の空間点が得られる)。セクションB2019bは、時間軸2057のN個のサンプルにわたって空間点151〜275を含み得る(例えば、結果としてある範囲(K2=125)の空間点が得られる)。セクションC2019cは、時間軸2057のN個のサンプルにわたって空間点276〜450を含み得る(例えば、結果としてある範囲(K3=175)の空間点が得られる)。セクションD2019dは、時間軸2057のN個のサンプルにわたって空間点451〜512を含み得る(例えば、結果としてある範囲(K4=62)の空間点が得られる)。セクション2019は特有の値とともに示されるが、任意の適切な線引き(delineation)がセクション2019を定義するために使用され得る。さらに、「セクション」および「領域」という用語は、蝸牛モデル出力の部分を参照するために互換的に使用され得る。出力2015をより小さいセクションに分割することにより、大量のデータを管理するための、および/または周波数関連の分析のための手法が可能になり得る。
[00243] 図21は、蝸牛モデル出力2115のセクション2119から空間ベース分析ベクトル2123を抽出することの一例を示すブロック図である。詳細には、図21は、元の音声に対する蝸牛モデル出力A2115aのセクションA2119a、および修正された(例えば、劣化した)音声に対する蝸牛モデル出力B2115bのセクションE2119eに基づいて、空間ベース(例えば、「タイプ1」)の分析ベクトルを抽出することの一例を示す。図21に関して説明した動作のうちの1つまたは複数は、図15に関して説明した電子デバイス1507(例えば、特徴抽出モジュール1529)によって行われ得る。
[00244] 詳細には、この例は、元の音声信号に基づく蝸牛モデルの出力A2115aを示す。出力A2115aは、セクションA〜D2119a〜dを含む。さらに、この例は、修正音声信号に基づく蝸牛モデルの出力B2115bを示す。出力B2115bは、セクションE〜H2119e〜hを含む。
[00245] セクション分析モジュールA2117aは、出力A2115aをセクションA〜D2119a〜dに分割し、セクションA2119aを平均化モジュールA2159aに供給する。言い換えれば、セクション分析モジュールA2117aは、蝸牛モデル出力A2115aのK1×N個のサンプル(例えば、セクションA2119a)を平均化モジュールA2159aに供給する。平均化モジュールA2159aは、セクションA2119aを時間にわたって平均化する。この平均値は、平均値にlog10演算を行う対数モジュールA2161aに供給される。平均値の対数(例えば、第1のログ平均)は、加算器2163に供給される。
[00246] セクション分析モジュールB2117bは、出力B2115bをセクションE〜H2119e〜hに分割し、セクションE2119eを平均化モジュールB2159bに供給する。言い換えれば、セクション分析モジュールB2117bは、蝸牛モデル出力B2115bのK1×N個のサンプル(例えば、セクションE2119e)を平均化モジュールB2159bに供給する。平均化モジュールB2159bは、セクションE2119eを時間にわたって平均化する。この平均値は、平均値にlog10演算を行う対数モジュールB2161bに供給される。平均値の対数(例えば、第2のログ平均)は、加算器2163に供給される。
[00247] 加算器は、分析ベクトル2123(例えば、「タイプ1」分析ベクトル)を生成するために、第1のログ平均と第2のログ平均との差を取る。この分析ベクトル2123(例えば、「タイプ1」分析ベクトル)は、空間ベース分析ベクトルまたは嵌入的な空間ベース分析ベクトルと呼ばれ得る。例えば、空間ベース分析ベクトル2123は、元の音声信号と修正音声信号とを利用する嵌入的な手法で決定され得る。これらの演算は出力A〜B2115a〜bの第1のセクション(セクションA2119aおよびセクションE2119e)に対して示されるが、分析ベクトル2123は、図20および図21のうちの1つまたは複数に示す4つのセクションのうちの任意および/または全てのものに対して決定され得る。本明細書において、「分析シリアル」および「分析ベクトル」という用語は、音声の特徴がそこから抽出される中間的なベクトルを参照するために互換的に使用され得る。
[00248] 図22は、蝸牛モデル出力2215のセクションA2219aから空間ベース分析ベクトル2223を抽出することの別の例を示すブロック図である。詳細には、図22は、修正された(例えば、劣化した)音声に対する蝸牛モデル出力2215のセクションA2219aに基づいて、空間ベース(例えば、「タイプ2」)の分析ベクトルを抽出することの一例を示す。類似の手法が元の音声に対する空間ベース分析ベクトルを抽出するために利用され得ることに留意されたい。図22に関して説明した動作のうちの1つまたは複数は、図15に関して説明した電子デバイス1507(例えば、特徴抽出モジュール1529)によって行われ得る。
[00249] 詳細には、この例は、修正音声信号に基づく蝸牛モデルの出力2215を示す。出力2215は、セクションA〜D2219a〜dを含む。セクション分析モジュール2217は、出力2215をセクションA〜D2219a〜dに分割し、セクションA2219aを平均化モジュール2259に供給する。言い換えれば、セクション分析モジュール2217は、蝸牛モデル出力2215のK1×N個のサンプル(例えば、セクションA2219a)を平均化モジュール2259に供給する。平均化モジュール2259は、セクションA2219aを時間にわたって平均化する。この平均値は、平均値にlog10演算を行う対数モジュール2261に供給される。平均値の対数(例えば、ログ平均)は、分析ベクトル2223(例えば、「タイプ2」分析ベクトル)である。この分析ベクトル2263(例えば、「タイプ2」分析ベクトル)は、空間ベース分析ベクトルまたは非嵌入的な空間ベース分析ベクトルと呼ばれ得る。例えば、空間ベース分析ベクトル2223は、修正音声信号を利用する(例えば、元の音声信号を利用しない)非嵌入的な手法で決定され得る。これらの演算は出力2215の第1のセクション(セクションA2219a)に対して示されるが、分析ベクトル2223は、図20および図22のうちの1つまたは複数に示す4つのセクションのうちの任意および/または全てのものに対して決定され得る。
[00250] 図23は、蝸牛モデル出力2315のセクション2319から時間ベース分析ベクトル2323を抽出することの一例を示すブロック図である。詳細には、図23は、元の音声に対する蝸牛モデル出力A2315aのセクションA2319a、および修正された(例えば、劣化した)音声に対する蝸牛モデル出力B2315bのセクションE2319eに基づいて、時間ベース(例えば、「タイプ3」)の分析ベクトルを抽出することの一例を示す。図23に関して説明した動作のうちの1つまたは複数は、図15に関して説明した電子デバイス1507(例えば、特徴抽出モジュール1529)によって行われ得る。
[00251] 詳細には、この例は、元の音声信号に基づく蝸牛モデルの出力A2315aを示す。出力A2315aは、セクションA〜D2319a〜dを含む。さらに、この例は、修正音声信号に基づく蝸牛モデルの出力B2315bを示す。出力B2315bは、セクションE〜H2319e〜hを含む。
[00252] セクション分析モジュールA2317aは、出力A2315aをセクションA〜D2319a〜dに分割し、セクションA2319aを平均化モジュールA2359aに供給する。言い換えれば、セクション分析モジュールA2317aは、蝸牛モデル出力A2315aのK1×N個のサンプル(例えば、セクションA2319a)を平均化モジュールA2359aに供給する。平均化モジュールA2359aは、セクションA2319aを空間にわたって平均化する。この平均値は、平均値にlog10演算を行う対数モジュールA2361aに供給される。平均値の対数(例えば、第1のログ平均)は、加算器2363に供給される。
[00253] セクション分析モジュールB2317bは、出力B2315bをセクションE〜H2319e〜hに分割し、セクションE2319eを平均化モジュールB2359bに供給する。言い換えれば、セクション分析モジュールB2317bは、蝸牛モデル出力B2315bのK1×N個のサンプル(例えば、セクションE2319e)を平均化モジュールB2359bに供給する。平均化モジュールB2359bは、セクションE2319eを空間(例えば、周波数に対応し得る、蝸牛に沿った空間)にわたって平均化する。この平均値は、平均値にlog10演算を行う対数モジュールB2361bに供給される。平均値の対数(例えば、第2のログ平均)は、加算器2363に供給される。
[00254] 加算器は、分析ベクトル2323(例えば、「タイプ3」分析ベクトル)を生成するために、第1のログ平均と第2のログ平均との差を取る。この分析ベクトル2323(例えば、「タイプ3」分析ベクトル)は、時間ベース分析ベクトルまたは嵌入的な時間ベース分析ベクトルと呼ばれ得る。例えば、時間ベース分析ベクトル2323は、元の音声信号と修正音声信号とを利用する嵌入的な手法で決定され得る。これらの演算は出力A〜B2315a〜bの第1のセクション(セクションA2319aおよびセクションE2319e)に対して示されるが、分析ベクトル2323は、図20および図23のうちの1つまたは複数に示す4つのセクションのうちの任意および/または全てのものに対して決定され得る。
[00255] 図24は、蝸牛モデル出力2415のセクションA2419aから時間ベース分析ベクトル2423を抽出することの別の例を示すブロック図である。詳細には、図24は、修正された(例えば、劣化した)音声に対する蝸牛モデル出力2415のセクションA2419aに基づいて、時間ベース(例えば、「タイプ4」)の分析ベクトルを抽出することの一例を示す。類似の手法が元の音声に対する時間ベース分析ベクトルを抽出するために利用され得ることに留意されたい。図24に関して説明した動作のうちの1つまたは複数は、図15に関して説明した電子デバイス1507(例えば、特徴抽出モジュール1529)によって行われ得る。
[00256] 詳細には、この例は、修正音声信号に基づく蝸牛モデルの出力2415を示す。出力2415は、セクションA〜D2419a〜dを含む。セクション分析モジュール2417は、出力2415をセクションA〜D2419a〜dに分割し、セクションA2419aを平均化モジュール2459に供給する。言い換えれば、セクション分析モジュール2417は、蝸牛モデル出力2415のK1×N個のサンプル(例えば、セクションA2419a)を平均化モジュール2459に供給する。平均化モジュール2459は、セクションA2419aを空間(例えば、周波数に対応し得る、蝸牛に沿った空間)にわたって平均化する。この平均値は、平均値にlog10演算を行う対数モジュール2461に供給される。平均値の対数(例えば、ログ平均)は、分析ベクトル2423(例えば、「タイプ4」分析ベクトル)である。この分析ベクトル2463(例えば、「タイプ4」分析ベクトル)は、時間ベース分析ベクトルまたは非嵌入的な時間ベース分析ベクトルと呼ばれ得る。例えば、時間ベース分析ベクトル2423は、修正音声信号を利用する(例えば、元の音声信号を利用しない)非嵌入的な手法で決定され得る。これらの演算は出力2415の第1のセクション(セクションA2419a)に対して示されるが、分析ベクトル2423は、図20および図24のうちの1つまたは複数に示す4つのセクションのうちの任意および/または全てのものに対して決定され得る。
[00257] 図25は、特徴決定モジュール2525の構成を示すブロック図を含む。図25に関して説明した特徴決定モジュール2525は、本明細書で説明される特徴決定モジュール1525、1825、1925のうちの1つまたは複数の一例であり得る。特徴決定モジュール2525は、特徴算出モジュール2563、肯定的モジュール2565および/または否定的モジュール2569を含み得る。いくつかの構成では、肯定的モジュール2565および否定的モジュール2569が、嵌入的な手法で実施および/または利用され得る。いくつかの構成では、肯定的モジュール2565および否定的モジュール2569が、オプションであり、および/または非嵌入的な手法で実施および/または利用され得る。
[00258] ベクトル2523aは、特徴決定モジュール2525に供給され得る。詳細には、ベクトル2523aは、特徴算出モジュール2563、肯定的モジュール2565および/または否定的モジュール2569に供給され得る。
[00259] 肯定的モジュール2565は、ベクトル2523aの肯定的部分2567を決定し得る。例えば、肯定的モジュール2565は、ベクトル2523aの中の任意の否定的な値をゼロに変更し得る。肯定的モジュール2565は、また、ベクトル2523aの中の任意の肯定的な値を変更されないままにしておき得る。
[00260] 否定的モジュール2569は、ベクトル2523aの否定的部分2571を決定し得る。例えば、否定的モジュール2569は、ベクトル2523aの中の任意の肯定的な値をゼロに変更し得る。否定的モジュール2569は、また、ベクトル2523aの中の任意の否定的な値を変更されないままにしておき得る。
[00261] ベクトル2523a、肯定的部分2567および/または否定的部分2571は、特徴算出モジュール2563に供給され得る。特徴算出モジュール2563は、ベクトル2523a、肯定的部分2567および/または否定的部分2571の各々に対して、1つまたは複数の特徴を決定(例えば、算出)し得る。例えば、特徴算出モジュール2563は、ベクトル2523a、肯定的部分2567および/または否定的部分2571の各々に対して、平均値(average)(例えば、平均値(mean))、中央値、幾何学的シフト、調和平均、標準偏差、非対称度および/または他の特徴を算出し得る。
[00262] ベクトル2523bの肯定的部分と否定的部分とを決定するための1つの手法を、図25に示す。詳細には、図25は、肯定的部分および否定的部分の決定2573の一例を提供する。ベクトル2523b(例えば、分析ベクトルまたは分析シリアル)は、n個の値またはエントリ、すなわちP1〜Pnを有し得る。肯定的部分2575(例えば、肯定的ベクトル、肯定的分析シリアル)および否定的部分2577(例えば、否定的ベクトル、否定的分析シリアル)が作り出され得る。肯定的部分2575の中の各値は、同じインデックスを有するベクトル2523bの中の対応する値に基づいて作り出され得る(例えば、肯定的部分2575の中の第1のエントリはベクトル2523bの中の第1のエントリに基づく)。例えば、ベクトル2523bの中でP1>0である場合、肯定的部分2575の中のP1はP1である。しかしながら、ベクトル2523bの中でP1<=0である場合、肯定的部分2575の中のP1は0である。反対に、ベクトル2523bの中でP<0である場合、否定的部分2577の中のP1はP1である。しかしながら、ベクトル2523bの中でP1>=0である場合、否定的部分2577の中のP1は0である。特徴(例えば、特徴2527)がそこから抽出され得る肯定的部分2575および/または否定的部分2577を埋めるために、ベクトル2523bの中の全ての値またはエントリに対して、このことがなされ得る。
[00263] 図26は、特徴決定の一例を示す。いくつかの構成では、図26に示す特徴決定が、本明細書で説明される特徴決定モジュール1525、1825、2525のうちの1つまたは複数によって行われ得る。詳細には、図26に示す特徴決定は、(例えば、嵌入的な空間ベースのベクトル(「タイプ1」)に対する、および嵌入的な時間ベースのベクトル(「タイプ3」)に対する)嵌入的な手法で行われ得る。この例では、単一の嵌入的な空間ベースベクトルまたは単一の嵌入的な時間ベースのベクトルが、18個の特徴(例えば、特徴値)、すなわち、ベクトル2623自体から6個と、分析ベクトル2623の肯定的部分2667から6個と、分析ベクトル2623の否定的部分2671から6個とを生成し得る。いくつかの構成では、特徴または特徴値の各々が、対応するモジュールによって決定(例えば、算出)され得る。例えば、各モジュールは単一の特徴または特徴値を与え得る。
[00264] いくつかの構成では、特徴決定モジュール(例えば、図25に関して説明した特徴決定モジュール2525)が、ベクトル2623の肯定的部分2667に対して、平均値A2679aと、中央値A2681aと、幾何学的シフトA2683aと、調和平均A2685aと、標準偏差A2687aと、非対称度A2689aとを決定し得る。追加または代替として、特徴決定モジュールは、ベクトル2623自体に対して、平均値B2679bと、中央値B2681bと、幾何学的シフトB2683bと、調和平均B2685bと、標準偏差B2687bと、非対称度B2689bとを決定し得る。追加または代替として、特徴決定モジュールは、ベクトル2623の否定的部分2671に対して、平均値C2679cと、中央値C2681cと、幾何学的シフトC2683cと、調和平均C2685cと、標準偏差C2687cと、非対称度C2689cとを決定し得る。
[00265] 肯定的部分2667に対して、特徴決定モジュールは、1つまたは複数の他A2691aの特徴または特徴値を決定し得る。ベクトル2623に対して、特徴決定モジュールは、追加または代替として、1つまたは複数の他B2691bの特徴または特徴値を決定し得る。否定的部分2671に対して、特徴決定モジュールは、追加または代替として、1つまたは複数の他C2691cの特徴または特徴値を決定し得る。1つまたは複数の特徴または特徴値は、特徴セットの中で一緒にグループ化され得る。例えば、平均値B2679b、中央値B2681b、幾何学的シフトB2683b、調和平均B2685b、標準偏差B2687b、および非対称度B2689bは、特徴セットにグループ化され得る。
[00266] 図27は、特徴決定の別の例を示す。いくつかの構成では、図27に示す特徴決定が、本明細書で説明される特徴決定モジュール1525、1825、1925、2525のうちの1つまたは複数によって行われ得る。詳細には、図27に示す特徴決定は、(例えば、非嵌入的な空間ベースのベクトル(「タイプ2」)に対する、および非嵌入的な時間ベースのベクトル(「タイプ4」)に対する)非嵌入的な手法で、および/または(例えば、嵌入的な空間ベースのベクトル(「タイプ1」)に対する、および嵌入的な時間ベースのベクトル(「タイプ3」)に対する)嵌入的な手法で行われ得る。この例では、単一の嵌入的な空間ベースのベクトルまたは単一の嵌入的な時間ベースのベクトルが、6個の特徴(例えば、特徴値)をベクトル2723から生成し得る。いくつかの構成では、特徴または特徴値の各々が、対応するモジュールによって決定(例えば、算出)され得る。例えば、各モジュールは単一の特徴または特徴値を与え得る。
[00267] いくつかの構成では、特徴決定モジュール(例えば、図25に関して説明した特徴決定モジュール2525)が、ベクトル2723に対して、平均値2779と、中央値2781と、幾何学的シフト2783と、調和平均2785と、標準偏差2787と、非対称度2789とを決定し得る。ベクトル2723に対して、特徴決定モジュールは、追加または代替として、1つまたは複数の他2791の特徴または特徴値を決定し得る。1つまたは複数の特徴または特徴値は、特徴セットの中で一緒にグループ化され得る。例えば、平均値2779、中央値2781、幾何学的シフト2783、調和平均2785、標準偏差2787、および非対称度2789は、特徴セットにグループ化され得る。
[00268] 図28は、本明細書で開示されるシステムおよび方法による客観的予測の一例を示す。詳細には、図28は、グラフA2893aとグラフB2893bとを含む。グラフA2893aがS−MOS予測2895スコアの垂直軸とともに示され、垂直軸は、1〜5の範囲を有し、音声信号の前景品質に対する客観的予測スコア、またはS−MOSの予測(例えば、前景スコアのSIG平均予測)を示す。グラフA2893aは、また、主観的なS−MOS2897スコアの水平軸とともに示され、水平軸は、同様に1〜5の範囲を有し、前景品質に対する知られている手法を使用する測定の一例である。グラフA2893aは、P.835のSIGスコア対知られている手法での客観的予測の散布図である。観察され得るように、知られている手法は、2.5よりも小さい主観的なスコアに対して良好に予測しない。図28〜図30において、点が対角線に近ければ近いほど、それらはより正確な予測を表す。図28〜図30のAグラフの全てが、あるデータベース(例えば、SIG(2893a)、BAK(2993a)およびOVR(3093a))に関することに留意されたい。また、図28〜図30のBグラフの全てが、別のデータベース(例えば、SIG(2893b)、BAK(2993b)およびOVR(3093b))に関することに留意されたい。
[00269] グラフB2893bが客観的なSIG2899スコアの垂直軸とともに示され、垂直軸は、1〜5の範囲を有し、音声信号の前景品質に対するITU標準P.835を使用する予測スコアである。グラフB2893bは、また、主観的なSIG2802スコアの水平軸とともに示され、水平軸は、同様に1〜5の範囲を有し、本明細書で開示されるシステムおよび方法による客観的な予測器の一例である。観察され得るように、本明細書で開示されるシステムおよび方法は、知られている手法よりも高い精度で主観的なMOSを予測し得る。
[00270] 図29は、本明細書で開示されるシステムおよび方法による客観的予測の別の例を示す。詳細には、図29は、グラフA2993aとグラフB2993bとを含む。グラフA2993aが客観的なP.835のBAK2904スコアでの垂直軸とともに示され、垂直軸は、1〜5の範囲を有し、音声信号の背景雑音に対するITU標準P.835を使用する予測スコアである。グラフA2993aは、また、主観的なN−MOS2906スコアでの水平軸とともに示され、水平軸は、同様に1〜5の範囲を有し、背景雑音に対する知られている手法を使用する測定の一例である。グラフA2993aは、P.835のBAKスコア対知られている手法での客観的予測の散布図である。観察され得るように、知られている手法は、適正に密接して対象スコアを予測する。
[00271] グラフB2993bが客観的なP.385のNMOS(BAK)2908スコアでの垂直軸とともに示され、垂直軸は、1〜5の範囲を有し、音声信号の背景雑音に対するITU標準P.835を使用する予測スコアである。グラフB2993bは、また、主観的なNMOS2910スコアでの水平軸とともに示され、水平軸は、同様に1〜5の範囲を有し、本明細書で開示されるシステムおよび方法による客観的な予測器の一例である。観察され得るように、本明細書で開示されるシステムおよび方法は、知られている手法よりもわずかに低い精度でスコアを予測し得るが、両方の結果は主観的なスコアに適正に接近している。
[00272] 図30は、本明細書で開示されるシステムおよび方法による客観的予測の別の例を示す。詳細には、図30は、グラフA3093aとグラフB3093bとを含む。グラフA3093aが客観的なOVRLのP.835 3012スコアでの垂直軸とともに示され、垂直軸は、1〜5の範囲を有し、音声信号の全体品質に対するITU標準P.835を使用する予測スコアである。グラフA3093aは、また、主観的なG−MOS3014スコアでの水平軸とともに示され、水平軸は、同様に1〜5の範囲を有し、全体品質に対する知られている手法を使用する測定の一例である。グラフA3093aは、P.835のBAKスコア対知られている手法での客観的予測の散布図である。観察され得るように、知られている手法は、適正に密接して対象スコアを予測する。
[00273] グラフB3093bが客観的なGMOS(OVR)3016スコアでの垂直軸とともに示され、垂直軸は、1〜5の範囲を有し、音声信号の全体品質に対するITU標準P.835を使用する予測スコアである。グラフBは、また、主観的なGMOS(OVR)3018スコアでの水平軸とともに示され、水平軸は、同様に1〜5の範囲を有し、本明細書で開示されるシステムおよび方法による客観的な予測器の一例である。観察され得るように、本明細書で開示されるシステムおよび方法は、知られている手法よりも高い精度でスコアを予測し得る。
[00274] P.835のスコアを予測するための本明細書で開示されるシステムおよび方法の能力のいくつかの暫定結果が、表2に与えられる。例えば、本明細書で開示されるシステムおよび方法は、P.ONRAのためのモデルに適用され得る。本明細書で説明される手法では、流体力学的な蝸牛モデルが、音声を知覚領域に変換するために使用され得る。蝸牛モデル出力、内有毛細胞(IHC)電圧は、時間軸および空間軸(例えば、基底膜に沿った距離)において本質的に音声信号の表現であり得る。従来の音響心理学的モデルに比較されるとき、表現は、より高い時間的な分解能と、より正確な空間的な精度を有する。IHC電圧のさらなる処理は、例えば、SMOS、NMOSおよびGMOSを予測するために、簡単で線形の欧州電気通信標準化機構(ETSI)のTS103 106回帰モデルを通って後で供給され得る「顕著な特徴セット」を与える。
[00275] 本明細書で提示する暫定結果において、本明細書で説明される手法は、3つの主観的なデータベース(各々60個の条件を有する)のみを用いて訓練されたが、比較における知られている手法は、7つのデータベースを用いて訓練された。例えば、本明細書で開示されるシステムおよび方法は、検証目的のためのいくつかのP.835データベースの上でテストされた。4つのデータベースが使用された。各データベースは、60個の条件と、2人の話し手と、4つのセンテンスを含んでいた。3つのデータベースがトレーニングのために使用され、1つがテストのために使用された。本明細書で説明されるように、トレーニングおよび/または予測は、特徴の線形回帰を用いて行われ得る。複雑なトレーニングモデル(例えば、ニューラルネットワーク)も本明細書で開示されるシステムおよび方法によって適用され得ることに留意されたい。例えば、トレーニングプロセスは改善され得る。表2は、知られている手法(「既知(Known)」)と比較して、本明細書で開示されるシステムおよび方法(「新規(New)」)のいくつかの暫定結果の例を提供する。「RMSE」は「2乗平均誤差」を意味する。
[00276] 表2は、1つの主観的なテストデータベースに関する予測結果を示す。同じデータベース上のTS103 106による予測(7個の主観的なデータベースを用いて再訓練されている)が、比較のために「既知」の手法としてここで記載されている。結果は、本明細書で開示されるシステムおよび方法がS−MOSとG−MOSとを予測できることにおいてより優れていることを示す。詳細な比較を図28に示す。TS103 106の性能は、主観的なS−MOSを伴う条件に対して、3未満低下している。N−MOS性能に関する詳細な比較を図29に示す。相関係数(両方とも0.99を示す)に関して差はない。G−MOSは、S−MOSおよびN−MOSから合成され得る。本明細書で開示されるシステムおよび方法は、TS103 106よりもわずかに良好な予測を提供する。主観的なスコアと客観的なスコアとの間の相関係数は、0.99対0.97である。現在のモデルは、また、より小さいRMSE(0.16対0.36)およびRMSE*(0.09対0.23)を示す。G−MOSの比較を図30に示す。
[00277] 図31は、図31A〜図31Dに対応する一例の複数の部分を示すブロック図である。図31A〜図31Dは、嵌入的特徴抽出を使用して粗さひずみを推定または予測することの一例を示すブロック図を示す。特有の数が例示のために使用され得るが、本システムおよび方法の任意の点における様々なデータの実際のサイズは変化し得る。
[00278] 図31Aに示すような元の音声信号3109および修正された(例えば、劣化した)音声信号3111(各々1000サンプル長として示される)は、蝸牛モデルに供給され得る。蝸牛モデルは、全てのサンプル入力に対して512個のサンプルを出力し得る。詳細には、出力A3115aは元の音声信号3109に対応し得、出力B3115bは修正音声信号3111に対応し得る。
[00279] 出力A〜B3115a〜bから、第1の有声部分は、4つのセクション3119a〜b(例えば、元の音声信号3109に基づく蝸牛モデルの出力A3115aに対する4つのセクション3119a、および修正音声信号3111に基づく蝸牛モデルの出力B3119bに基づく4つのセクション3119b)に分割され得る。
[00280] 1つまたは複数の分析ベクトルまたは分析シリアル(AS:analysis serials)3123は、セクション3119a〜bから決定され得る。図示したように、R1 AS1は、第1のセクションから決定され得、ここで、R1はそれが第1の有声部分の第1のセクションから決定されたという事実を指し、AS1はそれがタイプ1の分析ベクトルであるという事実を指す。R1 AS1に加えて、以下の分析ベクトル3123、すなわち、R1 AS3、R2 AS1、R2 AS3、R3 AS1、R3 AS3、R4 AS1、R4 AS3、R3 AS2、およびR3 AS4が決定され得る。これらのベクトルは、図15〜図16、図18および図21〜図24のうちの1つまたは複数に関して説明したように決定され得る。従って、選択された各セクションに対して抽出された分析ベクトル3123のタイプは、音声品質の嵌入的な測定のためのタイプを示した表3に従って決定され得る。
[00281] さらに、タイプ1の分析ベクトルが、元の音声および修正された(例えば、劣化した)音声から決定される顕著な特徴点(SFP:salient feature point)ベクトル3124を得るために抽出され得る。SFPベクトルは、時間的に集中したひずみに関係する。SFPベクトルを取得するためのプロセスは、(1)CM出力を取得し有声部分を取る、(2)有声部分の中の1つまたは複数(例えば、全ての)トラックを見つける、(3)振幅が大きい1つまたは複数のセクションを使用する、および(4)有声部分の中の1つまたは複数のトラックからSFPベクトル3124を算出する、であり得る。従って、選択されたセクションに対して特徴3127(例えば、特徴ベクトル)を決定するために、11個のベクトル(10個の分析ベクトル3123およびSFP3124)が使用され得、各々が6個または18個の特徴を生成する。SFPは、「知覚的なピッチ」と見なされ得、従来のピッチの概念と異なり得る。なぜならSFPが3次元的であり得、SFPの中の各点が、時間と空間と振幅とを有することを意味するからである。従来のピッチの概念は、知覚領域の中に振幅を有し得ない。
[00282] 詳細には、タイプ1またはタイプ3の各分析ベクトルは、18個の特徴3127を生成し得る(例えば、図25〜図26に関して説明したように)。図示したように、AS1およびAS3ベクトルは、肯定的部分(例えば、RS1 AS1肯定的)と、否定的部分(例えば、RS1 AS1否定的)とを取得するために利用され得る。
[00283] タイプ2またはタイプ4の各分析ベクトルは、6個の特徴を生成し得る(例えば、図25および図27に関して説明したように)。特徴3127は、この例では174個のエントリを有する特徴ベクトルの中に配置され得る。別の174個のエントリの特徴ベクトルを生成するために、特徴抽出の同じ処理が、元の音声および修正音声に対する蝸牛の出力の第2の部分(例えば、有声部分)で行われ得る。同じ処理が任意の適切な数の部分(例えば、有声部分)に対して反復され得、各々は最初に選択されたセクションのものと類似の特徴ベクトルを生成する。
[00284] 一旦全ての選択されたセクションに対する特徴ベクトルが決定されると、特徴3127は図31Bおよび図31Cに示すように平均化され得る。言い換えれば、特徴ベクトルの各々の中の最初のエントリ(平均値として示される)は、平均化され得る。同様に、全てのインデックスにおけるエントリは、この例では174エントリのベクトルとして示される単一の平均特徴ベクトル3120を生成するために、互いに平均化される。単一の平均特徴ベクトル3120は、(例えば、図8〜図9のうちの1つまたは複数に関して説明したように)予めトレーニング中に学習された重み付け3153によって乗算した(例えば、重みを使用して重み付けられ得る)。重み付けの後、単一の平均特徴ベクトルの中の特徴の各々は、図31Dに示すような粗さひずみ3149(例えば、予測スコア)を生成するために、合計され得る。類似の手順が他のひずみに対して続き得る。
[00285] 音声品質の客観的測定のための知られている手法は、ITU標準PESQ/P.OLQAなどの全体品質に直接取り組むことである。知られている手法では、特徴が、人間の知覚のおおまかな近似である音響心理学的なマスキングモデルまたは類似のものから抽出された。知覚的なホルマントのような特徴(Perceptual formant-like features)は、流体力学的な蝸牛モデルの出力から抽出され、時間的に局所化されたひずみの測定のために使用されてきた。
[00286] いくつかの構成では、システムおよび方法の1つまたは複数の手順が下記のように行われ得る。1つの手法では、ここで提起される新しい特徴セットは、嵌入的(劣化した音声信号と元の音声信号の両方を使用する)である。元の音声および対応する劣化した音声(位置合わせされ(aligned)水準化された(leveled)SoriおよびSdis)を仮定する。SoriおよびSdisは、(流体力学的な蝸牛モデルまたは音響心理学的モデルなどの)聴覚の計算形モデルを通過させられ得る。そのようなモデルは、CMと呼ばれ得、元の信号およびひずんだ信号に起因する出力は、CMoriおよびCMdisと呼ばれる。
[00287] 元の音声およびひずんだ音声は、流体力学的な蝸牛モデル(CM)を通過させられ得、出力は、時間領域と周波数領域の両方に沿って高い精度を有する。出力は、知覚領域の中の音声を表す。
[00288] 分析シリアル(AS)は、対象とされるセクションから抽出され得る。特徴V SF144は、分析の目的に応じて、本明細書で説明される同じアルゴリズムを用いて、音声の有声セクション(VS:voiced sections)および無音(SIL:silence)セクションから抽出され得る。K個の対象とされるセクションが存在すると仮定する。
[00289] 周波数関連の分析シリアルは、次のように記述され得る。第kの対象領域に対して、劣化したCM出力
および対応する元のCM出力
は、各々サイズがP*Tである。
[00290] 異なる知覚的モデルに対して、CMはサイズが異なり得る。以下の部分では、蝸牛モデルを使用する。いくつかの出力に対して数値が調整され得ることに留意されたい。この例におけるPは、範囲1〜512を有し、4つの領域、すなわち、(A)1〜150、(B)151〜275、(C)a276〜450および(D)450〜512に切り分けられる。従って、空間に応じて4つの異なる関数が存在する。
[00291] 別の関数が、元の音声、但し顕著な領域(領域C)の中のみについて記述される。
P1k(p)(長さNの)は、
に分離され得る。同じ手順が、
を与えるために、P2k(p)、P3k(p)、P4k(p)に適用され得る。これらは分析シリアルと呼ばれ得る。
[00292] 時間関連の分析シリアルは、次のように取得され得る。各有声セクション(VS)に対して、劣化したCM出力
および、対応する元のCM出力
が存在し、ここで、各々はサイズがP*Tである。下記が算出され得、
ここで、r1,2は、「第1の行、第2の列」(例えば、150)を意味する。より多くの領域(例えば、単に領域Cよりも)が利用され得ることに留意されたい。従って、空間に応じて4つの異なる関数が存在する。別の関数が、元の音声、但し顕著な領域(領域C)の中のみについて記述される。
T1k(t)(長さTの)は、
に分離され得る。同じ手順が、
を与えるためにT2k(p)、T3k(p)、T4k(p)に適用され得る。これらも分析シリアルと呼ばれ得る。
[00293] SFPも取得され得る。対象とされるセクションが有声セクションである場合、SFPpは、第kの有声セクションのCM出力から抽出される。いくつかの構成では、SFTが、欧州特許出願公開第2329399A4号に記載されるように取得され得る。3つのAS
がここで形成される。
[00294] ASからの特徴抽出は、次のように進み得る。各AS(例えば、
およびT3k)に対して、これらは長さがNであり、特徴は次のように抽出される
[00295]
、P1kから抽出される特徴はF1〜F18である。
、P2kから抽出される特徴はF19〜F36である。
、P3kから抽出される特徴はF37〜F54である。
、P4kから抽出される特徴はF55〜F72である。領域Cの中の元の値であるP5kに対して、6個の特徴のみ、すなわち、F73〜F78が存在する。
[00296]
、T1kから抽出される特徴はF79〜F96である。
、T2kから抽出される特徴はF97〜F114である。
、T3kから抽出される特徴はF115〜F132である。
、T4kから抽出される特徴はF133〜F150である。領域Cの中の元の値であるP5kに対して、6個の特徴のみ、すなわち、F151〜F156が存在する。
、SFPkから抽出される特徴はF157〜F174である。
[00297] 最後の特徴スコアが全ての有声セクションに対するその特徴の平均値を含み得る(例えば、
)ことに留意されたい。特徴F175は、話し手が男性であるのかそれとも女性であるのかのバイナリインジケータであり得る(例えば、男性に対して0、女性に対して−1)。特徴F176は、便利なオブ線形回帰のために、定数であり得る(例えば、通常は1に設定される)。
[00298] 本明細書で開示されるシステムおよび方法は、音声品質測定の出力を提供し得る。コーディングおよび/または伝送の開発者のためのフィードバック(例えば、リアルタイムなフィードバック)が、追加または代替として提供され得る。音声ひずみの特性および/または洞察が、追加または代替として提供され得る。本明細書で開示されるシステムおよび方法は、所与の音声の特性(例えば、ひずみ)を知覚領域の中で記述するための多くのパラメータを提供し得る。これらの特徴は、一般的なツールボックスへ組み込まれてもよく、特定の目標(例えば、周波数で局所化されたひずみの測定)のために組み合わされてもよい。言い換えれば、本明細書で説明されるシステムおよび方法は、音声品質測定における高い精度と、様々なタイプの音声ひずみでのデスクリプションへの洞察と、人間の知覚へ志向された手法とを提供し得る。他の知られている手法が流体力学的な蝸牛モデル出力を使用し得ないことに留意されたい。
[00299] 図32図32は、図32A〜図32Dに対応する一例の複数の部分を示すブロック図である。図32A〜図32Dは、非嵌入的特徴抽出を使用して粗さひずみを推定または予測することの一例を示すブロック図を示す。特有の数が例示のために使用され得るが、本システムおよび方法の任意の点における様々なデータの実際のサイズは変化し得る。
[00300] 図32Aに示すような修正された(例えば、劣化した)音声信号3211(1000サンプル長として示される)は、蝸牛モデルに供給され得る。蝸牛モデルは、全てのサンプル入力に対して512個のサンプルを出力し得る。詳細には、出力3215は、修正音声信号3211に対応し得る。出力3215から、第1の有声部分は、4つのセクション3219(例えば、修正音声信号3211に基づく蝸牛モデルの出力3215に基づく4つのセクション3219)に分割され得る。
[00301] 1つまたは複数の分析ベクトルまたは分析シリアル(AS)3223は、セクション3219から決定され得る。図示したように、R1 AS2は、第1のセクションから決定され得、ここで、R1はそれが第1の有声部分の第1のセクションから決定されたという事実を指し、AS2はそれがタイプ2の分析ベクトルであるという事実を指す。R1 AS2に加えて、以下の分析ベクトル3223、すなわち、R1 AS4、R2 AS2、R2 AS4、R3 AS2、R3 AS4、R4 AS2およびR4 AS4が決定され得る。これらのベクトルは、図15〜図16、図19、図22および図24のうちの1つまたは複数に関して説明したように決定され得る。従って、選択された各セクションに対して抽出された分析ベクトルのタイプは、音声品質の非嵌入的な測定のためのタイプを示す表4に従って決定され得る。
[00302] さらに、タイプ2の分析ベクトルが、修正音声から決定される顕著な特徴点(SFP)ベクトル3224を得るために抽出され得る。SFPベクトルは、時間的に局所化されたひずみに関係する。従って、選択されたセクションに対して特徴ベクトルを決定するために、9個のベクトル(8個の分析ベクトル3223およびSFP3224)が使用され得、各々は6個の特徴を生成する。
[00303] 詳細には、タイプ2またはタイプ4の各分析ベクトルは、6個の特徴3227を生成し得る(例えば、図25および図27に関して説明したように)。特徴3227は、この例では54個のエントリを有する特徴ベクトルの中に配置され得る。別の54エントリの特徴ベクトルを生成するために、特徴抽出の同じ処理が、蝸牛の出力3215の第2の部分(例えば、有声部分)で行われ得る。同じ処理が任意の適切な数の部分(例えば、有声部分)に対して反復され得、各々は最初に選択されたセクションのものと類似の特徴ベクトルを生成する。
[00304] 一旦全ての選択されたセクションに対する特徴ベクトルが決定されると、特徴3227は図32Bおよび図32Cに示すように平均化され得る。言い換えれば、特徴ベクトルの各々の中の最初のエントリ(平均値として示される)は、平均化され得る。同様に、全てのインデックスにおけるエントリは、この例では54エントリのベクトルとして示される単一の平均特徴ベクトル3220を生成するために、互いに平均化される。単一の平均特徴ベクトル3220は、(例えば、図8〜図9のうちの1つまたは複数に関して説明したように)予めトレーニング中に学習された重み付け3253によって乗算され得る(例えば、重みを使用して重み付けられ得る)。重み付けの後、単一の平均特徴ベクトルの中の特徴の各々は、図32Dに示すような粗さひずみ3249(例えば、予測スコア)を生成するために、合計され得る。類似の手順が他のひずみに対して続き得る。
[00305] 図31〜図32は、粗さひずみ3149、3249に対する予測スコアを示すが、予測スコアはひずみの次元のうちの任意のものに対し得る。例えば、鈍さ/マフルドネス(dullness/muffledness)のひずみの次元に対する予測スコアを決定する場合、使用される重みは、粗さひずみの次元の代わりに鈍さ/マフルドネスのひずみの次元に対する主観的なスコアに対応し得る。各ひずみの次元に対する予測スコアは、前景品質と背景品質とを決定するために、(例えば、図6〜図7に関して説明したような)客観的音声品質モジュールによって使用され得る。全体品質が、次いで、決定され得る。全体品質は、人間の聞き手が音声の一部分を主観的にスコアリングすることから決定される平均オピニオン評点(MOS)の代わりに、またはそれに加えて使用され得る。
[00306] いくつかの構成では、システムおよび方法の1つまたは複数の手順が下記のように行われ得る。1つの手法では、ここで提起される新しい特徴セットが、非嵌入的(劣化した音声信号を使用する)である。劣化した音声(Sdis)を仮定する。Sdisは、(流体力学的な蝸牛モデルまたは音響心理学的モデルなどの)聴覚の計算形モデルを通過させられ得る。そのようなモデルは、CMと呼ばれ得、ひずんだ信号に起因する出力は、CMdisと呼ばれる。出力は、時間領域と周波数領域の両方に沿って高い精度を有する。出力は、知覚領域の中の音声を表す。
[00307] 分析シリアル(AS)は、分析の目的に応じて、本明細書で説明される同じアルゴリズムを用いて、音声の有声セクション(VS)および無音(SIL)セクションから抽出され得る。K個の対象とされるセクションが存在すると仮定する。
[00308] 周波数関連の分析シリアルは、次のように記述され得る。第kの対象領域に対して、劣化したCM出力
は、サイズがP*Tである。
[00309] 異なる知覚的モデルに対して、CMはサイズが異なり得る。以下の部分では、蝸牛モデルを使用する。いくつかの出力に対して数値が調整され得ることに留意されたい。この例におけるPは、範囲1〜512を有し、4つの領域、すなわち、(A)1〜150、(B)151〜275、(C)a276〜450および(D)450〜512に切り分けられる。従って、空間に応じて4つの異なる関数が存在する。
これらは分析シリアルと呼ばれ得る。
[00310] 時間関連の分析シリアルは、次のように取得され得る。各有声セクション(VS)に対して、劣化したCM出力
が存在することは、サイズがP*Tである。下記が算出され得、
ここで、r1,2は、「第1の行、第2の列」(例えば、150)を意味する。これらも分析シリアルと呼ばれ得る。
[00311] SFPも取得され得る。対象とされるセクションが有声セクションである場合、SEPkは、第kの有声セクションのCM出力から抽出される。ASからの特徴抽出は、次のように進み得る。各AS(例えばT3k)に対して、これらは長さがNであり、特徴は次のように抽出される。
[00312] P1kから抽出される特徴はF1〜F6である。P2kから抽出される特徴はF7〜F12である。P3kから抽出される特徴はF13〜F18である。P4kから抽出される特徴はF19〜F24である。
[00313] T1kから抽出される特徴はF25〜F30である。T2kから抽出される特徴はF31〜F36である。T3kから抽出される特徴はF37〜F42である。T4kから抽出される特徴はF43〜F48である。SFPkから抽出される特徴はF49〜F54である。
[00314] 最後の特徴スコアが全ての有声セクションに対するその特徴の平均値を含み得る(例えば、
)ことに留意されたい。特徴F55は、話し手が男性であるのかそれとも女性であるのかのバイナリインジケータであり得る(例えば、男性に対して0、女性に対して−1)。特徴F56は、便利なオブ線形回帰のために、定数であり得る(例えば、通常は1に設定される)。
[00315] 本明細書で開示されるシステムおよび方法は、音声品質測定の出力を提供し得る。コーディングおよび/または伝送の開発者のためのフィードバック(例えば、リアルタイムなフィードバック)が、追加または代替として提供され得る。音声ひずみの特性および/または洞察が、追加または代替として提供され得る。本明細書で開示されるシステムおよび方法は、所与の音声の特性(例えば、ひずみ)を知覚領域の中で記述するための多くのパラメータを提供し得る。これらの特徴は、一般的なツールボックスへ組み込まれてもよく、特定の目標(例えば、周波数で局所化されたひずみの測定)のために組み合わされてもよい。言い換えれば、本明細書で説明されるシステムおよび方法は、音声品質測定における高い精度と、様々なタイプの音声ひずみでのデスクリプションへの洞察と、人間の知覚本位の手法(human-perceptually oriented approach)とを提供し得る。他の知られている手法が流体力学的な蝸牛モデル出力を使用し得ないことに留意されたい。
[00316] 図33は、特徴抽出のための方法3300のより具体的な構成を示す流れ図である。電子デバイス1507(例えば、音声評価器および/または特徴抽出モジュール)は、方法3300の1つまたは複数のステップ、機能および/または手順を行い得る。
[00317] 電子デバイスは、元の音声信号と修正された(例えば、劣化した)音声信号とを取得し得る。元の音声信号および修正音声信号は、嵌入的特徴抽出のために同じ期間にわたって記録され得る。言い換えれば、修正音声信号は、元の音声信号の処理されたバージョンであり得る。あるいは、修正音声信号のみが非嵌入的特徴抽出のために取得されてもよい。
[00318] 電子デバイスは、生理学的蝸牛モデルを使用して音声を処理し得る3302。これは、例えば、図15〜図19および図31〜図32のうちの1つまたは複数に関して上で説明したように達成され得る。
[00319] 電子デバイスは、蝸牛モデルの出力から一部分を選択し得る3304。これは、例えば、図18〜図19および図31〜図32のうちの1つまたは複数に関して上で説明したように達成され得る。部分は、元の音声信号に対する生理学的蝸牛モデル出力の一部分であり得、および/または、音声の知覚的な品質に著しく影響を及ぼす修正音声信号(例えば、有声部分、母音など)に対する蝸牛モデル出力の部分であり得る。例えば、部分を選択すること3304は、1つまたは複数の信号のエネルギーを計算することと、エネルギーがしきい値を超える部分を選択することとを含み得る。
[00320] 電子デバイスは、生理学的蝸牛モデルの出力のセクションを分析し得る3306。これは、例えば、図15〜図16、図18〜図24および図31〜図32のうちの1つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、出力の部分を複数のセクション(例えば、4つのセクションまたは別の数のセクション)にグループ化(例えば、分割)し得る。セクションの各々は、特定のサイズを(例えば、いくつかの空間点にいくつかのNサンプルを掛けて)有し得る。
[00321] 電子デバイスは、各セクションに対するベクトルを抽出し得る3308。詳細には、電子デバイスは、各セクションに対する空間ベース分析ベクトルと時間ベース分析ベクトルとを抽出し得る。これは、例えば、図15〜図16、図18〜図19、図21〜図24および図31〜図32のうちの1つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、空間ベース分析ベクトルを生成するためにセクションを時間にわたって平均化し得、および/または時間ベース分析ベクトルを生成するためにセクションを空間にわたって平均化し得る。いくつかの構成では、分析ベクトルが、上の表3に示すようにセクション番号ごとに抽出され得る3308。言い換えれば、少なくとも1つの空間ベース分析ベクトルおよび1つの時間ベース分析ベクトルは、各セクションに対して抽出され得る3308。
[00322] 電子デバイスは、1つまたは複数の特徴を各ベクトル(例えば、分析ベクトル)から決定し得る3310。これは、例えば、図15〜図16、図18〜図19、図25〜図27および図31〜図32のうちの1つまたは複数に関して説明したように達成され得る。
[00323] 電子デバイスは、1つまたは複数の特徴、およびひずみの次元に対応する重み付け(例えば、重みセット)に基づいて、ひずみを推定(例えば、予測)し得る3312。これは、図15、図18〜図19および図31〜図32のうちの1つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、特徴を重み付けて粗さひずみ(例えば、粗さ次元に対する予測スコア)を生成するために、粗さひずみに対する重み付け(例えば、予めオフラインで決定された重みセット)を使用し得る。1つまたは複数のひずみが推定され得る3312。例えば、電子デバイスは、上で説明したように、粗さ、不連続性、鈍さ、薄さ、ヒッシングおよび変動性のうちの1つまたは複数を推定し得る3312。電子デバイスは、追加および/または代替のひずみを推定し得る3312。いくつかの構成では、ひずみ(例えば、予測スコア)が、図4〜図7に関して上で説明した、全ての4つの前景ひずみの次元および両方の背景ひずみの次元に対して決定され得る。いくつかの構成では、電子デバイスが、ひずみ(例えば、客観的ひずみ)に基づいて、前景品質および/または背景品質を推定し得る。これは、図4〜図7のうちの1つまたは複数に関して上で説明したように達成され得る。追加または代替として、全体品質は、前景品質および背景品質から推定され得る。これは、図4〜図7のうちの1つまたは複数に関して上で説明したように達成され得る。全体品質は、主観的な平均オピニオン評点(MOS)の代わりに利用され得る、修正音声信号の全体的な客観的品質スコアとしての役割を果たし得る。
[00324] 図34は、嵌入的特徴抽出のための方法3400の一構成を示す流れ図である。電子デバイス1507(例えば、音声評価器および/または特徴抽出モジュール)は、方法3400の1つまたは複数のステップ、機能および/または手順を行い得る。
[00325] 電子デバイスは、元の音声信号と修正された(例えば、劣化した)音声信号とを取得し得る3402。これは、図15に関して上で説明したように達成され得る。例えば、電子デバイスは、1つまたは複数のフレームまたは時間期間の元の音声信号および修正音声信号を取得し得る。元の音声信号および修正音声信号は、嵌入的特徴抽出のために同じ時間期間にわたって記録され得る。言い換えれば、修正音声信号は、元の音声信号の処理されたバージョンであり得る。
[00326] 電子デバイスは、生理学的蝸牛モデルを使用して音声を処理し得る3404。これは、例えば、図15〜図19および図31〜図32のうちの1つまたは複数に関して上で説明したように達成され得る。詳細には、電子デバイスは、1つまたは複数の蝸牛モデルを使用して、元の音声信号および修正音声信号を処理し得る3404。
[00327] 電子デバイスは、生理学的蝸牛モデルの出力から一部分を選択し得る3406。これは、例えば、図18〜図19および図31〜図32のうちの1つまたは複数に関して上で説明したように達成され得る。部分は、元の音声信号に対する生理学的蝸牛モデル出力の一部分であり得、および/または、音声の知覚的な品質に著しく影響を及ぼす修正音声信号(例えば、有声部分、母音など)に対する蝸牛モデル出力の部分であり得る。例えば、部分を選択すること3406は、1つまたは複数の信号のエネルギーを計算することと、エネルギーがしきい値を超える部分を選択することとを含み得る。
[00328] 電子デバイスは、生理学的蝸牛モデルの出力のセクションを分析し得る3408。これは、例えば、図15〜図16、図18〜図24および図31〜図32のうちの1つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、出力の部分を複数のセクション(例えば、4つのセクションまたは別の数のセクション)にグループ化(例えば、分割)し得る。セクションの各々は、特定のサイズを(例えば、いくつかの空間点にいくつかのNサンプルを掛けて)有し得る。
[00329] 電子デバイスは、各セクションに対するベクトルを抽出し得る3410。詳細には、電子デバイスは、各セクションに対する空間ベース分析ベクトルと時間ベース分析ベクトルとを抽出し得る3410。これは、例えば、図15〜図16、図18〜図19、図21〜図24および図31〜図32のうちの1つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、空間ベース分析ベクトルを生成するためにセクションを時間にわたって平均化し得、および/または時間ベース分析ベクトルを生成するためにセクションを空間にわたって平均化し得る。いくつかの構成では、分析ベクトルが、上の表3に示すようにセクション番号ごとに抽出され得る3410。言い換えれば、少なくとも1つの嵌入的な空間ベース分析ベクトル(例えば、タイプ1)および1つの時間ベース分析ベクトル(例えば、タイプ3)は、各セクションに対して抽出され得る3410。表3に示すように、電子デバイスは、オプションで追加的に、1つまたは複数のセクション(例えば、セクションC)に対して、非嵌入的な空間ベースのベクトル(例えば、タイプ2)および/または非嵌入的な時間ベースのベクトル(例えば、タイプ4)を抽出し得る。
[00330] 電子デバイスは、1つまたは複数の特徴を各ベクトル(例えば、分析ベクトル)から決定し得る3412。これは、例えば、図15〜図16、図18〜図19、図25〜図27および図31〜図32のうちの1つまたは複数に関して説明したように達成され得る。いくつかの構成では、6個および/または18個の特徴が、各ベクトルに基づいて決定され得る3412。
[00331] 電子デバイスは、1つまたは複数の特徴、およびひずみの次元に対応する重み付け(例えば、重みセット)に基づいて、ひずみを推定(例えば、予測)し得る3414。これは、図15、図18〜図19および図31〜図32のうちの1つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、特徴を重み付けて粗さひずみ(例えば、粗さ次元に対する予測スコア)を生成するために、粗さひずみに対する重み付け(例えば、予めオフラインで決定された重みセット)を使用し得る。1つまたは複数のひずみが推定され得る3414。例えば、電子デバイスは、上で説明したように、粗さ、不連続性、鈍さ、薄さ、ヒッシングおよび変動性のうちの1つまたは複数を推定し得る3414。電子デバイスは、追加および/または代替のひずみを推定し得る3414。いくつかの構成では、ひずみ(例えば、予測スコア)が、図4〜図7に関して上で説明した、全ての4つの前景ひずみの次元および両方の背景ひずみの次元に対して決定され得る。いくつかの構成では、電子デバイスが、ひずみ(例えば、客観的ひずみ)に基づいて、前景品質および/または背景品質を推定し得る。これは、図4〜図7のうちの1つまたは複数に関して上で説明したように達成され得る。追加または代替として、全体品質は、前景品質および背景品質から推定され得る。これは、図4〜図7のうちの1つまたは複数に関して上で説明したように達成され得る。全体品質は、主観的な平均オピニオン評点(MOS)の代わりに利用され得る、修正音声信号の全体的な客観的品質スコアとしての役割を果たし得る。
[00332] 図35は、非嵌入的特徴抽出のための方法3500の一構成を示す流れ図である。電子デバイス1507(例えば、音声評価器および/または特徴抽出モジュール)は、方法3500の1つまたは複数のステップ、機能および/または手順を行い得る。
[00333] 電子デバイスは、修正された(例えば、劣化した)音声信号を取得し得る3502。これは、図15に関して上で説明したように達成され得る。例えば、電子デバイスは、1つまたは複数のフレームまたは時間期間の修正音声信号を取得し得る。修正音声信号は、元の音声信号の処理された(例えば、劣化した)バージョンであり得る。非嵌入的な手法では、電子デバイスが、元の音声信号を取得し得ない。このことにより、元の音声信号を取得、送信または受信する必要なく、様々なデバイスにおける音声品質評価が可能になり得る。
[00334] 電子デバイスは、生理学的蝸牛モデルを使用して修正音声を処理し得る3504。これは、例えば、図15〜図17、図19および図32のうちの1つまたは複数に関して上で説明したように達成され得る。詳細には、電子デバイスは、蝸牛モデルを使用して、修正音声信号のみを処理し得る(元の音声信号を処理しない)3504。
[00335] 電子デバイスは、生理学的蝸牛モデルの出力から一部分を選択し得る3506。これは、例えば、図19および図32のうちの1つまたは複数に関して上で説明したように達成され得る。部分は、音声の知覚的な品質に著しく影響を及ぼす修正音声信号(例えば、有声部分、母音など)に対する生理学的蝸牛モデル出力の部分であり得る。例えば、部分を選択すること3506は、修正音声信号のエネルギーを計算することと、エネルギーがしきい値を超える部分を選択することとを含み得る。
[00336] 電子デバイスは、生理学的蝸牛モデルの出力のセクションを分析し得る3508。これは、例えば、図15〜図16、図19〜図20、図22、図24および図32のうちの1つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、出力の部分を複数のセクション(例えば、4つのセクションまたは別の数のセクション)にグループ化(例えば、分割)し得る。セクションの各々は、特定のサイズを(例えば、いくつかの空間点にいくつかのNサンプルを掛けて)有し得る。
[00337] 電子デバイスは、各セクションに対するベクトルを抽出し得る3510。詳細には、電子デバイスは、各セクションに対する非嵌入的な空間ベース分析ベクトルと非嵌入的な時間ベース分析ベクトルとを抽出し得る3510。これは、例えば、図15〜図16、図19、図22、図24および図32のうちの1つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、空間ベース分析ベクトルを生成するためにセクションを時間にわたって平均化し得、および/または時間ベース分析ベクトルを生成するためにセクションを空間にわたって平均化し得る。いくつかの構成では、分析ベクトルが、上の表4に示すようにセクション番号ごとに抽出され得る3510。言い換えれば、少なくとも1つの非嵌入的な空間ベース分析ベクトル(例えば、タイプ2)および1つの非嵌入的な時間ベース分析ベクトル(例えば、タイプ4)は、各セクションに対して抽出され得る3510。
[00338] 電子デバイスは、1つまたは複数の特徴を各ベクトル(例えば、分析ベクトル)から決定し得る3512。これは、例えば、図15〜図16、図19、図25、図27および図32のうちの1つまたは複数に関して説明したように達成され得る。いくつかの構成では、6個の特徴が、各ベクトルに基づいて決定され得る3512。
[00339] 電子デバイスは、1つまたは複数の特徴、およびひずみの次元に対応する重み付け(例えば、重みセット)に基づいて、ひずみを推定(例えば、予測)し得る3514。これは、図15、図19および図32のうちの1つまたは複数に関して上で説明したように達成され得る。例えば、電子デバイスは、特徴を重み付けて粗さひずみ(例えば、粗さ次元に対する予測スコア)を生成するために、粗さひずみに対する重み付け(例えば、予めオフラインで決定された重みセット)を使用し得る。1つまたは複数のひずみが推定され得る3514。例えば、電子デバイスは、上で説明したように、粗さ、不連続性、鈍さ、薄さ、ヒッシングおよび変動性のうちの1つまたは複数を推定し得る3514。電子デバイスは、追加および/または代替のひずみを推定し得る3514。いくつかの構成では、ひずみ(例えば、予測スコア)が、図4〜図7に関して上で説明した、全ての4つの前景ひずみの次元および両方の背景ひずみの次元に対して決定され得る。いくつかの構成では、電子デバイスが、ひずみ(例えば、客観的ひずみ)に基づいて、前景品質および/または背景品質を推定し得る。これは、図4〜図7のうちの1つまたは複数に関して上で説明したように達成され得る。追加または代替として、全体品質は、前景品質および背景品質から推定され得る。これは、図4〜図7のうちの1つまたは複数に関して上で説明したように達成され得る。全体品質は、主観的な平均オピニオン評点(MOS)の代わりに利用され得る、修正音声信号の全体的な客観的品質スコアとしての役割を果たし得る。
[00340] 図36は、嵌入的特徴抽出のより具体的な構成を示すブロック図である。例えば、図36は、顕著な特徴をIHC電圧から抽出することの一例を提供する。後端におけるニューラルネットワークなどのより精巧な統計モデルが、性能を改善し得、付加的代替的に利用され得ることに留意されたい。図26に関して説明した構成要素のうちの1つまたは複数は、図15〜図27および図31〜図35のうちの1つまたは複数に関して説明した構成要素のうちの1つまたは複数の例であり得、および/またはそうした手順のうちの1つまたは複数を行い得る。詳細には、図36は、遅延推定モジュール3637、蝸牛モデルA〜B3613a〜b、減算器3620、部分選択モジュール3643、周波数平均化モジュール3622、時間平均化モジュール3624、特徴決定モジュール3625および/または回帰モジュール3651の例を示す。
[00341] 元の音声信号3609および修正音声信号3611(例えば、元の音声信号3609の劣化したバージョン)は、遅延推定モジュール3637に供給され得る。遅延推定モジュール3637は、元の音声信号3609と修正音声信号3611とを位置合わせし得、それらは、蝸牛モデルA3613aおよび蝸牛モデルB3613bに供給され得る。蝸牛モデルA3613aの出力は、減算器3620によって蝸牛モデルB3613bの出力から減算され得る。この差は、部分選択モジュール3643に供給され得る。部分選択モジュール3643は、差から部分を選択し得る。例えば、差の有声部分が選択され得る。
[00342] 有声部分は、周波数平均化モジュール3622および時間平均化モジュール3624に供給され得る。周波数平均化モジュール3622および時間平均化モジュール3624は、周波数および時間それぞれにわたって有声部分を平均化し得る。周波数平均化モジュール3622は、1つまたは複数の時間領域を生成し得る。時間平均化モジュール3624は、1つまたは複数の周波数領域3626を生成し得る。1つまたは複数の周波数領域3626は、上で説明した空間ベースのベクトルの別の表現であり得る。周波数平均化モジュール3622は、1つまたは複数の時間領域3628を生成し得る。1つまたは複数の時間領域3628は、上で説明した時間ベースのベクトルに対応し得る。
[00343] 周波数領域3626および/または時間領域3628は、特徴決定モジュール3625に供給され得る。特徴決定モジュール3625は、特徴3627(例えば、統計的特徴)を各領域から決定(例えば、抽出)し得る。特徴3627は、特徴セットにグループ化され得る。
[00344] いくつかの構成では、特徴3627が、回帰モジュール3651に供給され得る。回帰モジュール3651は、1つまたは複数のひずみ3649を推定するために、特徴3627のうちの1つまたは複数および重み付け3653(例えば、1つまたは複数の重み)に基づいて、線形回帰を行い得る。いくつかの構成では、回帰モジュール3651が、ひずみ3649を推定するために、多項式回帰、2次回帰、非線形回帰などを、代替として行い得る。いくつかの構成では、1つまたは複数の品質(例えば、前景品質、背景品質、全体品質など)が、本明細書で説明されるように、1つまたは複数のひずみ3649に基づいて推定され得る。
[00345] 図37は、音声信号品質の測定および/または特徴抽出のためのシステムおよび方法が実装され得るワイヤレス通信デバイス3730の一構成を示すブロック図である。図37に示すワイヤレス通信デバイス3730は、本明細書で説明される電子デバイス556、1507のうちの1つまたは複数の一例であり得る。ワイヤレス通信デバイス3730は、アプリケーションプロセッサ3742を含み得る。アプリケーションプロセッサ3742は、一般に、ワイヤレス通信デバイス3730で機能を行うために命令を処理する(例えば、プログラムを稼働させる)。アプリケーションプロセッサ3742は、オーディオコーダ/デコーダ(コーデック)3740に結合され得る。
[00346] オーディオコーデック3740は、オーディオ信号をコーディングおよび/または復号するために使用され得る。オーディオコーデック3740は、少なくとも1つのスピーカ3732、イヤピース3734、出力ジャック3736、および/または少なくとも1つのマイクロフォン3738に結合され得る。スピーカ3732は、電気信号または電子信号を音響信号に変換する1つまたは複数の電気音響トランスデューサを含み得る。例えば、スピーカ3732は、音楽を再生するため、またはスピーカフォンの会話を出力するためなどに使用され得る。イヤピース3734は、音響信号(例えば、音声信号)をユーザに出力するために使用され得る別のスピーカまたは電気音響トランスデューサであり得る。例えば、イヤピース3734は、ユーザのみが音響信号を確実に聴取できるように使用され得る。出力ジャック3736は、オーディオを出力するために、ワイヤレス通信デバイス3730にヘッドフォンなどの他のデバイスを結合するために使用され得る。スピーカ3732、イヤピース3734および/または出力ジャック3736は、一般に、オーディオコーデック3740からオーディオ信号を出力するために使用され得る。少なくとも1つのマイクロフォン3738は、音響信号(ユーザの音声など)を、オーディオコーデック3740に提供される電気信号または電子信号に変換する音響電気トランスデューサであり得る。
[00347] いくつかの構成では、オーディオコーデック3740が、音声評価器A3768aを含み得る。音声評価器A3768aは、図4〜図27および図31〜図36のうちの1つまたは複数に関して説明した手順および/もしくは機能のうちの1つまたは複数を行い得、並びに/またはそうしたモジュールおよび/もしくは構成要素のうちの1つまたは複数を含み得る。詳細には、音声評価器A3768aは、1つまたは複数の特徴を抽出し得、および/または音声信号品質を測定し得る。追加または代替として、アプリケーションプロセッサ3742は、音声評価器B3768bを含み得る。音声評価器B3768bは、音声評価器A3768aに関して説明した手順および/もしくは機能のうちの1つまたは複数を行い得、並びに/またはそうしたモジュールおよび/もしくは構成要素のうちの1つまたは複数を含み得る。
[00348] アプリケーションプロセッサ3742は、また、電力管理回路3752に結合され得る。電力管理回路3752の一例は、ワイヤレス通信デバイス3730の電力消費を管理するために使用され得る電力管理集積回路(PMIC)である。電力管理回路3752は、バッテリ3754に結合され得る。バッテリ3754は、一般に、ワイヤレス通信デバイス3730に電力を供給し得る。例えば、バッテリ3754および/または電力管理回路3752は、ワイヤレス通信デバイス3730内に含まれる要素のうちの少なくとも1つに結合され得る。
[00349] アプリケーションプロセッサ3742は、入力を受信するための少なくとも1つの入力デバイス3756に結合され得る。入力デバイス3756の例は、赤外線センサ、画像センサ、加速度計、タッチセンサ、キーパッドなどを含む。入力デバイス3756は、ワイヤレス通信デバイス3730とのユーザ対話を可能にし得る。アプリケーションプロセッサ3742は、また、1つまたは複数の出力デバイス3758に結合され得る。出力デバイス3758の例は、プリンタ、プロジェクタ、スクリーン、触覚デバイスなどを含む。出力デバイス3758は、ワイヤレス通信デバイス3730が、ユーザによって体験され得る出力を生成することを可能にし得る。
[00350] アプリケーションプロセッサ3742は、アプリケーションメモリ3760に結合され得る。アプリケーションメモリ3760は、電子情報を記憶することが可能な任意の電子デバイスであり得る。アプリケーションメモリ3760の例は、ダブルデータレートシンクロナスダイナミックランダムアクセスメモリ(DDR SDRAM)、シンクロナスダイナミックランダムアクセスメモリ(SDRAM)、フラッシュメモリなどを含む。アプリケーションメモリ3760は、アプリケーションプロセッサ3742のための記憶装置を提供し得る。例えば、アプリケーションメモリ3760は、アプリケーションプロセッサ3742上で稼働されるプログラムの機能のためのデータおよび/または命令を記憶し得る。
[00351] アプリケーションプロセッサ3742はディスプレイコントローラ3762に結合され得、ディスプレイコントローラ3762はディスプレイ3764に結合され得る。ディスプレイコントローラ3762は、ディスプレイ3764上に画像を生成するために使用されるハードウェアブロックであり得る。例えば、ディスプレイコントローラ3762は、アプリケーションプロセッサ3742からの命令および/またはデータを、ディスプレイ3764上に提示され得る画像に変換し得る。ディスプレイ3764の例は、液晶ディスプレイ(LCD)パネル、発光ダイオード(LED)パネル、陰極線管(CRT)ディスプレイ、プラズマディスプレイなどを含む。
[00352] アプリケーションプロセッサ3742は、ベースバンドプロセッサ3744に結合され得る。ベースバンドプロセッサ3744は、一般に、通信信号を処理する。例えば、ベースバンドプロセッサ3744は、受信された信号を復調および/または復号し得る。追加または代替として、ベースバンドプロセッサ3744は、送信に備えて信号を符号化および/または変調し得る。
[00353] ベースバンドプロセッサ3744は、ベースバンドメモリ3766に結合され得る。ベースバンドメモリ3766は、SDRAM、DDRAM、フラッシュメモリなどの、電子情報を記憶することが可能な任意の電子デバイスであり得る。ベースバンドプロセッサ3744は、ベースバンドメモリ3766から情報(例えば、命令および/またはデータ)を読み取り得、および/または、ベースバンドメモリ3766に情報を書き込み得る。追加または代替として、ベースバンドプロセッサ3744は、通信動作を行うために、ベースバンドメモリ3766に記憶された命令および/またはデータを使用し得る。
[00354] ベースバンドプロセッサ3744は、無線周波数(RF)送受信機3746に結合され得る。RF送受信機3746は、電力増幅器3748および1つまたは複数のアンテナ3750に結合され得る。RF送受信機3746は、無線周波数信号を送信および/または受信し得る。例えば、RF送受信機3746は、電力増幅器3748と少なくとも1つのアンテナ3750とを使用してRF信号を送信し得る。RF送受信機3746は、また、1つまたは複数のアンテナ3750を使用してRF信号を受信し得る。
[00355] 図38は、電子デバイス/ワイヤレスデバイス3868内に含まれ得るいくつかの構成要素を示す。電子デバイス/ワイヤレスデバイス3868は、アクセス端末、移動局、ユーザ機器(UE)、基地局、アクセスポイント、ブロードキャスト送信機、ノードB、発展型ノードB、サーバ、コンピュータ、ルータ、スイッチなどであり得る。電子デバイス/ワイヤレスデバイス3868は、本明細書で説明される電子デバイス556、1507のうちの1つまたは複数に従って実施され得る。電子デバイス/ワイヤレスデバイス3868はプロセッサ3884を含む。プロセッサ3884は、汎用のシングルチップまたはマルチチップマイクロプロセッサ(例えば、ARM)、専用マイクロプロセッサ(例えば、デジタル信号プロセッサ(DSP))、マイクロコントローラ、フィールドプログラマブルゲートアレイ(FPGA)などであり得る。プロセッサ3884は、中央処理ユニット(CPU)と呼ばれ得る。電子デバイス/ワイヤレスデバイス3868中に単一のプロセッサ3884のみが示されるが、代替構成では、プロセッサ(例えば、ARM、DSPおよびFPGA)の組合せが使用され得る。
[00356] 電子デバイス/ワイヤレスデバイス3868は、また、メモリ3870を含む。メモリ3870は、電子情報を記憶することが可能な任意の電子コンポーネントであり得る。メモリ3870は、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、磁気ディスク記憶媒体、光記憶媒体、RAM中のフラッシュメモリデバイス、プロセッサ3884に含まれるオンボードメモリ、EPROMメモリ、EEPROM(登録商標)メモリ、レジスタなど、およびそれらの組合せとして実施され得る。
[00357] データ3874aおよび命令3872aがメモリ3870に記憶され得る。命令3872aは、本明細書で開示される方法のうちの1つまたは複数を実施するために、プロセッサ3884によって実行可能であり得る。命令3872aを実行することは、メモリ3870に記憶されたデータ3874aの使用を伴い得る。プロセッサ3884が命令3872aを実行すると、命令3872bの様々な部分がプロセッサ3884上にロードされ得、様々ないくつかのデータ3874bがプロセッサ3884上にロードされ得る。
[00358] 電子デバイス/ワイヤレスデバイス3868は、また、電子デバイス/ワイヤレスデバイス3868との間での信号の送信および受信を可能にするために、送信機3876と受信機3878とを含み得る。送信機3876および受信機3878は、送受信機3888と総称されることがある。1つまたは複数のアンテナ3886a〜nが、送受信機3888に電気的に結合され得る。電子デバイス/ワイヤレスデバイス3868は、また、複数の送信機、複数の受信機、複数の送受信機および/または追加のアンテナを含み得る(図示せず)。
[00359] 電子デバイス/ワイヤレスデバイス3868は、デジタル信号プロセッサ(DSP)3880を含み得る。電子デバイス/ワイヤレスデバイス3868は、また、通信インターフェース3882を含み得る。通信インターフェース3882は、ユーザが電子デバイス/ワイヤレスデバイス3868と対話することを可能にし得る。
[00360] 電子デバイス/ワイヤレスデバイス3868の様々な構成要素は、電力バス、制御信号バス、ステータス信号バス、データ3874バスなどを含み得る、1つまたは複数のバスによって互いに結合され得る。明快のために、図38では様々なバスはバスシステム3890として示される。
[00361] 上記の説明では、参照番号が様々な用語と関連付けて時々使用された。用語が参照番号とともに使用されている場合、これは、図の1つまたは複数に示された特定の要素を指すことが意図され得る。用語が参照番号を伴わずに使用されている場合、これは一般に、任意の特定の図に限定されない用語を指すことが意図され得る。
[00362] 「決定すること」という用語は、多種多様のアクションを含み、従って、「決定すること」は、算出することと、計算することと、処理することと、引き出すことと、調査することと、探索すること(例えば、テーブル、データベースまたは別のデータ構造を調べること)と、確かめることなどを含み得る。また、「決定すること」は、受け取ること(例えば、情報を受け取ること)、アクセスすること(例えば、メモリ内のデータにアクセスすること)などを含み得る。また、「決定すること」は、解決すること、選択すること、選ぶこと、確立することなどを含み得る。
[00363] 「に基づいて」という句は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という句は、「のみに基づいて」と「に少なくとも基づいて」の両方を表す。
[00364] 本明細書で説明された構成のうちのいずれか1つに関して説明された特徴、機能、手順、構成要素、要素、構造などのうちの1つまたは複数は、互換性がある、本明細書で説明された他の構成のうちのいずれかに関して説明された機能、手順、構成要素、要素、構造などのうちの1つまたは複数と組み合わせられ得ることに留意されたい。言い換えれば、本明細書で説明された機能と、手順と、構成要素と、要素などの何らかの互換性のある組合せは、本明細書で開示されたシステムおよび方法に従って実装され得る。
[00365] 本明細書で説明された機能は、1つまたは複数の命令として、プロセッサ可読媒体またはコンピュータ可読媒体に記憶され得る。「コンピュータ可読媒体」という用語は、コンピュータまたはプロセッサによってアクセスされ得る何らかの利用可能な媒体を指す。例として、限定はされないが、そのような媒体は、RAM、ROM、EEPROM、フラッシュメモリ、CD−ROMもしくは他の光ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、または所望のプログラムコードを命令もしくはデータ構造の形式で記憶するために使用され得るとともにコンピュータによってアクセスされ得る何らかの他の媒体を備え得る。本明細書で使用されるように、ディスク(disk)およびディスク(disc)は、コンパクトディスク(CD)と、レーザーディスク(登録商標)と、光ディスクと、デジタルバーサタイルディスク(DVD)と、フロッピー(登録商標)ディスクと、ブルーレイ(登録商標)ディスクとを含み、ディスク(disk)は通常データを磁気的に再生し、ディスク(disc)はレーザでデータを光学的に再生する。コンピュータ可読媒体は有形および非一時的であり得ることに留意されたい。「コンピュータプログラム製品」という用語は、コンピューティングデバイスまたはプロセッサによって実行され得るか、処理され得るか、または計算され得るコードまたは命令(例えば、「プログラム」)と組み合わされたコンピューティングデバイスまたはプロセッサを指す。本明細書で使用されるように、「コード」という用語は、コンピューティングデバイスまたはプロセッサによって実行可能であるソフトウェア、命令、コードまたはデータを指すことがある。
[00366] ソフトウェアまたは命令は、また、伝送媒体を介して伝送され得る。例えば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者線(DSL)、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから伝送される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、伝送媒体の定義に含まれる。
[00367] 本明細書で開示された方法は、説明された方法を達成するための1つまたは複数のステップまたはアクションを備える。方法のステップおよび/またはアクションは、特許請求の範囲を逸脱することなく互いに交換され得る。言い換えれば、説明されている方法の適切な動作のために、ステップまたはアクションの特定の順序が必要とされない限り、特定のステップおよび/またはアクションの順序および/または使用は、特許請求の範囲を逸脱することなく、変更され得る。
[00368] 特許請求の範囲が上記に示した正確な構成と構成要素に制限されないことが理解されるべきである。特許請求の範囲を逸脱することなく、本明細書で説明されたシステム、方法、および装置の構成、動作、および詳細において、様々な修正、変更、および変形が行われ得る。
以下に、本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1] 電子デバイスによって音声信号品質を測定するための方法であって、
修正された単一チャネル音声信号を取得することと、
前記修正された単一チャネル音声信号に基づいて、複数の客観的ひずみを推定することと、ここにおいて、前記複数の客観的ひずみは、少なくとも1つの前景ひずみと、少なくとも1つの背景ひずみとを含む、
前記複数の客観的ひずみに基づいて、前景品質と背景品質とを推定することと、
前記前景品質および前記背景品質に基づいて、全体品質を推定することと
を備える方法。
[C2] 音声信号品質を測定することは複数の階層レベルを含む階層構造に従って行われ、ここにおいて、各階層レベルは任意の各相対的に低い階層レベルに依存する、C1に記載の方法。
[C3] 前記複数の階層レベルは3つのレベルを備え、ここにおいて、第1の階層レベルは前記複数の客観的ひずみを推定することを備え、第2の階層レベルは前記前景品質と前記背景品質とを推定することを備え、第3の階層レベルは前記全体品質を推定することを備える、C2に記載の方法。
[C4] 前記全体品質を推定することはさらに前記複数の客観的ひずみに直接基づく、C1に記載の方法。
[C5] 前記複数の客観的ひずみの各々は音声品質の独立した次元を表す、C1に記載の方法。
[C6] 前記前景ひずみは、粗さと、不連続性と、鈍さと、薄さとを含む、C1に記載の方法。
[C7] 前記背景ひずみは、ヒッシングと、変動性とを含む、C1に記載の方法。
[C8] 前記修正された単一チャネル音声信号は元の音声信号に基づく、C1に記載の方法。
[C9] 前記複数の客観的ひずみは元の音声信号を伴わなずに推定される、C1に記載の方法。
[C10] 元の音声信号を取得することをさらに備え、ここにおいて、前記複数の客観的ひずみを推定することはさらに前記元の音声信号に基づく、C1に記載の方法。
[C11] 音声信号品質を測定するための電子デバイスであって、
修正された単一チャネル音声信号に基づいて、複数の客観的ひずみを推定する計算形ひずみ推定器と、ここにおいて、前記複数の客観的ひずみは、少なくとも1つの前景ひずみと、少なくとも1つの背景ひずみとを含む、
前記計算形ひずみ推定器に結合された計算形前景品質推定器と、ここにおいて、前記計算形前景品質推定器は前記複数の客観的ひずみに基づいて前景品質を推定する、
前記計算形ひずみ推定器に結合された計算形背景品質推定器と、ここにおいて、前記計算形背景品質推定器は前記複数の客観的ひずみに基づいて背景品質を推定する、
前記計算形ひずみ推定器に結合された計算形全体品質推定器と、ここにおいて、前記計算形全体品質推定器は前記前景品質および前記背景品質に基づいて全体品質を推定する、
を備える電子デバイス。
[C12] 音声信号品質を測定することは複数の階層レベルを含む階層構造に従って行われ、ここにおいて、各階層レベルは任意の各相対的に低い階層レベルに依存する、C11に記載の電子デバイス。
[C13] 前記複数の階層レベルは3つのレベルを備え、ここにおいて、第1の階層レベルは前記複数の客観的ひずみを推定することを備え、第2の階層レベルは前記前景品質と前記背景品質とを推定することを備え、第3の階層レベルは前記全体品質を推定することを備える、C12に記載の電子デバイス。
[C14] 前記複数の客観的ひずみは元の音声信号を伴わずに推定される、C11に記載の電子デバイス。
[C15] 前記計算形ひずみ推定器は、さらに元の音声信号に基づいて前記複数の客観的ひずみを推定する、C11に記載の電子デバイス。
[C16] 命令をその上に有する非一時的有形コンピュータ可読媒体を備える、音声信号品質を測定するためのコンピュータプログラム製品であって、前記命令は、
電子デバイスに、修正された単一チャネル音声信号を取得させるためのコードと、
前記電子デバイスに、前記修正された単一チャネル音声信号に基づいて複数の客観的ひずみを推定させるためのコードと、ここにおいて、前記複数の客観的ひずみは少なくとも1つの前景ひずみと、少なくとも1つの背景ひずみとを含む、
前記電子デバイスに、前記複数の客観的ひずみに基づいて前景品質と背景品質とを推定させるためのコードと、
前記電子デバイスに、前記前景品質および前記背景品質に基づいて全体品質を推定するためのコードと
を備える、コンピュータプログラム製品。
[C17] 音声信号品質を測定することは複数の階層レベルを含む階層構造に従って行われ、ここにおいて、各階層レベルは任意の各相対的に低い階層レベルに依存する、C16に記載のコンピュータプログラム製品。
[C18] 前記複数の階層レベルは3つのレベルを備え、ここにおいて、第1の階層レベルは前記複数の客観的ひずみを推定することを備え、第2の階層レベルは前記前景品質と前記背景品質とを推定することを備え、第3の階層レベルは前記全体品質を推定することを備える、C17に記載のコンピュータプログラム製品。
[C19] 前記複数の客観的ひずみは元の音声信号を伴わずに推定される、C16に記載のコンピュータプログラム製品。
[C20] 前記電子デバイスに、元の音声信号を取得させるためのコードをさらに備え、ここにおいて、前記複数の客観的ひずみを推定することはさらに前記元の音声信号に基づく、C16に記載のコンピュータプログラム製品。
[C21] 音声信号品質を測定するための装置であって、
修正された単一チャネル音声信号を取得するための手段と、
前記修正された単一チャネル音声信号に基づいて複数の客観的ひずみを推定するための手段と、ここにおいて、前記複数の客観的ひずみは、少なくとも1つの前景ひずみと、少なくとも1つの背景ひずみとを含む、
前記複数の客観的ひずみに基づいて前景品質と背景品質とを推定するための手段と、
前記前景品質および前記背景品質に基づいて全体品質を推定するための手段と
を備える装置。
[C22] 音声信号品質を測定することは複数の階層レベルを含む階層構造に従って行われ、ここにおいて、各階層レベルは任意の各相対的に低い階層レベルに依存する、C21に記載の装置。
[C23] 前記複数の階層レベルは3つのレベルを備え、ここにおいて、第1の階層レベルは前記複数の客観的ひずみを推定することを備え、第2の階層レベルは前記前景品質と前記背景品質とを推定することを備え、第3の階層レベルは前記全体品質を推定することを備える、C22に記載の装置。
[C24] 前記全体品質を推定することはさらに前記複数の客観的ひずみに直接基づく、C21に記載の装置。
[C25] 前記複数の客観的ひずみの各々は音声品質の独立した次元を表す、C21に記載の装置。
[C26] 前記前景ひずみは、粗さと、不連続性と、鈍さと、薄さとを含む、C21に記載の装置。
[C27] 前記背景ひずみは、ヒッシングと、変動性とを含む、C21に記載の装置。
[C28] 前記修正された単一チャネル音声信号は元の音声信号に基づく、C21に記載の装置。
[C29] 前記複数の客観的ひずみは元の音声信号を伴わずに推定される、C21に記載の装置。
[C30] 元の音声信号を取得するための手段をさらに備え、ここにおいて、前記複数の客観的ひずみを推定することはさらに前記元の音声信号に基づく、C21に記載の装置。