JP6522508B2

JP6522508B2 - 劣化音声信号の了解度を評価する方法およびそのための機器

Info

Publication number: JP6522508B2
Application number: JP2015542991A
Authority: JP
Inventors: ヘラルトベーレンツ，ヨン
Original assignee: ネーデルランツオルガニサティーフォールトゥーゲパスト‐ナトゥールヴェテンシャッペリークオンデルズークテーエンオー
Priority date: 2012-11-16
Filing date: 2013-11-15
Publication date: 2019-05-29
Anticipated expiration: 2033-11-15
Also published as: EP2920785B1; CA2891453C; EP2920785A1; AU2013345546B2; CA2891453A1; JP2015535100A; US20150340047A1; EP2733700A1; AU2013345546A1; CN104919525B; US9472202B2; WO2014077690A1; CN104919525A

Description

本発明は、例えば劣化音声信号を供給するために、オーディオ伝送システムを通じて基準音声信号を伝達することによって、前記オーディオ伝送システムから受信された前記劣化音声信号の了解度を評価する方法に関し、本方法は、前記基準音声信号を複数の基準信号フレームへサンプリングして、フレームごとに基準信号表現を確定すること；前記劣化音声信号を複数の劣化信号フレームへサンプリングして、フレームごとに劣化信号表現を確定すること；各基準信号フレームを対応する劣化信号フレームと関連付けることによってフレーム対を形成し、フレーム対ごとに前記劣化信号フレームと関連付けられた前記基準信号フレームとの間の差を表す差関数を供給することを備える。

本発明は、上記のような方法を行うための機器、およびコンピュータプログラムにさらに関する。

過去数十年の間に、客観的音声品質測定方法が知覚的測定アプローチを用いて開発され、展開されてきた。このアプローチでは、受聴試験においてオーディオ・フラグメントの品質を評価する知覚ベースのアルゴリズムが被験者の挙動をシミュレートする。音声品質に関しては、被験者がクリーンな基準音声フラグメントへのアクセスを有することなく劣化音声フラグメントの品質を判断する、いわゆる絶対範疇尺度受聴試験がほとんど用いられる。国際電気通信連合（ＩＴＵ：ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ）内で実施される受聴試験は、絶対範疇尺度（ＡＣＲ：ａｂｓｏｌｕｔｅｃａｔｅｇｏｒｙｒａｔｉｎｇ）５ポイント・オピニオン尺度をほとんどが用い、結果として、ＩＴＵ、知覚的音声品質尺度（ＰＳＱＭ：ＰｅｒｃｅｐｔｕａｌＳｐｅｅｃｈＱｕａｌｉｔｙＭｅａｓｕｒｅ（ＩＴＵ−ＴＲｅｃ．Ｐ．８６１，１９９６））、およびそのフォローアップである音声品質の知覚的評価（ＰＥＳＱ：ＰｅｒｃｅｐｔｕａｌＥｖａｌｕａｔｉｏｎｏｆＳｐｅｅｃｈＱｕａｌｉｔｙ（ＩＴＵ−ＴＲｅｃ．Ｐ．８６２，２０００））により標準化された客観的音声品質測定方法でもこれが用いられる。広帯域への拡張（５０〜７０００Ｈｚ）が２００５年に案出されたが、これらの測定標準の焦点は、狭帯域音声品質（オーディオ帯域幅１００〜３５００Ｈｚ）にある。ＰＥＳＱは、狭帯域音声データに関する主観受聴試験との非常に良好な相関および広帯域データに対する許容範囲内の相関を提供する。

新しい広帯域音声サービスが電気通信業界によって公表されるにつれて、性能が検証された、より高いオーディオ帯域幅が可能な先端的測定標準の必要性が顕在化した。それゆえに、ＩＴＵ−Ｔ（ＩＴＵ−Ｔｅｌｅｃｏｍｓｅｃｔｏｒ（ＩＴＵ電気通信標準化部門））研究グループ１２は、ＰＥＳＱの技術アップデートとして新しい音声品質アセスメント・アルゴリズムの標準化を開始した。新しい第３世代の測定標準ＰＯＬＱＡ（ＰｅｒｃｅｐｔｕａｌＯｂｊｅｃｔｉｖｅＬｉｓｔｅｎｉｎｇＱｕａｌｉｔｙＡｓｓｅｓｓｍｅｎｔ：知覚的客観受聴品質アセスメント）は、ＰＥＳＱＰ．８６２標準の欠点、例えば、線形周波数応答歪みの影響の誤ったアセスメント、Ｖｏｉｃｅ−ｏｖｅｒ−ＩＰに見られるような時間伸長／圧縮、ある種のコーデック歪みおよび残響を克服する。

ＰＯＬＱＡ（Ｐ．８６３）は、前の品質アセスメント・アルゴリズムＰＳＱＭ（Ｐ．８６１）およびＰＥＳＱ（Ｐ．８６２）に優る多くの改良を提供するが、ＰＯＬＱＡの現在のバージョンは、ＰＳＱＭおよびＰＥＳＱと同様に、基本的な知覚的主観的品質条件、すなわち了解度に対処できない。また、多くのオーディオ品質パラメータに依存するにも関わらず、了解度は、音響品質よりも情報伝送の方に密接に関係する。品質アセスメント・アルゴリズムの観点からは、音響品質とは対照的に、了解度の特質は、アルゴリズムに音声信号が人または聴衆によって評価された場合に割り当てられたであろうスコアとは食い違う評価スコアを生じさせる。情報共有の目的に注目して、人間は、分かりにくいが音響品質の点では同様の信号よりも、分かりやすい音声信号の方を高く評価するであろう。

大きな進歩が達成されているが、現在のモデルは、意外にも多くの場合に依然として人間の了解度評価スコアを正しく予測することができない。

本発明の目的は、先行技術の上述の不利点に対する解決法を追求し、人間によるアセスメントに最も近い方法でのその評価のために、音声信号の了解度を考慮に入れるように改良された（劣化）音声信号のアセスメントのための品質アセスメント・アルゴリズムを提供することである。

本発明は、例えば劣化音声信号を供給するために、オーディオ伝送システムを通じて基準音声信号を伝達することによって、前記オーディオ伝送システムから受信された前記劣化音声信号の了解度を評価する方法が提供されるという点でこれらの目的および他の目的を達成する。基準音声信号は、子音と母音との組み合わせからなる１つ以上のワードを少なくとも表す（伝達する）。基準音声信号は、複数の基準信号フレームへサンプリングされ、劣化音声信号は、複数の劣化信号フレームへサンプリングされる。基準信号フレームと劣化信号フレームとを互いに関連付けることによってフレーム対が形成される。本方法によれば、前記劣化信号フレームのパワーに基づく値と前記関連付けられた基準信号フレームのパワーに基づく値との間の差を表す差関数がフレーム対ごとに供給される。差関数は、例えば人間の聴知覚モデルに適合された擾乱密度関数をフレーム対ごとに供給するために、１つ以上の擾乱タイプに対して補償される。複数のフレーム対の擾乱密度関数から、総合的な品質パラメータが導出される。総合的な品質パラメータは、前記劣化音声信号の了解度を少なくとも指示する。特に、本方法は、基準音声信号によって伝達されたワードの少なくとも１つに対して、少なくとも１つのワードの少なくとも１つの子音と関連付けられた基準信号部分と劣化信号部分とを識別することも含む。識別された基準および劣化信号部分から、劣化信号部分および基準信号部分における信号パワーの比較に基づいて、劣化音声信号の擾乱の度合いが確定される。総合的な品質パラメータは、次に、少なくとも１つの子音と関連付けられた劣化音声信号の擾乱の確定された度合いに応じて補償される。

本発明は、音声信号中でワードの子音と符合する雑音および他の擾乱が母音と符合する同様の擾乱よりも情報転送には厄介で破壊的であると見なされることを認識して、了解度を取り扱う。このことは、母音が典型的に子音より大きい声で話されるという事実に関係する。そのうえ、ほとんどのタイプの擾乱の知覚は、平均して子音の知覚により類似しているように見え、一方で母音は、より弁別的である。それゆえに、比較的大きい擾乱の存在下で、母音は、しばしば正しく知覚されるが、一方で子音は、よりしばしば誤って知覚され、情報転送の失敗をもたらす。本発明の方法は、劣化音声信号中で子音と符合する、劣化音声信号において経験される擾乱の量に対して、取得された総合的な品質パラメータ（すなわち、シミュレートされた人間の評価スコア）を補償することによって、この態様を正しく考慮に入れる。

本発明の実施形態に従って、識別するステップは、複数の劣化信号フレームおよび基準信号フレームのそれぞれの信号パワーを第１の閾値および第２の閾値と比較して、前記信号パワーが第１の閾値より大きく、第２の閾値より小さければ、劣化信号フレームまたは基準信号フレームが少なくとも１つの子音と関連付けられると見なすことを備える。

基準（または劣化）音声信号中の子音に関係する信号部分は、信号における信号パワーに基づいて認識できる。特に、（クリーンな、すなわち、最適化された）基準信号を考慮すると、母音は、典型的に子音より大きい声で話されるため、基準信号を上側閾値と比較することは、分析されることになる信号部分から母音を除外することを可能にする。そのうえ、基準音声信号における信号パワーを下側閾値と比較することによって、音声情報を何も運ばないサイレント部分も除去できる。それゆえに、基準音声信号の信号パワーを下側および上側閾値と比較することによって、音声信号中の子音と関連付けられた信号部分を識別することを可能にする。

劣化音声信号中で子音と関連付けられた対応する信号部分は、劣化信号部分の信号フレームに対応する基準信号フレームを識別するタイムアライン・ルーチンによって見出される。劣化音声信号フレームも、識別された基準信号部分と関連付けられたフレーム対から取得できる。

本発明の別の実施形態に従って、劣化信号フレームごとの信号パワーが第１の周波数領域で算出され、各基準信号フレームにおける信号パワーが第２の周波数領域で算出される。第１の周波数領域は、話声および可聴雑音の第１の周波数範囲を含み、一方で第２の周波数領域は、（少なくとも）話声の第２の周波数範囲を含む。特に、さらなる実施形態に従って、第１の周波数範囲は、３００ヘルツと８０００ヘルツとの間とすることができ、第２の周波数範囲は、３００ヘルツと３５００ヘルツとの間とすることができる。劣化信号フレームおよび基準信号フレームの信号パワーをそれぞれ算出するために用いられる周波数領域間のこの差は、音声範囲外の任意の周波数成分を除外することによって基準信号フレームを理想化することを可能にし、一方で同時に、劣化音声信号における可聴擾乱が、劣化信号フレームに用いられるより広い周波数範囲によって考慮に入れられる。

本発明のさらなる実施形態に従って、識別するステップは、基準音声信号に関して、信号パワーが第１および第２の閾値の間にあるアクティブ音声信号フレームと、信号パワーが第３および第４の閾値の間にあるソフト音声信号フレームとを識別して、例えばアクティブ音声基準信号フレーム、ソフト音声基準信号フレームと、その関連付けられたアクティブ音声劣化信号フレーム、およびソフト音声劣化信号フレームとを生じさせるために、前記アクティブ音声信号フレームおよびソフト音声信号フレームを劣化信号フレームと関連付けることを備え、信号パワーの前記比較は、前記アクティブ音声基準信号フレーム、前記ソフト音声基準信号フレーム、前記アクティブ音声劣化信号フレーム、および前記ソフト音声劣化信号フレームの信号パワーを互いに比較することを備える。

上記の好ましい実施形態は、あまり重要でないアクティブ音声信号部分と比較してより重要なソフト音声信号部分の間に発生する擾乱に対して、総合的な品質パラメータを別様に補償することをこれが可能にするので、音声信号における子音の間の擾乱の影響をより正確に考慮に入れることができる。本発明のさらなる実施形態によれば、第１の閾値は、前記第３の閾値より小さく、第３の閾値は、前記第４の閾値より小さく、前記第４閾値は、前記第２の閾値より小さい。この実施形態に従って、アクティブ音声信号部分は、ソフト音声信号部分より広いパワー範囲の信号パワーに対応する。特に、第２の閾値は、例えば音声信号によって表されるワードにおいて１つ以上の母音と関連付けられた基準信号部分とその関連付けられた劣化信号部分とを除外するために選択できる。ここまでに説明されたように、音声信号では母音が典型的に子音より大きい声で話される。

本発明の好ましい実施形態に従って、信号パワーの比較は、平均アクティブ音声基準信号部分信号パワーＰ_{ａｃｔｉｖｅ，ｒｅｆ，ａｖｅｒａｇｅ}を算出し、平均ソフト音声基準信号部分信号パワーＰ_{ｓｏｆｔ，ｒｅｆ，ａｖｅｒａｇｅ}を算出し、平均アクティブ音声劣化信号部分信号パワーＰ_{ａｃｔｉｖｅ，ｄｅｇｒａｄｅｄ，ａｖｅｒａｇｅ}を算出し、平均ソフト音声劣化信号部分信号パワーＰ_{ｓｏｆｔ，ｄｅｇｒａｄｅｄ，ａｖｅｒａｇｅ}を算出すること；および子音−母音−子音信号対雑音比補償パラメータＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}を

、ここでΔ_１およびΔ_２は定数、として算出することによって、劣化音声信号の擾乱の度合いを確定することを備える。

ここまでに定義されたＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}を用いると、劣化音声信号において典型的に経験されるかかる擾乱の人間によるアセスメントに最も近い、子音の間の擾乱を考慮に入れるための非常に正確なパラメータが取得される。上記に関して、注目されるのは、ゼロによる割算を防ぐため、およびモデルの振舞いを被験者の振舞いに適合させるために、定数Δ_１およびΔ_２が加算されることである。

総合的な品質パラメータのこのタイプの補償は、多くの異なる方法で行うことができる。特に、かつ有利に、上記の擾乱密度関数を用いて算出された総合的な品質パラメータに補償係数を乗じることができる。特定の実施形態によれば、子音−母音−子音信号対雑音比補償パラメータＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}が０．７５より大きい場合、補償係数は、１．０とするとよく、一方で子音−母音−子音信号対雑音比補償パラメータＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}が０．７５より小さい場合、補償係数は、（ＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}＋０．２５）^１／２である。この実施形態では、総合的な品質パラメータは、子音の重要部分の間の擾乱が比較的大きい場合にのみ補償される。音声信号において母音の間に経験されるいかなる擾乱も考慮に入れられない。そのうえ、小さな擾乱も補償から除外される。

本発明は、方法ステップの特定のシーケンスに制限されない。総合的な品質パラメータの補償は、方法のどこで実装されてもよいが、補償は、方法の終り近くで、例えば、方法の出力において総合的な了解度パラメータを供給する前に容易に行うことができる。そのうえ、方法をステップのある一定のシーケンスに制限することなく、基準および／または劣化信号部分を識別するステップをフレームのサンプリング後かつ差関数の供給前に有利に行うことができる。

第２の態様によれば、本発明は、コンピュータによって実行されるときに上記の方法を行うためのコンピュータ実行可能なコードを備えるコンピュータプログラムを対象とする。

第３の態様によれば、本発明は、劣化音声信号の了解度を評価するために、第１の態様による方法を行うための機器を対象とし、機器は、基準音声信号を伝達するオーディオ伝送システムから前記劣化音声信号を受信するための受信ユニットであって、基準音声信号は、子音と母音との組み合わせからなる１つ以上のワードを少なくとも表し、受信ユニットは、基準音声信号を受信するようにさらに配置された、受信ユニット；前記基準音声信号の複数の基準信号フレームへのサンプリングのため、および前記劣化音声信号の複数の劣化信号フレームへのサンプリングのためのサンプリング・ユニット；前記基準信号フレームと前記劣化信号フレームとを互いに関連付けることによってフレーム対を形成するため、および前記劣化信号フレームのパワーに基づく値と前記関連付けられた基準信号フレームのパワーに基づく値との間の差を表す差関数をフレーム対ごとに供給するための処理ユニット；例えば人間の聴知覚モデルに適合された擾乱密度関数をフレーム対ごとに供給するために、１つ以上の擾乱タイプに対して前記差関数を補償するための補償器ユニットを備え、前記処理ユニットは、複数のフレーム対の前記擾乱密度関数から、前記劣化音声信号の前記了解度を少なくとも指示する総合的な品質パラメータを導出するようにさらに配置された、機器であって、前記処理ユニットは、基準音声信号によって表される前記ワードの少なくとも１つに関して、少なくとも１つのワードの少なくとも１つの子音と関連付けられた基準信号部分と劣化信号部分とを識別するため；識別された基準および劣化信号部分から、劣化信号部分および基準信号部分における信号パワーの比較に基づいて、劣化音声信号の擾乱の度合いを確定するため；ならびに、少なくとも１つの子音と関連付けられた劣化音声信号の擾乱の確定された度合いに応じて、総合的な品質パラメータを補償するためにさらに配置される。

本発明は、同封の図面を参照して、具体的な実施形態によりさらに説明される。

本発明による実施形態におけるＰＯＬＱＡ知覚モデルの第１の部分の概要を示す。本発明による実施形態におけるＰＯＬＱＡ知覚モデルに用いられる周波数アラインメントの例示的な概要を示す。本発明による実施形態における、図１に示された第１の部分の後に続く、ＰＯＬＱＡ知覚モデルの第２の部分の概要を示す。本発明による実施形態におけるＰＯＬＱＡ知覚モデルの第３の部分の概要である。本発明による実施形態におけるＰＯＬＱＡに用いられるマスキング・アプローチの概略である。本発明による実施形態におけるＰＯＬＱＡに用いられるマスキング・アプローチの概略である。本発明による実施形態におけるＰＯＬＱＡに用いられるマスキング・アプローチの概略である。本発明の方法による総合的な品質パラメータを補償する仕方の略図である。

ＰＯＬＱＡ知覚モデル
ＰＯＬＱＡ（ＩＴＵ−Ｔｒｅｃ．Ｐ．８６３）の基本的なアプローチは、ＰＥＳＱ（ＩＴＵ−Ｔｒｅｃ．Ｐ．８６２）において用いられているのと同じであり、すなわち、基準入力および劣化出力音声信号が人間による知覚のモデルを用いて内部表現上へマッピングされる。２つの内部表現の間の差は、認知モデルによって劣化信号の知覚される音声品質を予測するために用いられる。ＰＯＬＱＡに実装された重要な新しい考えは、基準入力信号における低レベルの雑音を除去して音色を最適化する理想化アプローチである。知覚モデルにおけるさらなる主要な変更は、知覚品質に対する再生レベルの影響のモデリング、および低および高レベルの歪みの処理における大きな乖離を含む。

ＰＯＬＱＡに用いられる知覚モデルの概要が図１から４に示される。図１は、基準入力信号Ｘ（ｔ）３および劣化出力信号Ｙ（ｔ）５の内側表現の算出に用いられる知覚モデルの第１の部分を示す。両方がスケーリングされ１７、４６、ピッチ−ラウドネス−時間の観点からの内部表現１３、１４が以下に記載される多くのステップで算出され、その後、差算出演算子７を用いて図１に示される差関数１２が算出される。２つの異なる種類の知覚差関数が、１つはシステムにより導入された総合的な擾乱に対して試験対象の演算子７および８を用い、１つは擾乱の付加部分に対して演算子９および１０を用いて算出される。これは、新しい時間−周波数成分の導入によって生じた劣化と比較して、基準信号から時間−周波数成分を除外することによって生じた劣化との間の影響における非対称性をモデリングする。ＰＯＬＱＡでは、１つは通常範囲の劣化に焦点を合わせ、１つは大きい劣化に焦点を合わせた、２つの異なるアプローチで両方の種類が算出されて、図１に示される４つの差関数算出７、８、９および１０を結果として生じる。

周波数領域ワーピング４９を伴う劣化出力信号には、図２に示されるアライン・アルゴリズム５２が用いられる。ＭＯＳ−ＬＱＯスコアを得るための最終処理は、図３および図４に示される。

ＰＯＬＱＡは、いくつかの基本的な定数設定の算出から開始して、その後、時間および周波数アラインされた時間信号から、基準および劣化のピッチ・パワー密度（時間および周波数の関数としてのパワー）が導出される。ピッチ・パワー密度から、多くのステップで基準および劣化の内部表現が導出される。そのうえ、これらの密度は、周波数応答歪み４１（ＦＲＥＱ）、加法性雑音４２（ＮＯＩＳＥ）および屋内残響４３（ＲＥＶＥＲＢ）に関する、第１の３つのＰＯＬＱＡ品質指標を導出する４０ためにも用いられる。これら３つの品質指標４１、４２および４３は、広範囲の異なる擾乱タイプにわたってバランスのとれた影響分析を可能にするために主要擾乱指標とは別に算出される。これらの指標は、音声信号に見出された劣化のタイプの劣化分解アプローチを用いたより詳細な分析にも用いることができる。

上述のように、基準および劣化の内部表現の４つの異なる変形が、２つの変形は通常の歪みおよび大きい歪みに関する擾乱に焦点を合わせ、２つは通常の歪みおよび大きい歪みに関する付加擾乱に焦点を合わせて、７、８、９および１０において算出される。これら４つの異なる変形７、８、９および１０が最終的な擾乱密度の算出への入力である。

基準３の内部表現は、基準における低レベルの雑音が除去され（ステップ３３）、元の基準録音の最適ではない音色から生じえた、劣化信号に見られるような音色歪みが部分的に補償される（ステップ３５）ため、理想的表現と呼ばれる。

演算子７、８、９および１０を用いて算出された理想的および劣化内部表現の４つの異なる変形は、１つが、時間および周波数の関数として、総合的な劣化に焦点を合わせた最終的な擾乱１４２を表し、１つが、時間および周波数の関数として、しかし付加劣化の処理に焦点を合わせた最終的な擾乱１４３を表す、２つの最終的な擾乱密度１４２および１４３を算出するために用いられる。

図４は、２つの最終的な擾乱密度１４２および１４３ならびにＦＲＥＱ４１、ＮＯＩＳＥ４２、ＲＥＶＥＲＢ４３指標からのＭＯＳ−ＬＱＯ、客観的ＭＯＳスコアの算出の概要を示す。

定数設定の事前計算
サンプル周波数に依存するＦＦＴウィンドウ・サイズ
ＰＯＬＱＡは、人間の聴覚システムの時間分析ウィンドウに合わせるために、ウィンドウ・サイズＷがそれぞれ２５６、５１２および２０４８サンプルに設定された３つの異なるサンプルレート、８、１６、および４８ｋＨｚサンプリングで動作する。連続するフレームの間の重なりは、ハン（Ｈａｎｎ）窓を用いると５０％である。パワー・スペクトル−複素ＦＦＴ成分の実数部の２乗と虚数部の２乗との和−が、基準および劣化信号の両方について別々の実数値アレイに記憶される。単一フレーム内の位相情報がＰＯＬＱＡでは破棄され、すべての算出は、パワー表現のみに基づく。

始終点算出
主観試験において、雑音は、通常、基準信号における音声活動の開始前に始まるであろう。しかしながら、主観試験では先行定常雑音が定常雑音の影響を減少させ、一方で先行雑音を考慮に入れた客観測定では先行雑音が影響を増加させると予測でき、従って、先行および後続雑音の削除が正しい知覚的アプローチであると思われる。それゆえに、利用可能なトレーニング・データで期待値を検証した後に、ＰＯＬＱＡ処理で用いられる始終点が基準ファイルの始めおよび終りから算出される。その位置を開始または終了として指定するためには、（通常の１６ビットＰＣＭ範囲−＋３２，０００を用いた）５つの連続する絶対サンプル値の和が、元の音声ファイルの始めおよび終りから５００を超えなければならない。この開始と終りとの間の間隔は、アクティブ処理間隔として定義される。この間隔外の歪みは、ＰＯＬＱＡ処理では無視される。

パワーおよびラウドネス・スケーリング係数ＳＰおよびＳＬ
時間から周波数へのＦＦＴ変換の校正のために、基準信号Ｘ（ｔ）の７３ｄＢＳＰＬへの校正を用いて、周波数１０００Ｈｚおよび振幅４０ｄＢＳＰＬの正弦波が生成される。この正弦波は、ステップ１８および４９でそれぞれＸ（ｔ）およびＹ（ｔ）に対するサンプリング周波数によって確定された長さをもつ窓付きＦＦＴを用いて周波数領域へ変換される。２１および５４で周波数軸をバーク尺度へ変換した後、結果として生じたピッチ・パワー密度のピーク振幅が、次に、それぞれＸ（ｔ）およびＹ（ｔ）に関するパワー・スケーリング係数ＳＰ２０および５５を用いた乗算によって１０^４のパワー値へ正規化される。

心理音響的（ソーン）ラウドネス尺度を校正するために、同じ４０ｄＢＳＰＬの基準音が用いられる。ツヴィッカー則を用いた強度軸のラウドネス尺度へのワーピング後に、バーク周波数スケールにわたるラウドネス密度の積分が、それぞれＸ（ｔ）およびＹ（ｔ）に関するラウドネス・スケーリング係数ＳＬ３１および５９を用いて３０および５８で１ソーンへ正規化される。

ピッチ・パワー密度のスケーリングおよび算出
劣化信号Ｙ（ｔ）５にデジタル領域におけるｄＢｏｖｅｒｌｏａｄから音響領域におけるｄＢＳＰＬへのマッピングに対処する校正係数Ｃ４７が乗じられ４６、次に、５０％重複ＦＦＴフレームを用いて時間−周波数領域へ変換される４９。基準信号Ｘ（ｔ）３は、時間−周波数領域へ変換される１８前に、約７３ｄＢＳＰＬ相当の所定の固定最適レベルへスケーリングされる１７。この校正手順は、劣化および基準の両方が所定の固定最適レベルへスケーリングされるＰＥＳＱで用いられる手順とは基本的に異なる。ＰＥＳＱは、すべてのプレイアウトが同じ最適再生レベルで実施されると仮定し、一方でＰＯＬＱＡでは、最適レベルに対して２０ｄＢから＋６への間の主観試験レベルが用いられる。ＰＯＬＱＡ知覚モデルでは、このように所定の固定最適レベルへのスケーリングを用いることができない。

レベル・スケーリング後に、基準および劣化信号は、窓付きＦＦＴアプローチを用いて時間−周波数領域へ変換される１８、４９。基準信号と比較したときに劣化信号の周波数軸がワープしているファイルに対して、ＦＦＴフレーム上で周波数領域におけるデワーピングが実施される。このデワーピングの第１のステップでは、非常に狭い周波数応答歪み、ならびに次の算出に対する総合的なスペクトル形状差の両方の影響を低減するために、基準および劣化ＦＦＴパワー・スペクトルの両方が前処理される。前処理７７は、パワー・スペクトルの平滑化、圧縮および平坦化に帰すことができる。平滑化演算は、７８で複数のＦＦＴ帯域にわたるパワーのスライディング窓平均を用いて行われ、一方で圧縮は、各帯域における平滑化パワーの対数７９を単にとることによって行われる。パワー・スペクトルの総合的な形状は、８０で複数のＦＦＴ帯域にわたる平滑化ｌｏｇパワーのスライディング窓正規化を行うことによってさらに平坦化される。次に、確率低調波ピッチ・アルゴリズム（ｓｔｏｃｈａｓｔｉｃｓｕｂｈａｒｍｏｎｉｃｐｉｔｃｈａｌｇｏｒｉｔｈｍ）を用いて、現在の基準および劣化フレームのピッチが計算される。次に、基準対劣化ピッチ割当量の比７４を用いて、可能なワーピング係数の範囲が（ステップ８４で）確定される。可能であれば、この検索範囲は、先行および後続フレーム対に関するピッチ比を用いることによって拡大される。

周波数アライン・アルゴリズムが、次に、検索範囲を通じて反復し、現在の反復のワーピング係数によって劣化パワー・スペクトルをワープし８５、上記の前処理７７を用いてワープ後パワー・スペクトルを処理する８８。処理された基準スペクトルと処理されたワープ後劣化スペクトルとの相関が、次に、１５００Ｈｚ未満のビンに関して（ステップ８９で）計算される。検索範囲を通じての完全な反復後に、「最良」（すなわち、最も高い相関をもたらした）ワーピング係数がステップ９０で読み出される。処理された基準スペクトルと最良ワープ後劣化スペクトルとの相関が、次に、元の処理された基準スペクトルと劣化スペクトルとの相関と比較される。設定閾値によって相関が増加すれば、次に、「最良」ワーピング係数が維持される９７。必要であれば、ワーピング係数は、前のフレーム対について確定されたワーピング係数に対する最大相対変化によって９８で制限される。

基準および劣化の周波数軸をアラインするのに必要かもしれないデワーピング後に、低周波数では人間の聴覚システムが高周波数よりも優れた周波数分解能を有することを反映して、Ｈｚ単位の周波数スケールがバーク単位のピッチ・スケールへステップ２１および５４でワープされる。これは、ＦＦＴ帯域をビニングし、ＦＦＴ帯域に対応するパワーを合計して、合計部分を正規化することによって実装される。ヘルツ単位の周波数スケールをバーク単位のピッチ・スケールへマッピングするワーピング関数は、この目的のために文献に示され、当業者に知られた値に近似する。結果として生じた基準および劣化信号は、ピッチ・パワー密度ＰＰＸ（ｆ）_ｎ（図１には示されない）およびＰＰＹ（ｆ）_ｎ５６として知られ、ｆはバーク単位の周波数であり、指数ｎはフレーム指数を表す。

音声アクティブ、サイレントおよびスーパーサイレント・フレームの計算（ステップ２５）
ＰＯＬＱＡは、ステップ２５で区別される３種類のフレーム上で動作する、すなわち、
・基準信号のフレーム・レベルが平均より約２０ｄＢ低いレベル超の音声アクティブ・フレーム、
・基準信号のフレーム・レベルが平均より約２０ｄＢ低いレベル未満のサイレント・フレーム、および
・基準信号のフレーム・レベルが平均レベルより約３５ｄＢ低いレベル未満のスーパーサイレント・フレーム。

周波数、雑音およびＲｅｖｅｒｂ指標の算出
周波数応答歪み、雑音および室内残響の大域的な影響がステップ４０で別々に数量化される。総合的、大域的な周波数応答歪みの影響に関しては、指標４１が、基準および劣化信号の平均スペクトルから算定される。加法性雑音とは独立に周波数応答歪みの影響を推定するために、劣化信号のピッチ・ラウドネス密度から、基準信号の複数のサイレント・フレームにわたる劣化の平均雑音スペクトル密度が減算される。結果として生じた劣化のピッチ・ラウドネス密度と基準のピッチ・ラウドネス密度とが、次に、基準および劣化ファイルに関してすべての音声アクティブ・フレームにわたってバーク帯域ごとに平均される。次に、これら２つの密度の間のピッチ・ラウドネス密度の差が、周波数応答歪み（ＦＲＥＱ：ｆｒｅｑｕｅｎｃｙｒｅｓｐｏｎｓｅｄｉｓｔｏｒｔｉｏｎ）の影響を数量化する指標４１を導出するためにピッチにわたって積分される。

加法性雑音の影響に関しては、指標４２が、基準信号の複数のサイレント・フレームにわたる劣化信号の平均スペクトルから算出される。複数のサイレント・フレームにわたる劣化の平均ピッチ・ラウドネス密度と基準ピッチ・ラウドネス密度ゼロとの間の差が、加法性雑音の影響を数量化する雑音ラウドネス密度関数を確定する。この雑音ラウドネス密度関数が、次に、平均雑音影響指標４２（ＮＯＩＳＥ）を導出するために、ピッチにわたって積分される。この指標４２は、雑音の多い基準信号を用いて測定される透過的なチェーンが、最終的なＰＯＬＱＡエンドツーエンド音声品質測定において最大ＭＯＳスコアを結果として供給することがないように、理想的なサイレンスからこのように算出される。

室内残響の影響に関しては、基準および劣化の時系列から経時的なエネルギー関数（ＥＴＣ）が算出される。ＥＴＣは、Ｙ_ａ（ｆ）＝Ｈ（ｆ）・Ｘ（ｆ）として定義される、システムＨ（ｆ）のインパルス応答ｈ（ｔ）の包絡線を表し、ここでＹ_ａ（ｆ）は劣化信号のレベル・アライン表現のスペクトル、Ｘ（ｆ）は基準信号のスペクトルである。レベル・アラインメントは、基準および劣化信号の間の大域的および局所的な利得差を抑圧するために実施される。インパルス応答ｈ（ｔ）は、逆離散フーリエ変換を用いてＨ（ｆ）から算出される。ＥＴＣは、正規化およびクリップを通じてｈ（ｔ）の絶対値から算出される。ＥＴＣに基づいて、３つまでの反射が検索される。第１のステップでは、直接音後のＥＴＣ曲線の最大値を単に確定することによって最大反射が算出される。ＰＯＬＱＡモデルでは、直接音は、６０ｍｓ内に到着するすべての音として定義される。次に、２番目に大きい反射が、最も大きい反射から１００ｍｓ以内に到着する反射を考慮に入れずに、直接音のない間隔にわたって確定される。次に、３番目に大きい反射が、最も大きい反射および２番目に大きい反射から１００ｍｓ以内に到着する反射を考慮に入れずに、直接音のない間隔にわたって確定される。３つの最も大きい反射のエネルギーおよび遅延が、次に、単一のｒｅｖｅｒｂ指標４３（ＲＥＶＥＲＢ）へ結合される。

基準信号の劣化信号への大域的および局所的なスケーリング（ステップ２６）
基準信号は、ステップ１７に従っていまや内部理想レベル、すなわち、約７３ｄＢＳＰＬ相当にあり、一方で劣化信号は、４６の結果として再生レベルと符合するレベルで表される。基準および劣化信号の間の比較がなされる前に、大域的なレベル差がステップ２６で補償される。そのうえ、受聴のみの状況では十分小さいレベルの変動は被験者にわからないという事実を踏まえて、局所的なレベルの小さい変化が部分的に補償される。大域的なレベルの等化２６は、４００および３５００Ｈｚの間の周波数成分を用いて、基準および劣化信号の平均パワーに基づいて行われる。基準信号が劣化信号の方へ大域的にスケーリングされ、結果として、この処理段階では大域的な再生レベル差の影響が維持される。同様に、ゆっくりと変動する利得歪みに関しては、約３ｄＢまでのレベル変更のために、基準および劣化音声ファイルの両方の全帯域幅を用いて局所的なスケーリングが実施される。

線形周波数応答歪みに対する元のピッチ・パワー密度の部分的補償（ステップ２７）
被試験システムでのフィルタリングによって誘起された、線形周波数応答歪みの影響を正しくモデリングするために、部分的補償アプローチがステップ２７で用いられる。主観試験における知覚不可能な中程度の線形周波数応答歪みをモデリングするために、被試験システムの伝達特性を用いて基準信号が部分的にフィルタされる。これは、すべての音声アクティブ・フレームにわたって元のピッチ・パワー密度および劣化ピッチ・パワー密度の平均パワー・スぺクトルを算出することによって実施される。バーク・ビンごとに、劣化スペクトルの元のスペクトルに対する比から部分的補償係数が算出される２７。

マスキング効果のモデリング、ピッチ・ラウドネス密度励振の算出
マスキングは、ピッチ・パワー密度のスミアされた表現を算出することによってステップ３０および５８でモデリングされる。図５ａから５ｃに示される原理に従って、時間および周波数領域スミアリングの両方が考慮に入れられる。時間−周波数領域スミアリングは、畳み込みアプローチを用いる。このスミアされた表現から、時間−周波数面において隣接する大きな成分によって部分的にマスクされた低振幅時間−周波数成分を抑圧して、基準および劣化ピッチ・パワー密度の表現が再算出される。この抑圧は、スミアされた表現のスミアされない表現からの減算、およびスミアされた表現によるスミアされない表現の除算の２つの異なる方法で実装される。結果として生じた尖鋭なピッチ・パワー密度の表現が、次に、ツヴィッカーのパワー則の修正版を用いてピッチ・ラウドネス密度の表現

に変換され、ＳＬはラウドネス・スケーリング係数、Ｐ０（ｆ）は絶対聴力閾値値、ｆＢおよびＰｆｎは、
ｆ＜２．０バークに対してｆ_Ｂ＝−０．０３^＊ｆ＋１．０６
２．０≦ｆ≦２２バークに対してｆ_Ｂ＝１．０
ｆ＞２２．０バークに対してｆ_Ｂ＝−０．２^＊（ｆ−２２．０）＋１．０６
Ｐ_ｆｎ＝（ＰＰＸ（ｆ）_ｎ＋６００）^{０．００８}
によって定義される周波数およびレベルに依存する相関であり、ｆはバーク単位の周波数、ＰＰＸ（ｆ）_ｎは周波数時間セルｆ、ｎにおけるピッチ・パワー密度を表す。結果として生じた２次元アレイＬＸ（ｆ）_ｎおよびＬＹ（ｆ）_ｎは、それぞれ基準信号Ｘ（ｔ）に対するステップ３０および劣化信号Ｙ（ｔ）に対するステップ５８の出力における、ピッチ・ラウドネス密度と呼ばれる。

基準および劣化信号における大域的な低レベル雑音抑圧
被試験システム（例えば、透過的なシステム）によって影響されない、基準信号における低レベルの雑音は、絶対範疇尺度試験手順ゆえに被験者によって被試験システムに帰されることになろう。従って、これらの低レベルの雑音は、基準信号の内部表現の算出において抑圧される必要がある。この「理想化処理」は、複数のスーパーサイレント・フレームにわたる基準信号ＬＸ（ｆ）_ｎの平均定常雑音ラウドネス密度をピッチの関数として算出することによってステップ３３で実施される。この平均雑音ラウドネス密度が、次に、基準信号のすべてのピッチ・ラウドネス密度フレームから部分的に減算される。結果は、ステップ３３の出力における、基準信号の理想化された内部表現である。

劣化信号において可聴な定常雑音は、非定常雑音より与える影響が少ない。このことは、すべてのレベルの雑音に当てはまり、この効果の影響は、劣化信号から定常雑音を部分的に除去することによってモデリングできる。これは、基準信号の対応するフレームがスーパーサイレントとして分類される複数の劣化信号ＬＹ（ｆ）_ｎフレームの平均定常雑音ラウドネス密度をピッチの関数として算出することによってステップ６０で実施される。この平均雑音ラウドネス密度が、次に、劣化信号のすべてのピッチ・ラウドネス密度フレームから部分的に減算される。部分的補償は、低および高レベルの雑音に対して異なる方策を用いる。低レベルの雑音では補償が最低限度であるに過ぎないが、大きい加法性雑音では用いられる抑圧がより積極的になる。結果は、理想化された無雑音の基準信号表現を用いた受聴試験において観察されるような、主観的な影響に適合された加法性雑音をもつ劣化信号の内部表現６１である。

上記のステップ３３では、大域的な低レベル雑音の抑圧を行うことに加えて、基準信号フレームごとにＬＯＵＤＮＥＳＳ指標３２も確定される。ＬＯＵＤＮＥＳＳ指標またはＬＯＵＤＮＥＳＳ値は、特定のタイプの歪みに重み付けするための、ラウドネスに依存する重み係数を確定するために用いることができる。重み付け自体は、最終的な擾乱密度１４２および１４３を供給する際に、演算子７、８、９および１０によって与えられる歪みの４つの表現に対してステップ１２５および１２５’で実装できる。

本明細書では、ラウドネス・レベル指標がステップ３３で確定されたが、当然のことながら、ラウドネス・レベル指標は、方法の別の部分で基準信号フレームごとに確定されてもよい。ステップ３３では、複数のスーパーサイレント・フレームにわたる基準信号ＬＸ（ｆ）_ｎに関して平均定常雑音ラウド密度がすでに確定され、次にそれがすべての基準フレームに対する無雑音の基準信号の構築に用いられるという事実ゆえに、ラウドネス・レベル指標を確定することが可能である。しかしながら、これをステップ３３で実装することは可能であるが、それが実装の最も好ましい方法というわけではない。

代わりに、ラウドネス・レベル指標（ＬＯＵＤＮＥＳＳ）は、ステップ３５に続く追加のステップで基準信号から取られてもよい。この追加のステップも、破線ライン出力（ＬＯＵＤＮＥＳＳ）３２’をもつ破線ボックス３５’として図１に示される。ステップ３５’でそこに実装された場合、当業者が理解できるように、もはやステップ３３からラウドネス・レベル指標を取る必要はない。

劣化および基準信号の間の時間的に変動する利得に関する歪んだピッチ・ラウドネス密度の局所的なスケーリング（ステップ３４および６３）
利得におけるゆっくりとした変動は、非可聴であり、小さい変化は、基準信号表現の算出ですでに補償されている。正しい内部表現が算出できる前に必要な残りの補償は、第１に劣化信号のラウドネスが基準信号のラウドネスより小さい信号レベルに関して基準がステップ３４で補償され、第２に基準信号のラウドネスが劣化信号のラウドネスより小さい信号レベルに関して劣化がステップ６３で補償される、２つのステップで実施される。

第１の補償３４は、劣化が深刻な信号損失を示す、例えば、時間クリップの状況における信号の部分に関して、基準信号をより低いレベルへスケーリングする。これは、基準と劣化の間に残存する差が局所的に知覚される音声品質に対する時間クリップの影響を表すようなスケーリングである。基準信号のラウドネスが劣化信号のラウドネスより小さい部分は補償されず、従って、加法性雑音および大きなクリックは、この第１のステップでは補償されない。

第２の補償６３は、劣化信号がクリックを示す信号の部分およびサイレント間隔に雑音がある信号の部分に関して、劣化信号をより低いレベルへスケーリングする。これは、基準と劣化の間に残存する差が局所的に知覚される音声品質に対するクリックおよびゆっくりと変化する加法性雑音の影響を表すようなスケーリングである。クリックは、サイレントおよび音声アクティブ部分の両方で補償されるのに対して、雑音は、サイレント部分においてのみ補償される。

線形周波数応答歪みに対する元のピッチ・ラウドネス密度の部分的な補償（ステップ３５）
知覚できない線形周波数応答歪みは、ステップ２７で基準信号をピッチ・パワー密度領域で部分的にフィルタすることによってすでに補償された。線形歪みが非線形歪みより不快でないという事実をさらに補正するために、次にステップ３５で基準信号がピッチ・ラウドネス領域で部分的にフィルタされる。これは、すべての音声アクティブ・フレームにわたって元のピッチ・ラウドネス密度と劣化ピッチ・ラウドネス密度との平均ラウドネス・スペクトルを算出することによって実施される。バーク・ビンごとに、劣化ラウドネス・スペクトルの元のラウドネス・スペクトルに対する比から、部分的補償係数が算出される。この部分的補償係数は、被試験システムの周波数応答の平滑化された、より低振幅のバージョンを用いて基準信号をフィルタするために用いられる。このフィルタ処理後に、線形周波数応答歪みから生じる基準および劣化ピッチ・ラウドネス密度の間の差が、知覚される音声品質に対する線形周波数応答歪みの影響を表すレベルへ縮小される。

ピッチ・ラウドネス密度の最終的なスケーリングおよび雑音抑圧
この時点まで、信号に関するすべての算出は、主観実験に用いられるような再生レベルで実施される。低再生レベルに関しては、これは、基準および劣化ピッチ・ラウドネス密度の間の小差と一般にあまりに楽観的な受聴音声品質の推定とをもたらすであろう。この効果を補償するために、次に劣化信号がステップ６４で「仮想的な」固定内部レベルへスケーリングされる。このスケーリング後に、基準信号がステップ３６で劣化信号レベルへスケーリングされ、基準および劣化信号のいずれも、今やそれぞれ３７および６５での最終的な雑音抑圧演算の準備ができている。この雑音抑圧は、音声品質の算出に依然として余りに大きな影響を与えるラウドネス領域における定常雑音レベルの最後の部分を処理する。結果として生じた信号１３および１４は、今や該当する知覚的内部表現領域内にあり、理想的ピッチ−ラウドネス−時間ＬＸｉｄｅａｌ（ｆ）_ｎ１３および劣化ピッチ−ラウドネス−時間ＬＹ_ｄｅｇ（ｆ）_ｎ１４関数から、擾乱密度１４２および１４３を算出できる。２つの変形（７および８）は通常の歪みおよび大きい歪みに関する擾乱に焦点を合わせ、２つ（９および１０）は通常の歪みおよび大きい歪みに関する付加擾乱に焦点を合わせた、理想的および劣化ピッチ−ラウドネス−時間関数の４つの異なる変形が７、８、９および１０で算出される。

最終的な擾乱密度の算出
２つの異なる種類の擾乱密度１４２および１４３が算出される。１番目の通常の擾乱密度は、理想的ピッチ−ラウドネス−時間ＬＸ_{ｉｄｅａｌ}（ｆ）_ｎと劣化ピッチ−ラウドネス−時間関数ＬＹ_ｄｅｇ（ｆ）_ｎとの間の差から７および８で導出される。２番目は、導入された劣化について最適化されたバージョンを用いて、理想的ピッチ−ラウドネス−時間および劣化ピッチ−ラウドネス−時間関数から９および１０で導出され、付加擾乱と呼ばれる。この付加擾乱の算出では、劣化パワー密度が基準パワー密度より大きい信号部分は、各ピッチ−時間セルにおけるパワー比に依存する係数、非対称係数を用いて重み付けされる。

広い範囲の歪みに対処できるように、１つは７および９に基づいて小から中程度の歪みに焦点を合わせ、１つは８および１０に基づいて中程度から大きい歪みに焦点を合わせた、２つの異なる処理バージョンが実施される。２つの間の切替えは、小から中程度レベルの歪みに焦点を合わせた擾乱からの第１の推定に基づいて実施される。この処理アプローチは、単一の擾乱関数および単一の付加擾乱関数（図３を参照）を算出できるように、４つの異なる理想的ピッチ−ラウドネス−時間関数および４つの異なる劣化ピッチ−ラウドネス−時間関数を算出する必要性につながり、これらの擾乱関数は、次に、多くの異なるタイプの深刻な量の特定の歪みに対して補償される。

最適受聴レベルの深刻な偏差は、劣化信号の信号レベルから直接に導出された指標によって１２７および１２７’で数量化される。この大域的な指標（ＬＥＶＥＬ）は、ＭＯＳ−ＬＱＯの算出にも用いられる。

フレーム・リピートによって導入された深刻な歪みは、基準信号の連続フレームの相関と劣化信号の連続フレームの相関との比較から導出された指標によって数量化される１２８および１２８’。

劣化信号の最適「理想」音色からの深刻な偏差は、上側周波数帯域と下側周波数帯域との間のラウドネスの差から導出された指標によって数量化される１２９および１２９’。音色指標は、劣化信号の低周波数部分での２および１２バークと上側範囲での７〜１７バークとの間の（すなわち、５バークの重複を用いた）バーク帯域におけるラウドネスの差から算出され、これが基準音声ファイルの不正確な声色の結果かもしれないという事実に関わらず、任意の深刻な不均衡を「罰する」。補償は、フレームごとに大域的なレベルで行われる。この補償は、劣化信号の（１２バーク未満および７バーク超の、すなわち、５バークの重複を用いた）下側および上側バーク帯域におけるパワーを算出して、これが基準音声ファイルの不正確な声色の結果かもしれないという事実に関わらず、任意の深刻な不均衡を「罰する」。あまりに多くの雑音および／または不正確な声色を含む、不十分に記録された基準信号を用いた透過的なチェーンは、結果として、ＰＯＬＱＡエンドツーエンド音声品質測定に最大ＭＯＳスコアを提供しないであろうということに留意すべきである。この補償は、透過的なデバイスの品質を測定するときにも影響も与える。最適「理想」音色からの著しい偏差を示す基準信号が用いられるときに、被試験システムは、たとえシステムが基準信号に劣化を何も導入しなくても非透過的であると判断されるであろう。

擾乱における深刻なピークの影響は、１３０および１３０’においてＭＯＳ−ＬＱＯの算出にも用いられるＦＬＡＴＮＥＳＳ指標で数量化される。

被験者の注意を雑音に集中させる深刻な雑音レベル変動は、１３１および１３１’において対応する基準信号フレームがサイレントである劣化信号フレームから導出された雑音コントラスト指標によって数量化される。

ステップ１３３および１３３’では、擾乱が実際の話声と符合するか否かに依存してそれに重み付けするために重み付け演算が行われる。劣化信号の了解度を評価するために、サイレント期間中に知覚された擾乱は、実際の話声の間に知覚された擾乱のように有害であるとは見なされない。それゆえに、基準信号からステップ３３（または代わりにステップ３５’）で確定されたＬＯＵＤＮＥＳＳ指標に基づいて、任意の擾乱に重み付けするための重み付け値が確定される。重み付け値は、劣化音声信号の了解度に対する擾乱の影響を評価に取り込むための差関数（すなわち、擾乱）に重み付けするために用いられる。特に、重み付け値は、ＬＯＵＤＮＥＳＳ指標に基づいて確定されるため、ラウドネスに依存する関数によって重み付け値を表すことができる。ラウドネスに依存する重み付け値は、ラウドネス値を閾値と比較することによって確定できる。ラウドネス指標が閾値を超えた場合、知覚された擾乱は、評価を行うときに完全に考慮に入れられる。それに対して、ラウドネス値が閾値より小さい場合には重み付け値がラウドネス・レベル指標に依存して作られ、すなわち、本例では重み付け値が（ＬＯＵＤＮＥＳＳが閾値未満である状態での）ラウドネス・レベル指標に等しい。利点は、音声信号の弱い部分に対して、例えば、休止またはサイレンスの直前の話し言葉の終端において、擾乱が了解度にとって有害であるとして部分的に考慮に入れられることである。例として、言葉の最後に文字「ｆ」をはっきりと言う間に知覚されるいくらかの雑音量が、これは文字「ｓ」であると受聴者に知覚させる可能性があることが理解されよう。これは、了解度にとって有害であろう。他方、ラウドネス値が上述の閾値より小さいときに重み付け値をゼロに変えることによって、サイレンスまたは休止の間の任意の雑音を単に無視することが可能なことも当事者は理解するであろう。

再び図３を続けると、アラインメントにおける深刻なジャンプが検出され、その影響がステップ１３６および１３６’で補償係数によって数量化される。

最後に、擾乱および付加擾乱密度が１３７および１３７’で最大レベルへクリップされ、擾乱１３８および１３８’の分散と基準信号のラウドネスにおけるジャンプ１４０および１４０’の影響とが、擾乱の特定の時間構造を補償するために用いられる。

これは、標準的な擾乱に関する最終的な擾乱密度Ｄ（ｆ）_ｎ１４２と付加擾乱に関する最終的な擾乱密度ＤＡ（ｆ）_ｎ１４３を生じさせる。

ピッチ、スパートおよび時間にわたる擾乱の集計、中間ＭＯＳスコアへのマッピング
最終的な擾乱Ｄ（ｆ）_ｎ１４２および付加擾乱ＤＡ（ｆ）_ｎ密度１４３がＬ_１積分１５３および１５９（図４を参照）を用いてピッチ軸にわたってフレームごとに積分され、１つは擾乱から導出され、１つは付加擾乱から導出されたフレームごとの２つの異なる擾乱

、Ｗ_ｆはバーク・ビンの幅に比例する一連の定数、を結果として生じる。

次に、フレームごとのこれら２つの擾乱が、それぞれ擾乱および付加擾乱に対するＬ_４１５５およびＬ_１１６０の重み付けを用いて、音声スパートとして定義される、６つの連続音声フレームの連鎖にわたって平均される。

最後に、擾乱および付加擾乱が、ファイルごとに時間にわたるＬ_２１５６および１６１の平均化から算出される。

付加擾乱は、大きい残響および大きい加法性雑音に対してＲＥＶＥＲＢ４２およびＮＯＩＳＥ４３指標を用いてステップ１６１で補償される。２つの擾乱は、次に、ＭＯＳ様中間指標１７１を得るために３次回帰多項式を用いて線形化された内部指標を導出すべく周波数指標４１（ＦＲＥＱ）と結合される１７０。

最終的なＰＯＬＱＡＭＯＳ−ＬＱＯの計算
生のＰＯＬＱＡスコアは、すべてステップ１７５で４つの異なる補償、すなわち、
・１つは周波数１４８、スパート１４９および時間１５０にわたるＬ_５１１集計を用いて算出され、１つは周波数１４５、スパート１４６および時間１４７にわたるＬ_３１３集計を用いて算出された、擾乱の特定の時間−周波数特性に対する２つの補償
・ＬＥＶＥＬ指標を用いた非常に低い表現レベルに対する１つの補償
・周波数領域におけるＦＬＡＴＮＥＳＳ指標を用いた大きい音色歪みに対する１つの補償
を用いて、ＭＯＳ様中間指標から導出される。

このマッピングのトレーニングは、ＰＯＬＱＡベンチマークの部分でなかった劣化を含めた、劣化の大きなセット上で実施される。これらの生のＭＯＳスコア１７６は、ＭＯＳ様中間指標１７１の算出に用いられた３次多項式マッピングによって、すでに大部分が線形化されている。

最後に、生のＰＯＬＱＡＭＯＳスコア１７６が、ＰＯＬＱＡ標準化の最終段階で利用可能であった６２のデータベースについて最適化された３次多項式を用いて１８０でＭＯＳ−ＬＱＯスコア１８１へマッピングされる。狭帯域モードでは最大ＰＯＬＱＡＭＯＳ−ＬＱＯスコアが４．５であり、一方で超広帯域モードではこのポイントが４．７５にある。理想化処理の重要な帰結は、基準信号が雑音を含むとき、または声色が深刻に歪んでいるときに、ある状況下では透過的なチェーンが狭帯域モードにおける４．５または超広帯域モードにおける４．７５の最大ＭＯＳスコアを提供しないであろうということである。

子音−母音−子音補正は、本発明に従って、次のように実装できる。図１において、基準信号フレーム２２０および劣化信号フレーム２４０は、説明されたように取得できる。例えば、基準信号フレーム２２０は、基準信号のバーク・ステップ２１へのワーピングから取得でき、一方で劣化信号フレームは、劣化信号に対して行われる対応するステップ５４から取得できる。図１に示されるような、基準信号フレームおよび／または劣化信号フレームが本発明の方法から得られる正確な位置は、専ら例であるに過ぎない。基準信号フレーム２２０および劣化信号フレーム２４０は、図１における他のステップのいずれか、特に基準信号Ｘ（ｔ）３の入力とステップ２６での劣化レベルへの大域的および局所的なスケーリングとの間のどこかから得られてもよい。劣化信号フレームは、劣化信号Ｙ（ｔ）５の入力とステップ５４との間のどこで取得されてもよい。

子音−母音−子音補償は、図６に示されるように続く。第１にステップ２２２では、基準信号フレーム２２０の信号パワーが所望の周波数領域内で算出される。基準フレームに関して、最適の状況におけるこの周波数領域は、音声信号のみ（例えば３００ヘルツと３５００ヘルツとの間の周波数範囲）を含む。次にステップ２２４では、算出された信号パワーを第１の閾値２２８および第２の閾値２２９と比較することによって、この基準信号フレームをアクティブ音声基準信号フレームとして含めるべきか否かについて選択が行われる。第１の閾値は、ＰＯＬＱＡ（ＩＴＵ−Ｔｒｅｃ．Ｐ．８６３）に記載されるように基準信号のスケーリングを用いるときには例えば７．０×１０^４に等しくするとよく、第２の閾値は２．０×２×１０^８に等しくするとよい。同様に、ステップ２２５では、算出された信号パワーを第３の閾値２３０および第４の閾値２３１と比較することによって、ソフト音声基準信号（子音の重要な部分）に対応する基準信号フレームが処理のために選択される。第３の閾値２３０は、例えば２．０×１０^７に等しくするとよく、第４の閾値は、例えば７．０×１０^７に等しくするとよい。

ステップ２２４および２２５は、それぞれアクティブ音声およびソフト音声部分に対応する基準信号フレーム、アクティブ音声基準信号部分フレーム２３４およびソフト音声基準信号部分フレーム２３５を生じさせる。これらのフレームが以下に考察されることになるステップ２６０へ供給される。

基準信号の関連する信号部分の算出とまったく同様に、劣化信号フレーム２４０も、初めにステップ２４２で、所望の周波数領域での信号パワーを算出するために分析される。劣化信号フレームに関しては、話声の周波数範囲および可聴雑音の大部分が存在する周波数範囲、例えば３００ヘルツと８０００ヘルツとの間の周波数範囲を含む周波数範囲内の信号パワーを算出することが有利であろう。

ステップ２４２で算出された信号パワーから、関連するフレーム、すなわち、関連する基準フレームと関連付けられたフレームが選択される。選択は、ステップ２４４および２４５で発生する。ステップ２４５では、劣化信号フレームごとにその劣化信号フレームが、ステップ２２５でソフト音声基準信号フレームとして選択された基準信号フレームと時間アラインされているか否かが判定される。劣化フレームがソフト音声基準信号フレームと時間アラインされていれば、劣化フレームがソフト音声劣化信号フレームとして識別されて、算出された信号パワーがステップ２６０での算出に用いられることになろう。そうでない場合には、このフレームが補償係数の算出のためのソフト音声劣化信号フレームとしてステップ２４７で破棄される。ステップ２４４では、劣化信号フレームごとにその劣化信号フレームが、ステップ２２４でアクティブ音声基準信号フレームとして選択された基準信号フレームと時間アラインされているか否かが判定される。劣化フレームがアクティブ音声基準信号フレームと時間アラインされていれば、劣化フレームがアクティブ音声劣化信号フレームとして識別されて、算出された信号パワーがステップ２６０での算出に用いられることになろう。そうでない場合には、このフレームが補償係数の算出のためのアクティブ音声劣化信号フレームとしてステップ２４７で破棄される。これは、ステップ２６０へ供給されるソフト音声劣化信号部分フレーム２５４とアクティブ音声劣化信号部分フレーム２５５とを生じさせる。

ステップ２６０は、入力としてアクティブ音声基準信号部分フレーム２３４、ソフト音声基準信号部分フレーム２３５、ソフト音声劣化信号部分フレーム２５４およびアクティブ音声劣化信号部分フレーム２５５を受信する。ステップ２６０では、例えば、アクティブ音声およびソフト音声基準信号部分、ならびにアクティブ音声およびソフト音声劣化信号部分の平均信号パワーを確定するために、これらのフレームの信号パワーが処理され、これから（やはりステップ２６０で）、子音−母音−子音信号対雑音割当量補償パラメータ（ＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}）が次のように算出される。

パラメータΔ_１およびΔ_２は、モデルの振舞いを被験者の振舞いに適合させるために用いられる定数値である。この数式における他のパラメータは、次の通りである。Ｐ_{ａｃｔｉｖｅ，ｒｅｆ，ａｖｅｒａｇｅ}は平均アクティブ音声基準信号部分信号パワーである。パラメータＰ_{ｓｏｆｔ，ｒｅｆ，ａｖｅｒａｇｅ}は平均ソフト音声基準信号部分信号パワーである。パラメータＰ_{ａｃｔｉｖｅ，ｄｅｇｒａｄｅｄ，ａｖｅｒａｇｅ}は平均アクティブ音声劣化信号部分信号パワーであり、パラメータＰ_{ｓｏｆｔ，ｄｅｇｒａｄｅｄ，ａｖｅｒａｇｅ}は平均ソフト音声劣化信号部分信号パワーである。ステップ２６０の出力では子音−母音−コンセナント信号対雑音比補償パラメータＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}が供給される。

ＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}は、ステップ２６２で閾値、本例では０．７５と比較される。ＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}がこの閾値より大きければ、ステップ２６５で補償係数が１．０に等しい（補償が何も発生しない）として確定されるであろう。ＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}が閾値（ここでは０．７５）より小さければ、ステップ２６７で補償係数が次のように算出される、すなわち、補償係数＝（ＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}＋０．２５）１／２（注：値０．２５は１．０−０．７５に等しく取られ、ここで０．７５はＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}を比較するために用いられる閾値である）。このように提供する補償係数２７０は、図４のステップ１８２でＭＯＳ−ＬＱＯスコア（すなわち、総合的な品質パラメータ）に対する乗数として用いられる。当然のことながら、（例えば、乗算による）補償は、必ずしもステップ１８２で発生する必要はなく、ステップ１７５または１８０のいずれか１つに統合されてもよい（その場合、図４の方式からステップ１８２は消える）。そのうえ、本例では、補償は、先に示されたように算出された補償係数をＭＯＳ−ＬＱＯスコアに乗じることによって達成される。当然のことながら、補償は、別の形態をとってもよい。例えば、ＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}に応じて、得られたＭＯＳ−ＬＱＯに変数を加減算することも可能であろう。当事者は、本教示に則して補償の他の意義を理解し、認識するであろう。

本発明は、本明細書に具体的に記載されるのと別様に実行されてもよく、本発明の範囲は、先述の具体的な実施形態および添付図面によって制限されないが、添付の請求項に定められた範囲内で変化してもよい。

３基準信号Ｘ（ｔ）
５劣化信号Ｙ（ｔ）、振幅−時間
６遅延識別、フレーム対を形成
７差算出
８差算出の第１の変形
９差算出の第２の変形
１０差算出の第３の変形
１２差信号
１３内部理想的ピッチ−ラウドネス−時間ＬＸ_{ｉｄｅａｌ}（ｆ）ｎ
１４内部劣化ピッチ−ラウドネス−時間ＬＹ_ｄｅｇ（ｆ）ｎ
１７固定レベルへの大域的なスケーリング
１８窓付きＦＦＴ
２０スケーリング係数ＳＰ
２１バークへのワープ
２５（スーパー）サイレント・フレーム検出
２６劣化レベルへの大域的＆局所的なスケーリング
２７部分的な周波数補償
３０励振およびソーンへのワープ
３１絶対閾値スケーリング係数ＳＬ
３２ＬＯＵＤＮＥＳＳ
３２’ ＬＯＵＤＮＥＳＳ（代替ステップ３５’に従って確定される）
３３大域的な低レベル雑音抑圧
３４局所的なスケーリングＹ＜Ｘの場合
３５部分的な周波数補償
３５’ （代替的に）ラウドネスを確定
３６劣化レベルへのスケーリング
３７大域的な低レベル雑音抑圧
４０ＦＲＥＱＮＯＩＳＥＲＥＶＥＲＢ指標
４１ＦＲＥＱ指標
４２ＮＯＩＳＥ指標
４３ＲＥＶＥＲＢ指標
４４ＰＷ＿Ｒ_{ｏｖｅｒａｌｌ}指標（劣化および基準信号の間の総合的なオーディオ・パワー比）
４５ＰＷ＿Ｒ_{ｆｒａｍｅ}指標（劣化信号と基準信号との間のフレームごとのオーディオ・パワー比）
４６再生レベルへのスケーリング
４７校正係数Ｃ
４９窓付きＦＦＴ
５２周波数アライン
５４バークへのワープ
５５スケーリング係数ＳＰ
５６劣化信号ピッチ−パワー−時間ＰＰＹ（ｆ）ｎ
５８励振およびソーンへのワープ
５９絶対閾値スケーリング係数ＳＬ
６０大域的な高レベル雑音抑圧
６１劣化信号ピッチ−ラウドネス−時間
６３局所的なスケーリングＹ＞Ｘの場合
６４固定内部レベルへのスケーリング
６５大域的な高レベル雑音抑圧
７０基準スペクトル
７２劣化スペクトル
７４現および＋／−１周辺フレームの基準および劣化ピッチの比
７７前処理
７８ＦＦＴスペクトルにおける狭いスパイクおよびドロップを平滑化
７９スペクトルの対数を取り、最小強度に関する閾値を適用
８０スライディング窓を用いて総合的な対数スペクトル形状を平坦化
８３最適化ループ
８４ワーピング係数の範囲：［最小ピッチ比≦１≦最大ピッチ比］
８５劣化スペクトルをワープ
８８前処理を適用
８９ビン＜１５００Ｈｚに関してスペクトルの相関を計算
９０最良ワーピング係数を追跡
９３劣化スペクトルをワープ
９４前処理を適用
９５ビン＜３０００Ｈｚに関してスペクトルの相関を計算
９７相関が十分であればワープされた劣化スペクトルを維持、そうでなければ元のスペクトルを復元
９８１つのフレームから次へのワーピング係数の変化を制限
１００理想的標準
１０１劣化標準
１０４理想的大きい歪み
１０５劣化大きい歪み
１０８理想的付加
１０９劣化付加
１１２理想的付加大きい歪み
１１３劣化付加大きい歪み
１１６擾乱密度標準選択
１１７擾乱密度大きい歪み選択
１１９付加擾乱密度選択
１２０付加擾乱密度大きい歪み選択
１２１切り替え機能１２３へのＰＷ＿Ｒ_{ｏｖｅｒａｌｌ}入力
１２２切り替え機能１２３へのＰＷ＿Ｒ_{ｆｒａｍｅ}入力
１２３大きい歪み決定（切り替え）
１２５深刻な量の特定の歪みに対する補正係数
１２５’ 深刻な量の特定の歪みに対する補正係数
１２７レベル
１２７’ レベル
１２８フレーム・リピート
１２８’ フレーム・リピート
１２９音色
１２９’ 音色
１３０スペクトル平坦度
１３０’ スペクトル平坦度
１３１サイレント期間における雑音コントラスト
１３１’ サイレント期間における雑音コントラスト
１３３ラウドネスに依存する擾乱重み付け
１３３’ ラウドネスに依存する擾乱重み付け
１３４基準信号のラウドネス
１３４’ 基準信号のラウドネス
１３６アライン・ジャンプ
１３６’ アライン・ジャンプ
１３７最大劣化へクリップ
１３７’ 最大劣化へクリップ
１３８擾乱分散
１３８’ 擾乱分散
１４０ラウドネス・ジャンプ
１４０’ ラウドネス・ジャンプ
１４２最終的な擾乱密度Ｄ（ｆ）ｎ
１４３最終的な付加擾乱密度ＤＡ（ｆ）ｎ
１４５Ｌ_３周波数積分
１４６Ｌ_１スパート積分
１４７Ｌ_３時間積分
１４８Ｌ_５周波数積分
１４９Ｌ_１スパート積分
１５０Ｌ_１時間積分
１５３Ｌ_１周波数積分
１５５Ｌ_４スパート積分
１５６Ｌ_２時間積分
１５９Ｌ_１周波数積分
１６０Ｌ_１スパート積分
１６１Ｌ_２時間積分
１７０中間ＭＯＳスコアへのマッピング
１７１ＭＯＳ様中間指標
１７５ＭＯＳスケール補償
１７６生のＭＯＳスコア
１８０ＭＯＳ−ＬＱＯへのマッピング
１８１ＭＯＳＬＱＯ
１８２ＣＶＣ了解度補償
１８５短い正弦波音の時間にわたる強度
１８７短い正弦波音
１８８第２の短い正弦波音に対するマスキング閾値
１９５短い正弦波音の周波数にわたる強度
１９８短い正弦波音
１９９第２の短い正弦波音に対するマスキング閾値
２０５３Ｄプロットでの周波数および時間にわたる強度
２１１尖鋭な内部表現をもたらす抑圧の強さとして用いられるマスキング閾値
２２０基準信号フレーム（図１も参照）
２２２音声領域（例えば、３００Ｈｚ〜３５００Ｈｚ）における信号パワーを確定
２２４信号パワーを第１および第２の閾値と比較し、範囲内にあれば選択
２２５信号パワーを第３および第４の閾値と比較し、範囲内にあれば選択
２２８第１の閾値
２２９第２の閾値
２３０第３の閾値
２３１第４の閾値
２３４アクティブ音声基準信号フレームのパワー平均
２３５ソフト音声基準信号フレームのパワー平均
２４０劣化信号フレーム（図１も参照）
２４２音声および可聴擾乱のための領域（例えば３００Ｈｚ〜８０００Ｈｚ）における信号パワーを確定
２４４劣化フレームは選択されたアクティブ音声基準信号フレームと時間アラインされているか？
２４５劣化フレームは選択されたソフト音声基準信号フレームと時間アラインされているか？
２４７フレームはアクティブ／ソフト音声劣化信号フレームとして破棄される。
２５４ソフト音声劣化信号フレームのパワー平均
２５５アクティブ音声劣化信号フレームのパワー平均
２６０子音−母音−子音信号対雑音比補償パラメータ（ＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}）を算出
２６２ＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}は補償のための閾値（例えば、０．７５）より小さいか
２６５いいえ→補償係数＝１．０（補償なし）
２６５はい→補償係数は（ＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}＋０．２５）^１／２
２７０ＭＯＳ−ＬＱＯを補償するためにステップ１８２へ補償値を供給

Claims

劣化音声信号を供給するために、オーディオ伝送システムを通じて基準音声信号を伝達することによって、前記オーディオ伝送システムから受信された前記劣化音声信号の了解度を評価する方法であって、前記基準音声信号は、子音と母音との組み合わせからなる１つ以上のワードを伝達し、
前記方法は、
−前記基準音声信号を複数の基準信号フレームへサンプリングし、前記劣化音声信号を複数の劣化信号フレームへサンプリングして、前記基準信号フレームおよび前記劣化信号フレームを互いに関連付けることによってフレーム対を形成すること；
−前記劣化信号フレームのパワーに基づく値と前記関連付けられた基準信号フレームのパワーに基づく値との間の差を表す差関数をフレーム対ごとに供給すること；
−例えば人間の聴知覚モデルに適合された擾乱密度関数をフレーム対ごとに供給するために、１つ以上の擾乱タイプに対して前記差関数を補償すること；
−複数のフレーム対の前記擾乱密度関数から、総合的な品質パラメータを導出することであって、前記品質パラメータは、前記劣化音声信号の前記了解度を少なくとも指示する、前記導出すること、を備え、
前記方法は、
−前記基準音声信号によって伝達された前記ワードの少なくとも１つに関して、前記少なくとも１つのワードの少なくとも１つの子音と関連付けられた基準信号部分と劣化信号部分とを識別するステップ；
−前記識別された基準および劣化信号部分から、前記劣化信号部分および前記基準信号部分における信号パワーの比較に基づいて、前記劣化音声信号の擾乱の度合いを確定するステップ；ならびに
−前記劣化音声信号における子音と符合する擾乱に対して前記総合的な品質パラメータに補償するために、前記総合的な品質パラメータを、前記少なくとも１つの子音と関連付けられた前記劣化音声信号の擾乱の前記確定された度合いに応じて補償するステップ、をさらに備える、方法。
識別する前記ステップは、前記基準音声信号の信号パワーに基づいて行われる、請求項１に記載の方法。
識別する前記ステップは、複数の基準信号フレームのそれぞれの信号パワーを第１の閾値および第２の閾値と比較して、前記信号パワーが前記第１の閾値より大きく、前記第２の閾値より小さければ、前記基準信号フレームの１つ以上は、前記少なくとも１つの子音と関連付けられると見なすことを備える、請求項１または２に記載の方法。
識別する前記ステップは、前記基準信号部分を識別した後に、前記少なくとも１つの子音と関連付けられた前記基準信号部分の基準信号フレームとの時間アラインメントを行うことによって、または前記少なくとも子音と関連付けられた基準信号フレームを含むフレーム対からの選択によって、前記少なくとも１つの子音と関連付けられた１つ以上の劣化信号フレームを選択することを備える、請求項１〜３のいずれかに記載の方法。
劣化信号フレームの前記信号パワーは、第１の周波数領域において算出され、基準信号フレームの前記信号パワーは、第２の周波数領域において算出され、前記第１の周波数領域は、話声および可聴雑音の第１の周波数範囲を含み、前記第２の周波数領域は、話声の第２の周波数範囲を含む、請求項１〜４のいずれかに記載の方法。
前記第１の周波数範囲は、３００Ｈｚと８０００Ｈｚとの間である、請求項５に記載の方法。
前記第２の周波数範囲は、３００Ｈｚと３５００Ｈｚとの間である、請求項５に記載の方法。
識別する前記ステップは、
前記基準音声信号に関して、前記信号パワーが第１および第２の閾値の間にあるアクティブ音声信号フレームと、前記信号パワーが第３および第４の閾値の間にあるソフト音声信号フレームとを識別して、例えばアクティブ音声基準信号フレーム、ソフト音声基準信号フレーム、アクティブ音声劣化信号フレーム、およびソフト音声劣化信号フレームを生じさせるために、前記アクティブ音声信号フレームおよびソフト音声信号フレームを劣化信号フレームと関連付けること、を備え、
信号パワーの前記比較は、前記アクティブ音声基準信号フレーム、前記ソフト音声基準信号フレーム、前記アクティブ音声劣化信号フレーム、および前記ソフト音声劣化信号フレームの信号パワーを互いに比較することを備える、請求項１〜７のいずれかに記載の方法。
前記第１の閾値は、前記第３の閾値より小さく、前記第３の閾値は、前記第４の閾値より小さく、かつ前記第４閾値は、前記第２の閾値より小さい、請求項８に記載の方法。
前記第２の閾値は、例えば１つ以上の母音と関連付けられた基準信号フレームまたは劣化信号フレームを除外するために選択される、請求項９に記載の方法。
信号パワーの前記比較は、
平均アクティブ音声基準信号部分信号パワーＰ_{ａｃｔｉｖｅ，ｒｅｆ，ａｖｅｒａｇｅ}を算出し、平均ソフト音声基準信号部分信号パワーＰ_{ｓｏｆｔ，ｒｅｆ，ａｖｅｒａｇｅ}を算出し、平均アクティブ音声劣化信号部分信号パワーＰ_{ａｃｔｉｖｅ，ｄｅｇｒａｄｅｄ，ａｖｅｒａｇｅ}を算出し、平均ソフト音声劣化信号部分信号パワーＰ_{ｓｏｆｔ，ｄｅｇｒａｄｅｄ，ａｖｅｒａｇｅ}を算出すること；および
子音−母音−子音信号対雑音比補償パラメータＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}を

、ここでΔ１およびΔ２は定数、として算出することによって、前記劣化音声信号の擾乱の前記度合いを確定すること、を備える、請求項８〜１０のいずれかに記載の方法。
補償する前記ステップは、前記総合的な品質パラメータに補償係数を乗じることによって行われる、請求項１〜１１のいずれかに記載の方法。
補償する前記ステップは、前記総合的な品質パラメータに補償係数を乗じることによって行われ、
前記子音−母音−子音信号対雑音比補償パラメータＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}が０．７５より大きければ、前記補償係数は１．０であり；
前記子音−母音−子音信号対雑音比補償パラメータＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}が０．７５より小さければ、前記補償係数は、（ＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}＋０．２５）^１／２である、請求項１１に記載の方法。
コンピュータ上で実行されるときに、請求項１〜１３のいずれかによる方法を行うためのコンピュータ実行可能なコードを備えるコンピュータプログラム。
劣化音声信号の了解度を評価するために、請求項１〜１３のいずれかによる方法を行うための機器であって、
前記機器は、
−基準音声信号を伝達するオーディオ伝送システムから前記劣化音声信号を受信するための受信ユニットであって、前記基準音声信号は、子音と母音との組み合わせからなる１つ以上のワードを少なくとも表し、前記受信ユニットは、前記基準音声信号を受信するようにさらに配置された、受信ユニット；
−前記基準音声信号の複数の基準信号フレームへのサンプリングのため、および前記劣化音声信号の複数の劣化信号フレームへのサンプリングのためのサンプリング・ユニット；
−前記基準信号フレームと前記劣化信号フレームとを互いに関連付けることによってフレーム対を形成するため、および前記劣化信号フレームのパワーに基づく値と前記関連付けられた基準信号フレームのパワーに基づく値との間の差を表す差関数をフレーム対ごとに供給するための処理ユニット；
−例えば人間の聴知覚モデルに適合された擾乱密度関数をフレーム対ごとに供給するために、１つ以上の擾乱タイプに対して前記差関数を補償するための補償器ユニット、を備え、
−前記処理ユニットは、複数のフレーム対の前記擾乱密度関数から、前記劣化音声信号の前記了解度を少なくとも指示する総合的な品質パラメータを導出するようにさらに配置された、機器であって、
前記処理ユニットは、
−前記基準音声信号によって表される前記ワードの少なくとも１つに関して、前記少なくとも１つのワードの少なくとも１つの子音と関連付けられた基準信号部分と劣化信号部分とを識別するように、
−前記識別された基準および劣化信号部分から、前記劣化信号部分および前記基準信号部分における信号パワーの比較に基づいて、前記劣化音声信号の擾乱の度合いを確定するように、ならびに、
−前記少なくとも１つの子音と関連付けられた前記劣化音声信号の擾乱の前記確定された度合いに応じて、前記総合的な品質パラメータを補償するようにさらに配置された、機器。
前記識別を行うために、前記処理ユニットは、
前記基準音声信号に関して、前記信号パワーが第１および第２の閾値の間にあるアクティブ音声信号フレームと、前記信号パワーが第３および第４の閾値の間にあるソフト音声信号フレームとを識別して、アクティブ音声基準信号フレーム、ソフト音声基準信号フレーム、アクティブ音声劣化信号フレーム、およびソフト音声劣化信号フレームを供給するために、前記アクティブ音声信号フレームおよびソフト音声信号フレームを劣化信号フレームと関連付ける、ようにさらに配置され、
信号パワーの前記比較を行うために、前記処理ユニットは、前記アクティブ音声基準信号フレーム、前記ソフト音声基準信号フレーム、前記アクティブ音声劣化信号フレーム、および前記ソフト音声劣化信号フレームの信号パワーを互いに比較するように配置された、請求項１５に記載の機器。
前記比較を行うために、前記処理ユニットは、
平均アクティブ音声基準信号部分信号パワーＰ_{ａｃｔｉｖｅ，ｒｅｆ，ａｖｅｒａｇｅ}を算出し、平均ソフト音声基準信号部分信号パワーＰ_{ｓｏｆｔ，ｒｅｆ，ａｖｅｒａｇｅ}を算出し、平均アクティブ音声劣化信号部分信号パワーＰ_{ａｃｔｉｖｅ，ｄｅｇｒａｄｅｄ，ａｖｅｒａｇｅ}を算出し、平均ソフト音声劣化信号部分信号パワーＰ_{ｓｏｆｔ，ｄｅｇｒａｄｅｄ，ａｖｅｒａｇｅ}を算出するように；および
子音−母音−子音信号対雑音比補償パラメータＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}を

、ここでΔ１およびΔ２は定数、として算出することによって、前記劣化音声信号の擾乱の前記度合いを確定するように、さらに配置された、請求項１６に記載の機器。
前記補償を行うために、前記処理ユニットは、
前記総合的な品質パラメータに補償係数を乗じるようにさらに配置され、前記子音−母音−子音信号対雑音比補償パラメータＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}が０．７５より大きければ、前記補償係数は１．０であり、前記子音−母音−子音信号対雑音比補償パラメータＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}が０．７５より小さければ、前記補償係数は、（ＣＶＣ_{ＳＮＲ＿ｆａｃｔｏｒ}＋０．２５）^１／２である、請求項１７に記載の装置。