JP2006522349A

JP2006522349A - 音声伝送システムの音声品質予測方法及びシステム

Info

Publication number: JP2006522349A
Application number: JP2006500043A
Authority: JP
Inventors: ベーレンズ，ジョン・ジェラード; ヴァン・デン・ホムバーグ，マルク・ヤン・クリスティアーン
Original assignee: コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ
Priority date: 2003-03-31
Filing date: 2004-02-26
Publication date: 2006-09-28
Anticipated expiration: 2024-02-26
Also published as: WO2004088638A1; DE602004010634D1; JP4570609B2; EP1611571A1; US20060171543A1; DE602004010634T2; DK1611571T3; ES2298725T3; EP1465156A1; EP1611571B1; US7313517B2; ATE381089T1

Abstract

音声伝送システム（１０）の伝送品質を測定する方法及びシステムが提供される。前処理手段（１２）は、入力信号（Ｘ）及び出力信号（Ｙ）を前処理して、各信号に対するピッチ・パワー密度（ＰＰＸ_{ＷＩＲＳＳ}（ｆ）_ｎ、ＰＰＹ_{ＷＩＲＳＳ}（ｆ）_ｎ）を取得する。補償手段（１３、１４）は、線形周波数応答及び時間変動利得を補償する。計算手段（１３、１４）は、補償されたピッチ・パワー密度からラウドネス密度（ＬＸ（ｆ）_ｎ及びＬＹ（ｆ）_ｎ）を計算し、計算手段（１５、１６）は、ラウドネス密度からシステム（１０）の伝送品質を示すスコア（Ｑ）を計算する。補償手段（１３、１４）は、それぞれが線形周波数応答の補償計算及びローカル・パワー・スケーリング係数計算のいずれかを含む少なくとも３つの補償計算を有する反復ループを備える。

Description

発明の分野
本発明は、被試験システムの伝送品質を測定する方法及びシステムであって、被試験システムに入力された入力信号と、被試験システムから生じた出力信号とを処理して、互いに比較する方法及びシステムに関する。

先行技術
２００１年２月に出されたＩＴＵ−ＴのＰ．８６２勧告「電話伝送品質、電話設置、ローカル・ライン・ネットワーク−客観的及び主観的品質評価方法−音声品質の知覚的評価方法（ＰＥＳＱ）、ナローバンド電話網及び音声コーデックのエンド・ツー・エンドの音声品質を評価する客観的方法」は、そのような方法及びシステムを開示する［８］。

また、Ｊ．Ｂｅｅｒｅｎｄｓらによる「音声品質の知覚的評価（ＰＥＳＱ）エンド・ツー・エンドの音声品質評価のための新しいＩＴＵ標準第２部−音響心理学モデル」（ＡＥＳジャーナル第５０巻第１０号、２００２年１０月）という記事にも、そのような方法及びシステムが記載されている［９］。

標準的な品質測定に適用される方法及びシステムは、被試験システムの周波数応答の大きな変化、及び入力信号と出力信号とのローカル・パワーの大きな差を正しく補償しないため、Ｐ．８６２の方法及びシステムには欠点が存在する。このため、本方法及びシステムにより提供される知覚音声品質と、試験者により評価された知覚音声品質との相関が低くなり得る。

発明の概要
本発明は、Ｐ．８６２の方法及びシステムにより測定された知覚音声品質と、試験者による実際の知覚音声品質との相関を向上させることを目的とする。

本発明は、上記の前文に定義された方法であって、線形周波数応答及び時間変動利得の補償が少なくとも３つの補償計算を有する反復ループを含み、個々の補償計算が、線形周波数応答の補償計算、及びローカル・パワー・スケーリング係数の計算のうちの一方を含む方法が提供される。

本発明は、特定の状況（ノイズの存在、被試験システムにおける大きな周波数応答偏差の存在）において、既存の標準的な方法では知覚音声品質が正確に測定されないという理解に基づく。

ノイズの存在下で周波数補償が計算される場合、エネルギーがほとんどない周波数領域において、周波数応答関数の誤った予測がもたらされる。周波数応答に大きな偏差を示すシステムを通過した信号に基づいて一時的なローカル・スケーリング係数が計算される場合、ローカル・スケーリング係数を正確に計算することができない。主観的に知覚される音声信号の品質が予測可能となるためには、両方の影響が正確に計算されなければならない。

本発明に従い、線形周波数補償の計算及びローカル・パワー・スケーリング係数の計算を、周波数補償及びローカル・スケーリング係数の反復的な計算で置き換えることにより、訂正がなされ得る。まず、必要な周波数補償の大まかな予測を計算することにより、即ち、通常実行される量にまで補償しないことにより、最終的な知覚品質の正確な予測に必要とされる一時的なローカル・スケーリング係数に関する一層良い予測をもたらし得る時間信号が取得される。このローカル・スケーリング計算の後に、必要な周波数補償の一層良い予測をもたらし得る時間信号が取得される。

全体として、これにより、本発明の方法を用いる音声品質予測の性能が改善される。また、他の状況においても、標準的な方法及びシステムの適用は悪影響をもたらさない。
ローカル・パワー・スケーリング係数の計算は、ＩＴＵ−Ｔ勧告Ｐ．８６２に記載された通りに、又は、代わりに、出願人の未公開の欧州特許出願第０２０７５９７３号［１０］に記載された通りに、実行され得る。該出願は、参照により本明細書に援用される。

特定の有利な実施の形態において、反復ループは、第１の部分的な線形周波数補償の計算、及び入力信号のピッチ・パワー密度への第１の部分的な線形周波数補償の適用と、それに続く、ローカル・パワー・スケーリング係数の計算、及び出力信号のピッチ・パワー密度へのローカル・パワー・スケーリング係数の適用と、それに続く、第２の部分的な線形周波数補償の計算、及び入力信号の部分補償されたピッチ・パワー密度への線形周波数補償の適用とを含む。更なる実施の形態において、入力信号及び出力信号へのピッチ・パワー密度への補償の適用が入れ替えられる。即ち、第１及び第２の部分的な線形周波数補償が、出力信号のピッチ・パワー密度に適用され、ローカル・パワー・スケーリング係数が、入力信号のピッチ・パワー密度に適用される。これらの実施の形態は、既存の標準化されたＰ．８６２の方法の変更をほとんど必要とせずに、その性能を改善する。

更なる実施の形態において、部分的な線形周波数補償は、（例えばＩＴＵ−Ｔ勧告Ｐ．８６２に規定された）線形歪みの正確な評価に利用され得る線形周波数補償より低い第１の予測であり、例えば、通常の線形周波数補償の５０％の振幅補正である。この部分補償は、例えば、他の周波数範囲より大きな部分補償が実行される周波数範囲を制限することにより、周波数に依存して実行され得る。例えば、約５００Ｈｚより低い低周波数ブーストをもたらす接近マイクロフォン技法により見出された周波数応答のみを補償することができる。

第２の態様において、本発明は、上記の前文に規定されたような音声伝送システムの伝送品質を測定するシステムであって、補償手段が、少なくとも３つの補償計算を有する反復ループを含むシステムに関する。個々の補償計算は、線形周波数応答の補償計算と、ローカル・パワー・スケーリング係数の計算とのいずれかを含む。該システム、及び従属請求項に記載のシステムは、上記方法の利点と同等の利点を有する。

本発明は、以下において、幾つかの例としての実施の形態を用い、添付の図面を参照して、より詳細に説明される。

例としての実施の形態の詳細な説明
図１は、人間の音声知覚及び認識モデルに基づき、ＩＴＵ−Ｔ勧告Ｐ．８６２［８］に従って音声リンク又はコーデックの知覚品質を予測するための客観的測定手法の既知の適用構成を概略的に示す。この手法又は装置に用いられる頭字語はＰＥＳＱ（音声品質の知覚的評価）である。該構成は、簡潔にするために以下システム１０と呼ぶ被試験システム又は電気通信ネットワーク１０と、提供される音声信号の知覚的分析のための品質測定装置１１とを備える。音声信号Ｘ_０（ｔ）が、一方ではシステム１０の入力信号として利用され、他方では、装置１１の第１の入力信号Ｘ（ｔ）として利用される。システム１０の出力信号Ｙ（ｔ）は、実際にシステム１０の影響を受けた音声信号Ｘ_０（ｔ）であり、装置１１の第２の入力信号として利用される。装置１１の出力信号Ｑは、システム１０を通過する音声リンクの知覚品質の予測を表す。音声リンクの入力端及び出力端は、特に電気通信ネットワークを通る場合には離れているため、品質測定装置１１の入力信号には、たいていの場合、データベースに格納された音声信号Ｘ（ｔ）が利用される。ここで、音声信号は、慣習的に、基本的に人間の聴覚で知覚可能な音声及び楽音のような個々の音を意味すると理解される。被試験システム１０は、もちろん、電気通信ネットワークをシミュレートするシミュレーション・システムであってもよい。装置１１は、前処理部１１．１において前処理手段１２により実行される前処理のステップと、処理部１１．２において第１の処理手段１３及び第２の処理手段１４により実行される更なる処理ステップと、信号結合部１１．３において信号差分手段１５及びモデル化手段１６により実行される結合信号処理ステップとを連続的に含む、主要な処理ステップを実行する。前処理ステップにおいて、信号Ｘ（ｔ）及びＹ（ｔ）は、手段１３及び１４における更なる処理ステップのために準備される。前処理には、パワー・レベル・スケーリング及び時間整列処理が含まれる。更なる処理ステップには、（劣化）出力信号Ｙ（ｔ）及び参照信号Ｘ（ｔ）の代表信号Ｒ（Ｙ）及びＲ（Ｘ）への人間の聴覚システムの精神物理学的知覚モデルに従ったマッピングが含まれる。結合信号処理ステップの期間に、前記の代表信号から差分手段１５により差信号又は外乱信号Ｄが決定される。信号Ｄは、次に、被験者の特定の性質がモデル化された認識モデルに従って、モデル化手段１６により処理され、品質信号Ｑが求められる。

ＰＥＳＱシステムにより実行される第１のステップにおいて、原入力と劣化出力との一連の遅延が、以前の時間間隔とは遅延が大きく異なる時間間隔ごとに計算される。これらの間隔それぞれについて、対応する開始点及び終了点が計算される。整列アルゴリズムは、特定の時間間隔に２つの遅延を有する確かさと、当該時間間隔に１つのみの遅延を有する確かさとの比較の原理に基づく。アルゴリズムは、無音期間及びアクティブな音声部分の期間の両方における遅延の変化を取り扱うことができる。

検出された一連の遅延に基づいて、ＰＥＳＱシステムは、原（入力）信号と、被試験装置の調節された劣化出力とを、知覚モデルを用いて比較する。この処理の要所は、原信号及び劣化信号を、知覚周波数（Ｂａｒｋ）及びラウドネス（Ｓｏｎｅ）を考慮して、人間の聴覚システムにおける音声信号の精神物理学的表現と類似する内部表現（ＬＸ、ＬＹ）へ変換することである。これは、時間整列、校正リスニング・レベルへのレベル整列、時間−周波数マッピング、周波数ワーピング、及び圧縮ラウドネス・スケーリングという幾つかの段階により達成される。

内部表現は、ローカル利得変化及び線形フィルタリングのような、激し過ぎなければほとんど知覚的に重要ではない効果を考慮するよう処理される。これは、補償の量を制限し、補償を影響より遅らせることにより達成される。こうして、原信号と劣化信号との間の小さな定常的な差が補償される。より重大な効果、又は急激な変化は、部分的にのみ補償されるため、残留効果が残り、全体としての知覚の外乱を助長する。これは、少数の品質インジケータを用いて全ての主観的効果をモデル化することを可能とする。ＰＥＳＱシステムでは、認識モデルにおいて２つのエラー・パラメータが計算される。これらは組み合わされて、客観的聴音品質ＭＯＳ（平均オピニオン・スコア）を与える。ＰＥＳＱシステムで用いられる基本的な考え方は、参考文献出典の［１］から［５］に記載される。

従来技術のＰＥＳＱシステムにおける知覚モデル
図２において、上記の通り、第１の信号処理手段１３、第２の信号処理手段１４及び差分手段１５を本質的に備える、装置１１の実現形態の一部（即ち、認識モデル部）が示される。

図２に示されるＰＥＳＱシステムの知覚モデルは、原音声信号と劣化音声信号との差（「ＰＥＳＱスコア」）を計算するために利用される。これは、所与の主観試験に対する主観的ＭＯＳの予測値を得るために、単調関数に通され得る。ＰＥＳＱスコアは、ＭＯＳに似た尺度にマッピングされる。

「絶対聴覚閾値」
絶対聴覚閾値Ｐ_０（ｆ）は、利用されるＢａｒｋ帯域の中央における値を得るために補間される。これらの値は配列に記憶され、ツビッカーのラウドネス公式において利用される。

「パワー・スケーリング係数及びラウドネス・スケーリング係数」
時間−周波数分析のためのＦＦＴに従う任意の利得定数が存在し、ラウドネス計算において、システムの校正を意味する。

「ＩＲＳ受信フィルタリング」
聴音試験が、ハンドセットにおけるＩＲＳ（中間参照システム）受信特性又は修正ＩＲＳ受信特性を用いて実行されると想定される場合、音声信号に対する必要なフィルタリングは、前処理（図１のセクション１１．１）において適用され、信号Ｘ_ＩＲＳＳ（ｔ）及びＹ_ＩＲＳＳ（ｔ）がもたらされる。

「アクティブな音声時間区間の計算」
原音声ファイル及び劣化音声ファイルが大きな無音区間で開始又は終了している場合、これは、それらのファイルにおける特定の平均ひずみ値の計算に影響し得る。そのため、これらのファイルの最初又は最後の無音部分が見積もられる。

「短期ＦＦＴ又は時間−周波数分解」
人間の耳は、時間−周波数変換を実行する。ＰＥＳＱシステムにおいて、これは、連続する時間ウィンドウ（フレーム）どうしのオーバーラップを有する短期ＦＦＴにより実現される。パワー・スペクトル、即ち複素数ＦＦＴ要素の実部の二乗と虚部の二乗との和は、原信号及び劣化信号について別々の実数値配列に格納される。単一のハニング窓内の位相情報はＰＥＳＱシステムにおいて廃棄され、全ての計算はパワー表現ＰＸ_{ＷＩＲＳＳ}（ｆ）_ｎ及びＰＹ_{ＷＩＲＳＳ}（ｆ）_ｎのみに基づく。劣化信号におけるウィンドウの始点は、遅延のために移動される。原音声信号の時間軸は、そのままに留められる。遅延が増加すると、劣化信号の一部が処理から省略され、遅延が減少すると、一部が繰り返される、

「ピッチ・パワー密度の計算」
Ｂａｒｋスケールは、人間の聴覚システムが低周波数において高周波数におけるよりも優れた周波数分解能を有することを反映する。これは、ＦＦＴ帯域をビンニングして、ＦＦＴ帯域の対応するパワーを加算し、加算された部分を正規化することにより実現される。Ｈｅｒｔｚの周波数スケールをＢａｒｋのピッチ・スケールにマッピングするワーピング関数は、与えられた通りの値に正確に従うのではない。結果としての信号は、ピッチ・パワー密度ＰＰＸ_{ＷＩＲＳＳ}（ｆ）_ｎ及びＰＰＹ_{ＷＩＲＳＳ}（ｆ）_ｎとして知られる。

「原ピッチ・パワー密度の補償（線形周波数応答補償）」
被試験システムのフィルタリングを扱うために、原ピッチ・パワー密度及び劣化ピッチ・パワー密度のパワー・スペクトルが時間平均される。この平均は、パワーが絶対聴音閾値の数分の１である時間−周波数セルを用いて、アクティブな音声フレームについてのみ計算される。修正されたＢａｒｋビンごとに、劣化スペクトルの原スペクトルに対する比率から部分補償係数が計算される。個々のフレームｎの原ピッチ・パワー密度ＰＰＸ_{ＷＩＲＳＳ}（ｆ）_ｎは、原信号を劣化信号と等しくするよう、この部分補償係数を乗じられる。この結果、逆フィルター処理された原ピッチ・パワー密度ＰＰＸ’_{ＷＩＲＳＳ}（ｆ）_ｎが得られる。厳格なフィルター処理は聴取者の妨げとなるため、この部分補償が利用される。ＡＣＲ実験において劣化信号が被験者により判断されるため、原信号に補償が実行される。

「ひずみのあるピッチ・パワー密度の補償（時間変動利得補償）」
短期利得変動は、ピッチ・パワー密度をフレームごとに処理（即ち、ローカル補償）することにより部分補償される。原ピッチ・パワー密度及び劣化ピッチ・パワー密度について、個々のフレームｎにおける絶対聴覚閾値を超える全ての値の合計が計算される。原ファイルと劣化ファイルとのパワー比率が計算され、所定の範囲に結び付けられる。（時間軸に沿った）第１次のローパス・フィルターが、この比率に適用される。各フレームｎにおけるひずみのあるピッチ・パワー密度は、この比率を乗じられて、部分的に利得補償されたひずみのあるピッチ・パワー密度ＰＰＹ’_{ＷＩＲＳＳ}（ｆ）_ｎを生ずる。

ローカル・スケーリング係数のこの部分的な補償又は計算は、出願人による継続中の未公開の欧州特許出願第０２０７５９７３．４号に記載された実施の形態を用いて実現され得る。該出願は、参照により本明細書に援用される（特に図３参照）。

「ラウドネス密度の計算」
フィルター処理と短期間利得変動とに対する補償の後で、原ピッチ・パワー密度及び劣化ピッチ・パワー密度が、ツビッカーの法則を用いてＳｏｎｅラウドネス・スケールに変換される［７］。即ち、

である。ただし、Ｐ_ｏ（ｆ）は絶対閾値であり、Ｓ_１はラウドネス・スケーリング係数である。４Ｂａｒｋより大きい場合、ツビッカー・パワーγは、与えられた通りの値である０．２３である。４Ｂａｒｋより小さい場合、ツビッカー・パワーは、いわゆる漸増効果を補償するようわずかに増加する。結果として生じる２次元配列ＬＸ（ｆ）_ｎ及びＬＹ（ｆ）_ｎはラウンドネス密度と言われる。

「外乱密度の計算」
ひずみのあるラウドネス密度と原ラウドネス密度との符号付きの差が計算される。この差が正である場合、ノイズなどの要素が追加されている。この差が負である場合、原信号から要素が欠落している。この差の配列は、未処理外乱密度と呼ばれる。

原ラウドネス密度と劣化ラウドネス密度との最小値が、時間周波数セルごとに計算される。これらの最小値は、０．２５を乗じられる。対応する二次元配列は、マスク配列と呼ばれる。以下の法則が、それぞれの時間−周波数セルに適用される。
・未処理外乱密度が正でありマスク値より大きい場合、マスク値が未処理外乱から減じられる。
・未処理外乱密度がマスク値の大きさの正の値と負の値との間にある場合、外乱密度はゼロに設定される。
・未処理外乱密度がマスク値の負の値より更に小さい場合、マスク値が未処理外乱密度に加算される。

最終的な効果は、未処理外乱密度がゼロに近づくことである。これは、実際の時間周波数セルがひずみとして知覚される前の不感帯を表している。これは、それぞれの時間−周波数セルにおける、大きな信号（マスク）が存在する場合には聞こえないような小さな差の処理をモデル化する。結果として、時間（ウィンドウ番号ｎ）及び周波数の関数としての外乱密度Ｄ（ｆ）_ｎがもたらされる。

外乱密度Ｄ（ｆ）_ｎをもたらすラウドネス密度ＬＸ（ｆ）_ｎ及びＬＹ（ｆ）_ｎの知覚的減算は、出願人の継続中の未公開の欧州特許出願第０２０７５９７３．４号の図４を参照して説明される通りに実現され得る。該出願は参照により、本明細書に援用される。

「非対称係数とのセルに関する乗算」
コーデックが入力信号をひずませる場合、入力信号と統合する新しい時間−周波数要素を導入することは一般に非常に難しいため、結果としての出力信号は入力信号とひずみという２つの異なる知覚対象に分解され、明らかに聞き取れるひずみをもたらすという事実により、非対称効果が引き起こされる［２］。コーデックが時間−周波数要素を無視する場合、結果としての出力信号は同様には分解され得ず、ひずみの不快さは小さくなる。この効果は、外乱密度Ｄ（ｆ）_ｎに非対称係数を乗じてフレームごとの非対称外乱密度ＤＡ（ｆ）_ｎを計算することによりモデル化される。この非対称係数は、１．２乗された、ひずみピッチ・パワー密度と原ピッチ・パワー密度との比率に等しい。非対称係数は、３より小さい場合に、ゼロに設定される。非対称係数が１２を超える場合、その値でクリッピングされる。従って、劣化ピッチ・パワー密度が原ピッチ・パワー密度を超える時間周波数セルのみが非ゼロの値として留まり得る。

「外乱密度の集計」
外乱密度Ｄ（ｆ）_ｎと非対称外乱密度ＤＡ（ｆ）_ｎとは、２つの異なるＬｐ標準と、ソフト・フレーム上の（ラウドネスの低い）重み付けとを用いて、周波数軸に沿って統合（加算）される。即ち、

である。ただし、Ｍ_ｎは１／（原フレームのパワーと定数との和）^０．０４である乗算係数であり、原音声フラグメントの静寂時におきる外乱の強調をもたらす。Ｗ_ｆは修正されたＢａｒｋビンの幅に比例する一連の定数である。この乗算の後、フレーム外乱値は最大４５に制限される。これらの集計された値Ｄ_ｎ及びＤＡ_ｎは、フレーム外乱と呼ばれる。

ひずみ信号が１６ｍｓ（ウィンドウの半分）より大きな遅延の減少を含む場合、繰返し戦略が修正される。客観音声品質の計算において、そのようなイベント期間のフレーム外乱は無視したほうがよいことがわかっている。その結果、これが起こる場合、フレーム外乱がゼロにされる。結果としてのフレーム外乱を、Ｄ’_ｎ及びＤＡ’_ｎと呼ぶ。

「不良区間の再整列」
閾値を超えるフレーム外乱を有する連続したフレームは、不良区間と呼ばれる。少数のケースにおいて、客観的測定は、前処理により観察された不正確な時間遅延に起因する最小数の不良フレームにおける大きなひずみを予測する。いわゆる不良区間に対して、絶対原信号と、前処理により観察された遅延に応じて調整された絶対劣化信号との相関を最大化することにより、新しい遅延値が予測される。最大化された相関が閾値を下回る場合、該区間はノイズどうしをマッチングしており、該区間はもはや不良と呼ばれず、該区間に対する処理が中止されることが結論付けられる。そうではない場合、不良区間のフレームに対するフレーム外乱が再計算され、より小さい場合には、原フレーム外乱と置き換えられる。結果として、知覚品質を計算するために利用される最終的なフレーム外乱Ｄ’’_ｎ及びＤＡ’’_ｎが得られる。

「瞬時区間内における外乱の集計」
次に、フレーム外乱値及び非対称フレーム外乱値が、Ｌ_６標準と、音声ファイル長の集合におけるのと同様のより高いｐ値とを用いて、２０フレームからなる瞬時区間（フレームの重なりを考慮すると約３２０ｍｓ）を通して集計される。これらの区間もまた、５０％ずつ重なりあい、窓関数は利用されない。

「信号の持続時間における外乱の統合」
瞬時外乱値及び非対称瞬時外乱値は、Ｌ_２標準を用いて、音声ファイルのアクティブな区間（対応するフレーム）を通して集計される。音声ファイルの第１のセンテンスがひずんだ場合でも他のセンテンスの品質はそのままであるのに対し、瞬時区間の一部がひずむとその瞬時が意味を失うという事実のために、音声ファイルの集合における低いｐ値よりも瞬時区間内の集合に対するｐ値は高くなる。

「ＰＥＳＱスコアの計算」
最終的なＰＥＳＱスコアは、平均外乱値と平均非対称外乱値との線形結合である。
上記の（ＩＴＵ−Ｔ勧告Ｐ．８６２に規定された）ＰＥＳＱ方法は、周波数応答変動に大きな差のある音声信号を正しく扱うことができないという欠陥を有する。周波数応答変動補償及びローカル・パワー・スケーリング補償は、不正確に計算されて、システム１０の音声品質の誤った計算がもたらされる。

本発明は、ノイズの存在下で周波数補償が計算されると、エネルギーがほとんどない周波数領域では、周波数応答関数の誤った予測が起こるという理解に基づく。周波数応答の大きな偏差を示すシステムを通過した信号に基づいて、一時的なローカル・スケーリング係数が計算される場合、ローカル・スケーリング係数は、正しく計算され得ない。音声信号の主観的知覚品質を予測するためには、両方の影響が正しく計算されなければならない。

図３は、図２に対応するＰＥＳＱ方法の知覚モデル部分の特定の有利な実施の形態を示す。しかし、線形周波数補償の計算と、ローカル・パワー・スケーリング係数の計算とは異なる。

線形周波数応答補償計算及びローカル・パワー・スケーリング係数計算は、反復ループに入れられる。まず、必要な周波数補償の大まかな予測が計算される。次に、線形ひずみの正確な評価のために利用され得る線形周波数補償より低い特定の線形周波数補償が計算される。例えば、通常の線形周波数補償の振幅訂正の５０％である。この部分補償は、他の周波数領域より大きな部分補償が実行される周波数領域を制限することにより、実行され得る。例えば、約５００Ｈｚより低い低周波数ブーストをもたらす近接マイクロフォン技術により見出された周波数応答変動のみを補償することが可能である。

通常実行される量までの補償を実行しないことにより、時間信号ＰＰＸ’_{ＷＩＲＳＳ}（ｆ）_ｎが取得される。該信号からは、最終的な知覚品質を正確に予測するために必要な一時的なローカル・スケーリング係数に関する一層良い見積もりがなされ得る。劣化信号ＰＰＹ_{ＷＩＲＳＳ}（ｆ）_ｎに適用されるこのローカル・スケーリング計算の後に、時間信号ＰＰＹ’_{ＷＩＲＳＳ}（ｆ）_ｎが取得され、該信号から、最終的に必要とされる周波数補償のより良い見積もりがなされる。部分的に補償された信号ＰＰＸ’_{ＷＩＲＳＳ}（ｆ）_ｎに適用される最終的な周波数補償（即ち、残りの周波数偏差に対する補償）は、最終信号ＰＰＸ’_{ＷＩＲＳＳ}（ｆ）_ｎをもたらす。結果としての信号ＰＰＹ’_{ＷＩＲＳＳ}（ｆ）_ｎ及びＰＰＸ’’_{ＷＩＲＳＳ}（ｆ）_ｎは、上記の通り、更に処理される（ラウドネス・スケールへのワーピング及びそれに続くステップ）。

本発明に対する更なる修正がなされ得ることは、当業者にとって明らかである。部分補償の量は、実験状況に適応され得る。また、まず部分的なローカル・パワー・スケーリング係数補償が計算及び適用されてから、線形周波数応答補償が計算及び適用され、最後に最終的なローカル・パワー・スケーリング係数が計算及び適用されてもよい。また、反復計算ステップにおける４つ以上のサブステップの利用も、本発明の範囲に含まれる。

参照により本明細書に援用される参考文献
[1] BEERENDS (J.G.)、STEMERDINK(J.A.)：音響心理学的音声表現に基づく知覚音声品質測定（A Perceptual Speech-Quality Measure Based on a Psychoacoustic Sound Representation）、ＡＥＳジャーナル第４２巻第３号、１１５−１２３頁、１９９４年３月。
[2] BEERENDS(J.G.)：音声品質知覚における役割を果たす認識効果のモデル化、品質評価（Modelling Cognitive Effects that Play a Role in the Perception of Speech Quality, Speech Quality Assessment）、Workshop papers、Boclmrum刊,１−９頁、１９９４年１１月。
[3] BEERENDS(J.G.)：音声及び音楽コーデックの品質測定、統合された音響心理学的アプローチ（Measuring the quality of speech and music codecs, an integrated psychoacoustic approach）、９８ｔ１２ＡＥＳコンベンション、事前印刷３９４５号、１９９５年。
[4] HOLLIER (M.P.)、HAWKSFORD (M.O.)、GUARD (D.R.):知覚ドメインにおける心理音響的重要性の測定としてのエラー・アクティビティ及びエラー・エントロピー（Error activity and error entropy as a measure of psychoacoustic significance in the perceptual domain,ＩＥＥＥ会報版、画像と信号処理第１４１（３）号、２０３−２０８頁、１９９４年６月。
[5] RIX (A.W.)、REYNOLDS(R.)、HOLLIER (M.P.)：音声及びパケット・ベースのネットワークにおけるエンド・ツー・エンドの音声品質の知覚的測定（Perceptual measurement of end-to-end speech quality over audio and packet-based networks）、第１０６回ＡＥＳコンベンション、事前印刷第４８７３号、１９９９年５月。
[6] HOLLIER (M.P.)、HAWKSFORD (M.O.)、GUARD (D.R.)：音声に類似した試験刺激を用いた通信システムの特徴決定（Characterization of communications systems using a speech-like test stimulus）、ＡＥＳジャーナル第４１巻第１２号、１００８−１０２１頁、１９９３年１２月。
[7] ZWICKER (Feldtkeller):報告受信としての聴覚（Das Ohr als Nachrichtenempfanger）、S. Hirzel Verlag、シュツットガルト、１９６７年。
[8] ＩＴＵ−Ｔ勧告Ｐ．８６２「音声品質の知覚的評価（ＰＥＳＱ）ナローバンド電話ネットワーク及び音声コーデックのエンド・ツー・エンドの音声品質の客観的評価方法」（"Perceptual evaluation of speech quality (PESQ), an objective method for en-to-end speech quality assessment of narrow-band telephone networks and speech codecs"）、ＩＴＵ−Ｔ２００１年２月。
[9] BEERENDS (J.G.)、HEKSTRA (A.P.)、RIX (A.W.)、HOLLIER (M. P.)：音声品質の知覚的評価（ＰＥＳＱ）エンド・ツー・エンドの音声品質評価のための新しいＩＴＵ標準第２部−音響心理学モデル（Perceptual Evaluation of Speech Quality (PESQ) The New ITU Standard for ENd-to-End Speech Quality Assessment Part II-Psychoacoustic Model）、ＡＥＳジャーナル第５０巻第１０号、２００２年１０月。
[10]欧州特許出願第ＥＰ０２０７５９７３号、出願人コニンクリジケＫＰＮＮ．Ｖ．。

図１は、ＩＴＵ−Ｔ勧告Ｐ．８６２に開示された従来技術のＰＥＳＱシステムを概略的に示す。図２は、図１のＰＥＳＱシステムで利用される知覚モデルの実現形態の図を示す。図３は、図２と同じであるが、本発明の実施の形態に係る方法の実行に適するよう修正されているＰＥＳＱを示す。

Claims

音声伝送システム（１０）の伝送品質を測定する方法であって、入力信号（Ｘ）が前記システム（１０）に入力されて出力信号（Ｙ）がもたらされ、前記入力信号（Ｘ）及び前記出力信号（Ｙ）が処理される方法において、
前記入力信号（Ｘ）及び出力信号（Ｙ）を前処理して、各信号に対するピッチ・パワー密度（ＰＰＸ_{ＷＩＲＳＳ}（ｆ）_ｎ、ＰＰＹ_{ＷＩＲＳＳ}（ｆ）_ｎ）を取得するステップと、
線形周波数応答及び時間変動利得を補償して、補償されたピッチ・パワー密度（ＰＰＸ’’_{ＷＩＲＳＳ}（ｆ）_ｎ、ＰＰＹ’_{ＷＩＲＳＳ}（ｆ）_ｎ）を取得するステップであって、線形周波数応答及び時間変動利得の前記補償が、それぞれが線形周波数応答の補償計算、及びローカル・パワー・スケーリング係数の計算のいずれかを含む少なくとも３つの補償計算を含む反復ループを備えるステップと、
前記の補償されたピッチ・パワー密度（ＰＰＸ’’_{ＷＩＲＳＳ}（ｆ）_ｎ、ＰＰＹ’_{ＷＩＲＳＳ}（ｆ）_ｎ）から、前記システム（１０）の伝送品質を示すスコア（Ｑ）を計算するステップと、
を備える方法。
請求項１記載の方法であって、前記反復ループが、
第１の部分的線形周波数補償を計算し、前記入力信号のピッチ・パワー密度（ＰＰＸ_{ＷＩＲＳＳ}（ｆ）_ｎ）に前記第１の部分的線形周波数補償を適用するステップと、
それに続く、ローカル・パワー・スケーリング係数を計算し、前記出力信号のピッチ・パワー密度（ＰＰＹ_{ＷＩＲＳＳ}（ｆ）_ｎ）に前記ローカル・パワー・スケーリング係数を適用するステップと、
それに続く、第２の部分的線形周波数補償を計算し、前記入力信号の部分補償されたピッチ・パワー密度（ＰＰＸ’_{ＷＩＲＳＳ}（ｆ）_ｎ）に前記線形周波数補償を適用するステップと、
を備える方法。
請求項１記載の方法であって、前記反復ループが、
第１の部分的線形周波数補償を計算し、前記出力信号のピッチ・パワー密度（ＰＰＹ_{ＷＩＲＳＳ}（ｆ）_ｎ）に前記第１の部分的線形周波数補償を適用するステップと、
それに続く、ローカル・パワー・スケーリング係数を計算し、前記入力信号のピッチ・パワー密度（ＰＰＸ_{ＷＩＲＳＳ}（ｆ）_ｎ）に前記ローカル・パワー・スケーリング係数を適用するステップと、
それに続く、第２の部分的線形周波数補償を計算し、前記出力信号の部分補償されたピッチ・パワー密度（ＰＰＹ’_{ＷＩＲＳＳ}（ｆ）_ｎ）に前記線形周波数補償を適用するステップと、
を備える方法。
請求項２又は３に記載の方法であって、前記第１の部分的線形周波数補償が、前記線形ひずみの正確な評価に必要とされる線形周波数補償より低い第１の予測である方法。
請求項４記載の方法であって、前記第１の部分的線形周波数補償が、周波数依存関数である方法。
音声伝送システム（１０）の伝送品質を測定するシステムであって、前記システム（１０）に入力信号（Ｘ）が入力されて出力信号（Ｙ）がもたらされる方法において、
各信号に対するピッチ・パワー密度（ＰＰＸ_{ＷＩＲＳＳ}（ｆ）_ｎ、ＰＰＹ_{ＷＩＲＳＳ}（ｆ）_ｎ）を取得するために、前記入力信号（Ｘ）及び前記出力信号（Ｙ）を前処理する前処理手段（１２）と、
補償されたピッチ・パワー密度（ＰＰＸ’’_{ＷＩＲＳＳ}（ｆ）_ｎ、ＰＰＹ’_{ＷＩＲＳＳ}（ｆ）_ｎ）を取得するために線形周波数応答及び時間変動利得を補償する補償手段（１３、１４）であって、それぞれが線形周波数応答の補償計算、及びローカル・パワー・スケーリング係数の計算のいずれかを含む少なくとも３つの補償計算を有する反復ループを含む補償手段（１３、１４）と、
前記補償されたピッチ・パワー密度（ＰＰＸ’’_{ＷＩＲＳＳ}（ｆ）_ｎ、ＰＰＹ’_{ＷＩＲＳＳ}（ｆ）_ｎ）から前記システム（１０）の伝送品質を示すスコア（Ｑ）を計算する計算手段（１５、１６）と、
を備えるシステム。
請求項６記載のシステムであって、前記反復ループが、
第１の部分的線形周波数補償を計算し、前記入力信号のピッチ・パワー密度（ＰＰＸ_{ＷＩＲＳＳ}（ｆ）_ｎ）に前記第１の部分的線形周波数補償を適用するステップと、
それに続く、ローカル・パワー・スケーリング係数を計算し、前記出力信号のピッチ・パワー密度（ＰＰＹ_{ＷＩＲＳＳ}（ｆ）_ｎ）に前記ローカル・パワー・スケーリング係数を適用するステップと、
それに続く、第２の部分的な線形周波数補償を計算し、前記入力信号の前記部分補償されたピッチ・パワー密度（ＰＰＸ’_{ＷＩＲＳＳ}（ｆ）_ｎ）に前記第２の部分的な線形周波数補償を適用するステップと、
を備えるシステム。
請求項６記載のシステムであって、前記反復ループが、
第１の部分的な線形周波数補償を計算し、前記出力信号のピッチ・パワー密度（ＰＰＹ_{ＷＩＲＳＳ}（ｆ）_ｎ）に前記第１の部分的な線形周波数補償を適用するステップと、
それに続く、ローカル・パワー・スケーリング係数を計算し、前記入力信号のピッチ・パワー密度（ＰＰＸ_{ＷＩＲＳＳ}（ｆ）_ｎ）に前記ローカル・パワー・スケーリング係数を適用するステップと、
それに続く、第２の部分的な線形周波数補償を計算し、前記出力信号の前記部分補償されたピッチ・パワー密度（ＰＰＹ’_{ＷＩＲＳＳ}（ｆ）_ｎ）に前記第２の部分的な線形周波数補償を適用するステップと、
を備えるシステム。
請求項７又は８に記載のシステムであって、前記第１の部分的な線形周波数補償が、前記線形ひずみの正確な評価に必要とされる線形周波数補償より低い第１の予測であるシステム。
請求項９記載のシステムであって、前記第１の部分的な線形周波数補償が周波数依存関数であるシステム。
処理システムにロードされた際に、請求項１〜５のいずれか１つに記載の方法を前記処理システムに実行させる、コンピューターで実行可能なソフトウェア・コードを含むソフトウェア・プログラム製品。