JP4570609B2 - 音声伝送システムの音声品質予測方法及びシステム - Google Patents

音声伝送システムの音声品質予測方法及びシステム Download PDF

Info

Publication number
JP4570609B2
JP4570609B2 JP2006500043A JP2006500043A JP4570609B2 JP 4570609 B2 JP4570609 B2 JP 4570609B2 JP 2006500043 A JP2006500043 A JP 2006500043A JP 2006500043 A JP2006500043 A JP 2006500043A JP 4570609 B2 JP4570609 B2 JP 4570609B2
Authority
JP
Japan
Prior art keywords
wirss
power density
ppx
pitch power
compensation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006500043A
Other languages
English (en)
Other versions
JP2006522349A (ja
Inventor
ベーレンズ,ジョン・ジェラード
ヴァン・デン・ホムバーグ,マルク・ヤン・クリスティアーン
Original Assignee
コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ filed Critical コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ
Publication of JP2006522349A publication Critical patent/JP2006522349A/ja
Application granted granted Critical
Publication of JP4570609B2 publication Critical patent/JP4570609B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Transmitters (AREA)

Description

発明の分野
本発明は、被試験システムの伝送品質を測定する方法及びシステムであって、被試験システムに入力された入力信号と、被試験システムから生じた出力信号とを処理して、互いに比較する方法及びシステムに関する。
先行技術
2001年2月に出されたITU−TのP.862勧告「電話伝送品質、電話設置、ローカル・ライン・ネットワーク−客観的及び主観的品質評価方法−音声品質の知覚的評価方法(PESQ)、ナローバンド電話網及び音声コーデックのエンド・ツー・エンドの音声品質を評価する客観的方法」は、そのような方法及びシステムを開示する[8]。
また、J.Beerendsらによる「音声品質の知覚的評価(PESQ) エンド・ツー・エンドの音声品質評価のための新しいITU標準第2部−音響心理学モデル」(AESジャーナル第50巻第10号、2002年10月)という記事にも、そのような方法及びシステムが記載されている[9]。
標準的な品質測定に適用される方法及びシステムは、被試験システムの周波数応答の大きな変化、及び入力信号と出力信号とのローカル・パワーの大きな差を正しく補償しないため、P.862の方法及びシステムには欠点が存在する。このため、本方法及びシステムにより提供される知覚音声品質と、試験者により評価された知覚音声品質との相関が低くなり得る。
発明の概要
本発明は、P.862の方法及びシステムにより測定された知覚音声品質と、試験者による実際の知覚音声品質との相関を向上させることを目的とする。
本発明は、上記の前文に定義された方法であって、線形周波数応答及び時間変動利得の補償が少なくとも3つの補償計算を有する反復ループを含み、個々の補償計算が、線形周波数応答の補償計算、及びローカル・パワー・スケーリング係数の計算のうちの一方を含む方法が提供される。
本発明は、特定の状況(ノイズの存在、被試験システムにおける大きな周波数応答偏差の存在)において、既存の標準的な方法では知覚音声品質が正確に測定されないという理解に基づく。
ノイズの存在下で周波数補償が計算される場合、エネルギーがほとんどない周波数領域において、周波数応答関数の誤った予測がもたらされる。周波数応答に大きな偏差を示すシステムを通過した信号に基づいて一時的なローカル・スケーリング係数が計算される場合、ローカル・スケーリング係数を正確に計算することができない。主観的に知覚される音声信号の品質が予測可能となるためには、両方の影響が正確に計算されなければならない。
本発明に従い、線形周波数補償の計算及びローカル・パワー・スケーリング係数の計算を、周波数補償及びローカル・スケーリング係数の反復的な計算で置き換えることにより、訂正がなされ得る。まず、必要な周波数補償の大まかな予測を計算することにより、即ち、通常実行される量にまで補償しないことにより、最終的な知覚品質の正確な予測に必要とされる一時的なローカル・スケーリング係数に関する一層良い予測をもたらし得る時間信号が取得される。このローカル・スケーリング計算の後に、必要な周波数補償の一層良い予測をもたらし得る時間信号が取得される。
全体として、これにより、本発明の方法を用いる音声品質予測の性能が改善される。また、他の状況においても、標準的な方法及びシステムの適用は悪影響をもたらさない。
ローカル・パワー・スケーリング係数の計算は、ITU−T勧告P.862に記載された通りに、又は、代わりに、出願人の未公開の欧州特許出願第02075973号[10]に記載された通りに、実行され得る。該出願は、参照により本明細書に援用される。
特定の有利な実施の形態において、反復ループは、第1の部分的な線形周波数補償の計算、及び入力信号のピッチ・パワー密度への第1の部分的な線形周波数補償の適用と、それに続く、ローカル・パワー・スケーリング係数の計算、及び出力信号のピッチ・パワー密度へのローカル・パワー・スケーリング係数の適用と、それに続く、第2の部分的な線形周波数補償の計算、及び入力信号の部分補償されたピッチ・パワー密度への線形周波数補償の適用とを含む。更なる実施の形態において、入力信号及び出力信号へのピッチ・パワー密度への補償の適用が入れ替えられる。即ち、第1及び第2の部分的な線形周波数補償が、出力信号のピッチ・パワー密度に適用され、ローカル・パワー・スケーリング係数が、入力信号のピッチ・パワー密度に適用される。これらの実施の形態は、既存の標準化されたP.862の方法の変更をほとんど必要とせずに、その性能を改善する。
更なる実施の形態において、部分的な線形周波数補償は、(例えばITU−T勧告P.862に規定された)線形歪みの正確な評価に利用され得る線形周波数補償より低い第1の予測であり、例えば、通常の線形周波数補償の50%の振幅補正である。この部分補償は、例えば、他の周波数範囲より大きな部分補償が実行される周波数範囲を制限することにより、周波数に依存して実行され得る。例えば、約500Hzより低い低周波数ブーストをもたらす接近マイクロフォン技法により見出された周波数応答のみを補償することができる。
第2の態様において、本発明は、上記の前文に規定されたような音声伝送システムの伝送品質を測定するシステムであって、補償手段が、少なくとも3つの補償計算を有する反復ループを含むシステムに関する。個々の補償計算は、線形周波数応答の補償計算と、ローカル・パワー・スケーリング係数の計算とのいずれかを含む。該システム、及び従属請求項に記載のシステムは、上記方法の利点と同等の利点を有する。
本発明は、以下において、幾つかの例としての実施の形態を用い、添付の図面を参照して、より詳細に説明される。
例としての実施の形態の詳細な説明
図1は、人間の音声知覚及び認識モデルに基づき、ITU−T勧告P.862[8]に従って音声リンク又はコーデックの知覚品質を予測するための客観的測定手法の既知の適用構成を概略的に示す。この手法又は装置に用いられる頭字語はPESQ(音声品質の知覚的評価)である。該構成は、簡潔にするために以下システム10と呼ぶ被試験システム又は電気通信ネットワーク10と、提供される音声信号の知覚的分析のための品質測定装置11とを備える。音声信号X(t)が、一方ではシステム10の入力信号として利用され、他方では、装置11の第1の入力信号X(t)として利用される。システム10の出力信号Y(t)は、実際にシステム10の影響を受けた音声信号X(t)であり、装置11の第2の入力信号として利用される。装置11の出力信号Qは、システム10を通過する音声リンクの知覚品質の予測を表す。音声リンクの入力端及び出力端は、特に電気通信ネットワークを通る場合には離れているため、品質測定装置11の入力信号には、たいていの場合、データベースに格納された音声信号X(t)が利用される。ここで、音声信号は、慣習的に、基本的に人間の聴覚で知覚可能な音声及び楽音のような個々の音を意味すると理解される。被試験システム10は、もちろん、電気通信ネットワークをシミュレートするシミュレーション・システムであってもよい。装置11は、前処理部11.1において前処理手段12により実行される前処理のステップと、処理部11.2において第1の処理手段13及び第2の処理手段14により実行される更なる処理ステップと、信号結合部11.3において信号差分手段15及びモデル化手段16により実行される結合信号処理ステップとを連続的に含む、主要な処理ステップを実行する。前処理ステップにおいて、信号X(t)及びY(t)は、手段13及び14における更なる処理ステップのために準備される。前処理には、パワー・レベル・スケーリング及び時間整列処理が含まれる。更なる処理ステップには、(劣化)出力信号Y(t)及び参照信号X(t)の代表信号R(Y)及びR(X)への人間の聴覚システムの精神物理学的知覚モデルに従ったマッピングが含まれる。結合信号処理ステップの期間に、前記の代表信号から差分手段15により差信号又は外乱信号Dが決定される。信号Dは、次に、被験者の特定の性質がモデル化された認識モデルに従って、モデル化手段16により処理され、品質信号Qが求められる。
PESQシステムにより実行される第1のステップにおいて、原入力と劣化出力との一連の遅延が、以前の時間間隔とは遅延が大きく異なる時間間隔ごとに計算される。これらの間隔それぞれについて、対応する開始点及び終了点が計算される。整列アルゴリズムは、特定の時間間隔に2つの遅延を有する確かさと、当該時間間隔に1つのみの遅延を有する確かさとの比較の原理に基づく。アルゴリズムは、無音期間及びアクティブな音声部分の期間の両方における遅延の変化を取り扱うことができる。
検出された一連の遅延に基づいて、PESQシステムは、原(入力)信号と、被試験装置の調節された劣化出力とを、知覚モデルを用いて比較する。この処理の要所は、原信号及び劣化信号を、知覚周波数(Bark)及びラウドネス(Sone)を考慮して、人間の聴覚システムにおける音声信号の精神物理学的表現と類似する内部表現(LX、LY)へ変換することである。これは、時間整列、校正リスニング・レベルへのレベル整列、時間−周波数マッピング、周波数ワーピング、及び圧縮ラウドネス・スケーリングという幾つかの段階により達成される。
内部表現は、ローカル利得変化及び線形フィルタリングのような、激し過ぎなければほとんど知覚的に重要ではない効果を考慮するよう処理される。これは、補償の量を制限し、補償を影響より遅らせることにより達成される。こうして、原信号と劣化信号との間の小さな定常的な差が補償される。より重大な効果、又は急激な変化は、部分的にのみ補償されるため、残留効果が残り、全体としての知覚の外乱を助長する。これは、少数の品質インジケータを用いて全ての主観的効果をモデル化することを可能とする。PESQシステムでは、認識モデルにおいて2つのエラー・パラメータが計算される。これらは組み合わされて、客観的聴音品質MOS(平均オピニオン・スコア)を与える。PESQシステムで用いられる基本的な考え方は、参考文献出典の[1]から[5]に記載される。
従来技術のPESQシステムにおける知覚モデル
図2において、上記の通り、第1の信号処理手段13、第2の信号処理手段14及び差分手段15を本質的に備える、装置11の実現形態の一部(即ち、認識モデル部)が示される。
図2に示されるPESQシステムの知覚モデルは、原音声信号と劣化音声信号との差(「PESQスコア」)を計算するために利用される。これは、所与の主観試験に対する主観的MOSの予測値を得るために、単調関数に通され得る。PESQスコアは、MOSに似た尺度にマッピングされる。
「絶対聴覚閾値」
絶対聴覚閾値P(f)は、利用されるBark帯域の中央における値を得るために補間される。これらの値は配列に記憶され、ツビッカーのラウドネス公式において利用される。
「パワー・スケーリング係数及びラウドネス・スケーリング係数」
時間−周波数分析のためのFFTに従う任意の利得定数が存在し、ラウドネス計算において、システムの校正を意味する。
「IRS受信フィルタリング」
聴音試験が、ハンドセットにおけるIRS(中間参照システム)受信特性又は修正IRS受信特性を用いて実行されると想定される場合、音声信号に対する必要なフィルタリングは、前処理(図1のセクション11.1)において適用され、信号XIRSS(t)及びYIRSS(t)がもたらされる。
「アクティブな音声時間区間の計算」
原音声ファイル及び劣化音声ファイルが大きな無音区間で開始又は終了している場合、これは、それらのファイルにおける特定の平均ひずみ値の計算に影響し得る。そのため、これらのファイルの最初又は最後の無音部分が見積もられる。
「短期FFT又は時間−周波数分解」
人間の耳は、時間−周波数変換を実行する。PESQシステムにおいて、これは、連続する時間ウィンドウ(フレーム)どうしのオーバーラップを有する短期FFTにより実現される。パワー・スペクトル、即ち複素数FFT要素の実部の二乗と虚部の二乗との和は、原信号及び劣化信号について別々の実数値配列に格納される。単一のハニング窓内の位相情報はPESQシステムにおいて廃棄され、全ての計算はパワー表現PXWIRSS(f)及びPYWIRSS(f)のみに基づく。劣化信号におけるウィンドウの始点は、遅延のために移動される。原音声信号の時間軸は、そのままに留められる。遅延が増加すると、劣化信号の一部が処理から省略され、遅延が減少すると、一部が繰り返される、
「ピッチ・パワー密度の計算」
Barkスケールは、人間の聴覚システムが低周波数において高周波数におけるよりも優れた周波数分解能を有することを反映する。これは、FFT帯域をビンニングして、FFT帯域の対応するパワーを加算し、加算された部分を正規化することにより実現される。Hertzの周波数スケールをBarkのピッチ・スケールにマッピングするワーピング関数は、与えられた通りの値に正確に従うのではない。結果としての信号は、ピッチ・パワー密度PPXWIRSS(f)及びPPYWIRSS(f)として知られる。
「原ピッチ・パワー密度の補償(線形周波数応答補償)」
被試験システムのフィルタリングを扱うために、原ピッチ・パワー密度及び劣化ピッチ・パワー密度のパワー・スペクトルが時間平均される。この平均は、パワーが絶対聴音閾値の数分の1である時間−周波数セルを用いて、アクティブな音声フレームについてのみ計算される。修正されたBarkビンごとに、劣化スペクトルの原スペクトルに対する比率から部分補償係数が計算される。個々のフレームnの原ピッチ・パワー密度PPXWIRSS(f)は、原信号を劣化信号と等しくするよう、この部分補償係数を乗じられる。この結果、逆フィルター処理された原ピッチ・パワー密度PPX’WIRSS(f)が得られる。厳格なフィルター処理は聴取者の妨げとなるため、この部分補償が利用される。ACR実験において劣化信号が被験者により判断されるため、原信号に補償が実行される。
「ひずみのあるピッチ・パワー密度の補償(時間変動利得補償)」
短期利得変動は、ピッチ・パワー密度をフレームごとに処理(即ち、ローカル補償)することにより部分補償される。原ピッチ・パワー密度及び劣化ピッチ・パワー密度について、個々のフレームnにおける絶対聴覚閾値を超える全ての値の合計が計算される。原ファイルと劣化ファイルとのパワー比率が計算され、所定の範囲に結び付けられる。(時間軸に沿った)第1次のローパス・フィルターが、この比率に適用される。各フレームnにおけるひずみのあるピッチ・パワー密度は、この比率を乗じられて、部分的に利得補償されたひずみのあるピッチ・パワー密度PPY’WIRSS(f)を生ずる。
ローカル・スケーリング係数のこの部分的な補償又は計算は、出願人による継続中の未公開の欧州特許出願第02075973.4号に記載された実施の形態を用いて実現され得る。該出願は、参照により本明細書に援用される(特に図3参照)。
「ラウドネス密度の計算」
フィルター処理と短期間利得変動とに対する補償の後で、原ピッチ・パワー密度及び劣化ピッチ・パワー密度が、ツビッカーの法則を用いてSoneラウドネス・スケールに変換される[7]。即ち、
Figure 0004570609
である。ただし、P(f)は絶対閾値であり、Sはラウドネス・スケーリング係数である。4Barkより大きい場合、ツビッカー・パワーγは、与えられた通りの値である0.23である。4Barkより小さい場合、ツビッカー・パワーは、いわゆる漸増効果を補償するようわずかに増加する。結果として生じる2次元配列LX(f)及びLY(f)はラウンドネス密度と言われる。
「外乱密度の計算」
ひずみのあるラウドネス密度と原ラウドネス密度との符号付きの差が計算される。この差が正である場合、ノイズなどの要素が追加されている。この差が負である場合、原信号から要素が欠落している。この差の配列は、未処理外乱密度と呼ばれる。
原ラウドネス密度と劣化ラウドネス密度との最小値が、時間周波数セルごとに計算される。これらの最小値は、0.25を乗じられる。対応する二次元配列は、マスク配列と呼ばれる。以下の法則が、それぞれの時間−周波数セルに適用される。
・未処理外乱密度が正でありマスク値より大きい場合、マスク値が未処理外乱から減じられる。
・未処理外乱密度がマスク値の大きさの正の値と負の値との間にある場合、外乱密度はゼロに設定される。
・未処理外乱密度がマスク値の負の値より更に小さい場合、マスク値が未処理外乱密度に加算される。
最終的な効果は、未処理外乱密度がゼロに近づくことである。これは、実際の時間周波数セルがひずみとして知覚される前の不感帯を表している。これは、それぞれの時間−周波数セルにおける、大きな信号(マスク)が存在する場合には聞こえないような小さな差の処理をモデル化する。結果として、時間(ウィンドウ番号n)及び周波数の関数としての外乱密度D(f)がもたらされる。
外乱密度D(f)をもたらすラウドネス密度LX(f)及びLY(f)の知覚的減算は、出願人の継続中の未公開の欧州特許出願第02075973.4号の図4を参照して説明される通りに実現され得る。該出願は参照により、本明細書に援用される。
「非対称係数とのセルに関する乗算」
コーデックが入力信号をひずませる場合、入力信号と統合する新しい時間−周波数要素を導入することは一般に非常に難しいため、結果としての出力信号は入力信号とひずみという2つの異なる知覚対象に分解され、明らかに聞き取れるひずみをもたらすという事実により、非対称効果が引き起こされる[2]。コーデックが時間−周波数要素を無視する場合、結果としての出力信号は同様には分解され得ず、ひずみの不快さは小さくなる。この効果は、外乱密度D(f)に非対称係数を乗じてフレームごとの非対称外乱密度DA(f)を計算することによりモデル化される。この非対称係数は、1.2乗された、ひずみピッチ・パワー密度と原ピッチ・パワー密度との比率に等しい。非対称係数は、3より小さい場合に、ゼロに設定される。非対称係数が12を超える場合、その値でクリッピングされる。従って、劣化ピッチ・パワー密度が原ピッチ・パワー密度を超える時間周波数セルのみが非ゼロの値として留まり得る。
「外乱密度の集計」
外乱密度D(f)と非対称外乱密度DA(f)とは、2つの異なるLp標準と、ソフト・フレーム上の(ラウドネスの低い)重み付けとを用いて、周波数軸に沿って統合(加算)される。即ち、
Figure 0004570609
である。ただし、Mは1/(原フレームのパワーと定数との和)0.04である乗算係数であり、原音声フラグメントの静寂時におきる外乱の強調をもたらす。Wは修正されたBarkビンの幅に比例する一連の定数である。この乗算の後、フレーム外乱値は最大45に制限される。これらの集計された値D及びDAは、フレーム外乱と呼ばれる。
ひずみ信号が16ms(ウィンドウの半分)より大きな遅延の減少を含む場合、繰返し戦略が修正される。客観音声品質の計算において、そのようなイベント期間のフレーム外乱は無視したほうがよいことがわかっている。その結果、これが起こる場合、フレーム外乱がゼロにされる。結果としてのフレーム外乱を、D’及びDA’と呼ぶ。
「不良区間の再整列」
閾値を超えるフレーム外乱を有する連続したフレームは、不良区間と呼ばれる。少数のケースにおいて、客観的測定は、前処理により観察された不正確な時間遅延に起因する最小数の不良フレームにおける大きなひずみを予測する。いわゆる不良区間に対して、絶対原信号と、前処理により観察された遅延に応じて調整された絶対劣化信号との相関を最大化することにより、新しい遅延値が予測される。最大化された相関が閾値を下回る場合、該区間はノイズどうしをマッチングしており、該区間はもはや不良と呼ばれず、該区間に対する処理が中止されることが結論付けられる。そうではない場合、不良区間のフレームに対するフレーム外乱が再計算され、より小さい場合には、原フレーム外乱と置き換えられる。結果として、知覚品質を計算するために利用される最終的なフレーム外乱D’’及びDA’’が得られる。
「瞬時区間内における外乱の集計」
次に、フレーム外乱値及び非対称フレーム外乱値が、L標準と、音声ファイル長の集合におけるのと同様のより高いp値とを用いて、20フレームからなる瞬時区間(フレームの重なりを考慮すると約320ms)を通して集計される。これらの区間もまた、50%ずつ重なりあい、窓関数は利用されない。
「信号の持続時間における外乱の統合」
瞬時外乱値及び非対称瞬時外乱値は、L標準を用いて、音声ファイルのアクティブな区間(対応するフレーム)を通して集計される。音声ファイルの第1のセンテンスがひずんだ場合でも他のセンテンスの品質はそのままであるのに対し、瞬時区間の一部がひずむとその瞬時が意味を失うという事実のために、音声ファイルの集合における低いp値よりも瞬時区間内の集合に対するp値は高くなる。
「PESQスコアの計算」
最終的なPESQスコアは、平均外乱値と平均非対称外乱値との線形結合である。
上記の(ITU−T勧告P.862に規定された)PESQ方法は、周波数応答変動に大きな差のある音声信号を正しく扱うことができないという欠陥を有する。周波数応答変動補償及びローカル・パワー・スケーリング補償は、不正確に計算されて、システム10の音声品質の誤った計算がもたらされる。
本発明は、ノイズの存在下で周波数補償が計算されると、エネルギーがほとんどない周波数領域では、周波数応答関数の誤った予測が起こるという理解に基づく。周波数応答の大きな偏差を示すシステムを通過した信号に基づいて、一時的なローカル・スケーリング係数が計算される場合、ローカル・スケーリング係数は、正しく計算され得ない。音声信号の主観的知覚品質を予測するためには、両方の影響が正しく計算されなければならない。
図3は、図2に対応するPESQ方法の知覚モデル部分の特定の有利な実施の形態を示す。しかし、線形周波数補償の計算と、ローカル・パワー・スケーリング係数の計算とは異なる。
線形周波数応答補償計算及びローカル・パワー・スケーリング係数計算は、反復ループに入れられる。まず、必要な周波数補償の大まかな予測が計算される。次に、線形ひずみの正確な評価のために利用され得る線形周波数補償より低い特定の線形周波数補償が計算される。例えば、通常の線形周波数補償の振幅訂正の50%である。この部分補償は、他の周波数領域より大きな部分補償が実行される周波数領域を制限することにより、実行され得る。例えば、約500Hzより低い低周波数ブーストをもたらす近接マイクロフォン技術により見出された周波数応答変動のみを補償することが可能である。
通常実行される量までの補償を実行しないことにより、時間信号PPX’WIRSS(f)が取得される。該信号からは、最終的な知覚品質を正確に予測するために必要な一時的なローカル・スケーリング係数に関する一層良い見積もりがなされ得る。劣化信号PPYWIRSS(f)に適用されるこのローカル・スケーリング計算の後に、時間信号PPY’WIRSS(f)が取得され、該信号から、最終的に必要とされる周波数補償のより良い見積もりがなされる。部分的に補償された信号PPX’WIRSS(f)に適用される最終的な周波数補償(即ち、残りの周波数偏差に対する補償)は、最終信号PPX’WIRSS(f)をもたらす。結果としての信号PPY’WIRSS(f)及びPPX’’WIRSS(f)は、上記の通り、更に処理される(ラウドネス・スケールへのワーピング及びそれに続くステップ)。
本発明に対する更なる修正がなされ得ることは、当業者にとって明らかである。部分補償の量は、実験状況に適応され得る。また、まず部分的なローカル・パワー・スケーリング係数補償が計算及び適用されてから、線形周波数応答補償が計算及び適用され、最後に最終的なローカル・パワー・スケーリング係数が計算及び適用されてもよい。また、反復計算ステップにおける4つ以上のサブステップの利用も、本発明の範囲に含まれる。
参照により本明細書に援用される参考文献
[1] BEERENDS (J.G.)、STEMERDINK(J.A.):音響心理学的音声表現に基づく知覚音声品質測定(A Perceptual Speech-Quality Measure Based on a Psychoacoustic Sound Representation)、AESジャーナル第42巻第3号、115−123頁、1994年3月。
[2] BEERENDS(J.G.):音声品質知覚における役割を果たす認識効果のモデル化、品質評価(Modelling Cognitive Effects that Play a Role in the Perception of Speech Quality, Speech Quality Assessment)、Workshop papers、Boclmrum刊,1−9頁、1994年11月。
[3] BEERENDS(J.G.):音声及び音楽コーデックの品質測定、統合された音響心理学的アプローチ(Measuring the quality of speech and music codecs, an integrated psychoacoustic approach)、98t12 AESコンベンション、事前印刷3945号、1995年。
[4] HOLLIER (M.P.)、HAWKSFORD (M.O.)、GUARD (D.R.):知覚ドメインにおける心理音響的重要性の測定としてのエラー・アクティビティ及びエラー・エントロピー(Error activity and error entropy as a measure of psychoacoustic significance in the perceptual domain,IEEE会報版、画像と信号処理第141(3)号、203−208頁、1994年6月。
[5] RIX (A.W.)、REYNOLDS(R.)、HOLLIER (M.P.):音声及びパケット・ベースのネットワークにおけるエンド・ツー・エンドの音声品質の知覚的測定(Perceptual measurement of end-to-end speech quality over audio and packet-based networks)、第106回AESコンベンション、事前印刷第4873号、1999年5月。
[6] HOLLIER (M.P.)、HAWKSFORD (M.O.)、GUARD (D.R.):音声に類似した試験刺激を用いた通信システムの特徴決定(Characterization of communications systems using a speech-like test stimulus)、AESジャーナル第41巻第12号、1008−1021頁、1993年12月。
[7] ZWICKER (Feldtkeller):報告受信としての聴覚(Das Ohr als Nachrichtenempfanger)、S. Hirzel Verlag、シュツットガルト、1967年。
[8] ITU−T勧告P.862「音声品質の知覚的評価(PESQ) ナローバンド電話ネットワーク及び音声コーデックのエンド・ツー・エンドの音声品質の客観的評価方法」("Perceptual evaluation of speech quality (PESQ), an objective method for en-to-end speech quality assessment of narrow-band telephone networks and speech codecs")、ITU−T2001年2月。
[9] BEERENDS (J.G.)、HEKSTRA (A.P.)、RIX (A.W.)、HOLLIER (M. P.):音声品質の知覚的評価(PESQ) エンド・ツー・エンドの音声品質評価のための新しいITU標準第2部−音響心理学モデル(Perceptual Evaluation of Speech Quality (PESQ) The New ITU Standard for ENd-to-End Speech Quality Assessment Part II-Psychoacoustic Model)、AESジャーナル第50巻第10号、2002年10月。
[10]欧州特許出願第EP02075973号、出願人コニンクリジケKPN N.V.。
図1は、ITU−T勧告P.862に開示された従来技術のPESQシステムを概略的に示す。 図2は、図1のPESQシステムで利用される知覚モデルの実現形態の図を示す。 図3は、図2と同じであるが、本発明の実施の形態に係る方法の実行に適するよう修正されているPESQを示す。

Claims (6)

  1. 音声伝送システム(10)の伝送品質を測定する方法であって、入力信号(X)が前記システム(10)に入力されて出力信号(Y)がもたらされ、前記入力信号(X)及び前記出力信号(Y)が処理される方法において、該方法が、
    前記入力信号(X)及び出力信号(Y)を前処理して、各信号に対するピッチ・パワー密度(PPXWIRSS(f)、PPYWIRSS(f))を取得するステップと、
    線形周波数応答及び時間変動利得を補償して、補償されたピッチ・パワー密度(PPX’’WIRSS(f)、PPY’WIRSS(f))を取得するステップであって、線形周波数応答及び時間変動利得の前記補償が、それぞれが線形周波数応答の補償計算、及びローカル・パワー・スケーリング係数の計算のいずれかを含む少なくとも3つの補償計算を含む反復ループを備えるステップと、
    前記の補償されたピッチ・パワー密度(PPX’’WIRSS(f)、PPY’WIRSS(f))から、前記システム(10)の伝送品質を示すスコア(Q)を計算するステップと、
    を備え、前記反復ループが、
    前記ピッチ・パワー密度(PPXWIRSS(f)、PPYWIRSS(f))に基づいて第1の部分的線形周波数補償を計算し、前記入力信号のピッチ・パワー密度(PPXWIRSS(f))に前記第1の部分的線形周波数補償を適用し、前記入力信号を部分的に補償したピッチ・パワー密度(PPX’WIRSS(f))を取得するステップと、
    それに続いて、前記入力信号を部分的に補償した前記ピッチ・パワー密度(PPX’WIRSS(f))及び前記出力信号のピッチ・パワー密度(PPYWIRSS(f))に基づいて前記ローカル・パワー・スケーリング係数を計算し、前記出力信号のピッチ・パワー密度(PPYWIRSS(f))に前記ローカル・パワー・スケーリング係数を適用し、前記出力信号を部分的に補償したピッチ・パワー密度(PPY’WIRSS(f))を取得するステップと、
    それに続いて、前記入力信号を部分的に補償した前記ピッチ・パワー密度(PPX’WIRSS(f))及び前記出力信号を部分的に補償した前記ピッチ・パワー密度(PPY’WIRSS(f))に基づいて第2の部分的線形周波数補償を計算し、前記入力信号の部分補償された前記ピッチ・パワー密度(PPX’WIRSS(f))に前記線形周波数補償を適用し、前記の補償されたピッチ・パワー密度(PPX’’WIRSS(f))を取得するステップと、
    を備える、
    方法。
  2. 請求項1に記載の方法において、前記第1の部分的線形周波数補償が、前記線形ひずみの正確な評価に必要とされる線形周波数補償より低い第1の予測である方法。
  3. 請求項2記載の方法において、前記第1の部分的線形周波数補償が、周波数依存関数である方法。
  4. 音声伝送システム(10)の伝送品質を測定するシステムであって、前記システム(10)に入力信号(X)が入力されて出力信号(Y)がもたらされるシステムにおいて、該システムが、
    各信号に対するピッチ・パワー密度(PPXWIRSS(f)、PPYWIRSS(f))を取得するために、前記入力信号(X)及び前記出力信号(Y)を前処理する前処理手段(12)と、
    補償されたピッチ・パワー密度(PPX’’WIRSS(f)、PPY’WIRSS(f))を取得するために線形周波数応答及び時間変動利得を補償する補償手段(13、14)であって、それぞれが線形周波数応答の補償計算、及びローカル・パワー・スケーリング係数の計算のいずれかを含む少なくとも3つの補償計算を有する反復ループを含む補償手段(13、14)と、
    前記補償されたピッチ・パワー密度(PPX’’WIRSS(f)、PPY’WIRSS(f))から前記システム(10)の伝送品質を示すスコア(Q)を計算する計算手段(15、16)と、
    を備え、前記反復ループが、
    前記ピッチ・パワー密度(PPXWIRSS(f)、PPYWIRSS(f))に基づいて第1の部分的線形周波数補償を計算し、前記入力信号のピッチ・パワー密度(PPXWIRSS(f))に前記第1の部分的線形周波数補償を適用し、前記入力信号を部分的に補償したピッチ・パワー密度(PPX’WIRSS(f))を取得し、
    それに続いて、前記入力信号を部分的に補償した前記ピッチ・パワー密度(PPX’WIRSS(f))及び前記出力信号のピッチ・パワー密度(PPYWIRSS(f))に基づいて前記ローカル・パワー・スケーリング係数を計算し、前記出力信号のピッチ・パワー密度(PPYWIRSS(f))に前記ローカル・パワー・スケーリング係数を適用し、前記出力信号を部分的に補償したピッチ・パワー密度(PPY’WIRSS(f))を取得し、
    それに続いて、前記入力信号を部分的に補償した前記ピッチ・パワー密度(PPX’WIRSS(f))及び前記出力信号を部分的に補償した前記ピッチ・パワー密度(PPY’WIRSS(f))に基づいて第2の部分的線形周波数補償を計算し、前記入力信号の部分補償された前記ピッチ・パワー密度(PPX’WIRSS(f))に前記線形周波数補償を適用し、前記の補償されたピッチ・パワー密度(PPX’’WIRSS(f))を取得する、
    ことを特徴とするシステム。
  5. 請求項4に記載のシステムにおいて、前記第1の部分的な線形周波数補償が、前記線形ひずみの正確な評価に必要とされる線形周波数補償より低い第1の予測であるシステム。
  6. 請求項5記載のシステムにおいて、前記第1の部分的な線形周波数補償が周波数依存関数であるシステム。
JP2006500043A 2003-03-31 2004-02-26 音声伝送システムの音声品質予測方法及びシステム Expired - Fee Related JP4570609B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03075949A EP1465156A1 (en) 2003-03-31 2003-03-31 Method and system for determining the quality of a speech signal
PCT/EP2004/002026 WO2004088638A1 (en) 2003-03-31 2004-02-26 Method and system for speech quality prediction of an audio transmission system

Publications (2)

Publication Number Publication Date
JP2006522349A JP2006522349A (ja) 2006-09-28
JP4570609B2 true JP4570609B2 (ja) 2010-10-27

Family

ID=32842795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006500043A Expired - Fee Related JP4570609B2 (ja) 2003-03-31 2004-02-26 音声伝送システムの音声品質予測方法及びシステム

Country Status (8)

Country Link
US (1) US7313517B2 (ja)
EP (2) EP1465156A1 (ja)
JP (1) JP4570609B2 (ja)
AT (1) ATE381089T1 (ja)
DE (1) DE602004010634T2 (ja)
DK (1) DK1611571T3 (ja)
ES (1) ES2298725T3 (ja)
WO (1) WO2004088638A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1241663A1 (en) * 2001-03-13 2002-09-18 Koninklijke KPN N.V. Method and device for determining the quality of speech signal
CN101053016B (zh) * 2004-09-20 2011-05-18 荷兰应用科学研究会(Tno) 构建第一频率补偿输入间距功率密度函数的方法和系统
US20060200346A1 (en) * 2005-03-03 2006-09-07 Nortel Networks Ltd. Speech quality measurement based on classification estimation
US8005675B2 (en) * 2005-03-17 2011-08-23 Nice Systems, Ltd. Apparatus and method for audio analysis
US20070203694A1 (en) * 2006-02-28 2007-08-30 Nortel Networks Limited Single-sided speech quality measurement
EP1975924A1 (en) * 2007-03-29 2008-10-01 Koninklijke KPN N.V. Method and system for speech quality prediction of the impact of time localized distortions of an audio transmission system
EP2410517B1 (en) * 2007-09-11 2017-02-22 Deutsche Telekom AG Method and system for the integral and diagnostic assessment of listening speech quality
DE602007007090D1 (de) * 2007-10-11 2010-07-22 Koninkl Kpn Nv Verfahren und System zur Messung der Sprachverständlichkeit eines Tonübertragungssystems
US8296131B2 (en) * 2008-12-30 2012-10-23 Audiocodes Ltd. Method and apparatus of providing a quality measure for an output voice signal generated to reproduce an input voice signal
CN101609686B (zh) * 2009-07-28 2011-09-14 南京大学 基于语音增强算法主观评估的客观评估方法
CN102549657B (zh) * 2009-08-14 2015-05-20 皇家Kpn公司 用于确定音频系统的感知质量的方法和系统
US8818798B2 (en) 2009-08-14 2014-08-26 Koninklijke Kpn N.V. Method and system for determining a perceived quality of an audio system
US8774417B1 (en) 2009-10-05 2014-07-08 Xfrm Incorporated Surround audio compatibility assessment
GB2474297B (en) * 2009-10-12 2017-02-01 Bitea Ltd Voice Quality Determination
JP5606764B2 (ja) 2010-03-31 2014-10-15 クラリオン株式会社 音質評価装置およびそのためのプログラム
EP2733700A1 (en) * 2012-11-16 2014-05-21 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating intelligibility of a degraded speech signal
DE102013005844B3 (de) * 2013-03-28 2014-08-28 Technische Universität Braunschweig Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals
RU2729147C1 (ru) * 2020-04-02 2020-08-05 Общество С Ограниченной Ответственностью "Центр Коррекции Слуха И Речи "Мелфон" (Ооо "Цкср "Мелфон") Способ автоматизированной оценки качества распознавания речи пациентом
RU2743049C1 (ru) * 2020-09-07 2021-02-15 Общество С Ограниченной Ответственностью "Центр Коррекции Слуха И Речи "Мелфон" (Ооо "Цкср "Мелфон") Способ доврачебной оценки качества распознавания речи, скрининговой аудиометрии и программно-аппаратный комплекс, его реализующий

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1429617A (en) * 1974-06-03 1976-03-24 Hewlett Packard Ltd Method and apparatus for measuring the group delay character istics of a transmission path
US4862492A (en) * 1988-10-26 1989-08-29 Dialogic Corporation Measurement of transmission quality of a telephone channel
JP2953238B2 (ja) * 1993-02-09 1999-09-27 日本電気株式会社 音質主観評価予測方式
NL9500512A (nl) * 1995-03-15 1996-10-01 Nederland Ptt Inrichting voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal, alsmede werkwijze voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal.
JP3756686B2 (ja) * 1999-01-19 2006-03-15 日本放送協会 所望信号抽出の度合いを評価する評価値を求める方法および装置、ならびに信号抽出装置のパラメータ制御方法および装置

Also Published As

Publication number Publication date
ES2298725T3 (es) 2008-05-16
DE602004010634D1 (de) 2008-01-24
WO2004088638A1 (en) 2004-10-14
DK1611571T3 (da) 2008-03-31
US7313517B2 (en) 2007-12-25
ATE381089T1 (de) 2007-12-15
DE602004010634T2 (de) 2008-12-11
EP1611571B1 (en) 2007-12-12
US20060171543A1 (en) 2006-08-03
EP1611571A1 (en) 2006-01-04
EP1465156A1 (en) 2004-10-06
JP2006522349A (ja) 2006-09-28

Similar Documents

Publication Publication Date Title
JP4570609B2 (ja) 音声伝送システムの音声品質予測方法及びシステム
US9025780B2 (en) Method and system for determining a perceived quality of an audio system
JP4263620B2 (ja) システムの伝送品質を測定する方法及びシステム
US8818798B2 (en) Method and system for determining a perceived quality of an audio system
US9659579B2 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal, through selecting a difference function for compensating for a disturbance type, and providing an output signal indicative of a derived quality parameter
US20100211395A1 (en) Method and System for Speech Intelligibility Measurement of an Audio Transmission System
US9472202B2 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal
US8566082B2 (en) Method and system for the integral and diagnostic assessment of listening speech quality
US9659565B2 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal, through providing a difference function representing a difference between signal frames and an output signal indicative of a derived quality parameter
EP1343145A1 (en) Method and system for measuring a sytems's transmission quality
JP2023535694A (ja) 信号の知覚される品質に対する残響の知覚的影響を判定する方法、及びコンピュータプログラム製品

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081218

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090318

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100712

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100810

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130820

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees