JP5204904B2 - オーディオ信号品質予測 - Google Patents

オーディオ信号品質予測 Download PDF

Info

Publication number
JP5204904B2
JP5204904B2 JP2011546623A JP2011546623A JP5204904B2 JP 5204904 B2 JP5204904 B2 JP 5204904B2 JP 2011546623 A JP2011546623 A JP 2011546623A JP 2011546623 A JP2011546623 A JP 2011546623A JP 5204904 B2 JP5204904 B2 JP 5204904B2
Authority
JP
Japan
Prior art keywords
signal
distortion
spectral
quality
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011546623A
Other languages
English (en)
Other versions
JP2012516591A (ja
Inventor
ボローディア グランチャロフ,
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2012516591A publication Critical patent/JP2012516591A/ja
Application granted granted Critical
Publication of JP5204904B2 publication Critical patent/JP5204904B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Description

本発明は、通信システムへの入力信号に対応するリファレンス信号及びその通信システムからの出力信号に対応する処理済信号を使用して、通信システムを介した送信後のオーディオ信号の品質を予測する方法及び装置に関する。
モバイル通信システム及び例えばVoIPシステムにおいて、システム通過後の音声信号の品質を予測できることが重要である。システムを介した送信後のオーディオ/音声信号の客観的品質は、例えばPESQ(Perceptual Evaluation of Speech Quality)又はPEAQ(Perceptual Evaluation of Audio Quality)を使用して予測することができる。これらは共に、オーディオ品質予測を行うための、従来のイントルーシブ(intrusive;介入的)な、すなわちダブルエンド(double-ended)な方法の例である。イントルーシブな方法は、システムに入力される元の信号と歪んだ出力信号の両方を使用し、これらの信号はオーディオ信号品質予測装置に転送される。イントルーシブなオーディオ信号品質予測装置は、システムに入力されたリファレンス信号と処理済みの(歪んだ)信号出力とを比較することにより、ネットワークを介した送信後のオーディオ信号の品質を予測する。これは、PSTN、モバイルネットワーク及びVoIPネットワークを含むネットワークの範囲にわたり有効である。PESQは、例えば符号化歪み、誤差、パケット損失、遅延、可変遅延及びフィルタリングを考慮して、雑音、遅延及びフロントエンドクリッピング等の歪みの影響を測定し、品質尺度として1つの平均オピニオンスコア(MOS)を提供する。このように、システムを介して送信されたオーディオ信号の品質を予測するために、リファレンス信号すなわちオーディオ送信システムへの入力信号と、処理済信号すなわちシステムの歪んだ出力とが使用されうる。
イントルーシブなダブルエンドのオーディオ信号品質予測を実行するために、その予測を実行するように構成された端末は一般に、2つの異なる点に接続される。一点は、リファレンス信号を挿入する点であり、もう一点は、処理済信号を受信する点である。可能な接続点は、例えば移動電話、メディアゲートウェイ又はVoIPゲートウェイである。
図2は、リファレンス信号と処理済信号とから通信システム21を介した送信後の例えば音声信号であるオーディオ信号の品質を推定する従来の装置25を示すブロック図である。時間軸整合器22において、リファレンス信号と処理済信号との時間同期が行われ、特徴抽出器23において、品質の変動に関係する信号の特徴の抽出が行われ、品質予測器24において、抽出された特徴を組み合わせることにより品質の推定値が生成される。
例えばVoIPシステム、低ビットレートパラメトリック符号化器、非同期クロック、あるいはサンプリングレートの変化により、通常は処理済信号には遅延が発生するため、図2の時間軸整合器22において、リファレンス信号と処理済信号との間の時間同期、すなわち時間軸整合を行う必要がある。通常、人間のオーディオ品質知覚は小さな遅延による影響を受けないが、オーディオ信号品質の客観的な推定値を得るためには、特徴の抽出前に信号を同期する必要がある。
図2の特徴抽出器23は、双方の信号の特徴の抽出を実行する。図1は、リファレンス信号11及び処理済信号12から特徴を抽出する従来の手法を示している。スペクトル情報を有するベクトルが双方の信号からブロック単位で抽出され、ベクトル間の距離が局所歪みの基準となる。特徴抽出においては、一般に8〜12秒であるリファレンス信号及び処理済信号のシーケンスは、各々が一般に20〜40ミリ秒の長さを有する短いブロックに分割される。各信号ブロックの波形は周波数領域、すなわちパワースペクトルに変換される。更に、周波数領域のベクトルは、ヘルツ尺度からバーク尺度又はメル尺度への周波数ワーピング後にラウドネス密度を取得するために圧縮することにより知覚領域に変換されてもよい。その後、15において、インデクスnのブロックにおける局所歪みD16が、例えば励起パターン及びラウドネス密度に関係するリファレンス信号の周波数表現13と処理済信号の周波数表現14との間の距離として計算される。その計算は、例えば以下の式(1)に従って行われる。
Figure 0005204904
以下、インデクスrはリファレンス信号を示し、インデクスpは処理済信号を示し、インデクスnは特定のブロックを示す。
式(1)の関数fは周波数ビンwにわたり統合を実行し、Lノルム及び符号差分の少なくともいずれかを含みうるベクトル距離を計算する。
図2の品質予測器24において、信号品質値Qが、以下の式(2)に従って、例えばブロック毎の歪みDのLノルムである計算された統合値から判定される。
Figure 0005204904
歪みが少ないほど高品質になるため、品質値Qで示されるオーディオ信号品質値は統合された歪みDに反比例する。
しかし、上述した従来の品質推定装置25はいくつかの欠点を有する。1つの欠点は、リファレンス信号と処理済信号との間の時間軸整合の誤差に対して非常に感度が高く、スペクトルベクトルが完全に時間同期されていないと、図1に示すような2つのパワースペクトルベクトルの間で計算される差分に大きな誤差が生じてしまうことである。処理済信号は例えば低ビットレートコーデックにより大きく歪む場合があるため、リファレンス信号及び処理済信号を使用する客観オーディオ信号品質推定においては、時間軸整合の誤差が問題となる。
また、人間の聴覚システムであればピッチや音質のある程度の違いは吸収できるのだが、2つのスペクトルベクトルの減算においては、それらの自然な音声の違いを取り込むことができない。更なる欠点は、音声信号は準定常であるため、スペクトルの特徴は、例えば最大40ミリ秒までの短時間単位でしか抽出することができないことである。しかし、例えば300ミリ秒の長さといった、より大きい信号セグメントを使用して異なる分解能で歪みを計算することが望ましい場合があるが、上記の従来の品質推定装置ではこれを行うことはできない。
本発明の目的は上述の問題を解決することであり、上記の目的及び他の目的は、添付の独立請求項に記載された方法及び装置、並びに従属請求項に従う実施形態により達成される。
一側面によれば、本発明は、通信システムを介して送信されたオーディオ信号の品質を予測する方法を提供する。方法は、通信システムへの入力信号に対応するリファレンス信号と通信システムからの出力信号に対応する処理済信号とを使用する。方法は、
前記リファレンス信号及び前記処理済信号を、所定の長さを有する少なくとも2つの第1のブロックに分割するステップと、
前記第1のブロックの各々の信号のスペクトル特性を表す少なくとも2つの異なるスペクトルパラメータを計算するステップと、
前記第1のブロックの各々に対して、前記リファレンス信号の計算された各スペクトルパラメータと前記処理済信号の対応する計算されたスペクトルパラメータとの間の歪みを計算するステップと、
前記リファレンス信号と前記処理済信号との間の複数の異なる時間変位に対する前記歪みの統合値を計算するステップと、
最適な時間変位における前記歪みの最小統合値から前記オーディオ信号の第1の品質値を判定するステップと、
を有する。
前記判定された第1の品質値により示される前記品質は、前記歪みの前記最小統合値に反比例しうるものであり、また、前記スペクトルパラメータの数は3つであってもよい。
前記スペクトルパラメータのうちの1つは、パワースペクトルの共鳴構造を示すスペクトル平坦特性を表してもよく、スペクトルパラメータのうちの1つは、信号エネルギの変化率を示すRMSE正規化遷移率を表してもよく、前記スペクトルパラメータのうちの1つは、信号エネルギが集中する周波数を示すスペクトルセントロイドを表してもよい。
方法は、
前記リファレンス信号及び前記処理済信号を、各々が所定の数の前記第1のブロックを含む少なくとも1つの第2のブロックに分割するステップと、
前記第2のブロックに含まれる前記第1のブロックの各々に対して計算された前記スペクトルパラメータの各々から第2のパラメータを計算するステップと、
前記最適な時間変位における、前記リファレンス信号の前記第2のパラメータの各々と前記処理済信号の対応する前記第2のパラメータとの間の歪みを計算するステップと、
前記計算された歪みの統合値から、第2の品質値を判定するステップと、
を更に有することができる。
前記第2の品質値は、前記歪みの統合値に反比例しうる。
更に、前記オーディオ信号の総合品質値は、例えば互いに異なる重みを用いた重み付け和により第1の品質値と第2の品質値とを組み合わせることにより判定されてもよい。
前記第2のパラメータの計算は、前記第2のブロックに含まれる前記第1のブロックの各々に対して計算されたスペクトルパラメータの平均、分散又は歪度の判定を含んでもよい。
第2の側面によれば、本発明は、通信システムへの入力信号に対応するリファレンス信号と前記通信システムからの歪んだ出力信号に対応する処理済信号とを用いて、前記通信システムを介して送信されたオーディオ信号の品質を予測する装置を提供する。装置は、前記リファレンス信号及び前記処理済信号を、所定の長さを有する少なくとも2つの第1のブロックに分割する信号分割手段と、前記第1のブロックの各々の信号のスペクトル特性を表す少なくとも2つの異なるスペクトルパラメータを計算するパラメータ計算手段と、前記第1のブロックの各々に対して、前記処理済信号の各スペクトルパラメータと前記リファレンス信号の対応するスペクトルパラメータとの間の歪みを計算する歪み計算手段と、前記リファレンス信号と前記処理済信号との間の複数の異なる時間変位における前記計算された歪みの統合値を計算する統合値計算手段と、最適な時間変位における前記歪みの最小統合値から前記オーディオ信号の第1の品質値を判定する第1の品質判定手段とを備える。
装置は、第2の品質値を判定する手段を更に備えることができ、該手段は、前記リファレンス信号及び前記処理済信号を、各々が所定の数の前記第1のブロックを含む少なくとも1つの第2のブロックに分割する第2の分割手段と、前記第2のブロックに含まれる前記第1のブロックの各々に対して計算された前記スペクトルパラメータの各々から第2のパラメータを計算する第2のパラメータ計算手段と、前記最適な時間変位における、前記リファレンス信号の前記第2のパラメータの各々と前記処理済信号の対応する前記第2のパラメータとの間の歪みを計算する第2の歪み計算手段と、前記計算された歪みの統合値から、第2の品質値を判定する第2の品質判定手段とを含みうる。
装置は、前記リファレンス信号の挿入点及び前記歪んだ処理済信号の受信点である、通信システムの2つの点に接続されるように構成されてもよい。
リファレンス信号及び処理済信号に対する従来の特徴抽出手法を示す図。 従来のオーディオ信号の品質を予測する装置を示す図。 本発明の一実施形態に係るパラメータ抽出手法を示す図。 本発明の基本概念によるオーディオ信号品質予測を示す図。 本発明の第1の実施形態に係るオーディオ信号の品質を予測する方法を示すフローチャート。 本発明の第2の実施形態に係るオーディオ信号の品質を予測する追加のステップを示すフローチャート。 本発明の第1の実施形態に係るオーディオ信号の品質を予測する装置を示す図。
以下、特定の実施形態及び添付の図面を参照して、本発明を詳細に説明する。以下では、限定する目的ではなく説明のために、特定の例、技術等の特定の詳細な説明を記載し、これによって本発明の十分な理解を提供する。なお、本発明が、それら特定の詳細な記載から逸脱する他の実施形態によっても実施可能であることは当業者には明らかである。
更に、本明細書中で以下に説明する機能及び手段がプログラムマイクロプロセッサ又は汎用コンピュータと関連して機能するソフトウェアを使用し且つ/あるいは特定用途向け集積回路(ASIC)を用いて実施可能であることは当業者には理解されよう。また、主に方法及び装置の形態で本発明を説明するが、本発明は、本明細書中で開示される機能を実行するための1つ以上のコンピュータプログラムによっても実施可能であるし、そのようなプログラムを有するメモリと、そのメモリに結合されたコンピュータプロセッサとを含むシステムによっても実施可能である。
本発明の基本概念によれば、システムを介して送信されたオーディオ信号の予測品質は、歪んだ処理済信号の信号スペクトルを表す少数のスペクトルパラメータと、入力リファレンス信号の信号スペクトルを表す同一のスペクトルパラメータとの間の歪みに基づくものである。また、リファレンス信号と処理済信号との間の時間同期が、歪みの計算と共に実行される。従って、品質予測は同期誤差の影響を受けにくく、歪みを異なる時間スケールで計算可能である。
より詳細には、リファレンス信号系列すなわち通信システムに入力される信号と、処理済信号すなわち通信システムからの出力信号との各々は、その信号系列の長さは一般には8〜12秒であるところ、所定長、例えば20〜40ミリ秒の、複数の第1のブロックに分割される。オプションとして、信号波形は周波数領域に変換可能であり、パワースペクトルとして表現される。
それらの信号の異なるスペクトル特性を表す2つ以上の、例えば3つの、異なるスペクトルパラメータが、リファレンス信号及び処理済信号の各ブロックに対して計算される。スペクトルパラメータの数は少なく必要があり、とりわけ、周波数ビンの数よりもはるかに少ない必要があるが、例えば4つ又は5つ等、4つ以上であってもよいことは明らかである。
その後、処理済信号のシーケンス内の第1のブロックの各々の各スペクトルパラメータとリファレンス信号の対応するブロックにおける同一のスペクトルパラメータとの間の差分を計算することにより、処理済信号の歪みが判定される。次に、局所歪みDがそれらの差分からブロック毎に判定され、局所歪みが統合される。統合されたブロック毎の局所歪みの値が小さいほど、通信システムを介した送信によって生じるオーディオ信号の歪みは小さい、すなわち、高品質であると予測される。したがって、予測された品質値により示される品質は統合された局所歪みの大きさに反比例するように、統合された局所歪みから品質値が判定される。
また、リファレンス信号と処理済信号との間の時間同期は、各局所歪みを計算することによる歪みの統合の計算、及びリファレンス信号と処理済信号との間の多数の異なる時間変位mにおける局所歪みの統合と共に実行される。したがって、最適な時間変位は、計算された統合された局所歪みの最小値を選択し且つ統合された歪みの当該最小値から品質値を判定することにより判定することができる。
図3は、本発明の一実施形態に従って、インデクスnを有する第1のブロックに対する局所歪みの計算を示すブロック図である。リファレンス信号11及び処理済信号12の双方は、複数の第1のブロックに分割される。リファレンス信号の第1のブロックnの信号波形は周波数領域におけるパワースペクトル13に変換され、処理済信号のブロックnの信号波形は周波数領域におけるパワースペクトル14に変換される。その後、3つのスペクトルパラメータ31がリファレンス信号の第1のブロックnに対して計算され、同一のスペクトルパラメータ32が処理済信号のブロックに対して計算される。しかし、別の実施形態によれば、スペクトルパラメータは、信号波形をパワースペクトルに変換せずに信号波形から直接導出される。そして、各スペクトルパラメータ間の差分33が計算され、局所歪み34であるDが、これらの差分からブロックnに対して判定される。
図4は、本発明の基本概念に従う、通信システム21を介して送信されたオーディオ信号のオーディオ品質予測装置42を示す。例えば3つのスペクトルパラメータである適切な少数の異なるスペクトルパラメータが、パラメータ抽出器23によりリファレンス信号及び処理済信号のブロックのスペクトル特性から計算され、時間同期及び計算された局所歪みの統合が、時間軸整合/品質予測器41において共に実行され、品質値Qが出力される。
本発明によれば、約20ミリ秒の長さを有するリファレンス信号及び処理済信号の全ての第1のブロックは、そのようなブロックが例えば128個の成分を用いて記述される従来の周波数表現の記述とは異なり、少なくとも2つ、好ましくは3つ、の異なるスペクトルパラメータを用いて記述される。本発明の一実施形態によれば、各ブロックを記述するのに適切なスペクトルパラメータは、スペクトル平坦特性、RMSE正規化遷移率、及びスペクトルセントロイドを含む。
ブロックのスペクトル平坦特性を表すスペクトルパラメータは、例えば以下の式(3)に従ってパワースペクトルにおける共鳴構造の量を測定し、このパラメータにおける偏差は符号化歪み及び加法性背景雑音に関係する。
Figure 0005204904
RMSE正規化遷移率を表すスペクトルパラメータは、例えば以下の式(4)に従って信号エネルギ変化率を示し、このパラメータにおける偏差は、例えば利得誤差及び信号ミュートに関係する。
Figure 0005204904
スペクトルセントロイドを表すスペクトルパラメータは、例えば以下の式(5)に従って信号エネルギの大部分が集中する周波数を示し、このパラメータにおける偏差は、帯域幅損失及び加法性背景雑音に関係する。スペクトルセントロイドはスペクトル傾斜に関係するため、スペクトルセントロイドは1次線形予測分析における係数として近似可能である。
Figure 0005204904
上述のパラメータの例、特にスペクトル平坦特性及びRMSE正規化遷移率は、共鳴構造、知覚輝度(perceived brightness)及びエネルギ変化等のオーディオ信号のブロックの有意な次元を表し、パラメータ表現は特定の歪みと容易に関連付けられる。更に、リファレンス信号及び処理済信号の周波数ビンが完全に位置合わせされる必要がないため、スペクトルパラメータは時間軸整合及びフォルマント変位の誤差に対して頑健である。
インデクスnを有する第1のブロックに対する局所歪みDは、処理済信号のブロックの各スペクトルパラメータとリファレンス信号の対応するブロックのスペクトルパラメータとの間の差分から計算され、例えば以下の式(6)に従って表される。
Figure 0005204904
本発明の第1の実施形態によれば、処理済信号及びリファレンス信号の時間同期は、リファレンス信号と処理済信号との間の多数の異なる時間変位mにおける各局所歪みD及び局所歪みの統合を計算することにより、局所歪みの統合の計算と共に実行される。従って、最適な時間変位は、計算された統合された局所歪みの最小値を選択し且つ歪みの当該最小値から品質値を判定することにより判定可能である。
時間変位mにおける第1のブロックnに対する局所歪みの計算は、例えば以下の式(7)により表される。
Figure 0005204904
その後、局所歪みは、式(8)に従って例えばLノルムとして異なるmにおいて統合される。
Figure 0005204904
品質は、処理済信号がリファレンス信号に対して時間軸整合される最適な時間変位における局所歪みの最小統合値から予測される。本発明の一実施形態によれば、予測品質は、選択された適切な品質値により示される。オーディオ信号の比較的小さい歪みはオーディオ信号の予測品質が比較的高いことを意味するため、品質値により示される品質は統合された局所歪みに反比例する。
最適な時間変位mは、例えば式(9)に従って計算可能である。
Figure 0005204904
図5は、本発明の第1の実施形態に従って、オーディオ信号の品質を予測する方法を示すフローチャートである。ステップ51において、リファレンス信号系列及び処理済信号系列は例えば20〜40ミリ秒の長さの複数の第1のブロックに分割され、ステップ52において、例えば3つの異なるスペクトルパラメータが処理済信号及びリファレンス信号の第1のブロックの各々に対して計算される。スペクトルパラメータは少なくとも2つであり、適切なスペクトルパラメータは、上述のように例えばスペクトル平坦特性、スペクトルセントロイド及びRMSE正規化遷移率である。ステップ53において、通信システムを介して送信中のオーディオ信号の歪みを判定するために、局所歪みDが第1のブロックの各々に対して処理出力信号のブロックにおける各スペクトルパラメータと入力リファレンス信号の対応するブロックにおける各スペクトルパラメータとの間の差分から計算される。次にステップ54において、処理済信号は、処理済信号とリファレンス信号との間の異なる時間変位mにおける各ブロックの局所歪みの統合値を例えばLノルムとして計算することによりリファレンス信号と時間同期される。ステップ55において、予測された第1の品質値は、処理済信号とリファレンス信号との間の最適な時間変位mにおける統合された局所歪みの最小値から判定される。
図5に示すように、第1の品質値の予測において、スペクトルパラメータ及び局所歪みは、例えば20ミリ秒の長さを有する固定された小さいブロックに対して計算される。しかし、本発明の第2の実施形態によれば、より大きい第2のブロック内に位置する第1のブロックの計算されたスペクトルパラメータから統計値として第2のパラメータを計算することにより、より大きいスケールで歪みを取得することができる。
従って、本発明の第2の実施形態によれば、第2のパラメータは、より大きい第2のブロック内に位置する第1のブロックに対して計算されたスペクトルパラメータの例えば平均、分散、歪度(skew)又はある特定の五分位数(quintile)を計算することにより取得される。従って、以下の式(10)、(11)及び(12)で示される第2のパラメータは、所定の数の小さい第1のブロックを含み且つリファレンス信号のインデクスBを有するより大きい第2のブロックに対して取得される。
Figure 0005204904
明らかに、対応する第2のパラメータが処理済信号に対して同様に取得される。この大きい第2のブロックBに対する局所歪みDBは、例えば以下の式(13)に従って、処理済信号の大きい第2のブロックにおける第2のパラメータとリファレンス信号の対応する大きい第2のブロックにおける第2のパラメータの間の差分から計算される。
Figure 0005204904
本発明の更なる実施形態によれば、例えば8〜12秒の長さを有するオーディオ信号系列の総合品質は、歪みD及び歪みDの組み合わせから予測される。Dは常に、固定長を有する小さい第1のブロックにおける局所歪みを示す。しかし、インデクスBで示される大きい第2のブロックは、少なくとも2つの第1のブロックに対応する長さ、すなわち2つの小さいブロックと信号シーケンスの全長との間の長さを有する。
総合品質は、分解能が異なる歪みから判定された品質予測値の間の線形結合として予測され、すなわち、小スケールの局所歪み及び大スケールの歪みは別々に統合される。従って、第1の品質値Qは小スケールの局所歪みDの統合から判定され、第2の品質値Qは大スケールの歪みDの統合から判定される。その後、第1の品質値Q及び第2の品質値Qは、総合品質値Qtotを形成するために例えば以下の式(14)に従って組み合わされる。
tot=k+k (14)
式(14)においてk=kである場合、第1の品質値及び第2の品質値は同一の重みを付与される。しかし、更なる実施形態によれば、第1の品質値及び第2の品質値は異なる重みを付与され、異なる重みは上記の(14)においてk≠kで示される。一部の歪みがより大きい信号区分における例えば加法性背景雑音、帯域幅制限及びエネルギ損失等のより大きいパラメータを用いて容易に記述されるため、特定の歪みが検出された場合、予測される総合品質値においては、例えばインデクスBを有するより大きいブロックから予測された第2の品質値にはより大きい重みを付与してもよい。従って、総合品質値において、第2の大スケールの品質値に、より大きい重みを付与することが有利である場合がある。この場合、上記の式(14)においてk<kである。
図6は、本発明の第2の実施形態に従って、図5に示したステップの後に実行されるオーディオ信号の第2の大スケールの品質を予測する追加のステップを示すフローチャートである。ステップ61において、処理済信号系列及びリファレンス信号系列はそれぞれ、2つ以上の小さい第1のブロックを含む1つ以上の第2のブロックに分割される。ステップ62において、第2のパラメータは、最適な時間変位mにおいて処理済信号及びリファレンス信号のより大きい第2のブロックに含まれる第1のブロックの各スペクトルパラメータから例えば第1のパラメータの平均、分散又は中間値として統計的に計算される。その後、ステップ63において、処理済信号の歪みのブロックの第2のパラメータの各々とリファレンス信号の対応するブロックの同一の第2のパラメータとの間で差分が計算され、局所歪みDが例えば上記の式(13)に従って第2のブロックの各々に対して計算される。次にステップ64において、第2の大スケールの品質値Qが統合された局所歪みから予測される。選択された第2の品質値により示される品質は統合された局所歪みDに反比例する。
本発明によれば、同期を全く実行することなく、リファレンス信号及び処理済信号からスペクトルの特徴を抽出することができる。その代わり、同期は統合された歪みの判定と共に実行することができる。従って、本発明は、低演算量で知覚的時間軸整合を行うことができ、これは従来の波形同期より優れている。また、本発明により異なる時間分解能、すなわち異なるスケールでの歪みの予測が可能になる。従って、品質予測の精度及びフレキシビリティが向上する。
図7は、第1の実施形態に従う、オーディオ信号の品質を予測する装置42を示す。装置は、リファレンス信号系列及び処理済信号系列を20〜40ミリ秒の長さの複数の第1のブロックに分割する信号分割手段71を備える。また、装置は、第1のブロックの各々に対して、各々がブロックの異なるスペクトル特性を表す例えば3つの異なるスペクトルパラメータを計算するスペクトルパラメータ計算手段72を備える。歪み計算手段73では、処理済信号の各ブロックにおける各スペクトルパラメータとリファレンス信号の対応するブロックにおけるスペクトルパラメータとの間の差分が計算され、それらの差分に基づいて、第1のブロックの各々に対する局所歪みDが計算される。統合値計算手段74では、信号系列の各ブロックにおける局所歪みが、例えばLノルムとして統合される。第1品質予測手段75で、第1の品質値は予測される。ここで、第1の品質値により示される品質は、統合された局所歪みに反比例するものとなる。
なお、図7に示す手段は、プログラムマイクロプロセッサ又は汎用コンピュータと関連して機能するソフトウェアを使用し且つ/あるいは特定用途向け集積回路(ASIC)を使用する物理的又は論理的エンティティによって実施可能である。
第2の実施形態によれば、装置は、より大きいスケールで計算される第2の品質値を判定する手段を更に備える。当該手段は、
・ リファレンス信号及び処理済信号を、各々が第1のブロックより大きく且つ所定の数、すなわち2つ以上の第1のブロックを含む1つ以上の第2のブロックに分割する第2の分割手段と、
・ 第2の大ブロックに含まれる第1の小ブロックの各々に対して計算された各スペクトルパラメータから第2のパラメータを計算する第2のパラメータ計算手段と、
・ 処理済信号とリファレンス信号との間の最適な時間変位mにおいてリファレンス信号の第2のパラメータの各々と処理済信号の対応する第2のパラメータとの間の歪みを計算し、第2のブロックの各々に対する局所歪みを判定する第2の歪み計算手段と、
・ 計算された局所歪みの統合値から第2の品質値を判定する第2の品質判定手段と、
を備える。
更なる実施形態によれば、装置は、例えば異なる重みを用いて第1の品質値及び第2の品質値を組み合わせることによりオーディオ信号の総合品質を判定する手段を備える。
更なる実施形態によれば、装置は、リファレンス信号の挿入点及び歪んだ処理済信号の受信点である通信システムの2つの異なる点に接続されるように構成される。可能な接続点は、例えば移動電話、メディアゲートウェイ又はVoIPゲートウェイである。
なお、上述の実施形態は例として説明したものにすぎず、本発明をその開示に限定するべきものではない。添付の請求の範囲に記載されあ本発明の範囲に含まれる他の解決策、使用、目的及び機能は当業者には明らかである。
<略語>
RMSE − 二乗平均誤差(Root Mean Squared Error)
VoIP − Voice Over Internet Protocol
n − 第1のブロック、すなわち20〜40ミリ秒の小ブロックに対するブロックインデクス
B − 各々が2つ以上の第1の小ブロックを含む第2の大ブロックに対するブロックインデクス
N − 信号シーケンス内のブロック数
w − 1つのブロック内の周波数ビンのインデクス
r − リファレンス信号に関連するパラメータ
p − 処理済信号に関連するパラメータ

Claims (23)

  1. 通信システムへの入力信号に対応するリファレンス信号と前記通信システムからの出力信号に対応する処理済信号とを用いて、前記通信システムを介して送信されたオーディオ信号の品質を予測する方法であって、
    前記リファレンス信号及び前記処理済信号を、所定の長さを有する少なくとも2つの第1のブロックに分割するステップ(51)と、
    前記第1のブロックの各々の信号のスペクトル特性を表す少なくとも2つの異なるスペクトルパラメータを計算するステップ(52)と、
    前記第1のブロックの各々に対して、前記リファレンス信号の計算された各スペクトルパラメータと前記処理済信号の対応する計算されたスペクトルパラメータとの間の歪みを計算するステップ(53)と、
    前記リファレンス信号と前記処理済信号との間の複数の異なる時間変位に対する前記歪みの統合値を計算するステップ(54)と、
    最適な時間変位における前記歪みの最小統合値から前記オーディオ信号の第1の品質値を判定するステップ(55)と、
    を有することを特徴とする方法。
  2. 前記判定された第1の品質値により示される前記品質は、前記歪みの前記最小統合値に反比例することを特徴とする請求項1に記載の方法。
  3. 前記スペクトルパラメータの数は3つであることを特徴とする請求項1又は2に記載の方法。
  4. 前記スペクトルパラメータのうちの1つは、パワースペクトルの共鳴構造を示すスペクトル平坦特性を表すことを特徴とする請求項1乃至3のいずれか1項に記載の方法。
  5. 前記スペクトルパラメータのうちの1つは、信号エネルギの変化率を示すRMSE正規化遷移率を表すことを特徴とする請求項1乃至4のいずれか1項に記載の方法。
  6. 前記スペクトルパラメータのうちの1つは、信号エネルギが集中する周波数を示すスペクトルセントロイドを表すことを特徴とする請求項1乃至5のいずれか1項に記載の方法。
  7. 前記リファレンス信号及び前記処理済信号を、各々が所定の数の前記第1のブロックを含む少なくとも1つの第2のブロックに分割するステップ(61)と、
    前記第2のブロックに含まれる前記第1のブロックの各々に対して計算された前記スペクトルパラメータの各々から第2のパラメータを計算するステップ(62)と、
    前記最適な時間変位における、前記リファレンス信号の前記第2のパラメータの各々と前記処理済信号の対応する前記第2のパラメータとの間の歪みを計算するステップ(63)と、
    前記計算された歪みの統合値から、第2の品質値を判定するステップ(64)と、
    を更に有することを特徴とする請求項1乃至6のいずれか1項に記載の方法。
  8. 前記判定された第2の品質値は、前記歪みの統合値に反比例することを特徴とする請求項7に記載の方法。
  9. 前記判定された第1の品質値と前記判定された第2の品質値とを組み合わせることにより前記オーディオ信号の総合品質値を判定するステップを更に有することを特徴とする請求項7又は8に記載の方法。
  10. 前記第1の品質値と前記第2の品質値との組み合わせは、互いに異なる重みを用いた重み付け和によって行われることを特徴とする請求項9に記載の方法。
  11. 前記第2のパラメータの計算は、前記第2のブロックに含まれる前記第1のブロックの各々に対して計算された前記スペクトルパラメータの平均、分散又は歪度の判定を含むことを特徴とする請求項7乃至10のいずれか1項に記載の方法。
  12. 通信システムへの入力信号に対応するリファレンス信号(11)と前記通信システムからの歪んだ出力信号に対応する処理済信号(12)とを用いて、前記通信システムを介して送信されたオーディオ信号の品質を予測する装置(42)であって、
    前記リファレンス信号及び前記処理済信号を、所定の長さを有する少なくとも2つの第1のブロックに分割する信号分割手段(71)と、
    前記第1のブロックの各々の信号のスペクトル特性を表す少なくとも2つの異なるスペクトルパラメータを計算するパラメータ計算手段(72)と、
    前記第1のブロックの各々に対して、前記処理済信号の各スペクトルパラメータと前記リファレンス信号の対応するスペクトルパラメータとの間の歪みを計算する歪み計算手段(73)と、
    前記リファレンス信号と前記処理済信号との間の複数の異なる時間変位における前記計算された歪みの統合値を計算する統合値計算手段(74)と、
    最適な時間変位における前記歪みの最小統合値から前記オーディオ信号の第1の品質値を判定する第1の品質判定手段(75)と、
    を備えることを特徴とする装置。
  13. 前記判定された第1の品質値により示される前記品質は、前記歪みの前記最小統合値に反比例することを特徴とする請求項12に記載の装置。
  14. 前記スペクトルパラメータの数は3つである請求項12又は13に記載の装置。
  15. 前記スペクトルパラメータのうちの1つは、パワースペクトルの共鳴構造を示すスペクトル平坦特性を表すことを特徴とする請求項12乃至14のいずれか1項に記載の装置。
  16. 前記スペクトルパラメータのうちの1つは、信号エネルギの変化率を示すRMSE正規化遷移率を表すことを特徴とする請求項12乃至15のいずれか1項に記載の装置。
  17. 前記スペクトルパラメータのうちの1つは、信号エネルギが集中する周波数を示すスペクトルセントロイドを表すことを特徴とする請求項12乃至16のいずれか1項に記載の装置。
  18. 第2の品質値を判定する手段を更に備え、該手段は、
    前記リファレンス信号(11)及び前記処理済信号(12)を、各々が所定の数の前記第1のブロックを含む少なくとも1つの第2のブロックに分割する第2の分割手段と、
    前記第2のブロックに含まれる前記第1のブロックの各々に対して計算された前記スペクトルパラメータの各々から第2のパラメータを計算する第2のパラメータ計算手段と、
    前記最適な時間変位における、前記リファレンス信号の前記第2のパラメータの各々と前記処理済信号の対応する前記第2のパラメータとの間の歪みを計算する第2の歪み計算手段と、
    前記計算された歪みの統合値から、第2の品質値を判定する第2の品質判定手段と、
    を含むことを特徴とする請求項12乃至17のいずれか1項に記載の装置。
  19. 前記判定された第2の品質値は、前記歪みの統合値に反比例することを特徴とする請求項18に記載の装置。
  20. 前記第1の品質値と前記第2の品質値とを組み合わせることにより前記オーディオ信号の総合品質値を判定する品質判定手段を更に備えることを特徴とする請求項18又は19に記載の装置。
  21. 前記第1の品質値と前記第2の品質値との組み合わせは、互いに異なる重みを用いた重み付け和によって行われることを特徴とする請求項20に記載の装置。
  22. 前記第2のパラメータの計算は、前記第2のブロックに含まれる前記第1のブロックの各々に対して計算された前記スペクトルパラメータの平均、分散又は歪度を判定することを含むことを特徴とする請求項18乃至21のいずれか1項に記載の装置。
  23. 前記装置は、前記リファレンス信号の挿入点及び前記歪んだ処理済信号の受信点である、前記通信システムの2つの点に接続されることを特徴とする請求項12乃至22のいずれか1項に記載の装置。
JP2011546623A 2009-01-30 2009-01-30 オーディオ信号品質予測 Expired - Fee Related JP5204904B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2009/051054 WO2010086020A1 (en) 2009-01-30 2009-01-30 Audio signal quality prediction

Publications (2)

Publication Number Publication Date
JP2012516591A JP2012516591A (ja) 2012-07-19
JP5204904B2 true JP5204904B2 (ja) 2013-06-05

Family

ID=41136699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011546623A Expired - Fee Related JP5204904B2 (ja) 2009-01-30 2009-01-30 オーディオ信号品質予測

Country Status (4)

Country Link
US (1) US20120020484A1 (ja)
EP (1) EP2392003B1 (ja)
JP (1) JP5204904B2 (ja)
WO (1) WO2010086020A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011010962A1 (en) * 2009-07-24 2011-01-27 Telefonaktiebolaget L M Ericsson (Publ) Method, computer, computer program and computer program product for speech quality estimation
US8493202B1 (en) 2010-03-22 2013-07-23 Alarm.Com Alarm signaling technology
JP5750167B2 (ja) * 2010-12-07 2015-07-15 エンパイア テクノロジー ディベロップメント エルエルシー 端末間の体感品質を測定するためのオーディオフィンガープリントの差分
BR112014007481A2 (pt) * 2011-09-29 2017-04-04 Dolby Int Ab detecção de alta qualidade em sinais de rádio fm estéreo
US9830905B2 (en) 2013-06-26 2017-11-28 Qualcomm Incorporated Systems and methods for feature extraction
US11888919B2 (en) * 2013-11-20 2024-01-30 International Business Machines Corporation Determining quality of experience for communication sessions
US9325838B2 (en) * 2014-07-22 2016-04-26 International Business Machines Corporation Monitoring voice over internet protocol (VoIP) quality during an ongoing call
US10490206B2 (en) * 2016-01-19 2019-11-26 Dolby Laboratories Licensing Corporation Testing device capture performance for multiple speakers
EP3483878A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
JP7212925B2 (ja) * 2018-10-30 2023-01-26 国立大学法人九州大学 音声伝達環境評価システム及び感覚刺激提示装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09331391A (ja) * 1996-06-12 1997-12-22 Nippon Telegr & Teleph Corp <Ntt> 通話品質客観推定装置
US6201176B1 (en) * 1998-05-07 2001-03-13 Canon Kabushiki Kaisha System and method for querying a music database
WO2000022803A1 (en) * 1998-10-08 2000-04-20 British Telecommunications Public Limited Company Measurement of speech signal quality
FR2835125B1 (fr) * 2002-01-24 2004-06-18 Telediffusion De France Tdf Procede d'evaluation d'un signal audio numerique
JP3809164B2 (ja) * 2002-12-25 2006-08-16 日本電信電話株式会社 総合通話品質推定方法及び装置、その方法を実行するプログラム、及びその記録媒体
KR101101384B1 (ko) * 2003-04-24 2012-01-02 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라미터화된 시간 특징 분석
JP4341586B2 (ja) * 2005-06-08 2009-10-07 Kddi株式会社 通話品質の客観評価サーバ、方法及びプログラム
JP2007013674A (ja) * 2005-06-30 2007-01-18 Ntt Docomo Inc 総合通話品質評価装置および総合通話品質評価方法
US7933427B2 (en) * 2006-06-27 2011-04-26 Motorola Solutions, Inc. Method and system for equal acoustics porting
JP4597919B2 (ja) * 2006-07-03 2010-12-15 日本電信電話株式会社 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体

Also Published As

Publication number Publication date
WO2010086020A1 (en) 2010-08-05
US20120020484A1 (en) 2012-01-26
EP2392003A1 (en) 2011-12-07
EP2392003B1 (en) 2013-01-02
JP2012516591A (ja) 2012-07-19

Similar Documents

Publication Publication Date Title
JP5204904B2 (ja) オーディオ信号品質予測
KR100883712B1 (ko) 음원 방향 추정 방법, 및 음원 방향 추정 장치
EP2587842B1 (en) Device and method for detecting tone frequency
CN102549657B (zh) 用于确定音频系统的感知质量的方法和系统
KR101430321B1 (ko) 오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템
KR20180073649A (ko) 에코 지연을 추적하는 방법 및 장치
CN102598119B (zh) 基音估计
EP1432137A2 (en) Echo detection and monitoring
JP2004272052A (ja) 音声区間検出装置
JP2005165021A (ja) 雑音低減装置、および低減方法
JP2013500498A (ja) 音声品質の評価のための方法、コンピュータ、コンピュータプログラム、およびコンピュータプログラム製品
JP2010112995A (ja) 通話音声処理装置、通話音声処理方法およびプログラム
JP2012181429A (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
WO2013170610A1 (zh) 检测基音周期的正确性的方法和装置
EP2438591B1 (en) A method and arrangement for estimating the quality degradation of a processed signal
JPH0844395A (ja) 音声ピッチ検出装置
US11437054B2 (en) Sample-accurate delay identification in a frequency domain
KR20130116897A (ko) 예측 인코딩을 위한 인코더 및 방법, 디코딩을 위한 디코더 및 방법, 예측 인코딩 및 디코딩을 위한 시스템 및 방법, 및 예측 인코딩된 정보 신호
JP5611393B2 (ja) 遅延時間測定装置、遅延時間測定方法及びプログラム
JP5952252B2 (ja) 通話品質推定方法、通話品質推定装置、及びプログラム
JP4430566B2 (ja) 客観品質評価装置および方法
Waltermann et al. Towards a new E-model impairment factor for linear distortion of narrowband and wideband speech transmission
JP2004158925A (ja) ディジタルデータ処理装置およびディジタルデータ処理方法
JP4514149B2 (ja) 音声品質推定装置および音声品質推定方法
JP5792689B2 (ja) 送話ラウドネス定格情報測定装置、及び送話ラウドネス定格情報測定方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130215

R150 Certificate of patent or registration of utility model

Ref document number: 5204904

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160222

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees