JP5204904B2

JP5204904B2 - オーディオ信号品質予測

Info

Publication number: JP5204904B2
Application number: JP2011546623A
Authority: JP
Inventors: ボローディアグランチャロフ，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2009-01-30
Filing date: 2009-01-30
Publication date: 2013-06-05
Anticipated expiration: 2029-01-30
Also published as: WO2010086020A1; US20120020484A1; EP2392003A1; EP2392003B1; JP2012516591A

Description

本発明は、通信システムへの入力信号に対応するリファレンス信号及びその通信システムからの出力信号に対応する処理済信号を使用して、通信システムを介した送信後のオーディオ信号の品質を予測する方法及び装置に関する。

モバイル通信システム及び例えばＶｏＩＰシステムにおいて、システム通過後の音声信号の品質を予測できることが重要である。システムを介した送信後のオーディオ／音声信号の客観的品質は、例えばＰＥＳＱ（Perceptual Evaluation of Speech Quality）又はＰＥＡＱ（Perceptual Evaluation of Audio Quality）を使用して予測することができる。これらは共に、オーディオ品質予測を行うための、従来のイントルーシブ（intrusive；介入的）な、すなわちダブルエンド（double-ended）な方法の例である。イントルーシブな方法は、システムに入力される元の信号と歪んだ出力信号の両方を使用し、これらの信号はオーディオ信号品質予測装置に転送される。イントルーシブなオーディオ信号品質予測装置は、システムに入力されたリファレンス信号と処理済みの（歪んだ）信号出力とを比較することにより、ネットワークを介した送信後のオーディオ信号の品質を予測する。これは、ＰＳＴＮ、モバイルネットワーク及びＶｏＩＰネットワークを含むネットワークの範囲にわたり有効である。ＰＥＳＱは、例えば符号化歪み、誤差、パケット損失、遅延、可変遅延及びフィルタリングを考慮して、雑音、遅延及びフロントエンドクリッピング等の歪みの影響を測定し、品質尺度として１つの平均オピニオンスコア（ＭＯＳ）を提供する。このように、システムを介して送信されたオーディオ信号の品質を予測するために、リファレンス信号すなわちオーディオ送信システムへの入力信号と、処理済信号すなわちシステムの歪んだ出力とが使用されうる。

イントルーシブなダブルエンドのオーディオ信号品質予測を実行するために、その予測を実行するように構成された端末は一般に、２つの異なる点に接続される。一点は、リファレンス信号を挿入する点であり、もう一点は、処理済信号を受信する点である。可能な接続点は、例えば移動電話、メディアゲートウェイ又はＶｏＩＰゲートウェイである。

図２は、リファレンス信号と処理済信号とから通信システム２１を介した送信後の例えば音声信号であるオーディオ信号の品質を推定する従来の装置２５を示すブロック図である。時間軸整合器２２において、リファレンス信号と処理済信号との時間同期が行われ、特徴抽出器２３において、品質の変動に関係する信号の特徴の抽出が行われ、品質予測器２４において、抽出された特徴を組み合わせることにより品質の推定値が生成される。

例えばＶｏＩＰシステム、低ビットレートパラメトリック符号化器、非同期クロック、あるいはサンプリングレートの変化により、通常は処理済信号には遅延が発生するため、図２の時間軸整合器２２において、リファレンス信号と処理済信号との間の時間同期、すなわち時間軸整合を行う必要がある。通常、人間のオーディオ品質知覚は小さな遅延による影響を受けないが、オーディオ信号品質の客観的な推定値を得るためには、特徴の抽出前に信号を同期する必要がある。

図２の特徴抽出器２３は、双方の信号の特徴の抽出を実行する。図１は、リファレンス信号１１及び処理済信号１２から特徴を抽出する従来の手法を示している。スペクトル情報を有するベクトルが双方の信号からブロック単位で抽出され、ベクトル間の距離が局所歪みの基準となる。特徴抽出においては、一般に８〜１２秒であるリファレンス信号及び処理済信号のシーケンスは、各々が一般に２０〜４０ミリ秒の長さを有する短いブロックに分割される。各信号ブロックの波形は周波数領域、すなわちパワースペクトルに変換される。更に、周波数領域のベクトルは、ヘルツ尺度からバーク尺度又はメル尺度への周波数ワーピング後にラウドネス密度を取得するために圧縮することにより知覚領域に変換されてもよい。その後、１５において、インデクスｎのブロックにおける局所歪みＤ_ｎ１６が、例えば励起パターン及びラウドネス密度に関係するリファレンス信号の周波数表現１３と処理済信号の周波数表現１４との間の距離として計算される。その計算は、例えば以下の式（１）に従って行われる。

以下、インデクスｒはリファレンス信号を示し、インデクスｐは処理済信号を示し、インデクスｎは特定のブロックを示す。

式（１）の関数ｆは周波数ビンｗにわたり統合を実行し、Ｌ_ｐノルム及び符号差分の少なくともいずれかを含みうるベクトル距離を計算する。

図２の品質予測器２４において、信号品質値Ｑが、以下の式（２）に従って、例えばブロック毎の歪みＤ_ｎのＬ_ｐノルムである計算された統合値から判定される。

歪みが少ないほど高品質になるため、品質値Ｑで示されるオーディオ信号品質値は統合された歪みＤに反比例する。

しかし、上述した従来の品質推定装置２５はいくつかの欠点を有する。１つの欠点は、リファレンス信号と処理済信号との間の時間軸整合の誤差に対して非常に感度が高く、スペクトルベクトルが完全に時間同期されていないと、図１に示すような２つのパワースペクトルベクトルの間で計算される差分に大きな誤差が生じてしまうことである。処理済信号は例えば低ビットレートコーデックにより大きく歪む場合があるため、リファレンス信号及び処理済信号を使用する客観オーディオ信号品質推定においては、時間軸整合の誤差が問題となる。

また、人間の聴覚システムであればピッチや音質のある程度の違いは吸収できるのだが、２つのスペクトルベクトルの減算においては、それらの自然な音声の違いを取り込むことができない。更なる欠点は、音声信号は準定常であるため、スペクトルの特徴は、例えば最大４０ミリ秒までの短時間単位でしか抽出することができないことである。しかし、例えば３００ミリ秒の長さといった、より大きい信号セグメントを使用して異なる分解能で歪みを計算することが望ましい場合があるが、上記の従来の品質推定装置ではこれを行うことはできない。

本発明の目的は上述の問題を解決することであり、上記の目的及び他の目的は、添付の独立請求項に記載された方法及び装置、並びに従属請求項に従う実施形態により達成される。

一側面によれば、本発明は、通信システムを介して送信されたオーディオ信号の品質を予測する方法を提供する。方法は、通信システムへの入力信号に対応するリファレンス信号と通信システムからの出力信号に対応する処理済信号とを使用する。方法は、
前記リファレンス信号及び前記処理済信号を、所定の長さを有する少なくとも２つの第１のブロックに分割するステップと、
前記第１のブロックの各々の信号のスペクトル特性を表す少なくとも２つの異なるスペクトルパラメータを計算するステップと、
前記第１のブロックの各々に対して、前記リファレンス信号の計算された各スペクトルパラメータと前記処理済信号の対応する計算されたスペクトルパラメータとの間の歪みを計算するステップと、
前記リファレンス信号と前記処理済信号との間の複数の異なる時間変位に対する前記歪みの統合値を計算するステップと、
最適な時間変位における前記歪みの最小統合値から前記オーディオ信号の第１の品質値を判定するステップと、
を有する。

前記判定された第１の品質値により示される前記品質は、前記歪みの前記最小統合値に反比例しうるものであり、また、前記スペクトルパラメータの数は３つであってもよい。

前記スペクトルパラメータのうちの１つは、パワースペクトルの共鳴構造を示すスペクトル平坦特性を表してもよく、スペクトルパラメータのうちの１つは、信号エネルギの変化率を示すＲＭＳＥ正規化遷移率を表してもよく、前記スペクトルパラメータのうちの１つは、信号エネルギが集中する周波数を示すスペクトルセントロイドを表してもよい。

方法は、
前記リファレンス信号及び前記処理済信号を、各々が所定の数の前記第１のブロックを含む少なくとも１つの第２のブロックに分割するステップと、
前記第２のブロックに含まれる前記第１のブロックの各々に対して計算された前記スペクトルパラメータの各々から第２のパラメータを計算するステップと、
前記最適な時間変位における、前記リファレンス信号の前記第２のパラメータの各々と前記処理済信号の対応する前記第２のパラメータとの間の歪みを計算するステップと、
前記計算された歪みの統合値から、第２の品質値を判定するステップと、
を更に有することができる。

前記第２の品質値は、前記歪みの統合値に反比例しうる。

更に、前記オーディオ信号の総合品質値は、例えば互いに異なる重みを用いた重み付け和により第１の品質値と第２の品質値とを組み合わせることにより判定されてもよい。

前記第２のパラメータの計算は、前記第２のブロックに含まれる前記第１のブロックの各々に対して計算されたスペクトルパラメータの平均、分散又は歪度の判定を含んでもよい。

第２の側面によれば、本発明は、通信システムへの入力信号に対応するリファレンス信号と前記通信システムからの歪んだ出力信号に対応する処理済信号とを用いて、前記通信システムを介して送信されたオーディオ信号の品質を予測する装置を提供する。装置は、前記リファレンス信号及び前記処理済信号を、所定の長さを有する少なくとも２つの第１のブロックに分割する信号分割手段と、前記第１のブロックの各々の信号のスペクトル特性を表す少なくとも２つの異なるスペクトルパラメータを計算するパラメータ計算手段と、前記第１のブロックの各々に対して、前記処理済信号の各スペクトルパラメータと前記リファレンス信号の対応するスペクトルパラメータとの間の歪みを計算する歪み計算手段と、前記リファレンス信号と前記処理済信号との間の複数の異なる時間変位における前記計算された歪みの統合値を計算する統合値計算手段と、最適な時間変位における前記歪みの最小統合値から前記オーディオ信号の第１の品質値を判定する第１の品質判定手段とを備える。

装置は、第２の品質値を判定する手段を更に備えることができ、該手段は、前記リファレンス信号及び前記処理済信号を、各々が所定の数の前記第１のブロックを含む少なくとも１つの第２のブロックに分割する第２の分割手段と、前記第２のブロックに含まれる前記第１のブロックの各々に対して計算された前記スペクトルパラメータの各々から第２のパラメータを計算する第２のパラメータ計算手段と、前記最適な時間変位における、前記リファレンス信号の前記第２のパラメータの各々と前記処理済信号の対応する前記第２のパラメータとの間の歪みを計算する第２の歪み計算手段と、前記計算された歪みの統合値から、第２の品質値を判定する第２の品質判定手段とを含みうる。

装置は、前記リファレンス信号の挿入点及び前記歪んだ処理済信号の受信点である、通信システムの２つの点に接続されるように構成されてもよい。

リファレンス信号及び処理済信号に対する従来の特徴抽出手法を示す図。従来のオーディオ信号の品質を予測する装置を示す図。本発明の一実施形態に係るパラメータ抽出手法を示す図。本発明の基本概念によるオーディオ信号品質予測を示す図。本発明の第１の実施形態に係るオーディオ信号の品質を予測する方法を示すフローチャート。本発明の第２の実施形態に係るオーディオ信号の品質を予測する追加のステップを示すフローチャート。本発明の第１の実施形態に係るオーディオ信号の品質を予測する装置を示す図。

以下、特定の実施形態及び添付の図面を参照して、本発明を詳細に説明する。以下では、限定する目的ではなく説明のために、特定の例、技術等の特定の詳細な説明を記載し、これによって本発明の十分な理解を提供する。なお、本発明が、それら特定の詳細な記載から逸脱する他の実施形態によっても実施可能であることは当業者には明らかである。

更に、本明細書中で以下に説明する機能及び手段がプログラムマイクロプロセッサ又は汎用コンピュータと関連して機能するソフトウェアを使用し且つ／あるいは特定用途向け集積回路（ＡＳＩＣ）を用いて実施可能であることは当業者には理解されよう。また、主に方法及び装置の形態で本発明を説明するが、本発明は、本明細書中で開示される機能を実行するための１つ以上のコンピュータプログラムによっても実施可能であるし、そのようなプログラムを有するメモリと、そのメモリに結合されたコンピュータプロセッサとを含むシステムによっても実施可能である。

本発明の基本概念によれば、システムを介して送信されたオーディオ信号の予測品質は、歪んだ処理済信号の信号スペクトルを表す少数のスペクトルパラメータと、入力リファレンス信号の信号スペクトルを表す同一のスペクトルパラメータとの間の歪みに基づくものである。また、リファレンス信号と処理済信号との間の時間同期が、歪みの計算と共に実行される。従って、品質予測は同期誤差の影響を受けにくく、歪みを異なる時間スケールで計算可能である。

より詳細には、リファレンス信号系列すなわち通信システムに入力される信号と、処理済信号すなわち通信システムからの出力信号との各々は、その信号系列の長さは一般には８〜１２秒であるところ、所定長、例えば２０〜４０ミリ秒の、複数の第１のブロックに分割される。オプションとして、信号波形は周波数領域に変換可能であり、パワースペクトルとして表現される。

それらの信号の異なるスペクトル特性を表す２つ以上の、例えば３つの、異なるスペクトルパラメータが、リファレンス信号及び処理済信号の各ブロックに対して計算される。スペクトルパラメータの数は少なく必要があり、とりわけ、周波数ビンの数よりもはるかに少ない必要があるが、例えば４つ又は５つ等、４つ以上であってもよいことは明らかである。

その後、処理済信号のシーケンス内の第１のブロックの各々の各スペクトルパラメータとリファレンス信号の対応するブロックにおける同一のスペクトルパラメータとの間の差分を計算することにより、処理済信号の歪みが判定される。次に、局所歪みＤ_ｎがそれらの差分からブロック毎に判定され、局所歪みが統合される。統合されたブロック毎の局所歪みの値が小さいほど、通信システムを介した送信によって生じるオーディオ信号の歪みは小さい、すなわち、高品質であると予測される。したがって、予測された品質値により示される品質は統合された局所歪みの大きさに反比例するように、統合された局所歪みから品質値が判定される。

また、リファレンス信号と処理済信号との間の時間同期は、各局所歪みを計算することによる歪みの統合の計算、及びリファレンス信号と処理済信号との間の多数の異なる時間変位ｍにおける局所歪みの統合と共に実行される。したがって、最適な時間変位は、計算された統合された局所歪みの最小値を選択し且つ統合された歪みの当該最小値から品質値を判定することにより判定することができる。

図３は、本発明の一実施形態に従って、インデクスｎを有する第１のブロックに対する局所歪みの計算を示すブロック図である。リファレンス信号１１及び処理済信号１２の双方は、複数の第１のブロックに分割される。リファレンス信号の第１のブロックｎの信号波形は周波数領域におけるパワースペクトル１３に変換され、処理済信号のブロックｎの信号波形は周波数領域におけるパワースペクトル１４に変換される。その後、３つのスペクトルパラメータ３１がリファレンス信号の第１のブロックｎに対して計算され、同一のスペクトルパラメータ３２が処理済信号のブロックに対して計算される。しかし、別の実施形態によれば、スペクトルパラメータは、信号波形をパワースペクトルに変換せずに信号波形から直接導出される。そして、各スペクトルパラメータ間の差分３３が計算され、局所歪み３４であるＤ_ｎが、これらの差分からブロックｎに対して判定される。

図４は、本発明の基本概念に従う、通信システム２１を介して送信されたオーディオ信号のオーディオ品質予測装置４２を示す。例えば３つのスペクトルパラメータである適切な少数の異なるスペクトルパラメータが、パラメータ抽出器２３によりリファレンス信号及び処理済信号のブロックのスペクトル特性から計算され、時間同期及び計算された局所歪みの統合が、時間軸整合／品質予測器４１において共に実行され、品質値Ｑが出力される。

本発明によれば、約２０ミリ秒の長さを有するリファレンス信号及び処理済信号の全ての第１のブロックは、そのようなブロックが例えば１２８個の成分を用いて記述される従来の周波数表現の記述とは異なり、少なくとも２つ、好ましくは３つ、の異なるスペクトルパラメータを用いて記述される。本発明の一実施形態によれば、各ブロックを記述するのに適切なスペクトルパラメータは、スペクトル平坦特性、ＲＭＳＥ正規化遷移率、及びスペクトルセントロイドを含む。

ブロックのスペクトル平坦特性を表すスペクトルパラメータは、例えば以下の式（３）に従ってパワースペクトルにおける共鳴構造の量を測定し、このパラメータにおける偏差は符号化歪み及び加法性背景雑音に関係する。

ＲＭＳＥ正規化遷移率を表すスペクトルパラメータは、例えば以下の式（４）に従って信号エネルギ変化率を示し、このパラメータにおける偏差は、例えば利得誤差及び信号ミュートに関係する。

スペクトルセントロイドを表すスペクトルパラメータは、例えば以下の式（５）に従って信号エネルギの大部分が集中する周波数を示し、このパラメータにおける偏差は、帯域幅損失及び加法性背景雑音に関係する。スペクトルセントロイドはスペクトル傾斜に関係するため、スペクトルセントロイドは１次線形予測分析における係数として近似可能である。

上述のパラメータの例、特にスペクトル平坦特性及びＲＭＳＥ正規化遷移率は、共鳴構造、知覚輝度（perceived brightness）及びエネルギ変化等のオーディオ信号のブロックの有意な次元を表し、パラメータ表現は特定の歪みと容易に関連付けられる。更に、リファレンス信号及び処理済信号の周波数ビンが完全に位置合わせされる必要がないため、スペクトルパラメータは時間軸整合及びフォルマント変位の誤差に対して頑健である。

インデクスｎを有する第１のブロックに対する局所歪みＤ_ｎは、処理済信号のブロックの各スペクトルパラメータとリファレンス信号の対応するブロックのスペクトルパラメータとの間の差分から計算され、例えば以下の式（６）に従って表される。

本発明の第１の実施形態によれば、処理済信号及びリファレンス信号の時間同期は、リファレンス信号と処理済信号との間の多数の異なる時間変位ｍにおける各局所歪みＤ_ｎ及び局所歪みの統合を計算することにより、局所歪みの統合の計算と共に実行される。従って、最適な時間変位は、計算された統合された局所歪みの最小値を選択し且つ歪みの当該最小値から品質値を判定することにより判定可能である。

時間変位ｍにおける第１のブロックｎに対する局所歪みの計算は、例えば以下の式（７）により表される。

その後、局所歪みは、式（８）に従って例えばＬ_ｐノルムとして異なるｍにおいて統合される。

品質は、処理済信号がリファレンス信号に対して時間軸整合される最適な時間変位における局所歪みの最小統合値から予測される。本発明の一実施形態によれば、予測品質は、選択された適切な品質値により示される。オーディオ信号の比較的小さい歪みはオーディオ信号の予測品質が比較的高いことを意味するため、品質値により示される品質は統合された局所歪みに反比例する。

最適な時間変位ｍ^＊は、例えば式（９）に従って計算可能である。

図５は、本発明の第１の実施形態に従って、オーディオ信号の品質を予測する方法を示すフローチャートである。ステップ５１において、リファレンス信号系列及び処理済信号系列は例えば２０〜４０ミリ秒の長さの複数の第１のブロックに分割され、ステップ５２において、例えば３つの異なるスペクトルパラメータが処理済信号及びリファレンス信号の第１のブロックの各々に対して計算される。スペクトルパラメータは少なくとも２つであり、適切なスペクトルパラメータは、上述のように例えばスペクトル平坦特性、スペクトルセントロイド及びＲＭＳＥ正規化遷移率である。ステップ５３において、通信システムを介して送信中のオーディオ信号の歪みを判定するために、局所歪みＤ_ｎが第１のブロックの各々に対して処理出力信号のブロックにおける各スペクトルパラメータと入力リファレンス信号の対応するブロックにおける各スペクトルパラメータとの間の差分から計算される。次にステップ５４において、処理済信号は、処理済信号とリファレンス信号との間の異なる時間変位ｍにおける各ブロックの局所歪みの統合値を例えばＬ_ｐノルムとして計算することによりリファレンス信号と時間同期される。ステップ５５において、予測された第１の品質値は、処理済信号とリファレンス信号との間の最適な時間変位ｍ^＊における統合された局所歪みの最小値から判定される。

図５に示すように、第１の品質値の予測において、スペクトルパラメータ及び局所歪みは、例えば２０ミリ秒の長さを有する固定された小さいブロックに対して計算される。しかし、本発明の第２の実施形態によれば、より大きい第２のブロック内に位置する第１のブロックの計算されたスペクトルパラメータから統計値として第２のパラメータを計算することにより、より大きいスケールで歪みを取得することができる。

従って、本発明の第２の実施形態によれば、第２のパラメータは、より大きい第２のブロック内に位置する第１のブロックに対して計算されたスペクトルパラメータの例えば平均、分散、歪度（skew）又はある特定の五分位数（quintile）を計算することにより取得される。従って、以下の式（１０）、（１１）及び（１２）で示される第２のパラメータは、所定の数の小さい第１のブロックを含み且つリファレンス信号のインデクスＢを有するより大きい第２のブロックに対して取得される。

明らかに、対応する第２のパラメータが処理済信号に対して同様に取得される。この大きい第２のブロックＢに対する局所歪みＤＢは、例えば以下の式（１３）に従って、処理済信号の大きい第２のブロックにおける第２のパラメータとリファレンス信号の対応する大きい第２のブロックにおける第２のパラメータの間の差分から計算される。

本発明の更なる実施形態によれば、例えば８〜１２秒の長さを有するオーディオ信号系列の総合品質は、歪みＤ_ｎ及び歪みＤ_Ｂの組み合わせから予測される。Ｄ_ｎは常に、固定長を有する小さい第１のブロックにおける局所歪みを示す。しかし、インデクスＢで示される大きい第２のブロックは、少なくとも２つの第１のブロックに対応する長さ、すなわち２つの小さいブロックと信号シーケンスの全長との間の長さを有する。

総合品質は、分解能が異なる歪みから判定された品質予測値の間の線形結合として予測され、すなわち、小スケールの局所歪み及び大スケールの歪みは別々に統合される。従って、第１の品質値Ｑ_１は小スケールの局所歪みＤ_ｎの統合から判定され、第２の品質値Ｑ_２は大スケールの歪みＤ_Ｂの統合から判定される。その後、第１の品質値Ｑ_１及び第２の品質値Ｑ_２は、総合品質値Ｑ_ｔｏｔを形成するために例えば以下の式（１４）に従って組み合わされる。

Ｑ_ｔｏｔ＝ｋ_１Ｑ_１＋ｋ_２Ｑ_２（１４）
式（１４）においてｋ_１＝ｋ_２である場合、第１の品質値及び第２の品質値は同一の重みを付与される。しかし、更なる実施形態によれば、第１の品質値及び第２の品質値は異なる重みを付与され、異なる重みは上記の（１４）においてｋ_１≠ｋ_２で示される。一部の歪みがより大きい信号区分における例えば加法性背景雑音、帯域幅制限及びエネルギ損失等のより大きいパラメータを用いて容易に記述されるため、特定の歪みが検出された場合、予測される総合品質値においては、例えばインデクスＢを有するより大きいブロックから予測された第２の品質値にはより大きい重みを付与してもよい。従って、総合品質値において、第２の大スケールの品質値に、より大きい重みを付与することが有利である場合がある。この場合、上記の式（１４）においてｋ_１＜ｋ_２である。

図６は、本発明の第２の実施形態に従って、図５に示したステップの後に実行されるオーディオ信号の第２の大スケールの品質を予測する追加のステップを示すフローチャートである。ステップ６１において、処理済信号系列及びリファレンス信号系列はそれぞれ、２つ以上の小さい第１のブロックを含む１つ以上の第２のブロックに分割される。ステップ６２において、第２のパラメータは、最適な時間変位ｍ^＊において処理済信号及びリファレンス信号のより大きい第２のブロックに含まれる第１のブロックの各スペクトルパラメータから例えば第１のパラメータの平均、分散又は中間値として統計的に計算される。その後、ステップ６３において、処理済信号の歪みのブロックの第２のパラメータの各々とリファレンス信号の対応するブロックの同一の第２のパラメータとの間で差分が計算され、局所歪みＤ_Ｂが例えば上記の式（１３）に従って第２のブロックの各々に対して計算される。次にステップ６４において、第２の大スケールの品質値Ｑ_２が統合された局所歪みから予測される。選択された第２の品質値により示される品質は統合された局所歪みＤに反比例する。

本発明によれば、同期を全く実行することなく、リファレンス信号及び処理済信号からスペクトルの特徴を抽出することができる。その代わり、同期は統合された歪みの判定と共に実行することができる。従って、本発明は、低演算量で知覚的時間軸整合を行うことができ、これは従来の波形同期より優れている。また、本発明により異なる時間分解能、すなわち異なるスケールでの歪みの予測が可能になる。従って、品質予測の精度及びフレキシビリティが向上する。

図７は、第１の実施形態に従う、オーディオ信号の品質を予測する装置４２を示す。装置は、リファレンス信号系列及び処理済信号系列を２０〜４０ミリ秒の長さの複数の第１のブロックに分割する信号分割手段７１を備える。また、装置は、第１のブロックの各々に対して、各々がブロックの異なるスペクトル特性を表す例えば３つの異なるスペクトルパラメータを計算するスペクトルパラメータ計算手段７２を備える。歪み計算手段７３では、処理済信号の各ブロックにおける各スペクトルパラメータとリファレンス信号の対応するブロックにおけるスペクトルパラメータとの間の差分が計算され、それらの差分に基づいて、第１のブロックの各々に対する局所歪みＤ_ｎが計算される。統合値計算手段７４では、信号系列の各ブロックにおける局所歪みが、例えばＬ_ｐノルムとして統合される。第１品質予測手段７５で、第１の品質値は予測される。ここで、第１の品質値により示される品質は、統合された局所歪みに反比例するものとなる。

なお、図７に示す手段は、プログラムマイクロプロセッサ又は汎用コンピュータと関連して機能するソフトウェアを使用し且つ／あるいは特定用途向け集積回路（ＡＳＩＣ）を使用する物理的又は論理的エンティティによって実施可能である。

第２の実施形態によれば、装置は、より大きいスケールで計算される第２の品質値を判定する手段を更に備える。当該手段は、
・リファレンス信号及び処理済信号を、各々が第１のブロックより大きく且つ所定の数、すなわち２つ以上の第１のブロックを含む１つ以上の第２のブロックに分割する第２の分割手段と、
・第２の大ブロックに含まれる第１の小ブロックの各々に対して計算された各スペクトルパラメータから第２のパラメータを計算する第２のパラメータ計算手段と、
・処理済信号とリファレンス信号との間の最適な時間変位ｍ^＊においてリファレンス信号の第２のパラメータの各々と処理済信号の対応する第２のパラメータとの間の歪みを計算し、第２のブロックの各々に対する局所歪みを判定する第２の歪み計算手段と、
・計算された局所歪みの統合値から第２の品質値を判定する第２の品質判定手段と、
を備える。

更なる実施形態によれば、装置は、例えば異なる重みを用いて第１の品質値及び第２の品質値を組み合わせることによりオーディオ信号の総合品質を判定する手段を備える。

更なる実施形態によれば、装置は、リファレンス信号の挿入点及び歪んだ処理済信号の受信点である通信システムの２つの異なる点に接続されるように構成される。可能な接続点は、例えば移動電話、メディアゲートウェイ又はＶｏＩＰゲートウェイである。

なお、上述の実施形態は例として説明したものにすぎず、本発明をその開示に限定するべきものではない。添付の請求の範囲に記載されあ本発明の範囲に含まれる他の解決策、使用、目的及び機能は当業者には明らかである。

＜略語＞
ＲＭＳＥ − 二乗平均誤差（Root Mean Squared Error）
ＶｏＩＰ − Voice Over Internet Protocol
ｎ − 第１のブロック、すなわち２０〜４０ミリ秒の小ブロックに対するブロックインデクス
Ｂ − 各々が２つ以上の第１の小ブロックを含む第２の大ブロックに対するブロックインデクス
Ｎ − 信号シーケンス内のブロック数
ｗ − １つのブロック内の周波数ビンのインデクス
ｒ − リファレンス信号に関連するパラメータ
ｐ − 処理済信号に関連するパラメータ

Claims

通信システムへの入力信号に対応するリファレンス信号と前記通信システムからの出力信号に対応する処理済信号とを用いて、前記通信システムを介して送信されたオーディオ信号の品質を予測する方法であって、
前記リファレンス信号及び前記処理済信号を、所定の長さを有する少なくとも２つの第１のブロックに分割するステップ（５１）と、
前記第１のブロックの各々の信号のスペクトル特性を表す少なくとも２つの異なるスペクトルパラメータを計算するステップ（５２）と、
前記第１のブロックの各々に対して、前記リファレンス信号の計算された各スペクトルパラメータと前記処理済信号の対応する計算されたスペクトルパラメータとの間の歪みを計算するステップ（５３）と、
前記リファレンス信号と前記処理済信号との間の複数の異なる時間変位に対する前記歪みの統合値を計算するステップ（５４）と、
最適な時間変位における前記歪みの最小統合値から前記オーディオ信号の第１の品質値を判定するステップ（５５）と、
を有することを特徴とする方法。
前記判定された第１の品質値により示される前記品質は、前記歪みの前記最小統合値に反比例することを特徴とする請求項１に記載の方法。
前記スペクトルパラメータの数は３つであることを特徴とする請求項１又は２に記載の方法。
前記スペクトルパラメータのうちの１つは、パワースペクトルの共鳴構造を示すスペクトル平坦特性を表すことを特徴とする請求項１乃至３のいずれか１項に記載の方法。
前記スペクトルパラメータのうちの１つは、信号エネルギの変化率を示すＲＭＳＥ正規化遷移率を表すことを特徴とする請求項１乃至４のいずれか１項に記載の方法。
前記スペクトルパラメータのうちの１つは、信号エネルギが集中する周波数を示すスペクトルセントロイドを表すことを特徴とする請求項１乃至５のいずれか１項に記載の方法。
前記リファレンス信号及び前記処理済信号を、各々が所定の数の前記第１のブロックを含む少なくとも１つの第２のブロックに分割するステップ（６１）と、
前記第２のブロックに含まれる前記第１のブロックの各々に対して計算された前記スペクトルパラメータの各々から第２のパラメータを計算するステップ（６２）と、
前記最適な時間変位における、前記リファレンス信号の前記第２のパラメータの各々と前記処理済信号の対応する前記第２のパラメータとの間の歪みを計算するステップ（６３）と、
前記計算された歪みの統合値から、第２の品質値を判定するステップ（６４）と、
を更に有することを特徴とする請求項１乃至６のいずれか１項に記載の方法。
前記判定された第２の品質値は、前記歪みの統合値に反比例することを特徴とする請求項７に記載の方法。
前記判定された第１の品質値と前記判定された第２の品質値とを組み合わせることにより前記オーディオ信号の総合品質値を判定するステップを更に有することを特徴とする請求項７又は８に記載の方法。
前記第１の品質値と前記第２の品質値との組み合わせは、互いに異なる重みを用いた重み付け和によって行われることを特徴とする請求項９に記載の方法。
前記第２のパラメータの計算は、前記第２のブロックに含まれる前記第１のブロックの各々に対して計算された前記スペクトルパラメータの平均、分散又は歪度の判定を含むことを特徴とする請求項７乃至１０のいずれか１項に記載の方法。
通信システムへの入力信号に対応するリファレンス信号（１１）と前記通信システムからの歪んだ出力信号に対応する処理済信号（１２）とを用いて、前記通信システムを介して送信されたオーディオ信号の品質を予測する装置（４２）であって、
前記リファレンス信号及び前記処理済信号を、所定の長さを有する少なくとも２つの第１のブロックに分割する信号分割手段（７１）と、
前記第１のブロックの各々の信号のスペクトル特性を表す少なくとも２つの異なるスペクトルパラメータを計算するパラメータ計算手段（７２）と、
前記第１のブロックの各々に対して、前記処理済信号の各スペクトルパラメータと前記リファレンス信号の対応するスペクトルパラメータとの間の歪みを計算する歪み計算手段（７３）と、
前記リファレンス信号と前記処理済信号との間の複数の異なる時間変位における前記計算された歪みの統合値を計算する統合値計算手段（７４）と、
最適な時間変位における前記歪みの最小統合値から前記オーディオ信号の第１の品質値を判定する第１の品質判定手段（７５）と、
を備えることを特徴とする装置。
前記判定された第１の品質値により示される前記品質は、前記歪みの前記最小統合値に反比例することを特徴とする請求項１２に記載の装置。
前記スペクトルパラメータの数は３つである請求項１２又は１３に記載の装置。
前記スペクトルパラメータのうちの１つは、パワースペクトルの共鳴構造を示すスペクトル平坦特性を表すことを特徴とする請求項１２乃至１４のいずれか１項に記載の装置。
前記スペクトルパラメータのうちの１つは、信号エネルギの変化率を示すＲＭＳＥ正規化遷移率を表すことを特徴とする請求項１２乃至１５のいずれか１項に記載の装置。
前記スペクトルパラメータのうちの１つは、信号エネルギが集中する周波数を示すスペクトルセントロイドを表すことを特徴とする請求項１２乃至１６のいずれか１項に記載の装置。
第２の品質値を判定する手段を更に備え、該手段は、
前記リファレンス信号（１１）及び前記処理済信号（１２）を、各々が所定の数の前記第１のブロックを含む少なくとも１つの第２のブロックに分割する第２の分割手段と、
前記第２のブロックに含まれる前記第１のブロックの各々に対して計算された前記スペクトルパラメータの各々から第２のパラメータを計算する第２のパラメータ計算手段と、
前記最適な時間変位における、前記リファレンス信号の前記第２のパラメータの各々と前記処理済信号の対応する前記第２のパラメータとの間の歪みを計算する第２の歪み計算手段と、
前記計算された歪みの統合値から、第２の品質値を判定する第２の品質判定手段と、
を含むことを特徴とする請求項１２乃至１７のいずれか１項に記載の装置。
前記判定された第２の品質値は、前記歪みの統合値に反比例することを特徴とする請求項１８に記載の装置。
前記第１の品質値と前記第２の品質値とを組み合わせることにより前記オーディオ信号の総合品質値を判定する品質判定手段を更に備えることを特徴とする請求項１８又は１９に記載の装置。
前記第１の品質値と前記第２の品質値との組み合わせは、互いに異なる重みを用いた重み付け和によって行われることを特徴とする請求項２０に記載の装置。
前記第２のパラメータの計算は、前記第２のブロックに含まれる前記第１のブロックの各々に対して計算された前記スペクトルパラメータの平均、分散又は歪度を判定することを含むことを特徴とする請求項１８乃至２１のいずれか１項に記載の装置。
前記装置は、前記リファレンス信号の挿入点及び前記歪んだ処理済信号の受信点である、前記通信システムの２つの点に接続されることを特徴とする請求項１２乃至２２のいずれか１項に記載の装置。