JP5542206B2 - オーディオ・システムの知覚品質を判定する方法およびシステム - Google Patents
オーディオ・システムの知覚品質を判定する方法およびシステム Download PDFInfo
- Publication number
- JP5542206B2 JP5542206B2 JP2012524212A JP2012524212A JP5542206B2 JP 5542206 B2 JP5542206 B2 JP 5542206B2 JP 2012524212 A JP2012524212 A JP 2012524212A JP 2012524212 A JP2012524212 A JP 2012524212A JP 5542206 B2 JP5542206 B2 JP 5542206B2
- Authority
- JP
- Japan
- Prior art keywords
- loudness
- reference signal
- level
- output signal
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 63
- 238000012545 processing Methods 0.000 claims description 42
- 230000001629 suppression Effects 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 18
- 230000000694 effects Effects 0.000 claims description 15
- 230000005284 excitation Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 30
- 238000012360 testing method Methods 0.000 description 15
- 238000005259 measurement Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 10
- 238000001914 filtration Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 8
- 230000008447 perception Effects 0.000 description 8
- 230000015556 catabolic process Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000006731 degradation reaction Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- XOFYZVNMUHMLCC-ZPOLXVRWSA-N prednisone Chemical compound O=C1C=C[C@]2(C)[C@H]3C(=O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 XOFYZVNMUHMLCC-ZPOLXVRWSA-N 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
【0001】
本発明は、オーディオ・システム、例えば、音声処理デバイスの出力信号の、基準信号に対する知覚品質を表す品質指標を判定する方法に関するものである。更に、本発明は、例えば、コンピュータ読み取り可能媒体上に格納されているコンピュータ実行可能コードを構成するコンピュータ・プログラム生産物に関するものである。このコンピュータ実行可能コードは、プロセッサによって実行されると、このような方法を行うように構成されている。最後に、本発明は、基準信号の役割を果たすオーディオ・システムの入力信号に対する、このオーディオ・システムの出力信号の知覚品質を表す品質指標を判定するシステムに関するものである。
【0002】
オーディオ・デバイスの品質は、主観的または客観的のいずれかで判定することができる。主観的検査は、時間がかかり、費用もかかり、再生するのが難しい。したがって、客観的な方法でオーディオ・デバイスの出力信号、特に、音声信号の品質を測定する様々な方法が開発されている。このような方法では、音声信号処理システムから受信したときの出力信号の音声品質は、基準信号との比較によって判定される。
【0003】
この目的のために現在広く用いられている方法の1つに、ITUT勧告P.862に記載されている方法がある。この方法は、「音声品質の知覚的評価(PESQ):狭帯域電話ネットワークおよび音声コデックの端間音声品質評価のための客観的方法」と題する。ITU−T勧告P.862では、音声信号処理システムからの出力信号品質は、歪んでいるのが通常であり、その品質を判定しようとする。出力信号および基準信号、例えば、音声信号処理システムの入力信号は、人間の聴覚系の心理−物理的知覚モデルにしたがって、表現信号にマッピングされる。これらの信号に基づいて、基準信号と比較して、出力信号の中にある歪みを表す異なる信号を判定する。出力信号の知覚品質を表す品質指標は、通常、主観的に知覚される音声品質と高い相関を示す指標として定義される。品質指標は、通常、 被験者(人間)が品質スケール上で彼らの意見を表す主観的検査において判定される平均オピニオン評点(MOS:Mean Opinion Score)として表現される。一般に、品質指標は、被検査デバイスの出力信号の内部表現の、被検査デバイスへの入力信号の内部表現との比較から得られる。内部表現は、外部の物理ドメインから内部の心理物理ドメインに信号を変換することによって計算することができる。ITU−T勧告P.862では、心理物理的信号表現の計算に用いられるアルゴリズムの中核は、以下の主要な動作、即ち、固定レベルへのスケーリング(scaling)、時間整合、振幅−時間からパワー−時間−周波数ドメインへの変換、ならびにパワーおよび周波数スケールのワーピング(warping)で構成される。これらの動作から、ラウドネス−時間−ピッチの点における内部表現が得られ、これから差分関数を計算することができる。次いで、これらの差分関数を用いて、1つの品質指標を得る。このようにして、音声ファイル毎に、MOSスコアおよび品質指標スコアを得ることができる。これらのスコアは、その間に可能な限り最も高い相関を有するはずである。一例として、音声コデックの出力の内部表現を、この音声コデックの入力の内部表現と比較することによって、この音声コデックの品質を判定することができる。コデックによってコード化された音声ファイル毎に、品質指標は、そのエンコード/デコード音声ファイルについて主観的に判定されたMOSと高い相関を有するべき数値を生成する。次いで、認識モデルに応じて差分信号を処理する。この場合、検査に基づく人間の聴覚についてある種の特性をモデル化して、出力信号の聴覚(auditive perception)の品質の尺度である品質信号を得る。
【0004】
ITU−T勧告P.862によって明確に示されているように、PESQは、変動する聴解レベルで用いられると、精度が低い予測しか得られないことが分かっている。PESQは、79dB SPL(音圧レベル)という標準的な聴解を想定しており、入力信号における最適でない信号レベルを補償する。したがって、最適な聴解レベルからの主観的効果の逸脱は考慮されていない。今日の電気通信システムでは、特にボイス・オーバーIP(VOIP)や同様の技術を用いるシステムでは、最適でない聴解レベルは非常に頻繁に起こる。その結果、PESQでは、増々普及しつつあるこのような電気通信システムにおいて処理された音声信号の知覚に最適な予測が得られないことが多い。
【発明の概要】
【発明が解決しようとする課題】
【0005】
客観的な測定によって判定される音声品質と、主観的検査において判定される音声品質との間における相関を高めることができる、オーディオ・システムの送信品質を判定する方法を有することが望まれる。
【課題を解決するための手段】
【0006】
この目的のために、本発明の一実施形態は、オーディオ・システム、例えば、音声処理デバイスの出力信号の基準信号に対する知覚品質を表す品質指標を判定する方法に関する。基準および出力信号を処理して比較し、この処理は、基準信号および出力信号を、相互に対応する時間フレームに分割するステップを含む。この処理は、更に、基準信号の強度を固定強度レベルにスケーリングするステップと、基準信号時間フレーム特性を判定するために、スケーリングした基準信号内にある時間フレームに対して測定を行うステップと、基準信号の強度を、固定強度レベルから、出力信号に関係付けられた強度レベルにスケーリングするステップと、出力信号のラウドネスを、知覚的ラウドネス・ドメインにおける固定ラウドネス・レベルにスケーリングするステップであって、出力信号のラウドネス・スケーリングが基準信号時間フレーム特性を用いるステップと、基準信号のラウドネスを、出力信号に関係付けられた強度レベルに対応するラウドネス・レベルから、知覚的ラウドネス・ドメインにおけるスケーリングした出力信号のラウドネス・レベルに関係付けられたラウドネス・レベルにスケーリングするステップであって、基準信号のラウドネスのスケーリングが基準信号時間フレーム特性を用いるステップと、を備えている。
【0007】
ある種の実施形態では、基準信号の強度を、固定強度レベルから、出力信号に関係付けられた強度レベルにスケーリングするステップは、基準信号のスケーリング率との乗算に基づく。このスケーリング率は、ある数の時間フレームに渡る平均基準信号強度レベルを判定し、平均基準信号強度レベルを判定するために用いた基準信号の時間フレームに対応する数の時間フレームにわたって、平均出力信号強度レベルを判定し、平均基準信号強度レベルおよび平均出力信号強度レベルに基づいて端数を判定することによって、暫定的スケーリング率を導き出し、暫定的スケーリング率が閾値よりも小さい場合、スケーリング率を暫定的スケーリング率に等しく定義し、それ以外の場合、暫定的スケーリング率を追加の暫定的スケーリング率依存値で増分した値に等しく定義することによって、スケーリング率を決定することによって定義する。
【0008】
本発明の実施形態の中には、出力レベルの固定ラウドネス・レベルへのラウドネス・スケーリングの前に、本方法が、更に、基準信号において、ラウドネス・レベルが出力信号のラウドネス・レベルよりも高い部分について、基準信号のラウドネス・レベルを、出力信号のラウドネス・レベルにローカルにスケーリングするステップと、その後に、出力信号の内、ラウドネス・レベルが基準信号のラウドネス・レベルよりも高い部分について、出力信号のラウドネス・レベルを基準信号のラウドネス・レベルにローカルにスケーリングするステップと、を備えている場合もある。これらのローカル・スケーリング動作を分離することによって、時間クリッピングおよびパルスによるレベル変動に対して別々に手段を提供すること、および/または操作することが可能になる。
【0009】
本発明の実施形態の中には、前述の処理が、更に、スケーリングした基準信号および出力信号を時間ドメインから時間−周波数ドメインに変換するステップと、基準信号から基準ピッチ・パワー密度関数を導き出し、出力信号から出力ピッチ・パワー密度関数を導き出すステップであって、強度レベル差がピッチ・パワー密度関数の強度レベル間の差に対応するステップと、ローカルにスケーリングした基準ピッチ・パワー密度関数を得るために、基準ピッチ・パワー密度関数をローカルにスケーリングするステップと、ローカルにスケーリングした基準ピッチ・パワー密度関数を、周波数に関して部分的に補償するステップと、基準ラウドネス密度関数および出力ラウドネス密度関数を導き出すステップであって、ラウドネス・レベル差がラウドネス密度関数のラウドネス・レベル間の差に対応するステップとを備え、ラウドネス密度関数が密度関数を表し、知覚品質に対し可変レベルの再生を定量化することを可能とする。更に別の実施形態では、本方法は、更に、基準ピッチ・パワー密度関数および出力ピッチ・パワー密度関数の内少なくとも1つに対して励起動作を実行するステップを備えている。このような励起動作によって、これらの信号に対して実行する変換動作の実行の結果、周波数成分のスミアリングの補償に対処することが可能になる。
【0010】
前述の処理は、更に、ローカルにスケーリングした基準ピッチ・パワー密度関数を周波数に関して補償するステップ、およびローカルにスケーリングした基準ラウドネス密度関数を補償するステップの内少なくとも1つが、基準信号時間フレーム特性に基づいて、音声処理システムの線形周波数応答を推定するステップを含む。例えば、平均強度レベルがある種の閾値を超える時間フレームを単に用いるだけで、これらの動作の振る舞いを改善することができる。
【0011】
本発明の実施形態の中には、知覚的ラウドネス・ドメインにおける出力信号のラウドネス・レベルに関係付けられたラウドネス・レベルへのスケーリングの前に、知覚的ラウドネス・ドメインにおける基準信号に対して、ノイズを所定のノイズ・レベルまで抑制するノイズ抑制動作が行われる場合もある。この所定のノイズ・レベルは、出力信号に対して理想的な表現の役割を果たす程に望ましい低ノイズ・レベルであると見なされるノイズに対応することができる。同様に又はそれに加えて、固定ラウドネス・レベルへのスケーリングの前に、知覚的ラウドネス・ドメインにおける出力信号に対して、外乱を表すノイズ・レベルまでノイズを抑制するために、ノイズ抑制アルゴリズムを実行する。出力信号のノイズ抑制によって、被検査デバイスが受ける外乱を表すノイズまでノイズを抑制することに対処することができる。
【0012】
本発明の実施形態の中には、知覚的ラウドネス・ドメインにおける基準信号および出力信号には、比較の前に、グローバル・ノイズ抑制が行われる場合もある。尚、グローバル・スケーリングの後におけるこのような追加のノイズ抑制によって、客観的に測定された音声品質と、主観的聴解品質実験において得られた音声品質との間における相関が高められることが分かっている。
【0013】
本発明の実施形態の中には、本発明が、例えば、コンピュータ読み取り可能媒体上に格納されているコンピュータ実行可能コードを備えているコンピュータ・プログラム生産物に関するものもある。コンピュータ実行可能コードをプロセッサによって実行すると、前述した方法の実施形態の内いずれか1つを実行するように構成されている。
【0014】
最後に、本発明の実施形態の中には、本発明が、オーディオ・システム、例えば、音声処理デバイスの出力信号Y(t)の、基準信号の役割を果たすオーディオ・システムの入力信号X(t)に対する、知覚品質を表す品質指標を判定するシステムに関するものもある。このシステムは、基準信号および出力信号を前処理する前処理デバイスと、基準信号を処理する第1処理デバイス、および基準信号および出力信号に対して、それぞれ、表現信号R(X)、R(Y)を得るために、出力信号を処理する第2処理デバイスと、差分信号Dを得るように、基準信号および出力信号の表現信号を結合する減算デバイスと、音声処理システムの知覚品質の推定値を表す品質信号Qを得るために、差分信号を処理するモデリング・デバイスとを備えており、前処理デバイス、第1処理デバイス、および第2処理デバイスが、前述した方法の実施形態の内いずれか1つを実行する処理システムを形成する。
【図面の簡単な説明】
【0015】
【図1】図1は、基準信号に対するオーディオ・システムの出力信号の知覚品質を表す品質指標を判定するシステムを含む総合的な設定を模式的に示す。
【図2】図2は、PESQにしたがって、基準信号に対するオーディオ・システムの出力信号の知覚品質を表す品質指標を判定する方法を模式的に示す。
【図3】図3は、本発明の一実施形態にしたがって、基準信号に対するオーディオ・システムの出力信号の知覚品質を表す品質指標を判定する方法を模式的に示す。
【図4】図4は、本発明の他の実施形態にしたがって、基準信号に対するオーディオ・システムの出力信号の知覚品質を表す品質指標を判定する方法を模式的に示す。
【発明を実施するための形態】
【0016】
以下に、本発明のある種の実施形態について説明するが、これは一例として示すに過ぎないものである。
【0017】
本説明全体において、「ローカル」および「グローバル」という用語は、信号に対して行われる動作に関して用いられるものとする。「ローカル」動作とは、時間信号の一部、例えば、1つのフレームに対して行われる動作を指す。「グローバル」動作とは、信号全体に対して行われる動作を指す。
【0018】
本説明全体において、「出力」および「歪み」という用語は、音声処理デバイスのようなオーディオ・システムの出力から発する信号に関して用いることができる。本説明全体において、「基準」および「元の」という用語は、オーディオ・システムに対して入力として供給される信号に関して用いることができ、この信号は、更に、出力または歪み信号と比較すべき信号としても用いられる。
【0019】
図1は、基準信号に対する、オーディオ・システム、例えば、音声処理デバイスの出力信号の知覚品質を表す品質指標を、判定システムを含む総合的な設定を模式的に示したものである。このような方法は、オーディオ・システムの送信品質の客観的尺度を得ることを意図する。この設定は、調査対象のオーディオ・システム10、例えば、電気通信ネットワーク、あるいはネットワーク局または移動局におけるネットワーク・エレメントまたは音声処理デバイスを含む。また、この設定は、オーディオ・システムの送信品質を測定するシステム20も含み、以後これを品質測定システム20と呼ぶ。
【0020】
品質測定システム20は、2つの入力信号を受け取るように構成されている。第1の入力信号は、品質測定システム20に直接供給され(即ち、オーディオ・システム10を通じて供給されるのではない)、基準信号の役割を果たす音声信号X(t)である。第2の入力信号は、音声信号X(t)に対応する音声信号Y(t)であり、オーディオ・システム10による影響を受ける。品質測定システム20は、オーディオ・システム10を通じて音声リンクの知覚品質の推定値を表す出力品質信号Qを供給する。
【0021】
この実施形態では、品質測定システム20は、前処理システム20a、処理部20b、および信号結合部20cを備えており、出力信号Qを得ることができるように、2つの入力信号X(t)、Y(t)を処理する。
【0022】
前処理部20aは、前処理信号Xp(t)およびYp(t)を得るために、固定レベル・スケーリングや時間整合というような1つ以上の前処理動作を行うように構成されている。図1は1つの前処理デバイス30だけを示すが、音声信号X(t)および音声信号Y(t)毎に別々の前処理デバイスを有することもできる。
【0023】
品質測定システム20の処理部20bは、人間の聴覚系の心理−物理的知覚モデルにしたがって、前処理信号を表現信号にマッピングするように構成されている。前処理信号Xp(t)は、第1処理デバイス40aにおいて処理されて表現信号R(X)が得られ、一方前処理信号Yp(t)は第2処理デバイス40bにおいて処理されて表現信号R(Y)が得られる。第1処理デバイス40aおよび第2処理デバイス40bは、1つの信号処理デバイスの中に収容することもできる。
【0024】
品質測定システム20の信号結合部20cは、表現信号R(X)、R(Y)を結合して、差分計算デバイス50を用いることによって差分信号Dを得るように構成されている。最後に、モデリング・デバイス60は、品質信号Qを得るために人間のある種の特性がモデル化されているモデルにしたがって、差分信号Dを処理する。この人間の特性、例えば、認識特性は、多数の被験者によって実行された主観的聴解検査を通じて得ることができる。
【0025】
前処理デバイス30、第1処理デバイス40a、および第2処理デバイス40bは、以下で更に詳しく説明する本発明の実施形態を実施するために用いることができる処理システムを形成することができる。この処理システムまたはそのコンポーネントは、特定用途集積回路(ASIC)ようなハードウェア・プロセッサ、あるいはソフトウェアまたはハードウェアの形態でコンピュータ実行可能コードを実行するコンピュータ・デバイスの形態をなすことができる。コンピュータ・デバイスは、例えば、プロセッサおよびメモリを備えることができ、メモリは通信状態でプロセッサに結合されている。メモリの例には、リード・オンリ・メモリ(ROM)、ランダム・アクセス・メモリ(RAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、およびフラッシュ・メモリが含まれるが、これらに限定されるのではない。
【0026】
更に、コンピュータ・デバイスは、外部ユーザによる命令または通知の入力を可能にするユーザ・インターフェースも備えることができる。ユーザ・インターフェースの例には、マウス、キーボード、およびタッチ・スクリーンが含まれるが、これらに限定されるのではない。
【0027】
コンピュータ・デバイスは、コンピュータ読み取り可能媒体、例えば、コンパクト・ディスク・リード・オンリ・メモリ(CD ROM)、ディジタル・ビデオ・ディスク(DVD)、またはあらゆる他のタイプの知られているコンピュータ読み取り可能データ担体上に格納されているコンピュータ実行可能コードをロードするように構成することができる。この目的のために、コンピュータ・デバイスは読み取りユニットを備えることができる。
【0028】
コンピュータ読み取り可能媒体上に格納されているコンピュータ実行可能コードは、コードをコンピュータ・デバイスのメモリにロードした後、以下で説明する本発明の実施形態を実施するように構成することができる。
【0029】
あるいは又はそれに加えて、本発明のこのような実施形態は、コンピュータ・デバイス上で実行すると、このような方法を実行するコンピュータ実行可能コードを備えているコンピュータ・プログラム生産物の形態をなすこともできる。次いで、この方法は、コンピュータ実行可能コードをコンピュータ・デバイスのメモリにロードした後に、コンピュータ・デバイスのプロセッサによって実行することができる。
【0030】
つまり、客観的知覚測定方法は、音声コデック、電話リンク、および移動体ハンドセットのようなオーディオ・システムの主観的に知覚された品質を予測することを目標として、コンピュータ・プログラムにおいて被験者の音響知覚を模擬する。被検査デバイスの入力および出力の物理信号は、人間の頭脳内部における内部表現に可能な限り密接に一致する心理物理的表現にマッピングされる。被検査デバイスの品質は、内部表現における差に基づいて判断される。現在入手可能で既知の客観的知覚測定方法の内最良な方法は、PESQ(音声品質の知覚評価)である。
【0031】
図2は、ITU−T勧告P.862において策定されているPESQにしたがって、基準信号に対するオーディオ・システムの出力信号の知覚品質を表す品質指標を判定する方法を模式的に示す。以後、これをPESQと呼ぶ。PESQは、図1に模式的に示したような設定において用いることができる。PESQでは、基準信号X(t)を出力信号Y(t)と比較する。出力信号Y(t)は、オーディオ・システム、例えば、通信システムのような音声処理システムにX(t)を通した結果である。PESQの出力品質信号は、PESQスコアとも呼ばれており、主観的聴解検査において被験者によってY(t)に与えられる知覚品質の予測である。PESQスコアは、いわゆる平均オピニオン評点(MOS)の形態をなす。この目的のために、PESQ出力をMOS状スケール上、即ち、−0.5から4.5までの範囲における1つの数値にマッピングするが、殆どの場合、出力範囲は1.0と4.5との間となる。これは、絶対分類等級(ACR:absolute Category Rating)聴解品質実験において見られるMOS値の通常範囲である。
【0032】
PESQにおける前処理は、それぞれ、信号Xs(t)、Ys(t)を得るための双方の信号X(t)、Y(t)のレベル整合、およびそれぞれ信号XIRSS(t)、YIRSS(t)を得るための中間基準システム(IRS:Intermediate Reference System)フィルタリングを含む。レベル整合は、強度を固定レベル、PESQでは79db SPLにスケーリングすることを伴う。IRSフィルタリングは、送信品質の測定方法が、電気通信システム・エレメント、例えば、移動体電話機等のフィルタリングに対して比較的不感応であることを確保するために行われる。最後に、基準信号XIRSS(t)とYIRSS(t)との間における時間遅延を判定して、時間ずれ出力信号YIRSS’(t)を導く。こうすることにより、基準信号と出力信号との間の比較は、同じ時点で行われると仮定されることになる。
【0033】
人間の耳は、時間−周波数変換を実行する。PESQでは、時間信号XIRSS(t)およびYIRSS’(t)に対してハニング・ウィンドウによる短期高速フーリエ変換(FFT)を実行することによって、これをモデル化する。ハニング・ウィンドウは、通例、32msのサイズを有する。隣接する時間ウィンドウを以後フレームと呼ぶことにするが、フレームは50%だけ重複するのが通例である。位相情報は破棄される。複素FFT成分、即ち、パワー・スペクトルの二乗実部および二乗虚部の和を用いて、パワー表現PXWIRSS(f)nおよびPYWIRSS(f)nを求める。ここで、nは、考慮中のフレームを示す。これらのパワー表現を周波数帯域に分割する。これらの周波数帯域を、以後FFT帯域と呼ぶ。
【0034】
人の聴覚系は、高周波数におけるよりも低周波数において精細な周波数分解能を有する。ピッチ・スケールはこの現象を反映しており、この理由のために、PESQは周波数をピッチ・スケールに、この場合、いわゆるバーク・スケールにワープ(warp)する(離散)周波数軸の変換には、通例、24のバーク帯域を形成するためのFFT帯域のビンニングを伴う。その結果得られた信号を、ピッチ・パワー密度またはピッチ・パワー密度関数と呼び、PPXWIRSS(f)nおよびPPYWIRSS(f)nで示す。ピッチ・パワー密度関数は、人間の聴覚系におけるオーディオ信号の心理物理的表現に類似する内部表現を与え、知覚周波数(perceptual frequency)を考慮に入れる。
【0035】
検査しようとするオーディオ・システムにおけるフィルタリングに対処するために、基準および出力ピッチ・パワー密度のパワー・スペクトルの経時的平均を取る。出力スペクトルの基準スペクトルに対する比率から、部分的補償係数を計算する。次いで、各フレームの基準ピッチ・パワー密度PPXWIRSS(f)nとこの部分的補償係数を乗算して、基準を出力信号に等化する。この結果、逆フィルタリング基準ピッチ・パワー密度PPX’WIRSS(f)nが得られる。この部分的補償を用いるのは、穏やかなフィルタリングは殆ど気がつかないが、激しいフィルタリングはリスナーにとって騒々しい可能性があるからである。補償を基準信号に対して行うのは、出力信号はACR聴解実験において被験者によって判断されたものであるからである。
【0036】
短期利得変動を補償するために、局部スケーリング率を計算する。次いで、この局部スケーリング率を出力ピッチ・パワー密度関数PPYWIRSS(f)nと乗算して、ローカル・スケーリング・ピッチ・パワー密度関数PPY’WIRSS(f)nを求める。
【0037】
フィルタリングに対する部分的補償を基準信号に対して実行し、短期利得変動に対する部分的補償を出力信号に対して実行した後、ズウィッカーの法則(Zwicker's law)を用いて、基準および劣化ピッチ・パワー密度をソーン・ラウドネス・スケールに変換する。得られた二次元アレイLX(f)nおよびLY(f)nを、それぞれ、基準信号および出力信号に対するラウドネス密度関数と呼ぶ。LX(f)nに対して、これは次の式を意味する。
【0038】
ここで、P0(f)は絶対聴力閾値、Slはラウドネ・ススケーリング率、そしてγは、いわゆるズウィッカー・パワーであり、約0.23の値を有する。ラウドネス密度関数は、人間の聴覚系におけるオーディオ信号の内部心理物理的表現を表し、ラウドネス知覚を考慮に入れる。
【0039】
次いで、基準および出力ラウドネス密度関数LX(f)n、LY(f)nを減算して、差分ラウドネス密度関数D(f)nが得られる。この知覚的減算の後、外乱尺度Dおよび非対称外乱尺度DAを考慮に入れることによって、知覚品質尺度を導き出すことができる。PESQに関する更なる詳細は、ITU−T勧告P.862において見いだすことができる。
【0040】
図3は、本発明の一実施形態にしたがって、基準信号に対するオーディオ・システムの出力信号の知覚品質を表す品質指標を判定する方法を模式的に示す。IRSフィルタリングおよび時間遅延のような前処理動作の後、基準信号および出力信号を双方共、時間ドメインにおける信号から知覚的時間−周波数ドメインにおける信号に変換する。
【0041】
これは、PESQを参照して図2において示したのと同様の方法で行うことができる。即ち、最初に、ウィンドウイング関数、例えば、ハニング・ウィンドウを実行して、基準信号および出力信号を、互いに対応する時間フレームに分割する。続いて、時間フレームに対してFFTを実行し、信号を時間ドメインから時間−周波数ドメインに変換する。FFTの後、ピッチ・スケール、例えば、バーク周波数スケールに、これらの信号をワープして、知覚的時間−周波数ドメインにおける表現を得る。これを、知覚的周波数ドメインとも呼ぶことにする。
【0042】
図2に模式的に示したようなPESQにおいて採用された手法とは対照的に、図3に模式的に示す方法は、レベル変動、特に、いわゆるグローバル再生レベル変動を考慮に入れる。グローバル再生レベルを考慮に入れることによって、品質指標の精度が、特に、再生レベルがITU−T勧告P.862による計算において用いられる、標準化された再生レベルと一致しない場合に、著しく高めることができる。即ち、客観的に得られる品質指標と主観的に得られる品質指標との間の相関は、グローバル再生レベルが標準レベルよりも高いまたは低い用途では高くなる。このような異なるグローバル再生レベルは、例えば、音響フィードバックを防止するために、ボイス・オーバーIP(VOIP)システムにおいてしばしば用いられている。
【0043】
強度レベルの変動を考慮に入れることができるようにするためには、前処理において、出力信号に対するレベル整合動作を行わない。しかしながら、以下で明確になるように、グローバル再生レベルとは独立している基準信号に関する情報を得ることが望ましい。言い換えると、このような情報を得るために、基準信号の総体的強度レベルは、品質予測を行うことを望む全ての主観的検査に対して同一でなければならない。
【0044】
この理由のために、基準信号を固定強度レベルにグローバルにスケーリングする。この基準信号のスケーリングは、図3に模式的に示すように、変換の前、即ち時間ドメインにおいて行うことができる。あるいは、変換後に、(知覚的)時間−周波数ドメインに基準信号をスケーリングすることもできる。
【0045】
基準信号の固定強度レベルへのスケーリングの後、スケーリングされた基準関数内における時間フレームに対して測定を行い、基準信号の特性を求める。特に、行われた測定に基づいて、これらの時間フレームの強度レベルに関する信号特性、例えば、平均強度レベルまたはその中のピーク強度レベルを判定する。
【0046】
フレーム・レベル検出とも呼ぶフレーム・レベル測定の後、スケーリングされた基準信号を、出力信号に関する強度レベルにスケーリングする。好ましくは、このスケーリングは、音声信号が優勢である周波数帯域、例えば、400および3500Hzの間の帯域のみを用いる。このスケーリング動作を行うのは、先に行われた基準信号の固定強度レベルへのスケーリングの結果、基準信号と出力信号との間の強度レベル差は、信頼性のある品質指標を得ることが不可能になるようなこともあり得るからである。スケーリングされた基準信号のスケーリングは、スケーリングされた基準信号と出力信号との間に強度レベル差を生じさせて、知覚品質に対するグローバル再生レベルの影響評価を可能にすることを目的とする。つまり、このスケーリング動作を行って、スケーリングされた基準信号と出力信号との間における強度レベル差を部分的に補償する。レベル差がある閾値を超える場合、完全に補償することができず、総体的に低い提示レベル(presentation level)の影響をモデル化することが可能になる。例えば、この再生デバイスのボリュームを低い強度レベルに設定する。低レベルの音声再生は、VOIPシステムにおいて、例えば、音響エコー制御における詳細分析(breakdown)に対処するために、一般に用いられている。
【0047】
このスケーリングでは、ソフト・スケーリング・アルゴリズム、即ち、パワーの小さな変動を、好ましくは、時間フレーム毎に補償しつつ、基準信号と出力信号との間のパワー比に応じて、大きな変動を部分的に補償するように、処理すべき信号をスケーリングするアルゴリズムを用いることができる。ソフト・スケーリングの使用に関する更なる詳細は、米国特許出願2005年第159944号、米国特許第7,313,517号、および米国特許第7,315,812号において見いだすことができ、これらは全て本譲受人に譲渡されており、ここで引用したことにより、その内容が本願にも含まれるものとする。
【0048】
グローバル・スケーリング動作の後、図2を参照して説明したように、基準信号に周波数補償を受けさせることができる。同様に、出力信号にはローカル・スケーリング動作を受けさせることができる。また、ローカル・スケーリングは、図3に模式的に示すように、基準信号に対しても行うことができる。次いで、基準信号および出力信号双方に、図2に示したPESQを参照して論じたように、ラウドネス・スケールへの強度ワーピングを行う。この時点で、基準信号および出力信号は、知覚的ラウドネス・ドメインで表されることになる。
【0049】
知覚的ラウドネス・ドメインでは、図2に示したPESQとは対照的に、出力信号および基準信号の双方には、他のスケーリング動作も行われる。この時点まで出力信号の信号レベルは変化しておらず、出力信号の非常に低いレベルは、ここでは内部表現において些細な差を生ずるに過ぎなくなっている。このために、品質の推定において誤りが生ずる。
【0050】
この目的のために、第1に、出力信号を固定ラウドネス・レベルにスケーリングする。固定ラウドネス・レベルは、主観的聴解品質実験において行われる較正実験によって決定することができる。ITU−T勧告P.861および/またはP.862に記載されているように、基準信号に開始グローバル・レベル較正を用いる場合、このような固定ラウドネス・レベルは、約20となり、これは次元のない(dimensionless)内部ラウドネス関連スケーリング数(scaling number)である。
【0051】
出力信号のラウドネス・レベル・スケーリングの結果、出力信号と基準信号との間におけるラウドネス・レベルの差は、信頼性のある品質指標を決定できない程になる。この望ましくない様相を克服するために、基準信号のラウドネス・レベルも同様にスケーリングする必要がある。したがって、出力信号のラウドネス・レベルのスケーリングに続いて、基準信号のラウドネス・レベルを、スケーリングした出力信号に関係付けられたラウドネス・レベルにスケーリングする。ここで、基準信号および出力信号は双方共、オーディオ・システムの送信品質の客観的尺度を得るために必要な、知覚的に関連のある内部表現を計算するために用いることができるラウドネス・レベルを有する。
【0052】
知覚的ラウドネス・ドメインにおいて行われるグローバル・スケーリング動作において、基準信号および出力信号双方の平均ラウドネスを用いることができる。これらの信号の平均ラウドネスは、フレーム・レベル検出の間に測定された基準信号における強度レベルが別の閾値、例えば、音声活動規準値を超える時間フレームにわたって、決定することができる。音声活動規準値は、絶対聴解閾値に対応することができる。音声活動規準値を用いる場合、これらのフレームを音声フレームと呼ぶことができる。出力信号については、計算の目的では、強度レベルが別の閾値を超過する時間フレームに対応する時間フレームを考慮に入れる。このように、音声活動規準値を用いる一実施形態では、基準信号の平均ラウドネスは、音声フレームに関して決定され、一方、出力信号の平均ラウドネスは、基準信号内における音声フレームに対応する時間フレームに関して決定される。
【0053】
図3において、最後に、基準信号および出力信号を知覚的に減算する。これは、PESQから周知の方法で、そして図2を参照して論じた方法で行うことができる。即ち、総体的劣化を表す指標Dn、および追加された劣化を表す指標DAnが、並行して決定される。
【0054】
図3に示す方式は、双方の指標Dn、DAnの計算に関する異なる手法に対応する。図3に示す方法を2回、即ち、総体的劣化に関する品質を表す品質指標を決定するために1回、そして基準信号に比較して追加された劣化に関する品質を表す品質指標を決定するためにもう1回行うことができる。この方法を2回行うことによって、異なるタイプの歪みに関する計算の最適化が可能になる。このような最適化は、客観的に測定された音声品質と、主観的聴解品質実験において得られた音声品質との間における相関を著しく高めることができる。
【0055】
この方法を2回行う一実施形態では、フレーム・レベル検出の結果を別の仕方で用いることができる。例えば、時間フレームの選択は、例えば、異なる音声活動閾値に基づいて、異なってもよい。
【0056】
図4は、本発明の他の実施形態にしたがって、基準信号に対するオーディオ・システムの出力信号の知覚品質を表す品質指標を判定する方法を模式的に示す。この方法では、基準信号および出力信号双方に、前処理ステップ、例えば、PESQとして知られており図2を参照して説明した、IRSフィルタリングおよび時間遅延が行われる。ウィンドウイング関数、例えば、PESQから周知のハニング・ウィンドウの使用と組み合わせて、短い高速フーリエ変換を実行することによって信号の時間−周波数表現を得る前に、基準信号をグローバルに固定レベルにスケーリングする。固定レベルへのグローバル・スケーリングは、PESQにおいて用いられるレベル整合と同様である。しかしながら、この場合、基準信号のみをこのようにスケーリングする。この段階では、出力信号をスケーリングしない。固定レベルは、両耳的または両耳異聴的に提示される音声断片に対しては約73dB SPLのレベルと一致し、単調に(monotically)提示される音声断片に対しては約79dB SPLのレベルと一致することが好ましい。出力信号は、内部表現が主観的検査において用いられた実際の音響レベルに対応するように、ある係数を用いてスケーリングされる。
【0057】
ウィンドウイング関数、例えば、ハニング・ウィンドウを通じて選択された時間ウィンドウに対して行われたFFTによってパワー−周波数表現を得た後、基準信号と出力信号との間における強度レベル差を部分的にだけ補償するアルゴリズムを用いて、グローバル・レベルの出力信号に向けて、基準信号をスケーリングする。残された差は、知覚送信品質に対する強度レベルの影響を推定するために用いることができる。
【0058】
一実施形態では、基準信号の強度の規定強度レベルから、出力信号に関係付けられた強度レベルへのスケーリングは、基準信号とスケーリング率(scaling factor)との乗算に基づくことができる。このようなスケーリング率は、基準信号および出力信号の少なくとも一部について平均信号強度を判定することによって導き出すことができる。次いで、平均基準信号強度レベルおよび平均出力信号強度レベルを端数計算(fraction calculation)において用いて、暫定的なスケーリング率を求めることができる。最後に、暫定的スケーリング率が閾値よりも小さい場合、スケーリング率を暫定的なスケーリング率に等しく定義することによって、スケーリング率を決定することができ、それ以外の場合、スケーリング率は、暫定的スケーリング率に追加の暫定スケーリング率依存値だけ増分した値に等しくする。
【0059】
出力信号の強度レベルへのグローバル・スケーリングの後、基準信号には、知覚的時間−周波数ドメインにおけるローカル・スケーリングが行われ、更に図2においてPESQを参照して論じたのと同じ手法を用いて、部分的周波数補償が行われる。図4に示す実施形態では、基準信号を参照してローカル・スケーリングが行われるが、このローカル・スケーリング・ステップを出力信号に対して、例えば、図2に示したように適用することも同様に可能である。ローカル・スケーリング動作の目的は、短期利得変動の補償に関係がある。基準信号または出力信号のどちらを選択するかは、個々の用途に応じて異なることもある。一般には、基準信号が補償される。何故なら、基準信号は主観的品質測定において被験者(test subject)には提示されないのが一般的であるからである。
【0060】
一実施形態では、最1の部分的周波数補償は、いわゆるソフト・スケーリング・アルゴリズムを用いる。ソフト・スケーリング・アルゴリズムでは、好ましくは時間フレーム毎にパワーの小さな偏差を補償し、一方大きな偏差は、基準信号と出力信号との間のパワー比に応じて、部分的に補償するようにスケーリングすることによって、処理すべき信号、即ち、基準信号または出力信号のいずれかを改良する。ソフト・スケーリングの使用に関する更なる詳細は、米国特許出願2005/159944号、米国特許第7,313,517号、および米国特許第7,315,812号において見いだすことができ、これらは全て本譲受人に譲渡されており、ここで引用したことにより、その内容が本願にも含まれるものとする。
【0061】
好ましくは、ここで、基準信号および出力信号の双方に対して励起ステップを実行し、これらの信号に関して、ウィンドウイング関数、例えば、ハニング・ウィンドウによる高速フーリエ変換を以前に実行した結果生じた周波数成分のスミアリング(smearing)を補償する。この励起ステップは、自己マスキング曲線を用いて双方の信号の表現を際立たせることによって行われる。このような自己マスキング曲線の計算に関する更なる詳細は、例えば、J.G. Beerends and J.A. Stemerdinkによる"A perceptual Audio Quality Measure Based on a Psychoacoustic Sound Representation"(心理音響的音響表現に基づく知覚的オーディオ品質測定)という論文(J. Audio Eng. Soc., Vol. 40, No. 12 (1992) pp.963-978)において見いだすことができる。この論文において、曖昧な励起表現を用いることによって、励起を計算し、品質を判定する。一実施形態では、次に、計算された励起を用いて自己マスキング曲線を導き出し、次いで、この自己マスキング曲線を用いて、際立たせた時間−周波数表現を得ることができる。その最も単純な形態では、自己マスキング曲線は励起曲線の端数に対応する。
【0062】
PESQにおいて用いられ、図2を参照して説明したような、ラウドネス・スケールへの強度ワーピングの後、ラウドネス・ドメインにおいて基準信号および出力信号をローカルにスケーリングする。最初に、基準信号の内、出力信号よりも大きい部分をスケーリングする。次いで、基準信号よりも大きな出力信号の部分をスケーリングする。
【0063】
これらのローカル・スケーリング動作の分離によって、時間クリッピングおよびパルスによるレベル変動に対して別々に手段を提供すること、および/または操作することが可能になる。基準信号の一部が、出力信号の対応する一部よりも大きい場合、この差は、時間クリッピング(time clipping)に起因する可能性がある。例えば、フレームが失われたことによって生ずる可能性がある。時間クリッピングの知覚的影響を定量化するために、基準信号をスケーリングして(非対称)外乱差分計算に最適であると見なされるレベルに落とす。この出力信号に対するローカル・スケーリング動作によって、出力信号におけるノイズも、(非対称)外乱差分計算に更に最適であるレベルまで抑制する。主観的に知覚した品質に対するノイズの影響は、このローカル・スケーリングを、出力信号に対するノイズ抑制動作と組み合わせることによって、一層精度高く推定することができる。
【0064】
次に、第2の部分的周波数補償を実行することができる。この周波数補償は、PESQにおける場合と同様に行うことができるが、ここでは、ラウドネス・ドメインにおいて用いられる。一実施形態では、第2の部分的周波数補償は、第1の部分的周波数補償を参照して先に論じたようなソフト・スケーリング・アルゴリズムを用いる。第2の部分的周波数補償を用いることによって、客観的に測定された音声品質と、主観的聴解品質実験において得られる音声品質との間における相関が一層高められることが分かっている。
【0065】
先に説明したように、第1の部分的周波数補償および第2の部分的周波数補償は、図2を参照して論じたように、PESQにおいて用いられる部分的周波数補償と同様とすることができる。したがって、これらの周波数補償動作は、平均算出動作を用いることができ、被検査システムの線形周波数応答に基づく推定を含む。実施形態の中には、この推定が、基準信号強度レベル値が閾値、例えば、音声活動規準値よりも大きいフレームのみに実行する場合もある。図4の方式から容易に理解できるであろうが、音声フレームのこのような選択は、フレーム・レベル検出動作において検出されたレベルに基づくことができる。
【0066】
好ましくは、この時点で、基準信号および出力信号双方の高帯域を0に設定する。何故なら、これらは、判定しようとする知覚送信品質に対して、無視できる程度の影響しか有さなくなるからである。加えて、出力信号の低帯域の強度レベルを、基準信号の同様の帯域の強度レベルにローカルにスケーリングする。例えば、バーク23以上に関係付けられた全ての帯域を0に設定することができ、一方、バーク0から5に関係付けられた出力信号におけるバーク帯域をスケーリングすることができる。基準信号においてバーク0から22に関係付けられたバーク帯域、および出力信号においてバーク6から22に関係付けられたバーク帯域には、これらの動作のいずれも行われない。
【0067】
この時点までで、出力信号の信号レベルは大きく変化させられておらず、出力信号のレベルが非常に低いと、内部表現において些細な差しか得られない。このために、品質推定において誤りが生ずる。したがって、基準信号および出力信号の双方を、オーディオ・システムの送信品質の客観的尺度を得るために必要とされる知覚的に関連する内部表現を計算するために用いることができるレベルにグローバルにスケーリングする。第一に、出力信号のグローバル・レベルを、固定の内部ラウドネス・レベルにスケーリングする。ITU−T勧告P.861および/またはP.862に記載されているように、開始グローバル・レベル較正が基準信号に用いられる場合、このような固定グローバル内部レベルは約20になる。これは、次元のない内部ラウドネスに関係するスケーリング数(scaling number)である。第二に、基準信号のレベルを、図3を参照して論じたのと同様にそして同じ理由のために、出力信号の対応するレベルにスケーリングする。
【0068】
最後に、図2を参照して説明した方法と同様に、基準信号および出力信号を減算して、差分信号を得る。知覚的減算の後、例えば、図2に示しITU−T勧告P.862に記載されている方法で、知覚品質尺度を導き出すことができる。
【0069】
あるいは、この方法を2回実行する。1回目は、基準信号と比較して総体的劣化に対する品質を表す品質指標を決定するため、そして2回目は、基準信号と比較して追加される劣化に対する品質を表す品質指標を決定するためである。
【0070】
本発明の実施形態の中には、この方法が1つ以上のノイズ抑制ステップを更に含む場合もある。オーディオ・システムの送信品質、特に、音声品質に対するノイズの影響は、ローカル・レベルおよび/またはローカル・スペクトル変化に左右される。PESQでは、この影響は正しく考慮されない。PESQは、フレーム毎にローカル・パワー・レベルを用いて、ノイズの影響を近似的に定量化するレベルに、ノイズを抑制する。1つ以上のノイズ抑制ステップによって、オーディオ・システムの送信品質を予測する際に著しい改良を得ることができる。
【0071】
一実施形態では、このようなノイズ抑制は、ソーンのラウドネス・スケールへの強度ワーピングの後に、基準信号に対して行われる。このノイズ抑制動作は、ノイズを所定のノイズ・レベルまで抑制するように構成することができる。そして、この所定のノイズ・レベルは、出力信号に対する理想的な表現の役割を果たすための、望ましい低ノイズ・レベルと見なされるノイズ・レベルに対応することができる。
【0072】
同様に、一実施形態では、このようなノイズ抑制は、ソーン(Sone)のラウドネス・スケールへの強度ワーピングの後に、出力信号に対して行われる。この場合、ノイズ抑制動作は、被検査デバイス、例えば、図1におけるオーディオ・システム10が受ける外乱を表すノイズ・レベルまでノイズを抑制するように構成することができる。
【0073】
他の実施形態の中には、基準信号および出力信号に対して、図3において破線で模式的に示すように、グローバル・スケーリングの後に、追加のノイズ抑制アクションを行う場合もある。尚、グローバル・スケーリングの後におけるこのような追加のノイズ抑制は、客観的に測定した音声品質と主観的聴解品質実験において得られる音声品質との間における相関を更に高めることが分かっている。
【0074】
1つ以上のノイズ抑制ステップを用いる実施形態の中には、スケーリングされた基準信号内における時間フレームに対して決定された強度レベル・パラメータを用いて、出力信号内における時間フレームの内、ノイズ抑制計算の1つ以上において含めようとする時間フレームを選択する場合もある。スケーリングされた基準信号内にある時間フレームは、例えば、ある種の閾値、例えば、無音規準値(silence criterion value)よりも低いその強度値に基づいて、計算のために選択することができる。スケーリングされた基準信号内にある時間フレームについての強度値が無音規準値未満である場合、この時間フレームを無音フレームと呼ぶことができる。そして、出力信号内において選択された時間フレームは、スケーリングされた基準信号内にある無音フレームに対応することができる。好ましくは、このような選択プロセスは、一連の連続する無音フレーム、例えば、8つの無音フレームを識別することによって進展する。このような一連の連続無音フレームを、無音間隔と呼ぶことができる。無音フレーム内において測定された強度レベル、そして特に無音間隔内における無音フレームは、考慮対象の基準信号内に内在するノイズ・レベルを表す。言い換えると、被検査デバイスの影響はない。
【0075】
以上で論じたある種の実施形態を参照して、本発明について説明した。尚、これらの実施形態には、当業者には周知の種々の変更および代替形態が可能であることは認められよう。
Claims (13)
- オーディオ・システムの出力信号の基準信号に対する知覚品質を表す品質指標を判定する方法であって、前記基準信号および前記出力信号を処理して比較し、前記処理が、前記基準信号および前記出力信号を、相互に対応する時間フレームに分割するステップを含み、前記処理が、更に、
−前記基準信号の強度を固定強度レベルにスケーリングするステップと、
−基準信号時間フレーム特性を判定するために、前記スケーリングした基準信号内にある時間フレームに対して測定を行うステップと、
−前記基準信号の強度を、前記固定強度レベルから、前記出力信号に関係付けられた強度レベルにスケーリングするステップと、
−前記出力信号のラウドネスを、知覚的ラウドネス・ドメインにおける固定ラウドネス・レベルにスケーリングするステップであって、前記出力信号のラウドネス・スケーリングが、前記基準信号時間フレーム特性を用いる、ステップと、
−前記基準信号のラウドネスを、前記出力信号に関係付けられた強度レベルに対応するラウドネス・レベルから、前記知覚的ラウドネス・ドメインにおける前記スケーリングした出力信号のラウドネス・レベルに関係付けられたラウドネス・レベルにスケーリングするステップであって、前記基準信号のラウドネスのスケーリングが、前記基準信号時間フレーム特性を用いる、ステップと、
を備えている、方法。 - 前記オーディオ・システムが音声処理デバイスである、請求項1記載の方法。
- 請求項1記載の方法において、前記基準信号の強度を、前記固定強度レベルから、前記出力信号に関係付けられた強度レベルにスケーリングするステップが、前記基準信号のスケーリング率との乗算に基づき、前記スケーリング率が、
−ある数の時間フレームに渡る平均基準信号強度レベルを判定し、
−前記平均基準信号強度レベルを判定するために用いた前記基準信号の時間フレームに対応する数の時間フレームにわたって、平均出力信号強度レベルを判定し、
−前記平均基準信号強度レベルおよび前記平均出力信号強度レベルに基づいて端数を判定することによって、暫定的スケーリング率を導き出し、
−前記暫定的スケーリング率が閾値よりも小さい場合、前記スケーリング率を前記暫定的スケーリング率に等しく定義し、それ以外の場合、前記暫定的スケーリング率を追加の暫定的スケーリング率依存値で増分した値に等しく定義することによって、スケーリング率を決定する、
ことによって定義される、方法。 - 請求項1〜3のいずれか1項記載の方法において、前記出力信号の固定ラウドネス・レベルへのラウドネス・スケーリングの前に、更に、
−前記基準信号において、ラウドネス・レベルが前記出力信号のラウドネス・レベルよりも高い部分について、前記基準信号のラウドネス・レベルを、前記出力信号のラウドネス・レベルにローカルにスケーリングするステップと、
−その後に、前記出力信号において、ラウドネス・レベルが前記基準信号のラウドネス・レベルよりも高い部分について、前記出力信号のラウドネス・レベルを前記基準信号のラウドネス・レベルにローカルにスケーリングするステップと、
を備えている、
方法。 - 請求項1〜4のいずれか1項記載の方法において、前記処理が、更に、
−前記スケーリングした基準信号および前記出力信号を時間ドメインから時間−周波数ドメインに変換するステップと、
−前記基準信号から基準ピッチ・パワー密度関数を導き出し、前記出力信号から出力ピッチ・パワー密度関数を導き出すステップであって、強度レベル差が、前記ピッチ・パワー密度関数の強度レベル間の差に対応する、ステップと、
−ローカルにスケーリングした基準ピッチ・パワー密度関数を得るために、前記基準ピッチ・パワー密度関数をローカルにスケーリングするステップと、
−前記ローカルにスケーリングした基準ピッチ・パワー密度関数を、周波数に関して部分的に補償するステップと、
−基準ラウドネス密度関数および出力ラウドネス密度関数を導き出すステップであって、ラウドネス・レベル差が、前記ラウドネス密度関数のラウドネス・レベル間の差に対応する、ステップと、
を備えており、
前記ラウドネス密度関数が、密度関数を表しており、知覚品質に対し可変レベルの再生の影響を定量化することを可能にする、方法。 - 請求項5記載の方法であって、更に、前記基準ピッチ・パワー密度関数および前記出力ピッチ・パワー密度関数の内少なくとも1つに対して励起動作を実行するステップを備えている、方法。
- 請求項5または6記載の方法において、更に、
−前記基準ラウドネス密度関数をローカルにスケーリングするステップと、
−ローカルにスケーリングした前記基準ラウドネス密度関数を補償するステップと、
を備えており、
ローカルにスケーリングした前記基準ピッチ・パワー密度関数を周波数に関して補償するステップ、およびローカルにスケーリングした前記基準ラウドネス密度関数を補償するステップの内少なくとも1つが、前記基準信号時間フレーム特性に基づいて、前記オーディオ・システムの線形周波数応答を推定するステップを含む、方法。 - 請求項1〜7のいずれか1項記載の方法において、前記知覚的ラウドネス・ドメインにおける前記出力信号のラウドネス・レベルに関係付けられたラウドネス・レベルへのスケーリングの前に、前記知覚的ラウドネス・ドメインにおける前記基準信号に対して、ノイズを所定のノイズ・レベルまで抑制するノイズ抑制動作が行われる、方法。
- 請求項1〜8のいずれか1項記載の方法において、固定ラウドネス・レベルへのスケーリングの前に、前記知覚的ラウドネス・ドメインにおける前記出力信号に対して、外乱を表すノイズ・レベルまでノイズを抑制するために、ノイズ抑制アルゴリズムが実行される、方法。
- 請求項1〜9のいずれか1項記載の方法において、前記知覚的ラウドネス・ドメインにおける前記基準信号および出力信号には、比較の前に、グローバル・ノイズ抑制が行われる、方法。
- コンピュータ読み取り可能媒体上に格納されているコンピュータ実行可能コードを備えているコンピュータ・プログラムであって、前記コンピュータ実行可能コードをプロセッサによって実行すると、請求項1から10までのいずれか1項によって定義される方法を実行するように構成されている、コンピュータ・プログラム。
- オーディオ・システム(10)の出力信号Y(t)の、基準信号の役割を果たす前記オーディオ・システムの入力信号X(t)に対する、知覚品質を表す品質指標を判定するシステム(20)であって、
−前記基準信号および出力信号を前処理する前処理デバイス(30)と、
−前記基準信号を処理する第1処理デバイス(40a)、および前記基準信号および出力信号に対して、それぞれ、表現信号R(X)、R(Y)を得るために、前記出力信号を処理する第2処理デバイス(40b)と、
−差分信号Dを得るように、前記基準信号および出力信号の表現信号を結合する差分デバイス(50)と、
−前記オーディオ・システムの知覚品質の推定値を表す品質信号Qを得るために、前記差分信号を処理するモデリング・デバイス(60)と、
を備えており、前記前処理デバイス、前記第1処理デバイス、および第2処理デバイスが、請求項1から10までのいずれか1項に記載の方法を実行する処理システムを形成する、システム。 - 前記オーディオ・システム(10)が音声処理デバイスである、請求項12記載のシステム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP09010501 | 2009-08-14 | ||
EP09010501.6 | 2009-08-14 | ||
EP10161830 | 2010-05-04 | ||
EP10161830.4 | 2010-05-04 | ||
PCT/EP2010/061542 WO2011018430A1 (en) | 2009-08-14 | 2010-08-09 | Method and system for determining a perceived quality of an audio system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013501952A JP2013501952A (ja) | 2013-01-17 |
JP5542206B2 true JP5542206B2 (ja) | 2014-07-09 |
Family
ID=42985662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012524212A Active JP5542206B2 (ja) | 2009-08-14 | 2010-08-09 | オーディオ・システムの知覚品質を判定する方法およびシステム |
Country Status (8)
Country | Link |
---|---|
US (1) | US8818798B2 (ja) |
EP (1) | EP2465113B1 (ja) |
JP (1) | JP5542206B2 (ja) |
KR (1) | KR101430321B1 (ja) |
CN (1) | CN102576535B (ja) |
DK (1) | DK2465113T3 (ja) |
ES (1) | ES2531556T3 (ja) |
WO (1) | WO2011018430A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8873762B2 (en) * | 2011-08-15 | 2014-10-28 | Stmicroelectronics Asia Pacific Pte Ltd | System and method for efficient sound production using directional enhancement |
EP2733700A1 (en) * | 2012-11-16 | 2014-05-21 | Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO | Method of and apparatus for evaluating intelligibility of a degraded speech signal |
EP2922058A1 (en) * | 2014-03-20 | 2015-09-23 | Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO | Method of and apparatus for evaluating quality of a degraded speech signal |
EP4060661B1 (en) | 2014-10-10 | 2024-04-24 | Dolby Laboratories Licensing Corporation | Transmission-agnostic presentation-based program loudness |
CN106887233B (zh) * | 2015-12-15 | 2020-01-24 | 广州酷狗计算机科技有限公司 | 音频数据处理方法及系统 |
JP6461064B2 (ja) * | 2016-09-28 | 2019-01-30 | 本田技研工業株式会社 | 音響特性校正方法 |
CN107452399B (zh) * | 2017-09-18 | 2020-09-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频特征提取方法及装置 |
CN109903752B (zh) * | 2018-05-28 | 2021-04-20 | 华为技术有限公司 | 对齐语音的方法和装置 |
US11172293B2 (en) * | 2018-07-11 | 2021-11-09 | Ambiq Micro, Inc. | Power efficient context-based audio processing |
US11456007B2 (en) | 2019-01-11 | 2022-09-27 | Samsung Electronics Co., Ltd | End-to-end multi-task denoising for joint signal distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ) optimization |
WO2021042538A1 (zh) * | 2019-09-02 | 2021-03-11 | 平安科技(深圳)有限公司 | 一种音频处理方法、装置及计算机存储介质 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2005155A (en) * | 1932-02-23 | 1935-06-18 | Bolton C Moise | Tube expanding mill |
JPH0784596A (ja) * | 1993-09-13 | 1995-03-31 | Nippon Telegr & Teleph Corp <Ntt> | 符号化音声の品質評価方法 |
EP1241663A1 (en) * | 2001-03-13 | 2002-09-18 | Koninklijke KPN N.V. | Method and device for determining the quality of speech signal |
ATE315820T1 (de) | 2001-10-01 | 2006-02-15 | Koninkl Kpn Nv | Verbessertes verfahren zur ermittlung der qualität eines sprachsignals |
ATE339676T1 (de) | 2002-03-08 | 2006-10-15 | Koninkl Kpn Nv | Verfahren und system zur messung der übertragungsqualität eines systems |
DE60319666T2 (de) * | 2003-01-21 | 2009-04-02 | Psytechnics Ltd. | Verfahren zur Qualitätsbestimmung eines Audiosignals |
EP1465156A1 (en) * | 2003-03-31 | 2004-10-06 | Koninklijke KPN N.V. | Method and system for determining the quality of a speech signal |
DE60305306T2 (de) * | 2003-06-25 | 2007-01-18 | Psytechnics Ltd. | Vorrichtung und Verfahren zur binauralen Qualitätsbeurteilung |
US7240252B1 (en) * | 2004-06-30 | 2007-07-03 | Sprint Spectrum L.P. | Pulse interference testing in a CDMA communication system |
ATE405922T1 (de) * | 2004-09-20 | 2008-09-15 | Tno | Frequenzkompensation für die wahrnehmungsbezogene sprachanalyse |
AU2005299410B2 (en) * | 2004-10-26 | 2011-04-07 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
DK1760696T3 (en) * | 2005-09-03 | 2016-05-02 | Gn Resound As | Method and apparatus for improved estimation of non-stationary noise to highlight speech |
DE602005007620D1 (de) * | 2005-12-14 | 2008-07-31 | Ntt Docomo Inc | Vorrichtung und Verfahren zur Bestimmung der Übertragungspolitik für mehrere und verschiedenartige Anwendungen |
EP1975924A1 (en) * | 2007-03-29 | 2008-10-01 | Koninklijke KPN N.V. | Method and system for speech quality prediction of the impact of time localized distortions of an audio transmission system |
DE602007007090D1 (de) * | 2007-10-11 | 2010-07-22 | Koninkl Kpn Nv | Verfahren und System zur Messung der Sprachverständlichkeit eines Tonübertragungssystems |
-
2010
- 2010-08-09 DK DK10751828.4T patent/DK2465113T3/en active
- 2010-08-09 EP EP10751828.4A patent/EP2465113B1/en active Active
- 2010-08-09 CN CN201080046406.3A patent/CN102576535B/zh active Active
- 2010-08-09 JP JP2012524212A patent/JP5542206B2/ja active Active
- 2010-08-09 ES ES10751828.4T patent/ES2531556T3/es active Active
- 2010-08-09 US US13/390,221 patent/US8818798B2/en active Active
- 2010-08-09 WO PCT/EP2010/061542 patent/WO2011018430A1/en active Application Filing
- 2010-08-09 KR KR1020127003997A patent/KR101430321B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
WO2011018430A1 (en) | 2011-02-17 |
KR101430321B1 (ko) | 2014-08-13 |
JP2013501952A (ja) | 2013-01-17 |
US8818798B2 (en) | 2014-08-26 |
CN102576535A (zh) | 2012-07-11 |
EP2465113A1 (en) | 2012-06-20 |
DK2465113T3 (en) | 2015-04-07 |
ES2531556T3 (es) | 2015-03-17 |
EP2465113B1 (en) | 2014-12-24 |
CN102576535B (zh) | 2014-06-11 |
US20120143601A1 (en) | 2012-06-07 |
KR20120042989A (ko) | 2012-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5542206B2 (ja) | オーディオ・システムの知覚品質を判定する方法およびシステム | |
EP2465112B1 (en) | Method, computer program product and system for determining a perceived quality of an audio system | |
Hines et al. | ViSQOL: an objective speech quality model | |
KR101148671B1 (ko) | 오디오 전송 시스템의 음성 명료도 측정 방법 및 시스템 | |
US9953663B2 (en) | Method of and apparatus for evaluating quality of a degraded speech signal | |
CN104919525B (zh) | 用于评估退化语音信号的可理解性的方法和装置 | |
EP3223279A1 (en) | A speech signal processing circuit | |
EP2037449B1 (en) | Method and system for the integral and diagnostic assessment of listening speech quality | |
US9659565B2 (en) | Method of and apparatus for evaluating intelligibility of a degraded speech signal, through providing a difference function representing a difference between signal frames and an output signal indicative of a derived quality parameter | |
Ghimire | Speech intelligibility measurement on the basis of ITU-T Recommendation P. 863 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130131 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130425 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130507 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130531 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130701 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130902 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140502 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5542206 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |