JP2000506631A

JP2000506631A - オーディオ信号の聴覚に適応した品質評価方法および装置

Info

Publication number: JP2000506631A
Application number: JP10523109A
Authority: JP
Inventors: ディーターザイツァー; トーマススポーラー
Original assignee: フラウンホーファー・ゲゼルシャフトツアフェルデルンクデルアンゲワンテンフォルシュンクアインゲトラーゲナーフェライン
Priority date: 1996-11-15
Filing date: 1997-10-02
Publication date: 2000-05-30
Anticipated expiration: 2017-10-02
Also published as: CA2271880C; WO1998023130A1; DE19647399C1; CA2271880A1; KR20000053311A; JP3418198B2; AU4780497A; DE59705914D1; US6271771B1; NO992355D0; EP0938831B1; EP0938831A1; ATE211347T1; NO992355L

Abstract

(57)【要約】オーディオ基準信号（１２）から符号化および復号化を通して得られたオーディオテスト信号（１４）の品質を評価する方法において、オーディオテスト信号（１４）はオーディオ基準信号（１２）とまるで人間の耳の鍋牛の奥と同様の状態で比較される。全てのマスキング効果および耳の伝達関数もオーディオ基準信号（１２）とオーディオテスト信号（１４）とに対して同様に適応される。つまり、オーディオテスト信号（１４）はそのスペクトル成分に従い複数のフィルタからなる第１フィルタバンク（２０）によって分解され、この複数のフィルタは周波数において重複し、かつスペクトル領域を定義し、さらにそれぞれのフィルタ中心周波数に関する人間の耳の励振カーブを基にして個々に決定された個別のフィルタ関数を備えている。オーディオ基準信号（１２）もまた、第１フィルタバンク（２０）と同様の構成を持つ第２フィルタバンク（１６）によって、そのスペクトル成分に従って部分的オーディオ基準信号（１８）へと分解される。その後、スペクトル領域によるレベル差が、同一のスペクトル領域に属する部分的オーディオテスト信号（２２）と部分的オーディオ基準信号（１８）との間で形成される。オーディオテスト信号（１４）の品質を評価するために、検出確率がそれぞれのレベル差を基にしてスペクトル領域により決定され、その関連するスペクトル領域内のオーディオテスト信号（１４）の符号化エラーを検出する。

Description

【発明の詳細な説明】オーディオ信号の聴覚に適応した品質評価方法および装置本発明はオーディオ信号の符号化および復号化に関する。特に、オーディオ信号の聴覚に適応した(hearing-adapted)品質評価(quality assessment)を実行する方法および装置に関する。聴覚に適応したデジタル符号化方法が数年前から規格化されて以来(Kh．Bran- denburg and G．Stoll，The iso/mpeg-audio codec: A generic standard for c oding of high quality digital audio，92nd AES-Convention，Vienna，1992,P reprint 3336を参照）、これらの方法は次第に広く使用されるようになってきた。その例としては、デジタルコンパクトカセット（ＤＣＣ），ミニディスク，デジタル地上型放送(digital terrestrial broadcasting)（ＤＡＢ；ＤＡＢ＝デジタルオーディオ放送），デジタルビデオディスク（ＤＶＤ）が挙げられる。アナログ送信から一般に発生する公知の妨害信号(disturbances)は、デジタル非符号化オーディオ信号送信(digital uncoded audio signal transmission)においては存在しない。もしオーディオ信号の符号化が実行されない場合には、測定技術はアナログからデジタルへの変換およびその逆変換に限ることができる。しかし、聴覚に適応した符号化方法による符号化の場合には、アナログオーディオ信号処理の中では起こらなかったような、聴くことができる人為的につくられたもの(artificial products)または人為結果(artifacts)が生じる可能性がある。公知の測定値、例えば高調波ひずみ係数(harmonic distortion factor)またはＳ／Ｎ比は、聴覚に適応した符号化方法に対しては使用できない。聴覚に適応して符号化された音楽信号の多くは、１５ｄＢ未満のＳ／Ｎ比を持ち、非符号化(u ncoded)オリジナル信号に対して聞き取れるような差異は知覚されない。反対に、４０ｄＢより高いＳ／Ｎ比は、既にはっきりと聞き取れる妨害音となっている可能性がある。近年、種々の聴覚に適応した測定方法が紹介されており、その中でＮＭＲ法（ＮＭＲ＝ノイズ／マスク比）について言及されている(BrandenburgandTh.Sporer ．“NMR”and“Masking Flag”：Evaluation of quality using percep-tual cr iteria．In Proceedings of the 11th International Conference of the AES， Portland，1992参照）。ＮＭＲ法を実施するには、長さ１０２４でかつオリジナル信号および差分信号 (differential signal)に対して５１２サンプリング値の前進速度(advancing sp eed）を持つハーンウィンドウ(Hann window)を用いた離散フーリエ変換(discret e Fourier transform)が、個々のオリジナル信号および処理済信号の間で計算される。そこから得られたスペクトル係数は、周波数帯域の中で結合され、その周波数の幅はZwicker著、E．Zwicker，Psychoacoustics，publisher Springer-Ver lag，Berlin Heidelberg NewYorK，1982の中で示唆された周波数グループと概ね対応している。この後、各周波数帯域のエネルギー密度(energy density)が決定される。オリジナル信号のエネルギー密度から、実際上のマスキングまたはカバーリングのしきい値（最小可聴限界：threshold)が、それぞれの周波数グループ内のマスキングと、周波数グループ間のマスキングと、各周波数帯域に関する後マスキング(post-masking)を考慮して決定され、上記マスキングのしきい値は差分信号のエネルギー密度と比較される。測定方法の入力信号は固定的なリスニング音量と一体に結び付けられないので、人間の耳の静寂時のしきい値(resting t hreshold)は、十分に考慮されるわけではない。なぜなら、オーディオ信号のリスナーは通常、彼が聴きたい音楽または楽曲の音量に対して接触手段を持っているからである。これまでに分かったことは、ＮＭＲ法は、例えば典型的な４４．１ｋＨｚのサンプリングレートの場合、約４３Ｈｚの周波数分解能(frequency resolution)と約２３ｍｓの時間分解能(time resolution)を持つ。周波数分解能は低周波数の場合に非常に低く、他方、時間分解能は高周波数の場合に非常に低くなる。しかし、ＮＭＲ法は多くの時間効果(time effects)に対して良好な反応を示す。例えばドラムのビートのように、ビートの連続の周波が十分に低い場合には、そのビートに先立つブロックはまだ非常に低いエネルギーを持っている。その結果、起きる可能性があるプリエコー(pre-echo)が正確に認知されることかできる。分析ウィンドウ(analysis window)に関する１１．６ｍｓの前進速度(advancing spee d)により、多くのプリエコーが認知できるようになる。しかし、分析ウィンドウが良好でない位置を持つ時は、プリエコーは認知されない可能性がある。調性信号(tonal signals)によるマスキングと雑音によるマスキングとの間の差は、ＮＭＲ法においては考慮されない。使用されるマスキングカーブは、主観的なヒアリングテストから得られる経験的な値である。つまり、周波数グループは周波数スペクトル内の固定された位置に配置され、他方では、耳はスペクトル内の特に顕著な音事象(sound events)の周囲に周波数グループをダイナミックに形成している。そのため、エネルギー密度の中心の回りにダイナミックに配置する方がより正確な配置といえるであろう。固定周波数グループの幅のために、例えば正弦波信号(sinusoidal signal)が、ある周波数グループの中央に配置されているかまたは端部に配置されているかを識別するのは不可能である。そのため、マスキングカーブは最も臨界的な場合、すなわち最低のマスキング効果に基づいている。その結果、ＮＭＲ法は時々、人間には聞き取れない妨害信号を示すことかある。上述の４３Ｈｚの低周波数分解能は、特に低周波数範囲におけるＮＭＲ法によるオーディオ信号の聴覚に適応した品質評価に対して制限を設けることになる。これは、例えば男性スピーカーによって発せられた低いピッチの音声信号や、例えばバストロンボーンのように非常に低いピッチの楽器の音を評価する場合に特に不利な影響が生じる。本発明を理解し易くするために、オーディオ信号の聴覚に適応した品質評価のための聴覚心理(psychoacoustic)および認知(cognitive)の基本事項を以下に説明する。聴覚に適応した符号化と測定技術の分野において最も重要な言葉は“Ve rdeckung(ドイツ語)"（=マスキング）であり、これは英語の“masking”という言葉と類似した“Maskierung”という言葉でも呼ばれている。不連続的に発生する低音量の可聴音事象(perceivable sound event)は、音量がより大きな音によってマスクされる。すなわち低音量の音は高音量の音の存在によって、もはや知覚されなくなる。このマスキング効果は、時間的構造と、マスカー（マスクする側の信号）およびマスクされる側のスペクトル構造との両方に依存する。図１は、６０ｄＢの音圧レベルで、２５０Ｈｚ，１，０００Ｈｚ，４，０００Ｈｚの狭帯域ノイズ信号１，２，３による音のマスキングを図解するものである。この図１は、E.Zwicker and H.Fastl,Concerning the dependency of post-ma sking on disturbance pulse duration，in Acustica，Vol．26，78‐82頁，198 2 から採用したものである。このような視点から見ると、人間の耳は、多数の互いに重複したバンドパスフィルタからなる一つのフィルタバンクと見なすことができる。周波数に対するこれらフィルタの配分は、一定ではない。特に、低周波数における周波数分解能は高周波数における周波数分解能よりも明らかに優れている。知覚可能な最小周波数差に注目すると、この値は約５００Ｈｚ以下の周波数においては約３Ｈｚであり、５００Ｈｚより高い周波数においては周波数または周波数グループの中心周波数に比例して増大する。知覚可能な最小周波数差が周波数スケールの上に並べられたなら、６４０の知覚可能なステージが得られる。人間の周波数知覚に適応した周波数スケールは、バルクスケールによって構成される。このバルクスケールは、約１５．５ｋＨｚまでの全体可聴範囲を２４セクションに分割する。有限のしゅん度を持つフィルタの重複により、高い音量のオーディオ信号に近接する低音量のオーディオ信号はマスクされる。そのため、図１において、スペクトルの中では個々のラインとして表示された狭帯域ノイズカーブ１，２，３の下にある全ての正弦波オーディオ信号は、マスクされて聞き取れない。人間の耳内のフィルタバンクの個々のマスキングフィルタの端部しゅん度(edg e steepness)は、モデルの中で推測されるように、さらに聞き取られた信号の音圧レベルにも依存し、また、より低い程度ではあるが、それぞれのバンドパスフィルタの中心周波数にも依存している。最大マスキングは、マスカーの構造に依存するが、雑音によるマスキングの場合には概ね−５ｄＢである。正弦音(sinus oidal sound)によるマスキングの場合には、最大マスキングはかなり小さくなり、中心周波数に依存して−１４ｄＢから−３５ｄＢまでとなる(in M.R.Schroede r，B.S．Atal and J.L．Hall，Optimizing digltal speech coders by exploiti ng masking properties of the human ear，The Journal of the Acoustic Soci ety of America，Vol．66（No．6)，1647‐1652頁，1979年12月号を参照）。２番目に重要な影響は、時間に関するマスキング効果であり、以下に図２を参照しながら説明する。大きな音量の音事象の直後および直前には、小さな音量の音事象は知覚されなくなる。時間に関するマスキング効果は、マスカーの構造と持続時間に大きく依存する(H．Fastl，Thresholds of masking as a measure fo r the resolution capacity of the human ear in terms of time and spec-tru m．Dissertation，faculty for mechanical and electrotechnical engi-neerin g of the Technical University of Munich，Munich，1974年５月号を参照）。特に、後マスキングは１００ｍｓまでの持続時間を持つ可能性がある。感度が最大でかつ時間的に最短のマスキング効果は、ガウス型パルス(Gaussian pulses）によるノイズのマスキングにおいて発生する。この場合、前マスキング(pre-mas king)および後マスキング(post-masking)の持続時間は約２ｍｓだけになる。マスカーから、または図１中のライン４から十分離れた距離をおいて、複数のマスキングカーブは静寂時のしきい値５へと変化する。マスキング信号の最初と最後とにおいて、前マスキング６および前マスキング７の期間のマスキングカーブは、それぞれ同時マスキング(simultaneous masking)８に変化する。図２はE. Zwicker，Psychoacoustics，publisher Springer-Verlag，Berlin Heidelberg N ew York，1982から抜粋したものである。前マスキング効果(pre-masking effect)は、耳から脳へと向かう途中および脳内それぞれにおける信号の異速度処理(different-velocity processing)によって説明される。大きな刺激、すなわち音量が大きい音事象または高い音圧レベル（ＳＰＬ）を持つ音事象は、小さな刺激よりも高速で伝達される。そのため、音量が大きい音事象は、時間の上では先行していた音量の小さい音事象をいわゆる「接収」し、マスクする。後マスキングは、聴覚器官と刺激伝達の「回復時間（リカバリータイム）」に相当し、この中では特に、神経シナプス(nervous synapse)における伝達物質(me ssenger substances)の分解について指摘する必要があるであろう。マスキングの大きさあるいはマスキングの程度は、マスカーすなわちマスキング信号の構造に時間とスペクトルとの両面で依存している。前マスキングは、パルス状マスカーの場合には最も短く（約１．５ｍｓ）、ノイズ信号の場合にはかなり長い（１５ｍｓまで）。１００ｍｓの後には、後マスキングは静寂時のしきい値に到達する。後マスキングカーブの正確な形状については、種々の文献は異なった意見を紹介している。そのため、特殊な場合には、ノイズ信号の場合の後マスキングは１５から４０ｍｓの間でばらつく可能性がある。これまでに示した値は、それぞれノイズに対して最小値を示す。マスカーとしてのガウス型パルスに関する新たな研究により、ガウス型パルスの信号では後マスキングが１．５ｍｓの範囲内でしか起こらないことが示された(J．Spille，Measurement of pre-a nd post-masking in pulses under critical conditions，Internal Report,Tho mson Consumer Electronics，Hannover，1992を参照）。マスカーおよび妨害信号の両方がローパスフィルタによって帯域制限されている場合には、前マスキングおよび後マスキングの両方が長くなる。時間に関するマスキングはオーディオ符号化方法の評価において重要な役割を果たす。その作動がブロックタイプの作動である（大抵の場合はそうである）場合であって、かつそのブロック内で作用(actions)がある時に、有益な信号レベルよりも高い妨害信号がその作用より前に引き起こされる可能性があり、これらの妨害信号は前マスキング効果によってマスクされる可能性がある。しかし、このような妨害音がマスクされない場合には、起こり得る影響は「プリエコー」と呼ばれる。プリエコーは一般に、作用と分離して知覚されることはなく、作用の音の色あい(sound coloration)として知覚される。静寂時のしきい値（図１のライン４）は、外耳および中耳の周波数レスポンスと、例えば血流によって引き起こされる基本的なノイズとともに内耳に到達した音信号の重畳とから得られる。この基本的なノイズと静寂時のしきい値は、周波数範囲は一定ではないが、非常に低音量の音事象をマスクする。図１は特に、良好な聴覚であれば２０Ｈｚから１８ｋＨｚまでの周波数範囲を知覚できることを示している。信号の主観的に知覚された音量は、そのスペクトル成分と時間に関する成分とに大きく依存する。一つの信号内のある部分は、その信号内の他の部分をマスクする可能性があり、その結果、他の部分のヒアリングの印象に対する影響かゼロになることがある。聞き取りしきい値に近い信号（すなわち可聴最小信号に近い信号）は、実際の音圧レベルの音量よりも低い音量として知覚される。この効果は「チョーキング」と呼ばれている。(E．Zwicker and R．Feldtkeller，The ea r as recipient of messages，publisher Hirzel-Verlag，Stuttgart，1967を参照）。さらに、オーディオ信号の評価には認知効果(cognitive effects)も役割を果たしている。特に、「減損スケール(impairment scale)」（減損(impairment)＝悪化(deterioration))と呼ばれる５段階がこれを証明している。人間の耳による２つの信号の評価をする試験委員の仕事は、２重ブラインドテスト(a double bl ind test）において、一つは符号化および復号化されていないオリジナル信号を聞き、他は符号化およびその後の復号化の後で得られた信号を聴いて評価することである。このヒアリングテストは３つの刺激Ａ，Ｂ，Ｃを使用し、このうちＡは常に基準信号である。ヒアリングテストを行う人は常に信号Ｂ，Ｃを信号Ａに対して比較する。このように、符号化されていない信号は基準信号と呼ばれ、他方、基準信号を符号化および復号化することにより得られた信号はテスト信号と呼ばれる。明確な可聴妨害信号の評価においては、このように聴覚心理の影響のみならず、認知的または主観的な影響も役割を果たす。人間の耳によるオーディオ信号の評価においては、認知効果は減衰スケールによる評価に対してかなりの影響を持つ。離散した非常に強い妨害信号は、しばしば多くの試験委員によって、永久に続く妨害信号よりも小さな妨害として知覚される。しかし、所定の数のそのような強い妨害信号からスタートすると、妨害信号が品質の印象を支配していまう。この点についての体系的な研究は、文献からは知られていない。異なるリスナーの知覚しきい値は聴覚心理テストではあまり異なることはないが、種々の人為結果は異なる試験委員によって異なる印象で知覚される。ある試験委員は、帯域制限は高周波数におけるノイズ変調よりも煩わしくないと知覚するが、他の試験委員はこれを全く逆のように知覚する。色々な試験委員の評価スケールは、明らかに相互に異なるものである。多くのリスナーは明確な可聴妨害信号をグレード１（「非常にうるさい」）と評価する傾向がある一方で、平均のグレードと判断することは滅多にない。しかし、他のリスナーは、しばしば平均のグレードと判断することかある(Thomas Sporer,Eva luating small impairments with the mean opinion scale−reliable or just a guess ? In 10lnd AES-Convention，Los Angeles，1996，Preprint参照）。ドイツ特許４４３７２８７Ｃ２は、ステレオオーディオ信号の保全を測定する方法と、共通して符号化されたステレオオーディオ信号を認識する方法とを開示している。２つのステレオチャネルを持つテストされるべき信号が、基準信号の符号化およびその後の復号化を通して形成される。テストされる信号および基準信号の両方は、周波数領域に変換される。基準信号の各部分的帯域およびテストされる信号の各部分的帯域に対し、基準信号およびテストされる信号の信号特性が作られる。同一の各部分的帯域に属する信号特性は、相互に比較される。この比較から、ステレオオーディオ信号特性の保全、あるいは使用された符号化技術の中のステレオサウンド印象に対する妨害信号に関して結論が出される。人間の耳の伝達特性による基準信号およびテスト信号に対する主観的な影響は、この文献では考慮されていない。本発明の目的は、オーディオ信号の聴覚に適応した品質評価を実行する方法および装置を提供し、主観的な影響からの高い独立性を得ることである。この方法および装置は、時間に関する高い分解能により、人間の耳の内部における事象をエンハンストーモデル化(enhanced modeling)することを達成するものである。この目的は、請求項１に記載の方法と請求項１８に記載の装置とにより達成される。本発明は、基準信号とテスト信号とに対する全ての非線形な聴覚的影響を同様にシュミレートし、かつテスト信号の品質評価のための比較を、まるで耳の奥すなわち（内耳の）鍋牛(cochlea)から聴神経への伝達時のような環境で実行することを実現化することを基礎とする。オーディオ信号の聴覚に適応した品質評価とは、このように鍋牛の領域内での比較を用いる。テスト信号とオーディオ基準信号とによる耳内でのそれぞれの励振(excitation)は、このように比較される。そのため、オーディオ基準信号およびオーディオテスト信号の両方は、フィルタバンク(bank of filters)によってそれらのスペクトル成分に分解される。周波数において重複している多数のフィルタによって、時間と周波数との両方に関して充分な分解能が保証される。耳の聴覚的影響が考慮された結果、個々のフィルタがそれぞれ個別の構成を備え、その構成は、外耳および中耳の伝達関数(trans mission function)および耳の内部雑音と、フィルタの中心周波数ｆ_mと、評価されるべきオーディオ信号の音圧レベルＬと、により決定される。複雑さおよび計算にかかる負担を軽減するために、それぞれのフィルタ伝達関数について最悪の場合を仮定した考慮がなされており、そのため、個々のフィルタのそれぞれの中心周波数における種々の音圧レベルに関するいわゆる最悪の場合の励振カーブが、それぞれのフィルタに関して決定される。計算にかかる負担をさらに軽減するために、フィルタバンクのパーツは減数されたサンプリングレートを用いて計算される。そのため、処理されるべきデータストリームを大きく減数させることになる。フィルタバンクによって実行されるように、高速フーリエ変換あるいはその修正変換と互換性をもたせるために、最初のサンプリングレートと２の累乗との商（すなわち最初のサンプリングまたはデータレートのそれぞれ１／２，１／４，１／８，１／１６，１／３２倍）となるようなサンプリングレートのみが使用される。このようにして、同一のサンプリング周波数で作動している種々のフィルタグループは、均一のウィンドウ長さを常に得ることができる。最後に、フィルタバンクの各フィルタは、その下流側において、前マスキングおよび後マスキングをモデル化するためのモデル手段に接続されている。マスキングの前後をモデル化することで必要なバンド幅が減少するので、フィルタによっては、サンプリングレートのさらなる減数、すなわちアンダーサンプリング(u ndersampling)が可能となる。このようにして、本発明の望ましい実施例においては、全てのフィルタにおけるサンプリンクルートは、結果的に入力データレートの１／３２と一致する。全てのフィルタバンクに関するこの共通のサンプリングレートは、有益性が高く更なる処理に不可欠である。フィルタバンクに続いて、オーディオテスト信号とオーディオ基準信号とをそれぞれ計算する上で存在する可能性かある非同期性を補正するために、個々のフィルタの出力信号の遅延が決定される。オーディオ基準信号とオーディオテスト信号との比較は、上述のように、まるで耳の鍋牛の奥で行われるように実行される。オーディオテスト信号のためのフィルタバンクのフィルタの出力信号と、オーディオ基準信号のためのフィルタバンクの対応するフィルタの出力信号との間のレベル差は検出され、このレベル差が検出確率(detection probability)の中に詳細にマップされ(mapped)、この検出確率は、そのレベル差が脳によってレベル差として認識される程度に大きいか否かを考慮する。本発明にかかる聴覚に適応した品質評価方法および装置においては、複数の隣接したフィルタのレベル差を共通して評価できるようにしている。その目的は、共通に評価されたフィルタによって定義されたバンド幅の中において、主観的に知覚された妨害信号を測る尺度を構成するためである。聴覚に匹敵する主観的な印象を得るためには、このバンド幅は、聴覚心理周波数グループ以下であるか、またはこれと同等になるであろう。本発明の望ましい実施例を、以下に図を参照しながらさらに詳細に説明する。図１は種々の周波数における狭帯域ノイズ信号による音のマスキングを示すグラフであり、図２は時間領域(time domain)におけるマスキングの原理を示し、図３はオーディオ測定システムの概略ブロック図であり、図４は本発明にかかるオーディオ信号の聴覚に適応した品質評価のための装置を示すブロック図であり、図５は図４に記載のフィルタバンクのブロック図であり、図６はマスキングフィルタの性能を示すための典型例のグラフであり、図７は、外耳および中耳の伝達関数と内部の雑音とを考慮した、マスキングフィルタの性能を示すためのグラフであり、図８は本発明にかかるオーディオ信号の聴覚に適応した品質評価のための装置を示す詳細なブロック図であり、図９は異なるサンプリングレートにおける典型的なフィルタカーブを示し、図１０は検出確率の上にスペクトル領域の中のレベル差をマッピングするためのしきい値関数(threshold function)を表すグラフであり、図１１は典型的なオーディオテスト信号の部分的検出確率(local detection p robability）を示すグラフであり、図１２は図１１で使用された典型的なオーディオテスト信号の周波数グループ検出確率を示すグラフである。図３は、基本的な概要において本発明に対応するオーディオ測定システムの概略ブロック図である。測定方法には、一方では音信号源の非処理出力信号（基準信号）が与えられ、他方では、例えばオーディオ符号化／復号化手段（または「オーディオコーデック」）等の伝達経路から到達した品質評価されるべき信号（テスト信号）が与えられる。この測定方法は、これら与えられた信号から、基準信号と比較した場合のテスト信号の品質を表すような種々の特性を計算する。本発明にかかるオーディオ信号の品質評価方法の基本的な考え方は、正確に聴覚に適応した分析とは、時間およびスペクトルに関する分解能が同時に最高の状態である時にだけ可能になるという考え方である。公知の測定方法の場合ではいずれにおいても、離散フーリエ変換(discrete Fourier transform:ＤＦＴ)（ブロック長は通例１０．６７ｍｓから２１．３３ｍｓまで）を使用するために、時間分解能が非常に制限されているか、あるいは分析チャネル(analysis channels )が非常に少数であるためにスペクトル分解能力硝リ減されているかのどちらかである。本発明にかかるオーディオ信号の品質評価方法においては、多数（２４１個）の分析チャネルと、０．６７ｍｓという高度な時間分解能とを提供する。図４は本発明にかかるオーディオ信号の聴覚に適応した品質評価のための装置を示すブロック図であり、本発明にかかる方法を実行するものである。オーディオ信号の聴覚に適応した品質評価またはオーディオ信号の客観的な評価（ＯＡＳＥ）を提供する方法においては、まずオーディオ基準信号１２およびオーディオテスト信号１４の内部表示(internal representation)をそれぞれ発生させる。次に、オーディオ基準信号１２は第１フィルタバンク１６に供給され、ここでオーディオ基準信号はそのスペクトル成分に従って複数の部分的オーディオ基準信号に分解される。これと同様に、オーディオテスト信号１４は第２フィルタバンク２０に供給され、ここでオーディオテスト信号１４はそのスペクトル成分に従って複数の部分的オーディオテスト信号２２に分解される。時間マスキングモデルをモデル化するための第１モデル手段２４および第２モデル手段２６のそれぞれは、個々の部分的オーディオ基準信号１８および個々の部分的オーディオテスト信号２２に関し、時間領域における上述のマスキングの影響をモデル化する。ここで注記すべきは、本発明にかかるオーディオの聴覚に適応した品質評価はまた、単一のフィルタバンクあるいは時間に関するマスキングをモデル化する単一のモデル手段によっても実現できるということである。図解を分かりやすくするために、図４ではオーディオ基準信号１２とオーディオテスト信号１４とがそれぞれ個別の手段を持つように描かれているだけである。もし単一のフィルタバンクがオーディオ基準信号およびオーディオテスト信号の分解に使用された時は、例えば既に決定されたオーディオ基準信号のスペクトル成分が、オーディオテスト信号の処理中には一時的に記憶されることが可能になること等が必要となる。時間マスキングに関してモデル化された部分的オーディオ基準信号１８および部分的オーディオテスト信号２２は、以下に説明するように得られた結果の検出と加重(weighting)を実行する評価手段２８にそれぞれ供給される。評価手段２８は、１個または複数のモデル出力値ＭＡＷ１...ＭＡＷｎを出力する。このモデル出力値は、オーディオ基準信号１２と、このオーディオ基準信号１２から符号化および復号化を通して得られたオーディオテスト信号１４との間の差異を種々の方法で表現している。以下に説明するように、モデル出力値ＭＡＷ１...ＭＡＷｎは、オーディオテスト信号１４の周波数選択的および時間選択的な品質評価を可能にする。評価手段２８内での評価の基礎となるオーディオ基準信号１２およびオーディオテスト信号１４の内部表示は、それぞれ人間の耳から聴神経を介して脳へと伝達される情報に対応している。複数のモデル出力値ＭＡＷ１...ＭＡＷｎが出力されると言う事実から、単一のモデル出力値が出力される時よりも、質的および主観的印象の点においてより詳細な情報を形成することができる。特に、異なる人為結果(artifacts)を加重する時の主観的な差異は、これにより妨害効果を減少させることができる。図５は２つの別々のフィルタバンクが使用されていると仮定した場合の、第１フィルタバンク１６および第２フィルタバンク２０の構造を示す。もし単一のフィルタバンクが基準信号とテスト信号の両方の信号を処理するために使用され、一時的な記憶またはラッチングが組み合わされている場合には、図５は使用された単一のフィルタバンクの構造を示すことになる。信号入力端４０に入力されるのは、スペクトル成分に分解されるべきオーディオ信号であって、フィルタバンク１６および２０の出力においては、それぞれ複数の部分的信号１８および２２が得られるようになっている。フィルタバンク１６および２０はさらに複数のサブフィルタバンク４２ａ〜４２ｆに分割される。信号入力端４０に印加された信号は、第１サブフィルタバンク４２ａに直接的に送られる。第２サブフィルタバンク４２ｂに到達するためには、信号は第１ローパスフィルタ４４ｂによってフィルタリングされ、かつ第１間引き手段(decimating means)４６によって処理されるので、間引き手段４６ｂの出力は２４ｋＨｚのデータレートを備えることになる。間引き手段４６は、このように信号入力端４０に印加されたデータストリームの値を一つおきに削除していくので、計算に掛かる負担およびフィルタバンクで処理されるべきデータの量を効果的に半減させることになる。第１間引き手段４６ｂの出力信号は第２サブフィルタバンクに伝達される。加えて、この出力信号は第２ローパスフィルタ４４ｃおよび後続の第２間引き手段４６ｃへも伝達され、そこでそのデータレートが再度半減される。その結果生じたデータレートは１２ｋＨｚとなる。この第２間引き手段４６ｃの出力信号は次に第３サブフィルタバンク４２ｃへと送られる。他のフィルタバンク４２ｄ，４２ｅ，４２ｆに対する入力信号は、図５に示されるように同様の方法で生み出される。フィルタバンク１６，２０はこのようにして、互いに異なる複数の（「多重の」）サンプリングレート（「レート」）で作動する複数のサブフィルタバンク４２ａ〜４２ｆを備え、いわゆる多重レート構造(multirate structure)を構成している。次に、サブフィルタバンク４２ａ〜４２ｆのそれぞれは、複数のバンドパスフィルタ４８から構成されている。本発明の望ましい実施例においては、フィルタバンク１６，２０は、バルクスケール上に均一な格子状に配列された２４１個の個々のバンドパスフィルタ４８を含み、その中心周波数は０．１バルクの差で異なっている。単位バルク(unit bark)は聴覚心理の分野において当業者に知られており、例えばE．Zwicker著「Psychoacoustics」（出版社:Springer-Ver-lag， Berlin，Heidelberg New York，1982年）の中で紹介されている。図９は３ｋＨｚ，１２ｋＨｚ，４８ｋＨｚのサンプリングレートにおける、ある典型的なフィルタカーブを示す。図９の中で、左側のフィルタカーブのグループは３ｋＨｚのサンプリングレートに対応し、中央のフィルタカーブのグループは１２ｋＨｚのサンプリングレートに対応し、右側のフィルタカーブのグループは４８ｋＨｚのサンプリングレートに対応する。個々のバンドパスフィルタ４８の最小サンプリングレートは、原則的にその上限が図９の中で−１００ｄＢの減衰量以下に低下した点から導き出される。しかし、簡略化する目的で、次に高いサンプリンクルートのみが毎回、方程式ｆ_A= ２^-n・４８ｋＨｚを満たすそれぞれのバンドパスフィルタ４８について選択されてきた。この式で、ｆ_Aは関係する個々のバンドパスフィルタ４８のデータあるいはサンプリンクルートであり、指数ｎは１から５までとなる。その結果、図９に表されたグループが生じる。フィルタバンク１６，２０の５個のサブフィルタバンクＦＢ１〜ＦＢ５への再分割は、これと同様の結果である。同一のサンプリングレートで作動している全てのフィルタは、それぞれのローパスフィルタ４４ｂ〜４４ｆおよびそれぞれの間引き手段４６ｂ〜４６ｆによる共通の前処理作業を利用することができる。個々のフィルタ励振カーブまたはフィルタ関数を生み出す方法は、それぞれ以下に詳細に説明する。望ましい実施例において、図５に示された全てのバンドパスフィルタ４８にはデジタルＦＩＲフィルタが用いられており、これらＦＩＲフィルタはそれぞれ１２８個のフィルタ係数(filter coefficients)を持ち、これは、フィルタカーブまたはフィルタ関数がそれぞれ知られている場合には当業者の間で公知である方法によって計算することかできる。これは高速畳み込み(rapid convolution)によって達成することができ、その途中においては、ＦＢＯ（４２ａ）およびＬＰ１（４４ｂ）（ＬＰ＝ローパス）からの全てのフィルタは、フィルタを計算するために一つのＦＦＴ（高速フーリエ変換）を共通して利用することができる。ローパスフィルタ４４ｂ〜４４ｆの限界周波数は、それぞれのサブフィルタバンクに適切なサンプリングレートとともに、サンプリング定理の違反が起こらないように選択されなければならない。ここで注記すべきは、各フィルタの出力信号１，２，...,２４１、すなわち部分的テスト信号および部分的基準信号は、それぞれその部分的信号を発生させた対応するフィルタによって定義される帯域幅を持つということである。この一つのフィルタの帯域幅は、スペクトル領域とも呼ばれている。一つのスペクトル領域の中心周波数は、対応するバンドパスフィルタの中心周波数に対応し、またスペクトル領域の帯域幅は対応するフィルタの帯域幅に等しい。そのため、個々のスペクトル領域またはバンドパスフィルタの帯域幅は、それぞれ重複していることが明らかである。なぜなら、スペクトル領域は０．０５バルクよりも大きいからである。（０．１バルクは、一つのバンドパスフィルタと次のバンドパスフィルタとの中心周波数の距離である。）図６は、１０００Ｈｚの中心周波数ｆ_mを持つバンドパスフィルタ上のマスキングフィルタ４８の性能を典型的に示している。図６において、縦座標はｄＢ単位のフィルタ減衰量を示し、横座標はバルク単位の中心周波数ｆ_mからの左右への周波数偏差を示す。図６におけるパラメータは、フィルタによってフィルタリングされたオーディオ信号の音圧レベルである。フィルタリングされたオーディオ信号の音圧レベルは、０ｄＢから１００ｄＢまでの広がりを持ってもよい。上述のように、モデルとして見られた時の人間の耳のバンドパスフィルタのフィルタ構造は、受信されたオーディオ信号の音圧レベルに依存している。図６から分かるように、左側のフィルタ端(filter edge)は高い音圧レベルの時に比較的平坦であり、低い音圧レベルの方に向かってしゅん度がより急になる。これとは反対に、より低い音圧レベルの場合にはしゅん度がより急なフィルタ端は静寂時のしきい値に向かってより素早く変化する。これは、図６の中では個々の典型的なフィルタ端の直線的な連続となっている。オーディオ信号の音圧レベルに対する依存状態は、フィルタバンクのデジタルバンドパスフィルタ４８の係数を種々に変化させることで達成できる。しかし、この方法は、非常に複雑であることに加え、聞いている音の大きさの変化に非常に影響されやすくなるという欠点がある。(Kh．Brandenburg and Th．Sporer.“ NMR”and“Masking Flag”:Evaluation of quality using perceptual cri-teri a．In Proceedings of the 11th International Conference of the AES,Portla nd，1992．を参照）。本発明にかかるオーディオ信号の聴覚に適応した品質評価においては、別の考えを採用した。異なる音圧レベルの結果として生じるフィルタカーブを基にして、最悪のマスキングケースまたは最悪の場合に対するカーブ５０を形成した。最悪の場合のカーブ５０は、中心周波数ｆ_mから特定の周波数偏差がある場合に、特定の公称音圧レベル領域(nominal sound pressure level range)における全ての音圧レベルカーブの最小値から得られ、例えば０ｄＢから１００ｄＢまで延びてもよい。そのため、最悪の場合のカーブは、図６においてカーブ５０で示されるように、中心周波数付近においては急峻となる端を持ち、中心周波数から離れるに従って平坦になる。さらに図６から分かるように、バンドパスフィルタ４８のフィルタ端の、中心周波数ｆ_mからみて右側で静寂時のしきい値から離れた部分は、フィルタリングされたオーディオ信号の音圧レベルに対して殆ど依存していない。つまり、音圧レベルが０ｄＢから１００ｄＢまで変化しても、カーブ端の右側の傾斜はほぼ同一であることがわかる。本発明にかかるオーディオ信号の聴覚に適応した品質評価においては、外耳および中耳の伝達関数と、例えば耳の中の血流から起こる内部雑音とがさらに考慮される。その結果として生じる、０ｄＢから１００ｄＢまでの個々の音圧レベルに関するカーブを、図７に示す。図６とは対照的に、図７の横座標は、調性スケール(tonality scale)とも呼ばれているバルク単位の周波数スケールの代わりに、Ｈｚ単位のスペクトル範囲領域を示す。数学的な表現を用いれば、外耳および中耳の伝達関数と耳の内部雑音とは、以下の方程式によりモデル化することができる。パラメータａ₀（ｆ）は周波数領域全体にわたる耳の減衰量を表し、ｄＢ単位で示される。個々のバンドパスフィルタ４８に関するマスキングカーブまたはフィルタカーブは、中心周波数ｆ_mの関数として、かつ音圧レベルＬの関数として以下の数学方程式によりモデル化される。この方程式の中で用いられた個々のパラメータを以下に説明する。ｆ_m＝バンドパスフィルタの中心周波数 Δｂ＝バルク単位を用いた上記フィルタの中心周波数ｆ_mとテスト周波数との間の周波数差Ｌ＝フィルタリングされたオーディオ信号の音圧レベル丸め操作の因子(rounding factor)Ｃ₂＝０．１下端のしゅん度Ｓ₁＝２７（ｄＢ／バルク）上端のしゅん度：定数Ｃ₁：Ｈｚ単位の周波数スケールからバルク単位の周波数スケールへの換算方程式は、以下の通りである。 −１０ｄＢにおける仮想上の静寂時のしきい値がマスキングカーブＡの中に追加的に統合された時、以下の式で示される限界マスキングカーブＡ_limが結果として生じる。仮想上の静寂時のしきい値を含み、外耳および中耳の伝達関数Ａ₀（ｆ）を算入したマスキングカーブのための、バルクスケールからＨｚスケールへの転換により、拡張限界マスキングカーブ(extended limit masking curve)Ａ_limが得られ、これがさらにオーディオ信号の音圧レベルの関数となる。既に上述のように、それぞれの音圧レベルに対して固有のフィルタカーブまたはマスキングカーブを選択するために非常に多くの負担が必要になり、そのため、最悪の場合のカーブが計算される。この最悪の場合のカーブＡ_wc（ｆ，ｆ_m）は、中心周波数ｆ_mを持つフィルタのＨｚ単位の実際の周波数ｆにおいて最終的に使用された減衰量を示す。この最悪の場合のカーブＡ_wcは以下の数式で表すことができる。図８は、本発明にかかるオーディオ信号の聴覚に適応した品質評価を実行するための装置および方法をそれぞれ示すブロック図である。図５にかかる説明で既に述べたように、オーディオ基準信号１２は部分的オーディオ基準信号１８を生み出す目的でフィルタバンク１６に送られる。それと同様に、オーディオテスト信号１４は部分的オーディオテスト信号２２を生み出す目的でフィルタバンク２０に送られる。ここで注意すべきは、図６，図７から分かるように、バンドパスフィルタ４８の個々のフィルタカーブは互いに重複しているということである。なぜなら、個々のフィルタの中心周波数はたった０．１バルクずつしか離れていないからである。このようにしてそれぞれのバンドパスフィルタ４８は、人間の耳内部の基底膜(basilar membrane)にある有毛細胞(hair cell)の励振をモデル化すると考えられる。フィルタバンク１６およびフィルタバンク２０の個々のバンドパスフィルタの出力信号は、それぞれ部分的オーディオ基準信号１８および部分的オーディオテスト信号２２となり、それぞれのモデル化手段２４および２６に対して伝達され、このモデル化手段２４および２６は最初に説明したような時間マスキングをモデル化すると考えられている。モデル化手段２４および２６は、静寂時のしきい値と後マスキングとをモデル化するという役割を果たす。既に前述したように、フィルタバンクの出力値は調整されており、静寂時のしきい値のための定数値がそれに加算されている。なぜなら、静寂時のしきい値の周波数依存度は、既にフィルタバンクの中で考慮に入れられているからである。３ｍｓの時間定数を持つ帰納的フィルタ(recursive filter)が出力信号を平滑化する。この後には非線形なフィルタが続くが、この非線形なフィルタは、一方では積分器として音事象の持続時間に渡って蓄積されるエネルギーを積分し、他方では音事象後の励振の指数関数的な減少をモデル化する。モデル化手段２４および２６の詳細な構造は、M. Krajalainen，A new auditory model for the evaluation of sound quality of audio system，Proceedings of the ICASSP，608〜611頁，Tampa，Florida,Mar ch 1985，IEEE の中で説明されている。ここで注記するか、この時間マスキングのモデル化によって、全てのバンドパスフィルタ４８に対する全てのフィルタ帯域において帯域幅が減少し、その減少程度は、更なるサンプリングステップ(u ndersampling step)が可能で、それにより全ての帯域を１．５ｋＨｚの同一サンプリングレートにすることができる程度である。モデル化手段２４，２６の出力信号は、この後検出計算手段５２に伝達されるか、この検出計算手段５２の機能については以下に説明する。図８に示されるように、１番を付された第１バンドパスフィルタに対する検出計算手段５２には、１番を付されたバンドパスフィルタから出力された部分的オーディオ基準信号が与えられ、さらに、オーディオテスト信号のためのフィルタバンクのうち１番を付されたバンドパスフィルタから出力された部分的オーディオテスト信号も与えられる。検出計算手段５２は、一方ではこれら２つのレベル間の差異を検出し、他方ではその部分的オーディオ基準信号と部分的オーディオテスト信号の間のレベル差を検出確率の形式にしてマップする。バンドパスフィルタ４８内に、オーディオ基準信号とオーディオテスト信号とから同一の中心周波数ｆ_mを持つ励振が発生すると、それらは引き算を実行され、図１０に示されたしきい値関数と比較される。この図１０に示されたしきい値関数は、差異の絶対値をｄＢ単位でいわゆる「部分的検出確率(local detection probability)」上にマップする。人間の脳にとって適切な検出しきい値とは２．３ｄＢである。しかし、ここで注意すべき重要な点は、この２．３ｄＢの適切な検出しきい値の周囲に、検出のある不確定要素が存在しているという点であり、そのために図１０に示された確率カーブが利用されるのである。２．３ｄＢのレベル差は、検出確率上にＯ．５の値でマップされる。個々の検出計算手段５２は、それぞれバンドパスフィルタ４８と関連し、全て互いに並行して作動し、さらに検出計算手段５２はそれぞれのレベル差を検出確率ｐ_i,tの中に時間連続的にマップしてゆく。ここで注記するが、オーディオ信号の聴覚に適応した品質評価は時間領域の中で作動し、オーディオ基準信号１２およびオーディオテスト信号１４の時間離散的入力信号は、フィルタバンク内のデジタルフィルタによって順を追って処理されている。そのため、検出計算手段５２に対する入力信号もまた、時間に関して連続的なデータストリームであることが明らかである。検出計算手段５２の出力信号もまた、時間に関して連続的なデータストリームであり、このデータストリームは時間の各瞬間または各時間スロットに、それぞれ対応するバンドパスフィルタ４８の各周波数領域の検出確率を表している。特定の検出計算手段５２が特定の時間スロット内において低い検出確率を示す場合には、オーディオ基準信号１２から符号化および復号化を通して得られたオーディオテスト信号１４に、特定の周波数領域および特定の瞬間において符号化エラーが発生したと評価されるが、そのエラーは恐らく人間の脳では感知されないと評価される。これとは反対に、検出確率が高い場合には、そのオーディオテスト信号が特定の時間スロットおよび特定の周波数領域において聞き取ることか可能な欠陥を持っているということであるから、人間の脳が恐らくオーディオテスト信号の符号化あるいは復号化のエラーを感知するであろうと評価される。検出計算手段５２の出力信号は、選択的に、全体検出手段(overall detection means）５４に送られてもよいし、あるいは複数のグループ検出手段(group de-t ection means）５６に送られてもよい。上記全体検出手段５４は、特定の国際的に使用されるテスト信号に関し、コントラスト（明暗比）によって図１１に示す全体的な検出確率を表す。図１１の上側の図表は、縦座標でバルク単位の周波数を示し、横座標でｍｓ単位の時間を示す。下側の図表は、上側の図表における陰の濃度がそれぞれ何パーセント程度の検出確率を表現しているのかを示している。上側の図表中で白い部分は、１００％の確率で人間の脳によって確認することができるような符号化および復号化のエラーを表す。使用された基準信号は当業者には知られたものであり、ＳＱＡＭ（＝音声品質評価材料）のＣＤのトラック１０に配置されており、ＳＱＡＭ，トラック１０と名付けられている。ここからは、意図的に符号化または復号化のエラーをそれぞれ含んだオーディオ信号が得られる。すなわち、このオーディオ信号は、２回アクセントを置いたａ（ラの音）をチェロ(violoncello)演奏の上に流し、それを意図的に誤って符号化および復号化したものである。この信号の長さは２．７秒であるが、図１１および図１２の中では、この典型例信号の最初から１．２秒までの部分だけをグラフで示している。グループ検出手段５６は、以下のように作動する。検出確率ｐ_i.tが伝達されると、グループ検出手段５６はまず時間スロットｔ当たりの検出確率ｐ_i.tの余確率(counter-probability)ｐｇ_i.t＝１−ｐ_i.tを形成する。余確率ｐｇは、時間スロットｔの中で妨害音が検出されない場合を表す尺度である。図８の中に積記号(product symbol)で示されるように、複数のバンドパスフィルタのレベル差の余確率が互いに掛け算された場合、この掛け算の積すなわち個々の余確率の積に対する余確率は、図８に示されるように、検出計算手段５２の出力信号が全て全体検出手段５４に伝達された時の時間スロットの全体的な検出確率を提供する。この検出確率が時間において平均化された時、平均全体検出確率が得られる。しかし、オーディオテスト信号の品質に関するより正確な情報は、時間スロット内の何パーセントの中で全体検出確率が１０％，２０％，..．，９０％よりも大きいかを示す棒グラフによって与えられる。前述のように、図１１は検出計算手段の出力信号が直接的に図表で表現された時の部分的検出確率を示す。明確に分かることであるが、約５バルク（約５３０Ｈｚ）以下でかつ２バルク（２００Ｈｚ）以上の低周波数領域において、約１００ｍｓから１，１００ｍｓまで時間領域の中で、オーディオテスト信号の符号化および復号化のエラーがそれぞれ非常に高い確率で人間の脳によって検出されるであろう。さらに、２２バルクにおいても、小さな妨害信号を見いだすことができる。検出計算手段５２の出力によって構成される部分的検出確率の代わりに、グループ検出手段５６によって計算される周波数グループ検出確率が選択された場合には、上記図表の中に妨害音がより明確に現れる。上記グループ検出確率は、ある周波数グループを含む領域の中のあるフィルタｋの周囲に、ある妨害音が知覚できた場合の影響を計る基準を構成する。本発明の望ましい実施例においては、１０個ずつの互いに隣接した部分検出確率が連結されている。１０個の隣接したバンドパスフィルタは、各個が隣と０．１バルクずつの間隔を持っているので、連結された１０個の隣接したバンドパスフィルタのグループは、１バルクの周波数領域を持つことになる。隣接する検出確率のグルーピングは、結果として生じる周波数領域が聴覚心理周波数グループとほぼ一致するように選択するのが良い。これにより、人間の耳の周波数グループ形成をシュミレートできるようになるという利点が生まれ、その結果、妨害音のかなり主観的な音の印象が図表で表現できるようになった。図１２を図１１と比較して推測できることは、検出確率をグループ状に連結させることによって、図１１の周波数よりも高い周波数においても、オーディオテスト信号の符号化および復号化のエラーをそれぞれ聞き取ることができようになるということである。そのため、図１２に示されたグループ検出は、図１１に示された部分的検出よりも、オーディオ信号のより現実的な品質評価を可能にする。なぜなら、グループ検出は人間の耳内における周波数グループ形成のシュミレーションを用いるからである。隣接するフィルタ出力値の差異（この差異は周波数グループ以下であるように選択されているが）は、このように連帯的に評価され、対応する周波数領域内の主観的な妨害音を計る基準を提供する。別の方法として、周波数軸を３つのセクション（２００Ｈｚ未満，２００Ｈｚ以上かつ６，５００Ｈｚ以下，６，５００Ｈｚを越える範囲の３セクション）に分割することもできる。オーディオ基準信号およびオーディオテスト信号のレベルもまた、それぞれ３つのセクション（静寂，２０ｄＢ以下の低レベル，２０ｄＢを越える高レベル）に分割することができる。その結果として、９個の異なるタイプのセクションが生まれ、これらにフィルタサンプリング値が属してもよい。時間セクションであって、その中では両方の入力信号の全てのフィルタ出力値が静寂タイプに属するセクションは、さらに詳細な考察を必要としない。残りの６個のタイプのセクションから、前述のように入力信号の間の差異の検出確率に関する基準がそれぞれの時間スロットに対して決定される。検出確率の決定に加えて、いわゆる妨害音の大きさを定義することも可能である。この妨害音の大きさもまた検出計算手段５２で計算されるレベル差と関連性があり、かつ欠陥が妨害音となる強度を示すものである。その後、妨害音の大きさおよび検出確率の別々の平均値が、６個のタイプのセクションのそれぞれについて計算される。さらに、１０ｍｓの時間内における短時間の平均値が計算され、１つの完全なオーディオ信号の短時間平均値の中から最悪の３０個の短時間平均値が記憶される。次に、これら３０個の最悪の場合の値の平均値と全体平均値とが一緒になって音の印象を作り上げる。この点で注意すべきは、妨害音の分散が非常に不均衡な時には、最悪の場合の値が有意義になるということである。その反対に、小さいけれど聞き取れる妨害音がしばしば含まれる時には、全体平均値が有意義になる。全体平均値かまたは最悪の場合の値かのどちらかをオーディオテスト信号の評価に使用すべきかの判断は、これら２つの評価値の極値結合(extreme-value l inkage）を介して実行される。これまで説明してきたオーディオ信号の聴覚に適応した品質評価は、モノラルまたは単一オーディオ信号について述べてきた。しかし、本発明にかかるオーディオ信号の聴覚に適応した品質評価では、フィルタバンク１６，２０の間の個々の非線形な前処理と、検出計算手段５２内での検出とによって、バイノーラル(b inaural)またはステレオのオーディオテスト信号の品質評価も可能である。当業者には知られているように、ステレオオーディオ信号は右側チャネルおよび左側チャネルを一つずつ備えている。オーディオテスト信号およびオーディオ基準信号の左側および右側チャネルは、周波数選択方式で過渡現象(transients)を強調しかつ不動信号(stationary signals)を減少させる非線形要素によって、それぞれ別々にフィルタリングされる。この操作の出力信号は、以下にそれぞれ修正されたオーディオテスト信号と修正されたオーディオ基準信号と呼ばれるものである。検出計算手段５２内での検出は、ここでは前述のように１回だけ実行されるのではなく、４回実行され、連続的な入力信号が検出計算手段５２に対して次のように交互に与えられる。すなわち、第１検出，左側チャネル（Ｄ１Ｌ）：オーディオ基準信号の左側チャネルとオーディオテスト信号の左側チャネルの検出；第１検出，右側チャネル（Ｄ１Ｒ）：オーディオ基準信号の右側チャネルとオーディオテスト信号の右側チャネルの検出；第２検出，左側チャネル（Ｄ２Ｌ）：修正されたオーディオ基準信号の左側チャネルと修正されたオーディオテスト信号の左側チャネルの検出；第２検出，右側チャネル（Ｄ２Ｒ）：修正されたオーディオ基準信号の右側チャネルと修正されたオーディオテスト信号の右側チャネルの検出；の順番で実行される。検出Ｄ１ＬとＤ１Ｒおよび検出Ｄ２ＬとＤ２Ｒのそれぞれから、最悪の場合の値のみが個々に決定され、その後、このように作り上げられた値は、そのステレオオーディオテスト信号を品質評価するために、加重された平均値を介して結合される。

【手続補正書】特許法第１８４条の８第１項【提出日】１９９８年１１月９日（１９９８．１１．９）【補正内容】 just a guess ? In 101nd AES-Convention，Los Angeles,1996,Preprint参照）。ドイツ特許４４３７２８７Ｃ２は、ステレオオーディオ信号の保全を測定する方法と、共通して符号化されたステレオオーディオ信号を認識する方法とを開示している。２つのステレオチャネルを持つテストされるべき信号が、基準信号の符号化およびその後の復号化を通して形成される。テストされる信号および基準信号の両方は、周波数領域に変換される。基準信号の各部分的帯域およびテストされる信号の各部分的帯域に対し、基準信号およびテストされる信号の信号特性が作られる。同一の各部分的帯域に属する信号特性は、相互に比較される。この比較から、ステレオオーディオ信号特性の保全、あるいは使用された符号化技術の中のステレオサウンド印象に対する妨害信号に関して結論が出される。人間の耳の伝達特性による基準信号およびテスト信号に対する主観的な影響は、この文献では考慮されていない。ドイツ特許４３４５１７１は、少なくとも２つの信号を符号化するために選択される符号化タイプを決定する方法を開示している。２つのステレオチャネルを持つ信号は、強度ステレオ符号化(intensity stereo coding)によって符号化され、再度復号化されてオリジナルステレオ信号と比較される。強度ステレオ符号化は、左右のチャネルが相互に近似している時に、ステレオ信号特有のオーディオ復号化のために使用されるものである。符号化／復号化されたステレオ信号とオリジナルステレオ信号は、異時間分解(unlike time resolution)および周波数分解(frequency resolution)を用いた変換方法によって、時間領域（time domai n)から周波数領域(frequency domain)へと変換される。この変換方法は、ハイブリッド／ポリフェイズ(hybrid/polyphase)フィルタバンクを備え、これを通して例えばＦＦＴ（高速フーリエ変換）またはＭＤＣＴ（変形離散コサイン変換）によって類似したスペクトルラインが発生する。所定の限界周波数まで増大するスケール・ファクタ帯域幅を選択することにより、周波数グループ幅およびそれに関連した人間の聴覚の時間分解(time resolution)がシュミレーションされる。その後、それぞれの周波数グループ幅の中に、オリジナルステレオ信号と符号化／復号化されたステレオ信号との両方を自乗(squaring)および加算(summa tion)するすることで短時間エネルギーが形成される。このようにして得られた短時間エネルギー値は、聴覚心理リスニングしきい値を使用して評価される。その目的は、強度ステレオ符号化が有効か否かを評価する中で、聴覚心理マスキング効果を考察する上で、可聴短時間エネルギー値だけをさらに考慮するためである。この周波数グループ幅の短時間エネルギー値の評価は、人間の内耳の非線形性を考慮して、人間の内耳をモデル化することでさらに発展させることができる。本発明の目的は、オーディオ信号の聴覚に適応した品質評価を実行する方法および装置を提供し、主観的な影響からの高い独立性を得ることである。この方法および装置は、時間に関する高い分解能により、人間の耳の内部における事象をエンハンストーモデル化(enhanced modeling)することを達成するものである。この目的は、請求項１に記載の方法と請求項１８に記載の装置とにより達成される。本発明は、基準信号とテスト信号とに対する全ての非線形な聴覚的影響を同様にシュミレートし、かつテスト信号の品質評価のための比較を、まるで耳の奥すなわち（内耳の）鍋牛(cochlea)から聴神経への伝達時のような環境で実行することを実現化することを基礎とする。オーディオ信号の聴覚に適応した品質評価とは、このように鍋牛の領域内での比較を用いる。テスト信号とオーディオ基準信号とによる耳内でのそれぞれの励振(excitation)は、このように比較される。請求の範囲１．オーディオ基準信号（１２）から符号化および復号化を通して得られたオーディオテスト信号（１４）の聴覚に適応した品質評価を実行する方法であって、周波数が重複しかつスペクトル領域を定義している複数のフィルタ（４８）からなる第１フィルタバンク（２０）によって、オーディオテスト信号（１４）をそのスペクトル成分に従って複数の部分的オーディオテスト信号（２２）に分解するステップであって、上記フィルタ（４８）は、耳に供給されたオーディオ信号の音圧レベルに依存する励振カーブであって、かつそれぞれのフィルタ中心周波数（ｆ_m）における人間の耳の励振カーブに基づいて、個々に決定された異なるフィルタ関数を持つように構成されたステップと、第１フィルタバンク（２０）と同様の構成を持つ第２フィルタバンク（１６）によって、オーディオ基準信号（１２）をそのスペクトル成分に従って複数の部分的オーディオ基準信号（１８）に分解するステップと、同一のスペクトル領域に属する部分的オーディオテスト信号（２２）と部分的オーディオ基準信号（１８）との間のレベル差をスペクトル領域によって検出するステップと、それぞれのレベル差に基づき、あるスペクトル領域の中のオーディオテスト信号（１４）の符号化エラーが検出される検出確率を、スペクトル領域によって決定するステップであって、上記検出確率はある部分的オーディオ基準信号と部分的オーディオテスト信号との間のレベル差が人間の脳によって感知される確率をシュミレートするものであるステップと、を備えた品質評価を実行する方法。２．請求項１に記載の方法であって、上記励振カーブは、人間の耳の外耳および中耳の伝達関数と内部雑音とを考慮に入れたカーブであることを特徴とする品質評価を実行する方法。３．請求項１または２に記載の方法であって、周波数が高くなるに従い減少する人間の耳の周波数分解能への近似値を提供するために、第１および第２フィルタバンク（１６，２０）のフィルタ（４８）の励振カーブは、そのフィルタの中心周波数に従って決定されることを特徴とする品質評価を実行する方法。４．請求項１乃至３のいずれかに記載の方法であって、低い音圧レベルよりも高い音圧レベルにおいて、より平坦なフィルタ端とより低い静寂時のしきい値を持つように、第１および第２フィルタバンク（１６，２０）のフィルタ（４８）の励振カーブは、オーディオテスト信号（１４）およびオーディオ基準信号（１２）のそれぞれの音圧レベルに従って決定されることを特徴とする品質評価を実行する方法。５．請求項１乃至３のいずれかに記載の方法であって、第１および第２フィルタバンク（１６，２０）のフィルタ（４８）の上記励振カーブは、オーディオテスト信号（１４）およびオーディオ基準信号（１２）のそれぞれの音圧レベルに従って決定され、その結果、各フィルタ（４８）につきそれぞれ一つのフィルタ関数が、一つの音圧レベルの範囲において起こることが可能でかつある特定の音圧レベルに対応している全てのフィルタ関数の最小減衰値から形成されることを特徴とする品質評価を実行する方法。６．請求項１乃至５のいずれかに記載の方法であって、スペクトル領域によってレベル差を検出するステップの前に、スペクトル領域によってオーディオテスト信号（１４）およびオーディオ基準信号（１２）の時間マスキングをモデル化するステップを備えることを特徴とする品質評価を実行する方法。７．請求項６に記載の方法であって、上記スペクトル領域によって時間マスキングをモデル化するステップは、前マスキングを考慮するためにオーディオ基準信号（１２）またはオーディオテスト信号（１４）のスペクトル領域による積分を含み、後マスキングを考慮するためにオーディオ基準信号（１２）またはオーディオテスト信号（１４）のスペクトル領域による指数関数的な減衰を含むことを特徴とする品質評価を実行する方法。８．請求項１乃至７のいずれかに記載の方法であって、第１および第２フィルタバンク（１６，２０）のフィルタ（４８）は互いに異なるサンプリンクルートを持ち、このサンプリングレートは所定のフィルタ減衰量を持つあるフィルタ（４８）の中心周波数（ｆ_m）より高い周波数に位置しているフィルタ端の交点によって決定されるものであることを特徴とする品質評価を実行する方法。９．請求項８に記載の方法であって、上記分解ステップは、隣接するフィルタ（４８）を同一のサンプリングレートを持つサブフィルタバンク（４２ａ〜４２ｆ）の形式にグルーピングするステップであって、上記サンプリングレートは、オーディオテスト信号（１４）およびオーディオ基準信号（１２）が離散化させられた元のサンプリングレートと２の累乗との商により決定されるステップを含むことを特徴とする品質評価を実行する方法。１０．請求項１乃至９のいずれかに記載の方法であって、スペクトル領域によってレベル差を検出するステップの前に、オーディオ基準信号（１２）とオーディオテスト信号（１４）との間の遅延が決定されて補正されることを特徴とする品質評価を実行する方法。１１．請求項１乃至１０のいずれかに記載の方法であって、上記スペクトル領域によって検出確率を決定するステップは、特定のしきい値レベル差に対しては０．５の検出確率を割り当て、上記特定のしきい値レベル差よりも小さいレベル差に対しては０．５よりも小さな検出確率を割り当て、上記特定のしきい値レベル差よりも大きいレベル差に対しては０．５よりも大きな検出確率を割り当てることを特徴とする品質評価を実行する方法。１２．請求項１乃至１１のいずれかに記載の方法であって、一つの聴覚心理周波数グループよりも小さいかまたは同等の一つのスペクトル範囲の中の隣接するスペクトル領域の検出確率は連体的に評価され、その結果、オーディオテスト信号（１４）の符号化エラーの主観的な知覚を得ることを特徴とする品質評価を実行する方法。１３．請求項１乃至１２のいずれかに記載の方法であって、時間に関して連続的な複数の検出確率が一つの時間スロットを形成するために結合され、かつその時間に関して連続的な複数の検出確率が一つの時間スロットに関する全体的な検出確率を得るために連結されることを特徴とする品質評価を実行する方法。１４．請求項１乃至１３のいずれかに記載の方法であって、一つのスペクトル領域における検出確率の短時間平均値が作られ、かつ一つのオーディオテスト信号の複数の短時間平均値が記憶され、全ての短時間平均値の全体平均値と記憶された短時間平均値とがオーディオテスト信号（１４）のそれぞれのスペクトル領域の全体的な音印象を生み出すことを特徴とする品質評価を実行する方法。１５．請求項１乃至１４のいずれかに記載の方法であって、上記オーディオテスト信号およびオーディオ基準信号は、左側チャネルおよび右側チャネルを備えたステレオ信号であって、オーディオテスト信号を分解するステップとオーディオ基準信号を分解するステップとは、過渡現象を強調しかつ不動信号を減少させる非線形要素によって、上記オーディオテスト信号および上記オーディオ基準信号の左側チャネルおよび右側チャネルを別々に分解し、その結果、左側チャネルおよび右側チャネルを備えた修正されたオーディオテスト信号と、左側チャネルおよび右側チャネルを備えた修正されたオーディオ基準信号とを生み出し、スペクトル領域によるレベル差の検出は、同一スペクトル領域に属する部分的信号の間のレベル差を検出することを含み、このレベル差の検出は、左側チャネルの部分的オーディオテスト信号と左側チャネルの部分的オーディオ基準信号との間の検出と、右側チャネルの部分的オーディオテスト信号と右側チャネルの部分的オーディオ基準信号との間の検出と、左側チャネルの修正された部分的オーディオテスト信号と左側チャネルの修正された部分的オーディオ基準信号との間の検出と、右側チャネルの修正された部分的オーディオテスト信号と右側チャネルの修正された部分的オーディオ基準信号との間の検出と、を含むことを特徴とする品質評価を実行する方法。１６．請求項１５に記載の方法であって、左側チャネルおよび右側チャネルに対する信号のレベル差から、最大レベル差がスペクトル領域によって決定され、左側チャネルおよび右側チャネルに対する修正された信号のレベル差から、最大レベル差がスペクトル領域によって決定され、オーディオテスト信号に関する最大レベル差と修正されたオーディオテスト信号に関する最大レベル差とが、上記ステレオオーディオテスト信号の符号化エラーを検出するために、加重された平均値を通して結合されることを特徴とする品質評価を実行する方法。１７．請求項１乃至１６のいずれかに記載の方法であって、第１および第２フィルタバンク（１６，２０）は単一のフィルタバンクによって構成され、かつオーディオテスト信号（１４）またはオーディオ基準信号（１２）の分解の過程において、上記部分的オーディオ基準信号および部分的オーディオテスト信号はそれぞれ一時的に記憶されることを特徴とする品質評価を実行する方法。１８．オーディオ基準信号（１２）から符号化および復号化を通して得られたオーディオテスト信号（１４）の聴覚に適応した品質評価を実行する装置であって、オーディオテスト信号（１４）をそのスペクトル成分に従って複数の部分的オーディオテスト信号（２２）へと分解するための複数のフィルタを含む第１フィルタバンク（１６）であって、上記フィルタは、周波数が重複しかつスペクトル領域を定義し、耳に供給されたオーディオ信号の音圧レベルに依存するそれぞれのフィルタの中心周波数における人間の耳の励振カーブに基づいて個々に決定された個別のフィルタ関数を持つように構成された第１フィルタバンク（１６）と、オーディオ基準信号（１２）をそのスペクトル成分に従って部分的オーディオ基準信号（１８）へと分解するための、第１フィルタバンク（１６）と同様の構成を持つ第２フィルタバンク（２０）と、同一のスペクトル領域に属する部分的オーディオテスト信号（２２）と部分的オーディオ基準信号（１８）との間のレベル差をスペクトルによって検出するための計算手段と、それぞれのレベル差を基にして、ある特定のスペクトル領域の中のオーディオテスト信号（１４）の符号化エラーを検出する検出確率をスペクトル領域によって決定するための割り当て手段（５２）であって、上記検出確率はある部分的オーディオ基準信号と部分的オーディオテスト信号との間のレベル差が人間の脳によって感知される確率をシュミレートするものである割り当て手段と、を備えたことを特徴とする品質評価を実行する装置。１９．請求項１８に記載の装置であって、オーディオテスト信号（１４）およびオーディオ基準信号（１２）の時間マスキングをスペクトル領域によってモデル化するためのモデル化手段（２４）をさらに備えたことを特徴とする品質評価を実行する装置。２０．請求項１９に記載の装置であって、上記モデル化手段（２４）は、前マスキングを考慮する目的で、スペクトル領域によって部分的オーディオ基準信号または部分的オーディオテスト信号を積分する積分手段を含むとともに、後マスキングを考慮する目的で、スペクトル領域によって部分的オーディオ基準信号または部分的オーディオテスト信号を指数関数的に減衰させる減衰手段を含むことを特徴とする品質評価を実行する装置。２１．請求項１８乃至２０のいづれかに記載の装置であって、上記オーディオテスト信号（１４）の符号化エラーを主観的に知覚するために、隣接するスペクトル領域を共通して評価するための複数のグループ評価手段をさらに備え、上記隣接しかつ共通して評価された複数のスペクトル領域は、共通して評価されたスペクトル領域によって形成された帯域幅が一つの聴覚心理周波数グループよりも小さいかまたは同等になるように選択されたものであることを特徴とする品質評価を実行する装置。２２．請求項１８乃至２１のいづれかに記載の装置であって、上記オーディオテスト信号（１４）の符号化エラーを全体的に表現するために、全てのスペクトル領域を共通して評価するための全体評価手段（５４）をさらに備えたことを特徴とする品質評価を実行する装置。【手続補正書】【提出日】１９９９年５月１４日（１９９９．５．１４）【補正内容】 (1)明細書第２２頁末行において、「５６に送られてもよい。」の後に、「グループ検出手段５６の出力信号は、積算手段５８によって掛け算されるか、あるいは積算手段５８を経ずに直接出力してもよい。」を挿入する。 (2)添付図面中、図６，図８を別紙のとおり補正する。【図６】【図８】

───────────────────────────────────────────────────── 【要約の続き】スト信号（２２）と部分的オーディオ基準信号（１８）との間で形成される。オーディオテスト信号（１４）の品質を評価するために、検出確率がそれぞれのレベル差を基にしてスペクトル領域により決定され、その関連するスペクトル領域内のオーディオテスト信号（１４）の符号化エラーを検出する。

Claims

【特許請求の範囲】１．オーディオ基準信号（１２）から符号化および復号化を通して得られたオーディオテスト信号（１４）の品質を評価する方法であって、周波数が重複しかつスペクトル領域を定義している複数のフィルタ（４８）からなる第１フィルタバンク（２０）によって、オーディオテスト信号（１４）をそのスペクトル成分に従って複数の部分的オーディオテスト信号（２２）に分解するステップであって、上記フィルタ（４８）は、それぞれのフィルタ中心周波数（ｆ_m）における人間の耳の励振カーブに基づいて個々に決定された異なるフィルタ関数を持つように構成されたステップと、第１フィルタバンク（２０）と同様の構成を持つ第２フィルタバンク（１６）によって、オーディオ基準信号（１２）をそのスペクトル成分に従って複数の部分的オーディオ基準信号（１８）に分解するステップと、同一のスペクトル領域に属する部分的オーディオテスト信号（２２）と部分的オーディオ基準信号（１８）との間のレベル差をスペクトル領域によって検出するステップと、それぞれのレベル差に基づき、あるスペクトル領域の中のオーディオテスト信号（１４）の符号化エラーが検出される検出確率を、スペクトル領域によって決定するステップと、を備えた品質評価を実行する方法。２．請求項１に記載の方法であって、上記励振カーブは、人間の耳の外耳および中耳の伝達関数と内部雑音とを考慮に入れたカーブであることを特徴とする品質評価を実行する方法。３．請求項１または２に記載の方法であって、周波数が高くなるに従い減少する人間の耳の周波数分解能への近似値を提供するために、第１および第２フィルタバンク（１６，２０）のフィルタ（４８）の励振カーブは、そのフィルタの中心周波数に従って決定されることを特徴とする品質評価を実行する方法。４．請求項１乃至３のいずれかに記載の方法であって、低い音圧レベルよりも高い音圧レベルにおいて、より平坦なフィルタ端とより低い静寂時のしきい値を持つように、第１および第２フィルタバンク（１６，２０）のフィルタ（４８）の励振カーブは、オーディオテスト信号（１４）およびオーディオ基準信号（１２）のそれぞれの音圧レベルに従って決定されることを特徴とする品質評価を実行する方法。５．請求項１乃至３のいずれかに記載の方法であって、第１および第２フィルタバンク（１６，２０）のフィルタ（４８）の上記励振カーブは、オーディオテスト信号（１４）およびオーディオ基準信号（１２）のそれぞれの音圧レベルに従って決定され、その結果、各フィルタ（４８）につきそれぞれ一つのフィルタ関数が、一つの音圧レベルの範囲において起こることが可能でかつある特定の音圧レベルに対応している全てのフィルタ関数の最小減衰値から形成されることを特徴とする品質評価を実行する方法。６．請求項１乃至５のいずれかに記載の方法であって、スペクトル領域によってレベル差を検出するステップの前に、スペクトル領域によってオーディオテスト信号（１４）およびオーディオ基準信号（１２）の時間マスキングをモデル化するステップを備えることを特徴とする品質評価を実行する方法。７．請求項６に記載の方法であって、上記スペクトル領域によって時間マスキングをモデル化するステップは、前マスキングを考慮するためにオーディオ基準信号（１２）またはオーディオテスト信号（１４）のスペクトル領域による積分を含み、後マスキングを考慮するためにオーディオ基準信号（１２）またはオーディオテスト信号（１４）のスペクトル領域による指数関数的な減衰を含むことを特徴とする品質評価を実行する方法。８．請求項１乃至７のいずれかに記載の方法であって、第１および第２フィルタバンク（１６，２０）のフィルタ（４８）は互いに異なるサンプリングレートを持ち、このサンプリンクルートは所定のフィルタ減衰量を持つあるフィルタ（４８）の中心周波数（ｆ_m）より高い周波数に位置しているフィルタ端の交点によって決定されるものであることを特徴とする品質評価を実行する方法。９．請求項８に記載の方法であって、オーディオテスト信号（１４）およびオーディオ基準信号（１２）はサンプリングレートによって離散化させられ、個別のサンプリングレートが元のサンプリングレートと２の累乗との商によって決定され、その結果、複数の隣接するフィルタ（４８）がサブフィルタバンク（４２ａ〜４２ｆ）を形成するようにグループ化されることを特徴とする品質評価を実行する方法。１０．請求項１乃至９のいずれかに記載の方法であって、スペクトル領域によってレベル差を検出するステップの前に、オーディオ基準信号（１２）とオーディオテスト信号（１４）との間の遅延が決定されて補正されることを特徴とする品質評価を実行する方法。１１．請求項１乃至１０のいずれかに記載の方法であって、所定のしきいレベル差における検出確率は０．５であり、上記レベル差より低い領域の検出確率は０．５より低く、上記レベル差より高い領域の検出確率は０．５より大きいことを特徴とする品質評価を実行する方法。１２．請求項１乃至１１のいずれかに記載の方法であって、一つの聴覚心理周波数グループよりも小さいかまたは同等の一つのスペクトル範囲の中の隣接するスペクトル領域の検出確率は連体的に評価され、その結果、オーディオテスト信号（１４）の符号化エラーの主観的な知覚を得ることを特徴とする品質評価を実行する方法。１３．請求項１乃至１２のいずれかに記載の方法であって、時間に関して連続的な複数の検出確率か一つの時間スロットを形成するために結合され、かつその時間に関して連続的な複数の検出確率が一つの時間スロットに関する全体的な検出確率を得るために連結されることを特徴とする品質評価を実行する方法。１４．請求項１乃至１３のいずれかに記載の方法であって、一つのスペクトル領域における検出確率の短時間平均値が作られ、かつ一つのオーディオテスト信号の複数の短時間平均値が記憶され、全ての短時間平均値の全体平均値と記憶された短時間平均値とがオーディオテスト信号（１４）のそれぞれのスペクトル領域の全体的な音印象を生み出すことを特徴とする品質評価を実行する方法。１５．請求項１乃至１４のいずれかに記載の方法であって、上記オーディオテスト信号およびオーディオ基準信号は、左側チャネルおよび右側チャネルを備えたステレオ信号であって、オーディオテスト信号を分解するステップとオーディオ基準信号を分解するステップとは、過渡現象を強調しかつ不動信号を減少させる非線形要素によって、上記オーディオテスト信号および上記オーディオ基準信号の左側チャネルおよび右側チャネルを別々に分解し、その結果、左側チャネルおよび右側チャネルを備えた修正されたオーディオテスト信号と、左側チャネルおよび右側チャネルを備えた修正されたオーディオ基準信号とを生み出し、スペクトル領域によるレベル差の検出は、同一スペクトル領域に属する部分的信号の間のレベル差を検出することを含み、このレベル差の検出は、左側チャネルの部分的オーディオテスト信号と左側チャネルの部分的オーディオ基準信号との間の検出と、右側チャネルの部分的オーディオテスト信号と右側チャネルの部分的オーディオ基準信号との間の検出と、左側チャネルの修正された部分的オーディオテスト信号と左側チャネルの修正された部分的オーディオ基準信号との間の検出と、右側チャネルの修正された部分的オーディオテスト信号と右側チャネルの修正された部分的オーディオ基準信号との間の検出と、を含むことを特徴とする品質評価を実行する方法。１６．請求項１５に記載の方法であって、左側チャネルおよび右側チャネルに対する信号のレベル差から、最悪の場合の値がスペクトル領域によって決定され、左側チャネルおよび右側チャネルに対する修正された信号のレベル差から、最悪の場合の値がスペクトル領域によって決定され、オーディオテスト信号に関する最悪の場合の値と修正されたオーディオテスト信号に関する最悪の場合の値とか、上記ステレオオーディオテスト信号の符号化エラーを検出するために、加重された平均値を通して結合されることを特徴とする品質評価を実行する方法。１７．請求項１乃至１６のいずれかに記載の方法であって、第１および第２フィルタバンク（１６，２０）は単一のフィルタバンクによって構成され、かつオーディオテスト信号（１４）またはオーディオ基準信号（１２）の分解の過程において、上記部分的オーディオ基準信号および部分的オーディオテスト信号はそれぞれ一時的に記憶されることを特徴とする品質評価を実行する方法。１８．オーディオ基準信号（１２）から符号化および復号化を通して得られたオーディオテスト信号（１４）の品質を評価する装置であって、オーディオテスト信号（１４）をそのスペクトル成分に従って部分的オーディオテスト信号（２２）へと分解するための複数のフィルタを含む第１フィルタバンク（１６）であって、上記フィルタは、周波数が重複しかつスペクトル領域を定義し、それぞれのフィルタの中心周波数における人間の耳の励振カーブに基づいて個々に決定された個別のフィルタ関数を持つように構成された第１フィルタバンク（１６）と、オーディオ基準信号（１２）をそのスペクトル成分に従って部分的オーディオ基準信号（１８）へと分解するための、第１フィルタバンク（１６）と同様の構成を持つ第２フィルタバンク（２０）と、同一のスペクトル領域に属する部分的オーディオテスト信号（２２）と部分的オーディオ基準信号（１８）との間のレベル差をスペクトルによって検出するための計算手段と、それぞれのレベル差を基にして、ある特定のスペクトル領域の中のオーディオテスト信号（１４）の符号化エラーを検出する検出確率をスペクトル領域によって決定するための割り当て手段（５２）と、を備えたことを特徴とする品質評価を実行する装置。１９．請求項１８に記載の装置であって、オーディオテスト信号（１４）およびオーディオ基準信号（１２）の時間マスキングをスペクトル領域によってモデル化するためのモデル化手段（２４）をさらに備えたことを特徴とする品質評価を実行する装置。２０．請求項１９に記載の装置であって、上記モデル化手段（２４）は、前マスキングを考慮する目的で、スペクトル領域によって部分的オーディオ基準信号または部分的オーディオテスト信号を積分する積分手段を含むとともに、後マスキングを考慮する目的で、スペクトル領域によって部分的オーディオ基準信号または部分的オーディオテスト信号を指数関数的に減衰させる減衰手段を含むことを特徴とする品質評価を実行する装置。２１．請求項１８乃至２０のいづれかに記載の装置であって、上記オーディオテスト信号（１４）の符号化エラーを主観的に知覚するために、隣接するスペクトル領域を共通して評価するための複数のグループ評価手段をさらに備え、上記隣接しかつ共通して評価された複数のスペクトル領域は、共通して評価されたスペクトル領域によって形成された帯域幅が一つの聴覚心理周波数グループよりも小さいかまたは同等になるように選択されたものであることを特徴とする品質評価を実行する装置。２２．請求項１８乃至２１のいづれかに記載の装置であって、上記オーディオテスト信号（１４）の符号化エラーを全体的に表現するために、全てのスペクトル領域を共通して評価するための全体評価手段（５４）をさらに備えたことを特徴とする品質評価を実行する装置。