JP5542206B2

JP5542206B2 - オーディオ・システムの知覚品質を判定する方法およびシステム

Info

Publication number: JP5542206B2
Application number: JP2012524212A
Authority: JP
Inventors: ビーレンズ，ジョン; ヴァン・ヴュグ，ヨルン
Original assignee: コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ; ネダーランゼ・オルガニサティ・フォーア・トゥーゲパスト−ナトゥールヴェテンシャッペリーク・オンデルゾエク・ティーエヌオー
Priority date: 2009-08-14
Filing date: 2010-08-09
Publication date: 2014-07-09
Anticipated expiration: 2030-08-09
Also published as: WO2011018430A1; KR101430321B1; JP2013501952A; US8818798B2; CN102576535A; EP2465113A1; DK2465113T3; ES2531556T3; EP2465113B1; CN102576535B; US20120143601A1; KR20120042989A

Description

【従来技術】
【０００１】
本発明は、オーディオ・システム、例えば、音声処理デバイスの出力信号の、基準信号に対する知覚品質を表す品質指標を判定する方法に関するものである。更に、本発明は、例えば、コンピュータ読み取り可能媒体上に格納されているコンピュータ実行可能コードを構成するコンピュータ・プログラム生産物に関するものである。このコンピュータ実行可能コードは、プロセッサによって実行されると、このような方法を行うように構成されている。最後に、本発明は、基準信号の役割を果たすオーディオ・システムの入力信号に対する、このオーディオ・システムの出力信号の知覚品質を表す品質指標を判定するシステムに関するものである。
【０００２】
オーディオ・デバイスの品質は、主観的または客観的のいずれかで判定することができる。主観的検査は、時間がかかり、費用もかかり、再生するのが難しい。したがって、客観的な方法でオーディオ・デバイスの出力信号、特に、音声信号の品質を測定する様々な方法が開発されている。このような方法では、音声信号処理システムから受信したときの出力信号の音声品質は、基準信号との比較によって判定される。
【０００３】
この目的のために現在広く用いられている方法の１つに、ＩＴＵＴ勧告Ｐ．８６２に記載されている方法がある。この方法は、「音声品質の知覚的評価（ＰＥＳＱ）：狭帯域電話ネットワークおよび音声コデックの端間音声品質評価のための客観的方法」と題する。ＩＴＵ−Ｔ勧告Ｐ．８６２では、音声信号処理システムからの出力信号品質は、歪んでいるのが通常であり、その品質を判定しようとする。出力信号および基準信号、例えば、音声信号処理システムの入力信号は、人間の聴覚系の心理−物理的知覚モデルにしたがって、表現信号にマッピングされる。これらの信号に基づいて、基準信号と比較して、出力信号の中にある歪みを表す異なる信号を判定する。出力信号の知覚品質を表す品質指標は、通常、主観的に知覚される音声品質と高い相関を示す指標として定義される。品質指標は、通常、被験者（人間）が品質スケール上で彼らの意見を表す主観的検査において判定される平均オピニオン評点（ＭＯＳ：Mean Opinion Score）として表現される。一般に、品質指標は、被検査デバイスの出力信号の内部表現の、被検査デバイスへの入力信号の内部表現との比較から得られる。内部表現は、外部の物理ドメインから内部の心理物理ドメインに信号を変換することによって計算することができる。ＩＴＵ−Ｔ勧告Ｐ．８６２では、心理物理的信号表現の計算に用いられるアルゴリズムの中核は、以下の主要な動作、即ち、固定レベルへのスケーリング(scaling)、時間整合、振幅−時間からパワー−時間−周波数ドメインへの変換、ならびにパワーおよび周波数スケールのワーピング(warping)で構成される。これらの動作から、ラウドネス−時間−ピッチの点における内部表現が得られ、これから差分関数を計算することができる。次いで、これらの差分関数を用いて、１つの品質指標を得る。このようにして、音声ファイル毎に、ＭＯＳスコアおよび品質指標スコアを得ることができる。これらのスコアは、その間に可能な限り最も高い相関を有するはずである。一例として、音声コデックの出力の内部表現を、この音声コデックの入力の内部表現と比較することによって、この音声コデックの品質を判定することができる。コデックによってコード化された音声ファイル毎に、品質指標は、そのエンコード／デコード音声ファイルについて主観的に判定されたＭＯＳと高い相関を有するべき数値を生成する。次いで、認識モデルに応じて差分信号を処理する。この場合、検査に基づく人間の聴覚についてある種の特性をモデル化して、出力信号の聴覚(auditive perception)の品質の尺度である品質信号を得る。
【０００４】
ＩＴＵ−Ｔ勧告Ｐ．８６２によって明確に示されているように、ＰＥＳＱは、変動する聴解レベルで用いられると、精度が低い予測しか得られないことが分かっている。ＰＥＳＱは、７９ｄＢＳＰＬ（音圧レベル）という標準的な聴解を想定しており、入力信号における最適でない信号レベルを補償する。したがって、最適な聴解レベルからの主観的効果の逸脱は考慮されていない。今日の電気通信システムでは、特にボイス・オーバーＩＰ（ＶＯＩＰ）や同様の技術を用いるシステムでは、最適でない聴解レベルは非常に頻繁に起こる。その結果、ＰＥＳＱでは、増々普及しつつあるこのような電気通信システムにおいて処理された音声信号の知覚に最適な予測が得られないことが多い。
【発明の概要】
【発明が解決しようとする課題】
【０００５】
客観的な測定によって判定される音声品質と、主観的検査において判定される音声品質との間における相関を高めることができる、オーディオ・システムの送信品質を判定する方法を有することが望まれる。
【課題を解決するための手段】
【０００６】
この目的のために、本発明の一実施形態は、オーディオ・システム、例えば、音声処理デバイスの出力信号の基準信号に対する知覚品質を表す品質指標を判定する方法に関する。基準および出力信号を処理して比較し、この処理は、基準信号および出力信号を、相互に対応する時間フレームに分割するステップを含む。この処理は、更に、基準信号の強度を固定強度レベルにスケーリングするステップと、基準信号時間フレーム特性を判定するために、スケーリングした基準信号内にある時間フレームに対して測定を行うステップと、基準信号の強度を、固定強度レベルから、出力信号に関係付けられた強度レベルにスケーリングするステップと、出力信号のラウドネスを、知覚的ラウドネス・ドメインにおける固定ラウドネス・レベルにスケーリングするステップであって、出力信号のラウドネス・スケーリングが基準信号時間フレーム特性を用いるステップと、基準信号のラウドネスを、出力信号に関係付けられた強度レベルに対応するラウドネス・レベルから、知覚的ラウドネス・ドメインにおけるスケーリングした出力信号のラウドネス・レベルに関係付けられたラウドネス・レベルにスケーリングするステップであって、基準信号のラウドネスのスケーリングが基準信号時間フレーム特性を用いるステップと、を備えている。
【０００７】
ある種の実施形態では、基準信号の強度を、固定強度レベルから、出力信号に関係付けられた強度レベルにスケーリングするステップは、基準信号のスケーリング率との乗算に基づく。このスケーリング率は、ある数の時間フレームに渡る平均基準信号強度レベルを判定し、平均基準信号強度レベルを判定するために用いた基準信号の時間フレームに対応する数の時間フレームにわたって、平均出力信号強度レベルを判定し、平均基準信号強度レベルおよび平均出力信号強度レベルに基づいて端数を判定することによって、暫定的スケーリング率を導き出し、暫定的スケーリング率が閾値よりも小さい場合、スケーリング率を暫定的スケーリング率に等しく定義し、それ以外の場合、暫定的スケーリング率を追加の暫定的スケーリング率依存値で増分した値に等しく定義することによって、スケーリング率を決定することによって定義する。
【０００８】
本発明の実施形態の中には、出力レベルの固定ラウドネス・レベルへのラウドネス・スケーリングの前に、本方法が、更に、基準信号において、ラウドネス・レベルが出力信号のラウドネス・レベルよりも高い部分について、基準信号のラウドネス・レベルを、出力信号のラウドネス・レベルにローカルにスケーリングするステップと、その後に、出力信号の内、ラウドネス・レベルが基準信号のラウドネス・レベルよりも高い部分について、出力信号のラウドネス・レベルを基準信号のラウドネス・レベルにローカルにスケーリングするステップと、を備えている場合もある。これらのローカル・スケーリング動作を分離することによって、時間クリッピングおよびパルスによるレベル変動に対して別々に手段を提供すること、および／または操作することが可能になる。
【０００９】
本発明の実施形態の中には、前述の処理が、更に、スケーリングした基準信号および出力信号を時間ドメインから時間−周波数ドメインに変換するステップと、基準信号から基準ピッチ・パワー密度関数を導き出し、出力信号から出力ピッチ・パワー密度関数を導き出すステップであって、強度レベル差がピッチ・パワー密度関数の強度レベル間の差に対応するステップと、ローカルにスケーリングした基準ピッチ・パワー密度関数を得るために、基準ピッチ・パワー密度関数をローカルにスケーリングするステップと、ローカルにスケーリングした基準ピッチ・パワー密度関数を、周波数に関して部分的に補償するステップと、基準ラウドネス密度関数および出力ラウドネス密度関数を導き出すステップであって、ラウドネス・レベル差がラウドネス密度関数のラウドネス・レベル間の差に対応するステップとを備え、ラウドネス密度関数が密度関数を表し、知覚品質に対し可変レベルの再生を定量化することを可能とする。更に別の実施形態では、本方法は、更に、基準ピッチ・パワー密度関数および出力ピッチ・パワー密度関数の内少なくとも１つに対して励起動作を実行するステップを備えている。このような励起動作によって、これらの信号に対して実行する変換動作の実行の結果、周波数成分のスミアリングの補償に対処することが可能になる。
【００１０】
前述の処理は、更に、ローカルにスケーリングした基準ピッチ・パワー密度関数を周波数に関して補償するステップ、およびローカルにスケーリングした基準ラウドネス密度関数を補償するステップの内少なくとも１つが、基準信号時間フレーム特性に基づいて、音声処理システムの線形周波数応答を推定するステップを含む。例えば、平均強度レベルがある種の閾値を超える時間フレームを単に用いるだけで、これらの動作の振る舞いを改善することができる。
【００１１】
本発明の実施形態の中には、知覚的ラウドネス・ドメインにおける出力信号のラウドネス・レベルに関係付けられたラウドネス・レベルへのスケーリングの前に、知覚的ラウドネス・ドメインにおける基準信号に対して、ノイズを所定のノイズ・レベルまで抑制するノイズ抑制動作が行われる場合もある。この所定のノイズ・レベルは、出力信号に対して理想的な表現の役割を果たす程に望ましい低ノイズ・レベルであると見なされるノイズに対応することができる。同様に又はそれに加えて、固定ラウドネス・レベルへのスケーリングの前に、知覚的ラウドネス・ドメインにおける出力信号に対して、外乱を表すノイズ・レベルまでノイズを抑制するために、ノイズ抑制アルゴリズムを実行する。出力信号のノイズ抑制によって、被検査デバイスが受ける外乱を表すノイズまでノイズを抑制することに対処することができる。
【００１２】
本発明の実施形態の中には、知覚的ラウドネス・ドメインにおける基準信号および出力信号には、比較の前に、グローバル・ノイズ抑制が行われる場合もある。尚、グローバル・スケーリングの後におけるこのような追加のノイズ抑制によって、客観的に測定された音声品質と、主観的聴解品質実験において得られた音声品質との間における相関が高められることが分かっている。
【００１３】
本発明の実施形態の中には、本発明が、例えば、コンピュータ読み取り可能媒体上に格納されているコンピュータ実行可能コードを備えているコンピュータ・プログラム生産物に関するものもある。コンピュータ実行可能コードをプロセッサによって実行すると、前述した方法の実施形態の内いずれか１つを実行するように構成されている。
【００１４】
最後に、本発明の実施形態の中には、本発明が、オーディオ・システム、例えば、音声処理デバイスの出力信号Ｙ（ｔ）の、基準信号の役割を果たすオーディオ・システムの入力信号Ｘ（ｔ）に対する、知覚品質を表す品質指標を判定するシステムに関するものもある。このシステムは、基準信号および出力信号を前処理する前処理デバイスと、基準信号を処理する第１処理デバイス、および基準信号および出力信号に対して、それぞれ、表現信号Ｒ（Ｘ）、Ｒ（Ｙ）を得るために、出力信号を処理する第２処理デバイスと、差分信号Ｄを得るように、基準信号および出力信号の表現信号を結合する減算デバイスと、音声処理システムの知覚品質の推定値を表す品質信号Ｑを得るために、差分信号を処理するモデリング・デバイスとを備えており、前処理デバイス、第１処理デバイス、および第２処理デバイスが、前述した方法の実施形態の内いずれか１つを実行する処理システムを形成する。
【図面の簡単な説明】
【００１５】
【図１】図１は、基準信号に対するオーディオ・システムの出力信号の知覚品質を表す品質指標を判定するシステムを含む総合的な設定を模式的に示す。
【図２】図２は、ＰＥＳＱにしたがって、基準信号に対するオーディオ・システムの出力信号の知覚品質を表す品質指標を判定する方法を模式的に示す。
【図３】図３は、本発明の一実施形態にしたがって、基準信号に対するオーディオ・システムの出力信号の知覚品質を表す品質指標を判定する方法を模式的に示す。
【図４】図４は、本発明の他の実施形態にしたがって、基準信号に対するオーディオ・システムの出力信号の知覚品質を表す品質指標を判定する方法を模式的に示す。
【発明を実施するための形態】
【００１６】
以下に、本発明のある種の実施形態について説明するが、これは一例として示すに過ぎないものである。
【００１７】
本説明全体において、「ローカル」および「グローバル」という用語は、信号に対して行われる動作に関して用いられるものとする。「ローカル」動作とは、時間信号の一部、例えば、１つのフレームに対して行われる動作を指す。「グローバル」動作とは、信号全体に対して行われる動作を指す。
【００１８】
本説明全体において、「出力」および「歪み」という用語は、音声処理デバイスのようなオーディオ・システムの出力から発する信号に関して用いることができる。本説明全体において、「基準」および「元の」という用語は、オーディオ・システムに対して入力として供給される信号に関して用いることができ、この信号は、更に、出力または歪み信号と比較すべき信号としても用いられる。
【００１９】
図１は、基準信号に対する、オーディオ・システム、例えば、音声処理デバイスの出力信号の知覚品質を表す品質指標を、判定システムを含む総合的な設定を模式的に示したものである。このような方法は、オーディオ・システムの送信品質の客観的尺度を得ることを意図する。この設定は、調査対象のオーディオ・システム１０、例えば、電気通信ネットワーク、あるいはネットワーク局または移動局におけるネットワーク・エレメントまたは音声処理デバイスを含む。また、この設定は、オーディオ・システムの送信品質を測定するシステム２０も含み、以後これを品質測定システム２０と呼ぶ。
【００２０】
品質測定システム２０は、２つの入力信号を受け取るように構成されている。第１の入力信号は、品質測定システム２０に直接供給され（即ち、オーディオ・システム１０を通じて供給されるのではない）、基準信号の役割を果たす音声信号Ｘ（ｔ）である。第２の入力信号は、音声信号Ｘ（ｔ）に対応する音声信号Ｙ（ｔ）であり、オーディオ・システム１０による影響を受ける。品質測定システム２０は、オーディオ・システム１０を通じて音声リンクの知覚品質の推定値を表す出力品質信号Ｑを供給する。
【００２１】
この実施形態では、品質測定システム２０は、前処理システム２０ａ、処理部２０ｂ、および信号結合部２０ｃを備えており、出力信号Ｑを得ることができるように、２つの入力信号Ｘ（ｔ）、Ｙ（ｔ）を処理する。
【００２２】
前処理部２０ａは、前処理信号Ｘ_ｐ（ｔ）およびＹ_ｐ（ｔ）を得るために、固定レベル・スケーリングや時間整合というような１つ以上の前処理動作を行うように構成されている。図１は１つの前処理デバイス３０だけを示すが、音声信号Ｘ（ｔ）および音声信号Ｙ（ｔ）毎に別々の前処理デバイスを有することもできる。
【００２３】
品質測定システム２０の処理部２０ｂは、人間の聴覚系の心理−物理的知覚モデルにしたがって、前処理信号を表現信号にマッピングするように構成されている。前処理信号Ｘ_ｐ（ｔ）は、第１処理デバイス４０ａにおいて処理されて表現信号Ｒ（Ｘ）が得られ、一方前処理信号Ｙ_ｐ（ｔ）は第２処理デバイス４０ｂにおいて処理されて表現信号Ｒ（Ｙ）が得られる。第１処理デバイス４０ａおよび第２処理デバイス４０ｂは、１つの信号処理デバイスの中に収容することもできる。
【００２４】
品質測定システム２０の信号結合部２０ｃは、表現信号Ｒ（Ｘ）、Ｒ（Ｙ）を結合して、差分計算デバイス５０を用いることによって差分信号Ｄを得るように構成されている。最後に、モデリング・デバイス６０は、品質信号Ｑを得るために人間のある種の特性がモデル化されているモデルにしたがって、差分信号Ｄを処理する。この人間の特性、例えば、認識特性は、多数の被験者によって実行された主観的聴解検査を通じて得ることができる。
【００２５】
前処理デバイス３０、第１処理デバイス４０ａ、および第２処理デバイス４０ｂは、以下で更に詳しく説明する本発明の実施形態を実施するために用いることができる処理システムを形成することができる。この処理システムまたはそのコンポーネントは、特定用途集積回路（ＡＳＩＣ）ようなハードウェア・プロセッサ、あるいはソフトウェアまたはハードウェアの形態でコンピュータ実行可能コードを実行するコンピュータ・デバイスの形態をなすことができる。コンピュータ・デバイスは、例えば、プロセッサおよびメモリを備えることができ、メモリは通信状態でプロセッサに結合されている。メモリの例には、リード・オンリ・メモリ（ＲＯＭ）、ランダム・アクセス・メモリ（ＲＡＭ）、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、およびフラッシュ・メモリが含まれるが、これらに限定されるのではない。
【００２６】
更に、コンピュータ・デバイスは、外部ユーザによる命令または通知の入力を可能にするユーザ・インターフェースも備えることができる。ユーザ・インターフェースの例には、マウス、キーボード、およびタッチ・スクリーンが含まれるが、これらに限定されるのではない。
【００２７】
コンピュータ・デバイスは、コンピュータ読み取り可能媒体、例えば、コンパクト・ディスク・リード・オンリ・メモリ（ＣＤＲＯＭ）、ディジタル・ビデオ・ディスク（ＤＶＤ）、またはあらゆる他のタイプの知られているコンピュータ読み取り可能データ担体上に格納されているコンピュータ実行可能コードをロードするように構成することができる。この目的のために、コンピュータ・デバイスは読み取りユニットを備えることができる。
【００２８】
コンピュータ読み取り可能媒体上に格納されているコンピュータ実行可能コードは、コードをコンピュータ・デバイスのメモリにロードした後、以下で説明する本発明の実施形態を実施するように構成することができる。
【００２９】
あるいは又はそれに加えて、本発明のこのような実施形態は、コンピュータ・デバイス上で実行すると、このような方法を実行するコンピュータ実行可能コードを備えているコンピュータ・プログラム生産物の形態をなすこともできる。次いで、この方法は、コンピュータ実行可能コードをコンピュータ・デバイスのメモリにロードした後に、コンピュータ・デバイスのプロセッサによって実行することができる。
【００３０】
つまり、客観的知覚測定方法は、音声コデック、電話リンク、および移動体ハンドセットのようなオーディオ・システムの主観的に知覚された品質を予測することを目標として、コンピュータ・プログラムにおいて被験者の音響知覚を模擬する。被検査デバイスの入力および出力の物理信号は、人間の頭脳内部における内部表現に可能な限り密接に一致する心理物理的表現にマッピングされる。被検査デバイスの品質は、内部表現における差に基づいて判断される。現在入手可能で既知の客観的知覚測定方法の内最良な方法は、ＰＥＳＱ（音声品質の知覚評価）である。
【００３１】
図２は、ＩＴＵ−Ｔ勧告Ｐ．８６２において策定されているＰＥＳＱにしたがって、基準信号に対するオーディオ・システムの出力信号の知覚品質を表す品質指標を判定する方法を模式的に示す。以後、これをＰＥＳＱと呼ぶ。ＰＥＳＱは、図１に模式的に示したような設定において用いることができる。ＰＥＳＱでは、基準信号Ｘ（ｔ）を出力信号Ｙ（ｔ）と比較する。出力信号Ｙ（ｔ）は、オーディオ・システム、例えば、通信システムのような音声処理システムにＸ（ｔ）を通した結果である。ＰＥＳＱの出力品質信号は、ＰＥＳＱスコアとも呼ばれており、主観的聴解検査において被験者によってＹ（ｔ）に与えられる知覚品質の予測である。ＰＥＳＱスコアは、いわゆる平均オピニオン評点（ＭＯＳ）の形態をなす。この目的のために、ＰＥＳＱ出力をＭＯＳ状スケール上、即ち、−０．５から４．５までの範囲における１つの数値にマッピングするが、殆どの場合、出力範囲は１．０と４．５との間となる。これは、絶対分類等級（ＡＣＲ：absolute Category Rating）聴解品質実験において見られるＭＯＳ値の通常範囲である。
【００３２】
ＰＥＳＱにおける前処理は、それぞれ、信号Ｘ_ｓ（ｔ）、Ｙ_ｓ（ｔ）を得るための双方の信号Ｘ（ｔ）、Ｙ（ｔ）のレベル整合、およびそれぞれ信号Ｘ_ＩＲＳＳ（ｔ）、Ｙ_ＩＲＳＳ（ｔ）を得るための中間基準システム（ＩＲＳ：Intermediate Reference System）フィルタリングを含む。レベル整合は、強度を固定レベル、ＰＥＳＱでは７９ｄｂＳＰＬにスケーリングすることを伴う。ＩＲＳフィルタリングは、送信品質の測定方法が、電気通信システム・エレメント、例えば、移動体電話機等のフィルタリングに対して比較的不感応であることを確保するために行われる。最後に、基準信号Ｘ_ＩＲＳＳ（ｔ）とＹ_ＩＲＳＳ（ｔ）との間における時間遅延を判定して、時間ずれ出力信号Ｙ_ＩＲＳＳ’（ｔ）を導く。こうすることにより、基準信号と出力信号との間の比較は、同じ時点で行われると仮定されることになる。
【００３３】
人間の耳は、時間−周波数変換を実行する。ＰＥＳＱでは、時間信号Ｘ_ＩＲＳＳ（ｔ）およびＹ_ＩＲＳＳ’（ｔ）に対してハニング・ウィンドウによる短期高速フーリエ変換（ＦＦＴ）を実行することによって、これをモデル化する。ハニング・ウィンドウは、通例、３２ｍｓのサイズを有する。隣接する時間ウィンドウを以後フレームと呼ぶことにするが、フレームは５０％だけ重複するのが通例である。位相情報は破棄される。複素ＦＦＴ成分、即ち、パワー・スペクトルの二乗実部および二乗虚部の和を用いて、パワー表現ＰＸ_{ＷＩＲＳＳ}（ｆ）_ｎおよびＰＹ_{ＷＩＲＳＳ}（ｆ）_ｎを求める。ここで、ｎは、考慮中のフレームを示す。これらのパワー表現を周波数帯域に分割する。これらの周波数帯域を、以後ＦＦＴ帯域と呼ぶ。
【００３４】
人の聴覚系は、高周波数におけるよりも低周波数において精細な周波数分解能を有する。ピッチ・スケールはこの現象を反映しており、この理由のために、ＰＥＳＱは周波数をピッチ・スケールに、この場合、いわゆるバーク・スケールにワープ(warp)する（離散）周波数軸の変換には、通例、２４のバーク帯域を形成するためのＦＦＴ帯域のビンニングを伴う。その結果得られた信号を、ピッチ・パワー密度またはピッチ・パワー密度関数と呼び、ＰＰＸ_{ＷＩＲＳＳ}（ｆ）_ｎおよびＰＰＹ_{ＷＩＲＳＳ}（ｆ）_ｎで示す。ピッチ・パワー密度関数は、人間の聴覚系におけるオーディオ信号の心理物理的表現に類似する内部表現を与え、知覚周波数(perceptual frequency)を考慮に入れる。
【００３５】
検査しようとするオーディオ・システムにおけるフィルタリングに対処するために、基準および出力ピッチ・パワー密度のパワー・スペクトルの経時的平均を取る。出力スペクトルの基準スペクトルに対する比率から、部分的補償係数を計算する。次いで、各フレームの基準ピッチ・パワー密度ＰＰＸ_{ＷＩＲＳＳ}（ｆ）_ｎとこの部分的補償係数を乗算して、基準を出力信号に等化する。この結果、逆フィルタリング基準ピッチ・パワー密度ＰＰＸ’_{ＷＩＲＳＳ}（ｆ）_ｎが得られる。この部分的補償を用いるのは、穏やかなフィルタリングは殆ど気がつかないが、激しいフィルタリングはリスナーにとって騒々しい可能性があるからである。補償を基準信号に対して行うのは、出力信号はＡＣＲ聴解実験において被験者によって判断されたものであるからである。
【００３６】
短期利得変動を補償するために、局部スケーリング率を計算する。次いで、この局部スケーリング率を出力ピッチ・パワー密度関数ＰＰＹ_{ＷＩＲＳＳ}（ｆ）_ｎと乗算して、ローカル・スケーリング・ピッチ・パワー密度関数ＰＰＹ’_{ＷＩＲＳＳ}（ｆ）_ｎを求める。
【００３７】
フィルタリングに対する部分的補償を基準信号に対して実行し、短期利得変動に対する部分的補償を出力信号に対して実行した後、ズウィッカーの法則(Zwicker's law)を用いて、基準および劣化ピッチ・パワー密度をソーン・ラウドネス・スケールに変換する。得られた二次元アレイＬＸ（ｆ）_ｎおよびＬＹ（ｆ）_ｎを、それぞれ、基準信号および出力信号に対するラウドネス密度関数と呼ぶ。ＬＸ（ｆ）_ｎに対して、これは次の式を意味する。
【００３８】

ここで、Ｐ_０（ｆ）は絶対聴力閾値、Ｓ_ｌはラウドネ・ススケーリング率、そしてγは、いわゆるズウィッカー・パワーであり、約０．２３の値を有する。ラウドネス密度関数は、人間の聴覚系におけるオーディオ信号の内部心理物理的表現を表し、ラウドネス知覚を考慮に入れる。
【００３９】
次いで、基準および出力ラウドネス密度関数ＬＸ（ｆ）_ｎ、ＬＹ（ｆ）_ｎを減算して、差分ラウドネス密度関数Ｄ（ｆ）_ｎが得られる。この知覚的減算の後、外乱尺度Ｄおよび非対称外乱尺度Ｄ_Ａを考慮に入れることによって、知覚品質尺度を導き出すことができる。ＰＥＳＱに関する更なる詳細は、ＩＴＵ−Ｔ勧告Ｐ．８６２において見いだすことができる。
【００４０】
図３は、本発明の一実施形態にしたがって、基準信号に対するオーディオ・システムの出力信号の知覚品質を表す品質指標を判定する方法を模式的に示す。ＩＲＳフィルタリングおよび時間遅延のような前処理動作の後、基準信号および出力信号を双方共、時間ドメインにおける信号から知覚的時間−周波数ドメインにおける信号に変換する。
【００４１】
これは、ＰＥＳＱを参照して図２において示したのと同様の方法で行うことができる。即ち、最初に、ウィンドウイング関数、例えば、ハニング・ウィンドウを実行して、基準信号および出力信号を、互いに対応する時間フレームに分割する。続いて、時間フレームに対してＦＦＴを実行し、信号を時間ドメインから時間−周波数ドメインに変換する。ＦＦＴの後、ピッチ・スケール、例えば、バーク周波数スケールに、これらの信号をワープして、知覚的時間−周波数ドメインにおける表現を得る。これを、知覚的周波数ドメインとも呼ぶことにする。
【００４２】
図２に模式的に示したようなＰＥＳＱにおいて採用された手法とは対照的に、図３に模式的に示す方法は、レベル変動、特に、いわゆるグローバル再生レベル変動を考慮に入れる。グローバル再生レベルを考慮に入れることによって、品質指標の精度が、特に、再生レベルがＩＴＵ−Ｔ勧告Ｐ．８６２による計算において用いられる、標準化された再生レベルと一致しない場合に、著しく高めることができる。即ち、客観的に得られる品質指標と主観的に得られる品質指標との間の相関は、グローバル再生レベルが標準レベルよりも高いまたは低い用途では高くなる。このような異なるグローバル再生レベルは、例えば、音響フィードバックを防止するために、ボイス・オーバーＩＰ（ＶＯＩＰ）システムにおいてしばしば用いられている。
【００４３】
強度レベルの変動を考慮に入れることができるようにするためには、前処理において、出力信号に対するレベル整合動作を行わない。しかしながら、以下で明確になるように、グローバル再生レベルとは独立している基準信号に関する情報を得ることが望ましい。言い換えると、このような情報を得るために、基準信号の総体的強度レベルは、品質予測を行うことを望む全ての主観的検査に対して同一でなければならない。
【００４４】
この理由のために、基準信号を固定強度レベルにグローバルにスケーリングする。この基準信号のスケーリングは、図３に模式的に示すように、変換の前、即ち時間ドメインにおいて行うことができる。あるいは、変換後に、（知覚的）時間−周波数ドメインに基準信号をスケーリングすることもできる。
【００４５】
基準信号の固定強度レベルへのスケーリングの後、スケーリングされた基準関数内における時間フレームに対して測定を行い、基準信号の特性を求める。特に、行われた測定に基づいて、これらの時間フレームの強度レベルに関する信号特性、例えば、平均強度レベルまたはその中のピーク強度レベルを判定する。
【００４６】
フレーム・レベル検出とも呼ぶフレーム・レベル測定の後、スケーリングされた基準信号を、出力信号に関する強度レベルにスケーリングする。好ましくは、このスケーリングは、音声信号が優勢である周波数帯域、例えば、４００および３５００Ｈｚの間の帯域のみを用いる。このスケーリング動作を行うのは、先に行われた基準信号の固定強度レベルへのスケーリングの結果、基準信号と出力信号との間の強度レベル差は、信頼性のある品質指標を得ることが不可能になるようなこともあり得るからである。スケーリングされた基準信号のスケーリングは、スケーリングされた基準信号と出力信号との間に強度レベル差を生じさせて、知覚品質に対するグローバル再生レベルの影響評価を可能にすることを目的とする。つまり、このスケーリング動作を行って、スケーリングされた基準信号と出力信号との間における強度レベル差を部分的に補償する。レベル差がある閾値を超える場合、完全に補償することができず、総体的に低い提示レベル(presentation level)の影響をモデル化することが可能になる。例えば、この再生デバイスのボリュームを低い強度レベルに設定する。低レベルの音声再生は、ＶＯＩＰシステムにおいて、例えば、音響エコー制御における詳細分析(breakdown)に対処するために、一般に用いられている。
【００４７】
このスケーリングでは、ソフト・スケーリング・アルゴリズム、即ち、パワーの小さな変動を、好ましくは、時間フレーム毎に補償しつつ、基準信号と出力信号との間のパワー比に応じて、大きな変動を部分的に補償するように、処理すべき信号をスケーリングするアルゴリズムを用いることができる。ソフト・スケーリングの使用に関する更なる詳細は、米国特許出願２００５年第１５９９４４号、米国特許第７，３１３，５１７号、および米国特許第７，３１５，８１２号において見いだすことができ、これらは全て本譲受人に譲渡されており、ここで引用したことにより、その内容が本願にも含まれるものとする。
【００４８】
グローバル・スケーリング動作の後、図２を参照して説明したように、基準信号に周波数補償を受けさせることができる。同様に、出力信号にはローカル・スケーリング動作を受けさせることができる。また、ローカル・スケーリングは、図３に模式的に示すように、基準信号に対しても行うことができる。次いで、基準信号および出力信号双方に、図２に示したＰＥＳＱを参照して論じたように、ラウドネス・スケールへの強度ワーピングを行う。この時点で、基準信号および出力信号は、知覚的ラウドネス・ドメインで表されることになる。
【００４９】
知覚的ラウドネス・ドメインでは、図２に示したＰＥＳＱとは対照的に、出力信号および基準信号の双方には、他のスケーリング動作も行われる。この時点まで出力信号の信号レベルは変化しておらず、出力信号の非常に低いレベルは、ここでは内部表現において些細な差を生ずるに過ぎなくなっている。このために、品質の推定において誤りが生ずる。
【００５０】
この目的のために、第１に、出力信号を固定ラウドネス・レベルにスケーリングする。固定ラウドネス・レベルは、主観的聴解品質実験において行われる較正実験によって決定することができる。ＩＴＵ−Ｔ勧告Ｐ．８６１および／またはＰ．８６２に記載されているように、基準信号に開始グローバル・レベル較正を用いる場合、このような固定ラウドネス・レベルは、約２０となり、これは次元のない(dimensionless)内部ラウドネス関連スケーリング数（scaling number)である。
【００５１】
出力信号のラウドネス・レベル・スケーリングの結果、出力信号と基準信号との間におけるラウドネス・レベルの差は、信頼性のある品質指標を決定できない程になる。この望ましくない様相を克服するために、基準信号のラウドネス・レベルも同様にスケーリングする必要がある。したがって、出力信号のラウドネス・レベルのスケーリングに続いて、基準信号のラウドネス・レベルを、スケーリングした出力信号に関係付けられたラウドネス・レベルにスケーリングする。ここで、基準信号および出力信号は双方共、オーディオ・システムの送信品質の客観的尺度を得るために必要な、知覚的に関連のある内部表現を計算するために用いることができるラウドネス・レベルを有する。
【００５２】
知覚的ラウドネス・ドメインにおいて行われるグローバル・スケーリング動作において、基準信号および出力信号双方の平均ラウドネスを用いることができる。これらの信号の平均ラウドネスは、フレーム・レベル検出の間に測定された基準信号における強度レベルが別の閾値、例えば、音声活動規準値を超える時間フレームにわたって、決定することができる。音声活動規準値は、絶対聴解閾値に対応することができる。音声活動規準値を用いる場合、これらのフレームを音声フレームと呼ぶことができる。出力信号については、計算の目的では、強度レベルが別の閾値を超過する時間フレームに対応する時間フレームを考慮に入れる。このように、音声活動規準値を用いる一実施形態では、基準信号の平均ラウドネスは、音声フレームに関して決定され、一方、出力信号の平均ラウドネスは、基準信号内における音声フレームに対応する時間フレームに関して決定される。
【００５３】
図３において、最後に、基準信号および出力信号を知覚的に減算する。これは、ＰＥＳＱから周知の方法で、そして図２を参照して論じた方法で行うことができる。即ち、総体的劣化を表す指標Ｄ_ｎ、および追加された劣化を表す指標ＤＡ_ｎが、並行して決定される。
【００５４】
図３に示す方式は、双方の指標Ｄ_ｎ、ＤＡ_ｎの計算に関する異なる手法に対応する。図３に示す方法を２回、即ち、総体的劣化に関する品質を表す品質指標を決定するために１回、そして基準信号に比較して追加された劣化に関する品質を表す品質指標を決定するためにもう１回行うことができる。この方法を２回行うことによって、異なるタイプの歪みに関する計算の最適化が可能になる。このような最適化は、客観的に測定された音声品質と、主観的聴解品質実験において得られた音声品質との間における相関を著しく高めることができる。
【００５５】
この方法を２回行う一実施形態では、フレーム・レベル検出の結果を別の仕方で用いることができる。例えば、時間フレームの選択は、例えば、異なる音声活動閾値に基づいて、異なってもよい。
【００５６】
図４は、本発明の他の実施形態にしたがって、基準信号に対するオーディオ・システムの出力信号の知覚品質を表す品質指標を判定する方法を模式的に示す。この方法では、基準信号および出力信号双方に、前処理ステップ、例えば、ＰＥＳＱとして知られており図２を参照して説明した、ＩＲＳフィルタリングおよび時間遅延が行われる。ウィンドウイング関数、例えば、ＰＥＳＱから周知のハニング・ウィンドウの使用と組み合わせて、短い高速フーリエ変換を実行することによって信号の時間−周波数表現を得る前に、基準信号をグローバルに固定レベルにスケーリングする。固定レベルへのグローバル・スケーリングは、ＰＥＳＱにおいて用いられるレベル整合と同様である。しかしながら、この場合、基準信号のみをこのようにスケーリングする。この段階では、出力信号をスケーリングしない。固定レベルは、両耳的または両耳異聴的に提示される音声断片に対しては約７３ｄＢＳＰＬのレベルと一致し、単調に（monotically)提示される音声断片に対しては約７９ｄＢＳＰＬのレベルと一致することが好ましい。出力信号は、内部表現が主観的検査において用いられた実際の音響レベルに対応するように、ある係数を用いてスケーリングされる。
【００５７】
ウィンドウイング関数、例えば、ハニング・ウィンドウを通じて選択された時間ウィンドウに対して行われたＦＦＴによってパワー−周波数表現を得た後、基準信号と出力信号との間における強度レベル差を部分的にだけ補償するアルゴリズムを用いて、グローバル・レベルの出力信号に向けて、基準信号をスケーリングする。残された差は、知覚送信品質に対する強度レベルの影響を推定するために用いることができる。
【００５８】
一実施形態では、基準信号の強度の規定強度レベルから、出力信号に関係付けられた強度レベルへのスケーリングは、基準信号とスケーリング率(scaling factor)との乗算に基づくことができる。このようなスケーリング率は、基準信号および出力信号の少なくとも一部について平均信号強度を判定することによって導き出すことができる。次いで、平均基準信号強度レベルおよび平均出力信号強度レベルを端数計算(fraction calculation)において用いて、暫定的なスケーリング率を求めることができる。最後に、暫定的スケーリング率が閾値よりも小さい場合、スケーリング率を暫定的なスケーリング率に等しく定義することによって、スケーリング率を決定することができ、それ以外の場合、スケーリング率は、暫定的スケーリング率に追加の暫定スケーリング率依存値だけ増分した値に等しくする。
【００５９】
出力信号の強度レベルへのグローバル・スケーリングの後、基準信号には、知覚的時間−周波数ドメインにおけるローカル・スケーリングが行われ、更に図２においてＰＥＳＱを参照して論じたのと同じ手法を用いて、部分的周波数補償が行われる。図４に示す実施形態では、基準信号を参照してローカル・スケーリングが行われるが、このローカル・スケーリング・ステップを出力信号に対して、例えば、図２に示したように適用することも同様に可能である。ローカル・スケーリング動作の目的は、短期利得変動の補償に関係がある。基準信号または出力信号のどちらを選択するかは、個々の用途に応じて異なることもある。一般には、基準信号が補償される。何故なら、基準信号は主観的品質測定において被験者(test subject)には提示されないのが一般的であるからである。
【００６０】
一実施形態では、最１の部分的周波数補償は、いわゆるソフト・スケーリング・アルゴリズムを用いる。ソフト・スケーリング・アルゴリズムでは、好ましくは時間フレーム毎にパワーの小さな偏差を補償し、一方大きな偏差は、基準信号と出力信号との間のパワー比に応じて、部分的に補償するようにスケーリングすることによって、処理すべき信号、即ち、基準信号または出力信号のいずれかを改良する。ソフト・スケーリングの使用に関する更なる詳細は、米国特許出願２００５／１５９９４４号、米国特許第７，３１３，５１７号、および米国特許第７，３１５，８１２号において見いだすことができ、これらは全て本譲受人に譲渡されており、ここで引用したことにより、その内容が本願にも含まれるものとする。
【００６１】
好ましくは、ここで、基準信号および出力信号の双方に対して励起ステップを実行し、これらの信号に関して、ウィンドウイング関数、例えば、ハニング・ウィンドウによる高速フーリエ変換を以前に実行した結果生じた周波数成分のスミアリング(smearing)を補償する。この励起ステップは、自己マスキング曲線を用いて双方の信号の表現を際立たせることによって行われる。このような自己マスキング曲線の計算に関する更なる詳細は、例えば、J.G. Beerends and J.A. Stemerdinkによる"A perceptual Audio Quality Measure Based on a Psychoacoustic Sound Representation"（心理音響的音響表現に基づく知覚的オーディオ品質測定）という論文（J. Audio Eng. Soc., Vol. 40, No. 12 (1992) pp.963-978)において見いだすことができる。この論文において、曖昧な励起表現を用いることによって、励起を計算し、品質を判定する。一実施形態では、次に、計算された励起を用いて自己マスキング曲線を導き出し、次いで、この自己マスキング曲線を用いて、際立たせた時間−周波数表現を得ることができる。その最も単純な形態では、自己マスキング曲線は励起曲線の端数に対応する。
【００６２】
ＰＥＳＱにおいて用いられ、図２を参照して説明したような、ラウドネス・スケールへの強度ワーピングの後、ラウドネス・ドメインにおいて基準信号および出力信号をローカルにスケーリングする。最初に、基準信号の内、出力信号よりも大きい部分をスケーリングする。次いで、基準信号よりも大きな出力信号の部分をスケーリングする。
【００６３】
これらのローカル・スケーリング動作の分離によって、時間クリッピングおよびパルスによるレベル変動に対して別々に手段を提供すること、および／または操作することが可能になる。基準信号の一部が、出力信号の対応する一部よりも大きい場合、この差は、時間クリッピング(time clipping)に起因する可能性がある。例えば、フレームが失われたことによって生ずる可能性がある。時間クリッピングの知覚的影響を定量化するために、基準信号をスケーリングして（非対称）外乱差分計算に最適であると見なされるレベルに落とす。この出力信号に対するローカル・スケーリング動作によって、出力信号におけるノイズも、（非対称）外乱差分計算に更に最適であるレベルまで抑制する。主観的に知覚した品質に対するノイズの影響は、このローカル・スケーリングを、出力信号に対するノイズ抑制動作と組み合わせることによって、一層精度高く推定することができる。
【００６４】
次に、第２の部分的周波数補償を実行することができる。この周波数補償は、ＰＥＳＱにおける場合と同様に行うことができるが、ここでは、ラウドネス・ドメインにおいて用いられる。一実施形態では、第２の部分的周波数補償は、第１の部分的周波数補償を参照して先に論じたようなソフト・スケーリング・アルゴリズムを用いる。第２の部分的周波数補償を用いることによって、客観的に測定された音声品質と、主観的聴解品質実験において得られる音声品質との間における相関が一層高められることが分かっている。
【００６５】
先に説明したように、第１の部分的周波数補償および第２の部分的周波数補償は、図２を参照して論じたように、ＰＥＳＱにおいて用いられる部分的周波数補償と同様とすることができる。したがって、これらの周波数補償動作は、平均算出動作を用いることができ、被検査システムの線形周波数応答に基づく推定を含む。実施形態の中には、この推定が、基準信号強度レベル値が閾値、例えば、音声活動規準値よりも大きいフレームのみに実行する場合もある。図４の方式から容易に理解できるであろうが、音声フレームのこのような選択は、フレーム・レベル検出動作において検出されたレベルに基づくことができる。
【００６６】
好ましくは、この時点で、基準信号および出力信号双方の高帯域を０に設定する。何故なら、これらは、判定しようとする知覚送信品質に対して、無視できる程度の影響しか有さなくなるからである。加えて、出力信号の低帯域の強度レベルを、基準信号の同様の帯域の強度レベルにローカルにスケーリングする。例えば、バーク２３以上に関係付けられた全ての帯域を０に設定することができ、一方、バーク０から５に関係付けられた出力信号におけるバーク帯域をスケーリングすることができる。基準信号においてバーク０から２２に関係付けられたバーク帯域、および出力信号においてバーク６から２２に関係付けられたバーク帯域には、これらの動作のいずれも行われない。
【００６７】
この時点までで、出力信号の信号レベルは大きく変化させられておらず、出力信号のレベルが非常に低いと、内部表現において些細な差しか得られない。このために、品質推定において誤りが生ずる。したがって、基準信号および出力信号の双方を、オーディオ・システムの送信品質の客観的尺度を得るために必要とされる知覚的に関連する内部表現を計算するために用いることができるレベルにグローバルにスケーリングする。第一に、出力信号のグローバル・レベルを、固定の内部ラウドネス・レベルにスケーリングする。ＩＴＵ−Ｔ勧告Ｐ．８６１および／またはＰ．８６２に記載されているように、開始グローバル・レベル較正が基準信号に用いられる場合、このような固定グローバル内部レベルは約２０になる。これは、次元のない内部ラウドネスに関係するスケーリング数(scaling number)である。第二に、基準信号のレベルを、図３を参照して論じたのと同様にそして同じ理由のために、出力信号の対応するレベルにスケーリングする。
【００６８】
最後に、図２を参照して説明した方法と同様に、基準信号および出力信号を減算して、差分信号を得る。知覚的減算の後、例えば、図２に示しＩＴＵ−Ｔ勧告Ｐ．８６２に記載されている方法で、知覚品質尺度を導き出すことができる。
【００６９】
あるいは、この方法を２回実行する。１回目は、基準信号と比較して総体的劣化に対する品質を表す品質指標を決定するため、そして２回目は、基準信号と比較して追加される劣化に対する品質を表す品質指標を決定するためである。
【００７０】
本発明の実施形態の中には、この方法が１つ以上のノイズ抑制ステップを更に含む場合もある。オーディオ・システムの送信品質、特に、音声品質に対するノイズの影響は、ローカル・レベルおよび／またはローカル・スペクトル変化に左右される。ＰＥＳＱでは、この影響は正しく考慮されない。ＰＥＳＱは、フレーム毎にローカル・パワー・レベルを用いて、ノイズの影響を近似的に定量化するレベルに、ノイズを抑制する。１つ以上のノイズ抑制ステップによって、オーディオ・システムの送信品質を予測する際に著しい改良を得ることができる。
【００７１】
一実施形態では、このようなノイズ抑制は、ソーンのラウドネス・スケールへの強度ワーピングの後に、基準信号に対して行われる。このノイズ抑制動作は、ノイズを所定のノイズ・レベルまで抑制するように構成することができる。そして、この所定のノイズ・レベルは、出力信号に対する理想的な表現の役割を果たすための、望ましい低ノイズ・レベルと見なされるノイズ・レベルに対応することができる。
【００７２】
同様に、一実施形態では、このようなノイズ抑制は、ソーン(Sone)のラウドネス・スケールへの強度ワーピングの後に、出力信号に対して行われる。この場合、ノイズ抑制動作は、被検査デバイス、例えば、図１におけるオーディオ・システム１０が受ける外乱を表すノイズ・レベルまでノイズを抑制するように構成することができる。
【００７３】
他の実施形態の中には、基準信号および出力信号に対して、図３において破線で模式的に示すように、グローバル・スケーリングの後に、追加のノイズ抑制アクションを行う場合もある。尚、グローバル・スケーリングの後におけるこのような追加のノイズ抑制は、客観的に測定した音声品質と主観的聴解品質実験において得られる音声品質との間における相関を更に高めることが分かっている。
【００７４】
１つ以上のノイズ抑制ステップを用いる実施形態の中には、スケーリングされた基準信号内における時間フレームに対して決定された強度レベル・パラメータを用いて、出力信号内における時間フレームの内、ノイズ抑制計算の１つ以上において含めようとする時間フレームを選択する場合もある。スケーリングされた基準信号内にある時間フレームは、例えば、ある種の閾値、例えば、無音規準値(silence criterion value)よりも低いその強度値に基づいて、計算のために選択することができる。スケーリングされた基準信号内にある時間フレームについての強度値が無音規準値未満である場合、この時間フレームを無音フレームと呼ぶことができる。そして、出力信号内において選択された時間フレームは、スケーリングされた基準信号内にある無音フレームに対応することができる。好ましくは、このような選択プロセスは、一連の連続する無音フレーム、例えば、８つの無音フレームを識別することによって進展する。このような一連の連続無音フレームを、無音間隔と呼ぶことができる。無音フレーム内において測定された強度レベル、そして特に無音間隔内における無音フレームは、考慮対象の基準信号内に内在するノイズ・レベルを表す。言い換えると、被検査デバイスの影響はない。
【００７５】
以上で論じたある種の実施形態を参照して、本発明について説明した。尚、これらの実施形態には、当業者には周知の種々の変更および代替形態が可能であることは認められよう。

Claims

オーディオ・システムの出力信号の基準信号に対する知覚品質を表す品質指標を判定する方法であって、前記基準信号および前記出力信号を処理して比較し、前記処理が、前記基準信号および前記出力信号を、相互に対応する時間フレームに分割するステップを含み、前記処理が、更に、
−前記基準信号の強度を固定強度レベルにスケーリングするステップと、
−基準信号時間フレーム特性を判定するために、前記スケーリングした基準信号内にある時間フレームに対して測定を行うステップと、
−前記基準信号の強度を、前記固定強度レベルから、前記出力信号に関係付けられた強度レベルにスケーリングするステップと、
−前記出力信号のラウドネスを、知覚的ラウドネス・ドメインにおける固定ラウドネス・レベルにスケーリングするステップであって、前記出力信号のラウドネス・スケーリングが、前記基準信号時間フレーム特性を用いる、ステップと、
−前記基準信号のラウドネスを、前記出力信号に関係付けられた強度レベルに対応するラウドネス・レベルから、前記知覚的ラウドネス・ドメインにおける前記スケーリングした出力信号のラウドネス・レベルに関係付けられたラウドネス・レベルにスケーリングするステップであって、前記基準信号のラウドネスのスケーリングが、前記基準信号時間フレーム特性を用いる、ステップと、
を備えている、方法。
前記オーディオ・システムが音声処理デバイスである、請求項１記載の方法。
請求項１記載の方法において、前記基準信号の強度を、前記固定強度レベルから、前記出力信号に関係付けられた強度レベルにスケーリングするステップが、前記基準信号のスケーリング率との乗算に基づき、前記スケーリング率が、
−ある数の時間フレームに渡る平均基準信号強度レベルを判定し、
−前記平均基準信号強度レベルを判定するために用いた前記基準信号の時間フレームに対応する数の時間フレームにわたって、平均出力信号強度レベルを判定し、
−前記平均基準信号強度レベルおよび前記平均出力信号強度レベルに基づいて端数を判定することによって、暫定的スケーリング率を導き出し、
−前記暫定的スケーリング率が閾値よりも小さい場合、前記スケーリング率を前記暫定的スケーリング率に等しく定義し、それ以外の場合、前記暫定的スケーリング率を追加の暫定的スケーリング率依存値で増分した値に等しく定義することによって、スケーリング率を決定する、
ことによって定義される、方法。
請求項１〜３のいずれか１項記載の方法において、前記出力信号の固定ラウドネス・レベルへのラウドネス・スケーリングの前に、更に、
−前記基準信号において、ラウドネス・レベルが前記出力信号のラウドネス・レベルよりも高い部分について、前記基準信号のラウドネス・レベルを、前記出力信号のラウドネス・レベルにローカルにスケーリングするステップと、
−その後に、前記出力信号において、ラウドネス・レベルが前記基準信号のラウドネス・レベルよりも高い部分について、前記出力信号のラウドネス・レベルを前記基準信号のラウドネス・レベルにローカルにスケーリングするステップと、
を備えている、
方法。
請求項１〜４のいずれか１項記載の方法において、前記処理が、更に、
−前記スケーリングした基準信号および前記出力信号を時間ドメインから時間−周波数ドメインに変換するステップと、
−前記基準信号から基準ピッチ・パワー密度関数を導き出し、前記出力信号から出力ピッチ・パワー密度関数を導き出すステップであって、強度レベル差が、前記ピッチ・パワー密度関数の強度レベル間の差に対応する、ステップと、
−ローカルにスケーリングした基準ピッチ・パワー密度関数を得るために、前記基準ピッチ・パワー密度関数をローカルにスケーリングするステップと、
−前記ローカルにスケーリングした基準ピッチ・パワー密度関数を、周波数に関して部分的に補償するステップと、
−基準ラウドネス密度関数および出力ラウドネス密度関数を導き出すステップであって、ラウドネス・レベル差が、前記ラウドネス密度関数のラウドネス・レベル間の差に対応する、ステップと、
を備えており、
前記ラウドネス密度関数が、密度関数を表しており、知覚品質に対し可変レベルの再生の影響を定量化することを可能にする、方法。
請求項５記載の方法であって、更に、前記基準ピッチ・パワー密度関数および前記出力ピッチ・パワー密度関数の内少なくとも１つに対して励起動作を実行するステップを備えている、方法。
請求項５または６記載の方法において、更に、
−前記基準ラウドネス密度関数をローカルにスケーリングするステップと、
−ローカルにスケーリングした前記基準ラウドネス密度関数を補償するステップと、
を備えており、
ローカルにスケーリングした前記基準ピッチ・パワー密度関数を周波数に関して補償するステップ、およびローカルにスケーリングした前記基準ラウドネス密度関数を補償するステップの内少なくとも１つが、前記基準信号時間フレーム特性に基づいて、前記オーディオ・システムの線形周波数応答を推定するステップを含む、方法。
請求項１〜７のいずれか１項記載の方法において、前記知覚的ラウドネス・ドメインにおける前記出力信号のラウドネス・レベルに関係付けられたラウドネス・レベルへのスケーリングの前に、前記知覚的ラウドネス・ドメインにおける前記基準信号に対して、ノイズを所定のノイズ・レベルまで抑制するノイズ抑制動作が行われる、方法。
請求項１〜８のいずれか１項記載の方法において、固定ラウドネス・レベルへのスケーリングの前に、前記知覚的ラウドネス・ドメインにおける前記出力信号に対して、外乱を表すノイズ・レベルまでノイズを抑制するために、ノイズ抑制アルゴリズムが実行される、方法。
請求項１〜９のいずれか１項記載の方法において、前記知覚的ラウドネス・ドメインにおける前記基準信号および出力信号には、比較の前に、グローバル・ノイズ抑制が行われる、方法。
コンピュータ読み取り可能媒体上に格納されているコンピュータ実行可能コードを備えているコンピュータ・プログラムであって、前記コンピュータ実行可能コードをプロセッサによって実行すると、請求項１から１０までのいずれか１項によって定義される方法を実行するように構成されている、コンピュータ・プログラム。
オーディオ・システム（１０）の出力信号Ｙ（ｔ）の、基準信号の役割を果たす前記オーディオ・システムの入力信号Ｘ（ｔ）に対する、知覚品質を表す品質指標を判定するシステム（２０）であって、
−前記基準信号および出力信号を前処理する前処理デバイス（３０）と、
−前記基準信号を処理する第１処理デバイス（４０ａ）、および前記基準信号および出力信号に対して、それぞれ、表現信号Ｒ（Ｘ）、Ｒ（Ｙ）を得るために、前記出力信号を処理する第２処理デバイス（４０ｂ）と、
−差分信号Ｄを得るように、前記基準信号および出力信号の表現信号を結合する差分デバイス（５０）と、
−前記オーディオ・システムの知覚品質の推定値を表す品質信号Ｑを得るために、前記差分信号を処理するモデリング・デバイス（６０）と、
を備えており、前記前処理デバイス、前記第１処理デバイス、および第２処理デバイスが、請求項１から１０までのいずれか１項に記載の方法を実行する処理システムを形成する、システム。
前記オーディオ・システム（１０）が音声処理デバイスである、請求項１２記載のシステム。