JP2023535694A - 信号の知覚される品質に対する残響の知覚的影響を判定する方法、及びコンピュータプログラム製品 - Google Patents

信号の知覚される品質に対する残響の知覚的影響を判定する方法、及びコンピュータプログラム製品 Download PDF

Info

Publication number
JP2023535694A
JP2023535694A JP2023503439A JP2023503439A JP2023535694A JP 2023535694 A JP2023535694 A JP 2023535694A JP 2023503439 A JP2023503439 A JP 2023503439A JP 2023503439 A JP2023503439 A JP 2023503439A JP 2023535694 A JP2023535694 A JP 2023535694A
Authority
JP
Japan
Prior art keywords
signal
degraded
audio
window
reverberation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023503439A
Other languages
English (en)
Inventor
マルティヌス フィリップ ノイマン,ニールス
ヘラルト ベーレンス,ジョン
Original Assignee
ネーデルランドセ オルガニサティエ フォール トエゲパスト-ナトールヴェテンシャッペリク オンデルゾエク ティエヌオー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ネーデルランドセ オルガニサティエ フォール トエゲパスト-ナトールヴェテンシャッペリク オンデルゾエク ティエヌオー filed Critical ネーデルランドセ オルガニサティエ フォール トエゲパスト-ナトールヴェテンシャッペリク オンデルゾエク ティエヌオー
Publication of JP2023535694A publication Critical patent/JP2023535694A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/002Applications of echo suppressors or cancellers in telephonic connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本開示書は、劣化したオーディオ信号の知覚される品質に対する、該劣化したオーディオ信号中のエコー又は残響の量の知覚的影響を判定する方法に関し、ここで、該劣化したオーディオ信号は、該劣化したオーディオ信号を提供するように該オーディオ伝送システムを通して参照オーディオ信号を伝達することによって得られる。該方法は、該劣化したデジタルオーディオサンプル及び参照デジタルオーディオサンプルをもたらすように該劣化したデジタルオーディオサンプル及び参照デジタルオーディオサンプルに窓関数を乗算することによって、該劣化したデジタルオーディオサンプル及び参照デジタルオーディオサンプルに窓処理動作を実行することを含む。エコー又は残響の量の局所的な推定値が、これらのサンプルに基づいて決定される。【選択図】なし

Description

本発明は、劣化したオーディオ信号の知覚される品質に対する、該劣化したオーディオ信号中のエコー又は残響(reverberation)の量の知覚的影響を判定する方法に向けられ、該劣化したオーディオ信号は、オーディオ伝送システムから受信され、該劣化したオーディオ信号は、該劣化したオーディオ信号を提供するように該オーディオ伝送システムを通して参照オーディオ信号を伝達することによって得られ、それ故に、本発明はまた、コンピュータプログラム製品にも向けられている。
過去数十年の間に、客観的な音声品質測定方法が、知覚的測定手法を使用して開発・展開されてきた。この手法では、知覚に基づくアルゴリズムが、聴取試験でオーディオフラグメントの品質を評価付けする被験者の振る舞いを模倣する。音声品質に関しては、いわゆる絶対範疇尺度聴取試験を使用することが多く、該試験では、被験者が、明晰な参照音声フラグメントにアクセスできない状態で、劣化した音声フラグメントの品質を判断する。国際電気通信連合(ITU:International Telecommunication Union)で実施される聴取試験は、主に、絶対範疇尺度法(ACR:absolute category rating)の5段階判断尺度を使用し、これは従って、該ITUによって標準化された客観的音声品質測定法である知覚音声品質尺度(PSQM(ITU-T勧告P.861、1996))、及びその後続の音声品質の知覚的評価(PESQ:Perceptual Speech Quality Measure(ITU-T勧告P.862、2000))においても使用されている。これらの測定標準の対象は、狭帯域の音声品質(オーディオ帯域幅100~3500Hz)であるが、広帯域の拡張(50~7000Hz)が2005年に考案された。PESQは、狭帯域の音声データに対する主観的聴取試験との非常に良好な相関付け、及び広帯域データについての満足できる相関付けを可能にする。
遠隔通信業界によって新しい広帯域音声サービスが展開されるのに伴い、性能が検証され、より高いオーディオ帯域幅に対応可能な、高度な測定標準の必要性が生じた。それ故に、ITU-T(ITU-Telecom部門)の研究グループ12は、新しい音声品質査定アルゴリズムの標準化を、PESQの技術更新として開始した。新しい、第3世代の測定標準POLQA(Perceptual Objective Listening Quality Assessment)は、PESQ P.862標準の欠点、例えば、線形周波数応答歪み(linear frequency response distortions)の影響、ボイスオーバーインターネットプロトコル(Voice-over-IP)に見られるような時間伸長/圧縮、ある種のコーデック歪み及び残響の不正確な査定、を克服する。
POLQA(P.863)は、以前の品質査定アルゴリズムであるPSQM(P.861)及びPESQ(P.862)に対する幾つかの改良点を提供し、また現在のバージョンのPOLQAは、幾つかの改良点、例えば、線形周波数応答歪みの影響、Voice-over-IPに見られるような時間伸長/圧縮、ある種のコーデック歪み、残響、並びに再生レベルの影響の正確な査定、に対処する。
知覚される音声及び音の品質に影響する要因の1つは、オーディオ信号中のエコーと残響の存在であり、後者はエコーが重畳したものである。残響又はエコーの量の判定は、例えば、デジタル化されたオーディオ信号の自己相関を行ってエネルギー時曲線(energy time curve)を推定することによって達成されうる。POLQAの場合のように参照信号と劣化した信号の両方が入手可能である場合、該エネルギー時曲線は、試験対象システムの推定された伝達関数から決定されることができる。この後者の手法はPOLQAで使用されているが、得られる推定の精度が、信号の長さ、及び何らかの種類の雑音、パルス、又は時間シフト歪みの存在によって影響され、結果的に、知覚されるオーディオ品質に対する残響の量の知覚的影響の判定が不正確になる。
本発明の目的は、上記において言及された不都合点を解消すること、及び、オーディオ信号の知覚される品質に対するそのオーディオ信号中の残響の知覚的影響を正確に推定する為の方法を提供することである。
この目的の為に、劣化したオーディオ信号の知覚される品質(perceived quality)に対する該劣化したオーディオ信号中のエコー又は残響の量の知覚的影響を判定する方法が本明細書において提供され、ここで、該劣化したオーディオ信号は、オーディオ伝送システムから受信され、該劣化したオーディオ信号は、該劣化したオーディオ信号を提供するように該オーディオ伝送システムを通して参照オーディオ信号を伝達することによって得られ、該方法は、コントローラにより、該劣化したオーディオ信号から少なくとも1つの劣化したデジタルオーディオサンプルを、並びに該参照オーディオ信号から少なくとも1つの参照デジタルオーディオサンプルを取得すること、該コントローラにより、該少なくとも1つの劣化したオーディオサンプル及び該少なくとも1つの参照オーディオサンプルに基づいて局所的インパルス応答信号を決定すること、該コントローラにより、該インパルス応答信号に基づいてエネルギー時曲線を決定すること、ここで、該エネルギー時曲線が、該インパルス応答信号の絶対値の平方根に比例する、該エネルギー時曲線内で1以上のピークを識別すること、ここで、該1以上のピークは、該インパルス応答に基づく該エネルギー時曲線の始まりの後、該エネルギー時曲線中で遅延して発生する、及び、該1以上のピークにおけるエネルギーの量に基づいてエコー又は残響の量の推定値を決定することの工程を含み、該少なくとも1つの劣化したデジタルオーディオサンプルを取得する工程は、該劣化したオーディオ信号を時間ドメインフラクション内でサンプリングする工程を含み、該サンプリングは、該劣化したデジタルオーディオサンプルをもたらすように該劣化したオーディオ信号に窓関数を乗算することによって、該劣化したオーディオ信号に窓処理動作を実行することを含み、該少なくとも1つの参照デジタルオーディオサンプルを取得する工程は、該参照オーディオ信号を時間ドメインフラクション内でサンプリングする工程を含み、該サンプリングは、該参照デジタルオーディオサンプルをもたらすように該参照オーディオ信号に該窓関数を乗算することによって該参照オーディオ信号に窓処理動作を実行することを含み、該少なくとも1つの参照デジタルオーディオサンプル及び該少なくとも1つの劣化したデジタルオーディオサンプルを得る為に使用される該窓関数は、サンプリングされるべき該時間ドメインフラクション内では非ゼロ値を有し、並びに該時間ドメインフラクションの外側ではゼロ値を有する。
本発明は、信号中の多くの外乱(disturbance)が、残響の量の知覚的影響の正確な判定又は推定に影響を及ぼすという洞察に基づいている。これらの外乱は、種々のタイプの雑音、種々のタイプのパルス歪み、及び種々のタイプの時間シフト歪みを包含し、これらの一部は、全体的又は大域的なレベルで該残響の量の該判定を損ない、その一部は、主として局所的レベルで有害であるか又は局所的レベルで存在する。本発明は、該残響の量を決定する前に該劣化した信号及び該参照信号の窓処理を行うことにより、この問題を克服することを可能にする。例えば、知覚的残響影響パラメータのセットが、該劣化したオーディオ信号及び参照オーディオ信号の(その窓処理による)オーディオサンプルを構成しうる、一つのフレームから、又は連続したフレームのセットから計算されうる。第1に、窓処理の使用は、残響の推定値を計算し、それを最終的な残響推定の際に考慮に入れることを可能にする。第2に、窓処理の使用は、処理パラメータの局所的な補償及び局所的な最適化を可能にする。後者は、該サンプルの該時間ドメインフラクションの継続時間、又は完全な信号(若しくは関連する部分)の中でのその相対位置に応じてさえ行われうる。従って、該窓処理動作により、本発明の該方法は、残響又はエコーの量のより正確な推定値を提供する。これは、多くの異なる種類の音処理及び評価方法で適用されうる。しかしながら、それは、本明細書の該に記載された該POLQA法などと併せて、劣化した音声信号の品質又は明瞭度(intelligibility)の査定に有意な関連性を有し、それ故に、その応用は、該方法の好ましい実施態様を提供する。
該少なくとも1つのデジタルオーディオサンプルを取得する工程は好ましくは、上述された該窓処理動作を実行することを使用して、該オーディオ信号を該時間ドメインフラクション内でサンプリングすることにより、該オーディオ信号から複数のデジタルオーディオサンプルを取得する工程を含む。該複数のデジタルオーディオサンプルのうちの少なくとも2つの逐次のデジタルオーディオサンプルの該時間ドメインフラクション同士は、この場合、重なり合いうる。例えば、該少なくとも2つの逐次のデジタルオーディオサンプル間の重なりは、該時間ドメインフラクション間で10%~90%の重なりの範囲内、好ましくは25%~75%の重なりの範囲内、より好ましくは40%~60%の重なりの範囲内、例えば50%の重なり、である。これは、例えば最適化の一部として、適用される窓関数の種類に依存しうる。
該窓関数は、幾つかの実施態様において、ハミング窓(Hamming window)、フォンハン窓(Von Hann window)、テューキー窓(Tukey window)、コサイン窓(cosine window)、矩形窓(rectangular window)、Bスプライン窓(B-spline window)、三角形窓(triangular window)、バートレット窓(Bartlett window)、パルザン窓(Parzen window)、ウェルチ窓(Welch window)、コサインのn乗窓(nth power-of-cosine window)(ここで、n>1)、カイザー窓(Kaiser window)、ナットール窓(Nuttall window)、ブラックマン窓(Blackman window)、ブラックマン・ハリス窓(Blackman Harris window)、ブラックマン・ナットール窓(Blackman Nuttall window)、及びフラットトップ窓(Flattop window)からなる群の少なくとも1つでありうる。本発明は、特定の種類の窓関数に制限されず、本明細書において言及されているものとは異なる窓関数を使用して適用されうる。本発明の発明概念から逸脱することなく、本発明の該方法で有用でありうる、新しい最適化された窓関数すら開発されうる。
該残響の量の推定値を決定する為に、幾つかの実施態様において、本発明は、各ピークの大きさ及び/又は時間軸上でのその(相対)遅延位置に基づいて、該エネルギー時曲線の各ピークにおけるエネルギーの量を重み付けすることを含みうる。これは、最も大きい大きさのピークは、典型的に、残響の知覚レベル及びそれがどのように音声又は音の明瞭度又は品質を損ないうるか、に対して有意な影響を有する、という洞察に基づいている。
幾つかの好ましい実施態様において、該方法は、該コントローラにより、該オーディオ信号の少なくとも一部を表し並びに該少なくとも1つのデジタルオーディオサンプルの該時間ドメインフラクションよりも長い継続時間を有するところのデジタル信号を取得すること、該コントローラにより、全体的インパルス応答信号をもたらすように該デジタル信号に対して自己相関動作を行うこと、該コントローラにより、該インパルス応答信号に基づいて全体的エネルギー時曲線を決定すること、ここで、該エネルギー時曲線は、該全体的インパルス応答信号の平方根に比例する、該エネルギー時曲線内で1以上のピークを識別すること、ここで、該1以上の更なるピークは、該全体的インパルス応答に基づく該エネルギー時曲線の始まりの後、該エネルギー時曲線中で遅延して発生する、及び、該1以上の更なるピークにおけるエネルギーの量に基づいてエコー又は残響の該量の更なる推定値を決定することを追加的に含む。
上記において説明された好ましい実施態様は、局所的な外乱と大域的外乱、すなわち、残響のレベルに対して局所的な影響を有する外乱と、音信号(又は信号部分)のより大域的な全体的レベルでの推定を損なう外乱との両方を正確に含めて、補償する手段を提供する。更に、上記の局所的に適用される残響推定方法と同様に、大域的又は全体的なレベルでの残響の量の該更なる推定値を決定することは同様に、各ピークの大きさに基づいて各ピークにおけるエネルギーの量を重み付けすることを含みうる。
他の又は更なる実施態様において、該方法は、該コントローラにより、該推定されたエコー又は残響の量に基づいて部分的残響指標値を計算すること、該コントローラにより、該更なる推定されたエコー又は残響の量に基づいて大域的残響指標値を計算すること、又は、該コントローラにより、エコー又は残響の量の該推定値及び該更なる推定値に基づいて最終的な残響指標値を計算することの工程のうちの少なくとも1つを更に含みうる。
更に、上記において言及された該方法において、該オーディオサンプル、又はそのように言われる場合は該デジタル信号に基づいて該(局所的(local)又は大域的(global))インパルス応答信号を決定することは、該コントローラにより、該オーディオサンプル又は該デジタル信号にフーリエ変換を適用することにより、該オーディオサンプル又は該デジタル信号を時間ドメインから周波数ドメインに変換すること、該コントローラにより、該周波数ドメイン中の該オーディオサンプル又は該デジタル信号から、パワースペクトル信号からの伝達関数を決定すること、及び、該コントローラにより、該局所的インパルス応答信号又は該大域的インパルス応答信号をもたらすように、該パワースペクトル信号を該周波数ドメインから該時間ドメインに変換することを含む。
好ましい実施態様において、本発明は、オーディオ伝送システムから受信された劣化した音声信号の品質又は明瞭度を、該劣化した音声信号を提供するように該オーディオ伝送システムを通して参照音声信号を伝達することにより評価する方法を提供し、該方法は、該参照音声信号を複数の参照信号フレーム内にサンプリングし、該劣化した音声信号を複数の劣化した信号フレーム内にサンプリングし、そして、該参照信号フレームと該劣化した信号フレームとを互いに関連付けることによってフレームペアを形成すること、フレームペアごとに、該劣化した信号フレームと該関連付けられた参照信号フレームとの間の差分を表す差分関数を提供すること、人間の聴覚知覚モデルに適合された外乱密度関数をフレームペアごとに提供するように、1以上の外乱タイプについて該差分関数を補償すること、複数のフレームペアの該外乱密度関数から全体的品質パラメータを導出すること、ここで、該品質パラメータは、該劣化した音声信号の該品質又は明瞭度を少なくとも示す、を含み、該方法は、該劣化した音声信号及び該参照音声信号のうちの少なくとも一方における残響の量を決定することを更に含み、該残響の量は、上記の実施態様のいずれかに従って説明されたような方法を適用することによって決定される。
上記において説明された部類の実施態様において、本発明に従う方法は、劣化した音声信号の品質又は明瞭度を判定する為の方法の中で適用された。本発明に従う、残響の量の推定値を決定する方法は、残響の存在は知覚される品質又は明瞭度に有意に影響することから、品質又は明瞭度を評価するこの方法において特に有用である。
該実施態様の幾つかにおいて、該コントローラにより、該少なくとも1つのデジタルオーディオサンプルを取得することは、複数の連続した信号フレームから該オーディオサンプルを形成することによって行われ得、該信号フレームは、該劣化した信号フレームの1以上、又は該参照信号フレームの1以上を含む。例えば、該複数の信号フレーム内に含められるべき信号フレームの数は、該少なくとも1つのデジタルオーディオサンプルの該時間ドメインフラクションの継続時間に依存し得、該継続時間は、0.3秒よりも永く、好ましくは0.4秒~5.0秒、例えば、0.5秒、1.0秒、1.5秒、2.0秒、2.5秒、3.0秒、3.5秒、4.0秒、4.5秒、又は5.0秒のうちの少なくとも1つ、である。一部の用途、例えばPOLQA、では、単一のフレームは、典型的に、短過ぎて残響の量を決定する為に有意でなく、1秒よりも短いオーディオ信号断片が、残響の量の局所的推定値を提供する為に分析されるのに十分な長さでありうる。
それ故に、幾つかの実施態様において、残響の量の第1の推定値が、例えば0.5秒のデジタルオーディオサンプルを使用して局所的推定を行うことによって得られ、1以上の第2の推定値が、長い継続時間(longer duration)のオーディオ信号を提供する複数の連続した信号フレームから形成される複数のデジタルオーディオサンプルの各々について得られ、該第1の推定と、該第2の推定のうちの少なくとも1つとに基づいて、残響指標値が計算される。
幾つかの実施態様において、各フレームペアについて、該補償する工程は、該劣化した音声信号及び該参照音声信号のうちの少なくとも一方における該決定された残響量を、該1以上の外乱タイプの1つとして設定し、そして、該デジタルオーディオサンプルの該形成に基づいて、夫々のフレームペアに関連付けられた残響の量について各フレームペアを補償することによって行われる。ここで、該残響の推定値は、該フレームペアに関連付けられた、局所的レベルで考慮に入れられうる。これらは、該劣化した信号サンプルを構成するフレームからなるフレームペアである。
幾つかの実施態様において、該方法は、該インパルス応答信号を決定する工程の前に雑音抑制する工程を更に含み、該雑音抑制は、同様の平均音量を得るように、該劣化した音声信号又は該参照音声信号のうちの少なくとも一方の第1のスケーリングを実行すること、該劣化した音声信号から局所的信号ピークを除去する為に該劣化した音声信号を処理すること、同様の平均音量を得るように、該劣化した音声信号又は該参照音声信号のうちの少なくとも一方の第2のスケーリングを実行することを含む。
更に、上記において、音声又は音信号の品質又は明瞭度の査定の為に、該方法は、低い周波数範囲、すなわち、該音声信号又は音信号に関連する関心対象の範囲、に制限されうる。例えば、該方法は、所定の周波数範囲、例えば閾値周波数よりも下の周波数範囲、又は音声信号に対応する周波数範囲、内のオーディオ信号について実行され得、ここで、該周波数範囲は、例えば、5キロヘルツよりも下であり、好ましくは、該周波数範囲は、音声信号の場合には200ヘルツ~4キロヘルツであり、他の音信号の場合には最大20kHzの周波数である。
本発明は、添付図面を参照して、その幾つかの具体的な実施態様を説明することにより、以下で更に解説される。詳細な説明は、本発明の可能な実装の例を提供するが、範囲に該当する実施態様だけを説明するものとはみなされるべきでない。本発明の範囲は特許請求の範囲に定められ、説明は、本発明に対して制限的であることなく、例示的なものとみなされるべきである。
図1は、本発明に従う実施態様における、POLQA知覚モデルの第1の部分の概要を提供する。 図2は、本発明に従う実施態様における、該POLQA知覚モデルで使用される周波数位置合わせの例示的概要を提供する。 図3は、本発明に従う実施態様における、図1に示されている該第1の部分に続く、該POLQA知覚モデルの第2の部分の概要を提供する。 図4は、本発明に従う実施態様における、該POLQA知覚モデルの第3の部分の概要である。 図5は、該POLQAモデルで使用されるマスキング手法の概略図である。 図6は、全体的品質パラメータを補償する方式の模式的図解である。 図7Aは、本発明に従う実施態様において適用される、音声信号に行われる窓処理動作を模式的に説明する。 図7Bは、本発明に従う実施態様において適用される、音声信号に行われる窓処理動作を模式的に説明する。 図7Cは、本発明に従う実施態様において適用される、音声信号に行われる窓処理動作を模式的に説明する。 図8は、一つの実施態様に従う残響指標の計算を模式的に説明する。
POLQA知覚モデル
POLQA(ITU-T勧告P.863)の基本的手法は、PESQ(ITU-T勧告P.862)で使用されるものと同じであり、すなわち、参照入力信号と劣化した出力音声信号とが、人間の知覚のモデルを使用して内部表現にマッピングされる。2つの該内部表現間の差分が認知モデルによって使用されて、該劣化した信号の知覚される音声品質を予測する。POLQAで実装されている重要な新概念は、参照入力信号中の低レベルの雑音を取り除き、音色を最適化する、理想化手法である。該知覚モデルにおける更なる主要な変化は、知覚される品質に対する再生レベルの影響のモデル化、並びに低レベル及び高レベルの歪みの処理における大きな分割を包含する。
POLQAで使用される該知覚モデルの概要が図1~図4に与えられている。図1は、参照入力信号X(t)(3)及び劣化した出力信号Y(t)(5)の内部表現の計算で使用される知覚モデルの第1の部分を提供する。両方ともスケーリングされ(17、46)、ピッチ-ラウドネス-時間としての内部表現(13及び14)が、下記で説明される幾つかの工程で計算され、その後、差分関数(12)が計算され、これは図1で差分計算演算子(7)と共に示されている。知覚差分関数の2つの異なるフレーバーが、一方は、試験対象の演算子7及び8を使用してシステムによって導入された全体的な外乱について計算され、一方は、該外乱の付加部分に対応について演算子(9及び10)を使用して計算される。これは、新しい時間-周波数成分の導入によって引き起こされた劣化と比較した、該参照信号から時間-周波数成分を取り除くことによって引き起こされる劣化との間の影響の非対称性をモデル化する。POLQAにおいては、両方のフレーバーが2つの異なる手法で計算され、一方は通常の劣化の範囲を対象とし、一方は大きい劣化を対象とし、その結果、図1に示されている4つの差分関数計算(7、8、9及び10)がある。
周波数ドメインゆがみを伴う劣化した出力信号(49)の場合に、図2に与えられている位置合わせアルゴリズム(52)が使用される。MOS-LQOスコアを得る為の最終的な処理が、図3及び図4に与えられている。
POLQAは、幾つかの基本的な定数設定の計算から開始し、その後、参照信号及び劣化した信号のピッチパワー密度(時間及び周波数の関数としてのパワー)が、時間及び周波数が位置合わせされた時間信号から導出される。該ピッチパワー密度から、参照信号及び劣化した信号の内部表現が、幾つかの工程で導出される。更に、同じくそれらの密度が使用されて、周波数応答歪み(frequency response distortions)(41)(FREQ)、付加雑音(additive noise)(42)(NOISE)、及び室内残響(frequency response distortions)(43)(REVERB)についての、最初の3つのPOLQA品質指標を導出する(40)。これら3つの品質指標(41、42及び43)は、大きな範囲の種々の歪みタイプにわたるバランスのとれた影響分析を可能にする為に、主外乱指標から別々に計算される。これらの指標は、劣化分解手法を使用して、音声信号に見られた劣化のタイプをより詳細に分析する為にも使用されることができる。
述べられたように、参照信号及び劣化した信号の該内部表現の4つの異なる変形が(7、8、9、及び10)において計算され、2つの変形は、通常の歪み及び大きい歪みに関する外乱を対象とし、2つは、通常の歪み及び大きい歪みに関する付加された外乱を対象とする。これら4つの変形(7、8、9、及び10)は、最終的な外乱密度の計算への入力となる。
該参照(3)の該内部表現は、理想的表現と称される。これは、該参照中の低レベルの雑音が除去され(工程33)、元の参照録音の非最適な音色から生じた可能性のある、該劣化した信号中に見られる音色歪みが部分的に補償される(工程35)からである。
演算子(7、8、9、及び10)を使用して計算された該理想的内部表現及び劣化した内部表現の該4つの異なる変形が使用されて、2つの最終的な外乱密度(142及び143)を計算し、一方は、全体的な劣化を対象とする時間及び周波数の関数としての最終的な外乱(142)を表し、一方は、時間及び周波数の関数であるが付加された劣化の処理を対象とする最終的な外乱(143)を表す。
図4は、2つの最終的な外乱密度(142及び143)、並びにFREQ(41)、NOISE(42)、REVERB(43)指標からの、客観的MOSスコアであるMOS-LQOの計算の概要を与える。
定数設定の事前算出
サンプル周波数に応じたFFT窓サイズ
POLQAは、8、16、及び48kHzサンプリング、の3つの異なるサンプルレートで動作し、それらに対して、人間の聴覚系の時間分析窓に合わせる為に、窓サイズWが、それぞれ256、512、及び2048サンプルに設定される。連続したフレーム間の重なりは、Hann窓を使用すると50%である。複素FFT成分の二乗された実数部と二乗された虚数部との和であるパワースペクトルが、該参照信号と該劣化した信号の両方について、別々の実数値アレイに記憶される。単一のフレーム内の位相情報はPOLQAでは破棄され、全ての計算はパワー表現のみに基づく。
開始/停止点の計算
主観的試験において、雑音は、通常、該参照信号中で音声活動の始まる前に開始する。しかしながら、主観的試験における先頭の定常状態雑音が、定常状態雑音の影響を減じるのに対し、先頭の雑音を考慮する客観的な測定では、それが該影響を増大させると予想することができ、それ故に、先頭及び末尾の雑音を除外することが適正な知覚的手法であると予想される。それ故に、利用可能な訓練データ中で該予想が正しいことを確認した後で、POLQA処理で使用される開始点及び停止点が、参照ファイルの始め及び最後から計算される。5つの連続した絶対サンプル値(通常の16ビットのPCM範囲-+32,000を使用する)の和は、当該位置が開始部又は最後として指定される為には、元の音声ファイルの始め及び最後から500を超えなければならない。この開始部と最後との間の間隔が、有効処理間隔として定義される。この間隔の外側の歪みは、該POLQA処理において無視される。
パワーススケーリング係数SP及びラウドネススケーリング係数SL
FFTの時間から周波数への変換の較正の為に、73dB SPLに向けた参照信号X(t)の較正を使用して、1000Hzの周波数及び40dB SPLの振幅をもつサイン波が生成される。このサイン波は、工程18及び工程49で、それぞれX(t)及びY(t)について、サンプリング周波数によって決定される長さの窓付きFFTを使用して、周波数ドメインに変換される。(21及び54)において周波数軸をBark尺度に変換した後、次いで、その結果得られたピッチパワー密度のピーク振幅が、X(t)及びY(t)に対してそれぞれパワースケーリング係数SP(20及び55)との乗算により、10のパワー値に正規化される。
同じ40dB SPLの参照トーンが使用されて、心理音響学(Sone)ラウドネス尺度を較正する。Zwickerの法則を使用して強度軸をラウドネス尺度にゆがませた後、X(t)及びY(t)に対してそれぞれラウドネススケーリング係数SL(31)及び(59)を使用して、(30)及び(58)において、Bark周波数尺度によるラウドネス密度の積分が1Soneに正規化される。
ピッチパワー密度のスケーリング及び計算
該劣化した信号Y(t)(5)較正係数にC(47)が乗算され(46)、これは、デジタル領域におけるdB過負荷から音響領域におけるdB SPLへのマッピングを扱うものであり、次いで、50%重なっているFFTフレームを用いて時間-周波数ドメインに変換される(49)。該参照信号X(t)(3)は、時間-周波数ドメインに変換される(18)前に、約73dB SPLに相当する、予め決められた、固定された最適レベルに向かってスケーリングされる17。この較正手順は、該劣化した信号と参照信号の両方が、予め決められた、固定された最適レベルに向かってスケーリングされる、PESQで使用される手順と本質的に異なる。PESQは、全ての再生が同じ最適な再生レベルで行われることを前提とするのに対し、該POLQAの主観的試験では、該最適レベルに対して20dB~+6のレベルが使用される。よって、該POLQAの知覚モデルでは、予め決められた、固定された最適レベルに向かうスケーリングを使用することができない。
該レベルスケーリングの後、該参照信号及び劣化した信号は、窓付き(windowed)FFT手法を使用して、該時間-周波数ドメインに変換される(18、49)。該劣化した信号の周波数軸が該参照信号と比較されたときにゆがんでいるファイルの場合、周波数ドメインにおけるゆがみ補正が、該FFTフレームに対して実行される。このゆがみ補正の第1の工程において、後続の計算に対する、非常に狭い周波数応答歪みと、全体的なスペクトル形状差分との両方の影響を低減する為に、参照FFTパワースペクトルと劣化したFFTパワースペクトルとの両方が前処理される。前処理(77)は、該パワースペクトルを平滑化、圧縮、及び平坦化することからなりうる。平滑化動作は、(78)においてFFT帯域にわたるパワーのスライド窓平均を使用して行われるのに対し、該圧縮は、単に、各帯域において平滑化されたパワーの対数を取る(79)ことによって行われる。該パワースペクトルの全体形状は、(80)において該FFT帯域にわたる平滑化された対数パワーのスライド窓正規化を行うことによって、更に平坦化される。次に、現在の参照フレーム及び劣化したフレームのピッチが、確率的低調波ピッチアルゴリズムを使用して計算される。次いで、参照ピッチと劣化したピッチとの比(74)が使用されて、可能なゆがみ係数の範囲を決定する(工程84)。可能な場合、この検索範囲は、前のフレームペアと後のフレームペアのピッチ比を使用することによって拡大される。
該周波数位置合わせアルゴリズムは、次いで、該検索範囲を反復し、該劣化したパワースペクトルを現在の反復のゆがみ係数でゆがめ(85)、該ゆがめたパワースペクトルを、上記において説明された該前処理77を使用して処理する(88)。次いで、該処理された参照スペクトルと処理されたゆがんだ劣化したスペクトルとの相関が、1500Hzより下のビンの為に算出される(工程89)。該検索範囲を全て反復した後、「最良の」(すなわち、結果として最も高い相関となった)ゆがみ係数が、工程90において取り出される。該処理された参照スペクトルと最良のゆがめた劣化したスペクトルとの相関は、次いで、元の処理された参照スペクトルと劣化したスペクトルとの相関と比較される。該「最良の」ゆがみ係数は、該相関が設定された閾値だけ増大する場合、保持される(97)。必要であれば、該ゆがみ係数は、(98)において、該前のフレームペアについて決定された該ゆがみ係数に対する最大相対変化によって制限される。
参照信号と劣化した信号の周波数軸を位置合わせする為に必要でありうる該ゆがみ補正の後、Hz単位の周波数尺度が、工程21及び工程54において、低い周波数では人間の聴覚系は高い周波数よりも細かい周波数分解能を有することを反映する、Barkのピッチ尺度に向かってゆがめられる。これは、FFT帯域をビニングし、合計される部分の正規化と共に該FFT帯域の対応するパワー同士を合計することによって実現される。ヘルツ単位の該周波数尺度を、Bark単位の該ピッチ尺度にマッピングするゆがみ関数は、この目的の為に該文献に与えられた、当業読者に既知である、値を近似する。その結果得られる参照信号及び劣化した信号は、ピッチパワー密度PPX(f)(図1には示されていない)及びPPY(f)(56)として知られており、fは、Bark単位の周波数であり、添え字nは、フレームインデックスを表す。
音声アクティブフレーム、無音フレーム及び超無音フレーム(Silent and Super Silent Frames)の算出(工程25)
POLQAは、工程25に区別されている、次の3つの部類のフレームに動作する。
・該参照信号のフレームレベルが、平均よりも約20dB低いレベルを上回る音声アクティブフレーム、
・該参照信号のフレームレベルが、平均よりも約20dB低いレベルを下回る無音フレーム、及び
・該参照信号のフレームレベルが、平均よりも約35dB低いレベルを下回る超無音フレーム。
周波数指標、雑音指標及び残響指標の計算
周波数応答歪み、雑音、及び室内残響の大域的影響が、工程40で、別々に定量化される。合計の大域的周波数応答歪みの影響について、参照信号及び劣化した信号の平均スペクトルから指標(41)が計算される。付加雑音に関係なく周波数応答歪みの影響の推定を行う為に、該参照信号の該無音フレームにわたる該劣化した信号の平均雑音スペクトル密度が、該劣化した信号のピッチラウドネス密度から減算される。その結果得られる、該劣化した信号のピッチラウドネス密度と、該参照信号のピッチラウドネス密度とが、次いで、該参照ファイル及び劣化したファイルについての全ての音声アクティブフレームにわたって各Bark帯域で平均される。次いで、これら2つの密度の間のピッチラウドネス密度の差分が、ピッチにわたって積分されて、周波数応答歪み(FREQ)の影響を定量化する為の指標(41)を導出する。
付加雑音の影響について、指標(42)が、該参照信号の該無音フレームにわたる該劣化した信号の平均スペクトルから計算されうる。該無音フレームにわたる該劣化した信号の該平均ピッチラウドネス密度とゼロの参照ピッチラウドネス密度との間の差分が、付加雑音の影響を定量化する雑音ラウドネス密度関数を決定する。この雑音ラウドネス密度関数が、次いでピッチにわたって積分されて、平均雑音影響指標(42)(NOISE)を導出する。よって、この指標(42)は、雑音のある参照信号を使用して測定される透過チェーン(transparent chain)が最終的なPOLQA終端間音声品質測定において最大のMOSスコアを与えないように、理想的な無音から計算される。
室内残響の影響の場合、時間に対するエネルギー関数(ETC)が、参照時系列及び劣化した時系列から計算される。該ETCは、系H(f)のインパルス応答h(t)の包絡線を表し、これは、Y(f)=H(f)・X(f)と定義され、ここで、Y(f)は、該劣化した信号のレベル位置合わせされた表現のスペクトルであり、X(f)は、該参照信号のスペクトルである。レベルの位置合わせ(雑音抑制)は、該参照信号と劣化した信号との間の大域的及び局所的利得差分を抑制する為に実施される。これは、例えば劣化した音声信号の(又は該参照信号又は両方)スケーリングを行う第1の工程と、それに続く、該劣化した信号中のピーク又はスパイクを除去又は抑制することによる平滑化とによって実施される。その後、該レベルの位置合わせを確定する為に、第2のスケーリング工程が行われて両信号中の音量を平らにする。該インパルス応答h(t)は、逆離散フーリエ変換を使用してH(f)から計算される。該ETCは、正規化及びクリッピングを通じて、h(t)の絶対値から計算される。
ハミング窓を使用した音声信号に対する窓処理動作の一例が図7A~図7Cに模式的に示されている。図7Aは、ハミング窓関数(300)の模式図である。該ハミング窓関数は、1.0の最大値を有し、両端で値0.0を有する、ベル形状の関数である。任意の音声信号(301)が図7Bに示されている。該音声信号(301)に対する窓処理動作(320)(図8)は、図7Cに示されているように、該ハミング窓(300)と該音声信号(301)との間の局所的畳み込みを取ることによって行われうる。該ハミング窓(300)は、畳み込み工程で作成されることになるオーディオサンプルの時間ドメインフラクション(305)と一致する幅を有する。後続のハミング窓(300)が該音声信号(301)に適用されて、複数の重なり合うデジタルオーディオサンプル(308)を得る。図7Cにおいて、図中で該デジタルオーディオサンプル(308)を互い違いにすることにより、50%の重なりが示されている。該50%の重なりは、信号のあらゆる部分を、2つの後続のサンプル(308)にわたって完全に考慮させる。本発明において、該劣化した信号5及び該参照信号3に対して行われた窓処理動作によって得られたオーディオサンプル、例えばサンプル(308)、は、実施態様に応じて完全な劣化音声信号の区間を用いて又は用いずに、該残響指標(43)を計算する為に使用されうる。この窓処理は、該参照信号及び劣化した信号両方の相当部分に対して実施される。窓処理に使用される時間ドメインフラクション(305)の継続時間は、POLQAにおいて、単一のフレームの継続時間よりも有意に長い。適用される方法は、図8に模式的に示されている。
本発明の幾つかの実施態様に従い、計算される該残響指標(43)は、大域的又は全体的な参照信号(3)及び劣化した音声信号(5)と、それらの複数の局所的サンプル(309及び310)との両方に基づきうる。大域的な推定値を計算する為に、該大域的又は全体的な参照信号及び劣化した音声信号(3及び5)は、全体が考慮され得、又は長い継続時間の信号部分(例えば、5秒よりも長い、又は10秒よりも長い、などの任意の好適な継続時間)に分割されうる。短い局所的サンプル(309及び310)は、該参照信号及び劣化した音声信号(3及び5)又はその長い継続時間の信号部分に対して窓処理動作320a及び320bを行うことにより、又は、該参照信号X(t)(3)及び劣化した信号Y(t)(5)からの複数の信号フレームの統合若しくは合成により、得られうる。例えば、該短い局所的サンプル309及び310は、例えば0.5又は1.0秒の継続時間(本明細書において時間ドメインフラクション(305)と称されることもある)を有する音断片を含みうる。より小さい断片は、残響に関する少な過ぎる情報を提供することがありうる。該窓処理動作(320)(すなわち、320a及び320b)を使用して得られる短い継続時間の局所的断片(short duration local fractions)(309及び310)は、例えば、互いと50%の重なりを有するハミング窓300を適用することによって得られている。短い継続時間の局所的サンプル(309及び310)は、該劣化した音声信号(5)と、適用される窓関数(300)(例えばハミング窓関数)とを乗算することによって形成される。局所的残響指標の最適な決定の為に、対応する参照オーティオサンプルの音声が閾値を下回り、知覚的に無音の間隔を示す場合に、窓内のより早い段階で劣化したサンプルにより低い重みを与えるところの重み付け係数が使用されうる。この重み付けは、(321a及び321b)において行われる。その後、工程322a及び工程322bで、高速フーリエ変換(FFT)が、該サンプル(309及び310)並びに該全体的な劣化した音声信号(5)に対して行われる。該大域的参照信号及び劣化した音声信号(3及び5)は、工程340a及び工程340bで、該参照信号(3)及び劣化したデジタル信号(5)に高速フーリエ変換(FFT)を行うことによって処理される。工程322a/b及び340a/bの該FFTは、音声信号の寄与分を含んでいる周波数範囲の一部(例えば、5kHzよりも下、又は200Hz~4kHz)にわたって行われうる。
工程324及び工程342において、伝達関数H(f)が、周波数ドメインにある変換後の信号から計算される。インパルス応答信号が、工程326及び工程344において、逆FFTによって得られ、そこから、工程328及び工程346においてETCが計算されることができる。該ETCは、工程328及び工程346において、上記において説明された要領で、それらの長い継続時間の信号部分(又は該参照信号及び劣化した信号全体)(3及び5)と、該短い継続時間の局所的サンプル(309及び310)との両方に対して決定される。該ETCの各々で、工程330及び工程348において1以上のピークが特定され、このピークは、インパルス応答に基づくエネルギー時曲線の始まりの後、時間的に遅延して発生する。例えば、該曲線の始まりから少なくとも60ミリ秒後に発生する、3つの最も大きいピークが決定されうる。これらのピークにおけるエネルギーが決定され、工程332及び工程350で、時間軸上で各自の遅延位置と組み合わせて使用されて、局所的及び大域的残響指標を計算する。該局所的サンプル及び該大域的部分の両方について、部分的及び大域的残響指標が工程332及び工程350で計算され得、これが工程360において組み合わされて、その後使用される該残響指標(43)の良好な推定値を得る。
該大域的部分及び局所的サンプルの該ETCに基づき、工程330及び工程348において、複数の反射が各ETCの中で探索されうる。第1の工程で、単に直接音の後の該ETC曲線の最大値を決定することにより、最も大音量の反射が計算される。該POLQAモデルでは、直接音は、60ミリ秒以内に到達する全ての音と定義される。次に、該直接音のない間隔にわたって、且つ、該最も大音量の反射から100ミリ秒以内に到達する反射を考慮に入れずに、2番目に大音量の反射が決定される。次いで、該直接音のない間隔にわたって、且つ、該最も大音量の反射及び2番目に大音量の反射から100ミリ秒以内に到達する反射を考慮に入れずに、3番目に大音量の反射が決定される。次いで、これら3つの最も大音量の反射のエネルギー及び遅延が組み合わされて、該部分的及び大域的残響指標値を形成し、それがその後組み合わされて単一の残響指標(43)(REVERB)にされうる。
任意的に、該残響指標(43)の計算において、該部分的残響推定値の平均から1標準偏差分以内にある残響推定値だけが取り出されうる。それらは次いで、特定の方式で重み付けされうる。本明細書に記載される該方法を実施する為に開発されるコンピュータプログラム製品内で、これは例えば次のように実施されうる:
上記の代替として、該残響指標は、該短い継続時間の局所的サンプルのみに基づいて推定され得、これは、信号中の残響の量を推定する慣用的な様式に対する改良をすでに提供する。
該劣化した信号に向けた該参照信号の大域的及び局所的なスケーリング(工程26)
該参照信号は、この時点で、工程17に従って内部理想レベル、すなわち約73dB SPL相当、になっているのに対し、該劣化した信号は、(46)の結果、再生レベルと一致するレベルで表されている。該参照信号と劣化した信号との比較が行われる前に、該大域的レベルの差分が工程26において補償される。更に、十分に小さいレベル変動は、聴くだけの状況では被験者に認識できないことを加味する為に、局所的レベルの小さな変化が部分的に補償される。該大域的レベル等化(26)は、400~3500Hzの周波数成分を使用して、参照信号及び劣化した信号の平均パワーに基づいて実行される。該参照信号は、該劣化した信号に向けて大域的にスケーリングされ、よって、大域的再生レベル差分の影響は、処理のこの段階では維持される。同様に、ゆっくり変動する利得歪みについて、局所的なスケーリングが、参照音声ファイルと劣化した音声ファイル両方の全帯域幅を使用して、約3dBまでのレベル変化にわたって実施される。
線形周波数応答歪みに関する元のピッチパワー密度の部分的補償(工程27)
該試験対象システム内でフィルタリングによって誘発される線形周波数応答歪みの影響を正しくモデル化する為に、部分的補償手法が工程27で使用される。主観的試験における中程度の線形周波数応答歪みの非知覚可能性をモデル化する為に、該参照信号が、該試験対象システムの伝達特性を用いて部分的にフィルタリングされる。これは、全ての音声アクティブフレームにわたって該元のピッチパワー密度及び劣化したピッチパワー密度の平均パワースペクトルを計算することによって実行される。Barkビンごとに、部分的補償係数が、該劣化したスペクトルと該元のスペクトルとの比から計算される(27)。
マスク効果のモデル化、ピッチラウドネス密度励振の計算
工程30及び工程58において、ピッチパワー密度のスミアリングされた表現を計算することによって、マスキングがモデル化される。時間ドメインと周波数ドメイン両方のスミアリングが、図5a~図5cに示されている原理に従って考慮される。時間-周波数ドメインスミアリングは、畳み込み手法を使用する。このスミアリングされた表現から、該参照ピッチパワー密度及び劣化したピッチパワー密度の表現が再計算され、時間-周波数面において隣り合う大音量成分によって部分的にマスクされる低振幅の時間-周波数成分を抑制する。この抑制は、スミアリングされていない表現からのスミアリングされた表現の減算、及び該スミアリングされた表現による該スミアリングされていない表現の除算、という2つの異なる方法で実施される。その結果得られる鮮明化された該ピッチパワー密度表現は、次いで、次のように、Zwickerのパワー法則を修正したバージョンを使用して、ピッチラウドネス密度表現に変換され、
SLは、ラウドネススケーリング係数であり、P(f)は、絶対聴取閾値であり、f及びPfnは、
によって定義される周波数及びレベルに依存する補正であり、fは、Bark単位の周波数を表し、PPX(f)は、周波数時間セルf,nにおけるピッチパワー密度を表す。その結果得られる2次元アレイLX(f)及びLY(f)は、ピッチラウドネス密度と呼ばれ、それぞれ、該参照信号X(t)の場合工程30の出力、該劣化した信号Y(t)の場合工程58の出力にある。
参照信号及び劣化した信号中の大域的な低レベル雑音の抑制
該試験対象システム(例えば、透過チェーン)によって影響されない該参照信号中の低レベルの雑音は、絶対範疇尺度試験手順であることから、被験者によって該試験対象システムに起因するものとされる。よって、それらの低レベルの雑音は、該参照信号の内部表現の計算の際に抑制されなければならない。この「理想化プロセス」は、工程33において、該超無音フレームにわたってピッチの関数として該参照信号LX(f)の平均定常状態雑音ラウドネス密度を計算することによって実施される。この平均雑音ラウドネス密度は次いで、該参照信号の全てのピッチラウドネス密度フレームから部分的に減算される。その結果は、工程33の出力における、該参照信号の理想化された内部表現である。
該劣化した信号中で可聴である定常状態雑音は、非定常状態雑音よりも影響が低い。このことは全てのレベルの雑音に成立し、この効果の影響は、該劣化した信号から定常状態雑音を部分的に除去することによってモデル化されることができる。これは、工程60で、該参照信号の対応するフレームが超無音として分類される、該劣化した信号LY(f)のフレームの平均定常状態雑音ラウドネス密度を、ピッチの関数として計算することによって実施される。この平均雑音ラウドネス密度が次いで、該劣化した信号の全てのピッチラウドネス密度フレームから部分的に減算される。この部分的補償は、低レベルの雑音と高レベルの雑音とに異なる戦略を使用する。該低レベルの雑音の場合、該補償はわずかであるに過ぎないのに対し、使用される抑制は、高音量の付加雑音に対してより積極的になる。その結果は、該参照信号の理想化された雑音のない表現を使用して、聴取試験で観察される主観的影響に合わせて適合された付加雑音を伴う、該劣化した信号の内部表現(61)である。
上記の工程33において、該大域的低レベル雑音の抑制を行うのに加えて、該参照信号フレームの各々についてラウドネス指標(32)がまた決定される。該ラウドネス指標又はラウドネス値は、特定のタイプの歪みを重み付けする為の、ラウドネスに依存する重み付け係数を決定する為に使用されうる。重み付け自体は、工程125及び工程125’において、演算子(7、8、9及び10)によって与えられている4つの歪みの表現に対して実施され得、最終的な外乱密度(142及び143)を与える。
従って、該ラウドネスレベル指標は工程33で決定されているが、該ラウドネスレベル指標は、該方法の別の部分で各参照信号フレームに対応して決定されうることを認識しうる。工程33において、該ラウドネスレベル指標を決定することは、該平均定常状態雑音ラウドネス密度が該超無音フレームにわたって参照信号LX(f)に対してすでに決定されており、それが次いで全ての参照フレームの雑音のない参照信号の構築で使用されることから、可能である。しかしながら、これを工程33で実施することは可能であるものの、最も好ましい実装方式ではない。
代替的には、該ラウドネスレベル指標(LOUDNESS)は、工程35に続く追加的な工程で、該参照信号から取られうる。この追加的な工程も、図1に、点線の出力(LOUDNESS)(32’)と共に点線の枠(35’)として示されている。工程35’において実装される場合、当業読者は認識しうるように、工程33から該ラウドネスレベル指標を受け取ることは必要でなくなる。
劣化した信号と参照信号の間の時間変動する利得に関する歪んだピッチラウドネス密度の局所的スケーリング(工程34及び工程63)
利得の低速の変動は可聴でなく、小さな変化は、参照信号表現の計算のときにすでに補償されている。正しい内部表現が計算されることができる前に必要な残りの補償は、次の2つの工程で実施される;第1に、工程34で、該劣化した信号のラウドネスが該参照信号のラウドネス未満である信号レベルについて、該参照信号が補償され、第2に、工程63で、該参照信号のラウドネスが該劣化した信号のラウドネス未満である信号レベルについて、該劣化した信号が補償される。
第1の補償(34)は、該劣化した信号が、例えば時間クリッピングの状況で、信号の深刻な損失を示す信号の部分について、該参照信号をより低いレベルに向けてスケーリングする。該スケーリングは、参照信号と劣化した信号との間の残りの差分が、局所的な知覚される音声品質に対する時間クリップの影響を表すようなものである。該参照信号のラウドネスが該劣化した信号のラウドネス未満である部分は、補償されず、よって、付加雑音及び大きなクリック音は、この第1の工程では補償されない。
第2の補償(63)は、該劣化した信号がクリック音を示す該信号の部分、及び無音区間中に雑音がある該信号の部分について、該劣化した信号をより低いレベルに向けてスケーリングする。該スケーリングは、参照信号と劣化した信号との間の残りの差分が、該局所的な知覚される音声品質に対する、クリック音及びゆっくりと変化する付加雑音の影響を表すようなものである。クリック音は、無音部分及び音声アクティブ部分の両方で補償されるが、該雑音は無音部分のみで補償される。
線形周波数応答歪みに関する元のピッチラウドネス密度の部分的補償(工程35)
知覚不可能な線形周波数応答歪みは、工程27で該ピッチパワー密度領域において該参照信号を部分的にフィルタリングすることにより、すでに補償された。線形歪みは非線形歪みほど不快でないということについて更に補正を行う為に、該参照信号は、今度は、工程35において、該ピッチラウドネス領域において部分的にフィルタリングされる。これは、全ての音声アクティブフレームにわたって元のピッチラウドネス密度及び劣化したピッチラウドネス密度の平均ラウドネススペクトルを計算することによって実行される。Barkビンごとに、部分的補償係数が、該劣化したラウドネススペクトルと該元のラウドネススペクトルとの比から計算される。この部分的補償係数は、該参照信号を、平滑化され、より低い振幅のバージョンの該試験対象システムの周波数応答で、フィルタリングする為に使用される。このフィルタリングの後、線形周波数応答歪みの結果生じる、該参照ピッチラウドネス密度と該劣化したピッチラウドネス密度との間の差分は、該知覚される音声品質に対する線形周波数応答歪みの影響を表すレベルまで低減されている。
該ピッチラウドネス密度の最終的なスケーリング及び雑音抑制
この時点まで、該信号に対する全ての計算は、主観的実験で使用される再生レベルで実施される。低い再生レベルの場合、これは結果として、参照ピッチラウドネス密度と劣化したピッチラウドネス密度との間の小さい差分となり、一般には、聴取音声非品質の楽観的過ぎる推定である。この効果を補償する為に、該劣化した信号が、今度は、工程64において、「仮想の」固定された内部レベルに向かってスケーリングされる。このスケーリングの後、該参照信号は、工程36において、該劣化した信号レベルに向かってスケーリングされ、該参照信号と劣化した信号は両方とも、これで、それぞれ(37)及び(65)における最終的な雑音抑制動作が可能な状態となる。この雑音抑制は、音声品質の計算に対して依然として大き過ぎる影響を有する、該ラウドネス領域の定常状態雑音レベルの最後の部分を扱う。その結果得られる信号(13及び14)は、これで、知覚的な関連する内部表現領域にあり、理想的なピッチ-ラウドネス-時間LX理想(f)関数(13)及び劣化したピッチ-ラウドネス-時間LY劣化(f)関数(14)から、外乱密度(142及び143)が計算されることができる。該理想的な及び劣化したピッチ-ラウドネス-時間関数の4つの異なる変形が、(7、8、9及び10)において計算され、2つの変形(7及び8)は、通常の歪み及び大きい歪みに関する外乱を対象とし、2つ(9及び10)は、通常の歪み及び大きい歪みに関する付加された外乱を対象とする。
最終的な外乱密度の計算
該外乱密度(142及び143)の2つの異なるフレーバーが計算される。第1のフレーバーである通常外乱密度は、(7及び8)において、該理想的なピッチ-ラウドネス-時間LX理想(f)と劣化したピッチ-ラウドネス-時間関数LY劣化(f)との間の差分から導出される。第2のフレーバーは、(9及び10)において、導入された劣化に関して最適化されたバージョンを使用して、該理想的なピッチ-ラウドネス-時間及び該劣化したピッチ-ラウドネス-時間関数から導出され、付加された外乱と呼ばれる。この付加された外乱の計算では、該劣化したパワー密度が該参照パワー密度よりも大きい信号部分が、各ピッチ-時間セルにおけるパワー比に依存した係数、すなわち非対称性係数、で重み付けされる。
大きな範囲の歪みに対処できるようにする為に、2つの異なるバージョンの処理が実行され、一方は、(7及び9)に基づく小~中程度の歪みを対象とし、一方は、(8及び10)に基づく中程度~大きい歪みを対象とする。これら2つの間の切替は、小~中程度のレベルの歪みを対象とする外乱からの第1の推定に基づいて実行される。この処理手法は、単一の外乱関数及び単一の付加外乱関数(図3を参照)を計算できるようにする為に、4つの異なる理想的ピッチ-ラウドネス-時間関数と、4つの異なる劣化したピッチ-ラウドネス-時間関数とを計算する必要性につながり、該外乱関数はその後、幾つかの異なる種類の深刻な量の特定の歪みについて補償される。
最適な聴取レベルの深刻な逸脱が、該劣化した信号の信号レベルから直接導出された指標により、(127及び127’)において定量化される。この大域的指標(レベル)は、該MOS-LQOの計算でも使用される。
フレームの繰り返しによって導入される深刻な歪みが、(128及び128’)において、該参照信号の連続するフレームの相関と、該劣化した信号の連続するフレームの相関との比較から導出された指標により、定量化される。
該劣化した信号の最適な「理想の」音色からの深刻な逸脱は、(129及び129’)において、高い方の周波数帯と低い方の周波数帯との間のラウドネスの差分から導出される指標により、定量化される。音色指標が、劣化した信号の、低周波数部分では2~12Bark、より高い範囲では7~17BarkであるBark帯域(すなわち、5Barkの重なりを使用する)でのラウドネスの差分から計算され、これは、それが参照音声ファイルの不正確な声音色の結果でありうるということに関係なく、あらゆる深刻なアンバランスを「罰する」。補償は、フレームごとに、大域的レベルで実行される。この補償は、該劣化した信号の下方及び上方のBark帯域(12Barkより下及び7Barkより上、すなわち、5Barkの重なりを使用する)におけるパワーを計算し、それが参照音声ファイルの不正確な声音色の結果でありうるということに関係なく、あらゆる深刻なアンバランスを「罰する」。よって、過度に多くの雑音及び/又は不正確な声音色を含んでいる、あまりよく録音されていない参照信号を使用する透過チェーンは、POLQAの終端間音声品質測定で最大のMOSスコアを与えないことに留意されたい。この補償は、透過であるデバイスの品質を測定する際にも影響を有する。該最適な「理想の」音色からの有意な逸脱を示す参照信号が使用される場合、該試験対象システムは、該システムが該参照信号に劣化を全く導入しなくても、非透過と判断される。
外乱の深刻なピークの影響は、(130及び130’)において、該MOS-LQOの計算でも使用される平坦性(FLATNESS)指標として定量化される。
被験者の雑音への注目を対象とする深刻な雑音レベル変動が、(131及び131’)において、対応する参照信号フレームが無音である劣化した信号フレームから導出された雑音コントラスト指標によって定量化される。
工程133及び工程133’で、外乱が実際の話された声と一致するか否かに応じて該外乱を重み付けする為に、重み付け動作が行われる。該劣化した信号の品質又は明瞭度を査定する為に、無音期間中に知覚される外乱は、実際の話された声の最中に知覚される外乱ほど有害であるとはみなされない。それ故に、工程33(又は代替的には工程35’)で該参照信号から決定される該ラウドネス指標に基づいて、外乱を重み付けする為に重み付け値が決定される。該重み付け値は、該劣化した音声信号の品質又は明瞭度に対する外乱の影響を評価に取り込む為に、差分関数(すなわち、外乱)を重み付けする為に使用される。特に、該重み付け値は該ラウドネス指標に基づいて決定されるので、該重み付け値は、ラウドネスに依存する関数によって表されうる。ラウドネスに依存する重み付け値は、該ラウドネス値を閾値と比較することによって決定されうる。該ラウドネス指標が該閾値を超える場合、知覚される外乱は、該評価を行う際に完全に考慮に入れられる。これに対し、該ラウドネス指標が該閾値より小さい場合、該重み付け値は、該ラウドネスレベル指標に依存するようにされ、すなわち、この例において、該重み付け値は、該ラウドネスレベル指標に等しくなる(ラウドネスが該閾値を下回る状況で)。利点は、例えば休止又は無音の直前に話された単語の終わりにある、音声信号の弱い部分について、外乱が該品質又は明瞭度にとって有害であるとして部分的に考慮されることである。一例として、単語の終わりで文字「f」を言うときに知覚される一定量の雑音は、聞き手にそれを文字「s」として知覚させうることを認識しうる。これは、該品質又は明瞭度にとって有害でありうる。これに対し、当業者は、該ラウドネス値が上記において言及された該閾値を下回るときに該重み付け値をゼロにすることにより、無音又は休止中に一切の雑音を単に無視することも可能であることを認識しうる。
再度図3を続けると、位置合わせにおける深刻な飛びが該位置合わせ中に検出され、該影響が、工程136及び工程136’において補償係数によって定量化される。
最後に、該外乱及び付加された外乱密度が、(137及び137’)において、最大レベルにクリップされ、該参照信号のラウドネスにおける外乱(138及び138’)の分散並びに飛び(140及び140’)の影響が使用されて、該外乱の特定の時間構造を補償する。
これは、平常の外乱に対する最終的な外乱密度D(f)(142)と、付加された外乱に対する最終的な外乱密度DA(f)(143)とをもたらす。
ピッチ、スパート、及び時間に対する外乱の集計、中間MOSスコアへのマッピング
該最終的な外乱D(f)(142)及び付加された外乱DA(f)密度(143)は、L積分(153及び159)(図4を参照)を使用して、ピッチ軸上でフレームごとに積分されて、結果としてフレーム当たり2つの異なる外乱を生じ、一方は該外乱から導出されたものであり、一方は該付加された外乱から導出されたものである:
ここで、Wは、該Barkビンの幅に比例する一連の定数である。
次に、フレームごとのこれら2つの外乱が、音声スパートとして定義される、6つの連続した音声フレームを連結したものにわたって平均され、L(155)及びL(160)の重み付けが、それぞれ該外乱と該付加された外乱とに行われる。
最後に、外乱及び付加された外乱が、ファイルごとに、L(156及び161)の時間にわたる平均化から計算される:
該付加された外乱は、工程161で、該REVERB指標(42)及び雑音指標(43)を使用して、大音量の残響及び大音量の付加雑音について補償される。2つの外乱は、次いで該周波数指標(41)(FREQ)と組み合わされて(170)、内部指標を導出し、それが3次の回帰多項式で線形化されて、MOSに似た中間指標(171)を得る。
最終的なPOLQA MOS-LQOの算出
未処理のPOLQAスコアは、工程175で次の4つの異なる補償を全て使用して、該MOSに似た中間指標から導出される:
・該外乱の特定の時間-周波数特性に関する2つの補償。一方は、周波数(148)、スパート(149)、及び時間(150)にわたるL511集約によって計算され、一方は、周波数(145)、スパート(spurt)(146)、及び時間(147)にわたるL313集約によって計算される
・レベル指標を使用した、非常に低い提示レベルについての1つの補償
・周波数ドメインにおける平坦性(FLATNESS)指標を使用した、大きい音色歪みについての1つの補償。
このマッピングの訓練は、POLQAベンチマークの一部ではなかった劣化を含む、劣化の大きなセットで実行される。これらの未処理のMOSスコア(176)は、該MOSに似た中間指標(171)の計算で使用された該3次多項式マッピングによってすでに線形化されている主要部分についてのものである。
最後に、該未処理のPOLQA MOSスコア(176)が、POLQAの標準化の最終段階で利用可能であったような62個のデータベースに関して最適化されている3次多項式を使用して、(180)において、MOS-LQOスコア(181)に向かってマッピングされる。狭帯域モードでは、該最大のPOLQA MOS-LQOスコアは4.5であるのに対し、超広帯域モードでは、この点は4.75にある。理想化プロセスの重要な結果の一つは、一部の状況下では、該参照信号が雑音を含んでいるとき、又は声音色がひどく歪んでいるとき、透過チェーンは、狭帯域モードでの4.5の最大のMOSスコアも、超広帯域モードでの4.75も与えなくなることである。
本発明に従う子音-母音-子音補償は、以下のように実施されうる。図1において、参照信号フレーム(220)及び劣化した信号フレーム(240)が、示されているように得られうる。例えば、参照信号フレーム(220)は、該参照信号をバークにゆがめる工程21から得られうるのに対し、劣化した信号フレームは、該劣化した信号に対して行われる対応すること(54)から得られうる。図1に示されているような、該参照信号フレーム及び/又は該劣化した信号フレームが本発明の方法から得られる正確な場所は、例に過ぎない。該参照信号フレーム(220)及び該劣化した信号フレーム(240)は、図1の他の工程のいずれかから、特に、参照信号X(t)(3)の入力と、工程26における劣化したレベルへの大域的及び局所的なスケーリングとの間のどこかで、得られうる。該劣化した信号フレームは、該劣化した信号Y(t)(5)の入力と工程54との間のいずれかの位置で得られうる。
子音-母音-子音補償(consonant-vowel-consonant compensation)は、図6に示されているように進行する。はじめに、工程222で、該参照信号フレーム(220)の信号パワーが、所望の周波数ドメイン内で計算される。該参照フレームについて、この周波数ドメインは、最も最適な状況では、音声信号(例えば、300ヘルツ~3500ヘルツの周波数範囲)のみを含む。次いで、工程224で、この参照信号フレームをアクティブ音声(active speech)参照信号フレームとして含めるか否かについての選択が、該計算された信号パワーを第1の閾値(228)及び第2の閾値(229)と比較することによって行われる。該第1の閾値は、例えば、POLQA(ITU-T勧告P.863)に記載される該参照信号のスケーリングを使用する場合、7.0×10に等しいものであり得、該第2の閾値は、2.0×2×10に等しいものでありうる。同様に、工程225で、該計算された信号パワーを第3の閾値(230)及び第4の閾値(231)と比較することにより、ソフト音声(soft speech)参照信号(子音の重要部分)に対応する該参照信号フレームが処理の為に選択される。該第3の閾値(230)は、例えば2.0×10に等しいものであり得、該第4の閾値は7.0×10に等しいものでありうる。
工程224及び工程225は、アクティブ音声部分及びソフト音声部分、それぞれアクティブ音声参照信号部分フレーム(234)及びソフト音声参照信号部分フレーム(235)に対応する参照信号フレームをもたらす。これらのフレームは、下記で解説される工程260に提供される。
該参照信号の関連する信号部分の計算と全く同様に、該劣化した信号フレーム(240)も、はじめに、工程242において所望の周波数ドメインで信号パワーを計算する為に分析される。該劣化した信号フレームの場合、話された声の周波数範囲と、可聴の雑音の大半が存在する周波数範囲、例えば300ヘルツ~8000ヘルツの周波数範囲、とを含む周波数範囲内で該信号パワーを計算することが有利となる。
工程242の該計算された信号パワーから、関連するフレーム、すなわち、関連する参照フレームに関連付けられたフレーム、が選択される。選択が工程244及び工程245で行われる。工程245において、各劣化した信号フレームに対して、それが、工程225でソフト音声参照信号フレームとして選択された参照信号フレームと時間的に位置合わせされているか否かが判定される。劣化したフレームがソフト音声参照信号フレームと時間的に位置合わせされている場合、該劣化したフレームは、ソフト音声劣化信号フレームとして特定され、該計算された信号パワーが、工程260の計算で使用される。そうでない場合、該フレームは、工程247における補償係数の計算の為にソフト音声劣化信号フレームとして破棄される。工程244において、各劣化した信号フレームに対して、それが、工程224でアクティブ音声参照信号フレームとして選択された参照信号フレームと時間的に位置合わせされているか否かが判定される。劣化したフレームがアクティブ音声参照信号フレームと時間的に位置合わせされている場合、該劣化したフレームはアクティブ音声劣化信号フレームとして特定され、該計算された信号パワーが工程260の計算で使用される。そうでない場合、該フレームは、工程247における補償係数の計算の為にアクティブ音声劣化信号フレームとして破棄される。これは、該ソフト音声劣化信号部分フレーム(254)及び該アクティブ音声劣化信号部分フレーム(255)をもたらし、それらが工程260に提供される。
工程260は、該アクティブ音声参照信号部分フレーム(234)、該ソフト音声参照信号部分フレーム(235)、該ソフト音声劣化信号部分フレーム(254)、及び該アクティブ音声劣化信号部分フレーム255を入力として受け取る。工程260において、それらのフレームの該信号パワーが処理されることにより、該アクティブ音声及びソフト音声参照信号部分と、該アクティブ音声及びソフト音声劣化信号部分とに対応する平均信号パワーを決定し、そこから(同じく工程260で)、子音-母音-子音信号対雑音比補償パラメータ(CVCSNR_係数)が次のように計算される:
パラメータΔ及びΔは、モデルの振る舞いを被験者の振る舞いに合わせて適合する為に使用される定数値である。この式中のその他のパラメータは以下の通りである:Pアクティブ,参照,平均は、平均のアクティブ音声参照信号部分信号パワーである。パラメータPソフト,参照,平均は、平均のソフト音声参照信号部分信号パワーである。パラメータPアクティブ,劣化した,平均は、平均のアクティブ音声劣化信号部分信号パワーであり、パラメータPソフト,劣化した,平均は、平均のソフト音声劣化信号部分信号パワーである。工程260の出力で、子音-母音-子音信号対雑音比補償パラメータCVCSNR_係数が与えられている。
該CVCSNR_係数は、工程262において、閾値、本例においては0.75、と比較される。該CVCSNR_係数がこの閾値よりも大きい場合、工程265の該補償係数は、1.0に等しいものとして決定される(補償は行われない)。該CVCSNR_係数が該閾値(ここでは0.75)よりも小さい場合、該補償係数は、工程267において、次のように計算される:該補償係数=(CVCSNR_係数+0.25)1/2(値0.25は1.0~0.75に等しいものと解釈され、ここでは、0.75は該CVCSNR_係数を比較する為に使用される閾値であることに留意されたい)。このようにして得られた補償係数(270)は、図4の工程182において、該MOS-LQOスコア(すなわち、全体的品質パラメータ)の乗数として使用される。認識されるように、(乗算による)補償は、必ずしも工程182で行われなくてもよく、工程175又は工程180のいずれか一方に組み込まれうる(その場合、工程182は図4の模式図からなくなる)。更に、本例において、補償は、該MOS-LQOスコアに、該に示されたようにして計算された該補償係数を乗算することによって達成される。補償は別の形態も取りうることが認識されるであろう。例えば、該CVCSNR_係数に応じて、得られた該MOS-LQOから変数を引く、又はそれに変数を足すことも可能でありうる。当業者は、本教示に沿った補償の他の意味を理解及び認識するであろう。
本発明は、その幾つかの特定の実施態様の点から説明された。図面に示され、本明細書に記載されている該実施態様は、例示のみを目的とされ、決して本発明を制限することは意図されないことが認識されるであろう。本発明の動作及び構成は、上述の説明及びそれに添付された図面から明らかになると考えられる。当業者には、本発明は、本明細書に記載されるどの実施態様にも制限されないこと、及び添付の特許請求の範囲内にあると考えられる変形が可能であることが明らかになろう。また、運動学的逆転が、本質的に開示され、本発明の範囲内にあるとみなされる。更に、特許請求の範囲に定められる本発明の範囲から逸脱することなく、開示された様々な実施態様の構成要素及び要素のいずれもが、必要である、望ましい、又は好ましいと考えられる場合、組み合わせられ得、又は他の実施態様に組み込まれうる。
特許請求の範囲において、参照符号は、請求項を制限するものと解釈されるべきではない。語「備えている」及び「含む」は、この説明又は添付の特許請求の範囲内で使用される場合、排他的又は排除的な意味で解釈されるのではなく、包含的な意味で解釈されるべきである。よって、本明細書で使用される表現「備える」は、任意の請求項に列挙されるものに加えて、他の要素又は工程の存在を除外しない。更に、語「1つ」(a)及び「1つ」(an)は、「1つのみの」に制限されると解釈されるべきではなく、そうではなく「少なくとも1つの」を意味する為に使用され、複数形を排除しない。具体的又は明示的に記載されない、又は請求されない特徴が、本発明の範囲内にある本発明の構造に追加的に包含されうる。表現、例えば「~の為の手段」は、「~の為に構成された構成要素」又は「~ように構成された部材」と読まれるべきであり、開示されている構造の相当物を包含するように解釈されるべきである。「重要な」、「好ましい」、「特に好ましい」などのような表現の使用は、本発明を制限することは意図されない。当業者の理解の範囲内にある追加、削除、及び変更が、特許請求の範囲によって決定される本発明の思想及び範囲から逸脱することなく、一般になされうる。本発明は、本明細書に具体的に記載されるのとは異なるようにして実施され得、添付の特許請求の範囲によって限定される。
参照番号
3:参照信号X(t)
5:劣化した信号Y(t)、振幅-時間
6:遅延識別、フレームペアの形成
7:差分の計算
8:差分計算の第1の変形
9:差分計算の第2の変形
10:差分計算の第3の変形
12:差分信号
13:内部表現の理想のピッチ-ラウドネス-時間 LX理想 (f) n
14:内部表現の劣化したピッチ-ラウドネス-時間 LY劣化 (f) n
17:固定された最適レベルに向かうグローバルスケーリング
18:窓付きFFT
20:スケーリング係数SP
21:Barkに対してゆがませる
25:(超)無音フレーム検出
26:劣化したレベルに対するグローバル及びローカル
27:部分周波数補償
30:心理音響学(Sone)に対する励起及びゆがみ
31:絶対閾値スケーリング係数SL
32:LOUDNESS
32’:LOUDNESS(代替工程35’に従って決定される)
33:大域的な低レベル雑音抑制
34:局所的なスケーリング、Y<Xの場合
35:部分的な周波数補償
35’:(代替的な)ラウドネス決定
36:劣化したレベルに対するスケーリング
37:大域的な低レベル雑音抑制
40:FREQ NOISE REVERB指標
41:FREQ指標
42:NOISE指標
43:REVERB指標
44:PW_R全体指標(劣化信号と参照信号との全体的な音声比)
45:W_Rフレーム指標(劣化信号と参照信号との、フレーム当たりの音声パワー比)
46:再生レベルに対するスケーリング
47:較正係数C
49:窓付きFFT
52:周波数位置合わせ
54:Barkに対してゆがませる
55:スケーリング係数SP
56:劣化した信号のピッチ-パワー-時間 PPY(f)n
58:心理音響学(Sone)に対する励起及びゆがみ
59:絶対閾値スケーリング係数SL
60:大域的な高レベル雑音抑制
61:劣化した信号のピッチ-ラウドネス-時間
63:局所的なスケーリング、Y>Xの場合
64:固定化された内部レベルに対するスケーリング
65:大域的な高レベル雑音抑制
70:参照スペクトラム
72:劣化したスペクトラム
74:現在の及び+/-1囲みフレームの参照ピッチと劣化したピッチとの比
77:前処理
78:FFTスペクトルの狭いスパイク及びドロップを平滑化する
79:スペクトルの対数をとり、最小強度の閾値を適用する
80:スライディング窓を使用して、全体の対数スペクトル形状を平坦化する
83:最適化ループ
84:ゆがみ係数の範囲:[最小ピッチ比<=1<=最大ピッチ比]
85:ゆがみ劣化したスペクトラム
88:前処理を適用
89:1500Hz未満のビンの為のスペクトルの相関を計算する
90:最良のゆがみ係数を追跡
93:劣化したスペクトラム
94:前処理を適用
95:3000Hz未満のビンの為のスペクトルの相関を計算する
97:相関が十分であれば、ゆがんだ劣化スペクトルを保持し、そうでなければオリジナルを復元する。
98:あるフレームから次のフレームへのゆがみ係数の変更を制限する
100:理想的な、通常
101:劣化した、レ通常
104:理想的な、大きな歪み
105:劣化した、大きな歪み
108:理想、付加された
109:劣化した、付加された
112:理想、大きな歪みが付加された
113:劣化した、大きな歪みが付加された
116:外乱密度通常選択
117:外乱密度、大きな歪み選択
119:付加された外乱密度選択
120:付加された外乱密度大きな歪み選択
121:PW_R全体、123スイッチング関数123への入力
122:PW_Rフレーム、スイッチング関数123への入力
123:大きな歪み決定(スイッチング)
125:特定の歪みの重篤な量の為の係数
125’:特定の歪みの重篤な量の為の訂正係数
127:レベル
127’:レベル
128:フレーム繰り返し
128’:フレーム繰り返し
129:音色
129’:音色
130:スペクトルの平坦性
130’:スペクトルの平坦性
131:無音期間における雑音コントラスト
131’:雑音無音期間における雑音コントラスト
133:歪み重み付けに依存するラウドネス
133’:歪み重み付けに依存するラウドネス
134:参照信号のラウドネス
134’:参照信号のラウドネス
136:位置合わせジャンプ
136’:位置合わせジャンプ
137:最大劣化にクリップする
137’:最大劣化にクリップする
138:外乱分散
138’:外乱分散
140:ラウドネスジャンプ
140’:ラウドネスジャンプ
142:最終的な外乱密度D(f) n
143:最終的な付加された外乱密度DA(f) n
145:L3周波数統合
146:L1スパート統合
147:L3時間統合
148:L5周波数統合
149:L1スパート統合
150:L1時間統合
153:L1周波数統合
155:L4スパート統合
156:L2時間統合
159:L1周波数統合
160:L1スパート統合
161:L2時間統合
170:中間MOSスコアへのマッピング
171:MOSのような中間指標
175:MOSスケール補償
176:生のMOSスコア
180: MOS-LQOへのマッピング
181:MOS LQO
182:CVC明瞭度補償(明瞭度モデルのみ)
185:短い正弦波トーン(short sinusoidal tone)の時間経過に伴う強度
187:短い正弦波トーン
188:第2の短い正弦波トーンの為の閾値をマスキングする
195:短い正弦波トーンの為の周波数に対する強度
198:短い正弦波トーン
199:第2の短い正弦波トーンの為の閾値を設定する
205: 3Dプロットにおける周波数及び時間に対する強度
211:抑制強度として使用される閾値をマスキングすることがシャープな内部表現をもたらす
220:参照信号フレーム(図1をまた参照)
222:音声領域(例えば、300Hz~3500Hz)における信号パワーを測定する
224:信号パワーを第1の閾値及び第2の閾値と比較し、そして、範囲内であれば選択する
225:信号パワーを第3の閾値と第4の閾値と比較し、範囲内であれば選択する
228:第1の閾値
229:第2の閾値
230:第3の閾値
231:第4の閾値
234:アクティブ音声参照信号フレームのパワー平均
235:ソフト音声参照信号フレームのパワー平均
240:劣化した信号フレーム(図1をまた参照)
242:音声及び可聴外乱の為のドメインにおける信号パワーを決定する(例えば、300Hz~8000Hz)。
244:劣化したフレーム時間が、選択されたアクティブ音声参照信号フレームと一致するか?
245:劣化したレーム時間が、選択されたソフト音声参照信号フレームと一致するか?
247:アクティブ/ソフト音声の劣化した信号フレームとして廃棄されたフレーム
254:ソフト音声劣化した信号フレームのパワー平均
255:アクティブ音声劣化した信号フレームのパワー平均
260:子音-母音-子音の信号対雑音比補償パラメータ(CVCSNR_係数)を計算する
262:CVCSNR_係数が補償の為の閾値(例えば、0,75)以下であるか。
265:いいえ->補償係数=1.0(補償無し)
267:はい->補償係数は、(CVCSNR_係数+0,25)&frac12;
270:MOS-LQOを補償する為に、工程182に補償値を提供する

Claims (17)

  1. 劣化したオーディオ信号の知覚される品質に対する、該劣化したオーディオ信号中のエコー又は残響の量の知覚的影響を判定する方法であって、ここで、該劣化したオーディオ信号は、オーディオ伝送システムから受信され、該劣化したオーディオ信号は、該劣化したオーディオ信号を提供するように該オーディオ伝送システムを通して参照オーディオ信号を伝達することによって得られ、該方法は、
    コントローラにより、該劣化したオーディオ信号から少なくとも1つの劣化したデジタルオーディオサンプルを、並びに該参照オーディオ信号から少なくとも1つの参照デジタルオーディオサンプルを取得すること、
    該コントローラにより、該少なくとも1つの劣化したオーディオサンプル及び該少なくとも1つの参照オーディオサンプルに基づいて局所的インパルス応答信号を決定すること、
    該コントローラにより、該インパルス応答信号に基づいてエネルギー時曲線を決定すること、ここで、該エネルギー時曲線が、該インパルス応答信号の絶対値の平方根に比例する、
    該エネルギー時曲線内で1以上のピークを識別すること、ここで、時間における該1以上のピークは、該インパルス応答に基づく該エネルギー時曲線の始まりの後、該エネルギー時曲線中で遅延して発生する、及び、
    該1以上のピークにおけるエネルギーの量に基づいてエコー又は残響の量の推定値を決定すること
    の工程を含み、
    該少なくとも1つの劣化したデジタルオーディオサンプルを取得する工程は、該劣化したオーディオ信号を時間ドメインフラクション内でサンプリングする工程を含み、該サンプリングは、該劣化したデジタルオーディオサンプルをもたらすように該劣化したオーディオ信号に窓関数を乗算することによって、該劣化したオーディオ信号に窓処理動作を実行することを含み、及び、
    該少なくとも1つの参照デジタルオーディオサンプルを取得する工程は、該参照オーディオ信号を時間ドメインフラクション内でサンプリングする工程を含み、該サンプリングは、該参照デジタルオーディオサンプルをもたらすように該参照オーディオ信号に該窓関数を乗算することによって該参照オーディオ信号に窓処理動作を実行することを含み、
    該少なくとも1つの参照デジタルオーディオサンプル及び該少なくとも1つの劣化したデジタルオーディオサンプルを得る為に使用される該窓関数は、サンプリングされるべき該時間ドメインフラクション内では非ゼロ値を有し、並びに該時間ドメインフラクションの外側ではゼロ値を有する、
    前記方法。
  2. 前記少なくとも1つの参照デジタルオーディオサンプルを取得する工程が、複数のデジタルオーディオサンプルを前記オーディオ信号から取得することを含み、ここで、前記複数のデジタルオーディオサンプルの各サンプルが窓処理動作を実行することによって取得され、該複数のデジタルオーディオサンプルのうちの少なくとも2つの逐次のデジタルオーディオサンプルの該時間ドメインフラクション同士は、重なり合う、請求項1に記載の方法。
  3. 前記少なくとも2つの逐次のデジタルオーディオサンプル間の重なりは、該時間ドメインフラクション間で10%~90%の重なりの範囲内、好ましくは25%~75%の重なりの範囲内、より好ましくは40%~60%の重なりの範囲内、例えば50%の重なり、である、請求項2に記載の方法。
  4. 前記窓関数が、ハミング窓、フォンハン窓、テューキー窓、コサイン窓、矩形窓、Bスプライン窓、三角形窓、バートレット窓、パルザン窓、ウェルチ窓、コサインのn乗窓(ここで、n>1)、カイザー窓、ナットール窓、ブラックマン窓、ブラックマン・ハリス窓、ブラックマン・ナットール窓、及びフラットトップ窓からなる群の少なくとも1つである、請求項1~3のいずれか1項に記載の方法。
  5. 該残響の量の推定値を決定する工程が、各ピークの大きさ又は時間軸に沿った各ピークの遅延位置に基づいて、各ピークにおけるエネルギーの量を重み付けすることを含む、請求項1~4のいずれか1項に記載の方法。
  6. 該コントローラにより、該劣化したオーディオ信号の少なくとも一部を表し並びに該少なくとも1つの劣化したデジタルオーディオサンプルの該時間ドメインフラクションよりも長い継続時間を有するところの劣化したデジタル信号を取得すること、
    該コントローラにより、該参照オーディオ信号の少なくとも一部を表し並びに該少なくとも1つの参照デジタルオーディオサンプルの該時間ドメインフラクションよりも長い継続時間を有するところの参照デジタル信号を取得すること、
    該コントローラにより、該少なくとも1つの劣化したデジタル信号及び該少なくとも1つの参照デジタル信号に基づいて、大域的インパルス応答信号を決定すること、
    該コントローラにより、該インパルス応答信号に基づいて大域的エネルギー時曲線を決定すること、ここで、該大域的エネルギー時曲線が、該大域的インパルス応答信号の絶対値の平方根に比例する、
    該エネルギー時曲線内で1以上のピークを識別すること、ここで、時間における該1以上の更なるピークは、該全体的インパルス応答信号に基づく該エネルギー時曲線の始まりの後に該エネルギー時曲線において遅延して発生し、及び該1以上の更なるピークにおけるエネルギーの量に基づいてエコー又は残響の該量の更なる推定値を決定すること
    の工程を追加的に含む、請求項1~5のいずれか1項に記載の方法。
  7. 残響の該量の更なる推定値を決定する工程が、各更なるピークの大きさに又は時間軸上での該各更なるピークの遅延位置に基づいて、各ピークにおけるエネルギーの量を重み付けすることを含む、請求項6に記載の方法。
  8. 該コントローラにより、該少なくとも1つの劣化したオーディオサンプル及び該少なくとも1つの参照オーディオサンプルから得られたエコー又は残響の前記推定された量に基づいて部分的残響指標値を計算すること、
    該コントローラにより並びに請求項6に従属する限り、エコー又は残響の前記更なる推定された量に基づいて大域的残響指標値を計算すること、
    該コントローラにより並びに請求項6に従属する限り、エコー又は残響の前記推定値及び前記更なる推定された量に基づいて最終的な残響指標値を計算すること
    の工程のうちの少なくとも1つを含む、請求項1~7のいずれか1項に記載の方法。
  9. 前記オーディオサンプルに基いて前記局所的インパルス応答信号を決定する工程、又は請求項6若しくは7に従属する場合に、前記デジタル信号に基いて前記大域的インパルス応答信号を決定する工程が、
    該コントローラにより、該オーディオサンプル又は該デジタル信号にフーリエ変換を適用することにより、該オーディオサンプル又は該デジタル信号を時間ドメインから周波数ドメインに変換すること、
    該コントローラにより、該周波数ドメイン中の該オーディオサンプル又は該デジタル信号から、パワースペクトル信号からの伝達関数を決定すること、及び、
    該コントローラにより、該局所的インパルス応答信号又は該大域的インパルス応答信号をもたらすように、該パワースペクトル信号を該周波数ドメインから該時間ドメインに変換すること
    を含む、請求項1~9のいずれか1項に記載の方法。
  10. 前記局所的インパルス応答信号を決定する工程が、対応する参照オーティオサンプルの音声が閾値を下回り、知覚的に無音の間隔を示す場合に、窓内のより早い段階で劣化したサンプルにより低い重みを与えるところの重み付け係数を使用することを含む、請求項1~10のいずれか1項に記載の方法。
  11. オーディオ伝送システムから受信された劣化した音声信号の品質又は明瞭度を、該劣化した音声信号を提供するように該オーディオ伝送システムを通して参照音声信号を伝達することにより評価する方法であって、
    該参照音声信号を複数の参照信号フレーム内にサンプリングし、該劣化した音声信号を複数の劣化した信号フレーム内にサンプリングし、そして、該参照信号フレームと該劣化した信号フレームとを互いに関連付けることによってフレームペアを形成すること、
    フレームペアごとに、該劣化した信号フレームと該関連付けられた参照信号フレームとの間の差分を表す差分関数を提供すること、
    人間の聴覚知覚モデルに適合された外乱密度関数をフレームペアごとに提供するように、1以上の外乱タイプについて該差分関数を補償すること、
    複数のフレームペアの該外乱密度関数から全体的品質パラメータを導出すること、ここで、該品質パラメータは、該劣化した音声信号の該品質又は明瞭度を少なくとも示す、
    を含み、
    該方法は、
    該劣化した音声信号及び該参照音声信号のうちの少なくとも一方における残響の量を決定することの工程を含み、ここで、該残響の量は、請求項1~10のいずれか1項に記載の方法を適用することによって決定される、
    前記方法。
  12. 前記コントローラによって、少なくとも1つの前記劣化したデジタルオーディオサンプル及び少なくとも1つの前記参照デジタルオーディオサンプルを取得する工程が、複数の逐次の信号フレームから、前記劣化したオーディオサンプルと前記参照オーディオサンプルを形成することによって実行され、ここで、該信号フレームは、該劣化した信号フレームの1以上と該参照信号フレームの1以上とを含む、請求項11に記載の方法。
  13. 該複数の信号フレーム内に含められるべき信号フレームの数が、該少なくとも1つのデジタルオーディオサンプルの該時間ドメインフラクションの継続時間に依存し、ここで、該継続時間は、0.3秒よりも永く、好ましくは0.4秒~5.0秒、例えば、0.5秒、1.0秒、1.5秒、2.0秒、2.5秒、3.0秒、3.5秒、4.0秒、4.5秒、又は5.0秒のうちの少なくとも1つ、である、請求項12に記載の方法。
  14. 各フレームペアについて、該補償する工程が、該劣化した音声信号及び該参照音声信号のうちの少なくとも一方における該決定された残響量を、該1以上の外乱タイプの1つとして設定し、そして、該デジタルオーディオサンプルの該形成に基づいて、夫々のフレームペアに関連付けられた残響の量について各フレームペアを補償することによって行われる、請求項12又は13に記載の方法。
  15. 前記方法が、該インパルス応答信号を決定する工程の前に雑音抑制することを更に含み、該雑音抑制が、
    同様の平均音量を得るように、該劣化した音声信号又は該参照音声信号のうちの少なくとも一方の第1のスケーリングを実行すること、
    該劣化した音声信号から局所的信号ピーク、クリッピング及び信号損失を除去する為に該劣化した音声信号を処理すること、
    同様の平均音量を得るように、該劣化した音声信号又は該参照音声信号のうちの少なくとも一方の第2のスケーリングを実行すること
    を含む、請求項1~14のいずれか1項に記載の方法。
  16. 前記方法が、所定の周波数範囲、例えば閾値周波数よりも下の周波数範囲、又は音声信号に対応する周波数範囲、内のオーディオ信号について実行され、例えば、該周波数範囲は、5キロヘルツよりも下であり、好ましくは、該周波数範囲は2キロヘルツ~4キロヘルツである、請求項1~15のいずれか1項に記載の方法。
  17. コンピュータシステムのメモリ内にロードされる為に適したコンピュータプログラム製品であって、該メモリ内にロードされ並びに該コンピュータシステムのコントローラによって処理されるときに、該コンピュータシステムに、請求項1~16のいずれか1項に記載の方法を実行させる命令を含む前記製品。
JP2023503439A 2020-07-20 2021-07-19 信号の知覚される品質に対する残響の知覚的影響を判定する方法、及びコンピュータプログラム製品 Pending JP2023535694A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20186733.0 2020-07-20
EP20186733.0A EP3944240A1 (en) 2020-07-20 2020-07-20 Method of determining a perceptual impact of reverberation on a perceived quality of a signal, as well as computer program product
PCT/NL2021/050460 WO2022019757A1 (en) 2020-07-20 2021-07-19 Method of determining a perceptual impact of reverberation on a perceived quality of a signal, as well as computer program product.

Publications (1)

Publication Number Publication Date
JP2023535694A true JP2023535694A (ja) 2023-08-21

Family

ID=71728644

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023503439A Pending JP2023535694A (ja) 2020-07-20 2021-07-19 信号の知覚される品質に対する残響の知覚的影響を判定する方法、及びコンピュータプログラム製品

Country Status (7)

Country Link
US (1) US20230260528A1 (ja)
EP (2) EP3944240A1 (ja)
JP (1) JP2023535694A (ja)
CN (1) CN116134801A (ja)
AU (1) AU2021311310A1 (ja)
CA (1) CA3184565A1 (ja)
WO (1) WO2022019757A1 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
US8218780B2 (en) * 2009-06-15 2012-07-10 Hewlett-Packard Development Company, L.P. Methods and systems for blind dereverberation
EP2595146A1 (en) * 2011-11-17 2013-05-22 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating intelligibility of a degraded speech signal
CN104658543A (zh) * 2013-11-20 2015-05-27 大连佑嘉软件科技有限公司 一种室内混响消除的方法
JP7526173B2 (ja) * 2018-10-26 2024-07-31 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 方向性音量マップベースのオーディオ処理

Also Published As

Publication number Publication date
CA3184565A1 (en) 2022-01-27
WO2022019757A1 (en) 2022-01-27
EP4182921A1 (en) 2023-05-24
CN116134801A (zh) 2023-05-16
EP3944240A1 (en) 2022-01-26
US20230260528A1 (en) 2023-08-17
AU2021311310A1 (en) 2023-02-23

Similar Documents

Publication Publication Date Title
US9472202B2 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal
EP3120356B1 (en) Method of and apparatus for evaluating quality of a degraded speech signal
EP2780909B1 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal
JP4879180B2 (ja) 知覚音声分析のための周波数補償
US20120148057A1 (en) Method and System for Determining a Perceived Quality of an Audio System
US20120143601A1 (en) Method and System for Determining a Perceived Quality of an Audio System
JP4570609B2 (ja) 音声伝送システムの音声品質予測方法及びシステム
JP4263620B2 (ja) システムの伝送品質を測定する方法及びシステム
US9659565B2 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal, through providing a difference function representing a difference between signal frames and an output signal indicative of a derived quality parameter
Huber Objective assessment of audio quality using an auditory processing model
US20230260528A1 (en) Method of determining a perceptual impact of reverberation on a perceived quality of a signal, as well as computer program product

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240611