JP6522508B2 - 劣化音声信号の了解度を評価する方法およびそのための機器 - Google Patents

劣化音声信号の了解度を評価する方法およびそのための機器 Download PDF

Info

Publication number
JP6522508B2
JP6522508B2 JP2015542991A JP2015542991A JP6522508B2 JP 6522508 B2 JP6522508 B2 JP 6522508B2 JP 2015542991 A JP2015542991 A JP 2015542991A JP 2015542991 A JP2015542991 A JP 2015542991A JP 6522508 B2 JP6522508 B2 JP 6522508B2
Authority
JP
Japan
Prior art keywords
signal
degraded
speech
frame
consonant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015542991A
Other languages
English (en)
Other versions
JP2015535100A (ja
Inventor
ヘラルト ベーレンツ,ヨン
ヘラルト ベーレンツ,ヨン
Original Assignee
ネーデルランツ オルガニサティー フォール トゥーゲパスト‐ナトゥールヴェテンシャッペリーク オンデルズーク テーエンオー
ネーデルランツ オルガニサティー フォール トゥーゲパスト‐ナトゥールヴェテンシャッペリーク オンデルズーク テーエンオー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ネーデルランツ オルガニサティー フォール トゥーゲパスト‐ナトゥールヴェテンシャッペリーク オンデルズーク テーエンオー, ネーデルランツ オルガニサティー フォール トゥーゲパスト‐ナトゥールヴェテンシャッペリーク オンデルズーク テーエンオー filed Critical ネーデルランツ オルガニサティー フォール トゥーゲパスト‐ナトゥールヴェテンシャッペリーク オンデルズーク テーエンオー
Publication of JP2015535100A publication Critical patent/JP2015535100A/ja
Application granted granted Critical
Publication of JP6522508B2 publication Critical patent/JP6522508B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C2207/00Indexing scheme relating to arrangements for writing information into, or reading information out from, a digital store
    • G11C2207/16Solid state audio
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/16Storage of analogue signals in digital stores using an arrangement comprising analogue/digital [A/D] converters, digital memories and digital/analogue [D/A] converters 

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Description

本発明は、例えば劣化音声信号を供給するために、オーディオ伝送システムを通じて基準音声信号を伝達することによって、前記オーディオ伝送システムから受信された前記劣化音声信号の了解度を評価する方法に関し、本方法は、前記基準音声信号を複数の基準信号フレームへサンプリングして、フレームごとに基準信号表現を確定すること;前記劣化音声信号を複数の劣化信号フレームへサンプリングして、フレームごとに劣化信号表現を確定すること;各基準信号フレームを対応する劣化信号フレームと関連付けることによってフレーム対を形成し、フレーム対ごとに前記劣化信号フレームと関連付けられた前記基準信号フレームとの間の差を表す差関数を供給することを備える。
本発明は、上記のような方法を行うための機器、およびコンピュータプログラムにさらに関する。
過去数十年の間に、客観的音声品質測定方法が知覚的測定アプローチを用いて開発され、展開されてきた。このアプローチでは、受聴試験においてオーディオ・フラグメントの品質を評価する知覚ベースのアルゴリズムが被験者の挙動をシミュレートする。音声品質に関しては、被験者がクリーンな基準音声フラグメントへのアクセスを有することなく劣化音声フラグメントの品質を判断する、いわゆる絶対範疇尺度受聴試験がほとんど用いられる。国際電気通信連合(ITU:International Telecommunication Union)内で実施される受聴試験は、絶対範疇尺度(ACR:absolute category rating)5ポイント・オピニオン尺度をほとんどが用い、結果として、ITU、知覚的音声品質尺度(PSQM:Perceptual Speech Quality Measure(ITU−T Rec.P.861,1996))、およびそのフォローアップである音声品質の知覚的評価(PESQ:Perceptual Evaluation of Speech Quality(ITU−T Rec.P.862,2000))により標準化された客観的音声品質測定方法でもこれが用いられる。広帯域への拡張(50〜7000Hz)が2005年に案出されたが、これらの測定標準の焦点は、狭帯域音声品質(オーディオ帯域幅100〜3500Hz)にある。PESQは、狭帯域音声データに関する主観受聴試験との非常に良好な相関および広帯域データに対する許容範囲内の相関を提供する。
新しい広帯域音声サービスが電気通信業界によって公表されるにつれて、性能が検証された、より高いオーディオ帯域幅が可能な先端的測定標準の必要性が顕在化した。それゆえに、ITU−T(ITU−Telecom sector(ITU電気通信標準化部門))研究グループ12は、PESQの技術アップデートとして新しい音声品質アセスメント・アルゴリズムの標準化を開始した。新しい第3世代の測定標準POLQA(Perceptual Objective Listening Quality Assessment:知覚的客観受聴品質アセスメント)は、PESQ P.862標準の欠点、例えば、線形周波数応答歪みの影響の誤ったアセスメント、Voice−over−IPに見られるような時間伸長/圧縮、ある種のコーデック歪みおよび残響を克服する。
POLQA(P.863)は、前の品質アセスメント・アルゴリズムPSQM(P.861)およびPESQ(P.862)に優る多くの改良を提供するが、POLQAの現在のバージョンは、PSQMおよびPESQと同様に、基本的な知覚的主観的品質条件、すなわち了解度に対処できない。また、多くのオーディオ品質パラメータに依存するにも関わらず、了解度は、音響品質よりも情報伝送の方に密接に関係する。品質アセスメント・アルゴリズムの観点からは、音響品質とは対照的に、了解度の特質は、アルゴリズムに音声信号が人または聴衆によって評価された場合に割り当てられたであろうスコアとは食い違う評価スコアを生じさせる。情報共有の目的に注目して、人間は、分かりにくいが音響品質の点では同様の信号よりも、分かりやすい音声信号の方を高く評価するであろう。
大きな進歩が達成されているが、現在のモデルは、意外にも多くの場合に依然として人間の了解度評価スコアを正しく予測することができない。
本発明の目的は、先行技術の上述の不利点に対する解決法を追求し、人間によるアセスメントに最も近い方法でのその評価のために、音声信号の了解度を考慮に入れるように改良された(劣化)音声信号のアセスメントのための品質アセスメント・アルゴリズムを提供することである。
本発明は、例えば劣化音声信号を供給するために、オーディオ伝送システムを通じて基準音声信号を伝達することによって、前記オーディオ伝送システムから受信された前記劣化音声信号の了解度を評価する方法が提供されるという点でこれらの目的および他の目的を達成する。基準音声信号は、子音と母音との組み合わせからなる1つ以上のワードを少なくとも表す(伝達する)。基準音声信号は、複数の基準信号フレームへサンプリングされ、劣化音声信号は、複数の劣化信号フレームへサンプリングされる。基準信号フレームと劣化信号フレームとを互いに関連付けることによってフレーム対が形成される。本方法によれば、前記劣化信号フレームのパワーに基づく値と前記関連付けられた基準信号フレームのパワーに基づく値との間の差を表す差関数がフレーム対ごとに供給される。差関数は、例えば人間の聴知覚モデルに適合された擾乱密度関数をフレーム対ごとに供給するために、1つ以上の擾乱タイプに対して補償される。複数のフレーム対の擾乱密度関数から、総合的な品質パラメータが導出される。総合的な品質パラメータは、前記劣化音声信号の了解度を少なくとも指示する。特に、本方法は、基準音声信号によって伝達されたワードの少なくとも1つに対して、少なくとも1つのワードの少なくとも1つの子音と関連付けられた基準信号部分と劣化信号部分とを識別することも含む。識別された基準および劣化信号部分から、劣化信号部分および基準信号部分における信号パワーの比較に基づいて、劣化音声信号の擾乱の度合いが確定される。総合的な品質パラメータは、次に、少なくとも1つの子音と関連付けられた劣化音声信号の擾乱の確定された度合いに応じて補償される。
本発明は、音声信号中でワードの子音と符合する雑音および他の擾乱が母音と符合する同様の擾乱よりも情報転送には厄介で破壊的であると見なされることを認識して、了解度を取り扱う。このことは、母音が典型的に子音より大きい声で話されるという事実に関係する。そのうえ、ほとんどのタイプの擾乱の知覚は、平均して子音の知覚により類似しているように見え、一方で母音は、より弁別的である。それゆえに、比較的大きい擾乱の存在下で、母音は、しばしば正しく知覚されるが、一方で子音は、よりしばしば誤って知覚され、情報転送の失敗をもたらす。本発明の方法は、劣化音声信号中で子音と符合する、劣化音声信号において経験される擾乱の量に対して、取得された総合的な品質パラメータ(すなわち、シミュレートされた人間の評価スコア)を補償することによって、この態様を正しく考慮に入れる。
本発明の実施形態に従って、識別するステップは、複数の劣化信号フレームおよび基準信号フレームのそれぞれの信号パワーを第1の閾値および第2の閾値と比較して、前記信号パワーが第1の閾値より大きく、第2の閾値より小さければ、劣化信号フレームまたは基準信号フレームが少なくとも1つの子音と関連付けられると見なすことを備える。
基準(または劣化)音声信号中の子音に関係する信号部分は、信号における信号パワーに基づいて認識できる。特に、(クリーンな、すなわち、最適化された)基準信号を考慮すると、母音は、典型的に子音より大きい声で話されるため、基準信号を上側閾値と比較することは、分析されることになる信号部分から母音を除外することを可能にする。そのうえ、基準音声信号における信号パワーを下側閾値と比較することによって、音声情報を何も運ばないサイレント部分も除去できる。それゆえに、基準音声信号の信号パワーを下側および上側閾値と比較することによって、音声信号中の子音と関連付けられた信号部分を識別することを可能にする。
劣化音声信号中で子音と関連付けられた対応する信号部分は、劣化信号部分の信号フレームに対応する基準信号フレームを識別するタイムアライン・ルーチンによって見出される。劣化音声信号フレームも、識別された基準信号部分と関連付けられたフレーム対から取得できる。
本発明の別の実施形態に従って、劣化信号フレームごとの信号パワーが第1の周波数領域で算出され、各基準信号フレームにおける信号パワーが第2の周波数領域で算出される。第1の周波数領域は、話声および可聴雑音の第1の周波数範囲を含み、一方で第2の周波数領域は、(少なくとも)話声の第2の周波数範囲を含む。特に、さらなる実施形態に従って、第1の周波数範囲は、300ヘルツと8000ヘルツとの間とすることができ、第2の周波数範囲は、300ヘルツと3500ヘルツとの間とすることができる。劣化信号フレームおよび基準信号フレームの信号パワーをそれぞれ算出するために用いられる周波数領域間のこの差は、音声範囲外の任意の周波数成分を除外することによって基準信号フレームを理想化することを可能にし、一方で同時に、劣化音声信号における可聴擾乱が、劣化信号フレームに用いられるより広い周波数範囲によって考慮に入れられる。
本発明のさらなる実施形態に従って、識別するステップは、基準音声信号に関して、信号パワーが第1および第2の閾値の間にあるアクティブ音声信号フレームと、信号パワーが第3および第4の閾値の間にあるソフト音声信号フレームとを識別して、例えばアクティブ音声基準信号フレーム、ソフト音声基準信号フレームと、その関連付けられたアクティブ音声劣化信号フレーム、およびソフト音声劣化信号フレームとを生じさせるために、前記アクティブ音声信号フレームおよびソフト音声信号フレームを劣化信号フレームと関連付けることを備え、信号パワーの前記比較は、前記アクティブ音声基準信号フレーム、前記ソフト音声基準信号フレーム、前記アクティブ音声劣化信号フレーム、および前記ソフト音声劣化信号フレームの信号パワーを互いに比較することを備える。
上記の好ましい実施形態は、あまり重要でないアクティブ音声信号部分と比較してより重要なソフト音声信号部分の間に発生する擾乱に対して、総合的な品質パラメータを別様に補償することをこれが可能にするので、音声信号における子音の間の擾乱の影響をより正確に考慮に入れることができる。本発明のさらなる実施形態によれば、第1の閾値は、前記第3の閾値より小さく、第3の閾値は、前記第4の閾値より小さく、前記第4閾値は、前記第2の閾値より小さい。この実施形態に従って、アクティブ音声信号部分は、ソフト音声信号部分より広いパワー範囲の信号パワーに対応する。特に、第2の閾値は、例えば音声信号によって表されるワードにおいて1つ以上の母音と関連付けられた基準信号部分とその関連付けられた劣化信号部分とを除外するために選択できる。ここまでに説明されたように、音声信号では母音が典型的に子音より大きい声で話される。
本発明の好ましい実施形態に従って、信号パワーの比較は、平均アクティブ音声基準信号部分信号パワーPactive,ref,averageを算出し、平均ソフト音声基準信号部分信号パワーPsoft,ref,averageを算出し、平均アクティブ音声劣化信号部分信号パワーPactive,degraded,averageを算出し、平均ソフト音声劣化信号部分信号パワーPsoft,degraded,averageを算出すること;および子音−母音−子音信号対雑音比補償パラメータCVCSNR_factor
、ここでΔおよびΔは定数、として算出することによって、劣化音声信号の擾乱の度合いを確定することを備える。
ここまでに定義されたCVCSNR_factorを用いると、劣化音声信号において典型的に経験されるかかる擾乱の人間によるアセスメントに最も近い、子音の間の擾乱を考慮に入れるための非常に正確なパラメータが取得される。上記に関して、注目されるのは、ゼロによる割算を防ぐため、およびモデルの振舞いを被験者の振舞いに適合させるために、定数ΔおよびΔが加算されることである。
総合的な品質パラメータのこのタイプの補償は、多くの異なる方法で行うことができる。特に、かつ有利に、上記の擾乱密度関数を用いて算出された総合的な品質パラメータに補償係数を乗じることができる。特定の実施形態によれば、子音−母音−子音信号対雑音比補償パラメータCVCSNR_factorが075より大きい場合、補償係数は、1.0とするとよく、一方で子音−母音−子音信号対雑音比補償パラメータCVCSNR_factorが075より小さい場合、補償係数は、(CVCSNR_factor+025)1/2である。この実施形態では、総合的な品質パラメータは、子音の重要部分の間の擾乱が比較的大きい場合にのみ補償される。音声信号において母音の間に経験されるいかなる擾乱も考慮に入れられない。そのうえ、小さな擾乱も補償から除外される。
本発明は、方法ステップの特定のシーケンスに制限されない。総合的な品質パラメータの補償は、方法のどこで実装されてもよいが、補償は、方法の終り近くで、例えば、方法の出力において総合的な了解度パラメータを供給する前に容易に行うことができる。そのうえ、方法をステップのある一定のシーケンスに制限することなく、基準および/または劣化信号部分を識別するステップをフレームのサンプリング後かつ差関数の供給前に有利に行うことができる。
第2の態様によれば、本発明は、コンピュータによって実行されるときに上記の方法を行うためのコンピュータ実行可能なコードを備えるコンピュータプログラムを対象とする。
第3の態様によれば、本発明は、劣化音声信号の了解度を評価するために、第1の態様による方法を行うための機器を対象とし、機器は、基準音声信号を伝達するオーディオ伝送システムから前記劣化音声信号を受信するための受信ユニットであって、基準音声信号は、子音と母音との組み合わせからなる1つ以上のワードを少なくとも表し、受信ユニットは、基準音声信号を受信するようにさらに配置された、受信ユニット;前記基準音声信号の複数の基準信号フレームへのサンプリングのため、および前記劣化音声信号の複数の劣化信号フレームへのサンプリングのためのサンプリング・ユニット;前記基準信号フレームと前記劣化信号フレームとを互いに関連付けることによってフレーム対を形成するため、および前記劣化信号フレームのパワーに基づく値と前記関連付けられた基準信号フレームのパワーに基づく値との間の差を表す差関数をフレーム対ごとに供給するための処理ユニット;例えば人間の聴知覚モデルに適合された擾乱密度関数をフレーム対ごとに供給するために、1つ以上の擾乱タイプに対して前記差関数を補償するための補償器ユニットを備え、前記処理ユニットは、複数のフレーム対の前記擾乱密度関数から、前記劣化音声信号の前記了解度を少なくとも指示する総合的な品質パラメータを導出するようにさらに配置された、機器であって、前記処理ユニットは、基準音声信号によって表される前記ワードの少なくとも1つに関して、少なくとも1つのワードの少なくとも1つの子音と関連付けられた基準信号部分と劣化信号部分とを識別するため;識別された基準および劣化信号部分から、劣化信号部分および基準信号部分における信号パワーの比較に基づいて、劣化音声信号の擾乱の度合いを確定するため;ならびに、少なくとも1つの子音と関連付けられた劣化音声信号の擾乱の確定された度合いに応じて、総合的な品質パラメータを補償するためにさらに配置される。
本発明は、同封の図面を参照して、具体的な実施形態によりさらに説明される。
本発明による実施形態におけるPOLQA知覚モデルの第1の部分の概要を示す。 本発明による実施形態におけるPOLQA知覚モデルに用いられる周波数アラインメントの例示的な概要を示す。 本発明による実施形態における、図1に示された第1の部分の後に続く、POLQA知覚モデルの第2の部分の概要を示す。 本発明による実施形態におけるPOLQA知覚モデルの第3の部分の概要である。 本発明による実施形態におけるPOLQAに用いられるマスキング・アプローチの概略である。 本発明による実施形態におけるPOLQAに用いられるマスキング・アプローチの概略である。 本発明による実施形態におけるPOLQAに用いられるマスキング・アプローチの概略である。 本発明の方法による総合的な品質パラメータを補償する仕方の略図である。
POLQA知覚モデル
POLQA(ITU−T rec.P.863)の基本的なアプローチは、PESQ(ITU−T rec.P.862)において用いられているのと同じであり、すなわち、基準入力および劣化出力音声信号が人間による知覚のモデルを用いて内部表現上へマッピングされる。2つの内部表現の間の差は、認知モデルによって劣化信号の知覚される音声品質を予測するために用いられる。POLQAに実装された重要な新しい考えは、基準入力信号における低レベルの雑音を除去して音色を最適化する理想化アプローチである。知覚モデルにおけるさらなる主要な変更は、知覚品質に対する再生レベルの影響のモデリング、および低および高レベルの歪みの処理における大きな乖離を含む。
POLQAに用いられる知覚モデルの概要が図1から4に示される。図1は、基準入力信号X(t)3および劣化出力信号Y(t)5の内側表現の算出に用いられる知覚モデルの第1の部分を示す。両方がスケーリングされ17、46、ピッチ−ラウドネス−時間の観点からの内部表現13、14が以下に記載される多くのステップで算出され、その後、差算出演算子7を用いて図1に示される差関数12が算出される。2つの異なる種類の知覚差関数が、1つはシステムにより導入された総合的な擾乱に対して試験対象の演算子7および8を用い、1つは擾乱の付加部分に対して演算子9および10を用いて算出される。これは、新しい時間−周波数成分の導入によって生じた劣化と比較して、基準信号から時間−周波数成分を除外することによって生じた劣化との間の影響における非対称性をモデリングする。POLQAでは、1つは通常範囲の劣化に焦点を合わせ、1つは大きい劣化に焦点を合わせた、2つの異なるアプローチで両方の種類が算出されて、図1に示される4つの差関数算出7、8、9および10を結果として生じる。
周波数領域ワーピング49を伴う劣化出力信号には、図2に示されるアライン・アルゴリズム52が用いられる。MOS−LQOスコアを得るための最終処理は、図3および図4に示される。
POLQAは、いくつかの基本的な定数設定の算出から開始して、その後、時間および周波数アラインされた時間信号から、基準および劣化のピッチ・パワー密度(時間および周波数の関数としてのパワー)が導出される。ピッチ・パワー密度から、多くのステップで基準および劣化の内部表現が導出される。そのうえ、これらの密度は、周波数応答歪み41(FREQ)、加法性雑音42(NOISE)および屋内残響43(REVERB)に関する、第1の3つのPOLQA品質指標を導出する40ためにも用いられる。これら3つの品質指標41、42および43は、広範囲の異なる擾乱タイプにわたってバランスのとれた影響分析を可能にするために主要擾乱指標とは別に算出される。これらの指標は、音声信号に見出された劣化のタイプの劣化分解アプローチを用いたより詳細な分析にも用いることができる。
上述のように、基準および劣化の内部表現の4つの異なる変形が、2つの変形は通常の歪みおよび大きい歪みに関する擾乱に焦点を合わせ、2つは通常の歪みおよび大きい歪みに関する付加擾乱に焦点を合わせて、7、8、9および10において算出される。これら4つの異なる変形7、8、9および10が最終的な擾乱密度の算出への入力である。
基準3の内部表現は、基準における低レベルの雑音が除去され(ステップ33)、元の基準録音の最適ではない音色から生じえた、劣化信号に見られるような音色歪みが部分的に補償される(ステップ35)ため、理想的表現と呼ばれる。
演算子7、8、9および10を用いて算出された理想的および劣化内部表現の4つの異なる変形は、1つが、時間および周波数の関数として、総合的な劣化に焦点を合わせた最終的な擾乱142を表し、1つが、時間および周波数の関数として、しかし付加劣化の処理に焦点を合わせた最終的な擾乱143を表す、2つの最終的な擾乱密度142および143を算出するために用いられる。
図4は、2つの最終的な擾乱密度142および143ならびにFREQ41、NOISE42、REVERB43指標からのMOS−LQO、客観的MOSスコアの算出の概要を示す。
定数設定の事前計算
サンプル周波数に依存するFFTウィンドウ・サイズ
POLQAは、人間の聴覚システムの時間分析ウィンドウに合わせるために、ウィンドウ・サイズWがそれぞれ256、512および2048サンプルに設定された3つの異なるサンプルレート、8、16、および48kHzサンプリングで動作する。連続するフレームの間の重なりは、ハン(Hann)窓を用いると50%である。パワー・スペクトル−複素FFT成分の実数部の2乗と虚数部の2乗との和−が、基準および劣化信号の両方について別々の実数値アレイに記憶される。単一フレーム内の位相情報がPOLQAでは破棄され、すべての算出は、パワー表現のみに基づく。
始終点算出
主観試験において、雑音は、通常、基準信号における音声活動の開始前に始まるであろう。しかしながら、主観試験では先行定常雑音が定常雑音の影響を減少させ、一方で先行雑音を考慮に入れた客観測定では先行雑音が影響を増加させると予測でき、従って、先行および後続雑音の削除が正しい知覚的アプローチであると思われる。それゆえに、利用可能なトレーニング・データで期待値を検証した後に、POLQA処理で用いられる始終点が基準ファイルの始めおよび終りから算出される。その位置を開始または終了として指定するためには、(通常の16ビットPCM範囲−+32,000を用いた)5つの連続する絶対サンプル値の和が、元の音声ファイルの始めおよび終りから500を超えなければならない。この開始と終りとの間の間隔は、アクティブ処理間隔として定義される。この間隔外の歪みは、POLQA処理では無視される。
パワーおよびラウドネス・スケーリング係数SPおよびSL
時間から周波数へのFFT変換の校正のために、基準信号X(t)の73dB SPLへの校正を用いて、周波数1000Hzおよび振幅40dB SPLの正弦波が生成される。この正弦波は、ステップ18および49でそれぞれX(t)およびY(t)に対するサンプリング周波数によって確定された長さをもつ窓付きFFTを用いて周波数領域へ変換される。21および54で周波数軸をバーク尺度へ変換した後、結果として生じたピッチ・パワー密度のピーク振幅が、次に、それぞれX(t)およびY(t)に関するパワー・スケーリング係数SP20および55を用いた乗算によって10のパワー値へ正規化される。
心理音響的(ソーン)ラウドネス尺度を校正するために、同じ40dB SPLの基準音が用いられる。ツヴィッカー則を用いた強度軸のラウドネス尺度へのワーピング後に、バーク周波数スケールにわたるラウドネス密度の積分が、それぞれX(t)およびY(t)に関するラウドネス・スケーリング係数SL31および59を用いて30および58で1ソーンへ正規化される。
ピッチ・パワー密度のスケーリングおよび算出
劣化信号Y(t)5にデジタル領域におけるdB overloadから音響領域におけるdB SPLへのマッピングに対処する校正係数C47が乗じられ46、次に、50%重複FFTフレームを用いて時間−周波数領域へ変換される49。基準信号X(t)3は、時間−周波数領域へ変換される18前に、約73dB SPL相当の所定の固定最適レベルへスケーリングされる17。この校正手順は、劣化および基準の両方が所定の固定最適レベルへスケーリングされるPESQで用いられる手順とは基本的に異なる。PESQは、すべてのプレイアウトが同じ最適再生レベルで実施されると仮定し、一方でPOLQAでは、最適レベルに対して20dBから+6への間の主観試験レベルが用いられる。POLQA知覚モデルでは、このように所定の固定最適レベルへのスケーリングを用いることができない。
レベル・スケーリング後に、基準および劣化信号は、窓付きFFTアプローチを用いて時間−周波数領域へ変換される18、49。基準信号と比較したときに劣化信号の周波数軸がワープしているファイルに対して、FFTフレーム上で周波数領域におけるデワーピングが実施される。このデワーピングの第1のステップでは、非常に狭い周波数応答歪み、ならびに次の算出に対する総合的なスペクトル形状差の両方の影響を低減するために、基準および劣化FFTパワー・スペクトルの両方が前処理される。前処理77は、パワー・スペクトルの平滑化、圧縮および平坦化に帰すことができる。平滑化演算は、78で複数のFFT帯域にわたるパワーのスライディング窓平均を用いて行われ、一方で圧縮は、各帯域における平滑化パワーの対数79を単にとることによって行われる。パワー・スペクトルの総合的な形状は、80で複数のFFT帯域にわたる平滑化logパワーのスライディング窓正規化を行うことによってさらに平坦化される。次に、確率低調波ピッチ・アルゴリズム(stochastic subharmonic pitch algorithm)を用いて、現在の基準および劣化フレームのピッチが計算される。次に、基準対劣化ピッチ割当量の比74を用いて、可能なワーピング係数の範囲が(ステップ84で)確定される。可能であれば、この検索範囲は、先行および後続フレーム対に関するピッチ比を用いることによって拡大される。
周波数アライン・アルゴリズムが、次に、検索範囲を通じて反復し、現在の反復のワーピング係数によって劣化パワー・スペクトルをワープし85、上記の前処理77を用いてワープ後パワー・スペクトルを処理する88。処理された基準スペクトルと処理されたワープ後劣化スペクトルとの相関が、次に、1500Hz未満のビンに関して(ステップ89で)計算される。検索範囲を通じての完全な反復後に、「最良」(すなわち、最も高い相関をもたらした)ワーピング係数がステップ90で読み出される。処理された基準スペクトルと最良ワープ後劣化スペクトルとの相関が、次に、元の処理された基準スペクトルと劣化スペクトルとの相関と比較される。設定閾値によって相関が増加すれば、次に、「最良」ワーピング係数が維持される97。必要であれば、ワーピング係数は、前のフレーム対について確定されたワーピング係数に対する最大相対変化によって98で制限される。
基準および劣化の周波数軸をアラインするのに必要かもしれないデワーピング後に、低周波数では人間の聴覚システムが高周波数よりも優れた周波数分解能を有することを反映して、Hz単位の周波数スケールがバーク単位のピッチ・スケールへステップ21および54でワープされる。これは、FFT帯域をビニングし、FFT帯域に対応するパワーを合計して、合計部分を正規化することによって実装される。ヘルツ単位の周波数スケールをバーク単位のピッチ・スケールへマッピングするワーピング関数は、この目的のために文献に示され、当業者に知られた値に近似する。結果として生じた基準および劣化信号は、ピッチ・パワー密度PPX(f)(図1には示されない)およびPPY(f)56として知られ、fはバーク単位の周波数であり、指数nはフレーム指数を表す。
音声アクティブ、サイレントおよびスーパーサイレント・フレームの計算(ステップ25)
POLQAは、ステップ25で区別される3種類のフレーム上で動作する、すなわち、
・基準信号のフレーム・レベルが平均より約20dB低いレベル超の音声アクティブ・フレーム、
・基準信号のフレーム・レベルが平均より約20dB低いレベル未満のサイレント・フレーム、および
・基準信号のフレーム・レベルが平均レベルより約35dB低いレベル未満のスーパーサイレント・フレーム。
周波数、雑音およびReverb指標の算出
周波数応答歪み、雑音および室内残響の大域的な影響がステップ40で別々に数量化される。総合的、大域的な周波数応答歪みの影響に関しては、指標41が、基準および劣化信号の平均スペクトルから算定される。加法性雑音とは独立に周波数応答歪みの影響を推定するために、劣化信号のピッチ・ラウドネス密度から、基準信号の複数のサイレント・フレームにわたる劣化の平均雑音スペクトル密度が減算される。結果として生じた劣化のピッチ・ラウドネス密度と基準のピッチ・ラウドネス密度とが、次に、基準および劣化ファイルに関してすべての音声アクティブ・フレームにわたってバーク帯域ごとに平均される。次に、これら2つの密度の間のピッチ・ラウドネス密度の差が、周波数応答歪み(FREQ:frequency response distortion)の影響を数量化する指標41を導出するためにピッチにわたって積分される。
加法性雑音の影響に関しては、指標42が、基準信号の複数のサイレント・フレームにわたる劣化信号の平均スペクトルから算出される。複数のサイレント・フレームにわたる劣化の平均ピッチ・ラウドネス密度と基準ピッチ・ラウドネス密度ゼロとの間の差が、加法性雑音の影響を数量化する雑音ラウドネス密度関数を確定する。この雑音ラウドネス密度関数が、次に、平均雑音影響指標42(NOISE)を導出するために、ピッチにわたって積分される。この指標42は、雑音の多い基準信号を用いて測定される透過的なチェーンが、最終的なPOLQAエンドツーエンド音声品質測定において最大MOSスコアを結果として供給することがないように、理想的なサイレンスからこのように算出される。
室内残響の影響に関しては、基準および劣化の時系列から経時的なエネルギー関数(ETC)が算出される。ETCは、Y(f)=H(f)・X(f)として定義される、システムH(f)のインパルス応答h(t)の包絡線を表し、ここでY(f)は劣化信号のレベル・アライン表現のスペクトル、X(f)は基準信号のスペクトルである。レベル・アラインメントは、基準および劣化信号の間の大域的および局所的な利得差を抑圧するために実施される。インパルス応答h(t)は、逆離散フーリエ変換を用いてH(f)から算出される。ETCは、正規化およびクリップを通じてh(t)の絶対値から算出される。ETCに基づいて、3つまでの反射が検索される。第1のステップでは、直接音後のETC曲線の最大値を単に確定することによって最大反射が算出される。POLQAモデルでは、直接音は、60ms内に到着するすべての音として定義される。次に、2番目に大きい反射が、最も大きい反射から100ms以内に到着する反射を考慮に入れずに、直接音のない間隔にわたって確定される。次に、3番目に大きい反射が、最も大きい反射および2番目に大きい反射から100ms以内に到着する反射を考慮に入れずに、直接音のない間隔にわたって確定される。3つの最も大きい反射のエネルギーおよび遅延が、次に、単一のreverb指標43(REVERB)へ結合される。
基準信号の劣化信号への大域的および局所的なスケーリング(ステップ26)
基準信号は、ステップ17に従っていまや内部理想レベル、すなわち、約73dB SPL相当にあり、一方で劣化信号は、46の結果として再生レベルと符合するレベルで表される。基準および劣化信号の間の比較がなされる前に、大域的なレベル差がステップ26で補償される。そのうえ、受聴のみの状況では十分小さいレベルの変動は被験者にわからないという事実を踏まえて、局所的なレベルの小さい変化が部分的に補償される。大域的なレベルの等化26は、400および3500Hzの間の周波数成分を用いて、基準および劣化信号の平均パワーに基づいて行われる。基準信号が劣化信号の方へ大域的にスケーリングされ、結果として、この処理段階では大域的な再生レベル差の影響が維持される。同様に、ゆっくりと変動する利得歪みに関しては、約3dBまでのレベル変更のために、基準および劣化音声ファイルの両方の全帯域幅を用いて局所的なスケーリングが実施される。
線形周波数応答歪みに対する元のピッチ・パワー密度の部分的補償(ステップ27)
被試験システムでのフィルタリングによって誘起された、線形周波数応答歪みの影響を正しくモデリングするために、部分的補償アプローチがステップ27で用いられる。主観試験における知覚不可能な中程度の線形周波数応答歪みをモデリングするために、被試験システムの伝達特性を用いて基準信号が部分的にフィルタされる。これは、すべての音声アクティブ・フレームにわたって元のピッチ・パワー密度および劣化ピッチ・パワー密度の平均パワー・スぺクトルを算出することによって実施される。バーク・ビンごとに、劣化スペクトルの元のスペクトルに対する比から部分的補償係数が算出される27。
マスキング効果のモデリング、ピッチ・ラウドネス密度励振の算出
マスキングは、ピッチ・パワー密度のスミアされた表現を算出することによってステップ30および58でモデリングされる。図5aから5cに示される原理に従って、時間および周波数領域スミアリングの両方が考慮に入れられる。時間−周波数領域スミアリングは、畳み込みアプローチを用いる。このスミアされた表現から、時間−周波数面において隣接する大きな成分によって部分的にマスクされた低振幅時間−周波数成分を抑圧して、基準および劣化ピッチ・パワー密度の表現が再算出される。この抑圧は、スミアされた表現のスミアされない表現からの減算、およびスミアされた表現によるスミアされない表現の除算の2つの異なる方法で実装される。結果として生じた尖鋭なピッチ・パワー密度の表現が、次に、ツヴィッカーのパワー則の修正版を用いてピッチ・ラウドネス密度の表現
に変換され、SLはラウドネス・スケーリング係数、P0(f)は絶対聴力閾値値、fBおよびPfnは、
f<2.0バークに対して f=−0.03f+1.06
2.0≦f≦22バークに対して f=1.0
f>22.0バークに対して f=−0.2(f−22.0)+1.06
fn=(PPX(f)+600)0.008
によって定義される周波数およびレベルに依存する相関であり、fはバーク単位の周波数、PPX(f)は周波数時間セルf、nにおけるピッチ・パワー密度を表す。結果として生じた2次元アレイLX(f)およびLY(f)は、それぞれ基準信号X(t)に対するステップ30および劣化信号Y(t)に対するステップ58の出力における、ピッチ・ラウドネス密度と呼ばれる。
基準および劣化信号における大域的な低レベル雑音抑圧
被試験システム(例えば、透過的なシステム)によって影響されない、基準信号における低レベルの雑音は、絶対範疇尺度試験手順ゆえに被験者によって被試験システムに帰されることになろう。従って、これらの低レベルの雑音は、基準信号の内部表現の算出において抑圧される必要がある。この「理想化処理」は、複数のスーパーサイレント・フレームにわたる基準信号LX(f)の平均定常雑音ラウドネス密度をピッチの関数として算出することによってステップ33で実施される。この平均雑音ラウドネス密度が、次に、基準信号のすべてのピッチ・ラウドネス密度フレームから部分的に減算される。結果は、ステップ33の出力における、基準信号の理想化された内部表現である。
劣化信号において可聴な定常雑音は、非定常雑音より与える影響が少ない。このことは、すべてのレベルの雑音に当てはまり、この効果の影響は、劣化信号から定常雑音を部分的に除去することによってモデリングできる。これは、基準信号の対応するフレームがスーパーサイレントとして分類される複数の劣化信号LY(f)フレームの平均定常雑音ラウドネス密度をピッチの関数として算出することによってステップ60で実施される。この平均雑音ラウドネス密度が、次に、劣化信号のすべてのピッチ・ラウドネス密度フレームから部分的に減算される。部分的補償は、低および高レベルの雑音に対して異なる方策を用いる。低レベルの雑音では補償が最低限度であるに過ぎないが、大きい加法性雑音では用いられる抑圧がより積極的になる。結果は、理想化された無雑音の基準信号表現を用いた受聴試験において観察されるような、主観的な影響に適合された加法性雑音をもつ劣化信号の内部表現61である。
上記のステップ33では、大域的な低レベル雑音の抑圧を行うことに加えて、基準信号フレームごとにLOUDNESS指標32も確定される。LOUDNESS指標またはLOUDNESS値は、特定のタイプの歪みに重み付けするための、ラウドネスに依存する重み係数を確定するために用いることができる。重み付け自体は、最終的な擾乱密度142および143を供給する際に、演算子7、8、9および10によって与えられる歪みの4つの表現に対してステップ125および125’で実装できる。
本明細書では、ラウドネス・レベル指標がステップ33で確定されたが、当然のことながら、ラウドネス・レベル指標は、方法の別の部分で基準信号フレームごとに確定されてもよい。ステップ33では、複数のスーパーサイレント・フレームにわたる基準信号LX(f)に関して平均定常雑音ラウド密度がすでに確定され、次にそれがすべての基準フレームに対する無雑音の基準信号の構築に用いられるという事実ゆえに、ラウドネス・レベル指標を確定することが可能である。しかしながら、これをステップ33で実装することは可能であるが、それが実装の最も好ましい方法というわけではない。
代わりに、ラウドネス・レベル指標(LOUDNESS)は、ステップ35に続く追加のステップで基準信号から取られてもよい。この追加のステップも、破線ライン出力(LOUDNESS)32’をもつ破線ボックス35’として図1に示される。ステップ35’でそこに実装された場合、当業者が理解できるように、もはやステップ33からラウドネス・レベル指標を取る必要はない。
劣化および基準信号の間の時間的に変動する利得に関する歪んだピッチ・ラウドネス密度の局所的なスケーリング(ステップ34および63)
利得におけるゆっくりとした変動は、非可聴であり、小さい変化は、基準信号表現の算出ですでに補償されている。正しい内部表現が算出できる前に必要な残りの補償は、第1に劣化信号のラウドネスが基準信号のラウドネスより小さい信号レベルに関して基準がステップ34で補償され、第2に基準信号のラウドネスが劣化信号のラウドネスより小さい信号レベルに関して劣化がステップ63で補償される、2つのステップで実施される。
第1の補償34は、劣化が深刻な信号損失を示す、例えば、時間クリップの状況における信号の部分に関して、基準信号をより低いレベルへスケーリングする。これは、基準と劣化の間に残存する差が局所的に知覚される音声品質に対する時間クリップの影響を表すようなスケーリングである。基準信号のラウドネスが劣化信号のラウドネスより小さい部分は補償されず、従って、加法性雑音および大きなクリックは、この第1のステップでは補償されない。
第2の補償63は、劣化信号がクリックを示す信号の部分およびサイレント間隔に雑音がある信号の部分に関して、劣化信号をより低いレベルへスケーリングする。これは、基準と劣化の間に残存する差が局所的に知覚される音声品質に対するクリックおよびゆっくりと変化する加法性雑音の影響を表すようなスケーリングである。クリックは、サイレントおよび音声アクティブ部分の両方で補償されるのに対して、雑音は、サイレント部分においてのみ補償される。
線形周波数応答歪みに対する元のピッチ・ラウドネス密度の部分的な補償(ステップ35)
知覚できない線形周波数応答歪みは、ステップ27で基準信号をピッチ・パワー密度領域で部分的にフィルタすることによってすでに補償された。線形歪みが非線形歪みより不快でないという事実をさらに補正するために、次にステップ35で基準信号がピッチ・ラウドネス領域で部分的にフィルタされる。これは、すべての音声アクティブ・フレームにわたって元のピッチ・ラウドネス密度と劣化ピッチ・ラウドネス密度との平均ラウドネス・スペクトルを算出することによって実施される。バーク・ビンごとに、劣化ラウドネス・スペクトルの元のラウドネス・スペクトルに対する比から、部分的補償係数が算出される。この部分的補償係数は、被試験システムの周波数応答の平滑化された、より低振幅のバージョンを用いて基準信号をフィルタするために用いられる。このフィルタ処理後に、線形周波数応答歪みから生じる基準および劣化ピッチ・ラウドネス密度の間の差が、知覚される音声品質に対する線形周波数応答歪みの影響を表すレベルへ縮小される。
ピッチ・ラウドネス密度の最終的なスケーリングおよび雑音抑圧
この時点まで、信号に関するすべての算出は、主観実験に用いられるような再生レベルで実施される。低再生レベルに関しては、これは、基準および劣化ピッチ・ラウドネス密度の間の小差と一般にあまりに楽観的な受聴音声品質の推定とをもたらすであろう。この効果を補償するために、次に劣化信号がステップ64で「仮想的な」固定内部レベルへスケーリングされる。このスケーリング後に、基準信号がステップ36で劣化信号レベルへスケーリングされ、基準および劣化信号のいずれも、今やそれぞれ37および65での最終的な雑音抑圧演算の準備ができている。この雑音抑圧は、音声品質の算出に依然として余りに大きな影響を与えるラウドネス領域における定常雑音レベルの最後の部分を処理する。結果として生じた信号13および14は、今や該当する知覚的内部表現領域内にあり、理想的ピッチ−ラウドネス−時間LXideal(f)13および劣化ピッチ−ラウドネス−時間LYdeg(f)14関数から、擾乱密度142および143を算出できる。2つの変形(7および8)は通常の歪みおよび大きい歪みに関する擾乱に焦点を合わせ、2つ(9および10)は通常の歪みおよび大きい歪みに関する付加擾乱に焦点を合わせた、理想的および劣化ピッチ−ラウドネス−時間関数の4つの異なる変形が7、8、9および10で算出される。
最終的な擾乱密度の算出
2つの異なる種類の擾乱密度142および143が算出される。1番目の通常の擾乱密度は、理想的ピッチ−ラウドネス−時間LXideal(f)と劣化ピッチ−ラウドネス−時間関数LYdeg(f)との間の差から7および8で導出される。2番目は、導入された劣化について最適化されたバージョンを用いて、理想的ピッチ−ラウドネス−時間および劣化ピッチ−ラウドネス−時間関数から9および10で導出され、付加擾乱と呼ばれる。この付加擾乱の算出では、劣化パワー密度が基準パワー密度より大きい信号部分は、各ピッチ−時間セルにおけるパワー比に依存する係数、非対称係数を用いて重み付けされる。
広い範囲の歪みに対処できるように、1つは7および9に基づいて小から中程度の歪みに焦点を合わせ、1つは8および10に基づいて中程度から大きい歪みに焦点を合わせた、2つの異なる処理バージョンが実施される。2つの間の切替えは、小から中程度レベルの歪みに焦点を合わせた擾乱からの第1の推定に基づいて実施される。この処理アプローチは、単一の擾乱関数および単一の付加擾乱関数(図3を参照)を算出できるように、4つの異なる理想的ピッチ−ラウドネス−時間関数および4つの異なる劣化ピッチ−ラウドネス−時間関数を算出する必要性につながり、これらの擾乱関数は、次に、多くの異なるタイプの深刻な量の特定の歪みに対して補償される。
最適受聴レベルの深刻な偏差は、劣化信号の信号レベルから直接に導出された指標によって127および127’で数量化される。この大域的な指標(LEVEL)は、MOS−LQOの算出にも用いられる。
フレーム・リピートによって導入された深刻な歪みは、基準信号の連続フレームの相関と劣化信号の連続フレームの相関との比較から導出された指標によって数量化される128および128’。
劣化信号の最適「理想」音色からの深刻な偏差は、上側周波数帯域と下側周波数帯域との間のラウドネスの差から導出された指標によって数量化される129および129’。音色指標は、劣化信号の低周波数部分での2および12バークと上側範囲での7〜17バークとの間の(すなわち、5バークの重複を用いた)バーク帯域におけるラウドネスの差から算出され、これが基準音声ファイルの不正確な声色の結果かもしれないという事実に関わらず、任意の深刻な不均衡を「罰する」。補償は、フレームごとに大域的なレベルで行われる。この補償は、劣化信号の(12バーク未満および7バーク超の、すなわち、5バークの重複を用いた)下側および上側バーク帯域におけるパワーを算出して、これが基準音声ファイルの不正確な声色の結果かもしれないという事実に関わらず、任意の深刻な不均衡を「罰する」。あまりに多くの雑音および/または不正確な声色を含む、不十分に記録された基準信号を用いた透過的なチェーンは、結果として、POLQAエンドツーエンド音声品質測定に最大MOSスコアを提供しないであろうということに留意すべきである。この補償は、透過的なデバイスの品質を測定するときにも影響も与える。最適「理想」音色からの著しい偏差を示す基準信号が用いられるときに、被試験システムは、たとえシステムが基準信号に劣化を何も導入しなくても非透過的であると判断されるであろう。
擾乱における深刻なピークの影響は、130および130’においてMOS−LQOの算出にも用いられるFLATNESS指標で数量化される。
被験者の注意を雑音に集中させる深刻な雑音レベル変動は、131および131’において対応する基準信号フレームがサイレントである劣化信号フレームから導出された雑音コントラスト指標によって数量化される。
ステップ133および133’では、擾乱が実際の話声と符合するか否かに依存してそれに重み付けするために重み付け演算が行われる。劣化信号の了解度を評価するために、サイレント期間中に知覚された擾乱は、実際の話声の間に知覚された擾乱のように有害であるとは見なされない。それゆえに、基準信号からステップ33(または代わりにステップ35’)で確定されたLOUDNESS指標に基づいて、任意の擾乱に重み付けするための重み付け値が確定される。重み付け値は、劣化音声信号の了解度に対する擾乱の影響を評価に取り込むための差関数(すなわち、擾乱)に重み付けするために用いられる。特に、重み付け値は、LOUDNESS指標に基づいて確定されるため、ラウドネスに依存する関数によって重み付け値を表すことができる。ラウドネスに依存する重み付け値は、ラウドネス値を閾値と比較することによって確定できる。ラウドネス指標が閾値を超えた場合、知覚された擾乱は、評価を行うときに完全に考慮に入れられる。それに対して、ラウドネス値が閾値より小さい場合には重み付け値がラウドネス・レベル指標に依存して作られ、すなわち、本例では重み付け値が(LOUDNESSが閾値未満である状態での)ラウドネス・レベル指標に等しい。利点は、音声信号の弱い部分に対して、例えば、休止またはサイレンスの直前の話し言葉の終端において、擾乱が了解度にとって有害であるとして部分的に考慮に入れられることである。例として、言葉の最後に文字「f」をはっきりと言う間に知覚されるいくらかの雑音量が、これは文字「s」であると受聴者に知覚させる可能性があることが理解されよう。これは、了解度にとって有害であろう。他方、ラウドネス値が上述の閾値より小さいときに重み付け値をゼロに変えることによって、サイレンスまたは休止の間の任意の雑音を単に無視することが可能なことも当事者は理解するであろう。
再び図3を続けると、アラインメントにおける深刻なジャンプが検出され、その影響がステップ136および136’で補償係数によって数量化される。
最後に、擾乱および付加擾乱密度が137および137’で最大レベルへクリップされ、擾乱138および138’の分散と基準信号のラウドネスにおけるジャンプ140および140’の影響とが、擾乱の特定の時間構造を補償するために用いられる。
これは、標準的な擾乱に関する最終的な擾乱密度D(f)142と付加擾乱に関する最終的な擾乱密度DA(f)143を生じさせる。
ピッチ、スパートおよび時間にわたる擾乱の集計、中間MOSスコアへのマッピング
最終的な擾乱D(f)142および付加擾乱DA(f)密度143がL積分153および159(図4を参照)を用いてピッチ軸にわたってフレームごとに積分され、1つは擾乱から導出され、1つは付加擾乱から導出されたフレームごとの2つの異なる擾乱
、Wはバーク・ビンの幅に比例する一連の定数、を結果として生じる。
次に、フレームごとのこれら2つの擾乱が、それぞれ擾乱および付加擾乱に対するL155およびL160の重み付けを用いて、音声スパートとして定義される、6つの連続音声フレームの連鎖にわたって平均される。
最後に、擾乱および付加擾乱が、ファイルごとに時間にわたるL156および161の平均化から算出される。
付加擾乱は、大きい残響および大きい加法性雑音に対してREVERB42およびNOISE43指標を用いてステップ161で補償される。2つの擾乱は、次に、MOS様中間指標171を得るために3次回帰多項式を用いて線形化された内部指標を導出すべく周波数指標41(FREQ)と結合される170。
最終的なPOLQA MOS−LQOの計算
生のPOLQAスコアは、すべてステップ175で4つの異なる補償、すなわち、
・1つは周波数148、スパート149および時間150にわたるL511集計を用いて算出され、1つは周波数145、スパート146および時間147にわたるL313集計を用いて算出された、擾乱の特定の時間−周波数特性に対する2つの補償
・LEVEL指標を用いた非常に低い表現レベルに対する1つの補償
・周波数領域におけるFLATNESS指標を用いた大きい音色歪みに対する1つの補償
を用いて、MOS様中間指標から導出される。
このマッピングのトレーニングは、POLQAベンチマークの部分でなかった劣化を含めた、劣化の大きなセット上で実施される。これらの生のMOSスコア176は、MOS様中間指標171の算出に用いられた3次多項式マッピングによって、すでに大部分が線形化されている。
最後に、生のPOLQA MOSスコア176が、POLQA標準化の最終段階で利用可能であった62のデータベースについて最適化された3次多項式を用いて180でMOS−LQOスコア181へマッピングされる。狭帯域モードでは最大POLQA MOS−LQOスコアが4.5であり、一方で超広帯域モードではこのポイントが4.75にある。理想化処理の重要な帰結は、基準信号が雑音を含むとき、または声色が深刻に歪んでいるときに、ある状況下では透過的なチェーンが狭帯域モードにおける4.5または超広帯域モードにおける4.75の最大MOSスコアを提供しないであろうということである。
子音−母音−子音補正は、本発明に従って、次のように実装できる。図1において、基準信号フレーム220および劣化信号フレーム240は、説明されたように取得できる。例えば、基準信号フレーム220は、基準信号のバーク・ステップ21へのワーピングから取得でき、一方で劣化信号フレームは、劣化信号に対して行われる対応するステップ54から取得できる。図1に示されるような、基準信号フレームおよび/または劣化信号フレームが本発明の方法から得られる正確な位置は、専ら例であるに過ぎない。基準信号フレーム220および劣化信号フレーム240は、図1における他のステップのいずれか、特に基準信号X(t)3の入力とステップ26での劣化レベルへの大域的および局所的なスケーリングとの間のどこかから得られてもよい。劣化信号フレームは、劣化信号Y(t)5の入力とステップ54との間のどこで取得されてもよい。
子音−母音−子音補償は、図6に示されるように続く。第1にステップ222では、基準信号フレーム220の信号パワーが所望の周波数領域内で算出される。基準フレームに関して、最適の状況におけるこの周波数領域は、音声信号のみ(例えば300ヘルツと3500ヘルツとの間の周波数範囲)を含む。次にステップ224では、算出された信号パワーを第1の閾値228および第2の閾値229と比較することによって、この基準信号フレームをアクティブ音声基準信号フレームとして含めるべきか否かについて選択が行われる。第1の閾値は、POLQA(ITU−T rec.P.863)に記載されるように基準信号のスケーリングを用いるときには例えば70×10に等しくするとよく、第2の閾値は20×2×10に等しくするとよい。同様に、ステップ225では、算出された信号パワーを第3の閾値230および第4の閾値231と比較することによって、ソフト音声基準信号(子音の重要な部分)に対応する基準信号フレームが処理のために選択される。第3の閾値230は、例えば2.0×10に等しくするとよく、第4の閾値は、例えば70×10に等しくするとよい。
ステップ224および225は、それぞれアクティブ音声およびソフト音声部分に対応する基準信号フレーム、アクティブ音声基準信号部分フレーム234およびソフト音声基準信号部分フレーム235を生じさせる。これらのフレームが以下に考察されることになるステップ260へ供給される。
基準信号の関連する信号部分の算出とまったく同様に、劣化信号フレーム240も、初めにステップ242で、所望の周波数領域での信号パワーを算出するために分析される。劣化信号フレームに関しては、話声の周波数範囲および可聴雑音の大部分が存在する周波数範囲、例えば300ヘルツと8000ヘルツとの間の周波数範囲を含む周波数範囲内の信号パワーを算出することが有利であろう。
ステップ242で算出された信号パワーから、関連するフレーム、すなわち、関連する基準フレームと関連付けられたフレームが選択される。選択は、ステップ244および245で発生する。ステップ245では、劣化信号フレームごとにその劣化信号フレームが、ステップ225でソフト音声基準信号フレームとして選択された基準信号フレームと時間アラインされているか否かが判定される。劣化フレームがソフト音声基準信号フレームと時間アラインされていれば、劣化フレームがソフト音声劣化信号フレームとして識別されて、算出された信号パワーがステップ260での算出に用いられることになろう。そうでない場合には、このフレームが補償係数の算出のためのソフト音声劣化信号フレームとしてステップ247で破棄される。ステップ244では、劣化信号フレームごとにその劣化信号フレームが、ステップ224でアクティブ音声基準信号フレームとして選択された基準信号フレームと時間アラインされているか否かが判定される。劣化フレームがアクティブ音声基準信号フレームと時間アラインされていれば、劣化フレームがアクティブ音声劣化信号フレームとして識別されて、算出された信号パワーがステップ260での算出に用いられることになろう。そうでない場合には、このフレームが補償係数の算出のためのアクティブ音声劣化信号フレームとしてステップ247で破棄される。これは、ステップ260へ供給されるソフト音声劣化信号部分フレーム254とアクティブ音声劣化信号部分フレーム255とを生じさせる。
ステップ260は、入力としてアクティブ音声基準信号部分フレーム234、ソフト音声基準信号部分フレーム235、ソフト音声劣化信号部分フレーム254およびアクティブ音声劣化信号部分フレーム255を受信する。ステップ260では、例えば、アクティブ音声およびソフト音声基準信号部分、ならびにアクティブ音声およびソフト音声劣化信号部分の平均信号パワーを確定するために、これらのフレームの信号パワーが処理され、これから(やはりステップ260で)、子音−母音−子音信号対雑音割当量補償パラメータ(CVCSNR_factor)が次のように算出される。
パラメータΔおよびΔは、モデルの振舞いを被験者の振舞いに適合させるために用いられる定数値である。この数式における他のパラメータは、次の通りである。Pactive,ref,averageは平均アクティブ音声基準信号部分信号パワーである。パラメータPsoft,ref,averageは平均ソフト音声基準信号部分信号パワーである。パラメータPactive,degraded,averageは平均アクティブ音声劣化信号部分信号パワーであり、パラメータPsoft,degraded,averageは平均ソフト音声劣化信号部分信号パワーである。ステップ260の出力では子音−母音−コンセナント信号対雑音比補償パラメータCVCSNR_factorが供給される。
CVCSNR_factorは、ステップ262で閾値、本例では075と比較される。CVCSNR_factorがこの閾値より大きければ、ステップ265で補償係数が10に等しい(補償が何も発生しない)として確定されるであろう。CVCSNR_factorが閾値(ここでは075)より小さければ、ステップ267で補償係数が次のように算出される、すなわち、補償係数=(CVCSNR_factor+025)1/2(注:値025は1.0−075に等しく取られ、ここで075はCVCSNR_factorを比較するために用いられる閾値である)。このように提供する補償係数270は、図4のステップ182でMOS−LQOスコア(すなわち、総合的な品質パラメータ)に対する乗数として用いられる。当然のことながら、(例えば、乗算による)補償は、必ずしもステップ182で発生する必要はなく、ステップ175または180のいずれか1つに統合されてもよい(その場合、図4の方式からステップ182は消える)。そのうえ、本例では、補償は、先に示されたように算出された補償係数をMOS−LQOスコアに乗じることによって達成される。当然のことながら、補償は、別の形態をとってもよい。例えば、CVCSNR_factorに応じて、得られたMOS−LQOに変数を加減算することも可能であろう。当事者は、本教示に則して補償の他の意義を理解し、認識するであろう。
本発明は、本明細書に具体的に記載されるのと別様に実行されてもよく、本発明の範囲は、先述の具体的な実施形態および添付図面によって制限されないが、添付の請求項に定められた範囲内で変化してもよい。
3 基準信号X(t)
5 劣化信号Y(t)、振幅−時間
6 遅延識別、フレーム対を形成
7 差算出
8 差算出の第1の変形
9 差算出の第2の変形
10 差算出の第3の変形
12 差信号
13 内部理想的 ピッチ−ラウドネス−時間 LXideal(f)n
14 内部劣化 ピッチ−ラウドネス−時間 LYdeg(f)n
17 固定レベルへの大域的なスケーリング
18 窓付きFFT
20 スケーリング係数SP
21 バークへのワープ
25 (スーパー)サイレント・フレーム検出
26 劣化レベルへの大域的&局所的なスケーリング
27 部分的な周波数補償
30 励振およびソーンへのワープ
31 絶対閾値スケーリング係数SL
32 LOUDNESS
32’ LOUDNESS(代替ステップ35’に従って確定される)
33 大域的な低レベル雑音抑圧
34 局所的なスケーリング Y<Xの場合
35 部分的な周波数補償
35’ (代替的に)ラウドネスを確定
36 劣化レベルへのスケーリング
37 大域的な低レベル雑音抑圧
40 FREQ NOISE REVERB指標
41 FREQ指標
42 NOISE指標
43 REVERB指標
44 PW_Roverall指標(劣化および基準信号の間の総合的なオーディオ・パワー比)
45 PW_Rframe指標(劣化信号と基準信号との間のフレームごとのオーディオ・パワー比)
46 再生レベルへのスケーリング
47 校正係数C
49 窓付きFFT
52 周波数アライン
54 バークへのワープ
55 スケーリング係数SP
56 劣化信号 ピッチ−パワー−時間 PPY(f)n
58 励振およびソーンへのワープ
59 絶対閾値スケーリング係数SL
60 大域的な高レベル雑音抑圧
61 劣化信号 ピッチ−ラウドネス−時間
63 局所的なスケーリング Y>Xの場合
64 固定内部レベルへのスケーリング
65 大域的な高レベル雑音抑圧
70 基準スペクトル
72 劣化スペクトル
74 現および+/−1周辺フレームの基準および劣化ピッチの比
77 前処理
78 FFTスペクトルにおける狭いスパイクおよびドロップを平滑化
79 スペクトルの対数を取り、最小強度に関する閾値を適用
80 スライディング窓を用いて総合的な対数スペクトル形状を平坦化
83 最適化ループ
84 ワーピング係数の範囲:[最小ピッチ比≦1≦最大ピッチ比]
85 劣化スペクトルをワープ
88 前処理を適用
89 ビン<1500Hzに関してスペクトルの相関を計算
90 最良ワーピング係数を追跡
93 劣化スペクトルをワープ
94 前処理を適用
95 ビン<3000Hzに関してスペクトルの相関を計算
97 相関が十分であればワープされた劣化スペクトルを維持、そうでなければ元のスペクトルを復元
98 1つのフレームから次へのワーピング係数の変化を制限
100 理想的標準
101 劣化標準
104 理想的大きい歪み
105 劣化大きい歪み
108 理想的付加
109 劣化付加
112 理想的付加大きい歪み
113 劣化付加大きい歪み
116 擾乱密度標準選択
117 擾乱密度大きい歪み選択
119 付加擾乱密度選択
120 付加擾乱密度大きい歪み選択
121 切り替え機能123へのPW_Roverall入力
122 切り替え機能123へのPW_Rframe入力
123 大きい歪み決定(切り替え)
125 深刻な量の特定の歪みに対する補正係数
125’ 深刻な量の特定の歪みに対する補正係数
127 レベル
127’ レベル
128 フレーム・リピート
128’ フレーム・リピート
129 音色
129’ 音色
130 スペクトル平坦度
130’ スペクトル平坦度
131 サイレント期間における雑音コントラスト
131’ サイレント期間における雑音コントラスト
133 ラウドネスに依存する擾乱重み付け
133’ ラウドネスに依存する擾乱重み付け
134 基準信号のラウドネス
134’ 基準信号のラウドネス
136 アライン・ジャンプ
136’ アライン・ジャンプ
137 最大劣化へクリップ
137’ 最大劣化へクリップ
138 擾乱分散
138’ 擾乱分散
140 ラウドネス・ジャンプ
140’ ラウドネス・ジャンプ
142 最終的な擾乱密度D(f)n
143 最終的な付加擾乱密度DA(f)n
145 L周波数積分
146 Lスパート積分
147 L時間積分
148 L周波数積分
149 Lスパート積分
150 L時間積分
153 L周波数積分
155 Lスパート積分
156 L時間積分
159 L周波数積分
160 Lスパート積分
161 L時間積分
170 中間MOSスコアへのマッピング
171 MOS様中間指標
175 MOSスケール補償
176 生のMOSスコア
180 MOS−LQOへのマッピング
181 MOS LQO
182 CVC了解度補償
185 短い正弦波音の時間にわたる強度
187 短い正弦波音
188 第2の短い正弦波音に対するマスキング閾値
195 短い正弦波音の周波数にわたる強度
198 短い正弦波音
199 第2の短い正弦波音に対するマスキング閾値
205 3Dプロットでの周波数および時間にわたる強度
211 尖鋭な内部表現をもたらす抑圧の強さとして用いられるマスキング閾値
220 基準信号フレーム(図1も参照)
222 音声領域(例えば、300Hz〜3500Hz)における信号パワーを確定
224 信号パワーを第1および第2の閾値と比較し、範囲内にあれば選択
225 信号パワーを第3および第4の閾値と比較し、範囲内にあれば選択
228 第1の閾値
229 第2の閾値
230 第3の閾値
231 第4の閾値
234 アクティブ音声基準信号フレームのパワー平均
235 ソフト音声基準信号フレームのパワー平均
240 劣化信号フレーム(図1も参照)
242 音声および可聴擾乱のための領域(例えば300Hz〜8000Hz)における信号パワーを確定
244 劣化フレームは選択されたアクティブ音声基準信号フレームと時間アラインされているか?
245 劣化フレームは選択されたソフト音声基準信号フレームと時間アラインされているか?
247 フレームはアクティブ/ソフト音声劣化信号フレームとして破棄される。
254 ソフト音声劣化信号フレームのパワー平均
255 アクティブ音声劣化信号フレームのパワー平均
260 子音−母音−子音信号対雑音比補償パラメータ(CVCSNR_factor)を算出
262 CVCSNR_factorは補償のための閾値(例えば、075)より小さいか
265 いいえ→補償係数=1.0(補償なし)
265 はい→補償係数は(CVCSNR_factor+025)1/2
270 MOS−LQOを補償するためにステップ182へ補償値を供給

Claims (18)

  1. 劣化音声信号を供給するために、オーディオ伝送システムを通じて基準音声信号を伝達することによって、前記オーディオ伝送システムから受信された前記劣化音声信号の了解度を評価する方法であって、前記基準音声信号は、子音と母音との組み合わせからなる1つ以上のワードを伝達し、
    前記方法は、
    −前記基準音声信号を複数の基準信号フレームへサンプリングし、前記劣化音声信号を複数の劣化信号フレームへサンプリングして、前記基準信号フレームおよび前記劣化信号フレームを互いに関連付けることによってフレーム対を形成すること;
    −前記劣化信号フレームのパワーに基づく値と前記関連付けられた基準信号フレームのパワーに基づく値との間の差を表す差関数をフレーム対ごとに供給すること;
    −例えば人間の聴知覚モデルに適合された擾乱密度関数をフレーム対ごとに供給するために、1つ以上の擾乱タイプに対して前記差関数を補償すること;
    −複数のフレーム対の前記擾乱密度関数から、総合的な品質パラメータを導出することであって、前記品質パラメータは、前記劣化音声信号の前記了解度を少なくとも指示する、前記導出すること、を備え、
    前記方法は、
    −前記基準音声信号によって伝達された前記ワードの少なくとも1つに関して、前記少なくとも1つのワードの少なくとも1つの子音と関連付けられた基準信号部分と劣化信号部分とを識別するステップ;
    −前記識別された基準および劣化信号部分から、前記劣化信号部分および前記基準信号部分における信号パワーの比較に基づいて、前記劣化音声信号の擾乱の度合いを確定するステップ;ならびに
    −前記劣化音声信号における子音と符合する擾乱に対して前記総合的な品質パラメータに補償するために、前記総合的な品質パラメータを、前記少なくとも1つの子音と関連付けられた前記劣化音声信号の擾乱の前記確定された度合いに応じて補償するステップ、をさらに備える、方法。
  2. 識別する前記ステップは、前記基準音声信号の信号パワーに基づいて行われる、請求項1に記載の方法。
  3. 識別する前記ステップは、複数の基準信号フレームのそれぞれの信号パワーを第1の閾値および第2の閾値と比較して、前記信号パワーが前記第1の閾値より大きく、前記第2の閾値より小さければ、前記基準信号フレームの1つ以上は、前記少なくとも1つの子音と関連付けられると見なすことを備える、請求項1または2に記載の方法。
  4. 識別する前記ステップは、前記基準信号部分を識別した後に、前記少なくとも1つの子音と関連付けられた前記基準信号部分の基準信号フレームとの時間アラインメントを行うことによって、または前記少なくとも子音と関連付けられた基準信号フレームを含むフレーム対からの選択によって、前記少なくとも1つの子音と関連付けられた1つ以上の劣化信号フレームを選択することを備える、請求項1〜3のいずれかに記載の方法。
  5. 劣化信号フレームの前記信号パワーは、第1の周波数領域において算出され、基準信号フレームの前記信号パワーは、第2の周波数領域において算出され、前記第1の周波数領域は、話声および可聴雑音の第1の周波数範囲を含み、前記第2の周波数領域は、話声の第2の周波数範囲を含む、請求項1〜4のいずれかに記載の方法。
  6. 前記第1の周波数範囲は、300Hzと8000Hzとの間である、請求項5に記載の方法。
  7. 前記第2の周波数範囲は、300Hzと3500Hzとの間である、請求項5に記載の方法。
  8. 識別する前記ステップは、
    前記基準音声信号に関して、前記信号パワーが第1および第2の閾値の間にあるアクティブ音声信号フレームと、前記信号パワーが第3および第4の閾値の間にあるソフト音声信号フレームとを識別して、例えばアクティブ音声基準信号フレーム、ソフト音声基準信号フレーム、アクティブ音声劣化信号フレーム、およびソフト音声劣化信号フレームを生じさせるために、前記アクティブ音声信号フレームおよびソフト音声信号フレームを劣化信号フレームと関連付けること、を備え、
    信号パワーの前記比較は、前記アクティブ音声基準信号フレーム、前記ソフト音声基準信号フレーム、前記アクティブ音声劣化信号フレーム、および前記ソフト音声劣化信号フレームの信号パワーを互いに比較することを備える、請求項1〜7のいずれかに記載の方法。
  9. 前記第1の閾値は、前記第3の閾値より小さく、前記第3の閾値は、前記第4の閾値より小さく、かつ前記第4閾値は、前記第2の閾値より小さい、請求項8に記載の方法。
  10. 前記第2の閾値は、例えば1つ以上の母音と関連付けられた基準信号フレームまたは劣化信号フレームを除外するために選択される、請求項9に記載の方法。
  11. 信号パワーの前記比較は、
    平均アクティブ音声基準信号部分信号パワーPactive,ref,averageを算出し、平均ソフト音声基準信号部分信号パワーPsoft,ref,averageを算出し、平均アクティブ音声劣化信号部分信号パワーPactive,degraded,averageを算出し、平均ソフト音声劣化信号部分信号パワーPsoft,degraded,averageを算出すること;および
    子音−母音−子音信号対雑音比補償パラメータCVCSNR_factor

    、ここでΔ1およびΔ2は定数、として算出することによって、前記劣化音声信号の擾乱の前記度合いを確定すること、を備える、請求項8〜10のいずれかに記載の方法。
  12. 補償する前記ステップは、前記総合的な品質パラメータに補償係数を乗じることによって行われる、請求項1〜11のいずれかに記載の方法。
  13. 補償する前記ステップは、前記総合的な品質パラメータに補償係数を乗じることによって行われ、
    前記子音−母音−子音信号対雑音比補償パラメータCVCSNR_factorが0.75より大きければ、前記補償係数は1.0であり;
    前記子音−母音−子音信号対雑音比補償パラメータCVCSNR_factorが0.75より小さければ、前記補償係数は、(CVCSNR_factor+0.25)1/2である、請求項11に記載の方法。
  14. コンピュータ上で実行されるときに、請求項1〜13のいずれかによる方法を行うためのコンピュータ実行可能なコードを備えるコンピュータプログラム。
  15. 劣化音声信号の了解度を評価するために、請求項1〜13のいずれかによる方法を行うための機器であって、
    前記機器は、
    −基準音声信号を伝達するオーディオ伝送システムから前記劣化音声信号を受信するための受信ユニットであって、前記基準音声信号は、子音と母音との組み合わせからなる1つ以上のワードを少なくとも表し、前記受信ユニットは、前記基準音声信号を受信するようにさらに配置された、受信ユニット;
    −前記基準音声信号の複数の基準信号フレームへのサンプリングのため、および前記劣化音声信号の複数の劣化信号フレームへのサンプリングのためのサンプリング・ユニット;
    −前記基準信号フレームと前記劣化信号フレームとを互いに関連付けることによってフレーム対を形成するため、および前記劣化信号フレームのパワーに基づく値と前記関連付けられた基準信号フレームのパワーに基づく値との間の差を表す差関数をフレーム対ごとに供給するための処理ユニット;
    −例えば人間の聴知覚モデルに適合された擾乱密度関数をフレーム対ごとに供給するために、1つ以上の擾乱タイプに対して前記差関数を補償するための補償器ユニット、を備え、
    −前記処理ユニットは、複数のフレーム対の前記擾乱密度関数から、前記劣化音声信号の前記了解度を少なくとも指示する総合的な品質パラメータを導出するようにさらに配置された、機器であって、
    前記処理ユニットは、
    −前記基準音声信号によって表される前記ワードの少なくとも1つに関して、前記少なくとも1つのワードの少なくとも1つの子音と関連付けられた基準信号部分と劣化信号部分とを識別するように、
    −前記識別された基準および劣化信号部分から、前記劣化信号部分および前記基準信号部分における信号パワーの比較に基づいて、前記劣化音声信号の擾乱の度合いを確定するように、ならびに、
    −前記少なくとも1つの子音と関連付けられた前記劣化音声信号の擾乱の前記確定された度合いに応じて、前記総合的な品質パラメータを補償するようにさらに配置された、機器。
  16. 前記識別を行うために、前記処理ユニットは、
    前記基準音声信号に関して、前記信号パワーが第1および第2の閾値の間にあるアクティブ音声信号フレームと、前記信号パワーが第3および第4の閾値の間にあるソフト音声信号フレームとを識別して、アクティブ音声基準信号フレーム、ソフト音声基準信号フレーム、アクティブ音声劣化信号フレーム、およびソフト音声劣化信号フレームを供給するために、前記アクティブ音声信号フレームおよびソフト音声信号フレームを劣化信号フレームと関連付ける、ようにさらに配置され、
    信号パワーの前記比較を行うために、前記処理ユニットは、前記アクティブ音声基準信号フレーム、前記ソフト音声基準信号フレーム、前記アクティブ音声劣化信号フレーム、および前記ソフト音声劣化信号フレームの信号パワーを互いに比較するように配置された、請求項15に記載の機器。
  17. 前記比較を行うために、前記処理ユニットは、
    平均アクティブ音声基準信号部分信号パワーPactive,ref,averageを算出し、平均ソフト音声基準信号部分信号パワーPsoft,ref,averageを算出し、平均アクティブ音声劣化信号部分信号パワーPactive,degraded,averageを算出し、平均ソフト音声劣化信号部分信号パワーPsoft,degraded,averageを算出するように;および
    子音−母音−子音信号対雑音比補償パラメータCVCSNR_factor

    、ここでΔ1およびΔ2は定数、として算出することによって、前記劣化音声信号の擾乱の前記度合いを確定するように、さらに配置された、請求項16に記載の機器。
  18. 前記補償を行うために、前記処理ユニットは、
    前記総合的な品質パラメータに補償係数を乗じるようにさらに配置され、前記子音−母音−子音信号対雑音比補償パラメータCVCSNR_factorが0.75より大きければ、前記補償係数は1.0であり、前記子音−母音−子音信号対雑音比補償パラメータCVCSNR_factorが0.75より小さければ、前記補償係数は、(CVCSNR_factor+0.25)1/2である、請求項17に記載の装置。
JP2015542991A 2012-11-16 2013-11-15 劣化音声信号の了解度を評価する方法およびそのための機器 Active JP6522508B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12193082.0 2012-11-16
EP12193082.0A EP2733700A1 (en) 2012-11-16 2012-11-16 Method of and apparatus for evaluating intelligibility of a degraded speech signal
PCT/NL2013/050824 WO2014077690A1 (en) 2012-11-16 2013-11-15 Method of and apparatus for evaluating intelligibility of a degraded speech signal

Publications (2)

Publication Number Publication Date
JP2015535100A JP2015535100A (ja) 2015-12-07
JP6522508B2 true JP6522508B2 (ja) 2019-05-29

Family

ID=47216118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015542991A Active JP6522508B2 (ja) 2012-11-16 2013-11-15 劣化音声信号の了解度を評価する方法およびそのための機器

Country Status (7)

Country Link
US (1) US9472202B2 (ja)
EP (2) EP2733700A1 (ja)
JP (1) JP6522508B2 (ja)
CN (1) CN104919525B (ja)
AU (1) AU2013345546B2 (ja)
CA (1) CA2891453C (ja)
WO (1) WO2014077690A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2595145A1 (en) * 2011-11-17 2013-05-22 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating intelligibility of a degraded speech signal
US10255487B2 (en) * 2015-12-24 2019-04-09 Casio Computer Co., Ltd. Emotion estimation apparatus using facial images of target individual, emotion estimation method, and non-transitory computer readable medium
WO2017127367A1 (en) 2016-01-19 2017-07-27 Dolby Laboratories Licensing Corporation Testing device capture performance for multiple speakers
CN106409287B (zh) * 2016-12-12 2019-12-13 天津大学 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法
US10726855B2 (en) * 2017-03-15 2020-07-28 Guardian Glass, Llc. Speech privacy system and/or associated method
CN107895582A (zh) * 2017-10-16 2018-04-10 中国电子科技集团公司第二十八研究所 面向多源信息领域的说话人自适应语音情感识别方法
CN107958673B (zh) * 2017-11-28 2021-05-11 北京先声教育科技有限公司 一种口语评分方法及装置
CN111785292B (zh) * 2020-05-19 2023-03-31 厦门快商通科技股份有限公司 一种基于图像识别的语音混响强度估计方法、装置及存储介质
CN117711435A (zh) * 2023-12-20 2024-03-15 书行科技(北京)有限公司 音频处理方法及装置、电子设备及计算机可读存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0809236B1 (en) * 1996-05-21 2001-08-29 Koninklijke KPN N.V. Device for determining the quality of an output signal to be generated by a signal processing circuit, and also method
EP1241663A1 (en) * 2001-03-13 2002-09-18 Koninklijke KPN N.V. Method and device for determining the quality of speech signal
EP1465156A1 (en) * 2003-03-31 2004-10-06 Koninklijke KPN N.V. Method and system for determining the quality of a speech signal
ES2313413T3 (es) * 2004-09-20 2009-03-01 Nederlandse Organisatie Voor Toegepast-Natuurwetenschappelijk Onderzoek Tno Compensacion en frecuencia para el analisis de precepcion de habla.
JP4745916B2 (ja) * 2006-06-07 2011-08-10 日本電信電話株式会社 雑音抑圧音声品質推定装置、方法およびプログラム
ATE470931T1 (de) * 2007-10-11 2010-06-15 Koninkl Kpn Nv Verfahren und system zur messung der sprachverständlichkeit eines tonübertragungssystems
CN101609686B (zh) * 2009-07-28 2011-09-14 南京大学 基于语音增强算法主观评估的客观评估方法
ES2526126T3 (es) * 2009-08-14 2015-01-07 Koninklijke Kpn N.V. Método, producto de programa informático y sistema para determinar una calidad percibida de un sistema de audio
DK2465113T3 (en) * 2009-08-14 2015-04-07 Koninkl Kpn Nv PROCEDURE, COMPUTER PROGRAM PRODUCT AND SYSTEM FOR DETERMINING AN CONCEPT QUALITY OF A SOUND SYSTEM

Also Published As

Publication number Publication date
EP2920785B1 (en) 2018-08-08
CA2891453C (en) 2023-10-10
EP2920785A1 (en) 2015-09-23
AU2013345546B2 (en) 2018-08-30
CA2891453A1 (en) 2014-05-22
JP2015535100A (ja) 2015-12-07
US20150340047A1 (en) 2015-11-26
EP2733700A1 (en) 2014-05-21
AU2013345546A1 (en) 2015-06-11
CN104919525B (zh) 2018-02-06
US9472202B2 (en) 2016-10-18
WO2014077690A1 (en) 2014-05-22
CN104919525A (zh) 2015-09-16

Similar Documents

Publication Publication Date Title
JP6522508B2 (ja) 劣化音声信号の了解度を評価する方法およびそのための機器
US9953663B2 (en) Method of and apparatus for evaluating quality of a degraded speech signal
US9659579B2 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal, through selecting a difference function for compensating for a disturbance type, and providing an output signal indicative of a derived quality parameter
JP5542206B2 (ja) オーディオ・システムの知覚品質を判定する方法およびシステム
EP2465112A1 (en) Method and system for determining a perceived quality of an audio system
US9659565B2 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal, through providing a difference function representing a difference between signal frames and an output signal indicative of a derived quality parameter
US20230260528A1 (en) Method of determining a perceptual impact of reverberation on a perceived quality of a signal, as well as computer program product

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171107

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180918

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20181217

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20181218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190424

R150 Certificate of patent or registration of utility model

Ref document number: 6522508

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250