JP6522508B2 - 劣化音声信号の了解度を評価する方法およびそのための機器 - Google Patents
劣化音声信号の了解度を評価する方法およびそのための機器 Download PDFInfo
- Publication number
- JP6522508B2 JP6522508B2 JP2015542991A JP2015542991A JP6522508B2 JP 6522508 B2 JP6522508 B2 JP 6522508B2 JP 2015542991 A JP2015542991 A JP 2015542991A JP 2015542991 A JP2015542991 A JP 2015542991A JP 6522508 B2 JP6522508 B2 JP 6522508B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- degraded
- speech
- frame
- consonant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 44
- 230000015556 catabolic process Effects 0.000 claims description 48
- 238000006731 degradation reaction Methods 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 44
- 230000005236 sound signal Effects 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 9
- 230000008447 perception Effects 0.000 claims description 8
- 230000006866 deterioration Effects 0.000 claims description 6
- 230000006735 deficit Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 description 31
- 238000004364 calculation method Methods 0.000 description 28
- 230000000694 effects Effects 0.000 description 24
- 239000000654 additive Substances 0.000 description 18
- 230000000996 additive effect Effects 0.000 description 18
- 230000004044 response Effects 0.000 description 17
- 238000012360 testing method Methods 0.000 description 15
- 238000013459 approach Methods 0.000 description 14
- 230000010354 integration Effects 0.000 description 12
- 230000001629 suppression Effects 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000001419 dependent effect Effects 0.000 description 9
- 230000000873 masking effect Effects 0.000 description 8
- 238000005259 measurement Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 6
- 238000001303 quality assessment method Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- XOFYZVNMUHMLCC-ZPOLXVRWSA-N prednisone Chemical compound O=C1C=C[C@]2(C)[C@H]3C(=O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 XOFYZVNMUHMLCC-ZPOLXVRWSA-N 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C2207/00—Indexing scheme relating to arrangements for writing information into, or reading information out from, a digital store
- G11C2207/16—Solid state audio
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C7/00—Arrangements for writing information into, or reading information out from, a digital store
- G11C7/16—Storage of analogue signals in digital stores using an arrangement comprising analogue/digital [A/D] converters, digital memories and digital/analogue [D/A] converters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
Description
POLQA(ITU−T rec.P.863)の基本的なアプローチは、PESQ(ITU−T rec.P.862)において用いられているのと同じであり、すなわち、基準入力および劣化出力音声信号が人間による知覚のモデルを用いて内部表現上へマッピングされる。2つの内部表現の間の差は、認知モデルによって劣化信号の知覚される音声品質を予測するために用いられる。POLQAに実装された重要な新しい考えは、基準入力信号における低レベルの雑音を除去して音色を最適化する理想化アプローチである。知覚モデルにおけるさらなる主要な変更は、知覚品質に対する再生レベルの影響のモデリング、および低および高レベルの歪みの処理における大きな乖離を含む。
サンプル周波数に依存するFFTウィンドウ・サイズ
POLQAは、人間の聴覚システムの時間分析ウィンドウに合わせるために、ウィンドウ・サイズWがそれぞれ256、512および2048サンプルに設定された3つの異なるサンプルレート、8、16、および48kHzサンプリングで動作する。連続するフレームの間の重なりは、ハン(Hann)窓を用いると50%である。パワー・スペクトル−複素FFT成分の実数部の2乗と虚数部の2乗との和−が、基準および劣化信号の両方について別々の実数値アレイに記憶される。単一フレーム内の位相情報がPOLQAでは破棄され、すべての算出は、パワー表現のみに基づく。
主観試験において、雑音は、通常、基準信号における音声活動の開始前に始まるであろう。しかしながら、主観試験では先行定常雑音が定常雑音の影響を減少させ、一方で先行雑音を考慮に入れた客観測定では先行雑音が影響を増加させると予測でき、従って、先行および後続雑音の削除が正しい知覚的アプローチであると思われる。それゆえに、利用可能なトレーニング・データで期待値を検証した後に、POLQA処理で用いられる始終点が基準ファイルの始めおよび終りから算出される。その位置を開始または終了として指定するためには、(通常の16ビットPCM範囲−+32,000を用いた)5つの連続する絶対サンプル値の和が、元の音声ファイルの始めおよび終りから500を超えなければならない。この開始と終りとの間の間隔は、アクティブ処理間隔として定義される。この間隔外の歪みは、POLQA処理では無視される。
時間から周波数へのFFT変換の校正のために、基準信号X(t)の73dB SPLへの校正を用いて、周波数1000Hzおよび振幅40dB SPLの正弦波が生成される。この正弦波は、ステップ18および49でそれぞれX(t)およびY(t)に対するサンプリング周波数によって確定された長さをもつ窓付きFFTを用いて周波数領域へ変換される。21および54で周波数軸をバーク尺度へ変換した後、結果として生じたピッチ・パワー密度のピーク振幅が、次に、それぞれX(t)およびY(t)に関するパワー・スケーリング係数SP20および55を用いた乗算によって104のパワー値へ正規化される。
劣化信号Y(t)5にデジタル領域におけるdB overloadから音響領域におけるdB SPLへのマッピングに対処する校正係数C47が乗じられ46、次に、50%重複FFTフレームを用いて時間−周波数領域へ変換される49。基準信号X(t)3は、時間−周波数領域へ変換される18前に、約73dB SPL相当の所定の固定最適レベルへスケーリングされる17。この校正手順は、劣化および基準の両方が所定の固定最適レベルへスケーリングされるPESQで用いられる手順とは基本的に異なる。PESQは、すべてのプレイアウトが同じ最適再生レベルで実施されると仮定し、一方でPOLQAでは、最適レベルに対して20dBから+6への間の主観試験レベルが用いられる。POLQA知覚モデルでは、このように所定の固定最適レベルへのスケーリングを用いることができない。
POLQAは、ステップ25で区別される3種類のフレーム上で動作する、すなわち、
・基準信号のフレーム・レベルが平均より約20dB低いレベル超の音声アクティブ・フレーム、
・基準信号のフレーム・レベルが平均より約20dB低いレベル未満のサイレント・フレーム、および
・基準信号のフレーム・レベルが平均レベルより約35dB低いレベル未満のスーパーサイレント・フレーム。
周波数応答歪み、雑音および室内残響の大域的な影響がステップ40で別々に数量化される。総合的、大域的な周波数応答歪みの影響に関しては、指標41が、基準および劣化信号の平均スペクトルから算定される。加法性雑音とは独立に周波数応答歪みの影響を推定するために、劣化信号のピッチ・ラウドネス密度から、基準信号の複数のサイレント・フレームにわたる劣化の平均雑音スペクトル密度が減算される。結果として生じた劣化のピッチ・ラウドネス密度と基準のピッチ・ラウドネス密度とが、次に、基準および劣化ファイルに関してすべての音声アクティブ・フレームにわたってバーク帯域ごとに平均される。次に、これら2つの密度の間のピッチ・ラウドネス密度の差が、周波数応答歪み(FREQ:frequency response distortion)の影響を数量化する指標41を導出するためにピッチにわたって積分される。
基準信号は、ステップ17に従っていまや内部理想レベル、すなわち、約73dB SPL相当にあり、一方で劣化信号は、46の結果として再生レベルと符合するレベルで表される。基準および劣化信号の間の比較がなされる前に、大域的なレベル差がステップ26で補償される。そのうえ、受聴のみの状況では十分小さいレベルの変動は被験者にわからないという事実を踏まえて、局所的なレベルの小さい変化が部分的に補償される。大域的なレベルの等化26は、400および3500Hzの間の周波数成分を用いて、基準および劣化信号の平均パワーに基づいて行われる。基準信号が劣化信号の方へ大域的にスケーリングされ、結果として、この処理段階では大域的な再生レベル差の影響が維持される。同様に、ゆっくりと変動する利得歪みに関しては、約3dBまでのレベル変更のために、基準および劣化音声ファイルの両方の全帯域幅を用いて局所的なスケーリングが実施される。
被試験システムでのフィルタリングによって誘起された、線形周波数応答歪みの影響を正しくモデリングするために、部分的補償アプローチがステップ27で用いられる。主観試験における知覚不可能な中程度の線形周波数応答歪みをモデリングするために、被試験システムの伝達特性を用いて基準信号が部分的にフィルタされる。これは、すべての音声アクティブ・フレームにわたって元のピッチ・パワー密度および劣化ピッチ・パワー密度の平均パワー・スぺクトルを算出することによって実施される。バーク・ビンごとに、劣化スペクトルの元のスペクトルに対する比から部分的補償係数が算出される27。
マスキングは、ピッチ・パワー密度のスミアされた表現を算出することによってステップ30および58でモデリングされる。図5aから5cに示される原理に従って、時間および周波数領域スミアリングの両方が考慮に入れられる。時間−周波数領域スミアリングは、畳み込みアプローチを用いる。このスミアされた表現から、時間−周波数面において隣接する大きな成分によって部分的にマスクされた低振幅時間−周波数成分を抑圧して、基準および劣化ピッチ・パワー密度の表現が再算出される。この抑圧は、スミアされた表現のスミアされない表現からの減算、およびスミアされた表現によるスミアされない表現の除算の2つの異なる方法で実装される。結果として生じた尖鋭なピッチ・パワー密度の表現が、次に、ツヴィッカーのパワー則の修正版を用いてピッチ・ラウドネス密度の表現
f<2.0バークに対して fB=−0.03*f+1.06
2.0≦f≦22バークに対して fB=1.0
f>22.0バークに対して fB=−0.2*(f−22.0)+1.06
Pfn=(PPX(f)n+600)0.008
によって定義される周波数およびレベルに依存する相関であり、fはバーク単位の周波数、PPX(f)nは周波数時間セルf、nにおけるピッチ・パワー密度を表す。結果として生じた2次元アレイLX(f)nおよびLY(f)nは、それぞれ基準信号X(t)に対するステップ30および劣化信号Y(t)に対するステップ58の出力における、ピッチ・ラウドネス密度と呼ばれる。
被試験システム(例えば、透過的なシステム)によって影響されない、基準信号における低レベルの雑音は、絶対範疇尺度試験手順ゆえに被験者によって被試験システムに帰されることになろう。従って、これらの低レベルの雑音は、基準信号の内部表現の算出において抑圧される必要がある。この「理想化処理」は、複数のスーパーサイレント・フレームにわたる基準信号LX(f)nの平均定常雑音ラウドネス密度をピッチの関数として算出することによってステップ33で実施される。この平均雑音ラウドネス密度が、次に、基準信号のすべてのピッチ・ラウドネス密度フレームから部分的に減算される。結果は、ステップ33の出力における、基準信号の理想化された内部表現である。
利得におけるゆっくりとした変動は、非可聴であり、小さい変化は、基準信号表現の算出ですでに補償されている。正しい内部表現が算出できる前に必要な残りの補償は、第1に劣化信号のラウドネスが基準信号のラウドネスより小さい信号レベルに関して基準がステップ34で補償され、第2に基準信号のラウドネスが劣化信号のラウドネスより小さい信号レベルに関して劣化がステップ63で補償される、2つのステップで実施される。
知覚できない線形周波数応答歪みは、ステップ27で基準信号をピッチ・パワー密度領域で部分的にフィルタすることによってすでに補償された。線形歪みが非線形歪みより不快でないという事実をさらに補正するために、次にステップ35で基準信号がピッチ・ラウドネス領域で部分的にフィルタされる。これは、すべての音声アクティブ・フレームにわたって元のピッチ・ラウドネス密度と劣化ピッチ・ラウドネス密度との平均ラウドネス・スペクトルを算出することによって実施される。バーク・ビンごとに、劣化ラウドネス・スペクトルの元のラウドネス・スペクトルに対する比から、部分的補償係数が算出される。この部分的補償係数は、被試験システムの周波数応答の平滑化された、より低振幅のバージョンを用いて基準信号をフィルタするために用いられる。このフィルタ処理後に、線形周波数応答歪みから生じる基準および劣化ピッチ・ラウドネス密度の間の差が、知覚される音声品質に対する線形周波数応答歪みの影響を表すレベルへ縮小される。
この時点まで、信号に関するすべての算出は、主観実験に用いられるような再生レベルで実施される。低再生レベルに関しては、これは、基準および劣化ピッチ・ラウドネス密度の間の小差と一般にあまりに楽観的な受聴音声品質の推定とをもたらすであろう。この効果を補償するために、次に劣化信号がステップ64で「仮想的な」固定内部レベルへスケーリングされる。このスケーリング後に、基準信号がステップ36で劣化信号レベルへスケーリングされ、基準および劣化信号のいずれも、今やそれぞれ37および65での最終的な雑音抑圧演算の準備ができている。この雑音抑圧は、音声品質の算出に依然として余りに大きな影響を与えるラウドネス領域における定常雑音レベルの最後の部分を処理する。結果として生じた信号13および14は、今や該当する知覚的内部表現領域内にあり、理想的ピッチ−ラウドネス−時間LXideal(f)n13および劣化ピッチ−ラウドネス−時間LYdeg(f)n14関数から、擾乱密度142および143を算出できる。2つの変形(7および8)は通常の歪みおよび大きい歪みに関する擾乱に焦点を合わせ、2つ(9および10)は通常の歪みおよび大きい歪みに関する付加擾乱に焦点を合わせた、理想的および劣化ピッチ−ラウドネス−時間関数の4つの異なる変形が7、8、9および10で算出される。
2つの異なる種類の擾乱密度142および143が算出される。1番目の通常の擾乱密度は、理想的ピッチ−ラウドネス−時間LXideal(f)nと劣化ピッチ−ラウドネス−時間関数LYdeg(f)nとの間の差から7および8で導出される。2番目は、導入された劣化について最適化されたバージョンを用いて、理想的ピッチ−ラウドネス−時間および劣化ピッチ−ラウドネス−時間関数から9および10で導出され、付加擾乱と呼ばれる。この付加擾乱の算出では、劣化パワー密度が基準パワー密度より大きい信号部分は、各ピッチ−時間セルにおけるパワー比に依存する係数、非対称係数を用いて重み付けされる。
最終的な擾乱D(f)n142および付加擾乱DA(f)n密度143がL1積分153および159(図4を参照)を用いてピッチ軸にわたってフレームごとに積分され、1つは擾乱から導出され、1つは付加擾乱から導出されたフレームごとの2つの異なる擾乱
生のPOLQAスコアは、すべてステップ175で4つの異なる補償、すなわち、
・1つは周波数148、スパート149および時間150にわたるL511集計を用いて算出され、1つは周波数145、スパート146および時間147にわたるL313集計を用いて算出された、擾乱の特定の時間−周波数特性に対する2つの補償
・LEVEL指標を用いた非常に低い表現レベルに対する1つの補償
・周波数領域におけるFLATNESS指標を用いた大きい音色歪みに対する1つの補償
を用いて、MOS様中間指標から導出される。
5 劣化信号Y(t)、振幅−時間
6 遅延識別、フレーム対を形成
7 差算出
8 差算出の第1の変形
9 差算出の第2の変形
10 差算出の第3の変形
12 差信号
13 内部理想的 ピッチ−ラウドネス−時間 LXideal(f)n
14 内部劣化 ピッチ−ラウドネス−時間 LYdeg(f)n
17 固定レベルへの大域的なスケーリング
18 窓付きFFT
20 スケーリング係数SP
21 バークへのワープ
25 (スーパー)サイレント・フレーム検出
26 劣化レベルへの大域的&局所的なスケーリング
27 部分的な周波数補償
30 励振およびソーンへのワープ
31 絶対閾値スケーリング係数SL
32 LOUDNESS
32’ LOUDNESS(代替ステップ35’に従って確定される)
33 大域的な低レベル雑音抑圧
34 局所的なスケーリング Y<Xの場合
35 部分的な周波数補償
35’ (代替的に)ラウドネスを確定
36 劣化レベルへのスケーリング
37 大域的な低レベル雑音抑圧
40 FREQ NOISE REVERB指標
41 FREQ指標
42 NOISE指標
43 REVERB指標
44 PW_Roverall指標(劣化および基準信号の間の総合的なオーディオ・パワー比)
45 PW_Rframe指標(劣化信号と基準信号との間のフレームごとのオーディオ・パワー比)
46 再生レベルへのスケーリング
47 校正係数C
49 窓付きFFT
52 周波数アライン
54 バークへのワープ
55 スケーリング係数SP
56 劣化信号 ピッチ−パワー−時間 PPY(f)n
58 励振およびソーンへのワープ
59 絶対閾値スケーリング係数SL
60 大域的な高レベル雑音抑圧
61 劣化信号 ピッチ−ラウドネス−時間
63 局所的なスケーリング Y>Xの場合
64 固定内部レベルへのスケーリング
65 大域的な高レベル雑音抑圧
70 基準スペクトル
72 劣化スペクトル
74 現および+/−1周辺フレームの基準および劣化ピッチの比
77 前処理
78 FFTスペクトルにおける狭いスパイクおよびドロップを平滑化
79 スペクトルの対数を取り、最小強度に関する閾値を適用
80 スライディング窓を用いて総合的な対数スペクトル形状を平坦化
83 最適化ループ
84 ワーピング係数の範囲:[最小ピッチ比≦1≦最大ピッチ比]
85 劣化スペクトルをワープ
88 前処理を適用
89 ビン<1500Hzに関してスペクトルの相関を計算
90 最良ワーピング係数を追跡
93 劣化スペクトルをワープ
94 前処理を適用
95 ビン<3000Hzに関してスペクトルの相関を計算
97 相関が十分であればワープされた劣化スペクトルを維持、そうでなければ元のスペクトルを復元
98 1つのフレームから次へのワーピング係数の変化を制限
100 理想的標準
101 劣化標準
104 理想的大きい歪み
105 劣化大きい歪み
108 理想的付加
109 劣化付加
112 理想的付加大きい歪み
113 劣化付加大きい歪み
116 擾乱密度標準選択
117 擾乱密度大きい歪み選択
119 付加擾乱密度選択
120 付加擾乱密度大きい歪み選択
121 切り替え機能123へのPW_Roverall入力
122 切り替え機能123へのPW_Rframe入力
123 大きい歪み決定(切り替え)
125 深刻な量の特定の歪みに対する補正係数
125’ 深刻な量の特定の歪みに対する補正係数
127 レベル
127’ レベル
128 フレーム・リピート
128’ フレーム・リピート
129 音色
129’ 音色
130 スペクトル平坦度
130’ スペクトル平坦度
131 サイレント期間における雑音コントラスト
131’ サイレント期間における雑音コントラスト
133 ラウドネスに依存する擾乱重み付け
133’ ラウドネスに依存する擾乱重み付け
134 基準信号のラウドネス
134’ 基準信号のラウドネス
136 アライン・ジャンプ
136’ アライン・ジャンプ
137 最大劣化へクリップ
137’ 最大劣化へクリップ
138 擾乱分散
138’ 擾乱分散
140 ラウドネス・ジャンプ
140’ ラウドネス・ジャンプ
142 最終的な擾乱密度D(f)n
143 最終的な付加擾乱密度DA(f)n
145 L3周波数積分
146 L1スパート積分
147 L3時間積分
148 L5周波数積分
149 L1スパート積分
150 L1時間積分
153 L1周波数積分
155 L4スパート積分
156 L2時間積分
159 L1周波数積分
160 L1スパート積分
161 L2時間積分
170 中間MOSスコアへのマッピング
171 MOS様中間指標
175 MOSスケール補償
176 生のMOSスコア
180 MOS−LQOへのマッピング
181 MOS LQO
182 CVC了解度補償
185 短い正弦波音の時間にわたる強度
187 短い正弦波音
188 第2の短い正弦波音に対するマスキング閾値
195 短い正弦波音の周波数にわたる強度
198 短い正弦波音
199 第2の短い正弦波音に対するマスキング閾値
205 3Dプロットでの周波数および時間にわたる強度
211 尖鋭な内部表現をもたらす抑圧の強さとして用いられるマスキング閾値
220 基準信号フレーム(図1も参照)
222 音声領域(例えば、300Hz〜3500Hz)における信号パワーを確定
224 信号パワーを第1および第2の閾値と比較し、範囲内にあれば選択
225 信号パワーを第3および第4の閾値と比較し、範囲内にあれば選択
228 第1の閾値
229 第2の閾値
230 第3の閾値
231 第4の閾値
234 アクティブ音声基準信号フレームのパワー平均
235 ソフト音声基準信号フレームのパワー平均
240 劣化信号フレーム(図1も参照)
242 音声および可聴擾乱のための領域(例えば300Hz〜8000Hz)における信号パワーを確定
244 劣化フレームは選択されたアクティブ音声基準信号フレームと時間アラインされているか?
245 劣化フレームは選択されたソフト音声基準信号フレームと時間アラインされているか?
247 フレームはアクティブ/ソフト音声劣化信号フレームとして破棄される。
254 ソフト音声劣化信号フレームのパワー平均
255 アクティブ音声劣化信号フレームのパワー平均
260 子音−母音−子音信号対雑音比補償パラメータ(CVCSNR_factor)を算出
262 CVCSNR_factorは補償のための閾値(例えば、0.75)より小さいか
265 いいえ→補償係数=1.0(補償なし)
265 はい→補償係数は(CVCSNR_factor+0.25)1/2
270 MOS−LQOを補償するためにステップ182へ補償値を供給
Claims (18)
- 劣化音声信号を供給するために、オーディオ伝送システムを通じて基準音声信号を伝達することによって、前記オーディオ伝送システムから受信された前記劣化音声信号の了解度を評価する方法であって、前記基準音声信号は、子音と母音との組み合わせからなる1つ以上のワードを伝達し、
前記方法は、
−前記基準音声信号を複数の基準信号フレームへサンプリングし、前記劣化音声信号を複数の劣化信号フレームへサンプリングして、前記基準信号フレームおよび前記劣化信号フレームを互いに関連付けることによってフレーム対を形成すること;
−前記劣化信号フレームのパワーに基づく値と前記関連付けられた基準信号フレームのパワーに基づく値との間の差を表す差関数をフレーム対ごとに供給すること;
−例えば人間の聴知覚モデルに適合された擾乱密度関数をフレーム対ごとに供給するために、1つ以上の擾乱タイプに対して前記差関数を補償すること;
−複数のフレーム対の前記擾乱密度関数から、総合的な品質パラメータを導出することであって、前記品質パラメータは、前記劣化音声信号の前記了解度を少なくとも指示する、前記導出すること、を備え、
前記方法は、
−前記基準音声信号によって伝達された前記ワードの少なくとも1つに関して、前記少なくとも1つのワードの少なくとも1つの子音と関連付けられた基準信号部分と劣化信号部分とを識別するステップ;
−前記識別された基準および劣化信号部分から、前記劣化信号部分および前記基準信号部分における信号パワーの比較に基づいて、前記劣化音声信号の擾乱の度合いを確定するステップ;ならびに
−前記劣化音声信号における子音と符合する擾乱に対して前記総合的な品質パラメータに補償するために、前記総合的な品質パラメータを、前記少なくとも1つの子音と関連付けられた前記劣化音声信号の擾乱の前記確定された度合いに応じて補償するステップ、をさらに備える、方法。 - 識別する前記ステップは、前記基準音声信号の信号パワーに基づいて行われる、請求項1に記載の方法。
- 識別する前記ステップは、複数の基準信号フレームのそれぞれの信号パワーを第1の閾値および第2の閾値と比較して、前記信号パワーが前記第1の閾値より大きく、前記第2の閾値より小さければ、前記基準信号フレームの1つ以上は、前記少なくとも1つの子音と関連付けられると見なすことを備える、請求項1または2に記載の方法。
- 識別する前記ステップは、前記基準信号部分を識別した後に、前記少なくとも1つの子音と関連付けられた前記基準信号部分の基準信号フレームとの時間アラインメントを行うことによって、または前記少なくとも子音と関連付けられた基準信号フレームを含むフレーム対からの選択によって、前記少なくとも1つの子音と関連付けられた1つ以上の劣化信号フレームを選択することを備える、請求項1〜3のいずれかに記載の方法。
- 劣化信号フレームの前記信号パワーは、第1の周波数領域において算出され、基準信号フレームの前記信号パワーは、第2の周波数領域において算出され、前記第1の周波数領域は、話声および可聴雑音の第1の周波数範囲を含み、前記第2の周波数領域は、話声の第2の周波数範囲を含む、請求項1〜4のいずれかに記載の方法。
- 前記第1の周波数範囲は、300Hzと8000Hzとの間である、請求項5に記載の方法。
- 前記第2の周波数範囲は、300Hzと3500Hzとの間である、請求項5に記載の方法。
- 識別する前記ステップは、
前記基準音声信号に関して、前記信号パワーが第1および第2の閾値の間にあるアクティブ音声信号フレームと、前記信号パワーが第3および第4の閾値の間にあるソフト音声信号フレームとを識別して、例えばアクティブ音声基準信号フレーム、ソフト音声基準信号フレーム、アクティブ音声劣化信号フレーム、およびソフト音声劣化信号フレームを生じさせるために、前記アクティブ音声信号フレームおよびソフト音声信号フレームを劣化信号フレームと関連付けること、を備え、
信号パワーの前記比較は、前記アクティブ音声基準信号フレーム、前記ソフト音声基準信号フレーム、前記アクティブ音声劣化信号フレーム、および前記ソフト音声劣化信号フレームの信号パワーを互いに比較することを備える、請求項1〜7のいずれかに記載の方法。 - 前記第1の閾値は、前記第3の閾値より小さく、前記第3の閾値は、前記第4の閾値より小さく、かつ前記第4閾値は、前記第2の閾値より小さい、請求項8に記載の方法。
- 前記第2の閾値は、例えば1つ以上の母音と関連付けられた基準信号フレームまたは劣化信号フレームを除外するために選択される、請求項9に記載の方法。
- 信号パワーの前記比較は、
平均アクティブ音声基準信号部分信号パワーPactive,ref,averageを算出し、平均ソフト音声基準信号部分信号パワーPsoft,ref,averageを算出し、平均アクティブ音声劣化信号部分信号パワーPactive,degraded,averageを算出し、平均ソフト音声劣化信号部分信号パワーPsoft,degraded,averageを算出すること;および
子音−母音−子音信号対雑音比補償パラメータCVCSNR_factorを
、ここでΔ1およびΔ2は定数、として算出することによって、前記劣化音声信号の擾乱の前記度合いを確定すること、を備える、請求項8〜10のいずれかに記載の方法。 - 補償する前記ステップは、前記総合的な品質パラメータに補償係数を乗じることによって行われる、請求項1〜11のいずれかに記載の方法。
- 補償する前記ステップは、前記総合的な品質パラメータに補償係数を乗じることによって行われ、
前記子音−母音−子音信号対雑音比補償パラメータCVCSNR_factorが0.75より大きければ、前記補償係数は1.0であり;
前記子音−母音−子音信号対雑音比補償パラメータCVCSNR_factorが0.75より小さければ、前記補償係数は、(CVCSNR_factor+0.25)1/2である、請求項11に記載の方法。 - コンピュータ上で実行されるときに、請求項1〜13のいずれかによる方法を行うためのコンピュータ実行可能なコードを備えるコンピュータプログラム。
- 劣化音声信号の了解度を評価するために、請求項1〜13のいずれかによる方法を行うための機器であって、
前記機器は、
−基準音声信号を伝達するオーディオ伝送システムから前記劣化音声信号を受信するための受信ユニットであって、前記基準音声信号は、子音と母音との組み合わせからなる1つ以上のワードを少なくとも表し、前記受信ユニットは、前記基準音声信号を受信するようにさらに配置された、受信ユニット;
−前記基準音声信号の複数の基準信号フレームへのサンプリングのため、および前記劣化音声信号の複数の劣化信号フレームへのサンプリングのためのサンプリング・ユニット;
−前記基準信号フレームと前記劣化信号フレームとを互いに関連付けることによってフレーム対を形成するため、および前記劣化信号フレームのパワーに基づく値と前記関連付けられた基準信号フレームのパワーに基づく値との間の差を表す差関数をフレーム対ごとに供給するための処理ユニット;
−例えば人間の聴知覚モデルに適合された擾乱密度関数をフレーム対ごとに供給するために、1つ以上の擾乱タイプに対して前記差関数を補償するための補償器ユニット、を備え、
−前記処理ユニットは、複数のフレーム対の前記擾乱密度関数から、前記劣化音声信号の前記了解度を少なくとも指示する総合的な品質パラメータを導出するようにさらに配置された、機器であって、
前記処理ユニットは、
−前記基準音声信号によって表される前記ワードの少なくとも1つに関して、前記少なくとも1つのワードの少なくとも1つの子音と関連付けられた基準信号部分と劣化信号部分とを識別するように、
−前記識別された基準および劣化信号部分から、前記劣化信号部分および前記基準信号部分における信号パワーの比較に基づいて、前記劣化音声信号の擾乱の度合いを確定するように、ならびに、
−前記少なくとも1つの子音と関連付けられた前記劣化音声信号の擾乱の前記確定された度合いに応じて、前記総合的な品質パラメータを補償するようにさらに配置された、機器。 - 前記識別を行うために、前記処理ユニットは、
前記基準音声信号に関して、前記信号パワーが第1および第2の閾値の間にあるアクティブ音声信号フレームと、前記信号パワーが第3および第4の閾値の間にあるソフト音声信号フレームとを識別して、アクティブ音声基準信号フレーム、ソフト音声基準信号フレーム、アクティブ音声劣化信号フレーム、およびソフト音声劣化信号フレームを供給するために、前記アクティブ音声信号フレームおよびソフト音声信号フレームを劣化信号フレームと関連付ける、ようにさらに配置され、
信号パワーの前記比較を行うために、前記処理ユニットは、前記アクティブ音声基準信号フレーム、前記ソフト音声基準信号フレーム、前記アクティブ音声劣化信号フレーム、および前記ソフト音声劣化信号フレームの信号パワーを互いに比較するように配置された、請求項15に記載の機器。 - 前記比較を行うために、前記処理ユニットは、
平均アクティブ音声基準信号部分信号パワーPactive,ref,averageを算出し、平均ソフト音声基準信号部分信号パワーPsoft,ref,averageを算出し、平均アクティブ音声劣化信号部分信号パワーPactive,degraded,averageを算出し、平均ソフト音声劣化信号部分信号パワーPsoft,degraded,averageを算出するように;および
子音−母音−子音信号対雑音比補償パラメータCVCSNR_factorを
、ここでΔ1およびΔ2は定数、として算出することによって、前記劣化音声信号の擾乱の前記度合いを確定するように、さらに配置された、請求項16に記載の機器。 - 前記補償を行うために、前記処理ユニットは、
前記総合的な品質パラメータに補償係数を乗じるようにさらに配置され、前記子音−母音−子音信号対雑音比補償パラメータCVCSNR_factorが0.75より大きければ、前記補償係数は1.0であり、前記子音−母音−子音信号対雑音比補償パラメータCVCSNR_factorが0.75より小さければ、前記補償係数は、(CVCSNR_factor+0.25)1/2である、請求項17に記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP12193082.0 | 2012-11-16 | ||
EP12193082.0A EP2733700A1 (en) | 2012-11-16 | 2012-11-16 | Method of and apparatus for evaluating intelligibility of a degraded speech signal |
PCT/NL2013/050824 WO2014077690A1 (en) | 2012-11-16 | 2013-11-15 | Method of and apparatus for evaluating intelligibility of a degraded speech signal |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015535100A JP2015535100A (ja) | 2015-12-07 |
JP6522508B2 true JP6522508B2 (ja) | 2019-05-29 |
Family
ID=47216118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015542991A Active JP6522508B2 (ja) | 2012-11-16 | 2013-11-15 | 劣化音声信号の了解度を評価する方法およびそのための機器 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9472202B2 (ja) |
EP (2) | EP2733700A1 (ja) |
JP (1) | JP6522508B2 (ja) |
CN (1) | CN104919525B (ja) |
AU (1) | AU2013345546B2 (ja) |
CA (1) | CA2891453C (ja) |
WO (1) | WO2014077690A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2595145A1 (en) * | 2011-11-17 | 2013-05-22 | Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO | Method of and apparatus for evaluating intelligibility of a degraded speech signal |
US10255487B2 (en) * | 2015-12-24 | 2019-04-09 | Casio Computer Co., Ltd. | Emotion estimation apparatus using facial images of target individual, emotion estimation method, and non-transitory computer readable medium |
WO2017127367A1 (en) | 2016-01-19 | 2017-07-27 | Dolby Laboratories Licensing Corporation | Testing device capture performance for multiple speakers |
CN106409287B (zh) * | 2016-12-12 | 2019-12-13 | 天津大学 | 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法 |
US10726855B2 (en) * | 2017-03-15 | 2020-07-28 | Guardian Glass, Llc. | Speech privacy system and/or associated method |
CN107895582A (zh) * | 2017-10-16 | 2018-04-10 | 中国电子科技集团公司第二十八研究所 | 面向多源信息领域的说话人自适应语音情感识别方法 |
CN107958673B (zh) * | 2017-11-28 | 2021-05-11 | 北京先声教育科技有限公司 | 一种口语评分方法及装置 |
CN111785292B (zh) * | 2020-05-19 | 2023-03-31 | 厦门快商通科技股份有限公司 | 一种基于图像识别的语音混响强度估计方法、装置及存储介质 |
CN117711435A (zh) * | 2023-12-20 | 2024-03-15 | 书行科技(北京)有限公司 | 音频处理方法及装置、电子设备及计算机可读存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0809236B1 (en) * | 1996-05-21 | 2001-08-29 | Koninklijke KPN N.V. | Device for determining the quality of an output signal to be generated by a signal processing circuit, and also method |
EP1241663A1 (en) * | 2001-03-13 | 2002-09-18 | Koninklijke KPN N.V. | Method and device for determining the quality of speech signal |
EP1465156A1 (en) * | 2003-03-31 | 2004-10-06 | Koninklijke KPN N.V. | Method and system for determining the quality of a speech signal |
ES2313413T3 (es) * | 2004-09-20 | 2009-03-01 | Nederlandse Organisatie Voor Toegepast-Natuurwetenschappelijk Onderzoek Tno | Compensacion en frecuencia para el analisis de precepcion de habla. |
JP4745916B2 (ja) * | 2006-06-07 | 2011-08-10 | 日本電信電話株式会社 | 雑音抑圧音声品質推定装置、方法およびプログラム |
ATE470931T1 (de) * | 2007-10-11 | 2010-06-15 | Koninkl Kpn Nv | Verfahren und system zur messung der sprachverständlichkeit eines tonübertragungssystems |
CN101609686B (zh) * | 2009-07-28 | 2011-09-14 | 南京大学 | 基于语音增强算法主观评估的客观评估方法 |
ES2526126T3 (es) * | 2009-08-14 | 2015-01-07 | Koninklijke Kpn N.V. | Método, producto de programa informático y sistema para determinar una calidad percibida de un sistema de audio |
DK2465113T3 (en) * | 2009-08-14 | 2015-04-07 | Koninkl Kpn Nv | PROCEDURE, COMPUTER PROGRAM PRODUCT AND SYSTEM FOR DETERMINING AN CONCEPT QUALITY OF A SOUND SYSTEM |
-
2012
- 2012-11-16 EP EP12193082.0A patent/EP2733700A1/en not_active Withdrawn
-
2013
- 2013-11-15 US US14/442,953 patent/US9472202B2/en active Active
- 2013-11-15 CN CN201380069674.0A patent/CN104919525B/zh active Active
- 2013-11-15 EP EP13801892.4A patent/EP2920785B1/en active Active
- 2013-11-15 AU AU2013345546A patent/AU2013345546B2/en active Active
- 2013-11-15 JP JP2015542991A patent/JP6522508B2/ja active Active
- 2013-11-15 CA CA2891453A patent/CA2891453C/en active Active
- 2013-11-15 WO PCT/NL2013/050824 patent/WO2014077690A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
EP2920785B1 (en) | 2018-08-08 |
CA2891453C (en) | 2023-10-10 |
EP2920785A1 (en) | 2015-09-23 |
AU2013345546B2 (en) | 2018-08-30 |
CA2891453A1 (en) | 2014-05-22 |
JP2015535100A (ja) | 2015-12-07 |
US20150340047A1 (en) | 2015-11-26 |
EP2733700A1 (en) | 2014-05-21 |
AU2013345546A1 (en) | 2015-06-11 |
CN104919525B (zh) | 2018-02-06 |
US9472202B2 (en) | 2016-10-18 |
WO2014077690A1 (en) | 2014-05-22 |
CN104919525A (zh) | 2015-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6522508B2 (ja) | 劣化音声信号の了解度を評価する方法およびそのための機器 | |
US9953663B2 (en) | Method of and apparatus for evaluating quality of a degraded speech signal | |
US9659579B2 (en) | Method of and apparatus for evaluating intelligibility of a degraded speech signal, through selecting a difference function for compensating for a disturbance type, and providing an output signal indicative of a derived quality parameter | |
JP5542206B2 (ja) | オーディオ・システムの知覚品質を判定する方法およびシステム | |
EP2465112A1 (en) | Method and system for determining a perceived quality of an audio system | |
US9659565B2 (en) | Method of and apparatus for evaluating intelligibility of a degraded speech signal, through providing a difference function representing a difference between signal frames and an output signal indicative of a derived quality parameter | |
US20230260528A1 (en) | Method of determining a perceptual impact of reverberation on a perceived quality of a signal, as well as computer program product |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161019 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171107 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20180206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180507 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180918 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20181217 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20181218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190424 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6522508 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |