JP7301073B2 - 音声類似度評価器、音声符号化器、方法およびコンピュータプログラム - Google Patents
音声類似度評価器、音声符号化器、方法およびコンピュータプログラム Download PDFInfo
- Publication number
- JP7301073B2 JP7301073B2 JP2020567028A JP2020567028A JP7301073B2 JP 7301073 B2 JP7301073 B2 JP 7301073B2 JP 2020567028 A JP2020567028 A JP 2020567028A JP 2020567028 A JP2020567028 A JP 2020567028A JP 7301073 B2 JP7301073 B2 JP 7301073B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- similarity
- speech
- modulation
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 105
- 238000004590 computer program Methods 0.000 title claims description 17
- 230000005236 sound signal Effects 0.000 claims description 214
- 238000001914 filtration Methods 0.000 claims description 64
- 238000012545 processing Methods 0.000 claims description 46
- 230000002123 temporal effect Effects 0.000 claims description 34
- 230000003044 adaptive effect Effects 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 25
- 238000011156 evaluation Methods 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000035945 sensitivity Effects 0.000 claims description 15
- 230000000873 masking effect Effects 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 description 32
- 230000003595 spectral effect Effects 0.000 description 30
- 230000002087 whitening effect Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 23
- 230000001537 neural effect Effects 0.000 description 23
- 230000006870 function Effects 0.000 description 21
- 230000006978 adaptation Effects 0.000 description 20
- 238000013459 approach Methods 0.000 description 19
- 210000000721 basilar membrane Anatomy 0.000 description 14
- 238000012360 testing method Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 11
- 210000000067 inner hair cell Anatomy 0.000 description 9
- 238000012986 modification Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 8
- 238000009499 grossing Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 230000008447 perception Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 230000000051 modifying effect Effects 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 5
- 206010021403 Illusion Diseases 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 210000000860 cochlear nerve Anatomy 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006735 deficit Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 210000002985 organ of corti Anatomy 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 230000000087 stabilizing effect Effects 0.000 description 2
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000276489 Merlangius merlangus Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000036982 action potential Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- 210000002768 hair cell Anatomy 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000003071 parasitic effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Toys (AREA)
Description
mp3またはAACのような知覚的音声コーデックは、今日のマルチメディアアプリケーションにおいて音声をコーディングするために広く使用されている[1]。大半の人気のあるコーデックは、いわゆる波形コーダであり、すなわち、音声の時間領域波形を保持し、ほとんどの場合に、知覚的に制御された量子化を適用することにより、音声の時間領域波形に(聞き取れない)ノイズを加える。量子化は、典型的には、時間周波数領域で行われ得るが、時間領域でも適用され得る[2]。加えられたノイズを聞き取れなくするために、それは心理音響モデル、典型的には知覚的マスキングモデルの制御下で整形される。
音声コーディングで使用される心理音響モデルは、主に、誤り信号が符号化されるべき元の音声信号によって知覚的にマスクされているかどうかを評価することに依存する。このアプローチは、誤り信号が典型的には波形符号化器で使用される量子化プロセスによって引き起こされるときに功を奏する。しかしながら、SBRまたはIGFなどのパラメトリック信号表現については、アーチファクトがほとんど聞こえないときでも誤り信号は大きくなる。
ニューラルネットワークは、本明細書において説明されているように音声信号の間の類似度を評価するための方法を使用して訓練される。
図1は、本発明の一実施形態による音声類似度評価器の概略ブロック図である。
図2a-1、図2a-2、図2b-1および図2b-2は、本発明の一実施形態による音声類似度評価器200の概略ブロック図である。
図3は、本発明の一実施形態による音声符号化器300の概略ブロック図である。
図4は、本発明の一実施形態による音声符号化器400の概略ブロック図である。
図5aは、本発明の一実施形態による音声符号化器500の概略ブロック図である。
図6は、本発明の一実施形態による音声類似度評価器600の概略ブロック図である。音声類似度評価器600は、入力音声信号610を受信し、それに基づき類似度情報612を提供するように構成されている。
7.1 Dauのモデル
臨界帯域内に存在する時間的包絡線情報の知覚処理に関する特定の仮定を組み込んだモデリングアプローチがDauらによって提案された[9,10]。末梢聴覚系の効果的信号処理を表す様々な処理ステップのほかに([11]参照)、このモデルでは、各臨界帯域内で見られる時間的包絡線の形状が変調フィルタのバンクによって処理されると仮定している。変調フィルタのこのバンクは、変調領域における聴覚系のスペクトル分解能を表している([12]参照)。
本発明の一態様により、このようなモデリングアプローチを使用することは、BWEなどのパラメトリック信号表現に有益である場合がある。より具体的には、音楽において出現することが多い音高信号について、複合音の低周波数部分をより高い周波数で複製すると、パラメトリック表現された波形それ自体が元の信号の波形と実質的に異なるときであっても、元の信号の包絡線構造にかなりよく似た周期的な包絡線構造を形成することがわかった。
8.1 一般的考慮事項
このセクションでは、最初の処理段階が図7に示されているようなDauら[9]のものにほぼ似ているモデルが提示される。後の処理段階では、モデルは任意選択で、いくつかの追加の知覚現象を含み、このモデルを、局所的なスケールおよびより大域的な時間的スケールに対して知覚的結果を有する符号化決定の両方に適したものにするように拡張される。Dauら[9]の元のモデルに沿って、モデルへの入力は、いわゆる内部表現(IR)に変換される。このIRは、さらなる聴覚処理に利用可能なすべての情報を含む知覚領域への入力信号の変換である。IRに内部ノイズが加わるので、入力信号の変化によるIRの小さな変化は検出可能でない。このプロセスでは、入力信号の変化の知覚的検出可能性をモデル化する。
たとえば、包絡線信号決定器120、220、またはフィルタリング部230において使用され得る、提案されるモデルは、たとえば、150Hzから16kHzまでの範囲にまたがる周波数範囲にわたって知覚スケール上に一様な間隔で並ぶ、たとえば、42個のフィルタからなる4次ガンマトーン・フィルタバンクを用いて入力信号110、210、710を処理することから始まる。この段階は、聴覚蝸牛内のスペクトル信号分析を表す。基底膜インパルス応答における明らかな特徴は、高周波数インパルス応答が、ガンマトーン・フィルタバンクインパルス応答の概略図を示す図8に見られるような低周波数インパルス応答よりかなり短いということである。
各ガンマトーン・フィルタの出力は、内有毛細胞の単純なモデルによって処理され、これは、たとえば、半波整流とその後に続く1000Hzのカットオフ周波数を有するローパスフィルタ(たとえば、参照番号736に示されている)からなる。この内有毛細胞モデルの出力は、ここでは限られた時間分解能を有すると仮定される聴覚神経の線維上の活動電位の変化率を表す。
内有毛細胞処理の後、(たとえば)5つの適応ループのシーケンスが続く(たとえば、適応部750に含まれる)。これらは、音声信号のオフセット後に観察される順方向マスキング(ポストマスキング)の現象で現れる聴覚系において生じる適応プロセスを表す。たとえば、各適応ループは、同じ適応ループ(すなわちフィードバックループ)のローパスフィルタリングされた出力によって減衰される適応利得制御からなる(または含む)。このような適応ループの機能を理解するために、信号のオンセットおよびオフセットを考察する。信号のオンセットでは、以前に入出力がなかったので初期減衰が小さく、結果として適応ループの大きな「オーバーシュート」出力が生じる。ローパスフィルタリングされた出力が上昇し、適応ループの出力を減衰させ始め、平衡状態に近づいて行く。
適応ループの後に、たとえば、変調フィルタバンク760が続く。これは、たとえば0Hzから20Hzまでの中心周波数を有する一連の、たとえば5Hz幅のフィルタからなり、この後に、たとえば243Hzの最大中心周波数に達するまで変調フィルタの帯域幅に対応するステップで分離されているQ=4を有するフィルタが続く。したがって、このモデルでは、変調領域におけるスペクトル分解能が[9]の場合よりも高く、最高変調周波数は、人間が処理できる最高変調周波数により一致するように制限される([15]参照)。フィルタ出力は、たとえば、複素数値をとり、正の周波数のみを表す。
すべての聴覚フィルタにわたるすべての変調フィルタの結果として得られる出力は、たとえば、内部表現(IR)を構成する。原理上、元の信号と符号化された信号のIRは、比較することができ、たとえば、完全なIRにわたるすべての平方差分和は、元の信号と符号化された信号との間の差分の可聴性に対するメトリックを提供する([17]参照)。たとえば、そのような比較は、比較ブロック280によって実行され得る(たとえば、組合せ/評価部298を使用して)。
IDRの最初の(任意選択の)修正は、スペクトルバンドの共変調に関係する。周波数帯域間で一時的に共変調されるマスカーの場合、追加されたトーンは、時間的に無相関のマスカーよりかなり低いレベルで検出され得ることがわかった([18]参照)。この効果は、共変調マスキング解除(CMR)と呼ばれている。また、高周波数では、周波数帯域の共変調はマスキングを減少させる[19]。
第2に、内部表現は、約100ミリ秒の持続時間にわたって(任意選択で)時間的に平滑化される。この時間平滑化は、たとえば、時間平滑化290a~290eによって実行されてもよい。
第3に、信号を符号化するときに追加される信号成分は、削除される成分よりも音声品質の面でより有害な効果をもたらすと考えられた。基礎となる前提は、追加されたコンポーネントは、共通の特性を元の音声信号と共有していないことが多く、そのような理由から、アーチファクトとしてより顕著になることである。
次に、本明細書において説明されている音声類似度評価器を用いて(たとえば、本明細書において説明されているような音声符号化器で)、帯域幅拡大(たとえば、インテリジェントギャップフィリング、IGF)(または帯域幅拡大のパラメータ)がどのように制御され得るかについて説明される。
インテリジェントギャップフィリング(IGF)[5]は、2013年のMPEG-H 3D Audioの標準化プロセス[21][6]で初めて導入されたセミパラメトリック音声コーディング技術であり、復号された音声信号内のスペクトルギャップにコンパクトサイド情報によって導かれた欠落信号の推定値を充填するものである。そのようなものとして、IGFのアプリケーションは非波形維持である。IGFは、従来のBWEとして動作することもでき、空の高周波領域全体を推定信号で埋めるように構成され得るが、波形コーディングされたコンテンツを推定コンテンツと混合して残りのスペクトルギャップを埋めるために従来のBWEの機能を超えて使用することもできる。そのようにして、従来のBWEにとって重要であることが知られているコンテンツ、たとえばスイープ信号は忠実にコーディングされ得る。
スペクトルギャップを知覚的に最もよく一致するスペクトルコンテンツで埋めることができるように、IGFは、そのようなコンテンツを作成するための多くの自由度を有する。基本的に、高帯域(HF)を埋めるための信号は、低帯域(LF)をソースとする時間周波数タイル(たとえば、sT[0]からsT[3])から構成される。実際のマッピングに対するソースおよびターゲットのスペクトル範囲(たとえば、sT[0]からsT[3]およびタイル[0]からタイル[4])は、各時間フレームについて多くの可能性のうちから個別に選択され得る。
説明されているように、IGFは、IGFタイリングの多くの異なる代替的選択肢で高周波数挿入に対するスペクトルのソースおよびターゲット範囲を選択することを可能にする。スペクトル周波数挿入の正確なシフトがフレーム単位で時間の経過とともに変化するときに、単一の連続的トーン成分が時間の経過とともに異なる高周波数の間で切り替わることが生じ得る。これは、非常に目立つ厄介なアーチファクトをもたらす。これが発生する理由は、周波数のシフトが、符号化器のフレームレートにおおよそ対応する変調周波数において符号化された信号内に導入される変調につながるためと仮定される。より長い時間スケールでのみ発生するこの種のアーチファクトを回避するために、IGF周波数シフト間の切り替えに対する制限が任意選択で組み込まれた。IGF周波数シフト間の(または、同等のことであるが、帯域幅拡大のソースタイルとターゲットタイルとの間の異なる関連付けの間の)切り替えのこの制限は、たとえば、関連付け変更制限部480によって達成される。
10.1 概要
提案される心理音響モデルがパラメトリックコーディング技術の知覚的に最適化されたパラメータ選択を行う能力を評価するために、Multi-Stimulus Test with Hidden Reference and Anchor(MUSHRA)[24]リスニングテストが用意された。リスニングテストの項目は、次に説明されているようにセミパラメトリックIGFツールを2つのフレーバーで関与させたMPEG-H 3Dオーディオコーデックの実験的なオフライン環境で生成された。特徴駆動型ホワイトニングレベル推定と組み合わされた固定タイリング選択が、提案される心理音響モデルによって引き起こされる、両方のパラメータの自動選択と比較された。
リスニングテストでは、すべての項目が、MPEG-H符号化器/復号器のオフラインチェーンを通じて処理された。ビットレートは、IGFによって持ち込まれるもの以外の知覚効果の影響を排除するために非常に高い値に設定された。MPEG-H 3D Audio符号化器のパラメータは、IGF帯域に対する最適に満たない推定値があれば明らかに聞こえるほどの影響を及ぼすように設定された。したがって、IGF開始周波数は4.2kHzと低く設定され、IGF停止周波数は8.0kHzと低く設定された。その結果、元の項目は、処理されたバージョンとの比較を適切に行えるように8.4kHzに帯域制限された。
Table 1(表1)は、リスニングテストの項目を示す表である。
リスニングテストの結果は、提案された符号化方法による音声品質の有意な全体的改善を示している。この結果から、2つの主要な結論が導き出され得る。第1に、結果は、セミパラメトリックIGFツールについて、フレーム単位で単一の抜粋の符号化における異なる符号化設定を切り替えることが、知覚品質の改善につながり得ることを示しています。第2に、この目的のために、新たに提案された心理音響モデル(およびそれに応じて、提案された音声類似度評価器100、200、340)が、パラメトリック符号化器(たとえば、符号化部320、420)の符号化パラメータを自動化方式で制御することが可能であることが示された。
従来の聴覚マスキングモデルは、波形維持コーデックを制御するために非常に成功していることが示されているが、これらのモデルは、パラメトリックコーディングツールを同様に操るには不適当であることが判明している。
次に、「効率的知覚音声コーデックの改善された心理音響モデル」の任意選択の拡大および修正について説明する。
上述した本発明の主な説明は、提案された心理音響モデルを詳細に説明し、MPEG-H 3D音声符号化器内のIGFパラメータの推定のためのコントローラとして提案されたモデルを使用する好ましい実施形態を示している。
DNNアプローチの使用は任意選択であり、上述した概念の代替として、または上述した概念と組み合わせて使用可能であることに留意されたい。
一実装形態において、学習されるべき(たとえば、DNNによって)前記モデル出力は、音声フレーム当たりの品質尺度(たとえば、音声類似度評価器によって取得される)としての単一の数値、元のものの品質尺度とコーディングされたバージョンの品質尺度とを減算することを通じて取得される単一の数値の差、または内部表現の複数の数値もしくは元のものに関するそれらの差であってよい。
3つのIGFホワイトニングレベル(オフ==処理なし、中==トーンピークの減衰、強==ノイズ置換)もまた、ノイズ置換を含み、この場合、タイルのコンテンツは破棄され、無相関ノイズで置換されることに留意されたい。これらのモードは、たとえば、音声符号化器において決定され得る。言い換えれば、IGFにおけるホワイトニングレベル「強」は、技術的には、無相関ノイズによりソースタイルを置き換える。
結論として、mp3などの初期の知覚的音声コーダ以降、符号化プロセスを制御する基礎となる心理音響モデルはあまり劇的な変化を受けていない。一方、現代的な音声コーダは、音声帯域幅拡大などのセミパラメトリックまたはパラメトリックコーディングツールを備えている。それによって、追加された量子化ノイズを考慮するだけで、知覚的コーダで使用される初期の心理音響モデルは、部分的に不適であることがわかった。
本明細書において、発明の異なる実施形態および態様は、たとえば、「提案された心理音響モデル」および「心理音響モデルによるIGF制御」の章で説明される。
いくつかの態様が装置の文脈内で説明されているが、これらの態様は対応する方法の説明にもなっており、ブロックまたは装置は方法ステップまたは方法ステップの特徴に対応することは明らかである。それと同様に、方法ステップの文脈内において説明されている態様は、対応する装置の対応するブロックまたは項目または特徴の説明ともなっている。方法ステップのうちのいくつかまたはすべては、たとえばマイクロプロセッサ、プログラム可能なコンピュータ、または電子回路のような、ハードウェア装置によって(またはそれを使用することで)実行され得る。いくつかの実施形態において、最も重要な方法ステップのうちの1つまたは複数は、そのような装置によって実行され得る。
[1] Herre, J. and Disch, S., Perceptual Audio Coding, pp. 757-799, Academic press, Elsevier Ltd., 2013.
[2] Schuller, G. and Harma, A., “Low delay audio compression using predictive coding,” in 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 2, pp. 1853-1856, 2002.
[3] Dietz, M., Liljeryd, L., Kjorling, K., and Kunz, O., “Spectral Band Replication, a Novel Approach in Audio Coding,” in Audio Engineering Society Convention 112, 2002.
[4] Herre, J. and Dietz, M., “MPEG-4 high-efficiency AAC coding [Standards in a Nutshell],” Signal Processing Magazine, IEEE, (Vol. 25, 2008), pp. 137-142, 2008.
[5] Disch, S., Niedermeier, A., Helmrich, C. R., Neukam, C., Schmidt, K., Geiger, R., Lecomte, J., Ghido, F.,
Nagel, F., and Edler, B., “Intelligent Gap Filling in Perceptual Transform Coding of Audio,” in Audio Engineering Society Convention 141, 2016.
[6] ISO/IEC (MPEG-H) 23008-3, “High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio,” 2015.
[7] 3GPP, TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12), 2014.
[8] Laitinen, M.-V., Disch, S., and Pulkki, V., “Sensitivity of Human Hearing to Changes in Phase Spectrum,” J. Audio Eng. Soc (Journal of the AES), (Vol. 61, No. 11, 2013), pp. 860-877, 2013.
[9] Dau, T., Kollmeier, B., and Kohlrausch, A., “Modelling auditory processing of amplitude modulation. I. Detection and masking with narrow-band carriers,” J. Acoust. Soc. Am., 102, pp. 2892-2905, 1997.
[10] Dau, T., Modeling auditory processing of amplitude modulation, Ph.D. thesis, 1996.
[11] Dau, T., Puschel, D., and Kohlrausch, A., “A quantization model of the ’effective’ signal processing in the auditory system. I. Model structure,” J. Acoust. Soc. Am., 99, pp. 3615-3622, 1996.
[12] Ewert, S., Verhey, J., and Dau, T., “Spectro-temporal processing in the envelope-frequency domain,” J. Acoust. Soc. Am., (112), pp. 2921-2931, 2003.
[13] Glasberg, B. and Moore, B., “Derivation of auditory filter shapes from notched-noise data,” Hearing Research, (47), pp. 103-138, 1990.
[14] https://commons.wikimedia.org/wiki/File:Cochlea crosssection.svg, July 2018.
[15] Kohlrausch, A., Fassel, R., and Dau, T., “The influence of carrier level and frequency on modulation and beat detection thresholds for sinusoidal carriers,” J. Acoust. Soc. Am., 108, pp. 723-734, 2000.
[16] Vafin, R., Heusdens, R., van de Par, S., and Kleijn, W., “Improving modeling of audio signals by modifying
transient locations,” in Proceedings of the IEEE Workshop on Applications of Signal Processing to Audio and
Acoustics, pp. 143-146, 2001.
[17] van de Par, S., Koppens, J., Oomen,W., and Kohlrausch, A., “A new perceptual model for audio coding based on spectro-temporal masking,” in 124th AES Convention, 2008.
[18] Hall, J., Haggard, M., and Fernandes, M., “Detection in noise by spectro-temporal pattern analysis,” J. Acoust. Soc. Am., (76), pp. 50-56, 1984.
[19] van de Par, S. and Kohlrausch, A., “Comparison of monaural (CMR) and binaural (BMLD) masking release,” J. Acoust. Soc. Am., 103, pp. 1573-1579, 1998.
[20] Hanna, T., “Discrimination of reproducible noise as a function of bandwidth and duration,” Percept. Psychophys., 36, pp. 409-416, 1984.
[21] Herre, J., Hilpert, J., Kuntz, A., and Plogsties, J., “MPEG-H Audio - The New Standard for UniversalSpatial / 3D Audio Coding,” 137th AES Convention, 2014.
[22] Schmidt, K. and Neukam, C., “Low complexity tonality control in the Intelligent Gap Filling tool,” in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 644-648, 2016.
[23] Helmrich, C., Niedermeier, A., Disch, S., and Ghido, F., “Spectral Envelope Reconstruction via IGF for Audio Transform Coding,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, Australia, 2015.
[24] ITU-R, Recommendation BS.1534-1 Method for subjective assessment of intermediate sound quality(MUSHRA), Geneva, 2003.
110 入力音声信号
112 類似度情報
120 包絡線信号決定部(または包絡線信号決定器)
122a、122b、122c 包絡線信号
160 変調情報決定部(または変調情報決定器)
162a~162c 変調情報
180 比較部または比較器
182a~182c 基準変調情報
200 音声類似度評価器
210 入力音声信号
212 類似度情報
220 包絡線信号決定部
222a、222b、222d、222e 包絡線信号
230 フィルタリング部
232a~232e フィルタリングされた(好ましくはバンドパスフィルタリングされた)信号
236 整流部
238 整流された信号
240 ローパスフィルタリング部
242 滑らかなローパス信号
250 適応部
254 適応利得制御部
255 スケーリングされたバージョン
256 任意選択の制限
257 ローパスフィルタリング
258 利得制御情報
259 出力信号
260 変調情報決定部
262a~262e 変調値のセット
264 フィルタリング
266a~266e 信号
270 DC除去
274 位相情報除去
276a~276e 信号
280 比較部
281 基準音声信号
281a 基準変調情報決定
282 基準変調情報
282a~282e 基準変調値のセット
283c 基準変調値
284 時間平滑化
284c 時間平滑化
288c 差分形成
289c 差分値
290c 時間平滑化
291 時間平滑化されたバージョン
291c 時間平滑化されたバージョン
292a~292e 重み付け
294a~294e 差分値
298 組合せ処理または評価処理部
299 共変調決定器
299a 共変調決定器
299c 共変調決定器
299d 変調情報
299e 共変調決定器
299f 変調情報
300 音声符号化器
310 入力音声信号
312 符号化された音声信号
320 符号化部(または符号化器、またはコア符号化器)
324、424 コーディングパラメータ
330 符号化パラメータ決定部
340 音声類似度評価器
342 類似度情報
350 符号化部
352 音声信号
360 復号部
362 復号バージョン
370 符号化パラメータ選択部
400 音声符号化器
420 符号化部
422 帯域幅拡大パラメータ提供部
424 コーディングパラメータ情報
430 コーディングパラメータ決定部
480 関連付け変更制限部
484 変調強度決定部
485 強さ
486 感度尺度決定部
487 感度尺度
488 関連付け変更ゲーティング
489 閾値比較部
500 音声符号化器
510 入力音声信号
512 符号化された音声信号
520 符号化部
524 コーディングパラメータ情報
530 ニューラルネット
532 訓練データ
600 音声類似度評価器
610 入力音声信号
612 類似度情報
620 包絡線信号決定部
622a~622c 包絡線信号
662a~662c 分析表現
680 比較部(または比較器)
682a~682c 基準分析表現
700 モデル
710 入力音声信号
720 基底膜フィルタリング部
732a~732e 出力信号
736 半波整流およびローパスフィルタリング部
750 適応部
760 変調フィルタバンク
766a~766e 変調信号
768 ノイズ付加部
780 「最適検出器」
1010 入力ビットストリーム
1020 デマルチプレクサおよびエントロピー復号器
1022 量子化されたMDCTスペクトル
1024 IGFサイド情報
1040 逆量子化器
1042 逆量子化されたスペクトル値
1050 IGF復号器
1052 高帯域推定値
1210 入力信号
1220 符号化器
1224 MPEG-H復号器
1230 符号化され、再び復号された音声信号
1240 心理音響モデル
1250 決定ブロック
1252 決定データ
1260、1270 MPEG-H符号化器/復号器チェーン
1272 符号化され、復号されたバージョン
Claims (34)
- 音声類似度評価器(100、200、340)であって、
前記音声類似度評価器は、入力音声信号(110、210、362)に基づき複数の周波数範囲に対する包絡線信号(122a~122c、222a~222e)を取得するように構成され、
前記音声類似度評価器は、複数の変調周波数範囲に対する前記包絡線信号に関連付けられている変調情報(162a~162c、262a~262e)を取得するように構成され、前記変調情報は、複数の変調周波数範囲に対する前記包絡線信号の時間変調を記述し、それぞれの包絡線信号に存在する異なる変調周波数に関連付けられている複数の値を含み、
前記音声類似度評価器は、前記入力音声信号と基準音声信号(310)との間の類似度に関する情報(112、212、342)を取得するために、前記取得された変調情報を前記基準音声信号に関連付けられている基準変調情報(182a~182c、282a~282e)と比較するように構成される音声類似度評価器(100、200、340)。 - 前記音声類似度評価器は、前記包絡線信号(122a~122c、222a~222e)を取得するために、重なり合うフィルタ特性を有する複数のフィルタまたはフィルタリング動作(230)を適用するように構成される請求項1に記載の音声類似度評価器(100、200、340)。
- 前記音声類似度評価器は、フィルタまたは1つもしくは複数のフィルタリング動作(230)の出力信号(232a~232e)に整流(236)を適用して、複数の整流された信号(238)を取得するように構成されるか、または前記音声類似度評価器は、前記フィルタまたはフィルタリング動作(230)の出力信号(232a~232e)に基づきヒルベルト包絡線を取得するように構成されるか、または前記音声類似度評価器は、前記フィルタまたはフィルタリング動作(230)の前記出力信号(232a~232e)を復調するように構成される請求項1または請求項2に記載の音声類似度評価器(100、200、340)。
- 前記音声類似度評価器は、前記整流された信号(238)にローパスフィルタまたはローパスフィルタリング(240)を適用するように構成される請求項3に記載の音声類似度評価器(100、200、340)。
- 前記音声類似度評価器は、前記包絡線信号(222aから222e)を取得するために自動利得制御(250)を適用するか、または前記包絡線信号(222aから222e)を取得するために対数変換を適用するか、または前記包絡線信号(222aから222e)を取得するために順方向マスキングのモデリングを適用するように構成される請求項1から4のいずれか一項に記載の音声類似度評価器(100、200、340)。
- 前記音声類似度評価器は、前記入力音声信号に基づき複数のフィルタまたはフィルタリング動作(240)によって提供される、整流されローパスフィルタリングされた信号(242)に基づき前記包絡線信号(222aから222e)を導出するために適用される利得を変化させるように構成される請求項5に記載の音声類似度評価器(100、200、340)。
- 前記音声類似度評価器は、時変利得値(258)に依存して時変スケーリングを適用する、一連の2つまたはそれ以上の適応ループ(254、256、257)を使用して、入力音声信号(210)に基づき複数のフィルタまたはフィルタリング動作(230)によって供給される信号(232aから232e)の整流されローパスフィルタリングされたバージョン(242)を処理するように構成され、
前記音声類似度評価器は、異なる時定数を使用して、異なる前記時変利得値(258)を調整するように構成される請求項1から6のいずれか一項に記載の音声類似度評価器(100、200、340)。 - 前記音声類似度評価器は、異なる通過帯域を有する複数の変調フィルタ(264)を前記包絡線信号(222aから222e)に適用して、前記変調情報(262aから262e)を取得するように構成され、および/または前記音声類似度評価器は、ダウンサンプリングを前記包絡線信号(222aから222e)に適用して、前記変調情報(262aから262e)を取得するように構成される請求項1から7のいずれか一項に記載の音声類似度評価器(100、200、340)。
- 前記変調フィルタ(264)は、異なる周波数を有する前記包絡線信号(222a~222e)の成分を少なくとも部分的に分離するように構成され、最低周波数変調フィルタの中心周波数は5Hzより低く、最高周波数変調フィルタの中心周波数は200Hzから300Hzの範囲内にある請求項8に記載の音声類似度評価器(100、200、340)。
- 前記音声類似度評価器は、前記変調情報(262aから262e)を取得するときにDC成分を除去するように構成される請求項8または請求項9に記載の音声類似度評価器(100、200、340)。
- 前記音声類似度評価器は、前記変調情報(262aから262e)を取得するときに位相情報を除去するように構成される請求項8から10のいずれか一項に記載の音声類似度評価器(100、200、340)。
- 前記音声類似度評価器は、前記取得された変調情報(262aから262e)と、基準音声信号(310)に関連付けられている前記基準変調情報(282aから282e)との間の差分を表すスカラー値(112、212、342)を導出するように構成される請求項1から11のいずれか一項による音声類似度評価器(100、200、340)。
- 前記音声類似度評価器は、前記取得された変調情報(262aから262e)を基準音声信号に関連付けられている前記基準変調情報(282aから282e)と比較するために、差分表現(294aから294e)を決定するように構成される請求項1から12のいずれか一項に記載の音声類似度評価器(100、200、340)。
- 前記音声類似度評価器は、2つもしくはそれ以上の隣接する音響周波数範囲内の前記取得された包絡線信号(222a~222e)もしくは変調情報(262a~262e)の間の、または2つもしくはそれ以上の隣接する音響周波数範囲内の前記基準音声信号に関連付けられている包絡線信号の間のもしくは前記基準変調情報(282a~282e)の間の共変調に依存して、前記取得された変調情報(262a~262e)と基準音声信号に関連付けられている前記基準変調情報(282a~282e)との間の差分(289a~289e)の重み付けを調整するように構成される請求項1から13のいずれか一項に記載の音声類似度評価器(100、200、340)。
- 前記音声類似度評価器は、前記入力音声信号と前記基準音声信号との間の類似度に関する情報(212)を決定するときに、前記取得された変調情報(262a~262e)と基準音声信号に関連付けられている前記基準変調情報(282a~282e)との間の、前記入力音声信号(210)が追加の信号成分を含むことを示す差分(289a~289e)に対し、前記取得された変調情報(262a~262e)と基準音声信号に関連付けられている前記基準変調情報(282a~282e)との間の、入力音声信号が信号成分を欠いていることを示す差分(289a~289e)と比較して、より高い重み付けをするように構成される請求項1から14のいずれか一項に記載の音声類似度評価器(100、200、340)。
- 前記音声類似度評価器は、前記入力音声信号と前記基準音声信号との間の前記類似度に関する前記情報を決定するときに、前記取得された変調情報(262a~262e)と前記基準変調情報(282a~282e)との間の差分(289a~289e)の正の値と負の値とを、異なる重みを使用して重み付けするように構成される請求項1から15のいずれか一項による音声類似度評価器(100、200、340)。
- 音声信号(310、410)を符号化するための音声符号化器(300、400)であって、
前記音声符号化器は、符号化されるべき音声信号(310、410)と符号化されて復号された音声信号(362)との間の類似度の評価に依存して1つまたは複数のコーディングパラメータ(324、424)を決定するように構成され、
前記音声符号化器は、符号化されるべき前記音声信号(310、410)と前記符号化されて復号された音声信号(352)との間の前記類似度を評価するように構成された請求項1から16のいずれか一項による音声類似度評価器(100、200、340)を含む、音声符号化器(300、400)。 - 前記音声符号化器は、前記音声符号化器によって符号化された異なる周波数範囲の音声コンテンツ(1042)に基づき欠落している音声コンテンツ(1052)を導出するために音声復号器(1000)の側で使用されるべき処理ルールを定義する1つまたは複数の帯域幅拡大パラメータ(324、424)を符号化するように構成され、および/または
前記音声符号化器は、音声復号器の側で使用されるべき処理ルールを定義する1つまたは複数の音声復号器構成パラメータを符号化するように構成される請求項17に記載の音声符号化器(300、400)。 - 前記音声符号化器は、インテリジェントギャップフィリングをサポートするように構成され、
前記音声符号化器は、符号化されるべき前記音声信号(310、410)と前記符号化されて復号された音声信号(352)との間の前記類似度の評価を使用して前記インテリジェントギャップフィリングの1つまたは複数のパラメータ(324、424)を決定するように構成される請求項17または請求項18に記載の音声符号化器(300、400)。 - 前記音声符号化器は、符号化されるべき音声信号(310、410)と符号化されて復号された音声信号(362)との間の類似度の評価に依存して、帯域幅拡大のためのソース周波数範囲(sT[.])とターゲット周波数範囲(tile[.])との間の1つまたは複数の関連付け、および/または帯域幅拡大のための1つまたは複数の処理動作パラメータを選択するように構成される請求項17から19のいずれか一項に記載の音声符号化器(300、400)。
- 前記音声符号化器は、帯域幅拡大のためのソース周波数範囲とターゲット周波数範囲との間の1つまたは複数の関連付けを選択するように構成され、
前記音声符号化器は、古いターゲット周波数範囲または新しいターゲット周波数範囲における包絡線の変調の評価に依存してソース周波数範囲とターゲット周波数範囲との間の関連付けの変更を選択的に許可または禁止するように構成される請求項17から20のいずれか一項に記載の音声符号化器(300、400)。 - 前記音声符号化器は、前記符号化器のフレームレートに対応する変調周波数範囲内の目標周波数範囲内の包絡線の変調強度(485)を決定し、前記決定された変調強度に依存して感度尺度(487)を決定するように構成され、
前記音声符号化器は、前記感度尺度に依存してターゲット周波数範囲とソース周波数範囲との間の関連付けを変更することが許可または禁止されるかを決定するように構成される請求項21に記載の音声符号化器(300、400)。 - 音声信号を符号化するための音声符号化器(500)であって、
前記音声符号化器は、ニューラルネットワーク(524)を使用して、符号化されるべき音声信号(510)に依存して1つまたは複数のコーディングパラメータ(524)を決定するように構成され、
前記音声符号化器は、請求項1から16のいずれか一項に記載の音声類似度評価器(100、200)を備え、
前記ニューラルネットワークは、前記音声類似度評価器(100、200)を使用して訓練される音声符号化器(500)。 - 音声類似度評価器(600)であって、
前記音声類似度評価器は、入力音声信号(610)に基づき複数の周波数範囲に対する包絡線信号(622a~622c)を取得するように構成され、
前記音声類似度評価器は、前記入力音声信号と基準音声信号との間の類似度に関する情報(612)を取得するために、前記包絡線信号に対応するか、または前記包絡線信号に基づく、前記入力音声信号の分析表現(622a~622c)を前記基準音声信号に関連付けられている基準分析表現(682a~682c)と比較するように構成され、
前記音声類似度評価器は、前記入力音声信号の2つもしくはそれ以上の隣接する音響周波数範囲における前記包絡線信号の間のもしくは取得された変調情報の共変調に依存して、または前記基準音声信号の2つもしくはそれ以上の隣接する音響周波数範囲における前記基準音声信号に関連付けられている包絡線信号の間もしくは基準変調情報の間の共変調に依存して、取得された前記分析表現(622a~622c)と前記基準分析表現(682a~682c)との間の差分の重み付けを調整するように構成される音声類似度評価器(600)。 - 音声信号間の類似度を評価するための方法であって、
前記方法は、入力音声信号に基づき複数の周波数範囲に対する包絡線信号を取得するステップを含み、
前記方法は、複数の変調周波数範囲に対する前記包絡線信号に関連付けられている変調情報を取得するステップを含み、前記変調情報は、複数の変調周波数範囲に対する前記包絡線信号の時間変調を記述し、それぞれの包絡線信号に存在する異なる変調周波数に関連付けられている複数の値を含み、
前記方法は、前記入力音声信号と基準音声信号との間の類似度に関する情報を取得するために、前記取得された変調情報を前記基準音声信号に関連付けられている基準変調情報と比較するステップを含む方法。 - 音声信号を符号化するための方法であって、
前記方法は、符号化されるべき音声信号と符号化されて復号された音声信号との間の類似度の評価に依存して1つまたは複数のコーディングパラメータを決定するステップを含み、
前記方法は、請求項25に従って、前記符号化されるべき音声信号と前記符号化されて復号された音声信号との間の前記類似度を評価するステップを含む方法。 - 音声信号を符号化するための方法であって、
前記方法は、請求項25に記載の音声信号間の類似度を評価するための方法を使用してニューラルネットワークを訓練するステップを含み、
前記方法は、前記ニューラルネットワークを使用して、符号化されるべき音声信号に依存して1つまたは複数のコーディングパラメータを決定するステップを含む方法。 - 音声信号間の類似度を評価するための方法であって、
前記方法は、入力音声信号に基づき複数の周波数範囲に対する包絡線信号を取得するステップを含み、
前記方法は、前記入力音声信号と基準音声信号との間の類似度に関する情報を取得するために、前記包絡線信号に対応するか、または前記包絡線信号に基づく、前記入力音声信号の分析表現を前記基準音声信号に関連付けられている基準分析表現と比較するステップを含み、
前記方法は、前記入力音声信号の2つもしくはそれ以上の隣接する音響周波数範囲における前記包絡線信号の間のもしくは取得された変調情報の共変調に依存して、または前記基準音声信号の2つもしくはそれ以上の隣接する音響周波数範囲における前記基準音声信号に関連する包絡線信号の間もしくは基準変調情報の間の共変調に依存して、取得された前記分析表現と前記基準分析表現との間の差分の重み付けを調整するステップを含む方法。 - 請求項25から28のいずれか一項に記載の前記方法を実行するためのコンピュータプログラムであって、前記コンピュータプログラムはコンピュータ上で実行されるコンピュータプログラム。
- 音声類似度評価器(100、200、340)であって、
前記音声類似度評価器は、入力音声信号(110、210、362)に基づき複数の周波数範囲に対する包絡線信号(122a~122c、222a~222e)を取得するように構成され、
前記音声類似度評価器は、複数の変調周波数範囲に対する前記包絡線信号に関連付けられている変調情報(162a~162c、262a~262e)を取得するように構成され、前記変調情報は、複数の変調周波数範囲に対する前記包絡線信号の時間変調を記述し、それぞれの包絡線信号に存在する異なる変調周波数に関連付けられている複数の値を含み、
前記音声類似度評価器は、前記入力音声信号と基準音声信号(310)との間の類似度に関する情報(112、212、342)を取得するために、前記取得された変調情報を前記基準音声信号に関連付けられている基準変調情報(182a~182c、282a~282e)と比較するように構成され、
前記入力音声信号は、前記基準音声信号の劣化バージョンである、音声類似度評価器(100、200、340)。 - 音声類似度評価器(100、200、340)であって、
前記音声類似度評価器は、入力音声信号(110、210、362)に基づき複数の周波数範囲に対する包絡線信号(122a~122c、222a~222e)を取得するように構成され、
前記音声類似度評価器は、複数の変調周波数範囲に対する前記包絡線信号に関連付けられている変調情報(162a~162c、262a~262e)を取得するように構成され、前記変調情報は、複数の変調周波数範囲に対する前記包絡線信号の時間変調を記述し、それぞれの包絡線信号に存在する異なる変調周波数に関連付けられている複数の値を含み、
前記音声類似度評価器は、前記入力音声信号と基準音声信号(310)との間の類似度に関する情報(112、212、342)を取得するために、前記取得された変調情報を前記基準音声信号に関連付けられている基準変調情報(182a~182c、282a~282e)と比較するように構成され、
前記入力音声信号は、符号化されるべき音声信号の符号化されて復号されたバージョンであり、
前記基準音声信号は、符号化されるべき前記音声信号である、音声類似度評価器(100、200、340)。 - 音声信号(310、410)を符号化するための音声符号化器(300、400)であって、
前記音声符号化器は、符号化されるべき音声信号(310、410)と符号化されて復号された音声信号(362)との間の類似度の評価に依存して1つまたは複数のコーディングパラメータ(324、424)を決定するように構成され、
前記音声符号化器は、符号化されるべき前記音声信号(310、410)と前記符号化されて復号された音声信号(352)との間の前記類似度を評価するように構成された音声類似度評価器(100、200、340)を含み、
前記音声類似度評価器は、入力音声信号(110、210、362)に基づき複数の周波数範囲に対する包絡線信号(122a~122c、222a~222e)を取得するように構成され、
前記音声類似度評価器は、複数の変調周波数範囲に対する前記包絡線信号に関連付けられている変調情報(162a~162c、262a~262e)を取得するように構成され、前記変調情報は、複数の変調周波数範囲に対する前記包絡線信号の時間変調を記述し、それぞれの包絡線信号に存在する異なる変調周波数に関連付けられている複数の値を含み、
前記音声類似度評価器は、前記入力音声信号と基準音声信号(310)との間の類似度に関する情報(112、212、342)を取得するために、前記取得された変調情報を前記基準音声信号に関連付けられている基準変調情報(182a~182c、282a~282e)と比較するように構成される、音声符号化器(300、400)。 - 音声類似度評価器(600)であって、
前記音声類似度評価器は、入力音声信号(610)に基づき複数の周波数範囲に対する包絡線信号(622a~622c)を取得するように構成され、
前記音声類似度評価器は、前記入力音声信号と基準音声信号との間の類似度に関する情報(612)を取得するために、前記包絡線信号に対応するか、または前記包絡線信号に基づく、前記入力音声信号の分析表現(622a~622c)を前記基準音声信号に関連付けられている基準分析表現(682a~682c)と比較するように構成され、
前記音声類似度評価器は、前記入力音声信号の2つもしくはそれ以上の隣接する音響周波数範囲における前記包絡線信号の間のもしくは取得された変調情報の共変調に依存して、または前記基準音声信号の2つもしくはそれ以上の隣接する音響周波数範囲における前記基準音声信号に関連付けられている包絡線信号の間もしくは基準変調情報の間の共変調に依存して、取得された前記分析表現(622a~622c)と前記基準分析表現(682a~682c)との間の差分の重み付けを調整するように構成され、
前記入力音声信号は、前記基準音声信号の劣化バージョンである、音声類似度評価器(600)。 - 音声類似度評価器(600)であって、
前記音声類似度評価器は、入力音声信号(610)に基づき複数の周波数範囲に対する包絡線信号(622a~622c)を取得するように構成され、
前記音声類似度評価器は、前記入力音声信号と基準音声信号との間の類似度に関する情報(612)を取得するために、前記包絡線信号に対応するか、または前記包絡線信号に基づく、前記入力音声信号の分析表現(622a~622c)を前記基準音声信号に関連付けられている基準分析表現(682a~682c)と比較するように構成され、
前記音声類似度評価器は、前記入力音声信号の2つもしくはそれ以上の隣接する音響周波数範囲における前記包絡線信号の間のもしくは取得された変調情報の共変調に依存して、または前記基準音声信号の2つもしくはそれ以上の隣接する音響周波数範囲における前記基準音声信号に関連付けられている包絡線信号の間もしくは基準変調情報の間の共変調に依存して、取得された前記分析表現(622a~622c)と前記基準分析表現(682a~682c)との間の差分の重み付けを調整するように構成され、
前記入力音声信号は、符号化されるべき音声信号の符号化されて復号されたバージョンであり、
前記基準音声信号は、符号化されるべき前記音声信号である、音声類似度評価器(600)。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18175251 | 2018-05-30 | ||
EP18175251.0 | 2018-05-30 | ||
EP18198992.2 | 2018-10-05 | ||
EP18198992.2A EP3576088A1 (en) | 2018-05-30 | 2018-10-05 | Audio similarity evaluator, audio encoder, methods and computer program |
PCT/EP2019/064105 WO2019229190A1 (en) | 2018-05-30 | 2019-05-29 | Audio similarity evaluator, audio encoder, methods and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021526240A JP2021526240A (ja) | 2021-09-30 |
JP7301073B2 true JP7301073B2 (ja) | 2023-06-30 |
Family
ID=62567262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020567028A Active JP7301073B2 (ja) | 2018-05-30 | 2019-05-29 | 音声類似度評価器、音声符号化器、方法およびコンピュータプログラム |
Country Status (9)
Country | Link |
---|---|
US (1) | US20210082447A1 (ja) |
EP (3) | EP3576088A1 (ja) |
JP (1) | JP7301073B2 (ja) |
KR (1) | KR102640748B1 (ja) |
BR (1) | BR112020024361A2 (ja) |
CA (2) | CA3165021A1 (ja) |
ES (1) | ES2960785T3 (ja) |
MX (1) | MX2020012886A (ja) |
WO (1) | WO2019229190A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3084489B1 (fr) * | 2018-07-26 | 2020-09-11 | Etat Francais Represente Par Le Delegue General Pour Larmement | Procede de detection d’au moins un equipement informatique compromis au sein d’un systeme d’information |
CN113593586A (zh) * | 2020-04-15 | 2021-11-02 | 华为技术有限公司 | 音频信号编码方法、解码方法、编码设备以及解码设备 |
WO2022076404A1 (en) * | 2020-10-05 | 2022-04-14 | The Trustees Of Columbia University In The City Of New York | Systems and methods for brain-informed speech separation |
CN116386611B (zh) * | 2023-04-20 | 2023-10-13 | 珠海谷田科技有限公司 | 一种教学声场环境的去噪方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002082696A (ja) | 2000-09-07 | 2002-03-22 | Mitsubishi Electric Corp | 音声符号化・復号化機器の検査方法および検査装置 |
JP2004004530A (ja) | 2002-01-30 | 2004-01-08 | Matsushita Electric Ind Co Ltd | 符号化装置、復号化装置およびその方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3183072B2 (ja) * | 1994-12-19 | 2001-07-03 | 松下電器産業株式会社 | 音声符号化装置 |
JPH08263099A (ja) * | 1995-03-23 | 1996-10-11 | Toshiba Corp | 符号化装置 |
JP2008510197A (ja) * | 2004-08-17 | 2008-04-03 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | スケーラブルなオーディオ符号化 |
WO2007034375A2 (en) * | 2005-09-23 | 2007-03-29 | Koninklijke Philips Electronics N.V. | Determination of a distortion measure for audio encoding |
KR101149448B1 (ko) | 2007-02-12 | 2012-05-25 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 |
CA2827482C (en) * | 2011-02-18 | 2018-01-02 | Ntt Docomo, Inc. | Speech decoder, speech encoder, speech decoding method, speech encoding method, speech decoding program, and speech encoding program |
US10163447B2 (en) * | 2013-12-16 | 2018-12-25 | Qualcomm Incorporated | High-band signal modeling |
EP3402217A1 (en) * | 2017-05-09 | 2018-11-14 | GN Hearing A/S | Speech intelligibility-based hearing devices and associated methods |
-
2018
- 2018-10-05 EP EP18198992.2A patent/EP3576088A1/en not_active Withdrawn
-
2019
- 2019-05-29 ES ES19737471T patent/ES2960785T3/es active Active
- 2019-05-29 JP JP2020567028A patent/JP7301073B2/ja active Active
- 2019-05-29 KR KR1020207037819A patent/KR102640748B1/ko active IP Right Grant
- 2019-05-29 WO PCT/EP2019/064105 patent/WO2019229190A1/en active Search and Examination
- 2019-05-29 CA CA3165021A patent/CA3165021A1/en active Pending
- 2019-05-29 CA CA3101911A patent/CA3101911C/en active Active
- 2019-05-29 EP EP23180176.2A patent/EP4270393A3/en active Pending
- 2019-05-29 EP EP19737471.3A patent/EP3803865B1/en active Active
- 2019-05-29 MX MX2020012886A patent/MX2020012886A/es unknown
- 2019-05-29 BR BR112020024361-2A patent/BR112020024361A2/pt unknown
-
2020
- 2020-11-27 US US17/105,845 patent/US20210082447A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002082696A (ja) | 2000-09-07 | 2002-03-22 | Mitsubishi Electric Corp | 音声符号化・復号化機器の検査方法および検査装置 |
JP2004004530A (ja) | 2002-01-30 | 2004-01-08 | Matsushita Electric Ind Co Ltd | 符号化装置、復号化装置およびその方法 |
Non-Patent Citations (1)
Title |
---|
Steven van de Par et al.,A new perceptual model for audio coding based on spectro-temporal masking,AES Convention 124,2008年05月,p.1-14 |
Also Published As
Publication number | Publication date |
---|---|
KR102640748B1 (ko) | 2024-02-27 |
EP4270393A3 (en) | 2023-12-20 |
BR112020024361A2 (pt) | 2021-03-02 |
CN112470220A (zh) | 2021-03-09 |
JP2021526240A (ja) | 2021-09-30 |
CA3101911A1 (en) | 2019-12-05 |
US20210082447A1 (en) | 2021-03-18 |
KR20210021490A (ko) | 2021-02-26 |
EP4270393A2 (en) | 2023-11-01 |
EP3803865B1 (en) | 2023-08-09 |
CA3101911C (en) | 2023-12-12 |
EP3576088A1 (en) | 2019-12-04 |
EP3803865A1 (en) | 2021-04-14 |
MX2020012886A (es) | 2021-04-28 |
CA3165021A1 (en) | 2019-12-05 |
ES2960785T3 (es) | 2024-03-06 |
EP3803865C0 (en) | 2023-08-09 |
WO2019229190A1 (en) | 2019-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7301073B2 (ja) | 音声類似度評価器、音声符号化器、方法およびコンピュータプログラム | |
US10249310B2 (en) | Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal | |
US10373621B2 (en) | Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal | |
US20230395085A1 (en) | Audio processor and method for generating a frequency enhanced audio signal using pulse processing | |
Disch et al. | Improved psychoacoustic model for efficient perceptual audio codecs | |
CN112470220B (zh) | 音频相似性评估器、音频编码器、方法 | |
RU2782981C2 (ru) | Модуль оценки подобия аудиосигналов, аудиокодер, способы и компьютерная программа | |
US20240194209A1 (en) | Apparatus and method for removing undesired auditory roughness | |
RU2786712C1 (ru) | Аудиопроцессор и способ генерирования аудиосигнала с улучшенной частотной характеристикой с использованием импульсной обработки | |
JP2024525212A (ja) | 望ましくない音の粗さを除去するための装置および方法 | |
TW202334940A (zh) | 在音訊寫碼中使用不同雜訊填充方法進行頻譜時間上改良之頻譜間隙填充之方法及設備 | |
WO2024083809A1 (en) | Apparatus and method for quality determination of audio signals | |
Moussa et al. | Pitch enhancement motivated by rate-distortion theory |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210201 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220322 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230522 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230620 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7301073 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |