JP2019500641A - 過渡処理を高めるためのポストプロセッサ、プレプロセッサ、オーディオ符号器、オーディオ復号器、及び関連する方法 - Google Patents
過渡処理を高めるためのポストプロセッサ、プレプロセッサ、オーディオ符号器、オーディオ復号器、及び関連する方法 Download PDFInfo
- Publication number
- JP2019500641A JP2019500641A JP2018527783A JP2018527783A JP2019500641A JP 2019500641 A JP2019500641 A JP 2019500641A JP 2018527783 A JP2018527783 A JP 2018527783A JP 2018527783 A JP2018527783 A JP 2018527783A JP 2019500641 A JP2019500641 A JP 2019500641A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- block
- gain
- processor
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims description 94
- 238000000034 method Methods 0.000 title claims description 91
- 230000001052 transient effect Effects 0.000 title claims description 40
- 230000002708 enhancing effect Effects 0.000 title description 2
- 230000005236 sound signal Effects 0.000 claims abstract description 142
- 230000008859 change Effects 0.000 claims abstract description 39
- 238000012805 post-processing Methods 0.000 claims abstract description 39
- 238000005070 sampling Methods 0.000 claims description 52
- 238000000605 extraction Methods 0.000 claims description 31
- 238000007781 pre-processing Methods 0.000 claims description 31
- 230000003595 spectral effect Effects 0.000 claims description 27
- 230000002829 reductive effect Effects 0.000 claims description 22
- 238000007493 shaping process Methods 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 21
- 230000015572 biosynthetic process Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 20
- 238000003786 synthesis reaction Methods 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 18
- 230000007704 transition Effects 0.000 claims description 18
- 238000012937 correction Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 230000003247 decreasing effect Effects 0.000 claims description 8
- 230000001965 increasing effect Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 7
- 230000003321 amplification Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 6
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000011049 filling Methods 0.000 claims description 3
- 230000000903 blocking effect Effects 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 37
- 230000006870 function Effects 0.000 description 35
- 238000003775 Density Functional Theory Methods 0.000 description 17
- 238000013139 quantization Methods 0.000 description 17
- 230000002123 temporal effect Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 12
- 230000003044 adaptive effect Effects 0.000 description 11
- 230000006872 improvement Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000000873 masking effect Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000036962 time dependent Effects 0.000 description 4
- 101000969688 Homo sapiens Macrophage-expressed gene 1 protein Proteins 0.000 description 3
- 102100021285 Macrophage-expressed gene 1 protein Human genes 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 241000255777 Lepidoptera Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 1
- 101100521334 Mus musculus Prom1 gene Proteins 0.000 description 1
- 101100031387 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) drc-1 gene Proteins 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000005923 long-lasting effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/005—Tone control or bandwidth control in amplifiers of digital signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/16—Automatic control
- H03G5/165—Equalizers; Volume or gain control in limited frequency bands
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Stereophonic System (AREA)
Abstract
Description
典型的なフィルタバンクベースの知覚符号器(例えば、MP3又はAAC)は主に、同時マスキングの知覚効果を利用するようにデザインされているが、マスキング現象の時間的側面にも対処しなければならない。ノイズはマスキング信号を与える前及び与えた後の短時間でマスキングされる(プレマスキング及びポストマスキング現象)。ポストマスキングは、プレマスキングよりも非常に長い時間、観察される(マスカのレベル及び継続時間に応じて、0.5ms〜2.0msではなく10.0〜50.0msのオーダー)。
前述した過渡信号は、知覚オーディオ符号復号器においてプレエコーをトリガする場合がある一方で、この過渡信号は単一の分離されたアタックを示す。すなわち、次のアタックが現れるまである最短時間が存在する。そのため、知覚符号器は、最後のアタックの処理から回復するのに多少の時間がかかり、例えば、次のアタックに対処するために予備ビットを再び集める可能性がある(以下に説明する「ビットリザーバ」を参照)。これとは対照的に、観客の拍手の音は、高密度に離隔して配置された拍手の音の安定したストリームからなり、それぞれの拍手の音はそれ自身の過渡事象である。図11に示すのは、ステレオ拍手信号の高周波時間エンベロープの説明図である。図からわかるように、以後の拍手事象間の平均時間は10msを著しく下回る。
一組の技術が、符号化/復号信号におけるプレエコー人工物を回避するために提案されている。
1つの方法は、過渡信号部分を最初に覆うフィルタバンクウィンドウのスペクトル係数に対する符号化精度を上げることである(いわゆる「プレエコー制御」、[MPEG1])。これは、このようなフレームの符号化に対する必要なビット量がかなり増加するため、この方法は一定ビットレート符号器においては適用できない。ビットリザーバを用いることによって、ある程度、ビットレート要求の局所変化を考慮することができる([Bra87]、[MPEG1])。この技術によって、平均ビットレートが依然として一定のままで、以前のフレームの符号化の間に取っておいたビットを用いてビットレートにおけるピーク需要を取り扱うことができる。
多くの知覚的オーディオ符号器において用いられる異なる方策は、Edlerによって導入された適応ウィンドウ切り替えである[Edl89]。この技術は、フィルタバンクウィンドウのサイズを入力信号の特徴に適応させる。固定された信号部分を、長いウィンドウ長を用いて符号化する一方で、短いウィンドウを用いて信号の過渡部分を符号化する。このようにして、ピークビット要求をかなり減らすことができる。なぜならば、高符号化精度が要求される領域は時間的に制約されるからである。プレエコーは、変換サイズが短くなることによって暗黙的に継続時間が制限される。
時間領域ノイズ整形(TNS)を[Her96]に導入した。TNSによって、量子化ノイズの時間整形が、スペクトルドメイン内の時間ブロック上で周波数方向に沿って開ループ予測符号化を適用することによって実現される。
量子化ノイズの時間的広がりを回避する別の方法は、動的ゲイン変更(ゲイン制御プロセス)を信号に、そのスペクトル分解及び符号化を計算する前に適用することである。
このアプローチの原理を図12に例示する。入力信号のダイナミクスは、その符号化の前に、ゲイン変更(乗法前処理)によって低減される。このようにして、信号中の「ピーク」は符号化の前に減衰される。ゲイン変更のパラメータはビットストリームにおいて伝達される。この情報を用いて、プロセスは復号器サイドで逆になる。すなわち復号後に、別のゲイン変更によって原信号ダイナミクスが復元される。
関連する従来技術は、特許公報WO2006/045373A1、WO2006/045371A1、WO2007/042108A1、WO2006/108543A1、又はWO2007/110101A1において記録に残っている。
[Bos96]:M.Bosi,K.Brandenburg,S.Quackenbush,L.Fielder,K.Akagiri,H.Fuchs,M.Dietz,J.Herre,G.Davidson,Oikawa:"MPEG-2 Advanced Audio Coding",101st
AES Convention,Los Angeles 1996
[Bra87]:K.Brandenburg:"OCF-A New Coding Algorithm for High Quality Soun
d Signals",Proc.IEEEICASSP,1987
[Joh92b]:J.D.Johnston,K.Brandenburg:"Wideband Coding Perceptual Consi
derations for Speech and Music",in S.Furui and M.M.Sondhi,editors:"Ad
vances in Speech Signal Processing",Marcel Dekker,New York,1992
[Edl89]:B.Edler:「Codierung von Audiosignalen mit uberlappender Transformation und adaptiven Fensterfunktionen」、Frequenz,Vol.43,pp.252~256,1989
[Her96]:J.Herre,J.D.Johnston:"Enhancing the Performance of Perceptual
Audio Coders by Using Temporal Noise Shaping(TNS)",101st AES Conventio
n,Los Angeles 1996,Preprint 4384
[Hot08]:Gerard Hotho,Steven van de Par,and Jeroen Breebaart:"Multichann
el coding of applause signals",EURASIP Journal of Advances in Signal P
rocessing,Hindawi,January 2008,doi:10.1155/2008/531693
[Lin93]:M.Link:"An Attack Processing of Audio Signals for Optimizing the Temporal Characteristics of a Low Bit-Rate Audio Coding System",95th AES convention,New York 1993,Preprint 3696
[MPEG1]:ISO/IEC JTC1/SC29/WG11 MPEG,International Standard ISO 11172-3"Coding of moving pictures and associated audio for digital storage media at up to about 1.5Mbit/s"
[Vau91]:T.Vaupel:「Ein Beitrag zur Transformationscodierung von Audiosignalen unter Verwendung der Methode der'Time Domain Aliasing Cancellation(TDAC)'und einer Signalkompandierung im Zeitbereich」,PhD Thesis,Universitat-Gesamthochschule Duisburg,Germany,1991
・アクティブなHREPチャンネル/オブジェクトの制限
・非自明な最大伝達ゲイン係数g(k)に対する制限(0dBの自明なゲイン係数であれば、付随するDFT/iDFT対に対する必要性が軽減される)
・効率的な分割基数2スパーストポロジにおけるDFT/iDFTの計算
ビットストリームフォーマット:HREP信号送信
提案した実施態様では、FFTを用いてLP部分を計算する。FFT変換サイズをN、詳細にはN=128にする。入力信号sを、サイズNのブロック(半分重複している)に分割して、入力ブロック
HPブロックhpb[k]を次に、時間ドメインにおける単純な減算(113、213)によって、以下のように得る。
復号器サイドにおいて、遷移領域において完全な再構成を得るために、遷移領域における適応的再構成形状rs[f](117b)を、符号器サイドで用いる処理形状ps[f](217b)の代わりに用いなければならず、これは処理形状ps[f]及びg[k]に以下のように依存する。
最終の前処理済出力に対する出力ブロックk寄与の前半は、
前処理サイドにおいて、ブロックkのHP部分(過渡事象を含むと仮定する)を、スカラゲインg[k]を用いて調整して、その近辺におけるバックグラウンドにより類似させる。ブロックkのHP部分のエネルギーをhp_e[k]によって示し、ブロックkの近辺のHPバックグラウンドの平均エネルギーをhp_bg_e[k]によって示す。
コア符号器及び復号器によって、過渡事象の更なる減衰が導入される。この減衰は、追加の減衰ステップを導入することによって、パラメータβ∈[0,1]を用いて、コア符号器構成とフレームの信号特徴とに応じて、以下のようにほぼモデリングされる。
ライブコンサートなどの拍手信号には通常、拍手音の音だけでなく、群衆の叫び、口笛、及び観客の足の踏みならしも含まれている。多くの場合に、アーチストは、拍手又は長く続く拍手と重複する機器(を扱う)音の間にお知らせを伝える。ここで、時間エンベロープ整形(例えば、STP又はGES)の既存の方法はこれらの非拍手成分を、干渉音のまさにその瞬間にアクティブにされると損なう場合がある。したがって、信号分類器によってこのような信号の間に非アクティブ化を保証する。HREPはいわゆるメタゲイン制御(MGC)の特徴を示す。MGCを用いてHREP処理の知覚効果を適切に緩和して、非常に正確な入力信号分類の必要性を回避する。MGCを用いれば、すべての種類の雰囲気及び干渉音とミックスした拍手を、不要な人為的なものを導入することなく取り扱うことができる。
EG−H実施態様では75%に固定されている。図8bの制御因子pは確率様「信頼」係数pとして機能する。
特に、付録及び付録Aに例示した更なる実施形態に言及する。
○MPEG−H3DAudioにおけるHREPの更なる実施形態の説明
高分解能エンベロープ処理(HREP)は、主に多くの高密度な過渡事象(例えば、拍手、雨滴音など)からなる信号の知覚符号化を改善するためのツールである。これらの信号は従来、MPEGオーディオ符号復号器を、特に低いビットレートにおいて符号化することが非常に難しかった。主観テストをしたところ、48kbpsステレオにおいてHREP処理によって約12MUSHRAポイントの著しい改善が見られた。
HREPツールによって、高密度に離隔して配置された過渡事象(例えば拍手信号、これらはライブ録音の重要な部分であるため)を含む信号に対する符号化性能の改善が得られる。同様に、雨滴音又は他の音(例えば花火)はこのような特徴を示すことができる。しかしながら、この種類の音によって、既存のオーディオ符号復号器に対する問題が、特に、低ビットレートにおいて及び/又はパラメータの符号化ツールを用いて符号化したときに生じる。
HREPツールは、すべての入力チャネル構成(モノ、ステレオ、多チャンネル(3Dを含む))に対して、またオーディオオブジェクトに対しても機能する。
コア実験において、MUSHRAリスニング試験結果を行う。これは、拍手信号を符号化するためのHREPのメリットを示すものである。知覚品質における著しい改善を以下のテストケースに対して実証する。
128kbit/sにおいて5.1チャンネルに対して7MUSHRAポイント平均改善
ステレオ48kbit/sに対して12MUSHRAポイント平均改善
ステレオ128kbit/sに対して5MUSHRAポイント平均改善
典型的には、フルの良く知られたMPEGサラウンドテストセットを用いて、5.1ch信号に対する知覚品質を評価することを通して、非拍手信号の品質がHREPによって損なわれないことを証明する。
図10cにHREPが備わった符号復号器における信号フローを示す。符号器サイドにおいて、ツールは、実際の知覚オーディオ符号復号器の前に高時間分解能を伴うプレプロセッサとして機能することを、入力信号を分析し、過渡事象の高周波部分を減衰させてしたがって時間的に平坦化し、少しのサイド情報(ステレオ信号に対して1〜4kbps)を生成することによって行う。拍手分類器が、符号器にHREPをアクティブにするか否かの決定を導いてもよい。復号器サイドにおいて、このツールは、オーディオ符号復号器の後のポストプロセッサとして機能することを、過渡事象の高周波部分を高めてしたがって時間整形して、符号化の間に生成されたサイド情報を用いることによって行う。
図9cに符号器内のHREPプロセッサの内部の信号フローを表示する。前処理を、入力信号をローパス(LP)部分及びハイパス(HP)部分に分割することによって適用する。これは、FFTを用いてLP部分を計算することによって行う。LP部分が与えられたら、HP部分は時間ドメインにおいて減算することによって得られる。時間依存性のスカラゲインをHP部分に適用し、これをLP部分に加え戻して前処理済出力を形成する。
復号器サイド処理について、図5aで概説する。HP形状情報及びスカラゲインに対するサイド情報を、ビットストリーム(図示せず)から構文解析して、符号器前処理のそれと逆の復号器後処理に類似する信号に適用する。後処理を、信号をローパス(LP)部分及びハイパス(HP)部分に再び分割することによって適用する。これは、FFTを用いてLP部分を計算することによって行う。LP部分が与えられたら、HP部分は時間ドメインにおいて減算することによって得られる。伝達されたサイド情報に依存するスカラゲインをHP部分に適用し、これをLP部分に加え戻して前処理済出力を形成する。
すべてのHREPサイド情報を拡張ペイロードに信号で伝えて、MPEG−H3DAudioビットストリーム内に下位互換性があるように埋め込む。
必要なWD変化、提案したビットストリーム構文、セマンティクス、及び復号プロセスの詳細な説明を、文献の付録Aにおいてdiffテキストとして見ることができる。
HREP処理の計算複雑性は、信号のLP/HP分割を実施するDFT/IDFT対の計算によって占められている。1024の時間ドメイン値を含む各オーディオフレームに対して、16対の128ポイント実数値DFT/IDFTを計算しなければならない。
低複雑性(LC)プロファイルに含めるために、以下の制限を提案する。
アクティブなHREPチャンネル/オブジェクトの制限
非自明な最大伝達ゲイン係数g(k)に対する制限(0dBの自明なゲイン係数によって、付随するDFT/IDFT対に対する必要性が軽減される)
効率的な分割基数2スパーストポロジにおけるDFT/iDFTの計算
・リスニングテスト
メリットの証拠として、リスニング試験結果を5.1チャンネルラウドスピーカーリスニング(128kbps)に対して示す。更に、中間(48kbps)及び高(128kbps)品質におけるステレオヘッドフォンリスニングに対する結果を示す。図16にリスニングテストセットアップをまとめる。
図16−リスニングテスト概略
*128kbps5.1ch
図は、128kbps5.1chテストの絶対MUSHRAスコアを示している。知覚品質は「良い」〜「非常に良い」の範囲にある。なお拍手様信号は、範囲「良い」における最も低いスコーリング項目の中にある。
図17bに、128kbps5.1chテストの差分MUSHRAスコアを示す。拍手項目はすべて著しい改善を示しているが、非拍手項目に対しては知覚品質における著しい変化は観察されない。著しく低下している項目はない。
図17b:128kbps5.1chテストに対する差分MUSHRAスコア。
図17cに示すのは、テストセットに含まれるすべての拍手項目に対する絶対MUSHRAスコアであり、図17dに示すのは、テストセットに含まれるすべての拍手項目に対する差分MUSHRAスコアである。絶対的知覚品質は「良い」範囲にある。差分において、全体として、7ポイントの著しいゲインがある。個々の品質ゲインは4〜9ポイントの範囲にあり、すべて著しい。
図17d:128kbps5.1chテスト拍手信号に対する差分MUSHRAスコア。
図17eに、48kbpsステレオテストの絶対MUSHRAスコアを示す。ここで、セットの信号はすべて拍手信号である。知覚品質は「並み」〜「良い」の範囲である。常に、「hrep」条件のスコアは「nohrep」条件よりも高い。図17fに差分MUSHRAスコアを示す。1つを除くすべての項目に対しては、「hrep」スコアは「nohrep」よりも著しく良好である。3〜17ポイントの範囲の改善が観察されている。全体として、12ポイントの著しい平均のゲインがある。著しく低下している項目はない。
図17e:48kbpsステレオテストに対する絶対MUSHRAスコア。
図17f:48kbpsステレオテストに対する差分MUSHRAスコア。
図17g及び図17hに、128kbpsステレオテストの絶対及び差分MUSHRAスコアをそれぞれ示す。絶対スコアにおいて、すべての信号スコアは範囲「非常に良い」にある。差分スコアにおいて、知覚品質はほとんど透明であるにもかかわらず、8信号のうち6つに対して、全体として3〜9ポイントの著しい改善があって、平均で5MUSHRAポイントになることが見られる。著しく低下している項目はない。
図17h:128kbpsステレオテストに対する差分MUSHRAスコア。
結果は、CEプロポーザルのHREP技術が、広い範囲のビットレート/絶対的品質において拍手様信号の符号化に対して著しいメリットがあることを明瞭に示している。また、非拍手信号に対して全く障害がないことが証明されている。
HPREPは、主に多くの高密度な過渡事象(例えば、拍手、雨滴音など)からなる信号の知覚符号化を改善するためのツールである。HREPを適用する効果は二重である。HREPは、符号器に課されるビットレート要求を、入力信号の短時間ダイナミクスを低減することによって緩和する。更に、HREPは、復号器の(アップ)ミックスステージにおける適切なエンベロープ復元を確実にする。これはすべて、パラメータの多チャンネル符号化技術が符号復号器内で適用されているならば、より重要である。主観テストをしたところ、48kbpsステレオにおいてHREP処理によって約12MUSHRAポイントの改善が見られ、128kb5.1chにおいて7MUSHRAポイントが見られた。
○MPEG−H3DAudio内にHREPの好ましい実施形態
続いて、ISO/IEC23008−3:2015及びISO/IEC23008−3:2015/EAM3文献に対してHREPに対して要求される変化に対するデータ変更を与える。
表1−MPEG−H3DA機能ブロック及び内部処理ドメイン。fs、coreはコア復号器出力サンプリングレートを示し、fs、out復号器出力サンプリングレートを示す。
表13−mpegh3daExtElementConfig()の構文
表50−usacExtElementTypeの値
表51−拡張ペイロード復号に対するデータブロックの解釈
5.2.2.X拡張要素構成
表2−HREPConfig()の構文
表3−HREPFrame()の構文
arith_decode(*ari_state,cum_freq,cfl),
arith_start_decoding(*ari_state),
arith_done_decoding(*ari_state).
以下の2つの更なるヘルパー関数を導入する。
ari_decode_bit_with_prob(*ari_state,count_0,count_total),
(p0=count_0/total_count及びp1=1−p0として1ビットを復号する)
ari_decode_bit(*ari_state)
(モデリングを用いずに、p0=0.5及びp1=0.5として1ビットを復号する)
[
prob_scale=1<<14;
tbl[0]=probScale-(count_0*prob_scale)/count_total;
tbl[1]=0;
res=arith_decode(ari_state,tbl,2);
return res;
}
ari_decode_bit(*ari_state)
[
prob_scale=1<<14;
tbl[0]=prob_scale>>1;
tbl[1]=0;
res=arith_decode(ari_state,tbl,2);
return res;
]
HREP_decode_ac_data(gain_count,signal_count)
[
cnt_mask[2]=[1,1];
cnt_sign[2]=[1,1];
cnt_neg[2]=[1,1];
cnt_pos[2]=[1,1];
arith_start_decoding(&ari_state);
for(pos=0;pos<gain_count;pos++)[
for(sig=0;sig<signal_count;sig++)[
if(!isHREPActive[sig])[
continue;
]
mask_bit=ari_decode_bit_with_prob(&ari_state,cnt_mask[0],cnt_mask[0]+cnt_mask[1]);
cnt_mask[mask_bit]++;
if(mask_bit)[
sign_bit=ari_decode_bit_with_prob(&ari_state,cnt_sign[0],cnt_sign[0]+cnt_sign[1]);
cnt_sign[sign_bit]+=2;
if(sign_bit)[
large_bit=ari_decode_bit_with_prob(&ari_state,cnt_neg[0],cnt_neg[0]+cnt_neg[1]);
cnt_neg[large_bit]+=2;
last_bit=ari_decode_bit(&ari_state);
gainIdx[pos][sig]=-2*large_bit-2+last_bit;
]else[
large_bit=ari_decode_bit_with_prob(&ari_state,cnt_pos[0],cnt_pos[0]+cnt_pos[1]);
cnt_pos[large_bit]+=2;
if(large_bit)[
gainIdx[pos][sig]=3;
]else[
last_bit=ari_decode_bit(&ari_state);
gainIdx[pos][sig]=2-last_bit;
]
]
]else[
gainIdx[pos][sig]=0;
]
if(extendedGainRange)[
prob_scale=1<<14;
esc_cnt=prob_scale/5;
tbl_esc[5]=[prob_scale-esc_cnt,prob_scale-2*esc_cnt,prob_scale-3*esc_cnt,prob_scale-4*esc_cnt,0];
sym=gainIdx[pos][sig];
if(sym<=-4)[
esc=arith_decode(ari_state,tbl_esc,5);
sym=-4-esc;
]else if(sym>=3)[
esc=arith_decode(ari_state,tbl_esc,5);
sym=3+esc;
]
gainIdx[pos][sig]=sym;
]
gainIdx[pos][sig]+=GAIN_INDEX_0dB;
]
]
arith_done_decoding(&ari_state);
]
5.5.X高分解能エンベロープ処理(HREP)ツール
5.5.X.1ツール説明
HREPツールによって、高密度に離隔して配置された過渡事象(例えば拍手信号、これらはライブ録音の重要な部分であるため)を含む信号に対する符号化性能の改善が得られる。同様に、雨滴音又は他の音(例えば花火)はこのような特徴を示すことができる。しかしながら、この種類の音によって、既存のオーディオ符号復号器に対する問題が、特に、低ビットレートにおいて及び/又はパラメータの符号化ツールを用いて符号化したときに生じる。
current_signal_group:current_signal_groupパラメータは、Signals3d()構文要素及びmpegh3daDecoderConfig()構文要素に基づく。
signal_type:電流信号グループのタイプであり、チャンネル信号及びオブジェクト、HOA、及びSAOC信号の間を区別するために用いる。
signal_count:電流信号グループにおける信号数
channel_layout:電流信号グループがチャンネル信号を有する場合には、各チャンネルに対する話者の特性(LFE話者を特定するために用いる)を含む。
extendedGainRange:ゲインインデックスが用いるのが3ビット(8値)なのか4ビット(16値)なのかを示す(nBitsGainによって計算する)。
extendedBetaFactorPrecision:示すベータ因子インデックスが用いるのが3ビットなのか4ビットなのかを示す(nBitsBetaによって計算する)。
isHREPActive[sig]:ツールが、電流信号グループ内のインデックスsig上の信号に対してアクティブか否かを示す。
lastFFTLine[sig]:FFTを用いて実施するローパス手順において用いられる最後の非ゼロラインの位置。
defaultBetaFactorIdx[sig]:ゲイン補償手順においてゲインを変更するために用いられる初期設定のベータ因子インデックス。
outputFrameLength:フレームあたりのサンプルの等価数、当初のサンプリング周波数を用いており、USAC基準において規定されている。
gain_count:1フレーム内の信号あたりのゲイン数
useRawCoding:ゲインインデックスは、それぞれnBitsGainを用いて未処理を符号化したものなのか、又は算術符号化を用いて符号化したのかを示す。
gainIdx[pos][sig]:電流信号グループ内の位置sig上の信号の位置pos上のブロックに対応するゲインインデックス。extendedGainRange=0である場合、可能な値は範囲{0、…、7}であり、extendedGainRange=1である場合、可能な値は範囲{0、…、15}である。
GAIN_INDEX_0dB:0dBに対応するゲインインデックスオフセット、extendedGainRange=0の場合に値4が用いられ、extendedGainRange=1の場合に値8が用いられる。ゲインインデックスはは、GAIN_INDEX_0dBをそれらの当初の符号付きデータ範囲に加えることによって符号無し値として伝達される。
all_zero:電流信号に対する1フレーム内のすべてのゲインインデックスが値GAIN_INDEX_0dBを有するか否かを示す。
useDefaultBetaFactorIdx:電流信号に対するベータ因子インデックスが、defaultBetaFactor[sig]によって特定される初期設定の値を有するか否かを示す。
betaFactorIdx[sig]:ゲイン補償手順におけるゲインを変更するために用いるベータ因子インデックス。
信号の総数(すべての信号群に渡ってカウントされる)が最大で6である場合、制限はない。
そうでない場合、HREPがアクティブである信号の総数(HREPConfig()におけるisHREPActive[sig]構文要素によって示され、すべての信号群に渡ってカウントされる)が最大で4である場合、更なる制限はない。
そうでない場合、HREPがアクティブである信号の総数(HREPConfig()におけるisHREPActive[sig]構文要素によって示され、すべての信号群に渡ってカウントされる)は、最大で8に制限されるものとする。
更に、各フレームに対して、GAIN_INDEX_0dBとは異なるゲインインデックスの総数(HREPがアクティブである信号に対して、すべての信号群に渡ってカウントされる)は、最大で4×gain_countとする。ブロックがGAIN_INDEX_0dBと等しいゲインインデックスを有する場合、FFT、補間補正、及びIFFTは省略するものとする。この場合、入力ブロックに正弦ウィンドウの二乗を乗じて、重複加算手順において直接用いるものとする。
5.5.X.3.1概要
構文要素mpegh3daExtElementConfig()において、フィールドusacExtElementPayloadFragは、ID_EXT_ELE_HREP要素の場合、ゼロとする。HREPツールは、タイプSignalGroupTypeChannels及びSignalGroupTypeObject(SignalGroupType[grp]Signals3d()構文要素によって規定される)の信号群に対してのみ適用可能である。したがって、ID_EXT_ELE_HREP要素は、タイプSignalGroupTypeChannels及びSignalGroupTypeObjectの信号グループに対してのみ存在するものとする。
用いるブロックサイズ及び相応にFFTサイズは、N=128である。
処理全体を、電流信号グループにおける各信号に対して独立に行う。したがって、表記を単純にするために、復号プロセスの説明を、位置sig上の1つの信号に対してのみ行う。
5.5.X.3.2量子化されたベータ因子の復号
ベータ因子インデックスbetaFactorIdx[sig]をベータ因子beta_factorに変換するための以下のルックアップテーブルを、extendedBetaFactorPrecisionの値に応じて用いるものとする。
0.000f,0.035f,0.070f,0.120f,0.170f,0.220f,0.270f,0.320f
]
tab_beta_factor_dequant_precise[16]=[
0.000f,0.035f,0.070f,0.095f,0.120f,0.145f,0.170f,0.195f,
0.220f,0.245f,0.270f,0.295f,0.320f,0.345f,0.370f,0.395f
]
extendedBetaFactorPrecision=0の場合、変換を次のように計算する
beta_factor=tab_beta_factor_dequant_coarse[betaFactorIndex[sig]]
extendedBetaFactorPrecision=1の場合、変換を次のように計算する
beta_factor=tab_beta_factor_dequant_precise[betaFactorIndex[sig]]
1フレームを、gain_countブロック(それぞれNサンプルからなる)として処理する。これらは半分重複している。各ブロックに対するスカラゲインを、extendedGainRangeの値に基づいて得る。
入力信号sを、サイズNのブロック(半分重複している)に分割して、入力ブロック
ゲインg[k−1]及びg[k]は、符号器サイド上で、位置k−1及びk上のブロックに適用されるが、ウィンドウ処理及び重複加算操作によって暗黙的に補間される。遷移領域の上方のHP部分において完全な再構成を実現するために、以下のように補間補正係数が必要である。
コア符号器及び復号器によって過渡事象の更なる減衰が導入される。この減衰は、ゲインg[k]を、以前に計算したベータ因子を用いて調整することによって、以下のように補償される。
gc[k]及びcorr[i]に基づいて、出力ブロックob[k]の値を、以下のように計算する。
図9c:符号化サイドでの高分解能エンベロープ処理(HREP)ツールのブロック図
5.5.X.4.1ゲイン及びベータ因子の計算
前処理サイドにおいて、ブロックkのHP部分(過渡事象を含むと仮定する)を、スカラゲインg[k]を用いて調整して、その近辺におけるバックグラウンドにより類似させる。ブロックkのHP部分のエネルギーをhp_e[k]によって示し、ブロックkの近辺のHPバックグラウンドの平均エネルギーをhp_bg_e[k]によって示す。
パラメータα∈[0,1](調整量を制御する)を以下のように規定する。
処理は、以前に規定した復号器サイドにおける対応するものと同一であるが、但し、処理形状ps[f]を、適応的再構成形状rs[f]の代わりに、LPブロックlpb[k]の計算において用いる。LPブロックを、以下のように、IFFTとウィンドウ処理とを再び適用することによって得る。
g[k]に基づいて、出力ブロックob[k]の値を以下のように計算する。
ヘルパー関数HREP_encode_ac_data(gain_count、signal_count)は、以下のUSAC低レベル算術符号化関数を用いて配列gainIdxからのゲイン値の書き込みを記述する。
arith_encode(*ari_state,symbol,cum_freq),
arith_encoder_open(*ari_state),
arith_encoder_flush(*ari_state).
2つの更なるヘルパー関数を導入する。
ari_encode_bit_with_prob(*ari_state,bit_value,count_0,count_total),
これは、1ビットbit_valueを、p0=count_0/total_count及びp1=1-p0及び
ari_encode_bit(*ari_state,bit_value)を用いて符号化する。
これは、1ヒ_ットbit_valueを、モデリングを用いずに、p0=0.5及びp1=0.5を用いて符号化する。
ari_encode_bit_with_prob(*ari_state,bit_value,count_0,count_total)
[
prob_scale=1<<14;
tbl[0]=prob_scale-(count_0*prob_scale)/count_total;
tbl[1]=0;
arith_encode(ari_state,bit_value,tbl);
]
ari_encode_bit(*ari_state,bit_value)
[
prob_scale=1<<14;
tbl[0]=prob_scale>>1;
tbl[1]=0;
ari_encode(ari_state,bit_value,tbl);
]
HREP_encode_ac_data(gain_count,signal_count)
[
cnt_mask[2]=[1,1];
cnt_sign[2]=[1,1];
cnt_neg[2]=[1,1];
cnt_pos[2]=[1,1];
arith_encoder_open(&ari_state);
for(pos=0;pos<gain_count;pos++)[
for(sig=0;sig<signal_count;sig++)[
if(!isHREPActive[sig])[
continue;
]
sym=gainIdx[pos][sig]-GAIN_INDEX_0dB;
if(extendedGainRange)[
sym_ori=sym;
sym=max(min(sym_ori,GAIN_INDEX_0dB/2-1),-GAIN_INDEX_0dB/2);
]
mask_bit=(sym!=0);
arith_encode_bit_with_prob(ari_state,mask_bit,cnt_mask[0],cnt_mask[0]+cnt_mask[1]);
cnt_mask[mask_bit]++;
if(mask_bit)[
sign_bit=(sym<0);
arith_encode_bit_with_prob(ari_state,sign_bit,cnt_sign[0],cnt_sign[0]+cnt_sign[1]);
cnt_sign[sign_bit]+=2;
if(sign_bit)[
large_bit=(sym<-2);
arith_encode_bit_with_prob(ari_state,large_bit,cnt_neg[0],cnt_neg[0]+cnt_neg[1]);
cnt_neg[large_bit]+=2;
last_bit=sym&1;
arith_encode_bit(ari_state,last_bit);
]else[
large_bit=(sym>2);
arith_encode_bit_with_prob(ari_state,large_bit,cnt_pos[0],cnt_pos[0]+cnt_pos[1]);
cnt_pos[large_bit]+=2;
if(large_bit==0)[
last_bit=sym&1;
ari_encode_bit(ari_state,last_bit);
]
]
]
if(extendedGainRange)[
prob_scale=1<<14;
esc_cnt=prob_scale/5;
tbl_esc[5]=[prob_scale-esc_cnt,prob_scale-2*esc_cnt,prob_scale-3*esc_cnt,prob_scale-4*esc_cnt,0];
if(sym_ori<=-4)[
esc=-4-sym_ori;
arith_encode(ari_state,esc,tbl_esc);
]else if(sym_ori>=3)[
esc=sym_ori-3;
arith_encode(ari_state,esc,tbl_esc);
]
]
]
arith_encode_flush(ari_state);
]
Claims (61)
- 時変高周波ゲイン情報(104)をサイド情報(106)として有するオーディオ信号(102)を後処理するためのオーディオポストプロセッサ(100)であって、
前記オーディオ信号(102)の高周波帯域(112)と前記オーディオ信号(102)の低周波帯域(114)とを抽出するための帯域抽出部(110)と、
前記時変高周波ゲイン情報(104)に従って前記高周波帯域(112)の時変増幅を行って処理済高周波帯域(122)を取得するための高帯域プロセッサ(120)と、
前記処理済高周波帯域(122)と前記低周波帯域(114)とを結合するための結合器(130)と、
を含むオーディオポストプロセッサ(100)。 - 前記帯域抽出部(110)は、ローパスフィルタ装置(111)を用いて前記低周波帯域を抽出し、前記オーディオ信号から前記低周波帯域を減算する(113)ことによって前記高周波帯域を抽出するように構成されている請求項1に記載のオーディオポストプロセッサ。
- 前記時変高周波ゲイン情報(104)は、前記オーディオ信号(102)のサンプリング値のブロックのシーケンス(300〜303)に対して設けられていて、サンプリング値の第1のブロック(301)に第1のゲイン情報(311)が付随し、前記オーディオ信号のサンプリング値の第2の後ブロック(302)が異なる第2のゲイン情報(312)を有するようになっており、前記帯域抽出部(110)は、前記サンプリング値の第1のブロック(301)から第1の低周波帯域と第1の高周波帯域とを抽出し、前記サンプリング値の第2のブロック(302)から第2の低周波帯域と第2の高周波帯域とを抽出するように構成され、
前記高帯域プロセッサ(120)は、前記第1のゲイン情報(311)を用いて前記第1の高周波帯域を変更して第1の処理済高周波帯域を取得し、前記第2のゲイン情報(312)を用いて前記第2の高周波帯域を変更して第2の処理済高周波帯域を取得するように構成され、
前記結合器(130)は、前記第1の低周波帯域と前記第1の処理済高周波帯域とを結合して第1の結合ブロックを取得し、前記第2の低周波帯域と前記第2の処理済高周波帯域とを結合して第2の結合ブロックを取得するように構成されている請求項1又は2に記載のオーディオポストプロセッサ。 - 前記帯域抽出部(110)と前記高帯域プロセッサ(120)と前記結合器(130)とは、重複ブロック内で動作するように構成され、
前記オーディオポストプロセッサ(100)は更に、ブロック重複範囲内の第1のブロック(301)のオーディオサンプルと第2のブロック(302)のオーディオサンプルとを加算することによって後処理部分を計算するための重複加算器(140)を含む請求項1〜3のいずれか1項に記載のオーディオポストプロセッサ。 - 前記帯域抽出部(110)は、
分析ウィンドウを用いて前記オーディオ信号のサンプリング値のブロックのシーケンスを生成するための分析ウィンドウ処理部(115)であって、前記ブロックは時間重複している、分析ウィンドウ処理部(115)と、
スペクトル値のブロックのシーケンスを生成するための離散フーリエ変換プロセッサ(116)と、
スペクトル値の各ブロックを整形して、スペクトル値のローパス整形されたブロックのシーケンスを取得するためのローパス整形器(117)と、
ローパス時間ドメインサンプリング値のブロックのシーケンスを生成するための離散逆フーリエ変換プロセッサ(118)と、
合成ウィンドウを用いてローパス時間ドメインサンプリング値のブロックの前記シーケンスをウィンドウ処理するための合成ウィンドウ処理部(119)と、
を含む、請求項1〜4のいずれか1項に記載のオーディオポストプロセッサ。 - 前記帯域抽出部(110)は更に、前記分析ウィンドウと前記合成ウィンドウとを用いて前記オーディオ信号(102)をウィンドウ処理して、オーディオ信号値のウィンドウ処理済ブロックのシーケンスを取得するためのオーディオ信号ウィンドウ処理部(121)であって、前記オーディオ信号ウィンドウ処理部(121)は前記ウィンドウ処理部(115、119)と同期して、ローパス時間ドメインサンプリング値のブロックの前記シーケンスが、オーディオ信号値のウィンドウ処理済ブロックの前記シーケンスと同期するようになっている、オーディオ信号ウィンドウ処理部(121)を含む、請求項5に記載のオーディオポストプロセッサ。
- 前記帯域抽出部(110)は、前記オーディオ信号から得られるブロックの対応するシーケンスからローパス時間ドメイン値のブロックの前記シーケンスのサンプル毎の減算(113)を実行して、ハイパス時間ドメインサンプリング値のブロックのシーケンスを取得するように構成されている請求項5又は6に記載のオーディオポストプロセッサ。
- 前記高帯域プロセッサ(120)は、前記変更を、ハイパス時間ドメインサンプリング値のブロックの前記シーケンスの各ブロックの各サンプルに適用するように構成され、ブロックのサンプルに対する変更は、前ブロックのゲイン情報と現在のブロックのゲイン情報か又は現在のブロックのゲイン情報と次のブロックのゲイン情報とに依存する請求項7に記載のオーディオポストプロセッサ。
- 前記オーディオ信号は更なる制御パラメータ(500)を更なるサイド情報として含み、前記高帯域プロセッサ(120)は、前記変更を前記更なる制御パラメータ(500)も考慮して適用するように構成され、前記更なる制御パラメータ(500)の時間分解能は前記時変高周波ゲイン情報の時間分解能よりも低いか、又は前記更なる制御パラメータは特定のオーディオ素片に対して固定されている請求項1〜7のいずれか1項に記載のオーディオポストプロセッサ。
- 前記結合器(130)は、ローパス時間ドメインサンプリング値のブロックの前記シーケンスとハイパス時間ドメインサンプリング値の増幅されたブロックの前記シーケンスとの対応するブロックのサンプル毎の加算を実行して、結合信号値のブロックのシーケンスを取得するように構成されている請求項8に記載のオーディオポストプロセッサ。
- 更に、ブロック重複範囲(321)内の結合信号値の前記シーケンスの第1のブロック(301)のオーディオサンプルと前記第1のブロックに隣接する隣の第2のブロック(302)のオーディオサンプルとを加算することによって、後処理済オーディオ信号部分を計算するための重複加算(140)プロセッサを含む請求項10に記載のオーディオポストプロセッサ。
- 前記帯域抽出部(110)、前記高帯域プロセッサ(120)、及び前記結合器(130)は重複ブロック内で動作して、重複範囲(321)はブロック長の40%〜ブロック長の60%であるか、又はブロック長は0.8ミリ秒〜5ミリ秒であるか、又は前記高帯域プロセッサ(120)によって行われる前記変更は、時間ドメイン内のブロックの各サンプルに適用される乗算係数であるか、又は前記低周波帯域のカットオフ又はコーナー周波数は、前記オーディオ信号の最大周波数の1/8〜1/3であり、好ましくは前記オーディオ信号の前記最大周波数の1/6に等しい請求項1〜11のいずれか1項に記載のオーディオポストプロセッサ。
- 前記ローパス整形器(117)は、対応するブロックに対する前記時変高周波ゲイン情報(104)に応じて整形関数を適用するように構成されている請求項5に記載のオーディオポストプロセッサ。
- 前記整形関数は更に、対応するブロックに対する前記時変高周波ゲイン情報を用いて前記オーディオ信号の高周波帯域を変更するか又は減衰させるためにオーディオプレプロセッサ(200)内で用いられる整形関数に依存する請求項13に記載のオーディオポストプロセッサ。
- ブロックのサンプルに対する前記変更は更に、前記分析ウィンドウ関数又は前記合成ウィンドウ関数によって規定されるあるサンプルに対して適用されるウィンドウ処理係数に依存する請求項8に記載のオーディオポストプロセッサ。
- 前記帯域抽出部(110)、前記高帯域プロセッサ(120)、及び前記結合器(130)は、前記オーディオ信号から重複ブロックとして得られるブロック(300〜303)のシーケンスを処理して、前ブロックの後部分が、前記前ブロックに時間的に隣接している後ブロックの前部分と同じオーディオ信号オーディオサンプルから得られるように構成されている請求項1〜15のいずれか1項に記載のオーディオポストプロセッサ。
- 前記重複ブロックの重複範囲(321)は前記前ブロックの半分に等しく、前記後ブロックはサンプル値の数に対して前記前ブロックと同じ長さを有し、前記ポストプロセッサは更に、前記重複加算演算を行うための重複加算器(140)を含む請求項16に記載のオーディオポストプロセッサ。
- 前記帯域抽出部(110)は、分割フィルタ(111)の勾配であって前記分割フィルタのストップ範囲とパス範囲との間の勾配を、オーディオサンプルのブロックに適用するように構成され、前記勾配はサンプルの前記ブロックに対する前記時変高周波ゲイン情報に依存する請求項16又は17に記載のオーディオポストプロセッサ。
- 前記高周波ゲイン情報はゲイン値を含み、前記勾配は、より低いゲイン値に対する前記勾配の増加と比べて、より高いゲイン値に対してより強く増加される請求項18に記載のオーディオポストプロセッサ。
- 前記分割フィルタ(111)の前記勾配は、以下の方程式:
- 前記高周波ゲイン情報は、隣接するブロックに対するゲイン値を含み、前記高帯域プロセッサ(120)は、前記隣接するブロックに対する前記ゲイン値に応じて、及び対応するサンプルに対するウィンドウ係数に応じて、各サンプルに対する補正係数を計算するように構成されている請求項16〜20のいずれか一項に記載のオーディオポストプロセッサ。
- 前記高帯域プロセッサ(120)は以下の方程式:
- 前記高帯域プロセッサ(120)は、前記オーディオポストプロセッサ(100)による処理の前に行われる処理によって前記オーディオ信号内に導入される過渡事象の減衰を更に補償するように構成されている請求項17〜22のいずれか1項に記載のオーディオポストプロセッサ。
- 前記高帯域プロセッサは、以下の方程式:
- 前記高帯域プロセッサ(120)は、前記処理済高帯域を以下の方程式:
- 前記結合器(130)は前記結合ブロックを、
ob[k][i]=lpb[k][i]+phpb[k][i]
として計算するように構成され、式中、lpb[k][i]はブロックk及びサンプルインデックスiに対する低周波帯域である請求項25に記載のオーディオポストプロセッサ。 - 更に、以下の方程式:
- 前記時変高周波ゲイン情報はゲインインデックス(600)及びゲイン拡張範囲情報(602)のシーケンスを含んでいるか、又は前記サイド情報はゲイン補償情報(603)及びゲイン補償精度情報(604)を更に含み、
前記オーディオポストプロセッサは、
前記ゲイン精度情報(602)に応じて前記ゲインインデックス(601)を復号して、第1の精度情報に対する第1の数の異なる値の復元済ゲイン(621)又は第2の精度情報に対する第2の数の異なる値の復元済ゲイン(621)を取得するための復号器(620)であって、前記第2の数は前記第1の数よりも大きい、復号器(620)、又は
前記補償精度(604)情報に応じて前記ゲイン補償インデックス(603)を復号して、第1の補償精度情報に対する第1の数の異なる値の復元済ゲイン補償値(622)又は第2の異なる補償精度情報に対する第2の異なる数の値の復元済ゲイン補償値(622)を取得するための復号器(620)であって、前記第1の数は前記第2の数よりも大きい、復号器(620)を含む、請求項1〜27のいずれか1項に記載のオーディオポストプロセッサ。 - 前記復号器(620)は、ブロックに対するゲイン係数(621)を計算するように構成され:
- 前記帯域抽出部(110)は、Nサンプリング値のブロック長によってブロック毎の離散フーリエ変換(116)を実行して、N/2複素スペクトル値の数よりも小さいスペクトル値の数を、スパース離散フーリエ変換アルゴリズムであって、最大周波数を上回るスペクトル値に対する分岐の計算が省略されるスパース離散フーリエ変換アルゴリズムを行うことによって取得するように構成され、
前記帯域抽出部(110)は、前記低周波帯域信号の計算を、遷移開始周波数範囲までのスペクトル値を用いることによって、及び前記遷移開始周波数範囲内のスペクトル値を重み付けする(117a、117b)ことによって行うように構成され、前記遷移開始周波数範囲は前記最大周波数又は前記最大周波数よりも小さい周波数までのみ及んでいる請求項1〜29のいずれか1項に記載のオーディオポストプロセッサ。 - 前記高周波帯域の前記時変増幅に対するサイド情報(106)が利用可能である最大数のチャンネル又はオブジェクトに対する後処理のみを実行して、前記高周波帯域の前記時変増幅に対する何らのサイド情報も利用できないチャンネル又はオブジェクトの数に対しては何らの後処理も実行しないように構成されているか、又は
前記帯域抽出部(110)は、前記高周波帯域の前記時変増幅に対する自明なゲイン係数に対しては、何らの帯域抽出も実行せず、離散フーリエ変換及び逆離散フーリエ変換対も計算せず、及び前記自明なゲイン係数に付随する不変な又はウィンドウ処理済時間ドメイン信号は通過するように構成されている請求項1〜30のいずれか1項に記載のオーディオポストプロセッサ - オーディオ信号(202)を前処理するためのオーディオプレプロセッサ(200)であって、
前記オーディオ信号(202)を分析して時変高周波ゲイン情報(204)を決定するための信号分析器(260)と、
前記オーディオ信号(202)の高周波帯域(212)と前記オーディオ信号の低周波帯域(214)とを抽出するための帯域抽出部(210)と、
前記時変高周波ゲイン情報に従って前記高周波帯域(212)の時変変更を行って処理済高周波帯域(222)を取得するための高帯域プロセッサ(220)と、前記処理済高周波帯域(222)と前記低周波帯域(214)とを結合して前処理済オーディオ信号(232)を取得するための結合器(230)と、
前記前処理済オーディオ信号(232)と前記時変高周波ゲイン情報(204)とをサイド情報(206)として含む出力信号(252)を生成するための出力インターフェース(250)と、
を含むオーディオプレプロセッサ(200)。 - 前記信号分析器(260)は、前記オーディオ信号を分析して、前記オーディオ信号の第1の時間ブロック(301)内の第1の特徴と前記オーディオ信号の第2の時間ブロック(302)内の第2の特徴とを決定する(801、802)ように構成され、前記第2の特徴は、前記第1の特徴よりも過渡的であるか、又は前記第1の特徴よりも大きい高周波エネルギーレベルであり、
前記信号分析器(260)は、前記第1の特徴に対する第1のゲイン情報(311)と前記第2の特徴に対する第2のゲイン情報(312)とを決定する(803)ように構成され、
前記高帯域プロセッサ(220)は、乗算係数(804)を、前記第2のゲイン情報に従って前記第2の時間ブロック(302)の高帯域部分に適用することを、前記第1のゲイン情報に従って前記第1の時間ブロック(301)の高帯域部分に適用する場合よりも強く行うように構成されている請求項32に記載のオーディオプレプロセッサ。 - 前記信号分析器(260)は、前記現在時刻ブロックの前に配置されているか若しくは前記現在時刻ブロックの後に配置されているか若しくは前記現在時刻ブロックの前後に配置されているか、又は前記現在時刻ブロックを含むか若しくは前記現在時刻ブロックを除外する時間的に隣接する1つ以上の時間ブロックに対して、前記高帯域のバックグラウンドエネルギーに対するバックグラウンド尺度を計算し(805)、
現在のブロックの高帯域に対するエネルギー尺度を計算し(808)、
前記バックグラウンド尺度と前記エネルギー尺度とを用いてゲイン係数を計算する(809)ように構成されている請求項32〜33のうちのいずれかに記載のオーディオプレプロセッサ。 - 前記信号分析器(260)は、前記ゲイン係数を以下の方程式:
- 前記信号分析器(260)と前記高帯域プロセッサ(120)とは、前記時変高周波ゲイン情報を計算し、前記時変高周波ゲイン情報を適用して、バックグラウンドの対応する平均エネルギーの周りでの各ブロックのエネルギーの変動が少なくとも50%、好ましくは75%だけ低減されるように構成されている請求項32〜35のいずれか1項に記載のオーディオプレプロセッサ。
- 前記信号分析器(260)は、ゲイン情報値の未処理シーケンスを量子化及びクリップして(812)、前記時変高周波ゲイン情報を量子化値のシーケンスとして取得するように構成され、
前記高帯域プロセッサ(220)は、前記量子化値のシーケンスに従って前記高帯域の前記時変変更を実行する(813)ように構成され、
前記出力インターフェース(250)は、前記量子化値のシーケンスを前記サイド情報(206)内に前記時変高周波ゲイン情報(204)として導入する(814)ように構成されている請求項32〜36のいずれか1項に記載のオーディオプレプロセッサ。 - 前記オーディオプレプロセッサ(200)は、
その後に接続される符号器又は復号器によって導入されるエネルギー変動の損失を記述する更なるゲイン補償値を決定し(815)、
前記更なるゲイン補償情報を量子化する(816)ように構成され、
前記出力インターフェース(250)は、前記量子化された更なるゲイン補償情報を前記サイド情報内に導入する(817)ように構成されている請求項32〜37のいずれか1項に記載のオーディオプレプロセッサ。 - 前記信号分析器(260)は、前記計算された時変高周波ゲイン情報の前記更なる変更を制御するメタゲイン制御(806)を適用して、前記オーディオ信号から更に得られる更なる制御データ(807)に従って前記オーディオ信号に対する前記高帯域プロセッサ(220)の効果を徐々に減らすか又は徐々に高めるように構成されているか、又は、
前記信号分析器(260)は、以下の方程式に基づいて前記ゲイン情報を計算するときに係数アルファに影響を与えるように構成され、アルファを増加させると影響が大きくなり、アルファを減少させると影響が小さくなり、
- 前記帯域抽出部(210)は、ローパスフィルタ装置(111)を用いて前記低周波帯域を抽出し、前記オーディオ信号から前記低周波帯域を減算する(113)ことによって前記高周波帯域を抽出するように構成されている請求項32〜39のいずれか1項に記載のオーディオプレプロセッサ。
- 前記時変高周波ゲイン情報(204)は、前記オーディオ信号のサンプリング値のブロックのシーケンス(300〜303)に対して設けられていて、サンプリング値の第1のブロック(301)に第1のゲイン情報(311)が付随し、前記オーディオ信号のサンプル値の第2の後ブロック(302)が異なる第2のゲイン情報(312)を有するようになっており、前記帯域抽出部は、サンプリング値の前記第1のブロックから第1の低周波帯域と第1の高周波帯域とを抽出し、サンプリング値の前記第2のブロックから第2の低周波帯域と第2の高周波帯域とを抽出するように構成され、
前記高帯域プロセッサ(220)は、前記第1のゲイン情報(311)を用いて前記第1の高周波帯域を変更して第1の処理済高周波帯域を取得し、前記第2のゲイン情報(312)を用いて前記第2の高周波帯域を変更して第2の処理済高周波帯域を取得するように構成され、
前記結合器(230)は、前記第1の低周波帯域と前記第1の処理済高周波帯域とを結合して第1の結合ブロックを取得し、前記第2の低周波帯域と前記第2の処理済高周波帯域とを結合して第2の結合ブロックを取得するように構成されている請求項32〜40のいずれか1項に記載のオーディオプレプロセッサ。 - 前記帯域抽出部(210)と前記高帯域プロセッサ(220)と前記結合器(230)とは、重複ブロック内で動作するように構成され、
前記結合器(230)は更に、ブロック重複範囲(321)内の第1のブロックのオーディオサンプルと第2のブロックのオーディオサンプルとを加算することによって後処理部分を計算するための重複加算器を含むか、又は。
前記帯域抽出部(210)、前記高帯域プロセッサ(220)、及び前記結合器(230)は重複ブロック内で動作して、重複範囲(321)はブロック長の40%〜ブロック長の60%であるか、又は
ブロック長は0.8ミリ秒〜5ミリ秒であるか、又は
前記高帯域プロセッサ(220)によって行われる前記変更は、時間ドメイン内のブロックの各サンプルに適用される減衰であるか、又は
前記低周波帯域のカットオフ又はコーナー周波数は、前記オーディオ信号(202)の最大周波数の1/8〜1/3であり、好ましくは前記オーディオ信号の前記最大周波数の1/6に等しい請求項32〜41のいずれか1項に記載のオーディオプレプロセッサ。 - 前記帯域抽出部(210)は、
分析ウィンドウを用いて前記オーディオ信号のサンプリング値のブロックのシーケンスを生成するための分析ウィンドウ処理部(215)であって、前記ブロックは時間重複している、分析ウィンドウ処理部(215)と、
スペクトル値のブロックのシーケンスを生成するための離散フーリエ変換プロセッサ(216)と、
スペクトル値の各ブロックを整形して、スペクトル値のローパス整形されたブロックのシーケンスを取得するためのローパス整形器(217a、217b)と、
ローパス時間ドメインサンプリング値のブロックのシーケンスを生成するための離散逆フーリエ変換プロセッサ(218)と、
合成ウィンドウを用いてローパス時間ドメインサンプリング値のブロックの前記シーケンスをウィンドウ処理するための合成ウィンドウ処理部(219)と、
を含む請求項32〜42のいずれか1項に記載のオーディオプレプロセッサ。 - 前記ローパス整形器(217a、217b)は以下の方程式:
- 前記ブロック抽出部は更に、前記分析ウィンドウと前記合成ウィンドウとを用いて前記オーディオ信号をウィンドウ処理して、オーディオ信号値のウィンドウ処理済ブロックのシーケンスを取得するためのオーディオ信号ウィンドウ処理部(221)であって、前記オーディオ信号ウィンドウ処理部は、前記ウィンドウ処理部(215、219)と同期して、ローパス時間ドメインサンプリング値のブロックの前記シーケンスが、オーディオ信号値のウィンドウ処理済ブロックの前記シーケンスと同期するようになっている、オーディオ信号ウィンドウ処理部(221)を含む、請求項43又は44のいずれか1項に記載のオーディオプレプロセッサ。
- 前記帯域抽出部(210)は、前記オーディオ信号から得られるブロックの対応するシーケンスからローパス時間ドメイン値のブロックの前記シーケンスのサンプル毎の減算(113)を実行して、ハイパス時間ドメインサンプリング値のブロックのシーケンスを取得するように構成されている請求項43〜45のいずれか1項に記載のオーディオプレプロセッサ。
- 前記分析器(260)は更に、メタゲイン制御(806)によって計算される制御パラメータ(807)をもたらし、前記高帯域プロセッサ(220)は前記変更を前記制御パラメータも考慮して適用するように構成されている請求項32〜46のいずれか1項に記載のオーディオプレプロセッサ。
- 前記結合器(230)は、ローパス時間ドメインサンプリング値のブロックの前記シーケンスとハイパス時間ドメインサンプリング値の変更されたブロックの前記シーケンスとの対応するブロックのサンプル毎の加算を実行して、結合信号値のブロックのシーケンスを取得するように構成されている請求項43〜47のいずれか1項に記載のオーディオプレプロセッサ。
- 更に、ブロック重複範囲内の結合信号値の前記シーケンスの第1のブロックのオーディオサンプルと前記第1のブロックに隣接する隣の第2のブロックのオーディオサンプルとを加算することによって、前処理済オーディオ信号部分を計算するための重複加算プロセッサを含む請求項48に記載のオーディオプレプロセッサ。
- 前記帯域抽出部(211)、前記高帯域プロセッサ(720)、及び前記結合器(230)は
重複ブロック内で動作して、重複範囲はブロック長の40%〜ブロック長の60%であるか、又は
ブロック長は0.8ミリ秒〜5ミリ秒であるか、又は
前記高帯域プロセッサ(220)によって行われる前記変更は、時間ドメイン内のブロックの各サンプルに適用される乗算係数である請求項32〜49のいずれか1項に記載のオーディオプレプロセッサ。 - 前記重複ブロックの重複範囲(321)は前記前ブロックの半分に等しく、前記後ブロックはサンプル値の数に対して前記前ブロックと同じ長さを有し、前記結合器は前記重複加算演算を行うための重複加算器を含む請求項32〜50のいずれか1項に記載のオーディオプレプロセッサ。
- 最大数のチャンネル又はオブジェクトに対する前処理のみを実行して 前記最大数のチャンネル又はオブジェクトに対する前記サイド情報(206)を生成し、前記サイド情報(206)が生成されないチャンネル又はオブジェクトの数に対しては何らの前処理も実行しないように構成されているか、又は
前記帯域抽出部(210)は、前記信号分析器(260)によって決定された前記時変高周波ゲイン情報(204)に対する自明なゲイン係数に対しては、何らの帯域抽出も実行せず、離散フーリエ変換及び逆離散フーリエ変換対も計算せず、及び前記自明なゲイン係数に付随する不変な又はウィンドウ処理済時間ドメイン信号は通過するように構成されている請求項32〜51のいずれか1項に記載のオーディオポストプロセッサ。 - オーディオ信号を符号化するためのオーディオ符号化装置であって、
請求項32〜52のうちのいずれか一項に記載のオーディオプレプロセッサであって、前記時変高周波ゲイン情報をサイド情報として有する出力信号(252)を生成するように構成されたオーディオプレプロセッサと、
コア符号化信号(902)とコアサイド情報(904)とを生成するためのコア符号器(900)と、
前記コア符号化信号(902)、前記コアサイド情報(904)、及び前記時変高周波ゲイン情報を更なるサイド情報(106)として含む符号化信号(912)を生成するための出力インターフェース(910)と、
を含むオーディオ符号化装置。 - 前記オーディオ信号は多チャンネル又は多オブジェクト信号であり、前記オーディオプレプロセッサ(200)は各チャンネル又は各オブジェクトを別個に前処理するように構成され、前記コア符号器(900)は、前記前処理済チャンネル(232)に対して、結合多チャンネル符号器処理又は結合多オブジェクト符号器処理又は符号器帯域ギャップ充填又は符号器帯域幅拡張処理を適用するように構成されている請求項53に記載のオーディオ符号化装置。
- オーディオ復号装置であって、
コア符号化信号(902)、コアサイド情報(904)、及び前記時変高周波ゲイン情報(104)を更なるサイド情報として含む符号化オーディオ信号(912)を受け取るための入力インターフェース(920)と、
前記コアサイド情報(904)を用いて前記コア符号化信号(902)を復号して復号化コア信号を取得するためのコア復号器(930)と、
請求項1〜31のいずれかに記載の時変高周波ゲイン情報(104)を用いて前記復号化コア信号(102)を後処理するためのポストプロセッサ(100)と、
を含むオーディオ復号装置。 - 前記コア復号器(930)は、
多チャンネル信号(102)の復号化チャンネル又は多オブジェクト信号(102)の復号化オブジェクトを生成するために、多チャンネル復号器処理又は多オブジェクト復号器処理又は帯域幅拡張復号器処理又はギャップ充填復号器処理を適用するように構成されており、
前記ポストプロセッサ(100)は、各チャンネル又は各オブジェクトに対する前記個々の時変高周波ゲイン情報を用いて、各チャンネル又は各オブジェクトに対して別個に前記後処理を適用するように構成されている請求項55に記載のオーディオ復号器装置。 - 時変高周波ゲイン情報(104)をサイド情報(106)として有するオーディオ信号(102)を後処理する(100)方法であって、
前記オーディオ信号の高周波帯域(112)と前記オーディオ信号の低周波帯域(114)とを抽出する(110)ことと、
前記時変高周波ゲイン情報(104)に従って前記高帯域の時変変更を行って(120)処理済高周波帯域(122)を取得することと、
前記処理済高周波帯域(122)と前記低周波帯域(114)とを結合する(130)ことと、
を含む方法。 - オーディオ信号(202)を前処理する(200)方法であって、
前記オーディオ信号(202)を分析して(260)時変高周波ゲイン情報(204)を決定することと、
前記オーディオ信号の高周波帯域(212)と前記オーディオ信号の低周波帯域(214)とを抽出する(210)ことと、
前記時変高周波ゲイン情報に従って前記高周波帯域の時変変更を行って(220)処理済高周波帯域を取得することと、
前記処理済高周波帯域(222)と前記低周波帯域(214)とを結合して(230)前処理済オーディオ信号を取得することと、
前記前処理済オーディオ信号(232)と前記時変高周波ゲイン情報(204)とをサイド情報(106)として含む出力信号(252)を生成する(250)ことと、
を含む方法。 - オーディオ信号を符号化する方法であって、
前記時変高周波ゲイン情報(204)をサイド情報(106)として有する出力信号を生成するように構成された請求項58に記載のオーディオ前処理する(200)方法と、
コア符号化信号(902)とコアサイド情報(904)とを生成することと、
前記コア符号化信号(902)、前記コアサイド情報(904)、及び前記時変高周波ゲイン情報(204)を更なるサイド情報(106)として含む符号化信号(912)を生成する(910)ことと、
を含む方法。 - オーディオ復号する方法であって、
コア符号化信号(902)、コアサイド情報(904)、及び前記時変高周波ゲイン情報(204)を更なるサイド情報(106)として含む符号化オーディオ信号(912)を受け取る(920)ことと、
前記コアサイド情報(904)を用いて前記コア符号化信号(902)を復号して(930)復号化コア信号(102)を取得することと、
請求項55に記載の方法による前記時変高周波ゲイン情報(104)を用いて前記復号化コア信号(102)を後処理(100)することと、
を含む方法。 - コンピュータ又はプロセッサ上で実行されたときに、請求項57、58、59、60に記載の方法のいずれか一項を行うためのコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16156200 | 2016-02-17 | ||
EP16156200.4 | 2016-02-17 | ||
PCT/EP2017/053068 WO2017140600A1 (en) | 2016-02-17 | 2017-02-10 | Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019186928A Division JP7007344B2 (ja) | 2016-02-17 | 2019-10-10 | 過渡処理を高めるためのポストプロセッサ、プレプロセッサ、オーディオ符号器、オーディオ復号器、及び関連する方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019500641A true JP2019500641A (ja) | 2019-01-10 |
JP6603414B2 JP6603414B2 (ja) | 2019-11-06 |
Family
ID=55361427
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018527783A Active JP6603414B2 (ja) | 2016-02-17 | 2017-02-10 | 過渡処理を高めるためのポストプロセッサ、プレプロセッサ、オーディオ符号器、オーディオ復号器、及び関連する方法 |
JP2019186928A Active JP7007344B2 (ja) | 2016-02-17 | 2019-10-10 | 過渡処理を高めるためのポストプロセッサ、プレプロセッサ、オーディオ符号器、オーディオ復号器、及び関連する方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019186928A Active JP7007344B2 (ja) | 2016-02-17 | 2019-10-10 | 過渡処理を高めるためのポストプロセッサ、プレプロセッサ、オーディオ符号器、オーディオ復号器、及び関連する方法 |
Country Status (18)
Country | Link |
---|---|
US (3) | US10720170B2 (ja) |
EP (2) | EP3417544B1 (ja) |
JP (2) | JP6603414B2 (ja) |
KR (1) | KR102067044B1 (ja) |
CN (1) | CN107925388B (ja) |
AR (1) | AR107662A1 (ja) |
AU (1) | AU2017219696B2 (ja) |
BR (1) | BR112017024480A2 (ja) |
CA (1) | CA2985019C (ja) |
ES (1) | ES2771200T3 (ja) |
MX (1) | MX371223B (ja) |
MY (1) | MY191093A (ja) |
PL (1) | PL3417544T3 (ja) |
PT (1) | PT3417544T (ja) |
RU (1) | RU2685024C1 (ja) |
TW (1) | TWI618053B (ja) |
WO (1) | WO2017140600A1 (ja) |
ZA (1) | ZA201707336B (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022097242A1 (ja) * | 2020-11-05 | 2022-05-12 | 日本電信電話株式会社 | 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体 |
WO2022097240A1 (ja) * | 2020-11-05 | 2022-05-12 | 日本電信電話株式会社 | 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017050398A1 (en) * | 2015-09-25 | 2017-03-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding |
US10861475B2 (en) * | 2015-11-10 | 2020-12-08 | Dolby International Ab | Signal-dependent companding system and method to reduce quantization noise |
RU2685024C1 (ru) * | 2016-02-17 | 2019-04-16 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Постпроцессор, препроцессор, аудиокодер, аудиодекодер и соответствующие способы для улучшения обработки транзиентов |
US10559315B2 (en) * | 2018-03-28 | 2020-02-11 | Qualcomm Incorporated | Extended-range coarse-fine quantization for audio coding |
EP3841572A1 (en) | 2018-08-21 | 2021-06-30 | Dolby International AB | Coding dense transient events with companding |
US20200402523A1 (en) * | 2019-06-24 | 2020-12-24 | Qualcomm Incorporated | Psychoacoustic audio coding of ambisonic audio data |
US11545166B2 (en) | 2019-07-02 | 2023-01-03 | Dolby International Ab | Using metadata to aggregate signal processing operations |
US11032644B2 (en) | 2019-10-10 | 2021-06-08 | Boomcloud 360, Inc. | Subband spatial and crosstalk processing using spectrally orthogonal audio components |
WO2021126155A1 (en) | 2019-12-16 | 2021-06-24 | Google Llc | Amplitude-independent window sizes in audio encoding |
CN111916090B (zh) * | 2020-08-17 | 2024-03-05 | 北京百瑞互联技术股份有限公司 | 一种lc3编码器近奈奎斯特频率信号检测方法、检测器、存储介质及设备 |
TWI772930B (zh) * | 2020-10-21 | 2022-08-01 | 美商音美得股份有限公司 | 適合即時應用之分析濾波器組及其運算程序、基於分析濾波器組之信號處理系統及程序 |
US11837244B2 (en) | 2021-03-29 | 2023-12-05 | Invictumtech Inc. | Analysis filter bank and computing procedure thereof, analysis filter bank based signal processing system and procedure suitable for real-time applications |
CN115512711A (zh) * | 2021-06-22 | 2022-12-23 | 腾讯科技(深圳)有限公司 | 语音编码、语音解码方法、装置、计算机设备和存储介质 |
CN118038877A (zh) * | 2022-11-01 | 2024-05-14 | 抖音视界有限公司 | 一种音频信号的编码、解码方法及装置 |
CN115866487B (zh) * | 2022-12-30 | 2023-08-11 | 广州市韵强电子有限公司 | 一种基于均衡放大的音响功放方法及系统 |
Family Cites Families (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE413573B (sv) * | 1977-10-07 | 1980-06-02 | Transcale Ab | Elektronisk apparat |
US5222189A (en) * | 1989-01-27 | 1993-06-22 | Dolby Laboratories Licensing Corporation | Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio |
GB2293734B (en) * | 1994-09-20 | 1997-04-09 | Ricoh Kk | Method for compression using reversible embedded wavelets |
EP0764939B1 (en) * | 1995-09-19 | 2002-05-02 | AT&T Corp. | Synthesis of speech signals in the absence of coded parameters |
US5903872A (en) * | 1997-10-17 | 1999-05-11 | Dolby Laboratories Licensing Corporation | Frame-based audio coding with additional filterbank to attenuate spectral splatter at frame boundaries |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
JP4281131B2 (ja) * | 1998-10-22 | 2009-06-17 | ソニー株式会社 | 信号符号化装置及び方法、並びに信号復号装置及び方法 |
US6226616B1 (en) * | 1999-06-21 | 2001-05-01 | Digital Theater Systems, Inc. | Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility |
FI109393B (fi) * | 2000-07-14 | 2002-07-15 | Nokia Corp | Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite |
JP3870193B2 (ja) * | 2001-11-29 | 2007-01-17 | コーディング テクノロジーズ アクチボラゲット | 高周波再構成に用いる符号器、復号器、方法及びコンピュータプログラム |
US7072477B1 (en) * | 2002-07-09 | 2006-07-04 | Apple Computer, Inc. | Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file |
FR2852172A1 (fr) * | 2003-03-04 | 2004-09-10 | France Telecom | Procede et dispositif de reconstruction spectrale d'un signal audio |
US7801383B2 (en) * | 2004-05-15 | 2010-09-21 | Microsoft Corporation | Embedded scalar quantizers with arbitrary dead-zone ratios |
KR100636145B1 (ko) * | 2004-06-04 | 2006-10-18 | 삼성전자주식회사 | 확장된 고해상도 오디오 신호 부호화 및 복호화 장치 |
WO2006028209A1 (ja) * | 2004-09-10 | 2006-03-16 | Ntn Corporation | 回転速度検出装置付き車輪用軸受装置 |
US7720230B2 (en) | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
US8204261B2 (en) | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
EP1839297B1 (en) * | 2005-01-11 | 2018-11-14 | Koninklijke Philips N.V. | Scalable encoding/decoding of audio signals |
NZ562182A (en) | 2005-04-01 | 2010-03-26 | Qualcomm Inc | Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal |
CN101138274B (zh) | 2005-04-15 | 2011-07-06 | 杜比国际公司 | 用于处理去相干信号或组合信号的设备和方法 |
US7974713B2 (en) | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
JP4876574B2 (ja) * | 2005-12-26 | 2012-02-15 | ソニー株式会社 | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 |
BRPI0621499B1 (pt) | 2006-03-28 | 2022-04-12 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Método melhorado para formatação de sinal em reconstrução de áudio de canais múltiplos |
US7899192B2 (en) * | 2006-04-22 | 2011-03-01 | Oxford J Craig | Method for dynamically adjusting the spectral content of an audio signal |
US20080300866A1 (en) * | 2006-05-31 | 2008-12-04 | Motorola, Inc. | Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice |
CN101485094B (zh) * | 2006-07-14 | 2012-05-30 | 安凯(广州)软件技术有限公司 | 最大熵意义下后向兼容多通道音频编码与解码方法和系统 |
US8126721B2 (en) * | 2006-10-18 | 2012-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
WO2008108082A1 (ja) | 2007-03-02 | 2008-09-12 | Panasonic Corporation | 音声復号装置および音声復号方法 |
PL2304719T3 (pl) * | 2008-07-11 | 2017-12-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Koder audio, sposoby dostarczania strumienia audio oraz program komputerowy |
AU2009267531B2 (en) * | 2008-07-11 | 2013-01-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | An apparatus and a method for decoding an encoded audio signal |
WO2010044439A1 (ja) * | 2008-10-17 | 2010-04-22 | シャープ株式会社 | 音声信号調整装置及び音声信号調整方法 |
US8392200B2 (en) * | 2009-04-14 | 2013-03-05 | Qualcomm Incorporated | Low complexity spectral band replication (SBR) filterbanks |
RU2596033C2 (ru) * | 2010-03-09 | 2016-08-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство и способ получения улучшенной частотной характеристики и временного фазирования способом расширения полосы аудио сигналов в фазовом вокодере |
US8793126B2 (en) * | 2010-04-14 | 2014-07-29 | Huawei Technologies Co., Ltd. | Time/frequency two dimension post-processing |
US8886523B2 (en) * | 2010-04-14 | 2014-11-11 | Huawei Technologies Co., Ltd. | Audio decoding based on audio class with control code for post-processing modes |
CN101964189B (zh) | 2010-04-28 | 2012-08-08 | 华为技术有限公司 | 语音频信号切换方法及装置 |
US8600737B2 (en) | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
US9047875B2 (en) | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
JP5743137B2 (ja) * | 2011-01-14 | 2015-07-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
WO2012111767A1 (ja) * | 2011-02-18 | 2012-08-23 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、及び音声符号化プログラム |
CN103366751B (zh) * | 2012-03-28 | 2015-10-14 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
JP6014259B2 (ja) * | 2012-08-01 | 2016-10-25 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ノイズ削減利得の百分位数フィルタリング |
BR112015018022B1 (pt) * | 2013-01-29 | 2022-01-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | Aparelho e método para processar um sinal codificado e codificador e método para gerar um sinal codificado |
US9741350B2 (en) | 2013-02-08 | 2017-08-22 | Qualcomm Incorporated | Systems and methods of performing gain control |
RU2712814C2 (ru) * | 2013-04-05 | 2020-01-31 | Долби Лабораторис Лайсэнзин Корпорейшн | Система компандирования и способ для снижения шума квантования с использованием усовершенствованного спектрального расширения |
CN104517610B (zh) * | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
US20150149157A1 (en) * | 2013-11-22 | 2015-05-28 | Qualcomm Incorporated | Frequency domain gain shape estimation |
CN104269173B (zh) * | 2014-09-30 | 2018-03-13 | 武汉大学深圳研究院 | 切换模式的音频带宽扩展装置与方法 |
RU2685024C1 (ru) * | 2016-02-17 | 2019-04-16 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Постпроцессор, препроцессор, аудиокодер, аудиодекодер и соответствующие способы для улучшения обработки транзиентов |
-
2017
- 2017-02-10 RU RU2017143564A patent/RU2685024C1/ru active
- 2017-02-10 KR KR1020177036732A patent/KR102067044B1/ko active IP Right Grant
- 2017-02-10 ES ES17703771T patent/ES2771200T3/es active Active
- 2017-02-10 CN CN201780002163.5A patent/CN107925388B/zh active Active
- 2017-02-10 EP EP17703771.0A patent/EP3417544B1/en active Active
- 2017-02-10 EP EP19208046.3A patent/EP3627507A1/en active Pending
- 2017-02-10 PT PT177037710T patent/PT3417544T/pt unknown
- 2017-02-10 WO PCT/EP2017/053068 patent/WO2017140600A1/en active Application Filing
- 2017-02-10 JP JP2018527783A patent/JP6603414B2/ja active Active
- 2017-02-10 MX MX2017014734A patent/MX371223B/es active IP Right Grant
- 2017-02-10 CA CA2985019A patent/CA2985019C/en active Active
- 2017-02-10 BR BR112017024480-2A patent/BR112017024480A2/pt active Search and Examination
- 2017-02-10 AU AU2017219696A patent/AU2017219696B2/en active Active
- 2017-02-10 MY MYPI2017001635A patent/MY191093A/en unknown
- 2017-02-10 PL PL17703771T patent/PL3417544T3/pl unknown
- 2017-02-17 AR ARP170100408A patent/AR107662A1/es active IP Right Grant
- 2017-02-17 TW TW106105242A patent/TWI618053B/zh active
- 2017-10-27 ZA ZA2017/07336A patent/ZA201707336B/en unknown
-
2018
- 2018-01-30 US US15/884,190 patent/US10720170B2/en active Active
-
2019
- 2019-10-10 JP JP2019186928A patent/JP7007344B2/ja active Active
- 2019-11-19 US US16/688,938 patent/US11094331B2/en active Active
-
2020
- 2020-06-04 US US16/892,648 patent/US20200402520A1/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022097242A1 (ja) * | 2020-11-05 | 2022-05-12 | 日本電信電話株式会社 | 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体 |
WO2022097240A1 (ja) * | 2020-11-05 | 2022-05-12 | 日本電信電話株式会社 | 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
US11094331B2 (en) | 2021-08-17 |
BR112017024480A2 (pt) | 2018-07-24 |
ZA201707336B (en) | 2019-02-27 |
PT3417544T (pt) | 2020-03-02 |
MY191093A (en) | 2022-05-30 |
CN107925388A (zh) | 2018-04-17 |
US10720170B2 (en) | 2020-07-21 |
CA2985019A1 (en) | 2017-08-24 |
TWI618053B (zh) | 2018-03-11 |
JP2020024440A (ja) | 2020-02-13 |
KR102067044B1 (ko) | 2020-01-17 |
AR107662A1 (es) | 2018-05-23 |
US20200090670A1 (en) | 2020-03-19 |
JP7007344B2 (ja) | 2022-01-24 |
PL3417544T3 (pl) | 2020-06-29 |
EP3417544B1 (en) | 2019-12-04 |
WO2017140600A1 (en) | 2017-08-24 |
CA2985019C (en) | 2022-05-03 |
TW201732784A (zh) | 2017-09-16 |
EP3627507A1 (en) | 2020-03-25 |
US20180190303A1 (en) | 2018-07-05 |
MX2017014734A (es) | 2018-06-28 |
RU2685024C1 (ru) | 2019-04-16 |
MX371223B (es) | 2020-01-09 |
AU2017219696B2 (en) | 2018-11-08 |
ES2771200T3 (es) | 2020-07-06 |
AU2017219696A1 (en) | 2017-11-16 |
EP3417544A1 (en) | 2018-12-26 |
KR20180016417A (ko) | 2018-02-14 |
JP6603414B2 (ja) | 2019-11-06 |
US20200402520A1 (en) | 2020-12-24 |
CN107925388B (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6603414B2 (ja) | 過渡処理を高めるためのポストプロセッサ、プレプロセッサ、オーディオ符号器、オーディオ復号器、及び関連する方法 | |
JP7258935B2 (ja) | スペクトルドメイン・リサンプリングを用いて多チャネル信号を符号化又は復号化する装置及び方法 | |
AU2005217517B2 (en) | Device and method for processing a multi-channel signal | |
CN110660410A (zh) | 音频编码器、音频解码器及相关方法 | |
TWI695370B (zh) | 用以解碼經編碼多聲道信號之裝置、方法及電腦程式 | |
US11043226B2 (en) | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters | |
JP2023545197A (ja) | オーディオ帯域幅検出およびオーディオコーデックにおけるオーディオ帯域幅切り替えのための方法およびデバイス |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180528 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190514 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190808 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191010 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6603414 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |