JP2021047441A - 補償値を用いて音声信号を符号化する装置および方法 - Google Patents
補償値を用いて音声信号を符号化する装置および方法 Download PDFInfo
- Publication number
- JP2021047441A JP2021047441A JP2020201431A JP2020201431A JP2021047441A JP 2021047441 A JP2021047441 A JP 2021047441A JP 2020201431 A JP2020201431 A JP 2020201431A JP 2020201431 A JP2020201431 A JP 2020201431A JP 2021047441 A JP2021047441 A JP 2021047441A
- Authority
- JP
- Japan
- Prior art keywords
- spectral band
- analysis result
- spectral
- band
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000003595 spectral effect Effects 0.000 claims abstract description 258
- 238000004458 analytical method Methods 0.000 claims abstract description 106
- 238000001228 spectrum Methods 0.000 claims abstract description 79
- 230000005236 sound signal Effects 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013016 damping Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 230000001052 transient effect Effects 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 3
- 230000008929 regeneration Effects 0.000 claims description 3
- 238000011069 regeneration method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims 1
- 238000011835 investigation Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 19
- 238000012360 testing method Methods 0.000 description 9
- 230000007423 decrease Effects 0.000 description 8
- 238000009499 grossing Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000002087 whitening effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 5
- 230000002238 attenuated effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000010076 replication Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000001447 compensatory effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 101100521334 Mus musculus Prom1 gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/70—Media network packetisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Stereophonic System (AREA)
Abstract
Description
ここで、nは実際のTCX窓の長さであり、Rは、現在のTCXスペクトルの(コサイン変換された)実数値部を含むベクトルであり、Iは現在のTCXスペクトルの(サイン変換された)虚数部を含むベクトルである。特に、「TCX」という用語は、3GPP用語に関するものであるが、通常は、スペクトル解析器130が、図1のコアエンコーダ110、またはパラメトリックコーダ120に提供するような、第1のスペクトル帯域、または第2のスペクトル帯域のスペクトル値のことを言う。
図3bは、図3aの上図と同様に、第1のスペクトル帯域180と、第2のスペクトル帯域190とを示している。しかしながら、図3aで述べたことに加えて、第2のスペクトル帯域は、第2のスペクトル帯域内に含まれる特定の線351、352を含み、これはスペクトル解析器130によって、第1のスペクトル帯域180に加えて、コアエンコーダ110によってさらに符号化される線として決定されたものである。
第1のステップにおいて、音調性不一致がノイズ帯域アーチファクトを引き起こす場合がある、これらのSFBを識別する必要がある。これを行うために、IGF範囲の各SFBの音調性と、コピーアップに使用される対応する帯域とを決定する必要がある。音調性を計算するための1つの適切な尺度は、スペクトル平坦性尺度(SFM)であり、これは、スペクトルの幾何平均をその算術平均で割った商に基づき、0〜1の範囲になる。値が0に近いと音調性が強いことを示し、値が1に近いと、スペクトルにノイズが非常に多いことを表す。式は、次のようになる。
ここでsfmは、実際のスペクトル平坦性計算の結果を示し、変数SFMは、波高率で割った商、ならびに平滑化を含む。
この差分が正の値になれば、コピーアップを実行するために、ターゲットスペクトルよりもノイズが多いものが用いられるという条件を示す。このようなSFBは、減衰の有力な候補となる。
xをビン番号とし、PはTCXパワースペクトル、bは開始線、eは現在のSFBの停止線である。
がある場合は、SFMが計算される周波数領域は、SFBの幅の半分だけ下方にシフトされ、強い傾斜
に対しては、上方にシフトされる。このようにして、SFMが低いために、減衰するはずだった音調成分を正しく検出することができ、高いSFM値に対して減衰が適用されることはない。ここでの閾値は値0.04として定義され、減衰は、シフト済みSFMが閾値を下回った場合にのみ印加される。
減衰は、正のSFMdiffに印加されるべきではなく、ターゲットSFBの音調性が実際に非常に高い場合に限り有効となる。特定のSFBにおいて、原信号がノイズの多い背景に重ね合わせられると、ノイズの多い帯域に対する知覚差がむしろ小さくなり、減衰によるエネルギー損失が原因で音を感じにくくなることが、むしろ利点になる場合がある。
および
の両方が保持される場合に限り、減衰が印加されるべきである。
1未満の正規化されたエネルギーPnorm,kを有するすべてのビンは、次に合計されて、ノイズ部Pnoiseとして数えられ、
で求められる、閾値1+adapを上回るものはすべて、音調部Ptonalとして数えられる。この閾値はSFBの幅に依存し、その結果、音調成分の高エネルギービンの影響が大きいために、狭い帯域は閾値が低くなって、平均が高くなる。音調部およびノイズ部から、最終的にログ比が算出される。
これらすべての考慮事項を1つの減衰式に組み入れるには、ターゲットSFMとソースSFMとの比が、公式の基礎として取り入れられる。この方法では、SFMのより大きい差分絶対値と、より小さいターゲットSFM値との両方がより強い減衰になり、単に差分をとるよりもよく適合する。周波数と音調対ノイズ比とに依存性をさらに追加するために、この比に調整パラメータが適用される。したがって減衰式は、次の式で表すことができる。
ここでdprevは、以前のフレームの減衰係数である。以前のフレームで減衰が有効でなかった場合は、dprevがdcurrで上書きされるが、最低0.1までに制限される。変数の平滑化は別の平滑化係数であり、以前のフレームにおいて、減衰が無効だった場合、過渡フレームの間(フラグisTransientが有効)は2に設定され、あるいはコア切り替えの後(フラグisCelpToTCXが有効)は1に設定される。減衰を伴う各フレームにおいて、変数は1まで減少するが、0を下回ることはない。
ここでnは実際のTCX窓の長さ、
は次の式で定義される。
そして、adapは次の式で定義される。
減衰:
IGF減衰係数計算については、フレームにわたってフィルタ状態を保持するために、すべてサイズがnBの6つの静的配列(ターゲットおよびソース範囲のSFM計算についてはprevTargetFIR、prevSrcFIR、prevTargetIIR、およびprevSrcIIR、ならびにprevDampおよびdampSmooth)が必要とされる。また、以前のフレームから入力フラグisTransientの情報を保存するために、静的フラグwasTransientが必要になる。
ベクトルprevTargetFIR、prevSrcFIR、prevTargetIIR、prevSrcIIR、ならびにprevDampおよびdampSmoothはすべて、IGFモジュールにおける大きさnBの静的配列であり、次の式の通り初期化される。
・ビットレートの切り替えを伴う
・コーデックタイプの切り替えを伴う
・isCelpToTCX=真など、CELPからTCXへの移行を伴う
・isTransient=真など、現在のフレームが過渡プロパティを有する場合
・TCXパワースペクトルPが使用可能でない場合
減衰係数の計算
TCXパワースペクトルPが使用可能で、isTransientが偽の場合は、次の式によって計算する。
および
ここで
は、関数tFで既にマッピングされているものとし、従属節5.3.3.2.11.1.1を参照されたく、
は、従属節5.3.3.2.11.1.8で説明されている、IGFターゲット範囲をIGFソース範囲にマッピングするマッピング関数であり、nBは、表94に示すように、スケール因子帯域の数である。SFMは、スペクトル平坦性尺度関数であり、従属節5.3.3.2.11.1.3で説明されており、CRESTは波高率関数であり、従属節5.3.3.2.11.1.4で説明されている。
シフトしたスペクトラムのSFMを計算する。
シフトは次のように定義される。
if
以下を設定する。
if for
帯域kにおいて、現在のフレームの減衰係数dampCurrをゼロに設定する。
あるいは、
を以下のように計算する。
betaは以下のように定義される。
ここでTNRは、従属節5.3.3.2.11.1.10で説明される音調対ノイズ比関数であり、adapは以下のように定義される。
if for
次のように設定する。
サイズnBの減衰係数dのベクトルを計算する。
最後に、isTransientが偽で、パワースペクトルPが使用可能であれば、フィルタを更新する。
前述した部分の値/指数/パラメータの名前は、本明細書全体を通じて述べられている、対応するパラメータ/指数/値と同様である。次に、聞き取りテストのいくつかの結果を、図11a〜図11cを参照して説明する。
Claims (26)
- 音声信号を符号化する装置であって、
第1のスペクトル帯域(180)の第1の音声データをコア符号化する、コアエンコーダ(110)と、
前記第1のスペクトル帯域(180)とは異なる、第2のスペクトル帯域(190)の第2の音声データをパラメトリックに符号化する、パラメトリックコーダ(120)とを備え、前記パラメトリックコーダ(120)は、
第1の解析結果(122)を取得するために、前記第1のスペクトル帯域(180)の第1の音声データを解析し、第2の解析結果(123)を取得するために、前記第2のスペクトル帯域(190)の第2の音声データを解析する、解析器(121)と、
前記第1の解析結果(122)、および前記第2の解析結果(123)を用いて補償値(125)を計算する、補償器(124)と、
前記補償値を用いて、前記第2のスペクトル帯域(190)の前記第2の音声データからパラメータ(170)を計算する、パラメータ計算機(126)とを備える、パラメトリックコーダ(120)と
を備える、装置。 - 前記パラメトリックコーダ(120)が、第3のスペクトル帯域(202)の第3の音声データをパラメトリックに符号化するように構成され、
前記解析器(121)が、第3の解析結果(204)を取得するために、前記第3のスペクトル帯域(202)の前記第3の音声データを解析するように構成され、
前記パラメトリックコーダ(120)が、少なくとも前記第3の解析結果(204)を用いて、前記第3のスペクトル帯域が補償されるかどうかを検出する、補償検出器(210)をさらに備え、
前記補償検出器(210)が、前記第3のスペクトル帯域が補償されないことを検出すると、前記パラメータ計算機(126)が、補償値なしで、前記第3のスペクトル帯域(204)の前記音声データから別のパラメータ(200)を計算するように構成される、
請求項1に記載の装置。 - 前記解析器(121)が、前記第1の解析結果(122)として第1の定量値を計算し、前記第2の解析結果(123)として第2の定量値を計算するように構成され、
前記補償器(124)が、前記第1の定量値から、かつ前記第2の定量値から、定量補償値(125)を計算するように構成され、
前記パラメータ計算機(126)が、前記定量補償値(125)を用いて定量パラメータを計算するように構成される、
請求項1または2に記載の装置。 - 前記解析器(121)が、前記第1の解析結果(122)を取得するために前記第1の音声データの第1の特徴を解析し、前記第2の解析結果(123)を取得するために、前記第2のスペクトル帯域の前記第2の音声データの、同じ前記第1の特徴を解析するように構成され、
前記パラメータ計算機(126)が、第2の特徴を評価することによって、前記第2のスペクトル帯域の前記第2の音声データから、前記パラメータ(170)を計算するように構成され、前記第2の特徴は、前記第1の特徴とは異なっている、
請求項1から3のいずれか一項に記載の装置。 - 前記第1の特徴が、前記第1のスペクトル帯域(180)内のスペクトル微細構造特徴、もしくはエネルギー分布特徴であり、または
前記第2の特徴が、前記第2のスペクトル帯域(190)内のスペクトル値の包絡尺度、あるいはエネルギー関連尺度またはパワー関連尺度である、
請求項4に記載の装置。 - 前記第1のスペクトル帯域(180)、および前記第2のスペクトル帯域(190)が、それぞれ相互に排他的であり、
前記解析器(121)が、前記第2のスペクトル帯域(190)の前記第2の音声データを用いることなく前記第1の解析結果(122)を計算し、かつ前記第1のスペクトル帯域(180)の前記第1の音声データを用いることなく前記第2の解析結果(123)を計算するように構成される、
請求項1から5のいずれか一項に記載の装置。 - 前記音声信号(100)が、フレームの時系列を含み、
前記補償器(124)が、以前のフレームの以前の補償値を用いて、現在のフレームの現在の補償値を計算するように構成される、
請求項1から6のいずれか一項に記載の装置。 - 前記パラメトリックコーダ(120)が、第3のスペクトル帯域(202)の第3の音声データをパラメトリックに符号化するように構成され、
前記第3のスペクトル帯域(202)が、前記第2のスペクトル帯域(190)よりも高い周波数を有し、
前記補償器(124)が、前記第3のスペクトル帯域(202)に対する前記補償値の計算に第3の重み値(d)を使用するように構成され、
前記第3の重み値が、前記第2のスペクトル帯域(190)に対する前記補償値の計算に用いられた第2の重み値とは異なる、
請求項1から7のいずれか一項に記載の装置。 - 前記解析器(121)が、前記第2のスペクトル帯域の前記第2の音声データの、音調対ノイズ比(tonal−to−noise ratio)(400)をさらに計算するように構成され、
前記補償器(124)が、前記第2の音声データの前記音調対ノイズ比(400)に応じて前記補償値を計算するように構成され、その結果、第1の音調対ノイズ比に対する第1の補償値が取得される、または第2の音調対ノイズ比に対する第2の補償値が取得され、前記第1の補償値は、前記第2の補償値よりも大きくなり、前記第1の音調対ノイズ比は、前記第2の音調対ノイズ比よりも大きくなる、
請求項1から8のいずれか一項に記載の装置。 - 前記パラメータ計算機(126)が、前記第2の音声データから非補償パラメータ(502)を計算するように構成され、かつ前記パラメータを取得するために、前記非補償パラメータ(502)と前記補償値(125)とを結合する(503)ように構成される、
請求項1から9のいずれか一項に記載の装置。 - 前記第1のスペクトル帯域(180)のコア符号化された音声データ(160)と、前記パラメータ(170)とを出力する、出力インターフェース(140)をさらに備える、
請求項1から10のいずれか一項に記載の装置。 - 前記補償器(124)が、音響心理モデル(1002)を適用することによって前記補償値を決定するように構成され、前記音響心理モデル(1000)が、前記補償値(125)を取得するために、前記第1の解析結果(122)と前記第2の解析結果(123)とを用いて、前記第1の音声データと前記第2の音声データとの間の音響心理学的不一致を評価するように構成される、
請求項1から11のいずれか一項に記載の装置。 - 前記音声信号(100)が、フレームの時系列を有し、
前記解析器(121)が、前記第1の解析結果(122)を取得するために、フレームの前記第1のスペクトル帯域(180)の前記第1の音声データを解析し、前記フレームの第2の解析結果(123)を取得するために、前記第2のスペクトル帯域(190)の、前記フレームの第2の音声データを解析するように構成され、
前記補償器(124)が、前記フレームの前記第1の解析結果(122)と、前記フレームの前記第2の解析結果(123)とを用いて、前記フレームの補償値(125)を計算するように構成され、
前記パラメータ計算機(126)が、前記フレームの前記補償値を用いて、前記フレームの、前記第2のスペクトル帯域(190)の前記第2の音声データから、前記パラメータ(170)を計算するように構成される、または
前記パラメトリックコーダ(120)が、前記第1の解析結果(122)と前記第2の解析結果(123)とに基づいて、フレームの前記第2のスペクトル帯域の前記パラメータが、補償状況の前記補償値(125)、または非補償状況の前記補償値(125)のいずれを用いて計算されるかを検出する、補償検出器(210)をさらに備える、
請求項1から12のいずれか一項に記載の装置。 - 補償検出器(210)が、前記第1の解析結果(122)と、前記第2の解析結果(123)との差分が所定の特徴を有するとき、または前記第2の解析結果が所定の特徴を有するときに、前記補償状況を検出するように構成され、
前記検出器が、前記音声エンコーダにパワースペクトルが使用できないとき、もしくは現在のフレームが過渡フレーム(223)であることが検出されたときは、スペクトル帯域が補償されないことを検出するように構成される、または
前記補償器(124)が、前記第1の解析結果と第2の解析結果との商に基づいて、前記補償値(125)を計算するように構成される、
請求項1から13に記載の装置。 - 前記解析器(121)が、前記第1の解析結果(122)として、スペクトル平坦性尺度(spectral flatness measure)、波高率、または前記第1のスペクトル帯域(180)に対する、前記スペクトル平坦性尺度と前記波高率との商を計算するように構成され、かつ前記第2の解析結果(123)として、スペクトル平坦性尺度もしくは波高率、または前記第2のスペクトル帯域(190)に対する、前記スペクトル平坦性尺度と前記波高率との商を計算するように構成される、または
前記パラメータ計算機(126)が、前記第2の音声データから、スペクトル包絡情報、もしくは利得係数を計算するように構成される、または
前記補償器(124)が、前記補償値(125)を計算するように構成され、その結果、前記第1の解析結果(122)と、前記第2の解析結果(123)との間の第1の差分に対して、第1の補償値が取得され、前記第1の解析結果(122)と、前記第2の解析結果(123)との間の第2の差分に対して、第2の補償値が計算され、前記第1の差分が、前記第2の差分よりも大きく、前記第1の補償値が、前記第2の補償値よりも大きい、
請求項1から14のいずれか一項に記載の装置。 - 前記解析器(121)が、前記第2の音声データからスペクトル傾斜(608)を計算するように構成され、
前記解析器(121)が、前記第2のスペクトル帯域の境界近くに音調成分があるかどうかを調べる(616)ように構成され、
前記パラメトリックコーダ(120)の補償検出器(210)が、前記スペクトル傾斜が所定の閾値を下回る(610)ときにのみ、もしくは前記スペクトル傾斜が所定の閾値を上回り(614)、前記調査(616)により前記境界近くに音調成分が存在すると判定された(618)ときに、前記補償値を用いて前記パラメータを計算すると判定する(612)ように構成される、
請求項15に記載の装置。 - 前記第1のスペクトル帯域の、符号化された第1の音声データを復号して、符号化されて復号された第1の音声データを取得する、デコーダ(800)をさらに備え、
前記解析器(121)が、前記符号化されて復号された第1の音声データを用いて、前記第1の解析結果を計算する(801)ように構成され、かつ
装置に入力された前記音声信号から来た前記第2の音声データから、前記第2の解析結果を計算する(802)ように構成される、
請求項1から16のいずれか一項に記載の装置。 - 前記第2のスペクトル帯域のパッチング結果をシミュレートする、パッチシミュレータ(804)をさらに備え、前記パッチング結果は、コア符号化された音声信号に含まれる、前記第2のスペクトル帯域からの少なくとも1つのスペクトル線(351、352)を含み、
前記解析器(121)が、前記第1の音声データ、および前記第2のスペクトル帯域からの前記少なくとも1つのスペクトル線(351´、352´)を用いて前記第1の解析結果を計算するように構成され、かつ
符号化するために前記装置に入力された前記音声信号(100)から来る前記第2の音声データから、前記第2の解析結果を計算するように構成される、
請求項1から17のいずれか一項に記載の装置。 - 前記コアエンコーダ(110)が、一連の実値スペクトルの前記第1の音声データを符号化するように構成され、
前記解析器(121)が、一連のパワースペクトルから前記第1および前記第2の解析結果を計算するように構成され、
パワースペクトルが、符号化するために前記装置に入力された前記音声信号(100)から計算される、または前記コアエンコーダが使用する実値スペクトルから導出される、
請求項1から18のいずれか一項に記載の装置。 - 前記コアエンコーダ(110)が、少なくとも強調開始周波数(310)まで拡張するコア帯域で、前記音声信号をコア符号化するように構成され、
前記コア帯域が、前記第1のスペクトル帯域(180)、および前記第1のスペクトル帯域(180)と重なり合う少なくとも1つの別のソース帯域(302、303)を含み、
前記音声信号が、前記強調開始周波数(310)から最大周波数(354)まで拡張する強調範囲を有し、前記第2のスペクトル帯域(190)、および少なくとも1つの別のターゲット帯域が前記強調範囲に含まれ、前記第2のスペクトル帯域(305、307、202)と、前記別のターゲット帯域とが互いに重なり合わない、
請求項1から19のいずれか一項に記載の装置。 - 前記強調開始周波数(310)が交差周波数であり、コア符号化信号が、前記交差周波数(310)に帯域制限される、または、
前記強調開始周波数(310)が、インテリジェントギャップ充填(intelligent gap filling、IGF)開始周波数であり、コア符号化信号が、前記強調開始周波数よりも大きくなる前記最大周波数(354)に帯域制限される、
請求項20に記載の装置。 - 前記パラメータ計算機(126)が、
前記第2のスペクトル帯域の前記第2の音声データに基づいて、前記第2のスペクトル帯域の利得係数を計算し、
前記補償値として減衰係数を計算し、かつ
補償済み利得係数を前記パラメータとして取得するために、前記帯域の前記利得係数に前記減衰係数を乗じるように構成され、
前記装置が、前記第1のスペクトル帯域(180)のコア符号化された音声データ(160)、および前記パラメータ(170)として前記補償された利得係数を出力する、出力インターフェース(140)をさらに備える、
請求項1から21のいずれか一項に記載の装置。 - 音声信号を符号化する方法であって、
第1のスペクトル帯域(180)の第1の音声データをコア符号化(110)するステップと、
前記第1のスペクトル帯域(180)とは異なる、第2のスペクトル帯域(190)の第2の音声データをパラメトリックに符号化する(120)ステップとを含み、前記パラメトリックに符号化する(120)ステップは、
第1の解析結果(122)を取得するために、前記第1のスペクトル帯域(180)の第1の音声データを解析し、第2の解析結果(123)を取得するために、前記第2のスペクトル帯域(190)の第2の音声データを解析する(121)工程と、
前記第1の解析結果(122)、および前記第2の解析結果(123)を用いて補償値(125)を計算する(124)工程と、
前記補償値(125)を用いて、前記第2のスペクトル帯域(190)の前記第2の音声データからパラメータ(170)を計算する(126)工程と
を含む、方法。 - 音声信号を処理するシステムであって、
請求項1から22のいずれか一項に記載の、音声信号を符号化する装置と、
前記第1のスペクトル帯域(180)の符号化された第1の音声データ(160)を含む、符号化された音声信号、および前記第2のスペクトル帯域(190)の第2の音声データを表す、パラメータ(170)を受信する、デコーダとを備え、
前記デコーダは、前記パラメータ(170)、および前記第1のスペクトル帯域(180)の復号された第1の音声データを用いて、前記第2のスペクトル帯域(190)用に合成された音声データを再生成するために、スペクトル強調処理を行うように構成される、システム。 - 音声信号を処理する方法であって、
請求項23に従って、音声信号を符号化するステップと、
前記第1のスペクトル帯域(180)の符号化された第1の音声データ(160)を含む、符号化された音声信号、および前記第2のスペクトル帯域(190)の第2の音声データを表す、パラメータ(170)を受信するステップと、
前記パラメータ(170)、および前記第1のスペクトル帯域(180)の復号された第1の音声データを用いて、前記第2のスペクトル帯域(190)用に合成された音声データを再生成するために、スペクトル強調処理を行うステップと、
を含む、方法。 - コンピュータ、またはプロセッサで実行されると、請求項23または25に記載の前記方法を行う、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023059844A JP2023082142A (ja) | 2016-08-23 | 2023-04-03 | 補償値を用いて音声信号を符号化する装置および方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16185398.1 | 2016-08-23 | ||
EP16185398.1A EP3288031A1 (en) | 2016-08-23 | 2016-08-23 | Apparatus and method for encoding an audio signal using a compensation value |
JP2019510950A JP6806884B2 (ja) | 2016-08-23 | 2017-08-21 | 補償値を用いて音声信号を符号化する装置および方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019510950A Division JP6806884B2 (ja) | 2016-08-23 | 2017-08-21 | 補償値を用いて音声信号を符号化する装置および方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023059844A Division JP2023082142A (ja) | 2016-08-23 | 2023-04-03 | 補償値を用いて音声信号を符号化する装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021047441A true JP2021047441A (ja) | 2021-03-25 |
JP7385549B2 JP7385549B2 (ja) | 2023-11-22 |
Family
ID=56799328
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019510950A Active JP6806884B2 (ja) | 2016-08-23 | 2017-08-21 | 補償値を用いて音声信号を符号化する装置および方法 |
JP2020201431A Active JP7385549B2 (ja) | 2016-08-23 | 2020-12-04 | 補償値を用いて音声信号を符号化する装置および方法 |
JP2023059844A Pending JP2023082142A (ja) | 2016-08-23 | 2023-04-03 | 補償値を用いて音声信号を符号化する装置および方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019510950A Active JP6806884B2 (ja) | 2016-08-23 | 2017-08-21 | 補償値を用いて音声信号を符号化する装置および方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023059844A Pending JP2023082142A (ja) | 2016-08-23 | 2023-04-03 | 補償値を用いて音声信号を符号化する装置および方法 |
Country Status (18)
Country | Link |
---|---|
US (2) | US11521628B2 (ja) |
EP (4) | EP3288031A1 (ja) |
JP (3) | JP6806884B2 (ja) |
KR (1) | KR102257100B1 (ja) |
CN (3) | CN109863556B (ja) |
AR (1) | AR109391A1 (ja) |
AU (1) | AU2017317554B2 (ja) |
BR (1) | BR112019003711A2 (ja) |
CA (1) | CA3034686C (ja) |
ES (2) | ES2967183T3 (ja) |
MX (1) | MX2019002157A (ja) |
PL (2) | PL3504707T3 (ja) |
PT (1) | PT3504707T (ja) |
RU (1) | RU2727728C1 (ja) |
SG (1) | SG11201901645SA (ja) |
TW (1) | TWI653626B (ja) |
WO (1) | WO2018036972A1 (ja) |
ZA (1) | ZA201901624B (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3288031A1 (en) * | 2016-08-23 | 2018-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding an audio signal using a compensation value |
CN111383643B (zh) * | 2018-12-28 | 2023-07-04 | 南京中感微电子有限公司 | 一种音频丢包隐藏方法、装置及蓝牙接收机 |
KR20210003507A (ko) * | 2019-07-02 | 2021-01-12 | 한국전자통신연구원 | 오디오 코딩을 위한 잔차 신호 처리 방법 및 오디오 처리 장치 |
CN113808597A (zh) * | 2020-05-30 | 2021-12-17 | 华为技术有限公司 | 一种音频编码方法和音频编码装置 |
CN113808596A (zh) * | 2020-05-30 | 2021-12-17 | 华为技术有限公司 | 一种音频编码方法和音频编码装置 |
TWI755901B (zh) * | 2020-10-21 | 2022-02-21 | 美商音美得股份有限公司 | 包括移頻功能之即時音訊處理系統以及包括移頻功能之即時音訊處理程序 |
CN113612808B (zh) * | 2021-10-09 | 2022-01-25 | 腾讯科技(深圳)有限公司 | 音频处理方法、相关设备、存储介质及程序产品 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013538374A (ja) * | 2010-09-15 | 2013-10-10 | サムスン エレクトロニクス カンパニー リミテッド | 高周波数帯域幅拡張のための符号化/復号化装置及びその方法 |
JP2019510950A (ja) * | 2016-04-04 | 2019-04-18 | マザロ・エンフェーMazaro Nv | 可変伝動装置のための遊星可変装置 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3870193B2 (ja) * | 2001-11-29 | 2007-01-17 | コーディング テクノロジーズ アクチボラゲット | 高周波再構成に用いる符号器、復号器、方法及びコンピュータプログラム |
JP4296752B2 (ja) | 2002-05-07 | 2009-07-15 | ソニー株式会社 | 符号化方法及び装置、復号方法及び装置、並びにプログラム |
JP2005114814A (ja) * | 2003-10-03 | 2005-04-28 | Nippon Telegr & Teleph Corp <Ntt> | 音声符号化・復号化方法、音声符号化・復号化装置、音声符号化・復号化プログラム、及びこれを記録した記録媒体 |
WO2005111568A1 (ja) | 2004-05-14 | 2005-11-24 | Matsushita Electric Industrial Co., Ltd. | 符号化装置、復号化装置、およびこれらの方法 |
KR100636144B1 (ko) | 2004-06-04 | 2006-10-18 | 삼성전자주식회사 | 오디오 신호 부호화/복호화 장치 및 방법 |
KR101366124B1 (ko) * | 2006-02-14 | 2014-02-21 | 오렌지 | 오디오 인코딩/디코딩에서의 인지 가중 장치 |
JP4984983B2 (ja) * | 2007-03-09 | 2012-07-25 | 富士通株式会社 | 符号化装置および符号化方法 |
CN101903944B (zh) * | 2007-12-18 | 2013-04-03 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
MX2011000361A (es) | 2008-07-11 | 2011-02-25 | Ten Forschung Ev Fraunhofer | Un aparato y un metodo para generar datos de salida por ampliacion de ancho de banda. |
KR101381513B1 (ko) * | 2008-07-14 | 2014-04-07 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
JP5203077B2 (ja) * | 2008-07-14 | 2013-06-05 | 株式会社エヌ・ティ・ティ・ドコモ | 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法 |
RU2591012C2 (ru) | 2010-03-09 | 2016-07-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство и способ обработки переходных процессов для аудио сигналов с изменением скорости воспроизведения или высоты тона |
US8751225B2 (en) * | 2010-05-12 | 2014-06-10 | Electronics And Telecommunications Research Institute | Apparatus and method for coding signal in a communication system |
CN102800317B (zh) * | 2011-05-25 | 2014-09-17 | 华为技术有限公司 | 信号分类方法及设备、编解码方法及设备 |
JP5942358B2 (ja) * | 2011-08-24 | 2016-06-29 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
US8527264B2 (en) * | 2012-01-09 | 2013-09-03 | Dolby Laboratories Licensing Corporation | Method and system for encoding audio data with adaptive low frequency compensation |
PL2951821T3 (pl) * | 2013-01-29 | 2017-08-31 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Koncepcja kompensacji przełączania trybu kodowania |
CN110111801B (zh) * | 2013-01-29 | 2023-11-10 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、音频解码器、方法及编码音频表示 |
US9741350B2 (en) * | 2013-02-08 | 2017-08-22 | Qualcomm Incorporated | Systems and methods of performing gain control |
KR102450178B1 (ko) * | 2013-04-05 | 2022-10-06 | 돌비 인터네셔널 에이비 | 인터리브된 파형 코딩을 위한 오디오 인코더 및 디코더 |
EP2830064A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
RU2747713C2 (ru) * | 2014-01-03 | 2021-05-13 | Долби Лабораторис Лайсэнзин Корпорейшн | Генерирование бинаурального звукового сигнала в ответ на многоканальный звуковой сигнал с использованием по меньшей мере одной схемы задержки с обратной связью |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
US20160372127A1 (en) * | 2015-06-22 | 2016-12-22 | Qualcomm Incorporated | Random noise seed value generation |
EP3288031A1 (en) * | 2016-08-23 | 2018-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding an audio signal using a compensation value |
-
2016
- 2016-08-23 EP EP16185398.1A patent/EP3288031A1/en not_active Withdrawn
-
2017
- 2017-08-21 EP EP20206237.8A patent/EP3796315B1/en active Active
- 2017-08-21 PT PT177524048T patent/PT3504707T/pt unknown
- 2017-08-21 PL PL17752404T patent/PL3504707T3/pl unknown
- 2017-08-21 KR KR1020197008630A patent/KR102257100B1/ko active IP Right Grant
- 2017-08-21 CN CN201780065392.1A patent/CN109863556B/zh active Active
- 2017-08-21 BR BR112019003711A patent/BR112019003711A2/pt active Search and Examination
- 2017-08-21 MX MX2019002157A patent/MX2019002157A/es unknown
- 2017-08-21 EP EP17752404.8A patent/EP3504707B1/en active Active
- 2017-08-21 EP EP23190026.7A patent/EP4250289A3/en active Pending
- 2017-08-21 CN CN202311153487.2A patent/CN117198305A/zh active Pending
- 2017-08-21 ES ES20206237T patent/ES2967183T3/es active Active
- 2017-08-21 CA CA3034686A patent/CA3034686C/en active Active
- 2017-08-21 AU AU2017317554A patent/AU2017317554B2/en active Active
- 2017-08-21 WO PCT/EP2017/071048 patent/WO2018036972A1/en active Search and Examination
- 2017-08-21 CN CN202311154059.1A patent/CN117198306A/zh active Pending
- 2017-08-21 SG SG11201901645SA patent/SG11201901645SA/en unknown
- 2017-08-21 JP JP2019510950A patent/JP6806884B2/ja active Active
- 2017-08-21 RU RU2019108247A patent/RU2727728C1/ru active
- 2017-08-21 PL PL20206237.8T patent/PL3796315T3/pl unknown
- 2017-08-21 ES ES17752404T patent/ES2844930T3/es active Active
- 2017-08-22 TW TW106128438A patent/TWI653626B/zh active
- 2017-08-23 AR ARP170102328A patent/AR109391A1/es active IP Right Grant
-
2019
- 2019-02-22 US US16/283,668 patent/US11521628B2/en active Active
- 2019-03-15 ZA ZA2019/01624A patent/ZA201901624B/en unknown
-
2020
- 2020-12-04 JP JP2020201431A patent/JP7385549B2/ja active Active
-
2022
- 2022-08-11 US US17/885,911 patent/US11935549B2/en active Active
-
2023
- 2023-04-03 JP JP2023059844A patent/JP2023082142A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013538374A (ja) * | 2010-09-15 | 2013-10-10 | サムスン エレクトロニクス カンパニー リミテッド | 高周波数帯域幅拡張のための符号化/復号化装置及びその方法 |
JP2019510950A (ja) * | 2016-04-04 | 2019-04-18 | マザロ・エンフェーMazaro Nv | 可変伝動装置のための遊星可変装置 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6806884B2 (ja) | 補償値を用いて音声信号を符号化する装置および方法 | |
CN110197667B (zh) | 对音频信号的频谱执行噪声填充的装置 | |
CN107925388B (zh) | 后置处理器、预处理器、音频编解码器及相关方法 | |
KR101706009B1 (ko) | 오디오 인코더, 오디오 디코더, 오디오 신호, 오디오 스트림을 부호화 및 복호화하는 장치 및 컴퓨터 프로그램 | |
TWI463484B (zh) | 時間扭曲致動信號提供器、音訊信號編碼器、用以提供時間扭曲致動信號之方法、用以編碼音訊信號之方法及電腦程式 | |
EP2394269A1 (en) | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder | |
KR20180002906A (ko) | 오디오 신호 디코더에서의 개선된 주파수 대역 확장 | |
AU2021331096B2 (en) | Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal | |
CN117178322A (zh) | 用于声音信号的统一时域/频域编码的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210103 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220301 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220901 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20221205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230403 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20230403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20230403 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20230424 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20230425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230808 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231012 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7385549 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |