JP2016218465A - 音声信号の符号化と復号化の方法および装置 - Google Patents

音声信号の符号化と復号化の方法および装置 Download PDF

Info

Publication number
JP2016218465A
JP2016218465A JP2016153513A JP2016153513A JP2016218465A JP 2016218465 A JP2016218465 A JP 2016218465A JP 2016153513 A JP2016153513 A JP 2016153513A JP 2016153513 A JP2016153513 A JP 2016153513A JP 2016218465 A JP2016218465 A JP 2016218465A
Authority
JP
Japan
Prior art keywords
subband
bandwidth
quantized
envelope
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016153513A
Other languages
English (en)
Other versions
JP6321734B2 (ja
Inventor
峰岩 ▲斉▼
峰岩 ▲斉▼
Fengyan Qi
▲澤▼新 ▲劉▼
▲澤▼新 ▲劉▼
Zexin Liu
磊 苗
Miao Lei
磊 苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2016218465A publication Critical patent/JP2016218465A/ja
Application granted granted Critical
Publication of JP6321734B2 publication Critical patent/JP6321734B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】復号化の間に再構築される高周波数の調波が割込みにより平滑でなくなる。これにより、雑音が大量に生成され、再構築された音声の品質が悪くなることを防止する音声信号符号化及び復号化方法並びに装置を提供する。
【解決手段】音声信号の周波数帯を複数のサブバンドに分割し、および各サブバンドのサブバンド正規化因子を量子化するステップと、量子化した当該サブバンド正規化因子に従って、または量子化した当該サブバンド正規化因子とビット・レート情報に従って、ビット割当ての信号帯域幅を決定するステップと、決定した当該信号帯域幅内のサブバンドにビットを割り当てるステップと、サブバンドごとに割り当てたビットに従って、当該音声信号のスペクトル係数を符号化するステップと、を含む。このように、ビットを集約化することによって、決定された信号帯域幅が効果的に符号化および復号化され、音声品質が改善される。
【選択図】図1

Description

本発明は、音声信号の符号化と復号化の技術の分野に関し、特に、音声信号の符号化と復号化の方法および装置に関する。
現在、通信ではますます音声の品質が重要となってきている。したがって、音声品質を保証しつつ、符号化と復号化の最中にできるだけ音楽品質を改善する必要がある。音楽信号は通常かなり十分な情報を保持し、したがって、従来の音声CELP(Code Excited Linear Prediction、符号励起線形予測)符号化モードは音楽信号の符号化には適していない。一般に、変換符号化モードは、周波数領域内の音楽信号を処理して音楽信号の符号化品質を改善するために使用される。しかし、限られた符号化ビットを効果的に使用して情報を効率的に符号化する方法は現在の音声符号化の分野においてホットな研究課題である。
現在の音声符号化技術は一般に、FFT(Fast Fourier Transform、高速フーリエ変換)またはMDCT(Modified Discrete Cosine Transform、修正離散余弦変換)を使用して時間領域信号を周波数領域に変換し、次いで周波数領域信号を符号化している。低ビット・レートの場合で量子化するための有限数のビットでは、全ての音声信号を量子化することはできない。したがって、一般にBWE(Bandwidth Extension、帯域幅拡張)技術およびスペクトル重ね合わせ技術が使用されることがある。
符号化の側では、第1の入力時間領域信号が周波数領域に変換され、サブバンド正規化因子、即ち、スペクトルのエンベロープ情報が周波数領域から抽出される。量子化したサブバンド正規化因子を使用することにより当該スペクトルを正規化して、正規化スペクトル情報を取得する。最後に、サブバンドごとのビット割当てが決定され、正規化スペクトルが量子化される。このように、量子化されたエンベロープ情報と正規化スペクトル情報へと音声信号が符号化され、次いでビット・ストリームが出力される。
復号化側の処理は、符号化側の処理の逆である。低速符号化の最中は、符号化側では全ての周波数帯を符号化することはできない。復号化側では、帯域幅拡張技術が、符号化側で符号化されなかった周波数帯を復元する必要がある。一方、量子化器の制限のため多数のゼロ周波数点が符号化されたサブバンドで生ずることがある。したがって、性能を改善するために雑音充填モジュールが必要である。最後に、復号化されたサブバンド正規化因子を復号化された正規化スペクトル係数に適用して、再構築されたスペクトル係数を取得し、逆変換を実施して時間領域の音声信号を出力する。
しかし、符号化プロセス中は、高周波数の調波に幾つかの分散した符号化ビットが割り当てられることがある。しかし、このケースでは、時間軸でのビット分布は連続的ではなく、結果として、復号化の間に再構築される高周波数の調波が割込みにより平滑でなくなる。これにより、雑音が大量に生成され、再構築された音声の品質が悪くなる。
本発明の諸実施形態では、音声信号の符号化および復号化の方法と装置を提供する。これらにより、音声品質を改善することができる。
1態様では、音声信号の符号化方法を提供する。当該方法は、音声信号の周波数帯を複数のサブバンドに分割し、各サブバンドのサブバンド正規化因子を量子化するステップと、量子化したサブバンド正規化因子に従って、または、量子化したサブバンド正規化因子とビット・レート情報に従って、ビット割当ての信号帯域幅を決定するステップと、決定した信号帯域幅内のサブバンドにビットを割り当てるステップと、サブバンドごとに割り当てたビットに従って、当該音声信号のスペクトル係数を符号化するステップとを含む。
別の態様では、音声信号の復号化方法を提供する。当該方法は、量子化したサブバンド正規化因子を取得するステップと、量子化したサブバンド正規化因子に従って、または量子化したサブバンド正規化因子とビット・レート情報に従って、ビット割当ての信号帯域幅を決定するステップと、決定した信号帯域幅内のサブバンドにビットを割り当てるステップと、サブバンドごとに割り当てたビットに従って正規化スペクトルを復号化するステップと、復号化した正規化スペクトルに対して雑音充填と帯域幅拡張を実施して、正規化した全帯域スペクトルを取得するステップと、正規化した全帯域スペクトルとサブバンド正規化因子に従って、音声信号のスペクトル係数を取得するステップとを含む。
さらに別の態様では、音声信号の符号化装置を提供する。当該装置は、音声信号の周波数帯を複数のサブバンドに分割し、各サブバンドのサブバンド正規化因子を量子化するように構成された量子化ユニットと、量子化したサブバンド正規化因子に従って、または量子化したサブバンド正規化因子とビット・レート情報に従って、ビット割当ての信号帯域幅を決定するように構成された第1の決定ユニットと、当該第1の決定ユニットにより決定された信号帯域幅内のサブバンドにビットを割り当てるように構成された第1の割当てユニットと、サブバンドごとに当該第1の割当てユニットにより割り当てたビットに従って音声信号のスペクトル係数を符号化するように構成された符号化ユニットとを備える。
さらに別の態様では、音声信号復号化装置を提供する。当該音声信号復号化装置は、量子化したサブバンド正規化因子を取得するように構成された取得ユニットと、量子化したサブバンド正規化因子に従って、または量子化したサブバンド正規化因子とビット・レート情報に従って、ビット割当ての信号帯域幅を決定するように構成された第2の決定ユニットと、当該第2の決定ユニットにより決定された信号帯域幅内のサブバンドにビットを割り当てるように構成された第2の割当てユニットと、サブバンドごとに当該第2の割当てユニットにより割り当てたビットに従って、正規化スペクトルを復号化するように構成された復号化ユニットと、雑音充填および帯域幅拡張を当該復号化ユニットによって復号化された当該正規化スペクトルに対して実施して、正規化した全帯域スペクトルを取得するように構成された拡張ユニットと、正規化した全帯域スペクトルとサブバンド正規化因子に従って、音声信号のスペクトル係数を取得するように構成された受信ユニットとを備える。
本発明の諸実施形態によれば、符号化と復号化の間に、量子化したサブバンド正規化因子とビット・レート情報に従って、ビット割当ての信号帯域幅が決定される。このように、ビットを集約化することによって、決定された信号帯域幅が効果的に符号化および復号化され、音声品質が改善される。
本発明の技術的解決策をより明確にするために、本発明の様々な実施形態を示す添付図面を以下で簡単に説明する。明らかに、添付図面は例示的な目的のためにすぎず、当業者は創造的な作業なしにかかる添付図面から他の図面を導出することができる。
本発明の1実施形態に従う音声信号符号化方法の流れ図である。 本発明の1実施形態に従う音声信号復号化方法の流れ図である。 本発明の1実施形態に従う音声信号符号化装置のブロック図である。 本発明の別の実施形態に従う音声信号符号化装置のブロック図である。 本発明の1実施形態に従う音声信号復号化装置のブロック図である。 本発明の別の実施形態に従う音声信号復号化装置のブロック図である。
本発明の諸実施形態で開示する技術的解決策を、諸実施形態と添付図面を参照して以下で説明する。明らかに、当該実施形態は例示的なものにすぎない。当業者は、創造的な作業なしに本明細書で与えた当該実施形態から他の実施形態を導出することができ、全てのかかる諸実施形態は本発明の保護範囲に入る。
図1は、本発明の1実施形態に従う音声信号符号化方法の流れ図である。
101では、音声信号の周波数帯を複数のサブバンドに分割し、各サブバンドのサブバンド正規化因子を量子化する。
以下では、MDCT変換を詳細な説明の1例として使用する。まず、MDCT変換を入力音声信号に対して実施して周波数領域係数を取得する。MDCT変換は、ウィンドウ化、時間領域エイリアシング、および離散DCT変換のような処理を含んでもよい。
例えば、時間領域信号x(n)が正弦ウィンドウ化(sine−windowed)される。
Figure 2016218465
得られるウィンドウ化信号は、
Figure 2016218465
である。次に、時間領域エイリアシング操作を行う。即ち、
Figure 2016218465
である。IL/2およびJL/2はそれぞれ、次数をL/2とした2つの正方行列を示す。即ち、
Figure 2016218465
である。
DCT変換を当該時間領域に対して実施して、最終的に当該周波数領域のMDCT係数を取得する。即ち、
Figure 2016218465
である。
当該周波数領域のエンベロープが当該MDCT係数から抽出されて量子化される。全体の周波数が、異なる周波数領域の解像度を有する複数のサブバンドに分割される。各サブバンドの正規化因子が抽出され、当該サブバンド正規化因子が量子化される。
例えば、16kHzの帯域幅を有する周波数帯に対応する32kHzの周波数で標本化される音声信号に関して、そのフレーム長が20ms(640個の標本化点)である場合には、サブバンド分割を表1に示す形態に従って実施してもよい。
Figure 2016218465
まず、サブバンドを幾つかのサブバンドにグループ化し、グループ内のサブバンドを細かく分割する。各サブバンド内の正規化因子は、
Figure 2016218465
により定義される。Lはサブバンド内の係数の数を示し、Sはサブバンド内の開始点を示し、eはサブバンド内の終了点を示し、Pはサブバンドの総数を示す。
正規化因子を取得した後、当該因子を対数領域で量子化して、量子化したサブバンド正規化因子wnormを取得してもよい。
102では、量子化したサブバンド正規化因子に従って、または量子化したサブバンド正規化因子とビット・レート情報に従ってビット割当ての信号帯域幅を決定する。
場合によっては、1実施形態では、当該ビット割当ての信号帯域幅sfm_limitを音声信号の帯域幅の一部として、例えば、低周波数では0〜sfm_limitの帯域幅の一部または当該帯域幅の中間部分として定義してもよい。
1例では、ビット割当ての信号帯域幅sfm_limitを定義するとき、比率因子をビット・レート情報に従って決定してもよい。当該比率因子は、0より大きく1以下である。1実施形態では、ビット・レートが小さいほど比率因子も小さい。例えば、様々なビット・レートに対応する因子の値を表2に従って取得してもよい。
Figure 2016218465
あるいは、当該因子を式、例えば、
fact=qx(0.5+bitrate_value/128000)
に従って取得してもよい。ここで、bitrate_valueはビット・レートの値、例えば24000を示し、qは補正因子を示す。例えば、q=1と仮定してもよい。本発明の当該実施形態は、かかる具体的な値の例には限定されない。
当該帯域幅の一部は、比例因子と量子化したサブバンド正規化因子wnormとに従って決まる。各サブバンド内のスペクトル・エネルギを、量子化したサブバンド正規化因子に従って取得してもよく、当該スペクトル・エネルギを、蓄積したスペクトル・エネルギが全サブバンドの総スペクトル・エネルギに当該比率因子を乗じた積より大きくなるまで、低周波数から高周波数まで各サブバンド内で蓄積してもよく、現在のサブバンドに続く帯域幅が上記帯域幅の一部として使用される。
例えば、最低の蓄積周波数点をまず設定し、当該周波数点より低い各サブバンドのスペクトル・エネルギenergy_lowを計算してもよい。当該スペクトル・エネルギは、上記サブバンド正規化因子に従って次式により取得してもよい。
Figure 2016218465
qは、設定された最低の蓄積周波数点に対応するサブバンドを示す。
それに応じて推定を行ってもよく、全てのサブバンドの合計スペクトル・エネルギenergy_sumが計算されるまでサブバンドを追加する。
energy_lowに基づいて、サブバンドを低周波数から高周波数まで1つずつ追加し蓄積してスペクトル・エネルギenergy_limitを取得し、energy_limit>fact x energy_sumが満たされるかどうかを判定する。満たされない場合には、高蓄積スペクトル・エネルギのためにさらにサブバンドを追加する必要がある。満たされる場合には、現在のサブバンドを、定義された帯域幅の部分の最後のサブバンドとして使用する。現在のサブバンドのシーケンス番号sfm_limitを、当該定義された部分の帯域幅、即ち、0〜sfm_limitを示すために出力する。
以上の例では、ビット・レートを使用して比率因子を決定した。別の例では、サブバンド正規化因子を使用して当該因子を決定してもよい。例えば、音声信号の調波クラスまたは雑音レベルnoise_levelをまずサブバンド正規化因子に従って取得する。一般に、音声信号の調波クラスが高くなるほど、雑音レベルは低くなる。以下では、雑音レベルを詳細な説明の例として使用する。雑音レベルnoise_levelを以下の式に従って取得してもよい。
Figure 2016218465
wnormは復号化されたサブバンド正規化因子を示し、sfmは周波数帯全体のサブバンドの数を示す。
noise_levelが高いとき当該因子は大きく、noise_levelが低いときには当該因子は小さい。調波クラスをパラメータとして使用する場合には、当該調波クラスが高いとき当該因子は小さく、調波クラスが小さいときには当該因子は大きい。
以上では0〜sfm_limitの低周波数帯域幅を使用しているが、本発明の当該実施形態はこれに限定されないことに留意されたい。必要に応じて、当該帯域幅の一部を別の形、例えば、非零の低周波数点からsfm_limitまでの帯域幅の一部で実装してもよい。かかる変形は全て本発明の実施形態の範囲に入る。
103では、決定した信号帯域幅内のサブバンドにビットを割り当てる。
ビット割当てを、決定した信号帯域幅内のサブバンドのwnorm値に従って実施してもよい。以下の反復方法、即ち、a)最大wnorm値に対応するサブバンドを発見し、特定数のビットを割り当て、b)それに従って当該サブバンドのwnorm値を減らし、c)ビットが完全に割り当てられるまでa)とb)を繰り返す、といった方法を使用してもよい。
104では、サブバンドごとに割り当てたビットに従って当該音声信号のスペクトル係数を符号化する。
例えば、符号化係数が格子ベクトル量子化法、または、MDCTスペクトル係数を量子化するための別の既存の方法を使用してもよい。
本発明の当該実施形態によれば、符号化と復号化の間に、ビット割当ての信号帯域幅を、量子化したサブバンド正規化因子とビット・レート情報に従って決定する。このように、ビットを集約化することによって、決定された信号帯域幅が効果的に符号化および復号化され、音声品質が改善される。
例えば、決定された信号帯域幅が低周波数部分の0〜sfm_limitであるとき、信号帯域幅0〜sfm_limitの中でビットが割り当てられる。低ビット・レートの場合にビットを集約化することによって、選択された周波数帯が効果的に符号化されるように、かつ、符号化されていない周波数帯に対してより効果的な帯域幅拡張が実施されるように、ビット割当ての帯域幅sfm_limitを制限する。この理由は主に、ビット割当ての帯域幅が制限されていない場合には、分散した符号化ビットが高周波数の調波に割り当てられる可能性があるからである。しかし、このケースでは、時間軸でのビット分散は連続的でなく、そのため再構築された高周波数の調波は滑らかでなく途切れている。ビット割当ての帯域幅が制限されている場合には、分散したビットが低周波数に集約化され、低周波数信号を良好に符号化することができ、低周波数信号を用いることにより高周波数の調波に対して帯域幅拡張が実施され、より連続的な高周波数の調波信号が可能となる。
場合によっては、1実施形態では、図3に示す103で、ビット割当ての信号帯域幅sfm_limitを決定した後のビット割当て中に、より多くのビットが高周波数帯域に割り当てられるように、当該帯域幅内のサブバンドのサブバンド正規化因子をまず調節する。当該調節のスケールは、ビット・レートに対して自己適応的であってもよい。ここでは、帯域幅内で多くのエネルギを有する低周波数帯により多くのビットが割り当てられ、量子化に必要なビットが十分である場合に、サブバンド正規化因子を調節して当該周波数帯内の高周波数を量子化するためのビットを増やすことができることを考慮している。このように、多くの調波を符号化することができ、これは高周波数帯の帯域幅拡張に有益である。例えば、帯域幅の一部の中間サブバンドのサブバンド正規化因子を、当該中間サブバンドに続く各サブバンドのサブバンド正規化因子として使用する。具体的には、(sfm_limit/2)番目のサブバンドの正規化因子を、周波数sfm_limit/2−sfm_limit内の各サブバンドのサブバンド正規化因子として使用してもよい。sfm_limit/2が整数でない場合には、sfm_limit/2を切り上げるかまたは切り下げてもよい。このケースでは、ビット割当て中に、調節したサブバンド正規化因子を使用してもよい。
さらに、本発明の別の実施形態によれば、本発明の当該実施形態で提供した符号化および復号化方法において、音声信号のフレームの分類をさらに考慮してもよい。このケースでは、本発明の当該実施形態において、様々な分類に関する様々な符号化と復号化のポリシーを使用することができる。その結果、様々な信号の符号化および復号化の品質が改善される。例えば、音声信号を雑音(noise)、調波(harmonic)、過渡信号(transient)のようなタイプに分類してもよい。一般に、雑音風の信号はフラットなスペクトルで雑音モードとして分類され、時間領域において突然変化する信号はフラットなスペクトルで過渡信号モードとして分類され、強い調波特性を有する信号は、大きく変化するスペクトルで多くの情報を含む、調波モードとして分類される。
以下では、調波タイプおよび非調波タイプを詳細な説明に使用する。本発明の当該実施形態では、図1に示す101の前に、音声信号のフレームが調波タイプに属するか非調波タイプに属するかを判定してもよい。音声信号のフレームが当該調波タイプに属する場合には、図2に示す方法を連続的に実施する。具体的には、調波タイプのフレームに関して、ビット割当ての信号帯域幅を図1に示す実施形態に従って定義してもよい。即ち、フレームのビット割当ての信号帯域幅を当該フレームの帯域幅の一部として定義してもよい。非調波タイプのフレームに関して、ビット割当ての信号帯域幅を、図1に示す実施形態に従って帯域幅の一部に対して定義してもよく、または、ビット割当ての信号帯域幅を定義せず、フレームのビット割当て帯域幅をフレームの帯域幅全体として決定してもよい。
音声信号のフレームを、ピーク平均率に従って分類してもよい。例えば、当該フレームのサブバンド(高周波数のサブバンド)の全部または一部の各サブバンドのピーク平均率が取得される。当該ピーク平均率は、サブバンドのピーク・エネルギをサブバンドの平均エネルギで除すことにより計算される。ピーク平均率が第1の閾値より大きいサブバンドの数が第2の閾値以上であるとき、フレームが当該調波タイプに属すると判定し、ピーク平均率が第1の閾値より大きいサブバンドの数が第2の閾値より小さいときには、当該フレームが非調波タイプに属すると判定する。当該第1の閾値および当該第2の閾値を必要に応じて設定または変更してもよい。
しかし、本発明の当該実施形態はピーク平均率に従う分類の例には限定されず、別のパラメータに従って分類を行ってもよい。
低ビット・レートの場合にビットを集約化することによって、選択された周波数帯が効果的に符号化されるように、かつ、符号化されていない周波数帯に対してより効果的な帯域幅拡張が実施されるように、ビット割当ての帯域幅sfm_limitを制限する。この理由は主に、ビット割当ての帯域幅が制限されていない場合には、分散した符号化ビットが高周波数の調波に割り当てられる可能性があるからである。しかし、このケースでは、時間軸でのビット分散は連続的でなく、そのため再構築された高周波数の調波は滑らかでなく途切れている。ビット割当ての帯域幅が制限されている場合には、分散したビットが低周波数に集約化され、低周波数信号を良好に符号化することができ、低周波数信号を用いることにより高周波数の調波に対して帯域幅拡張が実施され、より連続的な高周波数の調波信号が可能となる。
以上では、符号化側での処理を説明した。これは、復号化側と逆の処理である。図2は、本発明の1実施形態に従う音声信号の復号化方法の流れ図である。
201では、量子化したサブバンド正規化因子を取得する。量子化したサブバンド正規化因子を、ビット・ストリームを復号化することによって取得してもよい。
202では、量子化したサブバンド正規化因子に従って、または、量子化したサブバンド正規化因子とビット・レート情報に従って、ビット割当ての信号帯域幅を決定する。202は図1に示す102と同様であり、したがってその説明は繰り返さない。
203では、決定した当該信号帯域幅内のサブバンドにビットを割り当てる。203は図1の103と同様であり、したがってその説明は繰り返さない。
204では、サブバンドごとに割り当てたビットに従って正規化スペクトルを復号化する。
205では、復号化した正規化スペクトルに対して雑音充填と帯域幅拡張を実施して、正規化した全帯域スペクトルを取得する。
206では、当該正規化した全帯域スペクトルとサブバンド正規化因子に従って音声信号のスペクトル係数を取得する。
例えば、各サブバンドの正規化スペクトルに当該サブバンドのサブバンド正規化因子を乗ずることによって、音声信号のスペクトル係数を復元し取得する。
本発明の当該実施形態によれば、符号化および復号化の最中に、量子化したサブバンド正規化因子とビット・レート情報に従って、ビット割当ての信号帯域幅が決定される。このように、ビットを集約化することによって、決定された信号帯域幅が効果的に符号化および復号化され、音声品質が改善される。
本実施形態では、ステップ205で説明した雑音充填と帯域幅拡張は順序の点で限定されない。具体的には、雑音充填を帯域幅拡張の前に実施してもよい。または、帯域幅拡張を雑音充填の前に実施してもよい。さらに、本実施形態によれば、帯域幅拡張を周波数帯の一部について実施してもよく、雑音充填を当該周波数帯の他の部分に対して同時に実施してもよい。かかる変形は本発明の当該実施形態の範囲内にある。
ゼロ周波数点の多くが、サブバンド符号化中の量子化器の制限に起因して生成されることがある。一般に、一部の雑音を充填して、再構築された音声信号の音が確実により自然なものであるようにしてもよい。
雑音充填を最初に実施する場合には、雑音充填の後に帯域幅拡張を正規化スペクトルに対して実施して、正規化した全帯域スペクトルを取得してもよい。例えば、第1の周波数帯を、現在のフレームと当該現在のフレームより前のN個のフレームのビット割当てに従って決定し、コピーすべき周波数帯(コピー)として使用してもよい。Nは正の整数である。一般に、ビットが割り当てられた複数の連続的なサブバンドが当該第1の周波数帯の範囲として選択されることが望ましい。次に、高周波数帯域のスペクトル係数を当該第1の周波数帯のスペクトル係数に従って取得する。
1例としてN=1である場合を用いると、場合によっては、1実施形態では、現在のフレームに対して割り当てたビットと以前のN個のフレームに割り当てたビットの間の相関関係を取得してもよく、取得した相関関係に従って第1の周波数帯を決定してもよい。例えば、現在のフレームに割り当てたビットをR_currentとし、以前のフレームに割り当てたビットをR_previousとすると、R_currentにR_previousを乗ずることによって相関関係R_correlationを取得してもよい。
相関関係を取得した後、R_correlation≠0を満たす第1のサブバンドを、ビットが割り当てられた最高周波数帯last_sfmから低周波数帯へと検索する。これは、現在のフレームとその前のフレームの両方にビットが割り当てられていることを示す。当該サブバンドのシーケンス番号がtop_bandであると仮定する。
1実施形態では、取得したtop_bandを第1の周波数帯の上限として使用してもよく、top_band/2を第1の周波数帯の下限として使用してもよい。前のフレームの第1の周波数帯の下限と現在のフレームの第1の周波数帯の下限の間の差が1kHz未満である場合には、前のフレームの第1の周波数帯の下限を現在のフレームの第1の周波数帯の下限として使用してもよい。これは、帯域幅拡張に対する第1の周波数帯の連続性を保証し、それにより帯域幅拡張の後の連続的な高周波数スペクトルを保証するためのものである。現在のフレームのR_currentをキャッシュして次フレームのR_previousとして使用する。top_limit/2が整数でない場合には、top_limit/2を切り上げるかまたは切り下げてもよい。
帯域幅拡張の間、第1の周波数帯のスペクトル係数top_band/2−top_bandを高周波数帯域last_sfm−high_sfmにコピーする。
以上では、雑音充填を最初に実施する1例を説明した。本発明の当該実施形態はそれには限定されない。具体的には、帯域幅拡張を最初に行い、次にバックグラウンド雑音を拡張された完全な周波数帯で充填してもよい。この雑音充填の方法は以上の例と同様であってもよい。
さらに、高周波数帯域に関して、例えば、前述の範囲last_sfm−high_sfm、周波数帯範囲last_sfm−high_sfm内の充填されたバックグラウンド雑音を、復号化側で推定されたnoise_level値を用いることによってさらに調節してもよい。noise_levelを計算する方法については、式(8)を参照されたい。noise_levelは、復号化されたサブバンド正規化因子を用いることにより、充填された雑音の強度レベルを区別するために取得される。したがって、符号化ビットを送信する必要はない。
高周波数帯域内のバックグラウンド雑音を、以下の方法に従って取得した雑音レベルを用いることによって調整してもよい。
Figure 2016218465
Figure 2016218465
は復号化された正規化因子を示しnoise_CB(k)は雑音コードブックを示す。
このように、低周波数信号を用いることによって帯域幅拡張が高周波数の調波に対して実施され、高周波数の調波信号をより連続的にすることができ、それにより音声品質が保証される。
以上では、第1の周波数帯のスペクトル係数を直接コピーする1例を説明した。本発明によれば、第1の周波数帯域幅のスペクトル係数をまず調節してもよく、調節したスペクトル係数を用いることによって帯域幅拡張を実施して、高周波数帯域の性能をさらに高めることができる。
正規化長をスペクトル平坦性情報と高周波数帯域の信号タイプに従って取得してもよく、第1の周波数帯のスペクトル係数は取得した正規化長に従って正規化され、第1の周波数帯の正規化スペクトル係数は高周波数帯域のスペクトル係数として使用される。
スペクトル平坦性情報は、第1の周波数帯における各サブバンドのピーク平均率、第1の周波数帯に対応する時間領域信号の相関関係、または第1の周波数帯に対応する時間領域信号のゼロ交差率を含んでもよい。以下では、ピーク平均率を詳細な説明の1例として使用する。しかし、本発明の当該実施形態はそのような限定を示唆しない。具体的には、他の平坦性情報を調節に使用してもよい。ピーク平均率は、サブバンドのピーク・エネルギを当該サブバンドの平均エネルギで除したものから計算される。
まず、第1の周波数帯の各サブバンドのピーク平均率を第1の周波数帯のスペクトル係数に従って計算し、当該サブバンドが調波サブバンドであるかどうかをピーク平均率の値と当該サブバンド内の最大ピーク値とに従って判定し、調波サブバンドの数n_bandを蓄積し、最後に、正規化長length_norm_harmをn_bandと高周波数帯域の信号タイプに従って自己適応的に決定する。
Figure 2016218465
ここで、Mは第1の周波数帯のサブバンドの数を示し、αは自己適応的な信号タイプを示し、調波信号の場合はα>1である。
続いて、取得した正規化長を用いることによって第1の周波数帯のスペクトル係数を正規化してもよく、第1の周波数帯の正規化スペクトル係数は高周波数帯域の係数として使用される。
以上は帯域幅拡張性能を改善する1例を示し、帯域幅拡張性能を改善できる他のアルゴリズムを本発明に適用してもよい。
さらに、符号化側と同様に、音声信号のフレームの分類を復号化側でさらに考慮してもよい。このケースでは、本発明の当該実施形態では、様々な分類に関する様々な符号化および復号化のポリシーを使用することができ、それにより様々な信号の符号化および復号化の品質が改善する。音声信号のフレームを分類する方法については、符号化側の方法を参照されたい。ここではその方法は説明しない。
フレーム・タイプを示す分類情報をビット・ストリームから抽出してもよい。調波タイプのフレームに関して、ビット割当ての信号帯域幅を図2に示す実施形態に従って定義してもよい。即ち、フレームのビット割当ての信号帯域幅を当該フレームの帯域幅の一部として定義してもよい。非調波タイプのフレームに関して、ビット割当ての信号帯域幅を図2に示す実施形態に従って、または、先行技術に従って帯域幅の一部に対して定義してもよく、ビット割当ての信号帯域幅を定義しなくともよい。例えば、フレームのビット割当て帯域幅を当該フレームの帯域幅全体として決定してもよい。
周波数帯全体のスペクトル係数を取得した後、再構築された時間領域の音声信号を、周波数逆変換を使用することによって取得してもよい。したがって、本発明の当該実施形態では、非調波信号の品質を維持しつつ調波信号の品質を改善することができる。
図3は、本発明の1実施形態に従う音声信号符号化装置のブロック図である。図3を参照すると、音声信号符号化装置30は、量子化ユニット31、第1の決定ユニット32、第1の割当てユニット33、および符号化ユニット34を備える。
量子化ユニット31は、音声信号の周波数帯を複数のサブバンドに分割し、各サブバンドのサブバンド正規化因子を量子化する。第1の決定ユニット32は、量子化ユニット31により量子化したサブバンド正規化因子に従って、または、量子化したサブバンド正規化因子とビット・レート情報に従って、ビット割当ての信号帯域幅を決定する。第1の割当てユニット33は、第1の決定ユニット32により決定された信号帯域幅内のサブバンドにビットを割り当てる。符号化ユニット34は、サブバンドごとに第1の割当てユニット33により割り当てられたビットに従って音声信号のスペクトル係数を符号化する。
本発明の当該実施形態によれば、符号化と復号化の間に、ビット割当ての信号帯域幅を、量子化したサブバンド正規化因子とビット・レート情報に従って決定する。このように、ビットを集約化することによって、決定された信号帯域幅が効果的に符号化および復号化され、音声品質が改善される。
図4は、本発明の別の実施形態に従う音声信号符号化装置のブロック図である。図4に示す音声信号符号化装置40では、図3に示すものと同様なユニットまたは要素は、同じ参照番号により示してある。
ビット割当ての信号帯域幅を決定するとき、第1の決定ユニット32はビット割当ての信号帯域幅を音声信号の帯域幅の一部に対して定義してもよい。例えば、図4に示すように、第1の決定ユニット32は第1の比率因子決定モジュール321を備えてもよい。第1の比率因子決定モジュール321は、ビット・レート情報に従って比率因子を判定するように構成される。当該比率因子は0より大きく1以下である。あるいは、第1の決定ユニット32は、第1の比率因子決定モジュール321を置き換えるための第2の比率因子決定モジュール322を備えてもよい。第2の比率因子決定モジュール322は、サブバンド正規化因子に従って音声信号の調波クラスまたは雑音レベルを取得し、調波クラスと雑音レベルに従って比率因子を決定する。
さらに、第1の決定ユニット32はさらに、第1の帯域幅決定モジュール323を備える。比率因子を取得した後、第1の帯域幅決定モジュール323は、比率因子と量子化したサブバンド正規化因子に従って帯域幅の一部を決定してもよい。
あるいは、1実施形態では、第1の帯域幅決定モジュール323は、帯域幅の一部を決定するとき、量子化したサブバンド正規化因子に従って各サブバンド内のスペクトル・エネルギを取得し、蓄積したスペクトル・エネルギが全サブバンドの総スペクトル・エネルギに比率因子を乗じた積より大きくなるまで、各サブバンド内のスペクトル・エネルギを低周波数から高周波数まで蓄積し、現在のサブバンドに続く帯域幅を当該帯域幅の一部として使用する。
分類情報を考えると、音声信号符号化装置40が、音声信号のフレームを分類するように構成された分類ユニット35をさらに備えてもよい。例えば、分類ユニット35が、音声信号のフレームが調波タイプに属するか非調波タイプに属するかを判定してもよく、音声信号のフレームが調波タイプに属する場合には、量子化ユニット31をトリガしてもよい。1実施形態では、フレームのタイプをピーク平均率に従って判定してもよい。例えば、分類ユニット35がフレームのサブバンドの全部または一部から各サブバンドのピーク平均率を取得し、ピーク平均率が第1の閾値より大きいサブバンドの数が第2の閾値以上であるとき、当該フレームが調波タイプに属すると判定し、ピーク平均率が第1の閾値より大きいサブバンドの数が第2の閾値より小さいときには、当該フレームが非調波タイプに属すると判定する。このケースでは、第1の決定ユニット32は、当該フレームが調波タイプに属するとみなし、ビット割当ての信号帯域幅をフレームの帯域幅の一部として定義する。
あるいは、別の実施形態では、第1の割当てユニット33がサブバンド正規化因子調整モジュール331およびビット割当てモジュール332を備えてもよい。サブバンド正規化因子調整モジュール331が、決定した信号帯域幅内のサブバンドのサブバンド正規化因子を調節する。ビット割当てモジュール332は、調節したサブバンド正規化因子に従ってビットを割り当てる。例えば、第1の割当てユニット33が帯域幅の一部の中間サブバンドのサブバンド正規化因子を、当該中間サブバンドに続く各サブバンドのサブバンド正規化因子として使用してもよい。
本発明の当該実施形態によれば、符号化と復号化の間に、ビット割当ての信号帯域幅を、量子化したサブバンド正規化因子とビット・レート情報に従って決定する。このように、ビットを集約化することによって、決定された信号帯域幅が効果的に符号化および復号化され、音声品質が改善される。
図5は、本発明の1実施形態に従う音声信号復号化装置のブロック図である。図5に示す音声信号復号化装置50は、取得ユニット51、第2の決定ユニット52、第2の割当てユニット53、復号化ユニット54、拡張ユニット55、および復元ユニット56を備える。
取得ユニット51は、量子化したサブバンド正規化因子を取得する。第2の決定ユニット52は、取得ユニット51によって取得した量子化したサブバンド正規化因子に従って、または、量子化したサブバンド正規化因子とビット・レート情報に従って、ビット割当ての信号帯域幅を決定する。第2の割当てユニット53は、第2の決定ユニット52により決定された信号帯域幅内のサブバンドにビットを割り当てる。復号化ユニット54は、サブバンドごとに第2の割当てユニット53により割り当てたビットに従って正規化スペクトルを復号化する。拡張ユニット55は、復号化ユニット54によって復号化された正規化スペクトルに対して雑音充填および帯域幅拡張を実施して、正規化した全帯域スペクトルを取得する。復元ユニット56は、拡張ユニット55により取得した正規化した全帯域スペクトルとサブバンド正規化因子に従って音声信号のスペクトル係数を取得する。
本発明の当該実施形態によれば、符号化と復号化の間に、ビット割当ての信号帯域幅が、量子化したサブバンド正規化因子とビット・レート情報に従って決定される。このように、ビットを集約化することによって、決定された信号帯域幅が効果的に符号化および復号化され、音声品質が改善される。
図6は、本発明の別の実施形態に従う音声信号復号化装置のブロック図である。図6に示す音声信号復号化装置60では、図5に示すものと同様なユニットまたは要素は、同じ参照番号により示してある。
図4に示す第1の決定ユニット32と同様に、ビット割当ての信号帯域幅を決定するとき、音声信号復号化装置60の第2の決定ユニット52が、ビット割当ての信号帯域幅を音声信号の帯域幅の一部に対して定義してもよい。例えば、第2の決定ユニット52が、ビット・レート情報に従って比率因子を決定するように構成された第3の比率因子決定ユニット521を備えてもよい。当該比率因子は0より大きく1以下である。あるいは、第2の決定ユニット52が、サブバンド正規化因子に従って音声信号の調波クラスまたは雑音レベルを取得し、調波クラスと雑音レベルに従って比率因子を決定するように構成された第4の比率因子決定ユニット522を備えてもよい。
加えて、第2の決定ユニット52はさらに第2の帯域幅決定モジュール523を備える。比率因子を取得した後、第2の帯域幅決定モジュール523は、当該比率因子と量子化したサブバンド正規化因子とに従って帯域幅の一部を判定してもよい。
あるいは、1実施形態では、第2の帯域幅決定モジュール523が、当該帯域幅の一部を決定するとき、量子化したサブバンド正規化因子に従って各サブバンド内のスペクトル・エネルギを取得し、蓄積したスペクトル・エネルギが全サブバンドの総スペクトル・エネルギに比率因子を乗じた積より大きくなるまで、各サブバンド内のスペクトル・エネルギを低周波数から高周波数まで蓄積し、現在のサブバンドに続く帯域幅を当該帯域幅の一部として使用する。
あるいは、1実施形態では、拡張ユニット55がさらに、第1の周波数帯決定モジュール551およびスペクトル係数取得モジュール552を備えてもよい。第1の周波数帯決定モジュール551は、Nを正の整数として、現在のフレームと当該現在のフレームより前のN個のフレームのビット割当てに従って、第1の周波数帯を決定する。スペクトル係数取得モジュール552は、第1の周波数帯のスペクトル係数に従って高周波数帯域のスペクトル係数を取得する。例えば、第1の周波数帯を決定するとき、第1の周波数帯決定モジュール551は、現在のフレームに対して割り当てたビットと前のN個のフレームに割り当てたビットの間の相関関係を取得し、取得した相関関係に従って第1の周波数帯を決定してもよい。
バックグラウンド雑音を調節する必要がある場合には、音声信号復号化装置60がさらに、サブバンド正規化因子に従って雑音レベルを取得し、取得した雑音レベルを使用することにより高周波数帯域内のバックグラウンド雑音を調節するように構成された調整ユニット57を備えてもよい。
あるいは、別の実施形態では、スペクトル係数取得モジュール552が、スペクトル平坦性情報と高周波数帯域の信号タイプに従って正規化長を取得し、取得した正規化長に従って第1の周波数帯のスペクトル係数を正規化し、第1の周波数帯の正規化スペクトル係数を高周波数帯域のスペクトル係数として使用してもよい。当該スペクトル平坦性情報が、第1の周波数帯における各サブバンドのピーク平均率、第1の周波数帯に対応する時間領域信号の相関関係、または第1の周波数帯に対応する時間領域信号のゼロ交差率を含んでもよい。
本発明の当該実施形態によれば、符号化と復号化の間に、ビット割当ての信号帯域幅が、量子化したサブバンド正規化因子とビット・レート情報に従って決定される。このように、ビットを集約化することによって、決定された信号帯域幅が効果的に符号化および復号化され、音声品質が改善される。
本発明の当該実施形態によれば、符号化および復号化システムが音声信号符号化装置および音声信号復号化装置を備えてもよい。
本発明の技術的解決策を、電子ハードウェア、コンピュータ・ソフトウェア、または本発明の当該実施形態で説明した例示的なユニットおよびアルゴリズムステップを組み合わせることによってハードウェアとソフトウェアの組合せとして実装してもよいことは当業者には理解される。諸機能をハードウェアで実装するかソフトウェアで実装するかは当該技術的解決策の具体的な適用事例と設計した限定事項に依存する。当業者は、具体的な適用事例のケースにおいて様々な方法を用いて当該諸機能を実装してもよい。しかし、当該実装形態は本発明の範囲を超えるものではない。
説明を簡単かつ簡潔にするために、以上で説明したシステム、装置、およびユニットの動作プロセスについては、方法の実施形態における対応する説明を参照できることは当業者には明らかに理解され、ここでは詳細には説明しない。
本発明で提供した例示的な実施形態では、開示したシステム、装置、および機器、および方法を他の方式で実装してもよいことは理解される。例えば、装置の実施形態は例示的なものにすぎない。例えば、当該ユニットは論理機能によってのみ分割される。実際の実装形態では、他の分割方式を使用してもよい。例えば、複数のユニットもしくは要素を組み合わせるかもしくはシステムに統合し、または、幾つかの機能を無視するかもしくは実装しなくともよい。さらに、図示または説明した内部結合、直接結合、または通信接続を、幾つかのインタフェース、装置、または電子モードもしくは機械モードのユニット、または他の方式で実装してもよい。
幾つかのコンポーネントとして使用されるユニットが互いに物理的に独立であってもなくてもよい。ユニットとして示した要素が、複数のネットワーク・ユニット上の位置に配置されるかまたは複数のネットワーク・ユニットに展開された、物理ユニットであってもなくてもよい。当該ユニットの一部または全部を必要に応じて選択して、本発明の当該実施形態で開示した技術的解決策を実装してもよい。
さらに、本発明の実施形態における様々な機能ユニットを処理ユニットに統合してもよく、または、物理的な独立ユニットに統合してもよい。または、2つの機能ユニットもしくは3つ以上の機能ユニット1つのユニットに統合してもよい。
諸機能をソフトウェア機能ユニットおよび関数の形態で独立な商用利用製品として実装する場合には、当該諸機能をコンピュータ読取可能記憶媒体に格納してもよい。かかる理解をもとに、当該技術的解決策、または、先行技術への貢献を構成する本発明で開示した技術的解決策、または、当該技術的解決策の一部を本質的にソフトウェア製品の形で具体化してもよい。当該ソフトウェア製品を記憶媒体に格納してもよい。当該ソフトウェア製品は、コンピュータ装置(PC、サーバ、またはネットワーク装置)が本発明の当該実施形態で提供した方法または諸ステップの一部を実行できるようにする幾つかの命令を含む。当該記憶媒体には、プログラム・コードを格納できる様々な媒体、例えば、ROM(read only memory)、RAM(random access memory)、磁気ディスク、またはCD−ROM(compact disc−read only memory)が含まれる。
纏めると、以上は本発明の例示的な実施形態にすぎず、本発明の範囲はこれに限定されるものではない。本発明の技術的範囲に入る当業者に容易想到な変形または置換えは本発明の保護範囲に入る。したがって、本発明の保護範囲は添付の特許請求の範囲に支配される。
31 量子化ユニット
32 第1の決定ユニット
33 第1の割当てユニット
34 符号化ユニット
35 分類ユニット
321 第1の比率因子決定モジュール
322 第2の比率因子決定モジュール
323 第1の帯域幅決定モジュール
331 サブバンド正規化因子調整モジュール
332 ビット割当てモジュール
51 取得ユニット
52 第2の決定ユニット
53 第2の割当てユニット
54 復号化ユニット
55 拡張ユニット
56 復元ユニット
57 調整ユニット
521 第3の比率因子決定ユニット
522 第4の比率因子決定ユニット
523 第2の帯域幅決定モジュール
551 第1の周波数帯決定モジュール
552 スペクトル係数取得モジュール

Claims (14)

  1. 音声信号の周波数帯を複数のサブバンドに分割するステップと、
    各サブバンドのエンベロープを量子化するステップと、
    前記量子化されたエンベロープに従って、または前記量子化されたエンベロープおよびビット・レート情報に従ってビット割当ての信号帯域幅を決定するステップと、
    前記決定された信号帯域幅内の特定のサブバンドの量子化されたエンベロープを調節するステップと、
    前記調節されたエンベロープに従って前記特定のサブバンドにビットを割り当てるステップと、
    前記特定のサブバンドに対して割り当てられた前記ビットに従って前記特定のサブバンドのスペクトル係数を符号化するステップと、
    を含む、音声信号符号化方法。
  2. 前記決定されたビット割当ての信号帯域幅は前記音声信号の帯域幅の一部である、請求項1に記載の方法。
  3. 前記量子化されたエンベロープおよびビット・レート情報に従ってビット割当ての信号帯域幅を決定するステップは、
    前記ビット・レート情報に従って比率因子を決定するステップと、前記比率因子は0より大きくかつ1以下であるステップと、
    前記比率因子および前記量子化されたエンベロープに従って前記ビット割当ての信号帯域幅を決定するステップと、
    を含む、請求項1または2に記載の方法。
  4. 前記比率因子および前記量子化されたエンベロープに従って前記ビット割当ての信号帯域幅を決定するステップは、
    蓄積された量子化されたエネルギが所定数のサブバンドの量子化されたエネルギの合計に前記比率因子を乗じた積より大きくなるまで、各サブバンドの量子化されたエネルギを低周波数から高周波数に蓄積するステップ
    を含み、
    現在のサブバンドに続く帯域幅は前記ビット割当ての信号帯域幅に対応し、前記現在のサブバンドは前記蓄積された量子化されたエネルギが前記積より大きいサブバンドに対応する、
    請求項3に記載の方法。
  5. 前記音声信号が調波タイプに対応するときに実施される、請求項1乃至4の何れか1項に記載の方法。
  6. 前記決定された信号帯域幅内の特定のサブバンドの量子化されたエンベロープを調節するステップは、
    前記特定のサブバンドが中間サブバンドに続くとき、前記ビット割当ての信号帯域幅の前記中間サブバンドの量子化されたエンベロープに等しいように前記特定のサブバンドの前記量子化されたエンベロープを調節するステップ
    を含む、請求項1乃至5の何れか1項に記載の方法。
  7. 前記中間サブバンドの前記量子化されたエンベロープに等しいように前記特定のサブバンドの前記量子化されたエンベロープを調節する前に、前記方法はさらに、
    前記ビット割当ての信号帯域幅内の前記サブバンドの前記量子化されたエンベロープに従って、前記ビット割当ての信号帯域幅内のサブバンドを再順序付けするステップ
    を含み、
    前記中間サブバンドおよび前記特定のサブバンドは再順序付けされたサブバンドである、
    請求項6に記載の方法。
  8. 音声信号の周波数帯を複数のサブバンドに分割し、各サブバンドのエンベロープを量子化するように構成された量子化ユニットと、
    前記量子化されたエンベロープに従って、または前記量子化されたエンベロープおよびビット・レート情報に従ってビット割当ての信号帯域幅を決定するように構成された第1の決定ユニットと、
    前記決定された信号帯域幅内の特定のサブバンドの量子化されたエンベロープを調節するように構成されたサブバンドエンベロープ調節ユニットと、
    前記調節されたエンベロープに従って前記特定のサブバンドにビットを割り当てるように構成された第1の割当てユニットと、
    前記特定のサブバンドに対して割り当てられた前記ビットに従って前記特定のサブバンドのスペクトル係数を符号化するように構成された符号化ユニットと、
    を備える、音声信号符号化装置。
  9. 前記決定されたビット割当ての信号帯域幅は前記音声信号の帯域幅の一部である、請求項8に記載の装置。
  10. 前記第1の決定ユニットは、
    前記ビット・レート情報に従って比率因子を決定するように構成された第1の比率因子決定モジュールであって、前記比率因子は0より大きくかつ1以下である、第1の比率因子決定モジュールと、
    前記比率因子および前記量子化されたエンベロープに従ってビット割当ての信号帯域幅を決定するように構成された第1の帯域幅決定モジュールと、
    を備える、請求項8または9に記載の装置。
  11. 前記第1の帯域幅決定モジュールは、蓄積された量子化されたエネルギが所定数のサブバンドの量子化されたエネルギの合計に前記比率因子を乗じた積より大きくなるまで、各サブバンドの量子化されたエネルギを低周波数から高周波数に蓄積するように構成され、現在のサブバンドに続く帯域幅は前記ビット割当ての信号帯域幅に対応し、前記現在のサブバンドは前記蓄積された量子化されたエネルギが前記積より大きいサブバンドに対応する、請求項10に記載の装置。
  12. 前記量子化ユニットは、前記音声信号が調波タイプに対応するとき、音声信号の周波数帯を複数のサブバンドに分割し、各サブバンドのエンベロープを量子化するように構成された、請求項8乃至11の何れか1項に記載の装置。
  13. 前記サブバンドエンベロープ調節ユニットは、前記特定のサブバンドが中間サブバンドに続くとき、前記ビット割当ての信号帯域幅の前記中間サブバンドの量子化されたエンベロープに等しいように前記特定のサブバンドの前記量子化されたエンベロープを調節するように構成された、請求項8乃至12の何れか1項に記載の装置。
  14. 前記装置は、前記ビット割当ての信号帯域幅内の前記サブバンドの前記量子化されたエンベロープに従って、前記ビット割当ての信号帯域幅内のサブバンドを再順序付けするように構成されたユニットをさらに備え、前記中間サブバンドおよび前記特定のサブバンドは再順序付けされたサブバンドである、請求項13に記載の装置。
JP2016153513A 2011-07-13 2016-08-04 音声信号の符号化と復号化の方法および装置 Active JP6321734B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2011101960353A CN102208188B (zh) 2011-07-13 2011-07-13 音频信号编解码方法和设备
CN201110196035.3 2011-07-13

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014519382A Division JP5986199B2 (ja) 2011-07-13 2012-03-22 音声信号の符号化と復号化の方法および装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018072226A Division JP6702593B2 (ja) 2011-07-13 2018-04-04 音声信号の符号化と復号化の方法および装置

Publications (2)

Publication Number Publication Date
JP2016218465A true JP2016218465A (ja) 2016-12-22
JP6321734B2 JP6321734B2 (ja) 2018-05-09

Family

ID=44696990

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2014519382A Active JP5986199B2 (ja) 2011-07-13 2012-03-22 音声信号の符号化と復号化の方法および装置
JP2016153513A Active JP6321734B2 (ja) 2011-07-13 2016-08-04 音声信号の符号化と復号化の方法および装置
JP2018072226A Active JP6702593B2 (ja) 2011-07-13 2018-04-04 音声信号の符号化と復号化の方法および装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2014519382A Active JP5986199B2 (ja) 2011-07-13 2012-03-22 音声信号の符号化と復号化の方法および装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2018072226A Active JP6702593B2 (ja) 2011-07-13 2018-04-04 音声信号の符号化と復号化の方法および装置

Country Status (8)

Country Link
US (4) US9105263B2 (ja)
EP (2) EP3174049B1 (ja)
JP (3) JP5986199B2 (ja)
KR (3) KR101602408B1 (ja)
CN (1) CN102208188B (ja)
ES (2) ES2718400T3 (ja)
PT (2) PT3174049T (ja)
WO (1) WO2012149843A1 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102208188B (zh) 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
CN106409299B (zh) 2012-03-29 2019-11-05 华为技术有限公司 信号编码和解码的方法和设备
WO2013147666A1 (en) * 2012-03-29 2013-10-03 Telefonaktiebolaget L M Ericsson (Publ) Transform encoding/decoding of harmonic audio signals
CN103544957B (zh) 2012-07-13 2017-04-12 华为技术有限公司 音频信号的比特分配的方法和装置
CN103778918B (zh) 2012-10-26 2016-09-07 华为技术有限公司 音频信号的比特分配的方法和装置
CN105976824B (zh) 2012-12-06 2021-06-08 华为技术有限公司 信号解码的方法和设备
KR102200643B1 (ko) * 2012-12-13 2021-01-08 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법
CN103915097B (zh) * 2013-01-04 2017-03-22 中国移动通信集团公司 一种语音信号处理方法、装置和系统
PT2951818T (pt) * 2013-01-29 2019-02-25 Fraunhofer Ges Forschung Conceito de preenchimento de ruído
EP3399763A1 (en) * 2013-05-24 2018-11-07 Immersion Corporation Method and system for haptic data encoding
CN104217727B (zh) 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
US9489959B2 (en) 2013-06-11 2016-11-08 Panasonic Intellectual Property Corporation Of America Device and method for bandwidth extension for audio signals
CN104282308B (zh) * 2013-07-04 2017-07-14 华为技术有限公司 频域包络的矢量量化方法和装置
CN110867190B (zh) * 2013-09-16 2023-10-13 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
ES2742420T3 (es) 2013-12-02 2020-02-14 Huawei Tech Co Ltd Método y aparato de codificación
EP2881943A1 (en) * 2013-12-09 2015-06-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal with low computational resources
MX361028B (es) * 2014-02-28 2018-11-26 Fraunhofer Ges Forschung Dispositivo de decodificación, dispositivo de codificación, método de decodificación, método de codificación, dispositivo de terminal y dispositivo de estación de base.
CN110808056B (zh) 2014-03-14 2023-10-17 瑞典爱立信有限公司 音频编码方法和装置
KR102653849B1 (ko) * 2014-03-24 2024-04-02 삼성전자주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
KR102121642B1 (ko) * 2014-03-31 2020-06-10 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 부호화 장치, 복호 장치, 부호화 방법, 복호 방법, 및 프로그램
CN105336339B (zh) 2014-06-03 2019-05-03 华为技术有限公司 一种语音频信号的处理方法和装置
CN106448688B (zh) 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
EP2980792A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
JP2016038435A (ja) * 2014-08-06 2016-03-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP6457552B2 (ja) * 2014-11-27 2019-01-23 日本電信電話株式会社 符号化装置、復号装置、これらの方法及びプログラム
KR101701623B1 (ko) * 2015-07-09 2017-02-13 라인 가부시키가이샤 VoIP 통화음성 대역폭 감소를 은닉하는 시스템 및 방법
EP3208800A1 (en) 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
CN108630212B (zh) * 2018-04-03 2021-05-07 湖南商学院 非盲带宽扩展中高频激励信号的感知重建方法与装置
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
EP3751567B1 (en) 2019-06-10 2022-01-26 Axis AB A method, a computer program, an encoder and a monitoring device
CN112289328A (zh) * 2020-10-28 2021-01-29 北京百瑞互联技术有限公司 一种确定音频编码码率的方法及系统
CN112669860B (zh) * 2020-12-29 2022-12-09 北京百瑞互联技术有限公司 一种增加lc3音频编解码有效带宽的方法及装置
CN113724716B (zh) * 2021-09-30 2024-02-23 北京达佳互联信息技术有限公司 语音处理方法和语音处理装置
WO2024080597A1 (ko) * 2022-10-12 2024-04-18 삼성전자주식회사 오디오 비트스트림을 적응적으로 처리하는 전자 장치, 방법, 및 비일시적 컴퓨터 판독가능 저장 매체

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11195995A (ja) * 1997-12-26 1999-07-21 Hitachi Ltd 画像音声圧縮伸長装置
JP2001267928A (ja) * 2000-03-17 2001-09-28 Casio Comput Co Ltd オーディオデータ圧縮装置、及び記憶媒体
JP2002023799A (ja) * 2000-07-05 2002-01-25 Nec Corp 音声符号化装置及びそれに用いる心理聴覚分析方法
JP2002189499A (ja) * 2000-12-20 2002-07-05 Yamaha Corp ディジタルオーディオ信号圧縮方法および圧縮装置
JP2003280695A (ja) * 2002-03-19 2003-10-02 Sanyo Electric Co Ltd 音声圧縮方法および音声圧縮装置
WO2009081568A1 (ja) * 2007-12-21 2009-07-02 Panasonic Corporation 符号化装置、復号装置および符号化方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69231369T2 (de) * 1991-09-30 2001-03-29 Sony Corp Verfahren und Einrichtung zur Audiodatenkompression
JP3173218B2 (ja) * 1993-05-10 2001-06-04 ソニー株式会社 圧縮データ記録方法及び装置、圧縮データ再生方法、並びに記録媒体
JP3283413B2 (ja) * 1995-11-30 2002-05-20 株式会社日立製作所 符号化復号方法、符号化装置および復号装置
JPH10240297A (ja) * 1996-12-27 1998-09-11 Mitsubishi Electric Corp 音響信号符号化装置
JP3802219B2 (ja) * 1998-02-18 2006-07-26 富士通株式会社 音声符号化装置
JP4193243B2 (ja) * 1998-10-07 2008-12-10 ソニー株式会社 音響信号符号化方法及び装置、音響信号復号化方法及び装置並びに記録媒体
JP2000165251A (ja) 1998-11-27 2000-06-16 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置及びそれを実現したマイクロホン
JP2001134295A (ja) * 1999-08-23 2001-05-18 Sony Corp 符号化装置および符号化方法、記録装置および記録方法、送信装置および送信方法、復号化装置および符号化方法、再生装置および再生方法、並びに記録媒体
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
US20060172862A1 (en) 2003-06-05 2006-08-03 Flexiped As Physical exercise apparatus and footrest platform for use with the apparatus
ATE371926T1 (de) 2004-05-17 2007-09-15 Nokia Corp Audiocodierung mit verschiedenen codierungsmodellen
KR100657916B1 (ko) 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
US8036394B1 (en) * 2005-02-28 2011-10-11 Texas Instruments Incorporated Audio bandwidth expansion
KR100851970B1 (ko) 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
WO2008126382A1 (ja) 2007-03-30 2008-10-23 Panasonic Corporation 符号化装置および符号化方法
CN101325059B (zh) * 2007-06-15 2011-12-21 华为技术有限公司 语音编解码收发方法及装置
JP5539203B2 (ja) * 2007-08-27 2014-07-02 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 改良された音声及びオーディオ信号の変換符号化
ES2403410T3 (es) * 2007-08-27 2013-05-17 Telefonaktiebolaget L M Ericsson (Publ) Frecuencia de transición adaptativa entre el rellenado con ruido y la extensión del ancho de banda
EP2410522B1 (en) * 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, method for encoding an audio signal and computer program
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US20100223061A1 (en) * 2009-02-27 2010-09-02 Nokia Corporation Method and Apparatus for Audio Coding
US9424857B2 (en) 2010-03-31 2016-08-23 Electronics And Telecommunications Research Institute Encoding method and apparatus, and decoding method and apparatus
CN102208188B (zh) 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11195995A (ja) * 1997-12-26 1999-07-21 Hitachi Ltd 画像音声圧縮伸長装置
JP2001267928A (ja) * 2000-03-17 2001-09-28 Casio Comput Co Ltd オーディオデータ圧縮装置、及び記憶媒体
JP2002023799A (ja) * 2000-07-05 2002-01-25 Nec Corp 音声符号化装置及びそれに用いる心理聴覚分析方法
JP2002189499A (ja) * 2000-12-20 2002-07-05 Yamaha Corp ディジタルオーディオ信号圧縮方法および圧縮装置
JP2003280695A (ja) * 2002-03-19 2003-10-02 Sanyo Electric Co Ltd 音声圧縮方法および音声圧縮装置
WO2009081568A1 (ja) * 2007-12-21 2009-07-02 Panasonic Corporation 符号化装置、復号装置および符号化方法

Also Published As

Publication number Publication date
KR20160149326A (ko) 2016-12-27
US20130018660A1 (en) 2013-01-17
EP3174049B1 (en) 2019-01-09
EP2613315A4 (en) 2013-07-10
US11127409B2 (en) 2021-09-21
PT3174049T (pt) 2019-04-22
ES2612516T3 (es) 2017-05-17
KR20140005358A (ko) 2014-01-14
KR101765740B1 (ko) 2017-08-07
US20200135219A1 (en) 2020-04-30
ES2718400T3 (es) 2019-07-01
US20180261234A1 (en) 2018-09-13
US9984697B2 (en) 2018-05-29
PT2613315T (pt) 2016-12-22
US9105263B2 (en) 2015-08-11
EP2613315B1 (en) 2016-11-02
JP6702593B2 (ja) 2020-06-03
EP3174049A1 (en) 2017-05-31
JP2018106208A (ja) 2018-07-05
EP2613315A1 (en) 2013-07-10
US10546592B2 (en) 2020-01-28
KR101690121B1 (ko) 2016-12-27
JP2014523549A (ja) 2014-09-11
WO2012149843A1 (zh) 2012-11-08
JP5986199B2 (ja) 2016-09-06
KR20160028511A (ko) 2016-03-11
KR101602408B1 (ko) 2016-03-10
CN102208188B (zh) 2013-04-17
JP6321734B2 (ja) 2018-05-09
CN102208188A (zh) 2011-10-05
US20150302860A1 (en) 2015-10-22

Similar Documents

Publication Publication Date Title
JP6321734B2 (ja) 音声信号の符号化と復号化の方法および装置
JP6351783B2 (ja) オーディオ信号のビットを割り当てる方法及び装置
JP6351770B2 (ja) オーディオ信号中でビットを割り当てる方法及び装置
KR101803410B1 (ko) 인코딩 방법 및 장치
JP2005338850A (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
AU2014286765B2 (en) Signal encoding and decoding methods and devices

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180405

R150 Certificate of patent or registration of utility model

Ref document number: 6321734

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250