JP6739604B2 - 符号化方法、装置、プログラム及び記録媒体 - Google Patents
符号化方法、装置、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP6739604B2 JP6739604B2 JP2019140886A JP2019140886A JP6739604B2 JP 6739604 B2 JP6739604 B2 JP 6739604B2 JP 2019140886 A JP2019140886 A JP 2019140886A JP 2019140886 A JP2019140886 A JP 2019140886A JP 6739604 B2 JP6739604 B2 JP 6739604B2
- Authority
- JP
- Japan
- Prior art keywords
- encoding
- unit
- acoustic signal
- frequency domain
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 405
- 238000001228 spectrum Methods 0.000 claims description 112
- 238000012545 processing Methods 0.000 claims description 73
- 230000003044 adaptive effect Effects 0.000 description 61
- 238000010606 normalization Methods 0.000 description 21
- 230000006978 adaptation Effects 0.000 description 13
- 238000013139 quantization Methods 0.000 description 12
- 230000001131 transforming effect Effects 0.000 description 11
- 230000005236 sound signal Effects 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000005764 inhibitory process Effects 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0016—Codebook for LPC parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Spectroscopy & Molecular Physics (AREA)
Description
以下、本発明の第一実施形態について説明する。第一実施形態は、周波数領域での符号化処理を行う複数の異なる符号化処理の何れかでフレーム毎の入力音響信号に対応する周波数領域の係数列を符号化する構成において、入力音響信号または/および入力音響信号に対応する周波数領域の係数列の高域成分のエネルギーが小さい場合にのみ、符号化処理の切り替えを行う構成である。入力音響信号の高域成分のエネルギーとは、入力音響信号の高域成分のエネルギーの大きさそのものや、入力音響信号に占める高域成分のエネルギーの大きさなどである。
符号化装置300の構成を図1に示す。符号化装置300は、周波数領域変換部110、決定部380、第一符号化部101、第二符号化部201を備えている。第一符号化部101は、例えば、線形予測分析符号化部120、スペクトル包絡係数列生成部130、包絡正規化部140、正規化係数符号化部150を備えている。第二符号化部201は、例えば、領域分割部220、平均対数エネルギー差分可変長符号化部240、係数符号化部250を備えている。符号化装置300には、所定の時間区間であるフレーム単位で、時間領域の音声音響ディジタル信号(以下、入力音響信号とする。)が入力され、フレームごとに以下の処理が行われる。以下では、現在の入力音響信号がf番目のフレームであるとして、各部の具体処理を説明する。f番目のフレームの入力音響信号をxf(n) (n=1, ..., Nt)とする。ここでNtはフレームあたりのサンプル数である。
周波数領域変換部110は、入力音響信号xf(n) (n=1, ..., Nt)を周波数領域の係数列、例えば、N点のMDCT係数列Xf(n) (n=1, ..., N)に変換して出力する(ステップS110)。ただし、Nは、周波数領域でのサンプル数であり、正の整数である。周波数領域への変換は、MDCTではない公知の変換方法により行ってもよい。
決定部380は、前フレームの入力音響信号の高域成分のエネルギーの大きさと、現フレームの入力音響信号の高域成分のエネルギーの大きさとの少なくとも何れかが所定の閾値より小さい場合に、前フレームと異なる符号化処理を現フレームの符号化処理として決定することを可能とする(ステップS380)。
切替可否判定部381は、前フレームの入力音響信号の高域成分のエネルギーの大きさと、現フレームの入力音響信号の高域成分のエネルギーの大きさとの少なくとも何れかが所定の閾値より小さい場合には、切り替え可、すなわち、前フレームの周波数領域の係数列を符号化した符号化処理と異なる符号化処理で現フレームの周波数領域の係数列を符号化することを可能とする、と判定し、そうでない場合には切り替え不可、すなわち、前フレームの周波数領域の係数列を符号化した符号化処理と異なる符号化処理で現フレームの周波数領域の係数列を符号化することを許さない、と判定し、判定結果を出力する(ステップS381)。
適合符号化処理判定部382は、現フレームの入力音響信号に対応する周波数領域の係数列が、第一符号化部101の符号化処理と第二符号化部201の符号化処理の何れに適しているかを判定し、判定結果を出力する(ステップS382)。
切替決定部383は、切替可否判定部381が得た切り替え可否の情報と、適合符号化処理判定部382が得た何れの符号化処理が適合するかの情報と、から、現フレームの周波数領域の係数列を第一符号化部101で符号化するか第二符号化部201で符号化するかを決定し、決定した符号化処理を特定可能な符号である切替符号を出力する(ステップS383)。出力した切替符号は復号装置400に入力される。ここで、切替決定部383は、切り替え不可である場合には、現フレームが適合する符号化処理が何れの符号化処理であったとしても、前フレームと同じ符号化処理で現フレームの周波数領域の係数列を符号化することを決定する。また、切り替え可である場合には、前フレームの符号化処理が何れの符号化処理であったとしても、現フレームが適合する符号化処理で現フレームの周波数領域の係数列を符号化することを決定する。ただし、切り替え可である場合であっても、現フレームが適合する符号化処理ではなく前フレームと同じ符号化処理で現フレームの周波数領域の係数列を符号化すると決定する場合が含まれていてもよい。
切替部384は、切替決定部383で決定した符号化処理で現フレームのMDCT係数列Xf(n) (n=1, ..., N)が符号化されるように、周波数領域変換部110が出力したMDCT係数列Xf(n) (n=1, ..., N)を第一符号化部101または第二符号化部201に入力するように制御を行う(ステップS384)。また、現フレームのMDCT係数列Xf(n) (n=1, ..., N)の符号化のために、現フレームの入力音響信号xf(n) (n=1, ..., Nt)も必要である場合には、現フレームの入力音響信号xf(n) (n=1, ..., Nt)も第一符号化部101または/および第二符号化部201に入力する。
第一符号化部101と第二符号化部201は、共に周波数領域の係数列を符号化する符号化処理を行うものであるが、行う符号化処理は互いに異なる。すなわち、第一符号化部101は、第二符号化部201とは異なる符号化処理により現フレームの周波数領域の係数列を符号化し、得られた符号である第一符号を出力する(ステップS101)。また、第二符号化部201は、第一符号化部101とは異なる符号化処理により現フレームの周波数領域の係数列を符号化し、得られた符号である第二符号を出力する(ステップS201)。例えば、第一符号化部101は線形予測係数に変換可能な係数に基づくスペクトル包絡を用いた符号化処理を行い、第二符号化部201は区分した周波数領域ごとの係数の平均エネルギーを用いた符号化処理を行う。
第一符号化部101は、線形予測分析符号化部120、スペクトル包絡係数列生成部130、包絡正規化部140、正規化係数符号化部150を備えている。第一符号化部101には、現フレームのMDCT係数列Xf(n) (n=1, ..., N)と入力音響信号x f(n) (n=1, ..., Nt)が入力され、線形予測係数符号CLfと正規化係数符号CNfを含む第一符号が出力される。出力された第一符号は復号装置400に入力される。なお、第一符号化部101は、非特許文献1に記載された符号化処理から入力音響信号を周波数領域の係数列に変換する部分を除いたものである。すなわち、周波数領域変換部110と第一符号化部101とで行われる符号化処理は、非特許文献1に記載された符号化処理と同様である。
線形予測分析符号化部120は、入力音響信号xf(n) (n=1, ..., Nt)を線形予測分析して線形予測係数に変換可能な係数を求め、線形予測係数に変換可能な係数を符号化して、線形予測係数符号CLfと、線形予測係数符号CLfに対応する量子化された線形予測係数に変換可能な係数と、を得て出力する(ステップS120)。線形予測係数に変換可能な係数とは、線形予測係数そのもの、PARCOR係数(偏自己相関係数)またはLSPパラメータなどである。
スペクトル包絡係数列生成部130は、線形予測分析符号化部120が得た量子化された線形予測係数に変換可能な係数に対応するパワースペクトル包絡係数列Wf(n) (n=1, ..., N)を得て出力する(ステップS130)。
包絡正規化部140は、スペクトル包絡係数列生成部130が得たパワースペクトル包絡係数列Wf(n) (n=1, ..., N)を用いて、周波数領域変換部110が得たMDCT係数列の各係数Xf(n) (n=1, ..., N)を正規化し、正規化MDCT係数列XNf(n) (n=1, ..., N)を出力する(ステップS140)。すなわち、MDCT係数列Xf(n) (n=1, ..., N)の各係数をパワースペクトル包絡係数列Wf(n) (n=1, ..., N)に含まれる対応する係数で除した値による系列を正規化MDCT係数列XNf(n) (n=1, ..., N)として求める。
正規化係数符号化部150は、包絡正規化部140が得た正規化MDCT係数列XNf(n) (n=1, ..., N)を符号化して正規化係数符号CNfを得る(ステップS150)。
また、第二符号化部201は、領域分割部220、平均対数エネルギー差分可変長符号化部240、係数符号化部250を備えている。第二符号化部201には、現フレームのMDCT係数列Xf(n) (n=1, ..., N)が入力され、平均エネルギー符号CAfと係数符号CDfを含む第二符号が出力される。出力された第二符号は復号装置400に入力される。なお、第二符号化部201は、非特許文献2に記載された符号化処理から入力音響信号を周波数領域の係数列に変換する部分を除いたものである。すなわち、周波数領域変換部110と第二符号化部201とで行われる符号化処理は、非特許文献2に記載された符号化処理と同様である。
領域分割部220は、周波数領域変換部110が得たMDCT係数列Xf(n) (n=1, ..., N)を低域の部分領域ほどサンプル数が少なく高域の部分領域ほどサンプル数が多い複数の部分領域に分ける(ステップS220)。部分領域の個数をRとし、各部分領域に含まれるサンプル数をS1, ..., SRとすると、MDCT係数列の各係数Xf(n) (n=1, ..., N)は、最低域のサンプルから順に各部分領域に、XBf(1)(n) (n=1, ..., S1), XBf(2)(n) (n=1, ..., S2), ..., XBf(R)(n) (n=1, ..., SR)と分けられることになる。RおよびS1, ..., SRは正の整数である。S1, ..., SRは、S1≦S2≦... ≦SRの関係を満たすとする。XBf(1)(n) (n=1, ..., S1), XBf(2)(n) (n=1, ..., S2), ..., XBf(R)(n) (n=1, ..., SR)を部分領域係数列と呼ぶ。
平均対数エネルギー差分可変長符号化部240は、領域分割部220が得た各部分領域について、部分領域に含まれる係数の平均エネルギーを求め、部分領域の平均エネルギーそれぞれについて対数軸で量子化し、隣接する部分領域の平均エネルギーの対数軸での量子化値との差を可変長符号化し、平均エネルギー符号CAfを得る(ステップS240)。
係数符号化部250は、領域分割部220が得た部分領域係数列XBf(1)(n) (n=1, ..., S1), XBf(2)(n) (n=1, ..., S2), ..., XBf(R)(n) (n=1, ..., SR)の各係数を、平均対数エネルギー差分可変長符号化部240が得た平均エネルギーの対数領域での量子化値Q(log(EXB (r)) (r=1, ..., R)を用いて、例えばスカラ量子化して、係数符号CDfを得る(ステップS250)。このスカラ量子化に用いる量子化ステップ幅や量子化ビット数は、領域分割部220が得た部分領域係数列XBf(1)(n) (n=1, ..., S1), XBf(2)(n) (n=1, ..., S2), ..., XBf(R)(n) (n=1, ..., SR)ごとに平均エネルギーの量子化値Q(EXB(r)) (r=1, ..., R)から決定する。なお、平均エネルギーの量子化値Q(EXB(r)) (r=1, ..., R)は、平均エネルギーの対数領域での量子化値Q(log(EXB (r)) (r=1, ..., R)を式(7)により線形領域の値とすることにより求まる。
復号装置400の構成を図2に示す。復号装置400は、切替部480、第一復号部401及び第二復号部501を備えている。第一復号部401は、例えば、線形予測復号部420、スペクトル包絡係数列生成部430、正規化係数復号部450および包絡逆正規化部440を備えている。第二復号部501は、例えば、平均対数エネルギー差分可変長復号部540及び係数復号部550を備えている。復号装置400には、所定の時間区間であるフレーム単位で、切替符号と入力符号を含む符号が入力される。第一符号化部101で符号化されたフレームの場合には入力符号は線形予測係数符号CLfと正規化係数符号CNfを含み、第二符号化部201で符号化されたフレームの場合には入力符号は平均エネルギー符号CAfと係数符号CDfを含む。以下では、現在処理の対象となっているフレームがf番目のフレームであるとして、各部の具体処理を説明する。
切替部480は、入力された切替符号から、現フレームの入力符号を第一復号部401で復号するか第二復号部501で復号するかを決定し、決定した復号処理を行えるよう、入力符号を第一復号部401または第二復号部501に入力するよう制御を行う(ステップS480)。
第一復号部401は、線形予測復号部420、スペクトル包絡係数列生成部430、正規化係数復号部450、包絡逆正規化部440を備えている。第一復号部401には、現フレームの線形予測係数符号CLfと正規化係数符号CNfが入力され、周波数領域の係数列Xf(n) (n=1, ..., N)が出力される。
線形予測復号部420は、入力符号に含まれる線形予測係数符号CLfを復号して復号された線形予測係数に変換可能な係数を得る。復号された線形予測係数に変換可能な係数は、符号化装置300の線形予測分析符号化部120が得た量子化された線形予測係数に変換可能な係数と同じものである。また、線形予測復号部420が行う復号処理は、符号化装置300の線形予測分析符号化部120は行う符号化処理と対応するものである。なお、線形予測係数に変換可能な係数とは、線形予測係数そのもの、PARCOR係数(偏自己相関係数)またはLSPパラメータなどである。
スペクトル包絡係数列生成部430は、線形予測復号部420が得た復号された線形予測係数に変換可能な係数に対応するパワースペクトル包絡係数列Wf(n) (n=1, ..., N)を得て出力する。ただし、Nは、周波数領域でのサンプル数であり、正の整数である。
正規化係数復号部450は、入力された正規化係数符号CNfを復号して復号正規化MDCT係数列^XNf(n) (n=1, ..., N)を得る(ステップS450)。ここで、正規化係数復号部450が行う復号処理は、符号化装置300の正規化係数符号化部150が行う符号化処理と対応するものである。すなわち、符号化装置300でMDCTではない周波数領域への変換処理が行われた場合には、^XNf(n) (n=1, ..., N)は、符号化装置300の周波数領域への変換処理に対応するMDCTではない領域の周波数領域の係数列である。なお、復号正規化MDCT係数列^XNf(n) (n=1, ..., N)は、符号化装置300の正規化係数符号化部150に入力された正規化MDCT係数列XNf(n) (n=1, ..., N)に対応するものであるが、それぞれの係数には量子化誤差が含まれるため、XNf(n) に"^"を付した^XNf(n)としてある。
包絡逆正規化部440は、スペクトル包絡係数列生成部430が得たパワースペクトル包絡係数列Wf(n) (n=1, ..., N)を用いて、正規化係数復号部450が得た復号正規化MDCT係数列の各係数^XNf(n) (n=1, ..., N)を逆正規化し、復号MDCT係数列^XNf(n) (n=1, ..., N)を出力する(ステップS440)。すなわち、復号正規化MDCT係数列XNf(n) (n=1, ..., N)の各係数とパワースペクトル包絡係数列Wf(n) (n=1, ..., N) の各係数とを対応する係数同士を乗算して得られる値による系列を復号MDCT係数列^Xf(n) (n=1, ..., N)として求める。
第二復号部501は、平均対数エネルギー差分可変長復号部540、係数復号部550を備えている。第二復号部501には、現フレームの平均エネルギー符号CAfと係数符号CDfが入力され、周波数領域の係数列Xf(n) (n=1, ..., N) が出力される。
平均対数エネルギー差分可変長復号部540は、入力された平均エネルギー符号CAfを復号して部分領域の復号平均エネルギーQ(EXB(r)) (r=1, ..., R)を得る(ステップS540)。なお、復号平均エネルギーは、符号化装置300の係数符号化部250で得られる平均エネルギーの量子化値と同じものであるので、同じ記号Q(EXB(r))を用いている。
係数復号部550は、平均対数エネルギー差分可変長復号部540で得られた復号平均エネルギーQ(EXB(r)) (r=1, ..., R)を用いて、係数符号CDfを復号して復号係数列^Xf (n) (n=1, ..., N)を得る(ステップS550)。ここで、係数復号部550が行う復号処理は、符号化装置300の係数符号化部250が行う符号化処理と対応するものである。入力された係数符号CDfは、符号化装置300の係数符号化部250で各部分領域係数列の各係数を可変長符号化して得られたものであるので、係数符号CDfのうちの各係数に対応する符号部分の符号長は自動的に復元できる。また、平均対数エネルギー差分可変長復号部540で得られた復号平均エネルギーQ(EXB(r))から各領域の量子化ステップ幅が求まる。これらにより、係数符号CDfから周波数領域の復号MDCT係数列^Xf(n) (n=1, ..., N)を得ることができる。
時間領域変換部410は、N点の復号MDCT係数列^Xf(n) (n=1, ..., N)を時間領域に変換して復号音響信号^xf(n) (n=1, ..., Nt)を得て出力する(ステップS410)。ただし、Ntは、時間領域でのサンプル数であり、正の整数である。符号化装置300の周波数領域変換部110でMDCTではない周波数領域への変換が行われた場合には、その変換処理に対応する時間領域への変換処理を行えばよい。
第一実施形態では、入力音響信号の高域成分のエネルギーの大きさが大きい場合には必ず前フレームの符号化処理と同じ符号化処理で現フレームの周波数領域の係数列を符号化していたが、第二実施形態は、入力音響信号の高域成分のエネルギーの大きさが大きい場合であっても、入力音響信号の高域成分が疎である状態次第では、前フレームの符号化処理と異なる符号化処理で現フレームの周波数領域の係数列を符号化することを許すものである。
切替可否判定部381は、前フレームの入力音響信号の高域成分のエネルギーの大きさと、現フレームの入力音響信号の高域成分のエネルギーの大きさとの少なくとも何れかが所定の閾値より小さい場合には、切り替え可、すなわち、前フレームの周波数領域の係数列を符号化した符号化処理と異なる符号化処理で現フレームの周波数領域の係数列を符号化することを可能とする、と判定し、判定結果を出力する(ステップS381)。上記以外の場合には、切り替え可であるとも切り替え不可とも判定せず、何れとも判定しなかったことを表す情報を判定結果として出力するか、判定結果を出力しない。入力音響信号の高域成分のエネルギーの大きさとしては、高域のエネルギーを用いてもよいし、全エネルギーに対する高域のエネルギーの割合を用いてもよいのは第一実施形態と同様である。
切替決定部383は、切替可否判定部381が得た切り替え可否の情報と、適合符号化処理判定部382が得た何れの符号化処理が適合するかの情報と、入力音響信号から求まる入力音響信号の高域成分が疎であるか否かの状態とから、現フレームの周波数領域の係数列を第一符号化部101で符号化するか第二符号化部201で符号化するかを決定し、決定した符号化処理を特定可能な符号である切替符号を出力する(ステップS383B)。出力した切替符号は復号装置400に入力される。
第一実施形態及び第二実施形態では1つの閾値を用いて現フレームが適している符号化処理を判定していたが、第三実施形態は2つの閾値を用いた判定を行うものである。
適合符号化処理判定部382は、図7に例示する各ステップの処理を行う。適合符号化処理判定部382は、現フレームの入力音響信号に対応する周波数領域の係数列が、第一符号化部101の符号化処理と第二符号化部201の符号化処理の何れに適しているか、言い換えれば、何れの符号化処理を行ってもよいものであるか、を判定し、判定結果を出力する(ステップS382A)。
切替決定部383は、切替可否判定部381が得た切り替え可否の情報と、適合符号化処理判定部382が得た何れのまたは双方の符号化処理が適合するかの情報すなわち適合する符号化処理の情報(適合情報)と、から、現フレームの周波数領域の係数列を第一符号化部101で符号化するか第二符号化部201で符号化するかを決定し、決定した符号化処理を特定可能な符号である切替符号を出力する(ステップS383A)。出力した切替符号は復号装置400に入力される。ここで、切替決定部383は、切り替え不可である場合には、現フレームが適合する符号化処理が何れの符号化処理であったとしても、前フレームと同じ符号化処理で現フレームの周波数領域の係数列を符号化することを決定する。また、切替決定部383は、切り替え可であり、かつ、現フレームが第一符号化部101の符号化処理と第二符号化部201の符号化処理の何れの符号化処理も適合する場合には、前フレームと同じ符号化処理で現フレームの周波数領域の係数列を符号化することを決定する。また、切替決定部383は、切り替え可であり、かつ、現フレームが第一符号化部101の符号化処理と第二符号化部201の符号化処理の何れか一方に適合する場合には、前フレームの符号化処理が何れの符号化処理であったとしても、現フレームが適合する符号化処理で現フレームの周波数領域の係数列を符号化することを決定する。
現フレームの入力音響信号が、非特許文献1に例示される線形予測係数に変換可能な係数に基づくスペクトル包絡を用いた符号化処理と、非特許文献2に例示される区分した周波数領域ごとの係数の平均エネルギーの対数値の隣接する周波数領域の平均エネルギーの対数値との差分の可変長符号化を伴う符号化処理と、の何れの符号化処理が適合するかの判定には、入力音響信号のスペクトル包絡の起伏の大きさや集中度だけではなく、その他の情報を含めた判定を行ってもよい。
現フレームの周波数領域の係数列を第一符号化部101で符号化するか第二符号化部201で符号化するかの決定には、切替可否判定部381が得た切り替え可否の情報を用いないでもよい。この場合は、決定部380内に切替可否判定部381を備えなくてもよい。
例えば、適合符号化処理判定部382が現フレームの入力音響信号に対応する周波数領域の係数列が第一符号化部101の符号化処理に適合すると判定した場合であっても、符号化装置300に図示しない手段が得た他の情報によって現フレームの入力音響信号に対応する周波数領域の係数列を第二符号化部201の符号化処理で符号化すべきと判定された場合には、現フレームの入力音響信号に対応する周波数領域の係数列を第二符号化部201により符号化してもよい。
Claims (8)
- 入力音響信号を、所定時間区間のフレームごとに、周波数領域での複数の符号化処理のうちの決定された符号化処理で符号化する符号化方法であって、
前記入力音響信号に対応する線形予測係数に変換可能な係数に基づくスペクトル包絡を用いて、前記入力音響信号に対応する周波数領域の係数列を符号化する第一符号化ステップと、
前記入力音響信号に対応する周波数領域の係数列について、区分した周波数領域ごとの係数の平均エネルギーの対数値を隣接する周波数領域の平均エネルギーの対数値との差分の可変長符号化を伴って符号化する第二符号化ステップと、
現フレームの前記入力音響信号のスペクトルの起伏の大きさまたは集中度の高さを示す指標が所定の閾値より大きい場合には、現フレームを第一符号化ステップで符号化することを決定可能とし、現フレームの前記入力音響信号のスペクトルの起伏の大きさまたは集中度の高さを示す指標が前記閾値以下の場合には、現フレームを第二符号化ステップで符号化することを決定可能とする決定ステップと
を含むことを特徴とする符号化方法。 - 入力音響信号を、所定時間区間のフレームごとに、周波数領域での複数の符号化処理のうちの決定された符号化処理で符号化する符号化方法であって、
前記入力音響信号に対応する線形予測係数に変換可能な係数に基づくスペクトル包絡を用いて、前記入力音響信号に対応する周波数領域の係数列を符号化する第一符号化ステップと、
前記入力音響信号に対応する周波数領域の係数列について、区分した周波数領域ごとの係数の平均エネルギーの対数値を隣接する周波数領域の平均エネルギーの対数値との差分の可変長符号化を伴って符号化する第二符号化ステップと、
現フレームの前記入力音響信号のスペクトルの起伏の大きさまたは集中度の高さを示す指標が所定の第一の閾値より大きい場合には、現フレームを第一符号化ステップで符号化することを決定可能とし、現フレームの前記入力音響信号のスペクトルの起伏の大きさまたは集中度の高さを示す指標が前記第一の閾値より小さい所定の第二の閾値以下の場合には、現フレームを第二符号化ステップで符号化することを決定可能とする決定ステップと
を含むことを特徴とする符号化方法。 - 前記決定ステップは、更に、現フレームの前記入力音響信号のスペクトルの起伏の大きさまたは集中度の高さを示す指標が前記第一の閾値以下でありかつ前記第二の閾値より大きい場合には、前フレームと同じ符号化処理を現フレームの符号化処理として決定可能とする
ことを特徴とする請求項2に記載の符号化方法。 - 入力音響信号を、所定時間区間のフレームごとに、周波数領域での複数の符号化処理のうちの決定された符号化処理で符号化する符号化装置であって、
前記入力音響信号に対応する線形予測係数に変換可能な係数に基づくスペクトル包絡を用いて、前記入力音響信号に対応する周波数領域の係数列を符号化する第一符号化部と、
前記入力音響信号に対応する周波数領域の係数列について、区分した周波数領域ごとの係数の平均エネルギーの対数値を隣接する周波数領域の平均エネルギーの対数値との差分の可変長符号化を伴って符号化する第二符号化部と、
現フレームの前記入力音響信号のスペクトルの起伏の大きさまたは集中度の高さを示す指標が所定の閾値より大きい場合には、現フレームを第一符号化部で符号化することを決定可能とし、現フレームの前記入力音響信号のスペクトルの起伏の大きさまたは集中度の高さを示す指標が前記閾値以下の場合には、現フレームを第二符号化部で符号化することを決定可能とする決定部と
を含むことを特徴とする符号化装置。 - 入力音響信号を、所定時間区間のフレームごとに、周波数領域での複数の符号化処理のうちの決定された符号化処理で符号化する符号化装置であって、
前記入力音響信号に対応する線形予測係数に変換可能な係数に基づくスペクトル包絡を用いて、前記入力音響信号に対応する周波数領域の係数列を符号化する第一符号化部と、
前記入力音響信号に対応する周波数領域の係数列について、区分した周波数領域ごとの係数の平均エネルギーの対数値を隣接する周波数領域の平均エネルギーの対数値との差分の可変長符号化を伴って符号化する第二符号化部と、
現フレームの前記入力音響信号のスペクトルの起伏の大きさまたは集中度の高さを示す指標が所定の第一の閾値より大きい場合には、現フレームを第一符号化部で符号化することを決定可能とし、現フレームの前記入力音響信号のスペクトルの起伏の大きさまたは集中度の高さを示す指標が前記第一の閾値より小さい所定の第二の閾値以下の場合には、現フレームを第二符号化部で符号化することを決定可能とする決定部と
を含むことを特徴とする符号化装置。 - 前記決定部は、更に、現フレームの前記入力音響信号のスペクトルの起伏の大きさまたは集中度の高さを示す指標が前記第一の閾値以下でありかつ前記第二の閾値より大きい場合には、前フレームと同じ符号化処理を現フレームの符号化処理として決定可能とする
ことを特徴とする請求項5に記載の符号化装置。 - 請求項1から3の何れかの符号化方法の各ステップをコンピュータに実行させるためのプログラム。
- 請求項1から3の何れかの符号化方法の各ステップをコンピュータに実行させるためのプログラムが記録されたコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014152958 | 2014-07-28 | ||
JP2014152958 | 2014-07-28 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018083901A Division JP6608993B2 (ja) | 2014-07-28 | 2018-04-25 | 符号化方法、装置、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019215558A JP2019215558A (ja) | 2019-12-19 |
JP6739604B2 true JP6739604B2 (ja) | 2020-08-12 |
Family
ID=55217142
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016538178A Active JP6411509B2 (ja) | 2014-07-28 | 2015-05-15 | 符号化方法、装置、プログラム及び記録媒体 |
JP2018083901A Active JP6608993B2 (ja) | 2014-07-28 | 2018-04-25 | 符号化方法、装置、プログラム及び記録媒体 |
JP2019140886A Active JP6739604B2 (ja) | 2014-07-28 | 2019-07-31 | 符号化方法、装置、プログラム及び記録媒体 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016538178A Active JP6411509B2 (ja) | 2014-07-28 | 2015-05-15 | 符号化方法、装置、プログラム及び記録媒体 |
JP2018083901A Active JP6608993B2 (ja) | 2014-07-28 | 2018-04-25 | 符号化方法、装置、プログラム及び記録媒体 |
Country Status (8)
Country | Link |
---|---|
US (4) | US10304472B2 (ja) |
EP (3) | EP3614382B1 (ja) |
JP (3) | JP6411509B2 (ja) |
KR (3) | KR102061316B1 (ja) |
CN (4) | CN112992163B (ja) |
ES (3) | ES2838006T3 (ja) |
PL (2) | PL3163571T3 (ja) |
WO (1) | WO2016017238A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112992163B (zh) * | 2014-07-28 | 2024-09-13 | 日本电信电话株式会社 | 编码方法、装置以及记录介质 |
CN114898761A (zh) | 2017-08-10 | 2022-08-12 | 华为技术有限公司 | 立体声信号编解码方法及装置 |
CN110868220B (zh) * | 2018-08-28 | 2021-09-07 | 株洲中车时代电气股份有限公司 | 车辆设备的身份标识的配置及异常检测方法 |
CN113948085B (zh) * | 2021-12-22 | 2022-03-25 | 中国科学院自动化研究所 | 语音识别方法、系统、电子设备和存储介质 |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
PL183307B1 (pl) * | 1994-03-31 | 2002-06-28 | Arbitron Co | System kodowania sygnału dźwiękowego |
US5450490A (en) * | 1994-03-31 | 1995-09-12 | The Arbitron Company | Apparatus and methods for including codes in audio signals and decoding |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
US5774846A (en) * | 1994-12-19 | 1998-06-30 | Matsushita Electric Industrial Co., Ltd. | Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus |
JP3317470B2 (ja) * | 1995-03-28 | 2002-08-26 | 日本電信電話株式会社 | 音響信号符号化方法、音響信号復号化方法 |
US7058572B1 (en) * | 2000-01-28 | 2006-06-06 | Nortel Networks Limited | Reducing acoustic noise in wireless and landline based telephony |
JP3612260B2 (ja) * | 2000-02-29 | 2005-01-19 | 株式会社東芝 | 音声符号化方法及び装置並びに及び音声復号方法及び装置 |
JP3453116B2 (ja) * | 2000-09-26 | 2003-10-06 | パナソニック モバイルコミュニケーションズ株式会社 | 音声符号化方法及び装置 |
JP3426207B2 (ja) * | 2000-10-26 | 2003-07-14 | 三菱電機株式会社 | 音声符号化方法および装置 |
US7200561B2 (en) * | 2001-08-23 | 2007-04-03 | Nippon Telegraph And Telephone Corporation | Digital signal coding and decoding methods and apparatuses and programs therefor |
CN1639984B (zh) * | 2002-03-08 | 2011-05-11 | 日本电信电话株式会社 | 数字信号编码方法、解码方法、编码设备、解码设备 |
JP3960932B2 (ja) * | 2002-03-08 | 2007-08-15 | 日本電信電話株式会社 | ディジタル信号符号化方法、復号化方法、符号化装置、復号化装置及びディジタル信号符号化プログラム、復号化プログラム |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
US7379864B2 (en) * | 2003-05-06 | 2008-05-27 | Lucent Technologies Inc. | Method and apparatus for the detection of previous packet loss in non-packetized speech |
EP1742202B1 (en) * | 2004-05-19 | 2008-05-07 | Matsushita Electric Industrial Co., Ltd. | Encoding device, decoding device, and method thereof |
US7752039B2 (en) * | 2004-11-03 | 2010-07-06 | Nokia Corporation | Method and device for low bit rate speech coding |
US20060224381A1 (en) * | 2005-04-04 | 2006-10-05 | Nokia Corporation | Detecting speech frames belonging to a low energy sequence |
CN101496097A (zh) * | 2006-07-31 | 2009-07-29 | 高通股份有限公司 | 用于在与语音信号相关联的包中包含识别符的系统及方法 |
US8260609B2 (en) * | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
CN101140759B (zh) * | 2006-09-08 | 2010-05-12 | 华为技术有限公司 | 语音或音频信号的带宽扩展方法及系统 |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
EP2077550B8 (en) * | 2008-01-04 | 2012-03-14 | Dolby International AB | Audio encoder and decoder |
US8483854B2 (en) * | 2008-01-28 | 2013-07-09 | Qualcomm Incorporated | Systems, methods, and apparatus for context processing using multiple microphones |
CN101727906B (zh) * | 2008-10-29 | 2012-02-01 | 华为技术有限公司 | 高频带信号的编解码方法及装置 |
CN101763856B (zh) * | 2008-12-23 | 2011-11-02 | 华为技术有限公司 | 信号分类处理方法、分类处理装置及编码系统 |
CN101615395B (zh) * | 2008-12-31 | 2011-01-12 | 华为技术有限公司 | 信号编码、解码方法及装置、系统 |
CN101770775B (zh) * | 2008-12-31 | 2011-06-22 | 华为技术有限公司 | 信号处理方法及装置 |
CN101552006B (zh) * | 2009-05-12 | 2011-12-28 | 武汉大学 | 加窗信号mdct域的能量及相位调整方法及其装置 |
KR20100136890A (ko) * | 2009-06-19 | 2010-12-29 | 삼성전자주식회사 | 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법 |
WO2011161886A1 (ja) * | 2010-06-21 | 2011-12-29 | パナソニック株式会社 | 復号装置、符号化装置およびこれらの方法 |
CN102446508B (zh) * | 2010-10-11 | 2013-09-11 | 华为技术有限公司 | 语音音频统一编码窗型选择方法及装置 |
JP5694751B2 (ja) * | 2010-12-13 | 2015-04-01 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体 |
WO2012102149A1 (ja) * | 2011-01-25 | 2012-08-02 | 日本電信電話株式会社 | 符号化方法、符号化装置、周期性特徴量決定方法、周期性特徴量決定装置、プログラム、記録媒体 |
CN102800317B (zh) * | 2011-05-25 | 2014-09-17 | 华为技术有限公司 | 信号分类方法及设备、编解码方法及设备 |
KR102070429B1 (ko) * | 2011-10-21 | 2020-01-28 | 삼성전자주식회사 | 에너지 무손실 부호화방법 및 장치, 오디오 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 오디오 복호화방법 및 장치 |
CN103366750B (zh) * | 2012-03-28 | 2015-10-21 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
CN104217727B (zh) * | 2013-05-31 | 2017-07-21 | 华为技术有限公司 | 信号解码方法及设备 |
FR3013496A1 (fr) * | 2013-11-15 | 2015-05-22 | Orange | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
WO2015104447A1 (en) * | 2014-01-13 | 2015-07-16 | Nokia Technologies Oy | Multi-channel audio signal classifier |
MX356883B (es) * | 2014-05-08 | 2018-06-19 | Ericsson Telefon Ab L M | Codificador y discriminador de señal de audio. |
CN111192595B (zh) * | 2014-05-15 | 2023-09-22 | 瑞典爱立信有限公司 | 音频信号分类和编码 |
GB2526128A (en) * | 2014-05-15 | 2015-11-18 | Nokia Technologies Oy | Audio codec mode selector |
CN112992163B (zh) * | 2014-07-28 | 2024-09-13 | 日本电信电话株式会社 | 编码方法、装置以及记录介质 |
TWI602172B (zh) * | 2014-08-27 | 2017-10-11 | 弗勞恩霍夫爾協會 | 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 |
US10049684B2 (en) * | 2015-04-05 | 2018-08-14 | Qualcomm Incorporated | Audio bandwidth selection |
-
2015
- 2015-05-15 CN CN202110191341.1A patent/CN112992163B/zh active Active
- 2015-05-15 ES ES19201443T patent/ES2838006T3/es active Active
- 2015-05-15 CN CN201580041465.4A patent/CN106796801B/zh active Active
- 2015-05-15 PL PL15826810T patent/PL3163571T3/pl unknown
- 2015-05-15 PL PL20200287T patent/PL3796314T3/pl unknown
- 2015-05-15 KR KR1020197018004A patent/KR102061316B1/ko active IP Right Grant
- 2015-05-15 EP EP19201443.9A patent/EP3614382B1/en active Active
- 2015-05-15 CN CN202110195328.3A patent/CN112992164A/zh active Pending
- 2015-05-15 EP EP15826810.2A patent/EP3163571B1/en active Active
- 2015-05-15 CN CN202110195414.4A patent/CN112992165A/zh active Pending
- 2015-05-15 ES ES20200287T patent/ES2908564T3/es active Active
- 2015-05-15 KR KR1020197011029A patent/KR102049294B1/ko active IP Right Grant
- 2015-05-15 JP JP2016538178A patent/JP6411509B2/ja active Active
- 2015-05-15 US US15/327,490 patent/US10304472B2/en active Active
- 2015-05-15 WO PCT/JP2015/063989 patent/WO2016017238A1/ja active Application Filing
- 2015-05-15 EP EP20200287.9A patent/EP3796314B1/en active Active
- 2015-05-15 ES ES15826810T patent/ES2770704T3/es active Active
- 2015-05-15 KR KR1020177002231A patent/KR101993828B1/ko active IP Right Grant
-
2018
- 2018-04-25 JP JP2018083901A patent/JP6608993B2/ja active Active
-
2019
- 2019-03-07 US US16/295,039 patent/US10629217B2/en active Active
- 2019-07-31 JP JP2019140886A patent/JP6739604B2/ja active Active
-
2020
- 2020-02-05 US US16/782,700 patent/US11037579B2/en active Active
- 2020-02-05 US US16/782,725 patent/US11043227B2/en active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6739604B2 (ja) | 符号化方法、装置、プログラム及び記録媒体 | |
KR101883789B1 (ko) | 선형 예측 분석 장치, 방법, 프로그램 및 기록 매체 | |
US8665945B2 (en) | Encoding method, decoding method, encoding device, decoding device, program, and recording medium | |
JP6867528B2 (ja) | 周期性統合包絡系列生成装置、周期性統合包絡系列生成方法、周期性統合包絡系列生成プログラム、記録媒体 | |
JP6744471B2 (ja) | 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム、復号プログラム、記録媒体 | |
JP6509973B2 (ja) | 符号化方法、符号化装置、プログラム、および記録媒体 | |
US8576910B2 (en) | Parameter selection method, parameter selection apparatus, program, and recording medium | |
JP2004258603A (ja) | レベル・モードとラン・レングス/レベル・モードの間での符号化を適応させるエントロピー符号化 | |
JP2010078965A (ja) | 演算装置および方法、量子化装置および方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200603 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200707 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200721 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6739604 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |