JP2013057792A - Speech coding device and speech coding method - Google Patents
Speech coding device and speech coding method Download PDFInfo
- Publication number
- JP2013057792A JP2013057792A JP2011195892A JP2011195892A JP2013057792A JP 2013057792 A JP2013057792 A JP 2013057792A JP 2011195892 A JP2011195892 A JP 2011195892A JP 2011195892 A JP2011195892 A JP 2011195892A JP 2013057792 A JP2013057792 A JP 2013057792A
- Authority
- JP
- Japan
- Prior art keywords
- frequency spectrum
- spectrum
- adjustment
- encoding
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、多層構造を有するスケーラブルコーデック技術を用いた音声符号化装置及び音声符号化方法に関する。 The present invention relates to a speech coding apparatus and speech coding method using a scalable codec technology having a multilayer structure.
移動体通信においては、伝送帯域の有効利用のために、音声または画像のディジタル情報の圧縮符号化が必須である。その中でも携帯電話で広く利用されている音声コーデック技術に対する期待は大きく、圧縮率の高い従来の高効率符号化に対して、更により高音質となる符号化への要求が高まっている。また、音声コーデックは、公衆で使用されるため、標準化が必須であり、それに伴って世界の各社で研究開発が盛んに行われている。 In mobile communication, in order to make effective use of a transmission band, compression encoding of voice or image digital information is essential. In particular, there is a great expectation for speech codec technology widely used in mobile phones, and there is a growing demand for encoding with higher sound quality than conventional high-efficiency encoding with a high compression rate. In addition, since the voice codec is used by the public, standardization is indispensable, and in accordance with this, research and development are actively performed in various companies around the world.
近年、多層構造を持つスケーラブルコーデックの標準化がITU−T(International Telecommunication Union−Telecommunication Standardization Sector)またはMPEG(Moving Picture Experts Group)で検討されており、ITU−TではG.718が勧告化されている(非特許文献1参照)。この方式では、第1層から第2層まではCELP(Code Excited Linear Prediction)を用いて符号化を行い、第3層以降はMDCT(Modified Discrete Cosine Transform)を用いた変換符号化を行う。また、変換符号化では、音楽信号を効率的に符号化するためにFPC(Factorial Pulse Coding)という方式を用いているのが特徴である。 In recent years, standardization of a scalable codec having a multi-layer structure has been studied by ITU-T (International Telecommunication Union-Telecommunication Standardization Sector) or MPEG (Moving Picture Experts Group). 718 is recommended (see Non-Patent Document 1). In this method, encoding is performed using CELP (Code Excited Linear Prediction) from the first layer to the second layer, and transform encoding using MDCT (Modified Discrete Cosine Transform) is performed on and after the third layer. Also, the transform coding is characterized in that a method called FPC (Factorial Pulse Coding) is used in order to efficiently encode a music signal.
20年前に確立された音声の発声機構をモデル化してベクトル量子化を巧みに応用した基本方式「CELP」によって大きく性能を向上させた音声符号化技術は、非特許文献2に記載の代数的符号帳(Algebraic Codebook)のような少数パルスによる固定音源を発明したことにより、一段とその性能を向上させた。 A speech coding technique whose performance has been greatly improved by the basic method “CELP” that models a speech utterance mechanism established 20 years ago and skillfully applies vector quantization is an algebraic technique described in Non-Patent Document 2. By inventing a fixed sound source with a small number of pulses such as the codebook (Algebraic Codebook), its performance has been further improved.
G.718では、CELPを用いる層の符号化残差信号を、FPCで変換符号化する。この場合、CELPの復号信号を減衰させることで、総合的に性能が上がる傾向があり、G.718ではこの傾向を利用して減衰係数を2ビットで伝送している。 G. In 718, the coding residual signal of the layer using CELP is transform-coded by FPC. In this case, there is a tendency that overall performance is improved by attenuating the CELP decoded signal. In 718, the attenuation coefficient is transmitted by 2 bits using this tendency.
ここで、ターゲット信号を符号化する際の符号化歪が最少になるようにCELP符号化しているにも関わらず、CELP符号化するよりもCELPの復号信号を減衰した方が、FPC方式で符号化した後の全体的符号化性能が向上する。これは、CELPとFPCとの符号化能力の違いを明らかに示している。 Here, although CELP encoding is performed so as to minimize encoding distortion when encoding the target signal, the CELP decoding signal is attenuated by the FPC method rather than CELP encoding. The overall encoding performance after conversion is improved. This clearly shows the difference in coding capability between CELP and FPC.
即ち、CELPでは、時間軸において局所的に精度良く符号化されるが、周波数スペクトル(単にスペクトルと呼ぶ場合もある)ではすべての周波数に誤差が平均的に乗る。一方、FPCでは、周波数スペクトルを少数パルスで符号化するので、一部のスペクトルで精度よく符号化されるが、その他のスペクトルでは誤差が減らない。従って、CELPの合成音の周波数スペクトルに符号化歪が一律に乗っていることを考慮すると、CELPの復号信号のスペクトルではむしろ符号化歪ごとパワを下げてしまった方が、CELPの復号信号とFPCで符号化されたスペクトルとを合わせた時に、総合的に符号化歪が小さくなる場合が統計的に多いということになる。 That is, in CELP, encoding is performed locally with high accuracy on the time axis, but in the frequency spectrum (sometimes simply referred to as spectrum), errors are averaged on all frequencies. On the other hand, in FPC, since the frequency spectrum is encoded with a small number of pulses, it is encoded with high accuracy in some spectra, but the error is not reduced in other spectra. Therefore, considering that the coding distortion is uniformly on the frequency spectrum of the synthesized sound of CELP, the power of the CELP decoded signal is reduced rather than the decoding signal of CELP. When the spectrum encoded with the FPC is combined, there are statistically many cases where the coding distortion is totally reduced.
CELPの復号信号を減衰することにより総合的に符号化歪が小さくなる場合が統計的に多いということは、減衰しない方がよい場合もあるということである。従って、G.718では、FPC符号化器を動かして、4通りの減衰係数のうち、総合的に符号化歪が最も小さくなる減衰係数を求める。 The fact that there is a statistically large number of cases where coding distortion is reduced overall by attenuating the CELP decoded signal means that it may be better not to attenuate. Therefore, G. In 718, the FPC encoder is moved to obtain an attenuation coefficient that minimizes the coding distortion overall among the four attenuation coefficients.
また、従来、符号化歪の量をコントロールするノイズシェイピングにより、FPCが符号化しやすい部分にスペクトルを集めるものが知られている(例えば、特許文献1)。特許文献1には、標準符号化方式AAC(Advanced Audio Coding)内で使用されるTNS(Temporal Noise Shaping)という処理が開示されている。特許文献1では、周波数軸の信号であるMDCT係数を時間軸の信号とみなし、LPC(Linear Prediction Coding)フィルタにMDCT係数を通すことにより、時間軸上の振幅の大きいところに雑音を集中させ、男性の音声などの低いピッチ周波数を含む信号の音質を向上させる。 Conventionally, there is known a technique that collects a spectrum in a portion where FPC can be easily encoded by noise shaping that controls the amount of encoding distortion (for example, Patent Document 1). Patent Document 1 discloses a process called TNS (Temporal Noise Shaping) used in the standard coding system AAC (Advanced Audio Coding). In Patent Document 1, the MDCT coefficient, which is a frequency axis signal, is regarded as a time axis signal, and noise is concentrated at a large amplitude on the time axis by passing the MDCT coefficient through an LPC (Linear Prediction Coding) filter. Improve the sound quality of signals containing low pitch frequencies, such as male speech.
しかしながら、従来の装置においては、CELPの復号信号のスペクトルのパワを符号化歪と共に下げることにより総合的に符号化歪を小さくするので、CELP符号化の情報源符号が無駄になるという問題がある。また、従来の装置においては、4通りの減衰係数の全てについて符号器を複数回動かすため、多くの計算量を必要とするという問題がある。また、特許文献1においては、スペクトル符号化におけるノイズシェイピングについての開示はあるものの、CELPのような時間軸の符号化におけるノイズシェイピングについての記載はなく、FPCで符号化性能を向上させる効果のあるノイズシェイピングを、CELPにおいてどのように行うか解明されていないという問題がある。 However, in the conventional apparatus, since the coding distortion is reduced by reducing the power of the spectrum of the decoded signal of CELP together with the coding distortion, there is a problem that the information source code of CELP coding is wasted. . Further, the conventional apparatus has a problem that a large amount of calculation is required because the encoder is moved a plurality of times for all four attenuation coefficients. In addition, although Patent Document 1 discloses noise shaping in spectrum coding, there is no description of noise shaping in time axis coding such as CELP, which has an effect of improving coding performance by FPC. There is a problem that how noise shaping is performed in CELP has not been clarified.
本発明の目的は、時系列の信号に対する符号化の際の情報源符号を無駄にすることをなくすることができ、計算量を抑制することができるとともに、周波数領域の信号における符号化性能を向上させることができる音声符号化装置及び音声符号化方法を提供することである。 An object of the present invention is to avoid wasting an information source code when encoding a time-series signal, to reduce the amount of calculation, and to improve encoding performance in a frequency domain signal. To provide a speech encoding apparatus and speech encoding method that can be improved.
本発明の音声符号化装置は、符号化対象のターゲット信号に対して直交変換を行って第1周波数スペクトルを生成する第1直交変換手段と、前記第1周波数スペクトルに対して非線形な第1の振幅調整を行う第1調整手段と、前記第1の振幅調整を行った前記第1周波数スペクトルに対して前記直交変換の逆変換を行って時間信号を生成する逆直交変換手段と、前記時間信号を符号化した後に復号して復号信号を生成する第1の符号化手段と、前記復号信号に対して直交変換を行って第2周波数スペクトルを生成する第2直交変換手段と、前記第1の振幅調整の際に前記第1周波数スペクトルに与えた特性と逆の特性を前記第2周波数スペクトルに与える第2調整手段と、前記第1直交変換手段で生成した前記第1周波数スペクトルから、前記第2調整手段で前記逆の特性を与えた前記第2周波数スペクトルを減算して残差スペクトルを生成する減算手段と、前記残差スペクトルを変換符号化する第2の符号化手段と、を有する構成を採る。 The speech encoding apparatus according to the present invention includes a first orthogonal transform unit that performs orthogonal transform on a target signal to be encoded to generate a first frequency spectrum, and a first non-linear function with respect to the first frequency spectrum. A first adjusting means for performing amplitude adjustment; an inverse orthogonal transforming means for generating a time signal by performing inverse transform of the orthogonal transform on the first frequency spectrum subjected to the first amplitude adjustment; and the time signal. First encoding means for decoding after decoding to generate a decoded signal, second orthogonal transform means for performing orthogonal transformation on the decoded signal to generate a second frequency spectrum, and the first From the second adjustment means for giving the second frequency spectrum a characteristic opposite to the characteristic given to the first frequency spectrum during amplitude adjustment, and the first frequency spectrum generated by the first orthogonal transform means, Subtracting means for generating a residual spectrum by subtracting the second frequency spectrum to which the reverse characteristic is given by the second adjusting means; and second encoding means for transform-coding the residual spectrum. Take the configuration.
本発明の音声符号化方法は、符号化対象のターゲット信号に対して直交変換を行って第1周波数スペクトルを生成する第1直交変換ステップと、前記第1周波数スペクトルに対して非線形な振幅調整を行う第1調整ステップと、前記第1調整ステップにより振幅調整された前記第1周波数スペクトルに対して前記直交変換の逆変換を行って時間信号を生成する逆直交変換ステップと、前記時間信号を符号化した後に復号して復号信号を生成する第1の符号化ステップと、前記復号信号に対して直交変換を行って第2周波数スペクトルを生成する第2直交変換ステップと、前記第1調整ステップにより前記第1周波数スペクトルに与えた特性と逆の特性を前記第2周波数スペクトルに与える第2調整ステップと、前記第1直交変換ステップにより生成した前記第1周波数スペクトルから、前記第2調整ステップにより前記逆の特性を与えた前記第2周波数スペクトルを減算して残差スペクトルを生成する減算ステップと、前記残差スペクトルを変換符号化する第2の符号化ステップと、を有するようにした。 The speech coding method according to the present invention includes a first orthogonal transform step of performing orthogonal transform on a target signal to be encoded to generate a first frequency spectrum, and non-linear amplitude adjustment with respect to the first frequency spectrum. A first adjustment step to be performed; an inverse orthogonal transformation step for performing an inverse transformation of the orthogonal transformation on the first frequency spectrum whose amplitude has been adjusted in the first adjustment step to generate a time signal; and encoding the time signal A first encoding step that generates a decoded signal after decoding, a second orthogonal transformation step that performs orthogonal transformation on the decoded signal to generate a second frequency spectrum, and the first adjustment step. A second adjustment step for giving the second frequency spectrum a characteristic opposite to the characteristic given to the first frequency spectrum; and the first orthogonal transformation step. A subtracting step for generating a residual spectrum by subtracting the second frequency spectrum to which the reverse characteristic is given by the second adjusting step from the generated first frequency spectrum, and transform encoding the residual spectrum A second encoding step.
本発明によれば、時系列の信号に対する符号化の際の情報源符号を無駄にすることをなくすることができ、計算量を抑制することができるとともに、周波数領域の信号における符号化性能を向上させることができる。 According to the present invention, it is possible to eliminate the waste of an information source code when encoding a time-series signal, it is possible to reduce the amount of calculation, and to improve the encoding performance of a frequency domain signal. Can be improved.
以下、本発明の実施の形態について、図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
(実施の形態)
<音声符号化装置の構成>
図1は、本発明の実施の形態に係る音声符号化装置100の構成を示すブロック図である。図1では、時系列符号化の例としてCELPを、後段の変換符号化の例としてFPCを用いている。
(Embodiment)
<Configuration of speech encoding apparatus>
FIG. 1 is a block diagram showing a configuration of speech encoding
第1MDCT部101は、入力した符号化対象のターゲット信号(ターゲットベクトル)に対してMDCTによる直交変換を行うことにより第1周波数スペクトルを取得する。具体的には、第1MDCT部101は、サブフレーム長の2倍の長さのサイン窓をターゲット信号に乗じるとともにMDCTの行列をターゲット信号に乗ずることにより、第1周波数スペクトルを取得する。なお、ターゲット信号は、典型的な例としては音声信号が挙げられるが、音楽信号、または音声信号と音楽信号との双方を含む音響信号でもよく、あるいは、第1MDCT部101に入力される前にこれらの信号に何らかの前処理を施した信号であっても良い。
The
第1MDCT部101は、取得した第1周波数スペクトルを第1調整部102及び減算部107に出力する。なお、DCT(Discrete Cosine Transform)については、計算量削減を目的とした様々な方法が検討されているが、第1MDCT部101ではいずれの方法を用いてもよい。
The
第1調整部102は、第1MDCT部101から入力した第1周波数スペクトルに対して振幅調整を行い、振幅調整した第1周波数スペクトルをIMDCT部103に出力する。第1調整部102は、振幅調整に用いた所定のパラメータの符号を符号化データとして図示しない音声復号装置に送る。なお、振幅調整の具体的な方法については後述する。
The
IMDCT部103は、第1調整部102から入力した第1周波数スペクトルに対して、第1MDCT部101において行った直交変換の逆変換を行って、時系列の信号(以下「時間信号」と記載する)を取得する。IMDCT部103は、取得した時間信号をCELP符号化部104に出力する。
The IMDCT
CELP符号化部104は、IMDCT部103から入力した時間信号に対して符号化及び復号を行って復号信号を取得し、取得した復号信号を第2MDCT部105に出力する。CELP符号化部104は、CELP符号化により取得した符号を符号化データとして図示しない音声復号装置に送る。
第2MDCT部105は、CELP符号化部104から入力した復号信号に対してMDCTによる直交変換を行うことにより第2周波数スペクトルを取得する。第2MDCT部105は、取得した第2周波数スペクトルを第2調整部106に出力する。
第2調整部106は、第2MDCT部105から入力した第2周波数スペクトルに対して、前記第1調整部102において第1周波数スペクトルに与えた特性と逆の特性を与える。具体的には、第2調整部106は、第1調整部102において減衰された部分を伸長させる。第2調整部106は、逆の特性を与えた第2周波数スペクトルを減算部107に出力する。なお、逆の特性を与える具体的な方法については後述する。
The
減算部107は、第1MDCT部101から入力した第1周波数スペクトルから、第2調整部106から入力した第2周波数スペクトルを減算して、FPCで符号化し易い残差スペクトルを取得する。減算部107は、取得した残差スペクトルをFPC符号化部108に出力する。
The
FPC符号化部108は、減算部107から入力した残差スペクトルをFPC方式で変換符号化して符号化データを出力する。この符号化データは、図示しない音声復号装置に送られる。なお、FPCの符号化/復号アルゴリズムについてはITU−T規格G.718の規格書に詳細な記載があるのでこの説明を省略する。
The
<第1調整部の構成>
第1調整部102の構成として、構成例1及び構成例2の2つの構成について、以下に説明する。なお、本実施の形態においては、構成例1及び構成例2の何れを用いてもよい。
<Configuration of first adjustment unit>
As configurations of the
(構成例1)
図2は、第1調整部102の構成例1を示すブロック図である。
(Configuration example 1)
FIG. 2 is a block diagram illustrating a configuration example 1 of the
構成例1では、第1調整部102における振幅調整の方針として、第1周波数スペクトルの各サンプルにおいて、スペクトル値が比較的小さいサンプルは減衰せずにそのままにし、スペクトル値が比較的大きいサンプルほど大きく減衰させる。例えば、第1調整部102は、しきい値未満のスペクトル値を有するサンプルについては減衰させずにそのままにし、しきい値以上のスペクトル値を有するサンプルに対して、スペクトル値が大きいほど大きく減衰させる振幅調整を行う。したがって、構成例1において、第1調整部102における振幅調整は非線形である。
In Configuration Example 1, as a policy of amplitude adjustment in the
平均値算出部201は、第1MDCT部101から出力された第1周波数スペクトルを入力し、下記の(1)式の計算を行って平均値mを求める。
平均値算出部201は、求めた平均値mを振幅調整部202に出力する。
The average
振幅調整部202は、平均値算出部201から入力した平均値mと、定数とを用いて、下記の(2)式によりしきい値を求める。
振幅調整部202は、第1MDCT部101から入力した第1周波数スペクトルに対して、しきい値tを用いた下記の(3)式に従って振幅調整を行う。
(3)式は、一次微分まで連続的な関数であり、しきい値を境に線形関数と対数関数とが入れ替わるようになっている。即ち、振幅調整部202は、振幅がしきい値以下のスペクトルはそのままにし、振幅がしきい値より大きいスペクトルは対数関数で減衰させる。
Equation (3) is a continuous function up to the first derivative, and a linear function and a logarithmic function are interchanged at a threshold. That is, the
また、振幅調整部202は、しきい値を第2調整部106に出力する。また、振幅調整部202は、図示しない音声復号装置でも逆変換を行う必要があるので、振幅調整に用いたパラメータであるしきい値tを符号化し、しきい値tの符号をこの音声復号装置に送る。この際、符号化方法としては、整数化によるスカラ量子化が挙げられる。なお、しきい値tの符号化歪による悪影響を避けるために、(2)式でしきい値tを求めた後、符号化及び復号を行い、復号されたしきい値tを用いて、(3)式の処理、ならびに第2調整部106の処理を行う。
In addition, the
そして、振幅調整部202は、振幅調整した第1周波数スペクトルをIMDCT部103に出力する。
Then, the
(構成例2)
図3は、第1調整部102の構成例2を示すブロック図である。
(Configuration example 2)
FIG. 3 is a block diagram illustrating a configuration example 2 of the
構成例2では、第1調整部102における振幅調整の方針として、第1周波数スペクトルの各サンプルにおいて、スペクトル値の変化が比較的になだらかなサンプルはスペクトル値を減衰させずにそのままにし、スペクトル値の変化にパルス性があるサンプルはスペクトル値を減衰させる。例えば、第1調整部102は、第1周波数スペクトルの隣接するサンプル間のスペクトル値の変化量がしきい値未満のサンプルについては減衰させずにそのままにし、前記の変化量がしきい値以上のサンプルに対して、変化量が大きいほど大きく減衰させる振幅調整を行う。したがって、構成例2でも、第1調整部102における振幅調整は非線形である。
In the configuration example 2, as a policy of amplitude adjustment in the
パルス性分析部301は、第1MDCT部101から入力した第1周波数スペクトルを用いて、減衰係数ベクトルを求める。具体的には、パルス性分析部301は、中心となるサンプルのスペクトル値と、そのサンプルの周辺のサンプルのスペクトル値との関係を分析することによりパルス性を求める。この際、例えば、上記で説明したようにしきい値とスペクトル値の変化量とを比較することによりパルス性を求める。そして、パルス性分析部301は、パルス性有りと判断した場合は、1未満の定数値を格納し、それ以外は「1.0」を値として格納することにより減衰係数ベクトルを求める。即ち、パルス性分析部301は、下記の(4)式に従って減衰係数ベクトルを求める。
パルス性分析部301は、求めた減衰係数ベクトルを振幅調整部302及び第2調整部106に出力する。ここで、減衰係数ベクトルは、パルス性のあるスペクトル値を減衰させる関数である。
The pulse
また、パルス性分析部301は、音声復号装置でも逆変換を行う必要があるので、振幅調整に用いたパラメータである減衰係数ベクトルを符号化し、減衰係数ベクトルの符号を音声復号装置に送る。この際、符号化方法としては、減衰したサンプルを「1」とし、減衰しないサンプルを「0」としてベクトルをそのまま送る方法、または区間をいくつかに分割してベクトル量子化を行う方法があげられる。また、減衰させる部分の数をあらかじめ制限して、減衰係数ベクトルの一部のみを符号化して伝送するという方法も考えられる。また、極端な例としては、第2調整部106で得られたスペクトルから、(4)式に示す減衰係数ベクトルを作成し、全く情報を送らないという方法でもよい。この場合、減衰係数ベクトルの符号は送らない。
In addition, since it is necessary for inverse analysis to be performed in the speech decoding apparatus, the
振幅調整部302は、パルス性分析部301から入力した減衰係数ベクトルを用いて、下記の(5)式に従って第1周波数スペクトルの振幅調整を行う。
そして、振幅調整部302は、振幅調整した第1周波数スペクトルをIMDCT部103に出力する。
Then, the
<第2調整部における動作>
第1調整部102が上記の構成例1の構成または構成例2の構成を有する各々の場合における第2調整部106の動作について、以下に説明する。
<Operation in Second Adjustment Unit>
The operation of the
(第1調整部の構成が構成例1である場合の動作)
第2調整部106は、第2周波数スペクトルの振幅の大きさの全体的な傾向に応じて、適応的に振幅を調整する。第2調整部106の調整は第1調整部102の逆変換に相当し、(2)式により求めたしきい値tよりも大きい場合に非線形に振幅を拡大することを特徴としている。
(Operation when the configuration of the first adjustment unit is the configuration example 1)
The
第2調整部106は、振幅調整部202から入力したしきい値tに基づいて、下記の(6)式に従って逆変換を行うことにより調整する。
第2調整部106は、(6)式より、第2周波数スペクトルの各サンプルのうち、しきい値t未満のスペクトル値を有するサンプルは伸長させずにそのままにし、しきい値t以上のスペクトル値を有するサンプルに対して、スペクトル値が大きいほど大きく伸長させる振幅調整を行う。
From the equation (6), the
(第1調整部の構成が構成例2である場合の動作)
第2調整部106は、第2周波数スペクトルの振幅の大きさの全体的な傾向に応じて、適応的に振幅を調整する。第2調整部106の調整は第1調整部102の逆変換に相当し、隣接するサンプル間のスペクトル値の変化量がしきい値よりも大きい場合に、非線形に振幅を拡大することを特徴としている。
(Operation when the configuration of the first adjustment unit is the configuration example 2)
The
第2調整部106は、パルス性分析部301から入力した減衰係数ベクトルに基づいて、下記の(7)式に従って逆変換を行う。
第2調整部106は、(7)式より、第2周波数スペクトルの隣接するサンプル間のスペクトル値の変化量がしきい値未満のサンプルは伸長させずにそのままにし、前記の変化量がしきい値以上のサンプルに対して、前記の変化量が大きいほど大きく伸長させる振幅調整を行う。
From the equation (7), the
なお、本実施の形態の音声符号化装置に対応した音声復号装置は、伝送されてきたしきい値の符号または減衰係数ベクトルの符号に基づいて、しきい値tまたは減衰係数ベクトルを復号する。そして、この音声復号装置は、音声符号化装置のCELP符号化部104において復号を行う部分、第2MDCT部105、第2調整部106、と同じ動作を行うことで、CELPの合成音の復号された周波数スペクトルを生成する。さらに、音声復号装置は、このCELPの合成音の復号された周波数スペクトルに、FPCの符号を復号して生成される、復号されたFPCの周波数スペクトルを加算する。各ブロックの説明は前述の通りであるので詳細説明を省略する。
Note that the speech decoding apparatus corresponding to the speech encoding apparatus of the present embodiment decodes the threshold value t or the attenuation coefficient vector based on the transmitted threshold code or attenuation coefficient vector code. This speech decoding apparatus performs the same operation as that performed by the
<本実施の形態の効果>
本発明によれば、CELP符号化の際の情報源符号を無駄にすることをなくすることができ、計算量を抑制することができるとともに、CELP符号化におけるノイズシェイピング処理を実現することにより、FPC符号化性能を向上させることができる。
<Effects of the present embodiment>
According to the present invention, it is possible to eliminate waste of an information source code at the time of CELP encoding, reduce the amount of calculation, and realize noise shaping processing in CELP encoding. FPC encoding performance can be improved.
<本実施の形態の変形例>
上記実施の形態において、第1調整部の構成として構成例1及び構成例2を示したが、本発明はこれに限らず、スペクトル値を減衰させる構成及び動作であれば他の構成及び動作を用いてもよい。本発明は、CELP符号化部の前後の調整部の構成及び動作に直接依存するものではないからである。
<Modification of the present embodiment>
In the above embodiment, the configuration example 1 and the configuration example 2 are shown as the configuration of the first adjustment unit. However, the present invention is not limited to this, and other configurations and operations are possible as long as the configuration and operation attenuate the spectrum value. It may be used. This is because the present invention does not directly depend on the configuration and operation of the adjustment unit before and after the CELP encoding unit.
また、上記実施の形態において、第1調整部において平均値を算術平均で求めたが、本発明はこれに限らず、モードまたはメジアンを用いてもよい。メジアンを用いる場合は、あらかじめ指定された順位の振幅値を探索してそれを用いることにより、同様の効果を得ることができる。 Moreover, in the said embodiment, although the average value was calculated | required by the arithmetic mean in the 1st adjustment part, this invention is not restricted to this, You may use a mode or a median. In the case of using the median, the same effect can be obtained by searching for the amplitude value of the rank specified in advance and using it.
また、上記実施の形態において、後段の符号器はFPC符号化部にしたが、本発明はこれに限らず、TCX(transform coded excitation)、AMR−WB+(Extended Adaptive Multi-Rate Wideband)、またはAAC(Advanced Audio Coding)などの変換符号化を行う符号化部を設けてもよい。これは、パルス性のある残差スペクトルを効率よく符号化するためにはいずれの符号化方式でもよく、FPC以外でも本発明が有効であるからである。 In the above embodiment, the subsequent encoder is an FPC encoding unit. However, the present invention is not limited to this, and TCX (transform coded excitation), AMR-WB + (Extended Adaptive Multi-Rate Wideband), or AAC An encoding unit that performs transform encoding such as (Advanced Audio Coding) may be provided. This is because any encoding method may be used to efficiently encode a residual spectrum having a pulse property, and the present invention is effective for other than FPC.
また、上記実施の形態において、CELP符号化部を用いたが、本発明はこれに限らず、MPC(Multiple Pulse Coding)またはADPCMなどの時系列符号化を行う符号化部を設けても良い。これらは、時系列信号を効率よく符号化できるが、後段のスペクトル符号化において復号信号の減衰に効果があるのはCELPと同じであるからである。 In the above embodiment, the CELP encoding unit is used. However, the present invention is not limited to this, and an encoding unit that performs time-series encoding such as MPC (Multiple Pulse Coding) or ADPCM may be provided. These are because time series signals can be efficiently encoded, but the effect of the attenuation of the decoded signal in the subsequent spectral encoding is the same as CELP.
また、上記実施の形態において、直交変換の方法としてMDCTを用いたが、本発明はこれに限らず、DCT(Discrete Cosine Transform)またはFFTなどの直交変換方法でもよい。その理由は、周波数スペクトルが得られる方法であれば、上記の実施の形態に適用できるからである。 In the above embodiment, MDCT is used as the orthogonal transform method. However, the present invention is not limited to this, and an orthogonal transform method such as DCT (Discrete Cosine Transform) or FFT may be used. The reason is that any method capable of obtaining a frequency spectrum can be applied to the above embodiment.
なお、上記実施の形態では、装置を音声符号化装置/音声復号装置と称したが、ここでの「音声」とは、広義の意味での音声を示すものである。すなわち、音声符号化装置における入力信号及び音声復号化装置における復号信号は、音声信号、音楽信号、あるいは音声信号と音楽信号との双方を含む音響信号、など、いずれの信号をも示すものである。 In the above-described embodiment, the device is referred to as a speech encoding device / speech decoding device, but “speech” here indicates speech in a broad sense. That is, the input signal in the speech coding apparatus and the decoded signal in the speech decoding apparatus indicate any signal such as a speech signal, a music signal, or an acoustic signal including both a speech signal and a music signal. .
また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はハードウェアとの連携においてソフトウェアでも実現することも可能である。 Further, although cases have been described with the above embodiment as examples where the present invention is configured by hardware, the present invention can also be realized by software in cooperation with hardware.
上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。 Each functional block used in the description of the above embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them. The name used here is LSI, but it may also be called IC, system LSI, super LSI, or ultra LSI depending on the degree of integration.
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、または、LSI内部の回路セルの接続または設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。 Further, the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible. An FPGA (Field Programmable Gate Array) that can be programmed after manufacturing the LSI or a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI may be used.
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。 Further, if integrated circuit technology comes out to replace LSI's as a result of the advancement of semiconductor technology or a derivative other technology, it is naturally also possible to carry out function block integration using this technology. Biotechnology can be applied.
本発明にかかる音声符号化装置及び音声符号化方法は、多層構造を有するスケーラブルコーデック技術を用いるのに好適である。 The speech coding apparatus and speech coding method according to the present invention are suitable for using a scalable codec technology having a multilayer structure.
100 音声符号化装置
101 第1MDCT部
102 第1調整部
103 IMDCT部
104 CELP符号化部
105 第2MDCT部
106 第2調整部
107 減算部
108 FPC符号化部
DESCRIPTION OF
Claims (6)
前記第1周波数スペクトルに対して非線形な第1の振幅調整を行う第1調整手段と、
前記第1の振幅調整を行った前記第1周波数スペクトルに対して前記直交変換の逆変換を行って時間信号を生成する逆直交変換手段と、
前記時間信号を符号化した後に復号して復号信号を生成する第1の符号化手段と、
前記復号信号に対して直交変換を行って第2周波数スペクトルを生成する第2直交変換手段と、
前記第1の振幅調整の際に前記第1周波数スペクトルに与えた特性と逆の特性を前記第2周波数スペクトルに与える第2調整手段と、
前記第1直交変換手段で生成した前記第1周波数スペクトルから、前記第2調整手段で前記逆の特性を与えた前記第2周波数スペクトルを減算して残差スペクトルを生成する減算手段と、
前記残差スペクトルを変換符号化する第2の符号化手段と、
を有する音声符号化装置。 First orthogonal transform means for performing orthogonal transform on a target signal to be encoded to generate a first frequency spectrum;
First adjusting means for performing a first amplitude adjustment that is nonlinear with respect to the first frequency spectrum;
An inverse orthogonal transform means for performing an inverse transform of the orthogonal transform on the first frequency spectrum subjected to the first amplitude adjustment to generate a time signal;
First encoding means for encoding the time signal and then decoding to generate a decoded signal;
Second orthogonal transform means for performing orthogonal transform on the decoded signal to generate a second frequency spectrum;
Second adjusting means for giving the second frequency spectrum a characteristic opposite to the characteristic given to the first frequency spectrum during the first amplitude adjustment;
Subtracting means for generating a residual spectrum by subtracting the second frequency spectrum given the reverse characteristic by the second adjusting means from the first frequency spectrum generated by the first orthogonal transforming means;
Second encoding means for transform encoding the residual spectrum;
A speech encoding apparatus.
前記第1周波数スペクトルに対して非線形な振幅調整を行う第1調整ステップと、
前記第1調整ステップにより振幅調整された前記第1周波数スペクトルに対して前記直交変換の逆変換を行って時間信号を生成する逆直交変換ステップと、
前記時間信号を符号化した後に復号して復号信号を生成する第1の符号化ステップと、
前記復号信号に対して直交変換を行って第2周波数スペクトルを生成する第2直交変換ステップと、
前記第1調整ステップにより前記第1周波数スペクトルに与えた特性と逆の特性を前記第2周波数スペクトルに与える第2調整ステップと、
前記第1直交変換ステップにより生成した前記第1周波数スペクトルから、前記第2調整ステップにより前記逆の特性を与えた前記第2周波数スペクトルを減算して残差スペクトルを生成する減算ステップと、
前記残差スペクトルを変換符号化する第2の符号化ステップと、
を有する音声符号化方法。 A first orthogonal transform step of performing orthogonal transform on the target signal to be encoded to generate a first frequency spectrum;
A first adjustment step for performing non-linear amplitude adjustment on the first frequency spectrum;
An inverse orthogonal transform step of generating a time signal by performing an inverse transform of the orthogonal transform on the first frequency spectrum whose amplitude has been adjusted by the first adjustment step;
A first encoding step of encoding the time signal and then decoding to generate a decoded signal;
A second orthogonal transform step of performing an orthogonal transform on the decoded signal to generate a second frequency spectrum;
A second adjustment step for giving the second frequency spectrum a characteristic opposite to the characteristic given to the first frequency spectrum by the first adjustment step;
A subtracting step of generating a residual spectrum by subtracting the second frequency spectrum given the inverse characteristic by the second adjusting step from the first frequency spectrum generated by the first orthogonal transforming step;
A second encoding step for transform encoding the residual spectrum;
A speech encoding method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011195892A JP2013057792A (en) | 2011-09-08 | 2011-09-08 | Speech coding device and speech coding method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011195892A JP2013057792A (en) | 2011-09-08 | 2011-09-08 | Speech coding device and speech coding method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013057792A true JP2013057792A (en) | 2013-03-28 |
Family
ID=48133727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011195892A Withdrawn JP2013057792A (en) | 2011-09-08 | 2011-09-08 | Speech coding device and speech coding method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013057792A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110444219A (en) * | 2014-07-28 | 2019-11-12 | 弗劳恩霍夫应用研究促进协会 | The apparatus and method of the first coding algorithm of selection or the second coding algorithm |
-
2011
- 2011-09-08 JP JP2011195892A patent/JP2013057792A/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110444219A (en) * | 2014-07-28 | 2019-11-12 | 弗劳恩霍夫应用研究促进协会 | The apparatus and method of the first coding algorithm of selection or the second coding algorithm |
CN110444219B (en) * | 2014-07-28 | 2023-06-13 | 弗劳恩霍夫应用研究促进协会 | Apparatus and method for selecting a first encoding algorithm or a second encoding algorithm |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2389085C2 (en) | Method and device for introducing low-frequency emphasis when compressing sound based on acelp/tcx | |
RU2485606C2 (en) | Low bitrate audio encoding/decoding scheme using cascaded switches | |
CN101180676B (en) | Methods and apparatus for quantization of spectral envelope representation | |
RU2557455C2 (en) | Forward time-domain aliasing cancellation with application in weighted or original signal domain | |
US7490036B2 (en) | Adaptive equalizer for a coded speech signal | |
RU2596584C2 (en) | Coding of generalised audio signals at low bit rates and low delay | |
JP6654237B2 (en) | Encoder and method for encoding an audio signal with reduced background noise using linear predictive coding | |
KR101698905B1 (en) | Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion | |
JP5241701B2 (en) | Encoding apparatus and encoding method | |
KR20080011216A (en) | Audio codec post-filter | |
EP2867892B1 (en) | Linear prediction based audio coding using improved probability distribution estimation | |
JPWO2007088853A1 (en) | Speech coding apparatus, speech decoding apparatus, speech coding system, speech coding method, and speech decoding method | |
TW201435861A (en) | Low-frequency emphasis for LPC-based coding in frequency domain | |
DK3040988T3 (en) | AUDIO DECODING BASED ON AN EFFECTIVE REPRESENTATION OF AUTOREGRESSIVE COEFFICIENTS | |
US11114106B2 (en) | Vector quantization of algebraic codebook with high-pass characteristic for polarity selection | |
US20130096913A1 (en) | Method and apparatus for adaptive multi rate codec | |
JPWO2007037359A1 (en) | Speech coding apparatus and speech coding method | |
JP2013057792A (en) | Speech coding device and speech coding method | |
WO2012053149A1 (en) | Speech analyzing device, quantization device, inverse quantization device, and method for same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20141202 |