JP2008032823A - Voice encoding apparatus - Google Patents
Voice encoding apparatus Download PDFInfo
- Publication number
- JP2008032823A JP2008032823A JP2006203417A JP2006203417A JP2008032823A JP 2008032823 A JP2008032823 A JP 2008032823A JP 2006203417 A JP2006203417 A JP 2006203417A JP 2006203417 A JP2006203417 A JP 2006203417A JP 2008032823 A JP2008032823 A JP 2008032823A
- Authority
- JP
- Japan
- Prior art keywords
- scale factor
- frequency spectrum
- factor band
- unit
- sfb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本発明は、音声符号化装置に係り、特に、セクショニング処理に関する。 The present invention relates to a speech encoding apparatus, and more particularly to sectioning processing.
AAC(Advanced Audio Coding)方式などによって圧縮された音声信号をハフマン符号化する際、音声信号を周波数変換、例えば、MDCT変換(Modified Discrete Cosine Transform、修正離散コサイン変換)して得られた周波数スペクトルであるMDCT係数を量子化して、得られた量子化スペクトルを符号化する。この符号化の際、スケールファクターバンド(以後、sfbと称する。)と称される周波数帯域毎に発生符号量が少ないハフマンテーブルを選択し、選択されたテーブルを参照して符号化する。 When Huffman coding of an audio signal compressed by an AAC (Advanced Audio Coding) method or the like, the frequency spectrum obtained by frequency conversion of the audio signal, for example, MDCT (Modified Discrete Cosine Transform) is used. A certain MDCT coefficient is quantized, and the obtained quantized spectrum is encoded. In this encoding, a Huffman table with a small generated code amount is selected for each frequency band called a scale factor band (hereinafter referred to as sfb), and encoding is performed with reference to the selected table.
そして、符号化された量子化スペクトルに加えて、選択されたテーブルを示す情報を符号化された音声信号であるビットストリームに含ませる。なお、ハフマンテーブルは、量子化スペクトルの最大値に応じて複数個用意されており、量子化スペクトルの最大値がより小さければ、より小さいテーブルを選択することで、効率的な符号化を行う。 Then, in addition to the encoded quantized spectrum, information indicating the selected table is included in the bit stream that is the encoded audio signal. A plurality of Huffman tables are prepared according to the maximum value of the quantized spectrum. If the maximum value of the quantized spectrum is smaller, efficient coding is performed by selecting a smaller table.
また、セクションと呼ばれる隣り合う複数のsfbで同一のハフマンテーブルを選択する、セクショニング処理が知られている。セクショニング処理によると、選択されたテーブルを示す情報を隣り合うsfbで共通化することができ、上記ビットストリームに含まれるテーブルを示す情報の削減が可能である。この情報の削減により、量子化スペクトルにより多くのビットを割り当てることができ、符号化された音声の音質の向上を図ることができる。 In addition, a sectioning process for selecting the same Huffman table with a plurality of adjacent sfb called sections is known. According to the sectioning process, information indicating the selected table can be shared by adjacent sfb, and information indicating the table included in the bit stream can be reduced. By reducing this information, more bits can be allocated to the quantized spectrum, and the sound quality of the encoded speech can be improved.
セクショニングは、スペクトルの量子化の前で行うことも、量子化の後で行うことも知られている。量子化の前で行うには、例えば、sfb毎に周波数変換して得られたスペクトルの最大値を求め、求められた最大値が大きいsfbを所定個選択し、それらの選択されたsfb毎に適切なハフマンテーブルを選択する。そして、選択されたsfbの近隣のsfbは、選択されたsfbと同一のセクションとする処理が知られている(例えば、特許文献1参照。)。 It is known that sectioning is performed before spectral quantization or after quantization. In order to perform before quantization, for example, the maximum value of the spectrum obtained by frequency conversion for each sfb is obtained, a predetermined number of sfb having the largest obtained maximum value is selected, and for each selected sfb Choose an appropriate Huffman table. A process is known in which the sfb adjacent to the selected sfb is set to the same section as the selected sfb (see, for example, Patent Document 1).
セクショニングをスペクトルの量子化の後に行うには、例えば、sfb毎に所定のテーブルを参照してハフマンテーブルを選択し、その選択の後、隣り合うsfbが同一のハフマンテーブルを用いることによって上記ビットストリームに含まれるテーブルを示す情報の削減が可能であれば、それらの隣り合うsfbを同一のセクションとする処理が知られている(例えば、特許文献2参照。)。
しかしながら、上述した特許文献1に開示されている方法では、セクションの数が音声信号に依存せずに決定されるため、その音声信号に適したセクショニングが困難である問題点があった。音声信号のスペクトルが近い周波数帯域のsfbに集中して分布する場合、この問題点は顕著である。
However, in the method disclosed in
また、上述した特許文献2に開示されている方法では、所定のテーブルを参照してハフマンテーブルを選択するため、音声信号に適したハフマンテーブルが選択されない可能性がある問題点があった。また、符号化された音声信号であるビットストリームを作成し、そのビット長が所定の値でない場合、スペクトルの量子化の段階に戻って処理を繰り返す必要がある。そこで、処理量が過大になる可能性がある問題点があった。 Further, the method disclosed in Patent Document 2 described above has a problem in that a Huffman table suitable for an audio signal may not be selected because a Huffman table is selected with reference to a predetermined table. In addition, when a bit stream that is an encoded audio signal is created and the bit length is not a predetermined value, it is necessary to return to the spectrum quantization stage and repeat the process. Therefore, there is a problem that the processing amount may become excessive.
本発明は上記問題点を解決するためになされたもので、音声信号に適したセクショニングを少ない処理量で行う音声符号化装置を提供することを目的とする。 The present invention has been made to solve the above problems, and an object of the present invention is to provide a speech coding apparatus that performs sectioning suitable for speech signals with a small amount of processing.
上記目的を達成するために、本発明の音声符号化装置は、音声信号を所定のスケールファクターバンドに分類された周波数スペクトルに変換し、前記スケールファクターバンド毎にそのスケールファクターバンドに分類された周波数スペクトルの代表値に依存して複数のハフマンテーブルの中のいずれかのハフマンテーブルを選択し、前記スケールファクターバンドに分類された周波数スペクトルを前記選択されたハフマンテーブルを参照して符号化し、その符号化された周波数スペクトルと、前記参照されたハフマンテーブルを識別する符号とを含む符号化された音声信号を作成する符号化手段を有し、前記符号化手段は、隣り合う前記スケールファクターバンドに分類された周波数スペクトルの代表値の比率が所定の比率以内である場合、それらのスケールファクターバンドに同一の前記ハフマンテーブルを選択することを特徴とする。 To achieve the above object, the speech coding apparatus of the present invention converts a speech signal into a frequency spectrum classified into a predetermined scale factor band, and the frequency classified into the scale factor band for each scale factor band. Depending on the representative value of the spectrum, one of the plurality of Huffman tables is selected, the frequency spectrum classified into the scale factor band is encoded with reference to the selected Huffman table, and the code Encoding means for creating an encoded speech signal including a frequency spectrum that has been converted and a code that identifies the referenced Huffman table, wherein the encoding means is classified into the adjacent scale factor bands When the ratio of the representative values of the frequency spectrum is within the specified ratio And selects the same the Huffman table to their scale factor band.
また、本発明の音声符号化装置は、音声信号を所定のスケールファクターバンドに分類された周波数スペクトルに変換し、前記スケールファクターバンド毎にそのスケールファクターバンドに分類された周波数スペクトルの代表値に依存して複数のハフマンテーブルの中のいずれかのハフマンテーブルを選択し、前記スケールファクターバンドに分類された周波数スペクトルを前記選択されたハフマンテーブルを参照して符号化し、その符号化された周波数スペクトルと、前記参照されたハフマンテーブルを識別する符号とを含む符号化された音声信号を作成する符号化手段を有し、前記符号化手段は、第1の前記スケールファクターバンドに分類された周波数スペクトルの代表値が小さく、その第1のスケールファクターバンドの低周波数側に隣り合う第2の前記スケールファクターバンドに分類された周波数スペクトルの代表値と、その第1のスケールファクターバンドの高周波数側に隣り合う第3の前記スケールファクターバンドに分類された周波数スペクトルの代表値とが前記第1のスケールファクターバンドの代表値より大きい場合、前記第1、前記第2及び前記第3のスケールファクターバンドに同一の前記ハフマンテーブルを選択することを特徴とする。 The speech coding apparatus according to the present invention converts a speech signal into a frequency spectrum classified into a predetermined scale factor band, and depends on a representative value of the frequency spectrum classified into the scale factor band for each scale factor band. And selecting one of the plurality of Huffman tables, encoding the frequency spectrum classified into the scale factor band with reference to the selected Huffman table, and the encoded frequency spectrum Encoding means including a code identifying the referenced Huffman table, the encoding means comprising: a first frequency spectrum classified into the first scale factor band; Low representative value, low frequency of its first scale factor band And a representative value of the frequency spectrum classified into the second scale factor band adjacent to the second scale factor band and a representative of the frequency spectrum classified into the third scale factor band adjacent to the high frequency side of the first scale factor band When the value is larger than the representative value of the first scale factor band, the same Huffman table is selected for the first, second, and third scale factor bands.
本発明によれば、音声信号に適したセクショニングを少ない処理量で行う音声符号化装置を提供することができる。 According to the present invention, it is possible to provide a speech coding apparatus that performs sectioning suitable for speech signals with a small amount of processing.
以下に、本発明による音声符号化装置の実施の形態を、図面を参照して説明する。 Embodiments of a speech encoding apparatus according to the present invention will be described below with reference to the drawings.
(第1の実施形態)
図1は、本発明の第1の実施形態に係る音声符号化装置の構成を示すブロック図である。この音声符号化装置は、装置全体の制御をする制御部11と、音声信号記憶部21と、時間/周波数変換部31と、心理聴覚解析部32と、スケールファクター乗算部33と、セクショニング部34と、量子化ループ処理部41と、フォーマッタ部51と、符号化音声信号記憶部52とからなる。
(First embodiment)
FIG. 1 is a block diagram showing a configuration of a speech encoding apparatus according to the first embodiment of the present invention. The speech coding apparatus includes a
量子化ループ処理部41は、量子化部42と、ハフマン符号化部43と、発生符号量カウント部44とからなる。
The quantization loop processing unit 41 includes a
上記のように構成された、本発明の第1の実施形態に係る音声符号化装置の各部の動作を図1を参照して説明する。 The operation of each unit of the speech coding apparatus according to the first embodiment of the present invention configured as described above will be described with reference to FIG.
音声信号記憶部21には、PCM(Pulse Code Modulation)方式でデジタル信号に変換された音声信号が記憶される。
The audio
時間/周波数変換部31は、音声信号記憶部21に記憶された音声信号を読み込んで、時間/周波数変換し、周波数スペクトルを作成して送信する。時間/周波数変換として、MDCT方式が用いられる。そして、周波数スペクトルとして、MDCT係数が作成される。なお、時間/周波数変換は、MDCT方式に限られるものではない。
The time /
心理聴覚解析部32には、マスキング効果特性を含む心理聴覚モデルが記憶される。そして、心理聴覚解析部32は、時間/周波数変換部31によって作成されたMDCT係数を受信し、記憶された心理聴覚モデルによってマスキング効果を適用した許容量子化歪み量を、受信されたMDCT係数のsfb毎に算出して送信する。また、レート制御情報を算出して送信する。
The
なお、心理聴覚解析部32は、これらの算出に際し、音声信号記憶部21に記憶された音声信号を読み込んで、時間/周波数変換部31とは異なる方式の時間/周波数変換、例えば、FFT(Fast Fourier Transform)方式の変換を行い、その変換によって得られた周波数スペクトルを用いても良い。この異なる変換を用いる方法によれば、時間/周波数変換部31及び心理聴覚解析部32によって2つの時間/周波数変換がされることによる処理量の増加が発生するが、これらの処理部にとって適切な変換を独立して選択することができる。
Note that the
スケールファクター乗算部33は、心理聴覚解析部32によって算出されたsfb毎の許容量子化歪み量を受信し、その歪み量からsfb毎にスケールファクターを算出する。そして、時間/周波数変換部31によって作成されたMDCT係数を受信し、そのMDCT係数にsfb毎に算出されたスケールファクターを乗算して、積のMDCT係数を送信する。
The scale
セクショニング部34は、スケールファクター乗算部33によって作成されたMDCT係数を受信し、セクションニング、即ち、2以上の隣り合うsfbを、同じセクションとする。そして、受信されたMDCT係数と、決定されたセクショニングを示す情報とを送信する。なお、あるsfbが無音である、即ち、そのsfbにMDCT係数が存在しない場合、セクショニング部34は、その旨を送信する。そして、そのsfbをセクショニングの対象としない。なぜなら、そのsfbは、ハフマンテーブルによる符号化の対象ではないからである。
The sectioning
量子化ループ処理部41は、量子化部42の動作と、ハフマン符号化部43の動作と、発生符号量カウント部44の動作とを繰り返す。そして、ハフマン符号化部43によって選択されたハフマンテーブルの情報と、そのハフマンテーブルを用いて符号化された符号と、心理聴覚解析部32から送信されたレート制御情報とを記憶する。
The quantization loop processing unit 41 repeats the operation of the
量子化部42は、セクショニング部34によって送信されたMDCT係数をsfb単位で非均一に量子化して、量子化されたMDCT係数を送信する。即ち、MDCT係数を除する際の除数である量子化ステップは、sfbに依存する。なお、あるsfbが無音である場合、量子化部42は、そのsfbを量子化の対象としない。
The
ハフマン符号化部43には、ハフマンテーブルが記憶される。そして、ハフマン符号化部43は、量子化部42によって送信された量子化されたMDCT係数を受信し、セクショニング部34によって作られたセクション毎、またはsfb毎に、適切なハフマンテーブルを選択して用いて符号化し、符号を量子化ループ処理部41内に記憶させ、また、送信する。また、無音であるsfbに関しては、ハフマンテーブルを使用しない符号化を行う。また、ハフマン符号化部43は、用いられたハフマンテーブルを量子化ループ処理部41内に記憶させる。
The Huffman encoder 43 stores a Huffman table. Then, the Huffman
発生符号量カウント部44は、ハフマン符号化部43によって符号化された符号の符号量、即ちビット数を計測し、各sfb毎のビット数を累積しつつ、量子化ループ処理部41内に記憶させる。この際、ハフマン符号化部43によって量子化ループ処理部41内に記憶されたハフマン符号化部43によって選択されたハフマンテーブルを識別する符号のビット数を併せて計測し、記憶させる。
The generated code
更に、発生符号量カウント部44は、心理聴覚解析部32から送信されたレート制御情報を量子化ループ処理部41内に記憶させ、その情報によって識別される各sfb毎に用いられたスケールファクターを示す符号のビット数を併せて計測し、記憶させる。これらを識別するビットは、符号化された音声信号であるビットストリームに含まれるからである。
Furthermore, the generated code
フォーマッタ部51は、量子化ループ処理部41内に記憶された、ハフマン符号化部43によって選択されたハフマンテーブルを識別する情報と、そのハフマンテーブルを用いて符号化された符号と、心理聴覚解析部32から送信されたレート制御情報を識別する情報とを読み込んで、符号化された音声信号であるビットストリームを所定の形式で作成し、符号化音声信号記憶部52に記憶させる。
The
以下、本実施形態に係る音声符号化装置のセクショニング部34によって行われるセクショニングの動作の詳細を説明する。
Details of the sectioning operation performed by the sectioning
セクショニング部34は、スケールファクター乗算部33によって送信されたMDCT係数を受信する。ここで、受信されたMDCT係数の一例を図2に示す。ここで、横軸は周波数であり、縦軸は、そのMDCT係数の振幅値、即ち大きさである。図2は、MDCT係数が、sfbに分割されていることを併せて示す。また、各sfb毎に最大の振幅であるMDCT係数の振幅を太線で示す。なお、図2には、各sfbの周波数帯域の幅は一定であり、各sfb毎に一定数のMDCT係数が含まれるように記載されているが、これらは、一例であって、本実施形態に何ら限定を加えるものではない。
The sectioning
セクショニング部34は、第1の方法及び第2の方法によってセクショニングを行う。まず、第1の方法を説明する。セクショニング部34は、各sfbに含まれるMDCT係数の中から最大値である係数を抽出する。図3は、各sfbから最大値であるMDCT係数が抽出された状態を示す。ここで、横軸はsfbであり、縦軸は、そのsfb毎のMDCT係数の最大の振幅値である。
The sectioning
ここで、各sfbで抽出されたMDCT係数の最大値をmax_quant[sfb]とする。そして、隣り合うsfbのMDCT係数の最大値の比が所定の範囲内である場合、セクショニング部34は、それらのsfbを同一セクションであると決定する。
Here, the maximum value of the MDCT coefficient extracted by each sfb is assumed to be max_quant [sfb]. When the ratio of the maximum values of the MDCT coefficients of adjacent sfb is within a predetermined range, the sectioning
最大値の比が所定の範囲内であるか否かの判断は、例えば、以下の不等式1が成り立つか否かによる。
Whether or not the ratio of the maximum values is within a predetermined range depends on whether or not the following
SEC_TH1<(max_quant[sfb+1]/ max_quant[sfb])< SEC_TH2 (不等式1)
なお、0<SEC_TH1<1 かつ 1< SEC_TH2 である。
SEC_TH1 <(max_quant [sfb + 1] / max_quant [sfb]) <SEC_TH2 (inequality 1)
Note that 0 <SEC_TH1 <1 and 1 <SEC_TH2.
ここで、SEC_TH1と、SEC_TH2とを乗算した積は1としても良い。例えば、SEC_TH1は1/2、SEC_TH2は2である。これらの値により、上記隣り合うsfbのMDCT係数の最大値の比が2倍以内であるか否かを判断することができる。 Here, the product obtained by multiplying SEC_TH1 and SEC_TH2 may be 1. For example, SEC_TH1 is 1/2 and SEC_TH2 is 2. Based on these values, it is possible to determine whether or not the ratio of the maximum values of the MDCT coefficients of the adjacent sfb is within twice.
このように、互いに隣り合うsfbのMDCT係数の最大値の比が所定の範囲内であるか否かによってセクショニングを行うことにより、セクショニング部34は、図4に例示するように、sfb0〜sfb2が1つのセクションであり、sfb3とsfb4とが1つのセクションであり、そして、sfb5〜sfb7が1つのセクションであると決定する。
Thus, by performing sectioning according to whether the ratio of the maximum values of the MDCT coefficients of sfb adjacent to each other is within a predetermined range, the sectioning
また、上記不等式1は、SEC_TH1を大きく、また、SEC_TH2を小さくする程、隣り合うsfbのMDCT係数の最大値が同じであっても成り立ち難くなる。即ち、同一のセクションと決定し難くなる、言い換えると、それらのsfb毎に独立してハフマンテーブルを選択するとの判断を行い易くなる。
Further, the
なお、装置が作成する符号化された音声信号であるビットストリームのビット数が多いことが許容される場合、sfb毎に略独立してハフマンテーブルを選択することによって、いずれのsfbにおいても適切なハフマンテーブルを選択しても良い。そして、その選択のために、上述のように、不等式1を成り立ち難くすることが有効である。
In addition, when it is allowed that the number of bits of the bit stream that is the encoded audio signal generated by the apparatus is large, it is appropriate for any sfb by selecting the Huffman table almost independently for each sfb. A Huffman table may be selected. For this selection, it is effective to make
なお、上記不等式1が成り立つ場合、同一のセクションとする処理によると、セクションの数は、音声信号記憶部21に記憶された音声信号に依存して変化し、一定ではない。即ち、不等式1が成り立つか否かの容易な判断によって、音声信号に依存した優れたセクショニングが行われる。
When the
第2の方法による場合、セクショニング部34は、MDCT係数の最大値が比較的小さいsfbを、そのsfbに隣り合うMDCT係数の最大値が比較的大きいsfbと同一セクションとする。即ち、MDCT係数の最大値が比較的小さいsfbを、MDCT係数の最大値が比較的大きいsfbに適した比較的大きいハフマンテーブルを用いるセクションに加える。
In the case of the second method, the sectioning
即ち、図5は、あるsfb(図5では、sfb1。)のMDCT係数の最大値が比較的小さいために、比較的小さいハフマンテーブルが選択され、そのsfbの両隣のsfb(図5では、sfb0及びsfb2。)のMDCT係数の最大値が比較的大きいために、比較的大きいハフマンテーブルが選択されている状況の一例を示す。ここで、sfb2〜sfb4は、セクショニング部34によって上記第1の方法に従い1つのセクションとされている。
That is, in FIG. 5, since the maximum value of the MDCT coefficient of a certain sfb (sfb1 in FIG. 5) is relatively small, a relatively small Huffman table is selected, and the sfb on both sides of the sfb (sfb0 in FIG. 5). And sfb2)) because the maximum value of the MDCT coefficient is relatively large, an example of a situation where a relatively large Huffman table is selected is shown. Here, sfb2 to sfb4 are made into one section by the sectioning
この状況で、セクショニング部34は、上記比較的大きい最大値が所定の閾値以上の場合、図6に示すように、上記sfb及びそのsfbの両隣のsfb(図6では、sfb0〜sfb4。)を1つのセクションにする。そして、このセクションには、上記両隣のsfbに適したハフマンテーブルが選択される。
In this situation, when the relatively large maximum value is equal to or greater than a predetermined threshold, the sectioning
このようにすることで、上記sfb(図6では、sfb1。)に含まれるMDCT係数は、それらの係数の最大値と対比すると過大なハフマンテーブルによって符号化されることになる。しかし、セクションの数を2つ減少させた、即ち、符号化された音声信号であるビットストリームから、ハフマンテーブルを識別する情報を2セット削減することができ、上記ビットストリームのビット長の削減が可能となる。 In this way, the MDCT coefficients included in the sfb (sfb1 in FIG. 6) are encoded by an excessive Huffman table as compared with the maximum values of these coefficients. However, it is possible to reduce two sets of information for identifying the Huffman table from the bit stream that is the number of sections reduced by two, that is, an encoded audio signal, and the bit length of the bit stream can be reduced. It becomes possible.
ここで、上記両隣のsfbのMDCT係数の最大値の比率が略等しく、それらのsfbのために選択されていたハフマンテーブルが同一であると予想される場合、特に、上記効果は顕著である。しかし、それらのために選択されていたハフマンテーブルが同一であると予想される場合に限ることはない。それらのハフマンテーブルが異なる場合、セクショニング部34は、新たに選択されたハフマンテーブルによって発生する符号化された符号量の増加量と、ハフマンテーブルを識別する情報を2セット削減したことによる符号量の削減量とから、または、これらの量の予想値によって、セクショニングを行うか否かを決定する。
Here, especially when the ratio of the maximum values of the MDCT coefficients of the adjacent sfb is substantially equal and the Huffman tables selected for the sfb are expected to be the same, the above effect is particularly remarkable. However, it is not limited to the case where the Huffman tables selected for them are expected to be the same. When these Huffman tables are different, the sectioning
第1の方法及び/または第2の方法は、1回のみ行われると限るものではない。即ち、セクショニングを1回行うことによって、セクションの数を充分に減らすことができない場合、セクショニング部34は、セクショニングの動作を繰り返して行うことにより、セクションの数を減らすことができる。この繰り返しは、任意の回数に渡って行って良いことは言うまでもない。
The first method and / or the second method are not limited to being performed only once. That is, if the number of sections cannot be sufficiently reduced by performing sectioning once, the sectioning
ここで、セクショニング部34は、第1の方法にあっては、SEC_TH1にi回目に用いた値より小さい値を設定し、また、SEC_TH2によりi回目に用いた値より大きい値を設定して、i+1回目以降のセクショニングを行う。また、第2の方法にあっては、上記閾値をi回目に用いた値より小さい値を設定して、i+1回目以降のセクショニングを行う。ここで、iは、1以上の整数である。
Here, in the first method, the sectioning
なお、上記の説明では、セクショニング部34は、各sfbに含まれるMDCT係数の中から最大値である係数を抽出するとしたが、これに限るものではない。MDCT係数を代表する値であれば良く、例えば、各sfbに含まれるMDCT係数の平均値を算出し、上記最大値に代えて、算出された平均値を用いても良い。
In the above description, the sectioning
平均値を用いると、sfbに多くのMDCT係数が含まれ、それらの係数の値に大きな差がない場合、わずかの差によって最大とされた値に強く依存せずにハフマンテーブルを選択することになる。この選択により、音質が優れた符号化された音声信号が作成され、また、符号化された音声信号ビットストリームのビット長の削減が可能となる。 When the average value is used, when many MDCT coefficients are included in sfb and there is no large difference in the values of these coefficients, the Huffman table is selected without strongly depending on the value maximized by a slight difference. Become. By this selection, an encoded audio signal with excellent sound quality is created, and the bit length of the encoded audio signal bit stream can be reduced.
次に、制御部11による音声信号符号化の制御動作を説明する。図7は、制御部11による音声信号符号化の制御動作を示すフローチャートである。
Next, the audio signal encoding control operation by the
制御部11は、音声信号符号化の制御動作を開始し(ステップS11a)、音声信号記憶部21に記憶された所定量の音声信号を読み込み、音声符号化装置の各部を制御して、以下の動作を行わせる。
The
即ち、制御部11は、時間/周波数変換部31を制御して、上記フレームからMDCT係数を算出させる(ステップS11b)。そして、心理聴覚解析部32を制御して、上記MDCT係数から許容量子化歪み量と、レート制御情報とを算出させ、スケールファクター乗算部33を制御して、上記許容量子化歪み量からスケールファクターを算出させ、上記MDCT係数と、乗算させる(ステップS11c)。そして、セクショニング部34を制御して、乗算されたMDCT係数からセクショニングを行わせる(ステップS11d)。
That is, the
次に、制御部11は、量子化ループ処理部41を制御して、量子化のループをさせる。即ち、量子化部42を制御して、スケールファクターが乗算されたMDCT係数を量子化させる(ステップS11e)。そして、ハフマン符号化部43を制御して、セクショニング結果に従ってハフマンテーブルを選択させて、量子化されたMDCT係数をハフマン符号化させる。そして、符号と、符号量と、選択されたハフマンテーブルを記憶させる(ステップS11f)。
Next, the
そして、制御部11は、発生符号量カウント部44を制御して、発生した全ての符号量を計測させ、その符号量が所定のビット長以内であるか否かを判断させる(ステップS11g)。そして、所定のビット長以内であった場合、フォーマッタ部51を制御して、符号化された音声信号を所定のビットストリーム形式に整えさせ、符号化音声信号記憶部52に記憶させ、(ステップS11h)、動作を終了する(ステップS11i)。
Then, the
一方、所定のビット長以内でなかった場合、制御部11は、ステップS11eの量子化部42を制御して量子化を行うステップに戻って、動作させる。この際、より大きい量子化ステップによって量子化をさせる。
On the other hand, when it is not within the predetermined bit length, the
(第2の実施形態)
図8は、本発明の第2の実施形態に係る音声符号化装置の構成を示すブロック図である。この第2の実施形態に係る音声符号化装置で、第1の実施形態に係る音声符号化装置と同じ部分には、同じ符号を付して説明を省略する。この第2の実施形態に係る音声符号化装置は、装置全体の制御をする制御部11と、音声信号記憶部21と、時間/周波数変換部31と、心理聴覚解析部32と、スケールファクター乗算部33と、量子化ループ処理部41と、フォーマッタ部51と、符号化音声信号記憶部52とからなる。
(Second Embodiment)
FIG. 8 is a block diagram showing a configuration of a speech encoding apparatus according to the second embodiment of the present invention. In the speech encoding apparatus according to the second embodiment, the same parts as those in the speech encoding apparatus according to the first embodiment are denoted by the same reference numerals and description thereof is omitted. The speech coding apparatus according to the second embodiment includes a
量子化ループ処理部41は、量子化部42と、セクショニング部34と、ハフマン符号化部43と、発生符号量カウント部44とからなる。
The quantization loop processing unit 41 includes a
そして、第2の実施形態に係る音声符号化装置と、第1の実施形態に係る音声符号化装置との相違点は、以下の点である。即ち、セクショニング部34は、第1の実施形態では、スケールファクター乗算部33によって作成されたMDCT係数に基づいて、セクションニングを行ったのに対し、第2の実施形態では、量子化ループ処理部41内に置かれ、量子化部42によって量子化されたMDCT係数に基づいて、セクションニングを行うことである。
The differences between the speech encoding apparatus according to the second embodiment and the speech encoding apparatus according to the first embodiment are as follows. That is, the sectioning
これに伴い、第2の実施形態では、スケールファクター乗算部33によって作成されたMDCT係数は、量子化部42に送られ、セクショニング部34によって送信されたMDCT係数と、セクショニングを示す情報とは、ハフマン符号化部43が受信する。また、スケールファクター乗算部33は、あるsfbが無音である場合、その旨をセクショニング部34に送信する。
Accordingly, in the second embodiment, the MDCT coefficient created by the scale
次に、第2の実施形態に係る音声符号化装置の制御部11による音声信号符号化の制御動作を説明する。図9は、制御部11による音声信号符号化の制御動作を示すフローチャートである。この第2の実施形態に係る制御動作で、第1の実施形態に係る制御動作と同じ動作ステップには、同じ符号を付して説明を省略する。
Next, the control operation of speech signal encoding by the
この第2の実施形態に係る制御動作と、第1の実施形態に係る制御動作との相違点は、以下の点である。即ち、第1の実施形態においては、ステップS11dのセクショニング部34を制御してセクショニングを行わせる制御動作は、ステップS11cのスケールファクターの決定、その乗算の動作と、ステップS11eの量子化の動作の間に置かれたのに対し、第2の実施形態においては、ステップS11eの量子化の動作と、ステップS11fのハフマン符号化、発生符号記憶の動作との間に置かれることである。
The differences between the control operation according to the second embodiment and the control operation according to the first embodiment are as follows. That is, in the first embodiment, the control operation for controlling the sectioning
これによって、ステップS11dのセクショニングを行わせる動作は、ステップS11gの発生された全ての符号量が所定のビット長以内であるか否かを判断させる動作によって、所定のビット長以内でないと判断された場合、繰り返し行われることになる。そこで、繰り返し行われる際に、制御部11は、量子化部42を制御して、より大きい量子化ステップによって量子化をさせることに加えて、または、代えて、上述したように、セクショニング部34を制御して、一層セクションの数を減らさせても良い。
Accordingly, the operation for performing the sectioning in step S11d is determined not to be within the predetermined bit length by the operation for determining whether or not all the generated code amounts in step S11g are within the predetermined bit length. The case will be repeated. Thus, when repeatedly performed, the
(その他の実施形態)
上記の実施形態では、入力される音声信号は、音声信号記憶部21に記憶されるとした。これは、符号化される全ての音声信号が記憶されるとしても良い。また、例えば、マイクロフォン(図示せず)によって入力されたアナログ信号がPCM方式でデジタル信号に変換され、音声信号記憶部21に記憶される動作と、符号化の動作が並行して行われても良い。
(Other embodiments)
In the above embodiment, the input audio signal is stored in the audio
また、符号化された音声信号は、符号化音声信号記憶部52に記憶されるとした。これは、符号化された全ての音声信号が記憶されるとしても良い。また、符号化の動作と、例えば、符号化された信号が通信回線を介して送信される動作とが並行して行われても良い。この動作が並行して行われる場合、符号化された音声信号であるビットストリームの許容される大きさは、上記送信のビットレートの速さに対応することは、言うまでもない。
Also, the encoded audio signal is stored in the encoded audio
本発明の実施形態に係る音声符号化装置は、プログラムを利用して動作するコンピュータであっても良い。また、本発明は、音声信号を符号化するあらゆる装置に適用することが当然に可能である。また、上記の実施形態で説明した要素を適宜組み合わせても良い。本発明は以上の構成に限定されるものではなく、種々の変形が可能である。 The speech encoding apparatus according to the embodiment of the present invention may be a computer that operates using a program. In addition, the present invention can naturally be applied to any device that encodes an audio signal. Moreover, you may combine suitably the element demonstrated in said embodiment. The present invention is not limited to the above configuration, and various modifications are possible.
11 制御部
31 時間/周波数変換部
32 心理聴覚解析部
33 スケールファクター乗算部
34 セクショニング部
41 量子化ループ処理部
42 量子化部
43 ハフマン符号化部
44 発生符号量カウント部
51 フォーマッタ部
DESCRIPTION OF
Claims (5)
前記符号化手段は、隣り合う前記スケールファクターバンドに分類された周波数スペクトルの代表値の比率が所定の比率以内である場合、それらのスケールファクターバンドに同一の前記ハフマンテーブルを選択する
ことを特徴とする音声符号化装置。 The audio signal is converted into a frequency spectrum classified into a predetermined scale factor band, and one of a plurality of Huffman tables depending on the representative value of the frequency spectrum classified into the scale factor band for each scale factor band. A Huffman table is selected, the frequency spectrum classified into the scale factor band is encoded with reference to the selected Huffman table, and the encoded frequency spectrum and a code for identifying the referenced Huffman table are encoded. Encoding means for creating an encoded audio signal including:
When the ratio of the representative values of the frequency spectrum classified into the adjacent scale factor bands is within a predetermined ratio, the encoding means selects the same Huffman table for those scale factor bands. A speech encoding device.
前記符号化手段は、第1の前記スケールファクターバンドに分類された周波数スペクトルの代表値が小さく、その第1のスケールファクターバンドの低周波数側に隣り合う第2の前記スケールファクターバンドに分類された周波数スペクトルの代表値と、その第1のスケールファクターバンドの高周波数側に隣り合う第3の前記スケールファクターバンドに分類された周波数スペクトルの代表値とが前記第1のスケールファクターバンドの代表値より大きい場合、前記第1、前記第2及び前記第3のスケールファクターバンドに同一の前記ハフマンテーブルを選択する
ことを特徴とする音声符号化装置。 The audio signal is converted into a frequency spectrum classified into a predetermined scale factor band, and one of a plurality of Huffman tables depending on the representative value of the frequency spectrum classified into the scale factor band for each scale factor band. A Huffman table is selected, the frequency spectrum classified into the scale factor band is encoded with reference to the selected Huffman table, and the encoded frequency spectrum and a code for identifying the referenced Huffman table are encoded. Encoding means for creating an encoded audio signal including:
The encoding means has a small representative value of the frequency spectrum classified into the first scale factor band, and is classified into the second scale factor band adjacent to the low frequency side of the first scale factor band. The representative value of the frequency spectrum and the representative value of the frequency spectrum classified into the third scale factor band adjacent to the high frequency side of the first scale factor band are the representative values of the first scale factor band. If larger, the same Huffman table is selected for the first, second, and third scale factor bands.
ことを特徴とする請求項1または請求項2に記載の音声符号化装置。 The encoding means converts the speech signal into a frequency spectrum quantized by a quantization step depending on the scale factor band when the speech signal is converted into a frequency spectrum classified into the predetermined scale factor band. The speech encoding apparatus according to claim 1 or 2.
ことを特徴とする請求項1または請求項2に記載の音声符号化装置。 The encoding means converts the audio signal into a frequency spectrum multiplied by a scale factor depending on the scale factor band when the audio signal is converted into a frequency spectrum classified into the predetermined scale factor band. The speech encoding apparatus according to claim 1 or 2.
ことを特徴とする請求項1または請求項2に記載の音声符号化装置。 The speech code according to claim 1 or 2, wherein a representative value of the frequency spectrum classified into the scale factor band is a maximum value or an average value of the frequency spectrum classified into the scale factor band. Device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006203417A JP5010197B2 (en) | 2006-07-26 | 2006-07-26 | Speech encoding device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006203417A JP5010197B2 (en) | 2006-07-26 | 2006-07-26 | Speech encoding device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008032823A true JP2008032823A (en) | 2008-02-14 |
JP5010197B2 JP5010197B2 (en) | 2012-08-29 |
Family
ID=39122344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006203417A Expired - Fee Related JP5010197B2 (en) | 2006-07-26 | 2006-07-26 | Speech encoding device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5010197B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011022435A (en) * | 2009-07-17 | 2011-02-03 | Sony Corp | Signal encoding apparatus, signal decoding apparatus, signal processing system, processing method and program therefor |
WO2012144127A1 (en) * | 2011-04-20 | 2012-10-26 | パナソニック株式会社 | Device and method for execution of huffman coding |
JP2016126060A (en) * | 2014-12-26 | 2016-07-11 | 日置電機株式会社 | Measurement data processing device and measurement data processing method |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001007707A (en) * | 1999-04-20 | 2001-01-12 | Matsushita Electric Ind Co Ltd | Encoding device |
JP2001188563A (en) * | 2000-01-05 | 2001-07-10 | Matsushita Electric Ind Co Ltd | Effective sectioning method for audio coding |
JP2002091498A (en) * | 2000-09-19 | 2002-03-27 | Victor Co Of Japan Ltd | Audio signal encoding device |
JP2003233397A (en) * | 2002-02-12 | 2003-08-22 | Victor Co Of Japan Ltd | Device, program, and data transmission device for audio encoding |
-
2006
- 2006-07-26 JP JP2006203417A patent/JP5010197B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001007707A (en) * | 1999-04-20 | 2001-01-12 | Matsushita Electric Ind Co Ltd | Encoding device |
JP2001188563A (en) * | 2000-01-05 | 2001-07-10 | Matsushita Electric Ind Co Ltd | Effective sectioning method for audio coding |
JP2002091498A (en) * | 2000-09-19 | 2002-03-27 | Victor Co Of Japan Ltd | Audio signal encoding device |
JP2003233397A (en) * | 2002-02-12 | 2003-08-22 | Victor Co Of Japan Ltd | Device, program, and data transmission device for audio encoding |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011022435A (en) * | 2009-07-17 | 2011-02-03 | Sony Corp | Signal encoding apparatus, signal decoding apparatus, signal processing system, processing method and program therefor |
WO2012144127A1 (en) * | 2011-04-20 | 2012-10-26 | パナソニック株式会社 | Device and method for execution of huffman coding |
JP5937064B2 (en) * | 2011-04-20 | 2016-06-22 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Audio / voice encoding apparatus, audio / voice decoding apparatus, audio / voice encoding method, and audio / voice decoding method |
US9881625B2 (en) | 2011-04-20 | 2018-01-30 | Panasonic Intellectual Property Corporation Of America | Device and method for execution of huffman coding |
US10204632B2 (en) | 2011-04-20 | 2019-02-12 | Panasonic Intellectual Property Corporation Of America | Audio/speech encoding apparatus and method, and audio/speech decoding apparatus and method |
US10515648B2 (en) | 2011-04-20 | 2019-12-24 | Panasonic Intellectual Property Corporation Of America | Audio/speech encoding apparatus and method, and audio/speech decoding apparatus and method |
JP2016126060A (en) * | 2014-12-26 | 2016-07-11 | 日置電機株式会社 | Measurement data processing device and measurement data processing method |
Also Published As
Publication number | Publication date |
---|---|
JP5010197B2 (en) | 2012-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11355129B2 (en) | Energy lossless-encoding method and apparatus, audio encoding method and apparatus, energy lossless-decoding method and apparatus, and audio decoding method and apparatus | |
JP4413257B2 (en) | Apparatus and method for processing multi-channel signals | |
KR101019678B1 (en) | Low bit-rate audio coding | |
KR100547113B1 (en) | Audio data encoding apparatus and method | |
JPH05304479A (en) | High efficient encoder of audio signal | |
US6915255B2 (en) | Apparatus, method, and computer program product for encoding audio signal | |
KR102512359B1 (en) | Energy lossless-encoding method and apparatus, signal encoding method and apparatus, energy lossless-decoding method and apparatus, and signal decoding method and apparatus | |
US8606567B2 (en) | Signal encoding apparatus, signal decoding apparatus, signal processing system, signal encoding process method, signal decoding process method, and program | |
KR101361933B1 (en) | Frequency band scale factor determination in audio encoding based upon frequency band signal energy | |
JP2002328699A (en) | Encoder and decoder | |
JP5201375B2 (en) | Speech signal coding using interchannel and temporal redundancy suppression. | |
JP5010197B2 (en) | Speech encoding device | |
KR101301245B1 (en) | A method and apparatus for adaptive sub-band allocation of spectral coefficients | |
JP4533386B2 (en) | Audio encoding apparatus and audio encoding method | |
JP2003233397A (en) | Device, program, and data transmission device for audio encoding | |
JP5379871B2 (en) | Quantization for audio coding | |
JP4822816B2 (en) | Audio signal encoding apparatus and method | |
JP4625709B2 (en) | Stereo audio signal encoding device | |
JP2008139781A (en) | Speech encoding method and device | |
JP2006047561A (en) | Audio signal encoding device and audio signal decoding device | |
JP5724338B2 (en) | Encoding device, encoding method, decoding device, decoding method, and program | |
JP2001148632A (en) | Encoding device, encoding method and recording medium | |
JP2001265392A (en) | Voice coding device and its method | |
JP2005196029A (en) | Encoding equipment and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090630 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110808 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120508 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120601 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150608 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |