JP2008309875A - Speech encoding device, speech decoding device, speech encoding method, speech decoding method, and program - Google Patents
Speech encoding device, speech decoding device, speech encoding method, speech decoding method, and program Download PDFInfo
- Publication number
- JP2008309875A JP2008309875A JP2007155308A JP2007155308A JP2008309875A JP 2008309875 A JP2008309875 A JP 2008309875A JP 2007155308 A JP2007155308 A JP 2007155308A JP 2007155308 A JP2007155308 A JP 2007155308A JP 2008309875 A JP2008309875 A JP 2008309875A
- Authority
- JP
- Japan
- Prior art keywords
- maximum value
- value
- predetermined time
- past
- time segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、聴覚の特性を考慮した音声圧縮復元を実行する際に必要となる、音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラムに関する。 The present invention relates to a voice encoding device, a voice decoding device, a voice encoding method, a voice decoding method, and a program, which are required when executing voice compression / decompression considering auditory characteristics.
通信容量が限られている状況下でなされる音声通信においては、できるだけ少ないデータによりできるだけ高品質の声音が復元可能となるように、音声符号化及び音声復号に工夫が必要となる。 In voice communication performed under a situation where the communication capacity is limited, it is necessary to devise voice encoding and voice decoding so that voice quality with as high quality as possible can be restored with as little data as possible.
かかる工夫のひとつの方向として、人間の聴覚の特性を有効に利用することが挙げられる。 One direction of such a device is to make effective use of human auditory characteristics.
聴覚の特性を考慮した音声符号化方法としては、音声信号をスペクトルに変換した後、聴覚の特性から導かれる臨界帯域を考慮しつつ、該スペクトルを複数のサブバンドに分割する方法が知られている(例えば、特許文献1及び非特許文献1参照)。
As a speech coding method considering auditory characteristics, a method is known in which a speech signal is converted into a spectrum, and then the spectrum is divided into a plurality of subbands while considering a critical band derived from the auditory characteristics. (For example, refer to
かかる方法においては、上述のサブバンド毎に、信号値、マスキング量、雑音等が勘案され、符号化に必要なビット数が算出された後、符号化が行われる。
しかし、かかる方法においては、符号化に必要なビット数の算出の手順が複雑であり、多くの計算ステップが必要となる。これは、例えばひとつには、マスキング量の算出が容易ではないためである。 However, in this method, the procedure for calculating the number of bits necessary for encoding is complicated, and many calculation steps are required. This is because, for example, it is not easy to calculate the masking amount.
よって、かかる方法を採用すると、符号化装置等の内部のCPU等の演算装置の処理負担が大きくなってしまい、処理速度の低下を招き得る。すると例えば、携帯電話等の用途において、リアルタイムで相互通話を行うのが困難になる。 Therefore, when such a method is employed, the processing load of an arithmetic device such as a CPU inside the encoding device or the like becomes large, and the processing speed may be reduced. Then, for example, in applications such as mobile phones, it becomes difficult to make a mutual call in real time.
そこで、聴覚特性を考慮しつつ高速な音声符号化及び復号処理を可能とするような、リアルタイム通話等が実用上問題のない音質で行われる符号化及び復号装置が必要とされている。 Therefore, there is a need for an encoding / decoding device that can perform high-speed audio encoding / decoding processing in consideration of auditory characteristics and that can perform real-time calls and the like with sound quality that is practically acceptable.
本発明は、上記実情に鑑みてなされたものである。すなわち、通信容量が制約されている状況において、音声符号化にあたっては、音声信号の連続性及び定常性に着目することによる符号長の短縮と、聴覚特性を考慮した帯域別信号処理による高速化と、が図られ、音声復号にあたっては、実用上問題のない品質の音声を高速で復元できるようにした、音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances. That is, in a situation where communication capacity is limited, in speech coding, shortening the code length by paying attention to the continuity and continuity of the speech signal, and speeding up by band-based signal processing considering auditory characteristics In speech decoding, a speech encoding device, speech decoding device, speech encoding method, speech decoding method, and program that can restore speech of high quality without any practical problem at high speed are provided. The purpose is to do.
上記目的を達成するために、この発明の第1の観点に係る音声符号化装置は、
デジタル音声信号について、所定の時間区分毎に、所定の帯域幅を有する小区画帯域毎の周波数成分の値を求める離散スペクトル変換手段と、
聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索手段と、
前記最大値検索手段により検索された最大値を記憶する最大値記憶手段と、
前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化手段と、
を備え、
前記最大値検索手段は、
前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値を前記最大値記憶手段に記憶させるとともに、該所定の時間区分よりも時間的に過去の所定の時間区分において該最大値記憶手段に記憶させた最大値である過去最大値を該最大値記憶手段から取得し、現最大値を過去最大値に関連付けられた値に変換する、
ことを特徴とする。
In order to achieve the above object, a speech encoding apparatus according to the first aspect of the present invention provides:
Discrete spectrum conversion means for obtaining a value of a frequency component for each sub-band having a predetermined bandwidth for each predetermined time segment for the digital audio signal;
For each medium partition band composed of a predetermined number of consecutive sub-compartment bands set in advance according to auditory characteristics, for each predetermined time section, out of the frequency component values belonging to the medium-compartment band A maximum value search means for searching for a maximum value;
Maximum value storage means for storing the maximum value searched by the maximum value search means;
Encoding means for quantizing and entropy-encoding and outputting information generated based on the maximum value and a frequency component normalized by division by the maximum value;
With
The maximum value search means includes:
For each predetermined time segment, the current maximum value that is the maximum value searched in the predetermined time segment is stored in the maximum value storage means, and a predetermined time segment that is earlier in time than the predetermined time segment Obtaining the past maximum value, which is the maximum value stored in the maximum value storage means, from the maximum value storage means, and converting the current maximum value into a value associated with the past maximum value,
It is characterized by that.
音声信号の連続性及び定常性ゆえに、前記現最大値と前記過去最大値とを関連付けることにより前記情報の内容に偏りを生じさせることができる。そして、かかる偏りのある情報をエントロピ符号化するため、高い効率で符号化することができる。 Because of the continuity and continuity of the audio signal, the information content can be biased by associating the current maximum value with the past maximum value. Since such biased information is entropy-encoded, it can be encoded with high efficiency.
前記中区画帯域に低域から順に中区画識別用整数を割り当て、前記中区画帯域の中心周波数の対数が、前記中区画識別用整数に線型的に依存するように前記中区画帯域を構成する中区画帯域構成手段をさらに備える、ことが望ましい。 A medium partition identification integer is assigned to the medium partition band in order from the low range, and the medium partition band is configured such that the logarithm of the center frequency of the medium partition band linearly depends on the medium partition identification integer. It is desirable to further comprise a zone band configuration means.
人間の聴覚には、低周波音であるほど、周波数のわずかな差にも敏感であり、その感度は、周波数に対して対数的に変化する、という特性がある。よって、かかる中区画帯域構成手段をさらに備えることは、聴覚特性を考慮した音声符号化装置にふさわしい。 The human auditory sense is that the lower the frequency, the more sensitive to a slight difference in frequency, and the sensitivity changes logarithmically with frequency. Therefore, it is suitable for a speech coding apparatus considering auditory characteristics to further include such a medium zone band forming means.
前記最大値検索手段は、前記現最大値から前記過去最大値を減算した値である差分を求め、前記符号化手段は、前記差分と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、ようにしてもよい。 The maximum value search means calculates a difference that is a value obtained by subtracting the past maximum value from the current maximum value, and the encoding means quantizes the difference and the normalized frequency component to perform entropy encoding. May be output.
音声信号の連続性及び定常性ゆえに、前記現最大値自体として出現する値に比べると、前記差分として出現する値は小さい値に偏る。よって、偏りのある情報がエントロピ符号化されることになり、高い効率で符号化することができる。 Due to the continuity and continuity of the audio signal, the value appearing as the difference is biased toward a smaller value than the value appearing as the current maximum value itself. Therefore, biased information is entropy encoded, and can be encoded with high efficiency.
あるいは、前記最大値検索手段は、前記現最大値を前記過去最大値により除算した値である比率を求め、前記符号化手段は、前記比率と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、ようにしてもよい。 Alternatively, the maximum value search means obtains a ratio that is a value obtained by dividing the current maximum value by the past maximum value, and the encoding means quantizes the ratio and the normalized frequency component to entropy. You may make it encode and output.
前記比率として出現する値は1の近傍に偏るので、高い効率で符号化することができる。 Since the value appearing as the ratio is biased to the vicinity of 1, encoding can be performed with high efficiency.
最大差分決定手段をさらに備え、前記最大値検索手段は、前記現最大値から前記過去最大値を減算した値である差分を求め、前記最大差分決定手段は、前記最大値検索手段が全ての前記中区画帯域毎に求めた差分のうちの最大値である最大差分を求め、前記符号化手段は、前記最大差分と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、ようにしてもよい。 Further comprising a maximum difference determining means, wherein the maximum value searching means obtains a difference that is a value obtained by subtracting the past maximum value from the current maximum value, and the maximum difference determining means is configured such that the maximum value searching means A maximum difference that is a maximum value among the differences determined for each of the medium partition bands is obtained, and the encoding unit quantizes and entropy-encodes the maximum difference and the standardized frequency component and outputs the result. It may be.
差分に関する情報として最大差分だけが符号化されるので、符号量が少なくて済む。 Since only the maximum difference is encoded as information regarding the difference, the amount of code can be reduced.
あるいは、最大比率決定手段をさらに備え、前記最大値検索手段は、前記現最大値を前記過去最大値により除算した値である比率を求め、前記最大比率決定手段は、前記最大値検索手段が全ての前記中区画帯域毎に求めた比率のうちの最大値である最大比率を求め、前記符号化手段は、前記最大比率と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、ようにしてもよい。 Alternatively, a maximum ratio determining means is further provided, wherein the maximum value searching means obtains a ratio that is a value obtained by dividing the current maximum value by the past maximum value, and the maximum ratio determining means includes all the maximum value searching means. The maximum ratio, which is the maximum value among the ratios determined for each of the medium partition bands, is obtained, and the encoding unit quantizes and entropy-encodes the maximum ratio and the normalized frequency component and outputs the result. You may do it.
比率に関する情報として最大比率だけが符号化されるので、符号量が少なくて済む。また、音声信号のスペクトル形状は時間とともに相似性を保ちつつ変化する場合が多いため、符号化の際の精度低下が抑制される。 Since only the maximum ratio is encoded as information relating to the ratio, the amount of code can be reduced. In addition, since the spectrum shape of the audio signal often changes with time while maintaining similarity, a decrease in accuracy during encoding is suppressed.
前記離散スペクトル変換手段は、例えば、MDCT(Modified Discrete Cosine Transform)を用いる。 The discrete spectrum conversion means uses, for example, MDCT (Modified Discrete Cosine Transform).
上記目的を達成するために、この発明の第2の観点に係る音声復号装置は、
所定の時間区分毎の音声信号の量子化スペクトルに帯域毎の規格化を含む変形を施した結果である変形スペクトルデータと前記規格化に用いられる値である規格化用値とがエントロピ符号化されることにより生成された符号を受信する受信手段と、
前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号手段と、
復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形手段と、
前記規格化用値を記憶する規格化用値記憶手段と、
復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換手段と、
を備え、
前記逆変形手段は、
前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値を前記規格化用値記憶手段に記憶させるとともに、該所定の時間区分よりも時間的に過去の所定の時間区分において該規格化用値記憶手段に記憶させた規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
ことを特徴とする。
In order to achieve the above object, a speech decoding apparatus according to the second aspect of the present invention provides:
Entropy coding is performed on the quantized spectrum of the audio signal for each predetermined time segment, which is a result of performing deformation including normalization for each band, and the normalization value that is a value used for the normalization. Receiving means for receiving the code generated by
Decoding means for decoding the modified spectrum data and the normalization value for each of the predetermined time intervals from the code by a decoding method corresponding to the entropy encoding;
Inverse deformation means for restoring the quantized spectrum for each of the predetermined time segments using the standardized value decoded from the deformed spectrum data decoded;
Normalization value storage means for storing the normalization value;
Discrete spectrum inverse transform means for restoring the speech signal from the restored quantized spectrum;
With
The reverse deformation means includes
For each predetermined time segment, the current standardization value, which is a standardization value decoded in the predetermined time segment, is stored in the standardization value storage means, and more time-dependent than the predetermined time segment. A past standardization value that is a standardization value stored in the standardization value storage means in a predetermined past time period, and based on the current standardization value and the past standardization value Restore the quantized spectrum,
It is characterized by that.
上記目的を達成するために、この発明の第3の観点に係る音声符号化方法は、
デジタル音声信号について、所定の時間区分毎に、所定の帯域幅を有する小区画帯域毎の周波数成分の値を求める離散スペクトル変換ステップと、
聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索ステップと、
前記最大値検索ステップにより検索された最大値を記憶する最大値記憶ステップと、
前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化ステップと、
から構成され、
前記最大値検索ステップは、
前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値が前記最大値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の最大値記憶ステップで記憶した最大値である過去最大値を取得し、現最大値を過去最大値に関連付けられた値に変換する、
ことを特徴とする。
In order to achieve the above object, a speech encoding method according to a third aspect of the present invention includes:
For a digital audio signal, for each predetermined time segment, a discrete spectrum conversion step for obtaining a value of a frequency component for each sub-compartment band having a predetermined bandwidth;
For each medium partition band composed of a predetermined number of consecutive sub-compartment bands set in advance according to auditory characteristics, for each predetermined time section, out of the frequency component values belonging to the medium-compartment band A maximum value search step for searching for a maximum value;
A maximum value storing step for storing the maximum value searched by the maximum value searching step;
An encoding step of quantizing and entropy-encoding and outputting information generated based on the maximum value and a frequency component normalized by division by the maximum value;
Consisting of
The maximum value search step includes:
For each predetermined time segment, when the current maximum value, which is the maximum value searched in the predetermined time segment, is stored by the maximum value storing step, a predetermined past in time than the predetermined time segment is stored. Obtain the past maximum value that is the maximum value stored in the past maximum value storage step in the time segment, and convert the current maximum value to a value associated with the past maximum value,
It is characterized by that.
上記目的を達成するために、この発明の第4の観点に係る音声復号方法は、
所定の時間区分毎の音声信号の量子化スペクトルに帯域毎の規格化を含む変形を施した結果である変形スペクトルデータと前記規格化に用いられる値である規格化用値とがエントロピ符号化されることにより生成された符号を受信する受信ステップと、
前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号ステップと、
復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形ステップと、
前記規格化用値を記憶する規格化用値記憶ステップと、
復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換ステップと、
から構成され、
前記逆変形ステップは、
前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値が前記規格化用値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の規格化用値記憶ステップで記憶した規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
ことを特徴とする。
In order to achieve the above object, a speech decoding method according to the fourth aspect of the present invention provides:
Entropy coding is performed on the quantized spectrum of the audio signal for each predetermined time segment, which is a result of performing deformation including normalization for each band, and the normalization value that is a value used for the normalization. A receiving step for receiving a code generated by
A decoding step of decoding the modified spectrum data and the normalization value for each of the predetermined time intervals from the code by a decoding method corresponding to the entropy encoding;
An inverse transformation step of restoring the quantized spectrum for each predetermined time segment using the standardized value decoded from the decoded spectral data,
A normalization value storing step for storing the normalization value;
A discrete spectrum inverse transform step of restoring the speech signal from the restored quantized spectrum;
Consisting of
The reverse deformation step includes
For each predetermined time segment, when the current standardization value, which is a standardization value decoded in the predetermined time segment, is stored by the standardization value storage step, A past standardization value that is a standardization value stored in the past standardization value storage step in a predetermined time segment in the past is acquired, and based on the current standardization value and the past standardization value To restore the quantized spectrum,
It is characterized by that.
上記目的を達成するために、この発明の第5の観点に係るプログラムは、
コンピュータに、
デジタル音声信号について、所定の時間区分毎に、所定の帯域幅を有する小区画帯域毎の周波数成分の値を求める離散スペクトル変換ステップと、
聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索ステップと、
前記最大値検索ステップにより検索された最大値を記憶する最大値記憶ステップと、
前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化ステップと、
を実行させるプログラムであって、
前記最大値検索ステップは、
前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値が前記最大値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の最大値記憶ステップで記憶した最大値である過去最大値を取得し、現最大値を過去最大値に関連付けられた値に変換する、
ことを特徴とする。
In order to achieve the above object, a program according to the fifth aspect of the present invention provides:
On the computer,
For a digital audio signal, for each predetermined time segment, a discrete spectrum conversion step for obtaining a value of a frequency component for each sub-compartment band having a predetermined bandwidth;
For each medium partition band composed of a predetermined number of consecutive sub-compartment bands set in advance according to auditory characteristics, for each predetermined time section, out of the frequency component values belonging to the medium-compartment band A maximum value search step for searching for a maximum value;
A maximum value storing step for storing the maximum value searched by the maximum value searching step;
An encoding step of quantizing and entropy-encoding and outputting information generated based on the maximum value and a frequency component normalized by division by the maximum value;
A program for executing
The maximum value search step includes:
For each predetermined time segment, when the current maximum value, which is the maximum value searched in the predetermined time segment, is stored by the maximum value storing step, a predetermined past in time than the predetermined time segment is stored. Obtain the past maximum value that is the maximum value stored in the past maximum value storage step in the time segment, and convert the current maximum value to a value associated with the past maximum value,
It is characterized by that.
上記目的を達成するために、この発明の第6の観点に係るプログラムは、
コンピュータに、
所定の時間区分毎の音声信号の量子化スペクトルに帯域毎の規格化を含む変形を施した結果である変形スペクトルデータと前記規格化に用いられる値である規格化用値とがエントロピ符号化されることにより生成された符号を受信する受信ステップと、
前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号ステップと、
復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形ステップと、
前記規格化用値を記憶する規格化用値記憶ステップと、
復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換ステップと、
を実行させるプログラムであって、
前記逆変形ステップは、
前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値が前記規格化用値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の規格化用値記憶ステップで記憶した規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
ことを特徴とする。
In order to achieve the above object, a program according to the sixth aspect of the present invention provides:
On the computer,
Entropy coding is performed on the quantized spectrum of the audio signal for each predetermined time segment, which is a result of performing deformation including normalization for each band, and the normalization value that is a value used for the normalization. A receiving step for receiving a code generated by
A decoding step of decoding the modified spectrum data and the normalization value for each of the predetermined time intervals from the code by a decoding method corresponding to the entropy encoding;
An inverse transformation step of restoring the quantized spectrum for each predetermined time segment using the standardized value decoded from the decoded spectral data,
A normalization value storing step for storing the normalization value;
A discrete spectrum inverse transform step of restoring the speech signal from the restored quantized spectrum;
A program for executing
The reverse deformation step includes
For each predetermined time segment, when the current standardization value, which is a standardization value decoded in the predetermined time segment, is stored by the standardization value storage step, A past standardization value that is a standardization value stored in the past standardization value storage step in a predetermined time segment in the past is acquired, and based on the current standardization value and the past standardization value To restore the quantized spectrum,
It is characterized by that.
本発明によれば、音声信号の特性と聴覚の特性とが考慮された上で音声信号が帯域毎に処理される。よって、高音質を確保しつつも、音声信号を高速かつ軽快に符号化及び復号することが可能となる。 According to the present invention, the audio signal is processed for each band in consideration of the characteristics of the audio signal and the auditory characteristics. Therefore, it is possible to encode and decode an audio signal at high speed and lightly while ensuring high sound quality.
以下、本発明の実施の形態に係る音声符号化装置及び音声復号装置について詳細に説明する。 The speech encoding apparatus and speech decoding apparatus according to embodiments of the present invention will be described in detail below.
なお、ユーザにとっての利便性を確保する観点から、音声符号化装置と音声復号装置とは、音声符号化兼復号装置として、単一の装置に統合されているものとする。 From the viewpoint of ensuring convenience for the user, the speech encoding device and speech decoding device are integrated into a single device as a speech encoding / decoding device.
(実施形態1)
図1に、本実施形態に係る音声符号化兼復号装置111を示す。該装置としては、例えば、携帯電話機が想定される。
(Embodiment 1)
FIG. 1 shows a speech encoding /
音声符号化兼復号装置111は、CPU121と、ROM(Read Only Memory)123と、記憶部125と、音声処理部141と、無線通信部161と、操作キー入力内容処理部171と、を備え、これらは、システムバス181で相互に接続されている。システムバス181は、命令やデータを転送するための伝送経路である。
The speech encoding /
ROM123には、音声符号化及び復号のための動作プログラムが格納されている。
The
記憶部125は、RAM(Random Access Memory)131と、ハードディスク133と、から構成されて、デジタル音声信号、MDCT係数、帯域毎のMDCT係数の最大値、所定の時間間隔毎の該最大値の変化量等を記憶する。特に本実施形態においては、音声符号化兼復号装置111は、音声符号化と音声復号のいずれの場合にも、ある時刻における処理に際して直前の時刻の音声信号に基づく情報を必要とするので、記憶部125は、かかる情報を一時的にせよ格納しておく遅延処理用バッファメモリとして、重要な役割を果たす。
The
音声符号化兼復号装置111は、マイクロフォン151と、スピーカ153と、アンテナ163と、操作キー173と、をさらに備える。
The audio encoding /
マイクロフォン151は、送信側すなわち符号化側のユーザの音声を収集し、音声処理部141に引き渡す。スピーカ153は、音声処理部141から引き渡された復元音声を、受信側すなわち復号側のユーザに対して、発する。アンテナ163は、無線通信部161から無線信号として引き渡された符号を受信側すなわち復号側の音声符号化兼復号装置111に送信したり、送信側すなわち符号化側の音声符号化兼復号装置111から送信された無線信号を受信して無線通信部161に引き渡したりする。操作キー173は、あらかじめ与えられている初期設定値、例えば、信号処理のための各種帯域の境界周波数を、ユーザ自らの判断で変更するときや、送信側すなわち符号化側のユーザが、通話の相手方である受信側及び復号側の装置111を特定したりするときに、ユーザの意図を装置111に伝達するために用いられる。
The
音声処理部141、無線通信部161、操作キー入力内容処理部171は、システムバス181を介してCPU121の制御下にある。
The
マイクロフォン151に入力された音声は、音声処理部141の内部のA/Dコンバータ(図示せず)による、例えば16kHzサンプリング及び16ビット量子化により、デジタル音声信号に変換される。
The sound input to the
かかるデジタル音声信号は、音声処理部141により、音声信号圧縮の基本的な処理単位であるフレームに時分割されつつ、順次、記憶部125に送られる。
The digital audio signal is sequentially sent to the
後述のとおり、ひとつのフレームのデジタル音声信号はひとまとまりのものとして、記憶部125への格納、CPU121による周波数領域への変換、無線通信部161への伝達、アンテナ163による無線送信、といった過程を経る。
As will be described later, a digital audio signal of one frame is regarded as a group, and is stored in the
例えば、記憶部125に存在するあるフレームの信号が、CPU121による処理を施されて無線通信部161へ伝達され終わったとする。すると、記憶部125からは、該フレームの信号に関わるデータは記憶部125から削除される。そして、記憶部125には、音声処理部141から次のフレームの信号が引き渡される。
For example, it is assumed that a signal of a certain frame existing in the
このように、音声信号が入力され続ける限り、空きプロセスが生じることなく、次から次へとフレーム単位での信号処理が進行する。このような鎖状の処理方法を採ることにより、携帯電話として必要な、音声信号のリアルタイム処理が可能になる。 As described above, as long as the audio signal is continuously input, the signal processing is performed in units of frames from one to the next without generating an empty process. By adopting such a chain processing method, it is possible to perform real-time processing of an audio signal necessary for a mobile phone.
ただし、フレームは上述のとおりあくまでも基本的な処理単位である。本実施形態においては、後述するように、1フレーム毎の処理に加えて、時間軸上で隣接する2フレームのデジタル音声信号の相違に着目した処理が実行されるので、この意味では、2フレームが基本的な処理単位となる。 However, the frame is a basic processing unit as described above. In this embodiment, as will be described later, in addition to the processing for each frame, processing focusing on the difference between the digital audio signals of two adjacent frames on the time axis is executed. Is the basic processing unit.
以下では、理解を容易にするために、まず、音声が、ある時刻tに対応する1フレーム分の時間に渡ってのみ、マイクロフォン151に入力されたと仮定して、説明する。
In the following, for ease of understanding, first, it is assumed that the voice is input to the
1フレームがM個の信号値から構成されるとして、マイクロフォン151に入力された音声信号が、音声処理部141によってデジタル音声信号x0、・・・、xM-1に変換され記憶部125に引き渡されたとする。装置111内部の各構成要素間のデータ移動は、CPU121の指示に従ってシステムバス181を用いて行われる。CPU121の指示は、ROM123に格納された動作プログラムに従って発せられる。
Assuming that one frame is composed of M signal values, an audio signal input to the
記憶部125に格納されたデジタル音声信号x0、・・・、xM-1は、CPU121の汎用レジスタ(図示せず。)のひとつにロードされる。実時間領域の信号であるデジタル音声信号x0、・・・、xM-1は、CPU121により周波数領域の信号X0、・・・、XM/2-1に変換され、汎用レジスタに格納される。変換方法は、実時間領域の信号を周波数領域の信号へと変換するものであれば任意の方法であってよいが、変換後の数値に虚部が生じないため扱いが容易となることから、変形離散コサイン変換(MDCT、Modified Discrete Cosine Transform)を採用するのが好適である。
Digital audio signals x 0 ,..., X M−1 stored in the
なお、実時間領域のM個の信号値が、上述のように周波数領域ではM/2個の周波数変換係数値に対応するのは、周波数変換にMDCTを用いたからである。他の周波数変換方法の場合、実時間領域におけるデータ数と周波数領域におけるデータ数とが、2:1の比になるとは限らないが、その場合は、周波数係数の最終値に付された数字を適宜読み替えれば、以下の説明はそのままあてはまる。 The reason why M signal values in the real time domain correspond to M / 2 frequency conversion coefficient values in the frequency domain as described above is because MDCT is used for frequency conversion. In the case of other frequency conversion methods, the number of data in the real time domain and the number of data in the frequency domain do not always have a 2: 1 ratio, but in that case, the number attached to the final value of the frequency coefficient is The following description is applied as it is when read appropriately.
図2(a)は、こうして生成されたMDCT係数を模式的に表したものである。図2(b)は、その一部を拡大したものである。MDCTは離散的周波数変換の一種であるから、周波数軸を区切ることによって生じるM/2個の小区画帯域毎に、ひとつの周波数変換係数が割り当てられることになる。図に示すように、低周波数側から数えてk+1番目の小区画帯域には番号kが与えられ、周波数変換係数Xkが割り当てられる(ただし、0≦k≦M/2-1である。)。XkはMDCT係数と呼ばれる。 FIG. 2A schematically shows the MDCT coefficient thus generated. FIG. 2B is an enlarged view of a part thereof. Since MDCT is a kind of discrete frequency conversion, one frequency conversion coefficient is assigned to each of the M / 2 sub-compartment bands generated by dividing the frequency axis. As shown in the figure, the number k is assigned to the (k + 1) th sub-band from the low frequency side, and the frequency conversion coefficient X k is assigned (where 0 ≦ k ≦ M / 2-1). .) X k is called an MDCT coefficient.
有限の時間長を有する時間区画1つにつき1回のMDCTを行う。かかる時間区画をMDCTブロックと呼ぶ。また、MDCTブロックひとつに含まれる信号サンプルの数をMDCTの次数という。MDCTの次数としては、例えば512が好適である。 One MDCT is performed per time section having a finite time length. Such a time segment is called an MDCT block. The number of signal samples included in one MDCT block is referred to as the MDCT order. For example, 512 is preferable as the order of MDCT.
フレームは音声圧縮の処理単位であるから、基本的には、MDCTブロックの時間長は1個のフレームの時間長を超えてはならない。一方、1個のフレームは複数のMDCTブロックを含んでもよく、例えば、1個のフレームが4個のMDCTブロックを含むのが好適である。 Basically, the time length of the MDCT block must not exceed the time length of one frame because the frame is a processing unit of audio compression. On the other hand, one frame may include a plurality of MDCT blocks. For example, it is preferable that one frame includes four MDCT blocks.
ただし、ここでは、発明の本質のみを抽出することにより理解を容易にするために、フレーム1個がMDCTブロック1個と1対1の対応をしているとする。つまり、1個のフレームがそのまま1個のMDCTブロックに対応しているとする。すると、図2以降のMDCT係数の模式図においては、フレーム1個にM個の実時間信号値が含まれていることから、MDCTの次数はMであることになる。 However, here, in order to facilitate understanding by extracting only the essence of the invention, it is assumed that one frame has a one-to-one correspondence with one MDCT block. In other words, it is assumed that one frame corresponds to one MDCT block as it is. Then, in the schematic diagrams of the MDCT coefficients in FIG. 2 and subsequent figures, since M real-time signal values are included in one frame, the order of MDCT is M.
なお、図2以降では、MDCT係数は全て正の値をとるかのように描かれているが、これは理解を容易にするためにすぎない。実際のMDCT係数は負の値をとる場合もある。かかる場合には、符号を表すためのビットを設ける等、任意の既知の手法を用いればよい。上述のように、図2以降のMDCT係数に関する図は、あくまでも説明のための模式図である。 In FIG. 2 and subsequent figures, all MDCT coefficients are drawn as if they were positive values, but this is only for easy understanding. The actual MDCT coefficient may take a negative value. In such a case, any known method such as providing a bit for representing a code may be used. As described above, the drawings relating to the MDCT coefficients in FIG. 2 and subsequent figures are schematic diagrams for explanation only.
CPU121は、汎用レジスタに格納されているMDCT係数Xk(0≦k≦M/2-1)について、後の処理を円滑に行うために、各MDCT係数を識別するための記号を付け替える。該付け替えは、CPU121が、ROM123から読み出した動作プログラムに従って行う。具体的には、次のように、各MDCT係数を、時刻tの他に、2個の記号で識別し直す。
For the MDCT coefficient X k (0 ≦ k ≦ M / 2-1) stored in the general-purpose register, the
まず、図3(a)に示すように、周波数領域全体を、ωMaxRANGE個の中区画帯域に分割し、低周波数側から1、2、・・・、ωMaxRANGEのように番号を付けて各帯域を区別する。 First, as shown in FIG. 3 (a), the entire frequency region is divided into ω MaxRANGE medium partition bands, and numbers such as 1, 2,..., Ω MaxRANGE are assigned from the low frequency side. Distinguish between bands.
MDCT係数の識別のための新たな記号のひとつは、この番号である。 One of the new symbols for identifying MDCT coefficients is this number.
各中区画帯域の中心周波数の対数が、該番号に線型的に依存するように、中区画帯域による周波数領域の分割が行われる。換言すると、CPU121がROM123から読み出す動作プログラムには、かかる分割が行われるような命令が含まれている。かかる分割によれば、高周波領域の中区画帯域ほど、帯域幅が広くなる。図3(a)にはその様子が模式的に示されている。
The frequency domain is divided by the medium partition band so that the logarithm of the center frequency of each medium partition band linearly depends on the number. In other words, the operation program read from the
このように対数を基準に分割を行う理由は、人間の聴覚における周波数の違いに対する感度が、高周波成分ほど対数的に鈍くなるためである。そこで、限られた通信容量でできる限り有効な音声信号伝達を行うためには、低周波成分については、再生音質の確保のために詳しく再現し得るようにする一方で、高周波成分については、おおまかな情報だけ伝達することにして、情報量が全体として少なくなるようにするのが適切である。 The reason for performing the division based on the logarithm is that the sensitivity to the frequency difference in human hearing is logarithmically lower as the high frequency component. Therefore, in order to transmit audio signals as effectively as possible with limited communication capacity, low-frequency components can be reproduced in detail to ensure playback sound quality, while high-frequency components are roughly It is appropriate to transmit only the correct information so that the total amount of information is reduced.
例えば、マイクロフォン151に入力された音声が音声処理部141においてサンプリング周波数16kHzでデジタル信号に変換された場合には、ROM123に格納されている動作プログラムにおいて、中区画帯域を11個設けることとし、中区画帯域の境界を187.5Hz、437.5Hz、687.5Hz、937.5Hz、1312.5Hz、1687.5Hz、2312.5Hz、3250Hz、4625Hz、6500Hz、のように設定しておくのが好適である。
For example, when the sound input to the
次に、各MDCT係数が、その属する中区画帯域のうち低周波側から数えて何番目のものであるか、が決定される。ωRANGE(1≦ωRANGE≦ωMaxRANGE)という番号が付された中区画帯域にはq(ωRANGE)個のMDCT係数が含まれるとする。 Next, it is determined what number each MDCT coefficient is counted from the low frequency side of the medium partition band to which the MDCT coefficient belongs. It is assumed that q (ω RANGE ) MDCT coefficients are included in the middle partition band numbered ω RANGE (1 ≦ ω RANGE ≦ ω MaxRANGE ).
すると、MDCT係数は、どの中区画帯域に属するかということと、中区画帯域の中で低周波数側から数えて何番目の係数であるかということと、を表す2つの記号により、特定される。すなわち、これまで図2(b)に示すように全周波数に渡って1乃至M/2-1という番号で区別されていたMDCT係数は、新たに、時刻tにおける、ωRANGE番目の中区画帯域(1≦ωRANGE≦ωMaxRANGE)に属する、X(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)、という形で記述されることにより、相互に区別されることになる。この様子は、図3(a)の一部を拡大した図3(b)により、示される。
Then, the MDCT coefficient is specified by two symbols indicating which medium partition band it belongs to and what number coefficient is counted from the low frequency side in the medium partition band. . That is, as shown in FIG. 2B, the MDCT coefficients that have been distinguished by the
CPU121は、こうして識別し直されたMDCT係数X(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)(1≦ωRANGE≦ωMaxRANGE)を、記憶部125に格納する。
The
また、時刻tにおいて、ωRANGEで表される中区画帯域におけるMDCT係数の最大値を、中区画帯域最大値XMAX(ωRANGE、t)とする。 Further, at time t, the maximum value of the MDCT coefficient in the medium partition band represented by ω RANGE is set to the medium partition band maximum value X MAX (ω RANGE , t).
以下では理解を容易にするために、図2及び図3に示したグラフの縦軸方向の分解能すなわちデジタル化のために割り当てられたビット数は、全ての中区画帯域で一定であるとするが、帯域毎に異なるビット数をあらかじめ定めておいてもよい。例えば、連続する複数の中区画帯域をまとめた大区画帯域を定義した上で、MDCT係数を取り扱うに際しての精度を大区画帯域毎にあらかじめ決定しておくことととし、かつ、聴覚特性を考慮して、低周波数側の大区画帯域ほど該精度を高くすることとしてもよい。聴覚には、低周波音であるほど、音量の大小に敏感であるという特性があるからである。また、以下では差分の計算等に際してMDCT係数をそのまま用いるが、MDCT係数の対数をとってから各種処理を実行し、最終段階でかかる対数から元のMDCT係数に戻すように取り扱ってもよい。 In the following, for ease of understanding, it is assumed that the resolution in the vertical axis direction of the graphs shown in FIGS. 2 and 3, that is, the number of bits allocated for digitization, is constant in all the medium partition bands. Alternatively, a different number of bits may be determined for each band. For example, after defining a large block band that is a collection of a plurality of continuous medium block bands, the accuracy in handling the MDCT coefficient is determined in advance for each large block band, and the auditory characteristics are taken into account. Thus, the accuracy may be increased as the large frequency band on the lower frequency side. This is because hearing has a characteristic that the lower the frequency, the more sensitive the volume. In the following description, the MDCT coefficient is used as it is when calculating the difference. However, various processes may be executed after taking the logarithm of the MDCT coefficient, and the logarithm of the MDCT coefficient may be returned to the original MDCT coefficient at the final stage.
本実施形態においては、音声符号化兼復号装置111は、ある時刻tにおけるMDCT係数を授受するにあたって、該時刻より時間Δtだけ前の時刻におけるMDCT係数を利用する。理解を容易にするために、まず、図4〜図6を参照しつつ、音声符号化側の音声符号化兼復号装置111と音声復号側の音声符号化兼復号装置111とが行う演算及び両者間で授受される情報について、概略的に述べる。その後、より詳細な処理の流れを、図7以降のフローチャートを参照しつつ説明する。
In the present embodiment, the speech encoding /
本実施形態の特徴は、時刻t-Δtと時刻tとの間のスペクトルの変化に基づく情報つまり差分が授受される点にある。したがって前提として、音声符号化側の音声符号化兼復号装置111から音声復号側の音声符号化兼復号装置111への通信開始時には、初期値として必要なMDCT係数が、任意の既知の手法により、前者の装置から後者の装置に伝達されるものとする。また、通信が長時間に及ぶ場合には、差分が積算されることによる誤差を無視することができなくなることもあり得る。これに対処するために、リフレッシュレートをあらかじめ定めておき、一定の頻度で通信開始時と同様の初期化処理を行うようにしてもよい。以下では、本実施形態における特徴的な処理である、差分の授受についてのみ説明する。
The feature of this embodiment is that information based on a change in spectrum between time t-Δt and time t, that is, a difference is exchanged. Therefore, as a premise, at the start of communication from the speech encoding /
図4〜図6では、左側に音声符号化側の音声符号化兼復号装置111が、右側に音声復号側の音声符号化兼復号装置111が描かれている。以下、それぞれの装置を単に送信機、受信機と呼ぶ。なお、図が煩雑にならないように、図4〜図6では、図1に示した音声符号化兼復号装置111の構成要素のうち、記憶部125及びアンテナ163以外は省略してある。
4 to 6, the speech encoding /
はじめに、図4(a)に示すように、送信機及び受信機いずれの記憶部125にも、時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t-Δt)が格納されている。時刻がtになると、送信機のCPU121は、時刻tにおけるMDCT係数を算出し、送信機の記憶部125に格納する(図4(a)参照)。
First, as shown in FIG. 4A, the maximum value X MAX (ω RANGE , t-Δt) of the MDCT coefficient in the middle zone band at time t-Δt is stored in both the
続いて、送信機のCPU121は、中区画帯域内における検索を行い、時刻tにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t)を算出し、記憶部125に格納する。この時点で、図4(b)に示すように、送信機の記憶部125には、時刻t-Δt及びtにおける中区画帯域内のMDCT係数の最大値と、時刻tにおけるMDCT係数と、が格納されている。受信機の記憶部125には、時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t-Δt)が格納されたまま、変化はない。
Subsequently, the
送信機のCPU121は、送信機の記憶部125に格納されている時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t-Δt)を、同じく記憶部125に格納されている時刻tにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t)から減算することにより、時刻tにおける最大値の差分値を求め、記憶部125に格納する。この後は送信機においては時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t-Δt)は不要である。よって、送信機の記憶部125の記憶容量が圧迫されないよう、消去してもよい。送信機のCPU121はさらに、送信機の記憶部125に格納されている時刻tにおけるMDCT係数を、同じく記憶部125に格納されている時刻tにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t)により除算することにより、時刻tにおけるMDCT係数の規格化値を求め、記憶部125に格納する。この時点で、図5(a)に示すように、送信機の記憶部125には、時刻tにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t)と、時刻tにおける最大値の差分値と、時刻tにおけるMDCT係数の規格化値と、が格納されている。受信機の記憶部125には、時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t-Δt)が格納されたまま、変化はない。
The
送信機の記憶部125に格納された時刻tにおける最大値の差分値と、時刻tにおけるMDCT係数の規格化値と、は、送信機のCPU121により、記憶部125から取り出されて量子化され、エントロピ符号化され、送信機のアンテナ163から無線送信される。かかるエントロピ符号化により生成された符号が重畳された無線信号は、受信機において、受信機のアンテナ163により捕捉される。この様子を、図5(b)に模式的に示す。なお、代表的なエントロピ符号化方法としては、ハフマンコードや、RangeCoderが挙げられる。
The difference value of the maximum value at time t stored in the
受信機のアンテナ163により捕捉された符号は、受信機のCPU121により復号される。復号の結果生じた、時刻tにおける最大値の差分値と、時刻tにおけるMDCT係数の規格化値と、は、受信機の記憶部125に格納される。この時点で、図6(a)に示すように、受信機の記憶部125には、時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t-Δt)と、時刻tにおける最大値の差分値と、時刻tにおけるMDCT係数の規格化値と、が格納されている。送信機の記憶部125には、時刻tにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t)が残されている。
The code captured by the
受信機のCPU121は、受信機の記憶部125に格納されている時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t-Δt)に、同じく記憶部125に格納されている時刻tにおける最大値の差分値を加算することにより、時刻tにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t)を求め、記憶部125に格納する。この後、時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t-Δt)と、時刻tにおける最大値の差分値と、は、不要であるので、これらの値は消去してもよい。受信機のCPU121は続いて、受信機の記憶部125に格納されている時刻tにおけるMDCT係数の規格化値に、同じく記憶部125に格納されている時刻tにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t)を乗算することにより、時刻tにおけるMDCT係数を求め、記憶部125に格納する。この時点で、図6(b)に示すように、受信機の記憶部125には、時刻tにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t)と、時刻tにおけるMDCT係数と、が格納されている。送信機の記憶部125には、時刻tにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t)が残されている。
Similarly, the
このようにして、図4(a)に示したとおり初めは送信機の記憶部125に格納されていた時刻tにおけるMDCT係数は、図6(b)に示したとおり受信機の記憶部125に格納される。これはスペクトルについての情報が送信機から受信機に伝達されたことを意味する。この後、受信機は、周波数逆変換等により、送信機に入力された音声信号を復元することができる。
In this way, the MDCT coefficient at time t initially stored in the
なお、図4(a)において送信機と受信機のいずれの記憶部125にも時刻t-Δtにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t-Δt)が格納されていたことに対応して、図6(b)では、送信機と受信機のいずれの記憶部125にも時刻tにおける中区画帯域内のMDCT係数の最大値XMAX(ωRANGE、t)が格納されている。よって、時刻t+Δt以降は、図4〜図6に示した処理と同様の処理を繰り返すことにより、各時刻のMCDT係数を送信機から受信機に伝達することが可能である。
In FIG. 4A, the maximum value X MAX (ω RANGE , t−Δt) of the MDCT coefficient in the middle partition band at time t−Δt is stored in both the
MDCT係数自体は、様々な値をとる。それに対して、音声信号の時間的連続性ゆえに、上述の最大値の差分値としては、比較的小さな値が高い頻度で出現する。この傾向は、音声信号が定常状態にある時間帯にはいっそう顕著である。このように偏りのある情報は、エントロピ符号化による圧縮効率が高い。よって、本実施形態によれば、単にMDCT係数自体を符号化する場合に比べて、伝達レートの割に高品質の音声を復元することができる。 The MDCT coefficient itself takes various values. On the other hand, because of the temporal continuity of the audio signal, a relatively small value appears with high frequency as the above-described maximum difference value. This tendency is more prominent in the time zone when the audio signal is in a steady state. Such biased information has high compression efficiency by entropy coding. Therefore, according to the present embodiment, it is possible to restore high-quality speech for the transmission rate as compared with the case where the MDCT coefficient itself is simply encoded.
なお、理解を容易にするために、図4〜図6を用いた上述の説明においては、MDCT係数を求める時間間隔と符号化処理の時間間隔とを共にΔtで表したが、かかる2種の時間間隔が等しい必要はない。例えば、音声通話におけるリアルタイム感を損なわない限り、いくつかの連続した時間帯の音声信号から算出される複数組のMDCT係数を送信機の記憶部125に貯めておいてから、一括して量子化し、エントロピ符号化してもよい。
In order to facilitate understanding, in the above description using FIGS. 4 to 6, both the time interval for obtaining the MDCT coefficient and the time interval of the encoding process are represented by Δt. The time intervals need not be equal. For example, as long as the real-time feeling in a voice call is not impaired, a plurality of sets of MDCT coefficients calculated from voice signals in several continuous time zones are stored in the
以下では、上述の処理の流れを、フローチャートを参照しつつ説明する。図7は、時刻tに送信機において行われる、中区画帯域最大値検索、中区画帯域差分の計算、及び、規格化MDCT係数の計算の流れを示すフローチャートである。なお、デジタル音声信号は既にMDCTを施されており、送信機の記憶部125にはMDCT係数が格納されているものとする。
Hereinafter, the above-described processing flow will be described with reference to flowcharts. FIG. 7 is a flowchart showing the flow of middle partition bandwidth maximum value search, middle partition bandwidth difference computation, and normalized MDCT coefficient computation performed at the transmitter at time t. It is assumed that the digital audio signal has already been subjected to MDCT, and the MDCT coefficient is stored in the
送信機のCPU121は、帯域識別変数ωRANGEを1に初期化し(ステップS711)、記憶部125からMDCT係数X(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)をロードし(ステップS713)、ロードしたこれらのMDCT係数のうちの最大値である中区画帯域最大値XMAX(ωRANGE、t)を求め(ステップS715)、XMAX(ωRANGE、t)を記憶部125に格納する(ステップS717)。
The
ステップS717でXMAX(ωRANGE、t)を記憶部125に格納するのは、次の時刻である時刻t+Δtにおける処理に必要となるからである。
The reason why X MAX (ω RANGE , t) is stored in the
CPU121は、直前時刻の中区画帯域最大値XMAX(ωRANGE、t-Δt)を記憶部125からロードする(ステップS719)。
The
ステップS719でCPU121がXMAX(ωRANGE、t-Δt)を記憶部125からロードすることができるのは、直前時刻におけるステップS717に相当するステップでXMAX(ωRANGE、t-Δt)が記憶部125に格納されたからである。
In step S719, the
CPU121は、中区画帯域差分ΔXMAX(ωRANGE、t)を、ΔXMAX(ωRANGE、t)=XMAX(ωRANGE、t)-XMAX(ωRANGE、t-Δt)により計算し(ステップS721)、記憶部125に格納する(ステップS723)。格納されたΔXMAX(ωRANGE、t)は、符号化の対象となる。CPU121は続いて、規格化MDCT係数XREG(ωRANGE、1、t)、・・・、XREG(ωRANGE、q(ωRANGE)、t)を、XREG(ωRANGE、1、t)=X(ωRANGE、1、t)/XMAX(ωRANGE、t)、・・・、XREG(ωRANGE、q(ωRANGE)、t)=X(ωRANGE、q(ωRANGE)、t)/XMAX(ωRANGE、t)のように計算し(ステップS725)、記憶部125に格納する(ステップS727)。格納されたXREG(ωRANGE、1、t)、・・・、XREG(ωRANGE、q(ωRANGE)、t)は、符号化の対象となる。CPU121はさらに、全ての中区画帯域についての処理が終わったか否かを判別し(ステップS729)、終わったと判別された場合(ステップS729;Yes)は処理を終了し、終わっていないと判別された場合(ステップS729;No)は次の帯域について処理するためにωRANGEを1増加してから(ステップS731)、ステップS713に戻る。
The
時刻tに送信機において行われる上述の図7のフローチャートに示す処理に対応した、時刻tに受信機において行われる処理の流れを、図8に示すフローチャートを参照しつつ説明する。受信機は、中区画帯域最大値及びMDCT係数を計算する。なお、送信機によりエントロピ符号化されてから受信機に伝達された中区画帯域差分ΔXMAX(ωRANGE、t)及び規格化MDCT係数XREG(ωRANGE、1、t)、・・・、XREG(ωRANGE、q(ωRANGE)、t)は、既に復号されて、受信機の記憶部125に格納されているものとする。
The flow of the process performed at the receiver at time t corresponding to the process illustrated in the flowchart of FIG. 7 described above performed at the transmitter at time t will be described with reference to the flowchart illustrated in FIG. The receiver calculates the maximum value of the medium zone band and the MDCT coefficient. It should be noted that the medium zone band difference ΔX MAX (ω RANGE , t) and the normalized MDCT coefficient X REG (ω RANGE , 1, t),..., X that are entropy encoded by the transmitter and then transmitted to the receiver It is assumed that REG (ω RANGE , q (ω RANGE ), t) has already been decoded and stored in the
受信機のCPU121は、帯域識別変数ωRANGEを1に初期化し(ステップS741)、記憶部125から直前時刻の中区画帯域最大値XMAX(ωRANGE、t-Δt)をロードし(ステップS743)、中区画帯域差分ΔXMAX(ωRANGE、t)をロードし(ステップS745)、中区画帯域最大値XMAX(ωRANGE、t)をXMAX(ωRANGE、t)= XMAX(ωRANGE、t-Δt)+ΔXMAX(ωRANGE、t)により求め(ステップS747)、XMAX(ωRANGE、t)を記憶部125に格納する(ステップS749)。
The
ステップS749でXMAX(ωRANGE、t)を記憶部125に格納するのは、次の時刻である時刻t+Δtにおける処理に必要となるからである。また、前の時刻であるt-Δtにおいて、このステップS749に相当する処理が行われていたからこそ、時刻tにおける上述のステップS743において、CPU121が記憶部125からXMAX(ωRANGE、t-Δt)をロードすることができたのである。
The reason why X MAX (ω RANGE , t) is stored in the
CPU121は、規格化MDCT係数XREG(ωRANGE、1、t)、・・・、XREG(ωRANGE、q(ωRANGE)、t)をロードし(ステップS751)、MDCT係数X(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)を、X(ωRANGE、1、t)=XREG(ωRANGE、1、t)×XMAX(ωRANGE、t)、・・・、X(ωRANGE、q(ωRANGE)、t)=XREG(ωRANGE、q(ωRANGE)、t)×XMAX(ωRANGE、t)のように計算し(ステップS753)、X(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)を記憶部125に格納する(ステップS755)。これらのMDCT係数に対して、実時間領域への変換等、よく知られた処理が施されることにより、音声信号が復元される。CPU121はさらに、全ての中区画帯域についての処理が終わったか否かを判別し(ステップS757)、終わったと判別された場合(ステップS757;Yes)は処理を終了し、終わっていないと判別された場合(ステップS757;No)は次の帯域について処理するためにωRANGEを1増加してから(ステップS759)、ステップS743に戻る。
The
(実施形態1の変形例)
以下では、本発明の実施形態1の変形例に係る音声符号化兼復号装置について述べる。装置の概要は、実施形態1に係る音声符号化兼復号装置111と同様である。
(Modification of Embodiment 1)
Hereinafter, a speech encoding / decoding device according to a modification of the first embodiment of the present invention will be described. The outline of the apparatus is the same as that of the speech encoding /
中区画帯域最大値の変化を表す量として、実施形態1においては、差分を用いていた。これに対して、本変形例においては、比率を用いる。両者における処理の内容は、ほぼ同じである。 In the first embodiment, the difference is used as the amount representing the change in the maximum value of the middle zone band. On the other hand, the ratio is used in this modification. The contents of the processing in both are almost the same.
送信機が行う処理は、既に説明した図7のフローチャートの一部を変更した処理である。すなわち、図7のステップS721において、中区画帯域比率RaXMAX(ωRANGE、t)をRaXMAX(ωRANGE、t)=XMAX(ωRANGE、t)/XMAX(ωRANGE、t-Δt)により計算するよう変更する。また、ステップS723において、RaXMAX(ωRANGE、t)を記憶部125に格納するよう変更する。
The process performed by the transmitter is a process obtained by changing a part of the flowchart shown in FIG. That is, in step S721 in FIG. 7, the medium partition band ratio RaX MAX (ω RANGE , t) is set to RaX MAX (ω RANGE , t) = X MAX (ω RANGE , t) / X MAX (ω RANGE , t−Δt). Change to calculate by In step S723, the
受信機が行う処理は、既に説明した図8のフローチャートの一部を変更した処理である。すなわち、図8のステップS745において、中区画帯域比率RaXMAX(ωRANGE、t)をロードするよう変更する。また、ステップS747において、中区画帯域最大値XMAX(ωRANGE、t)をXMAX(ωRANGE、t)= XMAX(ωRANGE、t-Δt)×RaXMAX(ωRANGE、t)により求めるよう変更する。 The process performed by the receiver is a process obtained by changing a part of the flowchart shown in FIG. That is, in step S745 in FIG. 8, the medium partition bandwidth ratio RaX MAX (ω RANGE , t) is changed to be loaded. In step S747, the maximum value X MAX (ω RANGE , t) of the medium partition band is obtained by X MAX (ω RANGE , t) = X MAX (ω RANGE , t−Δt) × RaX MAX (ω RANGE , t). Change as follows.
中区画帯域比率RaXMAX(ωRANGE、t)として出現する値は1の近傍に偏るので、高い効率で符号化することができる。 Since the value appearing as the middle zone bandwidth ratio RaX MAX (ω RANGE , t) is biased to the vicinity of 1, it can be encoded with high efficiency.
(実施形態2)
以下では、本発明の実施形態2に係る音声符号化兼復号装置について述べる。装置の概要は、実施形態1に係る音声符号化兼復号装置111と同様である。また、送信機と受信機とが行う演算及び両者間で授受される情報の概要は、図4〜図6を参照しつつ説明した実施形態1の場合と、ほぼ同様である。
(Embodiment 2)
Hereinafter, a speech encoding / decoding device according to
実施形態1やその変形例においては、全ての中区画帯域についての差分値や比率が送受信機間で授受された。それに対して、本実施形態においては、中区画帯域の差分値や比率のうち最大の値だけが、送受信機間で授受される。以下では、かかる処理の流れを、図9〜図11に示すフローチャートを参照しつつ説明する。 In the first embodiment and its modifications, the difference values and ratios for all the middle zone bands are exchanged between the transceivers. On the other hand, in the present embodiment, only the maximum value among the difference values and ratios of the middle zone band is exchanged between the transceivers. Hereinafter, the flow of such processing will be described with reference to the flowcharts shown in FIGS.
図9は、時刻tに送信機において行われる、中区画帯域最大値検索、中区画帯域差分の計算、及び、最大差分の計算の流れを示すフローチャートである。なお、デジタル音声信号は既にMDCTを施されており、送信機の記憶部125にはMDCT係数が格納されているものとする。
FIG. 9 is a flowchart showing a flow of middle partition bandwidth maximum value search, middle partition bandwidth difference calculation, and maximum difference computation performed at the transmitter at time t. It is assumed that the digital audio signal has already been subjected to MDCT, and the MDCT coefficient is stored in the
送信機のCPU121は、最大差分MaxΔXMAX(t)を0に初期化し(ステップS771)、帯域識別変数ωRANGEを1に初期化し(ステップS773)、記憶部125からMDCT係数X(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)をロードし(ステップS775)、ロードしたこれらのMDCT係数のうちの最大値である中区画帯域最大値XMAX(ωRANGE、t)を求め(ステップS777)、XMAX(ωRANGE、t)を記憶部125に格納する(ステップS779)。ステップS779における格納は、次の時刻である時刻t+Δtにおける処理に役立てるためである。
The
CPU121は、直前時刻の中区画帯域最大値XMAX(ωRANGE、t-Δt)を記憶部125からロードする(ステップS781)。かかるロードが可能なのは、直前時刻においてステップS779に相当するステップが実行されたからからである。
The
CPU121は、中区画帯域差分ΔXMAX(ωRANGE、t)を、ΔXMAX(ωRANGE、t)=XMAX(ωRANGE、t)-XMAX(ωRANGE、t-Δt)により計算し(ステップS783)、ΔXMAX(ωRANGE、t) がMaxΔXMAX(t)以上であるか否かを判別する(ステップS785)。ΔXMAX(ωRANGE、t) がMaxΔXMAX(t)以上であると判別された場合(ステップS785;Yes)は、MaxΔXMAX(t)をMaxΔXMAX(t)=ΔXMAX(ωRANGE、t)のように更新してから(ステップS787)、ステップS789に進む。ΔXMAX(ωRANGE、t)がMaxΔXMAX(t)以上ではないと判別された場合(ステップS785;No)は、すぐにステップS789に進む。ステップS789では、CPU121は、全ての中区画帯域についての処理が終わったか否かを判別し、終わったと判別された場合(ステップS789;Yes)はステップS793に進み、終わっていないと判別された場合(ステップS789;No)は次の帯域について処理するためにωRANGEを1増加してから(ステップS791)、ステップS775に戻る。ステップS793では、CPU121は、MaxΔXMAX(t)を記憶部125に格納し、その後、処理を終了する。ステップS793で格納されたMaxΔXMAX(t)は、符号化の対象となる。
The
送信機のCPU121は、図9のフローチャートに示す処理を終了した後、図10のフローチャートに示す処理により最大差分使用時の規格化MDCT係数の計算を行う。
The
送信機のCPU121は、記憶部125から最大差分MaxΔXMAX(t)をロードし(ステップS811)、帯域識別変数ωRANGEを1に初期化し(ステップS813)、記憶部125からMDCT係数X(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)をロードし(ステップS815)、直前時刻の中区画帯域最大値XMAX(ωRANGE、t-Δt)をロードする(ステップS817)。かかるロードが可能なのは、直前時刻において図9のステップS779に相当するステップが実行されたからからである。CPU121は続いて、規格化MDCT係数XREG(ωRANGE、1、t)、・・・、XREG(ωRANGE、q(ωRANGE)、t)を、XREG(ωRANGE、1、t)=X(ωRANGE、1、t)/{XMAX(ωRANGE、t-Δt)+MaxΔXMAX(t)}、・・・、XREG(ωRANGE、q(ωRANGE)、t)=X(ωRANGE、q(ωRANGE)、t)/{XMAX(ωRANGE、t-Δt)+MaxΔXMAX(t)}のように計算し(ステップS819)、記憶部125に格納する(ステップS821)。格納されたXREG(ωRANGE、1、t)、・・・、XREG(ωRANGE、q(ωRANGE)、t)は、符号化の対象となる。CPU121はさらに、全ての中区画帯域についての処理が終わったか否かを判別し(ステップS823)、終わったと判別された場合(ステップS823;Yes)は処理を終了し、終わっていないと判別された場合(ステップS823;No)は次の帯域について処理するためにωRANGEを1増加してから(ステップS825)、ステップS815に戻る。
The
時刻tに送信機において行われる上述の図9及び図10のフローチャートに示す処理に対応した、時刻tに受信機において行われる処理の流れを、図11に示すフローチャートを参照しつつ説明する。本実施形態においては、受信機は、送信機から伝達された最大差分MaxΔXMAX(t)に基づいて、中区画帯域最大値及びMDCT係数を計算する。なお、送信機によりエントロピ符号化されてから受信機に伝達された最大差分MaxΔXMAX(t)及び規格化MDCT係数XREG(ωRANGE、1、t)、・・・、XREG(ωRANGE、q(ωRANGE)、t)は、既に復号されて、受信機の記憶部125に格納されているものとする。
The flow of processing performed at the receiver at time t corresponding to the processing illustrated in the flowcharts of FIGS. 9 and 10 performed at the transmitter at time t will be described with reference to the flowchart illustrated in FIG. In the present embodiment, the receiver calculates the mid-zone band maximum value and the MDCT coefficient based on the maximum difference MaxΔX MAX (t) transmitted from the transmitter. Note that the maximum difference MaxΔX MAX (t) and the normalized MDCT coefficients X REG (ω RANGE , 1, t), ..., X REG (ω RANGE , It is assumed that q (ω RANGE ), t) has already been decoded and stored in the
受信機のCPU121は、記憶部125から最大差分MaxΔXMAX(t)をロードし(ステップS831)、帯域識別変数ωRANGEを1に初期化し(ステップS833)、記憶部125から直前時刻の中区画帯域最大値XMAX(ωRANGE、t-Δt)をロードし(ステップS835)、記憶部125から規格化MDCT係数XREG(ωRANGE、1、t)、・・・、XREG(ωRANGE、q(ωRANGE)、t)をロードし(ステップS837)、MDCT係数X(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)を、X(ωRANGE、1、t)=XREG(ωRANGE、1、t)×{XMAX(ωRANGE、t-Δt)+MaxΔXMAX(t)}、・・・、X(ωRANGE、q(ωRANGE)、t)=XREG(ωRANGE、q(ωRANGE)、t)×{XMAX(ωRANGE、t-Δt)+MaxΔXMAX(t)}のように計算し(ステップS839)、記憶部125に格納する(ステップS841)。これらのMDCT係数に対して、実時間領域への変換等、よく知られた処理が施されることにより、音声信号が復元される。
The
CPU121は続いて、ステップS839で求めたX(ωRANGE、1、t)、・・・、X(ωRANGE、q(ωRANGE)、t)のうちの最大値である中区画帯域最大値XMAX(ωRANGE、t)を求め(ステップS843)、記憶部125に格納する(ステップS845)。ステップS845における格納は、次の時刻であるt+Δtにおける処理に役立てるためである。なお、ステップS835においてXMAX(ωRANGE、t-Δt)がロード可能であるのは、前の時刻であるt-ΔtにおいてステップS845に相当するステップが実行されたからである。CPU121はさらに、全ての中区画帯域についての処理が終わったか否かを判別し(ステップS847)、終わったと判別された場合(ステップS847;Yes)は処理を終了し、終わっていないと判別された場合(ステップS847;No)は次の帯域について処理するためにωRANGEを1増加してから(ステップS849)、ステップS835に戻る。
Subsequently, the
図7のステップS725と図10のステップ819とを比較すれば、次のことが明らかである。すなわち、実施形態1においては、規格化MDCT係数を求めるための除数が、中区画帯域毎のMDCT係数の最大値であるために、規格化MDCT係数は最も精度良く求まる。一方、本実施形態においては、規格化MDCT係数を求めるための除数として、最大差分に基づく値を採用しているため、実施形態1に比べ求めた規格化MDCT係数の精度が低く、したがって受信機によるMDCT係数の復元の精度も実施形態1に比べて低い。換言すると、図9に示された最大差分MaxΔXMAX(t)の定義から明らかなように、実施形態1における規格化のための除数XMAX(ωRANGE、t)と、本実施形態における規格化のための除数XMAX(ωRANGE、t-Δt)+MaxΔXMAX(t)と、の間には、XMAX(ωRANGE、t)≦XMAX(ωRANGE、t-Δt)+MaxΔXMAX(t)という関係が成立する。つまり本実施形態においては、MDCT係数を必要以上に大きい値で除してしまう場合が多くなると考えられる。かかる場合には、結果として、規格化MDCT係数が全体的に必要以上に小さい値となる。ところで、規格化MDCT係数を表すためのビット数は、規格化という操作の性質ゆえに、規格化MDCT係数が0以上1以下の値をとることを前提にして、あらかじめ決められていることが妥当である。よって、上述のように規格化MDCT係数が必要以上に小さい値になった場合には、1に近い数を表すように準備されていたビットが無駄になるとともに、ビット単位で量子化する際の誤差が大きくなる。この意味で、本実施形態は、実施形態1に比べて、精度の低い音声符号化及び復号がなされるといえる。
If step S725 in FIG. 7 is compared with
しかし、実施形態1の場合は全ての中区画帯域における差分を送受信機間で授受しなければならなかったのに対して、本実施形態の場合は、全ての中区画帯域における差分のうちの最大値のみを授受すればよい。よって、本実施形態によれば、実施形態1の場合に比べて、符号化の対象となるデータの量を減少させることができ、低ビットレート通信に資する。 However, in the case of the first embodiment, the difference in all the medium partition bands had to be exchanged between the transmitter and the receiver, whereas in the case of this embodiment, the maximum of the differences in all the medium partition bands. Only the value needs to be exchanged. Therefore, according to the present embodiment, compared to the first embodiment, the amount of data to be encoded can be reduced, which contributes to low bit rate communication.
(実施形態2の変形例)
以下では、本発明の実施形態2の変形例に係る音声符号化兼復号装置について述べる。装置の概要は、実施形態1に係る音声符号化兼復号装置111と同様である。
(Modification of Embodiment 2)
Hereinafter, a speech encoding / decoding device according to a modification of the second embodiment of the present invention will be described. The outline of the apparatus is the same as that of the speech encoding /
中区画帯域最大値の変化を表す量として、実施形態2においては、差分を用いていた。これに対して、本変形例においては、比率を用いる。両者における処理の内容は、ほぼ同じである。 In the second embodiment, the difference is used as the amount representing the change of the maximum value of the middle zone band. On the other hand, the ratio is used in this modification. The contents of the processing in both are almost the same.
送信機が行う処理は、既に説明した図9及び図10のフローチャートの一部を変更した処理である。すなわち、図9のステップS771において、最大差分MaxΔXMAX(t)を最大比率MaxRaXMAX(t)に置換し、ステップS783において、中区画帯域比率RaXMAX(ωRANGE、t)をRaXMAX(ωRANGE、t)=XMAX(ωRANGE、t)/XMAX(ωRANGE、t-Δt)により計算するよう変更し、ステップS785において、RaXMAX(ωRANGE、t)≧MaxRaXMAX(t)であるか否かを判別するよう変更し、ステップS787において、MaxRaXMAX(t)= RaXMAX(ωRANGE、t)に更新するよう変更し、ステップS793において、MaxRaXMAX(t)を記憶部125に格納するよう変更し、図10のステップS811において、最大比率MaxRaXMAX(t)をロードするよう変更し、ステップS819において、規格化MDCT係数をXREG(ωRANGE、1、t)=X(ωRANGE、1、t)/{XMAX(ωRANGE、t-Δt)×MaxRaXMAX(t)}、・・・、XREG(ωRANGE、q(ωRANGE)、t)=X(ωRANGE、q(ωRANGE)、t)/{XMAX(ωRANGE、t-Δt)×MaxRaXMAX(t)}のように計算するよう変更する。
The process performed by the transmitter is a process obtained by changing a part of the flowcharts of FIGS. 9 and 10 described above. That is, in step S771 in FIG. 9, the maximum difference MaxΔX MAX (t) is replaced with the maximum ratio MaxRaX MAX (t), and in step S783, the medium partition band ratio RaX MAX (ω RANGE , t) is changed to RaX MAX (ω RANGE , T) = X MAX (ω RANGE , t) / X MAX (ω RANGE , t−Δt), and in step S785, RaX MAX (ω RANGE , t) ≧ MaxRaX MAX (t). In step S787, it is changed to update to MaxRaX MAX (t) = RaX MAX (ω RANGE , t). In step S793, MaxRaX MAX (t) is stored in the
受信機が行う処理は、既に説明した図11のフローチャートの一部を変更した処理である。すなわち、図11のステップS831において、最大比率MaxRaXMAX(t)をロードするよう変更し、ステップS839において、MDCT係数をX(ωRANGE、1、t)=XREG(ωRANGE、1、t)×{XMAX(ωRANGE、t-Δt)×MaxRaXMAX(t)}、・・・、X(ωRANGE、q(ωRANGE)、t)=XREG(ωRANGE、q(ωRANGE)、t)×{XMAX(ωRANGE、t-Δt)×MaxRaXMAX(t)}のように計算するよう変更する。 The process performed by the receiver is a process obtained by changing a part of the flowchart shown in FIG. That is, in step S831 in FIG. 11, the maximum ratio MaxRaX MAX (t) is changed to be loaded, and in step S839, the MDCT coefficient is set to X (ω RANGE , 1, t) = X REG (ω RANGE , 1, t). × {X MAX (ω RANGE , t-Δt) × MaxRaX MAX (t)}, ..., X (ω RANGE , q (ω RANGE ), t) = X REG (ω RANGE , q (ω RANGE ), t) × {X MAX (ω RANGE , t−Δt) × MaxRaX MAX (t)}.
比率については、中区画帯域全てについての比率ではなく最大比率MaxRaXMAX(t)だけを符号化すればよい点で、本変形例によれば、実施形態2と同様の効果がある。加えて、次の効果もある。 With respect to the ratio, only the maximum ratio MaxRaX MAX (t) needs to be encoded, not the ratio for all of the medium partition bands, and this modification has the same effect as that of the second embodiment. In addition, there are the following effects.
各中区画帯域の性質を該中区画帯域に含まれるMDCT係数の最大値で代表させたようなスペクトルを想定する。すると、音声の特性ゆえに、かかるスペクトルは、時間とともに全帯域が底上げ又は底下げされるように変化するよりは、各中区画帯域の成分が時間とともに比例するように、つまりスペクトル全体としては相似なまま、変化する傾向が強い。よって、差分ではなく比率を用いてスペクトルの時間変化を表現する本変形例によれば、実施形態2に比べ、規格化のための除数が大きすぎるために符号化の精度が低下する度合いを、減少させることができる。 A spectrum is assumed in which the property of each middle section band is represented by the maximum value of the MDCT coefficient included in the middle section band. Then, due to the characteristics of speech, such a spectrum is similar so that the components of each mid-zone band are proportional with time rather than changing so that the entire band is raised or lowered with time. There is a strong tendency to change. Therefore, according to the present modification example that expresses the time change of the spectrum using the ratio instead of the difference, the degree to which the encoding accuracy is reduced because the divisor for normalization is too large compared to the second embodiment. Can be reduced.
なお、この発明は、上記実施形態に限定されず、種々の変形及び応用が可能である。上述のハードウェア構成やブロック構成、フローチャートは例示であって、限定されるものではない。 In addition, this invention is not limited to the said embodiment, A various deformation | transformation and application are possible. The above-described hardware configuration, block configuration, and flowchart are examples, and are not limited.
例えば、図1に示される音声符号化兼復号装置111として携帯電話を想定して説明したが、PHS(Personal Handyphone System)や、PDA(Personal Digital Assistants)、あるいは一般的なパーソナルコンピュータには、本発明を容易に適用することができる。すなわち、上記実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。
For example, a mobile phone has been described as the speech encoding /
111・・・音声符号化兼復号装置、121・・・CPU、123・・・ROM、125・・・記憶部、131・・・RAM、133・・・ハードディスク、141・・・音声処理部、151・・・マイクロフォン、153・・・スピーカ、161・・・無線通信部、163・・・アンテナ、171・・・操作キー入力内容処理部、173・・・操作キー、181・・・システムバス
DESCRIPTION OF
Claims (12)
聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索手段と、
前記最大値検索手段により検索された最大値を記憶する最大値記憶手段と、
前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化手段と、
を備え、
前記最大値検索手段は、
前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値を前記最大値記憶手段に記憶させるとともに、該所定の時間区分よりも時間的に過去の所定の時間区分において該最大値記憶手段に記憶させた最大値である過去最大値を該最大値記憶手段から取得し、現最大値を過去最大値に関連付けられた値に変換する、
ことを特徴とする音声符号化装置。 Discrete spectrum conversion means for obtaining a value of a frequency component for each sub-band having a predetermined bandwidth for each predetermined time segment for the digital audio signal;
For each medium partition band composed of a predetermined number of consecutive sub-compartment bands set in advance according to auditory characteristics, for each predetermined time section, out of the frequency component values belonging to the medium-compartment band A maximum value search means for searching for a maximum value;
Maximum value storage means for storing the maximum value searched by the maximum value search means;
Encoding means for quantizing and entropy-encoding and outputting information generated based on the maximum value and a frequency component normalized by division by the maximum value;
With
The maximum value search means includes:
For each predetermined time segment, the current maximum value that is the maximum value searched in the predetermined time segment is stored in the maximum value storage means, and a predetermined time segment that is earlier in time than the predetermined time segment Obtaining the past maximum value, which is the maximum value stored in the maximum value storage means, from the maximum value storage means, and converting the current maximum value into a value associated with the past maximum value,
A speech encoding apparatus characterized by that.
請求項1に記載の音声符号化装置。 A medium partition identification integer is assigned to the medium partition band in order from the low range, and the medium partition band is configured such that the logarithm of the center frequency of the medium partition band linearly depends on the medium partition identification integer. Further comprising a partition band configuration means,
The speech encoding apparatus according to claim 1.
前記現最大値から前記過去最大値を減算した値である差分を求め、
前記符号化手段は、
前記差分と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、
ことを特徴とする請求項1又は2に記載の音声符号化装置。 The maximum value search means includes:
Find a difference that is a value obtained by subtracting the past maximum value from the current maximum value,
The encoding means includes
The difference and the normalized frequency component are quantized and entropy encoded and output.
The speech encoding apparatus according to claim 1 or 2, characterized in that
前記現最大値を前記過去最大値により除算した値である比率を求め、
前記符号化手段は、
前記比率と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、
ことを特徴とする請求項1又は2に記載の音声符号化装置。 The maximum value search means includes:
Obtain a ratio that is a value obtained by dividing the current maximum value by the past maximum value,
The encoding means includes
The ratio and the normalized frequency component are quantized and entropy encoded and output.
The speech encoding apparatus according to claim 1 or 2, characterized in that
前記最大値検索手段は、
前記現最大値から前記過去最大値を減算した値である差分を求め、
前記最大差分決定手段は、
前記最大値検索手段が全ての前記中区画帯域毎に求めた差分のうちの最大値である最大差分を求め、
前記符号化手段は、
前記最大差分と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、
ことを特徴とする請求項1又は2に記載の音声符号化装置。 A maximum difference determining means;
The maximum value search means includes:
Find a difference that is a value obtained by subtracting the past maximum value from the current maximum value,
The maximum difference determining means includes
Find the maximum difference that is the maximum value of the differences obtained by the maximum value search means for every medium partition band,
The encoding means includes
The maximum difference and the normalized frequency component are quantized and entropy encoded and output.
The speech encoding apparatus according to claim 1 or 2, characterized in that
前記最大値検索手段は、
前記現最大値を前記過去最大値により除算した値である比率を求め、
前記最大比率決定手段は、
前記最大値検索手段が全ての前記中区画帯域毎に求めた比率のうちの最大値である最大比率を求め、
前記符号化手段は、
前記最大比率と前記規格化された周波数成分とを量子化してエントロピ符号化して出力する、
ことを特徴とする請求項1又は2に記載の音声符号化装置。 A maximum ratio determining means;
The maximum value search means includes:
Obtain a ratio that is a value obtained by dividing the current maximum value by the past maximum value,
The maximum ratio determining means includes
The maximum value search means calculates a maximum ratio that is the maximum value among the ratios determined for all the medium partition bands,
The encoding means includes
The maximum ratio and the normalized frequency component are quantized and entropy encoded and output.
The speech encoding apparatus according to claim 1 or 2, characterized in that
MDCT(Modified Discrete Cosine Transform)を用いる、
ことを特徴とする請求項1乃至6の何れか1項に記載の音声符号化装置。 The discrete spectrum conversion means includes
Use MDCT (Modified Discrete Cosine Transform),
The speech encoding apparatus according to claim 1, wherein the speech encoding apparatus is a part of the speech encoding apparatus.
前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号手段と、
復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形手段と、
前記規格化用値を記憶する規格化用値記憶手段と、
復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換手段と、
を備え、
前記逆変形手段は、
前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値を前記規格化用値記憶手段に記憶させるとともに、該所定の時間区分よりも時間的に過去の所定の時間区分において該規格化用値記憶手段に記憶させた規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
ことを特徴とする音声復号装置。 Entropy coding is performed on the quantized spectrum of the audio signal for each predetermined time segment, which is a result of performing deformation including normalization for each band, and the normalization value that is a value used for the normalization. Receiving means for receiving the code generated by
Decoding means for decoding the modified spectrum data and the normalization value for each of the predetermined time intervals from the code by a decoding method corresponding to the entropy encoding;
Inverse deformation means for restoring the quantized spectrum for each of the predetermined time segments using the standardized value decoded from the deformed spectrum data decoded;
Normalization value storage means for storing the normalization value;
Discrete spectrum inverse transform means for restoring the speech signal from the restored quantized spectrum;
With
The reverse deformation means includes
For each predetermined time segment, the current standardization value, which is a standardization value decoded in the predetermined time segment, is stored in the standardization value storage means, and more time-dependent than the predetermined time segment. A past standardization value that is a standardization value stored in the standardization value storage means in a predetermined past time period, and based on the current standardization value and the past standardization value Restore the quantized spectrum,
A speech decoding apparatus characterized by that.
聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索ステップと、
前記最大値検索ステップにより検索された最大値を記憶する最大値記憶ステップと、
前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化ステップと、
から構成され、
前記最大値検索ステップは、
前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値が前記最大値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の最大値記憶ステップで記憶した最大値である過去最大値を取得し、現最大値を過去最大値に関連付けられた値に変換する、
ことを特徴とする音声符号化方法。 For a digital audio signal, for each predetermined time segment, a discrete spectrum conversion step for obtaining a value of a frequency component for each sub-compartment band having a predetermined bandwidth;
For each medium partition band composed of a predetermined number of consecutive sub-compartment bands set in advance according to auditory characteristics, for each predetermined time section, out of the frequency component values belonging to the medium-compartment band A maximum value search step for searching for a maximum value;
A maximum value storing step for storing the maximum value searched by the maximum value searching step;
An encoding step of quantizing and entropy-encoding and outputting information generated based on the maximum value and a frequency component normalized by division by the maximum value;
Consisting of
The maximum value search step includes:
For each predetermined time segment, when the current maximum value, which is the maximum value searched in the predetermined time segment, is stored by the maximum value storing step, a predetermined past in time than the predetermined time segment is stored. Obtain the past maximum value that is the maximum value stored in the past maximum value storage step in the time segment, and convert the current maximum value to a value associated with the past maximum value,
A speech encoding method characterized by the above.
前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号ステップと、
復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形ステップと、
前記規格化用値を記憶する規格化用値記憶ステップと、
復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換ステップと、
から構成され、
前記逆変形ステップは、
前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値が前記規格化用値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の規格化用値記憶ステップで記憶した規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
ことを特徴とする音声復号方法。 Entropy coding is performed on the quantized spectrum of the audio signal for each predetermined time segment, which is a result of performing deformation including normalization for each band, and the normalization value that is a value used for the normalization. A receiving step for receiving a code generated by
A decoding step of decoding the modified spectrum data and the normalization value for each of the predetermined time intervals from the code by a decoding method corresponding to the entropy encoding;
An inverse transformation step of restoring the quantized spectrum for each predetermined time segment using the standardized value decoded from the decoded spectral data,
A normalization value storing step for storing the normalization value;
A discrete spectrum inverse transform step of restoring the speech signal from the restored quantized spectrum;
Consisting of
The reverse deformation step includes
For each predetermined time segment, when the current standardization value, which is a standardization value decoded in the predetermined time segment, is stored by the standardization value storage step, A past standardization value that is a standardization value stored in the past standardization value storage step in a predetermined time segment in the past is acquired, and based on the current standardization value and the past standardization value To restore the quantized spectrum,
A speech decoding method characterized by the above.
デジタル音声信号について、所定の時間区分毎に、所定の帯域幅を有する小区画帯域毎の周波数成分の値を求める離散スペクトル変換ステップと、
聴覚特性に合わせて予め設定された所定の数の連続する前記小区画帯域から構成される各中区画帯域について、前記所定の時間区分毎に、該中区画帯域に属する周波数成分の値のうちの最大値を検索する最大値検索ステップと、
前記最大値検索ステップにより検索された最大値を記憶する最大値記憶ステップと、
前記最大値と該最大値による除算によって規格化された周波数成分とに基づいて生成される情報を量子化してエントロピ符号化して出力する符号化ステップと、
を実行させるプログラムであって、
前記最大値検索ステップは、
前記所定の時間区分毎に、該所定の時間区分において検索した最大値である現最大値が前記最大値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の最大値記憶ステップで記憶した最大値である過去最大値を取得し、現最大値を過去最大値に関連付けられた値に変換する、
ことを特徴とするプログラム。 On the computer,
For a digital audio signal, for each predetermined time segment, a discrete spectrum conversion step for obtaining a value of a frequency component for each sub-compartment band having a predetermined bandwidth;
For each medium partition band composed of a predetermined number of consecutive sub-compartment bands set in advance according to auditory characteristics, for each predetermined time section, out of the frequency component values belonging to the medium-compartment band A maximum value search step for searching for a maximum value;
A maximum value storing step for storing the maximum value searched by the maximum value searching step;
An encoding step of quantizing and entropy-encoding and outputting information generated based on the maximum value and a frequency component normalized by division by the maximum value;
A program for executing
The maximum value search step includes:
For each predetermined time segment, when the current maximum value, which is the maximum value searched in the predetermined time segment, is stored by the maximum value storing step, a predetermined past in time than the predetermined time segment is stored. Obtain the past maximum value that is the maximum value stored in the past maximum value storage step in the time segment, and convert the current maximum value to a value associated with the past maximum value,
A program characterized by that.
所定の時間区分毎の音声信号の量子化スペクトルに帯域毎の規格化を含む変形を施した結果である変形スペクトルデータと前記規格化に用いられる値である規格化用値とがエントロピ符号化されることにより生成された符号を受信する受信ステップと、
前記符号から、前記エントロピ符号化に対応する復号方法により、前記所定の時間区分毎に、前記変形スペクトルデータと前記規格化用値とを復号する復号ステップと、
復号された前記変形スペクトルデータから、復号された前記規格化用値を用いて、前記量子化スペクトルを前記所定の時間区分毎に復元する逆変形ステップと、
前記規格化用値を記憶する規格化用値記憶ステップと、
復元された前記量子化スペクトルから前記音声信号を復元する離散スペクトル逆変換ステップと、
を実行させるプログラムであって、
前記逆変形ステップは、
前記所定の時間区分毎に、該所定の時間区分において復号された規格化用値である現規格化用値が前記規格化用値記憶ステップにより記憶されるときに、該所定の時間区分よりも時間的に過去の所定の時間区分において過去の規格化用値記憶ステップで記憶した規格化用値である過去規格化用値を取得し、現規格化用値と過去規格化用値とに基づいて前記量子化スペクトルを復元する、
ことを特徴とするプログラム。 On the computer,
Entropy coding is performed on the quantized spectrum of the audio signal for each predetermined time segment, which is a result of performing deformation including normalization for each band, and the normalization value that is a value used for the normalization. A receiving step for receiving a code generated by
A decoding step of decoding the modified spectrum data and the normalization value for each of the predetermined time intervals from the code by a decoding method corresponding to the entropy encoding;
An inverse transformation step of restoring the quantized spectrum for each predetermined time segment using the standardized value decoded from the decoded spectral data,
A normalization value storing step for storing the normalization value;
A discrete spectrum inverse transform step of restoring the speech signal from the restored quantized spectrum;
A program for executing
The reverse deformation step includes
For each predetermined time segment, when the current standardization value, which is a standardization value decoded in the predetermined time segment, is stored by the standardization value storage step, A past standardization value that is a standardization value stored in the past standardization value storage step in a predetermined time segment in the past is acquired, and based on the current standardization value and the past standardization value To restore the quantized spectrum,
A program characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007155308A JP5098453B2 (en) | 2007-06-12 | 2007-06-12 | Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007155308A JP5098453B2 (en) | 2007-06-12 | 2007-06-12 | Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008309875A true JP2008309875A (en) | 2008-12-25 |
JP5098453B2 JP5098453B2 (en) | 2012-12-12 |
Family
ID=40237560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007155308A Expired - Fee Related JP5098453B2 (en) | 2007-06-12 | 2007-06-12 | Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5098453B2 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02153639A (en) * | 1988-12-06 | 1990-06-13 | Fujitsu Ltd | System for controlling division and normalization of band |
JPH0822298A (en) * | 1994-07-07 | 1996-01-23 | Sharp Corp | Coding device and decoding device |
JPH08251031A (en) * | 1995-03-07 | 1996-09-27 | Mitsubishi Electric Corp | Encoder and decoder |
JP2001094433A (en) * | 1999-09-17 | 2001-04-06 | Matsushita Electric Ind Co Ltd | Sub-band coding and decoding medium |
WO2002052732A1 (en) * | 2000-12-22 | 2002-07-04 | Sony Corporation | Encoder and decoder |
JP2002374171A (en) * | 2001-06-15 | 2002-12-26 | Sony Corp | Encoding device and method, decoding device and method, recording medium and program |
-
2007
- 2007-06-12 JP JP2007155308A patent/JP5098453B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02153639A (en) * | 1988-12-06 | 1990-06-13 | Fujitsu Ltd | System for controlling division and normalization of band |
JPH0822298A (en) * | 1994-07-07 | 1996-01-23 | Sharp Corp | Coding device and decoding device |
JPH08251031A (en) * | 1995-03-07 | 1996-09-27 | Mitsubishi Electric Corp | Encoder and decoder |
JP2001094433A (en) * | 1999-09-17 | 2001-04-06 | Matsushita Electric Ind Co Ltd | Sub-band coding and decoding medium |
WO2002052732A1 (en) * | 2000-12-22 | 2002-07-04 | Sony Corporation | Encoder and decoder |
JP2002374171A (en) * | 2001-06-15 | 2002-12-26 | Sony Corp | Encoding device and method, decoding device and method, recording medium and program |
Also Published As
Publication number | Publication date |
---|---|
JP5098453B2 (en) | 2012-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102194557B1 (en) | Energy lossless-encoding method and apparatus, audio encoding method and apparatus, energy lossless-decoding method and apparatus, and audio decoding method and apparatus | |
JP4396683B2 (en) | Speech coding apparatus, speech coding method, and program | |
US10909992B2 (en) | Energy lossless coding method and apparatus, signal coding method and apparatus, energy lossless decoding method and apparatus, and signal decoding method and apparatus | |
US11335355B2 (en) | Estimating noise of an audio signal in the log2-domain | |
CN116884421A (en) | Method and apparatus for generating a hybrid spatial/coefficient domain representation of an HOA signal | |
KR102512359B1 (en) | Energy lossless-encoding method and apparatus, signal encoding method and apparatus, energy lossless-decoding method and apparatus, and signal decoding method and apparatus | |
KR101361933B1 (en) | Frequency band scale factor determination in audio encoding based upon frequency band signal energy | |
US8593321B2 (en) | Computation apparatus and method, quantization apparatus and method, and program | |
JP3344944B2 (en) | Audio signal encoding device, audio signal decoding device, audio signal encoding method, and audio signal decoding method | |
US20100082717A1 (en) | Computation apparatus and method, quantization apparatus and method, and program | |
JP5098453B2 (en) | Speech coding apparatus, speech decoding apparatus, speech coding method, speech decoding method, and program | |
JP2003233397A (en) | Device, program, and data transmission device for audio encoding | |
CN117789737A (en) | Method and device for optimizing SBC encoder and electronic equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100521 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120828 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120910 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151005 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5098453 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |