JP2008158301A - Signal processing device, signal processing method, reproduction device, reproduction method and electronic equipment - Google Patents
Signal processing device, signal processing method, reproduction device, reproduction method and electronic equipment Download PDFInfo
- Publication number
- JP2008158301A JP2008158301A JP2006347513A JP2006347513A JP2008158301A JP 2008158301 A JP2008158301 A JP 2008158301A JP 2006347513 A JP2006347513 A JP 2006347513A JP 2006347513 A JP2006347513 A JP 2006347513A JP 2008158301 A JP2008158301 A JP 2008158301A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- value
- audio signal
- frequency
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Signal Processing For Digital Recording And Reproducing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本発明は、信号処理装置として、特に音声圧縮符号化処理により失われた成分を補正して高音質化を図るための信号処理装置と、その方法とに関する。また、再生装置とその方法、及び電子機器に関する。 The present invention relates to a signal processing apparatus, particularly a signal processing apparatus for correcting a component lost due to a voice compression coding process to improve sound quality and a method thereof. The present invention also relates to a playback apparatus and method, and an electronic device.
音声信号の圧縮符号化処理は、「量子化(PCM:Pulse Code Moduration)」、音声信号の時間的連続性を用いた「時間相関符号化」、人間の聴覚特性を用いた「周波数相関符号化」、これらの符号化から得られた符号の発生確率の偏りを用いた「エントロピー符号化」を組み合わせることで実現することができる。 The compression coding process of audio signals includes "quantization (PCM: Pulse Code Moduration)", "time correlation coding" using temporal continuity of audio signals, and "frequency correlation coding using human auditory characteristics" ", It can be realized by combining" entropy coding "using a bias in the probability of occurrence of codes obtained from these coding.
音声信号の圧縮符号化の手法としては、MPEG(Moving Pictures Experts Group)、ATRAC(Adaptive TRansform Acoustic Coding:登録商標)、AC−3(Audio Code Number 3:登録商標)、WMA(Windows Media Audio:登録商標)などで規格化され、その符号化信号は現在、デジタルテレビジョン放送、デジタルオーディオプレーヤー、WEBストリーミングなど広範にわたって使用されている。 As a method of compressing and encoding audio signals, MPEG (Moving Pictures Experts Group), ATRAC (Adaptive TRansform Acoustic Coding: registered trademark), AC-3 (Audio Code Number 3: registered trademark), WMA (Windows Media Audio: registered) The encoded signal is currently widely used for digital television broadcasting, digital audio players, WEB streaming, and the like.
ここで、圧縮符号化処理の中でも、周波数相関符号化は、圧縮率や音質に大きな影響を与える符号化処理である。周波数相関符号化とは、量子化されたPCM信号を、時間領域から周波数領域に直交変換し、周波数領域における信号エネルギーの偏差を求める。この偏差を用いて符号化することで符号化効率を高めることができる。また直交変換後の信号に対して、心理聴覚特性を用いて、周波数帯域をいくつかの帯域に分け、より人間に知覚されやすい帯域の信号劣化を最小とするように、ある種の重み付けを行って量子化することにより、全体的な符号化品質を改善することができる。
心理聴覚特性を用いた符号化は、絶対可聴閾値と、マスキング効果で定まる相対可聴閾値を用いて、補正可聴閾値を求める。この補正可聴閾値に基づいて、分割された帯域ごとにビット割り当てを行う。補正可聴閾値以下の音圧を持つ周波数成分に関しては、人間は知覚できない音として、符号化の際にカットされる。また、絶対可聴閾値は高周波数帯域(以下、単に高域とも呼ぶ)でその振幅値が上昇するため、低周波数帯域(低域とも呼ぶ)に比べて高域の周波数成分はより多くカットされる。これが音声信号圧縮符号化特有の、高域における周波数帯域制限である。
Here, among the compression encoding processes, the frequency correlation encoding is an encoding process that greatly affects the compression rate and the sound quality. In the frequency correlation coding, the quantized PCM signal is orthogonally transformed from the time domain to the frequency domain, and a deviation of signal energy in the frequency domain is obtained. Encoding efficiency can be increased by encoding using this deviation. In addition, using the psychoacoustic characteristics for the signal after orthogonal transformation, the frequency band is divided into several bands, and some weighting is performed so as to minimize signal degradation in a band that is more easily perceived by humans. Thus, the overall coding quality can be improved.
In the encoding using the psychoacoustic characteristics, the corrected audible threshold value is obtained using the absolute audible threshold value and the relative audible threshold value determined by the masking effect. Based on this corrected audible threshold, bit allocation is performed for each divided band. A frequency component having a sound pressure equal to or lower than the corrected audible threshold is cut during encoding as a sound that cannot be perceived by humans. In addition, since the absolute audible threshold value increases in the high frequency band (hereinafter, also simply referred to as the high band), more frequency components in the high band are cut compared to the low frequency band (also referred to as the low band). . This is a frequency band limitation in the high band, which is peculiar to audio signal compression coding.
このような心理聴覚特性を用いた音声信号の圧縮符号化方式は、MPEG規格で積極的に取り入られている。音声信号の圧縮符号化は各エンコーダーメーカーの技術力により、その傾向が決められるものではあるが、MPEG規格が採用されているデジタルテレビジョン放送の音声信号においては、上記符号化により、ある周波数を境にそれ以降の高域信号が全てカットされたり、可聴帯域内においても、ある分割帯域の信号が全てカットされてしまうといった現状も確認されている。
すなわち、このような信号成分の欠落により、音質の劣化(低下)が生じるものである。
The compression coding method of the audio signal using such psychoacoustic characteristics is actively adopted in the MPEG standard. The tendency of compression encoding of audio signals can be determined by the technical strength of each encoder manufacturer, but for audio signals of digital television broadcasts adopting the MPEG standard, a certain frequency is obtained by the above encoding. It has also been confirmed that all subsequent high-frequency signals are cut off at the border, or that all signals in a certain divided band are cut even within the audible band.
In other words, sound quality deterioration (decrease) occurs due to such lack of signal components.
このような圧縮符号化に伴う高域部分での信号欠落による音質低下を抑制するための先行技術はいくつか存在する。
例えば、下記特許文献1に記載の「周波数補間装置、周波数補間方法及び記録媒体」では、既存の音声信号を使って高域信号を複製する方法が開示されている。
また、特許文献2に記載の「周波数補間システム、周波数補間装置、周波数補間方法及び記録媒体」では、符号化時において、欠落した信号の情報を予め記録しておき、復号時にそれを用いて音質を保ちながら復号する方法が開示されている。
There are several prior arts for suppressing deterioration in sound quality due to signal loss in the high frequency part due to such compression encoding.
For example, “Frequency interpolation apparatus, frequency interpolation method, and recording medium” described in Patent Document 1 below discloses a method of replicating a high frequency signal using an existing audio signal.
Further, in the “frequency interpolation system, frequency interpolation device, frequency interpolation method, and recording medium” described in Patent Document 2, information of a missing signal is recorded in advance at the time of encoding, and the sound quality is used by using the information at the time of decoding. A method for decoding while maintaining the above is disclosed.
また、圧縮符号化に伴う音質劣化としては、上記のような高域部分の欠落の他にも、割り当てビット数の削減に伴う量子化誤差もその1つの要因として挙げることができる。
つまり、心理聴覚特性を用いた符号化では、聴感上聞こえないとされる周波数帯域については割り当てるビット数を削減することとし、これによって音質の低下を抑えながら効率の良い情報圧縮処理を実現しようとしている。但し、このように低ビット数が割り当てられた周波数帯域では、その低ビット数に起因して復号の際の復号精度が低下し、本来の音声信号との差が大きくなるという現象が確認されている。すなわち、これによって低ビット数が割り当てられた帯域での音質の劣化(低下)が生じやすいものとなる。
In addition to the lack of the high frequency part as described above, the quantization error associated with the reduction in the number of assigned bits can be cited as one of the sound quality degradations associated with compression coding.
In other words, in the coding using psychoacoustic characteristics, the number of bits allocated to the frequency band that is considered inaudible to be heard is reduced, thereby trying to realize efficient information compression processing while suppressing deterioration in sound quality. Yes. However, it has been confirmed that in such a frequency band to which a low bit number is assigned, the decoding accuracy is deteriorated due to the low bit number and the difference from the original audio signal is increased. Yes. In other words, this tends to cause deterioration (decrease) in sound quality in a band to which a low bit number is assigned.
このような割り当てビット数の削減に伴う量子化誤差に起因した音質低下を抑制するための先行技術としては、例えば下記の特許文献3を挙げることができる。
この特許文献3に記載の「量子化誤差補正方法及び装置並びにオーディオ情報復号方法」では、補正対象である音声信号の本来とり得る値の範囲を算出し、相隣接する周波数帯域の符号化信号から最小二乗法を使って補正値を算出する。補正値が範囲内の値であれば既存の信号と置き換え、範囲外であれば、範囲の最小値・最大値などを用いて既存の信号との置き換えを行う、という手法が開示されている。
As a prior art for suppressing the deterioration of sound quality due to the quantization error accompanying the reduction of the number of allocated bits, for example, the following Patent Document 3 can be cited.
In the “quantization error correction method and apparatus and audio information decoding method” described in Patent Document 3, a range of values that can be originally taken by a speech signal to be corrected is calculated, and encoded signals in adjacent frequency bands are calculated. The correction value is calculated using the least square method. A method is disclosed in which if the correction value is within the range, it is replaced with an existing signal, and if it is out of the range, replacement with the existing signal is performed using the minimum value / maximum value of the range.
さらに、圧縮符号化に伴う音質劣化の要因としては、上記のような割り当てビット数の削減に伴うバンド間誤差も挙げることができる。すなわち、割り当てビット数を削減されたバンドでは、そこに隣接した割り当てビット数の比較的多いバンドとの境界部分で、それらの割り当てビット数の差に起因してバンド間での量子化誤差が生じる。
このようにバンド間の量子化誤差が生じた部分では、波形の連続性が失われて音質劣化の要因となってしまう。
Furthermore, as a cause of sound quality degradation accompanying compression coding, an inter-band error due to a reduction in the number of allocated bits as described above can be cited. In other words, in a band where the number of allocated bits is reduced, a quantization error occurs between the bands due to the difference in the number of allocated bits at the boundary portion between adjacent bands with a relatively large number of allocated bits. .
As described above, in the portion where the quantization error between the bands occurs, the continuity of the waveform is lost and the sound quality is deteriorated.
ここで、先ず、高域部分の信号欠落について対策する上記特許文献1においては、高域信号の生成元となる基準バンドを信号が存在する帯域から特定し、その基準バンドに基づいた情報を用いて高域用の信号を生成し、追加するという手法が開示されている。
しかしながらこの手法では、上記基準バンドを特定するにあたり、信号が存在する帯域を分割し、分割した数だけ組合せを作り相関関係を求めなければならず、その分処理負担が重くなってしまう。
また、相関関係が求まるまでの処理量が各フレームで変化するため、処理量や処理時間が入力信号に左右されて変わってしまうことになる。
Here, first, in the above-mentioned Patent Document 1 that deals with signal loss in a high frequency part, a reference band that is a generation source of a high frequency signal is specified from a band in which a signal exists, and information based on the reference band is used. A method of generating and adding a high-frequency signal is disclosed.
However, in this method, when specifying the reference band, it is necessary to divide a band in which a signal exists and to create a combination by the number of the divided number, thereby obtaining a correlation.
Further, since the processing amount until the correlation is obtained changes in each frame, the processing amount and the processing time are changed depending on the input signal.
また、同じく高域部分の信号欠落について対策する上記特許文献2に記載の発明では、符号器側と復号器側とで共通のアルゴリズムが必要となっており、よって汎用性に乏しいものとなっている。 Also, in the invention described in the above-mentioned Patent Document 2 that also takes measures against signal loss in the high frequency part, a common algorithm is required on the encoder side and the decoder side, and therefore the versatility is poor. Yes.
このようにして、符号化により失われた高域成分を補間(追加)するにあたり採られていた従来の手法では、処理量の偏りや処理負担の増大という問題や、汎用性の面での問題を抱えるものであった。 In this way, with the conventional method used for interpolating (adding) the high-frequency component lost due to encoding, there is a problem of a bias in processing amount, an increase in processing load, and a problem in versatility. It was something to have.
また、割り当てビット数の削減に伴う量子化誤差について補正する上記特許文献3に記載の手法では、隣接する周波数帯域の符号化信号により、数通りの場合分けが必要となり、その分処理負担が増大する。さらには、上記「補正値」の算出にあたって各信号において二次曲線を求めるものとしているが、このような補正値としてその精度を確保するためには比較的長時間にわたる信号をサンプルして計算を行う必要があり、この点でも処理量が増大化する傾向となる。
すなわち、割り当てビット数の削減に伴う量子化誤差を補正するための従来手法では、補正にあたっての処理負担の軽減が要請される。
Further, in the method described in Patent Document 3 for correcting the quantization error due to the reduction in the number of allocated bits, several cases are required depending on the encoded signals in the adjacent frequency bands, and the processing load increases accordingly. To do. Furthermore, in calculating the “correction value”, a quadratic curve is obtained for each signal, but in order to ensure the accuracy of such a correction value, the calculation is performed by sampling a signal over a relatively long time. It is necessary to do this, and the processing amount tends to increase also in this respect.
That is, in the conventional method for correcting the quantization error due to the reduction in the number of allocated bits, it is required to reduce the processing load for correction.
さらに、上述したようなバンド間の量子化誤差については、現状ではそれを補正するための技術は確立しておらず、この点での音質改善が図られないものとなっている。 Furthermore, regarding the above-described quantization error between bands, a technique for correcting it has not been established at present, and sound quality cannot be improved in this respect.
そこで、本発明では、先ずは上記のような高域信号の欠落についての問題点に鑑み、信号処理装置として以下のように構成することとした。
つまり、所定の情報圧縮処理がされたオーディオ信号における所定の周波数以上の帯域の信号について、自己信号に対し自己信号を順次シフトさせていったときの自己相関計算を行う相関計算手段を備える。
また、上記自己相関計算の結果に基づき、相関性が最も高くなるときの相関最大シフト量を求めるシフト量検出手段を備える。
また、上記所定の周波数以上の帯域において、上記シフト量検出手段により求められた上記相関最大シフト量に基づく分だけ離間した各周波数ポイントでの各振幅値の比率を計算する比率計算手段を備える。
さらに、上記所定の周波数以上の帯域内で信号が欠落している各補間対象周波数ポイントの振幅値を、それら各補間対象周波数ポイントから上記相関最大シフト量に基づく分だけ離間した周波数ポイントにおける振幅値と上記比率とに基づき計算した値で補間する補間手段を備えるものである。
Therefore, in the present invention, first, in view of the above-described problem with the lack of high-frequency signals, the signal processing apparatus is configured as follows.
That is, correlation calculation means is provided for performing autocorrelation calculation when a self-signal is sequentially shifted with respect to the self-signal with respect to a signal in a band of a predetermined frequency or higher in an audio signal subjected to predetermined information compression processing.
Further, a shift amount detecting means for obtaining a maximum correlation shift amount when the correlation is highest based on the result of the autocorrelation calculation is provided.
In addition, a ratio calculation unit that calculates a ratio of each amplitude value at each frequency point separated by an amount based on the correlation maximum shift amount obtained by the shift amount detection unit in a band of the predetermined frequency or higher is provided.
Further, the amplitude value of each interpolation target frequency point where the signal is missing in the band of the predetermined frequency or higher is the amplitude value at the frequency point separated from each of the interpolation target frequency points by an amount based on the maximum correlation shift amount. And interpolation means for interpolating with values calculated based on the ratio.
上記本発明では、所定の周波数以上の帯域において自己相関計算を行い、その結果得られる相関値を最大とするシフト量(相関最大シフト量)を求めるものとしている。この相関最大シフト量の値としては、上記所定の周波数以上の帯域では、その値だけシフトさせたときに自己相関が最も高いということを示すものとなる。このため、信号成分が失われた以降の各補間対象周波数ポイントの信号を補間するにあたり、上記のようにして先ず相関最大シフト量だけ離間した周波数ポイント間の振幅値の比率を計算した上で、各補間対象周波数ポイントから上記相関最大シフト量だけ離間した周波数ポイントにおける振幅値と上記比率とに基づき計算した値で各補間対象周波数ポイントの信号を補間すれば、相関性のある部分の信号に基づいて生成した違和感のない信号により高域を補間することができる。 In the present invention, autocorrelation calculation is performed in a band of a predetermined frequency or higher, and the shift amount (correlation maximum shift amount) that maximizes the correlation value obtained as a result is obtained. The value of the maximum correlation shift amount indicates that the autocorrelation is the highest in the band above the predetermined frequency when the correlation is shifted by that value. For this reason, in interpolating the signal of each interpolation target frequency point after the signal component is lost, after calculating the ratio of the amplitude value between the frequency points separated by the correlation maximum shift amount as described above, If the signal of each interpolation target frequency point is interpolated with the value calculated based on the amplitude value at the frequency point separated from each interpolation target frequency point by the above correlation maximum shift amount and the above ratio, it is based on the signal of the correlated part. It is possible to interpolate a high frequency with a signal that does not feel strange.
また、本発明では、上述した割り当てビット数の削減による量子化誤差についての問題点に鑑み、信号処理装置として以下のように構成することとした。
つまり、所定の情報圧縮処理がされたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段を備える。
また、上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手段を備える。
さらに、上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手段を備えるものである。
Further, in the present invention, in view of the above-described problem regarding quantization error due to the reduction in the number of allocated bits, the signal processing apparatus is configured as follows.
In other words, the audio signal that has been subjected to the predetermined information compression processing is provided with a prediction signal generation unit that generates a prediction signal obtained by predicting the original signal before compression.
The audio signal further includes error candidate part detection means for detecting a part having an amplitude value of a predetermined value on the frequency axis as an error candidate part.
Furthermore, a replacement means is provided for replacing the amplitude value of the error candidate portion based on the value of the prediction signal based on the result of comparing the amplitude value in the error candidate portion with the value of the prediction signal.
上記のようにして周波数軸上で所定値となっている部分を検出し、その部分の振幅値を、予測信号の値との比較結果に基づいて上記予測信号の値に基づき置換することで、割り当てビット数の少なさに起因した大きな量子化誤差の生じている部分を適正に検出し、誤差部分の振幅値を予測信号に応じたより確からしい値で補正することができる。 By detecting a portion having a predetermined value on the frequency axis as described above, and replacing the amplitude value of the portion based on the value of the predicted signal based on the comparison result with the value of the predicted signal, It is possible to appropriately detect a portion where a large quantization error due to the small number of assigned bits occurs and correct the amplitude value of the error portion with a more probable value according to the prediction signal.
さらに、本発明では、上述したバンド間の量子化誤差の問題に鑑みて、信号処理装置として以下のように構成することとした。
つまり、所定の周波数バンド単位でビット数割り当てのための分解能を定める情報圧縮処理がされたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段を備える。
また、上記オーディオ信号について、それぞれ分解能の値が異なっている連続した周波数バンド間の境界部分を検出する境界部分検出手段を備える。
さらに、上記境界部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記境界部分の振幅値を上記予測信号の値に基づき置換する置換手段を備えるものとした。
Furthermore, in the present invention, in view of the above-described problem of quantization error between bands, the signal processing apparatus is configured as follows.
In other words, the audio signal that has been subjected to the information compression processing that determines the resolution for assigning the number of bits in a predetermined frequency band unit is provided with a prediction signal generation unit that generates a prediction signal that predicts the original signal before compression.
The audio signal further includes boundary portion detection means for detecting a boundary portion between successive frequency bands having different resolution values.
Furthermore, based on the result of comparing the amplitude value at the boundary portion with the value of the prediction signal, a replacement means for replacing the amplitude value of the boundary portion based on the value of the prediction signal is provided.
上記のようにして分解能の値が異なっている連続した周波数バンド間の境界部分を検出し、その境界部分の振幅値を予測信号と比較した結果に基づいて予測信号の値に基づき置換するものとすれば、割り当てビット数の差によってバンド間で大きな量子化誤差が生じてバンド間の連続性が損なわれた部分を適正に検出し、その部分の振幅値を予測信号に基づくより確からしい値で補正することができる。 As described above, a boundary portion between consecutive frequency bands having different resolution values is detected, and the amplitude value of the boundary portion is replaced based on the value of the prediction signal based on the result of comparison with the prediction signal. If this is the case, it is possible to properly detect a part where the continuity between bands is lost due to a large quantization error between bands due to the difference in the number of allocated bits, and the amplitude value of that part is a more probable value based on the predicted signal. It can be corrected.
上記のようにして、高域補間についての本発明によれば、残された高域側の信号についての自己相関計算結果に基づき、さらに高域の信号の失われた部分を補間するものとしたことで、失われた信号成分を正しく補間することができる。
また、このような本発明は、補間処理にあたっては自己相関計算と比率計算、及び相関最大シフト量と比率とを用いた追加すべき信号値の計算といった、比較的簡易な四則演算のみを行えばよい。この点で、従来のようにして、基準バンドを特定するにあたり信号が存在する帯域を分割し、分割した数だけ組合せを作り相関関係を求めるとった手法を採る場合と比較すれば、処理負担は格段に軽くすることができる。
As described above, according to the present invention for high-frequency interpolation, based on the autocorrelation calculation result for the remaining high-frequency signal, the lost portion of the high-frequency signal is interpolated. Thus, the lost signal component can be correctly interpolated.
Further, in the present invention, only a relatively simple four arithmetic operations such as autocorrelation calculation and ratio calculation and calculation of a signal value to be added using the maximum correlation shift amount and ratio are performed in the interpolation process. Good. In this regard, the processing burden is reduced as compared with the conventional method of dividing the band in which the signal exists in specifying the reference band, and combining the number of the divided number to obtain the correlation. It can be much lighter.
また、上記本発明の補間手法によれば、補間処理にあたっては、常に自己相関計算、比率計算、相関最大シフト量と比率とに基づく信号追加を行うだけでよい。すなわち、所定のフレーム単位ごとの補間処理として、その内容は同じものとすることができる。この点から、従来のように各フレームごとに処理内容が変化し、処理量や処理時間が入力信号に左右されて変わってしまうといった不都合は生じないものとなる。 Further, according to the interpolation method of the present invention, in the interpolation process, it is only necessary to always perform autocorrelation calculation, ratio calculation, and signal addition based on the correlation maximum shift amount and ratio. That is, the content can be the same as the interpolation processing for each predetermined frame unit. From this point, the processing contents change for each frame as in the prior art, and the inconvenience that the processing amount and processing time change depending on the input signal does not occur.
また、本発明の高域補間手法としては、復号化処理とは独立した処理とできるので、特に符号化側と共通な復号アルゴリズムとする必要はなく、汎用性が失われるといった問題は生じないようにすることができる。 In addition, since the high-frequency interpolation method of the present invention can be a process independent of the decoding process, it is not particularly necessary to use a decoding algorithm common to the encoding side, so that the problem of loss of versatility does not occur. Can be.
また、上記量子化誤差補正についての本発明によれば、割り当てビット数の少なさに起因した大きな量子化誤差の生じている部分を適正に検出し、誤差部分の振幅値を予測信号に応じたより確からしい値で補正することができる。すなわち、これによって圧縮符号化による音質劣化を効果的に抑圧することができる。 Further, according to the present invention for the above-mentioned quantization error correction, a part where a large quantization error due to a small number of allocated bits is detected is properly detected, and the amplitude value of the error part is determined according to the prediction signal. It can be corrected with a certain value. That is, it is possible to effectively suppress sound quality deterioration due to compression coding.
そして、上記本発明によれば、このような音質改善効果を得るにあたっては、予測信号を生成し、その値と音声信号の振幅値とを比較した結果に基づき予測信号の値との置換を行えばよいのみとすることができる。
これによれば、例えば従来のように本来とり得る値の範囲を算出し、相隣接する周波数帯域の符号化信号から最小二乗法を使って補正値を算出し、補正値が範囲内の値であれば既存の信号と置き換え、範囲外であれば、範囲の最小値・最大値などを用いて既存の信号との置き換えを行う、という手法で高音質化を図るとした場合と比較して、処理負担は格段に軽くすることができる。
According to the present invention, in order to obtain such a sound quality improvement effect, a predicted signal is generated, and the value is compared with the value of the predicted signal based on the result of comparing the value with the amplitude value of the audio signal. It can only be necessary.
According to this, for example, a range of values that can be originally taken is calculated as in the prior art, a correction value is calculated from encoded signals in adjacent frequency bands using the least square method, and the correction value is a value within the range. Compared with the case where high sound quality is achieved by the method of replacing the existing signal if there is, if it is outside the range, replacing with the existing signal using the minimum and maximum values of the range, The processing burden can be significantly reduced.
さらに、バンド間の量子化誤差に関する本発明によれば、割り当てビット数の差によってバンド間で大きな量子化誤差が生じてバンド間の連続性が損なわれた部分を適正に検出し、その部分の振幅値を予測信号に基づくより確からしい値によって補正することができる。すなわち、これによって割り当てビット数の差によって生じるバンド間部分での波形の不連続性を有効に改善することができ、この結果、高音質化を図ることができる。 Furthermore, according to the present invention relating to the quantization error between bands, a part where a large quantization error occurs between bands due to the difference in the number of allocated bits and the continuity between bands is impaired is appropriately detected. The amplitude value can be corrected by a more probable value based on the prediction signal. That is, it is possible to effectively improve the discontinuity of the waveform in the interband part caused by the difference in the number of assigned bits, and as a result, it is possible to improve the sound quality.
以下、発明を実施するための最良の形態(以下実施の形態とする)について説明していく。
なお以下、各実施の形態(第1〜第3の実施の形態)の説明にあたっては、音声符号化方式として、MPEG−2 AAC(Moving Pictures Experts Group-2 Advanced Audio Coding)と呼ばれるISO/IEC13818−7規格の符号化方式が採用され、その復号処理を行う場合を例に挙げる。
また、以下においては、MPEG−2 AACを、単にAACとも呼ぶ。
なお、上記ISOは、国際標準化機構(International Organization for Standardization)の略称であり、IECは、国際電気標準会議(International Electrotechnical Commission)の略称である。
Hereinafter, the best mode for carrying out the invention (hereinafter referred to as an embodiment) will be described.
In the following description of each embodiment (first to third embodiments), ISO / IEC 13818- called MPEG-2 AAC (Moving Pictures Experts Group-2 Advanced Audio Coding) is used as an audio encoding method. As an example, a coding method of 7 standards is adopted and the decoding process is performed.
In the following, MPEG-2 AAC is also simply referred to as AAC.
The ISO is an abbreviation for International Organization for Standardization, and IEC is an abbreviation for International Electrotechnical Commission.
[AAC符号化処理の概要]
先ず、実施の形態を説明する上での前提として、AAC方式の符号化処理の概要について述べておく。
AAC方式による音声符号化処理は、周波数相関符号化処理として、心理聴覚(psycho acoustics)に基づいて、人が知覚できない音の領域はデータ化しないことで、圧縮効果を高めているものである。AAC方式の符号化によると、例えば2チャンネルステレオ音声の場合、96キロビット/秒程度の伝送量でもCD(Compact Disc)なみの音質が得られ、約1/15(15分の1)の圧縮率が得られるものとなる。
[Outline of AAC encoding processing]
First, the outline of the AAC encoding process will be described as a premise for explaining the embodiment.
The voice encoding process based on the AAC method is a frequency correlation encoding process, and based on psychoacoustics, a sound region that cannot be perceived by humans is not converted into data, thereby increasing the compression effect. According to AAC encoding, for example, in the case of 2-channel stereo sound, a CD (Compact Disc) sound quality can be obtained even with a transmission rate of about 96 kilobits / second, and a compression rate of about 1/15 (1/15). Is obtained.
AAC方式では、上述した心理聴覚分析の結果に基づいて、(1)ゲイン調整処理→(2)適応ブロック長切換MDCT処理→(3)TNS処理→(4)インテンシティ・ステレオ符号化処理→(5)予測処理→(6)M/Sステレオ処理→(7)スケーリング処理が行われた後に、(8)量子化処理と(9)ハフマン符号化処理とが、割り当てられたビット数を下回るまで反復されて、符号化音声データが形成される。実際には、これらの処理過程において付すべき種々の係数等が付加されることにより最終的な符号化音声信号(AACビットストリーム)が形成される。 In the AAC system, based on the result of the psychoacoustic analysis described above, (1) gain adjustment processing → (2) adaptive block length switching MDCT processing → (3) TNS processing → (4) intensity stereo coding processing → ( 5) Prediction processing → (6) M / S stereo processing → (7) After scaling processing is performed, until (8) quantization processing and (9) Huffman encoding processing fall below the allocated number of bits Iterates to form encoded audio data. Actually, a final encoded audio signal (AAC bit stream) is formed by adding various coefficients to be added in these processing steps.
以下に、具体的な処理内容を示す。
先ず、入力された符号化処理前の音声信号は、ゲイン調整され、所定のサンプル数毎にブロック化されて、これが1フレームとして処理される。符号化装置では、入力フレームを心理聴覚分析部においてFFT(Fast Fourier Transform)処理して周波数スペクトルを求め、それを元に聴覚のマスキングを計算し、予め設定された周波数帯域毎の許容量子化雑音電力と、そのフレームに対する心理聴覚エントロピー(PE:Perceptual Entropy)と呼ぶパラメータを求める。
Specific processing contents are shown below.
First, the input speech signal before the encoding process is gain-adjusted and is blocked for each predetermined number of samples, and this is processed as one frame. In the encoding device, an input frame is subjected to FFT (Fast Fourier Transform) processing in a psychoacoustic analysis unit to obtain a frequency spectrum, and auditory masking is calculated based on the frequency spectrum, and allowable quantization noise for each preset frequency band is calculated. A parameter called PE and Perceptual Entropy (PE) for the frame is obtained.
心理聴覚エントロピーは、聴取者が雑音を知覚することがないようにそのフレームを量子化するのに必要な総ビット数に相当する。また、心理エントロピーは、音声信号のアタック部のように信号レベルが急激に増大するところで大きな値を取るという特性がある。そこで、心理エントロピーの値の急変部を元にしてMDCT(Modified Discrete Cosine Transform)の変換ブロック長を決定する。 Psychological auditory entropy corresponds to the total number of bits required to quantize the frame so that the listener does not perceive noise. In addition, psychological entropy has a characteristic that it takes a large value when the signal level suddenly increases like an attack portion of a voice signal. Therefore, the transform block length of MDCT (Modified Discrete Cosine Transform) is determined based on the sudden change portion of the psychological entropy value.
MDCT処理は、心理聴覚分析部で決定されたブロック長で入力された音声信号を周波数スペクトル(以下、MDCT係数という)に変換する。変換ブロック長を、入力信号に応じて適応的に切り換える処理(適応ブロック切り換え)は、プリエコーと呼ばれる聴覚的に有害な雑音を抑制するために必要な処理である。 The MDCT process converts an audio signal input with a block length determined by the psychoacoustic analysis unit into a frequency spectrum (hereinafter referred to as an MDCT coefficient). The process of adaptively switching the transform block length according to the input signal (adaptive block switching) is a process necessary for suppressing auditory harmful noise called pre-echo.
MDCT処理によって形成されたMDCT係数は、TNS(Temporal Noise Shaping)処理される。このTNS処理は、MDCT係数を時間軸上の信号であるかのように見たてて、線形予測を行い、MDCT係数に対して予測フィルタリングを行うものである。このTNS処理により、復号処理側で逆MDCTして得られる波形に含まれる量子化雑音は、信号レベルの大きなところに集まるようになる。 The MDCT coefficient formed by the MDCT processing is subjected to TNS (Temporal Noise Shaping) processing. In this TNS process, the MDCT coefficient is viewed as if it is a signal on the time axis, linear prediction is performed, and prediction filtering is performed on the MDCT coefficient. By this TNS process, the quantization noise included in the waveform obtained by inverse MDCT on the decoding process side is gathered at a large signal level.
そして、TNS処理されたMDCT係数に対しては、インテンシティ・ステレオ符号化、すなわち、高い周波数領域の音は左チャンネル(Lチャンネル)と右チャンネル(Rチャンネル)を合わせた1つのカップリングチャンネルしか伝送しないようにするための処理が施される。
インテンシティ・ステレオ符号化されたMDCT係数は、MDCT係数1本毎に、過去2フレームにおける量子化されたMDCT係数から現在のMDCT係数の値が予測され、その予測残差が求められる。この予測処理されたMDCT係数は、M/Sステレオ処理により、左右チャンネルの和信号(M=L+R)と差信号(S=L−R)を伝送するか、左右チャンネルのそれぞれ(LチャンネルとRチャンネルとのそれぞれ)を伝送するかが決定され、出力される。
For MDCT coefficients that have been subjected to TNS processing, intensity stereo coding, that is, the sound in the high frequency region has only one coupling channel that combines the left channel (L channel) and the right channel (R channel). Processing is performed to prevent transmission.
Intensity-stereo-encoded MDCT coefficients are predicted for the current MDCT coefficient from the quantized MDCT coefficients in the past two frames for each MDCT coefficient, and the prediction residual is obtained. This predicted MDCT coefficient is transmitted by M / S stereo processing to transmit the left and right channel sum signal (M = L + R) and difference signal (S = LR), or the left and right channels respectively (L channel and R channel). Each channel) is determined and output.
M/Sステレオ処理により出力されたMDCT係数は、予め設定された周波数帯域毎の複数本でグループ化されて(スケーリングされ)、これを単位として量子化が行われる。これらMDCT係数のグループをスケールファクタバンド(sfb)と呼んでいる。このsfbは、聴覚の特性に合わせて低域側では狭く、高域側では広くなるように設定されている。 The MDCT coefficients output by the M / S stereo process are grouped (scaled) by a plurality of preset frequency bands, and are quantized in units. These groups of MDCT coefficients are called scale factor bands (sfb). This sfb is set to be narrow on the low frequency side and wide on the high frequency side in accordance with the auditory characteristics.
量子化処理では、心理聴覚部で求めたsfb毎の許容量子化雑音電力を下回ることを目標に量子化を行う。量子化されたMDCT係数は、さらにハフマン符号化が施されて冗長度が削減される。この量子化・ハフマン符号化の処理は反復ループで行われ、実際に生成される符号量が、フレームに割り当てられたビット数を下回るまで繰り返し行われる。 In the quantization process, quantization is performed with the goal of being below the allowable quantization noise power for each sfb obtained by the psychoacoustic part. The quantized MDCT coefficients are further subjected to Huffman coding to reduce redundancy. This quantization / Huffman coding process is performed in an iterative loop, and is repeated until the amount of code actually generated falls below the number of bits assigned to the frame.
このように、AAC符号化方式は、心理聴覚分析の結果に基づいて、(1)ゲイン調整処理→(2)適応ブロック長切換MDCT処理→(3)TNS処理→(4)インテンシティ・ステレオ符号化処理→(5)予測処理→(6)M/Sステレオ処理→(7)スケーリング処理を行った後に、(8)量子化処理と(9)ハフマン符号化処理とを、割り当てられたビット数を下回るまで反復して行うことで、符号化された音声データを形成するようにされている。 As described above, the AAC encoding method is based on the result of psychoacoustic analysis. (1) Gain adjustment processing → (2) Adaptive block length switching MDCT processing → (3) TNS processing → (4) Intensity stereo coding → (5) Prediction process → (6) M / S stereo process → (7) After the scaling process, (8) quantization process and (9) Huffman encoding process are assigned to the number of bits. By repeating the process until it falls below, the encoded voice data is formed.
なお、上述したAAC方式の音声符号化処理については、例えば「デジタルテレビ技術入門」高田豊、浅見聡著、米田出版、112頁〜124頁等の種々の文献、あるいは、Webページなどにおいても詳細に説明されている。 The above-described AAC speech coding process is described in detail in various documents such as “Introduction to Digital Television Technology” by Yutaka Takada, Satoshi Asami, Yoneda Publishing, pages 112 to 124, or Web pages. Explained.
また、ゲイン調整処理、TNS処理、インテンシティ・ステレオ符号化処理、予測処理、M/Sステレオ処理は、オプション処理であり、AAC符号化全工程で行うものではない。すなわち、ゲイン調整処理、TNS処理、インテンシティ・ステレオ符号化処理、予測処理、M/Sステレオ処理は、オプション処理が選択された場合にのみ行われる処理である。以下で説明する実施の形態においては、上述したオプション処理を行うようにされて圧縮符号化された符号化音声信号を処理する場合を例にして説明することとする。
Further, the gain adjustment process, the TNS process, the intensity / stereo coding process, the prediction process, and the M / S stereo process are optional processes, and are not performed in the entire AAC coding process. That is, the gain adjustment process, the TNS process, the intensity stereo coding process, the prediction process, and the M / S stereo process are processes performed only when the option process is selected. In the embodiment described below, a case where an encoded speech signal that has been subjected to the above-described option processing and is compression-encoded is processed will be described as an example.
<第1の実施の形態>
図1は、本発明の再生装置(電子機器)の第1の実施の形態としての再生装置1の内部構成について示したブロック図である。
この再生装置1は、図示する記憶部2として、例えばHDD(Hard Disc Drive)やフラッシュメモリ等の記憶デバイスに記憶された圧縮符号化音声信号を復号して再生可能なオーディオプレイヤとして構成される。
再生装置1には、この記憶部2に加え、復調部3、圧縮符号復号化部4、DSP(Digital Signal Processor)5、バス6、システムコントローラ7、操作部8、表示部9が備えられている。
<First Embodiment>
FIG. 1 is a block diagram showing an internal configuration of a playback apparatus 1 as a first embodiment of a playback apparatus (electronic device) according to the present invention.
The playback device 1 is configured as an audio player capable of decoding and playing back a compressed and encoded audio signal stored in a storage device such as an HDD (Hard Disc Drive) or a flash memory as the illustrated storage unit 2.
In addition to the storage unit 2, the playback device 1 includes a demodulation unit 3, a compression code decoding unit 4, a DSP (Digital Signal Processor) 5, a bus 6, a system controller 7, an operation unit 8, and a display unit 9. Yes.
先ず、記憶部2においては、圧縮符号化音声信号がランレングスリミテッド符号化処理やエラー訂正コード付加処理等の所定処理が施された状態で記憶されている。復調部3は、記憶部2からの読み出し信号について、上記ランレングスリミテッド符号のデコードや上記エラー訂正コードに基づくエラー訂正処理等、所定の復調処理を行って圧縮符号化音声信号を得る。 First, in the storage unit 2, a compressed encoded audio signal is stored in a state where predetermined processes such as a run length limited encoding process and an error correction code adding process are performed. The demodulator 3 performs predetermined demodulation processing such as decoding of the run-length limited code and error correction processing based on the error correction code on the read signal from the storage unit 2 to obtain a compressed encoded audio signal.
復調部3の復調処理により得られた圧縮符号化音声信号は、圧縮符号復号化部4に供給され、ここにおいて圧縮符号の復号化処理が行われる。先の説明から理解されるように、本実施の形態では圧縮符号化音声信号がAAC圧縮符号化音声信号であることを前提としており、この圧縮符号復号化部4としてはAAC方式に対応した復号化処理を行うように構成されている。すなわち、AAC圧縮符号化音声信号を音声出力可能な状態に復号化するように構成されている。
なお、この圧縮符号復号化部4の内部構成については後述する。
また、第1の実施の形態の場合、この圧縮符号復号化部4内には、図示するようにして高域補間部4aが備えられるがこれについても後述する。
The compression-encoded audio signal obtained by the demodulation process of the demodulation unit 3 is supplied to the compression code decoding unit 4 where the compression code decoding process is performed. As can be understood from the above description, the present embodiment assumes that the compression-encoded audio signal is an AAC compression-encoded audio signal, and the compression encoding / decoding unit 4 performs decoding corresponding to the AAC system. It is comprised so that a process may be performed. That is, it is configured to decode the AAC compression-encoded audio signal so that the audio can be output.
The internal configuration of the compression code decoding unit 4 will be described later.
In the case of the first embodiment, the compression code decoding unit 4 is provided with a high-frequency interpolation unit 4a as shown in the figure, which will also be described later.
圧縮符号復号化部4の復号処理を経て得られた音声信号は、DSP5に供給され、ここで所要の音声信号処理(例えばボリューム調整や各種音響効果付加処理等)が施された後、図示する出力端子Toutに供給され外部出力される。 The audio signal obtained through the decoding process of the compression coding / decoding unit 4 is supplied to the DSP 5, where necessary audio signal processing (for example, volume adjustment, various acoustic effect addition processes, etc.) is performed and then illustrated. It is supplied to the output terminal Tout and output externally.
システムコントローラ7は、例えばCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Randam Access Memory)などを備えたマイクロコンピュータで構成され、図示するバス6を介して接続される記憶部2、復調部3、圧縮符号復号化部4、DSP5との間で制御信号や各種データのやりとりすることで当該再生装置1の全体制御を行う。
例えばシステムコントローラ7は、後述する操作部8からの操作入力等に応じて記憶部2の信号読み出し制御を実行する。また、例えば操作部8からの操作入力等に応じてDSP5に音声信号処理の各種パラメータを設定する処理なども行う。
The system controller 7 is constituted by a microcomputer including, for example, a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Randam Access Memory), and the like, and is connected to the storage unit 2 via the bus 6 shown in the figure. The playback apparatus 1 is controlled in its entirety by exchanging control signals and various data with the demodulator 3, compression code decoder 4, and DSP 5.
For example, the system controller 7 executes signal read control of the storage unit 2 in response to an operation input from the operation unit 8 described later. In addition, for example, processing for setting various parameters of audio signal processing in the DSP 5 according to an operation input from the operation unit 8 or the like is also performed.
操作部8は、例えば再生装置1の筐体外面に表出するようにして備えられる図示されない操作キー等によるの入力デバイスであって、ユーザが各種操作入力やデータ入力を行う。操作部8で入力された情報はシステムコントローラ7に対して操作又はデータの入力情報として伝達される。システムコントローラ7は入力された情報に対応して必要な演算や制御を行う。 The operation unit 8 is an input device such as an operation key (not shown) provided so as to be exposed on the outer surface of the housing of the playback apparatus 1, for example, and the user performs various operation inputs and data inputs. Information input by the operation unit 8 is transmitted to the system controller 7 as operation or data input information. The system controller 7 performs necessary calculations and control corresponding to the input information.
表示部9は、例えば液晶パネルなどの表示パネルを備え、ユーザに対して各種情報表示を行う。この場合は、システムコントローラ7からの指示に基づく各種情報の表示を行う。 The display unit 9 includes a display panel such as a liquid crystal panel, for example, and displays various information to the user. In this case, various information is displayed based on an instruction from the system controller 7.
[圧縮符号復号化部の構成]
図2は、図1に示した圧縮符号復号化部4の内部構成について示している。
先ず、圧縮符号復号化部4の構成要素としては、大別すると、フォーマット解析部10、逆量子化処理部11、ステレオ処理部12、適応ブロック長切換逆MDCT部13、ゲイン制御部14に分けることができる。また、この場合の圧縮符号復号化部4には、図1にも示したように、高域補間部4aが備えられることになる。
[Configuration of compression coding / decoding unit]
FIG. 2 shows the internal configuration of the compression code decoding unit 4 shown in FIG.
First, the components of the compression code decoding unit 4 are roughly divided into a format analysis unit 10, an inverse quantization processing unit 11, a stereo processing unit 12, an adaptive block length switching inverse MDCT unit 13, and a gain control unit 14. be able to. In addition, the compression code decoding unit 4 in this case is provided with a high-frequency interpolation unit 4a as shown in FIG.
上記逆量子化処理部11には、ハフマン復号化部11a、逆量子化部11b、リスケーリング部11cとが備えられる。また、上記ステレオ処理部12には、M/Sステレオ処理部12a、予測処理部12b、インテンシティ・ステレオ処理部12c、TNS部12dとが備えられている。 The inverse quantization processing unit 11 includes a Huffman decoding unit 11a, an inverse quantization unit 11b, and a rescaling unit 11c. The stereo processing unit 12 includes an M / S stereo processing unit 12a, a prediction processing unit 12b, an intensity / stereo processing unit 12c, and a TNS unit 12d.
先ず、図1に示した復調部3からの符号化音声信号(ビットストリーム)は、フォーマット解析部10に供給される。フォーマット解析部10は、供給された符号化音声信号をMDCT係数とそれ以外のパラメータや制御情報とに分離する。MDCT係数については、逆量子化処理部11内のハフマン復号化部11aに供給する。
また、フォーマット解析部10は、符号化音声信号のビットストリームから抽出したパラメータや制御情報に基づいて、各部に対する制御信号を形成し、これを図中の破線矢印で示すようにして圧縮符号復号化部4内の各部に対して供給することによって、各部における処理が制御される。
First, the encoded audio signal (bit stream) from the demodulator 3 shown in FIG. 1 is supplied to the format analyzer 10. The format analysis unit 10 separates the supplied encoded audio signal into MDCT coefficients and other parameters and control information. The MDCT coefficients are supplied to the Huffman decoding unit 11a in the inverse quantization processing unit 11.
In addition, the format analysis unit 10 forms a control signal for each unit based on parameters and control information extracted from the bit stream of the encoded audio signal, and compresses and decodes the control signal as indicated by a broken line arrow in the figure. By supplying to each part in the part 4, processing in each part is controlled.
上記のようにしてフォーマット解析部10で分離されたMDCT係数については、上述したAAC符号化時の処理とは言わば逆となる処理を施すことによって、符号化音声信号の復号化処理が行われる。
具体的に、先ず上記ハフマン復号化部11aでは、フォーマット解析部10から供給されるMDCT係数についてハフマン復号処理を行う。次に、逆量子化部11bにおいて逆量子化処理を行った後、リスケーリング部11cにおいてリスケーリング処理を行うことで量子化前のMDCT係数を復元する。
The MDCT coefficients separated by the format analysis unit 10 as described above are subjected to a process that is the reverse of the process at the time of the AAC encoding described above, whereby the encoded audio signal is decoded.
Specifically, first, the Huffman decoding unit 11a performs a Huffman decoding process on the MDCT coefficients supplied from the format analysis unit 10. Next, after the inverse quantization process is performed in the inverse quantization unit 11b, the MDCT coefficient before quantization is restored by performing the rescaling process in the rescaling unit 11c.
このようにして逆量子化処理部11にて量子化前の状態に復元されたMDCT係数は、ステレオ処理部12内のM/Sステレオ処理部12aに供給される。
M/Sステレオ処理部12aにおいては、左チャンネル(Lch)と右チャンネル(Rch)のMDCT係数が復元される。この左右2チャンネルのMDCT係数は、次の予測処理部12bにおいて処理されることで、符号化時の予測処理によるデータ圧縮前のMDCT係数に復元され、さらにインテンシティ・ステレオ処理部12cにおいて、インテンシティ・ステレオ復号化処理が施されて、高い周波数領域の音についても、左右のそれぞれのチャンネルのMDCT係数に分配される。この後、TNS部12dにおいて、予測フィルタリングがはずされ、符号化時においてMDCT処理された直後のMDCT係数が復元される。
The MDCT coefficients restored to the pre-quantization state in the inverse quantization processing unit 11 in this way are supplied to the M / S stereo processing unit 12a in the stereo processing unit 12.
In the M / S stereo processing unit 12a, the MDCT coefficients of the left channel (Lch) and the right channel (Rch) are restored. The left and right two-channel MDCT coefficients are processed by the next prediction processing unit 12b to be restored to the MDCT coefficients before data compression by the prediction processing at the time of encoding, and further, the intensity stereo processing unit 12c The city stereo decoding process is performed, and the sound in the high frequency region is also distributed to the MDCT coefficients of the left and right channels. Thereafter, prediction filtering is removed in the TNS unit 12d, and the MDCT coefficient immediately after the MDCT processing at the time of encoding is restored.
第1の実施の形態の場合、このようにステレオ処理部12でMDCT処理された直後に相当する状態に復元されたMDCT係数は、図示するようにして高域補間部4aによる高域補間を経た後に、適応ブロック長切換逆MDCT部13に対して供給される。
なお、先にも述べたが、この高域補間部4aによる高域補間処理の内容、及びその内部構成については後述する。
In the case of the first embodiment, the MDCT coefficients restored to the state immediately after being subjected to MDCT processing in the stereo processing unit 12 in this way are subjected to high-frequency interpolation by the high-frequency interpolation unit 4a as shown in the figure. Later, the adaptive block length switching inverse MDCT unit 13 is supplied.
As described above, the contents of the high-frequency interpolation processing by the high-frequency interpolation unit 4a and the internal configuration thereof will be described later.
適応ブロック長切換逆MDCT部13は、上記のようにして高域補間部4aを介して供給されるMDCT係数(周波数領域の音声信号)を逆MDCT処理することによって時間軸領域の音声信号(時間音声信号:音声出力可能な状態の音声信号)に変換し、これをゲイン制御部14に供給する。
適応ブロック長切換逆MDCT部13で得られた時間音声信号は、次段のゲイン制御部14にてゲイン調整が行われた後、先の図1に示したDSP5に対して供給される。
The adaptive block length switching inverse MDCT unit 13 performs inverse MDCT processing on the MDCT coefficient (frequency domain audio signal) supplied via the high frequency interpolating unit 4a as described above, thereby performing a time axis domain audio signal (time Audio signal: an audio signal in a state where audio output is possible), and this is supplied to the gain control unit 14.
The temporal audio signal obtained by the adaptive block length switching inverse MDCT unit 13 is supplied to the DSP 5 shown in FIG. 1 after gain adjustment is performed by the gain control unit 14 at the next stage.
[高域補間動作]
上記のようにして圧縮符号復号化部4では、AAC方式で符号化されて形成された符号化音声信号の復号処理を行って、音声出力可能な音声信号を得るようにされる。
しかしながら、一般的に音声圧縮符号化は、周波数相関符号化として、上述したような心理聴覚分析などを用いた方式が採られるため、高域の音声信号が失われて音質が劣化する可能性が高いものとなっている。すなわち、このような圧縮符号化された音声信号を復号化して得られる音声信号としても、その音質が劣化している可能性が高いものである。
[High-frequency interpolation operation]
As described above, the compression encoding / decoding unit 4 performs a decoding process on the encoded audio signal that is encoded by the AAC method to obtain an audio signal that can be output as an audio signal.
However, in general, since compression compression coding employs a method using psychoacoustic analysis as described above as frequency correlation coding, there is a possibility that a high-frequency sound signal is lost and the sound quality is deteriorated. It is expensive. That is, even if an audio signal is obtained by decoding such a compression-encoded audio signal, there is a high possibility that the sound quality has deteriorated.
そこで、第1の実施の形態においては、符号化により失われてしまった高域部分の音声信号を補間することで、音質の改善を図る(つまり高音質化を図る)ようにしている。そしてそのための構成として、先の図2(図1)に示した高域補間部4aを設けるようにしている。 Therefore, in the first embodiment, the sound quality is improved (that is, the sound quality is improved) by interpolating the audio signal of the high frequency part that has been lost due to the encoding. As a configuration for that purpose, the high-frequency interpolation unit 4a shown in FIG. 2 (FIG. 1) is provided.
先ずは、図3〜図7を参照して、第1の実施の形態の高域補間動作について説明する。
なお、以下で説明する動作は、図2に示したステレオ処理部12から出力されるAAC1フレーム(1024サンプル)のMDCT係数について行われるもので、実際においては、この1フレームごとの動作が繰り返されることで、時間音声信号の音質改善が図れることになる。
なお、上記AAC1フレーム分のMDCT係数は、例えばサンプリング周波数が44.1kHzの場合、時間に換算すると0.023sec(1024/44100sec)程度となるものである。
First, the high-frequency interpolation operation of the first embodiment will be described with reference to FIGS.
The operation described below is performed for the MDCT coefficient of the AAC1 frame (1024 samples) output from the stereo processing unit 12 shown in FIG. 2, and in practice, the operation for each frame is repeated. As a result, the sound quality of the temporal sound signal can be improved.
For example, when the sampling frequency is 44.1 kHz, the MDCT coefficient for one AAC frame is about 0.023 sec (1024/44100 sec) in terms of time.
先ずは図3により、AAC1フレーム分のMDCT係数の概要について説明する。図3では縦軸を振幅(MDCT係数の値)、横軸を周波数としたときの1フレーム分のMDCT係数について模式的に示している。
AAC方式では、サンプリング周波数が48kHzまたは44.1kHzの場合、1フレームは49個のスケールファクタバンド(sfb)に分割される。具体的には、低域側から高域側にかけて順にsfb[0]、sfb[1]、sfb[2]、・・・sfb[48]までsfbの番号が割り振られる。
先にも述べたように、各スケールファクタバンドのバンド幅は、心理聴覚特性に基づき、低域側ではより狭く高域側では広くなるように設定されている。具体的には、最も低域側となるsfb[0]のバンド幅=「4」(MDCT係数4個分)として、高域側にかけて徐々にバンド幅が広がるようになっている。
そして、AACの場合、或る程度高域となると、sfbのバンド幅は一定となるようにされている。具体的には、sfb[0]からsfb[28]までは徐々にバンド幅が広がるようになっているが、それ以降sfb[29](MDCT係数番号320からのsfb)からsfb[47](MDCT係数番号928までのsfb)までは、バンド幅は「32」で一定となるようにされる。但し、図にも示されているように、最後のsfb[48]のみはバンド幅=「96」とされる。
First, the outline of MDCT coefficients for one AAC frame will be described with reference to FIG. In FIG. 3, the MDCT coefficient for one frame is schematically shown with the vertical axis representing amplitude (MDCT coefficient value) and the horizontal axis representing frequency.
In the AAC system, when the sampling frequency is 48 kHz or 44.1 kHz, one frame is divided into 49 scale factor bands (sfb). Specifically, sfb numbers are assigned to sfb [0], sfb [1], sfb [2],... Sfb [48] in order from the low frequency side to the high frequency side.
As described above, the bandwidth of each scale factor band is set to be narrower on the low frequency side and wider on the high frequency side based on psychoacoustic characteristics. Specifically, the bandwidth of sfb [0] on the lowest side is “4” (4 MDCT coefficients), and the bandwidth gradually increases toward the high side.
In the case of AAC, the bandwidth of sfb is made constant when the frequency becomes high to some extent. Specifically, the bandwidth gradually increases from sfb [0] to sfb [28], but thereafter sfb [29] (sfb from MDCT coefficient number 320) to sfb [47] ( Up to MDCT coefficient number 928 up to sfb), the bandwidth is fixed at “32”. However, as shown in the figure, only the last sfb [48] has a bandwidth = “96”.
第1の実施の形態の高域補間動作では、上記のようにしてsfbのバンド幅が一定となった以降、信号が存在する間の帯域(つまり符号化により信号が失われるまでの帯域)を、図示するようにして「高域サブバンド」として設定する。
ちなみに、AAC方式(ビットレート128kbps)の場合、符号化により信号が失われることになるのは、概ねMDCT係数番号=650前後以降の帯域となる。
In the high-frequency interpolation operation of the first embodiment, after the bandwidth of sfb becomes constant as described above, a band during which a signal exists (that is, a band until a signal is lost due to encoding) is obtained. As shown in the figure, it is set as a “high frequency sub-band”.
By the way, in the case of the AAC method (bit rate 128 kbps), the signal is lost by encoding in the band around MDCT coefficient number = 650 and after.
このようにして設定された高域サブバンドについて、第1の実施の形態では、その帯域内の信号を用いて、それ以降における信号が失われた部分についての補間を行う。
補間動作の概要は以下のようになる。
先ずは、特定した高域サブバンド内における自己相関計算を行う。すなわち、高域サブバンド内では、どの程度周波数方向にシフトさせると、自己信号との相関性が最も高くなるかを計算により求める。このように自己相関性が最も高くなるときのシフト量のことを、本明細書においては相関最大シフト量と呼ぶ。
そして、この相関最大シフト量と共に、信号が失われた部分を補間するための追加信号の生成に必要な情報として、Rate(比率)の値を計算する。具体的には、高域サブバンド内において、上記相関最大シフト量だけ離間した各MDCT係数番号位置の振幅値の比率をRateの値として計算する。
その上で、上記相関最大シフト量とRateの値とを用いて、信号が失われた部分についての補間を行う。つまり、信号の失われた帯域内の各MDCT係数番号位置(各周波数ポイント)のMDCT係数の値を、そのMDCT係数番号から上記相関最大シフト量だけ戻った位置のMDCT係数と上記Rateの値とに基づき計算した値で補間するものである。
In the first embodiment, with respect to the high frequency sub-band set in this way, the signal in the band is interpolated using the signal in the band thereafter.
The outline of the interpolation operation is as follows.
First, autocorrelation calculation is performed within the specified high frequency subband. That is, within the high frequency subband, the degree of correlation with the self signal is determined by calculation to what extent the shift is made in the frequency direction. In this specification, the shift amount when autocorrelation becomes the highest is called the correlation maximum shift amount.
Then, together with the correlation maximum shift amount, a value of Rate (ratio) is calculated as information necessary for generating an additional signal for interpolating a portion where the signal is lost. Specifically, the ratio of the amplitude value of each MDCT coefficient number position separated by the correlation maximum shift amount in the high frequency subband is calculated as the value of Rate.
Then, using the maximum correlation shift amount and the value of Rate, interpolation is performed for the portion where the signal is lost. That is, the MDCT coefficient value at each MDCT coefficient number position (each frequency point) in the band where the signal is lost is changed to the MDCT coefficient at the position returned from the MDCT coefficient number by the correlation maximum shift amount and the value of the Rate. Is interpolated with the value calculated based on.
図4〜図7では、第1の実施の形態としての高域補間動作の具体的な手順について説明する。
先ず図4は、自己相関計算を行うにあたって行われるべきピーク値検出動作について模式的に示している。なお、この図4においても、先の図3と同様に縦軸を振幅(MDCT係数の値)、横軸を周波数としたときの1フレーム分のMDCT係数を示している。
4 to 7, a specific procedure of the high-frequency interpolation operation as the first embodiment will be described.
First, FIG. 4 schematically shows a peak value detection operation to be performed when performing autocorrelation calculation. 4 also shows the MDCT coefficients for one frame when the vertical axis represents amplitude (MDCT coefficient value) and the horizontal axis represents frequency, as in FIG.
図4において、先ず、ピーク値検出にあたっては、高域サブバンド内の各sfbを4等分する。そして、このように各sfbを4等分して得られることになる、MDCT係数8個分の各バンド(以下分割バンドと呼ぶ)内において、最も値(振幅)の大きいMDCT係数を、その分割バンドのピーク値Peakとして検出する。
このピーク値Peakについては、図示するようにして最も低域側となる帯域から順にピーク値Peak[0]、ピーク値Peak[1]、ピーク値Peak[2]、・・・ピーク値Peak[n]とする。
なお、確認のために述べておくと、上記Peak[n]の「n」は、振幅がある最後の4等分されたバンドの番号(つまり分割バンドの番号)を指すものである。例えば仮に、sfb[30]よりも高域側で信号が失われたという場合には、320/8=40より、ピーク値Peak[40]までが検出されるといったものである。
In FIG. 4, first, when detecting the peak value, each sfb in the high frequency sub-band is divided into four equal parts. Then, the MDCT coefficient having the largest value (amplitude) in each band (hereinafter referred to as a divided band) corresponding to eight MDCT coefficients, which is obtained by equally dividing each sfb into four, is divided. It is detected as the peak value Peak of the band.
For the peak value Peak, as shown in the drawing, the peak value Peak [0], the peak value Peak [1], the peak value Peak [2],..., The peak value Peak [n] in order from the lowest band. ]
For confirmation, “n” in Peak [n] indicates the number of the last four equally divided bands with amplitude (that is, the number of the divided band). For example, if the signal is lost on the higher frequency side than sfb [30], the peak value Peak [40] is detected from 320/8 = 40.
このようにしてピーク値Peakを検出すると、それらの値を用いて高域サブバンド内での自己相関計算を行う。
図5は、自己相関計算を説明するための模式図として、先の図3と同様に縦軸を振幅(MDCT係数の値)横軸を周波数としたときの1フレーム分のMDCT係数について示している。
When the peak value Peak is detected in this way, autocorrelation calculation within the high frequency sub-band is performed using those values.
FIG. 5 is a schematic diagram for explaining the autocorrelation calculation, and shows the MDCT coefficients for one frame when the vertical axis is amplitude (MDCT coefficient value) and the horizontal axis is frequency as in FIG. Yes.
図5において、自己相関計算を行うにあたっては、先ずはシフト量jを設定することになる。このシフト量jの値は、自己信号をどの程度シフトさせた状態から自己相関計算を開始するかを決定付けるための値となる。すなわち、図示するようにして高域サブバンド内の各ピーク値Peakで構成されることになる、高域サブバンドの自己信号に対し、この自己信号をシフト量jの値だけシフトさせた位置から自己相関計算を開始するものである。
本例の場合、このシフト量jの値としては例えばj=20を設定することとしている。
In FIG. 5, in performing autocorrelation calculation, first, the shift amount j is set. The value of the shift amount j is a value for determining how much the self-signal is shifted and starting the autocorrelation calculation. That is, from the position where the self signal is shifted by the value of the shift amount j with respect to the self signal of the high frequency subband, which is configured by each peak value Peak in the high frequency subband as illustrated. The autocorrelation calculation is started.
In this example, as the value of the shift amount j, for example, j = 20 is set.
自己相関計算の具体的な内容としては、ピーク値Peakが検出された分割バンドの番号を「i」、信号(MDCT係数)が存在する最後の分割バンド番号を「N」とした場合に、以下の式1で表すことができる。
この自己相関計算により、各シフト位置での相関値が求まる。これらの相関値のうち、その値が最大となるときのシフト量jの値が、最も相関性が高くなるときの相関最大シフト量の値となる。以下では、この相関最大シフト量の値を「k」とおく。 By this autocorrelation calculation, a correlation value at each shift position is obtained. Among these correlation values, the value of the shift amount j when the value is maximum is the value of the maximum correlation shift amount when the correlation is the highest. Hereinafter, the value of the maximum correlation shift amount is set to “k”.
なお、これまでの説明では、原信号において必ず高域の信号成分が含まれていることを前提としたが、実際においては、原信号は比較的低域の成分のみを含み、高域成分が全く含まれていないといった場合も想定できる。そのような場合に高域補間が行われてしまうと、もともとない部分の信号成分が不自然に追加されてしまうことになり、かえって音質の劣化を招く可能性がある。
そこで第1の実施の形態では、原信号にもともと高域成分が含まれているか否かを判別し、その結果に基づき、以降で説明する高域補間を実行するか否かを判定するものとしている。
この場合、原信号にもともと高域成分が含まれているか否かの判別は、上記のようにして自己相関計算で得られる相関値を利用するものとしている。具体的には、計算された相関値のうちその値が大きい上位5つの相関値を選出し、それらの総和が予め定められた閾値(例えば1.0)以上である場合には、原信号において高域成分が含まれていたとして、以降の高域補間のための動作を実行する。
一方、値の大きい上位5つの相関値の総和が上記閾値(1.0)未満である場合には、原信号において高域がもともと含まれていなかったとして、以降の高域補間のための動作は行わないようにする。
In the description so far, it is assumed that the high frequency signal component is always included in the original signal. However, in reality, the original signal includes only a relatively low frequency component, and the high frequency component is not included. It can be assumed that it is not included at all. In such a case, if high-frequency interpolation is performed, a signal component of an original part is added unnaturally, which may lead to deterioration of sound quality.
Therefore, in the first embodiment, it is determined whether or not the high frequency component is originally included in the original signal, and based on the result, it is determined whether or not high frequency interpolation described below is executed. Yes.
In this case, the determination whether or not the high frequency component is originally included in the original signal uses the correlation value obtained by the autocorrelation calculation as described above. Specifically, among the calculated correlation values, the top five correlation values having the largest value are selected, and when the sum of them is equal to or greater than a predetermined threshold value (for example, 1.0), If the high frequency component is included, the subsequent operation for high frequency interpolation is executed.
On the other hand, when the sum of the top five correlation values having a large value is less than the above threshold value (1.0), it is assumed that the high frequency was not originally included in the original signal, and the subsequent operation for high frequency interpolation is performed. Do not do.
続いて、図6は、Rateの計算手法について示している。この図6においても先の図3と同様に縦軸を振幅(MDCT係数の値)、横軸を周波数としたときの1フレーム分のMDCT係数を示している。
上述のようにして求められた相関最大シフト量「k」の値は、高域サブバンド内ではこの値「k」だけシフトさせると自己との相関性が最も高くなるということを示す値となる。そこで、この相関最大シフト量「k」を用いて、高域側に「k」だけシフトさせた位置での振幅の比率(Rate)を求める。
Next, FIG. 6 shows the rate calculation method. 6 also shows MDCT coefficients for one frame, where the vertical axis represents amplitude (MDCT coefficient value) and the horizontal axis represents frequency, as in FIG.
The value of the maximum correlation shift amount “k” obtained as described above is a value indicating that the correlation with the self becomes the highest when shifted by this value “k” in the high frequency subband. . Therefore, using this maximum correlation shift amount “k”, the ratio (Rate) of the amplitude at the position shifted by “k” to the high frequency side is obtained.
本実施の形態の場合、このRateの計算は、信号が存在する最後の分割バンド(分割バンド[n])で検出されたPeak[n]を基準として行うものとしている。
具体的には、図示するようにして先ずは分割バンド[n]のPeak[n]と、この分割バンド[n]から相関最大シフト量「k」だけ低域側に戻った位置の分割バンド[m]のピーク値Peak[m]との振幅比率を計算により求める。すなわち、Peak[m]/Peak[n]を計算する。
同様に、分割バンド[n−1]におけるピーク値Peak[n−1]と、分割バンド[m−1]のピーク値Peak[m−1]との振幅比率(Peak[m−1]/Peak[n−1])を計算する。
以降も同様に、所定値xとして、分割バンド[n−x]までについて、同様の比率計算を行う。例えば本例の場合、所定値x=5として、ピーク値Peak[n−5]と、ピーク値Peak[m−5]との振幅比率(Peak[m−5]/Peak[n−5])までを計算する。
そして、この結果得られることになる計5つの振幅比率の値を平均化したものを、最終的なRateの値として算出する。
In the case of the present embodiment, the calculation of Rate is performed based on Peak [n] detected in the last division band (division band [n]) in which a signal exists.
Specifically, as shown in the figure, first, Peak [n] of the divided band [n] and the divided band [n] at the position returned from the divided band [n] to the low frequency side by the correlation maximum shift amount “k” [ The amplitude ratio of m] to the peak value Peak [m] is obtained by calculation. That is, Peak [m] / Peak [n] is calculated.
Similarly, the amplitude ratio (Peak [m−1] / Peak) between the peak value Peak [n−1] in the divided band [n−1] and the peak value Peak [m−1] in the divided band [m−1]. [n-1]) is calculated.
Similarly, the same ratio calculation is performed for the predetermined band x up to the divided band [nx]. For example, in this example, the predetermined value x = 5, and the amplitude ratio (Peak [m-5] / Peak [n-5]) between the peak value Peak [n-5] and the peak value Peak [m-5]. Calculate up to.
Then, an average of the five amplitude ratio values to be obtained as a result is calculated as a final Rate value.
上記の手順により、相関最大シフト量「k」とRateの値とを計算すると、次の図7に示すようにして、信号がなくなる帯域、すなわち補間対象となるべき帯域における各MDCT係数番号位置に対する実際のMDCT係数の補間(追加)を行う。
なお、この図7においても先の図3と同様に縦軸を振幅(MDCT係数の値)、横軸を周波数としたときの1フレーム分のMDCT係数を示している。
When the correlation maximum shift amount “k” and the value of Rate are calculated by the above procedure, as shown in FIG. 7 below, for each MDCT coefficient number position in the band where there is no signal, that is, the band to be interpolated. Interpolate (add) actual MDCT coefficients.
7 also shows MDCT coefficients for one frame when the vertical axis represents amplitude (MDCT coefficient value) and the horizontal axis represents frequency, as in FIG.
先ず、先に求めた相関最大シフト量「k」の値は、ピーク値Peakを元に求めた値であり、従って分割バンド単位(つまりMDCT係数8個分の単位)で換算したシフト量となっている。これに対し、実際の信号の追加(補間)は、各MDCT係数番号位置について行うことから、これをMDCT係数番号単位での値に戻すことが必要となる。具体的には、k×8とすることで、MDCT係数単位での相関最大シフト量に戻すことができる。
そして、具体的な補間動作としては、信号がなくなる帯域内の各MDCT係数番号位置の値を、それら各MDCT係数番号位置からそれぞれk×8だけ低域側に戻った位置のMDCT係数の値とRateの値とに基づき計算した値で補間する。換言すれば、このようにして計算した値で各MDCT係数番号位置にMDCT係数を追加するものである。
この場合、Rateの値は、先の図6で説明したようにしてm/n、すなわち振幅のより小さい高域側を分母としたので、高域に従って振幅が減衰するという特性に合うように、各MDCT係数位置の値を上記Rateの値で除算した値により、各MDCT係数位置の値を補間する。
First, the value of the correlation maximum shift amount “k” obtained previously is a value obtained on the basis of the peak value Peak, and is thus a shift amount converted in units of divided bands (that is, units of 8 MDCT coefficients). ing. On the other hand, since the actual signal addition (interpolation) is performed for each MDCT coefficient number position, it is necessary to return it to a value in units of MDCT coefficient numbers. Specifically, by setting k × 8, the correlation maximum shift amount in units of MDCT coefficients can be restored.
As a specific interpolation operation, the value of each MDCT coefficient number position in the band where the signal disappears is changed to the value of the MDCT coefficient at the position returned to the low frequency side by k × 8 from each MDCT coefficient number position. Interpolate with the value calculated based on the value of Rate. In other words, the MDCT coefficient is added to each MDCT coefficient number position with the value calculated in this way.
In this case, the value of Rate is m / n as described with reference to FIG. 6, that is, the high frequency side where the amplitude is smaller is used as the denominator. The value of each MDCT coefficient position is interpolated by the value obtained by dividing the value of each MDCT coefficient position by the value of Rate.
[高域補間部の内部構成]
図8は、上記により説明した第1の実施の形態の高域補間動作を実現するための高域補間部4a内の構成について示すブロック図である。
図示するようにして高域補間部4a内には、Peak検出部21、自己相関計算部22、相関最大シフト量検出部23、Rate計算部24、高域信号追加部25、補間判定部26が備えられている。
[Internal configuration of high-frequency interpolation unit]
FIG. 8 is a block diagram showing a configuration in the high-frequency interpolation unit 4a for realizing the high-frequency interpolation operation of the first embodiment described above.
As shown in the figure, in the high-frequency interpolation unit 4a, a Peak detection unit 21, an autocorrelation calculation unit 22, a correlation maximum shift amount detection unit 23, a rate calculation unit 24, a high-frequency signal addition unit 25, and an interpolation determination unit 26 are included. Is provided.
先ず、この図8においても、先の図2に示したステレオ処理部12、及び適応ブロック長切り換え逆MDCT部13が示されている。
ステレオ処理部12から出力されるAAC1フレーム単位ごとのMDCT係数は、図示するようにしてPeak検出部21に対して入力されると共に、分岐して自己相関計算部22、Rate計算部24、高域信号追加部25のそれぞれに対しても供給される。
First, also in FIG. 8, the stereo processing unit 12 and the adaptive block length switching inverse MDCT unit 13 shown in FIG. 2 are shown.
The MDCT coefficient for each AAC 1 frame unit output from the stereo processing unit 12 is input to the Peak detection unit 21 as shown in the figure, and is branched into an autocorrelation calculation unit 22, a rate calculation unit 24, and a high frequency range. It is also supplied to each of the signal adding units 25.
上記Peak検出部21では、供給された1フレーム分のMDCT係数に基づき、予め定められた所定のsfb(この場合はsfb[29])から振幅がある最後のsfbまでの帯域を高域サブバンドとして、この高域サブバンド内の各sfbを4分割して各分割バンドに分けた上で、それら各分割バンド内でのMDCT係数のピーク値Peakを検出する。すなわち、先の図4にて説明したようなピーク値Peak[0]〜ピーク値Peak[n]を検出する。
検出した各ピーク値Peak[0]〜ピーク値Peak[n]は自己相関計算部22とRate計算部24に対して供給される。
In the Peak detection unit 21, a band from a predetermined sfb (in this case, sfb [29]) to the last sfb having an amplitude is determined as a high frequency sub-band based on the supplied MDCT coefficient for one frame. As described above, each sfb in this high frequency sub-band is divided into four and divided into respective divided bands, and then the peak value Peak of the MDCT coefficient in each divided band is detected. That is, the peak value Peak [0] to peak value Peak [n] as described with reference to FIG. 4 are detected.
Each detected peak value Peak [0] to peak value Peak [n] is supplied to the autocorrelation calculation unit 22 and the rate calculation unit 24.
自己相関計算部22は、上記Peak検出部21から供給されたピーク値Peak[0]〜ピーク値Peak[n]を入力し、先に説明したようにしてピーク値Peakが検出された分割バンドの番号を「i」、MDCT係数の振幅が存在する最後の分割バンドの番号を「N」とした場合に、上述した式1による計算を行って各シフト位置での相関値を算出する。 The autocorrelation calculation unit 22 inputs the peak value Peak [0] to the peak value Peak [n] supplied from the Peak detection unit 21, and the divided band in which the peak value Peak is detected as described above. When the number is “i” and the number of the last divided band in which the amplitude of the MDCT coefficient exists is “N”, the calculation according to the above-described equation 1 is performed to calculate the correlation value at each shift position.
相関最大シフト量検出部23は、上記自己相関計算部22にて計算された各シフト位置での相関値とそのシフト量の情報とを入力し、相関値が最大となるときのシフト量を相関最大シフト量「k」として検出する。検出した相関最大シフト量「k」の値はRate計算部24と高域信号追加部25に対して供給される。 The correlation maximum shift amount detection unit 23 inputs the correlation value at each shift position calculated by the autocorrelation calculation unit 22 and information on the shift amount, and correlates the shift amount when the correlation value becomes maximum. It is detected as the maximum shift amount “k”. The detected value of the maximum correlation shift amount “k” is supplied to the rate calculation unit 24 and the high frequency signal addition unit 25.
また、上記自己相関計算部22にて計算された各シフト位置での相関値は、補間判定部26に対しても供給される。補間判定部26は、自己相関計算部22からの相関値について、その値が大きい順に上位5つの相関値を選出し、それらの総和が予め定められた所定閾値(この場合は1.0)以上であるか否かを判別する。計算した総和の値が上記閾値以上であると判別した場合は、原信号において高域成分が含まれていたと判定し、Rate計算部24、及び高域信号追加部25に対して動作の実行を指示するための制御信号(実行指示信号)を供給する。一方、計算した総和の値が上記閾値未満であると判別した場合は、原信号にはもともと高域成分が含まれていなかったと判定し、Rate計算部24、及び高域信号追加部25に対して動作を実行しないように指示するための制御信号(非実行指示信号)を供給する。 Further, the correlation value at each shift position calculated by the autocorrelation calculation unit 22 is also supplied to the interpolation determination unit 26. The interpolation determination unit 26 selects the top five correlation values in descending order of the correlation values from the autocorrelation calculation unit 22, and their sum is equal to or greater than a predetermined threshold value (1.0 in this case). It is determined whether or not. When it is determined that the calculated sum value is equal to or greater than the threshold value, it is determined that the high frequency component is included in the original signal, and the operation is performed on the rate calculation unit 24 and the high frequency signal addition unit 25. A control signal (execution instruction signal) for instructing is supplied. On the other hand, if it is determined that the calculated sum is less than the threshold value, it is determined that the original signal originally did not include a high frequency component, and the rate calculation unit 24 and the high frequency signal addition unit 25 A control signal (non-execution instruction signal) for instructing not to execute the operation is supplied.
Rate計算部24は、Peak検出部21からのピーク値Peak[0]〜Peak[n]と、相関最大シフト量検出部23からの相関最大シフト量「k」とを入力し、先の図6にて説明した手法によりRateの値を計算する。つまり、分割バンド[n]〜[n−5]のピーク値Peakについて、相関最大シフト量「k」だけ低域側に戻った分割バンドでのピーク値Peakとの振幅比率をそれぞれ計算した上で、その結果求まった計5つの振幅比率の値を平均化したものを、最終的なRateの値として算出する。
また、Rate計算部24は、上記補間判定部26からの制御信号に応じて上記Rateの計算動作を実行/非実行とするように構成される。すなわち、上記実行指示信号に応じては上記Rate計算動作を行い、上記非実行指示信号に応じては上記Rate計算動作は実行しないように構成される。
Rate計算部24により計算されたRateの値は高域信号追加部25に対して供給される。
The rate calculation unit 24 inputs the peak values Peak [0] to Peak [n] from the peak detection unit 21 and the correlation maximum shift amount “k” from the correlation maximum shift amount detection unit 23, and the above FIG. The value of Rate is calculated by the method described in (1). That is, after calculating the amplitude ratio of the peak value Peak of the divided bands [n] to [n-5] with the peak value Peak in the divided band returned to the low frequency side by the maximum correlation shift amount “k”. Then, the average of the five amplitude ratio values obtained as a result is calculated as the final Rate value.
Further, the rate calculation unit 24 is configured to execute / do not execute the rate calculation operation in accordance with the control signal from the interpolation determination unit 26. That is, the rate calculation operation is performed in response to the execution instruction signal, and the rate calculation operation is not executed in response to the non-execution instruction signal.
The value of Rate calculated by the rate calculating unit 24 is supplied to the high frequency signal adding unit 25.
高域信号追加部25は、ステレオ処理部12からのMDCT係数と、相関最大シフト量検出部23からの相関最大シフト量「k」と、Rate計算部24からのRateの値とを入力し、先の図7にて説明した手法により信号がなくなる帯域内の各MDCT係数番号位置のMDCT係数の値を追加する。
すなわち、信号がなくなる帯域内の各MDCT係数番号位置に対し、それら各MDCT係数番号位置からそれぞれk×8だけ低域側に戻った位置のMDCT係数の値をRateの値で除算した値を追加する処理を行うものである。
The high frequency signal adding unit 25 inputs the MDCT coefficient from the stereo processing unit 12, the correlation maximum shift amount “k” from the correlation maximum shift amount detection unit 23, and the rate value from the rate calculation unit 24. The value of the MDCT coefficient at each MDCT coefficient number position in the band where the signal disappears is added by the method described with reference to FIG.
That is, for each MDCT coefficient number position in the band where the signal disappears, a value obtained by dividing the MDCT coefficient value at the position returned to the low frequency side by k × 8 from each MDCT coefficient number position by the value of Rate is added. The process which performs is performed.
なお、ここでの図示は省略したが、実際においては、高域補間部4a内の各部では共通のnフレーム目のMDCT係数について処理が実行されるように、必要な部分に遅延回路を設けて各信号の供給タイミングを調整するなどの対策が行われるべきである。 Although illustration is omitted here, in practice, a delay circuit is provided in a necessary part so that each part in the high-frequency interpolating unit 4a executes processing for the MDCT coefficient of the common n-th frame. Measures such as adjusting the supply timing of each signal should be taken.
上記のようにして第1の実施の形態では、高域サブバンド内における自己相関計算を行って、相関最大シフト量を求めた上で、高域サブバンド内において、この相関最大シフト量だけ離間した各MDCT係数番号位置間での振幅比率を計算した結果に基づきRateの値を計算するようにしている。
その上で、上記相関最大シフト量とRateとを用いて、信号の失われた帯域内の各MDCT係数番号位置のMDCT係数の値を、そのMDCT係数番号位置から上記相関最大シフト量だけ戻った位置のMDCT係数を上記Rateの値で除算した値で補間するようにしている。
このようにして自己相関計算結果から求まった相関最大シフト量とRateの値とに基づき、符号化で信号が失われた帯域を補間することで、高域サブバンド内での相関性と、高域側に向けての振幅の減衰度合いとを踏襲したかたちで信号を追加することができ、この結果、より自然な信号で信号が失われた帯域を補間することができる。すなわち、これによって音質の向上を図ることができる。
As described above, in the first embodiment, the autocorrelation calculation in the high frequency subband is performed to obtain the maximum correlation shift amount, and then the maximum correlation shift amount is separated in the high frequency subband. The value of Rate is calculated based on the result of calculating the amplitude ratio between each MDCT coefficient number position.
Then, using the correlation maximum shift amount and Rate, the value of the MDCT coefficient at each MDCT coefficient number position in the band where the signal is lost is returned from the MDCT coefficient number position by the correlation maximum shift amount. The position MDCT coefficient is interpolated by the value divided by the value of Rate.
Based on the correlation maximum shift amount obtained from the autocorrelation calculation result and the value of Rate in this way, by interpolating the band in which the signal is lost by encoding, the correlation in the high frequency subband and the high The signal can be added in the form of following the degree of amplitude attenuation toward the band side. As a result, a band in which the signal is lost with a more natural signal can be interpolated. That is, this can improve the sound quality.
また、第1の実施の形態では、相関最大シフト量を求めるにあたり、高域サブバンド内を所定単位の分割バンドごとに分割して、それぞれの分割バンド内のピーク値Peakを検出し、このピーク値Peakを用いて自己相関計算を行うものとしたが、このことで以下のような効果を得ることができる。
すなわち、このようなピーク値Peakは、その分割バンド内での特徴をよく表したものとなるので、このようにピーク値Peakを用いた自己相関計算とすることで、より信頼性の高い自己相関計算を行うことができ、従ってこの自己相関計算結果に基づき求められる相関最大シフト量「k」の値としても、より信頼性の高い値を得ることができることになる。
In the first embodiment, when obtaining the maximum correlation shift amount, the high frequency sub-band is divided into predetermined units of divided bands, the peak value Peak in each divided band is detected, and this peak is detected. Although the autocorrelation calculation is performed using the value Peak, the following effects can be obtained.
That is, such a peak value Peak is a good representation of the characteristics in the divided bands. Thus, by performing autocorrelation calculation using the peak value Peak, a more reliable autocorrelation is obtained. Therefore, a more reliable value can be obtained as the value of the maximum correlation shift amount “k” obtained based on the autocorrelation calculation result.
また、第1の実施の形態では、シフト量jの値としてj=20を設定し、高域サブバンドの始点から分割バンド20個分ずらした位置から自己相関計算を開始するものとしたが、このシフト量jの値としては、j=1以外であれば他の値を設定することができる。すなわち、j=1としたときは、その時点で自己相関計算値が最大となってしまうことから、大前提としてj≧2であることが必須となる。
このとき、jの値としては、その値が小さければその分最終的なシフト位置に至るまでのシフト量が増え、自己相関計算量が増大化することになる。また、逆に大きければ自己相関計算量は少なくできるという性質をもつ。
この点を考慮すると、シフト量jの値は、できるだけ大きくして自己相関計算の処理負担の軽減を図ることが考えられるが、実際には、高域側の信号では高調波が出やすい傾向となるので、シフト量jとしてあまりに大きな値を設定した場合には、自己相関計算の結果の信頼性を著しく損なう虞がある。
ここで、一般的に考えて、高域サブバンドの始点となるMDCT係数番号=320近傍のピーク値Peakは、320の最初の整数倍(2倍)であるMDCT係数番号=640付近のピーク値Peakと相関性が高くなるであろうということが予想できる。本実施の形態では、この点に鑑み、j=20(MDCT係数番号で換算すると20×8=160個分のシフト量であり、相関計算開始位置は320+160=480付近となる)を設定している。すなわち、相関性が最も高くなると予測されるMDCT係数番号=640付近からおよそ160個分程度マージンをとった位置から、相関計算を開始するようにしているものである。
このような予測位置から実際の計算開始位置までのマージンは、大きくすればする程、自己相関計算結果、すなわち相関最大シフト量の検出精度を向上させることができる。しかしながらこのマージンをとりすぎると、結果としてjの値は小さくなり、その分最終的なシフト位置に至るまでのシフト量が増えて自己相関計算量が増大化してしまうことになる。
以上のことから、jの値の設定によって自己相関計算の処理負担の軽減を図ることと、相関最大シフト量の検出精度を高めることとはトレードオフの関係にあることがわかる。実際のシフト量jの値の設定にあたっては、これら自己相関計算の処理負担の軽減と相関最大シフト量の信頼性確保の双方を考慮した上で、最適とされる値が設定されればよい。その最適点の一例として、本例ではj=20を例示している。
In the first embodiment, j = 20 is set as the value of the shift amount j, and the autocorrelation calculation is started from a position shifted by 20 divided bands from the start point of the high frequency subband. As the value of the shift amount j, other values can be set as long as j = 1 is not set. That is, when j = 1, since the autocorrelation calculation value becomes the maximum at that time, it is essential that j ≧ 2 as a main premise.
At this time, if the value of j is small, the amount of shift up to the final shift position increases accordingly, and the amount of autocorrelation calculation increases. Conversely, if it is large, the autocorrelation calculation amount can be reduced.
Considering this point, it is conceivable that the shift amount j is made as large as possible to reduce the processing load of autocorrelation calculation. However, in reality, high-frequency signals tend to generate harmonics. Therefore, when an excessively large value is set as the shift amount j, the reliability of the autocorrelation calculation result may be significantly impaired.
Here, in general terms, the peak value Peak near the MDCT coefficient number = 320, which is the starting point of the high frequency sub-band, is the peak value near the MDCT coefficient number = 640, which is the first integer multiple (twice) of 320. It can be expected that the correlation with Peak will be high. In this embodiment, in view of this point, j = 20 (20 × 8 = 160 shift amounts when converted by the MDCT coefficient number, and the correlation calculation start position is around 320 + 160 = 480) is set. Yes. That is, the correlation calculation is started from a position where a margin of about 160 is obtained from the vicinity of the MDCT coefficient number = 640 predicted to have the highest correlation.
As the margin from the predicted position to the actual calculation start position increases, the detection accuracy of the autocorrelation calculation result, that is, the correlation maximum shift amount can be improved. However, if this margin is taken too much, the value of j will decrease as a result, and the amount of shift up to the final shift position will increase accordingly, and the amount of autocorrelation calculation will increase.
From the above, it can be seen that there is a trade-off relationship between reducing the processing load of autocorrelation calculation by setting the value of j and increasing the detection accuracy of the maximum correlation shift amount. In setting the actual shift amount j, an optimum value may be set in consideration of both the reduction of the processing load of the autocorrelation calculation and the securing of the reliability of the maximum correlation shift amount. As an example of the optimum point, j = 20 is illustrated in this example.
また、上記により説明した第1の実施の形態の高域補間動作によれば、1フレーム当たりで自己相関計算は1度のみ行えばよく、あとは比率を計算した上で既存の信号を比率で除算するという処理のみで高域の信号を補間できる。この点で、従来の手法のように、基準バンドを特定するにあたり、信号が存在する帯域を分割し、分割した数だけ組合せを作り相関関係を求めるとった処理を行う場合と比較すれば、処理負担は格段に軽くすることができる。
また、第1の実施の形態の高域補間としては、その処理内容はフレーム単位で同じ(自己相関計算・比率計算・相関最大シフト量と比率とに基づく高域信号の追加)であり、従来のように各フレームごとに処理内容が変化して処理量や処理時間が入力信号に左右されて変わってしまうといった不都合は生じない。
また、復号化処理とは独立した処理とできるので、特に符号化側と共通な復号アルゴリズムとする必要はなく、汎用性が失われるといった問題も生じないようにすることができる。
Also, according to the high-frequency interpolation operation of the first embodiment described above, the autocorrelation calculation needs to be performed only once per frame, and the ratio of the existing signal is calculated after calculating the ratio. High-frequency signals can be interpolated only by the process of dividing. In this regard, as in the conventional method, when the reference band is specified, the band in which the signal exists is divided, and in comparison with the case where the processing is performed in which the number of the divided numbers is combined to obtain the correlation, the processing is performed. The burden can be greatly reduced.
Further, as the high-frequency interpolation of the first embodiment, the processing content is the same for each frame (autocorrelation calculation / ratio calculation / addition of high-frequency signal based on correlation maximum shift amount and ratio). As described above, there is no inconvenience that the processing contents change for each frame and the processing amount and processing time change depending on the input signal.
Further, since the processing can be independent from the decoding processing, it is not necessary to use a decoding algorithm that is particularly common to the encoding side, and it is possible to prevent the problem of loss of versatility.
図9には、第1の実施の形態の有効性を実証するための実験結果を示す。この図9においては、AAC1フレーム分の音声信号について、図9(a)は原信号のスペクトログラムを、図9(b)は上記原信号を符号化した符号化信号を従来通りの復号化処理で復号化した信号のスペクトログラムを、図9(c)は本例の補間処理で生成された高域信号のスペクトログラムを、また図9(d)は上記復号化処理後の信号に上記補間処理で生成された高域信号を追加した信号のスペクトログラムをそれぞれ示している。
なお、図9の各図においては縦軸を周波数、横軸を時間とし、振幅の強さは色の濃さにより表している。また図9では一例として、AAC方式・ビットレート=128kbpsにより符号化された音声信号について復号化・高域補間を行ったときの結果を示している。
FIG. 9 shows experimental results for verifying the effectiveness of the first embodiment. In FIG. 9, for the audio signal for one AAC frame, FIG. 9 (a) shows the spectrogram of the original signal, and FIG. 9 (b) shows the encoded signal obtained by encoding the original signal by the conventional decoding process. FIG. 9C shows the spectrogram of the decoded signal, FIG. 9C shows the spectrogram of the high-frequency signal generated by the interpolation processing of this example, and FIG. 9D shows the signal after the decoding processing generated by the interpolation processing. The spectrogram of the signal which added the added high frequency signal is each shown.
In each drawing of FIG. 9, the vertical axis represents frequency, the horizontal axis represents time, and the intensity of the amplitude is represented by color intensity. FIG. 9 shows, as an example, a result when decoding / high-frequency interpolation is performed on an audio signal encoded by the AAC method / bit rate = 128 kbps.
先ず、図9(a)と図9(b)とを比較してわかるように、符号化に伴っては、高域信号の欠落が生じる。先に説明した本例の高域補間によっては、図9(c)に示すようにして、符号化により欠落した部分の信号が生成され、これが図9(d)に示されるようにして復号化後の信号における欠落が生じた部分に対して追加されることになる。
この図9(d)より、本例の高域補間が行われることによっては、符号化により欠落しなかった高域部分での相関を活かして、欠落が生じた部分の信号が追加されていることが理解できる。
First, as can be seen by comparing FIG. 9 (a) and FIG. 9 (b), a high-frequency signal is lost along with encoding. Depending on the high-frequency interpolation of the present example described above, as shown in FIG. 9C, a missing portion signal is generated by encoding, and this is decoded as shown in FIG. 9D. It will be added to the part where the missing part in the later signal has occurred.
From FIG. 9 (d), by performing the high-frequency interpolation of this example, the signal of the part in which the loss has occurred is added by taking advantage of the correlation in the high-frequency part that was not lost by encoding. I understand that.
なお、ここまでの説明では、第1の実施の形態の高域補間動作が、先の図8に示したようなハードウェア構成により実現される場合を例示したが、第1の実施の形態の高域補間動作としてはソフトウェア処理によっても実現することができる。つまり、高域補間部4aとしては、例えばCPUやメモリを備えた演算処理部で構成することができ、この演算処理部のソフトウェア処理により上述した実施の形態としての高域補間動作を実現するものである。 In the description so far, the case where the high-frequency interpolation operation of the first embodiment is realized by the hardware configuration as shown in FIG. 8 is exemplified. However, in the first embodiment, The high-frequency interpolation operation can also be realized by software processing. That is, the high-frequency interpolation unit 4a can be configured by, for example, an arithmetic processing unit including a CPU and a memory, and the high-frequency interpolation operation as the above-described embodiment is realized by software processing of the arithmetic processing unit. It is.
この場合において実行されるべき処理動作を、次の図10のフローチャートに示す。
なお、この図に示す処理動作は、上述のような高域補間部4aとしての演算処理部が、例えば上記メモリ内に格納されるプログラムに従って実行するものである。
先ずステップS101では、Peak検出処理を実行する。すなわち、ステレオ処理部12から供給された1フレーム分のMDCT係数に基づき、予め定められた所定のsfb(この場合はsfb[29])から振幅がある最後のsfbまでの帯域を高域サブバンドとして、この高域サブバンド内の各sfbを4分割して各分割バンドに分けた上で、それら各分割バンド内でのMDCT係数のピーク値Peakを検出する。これによって先の図4にて説明したようなピーク値Peak[0]〜ピーク値Peak[n]が検出される。
The processing operation to be executed in this case is shown in the flowchart of FIG.
The processing operation shown in this figure is executed by the arithmetic processing unit as the high-frequency interpolation unit 4a as described above, for example, according to a program stored in the memory.
First, in step S101, Peak detection processing is executed. That is, based on the MDCT coefficient for one frame supplied from the stereo processing unit 12, a band from a predetermined sfb (in this case, sfb [29]) to the last sfb having an amplitude is a high frequency subband. As described above, each sfb in this high frequency sub-band is divided into four and divided into respective divided bands, and then the peak value Peak of the MDCT coefficient in each divided band is detected. As a result, the peak value Peak [0] to peak value Peak [n] as described above with reference to FIG. 4 are detected.
続くステップS102では、自己相関計算処理を実行する。つまり、検出したピーク値Peak[0]〜ピーク値Peak[n]の情報を用い、ピーク値Peakが検出された分割バンド番号を「i」、振幅が存在する最後の分割バンド番号を「N」とした場合に、先に示した式1による計算を行って各シフト位置での相関値を算出する。 In subsequent step S102, an autocorrelation calculation process is executed. That is, using the information of the detected peak value Peak [0] to peak value Peak [n], the divided band number where the peak value Peak is detected is “i”, and the last divided band number where the amplitude exists is “N”. In this case, the correlation value at each shift position is calculated by performing the calculation according to Equation 1 shown above.
次のステップS103では、先ずは計算した相関値について、値が大きい上位5つの相関値を選出する。
そして、続くステップS104において、補間するか否かの判別処理を実行する。すなわち、選出した上位5つの相関値の総和と、予め定められた所定閾値(1.0)とを比較し、相関値の総和が上記閾値以上となっているか否か(補間するか否か)を判別する。
In the next step S103, first, for the calculated correlation values, the top five correlation values having the largest values are selected.
Then, in the subsequent step S104, a process for determining whether or not to interpolate is executed. That is, the sum of the selected top five correlation values is compared with a predetermined threshold value (1.0), and whether the sum of correlation values is equal to or greater than the threshold value (whether to interpolate). Is determined.
ステップS104において、上記相関値の総和が上記閾値以上ではなく、補間しないとの否定結果が得られた場合は、図示するようにしてそのまま「RETURN」となる。
一方、上記相関値の総和が上記閾値以上であり、補間するとの肯定結果が得られた場合は、ステップS105に進む。
In step S104, if the sum of the correlation values is not equal to or greater than the threshold value and a negative result indicating that no interpolation is performed is obtained, “RETURN” is used as it is as illustrated.
On the other hand, if the sum of the correlation values is equal to or greater than the threshold value and an affirmative result is obtained, the process proceeds to step S105.
ステップS105では、相関最大シフト量「k」の検出処理として、先のステップS102で計算した相関値が最大となるときのシフト量を相関最大シフト量「k」として検出する。
そして、続くステップS106では、Rate計算処理を実行する。すなわち、ステップS101にて検出したピーク値Peak[0]〜Peak[n]と、上記相関最大シフト量「k」とを用いて、先の図6にて説明した手法によりRateの値を計算する。具体的には、分割バンド[n]〜[n−5]のピーク値Peakについて、それぞれ相関最大シフト量「k」だけ低域側に戻った分割バンドでのピーク値Peakとの振幅比率を計算した上で、その結果求まった計5つの振幅比率の値を平均化したものを最終的なRateの値として算出する。
In step S105, as the correlation maximum shift amount “k” detection process, the shift amount when the correlation value calculated in the previous step S102 is maximized is detected as the maximum correlation shift amount “k”.
In step S106, the rate calculation process is executed. That is, the value of Rate is calculated by the method described in FIG. 6 using the peak values Peak [0] to Peak [n] detected in step S101 and the maximum correlation shift amount “k”. . Specifically, with respect to the peak values Peak of the divided bands [n] to [n-5], the amplitude ratio with the peak value Peak in the divided band returned to the low frequency side by the maximum correlation shift amount “k” is calculated. Then, the average of the five amplitude ratio values obtained as a result is calculated as the final Rate value.
さらに、続くステップS107では、相関最大シフト量「k」とRateの値とに基づく高域信号追加処理を実行する。すなわち、供給された1フレーム分のMDCT係数について、信号(振幅)がなくなる帯域内の各MDCT係数番号位置に対し、それら各MDCT係数番号位置からそれぞれk×8だけ低域側に戻った位置のMDCT係数の値をRateの値で除算した値を追加する処理を行う。
このステップS107の処理を実行すると、図示するようにして「RETURN」となり、これによって上記により説明した処理(S101〜S107)が1フレームごとに繰り返し実行されることになる。
Further, in the subsequent step S107, a high frequency signal addition process based on the correlation maximum shift amount “k” and the value of Rate is executed. That is, with respect to each supplied MDCT coefficient for one frame, each MDCT coefficient number position in the band where the signal (amplitude) disappears is a position returned from the MDCT coefficient number position to the low frequency side by k × 8. Processing for adding a value obtained by dividing the value of the MDCT coefficient by the value of Rate is performed.
When the process of step S107 is executed, “RETURN” is obtained as shown in the figure, whereby the processes described above (S101 to S107) are repeatedly executed for each frame.
なお、図10では、原信号にもともと高域信号がないか否かに応じてRate計算処理・高域信号追加処理を実行/非実行とするための処理(ステップS103の選出処理・ステップS104の判別処理)を、連続した1セットの処理として実行する場合を例示したが、このようなステップS103・S104の処理は、必ずしも連続した処理として実行される必要はない。例えば、ステップS103→ステップS105→ステップS104の順に処理を実行することもできる。
また、ステップS104の判別処理が、相関最大シフト量「k」の検出処理前に実行される場合を例示したが、このステップS104の判別処理としては、Rate計算処理と高域信号追加処理よりも前であって、上位5つの相関値の選出処理後となるタイミングであれば任意のタイミングで行うことができる。また、ステップS103の選出処理としては、自己相関計算処理後であって、補間するか否かの判別処理前となるタイミングであれば任意のタイミングで行うことができる。
In FIG. 10, processing for executing / not executing the rate calculation processing / high-frequency signal addition processing depending on whether or not the original signal originally has no high-frequency signal (selection processing in step S103 / step S104 in FIG. 10). Although the case where the determination process) is executed as a continuous set of processes has been illustrated, such processes in steps S103 and S104 are not necessarily executed as a continuous process. For example, the processing can be executed in the order of step S103 → step S105 → step S104.
Further, although the case where the determination process in step S104 is executed before the detection process of the correlation maximum shift amount “k” is illustrated, the determination process in step S104 is more than the rate calculation process and the high frequency signal addition process. Any timing can be used as long as it is before and after the selection processing of the top five correlation values. The selection process in step S103 can be performed at any timing as long as it is after the autocorrelation calculation process and before the determination process for determining whether to interpolate.
また、これまでの説明では、高域補間部4aが圧縮符号復号化部4内に設けられる場合を例示したが、例えば次の図11に示すようにして、圧縮符号復号化部4の外部に対して高域補間部4aを設けるようにすることもできる。 In the description so far, the case where the high-frequency interpolation unit 4a is provided in the compression code decoding unit 4 is exemplified. However, for example, as shown in FIG. On the other hand, a high-frequency interpolation unit 4a may be provided.
図11において、この場合の圧縮符号復号化部4内においては、高域補間部4aが省略され、ステレオ処理部12からのMDCT係数は直接的に適応ブロック長切換逆MDCT部13に供給されるようになっている。
そして、圧縮符号復号化部4から出力される音声信号(時間音声信号)を入力して、これを再度MDCT変換して周波数軸領域の音声信号に変換するMDCT変換部30を追加するものとしている。
その上で、この場合の高域補間部4aに対しては、このMDCT変換部30にて時間−周波数変換された音声信号(MDCT係数)を、AAC1フレーム単位ごとに入力する。
なお、この場合も高域補間部4aが行う動作としては先に説明したものと同様となるため改めての説明は省略する。
In FIG. 11, the high-frequency interpolation unit 4 a is omitted in the compression code decoding unit 4 in this case, and the MDCT coefficients from the stereo processing unit 12 are directly supplied to the adaptive block length switching inverse MDCT unit 13. It is like that.
Then, an MDCT conversion unit 30 that inputs the audio signal (temporal audio signal) output from the compression coding / decoding unit 4 and converts the same into an MDCT by performing MDCT conversion again is added. .
In addition, the audio signal (MDCT coefficient) subjected to time-frequency conversion by the MDCT conversion unit 30 is input to the high-frequency interpolation unit 4a in this case for each AAC1 frame unit.
In this case as well, the operation performed by the high-frequency interpolation unit 4a is the same as that described above, and a description thereof will be omitted.
そして、この高域補間部4aにて高域信号が追加されたMDCT係数を、図中逆MDCT変換部31により再度逆MDCT変換させ、音声出力可能な時間音声信号に戻すようにする。このようにして得られた時間音声信号が、図1に示したDSP5に対して供給される。 Then, the MDCT coefficient to which the high-frequency signal is added by the high-frequency interpolation unit 4a is subjected to inverse MDCT conversion again by the inverse MDCT conversion unit 31 in the drawing so as to return to the time audio signal that can be output. The time audio signal thus obtained is supplied to the DSP 5 shown in FIG.
このようにして第1の実施の形態の高域補間動作を行う高域補間部4aとしては、圧縮符号復号化部4の外部に設けて、復号化処理の完了した音声信号について高音質化を図るようにすることもできる。
但し、上記説明からも理解されるように、このようにして圧縮符号復号化部4外部に設ける場合には、復号化後の時間音声信号を再度周波数変換された状態の音声信号に戻すための構成(MDCT変換部30)と、高域補間後の周波数軸領域の音声信号を再度時間軸領域の音声信号に戻すための構成(逆MDCT変換部31)とが別途必要となる。
この点に鑑み、先の図1に示した再生装置1では、高域補間部4aを圧縮符号復号化部4内に設けて、復号化処理の過程で既に周波数軸領域に変換された状態にある音声信号について高域補間を施すようにしたことで、上記のような別途の構成が不要となるようにしたものである。
As described above, the high frequency interpolating unit 4a that performs the high frequency interpolating operation of the first embodiment is provided outside the compression code decoding unit 4 to improve the sound quality of the audio signal that has been decoded. It can also be designed.
However, as can be understood from the above description, in the case where the compression code decoding unit 4 is provided outside in this way, the time audio signal after decoding is converted back to the audio signal in the frequency-converted state again. A configuration (MDCT conversion unit 30) and a configuration (inverse MDCT conversion unit 31) for returning the audio signal in the frequency axis region after high-frequency interpolation back to the audio signal in the time axis region are separately required.
In view of this point, in the reproduction apparatus 1 shown in FIG. 1 above, the high-frequency interpolation unit 4a is provided in the compression code decoding unit 4, and has already been converted into the frequency axis region in the course of the decoding process. By applying high-frequency interpolation to a certain audio signal, the above-described separate configuration is not necessary.
以上、第1の実施の形態について説明したが、本発明の高域補間としてはこれまでの具体例に限定されるべきものではない。
例えばこれまでの説明では、Rateの値は、高域サブバンドの終点側(最も高域側)を基準として行ったが、始点側(最も低域側)を基準として行うこともできる。つまり、ピーク値Peak[k]/ピーク値Peak[0]、ピーク値Peak[k+1]/ピーク値Peak[1]、・・・ピーク値Peak[k+x]/ピーク値Peak[x]のように、高域サブバンドの始点〜所定値xまでの各分割バンドのピーク値Peakについて、それぞれ+kとした分割バンドのピーク値Peakとの振幅比率を計算し、それらの平均値をRateの値として算出するといったものである。
但し、先の例のように終点側を基準としたRate計算とすれば、補間すべき部分により近いところでRateを計算できる分、始点側で計算する場合よりも信頼性の高いRateの値を得ることができる。すなわち、そのようなRateの値を使用して高域信号追加を行うことで、より自然な信号で高域の信号を補間することができるようになる。
Although the first embodiment has been described above, the high-frequency interpolation according to the present invention should not be limited to the specific examples described so far.
For example, in the description so far, the value of Rate is determined based on the end point side (the highest frequency side) of the high frequency sub-band, but can be determined based on the start point side (the lowest frequency side). That is, peak value Peak [k] / peak value Peak [0], peak value Peak [k + 1] / peak value Peak [1],... Peak value Peak [k + x] / peak value Peak [x] For the peak value Peak of each divided band from the start point of the high frequency sub-band to the predetermined value x, the amplitude ratio with the peak value Peak of the divided band set to + k is calculated, and the average value thereof is calculated as the value of Rate. It is something like that.
However, if the rate calculation is based on the end point as in the previous example, the rate value can be calculated more reliably than the calculation on the start point because the rate can be calculated closer to the part to be interpolated. be able to. That is, by adding a high frequency signal using such a value of Rate, a high frequency signal can be interpolated with a more natural signal.
また、Rateの値は、相関最大シフト量「k」だけ離間した複数組の各ピーク値Peakの振幅比率を平均化した値を計算するものとしたが、kだけ離間した1組の各ピーク値Peakの振幅比率をそのままRateの値とすることもできる。
但し、複数組の振幅比率を平均化した値とすれば、1組の振幅比率のみからRateを計算する場合よりもRateの値の信頼性は高めることができる。
Further, the value of Rate is a value obtained by averaging the amplitude ratios of a plurality of sets of peak values Peak separated by the maximum correlation shift amount “k”, but each set of peak values separated by k The amplitude ratio of Peak can be used as the value of Rate as it is.
However, if a value obtained by averaging a plurality of sets of amplitude ratios is used, the reliability of the value of the Rate can be improved as compared with the case where the rate is calculated from only one set of amplitude ratios.
また、ピーク値Peakについては、MDCT係数8個分の分割バンド単位で区切ったときのピーク値としたが、ピーク値Peakを得るための分割バンド幅は「8」以外の他の数値とすることもできる。 The peak value Peak is a peak value when divided in units of divided bands corresponding to eight MDCT coefficients, but the divided band width for obtaining the peak value Peak is set to a value other than “8”. You can also.
また、これまでの説明では、ピーク値Peakを自己信号として自己相関計算を行うものとしたが、ピーク値Peakは検出せずに、各MDCT係数番号位置のMDCT係数を用いて自己相関計算を行うこともできる。また、Rateの計算としても、ピーク値Peakは検出せずに、MDCT係数を用いて行うことができる。
各MDCT係数番号位置のMDCT係数を用いた自己相関計算を行った場合、相関最大シフト量としてはMDCT係数番号単位での値となる。この場合、仮にRate計算については先の具体例と同様にピーク値Peakを用いて行うとするのであれば、このようなMDCT係数番号単位での相関最大シフト量を1/8に除算(つまり分割バンド幅で除算)し、その値だけ離間した各ピーク値Peakの振幅比率を計算した結果に基づきRateの値を算出すればよい。
また、このように各MDCT係数番号位置のMDCT係数を用いた自己相関計算を行った場合、高域信号追加動作時には、検出された相関最大シフト量の値に敢えて分割バンド幅の値を乗算して用いる必要はなくなる。
但し、ピーク値Peakを用いた自己相関計算とすれば、その分自己相関計算の計算量は削減でき、また上述もしたように信頼性の高い相関値を計算でき、これによって信頼性の高い相関最大シフト量の検出が可能となる。
In the above description, the autocorrelation calculation is performed using the peak value Peak as the self signal. However, the autocorrelation calculation is performed using the MDCT coefficient at each MDCT coefficient number position without detecting the peak value Peak. You can also. The calculation of Rate can also be performed using the MDCT coefficient without detecting the peak value Peak.
When autocorrelation calculation is performed using the MDCT coefficient at each MDCT coefficient number position, the maximum correlation shift amount is a value in units of MDCT coefficient numbers. In this case, if the rate calculation is performed using the peak value Peak as in the previous specific example, the correlation maximum shift amount in units of MDCT coefficient numbers is divided by 1/8 (that is, divided). The value of Rate may be calculated based on the result of calculating the amplitude ratio of each peak value Peak separated by that value.
In addition, when autocorrelation calculation is performed using the MDCT coefficient at each MDCT coefficient number position in this way, the value of the maximum correlation shift amount is intentionally multiplied by the value of the divided bandwidth during the high-frequency signal addition operation. Need not be used.
However, if the autocorrelation calculation using the peak value Peak is used, the calculation amount of the autocorrelation calculation can be reduced by that amount, and a highly reliable correlation value can be calculated as described above. The maximum shift amount can be detected.
また、これまでの説明では、自己相関計算について、先の式1における「N」を振幅がある最後の分割バンド番号の値とし、高域サブバンドの全範囲を自己信号として自己相関計算を行う場合を例示したが、例えば「N」の値をより低域側の分割バンド番号の値とすることで、高域サブバンド内の一部を自己信号として自己相関計算を行うこともできる。このようにすることで、自己相関計算量を削減することができる。 Further, in the above description, for autocorrelation calculation, “N” in the previous equation 1 is set to the value of the last divided band number with amplitude, and autocorrelation calculation is performed using the entire range of the high frequency subband as the self signal. Although the case has been illustrated, for example, by setting the value of “N” as the value of the divided band number on the lower frequency side, the autocorrelation calculation can be performed using a part of the high frequency subband as a self signal. By doing so, the amount of autocorrelation calculation can be reduced.
また、これまでの説明では、AAC方式により圧縮符号化がされた音声信号(オーディオ信号)について高域補間を行う場合についてのみ説明したが、他の音声圧縮符号化方式で符号化された音声信号について高域補間を行う場合にも本発明は好適に適用することができる。
ここで、AAC方式以外では、所定周波数以上の領域のみがバンド幅一定とならず、全域にわたってバンド幅が一定である場合もある。そこで、そのような場合には、高域サブバンドの始点として予め所定の周波数(MDCT係数番号)を設定しておき、同様にその始点から振幅がある最後のバンドまでを高域サブバンドとして設定するものとすればよい。以降は同様の動作とすることで実施の形態の場合と同様の効果を得ることができる。
In the description so far, only the case where high-frequency interpolation is performed on an audio signal (audio signal) that has been compression-encoded by the AAC method has been described. However, an audio signal that has been encoded by another audio compression-encoding method. The present invention can also be suitably applied when performing high-frequency interpolation for.
Here, except for the AAC method, only the region of a predetermined frequency or higher is not constant in bandwidth, and the bandwidth may be constant over the entire region. Therefore, in such a case, a predetermined frequency (MDCT coefficient number) is set in advance as the starting point of the high frequency sub-band, and similarly, from the starting point to the last band with amplitude is set as the high frequency sub-band. What should I do? Thereafter, the same effect as in the embodiment can be obtained by performing the same operation.
<第2の実施の形態>
続いて、第2の実施の形態について説明する。
第2の実施の形態は、量子化誤差を補正するためのものである。
図12は、第2の実施の形態としての再生装置40の内部構成を示すブロック図である。
図示するようにして第2の実施の形態の再生装置40では、圧縮符号復号化部4内に、先の高域補間部4aに代えて量子化誤差補正部4bが設けられる。
なお、第2の実施の形態の再生装置40は、この量子化誤差補正部4bが設けられる以外は先の第1の実施の形態の再生装置1と同様の構成となるので、ここでは同一符号を付して説明を省略する。
<Second Embodiment>
Next, a second embodiment will be described.
The second embodiment is for correcting a quantization error.
FIG. 12 is a block diagram showing an internal configuration of the playback apparatus 40 according to the second embodiment.
As shown in the figure, in the reproduction apparatus 40 of the second embodiment, a quantization error correction unit 4b is provided in the compression code decoding unit 4 in place of the previous high frequency interpolation unit 4a.
Note that the playback device 40 of the second embodiment has the same configuration as the playback device 1 of the previous first embodiment, except that this quantization error correction unit 4b is provided. The description is omitted.
図13は、図12に示される圧縮符号復号化部4の内部構成を示している。
第2の実施の形態の場合の量子化誤差補正部4bとしても、先の高域補間部4aと同様に、圧縮符号復号化部4内において、ステレオ処理部12と適応ブロック長切換逆MDCT部13との間に対して設けられる。すなわち、この量子化誤差補正部4bとしても、先の高域補間部4aと同様に、ステレオ処理部12によって得られる、符号化時のMDCT処理された直後に相当する状態に復元されたMDCT係数を入力し、それについて処理を行うようにされている。
なお、圧縮符号復号化部4内の他の構成については先の第1の実施の形態の場合と同様となることから、ここでは同一符号を付して説明を省略する。
FIG. 13 shows the internal configuration of the compression code decoding unit 4 shown in FIG.
As the quantization error correction unit 4b in the case of the second embodiment, the stereo processing unit 12 and the adaptive block length switching inverse MDCT unit are included in the compression code decoding unit 4 as in the high frequency interpolation unit 4a. 13 is provided. That is, as the quantization error correction unit 4b, similarly to the high frequency interpolation unit 4a, the MDCT coefficient obtained by the stereo processing unit 12 and restored to the state immediately after the MDCT processing at the time of encoding is obtained. Enter and process to process it.
Since the other components in the compression code decoding unit 4 are the same as those in the first embodiment, the same reference numerals are given here and the description thereof is omitted.
[量子化誤差]
ここで、一般的に音声圧縮符号化は、上述したような周波数相関符号化として、心理聴覚分析を用いた方式が採られている。この心理聴覚特性を用いた符号化では、聴感上聴取することのできないとされる周波数帯域については割り当てるビット数を削減することで、音質の低下を抑えながら効率の良い情報圧縮処理を行うように図られている。
しかしながら、このようにして低ビット数が割り当てられた周波数帯域では、その低ビット数に起因して復号の際の復号精度が低下し、本来の音声信号との差が大きくなるという現象が生じる。このような現象は、量子化誤差と呼ばれる。
[Quantization error]
Here, in general, the audio compression coding employs a method using psychoacoustic analysis as the frequency correlation coding as described above. In this encoding using psychoacoustic characteristics, efficient information compression processing is performed while suppressing deterioration in sound quality by reducing the number of bits allocated for frequency bands that cannot be heard due to auditory perception. It is illustrated.
However, in the frequency band to which the low bit number is assigned in this way, the decoding accuracy at the time of decoding is lowered due to the low bit number, and the phenomenon that the difference from the original audio signal becomes large occurs. Such a phenomenon is called a quantization error.
図14は、このような割り当てビット数に起因して生じる量子化誤差について説明するための図である。
先ず、前提として、圧縮符号化では、上述のようにして所要の周波数帯域については割り当てるビット数を削減するものとしているが、このような帯域ごとのビット割り当て数は、その帯域について設定された分解能の値によって決定される。
図14では、それぞれ異なる分解能が設定された場合での元データ(原信号のデータ)、符号化による量子化前/後の各データ、及び復号結果としてのデータの関係を示している。具体的に図14(a)では分解能=2(高分解能)が設定された場合、図14(b)では分解能=5(低分解能)が設定された場合について示している。
FIG. 14 is a diagram for explaining a quantization error caused by such an allocated bit number.
First, as a premise, in compression coding, the number of bits to be allocated for a required frequency band is reduced as described above. The number of bits allocated for each band is the resolution set for that band. Determined by the value of.
FIG. 14 shows the relationship between original data (original signal data), data before / after quantization by encoding, and data as a decoding result when different resolutions are set. Specifically, FIG. 14A shows a case where resolution = 2 (high resolution) is set, and FIG. 14B shows a case where resolution = 5 (low resolution) is set.
これらの図を参照してわかるように、高分解能とされた場合の方が、低分解能とされる場合よりも元データと復号結果との誤差が小さくなる。
具体的に、例えば図中の最左欄の元データ=8のケースに着目すると、分解能=2のときは、量子化前の値は8÷2により「4」であり、その量子化結果はこれを整数化したものと捉えることができ、図中量子化後として示すように同じ「4」となる。復号結果は、量子化後の値を分解能の値で戻したものに相当し、4×2により「8」となる。
これに対し、分解能=5のときは、元データ=8に対し量子化前の値は「1.6」となり、量子化後の値はこれが整数化されて「1」となってしまう。そして、復号結果は、この「1」を分解能「5」で戻した「5」となり、先の分解能=2の場合の復号結果「8」と比較して誤差が大きくなる。
As can be seen with reference to these figures, when the resolution is high, the error between the original data and the decoding result is smaller than when the resolution is low.
Specifically, for example, focusing on the case of the original data = 8 in the leftmost column in the figure, when resolution = 2, the value before quantization is “4” by 8/2, and the quantization result is This can be regarded as an integer, and is the same “4” as shown after quantization in the figure. The decoding result corresponds to a value obtained by returning the quantized value as a resolution value, and becomes “8” by 4 × 2.
On the other hand, when resolution = 5, the value before quantization for original data = 8 is “1.6”, and the value after quantization is converted to an integer and becomes “1”. Then, the decoding result is “5” obtained by returning “1” with the resolution “5”, and the error is larger than the decoding result “8” when the resolution = 2.
このようにして分解能が低い場合には、量子化前の値と、これが整数化されたものに相当する量子化後の値との誤差が大きくなる傾向にあり、これに応じ復号結果にも元データの値からの大きな誤差を生じさせることとなる。これが、割り当てビット数の少ない部分で量子化誤差が生じやすい所以である。 When the resolution is low in this way, the error between the value before quantization and the value after quantization corresponding to the integer value tends to increase, and the decoding result is also based on this. This will cause a large error from the data value. This is why a quantization error is likely to occur in a portion where the number of allocated bits is small.
ここで、例えば元データがとり得る値を仮に0〜100までの範囲としたとき、分解能を高くする(値としては小さくする)ことによっては、その分、細かい刻みで元データの値を表現することができるが、それに伴ってより多くのビット数を割り当てる必要がでてくることがわかる。一方で、分解能を低くする(値としては大きくする)ことによっては、元データの値を表現する上での刻み幅を粗くすることができるので、割り当てるビット数はより少なくすることができる。このようなことから、符号化の際に各バンドに設定する分解能の値により、そのバンドについての割り当てビット数が決定付けられることが理解できる。 Here, for example, if the value that the original data can take is in the range of 0 to 100, the value of the original data is expressed in fine increments by increasing the resolution (decreasing the value). However, it can be seen that more bits need to be allocated accordingly. On the other hand, by reducing the resolution (increasing the value), the step size for expressing the value of the original data can be made coarse, so that the number of bits to be allocated can be reduced. From this, it can be understood that the number of allocated bits for each band is determined by the resolution value set for each band during encoding.
図15は、実際の量子化誤差の発生形態の一例について説明するための図として、図15(a)ではビットレート=512kbpsのとき、図15(b)ではビットレート=128kbpsのときのスペクトル分布を示している。なお、この図ではスペクトル分布として、図13(図2)に示したステレオ処理部12から出力されるAAC1フレーム分のMDCT係数の分布(図中黒丸)を示している。また、この図では、周波数相関符号化により割り当てビット数の削減率が比較的高くなる中・高域として、例えば7kHz以降(〜22kHz)のMDCT係数の分布を示している。 FIG. 15 is a diagram for explaining an example of an actual form of quantization error. FIG. 15A shows a spectrum distribution when the bit rate is 512 kbps, and FIG. 15B shows a spectrum distribution when the bit rate is 128 kbps. Is shown. In this figure, the distribution of MDCT coefficients for one AAC frame output from the stereo processing unit 12 shown in FIG. 13 (FIG. 2) (black circle in the figure) is shown as the spectrum distribution. Further, in this figure, the distribution of MDCT coefficients after 7 kHz (˜22 kHz), for example, is shown as the middle / high range where the reduction rate of the number of allocated bits is relatively high due to frequency correlation coding.
先ず、図15(a)に示す高ビットレートの場合、中・高域においても各バンドの割り当てビット数は比較的多くすることができるため、大きな量子化誤差はほぼ生じていないことが確認できる。
これに対し、図15(b)の低ビットレートの場合は、中・高域での割り当てビット数の削減率が高くなることに伴って、比較的大きな量子化誤差が生じやすくなる。この大きな量子化誤差部分は、図中の丸印で囲うように、同じ振幅値が連続する部分として確認することができる。これが、量子化誤差による平坦化と呼ばれる現象である。
First, in the case of the high bit rate shown in FIG. 15A, the number of bits allocated to each band can be made relatively large even in the middle and high bands, so that it can be confirmed that a large quantization error hardly occurs. .
On the other hand, in the case of the low bit rate in FIG. 15B, a relatively large quantization error is likely to occur as the reduction rate of the number of allocated bits in the middle / high range increases. This large quantization error portion can be confirmed as a portion where the same amplitude value is continuous, as surrounded by a circle in the figure. This is a phenomenon called flattening due to quantization error.
このような平坦化が生じた部分は、当然のことながら元の原信号の波形を忠実に再現したものとはならない。すなわち、このように平坦化が生じた部分で特に音質の劣化が生じるものである。 Of course, such a flattened portion does not faithfully reproduce the original waveform of the original signal. That is, the sound quality is particularly deteriorated in the portion where the flattening occurs.
[量子化誤差の補正]
そこで、第2の実施の形態では、特にこのような平坦化部分による音質劣化を防止し、音質の改善を図る(つまり高音質化を図る)ものとする。そのための構成として、先の図13(図12)に示した量子化誤差補正部4bを設けるようにしている。
[Correction of quantization error]
Therefore, in the second embodiment, it is particularly assumed that sound quality deterioration due to such a flattened portion is prevented and the sound quality is improved (that is, the sound quality is improved). As a configuration for that purpose, the quantization error correction unit 4b shown in FIG. 13 (FIG. 12) is provided.
図16は、量子化誤差補正部4bの内部構成について示すブロック図である。
図示するようにして量子化誤差補正部4bには、平坦化部分抽出部41、置換判定部42、予測処理部43、置換部44が備えられている。
これら量子化誤差補正部4b内の各部に対しては、図13に示したステレオ処理部12から出力されるAAC1フレーム単位ごとのMDCT係数が入力される。
FIG. 16 is a block diagram showing an internal configuration of the quantization error correction unit 4b.
As shown in the figure, the quantization error correction unit 4b includes a flattened part extraction unit 41, a replacement determination unit 42, a prediction processing unit 43, and a replacement unit 44.
MDCT coefficients for each AAC 1 frame unit output from the stereo processing unit 12 shown in FIG. 13 are input to the respective units in the quantization error correction unit 4b.
先ず、予測処理部43では、上記ステレオ処理部12から供給される1フレーム分ごとのMDCT係数に基づき、圧縮符号化前の原信号を予測した予測信号を生成する。
この予測処理部43が備える予測器として、本実施の形態ではAACのMainプロファイル(ISO/IEC13818-7)で規格化されている予測器を用いるものとしている。なおこの予測器は、先の図2、図13に示した予測処理部12bが備えるものと同等のものである。
First, the prediction processing unit 43 generates a prediction signal obtained by predicting the original signal before compression coding based on the MDCT coefficient for each frame supplied from the stereo processing unit 12.
In this embodiment, a predictor standardized by the AAC Main profile (ISO / IEC13818-7) is used as the predictor included in the prediction processing unit 43. This predictor is the same as that provided in the prediction processing unit 12b shown in FIGS.
ここで、図17は、上記予測器による予測処理のフローを示している。
この予測器は、2次の後方適応格子型予測器である。予測値x est(n)は以下のように求められる。
x est(n) = x est,1(n)+ x est,2(n)
ここで、
x est,1(n) = bk1(n) r q,0(n-1)
x est,2(n) = bk2(n) r q,1(n-1)
であり、a=b=0.953125である。
r q,0(n) = axrec(n)
r q,1(n) = a(rq,0 (n-1) − bk1(n)eq,0(n))
e q,0(n) = xrec(n)
e q,1(n) = e q,0(n) − xest,1(n)
km(n+1),m=1,2は以下の式により求める。
km(n+1) = CORm(n)/VARm(n)
ここで、
CORm(n) = αCOR m(n-1)+r q,m-1(n-1) eq,m-1(n)
VARm(n) = αVAR m(n-1)+0.5(r2 q,m-1(n-1)+ e2q,m-1(n))
であり、α=0.90625である。
Here, FIG. 17 shows a flow of prediction processing by the predictor.
This predictor is a second-order backward adaptive lattice predictor. The predicted value x est (n) is obtained as follows.
x est (n) = x est, 1 (n) + x est, 2 (n)
here,
x est, 1 (n) = bk1 (n) rq, 0 (n-1)
x est, 2 (n) = bk2 (n) rq, 1 (n-1)
And a = b = 0.953125.
rq, 0 (n) = axrec (n)
rq, 1 (n) = a (rq, 0 (n-1) − bk1 (n) eq, 0 (n))
eq, 0 (n) = xrec (n)
eq, 1 (n) = eq, 0 (n) − xest, 1 (n)
km (n + 1), m = 1,2 is obtained by the following equation.
km (n + 1) = CORm (n) / VARm (n)
here,
CORm (n) = αCOR m (n-1) + r q, m-1 (n-1) eq, m-1 (n)
VARm (n) = αVAR m (n-1) +0.5 (r 2 q, m-1 (n-1) + e 2 q, m-1 (n))
And α = 0.90625.
なお、本例では、上記予測処理部43として、先の予測処理部12bと同手法により予測処理を行う部分を別途設けるものとしているが、これは、AACのオプション処理として、図2、図13に示すインテンシティステレオ処理部12c、TNS処理部12dとしての処理を行っていることに起因する。すなわち、これらのオプション処理を行う場合、予測処理部12bにおける処理結果は、本例の量子化誤差補正部4bで用いることのできるかたちでの予測信号として得ることができないため、別途の予測処理部43を設けているものである。 In this example, as the prediction processing unit 43, a part for performing the prediction processing by the same method as that of the previous prediction processing unit 12b is separately provided. This is an optional processing of AAC as shown in FIGS. This is because the intensity stereo processing unit 12c and the TNS processing unit 12d shown in FIG. That is, when these optional processes are performed, the processing result in the prediction processing unit 12b cannot be obtained as a prediction signal that can be used in the quantization error correction unit 4b of this example. 43 is provided.
説明を図16に戻す。
平坦化部分抽出部41には、上述のようにしてステレオ処理部12からの1フレーム分のMDCT係数が供給されると共に、図13に示したフォーマット解析部10から供給されるスケールファクタバンド(sfb)ごとの分解能の情報が入力される。
平坦化部分抽出部41では、これら1フレーム分のMDCT係数とsfbごとの分解能の情報とに基づき、sfbごとに、MDCT係数の値がそのsfbの分解能と同値となっている部分を検出(抽出)する。
多くの場合、このように分解能の値と同値となっているとして検出された部分が、先の図15(b)に示したような平坦化部分を形成する部分となる。
Returning to FIG.
The flattened portion extraction unit 41 is supplied with the MDCT coefficients for one frame from the stereo processing unit 12 as described above, and the scale factor band (sfb) supplied from the format analysis unit 10 shown in FIG. ) For each resolution is input.
Based on the MDCT coefficient for one frame and the resolution information for each sfb, the flattened part extraction unit 41 detects (extracts) a part where the value of the MDCT coefficient is the same as the resolution of the sfb for each sfb. )
In many cases, the portion detected as having the same value as the resolution value in this way is a portion that forms a flattened portion as shown in FIG.
ここで、第2の実施の形態では、量子化誤差の補正を行う帯域を、ビット割り当て数が不十分とされる中・高域に限定するものとしている。例えばこの場合は、先の図15に示されるような7kHz〜22kHzまでの帯域のみを対象として補正動作を行うものとしている。
これに応じ平坦化部分抽出部41では、1フレームを形成する各sfbのうち、このような7kHz以降のsfbのみを対象としてMDCT係数の値がそのsfbの分解能と同値となっているMDCT係数位置を検出する。
平坦化帯域抽出部41は、検出したMDCT係数位置の情報(MDCT係数番号情報)と、さらにそのMDCT係数位置が属するsfbの分解能の情報とを併せて置換判定部42に供給する。
Here, in the second embodiment, the band for performing the correction of the quantization error is limited to the middle / high range where the number of bit allocation is insufficient. For example, in this case, the correction operation is performed only for the band from 7 kHz to 22 kHz as shown in FIG.
In response to this, in the flattened portion extraction unit 41, the MDCT coefficient position where the value of the MDCT coefficient is the same value as the resolution of the sfb only for such sfb of 7 kHz or later among the sfb forming one frame. Is detected.
The flattening band extraction unit 41 supplies the detected MDCT coefficient position information (MDCT coefficient number information) and the resolution information of the sfb to which the MDCT coefficient position belongs to the replacement determination unit 42 together.
置換判定部42は、上記平坦化部分抽出部41により検出されたMDCT係数番号の情報とそのバンドにおける分解能の情報、及びステレオ処理部12からのMDCT係数、さらに予測処理部43で生成された予測信号を入力し、それらの情報に基づき置換判定を行う。すなわち、上記平坦化部分抽出部41からのMDCT係数番号によって特定されるMDCT係数位置における上記予測信号の値と上記MDCT係数の値と、さらにそのMDCT係数位置が属するsfbの分解能の情報とに基づき、置換判定を行う。
具体的には、予測信号の値が、[MDCT係数の値(絶対値)+分解能/n]以下となっているか否かを判別した結果に基づき、置換判定を行う。例えばこの場合は、n=2として、予測信号の値がMDCT係数の値+分解能の値/2以下であるか否かを判別する。
予測信号の値がMDCT係数の値+分解能の値/2以下となっていないとした場合、そのMDCT係数位置については置換を行わないとの判定結果を示す判定信号を次に説明する置換部44に対して供給する。一方、予測信号の値がMDCT係数の値+分解能の値/2以下となっているとした場合は、そのMDCT係数位置については置換を行うとの判定結果を示す判定信号を置換部44に対して供給する。
The replacement determination unit 42 includes information on the MDCT coefficient number detected by the flattened portion extraction unit 41 and resolution information in the band, the MDCT coefficient from the stereo processing unit 12, and the prediction generated by the prediction processing unit 43. A signal is input and a replacement determination is performed based on the information. That is, based on the value of the prediction signal at the MDCT coefficient position specified by the MDCT coefficient number from the flattened portion extraction unit 41, the value of the MDCT coefficient, and the resolution information of the sfb to which the MDCT coefficient position belongs. , Perform replacement judgment.
Specifically, the replacement determination is performed based on the result of determining whether or not the value of the prediction signal is equal to or less than [MDCT coefficient value (absolute value) + resolution / n]. For example, in this case, n = 2 and it is determined whether or not the value of the prediction signal is equal to or less than the value of the MDCT coefficient + the value of resolution / 2.
When it is assumed that the value of the prediction signal is not equal to or less than the value of the MDCT coefficient + the value of resolution / 2, a determination signal indicating a determination result indicating that the MDCT coefficient position is not replaced is a replacement unit 44 described below. Supply against. On the other hand, when the value of the prediction signal is equal to or less than the value of the MDCT coefficient + the value of resolution / 2, a determination signal indicating a determination result that the MDCT coefficient position is to be replaced is sent to the replacement unit 44. Supply.
置換部44は、ステレオ処理部12から供給されるMDCT係数と、上記置換判定部42からの判定信号と、さらに予測処理部23からの予測信号とに基づき、置換処理を行う。
具体的には、上記置換判定部42からの判定信号により置換を行うとの判定結果が示されたMDCT係数位置について、そのMDCT係数の値を予測信号の値で置換する。
この置換部44による置換処理が施された1フレーム分のMDCT係数が、先の図13に示した適応ブロック長切換逆MDCT部13に対して順次供給されることになる。
The replacement unit 44 performs replacement processing based on the MDCT coefficients supplied from the stereo processing unit 12, the determination signal from the replacement determination unit 42, and the prediction signal from the prediction processing unit 23.
Specifically, the value of the MDCT coefficient is replaced with the value of the prediction signal for the MDCT coefficient position where the determination result indicating that the replacement is performed by the determination signal from the replacement determination unit 42 is indicated.
The MDCT coefficients for one frame subjected to the replacement processing by the replacement unit 44 are sequentially supplied to the adaptive block length switching inverse MDCT unit 13 shown in FIG.
上記のようにして第2の実施の形態では、圧縮符号化がされた音声信号(オーディオ信号)について、周波数軸上でそのバンド(sfb)の分解能の値となっているMDCT係数位置を検出し、その位置の振幅値を、予測信号の値との比較結果に基づいて予測信号の値で置換するものとしている。 In the second embodiment as described above, the MDCT coefficient position that is the resolution value of the band (sfb) on the frequency axis is detected for the audio signal (audio signal) that has been compression-encoded. The amplitude value at that position is replaced with the value of the prediction signal based on the comparison result with the value of the prediction signal.
ここで、上記のようにして本例においては、周波数軸上で分解能と同値となっている部分を検出するものとしているが、先の図14、図15の説明からも理解されるように、音質劣化の原因となる平坦化部分は、分解能と同値となっているところで生じやすいことになる。すなわち、分解能と同値(分解能の値×1)の部分は、量子化としての整数化で波数が切り捨てられた際に、その切り捨て率が相対的に高くなる可能性が高く、それに伴い生じる量子化誤差の率も高くなる傾向となって、大きな量子化誤差が生じやすい。
そこで本例では、上記のようにして先ずは分解能の値と同値となっている部分を置換候補部分として検出し、予測信号の値からその候補部分で大きな量子化誤差が生じているか、すなわち置換を行う妥当性があるかを判定した上で、妥当であるとされた場合にはその部分のMDCT係数を予測信号の値で置換するものとしている。
これにより、割り当てビット数の少なさに起因して大きな量子化誤差の生じている部分を適正に検出し、その誤差部分の振幅値を予測信号に応じたより確からしい値で補正することができる。この結果、圧縮符号化による音質劣化を効果的に抑圧し、高音質化を図ることができる。
Here, as described above, in this example, the portion having the same value as the resolution on the frequency axis is detected, but as can be understood from the description of FIGS. 14 and 15 above, A flattened portion that causes deterioration in sound quality is likely to occur where the resolution is the same. In other words, when the wave number is rounded down by integerization as the quantization, the portion with the same value as the resolution (resolution value × 1) is likely to have a relatively high rounding rate, and the resulting quantization The error rate tends to increase, and a large quantization error tends to occur.
Therefore, in this example, as described above, first, a portion having the same value as the resolution value is detected as a replacement candidate portion, and whether a large quantization error has occurred in the candidate portion from the predicted signal value, that is, replacement is performed. In the case where it is determined to be valid after determining whether it is appropriate, the MDCT coefficient of that portion is replaced with the value of the prediction signal.
As a result, it is possible to appropriately detect a portion where a large quantization error is caused due to the small number of assigned bits and correct the amplitude value of the error portion with a more probable value according to the prediction signal. As a result, it is possible to effectively suppress deterioration in sound quality due to compression coding and to improve sound quality.
そして、このような第2の実施の形態としての補正動作によれば、高音質化を図るにあたっては、予測信号を生成し、その値と音声信号の振幅値とを比較した結果に基づき予測信号の値との置換を行えばよいのみとすることができる。
これによれば、例えば従来のように本来とり得る値の範囲を算出し、相隣接する周波数帯域の符号化信号から最小二乗法を使って補正値を算出し、補正値が範囲内の値であれば既存の信号と置き換え、範囲外であれば、範囲の最小値・最大値などを用いて既存の信号との置き換えを行う、という手法で高音質化を図るとした場合と比較して、処理負担は格段に軽くすることができる。
According to the correction operation as the second embodiment, when the sound quality is improved, the prediction signal is generated based on the result of generating the prediction signal and comparing the value with the amplitude value of the audio signal. It is only necessary to perform substitution with the value of.
According to this, for example, a range of values that can be originally taken is calculated as in the prior art, a correction value is calculated from encoded signals in adjacent frequency bands using the least square method, and the correction value is a value within the range. Compared with the case where high sound quality is achieved by the method of replacing the existing signal if there is, if it is outside the range, replacing with the existing signal using the minimum and maximum values of the range, The processing burden can be significantly reduced.
特に、予測信号の生成にあたり、上述したような2次の後方適応格子型による予測器を採用する本例の場合、その予測アルゴリズムとしては1フレームにつき1回の予測処理関数を呼び出せばよく、従来の如く各バンドで妥当とされる二次曲線などを求める場合のように複数フレーム間にわたって処理を行う必要はないものとでき、その分処理負担を格段に軽減することができる。また、さらには処理負担を音源によらず一定とすることもでき、処理の安定化を図ることができる。 In particular, in the case of this example that employs a second-order backward adaptive grid type predictor as described above in generating a prediction signal, the prediction algorithm may be called once per frame as the prediction algorithm. As in the case where a quadratic curve or the like appropriate for each band is obtained as described above, it is not necessary to perform processing over a plurality of frames, and the processing load can be remarkably reduced. Furthermore, the processing load can be made constant regardless of the sound source, and the processing can be stabilized.
また、第2の実施の形態では、例えば7kHz以降の中・高域の帯域のみを対象として補正動作を行うこととしているが、このことで、不必要な部分で置換が行われてしまうことを効果的に防止することができる。
例えば、先に示した特許文献3に記載の発明では、全周波数帯域を対象として補正を行うことを前提としているが、このように全周波数帯域を対象として補正を行った場合、低域などのビット割り当てが充分であるところで、求めた補正値がかえって本来の振幅値とかけ離れたものとなってしまう可能性があり、結果的に音質向上を図ることができなくなる可能性がある。
これに対し本例のように補正対象帯域をビット割り当てが不十分とされる中・高域に限定すれば、必要な帯域のみについて補正を行うことができ、そのような不具合の発生を効果的に防止できる。
In the second embodiment, for example, the correction operation is performed only for the middle and high frequency bands after 7 kHz. However, this may replace the unnecessary portion. It can be effectively prevented.
For example, the invention described in Patent Document 3 described above is based on the premise that correction is performed for the entire frequency band. Where the bit allocation is sufficient, the obtained correction value may be far from the original amplitude value, and as a result, the sound quality may not be improved.
On the other hand, if the band to be corrected is limited to the middle / high band where bit allocation is insufficient, as in this example, correction can be performed only for the necessary band, effectively preventing the occurrence of such problems. Can be prevented.
なお、ここまでの説明では、第2の実施の形態としての量子化誤差の補正動作が、先の図16に示したようなハードウェア構成により実現される場合を例示したが、第2の実施の形態の補正動作としても、先の第1の実施の形態の場合と同様にソフトウェア処理によっても実現することができる。つまり、この場合も量子化誤差補正部4bを例えばCPUやメモリを備えた演算処理部で構成し、この演算処理部としての量子化誤差補正部4bのソフトウェア処理により上述した第2の実施の形態としての補正動作を実現するものである。 In the description so far, the case where the quantization error correction operation as the second embodiment is realized by the hardware configuration as shown in FIG. 16 is exemplified. The correction operation of this form can also be realized by software processing as in the case of the first embodiment. That is, also in this case, the quantization error correction unit 4b is constituted by an arithmetic processing unit including, for example, a CPU and a memory, and the second embodiment described above is performed by software processing of the quantization error correction unit 4b as the arithmetic processing unit. The correction operation is realized.
この場合において実行されるべき処理動作を、次の図18のフローチャートに示す。
なお、この図に示す処理動作としても、上述のような演算処理部としての量子化誤差補正部4bが、例えば上記メモリ内に格納されるプログラムに従って実行するものである。
また、図示による説明は省略するが、この演算処理部としての量子化誤差補正部4bは、この図に示す処理動作と並行して、ステレオ処理部12からのMDCT係数に基づき先の図17の説明に基づく予測処理を行って予測信号を生成する処理を行っているものとする。
The processing operation to be executed in this case is shown in the flowchart of FIG.
Note that also in the processing operation shown in this figure, the quantization error correction unit 4b as the arithmetic processing unit as described above is executed according to a program stored in the memory, for example.
Further, although not illustrated, the quantization error correction unit 4b serving as the arithmetic processing unit is based on the MDCT coefficients from the stereo processing unit 12 in parallel with the processing operation shown in FIG. It is assumed that a process of generating a prediction signal by performing a prediction process based on the description is performed.
先ずステップS201では、分解能情報を取得する。すなわち、先の図13に示したフォーマット解析部10からのsfbごとの分解能の情報を取得する。 First, in step S201, resolution information is acquired. That is, the resolution information for each sfb from the format analysis unit 10 shown in FIG. 13 is acquired.
続くステップS202では、平坦化部分を抽出するための処理を行う。すなわち、ステレオ処理部12から供給される1フレーム分のMDCT係数を入力し、この1フレームを形成する各sfbのうち、例えば7kHz以降のsfbのみを対象としてMDCT係数の値がそのsfbの分解能と同値となっているMDCT係数位置を検出する。 In a succeeding step S202, a process for extracting a flattened portion is performed. That is, the MDCT coefficient for one frame supplied from the stereo processing unit 12 is input, and among the sfb forming this one frame, for example, only the sfb of 7 kHz or higher is set as the MDCT coefficient value and the resolution of the sfb. The MDCT coefficient position having the same value is detected.
さらに、次のステップS203では、予測信号に基づき抽出部分ごとに置換判定を行う。
すなわち、上記ステップS202によって検出したMDCT係数位置ごとに、MDCT係数の値、そのMDCT係数位置が属するsfbの分解能の値、予測信号の値に基づき置換判定を行う。具体的には、先にも述べたようにこれらMDCT係数の値、予測信号の値、分解能の値について、予測信号の値が、MDCT係数の値+分解能の値/2以下となっているか否かを判別した結果に基づき、置換判定を行う。
Further, in the next step S203, replacement determination is performed for each extracted portion based on the prediction signal.
That is, for each MDCT coefficient position detected in step S202, replacement determination is performed based on the value of the MDCT coefficient, the resolution value of the sfb to which the MDCT coefficient position belongs, and the value of the prediction signal. Specifically, as described above, regarding the MDCT coefficient value, the predicted signal value, and the resolution value, whether the predicted signal value is equal to or less than the MDCT coefficient value + resolution value / 2. Based on the determination result, replacement determination is performed.
その上で、続くステップS204においては、要置換部分のMDCT係数を予測信号に基づき置換する処理を行う。つまり、上記ステップS203の置換判定より、予測信号の値がMDCT係数の値+分解能の値/2以下となっていると判定したMDCT係数位置についてのみ、予測信号の値による置換を行う。
このステップS204を実行すると、図示するようにして「RETURN」となる。なお確認のために述べておくと、この図に示す処理動作としてもAAC1フレームごとに実行されるべきものである。
Then, in the subsequent step S204, a process for replacing the MDCT coefficient of the replacement required part based on the prediction signal is performed. That is, only the MDCT coefficient position determined from the replacement determination in step S203 that the predicted signal value is equal to or less than the MDCT coefficient value + resolution value / 2 is replaced with the predicted signal value.
When this step S204 is executed, “RETURN” is obtained as shown in the figure. For confirmation, the processing operation shown in this figure should be executed for each AAC1 frame.
ここで、これまでの説明では、量子化誤差補正部4bが圧縮符号復号化部4内に設けられる場合を例示したが、この場合としても、例えば次の図19に示すようにして、圧縮符号復号化部4の外部に対して量子化誤差補正部4bを設けるようにすることもできる。
図示するようにして、この場合の構成としては、先の図11に示した構成において高域補間部4aの代わりに量子化誤差補正部4bを設けたものに相当する。但し、量子化誤差補正部4bの場合は、sfbごとの分解能の情報を用いるようにされるので、図中破線矢印により示されるようにしてフォーマット解析部10からのsfbごとの分解能の情報も入力する。
なお、この場合も量子化誤差補正部4bが行う動作としては先に説明したものと同様となるため改めての説明は省略する。
Here, in the description so far, the case where the quantization error correction unit 4b is provided in the compression code decoding unit 4 is exemplified. However, even in this case, for example, as shown in FIG. A quantization error correction unit 4b may be provided outside the decoding unit 4.
As shown in the figure, the configuration in this case corresponds to a configuration in which the quantization error correction unit 4b is provided instead of the high-frequency interpolation unit 4a in the configuration shown in FIG. However, in the case of the quantization error correction unit 4b, the resolution information for each sfb is used, so the resolution information for each sfb from the format analysis unit 10 is also input as indicated by the broken line arrow in the figure. To do.
In this case as well, the operation performed by the quantization error correction unit 4b is the same as that described above, and a description thereof will be omitted.
なお、この図19に示す変形例では、このように外付けとされた量子化誤差補正部4b(平坦化部分抽出部41)に対してフォーマット解析部10からの分解能の情報を入力するように構成したが、このようなフォーマット解析部10からの分解能の情報の入力は必須ではない。
フォーマット解析部10からの分解能の情報を入力しない場合、平坦化部分抽出部41に対し、圧縮符号復号化部4→MDCT変換部30を介して得られるMDCT係数を供給するようにしておく。その上で、この場合の平坦化部分抽出部41としては、各sfbにおいて最小の振幅値をそのsfbの分解能の値として検出し、平坦化部分の検出、及びその後の置換判定においては、このようにして検出した値を分解能の値として用いるようにする。或いは、各sfbごとに頻発する振幅値をそのsfbの分解能の値と見なしてこれを用いるようにすることもできる。
In the modification shown in FIG. 19, the resolution information from the format analysis unit 10 is input to the quantization error correction unit 4b (flattened portion extraction unit 41) thus provided externally. Although configured, input of resolution information from the format analysis unit 10 is not essential.
When the resolution information from the format analysis unit 10 is not input, the MDCT coefficient obtained through the compression code decoding unit 4 → MDCT conversion unit 30 is supplied to the flattened partial extraction unit 41. In addition, in this case, the flattened portion extraction unit 41 detects the minimum amplitude value in each sfb as the resolution value of the sfb, and in the detection of the flattened portion and the subsequent replacement determination, The detected value is used as the resolution value. Alternatively, an amplitude value that frequently occurs for each sfb can be regarded as a resolution value of the sfb and used.
以上、第2の実施の形態について説明したが、本発明の量子化誤差補正としてはこれまでに説明した具体例に限定されるべきものではない。
例えば、これまでの説明では、所定の帯域のみについて補正処理を行う場合を例示したが、全帯域を対象として補正処理を行うものとしてもよい。
Although the second embodiment has been described above, the quantization error correction of the present invention should not be limited to the specific examples described so far.
For example, in the description so far, the case where the correction process is performed only for a predetermined band has been illustrated, but the correction process may be performed for the entire band.
また、これまでの説明では、予測信号の生成にあたり、2次の後方適応格子型による予測器を用いる例を挙げたが、他の方式による予測器を用いることもできる。或いは、補間多項式や、多次元の近似式など多次元関数による予測処理で予測信号を生成することもできる。
但し、先にも述べたように処理負担の軽減の面では、実施の形態で採用したような2次の後方適応格子型による予測器を用いるのが好ましい。
In the above description, an example of using a second-order backward adaptive grid type predictor is used for generating a prediction signal. However, a predictor of another method may be used. Alternatively, the prediction signal can be generated by a prediction process using a multidimensional function such as an interpolation polynomial or a multidimensional approximate expression.
However, as described above, in terms of reducing the processing load, it is preferable to use a second-order backward adaptive grid type predictor as employed in the embodiment.
また、これまでの説明では、置換の妥当性の判断基準として、誤差候補部分の予測信号の値が、MDCT係数の値+分解能の値/2以下であるか否かを判別する場合を例示したが、このような判断基準としては少なくとも分解能/nとすればよい。但し、量子化誤差はもともと分解能未満となる性質上、nの値としては、分解能/nの値を分解能の値未満とする値を選定すべきである。
或いは、置換の妥当性の判断としては、予測信号の値がMDCT係数の値±分解能の値/n以下であるか否かを判別するようにしてもよい。または、誤差候補部分の振幅値とその予測信号の値との差が、分解能/nであるか否か判別することもできる。
Further, in the description so far, the case where it is determined whether or not the value of the prediction signal of the error candidate portion is equal to or less than the value of the MDCT coefficient + the value of resolution / 2 is used as a criterion for determining the appropriateness of the replacement. However, such a determination criterion may be at least resolution / n. However, because the quantization error is originally less than the resolution, a value that makes the resolution / n value less than the resolution value should be selected as the value of n.
Alternatively, the validity of the replacement may be determined by determining whether the value of the prediction signal is equal to or less than the value of the MDCT coefficient ± the resolution value / n. Alternatively, it is possible to determine whether or not the difference between the amplitude value of the error candidate portion and the value of the predicted signal is resolution / n.
<第3の実施の形態>
図20は、第3の実施の形態としての再生装置50の内部構成を示すブロック図である。
第3の実施の形態は、バンド間の量子化誤差を補正するためのものである。
図示するようにして第3の実施の形態の再生装置50では、圧縮符号復号化部4内に、先の高域補間部4a(又は量子化誤差補正部4b)に代えて、バンド間量子化誤差補正部4cが設けられる。
なお、第3の実施の形態の再生装置50としても、このようなバンド間量子化誤差補正部4cが設けられる以外は、先の第1の実施の形態の再生装置1と同様の構成となるのでここでは同一符号を付して説明を省略する。
<Third Embodiment>
FIG. 20 is a block diagram illustrating an internal configuration of the playback device 50 according to the third embodiment.
The third embodiment is for correcting the quantization error between bands.
As shown in the figure, in the reproduction apparatus 50 according to the third embodiment, inter-band quantization is performed in the compression code decoding unit 4 in place of the previous high-frequency interpolation unit 4a (or quantization error correction unit 4b). An error correction unit 4c is provided.
Note that the playback device 50 of the third embodiment has the same configuration as the playback device 1 of the previous first embodiment, except that such an interband quantization error correction unit 4c is provided. Therefore, the same reference numerals are given here and the description thereof is omitted.
図21は、図20に示される圧縮符号復号化部4の内部構成を示している。
第3の実施の形態の場合のバンド間量子化誤差補正部4cとしても、先の高域補間部4aと同様に、圧縮符号復号化部4内において、ステレオ処理部12と適応ブロック長切換逆MDCT部13との間に対して設けられる。つまり、このバンド間量子化誤差補正部4cとしても、先の高域補間部4a、量子化誤差補正部4bと同様、ステレオ処理部12によって得られる、MDCT処理された直後に相当する状態に復元されたMDCT係数を入力して処理するようにされている。
なお、この場合も圧縮符号復号化部4内の他の構成については先の第1の実施の形態の場合と同様となることから、同一符号を付して説明を省略する。
FIG. 21 shows an internal configuration of the compression code decoding unit 4 shown in FIG.
Similarly to the high-frequency interpolation unit 4a, the interband quantization error correction unit 4c in the case of the third embodiment also includes the stereo processing unit 12 and the adaptive block length switching inverse in the compression code decoding unit 4. Provided with the MDCT unit 13. That is, the inter-band quantization error correction unit 4c is also restored to the state corresponding to the state immediately after the MDCT processing obtained by the stereo processing unit 12 as in the previous high-frequency interpolation unit 4a and quantization error correction unit 4b. The processed MDCT coefficients are input and processed.
In this case as well, the other components in the compression code decoding unit 4 are the same as those in the first embodiment, so the same reference numerals are given and the description thereof is omitted.
[バンド間の量子化誤差]
ここで、圧縮符号化処理に伴う音質劣化要因としては、これまでで説明してきた高域信号の欠落、量子化誤差による平坦化の他にも、割り当てビット数の削減に伴うバンド間の量子化誤差も挙げることができる。
[Quantization error between bands]
Here, the causes of sound quality degradation associated with compression coding include not only high-frequency signal loss and flattening due to quantization errors described above, but also inter-band quantization associated with a reduction in the number of allocated bits. An error can also be mentioned.
図22、図23は、このようなバンド間の量子化誤差について説明するための図である。
先ず、図22では、周波数軸上において、連続するスケールファクタバンド(fsb[n]、fsb[n+1])の一部のMDCT係数位置のみを抽出して示している。なお、この図では、横軸にMDCT係数番号をとり、図中左側が低域側、右側が高域側としている。
またこの図において、各MDCT係数位置に示す振幅値は、MDCT係数の値ではなく元データ(原信号)の値を示しているとする。
22 and 23 are diagrams for explaining such an inter-band quantization error.
First, in FIG. 22, only a part of MDCT coefficient positions of continuous scale factor bands (fsb [n], fsb [n + 1]) are extracted and shown on the frequency axis. In this figure, the horizontal axis indicates the MDCT coefficient number, and the left side in the figure is the low frequency side and the right side is the high frequency side.
In this figure, it is assumed that the amplitude value shown at each MDCT coefficient position indicates the value of the original data (original signal), not the value of the MDCT coefficient.
図示するようにして、連続するsfbのうち低域側のsfb[n]では、MDCT係数番号[1]の振幅が「12」、MDCT係数番号[2]の振幅が「17」、MDCT係数番号[3]の振幅が「11」である。
また、このsfb[n]の高域側に隣接するsfb[n+1]は、図示するようにしてMDCT係数番号[4]から始まる。従ってこのMDCT係数番号[4]がこれらsfb[n]とsfb[n+1]との境界部分となる。sfb[n+1]において、MDCT係数番号[4]の振幅は「8」、MDCT係数番号[5]の振幅は「10」、MDCT係数番号[6]の振幅は「13」、MDCT係数番号[7]の振幅は「18」であることが示されている。
As shown in the drawing, in the sfb [n] on the lower side of the continuous sfb, the amplitude of the MDCT coefficient number [1] is “12”, the amplitude of the MDCT coefficient number [2] is “17”, and the MDCT coefficient number The amplitude of [3] is “11”.
Further, sfb [n + 1] adjacent to the high frequency side of sfb [n] starts from the MDCT coefficient number [4] as shown in the figure. Therefore, the MDCT coefficient number [4] is a boundary portion between these sfb [n] and sfb [n + 1]. In sfb [n + 1], the amplitude of the MDCT coefficient number [4] is “8”, the amplitude of the MDCT coefficient number [5] is “10”, the amplitude of the MDCT coefficient number [6] is “13”, and the MDCT coefficient number [7] ] Is shown to be “18”.
図23は、図22に示したsfb[n]内のMDCT係数番号[1]〜[3]と、sfb[n+1]内のMDCT係数番号[4]〜[7]について、符号化時にそれぞれのsfbで設定された分解能の値により、元データに対する量子化前/後のデータ及び復号結果が変化する様子を表化して示した図である。
ここで、例えば高ビットレート(例えば512kbps)で圧縮された場合のcase:Aとして、図示するようにsfb[n]とsfb[n+1]とで同じ分解能=2が設定されていたとする。一方で、低ビットレート(例えば128kbps)で圧縮された場合のcase:Bとしては、sfb[n]で分解能=2、sfb[n+1]で分解能=5が設定されていたとする。
FIG. 23 shows the MDCT coefficient numbers [1] to [3] in sfb [n] and the MDCT coefficient numbers [4] to [7] in sfb [n + 1] shown in FIG. It is the figure which tabulated and showed a mode that the data before and after quantization with respect to the original data, and a decoding result change with the value of the resolution set by sfb.
Here, for example, suppose that the same resolution = 2 is set for sfb [n] and sfb [n + 1] as shown in the figure as case: A when compressed at a high bit rate (for example, 512 kbps). On the other hand, it is assumed that resolution: 2 is set for sfb [n] and resolution = 5 is set for sfb [n + 1] as case: B when compressed at a low bit rate (for example, 128 kbps).
sfb[n]・sfb[n+1]のバンド間の部分について着目すると、元データは、sfb[n]側のMDCT係数番号[3]の位置では「11」、sfb[n+1]側のMDCT係数番号[4]の位置では「8」となっている。
高ビットレートのcase:Aの場合、それぞれ同じ分解能=2であることから、sfb[n]側のMDCT係数番号[3]の位置、及びsfb[n+1]側のMDCT係数番号[4]の位置では、それぞれ上記の元データ「11」「8」がスケーリングされて「5.5」「4」という数値になり、これらが量子化により小数点以下が丸められて「5」「4」という数値になる。復号結果は、これら量子化後の値がそれぞれ分解能の値に基づき戻された「10」「8」という数値になる。
このように高ビットレートのcase:Aの場合、バンド間の振幅は元データ「11」「8」に対し復号結果「10」「8」であり、その量子化誤差は「1」となる。
Focusing on the portion between the bands of sfb [n] and sfb [n + 1], the original data is “11” at the position of the MDCT coefficient number [3] on the sfb [n] side, and the MDCT coefficient number on the sfb [n + 1] side. The position [4] is “8”.
In the case of high bit rate case A, the same resolution = 2, so the position of MDCT coefficient number [3] on the sfb [n] side and the position of MDCT coefficient number [4] on the sfb [n + 1] side Then, the original data “11” and “8” are respectively scaled to become numerical values “5.5” and “4”, and these are rounded to the numerical values “5” and “4” by rounding the decimal point by quantization. Become. The decoding result is a numerical value “10” or “8” in which these quantized values are returned based on the resolution values.
Thus, in case of high bit rate case A, the amplitude between the bands is the decoding results “10” and “8” with respect to the original data “11” and “8”, and the quantization error thereof is “1”.
これに対し、低ビットレートの場合のcase:Bでは、分解能がsfb間で2から5へと変化する。このため、分解能=5とされるfsb[n+1]側のMDCT係数番号[4]の位置では、case:Aと比較して量子化誤差が大きくなり、復号結果としては先のcase:Aでの「8」という数値に対し、図のように「5」に変化してしまう。すなわちcase:Aでバンド間の量子化誤差が「1」であったのに対し、case:Bではこれが増大化して「4」となってしまう。 On the other hand, in case: B in the case of a low bit rate, the resolution changes from 2 to 5 between sfb. For this reason, at the position of the MDCT coefficient number [4] on the fsb [n + 1] side where the resolution is 5, the quantization error is larger than the case: A, and the decoding result is the same as in the previous case: A. The numerical value “8” changes to “5” as shown in the figure. That is, the quantization error between bands in case: A was “1”, whereas in case: B, this increased to “4”.
低分解能により大きな量子化誤差が生じやすいことについては既に先の第2の実施の形態で述べたが、このようにバンド間に着目してみると、バンド間の分解能の差により、復号結果の波形の連続性が悪化する可能性が高くなる。このようにして、バンド間での大きな量子化誤差が不連続性を生じさせ、音質の劣化を助長することになる。 The fact that a large quantization error is likely to occur due to low resolution has already been described in the second embodiment. However, when attention is paid between the bands as described above, the decoding result is caused by the difference in resolution between the bands. The possibility that the continuity of the waveform deteriorates increases. In this way, a large quantization error between bands causes discontinuity and promotes deterioration of sound quality.
[バンド間の量子化誤差の補正]
そこで第3の実施の形態では、このようなバンド間での大きな量子化誤差を補正し、高音質化を図るものとしている。そのための構成として、先の図21(図20)に示したバンド間量子化誤差補正部4cを設けるものとしている。
[Correction of quantization error between bands]
Therefore, in the third embodiment, such a large quantization error between bands is corrected to achieve high sound quality. As a configuration for that purpose, the interband quantization error correction unit 4c shown in FIG. 21 (FIG. 20) is provided.
図24は、バンド間量子化誤差補正部4cの内部構成を示すブロック図である。
図示するようにして量子化誤差補正部4c内には、誤差境界抽出部51、置換判定部52、予測処理部53、置換部54が設けられる。
これら量子化誤差補正部4cを構成する各部のうち、置換判定部52、予測処理部53、置換部54に対しては、それぞれ図21に示されるステレオ処理部12から出力されるAAC1フレーム単位ごとのMDCT係数が入力される。
なお、この場合も予測処理部53では、上記ステレオ処理部12から供給される1フレーム分ごとのMDCT係数に基づき、圧縮符号化前の原信号を予測した予測信号を生成するが、このような第3の実施の形態での予測処理部53としても、先に説明したようなAACのMainプロファイルで規格化されている2次の後方適応格子型予測器を用いるものとしている。
FIG. 24 is a block diagram showing an internal configuration of the interband quantization error correction unit 4c.
As shown in the figure, in the quantization error correction unit 4c, an error boundary extraction unit 51, a replacement determination unit 52, a prediction processing unit 53, and a replacement unit 54 are provided.
Of the units constituting the quantization error correction unit 4c, the replacement determination unit 52, the prediction processing unit 53, and the replacement unit 54 are each AAC 1 frame unit output from the stereo processing unit 12 shown in FIG. MDCT coefficients are input.
In this case as well, the prediction processing unit 53 generates a prediction signal that predicts the original signal before compression encoding based on the MDCT coefficient for each frame supplied from the stereo processing unit 12. As the prediction processing unit 53 in the third embodiment, a second-order backward adaptive lattice predictor that is standardized by the AAC Main profile as described above is used.
先ず、誤差境界抽出部51には、図21に示されるフォーマット解析部10から供給されるsfbごとの分解能の情報が入力される。
誤差境界抽出部51では、このsfbごとの分解能の情報に基づき、それぞれで分解能の値が異なっている連続したバンド間の境界部分を検出(抽出)する。
ここで、第3の実施の形態の場合のバンド間量子化誤差の補正は、先の第2の実施の形態とは異なり帯域を限定せず、全体帯域を対象として補正動作を行う。このため誤差境界抽出部51では、1フレームを形成する全体帯域のsfbを対象として、連続したsfb間で分解能の値が異なっている境界部分を検出する。
誤差境界抽出部51は、検出した境界部分としてのMDCT係数位置の情報(MDCT係数番号情報)と、さらにそのMDCT係数位置が属するsfbの分解能の情報とを置換判定部52に対して供給する。
First, the error boundary extraction unit 51 receives resolution information for each sfb supplied from the format analysis unit 10 shown in FIG.
Based on the resolution information for each sfb, the error boundary extraction unit 51 detects (extracts) a boundary portion between consecutive bands having different resolution values.
Here, the correction of the interband quantization error in the case of the third embodiment is not limited to the band unlike the second embodiment, and the correction operation is performed for the entire band. For this reason, the error boundary extraction unit 51 detects a boundary portion in which the resolution value differs between consecutive sfb for the entire band sfb forming one frame.
The error boundary extraction unit 51 supplies information on the MDCT coefficient position (MDCT coefficient number information) as the detected boundary part and information on the resolution of the sfb to which the MDCT coefficient position belongs to the replacement determination unit 52.
置換判定部52は、上記誤差境界抽出部51により検出されたMDCT係数番号の情報と分解能の情報、及び上述のようにしてステレオ処理部12から供給されるMDCT係数、さらに予測処理部43で生成された予測信号に基づき、置換判定を行う。すなわち、上記誤差境界抽出部51からのMDCT係数番号によって特定されるMDCT係数位置における上記予測信号の値と上記MDCT係数の値と、さらにそのMDCT係数位置が属するsfbの分解能の情報とに基づき置換判定を行う。
具体的には、それらMDCT係数の値、予測信号の値、分解能の値について、予測信号の値が、[MDCT係数の値(絶対値)+分解能/n]以下となっているか否かを判別した結果に基づき、置換判定を行う。例えばこの場合もn=2として、予測信号の値が、[MDCT係数の値+分解能/2以下であるか否かを判別する。
予測信号の値がMDCT係数の値+分解能/2以下となっていないとした場合、そのMDCT係数位置については置換を行わないとの判定結果を示す判定信号を次の置換部54に対して供給する。一方、予測信号の値がMDCT係数の値+分解能/2以下となっているとした場合は、そのMDCT係数位置については置換を行うとの判定結果を示す判定信号を置換部54に対して供給する。
The replacement determination unit 52 generates the MDCT coefficient number information and resolution information detected by the error boundary extraction unit 51, the MDCT coefficients supplied from the stereo processing unit 12 as described above, and the prediction processing unit 43. A replacement determination is performed based on the predicted signal. That is, replacement is performed based on the value of the prediction signal at the MDCT coefficient position specified by the MDCT coefficient number from the error boundary extraction unit 51, the value of the MDCT coefficient, and the resolution information of the sfb to which the MDCT coefficient position belongs. Make a decision.
Specifically, with respect to the MDCT coefficient value, the predicted signal value, and the resolution value, it is determined whether or not the predicted signal value is equal to or less than [MDCT coefficient value (absolute value) + resolution / n]. Based on the result, replacement determination is performed. For example, also in this case, n = 2, and it is determined whether or not the value of the prediction signal is [MDCT coefficient value + resolution / 2 or less.
When the value of the prediction signal is not equal to or less than the value of the MDCT coefficient + resolution / 2, a determination signal indicating a determination result indicating that the MDCT coefficient position is not replaced is supplied to the next replacement unit 54. To do. On the other hand, when the value of the prediction signal is equal to or less than the value of the MDCT coefficient + resolution / 2, a determination signal indicating the determination result that the MDCT coefficient position is to be replaced is supplied to the replacement unit 54. To do.
置換部54は、ステレオ処理部12から供給される1フレーム分のMDCT係数と、上記置換判定部52からの判定信号と、さらに予測処理部53からの予測信号とに基づき、置換処理を行う。
具体的には、上記置換判定部52からの判定信号により置換を行うとの判定結果が示されたMDCT係数位置について、そのMDCT係数の値を予測信号の値で置換する。
この置換部54による置換処理が施された1フレーム分のMDCT係数が、先の図21に示した適応ブロック長切換逆MDCT部13に対して順次供給されることになる。
The replacement unit 54 performs replacement processing based on the MDCT coefficients for one frame supplied from the stereo processing unit 12, the determination signal from the replacement determination unit 52, and the prediction signal from the prediction processing unit 53.
Specifically, the value of the MDCT coefficient is replaced with the value of the prediction signal for the MDCT coefficient position where the determination result indicating that the replacement is performed by the determination signal from the replacement determination unit 52 is shown.
The MDCT coefficients for one frame subjected to the replacement processing by the replacement unit 54 are sequentially supplied to the adaptive block length switching inverse MDCT unit 13 shown in FIG.
上記のようにして第3の実施の形態では、所定の周波数バンド単位でビット数割り当てのための分解能を定める情報圧縮処理がされた圧縮符号化がされた音声信号(オーディオ信号)について、周波数軸上で分解能の値が異なっている連続した周波数バンド間の境界部分を検出し、その境界部分の振幅値を予測信号と比較した結果に基づいて予測信号の値で置換するものとしている。これによれば、割り当てビット数の差によってバンド間で大きな量子化誤差が生じてバンド間の連続性が損なわれた部分を適正に検出し、その部分の振幅値を予測信号に基づくより確からしい値で補正することができる。この結果、割り当てビット数の差に起因して生じるバンド間の不連続性による音質劣化を改善することができ、高音質化を図ることができる。 As described above, in the third embodiment, the frequency axis of the audio signal (audio signal) that has been compression-encoded and subjected to the information compression processing that determines the resolution for allocating the number of bits in a predetermined frequency band unit. The boundary portion between successive frequency bands having different resolution values is detected, and the amplitude value of the boundary portion is replaced with the predicted signal value based on the result of comparison with the predicted signal. According to this, a part in which a large quantization error occurs between bands due to the difference in the number of allocated bits and the continuity between the bands is impaired is properly detected, and the amplitude value of the part is more likely based on the prediction signal. The value can be corrected. As a result, it is possible to improve the sound quality deterioration due to the discontinuity between the bands caused by the difference in the number of assigned bits, and to improve the sound quality.
また、このような第3の実施の形態としての手法では、誤差が生じやすい部分を特定しその部分のみについて補正を行うものとなっているので、例えば従来のような全帯域の信号について一律に補正を行う場合のように、補正の必要の無い部分についてまで補正が行われてかえって音質の劣化を招くといった事態を回避することができる。なお、このことは先の第2の実施の形態についても同様である。 Further, in the method according to the third embodiment, a portion where an error is likely to occur is specified and only the portion is corrected. As in the case where correction is performed, it is possible to avoid a situation in which the correction is performed up to a portion where correction is not necessary, and the sound quality is deteriorated. This also applies to the second embodiment described above.
なお、ここまでの説明では、第3の実施の形態としてのバンド間量子化誤差の補正動作が、先の図24に示したようなハードウェア構成により実現される場合を例示したが、この第3の実施の形態の補正動作としても、先の各実施の形態の場合と同様にソフトウェア処理によって実現することもできる。すなわち、この場合もバンド間量子化誤差補正部4cを例えばCPUやメモリを備えた演算処理部で構成し、この演算処理部としてのバンド間量子化誤差補正部4cのソフトウェア処理により上述した第3の実施の形態としての補正動作を実現するものである。 In the description so far, the case where the correction operation of the interband quantization error as the third embodiment is realized by the hardware configuration as shown in FIG. The correction operation of the third embodiment can also be realized by software processing as in the previous embodiments. That is, also in this case, the interband quantization error correction unit 4c is configured by an arithmetic processing unit including, for example, a CPU and a memory, and the third processing described above is performed by software processing of the interband quantization error correction unit 4c as the arithmetic processing unit. The correction | amendment operation | movement as embodiment of this is implement | achieved.
この場合において実行されるべき処理動作を、次の図25のフローチャートに示す。
なお、この図に示す処理動作としても、上述のような演算処理部としてのバンド間量子化誤差補正部4cが例えば上記メモリ内に格納されるプログラムに従って実行するものである。
また、この場合も、演算処理部としてのバンド間量子化誤差補正部4cでは、この図に示す処理動作と並行してステレオ処理部12からのMDCT係数に基づき先の図17の説明に基づく予測処理を行って予測信号を生成する処理を行っているものとする。
The processing operation to be executed in this case is shown in the flowchart of FIG.
The processing operation shown in this figure is also executed by the interband quantization error correction unit 4c as the arithmetic processing unit as described above, for example, according to a program stored in the memory.
Also in this case, the interband quantization error correction unit 4c as the arithmetic processing unit predicts based on the MDCT coefficient from the stereo processing unit 12 in parallel with the processing operation shown in FIG. Assume that processing for generating a prediction signal is performed.
先ずステップS301では、バンドごとに分解能情報を取得する。すなわち、先の図21に示したフォーマット解析部10からのsfbごとの分解能の情報を取得する。 First, in step S301, resolution information is acquired for each band. That is, the resolution information for each sfb from the format analysis unit 10 shown in FIG. 21 is acquired.
続くステップS302では、分解能差バンド境界部分を抽出するための処理を行う。すなわち、上記ステップS301にて取得したバンドごとの分解能の情報に基づき、1フレームを形成する全sfbを対象として、それぞれで分解能の値が異なっている連続したsfb間の境界部分(MDCT係数位置)を検出する。 In subsequent step S302, processing for extracting a resolution difference band boundary portion is performed. That is, based on the resolution information for each band acquired in step S301, the boundary portion (MDCT coefficient position) between consecutive sfb having different resolution values for all sfb forming one frame. Is detected.
さらに、次のステップS303では、予測信号に基づき抽出部分ごとに置換判定を行う。
すなわち、上記ステップS302によって検出した境界部分としてのMDCT係数位置ごとに、MDCT係数の値、そのMDCT係数位置が属するsfbの分解能の値、予測信号の値に基づき置換判定を行う。具体的には、先にも述べたようにこれらMDCT係数の値、予測信号の値、分解能の値について、予測信号の値が、MDCT係数の値+分解能の値/2以下となっているか否かを判別した結果に基づき、置換判定を行う。
Furthermore, in the next step S303, replacement determination is performed for each extracted portion based on the prediction signal.
That is, for each MDCT coefficient position as the boundary portion detected in step S302, replacement determination is performed based on the value of the MDCT coefficient, the resolution value of the sfb to which the MDCT coefficient position belongs, and the value of the prediction signal. Specifically, as described above, regarding the MDCT coefficient value, the predicted signal value, and the resolution value, whether the predicted signal value is equal to or less than the MDCT coefficient value + resolution value / 2. Based on the determination result, replacement determination is performed.
その上で続くステップS304においては、要置換部分のMDCT係数を予測信号に基づき置換する処理を行う。すなわち、上記ステップS303の置換判定より、予測信号の値がMDCT係数の値+分解能の値/2以下となっていると判定したMDCT係数位置についてのみ、予測信号の値による置換を行う。
このステップS304を実行すると図示するようにして「RETURN」となる。なおこの図に示す処理動作としてもAAC1フレームごとに実行されるべきものである。
In the subsequent step S304, a process for replacing the MDCT coefficient of the required replacement portion based on the prediction signal is performed. In other words, only the MDCT coefficient position determined from the replacement determination in step S303 that the predicted signal value is equal to or less than the MDCT coefficient value + resolution value / 2 is replaced with the predicted signal value.
When this step S304 is executed, “RETURN” is obtained as shown in the figure. The processing operation shown in this figure should also be executed for each AAC1 frame.
ここで、第3の実施の形態においても、バンド間量子化誤差補正部4cが圧縮符号復号化部4内に設けられる場合を例示したが、この場合も例えば次の図26に示すようにして圧縮符号復号化部4の外部に対して設けることもできる。
すなわち、図示するようにしてこの場合の構成としては、先の図11に示した構成において高域補間部4aの代わりにバンド間量子化誤差補正部4cを設けたものに相当する。但し、バンド間量子化誤差補正部4cとしても、sfbごとの分解能の情報を用いるので、図中破線矢印により示されるようにしてフォーマット解析部10からのsfbごとの分解能の情報も入力する。
なお、この場合もバンド間量子化誤差補正部4cが行う動作は先に説明したものと同様となるため改めての説明は省略する。
Here, also in the third embodiment, the case where the interband quantization error correction unit 4c is provided in the compression code decoding unit 4 is exemplified, but in this case as well, for example, as shown in FIG. It can also be provided outside the compression code decoder 4.
That is, as shown in the figure, the configuration in this case corresponds to the configuration shown in FIG. 11 in which an interband quantization error correction unit 4c is provided instead of the high-frequency interpolation unit 4a. However, since the interband quantization error correction unit 4c also uses resolution information for each sfb, it also inputs resolution information for each sfb from the format analysis unit 10 as indicated by the broken line arrows in the figure.
In this case as well, the operation performed by the interband quantization error correction unit 4c is the same as that described above, and a description thereof will be omitted.
なお、この図26に示す変形例においても、先の第2の実施の形態の変形例の場合と同様に、各sfbにおいて最小の振幅値をそのsfbの分解能の値として検出する、或いは各sfbごとに頻発する振幅値をそのsfbの分解能の値として検出する等すれば、フォーマット解析部10からの分解能の情報を入力せずに境界部分の抽出動作、及び置換判定を行うことができる。 In the modified example shown in FIG. 26, as in the modified example of the second embodiment, the minimum amplitude value in each sfb is detected as the resolution value of the sfb, or each sfb If the amplitude value that occurs frequently every time is detected as the resolution value of the sfb, the boundary portion extraction operation and the replacement determination can be performed without inputting resolution information from the format analysis unit 10.
ここで、本発明のバンド間の量子化誤差補正としては、これまでに説明した第3の実施の形態としての具体例に限定されるべきものではない。
例えば、第3の実施の形態としても、予測信号の生成にあたっては2次の後方適応格子型による予測器を用いる例を挙げたが、この場合としても他の方式による予測器や、或いは補間多項式、多次元の近似式など多次元関数による予測処理で予測信号を生成することもできる。
Here, the inter-band quantization error correction of the present invention should not be limited to the specific example as the third embodiment described so far.
For example, in the third embodiment, an example in which a second-order backward adaptive grid type predictor is used for generating a prediction signal has been described. However, in this case also, a predictor using another method or an interpolation polynomial is used. In addition, a prediction signal can be generated by a prediction process using a multidimensional function such as a multidimensional approximate expression.
また、第3の実施の形態としても、置換の妥当性の判断基準として、検出された誤差候補部分の予測信号の値が、MDCT係数の値+分解能の値/2以下であるか否かを判別する場合を例示したが、この場合としても判断基準は少なくとも分解能/nとすればよい。但し、この場合としても量子化誤差の性質上、nの値としては、分解能/nの値を分解能の値未満とする値を選定すべきである。
また、置換の妥当性の判断としては、この場合も予測信号の値がMDCT係数の値±分解能の値/n以内であるか否かを判別するようにしてもよい。または、誤差候補部分の振幅値とその予測信号の値との差が、分解能/nであるか否か判別することもできる。
Also in the third embodiment, whether or not the value of the prediction signal of the detected error candidate portion is equal to or less than the value of the MDCT coefficient + the value of resolution / 2 is used as a criterion for determining the validity of replacement. Although the case of determination is illustrated, the determination criterion may be at least resolution / n even in this case. However, in this case as well, due to the nature of the quantization error, a value that makes the resolution / n value less than the resolution value should be selected as the value of n.
In this case as well, the validity of the replacement may be determined by determining whether the value of the prediction signal is within the value of the MDCT coefficient ± the value of resolution / n. Alternatively, it is possible to determine whether or not the difference between the amplitude value of the error candidate portion and the value of the predicted signal is resolution / n.
以上、本発明の各実施の形態について説明したが、本発明としてはこれまでに説明した具体例に限定されるべきものではない。
例えば、これまでの説明では、本発明が、記憶部2としての例えばHDDやフラッシュメモリ等に記憶される音声信号について再生を行う再生装置に適用される場合を例示したが、本発明としては、例えばMD(Mini Disc(登録商標))などの光磁気ディスクやCD(Compact Disc)、DVD(Digital Versatile Disc)などの光ディスクを記録媒体として用いる再生装置にも適用することができる。
また、このように記録媒体に記憶される音声信号について再生を行う場合以外にも、デジタルテレビジョン放送信号中に含まれる圧縮符号化音声信号について復号化処理を行う機能を有する各種の電子機器や、Webストリームデータ内に含まれる圧縮符号化音声信号について復号化処理を行う機能を有する各種の電子機器に対しても好適に適用することができる。
As mentioned above, although each embodiment of this invention was described, as this invention, it should not be limited to the specific example demonstrated so far.
For example, in the description so far, the case where the present invention is applied to a playback apparatus that plays back an audio signal stored in, for example, an HDD or a flash memory as the storage unit 2 is exemplified. For example, the present invention can also be applied to a reproducing apparatus that uses a magneto-optical disk such as MD (Mini Disc (registered trademark)) or an optical disk such as CD (Compact Disc) or DVD (Digital Versatile Disc) as a recording medium.
In addition to the case where the audio signal stored in the recording medium is reproduced as described above, various electronic devices having a function of performing the decoding process on the compressed encoded audio signal included in the digital television broadcast signal, The present invention can also be suitably applied to various electronic devices having a function of performing a decoding process on a compression-encoded audio signal included in Web stream data.
また、これまでの説明では、本発明がLch(チャンネル)/Rchの2chオーディオ信号に対応する構成を例示したが、例えば5.1chなどのマルチchオーディオ信号、或いはモノラルオーディオ信号について高音質化のための処理を行う場合にも本発明は好適に適用できる。 In the description so far, the present invention exemplifies the configuration corresponding to the Lch (channel) / Rch 2ch audio signal. For example, a multi-ch audio signal such as 5.1ch or a monaural audio signal is improved in sound quality. The present invention can also be suitably applied to the processing for this.
また、これまでの説明では、本発明がAAC方式により圧縮符号化がされた音声信号(オーディオ信号)について補正処理を行う場合についてのみ説明したが、他の音声圧縮符号化方式で符号化された音声信号について高音質化のための処理を行う場合にも本発明は好適に適用することができる。 In the above description, only the case where the present invention performs the correction process on the audio signal (audio signal) that has been compression-encoded by the AAC method has been described. However, the audio signal was encoded by another audio compression-encoding method. The present invention can also be suitably applied to processing for improving the sound quality of an audio signal.
1,40,50 再生装置、2 記憶部、3 復調部、4 圧縮符号復号化部、4a 高域補間部、5 DSP、6 バス、7 システムコントローラ、8 操作部、9 表示部、10 フォーマット解析部、11 逆量子化処理部、11a ハフマン符号化部、11b 逆量子化部、11c リスケーリング部、12 ステレオ処理部、12a M/Sステレオ処理部、12b 予測処理部、12c インテンシティ・ステレオ処理部、12d TNS部、13 適応ブロック長切換逆MDCT部、14 ゲイン制御部、21 Peak検出部、22 自己相関計算部、23 相関最大シフト量検出部、24 Rate計算部、25 高域信号追加部、26 補間判定部、30 MDCT変換部、31 逆MDCT変換部、41 平坦化部分抽出部、42,52 置換判定部、43,53 予測処理部、44,54 置換部、51 誤差境界抽出部 1,40,50 playback device, 2 storage unit, 3 demodulation unit, 4 compression code decoding unit, 4a high frequency interpolation unit, 5 DSP, 6 bus, 7 system controller, 8 operation unit, 9 display unit, 10 format analysis 11, 11 inverse quantization processing unit, 11a Huffman coding unit, 11b inverse quantization unit, 11c rescaling unit, 12 stereo processing unit, 12a M / S stereo processing unit, 12b prediction processing unit, 12c intensity stereo processing Unit, 12d TNS unit, 13 adaptive block length switching inverse MDCT unit, 14 gain control unit, 21 Peak detection unit, 22 autocorrelation calculation unit, 23 correlation maximum shift amount detection unit, 24 Rate calculation unit, 25 high frequency signal addition unit 26 Interpolation determination unit, 30 MDCT conversion unit, 31 Inverse MDCT conversion unit, 41 Flattened part extraction unit, 42, 52 Determination unit, 43,53 Prediction processing unit, 44,54 replacement unit, 51 Error boundary extraction unit
Claims (28)
上記自己相関計算の結果に基づき、相関性が最も高くなるときの相関最大シフト量を求めるシフト量検出手段と、
上記所定の周波数以上の帯域において、上記シフト量検出手段により求められた上記相関最大シフト量に基づく分だけ離間した各周波数ポイントでの各振幅値の比率を計算する比率計算手段と、
上記所定の周波数以上の帯域内で信号が欠落している各補間対象周波数ポイントの振幅値を、それら各補間対象周波数ポイントから上記相関最大シフト量に基づく分だけ離間した周波数ポイントにおける振幅値と上記比率とに基づき計算した値で補間する補間手段と、
を備えることを特徴とする信号処理装置。 Correlation calculation means for performing autocorrelation calculation when the self-signal is sequentially shifted with respect to the self-signal with respect to a signal in a band of a predetermined frequency or higher in the audio signal subjected to predetermined information compression processing;
Based on the result of the autocorrelation calculation, a shift amount detecting means for obtaining a maximum correlation shift amount when the correlation is highest,
A ratio calculation means for calculating a ratio of each amplitude value at each frequency point separated by an amount based on the correlation maximum shift amount obtained by the shift amount detection means in a band of the predetermined frequency or higher;
The amplitude value of each frequency point to be interpolated in which a signal is missing in a band equal to or higher than the predetermined frequency, and the amplitude value at a frequency point that is separated from each frequency point to be interpolated by an amount based on the maximum correlation shift amount An interpolation means for interpolating with a value calculated based on the ratio;
A signal processing apparatus comprising:
上記所定の周波数以上の帯域をn個の周波数ポイントを含む分割バンド単位で区切ったときの、各分割バンド内での振幅値のピーク値をそれぞれ検出した上で、それら各ピーク値を上記自己信号として自己相関計算を行う、
ことを特徴とする請求項1に記載の信号処理装置。 The correlation calculation means is
After detecting a peak value of an amplitude value in each divided band when a band of the predetermined frequency or higher is divided in units of divided bands including n frequency points, each peak value is detected by the self signal. Autocorrelation calculation as
The signal processing apparatus according to claim 1.
上記相関最大シフト量に基づく分だけ離間した複数組の各周波数ポイントでの各振幅値の比率を平均化して上記比率の値として算出する、
ことを特徴とする請求項1に記載の信号処理装置。 The ratio calculation means is
The ratio of each amplitude value at each frequency point of a plurality of sets separated by an amount based on the maximum correlation shift amount is averaged and calculated as the value of the ratio.
The signal processing apparatus according to claim 1.
ことを特徴とする請求項1に記載の信号処理装置。 The band above the predetermined frequency is a frequency band after the subband in which the bandwidth is constant among the subbands divided in the process of frequency correlation encoding by the AAC scheme.
The signal processing apparatus according to claim 1.
少なくとも上記補間手段は、
上記判定手段の判定の結果、上記原信号における上記所定の周波数以上の帯域に信号が存在したとされた場合にのみ補間動作を行うように構成される、
ことを特徴とする請求項1に記載の信号処理装置。 Furthermore, a determination means for determining whether or not a signal is present in a band of the predetermined frequency or higher in the original signal before encoding is provided,
At least the interpolation means
As a result of the determination by the determination means, an interpolation operation is performed only when a signal is present in the band of the predetermined frequency or higher in the original signal.
The signal processing apparatus according to claim 1.
上記相関計算手段による自己相関計算結果に基づいて上記原信号における上記所定の周波数以上の帯域に信号が存在したか否かについて判定する、
ことを特徴とする請求項5に記載の信号処理装置。 The determination means is
Based on the autocorrelation calculation result by the correlation calculation means, it is determined whether or not there is a signal in a band of the original signal above the predetermined frequency,
The signal processing apparatus according to claim 5.
上記自己相関計算の結果に基づき、相関性が最も高くなるときの相関最大シフト量を求めるシフト量検出手順と、
上記所定の周波数以上の帯域において、上記シフト量検出手順により求めた上記相関最大シフト量に基づく分だけ離間した各周波数ポイントでの各振幅値の比率を計算する比率計算手順と、
上記所定の周波数以上の帯域内で信号が欠落している各補間対象周波数ポイントの振幅値を、それら各補間対象周波数ポイントから上記相関最大シフト量に基づく分だけ離間した周波数ポイントにおける振幅値と上記比率とに基づき計算した値で補間する補間手順と、
を備えることを特徴とする信号処理方法。 A correlation calculation procedure for performing autocorrelation calculation when the self-signal is sequentially shifted with respect to the self-signal with respect to a signal of a band of a predetermined frequency or higher in the audio signal subjected to predetermined information compression processing;
Based on the result of the autocorrelation calculation, a shift amount detection procedure for obtaining a maximum correlation shift amount when the correlation is highest,
A ratio calculation procedure for calculating a ratio of each amplitude value at each frequency point separated by an amount based on the correlation maximum shift amount obtained by the shift amount detection procedure in a band of the predetermined frequency or higher;
The amplitude value of each frequency point to be interpolated in which a signal is missing in a band equal to or higher than the predetermined frequency, and the amplitude value at a frequency point that is separated from each frequency point to be interpolated by an amount based on the maximum correlation shift amount An interpolation procedure to interpolate with the value calculated based on the ratio;
A signal processing method comprising:
上記記録媒体からの読み出しを行って所定の情報圧縮処理がされたオーディオ信号を得るオーディオ信号取得手段と、
上記オーディオ信号取得手段により得られた上記オーディオ信号における所定の周波数以上の帯域の信号について、自己信号に対し自己信号を順次シフトさせていったときの自己相関計算を行う相関計算手段と、
上記自己相関計算の結果に基づき、相関性が最も高くなるときの相関最大シフト量を求めるシフト量検出手段と、
上記所定の周波数以上の帯域において、上記シフト量検出手段により求められた上記相関最大シフト量に基づく分だけ離間した各周波数ポイントでの各振幅値の比率を計算する比率計算手段と、
上記所定の周波数以上の帯域内で信号が欠落している各補間対象周波数ポイントの振幅値を、それら各補間対象周波数ポイントから上記相関最大シフト量に基づく分だけ離間した周波数ポイントにおける振幅値と上記比率とに基づき計算した値で補間する補間手段と、
を備えることを特徴とする再生装置。 A playback device for playing back at least an audio signal recorded on a recording medium,
Audio signal acquisition means for reading from the recording medium and obtaining an audio signal subjected to predetermined information compression processing;
Correlation calculation means for performing autocorrelation calculation when the self-signal is sequentially shifted with respect to the self-signal with respect to a signal in a band of a predetermined frequency or higher in the audio signal obtained by the audio signal acquisition means;
Based on the result of the autocorrelation calculation, a shift amount detecting means for obtaining a maximum correlation shift amount when the correlation is highest,
A ratio calculation means for calculating a ratio of each amplitude value at each frequency point separated by an amount based on the correlation maximum shift amount obtained by the shift amount detection means in a band of the predetermined frequency or higher;
The amplitude value of each frequency point to be interpolated in which a signal is missing in a band equal to or higher than the predetermined frequency, and the amplitude value at a frequency point that is separated from each frequency point to be interpolated by an amount based on the maximum correlation shift amount An interpolation means for interpolating with a value calculated based on the ratio;
A playback apparatus comprising:
上記記録媒体からの読み出しを行って所定の情報圧縮処理がされたオーディオ信号を得るオーディオ信号取得手順と、
上記オーディオ信号取得手順により得た上記オーディオ信号における所定の周波数以上の帯域の信号について、自己信号に対し自己信号を順次シフトさせていったときの自己相関計算を行う相関計算手順と、
上記自己相関計算の結果に基づき、相関性が最も高くなるときの相関最大シフト量を求めるシフト量検出手順と、
上記所定の周波数以上の帯域において、上記シフト量検出手順により求めた上記相関最大シフト量に基づく分だけ離間した各周波数ポイントでの各振幅値の比率を計算する比率計算手順と、
上記所定の周波数以上の帯域内で信号が欠落している各補間対象周波数ポイントの振幅値を、それら各補間対象周波数ポイントから上記相関最大シフト量に基づく分だけ離間した周波数ポイントにおける振幅値と上記比率とに基づき計算した値で補間する補間手順と、
を備えることを特徴とする再生方法。 A reproduction method for reproducing at least an audio signal recorded on a recording medium,
An audio signal acquisition procedure for obtaining an audio signal that has been subjected to predetermined information compression processing by reading from the recording medium;
A correlation calculation procedure for performing autocorrelation calculation when the self-signal is sequentially shifted with respect to the self-signal with respect to a signal in a band of a predetermined frequency or higher in the audio signal obtained by the audio signal acquisition procedure;
Based on the result of the autocorrelation calculation, a shift amount detection procedure for obtaining a maximum correlation shift amount when the correlation is highest,
A ratio calculation procedure for calculating a ratio of each amplitude value at each frequency point separated by an amount based on the correlation maximum shift amount obtained by the shift amount detection procedure in a band of the predetermined frequency or higher;
The amplitude value of each frequency point to be interpolated in which a signal is missing in a band equal to or higher than the predetermined frequency, and the amplitude value at a frequency point that is separated from each frequency point to be interpolated by an amount based on the maximum correlation shift amount An interpolation procedure to interpolate with the value calculated based on the ratio;
A playback method comprising:
上記取得手段により取得されたオーディオ信号における所定の周波数以上の帯域の信号について、自己信号に対し自己信号を順次シフトさせていったときの自己相関計算を行う相関計算手段と、
上記自己相関計算の結果に基づき、相関性が最も高くなるときの相関最大シフト量を求めるシフト量検出手段と、
上記所定の周波数以上の帯域において、上記シフト量検出手段により求められた上記相関最大シフト量に基づく分だけ離間した各周波数ポイントでの各振幅値の比率を計算する比率計算手段と、
上記所定の周波数以上の帯域内で信号が欠落している各補間対象周波数ポイントの振幅値を、それら各補間対象周波数ポイントから上記相関最大シフト量に基づく分だけ離間した周波数ポイントにおける振幅値と上記比率とに基づき計算した値で補間する補間手段と、
を備えることを特徴とする電子機器。 Obtaining means for obtaining an audio signal subjected to predetermined information compression processing;
Correlation calculation means for performing autocorrelation calculation when the self-signal is sequentially shifted with respect to the self-signal with respect to a signal having a band of a predetermined frequency or higher in the audio signal acquired by the acquisition means;
Based on the result of the autocorrelation calculation, a shift amount detecting means for obtaining a maximum correlation shift amount when the correlation is highest,
A ratio calculation means for calculating a ratio of each amplitude value at each frequency point separated by an amount based on the correlation maximum shift amount obtained by the shift amount detection means in a band of the predetermined frequency or higher;
The amplitude value of each frequency point to be interpolated in which a signal is missing in a band equal to or higher than the predetermined frequency, and the amplitude value at a frequency point that is separated from each frequency point to be interpolated by an amount based on the maximum correlation shift amount An interpolation means for interpolating with a value calculated based on the ratio;
An electronic device comprising:
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手段と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする信号処理装置。 Prediction signal generation means for generating a prediction signal obtained by predicting an original signal before compression for an audio signal subjected to predetermined information compression processing;
With respect to the audio signal, an error candidate part detecting means for detecting, as an error candidate part, a part whose amplitude value is a predetermined value on the frequency axis;
Substitution means for replacing the amplitude value of the error candidate part based on the value of the prediction signal based on the result of comparing the amplitude value in the error candidate part and the value of the prediction signal;
A signal processing apparatus comprising:
上記情報圧縮処理の際に設定された分解能の値に基づいて上記誤差候補部分の振幅値と予測信号の値とを比較した結果に基づき、その誤差候補部分の振幅値を上記予測信号の値に基づき置換する、
ことを特徴とする請求項11に記載の信号処理装置。 The replacement means is:
Based on the result of comparing the amplitude value of the error candidate portion with the value of the prediction signal based on the resolution value set at the time of the information compression process, the amplitude value of the error candidate portion is changed to the value of the prediction signal. Replace based on,
The signal processing apparatus according to claim 11.
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手順と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手順と、
を備えることを特徴とする信号処理方法。 A prediction signal generation procedure for generating a prediction signal obtained by predicting an original signal before compression for an audio signal subjected to predetermined information compression processing;
For the audio signal, an error candidate part detection procedure for detecting, as an error candidate part, a part whose amplitude value is a predetermined value on the frequency axis;
A replacement procedure for replacing the amplitude value of the error candidate part based on the value of the prediction signal based on the result of comparing the amplitude value in the error candidate part and the value of the prediction signal;
A signal processing method comprising:
上記記録媒体からの読み出しを行って所定の情報圧縮処理がされたオーディオ信号を得るオーディオ信号取得手段と、
上記オーディオ信号取得手段により得られた上記オーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手段と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする再生装置。 A playback device for playing back at least an audio signal recorded on a recording medium,
Audio signal acquisition means for reading from the recording medium and obtaining an audio signal subjected to predetermined information compression processing;
About the audio signal obtained by the audio signal acquisition means, a prediction signal generation means for generating a prediction signal obtained by predicting the original signal before compression;
With respect to the audio signal, an error candidate part detecting means for detecting, as an error candidate part, a part whose amplitude value is a predetermined value on the frequency axis;
Substitution means for replacing the amplitude value of the error candidate part based on the value of the prediction signal based on the result of comparing the amplitude value in the error candidate part and the value of the prediction signal;
A playback apparatus comprising:
上記記録媒体からの読み出しを行って所定の情報圧縮処理がされたオーディオ信号を得るオーディオ信号取得手順と、
上記オーディオ信号取得手順により得た上記オーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手順と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手順と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手順と、
を備えることを特徴とする再生方法。 A reproduction method for reproducing at least an audio signal recorded on a recording medium,
An audio signal acquisition procedure for obtaining an audio signal that has been subjected to predetermined information compression processing by reading from the recording medium;
For the audio signal obtained by the audio signal acquisition procedure, a prediction signal generation procedure for generating a prediction signal predicting the original signal before compression;
For the audio signal, an error candidate part detection procedure for detecting, as an error candidate part, a part whose amplitude value is a predetermined value on the frequency axis;
A replacement procedure for replacing the amplitude value of the error candidate part based on the value of the prediction signal based on the result of comparing the amplitude value in the error candidate part and the value of the prediction signal;
A playback method comprising:
上記取得手段により取得されたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段と、
上記オーディオ信号について、周波数軸上で振幅値が所定の値となっている部分を誤差候補部分として検出する誤差候補部分検出手段と、
上記誤差候補部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記誤差候補部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする電子機器。 Obtaining means for obtaining an audio signal subjected to predetermined information compression processing;
For the audio signal acquired by the acquisition unit, a prediction signal generation unit that generates a prediction signal obtained by predicting the original signal before compression;
With respect to the audio signal, an error candidate part detecting means for detecting, as an error candidate part, a part whose amplitude value is a predetermined value on the frequency axis;
Substitution means for replacing the amplitude value of the error candidate part based on the value of the prediction signal based on the result of comparing the amplitude value in the error candidate part and the value of the prediction signal;
An electronic device comprising:
上記オーディオ信号について、それぞれ分解能の値が異なっている連続した周波数バンド間の境界部分を検出する境界部分検出手段と、
上記境界部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記境界部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする信号処理装置。 Prediction signal generation means for generating a prediction signal that predicts an original signal before compression of an audio signal that has been subjected to information compression processing that determines resolution for bit number allocation in a predetermined frequency band unit;
Boundary part detection means for detecting a boundary part between successive frequency bands having different resolution values for the audio signal,
A replacement means for replacing the amplitude value of the boundary portion based on the value of the prediction signal based on the result of comparing the amplitude value at the boundary portion and the value of the prediction signal;
A signal processing apparatus comprising:
上記境界部分が属する周波数バンドに設定された分解能値に基づいて上記境界部分の振幅値と予測信号の値とを比較した結果に基づき、上記境界部分の振幅値を上記予測信号の値に基づき置換する、
ことを特徴とする請求項21に記載の信号処理装置。 The replacement means is:
Based on the result of comparing the amplitude value of the boundary portion with the value of the prediction signal based on the resolution value set for the frequency band to which the boundary portion belongs, the amplitude value of the boundary portion is replaced based on the value of the prediction signal To
The signal processing apparatus according to claim 21, wherein:
上記オーディオ信号について、それぞれ分解能の値が異なっている連続した周波数バンド間の境界部分を検出する境界部分検出手順と、
上記境界部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記境界部分の振幅値を上記予測信号の値に基づき置換する置換手順と、
を備えることを特徴とする信号処理方法。 A prediction signal generation procedure for generating a prediction signal that predicts an original signal before compression of an audio signal that has been subjected to information compression processing that determines resolution for bit number allocation in a predetermined frequency band unit;
For the audio signal, a boundary part detection procedure for detecting a boundary part between successive frequency bands each having a different resolution value;
A replacement procedure for replacing the amplitude value of the boundary portion based on the value of the prediction signal based on the result of comparing the amplitude value at the boundary portion and the value of the prediction signal;
A signal processing method comprising:
上記記録媒体からの読み出しを行って、所定の周波数バンド単位でビット数割り当てのための分解能を定める情報圧縮処理がされたオーディオ信号を得るオーディオ信号取得手段と、
上記オーディオ信号取得手段により得られた上記オーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段と、
上記オーディオ信号について、それぞれ分解能の値が異なっている連続した周波数バンド間の境界部分を検出する境界部分検出手段と、
上記境界部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記境界部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする再生装置。 A playback device for playing back at least an audio signal recorded on a recording medium,
Audio signal acquisition means for performing reading from the recording medium and obtaining an audio signal subjected to information compression processing for determining a resolution for bit number allocation in a predetermined frequency band unit;
About the audio signal obtained by the audio signal acquisition means, a prediction signal generation means for generating a prediction signal obtained by predicting the original signal before compression;
Boundary part detection means for detecting a boundary part between successive frequency bands having different resolution values for the audio signal,
A replacement means for replacing the amplitude value of the boundary portion based on the value of the prediction signal based on the result of comparing the amplitude value at the boundary portion and the value of the prediction signal;
A playback apparatus comprising:
上記記録媒体からの読み出しを行って、所定の周波数バンド単位でビット数割り当てのための分解能を定める情報圧縮処理がされたオーディオ信号を得るオーディオ信号取得手順と、
上記オーディオ信号取得手順により得た上記オーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手順と、
上記オーディオ信号について、それぞれ分解能の値が異なっている連続した周波数バンド間の境界部分を検出する境界部分検出手順と、
上記境界部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記境界部分の振幅値を上記予測信号の値に基づき置換する置換手順と、
を備えることを特徴とする再生方法。 A reproduction method for reproducing at least an audio signal recorded on a recording medium,
An audio signal acquisition procedure for performing reading from the recording medium and obtaining an audio signal subjected to information compression processing for determining a resolution for bit number allocation in a predetermined frequency band unit;
For the audio signal obtained by the audio signal acquisition procedure, a prediction signal generation procedure for generating a prediction signal predicting the original signal before compression;
For the audio signal, a boundary part detection procedure for detecting a boundary part between successive frequency bands each having a different resolution value;
A replacement procedure for replacing the amplitude value of the boundary portion based on the value of the prediction signal based on the result of comparing the amplitude value at the boundary portion and the value of the prediction signal;
A playback method comprising:
上記取得手段により取得されたオーディオ信号について、その圧縮前の原信号を予測した予測信号を生成する予測信号生成手段と、
上記オーディオ信号について、それぞれ分解能の値が異なっている連続した周波数バンド間の境界部分を検出する境界部分検出手段と、
上記境界部分における振幅値と上記予測信号の値とを比較した結果に基づき、上記境界部分の振幅値を上記予測信号の値に基づき置換する置換手段と、
を備えることを特徴とする電子機器。 An acquisition means for acquiring an audio signal subjected to information compression processing for determining a resolution for bit number allocation in a predetermined frequency band unit;
For the audio signal acquired by the acquisition unit, a prediction signal generation unit that generates a prediction signal obtained by predicting the original signal before compression;
Boundary part detection means for detecting a boundary part between successive frequency bands having different resolution values for the audio signal,
A replacement means for replacing the amplitude value of the boundary portion based on the value of the prediction signal based on the result of comparing the amplitude value at the boundary portion and the value of the prediction signal;
An electronic device comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006347513A JP2008158301A (en) | 2006-12-25 | 2006-12-25 | Signal processing device, signal processing method, reproduction device, reproduction method and electronic equipment |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006347513A JP2008158301A (en) | 2006-12-25 | 2006-12-25 | Signal processing device, signal processing method, reproduction device, reproduction method and electronic equipment |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008158301A true JP2008158301A (en) | 2008-07-10 |
Family
ID=39659261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006347513A Pending JP2008158301A (en) | 2006-12-25 | 2006-12-25 | Signal processing device, signal processing method, reproduction device, reproduction method and electronic equipment |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008158301A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010277023A (en) * | 2009-06-01 | 2010-12-09 | Nippon Hoso Kyokai <Nhk> | Telephone voice section detector and program of the same |
JP5147851B2 (en) * | 2007-10-26 | 2013-02-20 | 株式会社ディーアンドエムホールディングス | Audio signal interpolation apparatus and audio signal interpolation method |
US9596542B2 (en) | 2012-04-16 | 2017-03-14 | Samsung Electronics Co., Ltd. | Apparatus and method with enhancement of sound quality |
JP2017142203A (en) * | 2016-02-12 | 2017-08-17 | 株式会社東京精密 | Optical encoder and method for determining origin thereof |
CN110730000A (en) * | 2018-07-17 | 2020-01-24 | 珠海格力电器股份有限公司 | Method and device for extracting key data from sampling data |
-
2006
- 2006-12-25 JP JP2006347513A patent/JP2008158301A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5147851B2 (en) * | 2007-10-26 | 2013-02-20 | 株式会社ディーアンドエムホールディングス | Audio signal interpolation apparatus and audio signal interpolation method |
JP2010277023A (en) * | 2009-06-01 | 2010-12-09 | Nippon Hoso Kyokai <Nhk> | Telephone voice section detector and program of the same |
US9596542B2 (en) | 2012-04-16 | 2017-03-14 | Samsung Electronics Co., Ltd. | Apparatus and method with enhancement of sound quality |
JP2017142203A (en) * | 2016-02-12 | 2017-08-17 | 株式会社東京精密 | Optical encoder and method for determining origin thereof |
CN110730000A (en) * | 2018-07-17 | 2020-01-24 | 珠海格力电器股份有限公司 | Method and device for extracting key data from sampling data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1715477B1 (en) | Low-bitrate encoding/decoding method and system | |
EP1334484B1 (en) | Enhancing the performance of coding systems that use high frequency reconstruction methods | |
JP3762579B2 (en) | Digital audio signal encoding apparatus, digital audio signal encoding method, and medium on which digital audio signal encoding program is recorded | |
KR101221918B1 (en) | A method and an apparatus for processing a signal | |
CN102203854B (en) | Signal clipping protection using pre-existing audio gain metadata | |
JP5841666B2 (en) | Prediction-based FM stereo noise reduction | |
US8355921B2 (en) | Method, apparatus and computer program product for providing improved audio processing | |
KR101967122B1 (en) | Signal processing apparatus and method, and program | |
JP6155274B2 (en) | Upsampling with oversampled SBR | |
JP4454664B2 (en) | Audio encoding apparatus and audio encoding method | |
US7466245B2 (en) | Digital signal processing apparatus, digital signal processing method, digital signal processing program, digital signal reproduction apparatus and digital signal reproduction method | |
JP2008107415A (en) | Coding device | |
JP6061121B2 (en) | Audio encoding apparatus, audio encoding method, and program | |
JP4021124B2 (en) | Digital acoustic signal encoding apparatus, method and recording medium | |
US6614365B2 (en) | Coding device and method, decoding device and method, and recording medium | |
JP2008158301A (en) | Signal processing device, signal processing method, reproduction device, reproduction method and electronic equipment | |
JP2004199075A (en) | Stereo audio encoding/decoding method and device capable of bit rate adjustment | |
JP2004184975A (en) | Audio decoding method and apparatus for reconstructing high-frequency component with less computation | |
JP4947145B2 (en) | Decoding device, decoding method, and program | |
JP2008158300A (en) | Signal processing device, signal processing method, reproduction device, reproduction method and electronic equipment | |
JP2008158302A (en) | Signal processing device, signal processing method, reproduction device, reproduction method and electronic equipment | |
CN101097716A (en) | Digital signal processing device, method and representing equipment | |
JP2005114813A (en) | Audio signal reproducing device and reproducing method | |
JP2008033211A (en) | Additional signal generation device, restoration device of signal converted signal, additional signal generation method, restoration method of signal converted signal, and additional signal generation program | |
JP4125520B2 (en) | Decoding method for transform-coded data and decoding device for transform-coded data |