JPH0766733A - Highly efficirent sound encoding device - Google Patents

Highly efficirent sound encoding device

Info

Publication number
JPH0766733A
JPH0766733A JP23239193A JP23239193A JPH0766733A JP H0766733 A JPH0766733 A JP H0766733A JP 23239193 A JP23239193 A JP 23239193A JP 23239193 A JP23239193 A JP 23239193A JP H0766733 A JPH0766733 A JP H0766733A
Authority
JP
Japan
Prior art keywords
segment
transient
detection
waveform
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP23239193A
Other languages
Japanese (ja)
Other versions
JP2917766B2 (en
Inventor
Norihiko Fuchigami
徳彦 渕上
Shoji Ueno
昭治 植野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP23239193A priority Critical patent/JP2917766B2/en
Publication of JPH0766733A publication Critical patent/JPH0766733A/en
Application granted granted Critical
Publication of JP2917766B2 publication Critical patent/JP2917766B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

PURPOSE:To provide a highly efficient sound encoding device capable of reducing the omission of detection or post detection of transient and suppressing the generation of a preecho. CONSTITUTION:A transient detecting part 2 prevents the generation of omission in the detection of a case that transient exists on the center position of a segment by comparing segment power P [i] with P[i-1] and P[i-4] for instance. When the segment power P[i] is compared with P[i-3] and P [i-4], the generation of misrecognition of transient in a long period steady waveform having a case partially reducing the segment power to an extremely small value some times can be prevented. An windowing/orthogonal transformation part 3 orthogonally transforms an audio signal in each sample by a DCT, FET or the like in accordance with reference frame length T or shortened frame length (T/4) based upon a detection flag (trans) detected from the detecting part 2 to divide the signal into plural sub-bands.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、オーディオ信号を有限
長のフレーム毎に符号化する音声高能率符号化装置に関
する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a high-efficiency speech coding apparatus for coding an audio signal for each finite length frame.

【0002】[0002]

【従来の技術】ミニディスク(MD)、デジタルコンパ
クトカセット(DCC)、カラオケCD等における音声
高能率符号化は、オーディオ信号のデータ量を圧縮する
ので音楽圧縮とも呼ばれている。このような符号化方式
では、オーディオ信号がデジタルフィルタまたは直交変
換により複数のサブバンドに分割され、周波数領域にお
ける聴覚心理分析に基づいてサブバンド毎の量子化ビッ
ト数が決定される。なお、以下の説明では「エンコー
ド」という用語を符号化の他に圧縮の意味で用いる場合
もある。
2. Description of the Related Art High-efficiency audio coding in a mini disc (MD), a digital compact cassette (DCC), a karaoke CD, etc. is called music compression because it compresses the data amount of an audio signal. In such an encoding method, an audio signal is divided into a plurality of subbands by a digital filter or orthogonal transformation, and the number of quantization bits for each subband is determined based on psychoacoustic analysis in the frequency domain. In the following description, the term “encode” may be used to mean compression in addition to encoding.

【0003】図6(a)〜(d)は周波数帯域を直交変
換により分割する例を示す。図6(a)はエンコードの
対象となる16ビットPCMオーディオ信号を512サ
ンプル分切り出したことを示し、ここでは図の長方形で
囲まれる全情報量が16ビット*512=8192ビッ
トとして説明する。もちろん、切り出されるサンプル数
やPCMのビット数はこの値に限定されない。
FIGS. 6A to 6D show an example in which a frequency band is divided by orthogonal transformation. FIG. 6A shows that the 16-bit PCM audio signal to be encoded is cut out by 512 samples, and here, the description will be made assuming that the total information amount enclosed by the rectangle in the figure is 16 bits * 512 = 8192 bits. Of course, the number of samples to be cut out and the number of PCM bits are not limited to this value.

【0004】図6(b)は図6(a)に示す信号をDC
T(離散コサイン変換)やFFT(高速フーリエ変換)
等の直交変換により周波数変換した信号を示し、図の曲
線が周波数スペクトルのエンベロープを示している。こ
こで、直交変換により情報量が保存されると仮定する
と、この全情報量も図の長方形領域で表現することがで
きる。一方、聴覚心理モデルによれば、図6(b)に示
す信号が存在したときに、その信号によりマスキングさ
れて聞こえなくなる信号レベルをカーブとして規定する
ことができ、これは一般にマスキング効果と言われる。
FIG. 6 (b) shows the DC signal shown in FIG. 6 (a).
T (discrete cosine transform) and FFT (fast Fourier transform)
Shows a signal frequency-converted by orthogonal transformation such as, and the curve in the figure shows the envelope of the frequency spectrum. Here, assuming that the amount of information is preserved by orthogonal transformation, this total amount of information can also be expressed by the rectangular area in the figure. On the other hand, according to the psychoacoustic model, when a signal shown in FIG. 6B is present, a signal level masked by the signal and inaudible can be defined as a curve, which is generally called a masking effect. .

【0005】図6(b)からマスキングカーブを描くと
図6(c)に示すように表すことができ、ここで、図6
(b)に示す信号を再量子化することを考慮すると、再
量子化により発生する量子化ノイズレベルがマスキング
カーブで規定されるレベル以下であれば、そのノイズは
人間の耳には聞こえないということができる。そこで、
図6(d)に示すようにスペクトルを複数データ毎にサ
ブバンドに分割し、各サブバンド毎の最大信号レベルを
Sとし、また、図6(c)から許容されるノイズレベル
をNとしてこのS/Nを満足するビット数で再量子化す
れば、そのときの量子化ノイズはマスキングされて聞こ
えない。
When a masking curve is drawn from FIG. 6B, it can be expressed as shown in FIG. 6C, where FIG.
Considering requantization of the signal shown in (b), if the quantization noise level generated by the requantization is equal to or lower than the level defined by the masking curve, the noise is inaudible to the human ear. be able to. Therefore,
As shown in FIG. 6 (d), the spectrum is divided into sub-bands for each plurality of data, the maximum signal level for each sub-band is S, and the noise level allowed from FIG. 6 (c) is N. If requantization is performed with the number of bits satisfying S / N, the quantization noise at that time is masked and cannot be heard.

【0006】図6(d)の矩形は圧縮時および伸長時に
必要な情報量を示し、特に図の中央の変形矩形は主情報
を、図の下側の細長い矩形は補助情報を示している。な
お、補助情報とはデコード時に必要な各サブバンドの最
大値(スケール値)と量子化ビット数を示す情報等であ
る。したがって、図6(d)において示される全情報量
は主情報量と補助情報量の和であり、図6(a)や図6
(b)における全情報量の数分の1になることが分か
る。したがて、図7に示すように以上の処理(ステップ
S1〜S6)を区間(この例では512サンプル区間)
毎に繰り返すことにより音質を殆ど劣化することなくエ
ンコードすることができる。
The rectangle in FIG. 6 (d) shows the amount of information required at the time of compression and decompression. In particular, the deformed rectangle in the center of the figure shows the main information, and the elongated rectangle at the bottom of the figure shows the auxiliary information. The auxiliary information is information indicating the maximum value (scale value) and the number of quantization bits of each subband necessary for decoding. Therefore, the total amount of information shown in FIG. 6D is the sum of the amount of main information and the amount of auxiliary information.
It can be seen that it is a fraction of the total amount of information in (b). Therefore, as shown in FIG. 7, the above-described processing (steps S1 to S6) is performed in a section (512 sample sections in this example).
By repeating every time, it is possible to encode with almost no deterioration in sound quality.

【0007】図8(a)および(b)はそれぞれ一般的
な音声高能率符号化および復号化装置を示す。図8
(a)に示す符号化装置では、例えば16ビットPCM
オーディオ信号がフレームバッファリング部1により保
持された後、窓掛け・直交変換部3により512サンプ
ル分切り出され、各サンプルのオーディオ信号がDCT
やFFT等により直交変換され、複数のサブバンドに分
割される。
FIGS. 8 (a) and 8 (b) respectively show a general voice efficient coding and decoding apparatus. Figure 8
In the encoding device shown in (a), for example, 16-bit PCM
After the audio signal is held by the frame buffering unit 1, 512 samples are cut out by the windowing / orthogonal transform unit 3, and the audio signal of each sample is DCT.
Orthogonal transform is performed by FFT or the like, and divided into a plurality of subbands.

【0008】そして、聴覚心理分析部4により各サブバ
ンドの量子化ビット数が決定され、量子化・符号化部5
はこの量子化ビット数で、直交変換部2により分割され
た各サブバンドのオーディオ信号を量子化および符号化
し、この量子化・符号化部4により量子化および符号化
されて圧縮されたデータと、聴覚心理分析部3により決
定された量子化ビット数はマルチプレックス部6により
多重化されて出力される。
Then, the psychoacoustic analysis unit 4 determines the number of quantization bits of each subband, and the quantization / encoding unit 5
Is quantized and encoded by this quantization bit number, the audio signal of each sub-band divided by the orthogonal transformation unit 2, and the data which is quantized and encoded by the quantization / encoding unit 4 and compressed. The quantized bit number determined by the psychoacoustic analysis unit 3 is multiplexed by the multiplex unit 6 and output.

【0009】図8(b)に示す復号化装置では、デマル
チプレックス部7により音声符号と量子化ビット数が分
離され、復号化・逆量子化部8により復号化された後音
声符号が量子化ビット数で逆量子化され、逆直交変換・
窓掛け部9とフレームバッファリング10により16ビ
ットPCMオーディオ信号として再生される。
In the decoding device shown in FIG. 8 (b), the demultiplexing unit 7 separates the speech code and the number of quantization bits, and the decoding / dequantization unit 8 decodes the speech code to quantize the speech code. Inverse quantization with the number of bits
A 16-bit PCM audio signal is reproduced by the window unit 9 and the frame buffering 10.

【0010】次に、実際のオーディオ信号の性質とその
信号をエンコードおよびデコードした結果との関係につ
いて説明する。図9はフレーム区間でほぼ定常な場合の
信号を示し、特に図9(a)は原波形を、図9(b)は
エンコードおよびデコード後の波形(以下、簡単に「処
理波形」という。)を示し、両信号は前述したように聴
覚心理に従って処理を行った場合には聴覚上の差は殆ど
ないと言える。
Next, the relationship between the nature of the actual audio signal and the result of encoding and decoding the signal will be described. 9A and 9B show signals in the case of being almost stationary in the frame section. In particular, FIG. 9A shows the original waveform, and FIG. 9B shows the waveform after encoding and decoding (hereinafter simply referred to as "process waveform"). It can be said that there is almost no difference in hearing when both signals are processed according to the psychology of hearing as described above.

【0011】他方、図10(a)(b)はそれぞれ、フ
レーム区間内で振幅(パワー)が急峻に立ち上がるよう
な非定常な信号の原波形、処理波形を示し、図10
(b)から明らかなようにパワーが立ち上がる前に原波
形を大きく上回るノイズ成分Nが出現している。このよ
うなノイズNは一般にプリエコーと呼ばれており、立ち
上がりより約1〜3msec以上遡るノイズは、信号の立
ち上がりに付帯するノイズエコーとして検知される。
On the other hand, FIGS. 10A and 10B respectively show an original waveform and a processed waveform of a non-stationary signal whose amplitude (power) rises sharply in a frame section.
As is clear from (b), the noise component N that greatly exceeds the original waveform appears before the power rises. Such noise N is generally called a pre-echo, and noise that goes back about 1 to 3 msec or more from the rising edge is detected as a noise echo incidental to the rising edge of the signal.

【0012】このノイズの原因は、フレームによる分析
区間よりも信号パワーの変化の区間の方が短いためであ
る。また、フレームのエンコード処理により発生する量
子化ノイズは図6(c)に示すような周波数−振幅特性
を有するが、周波数−位相特性についてはランダムにな
り、したがって、処理波形上に発生する時間領域での量
子化ノイズはフレーム内に一様に(定常的に)分布する
ので、図10(b)に示すように元々信号振幅が小さか
った領域にも大振幅領域に影響された大きなノイズNが
出現することになる。なお、信号パワーの急峻な立ち下
がりの後にも同様な理由によりノイズが出現するが、こ
の場合には先行する大きな信号が聴覚機構内に発生する
刺激の余韻が比較的長時間(10〜20msec)持続す
るので検知されにくい。
The cause of this noise is that the signal power change section is shorter than the frame analysis section. Further, the quantization noise generated by the frame encoding process has a frequency-amplitude characteristic as shown in FIG. 6C, but the frequency-phase characteristic is random, and therefore, the time domain generated on the processed waveform is generated. Since the quantization noise in (1) is uniformly (steadily) distributed in the frame, a large noise N affected by the large amplitude area is originally generated in the area where the signal amplitude is small as shown in FIG. Will appear. Note that noise appears even after the sharp fall of the signal power for the same reason, but in this case, the afterglow of the stimulus generated by the preceding large signal in the auditory mechanism is relatively long (10 to 20 msec). It is persistent and difficult to detect.

【0013】このようなプリエコーの対策としては、フ
レーム長を短縮する、すなわち処理の時間分解能を向上
させることが最も有効である。例えば直交変換を用いて
サブバンドに分割する場合には図11に示すように変換
の際のフレーム長を標準長Tより1/4等に短縮して4
回の変換を行うことにより時間分解能を4倍にすること
ができる。その結果、非定常波形に起因するノイズがよ
り短い区間に閉じ込められるのでプリエコーが減衰す
る。
As a countermeasure against such a pre-echo, it is most effective to reduce the frame length, that is, to improve the time resolution of processing. For example, when dividing into subbands using orthogonal transformation, the frame length at the time of transformation is shortened from the standard length T to ¼ or the like as shown in FIG.
The time resolution can be quadrupled by performing the conversion once. As a result, the noise due to the unsteady waveform is confined in a shorter section, and the pre-echo is attenuated.

【0014】図12は図10(a)に示す原波形を1/
4のフレーム長で処理した波形を示し、図10(b)に
示す処理波形よりプリエコーが減衰していることが分か
る。また、サブバンド分割に直交変換を用いない場合に
は、各サブバンドの時間領域のサンプル(時間波形)を
より短い区間毎に量子化することにより同様な効果が得
られる。
FIG. 12 shows the original waveform shown in FIG.
A waveform processed with a frame length of 4 is shown, and it can be seen from the processed waveform shown in FIG. 10B that the pre-echo is attenuated. When orthogonal transformation is not used for subband division, the same effect can be obtained by quantizing the time domain samples (time waveforms) of each subband for each shorter section.

【0015】このようなプリエコーの対策でポイントと
なるのは、波形の非定常性(=パワーの急峻な立ち上が
り)を如何に正確に検出するかであり、この検出を以下
では「トランジェント検出」と呼ぶことする。ここで、
一般にフレーム長を短縮すると図6(d)において説明
したフレーム単位の補助情報量が主情報量より相対的に
多くなるので、主情報に割り当てられる情報量が減少す
る。また、直交変換を用いた場合には、フレーム長を短
縮すると周波数分解能が劣化するので聴覚心理の適用精
度が劣化する。したがって、定常な波形に対してはフレ
ーム長は長い程良く、したがって、トランジェント検出
が誤動作すると音質は一般に劣化する。
The point of countermeasures against such pre-echo is how to accurately detect the non-stationarity of the waveform (= steep rise of power). This detection will be referred to as "transient detection" below. To call. here,
Generally, when the frame length is shortened, the amount of auxiliary information in units of frame described in FIG. 6D becomes relatively larger than the amount of main information, so that the amount of information assigned to main information decreases. In the case of using the orthogonal transform, if the frame length is shortened, the frequency resolution deteriorates, and the accuracy of applying psychoacoustic sound deteriorates. Therefore, the longer the frame length is, the better for a steady waveform, and thus the sound quality is generally deteriorated when the transient detection malfunctions.

【0016】図13および図14を参照して従来のトラ
ンジェント検出方法について説明する。フレーム長とし
ては一般的には10〜20msec程度が選択されるが、
トランジェント検出では、フレームのサンプルを約1〜
3msecの短い例えばm個のセグメントに分割し、各セ
グメントiのトータルパワーP〔i〕を以下のように計
算する(ステップS11、S12)。
A conventional transient detection method will be described with reference to FIGS. 13 and 14. Generally, a frame length of about 10 to 20 msec is selected,
For transient detection, approximately 1 to
It is divided into, for example, m segments each having a short length of 3 msec, and the total power P [i] of each segment i is calculated as follows (steps S11 and S12).

【0017】[0017]

【数1】 [Equation 1]

【0018】トランジェントの判定は、図14に示すよ
うに、あるセグメントiと隣接するセグメント(i−
1)とのパワーの比を予め設定された判断基準値と比較
し、例えばi=0・・・m−1について
As shown in FIG. 14, the determination of transient is made by determining that a segment i and a segment (i-
The power ratio with 1) is compared with a preset judgment reference value, and for example, for i = 0 ... m-1

【0019】[0019]

【数2】 P〔i〕/P〔i−1〕>At (条件
1) 但し、Atは判断基準値 P〔−1〕は前フレームのP〔m−1〕
## EQU00002 ## P [i] / P [i-1]> At (Condition 1) where At is a criterion value P [-1] is P [m-1] of the previous frame

【0020】が1回でも成立する場合にそのフレーム内
にトランジェントがあるとして検出フラグtransを
セットする(ステップS13〜S17)。ここで、判断
基準値Atは一般的には図15(a)に示すように15
〜20dB程度が選択される。高能率符号化ではエンコ
ードおよびデコード後の平均S/N比は20〜30dB
程度であることが多いので、図10(a)に示すような
プリエコーの振幅がその領域の原波形の振幅と比較して
無視できなくなるレベルに判断基準値をとるのが妥当で
ある。図10(b)はプリエコーの振幅が無視できる場
合を示している。また、定常波形におけるセグメントの
パワー比の現れ方も参考にされる。
When is satisfied even once, it is determined that there is a transient in the frame, and the detection flag trans is set (steps S13 to S17). Here, the judgment reference value At is generally 15 as shown in FIG.
Approximately 20 dB is selected. In high efficiency coding, average S / N ratio after encoding and decoding is 20 to 30 dB
Since it is often a degree, it is appropriate to set the judgment reference value to a level at which the amplitude of the pre-echo as shown in FIG. 10A cannot be ignored compared with the amplitude of the original waveform in that region. FIG. 10B shows the case where the amplitude of the pre-echo can be ignored. The appearance of the power ratio of the segment in the steady waveform is also referred to.

【0021】[0021]

【発明が解決しようとする課題】しかしながら、上記従
来のトランジェント検出方法では次のような2つの問題
点がある。 (1)例えば図16に示すようにトランジェントがセグ
メントの丁度中央に位置する場合には検出漏れが発生す
る。この理由は、セグメントパワーが丁度2つのセグメ
ントで極大値に変化するので1つのセグメント当たりの
変化量が1/2になり、隣接セグメントとのパワーを比
較すると上記パワー比P〔i〕/P〔i−1〕が判断基
準値Atを超えないことがあるためであり、この場合に
は図17(a)(b)に示すように実際の波形と検出フ
ラグtransが異なることになる。
However, the above-mentioned conventional transient detection method has the following two problems. (1) For example, when the transient is located exactly in the center of the segment as shown in FIG. 16, detection omission occurs. The reason for this is that since the segment power changes to a maximum value in just two segments, the amount of change per segment is halved, and comparing the power with adjacent segments, the power ratio P [i] / P [ This is because i-1] may not exceed the determination reference value At, and in this case, the actual waveform and the detection flag trans are different as shown in FIGS.

【0022】(2)例えば図18に示すように長周期の
定常波形では、セグメントパワーが部分的に非常に小さ
くなる場合があり、この場合にはパワー比P〔i〕/P
〔i−1〕が判断基準値Atを超えるので、図19
(a)(b)に示すようにトランジェントと誤認するこ
とがある。したがって、従来のトランジェント検出方法
では、波形の性質によっては検出漏れや後検出が発生す
るという問題点がある。
(2) In a steady waveform having a long period as shown in FIG. 18, for example, the segment power may become extremely small in some cases. In this case, the power ratio P [i] / P
Since [i-1] exceeds the judgment reference value At, FIG.
It may be mistaken for a transient as shown in (a) and (b). Therefore, the conventional transient detection method has a problem that detection omission or post-detection may occur depending on the nature of the waveform.

【0023】本発明は上記従来の問題点に鑑み、トラン
ジェントの検出漏れや誤検出を低減してプリエコーを抑
圧することができる音声高能率符号化装置を提供するこ
とを目的とする。
In view of the above conventional problems, it is an object of the present invention to provide a high-efficiency speech coding apparatus capable of suppressing transient detection omission and false detection and suppressing pre-echo.

【0024】[0024]

【課題を解決するための手段】本発明は上記目的を達成
するために、トランジェントを検出する場合に当該セグ
メントと隣接セグメントおよび1以上離れたセグメント
の各パワー比を求めるようにしている。すなわち本発明
によれば、オーディオ信号を有限長のフレーム毎に処理
することにより符号化する音声高能率符号化装置におい
て、オーディオ信号を標準フレーム長より十分短いセグ
メント長の区間に分割して各セグメントのトータルパワ
ーを計算し、当該セグメントと隣接セグメントおよび1
以上離れたセグメントの各パワー比が所定値以上の場合
に標準フレーム長より短いフレーム長でオーディオ信号
が処理されるように制御する制御手段とを有することを
特徴とする音声高能率符号化装置が提供される。
SUMMARY OF THE INVENTION In order to achieve the above object, the present invention seeks the power ratios of a segment, an adjacent segment and a segment separated by one or more when a transient is detected. That is, according to the present invention, in a high-efficiency speech coding apparatus that encodes an audio signal by processing it for each frame of a finite length, the audio signal is divided into segments having a segment length sufficiently shorter than the standard frame length. Calculate the total power of the
A high-efficiency speech coding apparatus comprising: a control unit that controls an audio signal to be processed with a frame length shorter than a standard frame length when the power ratios of the segments separated from each other are equal to or more than a predetermined value. Provided.

【0025】[0025]

【作用】本発明では、当該セグメントと隣接セグメント
および1以上離れたセグメントの各パワー比が所定値以
上の場合にトランジェントとして検出される。したがっ
て、トランジェントがセグメントの中央に位置する場合
には1以上離れたセグメントとのパワー比が基準判断値
以上になり、したがって、検出漏れを防止することがで
きる。また。長周期の定常波形においてセグメントパワ
ーが部分的に非常に小さくなる場合には1以上離れたセ
グメントとのパワー比が基準判断値以下となり、したが
って、トランジェントと誤認することを防止することが
できる。
In the present invention, a transient is detected when the power ratios of the segment, the adjacent segment, and the segments separated by one or more are equal to or more than a predetermined value. Therefore, when the transient is located at the center of the segment, the power ratio with the segment separated by one or more becomes equal to or higher than the reference determination value, and therefore, detection omission can be prevented. Also. In the case where the segment power is extremely small partially in the long-cycle steady waveform, the power ratio with the segments separated by 1 or more becomes equal to or less than the reference determination value, and therefore, it is possible to prevent misidentification as a transient.

【0026】[0026]

【実施例】以下、図面を参照して本発明の実施例につい
て説明する。図1は本発明に係る音声高能率符号化装置
の一実施例を示すブロック図、図2は図1のトランジェ
ント検出部の比較対象セグメントを示す説明図、図3は
図1のトランジェント検出部のトランジェント検出処理
を説明するためのフローチャート、図4は非定常波形と
そのトランジェント検出フラグを示す説明図、図5は定
常波形とそのトランジェント検出フラグを示す説明図で
ある。
Embodiments of the present invention will be described below with reference to the drawings. 1 is a block diagram showing an embodiment of a high-efficiency speech coding apparatus according to the present invention, FIG. 2 is an explanatory diagram showing comparison target segments of the transient detection unit of FIG. 1, and FIG. 3 is a diagram of the transient detection unit of FIG. 4 is a flowchart for explaining the transient detection process, FIG. 4 is an explanatory diagram showing a non-stationary waveform and its transient detection flag, and FIG. 5 is an explanatory diagram showing a steady waveform and its transient detection flag.

【0027】図1において、例えば16ビットPCMオ
ーディオ信号がフレームバッファリング部1により保持
され、本実施例では、トランジェント検出部2はトラン
ジェントを検出する際のセグメントのパワーP〔i〕を
比較する場合に、隣接セグメント間に加えて1以上離れ
たセグメント間でも行い、例えば図2の実線に示すよう
にP〔i〕とP〔i−1〕およびP〔i〕とP〔i−
2〕を比較することにより、例えば図16に示すように
トランジェントがセグメントの丁度中央に位置する場合
の検出漏れを防止するようにしている。
In FIG. 1, for example, when a 16-bit PCM audio signal is held by the frame buffering unit 1, and in the present embodiment, the transient detecting unit 2 compares the power P [i] of the segments when detecting the transient. In addition to the operation between adjacent segments, the operation is also performed between segments separated by one or more. For example, P [i] and P [i-1] and P [i] and P [i-
By comparing [2], it is possible to prevent detection omission when the transient is located exactly in the center of the segment as shown in FIG.

【0028】[0028]

【数3】 (P〔i〕/P〔i−1〕>At) or (P〔i〕/P〔i−2〕>At)
(条件2)
(3) (P [i] / P [i-1]> At) or (P [i] / P [i-2]> At)
(Condition 2)

【0029】また、本実施例では、例えば図2の破線に
示すようにP〔i〕とP〔i−3〕およびP〔i〕とP
〔i−4〕を比較することにより、例えば図18に示す
ようにセグメントパワーが部分的に非常に小さくなる場
合がある長周期の定常波形におけるトランジェントの誤
認を防止するようにしている。
Further, in this embodiment, for example, as shown by the broken line in FIG. 2, P [i] and P [i-3] and P [i] and P
By comparing [i-4], for example, as shown in FIG. 18, it is possible to prevent the false recognition of a transient in a long-waveform stationary waveform in which the segment power may become extremely small partially.

【0030】[0030]

【数4】 (P〔i〕/P〔i−3〕>At2) and (P〔i〕/P〔i−4〕>At2)
(条件3) 但し、At2はAtと同一または異なる数値の判断基準
## EQU4 ## (P [i] / P [i-3]> At2) and (P [i] / P [i-4]> At2)
(Condition 3) However, At2 is a judgment reference value that is the same as or different from At.

【0031】窓掛け・直交変換部3は、フレームバッフ
ァリング部1からのPCMオーディオ信号を例えば51
2サンプル分切り出し、次いでトランジェント検出部2
からの検出フラグtransに基づいて図11(a)に
示すような標準フレーム長Tまたは図11(a)に示す
ような短縮フレーム長(T/4)で各サンプルのオーデ
ィオ信号をDCTやFFT等により直交変換し、複数の
サブバンドに分割する。
The windowing / orthogonal transformation unit 3 receives the PCM audio signal from the frame buffering unit 1 by, for example, 51
Cut out 2 samples, then transient detector 2
Based on the detection flag trans from the sampled audio signal of each sample with a standard frame length T as shown in FIG. 11A or a shortened frame length (T / 4) as shown in FIG. 11A. Then, it is orthogonally transformed and divided into a plurality of subbands.

【0032】また、聴覚心理分析部4により各サブバン
ドの量子化ビット数が決定され、量子化・符号化部5は
この量子化ビット数で、直交変換部2により分割された
各サブバンドのオーディオ信号を量子化および符号化す
る。この量子化・符号化部5により量子化および符号化
されて圧縮されたデータと、トランジェント検出部2に
より検出されたフラグtransと、聴覚心理分析部3
により決定された量子化ビット数はマルチプレックス部
6により多重化されて出力される。また、図示省略のデ
コーダでは、これらのデータが分離されて復号化され
る。
Further, the psychoacoustic analysis unit 4 determines the number of quantization bits of each subband, and the quantization / encoding unit 5 uses the number of quantization bits of each subband of the subbands divided by the orthogonal transform unit 2. Quantize and encode the audio signal. The data quantized and encoded by the quantization / encoding unit 5 and compressed, the flag trans detected by the transient detection unit 2, and the psychoacoustic analysis unit 3
The number of quantized bits determined by is multiplexed by the multiplex unit 6 and output. Further, in a decoder not shown, these data are separated and decoded.

【0033】図3を参照してトランジェント検出部3の
トランジェント検出処理を説明する。先ず、フレーム長
として10〜20msec程度が選択されている場合にフ
レームのサンプルを約1〜3msecの短い例えばm個の
セグメントに分割し、次いでトランジェント検出フラグ
transとセグメントのインデックスiをリセットす
るとともに前4個分のセグメントのトータルパワーP
〔−1〕〜P〔−4〕をロードし(ステップS21)、
次いで各セグメントiのトータルパワーP〔i〕を前述
した式(数1)に基づいて計算する(ステップS2
2)。
Transient detection processing of the transient detector 3 will be described with reference to FIG. First, when a frame length of about 10 to 20 msec is selected, the sample of the frame is divided into, for example, m segments having a short length of about 1 to 3 msec, and then the transient detection flag trans and the segment index i are reset and Total power P of 4 segments
[-1] to P [-4] are loaded (step S21),
Next, the total power P [i] of each segment i is calculated based on the above-mentioned formula (Equation 1) (step S2).
2).

【0034】次いで、条件(2)を満たすか否かを判別
し(ステップS23)、満たさない場合にはステップS
24、S25を経て、ステップS22から同様の処理を
繰り返す。そして、ステップS23において条件(2)
を満たす場合には条件(3)を満たすか否かを判別し
(ステップS26)、満たさない場合にはステップ2
4、S25を経て、ステップS22から同様の処理を繰
り返し、満たす場合には検出フラグtransをセット
し(ステップS27)、ステップS28に進む。全ての
iについてステップS27が実行されない場合にはtr
ansはセットされないままステップS28に進む。
Then, it is judged whether or not the condition (2) is satisfied (step S23).
After 24 and S25, the same processing is repeated from step S22. Then, in step S23, the condition (2)
When the conditions are satisfied, it is determined whether or not the condition (3) is satisfied (step S26), and when the conditions are not satisfied, the step 2 is performed.
After S4 and S25, the same processing is repeated from step S22. When the processing is satisfied, the detection flag trans is set (step S27), and the process proceeds to step S28. If step S27 is not executed for all i, tr
Ans is not set and the process proceeds to step S28.

【0035】したがって、上記実施例によれば、例えば
図2中の実線で示すようにP〔i〕とP〔i−1〕およ
びP〔i〕とP〔i−2〕を比較するので、図4に示す
ように非定常波形の場合の検出漏れを防止することがで
き、また、例えば図2中の破線で示すようにP〔i〕と
P〔i−3〕およびP〔i〕とP〔i−4〕を比較する
ので、図5に示すように長周期の定常波形におけるトラ
ンジェントの誤認を防止することができる。なお、サブ
バンド分割に直交変換を用いない場合には、各サブバン
ドの時間領域のサンプル(時間波形)をより短い区間毎
に量子化することにより短縮フレーム長の使用と同様な
効果を得ることができる。
Therefore, according to the above embodiment, for example, P [i] and P [i-1] and P [i] and P [i-2] are compared as shown by the solid line in FIG. As shown in FIG. 4, detection omission in the case of an unsteady waveform can be prevented, and, for example, as shown by the broken line in FIG. 2, P [i] and P [i-3] and P [i] Since P [i-4] is compared, it is possible to prevent erroneous recognition of transients in a long-period stationary waveform as shown in FIG. If the orthogonal transformation is not used for subband division, the same effect as the use of the shortened frame length can be obtained by quantizing the time domain samples (time waveforms) of each subband for each shorter section. You can

【0036】[0036]

【発明の効果】以上説明したように本発明によれば、当
該セグメントと隣接セグメントおよび1以上離れたセグ
メントの各パワー比が所定値以上の場合にトランジェン
トとして検出するので、トランジェントがセグメントの
中央に位置する場合には1以上離れたセグメントとのパ
ワー比が基準判断値以上になり、したがって、検出漏れ
を防止することができる。また、長周期の定常波形にお
いてセグメントパワーが部分的に非常に小さくなる場合
には1以上離れたセグメントとのパワー比が基準判断値
以下となり、したがって、トランジェントと誤認するこ
とを防止することができる。
As described above, according to the present invention, when the power ratios of the segment, the adjacent segment, and the segments separated by one or more are detected as a predetermined value or more, the transient is detected in the center of the segment. In the case of being located, the power ratio with the segment separated by 1 or more becomes equal to or higher than the reference judgment value, and therefore detection omission can be prevented. Further, in the case where the segment power becomes extremely small partially in the long-cycle steady waveform, the power ratio with the segments separated by 1 or more becomes equal to or less than the reference judgment value, and therefore it is possible to prevent misidentification as a transient. .

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明に係る音声高能率符号化装置の一実施例
を示すブロック図である。
FIG. 1 is a block diagram showing an embodiment of a high-efficiency speech coding apparatus according to the present invention.

【図2】図1のトランジェント検出部の比較対象セグメ
ントを示す説明図である。
FIG. 2 is an explanatory diagram showing a comparison target segment of the transient detection unit of FIG.

【図3】図1のトランジェント検出部のトランジェント
検出処理を説明するためのフローチャートである。
FIG. 3 is a flowchart for explaining a transient detection process of a transient detection unit in FIG.

【図4】非定常波形とそのトランジェント検出フラグを
示す説明図である。
FIG. 4 is an explanatory diagram showing an unsteady waveform and its transient detection flag.

【図5】定常波形とそのトランジェント検出フラグを示
す説明図である。
FIG. 5 is an explanatory diagram showing a steady waveform and its transient detection flag.

【図6】音声高能率符号化方法を模式的に示す説明図で
ある。
FIG. 6 is an explanatory diagram schematically showing a high-efficiency voice encoding method.

【図7】図6の音声高能率符号化処理を説明するための
フローチャートである。
FIG. 7 is a flowchart for explaining the high-efficiency speech coding processing of FIG.

【図8】一般的な音声高能率符号化および復号化装置を
示すブロック図である。
FIG. 8 is a block diagram showing a general voice efficient encoding and decoding device.

【図9】フレーム区間でほぼ正常な場合の原波形とその
エンコードおよびデコード後の波形を示す説明図であ
る。
FIG. 9 is an explanatory diagram showing an original waveform and a waveform after encoding and decoding when the frame section is almost normal.

【図10】フレーム区間内で振幅(パワー)が急峻に立
ち上がる非定常な信号の原波形とそのエンコードおよび
デコード後の波形を示す説明図である。
FIG. 10 is an explanatory diagram showing an original waveform of an unsteady signal whose amplitude (power) sharply rises within a frame section and its encoded and decoded waveforms.

【図11】標準フレーム長と短縮フレーム長を示す説明
図である。
FIG. 11 is an explanatory diagram showing a standard frame length and a shortened frame length.

【図12】図10(a)に示す原波形を1/4のフレー
ム長で処理した波形を示す説明図である。
12 is an explanatory diagram showing a waveform obtained by processing the original waveform shown in FIG. 10A with a frame length of ¼.

【図13】従来のトランジェント検出処理を説明するた
めのフローチャートである。
FIG. 13 is a flowchart illustrating a conventional transient detection process.

【図14】従来の比較対象セグメントを示す説明図であ
る。
FIG. 14 is an explanatory diagram showing a conventional comparison target segment.

【図15】従来のトランジェント検出の判断基準値を示
す説明図である。
FIG. 15 is an explanatory diagram showing a determination reference value for conventional transient detection.

【図16】トランジェントがセグメントの中央に位置す
る場合を示す説明図である。
FIG. 16 is an explanatory diagram showing a case where a transient is located at the center of a segment.

【図17】図16に示す場合の原波形とトランジェント
検出フラグを示す説明図である。
FIG. 17 is an explanatory diagram showing an original waveform and a transient detection flag in the case shown in FIG.

【図18】長周期の定常波形とそのセグメントパワーを
示す説明図である。
FIG. 18 is an explanatory diagram showing a long-cycle stationary waveform and its segment power.

【図19】図18に示す場合の原波形とトランジェント
検出フラグを示す説明図である。
FIG. 19 is an explanatory diagram showing an original waveform and a transient detection flag in the case shown in FIG. 18.

【符号の説明】[Explanation of symbols]

1 フレームバッファリング部 2 トランジェント検出部(制御手段) 3 窓掛け・直交変換部 4 聴覚心理分析部 5 量子化・符号化部 6 マルチプレックス部 1 Frame Buffering Section 2 Transient Detection Section (Control Means) 3 Windowing / Orthogonal Transformation Section 4 Auditory Psychological Analysis Section 5 Quantization / Coding Section 6 Multiplex Section

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 オーディオ信号を有限長のフレーム毎に
処理することにより符号化する音声高能率符号化装置に
おいて、 オーディオ信号を標準フレーム長より十分短いセグメン
ト長の区間に分割して各セグメントのトータルパワーを
計算し、当該セグメントと隣接セグメントおよび1以上
離れたセグメントの各パワー比が所定値以上の場合に標
準フレーム長より短いフレーム長でオーディオ信号が処
理されるように制御する制御手段とを有することを特徴
とする音声高能率符号化装置。
1. A high-efficiency speech coding apparatus for coding an audio signal by processing each frame of a finite length, dividing the audio signal into segments having a segment length sufficiently shorter than a standard frame length, and totaling each segment. And a control means for calculating the power and controlling so that the audio signal is processed with a frame length shorter than the standard frame length when the power ratio of the segment to the adjacent segment and the segment separated by one or more is a predetermined value or more. A high-efficiency speech coding apparatus characterized by the above.
JP23239193A 1993-08-25 1993-08-25 Highly efficient speech coding system Expired - Lifetime JP2917766B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23239193A JP2917766B2 (en) 1993-08-25 1993-08-25 Highly efficient speech coding system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23239193A JP2917766B2 (en) 1993-08-25 1993-08-25 Highly efficient speech coding system

Publications (2)

Publication Number Publication Date
JPH0766733A true JPH0766733A (en) 1995-03-10
JP2917766B2 JP2917766B2 (en) 1999-07-12

Family

ID=16938512

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23239193A Expired - Lifetime JP2917766B2 (en) 1993-08-25 1993-08-25 Highly efficient speech coding system

Country Status (1)

Country Link
JP (1) JP2917766B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0735699A2 (en) * 1995-03-30 1996-10-02 Nec Corporation Speech signal processing circuit for decoding coded speech signal and speech signal processing method therefor
WO2006008817A1 (en) 2004-07-22 2006-01-26 Fujitsu Limited Audio encoding apparatus and audio encoding method

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0735699A2 (en) * 1995-03-30 1996-10-02 Nec Corporation Speech signal processing circuit for decoding coded speech signal and speech signal processing method therefor
EP0735699A3 (en) * 1995-03-30 1998-06-24 Nec Corporation Speech signal processing circuit for decoding coded speech signal and speech signal processing method therefor
WO2006008817A1 (en) 2004-07-22 2006-01-26 Fujitsu Limited Audio encoding apparatus and audio encoding method
JPWO2006008817A1 (en) * 2004-07-22 2008-05-01 富士通株式会社 Audio encoding apparatus and audio encoding method
JP4533386B2 (en) * 2004-07-22 2010-09-01 富士通株式会社 Audio encoding apparatus and audio encoding method

Also Published As

Publication number Publication date
JP2917766B2 (en) 1999-07-12

Similar Documents

Publication Publication Date Title
KR100348368B1 (en) A digital acoustic signal coding apparatus, a method of coding a digital acoustic signal, and a recording medium for recording a program of coding the digital acoustic signal
EP0424161B1 (en) System for coding and decoding an orthogonally transformed audio signal
EP1998321B1 (en) Method and apparatus for encoding/decoding a digital signal
US5825320A (en) Gain control method for audio encoding device
KR102248008B1 (en) Companding apparatus and method to reduce quantization noise using advanced spectral extension
US20040181403A1 (en) Coding apparatus and method thereof for detecting audio signal transient
US10861475B2 (en) Signal-dependent companding system and method to reduce quantization noise
Sinha et al. Audio compression at low bit rates using a signal adaptive switched filterbank
JP2000134105A (en) Method for deciding and adapting block size used for audio conversion coding
US6772111B2 (en) Digital audio coding apparatus, method and computer readable medium
KR101655913B1 (en) Pre-echo attenuation in a digital audio signal
US7725323B2 (en) Device and process for encoding audio data
JP3088580B2 (en) Block size determination method for transform coding device.
JP2917766B2 (en) Highly efficient speech coding system
US7305346B2 (en) Audio processing method and audio processing apparatus
US11830507B2 (en) Coding dense transient events with companding
JPH113091A (en) Detection device of aural signal rise
JP2993324B2 (en) Highly efficient speech coding system
JP2002182695A (en) High-performance encoding method and apparatus
JP2000134106A (en) Method of discriminating and adapting block size in frequency region for audio conversion coding
JP2001077698A (en) Method for deciding block size with respect to audio encoding application
JPH0758643A (en) Efficient sound encoding and decoding device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990323

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090423

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090423

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100423

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110423

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120423

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120423

Year of fee payment: 13

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120423

Year of fee payment: 13

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120423

Year of fee payment: 13

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120423

Year of fee payment: 13

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140423

Year of fee payment: 15

EXPY Cancellation because of completion of term