JP5203077B2 - Speech coding apparatus and method, speech decoding apparatus and method, and speech bandwidth extension apparatus and method - Google Patents
Speech coding apparatus and method, speech decoding apparatus and method, and speech bandwidth extension apparatus and method Download PDFInfo
- Publication number
- JP5203077B2 JP5203077B2 JP2008183113A JP2008183113A JP5203077B2 JP 5203077 B2 JP5203077 B2 JP 5203077B2 JP 2008183113 A JP2008183113 A JP 2008183113A JP 2008183113 A JP2008183113 A JP 2008183113A JP 5203077 B2 JP5203077 B2 JP 5203077B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency spectrum
- spectrum
- high frequency
- shape
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本発明は、音声信号を符号化する音声符号化装置及び方法、符号化された信号を復号化する音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法に関する。 The present invention relates to a voice encoding apparatus and method for encoding a voice signal, a voice decoding apparatus and method for decoding a coded signal, and a voice band extending apparatus and method.
音声を低ビットレートに圧縮する音声符号化技術は、音声通信において、通信路の限られた伝送容量を有効に活用するために重要である。また、近年においては、音声通信の高品質化への要望が高まっており、それに対して、音声を高品質で伝送可能であるとともに人間の声以外の様々な周囲音、音楽をも伝送可能な音声符号化方式の研究開発が行われている。 A speech coding technique for compressing speech to a low bit rate is important for effectively utilizing a limited transmission capacity of a communication path in speech communication. In recent years, there has been an increasing demand for higher quality voice communication. In contrast, voice can be transmitted with high quality and various ambient sounds and music other than human voice can be transmitted. Research and development of speech coding methods is underway.
従来、携帯電話やVoIP(Voice over Internet Protocol)向けには、300Hz〜3.4kHzの狭帯域信号を4.75kbit/s〜64kbit/s程度の情報量で伝送可能な音声符号化方式であるAdaptive Multi Rate (AMR)、G.711、G.729等が用いられてきた。これに対し、7KHzまでの広帯域信号を、6.6kbit/s〜32kbit/s程度のビットレートで伝送可能なAMR-WB、G.722.1等の音声符号化方式が3GPP、ITU-Tで標準化されている。さらに、15kHz程度までの超広帯域信号を24kbps〜128kbps程度のビットレートで伝送可能な音声・音響符号化方式として、G.722.1C、AAC-LD等の方式がITU-T、MPEGで標準化されている。これらの超広帯域の符号化方式を用いることで、可聴周波数帯域に含まれるほぼ全ての周波数成分が伝送可能であるとともに、人間の声以外の様々な周囲音、音楽をも原音に近い品質で伝送可能であり、高品質の音声通信が可能となる。その反面、これらの方式では伝送に必要なビットレートが比較的高くなるという問題点がある。 Conventionally, for mobile phones and VoIP (Voice over Internet Protocol), Adaptive Multi Rate, an audio encoding method that can transmit narrowband signals of 300 Hz to 3.4 kHz with an information amount of about 4.75 kbit / s to 64 kbit / s. (AMR), G.711, G.729, and the like have been used. On the other hand, audio coding methods such as AMR-WB and G.722.1 that can transmit wideband signals up to 7KHz at a bit rate of about 6.6kbit / s to 32kbit / s have been standardized by 3GPP and ITU-T. Yes. In addition, G.722.1C, AAC-LD, etc. have been standardized by ITU-T and MPEG as voice / acoustic coding systems that can transmit ultra-wideband signals up to about 15 kHz at bit rates of 24 kbps to 128 kbps. Yes. By using these ultra-wideband coding methods, almost all frequency components included in the audible frequency band can be transmitted, and various ambient sounds and music other than human voice can be transmitted with quality close to the original sound. It is possible and high-quality voice communication is possible. On the other hand, these methods have a problem that the bit rate required for transmission becomes relatively high.
これに対し、周波数帯域の広い信号を低いビットレートで符号化する方法として、帯域拡張に基づく音声符号化方法が存在する。帯域拡張に基づく音声符号化方法の例は、特許文献1に記載されている。帯域拡張に基づく音声符号化方法では、QMF(Quadrature Mirror Filters)、FFT(Fast Fourier Transform)、MDCT(Modified Discrete Cosine Transform)などの変換領域で低域から高域へのスペクトル係数の複写を行った後、複写された係数のスペクトル包絡を調整することによって高品質の復号音声を得ることができる。この方法を利用した音声符号化方式においては、信号の高域スペクトルの微細構造に関する情報を伝送する必要がなく、スペクトルの概形のみを少ないビットレートで伝送すればよいため、符号化されたビットストリームの情報量を大幅に削減することができる。 On the other hand, as a method for encoding a signal having a wide frequency band at a low bit rate, there is a speech encoding method based on band expansion. An example of a speech encoding method based on band expansion is described in Patent Document 1. In the speech coding method based on bandwidth expansion, spectral coefficients were copied from low to high in transform regions such as QMF (Quadrature Mirror Filters), FFT (Fast Fourier Transform), and MDCT (Modified Discrete Cosine Transform). Later, high-quality decoded speech can be obtained by adjusting the spectral envelope of the copied coefficients. In a speech coding system using this method, it is not necessary to transmit information about the fine structure of the high-frequency spectrum of the signal, and only the outline of the spectrum needs to be transmitted at a low bit rate. The amount of stream information can be greatly reduced.
このように、帯域拡張技術は音声・音響符号化のビットレート削減のための有効な手段であるが、スペクトルを低域から高域へ複写することによって高域成分を生成すると、生成された高域成分と原音声の高域成分の間でのスペクトルの微細構造の不一致が復号音声の音質劣化につながる場合がある。複写されたスペクトルに対しては、通常、符号器から与えられる補助情報を用いてスペクトル包絡の調整が行われるが、包絡調整後も、スペクトルの微細構造の影響は依然として残る。スペクトルの微細構造の影響について、以下に例示する。 As described above, the band extension technology is an effective means for reducing the bit rate of speech / acoustic coding. However, when the high frequency component is generated by copying the spectrum from the low frequency to the high frequency, the generated high frequency is generated. Inconsistency in the fine structure of the spectrum between the high frequency component of the original component and the high frequency component may lead to deterioration of the sound quality of the decoded audio. For the copied spectrum, the spectral envelope is usually adjusted using auxiliary information given from the encoder, but the influence of the fine structure of the spectrum still remains after the envelope adjustment. The influence of the fine structure of the spectrum is illustrated below.
図1に、STFT(Short-time Fourier Transform)を用いて求めた音声信号のスペクトルの例を示す。およそ4kHzまでの低域においては、基本周波数の整数倍の位置に急峻なスペクトルのピークが現れることから、基本周波数の倍音系列からなるトーン性の成分が信号において支配的であることがわかる。それに対し、4kHz以上の高域においては周波数の増大に伴って次第にピークが弱くなり、トーン性を持たない雑音成分が支配的となってくることが観察できる。このように、音声では、高域ほど雑音成分が支配的になる傾向がある。 FIG. 1 shows an example of a spectrum of an audio signal obtained using STFT (Short-time Fourier Transform). In a low frequency range up to about 4 kHz, a steep spectral peak appears at a position that is an integral multiple of the fundamental frequency, so that it is understood that a tone component composed of harmonic series of the fundamental frequency is dominant in the signal. On the other hand, in the high region of 4 kHz or higher, it can be observed that the peak gradually weakens as the frequency increases, and the noise component having no tone property becomes dominant. Thus, in the voice, the noise component tends to be dominant as the frequency increases.
図1に示す信号に対し、低域から高域へスペクトルの複写を行った後、スペクトル包絡の調整を行った結果の例を図2に示す。図2のスペクトルは大域的な包絡は図1に近いものの、高域スペクトルのピーク・ディップの形状が図1と大きく異なり、スペクトルの微細構造が原信号と大きく異なることがわかる。 FIG. 2 shows an example of the result of adjusting the spectral envelope after copying the spectrum from the low frequency to the high frequency for the signal shown in FIG. Although the spectrum of FIG. 2 has a global envelope similar to that of FIG. 1, the peak dip shape of the high-frequency spectrum is significantly different from that of FIG. 1, and the fine structure of the spectrum is greatly different from that of the original signal.
以上の例に示した微細構造の差は、主観的な音声品質に悪影響を及ぼす。すなわち、スペクトル包絡の調整のみを行った帯域拡張音声を聴取した際には、高域スペクトルの微細構造の差により、原音声と異なる不自然な音色が知覚される。例えば音声では、前述の通り高域ほど雑音成分が支配的になるため、帯域拡張技術によって生成された高域成分と原信号の間の微細構造の不一致による不快な金属的音色がしばしば復号音声に現れる。 The difference in the fine structure shown in the above examples has an adverse effect on subjective speech quality. In other words, when listening to band-expanded speech in which only the spectral envelope has been adjusted, an unnatural timbre different from the original speech is perceived due to the difference in the fine structure of the high-frequency spectrum. For example, in speech, the noise component becomes dominant at higher frequencies as described above, so unpleasant metallic tone due to the mismatch of the fine structure between the high frequency component generated by the band extension technique and the original signal is often found in the decoded speech. appear.
そこで、一部の帯域拡張技術では、複写によって生成された高域スペクトルに対して微細構造の調整を行う。スペクトル微細構造の調整方法として、低域スペクトルの振幅を一様に制限した後に高域へ複写する方法が特許文献2で開示されている。
しかし、特許文献2で開示された方法によれば、低域スペクトルの複写によって生成される高域スペクトル全体の微細構造を一様に調整するため、原信号のスペクトルの微細構造が周波数に依存して様々に変化する場合であっても、生成される高域スペクトルの微細構造は均一なものとなってしまう。そこで、本発明が解決しようとする課題の1点目は、帯域拡張技術に基づく音声符号化および音声復号化において、周波数に依存する高域スペクトルの微細構造の調整を精度よく行い、復号信号の主観的品質を向上させることにある。 However, according to the method disclosed in Patent Document 2, since the fine structure of the entire high-frequency spectrum generated by copying the low-frequency spectrum is uniformly adjusted, the fine structure of the spectrum of the original signal depends on the frequency. Even if it changes variously, the fine structure of the generated high frequency spectrum will be uniform. Therefore, the first problem to be solved by the present invention is that, in speech coding and speech decoding based on the band extension technology, the fine structure of the high-frequency spectrum depending on the frequency is accurately adjusted, and the decoded signal To improve subjective quality.
また、演算量の低減やコーデックの構成上の理由から、周波数領域への変換に実数値のフィルタバンクを用いているときには、スペクトルの形状を変形した場合、復号信号に有害なエイリアシング歪みが生じ、復号信号の主観品質に悪影響を与える場合がある。この歪みは、図4のように、振幅を伸縮したスペクトル係数の近隣の周波数に広がって現れる。歪みのパワースペクトル密度が大きく雑音成分のパワースペクトル密度が小さい場合には、歪みが主観的な音質の顕著な劣化につながる場合がある。そこで、本発明が解決しようとする課題の2点目は、帯域拡張技術に基づく音声符号化および音声復号化において、スペクトルの変形に伴う歪みによる音質の劣化を抑えつつスペクトル微細構造の調整を行い、復号信号の主観的品質を向上させることにある。 In addition, when using a real-valued filter bank for conversion to the frequency domain due to the reduction in the amount of computation and the configuration of the codec, if the shape of the spectrum is deformed, harmful aliasing distortion occurs in the decoded signal, The subjective quality of the decoded signal may be adversely affected. As shown in FIG. 4, this distortion appears to spread to frequencies near the spectral coefficient whose amplitude is expanded and contracted. When the power spectral density of distortion is large and the power spectral density of noise components is small, the distortion may lead to significant deterioration in subjective sound quality. Therefore, the second problem to be solved by the present invention is to adjust the spectral fine structure while suppressing the deterioration of sound quality due to distortion caused by the deformation of the spectrum in the speech coding and speech decoding based on the band expansion technology. It is to improve the subjective quality of the decoded signal.
本発明に係る音声復号化装置は、音声信号の低域スペクトルを符号化した情報と高域スペクトルの性質に関する補助情報とを含むビットストリームから、前記低域スペクトルと前記高域スペクトルの両方に相当する周波数成分を含む音声信号を復号する音声復号化装置であって、前記ビットストリームを、音声信号の低域スペクトルを符号化した情報と、高域スペクトルの性質に関する補助情報とに分離する手段と、前記音声信号の低域スペクトルを符号化した情報から、低域スペクトルを復号する手段と、復号によって得られた低域スペクトルの一部または全体を高域に複写することによって第1の高域スペクトルを得る手段と、上記高域スペクトルの性質に関する補助情報を利用して上記第1の高域スペクトルの形状を調整することによって第2の高域スペクトルを得るスペクトル形状調整手段と、上記低域スペクトルと上記第2の高域スペクトルとを利用して音声信号を復号する手段と、前記高域スペクトルの性質に関する補助情報と前記第1の高域スペクトルとに基づいて、前記スペクトル形状調整手段により用いられる前記形状の調整の仕方または重畳する雑音の量を決定するスペクトル形状調整方法決定手段と、を備え、前記スペクトル形状調整方法決定手段は、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと形状調整後の高域スペクトルによるマスキング量とを利用して、前記形状の調整の仕方または重畳する雑音の量を決定することを特徴とする。ここで、前記スペクトル形状調整方法決定手段は、前記音声信号の高域スペクトルのトーン対雑音比と前記第1の高域スペクトルのトーン対雑音比とを比較することが望ましい。 The speech decoding apparatus according to the present invention corresponds to both the low-frequency spectrum and the high-frequency spectrum from a bitstream including information obtained by encoding the low-frequency spectrum of the speech signal and auxiliary information regarding the nature of the high-frequency spectrum. An audio decoding device for decoding an audio signal including a frequency component to be transmitted, wherein the bit stream is separated into information obtained by encoding the low frequency spectrum of the audio signal and auxiliary information relating to the nature of the high frequency spectrum; Means for decoding the low-frequency spectrum from information obtained by encoding the low-frequency spectrum of the audio signal, and copying the part or the whole of the low-frequency spectrum obtained by decoding to the high frequency. By adjusting the shape of the first high-frequency spectrum using means for obtaining a spectrum and auxiliary information regarding the properties of the high-frequency spectrum. Spectral shape adjustment means for obtaining a second high-frequency spectrum Te, and means for decoding the audio signal using the above-described low band spectrum and the second high-frequency spectrum, and auxiliary information about the nature of the high frequency spectrum Spectrum shape adjustment method determining means for determining how to adjust the shape used by the spectrum shape adjusting means or the amount of noise to be superimposed based on the first high frequency spectrum, and the spectrum shape adjustment The method determining means uses the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount by the high-frequency spectrum after the shape adjustment to determine how to adjust the shape or the amount of noise to be superimposed. It is characterized by determining . Here, it is preferable that the spectrum shape adjustment method determining unit compares the tone-to-noise ratio of the high frequency spectrum of the speech signal with the tone-to-noise ratio of the first high frequency spectrum.
ここで、スペクトル形状調整手段は、上記第1の高域スペクトルの形状の調整に加え、雑音を重畳することによって上記第2の高域スペクトルを得る構成とすることが望ましい。 Here, it is desirable that the spectrum shape adjusting means obtains the second high frequency spectrum by superimposing noise in addition to adjusting the shape of the first high frequency spectrum.
また、スペクトル形状調整手段は、上記第1の高域スペクトルを複数のサブバンドに分割し、分割後のサブバンドの各々に属する部分スペクトルについて、該部分スペクトルの形状の調整を行う構成とすることが望ましい。 Further, the spectrum shape adjusting means is configured to divide the first high frequency spectrum into a plurality of subbands and adjust the shape of the partial spectrum for each partial spectrum belonging to each of the divided subbands. Is desirable.
このとき、高域スペクトルの性質に関する補助情報は、音声の高域周波数成分の時間領域での包絡に関する情報を含み、スペクトル形状調整手段は、重畳する雑音の時間領域での包絡を調整する構成とすることが望ましい。 At this time, the auxiliary information related to the nature of the high frequency spectrum includes information related to the envelope in the time domain of the high frequency component of the voice, and the spectrum shape adjusting means adjusts the envelope in the time domain of the superimposed noise and It is desirable to do.
本発明に係る音声符号化装置は、低域スペクトルの復号結果の高域への複写に基づいて高域スペクトルの復号を行う音声復号化装置、に適合するビットストリームを生成する音声符号化装置であって、音声信号を周波数領域に変換し、低域スペクトルを分離した後、残存する高域スペクトルの一部または全体を第1の高域スペクトルとして分離する手段と、上記低域スペクトルを符号化する手段と、上記低域スペクトルの一部または全体を高域に複写することによって第2の高域スペクトルを得る手段と、上記第1の高域スペクトルと上記第2の高域スペクトルの性質に基づいて、上記音声復号化装置における高域スペクトルの形状の調整の仕方を決定するスペクトル形状調整方法決定手段と、符号化された上記低域スペクトルと、上記決定された高域スペクトルの形状の調整の仕方の情報とを多重化したビットストリームを生成する手段とを備え、前記スペクトル形状調整方法決定手段は、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと、スペクトル形状の調整後の高域スペクトルによるマスキング量とを利用して、前記高域スペクトルの形状の調整の仕方または重畳する雑音の量を決定することを特徴とする。ここで、前記スペクトル形状調整方法決定手段は、前記第1の高域スペクトルのトーン対雑音比と前記第2の高域スペクトルのトーン対雑音比とを比較することが望ましい。 A speech coding apparatus according to the present invention is a speech coding apparatus that generates a bit stream suitable for a speech decoding apparatus that decodes a high-frequency spectrum based on copying of a decoding result of a low-frequency spectrum to a high frequency. The voice signal is converted into the frequency domain, and after the low frequency spectrum is separated, a part or the whole of the remaining high frequency spectrum is separated as the first high frequency spectrum, and the low frequency spectrum is encoded. Means for obtaining a second high-frequency spectrum by copying a part or the whole of the low-frequency spectrum to a high frequency, and properties of the first high-frequency spectrum and the second high-frequency spectrum. Based on the spectrum shape adjustment method determining means for determining how to adjust the shape of the high frequency spectrum in the speech decoding apparatus, the encoded low frequency spectrum, and the determination Is provided with means for generating a bit stream by multiplexing the high frequency band spectrum of the manner of adjustment of the shape information, the spectral shape adjustment method determining means, the output signal due to the adjustment of the shape of the spectrum The method of adjusting the shape of the high-frequency spectrum or the amount of noise to be superimposed is determined using the distortion that occurs and the masking amount by the high-frequency spectrum after adjusting the spectral shape . Here, it is preferable that the spectrum shape adjustment method determination unit compares the tone-to-noise ratio of the first high-frequency spectrum with the tone-to-noise ratio of the second high-frequency spectrum.
ここで、スペクトル形状調整方法決定手段は、上記第1の高域スペクトルと上記第2の高域スペクトルの性質に基づいて、上記高域スペクトルの形状の調整の仕方に加え、上記音声復号化装置における高域スペクトルの形状の調整のために高域スペクトルに重畳する雑音の量を決定する構成とすることが望ましい。 Here, the spectrum shape adjustment method determining means includes the speech decoding apparatus in addition to the method of adjusting the shape of the high frequency spectrum based on the properties of the first high frequency spectrum and the second high frequency spectrum. It is desirable that the amount of noise to be superimposed on the high frequency spectrum is determined in order to adjust the shape of the high frequency spectrum at.
また、スペクトル形状調整方法決定手段は、上記第1の高域スペクトルを複数のサブバンドに分割し、分割後のサブバンドの各々に属する部分スペクトルについて、該部分スペクトルの形状の調整の仕方を決定する構成とすることが望ましい。 The spectrum shape adjustment method determining means divides the first high-frequency spectrum into a plurality of subbands, and determines how to adjust the shape of the partial spectrum for each of the divided subbands. It is desirable to adopt a configuration that does this.
本発明に係る音声帯域拡張装置は、音声の低域周波数成分のみを含む低域スペクトルから、上記低域スペクトルに含まれない高域周波数成分を含む音声信号を復元する音声帯域拡張装置であって、上記低域スペクトルの一部または全体を高域に複写することによって第1の高域スペクトルを得る手段と、上記第1の高域スペクトルの形状を調整することで、第2の高域スペクトルを得るスペクトル形状調整手段と、上記低域スペクトルと上記第2の高域スペクトルとを利用して、高域周波数成分を含む音声信号を復元する手段と、前記第1の高域スペクトルの性質に基づいて、音声復号化装置における高域スペクトルの形状の調整の仕方を決定するスペクトル形状調整方法決定手段と、を備え、前記スペクトル形状調整方法決定手段は、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと、スペクトル形状の調整後の高域スペクトルによるマスキング量とを利用して、前記高域スペクトルの形状の調整の仕方または重畳する雑音の量を決定することを特徴とする。ここで、前記スペクトル形状調整方法決定手段は、前記第1の高域スペクトルのトーン対雑音比と前記低域スペクトルから推定した高域スペクトルのトーン対雑音比とを比較することが望ましい。なお、上記スペクトル形状調整手段は、第1の高域スペクトルの形状の調整に加え、雑音を重畳することによって第2の高域スペクトルを得る構成とすることが望ましい。 An audio band extending apparatus according to the present invention is an audio band extending apparatus that restores an audio signal including a high frequency component not included in the low frequency spectrum from a low frequency spectrum including only a low frequency component of the audio. Means for obtaining a first high-frequency spectrum by copying a part or the whole of the low-frequency spectrum to a high frequency; and adjusting the shape of the first high-frequency spectrum to thereby obtain a second high-frequency spectrum. A spectral shape adjusting means for obtaining a sound signal including a high frequency component using the low frequency spectrum and the second high frequency spectrum, and a property of the first high frequency spectrum. A spectral shape adjustment method determining means for determining how to adjust the shape of the high frequency spectrum in the speech decoding device, the spectral shape adjustment method determining means, How to adjust the shape of the high-frequency spectrum or the amount of noise to be superimposed using the distortion generated in the output signal due to the spectral shape adjustment and the masking amount by the high-frequency spectrum after the spectral shape adjustment It is characterized by determining . Here, it is preferable that the spectrum shape adjustment method determination unit compares the tone-to-noise ratio of the first high-frequency spectrum with the tone-to-noise ratio of the high-frequency spectrum estimated from the low-frequency spectrum. The spectrum shape adjusting means is preferably configured to obtain the second high frequency spectrum by superimposing noise in addition to adjusting the shape of the first high frequency spectrum.
ここで、スペクトル形状調整手段は、上記第1の高域スペクトルを複数のサブバンドに分割し、分割後のサブバンドの各々に属する部分スペクトルについて、該部分スペクトルの形状の調整を行う構成とすることが望ましい。 Here, the spectrum shape adjusting means is configured to divide the first high-frequency spectrum into a plurality of subbands and adjust the shape of the partial spectrum for each partial spectrum belonging to each of the divided subbands. It is desirable.
以上のような本発明によれば、帯域拡張技術に基づく音声符号化および音声復号化において、復号信号の主観的品質を向上させることができる。 According to the present invention as described above, the subjective quality of a decoded signal can be improved in speech encoding and speech decoding based on a band extension technique.
ところで、音声復号化装置に関する本発明は、音声復号化方法の発明として捉えることもでき、以下のように記述することができる。本発明に係る音声復号化方法は、音声信号の低域スペクトルを符号化した情報と高域スペクトルの性質に関する補助情報とを含むビットストリームから、前記低域スペクトルと前記高域スペクトルの両方に相当する周波数成分を含む音声信号を復号する音声復号化装置、により実行される音声復号化方法であって、前記ビットストリームを、音声信号の低域スペクトルを符号化した情報と、高域スペクトルの性質に関する補助情報とに分離するステップと、前記音声信号の低域スペクトルを符号化した情報から、低域スペクトルを復号するステップと、復号によって得られた低域スペクトルの一部または全体を高域に複写することによって第1の高域スペクトルを得るステップと、上記高域スペクトルの性質に関する補助情報を利用して上記第1の高域スペクトルの形状を調整することによって第2の高域スペクトルを得るスペクトル形状調整ステップと、上記低域スペクトルと上記第2の高域スペクトルとを利用して音声信号を復号するステップと、前記高域スペクトルの性質に関する補助情報と前記第1の高域スペクトルとに基づいて、前記スペクトル形状調整ステップにより用いられる前記形状の調整の仕方または重畳する雑音の量を決定するスペクトル形状調整方法決定ステップと、を備え、前記スペクトル形状調整方法決定ステップは、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと形状調整後の高域スペクトルによるマスキング量とを利用して、前記形状の調整の仕方または重畳する雑音の量を決定することを特徴とする。このとき、上記スペクトル形状調整ステップでは、音声復号化装置は、上記第1の高域スペクトルの形状の調整に加え、雑音を重畳することによって上記第2の高域スペクトルを得ることが望ましい。 By the way, the present invention relating to a speech decoding apparatus can also be regarded as an invention of a speech decoding method and can be described as follows. The speech decoding method according to the present invention corresponds to both the low-frequency spectrum and the high-frequency spectrum from a bitstream including information obtained by encoding the low-frequency spectrum of the speech signal and auxiliary information regarding the nature of the high-frequency spectrum. A speech decoding method executed by a speech decoding apparatus that decodes a speech signal including a frequency component to be encoded, wherein the bitstream is encoded with information obtained by encoding a low-frequency spectrum of the speech signal, and a property of a high-frequency spectrum And sub-information, and a step of decoding the low-frequency spectrum from the information obtained by encoding the low-frequency spectrum of the audio signal, and a part or the whole of the low-frequency spectrum obtained by the decoding is made high frequency. Obtaining the first high-frequency spectrum by copying, and using auxiliary information relating to the nature of the high-frequency spectrum A spectral shape adjustment step of obtaining a second high-frequency spectrum by adjusting the shape of one high-frequency spectrum, and a step of decoding an audio signal using the low-frequency spectrum and the second high-frequency spectrum; A spectral shape adjustment method for determining the shape adjustment method or the amount of noise to be superimposed used by the spectral shape adjustment step based on the auxiliary information on the nature of the high frequency spectrum and the first high frequency spectrum A step of determining the shape of the spectrum using the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount by the high-frequency spectrum after the shape adjustment. It is characterized in that the adjustment method or the amount of noise to be superimposed is determined . At this time, in the spectrum shape adjustment step, it is desirable that the speech decoding apparatus obtains the second high frequency spectrum by superimposing noise in addition to the adjustment of the shape of the first high frequency spectrum.
また、音声符号化装置に関する本発明は、音声符号化方法の発明として捉えることもでき、以下のように記述することができる。本発明に係る音声符号化方法は、低域スペクトルの復号結果の高域への複写に基づいて高域スペクトルの復号を行う音声復号化装置、に適合するビットストリームを生成する音声符号化装置により実行される音声符号化方法であって、音声信号を周波数領域に変換し、低域スペクトルを分離した後、残存する高域スペクトルの一部または全体を第1の高域スペクトルとして分離するステップと、上記低域スペクトルを符号化するステップと、上記低域スペクトルの一部または全体を高域に複写することによって第2の高域スペクトルを得るステップと、上記第1の高域スペクトルと上記第2の高域スペクトルの性質に基づいて、上記音声復号化装置における高域スペクトルの形状の調整の仕方を決定するスペクトル形状調整方法決定ステップと、符号化された上記低域スペクトルと、上記決定された高域スペクトルの形状の調整の仕方の情報とを多重化したビットストリームを生成するステップとを備え、前記スペクトル形状調整方法決定ステップは、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと、スペクトル形状の調整後の高域スペクトルによるマスキング量とを利用して、前記高域スペクトルの形状の調整の仕方または重畳する雑音の量を決定することを特徴とする。このとき、上記スペクトル形状調整方法決定ステップでは、音声符号化装置は、上記第1の高域スペクトルと上記第2の高域スペクトルの性質に基づいて、上記高域スペクトルの形状の調整の仕方に加え、上記音声復号化装置における高域スペクトルの形状の調整のために高域スペクトルに重畳する雑音の量を決定することが望ましい。 Further, the present invention relating to a speech coding apparatus can also be understood as a speech coding method invention and can be described as follows. The speech coding method according to the present invention includes a speech decoding device that generates a bitstream suitable for a speech decoding device that decodes a high frequency spectrum based on a copy of a decoding result of a low frequency spectrum to a high frequency. A speech encoding method to be performed, comprising: converting a speech signal into a frequency domain, separating a low-frequency spectrum, and then separating a part or all of the remaining high-frequency spectrum as a first high-frequency spectrum; Encoding the low-frequency spectrum, obtaining a second high-frequency spectrum by copying a part or the whole of the low-frequency spectrum to the high frequency, the first high-frequency spectrum, and the first A spectral shape adjustment method determining step for determining how to adjust the shape of the high frequency spectrum in the speech decoding apparatus based on the properties of the high frequency spectrum of 2 And encoded the low frequency spectrum, and a step of generating a bit stream by multiplexing the information of how the adjustment of the shape of the high frequency band spectrum determined above, the spectral shape adjustment method determining step, Using the distortion generated in the output signal due to the adjustment of the spectrum shape and the masking amount by the high frequency spectrum after the spectrum shape adjustment, how to adjust the shape of the high frequency spectrum or the noise to be superimposed It is characterized by determining the quantity . At this time, in the spectrum shape adjustment method determination step, the speech encoding apparatus determines how to adjust the shape of the high frequency spectrum based on the properties of the first high frequency spectrum and the second high frequency spectrum. In addition, it is desirable to determine the amount of noise to be superimposed on the high frequency spectrum in order to adjust the shape of the high frequency spectrum in the speech decoding apparatus.
また、音声帯域拡張装置に関する本発明は、音声帯域拡張方法の発明として捉えることもでき、以下のように記述することができる。本発明に係る音声帯域拡張方法は、音声の低域周波数成分のみを含む低域スペクトルから、上記低域スペクトルに含まれない高域周波数成分を含む音声信号を復元する音声帯域拡張装置、により実行される音声帯域拡張方法であって、上記低域スペクトルの一部または全体を高域に複写することによって第1の高域スペクトルを得るステップと、上記第1の高域スペクトルの形状を調整することで、第2の高域スペクトルを得るスペクトル形状調整ステップと、上記低域スペクトルと上記第2の高域スペクトルとを利用して、高域周波数成分を含む音声信号を復元するステップと、前記第1の高域スペクトルの性質に基づいて、音声復号化装置における高域スペクトルの形状の調整の仕方を決定するスペクトル形状調整方法決定ステップと、を備え、前記スペクトル形状調整方法決定ステップは、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと、スペクトル形状の調整後の高域スペクトルによるマスキング量とを利用して、前記高域スペクトルの形状の調整の仕方または重畳する雑音の量を決定することを特徴とする。なお、上記スペクトル形状調整ステップでは、音声復号化装置は、第1の高域スペクトルの形状の調整に加え、雑音を重畳することによって第2の高域スペクトルを得ることが望ましい。 Further, the present invention relating to a voice band extending apparatus can also be regarded as an invention of a voice band extending method and can be described as follows. An audio band extending method according to the present invention is performed by an audio band extending apparatus that restores an audio signal including a high frequency component not included in the low frequency spectrum from a low frequency spectrum including only a low frequency component of the audio. A method for expanding a voice band, the step of obtaining a first high frequency spectrum by copying a part or the whole of the low frequency spectrum to a high frequency, and adjusting the shape of the first high frequency spectrum it is a step in which the spectral shape adjustment step of obtaining a second high-frequency spectrum, by using the above low frequency band spectrum and the second high-frequency spectrum, to restore the audio signals containing high frequency components, wherein A spectral shape adjustment method determining step for determining how to adjust the shape of the high frequency spectrum in the speech decoding apparatus based on the property of the first high frequency spectrum; And the spectral shape adjustment method determining step uses the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount by the high frequency spectrum after the adjustment of the spectrum shape. It is characterized in that the method of adjusting the shape or the amount of noise to be superimposed is determined . In the spectrum shape adjustment step, it is desirable that the speech decoding apparatus obtains the second high frequency spectrum by superimposing noise in addition to adjusting the shape of the first high frequency spectrum.
本発明によれば、帯域拡張技術に基づく音声符号化および音声復号化において、原信号における高域スペクトルの微細構造がサブバンド間で異なる場合にも、図3に示すように、複写された高域スペクトルの微細構造を精度よく調整することができる。また、調整に伴う歪みの知覚的影響を最小限にしつつスペクトル微細構造の調整を行うことができる。以上により、帯域拡張技術に基づく音声符号化および音声復号化において、復号信号の主観的品質を向上させることができる。 According to the present invention, in speech coding and speech decoding based on the band extension technique, even if the fine structure of the high-frequency spectrum in the original signal differs between subbands, as shown in FIG. The fine structure of the region spectrum can be adjusted with high accuracy. In addition, the spectral fine structure can be adjusted while minimizing the perceptual effect of distortion associated with the adjustment. As described above, the subjective quality of the decoded signal can be improved in speech encoding and speech decoding based on the band extension technique.
以下では、本発明の実施形態について、添付図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
(実施形態1)
図5は、本発明の実施形態1における音声符号化装置501の主要な構成を示すブロック図である。図5に示すように、音声符号化装置501は、入力信号に対して周波数領域への変換を行う周波数領域変換部503と、低域スペクトルを符号化する低域符号化部509と、低域符号化部509から与えられた符号を復号する低域復号化部515と、入力された低域スペクトルの一部または全体を複写することで、所定の境界周波数以上の成分を持つ高域スペクトルを作成するスペクトル複写部517と、所定の分割規則に基づいて高域スペクトルを複数のサブバンドに分割するサブバンド分割部511、521と、サブバンドに分解された高域スペクトルのスペクトル包絡を計算するスペクトル包絡計算部527と、サブバンド分割された高域スペクトルを利用して高域スペクトルの形状調整方法をサブバンドごとに決定するスペクトル形状調整方法決定部525と、低域符号化部509から与えられる符号とスペクトル形状調整方法決定部525から与えられるスペクトル形状調整情報とスペクトル包絡計算部527から与えられるスペクトル包絡情報とを多重化しビットストリームを生成するビットストリーム多重化部529と、を備えている。
(Embodiment 1)
FIG. 5 is a block diagram showing the main configuration of
この音声符号化装置501は、ハードウェア構成としては、例えば、図22に示すように、オペレーティングシステムやアプリケーションプログラムなどを実行するCPU2201、ROM及びRAMで構成される主記憶部2202、ハードディスクなどで構成される補助記憶部2203、外部とデータ通信を行う通信制御部2204、液晶モニタなどで構成される表示部2205、並びに文字・数字入力及び実行指示等を行うための操作部2206を含んで構成される。前述した図5の各ブロックの機能は、図22に示すCPU2201の制御の下で主記憶部2202に所定のソフトウェアを読み込ませ実行することにより、実現される。
As shown in FIG. 22, the
音声符号化装置501は、入力信号に対して、図6のフローチャートに示す一連の処理を行って、符号化されたビットストリームを外部へ出力する。以下、図6の一連の処理を説明する。
The
図6のステップ601では、周波数領域変換部503が入力信号に対して周波数領域への変換を行う。ここで、変換の方法としては離散フーリエ変換(DFT)、離散コサイン変換(DCT)、修正離散コサイン変換(MDCT)、コサイン変調フィルタバンクなどを用いる。周波数領域に変換されたスペクトルは、所定の境界周波数Fcを用いて、低域スペクトル505と高域スペクトル507に分離される。また、高域スペクトル507は境界周波数Fc以上の周波数帯域の全体でなく、一部のみを含むものであってもよい。周波数領域変換部503または周波数領域変換ステップ601は、まず帯域通過フィルタやフィルタバンクを用いて入力信号を低域信号と高域信号に分離し、その後各々の信号に対して周波数領域への変換を行うことによっても実現できる。
In
次のステップ603では、低域符号化部509が低域スペクトル505を符号化し、得られた符号を低域復号化部515に与える。そして、次のステップ605では、低域復号化部515が、低域符号化部509から与えられた符号を復号し、復号により得られた低域スペクトルをスペクトル複写部517に与える。なお、代替的な実現手段として、図5の低域復号化部515および図6のステップ605を省略し、低域スペクトル505をスペクトル複写部517に直接与えることもできる。
In the
次のステップ607では、スペクトル複写部517が、入力された低域スペクトルの一部または全体を複写することで、境界周波数Fc以上の成分を持つ高域スペクトル519を作成し、サブバンド分割部521に与える。高域スペクトル519は境界周波数Fc以上の周波数帯域の全体でなく、一部のみを含むものであってもよい。上記の複写の方法としては、図7(a)のように高域スペクトルを高域にシフトさせて複写を行う方法や、図7(b)のように境界周波数Fcに関して線対称になるようにスペクトルを反転させて複写を行う方法を採用することができる。複写によって生成する高域スペクトルの帯域幅が複写に利用する低域スペクトルより広い場合には、図7(c)のように繰り返し複写を行うこともできる。
In the
次のステップ609では、サブバンド分割部511、521が、同一の分割規則に基づいて、高域スペクトル507、519をそれぞれ複数のサブバンドに分割し、スペクトル形状調整方法決定部525に与える。なお、図5のサブバンド分割部511、521および図6のステップ609は必須ではなく、分割されていない高域スペクトル507、519全体を、スペクトル形状調整方法決定部525に与えてもよい。
In the
次のステップ611では、スペクトル形状調整方法決定部525が、サブバンド分割された高域スペクトル513、523を利用して、音声復号化装置側における高域スペクトルの形状調整方法をサブバンドごとに決定し、決定された方法を示す情報をビットストリーム多重化部529に与える。なお、図5のサブバンド分割部511、521および図6のステップ609が省略されている場合は、スペクトル形状調整方法決定部525は高域スペクトル全体を1つのサブバンドとして取り扱う。このステップ611の処理については、図8〜図11を用いて、後に詳述する。
In
次のステップ613では、スペクトル包絡計算部527が、サブバンド分割部511によりサブバンドに分解された高域スペクトルのスペクトル包絡を計算し、ビットストリーム多重化部529に与える。スペクトル包絡は、各々のサブバンド内のスペクトルの平均電力の形で表現することができる。また、代替的な構成として、スペクトル包絡計算部527が入力信号を直接受け取ってLPC分析を行い、得られたLPCパラメータをビットストリーム多重化部529に与えることもできる。図5のスペクトル包絡計算部527および図6のステップ613は、本発明の効果を得るために必須ではなく、省略することもできる。
In the
次のステップ615では、ビットストリーム多重化部529が、低域符号化部509から与えられた符号と、スペクトル形状調整方法決定部525から与えられたスペクトル形状調整情報と、スペクトル包絡計算部527から与えられたスペクトル包絡情報とを多重化し、ビットストリームを生成する。
In the
以上のようにして、音声符号化装置501において、ビットストリームが生成され外部へ出力される。
As described above, the
以下では、図8のスペクトル形状調整方法決定部525の構成、および図6のステップ611の処理について詳述する。
Hereinafter, the configuration of the spectral shape adjustment
前述したように、図6のステップ611では、スペクトル形状調整方法決定部525は、サブバンド分割された高域スペクトル513、523を利用して、復号器における高域スペクトルの形状調整方法をサブバンドごとに決定し、決定された方法を示す情報をビットストリーム多重化部529に与える。
As described above, in
上記処理を行うスペクトル形状調整方法決定部525は、図8の構成を備えている。図8に示すスペクトル正規化部801、803は、サブバンド分割された高域スペクトル513、523の振幅をサブバンドごとに正規化する。正規化の方法は式1に従う。ただし、正規化前のスペクトル係数をS’(k)、正規化後のスペクトル係数をS(k)で表す。インデックスkは周波数を示し、i番目のサブバンドはFi≦k<Fi+1の周波数を含むものとする。ただし、Fiはi番目のサブバンドに含まれる周波数の下限である。また、max( )は最大値を、| |は絶対値をそれぞれ表す。
スペクトル正規化部801、803は省略することもできる。
The spectrum shape adjustment
The
なお、図8のスペクトル形状調整方法決定部525には、入力信号の高域スペクトルをLPC分析するLPC分析部805を設けてもよい。例えば、音声復号化装置でLPCフィルタによる雑音波形の時間包絡調整を行う場合には、LPC分析部805によって入力信号の高域スペクトルをLPC分析し、分析によって得られたパラメータをスペクトル形状調整情報に含めることができる。
Note that the spectrum shape adjustment
トーン対雑音比算出部807、809は、スペクトル正規化部801、803から与えられた正規化スペクトルを用いて各サブバンドのトーン対雑音比を示す指標Tiを算出し、パラメータ決定部811に与える。Tiは複数の方法で定義することができるが、例えば式2、式3、式4に示すような定義を用いることができる。ただし、mean( )は算術平均を、gmean( )は幾何平均を、min( )は最小値をそれぞれ表す。
式2、式3、式4のいずれの定義に従っても、Tiはトーン成分の雑音成分に対する比率が高いほど大きな値をとる。
The tone-to-noise
Formula 2, Formula 3, also in accordance with any of the definitions of Formula 4, T i takes a larger value the higher the ratio of the noise component of the tone component.
パラメータ決定部811は、複写された高域スペクトル523と入力信号の高域スペクトル513のトーン対雑音比を比較し、復号器における高域スペクトルのスペクトル形状調整方法を決定する。
The
スペクトル形状の調整は、複写された高域スペクトル523をSc(k)、スペクトル形状調整後の高域スペクトルをSt(k)として、式5に従う。すなわち、スペクトル形状調整方法の決定は、式5の表記において、パラメータαi、βiを決定することと等価である。ただし、f(x,αi)はxを入力とする非線形関数であり、αiは関数の形状を制御するパラメータである。また、rvは所定の電力を持つ雑音であり、βiはスペクトルに重畳する雑音の大きさを示すパラメータである。sign( )は正負の符号を示す。
St(k)=sign(Sc(k))・f(|Sc(k)|,αi)+βi・rv
where Fi≦k<Fi+1 …(式5)
f(x,αi)の具体的な形状は、例えば式6、式7、式8のように定めることができる。ただし、max(a,b)はaとbの最大値を、min(a,b)はaとbの最小値を表す。
f(x,αi)=xαi …(式6)
f(x,αi)=min(x,αi) …(式7)
f(x,αi)=max(0,x+αi) …(式8)
パラメータ決定部811は、式5に従う調整によって得られるSt(k)の各サブバンドにおけるトーン対雑音比が入力信号の高域スペクトル513の各サブバンドにおけるトーン対雑音比と一致するようパラメータαi、βiを決定する。パラメータ決定部811により実行されるパラメータの決定処理は、以下で述べる図9のフローチャートに従う。
The spectrum shape is adjusted according to Equation 5 with Sc (k) as the copied high-
St (k) = sign (Sc (k)) · f (| Sc (k) |, α i ) + β i · rv
where F i ≦ k <F i + 1 (Formula 5)
The specific shape of f (x, α i ) can be determined as shown in Equation 6, Equation 7, and Equation 8, for example. However, max (a, b) represents the maximum value of a and b, and min (a, b) represents the minimum value of a and b.
f (x, α i) = x αi ... ( Equation 6)
f (x, α i ) = min (x, α i ) (Expression 7)
f (x, α i ) = max (0, x + α i ) (Equation 8)
The
図9のステップ901では、パラメータ決定部811は、未処理のサブバンドから1つを選択し、ステップ903にて、高域スペクトル513、523のトーン対雑音比を取得する。次のステップ905ではβiを0に設定し、ステップ907では、高域スペクトル513、523のトーン対雑音比を比較する。ここで、入力信号の高域スペクトル513のトーン対雑音比が複写された高域スペクトル523のトーン対雑音比よりも高い場合には、後述するステップ909が実行され、高域スペクトル513のトーン対雑音比が高域スペクトル523のトーン対雑音比以下の場合には、後述するステップ911が実行される。
In
ステップ909では、高域スペクトル513とSt(k)のトーン対雑音比が一致するαiを「αi>1」の条件下で探索する。ここでの探索は、一定のステップ幅を用いてαiを増加させながらSt(k)のトーン対雑音比を計算することで行うことができる。
In
一方、ステップ911では、同様に高域スペクトル513とSt(k)のトーン対雑音比が一致するαiを「αi<1」の条件下で探索する。次のステップ913は、マスキング判定部813により実行される。このステップ913の処理は図10を用いて後述するが、このステップ913では、マスキング判定部813が、ステップ911で求められたαiを用いた場合に歪みがマスキングされるか否かを判断する。ステップ913で、歪みがマスキングされないと判定された場合にはステップ915にてαiに一定値が加算され、ステップ911の処理が再度実行される。一方、ステップ913で、歪みがマスキングされると判定された場合およびステップ909が実行された後には、ステップ917にて、決定されたαi、βiが出力される。そして、ステップ919で未処理のサブバンドが探索され、全てのサブバンドについて処理が終了していない場合には、未処理のサブバンドについてステップ901以降の処理が再度実行される。以上のような図9の処理により、パラメータαi、βiが決定される。
On the other hand, in
ここで、図9のステップ913においてマスキング判定部813によって実行される歪みのマスキング判定処理について概説する。この歪みのマスキング判定処理は、図10に示すフローチャートに従う。
Here, an outline of the distortion masking determination process executed by the masking
図10のステップ1001では、マスキング判定部813は、スペクトル振幅の変形に伴うスペクトル振幅の変化量d(k)を式9に従って求める。
d(k)=f(Sc(k),αi)−Sc(k) …(式9)
次のステップ1003では、エイリアシング歪みの上界Dsup(k)を式10に従って求める。ただし、spr(k)は、周波数領域への変換の種類と窓関数の形状によって定まる拡散関数であり、*は畳み込み演算を表す。
Dsup(k)=spr(k)*|d(k)| …(式10)
次のステップ1005では、マスキング量Tmask(k)を式11に従って求める。ただし、同時マスキング量を示すマスキングパターンをFcb(k)とする。
Tmask(k)=|St(k)|*Fcb(k) …(式11)
Tmask(k)とDsup(k)の関係の例を図11に示す。
In
d (k) = f (Sc (k), α i ) −Sc (k) (Equation 9)
In the
D sup (k) = spr (k) * | d (k) | (Formula 10)
In the
T mask (k) = | S t (k) | * F cb (k) (Formula 11)
An example of the relationship between T mask (k) and D sup (k) is shown in FIG.
次のステップ1007では、Tmask(k)とDsup(k)を比較し、全てのkについてTmask(k)≧Dsup(k)の場合には歪みがマスキングされると判断し、一方、いずれかのkについてTmask(k)<Dsup(k)の場合には歪みがマスキングされないと判断する。
In the
以上のようにして歪みのマスキング判定処理が行われる。なお、マスキングの判断において、マスキング量を超える一定量の歪みKを許容し、Tmask(k)+K≧Dsup(k)の場合には歪みがマスキングされたと判断する方法をとることもできる。 The distortion masking determination process is performed as described above. In the masking determination, a certain amount of distortion K exceeding the masking amount is allowed, and when T mask (k) + K ≧ D sup (k), it can be determined that the distortion is masked.
(実施形態1の変形例1)
ところで、パラメータ決定部811によるパラメータ決定処理について、演算量を低減した変形例1を以下に示す。同変形例1は、図12のフローチャートに沿って実行される。図12のフローチャートでは、図9のフローチャートと同じ処理には同じ番号を付しており、図12のステップ1213、1215、1217が図9のフローチャートと異なる。以下では、異なる点について説明する。
(Modification 1 of Embodiment 1)
By the way, in the parameter determination process by the
図9のフローチャートではステップ913においてマスキングの判断を行うのに対し、図12のフローチャートではステップ1213においてαiを所与の最大値Aと比較する。ここで、αiが最大値Aを超える場合には、ステップ1215においてαi=Aとした後、ステップ1217でスペクトル513とSt(k)のトーン対雑音比が一致するβiを探索する。
In the flowchart of FIG. 9, masking is determined in
一方、ステップ1213にてαiが最大値Aを超えない場合およびステップ1217の実行後には、ステップ917へ進み、決定されたαi、βiを出力する。なお、αiの最大値Aは、固定値としてもよいし、スペクトル523のトーン対雑音比に応じて決定してもよい。
On the other hand, when α i does not exceed the maximum value A in
(実施形態1の変形例2)
式5においてβiを0に固定することにより、雑音の重畳を伴わず、スペクトルの振幅の変形のみによるスペクトル形状調整方法を取ることができる。この場合には、図13に示すフローチャートに従ってαiを求めることができる。
(Modification 2 of Embodiment 1)
By fixing β i to 0 in Equation 5, it is possible to adopt a spectral shape adjustment method that is not accompanied by superimposition of noise but only by deformation of the spectrum amplitude. In this case, α i can be obtained according to the flowchart shown in FIG.
図13のフローチャートでは、図9のフローチャートと同じ処理には同じ番号を付しており、図13のステップ1307、1309、1311が図9のフローチャートと異なる。すなわち、ステップ1307においてスペクトル513とSt(k)のトーン対雑音比が一致するαiを求め、次のステップ1309でαiとAを比較する。ここで、αiがAを超える場合にはステップ1311でαi=Aとすればよい。なお、ステップ1309の処理は、図10のフローチャートに従うマスキング判定によって実行してもよい。
In the flowchart of FIG. 13, the same processes as those in the flowchart of FIG. 9 are denoted by the same numbers, and
(実施形態1の変形例3)
式5においてαiを適切な値Zに固定することにより、スペクトルの振幅の変形を伴わず、雑音の重畳のみによるスペクトル形状調整方法を取ることができる。この場合には、図14に示すフローチャートに従ってβiを求めることができる。
(Modification 3 of Embodiment 1)
By fixing α i to an appropriate value Z in Equation 5, it is possible to adopt a spectral shape adjustment method that only involves noise superposition without being accompanied by deformation of the spectral amplitude. In this case, β i can be obtained according to the flowchart shown in FIG.
図14のフローチャートでは、図9のフローチャートと同じ処理には同じ番号を付しており、図14のステップ1405、1409、1411が図9のフローチャートと異なる。すなわち、ステップ1405においてαi=Zとし、次のステップ907において高域スペクトル513、523のトーン対雑音比を比較する。ここで、高域スペクトル523のトーン対雑音比が高域スペクトル513のトーン対雑音比よりも高いときのみ、ステップ1411にてスペクトル513とSt(k)のトーン対雑音比が一致するβiを探索することができる。一方、高域スペクトル523のトーン対雑音比が高域スペクトル513のトーン対雑音比以下の場合にはステップ1409で常にβi=0とする。
In the flowchart of FIG. 14, the same processes as those in the flowchart of FIG. 9 are given the same numbers, and
(実施形態1の変形例4)
ところで、式5における雑音rvは均一な分布またはガウス性の分布を持つ乱数とすることができる。rvを乱数とした場合には、重畳された雑音は時間領域において平坦な包絡を持つ。また、別の方法として、上記乱数に周波数軸に沿ってLPCフィルタリングを施したものをrvとして用いることもできる。周波数領域でLPCフィルタリングを行うことにより、時間領域への逆変換を行った際の雑音波形の時間領域での包絡を調整することができる。周波数領域でのLPCフィルタリングによって時間領域での波形の包絡が調整できることは、例えば文献「J.Herre et al., “Enhancing the Performance of Perceptual Audio Coders by UsingTemporal Noise Shaping (TNS)”, AES convention 101, paper number 4384, 1996」において説明されている。
(Modification 4 of Embodiment 1)
By the way, the noise rv in Equation 5 can be a random number having a uniform distribution or a Gaussian distribution. When rv is a random number, the superimposed noise has a flat envelope in the time domain. As another method, the random number obtained by applying LPC filtering along the frequency axis can be used as rv. By performing LPC filtering in the frequency domain, it is possible to adjust the envelope in the time domain of the noise waveform when the inverse transformation to the time domain is performed. The ability to adjust the envelope of the waveform in the time domain by LPC filtering in the frequency domain is described in, for example, the document “J. Herre et al.,“ Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping (TNS) ”, AES convention 101, paper number 4384, 1996 ".
音声復号化装置においてLPCフィルタによる雑音波形の時間包絡調整を行う場合には、図8のLPC分析部805において入力信号の高域スペクトルをLPC分析し、分析によって得られたパラメータをスペクトル形状調整情報に含めることができる。なお、LPC分析部805は本発明の効果を得るための必須の構成ではなく、省略することもできる。
When the time envelope adjustment of the noise waveform by the LPC filter is performed in the speech decoding apparatus, the
なお、式5においては、スペクトル振幅の変形をスカラー関数で実現し、あるスペクトル係数に対する変形は周囲のスペクトル係数の値に影響されないものとしているが、変形結果が周囲のスペクトル係数に依存する処理方法を取ってもよい。例えば、非線形スカラー関数f(x,αi)によってスペクトル振幅|Sc(k)|を変形する代わりに、f(Sc(k),αi)/|Sc(k)|を各スペクトル係数に重畳されるゲインとみなし、このゲインを周波数軸に沿って平滑化した後で|Sc(k)|に乗算することができる。 In Equation 5, the deformation of the spectral amplitude is realized by a scalar function, and the deformation for a certain spectral coefficient is not affected by the value of the surrounding spectral coefficient. However, the processing method in which the deformation result depends on the surrounding spectral coefficient. You may take For example, instead of transforming the spectrum amplitude | Sc (k) | by a non-linear scalar function f (x, α i ), f (Sc (k), α i ) / | Sc (k) | is superimposed on each spectral coefficient. It is possible to multiply | Sc (k) | after smoothing the gain along the frequency axis.
(実施形態1における音声復号化装置の構成および動作)
図15は、本発明の実施形態1における音声復号化装置1501の主要な構成を示すブロック図である。図15に示すように、音声復号化装置1501は、多重化されたビットストリームを、(1)音声信号の低域スペクトルを符号化した情報1505と(2)高域スペクトルのスペクトル形状調整方法を指示する補助情報1507と(3)スペクトル包絡情報1509とに分離するビットストリーム分離部1503と、音声信号の低域スペクトルを符号化した情報1505から低域スペクトルを復号化する低域復号化部1511と、図5のスペクトル複写部517と同一の方法でスペクトルの高域への複写を行うスペクトル複写部1513と、図5のサブバンド分割部521と同一の分割法により、複写されたスペクトルをサブバンドに分割するサブバンド分割部1515と、補助情報1507に基づいて高域スペクトルのスペクトル形状をサブバンドごとに調整するスペクトル形状調整部1517と、スペクトル包絡情報1509に基づいて、高域スペクトルの包絡を調整するスペクトル包絡調整部1519と、低域スペクトルと高域スペクトルとを結合し全周波数帯域にわたるスペクトルを得るスペクトル結合部1521と、スペクトルを時間信号に変換し、変換後の信号を復号信号として外部へ出力する周波数領域逆変換部1523とを備えている。
(Configuration and operation of speech decoding apparatus in embodiment 1)
FIG. 15 is a block diagram showing the main configuration of
この音声復号化装置1501は、ハードウェア構成としては、前述した音声符号化装置501と同様に、例えば図22に示す構成を備える。即ち、音声復号化装置1501は、図22に示すように、オペレーティングシステムやアプリケーションプログラムなどを実行するCPU2201、ROM及びRAMで構成される主記憶部2202、ハードディスクなどで構成される補助記憶部2203、外部とデータ通信を行う通信制御部2204、液晶モニタなどで構成される表示部2205、並びに文字・数字入力及び実行指示等を行うための操作部2206を含んで構成される。前述した図15の各ブロックの機能は、図22に示すCPU2201の制御の下で主記憶部2202に所定のソフトウェアを読み込ませ実行することにより、実現される。
The
音声復号化装置1501は、入力ビットストリームに対して図16のフローチャートに示す一連の処理を行って、復号化された信号を外部へ出力する。以下、図16の一連の処理を説明する。
The
図16のステップ1601では、ビットストリーム分離部1503が、多重化されたビットストリームを、(1)音声信号の低域スペクトルを符号化した情報1505と、(2)高域スペクトルのスペクトル形状調整方法を指示する補助情報1507と、(3)スペクトル包絡情報1509とに分離する。なお、本発明に係る「高域スペクトルの性質に関する補助情報」は、上記の補助情報1507およびスペクトル包絡情報1509に相当する。
In
次のステップ1603では、低域復号化部1511が、音声信号の低域スペクトルを符号化した情報1505から低域スペクトルを復号化し、スペクトル複写部1513およびスペクトル結合部1521に与える。
In the
次のステップ1605では、スペクトル複写部1513が、前述した図5のスペクトル複写部517と同一の方法でスペクトルの高域への複写を行い、サブバンド分割部1515に与える。ここで、低域スペクトルの一部を高域へ複写する場合には、予め定められた複写範囲に従って、スペクトル複写部517と同一の部分スペクトルを複写することができる。また、入力信号に応じてスペクトル複写の方法を変える場合には、音声符号化装置501のスペクトル複写部517により図6のステップ607で複写の方法を決定し、決定された複写の方法を示す補助情報をビットストリームに重畳して伝送し、伝送された補助情報に従って音声復号化装置1501のスペクトル複写部1513がスペクトルの高域への複写を行うこともできる。
In the
次のステップ1607では、サブバンド分割部1515が、前述した図5のサブバンド分割部521と同一の分割法により、複写されたスペクトルをサブバンドに分割してスペクトル形状調整部1517に与える。
In the
次のステップ1609では、スペクトル形状調整部1517が、補助情報1507に基づいて、高域スペクトルのスペクトル形状を式5に従ってサブバンドごとに調整し、調整後の高域スペクトルのスペクトル形状をスペクトル包絡調整部1519に与える。
In the
なお、式5における雑音rvに対しては、前述の通りLPCフィルタリングによって時間領域での包絡の調整を行うことができる。フィルタリングに用いるLPCパラメータとしては、補助情報1507に含まれるLPCパラメータ(即ち、符号化前の原信号の高域成分に対する分析から得られたLPCパラメータ)を用いることができる。また、復号された低域スペクトルをLPC分析して得られるLPCパラメータを用いることで、雑音波形の時間領域での包絡を復号信号の低域成分に近づけることもできる。 For the noise rv in Equation 5, the envelope in the time domain can be adjusted by LPC filtering as described above. As the LPC parameter used for filtering, the LPC parameter included in the auxiliary information 1507 (that is, the LPC parameter obtained from the analysis of the high-frequency component of the original signal before encoding) can be used. Further, by using LPC parameters obtained by LPC analysis of the decoded low-frequency spectrum, the envelope of the noise waveform in the time domain can be brought close to the low-frequency component of the decoded signal.
次のステップ1611では、スペクトル包絡調整部1519が、スペクトル包絡情報1509に基づいて、スペクトル形状調整部1517から与えられた高域スペクトルの包絡を調整し、スペクトル結合部1521に与える。
In the
次のステップ1613では、スペクトル結合部1521が、低域復号化部1511から与えられた低域スペクトルと、スペクトル包絡調整部1519から与えられた高域スペクトルとを結合し、全周波数帯域にわたるスペクトルを得て、得られた全周波数帯域にわたるスペクトルを周波数領域逆変換部1523に与える。
In the
次のステップ1615では、周波数領域逆変換部1523が、スペクトルを時間信号に変換し、変換後の信号を復号信号として外部へ出力する。
In the
上述した実施形態1における音声符号化装置501と音声復号化装置1501とを用いることで、帯域拡張に伴うスペクトル微細構造の調整を高い品質で行うことができ、復号音声の主観的品質を向上させることができる。
By using the
(実施形態2)
以下の実施形態2では、実施形態1で述べた音声復号化装置1501とは異なる構成の音声復号化装置を説明する。実施形態2の音声復号化装置は、音声信号の低域スペクトルを符号化した情報と高域スペクトルのトーン対雑音比情報と高域スペクトルの包絡情報を含むビットストリームに対し、図18のフローチャートに示す一連の処理を行って、復号された音声信号を外部へ出力する。
(Embodiment 2)
In the following second embodiment, a speech decoding apparatus having a configuration different from that of the
実施形態2の音声復号化装置は、実施形態1の音声復号化装置と類似の構成を持つが、実施形態1では、伝送されるビットストリームに、スペクトル形状の調整方法を指示する補助情報が含まれるのに対し、実施形態2では、伝送されるビットストリームに、高域スペクトルのトーン対雑音比を記述する補助情報が含まれる点で両者は異なる。 The speech decoding apparatus according to the second embodiment has a configuration similar to that of the speech decoding apparatus according to the first embodiment. However, in the first embodiment, auxiliary information that instructs a method for adjusting a spectrum shape is included in the transmitted bitstream. On the other hand, the second embodiment is different in that the auxiliary information describing the tone-to-noise ratio of the high frequency spectrum is included in the transmitted bit stream.
図17は、本発明の実施形態2における音声復号化装置1701の主要な構成を示すブロック図である。図17に示すように、音声復号化装置1701は、多重化されたビットストリームを、音声信号の低域スペクトルを符号化した情報1705と高域スペクトルのトーン対雑音比情報1707と高域スペクトルの包絡情報1709とに分離するビットストリーム分離部1703と、音声信号の低域スペクトルを符号化した情報1705に基づいて低域スペクトルを復号化する低域復号化部1713と、実施形態1における図5のスペクトル複写部517と同様の方法でスペクトルの高域への複写を行うスペクトル複写部1715と、複写された高域スペクトルをサブバンドに分割するサブバンド分割部1717と、後述する図19のブロック図に従ってスペクトル形状調整方法を決定するスペクトル形状調整方法決定部1711と、サブバンド分割された高域スペクトルの形状を式5に従って調整するスペクトル形状調整部1719と、高域スペクトルの包絡情報1709に基づいて高域スペクトルの包絡を調整するスペクトル包絡調整部1721と、低域スペクトルと高域スペクトルとを結合し全周波数帯域にわたるスペクトルを得るスペクトル結合部1723と、スペクトルを時間信号に変換し変換後の信号を復号信号として外部に出力する周波数領域逆変換部1725とを備えている。
FIG. 17 is a block diagram showing the main configuration of
また、音声復号化装置1701は、ハードウェア構成としては、前述した音声復号化装置1501と同様に、図22に示す構成を備える。前述した図17の各ブロックの機能は、例えば図22に示すCPU2201の制御の下で主記憶部2202に所定のソフトウェアを読み込ませ実行することにより、実現される。
Also, the
音声復号化装置1701は、音声信号の低域スペクトルを符号化した情報と高域スペクトルのトーン対雑音比情報と高域スペクトルの包絡情報を含むビットストリームに対し、図18のフローチャートに示す一連の処理を行って、復号された音声信号を外部へ出力する。以下、図18の一連の処理を説明する。
The
図18のステップ1801では、ビットストリーム分離部1703が、多重化されたビットストリームを、音声信号の低域スペクトルを符号化した情報1705と高域スペクトルのトーン対雑音比情報1707と高域スペクトルの包絡情報1709とに分離する。
In
次のステップ1803では、低域復号化部1713が、音声信号の低域スペクトルを符号化した情報1705に基づいて低域スペクトルを復号化し、スペクトル複写部1715およびスペクトル結合部1723に与える。
In the
次のステップ1805では、スペクトル複写部1715が、実施形態1における図5のスペクトル複写部517と同様の方法(図6のステップ607と同様の方法)でスペクトルの高域への複写を行い、スペクトル形状調整方法決定部1711およびサブバンド分割部1717に与える。
In the
次のステップ1807では、サブバンド分割部1717が、複写された高域スペクトルをサブバンドに分割し、スペクトル形状調整部1719に与える。
In the
次のステップ1809では、スペクトル形状調整方法決定部1711が、図19に示すブロック図に従って、スペクトル形状調整方法を決定する。図19の処理内容は、実施形態1における図5のスペクトル形状調整方法決定部525による図6のステップ611の処理内容とほぼ同様であるが、図6のステップ611とは異なり、入力信号のトーン対雑音比情報1707がスペクトル形状調整方法決定部1711に対し与えられる。そのため、図19の処理では、スペクトル正規化とトーン対雑音比算出は、複写後の高域スペクトルに対してのみ行われる。スペクトル形状調整方法決定部1711には、実施形態1の変形例1から変形例4と同様の変形を加えることができる。変形例2と同様の変形を加えることより、雑音の重畳を伴わず、スペクトルの振幅の変形のみによるスペクトル形状調整方法をとることができる。また、変形例3と同様の変形を加えることにより、スペクトルの振幅の変形を伴わず、雑音の重畳のみによるスペクトル形状調整方法を取ることができる。
In the
次のステップ1811では、スペクトル形状調整部1719が、サブバンド分割された高域スペクトルの形状を式5に従って調整し、その調整結果をスペクトル包絡調整部1721に与える。
In the
次のステップ1813では、スペクトル包絡調整部1721が、高域スペクトルの包絡情報1709に基づいて高域スペクトルの包絡を調整し、その調整結果をスペクトル結合部1723に与える。
In the
次のステップ1815では、スペクトル結合部1723が、低域復号化部1713から与えられた低域スペクトルと、スペクトル包絡調整部1721から与えられた高域スペクトルとを結合し、全周波数帯域にわたるスペクトルを得て、得られた全周波数帯域にわたるスペクトルを周波数領域逆変換部1725に与える。
In the
次のステップ1817では、周波数領域逆変換部1725が、スペクトルを時間信号に変換し、変換後の信号を復号信号として外部へ出力する。
In the
以上に示した実施形態2においても、実施形態1と同様に、帯域拡張に伴うスペクトル微細構造の調整を高い品質で行うことができ、復号音声の主観的品質を向上させることができる。 Also in the second embodiment described above, as in the first embodiment, the spectral fine structure accompanying the band expansion can be adjusted with high quality, and the subjective quality of the decoded speech can be improved.
(実施形態3)
図20は、本発明の実施形態3における音声帯域拡張装置2001の主要な構成を示すブロック図である。音声帯域拡張装置2001は、入力信号に対し周波数領域への変換処理を行い低域スペクトルを得る周波数領域変換部2003と、前述した図5のスペクトル複写部517と同様の方法で、周波数領域変換部2003から与えられた低域スペクトルの高域への複写を行うスペクトル複写部2005と、スペクトル複写部2005から与えられた高域スペクトルを複数のサブバンドに分割するサブバンド分割部2011と、高域スペクトルの各サブバンドにおけるトーン対雑音比を低域スペクトルから推定するトーン対雑音比推定部2007と、高域スペクトルのスペクトル包絡を低域スペクトルから推定するスペクトル包絡推定部2009と、サブバンド分割部2011から与えられるサブバンド分割された高域スペクトルと、トーン対雑音比推定部2007から与えられるトーン対雑音比とから、前述した図5のスペクトル形状調整方法決定部525と同様の方法で、スペクトル形状調整方法を決定するスペクトル形状調整方法決定部2015と、スペクトル形状調整方法決定部2015から与えられるスペクトル形状調整方法を用いて、前述した図15のスペクトル形状調整部1517と同様の方法で高域スペクトルの形状調整を行うスペクトル形状調整部2013と、スペクトル包絡推定部2009から与えられたスペクトル包絡情報を用いて高域スペクトルの包絡を調整するスペクトル包絡調整部2017と、スペクトル包絡調整部2017から与えられた高域スペクトルと周波数領域変換部2003から与えられた低域スペクトルとを結合するスペクトル結合部2019と、結合後のスペクトルを時間信号に変換し、高域が復元された広帯域音声信号として変換後の信号を外部へ出力する周波数領域逆変換部2021とを備えている。
(Embodiment 3)
FIG. 20 is a block diagram showing the main configuration of the voice
この音声帯域拡張装置2001は、ハードウェア構成としては、前述した音声符号化装置501および音声復号化装置1501と同様に、例えば図22に示す構成を備える。前述した図20の各ブロックの機能は、図22に示すCPU2201の制御の下で主記憶部2202に所定のソフトウェアを読み込ませ実行することにより、実現される。
The speech
音声帯域拡張装置2001は、音声の低域成分のみを含む帯域制限された入力信号に対し図21のフローチャートに示す一連の処理を行って高域成分が復元された広帯域音声信号を外部へ出力する。以下、図21の一連の処理を説明する。
The voice
図21のステップ2101では、周波数領域変換部2003が、入力信号に対して周波数領域への変換を行い、低域スペクトルを得る。ここでの変換の方法としては、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、修正離散コサイン変換(MDCT)、コサイン変調フィルタバンクなどを用いることができる。入力音声が時間領域でなく周波数領域の信号として与えられる場合にはステップ2101および周波数領域変換部2003は省略することができる。
In
次のステップ2103では、スペクトル複写部2005が、前述した図5のスペクトル複写部517による図6のステップ607と同様の方法で、周波数領域変換部2003から与えられた低域スペクトルの高域への複写を行い、サブバンド分割部2011に与える。
In the
次のステップ2105では、サブバンド分割部2011が、スペクトル複写部2005から与えられた高域スペクトルを複数のサブバンドに分割し、スペクトル形状調整方法決定部2015およびスペクトル形状調整部2013に与える。なお、図20のサブバンド分割部2011または図21のステップ2105は、必須ではなく、分割されていない高域スペクトル全体をスペクトル形状調整部2013に与えてもよい。
In the
次のステップ2107では、トーン対雑音比推定部2007が、高域スペクトルの各サブバンドにおけるトーン対雑音比を低域スペクトルから推定し、スペクトル形状調整方法決定部2015に与える。ここでの推定には、広帯域音声のスペクトルを用いて予め学習したベクトル量子化器、混合ガウスモデル(GMM)、隠れマルコフモデル(HMM)などを用いることができる。
In the
次のステップ2109では、スペクトル包絡推定部2009が、高域スペクトルのスペクトル包絡を低域スペクトルから推定し、スペクトル包絡調整部2017に与える。ここでの推定には、トーン対雑音比の推定と同様、広帯域音声のスペクトルを用いて予め学習したベクトル量子化器、混合ガウスモデル(GMM)、隠れマルコフモデル(HMM)などを用いることができる。
In the
次のステップ2111では、スペクトル形状調整方法決定部2015が、サブバンド分割部2011から与えられるサブバンド分割された高域スペクトルと、トーン対雑音比推定部2007から与えられるトーン対雑音比とから、前述した図5のスペクトル形状調整方法決定部525と同様の方法で、スペクトル形状調整方法を決定し、スペクトル形状調整部2013に与える。スペクトル形状調整方法決定部2015には、実施形態1の変形例1から変形例4と同様の変形を加えることができる。変形例2と同様の変形を加えることより、雑音の重畳を伴わず、スペクトルの振幅の変形のみによるスペクトル形状調整方法をとることができる。また、変形例3と同様の変形を加えることにより、スペクトルの振幅の変形を伴わず、雑音の重畳のみによるスペクトル形状調整方法を取ることができる。
In the
次のステップ2113では、スペクトル形状調整部2013が、スペクトル形状調整方法決定部2015から与えられるスペクトル形状調整方法を用いて、前述した図15のスペクトル形状調整部1517と同様の方法で、高域スペクトルの形状調整を行う。
In the
次のステップ2115では、スペクトル包絡調整部2017が、スペクトル包絡推定部2009から与えられたスペクトル包絡情報を用いて高域スペクトルの包絡を調整し、スペクトル結合部2019に与える。
In the
次のステップ2117では、スペクトル結合部2019が、スペクトル包絡調整部2017から与えられた高域スペクトルと、周波数領域変換部2003から与えられた低域スペクトルとを結合し、結合後のスペクトルを周波数領域逆変換部2021に与える。
In the
次のステップ2119では、周波数領域逆変換部2021が、結合後のスペクトルを時間信号に変換し、高域が復元された広帯域音声信号として、変換後の信号を外部へ出力する。
In the
(実施形態3の変形例)
以上に示した音声帯域拡張装置2001においては、入力音声が時間領域の信号として与えられる場合を例示したが、前述の通り入力信号は周波数領域の信号であってもよい。さらに、この周波数領域の信号は、変換符号化に基づく音声符号化方法によって符号化された音声の復号処理の中途段階において得られた信号であってもよい。変換符号化に基づく音声符号化方法によって符号化された音声の復号処理を行う音声復号化装置では、復号処理の最後の段階において周波数領域から時間領域への信号の逆変換を行うが、逆変換前の周波数領域の信号を音声帯域拡張装置2001に与えることにより、高域が復元された広帯域の復号音声を音声帯域拡張装置2001の出力として得ることができる。
(Modification of Embodiment 3)
In the voice
以上に示した実施形態3においても、実施形態1と同様に、帯域拡張に伴うスペクトル微細構造の調整を高い品質で行うことができ、復元音声の主観的品質を向上させることができる。 Also in the third embodiment described above, as in the first embodiment, the spectral fine structure can be adjusted with a high quality as a result of band expansion, and the subjective quality of the restored speech can be improved.
501…音声符号化装置、503…周波数領域変換部、505…低域スペクトル、507…高域スペクトル、509…低域符号化部、511…サブバンド分割部、513…高域スペクトル、515…低域復号化部、517…スペクトル複写部、519…高域スペクトル、521…サブバンド分割部、523…高域スペクトル、525…スペクトル形状調整方法決定部、527…スペクトル包絡計算部、529…ビットストリーム多重化部、801、803…スペクトル正規化部、805…LPC分析部、807、809…トーン対雑音比算出部、811…パラメータ決定部、813…マスキング判定部、1501…音声復号化装置、1503…ビットストリーム分離部、1505…符号化した情報、1507…補助情報、1509…スペクトル包絡情報、1511…低域復号化部、1513…スペクトル複写部、1515…サブバンド分割部、1517…スペクトル形状調整部、1519…スペクトル包絡調整部、1521…スペクトル結合部、1523…周波数領域逆変換部、1701…音声復号化装置、1703…ビットストリーム分離部、1705…符号化した情報、1707…トーン対雑音比情報、1709…包絡情報、1711…スペクトル形状調整方法決定部、1713…低域復号化部、1715…スペクトル複写部、1717…サブバンド分割部、1719…スペクトル形状調整部、1721…スペクトル包絡調整部、1723…スペクトル結合部、1725…周波数領域逆変換部、2001…音声帯域拡張装置、2003…周波数領域変換部、2005…スペクトル複写部、2007…トーン対雑音比推定部、2009…スペクトル包絡推定部、2011…サブバンド分割部、2013…スペクトル形状調整部、2015…スペクトル形状調整方法決定部、2017…スペクトル包絡調整部、2019…スペクトル結合部、2021…周波数領域逆変換部、2201…CPU、2202…主記憶部、2203…補助記憶部、2204…通信制御部、2205…表示部、2206…操作部。
501: Speech coding apparatus, 503: Frequency domain transform unit, 505 ... Low frequency spectrum, 507 ... High frequency spectrum, 509 ... Low frequency encoding unit, 511 ... Subband division unit, 513 ... High frequency spectrum, 515 ... Low Area decoding section, 517 ... Spectrum copying section, 519 ... High band spectrum, 521 ... Subband splitting section, 523 ... High band spectrum, 525 ... Spectral shape adjustment method determining section, 527 ... Spectrum envelope calculation section, 529 ... Bit stream Multiplexer, 801, 803 ... spectrum normalization unit, 805 ... LPC analysis unit, 807,809 ... tone-to-noise ratio calculation unit, 811 ... parameter determination unit, 813 ... masking determination unit, 1501 ... voice decoding device, 1503 ... bitstream separation unit, 1505 ... encoded information, 1507 ... auxiliary information, 1509 ... spect Envelope information, 1511 ... Low band decoding unit, 1513 ... Spectrum copying unit, 1515 ... Subband dividing unit, 1517 ... Spectrum shape adjusting unit, 1519 ... Spectrum envelope adjusting unit, 1521 ... Spectrum combining unit, 1523 ... Frequency domain inverse transform , 1701... Speech decoding device, 1703... Bitstream separation unit, 1705... Encoded information, 1707... Tone-to-noise ratio information, 1709... Envelope information, 1711. 1715 ... Spectrum copying unit, 1717 ... Subband dividing unit, 1719 ... Spectral shape adjusting unit, 1721 ... Spectral envelope adjusting unit, 1723 ... Spectrum combining unit, 1725 ... Frequency domain inverse converting unit, 2001 ... Audio band expanding device , 2003 ... frequency domain transform unit, 2005 ...
Claims (19)
前記ビットストリームを、音声信号の低域スペクトルを符号化した情報と、高域スペクトルの性質に関する補助情報とに分離する手段と、
前記音声信号の低域スペクトルを符号化した情報から、低域スペクトルを復号する手段と、
復号によって得られた低域スペクトルの一部または全体を高域に複写することによって第1の高域スペクトルを得る手段と、
前記高域スペクトルの性質に関する補助情報を利用して前記第1の高域スペクトルの形状を調整することによって第2の高域スペクトルを得るスペクトル形状調整手段と、
前記低域スペクトルと前記第2の高域スペクトルとを利用して音声信号を復号する手段と、
前記高域スペクトルの性質に関する補助情報と前記第1の高域スペクトルとに基づいて、前記スペクトル形状調整手段により用いられる前記形状の調整の仕方または重畳する雑音の量を決定するスペクトル形状調整方法決定手段と、
を備え、
前記スペクトル形状調整方法決定手段は、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと形状調整後の高域スペクトルによるマスキング量とを利用して、前記形状の調整の仕方または重畳する雑音の量を決定することを特徴とする音声復号化装置。 A speech signal including a frequency component corresponding to both the low-frequency spectrum and the high-frequency spectrum is decoded from a bitstream including information obtained by encoding the low-frequency spectrum of the audio signal and auxiliary information regarding the nature of the high-frequency spectrum. A speech decoding device comprising:
Means for separating the bitstream into information encoded from a low frequency spectrum of an audio signal and auxiliary information relating to the nature of the high frequency spectrum;
Means for decoding a low-frequency spectrum from information obtained by encoding the low-frequency spectrum of the audio signal;
Means for obtaining a first high-frequency spectrum by copying a part or the whole of the low-frequency spectrum obtained by decoding to a high frequency;
Spectrum shape adjusting means for obtaining a second high-frequency spectrum by adjusting the shape of the first high-frequency spectrum using auxiliary information on the nature of the high-frequency spectrum;
Means for decoding an audio signal using the low frequency spectrum and the second high frequency spectrum;
Spectral shape adjustment method determination for determining how to adjust the shape used by the spectral shape adjusting means or the amount of noise to be superimposed based on auxiliary information regarding the nature of the high frequency spectrum and the first high frequency spectrum Means,
With
The spectrum shape adjustment method determining means uses the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount due to the high-frequency spectrum after the shape adjustment to superimpose or superimpose the shape. A speech decoding apparatus characterized by determining an amount of noise .
ことを特徴とする請求項1記載の音声復号化装置。 The speech decoding apparatus according to claim 1.
ことを特徴とする請求項1または2に記載の音声復号化装置。 The spectrum shape adjusting means obtains the second high frequency spectrum by superimposing noise in addition to adjusting the shape of the first high frequency spectrum.
The speech decoding apparatus according to claim 1 or 2 , characterized in that
前記スペクトル形状調整手段は、重畳する雑音の時間領域での包絡を調整することを特徴とする請求項1〜3の何れか一項に記載の音声復号化装置。 The auxiliary information related to the nature of the high frequency spectrum includes information related to the envelope in the time domain of the high frequency components of the speech,
The speech decoding apparatus according to claim 1, wherein the spectrum shape adjusting unit adjusts an envelope in a time domain of superimposed noise.
音声信号を周波数領域に変換し、低域スペクトルを分離した後、残存する高域スペクトルの一部または全体を第1の高域スペクトルとして分離する手段と、
前記低域スペクトルを符号化する手段と、
前記低域スペクトルの一部または全体を高域に複写することによって第2の高域スペクトルを得る手段と、
前記第1の高域スペクトルと前記第2の高域スペクトルの性質に基づいて、前記音声復号化装置における高域スペクトルの形状の調整の仕方を決定するスペクトル形状調整方法決定手段と、
符号化された前記低域スペクトルと、前記決定された高域スペクトルの形状の調整の仕方の情報とを多重化したビットストリームを生成する手段と、
を備え、
前記スペクトル形状調整方法決定手段は、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと、スペクトル形状の調整後の高域スペクトルによるマスキング量とを利用して、前記高域スペクトルの形状の調整の仕方または重畳する雑音の量を決定することを特徴とする音声符号化装置。 A speech encoding device that generates a bitstream compatible with a speech decoding device that decodes a high-frequency spectrum based on a copy of a decoding result of a low-frequency spectrum to a high frequency,
Means for separating the low frequency spectrum after converting the audio signal into the frequency domain, and then separating a part or all of the remaining high frequency spectrum as a first high frequency spectrum;
Means for encoding the low frequency spectrum;
Means for obtaining a second high frequency spectrum by copying a part or the whole of the low frequency spectrum to a high frequency;
A spectral shape adjustment method determining means for determining how to adjust the shape of the high frequency spectrum in the speech decoding apparatus based on the properties of the first high frequency spectrum and the second high frequency spectrum;
Means for generating a bit stream in which the encoded low frequency spectrum and information on how to adjust the shape of the determined high frequency spectrum are multiplexed ;
Equipped with a,
The spectrum shape adjustment method determining means uses the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount by the high frequency spectrum after the spectrum shape adjustment, to form the shape of the high frequency spectrum. A speech coding apparatus that determines how to adjust the amount of noise or the amount of noise to be superimposed .
ことを特徴とする請求項6記載の音声符号化装置。 The speech encoding apparatus according to claim 6.
前記低域スペクトルの一部または全体を高域に複写することによって第1の高域スペクトルを得る手段と、
前記第1の高域スペクトルの形状を調整することで、第2の高域スペクトルを得るスペクトル形状調整手段と、
前記低域スペクトルと前記第2の高域スペクトルとを利用して、高域周波数成分を含む音声信号を復元する手段と、
前記第1の高域スペクトルの性質に基づいて、音声復号化装置における高域スペクトルの形状の調整の仕方を決定するスペクトル形状調整方法決定手段と、
を備え、
前記スペクトル形状調整方法決定手段は、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと、スペクトル形状の調整後の高域スペクトルによるマスキング量とを利用して、前記高域スペクトルの形状の調整の仕方または重畳する雑音の量を決定することを特徴とする音声帯域拡張装置。 An audio band extending apparatus for restoring an audio signal including a high frequency component not included in the low frequency spectrum from a low frequency spectrum including only a low frequency component of the audio,
Means for obtaining a first high frequency spectrum by copying a part or the whole of the low frequency spectrum to a high frequency;
A spectrum shape adjusting means for obtaining a second high frequency spectrum by adjusting the shape of the first high frequency spectrum;
Means for reconstructing an audio signal including a high frequency component using the low frequency spectrum and the second high frequency spectrum;
Spectrum shape adjustment method determining means for determining how to adjust the shape of the high frequency spectrum in the speech decoding apparatus based on the property of the first high frequency spectrum;
Equipped with a,
The spectrum shape adjustment method determining means uses the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount by the high frequency spectrum after the spectrum shape adjustment, to form the shape of the high frequency spectrum. A voice band extending apparatus for determining an adjustment method or an amount of superimposed noise .
ことを特徴とする請求項10記載の音声帯域拡張装置。 The voice band extending apparatus according to claim 10.
ことを特徴とする請求項10または11に記載の音声帯域拡張装置。 The spectrum shape adjusting means obtains the second high frequency spectrum by superimposing noise in addition to adjusting the shape of the first high frequency spectrum.
The voice band extending apparatus according to claim 10 or 11 , wherein
前記ビットストリームを、音声信号の低域スペクトルを符号化した情報と、高域スペクトルの性質に関する補助情報とに分離するステップと、
前記音声信号の低域スペクトルを符号化した情報から、低域スペクトルを復号するステップと、
復号によって得られた低域スペクトルの一部または全体を高域に複写することによって第1の高域スペクトルを得るステップと、
前記高域スペクトルの性質に関する補助情報を利用して前記第1の高域スペクトルの形状を調整することによって第2の高域スペクトルを得るスペクトル形状調整ステップと、
前記低域スペクトルと前記第2の高域スペクトルとを利用して音声信号を復号するステップと、
前記高域スペクトルの性質に関する補助情報と前記第1の高域スペクトルとに基づいて、前記スペクトル形状調整ステップにより用いられる前記形状の調整の仕方または重畳する雑音の量を決定するスペクトル形状調整方法決定ステップと、
を備え、
前記スペクトル形状調整方法決定ステップは、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと形状調整後の高域スペクトルによるマスキング量とを利用して、前記形状の調整の仕方または重畳する雑音の量を決定することを特徴とする音声復号化方法。 A speech signal including a frequency component corresponding to both the low-frequency spectrum and the high-frequency spectrum is decoded from a bitstream including information obtained by encoding the low-frequency spectrum of the audio signal and auxiliary information regarding the nature of the high-frequency spectrum. A speech decoding method executed by a speech decoding device,
Separating the bitstream into information encoded from the low frequency spectrum of the audio signal and auxiliary information relating to the nature of the high frequency spectrum;
Decoding the low-frequency spectrum from information obtained by encoding the low-frequency spectrum of the audio signal;
Obtaining a first high-frequency spectrum by copying a part or the whole of the low-frequency spectrum obtained by decoding to a high frequency;
A spectral shape adjustment step of obtaining a second high-frequency spectrum by adjusting the shape of the first high-frequency spectrum using auxiliary information on the nature of the high-frequency spectrum;
Decoding an audio signal using the low frequency spectrum and the second high frequency spectrum;
Spectral shape adjustment method determination for determining the shape adjustment method or the amount of noise to be superimposed used by the spectral shape adjustment step based on the auxiliary information on the nature of the high frequency spectrum and the first high frequency spectrum Steps,
With
The spectrum shape adjustment method determining step uses the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount by the high-frequency spectrum after the shape adjustment, or the method of shape adjustment or superimposition. A speech decoding method characterized by determining an amount of noise .
ことを特徴とする請求項14記載の音声復号化方法。 In the spectral shape adjustment step, the speech decoding apparatus obtains the second high frequency spectrum by superimposing noise in addition to the adjustment of the shape of the first high frequency spectrum.
The speech decoding method according to claim 14 , wherein:
音声信号を周波数領域に変換し、低域スペクトルを分離した後、残存する高域スペクトルの一部または全体を第1の高域スペクトルとして分離するステップと、
前記低域スペクトルを符号化するステップと、
前記低域スペクトルの一部または全体を高域に複写することによって第2の高域スペクトルを得るステップと、
前記第1の高域スペクトルと前記第2の高域スペクトルの性質に基づいて、前記音声復号化装置における高域スペクトルの形状の調整の仕方を決定するスペクトル形状調整方法決定ステップと、
符号化された前記低域スペクトルと、前記決定された高域スペクトルの形状の調整の仕方の情報とを多重化したビットストリームを生成するステップと、
を備え、
前記スペクトル形状調整方法決定ステップは、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと、スペクトル形状の調整後の高域スペクトルによるマスキング量とを利用して、前記高域スペクトルの形状の調整の仕方または重畳する雑音の量を決定することを特徴とする音声符号化方法。 A speech coding method that is executed by a speech coding apparatus that generates a bitstream suitable for a speech decoding apparatus that decodes a high-frequency spectrum based on copying of a decoding result of a low-frequency spectrum to a high frequency, ,
Separating the audio signal into the frequency domain, separating the low-frequency spectrum, and then separating part or all of the remaining high-frequency spectrum as a first high-frequency spectrum;
Encoding the low-pass spectrum;
Obtaining a second high frequency spectrum by copying a part or the whole of the low frequency spectrum to a high frequency;
A spectral shape adjustment method determining step for determining how to adjust the shape of the high frequency spectrum in the speech decoding apparatus based on the properties of the first high frequency spectrum and the second high frequency spectrum;
Generating a bitstream in which the encoded low-frequency spectrum and information on how to adjust the shape of the determined high-frequency spectrum are multiplexed ;
Equipped with a,
The spectrum shape adjustment method determination step uses the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount by the high frequency spectrum after the spectrum shape adjustment, and the shape of the high frequency spectrum A speech encoding method characterized by determining an adjustment method or an amount of noise to be superimposed .
前記低域スペクトルの一部または全体を高域に複写することによって第1の高域スペクトルを得るステップと、
前記第1の高域スペクトルの形状を調整することで、第2の高域スペクトルを得るスペクトル形状調整ステップと、
前記低域スペクトルと前記第2の高域スペクトルとを利用して、高域周波数成分を含む音声信号を復元するステップと、
前記第1の高域スペクトルの性質に基づいて、音声復号化装置における高域スペクトルの形状の調整の仕方を決定するスペクトル形状調整方法決定ステップと、
を備え、
前記スペクトル形状調整方法決定ステップは、前記スペクトルの形状の調整に起因して出力信号に生じる歪みと、スペクトル形状の調整後の高域スペクトルによるマスキング量とを利用して、前記高域スペクトルの形状の調整の仕方または重畳する雑音の量を決定することを特徴とする音声帯域拡張方法。 A voice band extending method executed by a voice band extending apparatus for restoring a voice signal including a high frequency component not included in the low frequency spectrum from a low frequency spectrum including only a low frequency component of the voice,
Obtaining a first high frequency spectrum by copying a part or the whole of the low frequency spectrum to a high frequency;
A spectral shape adjustment step for obtaining a second high frequency spectrum by adjusting the shape of the first high frequency spectrum;
Reconstructing an audio signal including a high frequency component using the low frequency spectrum and the second high frequency spectrum;
A spectral shape adjustment method determining step for determining how to adjust the shape of the high frequency spectrum in the speech decoding apparatus based on the property of the first high frequency spectrum;
Equipped with a,
The spectrum shape adjustment method determination step uses the distortion generated in the output signal due to the adjustment of the shape of the spectrum and the masking amount by the high frequency spectrum after the spectrum shape adjustment, and the shape of the high frequency spectrum A method of expanding a voice band , characterized by determining a method of adjusting the amount of noise or an amount of noise to be superimposed .
ことを特徴とする請求項18記載の音声帯域拡張方法。 In the spectral shape adjustment step, the speech decoding apparatus obtains the second high frequency spectrum by superimposing noise in addition to the adjustment of the shape of the first high frequency spectrum.
The method of extending a voice band according to claim 18 .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008183113A JP5203077B2 (en) | 2008-07-14 | 2008-07-14 | Speech coding apparatus and method, speech decoding apparatus and method, and speech bandwidth extension apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008183113A JP5203077B2 (en) | 2008-07-14 | 2008-07-14 | Speech coding apparatus and method, speech decoding apparatus and method, and speech bandwidth extension apparatus and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010020251A JP2010020251A (en) | 2010-01-28 |
JP5203077B2 true JP5203077B2 (en) | 2013-06-05 |
Family
ID=41705184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008183113A Expired - Fee Related JP5203077B2 (en) | 2008-07-14 | 2008-07-14 | Speech coding apparatus and method, speech decoding apparatus and method, and speech bandwidth extension apparatus and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5203077B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10410647B2 (en) | 2014-03-24 | 2019-09-10 | Ntt Docomo, Inc. | Audio decoding device, audio encoding device, audio decoding method, audio encoding method, audio decoding program, and audio encoding program |
US11562760B2 (en) | 2012-04-27 | 2023-01-24 | Ntt Docomo, Inc. | Audio decoding device, audio coding device, audio decoding method, audio coding method, audio decoding program, and audio coding program |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011001578A1 (en) * | 2009-06-29 | 2011-01-06 | パナソニック株式会社 | Communication apparatus |
JP5754899B2 (en) | 2009-10-07 | 2015-07-29 | ソニー株式会社 | Decoding apparatus and method, and program |
JP5609737B2 (en) | 2010-04-13 | 2014-10-22 | ソニー株式会社 | Signal processing apparatus and method, encoding apparatus and method, decoding apparatus and method, and program |
JP5652658B2 (en) | 2010-04-13 | 2015-01-14 | ソニー株式会社 | Signal processing apparatus and method, encoding apparatus and method, decoding apparatus and method, and program |
JP5850216B2 (en) | 2010-04-13 | 2016-02-03 | ソニー株式会社 | Signal processing apparatus and method, encoding apparatus and method, decoding apparatus and method, and program |
US9047875B2 (en) * | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
JP5707842B2 (en) | 2010-10-15 | 2015-04-30 | ソニー株式会社 | Encoding apparatus and method, decoding apparatus and method, and program |
CN103460286B (en) * | 2011-02-08 | 2015-07-15 | Lg电子株式会社 | Method and apparatus for bandwidth extension |
AU2012218409B2 (en) * | 2011-02-18 | 2016-09-15 | Ntt Docomo, Inc. | Speech decoder, speech encoder, speech decoding method, speech encoding method, speech decoding program, and speech encoding program |
JP5975243B2 (en) * | 2011-08-24 | 2016-08-23 | ソニー株式会社 | Encoding apparatus and method, and program |
JP5942358B2 (en) * | 2011-08-24 | 2016-06-29 | ソニー株式会社 | Encoding apparatus and method, decoding apparatus and method, and program |
JP6037156B2 (en) * | 2011-08-24 | 2016-11-30 | ソニー株式会社 | Encoding apparatus and method, and program |
US9390718B2 (en) | 2011-12-27 | 2016-07-12 | Mitsubishi Electric Corporation | Audio signal restoration device and audio signal restoration method |
KR101897455B1 (en) * | 2012-04-16 | 2018-10-04 | 삼성전자주식회사 | Apparatus and method for enhancement of sound quality |
WO2014115225A1 (en) | 2013-01-22 | 2014-07-31 | パナソニック株式会社 | Bandwidth expansion parameter-generator, encoder, decoder, bandwidth expansion parameter-generating method, encoding method, and decoding method |
RU2665281C2 (en) * | 2013-09-12 | 2018-08-28 | Долби Интернэшнл Аб | Quadrature mirror filter based processing data time matching |
JP6531649B2 (en) | 2013-09-19 | 2019-06-19 | ソニー株式会社 | Encoding apparatus and method, decoding apparatus and method, and program |
JP6593173B2 (en) | 2013-12-27 | 2019-10-23 | ソニー株式会社 | Decoding apparatus and method, and program |
CN111312278B (en) * | 2014-03-03 | 2023-08-15 | 三星电子株式会社 | Method and apparatus for high frequency decoding of bandwidth extension |
KR20240046298A (en) | 2014-03-24 | 2024-04-08 | 삼성전자주식회사 | Method and apparatus for encoding highband and method and apparatus for decoding high band |
PL3128513T3 (en) * | 2014-03-31 | 2019-11-29 | Fraunhofer Ges Forschung | Encoder, decoder, encoding method, decoding method, and program |
EP3067886A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
EP3288031A1 (en) | 2016-08-23 | 2018-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding an audio signal using a compensation value |
IL278223B2 (en) | 2018-04-25 | 2023-12-01 | Dolby Int Ab | Integration of high frequency audio reconstruction techniques |
IL313348A (en) * | 2018-04-25 | 2024-08-01 | Dolby Int Ab | Integration of high frequency reconstruction techniques with reduced post-processing delay |
CN112530446B (en) * | 2019-09-18 | 2023-10-20 | 腾讯科技(深圳)有限公司 | Band expansion method, device, electronic equipment and computer readable storage medium |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3926726B2 (en) * | 2001-11-14 | 2007-06-06 | 松下電器産業株式会社 | Encoding device and decoding device |
JP4308229B2 (en) * | 2001-11-14 | 2009-08-05 | パナソニック株式会社 | Encoding device and decoding device |
EP1423847B1 (en) * | 2001-11-29 | 2005-02-02 | Coding Technologies AB | Reconstruction of high frequency components |
US7668711B2 (en) * | 2004-04-23 | 2010-02-23 | Panasonic Corporation | Coding equipment |
EP1895516B1 (en) * | 2005-06-08 | 2011-01-19 | Panasonic Corporation | Apparatus and method for widening audio signal band |
JP4736812B2 (en) * | 2006-01-13 | 2011-07-27 | ソニー株式会社 | Signal encoding apparatus and method, signal decoding apparatus and method, program, and recording medium |
-
2008
- 2008-07-14 JP JP2008183113A patent/JP5203077B2/en not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11562760B2 (en) | 2012-04-27 | 2023-01-24 | Ntt Docomo, Inc. | Audio decoding device, audio coding device, audio decoding method, audio coding method, audio decoding program, and audio coding program |
US10410647B2 (en) | 2014-03-24 | 2019-09-10 | Ntt Docomo, Inc. | Audio decoding device, audio encoding device, audio decoding method, audio encoding method, audio decoding program, and audio encoding program |
US11437053B2 (en) | 2014-03-24 | 2022-09-06 | Ntt Docomo, Inc. | Audio decoding device, audio encoding device, audio decoding method, audio encoding method, audio decoding program, and audio encoding program |
EP4293667A2 (en) | 2014-03-24 | 2023-12-20 | Ntt Docomo, Inc. | Audio encoding device and audio encoding method |
Also Published As
Publication number | Publication date |
---|---|
JP2010020251A (en) | 2010-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5203077B2 (en) | Speech coding apparatus and method, speech decoding apparatus and method, and speech bandwidth extension apparatus and method | |
JP7092809B2 (en) | A device and method for decoding or coding an audio signal using energy information for the reconstructed band. | |
US10522168B2 (en) | Audio signal synthesizer and audio signal encoder | |
KR101747918B1 (en) | Method and apparatus for decoding high frequency signal | |
CN107945811B (en) | Frequency band expansion-oriented generation type confrontation network training method and audio encoding and decoding method | |
KR101979557B1 (en) | Decoding device and method, and computer-readable storage device | |
JP5224017B2 (en) | Audio encoding apparatus, audio encoding method, and audio encoding program | |
KR101916619B1 (en) | Decoding device and method, and computer readable recording medium | |
KR100915733B1 (en) | Method and device for the artificial extension of the bandwidth of speech signals | |
JP4289815B2 (en) | Improved spectral transfer / folding in the subband region | |
KR101801996B1 (en) | Signal processing device and method, encoding device and method, decoding device and method, and computer readable recording medium | |
JP3579047B2 (en) | Audio decoding device, decoding method, and program | |
JP4934427B2 (en) | Speech signal decoding apparatus and speech signal encoding apparatus | |
KR101355376B1 (en) | Method and apparatus for encoding and decoding high frequency band | |
WO2010024371A1 (en) | Device and method for expanding frequency band, device and method for encoding, device and method for decoding, and program | |
JP2017203995A (en) | Method of encoding and decoding audio signal, and device of the same | |
KR20080045047A (en) | Method and apparatus for bandwidth extension encoding and decoding | |
JP4313993B2 (en) | Audio decoding apparatus and audio decoding method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110614 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120529 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120717 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5203077 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160222 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |