JP2008058727A - Speech coding device - Google Patents
Speech coding device Download PDFInfo
- Publication number
- JP2008058727A JP2008058727A JP2006236803A JP2006236803A JP2008058727A JP 2008058727 A JP2008058727 A JP 2008058727A JP 2006236803 A JP2006236803 A JP 2006236803A JP 2006236803 A JP2006236803 A JP 2006236803A JP 2008058727 A JP2008058727 A JP 2008058727A
- Authority
- JP
- Japan
- Prior art keywords
- frequency signal
- signal
- encoding
- low
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本発明は、音声符号化装置に係り、特に、高域音声信号の符号化処理に関する。 The present invention relates to a speech encoding apparatus, and more particularly to encoding processing of a high frequency speech signal.
音声信号を帯域拡張符号化方式によって符号化する、即ち、基本部分である低域の信号の符号化と、拡張部分である高域の信号とを異なる符号化方式によって符号化することが知られている。この方法は、高域の信号と低域の信号との間には相関があるので、この相関情報としてパワーやノイズレベルやトーン信号成分を符号化することによって高域の信号を符号化するものである。この符号化方法によれば、高効率な音声信号の符号化が可能である。 It is known that a speech signal is encoded by a band extension encoding method, that is, a low-frequency signal that is a basic portion and a high-frequency signal that is an extension portion are encoded by different encoding methods. ing. In this method, since there is a correlation between the high frequency signal and the low frequency signal, the high frequency signal is encoded by encoding power, noise level, and tone signal component as this correlation information. It is. According to this encoding method, highly efficient audio signal encoding is possible.
例えば、あるサンプリング周波数によってサンプリングされた音声信号をAAC(Advanced Audio Coding)方式によって符号化するにあたり、エスビイアアル(登録商標。SBR、Spectral Band Replication、スペクトル帯域複製。)方式(以後、SBR方式と称する。)による符号化を組み合わせて符号化することが知られている。 For example, when an audio signal sampled at a certain sampling frequency is encoded by an AAC (Advanced Audio Coding) method, an Sbiaal (registered trademark, SBR, Spectral Band Replication) method (hereinafter, referred to as an SBR method). It is known that encoding is performed in combination with encoding according to).
AAC方式と、SBR方式とによって音声信号を符号化する場合、その音声信号を、例えば上記サンプリング周波数の半分の周波数でサンプリングした信号に変換して得られる低域の信号は、AAC方式によって符号化する。 When an audio signal is encoded by the AAC method and the SBR method, a low-frequency signal obtained by converting the audio signal into a signal sampled at, for example, half the sampling frequency is encoded by the AAC method. To do.
一方、低域以外の高域の信号は、SBR方式によって符号化する。即ち、QMF(Quadrature Mirror Filter)分析処理によってサブバンド信号に変換する。そして、まず、過渡信号の検出結果に基づいて、エンベロープ情報の区切りとなるグリッド情報を生成する。区切られた各サブバンドサンプルの領域(セグメント)毎のパワー情報をエンベロープ情報として符号化する。また、エンベロープ情報では表現しきれない信号は、付加的な情報として符号化する。 On the other hand, high frequency signals other than the low frequency are encoded by the SBR method. That is, the signal is converted into a subband signal by QMF (Quadrature Mirror Filter) analysis processing. First, grid information serving as a delimiter of envelope information is generated based on the detection result of the transient signal. The power information for each divided subband sample area (segment) is encoded as envelope information. A signal that cannot be expressed by envelope information is encoded as additional information.
最後に、AAC方式によって符号化された信号と、SBR方式によって符号化された信号とが所定のフォーマットに整えられて、符号化は終了する(例えば、特許文献1参照。)。 Finally, the signal encoded by the AAC method and the signal encoded by the SBR method are arranged in a predetermined format, and the encoding ends (see, for example, Patent Document 1).
このSBR方式によって符号化された各サンプル信号は、デコーダでは、AAC方式によって符号化された情報をデコードして得られた低域のサブバンド信号からコピーすることによって得られた信号をベースにして復元される。
しかしながら、上述した特許文献1に開示されている方法では、低域の信号が存在しない、または微小である場合、高域の信号を精度よく表現して符号化することができず、符号化された音声信号がデコードされた際、ノイズが知覚される可能性がある問題点があった。
However, in the method disclosed in
本発明は上記問題点を解決するためになされたもので、低域の信号が存在しない、または微小である音声信号を、ノイズが軽減された帯域拡張符号化する音声符号化装置を提供することを目的とする。 The present invention has been made to solve the above-described problems, and provides a speech coding apparatus that performs band extension coding with reduced noise on a speech signal in which a low-frequency signal does not exist or is very small. With the goal.
上記目的を達成するために、本発明の音声符号化装置は、音声信号の低域信号と高域信号とをそれぞれ異なる方式で符号化することによって、前記音声信号を符号化する音声符号化装置であって、前記低域信号を符号化する低域信号符号化手段と、前記高域信号の前記低域信号への相関情報を符号化することによって前記高域信号を符号化する高域信号符号化手段とを有し、前記高域信号符号化手段は、前記高域信号のパワーを前記低域信号のパワーで除した比を算出し、その算出された比が所定の閾値以上の場合、前記高域信号に前記比に対して単調減少関数となるゲインを前記高域信号に乗算して符号化することを特徴とする。 In order to achieve the above object, a speech encoding apparatus according to the present invention encodes a speech signal by encoding a low frequency signal and a high frequency signal of the speech signal using different methods. A low-frequency signal encoding means for encoding the low-frequency signal, and a high-frequency signal for encoding the high-frequency signal by encoding correlation information of the high-frequency signal with the low-frequency signal. The high frequency signal encoding means calculates a ratio obtained by dividing the power of the high frequency signal by the power of the low frequency signal, and the calculated ratio is equal to or greater than a predetermined threshold value. The high frequency signal is encoded by multiplying the high frequency signal by a gain that is a monotonically decreasing function with respect to the ratio.
また、本発明の音声符号化装置は、音声信号の低域信号と高域信号とをそれぞれ異なる方式で符号化することによって、前記音声信号を符号化する音声符号化装置であって、前記低域信号を符号化する低域信号符号化手段と、前記高域信号のパワーを前記低域信号のパワーで除した比を算出し、その算出された比が所定の閾値以下の場合、前記高域信号の前記低域信号への相関情報を符号化することによって前記高域信号を符号化し、前記算出された比が所定の閾値を超える場合、前記低域信号との相関に係らずに前記高域信号を符号化する高域信号符号化手段とを有することを特徴とする。 The speech coding apparatus according to the present invention is a speech coding apparatus that encodes the speech signal by encoding the low frequency signal and the high frequency signal of the speech signal using different methods. A low-frequency signal encoding means for encoding a high-frequency signal, a ratio obtained by dividing the power of the high-frequency signal by the power of the low-frequency signal, and when the calculated ratio is equal to or less than a predetermined threshold, When the high frequency signal is encoded by encoding correlation information of the low frequency signal to the low frequency signal, and the calculated ratio exceeds a predetermined threshold, the correlation is not related to the low frequency signal. And high frequency signal encoding means for encoding the high frequency signal.
本発明によれば、低域の信号が存在しない、または微小である音声信号を、ノイズが軽減された帯域拡張符号化する音声符号化装置を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the audio | voice encoding apparatus which carries out the band expansion encoding of the audio | voice signal which a low-frequency signal does not exist or is very small by which noise was reduced can be provided.
以下に、本発明による音声符号化装置の実施の形態を、図面を参照して説明する。 Embodiments of a speech encoding apparatus according to the present invention will be described below with reference to the drawings.
(第1の実施形態)
図1は、本発明の第1の実施形態に係る音声符号化装置の構成を示すブロック図である。この音声符号化装置は、PCM音声信号11を受信して符号化し、符号化された信号である符号化音声信号12を生成する装置であり、PCM音声信号11の中の高域の信号を符号化する拡張帯域エンコーダ部21と、低サンプリング周波数化部31と、PCM音声信号11の中の低域の信号を符号化するAACエンコーダ部32と、ストリームフォーマッタ部41とからなる。
(First embodiment)
FIG. 1 is a block diagram showing a configuration of a speech encoding apparatus according to the first embodiment of the present invention. This speech encoding device is a device that receives and encodes a
図2は、拡張帯域エンコーダ部21の構成を示すブロック図である。拡張帯域エンコーダ部21は、PCM音声信号11を受信するQMF分析部22と、グリッド情報生成部23と、ゲイン制御部24と、低域信号比検出部25と、追加パラメータ算出部26と、エンベロープ情報算出部27と、ストリームフォーマッタ部41と接続される拡張帯域ストリームフォーマッタ部28とからなる。
FIG. 2 is a block diagram showing a configuration of the extension
図3は、低域信号比検出部25の構成を示すブロック図である。低域信号比検出部25は、QMF分析部22と接続される低域バンドパワー算出部25aと、QMF分析部22と接続される高域バンドパワー算出部25bと、ゲイン制御部24と接続されるパワー比算出部25cとからなる。
FIG. 3 is a block diagram illustrating a configuration of the low frequency signal
上記のように構成された、本発明の第1の実施形態に係る音声符号化装置の各部の動作を図1ないし図3を参照して説明する。 The operation of each unit of the speech encoding apparatus according to the first embodiment of the present invention configured as described above will be described with reference to FIGS.
QMF分析部22は、受信されたPCM音声信号11を周波数領域に変換し、サブバンド信号を生成する。グリッド情報生成部23は、QMF分析部22によって生成されたサブバンド信号の過渡信号の検出結果に基づいて、エンベロープ情報の区切りとなるグリッド情報を生成する。
The
低域信号比検出部25は、QMF分析部22によって生成されたサブバンド信号を受信し、その信号の低域の信号のパワーと、高域の信号のパワーとの比を検出する。即ち、高域の信号のパワー(Phigh)を低域の信号のパワー(Plow)で除した比を生成する。
The low frequency signal
ゲイン制御部24は、低域信号比検出部25によって検出されたAACエンコーダ部32によって符号化される低域の信号のパワー(Plow)と、拡張帯域エンコーダ部21によって符号化される高域の信号のパワー(Phigh)との比(Phigh/Plow)に基づいて、QMF分析部22によって生成された高域のサブバンド信号に所定のゲインを与えた信号を生成する。
The
ここで、ゲインは、上記比が所定の値以下であれば、1である。そして、その比が所定の値を超えれば、1未満の値を取る単調減少関数である。即ち、高域の信号のパワーが一定であると、低域の信号のパワーが小さくなるほど、小さいゲインを与える、言い換えると、大きい減衰を与える。 Here, the gain is 1 if the ratio is equal to or less than a predetermined value. And if the ratio exceeds a predetermined value, it is a monotonically decreasing function that takes a value of less than 1. That is, if the power of the high frequency signal is constant, the smaller the power of the low frequency signal, the smaller the gain, in other words, the greater the attenuation.
図3を参照して、低域信号比検出部25を構成する各部の動作を説明する。低域バンドパワー算出部25aは、QMF分析部22によって生成されたサブバンド信号の低域のサブバンド信号のパワー(Plow)を算出する。高域バンドパワー算出部25bは、QMF分析部22によって生成されたサブバンド信号の高域のサブバンド信号のパワー(Phigh)を算出する。そして、パワー比算出部25cは、高域バンドパワー算出部25bによって算出された高域の信号のパワー(Phigh)を低域バンドパワー算出部25aによって算出された低域の信号のパワー(Plow)で除して商を求めることによって、パワー比(Phigh/Plow)を生成する。
With reference to FIG. 3, the operation of each unit constituting the low-frequency signal
なお、この比を生成する際、周波数領域での低域信号と高域信号との区切り位置、即ちAAC符号化と拡張帯域符号化の区切りとなる位置は、サンプリング周波数や、符号化レートに依存する。そこで、パワー比算出部25cは、低域サブバンド数Nlowと高域サブバンド数Nhighの比(Nlow/Nhigh)を乗算することで補正する。結果として、補正されたパワー比Prは(Phigh/Plow)×(Nlow/Nhigh)となる。
When this ratio is generated, the position where the low frequency signal and the high frequency signal are separated in the frequency domain, that is, the position where the AAC coding and the extended band coding are separated depends on the sampling frequency and the coding rate. To do. Therefore, the power
図2を参照して、拡張帯域エンコーダ部21を構成する各部の動作の説明に戻る。追加パラメータ算出部26は、グリッド情報生成部23によって生成されたグリッド情報によって区切られたサブバンドであって、ゲイン制御部24によって送信された信号の中で、エンベロープ情報では表現できない信号を検出する。そして、その信号を表現するノイズレベルなどの追加情報を求め、その追加情報を示すパラメータを生成する。
Referring back to FIG. 2, the description returns to the operation of each unit constituting the extension
エンベロープ情報算出部27は、グリッド情報生成部23によって生成されたグリッド情報によって区切られたサブバンド信号に対して、高域のサブバンドサンプルの領域(セグメント)毎のパワー情報をエンベロープ情報として符号化する。
The envelope
拡張帯域ストリームフォーマッタ部28は、グリッド情報生成部23によって生成されたグリッド情報と、追加パラメータ算出部26によって生成された追加情報を示すパラメータと、エンベロープ情報算出部27によって符号化された高域の音声信号とを受信し、所定の拡張帯域、即ち、高域の音声信号符号化情報を所定の形式のストリームに整えて送信する。拡張帯域ストリームフォーマッタ部28によって所定の形式に整えられた符号化された高域の音声信号は、ストリームフォーマッタ部41に送信する。
The extension band
低サンプリング周波数化部31は、PCM音声信号11を受信して、その信号に含まれる低域の信号をダウンサンプル処理して生成する。例えば、通常のAAC符号化とSBR符号化の組合せでは、入力信号がサンプリングされた周波数の2分の1の周波数でサンプリングされた信号を生成するが、本発明の意味するところは低サンプリング周波数を生成する処理であって、2分の1の周波数に限るものではない。AACエンコーダ部32は、低サンプリング周波数化部31によって生成された低域の音声信号を受信して、AAC方式によって符号化し、符号化された信号を送信する。
The low
ストリームフォーマッタ部41は、拡張帯域ストリームフォーマッタ部28によって所定の形式に整えられた符号化された高域の音声信号と、AACエンコーダ部32によって符号化された低域の音声信号とを受信して、これらの高域の音声信号と、低域の音声信号とを所定の形式のストリームに整えて、符号化された音声信号である符号化音声信号12を送信する。
The
上記のように、低域信号比検出部25によって、低域の音声信号のパワーが高域の音声信号に対してより小さい程、高域の音声信号により大きな減衰を与えて符号化する。これは、次の理由による。低域の音声信号のパワーが小さいと、それをコピーして得られる高域信号は、周波数解像度の低いエンベロープ情報を基にエンベロープ補正(ゲインアップ)して得られるため、特に低域信号と高域信号の相関が低い場合には、歪みが大きくなりノイズとして知覚されるためである。また、人間の聴感上重要な低域信号が小さい上、高域の歪みに対するマスキング効果も働かないため、ノイズが知覚されやすくなる。そこで、上記減衰によって、符号化音声信号12がデコードされた信号を聴取した使用者に、そのノイズによる違和感を与え難くする効果がある。
As described above, the low-frequency signal
(第2の実施形態)
本発明の第2の実施形態に係る音声符号化装置と、第1の実施形態に係る音声符号化装置との相違点は、拡張帯域エンコーダ部21にある。そこで、第2の実施形態に係る拡張帯域エンコーダ部21の説明をする。図4は、その拡張帯域エンコーダ部21の構成を示すブロック図である。この第2の実施形態に係る拡張帯域エンコーダ部21で、第1の実施形態に係る拡張帯域エンコーダ部21と同じ部分には、同じ符号を付して説明を省略する。
(Second Embodiment)
The difference between the speech coding apparatus according to the second embodiment of the present invention and the speech coding apparatus according to the first embodiment resides in the extension
この拡張帯域エンコーダ部21は、PCM音声信号11を受信するQMF分析部22と、グリッド情報生成部23と、符号化方式選択部24aと、低域信号比検出部25と、追加パラメータ算出部26と、エンベロープ情報算出部27と、ストリームフォーマッタ部41と接続される拡張帯域ストリームフォーマッタ部28aと、HFC(High Frequency Coding)符号化部29とからなる。
The extension
即ち、この拡張帯域エンコーダ部21は、第1の実施形態に係る拡張帯域エンコーダ部21と比較して、ゲイン制御部24に代えて符号化方式選択部24aを有し、拡張帯域ストリームフォーマッタ部28に代えて拡張帯域ストリームフォーマッタ部28aを有し、更に、HFC符号化部29を有する。
That is, the extension
図5は、HFC符号化部29の構成を示すブロック図である。このHFC符号化部29は、符号化方式選択部24a及びグリッド情報生成部23と接続されるトーナリティ算出部29aと、グリッド情報生成部23と接続される符号化モード選択部29bと、拡張帯域ストリームフォーマッタ部28aと接続されるパラメータ符号化部29cと、拡張帯域ストリームフォーマッタ部28aと接続される波形符号化部29dとからなる。
FIG. 5 is a block diagram showing a configuration of the
上記のように構成された、本発明の第2の実施形態に係る拡張帯域エンコーダ部21の動作を図4ないし図6を参照して説明する。
The operation of the extension
符号化方式選択部24aは、低域信号比検出部25によって生成されたパワー比(Pr)を受信して、この比が所定の閾値以下である場合、高域の信号を、追加パラメータ算出部26及びエンベロープ情報算出部27によって符号化することを選択し、QMF分析部22によって生成された高域のサブバンド信号をこれらの処理部に送って符号化させる。
The encoding
一方、パワー比(Pr)が所定の閾値を超える場合、高域の信号を、HFC符号化部29によって符号化することを選択し、QMF分析部22によって生成された高域のサブバンド信号をHFC符号化部29に送って符号化させる。
On the other hand, when the power ratio (Pr) exceeds a predetermined threshold, the high-frequency signal is selected to be encoded by the
トーナリティ算出部29aは、QMF分析部22によって生成された高域のサブバンド信号を受信して、グリッド情報生成部23によって生成されたグリッドによって区切られた領域の各サブバンド信号に対してトーナリティを算出する。トーナリティ算出の際には、例えば、線形予測ゲインを用いる。この際、よりパワーの大きい信号の特性が反映されやすいように、パワーに応じてトーナリティの値を重み付けする。重み付けは、スケールファクタバンド内で最大のパワー値を持つサブバンド信号のパワー値で正規化することによりなされる。
The
符号化モード選択部29bは、トーナリティ算出部29aによって算出されたトーナリティを受信し、グリッド情報生成部23によって生成されたグリッドによって区切られた領域のスケールファクタバンド内の各サブバンド信号のトーナリティに基づいて、そのスケールファクタバンド毎の符号化モードを選択する。即ち、スケールファクタバンド内の各サブバンド信号のトーナリティの値で最も高い値が所定の閾値以上であるか否かで判断する。
The encoding
そのトーナリティが所定の閾値以下である場合、そのスケールファクタバンドは、ノイズライクな信号であると判断され、符号化モード選択部29bは、グリッドによって区切られた領域の信号に関するパワー情報を含むパラメータ情報をパラメータ符号化部29cに符号化させる。一方、そのトーナリティが所定の閾値を超える場合、上記信号を波形符号化部29dに符号化させる。
When the tonality is equal to or less than a predetermined threshold, the scale factor band is determined to be a noise-like signal, and the encoding
パラメータ符号化部29cは、セグメント毎にノイズライクな信号の符号化であることを示すフラグとパワー情報とを符号化する。波形符号化部29dは、各サブバンドサンプルを波形符号化する。波形符号化は、目標とする拡張帯域ストリームのビットレートに応じ、言い換えると、目標とする拡張帯域ストリームフォーマッタ部28aによって送信される情報の量に応じて、セグメント毎のスケールファクタ(量子化ステップ)を決定する。そして、量子化された各サブバンドサンプルの差分値をハフマン符号化する。
The
拡張帯域ストリームフォーマッタ部28aは、グリッド情報生成部23によって生成されたグリッド情報と、追加パラメータ算出部26によって生成された追加情報を示すパラメータと、エンベロープ情報算出部27によって符号化された高域の音声信号とに加えて、パラメータ符号化部29cによって符号化されたパラメータ情報と、波形符号化部29dによって符号化された高域の音声信号を受信する。そして、これらの受信された信号を、所定の拡張帯域、即ち、高域の音声信号が符号化された所定の形式のストリームに整えて送信する。
The extension band
図6は、第2の実施形態に係る音声符号化装置によって各サブバンドがいずれかの方法によって符号化された一例を示す。ここでは、16個のサブバンドに分割されているとする。低域の6つのサブバンドは、AACエンコーダ部32によってAAC符号化される。図6では、これらのサブバンドに右上から左下へのハッチングを施してある。
FIG. 6 shows an example in which each subband is encoded by any method by the speech encoding apparatus according to the second embodiment. Here, it is assumed that it is divided into 16 subbands. The six sub-bands in the low band are AAC encoded by the
高域のサブバンドは、周波数が低い順に、3つのサブバンドを持つ第1のスケールファクタバンド(sfb1)、3つのサブバンドを持つ第2のスケールファクタバンド(sfb2)、4つのサブバンドを持つ第3のスケールファクタバンド(sfb3)に分割されている。 The high-frequency subbands have a first scale factor band (sfb1) having three subbands, a second scale factor band (sfb2) having three subbands, and four subbands in order of decreasing frequency. It is divided into a third scale factor band (sfb3).
各スケールファクタバンドの中で、最も高いトーナリティを持つサブバンドが符号化モード選択部29bによって判断され、そのトーナリティが各スケールファクタバンド毎の閾値と比較される。図6で、各スケールファクタバンドの中で、最も高いトーナリティを持つサブバンドに左上から右下へのハッチングを施してある。
Among the scale factor bands, the subband having the highest tonality is determined by the encoding
そして、そのトーナリティが所定の閾値以下であれば、そのスケールファクタバンドの信号は、パラメータ符号化部29cに符号化させる。一方、そのトーナリティが所定の閾値を超える場合、波形符号化部29dに符号化させる。
If the tonality is equal to or less than a predetermined threshold, the signal of the scale factor band is encoded by the
図6に示す一例では、sfb1で最大のトーナリティはsfb1用の閾値TH1を超える(tonal(max)>TH1)ため、sfb1の信号は波形符号化部29dによって符号化される。また、sfb2で最大のトーナリティはsfb2用の閾値TH2を超える(tonal(max)>TH2)ため、sfb2の信号は波形符号化部29dによって符号化される。
In the example shown in FIG. 6, since the maximum tonality at sfb1 exceeds the threshold TH1 for sfb1 (tonal (max)> TH1), the signal of sfb1 is encoded by the
そして、sfb3で最大のトーナリティはsfb3用の閾値TH3未満である(tonal(max)<TH3)ため、sfb3の信号はパラメータ符号化部29cによってパワー情報を含むパラメータ情報として符号化される。ここで、聴覚特性を考慮して、高域ほどパラメータ符号化が選択されやすくするため、上記閾値は、高域ほど大きくする(TH1<TH2<TH3)。
Since the maximum tonality in sfb3 is less than the threshold TH3 for sfb3 (tonal (max) <TH3), the signal of sfb3 is encoded as parameter information including power information by the
なお、この拡張帯域エンコーダ部21の動作と、第1の実施形態に係る拡張帯域エンコーダ部21の動作とを比較すると、パワー比(Pr)が高い場合、高域の信号は、聴感上歪みが知覚されやすいトーナルな信号に対して波形符号化部29dによる波形符号化が行われることにより、高域の信号を低歪みで符号化できる。
When the operation of the extension
一方、その場合、拡張帯域エンコーダ部21によって作成される符号のビット数は多いことがある。しかし、上記比が高いことは、低域の信号がない、または微小であることを意味し、その結果、AACエンコーダ部32によって作成される低域の信号に割り当てられるビット数は少ない。その結果、符号化音声信号12のビット数が過大になることを防ぐことができる。
On the other hand, in that case, the number of bits of the code created by the extension
(その他の実施形態)
本発明の実施形態に係る音声符号化装置は、プログラムを利用して動作するコンピュータであっても良い。また、本発明は、音声信号を符号化するあらゆる装置に適用することが当然に可能である。ここで、音声信号は、人が発生した声、楽音、その他のあらゆる音を含むことは、言うまでもない。また、上記の実施形態で説明した要素を適宜組み合わせても良い。本発明は以上の構成に限定されるものではなく、種々の変形が可能である。
(Other embodiments)
The speech encoding apparatus according to the embodiment of the present invention may be a computer that operates using a program. In addition, the present invention can naturally be applied to any device that encodes an audio signal. Here, it goes without saying that the audio signal includes a voice generated by a person, a musical sound, and any other sound. Moreover, you may combine suitably the element demonstrated in said embodiment. The present invention is not limited to the above configuration, and various modifications are possible.
11 PCM音声信号
12 符号化音声信号
21 拡張帯域エンコーダ部
22 QMF分析部
23 グリッド情報生成部
24 ゲイン制御部
24a 符号化方式選択部
25 低域信号比検出部
25a 低域バンドパワー算出部
25b 高域バンドパワー算出部
25c パワー比算出部
26 追加パラメータ算出部
27 エンベロープ情報算出部
28、28a 拡張帯域ストリームフォーマッタ部
29 HFC符号化部
29a トーナリティ算出部
29b 符号化モード選択部
29c パラメータ符号化部
29d 波形符号化部
31 低サンプリング周波数化部
32 AACエンコーダ部
41 ストリームフォーマッタ部
11
Claims (6)
前記低域信号を符号化する低域信号符号化手段と、
前記高域信号の前記低域信号への相関情報を符号化することによって前記高域信号を符号化する高域信号符号化手段とを有し、
前記高域信号符号化手段は、前記高域信号のパワーを前記低域信号のパワーで除した比を算出し、その算出された比が所定の閾値以上の場合、前記比に対して単調減少関数となるゲインを前記高域信号に乗算して符号化する
ことを特徴とする音声符号化装置。 An audio encoding device that encodes the audio signal by encoding the low-frequency signal and the high-frequency signal of the audio signal in different manners,
Low-frequency signal encoding means for encoding the low-frequency signal;
High frequency signal encoding means for encoding the high frequency signal by encoding correlation information of the high frequency signal to the low frequency signal;
The high frequency signal encoding means calculates a ratio obtained by dividing the power of the high frequency signal by the power of the low frequency signal, and when the calculated ratio is equal to or greater than a predetermined threshold, monotonously decreases with respect to the ratio. A speech coding apparatus, wherein the high frequency signal is multiplied by a gain as a function and coded.
前記低域信号を符号化する低域信号符号化手段と、
前記高域信号のパワーを前記低域信号のパワーで除した比を算出し、その算出された比が所定の閾値以下の場合、前記高域信号の前記低域信号への相関情報を符号化することによって前記高域信号を符号化し、前記算出された比が所定の閾値を超える場合、前記低域信号との相関に係らずに前記高域信号を符号化する高域信号符号化手段と
を有することを特徴とする音声符号化装置。 An audio encoding device that encodes the audio signal by encoding the low-frequency signal and the high-frequency signal of the audio signal in different manners,
Low-frequency signal encoding means for encoding the low-frequency signal;
Calculate a ratio obtained by dividing the power of the high-frequency signal by the power of the low-frequency signal, and if the calculated ratio is equal to or less than a predetermined threshold, encode correlation information of the high-frequency signal to the low-frequency signal Encoding the high frequency signal, and when the calculated ratio exceeds a predetermined threshold, high frequency signal encoding means for encoding the high frequency signal irrespective of the correlation with the low frequency signal; A speech encoding apparatus comprising:
ことを特徴とする請求項2に記載の音声符号化装置。 The high frequency signal encoding means, when the calculated ratio exceeds a predetermined threshold, divides the high frequency signal into a plurality of scale factor bands, calculates the tonality for each of the divided scale factor bands, If the calculated tonality is less than or equal to the tonality threshold, the signal included in the scale factor band is parameter-encoded. If the calculated tonality exceeds the tonality threshold, the signal included in the scale factor band is waveform encoded. The speech encoding apparatus according to claim 2, wherein:
ことを特徴とする請求項3に記載の音声符号化装置。 The speech encoding apparatus according to claim 3, wherein the tonality for each scale factor band is a maximum value of the tonality of a subband signal included in the scale factor band.
ことを特徴とする請求項3に記載の音声符号化装置。 The speech encoding apparatus according to claim 3, wherein the tonality threshold value is a larger value with respect to the higher scale factor band.
ことを特徴とする請求項3に記載の音声符号化装置。 The speech coding apparatus according to claim 3, wherein the parameter coding is coding of a parameter including power information of the signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006236803A JP2008058727A (en) | 2006-08-31 | 2006-08-31 | Speech coding device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006236803A JP2008058727A (en) | 2006-08-31 | 2006-08-31 | Speech coding device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008058727A true JP2008058727A (en) | 2008-03-13 |
Family
ID=39241511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006236803A Pending JP2008058727A (en) | 2006-08-31 | 2006-08-31 | Speech coding device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008058727A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014240974A (en) * | 2014-08-06 | 2014-12-25 | ソニー株式会社 | Encoding apparatus, encoding method, and program |
CN111710342A (en) * | 2014-03-31 | 2020-09-25 | 弗朗霍弗应用研究促进协会 | Encoding device, decoding device, encoding method, decoding method, and program |
CN113192523A (en) * | 2020-01-13 | 2021-07-30 | 华为技术有限公司 | Audio coding and decoding method and audio coding and decoding equipment |
-
2006
- 2006-08-31 JP JP2006236803A patent/JP2008058727A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111710342A (en) * | 2014-03-31 | 2020-09-25 | 弗朗霍弗应用研究促进协会 | Encoding device, decoding device, encoding method, decoding method, and program |
CN111710342B (en) * | 2014-03-31 | 2024-04-16 | 弗朗霍弗应用研究促进协会 | Encoding device, decoding device, encoding method, decoding method, and program |
JP2014240974A (en) * | 2014-08-06 | 2014-12-25 | ソニー株式会社 | Encoding apparatus, encoding method, and program |
CN113192523A (en) * | 2020-01-13 | 2021-07-30 | 华为技术有限公司 | Audio coding and decoding method and audio coding and decoding equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6951536B2 (en) | Voice coding device and method | |
RU2236046C2 (en) | Effective encoding of spectrum envelope with use of variable resolution in time and frequency and switching time/frequency | |
JP3623449B2 (en) | Method and apparatus for concealing errors in an encoded audio signal and method and apparatus for decoding an encoded audio signal | |
KR101345695B1 (en) | An apparatus and a method for generating bandwidth extension output data | |
JP3881943B2 (en) | Acoustic encoding apparatus and acoustic encoding method | |
KR100304055B1 (en) | Method for signalling a noise substitution during audio signal coding | |
KR101975066B1 (en) | Signal processing device and method, and computer readable recording medium | |
JP3762579B2 (en) | Digital audio signal encoding apparatus, digital audio signal encoding method, and medium on which digital audio signal encoding program is recorded | |
JP4166673B2 (en) | Interoperable vocoder | |
JP3898218B2 (en) | Transmission system for performing differential encoding | |
KR101162275B1 (en) | A method and an apparatus for processing an audio signal | |
RU2752127C2 (en) | Improved quantizer | |
KR20100086000A (en) | A method and an apparatus for processing an audio signal | |
KR20090083068A (en) | Method and apparatus for encoding/decoding audio signal | |
CN114550732B (en) | Coding and decoding method and related device for high-frequency audio signal | |
WO2014190649A1 (en) | Signal decoding method and device | |
CN115171709B (en) | Speech coding, decoding method, device, computer equipment and storage medium | |
WO2009059632A1 (en) | An encoder | |
US7197454B2 (en) | Audio coding | |
JP6728142B2 (en) | Method and apparatus for identifying and attenuating pre-echo in a digital audio signal | |
JP3357829B2 (en) | Audio encoding / decoding method | |
JP2008058727A (en) | Speech coding device | |
KR101387808B1 (en) | Apparatus for high quality multiple audio object coding and decoding using residual coding with variable bitrate | |
JP4625709B2 (en) | Stereo audio signal encoding device | |
US20220270624A1 (en) | Coding dense transient events with companding |