JP2011154383A - Voice encoding device, voice decoding device and methods thereof - Google Patents
Voice encoding device, voice decoding device and methods thereof Download PDFInfo
- Publication number
- JP2011154383A JP2011154383A JP2011054916A JP2011054916A JP2011154383A JP 2011154383 A JP2011154383 A JP 2011154383A JP 2011054916 A JP2011054916 A JP 2011054916A JP 2011054916 A JP2011054916 A JP 2011054916A JP 2011154383 A JP2011154383 A JP 2011154383A
- Authority
- JP
- Japan
- Prior art keywords
- layer
- band
- decoding
- encoding
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Abstract
Description
本発明は、スケーラブル符号化方式の通信システムに使用される音声符号化装置、音声復号装置およびそれらの方法に関する。 The present invention relates to a speech coding apparatus, a speech decoding apparatus, and a method thereof used in a scalable coding communication system.
移動体通信システムでは、電波資源等の有効利用のために、音声信号を低ビットレートに圧縮して伝送することが要求されている。その一方で、通話音声の品質向上や臨場感の高い通話サービスの実現も望まれており、その実現には、音声信号の高品質化のみならず、より帯域の広いオーディオ信号等、音声信号以外の信号をも高品質に符号化することが望ましい。 In a mobile communication system, it is required to compress and transmit an audio signal at a low bit rate in order to effectively use radio resources and the like. On the other hand, it is also desired to improve the quality of call voice and to realize a call service with a high sense of reality. For this purpose, not only the quality of the audio signal but also the audio signal with a wider bandwidth, etc. It is desirable to encode these signals with high quality.
このように相反する2つの要求に対し、複数の符号化技術を階層的に統合する技術が有望視されている。この技術は、音声信号に適したモデルで入力信号を低ビットレートで符号化する第1レイヤと、入力信号と第1レイヤの復号信号との差分信号を音声以外の信号にも適したモデルで符号化する第2レイヤとを階層的に組み合わせるものである。このように階層的に符号化を行う技術は、符号化装置から得られるビットストリームにスケーラビリティ性、すなわち、ビットストリームの一部の情報からでも復号信号を得ることができる性質を有するため、一般的にスケーラブル符号化(階層符号化)と呼ばれている。 For such two conflicting requirements, a technique for hierarchically integrating a plurality of encoding techniques is considered promising. This technology is a model suitable for audio signals and a first layer that encodes an input signal at a low bit rate, and a differential signal between the input signal and the decoded signal of the first layer is also a model suitable for signals other than audio. The second layer to be encoded is combined hierarchically. The technique of performing hierarchical encoding in this way is general because the bitstream obtained from the encoding device has scalability, that is, a decoded signal can be obtained even from partial information of the bitstream. This is called scalable coding (hierarchical coding).
スケーラブル符号化方式は、その性質から、ビットレートの異なるネットワーク間の通信に柔軟に対応することができるので、IPプロトコルで多様なネットワークが統合されていく今後のネットワーク環境に適したものと言える。 The scalable coding scheme can be flexibly adapted to communication between networks having different bit rates because of its nature, and can be said to be suitable for a future network environment in which various networks are integrated by the IP protocol.
MPEG−4(Moving Picture Experts Group phase-4)で規格化された技術を用いてスケーラブル符号化を実現する例として、例えば、非特許文献1に開示されている技術がある。この技術は、第1レイヤにおいて、音声信号に適したCELP(Code Excited Linear Prediction;符号励振線形予測)符号化を用い、第2レイヤにおいて、原信号から第1レイヤ復号信号を減じた残差信号に対して、AAC(Advanced Audio Coder)やTwinVQ(Transform Domain Weighted Interleave Vector Quantization;周波数領域重み付きインターリーブベクトル量子化)等の変換符号化を用いる。
As an example of realizing scalable coding using a technique standardized by MPEG-4 (Moving Picture Experts Group phase-4), there is a technique disclosed in Non-Patent
一方、非特許文献2は、基本構成単位としてモジュール化されたTwinVQを用いて所望の周波数帯域のMDCT係数を階層的に符号化する手法を開示している。当該モジュールを共通化して複数回使用することにより、シンプルかつ自由度の高いスケーラブル符号化を実現できる。この手法では、各階層(レイヤ)の符号化対象となるサブバンドはあらかじめ決められている構成が基本となるが、入力信号の性質に応じて各階層レイヤの符号化対象となるサブバンドの位置をあらかじめ定められた帯域の中で変動させる構成も開示されている。
On the other hand, Non-Patent
しかしながら、出力信号の音声品質を改善する上で、第2レイヤ符号化部のサブバンド(ターゲット周波数帯域)をどのように設定するかが重要となる。非特許文献2に開示の手法に従えば、第2レイヤの符号化対象となるサブバンドはあらかじめ決められている(図21(A))。この場合、常に所定のサブバンドの品質を上げることになるため、そのサブバンド以外の帯域に誤差成分が集中している場合に十分な音声品質の改善効果は得られないという問題がある。
However, in order to improve the voice quality of the output signal, it is important how to set the subband (target frequency band) of the second layer encoding unit. According to the technique disclosed in Non-Patent
また、入力信号の性質に応じて、各階層(レイヤ)の符号化対象となるサブバンドの位置をあらかじめ定められた帯域の中で変動させる(図21(B))ことが記載されているが、サブバンドの採りえる位置が所定の帯域の中に限定されてしまうので、前述した課題を解決することにはならない。また、仮にサブバンドの採りえる帯域が入力信号の全帯域にわたる(図21(C))ようにした場合、サブバンドの位置を特定するための演算量が増加してしまうという問題がある。さらに、レイヤ数を増やしたときに、レイヤ毎にサブバンドの位置を特定する必要があるため、この問題は顕著になる。 Further, it is described that the position of the subband to be encoded in each layer (layer) is changed in a predetermined band in accordance with the nature of the input signal (FIG. 21B). Since the position where the subband can be taken is limited to a predetermined band, the above-described problem cannot be solved. In addition, if the bandwidth that can be taken by the subband extends over the entire bandwidth of the input signal (FIG. 21C), there is a problem that the amount of calculation for specifying the position of the subband increases. Further, when the number of layers is increased, this problem becomes significant because it is necessary to specify the position of the subband for each layer.
本発明は、かかる点に鑑みてなされたものであり、スケーラブル符号化方式において、全帯域の中から誤差が大きい帯域を少ない演算量で正確に特定することができる音声符号化装置、音声復号装置およびそれらの方法を提供することを目的とする。 The present invention has been made in view of the above points, and in a scalable coding system, a speech coding apparatus and speech decoding apparatus that can accurately identify a band having a large error from all bands with a small amount of computation. And an object thereof.
本発明の第1の態様に係る符号化装置は、入力信号を変換係数に変換する変換手段と、符号化の対象となるターゲット周波数帯域を特定する特定手段と、前記変換係数のうち、ターゲット周波数帯域に含まれる変換係数を符号化する符号化手段と、を具備し、前記特定手段は、前記ターゲット周波数帯域よりも広い帯域幅で前記変換係数が最も大きい第1帯域を、所定の第1刻み幅で探索し、特定した第1帯域を示す第1位置情報を生成する第1位置特定手段と、前記第1帯域に渡って、前記第1刻み幅より細かい第2刻み幅で前記ターゲット周波数帯域を探索し、特定したターゲット周波数帯域を示す第2位置情報を生成する第2位置特定手段と、前記第1位置情報、前記第2位置情報により特定されたターゲット周波数帯域に含まれる前記変換係数を符号化して符号化情報を生成する符号化手段と、を具備する構成を採る。 An encoding apparatus according to a first aspect of the present invention includes a conversion unit that converts an input signal into a conversion coefficient, a specifying unit that specifies a target frequency band to be encoded, and a target frequency among the conversion coefficients. Encoding means for encoding a transform coefficient included in a band, wherein the specifying means defines a first band having the largest transform coefficient in a bandwidth wider than the target frequency band in a predetermined first step. A first position specifying means for searching for a width and generating first position information indicating the specified first band; and the target frequency band with a second step width smaller than the first step width across the first band. And a second position specifying means for generating second position information indicating the specified target frequency band, and before being included in the target frequency band specified by the first position information and the second position information. A configuration that includes encoding means for generating encoded information transform coefficients is encoded, the.
本発明の第2の態様に係る復号装置は、符号化の対象となるターゲット周波数帯域に含まれる変換係数に対して符号化処理を行って得られた符号化データ、前記ターゲット周波数よりも広い帯域幅で前記変換係数が最も大きい第1帯域を示す第1位置情報、および前記第1位置帯域の中の前記ターゲット周波数帯域を示す第2位置情報を受信する受信手段と、前記符号化データを復号して復号変換係数を生成する復号手段と、前記第1位置情報および前記第2位置情報に基づいて前記ターゲット周波数帯域を特定し、前記復号変換係数を前記ターゲット周波数帯域に配置する配置手段と、を具備する構成を採る。 The decoding device according to the second aspect of the present invention provides encoded data obtained by performing an encoding process on a transform coefficient included in a target frequency band to be encoded, a band wider than the target frequency. Receiving means for receiving first position information indicating the first band having the largest transform coefficient in width and second position information indicating the target frequency band in the first position band; and decoding the encoded data Decoding means for generating a decoded transform coefficient, and an arrangement means for specifying the target frequency band based on the first position information and the second position information, and arranging the decoded transform coefficient in the target frequency band; The structure which comprises is taken.
本発明の第3の態様に係る符号化方法は、入力信号を変換係数に変換する変換ステップと、符号化の対象となるターゲット周波数帯域を特定する特定ステップと、前記変換係数のうち、ターゲット周波数帯域に含まれる変換係数を符号化する符号化ステップと、を具備し、前記特定ステップは、前記ターゲット周波数帯域よりも広い帯域幅で前記変換係数が最も大きい第1帯域を、所定の第1刻み幅で探索し、特定した第1帯域を示す第1位置情報を生成する第1位置特定ステップと、前記第1帯域に渡って、前記第1刻み幅より細かい第2刻み幅で前記ターゲット周波数帯域を探索し、特定したターゲット周波数帯域を示す第2位置情報を生成する第2位置特定ステップと、前記第1位置情報、前記第2位置情報により特定されたターゲット周波数帯域に含まれる前記変換係数を符号化して符号化情報を生成する符号化ステップと、を具備する方法を採る。 The encoding method according to the third aspect of the present invention includes a conversion step for converting an input signal into a conversion coefficient, a specifying step for specifying a target frequency band to be encoded, and a target frequency among the conversion coefficients. An encoding step for encoding a transform coefficient included in a band, wherein the specifying step includes a first band in which the transform coefficient is the largest in a bandwidth wider than the target frequency band in a predetermined first step. A first position specifying step of searching for a width and generating first position information indicating the specified first band; and the target frequency band in a second step width smaller than the first step width across the first band. A second position specifying step for generating second position information indicating the specified target frequency band, and the target specified by the first position information and the second position information. Adopt a method comprising an encoding step of generating encoded information the transform coefficients included in the frequency band is encoded, a.
本発明の第4の態様に係る復号方法は、符号化の対象となるターゲット周波数帯域に含まれる変換係数に対して符号化処理を行って得られた符号化データ、前記ターゲット周波数よりも広い帯域幅で前記変換係数が最も大きい第1帯域を示す第1位置情報、および前記第1位置帯域の中の前記ターゲット周波数帯域を示す第2位置情報を受信する受信ステップと、前記符号化データを復号して復号変換係数を生成する復号ステップと、前記第1位置情報および前記第2位置情報に基づいて前記ターゲット周波数帯域を特定し、前記復号変換係数を前記ターゲット周波数帯域に配置する配置ステップと、を具備する方法を採る。 The decoding method according to the fourth aspect of the present invention provides encoded data obtained by performing an encoding process on a transform coefficient included in a target frequency band to be encoded, a band wider than the target frequency. A receiving step of receiving first position information indicating a first band having the largest transform coefficient in width and second position information indicating the target frequency band in the first position band; and decoding the encoded data A decoding step of generating a decoded transform coefficient, an arrangement step of identifying the target frequency band based on the first position information and the second position information, and arranging the decoded transform coefficient in the target frequency band; A method comprising:
本発明によれば、全帯域の中から誤差が大きい帯域を少ない演算量で正確に特定することができ、音質を改善することができる。 According to the present invention, it is possible to accurately specify a band having a large error from all bands with a small amount of calculation, and to improve sound quality.
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
(実施の形態1)
図1は、本発明の実施の形態1に係る符号化装置の主要な構成を示すブロック図である。図1に示す符号化装置100は、周波数領域変換部101と、第1レイヤ符号化部102と、第1レイヤ復号部103と、減算部104と、第2レイヤ符号化部105と、多重化部106とを備える。
(Embodiment 1)
FIG. 1 is a block diagram showing the main configuration of the coding apparatus according to
周波数領域変換部101は、時間領域の入力信号を周波数領域の信号(入力変換係数)に変換し、入力変換係数を第1レイヤ符号化部102に出力する。
Frequency
第1レイヤ符号化部102は、入力変換係数に対して符号化処理を行い、第1レイヤ符号化データを生成し、この第1レイヤ符号化データを第1レイヤ復号部103および多重化部106に出力する。
First
第1レイヤ復号部103は、第1レイヤ符号化データを用いて復号処理を行い、第1レイヤ復号変換係数を生成し、減算部104に出力する。
First
減算部104は、入力変換係数から第1レイヤ復号部103で生成された第1レイヤ復号変換係数を減じて第1レイヤ誤差変換係数を生成し、この第1レイヤ誤差変換係数を第2レイヤ符号化部105に出力する。
The subtracting
第2レイヤ符号化部105は、減算部104より出力された第1レイヤ誤差変換係数の符号化処理を行い、第2レイヤ符号化データを生成し、この第2レイヤ符号化データを多重化部106に出力する。
Second
多重化部106は、第1レイヤ符号化部102で求められる第1レイヤ符号化データと第2レイヤ符号化部105で求められる第2レイヤ符号化データを多重化してビットストリームを形成し、これを最終的な符号化データとして通信路に出力する。
The
図2は、図1に示した第2レイヤ符号化部105の構成を示すブロック図である。図2に示す第2レイヤ符号化部105は、第1位置特定部201と、第2位置特定部202と、符号化部203と、多重化部204とを備える。
FIG. 2 is a block diagram showing a configuration of second
第1位置特定部201は、減算部104から入力される第1レイヤ誤差変換係数を用いて、符号化の対象となるターゲット周波数帯域が採り得る帯域を、所定の帯域幅および所定の刻み幅で探索し、特定した帯域を示す情報を第1位置情報として、第2位置特定部202、符号化部203および多重化部204へ出力する。なお、第1位置特定部201の詳細については後述する。なお、この特定した帯域を、「範囲」もしくは「領域」などと言うこともできる。
The first
第2位置特定部202は、第1位置特定部201より特定された帯域の中から、第1位置特定部201での帯域幅より狭い帯域幅、および第1位置特定部201での刻み幅より細かい刻み幅でターゲット周波数帯域を探索し、特定したターゲット周波数帯域を示す情報を第2位置情報として、符号化部203および多重化部204へ出力する。なお、第2位置特定部202の詳細については後述する。
The second
符号化部203は、第1位置情報および第2位置情報により特定されたターゲット周波数帯域に含まれる第1レイヤ誤差変換係数を符号化し、符号化情報を生成して多重化部204に出力する。なお、符号化部203の詳細については後述する。
The
多重化部204は、第1位置情報、第2位置情報、符号化情報を多重化し、第2レイヤ符号化データを生成して出力する。なお、この多重化部204は必須ではなく、これらの情報を直接図1に示す多重化部106に出力しても良い。
The
図3は、図2に示した第1位置特定部201が特定する帯域を示す図である。
FIG. 3 is a diagram showing a band specified by the first
図3では、第1位置特定部201は、予め所定の帯域幅で設定される3つの帯域の中から1つを特定し、この帯域の位置情報を第1位置情報として、第2位置特定部202、符号化部203および多重化部204に出力する。図3に示す各帯域はターゲット周波数帯域以上の帯域幅を持つように設定される(帯域1はF1以上F3未満、帯域2はF2以上F4未満、帯域3はF3以上F5未満としている)。なお、本実施の形態では各帯域は同一の帯域幅を持つように設定されているが、各帯域が異なる帯域幅を持つように設定しても良い。例えば、人間の聴覚の臨界帯域幅のように、低域に位置する帯域の帯域幅は狭く、高域に位置する帯域の帯域幅は広くなるように設定しても良い。
In FIG. 3, the first
次いで、第1位置特定部201による帯域の特定方法について説明する。ここでは、第1位置特定部201は、第1レイヤ誤差変換係数のエネルギーの大きさを基準に帯域を特定する。第1レイヤ誤差変換係数をe1(k)と示し、各帯域に含まれる第1レイヤ誤差変換係数のエネルギーER(i)を次式(1)により算出する。
このように、第1レイヤ誤差変換係数のエネルギーが大きい帯域を特定し、誤差が大きい帯域に含まれる第1レイヤ誤差変換係数を符号化することにより、入力信号に対する復号信号の誤差が小さくなり、音声品質を改善することができる。 In this way, by identifying the band where the energy of the first layer error transform coefficient is large and encoding the first layer error transform coefficient included in the band where the error is large, the error of the decoded signal with respect to the input signal is reduced, Voice quality can be improved.
なお、第1レイヤ誤差変換係数のエネルギーの代わりに、次式(2)のように帯域幅で正規化した正規化エネルギーNER(i)を算出しても良い。
また、帯域を特定する基準として、第1レイヤ誤差変換係数のエネルギーの代わりに、人間の聴感特性を反映した重み付けが行われた第1レイヤ誤差変換係数のエネルギーWER(i)、WNER(i)(帯域幅で正規化した正規化エネルギー)を、式(3)、(4)により算出しても良い。ここで、w(k)は人間の聴感特性に関連する重みを表す。
この場合、第1位置特定部201は、聴感特性上、重要度の高い周波数には重みを大きくして、その周波数を含む帯域が選択されやすいようにし、一方、重要度の低い周波数には重みを小さくして、その周波数を含む帯域が選択されにくいようにする。これにより、聴感的に重要な帯域が優先的に選択されるため、上記同様の音質改善の効果を得ることができる。この重みとして、例えば、入力信号または第1レイヤの復号信号を基に算出された聴覚マスキング閾値や、人間の聴覚のラウドネス特性を利用して求めたものを用いても良い。
In this case, the first
また、帯域の選択法において、周波数が予め設定された基準周波数(Fx)よりも低い低域部に配置された帯域の中から帯域を選択するようにしても良い。図4の例では、帯域1〜帯域8の中から帯域を選択する。帯域の選択に制限(基準周波数)を設定する理由は次の通りである。音声信号の特徴の1つである調波構造またはハーモニクス構造(ある周波数間隔でスペクトルがピーク状に現れる構造)は、高域部に比べて低域部のピークが大きく現れ、符号化処理によって生じる量子化誤差(誤差スペクトルまたは誤差変換係数)においても同様に、高域部よりは低域部のピーク性が強くなる。そのため、たとえ、低域部の誤差スペクトル(誤差変換係数)のエネルギーが高域部と比べて小さくても、低域部の誤差スペクトル(誤差変換係数)のピーク性が高域部に比べ強くなる傾向にあることから、低域部の誤差スペクトル(誤差変換係数)が聴覚マスキング閾値(人間が音を感じ取ることのできる閾値)を超えやすくなり、その結果、聴感的な音質劣化を引き起こす。
Further, in the band selection method, a band may be selected from bands arranged in a low frequency part whose frequency is lower than a preset reference frequency (Fx). In the example of FIG. 4, a band is selected from
この方法によれば、基準周波数を予め設定することにより、周波数が基準周波数(Fx)よりも高い高域部と比べて、誤差変換係数(または誤差ベクトル)のピーク性が強い低域部からターゲット周波数が決定されるため、誤差変換係数のピークを抑えることができ、音質を改善することができる。 According to this method, by setting the reference frequency in advance, the error conversion coefficient (or error vector) has a higher peak characteristic of the error conversion coefficient (or error vector) than the high frequency part where the frequency is higher than the reference frequency (Fx). Since the frequency is determined, the peak of the error conversion coefficient can be suppressed and the sound quality can be improved.
さらに、帯域の選択法において、低中域部に配置されている帯域の中から帯域を選択するようにしても良い。図3の例では、帯域3は選択候補から除外し、帯域1および帯域2の中から帯域を選択する。これにより、低中域部の中からターゲット周波数帯域が決定されることになる。
Further, in the band selection method, the band may be selected from the bands arranged in the low and mid-range parts. In the example of FIG. 3,
以下では、第1位置特定部201は、帯域1を特定した場合に「1」を、帯域2を特定した場合に「2」を、帯域3を特定した場合に「3」を第1位置情報として出力する。
Hereinafter, the first
図5は、図2に示した第2位置特定部202が特定するターゲット周波数帯域の位置を示す図である。
FIG. 5 is a diagram showing the position of the target frequency band specified by the second
第2位置特定部202は、第1位置特定部201により特定された帯域において、さらに細かい刻み幅でターゲット周波数帯域を特定し、そのターゲット周波数帯域の位置情報を第2位置情報として符号化部203および多重化部204に出力する。
The second
次いで、第2位置特定部202によるターゲット周波数帯域の特定方法を説明する。ここでは、図2に示す第1位置特定部201から出力される第1位置情報が「2」である場合を例にして、ターゲット周波数帯域の幅をBWとする。また、帯域2の最低周波数F2を起点にし、この最低周波数F2を便宜上G1とする。そして、第2位置特定部202が特定することができるターゲット周波数帯域の最低周波数をG2〜GNとする。なお、第2位置特定部202が特定するターゲット周波数帯域の刻み幅はGn−Gn−1であり、一方、第1位置特定部201が特定する帯域の刻み幅はFn−Fn−1(Gn−Gn−1<Fn−Fn−1)である。
Next, a method for specifying a target frequency band by the second
第2位置特定部202は、最低周波数がそれぞれG1、…、GNのターゲット周波数帯域候補から、第1レイヤ誤差変換係数のエネルギー又はそれに類する基準で、ターゲット周波数帯域を特定する。例えば、全てのGn個のターゲット周波数帯域候補について、式(5)により第1レイヤ誤差変換係数のエネルギーを算出し、算出されたエネルギーER(n)が最大であるターゲット周波数帯域を特定し、このターゲット周波数帯域の位置情報を第2位置情報として出力する。
なお、上記説明したように、人間の聴感特性を反映した重み付けが行われた第1レイヤ誤差変換係数のエネルギーWER(n)が基準となる場合、次式(6)によりWER(n)の算出を行う。ここで、w(k)は人間の聴感特性に関連する重みを表す。この重みとして、例えば、入力信号または第1レイヤの復号信号を基に算出された聴覚マスキング閾値や、人間の聴覚のラウドネス特性を利用して求めたものを用いても良い。
この場合、第2位置特定部202は、聴感特性上、重要度の高い周波数には重みを大きくして、その周波数を含むターゲット周波数帯域が選択されやすいようにし、一方、重要度の低い周波数には重みを小さくして、その周波数を含むターゲット周波数帯域が選択されにくいようにする。これにより、聴感的に重要なターゲット周波数帯域が優先的に選択されるため、音質をさらに改善することができる。
In this case, the second
図6は、図2に示した符号化部203の構成を示すブロック図である。図6に示す符号化部203は、目標信号構成部301と、誤差算出部302と、探索部303と、形状符号帳304と、ゲイン符号帳305とを備える。
FIG. 6 is a block diagram showing a configuration of
目標信号構成部301は、第1位置特定部201から入力される第1位置情報と第2位置特定部202から入力される第2位置情報とを使用してターゲット周波数帯域を特定し、減算部104から入力される第1レイヤ誤差変換係数からターゲット周波数帯域に含まれる部分を抽出し、抽出された第1レイヤ誤差変換係数を目標信号として誤差算出部302に出力する。この第1誤差変換係数をe1(k)と表す。
The target
誤差算出部302は、誤差変換係数の形状を表す候補(形状候補)を格納する形状符号帳304から入力される第i番目の形状候補、誤差変換係数のゲインを表す候補(ゲイン候補)を格納するゲイン符号帳305から入力される第m番目のゲイン候補、および目標信号構成部301から入力される目標信号に基づいて、次式(7)により誤差Eを算出し、算出された誤差Eを探索部303に出力する。
探索部303は、誤差算出部302により算出された誤差Eを基に、誤差Eが最小である形状候補とゲイン候補との組み合わせを探索し、探索結果である形状情報とゲイン情報とを符号化情報として、図2に示す多重化部204に出力する。ここで、形状情報は誤差Eを最小にするときのパラメータm、ゲイン情報は誤差Eを最小にするときのパラメータiを指す。
The
なお、誤差算出部302は、聴感的に重要なスペクトルに大きな重み付けを行うことにより聴感的に重要なスペクトルの影響を大きくし、次式(8)により誤差Eを求めても良い。ここで、w(k)は人間の聴感特性に関連する重みを表す。
このように、聴感特性上、重要度の高い周波数には重みを大きくして、聴感特性上、重要度の高い周波数の量子化歪の影響を大きくし、一方、重要度の低い周波数には重みを小さくして、重要度の低い周波数の量子化歪の影響を小さくすることにより、主観品質を改善することができる。 In this way, weights are increased for frequencies that are more important for auditory characteristics, and the influence of quantization distortion for frequencies that are more important for auditory characteristics is increased, while weights for frequencies that are less important are weighted. And the subjective quality can be improved by reducing the influence of quantization distortion at a low importance frequency.
図7は、本実施の形態に係る復号装置の主要な構成を示すブロック図である。図7に示す復号装置600は、分離部601と、第1レイヤ復号部602と、第2レイヤ復号部603と、加算部604と、切替部605と、時間領域変換部606と、ポストフィルタ607とを備える。
FIG. 7 is a block diagram showing the main configuration of the decoding apparatus according to the present embodiment. A
分離部601は、通信路を介して入力されるビットストリームを、第1レイヤ符号化データと第2レイヤ符号化データとに分離して、それぞれ第1レイヤ符号化データを第1レイヤ復号部602へ、第2レイヤ符号化データを第2レイヤ復号部603へ出力する。また、分離部601は、入力されるビットストリームに第1レイヤ符号化データおよび第2レイヤ符号化データの両者が含まれる場合には、「2」をレイヤ情報として切替部605に出力する。一方、分離部601は、ビットストリームに第1レイヤ符号化データしか含まれていない場合には、「1」をレイヤ情報として切替部605に出力する。なお、全ての符号化データが廃棄されている場合もあるが、その場合は各レイヤの復号部は所定の誤り補償処理を行い、ポストフィルタはレイヤ情報が「1」として処理を行うものとする。本実施の形態では、復号装置において、全ての符号化データまたは第2レイヤ符号化データが廃棄された符号化データのいずれかが得られることを前提として説明を行う。
Separating
第1レイヤ復号部602は、第1レイヤ符号化データの復号処理を行い、第1レイヤ復号変換係数を生成し、加算部604および切替部605に出力する。
First
第2レイヤ復号部603は、第2レイヤ符号化データの復号処理を行い、第1レイヤ復号誤差変換係数を生成し、加算部604に出力する。
Second
加算部604は、第1レイヤ復号変換係数と第1レイヤ復号誤差変換係数を加算して第2レイヤ復号変換係数を生成し、切替部605に出力する。
切替部605は、分離部601から入力されるレイヤ情報に基づき、レイヤ情報が「1」の場合には第1レイヤ復号変換係数を、レイヤ情報が「2」の場合には第2レイヤ復号変換係数を、復号変換係数として時間領域変換部606に出力する。
Based on the layer information input from the
時間領域変換部606は、復号変換係数を時間領域の信号に変換し復号信号を生成し、ポストフィルタ607に出力する。
The time
ポストフィルタ607は、時間領域変換部606から出力される復号信号に対して、ポストフィルタ処理を行って、出力信号を生成する。
The
図8は、図7に示した第2レイヤ復号部603の構成を示す図である。図8に示す第2レイヤ復号部603は、形状符号帳701と、ゲイン符号帳702と、乗算部703と、配置部704とを備える。
FIG. 8 is a diagram showing a configuration of second
形状符号帳701は、分離部601から出力された第2レイヤ符号化データに含まれる形状情報を基に形状候補sh(i,k)を選択して、乗算部703に出力する。
The shape codebook 701 selects a shape candidate sh (i, k) based on the shape information included in the second layer encoded data output from the
ゲイン符号帳702は、分離部601から出力された第2レイヤ符号化データに含まれるゲイン情報を基にゲイン候補ga(m)を選択して、乗算部703に出力する。
乗算部703は、形状候補sh(i,k)にゲイン候補ga(m)を乗じ、配置部704に出力する。
The
配置部704は、分離部601から出力された第2レイヤ符号化データに含まれる第1位置情報と第2位置情報とにより特定されるターゲット周波数帯域に、乗算部703から入力されるゲイン候補乗算後の形状候補を配置し、第1レイヤ復号誤差変換係数として、加算部604に出力する。
図9は、図8に示した配置部704から出力される第1レイヤ復号誤差変換係数の様子を示す図である。ここで、Fmは第1位置情報により特定される周波数、Gnは第2位置情報により特定される周波数を表す。
FIG. 9 is a diagram illustrating a state of the first layer decoding error transform coefficients output from the
このように、本実施の形態によれば、第1位置特定部201が、入力信号の全帯域に渡って、所定の帯域幅および所定の刻み幅で誤差が大きい帯域を探索して特定し、第2位置特定部202は、第1位置特定部201により特定された帯域において、上記所定の帯域幅より狭い帯域幅、および上記所定の刻み幅より細かい刻み幅でターゲット周波数帯域を探索して特定することにより、全帯域の中から誤差が大きい帯域を少ない演算量で正確に特定することができ、音質を改善することができる。
As described above, according to the present embodiment, the first
(実施の形態2)
実施の形態2では、第2位置特定部202によるターゲット周波数帯域の別の特定方法について説明する。図10は、図2に示した第2位置特定部202が特定するターゲット周波数の位置を示す図である。本実施の形態に係る符号化装置の第2位置特定部は、実施の形態1で説明した符号化装置の第2位置特定部と異なっており、単一のターゲット周波数を特定する。単一のターゲット周波数に対応する誤差変換係数の形状候補はパルス(または線スペクトル)で表される。なお、本実施の形態において、符号化装置の構成は、符号化部203の内部構成を除いて、図1に示した符号化装置と同一であり、復号装置の構成は第2レイヤ復号部603の内部構成を除いて、図7に示した復号装置と同一であるので、これらの説明を省略し、第2位置特定に関連する符号化部203及び復号装置の第2レイヤ復号部603のみについて説明する。
(Embodiment 2)
In the second embodiment, another method for specifying the target frequency band by the second
本実施の形態では、第2位置特定部202は、第1位置特定部201により特定された帯域において、単一のターゲット周波数を特定する。従って、本実施の形態では、単一の第1レイヤ誤差変換係数が符号化の対象として選択される。ここでは、第1位置特定部201が帯域2を特定した場合を例にして説明する。ターゲット周波数帯域の帯域幅をBWとした場合、本実施の形態ではBW=1である。
In the present embodiment, the second
具体的に、第2位置特定部202は、図10に示すように、帯域2に含まれる複数のターゲット周波数候補GNに対して、上記の式(5)により、それぞれの第1レイヤ誤差変換係数のエネルギーを算出し、または上記の式(6)により、それぞれの人間の聴感特性を反映した重み付けが行われた第1レイヤ誤差変換係数のエネルギーを算出する。また、第2位置特定部202は、算出したエネルギーが最大となるターゲット周波数Gn(1≦n≦N)を特定し、特定されたターゲット周波数Gnの位置情報を第2位置情報として符号化部203に出力する。
Specifically, second
図11は、図6に示した符号化部203の別の態様の構成を示すブロック図である。図11に示す符号化部203は、図6に対して形状符号帳305を削除した構成を採る。なお、この構成は形状符号帳304から出力される信号が常に「1」の場合に相当する。
FIG. 11 is a block diagram showing a configuration of another aspect of
符号化部203は、第2位置特定部202で特定されたターゲット周波数Gnに含まれる第1レイヤ誤差変換係数を符号化し、符号化情報を生成して多重化部204に出力する。ここでは、第2位置特定部202から入力されるターゲット周波数は単一であり、符号化の対象となる第1レイヤ誤差変換係数も単一となるので、符号化部203は形状符号帳304からの形状情報を必要とせず、ゲイン符号帳305のみで探索を行い、探索結果のゲイン情報を符号化情報として、多重化部204に出力する。
The
図12は、図8に示した第2レイヤ復号部603の別の態様の構成を示すブロック図である。図12に示す第2レイヤ復号部603は、図8に対して、形状符号帳701と乗算部703とを削除した構成を採る。なお、この構成は形状符号帳701から出力される信号が常に「1」である場合に相当する。
FIG. 12 is a block diagram showing a configuration of another aspect of second
配置部704は、分離部601から出力された第2レイヤ符号化データに含まれる第1位置情報と第2位置情報とにより特定される単一のターゲット周波数に、ゲイン情報によりゲイン符号帳から選択したゲイン候補を配置し、第1レイヤ復号誤差変換係数として、加算部604に出力する。
このように、本実施の形態によれば、第2位置特定部202は、第1位置特定部201により特定された帯域の中から単一のターゲット周波数を特定することにより、線スペクトルを正確に表すことができるため、母音のようなトーナリティの強い信号(多数のピークが観察されるスペクトル特性を有する信号)の音質を改善することができる。
As described above, according to the present embodiment, the second
(実施の形態3)
実施の形態3では、第2位置特定部によるターゲット周波数帯域の別の特定方法について説明する。なお、本実施の形態において、符号化装置の構成は、第2レイヤ符号化部105の内部構成を除いて、図1に示した符号化装置と同一であるので、その説明を省略する。
(Embodiment 3)
In the third embodiment, another method for specifying the target frequency band by the second position specifying unit will be described. In the present embodiment, the configuration of the encoding device is the same as that of the encoding device shown in FIG. 1 except for the internal configuration of second
図13は、本実施の形態に係る符号化装置の第2レイヤ符号化部105の構成を示すブロック図である。図13に示す第2レイヤ符号化部105は、図2に対して、第2位置特定部202に代えて、第2位置特定部301を備える構成を採る。図2に示した第2レイヤ符号化部105と同一の構成には同一の番号を付し、その説明を省略する。
FIG. 13 is a block diagram showing a configuration of second
図13に示す第2位置特定部301は、第1サブ位置特定部311−1と、第2サブ位置特定部311−2と、…、第Jサブ位置特定部311−Jと、多重化部312とを備える。 13 includes a first sub-position specifying unit 311-1, a second sub-position specifying unit 311-2,..., A J-th sub-position specifying unit 311-J, and a multiplexing unit. 312.
複数のサブ位置特定部(311−1、…、311−J)は、第1位置特定部201より特定された帯域において、それぞれ異なるターゲット周波数を特定する。具体的には、第n番目のサブ位置特定部311−nは、第1位置特定部201より特定された帯域から第1〜第n−1番目のサブ位置特定部(311−1、…、311−n−1)が特定したターゲット周波数を除いた帯域において、第n番目のターゲット周波数を特定する。
The plurality of sub position specifying units (311-1, ..., 311-J) specify different target frequencies in the band specified by the first
図14は本実施の形態に係る符号化装置の複数のサブ位置特定部(311−1、…、311−J)が特定するターゲット周波数の位置を示す図である。ここでは、第1位置特定部201が帯域2を特定し、第2位置特定部301によりJ個のターゲット周波数の位置を特定する場合を例にして説明する。
FIG. 14 is a diagram illustrating the positions of target frequencies specified by a plurality of sub-position specifying units (311-1,..., 311-J) of the encoding apparatus according to the present embodiment. Here, a case where the first
図14(A)に示すように、第1サブ位置特定部311−1は、帯域2におけるターゲット周波数候補の中から1つのターゲット周波数を特定し(ここではG3)、そのターゲット周波数の位置情報を多重化部312に出力するとともに第2サブ位置特定部311−2に出力する。
As shown in FIG. 14A, the first sub-position specifying unit 311-1 specifies one target frequency from the target frequency candidates in the band 2 (here, G 3 ), and the position information of the target frequency Is output to the
図14(B)に示すように、第2サブ位置特定部311−2は、帯域2から第1サブ位置特定部311−1が特定したターゲット周波数G3を除いたターゲット周波数の候補の中から1つのターゲット周波数を特定し(ここではGN−1)、そのターゲット周波数の位置情報を多重化部312に出力するとともに第3サブ位置特定部311−3に出力する。
As shown in FIG. 14 (B), second sub-position specifying section 311-2, from the
同様に、図14(C)に示すように、第Jサブ位置特定部311−Jは、帯域2から第1〜第J−1サブ位置特定部(311−1、…、311−J−1)が特定したJ−1個のターゲット周波数を除いたターゲット周波数の候補の中から1つのターゲット周波数を選択し(ここではG5)、それを特定する位置情報を多重化部312に出力する。
Similarly, as shown in FIG. 14C, the J-th sub-position specifying unit 311 -J starts with the first to J-1 sub-position specifying units (311-1,..., 311-J-1 from the band 2. ) Selects one target frequency from the target frequency candidates excluding the J−1 target frequencies specified (here, G 5 ), and outputs position information specifying the target frequency to the
多重化部312は、サブ位置特定部(311−1、…311−J)から入力されるJ個の位置情報を多重して第2位置情報を生成し、符号化部203と多重化部204に出力する。なお、この多重化部312は必須ではなく、J個の位置情報を直接符号化部203および多重化部204に出力しても良い。
The
このように、第2位置特定部301は、第1位置特定部201により特定された帯域において、J個のターゲット周波数を特定し、複数個のピークを表現することができるため、母音のようなトーナリティの強い信号の音質を更に改善することができる。また、第1位置特定部201により特定された帯域の中からJ個のターゲット周波数を決定すれば良いため、全帯域の中からJ個のターゲット周波数を決定する場合に比べて、複数個のターゲット周波数の組み合わせ数を大幅に削減することできる。これにより、低ビットレート化および低演算量化を実現することができる。
As described above, the second
(実施の形態4)
実施の形態4では、第2レイヤ符号化部105における別の符号化方法について説明する。なお、本実施の形態において、符号化装置の構成は、第2レイヤ符号化部105の内部構成を除いて、図1に示した符号化装置と同一であるので、その説明を省略する。
(Embodiment 4)
In Embodiment 4, another encoding method in second
図15は、本実施の形態に係る符号化装置の他の態様の第2レイヤ符号化部105の構成を示すブロック図である。図15に示す第2レイヤ符号化部105は、図2に示した第2位置特定部202を有さず、更に、図2に示した符号化部203に代えて符号化部221を備える構成を採る。
FIG. 15 is a block diagram showing a configuration of second
符号化部221は、ターゲット周波数に含まれる誤差変換係数の符号化の際に生じる量子化歪が最小となるように第2位置情報を決定する。この第2位置情報は第2位置情報符号帳321に記憶されている。
The
図16は、図15に示した符号化部221の構成を示すブロック図である。図16に示す符号化部221は、図6に示した符号化部203に対して第2位置情報符号帳321を追加し、探索部303に代えて探索部322を備える構成を採る。なお、図6に示した符号化部203と同一の構成には同一の番号を付し、その説明を省略する。
FIG. 16 is a block diagram showing a configuration of
第2位置情報符号帳321は、後述する探索部322からの制御信号に従い、記憶している第2位置情報の候補から1つの第2位置情報を選択し、目標信号構成部301に出力する。図16の第2位置情報符号帳321では、黒点はそれぞれの第2位置情報候補のターゲット周波数の位置を表す。
The second position information codebook 321 selects one second position information from the stored second position information candidates according to a control signal from the
目標信号構成部301は、第1位置特定部201から入力される第1位置情報と第2位置情報符号帳321において選択された第2位置情報を用いてターゲット周波数を特定し、減算部104から入力される第1レイヤ誤差変換係数から特定したターゲット周波数に含まれる部分を抽出し、抽出された第1レイヤ誤差変換係数を目標信号として誤差算出部302に出力する。
The target
探索部322は、誤差算出部302から入力される誤差Eを基に、誤差Eが最小となる形状候補とゲイン候補、そして第2位置情報候補の組み合わせを探索し、探索結果の形状情報、ゲイン情報および第2位置情報を符号化情報として、図15に示す多重化部204に出力する。また、探索部322は、第2位置情報候補を選択して目標信号構成部301に出力するという制御信号を第2位置情報符号帳321に出力する。
Based on the error E input from the
このように、本実施の形態によれば、ターゲット周波数に含まれる誤差変換係数の符号化の際に生じる量子化歪が最小となるように第2位置情報を決定するので、最終的な量子化歪が小さくなるため、音声品質を改善することができる。 Thus, according to the present embodiment, since the second position information is determined so as to minimize the quantization distortion generated when the error transform coefficient included in the target frequency is encoded, the final quantization is performed. Since the distortion is reduced, the voice quality can be improved.
なお、本実施の形態では、図16に示した第2位置情報符号帳321が、単一のターゲット周波数を要素として持つ第2位置情報候補を記憶する例について説明したが、本発明はこれに限らず、図17に示すように第2位置情報符号帳321は、複数個のターゲット周波数を要素として持つ第2位置情報候補を記憶しても良い。図17は、第2位置情報符号帳321に記憶している第2位置情報候補がそれぞれ3つのターゲット周波数を持つ場合の符号化部221を示す図である。
In the present embodiment, the second position information codebook 321 shown in FIG. 16 has been described as an example of storing the second position information candidate having a single target frequency as an element. Not limited to this, as shown in FIG. 17, the second position information codebook 321 may store second position information candidates having a plurality of target frequencies as elements. FIG. 17 is a diagram illustrating the
また、本実施の形態では、図16に示した誤差算出部302が、形状符号帳304およびゲイン符号帳305に基づいて誤差Eを算出する例について説明したが、本発明はこれに限らず、図18に示すように形状符号帳304を削除し、ゲイン符号帳305のみに基づいて誤差Eを算出してもよい。図18は、図15に示した符号化部221の別の構成を示すブロック図である。この構成は、形状符号帳304から出力される信号が常に「1」である場合に相当する。この場合、形状が複数個のパルスで構成され、形状符号帳304は不要になるため、探索部322はゲイン符号帳305および第2位置情報符号帳321のみを探索し、探索結果のゲイン情報および第2位置情報を符号化情報として、図15に示した多重化部204に出力する。
Further, in the present embodiment, the example in which the
なお、本実施の形態では、第2位置情報符号帳321が、実際に記憶領域を確保して第2位置情報候補を記憶する形態を採ることを前提に説明したが、本発明はこれに限らず、第2位置情報符号帳321が、あらかじめ定められた処理手順に従い第2位置情報候補を生成するようにしても良い。この場合、第2位置情報符号帳321には記憶領域が不用となる。 In the present embodiment, the second position information codebook 321 has been described on the premise that the second position information codebook 321 actually secures a storage area and stores the second position information candidates. However, the present invention is not limited to this. Instead, the second position information codebook 321 may generate the second position information candidate according to a predetermined processing procedure. In this case, the second location information codebook 321 does not require a storage area.
(実施の形態5)
実施の形態5では、第1位置特定部による帯域の別の特定方法について説明する。なお、本実施の形態において、符号化装置の構成は、第2レイヤ符号化部105の内部構成を除いて、図1に示した符号化装置と同一であるので、その説明を省略する。
(Embodiment 5)
In the fifth embodiment, another band specifying method by the first position specifying unit will be described. In the present embodiment, the configuration of the encoding device is the same as that of the encoding device shown in FIG. 1 except for the internal configuration of second
図19は本実施の形態に係る符号化装置の第2レイヤ符号化部105の構成を示すブロック図である。図19示す第2レイヤ符号化部105は、図2に示した第1位置特定部201に代えて、第1位置特定部231を備える構成を採る。
FIG. 19 is a block diagram showing a configuration of second
図示せぬ算出部は、入力信号に対してピッチ分析し、ピッチ周期を求め、求められたピッチ周期の逆数からピッチ周波数を算出する。なお、算出部は、第1レイヤ符号化部102の符号化処理によって生成された第1レイヤ符号化データからピッチ周波数を算出してもよい。この場合、第1レイヤ符号化データが送信されるため、ピッチ周波数を特定する情報を別途送信する必要がなくなる。また、算出部は、ピッチ周期を特定するピッチ周期情報を多重化部106に出力する。
A calculation unit (not shown) performs pitch analysis on the input signal to obtain a pitch period, and calculates a pitch frequency from the reciprocal of the obtained pitch period. Note that the calculation unit may calculate the pitch frequency from the first layer encoded data generated by the encoding process of the first
第1位置特定部231は、図示せぬ算出部から入力されるピッチ周波数に基づいて、所定の相対的に広い帯域幅で帯域を特定し、特定された帯域の位置情報を第1位置情報として第2位置特定部202、符号化部203および多重化部204に出力する。
The first
図20は、図19に示した第1位置特定部231が特定する帯域の位置を示す図である。図20に示す3つの帯域は、入力されるピッチ周波数PFを基に定められる基準周波数F1〜F3の整数倍の近傍の帯域である。基準周波数は、ピッチ周波数PFに所定の値を加えて求められる周波数である。具体的な例として、ここでは−1、0、1をPFに加えた値とし、基準周波数はF1=PF−1、F2=PF、F3=PF+1となる。
FIG. 20 is a diagram showing the position of the band specified by the first
ピッチ周波数の整数倍を基準とした帯域を設定する理由は、音声信号には、特にピッチ周期性の強い母音部において、ピッチ周期の逆数(ピッチ周波数)の整数倍近傍にスペクトルのピークが立つという特徴(調波構造またはハーモニクス)があり、また、第1レイヤ誤差変換係数においてもピッチ周波数の整数倍近傍に大きな誤差が生じやすいからである。 The reason for setting a band based on an integer multiple of the pitch frequency is that the audio signal has a spectrum peak in the vicinity of an integral multiple of the reciprocal of the pitch period (pitch frequency), particularly in the vowel part having a strong pitch periodicity. This is because there is a characteristic (harmonic structure or harmonics), and a large error is likely to occur near the integral multiple of the pitch frequency in the first layer error conversion coefficient.
このように、本実施の形態によれば、第1位置特定部231は、ピッチ周波数の整数倍近傍の帯域を特定するため、最終的に第2位置特定部202により特定されるターゲット周波数はピッチ周波数の近傍になるので、少ない演算量で音声品質を改善することができる。
As described above, according to the present embodiment, since the first
(実施の形態6)
実施の形態6では、符号化処理において、高域部を雑音などによる近似信号で代用する方法を用いる第1レイヤ符号化部を有する符号化装置に、本発明による符号化方法を適用する場合について説明する。図22は本実施の形態に係る符号化装置220の主要な構成を示すブロック図である。図22に示す符号化装置220は、第1レイヤ符号化部2201と、第1レイヤ復号部2202と、遅延部2203と、減算部104と、周波数領域変換部101と、第2レイヤ符号化部105と、多重化部106とを備える。なお、図22の符号化装置220において、図1に示した符号化装置100と同様の構成要素には同一の番号を付し、その説明を省略する。
(Embodiment 6)
In the sixth embodiment, the encoding method according to the present invention is applied to an encoding apparatus having a first layer encoding unit that uses a method of substituting an approximate signal due to noise or the like in an encoding process. explain. FIG. 22 is a block diagram showing the main configuration of
本実施の形態の第1レイヤ符号化部2201は、高域部を雑音などによる近似信号で代用する方式を採用する。具体的には、聴感的に重要度の低い高域部を近似信号で表し、その代わりに聴感的に重要な低域部(または低中域部)のビット配分を増やしてこの帯域の原信号に対する忠実度を向上させる。これにより、全体的な音質の向上を図る。例えば、AMR−WB方式(非特許文献3)やVMR−WB方式(非特許文献4)が挙げられる。
First
第1レイヤ符号化部2201は、入力信号を符号化して第1レイヤ符号化データを生成し、多重化部106及び第1レイヤ復号部2202に出力する。なお、第1レイヤ符号化部2201の詳細については後述する。
First
第1レイヤ復号部2202は、第1レイヤ符号化部2201から入力される第1レイヤ符号化データを用いて復号処理を行い、第1レイヤ復号信号を生成し、減算部104に出力する。なお、第1レイヤ復号部2202の詳細については後述する。
First
次いで、図23を用いて、第1レイヤ符号化部2201の詳細について説明する。図23は符号化装置220の第1レイヤ符号化部2201の構成を示すブロック図である。図23に示すように、第1レイヤ符号化部2201は、ダウンサンプリング部2210と、コア符号化部2220とから構成される。
Next, details of first
ダウンサンプリング部2210は、時間領域の入力信号をダウンサンプリングして、所望のサンプリングレートに変換し、ダウンサンプリングした時間領域信号をコア符号化部2220に出力する。
The down-
コア符号化部2220は、ダウンサンプリング部2210の出力信号に対して符号化処理を行い、第1レイヤ符号化データを生成し、第1レイヤ復号部2202及び多重化部106に出力する。
次いで、図24を用いて第1レイヤ復号部2202の詳細について説明する。図24は符号化装置220の第1レイヤ復号部2202の構成を示すブロック図である。図24に示すように、第1レイヤ復号部2202は、コア復号部2230と、アップサンプリング部2240と、高域成分付与部2250と、から構成される。
Next, details of first
コア復号部2230は、コア符号化部2220から入力される第1レイヤ符号化データを用いて復号処理を行って復号信号を生成し、アップサンプリング部2240に出力するとともに、復号処理によって求められた復号LPC係数を高域成分付与部2250に出力する。
アップサンプリング部2240は、コア復号部2230から出力された復号信号をアップサンプリングして、入力信号と同じサンプリングレートに変換し、アップサンプリング後の信号を高域成分付与部2250に出力する。
The
高域成分付与部2250は、ダウンサンプリング部2240よりアップサンプリングされた信号に対して、例えば非特許文献3および非特許文献4に記載されている方法により高域成分の近似信号を生成し、欠損した高域部を補う。
The high frequency
図25は、本実施の形態に係る符号化装置に対応する復号装置の主要な構成を示すブロック図である。図25の復号装置250は、図7に示した復号装置600と同様の基本構成を有しており、第1レイヤ復号部602に代えて、第1レイヤ復号部2501を備える。第1レイヤ復号部2501は符号化装置の第1レイヤ復号部2202と同様に、図示せぬコア復号部、アップサンプリング部及び高域成分付与部から構成される。ここでは、それらについての詳細な説明を省略する。
FIG. 25 is a block diagram showing the main configuration of a decoding apparatus corresponding to the encoding apparatus according to the present embodiment. 25 has the same basic configuration as
コア復号部より与えられる復号LPC係数によって構成される合成フィルタに、雑音信号のような符号化部および復号部で付加情報なしに生成できる信号を通し、合成フィルタの出力信号を高域成分の近似信号に用いる。このとき、入力信号の高域成分と第1レイヤ復号信号の高域成分が全く異なる波形となるため、減算部で求められる誤差信号の高域成分のエネルギーは入力信号の高域成分のエネルギーよりもむしろ大きくなってしまう。これにより、第2レイヤ符号化部では、聴感的な重要度が低い高域部に配置された帯域が選択されやすくなるという問題が生じる。 A signal that can be generated without additional information by the encoding unit and decoding unit such as a noise signal is passed through a synthesis filter composed of decoded LPC coefficients given by the core decoding unit, and the output signal of the synthesis filter is approximated to a high frequency component Used for signals. At this time, since the high frequency component of the input signal and the high frequency component of the first layer decoded signal have completely different waveforms, the energy of the high frequency component of the error signal obtained by the subtracting unit is higher than the energy of the high frequency component of the input signal. But it will get bigger. As a result, the second layer encoding unit has a problem that it is easy to select a band arranged in a high frequency part having low auditory importance.
本実施の形態によれば、上記のように第1レイヤ符号化部2201の符号化処理において、高域部を雑音などによる近似信号で代用する方法を用いる符号化装置220において、予め設定された基準周波数よりも周波数が低い低域部から帯域を選択することにより、誤差信号(又は誤差変換係数)の高域部のエネルギーが増大されても、聴覚的な感度の高い低域部を第2レイヤ符号化部の符号化対象として選択することできるため、音質を改善することができる。
According to the present embodiment, as described above, in encoding process of first
なお、本実施の形態では、高域部に関する情報を復号部に送らない構成を例にして説明したが、本発明はこれに限らず、例えば、非特許文献5のように高域部の信号を低域部に比べて低ビットレートで符号化して復号部に送る構成であっても良い。 In the present embodiment, the configuration in which the information related to the high frequency band is not sent to the decoding unit has been described as an example. However, the present invention is not limited to this, and for example, as in Non-Patent Document 5, May be encoded at a lower bit rate than the low-frequency part and sent to the decoding part.
また、図22に示す符号化装置220において、減算部104は、時間領域の信号同士の差をとる構成であるが、減算部は周波数領域の変換係数同士の差をとる構成にしても良い。この場合、周波数領域変換部101を遅延部2203と減算部104の間に配置して入力変換係数を求め、第1レイヤ復号部2202と減算部104の間に周波数領域変換部101を新たに追加して第1レイヤ復号変換係数を求める。そして、減算部104は入力変換係数と第1レイヤ復号変換係数の差をとり、その誤差変換係数を第2レイヤ符号化部に直接与える構成となる。この構成によれば、ある帯域では差をとり別の帯域では差はとらないなど、各帯域に適した減算処理が可能になり、音質をさらに改善することができる。
In the
(実施の形態7)
実施の形態7では、他の構成の符号化装置及び復号装置において、本発明による符号化方法を適用する場合について説明する。図26は、本実施の形態に係る符号化装置260の主要な構成を示すブロック図である。
(Embodiment 7)
In Embodiment 7, a case will be described in which the encoding method according to the present invention is applied to an encoding device and a decoding device having other configurations. FIG. 26 is a block diagram showing the main configuration of
図26に示す符号化装置260は、図22に示した符号化装置220に対して、重みフィルタ部2601を追加した構成を有する。なお、図26の符号化装置260において、図22と同様の構成要素については同一の番号を付し、その説明を省略する。
26 has a configuration in which a
重みフィルタ部2601は、減算部104から入力される誤差信号に聴感的な重み付けをするフィルタ処理を行い、フィルタ処理後の信号を周波数領域変換部101に出力する。重みフィルタ部2601は、入力信号のスペクトル包絡と逆のスペクトル特性を有し、入力信号のスペクトルを平坦化(白色化)もしくはそれに近いスペクトル特性に変化させる。例えば、重みフィルタW(z)は、第1レイヤ復号部2202で得られる復号LPC係数を用いて、次式(9)のように構成される。
図27に示す復号装置270は、図25に示した復号装置250に対して、合成フィルタ部2701を追加した構成を有する。なお、図27の復号装置270において、図25と同様の構成要素については同一の番号を付し、その説明を省略する。
A
合成フィルタ部2701は、時間領域変換部606から入力される信号に対して、平坦化されたスペクトルの特性を元の特性に復元するフィルタ処理を行い、フィルタ処理後の信号を加算部604に出力する。合成フィルタ部2701は、式(9)で表される重みフィルタと逆のスペクトル特性、すなわち入力信号のスペクトル包絡と同様の特性を有する。合成フィルタB(z)は、式(9)を用いて次式(10)のように表される。
一般的には、上記のような符号化装置及び復号装置において、音声信号のスペクトル包絡は低域部のエネルギーが高域部のエネルギーより大きく現れるため、合成フィルタを通す前の信号の符号化歪が低域部と高域部で同等であっても、合成フィルタを通した後では低域部の符号化歪が大きくなる。音声信号を低ビットレートに圧縮して転送する場合には符号化歪を十分に小さくすることができないため、前述したような復号部の合成フィルタ部の影響によって符号化歪の低域部のエネルギーが増大されてしまい、低域部の品質劣化が現れやすくなるという問題がある。 In general, in the encoding device and the decoding device as described above, the spectral envelope of the audio signal appears such that the energy in the low frequency part is larger than the energy in the high frequency part, so the encoding distortion of the signal before passing through the synthesis filter Even when the low frequency region and the high frequency region are equivalent, the coding distortion of the low frequency region becomes large after passing through the synthesis filter. When audio signals are compressed and transferred at a low bit rate, the coding distortion cannot be reduced sufficiently. Therefore, the energy of the low frequency part of the coding distortion is affected by the influence of the synthesis filter part of the decoding part as described above. Is increased, and there is a problem that quality degradation in the low frequency region is likely to appear.
本実施の形態の符号化方法によれば、周波数が基準周波数よりも低い低域部からターゲット周波数が決定されるため、低域部が第2レイヤ符号化部105の符号化対象として選択されやすく、それにより低域部の符号化歪を小さくすることができる。すなわち、本実施の形態によれば、合成フィルタによって低域部が強調されても、低域部の符号化歪が知覚されにくくなるため、音質を改善する効果が得られる。
According to the encoding method of the present embodiment, since the target frequency is determined from the low frequency part whose frequency is lower than the reference frequency, the low frequency part is easily selected as the encoding target of second
なお、本実施の形態では符号化装置260の減算部104を時間領域の信号同士の差をとる構成としたが、本発明はこれに限らず、周波数領域の変換係数同士の差をとる構成としても良い。具体的には、重みフィルタ部2601と周波数領域変換部101を遅延部2203と減算部104の間に配置して入力変換係数を求め、そして第1レイヤ復号部2202と減算部104の間に重みフィルタ部2601と周波数領域変換部101を新たに追加して第1レイヤ復号変換係数を求める。そして、減算部104では入力変換係数と第1レイヤ復号変換係数の差をとり、その誤差変換係数を第2レイヤ符号化部105に直接与える構成とする。この構成によれば、ある帯域では差をとり別の帯域では差はとらないなど、各帯域に適した減算処理が可能になり、音質をさらに改善することができる。
In the present embodiment, the subtracting
また、本実施の形態では、符号化装置220のレイヤ数が2である場合を例にして説明したが、本発明はこれに限らず、例えば、図28に示す符号化装置280のように、符号化階層をレイヤ数が2以上の構成としてもよい。
Further, in the present embodiment, the case where the number of layers of the
図28は符号化装置280の主要な構成を示すブロック図である。図1に示した符号化装置100に対して、第2レイヤ復号部2801と、第3レイヤ符号化部2802と、第3レイヤ復号部2803と、第4レイヤ符号化部2804と、2つの加算器2805を追加し、3つの減算部104を有する構成を採る。
FIG. 28 is a block diagram showing the main configuration of encoding apparatus 280. For the
図28に示す第3レイヤ符号化部2802と第4レイヤ符号化部2804は、図1に示した第2レイヤ符号化部105と同様の構成を有し、同様の動作を行い、第2レイヤ復号部2801と第3レイヤ復号部2803は、図1に示した第1レイヤ復号部103と同様の構成を有し、同様の動作を行う。ここでは、各レイヤ符号化部における帯域の位置について、図29を用いて説明する。
The third
各レイヤ符号化部における帯域の配置の一例として、図29Aは、第2レイヤ符号化部における帯域の位置を示し、図29Bは、第3レイヤ符号化部における帯域の位置を示し、図29Cは、第4レイヤ符号化部における帯域の位置を示し、帯域数はそれぞれ4である。 As an example of band arrangement in each layer encoding unit, FIG. 29A shows a band position in the second layer encoding unit, FIG. 29B shows a band position in the third layer encoding unit, and FIG. The band positions in the fourth layer encoding unit are shown, and the number of bands is 4 respectively.
より詳しく言うと、第2レイヤ符号化部105では、レイヤ2の基準周波数Fx(L2)を超えないように4つの帯域が配置され、第3レイヤ符号化部2802では、レイヤ3の基準周波数Fx(L3)を超えないように4つの帯域が配置され、第4レイヤ符号化部2804では、レイヤ4の基準周波数Fx(L4)を超えないよう帯域が配置されている。そして、各レイヤの基準周波数の間には、Fx(L2)<Fx(L3)<Fx(L4)の関係がある。すなわち、ビットレートが低いレイヤ2では、聴感的な感度の高い低域部の中から符号化の対象となる帯域を決定し、ビットレートが高くなる高位レイヤになるほど高域部まで含めた帯域の中から符号化の対象となる帯域を決定する。
More specifically, in the second
このような構成を採ることにより、低位レイヤにおいて低域部を重視し、高位レイヤにおいてより広い帯域をカバーするようにするため、音声信号の高音質化を実現することができる。 By adopting such a configuration, it is possible to achieve higher sound quality of the audio signal in order to emphasize the low frequency band in the lower layer and cover a wider band in the higher layer.
図30は、図28に示した符号化装置280に対応する復号装置300の主要な構成を示すブロック図である。図30の復号装置300は、図7に示した復号装置600に対して、第3レイヤ復号部3001と第4レイヤ復号部3002と2つの加算器604とを追加した構成を有する。なお、第3レイヤ復号部3001と第4レイヤ復号部3002は、図7に示した復号装置600の第2レイヤ復号部603と同様の構成を有し、同様の動作を行うため、ここでは、その詳細な説明を省略する。
FIG. 30 is a block diagram showing a main configuration of
また、各レイヤ符号化部における帯域の配置の別の一例として、図31Aは第2レイヤ符号化部105における4つの帯域の位置を示し、図31Bは、第3レイヤ符号化部2802における6つの帯域の位置を示し、図31Cは、第4レイヤ符号化部2804における8つの帯域の位置を示す。
As another example of the band arrangement in each layer encoding unit, FIG. 31A shows the positions of four bands in the second
図31では、各レイヤ符号化部において、各帯域は等間隔に配置され、図31Aに示すような低位レイヤでは低域部に配置された帯域のみが符号化の対象となり、図31Bまたは図31Cに示すような高位レイヤになるほど符号化の対象となる帯域が増える。 In FIG. 31, in each layer encoding unit, each band is arranged at equal intervals, and in the lower layer as shown in FIG. 31A, only the band arranged in the low band part is the target of encoding, and FIG. 31B or FIG. As the higher layer becomes, the band to be encoded increases.
このような構成によれば、各レイヤでは帯域が等間隔に配置され、低位レイヤでは符号化の対象となる帯域を選択する場合、選択候補である低域部に配置される帯域の数が少ないため、演算量とビットレートを削減することができる。 According to such a configuration, when the bands are arranged at equal intervals in each layer and the band to be encoded is selected in the lower layer, the number of bands arranged in the low frequency part which is a selection candidate is small. Therefore, the calculation amount and the bit rate can be reduced.
(実施の形態8)
本発明の実施の形態8は、第1位置特定部の動作のみにおいて実施の形態1と相違し、それを示すために、本実施の形態に係る第1位置特定部には「801」という番号を付す。第1位置特定部801は、符号化対象となるターゲット周波数が採り得る帯域を特定する際、全帯域をあらかじめ複数の部分帯域に分割し、各部分帯域において所定の帯域幅および所定の刻み幅で探索を行う。そして、第1位置特定部801は、探索により求められた各部分帯域内の帯域を結合して、符号化対象となるターゲット周波数が採り得る帯域とする。
(Embodiment 8)
The eighth embodiment of the present invention is different from the first embodiment only in the operation of the first position specifying unit, and in order to show this, the first position specifying unit according to the present embodiment has a number “801”. Is attached. The first
本実施の形態に係る第1位置特定部801の動作について図32を用いて説明する。図32は、部分帯域数N=2であって、低域部をカバーするように部分帯域1が設定され、高域部をカバーするように部分帯域2が設定される場合を例示する。部分帯域1では、予め所定の帯域幅に設定された複数の帯域の中から1つの帯域が選択される(この帯域の位置情報を第1部分帯域位置情報と呼ぶ)。同様に、部分帯域2では、予め所定の帯域幅に設定された複数の帯域の中から1つの帯域が選択される(この帯域の位置情報を第2部分帯域位置情報と呼ぶ)。
The operation of the first
次に、第1位置特定部801は、部分帯域1において選択された帯域と、部分帯域2において選択された帯域とを結合して結合帯域を構成する。この結合帯域が第1位置特定部801により特定される帯域となり、次いで第2位置特定部202は当該結合帯域を基に第2位置情報を特定する。例えば、部分帯域1で選択された帯域が帯域2、部分帯域2で選択された帯域が帯域4である場合、第1位置特定部801は、図32の下段に示されるようにこの2つの帯域を結合し、符号化対象となる周波数帯域が採り得る帯域とする。
Next, the first
図33は、部分帯域の数がNである場合に対応する第1位置特定部801の構成を示すブロック図である。図33において、減算部104から入力される第1レイヤ誤差変換係数は部分帯域1特定部811−1〜部分帯域N特定部811−Nそれぞれに与えられる。各々の部分帯域n特定部811−n(n=1〜N)は、所定の部分帯域nの中から1つの帯域を選択し、選択された帯域の位置を示す情報(第n部分帯域位置情報)を第1位置情報構成部812に出力する。
FIG. 33 is a block diagram illustrating a configuration of the first
第1位置情報構成部812は、各々の部分帯域n特定部811−nから入力される第n部分帯域位置情報(n=1〜N)を用いて第1位置情報を構成し、当該第1位置情報を第2位置特定部202、符号化部203、および多重化部204に出力する。
The first location
図34は、第1位置情報構成部812において第1位置情報を構成する様子を例示する図である。この図において、第1位置情報構成部812は、第1部分帯域位置情報(A1ビット)〜第N部分帯域位置情報(ANビット)を順番に並べて第1位置情報を構成する。ここで、各々の第n部分帯域位置情報のビット長Anは、各部分帯域nに含まれる候補帯域の数により決まり、それぞれ異なる値を有しても良い。
FIG. 34 is a diagram illustrating a state in which the first position
図35は、本実施の形態の復号処理において、第1位置情報と第2位置情報とを用いて第1レイヤ復号誤差変換係数を求める様子を示す図である。ここでは、部分帯域数が2である場合を例にとって説明する。なお、以下の説明においては、実施の形態1に係る第2レイヤ復号部603を構成する各構成要素の名称および番号を流用する。
FIG. 35 is a diagram illustrating a state in which the first layer decoding error transform coefficient is obtained using the first position information and the second position information in the decoding process according to the present embodiment. Here, a case where the number of partial bands is 2 will be described as an example. In the following description, the names and numbers of the constituent elements constituting second
配置部704は、乗算部703から入力されるゲイン候補乗算後の形状候補に対して、第2位置情報を用いて再配置を行う。次に、配置部704は、第2位置情報を用いた再配置後の形状候補に対して、第1位置情報を用いてさらに部分帯域1および部分帯域2への再配置を行う。配置部704は、このようにして求められた信号を第1レイヤ復号誤差変換係数として出力する。
The
本実施の形態によれば、第1位置特定部は各々の部分帯域の中から1つの帯域を選択するため、部分帯域に少なくとも1つの復号スペクトルを配置することが可能となる。これにより、全帯域の中から1つの帯域を決定する実施形態に比べて、音質を改善したい複数の帯域をあらかじめ設定しておくことができる。例えば、低域部と高域部の両者の品質改善を同時に図りたい場合などに本実施の形態は有効である。 According to the present embodiment, since the first position specifying unit selects one band from each partial band, it is possible to arrange at least one decoded spectrum in the partial band. As a result, a plurality of bands whose sound quality is to be improved can be set in advance as compared with the embodiment in which one band is determined from all the bands. For example, this embodiment is effective when it is desired to simultaneously improve the quality of both the low frequency region and the high frequency region.
また、本実施の形態によれば、低位レイヤ(本実施の形態では第1レイヤ)において低ビットレートの符号化を行う場合でも、復号信号の主観品質を改善することができる。低位レイヤにCELP方式を用いる構成はその一例である。CELP方式は、波形マッチングに基づく符号化方式であるため、高域部に比べてエネルギーの大きい低域部の量子化歪がより小さくなるように符号化が行われる。その結果、高域部のスペクトルが減衰してしまい、こもり感(帯域感の欠如)として知覚される。その一方でCELP方式の符号化は低ビットレートの符号化方式であるため、低域の量子化歪を十分に抑えることができず、その量子化歪は雑音感として知覚されてしまう。本実施形態では、低域部と高域部の各々から符号化の対象となる帯域を選択するため、低域部の雑音感、高域部のこもり感という異なる2つの劣化要因を同時に解消し、主観品質を改善することが可能となる。 Further, according to the present embodiment, the subjective quality of the decoded signal can be improved even when encoding at a low bit rate in the lower layer (first layer in the present embodiment). The configuration using the CELP method for the lower layer is an example. Since the CELP method is an encoding method based on waveform matching, the encoding is performed so that the quantization distortion in the low frequency region where the energy is large is smaller than that in the high frequency region. As a result, the spectrum in the high frequency region is attenuated, and this is perceived as a feeling of being full (absence of a band feeling). On the other hand, CELP encoding is a low bit rate encoding method, and thus low-band quantization distortion cannot be sufficiently suppressed, and the quantization distortion is perceived as noise. In this embodiment, since the band to be encoded is selected from each of the low-frequency part and the high-frequency part, two different deterioration factors such as the noise feeling of the low-frequency part and the feeling of the high-frequency part are simultaneously eliminated. It becomes possible to improve subjective quality.
また、本実施の形態によれば、低域から選択された帯域および高域から選択された帯域を結合して結合帯域を構成し、この結合帯域の中でスペクトルの形状を決定するため、高域よりも低域の品質改善が必要なフレームでは、低域を重視したスペクトルの形状を選択し、低域よりも高域の品質改善が必要なフレームでは、高域を重視したスペクトルの形状を選択するという適応処理を行うことができ、主観品質を改善することができる。例えば、スペクトルの形状をパルスで表す場合、高域よりも低域の品質改善が必要なフレームでは低域に多くのパルスを配置し、低域よりも高域の品質改善が必要なフレームでは高域に多くのパルスを配置することができ、このような適応処理により、主観品質を改善することができる。 Further, according to the present embodiment, a band selected from the low band and a band selected from the high band are combined to form a combined band, and the spectrum shape is determined in the combined band. Select a spectrum shape that emphasizes the low range for frames that require quality improvement in the lower range than the low range, and select a spectrum shape that emphasizes the high range for frames that require higher quality improvement than the low range. The adaptive process of selecting can be performed, and the subjective quality can be improved. For example, when the shape of the spectrum is represented by pulses, many pulses are placed in the low frequency range in frames that require quality improvement in the low frequency range rather than in the high frequency range, and high in frames that require quality improvement in the higher frequency range than the low frequency range. Many pulses can be arranged in a region, and subjective quality can be improved by such adaptive processing.
なお、本実施の形態のバリエーションとして、図36に示すように、特定の部分帯域において常に固定の帯域が選択されるようにしても良い。図36に示す例では、部分帯域2において常に帯域4が選択され、これが結合帯域の一部となっている。これにより、本実施の形態の効果と同様に、音質を改善したい帯域をあらかじめ設定しておくことが可能となり、かつ、例えば、部分帯域2の部分帯域位置情報が不用となるため、図34に示されたような第1位置情報を表すためのビット数をより小さくすることができる。
As a variation of the present embodiment, as shown in FIG. 36, a fixed band may always be selected in a specific partial band. In the example shown in FIG. 36, the band 4 is always selected in the
また、図36は、高域部(部分帯域2)において常に固定の範囲が選択される場合を例にとって示しているが、これに限定されず、低域部(部分帯域1)において常に固定の範囲が選択されるようにしても良いし、また図36には図示されていない中域部の部分帯域において、常に固定の範囲が選択されるようにしても良い。 FIG. 36 shows an example in which a fixed range is always selected in the high frequency band (partial band 2). However, the present invention is not limited to this, and the fixed range is always fixed in the low frequency band (partial band 1). A range may be selected, or a fixed range may always be selected in a partial band of the middle region not shown in FIG.
また、本実施の形態のバリエーションとして、図37に示すように、各部分帯域において設定される候補帯域の帯域幅が異なっていても良い。図37においては、部分帯域1において設定されている候補帯域よりも部分帯域2において設定されている部分帯域の帯域幅が短い場合を例示している。
As a variation of the present embodiment, as shown in FIG. 37, the bandwidths of candidate bands set in each partial band may be different. In FIG. 37, the case where the bandwidth of the partial band set in the
以上、本発明の実施の形態について説明した。 The embodiment of the present invention has been described above.
なお、各レイヤ符号化部における帯域の配置として、本発明では上記説明した例に限らず、例えば、低位レイヤでは各帯域の帯域幅を狭く、高位レイヤでは各帯域の帯域幅を広くするように構成しても良い。 The band arrangement in each layer encoding unit is not limited to the example described above in the present invention. For example, the bandwidth of each band is narrowed in the lower layer and the bandwidth of each band is widened in the higher layer. It may be configured.
また、上記の各実施の形態では、過去のフレームで選択した帯域に関連付けて現フレームの帯域を選択しても良い。例えば、前フレームで選択した帯域の近傍に位置する帯域の中から現フレームの帯域を決定してもよい。また、前フレームで選択した帯域の近傍に現フレームの帯域の候補を再配置し、その再配置された帯域の候補の中から現フレームの帯域を決定してもよい。また、範囲情報を数フレームに1度の割合で伝送し、範囲情報を伝送しないフレームでは過去に伝送された範囲情報が表す範囲を用いてもよい(帯域情報の間欠伝送)。 In the above embodiments, the band of the current frame may be selected in association with the band selected in the past frame. For example, the band of the current frame may be determined from bands positioned in the vicinity of the band selected in the previous frame. Alternatively, the current frame band candidate may be rearranged in the vicinity of the band selected in the previous frame, and the current frame band may be determined from the rearranged band candidates. Further, the range information may be transmitted at a rate of once every several frames, and the range represented by the range information transmitted in the past may be used in a frame where the range information is not transmitted (intermittent transmission of band information).
また、上記の各実施の形態では、低位レイヤで選択した帯域に関連付けて現在のレイヤの帯域を選択しても良い。例えば、低位レイヤで選択した帯域の近傍に位置する帯域の中から現在のレイヤの帯域を決定してもよい。低位レイヤで選択した帯域の近傍に現在のレイヤの帯域の候補を再配置し、その再配置された帯域の候補の中から現在のレイヤの帯域を決定してもよい。また、範囲情報を数フレームに1度の割合で伝送し、範囲情報を伝送しないフレームでは過去に伝送された範囲情報が表す範囲を用いてもよい(帯域情報の間欠伝送)。 In each of the above embodiments, the band of the current layer may be selected in association with the band selected in the lower layer. For example, the band of the current layer may be determined from bands positioned in the vicinity of the band selected in the lower layer. The current layer band candidate may be rearranged in the vicinity of the band selected in the lower layer, and the current layer band may be determined from the rearranged band candidates. Further, the range information may be transmitted at a rate of once every several frames, and the range represented by the range information transmitted in the past may be used in a frame where the range information is not transmitted (intermittent transmission of band information).
なお、本発明は、スケーラブル符号化の階層数に制限はない。 In the present invention, the number of scalable encoding layers is not limited.
また、上記実施の形態では、復号信号として音声信号を想定しているが、本発明はこれに限らず、例えば、オーディオ信号などでもよい。 Moreover, in the said embodiment, although the audio | voice signal is assumed as a decoded signal, this invention is not limited to this, For example, an audio signal etc. may be sufficient.
また、上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。 Further, although cases have been described with the above embodiment as examples where the present invention is configured by hardware, the present invention can also be realized by software.
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。 Each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them. The name used here is LSI, but it may also be called IC, system LSI, super LSI, or ultra LSI depending on the degree of integration.
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。 Further, the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible. An FPGA (Field Programmable Gate Array) that can be programmed after manufacturing the LSI, or a reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。 Furthermore, if integrated circuit technology comes out to replace LSI's as a result of the advancement of semiconductor technology or a derivative other technology, it is naturally also possible to carry out function block integration using this technology. Biotechnology can be applied.
本発明は、スケーラブル符号化方式の通信システムに使用される符号化装置、復号装置等に用いるのに好適である。 The present invention is suitable for use in an encoding device, a decoding device, or the like used in a scalable encoding communication system.
101 周波数領域変換部
102、2201 第1レイヤ符号化部
103、2202 第1レイヤ復号部
104 減算部
105 第2レイヤ符号化部
106、204 多重化部
201、801 第1位置特定部
202 第2位置特定部
203、221 符号化部
301 目標信号構成部
302 誤差算出部
303 探索部
304 形状符号帳
305 ゲイン符号帳
311−1、…、311−J サブ位置特定部
321 第2位置情報符号帳
601 分離部
602、2501 第1レイヤ復号部
603、2502 第2レイヤ復号部
604 加算部
605 切替部
606 時間領域変換部
607 ポストフィルタ
701 形状符号帳
702 ゲイン符号帳
703 乗算部
704 配置部
2203 遅延部
2210 ダウンサンプリング部
2220 コア符号化部
2230 コア復号部
2240 アップサンプリング部
2250 高域成分付与部
2601 重みフィルタ部
2701 合成フィルタ部
2801 第2レイヤ復号部
2802 第3レイヤ符号化部
2803 第3レイヤ復号部
2804 第4レイヤ符号化部
3001 第3レイヤ復号部
3002 第4レイヤ復号部
101 Frequency
Claims (8)
前記第1レイヤ符号化データを用いて復号処理を行って第1レイヤ復号信号を生成する第1レイヤ復号手段と、
前記入力音声信号と前記第1レイヤ復号信号との誤差である第1レイヤ誤差信号を周波数領域に変換して第1レイヤ誤差変換係数を算出する第1レイヤ誤差変換係数算出手段と、
前記第1レイヤ誤差変換係数に対して符号化処理を行って第2レイヤ符号化データを生成する第2レイヤ符号化手段と、を具備し、
前記第2レイヤ符号化手段は、
所定の帯域幅を持ち前記帯域幅より狭い刻み幅で並べられた複数の帯域候補の中から、前記帯域候補における前記第1レイヤ誤差変換係数のエネルギーの大きさに基づいて第1帯域を選択し、選択した第1帯域の位置を示す第1位置情報を生成する帯域選択手段と、
前記選択された第1帯域の中で、前記刻み幅より細かい刻み幅で設定されたパルス候補位置の中から複数のパルスの位置を特定し、特定した複数のパルスの位置を示す第2位置情報を生成するパルス位置特定手段と、
前記第1位置情報と前記第2位置情報とを用いて前記第2レイヤ符号化データを生成する符号化データ生成手段と、を具備する、
音声符号化装置。 First layer encoding means for performing encoding processing on the input speech signal to generate first layer encoded data;
First layer decoding means for generating a first layer decoded signal by performing decoding processing using the first layer encoded data;
First layer error conversion coefficient calculating means for calculating a first layer error conversion coefficient by converting a first layer error signal, which is an error between the input audio signal and the first layer decoded signal, into a frequency domain;
Second layer encoding means for performing encoding processing on the first layer error transform coefficient to generate second layer encoded data,
The second layer encoding means includes
A first band is selected based on the energy level of the first layer error conversion coefficient in the band candidate from a plurality of band candidates arranged with a predetermined bandwidth and a step size narrower than the bandwidth. Band selection means for generating first position information indicating the position of the selected first band;
Second position information indicating the positions of the plurality of identified pulses by identifying the positions of the plurality of pulses from the pulse candidate positions set with a step size smaller than the step size in the selected first band. Pulse position specifying means for generating
Encoded data generation means for generating the second layer encoded data using the first position information and the second position information,
Speech encoding device.
請求項1記載の音声符号化装置。 The pulse position specifying means specifies the position of the pulse based on the magnitude of the energy of the first layer error conversion coefficient;
The speech encoding apparatus according to claim 1.
前記符号化データ生成手段は、前記ゲイン情報をさらに用いて第2レイヤ符号化データを生成する、
請求項1記載の音声符号化装置。 The second layer encoding means further comprises gain encoding means for generating gain information indicating the amplitude of the pulse at the pulse position based on the first layer error transform coefficient,
The encoded data generation means generates second layer encoded data by further using the gain information.
The speech encoding apparatus according to claim 1.
請求項1記載の音声符号化装置。 The band selecting means selects the first band from a low frequency part lower than a preset reference frequency,
The speech encoding apparatus according to claim 1.
前記第1レイヤ符号化データを復号して前記第1レイヤ復号信号を生成する第1レイヤ復号手段と、
前記第2レイヤ符号化データを復号して第1レイヤ復号誤差変換係数を生成する第2レイヤ復号手段と、
前記第1レイヤ復号誤差変換係数を時間領域に変換して第1レイヤ復号誤差信号を生成する時間領域変換手段と、
前記第1レイヤ復号信号と前記第1レイヤ復号誤差信号とを加算して復号信号を生成する加算手段と、具備し、
前記第2レイヤ復号手段は、
前記第2レイヤ符号化データを復号して、所定の帯域幅を持った第1帯域の位置を示す第1位置情報および前記第1帯域の中で複数のパルスの位置を示す第2位置情報を生成し、
前記第1位置情報および前記第2位置情報を用いて前記複数のパルスの位置を特定して前記第1レイヤ復号誤差変換係数を生成する、
音声復号装置。 First layer encoded data obtained by performing encoding processing on the input speech signal in the speech encoding device, and a first layer decoded signal obtained by decoding the first layer encoded data in the speech encoding device Obtained by converting the first layer error signal, which is an error with the input audio signal, into the frequency domain, calculating a first layer error conversion coefficient, and performing an encoding process on the first layer error conversion coefficient Receiving means for receiving second layer encoded data;
First layer decoding means for decoding the first layer encoded data and generating the first layer decoded signal;
Second layer decoding means for decoding the second layer encoded data to generate first layer decoded error transform coefficients;
Time domain transforming means for transforming the first layer decoding error transform coefficient into the time domain to generate a first layer decoded error signal;
Adding means for adding the first layer decoded signal and the first layer decoded error signal to generate a decoded signal;
The second layer decoding means includes
Decoding the second layer encoded data, first position information indicating a position of a first band having a predetermined bandwidth, and second position information indicating positions of a plurality of pulses in the first band Generate
Using the first position information and the second position information to identify the positions of the plurality of pulses to generate the first layer decoding error transform coefficient;
Speech decoding device.
前記第2レイヤ符号化データを復号して前記パルスの振幅を示すゲイン情報を生成し、 前記ゲイン情報をさらに用いて前記第1レイヤ復号誤差変換係数を生成する、
請求項5記載の音声復号装置。 The second layer decoding means includes
Decoding the second layer encoded data to generate gain information indicating the amplitude of the pulse, and further generating the first layer decoding error transform coefficient using the gain information;
The speech decoding apparatus according to claim 5.
前記第1レイヤ符号化データを用いて復号処理を行って第1レイヤ復号信号を生成する第1レイヤ復号ステップと、
前記入力音声信号と前記第1レイヤ復号信号との誤差である第1レイヤ誤差信号を周波数領域に変換し第1レイヤ誤差変換係数を算出する第1レイヤ誤差変換係数算出ステップと、
前記第1レイヤ誤差変換係数に対して符号化処理を行って第2レイヤ符号化データを生成する第2レイヤ符号化ステップと、具備し、
前記第2レイヤ符号化ステップは、
所定の帯域幅を持ち前記帯域幅より狭い刻み幅で並べられた複数の帯域候補の中から、前記帯域候補における前記第1レイヤ誤差変換係数のエネルギーの大きさに基づいて第1帯域を選択し、選択した第1帯域の位置を示す第1位置情報を生成する帯域選択ステップと、
前記選択された第1帯域の中で、前記刻み幅より細かい刻み幅で設定されたパルス候補位置の中から複数のパルスの位置を特定し、特定した複数のパルスの位置を示す第2位置情報を生成するパルス位置特定ステップと、
前記第1位置情報と前記第2位置情報とを用いて前記第2レイヤ符号化データを生成する符号化データ生成ステップと、を具備する、
音声符号化方法。 A first layer encoding step of performing encoding processing on the input speech signal to generate first layer encoded data;
A first layer decoding step of generating a first layer decoded signal by performing a decoding process using the first layer encoded data;
A first layer error conversion coefficient calculation step of converting a first layer error signal, which is an error between the input audio signal and the first layer decoded signal, to a frequency domain and calculating a first layer error conversion coefficient;
A second layer encoding step of performing encoding processing on the first layer error transform coefficient to generate second layer encoded data; and
The second layer encoding step includes:
A first band is selected based on the energy level of the first layer error conversion coefficient in the band candidate from a plurality of band candidates arranged with a predetermined bandwidth and a step size narrower than the bandwidth. A band selection step for generating first position information indicating the position of the selected first band;
Second position information indicating the positions of the plurality of identified pulses by identifying the positions of the plurality of pulses from the pulse candidate positions set with a step size smaller than the step size in the selected first band. A pulse locating step for generating
An encoded data generation step for generating the second layer encoded data using the first position information and the second position information;
Speech encoding method.
前記第1レイヤ符号化データを復号して第1レイヤ復号信号を生成する第1レイヤ復号ステップと、
前記第2レイヤ符号化データを復号して第1レイヤ復号誤差変換係数を生成する第2レイヤ復号ステップと、
前記第1レイヤ復号誤差変換係数を時間領域に変換して第1レイヤ復号誤差信号を生成する時間領域変換ステップと、
前記第1レイヤ復号信号と前記第1レイヤ復号誤差信号とを加算して復号信号を生成する加算ステップと、具備し、
前記第2レイヤ復号ステップは、
前記第2レイヤ符号化データを復号して、所定の帯域幅を持った第1帯域の位置を示す第1位置情報および前記第1帯域の中で複数のパルスの位置を示す第2位置情報を生成し、
前記第1位置情報および前記第2位置情報を用いて前記複数のパルスの位置を特定し前記第1レイヤ復号誤差変換係数を生成する、
音声復号方法。 First layer encoded data obtained by performing encoding processing on an input speech signal in the speech encoding method, and a first layer decoded signal obtained by decoding the first layer encoded data in the speech encoding method Obtained by converting the first layer error signal, which is an error with the input audio signal, into the frequency domain, calculating a first layer error conversion coefficient, and performing an encoding process on the first layer error conversion coefficient Receiving a second layer encoded data; and
A first layer decoding step of decoding the first layer encoded data to generate a first layer decoded signal;
A second layer decoding step of decoding the second layer encoded data to generate a first layer decoding error transform coefficient;
A time domain transforming step of transforming the first layer decoding error transform coefficients into a time domain to generate a first layer decoded error signal;
An adding step of adding the first layer decoded signal and the first layer decoded error signal to generate a decoded signal;
The second layer decoding step includes
Decoding the second layer encoded data, first position information indicating a position of a first band having a predetermined bandwidth, and second position information indicating positions of a plurality of pulses in the first band Generate
Identifying the positions of the plurality of pulses using the first position information and the second position information, and generating the first layer decoding error transform coefficient;
Speech decoding method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011054916A JP5236032B2 (en) | 2007-03-02 | 2011-03-14 | Speech coding apparatus, speech decoding apparatus, and methods thereof |
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007053498 | 2007-03-02 | ||
JP2007053498 | 2007-03-02 | ||
JP2007133525 | 2007-05-18 | ||
JP2007133525 | 2007-05-18 | ||
JP2007184546 | 2007-07-13 | ||
JP2007184546 | 2007-07-13 | ||
JP2011054916A JP5236032B2 (en) | 2007-03-02 | 2011-03-14 | Speech coding apparatus, speech decoding apparatus, and methods thereof |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008148510A Division JP5294713B2 (en) | 2007-03-02 | 2008-06-05 | Encoding device, decoding device and methods thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011154383A true JP2011154383A (en) | 2011-08-11 |
JP5236032B2 JP5236032B2 (en) | 2013-07-17 |
Family
ID=40443476
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008148510A Active JP5294713B2 (en) | 2007-03-02 | 2008-06-05 | Encoding device, decoding device and methods thereof |
JP2011054916A Active JP5236032B2 (en) | 2007-03-02 | 2011-03-14 | Speech coding apparatus, speech decoding apparatus, and methods thereof |
JP2011054917A Active JP5236033B2 (en) | 2007-03-02 | 2011-03-14 | Speech coding apparatus, speech decoding apparatus, and methods thereof |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008148510A Active JP5294713B2 (en) | 2007-03-02 | 2008-06-05 | Encoding device, decoding device and methods thereof |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011054917A Active JP5236033B2 (en) | 2007-03-02 | 2011-03-14 | Speech coding apparatus, speech decoding apparatus, and methods thereof |
Country Status (1)
Country | Link |
---|---|
JP (3) | JP5294713B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103069483B (en) * | 2010-09-10 | 2014-10-22 | 松下电器(美国)知识产权公司 | Encoder apparatus and encoding method |
EP2733699B1 (en) | 2011-10-07 | 2017-09-06 | Panasonic Intellectual Property Corporation of America | Scalable audio encoding device and scalable audio encoding method |
EP2830063A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for decoding an encoded audio signal |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002100994A (en) * | 2000-07-14 | 2002-04-05 | Nokia Mobile Phones Ltd | Scalable encoding method for media stream, scalable encoder and multimedia terminal |
WO2005027095A1 (en) * | 2003-09-16 | 2005-03-24 | Matsushita Electric Industrial Co., Ltd. | Encoder apparatus and decoder apparatus |
JP2005107255A (en) * | 2003-09-30 | 2005-04-21 | Matsushita Electric Ind Co Ltd | Sampling rate converting device, encoding device, and decoding device |
WO2005040749A1 (en) * | 2003-10-23 | 2005-05-06 | Matsushita Electric Industrial Co., Ltd. | Spectrum encoding device, spectrum decoding device, acoustic signal transmission device, acoustic signal reception device, and methods thereof |
JP2006072026A (en) * | 2004-09-02 | 2006-03-16 | Matsushita Electric Ind Co Ltd | Speech encoding device, speech decoding device, and method thereof |
WO2006049205A1 (en) * | 2004-11-05 | 2006-05-11 | Matsushita Electric Industrial Co., Ltd. | Scalable decoding apparatus and scalable encoding apparatus |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002268693A (en) * | 2001-03-12 | 2002-09-20 | Mitsubishi Electric Corp | Audio encoding device |
JP3926726B2 (en) * | 2001-11-14 | 2007-06-06 | 松下電器産業株式会社 | Encoding device and decoding device |
JP4399185B2 (en) * | 2002-04-11 | 2010-01-13 | パナソニック株式会社 | Encoding device and decoding device |
EP3118849B1 (en) * | 2004-05-19 | 2020-01-01 | Fraunhofer Gesellschaft zur Förderung der Angewand | Encoding device, decoding device, and method thereof |
WO2006046587A1 (en) * | 2004-10-28 | 2006-05-04 | Matsushita Electric Industrial Co., Ltd. | Scalable encoding apparatus, scalable decoding apparatus, and methods thereof |
JP2007033833A (en) * | 2005-07-26 | 2007-02-08 | Yamaha Corp | Authoring device and authoring program |
-
2008
- 2008-06-05 JP JP2008148510A patent/JP5294713B2/en active Active
-
2011
- 2011-03-14 JP JP2011054916A patent/JP5236032B2/en active Active
- 2011-03-14 JP JP2011054917A patent/JP5236033B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002100994A (en) * | 2000-07-14 | 2002-04-05 | Nokia Mobile Phones Ltd | Scalable encoding method for media stream, scalable encoder and multimedia terminal |
WO2005027095A1 (en) * | 2003-09-16 | 2005-03-24 | Matsushita Electric Industrial Co., Ltd. | Encoder apparatus and decoder apparatus |
JP2005107255A (en) * | 2003-09-30 | 2005-04-21 | Matsushita Electric Ind Co Ltd | Sampling rate converting device, encoding device, and decoding device |
WO2005040749A1 (en) * | 2003-10-23 | 2005-05-06 | Matsushita Electric Industrial Co., Ltd. | Spectrum encoding device, spectrum decoding device, acoustic signal transmission device, acoustic signal reception device, and methods thereof |
JP2006072026A (en) * | 2004-09-02 | 2006-03-16 | Matsushita Electric Ind Co Ltd | Speech encoding device, speech decoding device, and method thereof |
WO2006049205A1 (en) * | 2004-11-05 | 2006-05-11 | Matsushita Electric Industrial Co., Ltd. | Scalable decoding apparatus and scalable encoding apparatus |
Non-Patent Citations (1)
Title |
---|
BALAZS KOVESI, ET AL.: ""A SCALABLE SPEECH AND AUDIO CODING SCHEME WITH CONTINUOUS BITRATE FLEXIBILITY"", PROCEEDINGS OF THE 2004 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING(ICA, vol. Vol.I, JPN6011008178, May 2004 (2004-05-01), pages 273 - 276, ISSN: 0002469182 * |
Also Published As
Publication number | Publication date |
---|---|
JP5294713B2 (en) | 2013-09-18 |
JP5236032B2 (en) | 2013-07-17 |
JP2009042739A (en) | 2009-02-26 |
JP5236033B2 (en) | 2013-07-17 |
JP2011154384A (en) | 2011-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4708446B2 (en) | Encoding device, decoding device and methods thereof | |
JP4871894B2 (en) | Encoding device, decoding device, encoding method, and decoding method | |
JP5339919B2 (en) | Encoding device, decoding device and methods thereof | |
KR101366124B1 (en) | Device for perceptual weighting in audio encoding/decoding | |
JP5404418B2 (en) | Encoding device, decoding device, and encoding method | |
JP5058152B2 (en) | Encoding apparatus and encoding method | |
JP2012163981A (en) | Audio codec post-filter | |
JP5236040B2 (en) | Encoding device, decoding device, encoding method, and decoding method | |
JPWO2007129728A1 (en) | Encoding apparatus and encoding method | |
US20100017197A1 (en) | Voice coding device, voice decoding device and their methods | |
JP5236032B2 (en) | Speech coding apparatus, speech decoding apparatus, and methods thereof | |
RU2459283C2 (en) | Coding device, decoding device and method | |
JPWO2011058752A1 (en) | Encoding device, decoding device and methods thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130326 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5236032 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160405 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |