JP2011154383A - Voice encoding device, voice decoding device and methods thereof - Google Patents

Voice encoding device, voice decoding device and methods thereof Download PDF

Info

Publication number
JP2011154383A
JP2011154383A JP2011054916A JP2011054916A JP2011154383A JP 2011154383 A JP2011154383 A JP 2011154383A JP 2011054916 A JP2011054916 A JP 2011054916A JP 2011054916 A JP2011054916 A JP 2011054916A JP 2011154383 A JP2011154383 A JP 2011154383A
Authority
JP
Japan
Prior art keywords
layer
band
decoding
encoding
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011054916A
Other languages
Japanese (ja)
Other versions
JP5236032B2 (en
Inventor
Masahiro Oshikiri
正浩 押切
Tomohito Yamanashi
智史 山梨
Toshiyuki Morii
利幸 森井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to JP2011054916A priority Critical patent/JP5236032B2/en
Publication of JP2011154383A publication Critical patent/JP2011154383A/en
Application granted granted Critical
Publication of JP5236032B2 publication Critical patent/JP5236032B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Abstract

<P>PROBLEM TO BE SOLVED: To accurately specify a band having a large error among all the bands by using a small calculation amount. <P>SOLUTION: A first position identification unit 201 uses a first layer error conversion coefficient including an error of a decoding signal for an input signal to search for a band having a large error in a relatively wide bandwidth in all the bands of the input signal and generates first position information indicating the identified band. A second position identification unit 202 searches for a target frequency band having a large error in a relatively narrow bandwidth in the band identified by the first position identification unit 201, and generates second position information indicating the identified target frequency band. The encoding unit 203 encodes a first layer decoding error conversion coefficient contained in the target frequency band, and generates encoding information. The first position information, the second position information, and the encoding information are transmitted to a communication partner. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、スケーラブル符号化方式の通信システムに使用される音声符号化装置、音声復号装置およびそれらの方法に関する。   The present invention relates to a speech coding apparatus, a speech decoding apparatus, and a method thereof used in a scalable coding communication system.

移動体通信システムでは、電波資源等の有効利用のために、音声信号を低ビットレートに圧縮して伝送することが要求されている。その一方で、通話音声の品質向上や臨場感の高い通話サービスの実現も望まれており、その実現には、音声信号の高品質化のみならず、より帯域の広いオーディオ信号等、音声信号以外の信号をも高品質に符号化することが望ましい。   In a mobile communication system, it is required to compress and transmit an audio signal at a low bit rate in order to effectively use radio resources and the like. On the other hand, it is also desired to improve the quality of call voice and to realize a call service with a high sense of reality. For this purpose, not only the quality of the audio signal but also the audio signal with a wider bandwidth, etc. It is desirable to encode these signals with high quality.

このように相反する2つの要求に対し、複数の符号化技術を階層的に統合する技術が有望視されている。この技術は、音声信号に適したモデルで入力信号を低ビットレートで符号化する第1レイヤと、入力信号と第1レイヤの復号信号との差分信号を音声以外の信号にも適したモデルで符号化する第2レイヤとを階層的に組み合わせるものである。このように階層的に符号化を行う技術は、符号化装置から得られるビットストリームにスケーラビリティ性、すなわち、ビットストリームの一部の情報からでも復号信号を得ることができる性質を有するため、一般的にスケーラブル符号化(階層符号化)と呼ばれている。   For such two conflicting requirements, a technique for hierarchically integrating a plurality of encoding techniques is considered promising. This technology is a model suitable for audio signals and a first layer that encodes an input signal at a low bit rate, and a differential signal between the input signal and the decoded signal of the first layer is also a model suitable for signals other than audio. The second layer to be encoded is combined hierarchically. The technique of performing hierarchical encoding in this way is general because the bitstream obtained from the encoding device has scalability, that is, a decoded signal can be obtained even from partial information of the bitstream. This is called scalable coding (hierarchical coding).

スケーラブル符号化方式は、その性質から、ビットレートの異なるネットワーク間の通信に柔軟に対応することができるので、IPプロトコルで多様なネットワークが統合されていく今後のネットワーク環境に適したものと言える。   The scalable coding scheme can be flexibly adapted to communication between networks having different bit rates because of its nature, and can be said to be suitable for a future network environment in which various networks are integrated by the IP protocol.

MPEG−4(Moving Picture Experts Group phase-4)で規格化された技術を用いてスケーラブル符号化を実現する例として、例えば、非特許文献1に開示されている技術がある。この技術は、第1レイヤにおいて、音声信号に適したCELP(Code Excited Linear Prediction;符号励振線形予測)符号化を用い、第2レイヤにおいて、原信号から第1レイヤ復号信号を減じた残差信号に対して、AAC(Advanced Audio Coder)やTwinVQ(Transform Domain Weighted Interleave Vector Quantization;周波数領域重み付きインターリーブベクトル量子化)等の変換符号化を用いる。   As an example of realizing scalable coding using a technique standardized by MPEG-4 (Moving Picture Experts Group phase-4), there is a technique disclosed in Non-Patent Document 1, for example. This technique uses CELP (Code Excited Linear Prediction) coding suitable for a speech signal in the first layer, and subtracts the first layer decoded signal from the original signal in the second layer. On the other hand, transform coding such as AAC (Advanced Audio Coder) and TwinVQ (Transform Domain Weighted Interleave Vector Quantization) is used.

一方、非特許文献2は、基本構成単位としてモジュール化されたTwinVQを用いて所望の周波数帯域のMDCT係数を階層的に符号化する手法を開示している。当該モジュールを共通化して複数回使用することにより、シンプルかつ自由度の高いスケーラブル符号化を実現できる。この手法では、各階層(レイヤ)の符号化対象となるサブバンドはあらかじめ決められている構成が基本となるが、入力信号の性質に応じて各階層レイヤの符号化対象となるサブバンドの位置をあらかじめ定められた帯域の中で変動させる構成も開示されている。   On the other hand, Non-Patent Document 2 discloses a technique of hierarchically encoding MDCT coefficients in a desired frequency band using TwinVQ modularized as a basic structural unit. By using the module in common and using it a plurality of times, a simple and highly flexible scalable encoding can be realized. In this method, the subbands to be encoded in each layer (layer) are basically determined in advance, but the position of the subband to be encoded in each layer according to the nature of the input signal. A configuration is also disclosed in which the frequency fluctuates within a predetermined band.

三木弼一編著、「MPEG−4のすべて」、初版、(株)工業調査会、1998年9月30日、p.126−127Edited by Junichi Miki, “All about MPEG-4”, first edition, Industrial Research Co., Ltd., September 30, 1998, p. 126-127 神明夫他、「階層的変換符号化基本モジュールによって構成されるスケーラブル楽音符号化」、電子情報通信学会論文誌A, Vol. J83-A, No.3, pp.241-252, 2000年3月Jinakio et al., “Scalable Music Coding Constructed by Hierarchical Transform Coding Basic Module”, IEICE Transactions A, Vol. J83-A, No.3, pp.241-252, March 2000 “AMR Wideband Speech Codec; Transcoding functions”, 3GPP TS 26.190, March 2001.“AMR Wideband Speech Codec; Transcoding functions”, 3GPP TS 26.190, March 2001. “Source-Controlled-Variable-Rate Multimode Wideband Speech Codec (VMR-WB), Service options 62 and 63 for Spread Spectrum Systems”, 3GPP2 C.S0052-A, April 2005.“Source-Controlled-Variable-Rate Multimode Wideband Speech Codec (VMR-WB), Service options 62 and 63 for Spread Spectrum Systems”, 3GPP2 C.S0052-A, April 2005. “ピッチフィルタリングによる帯域拡張技術を用いた7/10/15 kHz帯域スケーラブル音声符号化方式”, 音講論集3-11-4, pp.327-328, March 2004."7/10/15 kHz band scalable speech coding using band expansion technology by pitch filtering", pp.327-328, March 2004.

しかしながら、出力信号の音声品質を改善する上で、第2レイヤ符号化部のサブバンド(ターゲット周波数帯域)をどのように設定するかが重要となる。非特許文献2に開示の手法に従えば、第2レイヤの符号化対象となるサブバンドはあらかじめ決められている(図21(A))。この場合、常に所定のサブバンドの品質を上げることになるため、そのサブバンド以外の帯域に誤差成分が集中している場合に十分な音声品質の改善効果は得られないという問題がある。   However, in order to improve the voice quality of the output signal, it is important how to set the subband (target frequency band) of the second layer encoding unit. According to the technique disclosed in Non-Patent Document 2, the subbands to be encoded in the second layer are determined in advance (FIG. 21A). In this case, since the quality of a predetermined subband is always improved, there is a problem that a sufficient voice quality improvement effect cannot be obtained when error components are concentrated in a band other than the subband.

また、入力信号の性質に応じて、各階層(レイヤ)の符号化対象となるサブバンドの位置をあらかじめ定められた帯域の中で変動させる(図21(B))ことが記載されているが、サブバンドの採りえる位置が所定の帯域の中に限定されてしまうので、前述した課題を解決することにはならない。また、仮にサブバンドの採りえる帯域が入力信号の全帯域にわたる(図21(C))ようにした場合、サブバンドの位置を特定するための演算量が増加してしまうという問題がある。さらに、レイヤ数を増やしたときに、レイヤ毎にサブバンドの位置を特定する必要があるため、この問題は顕著になる。   Further, it is described that the position of the subband to be encoded in each layer (layer) is changed in a predetermined band in accordance with the nature of the input signal (FIG. 21B). Since the position where the subband can be taken is limited to a predetermined band, the above-described problem cannot be solved. In addition, if the bandwidth that can be taken by the subband extends over the entire bandwidth of the input signal (FIG. 21C), there is a problem that the amount of calculation for specifying the position of the subband increases. Further, when the number of layers is increased, this problem becomes significant because it is necessary to specify the position of the subband for each layer.

本発明は、かかる点に鑑みてなされたものであり、スケーラブル符号化方式において、全帯域の中から誤差が大きい帯域を少ない演算量で正確に特定することができる音声符号化装置、音声復号装置およびそれらの方法を提供することを目的とする。   The present invention has been made in view of the above points, and in a scalable coding system, a speech coding apparatus and speech decoding apparatus that can accurately identify a band having a large error from all bands with a small amount of computation. And an object thereof.

本発明の第1の態様に係る符号化装置は、入力信号を変換係数に変換する変換手段と、符号化の対象となるターゲット周波数帯域を特定する特定手段と、前記変換係数のうち、ターゲット周波数帯域に含まれる変換係数を符号化する符号化手段と、を具備し、前記特定手段は、前記ターゲット周波数帯域よりも広い帯域幅で前記変換係数が最も大きい第1帯域を、所定の第1刻み幅で探索し、特定した第1帯域を示す第1位置情報を生成する第1位置特定手段と、前記第1帯域に渡って、前記第1刻み幅より細かい第2刻み幅で前記ターゲット周波数帯域を探索し、特定したターゲット周波数帯域を示す第2位置情報を生成する第2位置特定手段と、前記第1位置情報、前記第2位置情報により特定されたターゲット周波数帯域に含まれる前記変換係数を符号化して符号化情報を生成する符号化手段と、を具備する構成を採る。   An encoding apparatus according to a first aspect of the present invention includes a conversion unit that converts an input signal into a conversion coefficient, a specifying unit that specifies a target frequency band to be encoded, and a target frequency among the conversion coefficients. Encoding means for encoding a transform coefficient included in a band, wherein the specifying means defines a first band having the largest transform coefficient in a bandwidth wider than the target frequency band in a predetermined first step. A first position specifying means for searching for a width and generating first position information indicating the specified first band; and the target frequency band with a second step width smaller than the first step width across the first band. And a second position specifying means for generating second position information indicating the specified target frequency band, and before being included in the target frequency band specified by the first position information and the second position information. A configuration that includes encoding means for generating encoded information transform coefficients is encoded, the.

本発明の第2の態様に係る復号装置は、符号化の対象となるターゲット周波数帯域に含まれる変換係数に対して符号化処理を行って得られた符号化データ、前記ターゲット周波数よりも広い帯域幅で前記変換係数が最も大きい第1帯域を示す第1位置情報、および前記第1位置帯域の中の前記ターゲット周波数帯域を示す第2位置情報を受信する受信手段と、前記符号化データを復号して復号変換係数を生成する復号手段と、前記第1位置情報および前記第2位置情報に基づいて前記ターゲット周波数帯域を特定し、前記復号変換係数を前記ターゲット周波数帯域に配置する配置手段と、を具備する構成を採る。   The decoding device according to the second aspect of the present invention provides encoded data obtained by performing an encoding process on a transform coefficient included in a target frequency band to be encoded, a band wider than the target frequency. Receiving means for receiving first position information indicating the first band having the largest transform coefficient in width and second position information indicating the target frequency band in the first position band; and decoding the encoded data Decoding means for generating a decoded transform coefficient, and an arrangement means for specifying the target frequency band based on the first position information and the second position information, and arranging the decoded transform coefficient in the target frequency band; The structure which comprises is taken.

本発明の第3の態様に係る符号化方法は、入力信号を変換係数に変換する変換ステップと、符号化の対象となるターゲット周波数帯域を特定する特定ステップと、前記変換係数のうち、ターゲット周波数帯域に含まれる変換係数を符号化する符号化ステップと、を具備し、前記特定ステップは、前記ターゲット周波数帯域よりも広い帯域幅で前記変換係数が最も大きい第1帯域を、所定の第1刻み幅で探索し、特定した第1帯域を示す第1位置情報を生成する第1位置特定ステップと、前記第1帯域に渡って、前記第1刻み幅より細かい第2刻み幅で前記ターゲット周波数帯域を探索し、特定したターゲット周波数帯域を示す第2位置情報を生成する第2位置特定ステップと、前記第1位置情報、前記第2位置情報により特定されたターゲット周波数帯域に含まれる前記変換係数を符号化して符号化情報を生成する符号化ステップと、を具備する方法を採る。   The encoding method according to the third aspect of the present invention includes a conversion step for converting an input signal into a conversion coefficient, a specifying step for specifying a target frequency band to be encoded, and a target frequency among the conversion coefficients. An encoding step for encoding a transform coefficient included in a band, wherein the specifying step includes a first band in which the transform coefficient is the largest in a bandwidth wider than the target frequency band in a predetermined first step. A first position specifying step of searching for a width and generating first position information indicating the specified first band; and the target frequency band in a second step width smaller than the first step width across the first band. A second position specifying step for generating second position information indicating the specified target frequency band, and the target specified by the first position information and the second position information. Adopt a method comprising an encoding step of generating encoded information the transform coefficients included in the frequency band is encoded, a.

本発明の第4の態様に係る復号方法は、符号化の対象となるターゲット周波数帯域に含まれる変換係数に対して符号化処理を行って得られた符号化データ、前記ターゲット周波数よりも広い帯域幅で前記変換係数が最も大きい第1帯域を示す第1位置情報、および前記第1位置帯域の中の前記ターゲット周波数帯域を示す第2位置情報を受信する受信ステップと、前記符号化データを復号して復号変換係数を生成する復号ステップと、前記第1位置情報および前記第2位置情報に基づいて前記ターゲット周波数帯域を特定し、前記復号変換係数を前記ターゲット周波数帯域に配置する配置ステップと、を具備する方法を採る。   The decoding method according to the fourth aspect of the present invention provides encoded data obtained by performing an encoding process on a transform coefficient included in a target frequency band to be encoded, a band wider than the target frequency. A receiving step of receiving first position information indicating a first band having the largest transform coefficient in width and second position information indicating the target frequency band in the first position band; and decoding the encoded data A decoding step of generating a decoded transform coefficient, an arrangement step of identifying the target frequency band based on the first position information and the second position information, and arranging the decoded transform coefficient in the target frequency band; A method comprising:

本発明によれば、全帯域の中から誤差が大きい帯域を少ない演算量で正確に特定することができ、音質を改善することができる。   According to the present invention, it is possible to accurately specify a band having a large error from all bands with a small amount of calculation, and to improve sound quality.

本発明の実施の形態1に係る符号化装置の主要な構成を示すブロック図FIG. 1 is a block diagram showing the main configuration of an encoding apparatus according to Embodiment 1 of the present invention. 図1に示した第2レイヤ符号化部の構成を示すブロック図The block diagram which shows the structure of the 2nd layer encoding part shown in FIG. 図2に示した第1位置特定部が特定する帯域の位置を示す図The figure which shows the position of the zone | band which the 1st position specific part shown in FIG. 2 specifies. 図2に示した第1位置特定部が特定する帯域の他の位置を示す図The figure which shows the other position of the zone | band which the 1st position specific part shown in FIG. 2 specifies. 図2に示した第2位置特定部が特定するターゲット周波数帯域の位置を示す図The figure which shows the position of the target frequency band which the 2nd position specific part shown in FIG. 2 specifies. 図2に示した符号化部の構成を示すブロック図The block diagram which shows the structure of the encoding part shown in FIG. 本発明の実施の形態1に係る復号装置の主要な構成を示すブロック図The block diagram which shows the main structures of the decoding apparatus which concerns on Embodiment 1 of this invention. 図7に示した第2レイヤ復号部の構成を示す図The figure which shows the structure of the 2nd layer decoding part shown in FIG. 図8に示した配置部から出力される第1レイヤ復号誤差変換係数の様子を示す図The figure which shows the mode of the 1st layer decoding error conversion coefficient output from the arrangement | positioning part shown in FIG. 図2に示した第2位置特定部が特定するターゲット周波数の位置を示す図The figure which shows the position of the target frequency which the 2nd position specific part shown in FIG. 2 specifies. 図6に示した符号化部の別の態様の構成を示すブロック図The block diagram which shows the structure of another aspect of the encoding part shown in FIG. 図8に示した第2レイヤ復号部の別の態様の構成を示すブロック図The block diagram which shows the structure of another aspect of the 2nd layer decoding part shown in FIG. 本発明の実施の形態3に係る符号化装置の第2レイヤ符号化部の構成を示すブロック図The block diagram which shows the structure of the 2nd layer encoding part of the encoding apparatus which concerns on Embodiment 3 of this invention. 実施の形態3に係る符号化装置の複数のサブ位置特定部が特定するターゲット周波数の位置を示す図The figure which shows the position of the target frequency which the some sub position specific | specification part of the encoding apparatus which concerns on Embodiment 3 specifies. 本発明の実施の形態4に係る符号化装置の第2レイヤ符号化部の構成を示すブロック図The block diagram which shows the structure of the 2nd layer encoding part of the encoding apparatus which concerns on Embodiment 4 of this invention. 図15に示した符号化部の構成を示すブロック図The block diagram which shows the structure of the encoding part shown in FIG. 図16の第2位置情報符号帳に記憶するそれぞれの第2位置情報候補が3つのターゲット周波数を持つ場合の符号化部を示す図The figure which shows an encoding part in case each 2nd position information candidate memorize | stored in the 2nd position information codebook of FIG. 16 has three target frequencies. 図15に示した符号化部の別の構成を示すブロック図The block diagram which shows another structure of the encoding part shown in FIG. 本発明の実施の形態5に係る第2レイヤ符号化部の構成を示すブロック図Block diagram showing the configuration of the second layer encoding section according to Embodiment 5 of the present invention 図19に示した第1位置特定部が特定する帯域の位置を示す図The figure which shows the position of the zone | band which the 1st position specific part shown in FIG. 19 specifies. 従来の音声符号化装置の第2レイヤ符号化部の符号化帯域を示す図The figure which shows the encoding band of the 2nd layer encoding part of the conventional audio | voice coding apparatus. 実施の形態6に係る符号化装置の主要な構成を示すブロック図FIG. 9 is a block diagram showing the main configuration of an encoding apparatus according to Embodiment 6 図22に示した符号化装置の第1レイヤ符号化部の構成を示すブロック図FIG. 22 is a block diagram showing the configuration of the first layer encoding unit of the encoding apparatus shown in FIG. 図22に示した符号化装置の第1レイヤ復号部の構成を示すブロック図FIG. 22 is a block diagram showing the configuration of the first layer decoding unit of the encoding apparatus shown in FIG. 図22に示した符号化装置に対応する復号装置の主要な構成を示すブロック図FIG. 22 is a block diagram showing the main configuration of a decoding apparatus corresponding to the encoding apparatus shown in FIG. 実施の形態7に係る符号化装置の主要な構成を示すブロック図FIG. 9 is a block diagram showing the main configuration of an encoding apparatus according to Embodiment 7 図26に示した符号化装置に対応する復号装置の主要な構成を示すブロック図FIG. 26 is a block diagram showing the main configuration of a decoding apparatus corresponding to the encoding apparatus shown in FIG. 実施の形態7に係る他の態様の符号化装置の主要な構成を示すブロック図FIG. 11 is a block diagram showing the main configuration of an encoding apparatus according to another aspect according to Embodiment 7. 図28に示した第2レイヤ符号化部における帯域の位置を示す図The figure which shows the position of the band in the 2nd layer encoding part shown in FIG. 図28に示した第3レイヤ符号化部における帯域の位置を示す図The figure which shows the position of the band in the 3rd layer encoding part shown in FIG. 図28に示した第4レイヤ符号化部における帯域の位置を示す図The figure which shows the position of the band in the 4th layer encoding part shown in FIG. 図28に示した符号化装置に対応する復号装置の主要な構成を示すブロック図FIG. 28 is a block diagram showing the main configuration of a decoding apparatus corresponding to the encoding apparatus shown in FIG. 図28に示した第2レイヤ符号化部における帯域の他の位置を示す図The figure which shows the other position of the band in the 2nd layer encoding part shown in FIG. 図28に示した第3レイヤ符号化部における帯域の他の位置を示す図The figure which shows the other position of the band in the 3rd layer encoding part shown in FIG. 図28に示した第4レイヤ符号化部における帯域の他の位置を示す図The figure which shows the other position of the band in the 4th layer encoding part shown in FIG. 実施の形態8に係る第1位置特定部の動作を説明するための図The figure for demonstrating operation | movement of the 1st position specific | specification part which concerns on Embodiment 8. FIG. 実施の形態8に係る第1位置特定部の構成を示すブロック図FIG. 9 is a block diagram showing a configuration of a first position specifying unit according to the eighth embodiment. 実施の形態8に係る第1位置情報構成部において第1位置情報を構成する様子を例示する図The figure which illustrates a mode that 1st position information is comprised in the 1st position information structure part which concerns on Embodiment 8. FIG. 実施の形態8に係る復号処理を説明するための図The figure for demonstrating the decoding process which concerns on Embodiment 8. FIG. 実施の形態8に係るバリエーションを説明するための図The figure for demonstrating the variation which concerns on Embodiment 8. FIG. 実施の形態8に係るバリエーションを説明するための図The figure for demonstrating the variation which concerns on Embodiment 8. FIG.

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

(実施の形態1)
図1は、本発明の実施の形態1に係る符号化装置の主要な構成を示すブロック図である。図1に示す符号化装置100は、周波数領域変換部101と、第1レイヤ符号化部102と、第1レイヤ復号部103と、減算部104と、第2レイヤ符号化部105と、多重化部106とを備える。
(Embodiment 1)
FIG. 1 is a block diagram showing the main configuration of the coding apparatus according to Embodiment 1 of the present invention. 1 includes a frequency domain transform unit 101, a first layer coding unit 102, a first layer decoding unit 103, a subtraction unit 104, a second layer coding unit 105, and a multiplexing unit. Unit 106.

周波数領域変換部101は、時間領域の入力信号を周波数領域の信号(入力変換係数)に変換し、入力変換係数を第1レイヤ符号化部102に出力する。   Frequency domain transform section 101 transforms a time domain input signal into a frequency domain signal (input transform coefficient), and outputs the input transform coefficient to first layer encoding section 102.

第1レイヤ符号化部102は、入力変換係数に対して符号化処理を行い、第1レイヤ符号化データを生成し、この第1レイヤ符号化データを第1レイヤ復号部103および多重化部106に出力する。   First layer encoding section 102 performs encoding processing on the input transform coefficients, generates first layer encoded data, and uses this first layer encoded data as first layer decoding section 103 and multiplexing section 106. Output to.

第1レイヤ復号部103は、第1レイヤ符号化データを用いて復号処理を行い、第1レイヤ復号変換係数を生成し、減算部104に出力する。   First layer decoding section 103 performs decoding processing using the first layer encoded data, generates a first layer decoded transform coefficient, and outputs the first layer decoded transform coefficient to subtracting section 104.

減算部104は、入力変換係数から第1レイヤ復号部103で生成された第1レイヤ復号変換係数を減じて第1レイヤ誤差変換係数を生成し、この第1レイヤ誤差変換係数を第2レイヤ符号化部105に出力する。   The subtracting unit 104 subtracts the first layer decoded transform coefficient generated by the first layer decoding unit 103 from the input transform coefficient to generate a first layer error transform coefficient, and the first layer error transform coefficient is converted into a second layer code. To the conversion unit 105.

第2レイヤ符号化部105は、減算部104より出力された第1レイヤ誤差変換係数の符号化処理を行い、第2レイヤ符号化データを生成し、この第2レイヤ符号化データを多重化部106に出力する。   Second layer encoding section 105 performs encoding processing of the first layer error transform coefficient output from subtracting section 104, generates second layer encoded data, and multiplexes the second layer encoded data. The data is output to 106.

多重化部106は、第1レイヤ符号化部102で求められる第1レイヤ符号化データと第2レイヤ符号化部105で求められる第2レイヤ符号化データを多重化してビットストリームを形成し、これを最終的な符号化データとして通信路に出力する。   The multiplexing unit 106 multiplexes the first layer encoded data obtained by the first layer encoding unit 102 and the second layer encoded data obtained by the second layer encoding unit 105 to form a bit stream. Is output to the communication path as final encoded data.

図2は、図1に示した第2レイヤ符号化部105の構成を示すブロック図である。図2に示す第2レイヤ符号化部105は、第1位置特定部201と、第2位置特定部202と、符号化部203と、多重化部204とを備える。   FIG. 2 is a block diagram showing a configuration of second layer encoding section 105 shown in FIG. The second layer encoding unit 105 illustrated in FIG. 2 includes a first position specifying unit 201, a second position specifying unit 202, an encoding unit 203, and a multiplexing unit 204.

第1位置特定部201は、減算部104から入力される第1レイヤ誤差変換係数を用いて、符号化の対象となるターゲット周波数帯域が採り得る帯域を、所定の帯域幅および所定の刻み幅で探索し、特定した帯域を示す情報を第1位置情報として、第2位置特定部202、符号化部203および多重化部204へ出力する。なお、第1位置特定部201の詳細については後述する。なお、この特定した帯域を、「範囲」もしくは「領域」などと言うこともできる。   The first position specifying unit 201 uses the first layer error transform coefficient input from the subtracting unit 104 to determine a band that can be taken by the target frequency band to be encoded with a predetermined bandwidth and a predetermined step size. The information indicating the searched and specified band is output as first position information to the second position specifying unit 202, the encoding unit 203, and the multiplexing unit 204. Details of the first position specifying unit 201 will be described later. The specified band can also be referred to as “range” or “area”.

第2位置特定部202は、第1位置特定部201より特定された帯域の中から、第1位置特定部201での帯域幅より狭い帯域幅、および第1位置特定部201での刻み幅より細かい刻み幅でターゲット周波数帯域を探索し、特定したターゲット周波数帯域を示す情報を第2位置情報として、符号化部203および多重化部204へ出力する。なお、第2位置特定部202の詳細については後述する。   The second position specifying unit 202 has a bandwidth narrower than the bandwidth of the first position specifying unit 201 and the step size of the first position specifying unit 201 out of the bands specified by the first position specifying unit 201. The target frequency band is searched with a fine step size, and information indicating the identified target frequency band is output to the encoding unit 203 and the multiplexing unit 204 as second position information. Details of the second position specifying unit 202 will be described later.

符号化部203は、第1位置情報および第2位置情報により特定されたターゲット周波数帯域に含まれる第1レイヤ誤差変換係数を符号化し、符号化情報を生成して多重化部204に出力する。なお、符号化部203の詳細については後述する。   The encoding unit 203 encodes the first layer error transform coefficient included in the target frequency band specified by the first position information and the second position information, generates encoded information, and outputs the encoded information to the multiplexing unit 204. Details of the encoding unit 203 will be described later.

多重化部204は、第1位置情報、第2位置情報、符号化情報を多重化し、第2レイヤ符号化データを生成して出力する。なお、この多重化部204は必須ではなく、これらの情報を直接図1に示す多重化部106に出力しても良い。   The multiplexing unit 204 multiplexes the first position information, the second position information, and the encoded information, generates second layer encoded data, and outputs it. Note that the multiplexing unit 204 is not essential, and such information may be output directly to the multiplexing unit 106 shown in FIG.

図3は、図2に示した第1位置特定部201が特定する帯域を示す図である。   FIG. 3 is a diagram showing a band specified by the first position specifying unit 201 shown in FIG.

図3では、第1位置特定部201は、予め所定の帯域幅で設定される3つの帯域の中から1つを特定し、この帯域の位置情報を第1位置情報として、第2位置特定部202、符号化部203および多重化部204に出力する。図3に示す各帯域はターゲット周波数帯域以上の帯域幅を持つように設定される(帯域1はF以上F未満、帯域2はF以上F未満、帯域3はF以上F未満としている)。なお、本実施の形態では各帯域は同一の帯域幅を持つように設定されているが、各帯域が異なる帯域幅を持つように設定しても良い。例えば、人間の聴覚の臨界帯域幅のように、低域に位置する帯域の帯域幅は狭く、高域に位置する帯域の帯域幅は広くなるように設定しても良い。 In FIG. 3, the first position specifying unit 201 specifies one of three bands set in advance with a predetermined bandwidth, and uses the position information of this band as the first position information, and the second position specifying unit 201 202, and output to the encoding unit 203 and the multiplexing unit 204. Each band shown in FIG. 3 is set to have a bandwidth equal to or larger than the target frequency band (band 1 is F 1 or more and less than F 3 , band 2 is F 2 or more and less than F 4 , and band 3 is F 3 or more and F 5. Less than). In this embodiment, each band is set to have the same bandwidth, but each band may be set to have a different bandwidth. For example, it may be set so that the bandwidth of the band located in the low band is narrow and the bandwidth of the band located in the high band is wide like the critical bandwidth of human hearing.

次いで、第1位置特定部201による帯域の特定方法について説明する。ここでは、第1位置特定部201は、第1レイヤ誤差変換係数のエネルギーの大きさを基準に帯域を特定する。第1レイヤ誤差変換係数をe(k)と示し、各帯域に含まれる第1レイヤ誤差変換係数のエネルギーE(i)を次式(1)により算出する。

Figure 2011154383
ここで、iは帯域を特定する識別子、FRL(i)は帯域iの最低域周波数、FRH(i)は帯域iの最高域周波数を表す。 Next, a band specifying method by the first position specifying unit 201 will be described. Here, the 1st position specific | specification part 201 specifies a zone | band on the basis of the magnitude | size of the energy of a 1st layer error conversion coefficient. The first layer error conversion coefficient is denoted as e 1 (k), and the energy E R (i) of the first layer error conversion coefficient included in each band is calculated by the following equation (1).
Figure 2011154383
Here, i is an identifier for identifying a band, FRL (i) is the lowest frequency of the band i, and FRH (i) is the highest frequency of the band i.

このように、第1レイヤ誤差変換係数のエネルギーが大きい帯域を特定し、誤差が大きい帯域に含まれる第1レイヤ誤差変換係数を符号化することにより、入力信号に対する復号信号の誤差が小さくなり、音声品質を改善することができる。   In this way, by identifying the band where the energy of the first layer error transform coefficient is large and encoding the first layer error transform coefficient included in the band where the error is large, the error of the decoded signal with respect to the input signal is reduced, Voice quality can be improved.

なお、第1レイヤ誤差変換係数のエネルギーの代わりに、次式(2)のように帯域幅で正規化した正規化エネルギーNE(i)を算出しても良い。

Figure 2011154383
Instead of the energy of the first layer error conversion coefficient, normalized energy NE R (i) normalized by the bandwidth may be calculated as in the following equation (2).
Figure 2011154383

また、帯域を特定する基準として、第1レイヤ誤差変換係数のエネルギーの代わりに、人間の聴感特性を反映した重み付けが行われた第1レイヤ誤差変換係数のエネルギーWE(i)、WNE(i)(帯域幅で正規化した正規化エネルギー)を、式(3)、(4)により算出しても良い。ここで、w(k)は人間の聴感特性に関連する重みを表す。

Figure 2011154383
Figure 2011154383
In addition, as a reference for specifying the band, instead of the energy of the first layer error conversion coefficient, the energy of the first layer error conversion coefficient WE R (i), WNE R ( i) (Normalized energy normalized by the bandwidth) may be calculated by the equations (3) and (4). Here, w (k) represents a weight related to human auditory characteristics.
Figure 2011154383
Figure 2011154383

この場合、第1位置特定部201は、聴感特性上、重要度の高い周波数には重みを大きくして、その周波数を含む帯域が選択されやすいようにし、一方、重要度の低い周波数には重みを小さくして、その周波数を含む帯域が選択されにくいようにする。これにより、聴感的に重要な帯域が優先的に選択されるため、上記同様の音質改善の効果を得ることができる。この重みとして、例えば、入力信号または第1レイヤの復号信号を基に算出された聴覚マスキング閾値や、人間の聴覚のラウドネス特性を利用して求めたものを用いても良い。   In this case, the first position specifying unit 201 increases the weight for a frequency with high importance in order to facilitate selection of a band including the frequency, while weighting for a frequency with low importance. To make it difficult to select a band including the frequency. As a result, a band that is audibly important is preferentially selected, so that the same sound quality improvement effect as described above can be obtained. As this weight, for example, an auditory masking threshold calculated based on an input signal or a decoded signal of the first layer or a human auditory loudness characteristic may be used.

また、帯域の選択法において、周波数が予め設定された基準周波数(Fx)よりも低い低域部に配置された帯域の中から帯域を選択するようにしても良い。図4の例では、帯域1〜帯域8の中から帯域を選択する。帯域の選択に制限(基準周波数)を設定する理由は次の通りである。音声信号の特徴の1つである調波構造またはハーモニクス構造(ある周波数間隔でスペクトルがピーク状に現れる構造)は、高域部に比べて低域部のピークが大きく現れ、符号化処理によって生じる量子化誤差(誤差スペクトルまたは誤差変換係数)においても同様に、高域部よりは低域部のピーク性が強くなる。そのため、たとえ、低域部の誤差スペクトル(誤差変換係数)のエネルギーが高域部と比べて小さくても、低域部の誤差スペクトル(誤差変換係数)のピーク性が高域部に比べ強くなる傾向にあることから、低域部の誤差スペクトル(誤差変換係数)が聴覚マスキング閾値(人間が音を感じ取ることのできる閾値)を超えやすくなり、その結果、聴感的な音質劣化を引き起こす。   Further, in the band selection method, a band may be selected from bands arranged in a low frequency part whose frequency is lower than a preset reference frequency (Fx). In the example of FIG. 4, a band is selected from band 1 to band 8. The reason for setting the limit (reference frequency) for the selection of the band is as follows. A harmonic structure or a harmonic structure (a structure in which a spectrum appears in a peak shape at a certain frequency interval), which is one of the characteristics of an audio signal, has a larger peak in the low band than in the high band, and is caused by the encoding process. Similarly, in the quantization error (error spectrum or error conversion coefficient), the peak property in the low frequency region is stronger than that in the high frequency region. Therefore, even if the energy of the low-frequency part error spectrum (error conversion coefficient) is smaller than that of the high-frequency part, the peak of the low-frequency part error spectrum (error conversion coefficient) is stronger than that of the high-frequency part. Due to this tendency, the low-frequency part error spectrum (error conversion coefficient) tends to exceed the auditory masking threshold (threshold by which a human can perceive sound), resulting in auditory sound quality degradation.

この方法によれば、基準周波数を予め設定することにより、周波数が基準周波数(Fx)よりも高い高域部と比べて、誤差変換係数(または誤差ベクトル)のピーク性が強い低域部からターゲット周波数が決定されるため、誤差変換係数のピークを抑えることができ、音質を改善することができる。   According to this method, by setting the reference frequency in advance, the error conversion coefficient (or error vector) has a higher peak characteristic of the error conversion coefficient (or error vector) than the high frequency part where the frequency is higher than the reference frequency (Fx). Since the frequency is determined, the peak of the error conversion coefficient can be suppressed and the sound quality can be improved.

さらに、帯域の選択法において、低中域部に配置されている帯域の中から帯域を選択するようにしても良い。図3の例では、帯域3は選択候補から除外し、帯域1および帯域2の中から帯域を選択する。これにより、低中域部の中からターゲット周波数帯域が決定されることになる。   Further, in the band selection method, the band may be selected from the bands arranged in the low and mid-range parts. In the example of FIG. 3, band 3 is excluded from selection candidates, and a band is selected from band 1 and band 2. As a result, the target frequency band is determined from the low mid-range portion.

以下では、第1位置特定部201は、帯域1を特定した場合に「1」を、帯域2を特定した場合に「2」を、帯域3を特定した場合に「3」を第1位置情報として出力する。   Hereinafter, the first position specifying unit 201 sets the first position information to “1” when the band 1 is specified, “2” when the band 2 is specified, and “3” when the band 3 is specified. Output as.

図5は、図2に示した第2位置特定部202が特定するターゲット周波数帯域の位置を示す図である。   FIG. 5 is a diagram showing the position of the target frequency band specified by the second position specifying unit 202 shown in FIG.

第2位置特定部202は、第1位置特定部201により特定された帯域において、さらに細かい刻み幅でターゲット周波数帯域を特定し、そのターゲット周波数帯域の位置情報を第2位置情報として符号化部203および多重化部204に出力する。   The second position specifying unit 202 specifies a target frequency band with a finer step size in the band specified by the first position specifying unit 201, and the position information of the target frequency band is set as second position information in the encoding unit 203. And output to the multiplexing unit 204.

次いで、第2位置特定部202によるターゲット周波数帯域の特定方法を説明する。ここでは、図2に示す第1位置特定部201から出力される第1位置情報が「2」である場合を例にして、ターゲット周波数帯域の幅をBWとする。また、帯域2の最低周波数Fを起点にし、この最低周波数Fを便宜上Gとする。そして、第2位置特定部202が特定することができるターゲット周波数帯域の最低周波数をG〜Gとする。なお、第2位置特定部202が特定するターゲット周波数帯域の刻み幅はG−Gn−1であり、一方、第1位置特定部201が特定する帯域の刻み幅はF−Fn−1(G−Gn−1<F−Fn−1)である。 Next, a method for specifying a target frequency band by the second position specifying unit 202 will be described. Here, the case where the first position information output from the first position specifying unit 201 shown in FIG. 2 is “2” is taken as an example, and the width of the target frequency band is BW. Further, the lowest frequency F 2 in the band 2 is set as a starting point, and this lowest frequency F 2 is set as G 1 for convenience. Then, the lowest frequency of the target frequency band can be a second position specifying section 202 specifies a G 2 ~G N. The step size of the target frequency band specified by the second position specifying unit 202 is G n −G n−1 , while the step size of the band specified by the first position specifying unit 201 is F n −F n−. it is 1 (G n -G n-1 <F n -F n-1).

第2位置特定部202は、最低周波数がそれぞれG、…、Gのターゲット周波数帯域候補から、第1レイヤ誤差変換係数のエネルギー又はそれに類する基準で、ターゲット周波数帯域を特定する。例えば、全てのG個のターゲット周波数帯域候補について、式(5)により第1レイヤ誤差変換係数のエネルギーを算出し、算出されたエネルギーE(n)が最大であるターゲット周波数帯域を特定し、このターゲット周波数帯域の位置情報を第2位置情報として出力する。

Figure 2011154383
Second position specifying section 202, G 1 lowest frequency, respectively, ..., from the target frequency band candidates G N, the energy or reference similar to that of the first layer error transform coefficients, to identify the target frequency band. For example, for all G n target frequency band candidates, the energy of the first layer error conversion coefficient is calculated by Equation (5), and the target frequency band where the calculated energy E R (n) is maximum is specified. The position information of the target frequency band is output as the second position information.
Figure 2011154383

なお、上記説明したように、人間の聴感特性を反映した重み付けが行われた第1レイヤ誤差変換係数のエネルギーWE(n)が基準となる場合、次式(6)によりWE(n)の算出を行う。ここで、w(k)は人間の聴感特性に関連する重みを表す。この重みとして、例えば、入力信号または第1レイヤの復号信号を基に算出された聴覚マスキング閾値や、人間の聴覚のラウドネス特性を利用して求めたものを用いても良い。

Figure 2011154383
Incidentally, as described above, if energy WE R of first layer error transform coefficients weighting that reflects the characteristics of human perception has been performed (n) is a reference, the following equation (6) WE R (n) Is calculated. Here, w (k) represents a weight related to human auditory characteristics. As this weight, for example, an auditory masking threshold calculated based on an input signal or a decoded signal of the first layer or a human auditory loudness characteristic may be used.
Figure 2011154383

この場合、第2位置特定部202は、聴感特性上、重要度の高い周波数には重みを大きくして、その周波数を含むターゲット周波数帯域が選択されやすいようにし、一方、重要度の低い周波数には重みを小さくして、その周波数を含むターゲット周波数帯域が選択されにくいようにする。これにより、聴感的に重要なターゲット周波数帯域が優先的に選択されるため、音質をさらに改善することができる。   In this case, the second position specifying unit 202 increases the weight for a frequency with high importance in order to facilitate selection of a target frequency band including the frequency, while reducing the frequency to a frequency with low importance. Reduces the weight so that the target frequency band including the frequency is not easily selected. Thereby, since the target frequency band important perceptually is preferentially selected, the sound quality can be further improved.

図6は、図2に示した符号化部203の構成を示すブロック図である。図6に示す符号化部203は、目標信号構成部301と、誤差算出部302と、探索部303と、形状符号帳304と、ゲイン符号帳305とを備える。   FIG. 6 is a block diagram showing a configuration of encoding section 203 shown in FIG. The encoding unit 203 illustrated in FIG. 6 includes a target signal configuration unit 301, an error calculation unit 302, a search unit 303, a shape code book 304, and a gain code book 305.

目標信号構成部301は、第1位置特定部201から入力される第1位置情報と第2位置特定部202から入力される第2位置情報とを使用してターゲット周波数帯域を特定し、減算部104から入力される第1レイヤ誤差変換係数からターゲット周波数帯域に含まれる部分を抽出し、抽出された第1レイヤ誤差変換係数を目標信号として誤差算出部302に出力する。この第1誤差変換係数をe(k)と表す。 The target signal constituting unit 301 specifies the target frequency band using the first position information input from the first position specifying unit 201 and the second position information input from the second position specifying unit 202, and the subtracting unit A portion included in the target frequency band is extracted from the first layer error conversion coefficient input from 104, and the extracted first layer error conversion coefficient is output to the error calculation unit 302 as a target signal. This first error conversion coefficient is represented as e 1 (k).

誤差算出部302は、誤差変換係数の形状を表す候補(形状候補)を格納する形状符号帳304から入力される第i番目の形状候補、誤差変換係数のゲインを表す候補(ゲイン候補)を格納するゲイン符号帳305から入力される第m番目のゲイン候補、および目標信号構成部301から入力される目標信号に基づいて、次式(7)により誤差Eを算出し、算出された誤差Eを探索部303に出力する。

Figure 2011154383
ここで、sh(i,k)は第i番目の形状候補、ga(m)は第m番目のゲイン候補を表す。 The error calculation unit 302 stores the i-th shape candidate input from the shape codebook 304 that stores candidates (shape candidates) representing the shape of the error conversion coefficient, and candidates (gain candidates) representing the gain of the error conversion coefficient. The error E is calculated by the following equation (7) based on the mth gain candidate input from the gain codebook 305 and the target signal input from the target signal configuration unit 301, and the calculated error E is Output to the search unit 303.
Figure 2011154383
Here, sh (i, k) represents the i-th shape candidate, and ga (m) represents the m-th gain candidate.

探索部303は、誤差算出部302により算出された誤差Eを基に、誤差Eが最小である形状候補とゲイン候補との組み合わせを探索し、探索結果である形状情報とゲイン情報とを符号化情報として、図2に示す多重化部204に出力する。ここで、形状情報は誤差Eを最小にするときのパラメータm、ゲイン情報は誤差Eを最小にするときのパラメータiを指す。   The search unit 303 searches for a combination of a shape candidate and a gain candidate with the smallest error E based on the error E calculated by the error calculation unit 302, and encodes shape information and gain information as a search result. Information is output to the multiplexing unit 204 shown in FIG. Here, the shape information indicates a parameter m when the error E is minimized, and the gain information indicates a parameter i when the error E is minimized.

なお、誤差算出部302は、聴感的に重要なスペクトルに大きな重み付けを行うことにより聴感的に重要なスペクトルの影響を大きくし、次式(8)により誤差Eを求めても良い。ここで、w(k)は人間の聴感特性に関連する重みを表す。

Figure 2011154383
Note that the error calculation unit 302 may increase the influence of the audibly important spectrum by applying a large weight to the audibly important spectrum, and obtain the error E by the following equation (8). Here, w (k) represents a weight related to human auditory characteristics.
Figure 2011154383

このように、聴感特性上、重要度の高い周波数には重みを大きくして、聴感特性上、重要度の高い周波数の量子化歪の影響を大きくし、一方、重要度の低い周波数には重みを小さくして、重要度の低い周波数の量子化歪の影響を小さくすることにより、主観品質を改善することができる。   In this way, weights are increased for frequencies that are more important for auditory characteristics, and the influence of quantization distortion for frequencies that are more important for auditory characteristics is increased, while weights for frequencies that are less important are weighted. And the subjective quality can be improved by reducing the influence of quantization distortion at a low importance frequency.

図7は、本実施の形態に係る復号装置の主要な構成を示すブロック図である。図7に示す復号装置600は、分離部601と、第1レイヤ復号部602と、第2レイヤ復号部603と、加算部604と、切替部605と、時間領域変換部606と、ポストフィルタ607とを備える。   FIG. 7 is a block diagram showing the main configuration of the decoding apparatus according to the present embodiment. A decoding apparatus 600 illustrated in FIG. 7 includes a separation unit 601, a first layer decoding unit 602, a second layer decoding unit 603, an addition unit 604, a switching unit 605, a time domain conversion unit 606, and a post filter 607. With.

分離部601は、通信路を介して入力されるビットストリームを、第1レイヤ符号化データと第2レイヤ符号化データとに分離して、それぞれ第1レイヤ符号化データを第1レイヤ復号部602へ、第2レイヤ符号化データを第2レイヤ復号部603へ出力する。また、分離部601は、入力されるビットストリームに第1レイヤ符号化データおよび第2レイヤ符号化データの両者が含まれる場合には、「2」をレイヤ情報として切替部605に出力する。一方、分離部601は、ビットストリームに第1レイヤ符号化データしか含まれていない場合には、「1」をレイヤ情報として切替部605に出力する。なお、全ての符号化データが廃棄されている場合もあるが、その場合は各レイヤの復号部は所定の誤り補償処理を行い、ポストフィルタはレイヤ情報が「1」として処理を行うものとする。本実施の形態では、復号装置において、全ての符号化データまたは第2レイヤ符号化データが廃棄された符号化データのいずれかが得られることを前提として説明を行う。   Separating section 601 separates the bit stream input via the communication path into first layer encoded data and second layer encoded data, and converts the first layer encoded data to first layer decoding section 602, respectively. The second layer encoded data is output to second layer decoding section 603. In addition, when both the first layer encoded data and the second layer encoded data are included in the input bitstream, the separation unit 601 outputs “2” as layer information to the switching unit 605. On the other hand, when only the first layer encoded data is included in the bitstream, the separation unit 601 outputs “1” to the switching unit 605 as layer information. Note that all encoded data may be discarded. In this case, the decoding unit of each layer performs predetermined error compensation processing, and the post filter performs processing with layer information “1”. . In the present embodiment, description will be made on the premise that all the encoded data or the encoded data in which the second layer encoded data is discarded is obtained in the decoding apparatus.

第1レイヤ復号部602は、第1レイヤ符号化データの復号処理を行い、第1レイヤ復号変換係数を生成し、加算部604および切替部605に出力する。   First layer decoding section 602 performs a decoding process on the first layer encoded data, generates a first layer decoded transform coefficient, and outputs the first layer decoded transform coefficient to addition section 604 and switching section 605.

第2レイヤ復号部603は、第2レイヤ符号化データの復号処理を行い、第1レイヤ復号誤差変換係数を生成し、加算部604に出力する。   Second layer decoding section 603 performs decoding processing on the second layer encoded data, generates a first layer decoding error transform coefficient, and outputs the first layer decoding error transform coefficient to adding section 604.

加算部604は、第1レイヤ復号変換係数と第1レイヤ復号誤差変換係数を加算して第2レイヤ復号変換係数を生成し、切替部605に出力する。   Adder 604 adds the first layer decoded transform coefficient and the first layer decoded error transform coefficient to generate a second layer decoded transform coefficient, and outputs the second layer decoded transform coefficient to switching section 605.

切替部605は、分離部601から入力されるレイヤ情報に基づき、レイヤ情報が「1」の場合には第1レイヤ復号変換係数を、レイヤ情報が「2」の場合には第2レイヤ復号変換係数を、復号変換係数として時間領域変換部606に出力する。   Based on the layer information input from the separation unit 601, the switching unit 605 performs the first layer decoding transform coefficient when the layer information is “1” and the second layer decoding transform when the layer information is “2”. The coefficients are output to the time domain transform unit 606 as decoded transform coefficients.

時間領域変換部606は、復号変換係数を時間領域の信号に変換し復号信号を生成し、ポストフィルタ607に出力する。   The time domain transform unit 606 converts the decoded transform coefficient into a time domain signal, generates a decoded signal, and outputs the decoded signal to the post filter 607.

ポストフィルタ607は、時間領域変換部606から出力される復号信号に対して、ポストフィルタ処理を行って、出力信号を生成する。   The post filter 607 performs post filter processing on the decoded signal output from the time domain conversion unit 606 to generate an output signal.

図8は、図7に示した第2レイヤ復号部603の構成を示す図である。図8に示す第2レイヤ復号部603は、形状符号帳701と、ゲイン符号帳702と、乗算部703と、配置部704とを備える。   FIG. 8 is a diagram showing a configuration of second layer decoding section 603 shown in FIG. Second layer decoding section 603 shown in FIG. 8 includes shape codebook 701, gain codebook 702, multiplication section 703, and arrangement section 704.

形状符号帳701は、分離部601から出力された第2レイヤ符号化データに含まれる形状情報を基に形状候補sh(i,k)を選択して、乗算部703に出力する。   The shape codebook 701 selects a shape candidate sh (i, k) based on the shape information included in the second layer encoded data output from the separation unit 601 and outputs the shape candidate sh (i, k) to the multiplication unit 703.

ゲイン符号帳702は、分離部601から出力された第2レイヤ符号化データに含まれるゲイン情報を基にゲイン候補ga(m)を選択して、乗算部703に出力する。   Gain codebook 702 selects gain candidate ga (m) based on the gain information included in the second layer encoded data output from demultiplexing section 601, and outputs it to multiplication section 703.

乗算部703は、形状候補sh(i,k)にゲイン候補ga(m)を乗じ、配置部704に出力する。   The multiplication unit 703 multiplies the shape candidate sh (i, k) by the gain candidate ga (m) and outputs the result to the arrangement unit 704.

配置部704は、分離部601から出力された第2レイヤ符号化データに含まれる第1位置情報と第2位置情報とにより特定されるターゲット周波数帯域に、乗算部703から入力されるゲイン候補乗算後の形状候補を配置し、第1レイヤ復号誤差変換係数として、加算部604に出力する。   Arrangement section 704 performs gain candidate multiplication input from multiplication section 703 on the target frequency band specified by the first position information and the second position information included in the second layer encoded data output from separation section 601. Subsequent shape candidates are arranged and output to the adding unit 604 as first layer decoding error transform coefficients.

図9は、図8に示した配置部704から出力される第1レイヤ復号誤差変換係数の様子を示す図である。ここで、Fは第1位置情報により特定される周波数、Gは第2位置情報により特定される周波数を表す。 FIG. 9 is a diagram illustrating a state of the first layer decoding error transform coefficients output from the arrangement unit 704 illustrated in FIG. Here, F m represents a frequency specified by the first position information, and G n represents a frequency specified by the second position information.

このように、本実施の形態によれば、第1位置特定部201が、入力信号の全帯域に渡って、所定の帯域幅および所定の刻み幅で誤差が大きい帯域を探索して特定し、第2位置特定部202は、第1位置特定部201により特定された帯域において、上記所定の帯域幅より狭い帯域幅、および上記所定の刻み幅より細かい刻み幅でターゲット周波数帯域を探索して特定することにより、全帯域の中から誤差が大きい帯域を少ない演算量で正確に特定することができ、音質を改善することができる。   As described above, according to the present embodiment, the first position specifying unit 201 searches and specifies a band having a large error with a predetermined bandwidth and a predetermined step width over the entire band of the input signal, The second position specifying unit 202 searches and specifies a target frequency band in a band specified by the first position specifying unit 201 with a bandwidth narrower than the predetermined bandwidth and a step size finer than the predetermined step width. By doing so, it is possible to accurately specify a band having a large error from all bands with a small amount of calculation, and to improve sound quality.

(実施の形態2)
実施の形態2では、第2位置特定部202によるターゲット周波数帯域の別の特定方法について説明する。図10は、図2に示した第2位置特定部202が特定するターゲット周波数の位置を示す図である。本実施の形態に係る符号化装置の第2位置特定部は、実施の形態1で説明した符号化装置の第2位置特定部と異なっており、単一のターゲット周波数を特定する。単一のターゲット周波数に対応する誤差変換係数の形状候補はパルス(または線スペクトル)で表される。なお、本実施の形態において、符号化装置の構成は、符号化部203の内部構成を除いて、図1に示した符号化装置と同一であり、復号装置の構成は第2レイヤ復号部603の内部構成を除いて、図7に示した復号装置と同一であるので、これらの説明を省略し、第2位置特定に関連する符号化部203及び復号装置の第2レイヤ復号部603のみについて説明する。
(Embodiment 2)
In the second embodiment, another method for specifying the target frequency band by the second position specifying unit 202 will be described. FIG. 10 is a diagram showing the position of the target frequency specified by the second position specifying unit 202 shown in FIG. The second position specifying unit of the coding apparatus according to the present embodiment is different from the second position specifying unit of the coding apparatus described in the first embodiment, and specifies a single target frequency. The shape candidate of the error conversion coefficient corresponding to a single target frequency is represented by a pulse (or line spectrum). In the present embodiment, the configuration of the encoding apparatus is the same as that of the encoding apparatus shown in FIG. 1 except for the internal configuration of encoding section 203, and the configuration of the decoding apparatus is second layer decoding section 603. 7 is the same as the decoding apparatus shown in FIG. 7, the description thereof will be omitted, and only the encoding unit 203 related to the second position identification and the second layer decoding unit 603 of the decoding apparatus will be described. explain.

本実施の形態では、第2位置特定部202は、第1位置特定部201により特定された帯域において、単一のターゲット周波数を特定する。従って、本実施の形態では、単一の第1レイヤ誤差変換係数が符号化の対象として選択される。ここでは、第1位置特定部201が帯域2を特定した場合を例にして説明する。ターゲット周波数帯域の帯域幅をBWとした場合、本実施の形態ではBW=1である。   In the present embodiment, the second position specifying unit 202 specifies a single target frequency in the band specified by the first position specifying unit 201. Therefore, in the present embodiment, a single first layer error transform coefficient is selected as an encoding target. Here, a case where the first position specifying unit 201 specifies the band 2 will be described as an example. When the bandwidth of the target frequency band is BW, in this embodiment, BW = 1.

具体的に、第2位置特定部202は、図10に示すように、帯域2に含まれる複数のターゲット周波数候補Gに対して、上記の式(5)により、それぞれの第1レイヤ誤差変換係数のエネルギーを算出し、または上記の式(6)により、それぞれの人間の聴感特性を反映した重み付けが行われた第1レイヤ誤差変換係数のエネルギーを算出する。また、第2位置特定部202は、算出したエネルギーが最大となるターゲット周波数G(1≦n≦N)を特定し、特定されたターゲット周波数Gの位置情報を第2位置情報として符号化部203に出力する。 Specifically, second position specifying section 202, as shown in FIG. 10, for a plurality of target frequency candidates G N contained in the band 2, by the above equation (5), the first layer error transform each The energy of the coefficient is calculated, or the energy of the first layer error conversion coefficient that is weighted to reflect the human auditory sensation characteristic is calculated by the above equation (6). Further, the second position specifying unit 202 specifies the target frequency G n (1 ≦ n ≦ N) that maximizes the calculated energy, and encodes the position information of the specified target frequency G n as the second position information. The data is output to the unit 203.

図11は、図6に示した符号化部203の別の態様の構成を示すブロック図である。図11に示す符号化部203は、図6に対して形状符号帳305を削除した構成を採る。なお、この構成は形状符号帳304から出力される信号が常に「1」の場合に相当する。   FIG. 11 is a block diagram showing a configuration of another aspect of encoding section 203 shown in FIG. 11 employs a configuration in which the shape codebook 305 is deleted from FIG. This configuration corresponds to the case where the signal output from the shape codebook 304 is always “1”.

符号化部203は、第2位置特定部202で特定されたターゲット周波数Gに含まれる第1レイヤ誤差変換係数を符号化し、符号化情報を生成して多重化部204に出力する。ここでは、第2位置特定部202から入力されるターゲット周波数は単一であり、符号化の対象となる第1レイヤ誤差変換係数も単一となるので、符号化部203は形状符号帳304からの形状情報を必要とせず、ゲイン符号帳305のみで探索を行い、探索結果のゲイン情報を符号化情報として、多重化部204に出力する。 The encoding unit 203 encodes the first layer error transform coefficient included in the target frequency Gn specified by the second position specifying unit 202, generates encoding information, and outputs the encoded information to the multiplexing unit 204. Here, since the target frequency input from the second position specifying unit 202 is single and the first layer error transform coefficient to be encoded is also single, the encoding unit 203 is based on the shape codebook 304. The shape information is not required, and only the gain codebook 305 is searched, and the gain information of the search result is output to the multiplexing unit 204 as encoded information.

図12は、図8に示した第2レイヤ復号部603の別の態様の構成を示すブロック図である。図12に示す第2レイヤ復号部603は、図8に対して、形状符号帳701と乗算部703とを削除した構成を採る。なお、この構成は形状符号帳701から出力される信号が常に「1」である場合に相当する。   FIG. 12 is a block diagram showing a configuration of another aspect of second layer decoding section 603 shown in FIG. Second layer decoding section 603 shown in FIG. 12 adopts a configuration in which shape codebook 701 and multiplication section 703 are deleted from FIG. This configuration corresponds to the case where the signal output from the shape codebook 701 is always “1”.

配置部704は、分離部601から出力された第2レイヤ符号化データに含まれる第1位置情報と第2位置情報とにより特定される単一のターゲット周波数に、ゲイン情報によりゲイン符号帳から選択したゲイン候補を配置し、第1レイヤ復号誤差変換係数として、加算部604に出力する。   Arrangement unit 704 selects a single target frequency specified by the first position information and the second position information included in the second layer encoded data output from separation unit 601 from the gain codebook using gain information. The gain candidates are arranged and output to the adding unit 604 as first layer decoding error transform coefficients.

このように、本実施の形態によれば、第2位置特定部202は、第1位置特定部201により特定された帯域の中から単一のターゲット周波数を特定することにより、線スペクトルを正確に表すことができるため、母音のようなトーナリティの強い信号(多数のピークが観察されるスペクトル特性を有する信号)の音質を改善することができる。   As described above, according to the present embodiment, the second position specifying unit 202 specifies the single target frequency from the band specified by the first position specifying unit 201, thereby accurately determining the line spectrum. Therefore, it is possible to improve the sound quality of a signal having a strong tonality such as a vowel (a signal having a spectrum characteristic in which many peaks are observed).

(実施の形態3)
実施の形態3では、第2位置特定部によるターゲット周波数帯域の別の特定方法について説明する。なお、本実施の形態において、符号化装置の構成は、第2レイヤ符号化部105の内部構成を除いて、図1に示した符号化装置と同一であるので、その説明を省略する。
(Embodiment 3)
In the third embodiment, another method for specifying the target frequency band by the second position specifying unit will be described. In the present embodiment, the configuration of the encoding device is the same as that of the encoding device shown in FIG. 1 except for the internal configuration of second layer encoding section 105, and thus the description thereof is omitted.

図13は、本実施の形態に係る符号化装置の第2レイヤ符号化部105の構成を示すブロック図である。図13に示す第2レイヤ符号化部105は、図2に対して、第2位置特定部202に代えて、第2位置特定部301を備える構成を採る。図2に示した第2レイヤ符号化部105と同一の構成には同一の番号を付し、その説明を省略する。   FIG. 13 is a block diagram showing a configuration of second layer encoding section 105 of the encoding apparatus according to the present embodiment. Second layer encoding section 105 shown in FIG. 13 employs a configuration including second position specifying section 301 in place of second position specifying section 202 with respect to FIG. The same components as those of second layer encoding section 105 shown in FIG.

図13に示す第2位置特定部301は、第1サブ位置特定部311−1と、第2サブ位置特定部311−2と、…、第Jサブ位置特定部311−Jと、多重化部312とを備える。   13 includes a first sub-position specifying unit 311-1, a second sub-position specifying unit 311-2,..., A J-th sub-position specifying unit 311-J, and a multiplexing unit. 312.

複数のサブ位置特定部(311−1、…、311−J)は、第1位置特定部201より特定された帯域において、それぞれ異なるターゲット周波数を特定する。具体的には、第n番目のサブ位置特定部311−nは、第1位置特定部201より特定された帯域から第1〜第n−1番目のサブ位置特定部(311−1、…、311−n−1)が特定したターゲット周波数を除いた帯域において、第n番目のターゲット周波数を特定する。   The plurality of sub position specifying units (311-1, ..., 311-J) specify different target frequencies in the band specified by the first position specifying unit 201. Specifically, the n-th sub-position specifying unit 311-n includes the first to (n-1) -th sub-position specifying units (311-1,..., From the band specified by the first position specifying unit 201. In the band excluding the target frequency specified by 311-n-1), the nth target frequency is specified.

図14は本実施の形態に係る符号化装置の複数のサブ位置特定部(311−1、…、311−J)が特定するターゲット周波数の位置を示す図である。ここでは、第1位置特定部201が帯域2を特定し、第2位置特定部301によりJ個のターゲット周波数の位置を特定する場合を例にして説明する。   FIG. 14 is a diagram illustrating the positions of target frequencies specified by a plurality of sub-position specifying units (311-1,..., 311-J) of the encoding apparatus according to the present embodiment. Here, a case where the first position specifying unit 201 specifies the band 2 and the second position specifying unit 301 specifies the positions of the J target frequencies will be described as an example.

図14(A)に示すように、第1サブ位置特定部311−1は、帯域2におけるターゲット周波数候補の中から1つのターゲット周波数を特定し(ここではG)、そのターゲット周波数の位置情報を多重化部312に出力するとともに第2サブ位置特定部311−2に出力する。 As shown in FIG. 14A, the first sub-position specifying unit 311-1 specifies one target frequency from the target frequency candidates in the band 2 (here, G 3 ), and the position information of the target frequency Is output to the multiplexing unit 312 and output to the second sub-position specifying unit 311-2.

図14(B)に示すように、第2サブ位置特定部311−2は、帯域2から第1サブ位置特定部311−1が特定したターゲット周波数Gを除いたターゲット周波数の候補の中から1つのターゲット周波数を特定し(ここではGN−1)、そのターゲット周波数の位置情報を多重化部312に出力するとともに第3サブ位置特定部311−3に出力する。 As shown in FIG. 14 (B), second sub-position specifying section 311-2, from the band 2 of the candidates of the target frequency by the first sub-position specifying section 311-1 except target frequency G 3 identified One target frequency is specified (G N-1 in this case ), and the position information of the target frequency is output to the multiplexing unit 312 and output to the third sub-position specifying unit 311-3.

同様に、図14(C)に示すように、第Jサブ位置特定部311−Jは、帯域2から第1〜第J−1サブ位置特定部(311−1、…、311−J−1)が特定したJ−1個のターゲット周波数を除いたターゲット周波数の候補の中から1つのターゲット周波数を選択し(ここではG)、それを特定する位置情報を多重化部312に出力する。 Similarly, as shown in FIG. 14C, the J-th sub-position specifying unit 311 -J starts with the first to J-1 sub-position specifying units (311-1,..., 311-J-1 from the band 2. ) Selects one target frequency from the target frequency candidates excluding the J−1 target frequencies specified (here, G 5 ), and outputs position information specifying the target frequency to the multiplexing unit 312.

多重化部312は、サブ位置特定部(311−1、…311−J)から入力されるJ個の位置情報を多重して第2位置情報を生成し、符号化部203と多重化部204に出力する。なお、この多重化部312は必須ではなく、J個の位置情報を直接符号化部203および多重化部204に出力しても良い。   The multiplexing unit 312 generates the second position information by multiplexing the J pieces of position information input from the sub-position specifying units (311-1,..., 311-J), and the encoding unit 203 and the multiplexing unit 204 Output to. Note that this multiplexing unit 312 is not essential, and J pieces of position information may be directly output to the encoding unit 203 and the multiplexing unit 204.

このように、第2位置特定部301は、第1位置特定部201により特定された帯域において、J個のターゲット周波数を特定し、複数個のピークを表現することができるため、母音のようなトーナリティの強い信号の音質を更に改善することができる。また、第1位置特定部201により特定された帯域の中からJ個のターゲット周波数を決定すれば良いため、全帯域の中からJ個のターゲット周波数を決定する場合に比べて、複数個のターゲット周波数の組み合わせ数を大幅に削減することできる。これにより、低ビットレート化および低演算量化を実現することができる。   As described above, the second position specifying unit 301 can specify J target frequencies and express a plurality of peaks in the band specified by the first position specifying unit 201. The sound quality of signals with strong tonality can be further improved. In addition, since J target frequencies may be determined from the band specified by the first position specifying unit 201, a plurality of targets may be used as compared with the case where J target frequencies are determined from the entire band. The number of frequency combinations can be greatly reduced. Thereby, a low bit rate and a low calculation amount can be realized.

(実施の形態4)
実施の形態4では、第2レイヤ符号化部105における別の符号化方法について説明する。なお、本実施の形態において、符号化装置の構成は、第2レイヤ符号化部105の内部構成を除いて、図1に示した符号化装置と同一であるので、その説明を省略する。
(Embodiment 4)
In Embodiment 4, another encoding method in second layer encoding section 105 will be described. In the present embodiment, the configuration of the encoding device is the same as that of the encoding device shown in FIG. 1 except for the internal configuration of second layer encoding section 105, and thus the description thereof is omitted.

図15は、本実施の形態に係る符号化装置の他の態様の第2レイヤ符号化部105の構成を示すブロック図である。図15に示す第2レイヤ符号化部105は、図2に示した第2位置特定部202を有さず、更に、図2に示した符号化部203に代えて符号化部221を備える構成を採る。   FIG. 15 is a block diagram showing a configuration of second layer encoding section 105 of another aspect of the encoding apparatus according to the present embodiment. The second layer encoding unit 105 illustrated in FIG. 15 does not include the second position specifying unit 202 illustrated in FIG. 2, and further includes an encoding unit 221 instead of the encoding unit 203 illustrated in FIG. 2. Take.

符号化部221は、ターゲット周波数に含まれる誤差変換係数の符号化の際に生じる量子化歪が最小となるように第2位置情報を決定する。この第2位置情報は第2位置情報符号帳321に記憶されている。   The encoding unit 221 determines the second position information so that the quantization distortion that occurs when encoding the error transform coefficient included in the target frequency is minimized. This second position information is stored in the second position information codebook 321.

図16は、図15に示した符号化部221の構成を示すブロック図である。図16に示す符号化部221は、図6に示した符号化部203に対して第2位置情報符号帳321を追加し、探索部303に代えて探索部322を備える構成を採る。なお、図6に示した符号化部203と同一の構成には同一の番号を付し、その説明を省略する。   FIG. 16 is a block diagram showing a configuration of encoding section 221 shown in FIG. 16 employs a configuration in which a second location information codebook 321 is added to the encoding unit 203 illustrated in FIG. 6 and a search unit 322 is provided instead of the search unit 303. In addition, the same number is attached | subjected to the structure same as the encoding part 203 shown in FIG. 6, and the description is abbreviate | omitted.

第2位置情報符号帳321は、後述する探索部322からの制御信号に従い、記憶している第2位置情報の候補から1つの第2位置情報を選択し、目標信号構成部301に出力する。図16の第2位置情報符号帳321では、黒点はそれぞれの第2位置情報候補のターゲット周波数の位置を表す。   The second position information codebook 321 selects one second position information from the stored second position information candidates according to a control signal from the search unit 322 described later, and outputs the second position information to the target signal configuration unit 301. In the second position information codebook 321 of FIG. 16, the black dots represent the positions of the target frequencies of the respective second position information candidates.

目標信号構成部301は、第1位置特定部201から入力される第1位置情報と第2位置情報符号帳321において選択された第2位置情報を用いてターゲット周波数を特定し、減算部104から入力される第1レイヤ誤差変換係数から特定したターゲット周波数に含まれる部分を抽出し、抽出された第1レイヤ誤差変換係数を目標信号として誤差算出部302に出力する。   The target signal constituting unit 301 specifies the target frequency using the first position information input from the first position specifying unit 201 and the second position information selected in the second position information codebook 321, A portion included in the specified target frequency is extracted from the input first layer error conversion coefficient, and the extracted first layer error conversion coefficient is output to the error calculation unit 302 as a target signal.

探索部322は、誤差算出部302から入力される誤差Eを基に、誤差Eが最小となる形状候補とゲイン候補、そして第2位置情報候補の組み合わせを探索し、探索結果の形状情報、ゲイン情報および第2位置情報を符号化情報として、図15に示す多重化部204に出力する。また、探索部322は、第2位置情報候補を選択して目標信号構成部301に出力するという制御信号を第2位置情報符号帳321に出力する。   Based on the error E input from the error calculation unit 302, the search unit 322 searches for a combination of a shape candidate, a gain candidate, and a second position information candidate that minimizes the error E, and the search result shape information, gain The information and the second position information are output as encoded information to multiplexing section 204 shown in FIG. In addition, the search unit 322 outputs a control signal for selecting and outputting the second position information candidate to the target signal configuration unit 301 to the second position information codebook 321.

このように、本実施の形態によれば、ターゲット周波数に含まれる誤差変換係数の符号化の際に生じる量子化歪が最小となるように第2位置情報を決定するので、最終的な量子化歪が小さくなるため、音声品質を改善することができる。   Thus, according to the present embodiment, since the second position information is determined so as to minimize the quantization distortion generated when the error transform coefficient included in the target frequency is encoded, the final quantization is performed. Since the distortion is reduced, the voice quality can be improved.

なお、本実施の形態では、図16に示した第2位置情報符号帳321が、単一のターゲット周波数を要素として持つ第2位置情報候補を記憶する例について説明したが、本発明はこれに限らず、図17に示すように第2位置情報符号帳321は、複数個のターゲット周波数を要素として持つ第2位置情報候補を記憶しても良い。図17は、第2位置情報符号帳321に記憶している第2位置情報候補がそれぞれ3つのターゲット周波数を持つ場合の符号化部221を示す図である。   In the present embodiment, the second position information codebook 321 shown in FIG. 16 has been described as an example of storing the second position information candidate having a single target frequency as an element. Not limited to this, as shown in FIG. 17, the second position information codebook 321 may store second position information candidates having a plurality of target frequencies as elements. FIG. 17 is a diagram illustrating the encoding unit 221 when the second position information candidates stored in the second position information codebook 321 each have three target frequencies.

また、本実施の形態では、図16に示した誤差算出部302が、形状符号帳304およびゲイン符号帳305に基づいて誤差Eを算出する例について説明したが、本発明はこれに限らず、図18に示すように形状符号帳304を削除し、ゲイン符号帳305のみに基づいて誤差Eを算出してもよい。図18は、図15に示した符号化部221の別の構成を示すブロック図である。この構成は、形状符号帳304から出力される信号が常に「1」である場合に相当する。この場合、形状が複数個のパルスで構成され、形状符号帳304は不要になるため、探索部322はゲイン符号帳305および第2位置情報符号帳321のみを探索し、探索結果のゲイン情報および第2位置情報を符号化情報として、図15に示した多重化部204に出力する。   Further, in the present embodiment, the example in which the error calculation unit 302 illustrated in FIG. 16 calculates the error E based on the shape codebook 304 and the gain codebook 305 has been described, but the present invention is not limited thereto, As shown in FIG. 18, the shape codebook 304 may be deleted, and the error E may be calculated based only on the gain codebook 305. 18 is a block diagram showing another configuration of the encoding unit 221 shown in FIG. This configuration corresponds to a case where the signal output from the shape codebook 304 is always “1”. In this case, since the shape is composed of a plurality of pulses and the shape codebook 304 is not required, the search unit 322 searches only the gain codebook 305 and the second position information codebook 321, and gain information of the search result and The second position information is output as encoded information to the multiplexing unit 204 shown in FIG.

なお、本実施の形態では、第2位置情報符号帳321が、実際に記憶領域を確保して第2位置情報候補を記憶する形態を採ることを前提に説明したが、本発明はこれに限らず、第2位置情報符号帳321が、あらかじめ定められた処理手順に従い第2位置情報候補を生成するようにしても良い。この場合、第2位置情報符号帳321には記憶領域が不用となる。   In the present embodiment, the second position information codebook 321 has been described on the premise that the second position information codebook 321 actually secures a storage area and stores the second position information candidates. However, the present invention is not limited to this. Instead, the second position information codebook 321 may generate the second position information candidate according to a predetermined processing procedure. In this case, the second location information codebook 321 does not require a storage area.

(実施の形態5)
実施の形態5では、第1位置特定部による帯域の別の特定方法について説明する。なお、本実施の形態において、符号化装置の構成は、第2レイヤ符号化部105の内部構成を除いて、図1に示した符号化装置と同一であるので、その説明を省略する。
(Embodiment 5)
In the fifth embodiment, another band specifying method by the first position specifying unit will be described. In the present embodiment, the configuration of the encoding device is the same as that of the encoding device shown in FIG. 1 except for the internal configuration of second layer encoding section 105, and thus the description thereof is omitted.

図19は本実施の形態に係る符号化装置の第2レイヤ符号化部105の構成を示すブロック図である。図19示す第2レイヤ符号化部105は、図2に示した第1位置特定部201に代えて、第1位置特定部231を備える構成を採る。   FIG. 19 is a block diagram showing a configuration of second layer encoding section 105 of the encoding apparatus according to the present embodiment. The second layer encoding unit 105 shown in FIG. 19 employs a configuration including a first position specifying unit 231 instead of the first position specifying unit 201 shown in FIG.

図示せぬ算出部は、入力信号に対してピッチ分析し、ピッチ周期を求め、求められたピッチ周期の逆数からピッチ周波数を算出する。なお、算出部は、第1レイヤ符号化部102の符号化処理によって生成された第1レイヤ符号化データからピッチ周波数を算出してもよい。この場合、第1レイヤ符号化データが送信されるため、ピッチ周波数を特定する情報を別途送信する必要がなくなる。また、算出部は、ピッチ周期を特定するピッチ周期情報を多重化部106に出力する。   A calculation unit (not shown) performs pitch analysis on the input signal to obtain a pitch period, and calculates a pitch frequency from the reciprocal of the obtained pitch period. Note that the calculation unit may calculate the pitch frequency from the first layer encoded data generated by the encoding process of the first layer encoding unit 102. In this case, since the first layer encoded data is transmitted, it is not necessary to separately transmit information for specifying the pitch frequency. In addition, the calculation unit outputs pitch cycle information for specifying the pitch cycle to the multiplexing unit 106.

第1位置特定部231は、図示せぬ算出部から入力されるピッチ周波数に基づいて、所定の相対的に広い帯域幅で帯域を特定し、特定された帯域の位置情報を第1位置情報として第2位置特定部202、符号化部203および多重化部204に出力する。   The first position specifying unit 231 specifies a band with a predetermined relatively wide bandwidth based on a pitch frequency input from a calculation unit (not shown), and uses position information of the specified band as first position information. The data is output to the second position specifying unit 202, the encoding unit 203, and the multiplexing unit 204.

図20は、図19に示した第1位置特定部231が特定する帯域の位置を示す図である。図20に示す3つの帯域は、入力されるピッチ周波数PFを基に定められる基準周波数F〜Fの整数倍の近傍の帯域である。基準周波数は、ピッチ周波数PFに所定の値を加えて求められる周波数である。具体的な例として、ここでは−1、0、1をPFに加えた値とし、基準周波数はF=PF−1、F=PF、F=PF+1となる。 FIG. 20 is a diagram showing the position of the band specified by the first position specifying unit 231 shown in FIG. The three bands shown in FIG. 20 are bands in the vicinity of integer multiples of the reference frequencies F 1 to F 3 determined based on the input pitch frequency PF. The reference frequency is a frequency obtained by adding a predetermined value to the pitch frequency PF. As a specific example, here, -1, 0, and 1 are added to PF, and the reference frequencies are F 1 = PF-1, F 2 = PF, and F 3 = PF + 1.

ピッチ周波数の整数倍を基準とした帯域を設定する理由は、音声信号には、特にピッチ周期性の強い母音部において、ピッチ周期の逆数(ピッチ周波数)の整数倍近傍にスペクトルのピークが立つという特徴(調波構造またはハーモニクス)があり、また、第1レイヤ誤差変換係数においてもピッチ周波数の整数倍近傍に大きな誤差が生じやすいからである。   The reason for setting a band based on an integer multiple of the pitch frequency is that the audio signal has a spectrum peak in the vicinity of an integral multiple of the reciprocal of the pitch period (pitch frequency), particularly in the vowel part having a strong pitch periodicity. This is because there is a characteristic (harmonic structure or harmonics), and a large error is likely to occur near the integral multiple of the pitch frequency in the first layer error conversion coefficient.

このように、本実施の形態によれば、第1位置特定部231は、ピッチ周波数の整数倍近傍の帯域を特定するため、最終的に第2位置特定部202により特定されるターゲット周波数はピッチ周波数の近傍になるので、少ない演算量で音声品質を改善することができる。   As described above, according to the present embodiment, since the first position specifying unit 231 specifies a band in the vicinity of an integer multiple of the pitch frequency, the target frequency finally specified by the second position specifying unit 202 is the pitch. Since the frequency is close, the voice quality can be improved with a small amount of calculation.

(実施の形態6)
実施の形態6では、符号化処理において、高域部を雑音などによる近似信号で代用する方法を用いる第1レイヤ符号化部を有する符号化装置に、本発明による符号化方法を適用する場合について説明する。図22は本実施の形態に係る符号化装置220の主要な構成を示すブロック図である。図22に示す符号化装置220は、第1レイヤ符号化部2201と、第1レイヤ復号部2202と、遅延部2203と、減算部104と、周波数領域変換部101と、第2レイヤ符号化部105と、多重化部106とを備える。なお、図22の符号化装置220において、図1に示した符号化装置100と同様の構成要素には同一の番号を付し、その説明を省略する。
(Embodiment 6)
In the sixth embodiment, the encoding method according to the present invention is applied to an encoding apparatus having a first layer encoding unit that uses a method of substituting an approximate signal due to noise or the like in an encoding process. explain. FIG. 22 is a block diagram showing the main configuration of encoding apparatus 220 according to the present embodiment. 22 includes a first layer encoding unit 2201, a first layer decoding unit 2202, a delay unit 2203, a subtraction unit 104, a frequency domain transform unit 101, and a second layer encoding unit. 105 and a multiplexing unit 106. In the encoding device 220 of FIG. 22, the same components as those of the encoding device 100 shown in FIG.

本実施の形態の第1レイヤ符号化部2201は、高域部を雑音などによる近似信号で代用する方式を採用する。具体的には、聴感的に重要度の低い高域部を近似信号で表し、その代わりに聴感的に重要な低域部(または低中域部)のビット配分を増やしてこの帯域の原信号に対する忠実度を向上させる。これにより、全体的な音質の向上を図る。例えば、AMR−WB方式(非特許文献3)やVMR−WB方式(非特許文献4)が挙げられる。   First layer encoding section 2201 according to the present embodiment employs a scheme that substitutes the high frequency section with an approximate signal such as noise. Specifically, the high-frequency part that is less perceptually important is represented by an approximate signal, and instead, the bit distribution of the low-frequency part (or low-middle part) that is perceptually important is increased and the original signal of this band is increased. Improve fidelity to. As a result, the overall sound quality is improved. For example, an AMR-WB system (Non-patent Document 3) and a VMR-WB system (Non-Patent Document 4) can be mentioned.

第1レイヤ符号化部2201は、入力信号を符号化して第1レイヤ符号化データを生成し、多重化部106及び第1レイヤ復号部2202に出力する。なお、第1レイヤ符号化部2201の詳細については後述する。   First layer encoding section 2201 encodes the input signal to generate first layer encoded data, and outputs the first layer encoded data to multiplexing section 106 and first layer decoding section 2202. Details of first layer encoding section 2201 will be described later.

第1レイヤ復号部2202は、第1レイヤ符号化部2201から入力される第1レイヤ符号化データを用いて復号処理を行い、第1レイヤ復号信号を生成し、減算部104に出力する。なお、第1レイヤ復号部2202の詳細については後述する。   First layer decoding section 2202 performs a decoding process using the first layer encoded data input from first layer encoding section 2201, generates a first layer decoded signal, and outputs the first layer decoded signal to subtraction section 104. Details of first layer decoding section 2202 will be described later.

次いで、図23を用いて、第1レイヤ符号化部2201の詳細について説明する。図23は符号化装置220の第1レイヤ符号化部2201の構成を示すブロック図である。図23に示すように、第1レイヤ符号化部2201は、ダウンサンプリング部2210と、コア符号化部2220とから構成される。   Next, details of first layer encoding section 2201 will be described using FIG. FIG. 23 is a block diagram showing a configuration of first layer encoding section 2201 of encoding apparatus 220. As shown in FIG. 23, first layer encoding section 2201 includes a downsampling section 2210 and a core encoding section 2220.

ダウンサンプリング部2210は、時間領域の入力信号をダウンサンプリングして、所望のサンプリングレートに変換し、ダウンサンプリングした時間領域信号をコア符号化部2220に出力する。   The down-sampling unit 2210 down-samples the time-domain input signal, converts it to a desired sampling rate, and outputs the down-sampled time-domain signal to the core encoding unit 2220.

コア符号化部2220は、ダウンサンプリング部2210の出力信号に対して符号化処理を行い、第1レイヤ符号化データを生成し、第1レイヤ復号部2202及び多重化部106に出力する。   Core encoding section 2220 performs an encoding process on the output signal of downsampling section 2210, generates first layer encoded data, and outputs the first layer encoded data to first layer decoding section 2202 and multiplexing section 106.

次いで、図24を用いて第1レイヤ復号部2202の詳細について説明する。図24は符号化装置220の第1レイヤ復号部2202の構成を示すブロック図である。図24に示すように、第1レイヤ復号部2202は、コア復号部2230と、アップサンプリング部2240と、高域成分付与部2250と、から構成される。   Next, details of first layer decoding section 2202 will be described using FIG. FIG. 24 is a block diagram showing a configuration of first layer decoding section 2202 of encoding apparatus 220. As shown in FIG. 24, first layer decoding section 2202 includes core decoding section 2230, upsampling section 2240, and high frequency component adding section 2250.

コア復号部2230は、コア符号化部2220から入力される第1レイヤ符号化データを用いて復号処理を行って復号信号を生成し、アップサンプリング部2240に出力するとともに、復号処理によって求められた復号LPC係数を高域成分付与部2250に出力する。   Core decoding section 2230 performs decoding processing using the first layer encoded data input from core encoding section 2220, generates a decoded signal, outputs the decoded signal to upsampling section 2240, and is obtained by the decoding processing. The decoded LPC coefficient is output to high frequency component adding section 2250.

アップサンプリング部2240は、コア復号部2230から出力された復号信号をアップサンプリングして、入力信号と同じサンプリングレートに変換し、アップサンプリング後の信号を高域成分付与部2250に出力する。   The upsampling unit 2240 upsamples the decoded signal output from the core decoding unit 2230, converts the decoded signal into the same sampling rate as the input signal, and outputs the upsampled signal to the high frequency component adding unit 2250.

高域成分付与部2250は、ダウンサンプリング部2240よりアップサンプリングされた信号に対して、例えば非特許文献3および非特許文献4に記載されている方法により高域成分の近似信号を生成し、欠損した高域部を補う。   The high frequency component adding unit 2250 generates an approximate signal of the high frequency component for the signal up-sampled by the down-sampling unit 2240 by the method described in Non-Patent Document 3 and Non-Patent Document 4, for example, To compensate for high frequencies.

図25は、本実施の形態に係る符号化装置に対応する復号装置の主要な構成を示すブロック図である。図25の復号装置250は、図7に示した復号装置600と同様の基本構成を有しており、第1レイヤ復号部602に代えて、第1レイヤ復号部2501を備える。第1レイヤ復号部2501は符号化装置の第1レイヤ復号部2202と同様に、図示せぬコア復号部、アップサンプリング部及び高域成分付与部から構成される。ここでは、それらについての詳細な説明を省略する。   FIG. 25 is a block diagram showing the main configuration of a decoding apparatus corresponding to the encoding apparatus according to the present embodiment. 25 has the same basic configuration as decoding apparatus 600 shown in FIG. 7, and includes first layer decoding section 2501 instead of first layer decoding section 602. Similarly to the first layer decoding unit 2202 of the encoding device, the first layer decoding unit 2501 includes a core decoding unit, an upsampling unit, and a high frequency component adding unit (not shown). Here, detailed description thereof is omitted.

コア復号部より与えられる復号LPC係数によって構成される合成フィルタに、雑音信号のような符号化部および復号部で付加情報なしに生成できる信号を通し、合成フィルタの出力信号を高域成分の近似信号に用いる。このとき、入力信号の高域成分と第1レイヤ復号信号の高域成分が全く異なる波形となるため、減算部で求められる誤差信号の高域成分のエネルギーは入力信号の高域成分のエネルギーよりもむしろ大きくなってしまう。これにより、第2レイヤ符号化部では、聴感的な重要度が低い高域部に配置された帯域が選択されやすくなるという問題が生じる。   A signal that can be generated without additional information by the encoding unit and decoding unit such as a noise signal is passed through a synthesis filter composed of decoded LPC coefficients given by the core decoding unit, and the output signal of the synthesis filter is approximated to a high frequency component Used for signals. At this time, since the high frequency component of the input signal and the high frequency component of the first layer decoded signal have completely different waveforms, the energy of the high frequency component of the error signal obtained by the subtracting unit is higher than the energy of the high frequency component of the input signal. But it will get bigger. As a result, the second layer encoding unit has a problem that it is easy to select a band arranged in a high frequency part having low auditory importance.

本実施の形態によれば、上記のように第1レイヤ符号化部2201の符号化処理において、高域部を雑音などによる近似信号で代用する方法を用いる符号化装置220において、予め設定された基準周波数よりも周波数が低い低域部から帯域を選択することにより、誤差信号(又は誤差変換係数)の高域部のエネルギーが増大されても、聴覚的な感度の高い低域部を第2レイヤ符号化部の符号化対象として選択することできるため、音質を改善することができる。   According to the present embodiment, as described above, in encoding process of first layer encoding section 2201, encoding apparatus 220 that uses a method of substituting an approximate signal due to noise or the like in the high-frequency section is set in advance. Even if the energy of the high frequency part of the error signal (or error conversion coefficient) is increased by selecting the band from the low frequency part whose frequency is lower than the reference frequency, the second low frequency part having high auditory sensitivity is selected. Since it can be selected as an encoding target of the layer encoding unit, sound quality can be improved.

なお、本実施の形態では、高域部に関する情報を復号部に送らない構成を例にして説明したが、本発明はこれに限らず、例えば、非特許文献5のように高域部の信号を低域部に比べて低ビットレートで符号化して復号部に送る構成であっても良い。   In the present embodiment, the configuration in which the information related to the high frequency band is not sent to the decoding unit has been described as an example. However, the present invention is not limited to this, and for example, as in Non-Patent Document 5, May be encoded at a lower bit rate than the low-frequency part and sent to the decoding part.

また、図22に示す符号化装置220において、減算部104は、時間領域の信号同士の差をとる構成であるが、減算部は周波数領域の変換係数同士の差をとる構成にしても良い。この場合、周波数領域変換部101を遅延部2203と減算部104の間に配置して入力変換係数を求め、第1レイヤ復号部2202と減算部104の間に周波数領域変換部101を新たに追加して第1レイヤ復号変換係数を求める。そして、減算部104は入力変換係数と第1レイヤ復号変換係数の差をとり、その誤差変換係数を第2レイヤ符号化部に直接与える構成となる。この構成によれば、ある帯域では差をとり別の帯域では差はとらないなど、各帯域に適した減算処理が可能になり、音質をさらに改善することができる。   In the encoding device 220 shown in FIG. 22, the subtractor 104 is configured to take a difference between signals in the time domain, but the subtractor may be configured to take a difference between transform coefficients in the frequency domain. In this case, the frequency domain transform unit 101 is disposed between the delay unit 2203 and the subtraction unit 104 to obtain an input transform coefficient, and the frequency domain transform unit 101 is newly added between the first layer decoding unit 2202 and the subtraction unit 104. Thus, the first layer decoding transform coefficient is obtained. The subtracting unit 104 is configured to take the difference between the input transform coefficient and the first layer decoded transform coefficient and directly give the error transform coefficient to the second layer encoding unit. According to this configuration, it is possible to perform subtraction processing suitable for each band, such as making a difference in one band and not taking a difference in another band, thereby further improving sound quality.

(実施の形態7)
実施の形態7では、他の構成の符号化装置及び復号装置において、本発明による符号化方法を適用する場合について説明する。図26は、本実施の形態に係る符号化装置260の主要な構成を示すブロック図である。
(Embodiment 7)
In Embodiment 7, a case will be described in which the encoding method according to the present invention is applied to an encoding device and a decoding device having other configurations. FIG. 26 is a block diagram showing the main configuration of encoding apparatus 260 according to the present embodiment.

図26に示す符号化装置260は、図22に示した符号化装置220に対して、重みフィルタ部2601を追加した構成を有する。なお、図26の符号化装置260において、図22と同様の構成要素については同一の番号を付し、その説明を省略する。   26 has a configuration in which a weight filter unit 2601 is added to the encoding device 220 illustrated in FIG. In addition, in the encoding apparatus 260 of FIG. 26, the same number is attached | subjected about the component similar to FIG. 22, and the description is abbreviate | omitted.

重みフィルタ部2601は、減算部104から入力される誤差信号に聴感的な重み付けをするフィルタ処理を行い、フィルタ処理後の信号を周波数領域変換部101に出力する。重みフィルタ部2601は、入力信号のスペクトル包絡と逆のスペクトル特性を有し、入力信号のスペクトルを平坦化(白色化)もしくはそれに近いスペクトル特性に変化させる。例えば、重みフィルタW(z)は、第1レイヤ復号部2202で得られる復号LPC係数を用いて、次式(9)のように構成される。

Figure 2011154383
ここで、α(i)は復号LPC係数、NPはLPC係数の次数、そしてγはスペクトル平坦化(白色化)の程度を制御するパラメータであり、0≦γ≦1の範囲の値をとる。γが大きいほど平坦化の程度が大きくなり、例えばγには0.92を用いる。 The weighting filter unit 2601 performs filter processing for perceptually weighting the error signal input from the subtraction unit 104, and outputs the filtered signal to the frequency domain conversion unit 101. The weighting filter unit 2601 has a spectral characteristic opposite to the spectral envelope of the input signal, and changes the spectrum of the input signal to flattening (whitening) or a spectral characteristic close thereto. For example, the weight filter W (z) is configured as in the following equation (9) using the decoded LPC coefficient obtained by the first layer decoding unit 2202.
Figure 2011154383
Here, α (i) is a decoded LPC coefficient, NP is the order of the LPC coefficient, and γ is a parameter that controls the degree of spectrum flattening (whitening), and takes a value in the range of 0 ≦ γ ≦ 1. As γ increases, the degree of flattening increases. For example, 0.92 is used for γ.

図27に示す復号装置270は、図25に示した復号装置250に対して、合成フィルタ部2701を追加した構成を有する。なお、図27の復号装置270において、図25と同様の構成要素については同一の番号を付し、その説明を省略する。   A decoding device 270 illustrated in FIG. 27 has a configuration in which a synthesis filter unit 2701 is added to the decoding device 250 illustrated in FIG. In the decoding device 270 of FIG. 27, the same components as those of FIG.

合成フィルタ部2701は、時間領域変換部606から入力される信号に対して、平坦化されたスペクトルの特性を元の特性に復元するフィルタ処理を行い、フィルタ処理後の信号を加算部604に出力する。合成フィルタ部2701は、式(9)で表される重みフィルタと逆のスペクトル特性、すなわち入力信号のスペクトル包絡と同様の特性を有する。合成フィルタB(z)は、式(9)を用いて次式(10)のように表される。

Figure 2011154383
ここで、α(i)は復号LPC係数、NPはLPC係数の次数、そしてγはスペクトル平坦化(白色化)の程度を制御するパラメータであり、0≦γ≦1の範囲の値をとる。γが大きいほど平坦化の程度が大きくなり、例えばγには0.92を用いる。 The synthesis filter unit 2701 performs a filter process for restoring the flattened spectrum characteristic to the original characteristic on the signal input from the time domain conversion unit 606, and outputs the signal after the filter process to the addition unit 604. To do. The synthesis filter unit 2701 has a spectrum characteristic opposite to that of the weighting filter expressed by Expression (9), that is, a characteristic similar to the spectrum envelope of the input signal. The synthesis filter B (z) is expressed by the following equation (10) using the equation (9).
Figure 2011154383
Here, α (i) is a decoded LPC coefficient, NP is the order of the LPC coefficient, and γ is a parameter that controls the degree of spectrum flattening (whitening), and takes a value in the range of 0 ≦ γ ≦ 1. As γ increases, the degree of flattening increases. For example, 0.92 is used for γ.

一般的には、上記のような符号化装置及び復号装置において、音声信号のスペクトル包絡は低域部のエネルギーが高域部のエネルギーより大きく現れるため、合成フィルタを通す前の信号の符号化歪が低域部と高域部で同等であっても、合成フィルタを通した後では低域部の符号化歪が大きくなる。音声信号を低ビットレートに圧縮して転送する場合には符号化歪を十分に小さくすることができないため、前述したような復号部の合成フィルタ部の影響によって符号化歪の低域部のエネルギーが増大されてしまい、低域部の品質劣化が現れやすくなるという問題がある。   In general, in the encoding device and the decoding device as described above, the spectral envelope of the audio signal appears such that the energy in the low frequency part is larger than the energy in the high frequency part, so the encoding distortion of the signal before passing through the synthesis filter Even when the low frequency region and the high frequency region are equivalent, the coding distortion of the low frequency region becomes large after passing through the synthesis filter. When audio signals are compressed and transferred at a low bit rate, the coding distortion cannot be reduced sufficiently. Therefore, the energy of the low frequency part of the coding distortion is affected by the influence of the synthesis filter part of the decoding part as described above. Is increased, and there is a problem that quality degradation in the low frequency region is likely to appear.

本実施の形態の符号化方法によれば、周波数が基準周波数よりも低い低域部からターゲット周波数が決定されるため、低域部が第2レイヤ符号化部105の符号化対象として選択されやすく、それにより低域部の符号化歪を小さくすることができる。すなわち、本実施の形態によれば、合成フィルタによって低域部が強調されても、低域部の符号化歪が知覚されにくくなるため、音質を改善する効果が得られる。   According to the encoding method of the present embodiment, since the target frequency is determined from the low frequency part whose frequency is lower than the reference frequency, the low frequency part is easily selected as the encoding target of second layer encoding part 105. As a result, the coding distortion in the low frequency band can be reduced. That is, according to the present embodiment, even if the low frequency region is emphasized by the synthesis filter, the encoding distortion of the low frequency region is hardly perceived, so that an effect of improving the sound quality can be obtained.

なお、本実施の形態では符号化装置260の減算部104を時間領域の信号同士の差をとる構成としたが、本発明はこれに限らず、周波数領域の変換係数同士の差をとる構成としても良い。具体的には、重みフィルタ部2601と周波数領域変換部101を遅延部2203と減算部104の間に配置して入力変換係数を求め、そして第1レイヤ復号部2202と減算部104の間に重みフィルタ部2601と周波数領域変換部101を新たに追加して第1レイヤ復号変換係数を求める。そして、減算部104では入力変換係数と第1レイヤ復号変換係数の差をとり、その誤差変換係数を第2レイヤ符号化部105に直接与える構成とする。この構成によれば、ある帯域では差をとり別の帯域では差はとらないなど、各帯域に適した減算処理が可能になり、音質をさらに改善することができる。   In the present embodiment, the subtracting unit 104 of the encoding device 260 is configured to take a difference between signals in the time domain, but the present invention is not limited to this, and is configured to take a difference between transform coefficients in the frequency domain. Also good. Specifically, the weight filter unit 2601 and the frequency domain transform unit 101 are arranged between the delay unit 2203 and the subtraction unit 104 to obtain an input transform coefficient, and the weight between the first layer decoding unit 2202 and the subtraction unit 104 is obtained. A filter unit 2601 and a frequency domain transform unit 101 are newly added to obtain first layer decoded transform coefficients. Then, the subtraction unit 104 is configured to take the difference between the input transform coefficient and the first layer decoding transform coefficient and directly give the error transform coefficient to the second layer coding unit 105. According to this configuration, it is possible to perform subtraction processing suitable for each band, such as making a difference in one band and not taking a difference in another band, thereby further improving sound quality.

また、本実施の形態では、符号化装置220のレイヤ数が2である場合を例にして説明したが、本発明はこれに限らず、例えば、図28に示す符号化装置280のように、符号化階層をレイヤ数が2以上の構成としてもよい。   Further, in the present embodiment, the case where the number of layers of the encoding device 220 is 2 has been described as an example. However, the present invention is not limited to this, for example, as in the encoding device 280 illustrated in FIG. The encoding layer may have a configuration with two or more layers.

図28は符号化装置280の主要な構成を示すブロック図である。図1に示した符号化装置100に対して、第2レイヤ復号部2801と、第3レイヤ符号化部2802と、第3レイヤ復号部2803と、第4レイヤ符号化部2804と、2つの加算器2805を追加し、3つの減算部104を有する構成を採る。   FIG. 28 is a block diagram showing the main configuration of encoding apparatus 280. For the coding apparatus 100 shown in FIG. 1, a second layer decoding unit 2801, a third layer coding unit 2802, a third layer decoding unit 2803, a fourth layer coding unit 2804, and two additions A configuration is adopted in which a device 2805 is added and three subtracting units 104 are provided.

図28に示す第3レイヤ符号化部2802と第4レイヤ符号化部2804は、図1に示した第2レイヤ符号化部105と同様の構成を有し、同様の動作を行い、第2レイヤ復号部2801と第3レイヤ復号部2803は、図1に示した第1レイヤ復号部103と同様の構成を有し、同様の動作を行う。ここでは、各レイヤ符号化部における帯域の位置について、図29を用いて説明する。   The third layer encoding unit 2802 and the fourth layer encoding unit 2804 shown in FIG. 28 have the same configuration as that of the second layer encoding unit 105 shown in FIG. The decoding unit 2801 and the third layer decoding unit 2803 have the same configuration as the first layer decoding unit 103 shown in FIG. 1 and perform the same operation. Here, the position of the band in each layer encoding unit will be described with reference to FIG.

各レイヤ符号化部における帯域の配置の一例として、図29Aは、第2レイヤ符号化部における帯域の位置を示し、図29Bは、第3レイヤ符号化部における帯域の位置を示し、図29Cは、第4レイヤ符号化部における帯域の位置を示し、帯域数はそれぞれ4である。   As an example of band arrangement in each layer encoding unit, FIG. 29A shows a band position in the second layer encoding unit, FIG. 29B shows a band position in the third layer encoding unit, and FIG. The band positions in the fourth layer encoding unit are shown, and the number of bands is 4 respectively.

より詳しく言うと、第2レイヤ符号化部105では、レイヤ2の基準周波数Fx(L2)を超えないように4つの帯域が配置され、第3レイヤ符号化部2802では、レイヤ3の基準周波数Fx(L3)を超えないように4つの帯域が配置され、第4レイヤ符号化部2804では、レイヤ4の基準周波数Fx(L4)を超えないよう帯域が配置されている。そして、各レイヤの基準周波数の間には、Fx(L2)<Fx(L3)<Fx(L4)の関係がある。すなわち、ビットレートが低いレイヤ2では、聴感的な感度の高い低域部の中から符号化の対象となる帯域を決定し、ビットレートが高くなる高位レイヤになるほど高域部まで含めた帯域の中から符号化の対象となる帯域を決定する。   More specifically, in the second layer encoding unit 105, four bands are arranged so as not to exceed the reference frequency Fx (L2) of layer 2, and in the third layer encoding unit 2802, the reference frequency Fx of layer 3 is arranged. Four bands are arranged so as not to exceed (L3), and the fourth layer encoding unit 2804 arranges bands so as not to exceed the reference frequency Fx (L4) of layer 4. There is a relationship of Fx (L2) <Fx (L3) <Fx (L4) between the reference frequencies of the layers. That is, in layer 2 where the bit rate is low, the band to be encoded is determined from the low frequency part with high perceptual sensitivity, and the band including the high frequency part is included in the higher layer where the bit rate is high. The band to be encoded is determined from the inside.

このような構成を採ることにより、低位レイヤにおいて低域部を重視し、高位レイヤにおいてより広い帯域をカバーするようにするため、音声信号の高音質化を実現することができる。   By adopting such a configuration, it is possible to achieve higher sound quality of the audio signal in order to emphasize the low frequency band in the lower layer and cover a wider band in the higher layer.

図30は、図28に示した符号化装置280に対応する復号装置300の主要な構成を示すブロック図である。図30の復号装置300は、図7に示した復号装置600に対して、第3レイヤ復号部3001と第4レイヤ復号部3002と2つの加算器604とを追加した構成を有する。なお、第3レイヤ復号部3001と第4レイヤ復号部3002は、図7に示した復号装置600の第2レイヤ復号部603と同様の構成を有し、同様の動作を行うため、ここでは、その詳細な説明を省略する。   FIG. 30 is a block diagram showing a main configuration of decoding apparatus 300 corresponding to encoding apparatus 280 shown in FIG. 30 has a configuration in which a third layer decoding section 3001, a fourth layer decoding section 3002, and two adders 604 are added to decoding apparatus 600 shown in FIG. Note that the third layer decoding section 3001 and the fourth layer decoding section 3002 have the same configuration as the second layer decoding section 603 of the decoding apparatus 600 shown in FIG. Detailed description thereof is omitted.

また、各レイヤ符号化部における帯域の配置の別の一例として、図31Aは第2レイヤ符号化部105における4つの帯域の位置を示し、図31Bは、第3レイヤ符号化部2802における6つの帯域の位置を示し、図31Cは、第4レイヤ符号化部2804における8つの帯域の位置を示す。   As another example of the band arrangement in each layer encoding unit, FIG. 31A shows the positions of four bands in the second layer encoding unit 105, and FIG. 31B shows the six bands in the third layer encoding unit 2802. FIG. 31C shows the positions of the eight bands in the fourth layer encoding unit 2804.

図31では、各レイヤ符号化部において、各帯域は等間隔に配置され、図31Aに示すような低位レイヤでは低域部に配置された帯域のみが符号化の対象となり、図31Bまたは図31Cに示すような高位レイヤになるほど符号化の対象となる帯域が増える。   In FIG. 31, in each layer encoding unit, each band is arranged at equal intervals, and in the lower layer as shown in FIG. 31A, only the band arranged in the low band part is the target of encoding, and FIG. 31B or FIG. As the higher layer becomes, the band to be encoded increases.

このような構成によれば、各レイヤでは帯域が等間隔に配置され、低位レイヤでは符号化の対象となる帯域を選択する場合、選択候補である低域部に配置される帯域の数が少ないため、演算量とビットレートを削減することができる。   According to such a configuration, when the bands are arranged at equal intervals in each layer and the band to be encoded is selected in the lower layer, the number of bands arranged in the low frequency part which is a selection candidate is small. Therefore, the calculation amount and the bit rate can be reduced.

(実施の形態8)
本発明の実施の形態8は、第1位置特定部の動作のみにおいて実施の形態1と相違し、それを示すために、本実施の形態に係る第1位置特定部には「801」という番号を付す。第1位置特定部801は、符号化対象となるターゲット周波数が採り得る帯域を特定する際、全帯域をあらかじめ複数の部分帯域に分割し、各部分帯域において所定の帯域幅および所定の刻み幅で探索を行う。そして、第1位置特定部801は、探索により求められた各部分帯域内の帯域を結合して、符号化対象となるターゲット周波数が採り得る帯域とする。
(Embodiment 8)
The eighth embodiment of the present invention is different from the first embodiment only in the operation of the first position specifying unit, and in order to show this, the first position specifying unit according to the present embodiment has a number “801”. Is attached. The first position specifying unit 801 divides the entire band into a plurality of partial bands in advance when specifying the band that can be taken by the target frequency to be encoded, and uses a predetermined bandwidth and a predetermined step size in each partial band. Perform a search. Then, the first position specifying unit 801 combines the bands in the partial bands obtained by the search so that the target frequency to be encoded can be taken.

本実施の形態に係る第1位置特定部801の動作について図32を用いて説明する。図32は、部分帯域数N=2であって、低域部をカバーするように部分帯域1が設定され、高域部をカバーするように部分帯域2が設定される場合を例示する。部分帯域1では、予め所定の帯域幅に設定された複数の帯域の中から1つの帯域が選択される(この帯域の位置情報を第1部分帯域位置情報と呼ぶ)。同様に、部分帯域2では、予め所定の帯域幅に設定された複数の帯域の中から1つの帯域が選択される(この帯域の位置情報を第2部分帯域位置情報と呼ぶ)。   The operation of the first position specifying unit 801 according to the present embodiment will be described with reference to FIG. FIG. 32 illustrates a case where the number of partial bands N = 2, partial band 1 is set so as to cover the low frequency part, and partial band 2 is set so as to cover the high frequency part. In the partial band 1, one band is selected from a plurality of bands set in advance to a predetermined bandwidth (position information of this band is referred to as first partial band position information). Similarly, in the partial band 2, one band is selected from a plurality of bands set in advance to a predetermined bandwidth (position information of this band is referred to as second partial band position information).

次に、第1位置特定部801は、部分帯域1において選択された帯域と、部分帯域2において選択された帯域とを結合して結合帯域を構成する。この結合帯域が第1位置特定部801により特定される帯域となり、次いで第2位置特定部202は当該結合帯域を基に第2位置情報を特定する。例えば、部分帯域1で選択された帯域が帯域2、部分帯域2で選択された帯域が帯域4である場合、第1位置特定部801は、図32の下段に示されるようにこの2つの帯域を結合し、符号化対象となる周波数帯域が採り得る帯域とする。   Next, the first position specifying unit 801 combines the band selected in the partial band 1 and the band selected in the partial band 2 to form a combined band. This combined band becomes a band specified by the first position specifying unit 801, and then the second position specifying unit 202 specifies the second position information based on the combined band. For example, when the band selected in the partial band 1 is the band 2 and the band selected in the partial band 2 is the band 4, the first position specifying unit 801 displays the two bands as shown in the lower part of FIG. To be a band that can be taken by the frequency band to be encoded.

図33は、部分帯域の数がNである場合に対応する第1位置特定部801の構成を示すブロック図である。図33において、減算部104から入力される第1レイヤ誤差変換係数は部分帯域1特定部811−1〜部分帯域N特定部811−Nそれぞれに与えられる。各々の部分帯域n特定部811−n(n=1〜N)は、所定の部分帯域nの中から1つの帯域を選択し、選択された帯域の位置を示す情報(第n部分帯域位置情報)を第1位置情報構成部812に出力する。   FIG. 33 is a block diagram illustrating a configuration of the first position specifying unit 801 corresponding to the case where the number of partial bands is N. In FIG. 33, the first layer error conversion coefficient input from the subtracting unit 104 is provided to each of the partial band 1 specifying unit 811-1 to the partial band N specifying unit 811-N. Each partial band n specifying unit 811-n (n = 1 to N) selects one band from predetermined partial bands n, and indicates information on the position of the selected band (nth partial band position information). ) To the first position information configuration unit 812.

第1位置情報構成部812は、各々の部分帯域n特定部811−nから入力される第n部分帯域位置情報(n=1〜N)を用いて第1位置情報を構成し、当該第1位置情報を第2位置特定部202、符号化部203、および多重化部204に出力する。   The first location information configuration unit 812 configures the first location information using the nth partial band location information (n = 1 to N) input from each of the partial bandwidth n identification units 811-n, and The position information is output to the second position specifying unit 202, the encoding unit 203, and the multiplexing unit 204.

図34は、第1位置情報構成部812において第1位置情報を構成する様子を例示する図である。この図において、第1位置情報構成部812は、第1部分帯域位置情報(A1ビット)〜第N部分帯域位置情報(ANビット)を順番に並べて第1位置情報を構成する。ここで、各々の第n部分帯域位置情報のビット長Anは、各部分帯域nに含まれる候補帯域の数により決まり、それぞれ異なる値を有しても良い。   FIG. 34 is a diagram illustrating a state in which the first position information configuring unit 812 configures the first position information. In this figure, the first position information configuration unit 812 configures the first position information by arranging the first partial band position information (A1 bit) to the Nth partial band position information (AN bit) in order. Here, the bit length An of each n-th partial band position information is determined by the number of candidate bands included in each partial band n, and may have different values.

図35は、本実施の形態の復号処理において、第1位置情報と第2位置情報とを用いて第1レイヤ復号誤差変換係数を求める様子を示す図である。ここでは、部分帯域数が2である場合を例にとって説明する。なお、以下の説明においては、実施の形態1に係る第2レイヤ復号部603を構成する各構成要素の名称および番号を流用する。   FIG. 35 is a diagram illustrating a state in which the first layer decoding error transform coefficient is obtained using the first position information and the second position information in the decoding process according to the present embodiment. Here, a case where the number of partial bands is 2 will be described as an example. In the following description, the names and numbers of the constituent elements constituting second layer decoding section 603 according to Embodiment 1 are used.

配置部704は、乗算部703から入力されるゲイン候補乗算後の形状候補に対して、第2位置情報を用いて再配置を行う。次に、配置部704は、第2位置情報を用いた再配置後の形状候補に対して、第1位置情報を用いてさらに部分帯域1および部分帯域2への再配置を行う。配置部704は、このようにして求められた信号を第1レイヤ復号誤差変換係数として出力する。   The placement unit 704 rearranges the shape candidate after gain candidate multiplication input from the multiplication unit 703 using the second position information. Next, the placement unit 704 further rearranges the shape candidates after rearrangement using the second position information into the partial band 1 and the partial band 2 using the first position information. Arrangement section 704 outputs the signal obtained in this way as the first layer decoding error transform coefficient.

本実施の形態によれば、第1位置特定部は各々の部分帯域の中から1つの帯域を選択するため、部分帯域に少なくとも1つの復号スペクトルを配置することが可能となる。これにより、全帯域の中から1つの帯域を決定する実施形態に比べて、音質を改善したい複数の帯域をあらかじめ設定しておくことができる。例えば、低域部と高域部の両者の品質改善を同時に図りたい場合などに本実施の形態は有効である。   According to the present embodiment, since the first position specifying unit selects one band from each partial band, it is possible to arrange at least one decoded spectrum in the partial band. As a result, a plurality of bands whose sound quality is to be improved can be set in advance as compared with the embodiment in which one band is determined from all the bands. For example, this embodiment is effective when it is desired to simultaneously improve the quality of both the low frequency region and the high frequency region.

また、本実施の形態によれば、低位レイヤ(本実施の形態では第1レイヤ)において低ビットレートの符号化を行う場合でも、復号信号の主観品質を改善することができる。低位レイヤにCELP方式を用いる構成はその一例である。CELP方式は、波形マッチングに基づく符号化方式であるため、高域部に比べてエネルギーの大きい低域部の量子化歪がより小さくなるように符号化が行われる。その結果、高域部のスペクトルが減衰してしまい、こもり感(帯域感の欠如)として知覚される。その一方でCELP方式の符号化は低ビットレートの符号化方式であるため、低域の量子化歪を十分に抑えることができず、その量子化歪は雑音感として知覚されてしまう。本実施形態では、低域部と高域部の各々から符号化の対象となる帯域を選択するため、低域部の雑音感、高域部のこもり感という異なる2つの劣化要因を同時に解消し、主観品質を改善することが可能となる。   Further, according to the present embodiment, the subjective quality of the decoded signal can be improved even when encoding at a low bit rate in the lower layer (first layer in the present embodiment). The configuration using the CELP method for the lower layer is an example. Since the CELP method is an encoding method based on waveform matching, the encoding is performed so that the quantization distortion in the low frequency region where the energy is large is smaller than that in the high frequency region. As a result, the spectrum in the high frequency region is attenuated, and this is perceived as a feeling of being full (absence of a band feeling). On the other hand, CELP encoding is a low bit rate encoding method, and thus low-band quantization distortion cannot be sufficiently suppressed, and the quantization distortion is perceived as noise. In this embodiment, since the band to be encoded is selected from each of the low-frequency part and the high-frequency part, two different deterioration factors such as the noise feeling of the low-frequency part and the feeling of the high-frequency part are simultaneously eliminated. It becomes possible to improve subjective quality.

また、本実施の形態によれば、低域から選択された帯域および高域から選択された帯域を結合して結合帯域を構成し、この結合帯域の中でスペクトルの形状を決定するため、高域よりも低域の品質改善が必要なフレームでは、低域を重視したスペクトルの形状を選択し、低域よりも高域の品質改善が必要なフレームでは、高域を重視したスペクトルの形状を選択するという適応処理を行うことができ、主観品質を改善することができる。例えば、スペクトルの形状をパルスで表す場合、高域よりも低域の品質改善が必要なフレームでは低域に多くのパルスを配置し、低域よりも高域の品質改善が必要なフレームでは高域に多くのパルスを配置することができ、このような適応処理により、主観品質を改善することができる。   Further, according to the present embodiment, a band selected from the low band and a band selected from the high band are combined to form a combined band, and the spectrum shape is determined in the combined band. Select a spectrum shape that emphasizes the low range for frames that require quality improvement in the lower range than the low range, and select a spectrum shape that emphasizes the high range for frames that require higher quality improvement than the low range. The adaptive process of selecting can be performed, and the subjective quality can be improved. For example, when the shape of the spectrum is represented by pulses, many pulses are placed in the low frequency range in frames that require quality improvement in the low frequency range rather than in the high frequency range, and high in frames that require quality improvement in the higher frequency range than the low frequency range. Many pulses can be arranged in a region, and subjective quality can be improved by such adaptive processing.

なお、本実施の形態のバリエーションとして、図36に示すように、特定の部分帯域において常に固定の帯域が選択されるようにしても良い。図36に示す例では、部分帯域2において常に帯域4が選択され、これが結合帯域の一部となっている。これにより、本実施の形態の効果と同様に、音質を改善したい帯域をあらかじめ設定しておくことが可能となり、かつ、例えば、部分帯域2の部分帯域位置情報が不用となるため、図34に示されたような第1位置情報を表すためのビット数をより小さくすることができる。   As a variation of the present embodiment, as shown in FIG. 36, a fixed band may always be selected in a specific partial band. In the example shown in FIG. 36, the band 4 is always selected in the partial band 2, and this is a part of the combined band. As a result, similarly to the effect of the present embodiment, it is possible to set in advance the band for which the sound quality is to be improved, and for example, the partial band position information of the partial band 2 becomes unnecessary. The number of bits for representing the first position information as shown can be made smaller.

また、図36は、高域部(部分帯域2)において常に固定の範囲が選択される場合を例にとって示しているが、これに限定されず、低域部(部分帯域1)において常に固定の範囲が選択されるようにしても良いし、また図36には図示されていない中域部の部分帯域において、常に固定の範囲が選択されるようにしても良い。   FIG. 36 shows an example in which a fixed range is always selected in the high frequency band (partial band 2). However, the present invention is not limited to this, and the fixed range is always fixed in the low frequency band (partial band 1). A range may be selected, or a fixed range may always be selected in a partial band of the middle region not shown in FIG.

また、本実施の形態のバリエーションとして、図37に示すように、各部分帯域において設定される候補帯域の帯域幅が異なっていても良い。図37においては、部分帯域1において設定されている候補帯域よりも部分帯域2において設定されている部分帯域の帯域幅が短い場合を例示している。   As a variation of the present embodiment, as shown in FIG. 37, the bandwidths of candidate bands set in each partial band may be different. In FIG. 37, the case where the bandwidth of the partial band set in the partial band 2 is shorter than the candidate band set in the partial band 1 is illustrated.

以上、本発明の実施の形態について説明した。   The embodiment of the present invention has been described above.

なお、各レイヤ符号化部における帯域の配置として、本発明では上記説明した例に限らず、例えば、低位レイヤでは各帯域の帯域幅を狭く、高位レイヤでは各帯域の帯域幅を広くするように構成しても良い。   The band arrangement in each layer encoding unit is not limited to the example described above in the present invention. For example, the bandwidth of each band is narrowed in the lower layer and the bandwidth of each band is widened in the higher layer. It may be configured.

また、上記の各実施の形態では、過去のフレームで選択した帯域に関連付けて現フレームの帯域を選択しても良い。例えば、前フレームで選択した帯域の近傍に位置する帯域の中から現フレームの帯域を決定してもよい。また、前フレームで選択した帯域の近傍に現フレームの帯域の候補を再配置し、その再配置された帯域の候補の中から現フレームの帯域を決定してもよい。また、範囲情報を数フレームに1度の割合で伝送し、範囲情報を伝送しないフレームでは過去に伝送された範囲情報が表す範囲を用いてもよい(帯域情報の間欠伝送)。   In the above embodiments, the band of the current frame may be selected in association with the band selected in the past frame. For example, the band of the current frame may be determined from bands positioned in the vicinity of the band selected in the previous frame. Alternatively, the current frame band candidate may be rearranged in the vicinity of the band selected in the previous frame, and the current frame band may be determined from the rearranged band candidates. Further, the range information may be transmitted at a rate of once every several frames, and the range represented by the range information transmitted in the past may be used in a frame where the range information is not transmitted (intermittent transmission of band information).

また、上記の各実施の形態では、低位レイヤで選択した帯域に関連付けて現在のレイヤの帯域を選択しても良い。例えば、低位レイヤで選択した帯域の近傍に位置する帯域の中から現在のレイヤの帯域を決定してもよい。低位レイヤで選択した帯域の近傍に現在のレイヤの帯域の候補を再配置し、その再配置された帯域の候補の中から現在のレイヤの帯域を決定してもよい。また、範囲情報を数フレームに1度の割合で伝送し、範囲情報を伝送しないフレームでは過去に伝送された範囲情報が表す範囲を用いてもよい(帯域情報の間欠伝送)。   In each of the above embodiments, the band of the current layer may be selected in association with the band selected in the lower layer. For example, the band of the current layer may be determined from bands positioned in the vicinity of the band selected in the lower layer. The current layer band candidate may be rearranged in the vicinity of the band selected in the lower layer, and the current layer band may be determined from the rearranged band candidates. Further, the range information may be transmitted at a rate of once every several frames, and the range represented by the range information transmitted in the past may be used in a frame where the range information is not transmitted (intermittent transmission of band information).

なお、本発明は、スケーラブル符号化の階層数に制限はない。   In the present invention, the number of scalable encoding layers is not limited.

また、上記実施の形態では、復号信号として音声信号を想定しているが、本発明はこれに限らず、例えば、オーディオ信号などでもよい。   Moreover, in the said embodiment, although the audio | voice signal is assumed as a decoded signal, this invention is not limited to this, For example, an audio signal etc. may be sufficient.

また、上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。   Further, although cases have been described with the above embodiment as examples where the present invention is configured by hardware, the present invention can also be realized by software.

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。   Each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them. The name used here is LSI, but it may also be called IC, system LSI, super LSI, or ultra LSI depending on the degree of integration.

また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。   Further, the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible. An FPGA (Field Programmable Gate Array) that can be programmed after manufacturing the LSI, or a reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.

さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。   Furthermore, if integrated circuit technology comes out to replace LSI's as a result of the advancement of semiconductor technology or a derivative other technology, it is naturally also possible to carry out function block integration using this technology. Biotechnology can be applied.

本発明は、スケーラブル符号化方式の通信システムに使用される符号化装置、復号装置等に用いるのに好適である。   The present invention is suitable for use in an encoding device, a decoding device, or the like used in a scalable encoding communication system.

101 周波数領域変換部
102、2201 第1レイヤ符号化部
103、2202 第1レイヤ復号部
104 減算部
105 第2レイヤ符号化部
106、204 多重化部
201、801 第1位置特定部
202 第2位置特定部
203、221 符号化部
301 目標信号構成部
302 誤差算出部
303 探索部
304 形状符号帳
305 ゲイン符号帳
311−1、…、311−J サブ位置特定部
321 第2位置情報符号帳
601 分離部
602、2501 第1レイヤ復号部
603、2502 第2レイヤ復号部
604 加算部
605 切替部
606 時間領域変換部
607 ポストフィルタ
701 形状符号帳
702 ゲイン符号帳
703 乗算部
704 配置部
2203 遅延部
2210 ダウンサンプリング部
2220 コア符号化部
2230 コア復号部
2240 アップサンプリング部
2250 高域成分付与部
2601 重みフィルタ部
2701 合成フィルタ部
2801 第2レイヤ復号部
2802 第3レイヤ符号化部
2803 第3レイヤ復号部
2804 第4レイヤ符号化部
3001 第3レイヤ復号部
3002 第4レイヤ復号部
101 Frequency domain transform unit 102, 2201 First layer encoding unit 103, 2202 First layer decoding unit 104 Subtracting unit 105 Second layer encoding unit 106, 204 Multiplexing unit 201, 801 First position specifying unit 202 Second position Identification unit 203, 221 Encoding unit 301 Target signal configuration unit 302 Error calculation unit 303 Search unit 304 Shape codebook 305 Gain codebook 311-1, ..., 311-J Sub-position identification unit 321 Second position information codebook 601 Separation Unit 602, 2501 first layer decoding unit 603, 2502 second layer decoding unit 604 addition unit 605 switching unit 606 time domain conversion unit 607 post filter 701 shape codebook 702 gain codebook 703 multiplication unit 704 arrangement unit 2203 delay unit 2210 down Sampling unit 2220 Core encoding unit 22 0 core decoding unit 2240 upsampling unit 2250 high frequency component adding unit 2601 weight filter unit 2701 synthesis filter unit 2801 2nd layer decoding unit 2802 3rd layer encoding unit 2803 3rd layer decoding unit 2804 4th layer encoding unit 3001 1st 3 layer decoding section 3002 4th layer decoding section

Claims (8)

入力音声信号に対して符号化処理を行って第1レイヤ符号化データを生成する第1レイヤ符号化手段と、
前記第1レイヤ符号化データを用いて復号処理を行って第1レイヤ復号信号を生成する第1レイヤ復号手段と、
前記入力音声信号と前記第1レイヤ復号信号との誤差である第1レイヤ誤差信号を周波数領域に変換して第1レイヤ誤差変換係数を算出する第1レイヤ誤差変換係数算出手段と、
前記第1レイヤ誤差変換係数に対して符号化処理を行って第2レイヤ符号化データを生成する第2レイヤ符号化手段と、を具備し、
前記第2レイヤ符号化手段は、
所定の帯域幅を持ち前記帯域幅より狭い刻み幅で並べられた複数の帯域候補の中から、前記帯域候補における前記第1レイヤ誤差変換係数のエネルギーの大きさに基づいて第1帯域を選択し、選択した第1帯域の位置を示す第1位置情報を生成する帯域選択手段と、
前記選択された第1帯域の中で、前記刻み幅より細かい刻み幅で設定されたパルス候補位置の中から複数のパルスの位置を特定し、特定した複数のパルスの位置を示す第2位置情報を生成するパルス位置特定手段と、
前記第1位置情報と前記第2位置情報とを用いて前記第2レイヤ符号化データを生成する符号化データ生成手段と、を具備する、
音声符号化装置。
First layer encoding means for performing encoding processing on the input speech signal to generate first layer encoded data;
First layer decoding means for generating a first layer decoded signal by performing decoding processing using the first layer encoded data;
First layer error conversion coefficient calculating means for calculating a first layer error conversion coefficient by converting a first layer error signal, which is an error between the input audio signal and the first layer decoded signal, into a frequency domain;
Second layer encoding means for performing encoding processing on the first layer error transform coefficient to generate second layer encoded data,
The second layer encoding means includes
A first band is selected based on the energy level of the first layer error conversion coefficient in the band candidate from a plurality of band candidates arranged with a predetermined bandwidth and a step size narrower than the bandwidth. Band selection means for generating first position information indicating the position of the selected first band;
Second position information indicating the positions of the plurality of identified pulses by identifying the positions of the plurality of pulses from the pulse candidate positions set with a step size smaller than the step size in the selected first band. Pulse position specifying means for generating
Encoded data generation means for generating the second layer encoded data using the first position information and the second position information,
Speech encoding device.
前記パルス位置特定手段は、第1レイヤ誤差変換係数のエネルギーの大きさに基づいてパルスの位置を特定する、
請求項1記載の音声符号化装置。
The pulse position specifying means specifies the position of the pulse based on the magnitude of the energy of the first layer error conversion coefficient;
The speech encoding apparatus according to claim 1.
前記第2レイヤ符号化手段は、前記第1レイヤ誤差変換係数に基づいて前記パルス位置におけるパルスの振幅を示すゲイン情報を生成するゲイン符号化手段、をさらに具備し、
前記符号化データ生成手段は、前記ゲイン情報をさらに用いて第2レイヤ符号化データを生成する、
請求項1記載の音声符号化装置。
The second layer encoding means further comprises gain encoding means for generating gain information indicating the amplitude of the pulse at the pulse position based on the first layer error transform coefficient,
The encoded data generation means generates second layer encoded data by further using the gain information.
The speech encoding apparatus according to claim 1.
前記帯域選択手段は、あらかじめ設定された基準周波数よりも低い低域部から前記第1帯域を選択する、
請求項1記載の音声符号化装置。
The band selecting means selects the first band from a low frequency part lower than a preset reference frequency,
The speech encoding apparatus according to claim 1.
音声符号化装置において入力音声信号に対して符号化処理を行って得られた第1レイヤ符号化データと、前記音声符号化装置において前記第1レイヤ符号化データを復号した第1レイヤ復号信号と前記入力音声信号との誤差である第1レイヤ誤差信号を周波数領域に変換して第1レイヤ誤差変換係数を算出し、当該第1レイヤ誤差変換係数に対して符号化処理を行って得られた第2レイヤ符号化データと、を受信する受信手段と、
前記第1レイヤ符号化データを復号して前記第1レイヤ復号信号を生成する第1レイヤ復号手段と、
前記第2レイヤ符号化データを復号して第1レイヤ復号誤差変換係数を生成する第2レイヤ復号手段と、
前記第1レイヤ復号誤差変換係数を時間領域に変換して第1レイヤ復号誤差信号を生成する時間領域変換手段と、
前記第1レイヤ復号信号と前記第1レイヤ復号誤差信号とを加算して復号信号を生成する加算手段と、具備し、
前記第2レイヤ復号手段は、
前記第2レイヤ符号化データを復号して、所定の帯域幅を持った第1帯域の位置を示す第1位置情報および前記第1帯域の中で複数のパルスの位置を示す第2位置情報を生成し、
前記第1位置情報および前記第2位置情報を用いて前記複数のパルスの位置を特定して前記第1レイヤ復号誤差変換係数を生成する、
音声復号装置。
First layer encoded data obtained by performing encoding processing on the input speech signal in the speech encoding device, and a first layer decoded signal obtained by decoding the first layer encoded data in the speech encoding device Obtained by converting the first layer error signal, which is an error with the input audio signal, into the frequency domain, calculating a first layer error conversion coefficient, and performing an encoding process on the first layer error conversion coefficient Receiving means for receiving second layer encoded data;
First layer decoding means for decoding the first layer encoded data and generating the first layer decoded signal;
Second layer decoding means for decoding the second layer encoded data to generate first layer decoded error transform coefficients;
Time domain transforming means for transforming the first layer decoding error transform coefficient into the time domain to generate a first layer decoded error signal;
Adding means for adding the first layer decoded signal and the first layer decoded error signal to generate a decoded signal;
The second layer decoding means includes
Decoding the second layer encoded data, first position information indicating a position of a first band having a predetermined bandwidth, and second position information indicating positions of a plurality of pulses in the first band Generate
Using the first position information and the second position information to identify the positions of the plurality of pulses to generate the first layer decoding error transform coefficient;
Speech decoding device.
前記第2レイヤ復号手段は、
前記第2レイヤ符号化データを復号して前記パルスの振幅を示すゲイン情報を生成し、 前記ゲイン情報をさらに用いて前記第1レイヤ復号誤差変換係数を生成する、
請求項5記載の音声復号装置。
The second layer decoding means includes
Decoding the second layer encoded data to generate gain information indicating the amplitude of the pulse, and further generating the first layer decoding error transform coefficient using the gain information;
The speech decoding apparatus according to claim 5.
入力音声信号に対して符号化処理を行って第1レイヤ符号化データを生成する第1レイヤ符号化ステップと、
前記第1レイヤ符号化データを用いて復号処理を行って第1レイヤ復号信号を生成する第1レイヤ復号ステップと、
前記入力音声信号と前記第1レイヤ復号信号との誤差である第1レイヤ誤差信号を周波数領域に変換し第1レイヤ誤差変換係数を算出する第1レイヤ誤差変換係数算出ステップと、
前記第1レイヤ誤差変換係数に対して符号化処理を行って第2レイヤ符号化データを生成する第2レイヤ符号化ステップと、具備し、
前記第2レイヤ符号化ステップは、
所定の帯域幅を持ち前記帯域幅より狭い刻み幅で並べられた複数の帯域候補の中から、前記帯域候補における前記第1レイヤ誤差変換係数のエネルギーの大きさに基づいて第1帯域を選択し、選択した第1帯域の位置を示す第1位置情報を生成する帯域選択ステップと、
前記選択された第1帯域の中で、前記刻み幅より細かい刻み幅で設定されたパルス候補位置の中から複数のパルスの位置を特定し、特定した複数のパルスの位置を示す第2位置情報を生成するパルス位置特定ステップと、
前記第1位置情報と前記第2位置情報とを用いて前記第2レイヤ符号化データを生成する符号化データ生成ステップと、を具備する、
音声符号化方法。
A first layer encoding step of performing encoding processing on the input speech signal to generate first layer encoded data;
A first layer decoding step of generating a first layer decoded signal by performing a decoding process using the first layer encoded data;
A first layer error conversion coefficient calculation step of converting a first layer error signal, which is an error between the input audio signal and the first layer decoded signal, to a frequency domain and calculating a first layer error conversion coefficient;
A second layer encoding step of performing encoding processing on the first layer error transform coefficient to generate second layer encoded data; and
The second layer encoding step includes:
A first band is selected based on the energy level of the first layer error conversion coefficient in the band candidate from a plurality of band candidates arranged with a predetermined bandwidth and a step size narrower than the bandwidth. A band selection step for generating first position information indicating the position of the selected first band;
Second position information indicating the positions of the plurality of identified pulses by identifying the positions of the plurality of pulses from the pulse candidate positions set with a step size smaller than the step size in the selected first band. A pulse locating step for generating
An encoded data generation step for generating the second layer encoded data using the first position information and the second position information;
Speech encoding method.
音声符号化方法において入力音声信号に対して符号化処理を行って得られた第1レイヤ符号化データと、前記音声符号化方法において前記第1レイヤ符号化データを復号した第1レイヤ復号信号と前記入力音声信号との誤差である第1レイヤ誤差信号を周波数領域に変換して第1レイヤ誤差変換係数を算出し、当該第1レイヤ誤差変換係数に対して符号化処理を行って得られた第2レイヤ符号化データと、を受信する受信ステップと、
前記第1レイヤ符号化データを復号して第1レイヤ復号信号を生成する第1レイヤ復号ステップと、
前記第2レイヤ符号化データを復号して第1レイヤ復号誤差変換係数を生成する第2レイヤ復号ステップと、
前記第1レイヤ復号誤差変換係数を時間領域に変換して第1レイヤ復号誤差信号を生成する時間領域変換ステップと、
前記第1レイヤ復号信号と前記第1レイヤ復号誤差信号とを加算して復号信号を生成する加算ステップと、具備し、
前記第2レイヤ復号ステップは、
前記第2レイヤ符号化データを復号して、所定の帯域幅を持った第1帯域の位置を示す第1位置情報および前記第1帯域の中で複数のパルスの位置を示す第2位置情報を生成し、
前記第1位置情報および前記第2位置情報を用いて前記複数のパルスの位置を特定し前記第1レイヤ復号誤差変換係数を生成する、
音声復号方法。
First layer encoded data obtained by performing encoding processing on an input speech signal in the speech encoding method, and a first layer decoded signal obtained by decoding the first layer encoded data in the speech encoding method Obtained by converting the first layer error signal, which is an error with the input audio signal, into the frequency domain, calculating a first layer error conversion coefficient, and performing an encoding process on the first layer error conversion coefficient Receiving a second layer encoded data; and
A first layer decoding step of decoding the first layer encoded data to generate a first layer decoded signal;
A second layer decoding step of decoding the second layer encoded data to generate a first layer decoding error transform coefficient;
A time domain transforming step of transforming the first layer decoding error transform coefficients into a time domain to generate a first layer decoded error signal;
An adding step of adding the first layer decoded signal and the first layer decoded error signal to generate a decoded signal;
The second layer decoding step includes
Decoding the second layer encoded data, first position information indicating a position of a first band having a predetermined bandwidth, and second position information indicating positions of a plurality of pulses in the first band Generate
Identifying the positions of the plurality of pulses using the first position information and the second position information, and generating the first layer decoding error transform coefficient;
Speech decoding method.
JP2011054916A 2007-03-02 2011-03-14 Speech coding apparatus, speech decoding apparatus, and methods thereof Active JP5236032B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011054916A JP5236032B2 (en) 2007-03-02 2011-03-14 Speech coding apparatus, speech decoding apparatus, and methods thereof

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP2007053498 2007-03-02
JP2007053498 2007-03-02
JP2007133525 2007-05-18
JP2007133525 2007-05-18
JP2007184546 2007-07-13
JP2007184546 2007-07-13
JP2011054916A JP5236032B2 (en) 2007-03-02 2011-03-14 Speech coding apparatus, speech decoding apparatus, and methods thereof

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2008148510A Division JP5294713B2 (en) 2007-03-02 2008-06-05 Encoding device, decoding device and methods thereof

Publications (2)

Publication Number Publication Date
JP2011154383A true JP2011154383A (en) 2011-08-11
JP5236032B2 JP5236032B2 (en) 2013-07-17

Family

ID=40443476

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2008148510A Active JP5294713B2 (en) 2007-03-02 2008-06-05 Encoding device, decoding device and methods thereof
JP2011054916A Active JP5236032B2 (en) 2007-03-02 2011-03-14 Speech coding apparatus, speech decoding apparatus, and methods thereof
JP2011054917A Active JP5236033B2 (en) 2007-03-02 2011-03-14 Speech coding apparatus, speech decoding apparatus, and methods thereof

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2008148510A Active JP5294713B2 (en) 2007-03-02 2008-06-05 Encoding device, decoding device and methods thereof

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2011054917A Active JP5236033B2 (en) 2007-03-02 2011-03-14 Speech coding apparatus, speech decoding apparatus, and methods thereof

Country Status (1)

Country Link
JP (3) JP5294713B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103069483B (en) * 2010-09-10 2014-10-22 松下电器(美国)知识产权公司 Encoder apparatus and encoding method
EP2733699B1 (en) 2011-10-07 2017-09-06 Panasonic Intellectual Property Corporation of America Scalable audio encoding device and scalable audio encoding method
EP2830063A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for decoding an encoded audio signal

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002100994A (en) * 2000-07-14 2002-04-05 Nokia Mobile Phones Ltd Scalable encoding method for media stream, scalable encoder and multimedia terminal
WO2005027095A1 (en) * 2003-09-16 2005-03-24 Matsushita Electric Industrial Co., Ltd. Encoder apparatus and decoder apparatus
JP2005107255A (en) * 2003-09-30 2005-04-21 Matsushita Electric Ind Co Ltd Sampling rate converting device, encoding device, and decoding device
WO2005040749A1 (en) * 2003-10-23 2005-05-06 Matsushita Electric Industrial Co., Ltd. Spectrum encoding device, spectrum decoding device, acoustic signal transmission device, acoustic signal reception device, and methods thereof
JP2006072026A (en) * 2004-09-02 2006-03-16 Matsushita Electric Ind Co Ltd Speech encoding device, speech decoding device, and method thereof
WO2006049205A1 (en) * 2004-11-05 2006-05-11 Matsushita Electric Industrial Co., Ltd. Scalable decoding apparatus and scalable encoding apparatus

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268693A (en) * 2001-03-12 2002-09-20 Mitsubishi Electric Corp Audio encoding device
JP3926726B2 (en) * 2001-11-14 2007-06-06 松下電器産業株式会社 Encoding device and decoding device
JP4399185B2 (en) * 2002-04-11 2010-01-13 パナソニック株式会社 Encoding device and decoding device
EP3118849B1 (en) * 2004-05-19 2020-01-01 Fraunhofer Gesellschaft zur Förderung der Angewand Encoding device, decoding device, and method thereof
WO2006046587A1 (en) * 2004-10-28 2006-05-04 Matsushita Electric Industrial Co., Ltd. Scalable encoding apparatus, scalable decoding apparatus, and methods thereof
JP2007033833A (en) * 2005-07-26 2007-02-08 Yamaha Corp Authoring device and authoring program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002100994A (en) * 2000-07-14 2002-04-05 Nokia Mobile Phones Ltd Scalable encoding method for media stream, scalable encoder and multimedia terminal
WO2005027095A1 (en) * 2003-09-16 2005-03-24 Matsushita Electric Industrial Co., Ltd. Encoder apparatus and decoder apparatus
JP2005107255A (en) * 2003-09-30 2005-04-21 Matsushita Electric Ind Co Ltd Sampling rate converting device, encoding device, and decoding device
WO2005040749A1 (en) * 2003-10-23 2005-05-06 Matsushita Electric Industrial Co., Ltd. Spectrum encoding device, spectrum decoding device, acoustic signal transmission device, acoustic signal reception device, and methods thereof
JP2006072026A (en) * 2004-09-02 2006-03-16 Matsushita Electric Ind Co Ltd Speech encoding device, speech decoding device, and method thereof
WO2006049205A1 (en) * 2004-11-05 2006-05-11 Matsushita Electric Industrial Co., Ltd. Scalable decoding apparatus and scalable encoding apparatus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BALAZS KOVESI, ET AL.: ""A SCALABLE SPEECH AND AUDIO CODING SCHEME WITH CONTINUOUS BITRATE FLEXIBILITY"", PROCEEDINGS OF THE 2004 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING(ICA, vol. Vol.I, JPN6011008178, May 2004 (2004-05-01), pages 273 - 276, ISSN: 0002469182 *

Also Published As

Publication number Publication date
JP5294713B2 (en) 2013-09-18
JP5236032B2 (en) 2013-07-17
JP2009042739A (en) 2009-02-26
JP5236033B2 (en) 2013-07-17
JP2011154384A (en) 2011-08-11

Similar Documents

Publication Publication Date Title
JP4708446B2 (en) Encoding device, decoding device and methods thereof
JP4871894B2 (en) Encoding device, decoding device, encoding method, and decoding method
JP5339919B2 (en) Encoding device, decoding device and methods thereof
KR101366124B1 (en) Device for perceptual weighting in audio encoding/decoding
JP5404418B2 (en) Encoding device, decoding device, and encoding method
JP5058152B2 (en) Encoding apparatus and encoding method
JP2012163981A (en) Audio codec post-filter
JP5236040B2 (en) Encoding device, decoding device, encoding method, and decoding method
JPWO2007129728A1 (en) Encoding apparatus and encoding method
US20100017197A1 (en) Voice coding device, voice decoding device and their methods
JP5236032B2 (en) Speech coding apparatus, speech decoding apparatus, and methods thereof
RU2459283C2 (en) Coding device, decoding device and method
JPWO2011058752A1 (en) Encoding device, decoding device and methods thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5236032

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350