JP2012163825A - Voice encoding apparatus and voice encoding method - Google Patents
Voice encoding apparatus and voice encoding method Download PDFInfo
- Publication number
- JP2012163825A JP2012163825A JP2011025047A JP2011025047A JP2012163825A JP 2012163825 A JP2012163825 A JP 2012163825A JP 2011025047 A JP2011025047 A JP 2011025047A JP 2011025047 A JP2011025047 A JP 2011025047A JP 2012163825 A JP2012163825 A JP 2012163825A
- Authority
- JP
- Japan
- Prior art keywords
- linear prediction
- prediction parameter
- codebook
- speech
- background noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本発明は、音声及び背景雑音の符号化を行う音声符号化装置及び音声符号化方法に関する。 The present invention relates to a speech encoding apparatus and speech encoding method for encoding speech and background noise.
0.従来の背景と課題
0.1.CELP(Code Excited Linear Prediction)の概要
移動体通信においては、限られた伝送帯域を有効に利用するために、音声や画像のディジタル情報の圧縮符号化が必須である。その中でも、携帯電話で広く利用された音声コーデック(符号化/復号化)技術に対する期待は大きく、圧縮率の高い高効率符号化に対してよりよい音質の要求が強まっている。
0. Conventional background and problems 0.1. Outline of CELP (Code Excited Linear Prediction) In mobile communication, in order to effectively use a limited transmission band, it is essential to compress and encode digital information of voice and images. Among them, there is a great expectation for speech codec (encoding / decoding) technology widely used in mobile phones, and there is an increasing demand for better sound quality for high-efficiency encoding with a high compression rate.
高効率な音声符号化技術としては、音声の発声機構をモデル化してベクトル量子化を応用したCELPが広く知られている。CELPの主要な技術は、音声スペクトルの概形を低ビットレートで符号化することができる線形予測(LPC:Linear Predictive Coding)分析と、線形予測分析によって得られたパラメータの量子化である。 As a high-efficiency speech coding technique, CELP that models a speech utterance mechanism and applies vector quantization is widely known. The main technology of CELP is linear predictive coding (LPC) analysis that can encode the outline of the speech spectrum at a low bit rate, and quantization of parameters obtained by the linear prediction analysis.
音声符号化技術は、CELPを基本として応用、発展がなされ、様々な技術が開発されているが、これらのCELP系の符号化技術は、音声に特化した符号化方式であるため、音声に背景雑音を合成すると異音が発生する。これは、聴覚的な要素を考慮せず、入力音声との二乗誤差が最小となるパラメータの組み合わせを選択することに起因する。 Speech coding technology has been applied and developed based on CELP, and various technologies have been developed. Since these CELP coding technologies are coding methods specialized for speech, When background noise is synthesized, abnormal noise is generated. This is due to selecting a combination of parameters that minimizes the square error with the input speech without considering auditory elements.
そこで、異音を低減し、耳障りを良くすることにより、聴覚上音質を改善するため、例えば、ゲインを平滑化することにより雑音による著しい振幅変動を低減したり、有音/無音及び雑音の分類により聴覚補正フィルタを切り替えたり、さらには、背景雑音区間の振幅レベルを抑圧してから符号化することが考えられる。 Therefore, in order to improve auditory sound quality by reducing abnormal noise and improving harshness, for example, significant amplitude fluctuation due to noise can be reduced by smoothing the gain, and voice / silence and noise classification It is conceivable that encoding is performed after the auditory correction filter is switched or the amplitude level of the background noise section is suppressed.
0.2.従来の装置構成
このような技術として、例えば、特許文献1及び特許文献2に開示の技術が知られている。特許文献1には、雑音区間において音源ゲインを過去の音源ゲインを用いて平滑化し、このとき、過去の音源ゲインからの変動量を一定の値に収まるように平滑化ゲインを制限することが開示されている。これにより、雑音区間のゲインが不自然に大きくならず、音声品質を改善することができる。
0.2. Conventional Apparatus Configuration As such a technique, for example, techniques disclosed in
また、特許文献2には、符号化側で符号化の対象となるフレームが音声区間か背景雑音区間かを分析し、分析結果を復号側に通知し、復号側では、背景雑音区間における第1合成フィルタの出力の平均パワーを求め、また、復号線形予測パラメータの平均スペクトルを求め、この平均スペクトルをフィルタ係数とする第2合成フィルタを白色雑音で駆動し、そのフィルタ出力を平均パワーで振幅調整して背景雑音の定常成分信号を得て、この信号を第1合成フィルタの出力に加算することが開示されている。これにより、CELP系の音声符号化方式において、背景雑音の性質を復号側に伝え、より自然な再生音を実現することができる。
Further, in
しかしながら、上記特許文献1に開示の技術では、CELPが苦手とする背景雑音の復号において、短時間平均パワーの著しい変動に起因する音質劣化の低減を目的としており、背景雑音を復号側に正確に伝送できないという問題がある。
However, the technique disclosed in
また、上記特許文献2に開示の技術では、符号化側における音声区間又は背景雑音区間の分析に要する処理、及び、復号側における背景雑音の定常成分信号の取得に要する処理が複雑であり、処理量が増大するという問題がある。さらに、聴覚上の自然さは得られるものの、背景雑音を復号側に正確に伝送できないという問題がある。
Further, in the technique disclosed in
本発明の目的は、処理量の増大を抑制しつつ、背景雑音を復号側に正確に伝送する音声符号化装置及び音声符号化方法を提供することである。 An object of the present invention is to provide a speech encoding apparatus and speech encoding method that accurately transmit background noise to a decoding side while suppressing an increase in processing amount.
本発明の音声符号化装置は、音声の分析により得られた第1の線形予測パラメータと、背景雑音の分析により得られた第2の線形予測パラメータとが格納され、格納された第1及び第2の線形予測パラメータから入力音声信号に基づいて線形予測パラメータを選択し、選択した前記線形予測パラメータに予め対応付けられたインデックスを出力する線形予測符号帳と、所定形状の音源ベクトルを格納する複数の固定符号帳と、出力された前記インデックスが前記第1の線形予測パラメータを示すか、前記第2の線形予測パラメータを示すかに応じて、前記複数の固定符号帳のいずれかを選択する駆動音源選択手段と、を具備する構成を採る。 The speech coding apparatus according to the present invention stores a first linear prediction parameter obtained by analyzing speech and a second linear prediction parameter obtained by analyzing background noise, and stores the stored first and second stored parameters. A linear prediction codebook that selects a linear prediction parameter from two linear prediction parameters based on an input speech signal, outputs an index that is associated with the selected linear prediction parameter in advance, and a plurality of sound source vectors that store a predetermined shape The fixed codebook and a drive for selecting one of the plurality of fixed codebooks depending on whether the output index indicates the first linear prediction parameter or the second linear prediction parameter And a sound source selecting unit.
本発明の音声符号化方法は、音声の分析により得られた第1の線形予測パラメータと、背景雑音の分析により得られた第2の線形予測パラメータとが格納された線形予測符号帳から、入力音声信号に基づいて選択された線形予測パラメータを示すインデックスを出力するステップと、出力された前記インデックスが前記第1の線形予測パラメータを示すか、前記第2の線形予測パラメータを示すかに応じて、複数の固定符号帳のいずれかを選択するステップと、を具備するようにした。 The speech coding method according to the present invention is input from a linear prediction codebook storing a first linear prediction parameter obtained by speech analysis and a second linear prediction parameter obtained by background noise analysis. Outputting an index indicating the linear prediction parameter selected based on the speech signal, and depending on whether the output index indicates the first linear prediction parameter or the second linear prediction parameter And selecting one of a plurality of fixed codebooks.
本発明によれば、処理量の増大を抑制しつつ、背景雑音を復号側に正確に伝送することができる。 According to the present invention, it is possible to accurately transmit background noise to the decoding side while suppressing an increase in processing amount.
以下、本発明の実施の形態について、図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
(一実施の形態)
1.一実施の形態
1.1.一実施の形態のCELP符号化装置の構成
図1は、本発明の一実施の形態に係るCELP符号化装置100の構成を示すブロック図である。以下、CELP符号化装置100の構成について図1を用いて説明する。
(One embodiment)
1. Embodiment 1.1. Configuration of CELP Encoding Device According to an Embodiment FIG. 1 is a block diagram showing a configuration of a
図1において、線形予測分析部101は、入力音声信号に対して線形予測分析を施し、スペクトル包絡情報である線形予測パラメータ(LPC(Linear Prediction Coding)ともいう)を求め、求めた線形予測パラメータを線形予測符号帳102に出力する。
In FIG. 1, a linear
線形予測符号帳102は、音声の分析により得られた線形予測パラメータの代表ベクトル(音声由来)と、背景雑音の分析により得られた線形予測パラメータの代表ベクトル(背景雑音由来)とを格納し、線形予測分析部101から出力された線形予測パラメータとの二乗誤差が最小となる代表ベクトルを選択し、選択した代表ベクトルを聴覚重み付けフィルタ103及び合成フィルタ104に出力する。また、線形予測符号帳102は、選択した代表ベクトルに予め対応付けられたインデックスを線形予測符号帳インデックスとして駆動音源選択部109に出力すると共に、図示せぬ復号装置に伝送する。線形予測符号帳102は、例えば、図2に示すように、代表ベクトルの格納領域を2つに分け、一方の領域に音声由来の代表ベクトルを格納し、他方の領域に背景雑音由来の代表ベクトルを格納する。
The
聴覚重み付けフィルタ103は、線形予測符号帳102から出力された代表ベクトルに対応した係数によって、入力音声信号に重み付けを行い、聴覚重み付けがされた音声信号を加算器105に出力する。
The
合成フィルタ104は、線形予測符号帳102から出力された代表ベクトルをフィルタ係数とし、後述する適応符号帳106及び固定符号帳107又は固定符号帳108で生成される音源ベクトルを駆動音源としたフィルタ関数、すなわち、LPC合成フィルタを用いて合成信号を生成する。この合成信号は、加算器105に出力される。
The
加算器105は、合成フィルタ104から出力された合成信号を聴覚重み付けフィルタ103から出力された音声信号から減算することによって誤差信号を算出し、この誤差信号を適応符号帳106、固定符号帳107、固定符号帳108及び駆動音源選択部109に出力する。
The
適応符号帳106は、合成フィルタ104で使用された過去の駆動音源を記憶しており、加算器105から出力された誤差信号に基づいて、記憶している駆動音源から音源ベクトルを生成する。この音源ベクトルは、適応符号帳ベクトルとして加算器110に出力される。また、適応符号帳106は、適応符号帳ベクトルに予め対応付けられたインデックスを適応符号帳インデックスとして図示せぬ復号装置に伝送する。
The
固定符号帳107は、有声音成分の所定形状の音源ベクトルを予め複数個記憶しており、加算器105から出力された誤差信号に基づく音源ベクトルを、固定符号帳ベクトルとして加算器110に出力する。また、固定符号帳107は、固定符号帳ベクトルに予め対応付けられたインデックスを固定符号帳インデックスとして図示せぬ復号装置に伝送する。
Fixed
また、固定符号帳108は、無声音成分の所定形状の音源ベクトルを予め複数個記憶しており、加算器105から出力された誤差信号に基づく音源ベクトルを、固定符号帳ベクトルとして加算器110に出力する。また、固定符号帳108は、固定符号帳ベクトルに予め対応付けられたインデックスを固定符号帳インデックスとして図示せぬ復号装置に伝送する。
Fixed
駆動音源選択部109は、線形予測符号帳102から出力されたインデックスの由来(音声由来か背景雑音由来か)に応じて、固定符号帳107又は固定符号帳108を選択する。ただし、線形予測符号帳インデックスが音声由来である場合、二乗誤差の大小判定を行って、二乗誤差が小さくなる固定符号帳107又は固定符号帳108を選択する。具体的には、固定符号帳107を選択したときに加算器105から出力された誤差信号を用いて二乗誤差1を算出し、また、固定符号帳108を選択した場合に加算器105から出力された誤差信号を用いて二乗誤差2を算出し、算出した二乗誤差1及び二乗誤差2の大小判定を行う。
The driving
加算器110は、適応符号帳106から出力された適応符号帳ベクトルと、固定符号帳107又は固定符号帳108から出力された固定符号帳ベクトルとを加算し、加算後の音源ベクトルを駆動音源として合成フィルタ104に出力する。
Adder 110 adds the adaptive codebook vector output from
1.2.駆動音源選択部における駆動音源選択処理
次に、図1に示した駆動音源選択部109における駆動音源選択処理について図3を用いて説明する。図3において、ステップ(以下、「ST」と省略する)201では、線形予測符号帳インデックスは音声由来か否かを判定し、音声由来である(YES)場合、ST202に移行し、音声由来ではない、すなわち、背景雑音由来である(NO)場合、ST206に移行する。
1.2. Drive Sound Source Selection Processing in Drive Sound Source Selection Unit Next, drive sound source selection processing in the drive sound
ST202では、固定符号帳107を選択した場合の二乗誤差1を算出し、ST203では、固定符号帳108を選択した場合の二乗誤差2を算出する。
In ST202, a
ST204では、ST202において算出した二乗誤差1がST203において算出した二乗誤差2より小さいか否かが判定され、二乗誤差1が二乗誤差2より小さい(YES)場合、ST205に移行し、二乗誤差1が二乗誤差2より小さくない(NO)場合、ST206に移行する。
In ST204, it is determined whether or not the
ST205では、固定符号帳107を選択して駆動音源選択処理を終了し、ST206では、固定符号帳108を選択して駆動音源選択処理を終了する。
In ST205, the fixed
1.3.本実施の形態の効果
このように、本実施の形態によれば、音声の分析により得られた線形予測パラメータと、背景雑音の分析により得られた線形予測パラメータとを線形予測符号帳に格納し、入力音声信号から求められた線形予測パラメータを示すインデックスを選択し、選択されたインデックスが音声由来か背景雑音由来かに応じて、第1の固定符号帳又は第2の固定符号帳を選択する。これにより、処理量の増大を抑制しつつ、背景雑音を復号側に正確に伝送することができる。
1.3. As described above, according to the present embodiment, the linear prediction parameters obtained by speech analysis and the linear prediction parameters obtained by background noise analysis are stored in the linear prediction codebook. Then, an index indicating a linear prediction parameter obtained from the input speech signal is selected, and the first fixed codebook or the second fixed codebook is selected according to whether the selected index is derived from speech or background noise. . Thereby, it is possible to accurately transmit the background noise to the decoding side while suppressing an increase in the processing amount.
なお、本実施の形態では、線形予測パラメータを音声由来と背景雑音由来の2つの場合を例に説明したが、本発明はこれに限らず、例えば、これら2つに楽器音の分析により得られた線形予測パラメータ(楽器音由来)を加えてもよい。この場合、線形予測符号帳は、代表ベクトルの格納領域を3つに分ける。 In this embodiment, the two cases where the linear prediction parameters are derived from speech and background noise have been described as examples. However, the present invention is not limited to this, and for example, these two can be obtained by analyzing instrument sounds. Linear prediction parameters (derived from instrument sounds) may be added. In this case, the linear predictive codebook divides the representative vector storage area into three.
また、本実施の形態では、有声音用の固定符号帳と、無声音用の固定符号帳とを設ける場合について説明したが、本発明はこれに限らず、例えば、パルス用の固定符号帳と、雑音用の固定符号帳とを設けるようにしてもよい。また、システム及び使用環境により、背景雑音に最適な固定符号帳の種類を可変としてもよい。 Further, in the present embodiment, the case of providing a fixed codebook for voiced sound and a fixed codebook for unvoiced sound has been described, but the present invention is not limited to this, for example, a fixed codebook for pulses, A fixed codebook for noise may be provided. Also, the type of fixed codebook that is optimal for background noise may be variable depending on the system and usage environment.
本発明にかかる音声符号化装置及び音声符号化方法は、移動通信システムにおける無線通信端末装置等に適用できる。 The speech coding apparatus and speech coding method according to the present invention can be applied to a wireless communication terminal device in a mobile communication system.
101 線形予測分析部
102 線形予測符号帳
103 聴覚重み付けフィルタ
104 合成フィルタ
105、110 加算器
106 適応符号帳
107、108 固定符号帳
109 駆動音源選択部
DESCRIPTION OF
Claims (5)
所定形状の音源ベクトルを格納する複数の固定符号帳と、
出力された前記インデックスが前記第1の線形予測パラメータを示すか、前記第2の線形予測パラメータを示すかに応じて、前記複数の固定符号帳のいずれかを選択する駆動音源選択手段と、
を具備する音声符号化装置。 The first linear prediction parameter obtained by the speech analysis and the second linear prediction parameter obtained by the background noise analysis are stored, and the input speech signal is stored from the stored first and second linear prediction parameters. A linear prediction codebook that selects a linear prediction parameter based on and outputs an index previously associated with the selected linear prediction parameter;
A plurality of fixed codebooks that store sound source vectors of a predetermined shape;
Driving excitation selection means for selecting one of the plurality of fixed codebooks depending on whether the output index indicates the first linear prediction parameter or the second linear prediction parameter;
A speech encoding apparatus comprising:
出力された前記インデックスが前記第1の線形予測パラメータを示すか、前記第2の線形予測パラメータを示すかに応じて、複数の固定符号帳のいずれかを選択するステップと、
を具備する音声符号化方法。
The linear selected based on the input speech signal from the linear prediction codebook storing the first linear prediction parameter obtained by the speech analysis and the second linear prediction parameter obtained by the background noise analysis Outputting an index indicating the prediction parameter;
Selecting one of a plurality of fixed codebooks depending on whether the output index indicates the first linear prediction parameter or the second linear prediction parameter;
A speech encoding method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011025047A JP4764956B1 (en) | 2011-02-08 | 2011-02-08 | Speech coding apparatus and speech coding method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011025047A JP4764956B1 (en) | 2011-02-08 | 2011-02-08 | Speech coding apparatus and speech coding method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP4764956B1 JP4764956B1 (en) | 2011-09-07 |
JP2012163825A true JP2012163825A (en) | 2012-08-30 |
Family
ID=44693555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011025047A Expired - Fee Related JP4764956B1 (en) | 2011-02-08 | 2011-02-08 | Speech coding apparatus and speech coding method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4764956B1 (en) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3114197B2 (en) * | 1990-11-02 | 2000-12-04 | 日本電気株式会社 | Voice parameter coding method |
JP3515216B2 (en) * | 1995-05-30 | 2004-04-05 | 三洋電機株式会社 | Audio coding device |
JP4173940B2 (en) * | 1999-03-05 | 2008-10-29 | 松下電器産業株式会社 | Speech coding apparatus and speech coding method |
JP2001075600A (en) * | 1999-09-07 | 2001-03-23 | Mitsubishi Electric Corp | Voice encoding device and voice decoding device |
JP4619549B2 (en) * | 2000-01-11 | 2011-01-26 | パナソニック株式会社 | Multimode speech decoding apparatus and multimode speech decoding method |
JP4510977B2 (en) * | 2000-02-10 | 2010-07-28 | 三菱電機株式会社 | Speech encoding method and speech decoding method and apparatus |
JP4727413B2 (en) * | 2005-12-21 | 2011-07-20 | 三菱電機株式会社 | Speech encoding / decoding device |
-
2011
- 2011-02-08 JP JP2011025047A patent/JP4764956B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP4764956B1 (en) | 2011-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108352163B (en) | Method and system for decoding left and right channels of a stereo sound signal | |
RU2669139C1 (en) | Coding coefficients quantization with linear prediction device, sound coding device, coding coefficients quantification with linear prediction device, sound decoding device and electronic device for this | |
RU2647652C1 (en) | Method of quantuming of coding coefficients with linear prediction, method of sound coding, method of dequantization of coding coefficients with linear prediction, method of sound decoding and a medium recorder | |
US9595269B2 (en) | Scaling for gain shape circuitry | |
CA2925572C (en) | Gain shape estimation for improved tracking of high-band temporal characteristics | |
US10607624B2 (en) | Signal codec device and method in communication system | |
RU2701075C1 (en) | Audio signal processing device, audio signal processing method and audio signal processing program | |
AU2014331903A1 (en) | Gain shape estimation for improved tracking of high-band temporal characteristics | |
JP3628268B2 (en) | Acoustic signal encoding method, decoding method and apparatus, program, and recording medium | |
JPH08272395A (en) | Voice encoding device | |
EP2127088B1 (en) | Audio quantization | |
JP2013076871A (en) | Speech encoding device and program, speech decoding device and program, and speech encoding system | |
CA2521445C (en) | Code conversion method and apparatus | |
JP4764956B1 (en) | Speech coding apparatus and speech coding method | |
US7584096B2 (en) | Method and apparatus for encoding speech | |
EP3186808B1 (en) | Audio parameter quantization | |
JP2002073097A (en) | Celp type voice coding device and celp type voice decoding device as well as voice encoding method and voice decoding method | |
KR101737254B1 (en) | Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program | |
JPH0786952A (en) | Predictive encoding method for voice | |
KR20060064694A (en) | Harmonic noise weighting in digital speech coders | |
JP2015079184A (en) | Sound decoding device, sound encoding device, sound decoding method, sound encoding method, sound decoding program, and sound encoding program | |
JPH11316600A (en) | Method and device for encoding lag parameter and code book generating method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110607 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110613 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140617 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |