JP2006039559A - Device and method of audio coding using plp of transfer communication terminal - Google Patents

Device and method of audio coding using plp of transfer communication terminal Download PDF

Info

Publication number
JP2006039559A
JP2006039559A JP2005213527A JP2005213527A JP2006039559A JP 2006039559 A JP2006039559 A JP 2006039559A JP 2005213527 A JP2005213527 A JP 2005213527A JP 2005213527 A JP2005213527 A JP 2005213527A JP 2006039559 A JP2006039559 A JP 2006039559A
Authority
JP
Japan
Prior art keywords
signal
plp
coefficient
input signal
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005213527A
Other languages
Japanese (ja)
Inventor
Chan-Woo Kim
チャン−ウ キム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of JP2006039559A publication Critical patent/JP2006039559A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Abstract

<P>PROBLEM TO BE SOLVED: To provide an audio coding method of a transfer communication terminal that can realize higher compressibility than when the traditional LP coefficient is used and ensure higher sound quality by conducting LPC (Linear Predictive Coding) with using PLP (Perceptual Linear Prediction) coefficients. <P>SOLUTION: An audio coding device of the transfer communication terminal includes a PLP coefficient calculating portion 20 processing an input signal and calculating PLP coefficient and gain, a V/UV determination portion 21 determining whether the input signal is a voiced signal or an unvoiced signal and outputting a determination signal and the voiced signal when the input signal is the voiced signal, a pitch calculating portion 22 calculating the pitch of the input signal output from the V/UV determination portion 21 and a parameter coding portion 23 conducting low bit rate coding by using PLP coefficient, gain and pitch based on the determination signal. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、移動通信端末機のコーディングに関し、特に、PLP(Perceptual Linear Prediction)を利用した音声コーディング装置及び方法に関する。   The present invention relates to coding of a mobile communication terminal, and more particularly, to a speech coding apparatus and method using PLP (Perceptual Linear Prediction).

移動通信技術の発展により、現在の移動通信端末機は、音声通信だけでなく、数字、文字及び記号などを利用したデータ通信と、多様な映像信号を含むマルチメディア通信を提供している。多数の端末機使用者は、システムから無線チャンネルが割り当てられた後、無線資源を利用して必要なデータを送受信する。しかしながら、前記無線チャンネルは、多数の使用者が同時に使用可能にするために帯域幅を制限しているため、各使用者のビットレートが制限される。   With the development of mobile communication technology, current mobile communication terminals provide not only voice communication but also data communication using numbers, characters and symbols, and multimedia communication including various video signals. Many terminal users transmit and receive necessary data using radio resources after a radio channel is allocated from the system. However, since the wireless channel has a limited bandwidth so that a large number of users can use it simultaneously, the bit rate of each user is limited.

従って、前記制限されたビットレートでより多くのデータを伝送するための技術としてコーディング技術が提案された。従来の音声コーディング技術には、非常に多様な方法が存在するが、各音声コーディング方法は、所定のビットレートで所定の長所を有する。   Accordingly, a coding technique has been proposed as a technique for transmitting more data at the limited bit rate. There are a wide variety of conventional voice coding techniques, but each voice coding method has predetermined advantages at a predetermined bit rate.

例えば、基準音声コーディング(Generic Audio Coding)を利用したスピーチコーディング(speech coding)、PCM (Pulse Code Modulation)及びADPCM(Adaptive Delta Pulse Code Modulation)は、16Kbps以上の高ビットレートにおいて効果的であり、CELP(Code Excited Linear Prediction)とその各種変形は、2.4Kbps〜16Kbps範囲の中ビットレートにおいて効果的である。特に、前記中ビットレートでは、LD−CELP(Low Delay Code Excited Linear Prediction)、CS−ACELP(Conjugate Structure Algebraic Code Excited Linear Prediction)、VSELP(Vector Sum Excited Linear Prediction)及びMELP(Mixed Excitation Linear Prediction)を利用したコーディング方法と広帯域スピーチコーディング(wideband speech coding) などが使用される。また、LPC(Linear Predictive Coding)、RELP(Residual Excited Linear Prediction)、フォルマントボコーダ(formants vocoder)及びケプストラルボコーダ(Cepstral Vocoder)などは、75bps〜2.4Kbpsの低ビットレートにおいてより多くの長所を有する。   For example, speech coding using standard audio coding (Generic Audio Coding), PCM (Pulse Code Modulation) and ADPCM (Adaptive Delta Pulse Code Modulation) are effective at a high bit rate of 16 Kbps or more, and P is effective. (Code Excited Linear Prediction) and various modifications thereof are effective at medium bit rates in the range of 2.4 Kbps to 16 Kbps. In particular, at the above-mentioned medium bit rates, LD-CELP (Low Delay Code Excited Linear Prediction), CS-ACELP (Conjugate Structure Excite Linear Excited Linear Prediction), and VSELP (Vex. The coding method used and wideband speech coding are used. In addition, LPC (Linear Predictive Coding), RELP (Residual Excited Linear Prediction), Formant vocoder, Cepstral vocoder (Cepstral Vocoder), etc., which has a bit rate from 75 bps to 2. Have.

ここで、本発明は、低ビットレートで使用されるコーディングのうち線形予測コーディング(Linear Predictive Coding: 以下、LPCと称する)の改善方法を提案している。   Here, the present invention proposes an improvement method of linear predictive coding (hereinafter referred to as LPC) among codings used at a low bit rate.

図3は、従来のLPCエンコーダの構成図である。   FIG. 3 is a configuration diagram of a conventional LPC encoder.

図3に示すように、従来のLPCエンコーダは、入力信号x[n]の自己相関(autocorrelation)値r[n]を計算する相関器10と、前記自己相関値r[n]を処理して線形予測係数(Linear Prediction Coefficient: 以下、LP係数という)aとゲインGを計算するLP係数計算部11と、入力信号x[n]が音声(Voiced:V)信号であるか、非音声(Unvoiced: UV)信号であるかを決定するV/UV決定部12と、前記入力信号x[n]が音声(V)信号である場合、該当信号のピッチPを計算するピッチ計算部13と、V/UV決定部12から出力されたV/UV指示ビット(Indication bit)によりLP係数計算部11とピッチ計算部13から受信したLP係数a、ゲインG及びピッチPをコーディングしてビットストリームを出力するパラメータコーディング部14とから構成される。 As shown in FIG. 3, a conventional LPC encoder processes a correlator 10 that calculates an autocorrelation value r x [n] of an input signal x [n] and the autocorrelation value r x [n]. Then, LP coefficient calculation unit 11 for calculating linear prediction coefficient (Linear Prediction Coefficient: hereinafter referred to as LP coefficient) a L and gain G, and whether input signal x [n] is a voice (Voided: V) signal or not A V / UV determination unit 12 that determines whether the signal is a voice (Unvoiced: UV) signal, and a pitch calculation unit 13 that calculates a pitch P of the corresponding signal when the input signal x [n] is a voice (V) signal. And the LP coefficient calculation unit 11 and the pitch calculation unit 1 according to the V / UV instruction bit (Indication bit) output from the V / UV determination unit 12. 3 is configured by a parameter coding unit 14 that codes the LP coefficient a n , the gain G, and the pitch P received from 3 and outputs a bit stream.

以下、このように構成された従来のLPCエンコーダの動作を説明する。   Hereinafter, the operation of the conventional LPC encoder configured as described above will be described.

まず、相関器10は、入力信号x[n]を自己相関し、LP係数計算部11は、相関器10により計算された自己相関値r[n]を処理してLP係数aとゲインGを計算する。ここで、V/UV決定部12は、入力信号x[n]が音声(V)信号であるか、非音声(UV)信号であるかを決定してV/UV指示ビットと音声(V)信号を出力し、ピッチ計算部13は、V/UV決定部12から出力された音声(V)信号のピッチPを計算する。 First, the correlator 10 autocorrelation of the input signal x [n], LP coefficient calculator 11, LP coefficient a n and a gain by processing the autocorrelation value r x calculated by the correlator 10 [n] G is calculated. Here, the V / UV determination unit 12 determines whether the input signal x [n] is a voice (V) signal or a non-voice (UV) signal, and determines the V / UV instruction bit and the voice (V). The signal is output, and the pitch calculation unit 13 calculates the pitch P of the voice (V) signal output from the V / UV determination unit 12.

従って、パラメータコーディング部14は、V/UV指示ビットが音声(V)信号を示す場合、LP係数計算部11とピッチ計算部13から受信したLP係数a、ゲインG及びピッチPをパラメータコーディング(低ビットレートでエンコーディング)してビットストリームを出力する。その後、制御部(図示せず)は、ビットストリームを処理して無線部(図示せず)に出力し、前記無線部は、前記制御部から出力された信号を無線信号に変換して伝送する。 Accordingly, when the V / UV instruction bit indicates a voice (V) signal, the parameter coding unit 14 performs parameter coding on the LP coefficient a n , the gain G, and the pitch P received from the LP coefficient calculation unit 11 and the pitch calculation unit 13 ( Encode at a low bit rate) and output a bitstream. Thereafter, a control unit (not shown) processes the bit stream and outputs the bit stream to a radio unit (not shown), and the radio unit converts the signal output from the control unit into a radio signal and transmits the radio signal. .

このように、移動通信端末機において音声信号を低ビットレートで伝送するために、従来技術では、LPCコーディングを行う。しかしながら、従来のLPCコーディングは、通常LP係数を利用するため、人間の聴覚特性が考慮されない。従って、低ビットレートで動作する従来のLPCコーディングの場合は、圧縮効率が低く(1200kbps〜2400kbps)、音質が悪いという短所があった。   In this way, in order to transmit the audio signal at a low bit rate in the mobile communication terminal, the conventional technique performs LPC coding. However, since conventional LPC coding normally uses LP coefficients, human auditory characteristics are not considered. Therefore, the conventional LPC coding that operates at a low bit rate has the disadvantages that the compression efficiency is low (1200 kbps to 2400 kbps) and the sound quality is poor.

本発明の目的は、PLP係数を利用してLPCコーディングを行うことにより、圧縮効率及び音質を向上させる移動通信端末機の音声コーディング装置及び方法を提供することにある。   An object of the present invention is to provide a voice coding apparatus and method for a mobile communication terminal that improves compression efficiency and sound quality by performing LPC coding using PLP coefficients.

このような目的を達成するために、本発明に係る移動通信端末機のLPCエンコーダは、入力信号を処理してPLP係数とゲインを計算するPLP係数計算部と、前記入力信号が音声信号であるか、非音声信号であるかを決定し、前記入力信号が音声信号であると、前記決定信号と該当音声信号を出力するV/UV決定部と、前記V/UV決定部から出力された入力信号のピッチを計算するピッチ計算部と、前記決定信号に基づいて、前記PLP係数、ゲイン及びピッチを利用して低ビットレートコーディングを行うパラメータコーディング部とを含むことを特徴とする。   In order to achieve such an object, an LPC encoder of a mobile communication terminal according to the present invention includes a PLP coefficient calculation unit that processes an input signal to calculate a PLP coefficient and a gain, and the input signal is an audio signal. Or a non-audio signal, and if the input signal is an audio signal, a V / UV determination unit that outputs the determination signal and the corresponding audio signal, and an input output from the V / UV determination unit A pitch calculating unit that calculates a pitch of a signal, and a parameter coding unit that performs low bit rate coding using the PLP coefficient, gain, and pitch based on the determination signal.

このような目的を達成するために、本発明に係る移動通信端末機の低ビットレート音声コーディング方法は、入力信号を処理してPLP係数とゲインを計算する段階と、前記入力信号が音声信号であるか、非音声信号であるかを決定し、前記入力信号が音声信号であると、前記決定信号と音声信号を出力する段階と、前記V/UV決定部から出力された入力信号のピッチを計算する段階と、前記決定信号に基づいて、前記PLP係数、ゲイン及びピッチを利用して低ビットレートコーディングを行う段階とを含むことを特徴とする。   In order to achieve the above object, a low bit rate speech coding method for a mobile communication terminal according to the present invention includes a step of processing an input signal to calculate a PLP coefficient and a gain, and the input signal is a speech signal. Determining whether the input signal is an audio signal, and outputting the determination signal and the audio signal; and determining a pitch of the input signal output from the V / UV determination unit. Calculating, and performing low bit rate coding using the PLP coefficient, gain, and pitch based on the decision signal.

好ましくは、前記音声信号はスピーチ信号である。   Preferably, the audio signal is a speech signal.

好ましくは、前記PLP係数の次数は、8kHzサンプリングレート(sampling rate)の場合、7次程度である。   Preferably, the order of the PLP coefficient is about the 7th order in the case of an 8 kHz sampling rate.

上記目的を達成するために、本発明は、例えば、以下の手段を提供する。
(項目1)
移動通信端末機において、
入力信号を処理してPLP(Perceptual Linear Prediction)係数とゲインを計算するPLP係数計算部と、
前記入力信号が音声(Voiced)信号であるか、非音声(Unvoiced)信号であるかを決定し、前記入力信号が音声信号であると、決定信号と該当音声信号を出力するV/UV決定部と、
前記V/UV決定部から出力された入力信号のピッチを計算するピッチ計算部と、
前記決定信号に基づいて、前記PLP係数、ゲイン、及びピッチを利用して低ビットレートコーディングを行うパラメータコーディング部と
を含むことを特徴とする音声コーディング装置。
(項目2)
前記音声信号は、スピーチ(speech)信号であることを特徴とする項目1に記載の音声コーディング装置。
(項目3)
前記決定信号は、前記入力信号が音声信号であるか又は非音声信号であるかを示すビット値であることを特徴とする項目1に記載の音声コーディング装置。
(項目4)
前記PLP係数の次数は、8kHzサンプリングレート(sampling rate)の場合、7次程度であることを特徴とする項目1に記載の音声コーディング装置。
(項目5)
入力信号を処理してPLP係数とゲインを計算する段階と、
前記入力信号が音声信号であるか、非音声信号であるかを決定し、前記入力信号が音声信号であると、決定信号と音声信号を出力する段階と、
前記V/UV決定部から出力された入力信号のピッチを計算する段階と、
前記決定信号に基づいて、前記PLP係数、ゲイン、及びピッチを利用して低ビットレートコーディングを行う段階と
を含むことを特徴とする移動通信端末機の音声コーディング方法。
(項目6)
前記音声信号は、スピーチ信号であることを特徴とする項目5に記載の移動通信端末機の音声コーディング方法。
(項目7)
前記PLP係数とゲインを計算する段階は、
前記入力信号を高速フーリエ変換する段階と、
前記高速フーリエ変換されたスピーチ信号に対して積分(integration)及びリサンプリング(resampling)を行うことにより、周波数単位で雑音成分を除去する段階と、
前記雑音成分が除去されたスピーチ信号を人間の聴覚に適した大きさの音成分にイコライジング(equalizing)処理及びラウドネス(loudness)補正した後、適正電力にマッチングさせる段階と、
前記電力マッチングされたスピーチ信号を逆離散フーリエ変換して線形方程式系を求める段階と、
前記線形方程式セットに対してケプストラル循環(Cepstral Recursion)処理を行うことにより、PLP係数とゲインを求める段階とから構成されることを特徴とする項目5に記載の移動通信端末機の音声コーディング方法。
(項目8)
前記PLP係数の次数は、8kHzサンプリングレートの場合、7次程度であることを特徴とする項目5に記載の移動通信端末機の音声コーディング方法。
In order to achieve the above object, the present invention provides, for example, the following means.
(Item 1)
In mobile communication terminals,
A PLP coefficient calculation unit that processes an input signal and calculates a PLP (Perceptual Linear Prediction) coefficient and a gain;
A V / UV determination unit that determines whether the input signal is a voice (Voiced) signal or a non-voice (Unvoiced) signal, and outputs the determination signal and the corresponding voice signal if the input signal is a voice signal When,
A pitch calculation unit that calculates the pitch of the input signal output from the V / UV determination unit;
And a parameter coding unit that performs low bit rate coding using the PLP coefficient, gain, and pitch based on the determination signal.
(Item 2)
The speech coding apparatus according to item 1, wherein the speech signal is a speech signal.
(Item 3)
The speech coding apparatus according to item 1, wherein the determination signal is a bit value indicating whether the input signal is a speech signal or a non-speech signal.
(Item 4)
The speech coding apparatus according to item 1, wherein the order of the PLP coefficient is about 7th in the case of an 8 kHz sampling rate.
(Item 5)
Processing the input signal to calculate PLP coefficients and gains;
Determining whether the input signal is an audio signal or a non-audio signal, and outputting the determination signal and the audio signal when the input signal is an audio signal;
Calculating the pitch of the input signal output from the V / UV determining unit;
And performing low bit rate coding using the PLP coefficient, gain, and pitch based on the determination signal.
(Item 6)
The method of claim 5, wherein the voice signal is a speech signal.
(Item 7)
The step of calculating the PLP coefficient and gain includes:
Fast Fourier transforming the input signal;
Removing noise components in units of frequencies by performing integration and resampling on the fast Fourier transformed speech signal;
The speech signal from which the noise component has been removed is subjected to equalizing processing and loudness correction to a sound component having a magnitude suitable for human hearing, and then matched to an appropriate power.
Obtaining a linear equation system by performing inverse discrete Fourier transform on the power-matched speech signal;
6. The voice coding method of a mobile communication terminal according to item 5, comprising a step of obtaining a PLP coefficient and a gain by performing a cepstral circulation process on the linear equation set.
(Item 8)
The method of claim 5, wherein the order of the PLP coefficient is about 7th in the case of an 8 kHz sampling rate.

本発明は、PLP係数を利用してLPCを行うことにより、圧縮率を向上させ、より効率的な低ビットレートで音声信号を伝送できるという効果がある。   The present invention has an effect of improving the compression rate by performing LPC using PLP coefficients and transmitting an audio signal at a more efficient low bit rate.

また、本発明は、PLP係数をパラメータとして使用することにより、既存のLP係数を使用する場合より、高圧縮率を実現でき、高い信号品質を期待できるという効果がある。   In addition, the present invention has an effect that by using the PLP coefficient as a parameter, a higher compression rate can be realized and higher signal quality can be expected than when the existing LP coefficient is used.

従って、本発明は、低ビットレートを利用した音声コーディング及びデコーディングのために使用したり、PLPパラメータを利用して小さい空間で音声合成を行う装置に使用することができる。   Therefore, the present invention can be used for speech coding and decoding using a low bit rate, or for an apparatus that performs speech synthesis in a small space using PLP parameters.

また、本発明は、高音質を必要とはしないが、十分に聞こえる程度のアプリケーションのためのスピーチコーディングに使用されることができる。また、本発明は、メモリが限定されているエンベディッドシステム(embedded system)における高圧縮率でのデータの保存や低ビットレートを要求するインターネットなどにおける音声通話などに効果的である。   In addition, the present invention does not require high sound quality, but can be used for speech coding for applications that are sufficiently audible. In addition, the present invention is effective for storing data at a high compression rate in an embedded system having a limited memory, and for voice calls on the Internet or the like that require a low bit rate.

以下、図面に基づいて、本発明の望ましい実施形態を説明する。   Hereinafter, preferred embodiments of the present invention will be described with reference to the drawings.

本発明は、高圧縮率を有する音声コーディングを行うために、LPCより低い次数のコーディングを行い得るPLPを利用した低ビットレート音声コーディングを提供する。   The present invention provides low bit rate speech coding using PLP that can perform lower-order coding than LPC in order to perform speech coding having a high compression rate.

まず、PLPとLPの相違点は、次の通りである。   First, the differences between PLP and LP are as follows.

前記LPは、公知であるため、それを求める公式は説明を省略する。前記LPは、基本的に次の数1によりMSE(mean squared error)、すなわち、e[n]の値が最小になるようにLP係数aを求める。 Since the LP is known, the formula for obtaining it is not described. The LP basically obtains an LPE ak such that the value of e [n] is minimized by MSE (mean squared error) according to the following equation (1).

Figure 2006039559
前記求められたLP係数aの次数は、8kHzサンプリングレートの場合、8〜12次程度となる。従って、前記求められたLP係数aがLPを利用する各種コーディング(LPC、CELP、MELP、RELP)に使用される。このような内容は、『W.B.Kleijin, and K.K.Paliwal, Speech coding and synthesis, Amsterdam, the Netherlands: Elsevier, 1995』に詳細に記載されている。
Figure 2006039559
The order of the obtained LP coefficient ak is about 8 to 12 in the case of an 8 kHz sampling rate. Therefore, the obtained LP coefficient ak is used for various types of coding (LPC, CELP, MELP, RELP) using LP. Such contents are “W. B. Kleijin, and K.K. K. Paliwal, Speech coding and synthesis, Amsterdam, the Netherlands: Elsevier, 1995.

前記PLPは、1990年にハーマンスキー(Hermansky)の論文に初登場し、既存のMFCC(Mel−Frequency Cepstral Coefficient)と同様に人間の聴覚特性を利用する。従って、本発明は、低ビットレートのためのLPCを行う場合、LP係数の代わりにPLP係数を利用して低ビットレート音声コーディング(LPC)を行う。   The PLP first appeared in a Hermansky paper in 1990, and uses human auditory characteristics in the same way as the existing MFCC (Mel-Frequency Cepstial Coefficient). Accordingly, when performing LPC for a low bit rate, the present invention performs low bit rate speech coding (LPC) using PLP coefficients instead of LP coefficients.

すなわち、本発明は、PLP係数を利用してスペクトルを求める。前記PLP係数は、人間の聴覚特性が反映されているため、これを利用して得られたスペクトルは、MSE的な概念としてはLPより誤差が大きいが、聴覚的特性を考慮した場合は、誤差がより小さくなる。また、LP係数の伝送の場合、一般に、8kHzサンプリングレートにおいて10次程度で伝送されるが、PLP係数の伝送の場合は、7次程度で伝送されるので、ビットレートを低くすることができる。   That is, the present invention obtains a spectrum using the PLP coefficient. Since the PLP coefficient reflects human auditory characteristics, the spectrum obtained using this PLP coefficient has a larger error than LP as an MSE concept. Becomes smaller. In the case of transmission of LP coefficients, transmission is generally performed at the 10th order at the 8 kHz sampling rate. However, in the case of transmission of PLP coefficients, transmission is performed at the seventh order, so that the bit rate can be lowered.

図1は、本発明に係るPLP係数を利用したLPCエンコーダの構成図である。   FIG. 1 is a configuration diagram of an LPC encoder using a PLP coefficient according to the present invention.

図1を参照すると、前記PLP係数を利用したLPCエンコーダは、相関器10を除去し、LP係数計算部11をPLP係数計算部20に代えたことを除くと、図3の従来のLPCエンコーダと同様である。   Referring to FIG. 1, the LPC encoder using the PLP coefficient is the same as the conventional LPC encoder of FIG. 3 except that the correlator 10 is removed and the LP coefficient calculator 11 is replaced with a PLP coefficient calculator 20. It is the same.

PLP係数計算部20は、スピーチ信号S[n]を処理して聴覚特性が考慮されたPLP係数aとゲインGを計算する。 PLP coefficient calculator 20 calculates the PLP coefficient auditory characteristics is considered by processing the speech signal S [n] a P and a gain G.

以下、図面を参照して、このように構成された本発明に係る他のPLP係数を利用したLPCエンコーダの動作を説明する。   Hereinafter, the operation of the LPC encoder using another PLP coefficient according to the present invention configured as described above will be described with reference to the drawings.

まず、PLP係数計算部20は、スピーチ信号S[n]を受信して図2に示す動作を順次行なってPLP係数aPとゲインGを計算する。   First, the PLP coefficient calculation unit 20 receives the speech signal S [n] and sequentially performs the operations shown in FIG. 2 to calculate the PLP coefficient aP and the gain G.

すなわち、PLP係数計算部20は、まずスピーチ信号S[n]である入力信号を高速フーリエ変換(FFT)し、該高速フーリエ変換されたスピーチ信号に対して積分(integration)及びリサンプリング(resampling)を行うことにより、スピーチ信号S[n]から周波数単位で雑音成分を除去する。   That is, the PLP coefficient calculation unit 20 first performs fast Fourier transform (FFT) on the input signal that is the speech signal S [n], and integrates and resampling the fast Fourier transformed speech signal. By performing the above, noise components are removed from the speech signal S [n] in frequency units.

雑音成分が除去されると、PLP係数計算部20は、フーリエ変換されたスピーチ信号を人間の聴覚に適した大きさの音成分にイコライジング(equalizing)処理及びラウドネス(loudness)補正した後、人間の聴取に適した電力にマッチングさせる。   When the noise component is removed, the PLP coefficient calculation unit 20 performs equalizing processing and loudness correction of the Fourier-transformed speech signal to a sound component having a size suitable for human hearing, and then performs human loudness correction. Match power suitable for listening.

前記電力マッチングが完了すると、PLP係数計算部20は、該当スピーチ信号を逆離散フーリエ変換した後、該当スピーチ信号から線形方程式系(Set of Linear equations)を求める。従って、PLP係数計算部20は、前記線形方程式系に対してケプストラル循環(Cepstral Recursion)処理を行うことにより、PLPモデルのケプストラル係数(Cepstral Coefficients)、すなわち、PLP係数aを出力する。すなわち、PLP係数計算部20は、人間の聴覚特性を反映した低い次数のPLP係数aとゲインGをパラメータ値としてパラメータコーディング部23に出力する。 When the power matching is completed, the PLP coefficient calculator 20 performs inverse discrete Fourier transform on the speech signal and then obtains a linear equation system (Set of Linear equations) from the speech signal. Accordingly, the PLP coefficient calculation unit 20 outputs cepstral coefficients of the PLP model, that is, the PLP coefficient a P , by performing cepstral circulation processing on the linear equation system. That, PLP coefficient calculator 20 outputs to the parameter coding unit 23 a PLP coefficient of low reflecting the human auditory characteristics orders a P and a gain G as parameters values.

ここで、V/UV決定部21は、V/UV指示ビットを出力すると共に、スピーチ信号S[n]をピッチ計算部22に伝達し、ピッチ計算部22は、前記スピーチ信号S[n]のピッチPを計算する。   Here, the V / UV determination unit 21 outputs the V / UV instruction bit and transmits the speech signal S [n] to the pitch calculation unit 22, and the pitch calculation unit 22 determines the speech signal S [n]. The pitch P is calculated.

従って、パラメータコーディング部23は、V/UV指示ビット値、PLP係数計算部20とピッチ計算部22から受信したPLP係数a、ゲインG及びピッチPをコーディング(低ビットレートでエンコーディング)してビットストリームを出力する。好ましくは、前記伝送されるPLP係数aの次数は、8kHzサンプリングレートの場合、7次程度となる。以後、制御部(図示せず)は、ビットストリームを処理して無線部(図示せず)に出力し、前記無線部は、制御部から出力された信号を無線信号に変換して伝送する。 Accordingly, the parameter coding unit 23 codes (encodes at a low bit rate) the V / UV instruction bit value, the PLP coefficient a P , the gain G, and the pitch P received from the PLP coefficient calculation unit 20 and the pitch calculation unit 22 to generate bits. Output a stream. Preferably, the order of the PLP coefficient a P is the transmission, in the case of 8kHz sampling rate, the 7 th order. Thereafter, the control unit (not shown) processes the bit stream and outputs it to a radio unit (not shown), and the radio unit converts the signal output from the control unit into a radio signal and transmits it.

以上のように、本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、この実施形態に限定して解釈されるべきものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。   As mentioned above, although this invention has been illustrated using preferable embodiment of this invention, this invention should not be limited and limited to this embodiment. It is understood that the scope of the present invention should be construed only by the claims. It is understood that those skilled in the art can implement an equivalent range based on the description of the present invention and the common general technical knowledge from the description of specific preferred embodiments of the present invention.

PLP(Perceptual Linear Prediction)係数を利用してLPC(Linear Predictive Coding)コーディングを行うことにより、既存のLP係数を使用する場合より高圧縮率を実現でき、高い音質を保障できる移動通信端末機の音声コーディング方法を提供する。   By performing LPC (Linear Predictive Coding) coding using PLP (Perceptual Linear Prediction) coefficients, it is possible to realize a higher compression ratio than when using existing LP coefficients, and the voice of a mobile communication terminal that can guarantee high sound quality Provide a coding method.

移動通信端末機の音声コーディング装置は、入力信号を処理してPLP係数とゲインを計算するPLP係数計算部20と、前記入力信号が音声(Voiced)信号であるか、非音声(Unvoiced)信号であるかを決定し、前記入力信号が音声信号であると、決定信号と該当音声信号を出力するV/UV決定部21と、V/UV決定部21から出力された入力信号のピッチを計算するピッチ計算部22と、前記決定信号に基づいて、前記PLP係数、ゲイン、及びピッチを利用して低ビットレートコーディングを行うパラメータコーディング部23とを含む。   A voice coding apparatus of a mobile communication terminal includes a PLP coefficient calculation unit 20 that processes an input signal to calculate a PLP coefficient and a gain, and the input signal is a voice (Voiced) signal or a non-voiced (Unvoiced) signal. If the input signal is an audio signal, the V / UV determination unit 21 that outputs the determination signal and the corresponding audio signal, and the pitch of the input signal output from the V / UV determination unit 21 are calculated. A pitch calculation unit 22 and a parameter coding unit 23 that performs low bit rate coding using the PLP coefficient, gain, and pitch based on the determination signal are included.

本発明に係るPLP係数を利用したLPCエンコーダの構造を示す図である。It is a figure which shows the structure of the LPC encoder using the PLP coefficient based on this invention. 図1におけるPLP係数を計算する段階を詳細に説明するための図である。It is a figure for demonstrating in detail the step which calculates the PLP coefficient in FIG. 従来のLP係数を利用したLPCエンコーダの構造を示す図である。It is a figure which shows the structure of the LPC encoder using the conventional LP coefficient.

符号の説明Explanation of symbols

20:PLP係数計算部
21:V/UV決定部
22:ピッチ計算部
23:パラメータコーディング部
20: PLP coefficient calculation unit 21: V / UV determination unit 22: Pitch calculation unit 23: Parameter coding unit

Claims (8)

移動通信端末機において、
入力信号を処理してPLP(Perceptual Linear Prediction)係数とゲインを計算するPLP係数計算部と、
前記入力信号が音声(Voiced)信号であるか、非音声(Unvoiced)信号であるかを決定し、前記入力信号が音声信号であると、決定信号と該当音声信号を出力するV/UV決定部と、
前記V/UV決定部から出力された入力信号のピッチを計算するピッチ計算部と、
前記決定信号に基づいて、前記PLP係数、ゲイン、及びピッチを利用して低ビットレートコーディングを行うパラメータコーディング部と
を含むことを特徴とする音声コーディング装置。
In mobile communication terminals,
A PLP coefficient calculation unit that processes an input signal and calculates a PLP (Perceptual Linear Prediction) coefficient and a gain;
A V / UV determination unit that determines whether the input signal is a voice (Voiced) signal or a non-voice (Unvoiced) signal, and outputs the determination signal and the corresponding voice signal when the input signal is a voice signal. When,
A pitch calculation unit that calculates the pitch of the input signal output from the V / UV determination unit;
And a parameter coding unit that performs low bit rate coding using the PLP coefficient, gain, and pitch based on the determination signal.
前記音声信号は、スピーチ(speech)信号であることを特徴とする請求項1に記載の音声コーディング装置。   The speech coding apparatus according to claim 1, wherein the speech signal is a speech signal. 前記決定信号は、前記入力信号が音声信号であるか又は非音声信号であるかを示すビット値であることを特徴とする請求項1に記載の音声コーディング装置。   The speech coding apparatus according to claim 1, wherein the determination signal is a bit value indicating whether the input signal is a speech signal or a non-speech signal. 前記PLP係数の次数は、8kHzサンプリングレート(sampling rate)の場合、7次程度であることを特徴とする請求項1に記載の音声コーディング装置。   The speech coding apparatus according to claim 1, wherein the order of the PLP coefficient is about 7th in the case of an 8 kHz sampling rate. 入力信号を処理してPLP係数とゲインを計算する段階と、
前記入力信号が音声信号であるか、非音声信号であるかを決定し、前記入力信号が音声信号であると、決定信号と音声信号を出力する段階と、
前記V/UV決定部から出力された入力信号のピッチを計算する段階と、
前記決定信号に基づいて、前記PLP係数、ゲイン、及びピッチを利用して低ビットレートコーディングを行う段階と
を含むことを特徴とする移動通信端末機の音声コーディング方法。
Processing the input signal to calculate PLP coefficients and gains;
Determining whether the input signal is an audio signal or a non-audio signal, and outputting the determination signal and the audio signal when the input signal is an audio signal;
Calculating the pitch of the input signal output from the V / UV determining unit;
And performing low bit rate coding using the PLP coefficient, gain, and pitch based on the determination signal.
前記音声信号は、スピーチ信号であることを特徴とする請求項5に記載の移動通信端末機の音声コーディング方法。   The method of claim 5, wherein the voice signal is a speech signal. 前記PLP係数とゲインを計算する段階は、
前記入力信号を高速フーリエ変換する段階と、
前記高速フーリエ変換されたスピーチ信号に対して積分(integration)及びリサンプリング(resampling)を行うことにより、周波数単位で雑音成分を除去する段階と、
前記雑音成分が除去されたスピーチ信号を人間の聴覚に適した大きさの音成分にイコライジング(equalizing)処理及びラウドネス(loudness)補正した後、適正電力にマッチングさせる段階と、
前記電力マッチングされたスピーチ信号を逆離散フーリエ変換して線形方程式系を求める段階と、
前記線形方程式セットに対してケプストラル循環(Cepstral Recursion)処理を行うことにより、PLP係数とゲインを求める段階とから構成されることを特徴とする請求項5に記載の移動通信端末機の音声コーディング方法。
The step of calculating the PLP coefficient and gain includes:
Fast Fourier transforming the input signal;
Removing noise components in units of frequencies by performing integration and resampling on the fast Fourier transformed speech signal;
The speech signal from which the noise component has been removed is subjected to equalizing processing and loudness correction to a sound component having a magnitude suitable for human hearing, and then matched to an appropriate power.
Obtaining a linear equation system by performing inverse discrete Fourier transform on the power-matched speech signal;
6. The voice coding method of a mobile communication terminal according to claim 5, comprising a step of obtaining a PLP coefficient and a gain by performing a cepstral circulation process on the linear equation set. .
前記PLP係数の次数は、8kHzサンプリングレートの場合、7次程度であることを特徴とする請求項5に記載の移動通信端末機の音声コーディング方法。   The method of claim 5, wherein the order of the PLP coefficient is about 7th in the case of an 8 kHz sampling rate.
JP2005213527A 2004-07-23 2005-07-22 Device and method of audio coding using plp of transfer communication terminal Pending JP2006039559A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040057739A KR100619893B1 (en) 2004-07-23 2004-07-23 A method and a apparatus of advanced low bit rate linear prediction coding with plp coefficient for mobile phone

Publications (1)

Publication Number Publication Date
JP2006039559A true JP2006039559A (en) 2006-02-09

Family

ID=36080675

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005213527A Pending JP2006039559A (en) 2004-07-23 2005-07-22 Device and method of audio coding using plp of transfer communication terminal

Country Status (6)

Country Link
EP (1) EP1619665B1 (en)
JP (1) JP2006039559A (en)
KR (1) KR100619893B1 (en)
CN (1) CN1737904A (en)
AT (1) ATE480852T1 (en)
DE (1) DE602005023385D1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7132668B1 (en) * 2021-12-15 2022-09-07 株式会社Peco veterinary telemedicine system

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101475724B1 (en) * 2008-06-09 2014-12-30 삼성전자주식회사 Audio signal quality enhancement apparatus and method
KR20110001130A (en) * 2009-06-29 2011-01-06 삼성전자주식회사 Apparatus and method for encoding and decoding audio signals using weighted linear prediction transform

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002029782A1 (en) * 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
EP1199812A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Perceptually improved encoding of acoustic signals

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7132668B1 (en) * 2021-12-15 2022-09-07 株式会社Peco veterinary telemedicine system
WO2023112226A1 (en) * 2021-12-15 2023-06-22 株式会社Peco Remote medical examination system for animal subject

Also Published As

Publication number Publication date
KR100619893B1 (en) 2006-09-19
EP1619665A1 (en) 2006-01-25
ATE480852T1 (en) 2010-09-15
CN1737904A (en) 2006-02-22
KR20060008078A (en) 2006-01-26
DE602005023385D1 (en) 2010-10-21
EP1619665B1 (en) 2010-09-08

Similar Documents

Publication Publication Date Title
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
EP3416166B1 (en) Processing speech signal using substitute speech data
EP2176860B1 (en) Processing of frames of an audio signal
US10141001B2 (en) Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
JP4270866B2 (en) High performance low bit rate coding method and apparatus for non-speech speech
JP4302978B2 (en) Pseudo high-bandwidth signal estimation system for speech codec
RU2636685C2 (en) Decision on presence/absence of vocalization for speech processing
US20060025991A1 (en) Voice coding apparatus and method using PLP in mobile communications terminal
JP2006502427A (en) Interoperating method between adaptive multirate wideband (AMR-WB) codec and multimode variable bitrate wideband (VMR-WB) codec
EP2954524B1 (en) Systems and methods of performing gain control
EP3055860B1 (en) Gain shape estimation for improved tracking of high-band temporal characteristics
US9418671B2 (en) Adaptive high-pass post-filter
JP2006171751A (en) Speech coding apparatus and method therefor
TW201434033A (en) Systems and methods for determining pitch pulse period signal boundaries
JP2006039559A (en) Device and method of audio coding using plp of transfer communication terminal
Gomez et al. Recognition of coded speech transmitted over wireless channels
JP2018511086A (en) Audio encoder and method for encoding an audio signal
Sun et al. Speech compression
Tan et al. Distributed speech recognition standards

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090306

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090413