JP2006039559A - Device and method of audio coding using plp of transfer communication terminal - Google Patents
Device and method of audio coding using plp of transfer communication terminal Download PDFInfo
- Publication number
- JP2006039559A JP2006039559A JP2005213527A JP2005213527A JP2006039559A JP 2006039559 A JP2006039559 A JP 2006039559A JP 2005213527 A JP2005213527 A JP 2005213527A JP 2005213527 A JP2005213527 A JP 2005213527A JP 2006039559 A JP2006039559 A JP 2006039559A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- plp
- coefficient
- input signal
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Abstract
Description
本発明は、移動通信端末機のコーディングに関し、特に、PLP(Perceptual Linear Prediction)を利用した音声コーディング装置及び方法に関する。 The present invention relates to coding of a mobile communication terminal, and more particularly, to a speech coding apparatus and method using PLP (Perceptual Linear Prediction).
移動通信技術の発展により、現在の移動通信端末機は、音声通信だけでなく、数字、文字及び記号などを利用したデータ通信と、多様な映像信号を含むマルチメディア通信を提供している。多数の端末機使用者は、システムから無線チャンネルが割り当てられた後、無線資源を利用して必要なデータを送受信する。しかしながら、前記無線チャンネルは、多数の使用者が同時に使用可能にするために帯域幅を制限しているため、各使用者のビットレートが制限される。 With the development of mobile communication technology, current mobile communication terminals provide not only voice communication but also data communication using numbers, characters and symbols, and multimedia communication including various video signals. Many terminal users transmit and receive necessary data using radio resources after a radio channel is allocated from the system. However, since the wireless channel has a limited bandwidth so that a large number of users can use it simultaneously, the bit rate of each user is limited.
従って、前記制限されたビットレートでより多くのデータを伝送するための技術としてコーディング技術が提案された。従来の音声コーディング技術には、非常に多様な方法が存在するが、各音声コーディング方法は、所定のビットレートで所定の長所を有する。 Accordingly, a coding technique has been proposed as a technique for transmitting more data at the limited bit rate. There are a wide variety of conventional voice coding techniques, but each voice coding method has predetermined advantages at a predetermined bit rate.
例えば、基準音声コーディング(Generic Audio Coding)を利用したスピーチコーディング(speech coding)、PCM (Pulse Code Modulation)及びADPCM(Adaptive Delta Pulse Code Modulation)は、16Kbps以上の高ビットレートにおいて効果的であり、CELP(Code Excited Linear Prediction)とその各種変形は、2.4Kbps〜16Kbps範囲の中ビットレートにおいて効果的である。特に、前記中ビットレートでは、LD−CELP(Low Delay Code Excited Linear Prediction)、CS−ACELP(Conjugate Structure Algebraic Code Excited Linear Prediction)、VSELP(Vector Sum Excited Linear Prediction)及びMELP(Mixed Excitation Linear Prediction)を利用したコーディング方法と広帯域スピーチコーディング(wideband speech coding) などが使用される。また、LPC(Linear Predictive Coding)、RELP(Residual Excited Linear Prediction)、フォルマントボコーダ(formants vocoder)及びケプストラルボコーダ(Cepstral Vocoder)などは、75bps〜2.4Kbpsの低ビットレートにおいてより多くの長所を有する。 For example, speech coding using standard audio coding (Generic Audio Coding), PCM (Pulse Code Modulation) and ADPCM (Adaptive Delta Pulse Code Modulation) are effective at a high bit rate of 16 Kbps or more, and P is effective. (Code Excited Linear Prediction) and various modifications thereof are effective at medium bit rates in the range of 2.4 Kbps to 16 Kbps. In particular, at the above-mentioned medium bit rates, LD-CELP (Low Delay Code Excited Linear Prediction), CS-ACELP (Conjugate Structure Excite Linear Excited Linear Prediction), and VSELP (Vex. The coding method used and wideband speech coding are used. In addition, LPC (Linear Predictive Coding), RELP (Residual Excited Linear Prediction), Formant vocoder, Cepstral vocoder (Cepstral Vocoder), etc., which has a bit rate from 75 bps to 2. Have.
ここで、本発明は、低ビットレートで使用されるコーディングのうち線形予測コーディング(Linear Predictive Coding: 以下、LPCと称する)の改善方法を提案している。 Here, the present invention proposes an improvement method of linear predictive coding (hereinafter referred to as LPC) among codings used at a low bit rate.
図3は、従来のLPCエンコーダの構成図である。 FIG. 3 is a configuration diagram of a conventional LPC encoder.
図3に示すように、従来のLPCエンコーダは、入力信号x[n]の自己相関(autocorrelation)値rx[n]を計算する相関器10と、前記自己相関値rx[n]を処理して線形予測係数(Linear Prediction Coefficient: 以下、LP係数という)aLとゲインGを計算するLP係数計算部11と、入力信号x[n]が音声(Voiced:V)信号であるか、非音声(Unvoiced: UV)信号であるかを決定するV/UV決定部12と、前記入力信号x[n]が音声(V)信号である場合、該当信号のピッチPを計算するピッチ計算部13と、V/UV決定部12から出力されたV/UV指示ビット(Indication bit)によりLP係数計算部11とピッチ計算部13から受信したLP係数an、ゲインG及びピッチPをコーディングしてビットストリームを出力するパラメータコーディング部14とから構成される。
As shown in FIG. 3, a conventional LPC encoder processes a
以下、このように構成された従来のLPCエンコーダの動作を説明する。 Hereinafter, the operation of the conventional LPC encoder configured as described above will be described.
まず、相関器10は、入力信号x[n]を自己相関し、LP係数計算部11は、相関器10により計算された自己相関値rx[n]を処理してLP係数anとゲインGを計算する。ここで、V/UV決定部12は、入力信号x[n]が音声(V)信号であるか、非音声(UV)信号であるかを決定してV/UV指示ビットと音声(V)信号を出力し、ピッチ計算部13は、V/UV決定部12から出力された音声(V)信号のピッチPを計算する。
First, the
従って、パラメータコーディング部14は、V/UV指示ビットが音声(V)信号を示す場合、LP係数計算部11とピッチ計算部13から受信したLP係数an、ゲインG及びピッチPをパラメータコーディング(低ビットレートでエンコーディング)してビットストリームを出力する。その後、制御部(図示せず)は、ビットストリームを処理して無線部(図示せず)に出力し、前記無線部は、前記制御部から出力された信号を無線信号に変換して伝送する。
Accordingly, when the V / UV instruction bit indicates a voice (V) signal, the
このように、移動通信端末機において音声信号を低ビットレートで伝送するために、従来技術では、LPCコーディングを行う。しかしながら、従来のLPCコーディングは、通常LP係数を利用するため、人間の聴覚特性が考慮されない。従って、低ビットレートで動作する従来のLPCコーディングの場合は、圧縮効率が低く(1200kbps〜2400kbps)、音質が悪いという短所があった。 In this way, in order to transmit the audio signal at a low bit rate in the mobile communication terminal, the conventional technique performs LPC coding. However, since conventional LPC coding normally uses LP coefficients, human auditory characteristics are not considered. Therefore, the conventional LPC coding that operates at a low bit rate has the disadvantages that the compression efficiency is low (1200 kbps to 2400 kbps) and the sound quality is poor.
本発明の目的は、PLP係数を利用してLPCコーディングを行うことにより、圧縮効率及び音質を向上させる移動通信端末機の音声コーディング装置及び方法を提供することにある。 An object of the present invention is to provide a voice coding apparatus and method for a mobile communication terminal that improves compression efficiency and sound quality by performing LPC coding using PLP coefficients.
このような目的を達成するために、本発明に係る移動通信端末機のLPCエンコーダは、入力信号を処理してPLP係数とゲインを計算するPLP係数計算部と、前記入力信号が音声信号であるか、非音声信号であるかを決定し、前記入力信号が音声信号であると、前記決定信号と該当音声信号を出力するV/UV決定部と、前記V/UV決定部から出力された入力信号のピッチを計算するピッチ計算部と、前記決定信号に基づいて、前記PLP係数、ゲイン及びピッチを利用して低ビットレートコーディングを行うパラメータコーディング部とを含むことを特徴とする。 In order to achieve such an object, an LPC encoder of a mobile communication terminal according to the present invention includes a PLP coefficient calculation unit that processes an input signal to calculate a PLP coefficient and a gain, and the input signal is an audio signal. Or a non-audio signal, and if the input signal is an audio signal, a V / UV determination unit that outputs the determination signal and the corresponding audio signal, and an input output from the V / UV determination unit A pitch calculating unit that calculates a pitch of a signal, and a parameter coding unit that performs low bit rate coding using the PLP coefficient, gain, and pitch based on the determination signal.
このような目的を達成するために、本発明に係る移動通信端末機の低ビットレート音声コーディング方法は、入力信号を処理してPLP係数とゲインを計算する段階と、前記入力信号が音声信号であるか、非音声信号であるかを決定し、前記入力信号が音声信号であると、前記決定信号と音声信号を出力する段階と、前記V/UV決定部から出力された入力信号のピッチを計算する段階と、前記決定信号に基づいて、前記PLP係数、ゲイン及びピッチを利用して低ビットレートコーディングを行う段階とを含むことを特徴とする。 In order to achieve the above object, a low bit rate speech coding method for a mobile communication terminal according to the present invention includes a step of processing an input signal to calculate a PLP coefficient and a gain, and the input signal is a speech signal. Determining whether the input signal is an audio signal, and outputting the determination signal and the audio signal; and determining a pitch of the input signal output from the V / UV determination unit. Calculating, and performing low bit rate coding using the PLP coefficient, gain, and pitch based on the decision signal.
好ましくは、前記音声信号はスピーチ信号である。 Preferably, the audio signal is a speech signal.
好ましくは、前記PLP係数の次数は、8kHzサンプリングレート(sampling rate)の場合、7次程度である。 Preferably, the order of the PLP coefficient is about the 7th order in the case of an 8 kHz sampling rate.
上記目的を達成するために、本発明は、例えば、以下の手段を提供する。
(項目1)
移動通信端末機において、
入力信号を処理してPLP(Perceptual Linear Prediction)係数とゲインを計算するPLP係数計算部と、
前記入力信号が音声(Voiced)信号であるか、非音声(Unvoiced)信号であるかを決定し、前記入力信号が音声信号であると、決定信号と該当音声信号を出力するV/UV決定部と、
前記V/UV決定部から出力された入力信号のピッチを計算するピッチ計算部と、
前記決定信号に基づいて、前記PLP係数、ゲイン、及びピッチを利用して低ビットレートコーディングを行うパラメータコーディング部と
を含むことを特徴とする音声コーディング装置。
(項目2)
前記音声信号は、スピーチ(speech)信号であることを特徴とする項目1に記載の音声コーディング装置。
(項目3)
前記決定信号は、前記入力信号が音声信号であるか又は非音声信号であるかを示すビット値であることを特徴とする項目1に記載の音声コーディング装置。
(項目4)
前記PLP係数の次数は、8kHzサンプリングレート(sampling rate)の場合、7次程度であることを特徴とする項目1に記載の音声コーディング装置。
(項目5)
入力信号を処理してPLP係数とゲインを計算する段階と、
前記入力信号が音声信号であるか、非音声信号であるかを決定し、前記入力信号が音声信号であると、決定信号と音声信号を出力する段階と、
前記V/UV決定部から出力された入力信号のピッチを計算する段階と、
前記決定信号に基づいて、前記PLP係数、ゲイン、及びピッチを利用して低ビットレートコーディングを行う段階と
を含むことを特徴とする移動通信端末機の音声コーディング方法。
(項目6)
前記音声信号は、スピーチ信号であることを特徴とする項目5に記載の移動通信端末機の音声コーディング方法。
(項目7)
前記PLP係数とゲインを計算する段階は、
前記入力信号を高速フーリエ変換する段階と、
前記高速フーリエ変換されたスピーチ信号に対して積分(integration)及びリサンプリング(resampling)を行うことにより、周波数単位で雑音成分を除去する段階と、
前記雑音成分が除去されたスピーチ信号を人間の聴覚に適した大きさの音成分にイコライジング(equalizing)処理及びラウドネス(loudness)補正した後、適正電力にマッチングさせる段階と、
前記電力マッチングされたスピーチ信号を逆離散フーリエ変換して線形方程式系を求める段階と、
前記線形方程式セットに対してケプストラル循環(Cepstral Recursion)処理を行うことにより、PLP係数とゲインを求める段階とから構成されることを特徴とする項目5に記載の移動通信端末機の音声コーディング方法。
(項目8)
前記PLP係数の次数は、8kHzサンプリングレートの場合、7次程度であることを特徴とする項目5に記載の移動通信端末機の音声コーディング方法。
In order to achieve the above object, the present invention provides, for example, the following means.
(Item 1)
In mobile communication terminals,
A PLP coefficient calculation unit that processes an input signal and calculates a PLP (Perceptual Linear Prediction) coefficient and a gain;
A V / UV determination unit that determines whether the input signal is a voice (Voiced) signal or a non-voice (Unvoiced) signal, and outputs the determination signal and the corresponding voice signal if the input signal is a voice signal When,
A pitch calculation unit that calculates the pitch of the input signal output from the V / UV determination unit;
And a parameter coding unit that performs low bit rate coding using the PLP coefficient, gain, and pitch based on the determination signal.
(Item 2)
The speech coding apparatus according to item 1, wherein the speech signal is a speech signal.
(Item 3)
The speech coding apparatus according to item 1, wherein the determination signal is a bit value indicating whether the input signal is a speech signal or a non-speech signal.
(Item 4)
The speech coding apparatus according to item 1, wherein the order of the PLP coefficient is about 7th in the case of an 8 kHz sampling rate.
(Item 5)
Processing the input signal to calculate PLP coefficients and gains;
Determining whether the input signal is an audio signal or a non-audio signal, and outputting the determination signal and the audio signal when the input signal is an audio signal;
Calculating the pitch of the input signal output from the V / UV determining unit;
And performing low bit rate coding using the PLP coefficient, gain, and pitch based on the determination signal.
(Item 6)
The method of claim 5, wherein the voice signal is a speech signal.
(Item 7)
The step of calculating the PLP coefficient and gain includes:
Fast Fourier transforming the input signal;
Removing noise components in units of frequencies by performing integration and resampling on the fast Fourier transformed speech signal;
The speech signal from which the noise component has been removed is subjected to equalizing processing and loudness correction to a sound component having a magnitude suitable for human hearing, and then matched to an appropriate power.
Obtaining a linear equation system by performing inverse discrete Fourier transform on the power-matched speech signal;
6. The voice coding method of a mobile communication terminal according to item 5, comprising a step of obtaining a PLP coefficient and a gain by performing a cepstral circulation process on the linear equation set.
(Item 8)
The method of claim 5, wherein the order of the PLP coefficient is about 7th in the case of an 8 kHz sampling rate.
本発明は、PLP係数を利用してLPCを行うことにより、圧縮率を向上させ、より効率的な低ビットレートで音声信号を伝送できるという効果がある。 The present invention has an effect of improving the compression rate by performing LPC using PLP coefficients and transmitting an audio signal at a more efficient low bit rate.
また、本発明は、PLP係数をパラメータとして使用することにより、既存のLP係数を使用する場合より、高圧縮率を実現でき、高い信号品質を期待できるという効果がある。 In addition, the present invention has an effect that by using the PLP coefficient as a parameter, a higher compression rate can be realized and higher signal quality can be expected than when the existing LP coefficient is used.
従って、本発明は、低ビットレートを利用した音声コーディング及びデコーディングのために使用したり、PLPパラメータを利用して小さい空間で音声合成を行う装置に使用することができる。 Therefore, the present invention can be used for speech coding and decoding using a low bit rate, or for an apparatus that performs speech synthesis in a small space using PLP parameters.
また、本発明は、高音質を必要とはしないが、十分に聞こえる程度のアプリケーションのためのスピーチコーディングに使用されることができる。また、本発明は、メモリが限定されているエンベディッドシステム(embedded system)における高圧縮率でのデータの保存や低ビットレートを要求するインターネットなどにおける音声通話などに効果的である。 In addition, the present invention does not require high sound quality, but can be used for speech coding for applications that are sufficiently audible. In addition, the present invention is effective for storing data at a high compression rate in an embedded system having a limited memory, and for voice calls on the Internet or the like that require a low bit rate.
以下、図面に基づいて、本発明の望ましい実施形態を説明する。 Hereinafter, preferred embodiments of the present invention will be described with reference to the drawings.
本発明は、高圧縮率を有する音声コーディングを行うために、LPCより低い次数のコーディングを行い得るPLPを利用した低ビットレート音声コーディングを提供する。 The present invention provides low bit rate speech coding using PLP that can perform lower-order coding than LPC in order to perform speech coding having a high compression rate.
まず、PLPとLPの相違点は、次の通りである。 First, the differences between PLP and LP are as follows.
前記LPは、公知であるため、それを求める公式は説明を省略する。前記LPは、基本的に次の数1によりMSE(mean squared error)、すなわち、e[n]の値が最小になるようにLP係数akを求める。 Since the LP is known, the formula for obtaining it is not described. The LP basically obtains an LPE ak such that the value of e [n] is minimized by MSE (mean squared error) according to the following equation (1).
前記PLPは、1990年にハーマンスキー(Hermansky)の論文に初登場し、既存のMFCC(Mel−Frequency Cepstral Coefficient)と同様に人間の聴覚特性を利用する。従って、本発明は、低ビットレートのためのLPCを行う場合、LP係数の代わりにPLP係数を利用して低ビットレート音声コーディング(LPC)を行う。 The PLP first appeared in a Hermansky paper in 1990, and uses human auditory characteristics in the same way as the existing MFCC (Mel-Frequency Cepstial Coefficient). Accordingly, when performing LPC for a low bit rate, the present invention performs low bit rate speech coding (LPC) using PLP coefficients instead of LP coefficients.
すなわち、本発明は、PLP係数を利用してスペクトルを求める。前記PLP係数は、人間の聴覚特性が反映されているため、これを利用して得られたスペクトルは、MSE的な概念としてはLPより誤差が大きいが、聴覚的特性を考慮した場合は、誤差がより小さくなる。また、LP係数の伝送の場合、一般に、8kHzサンプリングレートにおいて10次程度で伝送されるが、PLP係数の伝送の場合は、7次程度で伝送されるので、ビットレートを低くすることができる。 That is, the present invention obtains a spectrum using the PLP coefficient. Since the PLP coefficient reflects human auditory characteristics, the spectrum obtained using this PLP coefficient has a larger error than LP as an MSE concept. Becomes smaller. In the case of transmission of LP coefficients, transmission is generally performed at the 10th order at the 8 kHz sampling rate. However, in the case of transmission of PLP coefficients, transmission is performed at the seventh order, so that the bit rate can be lowered.
図1は、本発明に係るPLP係数を利用したLPCエンコーダの構成図である。 FIG. 1 is a configuration diagram of an LPC encoder using a PLP coefficient according to the present invention.
図1を参照すると、前記PLP係数を利用したLPCエンコーダは、相関器10を除去し、LP係数計算部11をPLP係数計算部20に代えたことを除くと、図3の従来のLPCエンコーダと同様である。
Referring to FIG. 1, the LPC encoder using the PLP coefficient is the same as the conventional LPC encoder of FIG. 3 except that the
PLP係数計算部20は、スピーチ信号S[n]を処理して聴覚特性が考慮されたPLP係数aPとゲインGを計算する。
以下、図面を参照して、このように構成された本発明に係る他のPLP係数を利用したLPCエンコーダの動作を説明する。 Hereinafter, the operation of the LPC encoder using another PLP coefficient according to the present invention configured as described above will be described with reference to the drawings.
まず、PLP係数計算部20は、スピーチ信号S[n]を受信して図2に示す動作を順次行なってPLP係数aPとゲインGを計算する。
First, the PLP
すなわち、PLP係数計算部20は、まずスピーチ信号S[n]である入力信号を高速フーリエ変換(FFT)し、該高速フーリエ変換されたスピーチ信号に対して積分(integration)及びリサンプリング(resampling)を行うことにより、スピーチ信号S[n]から周波数単位で雑音成分を除去する。
That is, the PLP
雑音成分が除去されると、PLP係数計算部20は、フーリエ変換されたスピーチ信号を人間の聴覚に適した大きさの音成分にイコライジング(equalizing)処理及びラウドネス(loudness)補正した後、人間の聴取に適した電力にマッチングさせる。
When the noise component is removed, the PLP
前記電力マッチングが完了すると、PLP係数計算部20は、該当スピーチ信号を逆離散フーリエ変換した後、該当スピーチ信号から線形方程式系(Set of Linear equations)を求める。従って、PLP係数計算部20は、前記線形方程式系に対してケプストラル循環(Cepstral Recursion)処理を行うことにより、PLPモデルのケプストラル係数(Cepstral Coefficients)、すなわち、PLP係数aPを出力する。すなわち、PLP係数計算部20は、人間の聴覚特性を反映した低い次数のPLP係数aPとゲインGをパラメータ値としてパラメータコーディング部23に出力する。
When the power matching is completed, the
ここで、V/UV決定部21は、V/UV指示ビットを出力すると共に、スピーチ信号S[n]をピッチ計算部22に伝達し、ピッチ計算部22は、前記スピーチ信号S[n]のピッチPを計算する。
Here, the V /
従って、パラメータコーディング部23は、V/UV指示ビット値、PLP係数計算部20とピッチ計算部22から受信したPLP係数aP、ゲインG及びピッチPをコーディング(低ビットレートでエンコーディング)してビットストリームを出力する。好ましくは、前記伝送されるPLP係数aPの次数は、8kHzサンプリングレートの場合、7次程度となる。以後、制御部(図示せず)は、ビットストリームを処理して無線部(図示せず)に出力し、前記無線部は、制御部から出力された信号を無線信号に変換して伝送する。
Accordingly, the
以上のように、本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、この実施形態に限定して解釈されるべきものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。 As mentioned above, although this invention has been illustrated using preferable embodiment of this invention, this invention should not be limited and limited to this embodiment. It is understood that the scope of the present invention should be construed only by the claims. It is understood that those skilled in the art can implement an equivalent range based on the description of the present invention and the common general technical knowledge from the description of specific preferred embodiments of the present invention.
PLP(Perceptual Linear Prediction)係数を利用してLPC(Linear Predictive Coding)コーディングを行うことにより、既存のLP係数を使用する場合より高圧縮率を実現でき、高い音質を保障できる移動通信端末機の音声コーディング方法を提供する。 By performing LPC (Linear Predictive Coding) coding using PLP (Perceptual Linear Prediction) coefficients, it is possible to realize a higher compression ratio than when using existing LP coefficients, and the voice of a mobile communication terminal that can guarantee high sound quality Provide a coding method.
移動通信端末機の音声コーディング装置は、入力信号を処理してPLP係数とゲインを計算するPLP係数計算部20と、前記入力信号が音声(Voiced)信号であるか、非音声(Unvoiced)信号であるかを決定し、前記入力信号が音声信号であると、決定信号と該当音声信号を出力するV/UV決定部21と、V/UV決定部21から出力された入力信号のピッチを計算するピッチ計算部22と、前記決定信号に基づいて、前記PLP係数、ゲイン、及びピッチを利用して低ビットレートコーディングを行うパラメータコーディング部23とを含む。
A voice coding apparatus of a mobile communication terminal includes a PLP
20:PLP係数計算部
21:V/UV決定部
22:ピッチ計算部
23:パラメータコーディング部
20: PLP coefficient calculation unit 21: V / UV determination unit 22: Pitch calculation unit 23: Parameter coding unit
Claims (8)
入力信号を処理してPLP(Perceptual Linear Prediction)係数とゲインを計算するPLP係数計算部と、
前記入力信号が音声(Voiced)信号であるか、非音声(Unvoiced)信号であるかを決定し、前記入力信号が音声信号であると、決定信号と該当音声信号を出力するV/UV決定部と、
前記V/UV決定部から出力された入力信号のピッチを計算するピッチ計算部と、
前記決定信号に基づいて、前記PLP係数、ゲイン、及びピッチを利用して低ビットレートコーディングを行うパラメータコーディング部と
を含むことを特徴とする音声コーディング装置。 In mobile communication terminals,
A PLP coefficient calculation unit that processes an input signal and calculates a PLP (Perceptual Linear Prediction) coefficient and a gain;
A V / UV determination unit that determines whether the input signal is a voice (Voiced) signal or a non-voice (Unvoiced) signal, and outputs the determination signal and the corresponding voice signal when the input signal is a voice signal. When,
A pitch calculation unit that calculates the pitch of the input signal output from the V / UV determination unit;
And a parameter coding unit that performs low bit rate coding using the PLP coefficient, gain, and pitch based on the determination signal.
前記入力信号が音声信号であるか、非音声信号であるかを決定し、前記入力信号が音声信号であると、決定信号と音声信号を出力する段階と、
前記V/UV決定部から出力された入力信号のピッチを計算する段階と、
前記決定信号に基づいて、前記PLP係数、ゲイン、及びピッチを利用して低ビットレートコーディングを行う段階と
を含むことを特徴とする移動通信端末機の音声コーディング方法。 Processing the input signal to calculate PLP coefficients and gains;
Determining whether the input signal is an audio signal or a non-audio signal, and outputting the determination signal and the audio signal when the input signal is an audio signal;
Calculating the pitch of the input signal output from the V / UV determining unit;
And performing low bit rate coding using the PLP coefficient, gain, and pitch based on the determination signal.
前記入力信号を高速フーリエ変換する段階と、
前記高速フーリエ変換されたスピーチ信号に対して積分(integration)及びリサンプリング(resampling)を行うことにより、周波数単位で雑音成分を除去する段階と、
前記雑音成分が除去されたスピーチ信号を人間の聴覚に適した大きさの音成分にイコライジング(equalizing)処理及びラウドネス(loudness)補正した後、適正電力にマッチングさせる段階と、
前記電力マッチングされたスピーチ信号を逆離散フーリエ変換して線形方程式系を求める段階と、
前記線形方程式セットに対してケプストラル循環(Cepstral Recursion)処理を行うことにより、PLP係数とゲインを求める段階とから構成されることを特徴とする請求項5に記載の移動通信端末機の音声コーディング方法。 The step of calculating the PLP coefficient and gain includes:
Fast Fourier transforming the input signal;
Removing noise components in units of frequencies by performing integration and resampling on the fast Fourier transformed speech signal;
The speech signal from which the noise component has been removed is subjected to equalizing processing and loudness correction to a sound component having a magnitude suitable for human hearing, and then matched to an appropriate power.
Obtaining a linear equation system by performing inverse discrete Fourier transform on the power-matched speech signal;
6. The voice coding method of a mobile communication terminal according to claim 5, comprising a step of obtaining a PLP coefficient and a gain by performing a cepstral circulation process on the linear equation set. .
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040057739A KR100619893B1 (en) | 2004-07-23 | 2004-07-23 | A method and a apparatus of advanced low bit rate linear prediction coding with plp coefficient for mobile phone |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006039559A true JP2006039559A (en) | 2006-02-09 |
Family
ID=36080675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005213527A Pending JP2006039559A (en) | 2004-07-23 | 2005-07-22 | Device and method of audio coding using plp of transfer communication terminal |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP1619665B1 (en) |
JP (1) | JP2006039559A (en) |
KR (1) | KR100619893B1 (en) |
CN (1) | CN1737904A (en) |
AT (1) | ATE480852T1 (en) |
DE (1) | DE602005023385D1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7132668B1 (en) * | 2021-12-15 | 2022-09-07 | 株式会社Peco | veterinary telemedicine system |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101475724B1 (en) * | 2008-06-09 | 2014-12-30 | 삼성전자주식회사 | Audio signal quality enhancement apparatus and method |
KR20110001130A (en) * | 2009-06-29 | 2011-01-06 | 삼성전자주식회사 | Apparatus and method for encoding and decoding audio signals using weighted linear prediction transform |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002029782A1 (en) * | 2000-10-02 | 2002-04-11 | The Regents Of The University Of California | Perceptual harmonic cepstral coefficients as the front-end for speech recognition |
EP1199812A1 (en) * | 2000-10-20 | 2002-04-24 | Telefonaktiebolaget Lm Ericsson | Perceptually improved encoding of acoustic signals |
-
2004
- 2004-07-23 KR KR1020040057739A patent/KR100619893B1/en not_active IP Right Cessation
-
2005
- 2005-07-22 AT AT05015989T patent/ATE480852T1/en not_active IP Right Cessation
- 2005-07-22 DE DE602005023385T patent/DE602005023385D1/en active Active
- 2005-07-22 EP EP05015989A patent/EP1619665B1/en not_active Not-in-force
- 2005-07-22 JP JP2005213527A patent/JP2006039559A/en active Pending
- 2005-07-25 CN CNA2005101098544A patent/CN1737904A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7132668B1 (en) * | 2021-12-15 | 2022-09-07 | 株式会社Peco | veterinary telemedicine system |
WO2023112226A1 (en) * | 2021-12-15 | 2023-06-22 | 株式会社Peco | Remote medical examination system for animal subject |
Also Published As
Publication number | Publication date |
---|---|
KR100619893B1 (en) | 2006-09-19 |
EP1619665A1 (en) | 2006-01-25 |
ATE480852T1 (en) | 2010-09-15 |
CN1737904A (en) | 2006-02-22 |
KR20060008078A (en) | 2006-01-26 |
DE602005023385D1 (en) | 2010-10-21 |
EP1619665B1 (en) | 2010-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10885926B2 (en) | Classification between time-domain coding and frequency domain coding for high bit rates | |
EP3416166B1 (en) | Processing speech signal using substitute speech data | |
EP2176860B1 (en) | Processing of frames of an audio signal | |
US10141001B2 (en) | Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding | |
JP4270866B2 (en) | High performance low bit rate coding method and apparatus for non-speech speech | |
JP4302978B2 (en) | Pseudo high-bandwidth signal estimation system for speech codec | |
RU2636685C2 (en) | Decision on presence/absence of vocalization for speech processing | |
US20060025991A1 (en) | Voice coding apparatus and method using PLP in mobile communications terminal | |
JP2006502427A (en) | Interoperating method between adaptive multirate wideband (AMR-WB) codec and multimode variable bitrate wideband (VMR-WB) codec | |
EP2954524B1 (en) | Systems and methods of performing gain control | |
EP3055860B1 (en) | Gain shape estimation for improved tracking of high-band temporal characteristics | |
US9418671B2 (en) | Adaptive high-pass post-filter | |
JP2006171751A (en) | Speech coding apparatus and method therefor | |
TW201434033A (en) | Systems and methods for determining pitch pulse period signal boundaries | |
JP2006039559A (en) | Device and method of audio coding using plp of transfer communication terminal | |
Gomez et al. | Recognition of coded speech transmitted over wireless channels | |
JP2018511086A (en) | Audio encoder and method for encoding an audio signal | |
Sun et al. | Speech compression | |
Tan et al. | Distributed speech recognition standards |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090306 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090413 |