JP3211762B2 - Audio and music coding - Google Patents

Audio and music coding

Info

Publication number
JP3211762B2
JP3211762B2 JP36279797A JP36279797A JP3211762B2 JP 3211762 B2 JP3211762 B2 JP 3211762B2 JP 36279797 A JP36279797 A JP 36279797A JP 36279797 A JP36279797 A JP 36279797A JP 3211762 B2 JP3211762 B2 JP 3211762B2
Authority
JP
Japan
Prior art keywords
code
music
encoding
speech
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP36279797A
Other languages
Japanese (ja)
Other versions
JPH11175098A (en
Inventor
鋼一 柴垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP36279797A priority Critical patent/JP3211762B2/en
Publication of JPH11175098A publication Critical patent/JPH11175098A/en
Application granted granted Critical
Publication of JP3211762B2 publication Critical patent/JP3211762B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声符号化方式に
関し、音声と音楽の両方に対して、各々必要最小限なビ
ットレートで高能率かつ高品質に符号化する方式に関す
るものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech encoding system, and more particularly to a system for encoding both speech and music with high efficiency and high quality at a minimum necessary bit rate.

【0002】[0002]

【従来の技術】音声に背景雑音や音楽等が加わっても自
然な復号音を得る符号励振線形予測音声符号化装置とし
て、例えば特開平8−123493号公報には、コード
ブック(符号帳)を複数のサブコードブックで構成し、
各サブコードブックは、雑音を含まない音声を用いて学
習した信号源ベクトルからなる音声部と、音声以外の非
音声を利用して学習した信号源ベクトルまたは学習を行
わないランダム信号源ベクトルから構成される非音声部
を備えて構成し、コードブック探索を行い、これによっ
て、音声品質を向上させる。
2. Description of the Related Art As a code-excited linear predictive speech coding apparatus for obtaining a natural decoded sound even when background noise or music is added to speech, for example, Japanese Patent Application Laid-Open No. 8-123493 discloses a codebook (codebook). Consists of multiple subcodebooks,
Each sub-codebook is composed of a speech part consisting of a signal source vector learned using speech without noise and a signal source vector learned using non-speech other than speech or a random signal source vector not learning. And a codebook search is performed, thereby improving the voice quality.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、従来の
コード駆動線形予測音声符号化方式は下記記載の問題点
を有している。
However, the conventional code-driven linear predictive speech coding system has the following problems.

【0004】第1の問題点は、従来のコード駆動線形予
測音声符号化方式を用いて音楽を符号化再生すると、音
質の劣化が大きい、ということである。
[0004] The first problem is that when music is encoded and reproduced using the conventional code-driven linear predictive speech encoding method, the sound quality is greatly deteriorated.

【0005】その理由は、従来のコード駆動線形予測音
声符号化方式は、音声合成モデルに基づく音声を対象と
した線形予測音声符号化方式である、ためである。
[0005] The reason is that the conventional code-driven linear predictive speech coding method is a linear predictive speech coding method for speech based on a speech synthesis model.

【0006】第2の問題点は、従来の音楽符号化方式
は、音声を符号化再生すると、品質はよいが、音声符号
化方式に比べて、符号化効率が悪い、という。
The second problem is that the conventional music encoding system has good quality when encoding and reproducing audio, but has a lower encoding efficiency than the audio encoding system.

【0007】その理由は、音声符号化方式に比べて、ビ
ットレートが必要以上に高くなるためである。
[0007] The reason is that the bit rate becomes higher than necessary compared to the speech coding method.

【0008】したがって、本発明は、上記問題点に鑑み
てなされたものであって、その目的は、音声と音楽の両
方に対して、各々必要最小限なビットレートで高能率か
つ高品質に符号化する、音声及び音楽符号化方式を提供
することにある。
SUMMARY OF THE INVENTION Accordingly, the present invention has been made in view of the above-described problems, and has as its object to provide a high-efficiency and high-quality code for both speech and music at the minimum necessary bit rate. To provide a voice and music encoding system.

【0009】[0009]

【課題を解決するための手段】前記目的を達成するた
め、本発明の音声及び音楽符号化方式は、入力信号のコ
ード駆動線形予測音声符号化を行い前記入力音声と再生
音声の誤差が予め定めたしきい値よりも小さい間はコー
ド駆動線形予測音声符号化を続けて選択し、一方、前記
入力信号と再生音声の誤差が予め定めたしきい値よりも
大でコード駆動線形予測音声符号化方式で十分に高品質
に符号化できないと判定した場合次のフレームから音楽
符号化を選択する手段を備えたことを特徴とする。以下
本発明をその好ましい実施の形態に即して説明する。
In order to achieve the above object, a speech and music encoding system according to the present invention performs code-driven linear predictive speech encoding of an input signal, and an error between the input speech and reproduced speech is determined in advance. While the code-driven linear predictive speech coding is continuously selected while the difference between the input signal and the reproduced voice is larger than a predetermined threshold while the code-driven linear predictive speech coding is performed. If it is determined that the encoding cannot be performed with sufficiently high quality by the method, a means for selecting music encoding from the next frame is provided. Hereinafter, the present invention will be described in accordance with preferred embodiments.

【0010】[0010]

【発明の実施の形態】本発明は、その好ましい実施の形
態において、入力音声信号を線形予測分析して合成フィ
ルタ係数を求める線形予測分析手段(図1の1)と、前
記入力音声信号よりピッチ情報を算出する手段(図1の
2)と、前記ピッチ情報で構成されるピッチ再生フィル
タと前記合成フィルタの縦続フィルタをコードブック
(図1の4)に含まれるコードで駆動することによって
得られる合成音声と、前記入力音声信号の誤差信号が最
小になるように、前記コードブックを探索してコードを
決定するコードブック探索手段(図1の3)と、前記合
成フィルタ係数と前記ピッチ情報と前記決定されたコー
ドに対応するコード番号を符号化する手段(図1の5)
と、からなるコード駆動線形予測音声符号化手段と、入
力信号を音楽符号化する手段(図1の7)と、入力信号
のパワーを検出する手段(図1の8)と、を備え、始め
に、前記コード駆動線形予測音声符号化手段で符号化を
行い、前記誤差信号が第一のしきい値を超えない間は前
記コード駆動線形予測音声符号化手段で符号化を行い、
前記誤差信号が前記第一のしきい値を超えた場合には前
記入力音声信号に対し音楽符号化を行うように切り換
え、前記入力音声信号のパワーが第二のしきい値以下に
なったなら、前記コード駆動線形予測音声符号化手段で
符号化を行うように切り換えると共に、前記コード駆動
線形予測音声符号化と前記音楽符号化のいずれが選択さ
れたかを示す選択信号と、選択された符号とを多重化し
て出力する手段(図1の6)と、を備える。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS In a preferred embodiment of the present invention, a linear prediction analysis means (1 in FIG. 1) for linearly analyzing an input speech signal to obtain a synthesis filter coefficient, and It is obtained by driving a means for calculating information (2 in FIG. 1), a pitch reproduction filter composed of the pitch information, and a cascade filter of the synthesis filter with a code included in a codebook (4 in FIG. 1). Codebook searching means (3 in FIG. 1) for searching the codebook and determining a code so that an error signal of the input voice signal is minimized; Means for encoding a code number corresponding to the determined code (5 in FIG. 1)
, A code-driven linear predictive speech encoding means comprising: a means for encoding an input signal into music (7 in FIG. 1); and a means for detecting the power of the input signal (8 in FIG. 1). In the code-driven linear predictive speech encoding means performs encoding, while the error signal does not exceed the first threshold, encoding by the code-driven linear predictive speech encoding means,
When the error signal exceeds the first threshold, the input audio signal is switched to perform music encoding, and when the power of the input audio signal becomes equal to or less than the second threshold. Switching to perform encoding with the code-driven linear predictive speech encoding means, and a selection signal indicating which of the code-driven linear predictive speech encoding and the music encoding has been selected, and a selected code. (6 in FIG. 1) for multiplexing and outputting.

【0011】また復号側は、コード駆動線形予測音声符
号化と音楽符号化のいずれが選択されたかを示す選択信
号が、前記コード駆動線形予測音声符号化が選択されて
いることを示す場合には、符号化側より入力される符号
化された合成フィルタ係数とピッチ情報とコード番号を
復号化する手段(図2の21)と、前記復号化されたピ
ッチ情報で構成されるピッチ再生フィルタ(図2の2
3)と前記復号化された合成フィルタ係数で構成される
合成フィルタの縦続フィルタ(図2の24)と、前記復
号化されたコード番号よりコードブックを参照しコード
を求め、求められたコードで前記縦続フィルタを駆動す
ることによって音声を再生する手段(図2の22)と、
前記選択信号が音楽符号化が選択されていることを示す
場合には、音楽復号化する手段(図2の25)と、前記
選択信号を入力しコード駆動線形予測音声符号化又は音
楽符号化が選択されたているかに応じて前記縦続フィル
タからの再生音又は音楽復号化出力を切替出力する手段
(図1の26)と、を備える。
On the decoding side, when the selection signal indicating which of the code-driven linear predictive speech coding and the music coding is selected indicates that the code-driven linear predictive speech coding is selected, Means for decoding the encoded synthesis filter coefficient, pitch information and code number inputted from the encoding side (21 in FIG. 2), and a pitch reproduction filter (FIG. 2) composed of the decoded pitch information. 2 of 2
3) and a cascade filter (24 in FIG. 2) of a synthesis filter composed of the decoded synthesis filter coefficients, and a code book is obtained from the decoded code number by referring to a code book. Means for reproducing sound by driving the cascade filter (22 in FIG. 2);
When the selection signal indicates that music encoding is selected, a means for decoding music (25 in FIG. 2) and a code-driven linear predictive speech encoding or music encoding which receives the selection signal and receives the selection signal. Means (26 in FIG. 1) for switching and outputting the reproduced sound or the music decoded output from the cascade filter according to the selection.

【0012】上記した特開平8−123493号公報の
方式においては、コード駆動線形予測音声符号化方式に
関し、コードブックを音声部用のコードブックと非音声
部用のコードブックで構成し、コードブック探索を行
い、音声品質を向上を図るものである。
In the system disclosed in Japanese Patent Application Laid-Open No. 8-123493, a code book is composed of a code book for a voice part and a code book for a non-voice part with respect to a code-driven linear predictive voice coding method. A search is performed to improve voice quality.

【0013】これに対して、本発明は、コード駆動線形
予測音声符号化方式で十分に高品質に符号化できると判
定した場合には、コード駆動線形予測音声符号化方式を
選択し、コード駆動線形予測音声符号化方式で十分に高
品質に符号化できないと判定した場合には、音楽符号化
方式を選択することにより、音声と音楽の両方に対し
て、各々必要最小限のビットレートで、高能率かつ高品
質に符号化する。
On the other hand, according to the present invention, when it is determined that the code-driven linear predictive speech coding method can perform coding with sufficiently high quality, the code-driven linear predictive speech coding method is selected. If it is determined that the encoding cannot be performed with sufficiently high quality by the linear predictive speech coding method, by selecting a music coding method, for both voice and music, each with a minimum necessary bit rate, Encode with high efficiency and high quality.

【0014】[0014]

【実施例】次に、上記した本発明の実施の形態について
更に詳細に説明すべく、本発明の実施例について図面を
参照して説明する。
Next, in order to describe the above-mentioned embodiment of the present invention in more detail, an embodiment of the present invention will be described with reference to the drawings.

【0015】図1は、本発明に係る音声/音楽符号化方
式の符号化器の一実施例の構成を示すブロック図であ
る。
FIG. 1 is a block diagram showing the configuration of an embodiment of an audio / music encoding encoder according to the present invention.

【0016】図1を参照すると、符号化器入力端子10
に加えられた音声信号X(n)は、線形予測分析器1、ピ
ッチ抽出器2、コードブック探索器3、及び、パワー検
出器8に供給される。
Referring to FIG. 1, an encoder input terminal 10
Is supplied to the linear prediction analyzer 1, the pitch extractor 2, the codebook searcher 3, and the power detector 8.

【0017】線形予測分析器1は、音声信号X(n)が線
形予測分析して線形予測フィルタの係数αを求め、これ
をコードブック探索器3と符号化器5に供給する。
The linear prediction analyzer 1 linearly analyzes the speech signal X (n) to obtain a coefficient α of a linear prediction filter, and supplies the coefficient α to the codebook searcher 3 and the encoder 5.

【0018】ピッチ抽出器2は、音声信号X(n)より、
ピッチ周期とピッチゲインから成るピッチ情報を抽出
し、これをコードブック探索器3と符号化器5に供給す
る。
The pitch extractor 2 uses the audio signal X (n)
The pitch information including the pitch period and the pitch gain is extracted and supplied to the codebook searcher 3 and the encoder 5.

【0019】コードブック探索器3は、ピッチ情報から
ピッチ再生フィルタを構成し、線形予測フィルタの係数
αから線形予測フィルタを構成し、ピッチ再生フィルタ
と線形予測フィルタの縦続フィルタを、コードブック4
で用意されたコードブックn(1≦n≦N)に含まれる
コードで駆動した合成音声と原音声との誤差Eが最も小
さくなるように、コードブックを探索して、コードを決
定し、コードに対応するコード番号を符号化器5に供給
する。合成音声と原音声の誤差Eは、切り換え器6に供
給する。
The codebook searcher 3 forms a pitch reproduction filter from the pitch information, forms a linear prediction filter from the coefficient α of the linear prediction filter, and cascades the pitch reproduction filter and the linear prediction filter into a codebook 4.
The code book is searched and the code is determined so that the error E between the synthesized voice and the original voice driven by the code included in the code book n (1 ≦ n ≦ N) prepared in the above is minimized. Is supplied to the encoder 5. The error E between the synthesized speech and the original speech is supplied to the switch 6.

【0020】またコードブック4は、符号化側および復
号化側において、同一のものを備えておく。
The code book 4 has the same code book on the encoding side and the decoding side.

【0021】符号化器5は、線形予測フィルタ係数αと
ピッチ情報とコード番号が符号化され、切り換え器6に
供給する。
The encoder 5 encodes the linear prediction filter coefficient α, the pitch information and the code number, and supplies them to the switch 6.

【0022】以上の処理はコード駆動線形予測(CEL
P;Code Excited Linear Prediction)音声符号化
に相当する。
The above processing is performed by code-driven linear prediction (CEL).
P: Code Excited Linear Prediction).

【0023】音楽符号化器7は、音声信号X(n)に対し
て、音楽符号化を行い、求められた符号を切り換え器6
に供給する。
The music encoder 7 performs music encoding on the audio signal X (n), and switches the obtained code to the switching unit 6.
To supply.

【0024】パワー検出器8は、符号化器入力端子10
から供給される音声信号X(n)のパワーを計算し、切り
換え器6に供給する。
The power detector 8 has an encoder input terminal 10
The power of the audio signal X (n) supplied from is calculated and supplied to the switch 6.

【0025】切り換え器6は、コードブック探索器3か
ら供給される合成音声と原音声の誤差Eとパワー検出器
8から供給される音声信号X(n)のパワーに基づいて、
コード駆動線形予測音声符号化と音楽符号化の切り換え
制御を行う。
The switch 6 is based on the error E between the synthesized speech and the original speech supplied from the codebook searcher 3 and the power of the speech signal X (n) supplied from the power detector 8.
It controls switching between code-driven linear predictive speech coding and music coding.

【0026】以下、切り換え器6の動作を説明する。Hereinafter, the operation of the switch 6 will be described.

【0027】始めに、切り換え器6は、コード駆動線形
予測音声符号化を選択し処理を行う。
First, the switch 6 selects code-driven linear prediction speech coding and performs processing.

【0028】またコードブック探索器3から供給され
る、合成音声と原音声の誤差Eがしきい値Aを超えない
間は、切り換え器6はコード駆動線形予測音声符号化を
選択し処理を続ける。
While the error E between the synthesized speech and the original speech supplied from the codebook searcher 3 does not exceed the threshold value A, the switch 6 selects the code-driven linear predictive speech coding and continues the processing. .

【0029】一方、誤差Eがしきい値Aを超えた場合
は、切り換え器6は音楽符号化に切り換え、処理を行
う。
On the other hand, if the error E exceeds the threshold value A, the switch 6 switches to music coding and performs processing.

【0030】切り換え器6は、パワー検出器8から供給
される音声信号X(n)のパワーがしきい値B以下になっ
たら、再度コード駆動線形予測音声符号化に切り換え、
処理を行う。
When the power of the audio signal X (n) supplied from the power detector 8 falls below the threshold value B, the switch 6 switches to code-driven linear predictive audio coding again.
Perform processing.

【0031】切り換え器6は、コード駆動線形予測音声
符号化と音楽符号化のいずれが選択されたかを示す選択
信号と選択された符号を多重し、符号化器出力端子11
に供給する。
The switch 6 multiplexes a selection signal indicating which of the code-driven linear predictive speech coding and the music coding has been selected and the selected code, and outputs the signal to the encoder output terminal 11.
To supply.

【0032】ここで、選択された符号とは、コード駆動
線形予測音声符号化の場合には、符号化された線形予測
フィルタ係数αとピッチ情報とコード番号であり、音楽
符号化の場合は、音声符号である。
Here, the selected codes are coded linear prediction filter coefficients α, pitch information and code numbers in the case of code-driven linear prediction speech coding, and in the case of music coding, It is a speech code.

【0033】なお、音楽符号化としては、MPEG2
Audioのような音楽符号化でもよいし、あるいは、
それ程の高品質を要求されない場合には、ADPCMの
ような音楽に対してもそれ程劣化を伴わない音声符号化
でもよい。
As music encoding, MPEG2
Music coding such as Audio may be used, or
If not so high quality is required, audio encoding such as ADPCM may be performed without much deterioration.

【0034】図2は、本発明に係る音声/音楽符号化の
復号化器の一実施例の構成を示すブロック図である。
FIG. 2 is a block diagram showing the configuration of an embodiment of a speech / music encoding decoder according to the present invention.

【0035】図2を参照すると、復号化器入力端子30
には、符号化側より、コード駆動線形予測音声符号化と
音楽符号化のいずれが選択されたかを示す選択信号と選
択された符号が入力される。
Referring to FIG. 2, the decoder input terminal 30
, A selection signal indicating which of the code-driven linear predictive speech coding and the music coding has been selected and the selected code are input from the coding side.

【0036】ここで、選択された符号とは、コード駆動
線形予測音声符号化の場合には、符号化された線形予測
フィルタ係数αとピッチ情報とコード番号であり、音楽
符号化の場合には、音声符号である。
Here, the selected codes are coded linear prediction filter coefficients α, pitch information, and code numbers in the case of code-driven linear prediction speech coding, and in the case of music coding, , A speech code.

【0037】復号化器入力端子30に供給された符号化
された線形予測フィルタ係数αとピッチ情報とコード番
号は復号化器21に供給される。
The coded linear prediction filter coefficient α, pitch information and code number supplied to the decoder input terminal 30 are supplied to the decoder 21.

【0038】復号化器入力端子30に供給された音楽符
号は音楽復号化器25に供給される。
The music code supplied to the decoder input terminal 30 is supplied to the music decoder 25.

【0039】復号化器入力端子30に供給された、コー
ド駆動線形予測音声符号化と音楽符号化のいずれが選択
されたかを示す選択信号は、切り換え器26に供給され
る。
The selection signal, which is supplied to the decoder input terminal 30 and indicates which of the code-driven linear predictive speech coding and the music coding has been selected, is supplied to the switch 26.

【0040】切り換え器26は、コード駆動線形予測音
声符号化と音楽符号化のいずれが選択されたかを示す選
択信号がコード駆動線形予測音声符号化を示す場合、コ
ード駆動線形予測音声復号化を行う。すなわち、以下の
処理を行う。
The switch 26 performs code-driven linear predictive speech decoding when the selection signal indicating which of code-driven linear predictive speech coding and music coding is selected indicates code-driven linear predictive speech coding. . That is, the following processing is performed.

【0041】復号化器21に供給された符号化された線
形予測フィルタ係数αとピッチ情報とコード番号は復号
化され、復号化された線形予測フィルタ係数αは合成フ
ィルタ24に、復号化されたピッチ情報はピッチ再生フ
ィルタ23に、復号化されたコード番号は駆動信号生成
器22に供給される。
The coded linear prediction filter coefficient α, pitch information and code number supplied to the decoder 21 are decoded, and the decoded linear prediction filter coefficient α is decoded by the synthesis filter 24. The pitch information is supplied to a pitch reproduction filter 23, and the decoded code number is supplied to a drive signal generator 22.

【0042】駆動信号合成器22は、コードブック27
に格納されるコードブックn(1≦n≦N)の中からコ
ード番号に対応するコードを読み出すことによって、第
1の駆動信号を合成し、ピッチ再生フィルタ23に供給
する。
The drive signal synthesizer 22 includes a code book 27
The first drive signal is synthesized by reading out the code corresponding to the code number from the code book n (1 ≦ n ≦ N) stored in the first drive signal and supplied to the pitch reproduction filter 23.

【0043】ピッチ再生フィルタ23は、入力されたピ
ッチ情報より、ピッチ再生フィルタを構成し、第1の駆
動信号でピッチ再生フィルタを駆動することによって、
第2の駆動信号を合成し、線形予測フィルタ25に供給
する。
The pitch reproduction filter 23 forms a pitch reproduction filter based on the input pitch information, and drives the pitch reproduction filter with the first drive signal.
The second drive signal is synthesized and supplied to the linear prediction filter 25.

【0044】線形予測フィルタ24は、入力された線形
予測フィルタ係数αより線形予測フィルタを構成し、第
2の駆動信号で線形予測フィルタを駆動することによっ
て、合成音声を生成し、切り換え器26に出力し、復号
化器出力端子31に供給される。
The linear prediction filter 24 forms a linear prediction filter from the input linear prediction filter coefficient α, and generates a synthesized speech by driving the linear prediction filter with the second drive signal. The output is supplied to a decoder output terminal 31.

【0045】切り換え器26は、コード駆動線形予測音
声符号化と音楽符号化のいずれが選択されたかを示す選
択信号が音楽符号化を示す場合は、音楽復号化を行う。
すなわち、以下の処理を行う。
The switch 26 performs music decoding when the selection signal indicating which of the code-driven linear predictive speech coding and the music coding is selected indicates the music coding.
That is, the following processing is performed.

【0046】音楽復号化器25に供給された音楽符号
は、音楽復号化器25で復号化され、音楽信号が再生さ
れ、切り換え器26に供給され、復号化器出力端子31
に供給される。
The music code supplied to the music decoder 25 is decoded by the music decoder 25 to reproduce a music signal, supplied to the switch 26, and output to the decoder output terminal 31.
Supplied to

【0047】[0047]

【発明の効果】以上説明したように、本発明によれば下
記記載の効果を奏する。
As described above, according to the present invention, the following effects can be obtained.

【0048】本発明の第一の効果は、音声が入力された
場合は、自動的に、音声を符号化するのに必要最小限の
低ビットレートで済むコード駆動線形予測音声符号化方
式を選択し、高能率かつ高品質に符号化できる、という
ことである。
A first effect of the present invention is that, when speech is input, a code-driven linear predictive speech encoding method which requires only a minimum bit rate necessary for encoding speech is automatically selected. In addition, the encoding can be performed with high efficiency and high quality.

【0049】その理由は、本発明においては、音声が入
力され、コード駆動線形予測音声符号化方式で高品質に
符号化できるものと判定した場合は、コード駆動線形予
測音声符号化方式を自動選択するように構成としたため
である。
The reason is that, in the present invention, when speech is input and it is determined that high-quality coding can be performed by the code-driven linear prediction speech coding method, the code-driven linear prediction speech coding method is automatically selected. This is because the configuration is such that

【0050】本発明の第二の効果は、音楽が入力された
場合は、音楽を符号化するのに最適な音楽符号化方式を
自動選択し、高能率かつ高品質に符号化できる、という
ことである。
A second effect of the present invention is that, when music is input, the most suitable music coding method for coding music can be automatically selected, and high efficiency and high quality coding can be performed. It is.

【0051】その理由は、音楽が入力され、コード駆動
線形予測音声符号化方式で高品質に符号化できないと判
定した場合には、音楽符号化方式を自動選択する、よう
に構成したためである。
The reason is that when music is input and it is determined that high-quality coding cannot be performed by the code-driven linear predictive speech coding method, the music coding method is automatically selected.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明に係る音声/音楽符号化方式の符号化器
の一実施例の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of an embodiment of an audio / music encoding encoder according to the present invention.

【図2】本発明に係る音声/音楽符号化方式の復号化器
の一実施例の構成を示すブロック図である。
FIG. 2 is a block diagram showing a configuration of an embodiment of a speech / music encoding decoder according to the present invention.

【符号の説明】[Explanation of symbols]

1 線形予測分析器 2 ピッチ情報算出器 3 コードブック探索器 4 コードブック 5 符号化器 6 切り換え器 7 音楽符号化器 8 パワー検出器 10 符号化器入力端子 11 符号化器出力端子 21 復号化器 22 駆動信号合成器 23 ピッチ再生フィルタ 24 線形予測フィルタ 25 音楽復号化器 26 切り換え器 27 コードブック 30 復号化器入力端子 31 復号化器出力端子 DESCRIPTION OF SYMBOLS 1 Linear prediction analyzer 2 Pitch information calculator 3 Codebook searcher 4 Codebook 5 Encoder 6 Switching device 7 Music encoder 8 Power detector 10 Encoder input terminal 11 Encoder output terminal 21 Decoder Reference Signs List 22 drive signal synthesizer 23 pitch reproduction filter 24 linear prediction filter 25 music decoder 26 switcher 27 codebook 30 decoder input terminal 31 decoder output terminal

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】入力音声信号を線形予測分析して合成フィ
ルタ係数を求める線形予測分析手段と、 前記入力音声信号よりピッチ情報を算出する手段と、 前記ピッチ情報で構成されるピッチ再生フィルタと前記
合成フィルタの縦続フィルタをコードブックに含まれる
コードで駆動することによって得られる合成音声と、前
記入力音声信号の誤差信号が最小になるように、前記コ
ードブックを探索してコードを決定するコードブック探
索手段と、 前記合成フィルタ係数と前記ピッチ情報と前記決定され
たコードに対応するコード番号を符号化する手段と、 からなるコード駆動線形予測音声符号化手段を備え、 入力音声信号を音楽符号化する手段と、 入力音声信号のパワーを検出する手段と、 を備え、始めに、前記コード駆動線形予測音声符号化手
段で符号化を行い、前記誤差信号が第一のしきい値を超
えない間は前記コード駆動線形予測音声符号化手段で符
号化を行い、前記誤差信号が前記第一のしきい値を超え
た場合には前記入力音声信号に対し音楽符号化を行うよ
うに切り換え、前記入力音声信号のパワーが第二のしき
い値以下になったなら、再度前記コード駆動線形予測音
声符号化手段で符号化を行うように切り換えると共に、
前記コード駆動線形予測音声符号化と前記音楽符号化の
いずれが選択されたかを示す選択信号と、選択された符
号とを多重化して出力する手段を備えたことを特徴とす
る音声及び音楽符号化装置。
A linear prediction analysis means for performing linear prediction analysis of an input audio signal to obtain a synthesis filter coefficient; a means for calculating pitch information from the input audio signal; a pitch reproduction filter comprising the pitch information; A synthesized speech obtained by driving a cascade filter of a synthesis filter with a code included in a code book, and a code book that searches the code book and determines a code so that an error signal of the input speech signal is minimized. Searching means; coding means for coding a code number corresponding to the synthesized filter coefficient, the pitch information, and the determined code; and a code-driven linear predictive voice coding means comprising: Means for detecting the power of the input audio signal; and Means for encoding, while the error signal does not exceed the first threshold, perform the encoding in the code-driven linear predictive speech encoding means, the error signal exceeds the first threshold In this case, the input audio signal is switched to perform music encoding, and when the power of the input audio signal becomes equal to or less than a second threshold, the code is again encoded by the code-driven linear predictive audio encoding means. And switch to
Means for multiplexing and outputting a selection signal indicating which of the code-driven linear predictive speech coding and the music coding has been selected, and a selected code; apparatus.
【請求項2】請求項1記載の前記音声及び音楽符号化装
置から出力される、コード駆動線形予測音声符号化と音
楽符号化のいずれが選択されたかを示す選択信号と、選
択された符号とを入力する音声及び音楽復号化装置にお
いて、 前記選択信号 が、前記コード駆動線形予測音声符号化が
選択されていることを示す場合には、請求項1記載の前
記音声及び音楽符号化装置より入力される符号化された
合成フィルタ係数(線形予測係数)とピッチ情報とコー
ド番号を復号化する手段と、 前記復号化されたピッチ情報で構成されるピッチ再生フ
ィルタと、前記復号化された合成フィルタ係数で構成さ
れる合成フィルタとからなる縦続フィルタと、 前記復号化されたコード番号よりコードブックを参照し
コードを求め、求められたコードで前記縦続フィルタを
駆動することによって音声を再生する手段と、 前記選択信号が音楽符号化が選択されていることを示す
場合には、請求項1記載の前記音声及び音楽符号化装置
より入力される音楽符号を音楽復号化する音楽復号化
段と、 前記選択信号を入力しコード駆動線形予測音声符号化又
は音楽符号化が選択されたているかに応じて前記縦続フ
ィルタからの出力又は前記音楽復号化手段の出力を切り
替え出力する手段と、 を備えることを特徴とする音声及び音楽復号化装置。
2. The audio and music encoding apparatus according to claim 1,
A selection signal that is output from the device and indicates whether code-driven linear prediction speech coding or music coding has been selected, and a selection signal .
To the audio and music decoding device that inputs the selected code.
There are, the selection signal, to indicate that the code excited linear predictive speech coding is selected, according to claim 1 before, wherein
Means for decoding encoded synthesis filter coefficients (linear prediction coefficients), pitch information, and code numbers input from the speech and music encoding device; and a pitch reproduction filter composed of the decoded pitch information. And a cascade filter comprising a synthesis filter composed of the decoded synthesis filter coefficients; and obtaining a code by referring to a codebook from the decoded code number, and driving the cascade filter with the obtained code. 2. The audio and music encoding device according to claim 1, wherein the audio and music encoding device according to claim 1, wherein the audio signal is reproduced, and when the selection signal indicates that music encoding is selected.
The cascade depending on whether the music decryption hand <br/> stage for music decoding music codes are more input, the inputs of the selection signal code excited linear predictive speech coding or music coding is selected off the output of the output or the music decryption means from the filter
Speech and music decoding apparatus characterized by comprising: means for changing output, a.
【請求項3】符号化側が、入力音声信号を線形予測分析
して合成フィルタ係数を求める線形予測分析手段と、 前記入力音声信号よりピッチ情報を算出する手段と、 前記ピッチ情報で構成されるピッチ再生フィルタと前記
合成フィルタの縦続フィルタをコードブックに含まれる
コードで駆動することによって得られる合成音声と、前
記入力音声信号の誤差信号が最小になるように、前記コ
ードブックを探索してコードを決定するコードブック探
索手段と、 前記合成フィルタ係数と前記ピッチ情報と前記決定され
たコードに対応するコード番号を符号化する手段と、 からなるコード駆動線形予測音声符号化手段を備え、 入力音声信号を音楽符号化する手段と、 入力音声信号のパワーを検出する手段と、 を備え、始めに、前記コード駆動線形予測音声符号化手
段で符号化を行い、前記誤差信号が第一のしきい値を超
えない間は前記コード駆動線形予測音声符号化手段で符
号化を行い、前記誤差信号が前記第一のしきい値を超え
た場合には前記入力音声信号に対し音楽符号化を行うよ
うに切り換え、前記入力音声信号のパワーが第二のしき
い値以下になったなら、前記コード駆動線形予測音声符
号化手段で符号化を行うように切り換えると共に、前記
コード駆動線形予測音声符号化と前記音楽符号化のいず
れが選択されたかを示す選択信号と、選択された符号と
を多重化して出力する手段を備え、 復号化側が、前記コード駆動線形予測音声符号化と前記
音楽符号化のいずれが選択されたかを示す選択信号が、
前記コード駆動線形予測音声符号化が選択されているこ
とを示す場合には、符号化側より入力される符号化され
た合成フィルタ係数とピッチ情報とコード番号を復号化
する手段と、 前記復号化されたピッチ情報で構成されるピッチ再生フ
ィルタと、前記復号化された合成フィルタ係数で構成さ
れる合成フィルタとからなる縦続フィルタと、 前記復号化されたコード番号よりコードブックを参照し
コードを求める、該求められたコードで前記縦続フィル
タを駆動することによって音声を再生する手段と、 前記選択信号が音楽符号化が選択されていることを示す
場合には、音楽復号化する手段と、 前記選択信号を入力しコード駆動線形予測音声符号化又
は音楽符号化が選択されたているかに応じて前記縦続フ
ィルタからの再生音又は音楽復号化出力を出力する手段
と、を備えることを特徴とする音声及び音楽符号化復号
方式。
3. A coding apparatus comprising: a linear prediction analysis means for performing linear prediction analysis on an input speech signal to obtain a synthesis filter coefficient; a means for calculating pitch information from the input speech signal; Searching the code book and synthesizing the code so that the synthesized speech obtained by driving the cascade filter of the reproduction filter and the synthesis filter with the code included in the code book and the error signal of the input speech signal are minimized. A code book search means for determining; and a means for encoding a code number corresponding to the synthesized filter coefficient, the pitch information, and the determined code. Means for music encoding the audio signal; and means for detecting the power of the input audio signal. Encoding is performed by the speech measurement encoding means, and while the error signal does not exceed the first threshold, encoding is performed by the code-driven linear prediction audio encoding means, and the error signal is encoded by the first signal. If the threshold value is exceeded, the input audio signal is switched to perform music encoding, and if the power of the input audio signal falls below a second threshold, the code-driven linear predictive audio encoding is performed. Means for switching to perform encoding by means, and a means for multiplexing and outputting a selection signal indicating which of the code-driven linear predictive speech encoding and the music encoding has been selected, and the selected code. The decoding side has a selection signal indicating which of the code-driven linear predictive speech coding and the music coding has been selected,
Means for decoding the coded synthesis filter coefficient, pitch information, and code number input from the coding side when the code-driven linear prediction speech coding is selected, A cascade filter composed of a pitch reproduction filter composed of the decoded pitch information and a synthesis filter composed of the decoded synthesis filter coefficients; and obtaining a code by referring to a codebook from the decoded code number. Means for reproducing sound by driving the cascade filter with the determined code; means for decoding music when the selection signal indicates that music encoding is selected; Inputting a signal and decoding the reproduced sound or music from the cascade filter depending on whether code-driven linear predictive speech coding or music coding is selected. Means for outputting an output.
JP36279797A 1997-12-12 1997-12-12 Audio and music coding Expired - Fee Related JP3211762B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP36279797A JP3211762B2 (en) 1997-12-12 1997-12-12 Audio and music coding

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP36279797A JP3211762B2 (en) 1997-12-12 1997-12-12 Audio and music coding

Publications (2)

Publication Number Publication Date
JPH11175098A JPH11175098A (en) 1999-07-02
JP3211762B2 true JP3211762B2 (en) 2001-09-25

Family

ID=18477755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP36279797A Expired - Fee Related JP3211762B2 (en) 1997-12-12 1997-12-12 Audio and music coding

Country Status (1)

Country Link
JP (1) JP3211762B2 (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100883656B1 (en) 2006-12-28 2009-02-18 삼성전자주식회사 Method and apparatus for discriminating audio signal, and method and apparatus for encoding/decoding audio signal using it
US9275648B2 (en) 2007-12-18 2016-03-01 Lg Electronics Inc. Method and apparatus for processing audio signal using spectral data of audio signal
KR20100006492A (en) 2008-07-09 2010-01-19 삼성전자주식회사 Method and apparatus for deciding encoding mode
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
KR20100007738A (en) 2008-07-14 2010-01-22 한국전자통신연구원 Apparatus for encoding and decoding of integrated voice and music
KR101261677B1 (en) * 2008-07-14 2013-05-06 광운대학교 산학협력단 Apparatus for encoding and decoding of integrated voice and music
KR101381513B1 (en) 2008-07-14 2014-04-07 광운대학교 산학협력단 Apparatus for encoding and decoding of integrated voice and music
PL2146344T3 (en) * 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass
EP3640941A1 (en) * 2008-10-08 2020-04-22 Fraunhofer Gesellschaft zur Förderung der Angewand Multi-resolution switched audio encoding/decoding scheme
US9769586B2 (en) 2013-05-29 2017-09-19 Qualcomm Incorporated Performing order reduction with respect to higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals

Also Published As

Publication number Publication date
JPH11175098A (en) 1999-07-02

Similar Documents

Publication Publication Date Title
JP3346765B2 (en) Audio decoding method and audio decoding device
CA2159557C (en) Coding apparatus having adaptive coding at different bit rates and pitch emphasis
CA2271410C (en) Speech coding apparatus and speech decoding apparatus
US5659659A (en) Speech compressor using trellis encoding and linear prediction
JPH09281998A (en) Voice coding device
JP3211762B2 (en) Audio and music coding
JP3628268B2 (en) Acoustic signal encoding method, decoding method and apparatus, program, and recording medium
JP3746067B2 (en) Speech decoding method and speech decoding apparatus
JP2003337600A (en) Method and equipment for converting sign between sound coding and encoding modes and the storage medium therefor
WO2002071394A1 (en) Sound encoding apparatus and method, and sound decoding apparatus and method
US5933802A (en) Speech reproducing system with efficient speech-rate converter
JPH09185397A (en) Speech information recording device
JP2538450B2 (en) Speech excitation signal encoding / decoding method
JP2613503B2 (en) Speech excitation signal encoding / decoding method
JP4800285B2 (en) Speech decoding method and speech decoding apparatus
JP3144284B2 (en) Audio coding device
JP3319396B2 (en) Speech encoder and speech encoder / decoder
JP3299099B2 (en) Audio coding device
EP2215630B1 (en) A method and an apparatus for processing an audio signal
JP3736801B2 (en) Speech decoding method and speech decoding apparatus
JP4170288B2 (en) Speech coding method and speech coding apparatus
JPH10124097A (en) Voice recording and reproducing device
JP3563400B2 (en) Audio decoding device and audio decoding method
JPH0612097A (en) Method and device for predictively encoding voice
JP3907906B2 (en) Speech coding apparatus and speech decoding apparatus

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010619

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070719

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080719

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090719

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100719

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110719

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees