JPH05232995A - Method and device for encoding analyzed speech through generalized synthesis - Google Patents

Method and device for encoding analyzed speech through generalized synthesis

Info

Publication number
JPH05232995A
JPH05232995A JP4284808A JP28480892A JPH05232995A JP H05232995 A JPH05232995 A JP H05232995A JP 4284808 A JP4284808 A JP 4284808A JP 28480892 A JP28480892 A JP 28480892A JP H05232995 A JPH05232995 A JP H05232995A
Authority
JP
Japan
Prior art keywords
original signal
trial
signal
encoding
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4284808A
Other languages
Japanese (ja)
Other versions
JP3662597B2 (en
Inventor
Willem Bastiaan Kleijn
バスティアン クレイジン ウィレム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc filed Critical American Telephone and Telegraph Co Inc
Publication of JPH05232995A publication Critical patent/JPH05232995A/en
Application granted granted Critical
Publication of JP3662597B2 publication Critical patent/JP3662597B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

PURPOSE: To reduce the number of band requests from an analyzed speech encoding system by synthesis by selecting the parameter of a trial original signal having an error satisfying an error evaluating process as the encoded expression of the original signal. CONSTITUTION: A trial original signal generator 10 generates a trial original signal s(i) which can be heard like as an original signal s(i) to be encoded. A speech encoder/synthesizer 15 decides the encoded expression of the signal s(i) and generates a reconstituted speech signal s(i) based on the encoded expression. A subtracting circuit 17 forms the error signal E(i) between the signals s(i) and s(i). The signal E(i) is fed back to the generator 10 so as to reduce the signal F(i) by selecting another trial original signal. Thus the trial original signal smin (i) which generates the minimum error Emin within a certain limit is discriminated. The parameter used by the encoder/synthesizer 15 is used as the encoded expression of the trial original signal s(i).

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【技術分野】本発明は一般に音声符号化システム、特に
合成による分析音声符号化システムの帯域要求の減少に
関する。
TECHNICAL FIELD This invention relates generally to speech coding systems, and more particularly to reducing the bandwidth requirements of analytic speech coding systems by synthesis.

【0002】[0002]

【背景技術】音声符号化システムは、チャネルあるいは
ネットワークを通してひとつあるいはそれ以上のシステ
ム受信機に通信するために音声信号の符号語による表現
を提供する。各システム受信機は受信された符号語から
音声信号を再構成する。与えられた時間の中でシステム
によって通信される符号語情報の量がシステムの帯域幅
を規定し、システム受信機によって再生される音声の品
質に影響を与える。
BACKGROUND OF THE INVENTION Speech coding systems provide a codeword representation of a speech signal for communication over a channel or network to one or more system receivers. Each system receiver reconstructs a speech signal from the received codeword. The amount of codeword information communicated by the system in a given time defines the bandwidth of the system and affects the quality of speech reproduced by the system receiver.

【0003】音声符号化システムの設計者は、できるだ
け小さい帯域幅を利用して高品質の音声再生能力を求め
る。しかし高品質音声の要求と低帯域幅の要求とは相反
するものであり、従って設計過程でのかね合いが必要で
ある。しかし、本音声符号化手法は許容できる音声品質
を減少したチャネル帯域幅で提供するように開発された
ものである。その中には、合成による分析音声符号化手
法が含まれている。
Voice coding system designers seek high quality voice reproduction capabilities by utilizing as little bandwidth as possible. However, the requirement for high quality voice and the requirement for low bandwidth conflict with each other and thus require trade-offs in the design process. However, the present speech coding scheme was developed to provide acceptable speech quality with reduced channel bandwidth. The analysis voice coding method by synthesis is included therein.

【0004】合成による分析音声符号化手法では、音声
信号は波形一致手続によって符号化される。候補となる
音声信号は、ひとつあるいはそれ以上のパラメータから
合成されて符号化されるべき元の音声信号と比較され
る。パラメータを変化させて異る合成された候補音声信
号が判定される。最も良く一致する候補音声信号のパラ
メータを元の音声信号を表わすために使用する。
In the analytic speech coding technique by synthesis, the speech signal is coded by a waveform matching procedure. The candidate speech signal is compared to the original speech signal to be combined and encoded from one or more parameters. Different synthesized candidate speech signals are determined by changing the parameters. The parameters of the best matching candidate speech signal are used to represent the original speech signal.

【0005】多くの合成による分析符号器、例えば符号
励振線形予測(CELP)符号器は音声信号の長期相関
をモデル化するために長期予測器(LTP)を使用する
(ここで“音声信号”という用語は実際の音声あるいは
合成による分析符号器のいずれかの励振信号を意味す
る。)。一般的に、相関によって過去の音声信号を現在
の音声信号の近似として使うことができる。LPTによ
っていくつかの過去の音声信号(これはすでに符号化さ
れている)を現在の(元の)音声信号と比較できる。こ
のような比較によって、LTPは過去の信号の中のいず
れが、元の信号に最も良く一致するかを判定する。過去
の音声信号は遅延によって識別できるが、これはどの位
の過去にその信号があったかを示すものである。LTP
を用いた符号器は、最も整合する過去の音声信号のスケ
ーリングしたもの(すなわち最適近似)を現在の音声信
号から引算信号(これは残留分あるいは励振と呼ばれ
る)を減少した長期相関と共に生ずる。この信号は次に
典型的には固定統計的コードブック(FSCB)で符号
化される。FSCBインデクスとLTP遅延は、他の情
報と共にCELP復号器に送信され、これは元の音声信
号の指定値をこれらのパラメータから回復する。
Many synthetic analysis encoders, such as Code Excited Linear Prediction (CELP) encoders, use a long-term predictor (LTP) to model the long-term correlation of a speech signal (herein referred to as the "speech signal"). The term refers to the excitation signal of either the actual speech or synthetic coder of analysis. In general, correlation allows the past speech signal to be used as an approximation of the current speech signal. The LPT allows some past speech signals (which have already been encoded) to be compared with the current (original) speech signal. By such comparison, the LTP determines which of the past signals best matches the original signal. The voice signal in the past can be identified by the delay, which indicates how long in the past the signal was. LTP
The coder that uses ∑ produces a scaled version of the best matching past speech signal (ie, the best approximation) with a long-term correlation with the subtraction signal (which is called the residue or excitation) subtracted from the current speech signal. This signal is then typically encoded with a fixed statistical codebook (FSCB). The FSCB index and LTP delay are sent along with other information to the CELP decoder, which recovers the original audio signal's specified values from these parameters.

【0006】音声の長期相関をモデル化することによっ
て、復号器における再生された音声の品質を向上するこ
とができる。しかしこの改善は帯域の大幅な増大なしに
は達成されない。例えば、音声の長期相関をモデル化す
るために、従来のCELP符号器は5ミリ秒あるいは
7.5ミリ秒(これをサブフレームと呼ぶ)ごとに8ビ
ットの遅延情報を伝送する。このような時間変化をする
遅延パラメータは、例えば帯域で1kb/s から2kb/s
を増大することになる。LTP遅延の変化は、時間的に
予測できないかもしれないから(すなわち、LTP遅延
の値のシーケンスは統計的性質を持つから)、遅延パラ
メータの符号化によって追加の帯域の要求を削減するこ
とは困難かもしれない。
By modeling the long-term correlation of speech, the quality of the reproduced speech at the decoder can be improved. However, this improvement cannot be achieved without a significant increase in bandwidth. For example, in order to model the long-term correlation of speech, a conventional CELP coder transmits 8 bits of delay information every 5 ms or 7.5 ms (this is called a subframe). Delay parameters that change over time are, for example, 1 kb / s to 2 kb / s in the band
Will be increased. Changes in LTP delay may be unpredictable in time (ie, the sequence of LTP delay values is statistical in nature), so it is difficult to reduce the demand for additional bandwidth by encoding the delay parameters. It may be.

【0007】LTPを保った合成による分析符号器が余
分の帯域を必要とすることを減少する方法のひとつは、
LTP遅延値をより低頻度で伝送し内挿によって中間の
LTP遅延を決定することである。しかし、内挿を行な
えば音声信号の個々のサブフレームでLTPによって部
分最適の遅延値が使用されることになる。例えば、もし
遅延が部分最適であれば、LTPは過去の音声信号を現
在の音声信号に部分最適に写像することになる。この結
果として、残留励振信号は他の場合に比べて大きくな
る。この場合FSCBは、波形を整えるというその通常
の機能を実行するのではなく、その部分最適の時間シフ
トの効果を修正するように動作しなければならない。こ
のような修正が行なわれなければ、耳に聴える大幅な歪
みが生ずることになる。
One way to reduce the need for extra bandwidth by LTP-preserving analytic encoders is as follows:
The LTP delay value is transmitted less frequently and the intermediate LTP delay is determined by interpolation. However, if the interpolation is performed, the sub-optimal delay value is used by LTP in each subframe of the audio signal. For example, if the delay is suboptimal, the LTP will suboptimally map the past audio signal to the current audio signal. As a result, the residual excitation signal becomes larger than in other cases. In this case, the FSCB must operate to correct the effect of its suboptimal time shift, rather than performing its normal function of trimming the waveform. Without such correction, there will be significant audible distortion.

【0008】[0008]

【発明の要約】本発明は合成による分析音声符号化シス
テムにおける帯域要求を減少する方法と装置を提供す
る。本発明は符号化されるべき実際の原信号(original
signal)に基づいて、多数の試行原信号(trial origin
al signal)を提供する。これらの試行原信号は実際の原
信号に似た聴取特性を持つように制約され、符号化に際
して実際の原信号の代りにあるいはその補助として使用
される。原信号、従って試行原信号は実際の音声信号の
形をとっても良いし、合成による分析符号器に存在する
励振信号の形をとっても良い。本発明によって元の音声
信号の変化を許して符号化誤差とビット周波数とを削減
することにより、一般化された合成による分析符号化を
可能にする。本発明は他の応用と共に、セル状の、ある
いは通常の電話ネットワークのような音声情報通信用の
ネットワークに適用できる。
SUMMARY OF THE INVENTION The present invention provides a method and apparatus for reducing bandwidth requirements in an analytical speech coding system with synthesis. The present invention is the actual original signal to be encoded.
signal) based on the number of trial origin signals (trial origin).
al signal). These trial original signals are constrained to have listening characteristics similar to the actual original signal, and are used instead of or as an adjunct to the actual original signal in encoding. The original signal, and thus the trial original signal, may take the form of the actual speech signal, or it may take the form of the excitation signal present in the synthetic analysis encoder. The present invention allows for analytic coding by generalized synthesis by allowing changes in the original speech signal to reduce coding errors and bit frequencies. The invention is applicable, among other applications, to networks for voice communication, such as cellular or regular telephone networks.

【0009】本発明の一実施例においては、試行原信号
は符号化プロセスと合成プロセスで使用され、再構成さ
れた原信号を生ずる。試行原信号と再構成された信号と
の間の誤差信号が形成される。最小の誤差を生ずると判
定された試行原信号は、符号化と受信機への通信のため
の符号化の基礎として使用される。この方法で誤差を小
さくすることによって、所望のシステム帯域を減少する
ように符号化プロセスが変更される。
In one embodiment of the present invention, the trial original signal is used in the encoding and combining processes to produce a reconstructed original signal. An error signal is formed between the trial original signal and the reconstructed signal. The trial original signal determined to produce the smallest error is used as the basis of the coding and coding for communication to the receiver. By reducing the error in this way, the coding process is modified to reduce the desired system bandwidth.

【0010】CELP符号器用の本発明の他に図示する
実施例においては、実際の原信号に対してタイムワープ
のコードブックを応用することによって、ひとつあるい
はそれ以上の試行原信号が与えられる。CELP符号器
のLTP手続においては、試行原信号は適応コードブッ
クによって提供される過去の音声信号の候補と比較され
る。候補に最も近い試行原信号が識別される。LTPプ
ロセスの一部として、候補は識別された試行原信号から
引算されて、残余を形成する。次にこの残余が固定統計
的コードブックを適用して符号化される。LTP手続に
おいて多数の試行原信号を使用する結果として、本発明
の一実施例は過去の信号の現在の信号への写像を改善
し、その結果として残留誤差を小さくする。このように
して残留誤差を小さくすることによってLTP遅延情報
の伝送頻度を低くすることができ、再構成された音声の
劣化なしに、あるいはわずかの劣化で遅延内挿ができる
ようになる。
In another illustrated embodiment for the CELP encoder, one or more trial original signals are provided by applying a time warp codebook to the actual original signal. In the LTP procedure of the CELP encoder, the trial original signal is compared with past speech signal candidates provided by the adaptive codebook. The trial original signal closest to the candidate is identified. As part of the LTP process, the candidates are subtracted from the identified original trial signals to form a residue. This residue is then encoded by applying a fixed statistical codebook. As a result of using a large number of trial original signals in the LTP procedure, one embodiment of the present invention improves the mapping of past signals to current signals, resulting in lower residual error. By thus reducing the residual error, the transmission frequency of the LTP delay information can be reduced, and delay interpolation can be performed without deterioration of the reconstructed voice or with a slight deterioration.

【0011】本発明の他の実施例では、時間シフト手法
によって多数の試行原信号を提供する。
In another embodiment of the present invention, multiple trial original signals are provided by a time shift technique.

【0012】[0012]

【詳細な記述】序論 図1は本発明の一実施例を図示したものである。符号化
されるべき原信号s(i) は試行原信号発生器10に与え
られる。
DETAILED DESCRIPTION INTRODUCTION FIG. 1 illustrates one embodiment of the present invention. The original signal s (i) to be encoded is provided to the trial original signal generator 10.

【0013】[0013]

【外1】 [Outer 1]

【0014】符号化過程における誤差を減少するように
原信号を変化することを認めることによって、本発明は
従来の合成による分析符号器を一般化することになる。
従って符号器/合成器15は従来のCELPのような任
意の従来の合成による分析符号器でよい。
By allowing the original signal to change so as to reduce the error in the encoding process, the present invention generalizes the conventional synthetic analysis encoder.
The encoder / combiner 15 may thus be any conventional combining analysis encoder such as conventional CELP.

【0015】従来のCELP 図2は従来の合成による分析CELP符号器を図示す
る。標本化された音声信号s(i) (iはサンプルの添
字)が現在の音声セグメントについて最適化されたN次
の短期線形予測フィルタ(STP)20に与えられる。
信号x(i) はSTPによるフィルタの後の励振である。
Conventional CELP FIG. 2 illustrates a conventional synthetic analysis CELP encoder. The sampled speech signal s (i) (where i is the sample index) is provided to an optimized Nth order short-term linear prediction filter (STP) 20 for the current speech segment.
The signal x (i) is the excitation after filtering by STP.

【0016】[0016]

【数1】 ここでパラメータan は線形予測分析器10によって与
えられる。Nは通常10サンプル程度であるから(8kH
z のサンプリング周波数の場合)、励振信号x(i) は原
信号s(i) の長期周期性を保存している。LTP30は
この冗長性を除くために設けられる。
[Equation 1] Here, the parameter a n is given by the linear prediction analyzer 10. N is usually about 10 samples (8kH
(at the sampling frequency of z), the excitation signal x (i) preserves the long-term periodicity of the original signal s (i). LTP 30 is provided to remove this redundancy.

【0017】x(i) の値はブロックごとに決定される。
各ブロックはサブフレームと呼ばれる。線形予測係数a
n は分析器10によってフレーム毎に決定される。フレ
ームは固定長を持ち、これは一段にサブフレーム長の整
数倍で、通常20−30ミリ秒の長さを持つ。an のサ
ブフレームの値は通常は内挿によって決定される。
The value of x (i) is determined for each block.
Each block is called a subframe. Linear prediction coefficient a
n is determined by the analyzer 10 on a frame-by-frame basis. The frame has a fixed length, which is an integral multiple of the subframe length, and usually has a length of 20-30 milliseconds. The value of the sub-frame of a n are usually determined by interpolation.

【0018】LTPは次のように使用する利得λ(i) と
遅延d(i) を決定する。
The LTP determines the gain λ (i) and delay d (i) to be used as follows.

【0019】[0019]

【数2】 [Equation 2]

【0020】[0020]

【外2】 [Outside 2]

【0021】音声の各サブフレームのデータ表現、すな
わちLTPパラメータλ(i) とd(i) およびFSCBイ
ンデクスはフレームに等しいサブフレームの数だけ集め
られる(典型的には2,4あるいは6)。係数an と共
に、このデータのフレームはCELP復号器に通知さ
れ、ここでこれを利用して音声の再構成が行なわれる。
The data representation of each subframe of speech, namely the LTP parameters λ (i) and d (i) and the FSCB index, are collected for the number of subframes equal to the frame (typically 2, 4 or 6). With coefficients a n, this frame of data is notified to the CELP decoder, wherein utilizing this reconstruction of the speech is performed.

【0022】[0022]

【外3】 [Outside 3]

【0023】[0023]

【外4】 このコードブックからベクトルを選択するために、知覚
に関連した誤差条件を使っても良い。これは人間の聴覚
に存在するスペクトルマスクを利用して行なうことがで
きる。このようにして、原音声信号と再構成された音声
信号の差を使う代りに、この誤差条件は知覚で重み付け
られた差を使うことになる。
[Outside 4] Perceptually related error conditions may be used to select vectors from this codebook. This can be done by utilizing the spectral masks present in human hearing. Thus, instead of using the difference between the original speech signal and the reconstructed speech signal, this error condition will use a perceptually weighted difference.

【0024】信号の知覚重み付けは音声に存在するフォ
ーマットにデ・エンファシスを与えることになる。この
例では、フォーマットはスペクトルのデ・エンファシス
を極を内側に移動して実現するような全極フィルタとし
て記述できる。これは予測係数a1,a2,・・・,aN を持つ
フィルタを係数γa12 2,・・・,γN N を持つフィ
ルタに置き換えることに対応するが、ここでγは知覚重
み付け係数である。(通常0.8程度の値をとる。)
Perceptual weighting of the signal will give de-emphasis to the formats present in the speech. In this example, the format can be described as an all-pole filter that achieves spectral de-emphasis by moving the poles inward. This corresponds to replacing the filter having the prediction coefficients a 1 , a 2 , ..., A N with the filter having the coefficients γ a 1 , γ 2 a 2 , ..., γ N a N. γ is a perceptual weighting coefficient. (Usually a value of about 0.8.)

【0025】知覚重み付けされた領域におけるサンプル
された誤差信号g(i) は
The sampled error signal g (i) in the perceptually weighted region is

【0026】[0026]

【数3】 である。合成による分析符号器の誤差条件はサブフレー
ムごとに形成される。Lサンプル長のサブフレームでは
一般に使用される条件は
[Equation 3] Is. The error condition of the analytic encoder by combining is formed for each subframe. For L sample length subframes, the commonly used conditions are

【0027】[0027]

【数4】 [Equation 4]

【0028】[0028]

【外5】 [Outside 5]

【0029】[0029]

【外6】 [Outside 6]

【0030】時間領域においては、係数γによるスペク
トルのデ・エンファシスによって全極フィルタのインパ
ルス応答が速く減衰するようになる。実際的には、8kH
z のサンプリング周波数の場合γ=0.8ではインパル
ス応答は20サンプル先には意味のあるエネルギーは持
たなくなる。
In the time domain, the de-emphasis of the spectrum by the coefficient γ causes the impulse response of the all-pole filter to decay quickly. Actually, 8kH
When the sampling frequency of z is γ = 0.8, the impulse response has no significant energy 20 samples ahead.

【0031】このように急速に減衰させることによっ
て、全極フィルタのインパルス応答1/(1−γa1z-1
・・・ γN a N z -N) は有限インパルス応答フィルタで近
似できることになる。このフィルタのインパルス応答を
0,h1, ・・・, hR-1 で表わすことにしよう。これによっ
て知覚重み付けした音声に対する誤差条件の操作をベク
トル表示することができることになる。符号器はサブフ
レームごとに動作するから、サブフレームの長さに合せ
てベクトルをそのサンプルLで定義するのが便利であ
る。例えば、励振信号については
By thus rapidly attenuating, the impulse response of the all-pole filter 1 / (1-γa 1 z -1
... γ N a N z -N ) can be approximated by a finite impulse response filter. Let the impulse response of this filter be represented by h 0 , h 1 , ..., H R-1 . As a result, the operation of the error condition for the perceptually weighted voice can be displayed as a vector. Since the encoder operates on a subframe-by-subframe basis, it is convenient to define the vector at its sample L to match the length of the subframe. For example, for the excitation signal

【0032】[0032]

【数5】 となる。さらにスペクトル重み付けマトリクスHは、次
のように定義される。
[Equation 5] Becomes Further, the spectrum weighting matrix H is defined as follows.

【0033】[0033]

【外7】 もし行列HがL×Lの矩形に区切られたとすると、式
(8)は式(4)を近似することになり、これは元々の
CELPに使われているような一般の共分散条件に近づ
く。
[Outside 7] If the matrix H is partitioned into L × L rectangles, then equation (8) approximates equation (4), which approaches the general covariance condition used in the original CELP. .

【0034】CELP符号化の図示の実施例 図3は本発明の一実施例をCELP符号化に適用する場
合を図示する。サンプルされた音声信号s(i) が符号化
のために与えられる。信号s(i) は線形予測係数an
生ずる線形予測分析器100に与えられる。信号s(i)
はまたSTP120に与えられ、これは式(1)に示す
プロセスに従って動作する。信号s(i)は遅延推定器1
40にも与えられる。
Illustrative Embodiment of CELP Encoding FIG. 3 illustrates the application of one embodiment of the present invention to CELP encoding. A sampled speech signal s (i) is provided for coding. Signal s (i) is given to the linear prediction analyzer 100 which produces linear predictive coefficients a n. Signal s (i)
Is also provided to STP 120, which operates according to the process shown in equation (1). The signal s (i) is the delay estimator 1
Also given to 40.

【0035】遅延推定器140はs(i) の最近の履歴
(例えば過去の20と160の間のサンプル)を探索
し、符号化されるべき現在の音声のサブフレームs(i)
に最も良く整合する連続した過去のサンプルの集合(サ
ブフレーム長に等しい長さの)を決定する。遅延推定器
140は現在のサブフレームとi−160i−2
0の過去のサンプルs(i) の値の連続した集合との相関
手続きを通してその判定を行なうかもしれない。相関技
法の例としてはCELP符号器に用いられる通常のオー
プンループLTPによって使用される手法を使っても良
い(ここでオープンループという用語は再生された過去
の音声信号ではなく、原信号を使用するLTP遅延推定
プロセスについて述べている。又、再生された音声信号
を使う遅延推定プロセスはクローズドループと呼
ぶ。)。遅延推定器140は上述した手続きによってフ
レームに1回遅延推定値を決定する。遅延推定器140
はフレーム境界で決められた遅延値の内挿によって各サ
ンプルフレームの遅延の値Mを計算する。
The delay estimator 140 searches the recent history of s (i) (eg, between the past 20 and 160 samples) and the subframe s (i) of the current speech to be encoded.
Determine the set of consecutive past samples (of length equal to the subframe length) that best match The delay estimator 140 uses the current subframe and i-160 < i < i-2.
The determination may be made through a correlation procedure with a continuous set of values of zero past samples s (i). As an example of the correlation technique, the technique used by the conventional open loop LTP used in CELP encoders may be used (the term open loop here refers to the original signal rather than the reconstructed past speech signal). The LTP delay estimation process is described, and the delay estimation process using the reproduced audio signal is referred to as closed loop.). The delay estimator 140 determines the delay estimation value once per frame according to the procedure described above. Delay estimator 140
Calculates the delay value M of each sample frame by interpolating the delay value determined at the frame boundary.

【0036】[0036]

【外8】 [Outside 8]

【0037】[0037]

【外9】 [Outside 9]

【0038】上述したように、LTPプロセスは符号化
された音声の長期相関を小さくするために、現在の音声
信号と最も良く整合する過去の音声信号を識別するよう
に動作する。図3の実施例において、多数の試行原信号
がLTPプロセスに与えられる。このような多数の試行
原信号はタイムワープ機能130によって与えられる。
As mentioned above, the LTP process operates to identify the past speech signal that best matches the current speech signal in order to reduce the long-term correlation of the coded speech. In the embodiment of FIG. 3, multiple trial original signals are provided to the LTP process. A number of such trial original signals are provided by the time warp function 130.

【0039】図4に示すタイムワープ関数130は原信
号に適用するためのタイムワープ(TWCB)用のコー
ドブック133を与え多数の試行原信号を生ずる。原理
的にはタイムワープ関数130のコードブック133は
任意のタイムワープ
The time warp function 130 shown in FIG. 4 provides a codebook 133 for time warp (TWCB) to apply to the original signal to produce a number of trial original signals. In principle, the codebook 133 of the time warp function 130 is an arbitrary time warp.

【0040】[0040]

【数6】 を含み、これは原信号の知覚品質を変化することはな
い。
[Equation 6] , Which does not change the perceptual quality of the original signal.

【0041】[0041]

【数7】 ここでtj とτj は原領域とワープ領域におけるサブフ
レームjの開始を含む。
[Equation 7] Where t j and τ j include the start of subframe j in the original and warp regions.

【0042】ワーププロセスの安定性を増大するため
に、主要なピッチパルスがサブフレームの右方の境界の
近くに入ることが望ましい。これはこのようなサブフレ
ームの境界を、周知の手法を使用してこのようなパルス
のちょうど右方に入るように定義することによって実現
される。符号化されるべき音声信号のピッチパルスが境
界点にあると仮定すれば、ワーピング関数が次式を満足
するようにすることが望ましい。
In order to increase the stability of the warp process, it is desirable that the main pitch pulse falls near the right border of the subframe. This is accomplished by defining the boundaries of such subframes to fall just to the right of such pulses using well known techniques. Assuming that the pitch pulse of the speech signal to be coded is at the boundary point, it is desirable that the warping function satisfies

【0043】[0043]

【数8】 もしピッチパルスがサブフレーム境界のいくらか前にあ
れば、ζ(t) はその終りの値をサブフレーム境界の近傍
に保つようにするべきである。もし式(10)が満足さ
れないときには振動的なワープとなる。タイムワープの
コードブックを実現するために次のようなタイムワープ
関数のファミリーを使用しても良い。
[Equation 8] If the pitch pulse is somewhere before the subframe boundary, ζ (t) should keep its ending value near the subframe boundary. If the expression (10) is not satisfied, the warp will be oscillating. The following family of time warp functions may be used to implement the time warp codebook.

【0044】[0044]

【数9】 ここでA,B,C,σB およびσC は定数である。tが
増大するにつれてタイムワープ関数はAに収束する。t
j ではワーピング関数の値はA+Bである。Cの値は式
(10)を正確に満足するのに使用される。連続タイム
ワープのコードブックは1)Aの値を選択する(典型的
には0.95と1.05の間)、2)σBとσC の値を
選択する(典型的には2.5m秒)、3)tj の境界条
件を満足するようBを使用する(ここでζ(tj )=A
+B)、4)式(10)の境界条件を満足するようCを
選択する、ことによって発生される。ワーピイングコー
ドブックに関する情報は伝送されないことに注意してい
ただきたい。その大きさは計算上の要求によってだけ決
められる。
[Equation 9] Here, A, B, C, σ B and σ C are constants. The time warp function converges to A as t increases. t
In j , the value of the warping function is A + B. The value of C is used to exactly satisfy equation (10). A continuous time warp codebook selects 1) the value of A (typically between 0.95 and 1.05), 2) the values of σ B and σ C (typically 2. 5 ms), 3) Use B to satisfy the boundary condition of t j (where ζ (t j ) = A
+ B), 4) by selecting C to satisfy the boundary condition of equation (10). Please note that no information about the warping codebook is transmitted. Its size is determined only by computational requirements.

【0045】[0045]

【外10】 [Outside 10]

【0046】[0046]

【数10】 式(12)は式(8)に似ているが、式(8)とは異
り、式(12)は正規化されており、従って最小平方誤
差プロセスは形の差にだけ感度を持つようになってい
る。
[Equation 10] Equation (12) is similar to equation (8), but unlike equation (8), equation (12) is normalized so that the least squares error process is only sensitive to shape differences. It has become.

【0047】[0047]

【外11】 [Outside 11]

【0048】[0048]

【外12】 [Outside 12]

【0049】[0049]

【外13】 [Outside 13]

【0050】[0050]

【外14】 [Outside 14]

【0051】従来の音声符号器と同様に、LTP遅延、
スケールファクタ値λおよびM、FSCBインデクスお
よび線形予測係数an は回線を通して復号器に与えられ
て、従来のCELP受信機によって再構成される。しか
し、本発明の図示の実施例によって実現される誤差の低
下のために(符号化プロセスにおける)、LTP遅延情
報はサブフレームに1回でなく、フレームに1回送信す
ればよいことになる。Mのサブフレーム値は送信機の遅
延推定器140によって行なわれると同様の方法で、遅
延値を内挿することによって受信機で提供される。
Like the conventional speech encoder, the LTP delay,
The scale factor values λ and M, the FSCB index and the linear prediction coefficient a n are provided to the decoder over the line and reconstructed by a conventional CELP receiver. However, because of the error reduction achieved in the illustrated embodiment of the present invention (in the encoding process), the LTP delay information need only be sent once per frame, rather than once per subframe. The M subframe values are provided at the receiver by interpolating the delay values in a manner similar to that performed by the delay estimator 140 at the transmitter.

【0052】LTP遅延情報Mをサブフレームごとでは
なく、フレームごとに送信することによって、遅延に関
連した帯域要求は大幅に小さくなる。
By transmitting the LTP delay information M on a frame-by-frame basis rather than on a subframe-by-frame basis, the delay-related bandwidth requirements are significantly reduced.

【0053】連続遅延輪郭を持つLTP 従来のLTPでは、遅延は各サブフレームで一定で、サ
ブフレームの境界で不連続的に変化する。この不連続的
な振舞はステップ遅延輪郭と呼ばれる。ステップ遅延輪
郭を持つ場合には、サブフレーム間の遅延の不連続な変
化は過去の励振の現在に対するLTP写像の不連続性に
対応する。このような不連続性は内挿によって変更で
き、円滑に変化するピッチサイクル波形を持つ信号の再
生を妨げないようにする。上述した実施例では、遅延値
の内挿が要求されるから、内挿を便利にするために連続
的遅延輪郭を有するLTPを与えることが有利であるこ
とが言える。この再構成されたLTPは、不連続性のな
い遅延輪郭を与えるから、これは連続遅延輪郭のLTP
と呼ばれる。
LTP with continuous delay contour In the conventional LTP, the delay is constant in each subframe and changes discontinuously at the subframe boundary. This discontinuous behavior is called a step delay contour. With step delay contours, the discontinuous change in delay between subframes corresponds to the discontinuity of the LTP mapping of the past excitation to the present. Such discontinuities can be modified by interpolation so that they do not interfere with the reproduction of signals with smoothly varying pitch cycle waveforms. It can be said that it is advantageous to provide LTPs with continuous delay contours for convenience of interpolation, since in the embodiments described above, interpolation of delay values is required. This reconstructed LTP gives a delay contour with no discontinuities, so this is the LTP of the continuous delay contour.
Called.

【0054】適応的コードブックを提供する連続遅延輪
郭の遅延値を与えるプロセスは上述した遅延推定器にと
って代る。LTPの連続遅延輪郭を与えるために現在の
サブフレームの可能な輪郭の最良の集合が選択される。
各々の輪郭は先のサブフレームd(tj )の遅延輪郭の
終りの値で開始する。現在の実施例においては、集合の
各々の遅延輪郭はサブフレーム内で線形であるように選
択される。従って現在のNサンプルのサブフレームjで
は(サンプリング間隔Tの間をおいている)、tj <t
j+1 の間にあるが、瞬時遅延d(t) は次の形をと
る。
The process of providing delay values for continuous delay contours that provides an adaptive codebook replaces the delay estimator described above. The best set of possible contours of the current subframe is selected to give the LTP continuous delay contour.
Each contour starts at the end value of the delay contour of the previous subframe d (t j ). In the current embodiment, the delay contour of each of the sets is chosen to be linear within the subframe. Therefore, in the current N-sample subframe j (with a sampling interval T), t j <t
Although within < t j + 1 , the instantaneous delay d (t) has the form

【0055】[0055]

【数11】 ここでαは一定である。d(t) を与えられると、過去の
音声信号(LTP利得でスケーリングしていない)のL
TPによる現在への写像は、
[Equation 11] Here, α is constant. Given d (t), L of the past speech signal (not scaled by LTP gain)
The mapping to the present by TP is

【0056】[0056]

【数12】 [Equation 12]

【0057】[0057]

【外15】 [Outside 15]

【0058】過去の信号の時間スケールしたものを得る
ための連続遅延輪郭と共にLTPを使用するときには、
遅延輪郭の勾配を1より小さくd(t) <1としておくこ
とが望ましい。もしこの条件が乱されると、写像された
波形の時間反転が生ずるかもしれない。また、連続遅延
輪郭ではピッチダブリングを正確に記述できない。ピッ
チダブリングをモデル化するためには、遅延輪郭は不連
続でなければならない。再び式(14)の遅延輪郭を考
える。各々のピッチ周期は通常エネルギーのひとつの大
きな中心(ピッチパルス)に支配されるから、遅延輪郭
にはピッチサイクル毎にひとつの自由度が存在すること
が望ましい。従って、図示の連続遅延輪郭LTPは、ほ
ぼ1ピッチサイクルの適応的長さを持つサブフレームを
与える。この適応的長さはピッチパルスの直後に置かれ
るサブフレーム境界を与えるのに使用される。このよう
にすることによって、振動的な遅延輪郭が生ずることを
防止する。LTPパラメータは固定時間間隔で送信され
るから、サブフレームの大きさはビット周波数に影響す
ることはない。図示の実施例においては、ピッチパルス
すなわち遅延フレーム境界を位置決めする周知の手法が
適正できる。これらの手法は適応コードブックプロセス
150の一部として応用される。
When using LTP with a continuous delay contour to obtain a time scaled version of the past signal,
It is desirable to set the gradient of the delay contour to be smaller than 1 and d (t) <1. If this condition is violated, time reversal of the mapped waveform may occur. Further, the pitch doubling cannot be accurately described by the continuous delay contour. To model pitch doubling, the delay contour must be discontinuous. Consider again the delay contour of equation (14). Since each pitch period is normally dominated by one large center of energy (pitch pulse), it is desirable for the delay contour to have one degree of freedom per pitch cycle. Therefore, the illustrated continuous delay contour LTP provides a subframe with an adaptive length of approximately one pitch cycle. This adaptive length is used to provide a subframe boundary placed immediately after the pitch pulse. By doing so, an oscillating delay profile is prevented from occurring. Since the LTP parameters are transmitted at fixed time intervals, the subframe size does not affect the bit frequency. In the illustrated embodiment, well known techniques for locating pitch pulses or delayed frame boundaries are suitable. These techniques are applied as part of the adaptive codebook process 150.

【0059】タイムシフトを伴うCELP符号化の実施
上述したタイムワーピングの実施例に加えて、本発明の
タイムシフトの実施例を用いることもできる。図示の例
としては、タイムシフトの実施例は図5に示される。こ
れは図3と類似しているが、タイムワープ関数130が
タイムシフト関数200に置き換えられている。
Implementation of CELP encoding with time shift
Examples In addition to the time warping embodiments described above, the time shift embodiments of the present invention may also be used. As an illustrative example, a time shift embodiment is shown in FIG. This is similar to FIG. 3, but the time warp function 130 has been replaced by a time shift function 200.

【0060】タイムワープ関数130と同様に、タイム
シフト関数200は符号化されるべき原信号と聴覚的に
類似した多数の試行原信号を与える。タイムワープ関数
130と同様に、タイムシフト関数200はどの試行原
信号が識別された過去の音声信号と最も近い形を持つか
を判定する。しかしタイムワープ関数130とは異り、
タイムシフト関数は原音声信号、望ましいことには励振
信号をθ min θθmax の範囲にある時間θだけ時間
的にずらし、過去の音声信号と比較したときに最小誤差
を生ずるような原信号の位置を決定するように動作する
(典型的には|θmin |=|θmax |=2.5サンプル
で、アップサンプリングが行なわれるときに達成され
る。)。原音声信号のシフトをθだけ右に(すなわち時
間的に遅らせる)移動することは前のサブフレームの長
さθの最後の区間を繰返し、これによって原音声サブフ
レームの左のエッジにパッドすることによって実行され
る。原音声信号をθだけ左にシフトする動作は単にサブ
フレームの左縁からθに等しい長さの信号を除く(すな
わち省略する)ここによって実行される。
Similar to the time warp function 130, the time shift function 200 provides a number of trial original signals that are aurally similar to the original signal to be encoded. Similar to the time warp function 130, the time shift function 200 determines which trial original signal has the closest shape to the identified past speech signal. But unlike the time warp function 130,
The time-shift function is an original audio signal, preferably an original audio signal that causes a minimum error when compared with a past audio signal by temporally shifting the excitation signal by a time θ in the range of θ min < θ < θ max. Operates to determine the position of the signal (typically | θ min | = | θ max | = 2.5 samples, achieved when upsampling is performed). Moving the shift of the original audio signal to the right by θ (ie, delaying it in time) repeats the last interval of the previous subframe length θ, thereby padding to the left edge of the original audio subframe. Executed by The operation of shifting the original audio signal to the left by θ is simply performed here by removing (ie omitting) the signal of length equal to θ from the left edge of the subframe.

【0061】サブフレームの大きさはピッチ周期の関数
としておく必要はないことに注意していただきたい。し
かし、サブフレームの大きさを常にピッチ周期より小さ
くしておくことが望ましい。こうすれば、各ピッチパル
スの位置を独立に決定することができる。2.5ミリ秒
の大きさのサブフレームも使用できる。LTPパラメー
タは固定時間間隔で送信されるから、サブフレームの大
きさがビット周波数に影響することはない。サブフレー
ムがピッチパルスの間に入ることを防止するために、シ
フトの変更は適切に制約しておく必要がある(2.5ミ
リ秒のサブフレームに対して0.25ミリ秒程度)。こ
の代りに周囲のサブフレームよりエネルギーが大幅に小
さいサブフレームについては遅延を一定に保つことがで
きる。
Note that the subframe size does not have to be a function of the pitch period. However, it is desirable that the size of the subframe is always smaller than the pitch period. By doing so, the position of each pitch pulse can be independently determined. Subframes as large as 2.5 ms can also be used. Since the LTP parameter is transmitted at fixed time intervals, the subframe size does not affect the bit frequency. To prevent the sub-frame from entering between pitch pulses, the shift change should be appropriately constrained (on the order of 0.25 ms for a 2.5 ms sub-frame). Alternatively, the delay can be kept constant for subframes whose energy is significantly smaller than the surrounding subframes.

【0062】タイムシフト関数200の例を図6に図示
する。関数200は上述したタイムワープ関数130に
似ているか、パッド/省略プロセス232がワーピング
プロセス132と関連するコードブック133の代りに
設けられている。関数200によって実行されるシフト
手続きは、
An example of the time shift function 200 is shown in FIG. The function 200 is similar to the time warp function 130 described above, or a pad / omit process 232 is provided in place of the codebook 133 associated with the warping process 132. The shift procedure performed by function 200 is

【0063】[0063]

【数13】 である。ここで、tj は原信号の現在のフレームjの開
始である。閉ループあてはめ手続きが式(12)に似た
誤り条件を最小化するθ min θθmax の値を探索す
る。
[Equation 13] Is. Where t j is the start of the current frame j of the original signal. The closed loop fitting procedure searches for a value of θ min < θ < θ max that minimizes the error condition similar to equation (12).

【0064】[0064]

【数14】 この手続きはプロセス234(これは式(17)に従っ
てε′を決定する)と誤り評価器135(これはε′
min を決定する)によって実行される。
[Equation 14] This procedure consists of process 234 (which determines ε'according to equation (17)) and error estimator 135 (which is ε ').
Determine min ).

【0065】サブフレームjの最適値θはε′min に対
応するそのθであり、θj と表記される。サブフレーム
長Lsubframe については原音声のサブフレームj+1
の開始は次式で決定される。
The optimum value θ of subframe j is that θ corresponding to ε ′ min , and is denoted as θ j . For subframe length L subframe , subframe j + 1 of the original voice
The start of is determined by the following equation.

【0066】[0066]

【数15】 再構成された信号については時刻τj+1 は単に次式とな
る。
[Equation 15] For the reconstructed signal, the time τ j + 1 is simply

【0067】[0067]

【数16】 上述した図示の実施例のように、本発明のこの実施例は
スケーリングと遅延情報、線形予測係数および通常のC
ELP受信機の固定統計的コードブックインデクスを与
える。この場合にも、本発明による符号化誤差の低下の
ために、遅延情報は各サブフレームではなく、各フレー
ムに送信される。受信機は遅延情報を内挿し、受信機の
遅延推定器140で行なわれたように個々のサブフレー
ムについて遅延値を決定する。
[Equation 16] Like the illustrated embodiment described above, this embodiment of the present invention uses scaling and delay information, linear prediction coefficients and regular C
The fixed statistical codebook index of the ELP receiver is given. Also in this case, the delay information is transmitted not in each subframe but in each frame due to the reduction of the coding error according to the present invention. The receiver interpolates the delay information and determines a delay value for each subframe as it did in the delay estimator 140 of the receiver.

【0068】階段遅延輪郭の場合の内挿は次のように実
行される。tA とtB で原信号についての現在の内挿期
間のはじめと終りを表わす。さらにインテックスjA
現在の内挿期間の第1のLTPサブフレームを、jB
次の内挿期間の第1のLTPサブフレームを表わす。ま
ず現在の内挿間隔dB の終りで、遅延の開ループ推定値
は、例えば、過去の音声信号と現在の音声信号の相互相
関プロセスによって得られる(実際、この目的のための
B に使用する値は推定値である。なぜならその最終的
な値は内挿の終りで得られる。)。先の内挿期間の終り
での遅延をdAで表現する。このときには、サブフレー
ムjの遅延は単に
The interpolation for the staircase delay contour is performed as follows. At t A and t B represent the beginning and end of the current interpolation period for the original signal. Further, intex j A represents the first LTP subframe of the current interpolation period, and j B represents the first LTP subframe of the next interpolation period. First, at the end of the current interpolation interval d B , an open-loop estimate of the delay is obtained, for example, by the cross-correlation process of the past and the current speech signal (in fact used for t B for this purpose The value to do is an estimate, because its final value is obtained at the end of the interpolation.) The delay at the end of the previous interpolation period is represented by d A. At this time, the delay of subframe j is simply

【0069】[0069]

【数17】 で与えられる。励振に対するLTPのスケーリングして
いない寄与分は次式で与えられる。
[Equation 17] Given in. The unscaled contribution of LTP to the excitation is given by:

【0070】[0070]

【数18】 ここでτj は再構成された信号についてのサブフレーム
jのはじめである。
[Equation 18] Where τ j is the beginning of subframe j for the reconstructed signal.

【0071】遅延ピッチの2倍化と半分化 合成による分析符号器では連続したピッチサイクルが類
似していると遅延の2倍化、半分化といった現象が生じ
やすい。しかし、本発明に関しては、遅延の2倍化と半
分化は次のようにして対処される。第1ステップとして
今の内挿期間の終端におけるオープンループ遅延推定値
が先の内挿間隔の最終の遅延に比較される。これが先の
内挿期間の終端の値の倍数もしくは約数に近いときに
は、遅延の倍数化あるいは約数化が生じたと考えられ
る。次下には遅延の2倍化と半分化について述べるが、
これ以外の倍数化についても同様に扱うことができる。
In the analytic encoder based on the doubling of the delay pitch and the halving synthesis, if the consecutive pitch cycles are similar, the phenomenon of doubling the delay and halving is likely to occur. However, with respect to the present invention, delay doubling and halving are dealt with as follows. As a first step, the open loop delay estimate at the end of the current interpolation period is compared to the final delay of the previous interpolation interval. When this is close to a multiple or divisor of the value at the end of the previous interpolation period, it is considered that delay multiple or divisor has occurred. Next, we will explain the doubling and halving of the delay.
Other multiplications can be handled in the same way.

【0072】遅延の2倍化について述べれば、終端値の
遅延のオープンループ推定値をd2B )とする。ここ
で添字2は2ピッチサイクルに対応する遅延を表わす。
1A )で1ピッチサイクルに対応する遅延を表わ
す。一般に、2倍化された遅延と標準の遅延の間には次
の関係がある。
To explain the doubling of the delay, the open-loop estimated value of the delay of the termination value is d 2B ). The subscript 2 here represents the delay corresponding to two pitch cycles.
d 1A ) represents the delay corresponding to one pitch cycle. In general, there is the following relationship between the doubled delay and the standard delay.

【0073】[0073]

【数19】 式(22)はLTPによる2回のシーケンシャル写像を
示している。ピッチ周期が一定でなければ、遅延を単に
2倍しても正しい写像は得られない。次に現在の内挿期
間でd1(τ)がリニアである場合を考える。
[Formula 19] Expression (22) shows two sequential mappings by LTP. If the pitch period is not constant, simply doubling the delay will not give the correct mapping. Next, consider the case where d 1 (τ) is linear in the current interpolation period.

【0074】[0074]

【数20】 式(22)と(23)を組合わせて[Equation 20] Combining equations (22) and (23)

【0075】[0075]

【数21】 式(24)は制限された範囲内で、d2(τ)がリニアで
あることを示している。しかし、一般にτA <τ<τA
+d1(τ) の範囲ではd2(τ) はリニアではない。遅延
の2倍化のためには次のような手続が使える。はじめに
1A )とd2B )が知られている。式(24)で
τ=τB を使ってβが求められる。
[Equation 21] Equation (24) shows that d 2 (τ) is linear within a limited range. However, in general, τ A <τ <τ A
In the range of + d 1 (τ), d 2 (τ) is not linear. The following procedure can be used to double the delay. First , d 1A ) and d 2B ) are known. Β is obtained by using τ = τ B in the equation (24).

【0076】[0076]

【数22】 次に内挿期間内のd1(τ)とd2(τ) が知られる。標準
の遅延d1(τ)は全内挿期間の中で式(23)を満足す
る。d2(τ) については式(22)は全内挿期間内で有
効であるが、式(24)は制限された部分だけで有効で
あることに注意していただきたい。
[Equation 22] Next, d 1 (τ) and d 2 (τ) within the interpolation period are known. The standard delay d 1 (τ) satisfies equation (23) during the entire interpolation period. Note that for d 2 (τ), equation (22) is valid within the entire interpolation period, while equation (24) is valid only in the restricted portion.

【0077】内挿期間に対する実際のLTP励振の寄与
分が、、標準の遅延から2倍化遅延に対する平滑化され
た変化によってこれで得られたことになる。
The actual LTP excitation contribution to the interpolation period is now obtained by the smoothed change from the standard delay to the doubling delay.

【0078】[0078]

【数23】 ここでΨ(τ)は示された内挿期間で0から1に増大さ
れた平坦な関数があり、これは現在の内挿期間を線形化
するものである。この手続は内挿期間が2倍化された遅
延より本質的に大きいことを仮定している。
[Equation 23] Here Ψ (τ) has a flat function that is increased from 0 to 1 over the indicated interpolation period, which linearizes the current interpolation period. This procedure assumes that the interpolation period is essentially larger than the doubled delay.

【0079】遅延の半分化については同一の手続が逆方
向に利用される。境界条件d2A)とd1A ) を仮
定する。τA <ττB について式(22)が使えるよ
うになるには、d1A )はτA −d1A )<ττ
A の範囲で定義されなければならない。適切な定義によ
って音声の品質が保たれる。2倍化遅延は先の内挿期間
では線形であるから、この範囲でd1(τ)の適切な定義
を得るために式(24)を使うことができる。線形の遅
延輪郭の場合、d2(τ)は次式を満足する。
For delay halving, the same procedure is used in the opposite direction. Boundary conditions d 2A ) and d 1A ) are assumed. In order to be able to use the equation (22) for τ A< τ B , d 1A ) is τ A −d 1A ) <τ < τ
Must be defined in the A range. Voice quality is maintained by proper definition. Since the doubling delay is linear in the previous interpolation period, equation (24) can be used to obtain a suitable definition of d 1 (τ) in this range. In the case of a linear delay contour, d 2 (τ) satisfies

【0080】[0080]

【数24】 ここで′は前の内挿期間の値を参照すること(τB ′=
τA であることに注意)を示し、η′は定義である。こ
れを式(24)と比較すれば、前の内挿期間の最後の部
分のd1(τ)は
[Equation 24] Where ′ refers to the value of the previous interpolation period (τ B ′ =
Note that τ A ), and η ′ is a definition. Comparing this with equation (24), d 1 (τ) in the last part of the previous interpolation period is

【0081】[0081]

【数25】 である。式(28)はまた現在の内挿期間の境界値d
1A )を与える。この値とd1B )から、式(2
3)のβの値を求めることができる。再び式(22)は
現在の内挿期間のd2(τ)を計算するのに使用できる。
2(τ)からd1(τ)への変化は再び式(22)によっ
て行なわれる。しかしこの場合はΨ(τ)は内挿期間内
で1から0に減少する。
[Equation 25] Is. Equation (28) is also the boundary value d of the current interpolation period.
Give 1A ). From this value and d 1B ), equation (2
The value of β in 3) can be obtained. Again, equation (22) can be used to calculate d 2 (τ) for the current interpolation period.
The change from d 2 (τ) to d 1 (τ) is again performed by the equation (22). However, in this case Ψ (τ) decreases from 1 to 0 within the interpolation period.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例の図である。FIG. 1 is a diagram of an embodiment of the present invention.

【図2】従来のCELP符号器の図である。FIG. 2 is a diagram of a conventional CELP encoder.

【図3】本発明の一実施例の図である。FIG. 3 is a diagram of an embodiment of the present invention.

【図4】図3に示した実施例の時間ワープ関数の図であ
る。
4 is a diagram of a time warp function of the embodiment shown in FIG.

【図5】時間シフトに関連する本発明の実施例の図であ
る。
FIG. 5 is a diagram of an embodiment of the present invention related to time shifting.

【図6】図5に示した実施例の時間シフト関数の図であ
る。
FIG. 6 is a diagram of a time shift function of the embodiment shown in FIG.

【符号の説明】[Explanation of symbols]

10 複数の試行信号を発生する手段 15 パラメータを発生する手段 17 誤差を判定する手段 10 means for generating a plurality of trial signals 15 means for generating parameters 17 means for determining an error

Claims (23)

【特許請求の範囲】[Claims] 【請求項1】 原信号を符号化する方法において、該方
法は、原信号に基づいて複数の試行原信号を発生し、 試行原信号を符号化してそれを表わすひとつあるいはそ
れ以上のパラメータを発生し、 ひとつあるいはそれ以上のパラメータから試行原信号の
推定値を発生し、 試行原信号と試行原信号の合成された推定値の間の誤差
を判定し、 誤差評価プロセスを満足した誤差を持つ試行原信号のひ
とつあるいはそれ以上のパラメータを原信号の符号化表
現として選択する段階からなることを特徴とする原信号
を符号化する方法。
1. A method of encoding an original signal, the method generating a plurality of trial original signals based on the original signals and encoding the trial original signals to produce one or more parameters representative thereof. Then, an estimate of the original trial signal is generated from one or more parameters, the error between the original trial signal and the combined estimate of the original trial signal is determined, and the trial with the error satisfying the error evaluation process is determined. A method of encoding an original signal, comprising the step of selecting one or more parameters of the original signal as an encoded representation of the original signal.
【請求項2】 請求項1に記載の方法において、複数の
試行原信号を発生する段階は、原信号にひとつあるいは
それ以上のタイムワープを適用する段階からなることを
特徴とする原信号を符号化する方法。
2. The method of claim 1, wherein generating a plurality of trial original signals comprises applying one or more time warps to the original signals. How to make.
【請求項3】 請求項1に記載の方法において、複数の
試行原信号を発生する段階は、原信号のひとつあるいは
それ以上の時間シフトを実行する段階からなることを特
徴とする原信号を符号化する方法。
3. The method of claim 1, wherein generating a plurality of trial original signals comprises performing one or more time shifts of the original signals. How to make.
【請求項4】 請求項1に記載の方法において、試行原
信号を符号化する段階は合成による分析符号化を実行す
る段階からなることを特徴とする原信号を符号化する方
法。
4. The method of claim 1, wherein the step of encoding the trial original signal comprises the step of performing an analytical encoding by combining.
【請求項5】 請求項4に記載の方法において、合成に
よる分析符号化を実行する段階はコード励振線形予測符
号化を実行する段階からなることを特徴とする原信号を
符号化する方法。
5. The method of claim 4, wherein performing analysis-by-synthesis coding comprises performing code-excited linear predictive coding.
【請求項6】 請求項1に記載の方法において、誤差を
判定する該段階はフィルタされた試行原信号とフィルタ
されたその合成信号の間の差のサンプルの自乗和を判定
する段階からなることを特徴とする原信号を符号化する
方法。
6. The method of claim 1, wherein the step of determining an error comprises the step of determining the sum of squared samples of the difference between the filtered trial original signal and its filtered composite signal. A method for encoding an original signal characterized by.
【請求項7】 請求項6に記載の方法において、誤差評
価プロセスはサンプルの複数の自乗和からサンプルの自
乗和の最小値を判定する段階からなることを特徴とする
原信号を符号化する方法。
7. The method of claim 6, wherein the error estimation process comprises the step of determining a minimum sum of squares of the samples from a plurality of sums of squares of the samples. .
【請求項8】 請求項1に記載の方法において、誤差を
判定する該段階は知覚的に重み付けされた試行原信号と
知覚的に重み付けられたその合成された推定値の間の差
サンプルの自乗和を判定する段階からなることを特徴と
する原信号を符号化する方法。
8. The method of claim 1, wherein the step of determining the error is the square of the difference sample between the perceptually weighted trial original signal and its perceptually weighted synthesized estimate. A method for encoding an original signal, comprising the step of determining a sum.
【請求項9】 請求項8に記載の方法において、該誤差
評価プロセスはサンプルの複数の自乗和の中からサンプ
ルの最小の自乗和を判定する段階からなることを特徴と
する原信号を符号化する方法。
9. The method of claim 8, wherein the error estimation process comprises the step of determining a minimum sum of squares of the samples from a plurality of sums of squares of the samples. how to.
【請求項10】 請求項1に記載の方法において、原信
号の符号化された表現を選択する該段階はそれに伴う誤
差が最小である試行原信号を判定する段階からなること
を特徴とする原信号を符号化する方法。
10. The method of claim 1, wherein the step of selecting an encoded representation of the original signal comprises the step of determining a trial original signal with a minimum associated error. A method of encoding a signal.
【請求項11】 原信号を符号化する装置において、該
装置は、原信号に基づいて複数の試行原信号を発生する
手段と;該発生手段に結合され、試行原信号を符号化し
てそれを表現するひとつあるいはそれ以上のパラメータ
を発生する手段と、 該符号化手段に結合され、ひとつあるいはそれ以上のパ
ラメータから試行原信号の推定値を合成する手段と;該
符号化手段と該発生手段とに結合され、試行原信号と試
行原信号の合成された推定値との間の誤差を判定する手
段と、 原信号の符号化された表現として、その誤差が誤り評価
プロセスを満足した試行原信号のひとつあるいはそれ以
上のパラメータを選択する手段と、 からなることを特徴とする原信号を符号化する装置。
11. An apparatus for encoding an original signal, said apparatus comprising: means for generating a plurality of trial original signals based on the original signals; and means for coupling the trial original signals to encode it Means for generating one or more parameters to be expressed, means for synthesizing an estimated value of the trial original signal from the one or more parameters, coupled to the encoding means; the encoding means and the generating means And a means for determining the error between the trial original signal and the combined estimate of the trial original signal, and as a coded representation of the original signal, the trial original signal whose error satisfies the error estimation process. An apparatus for encoding an original signal, characterized by comprising a means for selecting one or more parameters of
【請求項12】 請求項11に記載の装置において、複
数の試行原信号を発生する手段は原信号に対してひとつ
あるいはそれ以上のタイムワープを適用する手段を含む
ことを特徴とする原信号を符号化する装置。
12. The apparatus of claim 11, wherein the means for generating a plurality of trial original signals includes means for applying one or more time warps to the original signals. The encoding device.
【請求項13】 請求項11に記載の装置において、複
数の試行原信号を発生する手段はタイムワープのコード
ブックからなることを特徴とする原信号を符号化する装
置。
13. The apparatus of claim 11, wherein the means for generating a plurality of trial original signals comprises a time warp codebook.
【請求項14】 請求項11に記載の装置において、複
数の試行原信号を発生する装置は原信号のひとつあるい
はそれ以上の時間シフトを行なう手段からなることを特
徴とする原信号を符号化する装置。
14. The apparatus of claim 11 wherein the apparatus for generating a plurality of trial original signals comprises means for performing one or more time shifts of the original signals. apparatus.
【請求項15】 請求項11に記載の装置において、試
行原信号を符号化する手段は合成による分析符号化を実
行する手段からなることを特徴とする原信号を符号化す
る装置。
15. The apparatus for encoding an original signal according to claim 11, wherein the means for encoding the trial original signal comprises means for performing analysis encoding by combining.
【請求項16】 請求項15に記載の装置において、合
成による分析符号化を実行する手段は符号励振線形予測
符号器からなることを特徴とする原信号を符号化する装
置。
16. The apparatus for encoding an original signal according to claim 15, wherein the means for performing analysis encoding by combining comprises a code-excited linear predictive encoder.
【請求項17】 請求項11に記載の装置において、試
行原信号の推定値を合成する手段は固定統計的コードブ
ックからなることを特徴とする原信号を符号化する装
置。
17. The apparatus for encoding an original signal according to claim 11, wherein the means for combining the estimated values of the trial original signal comprises a fixed statistical codebook.
【請求項18】 請求項17に記載の装置において、試
行原信号の推定値を合成する手段はさらに適応コードブ
ックからなることを特徴とする原信号を符号化する装
置。
18. The apparatus of claim 17, wherein the means for synthesizing an estimate of the trial original signal further comprises an adaptive codebook.
【請求項19】 請求項11に記載の装置において、誤
差を判定する該手段は、試行原信号とその合成された推
定値との差のサンプルの自乗和を判定する手段からなる
ことを特徴とする原信号を符号化する装置。
19. The apparatus according to claim 11, wherein the means for determining an error comprises means for determining a sum of squares of a sample of a difference between the trial original signal and its combined estimated value. A device for encoding an original signal to be reproduced.
【請求項20】 請求項19に記載の装置において、該
誤差評価プロセスは該サンプルの複数の自乗和の中から
サンプルの自乗和が最小であるものを判定することを特
徴とする原信号を符号化する装置。
20. The apparatus according to claim 19, wherein the error evaluation process determines which of the plurality of sums of squares of the sample has the smallest sum of squares of the sample. A device to be converted.
【請求項21】 請求項19に記載の装置において、原
信号とその合成された推定値との差は知覚により重み付
けられることを特徴とする原信号を符号化する装置。
21. The apparatus according to claim 19, wherein the difference between the original signal and its combined estimate is perceptually weighted.
【請求項22】 請求項11に記載の装置において、原
信号の符号化された表現を選択する手段はそれに関連す
る誤差が最小である試行原信号を判定する手段からなる
ことを特徴とする原信号を符号化する装置。
22. The apparatus of claim 11, wherein the means for selecting an encoded representation of the original signal comprises means for determining a trial original signal having a minimum associated error. A device that encodes a signal.
【請求項23】 原信号を通信するネットワークにおい
て、該ネットワークは、通信回線、 通信回線に接続され、原信号の符号化された表現を送信
する送信機であって、 原信号に基付いて複数の試行原信号を発生する手段と、 該発生手段に結合され、試行原信号を符号化してそれを
表現するひとつあるいはそれ以上のパラメータを生ずる
符号化手段と、 該符号化手段に結合され、該ひとつあるいはそれ以上の
パラメータから試行原信号の推定値を合成する手段と、 該符号化手段と該発生手段とに接続され、該試行原信号
と試行原信号の合成された推定値との間の誤差を決定す
る手段と、 誤差評価プロセスを満足する関連する誤差を有する試行
原信号のひとつあるいはそれ以上のパラメータを原信号
の符号化された表現として選択する手段とからなる送信
機、及び通信回線に接続され、送信機から受信した原信
号の符号化された表現を復号するための受信機からなる
ことを特徴とする原信号を通信するネットワーク。
23. In a network for communicating an original signal, the network is a communication line, a transmitter connected to the communication line for transmitting an encoded representation of the original signal, the plurality of which are based on the original signal. Means for generating a trial original signal of, and an encoding means coupled to the generating means for producing one or more parameters for encoding the trial original signal to express it, and coupled to the encoding means, Means for synthesizing an estimate of the trial original signal from one or more parameters; and a means connected between the encoding means and the generating means, between the trial original signal and the synthesized estimate of the trial original signal. Means for determining the error, and means for selecting as the encoded representation of the original signal one or more parameters of the trial original signal with associated errors that satisfy the error evaluation process. And a receiver connected to the communication line for decoding the encoded representation of the original signal received from the transmitter.
JP28480892A 1991-10-25 1992-10-23 Analytical speech coding method and apparatus with generalized synthesis Expired - Lifetime JP3662597B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US78268691A 1991-10-25 1991-10-25
US782686 1991-10-25

Publications (2)

Publication Number Publication Date
JPH05232995A true JPH05232995A (en) 1993-09-10
JP3662597B2 JP3662597B2 (en) 2005-06-22

Family

ID=25126860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28480892A Expired - Lifetime JP3662597B2 (en) 1991-10-25 1992-10-23 Analytical speech coding method and apparatus with generalized synthesis

Country Status (4)

Country Link
EP (1) EP0539103B1 (en)
JP (1) JP3662597B2 (en)
DE (1) DE69225293T2 (en)
ES (1) ES2115646T3 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002525662A (en) * 1998-09-11 2002-08-13 モトローラ・インコーポレイテッド Method and apparatus for encoding an information signal using delay contour adjustment

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2102080C (en) * 1992-12-14 1998-07-28 Willem Bastiaan Kleijn Time shifting for generalized analysis-by-synthesis coding
US5704003A (en) * 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
EP0773533B1 (en) * 1995-11-09 2000-04-26 Nokia Mobile Phones Ltd. Method of synthesizing a block of a speech signal in a CELP-type coder

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002525662A (en) * 1998-09-11 2002-08-13 モトローラ・インコーポレイテッド Method and apparatus for encoding an information signal using delay contour adjustment

Also Published As

Publication number Publication date
EP0539103B1 (en) 1998-04-29
ES2115646T3 (en) 1998-07-01
EP0539103A2 (en) 1993-04-28
DE69225293T2 (en) 1998-09-10
JP3662597B2 (en) 2005-06-22
DE69225293D1 (en) 1998-06-04
EP0539103A3 (en) 1993-08-11

Similar Documents

Publication Publication Date Title
RU2417457C2 (en) Method for concatenating frames in communication system
EP0409239B1 (en) Speech coding/decoding method
JP4662673B2 (en) Gain smoothing in wideband speech and audio signal decoders.
US7260521B1 (en) Method and device for adaptive bandwidth pitch search in coding wideband signals
US6427135B1 (en) Method for encoding speech wherein pitch periods are changed based upon input speech signal
JP3359506B2 (en) Improved relaxation code excitation linear prediction coder.
EP1273005B1 (en) Wideband speech codec using different sampling rates
JP2017526950A (en) Audio signal resampling by interpolation for low-delay encoding / decoding
JPS5912186B2 (en) Predictive speech signal coding with reduced noise influence
US5675701A (en) Speech coding parameter smoothing method
JP2004163959A (en) Generalized abs speech encoding method and encoding device using such method
US6169970B1 (en) Generalized analysis-by-synthesis speech coding method and apparatus
Cuperman et al. Backward adaptation for low delay vector excitation coding of speech at 16 kbit/s
JP3179291B2 (en) Audio coding device
JP3662597B2 (en) Analytical speech coding method and apparatus with generalized synthesis
JPH0782360B2 (en) Speech analysis and synthesis method
JPH07168597A (en) Method for reinforcement of periodicity of audio apparatus
KR0155798B1 (en) Vocoder and the method thereof
JP3249144B2 (en) Audio coding device
JP3089967B2 (en) Audio coding device
JP3749838B2 (en) Acoustic signal encoding method, acoustic signal decoding method, these devices, these programs, and recording medium thereof
JPH0774642A (en) Linear predictive coefficient interpolating device
JP2001142499A (en) Speech encoding device and speech decoding device
JP3192051B2 (en) Audio coding device
JPH08211895A (en) System and method for evaluation of pitch lag as well as apparatus and method for coding of sound

Legal Events

Date Code Title Description
A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040106

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040114

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040406

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040818

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041116

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050324

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080401

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090401

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100401

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110401

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130401

Year of fee payment: 8

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130401

Year of fee payment: 8