JPH08211895A - System and method for evaluation of pitch lag as well as apparatus and method for coding of sound - Google Patents

System and method for evaluation of pitch lag as well as apparatus and method for coding of sound

Info

Publication number
JPH08211895A
JPH08211895A JP7295266A JP29526695A JPH08211895A JP H08211895 A JPH08211895 A JP H08211895A JP 7295266 A JP7295266 A JP 7295266A JP 29526695 A JP29526695 A JP 29526695A JP H08211895 A JPH08211895 A JP H08211895A
Authority
JP
Japan
Prior art keywords
speech
pitch
lag
samples
subframe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP7295266A
Other languages
Japanese (ja)
Inventor
Huan-Yu Su
フアン−ユー・スー
Tom Hong Li
トム・ホン・リー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boeing North American Inc
Original Assignee
Rockwell International Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rockwell International Corp filed Critical Rockwell International Corp
Publication of JPH08211895A publication Critical patent/JPH08211895A/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a compact and accurate pitch evaluating system into which a multiple resolution analysis to encode a voice is incorporated. SOLUTION: The pitch evaluating device and method evaluate pitch lag of a voice by using a multiple resolution system. This system contains a step of sampling a voice, a step of alternately applying discrete Fourier transform and a step of squaring a result. Next, DTF is performed to convert a voice sample into a separate area to squared amplitude. Next, an initial pitch lag is obtained with low resolution. After the pitch lag is evaluated with low resolution, algorithm made precise is on the basis of minimizing an anticipating error in a time area. Next, a pitch lag made preceise can be directly used in encoding a voice.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の背景】信号のモデル化およびパラメータ評価は
データ圧縮、復元、および符号化においてますます重要
な役割を果たす。基本的な話声音をモデル化するため
に、音声信号は離散波形としてサンプリングされ、デジ
タル的に処理されなければならない。線形予測符号化
(LPC)と称されるあるタイプの信号符号化技術にお
いて、何らかの特定の時間指標での信号値は前の値の線
形関数としてモデル化される。こうして、後の信号はこ
れまでの値に従って線形的に予測される。結果として、
効果的な信号表現は信号を表わすために、ある予測パラ
メータを評価し、かつ適用することによって決定でき
る。現在、符号励起線形予測(CELP)を含む音声符
号化のためにLPC技術が用いられている。
BACKGROUND OF THE INVENTION Signal modeling and parameter estimation play an increasingly important role in data compression, decompression, and coding. To model the basic speech sound, the speech signal must be sampled as a discrete waveform and processed digitally. In one type of signal coding technique called linear predictive coding (LPC), the signal value at some particular time index is modeled as a linear function of the previous value. Thus, the latter signal is linearly predicted according to the previous values. as a result,
The effective signal representation can be determined by evaluating and applying certain prediction parameters to represent the signal. Currently, LPC techniques are used for speech coding including Code Excited Linear Prediction (CELP).

【0002】ピッチ情報は符号化の目的に対して、確か
な音の指標および表示であると認められている。ピッチ
は話者の音声の基本的な特徴またはパラメータを記述す
る。人間の音声は一般に容易には数学的に定量化できな
いので、音声のピッチデータを効果的に評価できる音声
評価モデルが、より的確かつ正確に符号化され、かつ復
号された音声を提供する。しかしながら、あるCELP
(たとえば、ベクトル和励起線形予測(VSELP)、
マルチパルス、正規パルス、代数的CELPなど)およ
びMBEコーダ/デコーダ(「コーデック」)のような
現在の音声符号化モデルにおいて、ピッチ評価アルゴリ
ズムは正確さが高く、かつ複雑さが低いことを必要とす
るために、ピッチ評価がしばしば困難である。
[0002] Pitch information is accepted as a solid sound indicator and indication for coding purposes. Pitch describes the basic features or parameters of the speaker's voice. Since human speech is generally not easily mathematically quantifiable, speech evaluation models that can effectively evaluate speech pitch data provide more accurate and accurate encoded and decoded speech. However, some CELP
(Eg vector sum excitation linear prediction (VSELP),
In current speech coding models, such as multi-pulse, regular pulse, algebraic CELP, etc.) and MBE coder / decoders (“codecs”), pitch estimation algorithms require high accuracy and low complexity. Therefore, pitch evaluation is often difficult.

【0003】いくつかのピッチラグ評価方式は上述され
たコーデック(時間域方式、周波数域方式、およびケプ
ストラム域方式)と関連して用いられる。ピッチラグお
よび音声再現の間に密接な関係があるために、ピッチ評
価の正確さは通話品質に直接的な影響を及ぼす。CEL
Pコーダでは、音声発生は予測(長期ピッチ予測および
短期線形予測)に基づく。図1は典型的なCELPコー
ダによる音声再生のブロック図を示す。
Several pitch lag evaluation schemes are used in connection with the codecs (time domain, frequency domain, and cepstrum domain) described above. Due to the close relationship between pitch lag and voice reproduction, the accuracy of pitch estimation has a direct impact on speech quality. CEL
In P-coder, speech generation is based on predictions (long-term pitch prediction and short-term linear prediction). FIG. 1 shows a block diagram of voice reproduction by a typical CELP coder.

【0004】音声データを圧縮するためには、不可欠な
情報のみを抽出して冗長の伝送を回避することが望まし
い。音声は短いブロックに分類でき、ここで代表的なパ
ラメータはあらゆるブロックにおいて識別できる。図1
に示されるように、CELP音声コーダは良質な音声を
発生するために、LPCパラメータ110と、(ラグお
よびその係数を含む)ピッチラグパラメータ112と、
その利得パラメータ116を備える最適な新規コードベ
クトル114とを符号化されるべき入力音声から抽出し
なければならない。コーダは適当な符号化方式を実現す
ることによってLPCパラメータを量子化する。各パラ
メータの量子化の指標は、音声デコーダに記憶または伝
送されるべき情報を含む。CELPコーデックでは、ピ
ッチ予測パラメータ(ピッチラグおよびピッチ係数)の
決定は時間域で行なわれるが、MBEコーデックでは、
ピッチパラメータは周波数域で評価される。
In order to compress audio data, it is desirable to extract only essential information and avoid redundant transmission. Speech can be classified into short blocks, where typical parameters can be identified in every block. FIG.
As shown in, the CELP speech coder generates an LPC parameter 110 and a pitch lag parameter 112 (including the lag and its coefficient) in order to generate a good quality speech.
An optimal new code vector 114 with its gain parameter 116 must be extracted from the input speech to be encoded. The coder quantizes the LPC parameters by implementing the appropriate coding scheme. The quantization index for each parameter includes the information to be stored or transmitted to the speech decoder. In the CELP codec, pitch prediction parameters (pitch lag and pitch coefficient) are determined in the time domain, but in the MBE codec,
The pitch parameter is evaluated in the frequency domain.

【0005】LPC分析の後でCELPエンコーダは、
(通例約10−40msで取られる)現在の音声符号化
フレームのために適当なLPCフィルタ110を決定す
る。LPCフィルタは次式によって表わされる。
After the LPC analysis, the CELP encoder
Determine the appropriate LPC filter 110 for the current speech coded frame (typically taken at about 10-40 ms). The LPC filter is represented by the following equation.

【0006】[0006]

【数1】 [Equation 1]

【0007】この式において、npはLPC予測次数
(通例、約10)であり、y(n)はサンプリングされ
た音声データであり、nは時間指標を表わす。上記のL
PCの式は、過去のサンプルの線形結合に従って現在の
サンプルの評価を記述する。人間の耳の感度をモデルと
するLPCフィルタに基づく聴感補正フィルタはここで
次式によって規定される。
In this equation, np is the LPC prediction order (usually about 10), y (n) is the sampled voice data, and n is the time index. L above
The PC equation describes the evaluation of the current sample according to a linear combination of past samples. A hearing correction filter based on the LPC filter modeled on the sensitivity of the human ear is defined here by:

【0008】[0008]

【数2】 [Equation 2]

【0009】所望のピッチパラメータを抽出するため
に、次の重み付き符号化誤差エネルギを最小にするピッ
チパラメータは各符号化サブフレームについて計算され
なければならず、ここで1つの符号化フレームは、分析
および符号化のためにいくつかの符号化サブフレームへ
分割できる。
To extract the desired pitch parameter, the pitch parameter that minimizes the next weighted coding error energy must be calculated for each coded subframe, where one coded frame is It can be divided into several coding subframes for analysis and coding.

【0010】[0010]

【数3】 (Equation 3)

【0011】この式において、Tは知覚的にフィルタさ
れた入力信号を表わす目標信号であり、HはフィルタW
(z)/A(z)のインパルス応答行列である。PLag
はピッチラグ「Lag」と、所定のラグについて独自に
規定された予測係数βとを有するピッチ予測寄与であ
り、Ci はコードブックにおける指標iおよびその対応
する利得αに関連したコードブック寄与である。典型的
には、人間の音声のピッチは2msから20msの間で
異なる。したがって、音声が8KHzのサンプリング速
度でサンプリングされると、ピッチラグは概算で20サ
ンプルから147サンプルに対応する。さらに、iは0
およびNc−1の間の値を取り、ここでNcは新規コー
ドブックのサイズである。
In this equation, T is the target signal representing the perceptually filtered input signal and H is the filter W.
It is an impulse response matrix of (z) / A (z). P Lag
Is the pitch prediction contribution with the pitch lag “Lag” and the prediction coefficient β uniquely defined for a given lag, and C i is the codebook contribution related to the index i in the codebook and its corresponding gain α. . Typically, the pitch of human speech varies between 2ms and 20ms. Therefore, when speech is sampled at a sampling rate of 8 KHz, the pitch lag roughly corresponds to 20 to 147 samples. Furthermore, i is 0
And Nc−1, where Nc is the size of the new codebook.

【0012】1タップピッチ予測子および1つの新規コ
ードブックを想定する。しかしながら、典型的にピッチ
予測子の一般的な形状は多タップ方式であり、新規コー
ドブックの一般的な形状は多レベルベクトル量子化であ
るか、または、複数の新規コードブックを用いる。より
詳細には、音声の符号化において、1タップピッチ予測
子は現在の音声サンプルが1つの過去の音声サンプルに
よって予測できることを示し、一方多タップ予測子は現
在の音声サンプルが複数の過去の音声サンプルによって
予測できることを意味する。
Consider a one-tap pitch predictor and one new codebook. However, the typical shape of the pitch predictor is typically a multi-tap scheme, and the typical shape of the new codebook is multi-level vector quantization, or multiple new codebooks are used. More specifically, in speech coding, the one-tap pitch predictor indicates that the current speech sample can be predicted by one past speech sample, while the multi-tap predictor indicates that the current speech sample has more than one past speech sample. It means that it can be predicted by the sample.

【0013】複雑さについて懸念があるために、最適な
方式に準ずる方式が音声符号化方式において用いられて
きた。たとえば、ピッチラグ評価は2.5msから1
8.5msをカバーするために、L1 およびL2 サンプ
ルの間の範囲で起こり得るラグ値を単に評価することに
よってなされてもよい。したがって、評価されたピッチ
ラグ値は次式を最大にすることによって決定される。
Due to concerns about complexity, schemes that are suboptimal have been used in speech coding schemes. For example, pitch lag evaluation is 2.5ms to 1
It may be done by simply evaluating the possible lag values in the range between the L 1 and L 2 samples to cover 8.5 ms. Therefore, the estimated pitch lag value is determined by maximizing:

【0014】[0014]

【数4】 [Equation 4]

【0015】この時間域方式は真のピッチラグを決定で
きるが、高いピッチ周波数を有する女性の音声には、式
(1)によって求められるピッチラグは真のラグではな
く、真のラグの倍数となり得る。この評価誤差を回避す
るために、評価誤差を訂正(たとえば、ラグの平滑化)
する付加的なプロセスが必要であり、これはそれと引換
えに不所望な複雑さを引起こす。
Although this time domain method can determine the true pitch lag, for female voices with high pitch frequencies, the pitch lag determined by equation (1) can be a multiple of the true lag rather than the true lag. Correct the evaluation error (for example, smooth lag) to avoid this evaluation error.
An additional process is required, which in turn causes undesired complexity.

【0016】しかしながら、このように過度に複雑であ
ることは、時間域方式を用いる際の著しい欠点である。
たとえば、整数のラグのみを用いてラグを決定するため
に、時間域方式は1秒当り300万回の動作(3MO
P)を少なくとも必要とする。さらに、ピッチラグの平
滑化および分数のピッチラグが用いられるならば、複雑
さはほぼ4MOPであろう。実際には、容認可能な正確
さでフルレンジのピッチラグ評価を実行するために、概
算で1秒当り600万回のデジタル信号処理機械命令
(6DSP MIP)が必要とされる。したがって、ピ
ッチ評価は4から6のDSP MIPを必要とすると一
般に認められている。ピッチ評価の複雑さを減少できる
方式は他にもあるが、そのような方式はしばしば質を犠
牲にする。
However, such overcomplexity is a significant drawback when using the time domain method.
For example, in order to determine the lag using only an integer number of lags, the time domain method is 3 million operations per second (3 MO
At least P) is required. Moreover, if pitch lag smoothing and fractional pitch lag are used, the complexity would be approximately 4 MOPs. In practice, approximately 6 million Digital Signal Processing Machine Instructions (6 DSP MIPs) per second are required to perform a full range pitch lag evaluation with acceptable accuracy. Therefore, it is generally accepted that pitch evaluation requires 4 to 6 DSP MIPs. There are other schemes that can reduce the complexity of pitch estimation, but such schemes often sacrifice quality.

【0017】正弦コーダの類で重要な要素であるMBE
コーダでは、符号化パラメータは周波数域において抽出
され、かつ量子化される。MBE音声モデルは図2から
図4に示される。図2および図3に説明されるMBE音
声エンコーダ/デコーダ(「ボゴーダ」)では、基本周
波数(またはピッチラグ)210、有声/無声決定21
2、およびスペクトルエンベロープ214は周波数域に
おいて入力音声から抽出される。パラメータは次に、記
憶または伝送できるビットストリームへ量子化され、か
つ符号化される。
MBE, an important element in the class of sine coders
In the coder, the coding parameters are extracted and quantized in the frequency domain. The MBE voice model is shown in FIGS. In the MBE speech encoder / decoder ("Bogodha") described in FIGS. 2 and 3, the fundamental frequency (or pitch lag) 210, the voiced / unvoiced decision 21
2, and the spectral envelope 214 is extracted from the input speech in the frequency domain. The parameters are then quantized and encoded into a bitstream that can be stored or transmitted.

【0018】MBEボコーダでは、良質な音声を達成す
るために基本周波数が高い正確さで評価されなければな
らない。基本周波数の評価は2段階で行なわれる。第1
に、初期のピッチラグが21サンプルから114サンプ
ルの範囲内で探索され、周波数域において入力音声21
6および合成された音声218の間で重み付き平均二乗
誤差方程式310(図3)を最小にすることによって8
000Hzのサンプリング速度で2.6msから14.
25msをカバーする。元の音声および合成された音声
の間の平均二乗誤差は次式によって与えられる。
In MBE vocoders, the fundamental frequency must be evaluated with high accuracy in order to achieve good quality speech. The fundamental frequency is evaluated in two stages. First
, The initial pitch lag is searched within the range of 21 to 114 samples, and the input speech 21
6 and the synthesized speech 218 by minimizing the weighted mean square error equation 310 (FIG. 3).
2.6 ms to 14.000 at a sampling rate of 000 Hz.
Covers 25 ms. The mean squared error between the original and synthesized speech is given by:

【0019】[0019]

【数5】 (Equation 5)

【0020】この式において、S(ω)は元の音声スペ
クトルであり、S^(ω)(^は大文字Sの上にあると
見なされる)は合成された音声スペクトルであり、G
(ω)は周波数依存重み付き関数である。図4に示され
るように、ピッチ追跡アルゴリズム410は、隣接する
フレームのピッチ情報を用いることによって、初期のピ
ッチラグ評価412を更新するのに用いられる。
In this equation, S (ω) is the original speech spectrum, S ^ (ω) (^ is considered to be above the capital S) is the synthesized speech spectrum, and G
(Ω) is a frequency-dependent weighted function. As shown in FIG. 4, the pitch tracking algorithm 410 is used to update the initial pitch lag estimate 412 by using the pitch information of adjacent frames.

【0021】この方式を用いるのは、基本周波数が隣接
するフレームの間で不意には変化するはずはないという
仮定のためである。2つの過去の隣接するフレームおよ
び2つの未来の隣接するフレームのピッチ評価はピッチ
追跡のために使用される。次に、(2つの過去のフレー
ムおよび2つの未来のフレームを含む)平均二乗誤差は
最小にされて現在のフレームの新しいピッチラグ値を求
める。初期のピッチラグを追跡した後で、ピッチラグ多
重検査方式414が多重ピッチラグを除去するために適
用され、ピッチラグを平滑化する。
This method is used because of the assumption that the fundamental frequency should not change abruptly between adjacent frames. Pitch estimates of two past adjacent frames and two future adjacent frames are used for pitch tracking. The mean squared error (which includes two past frames and two future frames) is then minimized to find a new pitch lag value for the current frame. After tracking the initial pitch lag, pitch lag multiple inspection scheme 414 is applied to remove multiple pitch lags to smooth the pitch lags.

【0022】図4を参照すると、基本周波数評価の第2
段階でピッチラグ精密化416が用いられてピッチ評価
の正確さを高める。ピッチラグ候補値は初期のピッチラ
グ評価に基づいて形成される(すなわち、新しいピッチ
ラグ候補値は、初期のピッチラグ評価からある分数を加
算し、または減算することによって形成される)。した
がって、精密化されたピッチラグ評価418は、平均二
乗誤差関数を最小にすることによってピッチラグ候補の
中で決定できる。
Referring to FIG. 4, the second of the fundamental frequency evaluations
Pitch lag refinement 416 is used at the stage to increase the accuracy of pitch evaluation. Pitch lag candidate values are formed based on the initial pitch lag estimate (ie, new pitch lag candidate values are formed by adding or subtracting a fraction from the initial pitch lag estimate). Therefore, a refined pitch lag estimate 418 can be determined among the pitch lag candidates by minimizing the mean square error function.

【0023】しかしながら、周波数域ピッチ評価はある
欠点を有する。第1に、複雑さが非常に高い。第2に、
ピッチラグは2.5msから14.25msしかカバー
しない20および114サンプルの範囲内で探索され
て、256ポイントFFTに対処するように256サン
プルにウインドウサイズを制限しなければならない。し
かしながら、非常に低いピッチ周波数の話者には、また
は14.25msを超えるピッチラグを有する音声に
は、256サンプルウインドウ内で十分な数のサンプル
を集めるのが不可能である。さらに、音声フレームにわ
たって評価されるのは、平均されたピッチラグだけであ
る。
However, frequency domain pitch estimation has certain drawbacks. First, the complexity is very high. Second,
The pitch lag must be searched within 20 and 114 samples covering only 2.5 ms to 14.25 ms, limiting the window size to 256 samples to accommodate a 256-point FFT. However, it is not possible to collect a sufficient number of samples within the 256 sample window for very low pitch frequency speakers or for speech with pitch lags greater than 14.25 ms. Moreover, only the averaged pitch lag is evaluated over the speech frame.

【0024】1967年にエイ.エム.ノル(A.M.Nol
l)によって提案されたケプストラム域ピッチラグ評価
(図5)を用いて、変形された方法が他に提案された。
ケプストラム域ピッチラグ評価では、510でおおよそ
37msの音声がサンプリングされるので、可能な最大
のピッチラグ(たとえば、18.5ms)の少なくとも
2周期がカバーされる。次に、512ポイントFFTは
音声フレームウインドウに(ブロック512で)適用さ
れ、周波数スペクトルを獲得する。周波数スペクトルの
対数514の振幅を取って、別の512ポイント逆FF
T516がケプストラムを得るために適用される。重み
付け関数518はケプストラムに適用され、ケプストラ
ムのピークはピッチラグを決定するために520で検出
される。次に、追跡アルゴリズム522が実行されて、
いかなるピッチ倍数をも除去する。
In 1967, A. M. Nor (AMNol
Another modified method was proposed using the cepstrum region pitch lag estimation (Fig. 5) proposed by l).
The cepstral range pitch lag evaluation samples approximately 37 ms of speech at 510, thus covering at least two periods of the maximum possible pitch lag (eg, 18.5 ms). The 512-point FFT is then applied (at block 512) to the speech frame window to obtain the frequency spectrum. Taking the logarithmic 514 amplitude of the frequency spectrum, another 512 point inverse FF
T516 is applied to obtain the cepstrum. The weighting function 518 is applied to the cepstrum and the cepstrum peaks are detected at 520 to determine the pitch lag. Next, the tracking algorithm 522 is executed,
Remove any pitch multiples.

【0025】しかしながら、ケプストラムピッチ検出方
法にはいくつかの欠点が見受けられる。たとえば、計算
上の要求が高い。8KHzのサンプリング速度において
20サンプルおよび147サンプルの間でピッチの範囲
をカバーするために、512ポイントFFTは二度行な
われなければならない。ケプストラムピッチ評価が分析
フレームにわたる平均されたピッチラグの評価のみを提
供するので、評価の正確さが不十分である。しかしなが
ら、低ビット転送速度音声符号化については、ピッチラ
グ値が短い時間期間にわたって評価されることは重要で
ある。結果として、ケプストラムピッチ評価は今日、高
質な低ビット転送速度音声符号化についてはほとんど用
いられない。したがって、上述された方式の各々に制限
があるために、効果的なピッチラグ評価のための手段に
は、高質な低ビット転送速度音声符号化の必要を満たす
ことが所望される。
However, the cepstral pitch detection method has some drawbacks. For example, there are high computational demands. To cover the range of pitches between 20 and 147 samples at a sampling rate of 8 KHz, the 512 point FFT has to be performed twice. The cepstrum pitch estimate provides only an estimate of the averaged pitch lag over the analysis frame, so the accuracy of the estimate is insufficient. However, for low bit rate speech coding, it is important that the pitch lag value be evaluated over a short period of time. As a result, cepstral pitch estimation is rarely used today for high quality, low bit rate speech coding. Therefore, due to the limitations of each of the schemes described above, it is desirable for the means for effective pitch lag estimation to meet the need for high quality, low bit rate speech coding.

【0026】[0026]

【発明の概要】したがって、この発明の目的は、複雑さ
が最小であって正確さが高いことを必要とする、音声符
号化のための多分解能分析を組入れるピッチ評価システ
ムを提供することである。特定の実施例では、この発明
はCELP技術ならびにさまざまな他の音声符号化およ
び認識システムを用いる音声符号化の装置および方法を
対象とする。したがって、必要な高い正確さを維持しな
がら、よりよい結果がより少ない計算手段でもたらされ
る。
SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to provide a pitch estimation system incorporating a multi-resolution analysis for speech coding which requires minimal complexity and high accuracy. . In a particular embodiment, the present invention is directed to a speech coding apparatus and method using CELP technology and various other speech coding and recognition systems. Thus, better results are provided with less computational means, while maintaining the required high accuracy.

【0027】これらの目的および他の目的は、この発明
の実施例に従って、音声の的確な再現および再生を速く
かつ効果的に可能にするピッチラグ評価方式によって達
成される。ピッチラグは所定の音声フレームについて抽
出され、次に、各サブフレームについて精密化される。
最小の数の音声サンプルが音声を直接サンプリングする
ことによって獲得された後で、離散フーリエ変換(DF
T)が適用され、結果として生じる振幅が二乗される。
第2のDFTが次に行なわれる。したがって、フレーム
内の音声サンプルに対する的確な初期のピッチラグは、
8KHzのサンプリング速度で20サンプルの可能な最
小値と147サンプルの最大ラグ値との間で決定でき
る。初期のピッチラグ評価を獲得した後で、時間域精密
化がさらに評価の正確さを向上するために各サブフレー
ムについて行なわれなければならない。
These and other objects are achieved, in accordance with an embodiment of the present invention, by a pitch lag evaluation scheme which enables accurate reproduction and reproduction of speech quickly and effectively. The pitch lag is extracted for a given speech frame and then refined for each subframe.
After the minimum number of speech samples has been obtained by directly sampling the speech, the discrete Fourier transform (DF
T) is applied and the resulting amplitude is squared.
The second DFT is then performed. Therefore, the exact initial pitch lag for speech samples in a frame is
It is possible to determine between a possible minimum of 20 samples and a maximum lag value of 147 samples at a sampling rate of 8 KHz. After obtaining the initial pitch lag estimate, time domain refinement must be performed for each subframe to further improve the accuracy of the estimate.

【0028】[0028]

【好ましい実施例の詳細な説明】この発明の好ましい実
施例に従ったピッチラグ評価方式は一般に図6、7、8
および9において示される。まず、N個の音声サンプル
{x(n),n=0,1,…,N−1}が集められる。
(図6のステップ602)Nはたとえば、8000Hz
のサンプリング速度で典型的な40msの音声ウインド
ウに対処するために320個の音声サンプルに等しくて
もよい。Nの値はおおまかに評価された音声周期によっ
て決定され、ここで少なくとも2周期が音声スペクトル
を発生するために一般に必要とされる。このように、N
が可能な最大のピッチラグの2倍よりも大きくなくては
ならず、ここでは{x(n),n=0,1,…,N−
1}である。さらに、少なくとも2ピッチ周期をカバー
するハミングウインドウ604または他のウインドウが
好ましくは実現される。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENT The pitch lag evaluation scheme according to the preferred embodiment of the present invention is generally shown in FIGS.
And 9 are shown. First, N speech samples {x (n), n = 0, 1, ..., N-1} are collected.
(Step 602 of FIG. 6) N is, for example, 8000 Hz
May be equal to 320 voice samples to accommodate a typical 40 ms voice window at a sampling rate of. The value of N is determined by a roughly estimated speech period, where at least two periods are generally needed to generate the speech spectrum. Thus, N
Must be greater than twice the maximum possible pitch lag, where {x (n), n = 0, 1, ..., N−
1}. Moreover, a Hamming window 604 or other window covering at least two pitch periods is preferably implemented.

【0029】[0029]

【数6】 (Equation 6)

【0030】この発明の実施例に従って、関数G(f)
ではなくG(f)の対数が式(4)において用いられる
従来のケプストラム変換とC(n)とが異なることが認
識される。この違いの原因は一般的には複雑さである。
除去されなければ実質的により多くの計算資源を必要と
する対数関数を除去することによって複雑さを減少する
ことが望ましい。さらに、ケプストラムまたはC(n)
関数を用いるピッチラグ評価方式を比較すると、音声の
無声または遷移区間のみに対して異なった結果が獲得さ
れていた。たとえば、無声または遷移音声に対してピッ
チの定義が不明確である。遷移音声にはピッチがないと
いわれてきたが、誤差を最小にするために何らかの予測
を常に示すことができるともいわれる。
According to an embodiment of the invention, the function G (f)
It is recognized that the logarithm of G (f) differs from C (n) with the conventional cepstrum transform used in equation (4) instead. The reason for this difference is generally complexity.
It is desirable to reduce complexity by removing logarithmic functions that would require substantially more computational resources if not eliminated. Furthermore, cepstrum or C (n)
Comparing pitch lag evaluation methods using functions, different results were obtained only for unvoiced or transitional sections of speech. For example, the definition of pitch is unclear for unvoiced or transitional speech. It has been said that transition speech has no pitch, but it is also said that some prediction can always be shown to minimize error.

【0031】したがって、一旦C(n)が決定されると
(ステップ610)、所定の音声フレームに対するピッ
チラグは次式を解くことによってステップ614で求め
られ得る。
Thus, once C (n) is determined (step 610), the pitch lag for a given speech frame can be determined at step 614 by solving the following equation:

【0032】[0032]

【数7】 (Equation 7)

【0033】この式において、arg[・]は内部最適
化関数を満たす変数nを決定し、L1およびL2 はそれ
ぞれ可能な最小のピッチラグおよび可能な最大のピッチ
ラグとして規定される。音声符号化の便宜上、L2 およ
びL1 の間の差は2進数表現のために2の累乗であるこ
とが望ましい。好ましい実施例では、L1 およびL2
それぞれ20および147の値を取って典型的な人間の
音声のピッチラグ範囲の2.5msから18.375m
sをカバーし、ここでL1 およびL2 の間の間隔は2の
累乗である。W(i)は重み付き関数であり、2M+1
はウインドウサイズを表わす。好ましくは、{W(i)
=1,i=0,1,…,2M}であり、M=1である。
In this equation, arg [•] determines the variable n that satisfies the internal optimization function, and L 1 and L 2 are defined as the smallest possible pitch lag and the largest possible pitch lag, respectively. For speech coding convenience, the difference between L 2 and L 1 is preferably a power of 2 for binary representation. In the preferred embodiment, L 1 and L 2 take values of 20 and 147, respectively, which are in the typical human voice pitch lag range of 2.5 ms to 18.375 m.
s, where the spacing between L 1 and L 2 is a power of 2. W (i) is a weighted function, 2M + 1
Represents the window size. Preferably, {W (i)
= 1, i = 0, 1, ..., 2M}, and M = 1.

【0034】結果として生じるピッチラグは平均された
値であるが、それは信頼できて的確であるということが
わかった。平均化から生じる効果は絶対的に大きな分析
ウインドウサイズによるものであり、147サンプルの
ラグに対して、ウインドウサイズはラグ値の少なくとも
2倍であるべきである。しかしながら、不所望なこと
に、典型的に小さいピッチラグを示す女性の話者のよう
なある話者からの信号は、このような大きなウインドウ
では4から10ピッチ周期を含み得る。ピッチラグに変
化があれば、提案されたピッチラグ評価は平均されたピ
ッチラグしか生成しない。結果として、音声符号化にお
いてこのような平均されたピッチラグを用いることで音
声評価および再生に大きな劣化が生じ得る。
Although the resulting pitch lag is an averaged value, it has been found to be reliable and accurate. The effect resulting from averaging is due to the absolutely large analysis window size, for a lag of 147 samples, the window size should be at least twice the lag value. Unfortunately, however, a signal from one speaker, such as a female speaker, which typically exhibits a small pitch lag, may include 4 to 10 pitch periods in such a large window. If there is a change in pitch lag, the proposed pitch lag estimate will only produce an average pitch lag. As a result, the use of such averaged pitch lags in speech coding can cause significant degradation in speech evaluation and playback.

【0035】音声におけるピッチ情報の相対的に速い変
化のために、CELPモデルに基づくほとんどの音声符
号化システムはサブフレームごとに一度ピッチラグを評
価し、かつ伝送する。こうして、典型的には2msから
10msの長さ(16から80サンプル)であるいくつ
かの音声サブフレームへ1つの音声フレームが分割され
るCELP型音声符号化において、ピッチ情報は各サブ
フレームで更新される。したがって、正確なピッチラグ
値はサブフレームのためにのみ必要とされる。しかしな
がら、上記の方式に従って評価されたピッチラグは、平
均化から生じる影響のために正確な音声符号化には十分
な正確さを有さない。
Because of the relatively fast changes in pitch information in speech, most speech coding systems based on the CELP model evaluate and transmit pitch lag once every subframe. Thus, in CELP-type speech coding, where one speech frame is divided into several speech subframes, which are typically 2 ms to 10 ms long (16 to 80 samples), the pitch information is updated in each subframe. To be done. Therefore, accurate pitch lag values are needed only for subframes. However, the pitch lag evaluated according to the above scheme is not accurate enough for accurate speech coding due to the effects resulting from averaging.

【0036】こうして、この発明の特定の実施例におい
て、評価の正確さを向上させるために、初期のピッチラ
グ評価に基づいた精密化された探索が時間域において行
なわれる(ステップ618)。簡単な自己相関方法がほ
ぼ平均されたLag値で特定の符号化周期またはサブフ
レームに対して行なわれる。
Thus, in a particular embodiment of the invention, a refined search based on the initial pitch lag estimate is performed in the time domain to improve the accuracy of the estimate (step 618). A simple autocorrelation method is performed for a particular coding period or subframe with approximately averaged Lag values.

【0037】[0037]

【数8】 (Equation 8)

【0038】この式において、arg[・]は内部最適
化関数を満たす変数nを決定し、kはサブフレームの第
1のサンプルを示し、lは精密化ウインドウサイズを表
わし、mは探索範囲である。的確なピッチラグ値を決定
するために、精密化ウインドウサイズは少なくとも1ピ
ッチ周期であるべきである。しかしながら、ウインドウ
は平均化の影響を避けるためにあまりに大きすぎてはな
らない。たとえば、好ましくはl=Lag+10、およ
びm=5である。こうして、式(6)の時間域精密化に
従って、より正確なピッチラグが評価されてサブフレー
ムの符号化に適用できる。
In this equation, arg [•] determines the variable n that satisfies the internal optimization function, k is the first sample of the subframe, l is the refinement window size, and m is the search range. is there. In order to determine the exact pitch lag value, the refinement window size should be at least 1 pitch period. However, the window should not be too large to avoid the effects of averaging. For example, preferably 1 = Lag + 10, and m = 5. Thus, according to the time domain refinement of equation (6), a more accurate pitch lag can be evaluated and applied to subframe coding.

【0039】動作時において、高速フーリエ変換(FF
T)が一般的なDFTよりも計算上効果的である場合も
あるが、FFTを用いる際の欠点はウインドウサイズが
2の累乗でなければならないことである。たとえば、1
47サンプルの最大のピッチラグは2の累乗ではないこ
とが示されてきた。最大のピッチラグを含むためには、
512サンプルのウインドウサイズが必要である。しか
しながら、このことで、上述された平均化から生じる影
響のために女性の音声に対するピッチラグ評価の質が悪
くなり、多量の計算が必要となる。256サンプルのウ
インドウサイズが用いられるならば、平均化から生じる
影響は減少され、複雑さが一層少なくなる。しかしなが
ら、このようなウインドウを用いると音声中の128サ
ンプルよりも大きなピッチラグには対処できない。
In operation, the fast Fourier transform (FF
Although T) may be more computationally efficient than a general DFT, the drawback with FFT is that the window size must be a power of two. For example, 1
It has been shown that the maximum pitch lag of 47 samples is not a power of 2. To include the maximum pitch lag,
A window size of 512 samples is required. However, this results in poor quality of the pitch lag estimate for female voices due to the effects resulting from the averaging described above and requires a large amount of computation. If a window size of 256 samples is used, the effects resulting from averaging are reduced and complexity is reduced. However, such a window cannot handle pitch lags greater than 128 samples in speech.

【0040】これらの問題のいくつかを克服するため
に、この発明の代替の好ましい実施例は256ポイント
FFTを利用して複雑さを減少し、変更された信号を用
いてピッチラグを評価する。信号を変更するのはダウン
サンプリングプロセスである。図7および図8を参照す
ると、N個の音声サンプル{x(n),n=0,1,
…,N−1}が集められ(ステップ702)、Nは最大
のピッチラグの2倍よりも大きい。次に、N個の音声サ
ンプルが次式に従って、線形補間を用いて256個の新
しい分析サンプルへダウンサンプリングされる(ステッ
プ704)。
To overcome some of these problems, an alternative preferred embodiment of the present invention utilizes a 256-point FFT to reduce complexity and a modified signal is used to evaluate pitch lag. It is the downsampling process that modifies the signal. Referring to FIGS. 7 and 8, N speech samples {x (n), n = 0, 1,
, N-1} are collected (step 702), where N is greater than twice the maximum pitch lag. Next, the N speech samples are downsampled into 256 new analysis samples using linear interpolation according to the following equation (step 704).

【0041】[0041]

【数9】 [Equation 9]

【0042】この式において、λ=N/256であり、
角括弧内の値すなわち[i・λ]はi・λ以下の最大の
整数値を示す。次に、ステップ705でハミングウイン
ドウまたは他のウインドウが補間されたデータに適用さ
れる。
In this equation, λ = N / 256,
The value in square brackets, that is, [i.lambda.] Indicates the maximum integer value of i.lambda. Or less. Then, in step 705, a Hamming window or other window is applied to the interpolated data.

【0043】ステップ706では、ピッチラグ評価は2
56ポイントFFTを用いてy(i)にわたって行なわ
れ、振幅Y(f)を発生する。次に、ステップ708か
らステップ710は図6に関して説明されたのと同様に
実行される。しかしながら、G(f)はさらにフィルタ
され(ステップ709)、ピッチ検出のためには有用で
はない、G(f)の高周波数成分を減少する。一旦y
(i)のラグすなわちLagy が式(5)に従って求め
られれば(ステップ714)、これはステップ716で
再スケールされてピッチラグ評価を決定する。
In step 706, the pitch lag evaluation is 2
Performed over y (i) using a 56-point FFT to generate the amplitude Y (f). Next, steps 708 to 710 are performed as described with respect to FIG. However, G (f) is further filtered (step 709) to reduce high frequency components of G (f), which is not useful for pitch detection. Once y
(I) If the lag i.e. Lag y of Rarere calculated according to equation (5) (step 714), which determines the pitch lag estimation is rescaled in step 716.

【0044】[0044]

【数10】 [Equation 10]

【0045】要約すると、符号化フレームのための初期
のピッチ評価を求める上記の手順は以下のとおりであ
る。
In summary, the above procedure for determining the initial pitch estimate for a coded frame is as follows.

【0046】(1) 標準40msの符号化フレームを
ピッチサブフレーム802および804へ細分する。各
ピッチサブフレームはおおよそ20msの長さである。
(1) A standard 40 ms coded frame is subdivided into pitch subframes 802 and 804. Each pitch subframe is approximately 20 ms long.

【0047】(2) ピッチ分析ウインドウ806が最
後のサブフレームの中心に位置決めされるようにN=3
20個の音声サンプルを取り、提案されたアルゴリズム
を用いてそのサブフレームに対するラグを求める。
(2) N = 3 so that the pitch analysis window 806 is positioned at the center of the last subframe.
Take 20 speech samples and find the lag for that subframe using the proposed algorithm.

【0048】(3) ピッチサブフレームに対する初期
のピッチラグ値を決定する。 次に、時間域精密化が元の音声サンプルx(n)にわた
ってステップ718で行なわれる。こうして、この発明
の実施例において、複雑さを減少してなお、高い正確さ
を維持しながらピッチラグ値が的確に評価できる。この
発明のFFT実施例を用いると、120よりも大きいピ
ッチラグ値に対処するのは困難ではない。
(3) Determine the initial pitch lag value for the pitch subframe. Next, time domain refinement is performed at step 718 over the original speech sample x (n). Thus, in the embodiment of the present invention, the pitch lag value can be accurately evaluated while reducing the complexity and yet maintaining high accuracy. With the FFT embodiment of the present invention, it is not difficult to handle pitch lag values greater than 120.

【0049】より詳細には、時間域精密化は元の音声サ
ンプルにわたって行なわれる。たとえば、40msの符
号化フレームは図9に示されるようにまず、8個の5m
sのサブフレーム808へ分割される。初期のピッチラ
グ評価lag1 およびlag 2 は、現在の符号化フレー
ムにおける各ピッチサブフレームの最後の符号化サブフ
レームに対するラグ評価である。lag0 は先行の符号
化フレームにおける第2のピッチサブフレームの精密化
されたラグ評価である。lag1 、lag2 、およびl
ag0 の間の関係は図9に示される。
More specifically, the time domain refinement is based on the original speech support.
It is done over the sample. For example, the 40ms mark
As shown in Fig. 9, the coding frame is composed of eight 5m frames.
It is divided into s subframes 808. Early pitcher
Evaluation lag1And lag 2Is the current encoding
The last encoded subframe of each pitch subframe in the
It is a lag evaluation for a rame. lag0Is the preceding sign
Refinement of the second pitch sub-frame in an optimized frame
It is a lag evaluation. lag1, Lag2, And l
ag0The relationship between is shown in FIG.

【0050】初期のピッチラグlag1 およびlag2
は次式に従って最初に精密化されて、その正確さを向上
させる(図8のステップ718)。
Initial pitch lags lag 1 and lag 2
Is first refined according to the following equation to improve its accuracy (step 718 of FIG. 8).

【0051】[0051]

【数11】 [Equation 11]

【0052】ここでNi は、ピッチlagi に対するピ
ッチサブフレームにおける開始サンプルの指標である。
好ましくは、Mは10と選択され、Lはlagi +10
であり、iはピッチサブフレームの指標を示す。
Here, N i is an index of the start sample in the pitch subframe with respect to the pitch lag i .
Preferably M is selected to be 10 and L is lag i +10
And i indicates the pitch subframe index.

【0053】一旦初期のピッチラグの精密化が完了する
と、符号化サブフレームのピッチラグが決定できる。符
号化サブフレームのピッチラグはlag1 、lag2
およびlag0 を線形的に補間することによって評価さ
れる。符号化サブフレームのピッチラグ評価の正確さ
は、次の手順に従って各符号化サブフレームの補間され
たピッチラグを精密化することによって向上する。精密
化された初期のピッチ評価lag1 、lag2 、および
lag0 に基づく符号化サブフレームの補間されたピッ
チラグを{lagI (i),i=0,1,…,7}が表
わす場合、lag I (i)は次式によって決定される。
Once the initial pitch lag refinement is complete
And the pitch lag of the encoded subframe can be determined. Mark
Pitch lag of encoded subframe is lag1, Lag2,
And lag0Evaluated by linearly interpolating
Be done. Accuracy of pitch lag estimation for coded subframes
Is interpolated for each encoded subframe according to the following steps
It is improved by refining the pitch lag. precision
Initialized pitch evaluation lag1, Lag2,and
lag0Interpolated pits for coding subframes based on
Chirag is {lagI(I), i = 0, 1, ..., 7} is a table
If you do, lag I(I) is determined by the following equation.

【0054】[0054]

【数12】 (Equation 12)

【0055】線形補間によって与えられるピッチラグ評
価の正確さが十分ではないので、さらなる改良が必要と
なるであろう。与えられたピッチラグ評価{lag
I (i),i=0,1,…,7}に対して、各lagI
(i)は次式によってさらに精密化される(ステップ7
22)。
Further refinement will be needed as the accuracy of the pitch lag estimation provided by linear interpolation is not sufficient. Given pitch lag rating {lag
For I (i), i = 0, 1, ..., 7}, each lag I
(I) is further refined by the following equation (step 7)
22).

【0056】[0056]

【数13】 (Equation 13)

【0057】ここでNiはピッチlag(i)に対する
符号化サブフレームにおける開始サンプルの指標であ
る。例では、Mは3と選択され、Lは40に等しい。
Here, Ni is an index of the starting sample in the coded subframe for the pitch lag (i). In the example, M is chosen to be 3 and L equals 40.

【0058】さらに、ピッチラグの線形補間は音声の無
声区間において重要である。何らかの分析方法によって
求められたピッチラグは無声音声に任意に配分される傾
向を有する。しかしながら、相対的に大きいピッチサブ
フレームサイズのために、各サブフレームに対するラグ
が(上の手順(2)で求められる)始めに決定されたサ
ブフレームラグにあまりにも近い場合、元々は音声には
なかった不所望な人工の周期性が加えられる。さらに線
形補間は、質の悪い無声音声に関連した問題を簡単に解
決する。さらに、サブフレームのラグは任意である傾向
を有するので、各サブフレームに対するラグは一旦補間
されると、これも非常に任意に配分され、このことが音
声の質を保証する。
Furthermore, linear interpolation of pitch lag is important in the unvoiced section of speech. The pitch lag obtained by some analysis method tends to be arbitrarily distributed to unvoiced speech. However, due to the relatively large pitch sub-frame size, if the lag for each sub-frame is too close to the originally determined sub-frame lag (determined in step (2) above), then the audio will originally be The unwanted artificial periodicity that was not present is added. In addition, linear interpolation easily solves the problems associated with poor quality unvoiced speech. Furthermore, since the lag of subframes tends to be arbitrary, once interpolated, the lag for each subframe is also very arbitrarily distributed, which guarantees speech quality.

【図面の簡単な説明】[Brief description of drawings]

【図1】CELP音声モデルのブロック図である。FIG. 1 is a block diagram of a CELP voice model.

【図2】MBE音声モデルのブロック図である。FIG. 2 is a block diagram of an MBE voice model.

【図3】MBEエンコーダのブロック図である。FIG. 3 is a block diagram of an MBE encoder.

【図4】MBEボコーダにおけるピッチラグ評価のブロ
ック図である。
FIG. 4 is a block diagram of pitch lag evaluation in the MBE vocoder.

【図5】ケプストラムに基づくピッチラグ検出方式のブ
ロック図である。
FIG. 5 is a block diagram of a pitch lag detection method based on cepstrum.

【図6】この発明の実施例に従うピッチラグ評価の動作
上のフロー図である。
FIG. 6 is an operational flow diagram of pitch lag evaluation according to an embodiment of the present invention.

【図7】この発明の別の実施例に従うピッチラグ評価の
フロー図である。
FIG. 7 is a flow diagram of pitch lag evaluation according to another embodiment of the present invention.

【図8】この発明の別の実施例に従うピッチラグ評価の
フロー図である。
FIG. 8 is a flow diagram of pitch lag evaluation according to another embodiment of the present invention.

【図9】図6の実施例に従う音声符号化の図である。FIG. 9 is a diagram of speech encoding according to the embodiment of FIG.

【符号の説明】[Explanation of symbols]

802 ピッチサブフレーム 804 ピッチサブフレーム 806 ピッチ分析ウインドウ 808 サブフレーム 802 pitch subframe 804 pitch subframe 806 pitch analysis window 808 subframe

フロントページの続き (72)発明者 トム・ホン・リー アメリカ合衆国、07748 ニュージャージ ー州、ミドルタウン、ノウルウッド・ドラ イブ、501Front Page Continuation (72) Inventor Tom Hong Lee, 501, Knowwood Drive, Middletown, NJ, 07748, USA

Claims (20)

【特許請求の範囲】[Claims] 【請求項1】 音声量子化および圧縮のためにピッチラ
グを評価するためのシステムであって、音声は複数の音
声サンプルによって規定され、現在の音声サンプルの評
価は過去のサンプルの線形結合に従う時間域で決定さ
れ、前記システムは、 音声サンプルに第1の離散フーリエ変換(DFT)を適
用するための手段を含み、前記第1のDFTは関連した
振幅を有し、さらに、 前記第1のDFTの前記振幅を二乗するための手段と、 前記二乗された振幅に対して第2のDFTを適用するた
めの手段と、 時間域変換された音声サンプルに従って初期のピッチラ
グ値を決定するための手段と、 精密化されたピッチラグ値に従って前記音声サンプルを
符号化するための手段とを含む、音声量子化および圧縮
のためにピッチラグを評価するためのシステム。
1. A system for estimating pitch lag for speech quantization and compression, wherein speech is defined by a plurality of speech samples, wherein the estimation of the current speech sample follows a linear combination of past samples. And the system includes means for applying a first discrete Fourier transform (DFT) to the audio samples, the first DFT having an associated amplitude, and further comprising: Means for squaring the amplitude, means for applying a second DFT to the squared amplitude, means for determining an initial pitch lag value according to a time domain transformed speech sample, Means for encoding said speech samples according to a refined pitch lag value, and a system for evaluating pitch lag for speech quantization and compression. Temu.
【請求項2】 前記初期のピッチラグ値は関連した予測
誤差を有し、前記システムは前記初期のピッチラグ値を
精密化するための手段をさらに含み、前記関連した予測
誤差は最小にされる、請求項1に記載のシステム。
2. The initial pitch lag value has an associated prediction error, and the system further includes means for refining the initial pitch lag value, the associated prediction error being minimized. The system according to Item 1.
【請求項3】 前記複数の音声サンプルを現在の符号化
フレームへ分類するための手段と、 前記符号化フレームを複数のピッチサブフレームへ分割
するための手段と、 前記ピッチサブフレームを複数の符号化サブフレームへ
細分するための手段と、 前記現在の符号化フレームにおける各ピッチサブフレー
ムの最後の符号化サブフレームに対して、それぞれラグ
評価を表わす初期のピッチラグ評価lag1 およびla
2 を評価するための手段と、 先行の符号化フレームにおける第2のピッチサブフレー
ムのピッチラグ評価lag0 を精密化するための手段
と、 lag1 、lag2 、およびlag0 を線形的に補間
し、前記符号化サブフレームのピッチラグ値を評価する
ための手段と、 各符号化サブフレームの補間されたピッチラグをさらに
精密化するための手段とをさらに含む、請求項1に記載
のシステム。
3. Means for classifying the plurality of speech samples into a current coded frame, means for dividing the coded frame into a plurality of pitch subframes, and the pitch subframe with a plurality of codes. Means for subdividing into coded subframes, and initial pitch lag estimates lag 1 and la representing lag estimates, respectively, for the last coded subframe of each pitch subframe in the current coded frame.
means for evaluating the g 2, and means for refining the pitch lag estimation lag 0 of the second pitch subframe in the previous coding frame, lag 1, lag 2, and linearly interpolating lag 0 The system of claim 1, further comprising means for evaluating a pitch lag value for the encoded subframes and means for further refining the interpolated pitch lag for each encoded subframe.
【請求項4】 少数のサンプルで概略的に表わすために
ダウンサンプリング値へ前記音声サンプルをダウンサン
プリングするための手段をさらに含む、請求項1に記載
のシステム。
4. The system of claim 1, further comprising means for down-sampling the audio samples to a down-sampling value for a schematic representation with a small number of samples.
【請求項5】 前記初期のピッチラグ値は式(Lag
scaled=音声サンプルの数/ダウンサンプリング値)に
よって補正される、請求項4に記載のシステム。
5. The initial pitch lag value is calculated by the equation (Lag
System according to claim 4, corrected by scaled = number of audio samples / downsampled value).
【請求項6】 前記初期のピッチラグ値を精密化するた
めの前記手段は自己相関を含む、請求項1に記載のシス
テム。
6. The system of claim 1, wherein the means for refining the initial pitch lag value comprises autocorrelation.
【請求項7】 前記音声サンプルを受けるための音声入
力手段と、 前記精密化されたピッチラグ値を処理し、符号化された
音声として入力音声を再現するためのコンピュータと、 前記符号化された音声を出力するための音声出力手段と
をさらに含む、請求項1に記載のシステム。
7. Speech input means for receiving said speech samples, a computer for processing said refined pitch lag value and reproducing the input speech as encoded speech, said encoded speech. The system according to claim 1, further comprising: an audio output means for outputting the.
【請求項8】 入力音声を再現および符号化するための
音声符号化装置であって、前記音声符号化装置は線形予
測符号化(LPC)パラメータと、音声を発生するため
に音声再現を誘起するように参照される複数のベクトル
を表わす新規コードブックとを用いるようにされてお
り、前記音声符号化装置は、 前記入力音声を受けるための音声入力手段と、 前記入力音声を処理するためのコンピュータとを含み、
前記コンピュータは、 前記入力音声内の現在の符号化フレームを切出すための
手段と、 前記符号化フレームを複数のピッチサブフレームへ分割
するための手段と、 N個の音声サンプルを有するピッチ分析ウインドウを規
定するための手段とを含み、前記ピッチ分析ウインドウ
は前記ピッチサブフレームに対して延び、前記コンピュ
ータは、 各ピッチサブフレームに対して初期のピッチラグ値を評
価するための手段と、 各ピッチサブフレームを複数の符号化サブフレームへ分
割するための手段とを含み、各ピッチサブフレームに対
する前記初期のピッチラグ評価は、前記現在の符号化フ
レームにおける各ピッチサブフレームの最後の符号化サ
ブフレームに対するラグ評価を表わし、前記コンピュー
タは、 前記評価されたピッチラグ値を前記ピッチサブフレーム
の間で線形的に補間し、各符号化サブフレームに対して
ピッチラグ評価を決定するための手段と、 各符号化サブフレームの前記線形的に補間されたラグ値
を精密化するための手段とを含み、前記装置はさらに、 前記精密化されたピッチラグ値に従って再現された音声
を出力するための音声出力手段を含む、入力音声を再現
および符号化するための音声符号化装置。
8. A speech coder for reproducing and encoding input speech, said speech coder inducing linear predictive coding (LPC) parameters and speech reproduction for generating speech. A new codebook representing a plurality of vectors referred to in the above is used, and the speech coding apparatus comprises a speech input means for receiving the input speech, and a computer for processing the input speech. Including and
The computer has means for cutting out a current coded frame in the input speech, means for dividing the coded frame into a plurality of pitch subframes, and a pitch analysis window having N speech samples. And a means for defining an initial pitch lag value for each pitch subframe, and the pitch analysis window extending for each pitch subframe. Means for dividing a frame into a plurality of coded subframes, the initial pitch lag estimate for each pitch subframe being a lag for the last coded subframe of each pitch subframe in the current coded frame. Representing an evaluation, the computer provides the evaluated pitch lag value to the Means for linearly interpolating between coded subframes and determining a pitch lag estimate for each coded subframe, and means for refining the linearly interpolated lag value of each coded subframe And a speech coding apparatus for reproducing and coding an input speech, the apparatus further comprising speech output means for outputting speech reproduced according to the refined pitch lag value.
【請求項9】 前記コンピュータは、 少数のサンプルで表わすためにダウンサンプリング値X
へ前記N個の音声サンプルをダウンサンプリングするた
めの手段と、 補正されたラグ値Lagscaled=N/Xであるように前
記ピッチラグ値を補正するための手段とをさらに含む、
請求項8に記載の装置。
9. The computer uses a downsampled value X to represent a small number of samples.
Further comprising means for down-sampling the N speech samples, and means for correcting the pitch lag value such that the corrected lag value Lag scaled = N / X.
The device according to claim 8.
【請求項10】 サンプリング速度Rで前記入力音声を
サンプリングするサンプリング手段をさらに含み、前記
N個の音声サンプルは式N=R*Xに従って決定され
る、請求項8に記載の装置。
10. The apparatus of claim 8, further comprising sampling means for sampling the input speech at a sampling rate R, the N speech samples being determined according to the equation N = R * X.
【請求項11】 X=25ms、R=8000Hz、お
よびN=320サンプルである、請求項10に記載の装
置。
11. The apparatus according to claim 10, wherein X = 25 ms, R = 8000 Hz, and N = 320 samples.
【請求項12】 各符号化フレームはおおよそ40ms
の長さを有する、請求項8に記載の装置。
12. Each coded frame is approximately 40 ms
9. The device of claim 8 having a length of.
【請求項13】 音声量子化および圧縮のためにピッチ
ラグを評価するための方法であって、前記音声は複数の
音声サンプルによって規定され、現在の音声サンプルの
評価は過去のサンプルの線形結合に従う時間域で決定さ
れ、前記方法は、 音声サンプルに第1の離散フーリエ変換(DFT)を適
用するステップを含み、前記第1のDFTは関連した振
幅を有し、さらに、 前記第1のDFTの振幅を二乗するステップと、 前記第1のDFTの前記二乗された振幅に対して第2の
DFTを適用するステップと、 時間域変換された音声サンプルに従って初期のピッチラ
グ値を決定するステップとを含み、前記初期のピッチラ
グ値は関連した予測誤差を有し、前記方法はさらに、 自己相関を用いて前記初期のピッチラグ値を精密化する
ステップを含み、前記関連した予測誤差は最小にされ、
さらに、 前記精密化されたピッチラグ値に従って前記音声サンプ
ルを符号化するステップを含む、音声量子化および圧縮
のためにピッチラグを評価するための方法。
13. A method for estimating pitch lag for speech quantization and compression, wherein said speech is defined by a plurality of speech samples, wherein the estimation of the current speech sample follows a linear combination of past samples. Determined in the domain, the method comprising: applying a first Discrete Fourier Transform (DFT) to the audio samples, the first DFT having an associated amplitude, and further comprising the amplitude of the first DFT. Squared, applying a second DFT to the squared amplitude of the first DFT, and determining an initial pitch lag value according to a time domain transformed speech sample, The initial pitch lag value has an associated prediction error, and the method further comprises: refining the initial pitch lag value using autocorrelation. Look, the associated prediction error is minimized,
Further, a method for estimating pitch lag for speech quantization and compression, comprising encoding the speech samples according to the refined pitch lag value.
【請求項14】 前記複数の音声サンプルを現在の符号
化フレームへ分類するステップと、 前記符号化フレームを複数のピッチサブフレームへ分割
するステップと、 前記ピッチサブフレームを複数の符号化サブフレームへ
細分するステップと、 前記現在の符号化フレームにおける各ピッチサブフレー
ムの最後の符号化サブフレームに対して、それぞれラグ
評価を表わす初期のピッチラグ評価lag1 およびla
2 をそれぞれ評価するステップと、 先行の符号化フレームにおける第2のピッチサブフレー
ムのピッチラグ評価lag0 を精密化するステップと、 lag1 、lag2 、およびlag0 を線形的に補間
し、前記符号化サブフレームのピッチラグ値を評価する
ステップと、 各符号化サブフレームの補間されたピッチラグをさらに
精密化するステップとをさらに含む、請求項13に記載
の方法。
14. Classifying the plurality of speech samples into a current coded frame, dividing the coded frame into a plurality of pitch subframes, and dividing the pitch subframe into a plurality of coded subframes. Subdividing, and for the last coded subframe of each pitch subframe in the current coded frame, an initial pitch lag estimate lag 1 and la representing a lag estimate, respectively.
evaluating g 2 respectively, refining the pitch lag estimate lag 0 of the second pitch subframe in the preceding coded frame, linearly interpolating lag 1 , lag 2 , and lag 0 , said 14. The method of claim 13, further comprising evaluating pitch lag values for encoded subframes and further refining the interpolated pitch lag for each encoded subframe.
【請求項15】 少数のサンプルで概略的に表わすため
にダウンサンプリング値へ前記音声サンプルをダウンサ
ンプリングするステップをさらに含む、請求項13に記
載の方法。
15. The method of claim 13, further comprising the step of down-sampling the speech samples to down-sampled values for a schematic representation with a small number of samples.
【請求項16】 式(Lagscaled=音声サンプルの数
/ダウンサンプリング値)に従って前記初期のピッチラ
グ値を補正するステップをさらに含む、請求項15に記
載の方法。
16. The method of claim 15, further comprising correcting the initial pitch lag value according to an equation (Lag scaled = number of voice samples / downsampled value).
【請求項17】 前記音声サンプルを受けるステップ
と、 前記精密化されたピッチラグ値を処理し、符号化された
音声として前記入力音声を再現するステップと、 前記符号化された音声を出力するステップとをさらに含
む、請求項13に記載のシステム。
17. A step of receiving the speech samples, a step of processing the refined pitch lag value to reproduce the input speech as encoded speech, and a step of outputting the encoded speech. 14. The system of claim 13, further comprising:
【請求項18】 入力音声を再現および符合化するため
の音声符号化方法であって、音声符号化装置は線形予測
符号化(LPC)パラメータと、音声を発生するために
音声再現を誘起するように参照される複数のベクトルを
形成する擬似ランダム信号を表わす新規コードブックと
を用いるようにされており、前記音声符号化方法は、 前記入力音声を受取り、処理するステップと、 前記入力音声を処理するステップとを含み、前記処理す
るステップは、 前記入力音声内で音声符号化フレームを決定するステッ
プと、 前記符号化フレームを複数のピッチサブフレームへ細分
するステップと、 N個の音声サンプルを有するピッチ分析ウインドウを規
定するステップとを含み、前記ピッチ分析ウインドウは
前記ピッチサブフレームにわたって延び、前記処理する
ステップは、 各ピッチサブフレームに対して初期のピッチラグ価を概
略的に評価するステップと、 各ピッチサブフレームに対する初期のピッチラグ評価が
各ピッチサブフレームの最後の符号化サブフレームに対
するラグ評価を表わすように、各ピッチサブフレームを
複数の符号化サブフレームへ分割するステップと、 前記評価されたピッチラグ値を前記ピッチサブフレーム
の間で補間し、各符号化サブフレームに対してピッチラ
グ評価を決定するステップと、 線形的に補間されたラグ値を精密化するステップとを含
み、前記方法はさらに、 精密化されたピッチラグ値に従って再現された音声を出
力するステップを含む、入力音声を再現および符号化す
るための音声符号化方法。
18. A speech coding method for reproducing and coding an input speech, wherein the speech coding device induces a linear predictive coding (LPC) parameter and a speech reproduction to generate a speech. And a new codebook that represents a pseudo-random signal forming a plurality of vectors, the speech coding method comprising: receiving and processing the input speech; and processing the input speech. The step of processing comprises: determining a speech coded frame in the input speech; subdividing the coded frame into a plurality of pitch subframes; and N speech samples. Defining a pitch analysis window, the pitch analysis window extending over the pitch subframe, The processing step is a step of roughly evaluating an initial pitch lag value for each pitch subframe, and an initial pitch lag evaluation for each pitch subframe is a lag evaluation for the last coding subframe of each pitch subframe. To divide each pitch subframe into a plurality of coded subframes, interpolating the evaluated pitch lag value between the pitch subframes, and performing pitch lag evaluation for each coded subframe. Determining the input speech and refining the linearly interpolated lag value, the method further comprising: reproducing the input speech and outputting the reproduced speech according to the refined pitch lag value. Speech coding method for coding.
【請求項19】 前記処理するステップは、 少数のサンプルで表わすためにダウンサンプリング値X
へ前記N個の音声サンプルをダウンサンプルするステッ
プと、 補正されたラグ値Lagscaled=N/Xであるように前
記ピッチラグ値を補正するステップとをさらに含む、請
求項18に記載の装置。
19. The step of processing comprises downsampling a value X to represent a small number of samples.
19. The apparatus of claim 18, further comprising the steps of down-sampling the N speech samples and correcting the pitch lag value such that the corrected lag value Lag scaled = N / X.
【請求項20】 前記N個の音声サンプルが式N=R*
Xに従って決定されるように、サンプリング速度Rで前
記入力音声をサンプリングするステップをさらに含む、
請求項18に記載の方法。
20. The N speech samples have the formula N = R *.
Further comprising sampling the input speech at a sampling rate R, as determined according to X,
The method according to claim 18.
JP7295266A 1994-11-21 1995-11-14 System and method for evaluation of pitch lag as well as apparatus and method for coding of sound Withdrawn JPH08211895A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US34249494A 1994-11-21 1994-11-21
US08/342494 1994-11-21

Publications (1)

Publication Number Publication Date
JPH08211895A true JPH08211895A (en) 1996-08-20

Family

ID=23342074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7295266A Withdrawn JPH08211895A (en) 1994-11-21 1995-11-14 System and method for evaluation of pitch lag as well as apparatus and method for coding of sound

Country Status (3)

Country Link
EP (1) EP0713208B1 (en)
JP (1) JPH08211895A (en)
DE (1) DE69525508T2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999038156A1 (en) * 1998-01-26 1999-07-29 Matsushita Electric Industrial Co., Ltd. Method and device for emphasizing pitch
WO2001003115A1 (en) * 1999-06-30 2001-01-11 Matsushita Electric Industrial Co., Ltd. Audio decoder and coding error compensating method
JP2002525662A (en) * 1998-09-11 2002-08-13 モトローラ・インコーポレイテッド Method and apparatus for encoding an information signal using delay contour adjustment
WO2004097796A1 (en) * 2003-04-30 2004-11-11 Matsushita Electric Industrial Co., Ltd. Audio encoding device, audio decoding device, audio encoding method, and audio decoding method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5097508A (en) * 1989-08-31 1992-03-17 Codex Corporation Digital speech coder having improved long term lag parameter determination
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999038156A1 (en) * 1998-01-26 1999-07-29 Matsushita Electric Industrial Co., Ltd. Method and device for emphasizing pitch
JP2002525662A (en) * 1998-09-11 2002-08-13 モトローラ・インコーポレイテッド Method and apparatus for encoding an information signal using delay contour adjustment
WO2001003115A1 (en) * 1999-06-30 2001-01-11 Matsushita Electric Industrial Co., Ltd. Audio decoder and coding error compensating method
US7171354B1 (en) 1999-06-30 2007-01-30 Matsushita Electric Industrial Co., Ltd. Audio decoder and coding error compensating method
US7499853B2 (en) 1999-06-30 2009-03-03 Panasonic Corporation Speech decoder and code error compensation method
WO2004097796A1 (en) * 2003-04-30 2004-11-11 Matsushita Electric Industrial Co., Ltd. Audio encoding device, audio decoding device, audio encoding method, and audio decoding method

Also Published As

Publication number Publication date
EP0713208A2 (en) 1996-05-22
DE69525508T2 (en) 2002-06-20
EP0713208B1 (en) 2002-02-20
DE69525508D1 (en) 2002-03-28
EP0713208A3 (en) 1997-12-10

Similar Documents

Publication Publication Date Title
US5781880A (en) Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
Giacobello et al. Sparse linear prediction and its applications to speech processing
US6202046B1 (en) Background noise/speech classification method
JP3557662B2 (en) Speech encoding method and speech decoding method, and speech encoding device and speech decoding device
US6345248B1 (en) Low bit-rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
KR20020052191A (en) Variable bit-rate celp coding of speech with phonetic classification
CN109509483B (en) Decoder for generating frequency enhanced audio signal and encoder for generating encoded signal
JP3180762B2 (en) Audio encoding device and audio decoding device
KR100497788B1 (en) Method and apparatus for searching an excitation codebook in a code excited linear prediction coder
US5884251A (en) Voice coding and decoding method and device therefor
KR100463417B1 (en) The pitch estimation algorithm by using the ratio of the maximum peak to candidates for the maximum of the autocorrelation function
JP3180786B2 (en) Audio encoding method and audio encoding device
JP2004163959A (en) Generalized abs speech encoding method and encoding device using such method
KR100499047B1 (en) Apparatus and method for transcoding between CELP type codecs with a different bandwidths
JP2002268686A (en) Voice coder and voice decoder
JP3531780B2 (en) Voice encoding method and decoding method
JPH08211895A (en) System and method for evaluation of pitch lag as well as apparatus and method for coding of sound
JPH0782360B2 (en) Speech analysis and synthesis method
JP3559485B2 (en) Post-processing method and device for audio signal and recording medium recording program
JP3319396B2 (en) Speech encoder and speech encoder / decoder
KR20050007853A (en) Open-loop pitch estimation method in transcoder and apparatus thereof
KR0155798B1 (en) Vocoder and the method thereof
JP3299099B2 (en) Audio coding device
KR100554164B1 (en) Transcoder between two speech codecs having difference CELP type and method thereof
JP2001142499A (en) Speech encoding device and speech decoding device

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20030204