JPH0198000A - Method and apparatus for processing voice signal - Google Patents

Method and apparatus for processing voice signal

Info

Publication number
JPH0198000A
JPH0198000A JP1503187A JP1503187A JPH0198000A JP H0198000 A JPH0198000 A JP H0198000A JP 1503187 A JP1503187 A JP 1503187A JP 1503187 A JP1503187 A JP 1503187A JP H0198000 A JPH0198000 A JP H0198000A
Authority
JP
Japan
Prior art keywords
signal
audio
amplitude
processing
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1503187A
Other languages
Japanese (ja)
Inventor
Jaswant R Jain
ジャスワント・アール・ジェイン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Racal Data Communications Inc
Original Assignee
Racal Data Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Racal Data Communications Inc filed Critical Racal Data Communications Inc
Publication of JPH0198000A publication Critical patent/JPH0198000A/en
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

PURPOSE: To inexpensively attain improved voice signal processing by using a voice envelope as a normalized function and normalizing each point of a voice signal. CONSTITUTION: An input signal 10 is processed by an absolute value circuit 12 for outputting a signal always indicating a positive value at first to detect the peak value of the input signal 10. A low pass filter(LPF) 16 smoothes an output from the circuit 12 and outputs a signal 18 similar to the positive half of an envelope of a voice signal and the signal 18 is sampled by a subsampling block 20 to be driven by a rate lower than a practical sampling rate. An output from the block 20 is quantized by a quantizing circuit 22 and the quantized output is sent to an interpolation block 24, which executes interpolating processing in order to prepare an amplitude function. In the interpolating processing, an amplitude function point is prepared in each sample of the input voice signal and the amplitude function is divided into voice signals in each point in order to normalize the voice signals. Consequently improved voice processing can be inexpensively executed.

Description

【発明の詳細な説明】 〈産業上の利用分野〉 この発明は一般的に音声処理の分野に関する。[Detailed description of the invention] <Industrial application field> TECHNICAL FIELD This invention relates generally to the field of audio processing.

より詳しくは、この発明は、ショートタームおよびベリ
ーショートタームの振幅変化がある間の音声処理を改良
するために、点ごとの正曵化技術を用いる音声を処理す
る方法とその装置に関する。
More particularly, the present invention relates to a method and apparatus for processing speech using a point-by-point biasing technique to improve speech processing during short-term and very short-term amplitude changes.

これらの振幅の変化は、通常フレーム又はサブフレーム
を導入した音声処理システムによっては正確に再生され
ない。この発明は、符号化およびピッチ検出領域を含む
音声処理分野に広く適用される。
These amplitude changes are not normally reproduced accurately by audio processing systems that introduce frames or subframes. The invention has wide application in the field of audio processing, including encoding and pitch detection areas.

〈従来の技術〉 従来、下記の文献が発表されている。<Conventional technology> Conventionally, the following documents have been published.

[1コ ビー・ニス・アタールおよびエム・アール・シ
ュローダ、“音声信号の適応予測符号化”、ベルシステ
ム・テクニカル・ジャーナル、VOL、49゜pp、1
973−1986.1970年10月。
[1 Co. B. Nis Attar and M. R. Schroeder, “Adaptive Predictive Coding of Audio Signals”, Bell System Technical Journal, VOL, 49°pp, 1
973-1986. October 1970.

(B、S、Atal and M、R,5chroed
er、“p、 dapt tve Predictiv
e Coding of 5peech S igna
ls@。
(B, S, Atal and M, R, 5chroed
er, “p, dapt tve Predictiv
e Coding of 5peech Signa
ls@.

Be1l 5yst、Tech、 J 、、Vol、4
9 、pp、 l 973−1986.Oct、197
0.) [2]エム・ファー・サビンおよびアール・エム・グレ
イ、“波形と音声符号化のための積符号ベクトル量子化
装置“音響、音声および信号処理に関するIEEE会報
、Vol、ASSP−32,pp、474−488.1
984年6月。
Be1l 5yst, Tech, J,, Vol, 4
9, pp. l 973-1986. Oct, 197
0. ) [2] M. Farr Sabin and R. M. Gray, “Product Code Vector Quantizer for Waveform and Speech Coding,” IEEE Bulletin on Acoustics, Speech and Signal Processing, Vol. ASSP-32, pp. 474-488.1
June 984.

(M、J 、5abin and R,M、Gray、
“Product Code Vector Quan
tizers for W、aveform and 
V。
(M, J, 5abin and R, M, Gray,
“Product Code Vector Quan
tizers for W, aveform and
V.

ice Coding”、 I EEE Trans、
on Acoust、、5peech、and sig
nal processing、Vol、A S S 
P −32、pp、474−488.June 198
4.)[3]テイー・トレメイン、“政府標準の適応予
測符号化アルゴリズム”、音声技術、pp、52−62
 。
ice Coding", IEEE Trans,
on Acoust,, 5peech, and sig
nal processing, Vol, A S S
P-32, pp, 474-488. June 198
4. ) [3] Tay Tremaine, “Government Standard Adaptive Predictive Coding Algorithm”, Speech Technology, pp, 52-62
.

1985年2月。February 1985.

(T 、 ’f remain、“The Gover
nment 5tandardAdaptive Pr
edictive Coding Algorithm
”、5peech Technology、pP、 5
2−62 、February 1985、) [4]エム・エム・ソンディ、′新しいピッチ抽出法”
、IEEE会報、音声と電気音響、Vol、AU−16
,pp、262−266.1968年6月。
(T, 'f remain, “The Gover
nment 5standardAdaptive Pr
editive coding algorithm
”, 5peech Technology, pP, 5
2-62, February 1985,) [4] M.M. Sondhi, 'New Pitch Extraction Method'
, IEEE Bulletin, Speech and Electroacoustics, Vol, AU-16
, pp. 262-266. June 1968.

(M、M、5ondhi、’New Methods 
of Pitch EXtraetiOn’、 I E
EE Trans、Audio and Electr
oacoustics、Vol、AU −16、pp、
 262−266、June 196B、) [5]エル・アール・ラビナーおよびアール・ダブル・
シャーファー“音声信号のデジタル処理“、pp、15
0−157.プレンティス−ホール、イングルウッド・
クリフス、ニュージャージ、1978年。
(M, M, 5ondhi, 'New Methods
of Pitch EXtraetiOn', IE
EE Trans, Audio and Electr
oacoustics, Vol, AU-16, pp,
262-266, June 196B,) [5] L. R. Rabiner and R. Double.
Schafer “Digital processing of audio signals”, pp, 15
0-157. Prentice-Hall, Englewood
Cliffs, New Jersey, 1978.

(L、R,Rabiner and R,W、5cha
rer、DigitaI Processing of
 5peech S ignals、pp、 150−
157 、 P rentice −Hall、Eng
jewood Cjiffs。
(L, R, Rabiner and R, W, 5cha
rer, Digital Processing of
5peech Signals, pp, 150-
157, Prentice-Hall, Eng.
jewood cjiffs.

N、J、、1978.) [6コエヌ・ニス・ジャイアント、“−単語メモリーを
有する適応量子化“、ベルシステム・テクニカル・ジャ
ーナル、Vol、52 、pI)、 1119−114
4.1973年9月。
N.J., 1978. ) [6 Coen Nis Giant, “-Adaptive Quantization with Word Memory”, Bell System Technical Journal, Vol. 52, pI), 1119-114
4. September 1973.

(N、S、Jayant、“Adaptive Qua
ntization with One Word M
emory’、Be1l  5yst、Tech、 J
 、。
(N.S. Jayant, “Adaptive Qua
ntification with One Word M
emory', Be1l 5yst, Tech, J
,.

Vol、52.pp、 1119−1144.Sept
ember1973、) [7]エム・ホンダおよびエフ・イタクラ、“音声の予
測符号化のための時間と周波数領域におけるビット割り
当て°、音音響音音声よび信号処理に関するIEEE会
報、Vol、ASSP−32,pp、465−473.
1984年6月。
Vol, 52. pp, 1119-1144. Sept
[7] M. Honda and F. Itakura, “Bit Allocation in the Time and Frequency Domain for Predictive Coding of Speech,” IEEE Bulletin on Audio-Acoustic Speech and Signal Processing, Vol. ASSP-32, pp. , 465-473.
June 1984.

(M、Honda and F 、 1 takura
、“Bit A11ocation in Time 
and Frequency Domain for 
Predictive Coding of 5pee
ch”、 I EBE Trans、onAcoust
、、5peech、and Signal Proce
ssing、V。
(M, Honda and F, 1 takura
, “Bit A11ocation in Time
and Frequency Domain for
Predictive Coding of 5pee
ch”, I EBE Trans, onAcoust
,,5peech,and Signal Proce
ssing, V.

1、As5P−32,pp、465−473.June
 1984、) 従来、音声波形のブロック毎の正規化は音声処理システ
ムにおいて広く用いられている。2つの例があり、1つ
は10−30ミリ秒のブロック(すなわちフレーム)サ
イズを有するAPC方法であり(文献[11)、このA
PC方法においては残留信号が利得により正規化される
1, As5P-32, pp, 465-473. June
(1984, ) Conventionally, block-by-block normalization of audio waveforms has been widely used in audio processing systems. There are two examples, one is the APC method with a block (i.e. frame) size of 10-30 ms (ref. [11]), and this
In the PC method, the residual signal is normalized by a gain.

もう1つは、0.5〜1ミリ秒のブロック(すなわちベ
クトル)サイズを有する波形ゲインベクトル量子化(S
GVQ)である(文献[2])。この方法はベクトルが
その実効値によって正規化される。
The other is waveform gain vector quantization (S
GVQ) (Reference [2]). In this method, the vector is normalized by its effective value.

上記APC方法においては、正規化は単一利得値によっ
てフレーム全体にわたって行なわれる。
In the above APC method, normalization is performed over the entire frame by a single gain value.

このことは、信号振幅がフレームを越えて急速に変化し
た時に明らかに問題を生じる。上記問題を部分的に解決
するためには、一つのブロックをいくつかのサブブロッ
クに分割するように、フレーム毎にいくつかの利得値(
スケールファクター)を見出すことである(文献[3]
)。中間クリッピングが、高調波構造による相関ピーク
をさけるために用いられるピッチ検出の自己相関法にお
いても同様の問題に遭遇する(文献[4] [5])。
This clearly creates problems when the signal amplitude changes rapidly across frames. To partially solve the above problem, it is possible to divide one block into several sub-blocks by dividing several gain values (
scale factor) (Reference [3]
). A similar problem is encountered in autocorrelation methods of pitch detection, where intermediate clipping is used to avoid correlation peaks due to harmonic structures (References [4] [5]).

後に示されるように、この中間クリッピングの方法は、
ある場合には所期の目的を達成しないことがある。
As shown later, this method of intermediate clipping is
In some cases, the intended purpose may not be achieved.

ジャイアント(J ayant)の後方適応量子化(文
献[6])は信号振幅を予測することにより、量子化装
置に供給された信号の無条件な点ごとの正規化を行なう
。しかしながら、この形式の正規化は、特に量子化方法
に適しているが、その正規化関数(ステップサイズ)も
正規化信号は他の目的のためには役に立たない。
Jayant's backward adaptive quantization (ref. [6]) performs an unconditional point-by-point normalization of the signal fed to the quantizer by predicting the signal amplitude. However, although this form of normalization is particularly suitable for quantization methods, the normalization function (step size) also makes the normalized signal useless for other purposes.

本発明は、符号化を含む音声処理の多くの分野において
非常に広範な適用能力を有する点ごとの振幅正規化方法
を使用している。
The present invention uses a point-wise amplitude normalization method that has very broad applicability in many areas of audio processing, including encoding.

上記従来技術のいずれも、本発明によって示されたごと
く、ディジタル化された音声をより正確に再生又は符号
化するために、補間および正規化と共に音声信号の包絡
線の正半分のサブレート標本間を行なうことをしていな
い。
Any of the above prior art techniques, as shown by the present invention, utilizes interpolation and normalization as well as interpolation and normalization between subrate samples of the positive half of the envelope of the audio signal in order to more accurately reproduce or encode digitized audio. not doing what is to be done.

〈発明の目的・構成・効果〉 そこで、この発明の目的は比較的低価格で改良された音
声信号処理を達成する音声を処理する方法と装置を提供
することである。
<Objects, Structure, and Effects of the Invention> Accordingly, an object of the present invention is to provide a method and apparatus for processing audio that achieves improved audio signal processing at a relatively low cost.

この発明の他の目的はショートターム又はベリーショー
トタームの著しい振幅変化の間に改良された音声処理を
行なうところの音声を処理する方法を提供することであ
る。。
Another object of the invention is to provide a method for processing speech that provides improved speech processing during significant amplitude changes in short terms or very short terms. .

さらに、この発明の目的は正規化関数として音声包絡線
を用いることによって音声信号の点ごとの正規化を行な
う音声を処理する方法と装置を提供することにある。
Furthermore, it is an object of the invention to provide a method and apparatus for processing speech that provides point-wise normalization of the speech signal by using the speech envelope as the normalization function.

本発明の目的は、信号の振幅と共に変化する平滑関数を
見出すことによって達成される。下記の実施例において
は、この平滑関数は音声信号の上半分包絡線の形をとっ
ているが、他の適当な関数を用いてもよい。この関数に
よって信号の点ごとの分割が行なわれるとき、その結果
得られる波形は全体に渡ってかなり一定の振幅を有する
The object of the invention is achieved by finding a smoothing function that varies with the amplitude of the signal. In the example described below, this smoothing function is in the form of the upper half envelope of the audio signal, but other suitable functions may be used. When this function performs a point-by-point division of the signal, the resulting waveform has a fairly constant amplitude throughout.

以下の記述において、ピッチからピッチすなわちフレー
ムからフレームまでに発生する振幅変化をショニトター
ム(ST)と呼び、ピッチ期間内に発生する振幅変化を
ベリーショートターム(VST)あるいはピッチ内変化
と呼ぶものとする。その適用と期待される効果は、ショ
ートターム正規化あるいはベリーショートターム正規化
が適切化どうかを決定する。それ故、振幅関数を計算す
る方法は下記の実施例において期待される正規化し一ト
を生じるために選択するパラメータであるべきである。
In the following description, the amplitude change that occurs from pitch to pitch, that is, from frame to frame, is called a short term (ST), and the amplitude change that occurs within a pitch period is called a very short term (VST) or intra-pitch change. . Its application and expected effects will determine whether short-term normalization or very short-term normalization is appropriate. Therefore, the method of calculating the amplitude function should be the parameter chosen to yield the expected normalized tones in the examples below.

本発明の上記の目的は、本発明の下記の記述により明ら
かとなるであろう。
The above objects of the invention will become apparent from the following description of the invention.

本発明の一つの実施例において、音声信号を処理する方
法は、音声信号の絶対値を得るステップと正半分包絡線
関数(振幅関数)を得るために音声信号の絶対値をとっ
て低域濾過するステップを含む。この正半分包絡線関数
はその後サブレート標本化され、サブレート標本間の値
は模擬振幅を作るための補間によって決定される。音声
信号はそのあと上記振幅関数によって正規化され広帯域
符号化される。
In one embodiment of the present invention, a method for processing an audio signal includes the steps of: obtaining the absolute value of the audio signal; and low-pass filtering the absolute value of the audio signal to obtain a positive half envelope function (amplitude function). including steps to This positive half envelope function is then subrate sampled and the values between subrate samples are determined by interpolation to create simulated amplitudes. The audio signal is then normalized by the amplitude function and wideband encoded.

本発明の他の実施例において、音声信号を処理する装置
は、音声信号をうける入力回路を含む。
In another embodiment of the invention, an apparatus for processing audio signals includes an input circuit for receiving audio signals.

この回路は、音声入力信号を、音声信号の正(又は負)
半分包絡線特性を有する振幅関数に変換するために音声
入力に結合される。正規化回路は、入力回路に結合され
、音声信号の正規化を行なうために、音声信号を振幅関
数で割っている。
This circuit converts the audio input signal to the positive (or negative) of the audio signal.
It is coupled to the audio input to convert it into an amplitude function with half-envelope characteristics. A normalization circuit is coupled to the input circuit and divides the audio signal by an amplitude function to perform normalization of the audio signal.

〈実施例〉 以下、この発明を図示の実施例により詳細に説明する。<Example> Hereinafter, the present invention will be explained in detail with reference to illustrated embodiments.

第1図は本発明の正規化方法のブロックダイアグラムを
示す。本実施例においては、本発明は当業者に知られて
いるプログラムされた処理装置を用いて実施されている
。それ故、第1図のブロックダイアグラムは機能ブロッ
クダイアグラムおよび操作フローダイアダラムの両方と
考えてよい。
FIG. 1 shows a block diagram of the normalization method of the present invention. In this embodiment, the invention is implemented using programmed processing equipment known to those skilled in the art. Therefore, the block diagram of FIG. 1 may be considered both a functional block diagram and an operational flow diagram.

ノード10に印加された入力信号は絶対性ブロック12
および遅延ブロック14に入力される。上記絶対性ブロ
ック12の出力は低域フィルタ16に入力される。上記
低域フィルタ16は高周波成分をとり除き正半分包絡線
信号18を出力する。
The input signal applied to node 10 is the absoluteness block 12
and is input to delay block 14. The output of the absoluteness block 12 is input to a low pass filter 16. The low-pass filter 16 removes high frequency components and outputs a positive half envelope signal 18.

上記正半分包絡線信号18は副標本化ブロック20で標
本化される。上記副標本化ブロック20の出力は量子化
回路22に入力される。上記副標本化ブロック20で標
本化された信号は上記量子化回路22において予め決め
られた量子化レベルのいずれか一つに量子化される。本
実施例においては、4又は5ビツトのみの量子化が用い
られているが、もちろんこれに限定されることはなく、
将来における個々の適用に大きく依存するものである。
The positive half envelope signal 18 is sampled in a sub-sampling block 20. The output of the sub-sampling block 20 is input to a quantization circuit 22. The signal sampled by the sub-sampling block 20 is quantized by the quantization circuit 22 to one of predetermined quantization levels. In this example, quantization of only 4 or 5 bits is used, but the invention is of course not limited to this.
Much depends on the individual application in the future.

上記量子化回路22の出力は補間ブロック24に入力さ
れる。上記補間ブロック24の出力はディバイダ26に
入力される。上記ディバイダ26は、上記遅延ブロック
14からの遅延出力を補間ブロック24の出力で割るこ
とにより正規化信号28を作るために用いられる。本質
的には、上記補間ブロック24の出力は図中にAFとし
て示され、振幅関数として参照された標本化包絡線信号
である。後処理においては、このAPは正規化信号28
お占び遅延信号32と同様に後処理ブロック30によっ
て用いられてよい。
The output of the quantization circuit 22 is input to an interpolation block 24. The output of the interpolation block 24 is input to a divider 26. The divider 26 is used to create a normalized signal 28 by dividing the delayed output from the delay block 14 by the output of the interpolation block 24. Essentially, the output of the interpolation block 24 is a sampled envelope signal, shown as AF in the figure, referenced as a function of amplitude. In post-processing, this AP uses the normalized signal 28
It may be used by the post-processing block 30 in the same way as the fortune-telling delay signal 32.

後処理ブロック30の中に示された後処理は当業者に知
られているような多くの形態をとってよい。たとえば、
音声データは符号化されて、例えば適応差分パルス符号
変FJ(ADPCM)符号を含む回路によって二進デー
タのストリームすなわち、フレームに組み込まれてもよ
い。このデジタル信号はその後、例えばモデムによって
遠隔場所での受信のために送信されることが出来る。
The post-processing shown in post-processing block 30 may take many forms as known to those skilled in the art. for example,
Audio data may be encoded into streams or frames of binary data by circuitry including, for example, an adaptive differential pulse code change FJ (ADPCM) code. This digital signal can then be transmitted for reception at a remote location, for example by a modem.

遠隔受信機はこのAP(上記量子化回路22からの量子
化されサブレート標本化された信号は容易に低価格で符
号化される)を用いて復正規化(掛は算)によって入力
信号を簡単に再生することが出来る。もちろん、模擬A
Fよりもむしろ量子化回路22からの信号が送信される
ならば、補間は受信機においても用いられる。もう一つ
の例においては、符号化とピッチ検出またはそのどちら
か一方は後処理の一部をなすことができる。このように
本発明の適用および実施においては多くの変形例が認め
られる。
The remote receiver uses this AP (the quantized and subrate sampled signal from the quantization circuit 22 is easily and inexpensively encoded) to simply denormalize the input signal. can be played. Of course, mock A
Interpolation is also used in the receiver if the signal from the quantizer circuit 22 rather than F is transmitted. In another example, encoding and/or pitch detection can be part of post-processing. Thus, many variations are possible in the application and practice of the present invention.

動作を説明すると、人力信号lOはまず、全て正値を有
する信号を出力する絶対値回路12によって処理される
。この処理は他の同等の処理で置き換えてもよい。例え
ば、半波整流器を用いて音声信号の下半分又は上半分を
切り取ってもよい。あるいは音声信号を自乗し、負成分
を取り去ってからその平方根を求めてもよい。いずれに
してもその目的は低域フィルタ16に対する準備のため
に入力信号のピーク値を検出することにある。低域フィ
ルタ16はその信号を平滑化して、音声信号の包絡線の
正半分に似た信号(音声信号を対称形とすれば)を出力
する。この信号18は、音声信号自身を標本化するのに
必要な実際の標本化レートよりも十分に低いレートで動
作する副標本化ブロック20によって標本化される。例
えばショートターム振幅正規化(STAN)に対しては
約100Hz、ベリーショートターム振幅標本化(V 
S TAN)に対しては約1000Hzである。はとん
どの音声を適用する場合においては、約100Hzから
約1000Hzの間のサブレート標本化レートは適当で
あるが、これに限定されるものではない。副標本化ブロ
ック20の出力は量子化回路22で量子化され、補間ブ
ロック24に送られる。
To explain the operation, the human input signal lO is first processed by the absolute value circuit 12 which outputs signals having all positive values. This process may be replaced by other equivalent processes. For example, a half-wave rectifier may be used to cut off the lower half or the upper half of the audio signal. Alternatively, the square root of the voice signal may be obtained after squaring the audio signal and removing the negative component. In any case, the purpose is to detect the peak value of the input signal in preparation for the low-pass filter 16. The low pass filter 16 smoothes the signal and outputs a signal that resembles the exact half of the envelope of the audio signal (assuming the audio signal is symmetrical). This signal 18 is sampled by a sub-sampling block 20 which operates at a rate well below the actual sampling rate required to sample the audio signal itself. For example, approximately 100 Hz for short-term amplitude normalization (STAN), very short-term amplitude sampling (V
STAN) is approximately 1000 Hz. For most audio applications, subrate sampling rates between about 100 Hz and about 1000 Hz are suitable, but are not limited thereto. The output of subsampling block 20 is quantized by quantization circuit 22 and sent to interpolation block 24 .

補間ブロック24では、後で述べるように振幅関数を作
るために補間処理が行なわれる。補間処理は入力音声信
号の各標本に対し、振幅関数上の点を作る。この振幅関
数は音声信号の正規化を行うために点ごとに音声信号に
分割される。
In the interpolation block 24, interpolation processing is performed to create an amplitude function as described later. The interpolation process creates a point on the amplitude function for each sample of the input audio signal. This amplitude function is divided point by point into the audio signal in order to normalize the audio signal.

上記実施例においては、低域フィルタが補間のために用
いられている。なお、計算効率を高めるために簡単な一
次線形補間を用いて、サブレート標本間に振幅関数上の
点を生成してもよい。他の知られた補間および曲線補間
は他の適用において有利性を証明するかも知れない。
In the above embodiments, a low pass filter is used for interpolation. Note that points on the amplitude function may be generated between subrate samples using simple linear interpolation in order to improve calculation efficiency. Other known interpolations and curve interpolations may prove advantageous in other applications.

そのような正規化は後処理のいくつかの形態において多
くの有利性を与える。量子化された振幅信号は低周波数
で標本化され、受信器への音声信号送信のための標本化
レートと比較されるので低価格となり、音声の過度フレ
ームを再生するのに高い精度を生じる。更に、正規化処
理は音声符号化に適用された時に著しい利点を有する。
Such normalization offers many advantages in some forms of post-processing. The quantized amplitude signal is sampled at a low frequency and compared to the sampling rate for transmitting the audio signal to the receiver, resulting in low cost and high accuracy in reproducing transient frames of audio. Furthermore, the normalization process has significant advantages when applied to speech coding.

上記音声信号は正規化されるので、その信号変化および
正確に信号を符号化するのに必要なビット数は減少し、
送信に必要な帯域が減ることになる。
Since the audio signal is normalized, its signal variation and the number of bits required to accurately encode the signal are reduced;
This will reduce the bandwidth required for transmission.

上記振幅関数(AF)は入力デジタル信号の絶対値を低
減胛遇することにより得るのが望ましい。
The amplitude function (AF) is preferably obtained by reducing the absolute value of the input digital signal.

このフィルタの遮断周波数は正規化レートを決定する。The cutoff frequency of this filter determines the normalization rate.

上記APの9ビット線型表示は適切であり、その割り算
はテーブル参照により非常に効率よく行なわれる。正規
化関数の情報が受信機側で要求されるこれらの音声符号
化の適用に対しては、振幅関数はナイキストレートで標
本化され、5ピツ)log−PCMを用いて量子化され
る。上記量子化されたAPの再生は、補間により送信機
と受信機の両方で行なわれ、同一のAFが両端で用いら
れる。
The 9-bit linear representation of the above AP is adequate, and the division is done very efficiently by table lookup. For those speech coding applications where normalization function information is required at the receiver side, the amplitude function is sampled at the Nyquist rate and quantized using 5) log-PCM. Regeneration of the quantized AP is done at both transmitter and receiver by interpolation, and the same AF is used at both ends.

上記APの明白な情報が受診機側で要求されないならば
、第1図の点線内のブロックはバイパスしてもよい。
If explicit information of the AP is not required at the receiving machine, the blocks within the dotted line in FIG. 1 may be bypassed.

上記振幅正規化信号、遅延入力信号およびAPはそれか
ら後処理ブロック30に供給される。後で示すように、
ある種のパラメータは正規化信号から推定するのがよく
、ある種の他のパラメータは入力信号から推定するのが
よく、更にある種の他のパラメータは正規化信号から導
かれる処理信号の再正規化変換から推定するのがよい。
The amplitude normalized signal, delayed input signal and AP are then provided to a post-processing block 30. As shown later,
Certain parameters may be estimated from the normalized signal, certain other parameters may be estimated from the input signal, and certain other parameters may be renormalized from the normalized signal. It is best to estimate it from the conversion.

ショートターム振幅正規化(S T A N)に対して
は、低域フィルタの遮断周波数は、50Hzの停止帯域
排除と100Hzの標本化レートを有する実施例におい
て25−30Hzにセットされる。
For short-term amplitude normalization (S T A N), the cutoff frequency of the low-pass filter is set to 25-30 Hz in an embodiment with a 50 Hz stopband rejection and a 100 Hz sampling rate.

ベリーショートターム振幅正規化(VSTAN)lζ対
しては全ての周波数は上記鎗の10倍にセットするのが
望ましい(遮断周波数に対しては約250から300H
z、停止帯域排除は500H2,標本化レートは100
0Hz)。
For Very Short Term Amplitude Normalization (VSTAN) lζ, it is desirable to set all frequencies to 10 times the above value (approximately 250 to 300H for the cutoff frequency).
z, stop band rejection is 500H2, sampling rate is 100
0Hz).

しかし、他の実施例においては、一般に他のフィルタ特
性が望ましく、遮断周波数は普通これらのレンジ内又は
レンジ間のどこかに存在する。もちろんこれらの量は単
に例示されているだけで、限定されるものではなく、そ
れらは将来の応用によって大きく左右される。もしAF
’送信が要求されないならば、I[Rフィルタ(無限イ
ンパルス応答フィルタ)が使用できる。そうでない場合
は、FIRフィルタ(有限インパルス応答フィルタ)が
デシメーション(dec imat ton)および補
間処理ζεおける計算効率をよくするために推奨される
。正規化のために要求される計算は1点当たりほとんど
10操作であり、それはほとんどのDSPSにおいて2
−5%のリアルタイムを消費する。
However, in other embodiments, other filter characteristics are generally desired, and the cutoff frequency typically lies somewhere within or between these ranges. Of course, these quantities are merely illustrative and not limiting, and they depend largely on the future application. If AF
'If no transmission is required, an I[R filter (infinite impulse response filter) can be used. Otherwise, a FIR filter (finite impulse response filter) is recommended for computational efficiency in the decimation and interpolation process ζε. The computation required for normalization is almost 10 operations per point, which is 2 in most DSPS.
- Consumes 5% real time.

5TANのために導入される遅延は10−20ミリ秒で
あり、VSTANのために導入される遅延は2〜4ミリ
秒である。これらの遅延は低域フィルタに固有の遅れに
よって決定され、はとんどそれに等しくセットされる。
The delay introduced for 5TAN is 10-20 ms and the delay introduced for VSTAN is 2-4 ms. These delays are determined by the delays inherent in the low-pass filter, and are mostly set equal to it.

それ故、これらの送れは、個々の適用に対して用いられ
る低域フィルタの正確な特性に依存している。その遅れ
は、入力信号を上記包絡線の部分によって適切に正規化
する。上記包絡線の部分はより正確な正規化が生じるよ
うに入力信号の同一部分によって作られる。
These shifts are therefore dependent on the exact characteristics of the low-pass filter used for the particular application. The delay properly normalizes the input signal by the portion of the envelope. The parts of the envelope are made by identical parts of the input signal so that a more accurate normalization occurs.

第2図は、本発明のコンピュータシミシュレーションを
通して得られたショートターム振幅の代表的な3通りの
変化例を示す。正規化信号は全体を通してかなり一定の
形の振幅を有し、有声音に対する中間ピッチ特性を変更
してはいないことに注目すべきである。正規化信号はA
PCのピッチ検出および量子化に対してはより望ましい
振幅特性を有するが、予測パラメータの計算にはそうで
ないことは明らかである。例えば振幅変化のある有声音
に先行する無声音を含むセグメントを示す。
FIG. 2 shows three typical examples of changes in short-term amplitude obtained through the computer simulation of the present invention. It should be noted that the normalized signal has a fairly constant shape of amplitude throughout and does not change the mid-pitch characteristics for voiced sounds. The normalized signal is A
It is clear that it has more desirable amplitude characteristics for PC pitch detection and quantization, but not for calculation of prediction parameters. For example, a segment containing an unvoiced sound preceding a voiced sound with amplitude variation is shown.

この有声音のあとに沈黙が続いている。This voiced sound is followed by silence.

この125ミリ秒のセグメントはデータに値するいくつ
ものフレームを含んでいる。声の変化(有声音を含むフ
レームの部分と無声音/沈黙を含む残りの部分からなる
)を含むフレームにおいては、正規化信号から計算され
た自己相関関数、したがって予測パラメータは、入力信
号から計算された予測パラメータと比べて無声音/沈黙
に大きく影響されるであろう。このことはより貧弱な予
測をもたらす。それ故、線型予測パラメータの計算には
、入力信号(正規化されていない)を用いるのが一般に
すぐれている。このため、正規化信号の選択は実際の具
体例にしたがって行なわれる。 ピッチ検出の自己相関
法における5TANの有用性は第3図に示されている。
This 125 millisecond segment contains several frames worth of data. In frames containing voice changes (consisting of the part of the frame containing voiced sounds and the remaining part containing unvoiced sounds/silence), the autocorrelation function calculated from the normalized signal, and therefore the prediction parameter, is calculated from the input signal. will be significantly influenced by unvoiced/silence compared to the predicted parameters. This results in poorer predictions. Therefore, it is generally better to use the input signal (not normalized) for calculating the linear prediction parameters. For this reason, the selection of the normalized signal is made according to the actual example. The usefulness of 5TAN in the autocorrelation method of pitch detection is illustrated in FIG.

振幅変化を伴った音声セグメントは第3図のaで示され
ている。APと正規化信号は第3図の勉とCで示されて
いる。自己相関関数を計算する前に信号を中間クリップ
することは強い高調波によって生じたエクストラニアス
ピーク(extraneoas peak)を減衰する
のに役立つ。中間クリッピングの少なくとも下記の3つ
の知られた方法が本発明に従って用いられてもよい。
The audio segment with amplitude changes is shown in FIG. 3a. The AP and normalized signals are shown in FIG. Intermediate clipping the signal before calculating the autocorrelation function helps to attenuate extraneous peaks caused by strong harmonics. At least three known methods of intermediate clipping may be used in accordance with the present invention.

(1)フレームを4ミリ秒のミニフレームに分割し、各
ミニフレームに対し、最大絶対値をみつけて、中間クリ
ッピングスレシジールドをこの最大絶対値の30%にセ
ットする。
(1) Divide the frame into 4 ms mini-frames, find the maximum absolute value for each mini-frame, and set the intermediate clipping threshold to 30% of this maximum absolute value.

(2)フレームの最初の1/3および最後のl/3にお
ける最大絶対値をみつけて中間クリッピングスレショー
ルドをこの二つの最小値の64%にセットする。
(2) Find the maximum absolute value in the first 1/3 and the last 1/3 of the frame and set the intermediate clipping threshold to 64% of these two minimum values.

(3)最大絶対値の50%にセットされた中間クリッピ
ングスレシジールドを有する中間クリッピングのために
振幅正規化信号を用いる。
(3) Use the amplitude normalized signal for intermediate clipping with the intermediate clipping threshold set to 50% of the maximum absolute value.

第3図のdおよびeは中間クリップされた波形とそれか
ら導かれた自己相関関数を示す。自己相関関数に対する
時間座標は分析をよくするために3倍に拡大されている
。第3図の3で示された方法に対しては、中間クリップ
された信号にAPを掛けて得られた再正規化中間クリッ
プ信号が自己相関計算のために用いられている。これら
の図から、3で示された方法は高調波情報をほとんど消
去し、中間クリッピング後の低レベル信号のピッチピー
クを維持するのに最も有効であることが明らかである。
Figures 3d and 3e show the intermediate clipped waveform and the autocorrelation function derived therefrom. The time coordinates for the autocorrelation functions have been expanded by a factor of three to improve analysis. For the method shown at 3 in FIG. 3, a renormalized intermediate clipped signal obtained by multiplying the intermediate clipped signal by AP is used for the autocorrelation calculation. From these figures, it is clear that the method shown in 3 is most effective in eliminating most of the harmonic information and preserving the pitch peak of the low level signal after intermediate clipping.

この成功は、3で示された方法に対する自己相関関数に
反映されている。このことは第3図の1および2に対し
て示されているエクストラニアスビークとは無関係であ
る。
This success is reflected in the autocorrelation function for the method presented in 3. This is independent of the extraneous peak shown for 1 and 2 in FIG.

第4図は、VSTANおよびその広帯域符号化への適用
の2つの例を示す。第4図のa、b、cおよびdは、そ
れぞれジャイアントの4ビットAPCMにおける入力波
形とステップサイズ適応ならびニヘリーショートターム
振幅関数および正規化波形を示す。第3図および第4図
の正規化信号における主たる相違点は後者が中間ピッチ
振幅変化を正規化することであることは明らかである。
FIG. 4 shows two examples of VSTAN and its application to wideband coding. Figures a, b, c, and d show the input waveform, step size adaptation, Niheli short-term amplitude function, and normalized waveform in Giant's 4-bit APCM, respectively. It is clear that the main difference between the normalized signals of FIGS. 3 and 4 is that the latter normalizes intermediate pitch amplitude changes.

第4図の正規化信号はピッチ検出器への入力としては大
変望ましくないものである一方、固定ステップ量子化回
路に対しては非常に望ましい振幅特性を有する。1ルー
ベル定形量子化回路(3,46ビツト)は4ビットAP
CMと非常に似た音質を与える。もし、振幅関数を送信
するために必要なビットレートが含まれているならば、
このニガ法はほとんど同じレートを有する。しかしなが
ら、もし、その時間領域において適応できるビット割り
当てがAFの情報にもとづき、フレーム(10〜20ミ
リ秒)内の総ビット数を一定に保つならば、その音質は
APCMよりすぐれている。APCMが比較的簡単で符
号化遅れを含まないことは注目すべきである。第4図の
eは正規化信号のヒストグラムを示す。
While the normalized signal of FIG. 4 is highly undesirable as an input to a pitch detector, it has amplitude characteristics that are highly desirable for fixed-step quantizer circuits. 1 rubel fixed form quantization circuit (3,46 bits) is 4 bit AP
Gives a sound quality very similar to commercials. If it includes the bitrate required to transmit the amplitude function,
This nigga method has almost the same rate. However, if the adaptive bit allocation in the time domain is based on AF information and keeps the total number of bits in a frame (10-20 ms) constant, the sound quality is better than APCM. It is noteworthy that APCM is relatively simple and does not involve coding delays. FIG. 4e shows a histogram of the normalized signal.

このように、後処理を改善するための前処理技術として
、音声信号の点ごとの正規化が開示され;。
Thus, point-wise normalization of audio signals is disclosed as a pre-processing technique to improve post-processing;

ている。さらに、振幅関数が正規化のために用いられて
いる。この振幅関数は上記信号を低域y過して音声信号
の包絡線の半分に似た形を持った信号を生成することに
よって得られる。低域フィル夕の遮断周波数は、正規化
信号の諸特性において、非常に重要な役割を演じている
。二つのタイプの正規化レートは異なった適用にふされ
しい振幅特性を与えるために見出された。本発明はVS
T振幅関数のベクトル量子化と特定の正規化信号(文献
[2コ)を組み合わせた時にもまた改善をすることがで
きる。
ing. Furthermore, the amplitude function is used for normalization. This amplitude function is obtained by passing the above signal through a low band y to produce a signal having a shape similar to half the envelope of the audio signal. The cut-off frequency of the low-pass filter plays a very important role in the characteristics of the normalized signal. Two types of normalization rates have been found to provide suitable amplitude characteristics for different applications. The present invention is VS
Improvements can also be made when combining vector quantization of the T amplitude function with a specific normalized signal (Reference [2]).

本発明は、マイクロコンピュータのようなプログラムさ
れた処理装置を用いてうま〈実施されている。
The invention is advantageously implemented using a programmed processing device such as a microcomputer.

末尾に記載のコンピュータプログラムのリストは、本発
明の音声処理の典型的なフォートランによる実施を示す
ものである。このリストの1は本発明の従った絶対値回
路、低域フィルタおよび包絡線発信器のソフトウェアに
よる実施である。
The list of computer programs at the end represents a typical Fortran implementation of the audio processing of the present invention. Number 1 in this list is a software implementation of the magnitude circuit, low-pass filter and envelope oscillator according to the invention.

リストlは、入力ファイルを受は入れ、そのファイルの
中の各点の絶対値をとり、さらに、入力ファイルの低域
シ濾過を行なうためにファイル係数と共にルーチンDO
TPR(ドツト作成ルーチン)を用いる。それから上記
入力ファイルは振幅関数を作るルーチンA M P L
 T Dに渡され、出力ファイルに振幅関数をファイル
する。
The list l accepts an input file, takes the absolute value of each point in the file, and also uses the routine DO with the file coefficients to perform low-pass filtering of the input file.
Use TPR (dot creation routine). Then the above input file is a routine A M P L that creates an amplitude function.
TD to file the amplitude function in the output file.

リストの2は正規化信号を作るために入力ファイルと振
幅関数ファイルを用いている。この正規化信号は2対!
圧縮出力を作るために2対ITDH9圧縮器に入力され
る。この2対l出力はAPC−AB量子化回路に入力さ
れ、TDHS伸張器に入力される。TDHS伸張器の出
力は再生された音声を作るために復正規化される。この
フォートランによる実施は個々のニーズにあわしてたや
すく適用することが出来る。
Listing 2 uses an input file and an amplitude function file to create a normalized signal. This normalized signal has two pairs!
It is input to a two-pair ITDH9 compressor to produce a compressed output. This 2:1 output is input to the APC-AB quantization circuit and then to the TDHS decompressor. The output of the TDHS decompressor is denormalized to produce reproduced audio. This Fortran implementation can be easily adapted to suit individual needs.

末尾に記載のコンピュータプログラムはAP−120B
アレイ計算機を用いたVAXI+−750ミニコンピユ
ータを動作させるためにフォートラン(Fortran
)77で書かれたものである。
The computer program listed at the end is AP-120B
Fortran was used to operate the VAXI+-750 minicomputer using an array computer.
) was written in 77.

このように、上記目的および利点を完全に満足する本発
明の装置が、上に述べられていることは明らかである。
It is thus clear that what has been described above is a device of the invention which fully satisfies the above objects and advantages.

本発明は特定の実施例に関して述べられているが、多く
の置換、修正および変更は上の記述に照らして明らかな
ことは言うまでもない。従って、本発明は、特許請求の
範囲の精神および範囲内に入るすべての置換、修正およ
び変更を含むものである。
Although the invention has been described with respect to specific embodiments, it will be appreciated that many substitutions, modifications, and variations will be apparent in light of the above description. Accordingly, the invention includes all substitutions, modifications and changes falling within the spirit and scope of the claims.

−以下余白一 12       AMPF I L(K)= f N
F I L(K)AMPF I L(LEN−2)=’
A’AMPF I L(LEN−1)= I NF I
 L(LEN−1)AMPP I L(LEN)= I
 NF I L(LEN)AMPF I L(LEN+
 1)=OAMQF IL(LEN−2)=’A’AM
QF I L(LEN−1)=”M’AMQF I L
(L EN)=’Q’AMQF I L(LEN+ 1
)=0OPEN(IN I T=LUN I、F I 
LE= l NI> I LOPEN(UNIT云LU
N2.F I LE=AMPF 11        
      RECORDS I ZE=90)CO,
PEN(tJNIT=LUN3.FILE≠AMQFI
CALL  VCLR(0,1,3000)CALL 
 INITLZ Do  8000  1FRAME=1,10000C
ALL  AMPLTD IP(IEND、NE、O)  GOTo  999.
5TATUS=’OLD’、rtEcORDs I Z
E=90)L、TYPE=’NEW’、FOIIM=’
UNFORMATTED’。
- Below margin 12 AMPF I L (K) = f N
FI L (K) AMPF I L (LEN-2) ='
A'AMPF I L(LEN-1) = I NF I
L(LEN-1)AMPP I L(LEN)=I
NF I L (LEN) AMPF I L (LEN+
1)=OAMQF IL(LEN-2)='A'AM
QF I L (LEN-1)=”M'AMQF I L
(LEN)='Q'AMQF I L(LEN+1
)=0OPEN(IN I T=LUN I, F I
LE= l NI> I LOPEN (UNIT)
N2. FILE=AMPF 11
RECORDS I ZE=90)CO,
PEN(tJNIT=LUN3.FILE≠AMQFI
CALL VCLR(0,1,3000)CALL
INITLZ Do 8000 1FRAME=1,10000C
ALL AMPLTD IP (IEND, NE, O) GOTo 999.
5TATUS='OLD', rtEcORDs I Z
E=90)L, TYPE='NEW', FOIIM='
UNFORMATTED'.

L、TYPE=’NEW’、RECOr(DS I Z
E=90)FLTM(91)  =  FLTM(91
)*、001DO+0  1=1.90 FLTM(1)  =  FLTM(1)*、0011
0      FLTM(182−1)  =  FL
TM(1)CPUT  FILTERINTOARrt
A)CALL  APPUT(FLTM、IFLTM、
181.2)CALL  APWAIT ETURN ND 5U13ROUTINE  AMPLTDBYTE  
A(9G)、C INTEGEr(AL2LMR EQUIVALENCE  (C,IC)COMMON
  /5RCBLK/FLTM(181)、DAT(l
 fI    LUNI、LUN2.LUN3.LRE
C,IFLTM、IDAT、。
L, TYPE='NEW', RECOr(DS I Z
E=90) FLTM(91) = FLTM(91
)*, 001DO+0 1=1.90 FLTM(1) = FLTM(1)*, 0011
0 FLTM (182-1) = FL
TM(1) CPUUT FILTERINTOARrt
A) CALL APPUT (FLTM, IFLTM,
181.2) CALL APWAIT ETURN ND 5U13ROUTINE AMPLTDBYTE
A (9G), C INTEGer (AL2LMR EQUIVALENCE (C, IC) COMMON
/5RCBLK/FLTM (181), DAT (l
fI LUNI, LUN2. LUN3. L.R.E.
C,IFLTM,IDAT,.

DIMENSION  DATABS(180)CRE
AD  TWORECORDS  ANDIBASE 
 =  0 Doj00夏REC=1.2 READ(LUNI、l 01.END=999)AD
o  20  J=1.LREC C=  A(J) DAT(IBASE+J)  =  AL2LN11(
IC)20    DATABS(IBASE+J) 
 =  ABS(DAT(IBASItoo     
IBASE  =  rBAsE  +  LRECl
ol     FORMAT(90AI)I  PRO
C,MEMORY +O)、AMP(l sO)、AMQ(18G)、AQ
NT(6)。
DIMENSION DATABS (180) CRE
AD TWORE CORDS ANDIBASE
= 0 Doj00 Summer REC=1.2 READ(LUNI,l 01.END=999)AD
o20J=1. LREC C= A(J) DAT(IBASE+J) = AL2LN11(
IC) 20 DATABS (IBASE+J)
= ABS(DAT(IBASItoo)
IBASE = rBAsE + LRECl
ol FORMAT(90AI)I PRO
C, MEMORY +O), AMP (l sO), AMQ (18G), AQ
NT(6).

IDAT、IAMP、JAMP、LFRMCONVER
T  FROM  LOG  TOLINE/’1(+
J)) IRCADR=   ICMP   @[AADR= 
  InCADR IALADR=   IAADR IRADR=   IALADrt IERADR=   IRADrt INEXT  =   IERADR CONST(1)  =  1゜ C0N5T(2)  =  、5 CONST(3)  =  256゜ Do  2 1=1,256 2   1HISTO(1)  =  OCALL  
APIIIT(0,0゜ TYPE *、’  INPUT ACCEPT  105.LEN、: TYPE  *、’ ACCEPT*、ITDH9,I( 105FORMAT(Q、32A1) I NF I L(LEN+ 1)=0+  8 +  9 +  9 +  9 十  1 ISTAT) FILE(*、D6K)’ +NFIL ITD夏(S、夏QNT、INS、NRBITS=’;
INT、INS、NRBITS Do    12  K=1.LEN=30UTF I
 L(K)=I NF I L(K)+2      
AMPPIL(K)=INFIL(K)AMPP I 
L(LEN−2)=’A’AMPF’ I L(LEN
−1)=INF I L(LEAMPF I L(LE
N)= I NP [L(LEN)AMPP I L(
LEN+ 1)=00UTF I L(LEN−2)=
”E。
IDAT, IAMP, JAMP, LFRMCONVER
T FROM LOG TOLINE/'1(+
J)) IRCADR= ICMP @[AADR=
InCADR IALADR= IAADR IRADR= IALADrt IERADR= IRADrt INEXT = IERADR CONST(1) = 1°C0N5T(2) = , 5 CONST(3) = 256°Do 2 1=1, 256 2 1HISTO(1) = OCALL
APIIIIT(0,0゜TYPE *,' INPUT ACCEPT 105.LEN,: TYPE *,' ACCEPT*, ITDH9,I( 105FORMAT(Q, 32A1) I NF I L(LEN+ 1)=0+ 8 + 9 + 9 + 9 10 1 ISTAT) FILE (*, D6K)' +NFIL ITD Summer (S, Summer QNT, INS, NRBITS=';
INT, INS, NRBITS Do 12 K=1. LEN=30UTF I
L(K)=I NF I L(K)+2
AMPPIL(K)=INFIL(K)AMPP I
L(LEN-2)='A'AMPF' I L(LEN
-1) = INF I L (LEAMP I L (LE
N)=I NP [L(LEN)AMPP I L(
LEN+1)=00UTF I L(LEN-2)=
"E.

1F(IQNT  、EQ、  1)  0UTFIL
(LBjIP(IQNT  、EQ、  2)  0U
TFIL(LEIIF(IQNT  、EQ、  O)
  0UTFIL(LEfI F(I QNT、EQ、
O、AND、  I TDH8,EO,UTF I L
(LEN−1)= I NP I L(LEN−OUT
PIL(LEN)=INFIL(LEN)OUTF I
 L(LEN+ 1)=0OPEN(UNIT=LUN
1.FILE=INF1’J=2)=’Q’ N−2)=’R’ q−2)千°T。
1F (IQNT, EQ, 1) 0UTFIL
(LBjIP(IQNT, EQ, 2) 0U
TFIL(LEIIF(IQNT, EQ, O)
0UTFIL(LEfIF(I QNT, EQ,
O, AND, I TDH8, EO, UTF I L
(LEN-1) = I NP I L (LEN-OUT
PIL(LEN)=INFIL(LEN)OUTF I
L(LEN+1)=0OPEN(UNIT=LUN
1. FILE=INF1'J=2)='Q'N-2)='R' q-2) 1,000°T.

Q、0)  0UTF[L(LEN−2)=’O。Q, 0) 0UTF [L(LEN-2)='O.

り L、5TATUS=’OLD’、rLEcORDs I
 ZE≠90)CALL  XMINV(MSE、l、
90.64)CALL  APGET(RMSMIN、
90.1.2)CALL  APGET(RJPIT、
91,1.2)JPIT=IFIX(rLJPIT) CALL  APWD IPIT  =  IPVAL(JPIT)CALL 
 XMAXY(MSE、!、90.64)CALL  
APGET(RMSMAX、90,1.2)TYPE 
 *、’  MIN、  MSE、MAX、  MSE
、FIF(ITDHS  、EQ、  0)  Go 
 To  160CPERFORM  TDHS   
COMFIPIT2  =  IPIT/2 NCMP  =   0 NEXP’  =   0 NPIT  =   0 MTCH=’、RMSMIN、RMsMAX、IPIT
νrtEssION 15    GAIN=SQRT(AL(1)/AL(
MCI))Do2G夏=NC1,N+NC 205PQ(1)=SP(1) IP(IQNT、EQ、0)Go  TO21GDO5
01=l、N TEMP震0゜ Do  40  J=1.NC1 40TEMP=TEMP+A(J)*5P(1+NC1
−J)CRES(1)=GAIN*TEMP rLES(1)=TEMP 50    ABSRES(1)=ABS(RES(1
))LB IN=(I P IT+NRE/2)/NR
EDo  60 1=1.DBIN=1 60    ABSRES(+ +N)=AnSrtE
S(1)rtEsMAX=0゜ MAXLOC=1 Do  70  1=l、IPIT Do  65  J−1,LBIN−165ABSRE
S(1)=・ABSRES(1)+ABSI’1tES
(1+J)IP(ABSRES(1)、LT、RESM
AX)GOTo  70RESMAX=ABSRES(
1) MAILOC=1 70     C0NTINUE Do   T5   夏= l 、NRE75    
NBIN(1)−LBINNPEM雪I P I T−
NRE)kLB I NIP(NREM)  80.9
0.8580    NREM=−NREM Do  82 1=l、NREM 82     NBIN(1)=NBIN(+)−1G
o  To  90 85    Do  88  I=1.NREM8s 
   NBIN(1)=NBIN(1)+1100  
  AQErtR=AQ−ACIF’(IFRAME、
GE、11B?  TYPEllol   FORMA
T(IOX、14.4F15.6)ETURN ND COPTIMUM  UNIFORM 5UBROUTINE QNTEC(A、5TPS+夏
CLIP=1 AK=ABS(A)/5TPS I ZI P(AK、
GT、l 5.)AK= 15゜K=AK+、5 IP(K、LE、ICLIP)K=O IP(K、EQ: O)  co  To  10AQ
=STPS I ZI(K+ I CL I P)I 
P(A、LT、0.)AQ冨−AQGo  TO15 10AQ千〇。
riL, 5TATUS='OLD', rLEcORDs I
ZE≠90) CALL XMINV (MSE, l,
90.64) CALL APGET(RMSMIN,
90.1.2) CALL APGET (RJPIT,
91, 1.2) JPIT=IFIX(rLJPIT) CALL APWD IPIT = IPVAL(JPIT)CALL
XMAXY(MSE,!,90.64)CALL
APGET (RMSMAX, 90, 1.2) TYPE
*,' MIN, MSE, MAX, MSE
,FIF(ITDHS,EQ,0) Go
To 160CPERFORM TDHS
COMFIPIT2 = IPIT/2 NCMP = 0 NEXP' = 0 NPIT = 0 MTCH =', RMSMIN, RMsMAX, IPIT
νrtEssION 15 GAIN=SQRT(AL(1)/AL(
MCI)) Do2G summer = NC1, N+NC 205PQ (1) = SP (1) IP (IQNT, EQ, 0) Go TO21GDO5
01=l, N TEMP earthquake 0°Do 40 J=1. NC1 40TEMP=TEMP+A(J)*5P(1+NC1
-J) CRES(1)=GAIN*TEMP rLES(1)=TEMP 50 ABSRES(1)=ABS(RES(1
))LB IN=(IPIT+NRE/2)/NR
EDo 60 1=1. DBIN=1 60 ABSRES(+ +N)=AnSrtE
S(1)rtEsMAX=0゜MAXLOC=1 Do 70 1=l, IPIT Do 65 J-1, LBIN-165ABSRE
S(1)=・ABSRES(1)+ABSI'1tES
(1+J)IP(ABSRES(1),LT,RESM
AX) GOTo 70RESMAX=ABSRES(
1) MAILOC=1 70 C0NTINUE Do T5 Summer= l, NRE75
NBIN (1) -LBINNPEM Snow I P I T-
NRE) kLB I NIP (NREM) 80.9
0.8580 NREM=-NREM Do 82 1=l, NREM 82 NBIN(1)=NBIN(+)-1G
o To 90 85 Do 88 I=1. NREM8s
NBIN(1)=NBIN(1)+1100
AQErtR=AQ-ACIF'(IFRAME,
GE, 11B? TYPEllol FORMA
T(IOX, 14.4F15.6)ETURN ND COPTIMUM UNIFORM 5UBROUTINE QNTEC(A, 5TPS+Summer CLIP=1 AK=ABS(A)/5TPS I ZI P(AK,
GT, l 5. ) AK= 15゜K=AK+, 5 IP (K, LE, ICLIP) K=O IP (K, EQ: O) co To 10AQ
=STPS I ZI (K+ I CL I P) I
P (A, LT, 0.) AQ Tomi-AQGo TO15 10AQ 100.

[11T、5=1 Go  To   100 15   1F、(AQ)  30,30.2020 
  1BITS=2)kK Go  To   100 30   1BITS =2*に+1 100    AQErtR=AQ−ACTYPE  
 101.IBI TS、A、5TPSIZ、ノlot
   FORMAT(IOX、14.4F15.6)r
lETURN ND 01 、NB I T、A、ASD、AQ、AQERR
GAUSSIAN  OυANT I ZER[Z、A
Q、AQERR,I B I TS)\Q、AQERR 20   DAT(1−MINPTI)=1./FLO
AT(3*DO301=LPIT2+l、LPIT!I
PVAL(1−MrNPTl)=1 1FLEN(1−M!NPT+)=2*IIPLEN(
+−MINPTI)=r 30   DAT(1−M(NPTi)=1./FLO
AT(1)Do  40   r=LPITI−MIN
PTl+I、6IPVAL(夏)=IPVAL(1−1
)+2I PLEN(+)=I PVAL(1)I F
LEN(1)=2*[PVAL(1)、io   DA
T(D=1./pLoAT(rpt、EN(D)CAL
L  APPUT(DAT、IPNOrLM、64,2
CALL  APWAIT Do  100  1=l、NG SP(1)=0゜ 100  ’  5PQ(1)=0゜ 102    FOrtMAT(5X、1614)rt
ETUrtN ND CGET  IMPUT  DATA  AND  N
、O5UBROUTINE  GETNOR(LDAT
、LABYTE  A(90)、C INTEGERAL2LNrt EQUIVALENCE (C,IC)COMMON 
 /APMEM/AP(10000)COMMON  
/BLK/DAT(180)、AMP(1RMAL I
 ZE B’/  AMPL I TUDE  I?L
JNCT I ONMP、I END) 80)、LUNI、LUN2.LUN3.LREC,I
DAT、JDAT。
[11T, 5=1 Go To 100 15 1F, (AQ) 30,30.2020
1BITS=2)kK Go To 100 30 1BITS =+1 to 2* 100 AQErtR=AQ-ACTYPE
101. IBI TS, A, 5TPSIZ, Nolot
FORMAT(IOX, 14.4F15.6)r
lETURN ND 01 , NB I T, A, ASD, AQ, AQERR
GAUSSIAN OυANT I ZER[Z,A
Q,AQERR,IBITS)\Q,AQERR 20 DAT(1-MINPTI)=1. /FLO
AT(3*DO301=LPIT2+l, LPIT!I
PVAL(1-MrNPTl)=1 1FLEN(1-M!NPT+)=2*IIPLEN(
+-MINPTI)=r 30 DAT(1-M(NPTi)=1./FLO
AT(1)Do 40 r=LPITI-MIN
PTl + I, 6IPVAL (summer) = IPVAL (1-1
)+2I PLEN(+)=I PVAL(1)I F
LEN(1)=2*[PVAL(1), io DA
T(D=1./pLoAT(rpt, EN(D)CAL
L APPUT(DAT, IPNOrLM, 64,2
CALL APWAIT Do 100 1=l, NG SP(1)=0°100 ' 5PQ(1)=0°102 FORtMAT(5X, 1614) rt
ETUrtN ND CGET IMPUT DATA AND N
, O5UBROUTINE GETNOR(LDAT
, LABYTE A (90), C INTEGERAL2LNrt EQUIVALENCE (C,IC)COMMON
/APMEM/AP(10000)COMMON
/BLK/DAT (180), AMP (1RMAL I
ZE B'/AMPL I TUDE I? L
JNCT I ONMP, I END) 80), LUNI, LUN2. LUN3. LREC,I
DAT, JDAT.

FUNCTION  LNR2AL(IOC)ISIG
N=O IF(IOC、LT、  0)ISIGN=”20r 
cc=I ABS(I 0C) KTH子16 Do  80  K=0.6 IP(ICC,LT、KTH)Go  To  660
   KTH=KTH+KTH 611F(K  、EO,0)GOTo  62ICC
=(IOC−KTI−1/2)/2**(K−1)62
  1CC=ICC+に++6+l5IGNLNrt2
AL=IEO11(ICG、”+25)lETUI’t
N ND CI”UNCTION  To  C0NVErtT 
 FrLIINTEGERFUNCTION  AL2
LNI C=I EOI(I C,”+ 25)ISI
GN=1 1PCIAND(IC,”200)、NE、  0) 
 IIEXP=1AND(IC,”+60)/+ 6I
 C=IAND(I C,”17) IP(IEXP、EO,0)Go  To  20IC
=ISHFT(IC+16.IEXP−1)20AL2
LNR=夏C*l5IGN nETtJRN ND DM  A−LAW  To  LINEARR(IC
) S I GN=−1
FUNCTION LNR2AL (IOC) ISIG
N=O IF (IOC, LT, 0) ISIGN=”20r
cc=I ABS (I 0C) KTH child 16 Do 80 K=0.6 IP (ICC, LT, KTH) Go To 660
KTH=KTH+KTH 611F (K, EO, 0) GOTo 62ICC
=(IOC-KTI-1/2)/2**(K-1)62
1CC=ICC+++6+l5IGNLNrt2
AL=IEO11(ICG,"+25)lETUI't
N ND CI”UNCTION To C0NVERtT
FrLIINTEGER FUNCTION AL2
LNI C=I EOI(I C,”+25)ISI
GN=1 1PCIAND(IC,”200),NE,0)
IIEXP=1AND(IC,”+60)/+6I
C=IAND(IC,”17) IP(IEXP,EO,0)Go To 20IC
=ISHFT(IC+16.IEXP-1)20AL2
LNR=SummerC*l5IGN nETtJRN ND DM A-LAW To LINEARR (IC
) SI GN=-1

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の音声処理方法と装置についてのブロッ
クダイアグラムである。 第2図は、ショートターム振幅変化を有する信号の3つ
の例と本発明に従う正規化の結果を示す図で、a)は入
力信号を、b)は振幅関数AFを、C)は正規化信号を
示す。 第3図は、本発明をピッチ検出自己相関法に適用した場
合の3つの例を示し、a)は入力信号を、b)はAPを
、C)は正規化信号を、d)は中間クリップ信号を、e
)は中間クリップ信号から導かれた自己相関関数を示す
。 第4図は広帯域符号化適用した場合において、ベリーシ
ョートターム振幅正規化の3つの例を示し、a)は人力
信号を、b)はジャイアント(Jayant)の4ビツ
ト・APCMからのステップサイズを、C)はAPを、
d)は正規化信号を、e)は正規化信号のヒストグラム
を示す。 lO・・・入力信号、!2・・・絶対値ブロック、14
・・・遅延ブロック、16・・・低域フィルタ、18・
・・正半分包絡線信号、 20・・・副標本化ブロック、22・・・量子化回路、
24・・・補間ブロック、26・・・デイバイダ、28
・・・正規化信号、30・・・後処理ブロック、32・
・・遅延信号。 特 許 出 願 人  ラーカル・データ・コミュニケ
ーションズ・ インコーホレーテッド 代 理 人 弁理士 青 山 葆 ほか2名C( 一 rつ 匡 手続補正書坊式) 21発明の名称 音声信号を処理するための方法と装置 3、補正をする者 事件との関係 特許出願人 住所 アメリカ合衆国 33323  フロリダ。 サンライズ、ノース・ハリソン・パークウェイ1601
番 名称 ラーカル・データ・コミュニケーションズ・イン
コーホレーテッド 代表者  ジェイ・ニール・ロバートソン国籍 アメリ
カ合衆国 4、代理人 住所 〒540  大阪府大阪市東区域見2丁目1番6
1号6、補正の対象 :明細書:発明の詳細な説明の欄
。 7、補正の内容 明細書中、次の箇所を訂正します。 1、発明の詳細な説明の欄 第26〜39頁を別紙の通り訂正します。 以  上
FIG. 1 is a block diagram of the audio processing method and apparatus of the present invention. FIG. 2 shows three examples of signals with short-term amplitude changes and the results of normalization according to the invention, a) the input signal, b) the amplitude function AF, and C) the normalized signal. shows. FIG. 3 shows three examples of applying the present invention to the pitch detection autocorrelation method, a) for the input signal, b) for the AP, C) for the normalized signal, and d) for the intermediate clip. signal, e
) indicates the autocorrelation function derived from the intermediate clipped signal. Figure 4 shows three examples of very short-term amplitude normalization when wideband coding is applied; a) shows the human input signal, b) shows the step size from Jayant's 4-bit APCM, C) is AP,
d) shows a normalized signal, and e) shows a histogram of the normalized signal. lO...input signal,! 2...Absolute value block, 14
...Delay block, 16...Low pass filter, 18.
... Positive half envelope signal, 20... Sub-sampling block, 22... Quantization circuit,
24... Interpolation block, 26... Divider, 28
... Normalized signal, 30 ... Post-processing block, 32.
...Delayed signal. Patent Applicant: Racal Data Communications, Inc. Agent: Patent Attorney: Aoyama Aoyama and 2 others Apparatus 3, Relation to Amendr Case Patent Applicant Address Florida, United States 33323. Sunrise, 1601 North Harrison Parkway
Name: Racal Data Communications, Inc. Representative: J. Neil Robertson Nationality: United States of America 4, Agent Address: 2-1-6 Mihigashi-ku, Osaka City, Osaka Prefecture, 540 Prefecture
No. 1 No. 6, Subject of amendment: Specification: Detailed description of the invention column. 7. The following parts of the detailed statement of amendment will be corrected. 1. Pages 26 to 39 of the Detailed Description of the Invention column will be corrected as shown in the attached sheet. that's all

Claims (5)

【特許請求の範囲】[Claims] (1)音声信号のピーク信号レベルを検出するステップ
と、 上記音声信号の上記ピーク信号レベルから、上記音声信
号の上記ピーク信号の振幅の包絡線と近似した振幅を有
する振幅関数信号を計算するステップと、 上記振幅関数によって上記音声信号を正規化するステッ
プと、 上記正規化音声信号を広帯域符号化するステップからな
る音声信号を処理するための方法。
(1) Detecting the peak signal level of the audio signal; and calculating, from the peak signal level of the audio signal, an amplitude function signal having an amplitude similar to the envelope of the amplitude of the peak signal of the audio signal. A method for processing an audio signal, comprising: normalizing the audio signal by the amplitude function; and wideband encoding the normalized audio signal.
(2)上記計算ステップは、低域ろ過された信号を作る
ために上記信号ピークレベルを低域ろ過するステップを
含む特許請求の範囲第1項に記載の音声信号を処理する
ための方法。
2. The method of claim 1, wherein said step of calculating comprises the step of low-pass filtering said signal peak level to produce a low-pass filtered signal.
(3)上記低域ろ過ステップのあとに、上記低域ろ過さ
れた信号をサブレート標本化するステップと、 上記振幅関数の模擬関数を作るために、上記サブレート
標本化信号の点相互間を補間するステップを有する特許
請求の範囲第2項に記載の音声を処理するための方法。
(3) After the low-pass filtering step, subrate sampling the low-pass filtered signal, and interpolating between points of the subrate sampling signal to create a simulated function of the amplitude function. A method for processing audio according to claim 2, comprising the steps of:
(4)音声信号をうけるための入力手段(10)と、 上記音声信号を、上記音声信号のピークを近似的にたど
る比較的ゆっくりと変化する包絡線信号に変換する包絡
線手段(16)と、 上記音声信号に対するナイキストレートよりも低い標本
化レートで、上記包絡線信号を標本化する標本化手段(
20)と、 上記標本化された包絡線信号によって、上記音声信号を
正規化する正規化手段(26)を備える音声信号を処理
するための装置。
(4) input means (10) for receiving an audio signal; envelope means (16) for converting the audio signal into a relatively slowly changing envelope signal that approximately follows the peak of the audio signal; , sampling means for sampling the envelope signal at a sampling rate lower than the Nyquist rate for the audio signal;
20); and normalizing means (26) for normalizing the audio signal by the sampled envelope signal.
(5)補間信号を作るために、上記標本化された包絡線
信号の点相互間を補間する補間手段(24)を含み、上
記正規化手段(26)は上記補間信号によって音声信号
を正規化する特許請求の範囲第4項に記載の音声信号を
処理するための装置。
(5) interpolation means (24) for interpolating between points of the sampled envelope signal in order to create an interpolation signal; the normalization means (26) normalizes the audio signal by the interpolation signal; An apparatus for processing audio signals according to claim 4.
JP1503187A 1986-01-24 1987-01-23 Method and apparatus for processing voice signal Pending JPH0198000A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US82298286A 1986-01-24 1986-01-24
US822982 1986-01-24

Publications (1)

Publication Number Publication Date
JPH0198000A true JPH0198000A (en) 1989-04-17

Family

ID=25237469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1503187A Pending JPH0198000A (en) 1986-01-24 1987-01-23 Method and apparatus for processing voice signal

Country Status (2)

Country Link
JP (1) JPH0198000A (en)
GB (1) GB2186160B (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015191102A (en) * 2014-03-28 2015-11-02 パイオニア株式会社 acoustic device and signal processing method

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03132228A (en) * 1989-10-18 1991-06-05 Victor Co Of Japan Ltd System for encoding/decoding orthogonal transformation signal
DK46493D0 (en) * 1993-04-22 1993-04-22 Frank Uldall Leonhard METHOD OF SIGNAL TREATMENT FOR DETERMINING TRANSIT CONDITIONS IN AUDITIVE SIGNALS

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015191102A (en) * 2014-03-28 2015-11-02 パイオニア株式会社 acoustic device and signal processing method

Also Published As

Publication number Publication date
GB2186160B (en) 1989-11-01
GB2186160A (en) 1987-08-05
GB8700378D0 (en) 1987-02-11

Similar Documents

Publication Publication Date Title
US4935963A (en) Method and apparatus for processing speech signals
Atal Predictive coding of speech at low bit rates
CN101305423B (en) Adaptive time/frequency-based audio encoding and decoding apparatuses and methods
US6898566B1 (en) Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
KR100574031B1 (en) Speech Synthesis Method and Apparatus and Voice Band Expansion Method and Apparatus
JPS6035799A (en) Input voice signal encoder
US4704730A (en) Multi-state speech encoder and decoder
EP2596496B1 (en) A reverberation estimator
JP4302978B2 (en) Pseudo high-bandwidth signal estimation system for speech codec
US5983173A (en) Envelope-invariant speech coding based on sinusoidal analysis of LPC residuals and with pitch conversion of voiced speech
KR100216018B1 (en) Method and apparatus for encoding and decoding of background sounds
US7603271B2 (en) Speech coding apparatus with perceptual weighting and method therefor
KR100750115B1 (en) Method and apparatus for encoding/decoding audio signal
US5899966A (en) Speech decoding method and apparatus to control the reproduction speed by changing the number of transform coefficients
JPH0198000A (en) Method and apparatus for processing voice signal
Krasner Digital encoding of speech and audio signals based on the perceptual requirements of the auditory system
JP4256189B2 (en) Audio signal compression apparatus, audio signal compression method, and program
JP3297238B2 (en) Adaptive coding system and bit allocation method
JP2007108440A (en) Voice signal compressing device, voice signal decompressing device, voice signal compression method, voice signal decompression method, and program
JP3111459B2 (en) High-efficiency coding of audio data
KR100196387B1 (en) Method for changing speech pitch using component separation in time region
June Method and apparatus for processing speech signals
KR0171004B1 (en) Basic frequency using samdf and ratio technique of the first format frequency
JP3141451B2 (en) Audio signal processing method
JPS6127598A (en) Voice/voiceless decision for voice signal