JPH09171400A - Sound signal band compression transmission method, sound signal reproducing method and sound signal band compressing/expanding device - Google Patents

Sound signal band compression transmission method, sound signal reproducing method and sound signal band compressing/expanding device

Info

Publication number
JPH09171400A
JPH09171400A JP7330570A JP33057095A JPH09171400A JP H09171400 A JPH09171400 A JP H09171400A JP 7330570 A JP7330570 A JP 7330570A JP 33057095 A JP33057095 A JP 33057095A JP H09171400 A JPH09171400 A JP H09171400A
Authority
JP
Japan
Prior art keywords
signal
waveform
pitch
voice
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7330570A
Other languages
Japanese (ja)
Inventor
Yasushi Kudo
康 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information Technology Co Ltd
Original Assignee
Hitachi Communication Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Communication Systems Inc filed Critical Hitachi Communication Systems Inc
Priority to JP7330570A priority Critical patent/JPH09171400A/en
Publication of JPH09171400A publication Critical patent/JPH09171400A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To bury also a pitch waveform of a voiced section and a system parameter of a voiceless section being substantial information incorporated in a sound signal into an analog waveform and to obtain band compression transmission by an analog transmission signal system. SOLUTION: In the voiced section of the sound signal, the pitch waveform is segmented by a pitch detector 103, a buffer memory 105 and a voiced/ voiceless switcher 112, then is expanded on a time base, and a frequency band is compressed and transmitted. In the voiceless section, the system parameter is obtained by a linear predictive analyzer 106, and a narrow-band base signal consisting of a repeat waveform of a fixed period is generated from an inverse filter 107, a power detector 108 and a base signal generator 109 to synthesize waveform as a drive signal by a linear predictive synthesizer 110. Then, both are transmitted to a reception side as a narrow band analog signal through voiced/voiceless switcher 112. The reception side restores it to the sound signal by inverse processing.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、アナログ波形の状
態で音声信号の帯域圧縮を可能にした帯域圧縮伝送方
法、特に狭帯域の無線伝送回線でのアナログ伝送に好適
な音声信号帯域圧縮伝送方法及び音声信号再生方法並び
に音声信号帯域圧縮伸長装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a band compression transmission method capable of band compression of a voice signal in an analog waveform state, and particularly a voice signal band compression transmission method suitable for analog transmission in a narrow band wireless transmission line. The present invention also relates to an audio signal reproducing method and an audio signal band compression / expansion device.

【0002】[0002]

【従来の技術】近年、無線伝送回線の利用度は高まるば
かりであるが、一方、無線周波数帯域は有限の資源であ
り、従って、占有周波数帯域の圧縮は、コスト低減の面
からだけではなく、資源の有効利用の面からも強く要望
されている。
2. Description of the Related Art In recent years, the utilization rate of wireless transmission lines has been increasing, but on the other hand, the radio frequency band is a finite resource. Therefore, compression of the occupied frequency band is not only for cost reduction, There is also a strong demand for effective use of resources.

【0003】音声信号の伝送についてみると、音声信号
の周波数帯域幅は、個人差はあるものの、一般に数キロ
ヘルツに渡っており、従って、これの伝送には同じく数
キロヘルツの周波数帯域幅の伝送系を必要とするが、こ
こで音声による情報伝達に必要な明瞭度を損なわずに、
占有周波数帯域幅が圧縮できれば、伝送系に要するコス
ト並びに周波数帯域幅を低減することができる。
Looking at the transmission of a voice signal, the frequency bandwidth of the voice signal generally extends over several kilohertz although there are individual differences. Therefore, for transmission of this, a transmission system having a frequency bandwidth of several kilohertz is also used. , But without sacrificing the intelligibility necessary for voice communication here,
If the occupied frequency bandwidth can be compressed, the cost required for the transmission system and the frequency bandwidth can be reduced.

【0004】そこで、従来から種々の音声信号帯域圧縮
技法が提案されているが、その一例として、人間の発声
機能を自己回帰システムの一種として捉え、音声信号を
この自己回帰システムにより生成された信号としてシミ
ュレートし、予測分析によってシステムパラメータを抽
出することにより、音声信号の帯域圧縮を得るようにし
た技術が知られており、例示すると以下の通りである。
Therefore, various voice signal band compression techniques have been conventionally proposed. As an example, a human voice function is regarded as a kind of autoregressive system and a voice signal is generated by this autoregressive system. There is known a technique in which the band compression of the voice signal is obtained by simulating as described above and extracting the system parameter by the predictive analysis. The example is as follows.

【0005】 日経エレクトロニクス,2.12,PP58-7
5,1973 「新しい音声分析合成方式“PARCO
R”」、 Proc. ICASSP 85, PP937-940,1985 「Code-excited
linear prediction (CELP)」
Nikkei Electronics, 2.12, PP58-7
5,1973 "New speech analysis and synthesis method" PARCO
R ””, Proc. ICASSP 85, PP937-940,1985 “Code-excited
linear prediction (CELP) "

【0006】[0006]

【発明が解決しようとする課題】しかし、上記従来技術
は、抽出したシステムパラメータを伝送するものである
が、システムパラメータはディジタル数値情報として得
られ、ディジタル伝送系のビットレート低減には著効を
示すが、アナログ信号伝送系への適用の点で問題があっ
た。
However, although the above-mentioned conventional technique transmits the extracted system parameters, the system parameters are obtained as digital numerical information, which is very effective in reducing the bit rate of the digital transmission system. However, there was a problem in the application to the analog signal transmission system.

【0007】本発明の目的は、帯域圧縮処理の結果がア
ナログ波形で得られ、アナログ信号伝送系による帯域圧
縮伝送を可能にし、また、アナログ信号伝送系を利用
し、かつ音声信号の明瞭度を損なわずに占有周波数帯域
を圧縮して伝送しその狭帯域信号から原音声信号を再生
することにある。
An object of the present invention is to obtain the result of band compression processing as an analog waveform, enable band compression transmission by an analog signal transmission system, use the analog signal transmission system, and improve the clarity of a voice signal. The original frequency band signal is reproduced from the narrow band signal by compressing and transmitting the occupied frequency band without loss.

【0008】[0008]

【課題を解決するための手段】上記の目的は音声信号の
有声音区間においては、送信側で音声信号の1ピッチあ
るいは1ピッチ以上に相当する波形を時間軸上で伸長
し、周波数帯域を圧縮したアナログ波形に変換して伝送
し、受信側ではこれを時間軸上で圧縮して、元の音声波
形を再生し、また無声音区間においては、送信側で音声
信号のスペクトル情報を狭帯域アナログ波形の中に埋め
込んで伝送し、受信側ではスペクトル情報を抽出して音
声信号を再生することで達成される。
SUMMARY OF THE INVENTION In the voiced sound section of a voice signal, the above-mentioned object is to expand the waveform corresponding to one pitch or one pitch or more of the voice signal on the time axis on the transmitting side to compress the frequency band. Converted into an analog waveform and transmitted, the receiving side compresses this on the time axis to reproduce the original speech waveform, and in the unvoiced section, the transmitting side converts the spectrum information of the speech signal into a narrow-band analog waveform. It is achieved by embedding it in a frame and transmitting it, and extracting the spectrum information on the receiving side to reproduce the voice signal.

【0009】これより、アナログ波形の状態で音声信号
の主要部分の情報が充分に忠実に伝送され、高品質で、
しかも高効率の帯域圧縮が得られる。すなわち、まず、
音声信号の有声音区間では1ピッチ周期又はそれ以上の
時間長の波形が切り出され、時間軸上で伸長されて、逐
次接続され、低周波狭帯域信号となりそのままアナログ
波形で伝送する。また、無声音区間では線形予測分析に
より、システムパラメータを抽出し、該システムパラメ
ータを用いた波形合成回路に狭帯域基底信号を供給する
ことにより、システムパラメータをアナログ波形の中に
埋め込んで伝送するようにする。
As a result, the information of the main part of the audio signal is transmitted in a state of analog waveform with sufficient fidelity, high quality,
In addition, highly efficient band compression can be obtained. That is, first,
In the voiced sound section of the voice signal, a waveform having a time length of one pitch cycle or more is cut out, expanded on the time axis, and sequentially connected to form a low frequency narrow band signal, which is transmitted as it is as an analog waveform. In the unvoiced section, a system parameter is extracted by linear prediction analysis, and a narrowband base signal is supplied to a waveform synthesis circuit using the system parameter so that the system parameter is embedded in an analog waveform and transmitted. To do.

【0010】音声信号は大別して、母音即ち有声音区間
と子音即ち無声音区間とから成り立っており、それぞれ
次に述べるような顕著な特徴をもっている。
A voice signal is roughly divided into a vowel or voiced sound section and a consonant or unvoiced sound section, each of which has the following remarkable features.

【0011】まず、有声音区間はピッチ周期と称せられ
る一定周期の繰り返し波形から成っており、比較的低周
波域にエネルギーの集中が見られ高域部を欠いても明瞭
度にさしたる低下は生じない。
First, the voiced sound section is composed of a repetitive waveform of a constant cycle called a pitch cycle, and energy concentration is observed in a relatively low frequency range, and even if the high frequency part is lacked, a decrease in clarity occurs. Absent.

【0012】一方、無声音区間の波形には周期性は認め
られないものの、線形予測分析を行うと、周波数軸上に
ホルマントと称せられるスペクトルエネルギーの集中が
見られ、予測残差信号は白色雑音に近いものとなる。音
声情報は主としてホルマントに依存しており、予測残差
信号は他の白色雑音に置換しても明瞭度にさしたる低下
は生じない。
On the other hand, although the periodicity is not recognized in the waveform of the unvoiced section, when linear prediction analysis is performed, concentration of spectral energy called formant is observed on the frequency axis, and the prediction residual signal becomes white noise. It will be close. Speech information is mainly formant-dependent, and even if the prediction residual signal is replaced with other white noise, the clarity is not significantly degraded.

【0013】このため、上記したような音声信号の特徴
を踏まえて、有声音区間、及び無声音区間それぞれに効
果的な帯域圧縮を実行する。
Therefore, effective band compression is executed for each of the voiced sound section and the unvoiced sound section based on the characteristics of the voice signal as described above.

【0014】まず、有声音区間ではピッチ周期のd倍
(d≧1)の時間長の信号(以下要素信号と呼ぶ)を切
り出し、時間軸上でピッチ周期のC(C:整数)倍に伸
長する。元の信号の上限周波数をfmとすると得られる
信号の上限周波数はfmd/Cに圧縮される。更に、有
声音区間では高域部を除去しても明瞭度が低下しないこ
とに着目して、全体の帯域を1/m(m>1)に制限す
ると得られる信号の上限周波数はfmd/mCに圧縮さ
れる。実用上例えばd=1,C=5,m=2とするとd
/m・C=1/10となり1/10という高い圧縮率が
得られる。
First, in the voiced sound section, a signal having a time length d times (d ≧ 1) the pitch cycle (hereinafter referred to as an element signal) is cut out and expanded to C (C: integer) times the pitch cycle on the time axis. To do. When the upper limit frequency of the original signal is fm, the upper limit frequency of the obtained signal is compressed to fmd / C. Further, paying attention to the fact that the intelligibility is not lowered even if the high frequency part is removed in the voiced sound section, the upper limit frequency of the signal obtained by limiting the entire band to 1 / m (m> 1) is fmd / mC. Is compressed to. Practically, for example, if d = 1, C = 5, m = 2, then d
/ M · C = 1/10, and a high compression rate of 1/10 can be obtained.

【0015】無声音区間では、ピッチが存在しないため
異なった方策が必要となる。伝送すべき音声信号y(n
・Δt)の上限周波数をfmとする。ここでΔt=1/
2fmでy(n・Δt)は時刻n・Δt(nは整数)で
の音声信号の値を表すものとする。いま、システムパラ
メータとして線形予測係数を用いる場合を例にとって説
明すると、音声信号に線形予測分析を施し、線形予測係
数ai(i=0,1,2,…,N−1)及び予測残差信
号x(nΔt)を得る。x(nΔt)はほとんど白色雑
音とみなせる。ここで、次の数1のような基底信号x’
(nΔT)を考える。
Since there is no pitch in the unvoiced section, different measures are required. Audio signal y (n to be transmitted
The upper limit frequency of Δt) is fm. Where Δt = 1 /
In 2 fm, y (n · Δt) represents the value of the audio signal at time n · Δt (n is an integer). Now, a case of using a linear prediction coefficient as a system parameter will be described as an example. A linear prediction analysis is performed on a speech signal to obtain a linear prediction coefficient ai (i = 0, 1, 2, ..., N-1) and a prediction residual signal. Get x (nΔt). x (nΔt) can be regarded as almost white noise. Here, the base signal x ′ as in the following equation 1
Consider (nΔT).

【0016】[0016]

【数1】 [Equation 1]

【0017】基底信号x’(nΔT)は、周期1/fo
の繰り返し波形である。
The base signal x '(nΔT) has a period of 1 / fo
Is a repetitive waveform of.

【0018】この基底信号x’(nΔT)はAo,Φ
o,Ak,Bk(k=1,2,…,K)の合計2(K+
1)個の自由度を持っているので、その各々に、予測残
差信号の平均パワーおよびシステムパラメータai(i
=1,2,…,N−1)を割りつけるような波形合成回
路を用いて、システムパラメータ情報を担わせることが
できる。波形合成回路の一例として自己回帰システムを
とった場合について説明すると、この基底信号x’(n
ΔT)をai(i=1,2,…,N−1) を回帰係数
とする自己回帰システムに印加して出力信号w(nΔ
T)を得る。
This base signal x '(nΔT) is Ao, Φ
o, Ak, Bk (k = 1, 2, ..., K) total 2 (K +
1) Since there are 1 degrees of freedom, the average power of the prediction residual signal and the system parameter ai (i
, 1, 2, ..., N−1) can be used to carry the system parameter information. A case where an autoregressive system is used as an example of the waveform synthesis circuit will be described.
ΔT) is applied to an autoregressive system having ai (i = 1, 2, ..., N−1) as a regression coefficient, and an output signal w (nΔ
T) is obtained.

【0019】自己回帰システムは線形であるから、この
出力信号w(nΔT)もまたfm・d/m・C以上の高
域成分は含んでいない。そして、この出力信号w(nΔ
T)は、時刻nΔT(nは整数)における出力信号の値
で、ΔT=mC/2fmdである。
Since the autoregressive system is linear, this output signal w (nΔT) also does not include high frequency components above fm · d / m · C. Then, this output signal w (nΔ
T) is the value of the output signal at time nΔT (n is an integer), and ΔT = mC / 2fmd.

【0020】ここで、音声信号y(nΔt)と出力信号
w(nΔT)とは共に同一の線形予測係数aiを持って
いる。但し、音声信号y(nΔt)の上限周波数はfm
で、出力信号w(nΔT)の上限周波数fmd/mCで
あるから、予測サンプリング間隔の間には、ΔT=mC
/d・Δtの関係がある。
The voice signal y (nΔt) and the output signal w (nΔT) both have the same linear prediction coefficient ai. However, the upper limit frequency of the audio signal y (nΔt) is fm.
Since the output signal w (nΔT) has the upper limit frequency fmd / mC, ΔT = mC during the prediction sampling interval.
There is a relationship of / d · Δt.

【0021】このように、音声信号y(nΔt)と出力
信号w(nΔT)とは共に同一の線形予測係数ai を
持つから、狭帯域のアナログ波形からなる出力信号w
(nΔT)を伝送するだけで、原音声信号y(nΔt)
の持つスペクトル情報を忠実に伝送することができるの
である。
As described above, since the voice signal y (nΔt) and the output signal w (nΔT) both have the same linear prediction coefficient a i, the output signal w having a narrow-band analog waveform.
Only by transmitting (nΔT), the original audio signal y (nΔt)
It is possible to faithfully transmit the spectrum information of the.

【0022】但し、ここにいうスペクトル情報とは、線
形予測係数(システムパラメータ)の形での情報であ
り、周波数スペクトルそのものではない。この周波数ス
ペクトルそのものは、受信側において、駆動信号と自己
回帰システムによって生成されるようになっている。
However, the spectrum information mentioned here is information in the form of a linear prediction coefficient (system parameter), and is not the frequency spectrum itself. This frequency spectrum itself is generated by the drive signal and the autoregressive system on the receiving side.

【0023】なお、上記の波形合成回路は必ずしも自己
回帰システムに限られることはなく、基底信号を構成す
る正弦波の振幅及び位相をシステムパラメータ情報で変
調するすべての回路を含むものとする。
The above waveform synthesizing circuit is not necessarily limited to an autoregressive system, and includes all circuits that modulate the amplitude and phase of a sine wave forming a base signal with system parameter information.

【0024】[0024]

【発明の実施の形態】以下、本発明による音声信号帯域
圧縮伸長装置について図示の一実施形態により詳細に説
明する。
BEST MODE FOR CARRYING OUT THE INVENTION A voice signal band compression / expansion device according to the present invention will be described in detail below with reference to an embodiment shown in the drawings.

【0025】図1は、本発明による音声信号帯域圧縮伸
長装置のm=1としたときの送信側の構成を示すブロッ
ク図である。
FIG. 1 is a block diagram showing the configuration of the transmission side of the audio signal band compression / expansion device according to the present invention when m = 1.

【0026】伝送すべき音声信号y(t)は入力端子1
01に供給され、まずA/D(アナログ・ディジタル)
変換器102により標本化され、ディジタル信号y(n
Δt)に変換される。ここで、信号y(t) は、時刻
tにおける音声信号の値で、信号y(nΔt)は上記し
たように、時刻nΔt(n=整数)における音声信号の
値である。
The audio signal y (t) to be transmitted is input terminal 1
01, first A / D (analog / digital)
The digital signal y (n is sampled by the converter 102.
Δt). Here, the signal y (t) is the value of the audio signal at the time t, and the signal y (nΔt) is the value of the audio signal at the time nΔt (n = integer) as described above.

【0027】ここで原音声信号y(t)の周波数成分の
上限周波数fm=4000Hzとし、サンプリング時間
間隔Δtを、Δt=1/2fm=125μs(サンプリ
ング周波数8kHz)とする。
Here, it is assumed that the upper limit frequency fm of the frequency component of the original audio signal y (t) is 4,000 Hz and the sampling time interval Δt is Δt = 1/2 fm = 125 μs (sampling frequency 8 kHz).

【0028】有声音区間ではピッチ検出回路103でピ
ッチ周期が検出されると共に、音声信号はバファメモリ
105に蓄えられる。バファメモリ105の容量はピッ
チ検出回路103の出力で制御され、1ピッチ分又はそ
れ以上に設定される。バファメモリ105への記録が容
量の限度に達したときは、再び、先頭番地へ戻って記録
を継続し、従ってバファメモリ105には常に1ピッチ
分又はそれ以上の波形が保持される。バファメモリ10
5の内容はサンプリング周波数1600Hzで読み出さ
れ、有声/無声切り替え回路112を経て、D/A(デ
ィジタル・アナログ)変換器113により上限周波数8
00Hzの狭帯域信号となって、出力端子114より送
出される。
In the voiced sound section, the pitch detection circuit 103 detects the pitch period and the voice signal is stored in the buffer memory 105. The capacity of the buffer memory 105 is controlled by the output of the pitch detection circuit 103, and is set to one pitch or more. When the recording in the buffer memory 105 reaches the limit of the capacity, the recording is resumed by returning to the head address again, so that the buffer memory 105 always holds a waveform of one pitch or more. Buffer memory 10
5 is read at a sampling frequency of 1600 Hz, passes through a voiced / unvoiced switching circuit 112, and an upper limit frequency of 8 by a D / A (digital / analog) converter 113.
It becomes a narrow band signal of 00 Hz and is sent out from the output terminal 114.

【0029】なお、有声/無声切り替え回路112はピ
ッチ検出回路103によって制御される。
The voiced / unvoiced switching circuit 112 is controlled by the pitch detection circuit 103.

【0030】図2はC=5としたときの時間軸伸長を示
す概念図である。
FIG. 2 is a conceptual diagram showing time-axis expansion when C = 5.

【0031】有声音音声信号はピッチ周期ΔTpで繰り
返す周期的波形になっている。そこで、y(nΔt)の
波形の中から時間長ΔTpの要素信号を切り出し、サン
プリング速度を1/Cに落として時間軸上に並べ、逐次
これを接続すれば、ちょうど元の波形y(nΔt)を相
似的に時間軸上に伸長した波形y’(nΔT)が得られ
る。
The voiced voice signal has a periodic waveform which repeats at a pitch period ΔTp. Therefore, if the element signal of time length ΔTp is cut out from the waveform of y (nΔt), the sampling rate is reduced to 1 / C and they are arranged on the time axis, and they are connected successively, the original waveform y (nΔt) is obtained. A waveform y '(n [Delta] T) is obtained by analogically extending y on the time axis.

【0032】次に再び図1に戻って無声音区間では音声
信号y(nΔt)を自己回帰形の信号として捉え、シス
テムパラメータとして線形予測係数aiを用い、数2と
定義する。
Next, returning to FIG. 1 again, the voice signal y (nΔt) is regarded as an autoregressive signal in the unvoiced section, and the linear prediction coefficient ai is used as the system parameter, and is defined as Equation 2.

【0033】[0033]

【数2】 [Equation 2]

【0034】ここで、右辺の第1項は、人の発声機構に
おける呼気による音源信号を表し無声音区間では、ほぼ
白色雑音とみなせる。第2項は同じく声道によるフィル
タリング作用を表すものと考えられている。、このA/
D変換器102の出力である音声信号y(nΔt)は、
線形予測(LP)分析器106と逆フィルタリング回路
107に供給され、まず一方の線形予測分析器106で
は、線形予測係数ai(i=1,2,3,…,N−1)
の推定値が求められる。
Here, the first term on the right side represents the sound source signal due to the exhalation in the human vocal mechanism, and can be regarded as almost white noise in the unvoiced section. The second term is also considered to represent the filtering action by the vocal tract. , This A /
The audio signal y (nΔt) output from the D converter 102 is
It is supplied to the linear prediction (LP) analyzer 106 and the inverse filtering circuit 107. First, in one linear prediction analyzer 106, the linear prediction coefficient ai (i = 1, 2, 3, ..., N−1).
Is estimated.

【0035】他方、逆フィルタリング回路107では、
この線形予測係数aiを用い、時系列信号からなるディ
ジタルの音声信号y(nΔt)に対して、次の数3によ
る演算を施し、予測残差信号x(nΔt)を得るように
なっており、これにより線形予測システムを構成してい
る。
On the other hand, in the inverse filtering circuit 107,
Using this linear prediction coefficient ai, a digital speech signal y (nΔt) consisting of a time-series signal is subjected to calculation by the following equation 3 to obtain a prediction residual signal x (nΔt), This constitutes a linear prediction system.

【0036】[0036]

【数3】 (Equation 3)

【0037】パワー検出回路108でx(nΔt)の平
均パワーを求め,基底信号発生器109でそのパワーに
比例したパワーを持つ基底信号x’(nΔT)を発生さ
せる。基底信号のサンプリング周波数は1600Hz
で、サンプリング周期はΔT=625μSである。上記
基底信号x’(nΔT)は数4で表わされる。
The power detection circuit 108 calculates the average power of x (nΔt), and the base signal generator 109 generates a base signal x '(nΔT) having a power proportional to the power. The sampling frequency of the base signal is 1600 Hz
Then, the sampling period is ΔT = 625 μS. The base signal x ′ (nΔT) is expressed by Equation 4.

【0038】[0038]

【数4】 (Equation 4)

【0039】基底信号は、このように構成された周期1
/fo=10msの繰り返し波形であり、その上限周波
数は800Hzである。
The base signal has a period of 1 thus constructed.
It is a repetitive waveform of / fo = 10 ms, and its upper limit frequency is 800 Hz.

【0040】次に、この基底信号x’(nΔT)は、線
形予測(LP)合成器110に供給され、ここで、線形
予測分析器106で求められている線形予測係数ai=
1,2,3,…,N−1)を回帰係数として用い、基底
信号x’(nΔT)に次の、数5による自己回帰システ
ム演算を施し、狭帯域時系列信号w(nΔT)を得る。
Next, the basis signal x ′ (nΔT) is supplied to the linear prediction (LP) synthesizer 110, where the linear prediction coefficient ai = found by the linear prediction analyzer 106.
1, 2, 3, ..., N-1) is used as a regression coefficient, and the base signal x '(n [Delta] T) is subjected to the following autoregressive system operation according to Formula 5 to obtain a narrowband time series signal w (n [Delta] T). .

【0041】[0041]

【数5】 (Equation 5)

【0042】一般に音声信号を線形予測分析したときに
得られるパラメータai=1,2,3,…,N−1)は
時々刻々変化するものであるが、音声の明瞭度を保つた
めには10msに1回程度その値を更新すればよいとさ
れている。
Generally, the parameters ai = 1, 2, 3, ..., N-1) obtained when a linear prediction analysis is performed on a voice signal vary from moment to moment, but in order to maintain the clarity of the voice, it is 10 ms. It is said that the value should be updated about once.

【0043】上記基底信号x’(nΔT)の繰り返し周
期は10msであるから、各周期毎にai=1,2,
3,…,N−1)の値を更新すれば、音声信号の時間的
変化にほぼ忠実に追随することができる。次に、このよ
うにして線形予測合成器110の出力に得られた狭帯域
時系列信号w(nΔT)は有声/無声切り替え回路11
2を経てD/A(ディジタル・アナログ) 変換器113
に供給されアナログ波形の信号に復元され、出力端子1
14に狭帯域時系列信号w(t)を得るのである。
Since the repetition period of the base signal x '(nΔT) is 10 ms, ai = 1, 2,
By updating the values of 3, ..., N-1), it is possible to follow the temporal change of the audio signal almost faithfully. Next, the narrowband time series signal w (nΔT) obtained at the output of the linear prediction synthesizer 110 in this manner is used for the voiced / unvoiced switching circuit 11
D / A (digital / analog) converter 113 via 2
To the output terminal 1
The narrowband time series signal w (t) is obtained at 14.

【0044】そこで、この狭帯域時系列信号w(t)に
ついてみると、それは 0〜800Hz の周波数成分か
らなっている。
Therefore, the narrow band time series signal w (t) is composed of frequency components of 0 to 800 Hz.

【0045】一方、原音声信号y(t) の周波数成分
は、上記したように上限周波数fm=4000Hzであ
り、従ってこの実施例によれば、4000Hzの周波数
範囲が800Hzの周波数範囲に帯域圧縮されることに
なる。
On the other hand, the frequency component of the original audio signal y (t) has the upper limit frequency fm = 4000 Hz as described above. Therefore, according to this embodiment, the frequency range of 4000 Hz is band-compressed into the frequency range of 800 Hz. Will be.

【0046】こうして出力端子114に得られた狭帯域
アナログ信号w(t)は、所定の信号伝送系、例えば電
話回線や無線チャンネルなどに乗せられ、受信側に伝送
されることになる。
The narrowband analog signal w (t) thus obtained at the output terminal 114 is put on a predetermined signal transmission system, such as a telephone line or a radio channel, and transmitted to the receiving side.

【0047】次に図3は、本発明による音声信号帯域圧
縮伸長装置のm=1としたときの受信側の構成を示すブ
ロック図で、図1の送信側から伝送されてきた狭帯域ア
ナログ信号w(t)は入力端子201に供給され、まず
A/D(アナログ・ディジタル)変換器202により標
本化され、時系列ディジタル信号w(nΔT)に変換さ
れる。
Next, FIG. 3 is a block diagram showing the configuration of the receiving side when the audio signal band compression / expansion device according to the present invention is set to m = 1. The narrow band analog signal transmitted from the transmitting side of FIG. w (t) is supplied to an input terminal 201, first sampled by an A / D (analog / digital) converter 202, and converted into a time-series digital signal w (nΔT).

【0048】ピッチ検出回路203では、w(nΔT)
に含まれる周期性を識別し、その周期を検出する。
In the pitch detection circuit 203, w (nΔT)
The periodicity included in is identified and the period is detected.

【0049】有声音区間においては、検出された周期に
応じてバッファメモリ204の容量を設定し、w(nΔ
T)でサイクリックに書き替えながら常に1ピッチ分の
波形が保持されるようにする。バッファメモリ204の
内容は、サンプリング周波数8KHzでエンドレスに読
み出されて、有声/無声切替回路212を経て、D/A
(ディジタル・アナログ) 変換器213にてアナログ音
声波形となり、出力端子214から送出される。無声音
区間では、時系列ディジタル信号w(nΔT)は、線形
予測分析器207と逆フィルタリング回路208に印加
され、まず、線形予測分析器207では、線形予測分析
により線形予測係数ai(i=1,2,3,…,N−
1)の値を復元する。
In the voiced sound section, the capacity of the buffer memory 204 is set according to the detected cycle, and w (nΔ
At T), the waveform for one pitch is always retained while being rewritten cyclically. The contents of the buffer memory 204 are endlessly read at a sampling frequency of 8 KHz, passed through a voiced / unvoiced switching circuit 212, and then D / A.
(Digital / Analog) An analog voice waveform is formed by the converter 213 and is output from the output terminal 214. In the unvoiced section, the time-series digital signal w (nΔT) is applied to the linear prediction analyzer 207 and the inverse filtering circuit 208. First, in the linear prediction analyzer 207, the linear prediction coefficient ai (i = 1, i = 1, 1) by the linear prediction analysis. 2, 3, ..., N-
Restore the value of 1).

【0050】他方、逆フィルタリング回路208では、
この線形予測係数aiを用い、時系列信号からなるディ
ジタル音声信号w(nΔT)に対して、次の数6による
演算を施し、予測残差信号からなる再生基底信号x’
(nΔT)を得るようになっており、これにより線形予
測システムを構成している。
On the other hand, in the inverse filtering circuit 208,
Using this linear prediction coefficient ai, the digital audio signal w (nΔT) consisting of a time-series signal is subjected to the operation of the following equation 6 to obtain a reproduction base signal x ′ consisting of a prediction residual signal.
(NΔT) is obtained, which constitutes a linear prediction system.

【0051】[0051]

【数6】 (Equation 6)

【0052】パワー検出回路209では、上記x’(n
ΔT)の平均パワーを検出し、白色雑音発生器210で
は、その平均パワーに比例するパワーを有する白色雑音
x(nΔt)を発生する。
In the power detection circuit 209, the above-mentioned x '(n
The average power of ΔT) is detected, and the white noise generator 210 generates white noise x (nΔt) having a power proportional to the average power.

【0053】線形予測合成器211では、線形予測分析
器207で求められている線形予測係数ai(i=1,
2,3,…,N−1)を回帰係数として用い、この白色
雑音x(nΔt)を駆動信号として、次の数7による自
己回帰システム演算を施し、時系列信号からなる再生音
声信号y(nΔt)を得る。
In the linear prediction synthesizer 211, the linear prediction coefficient ai (i = 1, 1 obtained by the linear prediction analyzer 207).
2, 3, ..., N-1) is used as a regression coefficient, and the white noise x (nΔt) is used as a drive signal to perform autoregressive system operation according to the following equation 7 to reproduce audio signal y (time-series signal). We obtain nΔt).

【0054】[0054]

【数7】 (Equation 7)

【0055】そして、このようにして線形予測合成器2
11の出力に得られた再生音声信号y(nΔt)は有声
/無声切替回路212を経て、D/A変換器213に供
給され、アナログ波形の信号に復元され、出力端子21
4にアナログ音声信号y(t)を得るのである。
In this way, the linear prediction synthesizer 2
The reproduced voice signal y (nΔt) obtained at the output of 11 is supplied to the D / A converter 213 via the voiced / unvoiced switching circuit 212, restored to an analog waveform signal, and output terminal 21
The analog voice signal y (t) is obtained at 4.

【0056】無声音区間における駆動信号は、音声の生
成過程において呼気が調音器官によって形づくられる狭
い空間を通り抜けるときに生ずる空気の乱流に対応する
ものであって、上記のように白色雑音で第一近似され得
るのであるが、更に言えば、実在の音声から予測残差信
号すなわち音源信号を採取してサンプル音源として用意
しておき、個々の場合に対応して最適のものを選択して
駆動信号として利用すれば、更に音質を改善することが
できる。
The drive signal in the unvoiced section corresponds to the turbulence of the air generated when the exhaled air passes through the narrow space formed by the articulatory organs in the process of producing the voice, and as described above, the drive signal is the white noise. Although it can be approximated, further speaking, a prediction residual signal, that is, a sound source signal is sampled from a real voice and prepared as a sample sound source, and an optimum one is selected according to each case, and a drive signal is selected. If used as, the sound quality can be further improved.

【0057】次に、上記実施形態における各要素につい
て説明する。まず、線形予測分析器106、207は、
例えば図6に示すアルゴリズムにしたがって処理を実行
し、音声信号Snの自己相関関数を計算して、係数ai
(i=1,2,3,…,N−1)を決定する機能を有す
るものである。すなわち、自己相関器により音声信号S
nを遅れ要素Z~1で遅延した信号と原音声信号で相関演
算し、各データの短区間自己相関数R0,R1,R2,…
を求める。自己相関器の出力R0,R1,R2,…を次の
連立1次方程式に入れて、線形予測係数a1,a2
3,…を求める。
Next, each element in the above embodiment will be described. First, the linear prediction analyzers 106 and 207 are
For example, processing is performed according to the algorithm shown in FIG. 6, the autocorrelation function of the speech signal Sn is calculated, and the coefficient ai
It has a function of determining (i = 1, 2, 3, ..., N-1). That is, the audio signal S by the autocorrelator
n is delayed by the delay element Z ~ 1 and the original speech signal is subjected to correlation calculation, and the short-term autocorrelation numbers R 0 , R 1 , R 2 , ... Of each data are calculated.
Ask for. The outputs R 0 , R 1 , R 2 , ... Of the autocorrelator are put into the following simultaneous linear equations to obtain linear prediction coefficients a 1 , a 2 ,
a 3, ... we seek.

【0058】なお、本発明の理解には、この線形予測分
析器の詳細が、例えば、1980年(昭和55年)6月
10日、産報出版株式会社発行、“コンピュータ音声処
理”<電子科学シリーズ>の43〜50頁に記載されて
いる。
In order to understand the present invention, details of this linear prediction analyzer are described in, for example, June 10, 1980 (Showa 55), published by Kobo Publishing Co., Ltd., "Computer Speech Processing"<Electronic Science. Series> pp. 43-50.

【0059】また、線形予測分析器207の場合は、基
底信号が既知であって、正弦波波形の集合であるから、
FFT解析によって、各正弦波の振幅を求め、これより
係数ai(i=1,2,3,…,N−1)を推定するよ
うに構成することもできる。
Further, in the case of the linear prediction analyzer 207, the basis signal is known and is a set of sinusoidal waveforms.
The amplitude of each sine wave may be obtained by FFT analysis, and the coefficient ai (i = 1, 2, 3, ..., N-1) may be estimated from this.

【0060】次に、逆フィルタリング回路107,20
8による逆フィルタリング処理とは、予め上記した係数
ai(i=1,2,3,…,N−1)を知った上で、こ
れから、残差信号、例えば、x(nΔt)を計算する処
理で、上記の数3式に従って演算を行なうものである。
Next, the inverse filtering circuits 107, 20
The inverse filtering process of 8 is a process of calculating a residual signal, for example, x (nΔt) from the coefficient ai (i = 1, 2, 3, ..., N−1) described above in advance. Then, the calculation is performed according to the above-described equation (3).

【0061】また、線形予測合成器110,211は上
記の数5式に従って演算を行なうもので、例えば、図7
に示す処理により、駆動信号を用いて音声信号を合成す
る機能を有するものである。すなわち、遅れ要素Z~1
遅延させた音声信号を係数a1,a2,a3,…で重み付
け合成することによって合成音声信号ynを得ることが
できる。
Further, the linear predictive synthesizers 110 and 211 perform arithmetic operations according to the above equation 5, and for example, FIG.
By the processing shown in (1), it has a function of synthesizing an audio signal using a drive signal. That is, it is possible to obtain a synthesized speech signal yn by weighting synthesizing speech signals delayed by the delay element Z ~ 1 coefficients a 1, a 2, a 3 , ... in.

【0062】なお、その詳細については、例えば、同じ
く1980年(昭和55年)6月10日、産報出版株式
会社発行、“コンピュータ音声処理" <電子科学シリー
ズ>の50〜53頁に記載されている。
The details are described, for example, on pages 50 to 53 of "Computer Audio Processing"<Electronic Science Series>, published by Koho Publishing Co., Ltd., on June 10, 1980 (Showa 55). ing.

【0063】また、線形予測合成器110は基底信号を
構成する各正弦波の振幅及び位相をシステムパラメータ
に対応して変調するような変調回路として構成してもよ
い。
Further, the linear predictive synthesizer 110 may be configured as a modulation circuit that modulates the amplitude and phase of each sine wave forming the base signal according to the system parameter.

【0064】以上述べた実施形態は、d=1,m=1,
C=5としたときのもので、圧縮率は1/5であり、上
限周波数4kHzの音声が、上限周波数800Hzに圧
縮されることを示した。
In the embodiment described above, d = 1, m = 1,
When C = 5, the compression rate was 1/5, and it was shown that the voice with the upper limit frequency of 4 kHz is compressed to the upper limit frequency of 800 Hz.

【0065】次に、d=1,m=2,C=5として圧縮
率を1/10にした実施形態について説明する。
Next, an embodiment in which d = 1, m = 2, C = 5 and the compression rate is 1/10 will be described.

【0066】図4は、本発明による音声信号帯域圧縮伸
長装置のm=2としたときの実施形態における送信側の
構成を示すブロック図で、図1とほぼ同じ構成であり、
両図で同じ符号で表されているブロックの作用は全く同
一であるので、その部分の説明は省略する。
FIG. 4 is a block diagram showing the configuration of the transmitting side in the embodiment when m = 2 of the audio signal band compression / expansion device according to the present invention, which has almost the same configuration as FIG.
Since the operation of the blocks denoted by the same reference numerals in both figures is exactly the same, the description of those parts will be omitted.

【0067】有声音区間では、ピッチ検出回路103で
ピッチ周期が検出されると共に音声信号は低域濾波器1
04で、上限周波数を2000Hzに制限され、サンプ
リング周波数を4kHzに落として、バファメモリ10
5に蓄えられる。バファメモリ105の容量はピッチ検
出回路103の出力で制御され、1ピッチ分又はそれ以
上に設定される。バファメモリ105への記録が容量の
限度に達したときは、再び、先頭番地へ戻って記録を継
続し、従ってバファメモリ105には1ピッチ分又はそ
れ以上の波形が保持される。バファメモリ105の内容
はサンプリング周波数800Hzで読み出され、有声/
無声切替回路112を経て、D/A(ディジタル・アナ
ログ)変換器113により上限周波数400Hzの狭帯
域信号となって、出力端子114より送出される。
In the voiced sound section, the pitch detection circuit 103 detects the pitch period and the voice signal is low-pass filtered.
In 04, the upper limit frequency was limited to 2000 Hz, the sampling frequency was lowered to 4 kHz, and the buffer memory 10
5 The capacity of the buffer memory 105 is controlled by the output of the pitch detection circuit 103, and is set to one pitch or more. When the recording in the buffer memory 105 reaches the capacity limit, the recording is resumed by returning to the head address again, so that the waveform of one pitch or more is held in the buffer memory 105. The contents of the buffer memory 105 are read at a sampling frequency of 800 Hz,
After passing through the unvoiced switching circuit 112, a D / A (digital / analog) converter 113 converts the signal into a narrow band signal having an upper limit frequency of 400 Hz, and the signal is sent from the output terminal 114.

【0068】無声音区間で発生される基底信号x’(n
ΔT)は数8で表わされる。
The base signal x '(n generated in the unvoiced section
ΔT) is expressed by Equation 8.

【0069】[0069]

【数8】 (Equation 8)

【0070】従って、 その周期は1/fo=10ms
であるが、上限周波数は400Hzである。従って、こ
れを基に線形予測合成した線形予測(LP)合成器11
0の出力も0〜400Hzの帯域を持っている。このよ
うにして得られた0〜400Hzの帯域を持つ狭帯域時
系列信号w(nΔT)は、有声/無声切替回路112を
経て、D/A(ディジタル・アナログ)変換器113に
供給され、アナログ波形の信号に復元され、出力端子1
14に狭帯域アナログ信号w(t)を得るのである。
Therefore, the cycle is 1 / fo = 10 ms
However, the upper limit frequency is 400 Hz. Therefore, a linear prediction (LP) synthesizer 11 that performs linear prediction synthesis based on this
The 0 output also has a band of 0 to 400 Hz. The narrowband time-series signal w (nΔT) having a band of 0 to 400 Hz obtained in this way is supplied to the D / A (digital / analog) converter 113 via the voiced / unvoiced switching circuit 112 to be converted into an analog signal. Restored to a waveform signal, output terminal 1
A narrowband analog signal w (t) is obtained at 14.

【0071】そこで、この狭帯域アナログ信号w(t)
についてみると、それは0〜400Hzの周波数成分か
らなっている。
Therefore, this narrow band analog signal w (t)
Regarding, it consists of frequency components from 0 to 400 Hz.

【0072】一方原音声信号y(t)の周波数成分は上
記したように上限周波数fm=4000Hzであり、従
って、この実施例によれば、0〜4000Hzの周波数
範囲が0〜400Hzの周波数範囲に帯域圧縮されるこ
とになる。
On the other hand, the frequency component of the original audio signal y (t) has the upper limit frequency fm = 4000 Hz as described above. Therefore, according to this embodiment, the frequency range of 0 to 4000 Hz is changed to the frequency range of 0 to 400 Hz. Bandwidth will be compressed.

【0073】有声音区間では、ピッチ波形は2kHz以
下に制限されているが、前述した理由により、明瞭度の
低下は軽微である。
In the voiced sound section, the pitch waveform is limited to 2 kHz or less, but for the reasons described above, the decrease in clarity is slight.

【0074】次に図5は本発明による音声信号帯域圧縮
伸長装置のm=2としたときの実施形態における受信側
の構成を示すブロック図で、図3とほぼ同じ構成であ
り、両図で同じ符号で表されているブロックの作用は全
く同一であるので、その部分の説明は省略する。
Next, FIG. 5 is a block diagram showing the structure of the receiving side in the embodiment when m = 2 of the audio signal band compression / expansion device according to the present invention, which has almost the same structure as FIG. The operations of the blocks denoted by the same reference numerals are exactly the same, so the description of those parts will be omitted.

【0075】有声音区間においては、検出された周期に
応じて、バファメモリ204の容量を設定し、w(nΔ
T)でサイクリックに書き替えながら、常に1ピッチ分
の波形が保持されるようにする。バファメモリ204の
内容はサンプリング周波数4kHzでエンドレスに読み
出され、各サンプル間に0を補充した後、低域ろ波器2
05で2kHz以下の成分が抜き出され、サンプリング
周波数8kHzの信号となって、有声/無声切替回路2
12を経て、D/A(ディジタル・アナログ)変換器2
13にて、アナログ音声波形となり、出力端子214か
ら送出される。
In the voiced sound section, the capacity of the buffer memory 204 is set according to the detected cycle, and w (nΔ
While rewriting cyclically in T), the waveform for one pitch is always held. The contents of the buffer memory 204 are read endlessly at a sampling frequency of 4 kHz, and 0 is added between each sample, and then the low-pass filter 2
In 05, a component of 2 kHz or less is extracted and becomes a signal having a sampling frequency of 8 kHz, and the voiced / unvoiced switching circuit 2
D / A (digital / analog) converter 2 via 12
At 13, an analog voice waveform is formed and sent from the output terminal 214.

【0076】ところで、以上の実施形態では、音声信号
y(nΔt)を上記の数2式で定義し、予測係数ai
(i=1,2,3,…,N−1)を求めることが予測分
析であるとしているが、本発明はこれに限らず実施可能
で、本発明における予測分析処理は、これに限定される
ものではない。
By the way, in the above embodiment, the audio signal y (nΔt) is defined by the above-mentioned equation 2 and the prediction coefficient ai
It is said that the prediction analysis is to obtain (i = 1, 2, 3, ..., N−1), but the present invention is not limited to this, and the prediction analysis process in the present invention is not limited to this. Not something.

【0077】一般に、音声信号をZ変換方式で記述し、
数9、
Generally, a voice signal is described by the Z conversion method,
Number 9,

【0078】[0078]

【数9】 [Equation 9]

【0079】が成立すると仮定した上で数10を同定す
る方法は種々知られているが、本発明における予測分析
とは、その全てを包含しているものである。
Although various methods are known for identifying the equation 10 on the assumption that the above is true, the predictive analysis in the present invention includes all of them.

【0080】[0080]

【数10】 (Equation 10)

【0081】そして、本発明における線形予測システム
とは、数11、
The linear prediction system according to the present invention is expressed by

【0082】[0082]

【数11】 [Equation 11]

【0083】によってy(z)からx(z)を得るシス
テムを全て意味し、同じく自己回帰システムとは、数9
によってx(z)からy(z)を得るシステムを全て意
味するものである。
Means all systems that obtain x (z) from y (z) by the autoregressive system.
It means any system that obtains y (z) from x (z) by.

【0084】一例としては、よく知られたものの一つに
偏自己相関係数(kパラメータ)km(m=1,2,…
…,N−1)がある。
As one example, one of the well-known ones is a partial autocorrelation coefficient (k parameter) km (m = 1, 2, ...).
..., N-1).

【0085】これは線形予測係数ai(i=1,2,
…,N−1)と数21のような漸化式関係で結ばれるパ
ラメータである。
This is a linear prediction coefficient ai (i = 1, 2,
, N−1) and a recurrence relation such as Equation 21.

【0086】例えば、1988年(昭和63年)3月2
5日 株式会社コロナ社発行、“信号解析とシステム同
定”の55〜57頁および72〜76頁を参照すれば、
線形予測係数ai(i=1,2,…,N−1)は連立方
程式 数12、
For example, March 2, 1988 (Showa 63)
5th See "Signal analysis and system identification", pages 55-57 and 72-76, published by Corona Inc.
The linear prediction coefficient ai (i = 1, 2, ..., N-1) is a simultaneous equation

【0087】[0087]

【数12】 (Equation 12)

【0088】の根として求められる。It is obtained as the root of.

【0089】今、一般に 数13、Now, in general,

【0090】[0090]

【数13】 (Equation 13)

【0091】と置くことにすると、上式 数12は 数
14、
If we put, the above equation 12 is given by

【0092】[0092]

【数14】 [Equation 14]

【0093】となる。またRkは 数15Is obtained. Also, R k is

【0094】[0094]

【数15】 (Equation 15)

【0095】であるからkの代わりにm−kを代入する
と、Rk=R_kであることを考慮して数16で
Therefore, if m−k is substituted for k , R k = R_ k

【0096】[0096]

【数16】 (Equation 16)

【0097】数15、数16を数14に代入すると 数
17、
Substituting the equations 15 and 16 into the equation 14, the equation 17

【0098】[0098]

【数17】 [Equation 17]

【0099】即ち、数18となりThat is, equation 18 is obtained.

【0100】[0100]

【数18】 (Equation 18)

【0101】iの代わりにm−iを代入すると数19、Substituting for m-i instead of i, the following equation 19,

【0102】[0102]

【数19】 [Equation 19]

【0103】数19の両辺にkmをかけ数18との間で辺
々相減ずると数20、
[0103] sides people phase reduce the number 20 with the multiplied number 18 k m on both sides of the number 19,

【0104】[0104]

【数20】 (Equation 20)

【0105】即ち 数21を得る。That is, Equation 21 is obtained.

【0106】[0106]

【数21】 (Equation 21)

【0107】kパラメータは、常に−1≦km≦+1の
範囲にあるので、アナログ基底信号を使って波形合成し
た信号のダイナミックレンジが限られた範囲に収まると
いう利点がある。波形合成アルゴリズムの一例として、
合成波形を数8で表わしたとき、数22、
Since the k parameter is always in the range of -1≤km≤ + 1, there is an advantage that the dynamic range of the signal whose waveform is synthesized by using the analog base signal falls within the limited range. As an example of the waveform synthesis algorithm,
When the composite waveform is represented by the equation 8,

【0108】[0108]

【数22】 (Equation 22)

【0109】のように対応させれば、受信側でFFT解
析により直ちにkパラメータを復元できる。また、bm
(m=1,2,……,6)は振幅の極性に対応して+1
または−1の値をとる2値信号となるので、最適サンプ
ル音源信号を指定するディジタル符号として利用するこ
とができる。
By making the correspondence as described above, the k parameter can be immediately restored by the FFT analysis on the receiving side. Also, bm
(M = 1, 2, ..., 6) is +1 corresponding to the polarity of the amplitude.
Alternatively, since the binary signal takes a value of -1, it can be used as a digital code for designating the optimum sample excitation signal.

【0110】Kパラメータを採用し、受信側でFFT解
析によりこれを復元するようにした実施形態の送信側お
よび受信側のブロック図を図8、図9にKパラメータを
使用する線形予測合成器の一例を図10に示す。
The block diagrams of the transmitting side and the receiving side of the embodiment in which the K parameter is adopted and is restored by the FFT analysis on the receiving side are shown in FIG. 8 and FIG. 9 of the linear predictive synthesizer using the K parameter. An example is shown in FIG.

【0111】次に音声区間における音素の時間長を調べ
ると、母音はどの母音でも余り変化せず、平均約70m
sであり、子音はその種類によって5〜130msの範
囲に変化するといわれている。母音のピッチ周期は2〜
20msの範囲に分布するので上記の例のようにC=5
として時間軸上に伸長した場合、一つの母音音素に対応
するフレーム数は1〜7程度となる。このような少ない
フレーム数の中から、周期性を検出してピッチ波形を切
り出すには、技術的にかなり困難を伴う。また子音区間
ではパラメータを伝送するためのフレーム周期は10m
sであり、この場合も子音音素に対応するフレーム数は
1〜13程度となり、母音の場合と同様の問題を生ず
る。これらの問題の解決の一法として次のような方法が
提案される。
Next, when the time length of the phoneme in the voice section is examined, the vowel does not change much at any vowel, and the average is about 70 m.
It is said that the consonant changes in the range of 5 to 130 ms depending on its type. Vowel pitch period is 2
Since it is distributed in the range of 20 ms, C = 5 as in the above example.
When expanded on the time axis, the number of frames corresponding to one vowel phoneme is about 1 to 7. From such a small number of frames, it is technically very difficult to detect the periodicity and cut out the pitch waveform. In the consonant section, the frame period for transmitting parameters is 10m.
s, and in this case as well, the number of frames corresponding to consonant phonemes is about 1 to 13, which causes the same problem as in the case of vowels. The following method is proposed as a method for solving these problems.

【0112】まず無音区間では、、数22の一般的定義
ではAo=0となるが、これをあえてAo>0としAk
=Bk=0(m=1,2,…,K)とする。その結果、
無音区間でも周波数f0の正弦波が伝送されるので受信
側ではこれを検出して、あらかじめフレーム同期をとっ
ておくことができる。但し、同時にAk=Bk=0(m
=1,2,…,K)を検出して、再生音声出力は0に保
つ。
First, in the silent section, Ao = 0 according to the general definition of Equation 22, but dare to set Ao> 0 and Ak
= Bk = 0 (m = 1, 2, ..., K). as a result,
Since the sine wave having the frequency f0 is transmitted even in the silent section, the receiving side can detect this and establish frame synchronization in advance. However, at the same time, Ak = Bk = 0 (m
, 1, 2, ..., K), and the reproduced voice output is kept at 0.

【0113】無声音区間では、上記のフレーム同期をそ
のまま継続することにより、容易に同期を保つことがで
きる。AoはAo>0に保たれる。
In the unvoiced sound section, it is possible to easily maintain the synchronization by continuing the frame synchronization as it is. Ao is kept at Ao> 0.

【0114】有声音区間では、フレーム周期は原ピッチ
周期のC倍であって、一定値を期待することはできな
い。そこで有声音区間の開始時点においては、ピッチ波
形の送出に先立って、数22のフレームを使ってピッチ
周期の値を伝送することにする。そのため該フレームに
限ってAo<0即ち、周波数f0の位相を反転し、b
m(m=1,2,…,N−1)の値を使ってピッチ周期
の値を伝送する。受信側では、周波数fの位相反転を検
出したら、bm(m=1,2,…,N−1)がピッチ周
期を表すものと解釈して、あらかじめピッチ波形の区分
点を推定し、その近傍で自己相関のピークを探索して、
ピッチ波形の区分点を決定することにより容易にフレー
ム同期を保つことができる。
In the voiced sound section, the frame period is C times the original pitch period, and a constant value cannot be expected. Therefore, at the start of the voiced sound section, the value of the pitch period is transmitted using the frame of the formula 22 before the pitch waveform is transmitted. Therefore, Ao <0, that is, the phase of the frequency f 0 is inverted only for the frame, and b
The value of the pitch period is transmitted using the value of m (m = 1, 2, ..., N−1). On the receiving side, when phase inversion of the frequency f is detected, it is interpreted that b m (m = 1, 2, ..., N−1) represents the pitch period, the division points of the pitch waveform are estimated in advance, and Search for an autocorrelation peak in the vicinity,
Frame synchronization can be easily maintained by determining the division points of the pitch waveform.

【0115】また、この方式を使って、母音の立ち上が
り時点の伝送遅れを解消することもできる。図11は、
母音の立ち上がり時点の時間関係を示す図である。図1
1において子音または無音状態から時刻T1に母音が立
ち上がった場合、ピッチを検出して母音の立ち上がりを
認識するまでにはある程度の時間遅れがあり、従って実
際にピッチ波形の伝送が開始されるのは時刻T2にな
る。ピッチ波形は時間軸上で伸長されるので、これを受
信して再生音声を得るのは更に遅れて時刻T3になる。
ピッチ周波数の下限を50HzとするとC=5の場合に
はT2とT3の時間差は80msとなり、実用上無視でき
ない値となる。上記の方式によれば、時刻T2まではパ
ラメータ情報が伝送されており、かつ、ピッチ波形の伝
送開始時点の直前にはピッチ周期の情報が伝送されるの
で、受信側でこれらの情報を利用し、先ずピッチ周期に
等しい周期の繰り返しパルス列を作り、これを駆動信号
として上記パラメータを使って線形予測(LP)合成す
れば、疑似的母音波形A'を作り出すことができ、少な
くとも時刻T2には再生母音が得られる。
Further, by using this method, it is possible to eliminate the transmission delay at the rising time of the vowel. FIG.
It is a figure which shows the time relationship of the rising time of a vowel. FIG.
When the vowel rises from the consonant or the silent state at time T 1 in No. 1 , there is a certain time delay until the pitch is detected and the rise of the vowel is recognized, so that the transmission of the pitch waveform is actually started. Becomes time T 2 . Since the pitch waveform is expanded on the time axis, it is delayed at time T 3 to receive the reproduced sound by receiving it.
When the lower limit of the pitch frequency is 50 Hz, the time difference between T 2 and T 3 is 80 ms when C = 5, which is a value that cannot be ignored in practice. According to the above method, the parameter information is transmitted until time T 2 , and the pitch period information is transmitted immediately before the start point of the pitch waveform transmission. Then, first, a repetitive pulse train having a period equal to the pitch period is created, and if this is used as a drive signal and linear prediction (LP) synthesis is performed using the above parameters, a pseudo vowel waveform A ′ can be produced, and at least at time T 2 . Gives a reproduced vowel.

【0116】以上の実施形態の説明では、いずれも受信
側の有声音区間の再生については、受信要素波形を時間
軸上でC分の1に圧縮し、これをC回繰り返して再生音
声波形を得るものとしている。この方法では音声の暸解
度は保たれるものの、規則的にC回ずつ同一波形が繰り
返された後、急激な波形変化が起こるために、再生音声
の音質の自然度が失われ、違和感を生ずる。そこで相隣
れる要素波形の変化を平滑化する手段を設けることによ
り、音質を向上させることができる。図12にその一例
を示す。この実施形態では、時間軸上で圧縮した波形を
2・C回繰り返して再生し、その前半には0から1に直
線的に変化する重み付けを行い、後半には1から0に直
線的に変化する重み付けを行い、その結果同士を加算す
ることにより、相隣れる要素波形の変化を平滑化してい
る。
In the description of the above embodiments, regarding reproduction of the voiced sound section on the receiving side, the received element waveform is compressed to 1 / C on the time axis, and this is repeated C times to reproduce the reproduced voice waveform. I'm supposed to get it. In this method, the resolution of the voice is maintained, but after the same waveform is regularly repeated C times, a rapid waveform change occurs, so that the naturalness of the sound quality of the reproduced voice is lost and a sense of discomfort occurs. . Therefore, it is possible to improve the sound quality by providing a means for smoothing changes in adjacent element waveforms. FIG. 12 shows an example thereof. In this embodiment, a waveform compressed on the time axis is repeatedly reproduced 2 · C times, weighting is performed to linearly change from 0 to 1 in the first half, and linearly changes from 1 to 0 in the second half. The weighting is performed and the results are added together to smooth the changes in adjacent element waveforms.

【0117】以上の実施例の説明では、説明を簡略にす
るため、送信側で切り出す要素信号の時間長は1ピッチ
分としているが、これは1ピッチに限ることはなく1ピ
ッチ以上であれば、理論的に受信側でピッチ波形を再生
することができる。一方再生した1ピッチ分の波形をそ
のまま直接に逐次接続すると、実際上接続点に不連続性
を生ずることが避けられず、音質劣化の一要因となる。
要素信号の長さを1ピッチ以上とすることによりこの問
題を解決することができる。1ピッチ以上であれば理論
的にいくらでもよいのであるが、以下図13において一
例として要素信号の長さを1.4ピッチとした場合につ
いて説明する。受信側で要素信号からピッチ波形を再生
するに先立って、あらかじめ要素信号の前縁0.4ピッ
チ分(この値は要素信号の長さから1ピッチを減じたも
のである)に0から1まで直線的に変化する重み付けを
施し、後縁0.4ピッチ分に1から0まで直線的に変化
する重み付けを施す。このように重み付けを施した信号
を0.4ピッチ分づつ重ね合わせて逐次接続すれば、接
続点における不連続性が解消し良好な音質を得ることが
できる。要素信号の長さを1.4ピッチにしたため、例
えば送信側でC=5として時間軸上の伸長率を5倍にと
るとフレーム長は7ピッチ分となる。従って受信側で再
生したピッチ波形の繰り返し再生回数は7回とせねばな
らない。即ちこの場合には送信側の伸長倍率と受信側の
繰り返し再生回数とは必ずしも一致しない。なお、上に
述べた要素信号に対する重み付けは受信側で実施できる
ことは勿論であるが、あらかじめ送信側で重み付けを行
って送出し受信側では単に重ね合わせだけを行うことに
してもよい。
In the above description of the embodiment, the time length of the element signal cut out on the transmitting side is one pitch for simplification of the description, but this is not limited to one pitch, and if it is one pitch or more. , Theoretically, the pitch waveform can be reproduced on the receiving side. On the other hand, if the reproduced waveform for one pitch is directly connected as it is, it is unavoidable that discontinuity is actually generated at the connection point, which is one of the causes of sound quality deterioration.
This problem can be solved by setting the length of the element signal to 1 pitch or more. Although theoretically any number may be used as long as it is 1 pitch or more, the case where the length of the element signal is 1.4 pitch will be described as an example in FIG. Prior to reproducing the pitch waveform from the element signal on the receiving side, from 0 to 1 in advance by 0.4 pitch of the leading edge of the element signal (this value is the length of the element signal minus 1 pitch) A linearly changing weighting is applied, and a linearly changing weighting from 1 to 0 is applied to 0.4 pitches of the trailing edge. When the signals thus weighted are superposed by 0.4 pitches and sequentially connected, the discontinuity at the connection points is eliminated and good sound quality can be obtained. Since the length of the element signal is set to 1.4 pitches, if C = 5 on the transmitting side and the expansion rate on the time axis is set to 5 times, the frame length becomes 7 pitches. Therefore, the number of times the pitch waveform reproduced on the receiving side is repeatedly reproduced must be seven times. That is, in this case, the expansion ratio on the transmission side and the number of times of repeated reproduction on the reception side do not necessarily match. It is needless to say that the above-described weighting of the element signals can be performed on the receiving side, but the transmitting side may perform weighting in advance and then transmit, and the receiving side may simply perform superposition.

【0118】要素信号の長さを1ピッチ以上にとった場
合にはこれを利用してフレーム同期信号を伝送すること
ができる。上記の例にならって要素信号の長さを1.4
ピッチにとる場合を例にとって説明すると、送信側で原
信号から切り出す波形の長さは1.3ピッチとし、これ
に0.1ピッチの長さを持つ同期パルスを加えて合計
1.4ピッチの長さの要素信号として送出する。受信側
ではこの同期パルスを検出してフレーム同期をとると共
に、ピッチ波形は1.3ピッチ分が送られて来るものと
して上記の方法に準じてピッチ波形の再生を行う。
When the length of the element signal is one pitch or more, this can be utilized to transmit the frame synchronization signal. Following the above example, the element signal length is set to 1.4
Taking the case of the pitch as an example, the length of the waveform cut out from the original signal on the transmitting side is 1.3 pitch, and a total of 1.4 pitch is obtained by adding a synchronization pulse having a length of 0.1 pitch to this. It is sent as a length element signal. On the receiving side, the synchronization pulse is detected to establish frame synchronization, and 1.3 pitches of the pitch waveform are sent, and the pitch waveform is reproduced according to the above method.

【0119】[0119]

【発明の効果】本発明によれば、音声信号の分析、合成
に使用するピッチ波形およびシステムパラメータを、狭
帯域アナログ信号の中に埋め込んで伝送するようにした
ので、狭帯域アナログ伝送系による伝送が可能な音声信
号の周波数帯域圧縮伸長装置を容易に得ることができ
る。また、本発明によれば、有声音区間の音声信号は、
ピッチ周期に同期して時間軸上で、伸長、圧縮を受ける
ので、波形そのものが略完全に、忠実に伝送され、狭帯
域伝送にもかかわらず、明瞭度の劣化がなく、高品質の
音声伝送および再生を容易に得ることができる。
According to the present invention, the pitch waveform and system parameters used for analyzing and synthesizing the voice signal are embedded in the narrow band analog signal for transmission, so that transmission by the narrow band analog transmission system is performed. It is possible to easily obtain a frequency band compression / expansion device for audio signals capable of performing the above. Further, according to the present invention, the voice signal in the voiced section is
Since the waveform itself is expanded and compressed on the time axis in synchronization with the pitch cycle, the waveform itself is transmitted almost completely and faithfully, and in spite of narrow band transmission, there is no deterioration in clarity and high-quality voice transmission. And the regeneration can be easily obtained.

【0120】このように、高い明瞭度をたもった狭帯域
伝送が可能となるため、伝送回線のコストが低減できる
と共に、限られた資源、特に無線周波数帯域の有効利用
を図ることができる。
As described above, since narrow band transmission with high clarity is possible, the cost of the transmission line can be reduced, and limited resources, especially radio frequency band can be effectively used.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明による音声信号帯域圧縮伸長装置のm=
1としたときの実施形態における送信側の構成を示すブ
ロック図である。
FIG. 1 is a block diagram of an audio signal band compression / expansion device according to the present invention.
It is a block diagram which shows the structure of the transmission side in the embodiment when it is set to 1.

【図2】本発明における有声音区間の音声信号のピッチ
周期に同期した時間軸上の、伸長、圧縮を示す概念図で
ある。
FIG. 2 is a conceptual diagram showing expansion and compression on the time axis synchronized with the pitch cycle of the voice signal in the voiced sound section according to the present invention.

【図3】本発明による音声信号帯域圧縮伸長装置のm=
1としたときの実施形態における受信側の構成を示すブ
ロック図である。
FIG. 3 is a block diagram of the audio signal band compression / expansion device according to the present invention, m =
It is a block diagram which shows the structure of the receiving side in the embodiment when it is set to 1.

【図4】本発明による音声信号帯域圧縮伸長装置のm=
2としたときの実施形態における送信側の構成を示すブ
ロック図である。
FIG. 4 is a block diagram of an audio signal band compression / expansion device according to the present invention, m =
It is a block diagram which shows the structure of the transmission side in embodiment when it is set to 2.

【図5】本発明による音声信号帯域圧縮伸長装置のm=
2としたときの実施形態における受信側の構成を示すブ
ロック図である。
FIG. 5: m = of the audio signal band compression / expansion device according to the present invention
It is a block diagram which shows the structure of the receiving side in embodiment when it is set to 2.

【図6】本発明の実施形態における線形予測分析器の一
例を示す説明図である。
FIG. 6 is an explanatory diagram showing an example of a linear prediction analyzer according to the embodiment of the present invention.

【図7】本発明の実施形態における線形予測係数を使用
する線形予測合成器の一例を示す説明図である。
FIG. 7 is an explanatory diagram showing an example of a linear prediction synthesizer that uses linear prediction coefficients according to the embodiment of the present invention.

【図8】本発明による音声信号帯域圧縮伸長装置におい
てKパラメータを採用し、基底信号の変調波を、これに
対応させるようにしたときの実施形態における送信側の
構成を示すブロック図である。
FIG. 8 is a block diagram showing a configuration of a transmission side in the embodiment when the K parameter is adopted in the audio signal band compression / expansion device according to the present invention and the modulated wave of the base signal is made to correspond to this.

【図9】本発明による音声信号帯域圧縮伸長装置におい
てKパラメータを採用し、FFT解析によりこれを復元
させるようにしたときの実施形態における受信側の構成
を示すブロック図である。
FIG. 9 is a block diagram showing the configuration of the receiving side in the embodiment when the K parameter is adopted in the audio signal band compression / expansion device according to the present invention and is restored by FFT analysis.

【図10】本発明の実施形態におけるKパラメータを使
用する線形予測合成器の一例を示す説明図である。
FIG. 10 is an explanatory diagram showing an example of a linear prediction synthesizer that uses K parameters according to the embodiment of the present invention.

【図11】本発明の実施形態における母音の立ち上がり
時点における時間関係を示す説明図である。
FIG. 11 is an explanatory diagram showing a time relationship at the time of rising of a vowel in the embodiment of the present invention.

【図12】本発明の実施形態における母音波形の平滑化
の一例を示す説明図である。
FIG. 12 is an explanatory diagram showing an example of smoothing a vowel waveform in the embodiment of the present invention.

【図13】本発明の実施形態におけるピッチ波形の接続
点の不連続性解消の一例を示す説明図である。
FIG. 13 is an explanatory diagram showing an example of eliminating discontinuity of a connection point of a pitch waveform according to the embodiment of the present invention.

【符号の説明】[Explanation of symbols]

101,201…入力端子、102,202…A/D
(アナログ、ディジタル)変換器、103,203…ピ
ッチ検出回路、104,205…低域ろ波器、105,
204…バッファメモリ、106,207…線形予測分
析器、107,208…逆フィルタリング回路、10
8,209…平均パワー検出器、109…基底信号発生
器、210…白色雑音発生器、110,211…自己回
帰システム型の線形予測合成器、112,212…有声
音/無声音区間切替器、113,213…D/A(ディ
ジタル,アナログ)変換器、114,214…出力端
子、115…変調器、215…FFT解析器。
101, 201 ... Input terminals, 102, 202 ... A / D
(Analog, digital) converter, 103, 203 ... Pitch detection circuit, 104, 205 ... Low-pass filter, 105,
204 ... Buffer memory, 106, 207 ... Linear prediction analyzer, 107, 208 ... Inverse filtering circuit, 10
8, 209 ... Average power detector, 109 ... Basis signal generator, 210 ... White noise generator, 110, 211 ... Autoregressive system type linear predictive synthesizer, 112, 212 ... Voiced / unvoiced section switch, 113 , 213 ... D / A (digital, analog) converter, 114, 214 ... Output terminal, 115 ... Modulator, 215 ... FFT analyzer.

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 H03M 7/30 G06F 15/66 330D ─────────────────────────────────────────────────── ─── Continuation of the front page (51) Int.Cl. 6 Identification number Office reference number FI technical display location H03M 7/30 G06F 15/66 330D

Claims (21)

【特許請求の範囲】[Claims] 【請求項1】 音声信号からピッチ周期又はそれ以上の
時間長の要素信号を切り出し、それを時間軸上でピッチ
周期の整数倍に伸長し、逐次接続して得られる狭帯域信
号を狭帯域のアナログ波形に変換して伝送することを特
徴とする音声信号帯域圧縮伝送方法。
1. A narrow band signal obtained by cutting out an element signal having a pitch period or a time length longer than that from a voice signal, expanding the element signal to an integral multiple of the pitch period on the time axis, and successively connecting the narrow band signals. A method for compressing and transmitting a voice signal band, which is characterized in that it is converted into an analog waveform and transmitted.
【請求項2】 請求項1記載の音声信号帯域圧縮伝送方
法において、 音声信号から切り出したピッチ周期またはそれ以上の時
間長の波形に同期パルスを付加して要素信号を構成する
ことを特徴とする音声信号帯域圧縮伝送方法。
2. The voice signal band compression transmission method according to claim 1, wherein the element signal is formed by adding a synchronization pulse to a waveform having a pitch period cut out from the voice signal or a time length longer than the pitch period. Audio signal band compression transmission method.
【請求項3】 請求項1または請求項2記載の音声信号
帯域圧縮伝送方法において、 要素信号の高域成分を除去し、占有帯域を低周波域に制
限することを特徴とする音声信号帯域圧縮伝送方法。
3. A voice signal band compression transmission method according to claim 1, wherein a high frequency component of the element signal is removed and an occupied band is limited to a low frequency band. Transmission method.
【請求項4】 請求項1、請求項2および請求項3のい
づれか1つに記載の音声信号帯域圧縮伝送方法におい
て、 音声信号の無声音区間において、音声信号の特性を示す
線形予測分析によるシステムパラメータを用い、それを
一定周期の基底信号にのせて波形合成した出力信号を伝
送することを特徴とする音声信号帯域圧縮伝送方法。
4. A voice signal band compression transmission method according to any one of claims 1, 2 and 3, wherein a system parameter by linear prediction analysis showing characteristics of the voice signal in an unvoiced section of the voice signal. A method for compressing and transmitting a voice signal band, characterized in that a base signal of a constant cycle is used to transmit an output signal which is waveform-combined.
【請求項5】 請求項4に記載の音声信号帯域圧縮伝送
方法において、 有声音区間の波形送出直前の基底信号を使って、ピッチ
周期情報を伝送することを特徴とする音声信号帯域圧縮
伝送方法。
5. The voice signal band compression transmission method according to claim 4, wherein pitch period information is transmitted using a base signal immediately before the waveform transmission in the voiced sound section. .
【請求項6】 請求項4または請求項5記載の音声信号
帯域圧縮伝送方法において、 音声信号の無声音区間において、あらかじめ設定された
複数個のサンプル音源信号の中から予測残差信号に最も
よく適合する最適サンプル音源信号を探索し、それを指
定する情報を伝送信号に合成して伝送することを特徴と
する音声信号帯域圧縮伝送方法。
6. The voice signal band compression transmission method according to claim 4, wherein in the unvoiced section of the voice signal, the best fit to the prediction residual signal is made from among a plurality of preset sampled source signals. A method for compressing and transmitting a voice signal band, which comprises: searching for an optimum sampled sound source signal to be performed, synthesizing information designating the optimum sound source signal into a transmission signal, and transmitting the synthesized signal.
【請求項7】 請求項6記載の音声信号帯域圧縮伝送方
法において、 音声信号の無声音区間において、伝送信号の高調波成分
の振幅の絶対値に音声の特性を示す線形予測分析システ
ムパラメータを、振幅の極性に最適サンプル指定情報を
対応させて伝送することを特徴とする音声信号の帯域圧
縮伝送方法。
7. The voice signal band compression transmission method according to claim 6, wherein in the unvoiced sound section of the voice signal, the absolute value of the amplitude of the harmonic component of the transmission signal is set to a linear predictive analysis system parameter indicating the characteristics of the voice. A method of band compression transmission of an audio signal, characterized in that optimum sample designation information is transmitted in correspondence with the polarity of the.
【請求項8】 請求項4、請求項5、請求項6および請
求項7のいずれか1つに記載の音声信号帯域圧縮伝送方
法において、 音声信号の無音区間において、基底信号の周期と同じ周
期を持つ正弦波信号を伝送することを特徴とする音声信
号帯域圧縮伝送方法。
8. The voice signal band compression transmission method according to claim 4, wherein the voice signal band compression transmission method has the same period as the period of the base signal in the silent period of the voice signal. An audio signal band compression transmission method, characterized in that a sine wave signal having
【請求項9】 音声信号のピッチ周期又はそれ以上の時
間長の要素信号を時間軸上でピッチ周期の整数倍に伸長
した要素波形を含む信号を受信し、該要素波形を時間軸
上で圧縮し、ピッチ波形を再生し、逐次接続して音声信
号を再生することを特徴とする音声信号再生方法。
9. A signal including an element waveform obtained by expanding an element signal having a pitch period of a voice signal or a time length longer than that into an integral multiple of the pitch period on the time axis, and compressing the element waveform on the time axis. Then, the pitch waveform is reproduced, and the audio signals are reproduced by sequentially connecting them to reproduce the audio signal.
【請求項10】 請求項9記載の音声信号再生方法にお
いて、 送信側または受信側においてピッチ波形の前縁および後
縁にあらかじめ直線的に変化する重み付けを加え、隣接
するピッチ波形の一部を重ね合わせて接続点の不連続性
を解消するようにしたことを特徴とする音声信号再生方
法。
10. The audio signal reproducing method according to claim 9, wherein a linearly varying weighting is added in advance to the leading edge and the trailing edge of the pitch waveform on the transmitting side or the receiving side, and a part of the adjacent pitch waveform is overlapped. An audio signal reproducing method characterized in that the discontinuity of connection points is also eliminated.
【請求項11】 請求項9または請求項10記載の音声
信号再生方法において、 1フレーム分のピッチ波形を逐次接続して作成した再生
波形全体に直線的に変化する重み付けを行い、これを加
え合わせて隣接するピッチ波形の変化を平滑化すること
を特徴とする音声信号再生方法。
11. The audio signal reproducing method according to claim 9 or 10, wherein linearly varying weighting is performed on the entire reproduced waveform created by successively connecting pitch waveforms for one frame, and the weighted signals are added together. Method for smoothing changes in pitch waveforms adjacent to each other.
【請求項12】 請求項9、請求項10および請求項1
1のいづれか1つに記載の音声信号再生方法において、 無声音区間において、受信信号を分析して得られるシス
テムパラメータを用い、白色雑音を駆動信号とする線形
予測合成によって音声信号を再生することを特徴とする
音声信号再生方法。
12. Claims 9, 10 and 1.
1. The audio signal reproducing method according to any one of 1, wherein the audio signal is reproduced by linear predictive synthesis using white noise as a driving signal using system parameters obtained by analyzing a received signal in a voiceless section. And audio signal reproduction method.
【請求項13】 請求項9、請求項10および請求項11
のいづれか1つに記載の音声信号再生方法において、 無声音区間において、受信信号を分析して得られるシス
テムパラメータを用い、受信信号を分析して得られる最
適サンプル音源信号を駆動信号とする線形予測合成によ
って音声信号を再生することを特徴とする音声信号再生
方法。
13. Claims 9, 10 and 11
In the voice signal reproducing method according to any one of the above, linear prediction synthesis using a system parameter obtained by analyzing a received signal in an unvoiced section and using an optimum sample sound source signal obtained by analyzing the received signal as a drive signal. A method for reproducing an audio signal, characterized in that an audio signal is reproduced by the method.
【請求項14】 請求項12または請求項13記載の音
声信号再生方法において、 有声音区間の波形受信直前の基底信号からピッチ周期並
びに線形予測分析システムパラメータを求め、上記ピッ
チ周期に等しい周期の繰り返しパルス列を駆動信号と
し、上記システムパラメータを用いる線形予測合成によ
って音声信号を再生することを特徴とする音声信号再生
方法。
14. The voice signal reproducing method according to claim 12, wherein a pitch period and a linear prediction analysis system parameter are obtained from a base signal immediately before receiving a waveform in a voiced sound section, and a period equal to the pitch period is repeated. An audio signal reproducing method characterized in that an audio signal is reproduced by linear predictive synthesis using the pulse train as a drive signal and using the system parameters.
【請求項15】 送信側に、少なくとも、伝送すべき音
声信号からピッチ周期を抽出するピッチ周期抽出手段
と、該抽出されたピッチ周期又はそれ以上の時間長の要
素信号を上記音声信号から切り出す手段と、該切り出さ
れた要素信号を時間軸上でピッチ周期の整数倍に伸長し
逐次接続して第1の狭帯域信号を得る手段とが設けら
れ、 受信側に、少なくとも上記狭帯域信号から要素信号を切
り出す要素信号切り出し手段と、該切り出された要素信
号を時間軸上で圧縮してピッチ波形を再生し逐次接続し
て音声信号を得る手段とが設けられたことを特徴とする
音声信号帯域圧縮伸長装置。
15. A pitch period extracting means for extracting at least a pitch period from a voice signal to be transmitted to a transmitting side, and a means for cutting out the extracted pitch period or an element signal having a time length longer than the pitch period from the voice signal. And means for expanding the cut-out element signal to an integral multiple of the pitch period on the time axis and successively connecting the element signals to obtain a first narrowband signal, and at least the element from the narrowband signal is provided on the receiving side. An audio signal band, comprising: an element signal cutting-out means for cutting out a signal; and a means for compressing the cut-out element signal on a time axis to reproduce a pitch waveform and successively connecting them to obtain an audio signal. Compression / decompression device.
【請求項16】 請求項15記載の音声信号帯域圧縮伸
長装置において、 受信側に、要素信号を時間軸上で圧縮してピッチ波形を
再生した後、相隣れるピッチ波形の変化を平滑化する手
段が設けられたことを特徴とする音声信号帯域圧縮伸長
装置。
16. The audio signal band compression / expansion device according to claim 15, wherein after the element signal is compressed on the time axis to reproduce the pitch waveform on the receiving side, changes in adjacent pitch waveforms are smoothed. An audio signal band compression / decompression device comprising means.
【請求項17】 請求項15または請求項16記載の音
声信号帯域圧縮伸長装置において 送信側に、要素信号の高域成分を除去し占有帯域を低周
波域に制限する手段がを設けられたことを特徴とする音
声信号帯域圧縮伸長装置。
17. The audio signal band compression / decompression device according to claim 15 or 16, wherein the transmitting side is provided with means for removing a high frequency component of the element signal and limiting an occupied band to a low frequency range. An audio signal band compression / expansion device characterized by:
【請求項18】 請求項15、請求項16および請求項
17のいづれか1つに記載の音声信号帯域圧縮伸長装置
において、 送信側に、音声信号の無声音区間を検出する手段と、該
無声音区間において音声信号からシステムパラメータを
抽出する線形予測分析手段と、該システムパラメータを
用いて上記音声信号から予測残差信号を得る逆フィルタ
リング手段と、該予測残差信号の平均パワーレベルを検
出するパワー検出手段と、一定周期で繰り返す波形を持
った基底信号を発生させる基底信号発生手段と,該基底
信号を駆動信号として上記予測残差信号の平均パワーレ
ベル情報とシステムパラメータをのせて第2の狭帯域信
号を得る波形合成手段と、原音声の有声音区間と無声音
区間に対応して上記第1と第2の狭帯域信号を切り替え
る手段とが設けられ、 受信側に、上記第1と第2の狭帯域信号を識別する有声
音・無声音識別手段と、上記第2の狭帯域信号から予測
残差信号の平均パワーレベル情報とシステムパラメータ
を抽出する抽出手段と、上記予測残差信号の平均パワー
レベル情報に比例する大きさの白色雑音を発生させる白
色雑音発生手段と、該白色雑音を駆動信号とし上記シス
テムパラメータを用いて音声信号を得る線形予測合成手
段とが設けられたことを特徴とする音声信号帯域圧縮伸
長装置。
18. The voice signal band compression / decompression device according to claim 15, wherein the transmitting side includes means for detecting an unvoiced sound section of the audio signal, and the unvoiced sound section. Linear prediction analysis means for extracting a system parameter from a speech signal, inverse filtering means for obtaining a prediction residual signal from the speech signal using the system parameter, and power detection means for detecting an average power level of the prediction residual signal A base signal generating means for generating a base signal having a waveform that repeats at a constant cycle; and a second narrowband signal on which the average power level information of the prediction residual signal and system parameters are placed using the base signal as a drive signal. And a means for switching the first and second narrowband signals corresponding to the voiced sound section and the unvoiced sound section of the original voice. A voiced sound / unvoiced sound discrimination means for discriminating the first and second narrow band signals is provided on the receiving side, and average power level information and system parameters of the prediction residual signal are extracted from the second narrow band signal. Extracting means, white noise generating means for generating white noise having a magnitude proportional to the average power level information of the prediction residual signal, and a linear signal for obtaining an audio signal by using the white noise as a drive signal and the system parameter. An audio signal band compression / expansion device, comprising: predictive synthesis means.
【請求項19】 請求項18記載の音声信号帯域圧縮伸
長装置において、 送信側の基底信号発生手段は、パワー検出手段の検出す
る予測残差信号の平均パワーに比例したパワーを持つ基
底信号を発生するものであることを特徴とする音声信号
帯域圧縮伸長装置。
19. The voice signal band compression / expansion device according to claim 18, wherein the base signal generating means on the transmitting side generates a base signal having a power proportional to the average power of the prediction residual signal detected by the power detecting means. An audio signal band compression / expansion device, which is characterized by:
【請求項20】 請求項18記載の音声信号帯域圧縮伸
長装置において、 送信側に、白色雑音としてのあらかじめ複数個のサンプ
ル音源信号が設定され、該設定信号の中から上記予測残
差信号に最もよく適合する最適のサンプル音源信号を探
索する手段と、該最適サンプル音源信号を指定する情報
を第2の狭帯域信号の波形に合成する手段とが設けら
れ、 受信側に、第2の狭帯域信号から最適サンプル音源信号
指定情報を抽出する手段と、白色雑音としてあらかじめ
複数個のサンプル音源信号が設定され、上記最適サンプ
ル音源信号指定情報により最適サンプル音源信号を選択
する白色雑音発生手段とが設けられたことを特徴とする
音声信号帯域圧縮伸長装置。
20. The voice signal band compression / decompression device according to claim 18, wherein a plurality of sampled sound source signals as white noise are set in advance on the transmission side, and among the set signals, the prediction residual signal is the most significant. Means for searching an optimum sample sound source signal that is well matched and means for synthesizing information designating the optimum sample sound source signal into the waveform of the second narrow band signal are provided, and the second narrow band signal is provided on the receiving side. A means for extracting the optimum sample sound source signal designating information from the signal, and a white noise generating means for presetting a plurality of sample sound source signals as white noise and selecting the optimum sample sound source signal based on the optimum sample sound source signal designating information are provided. An audio signal band compression / expansion device characterized by the above.
【請求項21】 請求項20記載の音声信号帯域圧縮伸
長装置において、 送信側に、第2の狭帯域信号の高調波成分の振幅の絶対
値にシステムパラメータを、振幅の極性に最適サンプル
音源指定情報を対応させてのせる波形合成手段が設けら
れ、 受信側に、第2の狭帯域信号の高調波成分の振幅の絶対
値および極性からシステムパラメータと最適サンプル信
号指定情報を抽出する手段が設けられたことを特徴とす
る音声信号帯域圧縮伸長装置。
21. The voice signal band compression / decompression device according to claim 20, wherein on the transmission side, a system parameter is designated as the absolute value of the amplitude of the harmonic component of the second narrowband signal, and an optimum sample sound source is designated as the polarity of the amplitude. Waveform synthesizing means for providing corresponding information is provided, and means for extracting the system parameter and the optimum sample signal designating information is provided on the receiving side from the absolute value and polarity of the amplitude of the harmonic component of the second narrowband signal. An audio signal band compression / expansion device characterized by the above.
JP7330570A 1995-12-19 1995-12-19 Sound signal band compression transmission method, sound signal reproducing method and sound signal band compressing/expanding device Pending JPH09171400A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7330570A JPH09171400A (en) 1995-12-19 1995-12-19 Sound signal band compression transmission method, sound signal reproducing method and sound signal band compressing/expanding device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7330570A JPH09171400A (en) 1995-12-19 1995-12-19 Sound signal band compression transmission method, sound signal reproducing method and sound signal band compressing/expanding device

Publications (1)

Publication Number Publication Date
JPH09171400A true JPH09171400A (en) 1997-06-30

Family

ID=18234135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7330570A Pending JPH09171400A (en) 1995-12-19 1995-12-19 Sound signal band compression transmission method, sound signal reproducing method and sound signal band compressing/expanding device

Country Status (1)

Country Link
JP (1) JPH09171400A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100343480B1 (en) * 1997-12-22 2002-10-25 루센트 테크놀러지스 인크 Silent compression method for recorded voice messages, compressed voice memory method, voice message system and voice information processing and storage device
JP2012517124A (en) * 2009-02-03 2012-07-26 ヒアワークス ピーティワイ リミテッド Reinforced envelope coded sound, speech processing apparatus and system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100343480B1 (en) * 1997-12-22 2002-10-25 루센트 테크놀러지스 인크 Silent compression method for recorded voice messages, compressed voice memory method, voice message system and voice information processing and storage device
JP2012517124A (en) * 2009-02-03 2012-07-26 ヒアワークス ピーティワイ リミテッド Reinforced envelope coded sound, speech processing apparatus and system

Similar Documents

Publication Publication Date Title
EP2264696B1 (en) Voice converter with extraction and modification of attribute data
US5581652A (en) Reconstruction of wideband speech from narrowband speech using codebooks
EP0388104B1 (en) Method for speech analysis and synthesis
JP5467098B2 (en) Apparatus and method for converting an audio signal into a parameterized representation, apparatus and method for modifying a parameterized representation, apparatus and method for synthesizing a parameterized representation of an audio signal
JP4624552B2 (en) Broadband language synthesis from narrowband language signals
EP0657873B1 (en) Speech signal bandwidth compression and expansion apparatus, and bandwidth compressing speech signal transmission method, and reproducing method
JPH10124088A (en) Device and method for expanding voice frequency band width
JP2003044098A (en) Device and method for expanding voice band
JP3191926B2 (en) Sound waveform coding method
NO312428B1 (en) Method and apparatus for synthesizing speech
JPH10124089A (en) Processor and method for speech signal processing and device and method for expanding voice bandwidth
JP2798003B2 (en) Voice band expansion device and voice band expansion method
JP2001508197A (en) Method and apparatus for audio reproduction of speech encoded according to the LPC principle by adding noise to a constituent signal
JP3218679B2 (en) High efficiency coding method
JPH09171400A (en) Sound signal band compression transmission method, sound signal reproducing method and sound signal band compressing/expanding device
JPH11219198A (en) Phase detection device and method and speech encoding device and method
US10354671B1 (en) System and method for the analysis and synthesis of periodic and non-periodic components of speech signals
JP3230782B2 (en) Wideband audio signal restoration method
JP3398968B2 (en) Speech analysis and synthesis method
JPH07261798A (en) Voice analyzing and synthesizing device
JP3297750B2 (en) Encoding method
JP3223564B2 (en) Pitch extraction method
JP3218680B2 (en) Voiced sound synthesis method
JPH06202695A (en) Speech signal processor
JPH0736119B2 (en) Piecewise optimal function approximation method