JP2537113B2 - Adaptive compression method of vocal tract parameter information in speech coder / decoder - Google Patents

Adaptive compression method of vocal tract parameter information in speech coder / decoder

Info

Publication number
JP2537113B2
JP2537113B2 JP4102318A JP10231892A JP2537113B2 JP 2537113 B2 JP2537113 B2 JP 2537113B2 JP 4102318 A JP4102318 A JP 4102318A JP 10231892 A JP10231892 A JP 10231892A JP 2537113 B2 JP2537113 B2 JP 2537113B2
Authority
JP
Japan
Prior art keywords
vocal tract
neural network
load
parameter
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP4102318A
Other languages
Japanese (ja)
Other versions
JPH05282000A (en
Inventor
忠由 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IDO TSUSHIN SHISUTEMU KAIHATSU KK
Original Assignee
IDO TSUSHIN SHISUTEMU KAIHATSU KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IDO TSUSHIN SHISUTEMU KAIHATSU KK filed Critical IDO TSUSHIN SHISUTEMU KAIHATSU KK
Priority to JP4102318A priority Critical patent/JP2537113B2/en
Publication of JPH05282000A publication Critical patent/JPH05282000A/en
Application granted granted Critical
Publication of JP2537113B2 publication Critical patent/JP2537113B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、声道信号をデジタル化
して伝送あるいは記憶を行い、また伝送ないし記憶され
ているデジタル信号をアナログ信号へ変換する音声符号
化に関し、電話機、携帯電話、自動車電話などの電話機
器、音声ファイル、音声メモリなどへ応用することがで
きる。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to voice coding for digitizing a vocal tract signal for transmission or storage, and for converting a transmitted or stored digital signal into an analog signal, such as a telephone, a mobile phone, an automobile. It can be applied to telephone devices such as telephones, voice files, and voice memories.

【0002】[0002]

【従来の技術】従来からアナログの音声信号をデジタル
化して情報の圧縮を行い、効率よく伝送ないしは記憶す
るための技術は種々開発されている。
2. Description of the Related Art Conventionally, various techniques have been developed for digitizing an analog voice signal to compress information for efficient transmission or storage.

【0003】符号化器、復号化器の一例を図4a、図4
bに示す。ここでは音声の音源を雑音と周期成分の二種
類と想定し、入力音声の一定区間毎に、音声信号の声道
パラメータ、有声音/無声音の判定、有声音の場合は周
期性の計測を行い、声道パラメータ、有声/無声の判定
結果、周期成分を伝送し、送られたパラメータを基に、
有声音の場合にはその周期の信号で、無声音であればラ
ンダムノイズを、測定した声道パラメータで構成した声
道フィルタへ入力して音声を再生するボコーダを例とす
る。
An example of an encoder and a decoder is shown in FIGS. 4a and 4a.
Shown in b. Assuming that there are two types of sound sources, noise and periodic components, the vocal tract parameters of voice signals, voiced sound / unvoiced sound determination, and periodicity measurement in the case of voiced sound are measured at fixed intervals of the input voice. , Vocal tract parameters, voiced / unvoiced decision results, periodic components are transmitted, and based on the transmitted parameters,
An example is a vocoder that reproduces voice by inputting a signal of that period in the case of voiced sound and random noise in the case of unvoiced sound to a vocal tract filter configured by the measured vocal tract parameters.

【0004】図4aに符号化器1の一例を示す。図4a
の符号化器1において、入力音声はADコンバータ2に
より、サンプリングクロックジェネレータ3のサンプリ
ングクロックにしたがってデジタル化され、この信号列
がフレームクロックジェネレータ4のフレームクロック
の区間毎に声道パラメータ測定部5、有声/無声検出部
6、ピッチ周期検出部7、振幅測定部8につながれ、各
々のパラメータを測定し、符号化が行われる。また、後
に詳述するように、声道パラメータ測定部5をベクトル
量子化部9に連絡し、声道パラメータのベクトル量子化
を行うこともできる。
An example of the encoder 1 is shown in FIG. 4a. Figure 4a
In the encoder 1, the input voice is digitized by the AD converter 2 in accordance with the sampling clock of the sampling clock generator 3, and this signal string is converted into the vocal tract parameter measuring unit 5 for each section of the frame clock of the frame clock generator 4. The voiced / unvoiced detection unit 6, the pitch period detection unit 7, and the amplitude measurement unit 8 are connected to measure each parameter and perform encoding. Further, as described later in detail, the vocal tract parameter measuring unit 5 can be connected to the vector quantizing unit 9 to perform vector quantization of the vocal tract parameters.

【0005】この符号化器1の作用を説明する。入力音
声はADコンバータ2で、サンプリングクロックジェネ
レータ3のサンプリングクロック、例えば8kHzのク
ロックにしたがい8ビットにデジタル化される。このデ
ジタル信号をそのまま伝送すれば、その伝送量は、 8 bit × 8000 = 64k bps となる。
The operation of the encoder 1 will be described. The input voice is digitized by the AD converter 2 into 8 bits according to the sampling clock of the sampling clock generator 3, for example, a clock of 8 kHz. If this digital signal is transmitted as it is, the amount of transmission becomes 8 bit × 8000 = 64 kbps.

【0006】ここでは、デジタル化した音声信号に対
し、フレームクロックジェネレータ4のフレームクロッ
クにしたがい、20msec毎に声道パラメータ測定部
5にて10次の予測を行い声道パラメータを求め、また
有声/無声検出部6にて有声音か無声音かの判定を1ビ
ットにてパラメータ化し、さらにそのピッチ周期をピッ
チ周期検出部7で8ビットにてパラメータ化し、またそ
の入力レベルを振幅測定部8にて8ビットでパラメータ
化する。
Here, for the digitized voice signal, the vocal tract parameter measuring unit 5 makes a tenth-order prediction every 20 msec according to the frame clock of the frame clock generator 4 to obtain a vocal tract parameter, and voice / voice The unvoiced detection unit 6 parameterizes the determination of voiced sound or unvoiced sound with 1 bit, the pitch period is parameterized with the pitch period detection unit 7 with 8 bits, and the input level is measured with the amplitude measurement unit 8. Parameterize with 8 bits.

【0007】声道パラメータ測定部5は種々の具現化の
方法がすでに考案されているが、例えば線形予測にて求
めることができる。有声/無声の判定、ピッチ周期に関
しても同様に種々の方法が考案されているが、例えば前
者に関してはフレーム間の入力音声信号の零交差回数か
ら、後者に関してはフレーム間での入力音声信号の自己
相関から求めることができる。
The vocal tract parameter measuring unit 5 has been devised in various ways, but it can be obtained by, for example, linear prediction. Similarly, various methods have been devised for voiced / unvoiced determination and pitch period. For example, in the former case, the number of zero-crossings of the input speech signal between frames is used, and in the latter case, the self-statement of the input speech signal between frames is performed. It can be obtained from the correlation.

【0008】この例の場合の伝送レートは、 声道パラメータ 10次 × 8 ビット 有声/無声パラメータ 1 ビット ピッチパラメータ 8 ビット 振幅パラメータ 8 ビット であるから、 (10×8+1+8+8)×1000/20=4850 bps となり、AD変換のみで音声を伝送した場合に比べ、約
1/16にデータが圧縮される。
The transmission rate in the case of this example is 10th order vocal tract parameter × 8 bits voiced / unvoiced parameter 1 bit pitch parameter 8 bits amplitude parameter 8 bits, so that (10 × 8 + 1 + 8 + 8) × 1000/20 = 4850 bps. Therefore, the data is compressed to about 1/16 as compared with the case where the voice is transmitted only by the AD conversion.

【0009】図4bに復号化器10の一例を示す。図4
bに示した復号化器10は、符号化器1から送られてく
るピッチ周期パラメータに合わせた周期を発生するパル
ス列発生部11、ランダムノイズ発生部12、伝送され
てくる有声/無声パラメータにより、有声であればパル
ス列発生部11で発生したパルス列を、無声であればラ
ンダムノイズ発生部12で発生したノイズを選択する切
り替えスイッチ13を有し、この切り替えスイッチ13
で選択した信号を符号化器1からの声道パラメータによ
って制御される声道フィルタ部14で演算を行った後、
伝送されてきた振幅パラメータでリファレンス信号を制
御したDAコンバータ15により振幅を元に戻しながら
アナログ音声信号に復調される。
An example of the decoder 10 is shown in FIG. 4b. FIG.
The decoder 10 shown in FIG. 2b uses a pulse train generation unit 11 that generates a period matching the pitch period parameter sent from the encoder 1, a random noise generation unit 12, and a voiced / unvoiced parameter that is transmitted, If the voice is voiced, the pulse train generated by the pulse train generator 11 is selected. If the voice is unvoiced, the noise generated by the random noise generator 12 is selected.
After the signal selected in 1 is calculated by the vocal tract filter unit 14 controlled by the vocal tract parameter from the encoder 1,
The DA converter 15, which controls the reference signal with the transmitted amplitude parameter, demodulates it into an analog audio signal while restoring the original amplitude.

【0010】上記した復号化器10の動作を以下に説明
する。符号化器1からは先に述べたように、声道パラメ
ータ、ピッチ周期パラメータ、有声/無声パラメータ、
振幅パラメータの4種類のパラメータが伝送されてく
る。
The operation of the above decoder 10 will be described below. From the encoder 1, as described above, the vocal tract parameter, the pitch period parameter, the voiced / unvoiced parameter,
Four types of parameters of the amplitude parameter are transmitted.

【0011】図4bでは、これらのパラメータは、声道
フィルタ部14、パルス列発生部11、ランダムノイズ
発生部12、切り替えスイッチ13、DAコンバータ1
5に接続され、各フレーム毎のパラメータにしたがい、
有声音であればそのときのピッチ周期を持ったパルス列
が声道フィルタ部14への入力となり、一方、無声音で
あればランダムノイズ発生部12で発生したランダムノ
イズが声道フィルタ部14への入力となり、演算の後、
振幅パラメータにて基準信号を制御したDAコンバータ
15でアナログの音声信号に変換される。このような音
声符号化器1においては、例えば声道パラメータに関
し、より低ビットレート化を行うため、ベクトル量子化
を行うことが有効であることが知られている。
In FIG. 4b, these parameters are the vocal tract filter section 14, the pulse train generating section 11, the random noise generating section 12, the changeover switch 13 and the DA converter 1.
Connected to 5, according to the parameters for each frame,
In the case of voiced sound, a pulse train having the pitch period at that time is input to the vocal tract filter unit 14, while in the case of unvoiced sound, random noise generated by the random noise generation unit 12 is input to the vocal tract filter unit 14. And after the calculation,
The DA converter 15 which controls the reference signal by the amplitude parameter converts it into an analog audio signal. In such a speech coder 1, it is known that it is effective to perform vector quantization in order to lower the bit rate with respect to vocal tract parameters, for example.

【0012】図4cに声道パラメータのベクトル量子化
を行う場合の関連部分の構成例を示す。入力音声は、符
号化器1では声道パラメータ測定部5で線形予測を行っ
た結果、例えば10次のパラメータになり、この値がベ
クトル量子化部9にて代表ベクトルとの歪演算から歪最
小のベクトルが選定され、そのコードが伝送されること
になる。つまりベクトル量子化では、10次のパラメー
タの組み合わせを1ベクトルとして予めいくつかのベク
トルを用意しておき、入力された10次のパラメータの
組み合わせに最も近いベクトルを演算から求めて、その
番号を伝送する。例えば、10次の声道パラメータに対
して、1,248ビットのベクトルを用意することにす
れば、10次の声道パラメータをそのまま量子化した場
合に比べて、1/10に伝送量が圧縮できる。
FIG. 4c shows an example of the structure of the relevant parts when performing vector quantization of vocal tract parameters. The input speech becomes, for example, a tenth-order parameter as a result of linear prediction in the vocal tract parameter measuring unit 5 in the encoder 1, and this value is distorted by the vector quantizing unit 9 from the distortion calculation with the representative vector. Is selected and the code will be transmitted. In other words, in vector quantization, several vectors are prepared in advance with the combination of tenth-order parameters as one vector, the vector closest to the input combination of tenth-order parameters is calculated, and the number is transmitted. To do. For example, if a 1,248-bit vector is prepared for the tenth-order vocal tract parameter, the transmission amount is compressed to 1/10 as compared with the case where the tenth-order vocal tract parameter is directly quantized. it can.

【0013】復号化器10では、情報圧縮を行ったデー
タがベクトルの番地として伝送されてくるので、ベクト
ル復号部16により10次のパラメータに戻される。
In the decoder 10, the information-compressed data is transmitted as the address of the vector, so that the vector decoding unit 16 restores it to the tenth order parameter.

【0014】[0014]

【発明が解決しようとする課題】上記した声道パラメー
タのベクトル量子化による符号化の圧縮手段では、予め
ベクトルとして平均的な値を用意し、入力された音声信
号の声道パラメータに対し、最も近い平均値の声道パラ
メータを当てはめるのであるが、この方式によると音声
の個人声を損なうとともに、音質劣化を起こすという問
題点があった。
In the compression means for encoding the vocal tract parameters by vector quantization, an average value is prepared in advance as a vector, and the average value for the vocal tract parameters of the input speech signal is set. Although a vocal tract parameter with a close average value is applied, this method has a problem that the personal voice of the voice is impaired and the sound quality is deteriorated.

【0015】[0015]

【課題を解決するための手段】本発明は上記した課題を
解決するために提案されたもので、声道パラメータの圧
縮に対してニューラルネットワークを2回路備え、一方
のニューラルネットワークの重みは平均値を代入し、他
方のニューラルネットワークに対しては、当初は平均値
を設定するが、その後入力される音声から求める声道パ
ラメータを教師信号とした学習を行わせ、音声の途切れ
る適当な区間で荷重の変更あるいはニューラルネットワ
ークの交換を行い、最適化を行うようにして音声品質の
向上を図ったものである。
SUMMARY OF THE INVENTION The present invention has been proposed to solve the above-mentioned problems. Two neural networks are provided for compression of vocal tract parameters, and one neural network has an average weight. For the other neural network, the average value is initially set, but learning is performed using the vocal tract parameter obtained from the input speech as the teacher signal, and the weight is applied in an appropriate interval where the speech is interrupted. Is changed or the neural network is replaced to optimize the speech quality.

【0016】[0016]

【作用】したがって、本発明によれば2回路のニューラ
ルネットワークを用意することにより、当初は一方のニ
ューラルネットワークで声道パラメータの圧縮を行いな
がら、他方のニューラルネットワークにて入力パラメー
タを基に学習を行い、平均的な荷重の値とトレーニング
を施した荷重の間に一定量以上の差が生じた時は、音声
の途切れ等の適当なタイミングにて荷重の変更あるいは
ニューラルネットワークの切り替えを行うことにより、
声道パラメータの最適化を行い音声品質の向上を図るこ
とができる。
Therefore, according to the present invention, by preparing a two-circuit neural network, the vocal tract parameters are initially compressed by one neural network while the other neural network performs learning based on the input parameters. If there is a certain amount of difference between the average load value and the trained load, change the load or switch the neural network at an appropriate timing such as voice interruption. ,
The vocal tract parameters can be optimized to improve the voice quality.

【0017】[0017]

【実施例】図1は本発明の一実施例の構成を示すもので
ある。図1aに示す符号化器17では、入力音声はAD
コンバータ18により、サンプリングクロックジェネレ
ータ19のサンプリングクロックにしたがってデジタル
化され、この信号がフレームクロックジェネレータ20
のフレームクロックの区間毎に、声道パラメータ測定部
21、有声/無声検出部22、ピッチ周期検出部23、
振幅測定部24につながれ、さらに声道パラメータ測定
部21の出力は荷重固定型ニューラルネットワーク25
と学習型ニューラルネットワーク26につながる。
DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 shows the configuration of an embodiment of the present invention. In the encoder 17 shown in FIG. 1a, the input speech is AD
The converter 18 digitizes the signal according to the sampling clock of the sampling clock generator 19, and the signal is converted into the frame clock generator 20.
Vocal tract parameter measuring unit 21, voiced / unvoiced detection unit 22, pitch period detection unit 23,
The output of the vocal tract parameter measuring unit 21 is connected to the amplitude measuring unit 24, and the output of the vocal tract parameter measuring unit 21 is a fixed weight neural network 25.
And the learning type neural network 26.

【0018】荷重比較部27は荷重固定型ニューラルネ
ットワーク25の荷重と学習型ニューラルネットワーク
26の学習値の荷重を比較し、一定の差が生じると、荷
重制御部28へその結果を出力する。
The load comparing section 27 compares the weight of the fixed weight type neural network 25 with the weight of the learning value of the learning type neural network 26, and outputs a result to the load control section 28 when a certain difference occurs.

【0019】荷重制御部28では、荷重比較部27によ
る荷重比較結果と、有声/無声検出部22による有声/
無声の判定結果と、振幅測定部24との測定結果に基づ
き、スイッチ(1)29及びカウンタ30へ信号を送
り、スイッチ(2)31ではカウンタ30からの結果を
受けてピッチ周期検出部23の出力または学習型ニュー
ラルネットワーク26の荷重を選択して出力とする。
In the load control unit 28, the load comparison result by the load comparison unit 27 and the voiced / unvoiced detection unit 22
A signal is sent to the switch (1) 29 and the counter 30 based on the unvoiced determination result and the measurement result of the amplitude measuring unit 24, and the switch (2) 31 receives the result from the counter 30 and outputs the signal from the pitch period detecting unit 23. The output or the weight of the learning neural network 26 is selected and used as the output.

【0020】カウンタ30は荷重制御部28の出力回数
をカウントし、カウント数が40回を超えると制御信号
をスイッチ(2)31へ送る。
The counter 30 counts the number of outputs of the load controller 28, and when the number of counts exceeds 40, sends a control signal to the switch (2) 31.

【0021】スイッチ(2)31は、カウンタ30から
の信号に基づき、荷重固定型ニューラルネットワーク2
5により情報圧縮された声道パラメータと学習型ニュー
ラルネットワーク26により情報圧縮された声道パラメ
ータのどちらか一方を復号化器へ声道パラメータとして
送出する切り替え器である。
The switch (2) 31 is based on the signal from the counter 30 and has a fixed weight type neural network 2.
5 is a switching device that sends either the vocal tract parameter compressed by 5 or the vocal tract parameter compressed by the learning neural network 26 to the decoder as a vocal tract parameter.

【0022】荷重切替部32は荷重制御部28からの荷
重制御信号、カウンタか30らのカウンタ信号の出力を
受けており、復号化器33(図1b)へ荷重切り替えの
ための信号を作成する。
The load switching unit 32 receives the load control signal from the load control unit 28 and the output of the counter signal from the counter 30, and creates a signal for switching the load to the decoder 33 (FIG. 1b). .

【0023】上記した符号化器17の動作を説明する。
入力音声はサンプリングクロックジェネレータ19によ
り通常8kHzのクロックにてADコンバータ18で8
ビットにデジタル化される。デジタル化された音声信号
は、フレームクロックジェネレータ20により通常20
msecのフレーム区間で、声道パラメータ測定部2
1、有声/無声検出部22、ピッチ周期検出部23、振
幅測定部24にて各々のパラメータが測定される。
The operation of the encoder 17 will be described.
The input voice is sent from the sampling clock generator 19 to the AD converter 18 at a frequency of 8 kHz.
Digitized into bits. The digitized audio signal is usually output by the frame clock generator 20.
Vocal tract parameter measurement unit 2 in the msec frame section
1, the voiced / unvoiced detection unit 22, the pitch period detection unit 23, and the amplitude measurement unit 24 measure respective parameters.

【0024】声道パラメータに関しては、さらに荷重固
定型ニューラルネットワーク25にて音声の平均的な特
性に合わせた荷重を持つ構成のネットワークで情報量の
圧縮を行う。
Regarding the vocal tract parameters, the weight-fixed neural network 25 further compresses the amount of information with a network having a weight corresponding to the average characteristics of the voice.

【0025】ここでニューラルネットワークによる情報
圧縮に関し、簡単に原理の説明を行う。図3aは3層砂
時計型のニューラルネットワークを示すもので、簡単の
ため、入力層を1−1〜1−4の4ユニット、中間層を
2−1〜2−2の2ユニット、出力層を3−1〜3−4
の4ユニットとして説明する。
Here, the principle of information compression by the neural network will be briefly described. FIG. 3a shows a three-layer hourglass-type neural network. For simplicity, the input layer has four units 1-1 to 1-4, the intermediate layer has two units 2-1 to 2-2, and the output layer has four units. 3-1 to 3-4
4 units will be described.

【0026】入力層へ入力される情報x1 〜x4 は荷重
wijを介して中間層につながれ、その出力が荷重wikを
介して出力層3−1〜3−4で元に戻される。jは入力
層の1−1でi=1とし、1−4i=4とした入力層の
番号、iは同様に中間層2−1でj=1に、2−2がj
=2に対応する。ここで、中間層において、上記ニュー
ラルネットワークを2等分すると、図3bに示すように
なる。すなわち、入力された情報は中間層で2ユニット
に情報圧縮され、この信号を伝送し、受けた側で元の情
報に戻すことができる。
The information x1 to x4 input to the input layer is connected to the intermediate layer via the load wij, and its output is returned to the original at the output layers 3-1 to 3-4 via the load wik. j is the number of the input layer in which the input layer 1-1 is i = 1 and 1-4i = 4, and i is similarly the intermediate layer 2-1 and j = 1 and 2-2 is j.
= 2. Here, when the neural network is divided into two in the middle layer, the result is as shown in FIG. 3b. That is, the input information is compressed into two units in the intermediate layer, and this signal can be transmitted and the receiving side can restore the original information.

【0027】図1aの荷重固定型ニューラルネットワー
ク25の構成の一例を図2aに示す。図2aにおいて、
α1 〜α10は図1aの声道パラメータ測定部21で測定
した10次の声道パラメータを示す。この10個のパラ
メータが10個のニューラルネットワーク入力層1−1
〜1−10に入力される。各々の入力層からは、4個の
中間層2−1〜2−4に荷重wijを付して接続され、ニ
ューラルネットワークの出力となる。すなわち、図2a
の動作は、10個のパラメータが4個に圧縮されたこと
になる。
An example of the configuration of the fixed weight neural network 25 of FIG. 1a is shown in FIG. 2a. In FIG. 2a,
α1 to α10 represent tenth-order vocal tract parameters measured by the vocal tract parameter measuring unit 21 of FIG. 1a. The ten parameters are the ten neural network input layers 1-1.
Is input to 1-10. From each input layer, the four intermediate layers 2-1 to 2-4 are connected with weights wij, and are connected to the output of the neural network. That is, FIG.
This means that 10 parameters have been compressed to 4.

【0028】声道パラメータ測定部21で測定されたパ
ラメータは、更に学習型ニューラルネットワーク26に
も入力する。学習型ニューラルネットワーク26では、
入力される声道パラメータを、例えば1000前後の教
師信号として取り込み、この値を基に荷重を求める演算
を行う。1000フレームは1フレームを20msとす
れば、20秒程度の音声信号に相当する。これは、1回
の会話で連続性を問わなければ十分期待できる音声区間
である。
The parameters measured by the vocal tract parameter measuring unit 21 are also input to the learning type neural network 26. In the learning type neural network 26,
The input vocal tract parameter is fetched as a teacher signal of, for example, about 1000, and a calculation for obtaining a weight is performed based on this value. If one frame is 20 ms, 1000 frames correspond to a voice signal for about 20 seconds. This is a voice segment that can be expected sufficiently if continuity is not questioned in one conversation.

【0029】この様にして、学習した荷重を求めた後
に、この装置で通話を行う時、荷重固定型ニューラルネ
ットワーク25に備えた荷重と学習した荷重に差がある
場合は、無音区間なり無声区間でピッチ情報の8ビット
の部分で荷重のデータを伝送し、全て伝送した後に荷重
の切り替えを行えば、荷重の最適化を行うことが可能と
なる。
In this way, after the learned weight is obtained, when a call is made using this device, if there is a difference between the weight provided in the fixed-weight neural network 25 and the learned weight, there is a silent section or a silent section. It is possible to optimize the load by transmitting the load data in the 8-bit portion of the pitch information and switching the load after transmitting all of the data.

【0030】学習した荷重の伝送に関し、図1aに示し
た符号化器17の動作を説明する。まず、学習した荷重
の値と平均的な荷重の値の比較を荷重比較部27で行
い、比較値が一定値を超えた場合は荷重制御部28へ制
御信号を加える。
Regarding the transmission of the learned weights, the operation of the encoder 17 shown in FIG. 1a will be described. First, the weight comparison unit 27 compares the learned load value and the average load value, and when the comparison value exceeds a certain value, a control signal is applied to the load control unit 28.

【0031】荷重制御部28は、荷重制御部27からの
荷重制御信号を受信した場合、有声/無声検出部22の
結果が無声の場合、ないしは振幅検出部24における検
出結果が一定値以下の場合に、スイッチ(1)29の切
り替え動作により、学習した荷重を復号化器33へ伝送
する。
The load control unit 28 receives the load control signal from the load control unit 27, the voiced / unvoiced detection unit 22 outputs a voiceless result, or the amplitude detection unit 24 outputs a detection result of a predetermined value or less. Then, the learned load is transmitted to the decoder 33 by the switching operation of the switch (1) 29.

【0032】カウンタ30は、学習した荷重が一定の出
力回数、上記した例の場合には40個全て送出されたか
否かを判定するもので、全ての送出を終了すると、スイ
ッチ(2)31を制御し、荷重固定型ニューラルネット
ワーク25の荷重を学習した荷重に変更するとともに、
復号化器33側の荷重も変更する。
The counter 30 determines whether or not the learned load has been transmitted a fixed number of times, in the case of the above-mentioned example, all 40 have been transmitted. When all the transmissions are completed, the switch (2) 31 is turned on. Control and change the weight of the fixed weight neural network 25 to the learned weight, and
The load on the decoder 33 side is also changed.

【0033】この結果、図1aの符号化器17からは、
学習が行われるまでは、声道パラメータ、有声/無声パ
ラメータ、ピッチ周期パラメータ、振幅パラメータの4
種類のパラメータが送られることとなり、各々の情報量
は先の従来例で示したベクトル量子化に合わせれば、 声道パラメータ 4×2 ビット 有声/無声パラメータ 1 ビット ピッチ周期パラメータ 8 ビット 振幅パラメータ 8 ビット 制御パラメータ 2 ビット として設定することができる。
As a result, the encoder 17 of FIG.
Up to learning, vocal tract parameters, voiced / unvoiced parameters, pitch period parameters, and amplitude parameters
Parameters of various types will be transmitted, and each information amount will be vocal tract parameter 4 × 2 bits Voiced / unvoiced parameter 1 bit Pitch period parameter 8 bits Amplitude parameter 8 bits, according to the vector quantization shown in the conventional example The control parameter can be set as 2 bits.

【0034】荷重切替部32は、荷重制御部28からの
荷重制御信号、カウンタ30からの出力を受け、当初は
平均荷重を用いながら、適応荷重のピッチ周期スロット
を用いた伝送、荷重切り替えのタイミング信号を送出す
る。
The load switching unit 32 receives the load control signal from the load control unit 28 and the output from the counter 30, and initially uses the average load, but transmits using the pitch cycle slot of the adaptive load, and the timing of load switching. Send a signal.

【0035】学習後は、学習の効果がある場合はピッチ
周期パラメータの部分が無声音ないし無音区間で学習後
の荷重が伝送され、全ての荷重が伝送されると制御信号
により荷重の切り替えが行われる。
After learning, if there is an effect of learning, the weight of the pitch period parameter is transmitted in the unvoiced sound or the silent section, and the weight is switched by the control signal when all the weights are transmitted. .

【0036】図1bに復号化器33の一実施例を示す。
図1bに示した復号化器33は、荷重制御信号のデコー
ダ34により符号化器17からの制御信号がデコードさ
れ、この制御信号がピッチ/荷重切替スイッチ35を制
御して、ピッチ周期と適応荷重パラメータの切り替えを
行う。
FIG. 1b shows an embodiment of the decoder 33.
In the decoder 33 shown in FIG. 1B, the control signal from the encoder 17 is decoded by the decoder 34 for the weight control signal, and this control signal controls the pitch / weight changeover switch 35 to set the pitch period and the adaptive weight. Switch parameters.

【0037】声道パラメータは、ニューラルネットワー
ク復号部36へ送られ、このニューラルネットワーク復
号部36の荷重は、平均荷重37と適応荷重38の2種
類の荷重が接続されている。この2個の荷重は、スイッ
チ(3)39により選択される。
The vocal tract parameter is sent to the neural network decoding unit 36, and the weight of the neural network decoding unit 36 is connected to two types of weights, an average weight 37 and an adaptive weight 38. The two loads are selected by the switch (3) 39.

【0038】38の適応荷重は荷重制御デコーダ34の
制御を受けるピッチ/荷重切替スイッチ35の出力を受
けている。
The adaptive load 38 receives the output of the pitch / load changeover switch 35 which is controlled by the load control decoder 34.

【0039】パルス列発生部40は、ピッチ/荷重切替
スイッチ35からのピッチ周期信号を受けている。
The pulse train generator 40 receives the pitch period signal from the pitch / load changeover switch 35.

【0040】スイッチ(4)41は有声/無声パラメー
タで制御されるスイッチであり、有声音の場合にはパル
ス列発生部40からのパルス列を、無声音の場合にはラ
ンダムノイズ発生部42からのランダム信号を選択す
る。そして、選択された信号が声道フィルタ43に入力
され、声道フィルタ43の出力は、レファレンス信号が
振幅パラメータで制御されるDAコンバータ44により
アナログ信号に変換され、音声出力となる。
The switch (4) 41 is a switch controlled by a voiced / unvoiced parameter, and in the case of voiced sound, the pulse train from the pulse train generator 40, and in the case of unvoiced sound, the random signal from the random noise generator 42. Select. Then, the selected signal is input to the vocal tract filter 43, and the output of the vocal tract filter 43 is converted into an analog signal by the DA converter 44 in which the reference signal is controlled by the amplitude parameter, and becomes a voice output.

【0041】また、この復号化器33は、クロックを供
給するためのクロックジェネレータ45を有している。
The decoder 33 also has a clock generator 45 for supplying a clock.

【0042】図1bのニューラルネットワーク復号部3
6の基本構成を図2bに示す。ここで、β1 〜β4 は符
号化器17から伝送されてくる圧縮された声道パラメー
タであり、この値が荷重wによって10個の声道パラメ
ータへ復号される。そして、この荷重wが音声入力によ
り適応制御される。
Neural network decoding unit 3 of FIG. 1b
The basic configuration of 6 is shown in FIG. 2b. Here, β1 to β4 are compressed vocal tract parameters transmitted from the encoder 17, and these values are decoded into 10 vocal tract parameters by the weight w. Then, this load w is adaptively controlled by voice input.

【0043】ニューラルネットワーク復号部36には、
平均荷重37と適応荷重38の2個の荷重があり、平均
荷重37は平均的な荷重、適応荷重38は学習した荷重
である。適応荷重38は制御パラメータの制御により、
荷重更新信号の場合はピッチパラメータスロットの信号
を荷重として受け、またこの制御信号により、スイッチ
(3)39を制御して荷重の切り替えを行っている。
The neural network decoding unit 36 includes
There are two loads, an average load 37 and an adaptive load 38. The average load 37 is an average load and the adaptive load 38 is a learned load. The adaptive load 38 is controlled by the control parameter.
In the case of the load update signal, the signal of the pitch parameter slot is received as the load, and the switch (3) 39 is controlled by this control signal to switch the load.

【0044】図1bに示した復号化器33の動作は、符
号化器17から送られる荷重制御信号により、ピッチ周
期ないし適応荷重のパラメータスロットの信号の性質を
解読し、ピッチ周期であればパルス列発生部42で発生
するパルス列を制御し、適応荷重のパラメータであれ
ば、適応荷重38の値を順次更新し、全ての更新が終了
した時点で荷重を平均値から適応値へ更新する。
The operation of the decoder 33 shown in FIG. 1b is to decode the characteristics of the signal of the pitch period or the parameter slot of the adaptive weight by the weight control signal sent from the encoder 17, and if it is the pitch period, the pulse train. The pulse train generated by the generation unit 42 is controlled, and if it is a parameter of the adaptive load, the value of the adaptive load 38 is sequentially updated, and when all the updates are completed, the load is updated from the average value to the adaptive value.

【0045】声道パラメータは、ニューラルネットワー
ク復号部36で復号され、このパラメータで声道フィル
タ43を作成する。そして、有声/無声パラメータによ
り有声、無性を判断し、無声音であればランダムノイズ
発生部42で発生したランダムノイズを、有声音であれ
ばパルス列発生部40で発生したパルス列を声道フィル
タ43へ入力する。
The vocal tract parameters are decoded by the neural network decoding unit 36, and the vocal tract filter 43 is created using these parameters. Then, the voiced / unvoiced parameter is used to determine voiced / unvoiced, and if unvoiced, the random noise generated by the random noise generator 42 is sent to the vocal tract filter 43 if the voice train is the pulse train generated by the pulse train generator 40. input.

【0046】声道フィルタ43は、レファレンス信号を
振幅パラメータで制御されたDAコンバータ44に連絡
し、DAコンバータ44では符号化器17に入力された
音声振幅に合わせた大きさの音声信号を再生する。
The vocal tract filter 43 communicates the reference signal to the DA converter 44 controlled by the amplitude parameter, and the DA converter 44 reproduces a voice signal having a size corresponding to the voice amplitude input to the encoder 17. .

【0047】以下、本発明に係るニューラルネットワー
クを用いた適応化声道パラメータと、従来の声道パラメ
ータとの比較を述べる。従来例としてあげたベクトル量
子化においても原理的には複数のベクトル量子化部を備
えることにより適応化は可能である。
A comparison between the adapted vocal tract parameters using the neural network according to the present invention and the conventional vocal tract parameters will be described below. In principle, the vector quantization given as a conventional example can also be adapted by providing a plurality of vector quantizers.

【0048】しかし、適応化を行った場合の伝送量の考
察を行うと、本発明に係るニューラルネットワークを用
いた方法であれば、荷重の値の変更と制御信号という観
点から、本発明における伝送量は、 40×2×8 = 640 ビット であるのに対して、従来例のベクトル量子化における伝
送量は、 1024×10×8 = 81920 ビット となる。
However, considering the amount of transmission in the case of adaptation, the method using the neural network according to the present invention, the transmission in the present invention from the viewpoint of changing the value of the load and the control signal. The amount is 40 × 2 × 8 = 640 bits, while the transmission amount in the conventional vector quantization is 1024 × 10 × 8 = 81920 bits.

【0049】また、本発明で示すように、学習を終えた
荷重データを復号化器33に伝送することを考えると、
ニューラルネットワークの荷重の変更の場合は、本発明
では、 640÷8 = 80 フレーム であるのに対して、従来のベクトル量子化では、 81920÷8 = 10240 フレーム となる。
Further, as shown in the present invention, considering that the weight data which has been learned is transmitted to the decoder 33,
In the case of changing the weight of the neural network, in the present invention, 640/8 = 80 frames, whereas in the conventional vector quantization, 81920/8 = 10240 frames.

【0050】データ変更のタイミングを無音区間及び無
声区間とすると、無音区間は、平均的に音声の30%、
無声区間は20%と考えられていることから、ニューラ
ルネットワークでの荷重変更は、 80×0.02×2 = 3.2秒で ベクトル量子化のベクトル変更量は、 10240×0.02×2 = 409.6秒 となり、かなり長時間の会話が継続したときのみデータ
変更が行えることになり実用化はできない。
Assuming that the timing of data change is the silent section and the unvoiced section, the silent section averages 30% of the voice,
Since the unvoiced section is considered to be 20%, the weight change in the neural network is 80 × 0.02 × 2 = 3.2 seconds, and the vector change amount of vector quantization is 10240 × 0.02 × 2. = 409.6 seconds, which means that the data can be changed only when the conversation has continued for a considerably long time, and cannot be put to practical use.

【0051】またここでは、荷重の学習を平均荷重から
始めることとしたが、例えば、男性音声、女性音声の2
種類の荷重のどちらかを選ぶ方法などの予め数種類の荷
重を設定することも考えられる。更に、実施例では学習
を行うニューラルネットワークを一組としたが、例えば
家庭用電話機などのように、2〜5組のニューラルネッ
トワークを備え、使用者によってニューラルネットワー
クを切り替えるといった方法も考えられる。
In this case, the weight learning is started from the average weight.
It is also possible to set several types of loads in advance, such as a method of selecting one of the types of loads. Further, in the embodiment, one set of neural networks is used for learning, but a method of providing two to five sets of neural networks such as a home telephone and switching the neural networks by the user is also conceivable.

【0052】[0052]

【発明の効果】以上説明したように、本発明によれば、
上記した従来例に示したベクトル量子化による情報の圧
縮に比べ、符号化器へ入力される音声の特徴に合わせ
て、最適な符号圧縮を行うことにより、個人特徴を伝送
することが可能になり、音声品質の向上を図ることがで
きる。
As described above, according to the present invention,
Compared to the compression of information by vector quantization shown in the above conventional example, it is possible to transmit individual characteristics by performing optimal code compression according to the characteristics of the voice input to the encoder. It is possible to improve the voice quality.

【図面の簡単な説明】[Brief description of drawings]

【図1】1a 本発明に係る音声符号化器のブロック
図。 1b 本発明に係る音声復号化器のブロック図。
FIG. 1a is a block diagram of a speech coder according to the present invention. 1b is a block diagram of a speech decoder according to the present invention.

【図2】2a 本発明に係るニューラルネットワークの
符号化部の基本構成の説明図。 2b 本発明に係るニューラルネットワークの復号化部
の基本構成の説明図。
2a is an explanatory diagram of a basic configuration of a coding unit of the neural network according to the present invention. FIG. 2b An explanatory diagram of the basic configuration of the decoding unit of the neural network according to the present invention.

【図3】3a 本発明に係るニューラルネットワークに
おける符号圧縮の原理図。 3b 本発明に係るニューラルネットワークにおける符
号圧縮の原理図。
FIG. 3a is a principle diagram of code compression in the neural network according to the present invention. 3b is a principle diagram of code compression in the neural network according to the present invention.

【図4】4a 従来の符号化器のブロック図。 4b 従来の復号化器のブロック図。 4c 従来の声道パラメータのベクトル量子化を行う場
合の関連部分のブロック図。
FIG. 4a is a block diagram of a conventional encoder. 4b A block diagram of a conventional decoder. 4c is a block diagram of a related part when vector quantization of a conventional vocal tract parameter is performed.

【符号の説明】[Explanation of symbols]

25 荷重固定型ニューラルネット 26 学習型ニューラルネット 27 荷重比較部 28 荷重制御部 29 スイッチ1 30 カウンタ 31 スイッチ2 32 荷重切替部 25 fixed weight type neural network 26 learning type neural network 27 load comparison section 28 load control section 29 switch 1 30 counter 31 switch 2 32 load switching section

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】音声符号化において声道パラメータの圧縮
を行う際、二組のニューラルネットワークを用い、一方
のニューラルネットワークでは平均的な重み付けを行
い、他方のニューラルネットワークではニューラルネッ
トワークへの入力パラメータを基に学習を行わせ、当初
は平均的な重み付けのニューラルネットワークを用い、
会話に影響を与えない区間を検出して、学習を行った重
み付けを持つニューラルネットワークに切り替える機能
を備えたことを特徴とする声道パラメータ情報の圧縮方
法。
1. When compressing vocal tract parameters in speech coding, two sets of neural networks are used, one neural network performs average weighting, and the other neural network inputs parameters to the neural network. Based on the average weighted neural network,
A method for compressing vocal tract parameter information, which has a function of detecting a section that does not affect conversation and switching to a learned neural network with weighting.
JP4102318A 1992-03-30 1992-03-30 Adaptive compression method of vocal tract parameter information in speech coder / decoder Expired - Lifetime JP2537113B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4102318A JP2537113B2 (en) 1992-03-30 1992-03-30 Adaptive compression method of vocal tract parameter information in speech coder / decoder

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4102318A JP2537113B2 (en) 1992-03-30 1992-03-30 Adaptive compression method of vocal tract parameter information in speech coder / decoder

Publications (2)

Publication Number Publication Date
JPH05282000A JPH05282000A (en) 1993-10-29
JP2537113B2 true JP2537113B2 (en) 1996-09-25

Family

ID=14324232

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4102318A Expired - Lifetime JP2537113B2 (en) 1992-03-30 1992-03-30 Adaptive compression method of vocal tract parameter information in speech coder / decoder

Country Status (1)

Country Link
JP (1) JP2537113B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110062246B (en) * 2018-01-19 2021-01-05 杭州海康威视数字技术股份有限公司 Method and device for processing video frame data

Also Published As

Publication number Publication date
JPH05282000A (en) 1993-10-29

Similar Documents

Publication Publication Date Title
JP2964344B2 (en) Encoding / decoding device
US6606593B1 (en) Methods for generating comfort noise during discontinuous transmission
US5742734A (en) Encoding rate selection in a variable rate vocoder
KR100487136B1 (en) Voice decoding method and apparatus
US20020016161A1 (en) Method and apparatus for compression of speech encoded parameters
KR100767456B1 (en) Audio encoding device and method, input signal judgement method, audio decoding device and method, and medium provided to program
JP2002055699A (en) Device and method for encoding voice
JPH05197400A (en) Means and method for low-bit-rate vocoder
WO2008148321A1 (en) An encoding or decoding apparatus and method for background noise, and a communication device using the same
JPH02155313A (en) Coding method
JP4464484B2 (en) Noise signal encoding apparatus and speech signal encoding apparatus
CN101632119A (en) Method and arrangement for smoothing of stationary background noise
EP1617417A1 (en) Voice coding/decoding method and apparatus
US7072830B2 (en) Audio coder
JP3266372B2 (en) Audio information encoding method and apparatus
JPH11513813A (en) Repetitive sound compression system
KR100875784B1 (en) Data processing unit
CN1244090C (en) Speech coding with background noise reproduction
CA2293165A1 (en) Method for transmitting data in wireless speech channels
JP2537113B2 (en) Adaptive compression method of vocal tract parameter information in speech coder / decoder
JP2000308167A (en) Voice encoding device
JP3055608B2 (en) Voice coding method and apparatus
JP3508850B2 (en) Pseudo background noise generation method
JPH09149104A (en) Method for generating pseudo background noise
JPH07115403A (en) Circuit for encoding and decoding silent section information

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090708

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090708

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100708

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110708

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110708

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120708

Year of fee payment: 16

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120708

Year of fee payment: 16