JPS58211797A - Band split type vocoder - Google Patents
Band split type vocoderInfo
- Publication number
- JPS58211797A JPS58211797A JP57095929A JP9592982A JPS58211797A JP S58211797 A JPS58211797 A JP S58211797A JP 57095929 A JP57095929 A JP 57095929A JP 9592982 A JP9592982 A JP 9592982A JP S58211797 A JPS58211797 A JP S58211797A
- Authority
- JP
- Japan
- Prior art keywords
- band
- frequency
- low
- waveform
- supplied
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Developing Agents For Electrophotography (AREA)
- Solid-Sorbent Or Filter-Aiding Compositions (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.
Description
【発明の詳細な説明】
本発明は帯域分割型ボコーダとくに帯域分割線形予測屋
ボコーダに関する。DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a band-splitting vocoder, and more particularly to a band-splitting linear predictor vocoder.
近年における線形予測型音声分析法(LPC分析分析法
線立により、実用的な線形予測型ボコーダが広く普及さ
れつつある。In recent years, practical linear predictive vocoders have become widespread due to the establishment of linear predictive speech analysis methods (LPC analysis methods).
このLPC分析法は音声のスさクトラム包絡を全極型モ
デルで近似するものであるが、これには従来、経験的に
知られたフォルマント帯域幅の過小推定と比較的にエネ
ルギの小さい第37オルマントの近似性が悪いという二
つの欠点があるとされている。This LPC analysis method approximates the sectrum envelope of speech using an all-pole model, but this has traditionally involved underestimating the formant bandwidth, which has been known empirically, and using the It is said that there are two drawbacks: the approximation of ormant is poor.
上述の第1の欠点は、第1フォルマント等エネルギの集
中する周波数スペクトラムの極が過度に集中するために
起るものと考えられる。The above-mentioned first drawback is thought to occur because the poles of the frequency spectrum where the energy of the first formant is concentrated are excessively concentrated.
最近、このような特定の周波数に極が集中するのを防ぐ
ために、音声帯域を複数のサブバンドに分割し、各サブ
バンドに対しそれぞれ適当な次数のLPG分析を行ない
極の適宜な分散を計る帯域分割型線形予測分析法が提案
されている。Recently, in order to prevent such concentration of poles at specific frequencies, the audio band is divided into multiple subbands, and LPG analysis of an appropriate order is performed on each subband to measure the appropriate dispersion of the poles. A band-splitting linear predictive analysis method has been proposed.
この方式は、帯域の分割を適当に選ぶことにより、上述
の第1の欠点ばかりでなく第2の欠点をも緩和し、線形
予測型ボコーダの音質改善に貢献する有力な手段になる
可能性を秘めている。By appropriately selecting the band division, this method alleviates not only the first drawback but also the second drawback, and has the potential to become an effective means of contributing to improving the sound quality of linear predictive vocoders. It's hidden.
しかじな−1lXら従来、このように帯域分割を行なっ
た場合においても、合成音を生我する際に用いる励振用
音源に対しては帯域分割による特殊性を特に考慮せず、
従来の方式がそのまま踏襲されている。そのため合成音
を肉声の構造により近すけ自然性を改善するという点で
必らずしも充分ではないという欠点を有している。Conventionally, Shikajina-1lX et al., even when band division is performed in this way, the special characteristics of band division are not particularly taken into account for the excitation sound source used when producing synthetic sounds,
The conventional method is followed as is. Therefore, it has the disadvantage that it is not necessarily sufficient to bring the synthesized sound closer to the structure of the real voice and improve its naturalness.
本発明の目的は上述の従来の欠点を除去するにある。The object of the invention is to obviate the above-mentioned drawbacks of the prior art.
第(1)の発明の帯域分割型ボコーダは、音声伝送帯域
を複数の帯域に分書11°、予め定めた低群側の帯域に
対しては制御された繰り返し周波数をもつ波形列を音源
としまた予め定めた高群側の帯域に対しては制御された
繰り返し周波数をもつ波形列と雑音とを音源として音声
合成を行なう手段を有する。The band division type vocoder of the invention (1) divides the audio transmission band into multiple bands by 11 degrees, and uses a waveform train with a controlled repetition frequency as a sound source for a predetermined low group side band. For the predetermined high group side band, there is provided means for performing speech synthesis using a waveform train having a controlled repetition frequency and noise as sound sources.
また、第(2)の発明の帯域分割型ボコーダは、音声伝
送帯域を複数の帯域に分割し、有声度が予め定めた中位
の範囲にある有声音については予め定めた低群側の帯域
に対しては制御された繰り返し周波数をもつ波形列を音
源としまた予め定めた高群側の帯域に対しては制御され
た繰り返し周波数をもつ波形列と雑音とを音源として音
声合成を行ない、有声度が前記中位の範囲より4高い範
囲の有声音については前記低群側の帯域および前記高群
側の帯域いずれに対しても前記制御された繰り返し周波
数をもつ波形列を音源として音声合成を行ない、有声度
が前記中位の範囲よりも低い範囲の有声音については前
記低群側の帯域および前記高群側の帯域いずれに対して
も前記制御された繰り返し周波数をもつ波形列と雑音と
を音源として音声合成を行なう手段を有する。In addition, the band division type vocoder of the second invention divides the audio transmission band into a plurality of bands, and for voiced sounds whose voicing degree is in a predetermined medium range, a predetermined low group side band is used. For this, a waveform train with a controlled repetition frequency is used as a sound source, and for a predetermined high group side band, a waveform train with a controlled repetition frequency and noise are used as sound sources to synthesize speech. For voiced sounds whose frequency is 4 higher than the medium range, speech synthesis is performed using the waveform train having the controlled repetition frequency as the sound source for both the low group side band and the high group side band. For voiced sounds whose voicing degree is lower than the medium range, the waveform sequence with the controlled repetition frequency and the noise are used for both the low group side band and the high group side band. It has means for performing speech synthesis using as a sound source.
次に1図面を参照して本発明の詳細な説明する。The present invention will now be described in detail with reference to one drawing.
第1図、第2図、第3図および第4図は本発明の一実施
例を示すブロック図でありI第1図は全体の構成を示す
ブロック図、第2図は送信側の構成を示すテロツク図、
第3図は第(1)の発明の一実施例の受信側の構成を示
すブロック図および第4図は第(2)の発明の一実施例
の受信側の構成を示すブロック図である。1, 2, 3, and 4 are block diagrams showing one embodiment of the present invention. FIG. 1 is a block diagram showing the overall configuration, and FIG. Terotsuk diagram showing,
FIG. 3 is a block diagram showing the configuration of the receiving side of an embodiment of the invention (1), and FIG. 4 is a block diagram showing the configuration of the receiving side of the embodiment of the invention (2).
本実施例は第1図に示すように送信側1.受信側2/グ
および伝送路3から構成される。In this embodiment, as shown in FIG. It consists of a receiving side 2/group and a transmission line 3.
送信側1は、さらに第2図に示すように、低域フィルタ
およびA/D変換器101.ウィンドウ処理器102.
7−リエ変換器103.パワースペクトラムメモリ10
4.低域側自己相関係数計測器105.低域側線形予測
係数分析器106゜高域側自己相関係数計測器107.
高域側線形予測係数分析器108.有声度計測器109
.ビヴチ抽出器110および符号化器111を有する。The transmitting side 1 further includes a low-pass filter and an A/D converter 101. as shown in FIG. Window processor 102.
7-Rie transformer 103. power spectrum memory 10
4. Low frequency side autocorrelation coefficient measuring device 105. Low band side linear prediction coefficient analyzer 106. High band side autocorrelation coefficient measuring device 107.
High-frequency side linear prediction coefficient analyzer 108. Voicing degree measuring device 109
.. It has a vivchi extractor 110 and an encoder 111.
また第(1)の発明の実施例の受信側2は第3図に示す
ように復号化器201.低域側LPCフィルタ202.
低域側補間器203.低域側帯域フィルタ204.高域
側LPCフィルタ205.高域側補間器2069周波数
変換器207.高域側帯域フィルタ208.低域高域合
成器209.D/A変換器および低域フィルタ210.
ピッチ発生器211.擬声帯波形発生器212.雑音発
生器213、可変合成器214.低域側可変利得増幅器
215および高域側可変利得増幅@216t−有する。Further, the receiving side 2 of the embodiment of the invention (1) includes a decoder 201. as shown in FIG. Low-pass LPC filter 202.
Low-frequency interpolator 203. Low side band filter 204. High-frequency side LPC filter 205. High frequency side interpolator 2069 frequency converter 207. High band filter 208. Low and high frequency synthesizer 209. D/A converter and low pass filter 210.
Pitch generator 211. Pocket waveform generator 212. Noise generator 213, variable synthesizer 214. It has a low band side variable gain amplifier 215 and a high band side variable gain amplifier @216t-.
また第(2)の発明の実施例の受信側2は、第4図に示
すように、第3図のすべての構成要素を含むほかに1名
らにそれに加えて音源切替/制御部217 を含んでい
る。Further, as shown in FIG. 4, the receiving side 2 of the embodiment of the invention (2) includes all the components shown in FIG. Contains.
さて、伝送すべき音声波形は、第2図に示す送信側1の
音声入力端子1000から入力され、低域フィルタおよ
びA/D変換器101の低域フィルタによVl例えば3
333[1z以上の高域成分が遮断されたものが1例え
ば8000h標本化周波数により標本化され、A/D変
換器により例えば12ビツトのデジタル信号に量子化さ
れ、ウィンドウ処理器102に供給される。Now, the audio waveform to be transmitted is input from the audio input terminal 1000 of the transmitting side 1 shown in FIG.
333[1z or higher high frequency components are cut off, the signal is sampled at a sampling frequency of, for example, 8000h, quantized into a 12-bit digital signal by an A/D converter, and supplied to the window processor 102. .
ウィンドウ処理器102は、入力した量子化音声信号を
、一旦、内部のメモリに格納する。このメモリは、前記
量子化音声信号の1例えば、30m5Ec分(240サ
ンプル分)を記憶し、これにハミングウィンドウまたは
矩形ウィンドウ等のウィンドウ関数を乗するウィンドウ
処理を行なう5このようなウィンドウ処理は1例えばl
QmsEc周期で繰り返され、これが基本分析周期(以
後基本フレーム周期〕となる。The window processor 102 temporarily stores the input quantized audio signal in an internal memory. This memory stores 1, for example, 30m5Ec (240 samples) of the quantized audio signal, and performs window processing to multiply this by a window function such as a Hamming window or a rectangular window. For example l
This is repeated at a QmsEc period, and this becomes the basic analysis period (hereinafter referred to as basic frame period).
さて、ウィンドウ処理された音声波形データは。Now, what about the windowed audio waveform data?
基本フレーム周期ごとに、7−リエ変換器103゜有声
度計測器109およびピッチ抽出器110に供給される
。For each basic frame period, the 7-lier transformer 103 is supplied to the voicing degree measuring device 109 and the pitch extractor 110.
フーリエ変換器103は、入力した前述のウィンドウ処
理された音声波形データを用い、これを7−リエ変換す
ることにより、各周波数のスペクトラム成分を求め、さ
らにこの絶対値の2乗をとることにより各周波数におけ
るパワースペクトラム成分に変換して、これをパワース
ペクトラムメモリ104に格納する。こうしてメモリ1
04に格納されたパワースペクトラム成分を表わす各デ
ータは、低域側自己相関係数計測器105および高域側
自己相関係数計測107により自由に読み出され、以下
に述べるように自己相関係it計測するのに用いられる
。The Fourier transformer 103 uses the input audio waveform data that has been subjected to the window processing described above, performs a 7-lier transform on this to obtain the spectrum components of each frequency, and further calculates the spectrum components of each frequency by taking the square of this absolute value. It is converted into a power spectrum component in frequency and stored in the power spectrum memory 104. Thus memory 1
Each data representing a power spectrum component stored in 04 is freely read out by a low-frequency autocorrelation coefficient measuring device 105 and a high-frequency autocorrelation coefficient measuring device 107, and the autocorrelation coefficient it used for measurement.
さて、低域側自己相関係数計測器105は、前記パワー
スペクトラムの低域側1例えばOから1333にのパワ
ースペクトラムの成分をメモリ104から読み出し、こ
れにフーリエ逆変換を施すことにより必要な範囲内の各
遅れ時間における自己相関係数を計測し、これを低域側
線形予測係数分析器106に供給する。また、これとと
もに計測器105は、計測した遅れ時間0の自己相関係
数を、この基本フレーム周期における低域側短時間平均
電力として、出力ライン1050を介し。Now, the low-frequency side autocorrelation coefficient measuring device 105 reads out the power spectrum components on the low-frequency side 1, for example, from O to 1333 of the power spectrum from the memory 104, and performs an inverse Fourier transform on this to determine the required range. The autocorrelation coefficient at each delay time is measured and supplied to the low-band linear prediction coefficient analyzer 106. At the same time, the measuring device 105 outputs the measured autocorrelation coefficient with a delay time of 0 as the short-time average power on the low frequency side in this basic frame period via the output line 1050.
符号化器111に供給する。The signal is supplied to the encoder 111.
分析器106は、供給された自己相関係数データの組か
らにパラメータを所定の次数まで1例えばオートコリレ
ーション(AUTOCOI’LRELAT I ON
)法等の線形予測分析法により抽出し。The analyzer 106 converts the parameters from the supplied set of autocorrelation coefficient data to a predetermined order, for example, by performing autocorrelation (AUTOCOI'LRELATI ON).
) method and other linear predictive analysis methods.
抽出された低域側にパラメータを符号化@111に供給
する。The extracted low frequency side parameters are supplied to encoding@111.
一方、高域側自己相関係数計測器107は、前記パワー
スペクトラムの高域側、上記の例では1333 、、H
zから3333Hzのパワースペクトラムの成分をメモ
リ104から読み出し、これにフーリエ逆変換を施すこ
とにより、必要、な範囲内の各遅れ時間における自己相
関係数を計測し、これを高域側線形予測係数分析器10
8に供給する。但し、上述の7−リエ逆変換の演算に当
って、1333Hzから3333Bzのパワースペクト
ラム成分t−。On the other hand, the high-frequency side autocorrelation coefficient measuring device 107 measures the high-frequency side of the power spectrum, 1333, , H in the above example.
By reading out the power spectrum components from z to 3333 Hz from the memory 104 and subjecting them to inverse Fourier transform, the autocorrelation coefficient at each delay time within the necessary range is measured, and this is used as the high-frequency side linear prediction coefficient. Analyzer 10
Supply to 8. However, in calculating the above-mentioned 7-lier inverse transform, the power spectrum component t- from 1333Hz to 3333Bz.
1333Hzだけ周波数の低い方に周波数シフトし、0
から2000tlzのパワースペクトラムと見做してフ
ーリエ逆変換を実行し、自己相関係数を計測する。また
、これとともに計測器107は、計測した遅れ時間Oの
自己相関係数を、この基本フレーム周期における高域側
短時間平均電力として。Shift the frequency by 1333Hz to the lower frequency, and
The inverse Fourier transform is performed on the power spectrum of 2000 tlz, and the autocorrelation coefficient is measured. In addition, the measuring device 107 uses the autocorrelation coefficient of the measured delay time O as the high-frequency side short-time average power in this basic frame period.
出力ライン1070 を介し符号化器111に供給する
。It is supplied to encoder 111 via output line 1070.
なお、上述の低域側自己相関係数計測器105および高
域側自己相関係数計測器107で行なうフーリエ逆変換
は、パワースペクトラムがスカラ量(実数成分のみで虚
数成分を含まない量)であるために、必らずしも7−リ
エ逆変換に限定される必要はなく、フーリエ変換または
コサイン変換のいずれを用いてもよい。Note that the inverse Fourier transform performed by the above-described low-frequency autocorrelation coefficient measuring device 105 and high-frequency autocorrelation coefficient measuring device 107 is performed when the power spectrum is a scalar quantity (a quantity containing only real components and no imaginary components). Therefore, it is not necessarily limited to the 7-lier inverse transform, and either the Fourier transform or the cosine transform may be used.
分析器108は、供給された自己相関係数のデータの組
から、にパラメータ金所定の次数まで。From the supplied data set of autocorrelation coefficients, the analyzer 108 modulates the parameters to a predetermined order.
例えばオートコリレーション法等の線形予測分析法によ
り抽出し、抽出された高域側にパラメータを符号化51
11に供給する。For example, it is extracted using a linear predictive analysis method such as an autocorrelation method, and the parameters are encoded on the extracted high frequency side.
11.
なお、上述のオートコリレーション法の詳細についてハ
1例えば、ジョンマツコール(JohnMakhoul
) :“リニアプレディクシ、y(Li−near
Prediction ) ニアチュートリフkVビ
ュー (A Tutorial Review
) ” 、 Proceedin−gs o
f the IEEE 、 vol、63. /16
4. pp、561〜580. April、 19
75を参照されたい。For details of the above-mentioned autocorrelation method, see, for example, John Makhoul.
): “Linear Prediction, y (Li-near
Prediction ) Near Tute Riff kV View (A Tutorial Review
)”, Proceedin-gs o
f the IEEE, vol, 63. /16
4. pp, 561-580. April, 19
See 75.
なおまた1分析器106および108による低域側およ
び高域側の線形予測係数分析に際しては。Furthermore, when analyzing the linear prediction coefficients on the low-frequency side and the high-frequency side by the single analyzers 106 and 108.
これらに入力される音声信号の周波数帯域が、上述のよ
うに、低域側は0から1333[1zまで、iた高域側
はOから2000[]zまでとなり、その最高周波数か
もとの標本化周期できまる最高周波数4000口2に対
し、それぞれ1/3および1/2に制限されているため
、線形予測係析全行う場合の標本化周期は、それぞれも
との標本化周期の3倍および2倍にデシメート(dec
imate ) l、たものを用いたことと等価となる
。As mentioned above, the frequency band of the audio signal input to these is from 0 to 1333[1z] on the low side, and from O to 2000[]z on the high side, and the highest frequency is also the original sample. The maximum frequency of 4,000 ports2 determined by the conversion period is limited to 1/3 and 1/2, respectively, so the sampling period when performing all linear prediction coefficients is three times the original sampling period. and double decimate (dec
imate ) l, which is equivalent to using .
さて、有声度計測器109は、ウィンドウ処理された前
記音声波形データの供給を受け、各基本7レ一ム周期ご
とに、このフレーム中の音声信号の有声度を計測し、そ
の計測結果を有用度表示信号として出力ライン1090
ft介して符号化器111に供給する。こや有声度計
測器109は。Now, the voicing degree measuring device 109 receives the window-processed audio waveform data, measures the voicing degree of the audio signal in this frame every 7 basic frame periods, and uses the measurement results as a useful tool. Output line 1090 as degree display signal
ft to the encoder 111. Koya voicing degree measuring device 109 is.
例えば、特開昭54−151303有声無声判別装置を
応用し、そこで得られる判別式の値を有用度表示信号と
して用いることができる。For example, it is possible to apply the voiced/unvoiced discrimination device disclosed in Japanese Patent Application Laid-Open No. 54-151303, and use the value of the discriminant obtained there as the usefulness display signal.
ピッチ抽出器110は、供給された前記ウィンドウ処理
された音声波形データから、各基本フレーム周期におけ
るピッチ周波数データを抽出し。The pitch extractor 110 extracts pitch frequency data in each basic frame period from the supplied window-processed audio waveform data.
これ全符号化器111に供給する。This is supplied to all encoders 111.
符号化器11・1は、こうして供給された各種データを
符号化して伝送フレームを作成し、各基本フレームごと
に一伝送フレームずつ伝送路3を介して受信側2/’l
に送出する。The encoder 11.1 encodes the various data supplied in this way to create a transmission frame, and transmits one transmission frame for each basic frame to the receiving side 2/'l via the transmission path 3.
Send to.
さて、受信側2/zにおいては、伝送路3を介して伝送
された上述の伝送フレームを受信し、それに従って以下
に述べるようにして音声を合成する。Now, on the receiving side 2/z, the above-mentioned transmission frame transmitted via the transmission path 3 is received, and audio is synthesized according to it as described below.
最初に、第3図に示す、第(1)の発明の一実施例の受
信側2について説明する。First, the receiving side 2 of an embodiment of the (1) invention shown in FIG. 3 will be described.
受信側2においては、第3図に示すように、伝送路3を
介して伝送された前記伝送フレームが。On the receiving side 2, as shown in FIG. 3, the transmission frame transmitted via the transmission path 3 is received.
復号化器20,1に次々に供給される。The signals are sequentially supplied to the decoders 20,1.
復号化器201は、これらの伝送フレームを復号化する
ことにより、送信側の各データを再生し。The decoder 201 reproduces each data on the transmitting side by decoding these transmission frames.
これらの各データをそれぞれ下記のように供給する。Each of these data is supplied as follows.
まず、再生された低域側にパラメータを低域側LPCフ
ィルタ202に供給し、同様に、再生された高域側にパ
ラメータを高域側LPCフィルタ205に供給する5ま
た。再生された有用度表示信号を出力2イン2010
’Th介して可変合成器214の可変合成制御信号と
して供給する。さらに、再生されたピッチ周波数データ
をピッチ周波数制御信号としてピッチ発生器211に供
給する。First, the reproduced low frequency side parameters are supplied to the low frequency side LPC filter 202, and similarly, the reproduced high frequency side parameters are supplied to the high frequency side LPC filter 205. Output the reproduced usefulness display signal 2 in 2010
'Th is supplied as a variable synthesis control signal to the variable synthesizer 214. Furthermore, the reproduced pitch frequency data is supplied to the pitch generator 211 as a pitch frequency control signal.
復号化器201は、さらにまた、再生された低域側短時
間平均電力を出力ライン2011 を介して、低域側
利得制御情報として低域側可変利得増幅器215に供給
する。同様に再生された高域側短時間平均電力を出力フ
イ+’−、2012t−介して高域側利得制御情報とし
て高域側可変利得増鴫器216に供給する。The decoder 201 further supplies the reproduced low-frequency short-time average power to the low-frequency variable gain amplifier 215 as low-frequency gain control information via an output line 2011. Similarly, the reproduced high-frequency short-time average power is supplied to the high-frequency variable gain increaser 216 as high-frequency gain control information via the output fins +'- and 2012t-.
さて、ピッチ発生器211はピッチ周波数データにより
指定された繰り返し周波数をもつインパルスデータを発
生し、これを擬声歪波形発生器212に供給する。Now, the pitch generator 211 generates impulse data having a repetition frequency specified by the pitch frequency data, and supplies this to the onomatopoeic distortion waveform generator 212.
擬声歪波形発生器212は、供給されたインパルスデー
タの指定する時間位置に予め定められた波形をもつ擬声
帯波形を発生する。The onomatopoeic distortion waveform generator 212 generates an onomatopoeia waveform having a predetermined waveform at a time position specified by the supplied impulse data.
すなわち、ピッチ発生器211からの出力データは、第
5図(5)に示すように、ピッチパルスの発生時点1.
o、 1,1.1,2.・・・を示す情報だけを含むデ
ータであるが、擬声歪波形発生器212.−は。That is, as shown in FIG. 5(5), the output data from the pitch generator 211 is generated at the pitch pulse generation time point 1.
o, 1, 1.1, 2. . . ., the onomatopoeic distortion waveform generator 212 . -Ha.
第5図(均に示すように、指定された各ピッチパルスの
時点を基準として、第5図(qに示すような予め定めら
れた擬声帯波形をもつ擬声帯波形動全発生する。この擬
声歪波形発生器212は、ROM(読出し専用メモリ)
に予め定めた擬声帯波形データ全書き込んでおき、各ピ
ッチパルスの発生時点ごとにこのROMの内容を順次読
み出すことにより容易に実現することができる。この擬
声帯波形発生器212の使用は、後述する音源励振デー
タをよジ肉声に近ずけること金目的としたもので。As shown in Fig. 5, a predetermined pseudo vocal fold waveform as shown in Fig. 5 (q) is generated based on the time point of each specified pitch pulse. The voice distortion waveform generator 212 is a ROM (read-only memory)
This can be easily realized by writing all of the predetermined pseudovocal waveform data into the ROM and sequentially reading out the contents of this ROM at the time each pitch pulse is generated. The purpose of using the pseudophonic vocal cord waveform generator 212 is to make the sound source excitation data described later closer to the real voice.
場合によってはこれを省略することもできる(第5図f
B)の擬声帯波形動のかわりに第5図(5)のピッチパ
ルス列をそのまま用いることもできる)。In some cases, this can be omitted (see Figure 5 f).
The pitch pulse train shown in FIG. 5 (5) can also be used as is in place of the onomatopoeia waveform movement shown in B).
さて、擬声帯波形発生器212の出力は、一方ではライ
ン2120 t−介して可変合成器214の一方の入力
信号として供給され、もう一方では2イン2121 ’
i介して低域側可変利得増幅器215の入力に供給され
る。Now, the output of the pseudophonic waveform generator 212 is fed as one input signal of the variable synthesizer 214 via the line 2120 t- on the one hand and the 2-in 2121' on the other hand.
It is supplied to the input of the low-band side variable gain amplifier 215 via the input signal I.
可変合成器214は一方ではライン2120 を介して
供給される前述の擬声帯波形動と、他方では雑音発生器
213からライン2130 e介して供給される雑音デ
ータとを、ライン2010 を介して供給される有声度
表示信号による前記可変合成制御信号の制御に応答して
可変合成する。The variable synthesizer 214 receives, on the one hand, the aforementioned onomatoid waveform motion supplied via line 2120 and, on the other hand, the noise data supplied from the noise generator 213 via line 2130e via line 2010. variable synthesis is performed in response to control of the variable synthesis control signal by the voicing level indicating signal.
すなわち1合成器214は、擬声帯波形発生器212の
出力Pに荷重係数WP全掛け、また雑音発生器213の
出力Nに荷重係数WNを掛けて両者を加算し、出力Eを
E =WP P+WN N
として合成するが、この荷重係数WpおよびWtiは、
有声度表示信号の予め定めた関数とする。In other words, the 1 synthesizer 214 multiplies the output P of the pseudovocal waveform generator 212 by the weighting coefficient WP, multiplies the output N of the noise generator 213 by the weighting coefficient WN, adds the two, and calculates the output E by E = WP P + WN The loading coefficients Wp and Wti are
This is a predetermined function of the voicing level indicating signal.
すなわち、荷重係数WPは有声度表示信号の表示する有
声度Vが高くなるに従って増加する特定の関数であり、
また荷重係数WNは有声度表示信号の表示する有声度■
が低くなるに従って増加する特定の関数とする。この結
果、可変合成器214の出力2140 は、有声度表示
信号の表示する有声度■が著るしく高い場合には擬声帯
波形動が雑音に比較して圧倒的に大きくなり、その結果
雑音は2無視することかで@、また逆に有声度Vが著る
しく低い場合には雑音が擬声帯波形動に比較して圧倒的
に大きくなり1その結果出力2140は雑音のみと見做
せるように合成される。こうして合成された可変合成器
214の合成出力は、出力ライン2140 を介して
高域側可変利得増幅器216の入力に供給される。That is, the weighting coefficient WP is a specific function that increases as the voicing degree V displayed by the voicing degree display signal increases,
In addition, the weighting coefficient WN is the voicing degree displayed by the voicing degree display signal.
Let it be a specific function that increases as the value decreases. As a result, in the output 2140 of the variable synthesizer 214, when the voicing degree ■ indicated by the voicing degree display signal is extremely high, the onomatopoeia waveform movement becomes overwhelmingly larger than the noise, and as a result, the noise is 2 By ignoring @, and conversely, when the voicing degree V is extremely low, the noise becomes overwhelmingly larger than the onomatopoeia waveform movement. 1 As a result, the output 2140 can be regarded as only noise. is synthesized into The combined output of the variable combiner 214 thus combined is supplied to the input of the high-frequency side variable gain amplifier 216 via an output line 2140.
さて、低域側可変利得増幅器215は、ライン2121
t−介して供給された擬声帯波形動を、ライy201
1 k介して供給された低域側短時間平均電力で荷重す
ることにより可変増幅し、これを励振信号ライン215
0 ft介して低域側LPGフィルタ202に音源励振
データとして供給する。Now, the low frequency side variable gain amplifier 215 is connected to the line 2121.
The pseudovocal waveform motion supplied through the t-ray y201
1k is loaded with the low-frequency side short-time average power supplied through the excitation signal line 215.
0 ft to the low-frequency side LPG filter 202 as sound source excitation data.
また高域側可変利得増幅器216は、2イン2140金
介して供給された前述の可変合成器214の合成出力を
ライン2012 を介して供給される高域側短時間平均
電力で荷重することにより可変増幅し、これを励振信号
ライン2160 を介して高域側LPCフィルタ20
5に音源励振データとして供給する。Further, the high-frequency side variable gain amplifier 216 is made variable by loading the composite output of the variable combiner 214, which is supplied via the 2-in 2140 gold, with the high-frequency side short-time average power supplied via the line 2012. The signal is amplified and sent to the high-frequency side LPC filter 20 via the excitation signal line 2160.
5 as sound source excitation data.
さて、再生された低域側にパラメータの供給と受けた低
域側LPGフィルタ202は、その内部において、供給
されたにパラメータ金αパラメータに変換し、このαパ
ラメータt−LPCフィルタのフィルタ係数として使用
し、ライン2150 を介して供給された音源励振デ
ータと、このフィルタ係数とより低域側の音声波形デー
タを合成し。Now, the low-pass LPG filter 202 that receives the regenerated low-pass parameters converts the supplied parameters into α parameters, and uses the α parameters as filter coefficients of the t-LPC filter. and synthesizes the sound source excitation data supplied via the line 2150, this filter coefficient, and the audio waveform data on the lower frequency side.
これを低域側補間器203に供給する。This is supplied to the low frequency side interpolator 203.
前述の送信側におけるデシメートのため、こうして低域
側のにパラメータから合成された低域側音声波形データ
は、その標本化周期が正常の標本化周期の3倍になって
いる。低域側補間器203は、供給されたこの音声波形
データ11c1333[1zの低域フィルタを通すこと
によって補関し正常の標本化周期の音声波形データを作
成し、これを低域側帯域フィルタ204に供給する。Due to the aforementioned decimation on the transmitting side, the sampling period of the low-frequency audio waveform data synthesized from the low-frequency parameters is three times the normal sampling period. The low-band interpolator 203 interpolates the supplied audio waveform data 11c1333[1z by passing it through a low-pass filter to create audio waveform data with a normal sampling period, and passes this to the low-band filter 204. supply
低域側帯域フィルタ204は、供給されたデータを1例
えば300flzから1333flzまでの帯域をもつ
帯域フィルタを通すことにより不要帯域の周波数成分を
除去して低域側の音声波形データを生成し、低域高域合
成器209の一方の入力に供給する。The low band filter 204 removes frequency components in unnecessary bands by passing the supplied data through a band filter having a band from 300 flz to 1333 flz, for example, to generate low band audio waveform data. It is supplied to one input of the high frequency synthesizer 209.
一方、再生された高域側にパラメータの供給を受けた高
域側LPCフィルタ205は、その内部において、供給
されたにパラメータをαパラメータに変換し、このαパ
ラメータ(i−LPGフィルタのフィルタ係数として使
用し、2イン2160 e介して供給された音源励振デ
ータとこのフィルタ係数とより高域側の音声波形データ
を合成し、これ金高域側補間器206に供給する。On the other hand, the high-frequency side LPC filter 205 that has received the parameter on the reproduced high-frequency side converts the supplied parameter into an α parameter, and converts the α parameter (filter coefficient of the i-LPG filter) into an α parameter. The sound source excitation data supplied via the 2-in 2160e, this filter coefficient, and higher-frequency audio waveform data are synthesized, and this is supplied to the higher-frequency interpolator 206.
前述の送信側1における処理のため、高域側にパラメー
タは、もとの音声信号の1333[(zから3333B
zの成分を周波数シフトすることにより0から2000
Hzまでの帯域にうつしこれを正常の2倍の標本化周期
にデシノートした音声波形に対するにパラメータとなっ
ている。従って、このにパラメータから合成された音声
波形データは、その標本化周期が正常の標本化周期の2
倍であt)。Due to the processing on the transmitting side 1 described above, the parameters on the high frequency side are 1333[(z to 3333B) of the original audio signal.
0 to 2000 by frequency shifting the component of z
This is a parameter for a voice waveform transmitted in the band up to Hz and decinotated to a sampling period twice the normal rate. Therefore, the audio waveform data synthesized from this parameter has a sampling period that is twice the normal sampling period.
times t).
また、その周波数が1333EIzだけ低い方に周波数
シフトされた波形とガっている。Furthermore, the waveform is shifted to a lower frequency by 1333EIz.
そこで、高域側補間器206は、供給されたこの音声波
形データt’2000[1zの低域フィルタを通すこと
により補関し正常の標本化周期の音声波形データを作成
し、これを周波数変換器207に供給する。Therefore, the high-frequency interpolator 206 interpolates the supplied audio waveform data by passing it through a low-pass filter of t'2000[1z to create audio waveform data with a normal sampling period. 207.
周波数変換器207は、供給されたこの音声波形データ
に1333Elzの正弦波全損けて音声波形の周波数を
1333tlzだけシフトし、これを高域側帯域フィル
タ208に供給する。The frequency converter 207 shifts the frequency of the audio waveform by 1333 tlz by adding a sine wave total loss of 1333 Elz to the supplied audio waveform data, and supplies this to the high-frequency sideband filter 208 .
高域側帯域フィルタ208は、供給されたデータを13
33Hzから3333Elztでの帯域をもつ帯域フィ
ルタを通すことにより不要帯域の周波数成分を除去して
高域側音声波形データを生成し。The high side band filter 208 filters the supplied data to 13
By passing the signal through a bandpass filter having a band from 33Hz to 3333Elzt, frequency components in unnecessary bands are removed to generate high-frequency audio waveform data.
低域高域合成器209の他方の入力側に供給する。It is supplied to the other input side of the low and high frequency synthesizer 209.
低域高域合成器209は供給された低域側音声波形デー
タと高域側音声波形データとを加算して合成する。かく
してその出力には帯域分割線形予測型ボコーダの合成音
声データが生成され、D/A変換器および低域フィルタ
210に供給される。The low frequency high frequency synthesizer 209 adds and synthesizes the supplied low frequency audio waveform data and high frequency audio waveform data. Thus, synthesized speech data of the band-splitting linear predictive vocoder is generated at its output, and is supplied to the D/A converter and low-pass filter 210.
D/A変換器および低域フィルタ210は、供給された
合成音声データをD/A変換器によりアナログ音声信号
に変換し、さらに低域フィルタにより4000EIz以
上の成分を遮断し1合成された音声信号として出力端子
2000 より出力する。The D/A converter and low-pass filter 210 converts the supplied synthesized voice data into an analog voice signal using a D/A converter, and further blocks components of 4000 EIz or more using a low-pass filter, thereby converting the synthesized voice data into one synthesized voice signal. It is output from the output terminal 2000 as .
以上の説明より明らかなように、この実施例のボコーダ
は、音声帯域を高域側と低域側とに分割し、低域側に対
しては抽出されたピッチ周波数により制御される繰り返
し周波数をもつ擬声帯波形動(またはピッチパルス列)
を音源として用い。As is clear from the above explanation, the vocoder of this embodiment divides the audio band into a high frequency side and a low frequency side, and sets a repetition frequency controlled by the extracted pitch frequency for the low frequency side. pseudovocalic waveform movement (or pitch pulse train) with
is used as a sound source.
また高域側に対しては前記擬声帯波形動(またはピッチ
パルス列)と雑音とを可変合成したものを音源として用
いて音声合成上行なっている。Furthermore, for the high frequency side, speech synthesis is performed using a variable synthesis of the onomatopoeia waveform movement (or pitch pulse train) and noise as a sound source.
これは、音声発生機構をモデル化した場合に。This is true when modeling the sound generation mechanism.
周波数の比較的低い領域では空気振動は体積流となりピ
ッチパルスによる繰り返し構造が明瞭になるが1周波数
の比較的高い領域においては体積流とならずピッチ構造
が不明瞭となる点をより忠実にシミーレートし1合成音
声を一層肉声に近すけ自然性を改善したものである。In a relatively low frequency range, air vibration becomes a volume flow and the repetitive structure due to pitch pulses becomes clear, but in a relatively high frequency range, the air vibration does not become a volume flow and the pitch structure becomes unclear. 1 The synthesized voice is made closer to the real voice and its naturalness is improved.
以上の実施例においては、低域側の帯域と高域側の帯域
とで異なる音源構成を用いることにより。In the above embodiments, different sound source configurations are used for the low frequency band and the high frequency band.
より忠実に発声機11Bit−シーミレートしたもので
あるが、これをさらに−歩進めたものが以下に示す第(
2)の発明である。This is a more faithful 11-bit version of the voice generator, but the one that goes even further is the one shown below (
This invention is 2).
次に第(2)の発明の一実施例について図面を参照して
詳細に説明する。Next, an embodiment of the second invention will be described in detail with reference to the drawings.
本実施例の送信側1は第2図に示した第(1)の発明の
送信側の実施例と全く同一である。The transmitting side 1 of this embodiment is completely the same as the transmitting side embodiment of the invention (1) shown in FIG.
それに対して受信側2は第4図に示すように。On the other hand, the receiving side 2 is as shown in FIG.
第3図に示した第(1)の発明の受慣側の実施例のすべ
ての構成要素を含むほかに、さらにそれに加えて、音源
切替/制御部217を含んでいる。In addition to all the components of the receiving side embodiment of the invention (1) shown in FIG. 3, it also includes a sound source switching/control section 217.
この音源切替・制御部217は、その第1の入力として
擬声帯波形動を供給する擬声帯波形発生器212の出力
ライン2120 と、その第2の入力として擬声帯波形
動と雑音との合成出力を供給する可変合成器214の出
力ライン2140と、その第3の入力として復合化器2
01の復合化された有声度表示信号を供給する出力ライ
ン201゜を有し、その第1の出力として低域側可変利
得増幅器215に低域側音源情報を供給する出力ライン
2170 と、その第2の出力として高域側可変利得増
幅器216に高域側音源情報を供給する出力ライン21
71 ′t−有している。この音源切替/、制御部21
7の機能は、ライン2010 ’?介して供給される有
声度表示信号の光示する有声度Vに応答して、出力ライ
ン2170および出力ライン2171 を、入力ライン
2120および2140に対し、第6図に示すように選
択的に接続替えすることである。This sound source switching/control unit 217 has an output line 2120 of the onomatoid waveform generator 212 that supplies the onomatoid waveform motion as its first input, and a synthetic output of the onomatoid waveform motion and noise as its second input. output line 2140 of variable combiner 214 that supplies
an output line 2170 for supplying the decoded voicing level indicating signal of 01; Output line 21 supplies high-frequency side sound source information to the high-frequency side variable gain amplifier 216 as the output of 2.
71 't- has. This sound source switching/control unit 21
7 features line 2010'? In response to the optically indicated voicing level V of the voicing level indicating signal supplied through the voicing level display signal, the output line 2170 and the output line 2171 are selectively reconnected to the input lines 2120 and 2140 as shown in FIG. It is to be.
すなわち、ライン2010t−介して供給される有角度
表示信号の表示する有角度Vに対し、予め定めた二つの
スレシホールド値vhおよびVlをvh>vzなるよう
に選び、有角度Vがvh″2v〉vlなる範囲にあると
きは、これを中位の有角度領域にあるとして、この場合
には低域側可変利得増幅器215に入力するライン21
70 を擬声音波形列を供給するライン2120に接続
し、かつ高域側可変利得増幅器216に入力する2イン
2171 を擬声帯波形列と雑音との合成出力を供給す
るライン2140に接続する。この結果、中位の有角度
の領域では、第(1)の発明の実施例と同様に、低域側
の励振音源としては擬声帯波形列が用いられ、ま実高域
側の励振音源としては擬声帯波形列と雑音との合成出力
が用いられることになる。That is, for the angular V displayed by the angular display signal supplied via the line 2010t, two predetermined threshold values vh and Vl are selected such that vh>vz, and the angular V is vh''. When the range is 2v>vl, this is considered to be in the middle angular region, and in this case, the line 21 input to the low frequency side variable gain amplifier 215
70 is connected to a line 2120 that supplies an onomatopoeic waveform train, and a 2-in 2171 that is input to the high-frequency side variable gain amplifier 216 is connected to a line 2140 that supplies a combined output of an onomatopoeic waveform train and noise. As a result, in the medium angular region, similar to the embodiment of the first aspect of the invention, the onomatoid waveform array is used as the excitation sound source on the low-frequency side, and as the excitation sound source on the real high-frequency side. The synthesized output of the onomatopoeia waveform sequence and noise is used.
これに対して、有角度Vがv>vhの範囲にあるときは
、これを高位の有角度の領域にあると定義して、この場
合には低域側および高域側に入力するそれぞれの2イン
2170およびライン2171ともに擬声帯波形列金供
給するライン2120に接続する。この結果、高位の有
角度の領域では低域側および高域側とも同じ励振音源と
して擬声帯波形列が用いられる。On the other hand, when the angular V is in the range v>vh, this is defined as being in a high angular region, and in this case, each input to the low frequency side and the high frequency side 2-in 2170 and line 2171 are both connected to line 2120 that supplies the pseudophonic waveform train. As a result, in the high-level angular region, the onomatopoeic band waveform sequence is used as the same excitation sound source on both the low-frequency side and the high-frequency side.
さらにまた、有角度VがV<Vlの範囲にあるときはこ
れを低位の有角度の領域にあると定義して、この場合に
は低域側および高域側に入力するそれぞれのライン21
70 およびライン2171ともに擬声帯波形列と雑音
との合成出力を供給するライン2140に接続する。こ
の結果低位の有角度の領域では、低域側および高域側と
も、に同じ励振音源として擬声帯波形列と雑音とが合成
された合成出力が用いられる。Furthermore, when the angular V is in the range of V<Vl, this is defined as being in a low angular region, and in this case, each line 21 input to the low frequency side and the high frequency side
70 and line 2171 are both connected to line 2140 which supplies a composite output of the onomatopoeia waveform sequence and noise. As a result, in the low angular region, a synthesized output in which the onomatoid waveform sequence and noise are synthesized as the same excitation sound source is used on both the low-frequency side and the high-frequency side.
以上のように1本実施例を用いると、有角度に応答し低
域側および高域側に対し、第(1)の発明の実施例より
もさらに一層適切な励振音源を供給することができる。As described above, when this embodiment is used, it is possible to respond in an angular manner and supply an even more appropriate excitation sound source to the low and high frequency sides than the embodiment of the first invention. .
なお1以上の第(1)および第(2)の発明の実施例に
おいては、伝送帯域を高域側と低域側とに2分割しただ
けであるが、この分割数をさらに増し、これら分割した
帯域を低群側に属する帯域と高群側に属する帯域とに区
別し、低群側に属する帯域に対しては、その音源として
対応する上述の実施例の低域側に対する音源と同じ構成
の音源を用い。In addition, in the embodiments of the inventions (1) and (2), the transmission band is only divided into two parts, the high-band side and the low-band side. The frequency band is divided into a band belonging to the low group side and a band belonging to the high group side, and for the band belonging to the low group side, the sound source is the same as the corresponding sound source for the low frequency side in the above embodiment. Using the sound source.
また高群側に属する帯域に対しては対応する上述の実施
例の高域側に対する音源と同じ構成の音源を用いるよう
にすることもできる。Furthermore, for the band belonging to the high group side, a sound source having the same configuration as the sound source for the high band side in the corresponding embodiment described above may be used.
また、高域側と低域側とを分離するのに使用した133
3[1zの分割周波数は単なる一例でありこれに限るも
のではない。Also, the 133 used to separate the high-frequency side and the low-frequency side
The division frequency of 3[1z is merely an example and is not limited to this.
同様に、デシメートの比率も一例金示したにすぎない。Similarly, the decimate ratio is just an example.
また、制御された繰り返し周波数をもつ音源波形として
は、すでに説明したように、擬声帯波形列またはピッチ
パルス列を用いることができる。Furthermore, as the sound source waveform having a controlled repetition frequency, an onomatopoeia waveform sequence or a pitch pulse sequence can be used, as already explained.
また1以上に述べた各実施例においては、送信側で帯域
分割を行なうに当って、まず全帯域のパワースペクトラ
ムを求めこれを各帯域に分割したが、このかわりに時間
軸上で取り扱かい、入力波形を帯域フィルタを用いて分
割してから周波数シフトにより基底帯域におとし、この
波形を帯域幅に応じて、デシメートしてから線形予測分
析を行なうという構成をとることもできる。Furthermore, in each of the embodiments described above, when performing band division on the transmitting side, the power spectrum of the entire band is first obtained and divided into each band, but instead of this, it is handled on the time axis. It is also possible to adopt a configuration in which the input waveform is divided using a bandpass filter and then converted into a base band by frequency shifting, and this waveform is decimated according to the bandwidth before linear predictive analysis is performed.
さらにまた1以上の各実施例の合成側においては、低域
側および高域側で判別に時間軸上の出力波形を求め、こ
れを時間軸上で合成したが、このかわりに以下に示すよ
うに周波数領域で合成してから時間軸上の波形を生成す
るようにすることもできる。Furthermore, on the synthesis side of each of the above embodiments, output waveforms on the time axis were obtained for discrimination on the low-frequency side and high-frequency side, and these were synthesized on the time axis, but instead of this, as shown below. It is also possible to generate waveforms on the time axis after synthesizing them in the frequency domain.
すなわち、復号化器201で再生した低域側および高域
側のにパラメータを用い低域側および高域側のスペクト
トル包絡を演算し、これと、再生した低域側および高域
側短時間平均電力情報(ライン2011およびライン2
012 )とにより全、帯域自己相関係数を算出する
。この全帯域自己相関係数から線形予測分析により全帯
域のαパラメータを算出し、このαパラメータ全フィル
タ係数とする全帯域LPCフィルタ全構成する。また。That is, the spectral envelopes of the low and high frequency sides are calculated using the parameters of the low and high frequency sides reproduced by the decoder 201, and the short-term averages of the reproduced low and high frequency sides are calculated. Power information (Line 2011 and Line 2
012) to calculate the total and band autocorrelation coefficients. α parameters for all bands are calculated from the all-band autocorrelation coefficients by linear prediction analysis, and all band LPC filters are constructed using this α parameter as all filter coefficients. Also.
前述の低域側および高域側の短時間平均電力情報と低域
側および高域側のスペクトル包絡情報とより全帯域予測
残差電力を算出し、これf:、前述の全帯域LPCフィ
ルタに励振信号を供給する全帯域可変利得増幅器の利得
制御信号として用いる。A full-band predicted residual power is calculated from the short-time average power information on the low-band side and high-band side and spectral envelope information on the low-band side and high-band side, and this is applied to the full-band LPC filter described above. Used as a gain control signal for the full-band variable gain amplifier that supplies the excitation signal.
一方、この全帯域可変利得増幅器の入力に用いる音源情
報を下記のようにして生成する。すなわち、前述の実施
例の低域側可変利得増幅器215に供給すべき信号i″
なわちライン2121 またはライン2170 )t
’sいったん5%定の低域側帯域特性をもつ低域側音源
帯域フィルタを通した出力と、前述の実施例の高域側可
変利得増幅器216に供給すべき信号(丁なわち2イン
214゜またはライン2171 )を、いったん、特
定の高域側帯域特性をもつ高域側音源帯域フィルタを通
した出力とを加算により合成し、これを前述の全帯域可
変利得増幅器の入力音源情報として供給する。On the other hand, sound source information to be used as an input to this full-band variable gain amplifier is generated as follows. That is, the signal i″ to be supplied to the low-frequency side variable gain amplifier 215 of the above-described embodiment
That is, line 2121 or line 2170 )t
's output once passed through a low-frequency sound source band filter having a constant low-frequency band characteristic of 5%, and a signal to be supplied to the high-frequency variable gain amplifier 216 of the above-mentioned embodiment (i.e., 2-in 214゜ or line 2171) is combined with the output passed through a high-frequency sound source band filter having specific high-frequency side band characteristics by addition, and this is supplied as input sound source information to the above-mentioned full-band variable gain amplifier. do.
上述のような方法をとることにより、各帯域のにパラメ
ータ情報を周波数領域で合成するような処理形式をとる
実施例が得られる。なお、上述の低域側音源帯域フ、イ
ル゛りおよび高域側音源帯域フィルタの帯域特性を可変
とし、これを復号化した有声度表示信号(ライン201
0 )’if:用いて有声度に応答して最適な帯域特
性になるように制御することもできる。By employing the method described above, an embodiment can be obtained in which a processing format is employed in which parameter information for each band is synthesized in the frequency domain. In addition, the band characteristics of the above-mentioned low-side sound source band filter, illumination, and high-side sound source band filter are made variable, and the voicing degree display signal (line 201
0)'if: can also be used to control the optimal band characteristics in response to the degree of voicing.
以上のように、本発明を用いると帯域分割型ボコーダの
合成音を肉声の構造に近すけ、自然性を改善するという
効果がある。As described above, the present invention has the effect of making the synthesized sound of the band-splitting vocoder closer to the structure of the real voice and improving its naturalness.
【図面の簡単な説明】
第1図は第(1)および第(2)の発明の一実施例の全
体の構成を示すブロック図、第2図は前記実施例の送信
側の詳細を示すブロック図、第3図は第(1)の発明の
前記実施例の受信側の詳細を示すプロヴク図、第4図は
第(2)の発明の前記実施例の受信側の詳細を示すブロ
ック図、第5図(5)は〈ツチパ、ルス列を、第5図(
Blは擬声帯波形動を、また第5図(qは擬声帯波形を
それぞれ説明するためのタイムチャート、第6図は前記
第4図に使用されている音源切替/制御部217の動作
を説明するための図である。
図において、1・・・・・・送信側、2・・・・・・第
(1)の発明の実施例の受信側、2・・・・・・第(2
)の発明の実施例の受信側、3・・・・・・伝送路、1
01・・・・・・低域フィルタおよびA/D変換器、1
02・・・・・・ウィンドウ処理器、toa・・・・・
・フーリエ変換器、104・・・・・・パワースペクト
ラムメモリ、105・・・・・・低域側自己相関係数計
測器、106・・・・・・低域側線形予測係数分析器、
107・・・・・・高域側自己相関係数計測器、108
・・・・・・高域側線形予測係数分析器、109・・・
・・・有声度計測器、110・・・・・・ピッチ抽出器
、111・・・・・・符号イヒ器、201・・・・・・
復号化器、202・・・・・・低域側LPCフィルタ、
203・・・・・・低域側補間器。
204・・・・・・低域側帯域フィルタ% 205・・
・・・・高域側LPCフィルタ、206・・・・・・高
域側補間器。
207・・・・・・周波数変換器、208・・・・・・
高域側帯域フィルタ、209・・・・・・低域高域合成
器、210・・・・・・D/A変換器および低域フィル
タ、211・・・・・・ピッチ発生器、212・・・・
・・擬声帯波形発生器。
213・・・・・・雑音発生器、214・・・・・・可
変合成器。
215・・・・・・低域側可変利得増幅器、216・・
・・・・高域側可変利得増幅器、217・・・・・・音
源切替/制御部。
図面の浄i!)(内容に哀史なし)
図面の浄8(内容に哀史なし゛1
\ □□□ 口振
手、続補正書動んン
特許庁長官 殿
1、事件の表示 昭和57年特 許願第0959
29号2、発明の名称 帯域分割型ボコーダ3、補正
をする者
事件との関係 出 願 人東京都港区芝五
丁目33番1号
(423) 日本電気株式会社
代表者 関本忠弘
4、代理人
〒108 東京都港区芝五丁目37番8号 住人三田
ビルに;
ロ駒背4コn2旺崎之0)
C補正の対象
図 面
Z 補正の内容
図面第3図および力4図を本補正書添付の図面第3図お
よび第4図のとおり補圧する01
代理人 弁理士 内 原 晋 −口+−[BRIEF DESCRIPTION OF THE DRAWINGS] FIG. 1 is a block diagram showing the overall configuration of an embodiment of the invention (1) and (2), and FIG. 2 is a block diagram showing details of the transmitting side of the embodiment. FIG. 3 is a proof diagram showing details of the receiving side of the embodiment of the invention (1), and FIG. 4 is a block diagram showing details of the receiving side of the embodiment of the invention (2). Figure 5 (5) shows the 〈Tschipa, Rus sequence, Figure 5 (
Bl is a time chart for explaining the onomatopoeia waveform movement, and FIG. 5 is a time chart for explaining the onomatopoeia waveform. FIG. In the figure, 1... the transmitting side, 2... the receiving side of the embodiment of the (1)th invention, 2... the (2nd)
) Receiving side of the embodiment of the invention, 3... Transmission line, 1
01...Low pass filter and A/D converter, 1
02...Window processor, toa...
・Fourier transformer, 104...Power spectrum memory, 105...Low band side autocorrelation coefficient measuring device, 106...Low band side linear prediction coefficient analyzer,
107...High frequency side autocorrelation coefficient measuring device, 108
...High frequency side linear prediction coefficient analyzer, 109...
...voicedness measuring instrument, 110...pitch extractor, 111...signature device, 201...
Decoder, 202...Low band side LPC filter,
203...Low frequency side interpolator. 204...Low band filter% 205...
...High-frequency side LPC filter, 206...High-frequency side interpolator. 207... Frequency converter, 208...
High band side band filter, 209...Low frequency synthesizer, 210...D/A converter and low pass filter, 211...Pitch generator, 212... ...
...Vocal fold waveform generator. 213...Noise generator, 214...Variable synthesizer. 215...Lower side variable gain amplifier, 216...
. . . High-frequency side variable gain amplifier, 217 . . . Sound source switching/control unit. Purification of drawings! ) (There is no sad history in the content) Drawings 8 (There is no sad history in the content \ □□□ Handshake, continuation of the amendment.) Director of the Japan Patent Office 1, Indication of the case 1982 Patent Application No. 0959
No. 29 No. 2, Title of the invention Bandwidth-splitting vocoder 3, Relationship to the amended case Applicant 5-33-1 Shiba, Minato-ku, Tokyo (423) NEC Corporation Representative Tadahiro Sekimoto 4, Agent Address: 108, 37-8 Shiba 5-chome, Minato-ku, Tokyo Resident Mita Building; Rokomansori 4kn2 Ozakino 0) Drawings subject to C correction Plane Z Contents of correction Mainly correct drawings 3 and 4 01 Agent Patent Attorney Susumu Uchihara -Kuchi+-
Claims (2)
群側の帯域に対しては制御された繰り返し周波数をもつ
波形列を音源としまた予め定めた高群側の帯域に対して
は制御された繰9返し周波数をもつ波形列と雑音とを音
源として音声合成を行なう手段を有することを特徴とす
る帯域分割型ボコーダ。(1) The audio transmission band is divided into multiple bands, and a waveform train with a controlled repetition frequency is used as the sound source for the predetermined low group side band, and for the predetermined high group side band. A band division type vocoder comprising means for performing speech synthesis using a waveform sequence having a controlled repetition frequency and noise as sound sources.
め定めた中位の範囲にある有声音については予め定めた
低群側の帯域に対しては制御式れた繰り返し周波数をも
つ波形列を音源としまた予め定めた高群側の帯域に対し
ては制御された繰夛返し周波数をもつ波形列と雑音とを
音源として音声合成を行ない。 有声度が前記中位の範囲よりも高い範囲の有声音につい
ては前記低群側の帯域および前記高群側の帯域いずれに
対しても前記制御された繰り返し周波数をもつ波型列を
音源として音声合成を行ない。 有声度が前記中位の範囲よりも低い範囲の有声音につい
ては前記低群側の帯域および前記高群側の帯域いずれに
対しても前記制御された繰り返し周波数をもつ波形列と
雑音とを音源として音声合成を行なう手段を有すること
を特徴とする帯域分割型ボコーダ。(2) The audio transmission band is divided into multiple bands, and for voiced sounds whose degree of voicing is in a predetermined medium range, a predetermined low group side band has a controlled repetition frequency. Speech synthesis is performed using a waveform train as a sound source and, for a predetermined high group side band, a waveform train with a controlled repetition frequency and noise as sound sources. For voiced sounds whose voicing degree is higher than the medium range, the waveform train having the controlled repetition frequency is used as a sound source for both the low group side band and the high group side band. Perform synthesis. For voiced sounds in a range whose voicing degree is lower than the medium range, the waveform sequence and noise having the controlled repetition frequency are used as sound sources for both the low group side band and the high group side band. What is claimed is: 1. A band-splitting vocoder, characterized in that it has means for performing speech synthesis.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57095929A JPS58211797A (en) | 1982-06-04 | 1982-06-04 | Band split type vocoder |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57095929A JPS58211797A (en) | 1982-06-04 | 1982-06-04 | Band split type vocoder |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS58211797A true JPS58211797A (en) | 1983-12-09 |
JPH0229236B2 JPH0229236B2 (en) | 1990-06-28 |
Family
ID=14150955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57095929A Granted JPS58211797A (en) | 1982-06-04 | 1982-06-04 | Band split type vocoder |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS58211797A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6428700A (en) * | 1987-07-23 | 1989-01-31 | Oki Electric Ind Co Ltd | Voice analyzer/synthesizer |
-
1982
- 1982-06-04 JP JP57095929A patent/JPS58211797A/en active Granted
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6428700A (en) * | 1987-07-23 | 1989-01-31 | Oki Electric Ind Co Ltd | Voice analyzer/synthesizer |
Also Published As
Publication number | Publication date |
---|---|
JPH0229236B2 (en) | 1990-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8738369B2 (en) | Enhancing performance of spectral band replication and related high frequency reconstruction coding | |
JP3566652B2 (en) | Auditory weighting apparatus and method for efficient coding of wideband signals | |
JP4662673B2 (en) | Gain smoothing in wideband speech and audio signal decoders. | |
JP4843124B2 (en) | Codec and method for encoding and decoding audio signals | |
KR100427753B1 (en) | Method and apparatus for reproducing voice signal, method and apparatus for voice decoding, method and apparatus for voice synthesis and portable wireless terminal apparatus | |
KR100615480B1 (en) | Speech bandwidth extension apparatus and speech bandwidth extension method | |
JPH10149199A (en) | Voice encoding method, voice decoding method, voice encoder, voice decoder, telephon system, pitch converting method and medium | |
TW201541452A (en) | High-band signal coding using multiple sub-bands | |
JPH0439679B2 (en) | ||
JPH10124089A (en) | Processor and method for speech signal processing and device and method for expanding voice bandwidth | |
JPS58211797A (en) | Band split type vocoder | |
KR20050061579A (en) | Transcoder and coder conversion method | |
JPS58211795A (en) | Linear forecast type voice analyzer/synthesizer | |
JPH0235994B2 (en) | ||
Shoham | Low complexity speech coding at 1.2 to 2.4 kbps based on waveform interpolation | |
JPS60260100A (en) | Voice synthesizer | |
KR0141167B1 (en) | Nonvoice synthesizing method | |
JPH0449960B2 (en) | ||
JPS5850357B2 (en) | Speech analysis and synthesis device | |
JPH08160993A (en) | Sound analysis-synthesizer | |
JP2973966B2 (en) | Voice communication device | |
JPH0235998B2 (en) | ||
JPS61236600A (en) | Pattern matching vocoder | |
JPH0659700A (en) | Voice data compressor | |
JPS6087400A (en) | Multipulse type voice code encoder |