JP4087823B2 - Wideband voice restoration method and wideband voice restoration apparatus - Google Patents

Wideband voice restoration method and wideband voice restoration apparatus Download PDF

Info

Publication number
JP4087823B2
JP4087823B2 JP2004220335A JP2004220335A JP4087823B2 JP 4087823 B2 JP4087823 B2 JP 4087823B2 JP 2004220335 A JP2004220335 A JP 2004220335A JP 2004220335 A JP2004220335 A JP 2004220335A JP 4087823 B2 JP4087823 B2 JP 4087823B2
Authority
JP
Japan
Prior art keywords
narrowband
wideband
signal
sound source
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004220335A
Other languages
Japanese (ja)
Other versions
JP2004355018A (en
Inventor
裕久 田崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004220335A priority Critical patent/JP4087823B2/en
Publication of JP2004355018A publication Critical patent/JP2004355018A/en
Application granted granted Critical
Publication of JP4087823B2 publication Critical patent/JP4087823B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To obtain a wide-band voice restoration device for restoring a high quality wide-band voice signal by estimating a correct amplitude and stable wide-band sound source from a narrow-band voice or a narrow-band voice code without being much influenced by differences among speakers, and noise. <P>SOLUTION: The wide-band voice restoration device is provided with a narrow-band sound source decoding means for generating a narrow-band synthesized sound by using a narrow-band voice code, a spectrum decoding means for estimating a wide-band spectrum parameter by using a narrow-band spectrum code separated from the narrow-band voice code, a wide-band sound source decoding means for estimating a wide-band sound source signal by using a narrow-band sound source code separated from the narrow-band voice code, and a synthesis means for generating the wide-band voice signal from these developed narrow-band synthesized sound, the wide-band spectrum parameter estimated above, and the wide-band sound source signal. <P>COPYRIGHT: (C)2005,JPO&amp;NCIPI

Description

この発明は、帯域制限された狭帯域音声信号や、狭帯域音声信号を符号化した狭帯域音声符号から広帯域の音声信号を復元する広帯域音声復元装置に関するものである。   The present invention relates to a wideband speech restoration apparatus that restores a wideband speech signal from a narrowband speech signal whose bandwidth is limited or a narrowband speech code obtained by encoding a narrowband speech signal.

狭帯域音声信号の一例として、現在の電話音声がある。電話システムでは音声信号は約300Hzから3.4KHzの帯域に制限されて伝送されており、帯域制限がない場合に比べると、貧弱で籠った感じの音質となっている。高品質化するためには広帯域の音声信号を伝送できる電話システムを構築することが考えられるが、多くの時間と経費が必要である。   An example of a narrowband audio signal is current telephone audio. In the telephone system, the audio signal is transmitted by being limited to a band of about 300 Hz to 3.4 KHz, and the sound quality is poor and ugly as compared with the case where there is no band limitation. In order to improve the quality, it is conceivable to construct a telephone system capable of transmitting a wide-band audio signal, but much time and cost are required.

電話帯域に制限された狭帯域音声から広帯域音声信号を復元する広帯域音声復元方法として考えられた従来のものに、特開平6−118995号がある。   Japanese Patent Laid-Open No. 6-118995 is known as a conventional wideband voice restoration method for restoring a wideband voice signal from narrowband voice limited to a telephone band.

特開平6−118995号は、狭帯域音声信号をLPC分析してスペクトルパラメータを算出し、このスペクトルパラメータを狭帯域符号帳を用いてベクトル量子化する。そして、狭帯域符号帳と対応づけて学習した広帯域符号帳を用いて広帯域のスペクトルパラメータを復号する。このスペクトルパラメータを用いてLPC合成処理を行い、仮の広帯域音声信号を得る。狭帯域音声信号をアップサンプリングしたものに、仮の広帯域音声信号から狭帯域音声信号以外の帯域成分を抽出して加算することで、最終的な広帯域音声信号を生成する。なお、広帯域のLPC合成処理を行う場合には、広帯域の音源信号が必要となるが、この音源信号の生成方法については具体的に開示されていない。   Japanese Patent Laid-Open No. 6-118995 calculates spectrum parameters by performing LPC analysis on a narrowband speech signal, and vector-quantizes the spectrum parameters using a narrowband codebook. Then, wideband spectral parameters are decoded using the wideband codebook learned in association with the narrowband codebook. An LPC synthesis process is performed using this spectral parameter to obtain a provisional broadband audio signal. A final wideband audio signal is generated by extracting and adding a band component other than the narrowband audio signal from the temporary wideband audio signal to the upsampled narrowband audio signal. Note that, when performing wideband LPC synthesis processing, a wideband sound source signal is required, but a method for generating this sound source signal is not specifically disclosed.

特開平6−118995号と同じ構成を持ち、広帯域の音源信号生成について開示されている文献として、文献1「コードブックマッピングによる狭帯域音声から広帯域音声の復元」電子情報通信学会、信学技報SP93-61 (1993-08) がある。   Reference 1 “Reconstruction of Wideband Speech from Narrowband Speech Using Codebook Mapping” has the same configuration as Japanese Patent Laid-Open No. 6-118995 and is disclosed for generation of a wideband sound source signal, IEICE, IEICE Technical Report. There is SP93-61 (1993-08).

この文献1では、広帯域の音源生成方法として2つの方法が開示されている。   This document 1 discloses two methods as a broadband sound source generation method.

第1の方法は、狭帯域音声を分析して得られたピッチとパワーを用いて、同業者間では一般的な方法によって音源生成を行う。すなわち、有声音ではピッチ周期で繰り返すインパルス列、無声音では白色雑音を生成し、パワーによってその振幅を決定する。   The first method uses a pitch and power obtained by analyzing narrowband speech to generate a sound source by a common method among those skilled in the art. That is, an impulse train that repeats with a pitch period is generated for voiced sound, and white noise is generated for unvoiced sound, and its amplitude is determined by power.

なお文献1では、音質改善のために幾つかの後処理を行っている。300Hz以下の低域を復元する場合には、復元帯域のパワー不足を補うために低域復元音のパワーを低数倍する。3.4Hzから7.3KHzの高域を復元する場合には、インパルス列を音源としたことによって発生するパルス的な音を軽減するためにパルスをつぶすようにcosine関数をかける。   In Document 1, some post-processing is performed to improve sound quality. When restoring a low frequency of 300 Hz or less, the power of the low frequency restoration sound is multiplied by a few times to compensate for the power shortage of the restoration band. When restoring the high frequency range from 3.4 Hz to 7.3 KHz, a cosine function is applied so as to crush the pulse in order to reduce the pulse-like sound generated by using the impulse train as the sound source.

第2の方法は、狭帯域音声信号のスペクトルパラメータをベクトル量子化し、得られた符号に対応する狭帯域の代表波形素片と高域の代表波形素片を選択する。そして、この2つの波形素片に対して以下の処理を行う。波形素片の有声無声を判定し、有声音の場合には狭帯域音声信号を分析して得られたピッチに同期して前記波形素片を重ね合わせる。無声音の場合には、波形素片のランダムな位置から必要な長さの信号を切り出す。狭帯域波形素片から上記処理によって生成された信号と狭帯域スペクトルパラメータを用いて合成された合成音と狭帯域音声のパワー比を算出する。そして、高域波形素片から上記処理によって生成された信号と広帯域のスペクトルパラメータを用いて合成音を生成し、これに前記パワー比を乗ずることで高域の復元信号を得る。   In the second method, the spectral parameters of the narrowband speech signal are vector-quantized, and a narrowband representative waveform segment and a highband representative waveform segment corresponding to the obtained code are selected. Then, the following processing is performed on the two waveform segments. The voiced voice of the waveform segment is determined, and in the case of voiced sound, the waveform segment is superimposed in synchronization with the pitch obtained by analyzing the narrowband speech signal. In the case of an unvoiced sound, a signal having a required length is cut out from a random position of the waveform segment. The power ratio between the synthesized sound and the narrowband speech synthesized from the narrowband waveform segment using the signal generated by the above process and the narrowband spectrum parameter is calculated. Then, a synthesized sound is generated from the high-frequency waveform segment using the signal generated by the above processing and a broadband spectral parameter, and a high-frequency restored signal is obtained by multiplying this by the power ratio.

利用分野が異なるが、音源信号の帯域を広げる別の方法として、文献2「 A 2.4Kbps High−Qaulity Speech Coder 」IEEE International Conference on Acoustics, Speech, and Signal Processing vol.1, S9.5, pp. 589-592 (1991.5) に開示されているものがある。   Although the field of use is different, as another method of expanding the band of the sound source signal, Reference 2 “A 2.4 Kbps High-Qaulity Speech Coder” IEEE International Conference on Acoustics, Speech, and Signal Processing vol.1, S9.5, pp. 589-592 (1991.5).

文献2は、電話帯域音声を高能率に符号化し、復号化する方式に関するもので、符号化する際の音源の情報量を削減するために、0Hzから3.4KHzの音源信号を長周期予測分析し、長周期予測係数と長周期予測残差信号に分離する。0Hzから3.4KHzの長周期予測残差信号を0Hzから1KHzに帯域制限して符号化を行う。そして、復号化する際に帯域制限された長周期予測残差信号から3.4KHzまでの電話帯域の長周期予測残差信号を生成した後、長周期合成処理を行って音源信号を復元するものである。長周期予測残差信号の復元は、0Hzから1KHzの成分を持つ信号を8KHzのサンプリング周波数にアップサンプリングした後、4サンプル間隔で残し、それ以外を零にすることで行っている。
特開平06−118995号公報 特開昭63−034600号公報 特開平05−297898号公報
Reference 2 relates to a method for efficiently encoding and decoding telephone band speech, and in order to reduce the amount of sound source information during encoding, a long-period prediction analysis of a sound source signal from 0 Hz to 3.4 KHz is performed. And separating into a long-period prediction coefficient and a long-period prediction residual signal. The long period prediction residual signal from 0 Hz to 3.4 KHz is band-limited from 0 Hz to 1 KHz and encoded. Then, after generating a long-period prediction residual signal of the telephone band up to 3.4 KHz from the long-period prediction residual signal whose band is limited when decoding, a long-period synthesis process is performed to restore the sound source signal It is. The long-period prediction residual signal is restored by up-sampling a signal having a component from 0 Hz to 1 KHz to a sampling frequency of 8 KHz, leaving it at an interval of 4 samples, and setting the rest to zero.
Japanese Patent Laid-Open No. 06-118995 Japanese Unexamined Patent Publication No. 63-034600 JP 05-297898 A

上記の従来法には、以下に述べる課題がある。   The above conventional methods have the following problems.

特開平6−118995号と、別の文献ではあるが、その具体的実用例を開示している文献1では、大別して次の4つの課題、つまり音源振幅推定、音源生成方法、スペクトルパラメータ推定法、通信系への適用に関する課題がある。   Japanese Patent Laid-Open No. 6-118995, which is another document, but in Document 1, which discloses a specific practical example, is roughly divided into the following four problems: sound source amplitude estimation, sound source generation method, spectrum parameter estimation method There is a problem related to application to communication systems.

まず、第1の音源振幅推定に関して説明する。   First, the first sound source amplitude estimation will be described.

文献1の第1の音源生成方法を用いる場合、復元音の合成に用いるパワーについては、狭帯域音声を分析して得られたパワー値をそのまま、もしくは定数倍して用いているが、狭帯域のスペクトルパラメータと推定された広帯域のスペクトルパラメータでは合成フィルタの利得が異なるので、同一の音源振幅を与えても得られる合成音の振幅が異なって来る。この差異がフレーム毎に変化するため、音源振幅、つまりパワー値を定数倍する事では、正しい振幅を持った広帯域音声は復元されない課題がある。   When the first sound source generation method of Document 1 is used, the power value obtained by analyzing the narrowband speech is used as it is or by multiplying the power used for synthesizing the restored sound. Since the gain of the synthesis filter is different between the estimated spectrum parameter and the estimated broadband spectrum parameter, the amplitude of the synthesized sound is different even when the same sound source amplitude is given. Since this difference changes from frame to frame, there is a problem that broadband sound having the correct amplitude cannot be restored by multiplying the sound source amplitude, that is, the power value by a constant.

また、文献1の第2の音源生成方法を用いる場合、狭帯域合成音を生成して狭帯域音声とのパワー比を算出して、高域合成音に乗じているが、2つの波形素片に対して複雑な処理を実行する事が必要となる課題がある。   In addition, when the second sound source generation method of Document 1 is used, a narrowband synthesized sound is generated and a power ratio with the narrowband speech is calculated and multiplied by the highband synthesized sound. However, there is a problem that requires complicated processing to be executed.

つぎに、第2の音源生成方法に関して説明する。   Next, the second sound source generation method will be described.

文献1の第1の音源生成方法を用いる場合、ピッチとパワーという僅かな情報だけで広帯域音源信号の生成を行うので、様々に変化する本来の広帯域音源を十分に推定する事はできない。この結果、cosine関数によってパルス的な音の軽減を行っているが、完全にパルス的な音の抑圧はできず、音質が不自然となる課題がある。また、話者毎に大きく性質が異なる有声音源を1つの固定音源で表現する事に無理があるため、話者によって音質が劣化する課題がある。   In the case of using the first sound source generation method of Document 1, since a wide-band sound source signal is generated with only a small amount of information such as pitch and power, it is not possible to sufficiently estimate the original wide-band sound source that changes in various ways. As a result, although the pulse-like sound is reduced by the cosine function, there is a problem that the sound quality is unnatural because the pulse-like sound cannot be completely suppressed. In addition, since it is impossible to express a voiced sound source having greatly different characteristics for each speaker with one fixed sound source, there is a problem that sound quality deteriorates depending on the speaker.

文献1の第2の音源生成方法を用いる場合、スペクトルパラメータのベクトル量子化結果の符号に対応する代表波形素片を用いているが、本来スペクトルパラメータは声道の形状に依存し、音源波形は声帯の振動の仕方に依存するものであるので、両者の間に強い対応関係は無い。音源波形は、むしろ話者に依存する所が大きい。従って、適切な音源が選択されない課題がある。   When using the second sound source generation method of Document 1, the representative waveform segment corresponding to the sign of the vector quantization result of the spectral parameter is used, but the spectral parameter originally depends on the shape of the vocal tract, and the sound source waveform is Since it depends on how the vocal cords vibrate, there is no strong correspondence between them. The sound source waveform is rather dependent on the speaker. Therefore, there is a problem that an appropriate sound source is not selected.

文献1中に記載されている様に、この第2の音源生成法を用いた場合には、有声音であるにもかかわらず無声音の波形素片を選択したり、逆に無声音であるにもかかわらず有声音の波形素片を選択してしまう場合があり、そのまま合成を行うと品質劣化を起こす課題がある。この事を回避するために、その部分でのパワー比を強制的に0としているが、この結果、復元された高域の振幅が部分的に0となってしまい別の品質劣化を起こす課題がある。   As described in Document 1, when this second sound source generation method is used, a waveform segment of an unvoiced sound is selected even though it is a voiced sound. Regardless, there is a case where a waveform segment of voiced sound is selected, and there is a problem in that quality degradation occurs if synthesis is performed as it is. In order to avoid this, the power ratio in that portion is forcibly set to 0, but as a result, the restored high-frequency amplitude becomes partially 0, causing another quality degradation. is there.

更に、どちらの音源生成法においても、有声無声判定、ピッチ抽出誤りが起こった場合の品質劣化が避けられないという課題がある。特に、雑音が重畳した狭帯域音声信号に対して適用した場合に、判定誤り、抽出誤りが増大し、大きな劣化が起こる課題がある。   Furthermore, in both sound source generation methods, there is a problem that quality degradation is unavoidable when a voiced / unvoiced determination or pitch extraction error occurs. In particular, when applied to a narrowband audio signal on which noise is superimposed, there is a problem that determination errors and extraction errors increase, resulting in significant degradation.

また、有声音と無声音の2つのモードしかないため、中間的な性質を持つ音源が十分表現できず、有声音と無声音の境界部分において品質劣化が起こる課題がある。   Moreover, since there are only two modes of voiced sound and unvoiced sound, a sound source having an intermediate property cannot be expressed sufficiently, and there is a problem that quality degradation occurs at the boundary portion between voiced sound and unvoiced sound.

つぎに第3のスペクトルパラメータ推定方法に関して説明する。   Next, a third spectral parameter estimation method will be described.

特開平6−118995号と文献1では、2つの符号帳を利用したベクトル量子化と逆量子化を行っているが、符号帳を蓄積しておくメモリが必要である事、量子化処理のための多くの演算量が必要である事が課題である。   In Japanese Patent Application Laid-Open No. 6-118995 and Document 1, vector quantization and inverse quantization using two codebooks are performed. However, a memory for storing the codebooks is necessary, because of quantization processing. The problem is that a large amount of computation is required.

また、雑音、無声音、有声音の区別はパワーによってしやすく、かつそれらの区別によって狭帯域のスペクトルパラメータと広帯域のスペクトルパラメータの対応関係は変化する。しかしながら、何れの場合も、スペクトルパラメータとパワーを独立に扱っているので、広帯域のスペクトルパラメータの推定にパワーに関する情報が反映されていない。このため、狭帯域のスペクトルの形状が類似していれば、パワーの大小に関係なく、同様な広帯域スペクトルが推定されてしまう課題がある。   Further, noise, unvoiced sound, and voiced sound can be easily distinguished by power, and the correspondence between the narrowband spectral parameter and the wideband spectral parameter changes depending on the distinction. However, in any case, since spectral parameters and power are handled independently, information on power is not reflected in the estimation of broadband spectral parameters. For this reason, if the shapes of narrow-band spectra are similar, there is a problem that a similar wide-band spectrum is estimated regardless of the magnitude of power.

最後に第4の通信系への適用に関して説明する。   Finally, application to the fourth communication system will be described.

特開平6−118995号と文献1の方法を通信系へ適用する場合、受信した音声符号から狭帯域合成音を復号した後、この狭帯域合成音を再分析して広帯域音声信号を復元する事となるが、スペクトルパラメータと音源情報が分離・符号化されて伝送されてくる場合には、その音声符号を直接利用して広帯域音声信号を復元する方が効率的と考えられる。つまり、特開平6−118995号と文献1の方法は再分析が必要である点で非効率である課題がある。また、合成と再分析を行って得られるパラメータには、合成時の補間や分析時の窓掛等による歪が重畳しており、広帯域音声の品質劣化もある。   When applying the method of Japanese Patent Laid-Open No. 6-118995 and Document 1 to a communication system, after decoding a narrowband synthesized sound from the received speech code, the narrowband synthesized sound is reanalyzed to restore the wideband speech signal. However, when spectral parameters and sound source information are transmitted after being separated and encoded, it is considered more efficient to restore the wideband audio signal by directly using the audio code. That is, the method disclosed in Japanese Patent Laid-Open No. 6-118995 and Document 1 has a problem that it is inefficient in that it requires reanalysis. In addition, distortions due to interpolation during synthesis and windowing during analysis are superimposed on parameters obtained by synthesis and reanalysis, and there is also a deterioration in the quality of wideband speech.

この他、特開平6−118995号と文献1では、一般に合成音の雑音感の低減や了解性の改善のために導入される信号加工処理を付加していないため、復元された広帯域音声信号の音質が不足する場合にその改善をする事ができない課題がある。   In addition, Japanese Patent Laid-Open No. 6-118995 and Document 1 do not add signal processing that is generally introduced for reducing noise or improving intelligibility of the synthesized sound, so There is a problem that cannot be improved when the sound quality is insufficient.

また、通信系へ適用する場合、狭帯域合成音に対して信号加工処理が適用されることがあり、加工された狭帯域音声信号と加工されていない広帯域音声信号を重畳するために、両者の音質の連続性が悪くなる課題がある。   In addition, when applied to a communication system, signal processing may be applied to narrowband synthesized sound. In order to superimpose a processed narrowband audio signal and an unprocessed wideband audio signal, There is a problem that continuity of sound quality deteriorates.

文献2の方法では、0Hzから1KHzを狭帯域、0Hzから3.4KHzを広帯域と考えれば、広帯域の音源信号推定を行っていることになるが、前記した通りこの方式は広帯域の音声信号を入力とし、これを分析して得たパラメータを符号化し、復号化して広帯域合成音を得るものであり、狭帯域の音声信号、または狭帯域の音声信号から抽出されたパラメータから広帯域の音声信号を復元する方法を開示したものではない。   In the method of Reference 2, if a narrow band is considered from 0 Hz to 1 KHz and a wide band is considered from 0 Hz to 3.4 KHz, wide-band sound source signal estimation is performed. As described above, this method inputs a wide-band audio signal. The parameters obtained by analyzing this are encoded and decoded to obtain a wideband synthesized sound, and the wideband speech signal is restored from the narrowband speech signal or the parameters extracted from the narrowband speech signal. It does not disclose how to do this.

以下に述べる実施例は、かかる課題を解決するためになされたものであり、狭帯域音声からより正しい振幅を持った広帯域音声信号を復元する広帯域音声復元装置を実現する事を目的としている。   The embodiment described below is made to solve such a problem, and aims to realize a wideband speech restoration apparatus that restores a wideband speech signal having a more correct amplitude from narrowband speech.

また、比較的簡単な処理の広帯域音源振幅の推定処理を持った広帯域音声復元装置を実現する事を目的としている。   It is another object of the present invention to realize a wideband speech restoration apparatus having a broadband sound source amplitude estimation process of relatively simple processing.

更に、話者に依存性が少なく、有声無声境界付近でも良好な広帯域音源を推定し、安定で自然な音質の広帯域音声を復元する広帯域音声復元装置を実現する事を目的としている。   It is another object of the present invention to realize a wideband speech restoration apparatus that estimates a wideband sound source that is less dependent on a speaker and is good even near a voiced and unvoiced boundary, and restores wideband speech with stable and natural sound quality.

また、雑音が重畳した狭帯域音声信号に対して起こりがちな有声無声判定誤りやピッチ抽出誤りの影響の少ない広帯域音声復元装置を実現する事を目的としている。   Another object of the present invention is to realize a wideband speech restoration apparatus that is less affected by voiced / unvoiced judgment errors and pitch extraction errors that tend to occur on narrowband speech signals with superimposed noise.

更に、通信系へ適用した場合に、再分析を行わずに効率良く広帯域音声の復元を行う広帯域音声復元装置を実現する事を目的としている。   It is another object of the present invention to realize a wideband speech restoration apparatus that efficiently restores wideband speech without reanalysis when applied to a communication system.

更に、復元された広帯域音声信号の音質が不足する場合にその改善を可能とし、狭帯域合成音に対して信号加工処理が適用される場合に、加工された狭帯域連続性が良い広帯域音声信号が得られる広帯域音声復元装置を実現する事を目的としている。   Furthermore, when the sound quality of the restored wideband audio signal is insufficient, it can be improved, and when the signal processing is applied to the narrowband synthesized sound, the processed wideband audio signal with good narrowband continuity The purpose is to realize a wideband speech restoration apparatus that can obtain the above.

この発明に係る広帯域音声復元方法は、狭帯域スペクトル符号から狭帯域スペクトルパラメータを復号し、この復号した狭帯域スペクトルパラメータのスペクトル包絡の高域を広帯域スペクトルパラメータのスペクトル包絡の高域に反映させて広帯域スペクトルパラメータを出力するスペクトル復号ステップと、
この出力された広帯域スペクトルパラメータを用いて広帯域音声信号を生成する合成ステップを備えたことを特徴とする。
この発明に係る広帯域音声復元装置は、狭帯域スペクトル符号から狭帯域スペクトルパラメータを復号し、この復号した狭帯域スペクトルパラメータのスペクトル包絡の高域を広帯域スペクトルパラメータのスペクトル包絡の高域に反映させて広帯域スペクトルパラメータを出力するスペクトル復号手段と、
この出力された広帯域スペクトルパラメータを用いて広帯域音声信号を生成する合成手段を備えたことを特徴とする。
The wideband speech restoration method according to the present invention decodes a narrowband spectral parameter from a narrowband spectral code, and reflects the high band of the spectral envelope of the decoded narrowband spectral parameter in the high band of the spectral envelope of the wideband spectral parameter. A spectral decoding step of outputting wideband spectral parameters;
A synthesis step of generating a wideband audio signal using the output wideband spectrum parameter is provided.
The wideband speech restoration apparatus according to the present invention decodes a narrowband spectral parameter from a narrowband spectral code, and reflects the high frequency band of the decoded narrowband spectral parameter in the high band of the wideband spectral parameter. Spectral decoding means for outputting wideband spectral parameters;
A synthesizing means for generating a wideband audio signal using the output wideband spectrum parameter is provided.

実施例1.
本発明の一実施例を図に基づいて説明する。
Example 1.
An embodiment of the present invention will be described with reference to the drawings.

本実施例は、主として広帯域音源信号の生成をより正しい形で復元する構成と動作を説明するものである。   The present embodiment mainly explains the configuration and operation for restoring the generation of the broadband sound source signal in a more correct form.

図1は本発明の実施例1の広帯域音声復元装置の構成図である。図において、1は入力の狭帯域音声信号、2は分析手段、3はスペクトル分析手段、4は狭帯域スペクトルパラメータ、5は逆フィルタ、6は狭帯域音源信号、7は広帯域スペクトル推定手段、8はベクトル量子化手段、9は狭帯域スペクトル符号帳、10はスペクトル符号、11は逆量子化手段、12は広帯域スペクトル符号帳、13は広帯域スペクトルパラメータである。14は本実施例での重要な新規構成要素である広帯域音源推定手段、15はその具体例としての零詰手段、16は広帯域音源信号、17は合成手段としての合成フィルタ、18は帯域フィルタ、19はアップサンプリング手段、20は広帯域音声信号である。   FIG. 1 is a configuration diagram of a wideband speech restoration apparatus according to Embodiment 1 of the present invention. In the figure, 1 is an input narrowband speech signal, 2 is analysis means, 3 is spectrum analysis means, 4 is narrowband spectrum parameters, 5 is an inverse filter, 6 is a narrowband sound source signal, 7 is wideband spectrum estimation means, 8 Is a vector quantization means, 9 is a narrowband spectrum codebook, 10 is a spectrum code, 11 is an inverse quantization means, 12 is a broadband spectrum codebook, and 13 is a broadband spectrum parameter. 14 is a wideband sound source estimation means that is an important new component in this embodiment, 15 is a zero padding means as a specific example thereof, 16 is a wideband sound source signal, 17 is a synthesis filter as a synthesis means, 18 is a bandpass filter, 19 is an upsampling means, and 20 is a wideband audio signal.

また、図2は、零詰手段15の処理を説明する信号説明図である。   FIG. 2 is a signal explanatory diagram for explaining the processing of the zero padding means 15.

以下、図1と図2を用いて本発明の実施例1の動作について説明する。   Hereinafter, the operation of the first embodiment of the present invention will be described with reference to FIGS.

まず、例えば8KHzでサンプリングされ、300Hzから3.4KHzの電話帯域に制限された狭帯域音声信号1が分析手段2とアップサンプリング手段19に入力される。分析手段2内のスペクトル分析手段3は、狭帯域音声信号1を分析して狭帯域スペクトルパラメータ4を算出し、分析手段2内の逆フィルタ5と広帯域スペクトル推定手段7内に出力する。なお、狭帯域スペクトルパラメータ4としては、線形予測係数、LSP、PARCOR係数、ケプストラム等様々なものが適用可能である。逆フィルタ5は、狭帯域スペクトルパラメータ4を用いて狭帯域音声信号1を逆フィルタリングし、得られた狭帯域音源信号6を広帯域音源推定手段14内に出力する。   First, for example, a narrowband audio signal 1 sampled at 8 KHz and limited to a telephone band from 300 Hz to 3.4 KHz is input to the analysis unit 2 and the upsampling unit 19. The spectrum analysis means 3 in the analysis means 2 analyzes the narrowband speech signal 1 to calculate a narrowband spectrum parameter 4 and outputs it to the inverse filter 5 and the wideband spectrum estimation means 7 in the analysis means 2. As the narrow band spectrum parameter 4, various parameters such as a linear prediction coefficient, an LSP, a PARCOR coefficient, and a cepstrum can be applied. The inverse filter 5 performs inverse filtering on the narrowband sound signal 1 using the narrowband spectrum parameter 4 and outputs the obtained narrowband sound source signal 6 into the wideband sound source estimation means 14.

広帯域スペクトル推定手段7内のベクトル量子化手段8は、狭帯域スペクトル符号帳9を用いて前記狭帯域スペクトルパラメータ4をベクトル量子化し、得られたスペクトル符号10を広帯域スペクトル推定手段7内の逆量子化手段11に出力する。逆量子化手段11は、広帯域スペクトル符号帳12を用いてスペクトル符号10を逆量子化し、得られた広帯域スペクトルパラメータ13を合成フィルタ17に出力する。   The vector quantization means 8 in the wideband spectrum estimation means 7 vector-quantizes the narrowband spectrum parameter 4 using the narrowband spectrum codebook 9 and the obtained spectrum code 10 is inversely quantized in the wideband spectrum estimation means 7. Output to the conversion means 11. The inverse quantization means 11 inversely quantizes the spectrum code 10 using the broadband spectrum codebook 12 and outputs the obtained broadband spectrum parameter 13 to the synthesis filter 17.

なお、この広帯域スペクトル推定手段7内の処理は、文献1と同様であり、狭帯域スペクトル符号帳9と広帯域スペクトル符号帳12の生成法や、ベクトル量子化の方法に関する詳細な説明を省略する。   The processing in the wideband spectrum estimation means 7 is the same as that in Document 1, and detailed description regarding the generation method of the narrowband spectrum codebook 9 and the broadband spectrum codebook 12 and the vector quantization method is omitted.

本実施例の重要部分である広帯域音源推定手段14内の零詰手段15は、狭帯域音源信号6の各サンプル値間にM−1サンプルずつ零を挿入し、得られたM倍のサンプル数の信号を広帯域音源信号16として合成フィルタ17に出力する。ここで、Mは、復元する広帯域音声信号のサンプリング周波数を、狭帯域音声信号のサンプリング周波数で除した値であり、この実施例では、Mが2の場合について説明する。図2(a)は、Nサンプルの狭帯域音源信号6である。この信号に対して、零詰手段15による零詰め処理を行うと、M−1サンプル、つまり1サンプルずつの零が各サンプル間に挿入されて、図2(b)に示す2Nサンプルの広帯域音源信号16が得られる。Mが2の零詰め処理を行うと、広帯域音声信号のサンプリング周波数の半分の周波数、つまり4KHzを中心にして、0Hzから4KHzと対称のスペクトルが4KHzから8KHzに復元される。   The zero padding means 15 in the wideband sound source estimation means 14, which is an important part of the present embodiment, inserts zero M-1 samples between each sample value of the narrowband sound source signal 6, and the number of samples obtained is M times. Is output to the synthesis filter 17 as a broadband sound source signal 16. Here, M is a value obtained by dividing the sampling frequency of the restored wideband audio signal by the sampling frequency of the narrowband audio signal. In this embodiment, a case where M is 2 will be described. FIG. 2A shows an N sample narrowband sound source signal 6. When zero padding processing is performed on this signal by the zero padding means 15, M-1 samples, that is, zeros of one sample are inserted between the samples, and a 2N-sample wide-band sound source shown in FIG. A signal 16 is obtained. When M is zero-padded, a spectrum that is symmetric from 0 Hz to 4 KHz is restored from 4 KHz to 8 KHz, centering on half the sampling frequency of the wideband audio signal, that is, 4 KHz.

合成フィルタ17は、広帯域スペクトルパラメータ13を用いて広帯域音源信号16に合成フィルタ処理を行い仮の広帯域音声信号を生成する。帯域フィルタ18は、この仮の広帯域音声信号に対して、帯域通過フィルタ処理を行い、狭帯域音声の成分の存在する帯域以外の成分を抽出する。広帯域音声信号の帯域が0Hzから7.3KHzの場合、0Hzから300Hzと3.4KHzから7.3KHzの成分が抽出される。   The synthesis filter 17 performs synthesis filter processing on the broadband sound source signal 16 using the broadband spectrum parameter 13 to generate a temporary broadband audio signal. The band filter 18 performs band pass filter processing on the provisional wideband audio signal to extract components other than the band in which the narrowband audio component exists. When the band of the wideband audio signal is from 0 Hz to 7.3 KHz, components from 0 Hz to 300 Hz and 3.4 KHz to 7.3 KHz are extracted.

アップサンプリング手段19は、狭帯域音声信号1をM倍にアップサンプリングする。アップサンプリングによって生成される信号は、サンプリング周波数が広帯域音声信号20と同じで、狭帯域音声信号1と同じ狭帯域成分を持つものである。そして、帯域フィルタ18の出力とアップサンプリング手段19の出力を加算して広帯域音声信号20を生成する。   The upsampling means 19 upsamples the narrowband audio signal 1 M times. The signal generated by the upsampling has the same narrowband component as the narrowband audio signal 1 with the same sampling frequency as the wideband audio signal 20. Then, the output of the band filter 18 and the output of the upsampling means 19 are added to generate a wideband audio signal 20.

本来狭帯域音源信号と広帯域音源信号は、同一の発声器官から生成された音源信号の特徴を反映しているので、ピッチ周波数の高調波成分の強さ、高調波成分間の雑音的成分の強さ等の音源信号の特徴において相関がある。つまり、狭帯域音源信号がピッチ周波数の高調波成分が強い規則的な特徴を持っている場合には、広帯域音源信号も同様にピッチ周波数の高調波成分が強い規則的な特徴を持っているし、逆に狭帯域音源信号が雑音的な成分が強い特徴を持っている場合には、広帯域音源信号も同様に雑音的な成分が強い特徴を持っている。   Originally, the narrowband sound source signal and the wideband sound source signal reflect the characteristics of the sound source signal generated from the same vocal organ, so the strength of the harmonic component of the pitch frequency and the strength of the noise component between the harmonic components There is a correlation in the characteristics of the sound source signal such as. In other words, if the narrowband sound source signal has regular features with strong pitch frequency harmonic components, the wideband sound source signal has the same regular features with strong pitch frequency harmonic components. On the other hand, when the narrow-band sound source signal has a strong noise component, the broadband sound source signal has a strong noise component.

この実施例の様に広帯域音源推定手段を構成する事により、低域の0〜4KHzの狭帯域音源信号と同様の特徴を持つ0〜8KHzの広帯域音源信号を生成する事ができるので、話者に依存性が少なく、安定で自然な音質の広帯域音声を復元することができる効果がある。   By configuring the wideband sound source estimation means as in this embodiment, it is possible to generate a 0-8 KHz wideband sound source signal having the same characteristics as the low frequency 0-4 KHz narrowband sound source signal. There is an effect that it is possible to restore wide-band sound with a stable and natural sound quality.

また、従来例のように有声無声判定やピッチ抽出が必要なく、本構成により自ずと中間的な性質の音源も表現できるので、雑音が重畳した狭帯域音声信号に対して起こりがちな有声無声判定誤りやピッチ抽出誤りの影響がなく、有声無声境界付近でも良好な広帯域音源を推定することができ、安定で自然な音質の広帯域音声を復元することができる効果がある。   Also, unlike the conventional example, voiced / unvoiced judgment and pitch extraction are not required, and this structure can naturally represent a sound source with intermediate characteristics, so voiced / unvoiced judgment errors that tend to occur for narrowband speech signals with superimposed noise In addition, it is possible to estimate a good broadband sound source near the voiced and unvoiced boundary without being affected by the error of the pitch extraction and the pitch extraction, and to restore the broadband sound having a stable and natural sound quality.

実施例2.
図3は本発明の実施例2の広帯域音声復元装置における音源推定手段14の構成図である。図において新規な部分は、21の音源分析手段、22の狭帯域適応符号帳、23の歪最小化手段、24の狭帯域駆動音源信号、25の狭帯域適応ラグ長、26の狭帯域適応ゲイン、27の広帯域駆動音源推定手段、28の零詰手段、29の広帯域駆動音源信号、30の広帯域適応音源推定手段、31の広帯域適応音源符号帳、32の広帯域適応音源信号、33の広帯域適応ラグ長、34の広帯域適応ゲインである。全体構成は、図1と同じであるので、構成の記載と図3以外の部分の動作の説明を省略する。
Example 2
FIG. 3 is a configuration diagram of the sound source estimation unit 14 in the wideband speech restoration apparatus according to the second embodiment of the present invention. The novel parts in the figure are 21 sound source analysis means, 22 narrowband adaptive codebook, 23 distortion minimizing means, 24 narrowband drive sound source signal, 25 narrowband adaptive lag length, and 26 narrowband adaptive gain. 27 broadband drive excitation estimation means, 28 zero padding means, 29 broadband drive excitation signal, 30 broadband adaptive excitation estimation means, 31 broadband adaptive excitation codebook, 32 broadband adaptive excitation signal, 33 broadband adaptive lag Long, 34 wideband adaptive gain. Since the entire configuration is the same as that in FIG. 1, description of the configuration and description of operations other than those in FIG. 3 are omitted.

本構成によれば、広帯域音源信号が更によりよく復元できる。   According to this configuration, the broadband sound source signal can be restored even better.

以下、図3を用いて本発明の一実施例の動作について説明する。   The operation of one embodiment of the present invention will be described below with reference to FIG.

狭帯域音源信号6が広帯域音源推定手段14内の音源分析手段21に入力される。音源分析手段21内の狭帯域適応符号帳22には、過去の狭帯域音源信号6が記憶されており、後述する歪最小化手段23が順次出力するラグ長に従って、ラグ長が整数値である場合には記憶してある過去の狭帯域音源信号6をこのラグ長で繰り返して得られる信号を出力する。ラグ長が非整数値である場合には、文献3「 Pitch Predictors with High Temporal Resolution 」IEEE International Conference on Acoustics, Speech, and Signal Processing vol.2, S12.6, pp.661-664 (1990.4) に記載されているようにポリフェイズフィルタ出力により信号を生成し、出力する。出力する信号の長さは、現在の狭帯域音源信号6と同じ長さである。   The narrow band sound source signal 6 is input to the sound source analysis means 21 in the wide band sound source estimation means 14. The narrowband adaptive codebook 22 in the sound source analyzing means 21 stores the past narrowband sound source signal 6, and the lag length is an integer value according to the lag length sequentially output by the distortion minimizing means 23 described later. In this case, a signal obtained by repeating the stored past narrowband sound source signal 6 with this lag length is output. If the lag length is a non-integer value, refer to Reference 3 “Pitch Predictors with High Temporal Resolution” IEEE International Conference on Acoustics, Speech, and Signal Processing vol.2, S12.6, pp.661-664 (1990.4). A signal is generated and output by the polyphase filter output as described. The length of the output signal is the same as that of the current narrowband sound source signal 6.

図4に、狭帯域適応符号帳22内に記憶されている過去の狭帯域音源信号6と、入力されたラグ長に従って出力される信号の例を示す。   FIG. 4 shows an example of a past narrowband excitation signal 6 stored in the narrowband adaptive codebook 22 and a signal output according to the input lag length.

図において、横軸は時間で矢印方向に時間が経過することを示す。(A1),(B1)は従って音源信号の時間的な長さを示し、(A2),(B2)は20〜128等、出力される時間に対して正規化されたラグ長を示し、(A3),(B3)は出力される音源信号の例を示す。   In the figure, the horizontal axis indicates that time elapses in the arrow direction. (A1) and (B1) indicate the time length of the sound source signal, (A2) and (B2) indicate the lag length normalized with respect to the output time, such as 20 to 128, ( A3) and (B3) show examples of output sound source signals.

図4(a)は出力信号の長さがラグ長より短い場合を示し、その場合にはラグ長の最初から出力信号時間T1の長さの音源信号(A3)を過去の音源信号に引続いて出力する。ラグ長が出力する信号の長さよりもT2のように短い時には、図4(b)に示す様に複数回同じ音源信号(B3)を繰り返して過去の音源信号に続いて出力する。   FIG. 4A shows a case where the length of the output signal is shorter than the lag length. In this case, the source signal (A3) having the output signal time T1 from the beginning of the lag length is continued to the past source signal. Output. When the lag length is shorter than the length of the output signal, such as T2, the same sound source signal (B3) is repeated a plurality of times and output following the past sound source signal, as shown in FIG. 4B.

歪最小化手段23は、前記狭帯域適応符号帳22に対して複数のラグ長の値を順次出力し、各ラグ長に対して狭帯域適応符号帳22が出力した信号にゲインを乗じた信号と狭帯域音源信号6との歪が最小になるようにそのゲインを決定していく。そして、全てのラグ長に中で歪を最小にするものを選択し、狭帯域適応ラグ長25として広帯域適応音源推定手段30に出力する。また、その時のゲインの値を狭帯域適応ゲイン26として広帯域適応音源推定手段30に出力し、狭帯域適応符号帳22が出力した信号に狭帯域適応ゲイン26を乗じた信号と狭帯域音源信号6の誤差信号を狭帯域駆動音源信号24として広帯域駆動音源推定手段27に出力する。なお、歪最小化手段23内でのゲインの決定方法としては、一般に知られているラグランジュの未定係数法を用いる事ができる。   The distortion minimizing means 23 sequentially outputs a plurality of lag length values to the narrowband adaptive codebook 22, and a signal obtained by multiplying each lag length by a signal output from the narrowband adaptive codebook 22 And the gain of the narrow-band sound source signal 6 are determined so as to minimize the distortion. Then, all the lag lengths that minimize the distortion are selected and output to the wideband adaptive sound source estimation means 30 as the narrowband adaptive lag length 25. Further, the value of the gain at that time is output to the wideband adaptive excitation estimation means 30 as the narrowband adaptive gain 26, and the signal output by the narrowband adaptive codebook 22 is multiplied by the narrowband adaptive gain 26 and the narrowband excitation signal 6. Is output to the wideband drive sound source estimation means 27 as the narrowband drive sound source signal 24. As a method of determining the gain in the distortion minimizing means 23, a generally known Lagrangian undetermined coefficient method can be used.

即ち歪最小化手段23は、狭帯域音源信号6と狭帯域適応符号帳22出力を入力とし、狭帯域適応音源符号である歪最小のラグ長25とゲイン26と、誤差信号の狭帯域駆動音源信号24を出力する。   That is, the distortion minimizing means 23 receives the narrowband sound source signal 6 and the output of the narrowband adaptive codebook 22 as input, and has a distorted minimum lag length 25 and gain 26 which are narrowband adaptive sound source codes, and a narrowband driving sound source of the error signal. The signal 24 is output.

広帯域駆動音源推定手段27内の零詰手段28は、狭帯域駆動音源信号24の各サンプル値間にM−1サンプルずつ零を挿入し、得られたM倍のサンプル数の信号を広帯域駆動音源信号29として出力する。ここで、Mは、復元する広帯域音声信号のサンプリング周波数を、狭帯域音声信号のサンプリング周波数で除した値であり、零を挿入する動作は前記零詰手段15と同じである。   The zero padding means 28 in the wideband driving sound source estimating means 27 inserts zero M-1 samples between each sample value of the narrowband driving sound source signal 24, and the obtained M times sample signal is the wideband driving sound source. Output as signal 29. Here, M is a value obtained by dividing the sampling frequency of the restored wideband audio signal by the sampling frequency of the narrowband audio signal, and the operation of inserting zero is the same as the zero padding means 15.

広帯域適応音源推定手段30内では、まず狭帯域適応ラグ長25をM倍して広帯域適応ラグ長33とし、狭帯域適応ゲイン26をg倍して広帯域適応ゲイン34とする。gを1とすると最終的に得られる広帯域音源信号16のピッチ周期性が狭帯域音源信号6と同等となり、1から小さくしていくにつれて狭帯域音源信号6に比べてピッチ周期性が弱くなっていく。実際の音声を観察すると、周波数が高い部分ほどピッチ周期性が弱くなっていく場合がおおいので、高域を復元する場合にgを1より小さい値に設定するとより高品質な広帯域音声が復元できる。   In the wideband adaptive sound source estimation means 30, first, the narrowband adaptive lag length 25 is multiplied by M to obtain the wideband adaptive lag length 33, and the narrowband adaptive gain is multiplied by g to obtain the wideband adaptive gain. When g is 1, the pitch periodicity of the finally obtained wideband sound source signal 16 is equivalent to that of the narrowband sound source signal 6, and the pitch periodicity becomes weaker than that of the narrowband sound source signal 6 as the value is decreased from 1. Go. Observing the actual speech, the pitch periodicity often becomes weaker as the frequency becomes higher. Therefore, when restoring the high frequency, if g is set to a value smaller than 1, higher quality broadband speech can be restored. .

広帯域適応音源推定手段30内の広帯域適応音源符号帳31には、過去の広帯域音源信号16が記憶されており、この信号を前記広帯域適応ラグ長33で繰り返して得られる信号を出力する。そして広帯域適応音源推定手段30内でこの信号を前記広帯域適応ゲイン34で乗算して、広帯域適応音源信号32として出力する。   The broadband adaptive excitation codebook 31 in the broadband adaptive excitation estimation means 30 stores the past broadband excitation signal 16 and outputs a signal obtained by repeating this signal with the broadband adaptive lag length 33. Then, this signal is multiplied by the broadband adaptive gain 34 in the broadband adaptive sound source estimation means 30 and output as a broadband adaptive sound source signal 32.

最後に広帯域駆動音源信号29と広帯域適応音源信号32を加算して、広帯域音源信号16として出力する。   Finally, the wide-band drive sound source signal 29 and the wide-band adaptive sound source signal 32 are added and output as the wide-band sound source signal 16.

この様に構成する事により、狭帯域音源信号の持つピッチ周期性の強さや変動に関する特徴が、狭帯域適応ラグ長25と狭帯域適応ゲイン26によって良好に表現され、広帯域音源信号に反映されるので、様々に変化する音源を十分に推定でき、パルス的な音もなく、良好な音質の広帯域音声を復元することができる効果がある。また、話者によらずに適切な音源が推定できる効果がある。   By configuring in this way, the characteristics related to the strength and fluctuation of the pitch periodicity of the narrowband sound source signal are well expressed by the narrowband adaptive lag length 25 and the narrowband adaptive gain 26, and reflected in the wideband sound source signal. Therefore, it is possible to sufficiently estimate variously changing sound sources, and there is an effect that it is possible to restore broadband sound with good sound quality without pulse-like sound. In addition, there is an effect that an appropriate sound source can be estimated regardless of the speaker.

広帯域適応音源信号32において、広帯域適応ラグ長33によって決まる基本周波数とその高調波成分の周波数が、正しく整数倍の位置に並ぶので、最終的に復元される広帯域音声信号20での狭帯域成分と復元広帯域成分のつながりが良く、高品質な広帯域音声を復元できる効果がある。   In the wideband adaptive sound source signal 32, the fundamental frequency determined by the wideband adaptive lag length 33 and the frequency of its harmonic component are correctly aligned at integer multiple positions, so that the narrowband component in the finally restored wideband audio signal 20 The restored wideband components are well connected, and high-quality wideband speech can be restored.

更に、周波数が高くなるにつれてピッチ周期性が弱くなっていく特徴を係数gによって導入する事ができるので、より自然な音質が得られる効果がある。   Furthermore, since the feature that the pitch periodicity becomes weaker as the frequency becomes higher can be introduced by the coefficient g, there is an effect that a more natural sound quality can be obtained.

また、有声無声判定やピッチ抽出が必要なく、中間的な性質の音源も表現できるので、雑音が重畳した狭帯域音声信号に対して起こりがちな有声無声判定誤りやピッチ抽出誤りの影響がなく、有声無声境界付近でも良好な広帯域音源を推定することができ、安定で自然な音質の広帯域音声を復元することができる効果がある。   In addition, voiced and unvoiced determination and pitch extraction are not necessary, and sound sources with intermediate properties can be expressed, so there is no influence of voiced and unvoiced determination errors and pitch extraction errors that tend to occur on narrowband audio signals with superimposed noise, A good broadband sound source can be estimated even near the voiced and unvoiced boundary, and there is an effect that it is possible to restore broadband sound with stable and natural sound quality.

実施例3.
図5は本発明の実施例3の広帯域音声復元装置における広帯域駆動音源推定手段27の構成図である。図において新規な部分は、35のパワー算出手段、36の雑音生成手段である。その他の構成は図1および図3と同じであるので、対応部分の動作の説明を省略する。
Example 3
FIG. 5 is a configuration diagram of the wideband drive sound source estimation means 27 in the wideband speech restoration apparatus according to the third embodiment of the present invention. The new parts in the figure are 35 power calculation means and 36 noise generation means. Since other configurations are the same as those in FIGS. 1 and 3, the description of the operation of the corresponding parts is omitted.

以下、図5を用いて本発明の実施例3の図に示された部分の動作について説明する。   Hereinafter, the operation of the portion shown in FIG. 5 according to the third embodiment of the present invention will be described with reference to FIG.

狭帯域駆動音源信号24が広帯域駆動音源推定手段27内のパワー算出手段35に入力される。パワー算出手段35は狭帯域駆動音源信号24のパワーを算出し、出力する。雑音生成手段36は、パワー正規化された白色雑音信号を生成し出力する。そして、広帯域駆動音源推定手段27内で、前記白色雑音信号にパワー算出手段35が出力したパワーを乗じ、得られた信号を広帯域駆動音源信号29として出力する。   The narrow band driving sound source signal 24 is input to the power calculating means 35 in the wide band driving sound source estimating means 27. The power calculation means 35 calculates and outputs the power of the narrow band drive sound source signal 24. The noise generator 36 generates and outputs a power-normalized white noise signal. Then, in the wideband drive sound source estimation means 27, the white noise signal is multiplied by the power output from the power calculation means 35, and the obtained signal is output as the wideband drive sound source signal 29.

ピッチ周期や周期性の強さは時々刻々変化している。狭帯域音源信号6におけるピッチ周期や周期性の強さの細かい変動分は狭帯域適応ラグ長25と狭帯域適応ゲイン26では表現できないため、その誤差が狭帯域駆動音源信号24に含まれている。実施例2のようにこの誤差成分を含む狭帯域駆動音源信号24を用いて広帯域駆動音源信号29を生成すると、広帯域駆動音源信号29に不必要な乱れが生じてしまう事があり、パワーが同じ白色雑音を生成して広帯域駆動音源信号29として用いた方が良好な復元音が得られる場合がある事を実験的に確認している。   The pitch period and the strength of periodicity change from moment to moment. Since the fine fluctuation of the pitch period and periodicity in the narrowband sound source signal 6 cannot be expressed by the narrowband adaptive lag length 25 and the narrowband adaptive gain 26, the error is included in the narrowband drive sound source signal 24. . When the wideband drive sound source signal 29 is generated using the narrowband drive sound source signal 24 including the error component as in the second embodiment, unnecessary disturbance may occur in the wideband drive sound source signal 29, and the power is the same. It has been experimentally confirmed that a better restored sound may be obtained when white noise is generated and used as the broadband driving sound source signal 29.

実施例3の様に構成する事により、狭帯域駆動音源信号24とパワーが同じ白色雑音を生成して広帯域駆動音源信号29として用いているので、実施例2が持つ効果に加えて、ピッチ周期や周期性の強さの変動分による乱れの少ない良好な復元音が得られる効果がある。   By configuring as in the third embodiment, white noise having the same power as the narrow-band driving sound source signal 24 is generated and used as the wide-band driving sound source signal 29. Therefore, in addition to the effects of the second embodiment, the pitch period In addition, there is an effect of obtaining a good restoration sound with little disturbance due to fluctuations in the intensity of periodicity.

また、零詰め処理を行うと4KHzを中心に対称なスペクトルが生成される。従って、この0Hzから300Hzと3.4KHzから4.0KHzの成分がない狭帯域駆動音源信号24に対して零詰めを行うと、0Hzから300Hz、3.4KHzから4.6KHz、7.7KHzから8KHzの成分がない信号が得られてしまう。これに対し、白色雑音を用いるこの構成では、0Hzから8KHzまで全ての成分を持つ広帯域駆動音源信号29が得られるので、全域にわたって帯域がある良好な復元音が得られる効果がある。特に0Hzから300Hzの復元を行う場合には効果が大きい。   When zero padding is performed, a symmetrical spectrum is generated around 4 kHz. Therefore, when zero padding is performed on the narrowband driving sound source signal 24 having no component of 0 Hz to 300 Hz and 3.4 KHz to 4.0 KHz, 0 Hz to 300 Hz, 3.4 KHz to 4.6 KHz, 7.7 KHz to 8 KHz. A signal having no component is obtained. On the other hand, in this configuration using white noise, the broadband driving sound source signal 29 having all components from 0 Hz to 8 KHz can be obtained, so that there is an effect that a good restoration sound having a band over the entire region can be obtained. The effect is particularly great when restoring from 0 Hz to 300 Hz.

実施例4.
図6は本発明の実施例4の広帯域音声復元装置における広帯域駆動音源推定手段27の構成図である。図において、28の零詰手段、35のパワー算出手段、36の雑音生成手段は実施例2および実施例3のものと同一である。その他の構成は図1および図3と同じであるので、図示以外の部分の動作の説明を省略する。
Example 4
FIG. 6 is a configuration diagram of the wideband drive sound source estimation means 27 in the wideband speech restoration apparatus according to the fourth embodiment of the present invention. In the figure, 28 zero padding means, 35 power calculation means, and 36 noise generation means are the same as those in the second and third embodiments. Since other configurations are the same as those in FIGS. 1 and 3, description of operations other than those illustrated is omitted.

以下、図6を用いて本発明の一実施例の動作について説明する。   Hereinafter, the operation of the embodiment of the present invention will be described with reference to FIG.

狭帯域駆動音源信号24が広帯域駆動音源推定手段27内の零詰手段28とパワー算出手段35に入力される。広帯域駆動音源推定手段27内の零詰手段28は、狭帯域駆動音源信号24の各サンプル値間にM−1サンプルずつ零を挿入し、得られたM倍のサンプル数の信号を出力する。ここで、Mは、復元する広帯域音声信号のサンプリング周波数を、狭帯域音声信号のサンプリング周波数で除した値であり、零を挿入する動作は前記零詰手段15と同じである。   The narrow band drive sound source signal 24 is input to the zero padding means 28 and the power calculation means 35 in the wide band drive sound source estimation means 27. The zero padding means 28 in the wideband drive sound source estimation means 27 inserts zero M-1 samples between the sample values of the narrowband drive sound source signal 24, and outputs a signal having the number of samples obtained M times. Here, M is a value obtained by dividing the sampling frequency of the restored wideband audio signal by the sampling frequency of the narrowband audio signal, and the operation of inserting zero is the same as the zero padding means 15.

パワー算出手段35は狭帯域駆動音源信号24のパワーを算出し、出力する。雑音生成手段36は、パワー正規化された白色雑音信号を生成し出力する。そして、零詰手段28が出力した信号にゲインgr1を乗じた信号と、雑音生成手段36が出力した白色雑音信号にパワー算出手段35が出力したパワーを乗じ、さらにゲインgr2を乗じた信号を加算して広帯域駆動音源信号29として出力する。   The power calculation means 35 calculates and outputs the power of the narrow band drive sound source signal 24. The noise generator 36 generates and outputs a power-normalized white noise signal. Then, a signal obtained by multiplying the signal output by the zero padding means 28 by the gain gr1, the white noise signal output by the noise generating means 36 and the power output by the power calculating means 35, and a signal multiplied by the gain gr2 are added. And output as a broadband driving sound source signal 29.

実施例2および実施例3による復元音が、それぞれ一長一短を有している場合、この様に構成し、gr1とgr2を適切に設定することで、両者を上回る品質の広帯域音声が復元できる得られる効果がある。なお、実施例2と実施例3と同じ効果も持っている。   When the restored sounds according to the second and third embodiments have merits and demerits, respectively, by configuring in this way and setting gr1 and gr2 appropriately, it is possible to restore wideband speech with a quality exceeding both. effective. In addition, it has the same effect as Example 2 and Example 3.

実施例5.
広帯域音源信号の良好な復元が出来る他の構成を説明する。
Example 5 FIG.
Another configuration capable of satisfactorily restoring the broadband sound source signal will be described.

図7は本発明の実施例5の広帯域音声復元装置における広帯域音源推定手段14の構成図である。図において新規な部分は、37の狭帯域長周期予測分析手段、38の狭帯域長周期遅延、39の狭帯域長周期予測係数、40の長周期逆フィルタ、41の狭帯域長周期予測残差信号、42の広帯域長周期予測残差推定手段、43の零詰手段、44の広帯域長周期予測パラメータ(符号)推定手段、45の広帯域長周期遅延、46の広帯域長周期予測係数、47の長周期合成フィルタ、48の広帯域長周期予測残差信号である。全体構成は、図1と同じであるので、説明を省略する。   FIG. 7 is a block diagram of the broadband sound source estimation means 14 in the broadband speech restoration apparatus of Embodiment 5 of the present invention. The novel parts in the figure are: 37 narrowband long period prediction analysis means, 38 narrowband long period delay, 39 narrowband long period prediction coefficient, 40 long period inverse filter, 41 narrowband long period prediction residual Signal, 42 broadband long-period prediction residual estimation means, 43 zero padding means, 44 broadband long-period prediction parameter (code) estimation means, 45 broadband long-period delay, 46 broadband long-period prediction coefficient, 47 length It is a periodical synthesis filter, 48 wideband long period prediction residual signal. The overall configuration is the same as in FIG.

以下、図7を用いて本発明の一実施例の動作について説明する。   Hereinafter, the operation of the embodiment of the present invention will be described with reference to FIG.

狭帯域音源信号6が広帯域音源推定手段14内の音源分析手段21に入力される。音源分析手段21内の狭帯域長周期予測分析手段37は、狭帯域音源信号6に対して長周期予測分析を行い、狭帯域長周期予測符号である狭帯域長周期遅延38と狭帯域長周期予測係数39を出力する。なお、長周期予測分析については、CELP系の符号化方式でしばしば用いられていた方法であるので説明を省略する。   The narrow band sound source signal 6 is input to the sound source analysis means 21 in the wide band sound source estimation means 14. The narrowband long cycle prediction analysis unit 37 in the sound source analysis unit 21 performs long cycle prediction analysis on the narrowband sound source signal 6, and a narrowband long cycle delay 38 and a narrowband long cycle which are narrowband long cycle prediction codes. The prediction coefficient 39 is output. Note that the long-period prediction analysis is a method often used in the CELP encoding method, and thus the description thereof is omitted.

音源分析手段21内の長周期逆フィルタ40は、狭帯域長周期遅延38と狭帯域長周期予測係数39を用いて狭帯域音源信号6を逆フィルタリングし、得られた信号を狭帯域長周期予測残差信号41として広帯域長周期予測残差推定手段42に出力する。   The long-period inverse filter 40 in the sound source analysis means 21 performs inverse filtering on the narrow-band sound source signal 6 using the narrow-band long-period delay 38 and the narrow-band long-period prediction coefficient 39, and the obtained signal is subjected to narrow-band long-period prediction. The residual signal 41 is output to the wideband long period prediction residual estimation means 42.

広帯域長周期予測残差推定手段42内の零詰手段43は狭帯域長周期予測残差信号41の各サンプル値間にM−1サンプルずつ零を挿入し、得られたM倍のサンプル数の信号を広帯域長周期予測残差信号48として出力する。ここで、Mは、復元する広帯域音声信号のサンプリング周波数を、狭帯域音声信号のサンプリング周波数で除した値であり、零を挿入する動作は前記零詰手段15と同じである。   The zero padding means 43 in the wideband long period prediction residual estimation means 42 inserts zero M-1 samples between each sample value of the narrowband long period prediction residual signal 41, and M times the number of samples obtained. The signal is output as a wideband long period prediction residual signal 48. Here, M is a value obtained by dividing the sampling frequency of the restored wideband audio signal by the sampling frequency of the narrowband audio signal, and the operation of inserting zero is the same as the zero padding means 15.

広帯域長周期予測パラメータ(符号)推定手段44は、狭帯域長周期遅延38をM倍して予測符号の1つである広帯域長周期遅延45を出力し、また狭帯域長周期予測係数39をg倍して他の予測符号である広帯域長周期予測係数46を出力する。gを1とすると最終的に得られる広帯域音源信号16のピッチ周期性が狭帯域音源信号6と同等となり、1から小さくしていくにつれて狭帯域音源信号6に比べてピッチ周期性が弱くなっていく。実施例2と同様に、高域を復元する場合にはgを1より小さい値に設定した方が高品質となる。   The wideband long period prediction parameter (code) estimation means 44 multiplies the narrowband long period delay 38 by M and outputs a wideband long period delay 45 which is one of the prediction codes, and also sets the narrowband long period prediction coefficient 39 as g The wideband long-period prediction coefficient 46, which is another prediction code, is output. When g is 1, the pitch periodicity of the finally obtained wideband sound source signal 16 is equivalent to that of the narrowband sound source signal 6, and the pitch periodicity becomes weaker than that of the narrowband sound source signal 6 as the value is decreased from 1. Go. Similar to the second embodiment, when restoring a high frequency band, setting g to a value smaller than 1 results in higher quality.

最後に、長周期合成フィルタ47は、広帯域長周期遅延45と広帯域長周期予測係数46を用いて、広帯域長周期予測残差信号48に対して長周期合成フィルタリングを行い、得られた信号を広帯域音源信号16として出力する。   Finally, the long-period synthesis filter 47 performs long-period synthesis filtering on the wide-band long-period prediction residual signal 48 using the wide-band long-period delay 45 and the wide-band long-period prediction coefficient 46, and the obtained signal is wide-band The sound source signal 16 is output.

この様に構成する事により、狭帯域音源信号の持つピッチ周期性の強さや変動に関する特徴が、狭帯域長周期遅延38と狭帯域長周期予測係数39によって良好に表現され、広帯域音源信号に反映されるので、様々に変化する音源を十分に推定でき、パルス的な音もなく、良好な音質の広帯域音声を復元することができる効果がある。また、話者によらずに適切な音源が推定できる効果がある。   By configuring in this way, characteristics regarding the strength and fluctuation of pitch periodicity possessed by the narrowband sound source signal are well expressed by the narrowband long period delay 38 and the narrowband long period prediction coefficient 39 and reflected in the wideband sound source signal. Therefore, it is possible to sufficiently estimate variously changing sound sources, and to restore a wide-band sound having a good sound quality without a pulse sound. In addition, there is an effect that an appropriate sound source can be estimated regardless of the speaker.

広帯域音源信号16において、広帯域長周期遅延45によって決まる基本周波数とその高調波成分の周波数が、正しく整数倍の位置に並ぶので、最終的に復元される広帯域音声信号20での狭帯域成分と復元広帯域成分のつながりが良く、高品質な広帯域音声を復元できる効果がある。   In the broadband sound source signal 16, the fundamental frequency determined by the broadband long-cycle delay 45 and the frequency of its harmonic component are correctly aligned at integer multiple positions, so that the narrowband component and the reconstruction in the finally restored broadband audio signal 20 are restored. The broadband components are well connected, and there is an effect that high-quality broadband speech can be restored.

更に、周波数が高くなるにつれてピッチ周期性が弱くなっていく特徴を係数gによって導入する事ができるので、より自然な音質が得られる効果がある。   Furthermore, since the feature that the pitch periodicity becomes weaker as the frequency becomes higher can be introduced by the coefficient g, there is an effect that a more natural sound quality can be obtained.

また、有声無声判定やピッチ抽出が必要なく、中間的な性質の音源も表現できるので、雑音が重畳した狭帯域音声信号に対して起こりがちな有声無声判定誤りやピッチ抽出誤りの影響がなく、有声無声境界付近でも良好な広帯域音源を推定することができ、安定で自然な音質の広帯域音声を復元することができる効果がある。   In addition, voiced and unvoiced determination and pitch extraction are not necessary, and sound sources with intermediate properties can be expressed, so there is no influence of voiced and unvoiced determination errors and pitch extraction errors that tend to occur on narrowband audio signals with superimposed noise, A good broadband sound source can be estimated even near the voiced and unvoiced boundary, and there is an effect that it is possible to restore broadband sound with stable and natural sound quality.

実施例6.
図8は本発明の実施例6の広帯域音声復元装置における広帯域長周期予測残差推定手段42の構成図である。図において、35のパワー算出手段、36の雑音生成手段は実施例3のものと同一である。その他の構成は図1および図7と同じであるので、説明を省略する。
Example 6
FIG. 8 is a block diagram of the wideband long period prediction residual estimation means 42 in the wideband speech restoration apparatus of Embodiment 6 of the present invention. In the figure, 35 power calculation means and 36 noise generation means are the same as those in the third embodiment. Other configurations are the same as those in FIG. 1 and FIG.

以下、図8を用いて本発明の一実施例の動作について説明する。   The operation of one embodiment of the present invention will be described below with reference to FIG.

狭帯域長周期予測残差信号41が広帯域長周期予測残差推定手段42内のパワー算出手段35に入力される。パワー算出手段35は狭帯域長周期予測残差信号41のパワーを算出し、出力する。雑音生成手段36は、パワー正規化された白色雑音信号を生成し出力する。そして、広帯域長周期予測残差推定手段42内で、前記白色雑音信号にパワー算出手段35が出力したパワーを乗じ、得られた信号を広帯域長周期予測残差信号48として出力する。   The narrowband long period prediction residual signal 41 is input to the power calculation means 35 in the wideband long period prediction residual estimation means 42. The power calculation means 35 calculates and outputs the power of the narrowband long period prediction residual signal 41. The noise generator 36 generates and outputs a power-normalized white noise signal. Then, in the wideband long period prediction residual estimation means 42, the white noise signal is multiplied by the power output from the power calculation means 35, and the obtained signal is output as a wideband long period prediction residual signal 48.

実施例3での説明と同様に、狭帯域音源信号6におけるピッチ周期や周期性の強さの細かい変動分は狭帯域長周期遅延38と狭帯域長周期予測係数39では表現できないため、その誤差が狭帯域長周期予測残差信号41に含まれている。実施例5のようにこの誤差成分を含む狭帯域長周期予測残差信号41を用いて広帯域長周期予測残差信号48を生成すると広帯域長周期予測残差信号48に不必要な乱れが生じてしまう事があり、パワーが同じ白色雑音を生成して広帯域長周期予測残差信号48として用いた方が良好な復元音が得られる場合がある。   Similar to the description in the third embodiment, the minute fluctuations in the pitch period and periodicity in the narrowband sound source signal 6 cannot be expressed by the narrowband long period delay 38 and the narrowband long period prediction coefficient 39, and therefore the error. Is included in the narrowband long period prediction residual signal 41. When the wideband long period prediction residual signal 48 is generated using the narrowband long period prediction residual signal 41 including the error component as in the fifth embodiment, unnecessary disturbance occurs in the wideband long period prediction residual signal 48. In some cases, it is possible to obtain a better restored sound when white noise having the same power is generated and used as the wideband long-period prediction residual signal 48.

実施例6の様に構成する事により、狭帯域長周期予測残差信号41とパワーが同じ白色雑音を生成して広帯域長周期予測残差信号48として用いているので、実施例5が持つ効果に加えて、ピッチ周期や周期性の強さの変動分による乱れの少ない良好な復元音が得られる効果がある。   By configuring as in the sixth embodiment, white noise having the same power as that of the narrowband long-period prediction residual signal 41 is generated and used as the wideband long-period prediction residual signal 48. In addition to this, there is an effect that a good restoration sound with little disturbance due to the fluctuation of the pitch period and the intensity of periodicity can be obtained.

また、零詰め処理を行うと4KHzを中心に対称なスペクトルが生成されるので、この0Hzから300Hzと3.4KHzから4.0KHzの成分がない狭帯域長周期予測残差信号41に対して行うと、0Hzから300Hz、3.4KHzから4.6、KHz7.7KHzから8KHzの成分がない信号が得られてしまう。これに対し、白色雑音を用いるこの構成では、0Hzから8KHzまで全ての成分を持つ広帯域長周期予測残差信号48が得られるので、不足する帯域がない良好な復元音が得られる効果がある。特に0Hzから300Hzの復元を行う場合には効果が大きい。   Further, when zero padding is performed, a symmetric spectrum is generated around 4 KHz. Therefore, this is performed for the narrowband long period prediction residual signal 41 having no components from 0 Hz to 300 Hz and 3.4 KHz to 4.0 KHz. Then, a signal having no component of 0 Hz to 300 Hz, 3.4 KHz to 4.6, and KHz 7.7 KHz to 8 KHz is obtained. On the other hand, in this configuration using white noise, the wideband long-period prediction residual signal 48 having all components from 0 Hz to 8 KHz can be obtained, so that there is an effect that a good restored sound with no insufficient band can be obtained. The effect is particularly great when restoring from 0 Hz to 300 Hz.

実施例7.
図9は本発明の実施例7の広帯域音声復元装置における広帯域長周期予測残差推定手段42の構成図である。図において、43の零詰手段、35のパワー算出手段、36の雑音生成手段は実施例5および実施例6のものと同一である。その他の構成は図1および図7と同じであるので、説明を省略する。
Example 7
FIG. 9 is a configuration diagram of the wideband long-period prediction residual estimation means 42 in the wideband speech restoration apparatus according to the seventh embodiment of the present invention. In the figure, 43 zero-filling means, 35 power calculating means, and 36 noise generating means are the same as those in the fifth and sixth embodiments. Other configurations are the same as those in FIG. 1 and FIG.

以下、図9を用いて本発明の一実施例の動作について説明する。   The operation of one embodiment of the present invention will be described below with reference to FIG.

狭帯域長周期予測残差信号41が広帯域長周期予測残差推定手段42内の零詰手段43とパワー算出手段35に入力される。広帯域長周期予測残差推定手段42内の零詰手段43は、狭帯域長周期予測残差信号41の各サンプル値間にM−1サンプルずつ零を挿入し、得られたM倍のサンプル数の信号を出力する。ここで、Mは、復元する広帯域音声信号のサンプリング周波数を、狭帯域音声信号のサンプリング周波数で除した値であり、零を挿入する動作は前記零詰手段15と同じである。   The narrowband long period prediction residual signal 41 is input to the zero padding means 43 and the power calculation means 35 in the wideband long period prediction residual estimation means 42. The zero padding means 43 in the wideband long period prediction residual estimation means 42 inserts zero M-1 samples between each sample value of the narrowband long period prediction residual signal 41, and M times the number of samples obtained. The signal is output. Here, M is a value obtained by dividing the sampling frequency of the restored wideband audio signal by the sampling frequency of the narrowband audio signal, and the operation of inserting zero is the same as the zero padding means 15.

パワー算出手段35は狭帯域長周期予測残差信号41のパワーを算出し、出力する。雑音生成手段36は、パワー正規化された白色雑音信号を生成し出力する。そして、零詰手段43が出力した信号にゲインgr1を乗じた信号と、雑音生成手段36が出力した白色雑音信号にパワー算出手段35が出力したパワーを乗じ、さらにゲインgr2を乗じた信号を加算して広帯域長周期予測残差信号48として出力する。   The power calculation means 35 calculates and outputs the power of the narrowband long period prediction residual signal 41. The noise generator 36 generates and outputs a power-normalized white noise signal. Then, a signal obtained by multiplying the signal output by the zero padding means 43 by the gain gr1, the white noise signal output by the noise generating means 36 and the power output by the power calculating means 35, and a signal multiplied by the gain gr2 are added. And output as a wideband long-period prediction residual signal 48.

実施例5および実施例6による復元音が、それぞれ一長一短を有している場合、この様に構成し、gr1とgr2を適切に設定することで、両者を上回る品質の広帯域音声が復元できる得られる効果がある。なお、実施例5と実施例6と同じ効果も持っている。   When the restored sounds according to the fifth embodiment and the sixth embodiment each have advantages and disadvantages, it is possible to recover broadband sound with a quality exceeding both by configuring in this way and appropriately setting gr1 and gr2. effective. In addition, it has the same effect as Example 5 and Example 6.

実施例8.
図10は本発明の実施例8の広帯域音声復元装置における広帯域音源推定手段14の構成図である。図において新規な部分は、49のアップサンプリング手段、50の零化手段である。全体構成は、図1と同じであるので、説明を省略する。
Example 8 FIG.
FIG. 10 is a configuration diagram of the wideband sound source estimation means 14 in the wideband speech restoration apparatus according to the eighth embodiment of the present invention. The novel parts in the figure are 49 upsampling means and 50 nulling means. The overall configuration is the same as in FIG.

以下、図10を用いて本発明の一実施例の動作について説明する。   Hereinafter, the operation of the embodiment of the present invention will be described with reference to FIG.

狭帯域音源信号6がアップサンプリング手段49に入力される。アップサンプリング手段49は、狭帯域音源信号6をM倍にアップサンプリングして、得られた信号を音源分析手段21に出力する。   The narrow band sound source signal 6 is input to the upsampling means 49. The upsampling unit 49 upsamples the narrowband sound source signal 6 M times and outputs the obtained signal to the sound source analysis unit 21.

音源分析手段21内の狭帯域長周期予測分析手段37は、アップサンプリング手段49の出力信号に対して長周期予測分析を行い、狭帯域長周期遅延38と狭帯域長周期予測係数39を出力する。なお、長周期予測分析における遅延探索範囲が実施例5の場合のM倍になる。   The narrowband long cycle prediction analysis unit 37 in the sound source analysis unit 21 performs long cycle prediction analysis on the output signal of the upsampling unit 49 and outputs a narrowband long cycle delay 38 and a narrowband long cycle prediction coefficient 39. . Note that the delay search range in the long-period prediction analysis is M times that in the fifth embodiment.

音源分析手段21内の長周期逆フィルタ40は、狭帯域長周期遅延38と狭帯域長周期予測係数39を用いて、アップサンプリング手段49の出力信号を逆フィルタリングし、得られた信号を狭帯域長周期予測残差信号41として広帯域長周期予測残差推定手段42に出力する。   The long-period inverse filter 40 in the sound source analysis means 21 uses the narrow-band long-period delay 38 and the narrow-band long-period prediction coefficient 39 to inverse-filter the output signal of the up-sampling means 49, and the obtained signal is narrow-band. The long-period prediction residual signal 41 is output to the broadband long-period prediction residual estimation means 42.

広帯域長周期予測残差推定手段42内の零化手段50は、狭帯域長周期予測残差信号41のMサンプル置きの信号のみを残し、残りの信号の値を零とする。そして、得られた信号を広帯域長周期予測残差信号48として出力する。   The zeroing means 50 in the wideband long period prediction residual estimation means 42 leaves only the signal of every M samples of the narrowband long period prediction residual signal 41 and sets the value of the remaining signal to zero. Then, the obtained signal is output as a wideband long period prediction residual signal 48.

広帯域長周期予測パラメータ推定手段44は、狭帯域長周期遅延38をそのまま広帯域長周期遅延45として出力し、狭帯域長周期予測係数39をg倍して広帯域長周期予測係数46として出力する。gについては実施例5と同様である。   The wideband long period prediction parameter estimation means 44 outputs the narrowband long period delay 38 as it is as the wideband long period delay 45, multiplies the narrowband long period prediction coefficient 39 by g, and outputs it as a wideband long period prediction coefficient 46. About g, it is the same as that of Example 5.

最後に、長周期合成フィルタ47は、広帯域長周期遅延45と広帯域長周期予測係数46を用いて、広帯域長周期予測残差信号48に対して長周期合成フィルタリングを行い、得られた信号を広帯域音源信号16として出力する。   Finally, the long-period synthesis filter 47 performs long-period synthesis filtering on the wide-band long-period prediction residual signal 48 using the wide-band long-period delay 45 and the wide-band long-period prediction coefficient 46, and the obtained signal is wide-band The sound source signal 16 is output.

この様に構成する事により、高いサンプリング周波数の信号に対して長周期分析が行えるので、より精度の高い遅延が分析できるようになり、狭帯域音源信号の持つピッチ周期性の強さや変動に関する特徴をより細かく広帯域音源信号に反映することが可能となり、様々に変化する音源を十分に推定でき、良好な音質の広帯域音声を復元することができる効果がある。なお、実施例5と同じ効果も持っている。   By configuring in this way, it is possible to perform long-period analysis on signals with a high sampling frequency, so that delays with higher accuracy can be analyzed, and characteristics regarding the strength and fluctuation of pitch periodicity of narrowband sound source signals Can be reflected more finely in the broadband sound source signal, and it is possible to sufficiently estimate variously changing sound sources and to restore broadband sound with good sound quality. It has the same effect as the fifth embodiment.

実施例9.
図11は本発明の実施例9の広帯域音声復元装置の構成図である。図において新規な部分は、51の狭帯域パワー算出手段、52の狭帯域音源パワー、53の狭帯域パワー込みスペクトル符号帳である。その他は、前記したものと同じであるので、動作に若干の差異があるものだけ説明を行う。
Example 9
FIG. 11 is a configuration diagram of the wideband speech restoration apparatus according to the ninth embodiment of the present invention. The novel parts in the figure are 51 narrowband power calculation means, 52 narrowband excitation power, and 53 narrowband power-included spectrum codebook. Others are the same as those described above, so only those having slight differences in operation will be described.

以下、図11を用いて本発明の一実施例の動作について説明する。   Hereinafter, the operation of the embodiment of the present invention will be described with reference to FIG.

分析手段2内の狭帯域パワー算出手段51は、狭帯域音源信号6の振幅情報に含まれるパワーを算出して狭帯域音源パワー52として出力する。この他にスペクトルパラメータ4と、狭帯域音源信号6も出力する。   The narrowband power calculation means 51 in the analysis means 2 calculates the power included in the amplitude information of the narrowband sound source signal 6 and outputs it as the narrowband sound source power 52. In addition, the spectral parameter 4 and the narrowband sound source signal 6 are also output.

広帯域スペクトル推定手段7内のベクトル量子化手段8は、狭帯域パワー込みスペクトル符号帳53を用いて、狭帯域スペクトルパラメータ4と狭帯域音源パワー52を一括してベクトル量子化し、得られたスペクトル符号10を広帯域スペクトル推定手段7内の逆量子化手段11に出力する。   The vector quantization means 8 in the wideband spectrum estimation means 7 uses the narrowband power-included spectrum codebook 53 to vector quantize the narrowband spectrum parameter 4 and the narrowband excitation power 52 in a lump, and obtain the obtained spectrum code. 10 is output to the inverse quantization means 11 in the broadband spectrum estimation means 7.

ここで、狭帯域パワー込みスペクトル符号帳53は、多くの狭帯域音声信号を分析して得られた狭帯域スペクトルパラメータと狭帯域音源パワーの対を学習データとして、文献1と同様な方法で作成する。狭帯域パワー込みスペクトル符号帳53の学習時とベクトル量子化手段8における距離尺度としては、パワーの対数値のユークリッド距離をw倍したものとスペクトルパラメータのユークリッド距離を加算したものを用いることができる。   Here, the narrowband power-included spectrum codebook 53 is created in the same manner as in Document 1 using a pair of narrowband spectral parameters and narrowband excitation power obtained by analyzing many narrowband speech signals as learning data. To do. As a distance scale in the learning of the narrowband power-included spectrum codebook 53 and the vector quantization means 8, a value obtained by multiplying the Euclidean distance of the logarithmic value of power by w and a sum of the Euclidean distance of the spectrum parameter can be used. .

なお、狭帯域パワー算出手段51が狭帯域音源信号6ではなく、狭帯域音声信号1のパワーを算出して、これを上記狭帯域音源パワー52の代わりに用いる事もできる。この場合には、狭帯域スペクトルパラメータと狭帯域音声信号のパワーの対を学習データとして、狭帯域パワー込みスペクトル符号帳53の学習を行う。   Note that the narrowband power calculation means 51 can calculate the power of the narrowband sound signal 1 instead of the narrowband sound source signal 6 and use it instead of the narrowband sound source power 52. In this case, the narrowband power-included spectrum codebook 53 is learned using a pair of narrowband spectrum parameters and narrowband speech signal power as learning data.

この様に構成する事により、実施例1が持つ効果に加えて、広帯域のスペクトルパラメータの推定にパワーに関する情報が反映され、より安定に良好なスペクトルが推定できる効果がある。   By configuring in this way, in addition to the effects of the first embodiment, information on power is reflected in the estimation of broadband spectral parameters, and there is an effect that a good spectrum can be estimated more stably.

実施例10.
図12は本発明の実施例10の広帯域音声復元装置の構成図である。図において新規な部分は、54の音源正規化手段、55の狭帯域正規化音源信号、56の広帯域正規化音源信号、57の広帯域パワー符号帳、58の広帯域音源パワー、広帯域スペクトル推定手段に含まれる59の広帯域音源パワー推定手段である。その他は、前記したものと同じであるので、説明を省略する。
Example 10
FIG. 12 is a configuration diagram of the wideband speech restoration apparatus according to the tenth embodiment of the present invention. The novel parts in the figure are included in 54 sound source normalizing means, 55 narrowband normalized sound source signal, 56 wideband normalized sound source signal, 57 wideband power codebook, 58 wideband sound source power, and wideband spectrum estimating means. 59 broadband sound source power estimation means. Since others are the same as those described above, the description thereof is omitted.

以下、図12を用いて本発明の一実施例の動作について説明する。   Hereinafter, the operation of the embodiment of the present invention will be described with reference to FIG.

分析手段2内の音源正規化手段54は、狭帯域音源信号6の振幅情報に含まれるパワーを算出して狭帯域音源パワー52として広帯域音源パワー推定手段59に出力するとともに、狭帯域音源信号6のパワーを正規化した信号を狭帯域正規化音源信号55として広帯域音源推定手段14に出力する。   The sound source normalization means 54 in the analysis means 2 calculates the power contained in the amplitude information of the narrow band sound source signal 6 and outputs it as the narrow band sound source power 52 to the wide band sound source power estimation means 59 and also the narrow band sound source signal 6. Is output to the wideband sound source estimation means 14 as a narrowband normalized sound source signal 55.

実際には広帯域スペクトル推定手段7内にある広帯域音源パワー推定手段59中のベクトル量子化手段8は、狭帯域パワー込みスペクトル符号帳53を用いて、狭帯域スペクトルパラメータ4と狭帯域音源パワー52を一括してベクトル量子化し、得られたスペクトル符号10を広帯域音源パワー推定手段59内の逆量子化手段11に出力する。逆量子化手段11は、広帯域パワー符号帳57を用いてスペクトル符号10を復号し、得られた広帯域音源パワー58を出力する。   Actually, the vector quantization means 8 in the wideband excitation power estimation means 59 in the wideband spectrum estimation means 7 uses the narrowband power-included spectrum codebook 53 to obtain the narrowband spectrum parameter 4 and the narrowband excitation power 52. Vector quantization is performed collectively, and the obtained spectrum code 10 is output to the inverse quantization means 11 in the broadband sound source power estimation means 59. The inverse quantization means 11 decodes the spectrum code 10 using the wide band power codebook 57 and outputs the obtained wide band excitation power 58.

広帯域音源推定手段14は、狭帯域正規化音源信号54を用いて、広帯域正規化音源信号56を推定する。なお、広帯域スペクトル推定手段7と広帯域音源推定手段14における推定には、実施例1ないし実施例8と同様な方法を用いる事ができる。そして、この広帯域正規化音源信号56に前記広帯域音源パワー58を乗じて広帯域音源信号16を生成する。   The wideband sound source estimation unit 14 estimates the wideband normalized sound source signal 56 using the narrowband normalized sound source signal 54. For the estimation in the broadband spectrum estimation means 7 and the broadband sound source estimation means 14, the same method as in the first to eighth embodiments can be used. Then, the broadband normalized sound source signal 56 is multiplied by the broadband sound source power 58 to generate the broadband sound source signal 16.

この様に構成する事により、実施例1が持つ効果に加えて、広帯域音源パワーの推定にスペクトルパラメータの違いを反映させる事ができるので、より正しい振幅を持った広帯域音声が復元できる効果がある。   By configuring in this way, in addition to the effect of the first embodiment, it is possible to reflect the difference in the spectrum parameters in the estimation of the broadband sound source power, so that it is possible to restore the broadband sound having a more correct amplitude. .

実施例11.
図13は本発明の実施例11の広帯域音声復元装置の構成図である。図において新規な部分は、60の広帯域パワー込みスペクトル符号帳である。その他は、図11および図12と同じであるので、動作に若干の差異があるものだけ説明を行う。
Example 11
FIG. 13 is a configuration diagram of the wideband speech restoration apparatus according to the eleventh embodiment of the present invention. The novel part in the figure is a 60 wideband power-included spectrum codebook. Others are the same as those in FIG. 11 and FIG. 12, and therefore only those having a slight difference in operation will be described.

以下、図13を用いて本発明の一実施例の動作について説明する。   Hereinafter, the operation of the embodiment of the present invention will be described with reference to FIG.

広帯域スペクトル推定手段7内の逆量子化手段11は、広帯域パワー込みスペクトル符号帳60を用いてスペクトル符号10を復号し、得られた広帯域スペクトルパラメータ13と広帯域音源パワー58を出力する。   The inverse quantization means 11 in the wideband spectrum estimation means 7 decodes the spectrum code 10 using the wideband power-included spectrum codebook 60 and outputs the obtained wideband spectrum parameter 13 and the wideband sound source power 58.

ここで、広帯域パワー込みスペクトル符号帳60は、多くの広帯域音声信号を分析して得られた広帯域スペクトルパラメータと広帯域音源パワーの対を学習データとして、文献1と同様な方法で作成する。距離尺度には、狭帯域パワー込みスペクトル符号帳53の作成に用いたものと同じものを用いる。   Here, the broadband power-included spectrum codebook 60 is created in the same manner as in Document 1 using a pair of broadband spectrum parameters and broadband sound source power obtained by analyzing many broadband speech signals as learning data. The distance scale is the same as that used to create the narrowband power-included spectrum codebook 53.

この様に構成する事により、実施例9と実施例10が持つ効果を合わせ持つ事ができる。   By configuring in this way, it is possible to combine the effects of the ninth and tenth embodiments.

実施例12.
図14は本発明の実施例12の広帯域音声復元装置の構成図である。図において新規な部分は、61のポストフィルタ手段である。その他は、実施例1ないし実施例11と同じであり、説明を省略する。
Example 12 FIG.
FIG. 14 is a configuration diagram of the wideband speech restoration apparatus according to the twelfth embodiment of the present invention. The novel part in the figure is 61 post filter means. Others are the same as those of the first to eleventh embodiments, and the description thereof is omitted.

以下、図14を用いて本発明の一実施例の動作について説明する。   Hereinafter, the operation of the embodiment of the present invention will be described with reference to FIG.

ポストフィルタ手段61は、合成フィルタ17が出力した仮の広帯域音声信号に対してポストフィルタリング処理を行い、得られた信号を帯域フィルタ18に出力する。帯域フィルタ18は、ポストフィルタ手段61が出力した信号に対して、帯域通過フィルタ処理を行い、狭帯域音声の成分のある帯域以外の成分を抽出する。   The post filter means 61 performs post filtering processing on the provisional broadband audio signal output from the synthesis filter 17 and outputs the obtained signal to the band filter 18. The band filter 18 performs a band pass filter process on the signal output from the post filter unit 61 to extract components other than the band having the narrow band audio component.

なお、ポストフィルタリング処理は、聴感的品質を改善する信号加工処理のことで、ピッチ周期性やスペクトルの極を強調したり、高域を強調して明瞭性を改善したり、伝送路を通す際に発生する歪が多い帯域を抑圧して歪感を低減するものである。   The post-filtering process is a signal processing process that improves auditory quality. It emphasizes the pitch periodicity and spectral poles, emphasizes high frequencies to improve clarity, and passes through the transmission line. This suppresses a band having a large amount of distortion that occurs in the image to reduce the sense of distortion.

ピッチ周期性の強調処理としては、ピッチ周期だけ前の仮の広帯域音声信号に1より小さい係数を乗じて現在の仮の広帯域音声信号に加算する方法が一般的である。   As pitch pitch emphasis processing, a general method is to multiply the provisional wideband audio signal preceding the pitch period by a coefficient smaller than 1 and add it to the current provisional wideband audio signal.

極強調処理としては、広帯域スペクトルパラメータ13を変形して、広帯域スペクトルパラメータ13の持つ極周波数近傍の周波数帯域に大きなゲインを持ち、広帯域スペクトルパラメータ13の持つ極近傍以外の周波数帯域に小さいゲインを持つ極零型のフィルタのフィルタ係数を算出する方法が各種提案されており、このフィルタを仮の広帯域音声信号に掛けることで実現できる。また、伝送路を通す際に発生する歪は振幅の小さい周波数帯域、つまり極近傍以外の周波数帯域に多いので、この極強調処理により歪が多い帯域を抑圧する事もできる。   As pole emphasis processing, the broadband spectrum parameter 13 is modified to have a large gain in the frequency band near the pole frequency of the broadband spectrum parameter 13 and a small gain in a frequency band other than the pole vicinity of the broadband spectrum parameter 13. Various methods for calculating the filter coefficient of a pole-zero filter have been proposed and can be realized by applying this filter to a provisional wideband audio signal. In addition, since distortion generated when passing through the transmission line is large in a frequency band with a small amplitude, that is, in a frequency band other than the vicinity of the pole, a band with much distortion can be suppressed by this pole enhancement processing.

高域強調処理としては、プリエンファシスと呼ばれる方法、すなわち1点前の仮の広帯域音声信号に1以下の係数を乗じて現在の仮の広帯域音声信号から減算する方法が一般的である。   As the high-frequency emphasis processing, a method called pre-emphasis, that is, a method of multiplying a temporary broadband audio signal one point before by a coefficient of 1 or less and subtracting it from the current temporary broadband audio signal is common.

また、図14において、ポストフィルタ手段61と帯域フィルタ18が逆の位置でも構わないし、広帯域音声信号20に対してポストフィルタ手段61をかける構成でも構わない。   In FIG. 14, the post filter unit 61 and the band filter 18 may be in opposite positions, or the post filter unit 61 may be applied to the wideband audio signal 20.

この様に構成する事で、実施例1が持つ効果に加えて、復元された広帯域音声信号の音質が不足する場合に、広帯域音声信号のピッチ周期性やスペクトルの極を強調したり、高域を強調して明瞭性を改善したり、伝送路を通す際に発生する歪が多い帯域を抑圧して歪感を低減することができる効果がある。   By configuring in this way, in addition to the effects of the first embodiment, when the sound quality of the restored wideband audio signal is insufficient, the pitch periodicity and spectrum pole of the wideband audio signal are emphasized, By emphasizing the above, it is possible to improve the clarity, and to suppress a band having a lot of distortion that occurs when passing through the transmission path, thereby reducing the distortion.

なお、図14において逆フィルタ5と広帯域音源推定手段14を外した構成も可能である。この構成は、文献1に本発明を適用したものに相当し、上記と同様の効果がある。   In FIG. 14, a configuration in which the inverse filter 5 and the broadband sound source estimation unit 14 are removed is also possible. This configuration corresponds to the application of the present invention to Document 1, and has the same effect as described above.

実施例13.
実施例1ないし実施例12における広帯域スペクトル推定手段7が、狭帯域スペクトルパラメータ4をそのまま広帯域スペクトルパラメータ13として出力する構成も可能である。
Example 13
A configuration is also possible in which the broadband spectrum estimation means 7 in the first to twelfth embodiments outputs the narrowband spectrum parameter 4 as it is as the broadband spectrum parameter 13.

図15は、この場合の狭帯域スペクトルと広帯域スペクトルの概形の関係を説明する説明図である。狭帯域スペクトルパラメータ4が表すスペクトル包絡が図15(a)である場合、これをそのまま広帯域スペクトルパラメータ13として用いると、結果的にその幅が伸張し、広帯域スペクトルパラメータ13が表すスペクトル包絡は図15(a)を周波数軸方向にM倍に引き伸ばした形で、Mが2の時には図15(b)のようになる。従って、狭帯域スペクトル包絡の2KHzから3.4KHzが高い場合には復元される3.4KHz以上の高域も高くなり、逆に2KHzから3.4KHzが低い場合には高域も低くなり、この結果狭帯域スペクトル包絡のおおまかな傾斜がそのまま高域に反映される事となる。   FIG. 15 is an explanatory diagram for explaining the relationship between the narrowband spectrum and the broad spectrum in this case. When the spectral envelope represented by the narrowband spectral parameter 4 is as shown in FIG. 15 (a), if this is used as it is as the wideband spectral parameter 13, the resulting width expands, and the spectral envelope represented by the wideband spectral parameter 13 is as shown in FIG. When (a) is extended M times in the frequency axis direction and M is 2, the result is as shown in FIG. Therefore, when the narrow band spectrum envelope is high from 2 KHz to 3.4 KHz, the restored high frequency is higher than 3.4 KHz, and conversely, when 2 KHz to 3.4 KHz is low, the high frequency is low. As a result, the rough slope of the narrow-band spectral envelope is directly reflected in the high band.

この様に構成する事で、実施例1が持つ効果に加えて、おおまかではあるが、極めて簡単に広帯域スペクトルを復元できる効果がある。実施例1に比べて、符号帳を蓄積しておくメモリが不必要で、演算量が少なくなる効果がある。   By configuring in this way, in addition to the effect of the first embodiment, there is an effect that the broadband spectrum can be reconstructed very easily, though roughly. Compared to the first embodiment, there is no need for a memory for storing a codebook, and the amount of calculation is reduced.

実施例14.
実施例1ないし実施例12において、広帯域スペクトル推定手段7が、狭帯域スペクトルパラメータ4の最低次から所定次数までを広帯域スペクトルパラメータ13として出力する構成も可能である。ただし、スペクトル分析手段3が出力する狭帯域スペクトルパラメータ4としては、PARCOR係数や自己相関係数のように最低次から所定次数までを取り出したものを広帯域スペクトルパラメータ13としてもちいても合成が常に安定なパラメータである場合に限られる。
Example 14
In the first to twelfth embodiments, the wideband spectrum estimation unit 7 may output the narrowband spectrum parameter 4 from the lowest order to the predetermined order as the wideband spectrum parameter 13. However, the narrowband spectrum parameter 4 output from the spectrum analysis means 3 is always stable even if the band spectrum parameter 13 obtained from the lowest order to a predetermined order such as a PARCOR coefficient or autocorrelation coefficient is used. Only if the parameter is

図16は、この場合の狭帯域スペクトルと広帯域スペクトルの概形の関係を説明する説明図である。狭帯域スペクトルパラメータ4が表すスペクトル包絡が図16(a)である場合、これの最低次から所定次数までを広帯域スペクトルパラメータ13として用いると、広帯域スペクトルパラメータ13が表すスペクトル包絡は図16(a)を周波数軸方向にM倍に引き伸ばして更に極構造をなめらかにした形となり、Mが2の時には図16(b)のようになる。この結果狭帯域スペクトル包絡のおおまかな傾斜がそのまま高域に反映され、かつ存在しない強い極が高域に生成され、不自然な復元音が発生することを抑えることができる。   FIG. 16 is an explanatory diagram for explaining the relationship between the narrowband spectrum and the broad spectrum in this case. When the spectrum envelope represented by the narrowband spectrum parameter 4 is FIG. 16A, when the spectrum order from the lowest order to the predetermined order is used as the broadband spectrum parameter 13, the spectrum envelope represented by the broadband spectrum parameter 13 is as shown in FIG. Is stretched M times in the frequency axis direction to further smooth the polar structure. When M is 2, the result is as shown in FIG. As a result, it is possible to suppress the rough inclination of the narrow-band spectrum envelope as it is in the high band and the generation of a strong pole that does not exist in the high band, thereby generating an unnatural restoration sound.

この様に構成する事で、実施例13が持つ効果に加えて、実施例13の場合にまれにおこる、存在しない強い極が高域に生成されて不自然な復元音の発生を抑える事ができる効果がある。   By configuring in this way, in addition to the effects of the thirteenth embodiment, in the rare case of the thirteenth embodiment, a strong non-existent pole is generated in the high range, thereby suppressing the occurrence of unnatural restoration sound. There is an effect that can be done.

実施例15.
図17は本発明の実施例15の広帯域音声復元装置の広帯域スペクトル推定手段7の構成図である。図において新規な部分は、62のスペクトルパラメータ変換手段、63の次数低減手段、64のスペクトルパラメータ逆変換手段である。その他は、実施例1ないし実施例12と同じであり、説明を省略する。
Example 15.
FIG. 17 is a configuration diagram of the wideband spectrum estimation means 7 of the wideband speech restoration apparatus according to the fifteenth embodiment of the present invention. The novel parts in the figure are 62 spectral parameter conversion means, 63 order reduction means, and 64 spectral parameter inverse conversion means. Others are the same as those of the first to twelfth embodiments, and the description thereof is omitted.

以下、図17を用いて本発明の一実施例の動作について説明する。   Hereinafter, the operation of the embodiment of the present invention will be described with reference to FIG.

広帯域スペクトル推定手段7内のスペクトルパラメータ変換手段62は、狭帯域スペクトルパラメータ4を、PARCOR係数や自己相関係数のように最低次から所定次数までを取り出した場合に合成が常に安定なパラメータに変換する。次数低減手段63は、スペクトルパラメータ変換手段62が出力したパラメータの最低次から所定次数までを取り出したものをスペクトルパラメータ逆変換手段64に出力する。スペクトルパラメータ逆変換手段64は、次数低減手段63の出力したパラメータを狭帯域スペクトルパラメータ4と同じ領域に戻し、広帯域スペクトルパラメータ13として出力する。   The spectral parameter conversion means 62 in the wideband spectrum estimation means 7 converts the narrowband spectral parameter 4 into a parameter whose composition is always stable when the lowest order to a predetermined order such as PARCOR coefficient and autocorrelation coefficient are extracted. To do. The order reduction unit 63 outputs the parameter output from the lowest order to the predetermined order output by the spectral parameter conversion unit 62 to the spectral parameter inverse conversion unit 64. The spectrum parameter inverse conversion means 64 returns the parameter output from the order reduction means 63 to the same region as the narrowband spectrum parameter 4 and outputs it as the broadband spectrum parameter 13.

この様に構成する事で、狭帯域スペクトルパラメータ4が、最低次から所定次数までを取り出した場合に合成が不安定になるパラメータである場合でも、実施例14と同じ効果が得られる。   By configuring in this way, the same effect as in the fourteenth embodiment can be obtained even when the narrowband spectrum parameter 4 is a parameter in which the synthesis becomes unstable when the lowest order to the predetermined order are extracted.

実施例16.
実施例14および実施例15では、次数低減によって強い極を抑制したが、スペクトルパラメータとして自己相関係数を用いてこれにラグ窓をかける等、類似の効果を与える方法を用いる事ができる。
Example 16
In the fourteenth and fifteenth embodiments, strong poles are suppressed by reducing the order, but a method that gives a similar effect, such as using an autocorrelation coefficient as a spectral parameter and applying a lag window thereto, can be used.

この様に構成する事で、実施例14と同じ効果が別の手段で得られる効果がある。   By configuring in this way, the same effect as that of the embodiment 14 can be obtained by another means.

なお、上記実施例13ないし16の広帯域スペクトル推定手段7を、文献1等の従来構成に適用する事も可能である。例えば文献1に適用する場合の全体構成は、図14から逆フィルタ5、広帯域音源推定手段14、ポストフィルタ手段61を外したものとなる。この様に構成した場合には、実施例13ないし16にて新たに発生した効果を従来技術に付加する事ができる。   Note that the broadband spectrum estimation means 7 of the thirteenth to sixteenth embodiments can be applied to a conventional configuration such as Document 1. For example, the overall configuration when applied to Document 1 is obtained by removing the inverse filter 5, the broadband sound source estimation unit 14, and the post filter unit 61 from FIG. 14. In such a configuration, the effects newly generated in the embodiments 13 to 16 can be added to the conventional technology.

実施例17.
以下の実施例では、伝送等による符号化情報を基に広帯域音声を復元する装置に対して本発明を適用する例を説明する。
Example 17.
In the following embodiment, an example will be described in which the present invention is applied to an apparatus that restores wideband speech based on encoded information by transmission or the like.

図18は本発明の実施例17の広帯域音声復元装置の構成図である。図において、101は狭帯域音声符号、102は分離手段、103は狭帯域スペクトル符号、104は狭帯域音源符号、105は広帯域スペクトル復号手段、106は広帯域音源復号手段、107は狭帯域スペクトル復号手段、108は狭帯域音源復号手段、109は狭帯域音声復号手段である。その他は、実施例1ないし実施例16と同じであり、説明を省略する。   FIG. 18 is a block diagram of a wideband speech restoration apparatus according to Embodiment 17 of the present invention. In the figure, 101 is a narrowband speech code, 102 is a separation means, 103 is a narrowband spectrum code, 104 is a narrowband excitation code, 105 is a wideband spectrum decoding means, 106 is a wideband excitation decoding means, and 107 is a narrowband spectrum decoding means. , 108 are narrowband sound source decoding means, and 109 is narrowband speech decoding means. Others are the same as those of the first to sixteenth embodiments, and the description thereof is omitted.

本実施例においても、再分析を行わずに良好な広帯域音源信号を得る構成となっている。   Also in the present embodiment, a good broadband sound source signal is obtained without performing reanalysis.

以下、図18を用いて本発明の一実施例の動作について説明する。   Hereinafter, the operation of the embodiment of the present invention will be described with reference to FIG.

まず、狭帯域音声符号101が、分離手段102と狭帯域音声復号手段109に入力される。この狭帯域音声符号101は、例えば8KHzでサンプリングされ、300Hzから3.4KHzの電話帯域に制限された狭帯域音声信号が別途符号化されたものであり、蓄積メディアや通信路から入力されて来るものである。   First, the narrowband speech code 101 is input to the separating unit 102 and the narrowband speech decoding unit 109. The narrowband speech code 101 is a separately encoded narrowband speech signal sampled at, for example, 8 KHz and limited to a telephone band from 300 Hz to 3.4 KHz, and is input from a storage medium or a communication channel. Is.

分離手段102では、狭帯域音声符号101を狭帯域スペクトル符号103と狭帯域音源符号104に分離して、狭帯域スペクトル符号103を広帯域スペクトル復号手段105に、狭帯域音源符号104を広帯域音源復号手段106に出力する。   Separating means 102 separates narrowband speech code 101 into narrowband spectral code 103 and narrowband excitation code 104, narrowband spectral code 103 into wideband spectrum decoding means 105, and narrowband excitation code 104 into wideband excitation codec means. The data is output to 106.

広帯域スペクトル復号手段105内の狭帯域スペクトル復号手段107は、狭帯域スペクトル符号103を復号して、得られた狭帯域スペクトルパラメータ4を出力する。なお、狭帯域スペクトル復号手段107は、狭帯域音声符号101が符号化された時に用いられた狭帯域スペクトルパラメータの符号化処理の逆の処理を行えば良い。   The narrowband spectrum decoding means 107 in the wideband spectrum decoding means 105 decodes the narrowband spectrum code 103 and outputs the obtained narrowband spectrum parameter 4. Note that the narrowband spectrum decoding means 107 may perform the reverse process of the encoding process of the narrowband spectrum parameter used when the narrowband speech code 101 is encoded.

そして、広帯域スペクトル復号手段105内の広帯域スペクトル推定手段7が、前記狭帯域スペクトルパラメータ4を用いて広帯域スペクトルパラメータ13を推定する。なお、広帯域スペクトル推定手段7としては、これまで説明を行った実施例に記載されている方法を用いる事ができる。   Then, the broadband spectrum estimation means 7 in the broadband spectrum decoding means 105 estimates the broadband spectrum parameter 13 using the narrowband spectrum parameter 4. As the broadband spectrum estimation means 7, the methods described in the embodiments described so far can be used.

広帯域音源復号手段106内の狭帯域音源復号手段108は、前記狭帯域音源符号104を復号して、得られた狭帯域音源信号6を出力する。そして、広帯域音源復号手段106内の広帯域音源推定手段14が、前記狭帯域音源信号6を用いて広帯域音源信号16を推定する。   The narrowband excitation decoding means 108 in the wideband excitation decoding means 106 decodes the narrowband excitation code 104 and outputs the obtained narrowband excitation signal 6. Then, the broadband excitation estimation means 14 in the broadband excitation decoding means 106 estimates the broadband excitation signal 16 using the narrowband excitation signal 6.

なお、広帯域音源推定手段14には、零詰手段等を用いる事ができる。狭帯域音源復号手段108では、狭帯域音声符号101が符号化された時に用いられた狭帯域音源信号の符号化処理の逆の処理を行えば良い。   The broadband sound source estimation means 14 can be zero padding means or the like. The narrowband excitation decoding means 108 may perform the reverse process of the encoding process of the narrowband excitation signal used when the narrowband speech code 101 is encoded.

合成フィルタ17は、広帯域スペクトルパラメータ13を用いて広帯域音源信号16に合成フィルタ処理を行い仮の広帯域音声信号を生成する。帯域フィルタ18は、この仮の広帯域音声信号に対して、帯域通過フィルタ処理を行い、狭帯域音声の成分のある帯域以外の成分を抽出する。広帯域音声信号の帯域が0Hzから7.3KHzの場合、0Hzから300Hzと3.4KHzから7.3KHzの成分が抽出される。   The synthesis filter 17 performs synthesis filter processing on the broadband sound source signal 16 using the broadband spectrum parameter 13 to generate a temporary broadband audio signal. The band filter 18 performs band pass filter processing on the provisional wideband audio signal, and extracts components other than the band having the narrowband audio component. When the band of the wideband audio signal is from 0 Hz to 7.3 KHz, components from 0 Hz to 300 Hz and 3.4 KHz to 7.3 KHz are extracted.

一方、狭帯域音声復号手段109は、入力した狭帯域音声符号101を復号して、得られた狭帯域音声信号1をアップサンプリング手段19に出力する。この復号処理は、狭帯域音声符号101が符号化された時に用いられた符号化処理の逆の処理を行えば良い。   On the other hand, the narrowband speech decoding unit 109 decodes the input narrowband speech code 101 and outputs the obtained narrowband speech signal 1 to the upsampling unit 19. This decoding process may be performed by reversing the encoding process used when the narrowband speech code 101 is encoded.

次に、アップサンプリング手段19は、狭帯域音声信号1をM倍にアップサンプリングする。アップサンプリングによって生成される信号は、サンプリング周波数が広帯域音声信号20と同じで、狭帯域音声信号1と同じ狭帯域成分を持つものである。そして、帯域フィルタ18の出力とアップサンプリング手段19の出力を加算して広帯域音声信号20を生成する。   Next, the upsampling means 19 upsamples the narrowband audio signal 1 M times. The signal generated by the upsampling has the same narrowband component as the narrowband audio signal 1 with the same sampling frequency as the wideband audio signal 20. Then, the output of the band filter 18 and the output of the upsampling means 19 are added to generate a wideband audio signal 20.

この様に構成する事により、蓄積メディアや通信路から狭帯域音声符号を受信した場合、狭帯域音声を再分析する必要がないので少ない処理量で復元ができる効果がある。また、合成時の補間や分析時の窓掛等による歪が重畳しないので、より良い品質の広帯域音声が復元できる効果がある。なお、実施例1と同じ効果も持っている。   With this configuration, when a narrowband speech code is received from a storage medium or a communication channel, there is no need to reanalyze the narrowband speech, so that it can be restored with a small amount of processing. Further, since distortion due to interpolation at the time of synthesis or windowing at the time of analysis is not superimposed, there is an effect that a broadband voice with better quality can be restored. It has the same effect as the first embodiment.

なお、狭帯域音声復号手段109は、狭帯域スペクトルパラメータ4と狭帯域音源信号6を入力して、狭帯域音声信号1を合成する構成でも良いし、逆に狭帯域音声復号手段109内の復号過程の中間パラメータとして算出される狭帯域スペクトルパラメータ4と狭帯域音源信号6を広帯域スペクトル復号手段105と広帯域音源復号手段106に入力する構成も可能である。この場合、重複している処理を省く事ができ、更に少ない処理量で広帯域音声が復元できる効果がある。   The narrowband speech decoding unit 109 may be configured to synthesize the narrowband speech signal 1 by inputting the narrowband spectrum parameter 4 and the narrowband excitation signal 6, or conversely, the decoding in the narrowband speech decoding unit 109. A configuration in which the narrowband spectral parameter 4 and the narrowband excitation signal 6 calculated as intermediate parameters of the process are input to the wideband spectrum decoding means 105 and the wideband excitation decoding means 106 is also possible. In this case, it is possible to omit the overlapping processing and to recover the wideband sound with a smaller processing amount.

また、狭帯域音声符号101から、ピッチ周期符号とパワー符号が分離できる場合には、これらの符号からピッチ周期とパワー情報を復号して、前記広帯域スペクトルパラメータ13とこのピッチ周期とパワー情報を用いて文献1と同じ方法で仮の広帯域合成音を生成する構成も可能である。   When the pitch period code and the power code can be separated from the narrowband speech code 101, the pitch period and power information are decoded from these codes, and the wideband spectrum parameter 13 and the pitch period and power information are used. Thus, it is possible to generate a temporary broadband synthesized sound by the same method as in Document 1.

実施例18.
図19は本発明の実施例18の広帯域音声復元装置の広帯域音源復号手段106の構成図である。図において新規な部分は、110の狭帯域ピッチ符号、111の狭帯域パワー符号、112の広帯域ピッチ復号手段、113の広帯域ピッチ周期、114の広帯域パワー復号手段、115の広帯域パワー、116の音源生成手段である。その他は、実施例17と同じであり、説明を省略する。
Example 18
FIG. 19 is a block diagram of the wideband excitation decoding means 106 of the wideband speech restoration apparatus according to the eighteenth embodiment of the present invention. The novel parts in the figure are 110 narrowband pitch code, 111 narrowband power code, 112 wideband pitch decoding means, 113 wideband pitch period, 114 wideband power decoding means, 115 wideband power, and 116 sound source generation. Means. Others are the same as Example 17, and description is abbreviate | omitted.

この実施例は、前記分離手段102にて簡単に狭帯域ピッチ符号110と狭帯域パワー符号111が分離できるような狭帯域音声符号101が入力される場合に限られる。この場合には図19の構成が意味を持つ。   This embodiment is limited to the case where a narrowband speech code 101 that can easily separate the narrowband pitch code 110 and the narrowband power code 111 by the separating means 102 is input. In this case, the configuration of FIG. 19 is meaningful.

以下、図19を用いて本発明の一実施例の動作について説明する。   The operation of one embodiment of the present invention will be described below with reference to FIG.

狭帯域音源符号104として、狭帯域ピッチ符号110と狭帯域パワー符号111が広帯域音源復号手段106に入力される。   As the narrowband excitation code 104, a narrowband pitch code 110 and a narrowband power code 111 are input to the wideband excitation decoding means 106.

広帯域音源復号手段106内の広帯域ピッチ復号手段112は、狭帯域ピッチ符号110を用いて広帯域ピッチ周期113を推定する。推定の方法としては、狭帯域ピッチ符号110から狭帯域ピッチ周期を復号してその値をM倍してもよいが、その結果をテーブルとして持っておいて狭帯域ピッチ符号110に対応するテーブル成分を読みだす事で求めてもよい。   Wideband pitch decoding means 112 in wideband excitation decoding means 106 estimates wideband pitch period 113 using narrowband pitch code 110. As an estimation method, the narrowband pitch period may be decoded from the narrowband pitch code 110 and the value may be multiplied by M, but the result is held as a table and the table component corresponding to the narrowband pitch code 110 is stored. You may ask by reading.

次に、広帯域音源復号手段106内の広帯域パワー復号手段114は、狭帯域パワー符号111を用いて広帯域パワー115を推定する。推定の方法としては、狭帯域パワー符号111から狭帯域パワーを復号してその値をg倍してもよいが、その結果をテーブルとして持っておいて狭帯域パワー符号111に対応するテーブル成分を読みだす事で求めてもよい。   Next, the broadband power decoding unit 114 in the broadband excitation decoding unit 106 estimates the broadband power 115 using the narrowband power code 111. As an estimation method, the narrowband power may be decoded from the narrowband power code 111 and the value may be multiplied by g. However, a table component corresponding to the narrowband power code 111 is obtained by holding the result as a table. You may ask for it by reading.

音源生成手段116は、前記広帯域ピッチ周期113を繰り返し周期として、固定音源を並べ立てた信号を出力し、最後にこの音源生成手段116の出力信号に広帯域パワー115を乗じて、広帯域音源信号16として出力する。   The sound source generating means 116 outputs a signal in which fixed sound sources are arranged with the wide band pitch period 113 as a repetition period, and finally multiplies the output signal of the sound source generating means 116 by the wide band power 115 and outputs it as the wide band sound source signal 16. To do.

この様に構成する事により、実施例17が持つ効果に加えて、狭帯域音源信号の復号を行わずに直接広帯域音源信号16が生成されるので、少ない処理量で復元ができる効果がある。   By configuring in this way, in addition to the effect of the seventeenth embodiment, the wideband sound source signal 16 is directly generated without decoding the narrowband sound source signal, so that there is an effect that restoration can be performed with a small amount of processing.

実施例19.
図20は本発明の実施例19の広帯域音声復元装置の広帯域音源復号手段106の構成図である。図において新規な部分は、117の狭帯域適応音源符号、118の狭帯域駆動音源符号、119の広帯域適応音源復号手段、120の広帯域駆動音源復号手段、121の狭帯域適応音源復号手段、122の狭帯域駆動音源復号手段である。その他は、前記したものと同じであり、説明を省略する。
Example 19.
FIG. 20 is a configuration diagram of the wideband sound source decoding means 106 of the wideband speech restoration apparatus according to the nineteenth embodiment of the present invention. The novel parts in the figure are 117 narrowband adaptive excitation codes, 118 narrowband drive excitation codes, 119 wideband adaptive excitation decoding means, 120 wideband excitation excitation decoding means, 121 narrowband adaptive excitation decoding means, This is narrowband drive excitation decoding means. Others are the same as described above, and a description thereof will be omitted.

この実施例は、前記分離手段102にて入力の狭帯域音声符号から簡単に狭帯域適応音源符号117と狭帯域駆動音源符号118が分離できるような狭帯域音声符号101が入力される場合に限られる。この場合には図20の構成が意味を持つ。   This embodiment is limited to the case where a narrowband speech code 101 that allows the narrowband adaptive excitation code 117 and the narrowband drive excitation code 118 to be easily separated from the input narrowband speech code by the separation means 102 is input. It is done. In this case, the configuration of FIG. 20 is meaningful.

以下、図20を用いて本発明の一実施例の動作について説明する。   The operation of one embodiment of the present invention will be described below with reference to FIG.

狭帯域音源符号104として、狭帯域適応音源符号117と狭帯域駆動音源符号118が広帯域音源復号手段106に入力される。   As the narrowband excitation code 104, a narrowband adaptive excitation code 117 and a narrowband drive excitation code 118 are input to the wideband excitation decoding means 106.

広帯域適応音源復号手段119内の狭帯域適応音源復号手段121は、前記狭帯域適応音源符号117を復号して、得られた狭帯域適応ラグ長25と狭帯域適応ゲイン26を出力する。広帯域適応音源復号手段119内の広帯域適応音源推定手段30は、この狭帯域適応ラグ長25と狭帯域適応ゲイン26から、広帯域適応音源信号32を生成し、出力する。広帯域適応音源推定手段30の動作については、実施例2と同様である。   The narrowband adaptive excitation decoding means 121 in the wideband adaptive excitation decoding means 119 decodes the narrowband adaptive excitation code 117 and outputs the obtained narrowband adaptive lag length 25 and narrowband adaptive gain 26. Wideband adaptive excitation estimation means 30 in wideband adaptive excitation decoding means 119 generates and outputs wideband adaptive excitation signal 32 from narrowband adaptive lag length 25 and narrowband adaptive gain 26. The operation of the broadband adaptive sound source estimation means 30 is the same as that of the second embodiment.

広帯域駆動音源復号手段120内の狭帯域駆動音源復号手段122は、前記狭帯域駆動音源符号118を復号して、得られた狭帯域駆動音源信号24を出力する。広帯域駆動音源復号手段120内の広帯域駆動音源推定手段27は、この狭帯域駆動音源信号24から広帯域駆動音源信号29を推定し、出力する。広帯域駆動音源推定手段27の動作は、実施例2ないし実施例4と同様である。   The narrowband drive excitation decoding means 122 in the wideband drive excitation decoding means 120 decodes the narrowband drive excitation code 118 and outputs the obtained narrowband drive excitation signal 24. The broadband drive excitation estimation means 27 in the broadband drive excitation decoding means 120 estimates and outputs a broadband drive excitation signal 29 from the narrowband drive excitation signal 24. The operation of the wideband drive sound source estimation means 27 is the same as in the second to fourth embodiments.

最後に、広帯域適応音源信号32と広帯域駆動音源信号29を加算して、広帯域音源信号16として出力する。   Finally, the wideband adaptive sound source signal 32 and the wideband drive sound source signal 29 are added and output as the wideband sound source signal 16.

この様に構成する事により、実施例2ないし実施例4および実施例17が持つ効果に加えて、狭帯域音源信号の復号を行わずに直接広帯域音源信号16が生成されるので、少ない処理量で復元ができる効果がある。   With this configuration, in addition to the effects of the second to fourth embodiments and the seventeenth embodiment, the wideband sound source signal 16 is directly generated without decoding the narrowband sound source signal. There is an effect that can be restored.

更に、基本周波数とその高調波成分の周波数が正しく整数倍の位置に並ぶので、最終的に復元される広帯域音声信号での狭帯域成分と復元広帯域成分のつながりが良く、高品質な広帯域音声を復元できる効果がある。   In addition, since the fundamental frequency and the frequency of its harmonic components are correctly aligned at integer multiples, the narrow-band component and the restored broadband component in the finally restored broadband audio signal are well connected, resulting in high-quality broadband audio. There is an effect that can be restored.

また、有声無声情報やピッチ周期情報を用いないので、中間的な性質の音源も表現できるので、雑音が重畳した狭帯域音声信号に対して起こりがちな有声無声判定誤りやピッチ抽出誤りの影響がなく、有声無声境界付近でも良好な広帯域音源を推定することができ、安定で自然な音質の広帯域音声を復元することができる効果がある。   In addition, since voiced unvoiced information and pitch period information are not used, it is possible to express sound sources with intermediate characteristics, so that the effects of voiced unvoiced decision errors and pitch extraction errors that tend to occur on narrowband audio signals with superimposed noise are affected. In addition, a good broadband sound source can be estimated even near the voiced and unvoiced boundary, and stable and natural sound quality broadband sound can be restored.

実施例20.
図21は本発明の実施例20の広帯域音声復元装置の広帯域音源復号手段106の構成図である。図において新規な部分は、123の狭帯域長周期予測符号、124の広帯域長周期予測パラメータ(符号)復号手段、125の狭帯域長周期予測パラメータ(符号)復号手段、126の狭帯域長周期予測残差符号、127の広帯域長周期予測残差復号手段、128の狭帯域長周期予測残差復号手段である。その他は、前記したものと同じであり、説明を省略する。
Example 20.
FIG. 21 is a configuration diagram of the wideband excitation decoding means 106 of the wideband speech restoration apparatus according to the twentieth embodiment of the present invention. In the figure, the new parts are 123 narrowband long period prediction code, 124 wideband long period prediction parameter (code) decoding means, 125 narrowband long period prediction parameter (code) decoding means, 126 narrowband long period prediction code. They are a residual code, 127 wide-band long-period prediction residual decoding means, and 128 narrow-band long-period prediction residual decoding means. Others are the same as described above, and a description thereof will be omitted.

この実施例は、前記分離手段102にて入力の狭帯域音声符号から簡単に狭帯域長周期予測符号123と狭帯域長周期予測残差符号126が分離できるような狭帯域音声符号101が入力される場合に限られる。この場合には図21の構成が意味を持つ。   In this embodiment, a narrowband speech code 101 that can easily separate a narrowband long period prediction code 123 and a narrowband long period prediction residual code 126 from an input narrowband speech code by the separation means 102 is input. Limited to In this case, the configuration of FIG. 21 is meaningful.

以下、図21を用いて本発明の一実施例の動作について説明する。   Hereinafter, the operation of the embodiment of the present invention will be described with reference to FIG.

狭帯域音源符号104として、狭帯域長周期予測符号123と狭帯域長周期予測残差符号126が広帯域音源復号手段106に入力される。   As the narrowband excitation code 104, a narrowband long period prediction code 123 and a narrowband long period prediction residual code 126 are input to the wideband excitation decoding means 106.

広帯域長周期予測パラメータ(符号)復号手段124内の狭帯域長周期予測パラメータ復号手段125は、前記狭帯域長周期予測符号123を復号して、得られた予測符号の1つである狭帯域長周期遅延38と、他の予測符号である狭帯域長周期予測係数39を出力する。広帯域長周期予測パラメータ復号手段124内の広帯域長周期予測パラメータ推定手段44は、この狭帯域長周期遅延38と狭帯域長周期予測係数39から、長周期予測符号の1つである広帯域長周期遅延45と、他の長周期予測符号の1つである広帯域長周期予測係数46を推定し、出力する。広帯域長周期予測パラメータ推定手段44の動作については、実施例5と同様である。   The narrowband long period prediction parameter decoding means 125 in the wideband long period prediction parameter (code) decoding means 124 decodes the narrowband long period prediction code 123 and is a narrowband length which is one of the obtained prediction codes. A period delay 38 and a narrowband long period prediction coefficient 39 which is another prediction code are output. The wideband long period prediction parameter estimation unit 44 in the wideband long period prediction parameter decoding unit 124 uses the narrowband long period delay coefficient 38 and the narrowband long period prediction coefficient 39 to generate a wideband long period delay which is one of the long period prediction codes. 45 and a wideband long-period prediction coefficient 46, which is one of the other long-period prediction codes, are estimated and output. The operation of the wideband long period prediction parameter estimation unit 44 is the same as that of the fifth embodiment.

広帯域長周期予測残差復号手段127内の狭帯域長周期予測残差復号手段128は、前記狭帯域長周期予測残差符号126を復号して、得られた狭帯域長周期予測残差信号41を出力する。広帯域長周期予測残差復号手段127内の広帯域長周期予測残差推定手段42は、この狭帯域長周期予測残差信号41から広帯域長周期予測残差信号48を推定し、出力する。広帯域長周期予測残差推定手段42の動作は、実施例5ないし実施例7と同様である。   The narrowband long period prediction residual decoding means 128 in the wideband long period prediction residual decoding means 127 decodes the narrowband long period prediction residual code 126 and obtains the narrowband long period prediction residual signal 41 obtained. Is output. The wideband long period prediction residual estimation means 42 in the wideband long period prediction residual decoding means 127 estimates the wideband long period prediction residual signal 48 from the narrowband long period prediction residual signal 41 and outputs it. The operation of the wideband long period prediction residual estimation means 42 is the same as in the fifth to seventh embodiments.

最後に、長周期合成フィルタ47は、広帯域長周期遅延45と広帯域長周期予測係数46を用いて、広帯域長周期予測残差信号48に対して長周期合成フィルタリングを行い、得られた信号を広帯域音源信号16として出力する。   Finally, the long-period synthesis filter 47 performs long-period synthesis filtering on the wide-band long-period prediction residual signal 48 using the wide-band long-period delay 45 and the wide-band long-period prediction coefficient 46, and the obtained signal is wide-band The sound source signal 16 is output.

この様に構成する事により、実施例5ないし実施例7および実施例17が持つ効果に加えて、狭帯域音源信号の復号を行わずに直接広帯域音源信号16が生成されるので、少ない処理量で復元ができる効果がある。   With this configuration, in addition to the effects of the fifth to seventh embodiments and the seventeenth embodiment, the wideband sound source signal 16 is directly generated without decoding the narrowband sound source signal. There is an effect that can be restored.

実施例21.
実施例17ないし実施例20では、狭帯域スペクトル符号103から狭帯域スペクトルパラメータ4を復号した後に広帯域スペクトルパラメータ13の推定を行っているが、狭帯域スペクトル符号103によって広帯域スペクトル符号帳を参照する事で直接広帯域スペクトルパラメータ13を算出する構成も可能である。
Example 21.
In the seventeenth to the twentieth embodiments, the wideband spectrum parameter 13 is estimated after the narrowband spectrum code 4 is decoded from the narrowband spectrum code 103. The narrowband spectrum code 103 refers to the wideband spectrum codebook. A configuration in which the broadband spectral parameter 13 is directly calculated is also possible.

この様に構成する事により、実施例17ないし実施例20が持つ効果に加えて、更に少ない処理量で復元ができる効果がある。   By configuring in this way, in addition to the effects of Embodiments 17 to 20, there is an effect that restoration can be performed with a smaller amount of processing.

実施例22.
図22は本発明の一実施例である広帯域音声復元装置の構成図である。図において新規な部分は、129の狭帯域パワー復号手段、130の広帯域正規化音源復号手段である。
Example 22.
FIG. 22 is a block diagram of a wideband speech restoration apparatus according to an embodiment of the present invention. The novel parts in the figure are 129 narrowband power decoding means and 130 wideband normalized excitation decoding means.

広帯域スペクトル推定手段7は実施例11と同じであり、その他は前記したものと同じであり、説明を省略する。   The broadband spectrum estimation means 7 is the same as that of the eleventh embodiment, and the others are the same as those described above, and the description thereof is omitted.

以下、図22を用いて本発明の一実施例の動作について説明する。   The operation of one embodiment of the present invention will be described below with reference to FIG.

狭帯域パワー復号手段129は、狭帯域音源符号104の中に含まれる狭帯域振幅情報からパワーに関する部分を復号して、得られた狭帯域音源パワー52を広帯域スペクトル推定手段7に対して出力する。広帯域スペクトル推定手段7は、狭帯域スペクトルパラメータ4と狭帯域音源パワー52を用いて、広帯域スペクトルパラメータ13と広帯域音源パワー58を推定する。   The narrowband power decoding unit 129 decodes a portion related to power from the narrowband amplitude information included in the narrowband excitation code 104 and outputs the obtained narrowband excitation power 52 to the wideband spectrum estimation unit 7. . The wideband spectrum estimation means 7 estimates the wideband spectrum parameter 13 and the wideband sound source power 58 using the narrowband spectrum parameter 4 and the narrowband sound source power 52.

広帯域正規化音源復号手段130は、狭帯域音源符号104の中に含まれる狭帯域パワーに関する部分以外を用いて、パワーが正規化された広帯域の音源信号を推定し、広帯域正規化音源信号56として出力する。この広帯域正規化音源復号手段130における処理には、実施例18ないし実施例20と同様なものを用いる事ができる。そして、この広帯域正規化音源信号56に前記広帯域音源パワー58を乗じて広帯域音源信号16を生成する。   The wideband normalized excitation decoding means 130 estimates a wideband excitation signal whose power is normalized by using a portion other than the portion related to the narrowband power included in the narrowband excitation code 104, as a wideband normalized excitation signal 56. Output. For the processing in the wideband normalized excitation decoding means 130, the same processing as that in the eighteenth to twentieth embodiments can be used. Then, the broadband normalized sound source signal 56 is multiplied by the broadband sound source power 58 to generate the broadband sound source signal 16.

この様に構成する事により、実施例11および実施例18ないし実施例20が持つ効果を合わせ持つ事ができる。なお、実施例9や実施例10のように広帯域スペクトル推定手段7が広帯域スペクトルパラメータ13もしくは広帯域音源パワー58の一方だけを推定する構成も可能である。   By comprising in this way, the effect which Example 11 and Example 18 thru | or Example 20 have can be combined. A configuration in which the broadband spectrum estimation means 7 estimates only one of the broadband spectrum parameter 13 or the broadband sound source power 58 as in the ninth and tenth embodiments is also possible.

実施例23.
実施例17ないし実施例22において、合成フィルタ17と帯域フィルタ18の間にポストフィルタ手段61を挿入した構成も可能である。また、ポストフィルタ手段61と帯域フィルタ18が逆の位置の構成も可能であるし、広帯域音声信号20に対してポストフィルタ手段61をかける構成も可能である。
Example 23.
In Embodiments 17 to 22, a configuration in which the post filter means 61 is inserted between the synthesis filter 17 and the band filter 18 is also possible. Further, the post filter unit 61 and the band filter 18 can be arranged in the opposite positions, and the post filter unit 61 can be applied to the wideband audio signal 20.

この様に構成する事により、狭帯域音声復号手段109内でポストフィルタ処理が行なわれる場合に、狭帯域部と復元した帯域の連続性を良くする事ができる。また、実施例12および実施例17ないし実施例22が持つ効果を合わせ持つ事ができる。   With this configuration, when post-filter processing is performed in the narrowband speech decoding means 109, continuity between the narrowband portion and the restored band can be improved. Further, the effects of the embodiment 12 and the embodiments 17 to 22 can be combined.

実施例24.
図18から広帯域音源復号手段106を外した構成において、合成フィルタ17と帯域フィルタ18の間にポストフィルタ手段61を挿入した構成も可能である。また、ポストフィルタ手段61と帯域フィルタ18が逆の位置の構成も可能であるし、広帯域音声信号20に対してポストフィルタ手段61をかける構成も可能である。
Example 24.
In the configuration in which the wide band excitation decoding means 106 is removed from FIG. 18, a configuration in which the post filter means 61 is inserted between the synthesis filter 17 and the band filter 18 is also possible. Further, the post filter unit 61 and the band filter 18 can be arranged in the opposite positions, and the post filter unit 61 can be applied to the wideband audio signal 20.

この構成は、文献1に本発明の実施例17に実施例12を適用したものに相当し、狭帯域音声復号手段109内でポストフィルタ処理が行なわれる場合に、狭帯域部と復元した帯域の連続性を良くする事ができる効果がある。   This configuration corresponds to that obtained by applying the twelfth embodiment to the seventeenth embodiment of the present invention in document 1, and when post-filter processing is performed in the narrowband speech decoding means 109, the narrowband portion and the restored band It has the effect of improving continuity.

以下に、各実施例の特徴をまとめて記載する。   Below, the characteristics of each embodiment will be described together.

前述した広帯域音声復元装置は、狭帯域音声信号を分析して狭帯域スペクトルパラメータと狭帯域音源信号を得る分析手段と、この狭帯域スペクトルパラメータを用いて広帯域スペクトルパラメータを推定するスペクトル推定手段と、狭帯域音源信号を用い広帯域音源信号を推定する広帯域音源推定手段と、この推定された広帯域スペクトルパラメータと広帯域音源信号とから広帯域音声信号を生成する合成手段を備えた。   The above-described wideband speech restoration apparatus includes an analysis unit that analyzes a narrowband speech signal to obtain a narrowband spectrum parameter and a narrowband sound source signal, a spectrum estimation unit that estimates a broadband spectrum parameter using the narrowband spectrum parameter, Broadband sound source estimation means for estimating a wideband sound source signal using a narrowband sound source signal and synthesis means for generating a wideband audio signal from the estimated wideband spectral parameters and the wideband sound source signal are provided.

また更に、広帯域音源推定手段として、入力の狭帯域音源信号の各サンプル間隔中に所定の零値を挿入する零詰手段を用いた。   Further, as the wideband sound source estimation means, zero padding means for inserting a predetermined zero value into each sample interval of the input narrowband sound source signal is used.

また、広帯域音源推定手段は、入力の狭帯域音源信号を分析して狭帯域適応音源符号と狭帯域駆動音源信号を得る音源分析手段と、この狭帯域適応音源符号を用いて広帯域適応音源信号を推定する適応音源推定手段と、狭帯域駆動音源信号を用いて広帯域駆動音源信号を推定する駆動音源推定手段と、この推定された広帯域適応音源信号と広帯域駆動音源信号とから広帯域音源信号を生成する加算手段とで構成した。   The wideband excitation estimating means analyzes the input narrowband excitation signal to obtain a narrowband adaptive excitation code and a narrowband drive excitation signal, and a wideband adaptive excitation signal using the narrowband adaptive excitation code. Adaptive sound source estimating means for estimating, driving sound source estimating means for estimating a wide-band driving sound source signal using a narrow-band driving sound source signal, and generating a wide-band sound source signal from the estimated wide-band adaptive sound source signal and wide-band driving sound source signal It comprised with the addition means.

または、広帯域音源推定手段は、入力の狭帯域音源信号を分析して狭帯域長周期予測符号と狭帯域長周期予測残差信号を得る音源分析手段と、この狭帯域長周期予測残差信号を用いて広帯域長周期予測残差信号を推定する長周期予測残差推定手段と、狭帯域長周期予測符号を用いて広帯域長周期予測符号を推定する広帯域長周期予測符号推定手段と、これら推定された広帯域長周期予測残差信号と広帯域長周期予測符号とから広帯域音源信号を合成する長周期合成手段とで構成した。   Alternatively, the wideband sound source estimation means analyzes the input narrowband sound source signal to obtain a narrowband long period prediction code and a narrowband long period prediction residual signal, and the narrowband long period prediction residual signal. A long-period prediction residual estimation means for estimating a wideband long-period prediction residual signal using a wideband long-period prediction code estimation means for estimating a wideband long-period prediction code using a narrowband long-period prediction code; A long-period synthesis means for synthesizing a wide-band source signal from a wide-band long-period prediction residual signal and a wide-band long-period prediction code.

他の広帯域音声復元装置は、狭帯域音声信号を分析して狭帯域スペクトルパラメータと狭帯域振幅情報とを得る分析手段と、この狭帯域スペクトルパラメータと狭帯域振幅情報を用いて少なくとも広帯域スペクトルパラメータまたは広帯域振幅情報を推定するスペクトル推定手段と、これら推定された広帯域スペクトルパラメータと広帯域振幅情報または広帯域音源信号とから広帯域音声信号を生成する合成手段を備えた。   Another wideband speech restoration apparatus analyzes narrowband speech signals to obtain narrowband spectral parameters and narrowband amplitude information, and uses at least the wideband spectral parameters or narrowband amplitude information using the narrowband spectral parameters and narrowband amplitude information. Spectral estimation means for estimating wideband amplitude information and synthesis means for generating a wideband speech signal from these estimated wideband spectral parameters and wideband amplitude information or wideband sound source signals are provided.

または、狭帯域音声信号を用いて広帯域音声信号を推定する広帯域推定手段と、推定された広帯域音声信号に対してポストフィルタリングを行うポストフィルタ手段を備えた。   Alternatively, a wideband estimation unit that estimates a wideband audio signal using a narrowband audio signal and a postfilter unit that performs postfiltering on the estimated wideband audio signal are provided.

または、狭帯域音声信号を分析して狭帯域スペクトルパラメータを得る分析手段と、狭帯域スペクトルパラメータをそのまま広帯域スペクトルパラメータとして用いて広帯域スペクトルパラメータを出力するスペクトル推定手段と、この出力された広帯域スペクトルパラメータから広帯域音声信号を生成する合成手段を備えた。   Or analyzing means for analyzing a narrowband speech signal to obtain a narrowband spectral parameter; spectrum estimating means for outputting a wideband spectral parameter using the narrowband spectral parameter as it is as a wideband spectral parameter; and the output wideband spectral parameter Synthesis means for generating a wideband audio signal from

または、狭帯域音声信号を分析して狭帯域スペクトルパラメータを得る分析手段と、狭帯域スペクトルパラメータを必要に応じて別領域に変換し、変形を行い、スペクトルパラメータの領域に逆変換して広帯域スペクトルパラメータを出力するスペクトル推定手段と、この出力された広帯域スペクトルパラメータから広帯域音声信号を生成する合成手段を備えた。   Alternatively, an analysis means for analyzing a narrowband speech signal to obtain a narrowband spectrum parameter, and converting the narrowband spectrum parameter into another region as necessary, performing transformation, and inversely transforming into the spectrum parameter region, thereby obtaining a wideband spectrum. Spectrum estimation means for outputting parameters and synthesis means for generating a wideband speech signal from the outputted wideband spectrum parameters are provided.

他の広帯域音声復元装置は、狭帯域音声符号から広帯域スペクトルパラメータを推定するスペクトル復号手段と、この推定された広帯域スペクトルパラメータから広帯域音声信号を生成する合成手段を備えた。   Another wideband speech restoration apparatus includes a spectrum decoding unit that estimates a wideband spectral parameter from a narrowband speech code, and a synthesis unit that generates a wideband speech signal from the estimated wideband spectral parameter.

または、狭帯域音声符号から分離された狭帯域スペクトル符号を用いて広帯域スペクトルパラメータを推定するスペクトル復号手段と、狭帯域音声符号から分離された狭帯域音源符号を用いて広帯域音源信号を推定する広帯域音源復号手段と、この推定された広帯域スペクトルパラメータと広帯域音源信号とから広帯域音声信号を生成する合成手段を備えた。   Alternatively, spectrum decoding means for estimating a wideband spectrum parameter using a narrowband spectral code separated from a narrowband speech code, and a wideband for estimating a wideband sound source signal using a narrowband excitation code separated from the narrowband speech code A sound source decoding unit and a synthesizing unit for generating a wide band speech signal from the estimated wide band spectrum parameter and the wide band sound source signal are provided.

また更に、広帯域音源復号手段として、狭帯域音源符号から復元した狭帯域音源信号の各サンプル間隔中に所定の零値を挿入する零詰手段を用いた。   Still further, as the wideband excitation decoding means, zero padding means for inserting a predetermined zero value into each sample interval of the narrowband excitation signal restored from the narrowband excitation code is used.

または、広帯域音源復号手段は、入力の狭帯域音声符号から分離した狭帯域適応音源符号を用いて広帯域適応音源信号を推定する広帯域適応音源復号手段と、入力の狭帯域音声符号から分離した狭帯域駆動音源符号を用いて広帯域駆動音源信号を推定する広帯域駆動音源復号手段と、これらの推定された広帯域適応音源信号と広帯域駆動音源信号とから広帯域音源信号を生成する加算手段とで構成した。   Alternatively, the wideband excitation decoding means includes a wideband adaptive excitation decoding means for estimating a wideband adaptive excitation signal using a narrowband adaptive excitation code separated from the input narrowband speech code, and a narrowband separated from the input narrowband speech code. A wideband drive excitation decoding means for estimating a wideband drive excitation signal using the drive excitation code and an addition means for generating a wideband excitation signal from these estimated wideband adaptive excitation signal and wideband drive excitation signal.

または、広帯域音源復号手段は、入力の狭帯域音声符号から分離した狭帯域長周期予測符号を用いて広帯域長周期予測符号を推定する広帯域長周期予測符号復号手段と、入力の狭帯域音声符号から分離した狭帯域長周期予測残差符号を用いて広帯域長周期予測残差信号を推定する広帯域長周期予測残差復号手段と、これら推定された広帯域長周期予測符号と広帯域長周期予測残差信号とから広帯域音源信号を生成する加算手段とで構成した。   Alternatively, the wideband excitation decoding means includes: a wideband long period prediction code decoding means for estimating a wideband long period prediction code using a narrowband long period prediction code separated from an input narrowband speech code; and an input narrowband speech code Wideband long period prediction residual decoding means for estimating a wideband long period prediction residual signal using the separated narrowband long period prediction residual code, and these estimated wideband long period prediction code and wideband long period prediction residual signal And adding means for generating a broadband sound source signal.

または、狭帯域音声符号から分離された狭帯域音源符号を用いて狭帯域振幅情報を推定する狭帯域振幅情報復号手段と、狭帯域音声符号から分離された狭帯域スペクトル符号と狭帯域振幅情報を用いて少なくとも広帯域スペクトルパラメータまたは広帯域振幅情報を推定するスペクトル復号手段と、この推定された広帯域スペクトルパラメータと必要に応じて広帯域振幅情報または広帯域音源信号とから広帯域音声信号を生成する合成手段を備えた。   Alternatively, a narrowband amplitude information decoding means for estimating narrowband amplitude information using a narrowband excitation code separated from a narrowband speech code, and a narrowband spectrum code and narrowband amplitude information separated from the narrowband speech code Spectral decoding means for estimating at least wideband spectral parameters or wideband amplitude information using, and synthesizing means for generating wideband speech signals from the estimated wideband spectral parameters and wideband amplitude information or wideband sound source signals as necessary .

または、狭帯域音声符号を用いて広帯域音声信号を推定する広帯域音声復号手段と、この復号し推定された広帯域音声信号に対してポストフィルタリングを行うポストフィルタ手段を備えた。   Alternatively, a wideband speech decoding unit that estimates a wideband speech signal using a narrowband speech code and a postfilter unit that performs postfiltering on the decoded and estimated wideband speech signal are provided.

前述した広帯域音声復元装置は、狭帯域スペクトルパラメータを用いて推定した広帯域スペクトルパラメータと、狭帯域音源信号を用いて推定した広帯域音源信号とから広帯域音声信号が合成される。   The above-described wideband speech restoration apparatus synthesizes a wideband speech signal from the wideband spectrum parameter estimated using the narrowband spectrum parameter and the wideband sound source signal estimated using the narrowband sound source signal.

また、狭帯域音源信号の各サンプル間に所定個ずつの零を挿入する事で広帯域音源信号が生成され、これと推定した広帯域スペクトルとを用いて広帯域音声信号が合成される。   Further, a wideband sound source signal is generated by inserting a predetermined number of zeros between samples of the narrowband sound source signal, and a wideband sound signal is synthesized using this and the estimated wideband spectrum.

また、広帯域音源信号の推定にあたっては、入力の狭帯域音源信号を分析して狭帯域適応音源符号と狭帯域駆動音源信号が算出され、この狭帯域適応音源符号を用いて推定した広帯域適応音源信号と、狭帯域駆動音源を用いて推定した広帯域駆動音源信号とを加算して広帯域音源信号とした。これと推定した広帯域スペクトルとを用いて広帯域音声信号が合成される。   When estimating the wideband excitation signal, the narrowband adaptive excitation code and the narrowband driving excitation signal are calculated by analyzing the input narrowband excitation signal, and the wideband adaptive excitation signal estimated using this narrowband adaptive excitation code is calculated. And a wide-band driving sound source signal estimated using a narrow-band driving sound source were added to obtain a wide-band sound source signal. A broadband audio signal is synthesized using this and the estimated broadband spectrum.

また、他の広帯域音源信号の推定のやり方として、入力狭帯域音源信号を分析して狭帯域長周期予測符号と狭帯域長周期残差信号が算出され、狭帯域長周期予測符号を用いて推定した広帯域長周期予測符号と、狭帯域長周期残差信号を用いて推定した広帯域長周期残差信号とを用いて広帯域音源信号とした。これと推定した広帯域スペクトルとを用いて広帯域音声信号が合成される。   As another method for estimating a wideband sound source signal, an input narrowband sound source signal is analyzed to calculate a narrowband long period prediction code and a narrowband long period residual signal, and estimation is performed using the narrowband long period prediction code. The wideband long-period prediction signal and the wideband long-period residual signal estimated using the narrowband long-period residual signal were used as a broadband sound source signal. A broadband audio signal is synthesized using this and the estimated broadband spectrum.

また、他の広帯域音声復元装置は、狭帯域音声信号を分析して狭帯域スペクトルパラメータと狭帯域振幅情報と狭帯域音源信号が算出され、狭帯域スペクトルパラメータと狭帯域振幅情報を用いて広帯域スペクトルパラメータと広帯域振幅情報のいずれかまたはその両方が推定される。その後、これらの信号と狭帯域音源信号から推定された広帯域音源信号とで広帯域音声信号が合成される。   Another wideband speech restoration apparatus analyzes a narrowband speech signal to calculate a narrowband spectrum parameter, narrowband amplitude information, and a narrowband sound source signal, and uses the narrowband spectrum parameter and the narrowband amplitude information to Either or both of the parameters and the broadband amplitude information are estimated. Thereafter, a wideband audio signal is synthesized with these signals and the wideband sound source signal estimated from the narrowband sound source signal.

また、他の広帯域音声復元装置は、狭帯域音声信号を用いて推定した広帯域音声信号にポストフィルタリングが行われ、主として、高域特性が加工される。   In addition, other wideband audio restoration devices perform post filtering on a wideband audio signal estimated using a narrowband audio signal, and mainly process high frequency characteristics.

また、他の広帯域音声復元装置は、狭帯域スペクトルパラメータの特性を全域に伸張して広帯域スペクトルパラメータとして用いて広帯域音声信号が合成される。   In addition, another wideband speech restoration apparatus synthesizes a wideband speech signal using the narrowband spectrum parameter as a wideband spectrum parameter by extending the characteristics of the narrowband spectrum parameter.

また、他の広帯域音声復元装置は、狭帯域スペクトルパラメータの特定次数までを用い、これを対応するスペクトルパラメータに逆変換する事で広帯域スペクトルパラメータを得、これを用いて広帯域音声信号が合成される。   In addition, other wideband speech restoration apparatuses use up to a specific order of narrowband spectral parameters, and inversely convert them into corresponding spectral parameters to obtain wideband spectral parameters, which are used to synthesize wideband speech signals. .

また、他の広帯域音声復元装置は、狭帯域音声符号を用いて狭帯域合成音の生成と広帯域音声信号の推定を行い、狭帯域合成音をアップサンプリングした信号または狭帯域合成音に、前記広帯域音声信号の狭帯域合成音以外の主として高域の帯域の成分を抽出した信号を加算して広帯域音声信号が合成される。   In addition, another wideband speech restoration apparatus generates a narrowband synthesized sound and estimates a wideband speech signal using a narrowband speech code, and converts the narrowband synthesized sound into a signal obtained by up-sampling the narrowband synthesized sound or the narrowband synthesized sound. A wideband audio signal is synthesized by adding signals obtained by extracting mainly high frequency band components other than the narrowband synthesized sound of the audio signal.

また、他の広帯域音声復元装置は、狭帯域スペクトル符号を用いて推定した広帯域スペクトルパラメータと、狭帯域音源符号を用いて推定した広帯域音源信号とを用いて広帯域音声信号が合成される。   Another wideband speech restoration apparatus synthesizes a wideband speech signal using a wideband spectrum parameter estimated using a narrowband spectral code and a wideband sound source signal estimated using a narrowband excitation code.

また、更に、広帯域音源復号手段により、狭帯域音源符号を用いて復号した狭帯域音源の各サンプル間に所定個ずつの零値を挿入する事で広帯域音源信号が生成され、これと推定した広帯域スペクトルとを用いて広帯域音声信号が合成される。   Further, the wideband excitation signal is generated by inserting a predetermined number of zero values between each sample of the narrowband excitation decoded by the narrowband excitation code by the broadband excitation decoding means. A broadband audio signal is synthesized using the spectrum.

また、他の広帯域音源復号手段により、狭帯域適応音源符号を用いて推定した広帯域適応音源信号と、狭帯域駆動音源信号から推定した広帯域駆動音源信号が加算されて広帯域音源信号が生成される。これと推定した広帯域スペクトルとを用いて広帯域音声信号が合成される。   Further, the wideband excitation signal is generated by adding the wideband adaptive excitation signal estimated using the narrowband adaptive excitation code and the wideband driving excitation signal estimated from the narrowband driving excitation signal by other broadband excitation decoding means. A broadband audio signal is synthesized using this and the estimated broadband spectrum.

また、他の広帯域音源復号手段により、狭帯域音源符号を用いて推定した広帯域長周期予測符号と、狭帯域長周期予測残差信号から推定された広帯域長周期残差信号とから広帯域音源信号が合成される。これと推定した広帯域スペクトルとを用いて広帯域音声信号が合成される。   Further, the wideband excitation signal is generated from the wideband long period prediction code estimated using the narrowband excitation code and the wideband long period residual signal estimated from the narrowband long period prediction residual signal by other wideband excitation decoding means. Synthesized. A broadband audio signal is synthesized using this and the estimated broadband spectrum.

また、他の広帯域音声復元装置は、狭帯域スペクトル符号と狭帯域振幅情報を用いて広帯域スペクトルパラメータと広帯域振幅情報のいずれかまたはその両方が推定される。その後、これらの情報と狭帯域音源信号から推定された広帯域音源信号とで広帯域音声信号が合成される。   In another wideband speech restoration apparatus, either or both of the wideband spectrum parameter and the wideband amplitude information are estimated using the narrowband spectrum code and the narrowband amplitude information. Thereafter, a wideband audio signal is synthesized with the information and the wideband sound source signal estimated from the narrowband sound source signal.

また、他の広帯域音声復元装置は、狭帯域音声符号を用いて推定した広帯域音声信号にポストフィルタリングが行われ、主として高域特性が加工される。   In another wideband speech restoration apparatus, post-filtering is performed on a wideband speech signal estimated using a narrowband speech code, and mainly high frequency characteristics are processed.

以上説明したように、狭帯域音源信号を用いて広帯域音源信号の推定を行い、これを用いて広帯域音声信号を合成するようにしたので、狭帯域音源信号の特徴を良好に広帯域音源信号に与える事ができ、話者に依存性が少なく、安定で自然な音質の広帯域音声を復元することができる効果がある。   As described above, the wideband sound source signal is estimated using the narrowband sound source signal, and the wideband sound signal is synthesized using this, so that the characteristics of the narrowband sound source signal are given to the wideband sound source signal well. This is advantageous in that it can restore wideband speech with a stable and natural sound quality with less dependence on the speaker.

また、広帯域音源推定手段として、狭帯域音源信号の各サンプル間に所定個ずつの零を挿入する零詰め手段を用いたので、有声無声判定やピッチ抽出が必要なく、有声無声判定誤りやピッチ抽出誤りの影響がない良好な広帯域音源を推定でき、安定で自然な音質の広帯域音声を復元することができる効果がある。   Also, as the wideband sound source estimation means, zero padding means for inserting a predetermined number of zeros between each sample of the narrowband sound source signal is used, so there is no need for voiced / unvoiced determination and pitch extraction, and voiced / unvoiced determination errors and pitch extraction It is possible to estimate a good wide-band sound source that is not affected by errors, and to recover a wide-band sound having a stable and natural sound quality.

また、広帯域音源推定手段として、狭帯域適応音源符号と狭帯域駆動音源信号を用いて広帯域適応音源信号と広帯域駆動音源信号を推定するようにし、これから広帯域音源信号を生成するようにしたので、狭帯域音源信号の持つピッチ周期性の強さや変動に関する特徴が良好に広帯域音源信号に反映され、パルス的な音もなく、良好な音質の広帯域音声を復元することができる効果がある。   In addition, as the broadband excitation estimation means, the broadband adaptive excitation signal and the broadband driving excitation signal are estimated using the narrowband adaptive excitation code and the narrowband driving excitation signal, and the broadband excitation signal is generated therefrom. Features relating to the strength and fluctuation of pitch periodicity possessed by the band sound source signal are reflected in the wide band sound source signal, and there is an effect that it is possible to restore wide sound with good sound quality without pulse-like sound.

更に、基本周波数とその高調波成分の周波数が正しく整数倍の位置に並ぶので、広帯域音声信号での狭帯域成分と復元広帯域成分のつながりが良く、またピッチ周期性の実際的な性質も復元でき、高品質な広帯域音声を復元できる効果がある。   In addition, since the fundamental frequency and the frequency of its harmonic components are correctly aligned at integer multiples, the connection between the narrowband component and the restored wideband component in the wideband audio signal is good, and the practical nature of pitch periodicity can also be restored. This has the effect of restoring high-quality wideband audio.

また、広帯域音源推定手段として、狭帯域長周期予測符号と狭帯域長周期残差信号を用いて広帯域長周期予測符号と広帯域長周期残差信号を推定するようにし、これらを用いて広帯域音源信号を合成するようにしたので、狭帯域音源信号の持つピッチ周期性の強さや変動に関する特徴が良好に広帯域音源信号に反映され、パルス的な音もなく、良好な音質の広帯域音声を復元することができる効果がある。   Also, as a broadband sound source estimation means, a wideband long period prediction code and a wideband long period residual signal are estimated using a narrowband long period prediction code and a narrowband long period residual signal, and the wideband sound source signal is estimated using these. Therefore, the characteristics of the pitch periodicity of narrow-band sound source signals and the characteristics of fluctuations are well reflected in the wide-band sound source signal, and there is no pulsing sound to restore wide-band sound with good sound quality. There is an effect that can.

更に、基本周波数とその高調波成分の周波数が正しく整数倍の位置に並ぶので、最終的に復元される広帯域音声信号での狭帯域成分と復元広帯域成分のつながりが良く、実際のピッチ周期性の特性もとり入れることができ、高品質な広帯域音声を復元できる効果がある。   Furthermore, since the fundamental frequency and the frequency of its harmonic components are correctly aligned at integer multiples, the narrow-band component and the restored broadband component in the finally restored broadband audio signal are well connected, and the actual pitch periodicity Characteristics can also be incorporated, and there is an effect that high-quality wideband voice can be restored.

また、狭帯域スペクトルパラメータと狭帯域振幅情報を用いて広帯域スペクトルパラメータと広帯域振幅情報のいずれか、または両方を推定するようにしたので、広帯域のスペクトルパラメータの推定に狭帯域振幅情報が反映され、より安定に良好なスペクトルが推定でき、より正しい振幅を持った広帯域音声が復元できる効果がある。   Also, since one or both of the broadband spectrum parameter and the broadband amplitude information is estimated using the narrowband spectrum parameter and the narrowband amplitude information, the narrowband amplitude information is reflected in the estimation of the broadband spectrum parameter, A good spectrum can be estimated more stably, and there is an effect that wideband speech having a more correct amplitude can be restored.

また更に、狭帯域音声信号を用いて推定した広帯域音声信号にポストフィルタリングを行うようにしたので、復元された広帯域音声信号の音質が不足する場合に、ピッチ周期性の強調、スペクトル包絡の極の強調等の音質改善ができる効果がある。   Furthermore, since post-filtering is performed on the wideband audio signal estimated using the narrowband audio signal, when the sound quality of the restored wideband audio signal is insufficient, the enhancement of pitch periodicity and the extreme of the spectral envelope are performed. It has the effect of improving sound quality such as emphasis.

また更に、狭帯域スペクトルパラメータを伸張して広帯域スペクトルパラメータとして用いて広帯域音声信号を合成するようにしたので、極めて簡単におおまかな広帯域スペクトルを復元できる効果がある。また、符号帳を蓄積しておくメモリが不必要で、演算量が少なくなる効果がある。   Furthermore, since the narrow band spectrum parameter is expanded and used as the wide band spectrum parameter to synthesize the wide band speech signal, there is an effect that the rough wide band spectrum can be restored very easily. In addition, there is no need for a memory for storing the code book, and the amount of calculation is reduced.

また更に、狭帯域スペクトルパラメータの所定次数までを用いてこれをスペクトルパラメータに逆変換する事で広帯域スペクトルパラメータを得るようにしたので、極めて簡単におおまかな広帯域スペクトルを復元できる効果がある。また、符号帳を蓄積しておくメモリが不必要で、演算量が少なくなる効果がある。   Furthermore, since a wideband spectrum parameter is obtained by inversely converting it to a spectral parameter using up to a predetermined order of the narrowband spectral parameter, there is an effect that a rough broadband spectrum can be restored very easily. In addition, there is no need for a memory for storing the code book, and the amount of calculation is reduced.

またこの発明によれば、狭帯域音声符号を用いて狭帯域合成音の生成と広帯域音声信号の推定を行い、狭帯域合成音をアップサンプリングした信号か狭帯域合成音に、広帯域音声信号の狭帯域合成音以外の帯域の成分を抽出して加算したので、符号化された狭帯域音声からでも広帯域音声の復元が可能となり、復号した狭帯域音声を再分析しないので、少ない処理量で復元ができる効果がある。   Further, according to the present invention, a narrowband synthesized sound is generated and a wideband speech signal is estimated using a narrowband speech code, and the narrowband synthesized signal is narrowed to a signal obtained by upsampling the narrowband synthesized sound or the narrowband synthesized sound. Since the components of the band other than the band synthesized sound are extracted and added, wideband speech can be restored from the encoded narrowband speech, and the decoded narrowband speech is not re-analyzed, so restoration is possible with a small amount of processing. There is an effect that can be done.

または、狭帯域スペクトル符号を用いて推定した広帯域スペクトルパラメータと、狭帯域音源符号を用いて推定した広帯域音源信号とを用いて広帯域音声信号を合成するようにしたので、復号した狭帯域音声を再分析する必要がなく、少ない処理量で復元ができる効果がある。また、合成時の補間や分析時の窓掛等による歪が重畳しないので、より良い品質の広帯域音声が復元できる効果がある。   Alternatively, since the wideband speech signal is synthesized using the wideband spectrum parameter estimated using the narrowband spectral code and the wideband sound source signal estimated using the narrowband excitation code, the decoded narrowband speech is reproduced again. There is no need for analysis, and there is an effect that restoration can be performed with a small amount of processing. In addition, since distortion due to interpolation at the time of synthesis or windowing at the time of analysis is not superimposed, there is an effect that a broadband voice with better quality can be restored.

また広帯域音源復号手段として、狭帯域音源符号を用いて復号した狭帯域音源の各サンプル間に所定個ずつの零を挿入する零詰め手段を用いたので、有声と無声の中間的な性質の音源も良好に復元でき、安定で自然な音質の広帯域音声を復元することができる効果がある。   Also, as the wideband sound source decoding means, zero padding means for inserting a predetermined number of zeros between each sample of the narrowband sound source decoded using the narrowband sound source code is used, so a sound source having an intermediate property between voiced and unvoiced Can be restored well, and there is an effect that it is possible to restore wideband sound of stable and natural sound quality.

また、広帯域音源復号手段として、狭帯域音源符号を用いて推定した広帯域適応音源信号と広帯域駆動音源信号を推定するようにし、それを加算して広帯域音源信号としたので、狭帯域音源信号の復号を行わずに直接広帯域音源信号が生成され、少ない処理量で復元ができる効果がある。   Also, as the wideband excitation decoding means, the wideband adaptive excitation signal estimated using the narrowband excitation code and the wideband driving excitation signal are estimated and added to obtain the wideband excitation signal. The wideband sound source signal is directly generated without performing the process, and there is an effect that it can be restored with a small amount of processing.

また、狭帯域音源符号が含んでいるピッチ周期性の強さや変動に関する特徴が良好に広帯域音源信号に反映されるので、良好な音質の広帯域音声を復元することができる効果がある。   In addition, since the characteristics relating to the strength and fluctuation of pitch periodicity included in the narrowband excitation code are well reflected in the broadband excitation signal, it is possible to restore wideband speech with good sound quality.

また、広帯域音源復号手段として、狭帯域音源符号を用いて推定した広帯域長周期予測符号と広帯域長周期残差信号とを推定するようにし、これらを用いて広帯域音源信号を合成するようにしたので、狭帯域音源信号の復号を行わずに直接広帯域音源信号が生成され、少ない処理量で復元ができる効果がある。   Also, as the wideband excitation decoding means, the wideband long-period prediction code and the wideband long-period residual signal estimated using the narrowband excitation code are estimated, and the wideband excitation signal is synthesized using these. The wideband sound source signal is directly generated without decoding the narrowband sound source signal, and there is an effect that it can be restored with a small amount of processing.

また、狭帯域音源符号が含んでいるピッチ周期性の強さや変動に関する特徴が良好に広帯域音源信号に反映されるので、良好な音質の広帯域音声を復元することができる効果がある。   In addition, since the characteristics relating to the strength and fluctuation of pitch periodicity included in the narrowband excitation code are well reflected in the broadband excitation signal, it is possible to restore wideband speech with good sound quality.

また、狭帯域スペクトル符号と狭帯域振幅情報を用いて広帯域スペクトルパラメータと広帯域振幅情報のいずれか、またはその両方を推定するようにしたので、広帯域のスペクトルパラメータの推定に狭帯域振幅情報が反映され、より安定に良好なスペクトルが推定でき、広帯域振幅情報の推定に狭帯域スペクトルパ符号の違いを反映させる事ができるので、より正しい振幅を持った広帯域音声が復元できる効果がある。   In addition, narrowband spectral information and narrowband amplitude information are used to estimate wideband spectral parameters and / or wideband amplitude information, so narrowband amplitude information is reflected in the estimation of wideband spectral parameters. Therefore, a good spectrum can be estimated more stably, and the difference in the narrowband spectrum code can be reflected in the estimation of the wideband amplitude information, so that it is possible to restore wideband speech having a more correct amplitude.

また更に、狭帯域音声符号を用いて推定した広帯域音声信号にポストフィルタリングを行うようにしたので、狭帯域合成音に対してポストフィルタ処理が適用される場合に、狭帯域部と復元した帯域の連続性がよくなる効果がある。また、復元された広帯域音声信号の音質が不足する場合に、ピッチ周期性の強調、スペクトル包絡の極の強調等の音質改善ができる効果がある。   Furthermore, since the post-filtering is performed on the wideband speech signal estimated using the narrowband speech code, when the postfilter process is applied to the narrowband synthesized sound, the narrowband portion and the restored band There is an effect of improving continuity. Further, when the sound quality of the restored wideband audio signal is insufficient, there is an effect that the sound quality can be improved, such as emphasizing pitch periodicity and emphasizing the pole of the spectrum envelope.

この発明の実施例1の広帯域音声復元装置の構成図である。It is a block diagram of the wideband audio | voice restoration apparatus of Example 1 of this invention. この発明の実施例1における零詰手段の処理を説明する説明図である。It is explanatory drawing explaining the process of the zero padding means in Example 1 of this invention. この発明の実施例2の広帯域音声復元装置における広帯域音源推定手段の構成図である。It is a block diagram of the wideband sound source estimation means in the wideband audio | voice restoration apparatus of Example 2 of this invention. この発明の実施例2における適応音源信号の一例を説明する説明図である。It is explanatory drawing explaining an example of the adaptive sound source signal in Example 2 of this invention. この発明の実施例3の広帯域音声復元装置における広帯域駆動音源推定手段の構成図である。It is a block diagram of the wideband drive sound source estimation means in the wideband audio | voice restoration apparatus of Example 3 of this invention. この発明の実施例4の広帯域音声復元装置における広帯域駆動音源推定手段の構成図である。It is a block diagram of the wideband drive sound source estimation means in the wideband audio | voice restoration apparatus of Example 4 of this invention. この発明の実施例5の広帯域音声復元装置における広帯域音源推定手段の構成図である。It is a block diagram of the wideband sound source estimation means in the wideband audio | voice restoration apparatus of Example 5 of this invention. この発明の実施例6の広帯域音声復元装置における広帯域駆動音源推定手段の構成図である。It is a block diagram of the wideband drive sound source estimation means in the wideband audio | voice restoration apparatus of Example 6 of this invention. この発明の実施例7の広帯域音声復元装置における広帯域駆動音源推定手段の構成図である。It is a block diagram of the wideband drive sound source estimation means in the wideband audio | voice restoration apparatus of Example 7 of this invention. この発明の実施例8の広帯域音声復元装置における広帯域音源推定手段の構成図である。It is a block diagram of the wideband sound source estimation means in the wideband audio | voice restoration apparatus of Example 8 of this invention. この発明の実施例9の広帯域音声復元装置の構成図である。It is a block diagram of the wideband audio | voice restoration apparatus of Example 9 of this invention. この発明の実施例10の広帯域音声復元装置の構成図である。It is a block diagram of the wideband audio | voice restoration apparatus of Example 10 of this invention. この発明の実施例11の広帯域音声復元装置の構成図である。It is a block diagram of the wideband audio | voice restoration apparatus of Example 11 of this invention. この発明の実施例12の広帯域音声復元装置の構成図である。It is a block diagram of the wideband audio | voice restoration apparatus of Example 12 of this invention. この発明の実施例13における狭帯域スペクトルと広帯域スペクトルの概形の関係を説明する説明図である。It is explanatory drawing explaining the relationship between the outline of a narrowband spectrum and a wideband spectrum in Example 13 of this invention. この発明の実施例14における狭帯域スペクトルと広帯域スペクトルの概形の関係を説明する説明図である。It is explanatory drawing explaining the relationship of the rough shape of the narrowband spectrum and wideband spectrum in Example 14 of this invention. この発明の実施例15の広帯域音声復元装置における広帯域スペクトル推定手段の構成図である。It is a block diagram of the wideband spectrum estimation means in the wideband audio | voice restoration apparatus of Example 15 of this invention. この発明の実施例17の広帯域音声復元装置の構成図である。It is a block diagram of the wideband audio | voice restoration apparatus of Example 17 of this invention. この発明の実施例18の広帯域音声復元装置における広帯域音源復号手段の構成図である。It is a block diagram of the wideband sound-source decoding means in the wideband audio | voice restoration apparatus of Example 18 of this invention. この発明の実施例19の広帯域音声復元装置における広帯域音源復号手段の構成図である。It is a block diagram of the wideband sound-source decoding means in the wideband audio | voice restoration apparatus of Example 19 of this invention. この発明の実施例20の広帯域音声復元装置における広帯域音源復号手段の構成図である。It is a block diagram of the wideband sound-source decoding means in the wideband audio | voice restoration apparatus of Example 20 of this invention. この発明の実施例22の広帯域音声復元装置の構成図である。It is a block diagram of the wideband audio | voice restoration apparatus of Example 22 of this invention.

符号の説明Explanation of symbols

1 狭帯域音声信号、2 分析手段、3 スペクトル分析手段、4 狭帯域スペクトルパラメータ、5 逆フィルタ、6 狭帯域音源信号、7 広帯域スペクトル推定手段、8 ベクトル量子化手段、9 狭帯域スペクトル符号帳、10 スペクトル符号、11 逆量子化手段、12 広帯域スペクトル符号帳、13 広帯域スペクトルパラメータ、14 広帯域音源推定手段、15 零詰手段、16 広帯域音源信号、17 合成フィルタ、18 帯域フィルタ、19 アップサンプリング手段、20 広帯域音声信号、21 音源分析手段、22 狭帯域適応符号帳、23 歪最小化手段、24 狭帯域駆動音源信号、25 狭帯域適応ラグ長、26 狭帯域適応ゲイン、27 広帯域駆動音源推定手段、28 零詰手段、29 広帯域駆動音源信号、30 広帯域適応音源推定手段、31 広帯域適応音源符号帳、32 広帯域適応音源信号、33 広帯域適応ラグ長、34 広帯域適応ゲイン、35 パワー算出手段、36 雑音生成手段、37 狭帯域長周期予測分析手段、38 狭帯域長周期遅延、39 狭帯域長周期予測係数、40 長周期逆フィルタ、41 狭帯域長周期予測残差信号、42 広帯域長周期予測残差推定手段、43 零詰手段、44 広帯域長周期予測パラメータ推定手段、45 広帯域長周期遅延、46 広帯域長周期予測係数、47 長周期合成フィルタ、48 広帯域長周期予測残差信号、49 アップサンプリング手段、50 零化手段、51 狭帯域パワー算出手段、52 狭帯域音源パワー、53 狭帯域パワー込みスペクトル符号、54 音源正規化手段、55 狭帯域正規化音源信号、56 広帯域正規化音源信号、57 広帯域パワー符号帳、58 広帯域音源パワー、59 広帯域音源パワー推定手段、60 広帯域パワー込みスペクトル符号帳、61 ポストフィルタ手段、62 スペクトルパラメータ変換手段、63 次数低減手段、64 スペクトルパラメータ逆変換手段、101 狭帯域音声符号、102 分離手段、103 狭帯域スペクトル符号、104 狭帯域音源符号、105 広帯域スペクトル復号手段、106 広帯域音源復号手段、107 狭帯域スペクトル復号手段、108 狭帯域音源復号手段、109 狭帯域音声復号手段、110 狭帯域ピッチ符号、111 狭帯域パワー符号、112 広帯域ピッチ復号手段、113 広帯域ピッチ周期、114 広帯域パワー復号手段、115 広帯域パワー復号手段、116 音源生成手段、117 狭帯域適応音源符号、118 狭帯域駆動音源符号、119 広帯域適応音源復号手段、120 広帯域駆動音源復号手段、121 狭帯域適応音源復号手段、122 狭帯域駆動音源復号手段、123 狭帯域長周期予測符号、124 広帯域長周期予測パラメータ復号手段、125 狭帯域長周期予測パラメータ復号手段、126 狭帯域長周期予測残差符号、127 広帯域長周期予測残差復号手段、128 狭帯域長周期予測残差復号手段、129 狭帯域パワー復号手段、130 広帯域正規化音源復号手段。   1 narrowband speech signal, 2 analysis means, 3 spectrum analysis means, 4 narrowband spectrum parameters, 5 inverse filter, 6 narrowband excitation signal, 7 wideband spectrum estimation means, 8 vector quantization means, 9 narrowband spectrum codebook, DESCRIPTION OF SYMBOLS 10 Spectral code, 11 Inverse quantization means, 12 Wideband spectral codebook, 13 Wideband spectrum parameter, 14 Wideband sound source estimation means, 15 Zero padding means, 16 Wideband sound source signal, 17 Synthesis filter, 18 Bandpass filter, 19 Upsampling means, 20 Wideband speech signal, 21 Sound source analysis means, 22 Narrowband adaptive codebook, 23 Distortion minimization means, 24 Narrowband drive sound source signal, 25 Narrowband adaptive lag length, 26 Narrowband adaptive gain, 27 Wideband drive sound source estimation means, 28 Zero padding means, 29 Broadband drive sound source signal, 30 Band adaptive excitation estimation means, 31 Wideband adaptive excitation codebook, 32 Wideband adaptive excitation signal, 33 Wideband adaptive lag length, 34 Wideband adaptive gain, 35 Power calculation means, 36 Noise generation means, 37 Narrowband long period prediction analysis means, 38 Narrowband long period delay, 39 Narrowband long period prediction coefficient, 40 Long period inverse filter, 41 Narrowband long period prediction residual signal, 42 Wideband long period prediction residual estimation means, 43 Zero padding means, 44 Wideband long period prediction Parameter estimation means, 45 Wideband long period delay, 46 Wideband long period prediction coefficient, 47 Long period synthesis filter, 48 Wideband long period prediction residual signal, 49 Upsampling means, 50 Zeroing means, 51 Narrowband power calculation means, 52 Narrowband excitation power, 53 Narrowband power-included spectrum code, 54 Sound source normalization means, 55 Narrowband positive Normalized excitation signal, 56 Wideband normalized excitation signal, 57 Wideband power codebook, 58 Wideband excitation power, 59 Wideband excitation power estimation means, 60 Wideband power-included spectrum codebook, 61 Post filter means, 62 Spectral parameter conversion means, 63 Order reduction means, 64 spectral parameter inverse transformation means, 101 narrowband speech code, 102 separation means, 103 narrowband spectral code, 104 narrowband excitation code, 105 wideband spectrum decoding means, 106 wideband excitation decoding means, 107 narrowband spectrum decoding 108 narrowband excitation decoding means 109 narrowband speech decoding means 110 narrowband pitch code 111 narrowband power code 112 wideband pitch decoding means 113 wideband pitch period 114 wideband power decoding means 115 wideband Power decoding means, 116 excitation generating means, 117 narrowband adaptive excitation code, 118 narrowband driving excitation code, 119 wideband adaptive excitation decoding means, 120 wideband driving excitation decoding means, 121 narrowband adaptive excitation decoding means, 122 narrowband driving excitation Decoding means, 123 narrowband long period prediction code, 124 wideband long period prediction parameter decoding means, 125 narrowband long period prediction parameter decoding means, 126 narrowband long period prediction residual code, 127 wideband long period prediction residual decoding means, 128 narrowband long period prediction residual decoding means, 129 narrowband power decoding means, 130 wideband normalized excitation decoding means.

Claims (2)

狭帯域音声信号を符号化した狭帯域音声符号に基づいて広帯域音声信号を復元する広帯域音声復元方法において、
上記狭帯域音声符号から狭帯域スペクトルパラメータを復号する狭帯域スペクトル復号ステップと、
上記狭帯域スペクトル復号ステップにおいて復号された狭帯域スペクトルパラメータにより表される狭帯域スペクトル包絡を周波数軸方向に所定倍数引き延ばした形あり、その形状の高域部分は前記狭帯域スペクトル包絡の高域部分が反映された形状であるスペクトル包絡を表す広帯域スペクトルパラメータを出力するスペクトル復号ステップと、
上記広帯域スペクトルパラメータを用いて広帯域音声信号を生成する合成ステップとを有することを特徴とする広帯域音声復元方法。
In a wideband speech restoration method for restoring a wideband speech signal based on a narrowband speech code obtained by encoding a narrowband speech signal,
A narrowband spectral decoding step for decoding narrowband spectral parameters from the narrowband speech code;
The a shape that stretched predetermined magnification in the frequency axis direction narrowband spectral envelope represented by the narrowband spectral parameter decoded by the narrow-band spectrum decoding step, high-frequency part of the shape is the narrow band spectral envelope height A spectral decoding step of outputting a broadband spectral parameter representing a spectral envelope that is a shape reflecting the region portion ;
And a synthesis step of generating a broadband audio signal using the broadband spectrum parameter.
狭帯域音声信号を符号化した狭帯域音声符号に基づいて広帯域音声信号を復元する広帯域音声復元装置において、
上記狭帯域音声符号から狭帯域スペクトルパラメータを復号する狭帯域スペクトル復号手段と、
上記狭帯域スペクトル復号手段が復号した狭帯域スペクトルパラメータにより表される狭帯域スペクトル包絡を周波数軸方向に所定倍数引き延ばした形あり、その形状の高域部分は前記狭帯域スペクトル包絡の高域部分が反映された形状であるスペクトル包絡を表す広帯域スペクトルパラメータを出力するスペクトル復号手段と、
上記広帯域スペクトルパラメータを用いて広帯域音声信号を生成する合成フィルタとを備えることを特徴とする広帯域音声復元装置。
In a wideband speech restoration apparatus that restores a wideband speech signal based on a narrowband speech code obtained by encoding a narrowband speech signal,
Narrowband spectrum decoding means for decoding narrowband spectrum parameters from the narrowband speech code;
The narrowband spectrum decoding means is a shape in which stretched predetermined magnification in the frequency axis direction narrowband spectral envelope represented by the narrowband spectral parameter decoded, high-frequency high-frequency portion of the shape is the narrowband spectral envelope Spectral decoding means for outputting a broadband spectral parameter representing a spectral envelope that is a shape reflecting the part ; and
A wideband speech restoration apparatus comprising: a synthesis filter that generates a wideband speech signal using the broadband spectral parameter.
JP2004220335A 2004-07-28 2004-07-28 Wideband voice restoration method and wideband voice restoration apparatus Expired - Lifetime JP4087823B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004220335A JP4087823B2 (en) 2004-07-28 2004-07-28 Wideband voice restoration method and wideband voice restoration apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004220335A JP4087823B2 (en) 2004-07-28 2004-07-28 Wideband voice restoration method and wideband voice restoration apparatus

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2004115071A Division JP3598111B2 (en) 2004-04-09 2004-04-09 Broadband audio restoration device

Related Child Applications (15)

Application Number Title Priority Date Filing Date
JP2004365248A Division JP3676801B2 (en) 2004-12-17 2004-12-17 Wideband voice restoration method and wideband voice restoration apparatus
JP2005182708A Division JP2005284315A (en) 2005-06-22 2005-06-22 Method and device for wide-band speech restoration
JP2005182713A Division JP2005284317A (en) 2005-06-22 2005-06-22 Method and device for wide-band speech restoration
JP2005182706A Division JP3770899B2 (en) 2005-06-22 2005-06-22 Broadband speech restoration method and broadband speech restoration apparatus
JP2005182718A Division JP3748083B2 (en) 2005-06-22 2005-06-22 Broadband speech restoration method and broadband speech restoration apparatus
JP2005182715A Division JP2005321828A (en) 2005-06-22 2005-06-22 Wideband speech recovery method and wideband speech recovery apparatus
JP2005182712A Division JP3770901B2 (en) 2005-06-22 2005-06-22 Broadband speech restoration method and broadband speech restoration apparatus
JP2005182716A Division JP3748081B2 (en) 2005-06-22 2005-06-22 Broadband speech restoration method and broadband speech restoration apparatus
JP2005182707A Division JP2005284314A (en) 2005-06-22 2005-06-22 Method and device for wide-band speech restoration
JP2005182711A Division JP3770900B2 (en) 2005-06-22 2005-06-22 Broadband speech restoration method and broadband speech restoration apparatus
JP2005182717A Division JP3748082B2 (en) 2005-06-22 2005-06-22 Broadband speech restoration method and broadband speech restoration apparatus
JP2005182710A Division JP2005321824A (en) 2005-06-22 2005-06-22 Wideband speech recovery method and wideband speech recovery apparatus
JP2005182714A Division JP2005321827A (en) 2005-06-22 2005-06-22 Wideband speech recovery method and wideband speech recovery apparatus
JP2005182705A Division JP3748080B2 (en) 2005-06-22 2005-06-22 Broadband speech restoration method and broadband speech restoration apparatus
JP2005182709A Division JP2005284316A (en) 2005-06-22 2005-06-22 Method and device for wide-band speech restoration

Publications (2)

Publication Number Publication Date
JP2004355018A JP2004355018A (en) 2004-12-16
JP4087823B2 true JP4087823B2 (en) 2008-05-21

Family

ID=34056424

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004220335A Expired - Lifetime JP4087823B2 (en) 2004-07-28 2004-07-28 Wideband voice restoration method and wideband voice restoration apparatus

Country Status (1)

Country Link
JP (1) JP4087823B2 (en)

Also Published As

Publication number Publication date
JP2004355018A (en) 2004-12-16

Similar Documents

Publication Publication Date Title
JP3483958B2 (en) Broadband audio restoration apparatus, wideband audio restoration method, audio transmission system, and audio transmission method
JP4294724B2 (en) Speech separation device, speech synthesis device, and voice quality conversion device
KR20070121254A (en) Method and apparatus for wideband encoding and decoding
JP4180677B2 (en) Speech encoding and decoding method and apparatus
JP4447546B2 (en) Wideband voice restoration method and wideband voice restoration apparatus
JP3748081B2 (en) Broadband speech restoration method and broadband speech restoration apparatus
JP3770901B2 (en) Broadband speech restoration method and broadband speech restoration apparatus
JP3598111B2 (en) Broadband audio restoration device
JP3676801B2 (en) Wideband voice restoration method and wideband voice restoration apparatus
JP2000122679A (en) Audio range expanding method and device, and speech synthesizing method and device
JP4087823B2 (en) Wideband voice restoration method and wideband voice restoration apparatus
JP3748082B2 (en) Broadband speech restoration method and broadband speech restoration apparatus
JP3636327B2 (en) Wideband voice restoration method and wideband voice restoration apparatus
JP3748083B2 (en) Broadband speech restoration method and broadband speech restoration apparatus
JP3773509B2 (en) Broadband speech restoration apparatus and broadband speech restoration method
JP3770899B2 (en) Broadband speech restoration method and broadband speech restoration apparatus
JP3748080B2 (en) Broadband speech restoration method and broadband speech restoration apparatus
JP3770900B2 (en) Broadband speech restoration method and broadband speech restoration apparatus
JP3560964B2 (en) Broadband audio restoration apparatus, wideband audio restoration method, audio transmission system, and audio transmission method
JP2005321828A (en) Wideband speech recovery method and wideband speech recovery apparatus
JP4438280B2 (en) Transcoder and code conversion method
JP3598112B2 (en) Broadband audio restoration method and wideband audio restoration apparatus
JP2005284316A (en) Method and device for wide-band speech restoration
JP2005284317A (en) Method and device for wide-band speech restoration
JP2005284314A (en) Method and device for wide-band speech restoration

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20040910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050318

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050623

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050630

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050812

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080221

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120229

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120229

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120229

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130228

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130228

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140228

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term