JP2798003B2 - Voice band expansion apparatus and speech band expansion method - Google Patents

Voice band expansion apparatus and speech band expansion method

Info

Publication number
JP2798003B2
JP2798003B2 JP11042595A JP11042595A JP2798003B2 JP 2798003 B2 JP2798003 B2 JP 2798003B2 JP 11042595 A JP11042595 A JP 11042595A JP 11042595 A JP11042595 A JP 11042595A JP 2798003 B2 JP2798003 B2 JP 2798003B2
Authority
JP
Grant status
Grant
Patent type
Prior art keywords
unit
signal
buffer
output
linear prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP11042595A
Other languages
Japanese (ja)
Other versions
JPH08305396A (en )
Inventor
良久 中藤
武志 則松
峰生 津島
Original Assignee
松下電器産業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Abstract

PURPOSE: To generate a wide band synthetic voice having high articulation using an extracted spectrum envelope and a sound source having a wide band pulse train from a narrow band voice signal. CONSTITUTION: An input signal is stored in a buffer 101 for a fixed time, feature quantity relating to a spectrum envelope is extracted for a signal train stored in the buffer by an analyzing section 102. By using this feature quantity, a sound source pulse train generating section 13 estimates a sound source pulse train for a signal of the buffer 101, and restores an omitted band using an estimated pitch period. An output voice synthesizing section 14 synthesizes voice by weighing frequency in which voice is omitted from the sound source pulse train and the spectrum envelope. Thereby, a voice band can be expanded for a voice signal in which a band is omitted with comparatively simple constitution.

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【産業上の利用分野】本発明は、狭帯域音声信号のみが得られる環境下において、狭帯域音声信号から広帯域な音声信号へと帯域を拡大する装置および方法に関する。 The present invention relates, in an environment where only narrowband speech signal is obtained, to an apparatus and method for expanding the bandwidth from narrowband speech signal into a wideband audio signal.

【0002】 [0002]

【従来の技術】近年、ディジタル通信網の発達に伴って、音声信号のディジタル化が急速に進んでおり、ディジタル信号処理技術を用いた音声信号の加工には多くの手法が提案されている。 Recently, with the development of digital communication networks, it is progressing rapidly digitized audio signals, have been proposed many techniques for the processing of audio signals using digital signal processing techniques.

【0003】以下に従来の音声帯域拡大装置および音声帯域拡大方法について説明する。 [0003] described conventional voice band expansion apparatus and speech band expansion method below. 従来の音声帯域拡大方法においては、例えば、信学技法SP93-61(19 In the conventional speech band expansion method, for example, IEICE techniques SP93-61 (19
93-08)にあるように、分析合成技術とベクトル量子化の手法を用いた手法が提案されている。 As in 93-08), technique using the method of analysis and synthesis techniques and vector quantization is proposed.

【0004】図5は従来の音声帯域拡大方法を適用可能な装置の構成図である。 [0004] FIG. 5 is a block diagram of applicable devices a conventional voice band expansion method. 図5において、201はLPC 5, 201 LPC
分析部、202はベクトル量子化部、203はディコーディング部、204は狭帯域コードブック、205は広帯域コードブック、206は低域復元部、207は第一の高域復元部、208は第二の高域復元部、209は加算部、210はアップサンプリング部である。 Analysis unit, 202 vector quantization unit, 203 decoding unit, 204 narrow-band code book, 205 wide band code book, 206 low frequency band reconstruction unit, a first high-frequency restoring unit 207, the 208 second high-frequency restoring unit of, 209 adding section, 210 is an up-sampling unit.

【0005】以上のように構成された音声帯域拡大装置について、以下その動作について説明する。 [0005] For voice band expansion apparatus configured as described above, following its operation will be described.

【0006】まず、入力された狭帯域音声信号はLPC [0006] First, the narrow-band speech signal, which is input LPC
分析部201で線形予測分析され、スペクトル包絡情報、パワー情報、およびピッチ情報に分離される。 And the analysis portion 201 are linear predictive analysis, is separated into spectrum envelope information, power information, and pitch information. 抽出されたスペクトル包絡情報はベクトル量子化部202にて、狭帯域コードブック204を参照してベクトル量子化される。 Spectral envelope information extracted is at vector quantization unit 202, are vector-quantized with reference to the narrow-band code book 204. ベクトル量子化部202の出力をもとにディコーディング部203では、広帯域コードブック205 The decoding unit 203 based on the output of the vector quantization unit 202, the wide band code book 205
を参照し、広帯域なスペクトル包絡情報を推定する。 Referring to the, to estimate the wideband spectral envelope information. L
PC分析部201で得られたパワー情報、ピッチ情報と、ディコーディング部203で得られた広帯域なスペクトル包絡情報とから、低域復元部206では300H Power information obtained by the PC analysis unit 201, and the pitch information, and a resulting broadband spectral envelope information decoding unit 203, the low frequency band reconstruction unit 206 300H
z以下の低域周波数成分を生成する。 It produces the following low frequency components z. また、LPC分析部201で得られたパワー情報、ピッチ情報と、ディコーディング部203で得られたスペクトル包絡情報とから、第一の高域復元部207では3400Hz以上の高域周波数成分を生成する。 The power information obtained by the LPC analysis unit 201, and generates the pitch information, and a spectrum envelope information obtained by the decoding unit 203, the first in the high-frequency restoring unit 207 or 3400Hz high frequency components . 狭帯域音声信号をアップサンプリングするアップサンプリング部210の出力と、低域復元部206と高域復元部207の出力とを加算部2 The output of the up-sampling unit 210 for up-sampling narrowband audio signal, adding section 2 and the low frequency band reconstruction unit 206 and the output of the high frequency band reconstruction unit 207
09で加算し、広帯域音声信号を得る。 Added by 09 to obtain the wideband speech signal.

【0007】また図5において、第一の高域復元部20 [0007] In FIG. 5, the first high-frequency restoring section 20
7の代わりに第二の高域復元部208を用いる音声帯域拡大方法も提案されている。 Voice band expansion method using a second high-frequency restoring unit 208 in place of 7 has been proposed. 第二の高域復元部208では、LPC分析部201で得られたパワー情報、ピッチ情報と、ベクトル量子化部202の出力とをもとに、波形素片の方法を用いて3400Hz以上の高域成分を生成する。 In the second high-frequency restoring unit 208, the power information obtained by the LPC analyzing section 201, and pitch information, on the basis of the output of the vector quantization unit 202, or more high 3400Hz using the method of waveform segments to generate a frequency component. それ以外の構成は第一の高域復元部207を用いる方法と同様であり、狭帯域音声信号をアップサンプリングするアップサンプリング部210の出力と、低域復元部206と高域復元部208の出力とを加算部20 The other configuration is the same as the method using a first high-frequency restoring unit 207, the output of the up-sampling unit 210 for the up-sampling narrowband audio signals, the output of the low frequency band reconstruction unit 206 the high frequency band reconstruction unit 208 adding the door portion 20
9で加算し、広帯域音声信号を得るものである。 Added by 9, it is intended to obtain a wideband audio signal.

【0008】 [0008]

【発明が解決しようとする課題】しかしながら、上記の従来の構成では、スペクトル包絡情報の拡大を高精度に行うには多数のコードブックが必要になるという問題がある。 [SUMMARY OF THE INVENTION However, in the conventional configuration described above, there is a problem of the enlargement of the spectrum envelope information requires a large number of codebooks to do with high accuracy. さらには、上記の従来の構成は、狭帯域音声信号からピッチ情報を抽出し、それをパラメータとして直接的に合成音源を作成する方法であるため、ピッチ推定誤りによる音質の劣化が生じるという問題や、波形素片の方法を用いた手法では素片データのコードブックを別途持つ必要があるという問題を有していた。 Furthermore, conventional arrangement described above, extracts pitch information from the narrowband speech signal, since it is a way to create a synthesized directly sound source as a parameter, Ya problem of sound quality degradation due to pitch estimation errors occur , has a problem that the method using the method of the waveform segments need to separately have a codebook segment data.

【0009】本発明は上記従来の問題点を解決するものであり、スペクトル包絡情報の拡大は、線形写像関数を用いるなどして広帯域化し広帯域スペクトル包絡を得て、合成音源は音源を複数のパルス列で表現し、欠落した帯域を補間するようなパルス列を付加すること、さらに、パルスを強調することで生じる歪み成分を用いて広帯域化し、前記広帯域スペクトル包絡と前記合成音源を用いて合成することにより広帯域な音声帯域拡大を図ることを目的とするものである。 [0009] The present invention has been made to solve the above problems, the expansion of the spectral envelope information, with the broadband spectral envelope and broadband, such as using a linear mapping function, synthesis sound source a sound plurality of pulse trains , and it is assumed that, adding a pulse train so as to interpolate the missing band, further, by broad band by using the distortion component generated by emphasizing the pulse, is synthesized using the broadband spectral envelope and the synthesized sound source it is an object of the present invention to achieve wideband voice band expansion.

【0010】 [0010]

【課題を解決するための手段】上記課題を解決するために、本発明の音声帯域拡大装置は、入力信号を一定量蓄えておくバッファと、前記バッファに蓄えられた信号列に対して線形予測係数とPARCOR係数とのうち少なくとも線形予測係数を計算する分析部と、前記分析部にて得られる線形予測係数からインパルス応答を計算するインパルス応答計算部と、前記線形予測係数をパラメータとして前記バッファの出力と第1の音声合成部の出力との差信号列に対し人間の聴覚特性を模擬する重みづけを行なう聴覚重みづけフィルタ部と、前記聴覚重みづけフィルタ部の出力信号からピッチ周期を推定するピッチ周期推定部と、前記ピッチ周期推定部からの出力値を参照して、前記聴覚重みづけフィルタからの出力信号と前記インパルス応答 In order to solve the above problems SUMMARY OF THE INVENTION The voice band expansion apparatus of the present invention, the linear prediction and buffer that accumulated a certain amount of input signals, to the signal sequence stored in the buffer an analysis unit for calculating at least the linear prediction coefficients of the coefficient and the PARCOR coefficients, the impulse response calculation unit for calculating an impulse response from the linear prediction coefficient obtained by the analysis unit, of the buffer the linear prediction coefficient as a parameter a perceptual weighting filter portion that performs weighting to simulate the human auditory characteristics to output a difference signal string and the output of the first speech synthesis unit estimates the pitch period from the output signal of the perceptual weighting filter portion Referring pitch period estimation unit, an output value from the pitch period estimation unit, the impulse response and the output signal from the perceptual weighting filter 算部の出力とを入力してパルス列を発生させるパルス発生部と、前記パルス発生部から出力されるパルス列と、前記線形予測係数とPARCOR係数とのいずれかとを入力して音声信号を合成する前記第1の音声合成部と、前記パルス発生部の出力に対して周波数重みづけをおこなう周波数重みづけフィルタと、前記周波数重みづけフィルタの出力値と、前記線形予測係数とPARCOR係数とのいずれかとを入力して音声を合成する第2の音声合成部とを具備する。 A pulse generator for generating a pulse train to input and output of the calculation unit, and the pulse train output from the pulse generator, to synthesize a speech signal by inputting and either of the linear prediction coefficients and the PARCOR coefficient the a first speech synthesis unit, a frequency weighting filter for frequency weighting to the output of the pulse generator, the output value of the frequency weighting filter, and either of said linear prediction coefficients and PARCOR coefficient input to comprise a second speech synthesis unit for synthesizing the speech.

【0011】また、本発明の音声帯域拡大装置は、入力信号を一定量蓄えておくバッファと、前記バッファに蓄えられた信号列に対して線形予測係数とPARCOR係数とのうち少なくとも線形予測係数を計算する分析部と、前記分析部にて得られる線形予測係数からインパルス応答を計算するインパルス応答計算部と、前記線形予測係数もしくはPARCOR係数をもとに帯域の拡大された線形予測係数もしくはPARCOR係数を推定する包絡拡大部と、前記線形予測係数をパラメータとして前記バッファと第1の音声合成部との差信号列に対し人間の聴覚特性を模擬する重みづけを行なう聴覚重みづけフィルタ部と、前記聴覚重みづけフィルタ部の出力信号からピッチ周期を推定するピッチ周期推定部と、前記ピッチ周期推定部からの Further, the voice band expansion apparatus of the present invention includes a buffer that stored a certain amount of input signals, at least the linear prediction coefficients of the linear prediction coefficients and the PARCOR coefficients for The stored signal sequence in the buffer an analysis unit for calculating, impulse response calculating unit for calculating an impulse response from the linear prediction coefficient obtained by the analyzing unit, expanded LPC coefficients or PARCOR coefficient of the band on the basis of the linear prediction coefficients or PARCOR coefficients and envelope expansion unit that estimates a, and perceptual weighting filter portion that performs weighting to simulate the auditory characteristics of the human to the difference signal sequence between the buffer and the first speech synthesis unit the linear prediction coefficient as a parameter, the the pitch period estimation unit that estimates a pitch period from the output signal of the perceptual weighting filter unit, from the pitch period estimator 力値を参照して、前記聴覚重みづけフィルタ部からの出力信号と前記インパルス応答計算部の出力とを入力してパルス列を発生させるパルス発生部と、前記パルス発生部から出力されるパルス列と、前記線形予測係数とPARCOR係数とのいずれかとを入力して音声信号を合成する前記第1の音声合成部と、前記パルス発生部の出力に対して周波数重みづけをおこなう周波数重みづけフィルタと、前記周波数重みづけフィルタの出力値と、前記包絡拡大部からの出力値とを入力して音声を合成する第2の音声合成部とを具備する。 Referring to force value, a pulse generator for generating a pulse train to input and output of the output signal and the impulse response calculation unit from the perceptual weighting filter unit, a pulse train output from the pulse generator, said first speech synthesis unit for synthesizing a speech signal by inputting and either of the linear prediction coefficients and PARCOR coefficient, and a frequency weighting filter for frequency weighting to the output of the pulse generator, the It includes a second speech synthesizer for synthesizing speech by entering an output value of the frequency weighting filter, and the output value from the envelope enlarged portion.

【0012】ここで、上述したパルス発生部は、聴覚重みづけフィルタからの出力信号に対して周波数重みづけを行なう周波数重みづけフィルタを有し、かつ欠落している帯域を復元するパルス列を発生する機能を有するようにしてもよい。 [0012] Here, pulse generator described above has a frequency weighting filter for performing a frequency weighting to the output signal from the perceptual weighting filter, and generates a pulse train to restore the band missing function may have a.

【0013】また、パルス発生部は、ピッチ周期推定部の検出値を特徴量として、ピッチ周期間隔にあるパルスの振幅を大きくすることによりパルスを強調する機能を有するようにしてもよい。 [0013] The pulse generating unit, as the feature quantity detected value of the pitch period estimation unit, may have a function to emphasize the pulse by increasing the amplitude of the pulse in the pitch period intervals.

【0014】さらに、パルス発生部は、ピッチ周期推定部の検出値を特徴量として、ある閾値を用いて、前記閾値に設定されたパルスを出力する機能を有するようにしてもよい。 Furthermore, the pulse generating unit, as the feature quantity detected value of the pitch period estimation unit, using a certain threshold value, may have a function of outputting the set pulse to the threshold value.

【0015】包絡拡大部は、分析部で得られた特徴量を入力して、広帯域なスペクトル包絡の特徴を有するスペクトル包絡に対する特徴量を、線形写像関数を用いて広帯域化する機能を有するようにしてもよい。 The envelope expansion unit inputs the feature quantity obtained by the analysis unit, a feature amount for spectrum envelope having the features of wideband spectral envelope, so as to have the function of broadband using a linear mapping function it may be.

【0016】また、本発明の音声帯域拡大方法は、入力信号をバッファに一定量蓄えておき、前記バッファに蓄えられた信号列に対してスペクトル包絡に関する特徴量を抽出し、前記抽出された特徴量と前記バッファに蓄えられた信号列とから推定された音源パルス列に対して、 Further, the voice band expansion methods of the present invention, advance stored a certain amount of input signal to the buffer, it extracts a feature quantity relating to the spectral envelope to the signal sequence stored in the buffer, which is the extracted feature the amount and for the estimated sound source pulse train from the signal sequence stored in said buffer,
信号の持つ周波数特性についての事前情報と推定されたピッチ情報とから広帯域な音源パルス列を発生し、前記スペクトル包絡に関する特徴量と前記広帯域な音源パルス列とを用いて音声を合成するものである。 Broadband excitation pulse train generated by the a priori information and the estimated pitch information about the frequency characteristic of the signal, and synthesizing a speech using the feature quantity relating to the spectral envelope and the wideband excitation pulse train.

【0017】さらに、本発明の音声帯域拡大方法は、入力信号をバッファに一定量蓄えておき、前記バッファに蓄えられた信号列に対してスペクトル包絡に関する特徴量を抽出し、前記特徴量の表現する包絡情報に欠落している包絡情報を補間し、前記特徴量と前記バッファに蓄えられた信号列とから推定された音源パルス列に対して、信号の持つ周波数特性についての事前情報と推定されたピッチ情報とから広帯域な音源パルス列を発生し、 Furthermore, the voice band expansion methods of the present invention, advance stored a certain amount of input signal to the buffer, extracts a feature quantity relating to the spectral envelope to the signal sequence stored in said buffer, representation of said feature quantity to interpolate envelope information that is missing the envelope information, for the estimated sound source pulse train from the signal sequence stored in the feature quantity and the buffer was estimated a priori information about the frequency characteristic of the signal generating a wide-band sound source pulse train from the pitch information,
前記スペクトル包絡に関する特徴量と前記広帯域な音源パルス列とを用いて音声を合成するものである。 It is intended to synthesize a sound using the feature quantity relating to the spectral envelope and the wideband excitation pulse train.

【0018】 [0018]

【作用】本発明は上記構成により、入力信号を一定時間バッファに蓄え、バッファ中の信号に対して、スペクトル包絡に関するPARCOR係数や線形予測係数等の特徴量をPARCOR分析部で抽出する。 DETAILED DESCRIPTION OF THE INVENTION The present invention With the above structure, stored input signal constant time buffer, with respect to the signal in the buffer, extracts a feature quantity such as PARCOR coefficients and linear prediction coefficients for the spectral envelope at the PARCOR analysis section. また、バッファ中の信号とスペクトル包絡に関する特徴量とから合成音源を複数のパルス列で表現する。 Also, to represent the synthesis sound with a plurality of pulse trains from the feature amount relating to the signal and the spectral envelope in the buffer. そのパルス列を決定して生成する際には、入力信号に無い帯域を、予め推定しておいたピッチ周期を特徴量として、周期的に強調することで生成することや、ピッチ周期に対する歪みを加えることや、クリッピングの歪みを用いること等によって生成する。 When generating determine the pulse train, the band not in the input signal, as previously estimated by the feature amount of the pitch period had, or be generated by cyclically stressed, adding distortion to the pitch period it and produces such as by using a strain of clipping. こうして生成されたパルス列を音源として、 A pulse train as a sound source thus generated,
PARCOR分析部から出力されるPARCOR係数または線形予測係数を用いて、音声合成を行なう。 Using PARCOR coefficients or linear prediction coefficient output from the PARCOR analysis section performs speech synthesis. また、 Also,
スペクトル包絡情報は線形写像関数やベクトル量子化の方法を用いて広帯域化し、前記音源を用いて音声合成も可能である。 Spectral envelope information is broadband using the method of linear mapping functions and vector quantization, it is possible speech synthesized using the sound source. このようにして合成された音声は、スペクトルの微細構造を保持した音声で、かつ、欠落した帯域を補間するように広帯域化され、高品質で明瞭な合成音を提供することとなる。 Such speech synthesized by the, voice holding the fine structure of the spectrum, and are widened so as to interpolate the missing band, and to provide a clear synthesized speech with high quality.

【0019】 [0019]

【実施例】 【Example】

(実施例1)以下、本発明の第1の実施例について説明する。 (Example 1) Hereinafter, a description will be given of a first embodiment of the present invention. 図1は本発明の第1の実施例における音声帯域拡大方法を適用可能な装置の全体構成を示すブロック図である。 Figure 1 is a block diagram showing an overall configuration of applicable devices voice band expansion method in the first embodiment of the present invention.

【0020】図1において、101は入力信号を一定時間蓄えておくバッファである。 [0020] In FIG. 1, 101 is a buffer that stored a certain time an input signal. 102は、バッファ10 102, the buffer 10
1に蓄えられた入力信号列に対してスペクトル包絡に関する線形予測係数やPARCOR係数などの特徴量を抽出する分析部、103は前記線形予測係数からインパルス応答を計算するインパルス応答計算部である。 Analyzer for extracting a feature value such as linear prediction coefficients and PARCOR coefficients for the spectral envelope with respect to the input signal sequence stored in the 1, 103 is an impulse response calculation unit for calculating an impulse response from said linear prediction coefficients.

【0021】音源情報の帯域拡大は、第一の音声合成部105からの出力信号をバッファ101の信号列から引いたものに、周波数軸上で人間の聴覚的重みづけを行なう聴覚重みづけフィルタ部104と、この聴覚重みづけフィルタ部104の出力からピッチ周期を推定するピッチ周期推定部106と、分析部102にて抽出された特徴量をもとに、パルス位置とゲインを決定しパルス列を発生するパルス発生部107と、パルス発生部107で発生されたパルス列と前記線形予測係数とから合成音を合成する第一の音声合成部105とから実現される。 The band expansion of the sound source information, minus the output signal from the first speech synthesis unit 105 from the signal sequence in the buffer 101, perceptual weighting filter unit for performing human auditory weighting on the frequency axis and 104, a pitch period estimator 106 that estimates a pitch period from the output of the perceptual weighting filter 104, based on the feature amount extracted by the analysis unit 102, the pulse train to determine the pulse position and gain generating a pulse generation unit 107 that is realized from a first speech synthesis unit 105 for synthesizing the synthesized sound from generating in the pulse generating section 107 the pulse train and the linear prediction coefficients.

【0022】パルス発生部107では、聴覚重みづけフィルタ部104からの入力信号に対して誤差が最小になるようにパルス位置とゲインを決定し、ピッチ周期推定部106で得られたピッチ周期をもとに発生するパルス列に、低域強調等の歪みを付加する。 [0022] In the pulse generating unit 107, the error determines the pulse position and gain to minimize the input signal from the perceptual weighting filter 104, also the pitch period obtained by the pitch period estimator 106 the pulse train generated in preparative adds distortion and low-frequency emphasis. 低域強調の歪みとしては、例えば、半波整流、全波整流、クリッピング、 The distortion of the low-frequency emphasis, for example, half-wave rectification, full-wave rectification, clipping,
べき乗の処理等が挙げられる。 Power of processing, and the like.

【0023】最終的な出力合成音は、パルス発生部10 [0023] The final output synthesized sound, the pulse generator 10
7で決定されたパルス列を入力音源として、周波数的に欠落した部分を強調し補間することを目的とした強調フィルタ部108と、分析部102にて得られた線形予測係数を特徴量として、音声を合成する第二の音声合成部109とからなる。 As input sound source pulse train determined in 7, an emphasis filter 108 which is intended to highlight and interpolating frequency to missing portion, the linear prediction coefficients obtained by the analysis unit 102 as the feature amount, the audio the consists second speech synthesis unit 109 to synthesize.

【0024】以下、上述した本発明の第一実施例について、図1のブロック図を参照しながら詳細に説明する。 [0024] Hereinafter, a first embodiment of the present invention described above will be described in detail with reference to the block diagram of FIG.

【0025】まず、バッファ101にて、音声信号を離散的に一定時間取り込むが、この一定時間間隔は、例えばサンプリング周波数が16kHzであるとして、240 Firstly, as in the buffer 101, but incorporating discrete constant time audio signal, the predetermined time interval, for example, the sampling frequency is 16 kHz, 240
点とし、この時間単位を以下「フレーム」と呼ぶことにする。 To a point, will be this time unit hereinafter referred to as "frame". 1フレーム毎に音声のスペクトル包絡に関するパラメータを算出する処理が分析部102にて実行される。 Processing for calculating the parameters relating to the spectral envelope of the speech for each frame is performed by the analysis unit 102. バッファ101に取り込まれた信号は、分析部10 The signal taken to the buffer 101, the analysis unit 10
2にて、時刻iにおける観測信号をy(i) とし、m次の自己相関値をr(m) とすると、(数1)によってm次の自己相関値が計算される。 At 2, the observed signal at time i and y (i), when the m-th order autocorrelation value and r (m), m-order autocorrelation value is calculated by the equation (1).

【0026】 [0026]

【数1】 [Number 1]

【0027】(数1)によって計算された自己相関値をもとにして、分析部102で分析を行なう。 [0027] (Equation 1) based on the calculated autocorrelation value by performing analysis in the analysis unit 102. 分析部10 Analysis unit 10
2では、上記自己相関値からPARCOR係数もしくは線形予測係数を回帰的に算出する。 In 2, the recursively calculates PARCOR coefficients or linear predictive coefficients from the autocorrelation values. この算出方法については、公知技術を用いて容易に実現でき、例えば、音響・音声工学、古井著 近代科学社pp.131-136 に記載されている。 This calculation method is easily realized using known techniques, for example, they are described in sound and audio engineering, sieve al modern Kagaku Pp.131-136. PARCOR係数を求めれば一意的に線形予測係数が求まるし、線形予測係数を求めれば一意的にPA Uniquely to the linear prediction coefficient is obtained by obtaining a PARCOR coefficient, uniquely PA by obtaining the linear prediction coefficients
RCOR係数が求まる。 RCOR coefficient is obtained. この際、分析の次数としては1 In this case, as the order of the analysis 1
0次〜25次程度の値として計算する。 Calculated as zero-order to 25-order value of about. インパルス応答計算部103では、分析部102で算出された線形予測係数をもとに、その線形予測係数値の系におけるインパルス応答を、インパルスを入力として印加することで算出する。 In the impulse response calculation unit 103, based on the linear prediction coefficients calculated by the analysis unit 102, an impulse response in the system of the linear prediction coefficient is calculated by applying an impulse as input.

【0028】音源の生成は、まずバッファ101の音声信号から、第一の音声合成部105で合成された信号を差し引くことから計算が始まる。 The generation of the sound source, first from the audio signal of the buffer 101, calculation begins by subtracting the signal synthesized by the first speech synthesis unit 105. 差し引かれた信号は、 Subtracted signal is,
いわば前の分析フレームの影響を取り除くことと同じ効果を持ち、分析フレームにおける聴覚重みづけフィルタ部104の入力信号となる。 It has the same effect as that speak eliminate the influence of the previous analysis frame, the input signal of the perceptual weighting filter 104 in the analysis frame. 聴覚重みづけフィルタ部1 Perceptual weighting filter section 1
04は、(数2)の特性を持つディジタルフィルタをもって構成される。 04 is configured with a digital filter having the characteristics of (Equation 2).

【0029】 [0029]

【数2】 [Number 2]

【0030】(数2)において、W(z)はzの関数で、aiはi次の線形予測係数、c kは所望のフィルタ特性を実現する為に与えられる定数(例えば0.8程度)、zはz変換により生じる複素変数である。 [0030] In equation (2), W (z) is a function of z, ai is i-th order linear prediction coefficient, c k is a constant (for example, about 0.8) given to achieve the desired filter characteristics , z is a complex variable resulting from z-transform. 聴覚重みづけフィルタ部104は、量子化誤差の影響をパワーの大きいフォルマント周波数辺りに付加することで、聴覚的にザラツキ感の少ない合成音を提供する効果を持つ。 Perceptual weighting filter 104, by adding the influence of the quantization error to a large formant frequencies Atari power has the effect of providing a small synthesized sound of aurally roughness. なお(数2)において、c In yet (number 2), c kは例えば0.8であるとき、フィルタとしての効果が大きくなる。 When k is, for example, 0.8, the effect of the filter is increased. ピッチ周期推定部106では、長期予測フィルタを用いてピッチ周期を推定する。 In the pitch period estimation unit 106 estimates a pitch period by using the long-term prediction filter. ピッチ周期推定部106としては、長期予測に対する相関値を算出することでピッチ周期を算出する方法と、波形を加算することでピッチ周期を推定する方法が挙げられる。 The pitch period estimation unit 106, and the method of calculating the pitch period by calculating the correlation value of the long-term prediction, and a method of estimating the pitch period by adding the waveform. 例えば、最小2乗予測誤差法(M For example, least squares prediction error method (M
SPE法)を用いた方法等があげられる。 Method or the like using the SPE method), and the like.

【0031】具体的には、(数3)の計算式において、 [0031] Specifically, in equation (Equation 3),
match(m) に最大値を与えるmをピッチ周期とすること等によりピッチ周期を算出する。 Calculating a pitch period such as by the m giving the maximum value to match (m) and the pitch period.

【0032】 [0032]

【数3】 [Number 3]

【0033】パルス発生部107では、聴覚重みづけフィルタ部104からの出力系列を入力として、(数4) [0033] In the pulse generating unit 107, as an input the output sequence from the perceptual weighting filter 104, (Equation 4)
によって位置m k点におけるゲインgk(mk)を算出する。 It calculates a gain gk (mk) at position m k point by.

【0034】 [0034]

【数4】 [Number 4]

【0035】(数4)において、h iはi点離れた点におけるインパルス応答である。 [0035] In equation (4), h i is the impulse response at a point away i point. そして、(数5)のε k And, of (number 5) ε k
を最小とする点m kがパルス位置と成るように、予め設定したパルスの本数まで決定していく。 The so m k that minimizes becomes the pulse position, continue to determine to the number of pulses set in advance.

【0036】 [0036]

【数5】 [Number 5]

【0037】パルスの本数は、任意に設定できるが、例えば入力系列が16kHzサンプリングで80点の観測点に対して8点程度のパルス設定が好ましい。 The number of pulses can be set arbitrarily, for example, the input sequence is pulse setting of about 8 points preferred for observation points 80 points at 16kHz sampling.

【0038】入力音声において低域周波数成分が欠落している場合は、ピッチ周期推定部106の推定値を用いて、(数5)で決定されたパルス列に対して、推定されたピッチ周期にあるパルスを強調することで、パルス発生部107の出力として、基本周波数成分を復元する。 [0038] If the low frequency components are missing in the input speech, using the estimated value of the pitch period estimation unit 106, relative to the determined pulse sequence, the estimated pitch period by (Equation 5) by emphasizing the pulse, as the output of the pulse generator 107 to restore the fundamental frequency component.

【0039】パルス発生部107におけるパルス強調の方法としては、簡単には、ピッチ周期推定部106の推定値を用いて、フレーム長とピッチ周期推定部106からの出力値との比から、1フレーム長に対して何ピッチ周期があるかを計算し、1フレームに対して、上からその本数の最大振幅のパルスを定数倍(>=1)し、出力パルス列とする。 [0039] As a method of pulse enhancer in the pulse generating unit 107, Briefly, using the estimated value of the pitch period estimation unit 106, from the ratio of the output value from the frame length and pitch period estimation unit 106, a frame calculate the how many pitch periods for the length, with respect to 1 frame, the pulse of maximum amplitude of the number from the top constant multiple (> = 1), the output pulse train.

【0040】図4を用いてピッチ強調の一実施例を説明する。 [0040] illustrating an example of a pitch emphasis using FIG. 同図中のaはピッチ周期推定部106によって推定された推定ピッチ周期間隔を模式に表現したもので、 a in the figure in which the estimated pitch period interval estimated by the pitch period estimation unit 106 is expressed in the schematic,
bは(数5)によって算出された現在の推定フレームにおける推定パルス列と、一つ前の分析時刻に決定されたパルス列とを、縦軸にゲインを横軸に時刻をとって表現したもので、cは強調処理後の推定パルス列である。 b is a representation taking time and estimated pulse train in the current estimation frame is calculated, and a pulse train that is determined in the analysis time of the immediately preceding and the vertical axis the gain on the horizontal axis by (5), c is the estimated pulse train after enhancement. b
において、過去の推定フレームにおける強調されたパルスのうち、最後の時刻に強調されたパルスからaで示した推定ピッチ間隔ごとに(数5)で決定されたパルスがあるか無いかを観測し、該当するパルスがある場合は、 In, among the emphasis pulses in a past estimated frame, observing whether there there is determined a pulse at each estimated pitch interval indicated by a from emphasis pulses at the end of time (5), If there is a corresponding pulse,
cに示すようにパルスを強調し、パルス発生部107の出力とする。 Emphasizing the pulse as shown in c, and the output of the pulse generator 107.

【0041】他には、ピッチ周期推定部106の推定値を用いて、フレーム長とピッチ周期推定部106からの出力値との比から、1フレーム長に対して何ピッチ周期があるかを計算し、1フレームに対して、ピッチ周期に相当する位置にあるパルスの組を探し、振幅の大きな組からフレーム長とピッチ周期推定部106の出力値の比から求まる、1フレームにあるべきピッチ数だけパルスを定数倍(>=1)し、出力パルス列とする。 [0041] Other, calculates how using the estimated value of the pitch period estimation unit 106, from the ratio of the output value from the frame length and pitch period estimation unit 106, there is nothing pitch period with respect to one frame length and, with respect to 1 frame, looking for a pulse set in a position corresponding to the pitch period, determined from the ratio of the output value of the frame length and a pitch period estimator 106 from a larger set of amplitude, pitch number should be in the 1-frame only constant multiple pulses (> = 1), the output pulse train. 第一の音声合成部105では、パルス発生部107の出力パルス列を入力し、分析部102から出力されるPARCOR In the first speech synthesis unit 105, receives the output pulse train of the pulse generation portion 107, PARCOR outputted from the analysis unit 102
係数を特徴量として、PARCOR合成によって合成音を得る。 As a feature amount a coefficient to obtain a synthesized speech by PARCOR synthesis.

【0042】出力音声の合成は、パルス発生部107で生成されたパルス列を入力として、強調フィルタ部10 [0042] The synthesis of the output speech, as input pulse train generated by the pulse generating unit 107, the enhancement-filter unit 10
8によって、欠落した帯域をFIRフィルタ等で復元する。 By 8, to recover the missing band FIR filter. 第二の音声合成部109では、強調フィルタ部10 In the second speech synthesis unit 109, the enhancement-filter unit 10
8からの出力を入力し、分析部102からのPARCO You input the output from the 8, PARCO from the analysis unit 102
R係数を特徴量として、PARCOR合成によって得られた合成音を出力する。 The R-factor as the feature quantity, and outputs the synthesized sound obtained by PARCOR synthesis. このようにして各フレームごとに音声を合成する。 This synthesized speech for each frame in the.

【0043】以上のように、本実施例の音声帯域拡大装置によれば、入力信号を一定時間蓄えておくバッファ1 [0043] As described above, according to the speech band extending apparatus of the present embodiment, the buffer 1 to be stored the input signal a predetermined time
01と、前記バッファに蓄えられた信号列に対して、スペクトル包絡に関する特徴量を抽出する分析部102 01, with respect to the signal sequence stored in the buffer, the analysis unit 102 which extracts a feature amount relating to the spectrum envelope
と、前記分析部102からの特徴量を用いて、前記バッファ101の信号に対する音源パルスを推定し、推定したピッチ周期を用いてピッチ周期に対応するパルスを強調するパルス発生部107と、周波数の重みづけを行う強調フィルタ部108とを備えたことにより、比較的簡単な構成で、ピッチ強調の効果により、帯域の欠落した音声信号から音声帯域を拡大できる音声帯域拡大装置を提供することができる。 When, by using the feature quantity from the analysis unit 102 estimates the sound source pulse for the signal of the buffer 101, a pulse generator 107 emphasizes the pulses corresponding to the pitch period using the pitch period estimated, the frequency by providing a enhancement filter unit 108 which performs weighting, a relatively simple configuration, by the effect of the pitch enhancement, it is possible to provide a voice band expansion device capable of expanding the audio band from missing audio signal band .

【0044】なお本実施例では、第一の音声合成部10 [0044] In the present embodiment, the first speech synthesis unit 10
5および第二の音声合成部109では、分析部102から出力されるPARCOR係数を特徴量として、PAR In 5 and the second speech synthesis unit 109, the PARCOR coefficients output from the analysis unit 102 as the feature quantity, PAR
COR合成によって合成音を得ているが、PARCOR To obtain a synthetic sound by COR synthesis but, PARCOR
係数に代えて線形予測係数を用いて音声合成を行なってもかまわない。 It may be performed speech synthesis using the linear prediction coefficients instead of the coefficient.

【0045】(実施例2)次に、本発明の第2の実施例について説明する。 Next (Example 2), a description of a second embodiment of the present invention.

【0046】本発明の第2の実施例の全体構成は第1の実施例(図1)と同様であるが、図1のパルス発生部1 [0046] Although the overall configuration of the second embodiment of the present invention is similar to the first embodiment (FIG. 1), the pulse generation unit 1 of FIG. 1
07におけるパルス発生の方法が異なる。 The method of pulse generation is different in 07. 以下、このパルス発生方法についてのみ説明し、その他の説明は省略する。 Hereinafter, only describes the pulse generating method, and other description will be omitted.

【0047】聴覚重みづけフィルタ部104からの出力と、インパルス応答計算部103からの出力から第1実施例と同様の手法で推定パルス列を得た後、ピッチ周期推定部106の推定値を用いて、1フレーム長に対して何ピッチ周期があるかを計算し、1フレームに対して、 [0047] After obtaining the output from perceptual weighting filter 104, the estimated pulse train in the same manner as in the first embodiment the output from the impulse response calculator 103, using the estimated value of the pitch period estimation unit 106 , whether there is anything pitch period with respect to one frame length calculated for one frame,
上からその本数の最大振幅のパルスを、ある閾値を用いて、その閾値以上の推定パルスはその閾値の大きさのパルスとすることにより、出力パルス列とする点のみが第一の実施例と異なる。 A pulse of maximum amplitude of the number from the top, using a certain threshold value, the estimated pulse above the threshold by a pulse of the magnitude of the threshold, only in that the output pulse train is different from the first embodiment .

【0048】以上のように、本実施例の音声帯域拡大装置によれば、入力信号を一定時間蓄えておくバッファ1 [0048] As described above, according to the speech band extending apparatus of the present embodiment, the buffer 1 to be stored the input signal a predetermined time
01と、前記バッファに蓄えられた信号列に対して、スペクトル包絡に関する特徴量を抽出する分析部102 01, with respect to the signal sequence stored in the buffer, the analysis unit 102 which extracts a feature amount relating to the spectrum envelope
と、前記分析部102からの特徴量を用いて、前記バッファ101の信号に対する音源パルスを推定し、推定したピッチ周期を用いてピッチ周期に対応するパルスを、 When, by using the feature quantity from the analysis unit 102 estimates the sound source pulse for the signal of the buffer 101, a pulse corresponding to the pitch period using the pitch period estimated,
ある閾値を用いて、その閾値以上の振幅であるパルスを閾値に揃えることで、音源に歪みを生じせしめ、その歪みにより低域強調に効果のあるパルス列を生成するパルス発生部107と、周波数の重みづけを行う強調フィルタ部108とを備えたことにより、比較的簡単な構成で、ピッチ周期に対する歪みの効果を利用して、帯域の欠落した音声信号から音声帯域を拡大できる音声帯域拡大装置を提供することができる。 Using a certain threshold value, above that threshold by aligning the pulse is an amplitude threshold, the sound source to the allowed distortions, a pulse generator 107 for generating a pulse train which is effective in the low-frequency emphasized by the distortion, frequency by and a enhancement filter unit 108 which performs weighting, a relatively simple configuration, by utilizing the effect of strain on the pitch period, the missing voice band expansion device capable of enlarging the voice band from the audio signal of the band it is possible to provide.

【0049】なお本実施例では、第一の音声合成部10 [0049] In the present embodiment, the first speech synthesis unit 10
5および第二の音声合成部109では、分析部102から出力されるPARCOR係数を特徴量として、PAR In 5 and the second speech synthesis unit 109, the PARCOR coefficients output from the analysis unit 102 as the feature quantity, PAR
COR合成によって合成音を得ているが、PARCOR To obtain a synthetic sound by COR synthesis but, PARCOR
係数に代えて線形予測係数を用いて音声合成を行なってもかまわない。 It may be performed speech synthesis using the linear prediction coefficients instead of the coefficient.

【0050】(実施例3)次に、本発明の第3の実施例について説明する。 Next (Example 3), a description will be given of a third embodiment of the present invention.

【0051】本発明の第3の実施例の全体構成を図2に示す。 [0051] The overall configuration of a third embodiment of the present invention shown in FIG. 第1の実施例との相違点は、図2に示したように包絡拡大部110を有する点、および、分析部102 Difference from the first embodiment, that it has an envelope larger portion 110, as shown in FIG. 2, and the analysis portion 102
が、スペクトル包絡に関する特徴量として線形予測係数を算出する点であり、その他の構成・動作は図1にある構成要素と同様であるので説明を省略する。 There is a point for calculating the linear prediction coefficients as feature amount relating to the spectrum envelope, a description is omitted other configurations and operations are the same as the components in Figure 1.

【0052】包絡拡大部110では、広帯域な特性を有する線形予測係数の集まりであるコードブックを予め作成しておき、分析部102より得られる線形予測係数を入力として、ベクトル量子化の方法を用いて、広帯域な特性を有する線形予測係数を、上記コードブック中から選択し、これを包絡拡大部110の出力とし、第二の音声合成部109の入力とすることで、合成された音源ならびに拡大されたスペクトル包絡の特徴量から、広帯域な音声を合成する。 [0052] In the envelope expansion unit 110, advance to create a code book is a collection of linear prediction coefficients with wideband characteristics in advance, as an input linear prediction coefficients obtained from the analysis unit 102, using a method of vector quantization Te, the linear prediction coefficients with broadband characteristics, and select from among the codebook, which was the output of the envelope enlarged portion 110, by the input of the second speech synthesis unit 109, the synthesized sound and expanded from the feature quantity of spectral envelope, to synthesize a wideband speech.

【0053】以上のように、本実施例の音声帯域拡大装置によれば、入力信号を一定時間蓄えておくバッファ1 [0053] As described above, according to the speech band extending apparatus of the present embodiment, the buffer 1 to be stored the input signal a predetermined time
01と、前記バッファに蓄えられた信号列に対して、スペクトル包絡に関する特徴量を抽出する分析部102 01, with respect to the signal sequence stored in the buffer, the analysis unit 102 which extracts a feature amount relating to the spectrum envelope
と、前記分析部からの出力である特徴量から広帯域な特性を有するスペクトル包絡に関する特徴量を推定する包絡拡大部110と、前記分析部102からの特徴量を用いて、前記バッファ101の信号に対する音源パルス列を推定し、推定したピッチ周期を用いて欠落した帯域を復元するパルス発生部107と、音源のパルス列に周波数の重みづけを行う強調フィルタ部108を備えたことにより、比較的簡単な構成で、帯域拡大されたスペクトル包絡と、帯域拡大された音源とから、帯域を拡大した高音質で広帯域な合成音を作成することができる。 When an envelope enlarged portion 110 for estimating the feature quantity relating to the spectrum envelope having a wide band characteristic from the characteristic quantity is the output from the analysis unit, by using the feature quantity from the analysis unit 102, to the signal of the buffer 101 estimating the sound source pulse train, a pulse generator 107 for restoring the bandwidth missing with the pitch period estimated, by having the enhancement filter unit 108 which performs weighting of the frequency of the pulse train of the sound source, a relatively simple structure in, it is possible to create a spectral envelope that has been expanding band, from a band expanded sound source, a wide-band synthetic sound with high quality an enlarged view of the band.

【0054】なお本実施例では、第一の音声合成部10 [0054] In the present embodiment, the first speech synthesis unit 10
5および第二の音声合成部109では、線形予測係数を特徴量として用い、合成音を得ているが、線形予測係数に代えてPARCOR係数を用いて音声合成を行なってもかまわない。 In 5 and the second speech synthesis unit 109, using the linear prediction coefficients as features, it is obtained synthesized sound, it may be performed speech synthesis using the PARCOR coefficients instead of linear prediction coefficients.

【0055】(実施例4)次に、本発明の第4の実施例について説明する。 Next (Example 4), a description will be given of a fourth embodiment of the present invention.

【0056】本発明の第4の実施例の全体構成を図2に示す。 [0056] The overall structure of a fourth embodiment of the present invention shown in FIG. 第3の実施例との相違点は、包絡拡大部の構成であり、第1の実施例との相違点は、図2に示したように包絡拡大部110を有する点、および、分析部102 Differs from the third embodiment is the construction of the envelope enlarged portion is different from the first embodiment, that it has an envelope larger portion 110, as shown in FIG. 2, and the analysis portion 102
が、スペクトル包絡に関する特徴量として線形予測係数を算出する点であり、その他の構成・動作は図1にある構成要素と同様であるので説明を省略する。 There is a point for calculating the linear prediction coefficients as feature amount relating to the spectrum envelope, a description is omitted other configurations and operations are the same as the components in Figure 1.

【0057】包絡拡大部110の詳細な説明を図3を用いて行う。 [0057] The detailed description of the envelope enlarged portion 110 performs with reference to FIG. 図3は包絡拡大部110の内部ブロック図であり、同図において、301は狭帯域コードブック、3 Figure 3 is an internal block diagram of the envelope expansion unit 110, reference numeral 301 is a narrow band code book, 3
02は線形写像関数部、303は重みつけ加算部である。 02 linear mapping function unit, 303 is a heavy find adding unit. 分析部102で得られた入力スペクトルは、狭帯域コードブック301の各コードと(数6)で計算される距離d iを算出される。 Input spectrum obtained by the analysis unit 102 is calculated the distance d i calculated in the code and the narrow band code book 301 (6).

【0058】 [0058]

【数6】 [6]

【0059】(数6)において、x jはj次の入力スペクトル包絡情報で、V ijはコードブック301中のi番目のコードにおけるj次のスペクトル包絡情報である。 [0059] In equation (6), x j in the j-th order of the input spectrum envelope information, V ij is the spectral envelope information of the j-th order in the i-th code in the codebook 301.
また、入力スペクトルは、線形写像関数部302にて複数の線形写像関数で広帯域なスペクトルに変換される。 The input spectrum is converted into a broadband spectrum at linear mapping function unit 302 by a plurality of linear mapping functions.
線形写像関数部302からの出力は重みつけ加算部30 Output heavy find adding unit from the linear mapping function 302 30
3で重みつけ加算され、変換スペクトルとして出力される。 3 is weighted summing in, and output as converted spectrum. その際の重みは、 The weight of that case,

【0060】 [0060]

【数7】 [Equation 7]

【0061】で算出される。 It is calculated by [0061]. (数7)においてw iはi The w i in (number 7) i
番目の線形写像関数の出力に対する重みである。 It is a weight for the output of the second linear mapping function. 線形写像関数部302の各々の線形写像関数をA kとすると、 When the linear mapping functions of each of the linear mapping function unit 302 and A k,

【0062】 [0062]

【数8】 [Equation 8]

【0063】により変換スペクトルが算出される。 [0063] transform spectrum by is calculated. (数8)において、y jはj次の変換スペクトルであり、A In equation (8), y j is the j-th order of the transform spectrum, A
ijはi番目の線形写像関数のj次の関数値である。 ij is the j-th order function value of i-th linear mapping function.

【0064】このようにして得られたy jを包絡拡大部110の出力とし、第二の音声合成部109の入力とすることにより、合成された音源ならびに拡大されたスペクトル包絡の特徴量から、広帯域な音声を合成する。 [0064] Such y j obtained in the an output of the envelope enlarged portion 110, by the input of the second speech synthesis unit 109, from the feature quantity of the synthesized sound and expanded spectrum envelope, the synthesis of wideband voice.

【0065】以上のように、本実施例の音声帯域拡大装置によれば、入力信号を一定時間蓄えておくバッファ1 [0065] As described above, according to the speech band extending apparatus of the present embodiment, the buffer 1 to be stored the input signal a predetermined time
01と、前記バッファに蓄えられた信号列に対して、スペクトル包絡に関する特徴量を抽出する分析部102 01, with respect to the signal sequence stored in the buffer, the analysis unit 102 which extracts a feature amount relating to the spectrum envelope
と、前記分析部からの出力である特徴量から広帯域な特性を有するスペクトル包絡に関する特徴量を推定する包絡拡大部110と、前記分析部102からの特徴量を用いて、前記バッファ101の信号に対する音源パルス列を推定し、推定したピッチ周期を用いて、欠落した帯域を復元するパルス発生部107と、音源のパルス列に周波数の重みづけを行う強調フィルタ部108を備えたことにより、比較的簡単な構成で、高精度に帯域拡大されたスペクトル包絡と、帯域拡大された音源とから、帯域を拡大した高音質で広帯域な合成音を作成できる音声帯域拡大装置を提供することができる。 When an envelope enlarged portion 110 for estimating the feature quantity relating to the spectrum envelope having a wide band characteristic from the characteristic quantity is the output from the analysis unit, by using the feature quantity from the analysis unit 102, to the signal of the buffer 101 estimating the sound source pulse train, with the pitch period estimated, a pulse generator 107 to restore the missing band, by providing the enhancement filter unit 108 which performs weighting of the frequency of the pulse train of the sound source, relatively simple composed, it is possible to provide a spectral envelope that is band expanded with high accuracy, and a band expansion sound source, a sound band expanding apparatus capable of creating a wideband synthesized speech with high quality of an enlarged band.

【0066】なお本実施例では、第一の音声合成部10 [0066] In the present embodiment, the first speech synthesis unit 10
5および第二の音声合成部109では、線形予測係数を特徴量として用い、合成音を得ているが、線形予測係数に代えてPARCOR係数を用いて音声合成を行なってもかまわない。 In 5 and the second speech synthesis unit 109, using the linear prediction coefficients as features, it is obtained synthesized sound, it may be performed speech synthesis using the PARCOR coefficients instead of linear prediction coefficients.

【0067】 [0067]

【発明の効果】以上のように、本発明によれば、入力信号を一定時間蓄えておくバッファを有し、バッファ中の音声信号からスペクトル包絡成分に関する特徴量を分析部で抽出し、前記分析部からの出力とバッファ中の信号とから、音源を複数のパルス列で表現し、ピッチ周期推定部で推定したピッチ周期によってパルス列に強調等の歪みによって重みづけし、音源であるパルス列を生成し、合成時に周波数に対する重みづけのフィルタ処理をさらに行い、スペクトル包絡の特徴量と音源パルス列とから音声を合成することにより、比較的簡単な構成で、 As is evident from the foregoing description, according to the present invention has a buffer that stored a certain time an input signal, extracting the feature amount analysis unit regarding the spectral envelope component from the audio signal in the buffer, said analysis and an output signal in the buffer from the section, represent the sound source in a plurality of pulse trains, weighted by the strain of emphasis such as a pulse train by the pitch period estimated by the pitch period estimation unit generates a pulse train which is a sound source, further to filter the weighting with respect to the frequency at the time of synthesis, by synthesizing speech from the feature quantity and the sound source pulse trains spectral envelope, a relatively simple configuration,
原音の音源の特徴を大きく損なうことなく、狭帯域信号にない帯域の信号の帯域拡大を実現することができる。 Without significantly impairing the characteristics of the original sound of the sound source, it is possible to realize a band expansion of the band of the signal not in the narrowband signal.
また包絡拡大部を用い、PARCOR分析で得られたスペクトル包絡情報を高精度に広帯域化する処理を付加することによって、さらに、高明瞭で広帯域な合成音声を生成する音声帯域拡大装置および音声帯域拡大方法を提供することができる。 Also with envelope expansion unit, by adding the process of broadening the spectrum envelope information obtained by the PARCOR analysis with high accuracy, further, the voice band expansion apparatus and speech band expansion to generate a high clear and wideband synthesized speech the method can be provided.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】本発明の第一の実施例における音声帯域拡大装置の全体構成を示すブロック図 Block diagram illustrating the overall configuration of a voice band expansion apparatus in the first embodiment of the present invention; FIG

【図2】本発明の第三の実施例における音声帯域拡大装置の全体構成を示すブロック図 Block diagram illustrating the overall configuration of a voice band expansion apparatus in the third embodiment of the present invention; FIG

【図3】本発明の第四の実施例における包絡拡大部の概念図 [Figure 3] a fourth conceptual view of the envelope expansion unit in the first embodiment of the present invention

【図4】パルス発生部におけるパルス強調の概念図 Figure 4 is a conceptual diagram of a pulse emphasized in the pulse generator

【図5】従来例における音声帯域拡大装置の全体構成を示すブロック図 5 is a block diagram showing the overall structure of the voice band expansion device in a conventional example

【符号の説明】 DESCRIPTION OF SYMBOLS

101 バッファ 102 分析部 103 インパルス応答計算部 104 聴覚重みづけフイルタ部 105 第一の音声合成部 106 ピッチ周期推定部 107 パルス発生部 108 強調フィルタ部 109 第二の音声合成部 110 包絡拡大部 201 LPC分析部 202 ベクトル量子化部 203 ディコーディング部 204 狭帯域コードブック 205 広帯域コードブック 206 低域復元部 207 第一の高域復元部 208 第二の高域復元部 209 加算部 210 アップサンプリング部 301 狭帯域コードブック 302 線形写像関数部 303 重みつけ加算部 101 buffer 102 analyzer 103 impulse response calculation unit 104 perceptual weighting filter 105 first speech synthesis unit 106 pitch period estimator 107 pulse generator 108 emphasis filter 109 second speech synthesis unit 110 envelope enlarged portion 201 LPC analysis part 202 vector quantization unit 203 decoding unit 204 narrow-band code book 205 wide band code book 206 low frequency band reconstruction unit 207 first high-frequency restoring unit 208 second high-frequency restoring unit 209 adding unit 210 up-sampling unit 301 narrowband codebook 302 linear mapping function unit 303 duplex find adding unit

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平8−76798(JP,A) 特開 平6−118995(JP,A) 特開 平8−123495(JP,A) (58)調査した分野(Int.Cl. 6 ,DB名) G10L 7/02,9/14 ────────────────────────────────────────────────── ─── of the front page continued (56) reference Patent flat 8-76798 (JP, a) JP flat 6-118995 (JP, a) JP flat 8-123495 (JP, a) (58) were investigated field (Int.Cl. 6, DB name) G10L 7 / 02,9 / 14

Claims (8)

    (57)【特許請求の範囲】 (57) [the claims]
  1. 【請求項1】入力信号を一定量蓄えておくバッファと、 1. A buffer for an input signal set aside a certain amount,
    前記バッファに蓄えられた信号列に対して線形予測係数とPARCOR係数とのうち少なくとも線形予測係数を計算する分析部と、前記分析部にて得られる線形予測係数からインパルス応答を計算するインパルス応答計算部と、前記線形予測係数をパラメータとして前記バッファの出力と第1の音声合成部の出力との差信号列に対し人間の聴覚特性を模擬する重みづけを行なう聴覚重みづけフィルタ部と、前記聴覚重みづけフィルタ部の出力信号からピッチ周期を推定するピッチ周期推定部と、前記ピッチ周期推定部からの出力値を参照して、前記聴覚重みづけフィルタからの出力信号と前記インパルス応答計算部の出力とを入力してパルス列を発生させるパルス発生部と、前記パルス発生部から出力されるパルス列と、前記線形予測係数と At least an analysis unit for calculating the linear prediction coefficients, the impulse response calculation for calculating the impulse response from the linear prediction coefficient obtained by the analysis unit of the linear prediction coefficients and the PARCOR coefficients for The stored signal sequence in the buffer a Department, the perceptual weighting filter unit for performing weighting to the difference signal sequence to simulate the human auditory characteristics of the outputs of the first speech synthesis unit of the buffer the linear prediction coefficient as a parameter, the aural the pitch period estimation unit that estimates a pitch period from the output signal of the weighting filter unit, with reference to the output value from the pitch period estimator, the output of the output signal and the impulse response calculation unit from the perceptual weighting filter a pulse generator for generating a pulse train to enter the door, and a pulse train output from the pulse generator, and the linear prediction coefficients ARCOR係数とのいずれかとを入力して音声信号を合成する前記第1の音声合成部と、前記パルス発生部の出力に対して周波数重みづけをおこなう周波数重みづけフィルタと、前記周波数重みづけフィルタの出力値と、前記線形予測係数とPARCOR係数とのいずれかとを入力して音声を合成する第2の音声合成部とを具備する音声帯域拡大装置。 Said first speech synthesis unit for synthesizing a speech signal by inputting and either the ARCOR coefficient, a frequency weighting filter for frequency weighting to the output of the pulse generator, the frequency weighting filter output value and the linear prediction coefficients and the inputted speech band expansion apparatus and a second speech synthesis unit for synthesizing the speech and either a PARCOR coefficient.
  2. 【請求項2】入力信号を一定量蓄えておくバッファと、 2. A buffer input signal set aside a certain amount,
    前記バッファに蓄えられた信号列に対して線形予測係数とPARCOR係数とのうち少なくとも線形予測係数を計算する分析部と、前記分析部にて得られる線形予測係数からインパルス応答を計算するインパルス応答計算部と、前記線形予測係数もしくはPARCOR係数をもとに帯域の拡大された線形予測係数もしくはPARCOR At least an analysis unit for calculating the linear prediction coefficients, the impulse response calculation for calculating the impulse response from the linear prediction coefficient obtained by the analysis unit of the linear prediction coefficients and the PARCOR coefficients for The stored signal sequence in the buffer parts and the linear prediction coefficients enlarged band on the basis of the linear prediction coefficients or PARCOR coefficients or PARCOR
    係数を推定する包絡拡大部と、前記線形予測係数をパラメータとして前記バッファと第1の音声合成部との差信号列に対し人間の聴覚特性を模擬する重みづけを行なう聴覚重みづけフィルタ部と、前記聴覚重みづけフィルタ部の出力信号からピッチ周期を推定するピッチ周期推定部と、前記ピッチ周期推定部からの出力値を参照して、 And envelope expansion unit that estimates a coefficient, and perceptual weighting filter portion that performs weighting to simulate the auditory characteristics of the human to the difference signal sequence between the buffer and the first speech synthesis unit the linear prediction coefficient as a parameter, Referring pitch period estimation unit that estimates a pitch period from the output signal of the perceptual weighting filter section, the output value from the pitch period estimation unit,
    前記聴覚重みづけフィルタ部からの出力信号と前記インパルス応答計算部の出力とを入力してパルス列を発生させるパルス発生部と、前記パルス発生部から出力されるパルス列と、前記線形予測係数とPARCOR係数とのいずれかとを入力して音声信号を合成する前記第1の音声合成部と、前記パルス発生部の出力に対して周波数重みづけをおこなう周波数重みづけフィルタと、前記周波数重みづけフィルタの出力値と、前記包絡拡大部からの出力値とを入力して音声を合成する第2の音声合成部とを具備する音声帯域拡大装置。 A pulse generator for generating a pulse train to input and output of the output signal and the impulse response calculation unit from the perceptual weighting filter unit, a pulse train output from the pulse generator, the linear prediction coefficient and PARCOR coefficient type and either of said first speech synthesis unit for synthesizing an audio signal, wherein the frequency weighting filter for frequency weighting to the output of the pulse generator, the frequency weighting the output values ​​of the filter When the input voice band expansion apparatus and a second speech synthesis unit for synthesizing the speech by the output value from the envelope enlarged portion.
  3. 【請求項3】パルス発生部は、聴覚重みづけフィルタからの出力信号に対して周波数重みづけを行なう周波数重みづけフィルタを有し、かつ欠落している帯域を復元するパルス列を発生する機能を有することを特徴とする請求項1または2記載の音声帯域拡大装置。 3. A pulse generating unit has a function for generating a pulse train to restore the band has a frequency weighting filter for performing a frequency weighting to the output signal from the perceptual weighting filter, and missing voice band expansion apparatus according to claim 1 or 2, wherein the.
  4. 【請求項4】パルス発生部は、ピッチ周期推定部の検出値を特徴量として、ピッチ周期間隔にあるパルスの振幅を大きくすることによりパルスを強調する機能を有することを特徴とする請求項1または2記載の音声帯域拡大装置。 4. A pulse generator is claim 1, characterized in that it has as a feature the detection value of the pitch period estimation unit, a function emphasizing pulse by increasing the amplitude of the pulse in the pitch period interval or voice band expansion apparatus according.
  5. 【請求項5】パルス発生部は、ピッチ周期推定部の検出値を特徴量として、ある閾値を用いて、前記閾値に設定されたパルスを出力する機能を有することを特徴とする請求項1または2記載の音声帯域拡大装置。 5. A pulse generator as feature amount detection value of the pitch period estimation unit, using a certain threshold value, according to claim 1 or characterized in that it has a function of outputting the set pulse to the threshold value 2 voice band expansion apparatus according.
  6. 【請求項6】包絡拡大部は、分析部で得られた特徴量を入力して、広帯域なスペクトル包絡の特徴を有するスペクトル包絡に対する特徴量を、線形写像関数を用いて広帯域化する機能を有することを特徴とする請求項2記載の音声帯域拡大装置。 6. envelope expansion unit inputs the feature quantity obtained by the analysis unit, a feature amount for spectrum envelope having the features of wideband spectral envelope has the function of broadband using a linear mapping function voice band expansion apparatus according to claim 2, wherein a.
  7. 【請求項7】入力信号をバッファに一定量蓄えておき、 7. Leave accumulated a certain amount of input signal to the buffer,
    前記バッファに蓄えられた信号列に対してスペクトル包絡に関する特徴量を抽出し、前記抽出された特徴量と前記バッファに蓄えられた信号列とから推定された音源パルス列に対して、信号の持つ周波数特性についての事前情報と推定されたピッチ情報とから広帯域な音源パルス列を発生し、前記スペクトル包絡に関する特徴量と前記広帯域な音源パルス列とを用いて音声を合成することを特徴とする音声帯域拡大方法。 A feature quantity extracted regarding the spectral envelope to the signal sequence stored in the buffer, with respect to the estimated sound source pulse train from said extracted feature quantity and the signal sequence stored in the buffer, frequency having the signal broadband excitation pulse train generated by the a priori information and the estimated pitch information on the properties, the audio band expansion method, which comprises synthesizing a speech using the feature quantity relating to the spectral envelope and the wideband excitation pulse train .
  8. 【請求項8】入力信号をバッファに一定量蓄えておき、 8. Leave accumulated a certain amount of input signal to the buffer,
    前記バッファに蓄えられた信号列に対してスペクトル包絡に関する特徴量を抽出し、前記特徴量の表現する包絡情報に欠落している包絡情報を補間し、前記特徴量と前記バッファに蓄えられた信号列とから推定された音源パルス列に対して、信号の持つ周波数特性についての事前情報と推定されたピッチ情報とから広帯域な音源パルス列を発生し、前記スペクトル包絡に関する特徴量と前記広帯域な音源パルス列とを用いて音声を合成することを特徴とする音声帯域拡大方法。 Extracting a feature quantity relating to the spectral envelope to the signal sequence stored in said buffer, said interpolated envelope information that is missing the envelope information representing the feature quantity, stored in the feature quantity and the buffer signal for the estimated sound source pulse train from a train, a broadband sound source pulse train generated by the a priori information and the estimated pitch information about the frequency characteristic of the signal, a feature amount relating to the spectral envelope and the wideband excitation pulse train voice band expansion method, which comprises synthesizing a speech using.
JP11042595A 1995-05-09 1995-05-09 Voice band expansion apparatus and speech band expansion method Expired - Lifetime JP2798003B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11042595A JP2798003B2 (en) 1995-05-09 1995-05-09 Voice band expansion apparatus and speech band expansion method

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP11042595A JP2798003B2 (en) 1995-05-09 1995-05-09 Voice band expansion apparatus and speech band expansion method
DE1996619284 DE69619284D1 (en) 1995-03-13 1996-03-12 Apparatus for extending the voice bandwidth
EP19960301726 EP0732687B2 (en) 1995-03-13 1996-03-12 Apparatus for expanding speech bandwidth
DE1996619284 DE69619284T3 (en) 1995-03-13 1996-03-12 Apparatus for extending the voice bandwidth
US09157419 US5978759A (en) 1995-03-13 1998-09-21 Apparatus for expanding narrowband speech to wideband speech by codebook correspondence of linear mapping functions

Publications (2)

Publication Number Publication Date
JPH08305396A true JPH08305396A (en) 1996-11-22
JP2798003B2 true JP2798003B2 (en) 1998-09-17

Family

ID=14535437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11042595A Expired - Lifetime JP2798003B2 (en) 1995-05-09 1995-05-09 Voice band expansion apparatus and speech band expansion method

Country Status (1)

Country Link
JP (1) JP2798003B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69619284T3 (en) 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Apparatus for extending the voice bandwidth
FI119576B (en) * 2000-03-07 2008-12-31 Nokia Corp The speech processing device and a method for processing voice and digital radio telephone
JP3579047B2 (en) * 2002-07-19 2004-10-20 日本電気株式会社 Audio decoding apparatus and decoding method and program
KR100501930B1 (en) 2002-11-29 2005-07-18 삼성전자주식회사 Audio decoding method recovering high frequency with small computation and apparatus thereof

Also Published As

Publication number Publication date Type
JPH08305396A (en) 1996-11-22 application

Similar Documents

Publication Publication Date Title
Quatieri et al. Speech transformations based on a sinusoidal representation
US5787387A (en) Harmonic adaptive speech coding method and system
US5327518A (en) Audio analysis/synthesis system
US6708145B1 (en) Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting
US6725190B1 (en) Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
US5781880A (en) Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US20020010577A1 (en) Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US20060173677A1 (en) Audio encoding device, audio decoding device, audio encoding method, and audio decoding method
US20010044722A1 (en) System and method for modifying speech signals
US20060106619A1 (en) Bandwidth extension of bandlimited audio signals
US5504833A (en) Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications
US5473759A (en) Sound analysis and resynthesis using correlograms
Zhu et al. Real-time signal estimation from modified short-time Fourier transform magnitude spectra
US5029509A (en) Musical synthesizer combining deterministic and stochastic waveforms
US6741960B2 (en) Harmonic-noise speech coding algorithm and coder using cepstrum analysis method
US20100198588A1 (en) Signal bandwidth extending apparatus
US7092881B1 (en) Parametric speech codec for representing synthetic speech in the presence of background noise
US20020055913A1 (en) Signal processing system
US6115684A (en) Method of transforming periodic signal using smoothed spectrogram, method of transforming sound using phasing component and method of analyzing signal using optimum interpolation function
US20100246849A1 (en) Signal processing apparatus
Vaseghi Multimedia signal processing: theory and applications in speech, music and communications
US20050065781A1 (en) Method for analysing audio signals
US5485543A (en) Method and apparatus for speech analysis and synthesis by sampling a power spectrum of input speech
US7346499B2 (en) Wideband extension of telephone speech for higher perceptual quality
JP2003323199A (en) Device and method for encoding, device and method for decoding

Legal Events

Date Code Title Description
FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070703

Year of fee payment: 9

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080703

Year of fee payment: 10

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090703

Year of fee payment: 11

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090703

Year of fee payment: 11

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100703

Year of fee payment: 12

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110703

Year of fee payment: 13

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110703

Year of fee payment: 13

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 14

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 14

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130703

Year of fee payment: 15

EXPY Cancellation because of completion of term