JP2956548B2 - Voice band extension apparatus - Google Patents

Voice band extension apparatus

Info

Publication number
JP2956548B2
JP2956548B2 JP25844895A JP25844895A JP2956548B2 JP 2956548 B2 JP2956548 B2 JP 2956548B2 JP 25844895 A JP25844895 A JP 25844895A JP 25844895 A JP25844895 A JP 25844895A JP 2956548 B2 JP2956548 B2 JP 2956548B2
Authority
JP
Grant status
Grant
Patent type
Prior art keywords
band
speech
voice
broadband
wideband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP25844895A
Other languages
Japanese (ja)
Other versions
JPH09101798A (en )
Inventor
良久 中藤
武志 則松
峰生 津島
Original Assignee
松下電器産業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Abstract

PROBLEM TO BE SOLVED: To synthesize a voice of high tone quality by converting a band-limited input voice into a broadband voice having a wide frequency band including the frequency band in the input voice. SOLUTION: This device is equipped with a voice analyzer 101 which separates the band-limited input voice into a narrow-band residue signal and a narrow-band spectrum envelope by taking a voice analysis, a residue band widening unit 102 which generates a broadband residue signal from the narrow- band residue signal, an envelope band widening unit 103 which estimates a broadband spectrum envelope from the narrow-band spectrum envelope, a voice synthesizer 104 which synthesizes a broadband synthesized voice from the broadband residue signal and broadband spectrum envelope, a filter 105 which extracts out-band components other than the frequency band that the input voice has from the broadband synthesized voice, and a voice superposing unit 106 which superposes the waveforms of the out-band components and input voice on the time base to synthesize a broadband voice having a frequency band including the frequency band that the input voice has.

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【発明の属する技術分野】本発明は、ある周波数帯域に帯域制限された入力音声を、入力音声の持つ周波数帯域を包含するような広い周波数帯域を有する広帯域音声に変換することで高音質な音声を合成する音声帯域拡大方法および音声帯域拡大装置に関する。 The present invention relates to an input speech is band limited to a certain frequency band, high quality audio by converting a wideband speech having a wide frequency band so as to encompass the frequency band possessed by the input speech a speech band expansion method and a voice band extending apparatus for synthesizing.

【0002】 [0002]

【従来の技術】アナログ電話による通信の大部分は、N Most of the communication according to the prior art analog phones, N
TTの管轄する公衆回線網を通して行われているが、回線の物理的な制約により300Hz〜3.4kHzに帯域制限されており、300Hz以下の低域部分と3.4 Have been made through the public network to the jurisdiction of TT, and physical it is band-limited to 300Hz~3.4kHz constraints, 300 Hz or lower frequency portion of the line 3.4
kHz以上の高域部分が失われることによる音質劣化が起こる。 Sound quality deterioration due to the high-frequency portion of the more than kHz is lost occurs. また、携帯電話をはじめとするディジタル音声通信では、ビットレートの制限のために音声の帯域が制限されるという原理的な制約がある。 Also, the digital voice communications such as mobile phones, there is a fundamental constraint that band speech due to limitations of the bit rate is limited.

【0003】そこで、近年においては、回線はそのままで電話音声を高品質化する技術が切望されており、最近この問題に関する研究が盛んに行われている。 [0003] Therefore, in recent years, the line has been desired a technique for high quality of the telephone voice as it is, is research on this issue recently has been actively conducted. 例えば、 For example,
吉田、阿部:“コードブックマッピングによる狭帯域音声から広帯域音声の復元法”,音響学会講演論文集,1− Yoshida, Abe: "code book restoration method of wideband speech from narrowband speech by mapping", Acoustical Society of Collected Papers, 1-
8−18,pp.179-180,(1993.3)がある。 8-18, pp.179-180, there is a (1993.3). この方法は狭帯域音声と広帯域音声のコードブックの対応付けを基本にしており、ベクトル量子化(VQ)して得られた電話音声のコードに対する広帯域コードを広帯域コードブックから引き出すことで間接的に広帯域スペクトルを求め、さらにピッチを音源として音声合成することにより広帯域音声を得ている。 This method is the basic mapping of narrowband speech and wideband speech codebook indirectly by drawing the wide band code to the code of the telephone sound obtained by the vector quantization (VQ) from the wide band code book We obtain a broadband spectrum, to obtain a wideband speech by speech synthesis further pitch as a sound source.

【0004】 [0004]

【発明が解決しようとする課題】しかしながら、上記のような従来の方法は、コードブックのマッピングによる帯域拡大であるため、合成された音の劣化が大きくなり、また処理量も比較的多くなる。 [SUMMARY OF THE INVENTION However, the conventional methods as described above are the band expansion according to the codebook mapping, degradation of the synthesized sound is increased, also the processing amount becomes relatively large.

【0005】本発明は、上記の課題を解決するもので、 [0005] The present invention is intended to solve the above problems,
ある周波数帯域に帯域制限された入力音声を、入力音声の持つ周波数帯域を包含するような広い周波数帯域を有する広帯域音声に変換し、合成することで、通信回線により帯域制限されたアナログ電話や帯域制限された携帯電話の帯域を広げ、通話品質を向上させることを可能にする音声帯域拡大方法および音声帯域拡大装置を提供することを目的とするものである。 The input speech is band limited to a certain frequency band, converts the wideband speech having a wide frequency band so as to encompass the frequency band possessed by the input speech, by synthesizing the analog telephone or band is band-limited by a communication line spread the band of limited mobile phone, it is an object to provide a sound band expanding method and the voice band extending apparatus that can improve the call quality.

【0006】 [0006]

【課題を解決するための手段】上記目的を達成するために本発明は、 音声分析器、残差広帯域化器、包絡広帯域 Means for Solving the Problems The present invention to achieve the above object, a voice analyzer, residual broadband device, envelope wideband
化器、音声合成器、フィルタ、音声重畳器を備えた音声 Coder, speech synthesizer, speech with filter, a voice superimposer
帯域拡大装置であって、音声分析器は、入力音声を一定 A band expansion device, audio analyzer, constant input speech
フレーム毎に線形予測分析して狭帯域残差信号と狭帯域 And linear prediction analysis on each frame narrowband residual signal and narrowband
スペクトル包絡とに分離し、残差広帯域化器は、ピッチ Separated into a spectral envelope, residual broadband instrument, pitch
フィルタと歪発生器とを備え、狭帯域残差信号を非線形 A filter and distortion generators, linear narrowband residual signal
に歪ませて広帯域残差信号を出力し、ピッチフィルタ Distort the output a wideband residual signal, the pitch filter
は、狭帯域残差信号のサンプリング周波数を実数倍し、 Is a real number times the sampling frequency of the narrowband residual signal,
エイリアジングフィルタ処理により狭帯域残差信号の帯 Band of the narrowband residual signal by aliasing filtering
域幅のみを拡大した帯域拡大残差信号を作成し、帯域拡 Create a band expanding residual signal obtained by enlarging only frequency width, the bandwidth expansion
大残差信号をフィルタ処理して、入力音声の基本周波数 The large residual signal by filtering the fundamental frequency of the input speech
成分が存在する周波数帯域のみを含むピッチ含有残差信 Pitch containing residual Sashin including only the frequency band component is present
号を抽出し、歪発生器は、ピッチ含有残差信号の絶対値 Extracting No. distortion generator, the pitch-containing absolute value of the residual signal
が所定の値以下の場合は零を広帯域残差信号として出力 The output If is less than a predetermined value zero as a broadband residual signal
し、それ以外の場合はピッチ含有残差信号をそのまま広 And, as it is wide pitch containing residual signal otherwise
帯域残差信号として出力し、包絡広帯域化器は、狭帯域 Output as band residual signal, envelope broadband instrument, narrowband
スペクトル包絡から写像関数により広帯域スペクトル包 Broadband spectrum wrapped by the mapping function from the spectral envelope
絡に変換し、音声合成器は、広帯域残差信号と広帯域ス Into a fault, the speech synthesizer is wideband residual signal and a wideband scan
ペクトル包絡とから線形予測合成法を用いて広帯域合成 Wideband synthesized using the linear prediction synthesis from a spectrum envelope
音声を合成し、フィルタは、広帯域合成音声から入力音 To synthesize a voice, filter, sound input from the broadband synthesized speech
声の周波数帯域以外の帯域外成分を抽出し、音声重畳器 Extracting the band component other than the voice frequency band, the audio superimposer
は、抽出された帯域外成分と入力音声とを時間軸上で波 It is the wave of the extracted band component and the input voice on a time axis
形重畳することを特徴とする。 Characterized by shape superimposed.

【0007】また、本発明は、 音声分析器、残差広帯域 [0007] In addition, the present invention is, voice analyzer, residual broadband
化器、包絡広帯域化器、音声合成器、フィルタ、音声重 Equalizer, envelope wideband coder, speech synthesizer, filter, sound heavy
畳器を備えた音声帯域拡大装置であって、音声分析器 A voice band expansion apparatus having a mat unit, speech analyzer
は、入力音声を一定フレーム毎に線形予測分析して狭帯 It is, and linear predictive analysis of the input speech every certain frame a narrow band
域残差信号と狭帯域スペクトル包絡とに分離し、残差広 Separated into Ikizansa signals and narrowband spectral envelope, Zansahiro
帯域化器は、狭帯域残差信号を非線形に歪ませて広帯域 Band equalizer may distort the narrowband residual signal nonlinearly broadband
残差信号を出力し、包絡広帯域化器は、狭帯域スペクト Outputting a residual signal, envelope broadband instrument, narrowband spectrum
ル包絡から写像関数により広帯域スペクトル包絡に変換 Conversion from Le envelope by the mapping function in a wide band spectrum envelope
し、音声合成器は、広帯域残差信号と広帯域スペクトル And, speech synthesizer, wideband residual signal and a wideband spectrum
包絡とから線形予測合成法を用いて広帯域合成音声を合 If the wideband synthesized speech using the linear prediction synthesis from the envelope
成し、フィルタは、低域フィルタと高域フィルタとを備 Form, Bei a filter, and a low-pass filter and a high-pass filter
え、広帯域合成音声から入力音声の周波数帯域以外の帯 For example, a band other than the frequency band of the input speech from the wideband synthesized speech
域外成分を抽出し、低域フィルタは、広帯域合成音声か Extract the outside component, low-pass filter or the wideband synthesized speech
ら低域成分を抽出し、高域フィルタは、広帯域合成音声 Extracting Luo low-frequency component, a high pass filter, wideband synthesized speech
から高域成分を抽出し、音声重畳器は、コード判定器と From extracts high-frequency components, the speech superimposer the code determinator and
音声重畳器とを備え、抽出された帯域外成分と入力音声 And a voice superimposing unit, the extracted band component the input speech
とを時間軸上で波形重畳し、音声重畳器は、狭帯域スペ Sorted waveform superimposing on a time axis, voice superimposer narrowband space
クトル包絡に対応するコードまたは入力音声の有音声か Or voiced code or input voice corresponding to the vector envelope
ら決定した重畳比率に応じて低域成分と高域成分と入力 Type low-frequency component and a high-frequency component according to the superposition ratio was al determined
音声とを重畳することを特徴とする。 Characterized by superimposing the audio.

【0008】 [0008]

【発明の実施の形態】本発明は、上記した構成により、 DETAILED DESCRIPTION OF THE INVENTION The present invention, by the configuration described above,
ある周波数帯域に帯域制限された入力音声を、入力音声の持つ周波数帯域を包含する広い周波数帯域を有する広帯域信号に変換するため、帯域制限された入力音声と、 The input speech is band limited to a certain frequency band, for converting the wideband signal having a wide frequency band including a frequency band possessed by the input speech, an input speech is band limited,
入力音声を用いて作成した入力音声よりも広い周波数帯域を有する広帯域合成音声を作成しておき、さらにフィルタ処理により入力音声と広帯域合成音声を重畳して最終的な広帯域音声を得ているので、簡単な構成により高性能な帯域制限された音声の広帯域化が可能となる。 Create a wideband synthesized speech having a wide frequency band than the input speech created using the input speech advance, so to obtain a final wide-band speech further superimposes the input speech and wideband synthesized speech by filtering, broadband high-performance band-limited speech is made possible with a simple configuration.

【0009】携帯電話をはじめとする通信端末の高度化が進み、その際通話品質の議論が盛んになされている。 [0009] The mobile phone progress in the sophistication of communication terminals including the discussion of this case call quality have been made extensively.
電話は多くの人にとって、その発明から今日に至るまでなくてはならない重要な通信手段であり、その品質を向上させることは非常に重要な研究課題である。 Telephone for many people, is an important communication means not do without until today from the invention, is an issue very important research to improve its quality. 本発明は、回線特性のため0.3〜3.4kHzに帯域制限されたアナログ電話音声やビットレートの制限のために帯域制限されたディジタル音声を元の広帯域な信号に戻すための方法と装置を提供するものである。 The present invention relates to a method and apparatus for returning to the original wideband signal digital audio band-limited for the band-limited analog telephone voice and bit rate limiting 0.3~3.4kHz for line characteristics it is intended to provide.

【0010】以下、帯域制限された音声を広帯域化する本発明の第1の実施例について説明する。 [0010] Hereinafter will be described the speech band-limited for the first embodiment of the present invention to broaden.

【0011】図1は本発明の第1の実施例の全体構成を示すブロック構成図である。 [0011] Figure 1 is a block diagram showing the overall configuration of a first embodiment of the present invention. 図1において、101は帯域制限された入力音声をフレーム毎(ただし、フレームとは音声信号を所定期間で区切られる単位時間)に音声分析して、狭帯域残差信号と狭帯域スペクトル包絡とに分離する音声分析器であり、例えばフレーム毎にLPC In Figure 1, 101 for each frame the input speech is band limited (however, the unit time divided audio signal in a predetermined time period from the frame) and voice analysis, the narrowband residual signal and the narrowband spectral envelope a voice analyzer for separating, for example, LPC for each frame
分析(線形予測分析)により得られるスペクトル包絡と残差信号を算出する部分である。 Analysis is a part for calculating the spectral envelope and the residual signal obtained by the (linear prediction analysis). ここで、LPC分析により得られるスペクトル包絡としては、例えばLPC係数、PARCOR係数、反射係数、LSP係数、LPC Examples of the spectral envelope obtained by LPC analysis, for example LPC coefficients, PARCOR coefficients, reflection coefficients, LSP coefficients, LPC
ケプストラム係数、LPCメルケプストラム係数等が考えられる。 Cepstrum coefficient, can be considered LPC mel-cepstrum coefficient and the like. これらは全て音声のスペクトル上の特徴を表現している特徴量なので、いずれの係数を用いても何等差し支えない。 Since all these feature quantity that represents the characteristic of the speech spectrum, whatever no problem using any of factors. また、残差信号は入力音声からスペクトル包絡の情報を取り去った残りの情報であり、音声中のピッチ構造を良く表現していると言える。 Further, it can be said that the residual signal is remaining information obtained by removing the information spectrum envelope from the input speech, and well represented the pitch structure in the speech. 残差信号の代わりにピッチやマルチパルス列、音源符号帳を用いても、これらは全て音声のLPC分析後に得られる残差信号を特徴的に表現したものに相当するので、いずれの情報を用いても差し支えない。 Pitch and multi-pulse train instead of the residual signal, even with a excitation codebook, since they correspond to those characteristically express residual signal all obtained after LPC analysis of the speech, using any information no problem also. ここで線形予測係数、PA Here the linear prediction coefficients, PA
RCOR係数、反射係数、LPCケプストラム係数、L RCOR coefficient, reflection coefficient, LPC cepstrum coefficient, L
PCメルケプストラム係数などの特徴量に関しては、例えば、LRRabinerとRWSchaferの共著、鈴木久喜訳の、”音声のディジタル信号処理(上)(下)”、コロナ社、に詳しく記載されており、LSP係数に関しては、例えば、FKSoong,BHJuang:"Line Spectrum Pa For the feature quantity such as a PC mel cepstral coefficients, for example, LRRabiner and RWSchafer co-authored, the Kuki Suzuki translation, "Digital signal processing of the audio (upper) (lower)", Corona Publishing, are described in detail in, LSP coefficients With regard to, for example, FKSoong, BHJuang: "Line Spectrum Pa
ir(LSP) andSpeech Data Compression",Proc.ICASSP,8 ir (LSP) andSpeech Data Compression ", Proc.ICASSP, 8
4,pp.1.10.1-1.10.4、に記載されている。 4, pp.1.10.1-1.10.4, which is incorporated herein by reference. ピッチやマルチパルス列に関しては、例えば、古井:”音響・音声工学”、近代科学社、に詳しく記載されており、また音源符号帳に関しては、例えば、小野:“音声符号化技術の最近の進展”,日本音響学会誌,48巻、1号,pp.52-59, With respect to the pitch and multi-pulse train, for example, a sieve: "sound and audio engineering", modern science, Inc., has been described in detail, also with respect to excitation code book, for example, Ono: "recent developments in speech coding technology" , acoustical Society of Japan Journal, Vol. 48, No. 1, pp.52-59,
(1992)に記載されている。 It has been described in (1992).

【0012】一方、音声分析の別の方法として、ケプストラム分析やPSE分析およびウェーブレット変換等を用いても、音声の周波数軸上の特性を分離・抽出する手法であることには変わりないので、使用しても何等差し支えない。 Meanwhile, as another method for speech analysis, be used cepstrum analysis or PSE analysis and wavelet transform or the like, does not change is that a technique for separating and extracting the characteristics on the frequency axis of the audio, using What, etc. no problem even if the. 例えば、ケプストラム分析やPSE分析の場合にはリフターにより抽出したケプストラム係数をスペクトル包絡とし、その残り分を残差信号として使用することで実現できる。 For example, in the case of the cepstrum analysis and PSE analysis The extracted cepstral coefficients by the lifter and the spectral envelope, it can be achieved by using the remaining amount as residual signal. これらの分析手法に関しては既に公知であり、例えばケプストラム分析に関しては、LRRa It is already known for these analysis methods, for example with respect to the cepstrum analysis, LRRa
binerとRWSchaferの共著、鈴木久喜訳の、”音声のディジタル信号処理(上)(下)”、コロナ社、に詳しく記載されており、またPSE分析に関しては、例えば、 biner and RWSchafer co-authored, the Kuki Suzuki translation, "audio digital signal processing (top) (bottom)", Corona Publishing, are described in detail in, also with respect to PSE analysis, for example,
中島、鈴木:“パワースペクトル包絡(PSE)音声分析・合成系”,日本音響学会誌,44巻、11号,pp.824- Nakajima, Suzuki: "power spectrum envelope (PSE) speech analysis and synthesis system", Acoustical Society of Japan Journal, Vol. 44, No. 11, pp.824-
832,(1988)に、ウェーブレット変換に関しては、河原:“ウェーブレット解析の聴覚研究への応用”,日本音響学会誌,47巻、6号,pp.424-429,(1991)、に記載されている。 832, (1988), with respect to the wavelet transform, Kawahara: "Application to hearing research of wavelet analysis", Acoustical Society of Japan Journal, Vol. 47, No. 6, pp.424-429, (1991), are described in there. 本実施例では以下、音声分析手法としてはLPC分析を使用し、スペクトル包絡としてはPAR In the present embodiment below, using LPC analysis as the speech analysis method, PAR as spectral envelope
COR係数を、残差信号としては残差信号そのものを用いることにする。 The COR factor, the residual signal will be used residual signal itself.

【0013】次に102は、音声分析器101により分離された狭帯域残差信号を非線形に歪ませて、広帯域残差信号を得る残差広帯域化器である。 [0013] Next 102, the narrowband residual signal separated by the speech analyzer 101 distorts nonlinearly, a residual wideband coder to obtain a wideband residual signal. 非線形に歪ませる方法としては、まず狭帯域残差信号の1サンプル毎にゼロを挿入することでサンプリング周波数を倍にし、さらにエイリアジングフィルタ処理することで、折り返し歪のないサンプリング拡大残差信号を作成する。 As a method for distorting the nonlinear, and the sampling frequency doubled by first inserting zeros for each sample of the narrowband residual signal, further aliasing filtering doing, the sampling enlarged residual signal without aliasing create. このサンプリング拡大残差信号のうち信号の絶対値が一定値以下の値を持つ信号だけを0に変更することや、信号の値が0以下の値を持つ信号だけを0に変更すること、あるいは、信号の値が0以下の値を持つ信号のみ、その値の符号を反転させることにより広帯域残差信号を発生させる方法など種々の方法が考えられ、いずれも狭帯域残差信号から広帯域残差信号を発生させる方法であるので使用可能である。 Altering the absolute value of the signal of the sampling expanded residual signals only signals having a value below a predetermined value and be changed to 0, only the signal value of the signal has a value of 0 or less to 0, or , the signal value of the signal has a value of 0 or less only, various methods such as a method of generating a wideband residual signal is considered by inverting the sign of the value, the broadband residual from both narrowband residual signal It can be used because it is a method of generating a signal. さらにサンプリング拡大残差信号のうち絶対値が一定値以上の値を持ち、かつ符号が正のときは信号をその一定値に変更し、また信号の絶対値が一定値以上の値を持ち、かつ符号が負ならば、一定値の符号を反転した値に変更することによっても、広帯域残差信号を発生させることもできる。 Further has a value above a certain value is the absolute value of the sampled expanded residual signal, and codes is positive when to change the signal to its predetermined value, also the absolute value of the signal has a value above a certain value, and if negative sign, also by changing the value obtained by inverting the sign of the constant value, it is also possible to generate a wideband residual signal. さらに、音質は若干劣るものの狭帯域残差信号に1サンプル毎にゼロを挿入するだけでもで、折り返し歪により疑似的に広帯域残差信号を発生させることができ、同様の効果が得られるので使用可能である。 Furthermore, sound quality than just inserting zeros for each sample narrowband residual signal slightly poor, pseudo manner can generate a wideband residual signal by aliasing, the same effect can be obtained using possible it is. このように非線形に歪ませる方法は種々考えられ、しかもそれぞれの効果はそれぞれ大きく異なるものである。 Method for thus distort nonlinear are various considered, moreover it is different significantly respectively respective effects.

【0014】次に103は、あらかじめ多量の学習用データから抽出した狭帯域スペクトル包絡と広帯域スペクトル包絡を用いて求めておいた写像関数により、音声分析器101により分離された入力音声の狭帯域スペクトル包絡を広帯域スペクトル包絡へと変換する包絡広帯域化器である。 [0014] Next 103, the mapping function that has been determined using a narrow band spectral envelope and the wideband spectral envelope previously extracted from a large amount of training data, narrowband spectrum of the input speech that has been separated by the speech analyzer 101 a envelope broadband for converting into wideband spectral envelope to envelope. 求めておく写像関数としては、本実施例では線形写像を用いるが、さらに線形写像以外に2次変換や、ニューラルネットワークなどの非線形変換を用いても、狭帯域スペクトルから広帯域スペクトルを直接的に変換している点では同じなので何等差し支えない。 The mapping function to be determined, in this embodiment, a linear mapping, but further second transformation and in addition linear mapping, even using a non-linear transformation such as a neural network, directly converts the broadband spectrum from a narrowband spectrum What, etc. no problem point is, since the same you are. 2次変換に関しては、例えば、F.Class、A.Kaltenmeier、P. For the second transformation, for example, F.Class, A.Kaltenmeier, P.
Regel、and K.Trottler:"Fast speakeradaptation for Regel, and K.Trottler: "Fast speakeradaptation for
speech recognition systems",Proc. IEEE ICASSP,pp. speech recognition systems ", Proc. IEEE ICASSP, pp.
133-136,(Apr.1990)、に記載されており、またニューラルネットワークによる変換は、例えば、磯、麻生、吉田、渡辺:”ニューラルネットワークによる話者適応”、音響学会講演論文集,1−6−16,(1989.3)、 133-136, (Apr.1990), are described in, also converted by the neural network, for example, ISO, Aso, Yoshida, Watanabe: "speaker adaptation using a neural network", Acoustical Society of Collected Papers, 1- 6-16, (1989.3),
に記載されている。 It is described in. 上記した学習用データとしては例えば、ある標準話者1名の様々に発声した音声を用いてもよいし、さらに、複数の話者のデータを用いることで、 The learning data described above for example, may be used a voice which variously utterances certain standard speaker 1 person, Further, by using the data of a plurality of speakers,
話者の発声の変動に強い写像関数を作成する時に有用である。 It is useful when creating a strong mapping function to change the speech of the speaker.

【0015】次に104は、残差広帯域化器102および包絡広帯域化器103でそれぞれ求められた広帯域残差信号と広帯域スペクトル包絡とから、入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域合成音声を合成する音声合成器である。 [0015] Next 104, the broadband has a broadband residual signal and a wideband spectral envelope obtained respectively residual broadband 102 and envelope wideband encoder 103, a wide frequency band including a frequency band of the input signal a speech synthesizer for synthesizing the synthesized speech. 音声合成方法としては、広帯域残差信号として何を使用するか、また広帯域スペクトル包絡としてどの特徴量を使用するかで決定できる。 The speech synthesis method, what to use as a broadband residual signal, also can be determined in what should be the feature quantity as a broadband spectral envelope. 例えば、広帯域残差信号として残差信号やピッチを用い、広帯域スペクトル包絡として線形予測係数を用いたときは、線形予測合成法を用いて合成すれば良い。 For example, using the residual signals and the pitch as a broadband residual signal, when using the linear prediction coefficients as a broadband spectral envelope may be synthesized using the linear prediction synthesis.
他にも、ケプストラム合成法やPSE合成法等が使用できる。 Besides, cepstrum synthesis method and PSE synthesis method, or the like can be used. さらに、音声合成器104で合成する前に残差広帯域化器102からの出力である広帯域残差信号に対し、スペクトルの平滑化処理を施せば、なお良いと言える。 Further, with respect to the wideband residual signal which is output from the residual broadband 102 before synthesizing the speech synthesizer 104, if Hodokose smoothing processing of spectral still considered good. 例えば、平滑化処理の一例として、低次の線形予測分析を広帯域残差信号について行うことで、スペクトルの平坦化が実現でき、歪発生の際の余分なスペクトルの凹凸を軽減することが可能となる。 For example, as an example of smoothing processing, the low-order linear prediction analysis by making the wideband residual signal can be realized flattening of the spectrum, it is possible to reduce the excess spectrum of irregularities during distortion generation Become. また、平滑化処理に近い処理として位相等価処理があり、これを広帯域残差信号に施すことで、より音質の向上が得られる。 Further, there is a phase equivalent processing as the processing close to the smoothing process, by applying this to the wideband residual signal, more improved sound quality can be obtained.

【0016】105は、広帯域合成音声から入力音声の持つ周波数帯域以外の周波数成分を抽出するためのフィルタであり、さらに106は抽出された帯域外成分と入力音声とを時間軸上で波形重畳して、入力音声の持つ周波数帯域を包含する広い周波数帯域を有する広帯域音声を合成する音声重畳器である。 [0016] 105 is a filter for extracting a frequency component other than a frequency band having a wide band synthesized speech of the input speech, further 106 waveform superimposing the input speech and extracted band component on the time axis Te is an audio superimposer to synthesize wideband speech having a wide frequency band including a frequency band possessed by the input speech.

【0017】以下、本発明の第1の実施例について、図1のブロック構成図を参照しながら詳細に説明する。 [0017] Hereinafter, a first embodiment of the present invention will be described in detail with reference to the block diagram of FIG.

【0018】まず、音声が電話回線や帯域制限フィルタなどを通ってから音声分析器101に入力されると、音声分析器101では一定の時間間隔iでのM次のPAR [0018] First, when speech is input to the speech analyzer 101 through a telephone line or band-limiting filter, M following PAR at a constant time interval i in the voice analyzer 101
COR係数P i (M)が抽出される。 COR coefficient P i (M) is extracted. 一定の時間間隔は、ここでは例えば狭帯域音声のサンプリング周波数を8KH Predetermined time interval, wherein 8KH a sampling frequency of, for example narrowband speech
z(帯域幅4KHz)としたとき、160点(20m When the z (bandwidth 4 KHz), 160 points (20 m
s)であり、この時間単位をフレームと呼ぶ。 A s), call this time units as the frame. 一方、広帯域化後の広帯域音声では、サンプリング周波数を16 On the other hand, the wideband speech after broadening, the sampling frequency 16
KHz(帯域幅8KHz)として、320点(20m As KHz (bandwidth 8 KHz), 320 points (20 m
s)とすれば良い。 s) and it should be.

【0019】次に、音声分析器101により分離された狭帯域残差信号を非線形に歪ませて、広帯域残差信号を残差広帯域化器102にて得る。 Next, the narrowband residual signal separated by the speech analyzer 101 distorts nonlinearly to obtain a wideband residual signal at residual wideband encoder 102. まず、狭帯域残差信号の1サンプルおきにゼロを挿入することでサンプリング周波数を倍にする(アップサンプリング)。 First, doubling the sampling frequency by inserting a zero every other sample of the narrowband residual signal (up-sampling). そして、元々の周波数帯域の信号成分のみ抽出するフィルタ(エイリアジングフィルタ)を作成しておき、このフィルタにアップサンプリングされた残差信号を入力することで、 Then, advance to create a filter for extracting only a signal component of the original frequency band (aliasing filter), by entering the upsampled residual signal to the filter,
折り返し歪のないサンプリング拡大残差信号を作成する。 Creating a no aliasing sampling enlarged residual signal. こうすることで、例えば元々の残差信号が1フレーム160点のデータであるとすると、サンプリング拡大残差信号では320点のデータとなる。 In this way, for example, when the original residual signal is assumed to be data of 160 points 1 frame, the 320-point data sampling expanded residual signals. そして例えば、 And, for example,
このサンプリング拡大残差信号のうち信号の絶対値が一定値以下の値を持つ信号だけを0に変更することで、広帯域残差信号を発生させることができる。 The absolute value of the signal of the sampling expanded residual signals only signals having a value below a predetermined value by changing to 0, it is possible to generate a wideband residual signal.

【0020】一方、包絡広帯域化器103では、音声分析器101により分離された入力音声の狭帯域スペクトル包絡を広帯域スペクトル包絡へと変換する。 Meanwhile, the envelope wideband encoder 103, converts the narrow-band spectral envelope of the input speech that has been separated by the speech analyzer 101 to wideband spectral envelope. まず、あらかじめ用意した多数の学習用音声データをフィルタ処理して学習用狭帯域音声を作成する。 First, a narrowband speech for learning the number of training speech data prepared in advance to filter. フィルタとしては、例えば電話回線の特性を模擬したものや、ディジタル化の際に使用する低域通過フィルタ等を模擬したものを使用する。 The filter, used for example, those that mimic the characteristics of the telephone line, the one which simulates a low-pass filter and the like used in digitization. この処理により、入力音声と学習用音声を同じ環境で得た共通のデータとして扱うことが可能になる。 This process makes it possible to handle the training speech and the input speech as the common data obtained in the same environment. さらに、前述の多数の学習用データをフィルタ処理しないで、学習用広帯域音声を作成する。 Furthermore, without filtering the number of learning data described above, to create the training wideband speech. 以上の処理手順を図2に示す。 Figure 2 shows the above procedure.

【0021】次に、包絡広帯域化器103の部分の詳細を図3に示す。 [0021] Next, the details of the portion of the envelope wideband encoder 103 in FIG. まず、狭帯域データ処理器301は、先ほど求めた学習用狭帯域音声を用いて、前述の音声分析器101と同様に狭帯域スペクトル包絡を抽出する部分である。 First, the narrow-band data processor 301 using the narrowband speech for learning obtained previously is a part for extracting the same narrowband spectral envelope as the speech analyzer 101 described above. 同様に、広帯域データ処理器302では、前述の学習用広帯域音声から広帯域スペクトル包絡を抽出する。 Similarly, the wide band data processor 302 to extract the wideband spectral envelope from the learning wideband speech described above. 次に写像関数推定器303では、抽出された狭帯域スペクトル包絡と広帯域スペクトル包絡との関係を写像関数として推定する。 Then the mapping function estimator 303, the extracted relation between narrowband spectral envelope and the wideband spectral envelope is estimated as a mapping function. 本実施例では写像関数として線形写像を用い、狭帯域スペクトル情報から広帯域スペクトル情報へスペクトル変換を行う。 Using a linear mapping as the mapping function in this embodiment, it performs spectral conversion from narrowband spectrum information to the broadband spectrum information. 具体的には、写像関数 Specifically, the mapping function
{A} の推定は、入力されたスペクトル包絡x iの変換後の広帯域化スペクトル包絡z iと目標となる広帯域スペクトル包絡y iとの間の差の二乗誤差を最小化することで推定する。 Estimation of {A} is estimated by minimizing the square error of the difference between the wideband spectral envelope y i as a broadband spectral envelope z i and the target of the converted input spectrum envelope x i. すなわち、全学習データの全フレームにおける(数1)で与えられる目的関数を最小化することで求められる。 That is obtained by minimizing the objective function given in equation (1) in all frames of all training data.

【0022】 [0022]

【数1】 [Number 1]

【0023】ただし、{A} はM×M次元のマトリックスであり、y iとz iはM次元のベクトルである。 [0023] However, {A} is a matrix of M × M dimensions, y i and z i is a vector of M dimensions.

【0024】この推定で用いる広帯域スペクトル包絡と狭帯域スペクトル包絡は同じ学習音声データから求めているので、フレーム毎に完全に一対一に対応づけすることができる。 [0024] Since the sought from the broadband spectral envelope and a narrow-band spectral envelope is identical training speech data used in the estimation, it is possible to correspond to the full one-to-one for each frame. 次に304は、音声分析器101により抽出された、iフレーム目の入力音声の狭帯域スペクトル包絡x iを、写像関数{A}で広帯域化スペクトル包絡z Then 304 was extracted by the speech analyzer 101, the i-th frame of the input speech narrowband spectral envelope x i, broadband spectral envelope z in mapping function {A}
iに変換する包絡広帯域化器である。 a envelope broadband for converting to i. 具体的には、(数2)により変換を行う。 Specifically, it performs conversion by equation (2).

【0025】 [0025]

【数2】 [Number 2]

【0026】次に音声合成器104では、残差広帯域化器102と包絡広帯域化器103でそれぞれ求められた広帯域残差信号と広帯域スペクトル包絡から、線形予測合成法により音声合成する。 [0026] Next, in the speech synthesizer 104, the wide-band residual signal and the wideband spectral envelope obtained respectively residual wideband encoder 102 and envelope wideband encoder 103, speech synthesis by LPC synthesis. 音声合成方法としては、広帯域残差信号として何を使用するか、また広帯域スペクトル包絡としてどの特徴量を使用するかで決定できる。 The speech synthesis method, what to use as a broadband residual signal, also can be determined in what should be the feature quantity as a broadband spectral envelope.
例えば、広帯域残差信号として、残差信号やピッチを用い、広帯域スペクトル包絡として線形予測係数を用いたときは、線形予測合成法を用いれば良い。 For example, as a broadband residual signal, using the residual signals and pitch, when using the linear prediction coefficients as a broadband spectral envelope may be used a linear prediction synthesis. 他にも、ケプストラム合成やPSE合成法等も同様に使用できる。 Additional cepstrum synthesis and PSE synthesis method or the like can be used as well.

【0027】次に、フィルタ105によって、広帯域合成音声から入力音声の持つ周波数帯域以外の周波数成分を抽出する。 Next, the filter 105 extracts the frequency component other than a frequency band having a wide band synthesized speech of the input speech. フィルタとしては、FIRフィルタやII The filter, FIR filter and II
Rフィルタ等のいずれのフィルタを用いても、広帯域合成音声から入力音声の持つ周波数帯域以外の周波数成分を切り出す意味では同じであるから差し支えない。 Using either of the filter, such as the R filter, no problem because it is the same in the sense of cutting out the frequency components other than the frequency band having a wide band synthesized speech of the input speech.

【0028】最後に、音声重畳器106にて、抽出された低域成分や高域成分などの帯域外成分と入力音声とを時間軸上で波形重畳して、入力音声の持つ周波数帯域を包含する広い周波数帯域を有する広帯域音声を合成する。 [0028] Finally, by voice superimposer 106, the extracted with band components such as low-frequency component and high frequency components and input speech waveform superimposed on the time axis, include a frequency band possessed by the input speech wideband speech having a wide frequency band is synthesized.

【0029】以上のように、本実施例の構成によれば、 [0029] As described above, according to the structure of this embodiment,
比較的簡単な構成で、帯域制限された入力音声を広い周波数帯域を有する広帯域音声に正確に変換することができる音声帯域拡大方法および装置を提供することができる。 A relatively simple configuration, it is possible to provide a voice band expansion method and apparatus capable of accurately converting an input speech is band limited to the wideband speech having a wide frequency band.

【0030】次に、本発明の第2の実施例について説明する。 Next, a description will be given of a second embodiment of the present invention. 本実施例は、基本的には第1の実施例(図1)と同様の構成であるが、その一部、すなわち残差広帯域化器102を他の構成に変更した例である。 This embodiment has basically the same configuration as the first embodiment (FIG. 1), a portion, that is, an example in which changing the residual wideband encoder 102 in other configurations.

【0031】図4は本実施例の残差広帯域化器を詳しく示したブロック構成図である。 [0031] FIG. 4 is a block diagram showing the details residual wideband encoder of the present embodiment. まず、音声分析器101 First, the speech analyzer 101
で帯域制限された入力音声をフレーム毎に音声分析して、狭帯域残差信号と狭帯域スペクトル包絡とに分離する。 In by voice analyzes the input speech is band limited for each frame is separated into narrowband residual signal and the narrowband spectral envelope. 本実施例が第1の実施例と大きく異なる部分、すなわち本実施例において最も特徴となる点は、この分離された狭帯域残差信号を非線形に歪ませて広帯域残差信号を得る際、狭帯域残差信号を非線形に歪ませる前にピッチフィルタ401によりフィルタ処理を行い、残差信号から音声の基本周波数成分の存在する周波数帯域のみを切り出すところにある。 When this embodiment is largely different from those in the first embodiment, i.e. most characteristic become point in this embodiment, to obtain a wideband residual signal distorts the separated narrowband residual signal nonlinearly, narrow to filter the pitch filter 401 prior to distort the band residual signal nonlinearly, there is to be cut out only the presence frequency band of the fundamental frequency component of the sound from the residual signal.

【0032】次に、歪発生器402により非線形歪を発生させ、広帯域残差信号を作成する。 Next, to generate a non-linear distortion by the distortion generator 402 to generate a wideband residual signal. このように狭帯域残差信号中の基本周波数成分のみ(ピッチ含有残差信号)を抽出し、非線形歪を発生することで、ピッチ以外の信号成分から発生する不要な歪を低減することができ、高音質な広帯域残差信号を作成することが可能となる。 Thus extracted narrowband fundamental frequency component in the band residual signal only (pitch-containing residual signal), by generating a non-linear distortion, it is possible to reduce unwanted distortion generated from the signal components other than the pitch , it is possible to create a high-quality wideband residual signal. ここで、ピッチフィルタとは音声の基本周波数成分の存在する周波数帯域のみを切り出すために使用するフィルタであり、例えば800Hz付近にカットオフ周波数のある低域通過フィルタなどがその例である。 Here, the pitch filter is a filter used to cut out only the frequency band in which the presence of the fundamental frequency component of voice, such as a low pass filter with a cutoff frequency around 800Hz are examples. このカットオフ周波数は任意に決定できる。 The cutoff frequency can be determined arbitrarily.

【0033】以下、包絡広帯域化器103で、音声分析器101により分離された入力音声の狭帯域スペクトル包絡を広帯域スペクトル包絡へと変換し、さらに得られた広帯域残差信号と広帯域スペクトル包絡とから音声合成により入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域合成音声を合成し、さらに広帯域合成音声から入力音声の持つ周波数帯域以外の周波数成分をフィルタにより抽出し、入力音声とを時間軸上で波形重畳して、入力音声の持つ周波数帯域を包含する広い周波数帯域を有する広帯域音声を求める部分は第1の実施例と同様である。 [0033] Hereinafter, the in envelope wideband encoder 103, a narrowband spectral envelope of the separated input voice by the voice analyzer 101 and converted to wideband spectral envelope, and further resulting wideband residual signal and a wideband spectral envelope synthesized wideband synthesized speech having a wide frequency band including a frequency band of the input signal by voice synthesis, further extracts a frequency component other than a frequency band having a wide band synthesized speech of the input speech by a filter, a time axis an input audio and waveform superposition above, the portion for obtaining the wideband speech having a wide frequency band including a frequency band possessed by the input speech is the same as in the first embodiment.

【0034】次に、本発明の第3の実施例について説明する。 Next, a description will be given of a third embodiment of the present invention. 本実施例は第1の実施例(図1)と基本的な構成は同様であり、共通する部分については、詳しい説明は割愛する。 This embodiment is similar in basic configuration as the first embodiment (FIG. 1), for the common parts, detailed descriptions are omitted. 本実施例が第1の実施例と大きく異なる部分は、第1の実施例ではフィルタ105において、広帯域合成音声から入力音声の持つ周波数帯域以外の周波数成分をフィルタにより抽出し、音声重畳器106で入力音声にそのまま時間軸上で波形重畳していたのに対し、本実施例では、フィルタにより抽出された成分と入力音声とにそれぞれ一定の比を掛けた後、時間軸上で波形重畳しているところにある。 Moiety present embodiment greatly differs from the first embodiment, the filter 105 in the first embodiment, the frequency components other than the frequency band having a wide band synthesized speech of the input speech is extracted by the filter, the voice superimposing unit 106 while was waveforms superimposed directly on the time axis to the input speech, in the present embodiment, after each multiplied by a constant ratio to the input speech and extracted components by filtering, and waveform superimposed on the time axis there to where you are.

【0035】以下、本発明の第3の実施例について詳細に説明する。 [0035] Hereinafter, will be described in detail a third embodiment of the present invention. まず、音声分析器101により入力音声をフレーム毎に音声分析して、狭帯域残差信号と狭帯域スペクトル包絡とを分離し、残差広帯域化器102により狭帯域残差信号から広帯域残差信号を発生させる部分は、第1の実施例と同様である。 First, the speech analyzing input speech for each frame by the speech analyzer 101, the narrowband residual separates the signals and narrow band spectral envelope, wideband residual signal from the narrowband residual signal by residual broadband 102 part for generating is the same as the first embodiment. 本実施例では、包絡広帯域化器103の部分が第1の実施例と異なる。 In this embodiment, the portion of the envelope wideband encoder 103 is different from the first embodiment.

【0036】図5はこの包絡広帯域化器103の部分を詳しく示したブロック構成図である。 [0036] FIG. 5 is a block diagram showing in detail a portion of the envelope wideband encoder 103. 以下、図5のブロック構成図を参照しながら説明する。 It will be described below with reference to the block diagram of FIG. まず501は、あらかじめ多量の学習用音声データから抽出しておいた狭帯域スペクトル包絡を作成する狭帯域データ作成器であり、さらに502はこの狭帯域スペクトル包絡と時間的に対応づけされた広帯域スペクトル包絡を作成する広帯 First 501 is a narrow-band data generator for creating narrowband spectral envelope which had been previously extracted from a large amount of training speech data, broad spectrum further 502 which is the narrowband spectral envelope and temporal correspondence wide band to create an envelope
データ作成器である。 A frequency data generator. 次に、狭帯域符号帳作成器50 Then, narrowband codebook generator 50
3により狭帯域スペクトル包絡をいくつかの類似したスペクトル包絡毎に分類しておき、代表コードを求めておく。 Leave classified by spectral envelope has several similarities narrowband spectral envelope by 3, previously obtained representative code. そして写像関数推定器504により、代表コード毎に狭帯域スペクトル包絡から広帯域スペクトル包絡を導く写像関数を推定する。 Then the mapping function estimator 504 estimates the mapping function to guide the wideband spectral envelope from narrowband spectral envelope for each representative code. 推定方法は、第1の実施例と同様である。 Estimation method is the same as the first embodiment. そして、実際の入力音声の狭帯域スペクトル包絡がどの代表コードに近いかをコード判定器505により判定し、包絡広帯域化器506により、最も近いコードと対応する写像関数を用いて広帯域スペクトル包絡へと変換する。 Then, it is determined whether close to the actual narrowband spectral envelope which represent code of the input speech by the code determiner 505, the envelope broadband 506, to broadband spectral envelope using a mapping function corresponding to the closest code Convert.

【0037】例えば、実際に狭帯域スペクトル包絡をベクトル量子化するには、まずjフレーム目の狭帯域スペクトル包絡x jに対するk番目のコードV k (コード数L)に対する量子化歪 D jkは、(数3)で計算される。 [0037] For example, the vector quantization actually narrowband spectral envelope is quantization distortion D jk for first j-th frame of the narrowband spectral envelope x j for the k-th code V k (the number of codes L) is is calculated by the equation (3).

【0038】 [0038]

【数3】 [Number 3]

【0039】ただし、x j 、V kはM次元のベクトル(M [0039] However, x j, V k is M-dimensional vector (M
次元の特徴量)である。 Is the dimension of the feature). そして、この歪が最も小さいコードがjフレーム目の狭帯域スペクトル包絡に対する代表コードになる。 The smallest code this distortion is the representative code for the narrow-band spectral envelope of the j-th frame.

【0040】このように、狭帯域スペクトル包絡を類似したスペクトルのグループにクラスタリングし、各グループを代表的に表現するいくつかの代表コードを求める方法は、ベクトル量子化法(Y.Linde, A.buzo and RM [0040] Thus, a method for determining the number of the representative code that is clustered into a group of spectra similar to narrowband spectral envelope is typically represent each group, Vector Quantization (Y.Linde, A. buzo and RM
Gray:"An algorithm for vector quantizer design",IE Gray: "An algorithm for vector quantizer design", IE
EE Trans.Commun.,COM-28,1,pp.84-95(Jan.1980))と呼ばれ、多量のデータの特徴を少ないデータで効率的に表現することが可能となる。 EE Trans.Commun., COM-28,1, called pp.84-95 (Jan.1980)), it is possible to efficiently expressed by less data characteristic of a large amount of data. さらにクラスタリング方法として別の方法を用いても何等差し支えない。 What, etc. no problem even by using a different method as a further clustering method.

【0041】以上のようにして求めた広帯域残差信号と広帯域スペクトル包絡から音声合成器104により、入力音声の持つ周波数帯域を包含する広い周波数帯域を有する広帯域合成音声を合成する。 [0041] The speech synthesizer 104 to the wideband residual signal and a wideband spectral envelope obtained as described above, to synthesize the wideband synthesized speech having a wide frequency band including a frequency band possessed by the input speech. この部分は第1の実施例と同様である。 This part is the same as the first embodiment.

【0042】さらに本実施例では、第1の実施例のフィルタ105および音声重畳器106の部分が異なる。 [0042] Furthermore, in this embodiment, the filter 105 and the portion of the audio superimposing unit 106 of the first embodiment is different. 図6はこのフィルタおよび音声重畳器の部分を詳しく示したブロック構成図である。 6 is a block diagram showing in detail a portion of the filter and audio superimposer. 以下、図6を参照しながら説明する。 It will be described below with reference to FIG.

【0043】まず、601は広帯域合成音声から入力音声の持つ周波数帯域以外の周波数成分のうち低域成分のみを低域通過フィルタにより抽出する低域フィルタであり、602は広帯域合成音声から入力音声の持つ周波数帯域以外の周波数成分のうち高域成分のみを高域通過フィルタにより抽出する高域フィルタである。 Firstly, 601 is a low-pass filter for extracting only by the low-pass filter low-frequency components among the frequency components other than the frequency band having a wide band synthesized speech of the input speech, 602 of the input speech from the wideband synthesized speech only high frequency component among the frequency components other than the frequency band with a high-pass filter for extracting the high-pass filter. なお、ここでは、広帯域合成音声から入力音声の持つ周波数帯域以外の周波数成分を抽出するフィルタとして低域、高域の2種類を考えたが、3つ以上のフィルタを用いても何等差し支えない。 Here, the low-pass as a filter for extracting a frequency component other than a frequency band having a wide band synthesized speech of the input speech has been considered two types of high frequency, whatever no problem even using three or more filters.

【0044】603は、この低域成分および高域成分と入力音声とを時間軸上で重畳する音声重畳器であるが、 [0044] 603 is a voice superimposer for superimposing and the low frequency component and high frequency component to the input speech on a time axis,
本実施例ではコード判定器505において最も近いコードと判定されたコードの内容に応じて、あらかじめ決定しておいた比率で低域成分および高域成分と入力音声とを重畳する機能を有する。 In the present embodiment has a function in accordance with the contents of the code is determined to the nearest code in the code determiner 505, superimposes the input speech and the low-frequency component and a high-frequency component at a ratio determined in advance. この際、その比率として、例えば、コードが摩擦音等の無声音を表すコードの場合は、低域、高域、入力音声の比率を0.5:1:1.5のようにして、高域を強調するようにし、コードが母音等の有声音を表すコードの場合は、低域、高域、入力音声の比率を1.5:1:0.5のようにして、低域を強調するようにして、入力音声と波形重畳することで、コードすなわち音声スペクトルの形状に応じて、的確に入力音声の広帯域化が可能となる。 As this time, the ratio, for example, in the case of code code represents the unvoiced sound, such as a fricative, low-pass, high-pass, the ratio of the input speech 0.5: 1: as 1.5, the high-frequency so as to emphasize the case of code code represents voiced such vowels, low-pass, high-pass, the ratio of the input speech 1.5: 1: as 0.5, emphasizes low-pass a manner, by inputting voice and waveform superposition coding ie in accordance with the shape of the speech spectrum, it is possible to broaden the accurately input speech.

【0045】次に、本発明の第4の実施例について説明する。 Next, a description will be given of a fourth embodiment of the present invention. 本実施例は、第3の実施例と共通する部分は多く、共通する部分については、詳しい説明は割愛する。 This embodiment, portions common to the third embodiment is most, for the common parts, detailed descriptions are omitted.
本実施例が第3の実施例と異なる部分は、第3の実施例では音声重畳器603で低域成分および高域成分と入力音声とを時間軸上で重畳する際、コード判定器505において最も近いコードと判定されたコードの内容に応じて、あらかじめ決定しておいた比率で低域成分、高域成分と入力音声とを重畳しているのに対し、本実施例では、コードの代わりに入力音声の有声性に応じた比率を掛けた後、時間軸上で波形重畳しているところにある。 Moiety present embodiment differs from the third embodiment, when in the third embodiment superimposes the input speech and the low-frequency component and high frequency component on a time axis in audio superimposing unit 603, the code judging unit 505 depending on the content of the nearest code as determined code, whereas the superimposed low-frequency component and a high frequency component to the input speech at a ratio determined in advance, in the present embodiment, instead of the code after multiplication by a ratio corresponding to the voiced of the input voice, there is to that waveform superimposed on the time axis.

【0046】以下、本発明の第4の実施例について詳細に説明する。 [0046] Hereinafter, will be described in detail a fourth embodiment of the present invention. まず、音声分析器101により入力音声をフレーム毎に音声分析して、狭帯域残差信号と狭帯域スペクトル包絡とを分離し、残差広帯域化器102により狭帯域残差信号から広帯域残差信号を発生させ、包絡広帯域化器103により狭帯域スペクトル包絡から広帯域スペクトル包絡を推定する。 First, the speech analyzing input speech for each frame by the speech analyzer 101, the narrowband residual separates the signals and narrow band spectral envelope, wideband residual signal from the narrowband residual signal by residual broadband 102 It is generated to estimate a broadband spectral envelope from narrowband spectral envelope by envelope wideband encoder 103. さらに音声合成器104により、入力音声の持つ周波数帯域を包含する広い周波数帯域を有する広帯域合成音声を合成する。 Further the speech synthesizer 104 synthesizes a wideband synthesized speech having a wide frequency band including a frequency band possessed by the input speech. ここまでの部分は、第3の実施例と同様である。 Parts so far are the same as in the third embodiment.

【0047】しかし本実施例では、第3の実施例の音声重畳器106の部分が異なる。 [0047] However, in this embodiment, the portion of the audio superimposing unit 106 of the third embodiment is different. 図7はこの音声重畳器およびフィルタの部分を詳しく示したブロック構成図である。 Figure 7 is a block diagram showing in detail a portion of the audio superimposing unit and filter. 以下、図7を参照しながら説明する。 It will be described below with reference to FIG.

【0048】音声合成器104により合成された広帯域合成音声から低域フィルタ701により入力音声の持つ周波数帯域以外の周波数成分のうち低域成分のみを抽出し、さらに高域フィルタ702により、入力音声の持つ周波数帯域以外の周波数成分のうち高域成分のみを抽出する。 [0048] extracting only low-frequency components among the frequency components other than the frequency band having a wide band synthesized speech synthesized by the speech synthesizer 104 of the input speech by the low pass filter 701, further by high pass filter 702, the input speech among the frequency components other than the frequency band having to extract only high frequency components. この部分は第3の実施例と同様である。 This portion is similar to the third embodiment.

【0049】次に、本実施例では、まず入力音声から抽出した狭帯域残差信号および狭帯域スペクトル包絡を用いて、有声性判定器703により入力音声の有声性を求める。 Next, in this embodiment, first, using the narrowband residual signal and narrowband spectral envelope extracted from the input speech, obtaining the voicing of the input speech by voicing determination unit 703. さらに、この有声性の割合にに応じて、あらかじめ決定しておいた比率で低域成分、高域成分と入力音声とを音声重畳器704により重畳する。 Furthermore, depending on the ratio of the voiced, low-frequency component at a ratio determined in advance, and the input speech and the high-frequency component superimposed by a voice superimposed 704. この際その比率として、例えば、有声性が摩擦音等の無声音を表す場合は、低域、高域、入力音声の比率を0.5:1:1.5のようにして、高域を強調するようにし、有声性が母音等の有声音を表す場合は、低域、高域、入力音声の比率を1.5:1:0.5のようにして、低域を強調するようにし、入力音声と波形重畳することで、有声性すなわちスペクトルの形状に応じて、的確に入力音声の広帯域化が可能となる。 As this time the ratio, for example, if the voiced properties represent unvoiced like fricatives, low-pass, high-pass, the ratio of the input speech 0.5: 1: as 1.5, emphasizing the high frequency as to, if the voicing property represents voiced such vowels, low-pass, high-pass, the ratio of the input speech 1.5: 1: as 0.5, so as to emphasize the low-frequency input by superimposing speech waveform, depending on the voicing of i.e. spectral shape of, it is possible to broaden the accurately input speech. 入力音声の有声性としては、たとえば入力音声の自己相関係数を求め、さらに0次の係数すなわちパワーで割った正規化自己相関係数を求め、0次の係数以外の値の中で最大となる係数がピッチに相当するピッチ係数と判定し、このピッチ係数を有声性として用いることで実現することができる。 The voiced of the input speech, for example, obtains the autocorrelation coefficients of the input speech, further obtains the 0-order coefficients or normalized autocorrelation coefficient divided by the power, and the largest of the values ​​other than zero order coefficient comprising coefficients determined to pitch coefficient corresponding to the pitch can be realized by using this pitch coefficient as voiced properties.

【0050】以上のように、本実施例の構成によれば、 [0050] As described above, according to the structure of this embodiment,
帯域制限された入力音声を広い周波数帯域を有する広帯域音声に正確に変換することができる音声帯域拡大装置を提供することができる。 The input speech is band limited may provide voice band expansion device capable of accurately converting a wideband speech having a wide frequency band.

【0051】このように、本発明の実施例の音声帯域拡大装置によれば、特定の周波数帯域に帯域制限された入力音声を一定フレーム毎に音声分析して狭帯域残差信号と狭帯域スペクトル包絡とに分離する音声分析器101 [0051] Thus, according to the speech band extending apparatus according to an embodiment of the present invention, the narrowband residual signal and a narrow-band spectral input speech is band limited to a particular frequency band by voice analysis for each fixed frame speech analyzer 101 for separating the envelope
と、狭帯域残差信号から広帯域残差信号を発生させる残差広帯域化器102と、狭帯域スペクトル包絡から広帯域スペクトル包絡を推定する包絡広帯域化器103と、 When a residual wideband encoder 102 for generating a wideband residual signal from the narrowband residual signal, and envelope wideband encoder 103 for estimating the wideband spectral envelope from the narrow-band spectral envelope,
広帯域残差信号と広帯域スペクトル包絡とから広帯域合成音声を合成する音声合成器104と、広帯域合成音声から入力音声の持つ周波数帯域以外の帯域外成分を抽出するフィルタ105と、帯域外成分と入力音声とを時間軸上で波形重畳して、入力音声の持つ周波数帯域を包含する周波数帯域を有する広帯域音声を合成する音声重畳器106とを備えたことにより、簡単な構成でしかも高精度な音声帯域拡大装置を提供することができる。 A voice synthesizer 104 for synthesizing the wideband synthesized speech from a broadband residual signal and a wideband spectral envelope, a filter 105 for extracting a band component other than a frequency band having a wide band synthesized speech of the input speech, out-of-band components and the input speech preparative by waveform superimposing on the time axis, by which a speech superimposer 106 for synthesizing the wideband speech having a frequency band including a frequency band possessed by the input speech, a simple structure, yet highly accurate voice band it is possible to provide a magnifying device.

【0052】 [0052]

【発明の効果】以上の実施例から明らかなように、本発明によれば、特定の周波数帯域に帯域制限された入力音声を一定フレーム毎に音声分析して狭帯域残差信号と狭帯域スペクトル包絡とに分離し、前記狭帯域残差信号から広帯域残差信号を発生させ、前記狭帯域スペクトル包絡から広帯域スペクトル包絡を推定し、前記広帯域残差信号と前記広帯域スペクトル包絡から線形予測合成法を用いて、入力音声の持つ周波数帯域を包含する広い周波数帯域を有する広帯域合成音声を合成し、前記広帯域合成音声から入力音声の持つ周波数帯域以外の周波数成分をフィルタにより抽出し、抽出された前記帯域外成分と入力音声とを時間軸上で波形重畳して、入力音声の持つ周波数帯域を包含する広い周波数帯域を有する広帯域音声を合成するよう As apparent from the above embodiment according to the present invention, according to the present invention, the narrowband residual signal and a narrow-band spectral input speech is band limited to a particular frequency band by voice analysis for each fixed frame separated into envelope, said to generate a wideband residual signal from the narrowband residual signal, estimating a wideband spectral envelope from the narrowband spectral envelope, the linear prediction synthesis the wideband residual signal from the wideband spectral envelope used to synthesize the wideband synthesized speech having a wide frequency band including a frequency band possessed by the input speech, the frequency components other than the frequency band possessed by the input speech from said wideband synthesized speech extracted by the filter, extracted the band an outer component and an input speech waveform superimposed on the time axis, so as to synthesize the wideband speech having a wide frequency band including a frequency band possessed by the input speech 構成しているので、比較的簡単な構成で、帯域制限された入力音声を、入力音声の持つ周波数帯域を包含するような広い周波数帯域を有する広帯域信号に正確に変換することができる。 Since the configuration, a relatively simple configuration, the input speech is band limited, it can be converted accurately into a broadband signal having a wide frequency band so as to encompass the frequency band possessed by the input speech.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】本発明の一実施例の音声帯域拡大装置の全体構成を示すブロック図 Block diagram illustrating the overall configuration of a voice band expansion device of an embodiment of the present invention; FIG

【図2】実施例において学習用帯域音声を生成する処理手順を示す図 Diagram illustrating a processing procedure for generating learning-band speech in Figure 2 Example

【図3】本発明の第1の実施例における包絡広帯域化器の構成を示すブロック図 Block diagram showing the structure of envelope wideband encoder in the first embodiment of the present invention; FIG

【図4】本発明の第2の実施例における残差広帯域化器の構成を示すブロック図 Block diagram showing the configuration of a residual wideband encoder in the second embodiment of the present invention; FIG

【図5】本発明の第3の実施例における包絡広帯域化器の構成を示すブロック図 Block diagram showing the structure of envelope wideband encoder in the third embodiment of the present invention; FIG

【図6】本発明の第3の実施例におけるフィルタおよび音声重畳器のブロック図 Block diagram of a filter and audio superimposing unit in the third embodiment of the invention; FIG

【図7】本発明の第4の実施例におけるフィルタおよび音声重畳器のブロック図 FIG. 7 is a block diagram of a filter and audio superimposing unit in the fourth embodiment of the present invention

【符号の説明】 DESCRIPTION OF SYMBOLS

101 音声分析器 102 残差広帯域化器 103 包絡広帯域化器 104 音声合成器 105 フィルタ 106 音声重畳器 101 speech analyzer 102 residual broadband 103 envelope broadband 104 speech synthesizer 105 filter 106 speech superposer

フロントページの続き (56)参考文献 特開 平9−55778(JP,A) 特開 平8−278800(JP,A) 特開 平8−123495(JP,A) 特開 平8−76798(JP,A) 特開 昭59−116796(JP,A) 特開 昭59−224898(JP,A) 特開 昭62−21355(JP,A) 階層型ニューラルネットワークを用い た帯域制限音声の広帯域化法、田中良 紀、日本音響学会 平成7年度春季研究 発表会 講演論文集、95.3.14、p. 255,256 (58)調査した分野(Int.Cl. 6 ,DB名) G10L 9/14 G10L 9/00 JICSTファイル(JOIS) Following (56) references of the front page Patent flat 9-55778 (JP, A) JP flat 8-278800 (JP, A) JP flat 8-123495 (JP, A) JP flat 8-76798 (JP , a) JP Akira 59-116796 (JP, a) JP Akira 59-224898 (JP, a) JP Akira 62-21355 (JP, a) broadband method bandlimited speech using hierarchical neural network , good Osamu Tanaka, 1995 acoustical Society of Japan spring research Workshop Proceedings, 95.3.14, p. 255,256 (58 ) investigated the field (Int.Cl. 6, DB name) G10L 9/14 G10L 9/00 JICST file (JOIS)

Claims (5)

    (57)【特許請求の範囲】 (57) [the claims]
  1. 【請求項1】 音声分析器(101)、残差広帯域化器 1. A speech analyzer (101), residual wideband encoder
    (102)、包絡広帯域化器(103)、音声合成器 (102), envelope wideband encoder (103), the speech synthesizer
    (104)、フィルタ(105)、音声重畳器(10 (104), the filter (105), audio superimposing unit (10
    6)を備えた音声帯域拡大装置であって、 音声分析器(101)は、入力音声を一定フレーム毎に 6) A voice band expansion apparatus having a voice analyzer (101), the input speech every certain frame
    線形予測分析して狭帯域残差信号と狭帯域スペクトル包 And linear prediction analysis narrowband residual signal and a narrow-band spectrum follicles
    絡とに分離し、 残差広帯域化器(102)は、ピッチフィルタ(40 Separated into a fault, residual wideband encoder (102), a pitch filter (40
    1)と歪発生器(402)とを備え、狭帯域残差信号を Comprising 1) a distortion generator and a (402), a narrowband residual signal
    非線形に歪ませて広帯域残差信号を出力し、 ピッチフィルタ(401)は、狭帯域残差信号のサンプ It distorts the nonlinear outputs a wideband residual signal, a pitch filter (401), the narrowband residual signal sample
    リング周波数を実数倍し、エイリアジングフィルタ処理 A real number times the ring frequency, aliasing filter processing
    により狭帯域残差信号の帯域幅のみを拡大した帯域拡大 Band expansion enlarging only the bandwidth of the narrowband residual signal by
    残差信号を作成し、帯域拡大残差信号をフィルタ処理し Create a residual signal, the band expanding residual signal filters
    て、入力音声の基本周波数成分が存在する周波数帯域の Te, frequency band fundamental frequency component of the input speech is present
    みを含むピッチ含有残差信号を抽出し、 歪発生器(402)は、ピッチ含有残差信号の絶対値が Extracting pitch-containing residual signal including only the distortion generator (402), the absolute value of the pitch-containing residual signal
    所定の値以下の場合は零を広帯域残差信号として出力 If more than a predetermined value outputs zero as a broadband residual signal
    し、それ以外の場合はピッチ含有残差信号をそのまま広 And, as it is wide pitch containing residual signal otherwise
    帯域残差信号として出力し、 包絡広帯域化器(103)は、狭帯域スペクトル包絡か Output as band residual signal, envelope wideband encoder (103) is either narrowband spectral envelope
    ら写像関数により広帯域スペクトル包絡に変換し、 音声合成器(104)は、広帯域残差信号と広帯域スペ Into a broadband spectrum envelope by al mapping function, the speech synthesizer (104), wideband residual signal and a wideband space
    クトル包絡とから線形予測合成法を用いて広帯域合成音 Broadband synthesized sound by using the linear prediction synthesis method from the spectrum envelope
    声を合成し、 フィルタ(105)は、広帯域合成音声から入力音声の To synthesize a voice, filter (105), of the input speech from the wideband synthesized speech
    周波数帯域以外の帯域外成分を抽出し、 音声重畳器(106)は、抽出された帯域外成分と入力 Extracts band components other than the frequency band, the audio superimposing unit (106), input the extracted band components
    音声とを時間軸上で波形重畳する 音声帯域拡大装置。 Voice band extending apparatus for waveform superimposing the audio on the time axis.
  2. 【請求項2】 歪発生器(402)は、 ピッチ含有残差信号の絶対値が所定の値以上で、かつピ 2. A distortion generator (402), the absolute value of the pitch-containing residual signal above a predetermined value, Katsupi
    ッチ含有残差信号が正の場合、所定の値を出力し、 ピッチ含有残差信号の絶対値が所定の値以上で、かつピ Tsu If Chi-containing residual signal is positive, outputs a predetermined value, the absolute value of the pitch-containing residual signal above a predetermined value, Katsupi
    ッチ含有残差信号が負の場合、所定の値の符号を反転さ Tsu If Chi-containing residual signal is negative, reversal of the sign of the predetermined value
    せて出力する 請求項1記載の音声帯域拡大装置。 Voice band expansion apparatus according to claim 1, wherein the allowed outputs.
  3. 【請求項3】 音声分析器(101)、残差広帯域化器 3. A speech analyzer (101), residual wideband encoder
    (102)、包絡広帯域化器(103)、音声合成器 (102), envelope wideband encoder (103), the speech synthesizer
    (104)、フィルタ(105)、音声重畳器(10 (104), the filter (105), audio superimposing unit (10
    6)を備えた音声帯域拡大装置であって、 音声分析器(101)は、入力音声を一定フレーム毎に 6) A voice band expansion apparatus having a voice analyzer (101), the input speech every certain frame
    線形予測分析して狭帯域残差信号と狭帯域スペクトル包 And linear prediction analysis narrowband residual signal and a narrow-band spectrum follicles
    絡とに分離し、 残差広帯域化器(102)は、狭帯域残差信号を非線形 Separated into a fault, residual wideband encoder (102) is non-linear narrowband residual signal
    に歪ませて広帯域残差信号を出力し、 包絡広帯域化器(103)は、狭帯域スペクトル包絡を Distort the output a wideband residual signal envelope wideband encoder (103), a narrowband spectral envelope
    分類してコードを決定し、狭帯域スペクトル包絡から写 Classification to determine the code, copy from the narrow-band spectral envelope
    像関数により広帯域スペクトル包絡に変換し、 音声合成器(104)は、広帯域残差信号と広帯域スペ Into a broadband spectrum envelope by an image function, the speech synthesizer (104), wideband residual signal and a wideband space
    クトル包絡とから線形予測合成法を用いて広帯域合成音 Broadband synthesized sound by using the linear prediction synthesis method from the spectrum envelope
    声を合成し、 フィルタ(105)は、低域フィルタ(601)と高域 It was synthesized voice filter (105), the high-frequency and low-pass filter (601)
    フィルタ(602)とを備え、広帯域合成音声から入力 And a filter (602), input from the broadband synthesized speech
    音声の周波数帯域以外の帯域外成分を抽出し、 低域フィルタ(601)は、広帯域合成音声から低域成 Extracting the band component other than the voice frequency band, low-pass filter (601) is low from the wideband synthesized speech IkiNaru
    分を抽出し、 高域フィルタ(602)は、広帯域合成音声から高域成 Extracting the minute, high-pass filter (602) is high from a broadband synthesized speech IkiNaru
    分を抽出し、 音声重畳器(106)は、コード判定器(505)と音 Extracting the minute audio superimposing unit (106), the code determiner and (505) sound
    声重畳器(603)とを備え、抽出された帯域外成分と And a voice superimposing unit (603), and extracted band components
    入力音声とを時間軸上で波形重畳し、 コード判定器(505)は、包絡広帯域化器(103) Waveform superimposing the input speech on the time axis, encoding determinator (505) is envelope wideband encoder (103)
    で得たコードに基き重畳比率を決定し、 音声重畳器(603)は、重畳比率に応じて低域成分と In determining the basis superimposition ratio obtained code, audio superimposing unit (603) includes a low-frequency component according to the superposition ratio
    高域成分と入力音声とを重畳する 音声帯域拡大装置。 Voice band extending apparatus for superimposing a high-frequency component and the input speech.
  4. 【請求項4】 音声分析器(101)、残差広帯域化器 4. A speech analyzer (101), residual wideband encoder
    (102)、包絡広帯域化器(103)、音声合成器 (102), envelope wideband encoder (103), the speech synthesizer
    (104)、フィルタ(105)、音声重畳器(10 (104), the filter (105), audio superimposing unit (10
    6)を備えた音声帯域拡大装置であって、 音声分析器(101)は、入力音声を一定フレーム毎に 6) A voice band expansion apparatus having a voice analyzer (101), the input speech every certain frame
    線形予測分析して狭帯域残差信号と狭帯域スペクトル包 And linear prediction analysis narrowband residual signal and a narrow-band spectrum follicles
    絡とに分離し、 残差広帯域化器(102)は、狭帯域残差信号を非線形 Separated into a fault, residual wideband encoder (102) is non-linear narrowband residual signal
    に歪ませて広帯域残差 信号を出力し、 包絡広帯域化器(103)は、狭帯域スペクトル包絡か Distort the output a wideband residual signal envelope wideband encoder (103) is either narrowband spectral envelope
    ら写像関数により広帯域スペクトル包絡に変換し、 音声合成器(104)は、広帯域残差信号と広帯域スペ Into a broadband spectrum envelope by al mapping function, the speech synthesizer (104), wideband residual signal and a wideband space
    クトル包絡とから線形予測合成法を用いて広帯域合成音 Broadband synthesized sound by using the linear prediction synthesis method from the spectrum envelope
    声を合成し、 フィルタ(105)は、低域フィルタ(701)と高域 It was synthesized voice filter (105), the high-frequency and low-pass filter (701)
    フィルタ(702)とを備え、広帯域合成音声から入力 And a filter (702), input from the broadband synthesized speech
    音声の周波数帯域以外の帯域外成分を抽出し、 低域フィ Extracting the band component other than the voice frequency band, low frequency Fi
    ルタ(701)は、広帯域合成音声から低域成分を抽出 Filter (701) the extracted low-frequency components from the broadband synthesized speech
    し、 高域フィルタ(702)は、広帯域合成音声から高域成 And, high-pass filter (702), high from the wideband synthesized speech IkiNaru
    分を抽出し、 音声重畳器(106)は、有声性判定器(703)と音 Extracting the minute audio superimposing unit (106), voiced determination unit and (703) sound
    声重畳器(704)とを備え、抽出された帯域外成分と And a voice superimposing unit (704), and extracted band components
    入力音声とを時間軸上で波形重畳し、 有声性判定器(703)は、入力音声の有声性を求め、 Waveform superimposing the input speech on the time axis, voicing determination unit (703) obtains voiced of the input speech,
    有声性に基き重畳比率を決定し、 音声重畳器(704)は、重畳比率に応じて低域成分と Based on voicing of determining the superimposition ratio, audio superimposing unit (704) includes a low-frequency component according to the superposition ratio
    高域成分と入力音声とを重畳する 音声帯域拡大装置。 Voice band extending apparatus for superimposing a high-frequency component and the input speech.
  5. 【請求項5】 有声性判定器(703)は、入力音声の自 5. The voicing determination unit (703) is the input speech itself
    己相関係数を求め、自己相関係数を自身の0次の係数で Himself the correlation coefficient, the self-correlation coefficient in the zero-order coefficient of its own
    除した正規化自己相関係数を求め、正規化自己相関係数 Calculated by dividing the normalized auto-correlation coefficients, normalized autocorrelation coefficients
    の0次の係数以外で最大の係数をピッチ係数とし、ピッ The maximum coefficient and pitch coefficient other than 0 order coefficient of, pitch
    チ係数に基き重畳比率を決定する 請求項4記載の音声帯 Voice band according to claim 4, wherein determining the superimposition ratio based on Chi coefficient
    域拡大装置。 Pass magnifying device.
JP25844895A 1995-10-05 1995-10-05 Voice band extension apparatus Expired - Fee Related JP2956548B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25844895A JP2956548B2 (en) 1995-10-05 1995-10-05 Voice band extension apparatus

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP25844895A JP2956548B2 (en) 1995-10-05 1995-10-05 Voice band extension apparatus
DE1996619284 DE69619284D1 (en) 1995-03-13 1996-03-12 Apparatus for extending the voice bandwidth
EP19960301726 EP0732687B2 (en) 1995-03-13 1996-03-12 Apparatus for expanding speech bandwidth
DE1996619284 DE69619284T3 (en) 1995-03-13 1996-03-12 Apparatus for extending the voice bandwidth
US09157419 US5978759A (en) 1995-03-13 1998-09-21 Apparatus for expanding narrowband speech to wideband speech by codebook correspondence of linear mapping functions

Publications (2)

Publication Number Publication Date
JPH09101798A true JPH09101798A (en) 1997-04-15
JP2956548B2 true JP2956548B2 (en) 1999-10-04

Family

ID=17320356

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25844895A Expired - Fee Related JP2956548B2 (en) 1995-10-05 1995-10-05 Voice band extension apparatus

Country Status (1)

Country Link
JP (1) JP2956548B2 (en)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69619284T3 (en) 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Apparatus for extending the voice bandwidth
JP4522509B2 (en) * 1999-07-07 2010-08-11 アルパイン株式会社 Audio equipment
US8605911B2 (en) 2001-07-10 2013-12-10 Dolby International Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US7469206B2 (en) 2001-11-29 2008-12-23 Coding Technologies Ab Methods for improving high frequency reconstruction
JP3579047B2 (en) * 2002-07-19 2004-10-20 日本電気株式会社 Audio decoding apparatus and decoding method and program
JP3879922B2 (en) 2002-09-12 2007-02-14 ソニー株式会社 Signal processing system, signal processing apparatus and method, recording medium, and program
KR100598614B1 (en) * 2004-08-23 2006-07-07 에스케이 텔레콤주식회사 The system and method for wideband expansion of vocal signal using perceptual weighting filter
RU2007108288A (en) * 2004-09-06 2008-09-10 Мацусита Электрик Индастриал Ко., Лтд. (Jp) Scalable encoding apparatus and scalable encoding method
US7895035B2 (en) * 2004-09-06 2011-02-22 Panasonic Corporation Scalable decoding apparatus and method for concealing lost spectral parameters
JP4963963B2 (en) * 2004-09-17 2012-06-27 パナソニック株式会社 Scalable encoding apparatus, scalable decoding apparatus, scalable encoding method and scalable decoding method
KR20070070189A (en) * 2004-10-27 2007-07-03 마츠시타 덴끼 산교 가부시키가이샤 Sound encoder and sound encoding method
CN101048814B (en) 2004-11-05 2011-07-27 松下电器产业株式会社 Encoder, decoder, encoding method, and decoding method
CN101165772B (en) 2006-10-18 2011-06-08 安凯(广州)微电子技术有限公司 Method for expanding synthesizer tone
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
JP5148414B2 (en) * 2008-08-29 2013-02-20 株式会社東芝 Signal band extending apparatus
JP5423684B2 (en) * 2008-12-19 2014-02-19 富士通株式会社 Voice band extending apparatus and voice band spreading method
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP5223786B2 (en) * 2009-06-10 2013-06-26 富士通株式会社 Voice band extending apparatus, the audio band spreading method and the voice band expansion computer program and telephone
JP6089789B2 (en) * 2013-02-28 2017-03-08 沖電気工業株式会社 Voice band extending apparatus, and a program, and, unvoiced expansion device and program
JP6333043B2 (en) * 2014-04-23 2018-05-30 山本 裕 Audio signal processing device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
階層型ニューラルネットワークを用いた帯域制限音声の広帯域化法、田中良紀、日本音響学会 平成7年度春季研究発表会 講演論文集、95.3.14、p.255,256

Also Published As

Publication number Publication date Type
JPH09101798A (en) 1997-04-15 application

Similar Documents

Publication Publication Date Title
Kingsbury et al. Robust speech recognition using the modulation spectrogram
US6708145B1 (en) Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting
Erro et al. Voice conversion based on weighted frequency warping
US5537647A (en) Noise resistant auditory model for parametrization of speech
US6205421B1 (en) Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
Chennoukh et al. Speech enhancement via frequency bandwidth extension using line spectral frequencies
Toda et al. Voice conversion algorithm based on Gaussian mixture model with dynamic frequency warping of STRAIGHT spectrum
US7216074B2 (en) System for bandwidth extension of narrow-band speech
Chen et al. Voice conversion with smoothed GMM and MAP adaptation
Arslan et al. Voice conversion by codebook mapping of line spectral frequencies and excitation spectrum
US6988066B2 (en) Method of bandwidth extension for narrow-band speech
US20060106619A1 (en) Bandwidth extension of bandlimited audio signals
US5581652A (en) Reconstruction of wideband speech from narrowband speech using codebooks
Jax et al. On artificial bandwidth extension of telephone speech
US20070067163A1 (en) Method and apparatus for extending the bandwidth of a speech signal
US6704711B2 (en) System and method for modifying speech signals
JP2004101720A (en) Device and method for acoustic encoding
JP2004102186A (en) Device and method for sound encoding
JPH08248997A (en) Voice band enlarging device
JPH08123495A (en) Wide-band speech restoring device
US6532443B1 (en) Reduced length infinite impulse response weighting
US7346499B2 (en) Wideband extension of telephone speech for higher perceptual quality
US7260523B2 (en) Sub-band speech coding system
US20050267739A1 (en) Neuroevolution based artificial bandwidth expansion of telephone band speech
JP2003323199A (en) Device and method for encoding, device and method for decoding

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees