JP2612869B2 - Voice conversion method - Google Patents

Voice conversion method

Info

Publication number
JP2612869B2
JP2612869B2 JP62250708A JP25070887A JP2612869B2 JP 2612869 B2 JP2612869 B2 JP 2612869B2 JP 62250708 A JP62250708 A JP 62250708A JP 25070887 A JP25070887 A JP 25070887A JP 2612869 B2 JP2612869 B2 JP 2612869B2
Authority
JP
Japan
Prior art keywords
change
frequency
voice
formant frequency
formant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62250708A
Other languages
Japanese (ja)
Other versions
JPH0193796A (en
Inventor
徹 都木
尚夫 桑原
哲夫 梅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP62250708A priority Critical patent/JP2612869B2/en
Publication of JPH0193796A publication Critical patent/JPH0193796A/en
Application granted granted Critical
Publication of JP2612869B2 publication Critical patent/JP2612869B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、放送、映画、音楽等において、人間の音声
を処理する音声情報処理技術のうち、音声の個人性を変
化させたり、音声の明瞭性を高めたり、響きを変えて特
殊効果を持たせるなどの声質変換方法に関する。
DETAILED DESCRIPTION OF THE INVENTION [Industrial Application Field] The present invention relates to an audio information processing technique for processing human voice in broadcasting, movie, music, and the like. The present invention relates to a voice quality conversion method such as enhancing clarity or changing a sound to have a special effect.

[発明の概要] 本発明は人の音声を一時記録し、その音声の質を変化
させて、再び音声として出力する技術に関するもので、 入力音声をA/D変換した後、有声音区間について、先
ず線形予測係数を算出しておき、この線形予測係数に基
づいて所望のホルマント周波数および帯域幅の変更を行
ない、さらに変更後のホルマント周波数や帯域幅に応じ
た線形予測係数を求め、これによりスペクトル包絡を変
更する。次にフーリエ変換により原音声を周波数領域に
変換し、ホルマント変更前後のスペクトル包絡によって
原音声を所望の形に変更し、逆フーリエ変換によって時
間領域に戻した後、これをD/A変換することにより、音
声としての自然性を良好に保ったまま、原音声の持つ、
個人性を変換したり、言葉としての明瞭性を改善できる
ようにする方法である。
[Summary of the Invention] The present invention relates to a technique for temporarily recording a human voice, changing the quality of the voice, and outputting the voice again as a voice. First, a linear prediction coefficient is calculated, a desired formant frequency and bandwidth are changed based on the linear prediction coefficient, and a linear prediction coefficient corresponding to the changed formant frequency and bandwidth is obtained. Change the envelope. Next, transform the original voice to the frequency domain by Fourier transform, change the original voice to the desired shape by the spectral envelope before and after the formant change, return it to the time domain by inverse Fourier transform, and then D / A convert it With this, the original sound has
It is a way to transform personality and improve verbal clarity.

[従来の技術] 従来、放送現場などではアナログフィルターを用い
て、音声の特定の周波数帯域を取り除くことにより個人
性の消去を行ったり、熟練した技術者がグラフィックイ
コライザーにより特定の周波数帯域のエネルギーを増強
・減衰させて声の質の補正を行なっていた。
[Prior art] Conventionally, at a broadcast site or the like, an analog filter is used to remove a specific frequency band of audio to eliminate personality, or a skilled engineer uses a graphic equalizer to reduce energy in a specific frequency band. The quality of the voice was corrected by augmentation and attenuation.

近年、デジタル技術による方法も開発されており、サ
ンプリング周波数Fで書込んだ音声波形を、FXRなるサ
ンプリング周波数で読出せば、ピッチ周波数を含む全ス
ペクトル情報が周波数的にR倍となる。この時適当な時
間窓と周期を用いて波形を間引いたり、繰返したりすれ
ば、発生速度を原音声と同じに保ちながら音声の質の変
換ができる。このような装置は、「ハーモナイザー」な
どと呼ばれ、音響効果装置として一般に使用され始めて
いる。
In recent years, a method using digital technology has been developed. If a voice waveform written at a sampling frequency F is read at a sampling frequency of FXR, all spectrum information including a pitch frequency becomes R times in frequency. At this time, if the waveform is thinned out or repeated using an appropriate time window and cycle, the quality of the voice can be converted while maintaining the same generation speed as the original voice. Such a device is called a “harmonizer” or the like, and has begun to be generally used as a sound effect device.

また、線形予測分析に基づくデジタルフィルターを用
いて、音声の生成モデルに適応したフィルタリングを行
い、音声の質や明瞭性を制御する方式が、例えば特願昭
61−206777において本願人によって提案されている。
In addition, a method of controlling the quality and clarity of speech by performing filtering adapted to a speech generation model using a digital filter based on linear predictive analysis has been proposed.
61-206777.

[発明が解決しようとする問題点] しかしながら、アナログフィルターやグラフィックイ
コライザーを用いる方法は、原理的に音声の特定の周波
数帯域のエネルギーを増減させるだけであり、根本的に
音声の質を変化させることはできない。すなわち、原音
声に含まれる一部の特徴がレベル的に強調・抑圧される
のみで、決定的に個人性を変えたり、明瞭性を改善する
ことはできない。
[Problems to be Solved by the Invention] However, the method using an analog filter or a graphic equalizer basically only increases or decreases the energy of a specific frequency band of voice, and fundamentally changes the voice quality. Can not. In other words, only some of the features included in the original sound are emphasized and suppressed in terms of level, and it is not possible to decisively change individuality or improve clarity.

また、「ハーモナイザー」などの装置では、ピッチを
含む全スペクトル情報が周波数軸上で移動するので、音
声の高低や個人性が大幅に変化する。しかし、このよう
な変化は機械的であり実際の個人の音声間に存在するス
ペクトル情報の差異とは異なる。それ故、出力音声は非
人間的なものになり易い。また、原音声のピッチ周波数
を保存することはできない。
Further, in a device such as a "harmonizer", the whole spectrum information including the pitch moves on the frequency axis, so that the level of the voice and the personality greatly change. However, such changes are mechanical and different from the differences in the spectral information that exists between actual personal sounds. Therefore, the output sound tends to be inhuman. Also, the pitch frequency of the original voice cannot be stored.

さらに、線形予測分析に基づくデジタルフィルターを
用いる方法は、音声の生成モデルに適応しているので、
声の質や明瞭性を根本的に制御することが可能である
が、フィルターの安定性などの原因から音質に問題があ
った。
Furthermore, since the method using a digital filter based on linear predictive analysis is adapted to a speech generation model,
Although it is possible to fundamentally control the quality and clarity of voice, there was a problem in sound quality due to factors such as filter stability.

そこで、本発明の目的は、上述した従来の問題点を解
消し、音声の生成モデルに適応した分析と高速フーリエ
変換を併用することによって、音声特有の特徴を利用し
た高音質な声質変換を行なうことが可能な声質変換方法
を提供することにある。
Therefore, an object of the present invention is to solve the above-mentioned conventional problems and perform high-quality voice conversion using characteristics unique to voice by using analysis adapted to a voice generation model and fast Fourier transform together. It is an object of the present invention to provide a voice conversion method capable of performing the above.

[問題点を解決するための手段] そのために本発明では入力音声から有声音区間を抽出
し、有声音区間において、分析窓幅と該窓幅のスライド
周期とによって設定された各短時間区間内のホルマント
周波数および帯域幅を算出すると共に、各短時間区間内
で線形予測係数を求めることによって、スペクトル包絡
を算出し、有声音区間にフーリエ変換を施し周波数領域
に変換し、ホルマント周波数の時間軌跡を求め、時間軌
跡の各時点におけるホルマント周波数または帯域幅に変
更を加え、変更を加えられたホルマント周波数および帯
域幅に基づいてスペクトル包絡を算出し、ホルマント周
波数変更後に算出されたスペクトル包絡をホルマント周
波数変更前に算出されたスペクトル包絡で除した商を変
更成分とし、フーリエ変換で変換された周波数成分に変
更成分を乗ずると共に、ホルマント周波数変更以外のス
ペクトル変更を加えた後、逆フーリエ変換によって波形
を時間領域に戻し、無声音区間、無音区間または前後の
有声音区間と接続し、新たな音声波形とすることを特徴
とする。
[Means for Solving the Problems] For this purpose, in the present invention, a voiced sound section is extracted from the input voice, and in the voiced sound section, each voiced sound section is set within each short time section set by the analysis window width and the sliding period of the window width. By calculating the formant frequency and bandwidth of each of the short-term sections, and calculating the linear prediction coefficients within each short-term section, the spectrum envelope is calculated, and the voiced section is subjected to Fourier transform to be converted into the frequency domain, and the time trajectory of the formant frequency is calculated. Is calculated, a change is made to the formant frequency or bandwidth at each time point of the time trajectory, a spectrum envelope is calculated based on the changed formant frequency and bandwidth, and the spectrum envelope calculated after the formant frequency change is converted to the formant frequency. The quotient divided by the spectrum envelope calculated before the change is used as the change component, and the frequency transformed by the Fourier transform is used. After multiplying the wave number component by the change component and making a spectrum change other than the formant frequency change, the waveform is returned to the time domain by the inverse Fourier transform, and connected to the unvoiced sound section, the unvoiced section or the preceding and following voiced sound sections, and the new voice It is characterized by having a waveform.

[作 用] 以上の構成によれば高速フーリエ変換を用いて周波数
スペクトル包絡の変更を行ない、音声の声質を変換する
ことが可能となる。
[Operation] According to the above configuration, it is possible to change the frequency spectrum envelope using the fast Fourier transform, and to convert the voice quality of speech.

[実施例] 以下、図面に示す実施例に基づき本発明を詳細に説明
する。
EXAMPLES Hereinafter, the present invention will be described in detail based on examples shown in the drawings.

第1図は、本発明の一実施例に係る声質変換システム
のブロック図を示す。図において、2は分析部、4はホ
ルマント周波数制御部、6はスペクトル制御部をそれぞ
れ示し、各部は電子計算機内に構成され、ROM,RAMおよ
びメモリディスク等のメモリを併用しながら声質変換の
処理が実行される。
FIG. 1 is a block diagram showing a voice conversion system according to an embodiment of the present invention. In the figure, reference numeral 2 denotes an analysis unit, 4 denotes a formant frequency control unit, and 6 denotes a spectrum control unit. Each unit is configured in a computer and performs voice quality conversion processing while using memories such as a ROM, a RAM, and a memory disk. Is executed.

A/D変換されて標本化された音声波形は、分析部2へ
入力し、有音と無音および有声音と無声音の判別、さら
に有声音については、共振周波数を求める。
The A / D-converted and sampled speech waveform is input to the analysis unit 2 to determine voiced and unvoiced and voiced and unvoiced sounds, and for voiced sounds, a resonance frequency is obtained.

次にホルマント周波数制御部4においては、分析部2
で得られた共振周波数に基づきホルマント周波数を求
め、所望の変更を行なう。
Next, in the formant frequency control unit 4, the analysis unit 2
A formant frequency is obtained based on the resonance frequency obtained in step (1), and a desired change is made.

スペクトル制御部6ではホルマント周波数制御部4で
変更されたホルマント周波数に応じてスペクトル包絡を
変更する。
The spectrum controller 6 changes the spectrum envelope according to the formant frequency changed by the formant frequency controller 4.

上述した一連の有声音に対する声質変換の処理を終了
すると、無声音区間および無声区間を接続し、次の有声
音区間の処理に移る。最終的に合成された音声波形をD/
A変換して出力音声とする。
When the voice quality conversion processing for a series of voiced sounds is completed, the unvoiced sound section and the unvoiced sound section are connected, and the process proceeds to the next voiced sound section. D /
A converted to output audio.

上記各部における処理の詳細を第2図に示すフローチ
ャートを参照しながら説明する。
The details of the processing in each section will be described with reference to the flowchart shown in FIG.

変換ビット数12bit,標本化周波数15kHzでA/D変換され
た音声は、まず、分析部2において、ステップS1で音声
パワーの有無に基づいて有音区間と無音区間の判別が行
われる。次にステップS2では有音区間の標本値に対して
PARCOR分析と零交さ分析とを行い、無声子音区間と有声
音区間との判別を行う。これは、1次のPARCOR係数を参
照して入力周波数の高域成分の割合を調べたり、零交さ
数を調べることによって行なう。すなわち、無声子音の
エネルギーは高周波領域にまで分布しており、高域成分
の割合および高周波になると多くなる零交さ数を調べる
ことによって無声子音と有声音とを判別する。なお、PA
RCOR分析と零交さ分析の両方を用いて判別を行なうの
は、判別を確実なものとするためである。
First, in the analysis unit 2, a speech section and a non-speech section are determined in the analysis unit 2 based on the presence or absence of the speech power in the analysis unit 2 at a conversion bit number of 12 bits and a sampling frequency of 15 kHz. Next, in step S2, the sample value of the sound interval is
PARCOR analysis and zero-crossing analysis are performed to discriminate between unvoiced consonant sections and voiced sound sections. This is performed by checking the ratio of the high frequency component of the input frequency with reference to the first-order PARCOR coefficient or checking the number of zero crossings. That is, the energy of unvoiced consonants is distributed up to the high frequency region, and unvoiced consonants and voiced sounds are determined by examining the proportion of high frequency components and the number of zero crossings that increase at higher frequencies. In addition, PA
The reason for performing the discrimination using both the RCOR analysis and the zero-crossing analysis is to ensure the discrimination.

上記ステップS1およびS2で判別された無音区間の時間
および無声子音区間の波形は、それぞれステップS14お
よびS15においてそのままRAMまたはメモリディスク等に
記憶される。
The time of the silent section and the waveform of the unvoiced consonant section determined in steps S1 and S2 are stored as they are in the RAM or the memory disk in steps S14 and S15, respectively.

次に、ステップS3では有声音区間における音声波形の
標本値を、音声の生成モデルに基づくいわゆる声道逆フ
ィルタに通すことによって線形予測分析を行なう。すな
わち、まず窓幅20msec程度の窓掛けを行ない、標本値に
窓掛けを行なったデータを基に相関関数を求めることに
よりステップS4で線形予測係数α〜αを算出する。
ここで、pは線形予測の次数であり男性の声に対しては
p=14、女性の声に対してp=10程度を用いる。さら
に、ステップS5では上記で求めたα〜αを係数と
し、以下に示す(1)式を満足する複素数zの根z1〜zp
を求める。
Next, in step S3, a linear prediction analysis is performed by passing a sample value of the voice waveform in the voiced sound section through a so-called vocal tract inverse filter based on a voice generation model. That is, first, windowing is performed with a window width of about 20 msec, and a correlation function is obtained based on data obtained by windowing the sample values, thereby calculating linear prediction coefficients α 1 to α p in step S4.
Here, p is an order of linear prediction, and p = 14 is used for a male voice and p = about 10 is used for a female voice. Further, in step S5, α 1 to α p obtained above are used as coefficients, and roots z 1 to z p of the complex number z satisfying the following equation (1).
Ask for.

1+α1z-1+α2z-2+…+αpz-p=0 (1) z1〜zpには共役複素根が含まれ、また1つの共振点は
1対の共役複素根で表わされるから虚部が正であるzi
対してのみ、以下に示す(2),(3)式により共振周
波数Fiとその帯域幅Biを求め、線形予測係数と共にRAM
あるいはメモリディスク等に記録する。
1 + α 1 z -1 + α 2 z -2 +... + Α p z -p = 0 (1) z 1 to z p include conjugate complex roots, and one resonance point is represented by a pair of conjugate complex roots. Therefore, only for z i whose imaginary part is positive, the resonance frequency F i and its bandwidth B i are obtained by the following equations (2) and (3), and the RAM and the linear prediction coefficient are obtained.
Alternatively, it is recorded on a memory disk or the like.

Fi=Fs/(2π)・arg(zi)[Hz] (2) Bi=Fs/π・|log(|zi|)|[Hz] (3) なおFsは音声の標本化周波数である。F i = Fs / (2π) · arg (z i ) [Hz] (2) B i = Fs / π · log (| z i |) | [Hz] (3) where Fs is the sampling frequency of the voice It is.

これら一連の操作を分析の開始位置を10msec程度ずつ
後へスライドしながら音声区間が終るまで繰返す。
These series of operations are repeated until the voice section ends, while sliding the analysis start position backward by about 10 msec.

ホルマント周波数制御部4では、ステップS6で、分析
部2において得られた一連の共振周波数Fiから、その帯
域幅と連続性を考慮してホルマント周波数の時間軌跡を
求める。一般にホルマントでない周波数を与える根はそ
の帯域幅がホルマントを与えるものに比較して広い。ホ
ルマント周波数は低い方から順に第1ホルマント、第2
ホルマント、…と呼び、母音や有声子音の音韻性には、
第1〜第3ホルマントが重要であり、これらの軌跡は特
に正確に求める。
The formant frequency control unit 4, in step S6, a series of resonant frequency F i obtained in the analysis unit 2 calculates the time trajectory of the formant frequency in consideration of the continuity and its bandwidth. In general, the roots that provide non-formant frequencies have wider bandwidths than those that provide formants. The formant frequencies are the first formant, the second
Called formants,… the phonology of vowels and voiced consonants
The first to third formants are important, and their trajectories are determined particularly accurately.

次に、ステップS7において、ステップS6で求めたホル
マント周波数の軌跡に対して所望の変更を行い、新たな
ホルマント周波数と帯域幅を定める。
Next, in step S7, a desired change is made to the locus of the formant frequency obtained in step S6, and a new formant frequency and bandwidth are determined.

例えば、明瞭性を高めるには第3図に示すように第1
〜第3ホルマントの時間軸にわたるホルマント周波数の
動きの強調を行なうと効果がある。
For example, as shown in FIG.
It is effective to enhance the movement of the formant frequency over the time axis of the third to third formants.

また、個人性を変えるには、第4図のように全てのホ
ルマント周波数を一様にシフトさせるのが効果的であ
る。帯域幅については、狭めるとはっきりした感じの声
になり、広げると滑らかな印象の声になる。
In order to change the personality, it is effective to shift all the formant frequencies uniformly as shown in FIG. As for the bandwidth, narrowing it gives a clear voice, and widening it gives a smooth voice.

新たなホルマント周波数の軌跡と帯域幅が決定したな
らば、ステップS8で各時点における新たな線形予測係数
を以下のようにして計算する。
When the new formant frequency trajectory and bandwidth are determined, in step S8, a new linear prediction coefficient at each time point is calculated as follows.

変更されたホルマントと変更されなかったホルマント
およびホルマントと認められなかった共振周波数を含め
て、新しい共振周波数をFi′、その帯域幅をBi′とす
る。各Fi′,Bi′の組について以下に示す(4)式を用
い一般に|Zi′|<1であることを考慮してzの新たな
根zi′を求める。
The new resonance frequency including the changed formant, the unchanged formant, and the resonance frequency not recognized as a formant is denoted by F i ′, and its bandwidth is denoted by B i ′. For each pair of F i ′ and B i ′, a new root z i ′ of z is obtained by using the following equation (4) and generally considering that | Z i ′ | <1.

zi′=exp(−πBi′/Fs+j2πFi′/Fs) (4) これらのZi′に加えて、各々の共役複素根と、(1)
式を解いて得られたzの根のうち虚部が零のものがあれ
ばそれを含め、全部でp個のzi′を用いて以下に示す
(5)式のように新たな多項式を作る。
z i ′ = exp (−πB i ′ / Fs + j2πF i ′ / Fs) (4) In addition to these Z i ′, each conjugate complex root and (1)
If there is a root of z obtained by solving the equation and the imaginary part is zero, a new polynomial is expressed as shown in the following equation (5) by using a total of p z i ′ s including the imaginary part. create.

(1−z1′z-1)(1−z2′z-1)…… …(1−zp′z-1) =1+α′z-1+α′z-2+…+α′Z-p (5) (5)式の右辺を満足するα′〜α′が新たな線
形予測係数を与える。
(1-z 1 'z -1 ) (1-z 2' z -1) ...... ... (1-z p 'z -1) = 1 + α 1' z -1 + α 2 'z -2 + ... + α p 'Z- p (5) α 1 ' to α p 'satisfying the right side of the equation (5) give a new linear prediction coefficient.

スペクトル制御部6では、ホルマント制御部4で得ら
れた結果に求づき、各時点における原音声にスペクトル
包絡を所望のスペクトル包絡に変更する。
The spectrum control unit 6 obtains the result obtained by the formant control unit 4, and changes the spectrum envelope of the original voice at each time point to a desired spectrum envelope.

ここで分析部2における線形予測分析の窓幅に相当す
る標本数をM、分析窓のスライドの周期に相当する標本
数をLとする。本例では、M=300、L=150とする。
Here, the number of samples corresponding to the window width of the linear prediction analysis in the analysis unit 2 is M, and the number of samples corresponding to the period of the slide of the analysis window is L. In this example, M = 300 and L = 150.

先ず、第5図に示すごとく原音声のq点からq+2L−
1点までの2L個の標本のデータに対してその自乗和PS
求める。さらにステップS16,S17で分析部2において上
記に示した分析窓の部分より求めた線形予測係数α
αと、これらをホルマント制御部で変更したα′〜
α′を用いて、(6)および(7)式により原音声の
スペクトル包絡H(k)およびホルマントを変更したス
ペクトル包絡(k)を求める。
First, as shown in FIG. 5, q + 2L−
Obtain the square sum P S for the data of 2L sets of samples up to a point. Further, in steps S16 and S17, the linear prediction coefficients α 1 to α 1 obtained from the analysis window shown above in the analysis unit 2 in the analysis unit 2
α p and α 1 ′ to α 1
Using α p ′, the spectrum envelope H (k) of the original speech and the spectrum envelope (k) of which the formant is changed are obtained by the equations (6) and (7).

ここでNはMよりも大きい2のべき乗で512とする。
H(k)は、原音声の音韻性や個人性を多く含んだ物理
量であるが、(k)は音韻性や個人性が強調・抑圧、
あるいは変更されたものである。
Here, N is a power of 2 larger than M and is set to 512.
H (k) is a physical quantity including a lot of phonological and personality of the original voice, while (k) emphasizes and suppresses phonological and personality,
Or it has been changed.

なお、(k)は、以下に示す(8)式を用いてホル
マント周波数制御部で求めたp個のzi′から直接的に計
算できる。
Note that (k) can be directly calculated from p z i 'obtained by the formant frequency control unit using the following equation (8).

しかし、(6),(7)式の形はFFT(高速フーリエ
変換)アルゴリズムを適用できるので、(8)式を用い
るのは時間的に不利である。
However, since the FFT (fast Fourier transform) algorithm can be applied to the forms of equations (6) and (7), the use of equation (8) is disadvantageous in time.

次に、ステップS9およびS10で、q+L−N/2点からq
+L+N/2−1点までのN個のサンプルを新たに、x
(1)〜x(N)とおき、以下の(9)式に示すように
時間窓係数をかけてy(1)〜y(N)とする。
Next, in steps S9 and S10, q + L−N / 2
N samples up to + L + N / 2−1 points are newly added to x
(1) to x (N), and multiplied by a time window coefficient as shown in the following equation (9) to obtain y (1) to y (N).

y(m)=w(m)・x(m)m=1〜N (9) 但し、T=N/2−L+1、T′=N/2+Lとして w(m)=0.5・{1−cos(πm/T)} 1≦m≦T w(m)=1 T<m<T′ w(m)=0.5・[1−cos{π(m−T′)/T}]
T′≦m≦N これらy(m)に対して、N点の高速フーリエ変換を
行い周波数領域に変換しY(k)とし、ステップS11に
てこのY(k)の絶対値を以下に示す(10)式を用いて
変更する。なお位相成分はそのままとする。
y (m) = w (m) · x (m) m = 1 to N (9) where T = N / 2−L + 1 and T ′ = N / 2 + L, w (m) = 0.5 · {1−cos (Πm / T)} 1 ≦ m ≦ Tw (m) = 1 T <m <T'w (m) = 0.5 · [1-cos {π (m-T ') / T}]
T ′ ≦ m ≦ N These y (m) are subjected to a fast Fourier transform at N points and converted into a frequency domain to be Y (k). In step S11, the absolute value of this Y (k) is shown below. Change using equation (10). The phase component is left as it is.

(k)=A(k)・(k)/H(k)・Y(k) k=1〜N (10) ここでA(k)は、線形予測係数に基づいたホルマン
トの変更以外の要因としてスペクトル包絡に変化を与え
るもので、0から1の間の実数配列とし、A(k)=A
(N−k+2)の関係をもつ。例えば、以下に示す(1
1)式のようにすれば高い周波数を強調する特性とな
る。
(K) = A (k) · (k) / H (k) · Y (k) k = 1 to N (10) where A (k) is a factor other than the change of the formant based on the linear prediction coefficient. Which gives a change to the spectrum envelope, and is a real array between 0 and 1, and A (k) = A
(N−k + 2). For example, the following (1
According to the expression (1), the characteristic emphasizes a high frequency.

A(k)=1.4・(k−1)/N+0.3 k=1〜N/2+1
(11) ステップS12において、(10)式の(k)を逆高速
フーリエ変換により時間変換の波形(1)〜(N)
とし、得られたN点のデータのうちN/2−L+1〜N/2+
Lの2Lサンプルのデータに対し、その自乗和PS′を求
め、これが先に求めたPSに等しくなるよう、すなわち音
声の大きさが等しくなるよう(12)式に示すごとくゲイ
ンの調整をし、(N/2−L+1)−(N/2+L)とす
る。すなわち、 (m)=(PS/P′1/2・(m) m=N/2−L+1〜N/2+L (12) この(N/2−L+1)〜(N/2+L)に対してさら
に両端で0、中心で1となるようなハニング窓または三
角窓をかけ、この波形をRAMあるいはメモリディスク等
に一時保存する。この窓掛けにより、波形接続の際の端
効果を軽減することができる。
A (k) = 1.4 · (k−1) /N+0.3 k = 1 to N / 2 + 1
(11) In step S12, waveforms (1) to (N) of time conversion are performed by inverse fast Fourier transform on (k) in equation (10).
And N / 2−L + 1 to N / 2 + of the obtained N points of data
To L of 2L samples of the data, we obtain the square sum P S ', which is to be equal to P S previously obtained, i.e., the adjustment of the gain as shown as (12) in which the magnitude of voice equal And (N / 2−L + 1) − (N / 2 + L). That is, (m) = (P S / P ′ S ) 1/2 · (m) m = N / 2−L + 1 to N / 2 + L (12) On the other hand, a Hanning window or a triangular window is set so that 0 is at both ends and 1 is at the center, and this waveform is temporarily stored in a RAM or a memory disk. This windowing can reduce the end effect at the time of waveform connection.

次にq点をLポイント後へシフトし、同じ一連の処理
を行った後、第6図に示すように2Lサンプルのデータの
前半のL点と、直前の処理フレームの後半のL点とを重
ね合わせて順次加える。
Next, the q point is shifted to the point after the L point, and after performing the same series of processing, the L point in the first half of the data of the 2L sample and the L point in the second half of the immediately preceding processing frame are determined as shown in FIG. Overlap and add sequentially.

以下、有性音区間が終るまで同じ操作を繰返せばスペ
クトル包絡が変更された連続音声波形が得られる。
Thereafter, if the same operation is repeated until the end of the sexual sound section, a continuous sound waveform with a changed spectral envelope can be obtained.

ひとつの有声音区間の処理が終了したならば、ステッ
プS13において、前後の無声音区間または、無音区間と
接続し、次の有声区間の処理に移る。最終的に合成され
た音声をD/A変換して、出力音声とする。
When the processing for one voiced sound section is completed, in step S13, the process is connected to the preceding or next unvoiced sound section or the silent section, and the process proceeds to the next voiced section. Finally, the synthesized voice is D / A converted to output voice.

なお、本実施例では、有声音区間の検出およびホルマ
ントを抽出する方法として線形予測分析を用いたが、そ
の他の方法で求めても本発明の効果は変らない。
In this embodiment, linear prediction analysis is used as a method for detecting voiced sound sections and extracting formants, but the effect of the present invention does not change even if it is obtained by other methods.

[発明の効果] 以上説明したように、本発明によれば音声の生成モデ
ルに基づいて、各時点の周波数スペクトル包絡を変化さ
せて、声の質を変換することができる。
[Effects of the Invention] As described above, according to the present invention, the quality of voice can be converted by changing the frequency spectrum envelope at each time point based on the speech generation model.

スペクトル包落の変更には高速フーリエ変換を用いて
おり、従来のデジタルフィルターを用いる方法に比較し
て、音質が良い。また、周波数領域において自由にスペ
クトルを制御できるので、ホルマントといった概念以外
のスペクトル制御も可能であり、原音声のピッチ周波数
を保ちながら、個人性の制御や明瞭性の改善のみなら
ず、様々な声の印象の制御が可能となる。
Fast Fourier transform is used to change the spectral coverage, and the sound quality is better than that of a conventional method using a digital filter. Also, since the spectrum can be freely controlled in the frequency domain, spectrum control other than the concept of formants is also possible, and while maintaining the pitch frequency of the original sound, not only control of personality and improvement of clarity, but also various voices Can be controlled.

【図面の簡単な説明】[Brief description of the drawings]

第1図は本発明の一実施例に係るシステムのブロック
図、 第2図は本発明の一実施例を示すフローチャート、 第3図は実施例におけるホルマント周波数の時間軸にわ
たる変化を説明するための線図、 第4図は実施例におけるホルマント周波数の時間軸にわ
たる一様な変化を説明するための線図、 第5図は実施例における処理区間を説明するための波形
図、 第6図は実施例における波形の重ね合わせを説明するた
めの波形図である。 2……分析部、 4……ホルマント周波数制御部、 6……スペクトル制御部。
FIG. 1 is a block diagram of a system according to one embodiment of the present invention, FIG. 2 is a flowchart showing one embodiment of the present invention, and FIG. 3 is a diagram for explaining a change over time axis of a formant frequency in the embodiment. FIG. 4 is a diagram for explaining a uniform change of the formant frequency over the time axis in the embodiment. FIG. 5 is a waveform diagram for explaining a processing section in the embodiment. FIG. FIG. 7 is a waveform chart for explaining superposition of waveforms in an example. 2 ... analyzing unit 4 ... formant frequency control unit 6 ... spectrum control unit

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 桑原、都木、「分析合成による声質変 換と嗄声改善への応用」電子情報通信学 会技術研究報告SP86−57、PP.45− 52 ──────────────────────────────────────────────────続 き Continuation of the front page (56) References Kuwahara and Tsuki, "Voice quality conversion by analysis and synthesis and application to hoarseness improvement," IEICE Technical Report SP86-57, PP. 45− 52

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】入力音声から有声音区間を抽出し、 該有声音区間において、分析窓幅と該窓幅のスライド周
期とによって設定された各短時間区間内のホルマント周
波数および帯域幅を算出すると共に、 前記各短時間区間内で線形予測係数を求めることによっ
て、スペクトル包絡を算出し、 前記有声音区間にフーリエ変換を施し周波数領域に変換
し、 前記ホルマント周波数の時間軌跡を求め、 該時間軌跡の各時点における前記ホルマント周波数また
は前記帯域幅に変更を加え、 当該変更を加えられたホルマント周波数および帯域幅に
基づいてスペクトル包絡を算出し、 ホルマント周波数変更後に算出された前記スペクトル包
絡をホルマント周波数変更前に算出された前記スペクト
ル包絡で除した商を変更成分とし、 前記フーリエ変換で変換された周波数成分に該変更成分
を乗ずると共に、前記ホルマント周波数変更以外のスペ
クトル変更を加えた後、逆フーリエ変換によって波形を
時間領域に戻し、 無声音区間、無音区間または前後の有声音区間と接続
し、新たな音声波形とする ことを特徴とする声質変換方法。
1. A voiced sound section is extracted from an input voice, and a formant frequency and a bandwidth in each short time section set by an analysis window width and a sliding period of the window width are calculated in the voiced sound section. In addition, by calculating a linear prediction coefficient in each of the short time intervals, a spectrum envelope is calculated, a Fourier transform is performed on the voiced sound interval to convert it into a frequency domain, and a time trajectory of the formant frequency is obtained. Change the formant frequency or the bandwidth at each time point, calculate a spectrum envelope based on the changed formant frequency and bandwidth, and change the spectrum envelope calculated after the formant frequency change to the formant frequency change The quotient divided by the spectrum envelope calculated previously is used as a change component, and transformed by the Fourier transform. After multiplying the changed frequency component by the changed component and adding a spectrum change other than the formant frequency change, the waveform is returned to the time domain by the inverse Fourier transform, and connected to the unvoiced sound section, the unvoiced section or the preceding and following voiced sound sections. And a new voice waveform.
JP62250708A 1987-10-06 1987-10-06 Voice conversion method Expired - Lifetime JP2612869B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62250708A JP2612869B2 (en) 1987-10-06 1987-10-06 Voice conversion method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62250708A JP2612869B2 (en) 1987-10-06 1987-10-06 Voice conversion method

Publications (2)

Publication Number Publication Date
JPH0193796A JPH0193796A (en) 1989-04-12
JP2612869B2 true JP2612869B2 (en) 1997-05-21

Family

ID=17211866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62250708A Expired - Lifetime JP2612869B2 (en) 1987-10-06 1987-10-06 Voice conversion method

Country Status (1)

Country Link
JP (1) JP2612869B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2754965B2 (en) * 1991-07-23 1998-05-20 ヤマハ株式会社 Electronic musical instrument
JP3265962B2 (en) * 1995-12-28 2002-03-18 日本ビクター株式会社 Pitch converter
JP3631657B2 (en) * 2000-04-03 2005-03-23 シャープ株式会社 Voice quality conversion device, voice quality conversion method, and program recording medium
CN109671422B (en) * 2019-01-09 2022-06-17 浙江工业大学 Recording method for obtaining pure voice

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
桑原、都木、「分析合成による声質変換と嗄声改善への応用」電子情報通信学会技術研究報告SP86−57、PP.45−52

Also Published As

Publication number Publication date
JPH0193796A (en) 1989-04-12

Similar Documents

Publication Publication Date Title
US6336092B1 (en) Targeted vocal transformation
Zhu et al. Real-time signal estimation from modified short-time Fourier transform magnitude spectra
Rao et al. Prosody modification using instants of significant excitation
JP2787179B2 (en) Speech synthesis method for speech synthesis system
JP3294604B2 (en) Processor for speech synthesis by adding and superimposing waveforms
US8121834B2 (en) Method and device for modifying an audio signal
US8280724B2 (en) Speech synthesis using complex spectral modeling
Moulines et al. Time-domain and frequency-domain techniques for prosodic modification of speech
US20110125493A1 (en) Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
JPH1097287A (en) Period signal converting method, sound converting method, and signal analyzing method
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
Ardaillon Synthesis and expressive transformation of singing voice
JP2612868B2 (en) Voice utterance speed conversion method
JP3732793B2 (en) Speech synthesis method, speech synthesis apparatus, and recording medium
JPH0641557A (en) Method of apparatus for speech synthesis
JP2612869B2 (en) Voice conversion method
JP2904279B2 (en) Voice synthesis method and apparatus
JP2612867B2 (en) Voice pitch conversion method
Bonada et al. Generation of growl-type voice qualities by spectral morphing
Arakawa et al. High quality voice manipulation method based on the vocal tract area function obtained from sub-band LSP of STRAIGHT spectrum
Bõhm et al. Transforming modal voice into irregular voice by amplitude scaling of individual glottal cycles
Hasan et al. An approach to voice conversion using feature statistical mapping
CN112420062A (en) Audio signal processing method and device
KR940008839B1 (en) Pitch changing method of voice wave coding
Zhao et al. Time-scaling non-vibrato musical tones while preserving timbral texture

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080227

Year of fee payment: 11