JP4428435B2 - Pitch converter and program - Google Patents
Pitch converter and program Download PDFInfo
- Publication number
- JP4428435B2 JP4428435B2 JP2007268394A JP2007268394A JP4428435B2 JP 4428435 B2 JP4428435 B2 JP 4428435B2 JP 2007268394 A JP2007268394 A JP 2007268394A JP 2007268394 A JP2007268394 A JP 2007268394A JP 4428435 B2 JP4428435 B2 JP 4428435B2
- Authority
- JP
- Japan
- Prior art keywords
- peak
- phase
- correction
- spectrum
- spectrum data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
Description
この発明は、歌唱合成等に用いるに好適なピッチ変換装置及びプログラムに関し、更に詳しくはフェーズボコーダ技術を用いたピッチ変換技術の改良に関するものである。 The present invention relates to a pitch conversion apparatus and program suitable for use in singing synthesis and the like, and more particularly to improvement of pitch conversion technology using phase vocoder technology.
従来、フェーズボコーダ技術を用いたピッチ変換技術が知られている(例えば非特許文献1参照)。また、このようなピッチ変換技術を利用してピッチ変更を行なう歌唱合成装置も本願と同一出願人により提案され、知られている(例えば、特許文献1参照)。この種の歌唱合成装置におけるピッチ変更処理を図13について説明する。 Conventionally, a pitch conversion technique using a phase vocoder technique is known (see, for example, Non-Patent Document 1). Also, a singing synthesizing apparatus that changes pitches using such pitch conversion technology has been proposed and known by the same applicant as the present application (see, for example, Patent Document 1). The pitch changing process in this type of singing voice synthesizing apparatus will be described with reference to FIG.
図13(A)は、原音声の音声波形をFFT(Fast Fourier Transform)分析処理により周波数分析して得られた振幅スペクトルを示すものである。このような振幅スペクトル上では、複数の局所的ピークP0〜P2が指定されると共に、各局所的ピーク毎にその前後のスペクトルを含むR0等のスペクトル分布領域が指定される。局所的ピークP0,P1,P2は、それぞれ基音,第1倍音(基音の2倍の周波数を有する2倍音),第2倍音(基音の3倍の周波数を有する3倍音)に対応するピークであり、R0,R1,R2は、それぞれピークP0,P1,P2に対応するスペクトル分布領域である。fa,fb,fc,fdは、それぞれスペクトル分布領域R0,R1,R2,R3の下限周波数であり、スペクトル分布領域R0,R1,R2の上限周波数は、それぞれ下限周波数fb,fc,fdよりわずかに低い周波数に設定される。 FIG. 13A shows an amplitude spectrum obtained by frequency analysis of the speech waveform of the original speech by FFT (Fast Fourier Transform) analysis processing. On such an amplitude spectrum, a plurality of local peaks P 0 to P 2 are specified, and a spectral distribution region such as R 0 including the spectra before and after each local peak is specified. Local peaks P 0 , P 1 , and P 2 correspond to a fundamental tone, a first harmonic (a second harmonic having a frequency twice that of the fundamental), and a second harmonic (a third harmonic having a frequency that is three times that of the fundamental), respectively. It is a peak, and R 0 , R 1 and R 2 are spectral distribution regions corresponding to the peaks P 0 , P 1 and P 2 , respectively. fa, fb, fc, and fd are the lower limit frequencies of the spectrum distribution regions R 0 , R 1 , R 2 , and R 3 , respectively, and the upper limit frequencies of the spectrum distribution regions R 0 , R 1 , and R 2 are the lower limit frequencies fb, respectively. , Fc, fd are set to slightly lower frequencies.
ピッチ変更処理では、一例として図13(B)に示すようなピッチ上昇処理を行なう。ピッチ上昇処理では、原音声より高いピッチ(音高)を得るように各スペクトル分布領域毎に振幅スペクトル分布を周波数軸上で高音側に移動する。すなわち、原音声の基音のピークの周波数をf0とし、ピッチ上昇後の基音のピークの周波数をf01とすると、ピッチ変更比Tは、T=f01/f0となる。ピッチ上昇後の基音のピークP0が周波数f01=f0Tに位置するように領域R0内の振幅スペクトル分布を周波数軸上で高音側に移動する。また、原音声の第1,第2倍音のピークP1,P2の周波数をそれぞれf1,f2とすると、ピッチ上昇後の第1倍音のピークP1が周波数f11=f1Tに位置するように領域R1内の振幅スペクトル分布を周波数軸上で高音側に移動すると共に、ピッチ上昇後の第2倍音のピークP2が周波数f21=f2Tに位置するように領域R2内の振幅スペクトル分布を周波数軸上で高音側に移動する。 In the pitch change process, a pitch increase process as shown in FIG. 13B is performed as an example. In the pitch increase process, the amplitude spectrum distribution is moved to the high pitch side on the frequency axis for each spectrum distribution region so as to obtain a pitch (pitch) higher than the original voice. That is, if the frequency of the fundamental tone peak of the original voice is f 0 and the peak frequency of the fundamental tone after the pitch rise is f 01 , the pitch change ratio T is T = f 01 / f 0 . The amplitude spectrum distribution in the region R 0 is moved to the high frequency side on the frequency axis so that the peak P 0 of the fundamental tone after the pitch rise is located at the frequency f 01 = f 0 T. Also, assuming that the frequencies of the first and second harmonic peaks P 1 and P 2 of the original voice are f 1 and f 2 , respectively, the peak P 1 of the first harmonic after the pitch increase becomes a frequency f 11 = f 1 T. The region R 1 is moved so that the amplitude spectrum distribution in the region R 1 is located on the high frequency side on the frequency axis, and the second harmonic overtone peak P 2 after the pitch rise is located at the frequency f 21 = f 2 T. 2 is moved to the high pitch side on the frequency axis.
図13(B)に示した例では、図13(A)に示したピークP0〜P2を結ぶスペクトルエンベロープ(原音声のスペクトルエンベロープ)EVaと同様の形状を有するスペクトルエンベロープEVbにピッチ上昇後のピークP0〜P2を合わせるように振幅スペクトル分布を配置したので、ピッチ上昇後の音色は、原音声の音色と同じになる。原音声とは異なる音色を得たいときは、スペクトルエンベロープEVaとは異なる形状をスペクトルエンベロープEVbに付与した上でスペクトルエンベロープEVbにピッチ上昇後のピークP0〜P2を合わせるように振幅スペクトル分布を配置すればよい。 In the example shown in FIG. 13B, after the pitch rises to the spectrum envelope EVb having the same shape as the spectrum envelope (spectrum envelope of the original speech) EVa connecting the peaks P 0 to P 2 shown in FIG. Since the amplitude spectrum distribution is arranged so as to match the peaks P 0 to P 2 , the tone after the pitch rise becomes the same as the tone of the original voice. To obtain a timbre different from the original voice, give the spectrum envelope EVb a shape different from the spectrum envelope EVa, and then adjust the amplitude spectrum distribution so that the peaks P 0 to P 2 after the pitch increase are matched to the spectrum envelope EVb. What is necessary is just to arrange.
一方、上記した周波数分析処理により図13(A)の振幅スペクトルに対応した位相スペクトルが得られる。このような位相スペクトルに基づいて前述のスペクトル分布領域毎に位相スペクトル分布が定められる。図14には、あるスペクトル分布領域における振幅スペクトル分布am0及び位相スペクトル分布ph0を示す。簡単のため、振幅スペクトル分布am0は、図13(A)の領域R0内の振幅スペクトル分布とは異なる単純な形状のものを示した。図14において、f0は局所的ピークに対応するピーク周波数、φ0はピーク周波数f0に対応するピーク位相であり、fL及びfUは、スペクトル分布領域の下限周波数及び上限周波数をそれぞれ表わす。 On the other hand, a phase spectrum corresponding to the amplitude spectrum of FIG. Based on such a phase spectrum, a phase spectrum distribution is determined for each of the aforementioned spectrum distribution regions. FIG. 14 shows an amplitude spectrum distribution am 0 and a phase spectrum distribution ph 0 in a certain spectrum distribution region. For simplicity, the amplitude spectrum distribution am 0 has a simple shape different from the amplitude spectrum distribution in the region R 0 in FIG. In FIG. 14, f 0 is the peak frequency corresponding to the local peak, φ 0 is the peak phase corresponding to the peak frequency f 0 , and f L and f U represent the lower limit frequency and the upper limit frequency of the spectrum distribution region, respectively. .
図15には、前述のピッチ変更処理によりピッチ上昇を行なったときの振幅スペクトル分布AM0及び位相スペクトル分布PH0を示す。振幅スペクトル分布AM0は、ピッチ上昇後のピークが周波数f01=f0Tに位置するように振幅スペクトル分布am0を周波数軸上で高音側に移動したものである。位相スペクトル分布PH0は、ピッチ上昇後のピーク位相が周波数f01=f0Tに位置するように(振幅スペクトル分布am0の周波数変更に対応して)位相スペクトル分布ph0を周波数軸上で高音側に移動すると共に、移動後の位相スペクトル分布において各スペクトルビンの位相を振幅スペクトル分布am0のピッチ上昇に対応して修正したものである。ここで、各スペクトルビンとは、位相スペクトル分布において各周波数に対応する位相スペクトルのことである。 FIG. 15 shows the amplitude spectrum distribution AM 0 and the phase spectrum distribution PH 0 when the pitch is increased by the above-described pitch change process. The amplitude spectrum distribution AM 0 is obtained by moving the amplitude spectrum distribution am 0 to the high pitch side on the frequency axis so that the peak after the pitch rise is located at the frequency f 01 = f 0 T. The phase spectrum distribution PH 0 is obtained by changing the phase spectrum distribution ph 0 on the frequency axis so that the peak phase after pitch increase is located at the frequency f 01 = f 0 T (corresponding to the frequency change of the amplitude spectrum distribution am 0 ). while moving to the treble side is a modification corresponding to the phase of each spectral bin in the pitch increase in the amplitude spectrum distribution it is 0 in phase spectrum distribution after the movement. Here, each spectrum bin is a phase spectrum corresponding to each frequency in the phase spectrum distribution.
各スペクトルビンの位相を修正するには、次の数1の式に従って位相変更量Δφ0を求め、各スペクトルビンの位相にΔφ0を加える。数1の式において、Δtは、フレーム間隔(フレーム周期)を表わす。 In order to correct the phase of each spectral bin, the phase change amount Δφ 0 is obtained according to the following equation 1, and Δφ 0 is added to the phase of each spectral bin. In Equation 1, Δt represents a frame interval (frame period).
例えば、ピッチ上昇後のピーク周波数f01に対応するスペクトルビンについては、ピーク位相φ0にΔφ0を加えてφ0+Δφ0なる位相とする。他のスペクトルビンについても、各スペクトルビン毎にΔφ0を加えた位相とする。この結果、図15に示すような位相スペクトル分布PH0が得られる。図15において、FL及びFUは、ピッチ上昇後のスペクトル分布領域の下限周波数及び上限周波数をそれぞれ表わす。図14において、周波数f0,fLの差分は(f0−fL)であり、周波数fU,f0の差分は(fU−f0)である。これらの差分(f0−fL),(fU−f0)にそれぞれ対応して下限周波数FL及び上限周波数FUが設定される。 For example, the spectrum bin corresponding to the peak frequency f 01 after the pitch rise is set to a phase of φ 0 + Δφ 0 by adding Δφ 0 to the peak phase φ 0 . For other spectral bins, the phase is obtained by adding Δφ 0 for each spectral bin. As a result, a phase spectrum distribution PH 0 as shown in FIG. 15 is obtained. In Figure 15, F L and F U represent each a lower limit frequency and upper limit frequency of the spectrum distribution region after elevating pitch. In FIG. 14, the difference between the frequencies f 0 and f L is (f 0 −f L ), and the difference between the frequencies f U and f 0 is (f U −f 0 ). The lower limit frequency FL and the upper limit frequency FU are set corresponding to these differences (f 0 −f L ) and (f U −f 0 ), respectively.
図13(B)に示す各スペクトル分布領域毎の振幅スペクトル分布を表わす振幅スペクトルデータと、各スペクトル分布領域毎に図13(B)の振幅スペクトル分布にそれぞれ対応し且つ図14,15に関して前述したような修正処理を受け位相スペクトル分布を表わす位相スペクトルデータとは、逆FFT処理等により時間領域の音声信号に変換される。この結果、原音声に比べてピッチがT倍高い音声信号が得られる。このような音声信号としては、前述したようにスペクトルエンベロープを変更することにより原音声とは音色を異にするものを得ることもできる。
上記した音声変換技術によると、音声波形の周波数分析結果を調和成分と非調和成分とに分離しないで音声変換を行なうため、非調和成分が分離して響くことがなく、自然な変換音が得られるはずである。また、有声音の摩擦音や破裂音であっても自然な変換音が得られるはずである。しかしながら、本願の発明者の研究によれば、一層自然な音質を得るためには、いくつかの改良すべき点があることが判明した。 According to the above-described voice conversion technology, voice conversion is performed without separating the frequency analysis result of the voice waveform into a harmonic component and a non-harmonic component, so that the non-harmonic component does not resonate and a natural converted sound is obtained. Should be. In addition, a natural converted sound should be obtained even if it is a voiced frictional sound or a plosive sound. However, according to the research of the inventors of the present application, it has been found that there are some points to be improved in order to obtain a more natural sound quality.
まず、図13に関して前述したピッチ変更処理にあっては、図13(A)に示すように基音のピーク周波数f0をそれぞれ2倍,3倍にした完全倍音周波数2f0,3f0を想定すると、第1倍音のピーク周波数f1が2f0より高音側にずれたり、第2倍音のピーク周波数f2が3f0より低音側にずれたりしていずれも対応する完全倍音周波数に一致しないことが多い。これは、実際の人間の声が完全に周期的でないことに由来する。 First, in the pitch change processing described above with reference to FIG. 13, it is assumed that perfect harmonic frequencies 2f 0 and 3f 0 are obtained by doubling and triple the peak frequency f 0 of the fundamental tone, respectively, as shown in FIG. 13 (A). The peak frequency f 1 of the first overtone shifts to a higher sound side than 2f 0, or the peak frequency f 2 of the second overtone shifts to a lower sound side than 3f 0 , and none of them matches the corresponding perfect harmonic frequency. Many. This stems from the fact that the actual human voice is not perfectly periodic.
図13(A)に示した各スペクトル分布領域毎の振幅スペクトル分布に図13(B)に関して前述したようにピッチ上昇処理を施すと、第1及び第2倍音のピーク周波数f11及びf21は、それぞれf1T及びf2Tとなり、基音のピーク周波数f01に関して想定された完全倍音周波数2f01及び3f01からそれぞれ大きくずれることになる。すなわち、ピッチ上昇前においては、第1倍音のピーク周波数f1と完全倍音周波数2f0との差分Δf1は、Δf1=f1−2f0であり、第2倍音のピーク周波数f2と完全倍音周波数3f0との差分Δf2は、Δf2=f2−3f0であるのに対し、ピッチ上昇後においては、第1倍音のピーク周波数f11と完全倍音周波数2f01との差分Δf11は、Δf11=f1T−2f01=f1T−2f0T=(f1−2f0)Tとなり、第2倍音のピーク周波数f21と完全倍音周波数3f01との差分Δf21は、Δf21=f2T−3f01=f2T−3f0T=(f2−3f0)Tとなる。 When the pitch increase process is performed on the amplitude spectrum distribution for each spectrum distribution region shown in FIG. 13A as described above with reference to FIG. 13B, the peak frequencies f 11 and f 21 of the first and second overtones are obtained. F 1 T and f 2 T, respectively, and deviate greatly from the perfect harmonic frequencies 2f 01 and 3f 01 assumed for the peak frequency f 01 of the fundamental tone. That is, before the pitch rise, the difference Δf 1 between the peak frequency f 1 of the first overtone and the perfect harmonic frequency 2f 0 is Δf 1 = f 1 −2f 0 , which is completely equal to the peak frequency f 2 of the second overtone. The difference Δf 2 from the harmonic frequency 3f 0 is Δf 2 = f 2 −3f 0 , whereas after the pitch rise, the difference Δf 11 between the peak frequency f 11 of the first harmonic and the perfect harmonic frequency 2f 01 is obtained. Δf 11 = f 1 T−2f 01 = f 1 T−2f 0 T = (f 1 −2f 0 ) T, and the difference Δf 21 between the peak frequency f 21 of the second harmonic and the perfect harmonic frequency 3f 01 is Δf 21 = f 2 T-3f 01 = f 2 T-3f 0 T = (f 2 −3f 0 ) T.
差分Δf1及びΔf2の絶対値をそれぞれ差分Δf11及びΔf21の絶対値と対比すると、差分Δf11及びΔf21の絶対値は、それぞれ差分Δf1及びΔf2の絶対値のT倍になっているのがわかる。図13(B)に示したような各スペクトル分布領域毎の振幅スペクトル分布に基づいて前述したように時間領域の音声信号を発生させると、倍音のピーク周波数が完全倍音周波数から大きくずれているため、出力音の音質が不自然になるという問題点がある。また、音質の不自然さは、ピッチ変更比Tが大きいほど顕著になることも確認されている。 If the absolute value of the difference Delta] f 1 and Delta] f 2 to be compared with the absolute value of each difference Delta] f 11 and Delta] f 21, absolute value of the difference Delta] f 11 and Delta] f 21 are each turned T times the absolute value of the difference Delta] f 1 and Delta] f 2 I can see that As described above, when the time-domain sound signal is generated based on the amplitude spectrum distribution for each spectrum distribution region as shown in FIG. 13B, the peak frequency of the harmonics is greatly shifted from the complete harmonic frequency. There is a problem that the sound quality of the output sound becomes unnatural. It has also been confirmed that the unnaturalness of sound quality becomes more pronounced as the pitch change ratio T increases.
その上、図13(B)に示したような各スペクトル分布領域毎の振幅スペクトル分布にあっては、例えばピークP0を含む振幅スペクトル分布の一方側及び他方側にスペクトル欠如領域Q1及びQ2が生ずる。このため、出力音には、原音声のような生々しさが乏しいという問題点がある。 In addition, in the amplitude spectrum distribution for each spectrum distribution region as shown in FIG. 13B, for example, the spectrum missing regions Q 1 and Q are arranged on one side and the other side of the amplitude spectrum distribution including the peak P 0. 2 occurs. For this reason, there is a problem that the output sound is not as fresh as the original sound.
図13では、ピッチ変更処理としてピッチ上昇処理の例を示したが、ピッチ変更処理としてはピッチ低下処理も可能である。ピッチ低下処理では、各スペクトル分布領域毎に振幅スペクトル分布を周波数軸上で低音側に移動する。図16は、本願の発明者の研究に係るピッチ・音色変更処理の一例を示すもので、この例では、ピッチ低下処理が行なわれる。 Although FIG. 13 shows an example of the pitch increasing process as the pitch changing process, a pitch decreasing process can also be performed as the pitch changing process. In the pitch reduction process, the amplitude spectrum distribution is moved to the low frequency side on the frequency axis for each spectrum distribution region. FIG. 16 shows an example of the pitch / tone change processing according to the research of the inventors of the present application. In this example, the pitch reduction processing is performed.
図16(A)は、図13(A)に示したのと同様の振幅スペクトルを示すもので、同様の部分には同様の符号を付して詳細な説明を省略する。ピッチ低下処理では、スペクトル分布領域R0,R1,R2の振幅スペクトル分布をそれぞれ図16(B)に示すように周波数軸上で低音側に移動する。移動後の振幅スペクトル分布において、ピークP0対応のピークP01に対応するピーク周波数はF0であり、ピークP1対応のピークP11に対応するピーク周波数はF2であり、ピークP2対応のピークP21に対応するピーク周波数はF5である。 FIG. 16A shows an amplitude spectrum similar to that shown in FIG. 13A, and the same parts are denoted by the same reference numerals and detailed description thereof is omitted. In the pitch reduction process, the amplitude spectrum distributions of the spectrum distribution regions R 0 , R 1 , and R 2 are moved to the bass side on the frequency axis as shown in FIG. In the amplitude spectrum distribution after moving, the peak frequency corresponding to the peak P 0 corresponding peaks P 01 is F 0, the peak frequency corresponding to the peak P 1 corresponding peak P 11 is F 2, the peak P 2 corresponding the peak frequency corresponding to the peak P 21 of an F 5.
原音声のスペクトルエンベロープEVaとは形状が異なる所定のスペクトルエンベロープEVcを想定する。このようなエンベロープEVcを十分に表現可能とするため、ピーク周波数F0とF2との間にはピーク周波数F1を、ピーク周波数F2とF5との間にはピーク周波数F3,F4を、ピーク周波数F5の高音側にはピーク周波数F6,F7をそれぞれ設定する。ピーク周波数F1については、スペクトル分布領域R0〜R2のうちF1に最も近いピーク周波数f0を有するスペクトル分布領域R0を選択し、この領域R0から振幅スペクトル分布をコピーする。コピーに係る振幅スペクトル分布をピーク周波数がf0からF1に変更されるように周波数軸上で高音側に移動する。
A predetermined spectral envelope EVc having a shape different from that of the original speech spectral envelope EVa is assumed. In order to sufficiently represent such an envelope EVc, the peak frequency F 1 is between the peak frequencies F 0 and F 2, and the peak frequencies F 3 and F are between the peak frequencies F 2 and F 5. 4 and peak frequencies F 6 and F 7 are set on the high frequency side of the peak frequency F 5 , respectively. The peak frequencies F 1, select the spectral distribution region R 0 having the peak frequency f 0 closest to F 1 in the
ピーク周波数F3,F4についても、ピーク周波数F1について上記したと同様にF3,F4に最も近いピーク周波数f1を有するスペクトル分布領域R1を選択し、この領域R1からそれぞれF3,F4に対応して振幅スペクトル分布をコピーする。コピーに係る第1の振幅スペクトル分布をピーク周波数がf1からF3に変更されるように周波数軸上で低音側に移動する。また、コピーに係る第2の振幅スペクトル分布をピーク周波数がf1からF4に変更されるように周波数軸上で高音側に移動する。 As for the peak frequencies F 3 and F 4 , the spectrum distribution region R 1 having the peak frequency f 1 closest to F 3 and F 4 is selected in the same manner as described above for the peak frequency F 1 , and F 1 is selected from this region R 1. 3, corresponding to F 4 to copy the amplitude spectrum distribution. The first amplitude spectrum distribution relating to the copy is moved to the bass side on the frequency axis so that the peak frequency is changed from f 1 to F 3 . Further, the second amplitude spectrum distribution related to the copy is moved to the high pitch side on the frequency axis so that the peak frequency is changed from f 1 to F 4 .
ピーク周波数F6,F7についても、ピーク周波数F3,F4について上記したと同様にF6,F7にそれぞれ対応してスペクトル分布領域R2の振幅スペクトル分布をコピーする。コピーに係る第1の振幅スペクトル分布をピーク周波数がf2からF6に変更されるように周波数軸上で高音側に移動する。コピーに係る第2の振幅スペクトル分布をピーク周波数がf2からF7に変更されるように周波数軸上で高音側に移動する。 For the peak frequencies F 6 and F 7 , the amplitude spectrum distribution of the spectrum distribution region R 2 is copied corresponding to F 6 and F 7 in the same manner as described above for the peak frequencies F 3 and F 4 . The first amplitude spectrum distribution relating to the copy is moved to the high frequency side on the frequency axis so that the peak frequency is changed from f 2 to F 6 . The second amplitude spectrum distribution related to the copy is moved to the high frequency side on the frequency axis so that the peak frequency is changed from f 2 to F 7 .
ピーク周波数F0,F2,F5にそれぞれ対応する振幅スペクトル分布において、スペクトルエンベロープEVcにピークP01,P11,P21を合わせるように各スペクトルビンのスペクトル強度を修正する。ここで、各スペクトルビンとは、振幅スペクトル分布において各周波数に対応する振幅スペクトルのことである。また、ピーク周波数F1に対応する振幅スペクトル分布においては、ピークP02をスペクトルエンベロープEVcに合わせるように各スペクトルビンのスペクトル強度を修正する。 In the amplitude spectrum distribution corresponding to each of the peak frequencies F 0 , F 2 , and F 5 , the spectrum intensity of each spectrum bin is corrected so that the peaks P 01 , P 11 , and P 21 are matched with the spectrum envelope EVc. Here, each spectrum bin is an amplitude spectrum corresponding to each frequency in the amplitude spectrum distribution. In the amplitude spectrum distribution corresponding to the peak frequency F 1, it modifies the spectral intensity of each spectral bin to match the peak P 02 to the spectral envelope EVc.
ピーク周波数F3に対応する振幅スペクトル分布においては、ピークP12をスペクトルエンベロープEVcに合わせるように各スペクトルビンのスペクトル強度を修正する。また、ピーク周波数F4に対応する振幅スペクトル分布においては、ピークP13をスペクトルエンベロープEVcに合わせるように各スペクトルビンのスペクトル強度を修正する。 In the amplitude spectrum distribution corresponding to the peak frequency F 3, to modify the spectral intensity of each spectral bin to match the peak P 12 to the spectral envelope EVc. In the amplitude spectrum distribution corresponding to the peak frequency F 4, to modify the spectral intensity of each spectral bin to match the peak P 13 to the spectral envelope EVc.
ピーク周波数F6に対応する振幅スペクトル分布においては、ピークP22をスペクトルエンベロープEVcに合わせるように各スペクトルビンのスペクトル強度を修正する。また、ピーク周波数F7に対応する振幅スペクトル分布においては、ピークP23をスペクトルエンベロープEVcに合わせるように各スペクトルビンのスペクトル強度を修正する。 In the amplitude spectrum distribution corresponding to the peak frequency F 6, it modifies the spectral intensity of each spectral bin to match the peak P 22 to the spectral envelope EVc. In the amplitude spectrum distribution corresponding to the peak frequency F 7, it modifies the spectral intensity of each spectral bin to match the peak P 23 to the spectral envelope EVc.
上記のようなピッチ・音色変更処理の結果として、図16(B)に示すようにピーク周波数F0〜F7に対応する8つの振幅スペクトル分布がピークP01,P02,P11〜P13,P21〜P23をスペクトルエンベロープEVcに合わせた状態で配置されることになる。 As a result of the pitch / timbre change processing as described above, as shown in FIG. 16B, eight amplitude spectrum distributions corresponding to the peak frequencies F 0 to F 7 have peaks P 01 , P 02 , P 11 to P 13. , P 21 to P 23 are arranged in accordance with the spectrum envelope EVc.
上記したピッチ・音色変更処理によれば、ピッチ変更後のあるピーク(例えばピークP01)の一方側に定めた所定のピーク周波数(例えばF1)に対応するスペクトル分布領域としては、該所定のピーク周波数に最も近いピーク周波数(例えばf0)を有するスペクトル分布領域を選択し、選択に係るスペクトル分布領域の振幅スペクトル分布をコピーして音声信号発生に使用するので、自然な音色を得やすい。しかしながら、例えばピーク周波数F3,F4にそれぞれ対応するスペクトル分布領域としては、ピークP1を有するスペクトル分布領域の振幅スペクトル分布をコピーした上で各スペクトルビンのスペクトル強度を増大させて使用するので、ノイズ性が強い音色になるという問題点がある。すなわち、スペクトル強度が小さいピークは、比較的不安定であり、そのスペクトル強度を増大させると不安定さが一層拡大されてノイズっぽい印象を与えることとなる。 According to the above-described pitch / tone color changing process, a spectrum distribution region corresponding to a predetermined peak frequency (for example, F 1 ) defined on one side of a certain peak (for example, peak P 01 ) after the pitch is changed is the predetermined distribution frequency. Since a spectrum distribution region having a peak frequency (for example, f 0 ) closest to the peak frequency is selected and the amplitude spectrum distribution of the selected spectrum distribution region is copied and used for generating an audio signal, it is easy to obtain a natural timbre. However, for example, as the spectrum distribution regions corresponding to the peak frequencies F 3 and F 4 , respectively, the amplitude spectrum distribution of the spectrum distribution region having the peak P 1 is copied and the spectrum intensity of each spectrum bin is increased and used. There is a problem that the tone becomes strong with noise. That is, a peak having a small spectrum intensity is relatively unstable. When the spectrum intensity is increased, the instability is further expanded and a noise-like impression is given.
図17,19は、本願の発明者の研究に係るFFT分析処理において分析窓の時間位置を異ならせた例を示すものである。これらの図において、tは時間を示す。Tpは、入力音声波形の1周期を示し、この1周期は、入力音声のピッチに対応する。tS1〜tS3は、いずれも声帯振動開始位置を示す。 17 and 19 show an example in which the time position of the analysis window is changed in the FFT analysis processing according to the research of the inventors of the present application. In these figures, t represents time. Tp indicates one period of the input voice waveform, and this one period corresponds to the pitch of the input voice. t S1 to t S3 all indicate vocal cord vibration start positions.
図17の例では、分析窓FWの中心WCを声帯振動開始位置tS2,tS3の間の中央位置近傍に合わせた状態でFFT分析を行なうことにより図18に示すようなピーク位相を得た。図18において、横軸は周波数fを示し、縦軸は位相(0〜2π)を示す。f0は、基音のピーク周波数であり、f1〜f5はいずれも倍音のピーク周波数である。図18によれば、ピーク周波数f0〜f5にそれぞれ対応するピーク位相φ0〜φ5がばらばらの値で揃っていないことがわかる。 In the example of FIG. 17, to obtain the peak phase shown in FIG. 18 by performing an FFT analysis of the center W C of the analysis window FW in a state matching the center position near between the vocal cords vibrate start position t S2, t S3 It was. In FIG. 18, the horizontal axis represents the frequency f, and the vertical axis represents the phase (0 to 2π). f 0 is the peak frequency of the fundamental tone, and f 1 to f 5 are all the peak frequencies of the harmonics. According to FIG. 18, it can be seen that the peak phases φ 0 to φ 5 corresponding to the peak frequencies f 0 to f 5 are not uniform in value.
図19の例では、分析窓FWの中心WCを声帯振動開始位置tS3に合わせた状態でFFT分析を行なうことにより図20に示すようなピーク位相を得た。図20において、図18と同様の部分には同様の符号を付してある。図20によれば、ピーク位相φ0’〜 φ5’がある値を中心にほぼ揃っていることがわかる。このように位相揃い状態にあるのが自然な音声波形の特徴である。図19に示した分析窓位置での位相がばらばらであると、前述したように時間領域の音声信号を発生させる際に音声らしくない波形になってしまい、結果として不自然な出力音になってしまう。換言すれば、図18に示した位相スペクトルを用いて音声変換を行なうと、出力音の音質が不自然になるという問題点がある。 In the example of FIG. 19, to obtain a peak phase shown in FIG. 20 by a state where the center W C of the analysis window FW tailored to vocal fold vibration start position t S3 performs FFT analysis. In FIG. 20, the same parts as those in FIG. As can be seen from FIG. 20, the peak phases φ 0 ′ to φ 5 ′ are substantially aligned around a certain value. Such a phase-matched state is a characteristic of a natural speech waveform. When the phases at the analysis window positions shown in FIG. 19 are different, as described above, when generating a time domain audio signal, a waveform that does not look like a voice is generated, resulting in an unnatural output sound. End up. In other words, when voice conversion is performed using the phase spectrum shown in FIG. 18, the sound quality of the output sound becomes unnatural.
この発明の目的は、上記のような問題点を解決し、自然な音質の出力音が得られる新規なピッチ変換装置及びプログラムを提供することにある。 An object of the present invention is to provide a novel pitch conversion apparatus and program that can solve the above problems and obtain an output sound with a natural sound quality.
この発明に係るピッチ変換装置は、
原音とは異なるピッチを指示するピッチ情報を入力する入力手段と、
前記原音の音波形に周波数分析処理を施して得られた振幅スペクトルに基づいてスペクトル強度の複数の局所的ピークのうち各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域における振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成すると共に、前記周波数分析処理により得られた位相スペクトルに基づいて前記スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成する生成手段と、
前記振幅スペクトルデータが表わす振幅スペクトル分布を前記スペクトル分布領域毎に前記ピッチ情報に応じて周波数軸上で移動させることにより前記振幅スペクトルデータを修正する第1の修正手段と、
前記第1の修正手段での修正に係る振幅スペクトルデータが表わす振幅スペクトル分布において少なくとも1つの局所的ピークに対応するピーク周波数の一方側に所望のピーク周波数を設定する設定手段と、
前記第1の修正手段での修正に係る振幅スペクトルデータが表わす振幅スペクトル分布における複数の局所的ピークにそれぞれ対応するピーク周波数と前記設定手段での設定に係るピーク周波数とにそれぞれ対応してスペクトルエンベロープを形成すべきエンベロープ値を指示する指示手段と、
前記設定に係るピーク周波数に対応して前記指示手段により指示されたエンベロープ値に最も近い局所的ピークのスペクトル強度を有するスペクトル分布領域を前記生成手段での生成に係る振幅スペクトルデータの示すスペクトル分布領域において前記設定に係るピーク周波数と所定の近似関係にあるピーク周波数を有するスペクトル分布領域のうちから選択する選択手段と、
前記選択手段での選択に係るスペクトル分布領域の振幅スペクトルデータ及び位相スペクトルデータを前記生成手段での生成に係る振幅スペクトルデータ及び位相スペクトルデータのうちからコピーする第1のコピー手段と、
前記第1のコピー手段でのコピーに係る振幅スペクトルデータが表わす振幅スペクトル分布においてピーク周波数を前記設定に応じて該振幅スペクトル分布を周波数軸上で移動させることにより前記コピーに係る振幅スペクトルデータを修正する第2の修正手段と、
前記第1の修正手段での修正に係る振幅スペクトルデータが表わす振幅スペクトル分布において各振幅スペクトル分布毎に局所的ピークのスペクトル強度を前記指示手段で該局所的ピークに対応するピーク周波数に対応して指示されたエンベロープ値に合わせるように各スペクトルビンのスペクトル強度を修正すると共に、前記第2の修正手段での修正に係る振幅スペクトルデータが表わす振幅スペクトル分布において局所的ピークのスペクトル強度を前記指示手段で前記設定に係るピーク周波数に対応して指示されたエンベロープ値に合わせるように各スペクトルビンのスペクトル強度を修正する第3の修正手段と、
前記生成手段での生成に係る位相スペクトルデータが表わす位相スペクトル分布を前記第1の修正手段でのピッチ変更に対応して前記スペクトル分布領域毎に修正すると共に、前記第1のコピー手段でのコピーに係る位相スペクトルデータが表わす位相スペクトル分布を前記第2の修正手段での周波数変更に対応して修正する第4の修正手段と、
前記第1〜第3の修正手段での修正に係る振幅スペクトルデータと、前記第4の修正手段での修正に係る位相スペクトルデータとを時間領域の音信号に変換する変換手段と
を備えたものである。
The pitch converter according to the present invention is
Input means for inputting pitch information indicating a pitch different from the original sound;
Spectral distribution including a local peak and a spectrum before and after each local peak among a plurality of local peaks of spectral intensity based on an amplitude spectrum obtained by subjecting the sound waveform of the original sound to frequency analysis processing Generates amplitude spectrum data representing the amplitude spectrum distribution in the region with respect to the frequency axis, and generates phase spectrum data representing the phase spectrum distribution with respect to the frequency axis for each spectrum distribution region based on the phase spectrum obtained by the frequency analysis processing. Generating means for
First correcting means for correcting the amplitude spectrum data by moving the amplitude spectrum distribution represented by the amplitude spectrum data on the frequency axis according to the pitch information for each spectrum distribution region;
Setting means for setting a desired peak frequency on one side of the peak frequency corresponding to at least one local peak in the amplitude spectrum distribution represented by the amplitude spectrum data related to the correction by the first correction means;
Spectral envelopes corresponding to the peak frequencies respectively corresponding to a plurality of local peaks in the amplitude spectrum distribution represented by the amplitude spectrum data related to the correction by the first correction means and the peak frequencies related to the setting by the setting means Indicating means for indicating an envelope value to form
A spectrum distribution region having a spectrum distribution region having a spectral intensity of a local peak closest to the envelope value instructed by the instruction unit corresponding to the peak frequency related to the setting is indicated by the amplitude spectrum data related to generation by the generation unit Selecting means for selecting from among spectrum distribution regions having a peak frequency in a predetermined approximate relationship with the peak frequency related to the setting in
A first copy means for copying the amplitude spectrum data and phase spectrum data of the spectrum distribution region related to the selection by the selection means from the amplitude spectrum data and the phase spectrum data related to the generation by the generation means;
The amplitude spectrum data related to the copy is corrected by moving the amplitude spectrum distribution on the frequency axis according to the setting in the amplitude spectrum distribution represented by the amplitude spectrum data related to the copy by the first copying means. Second correcting means for
In the amplitude spectrum distribution represented by the amplitude spectrum data related to the correction by the first correction means, the spectrum intensity of the local peak for each amplitude spectrum distribution is associated with the peak frequency corresponding to the local peak by the indicating means. The spectral intensity of each spectral bin is corrected to match the indicated envelope value, and the spectral intensity of the local peak in the amplitude spectral distribution represented by the amplitude spectral data related to the correction by the second correcting means is indicated by the indicating means. A third correcting means for correcting the spectral intensity of each spectral bin so as to match the envelope value indicated corresponding to the peak frequency according to the setting;
The phase spectrum distribution represented by the phase spectrum data related to the generation by the generation means is corrected for each spectrum distribution region corresponding to the pitch change by the first correction means, and is copied by the first copy means. Fourth correcting means for correcting the phase spectrum distribution represented by the phase spectrum data according to the frequency change in the second correcting means;
Conversion means for converting the amplitude spectrum data related to the correction by the first to third correction means and the phase spectrum data related to the correction by the fourth correction means into a sound signal in the time domain It is.
上記のピッチ変換装置によれば、第1の修正手段での修正に係る振幅スペクトルデータ(ピッチ変更処理が施された振幅スペクトルデータ)が表わす振幅スペクトル分布において少なくとも1つの局所的ピークに対応するピーク周波数の一方側に所望のピーク周波数が設定される。これは、スペクトルエンベロープを表現する局所的ピークの数を増大させるためである。 According to the above pitch conversion device, the peak corresponding to at least one local peak in the amplitude spectrum distribution represented by the amplitude spectrum data (amplitude spectrum data subjected to the pitch changing process) related to the correction by the first correction means. A desired peak frequency is set on one side of the frequency. This is to increase the number of local peaks that represent the spectral envelope.
また、第1の修正手段での修正に係る振幅スペクトルデータが表わす振幅スペクトル分布における複数の局所的ピークのそれぞれ対応するピーク周波数と、上記設定に係るピーク周波数とにそれぞれ対応してスペクトルエンベロープを形成すべきエンベロープ値が指示される。 Further, a spectrum envelope is formed corresponding to each of the peak frequencies corresponding to the plurality of local peaks in the amplitude spectrum distribution represented by the amplitude spectrum data related to the correction by the first correction means, and the peak frequency related to the above setting. An envelope value to be indicated is indicated.
設定に係るピーク周波数に対応して指示されたスペクトルエンベロープ値に最も近い局所的ピークのスペクトル強度を有するスペクトル分布領域が生成手段での生成に係る振幅スペクトルデータの示すスペクトル分布領域において設定に係るピーク周波数と所定の近似関係にあるピーク周波数を有するスペクトル分布領域のうちから選択され、選択に係るスペクトル分布領域の振幅スペクトルデータ及び位相スペクトルデータが生成手段での生成に係る振幅スペクトルデータ及び位相スペクトルデータのうちからコピーされる。そして、コピーに係る振幅スペクトルデータ及び位相スペクトルデータが必要な修正を受けた上で音信号発生に用いられる。 The spectrum distribution region having the spectrum intensity of the local peak closest to the spectrum envelope value indicated corresponding to the peak frequency related to the setting is the peak related to the setting in the spectrum distribution region indicated by the amplitude spectrum data related to the generation by the generating means Amplitude spectrum data and phase spectrum data selected from the spectrum distribution region having a peak frequency having a predetermined approximate relationship with the frequency, and the amplitude spectrum data and phase spectrum data of the selected spectrum distribution region are generated by the generation means Copied from Then, the amplitude spectrum data and the phase spectrum data related to the copy are used for sound signal generation after undergoing necessary correction.
このように、上記のピッチ変換装置では、設定に係るピーク周波数に近いピッチ変更前のピッチ周波数を有し且つ指示に係るエンベロープ値に最も近い局所的ピークのスペクトル強度を有するスペクトル分布領域を選択し、このスペクトル分布領域の振幅スペクトルデータ及び位相スペクトルデータをコピーして音信号発生に用いるので、自然な音色を得るのが容易となる。また、局所的ピークのスペクトル強度をエンベロープ値に合わせる際に振幅スペクトルデータにおいて各スペクトルビンのスペクトル強度をさほど増大させなくてよいので、出力音の音質は、ノイズっぽさがない自然な音質となる。 As described above, the above pitch converter selects a spectrum distribution region having a pitch frequency before the pitch change close to the peak frequency related to the setting and having a spectral intensity of the local peak closest to the envelope value related to the instruction. Since the amplitude spectrum data and phase spectrum data in this spectrum distribution region are copied and used for sound signal generation, it becomes easy to obtain a natural tone color. In addition, when adjusting the spectral intensity of the local peak to the envelope value, it is not necessary to increase the spectral intensity of each spectral bin in the amplitude spectral data so much, so the sound quality of the output sound is a natural sound quality without noise. Become.
上記のピッチ変換装置において、
前記位相スペクトルデータに関して基音のピーク位相からのタイムシフト量の候補値を複数設定すると共に各候補値毎に基音及びn倍音のピーク位相を算出する計算手段と、
前記複数の候補値にそれぞれ対応する複数群のピーク位相のうちから平坦に最も近い位相揃い状態となる候補値に対応する1群のピーク位相を選択し、選択に係る群中の基音及びn倍音のピーク位相にそれぞれ一致するように前記位相スペクトルデータ中の基音及びn倍音のピーク位相を修正する第5の修正手段と、
前記第4の修正手段に代えて、前記第5の修正手段での修正に係る位相スペクトルデータが表す位相スペクトル分布において前記スペクトル分布領域毎に各周波数を第1の修正手段でのピッチ変更に対応して修正する第6の修正手段と、
前記第6の修正手段での修正に係る位相スペクトルデータに関して前記第1の修正手段でのピッチ変更量を考慮してピッチ変更前の基音のピーク位相へのタイムシフト量を算出すると共に算出に係るタイムシフト量に応じて前記第6の修正手段での修正に係る位相スペクトルデータ中の基音及びn倍音のピーク位相を修正する第7の修正手段と、
前記第7の修正手段での修正に係る位相スペクトルデータにおいて基音に対応するスペクトル分布領域では前記第5及び第7の修正手段による基音のピーク位相の変更量に対応して基音のピーク位相以外の位相を修正すると共にn倍音に対応するスペクトル分布領域では前記第5及び第7の修正手段によるn倍音のピーク位相の変更量に対応してn倍音のピーク位相以外の位相を修正する第8の修正手段とを備え、
前記変換手段は、前記第1〜第3の修正手段での修正に係る振幅スペクトルデータと、前記第5〜第8の修正手段での修正に係る位相スペクトルデータとを時間領域の音信号に変換するものである
ようにしてもよい。
In the above pitch converter,
Calculating means for setting a plurality of candidate values of the time shift amount from the peak phase of the fundamental tone with respect to the phase spectrum data, and calculating the peak phase of the fundamental tone and the nth harmonic for each candidate value;
A group of peak phases corresponding to a candidate value that is closest to the flatness is selected from among a plurality of groups of peak phases respectively corresponding to the plurality of candidate values, and a fundamental tone and an nth harmonic in the selected group are selected. Fifth correcting means for correcting the peak phase of the fundamental tone and the n-th overtone in the phase spectrum data so as to coincide with the peak phase of
Instead of the fourth correction means, each phase corresponds to the pitch change in the first correction means for each spectrum distribution region in the phase spectrum distribution represented by the phase spectrum data related to the correction in the fifth correction means. And a sixth correction means for correcting
With respect to the phase spectrum data related to the correction by the sixth correction means, the time shift amount to the peak phase of the fundamental tone before the pitch change is calculated in consideration of the pitch change amount by the first correction means and Seventh correcting means for correcting the peak phase of the fundamental tone and the n-th overtone in the phase spectrum data related to the correction by the sixth correcting means according to the amount of time shift;
In the spectrum distribution region corresponding to the fundamental tone in the phase spectrum data related to the modification by the seventh modifying means, the peak phase other than the fundamental peak phase corresponds to the amount of change in the fundamental peak phase by the fifth and seventh modifying means. In the spectral distribution region corresponding to the nth harmonic, the phase other than the peak phase of the nth harmonic is corrected corresponding to the amount of change in the peak phase of the nth harmonic by the fifth and seventh correction means. Correction means,
The conversion means converts the amplitude spectrum data related to the correction by the first to third correction means and the phase spectrum data related to the correction by the fifth to eighth correction means into sound signals in the time domain. It may be made to do.
この態様によれば、原音の音波形に分析窓の中心が声帯振動開始位置からずれた状態で周波数分析処理を施すので、生成手段から生成される位相スペクトルデータが表わす位相スペクトル分布では、図17,18に関して前述したように基音及びn倍音のピーク位相が不揃いの状態となる。しかし、このようなピーク位相の不揃い状態は、計算手段及び第2〜第5の修正手段により修正される。 According to this aspect, since the frequency analysis process is performed on the sound waveform of the original sound in a state where the center of the analysis window is shifted from the vocal cord vibration start position, in the phase spectrum distribution represented by the phase spectrum data generated by the generation unit, FIG. , 18 as described above, the peak phases of the fundamental tone and the n-th overtone are inconsistent. However, such an uneven state of peak phases is corrected by the calculation means and the second to fifth correction means.
位相スペクトルデータに関して基音のピーク位相からのタイムシフト量の候補値が複数設定され、各候補値毎に基音及びn倍音のピーク位相が算出される。複数の候補値にそれぞれ対応する複数群のピーク位相のうちから平坦に最も近い位相揃い状態となる候補値に対応する1群のピーク位相が選択され、選択に係る群中の基音及びn倍音のピーク位相にそれぞれ一致するように位相スペクトルデータ中の基音及びn倍音のピーク位相が修正される。 A plurality of candidate values for the amount of time shift from the peak phase of the fundamental tone are set for the phase spectrum data, and the peak phase of the fundamental tone and the nth harmonic is calculated for each candidate value. A group of peak phases corresponding to a candidate value that is in the closest phase alignment state is selected from among a plurality of groups of peak phases respectively corresponding to a plurality of candidate values, and the fundamental tone and n harmonics in the selected group are selected. The peak phase of the fundamental tone and the n-th overtone in the phase spectrum data is corrected so as to coincide with the peak phase.
このような修正に係る位相スペクトルデータが表わす位相スペクトル分布においてスペクトル分布領域毎に各周波数がピッチ変更に対応して修正される。この後、ピッチ変更量を考慮してピッチ変更前の基音のピーク位相へのタイムシフト量が算出され、算出に係るタイムシフト量に応じて先の修正に係る位相スペクトルデータ中の基音及びn倍音のピーク位相が再修正される。このときのタイムシフトは、位相揃えのためのタイムシフトを元に戻すために行なわれるものである。 In the phase spectrum distribution represented by the phase spectrum data related to such correction, each frequency is corrected corresponding to the pitch change for each spectrum distribution region. Thereafter, the time shift amount to the peak phase of the fundamental tone before the pitch change is calculated in consideration of the pitch change amount, and the fundamental tone and the nth harmonic in the phase spectrum data according to the previous correction according to the calculated time shift amount The peak phase of is corrected again. The time shift at this time is performed in order to restore the time shift for phase alignment.
ここまでの位相修正は、ピーク位相を対象としているので、ピーク位相以外の位相の修正を行なう必要がある。そこで、再修正に係る位相スペクトルデータにおいて基音に対応するスペクトル分布領域では基音のピーク位相の変更量に対応して基音のピーク位相以外の位相が修正され、n倍音に対応するスペクトル分布領域でもn倍音のピーク位相の変更量に対応してn倍音のピーク位相以外の位相が修正される。 Since the phase correction up to this point is for the peak phase, it is necessary to correct phases other than the peak phase. Therefore, in the phase spectrum data related to the re-correction, in the spectrum distribution region corresponding to the fundamental tone, the phase other than the peak phase of the fundamental tone is corrected in accordance with the amount of change in the peak phase of the fundamental tone. A phase other than the peak phase of the nth harmonic is corrected in accordance with the amount of change in the peak phase of the harmonic.
上記のような修正を施した位相スペクトルデータを音信号発生に用いると、発生される音信号の波形は、声帯振動開始位置にてピーク位相が揃うという自然な音声波形の特徴を有することとなり、自然な音質の出力音が得られる。 When the phase spectrum data subjected to the correction as described above is used for sound signal generation, the waveform of the sound signal to be generated has a characteristic of a natural sound waveform in which the peak phases are aligned at the vocal cord vibration start position, Output sound with natural sound quality can be obtained.
上記のピッチ変換装置において、
前記生成手段での生成に係る振幅スペクトルデータの示すスペクトル分布領域内のノイズ成分領域であって前記第1の修正手段での修正に係る振幅スペクトルデータが表わす振幅スペクトル分布のうち少なくとも1つの振幅スペクトル分布の一方側に生じたスペクトル欠如領域と周波数帯域が一致するノイズ成分領域からスペクトルビンをコピーする第2のコピー手段と、
前記第2のコピー手段でのコピーに係るスペクトルビンを前記スペクトル欠如領域に付加するように前記修正に係る振幅スペクトルデータのうち前記少なくとも1つの振幅スペクトル分布を表わす振幅スペクトルデータを修正する第5の修正手段とを備え、
前記変換手段は、前記第1〜第3、および第5の修正手段での修正に係る振幅スペクトルデータと、前記第4の修正手段での修正に係る位相スペクトルデータとを時間領域の音信号に変換するものである
ようにしてもよい。
In the above pitch converter,
At least one amplitude spectrum of the amplitude spectrum distribution represented by the amplitude spectrum data related to the correction by the first correction means, which is a noise component area within the spectrum distribution area indicated by the amplitude spectrum data generated by the generation means. A second copy means for copying a spectrum bin from a noise component region whose frequency band coincides with a spectrum lack region generated on one side of the distribution;
A fifth correction of amplitude spectrum data representing the at least one amplitude spectrum distribution among the amplitude spectrum data related to the correction so as to add a spectrum bin related to the copy by the second copy means to the spectrum absence region. Correction means,
The conversion means converts the amplitude spectrum data related to the correction by the first to third and fifth correction means and the phase spectrum data related to the correction by the fourth correction means into a sound signal in the time domain. You may make it convert.
この態様によれば、第1の修正手段での修正に係る振幅スペクトルデータが表わす振幅スペクトル分布のうち少なくとも1つの振幅スペクトル分布の一方側に生じたスペクトル欠如領域と周波数帯域が一致するノイズ成分領域(局所的ピークの周波数から十分に離れた低スペクトル強度の領域)からスペクトルビンをコピーしてスペクトル欠如領域に付加するようにしたので、原音声が持っている生々しさを出力音に反映させることができ、自然な音質の出力音が得られる。 According to this aspect, the noise component region in which the frequency band coincides with the spectrum lack region generated on one side of at least one amplitude spectrum distribution among the amplitude spectrum distributions represented by the amplitude spectrum data related to the correction by the first correction means. Since spectral bins are copied from (region of low spectral intensity sufficiently far from local peak frequency) and added to the spectrum lacking region, the rawness of the original voice is reflected in the output sound. Output sound with natural sound quality.
この発明によれば、設定に係るピーク周波数に近いピッチ変更前のピーク周波数を有し且つ指示に係るエンベロープ値に最も近い局所的ピークのスペクトル強度を有するスペクトル分布領域を選択したり、周波数分析で得られた位相スペクトルにおいて不揃いであったピーク位相を計算により揃えたり、 ピッチ上昇後の振幅スペクトル分布のスペクトル欠如領域と周波数帯域が一致するノイズ成分領域からコピーしたスペクトルビンをスペクトル欠如領域に付加したりしたので、自然な音質の出力音を発生可能となる効果が得られる。 According to the present invention, a spectral distribution region having a peak frequency before the pitch change close to the peak frequency related to the setting and having a spectral intensity of a local peak closest to the indicated envelope value can be selected, or by frequency analysis. Align the peak phases that were not uniform in the obtained phase spectrum by calculation, or add spectrum bins copied from the noise component area whose frequency band matches the spectrum missing area of the amplitude spectrum distribution after pitch increase to the spectrum missing area. As a result, it is possible to generate an output sound with a natural sound quality.
図1は、この発明の一実施形態に係るピッチ変換装置の回路構成を示すものである。このピッチ変換装置は、小型コンピュータ10によって動作が制御される構成になっている。
FIG. 1 shows a circuit configuration of a pitch converter according to an embodiment of the present invention. This pitch converter is configured to be controlled by a
バス11には、CPU(中央処理装置)12、ROM(リード・オンリィ・メモリ)14、RAM(ランダム・アクセス・メモリ)16、音声入力部18、制御パラメータ入力部20、外部記憶装置22、表示部24、D/A(ディジタル/アナログ)変換部26、MIDI(Musical Instrument Digital Interface)インターフェース28、通信インターフェース30等が接続されている。
The
CPU12は、ROM14にストアされたプログラムに従ってピッチ変換等に関する各種処理を実行するもので、ピッチ変換に関する処理については図2〜4等を参照して後述する。
The
RAM16は、CPU12の各種処理に際してワーキングエリアとして使用される種々の記憶部を含むものである。この発明の実施に関係する記憶部としては、例えば入力部18,20にそれぞれ対応する入力データ記憶領域等が存在するが、詳細については後述する。
The
音声入力部18は、音声信号を入力するためのマイクロホン、音声入力端子等を有するもので、入力した音声信号をディジタル波形データに変換するA/D(アナログ/ディジタル)変換器を備えている。入力に係るディジタル波形データは、RAM16内の所定領域に記憶される。
The
制御パラメータ入力部20は、文字、数字等を入力可能なキーボードと、マウス等のポインティングデバイスと、ボリューム等のパラメータ設定器とを備えたもので、ピッチ変換処理に用いられる各種の制御パラメータを設定可能である。制御パラメータとしては、ピッチ、音色などを設定可能である。設定に係る制御パラメータを表わす制御パラメータデータは、RAM16内の所定領域に記憶される。
The control
外部記憶装置22は、HD(ハードディスク)、FD(フレキシブルディスク)、CD(コンパクトディスク)、DVD(ディジタル多目的ディスク)、MO(光磁気ディスク)等のうち1又は複数種類の記録媒体を着脱可能なものである。外部記憶装置22に所望の記録媒体を装着した状態では、記録媒体からRAM16へデータを転送可能である。また、装着した記録媒体がHDやFDのように書込み可能なものであれば、RAM16のデータを記録媒体に転送可能である。
The
プログラム記録手段としては、ROM14の代わりに外部記憶装置22の記録媒体を用いることができる。この場合、記録媒体に記録したプログラムは、外部記憶装置22からRAM16へ転送する。そして、RAM16に記憶したプログラムにしたがってCPU12を動作させる。このようにすると、プログラムの追加やバージョンアップ等を容易に行なうことができる。
As the program recording means, a recording medium of the
表示部24は、液晶表示器等の表示器を含むもので、後述する周波数分析結果等の種々の情報を表示可能である。
The
D/A変換部26は、ピッチ変換処理により生成されたディジタル音声信号をアナログ音声信号に変換するものである。D/A変換部26から送出されるアナログ音声信号は、アンプ、スピーカ等を含むサウンドシステム32により音響に変換される。
The D /
MIDIインターフェース28は、このピッチ変換装置とは別体のMIDI機器34との間でMIDI通信を行なうために設けられたもので、この発明では、MIDI機器34からピッチ変換用のデータを受信するために用いられる。
The
通信インターフェース30は、通信ネットワーク(例えばLAN(ローカル・エリア・ネットワーク)、インターネット、電話回線等)36を介して他のコンピュータ38と情報通信を行なうために設けられたものである。この発明の実施に必要なプログラムや各種データは、コンピュータ38から通信ネットワーク36及び通信インターフェース30を介してRAM16または外部記憶装置22へダウンロード要求に応じて取込むようにしてもよい。
The communication interface 30 is provided to perform information communication with another
次に、図2を参照して音声変換処理の一例を説明する。ステップ40では、入力部18からマイクロホン又は音声入力端子を介して音声信号を入力してA/D変換し、入力音声信号の音声波形を表わすディジタル波形データをRAM16に記憶させる。図17には、入力音声波形の一例を示す。また、発生すべき音声のピッチ(入力音声信号より高い又は低いピッチ)を指示するピッチ情報を入力部20から入力し、RAM16に記憶させる。
Next, an example of the voice conversion process will be described with reference to FIG. In
ステップ42では、記憶に係るディジタル波形データについてフレーム毎に区間波形を切出す(ディジタル波形データを分割する)。
In
ステップ44では、フレーム毎にFFT分析処理により周波数分析を実行して周波数スペクトル(振幅スペクトルと位相スペクトル)を検出する。そして、周波数スペクトルを表わすデータをRAM16の所定領域に記憶させる。図5(A)には、FFT分析処理により周波数分析して得た振幅スペクトルの一例を示す。
In
次に、ステップ46では、フレーム毎に振幅スペクトルに基づいてピッチを検出し、検出ピッチを表わすピッチデータを生成し、RAM16の所定領域に記憶させる。
Next, in
ステップ48では、フレーム毎に振幅スペクトル上でスペクトル強度(振幅)の局所的ピークを複数検知する。局所的ピークを検知するには、近隣の複数(例えば4つ)のピークについて振幅値が最大のピークを検知する方法等を用いることができる。図5(A)には、検知した複数の局所的ピークP0,P1,P2…が示されている。
In
ステップ50では、フレーム毎に振幅スペクトル上で各局所的ピークに対応するスペクトル分布領域を指定し、該領域内の振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成し、RAM16の所定領域に記憶させる。スペクトル分布領域を指定する方法としては、隣り合う2つの局所的ピーク間で周波数軸を半分に切り、各半分を近い方の局所的ピークを含むスペクトル分布領域に割当てる方法等を採用することができる。図5(A)には、局所的ピークP0,P1,P2…をそれぞれ含むスペクトル分布領域R0,R1,R2…を指定した例を示す。
In
ステップ52では、フレーム毎に位相スペクトルに基づいて各スペクトル分布領域内の位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成し、RAM16内の所定領域に記憶させる。図14には、あるフレームのあるスペクトル分布領域における振幅スペクトル分布am0及び位相スペクトル分布ph0を示す。
In
ステップ54〜68の処理は、各フレームの振幅スペクトルデータ又は位相スペクトルデータに関して行なわれる。ステップ54では、振幅スペクトルデータに関してステップ40での入力に係るピッチ情報に応じてピッチ変更すべく振幅スペクトル分布配置を変更する。
The processing in
図5は、この発明に係るピッチ変更処理の一例を示すもので、図13と同様の部分には同様の符号を付して詳細な説明を省略する。ピッチ変更処理としては、ピッチ上昇処理を行なうものとし、ステップ40では、入力音声信号より高いピッチを指示するピッチ情報を入力する。ステップ46で求めたピッチデータに対応する周波数(基音のピーク周波数)をf0とし、入力に係るピッチ情報に対応する周波数をf01とすると、ピッチ変更比Tは、T=f01/f0となる。
FIG. 5 shows an example of the pitch changing process according to the present invention. The same parts as those in FIG. As the pitch changing process, a pitch increasing process is performed. In
ピッチ上昇処理では、図5(A)に示すように基音のピーク周波数f0をそれぞれ2倍,3倍にした完全倍音周波数2f0,3f0を想定する。そして、第1倍音のピーク周波数f1と完全倍音周波数2f0との差分Δf1=(f1−2f0)を保持すると共に、第2倍音のピーク周波数f2と完全倍音周波数3f0との差分Δf2=(f2−3f0)を保持する。差分の保持は、差分Δf1,Δf2をそれぞれ表わす差分データをRAM16内の所定領域に記憶させることにより行なう。
In the pitch increase processing, as shown in FIG. 5A, perfect harmonic frequencies 2f 0 and 3f 0 are assumed, in which the peak frequency f 0 of the fundamental tone is doubled and tripled, respectively. Then, the difference Δf 1 = (f 1 −2f 0 ) between the peak frequency f 1 of the first harmonic and the perfect harmonic frequency 2f 0 is held, and the difference between the peak frequency f 2 of the second harmonic and the perfect harmonic frequency 3f 0 is maintained. The difference Δf 2 = (f 2 −3f 0 ) is held. The difference is held by storing difference data representing the differences Δf 1 and Δf 2 in a predetermined area in the
次に、基音のピークP0が周波数f01=f0Tに位置するように領域R0内の振幅スペクトル分布を周波数軸上で高音側に移動する。すなわち、このような移動を可能にすべく領域R0の振幅スペクトルデータを修正する(具体的には振幅スペクトル分布において各スペクトルビンの周波数を修正する)。また、ピッチ上昇後の基音のピーク周波数f01をそれぞれ2倍,3倍にした完全倍音周波数2f01,3f01を想定する。ピッチ上昇後の第1倍音のピーク周波数としては完全倍音周波数2f01を前述の差分Δf1に対応してシフトした周波数f11=2f01+Δf1を採用すると共に、ピッチ上昇後の第2倍音のピーク周波数としては完全倍音周波数3f01を前述の差分Δf2に対応してシフトした周波数f21=3f01+Δf2を採用する。
Next, the amplitude spectrum distribution in the region R 0 is moved to the high pitch side on the frequency axis so that the fundamental tone peak P 0 is located at the frequency f 01 = f 0 T. That is, the amplitude spectrum data in the region R 0 is corrected to enable such movement (specifically, the frequency of each spectral bin is corrected in the amplitude spectrum distribution). In addition, it is assumed that perfect harmonic frequencies 2f 01 and 3f 01 are obtained by doubling and triple the peak frequency f 01 of the fundamental tone after the pitch rise. While adopting the frequency f 11 = 2f 01 + Δf 1 which is shifted in response to full harmonic frequency 2f 01 to the difference Delta] f 1 described above as a peak frequency of the first harmonic of the post elevating pitch, the second harmonic of the post elevating pitch the peak frequency employs the full
ピッチ上昇後の第1倍音のピークP1が周波数f11=2f01+Δf1に位置するように領域R1内の振幅スペクトル分布を周波数軸上で高音側に移動する(すなわち、このような移動を可能にすべく領域R1の振幅スペクトルデータを修正する)。また、ピッチ上昇後の第2倍音のピークP2が周波数f21=3f01+Δf2に位置するように領域R2の振幅スペクトル分布を周波数軸上で高音側に移動する(すなわち、このような移動を可能にすべく領域R2の振幅スペクトルデータを修正する)。 Peak P 1 of the first harmonic of the post elevating pitch is moved amplitude spectrum distribution in the region R 1 so as to be positioned on the frequency f 11 = 2f 01 + Δf 1 treble side on the frequency axis (i.e., such movement modifying the amplitude spectrum data of the region R 1 to enable any). Further, the peak P 2 of the second harmonic of the post elevating pitch is moved amplitude spectrum distribution region R 2 so as to be positioned in the frequency f 21 = 3f 01 + Δf 2 treble side on the frequency axis (i.e., like this to permit a movement to correct the amplitude spectrum data region R 2).
図5に関して上記したピッチ変更処理によれば、ピッチ変更比Tが大きくなってもピッチ上昇後の倍音のピーク周波数f11,f21が完全倍音周波数2f01,3f01からそれぞれ大きくずれることはない。従って、自然な音質の出力音を得ることができる。 According to the pitch change processing described above with reference to FIG. 5, even if the pitch change ratio T is increased, the peak frequencies f 11 and f 21 of the harmonics after the pitch increase are not significantly shifted from the perfect harmonic frequencies 2f 01 and 3f 01 , respectively. . Therefore, an output sound with natural sound quality can be obtained.
図5に関して上記したようにピッチ変更前のΔf1等の差分を保持してピッチ変更後のf11等の倍音周波数に反映させる処理は、ピッチ上昇の場合に限らず、ピッチ低下の場合にも適用することができる。ピッチ低下の場合には、周波数の差分は小さくなるものの、ピッチ上昇の場合と同様に自然な音質の出力音が得られる。 As described above with reference to FIG. 5, the process of holding the difference such as Δf 1 before the pitch change and reflecting it in the harmonic frequency such as f 11 after the pitch change is not limited to the case where the pitch is increased but also when the pitch is decreased. Can be applied. When the pitch is lowered, the frequency difference is small, but an output sound with natural sound quality can be obtained as in the case of the pitch rise.
図2のステップ56では、振幅スペクトルデータに関して局所的ピークをスペクトルエンベロープに合わせるように振幅スペクトル分布において各スペクトルビンのスペクトル強度を修正する。図5(B)に示した例では、図5(A)に示したピークP0〜P2を結ぶスペクトルエンベロープ(原音声のスペクトルエンベロープ)EVaと同様の形状のスペクトルエンベロープEVbにピッチ上昇後のピークP0〜P2を合わせるように振幅スペクトル分布において各スペクトルビンのスペクトル強度を修正する。この結果、原音声と同一の音色が得られる。原音声とは異なる音色を得たいときは、図13に関して前述したようにスペクトルエンベロープEVbを適宜変更し、変更に係るスペクトルエンベロープEVbに合わせて振幅スペクトル分布において各スペクトルビンのスペクトル強度を修正すればよい。
図6は、この発明に係るピッチ・音色変更処理の一例を示すもので、この例では、ピッチ変更処理としてピッチ低下処理をステップ54で行ない、音色変更処理として原音声とは異なる音色を付与する処理をステップ56で行なう。図6において、図16と同様の部分には同様の符号を付してある。
FIG. 6 shows an example of the pitch / timbre change process according to the present invention. In this example, the pitch reduction process is performed in
図6(A)には、図16(A)に示したのと同様の各スペクトル分布領域毎の振幅スペクトル分布を示す。ピッチ低下処理では、スペクトル分布領域R0,R1,R2の振幅スペクトル分布をそれぞれ図6(B)に示すように周波数軸上で低音側に移動する(すなわち、このような移動を可能にすべく振幅スペクトルデータを修正する)。移動後の振幅スペクトル分布において、局所的ピークP01,P11,P21に対応するピーク周波数は、それぞれF0,F2,F5である。 FIG. 6A shows an amplitude spectrum distribution for each spectrum distribution region similar to that shown in FIG. In the pitch reduction process, the amplitude spectrum distributions of the spectrum distribution regions R 0 , R 1 , and R 2 are moved to the bass side on the frequency axis as shown in FIG. 6B (that is, such movement is possible). Correct the amplitude spectrum data accordingly). In the amplitude spectrum distribution after movement, the peak frequencies corresponding to the local peaks P 01 , P 11 , and P 21 are F 0 , F 2 , and F 5 , respectively.
音色変更処理では、原音声のスペクトルエンベロープEVaとは形状が異なる所定のスペクトルエンベロープEVcを想定する。この場合、ピーク周波数F0,F2,F5に対応する振幅スペクトル分布だけではスペクトルエンベロープEVcを十分に表現できない。そこで、ピーク周波数F0とF2との間にはピーク周波数F1を、ピーク周波数F2とF5との間にはピーク周波数F3,F4を、ピーク周波数F5の高音側にはピーク周波数F6,F7をそれぞれ設定する。この設定処理は、入力部20のマウス又はキーボード等の操作により行なってもよく、あるいは変更したい音色の種類(又はエンベロープEVc)と対応付けて記憶している周波数情報を読出すことで実行するようにしてもよい。
In the tone color changing process, a predetermined spectrum envelope EVc having a shape different from that of the spectrum envelope EVa of the original sound is assumed. In this case, the spectrum envelope EVc cannot be sufficiently expressed only by the amplitude spectrum distribution corresponding to the peak frequencies F 0 , F 2 , and F 5 . Therefore, the peak frequency F 1 is between the peak frequencies F 0 and F 2 , the peak frequencies F 3 and F 4 are between the peak frequencies F 2 and F 5, and the high frequency side of the peak frequency F 5 is Peak frequencies F 6 and F 7 are set, respectively. This setting process may be performed by operating the mouse or keyboard of the
次に、F0〜F7の各ピーク周波数毎にスペクトルエンベロープ値(スペクトルエンベロープEVcを形成するためのエンベロープ値)を指示する。この場合、図6(A)に示すスペクトル分布領域R0〜R2の振幅スペクトル分布においてF0〜F7の各ピーク周波数毎に局所的ピークP0〜P2のいずれかに関してスペクトル強度をエンベロープ値として指示する。エンベロープ値を指示する際には、図7に示すグラフを用いることができる。 Next, a spectrum envelope value (envelope value for forming the spectrum envelope EVc) is designated for each peak frequency of F 0 to F 7 . In this case, in the amplitude spectrum distribution of the spectrum distribution region R 0 to R 2 shown in FIG. 6A, the spectrum intensity is enveloped for any of the local peaks P 0 to P 2 for each peak frequency of F 0 to F 7. Specify as a value. When designating the envelope value, the graph shown in FIG. 7 can be used.
図7は、図6(A)の振幅スペクトル分布に関してピッチ変更後の各ピーク周波数毎にスペクトル強度をエンベロープ値として指示するもので、x軸にはピッチ変更後のピーク周波数F0〜F7を、y軸にはピッチ変更前のピーク周波数f0〜f3を、右側にはピーク周波数f0〜f3にそれぞれ対応する局所的ピークP0〜P3のスペクトル強度M0〜M3をそれぞれ示す。図7のグラフは、本願の発明者により音色マッピング(Timbre Mapping)関数図と名付けられたもので、音色設定に用いて便利なものである。線N(x)は、原音声の音色を変更しない場合に相当し、線K(x)は、原音声の音色を変更する場合に相当する。 FIG. 7 indicates the spectrum intensity as an envelope value for each peak frequency after the pitch change with respect to the amplitude spectrum distribution of FIG. 6 (A), and the peak frequencies F 0 to F 7 after the pitch change are indicated on the x-axis. , Y-axis shows peak frequencies f 0 to f 3 before the pitch change, and right side shows spectral intensities M 0 to M 3 of local peaks P 0 to P 3 corresponding to the peak frequencies f 0 to f 3 , respectively. Show. The graph of FIG. 7 is named as a timbre mapping function diagram by the inventor of the present application, and is convenient for use in timbre setting. Line N (x) corresponds to the case where the timbre of the original voice is not changed, and line K (x) corresponds to the case where the timbre of the original voice is changed.
図7のグラフを用いる場合、図6(A)の領域R0〜R2の振幅スペクトル分布においてピークP0〜P2を結ぶように領域R0の下限周波数faから領域R2の上限周波数fdまで延長するスペクトルエンベロープEVaを補間処理等により作成する。また、表示部24の表示画面には、図6(A)の領域R0〜R2の振幅スペクトル分布(エンベロープEVaも含む)と、図6(B)のピーク周波数F0,F2,F5に対応する振幅スペクトル分布と、図7のグラフとを表示する。このような表示状態において、入力部20のマウス又はキーボード等の操作により図7のグラフ上で所望の位置にカーソルを当てて位置指定を行なうことにより指定に係る位置にK1等のマークが表示される。この結果、エンベロープ値が指示され、指示に係るエンベロープ値は、RAM16に記憶されると共にエンベロープEVa上に点で表示される。なお、表示画面上での位置指定は、入力ペン等を用いて行なってもよい。
When the graph of FIG. 7 is used, the lower limit frequency fa of the region R 0 to the upper limit frequency fd of the region R 2 so as to connect the peaks P 0 to P 2 in the amplitude spectrum distribution of the regions R 0 to R 2 of FIG. A spectral envelope EVa that extends up to is created by interpolation processing or the like. Further, the display screen of the
ピーク周波数F0に対応するエンベロープ値(図6(B)の点P01に対応)としては、マークK0の位置を指定することによりy=K(F0)なる周波数(f0より低い周波数)に対応するエンベロープEVa上のスペクトル強度(M0より若干大きいスペクトル強度)が指示される。ピーク周波数F1に対応するエンベロープ値(図6(B)の点P02に対応)としては、マークK1の位置を指定することによりy=K(F1)なる周波数(f0より高い周波数)に対応するエンベロープEVa上のスペクトル強度(M0より若干小さいスペクトル強度)が指示される。 As an envelope value corresponding to the peak frequency F 0 (corresponding to the point P 01 in FIG. 6B), by specifying the position of the mark K 0 , a frequency y = K (F 0 ) (a frequency lower than f 0 ) ) slightly larger spectral intensity than the spectral intensity (M 0 on the envelope EVa corresponding to) is indicated. As an envelope value corresponding to the peak frequency F 1 (corresponding to the point P 02 in FIG. 6B), by specifying the position of the mark K 1 , a frequency (frequency higher than f 0 ) becomes y = K (F 1 ). ) slightly smaller spectral intensity than the spectral intensity (M 0 on the envelope EVa corresponding to) is indicated.
同様にして、ピーク周波数F2に対応するエンベロープ値(点P11に対応)としては、マークK2の位置指定によりy=K(F2)に対応するスペクトル強度(M1より若干小さいスペクトル強度)が指示される。また、ピーク周波数F3に対応するエンベロープ値(点P12に対応)としては、マークK3の位置指定によりy=K(F3)に対応するスペクトル強度(M0より若干小さいスペクトル強度)が指示されると共に、ピーク周波数F4に対応するエンベロープ値(点P13に対応)としては、マークK4の位置指定によりy=K(F4)に対応するスペクトル強度(M0より若干小さいスペクトル強度)が指示される。さらに、ピーク周波数F5,F6,F7に対応するエンベロープ値(点P21,P22,P23に対応)としては、マークK5,K6,K7の位置指定によりy=K(F5),y=K(F6),y=K(F7)に対応するスペクトル強度(ピークP2の近傍のスペクトル強度)がそれぞれ指示される。 Similarly, as the envelope value corresponding to the peak frequency F 2 (corresponding to the point P 11 ), the spectrum intensity corresponding to y = K (F 2 ) by the position designation of the mark K 2 (spectrum intensity slightly smaller than M 1 ). ) Is instructed. Further, as the envelope value corresponding to the peak frequency F 3 (corresponding to the point P 12 ), the spectrum intensity corresponding to y = K (F 3 ) (spectrum intensity slightly smaller than M 0 ) is designated by the position designation of the mark K 3. As indicated, the envelope value corresponding to the peak frequency F 4 (corresponding to the point P 13 ) is the spectrum intensity corresponding to y = K (F 4 ) by the position designation of the mark K 4 (a spectrum slightly smaller than M 0 ). Strength) is indicated. Further, envelope values corresponding to the peak frequencies F 5 , F 6 , and F 7 (corresponding to points P 21 , P 22 , and P 23 ) are set to y = K (by position designation of the marks K 5 , K 6 , and K 7 ). F 5 ), y = K (F 6 ), and spectrum intensity corresponding to y = K (F 7 ) (spectrum intensity in the vicinity of peak P 2 ) are respectively indicated.
F0〜F7の各ピーク周波数毎にエンベロープ値を指示する場合、スペクトル分布領域R0〜R2のいずれにおいてもエンベロープ値を指示可能であるが、自然な音色を得るためには、F0〜F7の各ピーク周波数毎に該ピーク周波数に近いピッチ変更前のピーク周波数を有するスペクトル分布領域においてエンベロープ値を指示するのが望ましい。図7のグラフには、F0〜F7の各ピーク周波数をx軸に、ピーク変更前のピーク周波数f0〜f3をy軸にそれぞれ示してあるので、F0〜F7の各ピーク周波数毎にそれに近いピッチ変更前のピーク周波数に関してエンベロープ値を指示することができる。図7の例では、ピーク周波数F0,F1,F3,F4についてはスペクトル分布領域R0において、ピーク周波数F2についてはスペクトル分布領域R1において、ピーク周波数F5〜F7についてはスペクトル分布領域R2においてそれぞれエンベロープ値を指示している。 When an envelope value is indicated for each peak frequency of F 0 to F 7 , the envelope value can be indicated in any of the spectrum distribution regions R 0 to R 2 , but in order to obtain a natural tone, F 0 for each peak frequency of the to F 7 to indicate the envelope values in the spectral distribution region having a pitch change previous peak frequency near the peak frequency is desirable. In the graph of FIG. 7, the peak frequencies of F 0 to F 7 are shown on the x-axis, and the peak frequencies f 0 to f 3 before the peak change are shown on the y-axis, so that the peaks of F 0 to F 7 are shown. For each frequency, the envelope value can be indicated with respect to the peak frequency before the pitch change close to that. In the example of FIG. 7, the peak frequencies F 0 , F 1 , F 3 , and F 4 are in the spectrum distribution region R 0 , the peak frequency F 2 is in the spectrum distribution region R 1 , and the peak frequencies F 5 to F 7 are in the spectrum distribution region R 0 . each instructs the envelope values in the spectral distribution region R 2.
上記した例では、図7のグラフを用いてエンベロープ値の指示を行なったが、図7のグラフを用いなくてもエンベロープ値の指示を行なうことができる。例えば、表示部24の表示画面には、図6(A)の領域R0〜R2の振幅スペクトル分布(エンベロープEVaも含む)と、図6(B)のピーク周波数F0,F2,F5に対応する振幅スペクトル分布とを表示する。このような表示状態においてエンベロープEVa上でF0〜F7の各ピーク周波数毎に位置指定を行なうことによりエンベロープ値を指示することができる。指示に係る各エンベロープ値は、エンベロープEVa上に点で表示する。また、エンベロープEVaの表示を省略しても、例えばピークP0を基準として上下方向(又は斜め左右方向)の位置を指定することによりエンベロープ値を指示することができる。この場合、指示に係るエンベロープ値は、基準としたピークの近傍において指定に係る位置に点で表示すればよい。さらに、スペクトルエンベロープEVcを用いてエンベロープ値の指示を行なうことも可能である。例えば、表示部24の表示画面には、図6(B)のピーク周波数F0,F2,F5に対応する振幅スペクトル分布と、エンベロープEVcとを表示する。このような表示状態においてエンベロープEVc上で点P01,P02,P11〜P13,P21〜P23をそれぞれ指定することによりエンベロープ値を指示してもよい。エンベロープEVcとしては、入力ペン等により任意の形状のエンベロープを表示画面上に描くことができる。
In the above example, the envelope value is designated using the graph of FIG. 7, but the envelope value can be designated without using the graph of FIG. For example, the display screen of the
次に、設定に係るピーク周波数F1,F3,F4,F6,F7については、指示に係るエンベロープ値毎に該エンベロープ値に最も近い局所的ピークのスペクトル強度を有するスペクトル分布領域を選択する。この場合、F1,F3,F4,F6,F7の各ピーク周波数毎に該ピーク周波数と所定の近似関係にあるピッチ低下前のピーク周波数を有する複数のスペクトル分布領域のうちから指示に係るエンベロープ値に最も近い局所的ピークのスペクトル強度を有するスペクトル分布領域を選択する。所定の近似関係としては、例えば近さの順位が1〜2位の範囲内にある関係を採用することができる。このようにするのは、ピッチ変更の前後でピーク周波数が近い方が自然な音色を得やすいからである。図7の例において、ピーク周波数F1については、マークK1の位置に最も近いピーク周波数がf0であり且つピークのスペクトル強度がM0であることからピークP0を有するスペクトル分布領域が選択される。同様にして、ピーク周波数F3,F4については、ピークP0を有するスペクトル分布領域が選択され、ピーク周波数F6,F7については、ピークP2を有するスペクトル分布領域が選択される。選択処理は、入力部20のマウス又はキーボード等によるエンベロープ値指示操作に基づいて自動的に行なうことができる。
Next, for the peak frequencies F 1 , F 3 , F 4 , F 6 , and F 7 according to the setting, a spectral distribution region having the spectral intensity of the local peak closest to the envelope value is determined for each envelope value according to the instruction. select. In this case, for each peak frequency of F 1 , F 3 , F 4 , F 6 , and F 7, an indication is made from among a plurality of spectral distribution regions having a peak frequency before pitch reduction that has a predetermined approximate relationship with the peak frequency. A spectral distribution region having the spectral intensity of the local peak closest to the envelope value is selected. As the predetermined approximate relationship, for example, a relationship in which the closeness rank is in the range of 1 to 2 can be adopted. This is because it is easier to obtain a natural tone when the peak frequency is closer before and after the pitch change. In the example of FIG. 7, for the peak frequency F 1 , the spectrum distribution region having the peak P 0 is selected because the peak frequency closest to the position of the mark K 1 is f 0 and the peak spectral intensity is M 0. Is done. Similarly, the spectrum distribution region having the peak P 0 is selected for the peak frequencies F 3 and F 4 , and the spectrum distribution region having the peak P 2 is selected for the peak frequencies F 6 and F 7 . The selection process can be automatically performed based on an envelope value instruction operation using a mouse or a keyboard of the
次に、選択に係る各スペクトル分布領域の振幅スペクトルデータ及び位相スペクトルデータをステップ50,52での生成に係る振幅スペクトルデータ及び位相スペクトルデータのうちからコピーする。ピーク周波数F1,F3,F4については、スペクトル分布領域R0の振幅スペクトルデータ及び位相スペクトルデータをコピーし、ピーク周波数F6,F7については、スペクトル分布領域R2の振幅スペクトルデータ及び位相スペクトルデータをコピーする。
Next, the amplitude spectrum data and the phase spectrum data of each spectrum distribution region related to the selection are copied from the amplitude spectrum data and the phase spectrum data related to the generation in
次に、コピーに係る各振幅スペクトルデータ毎に該振幅スペクトルデータが表わす振幅スペクトル分布において局所的ピークに対応するピーク周波数を設定に係るピーク周波数に変更するように振幅スペクトル分布を周波数軸上で移動する(すなわち、このような移動を可能にすべく振幅スペクトルデータを修正する)。例えば、ピーク周波数F1に対応してコピーされた振幅スペクトルデータについては、ピーク周波数をf0からF1に変更するように振幅スペクトル分布を周波数軸上で高音側に移動する。ピーク周波数F3,F4にそれぞれ対応してコピーされた振幅スペクトルデータについては、ピーク周波数をf0からF3,F4にそれぞれ変更するように振幅スペクトル分布を周波数軸上で高音側に移動する。ピーク周波数F6,F7にそれぞれ対応してコピーされた振幅スペクトルデータについては、ピーク周波数をf2からF6,F7にそれぞれ変更するように振幅スペクトル分布を周波数軸上で高音側に移動する。 Next, for each amplitude spectrum data related to the copy, the amplitude spectrum distribution is moved on the frequency axis so that the peak frequency corresponding to the local peak in the amplitude spectrum distribution represented by the amplitude spectrum data is changed to the peak frequency related to the setting. (Ie, modify the amplitude spectrum data to allow such movement). For example, for the amplitude spectrum data copied corresponding to the peak frequency F 1 , the amplitude spectrum distribution is moved to the high pitch side on the frequency axis so that the peak frequency is changed from f 0 to F 1 . The amplitude spectrum data respectively copied to correspond to the peak frequency F 3, F 4 moves, the peak frequency of the amplitude spectrum distribution to change respectively from f 0 to F 3, F 4 treble side on the frequency axis To do. The amplitude spectrum data respectively copied to correspond to the peak frequency F 6, F 7 move, the amplitude spectrum distribution to change respectively the peak frequency F 6, F 7 from f 2 treble side on the frequency axis To do.
次に、ピッチ低下処理によりピーク周波数F0,F2,F5を持つに至った振幅スペクトルデータが表わす振幅スペクトル分布において各振幅スペクトル分布毎に局所的ピークのスペクトル強度を先の指示に係るエンベロープ値に合わせるように各スペクトルビンのスペクトル強度を修正する。例えば、ピーク周波数F0に対応する振幅スペクトル分布においては、局所的ピークのスペクトル強度を先の指示に係るエンベロープ値(点P01に対応)に合わせるように各スペクトルビンのスペクトル強度を修正する。ピーク周波数F2,F5にそれぞれ対応する振幅スペクトル分布においても、局所的ピークのスペクトル強度を先の指示に係るエンベロープ値(点P11,P21に対応)に合わせるように各スペクトルビンのスペクトル強度を修正する。 Next, in the amplitude spectrum distribution represented by the amplitude spectrum data that has peak frequencies F 0 , F 2 , and F 5 by the pitch reduction process, the spectral intensity of the local peak for each amplitude spectrum distribution is indicated in the envelope according to the previous instruction. The spectral intensity of each spectral bin is modified to match the value. For example, in the amplitude spectrum distribution corresponding to the peak frequency F 0 , the spectrum intensity of each spectrum bin is corrected so that the spectrum intensity of the local peak matches the envelope value (corresponding to the point P 01 ) according to the previous instruction. Even in the amplitude spectrum distribution corresponding to each of the peak frequencies F 2 and F 5 , the spectrum of each spectrum bin so that the spectrum intensity of the local peak matches the envelope value (corresponding to the points P 11 and P 21 ) according to the previous instruction. Correct the strength.
このようなスペクトル強度の修正は、コピーに係る各振幅スペクトルデータについても同様にして行なわれる。すなわち、ピーク周波数F1,F3,F4,F6,F7にそれぞれ対応する振幅スペクトル分布において、局所的ピークのスペクトル強度を先の指示に係るエンベロープ値(点P02,P12,P13,P22,P23に対応)にそれぞれ合わせるように各スペクトルビンのスペクトル強度を修正する。 Such correction of the spectrum intensity is performed in the same manner for each amplitude spectrum data related to the copy. That is, in the amplitude spectrum distribution corresponding to each of the peak frequencies F 1 , F 3 , F 4 , F 6 , and F 7 , the spectral intensity of the local peak is set as the envelope value (points P 02 , P 12 , P 13 , P 22 , and P 23 ), and the spectral intensity of each spectral bin is corrected.
上記のようなピッチ・音色変更処理によれば、図6(B)に示すようにピーク周波数F0〜F7に対応する8つの振幅スペクトル分布がピークP01,P02,P11〜P13,P21〜P23をスペクトルエンベロープEVcに合わせた状態で配置されることになる。図6(B)では、隣り合うスペクトル分布領域毎に振幅スペクトル分布が重なるようになっているが、隣り合うスペクトル分布領域毎に両領域の中央の周波数位置の近傍で低音側のスペクトル分布領域の上限周波数及び高音側のスペクトル分布領域の下限周波数をそれぞれ新たに設定することにより振幅スペクトル分布の重なりが生じないようにすることができる。あるいは隣り合うスペクトル分布領域毎に振幅スペクトル分布の重なり合う個所では周波数同一のスペクトルビンのスペクトル強度をそのまま加算するだけでもよい。なお、図6に関して上記したような音色変更処理は、ピッチ低下の場合に限らず、ピッチ上昇の場合にも行なうことができる。 According to the pitch / tone color changing process as described above, as shown in FIG. 6B, eight amplitude spectrum distributions corresponding to the peak frequencies F 0 to F 7 are peaks P 01 , P 02 , P 11 to P 13. , P 21 to P 23 are arranged in accordance with the spectrum envelope EVc. In FIG. 6B, the amplitude spectrum distribution is overlapped for each adjacent spectrum distribution region. However, for each adjacent spectrum distribution region, the low frequency side spectrum distribution region is near the center frequency position of both regions. By newly setting the upper limit frequency and the lower limit frequency of the spectrum distribution region on the treble side, overlapping of the amplitude spectrum distribution can be prevented. Alternatively, the spectral intensities of spectral bins having the same frequency may be simply added as they are at the portions where the amplitude spectral distributions overlap for each adjacent spectral distribution region. Note that the timbre changing process as described above with reference to FIG. 6 can be performed not only when the pitch is lowered but also when the pitch is raised.
図6に関して上記したピッチ・音色変更処理によれば、設定に係るピーク周波数に近いピッチ変更前のピッチ周波数を有し且つ指示に係るエンベロープ値に最も近い局所的ピークのスペクトル強度を有するスペクトル分布領域を選択し、このスペクトル分布領域の振幅スペクトルデータ及び位相スペクトルデータをコピーして音声信号発生に用いるので、自然な音色を得るのが容易となる。また、局所的ピークのスペクトル強度をエンベロープ値に合わせる際に振幅スペクトルデータにおいて各スペクトルビンのスペクトル強度をさほど増大させなくてよいので、出力音の音質は、ノイズっぽさがない自然な音質となる。 According to the pitch / timbre change processing described above with reference to FIG. 6, the spectral distribution region having the pitch intensity before the pitch change close to the set peak frequency and having the local peak spectral intensity closest to the indicated envelope value. Is selected, and the amplitude spectrum data and phase spectrum data in this spectrum distribution region are copied and used for generating an audio signal, so that it is easy to obtain a natural timbre. In addition, when adjusting the spectral intensity of the local peak to the envelope value, it is not necessary to increase the spectral intensity of each spectral bin in the amplitude spectral data so much, so the sound quality of the output sound is a natural sound quality without noise. Become.
次に、図3のルートJ1に従って(ステップ58,60を経由しないで)ステップ62に移る。ステップ62では、振幅スペクトルデータに関する振幅スペクトル分布配置の変更に対応して位相スペクトルデータに関して位相スペクトル分布配置を変更する。すなわち、図5に関して前述したピッチ上昇処理又は図6に関して前述したピッチ低下処理を行なった場合には、ステップ52での生成に係る各位相スペクトルデータが表わす位相スペクトル分布を図14,15に関して前述したようにステップ54でのピッチ変更に対応してスペクトル分布領域毎に修正する。また、図6に関して前述したピッチ低下処理を行なった場合には、コピーに係る各位相スペクトルデータが表わす位相スペクトル分布を該位相スペクトル分布に対応し且つコピーに係る振幅スペクトル分布の周波数変更に対応して修正する。例えば、ピーク周波数F1に対応する位相スペクトル分布についてはf0からF1への周波数変更に対応して位相スペクトル分布を修正する。他のピーク周波数F3,F4,F6,F7に対応する位相スペクトル分布についても同様にして修正を行なう。
Then, (without going through the
この後は、図3のルートJ2に従って(ステップ64,66を経由しないで)ステップ68に移る。ステップ68の処理については、図12を参照して後述する。
After this, (without going through the
図8〜11は、この発明に係る位相揃え処理の一例を示すもので、これらの図において、横軸は周波数fを、縦軸は位相(0〜2π)をそれぞれ示す。図8は、図18に示したのと同様のピーク位相を示すもので、これらのピーク位相は、例えば図17に関して前述したように分析窓FWの中心WCを声帯振動開始位置tS2,tS3の間の中央位置近傍に合わせた状態でFFT分析を行なうことにより得られたものであり、ピーク周波数f0〜f5にそれぞれ対応するピーク位相φ0〜φ5が不揃いの状態にある。ピーク位相φ0〜φ5は、ステップ52での生成に係るあるフレームの位相スペクトルデータによって表わされる6つの位相スペクトル分布(f0〜f5にそれぞれ対応)にそれぞれ属するものである。
8 to 11 show an example of phase alignment processing according to the present invention. In these drawings, the horizontal axis indicates the frequency f and the vertical axis indicates the phase (0 to 2π). Figure 8 shows the same peak phase to that shown in FIG. 18, these peak phase, for example the analysis window FW of the center W C a vocal cord vibration start position t S2 as described above with reference to FIG. 17, t S3 are those obtained by performing an FFT analysis in a state matching the center position near between, it is in irregular state peak phase phi 0 to [phi] 5 respectively corresponding to the peak frequency f 0 ~f 5. The peak phases φ 0 to φ 5 belong to six phase spectrum distributions (corresponding to f 0 to f 5 respectively) represented by the phase spectrum data of a certain frame related to the generation in
位相揃え処理では、図17の状態から図19の状態になるまでに要する時間(タイムシフト量)を求めると共に、求めたタイムシフト量を用いて図8のピーク位相φ0〜φ5を図9に示すように平坦状に揃ったピーク位相φ0’〜φ5’に変換する。図3のステップ58では、位相スペクトルデータに関して基音のピーク位相φ0からのタイムシフト量の候補値を多数設定し、タイムシフト量の各候補値毎に基音及び倍音のピーク位相を算出する。タイムシフト量の候補値を設定するためには、位相の候補値φ0Cを0〜2πの間で40〜80ポイント程度設定し、各候補値φ0C毎に次の数2の式に従ってタイムシフト量の候補値TSCを設定する。
In the phase alignment process, the time (time shift amount) required from the state of FIG. 17 to the state of FIG. 19 is obtained, and the peak phases φ 0 to φ 5 of FIG. As shown in FIG. 5, the peak phases φ 0 ′ to φ 5 ′ are converted into a flat shape. In
ここで、f0は、基音のピーク周波数である。一例として、位相の候補値φ0Cを40ポイントとすると、タイムシフト量の候補値TSCも40個となる。次に、各候補値TSC毎に基音及び倍音のピーク位相を次の数3の式に従って算出する。 Here, f 0 is the peak frequency of the fundamental tone. As an example, if the candidate value phi 0C phase and 40 points, it is 40 possible values TS C of the time shift amounts. Then, the peak phase of the fundamental and overtone is calculated according to the formula for a number 3 for each candidate value TS C.
ここで、iは、ピーク位相の番号であり、基音ではi=0、第1倍音ではi=1、第2倍音ではi=2…となる。ある1つの候補値TSCについて、f1=2f0,f2=3f0…とすると、基音のピーク位相はφ0C=φ0+2πf0×TSC、第1倍音のピーク位相はφ1C=φ1+2π×2f0×TSC、第2倍音のピーク位相はφ2C=φ2+2π×3f0×TSC…となる。基音及び倍音の数をNとすると、1つの候補値TSCについてN個のピーク位相が求められる。候補値TSCは40個であるので、1つの候補値TSCに対応するN個のピーク位相を1群とすると、40群のピーク位相が求められる。
Here, i is the number of the peak phase, i = 0 for the fundamental tone, i = 1 for the first harmonic, i = 2 for the second harmonic, and so on. For a single candidate value TS C, f 1 = 2f 0 ,
次に、図3のステップ60では、各群毎にN個のピーク位相の平均値φaveを求め、この平均値からの各ピーク位相φicの絶対ずれ量の和Σabs(φic−φave)を求める。この絶対ずれ量の和が最も小さい状態が平坦に最も近い位相揃い(Maximally Flat Phase Alignment)状態となり、以下ではこれをMFPA状態と称する。MFPA状態となる候補値TSCに対応する1群のピーク位相を選択する。
Next, in
一例として、N=6とすると、選択に係る1群内には図8のピーク位相φ0〜φ5にそれぞれ対応する第1〜第6のピーク位相が含まれている。選択に係る1群内の第1〜第6のピーク位相にそれぞれ一致するように図8のピーク位相φ0〜φ5を修正することにより図9に示すようにMFPA状態にあるピーク位相φ0’〜φ5’が得られる。図8のピーク位相φ0〜φ5を示す位相スペクトルデータは、修正の結果として図9のピーク位相φ0’〜φ5’を示すものとなる。 As an example, when N = 6, the first to sixth peak phases respectively corresponding to the peak phases φ 0 to φ 5 in FIG. Peak phase phi 0 in MFPA state as shown in FIG. 9 by modifying the peak phase phi 0 to [phi] 5 of FIG. 8, as each of the first to sixth peak phase within a group according to selected matches '~ Φ 5 ' is obtained. The phase spectrum data indicating the peak phases φ 0 to φ 5 in FIG. 8 indicates the peak phases φ 0 ′ to φ 5 ′ in FIG. 9 as a result of correction.
次に、図3のステップ62では、振幅スペクトルデータに関する振幅スペクトル分布配置の変更に対応して位相スペクトルデータに関して位相スペクトル分布配置を変更する。一例として、図6に関して前述したものに類似するピッチ低下処理を行なった場合には、図10に示すように図9での修正に係る位相スペクトルデータが表わす位相スペクトル分布においてスペクトル分布領域毎に各周波数をピッチ低下に対応して修正する。
Next, in
図10の例では、ピーク周波数F01,F11,F21,F31,F41,F51は、それぞれピーク周波数f0,f1,f2,f3,f4,f5を周波数軸上で低音側に移動したものであり、ピーク周波数F02,F12,F22,F32,F42,F52は、それぞれピーク周波数f0,f1,f2,f3,f4,f5をコピー処理に伴って変更したものである。ピーク周波数のf0からF01への変更に対応してピーク位相φ0’の属する位相スペクトル分布において各スペクトルビンの周波数を変更すると、ピーク周波数F01に対応する位置にピーク位相φ01’が得られる。同様にしてピーク周波数F02,F11,F12,F21,F22,F31,F32,F41,F42,F51,F52にそれぞれ対応する位置にピーク位相φ02’,φ11’,φ12’, φ21’,φ22’,φ31’,φ32’,φ41’,φ42’,φ51’,φ52’が得られる。なお、音色変更処理において、ピーク周波数F02,F12,F22,F32,F42,F52を設定しなかった場合には、ピーク位相φ02’,φ12’,φ22’,φ32’,φ42’,φ52’は存在しない。 In the example of FIG. 10, the peak frequencies F 01 , F 11 , F 21 , F 31 , F 41 , and F 51 have peak frequencies f 0 , f 1 , f 2 , f 3 , f 4 , and f 5 as frequency axes, respectively. The peak frequencies F 02 , F 12 , F 22 , F 32 , F 42 , and F 52 are peak frequencies f 0 , f 1 , f 2 , f 3 , f 4 , it is modified with a f 5 to the copy process. When the frequency of each spectrum bin is changed in the phase spectrum distribution to which the peak phase φ 0 ′ belongs in response to the change of the peak frequency from f 0 to F 01 , the peak phase φ 01 ′ is at the position corresponding to the peak frequency F 01. can get. Similarly, peak phases φ 02 ′, φ are respectively located at positions corresponding to the peak frequencies F 02 , F 11 , F 12 , F 21 , F 22 , F 31 , F 32 , F 41 , F 42 , F 51 , F 52. 11 ', φ 12', φ 21 ', φ 22', φ 31 ', φ 32', φ 41 ', φ 42', φ 51 ', φ 52' is obtained. If the peak frequencies F 02 , F 12 , F 22 , F 32 , F 42 , and F 52 are not set in the timbre change process, the peak phases φ 02 ′, φ 12 ′, φ 22 ′, φ 32 ', φ 42', φ 52 ' does not exist.
次に、図3のステップ64では、位相スペクトルデータに関してピッチ変更に伴う位相変更量を考慮して位相揃え前の基音のピーク位相へのタイムシフト量を求め、求めたタイムシフト量に応じて各ピーク位相を修正する。このときのタイムシフトは、位相揃えのためのタイムシフトを元へ戻すために行なわれるものである。このときのタイムシフト量TSは、次の数4の式に従って求めることができる。
Next, in
ここで、φ0は位相揃え前の基音のピーク位相(図8参照)、Δφ0はピッチ変更に伴う位相変更量であって数1の式により求められるもの、φ0’は位相揃え後の基音のピーク位相(図9参照)、Tはピッチ変更比をそれぞれ表わす。タイムシフト量TSを求めた後は、タイムシフト量TSに応じて位相変更量ΔφPをΔφP=2πfP×TSなる式により求め、求めた位相変更量ΔφPを図10の各ピーク位相に加えて図11の新たなピーク位相を算出する。ここで、fPは、ピッチ変更後のF01等のピーク周波数を示す。例えば、ピーク周波数F01に対応するピーク位相φ01は、Δφ01=2πF01×TSなる式によりΔφ01を求めた後、図10のφ01’にΔφ01を加えることにより求められる。同様にして、ピーク周波数F02,F11,F12,F21,F22,F31,F32,F41,F42,F51,F52にそれぞれ対応するピーク位相φ02,φ11,φ12,φ21,φ22,φ31,φ32,φ41,φ42,φ51,φ52が求められる。図11には、図10の各ピーク位相をタイムシフト量TSに応じて修正した結果が示されている。
Here, φ 0 is the peak phase of the fundamental tone before phase alignment (see FIG. 8), Δφ 0 is the phase change amount associated with the pitch change, and is obtained by the equation (1), and φ 0 ′ is after phase alignment. The peak phase of the fundamental tone (see FIG. 9) and T represent the pitch change ratio. After obtaining the time shift amount TS, the phase change amount Δφ P is obtained according to the expression Δφ P = 2πf P × TS according to the time shift amount TS, and the obtained phase change amount Δφ P is set to each peak phase in FIG. In addition, the new peak phase of FIG. 11 is calculated. Here, f P indicates a peak frequency such as F 01 after the pitch change. For example, the peak phase φ 01 corresponding to the peak frequency F 01 can be obtained by obtaining Δφ 01 by the equation Δφ 01 = 2πF 01 × TS and then adding Δφ 01 to φ 01 ′ in FIG. Similarly, the peak phases φ 02 , φ 11 , and F 52 corresponding to the peak frequencies F 02 , F 11 , F 12 , F 21 , F 22 , F 31 , F 32 , F 41 , F 42 , F 51 , F 52 , respectively. φ 12, φ 21, φ 22 ,
ここまでの位相修正は、ピーク位相を対象としているので、各スペクトル分布領域毎にピーク位相以外の位相を修正する必要がある。そこで、図3のステップ66では、位相スペクトルデータに関してピーク位相以外のスペクトルビンの位相をピーク位相の変更量に対応して修正する。例えば、ピーク位相φ01の属する位相スペクトル分布では、図8のφ0から図9のφ0’へのピーク位相変更量と、図10のφ01’(図9のφ0’と同じ)から図11のφ01へのピーク位相変更量との和に対応してピーク位相φ01以外の各スペクトルビンの位相を修正する。同様にして、ピーク位相φ02,φ11,φ12,φ21,φ22,φ31,φ32,φ41,φ42,φ51,φ52がそれぞれ属する位相スペクトル分布においてもピーク位相以外の位相をピーク位相の変更量に対応して修正する。
Since the phase correction up to this point is for the peak phase, it is necessary to correct a phase other than the peak phase for each spectrum distribution region. Therefore, in
図8〜11に関して上記した位相揃え処理によれば、図8に示すように不揃いであったピーク位相を図9に示すようにMFPA状態となるように計算により修正したので、図11に示す位相スペクトルデータを音声信号発生に用いると、発生される音声信号の波形は、声帯振動開始位置にてピーク位相が揃うという自然な音声波形の特徴を有するものとなり、自然な音質の出力音を得ることができる。 According to the phase alignment process described above with reference to FIGS. 8 to 11, the peak phase that was not uniform as shown in FIG. 8 is corrected by calculation so as to be in the MFPA state as shown in FIG. When spectrum data is used for voice signal generation, the waveform of the generated voice signal has the characteristics of a natural voice waveform in which the peak phases are aligned at the vocal cord vibration start position, and an output sound with natural sound quality is obtained. Can do.
図3のステップ68では、ピッチ上昇した振幅スペクトルデータに関してスペクトル欠如領域にノイズ成分としてのスペクトルビンを付加する。ステップ68の処理は、ステップ54においてピッチ変更処理としてピッチ上昇処理を行なった場合にのみ行なわれるもので、図6に関して前述したようなピッチ低下処理を行なった場合には行なわれない。
In
図12は、スペクトル付加処理の一例を示すもので、図5と同様の部分には同様の符号を付してある。図12(A)には、図5(A)に示したのと同様の振幅スペクトルが示されている。ピッチ上昇処理では、領域R0,R1の振幅スペクトル分布を図12(B)に示すように周波数軸上で高音側に移動するので、ピークP0を有する振幅スペクトル分布の一方側及び他方側にはそれぞれスペクトル欠如領域Q1及びQ2が生ずる。スペクトル欠如領域Q2は、ピークP0を有する振幅スペクトル分布とピークP1を有する振幅スペクトル分布との間に存在する。Q1等のスペクトル欠如領域は、自然な音声の振幅スペクトル(例えば、図12(A)に示すもの)には存在しない。 FIG. 12 shows an example of the spectrum addition processing, and the same parts as those in FIG. FIG. 12A shows an amplitude spectrum similar to that shown in FIG. In the pitch increase process, the amplitude spectrum distributions of the regions R 0 and R 1 are moved to the high pitch side on the frequency axis as shown in FIG. 12B, and therefore one side and the other side of the amplitude spectrum distribution having the peak P 0. Each have a spectral lack region Q 1 and Q 2 . Spectral lack region Q 2 are present between the amplitude spectrum distribution having the amplitude spectrum distribution and a peak P 1 has a peak P 0. A spectrum lack region such as Q 1 does not exist in the amplitude spectrum of natural speech (for example, one shown in FIG. 12A).
図12(A)に示すスペクトル分布領域R0において、ピークP0から十分に離れた(例えば55Hz以上離れた)領域K11,K12は、いずれもメインローブから離れた残差成分を含むノイズ成分領域である。また、スペクトル分布領域R1においても、ピークP1から十分に離れた領域K21,K22は、いずれもノイズ成分領域である。ステップ68では、図12に示すように、スペクトル欠如領域Q1と周波数帯域が一致するノイズ成分領域k1(領域K11の一部)からスペクトルビンをコピーしてスペクトル欠如領域Q1に付加するように振幅スペクトルデータを修正すると共に、スペクトル欠如領域Q2と周波数帯域が一致するノイズ成分領域k2(領域K21の一部)からスペクトルビンをコピーしてスペクトル欠如領域Q2に付加するように振幅スペクトルデータを修正する。
In the spectrum distribution region R 0 shown in FIG. 12A, the regions K 11 and K 12 that are sufficiently separated from the peak P 0 (for example, 55 Hz or more) are both noises including residual components separated from the main lobe. It is a component area. Also in the spectrum distribution region R 1 , the regions K 21 and K 22 that are sufficiently separated from the peak P 1 are both noise component regions. In
ステップ68のスペクトル付加処理によれば、原音声の生々しさを再現することができ、出力音の音質が向上する。なお、ステップ68のスペクトル付加処理は、図5に関して前述したピッチ上昇処理を行なった場合に限らず、図13に関して前述したピッチ上昇処理を行なった場合にも行なうことができる。
According to the spectrum addition process in
ステップ70では、振幅スペクトルデータ及び位相スペクトルデータを時間領域の音声信号(ディジタル波形データ)に変換する。この変換処理は、一例としてステップ70a〜70cにより行なうことができる。すなわち、ステップ70aでは、周波数領域のフレームデータ(振幅スペクトルデータ及び位相スペクトルデータ)に逆FFT処理を施して時間領域の音声信号を得る。そして、ステップ70bでは、時間領域の音声信号に窓掛け処理を施す。この処理は、時間領域の音声信号に時間窓関数を乗算するものである。ステップ70cでは、時間領域の音声信号にオーバーラップ処理を施す。この処理は、順次のフレームについて波形をオーバーラップさせながら時間領域の音声信号を接続するものである。
In
ステップ72では、音声信号をD/A変換部26に出力する。この結果、サウンドシステム32からピッチ変換に係る音声が発生される。
In
この発明は、上記した実施形態に限定されるものではなく、種々の改変形態で実施可能なものである。例えば、次のような変更が可能である。 The present invention is not limited to the above-described embodiment, and can be implemented in various modifications. For example, the following changes are possible.
(1)上記した実施形態では、入力部18から入力した音声信号をディジタル波形データに変換してピッチ変換を行なうようにしたが、原音声の音声波形を表わすディジタル波形データを記憶手段(ROM14,RAM16又は外部記憶装置22等)に記憶しておき、入力部20のキーボード操作等により所望のディジタル波形データを記憶手段から読出してピッチ変換を行なうようにしてもよい。また、原音声の音声波形を表わすディジタル波形データをインターフェース28又は30を介して取得してピッチ変換を行なうようにしてもよい。
(1) In the above embodiment, the voice signal input from the
(2)ステップ46,50,52でそれぞれ得られるピッチデータ、振幅スペクトルデータ,位相スペクトルデータを上記のような記憶手段に記憶しておき、入力部20のキーボード操作等により所望のピッチデータ、振幅スペクトルデータ及び位相スペクトルデータを記憶手段から読出してピッチ変換を行なうようにしてもよい。また、原波形の音声波形に対応するピッチデータ、振幅スペクトルデータ及び位相スペクトルデータをインターフェース28又は30を介して取得してピッチ変換を行なうようにしてもよい。
(2) Pitch data, amplitude spectrum data, and phase spectrum data obtained in
(3)この発明は、音声のピッチ変換に限らず、楽音のピッチ変換にも適用することができる。 (3) The present invention can be applied not only to pitch conversion of speech but also to pitch conversion of musical sounds.
10:小型コンピュータ、11:バス、12:CPU、14:ROM、16:RAM、18:音声入力部、20:制御パラメータ入力部、22:外部記憶装置、24:表示部、26:D/A変換部、28:MIDIインターフェース、30:通信インターフェース、32:サウンドシステム、34:MIDI機器、36:通信ネットワーク、38:他のコンピュータ。 10: small computer, 11: bus, 12: CPU, 14: ROM, 16: RAM, 18: voice input unit, 20: control parameter input unit, 22: external storage device, 24: display unit, 26: D / A Conversion unit, 28: MIDI interface, 30: communication interface, 32: sound system, 34: MIDI device, 36: communication network, 38: other computer.
Claims (6)
前記原音の音波形に周波数分析処理を施して得られた振幅スペクトルに基づいてスペクトル強度の複数の局所的ピークのうち各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域における振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成すると共に、前記周波数分析処理により得られた位相スペクトルに基づいて前記スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成する生成手段と、
前記振幅スペクトルデータが表わす振幅スペクトル分布を前記スペクトル分布領域毎に前記ピッチ情報に応じて周波数軸上で移動させることにより前記振幅スペクトルデータを修正する第1の修正手段と、
前記第1の修正手段での修正に係る振幅スペクトルデータが表わす振幅スペクトル分布において少なくとも1つの局所的ピークに対応するピーク周波数の一方側に所望のピーク周波数を設定する設定手段と、
前記第1の修正手段での修正に係る振幅スペクトルデータが表わす振幅スペクトル分布における複数の局所的ピークにそれぞれ対応するピーク周波数と前記設定手段での設定に係るピーク周波数とにそれぞれ対応してスペクトルエンベロープを形成すべきエンベロープ値を指示する指示手段と、
前記設定に係るピーク周波数に対応して前記指示手段により指示されたエンベロープ値に最も近い局所的ピークのスペクトル強度を有するスペクトル分布領域を前記生成手段での生成に係る振幅スペクトルデータの示すスペクトル分布領域において前記設定に係るピーク周波数と所定の近似関係にあるピーク周波数を有するスペクトル分布領域のうちから選択する選択手段と、
前記選択手段での選択に係るスペクトル分布領域の振幅スペクトルデータ及び位相スペクトルデータを前記生成手段での生成に係る振幅スペクトルデータ及び位相スペクトルデータのうちからコピーする第1のコピー手段と、
前記第1のコピー手段でのコピーに係る振幅スペクトルデータが表わす振幅スペクトル分布においてピーク周波数を前記設定に応じて該振幅スペクトル分布を周波数軸上で移動させることにより前記コピーに係る振幅スペクトルデータを修正する第2の修正手段と、
前記第1の修正手段での修正に係る振幅スペクトルデータが表わす振幅スペクトル分布において各振幅スペクトル分布毎に局所的ピークのスペクトル強度を前記指示手段で該局所的ピークに対応するピーク周波数に対応して指示されたエンベロープ値に合わせるように各スペクトルビンのスペクトル強度を修正すると共に、前記第2の修正手段での修正に係る振幅スペクトルデータが表わす振幅スペクトル分布において局所的ピークのスペクトル強度を前記指示手段で前記設定に係るピーク周波数に対応して指示されたエンベロープ値に合わせるように各スペクトルビンのスペクトル強度を修正する第3の修正手段と、
前記生成手段での生成に係る位相スペクトルデータが表わす位相スペクトル分布を前記第1の修正手段でのピッチ変更に対応して前記スペクトル分布領域毎に修正すると共に、前記第1のコピー手段でのコピーに係る位相スペクトルデータが表わす位相スペクトル分布を前記第2の修正手段での周波数変更に対応して修正する第4の修正手段と、
前記第1〜第3の修正手段での修正に係る振幅スペクトルデータと、前記第4の修正手段での修正に係る位相スペクトルデータとを時間領域の音信号に変換する変換手段と
を備えたピッチ変換装置。 Input means for inputting pitch information indicating a pitch different from the original sound;
Spectral distribution including a local peak and a spectrum before and after each local peak among a plurality of local peaks of spectral intensity based on an amplitude spectrum obtained by subjecting the sound waveform of the original sound to frequency analysis processing Generates amplitude spectrum data representing the amplitude spectrum distribution in the region with respect to the frequency axis, and generates phase spectrum data representing the phase spectrum distribution with respect to the frequency axis for each spectrum distribution region based on the phase spectrum obtained by the frequency analysis processing. Generating means for
First correcting means for correcting the amplitude spectrum data by moving the amplitude spectrum distribution represented by the amplitude spectrum data on the frequency axis according to the pitch information for each spectrum distribution region;
Setting means for setting a desired peak frequency on one side of the peak frequency corresponding to at least one local peak in the amplitude spectrum distribution represented by the amplitude spectrum data related to the correction by the first correction means;
Spectral envelopes corresponding to the peak frequencies respectively corresponding to a plurality of local peaks in the amplitude spectrum distribution represented by the amplitude spectrum data related to the correction by the first correction means and the peak frequencies related to the setting by the setting means Indicating means for indicating an envelope value to form
A spectrum distribution region having a spectrum distribution region having a spectral intensity of a local peak closest to the envelope value instructed by the instruction unit corresponding to the peak frequency related to the setting is indicated by the amplitude spectrum data related to generation by the generation unit Selecting means for selecting from among spectrum distribution regions having a peak frequency in a predetermined approximate relationship with the peak frequency related to the setting in
A first copy means for copying the amplitude spectrum data and phase spectrum data of the spectrum distribution region related to the selection by the selection means from the amplitude spectrum data and the phase spectrum data related to the generation by the generation means;
The amplitude spectrum data related to the copy is corrected by moving the amplitude spectrum distribution on the frequency axis according to the setting in the amplitude spectrum distribution represented by the amplitude spectrum data related to the copy by the first copying means. Second correcting means for
In the amplitude spectrum distribution represented by the amplitude spectrum data related to the correction by the first correction means, the spectrum intensity of the local peak for each amplitude spectrum distribution is associated with the peak frequency corresponding to the local peak by the indicating means. The spectral intensity of each spectral bin is corrected to match the indicated envelope value, and the spectral intensity of the local peak in the amplitude spectral distribution represented by the amplitude spectral data related to the correction by the second correcting means is indicated by the indicating means. A third correcting means for correcting the spectral intensity of each spectral bin so as to match the envelope value indicated corresponding to the peak frequency according to the setting;
The phase spectrum distribution represented by the phase spectrum data related to the generation by the generation means is corrected for each spectrum distribution region corresponding to the pitch change by the first correction means, and is copied by the first copy means. Fourth correcting means for correcting the phase spectrum distribution represented by the phase spectrum data according to the frequency change in the second correcting means;
A pitch provided with conversion means for converting amplitude spectrum data related to the correction by the first to third correction means and phase spectrum data related to the correction by the fourth correction means into a sound signal in the time domain. Conversion device.
原音とは異なるピッチを指示するピッチ情報を入力する入力手段と、
前記原音の音波形に周波数分析処理を施して得られた振幅スペクトルに基づいてスペクトル強度の複数の局所的ピークのうち各局所的ピーク毎に該局所的ピークとその前後のスペクトルとを含むスペクトル分布領域における振幅スペクトル分布を周波数軸に関して表わす振幅スペクトルデータを生成すると共に、前記周波数分析処理により得られた位相スペクトルに基づいて前記スペクトル分布領域毎に位相スペクトル分布を周波数軸に関して表わす位相スペクトルデータを生成する生成手段と、
前記振幅スペクトルデータが表わす振幅スペクトル分布を前記スペクトル分布領域毎に前記ピッチ情報に応じて周波数軸上で移動させることにより前記振幅スペクトルデータを修正する第1の修正手段と、
前記第1の修正手段での修正に係る振幅スペクトルデータが表わす振幅スペクトル分布において少なくとも1つの局所的ピークに対応するピーク周波数の一方側に所望のピーク周波数を設定する設定手段と、
前記第1の修正手段での修正に係る振幅スペクトルデータが表わす振幅スペクトル分布における複数の局所的ピークにそれぞれ対応するピーク周波数と前記設定手段での設定に係るピーク周波数とにそれぞれ対応してスペクトルエンベロープを形成すべきエンベロープ値を指示する指示手段と、
前記設定に係るピーク周波数に対応して前記指示手段により指示されたエンベロープ値に最も近い局所的ピークのスペクトル強度を有するスペクトル分布領域を前記生成手段での生成に係る振幅スペクトルデータの示すスペクトル分布領域において前記設定に係るピーク周波数と所定の近似関係にあるピーク周波数を有するスペクトル分布領域のうちから選択する選択手段と、
前記選択手段での選択に係るスペクトル分布領域の振幅スペクトルデータ及び位相スペクトルデータを前記生成手段での生成に係る振幅スペクトルデータ及び位相スペクトルデータのうちからコピーする第1のコピー手段と、
前記第1のコピー手段でのコピーに係る振幅スペクトルデータが表わす振幅スペクトル分布においてピーク周波数を前記設定に応じて該振幅スペクトル分布を周波数軸上で移動させることにより前記コピーに係る振幅スペクトルデータを修正する第2の修正手段と、
前記第1の修正手段での修正に係る振幅スペクトルデータが表わす振幅スペクトル分布において各振幅スペクトル分布毎に局所的ピークのスペクトル強度を前記指示手段で該局所的ピークに対応するピーク周波数に対応して指示されたエンベロープ値に合わせるように各スペクトルビンのスペクトル強度を修正すると共に、前記第2の修正手段での修正に係る振幅スペクトルデータが表わす振幅スペクトル分布において局所的ピークのスペクトル強度を前記指示手段で前記設定に係るピーク周波数に対応して指示されたエンベロープ値に合わせるように各スペクトルビンのスペクトル強度を修正する第3の修正手段と、
前記生成手段での生成に係る位相スペクトルデータが表わす位相スペクトル分布を前記第1の修正手段でのピッチ変更に対応して前記スペクトル分布領域毎に修正すると共に、前記第1のコピー手段でのコピーに係る位相スペクトルデータが表わす位相スペクトル分布を前記第2の修正手段での周波数変更に対応して修正する第4の修正手段と、
前記第1〜第3の修正手段での修正に係る振幅スペクトルデータと、前記第4の修正手段での修正に係る位相スペクトルデータとを時間領域の音信号に変換する変換手段と
して機能させるプログラム。 A program used in a pitch conversion device including a computer, the computer being
Input means for inputting pitch information indicating a pitch different from the original sound;
Spectral distribution including a local peak and a spectrum before and after each local peak among a plurality of local peaks of spectral intensity based on an amplitude spectrum obtained by subjecting the sound waveform of the original sound to frequency analysis processing Generates amplitude spectrum data representing the amplitude spectrum distribution in the region with respect to the frequency axis, and generates phase spectrum data representing the phase spectrum distribution with respect to the frequency axis for each spectrum distribution region based on the phase spectrum obtained by the frequency analysis processing. Generating means for
First correcting means for correcting the amplitude spectrum data by moving the amplitude spectrum distribution represented by the amplitude spectrum data on the frequency axis according to the pitch information for each spectrum distribution region;
Setting means for setting a desired peak frequency on one side of the peak frequency corresponding to at least one local peak in the amplitude spectrum distribution represented by the amplitude spectrum data related to the correction by the first correction means;
Spectral envelopes corresponding to the peak frequencies respectively corresponding to a plurality of local peaks in the amplitude spectrum distribution represented by the amplitude spectrum data related to the correction by the first correction means and the peak frequencies related to the setting by the setting means Indicating means for indicating an envelope value to form
A spectrum distribution region having a spectrum distribution region having a spectral intensity of a local peak closest to the envelope value instructed by the instruction unit corresponding to the peak frequency related to the setting is indicated by the amplitude spectrum data related to generation by the generation unit Selecting means for selecting from among spectrum distribution regions having a peak frequency in a predetermined approximate relationship with the peak frequency related to the setting in
A first copy means for copying the amplitude spectrum data and phase spectrum data of the spectrum distribution region related to the selection by the selection means from the amplitude spectrum data and the phase spectrum data related to the generation by the generation means;
The amplitude spectrum data related to the copy is corrected by moving the amplitude spectrum distribution on the frequency axis according to the setting in the amplitude spectrum distribution represented by the amplitude spectrum data related to the copy by the first copying means. Second correcting means for
In the amplitude spectrum distribution represented by the amplitude spectrum data related to the correction by the first correction means, the spectrum intensity of the local peak for each amplitude spectrum distribution is associated with the peak frequency corresponding to the local peak by the indicating means. The spectral intensity of each spectral bin is corrected to match the indicated envelope value, and the spectral intensity of the local peak in the amplitude spectral distribution represented by the amplitude spectral data related to the correction by the second correcting means is indicated by the indicating means. A third correcting means for correcting the spectral intensity of each spectral bin so as to match the envelope value indicated corresponding to the peak frequency according to the setting;
The phase spectrum distribution represented by the phase spectrum data related to the generation by the generation means is corrected for each spectrum distribution region corresponding to the pitch change by the first correction means, and is copied by the first copy means. Fourth correcting means for correcting the phase spectrum distribution represented by the phase spectrum data according to the frequency change in the second correcting means;
A program for functioning as a conversion means for converting amplitude spectrum data related to correction by the first to third correction means and phase spectrum data related to correction by the fourth correction means into sound signals in the time domain.
前記複数の候補値にそれぞれ対応する複数群のピーク位相のうちから平坦に最も近い位相揃い状態となる候補値に対応する1群のピーク位相を選択し、選択に係る群中の基音及びn倍音のピーク位相にそれぞれ一致するように前記位相スペクトルデータ中の基音及びn倍音のピーク位相を修正する第5の修正手段と、
前記第4の修正手段に代えて、前記第5の修正手段での修正に係る位相スペクトルデータが表す位相スペクトル分布において前記スペクトル分布領域毎に各周波数を第1の修正手段でのピッチ変更に対応して修正する第6の修正手段と、
前記第6の修正手段での修正に係る位相スペクトルデータに関して前記第1の修正手段でのピッチ変更量を考慮してピッチ変更前の基音のピーク位相へのタイムシフト量を算出すると共に算出に係るタイムシフト量に応じて前記第6の修正手段での修正に係る位相スペクトルデータ中の基音及びn倍音のピーク位相を修正する第7の修正手段と、
前記第7の修正手段での修正に係る位相スペクトルデータにおいて基音に対応するスペクトル分布領域では前記第5及び第7の修正手段による基音のピーク位相の変更量に対応して基音のピーク位相以外の位相を修正すると共にn倍音に対応するスペクトル分布領域では前記第5及び第7の修正手段によるn倍音のピーク位相の変更量に対応してn倍音のピーク位相以外の位相を修正する第8の修正手段とを備え、
前記変換手段は、前記第1〜第3の修正手段での修正に係る振幅スペクトルデータと、前記第5〜第8の修正手段での修正に係る位相スペクトルデータとを時間領域の音信号に変換するものである
請求項1に記載のピッチ変換装置。 Calculating means for setting a plurality of candidate values of the time shift amount from the peak phase of the fundamental tone with respect to the phase spectrum data, and calculating the peak phase of the fundamental tone and the nth harmonic for each candidate value;
A group of peak phases corresponding to a candidate value that is closest to the flatness is selected from among a plurality of groups of peak phases respectively corresponding to the plurality of candidate values, and a fundamental tone and an nth harmonic in the selected group are selected. Fifth correcting means for correcting the peak phase of the fundamental tone and the n-th overtone in the phase spectrum data so as to coincide with the peak phase of
Instead of the fourth correction means, each phase corresponds to the pitch change in the first correction means for each spectrum distribution region in the phase spectrum distribution represented by the phase spectrum data related to the correction in the fifth correction means. And a sixth correction means for correcting
With respect to the phase spectrum data related to the correction by the sixth correction means, the time shift amount to the peak phase of the fundamental tone before the pitch change is calculated in consideration of the pitch change amount by the first correction means and Seventh correcting means for correcting the peak phase of the fundamental tone and the n-th overtone in the phase spectrum data related to the correction by the sixth correcting means according to the amount of time shift;
In the spectrum distribution region corresponding to the fundamental tone in the phase spectrum data related to the modification by the seventh modifying means, the peak phase other than the fundamental peak phase corresponds to the amount of change in the fundamental peak phase by the fifth and seventh modifying means. In the spectral distribution region corresponding to the nth harmonic, the phase other than the peak phase of the nth harmonic is corrected corresponding to the amount of change in the peak phase of the nth harmonic by the fifth and seventh correction means. Correction means,
The conversion means converts the amplitude spectrum data related to the correction by the first to third correction means and the phase spectrum data related to the correction by the fifth to eighth correction means into sound signals in the time domain. The pitch conversion device according to claim 1.
前記位相スペクトルデータに関して基音のピーク位相からのタイムシフト量の候補値を複数設定すると共に各候補値毎に基音及びn倍音のピーク位相を算出する計算手段と、
前記複数の候補値にそれぞれ対応する複数群のピーク位相のうちから平坦に最も近い位相揃い状態となる候補値に対応する1群のピーク位相を選択し、選択に係る群中の基音及びn倍音のピーク位相にそれぞれ一致するように前記位相スペクトルデータ中の基音及びn倍音のピーク位相を修正する第5の修正手段と、
前記第4の修正手段に代えて、前記第5の修正手段での修正に係る位相スペクトルデータが表す位相スペクトル分布において前記スペクトル分布領域毎に各周波数を第1の修正手段でのピッチ変更に対応して修正する第6の修正手段と、
前記第6の修正手段での修正に係る位相スペクトルデータに関して前記第1の修正手段でのピッチ変更量を考慮してピッチ変更前の基音のピーク位相へのタイムシフト量を算出すると共に算出に係るタイムシフト量に応じて前記第6の修正手段での修正に係る位相スペクトルデータ中の基音及びn倍音のピーク位相を修正する第7の修正手段と、
前記第7の修正手段での修正に係る位相スペクトルデータにおいて基音に対応するスペクトル分布領域では前記第5及び第7の修正手段による基音のピーク位相の変更量に対応して基音のピーク位相以外の位相を修正すると共にn倍音に対応するスペクトル分布領域では前記第5及び第7の修正手段によるn倍音のピーク位相の変更量に対応してn倍音のピーク位相以外の位相を修正する第8の修正手段として機能させ、
前記変換手段は、前記第1〜第3の修正手段での修正に係る振幅スペクトルデータと、前記第5〜第8の修正手段での修正に係る位相スペクトルデータとを時間領域の音信号に変換するものである
請求項2に記載のプログラム。 The computer,
Calculating means for setting a plurality of candidate values of the time shift amount from the peak phase of the fundamental tone with respect to the phase spectrum data, and calculating the peak phase of the fundamental tone and the nth harmonic for each candidate value;
A group of peak phases corresponding to a candidate value that is closest to the flatness is selected from among a plurality of groups of peak phases respectively corresponding to the plurality of candidate values, and a fundamental tone and an nth harmonic in the selected group are selected. Fifth correcting means for correcting the peak phase of the fundamental tone and the n-th overtone in the phase spectrum data so as to coincide with the peak phase of
Instead of the fourth correction means, each phase corresponds to the pitch change in the first correction means for each spectrum distribution region in the phase spectrum distribution represented by the phase spectrum data related to the correction in the fifth correction means. And a sixth correction means for correcting
With respect to the phase spectrum data related to the correction by the sixth correction means, the time shift amount to the peak phase of the fundamental tone before the pitch change is calculated in consideration of the pitch change amount by the first correction means and Seventh correcting means for correcting the peak phase of the fundamental tone and the n-th overtone in the phase spectrum data related to the correction by the sixth correcting means according to the amount of time shift;
In the spectrum distribution region corresponding to the fundamental tone in the phase spectrum data related to the modification by the seventh modifying means, the peak phase other than the fundamental peak phase corresponds to the amount of change in the fundamental peak phase by the fifth and seventh modifying means. In the spectral distribution region corresponding to the nth harmonic, the phase other than the peak phase of the nth harmonic is corrected corresponding to the amount of change in the peak phase of the nth harmonic by the fifth and seventh correction means. Function as a correction means,
The conversion means converts the amplitude spectrum data related to the correction by the first to third correction means and the phase spectrum data related to the correction by the fifth to eighth correction means into sound signals in the time domain. The program according to claim 2.
前記第2のコピー手段でのコピーに係るスペクトルビンを前記スペクトル欠如領域に付加するように前記修正に係る振幅スペクトルデータのうち前記少なくとも1つの振幅スペクトル分布を表わす振幅スペクトルデータを修正する第5の修正手段とを備え、
前記変換手段は、前記第1〜第3、および第5の修正手段での修正に係る振幅スペクトルデータと、前記第4の修正手段での修正に係る位相スペクトルデータとを時間領域の音信号に変換するものである
請求項1に記載のピッチ変換装置。 At least one amplitude spectrum of the amplitude spectrum distribution represented by the amplitude spectrum data related to the correction by the first correction means, which is a noise component area within the spectrum distribution area indicated by the amplitude spectrum data generated by the generation means. A second copy means for copying a spectrum bin from a noise component region whose frequency band coincides with a spectrum lack region generated on one side of the distribution;
A fifth correction of amplitude spectrum data representing the at least one amplitude spectrum distribution among the amplitude spectrum data related to the correction so as to add a spectrum bin related to the copy by the second copy means to the spectrum absence region. Correction means,
The conversion means converts the amplitude spectrum data related to the correction by the first to third and fifth correction means and the phase spectrum data related to the correction by the fourth correction means into a sound signal in the time domain. The pitch conversion device according to claim 1, wherein the pitch conversion device converts the pitch.
前記生成手段での生成に係る振幅スペクトルデータの示すスペクトル分布領域内のノイズ成分領域であって前記第1の修正手段での修正に係る振幅スペクトルデータが表わす振幅スペクトル分布のうち少なくとも1つの振幅スペクトル分布の一方側に生じたスペクトル欠如領域と周波数帯域が一致するノイズ成分領域からスペクトルビンをコピーする第2のコピー手段と、
前記第2のコピー手段でのコピーに係るスペクトルビンを前記スペクトル欠如領域に付加するように前記修正に係る振幅スペクトルデータのうち前記少なくとも1つの振幅スペクトル分布を表わす振幅スペクトルデータを修正する第5の修正手段として機能させ、
前記変換手段は、前記第1〜第3、および第5の修正手段での修正に係る振幅スペクトルデータと、前記第4の修正手段での修正に係る位相スペクトルデータとを時間領域の音信号に変換するものである
請求項2に記載のプログラム。
The computer,
At least one amplitude spectrum of the amplitude spectrum distribution represented by the amplitude spectrum data related to the correction by the first correction means, which is a noise component area within the spectrum distribution area indicated by the amplitude spectrum data generated by the generation means. A second copy means for copying a spectrum bin from a noise component region whose frequency band coincides with a spectrum lack region generated on one side of the distribution;
A fifth correction of amplitude spectrum data representing the at least one amplitude spectrum distribution among the amplitude spectrum data related to the correction so as to add a spectrum bin related to the copy by the second copy means to the spectrum absence region. Function as a correction means,
The conversion means converts the amplitude spectrum data related to the correction by the first to third and fifth correction means and the phase spectrum data related to the correction by the fourth correction means into a sound signal in the time domain. The program according to claim 2, which is to be converted.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007268394A JP4428435B2 (en) | 2007-10-15 | 2007-10-15 | Pitch converter and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007268394A JP4428435B2 (en) | 2007-10-15 | 2007-10-15 | Pitch converter and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004244693A Division JP4089665B2 (en) | 2004-08-25 | 2004-08-25 | Pitch converter and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008058986A JP2008058986A (en) | 2008-03-13 |
JP4428435B2 true JP4428435B2 (en) | 2010-03-10 |
Family
ID=39241694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007268394A Expired - Fee Related JP4428435B2 (en) | 2007-10-15 | 2007-10-15 | Pitch converter and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4428435B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5772739B2 (en) * | 2012-06-21 | 2015-09-02 | ヤマハ株式会社 | Audio processing device |
JP6131574B2 (en) * | 2012-11-15 | 2017-05-24 | 富士通株式会社 | Audio signal processing apparatus, method, and program |
-
2007
- 2007-10-15 JP JP2007268394A patent/JP4428435B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008058986A (en) | 2008-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3815347B2 (en) | Singing synthesis method and apparatus, and recording medium | |
JP4207902B2 (en) | Speech synthesis apparatus and program | |
WO2018084305A1 (en) | Voice synthesis method | |
WO2018003849A1 (en) | Voice synthesizing device and voice synthesizing method | |
WO2020095951A1 (en) | Acoustic processing method and acoustic processing system | |
KR100457414B1 (en) | Speech synthesis method, speech synthesizer and recording medium | |
JP2018077283A (en) | Speech synthesis method | |
JP4428435B2 (en) | Pitch converter and program | |
JP2007316269A (en) | Musical sound synthesizer and program | |
JP4089665B2 (en) | Pitch converter and program | |
JP2004021027A (en) | Method and device for playing sound control | |
WO2018055892A1 (en) | Sound source for electronic percussion instrument | |
JP3540159B2 (en) | Voice conversion device and voice conversion method | |
JP4433734B2 (en) | Speech analysis / synthesis apparatus, speech analysis apparatus, and program | |
JP6834370B2 (en) | Speech synthesis method | |
JP5251381B2 (en) | Sound processing apparatus and program | |
JP5102939B2 (en) | Speech synthesis apparatus and speech synthesis program | |
JP6028844B2 (en) | Musical sound synthesizer and program | |
JP2011090189A (en) | Method and device for encoding acoustic signal | |
JP2018077280A (en) | Speech synthesis method | |
JP3979213B2 (en) | Singing synthesis device, singing synthesis method and singing synthesis program | |
JP2010002937A (en) | Speech analysis and synthesis device, speed analyzer, speech synthesizer, and program | |
JP6822075B2 (en) | Speech synthesis method | |
JP5533021B2 (en) | Method and apparatus for encoding acoustic signal | |
JP3907838B2 (en) | Voice conversion device and voice conversion method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091124 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121225 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4428435 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091207 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131225 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |