JP2000010598A - Speech transforming device and method therefor - Google Patents

Speech transforming device and method therefor

Info

Publication number
JP2000010598A
JP2000010598A JP10171912A JP17191298A JP2000010598A JP 2000010598 A JP2000010598 A JP 2000010598A JP 10171912 A JP10171912 A JP 10171912A JP 17191298 A JP17191298 A JP 17191298A JP 2000010598 A JP2000010598 A JP 2000010598A
Authority
JP
Japan
Prior art keywords
target
spectral shape
sine wave
wave component
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10171912A
Other languages
Japanese (ja)
Other versions
JP3540160B2 (en
Inventor
Tatsuji Nakagawa
竜児 中川
Sera Xavier
セラ ザビエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP17191298A priority Critical patent/JP3540160B2/en
Publication of JP2000010598A publication Critical patent/JP2000010598A/en
Application granted granted Critical
Publication of JP3540160B2 publication Critical patent/JP3540160B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

PROBLEM TO BE SOLVED: To easily obtain natural acoustic feeling of speech at the time of transforming speech by providing this device with a means for generating a deformed spectral shape and a sine wave component information generating means for generating sine wave component information based on the deformed spectral shape. SOLUTION: A spectral shape extracting means extracts a spectral shape on the frequency axis from an input speech signal. A deformed spectral shape generating means 23 calculates a constant αbased on the pitch of the input speech signal and that of a target speech signal, and generates the deformed spectral shape by shifting the spectral shape α times in the direction of the frequency axis. A sine wave component information generating part 26 generates sine wave component information based on the frequency components contained in the sine wave components extracted from the target speech signal and the deformed spectral shape. And, a transformed speech signal is generated based on the sine wave component information and outputted.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、入力音声を他の
音声に変換して出力する音声変換装置及び音声変換方法
に係り、特にカラオケ装置に用いるのに好適な音声変換
装置及び音声変換方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice conversion apparatus and a voice conversion method for converting an input voice into another voice and outputting the same, and more particularly to a voice conversion apparatus and a voice conversion method suitable for use in a karaoke apparatus. .

【0002】[0002]

【従来の技術】入力された音声の周波数特性などを変え
て出力する音声変換装置は種々開発されており、例え
ば、カラオケ装置の中には、歌い手の歌った歌声のピッ
チを変換して、男性の声を女性の声に、あるいはその逆
に変換させるものがある(例えば、特表平8−5085
81号公報参照)。
2. Description of the Related Art There have been developed various voice converters for changing the frequency characteristics and the like of an input voice and outputting the converted voice. For example, some karaoke devices convert the pitch of a singer's singing voice into a male voice. To convert a female voice into a female voice or vice versa (for example, Japanese Translation of International Patent Publication No. Hei 8-5085).
No. 81).

【0003】[0003]

【発明が解決しようとする課題】しかしながら、従来の
音声変換装置においては、単に歌声のピッチを変換して
いるだけであるため、聴感上自然な音声が得られないと
いう問題点があった。そこで、本発明の目的は、音声変
換を行うに際し、聴感上自然な音声を容易に得ることが
可能な音声変換装置及び音声変換方法を提供することに
ある。
However, in the conventional voice converter, since the pitch of the singing voice is simply converted, there is a problem that a natural sound cannot be obtained in terms of audibility. Therefore, an object of the present invention is to provide a voice conversion device and a voice conversion method capable of easily obtaining a natural sound in audibility when performing voice conversion.

【0004】[0004]

【課題を解決するための手段】上記課題を解決するた
め、請求項1記載の構成は、入力音声信号から周波数軸
上におけるスペクトラル・シェイプを抽出するスペクト
ラルシェイプ抽出手段と、前記入力音声信号のピッチ及
びターゲット音声信号のピッチに基づいて定数αを算出
し、前記スペクトラル・シェイプを周波数軸方向にα倍
シフトすることにより変形スペクトラル・シェイプを生
成するスペクトラル・シェイプ変形手段と、前記ターゲ
ット音声信号から抽出した正弦波成分に含まれる周波数
成分及び前記変形スペクトラル・シェイプに基づいて正
弦波成分情報を生成する正弦波成分情報生成手段と、前
記正弦波成分情報に基づいて変換音声信号を生成し、出
力する音声生成手段と、を備えたことを特徴としてい
る。
In order to solve the above-mentioned problems, a configuration according to claim 1 comprises a spectral shape extracting means for extracting a spectral shape on a frequency axis from an input audio signal, and a pitch of the input audio signal. And a constant α based on the pitch of the target audio signal, and a spectral shape deforming means for generating a modified spectral shape by shifting the spectral shape by α times in the frequency axis direction, and extracting from the target audio signal. A sine wave component information generating means for generating sine wave component information based on the frequency component included in the obtained sine wave component and the deformed spectral shape, and generating and outputting a converted audio signal based on the sine wave component information Voice generating means.

【0005】請求項2記載の構成は、入力音声信号の正
弦波成分を抽出する正弦波成分抽出手段と、前記入力音
声信号のピッチ及びターゲット音声信号のピッチに基づ
いて定数αを算出し、前記ターゲット音声信号から予め
抽出した周波数軸上におけるターゲットスペクトラル・
シェイプを周波数軸方向にα倍シフトすることにより変
形ターゲットスペクトラル・シェイプを生成するターゲ
ットスペクトラル・シェイプ変形手段と、前記正弦波成
分に含まれる周波数成分及び前記変形ターゲットスペク
トラル・シェイプに基づいて正弦波成分情報を生成する
正弦波成分情報生成手段と、前記正弦波成分情報に基づ
いて変換音声信号を生成し、出力する音声生成手段と、
を備えたことを特徴としている。
According to a second aspect of the present invention, there is provided a sine wave component extracting means for extracting a sine wave component of an input audio signal, and a constant α is calculated based on a pitch of the input audio signal and a pitch of a target audio signal. The target spectrum on the frequency axis extracted in advance from the target audio signal
Target spectral shape deforming means for generating a deformed target spectral shape by shifting the shape by α times in the frequency axis direction, and a sine wave component based on the frequency component included in the sine wave component and the deformed target spectral shape A sine wave component information generating means for generating information; a sound generating means for generating and outputting a converted sound signal based on the sine wave component information;
It is characterized by having.

【0006】請求項3記載の構成は、請求項1または請
求項2に記載の構成において、予め定めたシフト係数を
βとし、前記入力音声信号のピッチをforgとし、前記
ターゲット音声信号のピッチftarとした場合に、前記
αを次式により算出することを特徴としている。 α=βk ただし、k=log2(forg/ftar)
According to a third aspect of the present invention, in the configuration of the first or second aspect, a predetermined shift coefficient is β, a pitch of the input audio signal is forg, and a pitch of the target audio signal is ftar. Where α is calculated by the following equation. α = βk where k = log2 (forg / ftar)

【0007】請求項4記載の構成は、入力音声から周波
数軸上におけるスペクトラル・シェイプを抽出するスペ
クトラルシェイプ抽出工程と、前記入力音声のピッチ及
びターゲット音声のピッチに基づいて定数αを算出し、
前記スペクトラル・シェイプを周波数軸方向にα倍シフ
トすることにより変形スペクトラル・シェイプを生成す
るスペクトラル・シェイプ変形工程と、前記ターゲット
音声から抽出した正弦波成分に含まれる周波数成分及び
前記変形スペクトラル・シェイプに基づいて正弦波成分
情報を生成する正弦波成分情報生成工程と、前記正弦波
成分情報に基づいて変換音声を生成する音声生成工程
と、を備えたことを特徴としている。
According to a fourth aspect of the present invention, there is provided a spectral shape extracting step of extracting a spectral shape on a frequency axis from an input voice, and calculating a constant α based on a pitch of the input voice and a pitch of a target voice.
A spectral shape transformation step of generating a modified spectral shape by shifting the spectral shape by α times in the frequency axis direction, and a frequency component included in a sine wave component extracted from the target sound and the modified spectral shape. A sine wave component information generating step of generating sine wave component information based on the sine wave component information; and a voice generating step of generating a converted voice based on the sine wave component information.

【0008】請求項5記載の構成は、入力音声の正弦波
成分を抽出する正弦波成分抽出工程と、前記入力音声の
ピッチ及びターゲット音声のピッチに基づいて定数αを
算出し、前記ターゲット音声から予め抽出した周波数軸
上におけるターゲットスペクトラル・シェイプを周波数
軸方向にα倍シフトすることにより変形ターゲットスペ
クトラル・シェイプを生成するターゲットスペクトラル
・シェイプ変形工程と、前記正弦波成分に含まれる周波
数成分及び前記変形ターゲットスペクトラル・シェイプ
に基づいて正弦波成分情報を生成する正弦波成分情報生
成工程と、前記正弦波成分情報に基づいて変換音声を生
成する音声生成工程と、を備えたことを特徴としてい
る。
According to a fifth aspect of the present invention, there is provided a sine wave component extracting step of extracting a sine wave component of an input voice, calculating a constant α based on a pitch of the input voice and a pitch of the target voice, and calculating a constant α from the target voice. A target spectral shape deforming step of generating a deformed target spectral shape by shifting the target spectral shape on the frequency axis extracted in advance in the frequency axis direction by α times, the frequency component included in the sine wave component and the deformation A sine wave component information generating step of generating sine wave component information based on the target spectral shape, and a voice generating step of generating a converted voice based on the sine wave component information are provided.

【0009】請求項6記載の構成は、請求項4または請
求項5に記載の構成において、予め定めたシフト係数を
βとし、前記入力音声信号のピッチをforgとし、前記
ターゲット音声信号のピッチftarとした場合に、前記
αを次式により算出することを特徴としている。 α=βk ただし、k=log2(forg/ftar)
According to a sixth aspect of the present invention, in the configuration of the fourth or fifth aspect, the predetermined shift coefficient is β, the pitch of the input audio signal is forg, and the pitch of the target audio signal is ftar. Where α is calculated by the following equation. α = βk where k = log2 (forg / ftar)

【0010】[0010]

【発明の実施の形態】次に図面を参照して本発明の好適
な実施形態について説明する。 [1] 実施形態の概要処理 始めに、実施形態の概要処理について説明する。 [1.1] ステップS1 まず、歌唱者(以下、元歌唱者(me)という)の音声
(入力音声信号)をリアルタイムでFFT(Fast Fouri
e Transform)を含むSMS(Spectral ModelingSynthe
sis)分析を行い、フレーム単位で正弦波成分(Sine成
分)を抽出するとともに、入力音声信号及び正弦波成分
からフレーム単位で残差成分(Residual成分)を生成す
る。これと並行して入力音声信号が無声音(含む無音)
か否かを判別し、無声音である場合には、以下のステッ
プS2〜ステップS6の処理は行わず、入力音声信号を
そのまま出力することとなる。この場合において、SM
S分析としては、前回のフレームにおけるピッチに応じ
て分析窓幅を変更するピッチ同期分析を採用している。
Preferred embodiments of the present invention will now be described with reference to the drawings. [1] Outline Processing of Embodiment First, outline processing of the embodiment will be described. [1.1] Step S1 First, a voice (input voice signal) of a singer (hereinafter, referred to as a former singer (me)) is subjected to FFT (Fast Fouri
SMS (Spectral Modeling Synthe
sis) analysis to extract a sine wave component (Sine component) in frame units and generate a residual component (Residual component) in frame units from the input audio signal and the sine wave component. In parallel with this, the input audio signal is unvoiced (including silence)
It is determined whether or not the input voice signal is unvoiced. If the voice is unvoiced, the following steps S2 to S6 are not performed, and the input voice signal is output as it is. In this case, SM
As the S analysis, a pitch synchronous analysis that changes the analysis window width according to the pitch in the previous frame is employed.

【0011】[1.2] ステップS2 次に入力音声信号が有声音である場合には、抽出した正
弦波成分からさらに元属性(Attribute)データである
ピッチ(Pitch)、アンプ(Amplitude)及びスペクトラ
ル・シェイプ(Spectral Shape)を抽出する。 [1.3] ステップS3 予め記憶(保存)してある音声変換処理に用いる対象
(Target)となる歌唱者(以下、ターゲット歌唱者とい
う。)の属性データ(ターゲット属性データ=ピッチ、
アンプ及びスペクトラル・シェイプ)から、元歌唱者
(me)の入力音声信号のフレームに対応するフレームの
ターゲット属性データ(=ピッチ、アンプ及びターゲッ
トスペクトラル・シェイプ)を取り出す。
[1.2] Step S2 Next, when the input voice signal is a voiced sound, pitch, Amp (Amplitude) and spectral which are original attribute data are further extracted from the extracted sine wave component. -Extract a shape (Spectral Shape). [1.3] Step S3 Attribute data (target attribute data = pitch,
The target attribute data (= pitch, amplifier and target spectral shape) of a frame corresponding to the frame of the input voice signal of the former singer (me) is extracted from the amplifier and the spectral shape.

【0012】[1.4] ステップS4 次に元歌唱者(me)に対応する元属性データ及びターゲ
ット歌唱者に対応するターゲット属性データに基づい
て、元歌唱者のスペクトラル・シェイプ(あるいは、タ
ーゲット歌唱者のターゲットスペクトラル・シェイプ)
に基づいて変換スペクトラル・シェイプ(あるいは、変
換ターゲットスペクトラル・シェイプ)を生成し、この
生成した変換スペクトラル・シェイプ(あるいは変換タ
ーゲットスペクトラル・シェイプ)及びターゲット音声
信号から予め抽出した正弦波成分に含まれる周波数成分
(あるいは、入力音声信号から抽出した正弦波成分に含
まれる周波数成分)に基づいて新たな正弦波成分情報を
生成する。
[1.4] Step S4 Next, based on the original attribute data corresponding to the former singer (me) and the target attribute data corresponding to the target singer, the spectral shape of the former singer (or the target singer). Target spectral shape)
A transform spectral shape (or a transform target spectral shape) is generated based on the above, and the generated transform spectral shape (or the transform target spectral shape) and a frequency included in a sine wave component previously extracted from the target audio signal New sine wave component information is generated based on the component (or the frequency component included in the sine wave component extracted from the input audio signal).

【0013】[1.5] ステップS5 つづいて得られた新たな正弦波成分情報の逆FFTを行
い、変換音声信号を得る。 [1.6] まとめ これらの処理の結果得られる変換音声信号によれば、再
生される音声は、元歌唱者の歌声が、あたかも、別の歌
唱者が歌った自然な歌声のようになる。
[1.5] Step S5 Inverse FFT of the new sine wave component information obtained in the subsequent step is performed to obtain a converted audio signal. [1.6] Conclusion According to the converted voice signal obtained as a result of these processes, the reproduced voice is as if the singing voice of the original singer is a natural singing voice sung by another singer.

【0014】[2] 実施形態の詳細構成 図1及び図2に、実施形態の詳細構成図を示す。なお、
本実施形態は、本発明による音声変換装置(音声変換方
法)をカラオケ装置に適用し、より自然な音声変換を行
うことができるカラオケ装置として構成した場合の例で
ある。図1において、マイク1は、元歌唱者(me)の声
を収集し、入力音声信号Svとして入力音声信号切出部
3に出力する。これと並行して、分析窓生成部2は、前
回のフレームで検出したピッチの周期の固定倍(例え
ば、3.5倍など)の周期を有する分析窓(例えば、ハ
ミング窓)AWを生成し、入力音声信号切出部3に出力
する。なお、初期状態あるいは前回のフレームが無声音
(含む無音)の場合には、予め設定した固定周期の分析
窓を分析窓AWとして入力音声信号切出部3に出力す
る。
[2] Detailed Configuration of the Embodiment FIGS. 1 and 2 show detailed configuration diagrams of the embodiment. In addition,
The present embodiment is an example in which the voice conversion device (voice conversion method) according to the present invention is applied to a karaoke device and configured as a karaoke device capable of performing more natural voice conversion. In FIG. 1, a microphone 1 collects the voice of a former singer (me) and outputs the voice to an input audio signal cutout unit 3 as an input audio signal Sv. In parallel with this, the analysis window generation unit 2 generates an analysis window (for example, a Hamming window) AW having a period that is a fixed multiple (for example, 3.5 times) of the period of the pitch detected in the previous frame. Is output to the input audio signal cutout unit 3. When the initial state or the previous frame is an unvoiced sound (including silence), an analysis window having a fixed period set in advance is output to the input audio signal cutout unit 3 as the analysis window AW.

【0015】これらにより入力音声信号切出部3は、入
力された分析窓AWと入力音声信号Svとを掛け合わ
せ、入力音声信号Svをフレーム単位で切り出し、フレ
ーム音声信号FSvとして高速フーリエ変換部4に出力
される。より具体的には、入力音声信号Svとフレーム
との関係は、図3に示すようになっており、各フレーム
FLは、前のフレームFLと一部重なるように設定され
ている。そして、高速フーリエ変換部4においてフレー
ム音声信号FSvは、解析処理されるとともに、図4に
示すように、高速フーリエ変換部4の出力である周波数
スペクトルからピーク検出部5によりローカルピークが
検出される。より具体的には、図4に示すような周波数
スペクトルに対して、×印を付けたローカルピークを検
出する。このローカルピークは、周波数値とアンプ(振
幅)値の組み合わせとして表される。
Thus, the input audio signal extracting section 3 multiplies the input analysis window AW by the input audio signal Sv, cuts out the input audio signal Sv in units of frames, and outputs a fast Fourier transform section 4 as a frame audio signal FSv. Is output to More specifically, the relationship between the input audio signal Sv and the frames is as shown in FIG. 3, and each frame FL is set so as to partially overlap the previous frame FL. Then, the frame audio signal FSv is analyzed in the fast Fourier transform unit 4, and a local peak is detected by the peak detecting unit 5 from the frequency spectrum output from the fast Fourier transform unit 4, as shown in FIG. . More specifically, a local peak marked with “x” is detected in the frequency spectrum as shown in FIG. This local peak is represented as a combination of a frequency value and an amplifier (amplitude) value.

【0016】すなわち、図4に示すように、(F0、A
0)、(F1、A1)、(F2、A2)、……、(F
N、AN)というように各フレームについてローカルピ
ークが検出され、表されることとなる。そして、図3に
模式的に示すように、各フレーム毎に一組(以下、ロー
カルピーク組という。)として無声/有声検出部6及び
ピーク連携部8に出力される。無声/有声検出部6は、
入力されたフレーム毎のローカルピークに基づいて、高
周波成分の大きさに応じて無声であることを検出
(‘t’、‘k’等)し、無声/有声検出信号U/Vme
をピッチ検出部7、イージーシンクロナイゼーション処
理部22及びクロスフェーダ部30に出力する。あるい
は、時間軸上で単位時間あたりの零クロス数に応じて無
声であることを検出(‘s’等)し、元無声/有声検出
信号U/Vmeをピッチ検出部7、イージーシンクロナイ
ゼーション処理部22及びクロスフェーダ部30に出力
する。
That is, as shown in FIG. 4, (F0, A
0), (F1, A1), (F2, A2),..., (F
N, AN), the local peak is detected and represented for each frame. Then, as schematically shown in FIG. 3, one set (hereinafter, referred to as a local peak set) is output to the unvoiced / voiced detection unit 6 and the peak coordination unit 8 for each frame. The unvoiced / voiced detection unit 6
Based on the input local peak for each frame, it is detected that the voice is unvoiced ('t', 'k', etc.) according to the magnitude of the high frequency component, and the unvoiced / voiced detection signal U / Vme
Is output to the pitch detection unit 7, the easy synchronization processing unit 22, and the crossfader unit 30. Alternatively, it is detected on the time axis that the voice is unvoiced according to the number of zero crossings per unit time ('s', etc.), and the original unvoiced / voiced detection signal U / Vme is detected by the pitch detection unit 7 by the easy synchronization processing. Output to the section 22 and the crossfader section 30.

【0017】さらに無声/有声検出部6は、入力された
フレームが無声であると検出されなかった場合には、入
力されたローカルピーク組をそのまま、ピッチ検出部7
に出力する。ピッチ検出部7は、入力されたローカルピ
ーク組に基づいて、当該ローカルピーク組が対応するフ
レームのピッチPmeを検出する。より具体的なフレーム
のピッチPmeの検出方法としては、例えば、Maher,R.C.
andJ.W.Beauchamp:"Fundamental Frequency Estimation
of Musical Signal using a two-way Mismatch Proced
ure"(Journal of Acounstical Society of America95
(4):2254-2263)に開示されているような方法で行う。
Further, when the input frame is not detected as unvoiced, the unvoiced / voiced detection section 6 outputs the input local peak set as it is, and
Output to The pitch detector 7 detects the pitch Pme of the frame corresponding to the local peak set based on the input local peak set. More specific methods for detecting the pitch Pme of a frame include, for example, Maher, RC
andJ.W.Beauchamp: "Fundamental Frequency Estimation
of Musical Signal using a two-way Mismatch Proced
ure "(Journal of Acounstical Society of America95
(4): 2254-2263).

【0018】次に、ピーク検出部5から出力されたロー
カルピーク組は、ピーク連携部8において、前後のフレ
ームについて連携が判断され、連携すると認められるロ
ーカルピークについては、一連のデータ列となるように
ローカルピークをつなげる連携処理がなされる。ここ
で、この連携処理について、図5を参照して説明する。
今、図5(A)に示すようなローカルピークが前回のフ
レームにおいて検出され、図5(B)に示すようなロー
カルピークが今回のフレームにおいて検出されたとす
る。
Next, the local peak set output from the peak detecting section 5 is determined by the peak linking section 8 to be linked with the preceding and succeeding frames, and the local peaks recognized as linked are formed into a series of data strings. A linking process for connecting a local peak to the data is performed. Here, this cooperation processing will be described with reference to FIG.
Now, assume that a local peak as shown in FIG. 5A is detected in the previous frame, and a local peak as shown in FIG. 5B is detected in the current frame.

【0019】この場合、ピーク連携部8は、前回のフレ
ームで検出された各ローカルピーク(F0、A0)、
(F1、A1)、(F2、A2)、……、(FN、A
N)に対応するローカルピークが今回のフレームでも検
出されたか否かを調べる。対応するローカルピークがあ
るか否かの判断は、前回のフレームで検出されたローカ
ルピークの周波数を中心にした所定範囲内に今回のフレ
ームのローカルピークが検出されるか否かによって行わ
れる。より具体的には、図5の例では、ローカルピーク
(F0、A0)、(F1、A1)、(F2、A2)……
については、対応するローカルピークが検出されている
が、ローカルピーク(FK、AK)については(図5
(A)参照)、対応するローカルピーク(図5(B)参
照)は検出されていない。
In this case, the peak linking unit 8 determines each local peak (F0, A0) detected in the previous frame,
(F1, A1), (F2, A2), ..., (FN, A
It is checked whether the local peak corresponding to N) has been detected in the current frame. The determination as to whether or not there is a corresponding local peak is made based on whether or not the local peak of the current frame is detected within a predetermined range centered on the frequency of the local peak detected in the previous frame. More specifically, in the example of FIG. 5, the local peaks (F0, A0), (F1, A1), (F2, A2).
, The corresponding local peak is detected, but for the local peaks (FK, AK), (FIG. 5
(See (A)) and the corresponding local peak (see FIG. 5B) is not detected.

【0020】ピーク連携部8は、対応するローカルピー
クを検出した場合は、それらを時系列順に繋げて一組の
データ列として出力する。なお、対応するローカルピー
クが検出されない場合は、当該フレームについての対応
ローカルピークは無しということを示すデータに置き換
える。ここで、図6は、複数のフレームにわたるローカ
ルピークの周波数F0及び周波数F1の変化の一例を示
している。このような変化は、アンプ(振幅)A0、A
1、A2、……についても同様に認められる。この場
合、ピーク連携部8から出力されるデータ列は、フレー
ムの間隔おきに出力される離散的な値である。
When detecting the corresponding local peaks, the peak coordinating unit 8 connects the local peaks in chronological order and outputs them as a set of data strings. If the corresponding local peak is not detected, the data is replaced with data indicating that there is no corresponding local peak for the frame. Here, FIG. 6 shows an example of changes in the frequency F0 and the frequency F1 of the local peak over a plurality of frames. Such changes are caused by the amplifiers (amplitude) A0, A
1, A2,... Are similarly recognized. In this case, the data string output from the peak linking unit 8 is a discrete value output at every frame interval.

【0021】なお、ピーク連携部8から出力されるピー
ク値を、以後において、確定成分という。これは、元の
信号(すなわち、音声信号Sv)のうち正弦波の要素と
して確定的に置き換えられる成分という意味である。ま
た、置き換えられた各正弦波(厳密には、正弦波のパラ
メータである周波数及びアンプ(振幅))の各々につい
ては、部分成分と呼ぶことにする。次に、補間合成部9
は、ピーク連携部8から出力される確定成分について補
間処理を行い、補間後の確定成分に基づいていわゆるオ
シレータ方式で波形合成を行う。この場合の補間の間隔
は、後述する出力部34が出力する最終出力信号のサン
プリングレート(例えば、44.1KHz)に対応した
間隔で行われる。前述した図6に示す実線は、正弦波成
分の周波数F0、F1について補間処理が行われた場合
のイメージを示している。
The peak value output from the peak linking unit 8 is hereinafter referred to as a deterministic component. This means a component that is deterministically replaced as a sine wave element in the original signal (that is, the audio signal Sv). Further, each of the replaced sine waves (strictly speaking, frequency and amplifier (amplitude), which are parameters of the sine wave), will be referred to as partial components. Next, the interpolation synthesis unit 9
Performs interpolation processing on the deterministic component output from the peak linking unit 8, and performs waveform synthesis based on the deterministic component after interpolation using a so-called oscillator method. In this case, the interpolation is performed at intervals corresponding to the sampling rate (for example, 44.1 KHz) of the final output signal output from the output unit 34 described later. The solid line shown in FIG. 6 described above shows an image when the interpolation processing is performed on the frequencies F0 and F1 of the sine wave components.

【0022】[2.1] 補間合成部の構成 ここで、補間合成部9の構成を図7に示す。補間合成部
9は、複数の部分波形発生部9aを備えて構成されてお
り、各部分波形発生部9aは、指定された正弦波成分の
周波数(F0、F1、…)およびアンプ(振幅)に応じ
た正弦波を発生する。ただし、本第1実施形態における
正弦波成分(F0、A0)、(F1、A1)、(F2、
A2)、……は、各々補間の間隔に従って時事刻々変化
していくものであるから、各部分波形発生部9aから出
力される波形は、その変化に従った波形になる。すなわ
ち、ピーク連携部8からは正弦波成分(F0、A0)、
(F1、A1)、(F2、A2)、……が順次出力さ
れ、各正弦波成分の各々について補間処理が行われるか
ら、各部分波形発生部9aは、所定の周波数領域内で周
波数と振幅が変動する波形を出力する。そして、各部分
波形発生部9aから出力された波形は、加算部9bにお
いて加算合成される。したがって、補間合成部9の出力
信号は、入力音声信号Svから確定成分を抽出した正弦
波成分合成信号SSSになる。
[2.1] Configuration of Interpolation / Synthesis Unit The configuration of the interpolation / synthesis unit 9 is shown in FIG. The interpolation / synthesis unit 9 includes a plurality of partial waveform generation units 9a, and each of the partial waveform generation units 9a adjusts a frequency (F0, F1,...) And an amplifier (amplitude) of a designated sine wave component. Generates a corresponding sine wave. However, the sine wave components (F0, A0), (F1, A1), (F2,
Since A2),... Change every moment according to the interpolation interval, the waveform output from each partial waveform generator 9a becomes a waveform according to the change. That is, the sine wave components (F0, A0) from the peak linking unit 8,
(F1, A1), (F2, A2),... Are sequentially output, and interpolation processing is performed for each of the sine wave components. Therefore, each partial waveform generation unit 9a determines the frequency and amplitude within a predetermined frequency domain. Output a waveform that fluctuates. Then, the waveforms output from the respective partial waveform generators 9a are added and synthesized in an adder 9b. Therefore, the output signal of the interpolation / synthesis unit 9 is a sine wave component synthesized signal SSS obtained by extracting a deterministic component from the input audio signal Sv.

【0023】[2.2] 残差成分検出部の動作 次に、残差成分検出部10は、補間合成部9から出力さ
れた正弦波成分合成信号SSSと入力音声信号Svとの偏
差である残差成分信号SRD(時間波形)を生成する。こ
の残差成分信号SRDは、音声に含まれる無声成分を多く
含む。一方、前述の正弦波成分合成信号SSSは有声成分
に対応するものである。ところで、目標(Target)とな
る歌唱者の声に似せるには、有声音についてだけ処理を
行えば、無声音については処理を施す必要はあまりな
い。そこで、本実施形態においては、有声母音成分に対
応する確定成分について音声変換処理を行うようにして
いる。より具体的には、残差成分信号SRDについては、
高速フーリエ変換部11で、周波数波形に変換し、得ら
れた残差成分信号(周波数波形)をRme(f)として残差
成分保持部12に保持しておく。
[2.2] Operation of Residual Component Detecting Unit Next, the residual component detecting unit 10 calculates the deviation between the sine wave component synthesized signal SSS output from the interpolation synthesizing unit 9 and the input voice signal Sv. A residual component signal SRD (time waveform) is generated. This residual component signal SRD contains a lot of unvoiced components included in the voice. On the other hand, the above-mentioned sine wave component composite signal SSS corresponds to a voiced component. By the way, in order to resemble the voice of the singer who becomes the target (Target), if only the voiced sound is processed, it is not necessary to process the unvoiced sound. Therefore, in the present embodiment, speech conversion processing is performed on a deterministic component corresponding to a voiced vowel component. More specifically, regarding the residual component signal SRD,
The fast Fourier transform unit 11 converts the signal into a frequency waveform, and the obtained residual component signal (frequency waveform) is stored in the residual component storage unit 12 as Rme (f).

【0024】[2.3] 平均アンプ演算部の動作 一方、図8(A)に示すように、ピーク検出部5からピ
ーク連携部8を介して出力された正弦波成分(F0、A
0)、(F1、A1)、(F2、A2)、……、(F(N
-1)、A(N-1))のN個の正弦波成分(以下、これらをま
とめてFn、Anと表記する。n=0〜(N−1)。)
は、正弦波成分保持部13に保持されるとともに、アン
プAnは平均アンプ演算部14に入力され、各フレーム
毎に次式により平均アンプAmeが算出される。 Ame=Σ(An)/N
[2.3] Operation of Average Amplifier Operation Unit On the other hand, as shown in FIG. 8A, sine wave components (F0, A) output from the peak detection unit 5 through the peak linking unit 8
0), (F1, A1), (F2, A2),..., (F (N
-1), A (N-1)) N sine wave components (hereinafter, these are collectively referred to as Fn and An. N = 0 to (N-1).)
Is held in the sine wave component holding unit 13, and the amplifier An is input to the average amplifier operation unit 14, and the average amplifier Ame is calculated for each frame by the following equation. Ame = Σ (An) / N

【0025】[2.4] アンプ正規化部の動作 次にアンプ正規化部15において、次式により各アンプ
Anを平均アンプAmeで正規化し、正規化アンプA’n
を求める。 A’n=An/Ame [2.5] スペクトラル・シェイプ演算部の動作 そして、スペクトラル・シェイプ演算部16において、
図8(B)に示すように、周波数Fn及び正規化アンプ
A’nにより得られる正弦波成分(Fn、A’n)をブ
レークポイントとするエンベロープ(包絡線)をスペク
トラル・シェイプSme(f)として生成する。この場合に
おいて、二つのブレークポイント間の周波数におけるア
ンプの値は、当該二つのブレークポイントを、例えば、
直線補間することにより算出する。なお、補間の方法は
直線補間に限られるものではない。
[2.4] Operation of Amplifier Normalization Unit Next, in the amplifier normalization unit 15, each amplifier An is normalized by the average amplifier Ame by the following equation, and the normalized amplifier A'n
Ask for. A'n = An / Ame [2.5] Operation of Spectral Shape Computing Unit Then, in the spectral shape computing unit 16,
As shown in FIG. 8B, an envelope (envelope) having a sine wave component (Fn, A'n) obtained by the frequency Fn and the normalizing amplifier A'n as a break point has a spectral shape Sme (f). Generate as In this case, the value of the amplifier at the frequency between the two breakpoints,
It is calculated by linear interpolation. The method of interpolation is not limited to linear interpolation.

【0026】[2.6] ピッチ正規化部の動作 続いてピッチ正規化部17においては、各周波数Fnを
ピッチ検出部7において検出したピッチPmeで正規化
し、正規化周波数F’nを求める。 F’n=Fn/Pme これらの結果、元フレーム情報保持部18は、入力音声
信号Svに含まれる正弦波成分に対応する元属性データ
である平均アンプAme、ピッチPme、スペクトラル・シ
ェイプSme(f)、正規化周波数F’nを保持することと
なる。なお、この場合において、正規化周波数F’n
は、倍音列の周波数の相対値を表しており、もし、フレ
ームの倍音構造を完全倍音構造であるとして取り扱うな
らば、保持する必要はない。
[2.6] Operation of Pitch Normalization Unit Subsequently, the pitch normalization unit 17 normalizes each frequency Fn with the pitch Pme detected by the pitch detection unit 7 to obtain a normalized frequency F'n. F′n = Fn / Pme As a result, the original frame information holding unit 18 obtains the average amplifier Ame, the pitch Pme, and the spectral shape Sme (f) which are the original attribute data corresponding to the sine wave component included in the input audio signal Sv. ), And hold the normalized frequency F'n. In this case, the normalized frequency F'n
Represents the relative value of the frequency of the harmonic train, and need not be retained if the harmonic structure of the frame is treated as a complete harmonic structure.

【0027】この場合において、男声/女声変換を行お
うとしている場合には、この段階において、男声→女声
変換を行う場合には、ピッチをオクターブ上げ、女声→
男声変換を行う場合にはピッチをオクターブ下げる男声
/女声ピッチ制御処理を行うようにするのが好ましい。
つづいて、元フレーム情報保持部18に保持している元
属性データのうち、平均アンプAmeおよびピッチPmeに
ついては、さらに静的変化/ビブラート的変化分離部1
9により、フィルタリング処理などを行って、静的変化
成分とビブラート変化的成分とに分離して保持する。な
お、さらにビブラート変化的成分からより高周波変化成
分であるジッタ変化的成分を分離するように構成するこ
とも可能である。
In this case, if male / female conversion is to be performed, at this stage, if male / female conversion is to be performed, the pitch is raised by an octave, and female →
When performing male voice conversion, it is preferable to perform male / female voice pitch control processing for lowering the pitch by an octave.
Subsequently, of the original attribute data held in the original frame information holding unit 18, the average amplifier Ame and the pitch Pme are further subjected to the static change / vibrato change separation unit 1.
9, a filtering process or the like is performed to separate and retain a static variation component and a vibrato variation component. In addition, it is also possible to configure so as to further separate a jitter variable component which is a higher frequency change component from a vibrato variable component.

【0028】より具体的には、平均アンプAmeを平均ア
ンプ静的成分Ame-sta及び平均アンプビブラート的成分
Ame-vibとに分離して保持する。また、ピッチPmeをピ
ッチ静的成分Pme-sta及びピッチビブラート的成分Pme
-vibとに分離して保持する。これらの結果、対応するフ
レームの元フレーム情報データINFmeは、図7(C)
に示すように、入力音声信号Svの正弦波成分に対応す
る元属性データである平均アンプ静的成分Ame-sta、平
均アンプビブラート的成分Ame-vib、ピッチ静的成分P
me-sta、ピッチビブラート的成分Pme-vib、スペクトラ
ル・シェイプSme(f)、正規化周波数F’n及び残差成
分Rme(f)の形で保持されることとなる。
More specifically, the average amplifier Ame is separately held as an average amplifier static component Ame-sta and an average amplifier vibrato-like component Ame-vib. The pitch Pme is defined as a pitch static component Pme-sta and a pitch vibrato-like component Pme.
-vib and keep separately. As a result, the original frame information data INFme of the corresponding frame is as shown in FIG.
As shown in the figure, the average amplifier static component Ame-sta, the average amplifier vibrato-like component Ame-vib, and the pitch static component P are original attribute data corresponding to the sine wave component of the input audio signal Sv.
It is held in the form of me-sta, pitch vibrato-like component Pme-vib, spectral shape Sme (f), normalized frequency F'n, and residual component Rme (f).

【0029】一方、ものまねの対象(target)となる歌
唱者に対応するターゲット属性データから構成されるタ
ーゲットフレーム情報データINFtarは、予め分析さ
れてターゲットフレーム情報保持部20を構成するハー
ドディスクなどに予め保持されている。この場合におい
て、ターゲットフレーム情報データINFtarのうち、
正弦波成分に対応するターゲット属性データとしては、
平均アンプ静的成分Atar-sta、平均アンプビブラート
的成分Atar-vib、ピッチ静的成分Ptar-sta、ピッチビ
ブラート的成分Ptar-vib、スペクトラル・シェイプSt
ar(f)がある。また、ターゲットフレーム情報データI
NFtarのうち、残差成分に対応するターゲット属性デ
ータとしては、残差成分Rtar(f)がある。
On the other hand, the target frame information data INFtar composed of the target attribute data corresponding to the singer to be imitated (target) is analyzed in advance and stored in a hard disk or the like constituting the target frame information storage unit 20 in advance. Have been. In this case, of the target frame information data INFtar,
As target attribute data corresponding to the sine wave component,
Average amplifier static component Atar-sta, average amplifier vibrato component Atar-vib, pitch static component Ptar-sta, pitch vibrato component Ptar-vib, spectral shape St
There is ar (f). Further, the target frame information data I
Among the NFtars, target attribute data corresponding to the residual component includes a residual component Rtar (f).

【0030】[2.7] キーコントロール/テンポチ
ェンジ部の動作 次にキーコントロール/テンポチェンジ部21は、シー
ケンサ31からの同期信号SSYNCに基づいて、ターゲッ
トフレーム情報保持部20から同期信号SSYNCに対応す
るフレームのターゲットフレーム情報INFtarの読出
処理及び読み出したターゲットフレーム情報データIN
Ftarを構成するターゲット属性データの補正処理を行
うとともに、読み出したターゲットフレーム情報INF
tarおよび当該フレームが無声であるか有声であるかを
表すターゲット無声/有声検出信号U/Vtarを出力す
る。より具体的には、キーコントロール/テンポチェン
ジ部21の図示しないキーコントロールユニットは、カ
ラオケ装置のキーを基準より上げ下げした場合、ターゲ
ット属性データであるピッチ静的成分Ptar-sta及びピ
ッチビブラート的成分Ptar-vibについても、同じだけ
上げ下げする補正処理を行う。例えば、50[cent]だ
けキーを上げた場合には、ピッチ静的成分Ptar-sta及
びピッチビブラート的成分Ptar-vibについても50[c
ent]だけ上げなければならない。
[2.7] Operation of Key Control / Tempo Change Unit Next, the key control / tempo change unit 21 responds to the synchronization signal SSYNC from the target frame information holding unit 20 based on the synchronization signal SSYNC from the sequencer 31. Of target frame information INFtar of the frame to be read and read target frame information data IN
The target attribute data constituting the Ftar is corrected, and the read target frame information INF is read.
It outputs tar and a target unvoiced / voiced detection signal U / Vtar indicating whether the frame is unvoiced or voiced. More specifically, the key control unit (not shown) of the key control / tempo change unit 21 is configured such that when the key of the karaoke apparatus is raised or lowered from a reference, the pitch static component Ptar-sta and the pitch vibrato-like component Ptar which are the target attribute data. For -vib, a correction process of raising and lowering the same is performed. For example, when the key is raised by 50 [cent], the pitch static component Ptar-sta and the pitch vibrato-like component Ptar-vib are also increased by 50 [c].
ent].

【0031】また、キーコントロール/テンポチェンジ
部21の図示しないテンポチェンジユニットは、カラオ
ケ装置のテンポを上げ下げした場合には、変更後のテン
ポに相当するタイミングで、ターゲットフレーム情報デ
ータINFtarの読み出し処理を行う必要がある。この
場合において、必要なフレームに対応するタイミングに
相当するターゲットフレーム情報データINFtarが存
在しない場合には、当該必要なフレームのタイミングの
前後のタイミングに存在する二つのフレームのターゲッ
トフレーム情報データINFtarを読み出し、これら二
つのターゲットフレーム情報データINFtarにより補
間処理を行い、当該必要なタイミングにおけるフレーム
のターゲットフレーム情報データINFtar、ひいて
は、ターゲット属性データを生成する。
A tempo change unit (not shown) of the key control / tempo change unit 21 reads the target frame information data INFtar at a timing corresponding to the changed tempo when the tempo of the karaoke apparatus is raised or lowered. There is a need to do. In this case, if there is no target frame information data INFtar corresponding to the timing corresponding to the required frame, the target frame information data INFtar of the two frames existing before and after the timing of the required frame is read out. Interpolation is performed using these two pieces of target frame information data INFtar to generate target frame information data INFtar of the frame at the necessary timing, and furthermore, target attribute data.

【0032】この場合において、ビブラート的成分(平
均アンプビブラート的成分Atar-vib及びピッチビブラ
ート的成分Ptar-vib)に関しては、そのままでは、ビ
ブラートの周期自体が変化してしまい、不適当であるの
で、周期が変動しないような補間処理を行う必要があ
る。又は、ターゲット属性データとして、ビブラートの
軌跡そのものを表すデータではなく、ビブラート周期及
びビブラート深さのパラメータを保持し、実際の軌跡を
演算により求めるようにすれば、この不具合を回避する
ことができる。
In this case, the vibrato-like components (average amp vibrato-like component Atar-vib and pitch vibrato-like component Ptar-vib) are unsuitable as they are, because the vibrato period itself changes and is unsuitable. It is necessary to perform interpolation processing so that the period does not change. Alternatively, this problem can be avoided by holding the parameters of the vibrato cycle and the vibrato depth instead of the data representing the vibrato trajectory itself as the target attribute data and calculating the actual trajectory by calculation.

【0033】[2.8] イージーシンクロナイゼーシ
ョン処理部の動作 次にイージーシンクロナイゼーション処理部22は、も
のまねをしようとする歌唱者のフレーム(以下、元フレ
ームという。)に元フレーム情報データINFmeが存在
するにもかかわらず、対応するものまねの対象となる歌
唱者のフレーム(以下、ターゲットフレームという。)
にターゲットフレーム情報データINFtarが存在しな
い場合には、当該ターゲットフレームの前後方向に存在
するフレームのターゲットフレーム情報データINFta
rを当該ターゲットフレームのターゲットフレーム情報
データINFtarとするイージーシンクロナイゼーショ
ン処理を行う。そして、イージーシンクロナイゼーショ
ン処理部22は、後述する置換済ターゲットフレーム情
報データINFtar-syncに含まれるターゲット属性デー
タのうち正弦波成分に関するターゲット属性データ(平
均アンプ静的成分Atar-sync-sta、平均アンプビブラー
ト的成分Atar-sync-vib、ピッチ静的成分Ptar-sync-s
ta、ピッチビブラート的成分Ptar-sync-vib及びスペク
トラル・シェイプStar-sync(f))を変形スペクトラル
シェイプ生成部23に出力する。
[2.8] Operation of Easy Synchronization Processing Unit Next, the easy synchronization processing unit 22 adds the original frame information data INFme to the frame of the singer who wants to imitate (hereinafter referred to as the original frame). Despite the presence of, the singer's frame that is the target of the corresponding singer (hereinafter referred to as the target frame)
If the target frame information data INFtar does not exist in the target frame, the target frame information data INFta
An easy synchronization process is performed using r as the target frame information data INFtar of the target frame. Then, the easy synchronization processing unit 22 performs the target attribute data (average amplifier static component Atar-sync-sta, average amplifier static component Atar-sync-sta) of the target attribute data included in the replaced target frame information data INFtar-sync described later. Amp vibrato-like component Atar-sync-vib, pitch static component Ptar-sync-s
ta, a pitch vibrato-like component Ptar-sync-vib, and a spectral shape Star-sync (f)) are output to the modified spectral shape generator 23.

【0034】また、イージーシンクロナイゼーション処
理部22は、後述する置換済ターゲットフレーム情報デ
ータINFtar-syncに含まれるターゲット属性データの
うち残差成分に関するターゲット属性データ(残差成分
Rtar-sync(f))を残差成分選択部25に出力する。こ
のイージーシンクロナイゼーション処理部22における
処理においても、ビブラート的成分(平均アンプビブラ
ート的成分Atar-vib及びピッチビブラート的成分Ptar
-vib)に関しては、そのままでは、ビブラートの周期自
体が変化してしまい、不適当であるので、周期が変動し
ないような補間処理を行う必要がある。又は、ターゲッ
ト属性データとして、ビブラートの軌跡そのものを表す
データではなく、ビブラート周期及びビブラート深さの
パラメータを保持し、実際の軌跡を演算により求めるよ
うにすれば、この不具合を回避することができる。
Further, the easy synchronization processing section 22 generates target attribute data (residual component Rtar-sync (f)) relating to a residual component among target attribute data included in replaced target frame information data INFtar-sync to be described later. ) Is output to the residual component selector 25. Also in the processing in the easy synchronization processing unit 22, the vibrato-like components (the average amplifier vibrato-like component Atar-vib and the pitch vibrato-like component Ptar
With respect to -vib), if it is left as it is, the vibrato cycle itself changes and is inappropriate, so it is necessary to perform interpolation processing so that the cycle does not fluctuate. Alternatively, this problem can be avoided by holding the parameters of the vibrato cycle and the vibrato depth instead of the data representing the vibrato trajectory itself as the target attribute data and calculating the actual trajectory by calculation.

【0035】[2.8.1] イージーシンクロナイゼ
ーション処理の詳細 ここで、図9及び図10を参照してイージーシンクロナ
イゼーション処理について詳細に説明する。図9は、イ
ージーシンクロナイゼーション処理のタイミングチャー
トであり、図10はイージーシンクロナイゼーション処
理フローチャートである。まず、イージーシンクロナイ
ゼーション処理部22は、シンクロナイゼーション処理
の方法を表すシンクロナイゼーションモード=“0”と
する(ステップS11)。このシンクロナイゼーション
モード=“0”は、元フレームに対応するターゲットフ
レームにターゲットフレーム情報データINFtarが存
在する通常処理の場合に相当する。そしてあるタイミン
グtにおける元無声/有声検出信号U/Vme(t)が無声
(U)から有声(V)に変化したか否かを判別する(ス
テップS12)。
[2.8.1] Details of Easy Synchronization Process Here, the easy synchronization process will be described in detail with reference to FIGS. 9 and 10. FIG. 9 is a timing chart of the easy synchronization process, and FIG. 10 is a flowchart of the easy synchronization process. First, the easy synchronization processing unit 22 sets the synchronization mode = “0” indicating the method of the synchronization processing (step S11). This synchronization mode = "0" corresponds to the case of normal processing in which the target frame information data INFtar exists in the target frame corresponding to the original frame. Then, it is determined whether or not the original unvoiced / voiced detection signal U / Vme (t) at a certain timing t has changed from unvoiced (U) to voiced (V) (step S12).

【0036】例えば、図9に示すように、タイミングt
=t1においては、元無声/有声検出信号U/Vme(t)が
無声(U)から有声(V)に変化している。ステップS
12の判別において、元無声/有声検出信号U/Vme
(t)が無声(U)から有声(V)に変化している場合に
は(ステップS12;Yes)、タイミングtの前回の
タイミングt-1における元無声/有声検出信号U/Vme
(t-1)が無声(U)かつターゲット無声/有声検出信号
U/Vtar(t-1)が無声(U)であるか否かを判別する
(ステップS18)。例えば、図9に示すように、タイ
ミングt=t0(=t1-1)においては、元無声/有声検
出信号U/Vme(t-1)が無声(U)かつターゲット無声
/有声検出信号U/Vtar(t-1)が無声(U)となってい
る。ステップS18の判別において、元無声/有声検出
信号U/Vme(t-1)が無声(U)かつターゲット無声/
有声検出信号U/Vtar(t-1)が無声(U)となっている
場合には(ステップS18;Yes)、当該ターゲット
フレームには、ターゲットフレーム情報データINFta
rが存在しないので、シンクロナイゼーションモード=
“1”とし、置換用のターゲットフレーム情報データI
NFholdを当該ターゲットフレームの後方向(Backwar
d)に存在するフレームのターゲットフレーム情報とす
る。
For example, as shown in FIG.
At = t1, the original unvoiced / voiced detection signal U / Vme (t) changes from unvoiced (U) to voiced (V). Step S
In the determination of No. 12, the original unvoiced / voiced detection signal U / Vme
If (t) has changed from unvoiced (U) to voiced (V) (Step S12; Yes), the original unvoiced / voiced detection signal U / Vme at the previous timing t-1 of the timing t.
It is determined whether (t-1) is unvoiced (U) and the target unvoiced / voiced detection signal U / Vtar (t-1) is unvoiced (U) (step S18). For example, as shown in FIG. 9, at timing t = t0 (= t1-1), the original unvoiced / voiced detection signal U / Vme (t-1) is unvoiced (U) and the target unvoiced / voiced detection signal U / Vme (t-1). Vtar (t-1) is silent (U). In the determination in step S18, the original unvoiced / voiced detection signal U / Vme (t-1) is unvoiced (U) and the target unvoiced /
When the voiced detection signal U / Vtar (t-1) is unvoiced (U) (step S18; Yes), the target frame includes the target frame information data INFta.
Since r does not exist, the synchronization mode =
It is set to “1”, and the replacement target frame information data I
Set NFhold in the backward direction of the target frame (Backwar
This is the target frame information of the frame existing in d).

【0037】例えば、図9に示すように、タイミングt
=t1〜t2のターゲットフレームには、ターゲットフレ
ーム情報データINFtarが存在しないので、シンクロ
ナイゼーションモード=“1”とし、置換用ターゲット
フレーム情報データINFholdを当該ターゲットフレー
ムの後方向に存在するフレーム(すなわち、タイミング
t=t2〜t3に存在するフレーム)のターゲットフレー
ム情報データbackwardとする。そして、処理をステップ
S15に移行し、シンクロナイゼーションモード=
“0”であるか否かを判別する(ステップS15)。ス
テップS15の判別において、シンクロナイゼーション
モード=“0”である場合には、タイミングtにおける
元フレームに対応するターゲットフレームにターゲット
フレーム情報データINFtar(t)が存在する場合、すな
わち、通常処理であるので、置換済ターゲットフレーム
情報データINFtar-syncをターゲットフレーム情報デ
ータINFtar(t)とする。 INFtar-sync=INFtar(t)
For example, as shown in FIG.
= T1 to t2, since the target frame information data INFtar does not exist, the synchronization mode is set to “1”, and the replacement target frame information data INFhold is set to a frame existing in the backward direction of the target frame (ie, , Target frame information data backward at timing t = frames existing at t2 to t3). Then, the process proceeds to step S15, and the synchronization mode =
It is determined whether it is “0” (step S15). If it is determined in step S15 that the synchronization mode is “0”, the target frame corresponding to the original frame at the timing t includes the target frame information data INFtar (t), that is, the normal process. Therefore, the replaced target frame information data INFtar-sync is set as target frame information data INFtar (t). INFtar-sync = INFtar (t)

【0038】例えば、図9に示すようにタイミングt=
t2〜t3のターゲットフレームには、ターゲットフレー
ム情報データINFtarが存在するので、 INFtar-sync=INFtar(t) とする。この場合において、以降の処理に用いられる置
換済ターゲットフレーム情報データINFtar-syncに含
まれるターゲット属性データ(平均アンプ静的成分Ata
r-sync-sta、平均アンプビブラート的成分Atar-sync-v
ib、ピッチ静的成分Ptar-sync-sta、ピッチビブラート
的成分Ptar-sync-vib、スペクトラル・シェイプStar-
sync(f)及び残差成分Rtar-sync(f))は実質的には、以
下の内容となる(ステップS16)。 Atar-sync-sta=Atar-sta Atar-sync-vib=Atar-vib Ptar-sync-sta=Ptar-sta Ptar-sync-vib=Ptar-vib Star-sync(f)=Star(f) Rtar-sync(f)=Rtar(f)
For example, as shown in FIG.
Since target frame information data INFtar exists in the target frame from t2 to t3, INFtar-sync = INFtar (t) is set. In this case, the target attribute data (average amplifier static component Ata) included in the replaced target frame information data INFtar-sync used in the subsequent processing
r-sync-sta, average amp vibrato component Atar-sync-v
ib, pitch static component Ptar-sync-sta, pitch vibrato-like component Ptar-sync-vib, spectral shape Star-
The sync (f) and the residual component Rtar-sync (f) have substantially the following contents (step S16). Atar-sync-sta = Atar-sta Atar-sync-vib = Atar-vib Ptar-sync-sta = Ptar-sta Ptar-sync-vib = Ptar-vib Star-sync (f) = Star (f) Rtar-sync (f) = Rtar (f)

【0039】ステップS15の判別において、シンクロ
ナイゼーションモード=“1”またはシンクロナイゼー
ションモード=“1”である場合には、タイミングtに
おける元フレームに対応するターゲットフレームにター
ゲットフレーム情報データINFtar(t)が存在しない場
合であるので、置換済ターゲットフレーム情報データI
NFtar-syncを置換用ターゲットフレーム情報データI
NFholdとする。 INFtar-sync=INFhold 例えば、図9に示すように、タイミングt=t1〜t2の
ターゲットフレームには、ターゲットフレーム情報デー
タINFtarが存在せず、シンクロナイゼーションモー
ド=“1”となるが、タイミングt=t2〜t3のターゲ
ットフレームには、ターゲットフレーム情報データIN
Ftarが存在するので、置換済ターゲットフレーム情報
データINFtar-syncをタイミングt=t2〜t3のター
ゲットフレームのターゲットフレーム情報データである
置換用ターゲットフレーム情報データINFholdとする
処理P1を行い、以降の処理に用いられる置換済ターゲ
ットフレーム情報データINFtar-syncに含まれるター
ゲット属性データは、平均アンプ静的成分Atar-sync-s
ta、平均アンプビブラート的成分Atar-sync-vib、ピッ
チ静的成分Ptar-sync-sta、ピッチビブラート的成分P
tar-sync-vib、スペクトラル・シェイプStar-sync(f)
及び残差成分Rtar-sync(f)となる(ステップS1
6)。
If it is determined in step S15 that the synchronization mode = "1" or the synchronization mode = "1", the target frame information data INFtar (t) is added to the target frame corresponding to the original frame at the timing t. ) Does not exist, the replaced target frame information data I
Target frame information data I for replacing NFtar-sync
NFhold. INFtar-sync = INFhold For example, as shown in FIG. 9, the target frame at the timing t = t1 to t2 does not have the target frame information data INFtar, and the synchronization mode = “1”. = Target frame information data IN
Since the Ftar exists, the process P1 of setting the replaced target frame information data INFtar-sync as replacement target frame information data INFhold, which is the target frame information data of the target frame at the timing t = t2 to t3, is performed. The target attribute data included in the replaced target frame information data INFtar-sync used is an average amplifier static component Atar-sync-s
ta, average amp vibrato component Atar-sync-vib, pitch static component Ptar-sync-sta, pitch vibrato component P
tar-sync-vib, spectral shape Star-sync (f)
And the residual component Rtar-sync (f) (step S1).
6).

【0040】また、図9に示すように、タイミングt=
t3〜t4のターゲットフレームには、ターゲットフレー
ム情報データINFtarが存在せず、シンクロナイゼー
ションモード=“2”となるが、タイミングt=t2〜
t3のターゲットフレームには、ターゲットフレーム情
報データINFtarが存在するので、置換済ターゲット
フレーム情報データINFtar-syncをタイミングt=t
2〜t3のターゲットフレームのターゲットフレーム情報
データである置換用ターゲットフレーム情報データIN
Fholdとする処理P2を行い、以降の処理に用いられる
置換済ターゲットフレーム情報データINFtar-syncに
含まれるターゲット属性データは、平均アンプ静的成分
Atar-sync-sta、平均アンプビブラート的成分Atar-sy
nc-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラ
ート的成分Ptar-sync-vib、スペクトラル・シェイプS
tar-sync(f)及び残差成分Rtar-sync(f)となる(ステッ
プS16)。
As shown in FIG. 9, the timing t =
In the target frame from t3 to t4, the target frame information data INFtar does not exist, and the synchronization mode = “2”.
Since the target frame information data INFtar exists in the target frame at t3, the replaced target frame information data INFtar-sync is set at the timing t = t.
Replacement target frame information data IN which is the target frame information data of the target frames from 2 to t3
The target attribute data included in the replaced target frame information data INFtar-sync used in the subsequent processing includes an average amplifier static component Atar-sync-sta and an average amplifier vibrato-like component Atar-sy.
nc-vib, pitch static component Ptar-sync-sta, pitch vibrato-like component Ptar-sync-vib, spectral shape S
The result is a tar-sync (f) and a residual component Rtar-sync (f) (step S16).

【0041】ステップS12の判別において、元無声/
有声検出信号U/Vme(t)が無声(U)から有声(V)
に変化していない場合には(ステップS12;No)、
ターゲット無声/有声検出信号U/Vtar(t)が有声
(V)から無声(U)に変化しているか否かを判別する
(ステップS13)。ステップS13の判別において、
ターゲット無声/有声検出信号U/Vtar(t)が有声
(V)から無声(U)に変化している場合には(ステッ
プS13;Yes)、タイミングtの前回のタイミング
t-1における元無声/有声検出信号U/Vme(t-1)が有
声(V)かつターゲット無声/有声検出信号U/Vtar
(t-1)が有声(V)であるか否かを判別する(ステップ
S19)。
In the determination in step S12, the original silent /
The voiced detection signal U / Vme (t) changes from unvoiced (U) to voiced (V)
(Step S12; No),
It is determined whether or not the target unvoiced / voiced detection signal U / Vtar (t) has changed from voiced (V) to unvoiced (U) (step S13). In the determination in step S13,
If the target unvoiced / voiced detection signal U / Vtar (t) changes from voiced (V) to unvoiced (U) (step S13; Yes), the original unvoiced / voiced signal at the previous timing t-1 of the timing t is output. The voiced detection signal U / Vme (t-1) is voiced (V) and the target unvoiced / voiced detection signal U / Vtar
It is determined whether or not (t-1) is voiced (V) (step S19).

【0042】例えば、図9に示すように、タイミングt
3においてターゲット無声/有声検出信号U/Vtar(t)
が有声(V)から無声(U)に変化し、タイミングt-1
=t2〜t3においては、元無声/有声検出信号U/Vme
(t-1)が有声(V)かつターゲット無声/有声検出信号
U/Vtar(t-1)が有声(U)となっている。ステップS
19の判別において、元無声/有声検出信号U/Vme(t
-1)が有声(V)かつターゲット無声/有声検出信号U
/Vtar(t-1)が有声(V)となっている場合には(ステ
ップS19;Yes)、当該ターゲットフレームには、
ターゲットフレーム情報データINFtarが存在しない
ので、シンクロナイゼーションモード=“2”とし、置
換用のターゲットフレーム情報データINFholdを当該
ターゲットフレームの前方向(forward)に存在するフ
レームのターゲットフレーム情報とする。
For example, as shown in FIG.
Target unvoiced / voiced detection signal U / Vtar (t) at 3
Changes from voiced (V) to unvoiced (U) at timing t-1
= T2 to t3, the original unvoiced / voiced detection signal U / Vme
(t-1) is voiced (V) and the target unvoiced / voiced detection signal U / Vtar (t-1) is voiced (U). Step S
In the determination of No. 19, the original unvoiced / voiced detection signal U / Vme (t
-1) is voiced (V) and the target unvoiced / voiced detection signal U
If / Vtar (t-1) is voiced (V) (step S19; Yes), the target frame includes
Since the target frame information data INFtar does not exist, the synchronization mode is set to “2”, and the replacement target frame information data INFhold is set as the target frame information of the frame existing in the forward direction of the target frame.

【0043】例えば、図9に示すように、タイミングt
=t3〜t4のターゲットフレームには、ターゲットフレ
ーム情報データINFtarが存在しないので、シンクロ
ナイゼーションモード=“2”とし、置換用ターゲット
フレーム情報データINFholdを当該ターゲットフレー
ムの前方向に存在するフレーム(すなわち、タイミング
t=t2〜t3に存在するフレーム)のターゲットフレー
ム情報データforwardとする。そして、処理をステップ
S15に移行し、シンクロナイゼーションモード=
“0”であるか否かを判別して(ステップS15)、以
下、同様の処理を行う。ステップS13の判別におい
て、ターゲット無声/有声検出信号U/Vtar(t)が有声
(V)から無声(U)に変化していない場合には(ステ
ップS13;No)、タイミングtにおける元無声/有
声検出信号U/Vme(t)が有声(V)から無声(U)に
変化し、あるいは、ターゲット無声/有声検出信号U/
Vtar(t)が無声(U)から有声(V)に変化しているか
否かを判別する(ステップS14)。
For example, as shown in FIG.
= T3 to t4, since the target frame information data INFtar does not exist in the target frame, the synchronization mode is set to “2” and the replacement target frame information data INFhold is set to a frame existing in the forward direction of the target frame (that is, , Target frame information data forward at a timing t = frames t2 to t3). Then, the process proceeds to step S15, and the synchronization mode =
It is determined whether or not it is “0” (step S15), and the same processing is performed thereafter. If it is determined in step S13 that the target unvoiced / voiced detection signal U / Vtar (t) has not changed from voiced (V) to unvoiced (U) (step S13; No), the original unvoiced / voiced at the timing t. The detection signal U / Vme (t) changes from voiced (V) to unvoiced (U), or the target unvoiced / voiced detection signal U /
It is determined whether Vtar (t) has changed from unvoiced (U) to voiced (V) (step S14).

【0044】ステップS14の判別において、タイミン
グtにおける元無声/有声検出信号U/Vme(t)が有声
(V)から無声(U)に変化し、あるいは、ターゲット
無声/有声検出信号U/Vtar(t)が無声(U)から有声
(V)に変化している場合には(ステップS14;Ye
s)、シンクロナイゼーションモード=“0”とし、置
換用ターゲットフレーム情報データINFholdを初期化
(clear)し、処理をステップS15に移行して、以
下、同様の処理を行う。ステップS14の判別におい
て、タイミングtにおける元無声/有声検出信号U/V
me(t)が有声(V)から無声(U)に変化せず、かつ、
ターゲット無声/有声検出信号U/Vtar(t)が無声
(U)から有声(V)に変化していない場合には(ステ
ップS14;No)、そのまま処理をステップS15に
移行し、以下同様の処理を行う。
In the determination in step S14, the original unvoiced / voiced detection signal U / Vme (t) at the timing t changes from voiced (V) to unvoiced (U), or the target unvoiced / voiced detection signal U / Vtar ( If t) changes from unvoiced (U) to voiced (V) (step S14; Ye)
s), the synchronization mode is set to "0", the replacement target frame information data INFhold is initialized (cleared), the process proceeds to step S15, and the same process is performed. In the determination of step S14, the original unvoiced / voiced detection signal U / V at timing t
me (t) does not change from voiced (V) to unvoiced (U), and
If the target unvoiced / voiced detection signal U / Vtar (t) has not changed from unvoiced (U) to voiced (V) (step S14; No), the process proceeds to step S15 as it is, and thereafter the same process is performed. I do.

【0045】[2.9] 変形スペクトラルシェイプ生
成部の動作 続いて、変形スペクトラルシェイプ生成部23は、静的
変化/ビブラート的変化分離部19から入力された入力
音声信号Svの正弦波成分に対応する元属性データであ
る平均アンプ静的成分Ame-sta、平均アンプビブラート
的成分Ame-vib、ピッチ静的成分Pme-sta、ピッチビブ
ラート的成分Pme-vib、スペクトラル・シェイプSme
(f)、正規化周波数F’n、イージーシンクロナイゼー
ション処理部22から入力された置換済ターゲットフレ
ーム情報データINFtar-syncに含まれるターゲット属
性データのうち正弦波成分に関するターゲット属性デー
タ(平均アンプ静的成分Atar-sync-sta、平均アンプビ
ブラート的成分Atar-sync-vib、ピッチ静的成分Ptar-
sync-sta、ピッチビブラート的成分Ptar-sync-vib及び
スペクトラル・シェイプStar-sync(f))及びコントロ
ーラ29から入力される変形スペクトラル・シェイプ生
成情報に基づいて、新しいスペクトラル・シェイプであ
る変形スペクトラル・シェイプSnew(f)を生成する。変
形スペクトラルシェイプの生成は、元歌唱者に対応する
スペクトラル・シェイプ(あるいは、ターゲット歌唱者
に対応するターゲットスペクトラル・シェイプ)を周波
数軸方向に定数αでシフトすることにより行う。
[2.9] Operation of Modified Spectral Shape Generation Unit Subsequently, the modified spectral shape generation unit 23 corresponds to the sine wave component of the input audio signal Sv input from the static change / vibrato change change separation unit 19. Average attribute static component Ame-sta, average amplifier vibrato component Ame-vib, pitch static component Pme-sta, pitch vibrato component Pme-vib, spectral shape Sme
(f), the normalized frequency F′n, the target attribute data regarding the sine wave component among the target attribute data included in the replaced target frame information data INFtar-sync input from the easy synchronization processing unit 22 (average amplifier static Component Atar-sync-sta, average amp vibrato component Atar-sync-vib, pitch static component Ptar-
Based on the sync-sta, the pitch vibrato-like component Ptar-sync-vib, and the spectral shape Star-sync (f)) and the deformed spectral shape generation information input from the controller 29, the deformed spectral shape as a new spectral shape is obtained. Generate the shape Snew (f). The generation of the modified spectral shape is performed by shifting the spectral shape corresponding to the former singer (or the target spectral shape corresponding to the target singer) by a constant α in the frequency axis direction.

【0046】この場合において、定数αは、以下のよう
にして求める。予め実験的に定めたシフト係数β(β=
1.2〜1.3/oct程度)とすると、 α=βk k=log2(forg/ftar) ただし、 forg:元歌唱者に対応するピッチ ftar:ターゲット歌唱者に対応するピッチ であり、実際には、kの小数点以下は四捨五入する。こ
こで、より具体的に、変形スペクトラルシェイプSnew
(f)の生成について説明する。
In this case, the constant α is obtained as follows. A shift coefficient β (β = β
1.2 to 1.3 / oct), α = βk k = log 2 (forg / ftar) where forg: pitch corresponding to the former singer ftar: pitch corresponding to the target singer Rounds off the decimal part of k. Here, more specifically, the deformed spectral shape Snew
The generation of (f) will be described.

【0047】[2.9.1] 男声→女声変換の場合 まず、ターゲット歌唱者が女性であり、元歌唱者が男性
である場合について説明する。図11にターゲット歌唱
者である女性のスペクトラル・シェイプを示す。図11
に示すように、ターゲット歌唱者の正弦波成分に含まれ
る周波数成分は、ff0〜ffnで表されている。図12に
元歌唱者である男性のスペクトラル・シェイプを示す。
図12に示すように、元歌唱者の正弦波成分に含まれる
周波数成分は、fm0〜fmnで表されている。また、各周
波数成分fm0〜fmnに対応するアンプは、Afm0〜Afmn
で表されている。この場合において、ターゲット歌唱者
のアンプA(ff)=Aff0、Aff1、…、Affnは元のま
まで、周波数成分ff0〜ffnのみをα倍して、すなわ
ち、定数αの値に相当するだけスペクトラル・シェイプ
を周波数軸に沿って低域側にシフトすることにより変形
スペクトラル・シェイプSnew(f)を生成する。まず、定
数αについて算出する。この場合において、シフト係数
β=1.2/octとする。この場合において、図11
及び図12に示すように、 forg=fm0 ftar=ff0 であるので、 k=log2(forg/ftar) =log2(fm0/ff0) となる。これにより α=βk = 1.2kとなる。 すなわち、変形スペクトラル・シェイプに対応する周波
数成分をfh0〜fhnと表すとすると、 fh0=α・ff0 fh1=α・ff1 fh2=α・ff2 …… fhn=α・ffn とし、図13及び以下に示す変形正弦波成分群(=周波
数成分及びアンプで表される正弦波成分の一群)により
特定される変形スペクトラルシェイプSnew(f)を得る。 (fh0、Aff0) (fh1、Aff1) (fh2、Aff2) …… (fh0、Aff0)
[2.9.1] Case of Male Voice to Female Voice Conversion First, a case where the target singer is a female and the former singer is a male will be described. FIG. 11 shows the spectral shape of a woman who is the target singer. FIG.
As shown in (1), frequency components included in the sine wave component of the target singer are represented by ff0 to ffn. FIG. 12 shows a spectral shape of a man who is a former singer.
As shown in FIG. 12, frequency components included in the sine wave component of the former singer are represented by fm0 to fmn. The amplifiers corresponding to the frequency components fm0 to fmn are Afm0 to Afmn.
It is represented by In this case, the amplifier A (ff) of the target singer = Aff0, Aff1,..., Affn is kept as it is, and only the frequency components ff0 to ffn are multiplied by α, that is, the spectral is equal to the value of the constant α. Generate a deformed spectral shape Snew (f) by shifting the shape to the lower side along the frequency axis. First, the constant α is calculated. In this case, the shift coefficient β is set to 1.2 / oct. In this case, FIG.
As shown in FIG. 12 and FIG. 12, since forg = fm0 ftar = ff0, k = log2 (forg / ftar) = log2 (fm0 / ff0). Thus, α = βk = 1.2k. That is, assuming that the frequency components corresponding to the deformed spectral shape are fh0 to fhn, fh0 = α · ff0 fh1 = α · ff1 fh2 = α · ff2... Fhn = α · ffn, and is shown in FIG. A modified spectral shape Snew (f) specified by a modified sine wave component group (= a group of sine wave components represented by frequency components and amplifiers) is obtained. (Fh0, Aff0) (fh1, Aff1) (fh2, Aff2) ... (fh0, Aff0)

【0048】[2.9.2] 女声→男声変換の場合 次に、ターゲット歌唱者が男性であり、元歌唱者が女性
である場合について説明する。図12に示した男性のス
ペクトラル・シェイプをターゲット歌唱者のスペクトラ
ルシェイプとする。この場合において、ターゲット歌唱
者のアンプA(fm)=Afm0、Afm1、…、Afmnは元の
ままで、周波数成分fm0〜fmnのみをα倍して、すなわ
ち、αの値に相当するだけスペクトラル・シェイプを周
波数軸に沿って高域側にシフトすることにより変形スペ
クトラル・シェイプを生成する。まず、定数αについて
算出する。この場合において、シフト係数β=1.2/
octとする。この場合において、図11及び図12に
示すように、 forg=ff0 ftar=fm0 であるので、 k=log2(forg/ftar) =log2(ff0/fm0) となる。これにより α=βk =1.2k となる。
[2.9.2] Conversion from Female to Male Voice Next, a case where the target singer is a male and the former singer is a female will be described. Let the male spectral shape shown in FIG. 12 be the spectral shape of the target singer. In this case, the amplifier A (fm) of the target singer = Afm0, Afm1,..., Afmn is unchanged, and only the frequency components fm0 to fmn are multiplied by α. A deformed spectral shape is generated by shifting the shape to a higher frequency side along the frequency axis. First, the constant α is calculated. In this case, the shift coefficient β = 1.2 /
oct. In this case, as shown in FIGS. 11 and 12, since forg = ff0 and ftar = fm0, k = log2 (forg / ftar) = log2 (ff0 / fm0). Thus, α = βk = 1.2k.

【0049】すなわち、変形スペクトラル・シェイプに
対応する周波数成分をfh0〜fhnと表すとすると、 fh0=α・fm0 fh1=α・fm1 fh2=α・fm2 …… fhn=α・fmn とし、図14及び以下に示す変形正弦波成分群により特
定される変形スペクトラルシェイプSnew(f)を得る。 (fh0、Afm0) (fh1、Afm1) (fh2、Afm2) …… (fh0、Afm0)
That is, assuming that the frequency components corresponding to the deformed spectral shape are fh0 to fhn, fh0 = α · fm0 fh1 = α · fm1 fh2 = α · fm2... Fhn = α · fmn, and FIG. A modified spectral shape Snew (f) specified by the following modified sine wave component group is obtained. (Fh0, Afm0) (fh1, Afm1) (fh2, Afm2) ... (fh0, Afm0)

【0050】ところで、一般的にアンプ成分が大きい場
合には、高域まで伸びた抜けの明るい音となり、アンプ
成分が小さい場合には、逆にこもった音になる。そこ
で、新規スペクトラル・シェイプSnew(f)に関しては、
このような状態をシミュレートすべく、図15に示すよ
うに、スペクトラル・シェイプの高域成分、すなわち、
高域成分部分のスペクトラル・シェイプの傾きを新規ア
ンプ成分Anewの大きさに応じて補償するスペクトラル
チルト補償(spectral tilt correction)を行って、コ
ントロールすることにより、よりリアルな音声を再生す
ることができる。続いて、生成された変形スペクトラル
・シェイプSnew(f)について、必要に応じてコントロー
ラ29から入力される変形スペクトラル・シェイプ加工
情報に基づいて、変形スペクトラル・シェイプ加工部2
4によりさらなる波形の加工を行う。例えば、変形スペ
クトラル・シェイプSnew(f)を全体的に間延びさせる等
の波形加工を行う。
By the way, generally, when the amplifier component is large, it becomes a bright sound that extends to a high frequency range, and when the amplifier component is small, it becomes a muffled sound. Therefore, regarding the new spectral shape Snew (f),
In order to simulate such a state, as shown in FIG. 15, the high frequency component of the spectral shape, that is,
A more realistic sound can be reproduced by performing and controlling spectral tilt correction for compensating for the inclination of the spectral shape of the high-frequency component according to the magnitude of the new amplifier component Anew. . Subsequently, based on the deformed spectral shape processing information input from the controller 29 as needed, the generated deformed spectral shape processing unit 2 performs the generated deformed spectral shape Snew (f).
4 is used to further process the waveform. For example, waveform processing such as extending the deformed spectral shape Snew (f) entirely is performed.

【0051】[2.10] 残差成分選択部の動作 一方、残差成分選択部25は、イージーシンクロナイゼ
ーション処理部22から入力された置換済ターゲットフ
レーム情報データINFtar-syncに含まれるターゲット
属性データのうち残差成分に関するターゲット属性デー
タ(残差成分Rtar-sync(f))、残差成分保持部12に
保持されている残差成分信号(周波数波形)Rme(f)及
びコントローラ29から入力される残差成分属性データ
選択情報に基づいて新しい残差成分属性データである新
規残差成分Rnew(f)を生成する。すなわち、新規残差成
分Rnew(f)については、次式により生成する。 Rnew(f)=R*(f)(ただし、*は、me又はtar-sync) この場合においては、me又はtar-syncのいずれを選択す
るかは、新規スペクトラル・シェイプSnew(f)と同一の
ものを選択するのがより好ましい。さらに、新規残差成
分Rnew(f)に関しても、新規スペクトラル・シェイプと
同様な状態をシミュレートすべく、図10に示したよう
に、残差成分の高域成分、すなわち、高域成分部分の残
差成分の傾きを新規アンプ成分Anewの大きさに応じて
補償するスペクトラルチルト補償(spectral tilt corr
ection)を行って、コントロールすることにより、より
リアルな音声を再生することができる。
[2.10] Operation of Residual Component Selection Unit On the other hand, the residual component selection unit 25 includes a target attribute included in the replaced target frame information data INFtar-sync input from the easy synchronization processing unit 22. Target attribute data (residual component Rtar-sync (f)) relating to the residual component of the data, the residual component signal (frequency waveform) Rme (f) held in the residual component holding unit 12 and input from the controller 29 Based on the residual component attribute data selection information to be generated, a new residual component Rnew (f), which is new residual component attribute data, is generated. That is, the new residual component Rnew (f) is generated by the following equation. Rnew (f) = R * (f) (* is me or tar-sync) In this case, whether to select me or tar-sync is the same as the new spectral shape Snew (f) It is more preferred to select Further, as for the new residual component Rnew (f), in order to simulate the same state as the new spectral shape, as shown in FIG. 10, the high frequency component of the residual component, that is, the high frequency component portion Spectral tilt compensation for compensating the slope of the residual component according to the magnitude of the new amplifier component Anew
section), and by controlling, a more realistic sound can be reproduced.

【0052】[2.11] 正弦波成分生成部の動作 続いて、正弦波成分生成部26は、変形スペクトラル・
シェイプ加工部24から出力された波形加工を伴わな
い、あるいは、波形加工を伴う変形スペクトラル・シェ
イプSnew(f)に基づいて、当該フレームにおける新たな
正弦波成分(F”0、A”0)、(F”1、A”1)、
(F”2、A”2)、……、(F”(N-1)、A”(N-1))
のN個の正弦波成分(以下、これらをまとめてF”n、
A”nと表記する。n=0〜(N−1)。)を求める。
より具体的には、次式により新規周波数f”nおよび新
規アンプa”nを求める。 F”n=F’n×Pnew A”n=Snew(f”n)×Anew なお、完全倍音構造のモデルとして捉えるのであれば、 F”n=(n+1)×Pnew となる。
[2.11] Operation of Sine Wave Component Generation Unit Next, the sine wave component generation unit 26
A new sine wave component (F "0, A" 0) in the frame based on the deformed spectral shape Snew (f) without or with waveform processing output from the shape processing unit 24, (F "1, A" 1),
(F "2, A" 2), ..., (F "(N-1), A" (N-1))
N sinusoidal wave components (hereinafter collectively referred to as F ″ n,
A "n. N = 0 to (N-1).
More specifically, a new frequency f "n and a new amplifier a" n are obtained by the following equations. F "n = F'n.times.Pnew A" n = Snew (f "n) .times.Anew If it is considered as a model of a perfect harmonic structure, F" n = (n + 1) .times.Pnew.

【0053】[2.12] 正弦波成分変形部の動作 さらに、求めた新規周波数F”nおよび新規アンプA”
nについて、必要に応じてコントローラ29から入力さ
れる正弦波成分変形情報に基づいて、正弦波成分変形部
27によりさらなる変形を行ない、新規周波数F”’n
および新規アンプA”’nとして出力する。例えば、偶
数次成分の新規アンプA”n(=A”0、A”2、A”
4、……)だけを大きく(例えば、2倍する)等の変形
を行う。これによって得られる変換音声にさらにバラエ
ティーを持たせることが可能となる。
[2.12] Operation of Sine Wave Component Deformation Unit Further, the obtained new frequency F "n and new amplifier A"
n is further modified by the sine wave component transformation unit 27 based on the sine wave component transformation information input from the controller 29 as necessary, and the new frequency F ″ ′ n
And new amplifiers A "'n. For example, new amplifiers A" n (= A "0, A" 2, A ") of even-order components
4,...) Are increased (for example, doubled). As a result, it is possible to give the converted speech further variety.

【0054】[2.13] 逆高速フーリエ変換部の動
作 次に逆高速フーリエ変換部28は、求めた新規周波数
F”’nおよび新規アンプA”’n(=新規正弦波成
分)並びに新規残差成分Rnew(f)をFFTバッファに格
納し、順次逆FFTを行い、さらに得られた時間軸信号
を一部重複するようにオーバーラップ処理し、それらを
加算する加算処理を行うことにより新しい有声音の時間
軸信号である変換音声信号を生成する。このとき、コン
トローラ29から入力される正弦波成分/残差成分バラ
ンス制御信号に基づいて、正弦波成分及び残差成分の混
合比率を制御し、よりリアルな有声信号を得る。この場
合において、一般的には、残差成分の混合比率を大きく
するとざらついた声が得られる。
[2.13] Operation of Inverse Fast Fourier Transform Unit Next, the inverse fast Fourier transform unit 28 calculates the new frequency F ″ ′ n and the new amplifier A ″ ′ n (= new sine wave component) and the new residual The difference component Rnew (f) is stored in the FFT buffer, the inverse FFT is sequentially performed, the obtained time axis signals are overlapped so as to partially overlap, and an addition process of adding them is performed to perform a new addition. A converted voice signal that is a time axis signal of the voice is generated. At this time, based on the sine wave component / residual component balance control signal input from the controller 29, the mixing ratio of the sine wave component and the residual component is controlled to obtain a more realistic voiced signal. In this case, generally, a rough voice is obtained by increasing the mixing ratio of the residual components.

【0055】この場合において、FFTバッファに新規
周波数f”nおよび新規アンプa”n(=新規正弦波成
分)並びに新規残差成分Rnew(f)を格納するに際し、異
なるピッチ、かつ、適当なピッチで変換された正弦波成
分をさらに加えることにより変換音声信号としてハーモ
ニーを得ることができる。さらにシーケンサ31により
伴奏音に適合したハーモニーピッチを与えることによ
り、伴奏に適合した音楽的ハーモニーを得ることができ
る。
In this case, when the new frequency f "n, the new amplifier a" n (= new sine wave component) and the new residual component Rnew (f) are stored in the FFT buffer, a different pitch and an appropriate pitch are used. By adding the sine wave component converted by the above, harmony can be obtained as a converted audio signal. Further, by giving a harmony pitch adapted to the accompaniment sound by the sequencer 31, musical harmony adapted to the accompaniment can be obtained.

【0056】[2.14] クロスフェーダの動作 次にクロスフェーダ30は、元無声/有声検出信号U/
Vme(t)に基づいて、入力音声信号Svが無声(U)であ
る場合には、入力音声信号Svをそのままミキサ30に
出力する。また、入力音声信号Svが有声(V)である
場合には、逆FFT変換部28が出力した変換音声信号
をミキサ30に出力する。この場合において、切替スイ
ッチとしてクロスフェーダ30を用いているのは、クロ
スフェード動作を行わせることによりスイッチ切替時の
クリック音の発生を防止するためである。
[2.14] Operation of Crossfader Next, the crossfader 30 transmits the original unvoiced / voiced detection signal U /
If the input audio signal Sv is unvoiced (U) based on Vme (t), the input audio signal Sv is output to the mixer 30 as it is. If the input audio signal Sv is voiced (V), the converted audio signal output from the inverse FFT converter 28 is output to the mixer 30. In this case, the reason why the cross fader 30 is used as the changeover switch is to prevent a click sound from occurring at the time of switch changeover by performing a crossfade operation.

【0057】[2.15] シーケンサ、音源部、ミキ
サ及び出力部の動作 一方、シーケンサ31は、カラオケの伴奏音を発生する
ための音源制御情報を例えば、MIDI(Musical Inst
rument Digital Interface)データなどとして音源部3
2に出力する。これにより音源部32は、音源制御情報
に基づいて伴奏信号を生成し、ミキサ33に出力する。
ミキサ33は、入力音声信号Svあるいは変換音声信号
のいずれか一方及び伴奏信号を混合し、混合信号を出力
部34に出力する。出力部34は、図示しない増幅器を
有し混合信号を増幅して音響信号として出力することと
なる。
[2.15] Operation of Sequencer, Sound Source Unit, Mixer, and Output Unit On the other hand, the sequencer 31 transmits sound source control information for generating a karaoke accompaniment sound to, for example, MIDI (Musical Instrument).
rument Digital Interface) sound source section 3 as data etc.
Output to 2. Thereby, the sound source section 32 generates an accompaniment signal based on the sound source control information, and outputs the accompaniment signal to the mixer 33.
The mixer 33 mixes either the input audio signal Sv or the converted audio signal and the accompaniment signal, and outputs the mixed signal to the output unit 34. The output unit 34 has an amplifier (not shown), amplifies the mixed signal, and outputs it as an acoustic signal.

【0058】[3] 実施形態の変形例 [3.1] 第1変形例 上記実施形態の説明においては、ターゲット歌唱者のス
ペクトラル・シェイプをシフトするように構成していた
が、同様にして元歌唱者のスペクトラル・シェイプをシ
フトするように構成することも可能である。 [3.2] 第2変形例 上記実施形態の説明においては、元歌唱者のスペクトラ
ル・シェイプに基づいて生成した変形スペクトラル・シ
ェイプ及びターゲット歌唱者のターゲット音声信号の正
弦波成分に含まれる周波数成分に基づいて正弦波成分群
を算出し、変換音声を得る構成としていたが、ターゲッ
ト歌唱者のスペクトラル・シェイプに基づいて生成した
変形スペクトラル・シェイプ及び元歌唱者の入力音声信
号の正弦波成分に含まれる周波数成分に基づいて正弦波
成分群を算出し、変換音声を得る構成とすることも可能
である。
[3] Modified Example of Embodiment [3.1] First Modified Example In the description of the above embodiment, the spectral shape of the target singer is shifted, but similarly, the original shape is changed. It can also be configured to shift the singer's spectral shape. [3.2] Second Modification In the description of the above-described embodiment, the modified spectral shape generated based on the spectral shape of the former singer and the frequency component included in the sine wave component of the target voice signal of the target singer The sine wave component group is calculated based on the target singer, and the converted sine wave component is obtained.However, the sine wave component of the input voice signal of the original singer and the modified spectral shape generated based on the spectral shape of the target singer are included. It is also possible to adopt a configuration in which a sine wave component group is calculated based on the frequency components to be obtained to obtain a converted voice.

【0059】[3.3] 第3変形例 正弦波成分の抽出は、この実施形態で用いた方法に限ら
ない。要は、音声信号に含まれる正弦波成分を抽出でき
ればよい。 [3.4] 第4変形例 本実施形態においては、ターゲットの正弦波成分及び残
差成分を記憶したが、これに換えて、ターゲットの音声
そのものを記憶し、それを読み出してリアルタイム処理
によって正弦波成分と残差成分とを抽出してもよい。す
なわち、本実施形態でものまねをしようとする歌唱者の
音声に対して行った処理と同様の処理をターゲットの歌
唱者の音声に対して行ってもよい。
[3.3] Third Modification The extraction of the sine wave component is not limited to the method used in this embodiment. In short, it is only necessary to extract a sine wave component included in the audio signal. [3.4] Fourth Modification In the present embodiment, the sine wave component and the residual component of the target are stored. Instead, the target voice itself is stored, read out, and the sine wave is read out by real-time processing. The wave component and the residual component may be extracted. That is, processing similar to the processing performed on the voice of the singer trying to imitate in the present embodiment may be performed on the voice of the target singer.

【0060】[4] 実施形態の効果 以上の結果、カラオケの伴奏とともに、元歌唱者の歌が
出力され、その声質および歌い方などは、ターゲット歌
唱者の影響を大きく受けた変換音声として出力される
が、得られる変換音声は、歌唱者及び楽曲依存の固定効
果パラメータを用いる場合と異なり、元歌唱者の生の音
声成分に基づく(動的)効果パラメータを用いた音声変
換となり、聴感上自然なものとなる。
[4] Effects of the Embodiment As a result, along with the accompaniment of karaoke, the song of the former singer is output, and its voice quality and singing style are output as converted voices greatly influenced by the target singer. However, unlike the case where fixed effect parameters depending on the singer and the music are used, the obtained converted sound is converted into a sound using a (dynamic) effect parameter based on the raw voice component of the original singer, and the natural sound is audibly natural. It becomes something.

【0061】[0061]

【発明の効果】以上説明したように、この発明によれ
ば、聴感上自然な変換音声を容易に得ることが可能とな
る。
As described above, according to the present invention, it is possible to easily obtain a converted sound that is natural in audibility.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の一実施形態の構成を示すブロック図
(その1)である。
FIG. 1 is a block diagram (part 1) illustrating a configuration of an embodiment of the present invention.

【図2】 本発明の一実施形態の構成を示すブロック図
(その2)である。
FIG. 2 is a block diagram (part 2) showing a configuration of an embodiment of the present invention.

【図3】 実施形態におけるフレームの状態を示す図で
ある。
FIG. 3 is a diagram illustrating a state of a frame according to the embodiment.

【図4】 実施形態における周波数スペクトルのピーク
検出を説明するための説明図である。
FIG. 4 is an explanatory diagram for describing peak detection of a frequency spectrum in the embodiment.

【図5】 実施形態におけるフレーム毎のピーク値の連
携を示す図である。
FIG. 5 is a diagram illustrating cooperation of peak values for each frame in the embodiment.

【図6】 実施形態における周波数値の変化状態を示す
図である。
FIG. 6 is a diagram illustrating a change state of a frequency value in the embodiment.

【図7】 実施形態における処理過程における確定成分
の変化状態を示す図である。
FIG. 7 is a diagram showing a change state of a deterministic component in a process in the embodiment.

【図8】 実施形態における信号処理の説明図である。FIG. 8 is an explanatory diagram of signal processing in the embodiment.

【図9】 イージーシンクロナイゼーション処理のタイ
ミングチャートである。
FIG. 9 is a timing chart of an easy synchronization process.

【図10】 イージーシンクロナイゼーション処理フロ
ーチャートである。
FIG. 10 is a flowchart of an easy synchronization process.

【図11】 女性のスペクトラル・シェイプを説明する
図である。
FIG. 11 is a diagram illustrating a female spectral shape.

【図12】 男性のスペクトラル・シェイプを説明する
図である。
FIG. 12 is a diagram illustrating a male spectral shape.

【図13】 男声→女声変換の処理説明図である。FIG. 13 is an explanatory diagram of a male-to-female conversion process.

【図14】 女声→男声変換の処理説明図である。FIG. 14 is an explanatory diagram of a female-to-male conversion process.

【図15】 スペクトラル・シェイプのスペクトラルチ
ルト補償について説明する図である。
FIG. 15 is a diagram for explaining spectral tilt compensation of a spectral shape.

【符号の説明】[Explanation of symbols]

1…マイク、2…分析窓生成部、3…入力音声信号切出
部、4…高速フーリエ変換部、5…ピーク検出部、6…
無声/有声検出部、7…ピッチ抽出部、8…ピーク連携
部、9…補間合成部、10…残差成分検出部、11…高
速フーリエ変換部、12…残差成分保持部、13…正弦
波成分保持部、14…平均アンプ演算部、15…アンプ
正規化部、16…スペクトラル・シェイプ演算部、17
…ピッチ正規化部、18…元フレーム情報保持部、19
…静的変化/ビブラート的変化分離部、20…ターゲッ
トフレーム情報保持部、21…キーコントロール/テン
ポチェンジ部、22…イージーシンクロナイゼーション
処理部、23…変形スペクトラル・シェイプ生成部、2
4…変形スペクトラル・シェイプ加工部、25…残差成
分選択部、26…正弦波成分生成部、27…正弦波成分
変形部、28…逆高速フーリエ変換部、29…コントロ
ーラ、30…クロスフェーダ部、31…シーケンサ、3
2…音源部、33…ミキサ、34…出力部
DESCRIPTION OF SYMBOLS 1 ... Microphone, 2 ... Analysis window generation part, 3 ... Input audio signal extraction part, 4 ... Fast Fourier transform part, 5 ... Peak detection part, 6 ...
Unvoiced / voiced detection unit, 7: pitch extraction unit, 8: peak linking unit, 9: interpolation synthesis unit, 10: residual component detection unit, 11: fast Fourier transform unit, 12: residual component holding unit, 13: sine Wave component holding unit, 14: average amplifier calculation unit, 15: amplifier normalization unit, 16: spectral shape calculation unit, 17
... Pitch normalizing section, 18 ... Original frame information holding section, 19
... Static change / vibrato change separation section, 20 ... Target frame information holding section, 21 ... Key control / tempo change section, 22 ... Easy synchronization processing section, 23 ... Deformed spectral shape generation section, 2
4 ... deformed spectral shape processing section, 25 ... residual component selection section, 26 ... sine wave component generation section, 27 ... sine wave component deformation section, 28 ... inverse fast Fourier transform section, 29 ... controller, 30 ... cross fader section , 31 ... sequencer, 3
2 ... sound source section, 33 ... mixer, 34 ... output section

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 入力音声信号から周波数軸上におけるス
ペクトラル・シェイプを抽出するスペクトラルシェイプ
抽出手段と、 前記入力音声信号のピッチ及びターゲット音声信号のピ
ッチに基づいて定数αを算出し、前記スペクトラル・シ
ェイプを周波数軸方向にα倍シフトすることにより変形
スペクトラル・シェイプを生成するスペクトラル・シェ
イプ変形手段と、 前記ターゲット音声信号から抽出した正弦波成分に含ま
れる周波数成分及び前記変形スペクトラル・シェイプに
基づいて正弦波成分情報を生成する正弦波成分情報生成
手段と、 前記正弦波成分情報に基づいて変換音声信号を生成し、
出力する音声生成手段と、 を備えたことを特徴とする音声変換装置。
1. A spectral shape extracting means for extracting a spectral shape on a frequency axis from an input audio signal, a constant α is calculated based on a pitch of the input audio signal and a pitch of a target audio signal, and the spectral shape is calculated. Is shifted by α times in the frequency axis direction to generate a modified spectral shape, and a sine based on the frequency component included in the sine wave component extracted from the target audio signal and the modified spectral shape. Sine wave component information generating means for generating wave component information, generating a converted audio signal based on the sine wave component information,
A voice conversion device, comprising: a voice generation unit for outputting.
【請求項2】 入力音声信号の正弦波成分を抽出する正
弦波成分抽出手段と、 前記入力音声信号のピッチ及びターゲット音声信号のピ
ッチに基づいて定数αを算出し、前記ターゲット音声信
号から予め抽出した周波数軸上におけるターゲットスペ
クトラル・シェイプを周波数軸方向にα倍シフトするこ
とにより変形ターゲットスペクトラル・シェイプを生成
するターゲットスペクトラル・シェイプ変形手段と、 前記正弦波成分に含まれる周波数成分及び前記変形ター
ゲットスペクトラル・シェイプに基づいて正弦波成分情
報を生成する正弦波成分情報生成手段と、 前記正弦波成分情報に基づいて変換音声信号を生成し、
出力する音声生成手段と、 を備えたことを特徴とする音声変換装置。
2. A sine wave component extracting means for extracting a sine wave component of an input audio signal, and a constant α is calculated based on a pitch of the input audio signal and a pitch of a target audio signal, and is previously extracted from the target audio signal. A target spectral shape deforming means for generating a deformed target spectral shape by shifting the target spectral shape on the frequency axis by α times in the frequency axis direction, a frequency component included in the sine wave component and the deformed target spectrum A sine wave component information generating means for generating sine wave component information based on the shape, and generating a converted audio signal based on the sine wave component information;
A voice conversion device, comprising: a voice generation unit for outputting.
【請求項3】 請求項1または請求項2に記載の音声変
換装置において、 予め定めたシフト係数をβとし、前記入力音声信号のピ
ッチをforgとし、前記ターゲット音声信号のピッチft
arとした場合に、前記αを次式により算出することを特
徴とする音声変換装置。 α=βk ただし、k=log2(forg/ftar)
3. The voice converter according to claim 1, wherein a predetermined shift coefficient is β, a pitch of the input voice signal is forg, and a pitch ft of the target voice signal is ft.
A sound conversion apparatus characterized in that when α is set, α is calculated by the following equation. α = βk where k = log2 (forg / ftar)
【請求項4】 入力音声から周波数軸上におけるスペク
トラル・シェイプを抽出するスペクトラルシェイプ抽出
工程と、 前記入力音声のピッチ及びターゲット音声のピッチに基
づいて定数αを算出し、前記スペクトラル・シェイプを
周波数軸方向にα倍シフトすることにより変形スペクト
ラル・シェイプを生成するスペクトラル・シェイプ変形
工程と、 前記ターゲット音声から抽出した正弦波成分に含まれる
周波数成分及び前記変形スペクトラル・シェイプに基づ
いて正弦波成分情報を生成する正弦波成分情報生成工程
と、 前記正弦波成分情報に基づいて変換音声を生成する音声
生成工程と、 を備えたことを特徴とする音声変換方法。
4. A spectral shape extracting step of extracting a spectral shape on a frequency axis from an input voice, calculating a constant α based on a pitch of the input voice and a pitch of a target voice, and converting the spectral shape into a frequency axis. Spectral shape deformation step of generating a deformed spectral shape by shifting by α times in the direction, and sine wave component information based on the frequency component included in the sine wave component extracted from the target voice and the deformed spectral shape. A voice conversion method, comprising: generating a sine wave component information; and generating a converted voice based on the sine wave component information.
【請求項5】 入力音声の正弦波成分を抽出する正弦波
成分抽出工程と、 前記入力音声のピッチ及びターゲット音声のピッチに基
づいて定数αを算出し、前記ターゲット音声から予め抽
出した周波数軸上におけるターゲットスペクトラル・シ
ェイプを周波数軸方向にα倍シフトすることにより変形
ターゲットスペクトラル・シェイプを生成するターゲッ
トスペクトラル・シェイプ変形工程と、 前記正弦波成分に含まれる周波数成分及び前記変形ター
ゲットスペクトラル・シェイプに基づいて正弦波成分情
報を生成する正弦波成分情報生成工程と、 前記正弦波成分情報に基づいて変換音声を生成する音声
生成工程と、 を備えたことを特徴とする音声変換方法。
5. A sine wave component extracting step of extracting a sine wave component of the input voice, a constant α is calculated based on the pitch of the input voice and the pitch of the target voice, and a constant α is calculated on the frequency axis previously extracted from the target voice. A target spectral shape deforming step of generating a deformed target spectral shape by shifting the target spectral shape in the frequency axis direction by α times, based on the frequency component included in the sine wave component and the deformed target spectral shape A sine-wave component information generating step of generating sine-wave component information by using the sine-wave component information, and a voice generating step of generating a converted voice based on the sine-wave component information.
【請求項6】 請求項4または請求項5に記載の音声変
換方法において、 予め定めたシフト係数をβとし、前記入力音声信号のピ
ッチをforgとし、前記ターゲット音声信号のピッチft
arとした場合に、前記αを次式により算出することを特
徴とする音声変換方法。 α=βk ただし、k=log2(forg/ftar)
6. The voice conversion method according to claim 4, wherein a predetermined shift coefficient is β, a pitch of the input voice signal is forg, and a pitch ft of the target voice signal is ft.
A voice conversion method, wherein, when ar is set, the α is calculated by the following equation. α = βk where k = log2 (forg / ftar)
JP17191298A 1998-06-18 1998-06-18 Voice conversion device and voice conversion method Expired - Fee Related JP3540160B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17191298A JP3540160B2 (en) 1998-06-18 1998-06-18 Voice conversion device and voice conversion method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17191298A JP3540160B2 (en) 1998-06-18 1998-06-18 Voice conversion device and voice conversion method

Publications (2)

Publication Number Publication Date
JP2000010598A true JP2000010598A (en) 2000-01-14
JP3540160B2 JP3540160B2 (en) 2004-07-07

Family

ID=15932146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17191298A Expired - Fee Related JP3540160B2 (en) 1998-06-18 1998-06-18 Voice conversion device and voice conversion method

Country Status (1)

Country Link
JP (1) JP3540160B2 (en)

Also Published As

Publication number Publication date
JP3540160B2 (en) 2004-07-07

Similar Documents

Publication Publication Date Title
US7606709B2 (en) Voice converter with extraction and modification of attribute data
JP3985814B2 (en) Singing synthesis device
US5642470A (en) Singing voice synthesizing device for synthesizing natural chorus voices by modulating synthesized voice with fluctuation and emphasis
JP3502247B2 (en) Voice converter
WO2018084305A1 (en) Voice synthesis method
Bonada et al. Sample-based singing voice synthesizer by spectral concatenation
US6944589B2 (en) Voice analyzing and synthesizing apparatus and method, and program
Bonada et al. Singing voice synthesis combining excitation plus resonance and sinusoidal plus residual models
JP3540159B2 (en) Voice conversion device and voice conversion method
JP2003345400A (en) Method, device, and program for pitch conversion
JP3502268B2 (en) Audio signal processing device and audio signal processing method
JP4757971B2 (en) Harmony sound adding device
JP3447221B2 (en) Voice conversion device, voice conversion method, and recording medium storing voice conversion program
JP3706249B2 (en) Voice conversion device, voice conversion method, and recording medium recording voice conversion program
JP3540609B2 (en) Voice conversion device and voice conversion method
JP3294192B2 (en) Voice conversion device and voice conversion method
JP3949828B2 (en) Voice conversion device and voice conversion method
JP3540160B2 (en) Voice conversion device and voice conversion method
JP3447220B2 (en) Voice conversion device and voice conversion method
JP2000003187A (en) Method and device for storing voice feature information
JP3934793B2 (en) Voice conversion device and voice conversion method
JP3907838B2 (en) Voice conversion device and voice conversion method
JP3907027B2 (en) Voice conversion device and voice conversion method
JPH11143460A (en) Method for separating, extracting by separating, and removing by separating melody included in musical performance
JPH0981175A (en) Voice rule synthesis device

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040105

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040324

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090402

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090402

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100402

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110402

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120402

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130402

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140402

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees