JP3294192B2 - Voice conversion device and voice conversion method - Google Patents

Voice conversion device and voice conversion method

Info

Publication number
JP3294192B2
JP3294192B2 JP17503898A JP17503898A JP3294192B2 JP 3294192 B2 JP3294192 B2 JP 3294192B2 JP 17503898 A JP17503898 A JP 17503898A JP 17503898 A JP17503898 A JP 17503898A JP 3294192 B2 JP3294192 B2 JP 3294192B2
Authority
JP
Japan
Prior art keywords
component
sine wave
pitch
unit
wave component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP17503898A
Other languages
Japanese (ja)
Other versions
JP2000010599A (en
Inventor
啓 嘉山
セラ ザビエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP17503898A priority Critical patent/JP3294192B2/en
Priority to TW088108973A priority patent/TW430778B/en
Priority to EP99110936A priority patent/EP0982713A3/en
Priority to EP10009510A priority patent/EP2264696B1/en
Priority to EP12000670A priority patent/EP2450887A1/en
Publication of JP2000010599A publication Critical patent/JP2000010599A/en
Application granted granted Critical
Publication of JP3294192B2 publication Critical patent/JP3294192B2/en
Priority to US10/282,536 priority patent/US7606709B2/en
Priority to US10/282,992 priority patent/US20030055647A1/en
Priority to US10/282,754 priority patent/US7149682B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声変換装置及び
音声変換方法に係り、特にカラオケ等で歌唱者の歌声
が、音声変換の対象となる特定の歌唱者の歌声になるよ
うに、また歌声を別人が歌っているように変換する音声
変換装置及び音声変換方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice conversion apparatus and a voice conversion method, and more particularly to a singer's singing voice in karaoke or the like, and a singing voice of a specific singer to be converted. The present invention relates to a voice conversion device and a voice conversion method for converting a voice as if another person were singing.

【0002】[0002]

【従来の技術】入力された音声の周波数特性などを変え
て出力する音声変換装置は種々開発されており、例え
ば、カラオケ装置の中には、歌い手の歌った歌声のピッ
チを変換して、男性の声を女性の声に、あるいはその逆
に変換させるものもある(例えば、特表平8−5085
81号公報参照)。
2. Description of the Related Art There have been developed various voice converters for changing the frequency characteristics and the like of an input voice and outputting the converted voice. For example, some karaoke devices convert the pitch of a singer's singing voice into a male voice. Some voices are converted to female voices and vice versa (for example, Japanese Translation of International Patent Application No. Hei 8-5085).
No. 81).

【0003】[0003]

【発明が解決しようとする課題】しかしながら、従来の
音声変換装置においては、音声の変換(例えば、男声→
女声、女声→男声など)は行われるものの、単に声質を
変えるだけに止まっていたので、例えば、特定の歌唱者
(例えば、プロの歌手)の声に似せるように変換すると
いうことはできなかった。また、声質だけでなく、歌い
方までも特定の歌唱者に似させるという、ものまねのよ
うな機能があれば、カラオケ装置などにおいては大変に
面白いが、従来の音声変換装置ではこのような処理は不
可能であった。
However, in the conventional voice converter, voice conversion (for example, male voice →
Female voices, female voices → male voices etc. were performed, but only the voice quality was changed, so it could not be converted, for example, to resemble the voice of a specific singer (for example, a professional singer) . Also, if there is a function like imitation that makes not only voice quality but also singing style similar to a specific singer, it is very interesting in karaoke equipment etc. It was impossible.

【0004】これらを解決するための手法として、音声
信号を正弦波の合成で表す正弦波(SIN)成分と、そ
れ以外の正弦波成分で表すことができない残差(RES
IDUAL)成分とで表す信号処理により、歌唱者の音
声信号(正弦波成分、残差成分)を、音声変換の対象と
なる特定の歌唱者の音声信号(正弦波成分、残差成分)
に基づいて変形させ、ものまね対象となる声質や歌い方
が反映された音声信号を生成し、伴奏とともに出力する
音声変換装置が考えられる。
As a technique for solving these problems, a sine wave (SIN) component representing an audio signal by synthesizing a sine wave and a residual (RES) that cannot be represented by other sine wave components.
By the signal processing represented by an IDUAL) component, a singer's voice signal (sine wave component, residual component) is converted into a specific singer's voice signal (sine wave component, residual component) to be subjected to voice conversion.
, A voice conversion device that generates a voice signal reflecting the voice quality and singing style to be imitated and outputs the voice signal along with the accompaniment.

【0005】このような音声変換装置を構成した場合、
残差成分には、ピッチ成分が含まれるため、正弦波成分
と残差成分とをそれぞれ音声変換処理して合成すると、
聴取者は、正弦波成分及び残差成分の各々に含まれるピ
ッチ成分を聴取することとなる。従って、正弦波成分及
び残差成分の各々に含まれるピッチ成分が異なる周波数
の場合には、音声変換処理された音声の自然性が損なわ
れてしまうと可能性がある。そこで、本発明の目的は、
音声の自然性を損なうことなく、音声変換することがで
きる音声変換装置及び音声変換方法を提供することにあ
る。
[0005] When such an audio converter is constructed,
Since the residual component includes a pitch component, the sine wave component and the residual component are subjected to voice conversion processing and synthesized, respectively.
The listener listens to the pitch components included in each of the sine wave component and the residual component. Therefore, when the pitch components included in each of the sine wave component and the residual component have different frequencies, there is a possibility that the naturalness of the voice that has been subjected to the voice conversion processing may be impaired. Therefore, an object of the present invention is to
An object of the present invention is to provide a voice conversion device and a voice conversion method that can perform voice conversion without impairing the naturalness of voice.

【0006】[0006]

【課題を解決するための手段】上述した問題点を解決す
るために、請求項1記載の構成は、入力音声信号から正
弦波成分を抽出する正弦波成分抽出手段と、前記正弦波
成分抽出手段により抽出された正弦波成分以外の残差成
分を、前記入力音声信号から抽出する残差成分抽出手段
と、前記正弦波成分抽出手段により抽出された正弦波成
分を、ターゲット音声信号の正弦波成分に基づいて変形
する正弦波成分変形手段と、前記残差成分抽出手段によ
り抽出された残差成分を、前記ターゲット音声信号の残
差成分に基づいて変形する残差成分変形手段と、前記残
差成分変形手段により得られた残差成分のピッチ成分お
よびその倍音成分を除去する除去手段と、前記正弦波成
分変形手段により変形された正弦波成分と、前記除去手
段によりピッチ成分およびその倍音成分が除去された残
差成分とを合成する合成手段と、を具備することを特徴
としている。
According to a first aspect of the present invention, there is provided a sine wave component extracting means for extracting a sine wave component from an input voice signal, and the sine wave component extracting means. A residual component extracting means for extracting a residual component other than the sine wave component extracted from the input audio signal, and a sine wave component extracted by the sine wave component extracting means as a sine wave component of the target audio signal. A sinusoidal wave component transforming means for transforming the residual component extracted by the residual component extracting means based on the residual component of the target audio signal; and a residual component transforming means for transforming the residual component extracted by the residual component extracting means. Removing means for removing the pitch component of the residual component obtained by the component deforming means and its overtone component; a sine wave component deformed by the sine wave component deforming means; And it is characterized by comprising synthesizing means for its harmonic component combines the removed residual component, a.

【0007】請求項2記載の構成は、請求項1記載の構
成において、前記入力音声信号の正弦波成分のピッチ、
前記ターゲット音声信号の正弦波成分のピッチ、前記正
弦波成分変形手段により得られた正弦波成分のピッチの
いずれかを、前記除去手段における減衰ピークのピッチ
とするピッチ決定手段を具備することを特徴としてい
る。
According to a second aspect of the present invention, in the configuration of the first aspect, a pitch of a sine wave component of the input audio signal is obtained.
A pitch determining unit is provided which sets any one of a pitch of a sine wave component of the target audio signal and a pitch of a sine wave component obtained by the sine wave component deforming unit as a pitch of an attenuation peak in the removing unit. And

【0008】請求項3記載の構成は、請求項1記載の構
成において、前記除去手段は、前記残差成分を周波数軸
上で保持する場合には、前記ピッチ決定手段により決定
された減衰ピークのピッチを有するくし形フィルタであ
ることを特徴としている。
According to a third aspect of the present invention, in the configuration of the first aspect, when the removing unit holds the residual component on a frequency axis, the removing unit removes the attenuation peak determined by the pitch determining unit. It is a comb filter having a pitch.

【0009】請求項4記載の構成は、請求項1記載の構
成において、前記除去手段は、前記残差成分を時間軸上
で保持する場合には、前記ピッチ決定手段により決定さ
れた減衰ピークのピッチの逆数を遅延時間とする遅延フ
ィルタを有するくし形フィルタであることを特徴として
いる。
According to a fourth aspect of the present invention, in the configuration of the first aspect, when the removing unit holds the residual component on a time axis, the removing unit removes the attenuation peak determined by the pitch determining unit. It is characterized in that it is a comb filter having a delay filter whose delay time is the reciprocal of the pitch.

【0010】請求項5記載の構成は、入力音声から正弦
波成分及び前記正弦波成分以外の成分である残差成分を
抽出する成分抽出工程と、前記抽出された正弦波成分
を、ターゲット音声の正弦波成分に基づいて変形する正
弦波成分変形工程と、前記抽出された残差成分を、前記
ターゲット音声の残差成分に基づいて変形する残差成分
変形工程と、前記残差成分変形工程において得られた残
差成分のピッチ成分およびその倍音成分を除去する除去
工程と、前記正弦波成分変形工程において変形された正
弦波成分と、前記除去工程において得られたピッチ成分
およびその倍音成分が除去された残差成分とを合成する
合成工程とを具備することを特徴としている。
According to a fifth aspect of the present invention, there is provided a component extracting step of extracting a sine wave component and a residual component other than the sine wave component from the input voice, and converting the extracted sine wave component into the target voice. A sine wave component deformation step of deforming based on a sine wave component, a residual component deformation step of deforming the extracted residual component based on a residual component of the target sound, and a residual component deformation step. A removing step of removing the pitch component and its overtone component of the obtained residual component; removing the sine wave component deformed in the sine wave component deforming step; and removing the pitch component and its harmonic component obtained in the removing step. And a combining step of combining the obtained residual component.

【0011】請求項6記載の構成は、請求項5記載の構
成において、前記入力音声の正弦波成分のピッチ、前記
ターゲット音声の正弦波成分のピッチ、前記正弦波成分
変形手段により得られた正弦波成分のピッチのいずれか
を、前記除去手段における減衰ピークのピッチとするピ
ッチ決定工程を具備することを特徴としている。
According to a sixth aspect of the present invention, in the configuration of the fifth aspect, a pitch of a sine wave component of the input voice, a pitch of a sine wave component of the target voice, and a sine wave obtained by the sine wave component deforming means. A pitch determining step is provided, in which any one of the pitches of the wave components is set as the pitch of the attenuation peak in the removing means.

【0012】本発明によれば、入力された音声信号から
抽出した正弦波成分及び残差成分とを、ターゲット音声
信号のの正弦波成分または残差成分に基づいて各々変形
する。次いで、変形された正弦波成分と残差成分とを合
成する前に、残差成分のピッチ成分およびその倍音成分
を除去する。したがって、最終的には、正弦波成分のピ
ッチ成分のみが聴取されることになり、音声の自然性を
向上させることが可能となる。
According to the present invention, the sine wave component and the residual component extracted from the input audio signal are respectively modified based on the sine wave component or the residual component of the target audio signal. Next, before synthesizing the transformed sine wave component and the residual component, the pitch component of the residual component and its harmonic component are removed. Therefore, finally, only the pitch component of the sine wave component is heard, and the naturalness of the sound can be improved.

【0013】[0013]

【発明の実施の形態】[1] 実施形態の概要処理 始めに、実施形態の概要処理について説明する。 [1.1] ステップS1 まず、ものまねをしようとする歌唱者(me)の音声(入
力音声信号)をリアルタイムでFFT(Fast Fourie Tr
ansform)を含むSMS(Spectral Modeling Synthesi
s)分析を行い、フレーム単位で正弦波成分(Sine成
分)を抽出するとともに、入力音声信号及び正弦波成分
からフレーム単位で残差成分(Residual成分)Rmeを生
成する。これと並行して入力音声信号が無声音(含む無
音)か否かを判別し、無声音である場合には、以下のス
テップS2〜ステップS6の処理は行わず、入力音声信
号をそのまま出力することとなる。この場合において、
SMS分析としては、前回のフレームにおけるピッチに
応じて分析窓幅を変更するピッチ同期分析を採用してい
る。
DESCRIPTION OF THE PREFERRED EMBODIMENTS [1] Outline Processing of Embodiment First, outline processing of an embodiment will be described. [1.1] Step S1 First, the voice (input voice signal) of the singer (me) who wants to imitate is FFT (Fast Fourie Tr) in real time.
SMS (Spectral Modeling Synthesi) including ansform
s) Perform analysis to extract a sine wave component (Sine component) for each frame, and generate a residual component (Residual component) Rme for each frame from the input audio signal and the sine wave component. In parallel with this, it is determined whether or not the input audio signal is unvoiced (including non-voiced sound). If the input audio signal is unvoiced, the following steps S2 to S6 are not performed and the input audio signal is output as it is. Become. In this case,
As the SMS analysis, pitch synchronous analysis that changes the analysis window width according to the pitch in the previous frame is employed.

【0014】[1.2] ステップS2 次に入力音声信号が有声音である場合には、抽出した正
弦波成分からさらに元属性(Attribute)データである
ピッチ(Pitch)、アンプ(Amplitude)及びスペクトラ
ル・シェイプ(Spectral Shape)を抽出する。さらに抽
出したピッチ及びアンプについては、ビブラート成分及
びビブラート成分以外の他の成分に分離する。
[1.2] Step S2 Next, when the input audio signal is a voiced sound, pitch (Pitch), amplifier (Amplitude) and spectral which are original attribute data are further extracted from the extracted sine wave component. -Extract a shape (Spectral Shape). Further, the extracted pitch and amplifier are separated into a vibrato component and components other than the vibrato component.

【0015】[1.3] ステップS3 予め記憶(保存)してあるものまねの対象(Target)と
なる歌唱者の属性データ(ターゲット属性データ=ピッ
チ、アンプ及びスペクトラル・シェイプ)から、ものま
ねをしようとする歌唱者(me)の入力音声信号のフレー
ムに対応するフレームのターゲット属性データ(=ピッ
チ、アンプ及びスペクトラル・シェイプ)を取り出す。
この場合において、ものまねをしようとする歌唱者(m
e)の入力音声信号のフレームに対応するフレームのタ
ーゲット属性データが存在しない場合には、後に詳述す
るように、予め定めたイージーシンクロナイゼーション
規則(Easy Synchronization Rule)に従って、ターゲ
ット属性データを生成し、同様の処理を行う。
[1.3] Step S3 Attempt to imitate from the attribute data (target attribute data = pitch, amplifier and spectral shape) of the singer to be imitated (Target) stored in advance (target attribute). The target attribute data (= pitch, amplifier, and spectral shape) of the frame corresponding to the frame of the input voice signal of the singer (me) to be extracted is extracted.
In this case, the singer trying to imitate (m
If target attribute data of a frame corresponding to the frame of the input audio signal of e) does not exist, target attribute data is generated in accordance with a predetermined Easy Synchronization Rule, as described in detail later. Then, the same processing is performed.

【0016】[1.4] ステップS4 次にものまねをしようとする歌唱者(me)に対応する元
属性データ及びものまねの対象となる歌唱者に対応する
ターゲット属性データを適宜選択して組み合わせること
により、新しい属性データ(新属性データ=ピッチ、ア
ンプ及びスペクトラル・シェイプ)を得る。なお、もの
まねではなく、単なる音声変換として用いる場合には、
元属性データ及びターゲット属性データの加算平均とし
て新属性データを得るなどの元属性データ及びターゲッ
ト属性データの双方に基づいて計算により新属性データ
を得るようにすることも可能である。
[1.4] Step S4 Next, the original attribute data corresponding to the singer (me) to be imitated and the target attribute data corresponding to the singer to be imitated are appropriately selected and combined. , New attribute data (new attribute data = pitch, amplifier, and spectral shape). In addition, when using as a simple voice conversion instead of imitation,
It is also possible to obtain new attribute data by calculation based on both the original attribute data and the target attribute data, such as obtaining the new attribute data as an average of the original attribute data and the target attribute data.

【0017】[1.5] ステップS5 つづいて得られた新属性データに基づいて、当該フレー
ムの正弦波成分SINnewを求める。さらに、該正弦波
成分SINnewのアンプ、スペクトラル・シェープ等を
変形し、正弦波成分SINnew'を生成する。 [1.6] ステップS6 また、ステップS1で求めた入力音声信号の残差成分R
me(f)を、ターゲットの残差成分Rtar(f)に基づいて変
形し、新たな残差成分Rnew(f)を求める。
[1.5] Step S5 The sine wave component SINnew of the frame is determined based on the new attribute data obtained in the subsequent step. Further, the sine wave component SINnew ′ is modified to generate a sine wave component SINnew ′ by modifying the amplifier, spectral shape and the like. [1.6] Step S6 Further, the residual component R of the input audio signal obtained in step S1
me (f) is deformed based on the residual component Rtar (f) of the target to obtain a new residual component Rnew (f).

【0018】[1.7] ステップS7 また、ステップS1で求めた入力音声信号の正弦波成分
のピッチPme-str、ものまねの対象(Target)となる歌
唱者の正弦波成分のピッチPtar-sta、ステップS5で
生成した正弦波成分SINnewのピッチPnew、さらに変
形した正弦波成分SINnew'のピッチPattのいずれか
を(基本的にはピッチPatt)、くし形フィルタの最適
なピッチ(くし形フィルタのピッチ:Pcomb)とする。 [1.8] ステップS8 つづいて、得られたピッチPcombに基づいて、くし形フ
ィルタを構成し、ステップS6で求めた残差成分Rnew
(f)をフィルタリングすることで、残差成分Rnew(f)か
らピッチ成分およびその倍音成分を取り除き、新たな残
差成分Rnew'(f)を取得する。
[1.7] Step S7 Also, the pitch Pme-str of the sine wave component of the input voice signal obtained in step S1, the pitch Ptar-sta of the singer's sine wave component to be imitated (Target), Either the pitch Pnew of the sine wave component SINnew generated in step S5 or the pitch Patt of the deformed sine wave component SINnew '(basically the pitch Patt), the optimum pitch of the comb filter (the pitch of the comb filter) : Pcomb). [1.8] Step S8 Subsequently, a comb filter is formed based on the obtained pitch Pcomb, and the residual component Rnew obtained in step S6.
By filtering (f), the pitch component and its harmonic components are removed from the residual component Rnew (f), and a new residual component Rnew ′ (f) is obtained.

【0019】[1.9] ステップS9 そして、ステップS5で求めた正弦波成分SINnew'
と、ステップS8で求めた新たな残差成分Rnew'(f)と
を合成した後、逆FFTを行い、変換音声信号を得る。 [1.10] まとめ これらの処理の結果得られる変換音声信号によれば、再
生される音声は、物まねをしようとする歌唱者の歌声
が、あたかも、別の歌唱者(ターゲットの歌唱者)が歌
った歌声のようになる。さらに、残差成分Rnew(f)から
ピッチ成分およびその倍音成分が取り除かれるので、最
終的には、正弦波成分のピッチ成分のみが聴取されるこ
とになり、音声の自然性を損なうことがない。
[1.9] Step S9 Then, the sine wave component SINnew 'obtained in step S5
And the new residual component Rnew '(f) obtained in step S8, and then inverse FFT is performed to obtain a converted audio signal. [1.10] Summary According to the converted audio signal obtained as a result of these processes, the reproduced voice is the singing voice of the singer trying to imitate, as if another singer (the target singer). It becomes like a singing voice. Furthermore, since the pitch component and its overtone component are removed from the residual component Rnew (f), only the pitch component of the sine wave component is ultimately heard, and the naturalness of the sound is not impaired. .

【0020】[2] 実施形態の詳細構成 次に図面を参照してこの発明の実施形態について説明す
る。図1及び図2に、実施形態の詳細構成図を示す。な
お、本実施形態は、本発明による音声変換装置(音声変
換方法)をカラオケ装置に適用し、ものまねを行うこと
ができるカラオケ装置として構成した場合の例である。
図1において、マイク1は、ものまねをしようとする歌
唱者(me)の声を収集し、入力音声信号Svとして入力
音声信号切出部3に出力する。
[2] Detailed Configuration of Embodiment Next, an embodiment of the present invention will be described with reference to the drawings. 1 and 2 show detailed configuration diagrams of the embodiment. The present embodiment is an example in which the voice conversion device (voice conversion method) according to the present invention is applied to a karaoke device and configured as a karaoke device that can perform imitation.
In FIG. 1, the microphone 1 collects the voice of a singer (me) who wants to imitate and outputs the voice to the input audio signal cutout unit 3 as an input audio signal Sv.

【0021】これと並行して、分析窓生成部2は、前回
のフレームで検出したピッチの周期の固定倍(例えば、
3.5倍など)の周期を有する分析窓(例えば、ハミン
グ窓)AWを生成し、入力音声信号切出部3に出力す
る。なお、初期状態あるいは前回のフレームが無声音
(含む無音)の場合には、予め設定した固定周期の分析
窓を分析窓AWとして入力音声信号切出部3に出力す
る。これらにより入力音声信号切出部3は、入力された
分析窓AWと入力音声信号Svとを掛け合わせ、入力音
声信号Svをフレーム単位で切り出し、フレーム音声信
号FSvとして高速フーリエ変換部4に出力する。より
具体的には、入力音声信号Svとフレームとの関係は、
図3に示すようになっており、各フレームFLは、前の
フレームFLと一部重なるように設定されている。
In parallel with this, the analysis window generator 2 sets a fixed multiple of the pitch cycle detected in the previous frame (for example,
An analysis window (for example, a hamming window) AW having a period of 3.5 times or the like is generated and output to the input audio signal cutout unit 3. When the initial state or the previous frame is an unvoiced sound (including silence), an analysis window having a fixed period set in advance is output to the input audio signal cutout unit 3 as the analysis window AW. Thus, the input audio signal cutout unit 3 multiplies the input analysis window AW by the input audio signal Sv, cuts out the input audio signal Sv in frame units, and outputs it to the fast Fourier transform unit 4 as a frame audio signal FSv. . More specifically, the relationship between the input audio signal Sv and the frame is
As shown in FIG. 3, each frame FL is set so as to partially overlap the previous frame FL.

【0022】そして、高速フーリエ変換部4においてフ
レーム音声信号FSvは、解析処理されるとともに、図
4に示すように、高速フーリエ変換部4の出力である周
波数スペクトルからピーク検出部5によりローカルピー
クが検出される。より具体的には、図4に示すような周
波数スペクトルに対して、×印を付けたローカルピーク
を検出する。このローカルピークは、周波数値とアンプ
(振幅)値の組み合わせとして表される。すなわち、図
4に示すように、(F0、A0)、(F1、A1)、
(F2、A2)、……、(FN、AN)というように各
フレームについてローカルピークが検出され、表される
こととなる。
Then, the frame sound signal FSv is analyzed and processed by the fast Fourier transform unit 4 and a local peak is detected by the peak detecting unit 5 from the frequency spectrum output from the fast Fourier transform unit 4 as shown in FIG. Is detected. More specifically, a local peak marked with “x” is detected in the frequency spectrum as shown in FIG. This local peak is represented as a combination of a frequency value and an amplifier (amplitude) value. That is, as shown in FIG. 4, (F0, A0), (F1, A1),
Local peaks are detected and represented for each frame as (F2, A2),..., (FN, AN).

【0023】そして、図3に模式的に示すように、各フ
レーム毎に一組(以下、ローカルピーク組という。)と
して無声/有声検出部6及びピーク連携部8に出力され
る。無声/有声検出部6は、入力されたフレーム毎のロ
ーカルピークに基づいて、高周波成分の大きさに応じて
無声であることを検出('t'、'k'等)し、無声/有声
検出信号U/Vmeをピッチ検出部7、イージーシンクロ
ナイゼーション処理部22及びクロスフェーダ30に出
力する。あるいは、時間軸上で単位時間あたりの零クロ
ス数に応じて無声であることを検出('s'等)し、元無
声/有声検出信号U/Vmeをピッチ検出部7、イージー
シンクロナイゼーション処理部22及びクロスフェーダ
30に出力する。
Then, as schematically shown in FIG. 3, one set (hereinafter, referred to as a local peak set) is output to the unvoiced / voiced detecting unit 6 and the peak linking unit 8 for each frame. The unvoiced / voiced detection unit 6 detects that the voice is unvoiced ('t', 'k', etc.) according to the magnitude of the high-frequency component based on the input local peak for each frame, and performs unvoiced / voiced detection. The signal U / Vme is output to the pitch detection unit 7, the easy synchronization processing unit 22, and the crossfader 30. Alternatively, it is detected on the time axis that the voice is unvoiced according to the number of zero crossings per unit time ('s', etc.), and the original unvoiced / voiced detection signal U / Vme is detected by the pitch detection unit 7 by the easy synchronization processing. It outputs to the section 22 and the crossfader 30.

【0024】さらに無声/有声検出部6は、入力された
フレームについて無声であると検出されなかった場合に
は、入力されたローカルピーク組をそのまま、ピッチ検
出部7に出力する。ピッチ検出部7は、入力されたロー
カルピーク組に基づいて、当該ローカルピーク組が対応
するフレームのピッチPmeを検出する。より具体的なフ
レームのピッチPmeの検出方法としては、例えば、Mahe
r,R.C.andJ.W.Beauchamp:"Fundamental Frequency Esti
mation of Musical Signal using a two-way Mismatch
Procedure"(Journal of Acounstical Society of Amer
ica95(4):2254-2263)に開示されているような方法で行
う。
Further, if the unvoiced / voiced detection unit 6 does not detect that the input frame is unvoiced, it outputs the input local peak set to the pitch detection unit 7 as it is. The pitch detector 7 detects the pitch Pme of the frame corresponding to the local peak set based on the input local peak set. As a more specific method of detecting the pitch Pme of a frame, for example, Mahe
r, RCandJ.W.Beauchamp: "Fundamental Frequency Esti
mation of Musical Signal using a two-way Mismatch
Procedure "(Journal of Acounstical Society of Amer
ica95 (4): 2254-2263).

【0025】次に、ピーク検出部5から出力されたロー
カルピーク組は、ピーク連携部8において、前後のフレ
ームについて連携が判断され、連携すると認められるロ
ーカルピークについては、一連のデータ列となるように
ローカルピークをつなげる連携処理がなされる。ここ
で、この連携処理について、図5を参照して説明する。
今、図5(A)に示すようなローカルピークが前回のフ
レームにおいて検出され、図5(B)に示すようなロー
カルピークが今回のフレームにおいて検出されたとす
る。
Next, the local peak set output from the peak detecting unit 5 is determined by the peak linking unit 8 to be linked with the preceding and succeeding frames, and the local peaks recognized as linked are formed into a series of data strings. A linking process for connecting a local peak to the data is performed. Here, this cooperation processing will be described with reference to FIG.
Now, assume that a local peak as shown in FIG. 5A is detected in the previous frame, and a local peak as shown in FIG. 5B is detected in the current frame.

【0026】この場合、ピーク連携部8は、前回のフレ
ームで検出された各ローカルピーク(F0、A0)、
(F1、A1)、(F2、A2)、……、(FN、A
N)に対応するローカルピークが今回のフレームでも検
出されたか否かを調べる。対応するローカルピークがあ
るか否かの判断は、前回のフレームで検出されたローカ
ルピークの周波数を中心にした所定範囲内に今回のフレ
ームのローカルピークが検出されるか否かによって行わ
れる。より具体的には、図5の例では、ローカルピーク
(F0、A0)、(F1、A1)、(F2、A2)……
については、対応するローカルピークが検出されている
が、ローカルピーク(FK、AK)については(図5
(A)参照)、対応するローカルピーク(図5(B)参
照)は検出されていない。
In this case, the peak coordinating unit 8 calculates each local peak (F0, A0) detected in the previous frame,
(F1, A1), (F2, A2), ..., (FN, A
It is checked whether the local peak corresponding to N) has been detected in the current frame. The determination as to whether or not there is a corresponding local peak is made based on whether or not the local peak of the current frame is detected within a predetermined range centered on the frequency of the local peak detected in the previous frame. More specifically, in the example of FIG. 5, the local peaks (F0, A0), (F1, A1), (F2, A2).
, The corresponding local peak is detected, but for the local peaks (FK, AK), (FIG. 5
(See (A)) and the corresponding local peak (see FIG. 5B) is not detected.

【0027】ピーク連携部8は、対応するローカルピー
クを検出した場合は、それらを時系列順に繋げて一組の
データ列として出力する。なお、対応するローカルピー
クが検出されない場合は、当該フレームについての対応
ローカルピークは無しということを示すデータに置き換
える。ここで、図6は、複数のフレームにわたるローカ
ルピークの周波数F0及び周波数F1の変化の一例を示
している。このような変化は、アンプ(振幅)A0、A
1、A2、……についても同様に認められる。この場
合、ピーク連携部8から出力されるデータ列は、フレー
ムの間隔おきに出力される離散的な値である。
When the corresponding local peaks are detected, the peak linking unit 8 connects the local peaks in chronological order and outputs them as a set of data strings. If the corresponding local peak is not detected, the data is replaced with data indicating that there is no corresponding local peak for the frame. Here, FIG. 6 shows an example of changes in the frequency F0 and the frequency F1 of the local peak over a plurality of frames. Such changes are caused by the amplifiers (amplitude) A0, A
1, A2,... Are similarly recognized. In this case, the data string output from the peak linking unit 8 is a discrete value output at every frame interval.

【0028】なお、ピーク連携部8から出力されるピー
ク値を、以後において、確定成分という。これは、元の
信号(すなわち、音声信号Sv)のうち正弦波の要素と
して確定的に置き換えられる成分という意味である。ま
た、置き換えられた各正弦波(厳密には、正弦波のパラ
メータである周波数及びアンプ(振幅))の各々につい
ては、正弦波成分と呼ぶことにする。次に、補間合成部
9は、ピーク連携部8から出力される確定成分について
補間処理を行い、補間後の確定成分に基づいていわゆる
オシレータ方式で波形合成を行う。この場合の補間の間
隔は、後述する出力部34が出力する最終出力信号のサ
ンプリングレート(例えば、44.1KHz)に対応し
た間隔で行われる。前述した図6に示す実線は、正弦波
成分の周波数F0、F1について補間処理が行われた場
合のイメージを示している。
The peak value output from the peak linking unit 8 is hereinafter referred to as a deterministic component. This means a component that is deterministically replaced as a sine wave element in the original signal (that is, the audio signal Sv). Further, each of the replaced sine waves (strictly speaking, frequency and amplifier (amplitude) which are parameters of the sine wave) will be referred to as sine wave components. Next, the interpolation synthesizing unit 9 performs an interpolation process on the deterministic component output from the peak linking unit 8, and performs a waveform synthesis based on the deterministic component after the interpolation using a so-called oscillator method. In this case, the interpolation is performed at intervals corresponding to the sampling rate (for example, 44.1 KHz) of the final output signal output from the output unit 34 described later. The solid line shown in FIG. 6 described above shows an image when the interpolation processing is performed on the frequencies F0 and F1 of the sine wave components.

【0029】[2.1] 補間合成部の構成 ここで、補間合成部9の構成を図7に示す。補間合成部
9は、複数の部分波形発生部9aを備えて構成されてお
り、各部分波形発生部9aは、指定された正弦波成分の
周波数(F0、F1、…)およびアンプ(振幅)に応じ
た正弦波を発生する。ただし、本第1実施形態における
正弦波成分(F0、A0)、(F1、A1)、(F2、
A2)、……は、各々補間の間隔に従って時事刻々変化
していくものであるから、各部分波形発生部9aから出
力される波形は、その変化に従った波形になる。すなわ
ち、ピーク連携部8からは正弦波成分(F0、A0)、
(F1、A1)、(F2、A2)、……が順次出力さ
れ、各正弦波成分の各々について補間処理が行われるか
ら、各部分波形発生部9aは、所定の周波数領域内で周
波数と振幅が変動する波形を出力する。そして、各部分
波形発生部9aから出力された波形は、加算部9bにお
いて加算合成される。したがって、補間合成部9の出力
信号は、入力音声信号Svから確定成分を抽出した正弦
波成分合成信号SSSになる。
[2.1] Configuration of Interpolation Synthesis Unit The configuration of the interpolation synthesis unit 9 is shown in FIG. The interpolation / synthesis unit 9 includes a plurality of partial waveform generation units 9a, and each of the partial waveform generation units 9a adjusts a frequency (F0, F1,...) And an amplifier (amplitude) of a designated sine wave component. Generates a corresponding sine wave. However, the sine wave components (F0, A0), (F1, A1), (F2,
Since A2),... Change every moment according to the interpolation interval, the waveform output from each partial waveform generator 9a becomes a waveform according to the change. That is, the sine wave components (F0, A0) from the peak linking unit 8,
(F1, A1), (F2, A2),... Are sequentially output, and interpolation processing is performed for each of the sine wave components. Therefore, each partial waveform generation unit 9a determines the frequency and amplitude within a predetermined frequency domain. Output a waveform that fluctuates. Then, the waveforms output from the respective partial waveform generators 9a are added and synthesized in an adder 9b. Therefore, the output signal of the interpolation / synthesis unit 9 is a sine wave component synthesized signal SSS obtained by extracting a deterministic component from the input audio signal Sv.

【0030】[2.2] 残差成分検出部の動作 次に、残差成分検出部10は、補間合成部9から出力さ
れた正弦波成分合成信号SSSと入力音声信号Svとの偏
差である残差成分信号SRD(時間波形)を生成する。こ
の残差成分信号SRDは、音声に含まれる無声成分を多く
含む。一方、前述の正弦波成分合成信号SSSは有声成分
に対応するものである。ところで、目標(Target)とな
る歌唱者の声に似せるには、有声音についてだけ処理を
行えば、無声音については処理を施す必要はあまりな
い。そこで、本実施形態においては、有声母音成分に対
応する確定成分について音声変換処理を行うようにして
いる。より具体的には、残差成分信号SRDについては、
高速フーリエ変換部11で、周波数波形に変換し、得ら
れた残差成分信号(周波数波形)をRme(f)として残差
成分保持部12に保持しておく。
[2.2] Operation of Residual Component Detecting Unit Next, the residual component detecting unit 10 calculates a deviation between the sine wave component synthesized signal SSS output from the interpolation synthesizing unit 9 and the input audio signal Sv. A residual component signal SRD (time waveform) is generated. This residual component signal SRD contains a lot of unvoiced components included in the voice. On the other hand, the above-mentioned sine wave component composite signal SSS corresponds to a voiced component. By the way, in order to resemble the voice of the singer who becomes the target (Target), if only the voiced sound is processed, it is not necessary to process the unvoiced sound. Therefore, in the present embodiment, speech conversion processing is performed on a deterministic component corresponding to a voiced vowel component. More specifically, regarding the residual component signal SRD,
The fast Fourier transform unit 11 converts the signal into a frequency waveform, and the obtained residual component signal (frequency waveform) is stored in the residual component storage unit 12 as Rme (f).

【0031】[2.3] 平均アンプ演算部の動作 一方、図8(A)に示すように、ピーク検出部5からピ
ーク連携部8を介して出力された正弦波成分(F0、A
0)、(F1、A1)、(F2、A2)、……、(F(N
-1)、A(N-1))のN個の正弦波成分(以下、これらをま
とめてFn、Anと表記する。n=0〜(N−1)。)
は、正弦波成分保持部13に保持されるとともに、アン
プAnは平均アンプ演算部14に入力され、各フレーム
毎に次式により平均アンプAmeが算出される。 Ame=Σ(An)/N
[2.3] Operation of Average Amplifier Operation Unit On the other hand, as shown in FIG. 8A, sine wave components (F0, A) output from the peak detection unit 5 via the peak linking unit 8
0), (F1, A1), (F2, A2),..., (F (N
-1), A (N-1)) N sine wave components (hereinafter, these are collectively referred to as Fn and An. N = 0 to (N-1).)
Is held in the sine wave component holding unit 13, and the amplifier An is input to the average amplifier operation unit 14, and the average amplifier Ame is calculated for each frame by the following equation. Ame = Σ (An) / N

【0032】[2.4] アンプ正規化部の動作 次にアンプ正規化部15において、次式により各アンプ
Anを平均アンプAmeで正規化し、正規化アンプA'n
を求める。 A'n=An/Ame [2.5] スペクトラル・シェイプ演算部の動作 そして、スペクトラル・シェイプ演算部16において、
図8(B)に示すように、周波数Fn及び正規化アンプ
A'nにより得られる正弦波成分(Fn、A'n)をブレ
ークポイントとするエンベロープ(包絡線)をスペクト
ラル・シェイプSme(f)として生成する。この場合にお
いて、二つのブレークポイント間の周波数におけるアン
プの値は、当該二つのブレークポイントを、例えば、直
線補間することにより算出する。なお、補間の方法は直
線補間に限られるものではない。
[2.4] Operation of Amplifier Normalization Unit Next, in the amplifier normalization unit 15, each amplifier An is normalized by the average amplifier Ame by the following equation, and the normalized amplifier A'n
Ask for. A'n = An / Ame [2.5] Operation of Spectral Shape Computing Unit Then, in the spectral shape computing unit 16,
As shown in FIG. 8B, an envelope (envelope) having a sine wave component (Fn, A'n) obtained by the frequency Fn and the normalizing amplifier A'n as a break point has a spectral shape Sme (f). Generate as In this case, the value of the amplifier at the frequency between the two break points is calculated by, for example, linearly interpolating the two break points. The method of interpolation is not limited to linear interpolation.

【0033】[2.6] ピッチ正規化部の動作 続いてピッチ正規化部17においては、各周波数Fnを
ピッチ検出部7において検出したピッチPmeで正規化
し、正規化周波数F'nを求める。 F'n=Fn/Pme これらの結果、元フレーム情報保持部18は、入力音声
信号Svに含まれる正弦波成分に対応する元属性データ
である平均アンプAme、ピッチPme、スペクトラル・シ
ェイプSme(f)、正規化周波数F'nを保持することとな
る。なお、この場合において、正規化周波数F'nは、
倍音列の周波数の相対値を表しており、もし、フレーム
の倍音構造を完全倍音構造であるとして取り扱うなら
ば、保持する必要はない。この場合において、男声/女
声変換を行おうとしている場合には、この段階におい
て、男声→女声変換を行う場合には、ピッチをオクター
ブ上げ、女声→男声変換を行う場合にはピッチをオクタ
ーブ下げる男声/女声ピッチ制御処理を行うようにする
のが好ましい。
[2.6] Operation of Pitch Normalization Unit Subsequently, the pitch normalization unit 17 normalizes each frequency Fn with the pitch Pme detected by the pitch detection unit 7 to obtain a normalized frequency F'n. F′n = Fn / Pme As a result, the original frame information holding unit 18 obtains the average amplifier Ame, the pitch Pme, and the spectral shape Sme (f) which are the original attribute data corresponding to the sine wave component included in the input audio signal Sv. ), And hold the normalized frequency F'n. In this case, the normalized frequency F'n is
It represents the relative value of the frequency of the harmonic train, and need not be retained if the harmonic structure of the frame is treated as a complete harmonic structure. In this case, if a male / female conversion is going to be performed, at this stage, the pitch is raised by an octave when the male to female conversion is performed, and the pitch is lowered by an octave when the female to male conversion is performed. It is preferable to perform a female voice pitch control process.

【0034】つづいて、元フレーム情報保持部18に保
持している元属性データのうち、平均アンプAmeおよび
ピッチPmeについては、さらに静的変化/ビブラート的
変化分離部19により、フィルタリング処理などを行っ
て、静的変化成分とビブラート変化的成分とに分離して
保持する。なお、さらにビブラート変化的成分からより
高周波変化成分であるジッタ変化的成分を分離するよう
に構成することも可能である。より具体的には、平均ア
ンプAmeを平均アンプ静的成分Ame-sta及び平均アンプ
ビブラート的成分Ame-vibとに分離して保持する。ま
た、ピッチPmeをピッチ静的成分Pme-sta及びピッチビ
ブラート的成分Pme-vibとに分離して保持され、さら
に、ピッチ静的成分Pme-staは、ピッチ決定部40へ供
給される。
Subsequently, among the original attribute data held in the original frame information holding unit 18, the average amplifier Ame and the pitch Pme are further subjected to a filtering process and the like by the static change / vibrato change change separation unit 19. Thus, the static change component and the vibrato change component are separately held. In addition, it is also possible to configure so as to further separate a jitter variable component which is a higher frequency change component from a vibrato variable component. More specifically, the average amplifier Ame is separated and held as an average amplifier static component Ame-sta and an average amplifier vibrato component Ame-vib. Further, the pitch Pme is separated and held as a pitch static component Pme-sta and a pitch vibrato component Pme-vib, and the pitch static component Pme-sta is supplied to the pitch determination unit 40.

【0035】これらの結果、対応するフレームの元フレ
ーム情報データINFmeは、図8(C)に示すように、
入力音声信号Svの正弦波成分に対応する元属性データ
である平均アンプ静的成分Ame-sta、平均アンプビブラ
ート的成分Ame-vib、ピッチ静的成分Pme-sta、ピッチ
ビブラート的成分Pme-vib、スペクトラル・シェイプS
me(f)、正規化周波数F'n及び残差成分Rme(f)の形
で保持されることとなる。
As a result, the original frame information data INFme of the corresponding frame is, as shown in FIG.
Average amplifier static component Ame-sta, average amplifier vibrato component Ame-vib, pitch static component Pme-sta, pitch vibrato component Pme-vib, which are original attribute data corresponding to the sine wave component of the input audio signal Sv, Spectral Shape S
me (f), the normalized frequency F'n, and the residual component Rme (f).

【0036】一方、ものまねの対象(target)となる歌
唱者に対応するターゲット属性データから構成されるタ
ーゲットフレーム情報データINFtarは、予め分析さ
れてターゲットフレーム情報保持部20を構成するハー
ドディスクなどに予め保持されている。この場合におい
て、ターゲットフレーム情報データINFtarのうち、
正弦波成分に対応するターゲット属性データとしては、
平均アンプ静的成分Atar-sta、平均アンプビブラート
的成分Atar-vib、ピッチ静的成分Ptar-sta、ピッチビ
ブラート的成分Ptar-vib、スペクトラル・シェイプSt
ar(f)がある。また、ターゲットフレーム情報データI
NFtarのうち、残差成分に対応するターゲット属性デ
ータとしては、残差成分Rtar(f)がある。これらのう
ち、ピッチ静的成分Ptar-staは、ピッチ決定部40に
も供給される。
On the other hand, target frame information data INFtar composed of target attribute data corresponding to the singer to be imitated (target) is preliminarily analyzed and stored in a hard disk or the like constituting the target frame information storage unit 20 in advance. Have been. In this case, of the target frame information data INFtar,
As target attribute data corresponding to the sine wave component,
Average amplifier static component Atar-sta, average amplifier vibrato component Atar-vib, pitch static component Ptar-sta, pitch vibrato component Ptar-vib, spectral shape St
There is ar (f). Further, the target frame information data I
Among the NFtars, target attribute data corresponding to the residual component includes a residual component Rtar (f). Among them, the pitch static component Ptar-sta is also supplied to the pitch determination unit 40.

【0037】[2.7] キーコントロール/テンポチ
ェンジ部の動作 次にキーコントロール/テンポチェンジ部21は、シー
ケンサ31からの同期信号SSYNCに基づいて、ターゲッ
トフレーム情報保持部20から同期信号SSYNCに対応す
るフレームのターゲットフレーム情報INFtarの読出
処理及び読み出したターゲットフレーム情報データIN
Ftarを構成するターゲット属性データの補正処理を行
うとともに、読み出したターゲットフレーム情報INF
tarおよび当該フレームが無声であるか有声であるかを
表すターゲット無声/有声検出信号U/Vtarを出力す
る。
[2.7] Operation of Key Control / Tempo Change Unit Next, the key control / tempo change unit 21 responds to the synchronization signal SSYNC from the target frame information holding unit 20 based on the synchronization signal SSYNC from the sequencer 31. Of target frame information INFtar of the frame to be read and read target frame information data IN
The target attribute data constituting the Ftar is corrected, and the read target frame information INF is read.
It outputs tar and a target unvoiced / voiced detection signal U / Vtar indicating whether the frame is unvoiced or voiced.

【0038】より具体的には、キーコントロール/テン
ポチェンジ部21の図示しないキーコントロールユニッ
トは、カラオケ装置のキーを基準より上げ下げした場
合、ターゲット属性データであるピッチ静的成分Ptar-
sta及びピッチビブラート的成分Ptar-vibについても、
同じだけ上げ下げする補正処理を行う。例えば、50
[cent]だけキーを上げた場合には、ピッチ静的成分P
tar-sta及びピッチビブラート的成分Ptar-vibについて
も50[cent]だけ上げなければならない。また、キー
コントロール/テンポチェンジ部21の図示しないテン
ポチェンジユニットは、カラオケ装置のテンポを上げ下
げした場合には、変更後のテンポに相当するタイミング
で、ターゲットフレーム情報データINFtarの読み出
し処理を行う必要がある。
More specifically, a key control unit (not shown) of the key control / tempo change unit 21 operates when a key of the karaoke apparatus is raised or lowered from a reference, and a pitch static component Ptar- which is target attribute data.
For the sta and pitch vibrato-like components Ptar-vib,
A correction process for raising and lowering by the same amount is performed. For example, 50
When the key is raised by [cent], the pitch static component P
The tar-sta and pitch vibrato-like component Ptar-vib must also be increased by 50 [cent]. When the tempo of the karaoke apparatus is raised or lowered, a tempo change unit (not shown) of the key control / tempo change unit 21 needs to read the target frame information data INFtar at a timing corresponding to the changed tempo. is there.

【0039】この場合において、必要なフレームに対応
するタイミングに相当するターゲットフレーム情報デー
タINFtarが存在しない場合には、当該必要なフレー
ムのタイミングの前後のタイミングに存在する二つのフ
レームのターゲットフレーム情報データINFtarを読
み出し、これら二つのターゲットフレーム情報データI
NFtarにより補間処理を行い、当該必要なタイミング
におけるフレームのターゲットフレーム情報データIN
Ftar、ひいては、ターゲット属性データを生成する。
この場合において、ビブラート的成分(平均アンプビブ
ラート的成分Atar-vib及びピッチビブラート的成分Pt
ar-vib)に関しては、そのままでは、ビブラートの周期
自体が変化してしまい、不適当であるので、周期が変動
しないような補間処理を行う必要がある。又は、ターゲ
ット属性データとして、ビブラートの軌跡そのものを表
すデータではなく、ビブラート周期及びビブラート深さ
のパラメータを保持し、実際の軌跡を演算により求める
ようにすれば、この不具合を回避することができる。
In this case, if the target frame information data INFtar corresponding to the timing corresponding to the required frame does not exist, the target frame information data of the two frames existing before and after the timing of the required frame is obtained. INFtar is read and these two target frame information data I
Interpolation processing is performed by NFtar, and target frame information data IN of the frame at the necessary timing is obtained.
Ftar, and eventually the target attribute data is generated.
In this case, the vibrato component (the average amp vibrato component Atar-vib and the pitch vibrato component Pt
Regarding ar-vib), if it is left untouched, the vibrato cycle itself changes and is inappropriate, so it is necessary to perform interpolation processing so that the cycle does not change. Alternatively, this problem can be avoided by holding the parameters of the vibrato cycle and the vibrato depth instead of the data representing the vibrato trajectory itself as the target attribute data and calculating the actual trajectory by calculation.

【0040】[2.8] イージーシンクロナイゼーシ
ョン処理部の動作 次にイージーシンクロナイゼーション処理部22は、も
のまねをしようとする歌唱者のフレーム(以下、元フレ
ームという。)に元フレーム情報データINFmeが存在
するにもかかわらず、対応するものまねの対象となる歌
唱者のフレーム(以下、ターゲットフレームという。)
にターゲットフレーム情報データINFtarが存在しな
い場合には、当該ターゲットフレームの前後方向に存在
するフレームのターゲットフレーム情報データINFta
rを当該ターゲットフレームのターゲットフレーム情報
データINFtarとするイージーシンクロナイゼーショ
ン処理を行う。
[2.8] Operation of Easy Synchronization Processing Unit Next, the easy synchronization processing unit 22 adds the original frame information data INFme to the frame of the singer who wants to imitate (hereinafter referred to as the original frame). Despite the presence of, the singer's frame that is the target of the corresponding singer (hereinafter referred to as the target frame)
If the target frame information data INFtar does not exist in the target frame, the target frame information data INFta
An easy synchronization process is performed using r as the target frame information data INFtar of the target frame.

【0041】そして、イージーシンクロナイゼーション
処理部22は、後述する置換済ターゲットフレーム情報
データINFtar-syncに含まれるターゲット属性データ
のうち正弦波成分に関するターゲット属性データ(平均
アンプ静的成分Atar-sync-sta、平均アンプビブラート
的成分Atar-sync-vib、ピッチ静的成分Ptar-sync-st
a、ピッチビブラート的成分Ptar-sync-vib及びスペク
トラル・シェイプStar-sync(f))を正弦波成分属性デ
ータ選択部23に出力する。また、イージーシンクロナ
イゼーション処理部22は、後述する置換済ターゲット
フレーム情報データINFtar-syncに含まれるターゲッ
ト属性データのうち残差成分に関するターゲット属性デ
ータ(残差成分Rtar-sync(f))を残差成分選択部25
に出力する。
Then, the easy synchronization processing section 22 generates target attribute data relating to the sine wave component (average amplifier static component Atar-sync-) out of target attribute data included in the replaced target frame information data INFtar-sync to be described later. sta, average amp vibrato component Atar-sync-vib, pitch static component Ptar-sync-st
a, a pitch vibrato-like component Ptar-sync-vib and a spectral shape Star-sync (f)) are output to the sine wave component attribute data selection unit 23. Further, the easy synchronization processing unit 22 stores target attribute data (residual component Rtar-sync (f)) relating to a residual component among target attribute data included in replaced target frame information data INFtar-sync described later. Difference component selection unit 25
Output to

【0042】このイージーシンクロナイゼーション処理
部22における処理においても、ビブラート的成分(平
均アンプビブラート的成分Atar-vib及びピッチビブラ
ート的成分Ptar-vib)に関しては、そのままでは、ビ
ブラートの周期自体が変化してしまい、不適当であるの
で、周期が変動しないような補間処理を行う必要があ
る。又は、ターゲット属性データとして、ビブラートの
軌跡そのものを表すデータではなく、ビブラート周期及
びビブラート深さのパラメータを保持し、実際の軌跡を
演算により求めるようにすれば、この不具合を回避する
ことができる。
In the processing in the easy synchronization processing section 22, the vibrato cycle itself changes with respect to the vibrato-like components (average amp vibrato-like component Atar-vib and pitch vibrato-like component Ptar-vib). Therefore, it is necessary to perform interpolation processing so that the period does not change. Alternatively, this problem can be avoided by holding the parameters of the vibrato cycle and the vibrato depth instead of the data representing the vibrato trajectory itself as the target attribute data and calculating the actual trajectory by calculation.

【0043】[2.8.1] イージーシンクロナイゼ
ーション処理の詳細 ここで、図9及び図10を参照してイージーシンクロナ
イゼーション処理について詳細に説明する。図9は、イ
ージーシンクロナイゼーション処理のタイミングチャー
トであり、図10はイージーシンクロナイゼーション処
理フローチャートである。まず、イージーシンクロナイ
ゼーション処理部22は、シンクロナイゼーション処理
の方法を表すシンクロナイゼーションモード="0"とす
る(ステップS11)。このシンクロナイゼーションモ
ード="0"は、元フレームに対応するターゲットフレー
ムにターゲットフレーム情報データINFtarが存在す
る通常処理の場合に相当する。
[2.8.1] Details of Easy Synchronization Process Here, the easy synchronization process will be described in detail with reference to FIGS. 9 and 10. FIG. 9 is a timing chart of the easy synchronization process, and FIG. 10 is a flowchart of the easy synchronization process. First, the easy synchronization processing unit 22 sets the synchronization mode = “0” indicating the method of the synchronization processing (step S11). This synchronization mode = "0" corresponds to the case of the normal processing in which the target frame information data INFtar exists in the target frame corresponding to the original frame.

【0044】そしてあるタイミングtにおける元無声/
有声検出信号U/Vme(t)が無声(U)から有声(V)
に変化したか否かを判別する(ステップS12)。例え
ば、図9に示すように、タイミングt=t1において
は、元無声/有声検出信号U/Vme(t)が無声(U)か
ら有声(V)に変化している。ステップS12の判別に
おいて、元無声/有声検出信号U/Vme(t)が無声
(U)から有声(V)に変化している場合には(ステッ
プS12;Yes)、タイミングtの前回のタイミング
t-1における元無声/有声検出信号U/Vme(t-1)が無
声(U)かつターゲット無声/有声検出信号U/Vtar
(t-1)が無声(U)であるか否かを判別する(ステップ
S18)。
Then, the original silent at a certain timing t /
The voiced detection signal U / Vme (t) changes from unvoiced (U) to voiced (V)
Is determined (step S12). For example, as shown in FIG. 9, at timing t = t1, the original unvoiced / voiced detection signal U / Vme (t) changes from unvoiced (U) to voiced (V). If it is determined in step S12 that the original unvoiced / voiced detection signal U / Vme (t) has changed from unvoiced (U) to voiced (V) (step S12; Yes), the previous timing t of timing t The original unvoiced / voiced detection signal U / Vme (t-1) at -1 is unvoiced (U) and the target unvoiced / voiced detection signal U / Vtar
It is determined whether or not (t-1) is silent (U) (step S18).

【0045】例えば、図9に示すように、タイミングt
=t0(=t1-1)においては、元無声/有声検出信号U
/Vme(t-1)が無声(U)かつターゲット無声/有声検
出信号U/Vtar(t-1)が無声(U)となっている。ステ
ップS18の判別において、元無声/有声検出信号U/
Vme(t-1)が無声(U)かつターゲット無声/有声検出
信号U/Vtar(t-1)が無声(U)となっている場合には
(ステップS18;Yes)、当該ターゲットフレーム
には、ターゲットフレーム情報データINFtarが存在
しないので、シンクロナイゼーションモード="1"と
し、置換用のターゲットフレーム情報データINFhold
を当該ターゲットフレームの後方向(Backward)に存在
するフレームのターゲットフレーム情報とする。
For example, as shown in FIG.
= T0 (= t1-1), the original unvoiced / voiced detection signal U
/ Vme (t-1) is unvoiced (U) and the target unvoiced / voiced detection signal U / Vtar (t-1) is unvoiced (U). In the determination in step S18, the original unvoiced / voiced detection signal U /
If Vme (t-1) is unvoiced (U) and the target unvoiced / voiced detection signal U / Vtar (t-1) is unvoiced (U) (step S18; Yes), the target frame is Since the target frame information data INFtar does not exist, the synchronization mode is set to "1" and the replacement target frame information data INFhold is set.
Is the target frame information of the frame existing in the backward direction (Backward) of the target frame.

【0046】例えば、図9に示すように、タイミングt
=t1〜t2のターゲットフレームには、ターゲットフレ
ーム情報データINFtarが存在しないので、シンクロ
ナイゼーションモード="1"とし、置換用ターゲットフ
レーム情報データINFholdを当該ターゲットフレーム
の後方向に存在するフレーム(すなわち、タイミングt
=t2〜t3に存在するフレーム)のターゲットフレーム
情報データbackwardとする。そして、処理をステップS
15に移行し、シンクロナイゼーションモード="0"で
あるか否かを判別する(ステップS15)。
For example, as shown in FIG.
= T1 to t2, since the target frame information data INFtar does not exist, the synchronization mode is set to “1”, and the replacement target frame information data INFhold is set to a frame existing in the backward direction of the target frame (that is, , Timing t
= Frame existing in t2 to t3) (target frame information data backward). Then, the process proceeds to step S
The process proceeds to step S15, and it is determined whether or not the synchronization mode is "0" (step S15).

【0047】ステップS15の判別において、シンクロ
ナイゼーションモード="0"である場合には、タイミン
グtにおける元フレームに対応するターゲットフレーム
にターゲットフレーム情報データINFtar(t)が存在す
る場合、すなわち、通常処理であるので、置換済ターゲ
ットフレーム情報データINFtar-syncをターゲットフ
レーム情報データINFtar(t)とする。 INFtar-sync=INFtar(t) 例えば、図9に示すようにタイミングt=t2〜t3のタ
ーゲットフレームには、ターゲットフレーム情報データ
INFtarが存在するので、 INFtar-sync=INFtar(t) とする。
If it is determined in step S15 that the synchronization mode is "0", the target frame information data INFtar (t) is present in the target frame corresponding to the original frame at the timing t, that is, the normal mode is set. Since this is a process, the replaced target frame information data INFtar-sync is set as target frame information data INFtar (t). INFtar-sync = INFtar (t) For example, as shown in FIG. 9, since the target frame at the timing t = t2 to t3 has target frame information data INFtar, INFtar-sync = INFtar (t) is set.

【0048】この場合において、以降の処理に用いられ
る置換済ターゲットフレーム情報データINFtar-sync
に含まれるターゲット属性データ(平均アンプ静的成分
Atar-sync-sta、平均アンプビブラート的成分Atar-sy
nc-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラ
ート的成分Ptar-sync-vib、スペクトラル・シェイプS
tar-sync(f)及び残差成分Rtar-sync(f))は実質的に
は、以下の内容となる(ステップS16)。 Atar-sync-sta=Atar-sta Atar-sync-vib=Atar-vib Ptar-sync-sta=Ptar-sta Ptar-sync-vib=Ptar-vib Star-sync(f)=Star(f) Rtar-sync(f)=Rtar(f)
In this case, the replaced target frame information data INFtar-sync used in the subsequent processing
Target attribute data (average amplifier static component Atar-sync-sta, average amplifier vibrato-like component Atar-sy)
nc-vib, pitch static component Ptar-sync-sta, pitch vibrato-like component Ptar-sync-vib, spectral shape S
The tar-sync (f) and the residual component Rtar-sync (f) have substantially the following contents (step S16). Atar-sync-sta = Atar-sta Atar-sync-vib = Atar-vib Ptar-sync-sta = Ptar-sta Ptar-sync-vib = Ptar-vib Star-sync (f) = Star (f) Rtar-sync (f) = Rtar (f)

【0049】ステップS15の判別において、シンクロ
ナイゼーションモード="1"またはシンクロナイゼーシ
ョンモード="2"である場合には、タイミングtにおけ
る元フレームに対応するターゲットフレームにターゲッ
トフレーム情報データINFtar(t)が存在しない場合で
あるので、置換済ターゲットフレーム情報データINF
tar-syncを置換用ターゲットフレーム情報データINF
holdとする。 INFtar-sync=INFhold 例えば、図9に示すように、タイミングt=t1〜t2の
ターゲットフレームには、ターゲットフレーム情報デー
タINFtarが存在せず、シンクロナイゼーションモー
ド="1"となるが、タイミングt=t2〜t3のターゲッ
トフレームには、ターゲットフレーム情報データINF
tarが存在するので、置換済ターゲットフレーム情報デ
ータINFtar-syncをタイミングt=t2〜t3のターゲ
ットフレームのターゲットフレーム情報データである置
換用ターゲットフレーム情報データINFholdとする処
理P1を行い、以降の処理に用いられる置換済ターゲッ
トフレーム情報データINFtar-syncに含まれるターゲ
ット属性データは、平均アンプ静的成分Atar-sync-st
a、平均アンプビブラート的成分Atar-sync-vib、ピッ
チ静的成分Ptar-sync-sta、ピッチビブラート的成分P
tar-sync-vib、スペクトラル・シェイプStar-sync(f)
及び残差成分Rtar-sync(f)となる(ステップS1
6)。
If it is determined in step S15 that the synchronization mode = "1" or the synchronization mode = "2", the target frame information data INFtar (t) is added to the target frame corresponding to the original frame at the timing t. ) Does not exist, the replaced target frame information data INF
Target frame information data INF for replacing tar-sync
Hold. INFtar-sync = INFhold For example, as shown in FIG. 9, the target frame at the timing t = t1 to t2 does not have the target frame information data INFtar, and the synchronization mode = “1”. = Target frame information data INF
Since tar exists, a process P1 is performed in which the replaced target frame information data INFtar-sync is set as the replacement target frame information data INFhold which is the target frame information data of the target frame at the timing t = t2 to t3. The target attribute data included in the replaced target frame information data INFtar-sync used is an average amplifier static component Atar-sync-st
a, average amp vibrato component Atar-sync-vib, pitch static component Ptar-sync-sta, pitch vibrato component P
tar-sync-vib, spectral shape Star-sync (f)
And the residual component Rtar-sync (f) (step S1).
6).

【0050】また、図9に示すように、タイミングt=
t3〜t4のターゲットフレームには、ターゲットフレー
ム情報データINFtarが存在せず、シンクロナイゼー
ションモード="2"となるが、タイミングt=t2〜t3
のターゲットフレームには、ターゲットフレーム情報デ
ータINFtarが存在するので、置換済ターゲットフレ
ーム情報データINFtar-syncをタイミングt=t2〜
t3のターゲットフレームのターゲットフレーム情報デ
ータである置換用ターゲットフレーム情報データINF
holdとする処理P2を行い、以降の処理に用いられる置
換済ターゲットフレーム情報データINFtar-syncに含
まれるターゲット属性データは、平均アンプ静的成分A
tar-sync-sta、平均アンプビブラート的成分Atar-sync
-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラー
ト的成分Ptar-sync-vib、スペクトラル・シェイプSta
r-sync(f)及び残差成分Rtar-sync(f)となる(ステップ
S16)。
As shown in FIG. 9, the timing t =
In the target frame from t3 to t4, the target frame information data INFtar does not exist, and the synchronization mode becomes "2", but the timing t = t2 to t3.
Since the target frame has target frame information data INFtar, the replaced target frame information data INFtar-sync is set at timing t = t2 to
Replacement target frame information data INF, which is target frame information data of the target frame at t3
The processing P2 for setting the hold is performed, and the target attribute data included in the replaced target frame information data INFtar-sync used in the subsequent processing is the average amplifier static component A
tar-sync-sta, average amp vibrato component Atar-sync
-vib, pitch static component Ptar-sync-sta, pitch vibrato-like component Ptar-sync-vib, spectral shape Sta
It becomes r-sync (f) and the residual component Rtar-sync (f) (step S16).

【0051】ステップS12の判別において、元無声/
有声検出信号U/Vme(t)が無声(U)から有声(V)
に変化していない場合には(ステップS12;No)、
ターゲット無声/有声検出信号U/Vtar(t)が有声
(V)から無声(U)に変化しているか否かを判別する
(ステップS13)。ステップS13の判別において、
ターゲット無声/有声検出信号U/Vtar(t)が有声
(V)から無声(U)に変化している場合には(ステッ
プS13;Yes)、タイミングtの前回のタイミング
t-1における元無声/有声検出信号U/Vme(t-1)が有
声(V)かつターゲット無声/有声検出信号U/Vtar
(t-1)が有声(V)であるか否かを判別する(ステップ
S19)。
In the determination in step S12, the original silent /
The voiced detection signal U / Vme (t) changes from unvoiced (U) to voiced (V)
(Step S12; No),
It is determined whether or not the target unvoiced / voiced detection signal U / Vtar (t) has changed from voiced (V) to unvoiced (U) (step S13). In the determination in step S13,
If the target unvoiced / voiced detection signal U / Vtar (t) changes from voiced (V) to unvoiced (U) (step S13; Yes), the original unvoiced / voiced signal at the previous timing t-1 of the timing t is output. The voiced detection signal U / Vme (t-1) is voiced (V) and the target unvoiced / voiced detection signal U / Vtar
It is determined whether or not (t-1) is voiced (V) (step S19).

【0052】例えば、図9に示すように、タイミングt
3においてターゲット無声/有声検出信号U/Vtar(t)
が有声(V)から無声(U)に変化し、タイミングt-1
=t2〜t3においては、元無声/有声検出信号U/Vme
(t-1)が有声(V)かつターゲット無声/有声検出信号
U/Vtar(t-1)が有声(U)となっている。ステップS
19の判別において、元無声/有声検出信号U/Vme(t
-1)が有声(V)かつターゲット無声/有声検出信号U
/Vtar(t-1)が有声(V)となっている場合には(ステ
ップS19;Yes)、当該ターゲットフレームには、
ターゲットフレーム情報データINFtarが存在しない
ので、シンクロナイゼーションモード="2"とし、置換
用のターゲットフレーム情報データINFholdを当該タ
ーゲットフレームの前方向(forward)に存在するフレ
ームのターゲットフレーム情報とする。
For example, as shown in FIG.
Target unvoiced / voiced detection signal U / Vtar (t) at 3
Changes from voiced (V) to unvoiced (U) at timing t-1
= T2 to t3, the original unvoiced / voiced detection signal U / Vme
(t-1) is voiced (V) and the target unvoiced / voiced detection signal U / Vtar (t-1) is voiced (U). Step S
In the determination of No. 19, the original unvoiced / voiced detection signal U / Vme (t
-1) is voiced (V) and the target unvoiced / voiced detection signal U
If / Vtar (t-1) is voiced (V) (step S19; Yes), the target frame includes
Since the target frame information data INFtar does not exist, the synchronization mode is set to "2", and the replacement target frame information data INFhold is set as the target frame information of the frame existing in the forward direction of the target frame.

【0053】例えば、図9に示すように、タイミングt
=t3〜t4のターゲットフレームには、ターゲットフレ
ーム情報データINFtarが存在しないので、シンクロ
ナイゼーションモード="2"とし、置換用ターゲットフ
レーム情報データINFholdを当該ターゲットフレーム
の前方向に存在するフレーム(すなわち、タイミングt
=t2〜t3に存在するフレーム)のターゲットフレーム
情報データforwardとする。そして、処理をステップS
15に移行し、シンクロナイゼーションモード="0"で
あるか否かを判別して(ステップS15)、以下、同様
の処理を行う。ステップS13の判別において、ターゲ
ット無声/有声検出信号U/Vtar(t)が有声(V)から
無声(U)に変化していない場合には(ステップS1
3;No)、タイミングtにおける元無声/有声検出信
号U/Vme(t)が有声(V)から無声(U)に変化し、
あるいは、ターゲット無声/有声検出信号U/Vtar(t)
が無声(U)から有声(V)に変化しているか否かを判
別する(ステップS14)。
For example, as shown in FIG.
= T3 to t4, since the target frame information data INFtar does not exist, the synchronization mode is set to "2" and the replacement target frame information data INFhold is set to a frame existing in the forward direction of the target frame (i.e., , Timing t
= Frame existing at t2 to t3). Then, the process proceeds to step S
The process proceeds to step S15, and it is determined whether or not the synchronization mode is "0" (step S15), and thereafter, the same processing is performed. If it is determined in step S13 that the target unvoiced / voiced detection signal U / Vtar (t) has not changed from voiced (V) to unvoiced (U) (step S1).
3; No), the original unvoiced / voiced detection signal U / Vme (t) at timing t changes from voiced (V) to unvoiced (U),
Alternatively, the target unvoiced / voiced detection signal U / Vtar (t)
Is changed from unvoiced (U) to voiced (V) (step S14).

【0054】ステップS14の判別において、タイミン
グtにおける元無声/有声検出信号U/Vme(t)が有声
(V)から無声(U)に変化し、かつ、ターゲット無声
/有声検出信号U/Vtar(t)が無声(U)から有声
(V)に変化している場合には(ステップS14;Ye
s)、シンクロナイゼーションモード="0"とし、置換
用ターゲットフレーム情報データINFholdを初期化
(clear)し、処理をステップS15に移行して、以
下、同様の処理を行う。ステップS14の判別におい
て、タイミングtにおける元無声/有声検出信号U/V
me(t)が有声(V)から無声(U)に変化せず、かつ、
ターゲット無声/有声検出信号U/Vtar(t)が無声
(U)から有声(V)に変化していない場合には(ステ
ップS14;No)、そのまま処理をステップS15に
移行し、以下同様の処理を行う。
In the determination in step S14, the original unvoiced / voiced detection signal U / Vme (t) at the timing t changes from voiced (V) to unvoiced (U), and the target unvoiced / voiced detection signal U / Vtar ( If t) changes from unvoiced (U) to voiced (V) (step S14; Ye)
s), the synchronization mode is set to "0", the replacement target frame information data INFhold is initialized (cleared), the process proceeds to step S15, and the same process is performed. In the determination of step S14, the original unvoiced / voiced detection signal U / V at timing t
me (t) does not change from voiced (V) to unvoiced (U), and
If the target unvoiced / voiced detection signal U / Vtar (t) has not changed from unvoiced (U) to voiced (V) (step S14; No), the process proceeds to step S15 as it is, and thereafter the same process is performed. I do.

【0055】[2.9] 正弦波成分属性データ選択部
の動作 続いて、正弦波成分属性データ選択部23は、イージー
シンクロナイゼーション処理部22から入力された置換
済ターゲットフレーム情報データINFtar-syncに含ま
れるターゲット属性データのうち正弦波成分に関するタ
ーゲット属性データ(平均アンプ静的成分Atar-sync-s
ta、平均アンプビブラート的成分Atar-sync-vib、ピッ
チ静的成分Ptar-sync-sta、ピッチビブラート的成分P
tar-sync-vib及びスペクトラル・シェイプStar-sync
(f))及びコントローラ29から入力される正弦波成分
属性データ選択情報に基づいて、新しい正弦波成分属性
データである新規アンプ成分Anew、新規ピッチ成分Pn
ew及び新規スペクトラル・シェイプSnew(f)を生成す
る。
[2.9] Operation of Sine Wave Component Attribute Data Selector Subsequently, the sine wave component attribute data selector 23 replaces the target frame information data INFtar-sync which has been input from the easy synchronization processor 22. Attribute data on sine wave components (average amplifier static component Atar-sync-s)
ta, average amp vibrato component Atar-sync-vib, pitch static component Ptar-sync-sta, pitch vibrato component P
tar-sync-vib and spectral shape Star-sync
(f)) and the new amplifier component Anew and the new pitch component Pn, which are new sine wave component attribute data, based on the sine wave component attribute data selection information input from the controller 29.
Generate ew and a new spectral shape Snew (f).

【0056】すなわち、新規アンプ成分Anewについて
は、次式により生成する。 Anew=A*-sta+A*-vib(ただし、*は、me又はtar-sy
nc) より具体的には、図8(D)に示すように、新規アンプ
成分Anewを元属性データの平均アンプ静的成分Ame-st
aあるいはターゲット属性データの平均アンプ静的成分
Atar-sync-staのいずれか一方及び元属性データの平均
アンプビブラート的成分Ame-vibあるいはターゲット属
性データの平均アンプビブラート的成分Atar-sync-vib
のいずれか一方の組み合わせとして生成する。また、新
規ピッチ成分Pnewについては、次式により生成する。 Pnew=P*-sta+P*-vib(ただし、*は、me又はtar-sy
nc)
That is, the new amplifier component Anew is generated by the following equation. Anew = A * -sta + A * -vib (* is me or tar-sy
nc) More specifically, as shown in FIG. 8D, the new amplifier component Anew is replaced with the average amplifier static component Ame-st of the original attribute data.
a or the average amplifier static component Atar-sync-sta of the target attribute data and the average amplifier vibrato component Ame-vib of the original attribute data or the average amplifier vibrato component Atar-sync-vib of the target attribute data
Is generated as a combination of any one of the above. The new pitch component Pnew is generated by the following equation. Pnew = P * -sta + P * -vib (* is me or tar-sy
nc)

【0057】より具体的には、図8(D)に示すよう
に、新規ピッチ成分Pnewを元属性データのピッチ静的
成分Pme-staあるいはターゲット属性データのピッチ静
的成分Ptar-sync-staのいずれか一方及び元属性データ
のピッチビブラート的成分Pme-vibあるいはターゲット
属性データのピッチビブラート的成分Ptar-sync-vibの
いずれか一方の組み合わせとして生成する。また、新規
スペクトラル・シェイプSnew(f)については、次式によ
り生成する。 Snew(f)=S*(f)(ただし、*は、me又はtar-sync)
More specifically, as shown in FIG. 8D, the new pitch component Pnew is defined as the pitch static component Pme-sta of the original attribute data or the pitch static component Ptar-sync-sta of the target attribute data. It is generated as a combination of any one of the pitch vibrato component Pme-vib of the original attribute data and the pitch vibrato component Ptar-sync-vib of the target attribute data. The new spectral shape Snew (f) is generated by the following equation. Snew (f) = S * (f) (However, * is me or tar-sync)

【0058】ところで、一般的にアンプ成分が大きい場
合には、高域まで伸びた抜けの明るい音となり、アンプ
成分が小さい場合には、逆にこもった音になる。そこ
で、新規スペクトラル・シェイプSnew(f)に関しては、
このような状態をシミュレートすべく、図11に示すよ
うに、スペクトラル・シェイプの高域成分、すなわち、
高域成分部分のスペクトラル・シェイプの傾きを新規ア
ンプ成分Anewの大きさに応じて補償するスペクトラル
チルト補償(spectral tilt correction)を行って、コ
ントロールすることにより、よりリアルな音声を再生す
ることができる。続いて、生成された新規アンプ成分A
new、新規ピッチ成分Pnew及び新規スペクトラル・シェ
イプSnew(f)について、必要に応じてコントローラ29
から入力される正弦波成分属性データ変形情報に基づい
て、属性データ変形部24によりさらなる変形を行う。
例えば、スペクトラル・シェイプを全体的に間延びさせ
る等の変形を行う。属性データ変形部24は、変形後の
正弦波成分のピッチPattをピッチ決定部40へ供給す
る。
By the way, generally, when the amplifier component is large, the sound becomes a bright sound which extends to a high frequency, and when the amplifier component is small, the sound becomes muffled. Therefore, regarding the new spectral shape Snew (f),
In order to simulate such a state, as shown in FIG. 11, the high frequency component of the spectral shape, that is,
A more realistic sound can be reproduced by performing and controlling spectral tilt correction for compensating for the inclination of the spectral shape of the high-frequency component according to the magnitude of the new amplifier component Anew. . Subsequently, the generated new amplifier component A
new, a new pitch component Pnew and a new spectral shape Snew (f)
Further modification is performed by the attribute data transformation unit 24 based on the sine wave component attribute data transformation information input from.
For example, a deformation such as extending the entire spectral shape is performed. The attribute data deforming unit 24 supplies the pitch Patt of the sinusoidal component after the deformation to the pitch determining unit 40.

【0059】[2.10] 残差成分選択部の動作 一方、残差成分選択部25は、イージーシンクロナイゼ
ーション処理部22から入力された置換済ターゲットフ
レーム情報データINFtar-syncに含まれるターゲット
属性データのうち残差成分に関するターゲット属性デー
タ(残差成分Rtar-sync(f))、残差成分保持部12に
保持されている残差成分信号(周波数波形)Rme(f)及
びコントローラ29から入力される残差成分属性データ
選択情報に基づいて新しい残差成分属性データである新
規残差成分Rnew(f)を生成する。すなわち、新規残差成
分Rnew(f)については、次式により生成する。 Rnew(f)=R*(f)(ただし、*は、me又はtar-sync)
[2.10] Operation of Residual Component Selection Unit On the other hand, the residual component selection unit 25 includes a target attribute included in the replaced target frame information data INFtar-sync input from the easy synchronization processing unit 22. Target attribute data (residual component Rtar-sync (f)) relating to the residual component of the data, the residual component signal (frequency waveform) Rme (f) held in the residual component holding unit 12 and input from the controller 29 Based on the residual component attribute data selection information to be generated, a new residual component Rnew (f), which is new residual component attribute data, is generated. That is, the new residual component Rnew (f) is generated by the following equation. Rnew (f) = R * (f) (* is me or tar-sync)

【0060】この場合においては、me又はtar-syncのい
ずれを選択するかは、新規スペクトラル・シェイプSne
w(f)と同一のものを選択するのがより好ましい。さら
に、新規残差成分Rnew(f)に関しても、新規スペクトラ
ル・シェイプと同様な状態をシミュレートすべく、図1
1に示したように、残差成分の高域成分、すなわち、高
域成分部分の残差成分の傾きを新規アンプ成分Anewの
大きさに応じて補償するスペクトラルチルト補償(spec
tral tilt correction)を行って、コントロールするこ
とにより、よりリアルな音声を再生することができる。
In this case, whether to select me or tar-sync is determined by the new spectral shape Sne.
It is more preferable to select the same as w (f). Further, with respect to the new residual component Rnew (f), in order to simulate a state similar to the new spectral shape, FIG.
As shown in FIG. 1, spectral tilt compensation (spec) for compensating the high-frequency component of the residual component, that is, the slope of the residual component in the high-frequency component portion, according to the magnitude of the new amplifier component Anew
By performing tral tilt correction) and controlling, more realistic sound can be reproduced.

【0061】[2.11] 正弦波成分生成部の動作 続いて、正弦波成分生成部26は、属性データ変形部2
4から出力された変形を伴わない、あるいは、変形を伴
う新規アンプ成分Anew、新規ピッチ成分Pnew及び新規
スペクトラル・シェイプSnew(f)に基づいて、当該フレ
ームにおける新たな正弦波成分(F"0、A"0)、
(F"1、A"1)、(F"2、A"2)、……、(F"(N-
1)、A"(N-1))のN個の正弦波成分(以下、これらをま
とめてF"n、A"nと表記する。n=0〜(N−
1)。)を求める。より具体的には、次式により新規周
波数F"nおよび新規アンプA"nを求める。 F"n=F'n×Pnew A"n=Snew(F"n)×Anew なお、完全倍音構造のモデルとして捉えるのであれば、 F"n=(n+1)×Pnew となる。
[2.11] Operation of Sine Wave Component Generation Unit Subsequently, the sine wave component generation unit 26
4, a new sine wave component (F "0, F" 0, Fnew) in the frame based on the new amplifier component Anew, the new pitch component Pnew and the new spectral shape Snew (f) without or with the deformation. A "0),
(F "1, A" 1), (F "2, A" 2), ..., (F "(N-
1), N sine wave components of A "(N-1)) (hereinafter collectively referred to as F" n, A "n. N = 0 to (N-
1). ). More specifically, a new frequency F "n and a new amplifier A" n are obtained by the following equations. F "n = F'n.times.Pnew A" n = Snew (F "n) .times.Anew If it is considered as a model of a perfect harmonic structure, F" n = (n + 1) .times.Pnew.

【0062】[2.12] 正弦波成分変形部の動作 さらに、求めた新規周波数F"nおよび新規アンプA"n
について、必要に応じてコントローラ29から入力され
る正弦波成分変形情報に基づいて、正弦波成分変形部2
7によりさらなる変形を行う。例えば、偶数次成分の新
規アンプA"n(=A"0、A"2、A"4、……)だけを
大きく(例えば、2倍する)等の変形を行う。これによ
って得られる変換音声にさらにバラエティーを持たせる
ことが可能となる。
[2.12] Operation of Sine Wave Component Deformer Further, the new frequency F "n and new amplifier A" n obtained
, Based on the sine wave component deformation information input from the controller 29 as necessary.
7 make a further deformation. For example, a modification is performed such that only the new-order amplifier A "n (= A" 0, A "2, A" 4,...) Of even-order components is increased (for example, doubled). As a result, it is possible to give the converted speech further variety.

【0063】[2.13] ピッチ決定部の動作 くし形フィルタのピッチ決定部40は、ピッチ検出部7
からのピッチPme-str、ターゲットフレーム情報保持部
20からのピッチPtar-sta、正弦波成分属性データ選
択部23からのピッチPnew、属性データ変形部24か
らのピッチPattのいずれかを(基本的にはピッチPat
t)、くし形フィルタの最適なピッチ(くし形フィルタ
のピッチ:Pcomb)とし、くし形フィルタ処理部41へ
供給する。ここで、くし形フィルタのピッチ(Pcomb)
の決定方法について説明する。上述した説明では、ピッ
チPcombを属性データ変形部24による属性変換後のピ
ッチPattから生成するとしたが、これに限るものでは
ない。例えば、音声変換処理において、正弦波成分のピ
ッチにターゲットのピッチPtar-staを用い、新規残差
成分Rnew(f)にRme(f)を用いた場合、残差成分
で不要となるのは、ピッチPme-staであり、ピッチPco
mbとしてはピッチPme-staを用いる。逆に、音声変換処
理において、正弦波成分のピッチにピッチPme-staを用
い、新規残差成分Pnew(f)にターゲットの残差成分
Rtar-sync(f)を用いた場合、ピッチPcombとしては
ピッチPtar-staを用いる。
[2.13] Operation of Pitch Determining Unit The pitch determining unit 40 of the comb filter includes the pitch detecting unit 7
Pme-str from the target frame information holding unit 20, pitch Pnew from the sine wave component attribute data selecting unit 23, and pitch Patt from the attribute data deforming unit 24 (basically Is the pitch Pat
t), the optimum pitch of the comb filter (pitch of the comb filter: Pcomb) is supplied to the comb filter processing unit 41. Here, the pitch of the comb filter (Pcomb)
Will be described. In the above description, the pitch Pcomb is generated from the pitch Patt after the attribute conversion by the attribute data deforming unit 24, but the present invention is not limited to this. For example, in the voice conversion processing, when the target pitch Ptar-sta is used for the pitch of the sine wave component and Rme (f) is used for the new residual component Rnew (f), the residual component is unnecessary. Pitch Pme-sta and pitch Pco
The pitch Pme-sta is used as mb. Conversely, in the voice conversion process, when the pitch Pme-sta is used for the pitch of the sine wave component and the target residual component Rtar-sync (f) is used for the new residual component Pnew (f), the pitch Pcomb is The pitch Ptar-sta is used.

【0064】また、最終的な音声変換処理となる属性変
換において、オクターブ等のピッチシフトを行う場合、
ピッチPcombとしては、該ピッチシフトに入力音声の残
差成分を用いたときには、ピッチPme-staを用い、ター
ゲットの残差成分を用いたときには、ピッチPtar-sta
を用いればよい。さらに、入力音声とターゲット音声の
各々の残差成分を任意の比率で補間している用いる場
合、ピッチPme-staとピッチPtar-staとをこれと同じ
比率で補間して生成されるピッチを、くし形フィルタの
ピッチPcombとする。このように、音声変換処理を施し
た残差成分をくし形フィルタでフィルタリングし、該残
差成分からピッチ成分およびその倍音成分を取り除くに
は、用いるくし形フィルタへ最適なピッチPcombを決定
する必要がある。
Further, in the case of performing a pitch shift such as an octave in the attribute conversion as a final voice conversion process,
As the pitch Pcomb, when the residual component of the input voice is used for the pitch shift, the pitch Pme-sta is used. When the residual component of the target is used, the pitch Ptar-sta is used.
May be used. Further, when the residual components of the input voice and the target voice are interpolated at an arbitrary ratio, the pitch generated by interpolating the pitch Pme-sta and the pitch Ptar-sta at the same ratio is defined as: The pitch of the comb filter is Pcomb. As described above, in order to filter the residual component subjected to the voice conversion processing by the comb filter and remove the pitch component and its overtone component from the residual component, it is necessary to determine the optimum pitch Pcomb for the comb filter to be used. There is.

【0065】[2.14] くし形フィルタ処理部の動
作 くし形フィルタ処理部41は、ピッチPcombを用いて、
くし形フィルタを構成し、該くし形フィルタで残差成分
Rnew(f)をフィルタリングすることで、残差成分Rnew
(f)からピッチ成分およびその倍音成分を取り除き、新
たな残差成分Rnew'(f)として、逆高速フーリエ変換部
28へ供給する。ここで、図12は、ピッチPcombを2
00Hzとした場合のくし形フィルタの特性例を示す概
念図である。このように、残差成分を周波数軸上で保持
している場合には、ピッチPcombに基づいて周波数軸上
でくし形フィルタを構成する。
[2.14] Operation of Comb Filter Processing Unit The comb filter processing unit 41 uses the pitch Pcomb to
By forming a comb filter and filtering the residual component Rnew (f) with the comb filter, the residual component Rnew (f) is obtained.
The pitch component and its harmonic components are removed from (f), and the resulting component is supplied to the inverse fast Fourier transform unit 28 as a new residual component Rnew '(f). Here, FIG. 12 shows that the pitch Pcomb is 2
It is a conceptual diagram which shows the example of a characteristic of the comb filter in the case of 00 Hz. As described above, when the residual component is held on the frequency axis, a comb filter is formed on the frequency axis based on the pitch Pcomb.

【0066】[2.15] 逆高速フーリエ変換部の動
作 次に逆高速フーリエ変換部28は、求めた新規周波数
F"nおよび新規アンプA"n(=新規正弦波成分)並び
に新規残差成分Rnew'(f)をFFTバッファに格納し、
順次逆FFTを行い、さらに得られた時間軸信号を一部
重複するようにオーバーラップ処理し、それらを加算す
る加算処理を行うことにより新しい有声音の時間軸信号
である変換音声信号を生成する。
[2.15] Operation of Inverse Fast Fourier Transform Unit Next, the inverse fast Fourier transform unit 28 calculates the new frequency F "n and new amplifier A" n (= new sine wave component) and new residual component. Rnew '(f) is stored in the FFT buffer,
Inverse FFT is sequentially performed, and the obtained time axis signals are overlapped so as to partially overlap, and an addition processing of adding them is performed to generate a converted voice signal which is a new voiced sound time axis signal. .

【0067】このとき、コントローラ29から入力され
る正弦波成分/残差成分バランス制御信号に基づいて、
正弦波成分及び残差成分の混合比率を制御し、よりリア
ルな有声信号を得る。この場合において、一般的には、
残差成分の混合比率を大きくするとざらついた声が得ら
れる。この場合において、FFTバッファに新規周波数
F"nおよび新規アンプA"n(=新規正弦波成分)並び
に新規残差成分Rnew(f)を格納するに際し、異なるピッ
チ、かつ、適当なピッチで変換された正弦波成分をさら
に加えることにより変換音声信号としてハーモニーを得
ることができる。さらにシーケンサ31により伴奏音に
適合したハーモニーピッチを与えることにより、伴奏に
適合した音楽的ハーモニーを得ることができる。
At this time, based on the sine wave component / residual component balance control signal input from the controller 29,
A more realistic voiced signal is obtained by controlling the mixing ratio of the sine wave component and the residual component. In this case, generally,
When the mixing ratio of the residual components is increased, a rough voice is obtained. In this case, when storing the new frequency F "n, the new amplifier A" n (= new sine wave component) and the new residual component Rnew (f) in the FFT buffer, they are converted at different pitches and at an appropriate pitch. Harmony can be obtained as a converted audio signal by further adding the sine wave component. Further, by giving a harmony pitch adapted to the accompaniment sound by the sequencer 31, musical harmony adapted to the accompaniment can be obtained.

【0068】[2.16] クロスフェーダの動作 次にクロスフェーダ30は、元無声/有声検出信号U/
Vme(t)に基づいて、入力音声信号Svが無声(U)であ
る場合には、入力音声信号Svをそのままミキサ30に
出力する。また、入力音声信号Svが有声(V)である
場合には、逆高速フーリエ変換変換部28が出力した変
換音声信号をミキサ33に出力する。この場合におい
て、切替スイッチとしてクロスフェーダ30を用いてい
るのは、クロスフェード動作を行わせることによりスイ
ッチ切替時のクリック音の発生を防止するためである。
[2.16] Operation of Crossfader Next, the crossfader 30 transmits the original unvoiced / voiced detection signal U /
If the input audio signal Sv is unvoiced (U) based on Vme (t), the input audio signal Sv is output to the mixer 30 as it is. When the input audio signal Sv is voiced (V), the converted audio signal output from the inverse fast Fourier transform converter 28 is output to the mixer 33. In this case, the reason why the cross fader 30 is used as the changeover switch is to prevent a click sound from occurring at the time of switch changeover by performing a crossfade operation.

【0069】[2.17] シーケンサ、音源部、ミキ
サ及び出力部の動作 一方、シーケンサ31は、カラオケの伴奏音を発生する
ための音源制御情報を例えば、MIDI(Musical Inst
rument Digital Interface)データなどとして音源部3
2に出力する。これにより音源部32は、音源制御情報
に基づいて伴奏信号を生成し、ミキサ33に出力する。
ミキサ33は、入力音声信号Svあるいは変換音声信号
のいずれか一方及び伴奏信号を混合し、混合信号を出力
部34に出力する。出力部34は、図示しない増幅器を
有し混合信号を増幅して音響信号として出力することと
なる。
[2.17] Operation of Sequencer, Sound Source Unit, Mixer, and Output Unit On the other hand, the sequencer 31 transmits sound source control information for generating a karaoke accompaniment sound to, for example, a MIDI (Musical Instrument).
rument Digital Interface) sound source section 3 as data etc.
Output to 2. Thereby, the sound source section 32 generates an accompaniment signal based on the sound source control information, and outputs the accompaniment signal to the mixer 33.
The mixer 33 mixes either the input audio signal Sv or the converted audio signal and the accompaniment signal, and outputs the mixed signal to the output unit 34. The output unit 34 has an amplifier (not shown), amplifies the mixed signal, and outputs it as an acoustic signal.

【0070】[3] 実施形態の変形例 [3.1] 第1変形例 以上の説明においては、属性データとしては、元属性デ
ータあるいはターゲット属性データのいずれかを選択的
に用いる構成としていたが、元属性データ及びターゲッ
ト属性データの双方を用い、補間処理を行うことにより
中間的な属性を有する変換音声信号を得るように構成す
ることも可能である。しかしながら、このような構成に
よれば、ものまねをしようとする歌唱者及びものまねの
対象(target)となる歌唱者のいずれにも似ていない変
換音声が得られる場合もある。また、特にスペクトラル
・シェイプを補間処理によって求めた場合には、ものま
ねをしようとする歌唱者が「あ」を発音し、ものまねの
対象となる歌唱者が「い」を発音している場合などに
は、「あ」でも「い」でもない音が変換音声として出力
される可能性があり、その取扱には注意が必要である。
[3] Modifications of Embodiment [3.1] First Modification In the above description, either the original attribute data or the target attribute data is selectively used as the attribute data. It is also possible to obtain a converted audio signal having an intermediate attribute by performing an interpolation process using both the original attribute data and the target attribute data. However, according to such a configuration, a converted voice that is not similar to any of the singer trying to imitate and the singer to be imitated may be obtained. Also, especially when the spectral shape is obtained by interpolation processing, the singer trying to imitate pronounces "a", and the singer to be imitated pronounces "i". There is a possibility that sounds other than "A" or "I" may be output as converted voices, and care must be taken when handling them.

【0071】[3.2] 第2変形例 正弦波成分の抽出は、この実施形態で用いた方法に限ら
ない。要は、音声信号に含まれる正弦波を抽出できれば
よい。 [3.3] 第3変形例 本実施形態においては、ターゲットの正弦波成分及び残
差成分を記憶したが、これに換えて、ターゲットの音声
そのものを記憶し、それを読み出してリアルタイム処理
によって正弦波成分と残差成分とを抽出してもよい。す
なわち、本実施形態でものまねをしようとする歌唱者の
音声に対して行った処理と同様の処理をターゲットの歌
唱者の音声に対して行ってもよい。
[3.2] Second Modification The extraction of the sine wave component is not limited to the method used in this embodiment. In short, it is only necessary to extract a sine wave included in the audio signal. [3.3] Third Modification In the present embodiment, the sine wave component and the residual component of the target are stored. Instead, the target speech itself is stored, read out, and subjected to real-time processing. The wave component and the residual component may be extracted. That is, processing similar to the processing performed on the voice of the singer trying to imitate in the present embodiment may be performed on the voice of the target singer.

【0072】[3.4] 第4変形例 本実施形態においては、属性データとして、ピッチ、ア
ンプ、スペクトラル・シェイプの全てを取り扱ったが、
少なくともいずれか一つを扱うようにすることも可能で
ある。 [3.5] 第5変形例 本実施形態では、残差成分を周波数軸上で保持していた
が、これに限らず、残差成分を時間軸上で保持するよう
にしてもよい。図13は、上述した実施形態の変形例の
構成(一部)を示すブロック図である。また、図14
は、くし形フィルタ(遅延フィルタ)の構成の一例を示
すブロック図である。なお、図1に対応する部分には同
一の符号を付けて説明を省略する。図において、くし形
フィルタ処理部42は、ピッチ決定部40で決定された
ピッチPcombの逆数をディレイタイムとする、くし形フ
ィルタ(遅延フィルタ)を構成し、該くし形フィルタで
残差成分Rnew(t)をフィルタリングし、残差成分Rne
w''(t)として減算器43に供給する。減算器43は、残
差成分Rnew(t)から上記フィルタリングされた残差成分
Rnew''(t)を減算することで、残差成分Rnew(t)からピ
ッチ成分およびその倍音成分を取り除き、新たな残差成
分Rnew'(t)として、IFFT処理部8へ供給する。こ
のように、残差成分を時間軸上で処理する場合であって
も、上述した実施形態と同様に、残差成分Rnew(t)から
ピッチ成分およびその倍音成分を取り除くことが可能と
なる。したがって、最終的に出力される音声には、正弦
波成分のピッチ成分のみが聴取されることになり、音声
の自然性を向上させることができる。
[3.4] Fourth Modification In this embodiment, all of the pitch, amplifier, and spectral shape are handled as attribute data.
It is also possible to handle at least one of them. [3.5] Fifth Modification In the present embodiment, the residual component is held on the frequency axis. However, the present invention is not limited to this, and the residual component may be held on the time axis. FIG. 13 is a block diagram illustrating a configuration (part) of a modification of the above-described embodiment. FIG.
FIG. 3 is a block diagram illustrating an example of a configuration of a comb filter (delay filter). Note that the same reference numerals are given to portions corresponding to FIG. In the figure, a comb filter processing unit 42 constitutes a comb filter (delay filter) that uses a reciprocal of the pitch Pcomb determined by the pitch determination unit 40 as a delay time, and the comb filter has a residual component Rnew ( t) and filter the residual component Rne
It is supplied to the subtractor 43 as w '' (t). The subtracter 43 subtracts the filtered residual component Rnew '' (t) from the residual component Rnew (t) to remove the pitch component and its harmonic component from the residual component Rnew (t), It is supplied to the IFFT processing unit 8 as a residual component Rnew ′ (t). As described above, even when the residual component is processed on the time axis, it is possible to remove the pitch component and its harmonic component from the residual component Rnew (t), as in the above-described embodiment. Therefore, only the pitch component of the sine wave component is heard in the finally output sound, and the naturalness of the sound can be improved.

【0073】[4] 実施形態の効果 以上の結果、カラオケの伴奏とともに、歌唱者の歌が出
力されるが、その声質および歌い方などは、ターゲット
の影響を大きく受け、ターゲットそのものの声質および
歌い方となる。このようにして、あたかもターゲットの
物まねをしているような歌が出力される。また、残差成
分Rnew(f)からピッチ成分およびその倍音成分が取り除
かれるので、最終的には、正弦波成分のピッチ成分のみ
が聴取されることになり、音声の自然性を損なうことが
ない。
[4] Effects of Embodiment As a result, the singer's song is output together with the karaoke accompaniment. The voice quality and singing style are greatly affected by the target, and the voice quality and singing of the target itself are obtained. One. In this way, a song as if imitating the target is output. Further, since the pitch component and its harmonic components are removed from the residual component Rnew (f), only the pitch component of the sine wave component is finally heard, and the naturalness of the sound is not impaired. .

【0074】[0074]

【発明の効果】以上、説明したように、本発明によれ
ば、入力音声信号から抽出した正弦波成分と、残差成分
とを、ターゲット音声の正弦波成分または残差成分に基
づいて各々変形し、次いで、正弦波成分と残差成分とを
合成する前に、変形した残差成分のピッチ成分およびそ
の倍音成分を除去するようにしたので、合成することに
より得られる音声の自然性を損なうことなく、ものまね
しようとする歌唱者の音声(入力された音声)からもの
まねの対象となるターゲット歌唱者の声質や歌い方が反
映された変換音声を得ることが容易にできる。
As described above, according to the present invention, the sine wave component and the residual component extracted from the input voice signal are respectively transformed based on the sine wave component or the residual component of the target voice. Then, before synthesizing the sine wave component and the residual component, the pitch component of the transformed residual component and its overtone component are removed, so that the naturalness of the voice obtained by the synthesis is impaired. Without conversion, a converted voice that reflects the voice quality and singing style of the target singer to be imitated can be easily obtained from the voice of the singer trying to imitate (input voice).

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の一実施形態の構成を示すブロック図
(その1)である。
FIG. 1 is a block diagram (part 1) illustrating a configuration of an embodiment of the present invention.

【図2】 本発明の一実施形態の構成を示すブロック図
(その2)である。
FIG. 2 is a block diagram (part 2) showing a configuration of an embodiment of the present invention.

【図3】 実施形態におけるフレームの状態を示す図で
ある。
FIG. 3 is a diagram illustrating a state of a frame according to the embodiment.

【図4】 実施形態における周波数スペクトルのピーク
検出を説明するための説明図である。
FIG. 4 is an explanatory diagram for describing peak detection of a frequency spectrum in the embodiment.

【図5】 実施形態におけるフレーム毎のピーク値の連
携を示す図である。
FIG. 5 is a diagram illustrating cooperation of peak values for each frame in the embodiment.

【図6】 実施形態における周波数値の変化状態を示す
図である。
FIG. 6 is a diagram illustrating a change state of a frequency value in the embodiment.

【図7】 実施形態における処理過程における確定成分
の変化状態を示す図である。
FIG. 7 is a diagram showing a change state of a deterministic component in a process in the embodiment.

【図8】 実施形態における信号処理の説明図である。FIG. 8 is an explanatory diagram of signal processing in the embodiment.

【図9】 イージーシンクロナイゼーション処理のタイ
ミングチャートである。
FIG. 9 is a timing chart of an easy synchronization process.

【図10】 イージーシンクロナイゼーション処理フロ
ーチャートである。
FIG. 10 is a flowchart of an easy synchronization process.

【図11】 スペクトラル・シェイプのスペクトラルチ
ルト補償について説明する図である。
FIG. 11 is a diagram for explaining spectral tilt compensation of a spectral shape.

【図12】 くし形フィルタの特性(ピッチPcombを2
00Hzとした場合)を説明するための概念図である。
FIG. 12 shows characteristics of a comb filter (pitch Pcomb is 2
FIG. 6 is a conceptual diagram for explaining the case of 00 Hz).

【図13】 本発明の変形例による音声変換装置の構成
(一部)を示すブロック図である。
FIG. 13 is a block diagram illustrating a configuration (part) of a voice conversion device according to a modification of the present invention.

【図14】 くし形フィルタ(遅延フィルタ)の構成の
一例を示すブロック図である。
FIG. 14 is a block diagram illustrating an example of a configuration of a comb filter (delay filter).

【符号の説明】[Explanation of symbols]

1…マイク、2…分析窓生成部、3…入力音声信号切出
部、4…高速フーリエ変換部、5…ピーク検出部、6…
無声/有声検出部、7…ピッチ抽出部、8…ピーク連携
部、9…補間合成部、10…残差成分検出部、11…高
速フーリエ変換部、12…残差成分保持部、13…正弦
波成分保持部、14…平均アンプ演算部、15…アンプ
正規化部、16…スペクトラル・シェイプ演算部、17
…ピッチ正規化部、18…元フレーム情報保持部、19
…静的変化/ビブラート的変化分離部、20…ターゲッ
トフレーム情報保持部、21…キーコントロール/テン
ポチェンジ部、22…イージーシンクロナイゼーション
処理部、23…正弦波成分属性データ選択部、24…属
性データ変形部、25…残差成分選択部、26…正弦波
成分生成部、27…正弦波成分変形部、28…逆高速フ
ーリエ変換部、29…コントローラ、30…クロスフェ
ーダ、31…シーケンサ、32…音源部、33…ミキ
サ、34…出力部、40…ピッチ決定部、41,42…
くし形フィルタ処理部、43…減算器
DESCRIPTION OF SYMBOLS 1 ... Microphone, 2 ... Analysis window generation part, 3 ... Input audio signal extraction part, 4 ... Fast Fourier transform part, 5 ... Peak detection part, 6 ...
Unvoiced / voiced detection unit, 7: pitch extraction unit, 8: peak linking unit, 9: interpolation / synthesis unit, 10: residual component detection unit, 11: fast Fourier transform unit, 12: residual component holding unit, 13: sine Wave component holding unit, 14: average amplifier calculation unit, 15: amplifier normalization unit, 16: spectral shape calculation unit, 17
... Pitch normalizing section, 18 ... Original frame information holding section, 19
... Static change / vibrato change separation section, 20 ... Target frame information holding section, 21 ... Key control / tempo change section, 22 ... Easy synchronization processing section, 23 ... Sine wave component attribute data selection section, 24 ... Attribute Data transformation unit, 25: Residual component selection unit, 26: Sine wave component generation unit, 27: Sine wave component transformation unit, 28: Inverse fast Fourier transform unit, 29: Controller, 30: Crossfader, 31: Sequencer, 32 ... sound source section, 33 ... mixer, 34 ... output section, 40 ... pitch determination section, 41, 42 ...
Comb-shaped filter processing unit, 43 ... subtractor

───────────────────────────────────────────────────── フロントページの続き 審査官 渡邊 聡 (56)参考文献 特開 平6−149242(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 21/04 ────────────────────────────────────────────────── ─── Continuation of the front page Examiner Satoshi Watanabe (56) References JP-A-6-149242 (JP, A) (58) Field surveyed (Int. Cl. 7 , DB name) G10L 21/04

Claims (6)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力音声信号から正弦波成分を抽出する
正弦波成分抽出手段と、 前記正弦波成分抽出手段により抽出された正弦波成分以
外の残差成分を、前記入力音声信号から抽出する残差成
分抽出手段と、 前記正弦波成分抽出手段により抽出された正弦波成分
を、ターゲット音声信号の正弦波成分に基づいて変形す
る正弦波成分変形手段と、 前記残差成分抽出手段により抽出された残差成分を、前
記ターゲット音声信号の残差成分に基づいて変形する残
差成分変形手段と、 前記残差成分変形手段により得られた残差成分のピッチ
成分およびその倍音成分を除去する除去手段と、 前記正弦波成分変形手段により変形された正弦波成分
と、前記除去手段によりピッチ成分およびその倍音成分
が除去された残差成分とを合成する合成手段とを具備す
ることを特徴とする音声変換装置。
1. A sine wave component extracting unit for extracting a sine wave component from an input audio signal, and a residual component for extracting a residual component other than the sine wave component extracted by the sine wave component extracting unit from the input audio signal. A difference component extracting unit, a sine wave component deforming unit that deforms the sine wave component extracted by the sine wave component extracting unit based on a sine wave component of the target audio signal, and a sine wave component deforming unit extracted by the residual component extracting unit. Residual component deforming means for deforming the residual component based on the residual component of the target audio signal; and removing means for removing the pitch component of the residual component obtained by the residual component deforming means and its harmonic component. Synthesizing means for synthesizing a sine wave component deformed by the sine wave component deforming means and a residual component from which the pitch component and its harmonic component have been removed by the removing means. Speech conversion system which is characterized in that.
【請求項2】 請求項1記載の音声変換装置において、 前記入力音声信号の正弦波成分のピッチ、前記ターゲッ
ト音声信号の正弦波成分のピッチ、前記正弦波成分変形
手段により得られた正弦波成分のピッチのいずれかを、
前記除去手段における減衰ピークのピッチとするピッチ
決定手段を具備することを特徴とする音声変換装置。
2. The audio conversion device according to claim 1, wherein a pitch of a sine wave component of the input audio signal, a pitch of a sine wave component of the target audio signal, and a sine wave component obtained by the sine wave component deformation unit. One of the pitches,
A voice conversion device comprising a pitch determination unit that sets a pitch of an attenuation peak in the removal unit.
【請求項3】 請求項1記載の音声変換装置において、 前記除去手段は、前記残差成分を周波数軸上で保持する
場合には、前記ピッチ決定手段により決定された減衰ピ
ークのピッチを有するくし形フィルタであることを特徴
とする音声変換装置。
3. The audio conversion device according to claim 1, wherein the removing unit has a pitch of an attenuation peak determined by the pitch determining unit when the residual component is held on a frequency axis. A voice conversion device characterized by being a shape filter.
【請求項4】 請求項1記載の音声変換装置において、 前記除去手段は、前記残差成分を時間軸上で保持する場
合には、前記ピッチ決定手段により決定された減衰ピー
クのピッチの逆数を遅延時間とする遅延フィルタを有す
るくし形フィルタであることを特徴とする音声変換装
置。
4. The voice conversion device according to claim 1, wherein the removing unit, when holding the residual component on a time axis, calculates a reciprocal of a pitch of the attenuation peak determined by the pitch determining unit. An audio conversion device characterized by being a comb filter having a delay filter for setting a delay time.
【請求項5】 入力音声から正弦波成分及び前記正弦波
成分以外の成分である残差成分を抽出する成分抽出工程
と、 前記抽出された正弦波成分を、ターゲット音声の正弦波
成分に基づいて変形する正弦波成分変形工程と、 前記抽出された残差成分を、前記ターゲット音声の残差
成分に基づいて変形する残差成分変形工程と、 前記残差成分変形工程において得られた残差成分のピッ
チ成分およびその倍音成分を除去する除去工程と、 前記正弦波成分変形工程において変形された正弦波成分
と、前記除去工程において得られたピッチ成分およびそ
の倍音成分が除去された残差成分とを合成する合成工程
とを具備することを特徴とする音声変換方法。
5. A component extracting step of extracting a sine wave component and a residual component other than the sine wave component from the input voice, and extracting the extracted sine wave component based on a sine wave component of the target voice. A sinusoidal wave component deforming step of deforming; a residual component deforming step of deforming the extracted residual component based on a residual component of the target voice; and a residual component obtained in the residual component deforming step. A removing step of removing the pitch component and its overtone component, a sine wave component deformed in the sine wave component deforming step, and a residual component from which the pitch component and its harmonic component removed in the removing step are removed. And a synthesizing step of synthesizing.
【請求項6】 請求項5記載の音声変換方法において、 前記入力音声の正弦波成分のピッチ、前記ターゲット音
声の正弦波成分のピッチ、前記正弦波成分変形手段によ
り得られた正弦波成分のピッチのいずれかを、前記除去
手段における減衰ピークのピッチとするピッチ決定工程
を具備することを特徴とする音声変換方法。
6. The voice conversion method according to claim 5, wherein a pitch of a sine wave component of the input voice, a pitch of a sine wave component of the target voice, and a pitch of a sine wave component obtained by the sine wave component transforming means. A pitch determination step of setting any one of the above as a pitch of an attenuation peak in said removing means.
JP17503898A 1998-06-15 1998-06-22 Voice conversion device and voice conversion method Expired - Fee Related JP3294192B2 (en)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP17503898A JP3294192B2 (en) 1998-06-22 1998-06-22 Voice conversion device and voice conversion method
TW088108973A TW430778B (en) 1998-06-15 1999-05-31 Voice converter with extraction and modification of attribute data
EP10009510A EP2264696B1 (en) 1998-06-15 1999-06-07 Voice converter with extraction and modification of attribute data
EP12000670A EP2450887A1 (en) 1998-06-15 1999-06-07 Voice converter with extraction and modification of attribute data
EP99110936A EP0982713A3 (en) 1998-06-15 1999-06-07 Voice converter with extraction and modification of attribute data
US10/282,536 US7606709B2 (en) 1998-06-15 2002-10-29 Voice converter with extraction and modification of attribute data
US10/282,992 US20030055647A1 (en) 1998-06-15 2002-10-29 Voice converter with extraction and modification of attribute data
US10/282,754 US7149682B2 (en) 1998-06-15 2002-10-29 Voice converter with extraction and modification of attribute data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17503898A JP3294192B2 (en) 1998-06-22 1998-06-22 Voice conversion device and voice conversion method

Publications (2)

Publication Number Publication Date
JP2000010599A JP2000010599A (en) 2000-01-14
JP3294192B2 true JP3294192B2 (en) 2002-06-24

Family

ID=15989139

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17503898A Expired - Fee Related JP3294192B2 (en) 1998-06-15 1998-06-22 Voice conversion device and voice conversion method

Country Status (1)

Country Link
JP (1) JP3294192B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101286168B1 (en) 2004-12-27 2013-07-15 가부시키가이샤 피 소프트하우스 Audio signal processing device, method and recording medium storing the method
JP4705203B2 (en) * 2009-07-06 2011-06-22 パナソニック株式会社 Voice quality conversion device, pitch conversion device, and voice quality conversion method

Also Published As

Publication number Publication date
JP2000010599A (en) 2000-01-14

Similar Documents

Publication Publication Date Title
US7606709B2 (en) Voice converter with extraction and modification of attribute data
JP6791258B2 (en) Speech synthesis method, speech synthesizer and program
JP3502247B2 (en) Voice converter
Bonada et al. Sample-based singing voice synthesizer by spectral concatenation
JP3711880B2 (en) Speech analysis and synthesis apparatus, method and program
Bonada et al. Singing voice synthesis combining excitation plus resonance and sinusoidal plus residual models
JP3540159B2 (en) Voice conversion device and voice conversion method
JP2003345400A (en) Method, device, and program for pitch conversion
JP3294192B2 (en) Voice conversion device and voice conversion method
JP4757971B2 (en) Harmony sound adding device
JP3502268B2 (en) Audio signal processing device and audio signal processing method
JP3447221B2 (en) Voice conversion device, voice conversion method, and recording medium storing voice conversion program
JP3706249B2 (en) Voice conversion device, voice conversion method, and recording medium recording voice conversion program
JP4349316B2 (en) Speech analysis and synthesis apparatus, method and program
JP3949828B2 (en) Voice conversion device and voice conversion method
JP3540609B2 (en) Voice conversion device and voice conversion method
JP6834370B2 (en) Speech synthesis method
JP3934793B2 (en) Voice conversion device and voice conversion method
JP2000003187A (en) Method and device for storing voice feature information
JP3540160B2 (en) Voice conversion device and voice conversion method
JP3447220B2 (en) Voice conversion device and voice conversion method
JP3907027B2 (en) Voice conversion device and voice conversion method
JP3907838B2 (en) Voice conversion device and voice conversion method
JPH1031496A (en) Musical sound generating device
JP6822075B2 (en) Speech synthesis method

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090405

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090405

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100405

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110405

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120405

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130405

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140405

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees