JP3447220B2 - Voice conversion device and voice conversion method - Google Patents

Voice conversion device and voice conversion method

Info

Publication number
JP3447220B2
JP3447220B2 JP16904898A JP16904898A JP3447220B2 JP 3447220 B2 JP3447220 B2 JP 3447220B2 JP 16904898 A JP16904898 A JP 16904898A JP 16904898 A JP16904898 A JP 16904898A JP 3447220 B2 JP3447220 B2 JP 3447220B2
Authority
JP
Japan
Prior art keywords
spectral shape
gain level
gain
frequency
resonance point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP16904898A
Other languages
Japanese (ja)
Other versions
JP2000003198A (en
Inventor
高康 近藤
セラ ザビエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP16904898A priority Critical patent/JP3447220B2/en
Publication of JP2000003198A publication Critical patent/JP2000003198A/en
Application granted granted Critical
Publication of JP3447220B2 publication Critical patent/JP3447220B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】この発明は、入力音声を他の
音声に変換して出力する音声変換装置及び音声変換方法
に係り、特にカラオケ装置に用いるのに好適な音声変換
装置及び音声変換方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice converting apparatus and a voice converting method for converting an input voice into another voice and outputting the same, and more particularly to a voice converting apparatus and a voice converting method suitable for use in a karaoke apparatus. .

【0002】[0002]

【従来の技術】入力された音声の周波数特性などを変え
て出力する音声変換装置は種々開発されており、例え
ば、カラオケ装置の中には、歌い手の歌った歌声のピッ
チを変換して、男性の声を女性の声に、あるいはその逆
に変換させるものがある(例えば、特表平8−5085
81号公報参照)。
2. Description of the Related Art Various types of voice conversion devices have been developed for changing the frequency characteristics of input voice and outputting the same. For example, some karaoke devices convert the pitch of the singing voice of a singer to a male player. There is one that converts the voice of a woman into the voice of a woman and vice versa (for example, in Japanese Patent Publication No. 8-5085).
No. 81).

【0003】[0003]

【発明が解決しようとする課題】しかしながら、従来の
音声変換装置においては、単に歌声のピッチを変換して
いるだけであるため、聴感上自然な音声が得られないと
いう問題点があった。そこで、本発明の目的は、音声変
換を行うに際し、聴感上自然な音声を容易に得ることが
可能な音声変換装置及び音声変換方法を提供することに
ある。
However, in the conventional voice conversion device, there is a problem in that a audible natural voice cannot be obtained because the pitch of the singing voice is simply converted. Therefore, it is an object of the present invention to provide a voice conversion device and a voice conversion method that can easily obtain a audibly natural voice when performing voice conversion.

【0004】[0004]

【課題を解決するための手段】上記課題を解決するた
め、請求項1記載の構成は、入力音声信号から周波数軸
上におけるスペクトラル・シェイプを抽出するスペクト
ラルシェイプ抽出手段と、前記スペクトラル・シェイプ
の共鳴点を検出する共鳴点検出手段と、前記共鳴点のゲ
インに基づいて基準ゲインレベルを設定する基準ゲイン
レベル設定手段と、前記基準ゲインレベルと前記スペク
トラル・シェイプのゲインレベルとの差分に対応して
記スペクトラル・シェイプの共鳴点の帯域幅を変化させ
ることにより変更スペクトラル・シェイプを生成する変
更スペクトラルシェイプ生成手段と、前記変更スペクト
ラル・シェイプに基づいて変換音声信号を生成し、出力
する音声生成手段と、を備えたことを特徴としている。
In order to solve the above-mentioned problems, the structure according to claim 1 has a spectral shape extracting means for extracting a spectral shape on a frequency axis from an input audio signal, and a resonance of the spectral shape. a resonance point detecting means for detecting the point, the gate of the resonance point
Wherein the reference gain <br/> level setting means for setting a reference gain level based on in, and the reference gain level spectrum
The modified spectral shape generating means for generating a modified spectral shape by changing the bandwidth of the resonance point of the spectral shape in response to the difference between the gain level of the traral shape and the modified spectral shape. A voice generating means for generating and outputting a converted voice signal based on the shape.

【0005】請求項2記載の構成は、入力音声信号から
周波数軸上におけるスペクトラル・シェイプを抽出する
スペクトラルシェイプ抽出手段と、前記スペクトラル・
シェイプの共鳴点を検出する共鳴点検出手段と、前記共
鳴点のゲインに基づいて基準ゲインレベルを設定する基
準ゲインレベル設定手段と、前記基準ゲインレベルと前
記スペクトラル・シェイプのゲインレベルとの差分に対
応して前記スペクトラル・シェイプのディップ部のゲイ
ンを変化させることにより変更スペクトラル・シェイプ
を生成する変更スペクトラルシェイプ生成手段と、前記
変更スペクトラル・シェイプに基づいて変換音声信号を
生成し、出力する音声生成手段と、を備えたことを特徴
としている。
According to a second aspect of the present invention, there is provided a spectral shape extracting means for extracting a spectral shape on the frequency axis from an input voice signal, and the spectral shape extracting means.
A resonance point detecting means for detecting the resonance point of the shape, the reference gain level setting means for setting a reference gain level based on the gain of the resonance point, the reference gain level before
Note the difference between the spectral level and the gain level.
In response to changing the gain of the dip portion of the spectral shape, a changed spectral shape generating means for generating a changed spectral shape, and a voice generation for generating and outputting a converted audio signal based on the changed spectral shape And means are provided.

【0006】請求項3記載の構成は、入力音声信号から
周波数軸上におけるスペクトラル・シェイプを抽出する
スペクトラルシェイプ抽出手段と、前記スペクトラル・
シェイプのディップ部を検出するディップ部検出手段
と、前記ディップ部のゲインに基づいて基準ゲインレベ
ルを設定する基準ゲインレベル設定手段と、前記基準ゲ
インレベルと前記スペクトラル・シェイプのゲインレベ
ルとの差分に対応して前記スペクトラル・シェイプのピ
ーク部のゲインを変化させることにより変更スペクトラ
ル・シェイプを生成する変更スペクトラルシェイプ生成
手段と、前記変更スペクトラル・シェイプに基づいて変
換音声信号を生成し、出力する音声生成手段と、を備え
たことを特徴としている。
According to a third aspect of the present invention, there is provided a spectral shape extracting means for extracting a spectral shape on the frequency axis from an input audio signal, and the spectral shape extracting means.
Dip portion detecting means for detecting the dip portion of the shape, reference gain level setting means for setting a reference gain level based on the gain of the dip portion, the reference gain level and the gain level of the spectral shape.
Change peak shape of the spectral shape corresponding to the difference between the spectral shape and the modified spectral shape generating means to generate a modified spectral shape, and a converted audio signal is generated based on the modified spectral shape. , And a voice generating means for outputting.

【0007】請求項4記載の構成は、請求項1または請
求項2記載の構成において、前記基準ゲインレベル設定
手段は、周波数−ゲイン軸上で隣り合う二つの前記共鳴
を結ぶ直線を定義し、連続する複数の前記直線で構成
される曲線を前記基準ゲインレベルとして設定すること
を特徴としている。
According to a fourth aspect of the present invention, in the configuration of the first or second aspect, the reference gain level setting means has two resonances adjacent to each other on a frequency-gain axis.
It is characterized in that a straight line connecting points is defined and a curve constituted by a plurality of continuous straight lines is set as the reference gain level.

【0008】請求項5記載の構成は、請求項1または請
求項2記載の構成において、前記基準ゲインレベル設定
手段は、周波数−ゲイン軸上で予め設定した二つの前記
共鳴点を結ぶ直線を前記基準ゲインレベルとして設定す
ることを特徴としている。
According to a fifth aspect of the present invention, in the configuration according to the first or second aspect, the reference gain level setting means has two preset values on a frequency-gain axis.
A feature is that a straight line connecting the resonance points is set as the reference gain level.

【0009】請求項6記載の構成は、請求項1または請
求項2記載の構成において、前記基準ゲインレベル設定
手段は、周波数−ゲイン軸上で第1フォルマント周波数
に対応するピーク部を通り、前記スペクトラル・シェイ
プの平均傾きを有する直線を前記基準ゲインレベルとし
て設定することを特徴としている。
According to a sixth aspect of the present invention, in the configuration of the first or second aspect, the reference gain level setting means passes through a peak portion corresponding to a first formant frequency on a frequency-gain axis, It is characterized in that a straight line having an average slope of the spectral shape is set as the reference gain level.

【0010】請求項7記載の構成は、請求項3記載の構
成において、前記基準ゲインレベル設定手段は、周波数
−ゲイン軸上で隣り合う2つの前記ディップ部を結ぶ直
線を定義し、連続する複数の前記直線で構成される曲線
を前記基準ゲインレベルとして設定することを特徴とし
ている。
According to a seventh aspect of the present invention, in the third aspect, the reference gain level setting means defines a straight line that connects two adjacent dip portions on a frequency-gain axis, and a plurality of consecutive straight lines are defined. The curve constituted by the straight line is set as the reference gain level.

【0011】請求項8記載の構成は、請求項3記載の構
成において、前記基準ゲインレベル設定手段は、周波数
−ゲイン軸上で予め設定した二つの前記ディップ部を結
ぶ直線を前記基準ゲインレベルとして設定することを特
徴としている。
According to an eighth aspect of the present invention, in the third aspect, the reference gain level setting means uses a straight line connecting the two dip portions preset on the frequency-gain axis as the reference gain level. It is characterized by setting.

【0012】請求項9記載の構成は、入力音声信号から
周波数軸上におけるスペクトラル・シェイプを抽出する
スペクトラルシェイプ抽出工程と、前記スペクトラル・
シェイプの共鳴点を検出する共鳴点検出工程と、前記共
鳴点のゲインに基づいて基準ゲインレベルを設定する基
ゲインレベル設定工程と、前記基準ゲインレベルと前
記スペクトラル・シェイプのゲインレベルとの差分に対
応して前記スペクトラル・シェイプの共鳴点の帯域幅を
変化させることにより変更スペクトラル・シェイプを生
成する変更スペクトラルシェイプ生成工程と、前記変更
スペクトラル・シェイプに基づいて変換音声信号を生成
する音声生成工程と、を備えたことを特徴としている。
According to a ninth aspect of the present invention, there is provided a spectral shape extraction step of extracting a spectral shape on the frequency axis from an input audio signal, and the spectral shape extraction step.
A resonance point detecting step of detecting the resonance point of the shape, the reference gain level setting step of setting a reference gain level based on the gain of the resonance point, the reference gain level before
Note the difference between the spectral level and the gain level.
In response to changing the bandwidth of the resonance point of the spectral shape, a modified spectral shape generation step of generating a modified spectral shape, and a voice generation step of generating a converted audio signal based on the modified spectral shape. It is characterized by having.

【0013】請求項10記載の構成は、入力音声信号か
ら周波数軸上におけるスペクトラル・シェイプを抽出す
るスペクトラルシェイプ抽出工程と、前記スペクトラル
・シェイプの共鳴点を検出する共鳴点検出工程と、前記
共鳴点のゲインに基づいて基準ゲインレベルを設定する
基準ゲインレベル設定工程と、前記基準ゲインレベル
前記スペクトラル・シェイプのゲインレベルとの差分に
対応して前記スペクトラル・シェイプのディップ部のゲ
インを変化させることにより変更スペクトラル・シェイ
プを生成する変更スペクトラルシェイプ生成工程と、前
記変更スペクトラル・シェイプに基づいて変換音声信号
を生成する音声生成工程と、を備えたことを特徴として
いる。
According to a tenth aspect of the present invention, a spectral shape extracting step of extracting a spectral shape on a frequency axis from an input audio signal, a resonance point detecting step of detecting a resonance point of the spectral shape, and the resonance point. and reference gain level setting step of setting a reference gain level based on the gain, and the reference gain level
In the difference with the gain level of the spectral shape
Correspondingly, a modified spectral shape generation step of generating a modified spectral shape by changing the gain of the dip portion of the spectral shape, and a voice generation step of generating a converted audio signal based on the modified spectral shape, It is characterized by having.

【0014】請求項11記載の構成は、入力音声信号か
ら周波数軸上におけるスペクトラル・シェイプを抽出す
るスペクトラルシェイプ抽出工程と、前記スペクトラル
・シェイプのディップ部を検出するディップ部検出工程
と、前記ディップ部のゲインに基づいて基準ゲインレベ
ルを設定する基準ゲインレベル設定工程と、前記基準ゲ
インレベルと前記スペクトラル・シェイプのゲインレベ
ルとの差分に対応して前記スペクトラル・シェイプのピ
ーク部のゲインを変化させることにより変更スペクトラ
ル・シェイプを生成する変更スペクトラルシェイプ生成
工程と、前記変更スペクトラル・シェイプに基づいて変
換音声信号を生成する音声生成工程と、を備えたことを
特徴としている。
According to the eleventh aspect of the present invention, a spectral shape extracting step of extracting a spectral shape on a frequency axis from an input audio signal, a dip portion detecting step of detecting a dip portion of the spectral shape, and the dipping portion. A reference gain level setting step of setting a reference gain level based on the gain of the reference gain level, and a gain level of the reference gain level and the spectral shape.
Change spectral shape is generated by changing the gain of the peak portion of the spectral shape corresponding to the difference between the spectral shape and the spectral shape, and a converted audio signal is generated based on the modified spectral shape. And a voice generation step.

【0015】[0015]

【発明の実施の形態】次に図面を参照して本発明の好適
な実施形態について説明する。 [1] 実施形態の概要処理 始めに、実施形態の概要処理について説明する。 [1.1] ステップS1 まず、歌唱者の音声(入力音声信号)をリアルタイムで
FFT(Fast FourieTransform)を含むSMS(Spectr
al Modeling Synthesis)分析を行い、フレーム単位で
正弦波成分(Sine成分)を抽出するとともに、入力音声
信号及び正弦波成分からフレーム単位で残差成分(Resi
dual成分)を生成する。これと並行して入力音声信号が
無声音(含む無音)か否かを判別し、無声音である場合
には、以下のステップS2〜ステップSの処理は行わ
ず、入力音声信号をそのまま出力することとなる。この
場合において、SMS分析としては、前回のフレームに
おけるピッチに応じて分析窓幅を変更するピッチ同期分
析を採用している。
BEST MODE FOR CARRYING OUT THE INVENTION Next, preferred embodiments of the present invention will be described with reference to the drawings. [1] Outline Process of Embodiment First, the outline process of the embodiment will be described. [1.1] Step S1 First, an SMS (Spectr) including an FFT (Fast Fourie Transform) of a singer's voice (input voice signal) in real time.
al modeling synthesis) to extract the sine wave component (Sine component) in frame units, and to extract the residual component (Resi
dual component) is generated. That the input audio signal in parallel with this, it is determined whether or not unvoiced (silence including), if it is unvoiced, without performing the processing of step S2~ Step S 5 below, which directly outputs the input audio signal Becomes In this case, pitch synchronization analysis in which the analysis window width is changed according to the pitch in the previous frame is adopted as the SMS analysis.

【0016】[1.2] ステップS2 次に入力音声信号が有声音である場合には、抽出した正
弦波成分からスペクトラル・シェイプ(Spectral Shap
e)を抽出する。 [1.3] ステップS3 次に抽出したスペクトラル・シェイプの共鳴点(フォル
マント)を検出し、検出したフォルマントのゲイン(さ
らに必要に応じてスペクトラル・シェイプの平均傾き)
に基づいて基準ゲインレベルを設定する。
[1.2] Step S2 Next, when the input voice signal is a voiced sound, a spectral shape (Spectral Shape) is extracted from the extracted sine wave component.
e) is extracted. [1.3] Step S3 Next, the resonance point (formant) of the extracted spectral shape is detected, and the gain of the detected formant (further, if necessary, the average slope of the spectral shape)
Set the reference gain level based on.

【0017】[1.4] ステップS4 次に基準ゲインレベルに基づいてスペクトラル・シェイ
プの共鳴点の帯域幅を変化させることにより変更スペク
トラル・シェイプを生成する。 [1.5] ステップS5 つづいて得られた変更スペクトラル・シェイプに対応す
るローカルピーク情報の逆FFTを行い、変換音声信号
を得る。 [1.6] まとめ これらの処理の結果得られる変換音声信号によれば、再
生される音声は、入力音声を鼻音化しあるいは非鼻音化
した歌声となる。
[1.4] Step S4 Next, the changed spectral shape is generated by changing the bandwidth of the resonance point of the spectral shape based on the reference gain level. [1.5] Inverse SFT of the local peak information corresponding to the modified spectral shape obtained in step S5 is performed to obtain a converted speech signal. [1.6] Summary According to the converted voice signal obtained as a result of these processes, the reproduced voice is a singing voice in which the input voice is nasalized or non-nasalized.

【0018】[2] 実施形態の詳細構成 図1及び図2に、実施形態の詳細構成図を示す。なお、
本実施形態は、本発明による音声変換装置(音声変換方
法)をカラオケ装置に適用し、より自然な音声変換を行
うことができるカラオケ装置として構成した場合の例で
ある。図1において、マイク1は、元歌唱者(me)の声
を収集し、入力音声信号Svとして入力音声信号切出部
3に出力する。これと並行して、分析窓生成部2は、前
回のフレームで検出したピッチの周期の固定倍(例え
ば、3.5倍など)の周期を有する分析窓(例えば、ハ
ミング窓)AWを生成し、入力音声信号切出部3に出力
する。なお、初期状態あるいは前回のフレームが無声音
(含む無音)の場合には、予め設定した固定周期の分析
窓を分析窓AWとして入力音声信号切出部3に出力す
る。
[2] Detailed Configuration of the Embodiment FIGS. 1 and 2 show detailed configuration diagrams of the embodiment. In addition,
The present embodiment is an example of a case where the voice conversion device (voice conversion method) according to the present invention is applied to a karaoke device and configured as a karaoke device capable of more natural voice conversion. In FIG. 1, the microphone 1 collects the voice of the former singer (me) and outputs it as the input voice signal Sv to the input voice signal cutout unit 3. In parallel with this, the analysis window generation unit 2 generates an analysis window (for example, Hamming window) AW having a cycle of a fixed multiple (for example, 3.5 times) of the pitch cycle detected in the previous frame. , To the input voice signal cutout unit 3. When the initial state or the previous frame is unvoiced (including silent), the analysis window of the preset fixed cycle is output to the input audio signal cutout unit 3 as the analysis window AW.

【0019】これらにより入力音声信号切出部3は、入
力された分析窓AWと入力音声信号Svとを掛け合わ
せ、入力音声信号Svをフレーム単位で切り出し、フレ
ーム音声信号FSvとして高速フーリエ変換部4に出力
される。より具体的には、入力音声信号Svとフレーム
との関係は、図3に示すようになっており、各フレーム
FLは、前のフレームFLと一部重なるように設定され
ている。
With this, the input voice signal cutout unit 3 multiplies the input analysis window AW and the input voice signal Sv, cuts out the input voice signal Sv in frame units, and the fast Fourier transform unit 4 as a frame voice signal FSv. Is output to. More specifically, the relationship between the input audio signal Sv and the frame is as shown in FIG. 3, and each frame FL is set so as to partially overlap the previous frame FL.

【0020】そして、高速フーリエ変換部4においてフ
レーム音声信号FSvは、解析処理されるとともに、図
4に示すように、高速フーリエ変換部4の出力である周
波数スペクトルからピーク検出部5によりローカルピー
クが検出される。より具体的には、図4に示すような周
波数スペクトルに対して、×印を付けたローカルピーク
を検出する。このローカルピークは、周波数値とアンプ
(振幅)値の組み合わせとして表される。すなわち、図
4に示すように、(F0、A0)、(F1、A1)、
(F2、A2)、……、(FN、AN)というように各
フレームについてローカルピークが検出され、表される
こととなる。
The frame voice signal FSv is analyzed in the fast Fourier transform unit 4 and, as shown in FIG. 4, a local peak is detected by the peak detection unit 5 from the frequency spectrum output from the fast Fourier transform unit 4. To be detected. More specifically, a local peak marked with X is detected for the frequency spectrum as shown in FIG. This local peak is represented as a combination of a frequency value and an amplifier (amplitude) value. That is, as shown in FIG. 4, (F0, A0), (F1, A1),
A local peak is detected and represented for each frame as (F2, A2), ..., (FN, AN).

【0021】そして、図3に模式的に示すように、各フ
レーム毎に一組(以下、ローカルピーク組という。)と
して無声/有声検出部6及びピーク連携部8に出力され
る。無声/有声検出部6は、入力されたフレーム毎のロ
ーカルピークに基づいて、高周波成分の大きさに応じて
無声であることを検出(‘t’、‘k’等)し、無声/
有声検出信号U/Vmeをピッチ検出部7、イージーシン
クロナイゼーション処理部22及びクロスフェーダ部3
0に出力する。あるいは、時間軸上で単位時間あたりの
零クロス数に応じて無声であることを検出(‘s’等)
し、元無声/有声検出信号U/Vmeをピッチ検出部7、
イージーシンクロナイゼーション処理部22及びクロス
フェーダ部30に出力する。
Then, as schematically shown in FIG. 3, one set (hereinafter referred to as a local peak set) for each frame is output to the unvoiced / voiced detection section 6 and the peak cooperation section 8. The unvoiced / voiced detection unit 6 detects unvoiced ('t', 'k', etc.) according to the magnitude of the high frequency component based on the input local peak for each frame, and
The voiced detection signal U / Vme is supplied to the pitch detection section 7, the easy synchronization processing section 22 and the crossfader section 3.
Output to 0. Alternatively, it is detected as unvoiced according to the number of zero crossings per unit time on the time axis ('s' etc.)
Then, the original unvoiced / voiced detection signal U / Vme is supplied to the pitch detection unit 7,
It is output to the easy synchronization processing unit 22 and the crossfader unit 30.

【0022】さらに無声/有声検出部6は、入力された
フレームが無声であると検出されなかった場合には、入
力されたローカルピーク組をそのまま、ピッチ検出部7
に出力する。ピッチ検出部7は、入力されたローカルピ
ーク組に基づいて、当該ローカルピーク組が対応するフ
レームのピッチPmeを検出する。より具体的なフレーム
のピッチPmeの検出方法としては、例えば、Maher,R.C.
andJ.W.Beauchamp:"Fundamental Frequency Estimation
of Musical Signal using a two-way Mismatch Proced
ure"(Journal of Acounstical Society of America95
(4):2254-2263)に開示されているような方法で行う。
次に、ピーク検出部5から出力されたローカルピーク組
は、ピーク連携部8において、前後のフレームについて
連携が判断され、連携すると認められるローカルピーク
については、一連のデータ列となるようにローカルピー
クをつなげる連携処理がなされる。
Furthermore, if the unvoiced / voiced voice detection unit 6 does not detect that the input frame is unvoiced, the pitch detection unit 7 outputs the input local peak set as it is.
Output to. The pitch detection unit 7 detects the pitch Pme of the frame to which the local peak set corresponds, based on the input local peak set. As a more specific method of detecting the pitch Pme of the frame, for example, Maher, RC
and J.W.Beauchamp: "Fundamental Frequency Estimation
of Musical Signal using a two-way Mismatch Proced
ure "(Journal of Acounstical Society of America95
(4): 2254-2263).
Next, the local peak set output from the peak detection unit 5 is determined by the peak cooperation unit 8 to be related to the preceding and following frames, and the local peaks that are recognized to be related are converted into a series of data peaks. Coordination processing that connects the two is performed.

【0023】ここで、この連携処理について、図5を参
照して説明する。今、図5(A)に示すようなローカル
ピークが前回のフレームにおいて検出され、図5(B)
に示すようなローカルピークが今回のフレームにおいて
検出されたとする。この場合、ピーク連携部8は、前回
のフレームで検出された各ローカルピーク(F0、A
0)、(F1、A1)、(F2、A2)、……、(F
N、AN)に対応するローカルピークが今回のフレーム
でも検出されたか否かを調べる。対応するローカルピー
クがあるか否かの判断は、前回のフレームで検出された
ローカルピークの周波数を中心にした所定範囲内に今回
のフレームのローカルピークが検出されるか否かによっ
て行われる。
Here, this cooperation process will be described with reference to FIG. Now, a local peak as shown in FIG. 5A is detected in the previous frame, and FIG.
It is assumed that a local peak as shown in (1) is detected in this frame. In this case, the peak coordinating unit 8 uses the local peaks (F0, A) detected in the previous frame.
0), (F1, A1), (F2, A2), ..., (F
It is checked whether or not a local peak corresponding to (N, AN) has been detected in this frame. Whether or not there is a corresponding local peak is determined by whether or not the local peak of this frame is detected within a predetermined range centered on the frequency of the local peak detected in the previous frame.

【0024】より具体的には、図5の例では、ローカル
ピーク(F0、A0)、(F1、A1)、(F2、A
2)……については、対応するローカルピークが検出さ
れているが、ローカルピーク(FK、AK)については
(図5(A)参照)、対応するローカルピーク(図5
(B)参照)は検出されていない。ピーク連携部8は、
対応するローカルピークを検出した場合は、それらを時
系列順に繋げて一組のデータ列として出力する。なお、
対応するローカルピークが検出されない場合は、当該フ
レームについての対応ローカルピークは無しということ
を示すデータに置き換える。
More specifically, in the example of FIG. 5, local peaks (F0, A0), (F1, A1), (F2, A
For 2) ..., the corresponding local peaks are detected, but for the local peaks (FK, AK) (see FIG. 5A), the corresponding local peaks (see FIG. 5).
(See (B)) has not been detected. The peak cooperation unit 8 is
When the corresponding local peaks are detected, they are connected in chronological order and output as a set of data strings. In addition,
When the corresponding local peak is not detected, it is replaced with data indicating that there is no corresponding local peak for the frame.

【0025】ここで、図6は、複数のフレームにわたる
ローカルピークの周波数F0及び周波数F1の変化の一
例を示している。このような変化は、アンプ(振幅)A
0、A1、A2、……についても同様に認められる。こ
の場合、ピーク連携部8から出力されるデータ列は、フ
レームの間隔おきに出力される離散的な値である。な
お、ピーク連携部8から出力されるピーク値を、以後に
おいて、確定成分という。これは、元の信号(すなわ
ち、音声信号Sv)のうち正弦波の要素として確定的に
置き換えられる成分という意味である。また、置き換え
られた各正弦波(厳密には、正弦波のパラメータである
周波数及びアンプ(振幅))の各々については、正弦波
成分と呼ぶことにする。
Here, FIG. 6 shows an example of changes in the frequency F0 and the frequency F1 of the local peak over a plurality of frames. Such a change is caused by the amplifier (amplitude) A
The same applies to 0, A1, A2, .... In this case, the data string output from the peak cooperation unit 8 is a discrete value output at every frame interval. The peak value output from the peak cooperation unit 8 will be referred to as a deterministic component hereinafter. This means a component that is definitely replaced as an element of a sine wave in the original signal (that is, the audio signal Sv). Further, each of the replaced sine waves (strictly speaking, the frequency and the amplifier (amplitude) that are parameters of the sine wave) will be referred to as a sine wave component.

【0026】次に、補間合成部9は、ピーク連携部8か
ら出力される確定成分について補間処理を行い、補間後
の確定成分に基づいていわゆるオシレータ方式で波形合
成を行う。この場合の補間の間隔は、後述する出力部3
4が出力する最終出力信号のサンプリングレート(例え
ば、44.1KHz)に対応した間隔で行われる。前述
した図6に示す実線は、正弦波成分の周波数F0、F1
について補間処理が行われた場合のイメージを示してい
る。
Next, the interpolating / synthesizing unit 9 performs an interpolating process on the deterministic component output from the peak coordinating unit 8 and synthesizes a waveform by a so-called oscillator method based on the deterministic component after the interpolation. The interpolation interval in this case is determined by the output unit 3 described later.
4 is performed at intervals corresponding to the sampling rate of the final output signal (for example, 44.1 KHz). The solid line shown in FIG. 6 described above indicates the frequencies F0 and F1 of the sine wave components.
The image when the interpolation process is performed is shown.

【0027】[2.1] 補間合成部の構成 ここで、補間合成部9の構成を図7に示す。補間合成部
9は、複数の部分波形発生部9aを備えて構成されてお
り、各部分波形発生部9aは、指定された正弦波成分の
周波数(F0、F1、…)およびアンプ(振幅)に応じ
た正弦波を発生する。ただし、本第1実施形態における
正弦波成分(F0、A0)、(F1、A1)、(F2、
A2)、……は、各々補間の間隔に従って時事刻々変化
していくものであるから、各部分波形発生部9aから出
力される波形は、その変化に従った波形になる。すなわ
ち、ピーク連携部8からは正弦波成分(F0、A0)、
(F1、A1)、(F2、A2)、……が順次出力さ
れ、各正弦波成分の各々について補間処理が行われるか
ら、各部分波形発生部9aは、所定の周波数領域内で周
波数と振幅が変動する波形を出力する。そして、各部分
波形発生部9aから出力された波形は、加算部9bにお
いて加算合成される。したがって、補間合成部9の出力
信号は、入力音声信号Svから確定成分を抽出した正弦
波成分合成信号SSSになる。
[2.1] Configuration of Interpolation Synthesizing Unit Here, the configuration of the interpolation synthesizing unit 9 is shown in FIG. The interpolating / synthesizing unit 9 is configured to include a plurality of partial waveform generating units 9a, and each partial waveform generating unit 9a outputs a frequency (F0, F1, ...) And an amplifier (amplitude) of a designated sine wave component. Generates a corresponding sine wave. However, the sine wave components (F0, A0), (F1, A1), (F2,
.. A2), ..., change from time to time in accordance with the interpolation intervals, so that the waveform output from each partial waveform generator 9a becomes a waveform according to the change. That is, the sine wave component (F0, A0) from the peak cooperation unit 8
Since (F1, A1), (F2, A2), ... Are sequentially output and interpolation processing is performed for each sine wave component, each partial waveform generation unit 9a has a frequency and an amplitude within a predetermined frequency range. Outputs a waveform that fluctuates. Then, the waveforms output from the respective partial waveform generating sections 9a are added and synthesized in the adding section 9b. Therefore, the output signal of the interpolation synthesizing unit 9 becomes the sine wave component synthetic signal SSS obtained by extracting the deterministic component from the input audio signal Sv.

【0028】[2.2] 残差成分検出部の動作 次に、残差成分検出部10は、補間合成部9から出力さ
れた正弦波成分合成信号SSSと入力音声信号Svとの偏
差である残差成分信号SRD(時間波形)を生成する。こ
の残差成分信号SRDは、音声に含まれる無声成分を多く
含む。一方、前述の正弦波成分合成信号SSSは有声成分
に対応するものである。ところで、目標(Target)とな
る歌唱者の声に似せるには、有声音についてだけ処理を
行えば、無声音については処理を施す必要はあまりな
い。そこで、本実施形態においては、有声母音成分に対
応する確定成分について音声変換処理を行うようにして
いる。より具体的には、残差成分信号SRDについては、
高速フーリエ変換部11で、周波数波形に変換し、得ら
れた残差成分信号(周波数波形)をRme(f)として残差
成分保持部12に保持しておく。
[2.2] Operation of Residual Component Detecting Unit Next, the residual component detecting unit 10 is a deviation between the sine wave component synthetic signal SSS output from the interpolation synthesizing unit 9 and the input voice signal Sv. A residual component signal SRD (time waveform) is generated. The residual component signal SRD contains many unvoiced components included in the voice. On the other hand, the above-mentioned sine wave component composite signal SSS corresponds to a voiced component. By the way, in order to resemble the voice of a singer as a target, only voiced sound needs to be processed, and unvoiced sound need not be processed. Therefore, in the present embodiment, the voice conversion process is performed on the deterministic component corresponding to the voiced vowel component. More specifically, for the residual component signal SRD,
The fast Fourier transform unit 11 converts the signal into a frequency waveform, and holds the obtained residual component signal (frequency waveform) in the residual component holding unit 12 as Rme (f).

【0029】[2.3] 平均アンプ演算部の動作 一方、図8(A)に示すように、ピーク検出部5からピ
ーク連携部8を介して出力された正弦波成分(F0、A
0)、(F1、A1)、(F2、A2)、……、(F(N
-1)、A(N-1))のN個の正弦波成分(以下、これらをま
とめてFn、Anと表記する。n=0〜(N−1)。)
は、正弦波成分保持部13に保持されるとともに、アン
プAnは平均アンプ演算部14に入力され、各フレーム
毎に次式により平均アンプAmeが算出される。 Ame=Σ(An)/N
[2.3] Operation of Average Amplifier Operation Unit On the other hand, as shown in FIG. 8 (A), the sine wave component (F0, A) output from the peak detection unit 5 through the peak cooperation unit 8 is output.
0), (F1, A1), (F2, A2), ..., (F (N
-1), A (N-1)) N sine wave components (hereinafter, these are collectively referred to as Fn and An. N = 0 to (N-1).)
Is held in the sine wave component holding unit 13, and the amplifier An is input to the average amplifier calculating unit 14, and the average amplifier Ame is calculated for each frame by the following equation. Ame = Σ (An) / N

【0030】[2.4] アンプ正規化部の動作 次にアンプ正規化部15において、次式により各アンプ
Anを平均アンプAmeで正規化し、正規化アンプA’
nを求める。 A’n=An/Ame [2.5] スペクトラル・シェイプ演算部の動作 そして、スペクトラル・シェイプ演算部16において、
図8(B)に示すように、周波数Fn及び正規化アンプ
A’nにより得られる正弦波成分(Fn、A’n)をブ
レークポイントとするエンベロープ(包絡線)をスペク
トラル・シェイプSme(f)として生成する。この場合に
おいて、二つのブレークポイント間の周波数におけるア
ンプの値は、当該二つのブレークポイントを、例えば、
直線補間することにより算出する。なお、補間の方法は
直線補間に限られるものではない。
[2.4] Operation of Amplifier Normalization Unit Next, in the amplifier normalization unit 15, each amplifier An is normalized by the average amplifier Ame by the following equation, and the normalized amplifier A '
Find n. A'n = An / Ame [2.5] Operation of Spectral Shape Operation Unit And in the spectral shape operation unit 16,
As shown in FIG. 8B, a spectral shape Sme (f) is an envelope having an sine wave component (Fn, A'n) obtained by the frequency Fn and the normalization amplifier A'n as a breakpoint. Generate as. In this case, the value of the amplifier at the frequency between the two breakpoints is
It is calculated by linear interpolation. The interpolation method is not limited to linear interpolation.

【0031】[2.6] ピッチ正規化部の動作 続いてピッチ正規化部17においては、各周波数Fnを
ピッチ検出部7において検出したピッチPmeで正規化
し、正規化周波数F’nを求める。 F’n=Fn/Pme これらの結果、元フレーム情報保持部18は、入力音声
信号Svに含まれる正弦波成分に対応する元属性データ
である平均アンプAme、ピッチPme、スペクトラル・シ
ェイプSme(f)、正規化周波数F’nを保持することと
なる。なお、この場合において、正規化周波数F’n
は、倍音列の周波数の相対値を表しており、もし、フレ
ームの倍音構造を完全倍音構造であるとして取り扱うな
らば、保持する必要はない。
[2.6] Operation of Pitch Normalization Unit Subsequently, the pitch normalization unit 17 normalizes each frequency Fn by the pitch Pme detected by the pitch detection unit 7 to obtain a normalized frequency F'n. F'n = Fn / Pme As a result, the original frame information holding unit 18 causes the average amplifier Ame, the pitch Pme, and the spectral shape Sme (f) which are the original attribute data corresponding to the sine wave component included in the input audio signal Sv. ), The normalized frequency F'n is held. In this case, the normalized frequency F'n
Represents the relative value of the frequency of the overtone string, and if the overtone structure of the frame is treated as the complete overtone structure, it need not be held.

【0032】この場合において、男声/女声変換を行お
うとしている場合には、この段階において、男声→女声
変換を行う場合には、ピッチをオクターブ上げ、女声→
男声変換を行う場合にはピッチをオクターブ下げる男声
/女声ピッチ制御処理を行うようにするのが好ましい。
つづいて、元フレーム情報保持部18に保持している元
属性データのうち、平均アンプAmeおよびピッチPmeに
ついては、さらに静的変化/ビブラート的変化分離部1
9により、フィルタリング処理などを行って、静的変化
成分とビブラート変化的成分とに分離して保持する。な
お、さらにビブラート変化的成分からより高周波変化成
分であるジッタ変化的成分を分離するように構成するこ
とも可能である。
In this case, when the male / female voice conversion is going to be performed, at this stage, when the male voice → female voice conversion is performed, the pitch is raised by an octave and the female voice →
When performing male voice conversion, it is preferable to perform male voice / female voice pitch control processing for lowering the pitch by an octave.
Next, of the original attribute data held in the original frame information holding unit 18, the average amplifier Ame and the pitch Pme are further changed into the static change / vibrato change separation unit 1.
9, a filtering process or the like is performed to separate and hold the static change component and the vibrato change component. It is also possible to further separate the jitter change component, which is a higher frequency change component, from the vibrato change component.

【0033】より具体的には、平均アンプAmeを平均ア
ンプ静的成分Ame-sta及び平均アンプビブラート的成分
Ame-vibとに分離して保持する。また、ピッチPmeをピ
ッチ静的成分Pme-sta及びピッチビブラート的成分Pme
-vibとに分離して保持する。これらの結果、対応するフ
レームの元フレーム情報データINFmeは、図8(C)
に示すように、入力音声信号Svの正弦波成分に対応す
る元属性データである平均アンプ静的成分Ame-sta、平
均アンプビブラート的成分Ame-vib、ピッチ静的成分P
me-sta、ピッチビブラート的成分Pme-vib、スペクトラ
ル・シェイプSme(f)、正規化周波数F’n及び残差成
分Rme(f)の形で保持されることとなる。
More specifically, the average amplifier Ame is separated into an average amplifier static component Ame-sta and an average amplifier vibrato component Ame-vib and held. Further, the pitch Pme is changed to the pitch static component Pme-sta and the pitch vibrato component Pme.
-Separate and keep vib. As a result, the original frame information data INFme of the corresponding frame is shown in FIG.
As shown in FIG. 5, the average amplifier static component Ame-sta, which is the original attribute data corresponding to the sine wave component of the input audio signal Sv, the average amplifier vibrato component Ame-vib, and the pitch static component P.
Me-sta, a pitch vibrato component Pme-vib, a spectral shape Sme (f), a normalized frequency F'n, and a residual component Rme (f) are held.

【0034】一方、ものまねの対象(target)となる歌
唱者に対応するターゲット属性データから構成されるタ
ーゲットフレーム情報データINFtarは、予め分析さ
れてターゲットフレーム情報保持部20を構成するハー
ドディスクなどに予め保持されている。この場合におい
て、ターゲットフレーム情報データINFtarのうち、
正弦波成分に対応するターゲット属性データとしては、
平均アンプ静的成分Atar-sta、平均アンプビブラート
的成分Atar-vib、ピッチ静的成分Ptar-sta、ピッチビ
ブラート的成分Ptar-vib、スペクトラル・シェイプSt
ar(f)がある。また、ターゲットフレーム情報データI
NFtarのうち、残差成分に対応するターゲット属性デ
ータとしては、残差成分Rtar(f)がある。
On the other hand, the target frame information data INFtar composed of target attribute data corresponding to a singer, which is a target of imitation, is previously analyzed and held in advance in a hard disk or the like which constitutes the target frame information holding unit 20. Has been done. In this case, of the target frame information data INFtar,
As the target attribute data corresponding to the sine wave component,
Average amp static component Atar-sta, average amp vibrato component Atar-vib, pitch static component Ptar-sta, pitch vibrato component Ptar-vib, spectral shape St
There is ar (f). Also, the target frame information data I
Among the NFtar, the target component attribute data corresponding to the residual component is the residual component Rtar (f).

【0035】[2.7] キーコントロール/テンポチ
ェンジ部の動作 次にキーコントロール/テンポチェンジ部21は、シー
ケンサ31からの同期信号SSYNCに基づいて、ターゲッ
トフレーム情報保持部20から同期信号SSYNCに対
応するフレームのターゲットフレーム情報INFtar
の読出処理及び読み出したターゲットフレーム情報デー
タINFtarを構成するターゲット属性データの補正処
理を行うとともに、読み出したターゲットフレーム情報
INFtarおよび当該フレームが無声であるか有声であ
るかを表すターゲット無声/有声検出信号U/Vtarを
出力する。より具体的には、キーコントロール/テンポ
チェンジ部21の図示しないキーコントロールユニット
は、カラオケ装置のキーを基準より上げ下げした場合、
ターゲット属性データであるピッチ静的成分Ptar-sta
及びピッチビブラート的成分Ptar-vibについても、同
じだけ上げ下げする補正処理を行う。例えば、50[ce
nt]だけキーを上げた場合には、ピッチ静的成分Ptar-
sta及びピッチビブラート的成分Ptar-vibについても5
0[cent]だけ上げなければならない。
[2.7] Operation of Key Control / Tempo Change Unit Next, the key control / tempo change unit 21 responds to the sync signal SSYNC from the target frame information holding unit 20 based on the sync signal SSYNC from the sequencer 31. Target frame information INFtar of the frame
Read-out processing and correction processing of the target attribute data constituting the read-out target frame information data INFtar, and the read target frame information INFtar and a target unvoiced / voiced detection signal indicating whether the frame is unvoiced or voiced. Output U / V tar. More specifically, a key control unit (not shown) of the key control / tempo change unit 21 is provided when the keys of the karaoke device are raised or lowered from the reference,
Pitch static component Ptar-sta which is target attribute data
Also, for the pitch vibrato-like component Ptar-vib, the correction processing for raising and lowering the same amount is performed. For example, 50 [ce
nt], the pitch static component Ptar-
5 for sta and pitch vibrato-like component Ptar-vib
You have to raise it by 0 [cent].

【0036】また、キーコントロール/テンポチェンジ
部21の図示しないテンポチェンジユニットは、カラオ
ケ装置のテンポを上げ下げした場合には、変更後のテン
ポに相当するタイミングで、ターゲットフレーム情報デ
ータINFtarの読み出し処理を行う必要がある。この
場合において、必要なフレームに対応するタイミングに
相当するターゲットフレーム情報データINFtarが存
在しない場合には、当該必要なフレームのタイミングの
前後のタイミングに存在する二つのフレームのターゲッ
トフレーム情報データINFtarを読み出し、これら二
つのターゲットフレーム情報データINFtarにより補
間処理を行い、当該必要なタイミングにおけるフレーム
のターゲットフレーム情報データINFtar、ひいて
は、ターゲット属性データを生成する。
When the tempo of the karaoke apparatus is raised or lowered, the tempo change unit (not shown) of the key control / tempo change unit 21 reads the target frame information data INFtar at the timing corresponding to the changed tempo. There is a need to do. In this case, if the target frame information data INFtar corresponding to the timing corresponding to the required frame does not exist, the target frame information data INFtar of two frames existing before and after the required frame timing is read. Interpolation processing is performed using these two pieces of target frame information data INFtar to generate target frame information data INFtar of the frame at the necessary timing, and thus target attribute data.

【0037】この場合において、ビブラート的成分(平
均アンプビブラート的成分Atar-vib及びピッチビブラ
ート的成分Ptar-vib)に関しては、そのままでは、ビ
ブラートの周期自体が変化してしまい、不適当であるの
で、周期が変動しないような補間処理を行う必要があ
る。又は、ターゲット属性データとして、ビブラートの
軌跡そのものを表すデータではなく、ビブラート周期及
びビブラート深さのパラメータを保持し、実際の軌跡を
演算により求めるようにすれば、この不具合を回避する
ことができる。
In this case, the vibrato-like components (average amp vibrato-like component Atar-vib and pitch vibrato-like component Ptar-vib) are unsuitable because the vibrato period itself changes as they are. It is necessary to perform interpolation processing so that the cycle does not change. Alternatively, as the target attribute data, not the data representing the locus of the vibrato itself but the parameters of the vibrato period and the vibrato depth are held and the actual locus is obtained by calculation, so that this problem can be avoided.

【0038】[2.8] イージーシンクロナイゼーシ
ョン処理部の動作 次にイージーシンクロナイゼーション処理部22は、も
のまねをしようとする歌唱者のフレーム(以下、元フレ
ームという。)に元フレーム情報データINFmeが存在
するにもかかわらず、対応するものまねの対象となる歌
唱者のフレーム(以下、ターゲットフレームという。)
にターゲットフレーム情報データINFtarが存在しな
い場合には、当該ターゲットフレームの前後方向に存在
するフレームのターゲットフレーム情報データINFta
rを当該ターゲットフレームのターゲットフレーム情報
データINFtarとするイージーシンクロナイゼーショ
ン処理を行う。
[2.8] Operation of Easy Synchronization Processing Unit Next, the easy synchronization processing unit 22 adds the original frame information data INFme to the frame (hereinafter referred to as the original frame) of the singer who imitates. The frame of the singer that is the target of the corresponding imitation (hereinafter referred to as the target frame) despite the existence of the.
If the target frame information data INFtar does not exist in the target frame, the target frame information data INFta of the frame existing in the front-back direction of the target frame.
An easy synchronization process is performed in which r is the target frame information data INFtar of the target frame.

【0039】そして、イージーシンクロナイゼーション
処理部22は、後述する置換済ターゲットフレーム情報
データINFtar-syncに含まれるターゲット属性データ
のうち正弦波成分に関するターゲット属性データ(平均
アンプ静的成分Atar-sync-sta、平均アンプビブラート
的成分Atar-sync-vib、ピッチ静的成分Ptar-sync-st
a、ピッチビブラート的成分Ptar-sync-vib及びスペク
トラル・シェイプStar-sync(f))を正弦波成分属性デ
ータ選択部23に出力する。
Then, the easy synchronization processing unit 22 selects target attribute data (average amplifier static component Atar-sync-Amp-sync-Atar-sync-Amp) from the target attribute data included in the replaced target frame information data INF tar-sync, which will be described later. sta, average amp vibrato component Atar-sync-vib, pitch static component Ptar-sync-st
a, the pitch vibrato component Ptar-sync-vib and the spectral shape Star-sync (f)) are output to the sine wave component attribute data selection unit 23.

【0040】また、イージーシンクロナイゼーション処
理部22は、後述する置換済ターゲットフレーム情報デ
ータINFtar-syncに含まれるターゲット属性データの
うち残差成分に関するターゲット属性データ(残差成分
Rtar-sync(f))を残差成分選択部25に出力する。こ
のイージーシンクロナイゼーション処理部22における
処理においても、ビブラート的成分(平均アンプビブラ
ート的成分Atar-vib及びピッチビブラート的成分Ptar
-vib)に関しては、そのままでは、ビブラートの周期自
体が変化してしまい、不適当であるので、周期が変動し
ないような補間処理を行う必要がある。又は、ターゲッ
ト属性データとして、ビブラートの軌跡そのものを表す
データではなく、ビブラート周期及びビブラート深さの
パラメータを保持し、実際の軌跡を演算により求めるよ
うにすれば、この不具合を回避することができる。
Further, the easy synchronization processing unit 22 selects the target attribute data (residual component Rtar-sync (f)) related to the residual component of the target attribute data included in the replaced target frame information data INF tar-sync which will be described later. ) Is output to the residual component selection unit 25. Also in the processing in the easy synchronization processing section 22, vibrato-like components (average amp vibrato-like component Atar-vib and pitch vibrato-like component Ptar are included.
With regard to -vib), the vibrato cycle itself changes as it is, which is inappropriate, so it is necessary to perform interpolation processing so that the cycle does not change. Alternatively, as the target attribute data, not the data representing the locus of the vibrato itself but the parameters of the vibrato period and the vibrato depth are held and the actual locus is obtained by calculation, so that this problem can be avoided.

【0041】[2.8.1] イージーシンクロナイゼ
ーション処理の詳細 ここで、図9及び図10を参照してイージーシンクロナ
イゼーション処理について詳細に説明する。図9は、イ
ージーシンクロナイゼーション処理のタイミングチャー
トであり、図10はイージーシンクロナイゼーション処
理フローチャートである。まず、イージーシンクロナイ
ゼーション処理部22は、シンクロナイゼーション処理
の方法を表すシンクロナイゼーションモード=“0”と
する(ステップS11)。このシンクロナイゼーション
モード=“0”は、元フレームに対応するターゲットフ
レームにターゲットフレーム情報データINFtarが存
在する通常処理の場合に相当する。
[2.8.1] Details of Easy Synchronization Process Here, the easy synchronization process will be described in detail with reference to FIGS. 9 and 10. FIG. 9 is a timing chart of the easy synchronization processing, and FIG. 10 is a flow chart of the easy synchronization processing. First, the easy synchronization processing unit 22 sets synchronization mode = “0” indicating the method of synchronization processing (step S11). This synchronization mode = “0” corresponds to the case of normal processing in which the target frame information data INFtar is present in the target frame corresponding to the original frame.

【0042】そしてあるタイミングtにおける元無声/
有声検出信号U/Vme(t)が無声(U)から有声(V)
に変化したか否かを判別する(ステップS12)。例え
ば、図9に示すように、タイミングt=t1において
は、元無声/有声検出信号U/Vme(t)が無声(U)か
ら有声(V)に変化している。ステップS12の判別に
おいて、元無声/有声検出信号U/Vme(t)が無声
(U)から有声(V)に変化している場合には(ステッ
プS12;Yes)、タイミングtの前回のタイミング
t-1における元無声/有声検出信号U/Vme(t-1)が無
声(U)かつターゲット無声/有声検出信号U/Vtar
(t-1)が無声(U)であるか否かを判別する(ステップ
S18)。例えば、図9に示すように、タイミングt=
t0(=t1-1)においては、元無声/有声検出信号U/
Vme(t-1)が無声(U)かつターゲット無声/有声検出
信号U/Vtar(t-1)が無声(U)となっている。ステッ
プS18の判別において、元無声/有声検出信号U/V
me(t-1)が無声(U)かつターゲット無声/有声検出信
号U/Vtar(t-1)が無声(U)となっている場合には
(ステップS18;Yes)、当該ターゲットフレーム
には、ターゲットフレーム情報データINFtarが存在
しないので、シンクロナイゼーションモード=“1”と
し、置換用のターゲットフレーム情報データINFhold
を当該ターゲットフレームの後方向(Backward)に存在
するフレームのターゲットフレーム情報とする。
Then, at a certain timing t, the former unvoiced /
Voiced detection signal U / Vme (t) changes from unvoiced (U) to voiced (V)
It is determined whether or not it has changed to (step S12). For example, as shown in FIG. 9, at the timing t = t1, the original unvoiced / voiced detection signal U / Vme (t) changes from unvoiced (U) to voiced (V). In the determination of step S12, when the original unvoiced / voiced detection signal U / Vme (t) changes from unvoiced (U) to voiced (V) (step S12; Yes), the previous timing t of the timing t Original unvoiced / voiced detection signal U / Vme (t-1) at -1 is unvoiced (U) and target unvoiced / voiced detection signal U / Vtar
It is determined whether (t-1) is unvoiced (U) (step S18). For example, as shown in FIG. 9, timing t =
At t0 (= t1-1), the original unvoiced / voiced detection signal U /
Vme (t-1) is unvoiced (U) and the target unvoiced / voiced detection signal U / Vtar (t-1) is unvoiced (U). In the determination of step S18, the original unvoiced / voiced detection signal U / V
If me (t-1) is unvoiced (U) and the target unvoiced / voiced detection signal U / Vtar (t-1) is unvoiced (U) (step S18; Yes), the target frame is , Since the target frame information data INFtar does not exist, the synchronization mode is set to “1” and the target frame information data INFhold for replacement is set.
Is the target frame information of the frame existing in the backward direction (Backward) of the target frame.

【0043】例えば、図9に示すように、タイミングt
=t1〜t2のターゲットフレームには、ターゲットフレ
ーム情報データINFtarが存在しないので、シンクロ
ナイゼーションモード=“1”とし、置換用ターゲット
フレーム情報データINFholdを当該ターゲットフレー
ムの後方向に存在するフレーム(すなわち、タイミング
t=t2〜t3に存在するフレーム)のターゲットフレー
ム情報データbackwardとする。そして、処理をステップ
S15に移行し、シンクロナイゼーションモード=
“0”であるか否かを判別する(ステップS15)。ス
テップS15の判別において、シンクロナイゼーション
モード=“0”である場合には、タイミングtにおける
元フレームに対応するターゲットフレームにターゲット
フレーム情報データINFtar(t)が存在する場合、すな
わち、通常処理であるので、置換済ターゲットフレーム
情報データINFtar-syncをターゲットフレーム情報デ
ータINFtar(t)とする。 INFtar-sync=INFtar(t)
For example, as shown in FIG. 9, timing t
Since the target frame information data INFtar does not exist in the target frames of t1 to t2, the synchronization mode is set to “1”, and the replacement target frame information data INFhold is present in the rearward direction of the target frame (that is, , Target frame information data backward at the timing t = t2 to t3). Then, the process proceeds to step S15, and the synchronization mode =
It is determined whether it is "0" (step S15). When it is determined in step S15 that the synchronization mode = “0”, the target frame information data INFtar (t) exists in the target frame corresponding to the original frame at the timing t, that is, the normal process. Therefore, the replaced target frame information data INF tar-sync is set as the target frame information data INF tar (t). INFtar-sync = INFtar (t)

【0044】例えば、図9に示すようにタイミングt=
t2〜t3のターゲットフレームには、ターゲットフレー
ム情報データINFtarが存在するので、 INFtar-sync=INFtar(t) とする。この場合において、以降の処理に用いられる置
換済ターゲットフレーム情報データINFtar-syncに含
まれるターゲット属性データ(平均アンプ静的成分Ata
r-sync-sta、平均アンプビブラート的成分Atar-sync-v
ib、ピッチ静的成分Ptar-sync-sta、ピッチビブラート
的成分Ptar-sync-vib、スペクトラル・シェイプStar-
sync(f)及び残差成分Rtar-sync(f))は実質的には、以
下の内容となる(ステップS16)。 Atar-sync-sta=Atar-sta Atar-sync-vib=Atar-vib Ptar-sync-sta=Ptar-sta Ptar-sync-vib=Ptar-vib Star-sync(f)=Star(f) Rtar-sync(f)=Rtar(f)
For example, as shown in FIG. 9, timing t =
Since the target frame information data INFtar exists in the target frame from t2 to t3, INFtar-sync = INFtar (t). In this case, the target attribute data (average amplifier static component Ata) included in the replaced target frame information data INF tar-sync used for the subsequent processing.
r-sync-sta, average amp vibrato component Atar-sync-v
ib, Pitch static component Ptar-sync-sta, Pitch vibrato component Ptar-sync-vib, Spectral shape Star-
The sync (f) and the residual component Rtar-sync (f)) have substantially the following contents (step S16). Atar-sync-sta = Atar-sta Atar-sync-vib = Atar-vib Ptar-sync-sta = Ptar-sta Ptar-sync-vib = Ptar-vib Star-sync (f) = Star (f) Rtar-sync (f) = Rtar (f)

【0045】ステップS15の判別において、シンクロ
ナイゼーションモード=“1”またはシンクロナイゼー
ションモード=“2”である場合には、タイミングtに
おける元フレームに対応するターゲットフレームにター
ゲットフレーム情報データINFtar(t)が存在しない場
合であるので、置換済ターゲットフレーム情報データI
NFtar-syncを置換用ターゲットフレーム情報データI
NFholdとする。 INFtar-sync=INFhold 例えば、図9に示すように、タイミングt=t1〜t2の
ターゲットフレームには、ターゲットフレーム情報デー
タINFtarが存在せず、シンクロナイゼーションモー
ド=“1”となるが、タイミングt=t2〜t3のターゲ
ットフレームには、ターゲットフレーム情報データIN
Ftarが存在するので、置換済ターゲットフレーム情報
データINFtar-syncをタイミングt=t2〜t3のター
ゲットフレームのターゲットフレーム情報データである
置換用ターゲットフレーム情報データINFholdとする
処理P1を行い、以降の処理に用いられる置換済ターゲ
ットフレーム情報データINFtar-syncに含まれるター
ゲット属性データは、平均アンプ静的成分Atar-sync-s
ta、平均アンプビブラート的成分Atar-sync-vib、ピッ
チ静的成分Ptar-sync-sta、ピッチビブラート的成分P
tar-sync-vib、スペクトラル・シェイプStar-sync(f)
及び残差成分Rtar-sync(f)となる(ステップS1
6)。
When it is determined in step S15 that the synchronization mode = "1" or the synchronization mode = "2", the target frame information data INFtar (t) is added to the target frame corresponding to the original frame at the timing t. ) Does not exist, the replaced target frame information data I
Target frame information data I for replacing NF tar-sync
NFhold. INFtar-sync = INFhold For example, as shown in FIG. 9, target frame information data INFtar does not exist in the target frame at timing t = t1 to t2, and the synchronization mode = “1”, but the timing t = Target frame information data IN in the target frame from t2 to t3
Since Ftar exists, processing P1 is performed in which the replaced target frame information data INFtar-sync is used as the replacement target frame information data INFhold which is the target frame information data of the target frame at the timing t = t2 to t3. The target attribute data included in the replaced target frame information data INF tar-sync used is the average amplifier static component Atar-sync-s.
ta, average amp vibrato component A tar-sync-vib, pitch static component P tar-sync-sta, pitch vibrato component P
tar-sync-vib, Spectral Shape Star-sync (f)
And the residual component R tar-sync (f) (step S1)
6).

【0046】また、図9に示すように、タイミングt=
t3〜t4のターゲットフレームには、ターゲットフレー
ム情報データINFtarが存在せず、シンクロナイゼー
ションモード=“2”となるが、タイミングt=t2〜
t3のターゲットフレームには、ターゲットフレーム情
報データINFtarが存在するので、置換済ターゲット
フレーム情報データINFtar-syncをタイミングt=t
2〜t3のターゲットフレームのターゲットフレーム情報
データである置換用ターゲットフレーム情報データIN
Fholdとする処理P2を行い、以降の処理に用いられる
置換済ターゲットフレーム情報データINFtar-syncに
含まれるターゲット属性データは、平均アンプ静的成分
Atar-sync-sta、平均アンプビブラート的成分Atar-sy
nc-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラ
ート的成分Ptar-sync-vib、スペクトラル・シェイプS
tar-sync(f)及び残差成分Rtar-sync(f)となる(ステッ
プS16)。
Further, as shown in FIG. 9, timing t =
The target frame information data INFtar does not exist in the target frame from t3 to t4, and the synchronization mode is "2", but the timing t = t2 to
Since the target frame information data INFtar exists in the target frame at t3, the replaced target frame information data INFtar-sync is timing t = t.
Replacement target frame information data IN which is the target frame information data of the target frame of 2 to t3
The target attribute data included in the replaced target frame information data INF tar-sync used for the subsequent processing after the processing P2 for Fhold is the average amplifier static component Atar-sync-sta and the average amplifier vibrato component Atar-sy.
nc-vib, Pitch static component Ptar-sync-sta, Pitch vibrato component Ptar-sync-vib, Spectral shape S
The tar-sync (f) and the residual component R tar-sync (f) are obtained (step S16).

【0047】ステップS12の判別において、元無声/
有声検出信号U/Vme(t)が無声(U)から有声(V)
に変化していない場合には(ステップS12;No)、
ターゲット無声/有声検出信号U/Vtar(t)が有声
(V)から無声(U)に変化しているか否かを判別する
(ステップS13)。ステップS13の判別において、
ターゲット無声/有声検出信号U/Vtar(t)が有声
(V)から無声(U)に変化している場合には(ステッ
プS13;Yes)、タイミングtの前回のタイミング
t-1における元無声/有声検出信号U/Vme(t-1)が有
声(V)かつターゲット無声/有声検出信号U/Vtar
(t-1)が有声(V)であるか否かを判別する(ステップ
S19)。
In the determination of step S12, the original unvoiced /
Voiced detection signal U / Vme (t) changes from unvoiced (U) to voiced (V)
If it has not changed to (step S12; No),
It is determined whether or not the target unvoiced / voiced detection signal U / Vtar (t) changes from voiced (V) to unvoiced (U) (step S13). In the determination of step S13,
When the target unvoiced / voiced detection signal U / Vtar (t) changes from voiced (V) to unvoiced (U) (step S13; Yes), the original unvoiced at the timing t-1 at the previous timing t-1 Voiced detection signal U / Vme (t-1) is voiced (V) and target unvoiced / voiced detection signal U / Vtar
It is determined whether or not (t-1) is voiced (V) (step S19).

【0048】例えば、図9に示すように、タイミングt
3においてターゲット無声/有声検出信号U/Vtar(t)
が有声(V)から無声(U)に変化し、タイミングt-1
=t2〜t3においては、元無声/有声検出信号U/Vme
(t-1)が有声(V)かつターゲット無声/有声検出信号
U/Vtar(t-1)が有声(U)となっている。ステップS
19の判別において、元無声/有声検出信号U/Vme(t
-1)が有声(V)かつターゲット無声/有声検出信号U
/Vtar(t-1)が有声(V)となっている場合には(ステ
ップS19;Yes)、当該ターゲットフレームには、
ターゲットフレーム情報データINFtarが存在しない
ので、シンクロナイゼーションモード=“2”とし、置
換用のターゲットフレーム情報データINFholdを当該
ターゲットフレームの前方向(forward)に存在するフ
レームのターゲットフレーム情報とする。
For example, as shown in FIG. 9, timing t
Target unvoiced / voiced detection signal U / V tar (t) in 3
Changes from voiced (V) to unvoiced (U), timing t-1
= T2 to t3, the original unvoiced / voiced detection signal U / Vme
(t-1) is voiced (V) and the target unvoiced / voiced detection signal U / Vtar (t-1) is voiced (U). Step S
The original unvoiced / voiced detection signal U / Vme (t
-1) is voiced (V) and target unvoiced / voiced detection signal U
When / Vtar (t-1) is voiced (V) (step S19; Yes), the target frame is
Since the target frame information data INFtar does not exist, the synchronization mode = “2” is set, and the replacement target frame information data INFhold is set as the target frame information of the frame existing in the forward direction of the target frame.

【0049】例えば、図9に示すように、タイミングt
=t3〜t4のターゲットフレームには、ターゲットフレ
ーム情報データINFtarが存在しないので、シンクロ
ナイゼーションモード=“2”とし、置換用ターゲット
フレーム情報データINFholdを当該ターゲットフレー
ムの前方向に存在するフレーム(すなわち、タイミング
t=t2〜t3に存在するフレーム)のターゲットフレー
ム情報データforwardとする。そして、処理をステップ
S15に移行し、シンクロナイゼーションモード=
“0”であるか否かを判別して(ステップS15)、以
下、同様の処理を行う。ステップS13の判別におい
て、ターゲット無声/有声検出信号U/Vtar(t)が有声
(V)から無声(U)に変化していない場合には(ステ
ップS13;No)、タイミングtにおける元無声/有
声検出信号U/Vme(t)が有声(V)から無声(U)に
変化し、あるいは、ターゲット無声/有声検出信号U/
Vtar(t)が無声(U)から有声(V)に変化しているか
否かを判別する(ステップS14)。
For example, as shown in FIG. 9, timing t
Since the target frame information data INFtar does not exist in the target frame of = t3 to t4, the synchronization mode is set to "2", and the replacement target frame information data INFhold is present in the front direction of the target frame (that is, , Target frame information data forward at the timing t = t2 to t3). Then, the process proceeds to step S15, and the synchronization mode =
It is determined whether or not it is "0" (step S15), and thereafter, the same processing is performed. In the determination in step S13, if the target unvoiced / voiced detection signal U / Vtar (t) has not changed from voiced (V) to unvoiced (U) (step S13; No), the original unvoiced / voiced at timing t The detection signal U / Vme (t) changes from voiced (V) to unvoiced (U), or the target unvoiced / voiced detection signal U /
It is determined whether or not Vtar (t) has changed from unvoiced (U) to voiced (V) (step S14).

【0050】ステップS14の判別において、タイミン
グtにおける元無声/有声検出信号U/Vme(t)が有声
(V)から無声(U)に変化し、または、ターゲット無
声/有声検出信号U/Vtar(t)が無声(U)から有声
(V)に変化している場合には(ステップS14;Ye
s)、シンクロナイゼーションモード=“0”とし、置
換用ターゲットフレーム情報データINFholdを初期化
(clear)し、処理をステップS15に移行して、以
下、同様の処理を行う。ステップS14の判別におい
て、タイミングtにおける元無声/有声検出信号U/V
me(t)が有声(V)から無声(U)に変化せず、かつ
ターゲット無声/有声検出信号U/Vtar(t)が無声
(U)から有声(V)に変化していない場合には(ステ
ップS14;No)、そのまま処理をステップS15に
移行し、以下同様の処理を行う。
In the determination in step S14, the original unvoiced / voiced detection signal U / Vme (t) at the timing t changes from voiced (V) to unvoiced (U), or the target unvoiced / voiced detection signal U / Vtar ( When t) changes from unvoiced (U) to voiced (V) (step S14; Ye)
s), the synchronization mode = “0”, the replacement target frame information data INFhold is initialized (cleared), the process proceeds to step S15, and the same process is performed thereafter. In the determination of step S14, the original unvoiced / voiced detection signal U / V at the timing t
me (t) does not change from voiced (V) to unvoiced (U), and
If the target unvoiced / voiced detection signal U / Vtar (t) has not changed from unvoiced (U) to voiced (V) (step S14; No), the process directly shifts to step S15, and so on. I do.

【0051】[2.9] 変形スペクトラルシェイプ生
成部の動作 続いて、変形スペクトラルシェイプ生成部23は、静的
変化/ビブラート的変化分離部19から入力された入力
音声信号Svの正弦波成分に対応する元属性データであ
る平均アンプ静的成分Ame-sta、平均アンプビブラート
的成分Ame-vib、ピッチ静的成分Pme-sta、ピッチビブ
ラート的成分Pme-vib、スペクトラル・シェイプSme
(f)、正規化周波数F’n、イージーシンクロナイゼー
ション部22から入力された置換済ターゲットフレーム
情報データINFtar-syncに含まれるターゲット属性デ
ータのうち正弦波成分に関するターゲット属性データ
(平均アンプ静的成分Atar-sync-sta、平均アンプビブ
ラート的成分Atar-sync-vib、ピッチ静的成分Ptar-sy
nc-sta、ピッチビブラート的成分Ptar-sync-vib及びス
ペクトラル・シェイプStar-sync(f))及びコントロー
ラ29から入力される変形スペクトラル・シェイプ生成
情報に基づいて、新しいスペクトラル・シェイプである
変形スペクトラル・シェイプSnew(f)を生成する。変形
スペクトラルシェイプの生成は、元のスペクトラル・シ
ェイプのディップ部のゲインを変化させ、あるいは、元
のスペクトラル・シェイプのピーク部である共鳴点(フ
ォルマント)のゲインを変化させることにより行う。
[2.9] Operation of Modified Spectral Shape Generation Unit Subsequently, the modified spectral shape generation unit 23 corresponds to the sine wave component of the input audio signal Sv input from the static change / vibrato change change separation unit 19. The original attribute data is the average amp static component Ame-sta, the average amp vibrato component Ame-vib, the pitch static component Pme-sta, the pitch vibrato component Pme-vib, and the spectral shape Sme.
(f), normalized frequency F'n, target attribute data regarding the sine wave component of the target attribute data included in the replaced target frame information data INF tar-sync input from the easy synchronization unit 22 (average amplifier static Component Atar-sync-sta, average amp vibrato component Atar-sync-vib, pitch static component Ptar-sy
nc-sta, a pitch vibrato component Ptar-sync-vib and a spectral shape Star-sync (f)), and a modified spectral shape which is a new spectral shape based on the modified spectral shape generation information input from the controller 29. A shape Snew (f) is generated. The modified spectral shape is generated by changing the gain of the dip part of the original spectral shape or by changing the gain of the resonance point (formant) which is the peak part of the original spectral shape.

【0052】[2.9.1] 共鳴点の検出方法 ここで、変形スペクトラル・シェイプSnew(f)の生成方
法の説明に先立ち、元のスペクトラル・シェイプから共
鳴点(ピーク値;フォルマント周波数)を検出する方法
について図11を参照して説明する。共鳴点を検出する
方法は、線形予測法を利用した方法など様々提案されて
おり、それらの方法を併用することも可能であるが、以
下の説明においては、抽出した元のスペクトラル・シェ
イプの結果から共鳴点を検出する方法の一例を述べる。
この場合において、元のスペクトラル・シェイプの結果
から、以下の条件のデータは演算量の削減及び演算時間
の高速化の観点から演算対象から除くものとする。ま
た、検出すべき共鳴点の個数を3個とし、検出周波数の
最大値(検索終了周波数)を3500[Hz](=第3
フォルマントを検出するのに十分な帯域として設定)と
する。 1) 予め設定したしきい値レベル(例えば、入力音声
信号のうち信号レベル−60[dB]以下のデータ 2) 基本周波数(F0)の整数倍の周波数を有する周
波数データ以外の周波数データ 3) 基本周波数(F0)以下の周波数を有する周波数
データ
[2.9.1] Resonance Point Detection Method Here, prior to the description of the method of generating the modified spectral shape Snew (f), the resonance point (peak value; formant frequency) is extracted from the original spectral shape. The detection method will be described with reference to FIG. Various methods have been proposed for detecting resonance points, including methods that use linear prediction methods, and it is possible to use these methods together, but in the following explanation, the results of the original spectral shape extracted An example of the method for detecting the resonance point from the above will be described.
In this case, from the result of the original spectral shape, the data of the following conditions are excluded from the calculation target from the viewpoint of reducing the calculation amount and speeding up the calculation time. In addition, the number of resonance points to be detected is three, and the maximum value of the detection frequency (search end frequency) is 3500 [Hz] (= the third frequency).
Set as a band sufficient to detect formants). 1) Threshold level set in advance (for example, data of the input voice signal having a signal level of -60 [dB] or less 2) Frequency data other than frequency data having an integral multiple of the fundamental frequency (F0) 3) Basic Frequency data with frequencies below the frequency (F0)

【0053】次に、以下のワークパラメータ(作業用パ
ラメータ)を用意し、図11の処理フローチャートに沿
って共鳴点を検出する。 ・Max.frq :最大ゲインを有する共鳴点の周波数 ・Max Gain :最大ゲインを有する共鳴点に対応す
るゲイン ・Min.frq :最小ゲインを有する共鳴点に対応す
る周波数 ・Min Gain :最小ゲインを有する共鳴点に対応す
るゲイン ・Peak[N].frq :検出した共鳴点の周波数格納エリア
(N=0〜2) ・Peak[N].gain :検出した共鳴点のゲイン格納エリア
(N=0〜2) ・DiffGain :ピーク部(山部)とディップ部(谷
部)の基準ゲイン差 ・EndFrq :検索終了周波数 ・PeakCnt :検出した共鳴点の個数カウンタ
Next, prepare the following working parameters (working parameters), to detect the resonance point along the flowchart of FIG. 11. -Max.frq: Frequency of resonance point having maximum gain-Max Gain: Gain corresponding to resonance point having maximum gain-Min.frq: Frequency corresponding to resonance point having minimum gain-Min Gain: Having minimum gain Gain corresponding to resonance point ・ Peak [N] .frq: Frequency storage area of detected resonance point (N = 0 to 2) ・ Peak [N] .gain: Gain storage area of detected resonance point (N = 0 to 0) 2) ・ DiffGain: Reference gain difference between peak (peak) and dip (valley) ・ EndFrq: Search end frequency ・ PeakCnt: Counter of detected resonance points

【0054】まず、全体初期設定として、以下の処理を
行う(ステップS1)。 DiffGain=15[dB] EndFrq =3500[Hz] 続いて、検索初期設定として以下の処理を行う(ステッ
S2)。 PeakCnt =0 Max Gain=−999[dB] Min Gain=0[dB]
First, the following processing is performed as the overall initialization (step S1 ). DiffGain = 15 [dB] EndFrq = 3500 [Hz] Then, the following processing is performed as the search initial setting (step S2 ). PeakCnt = 0 Max Gain = -999 [dB] Min Gain = 0 [dB]

【0055】続いて、基本周波数F0から高周波数側に
向かって順番に元のスペクトラル・シェイプに対応する
データの検索を行い、ワークパラメータMax.frq、Max G
ain、Min.frq、Min Gainを検索結果に基づいて更新する
(ステップS3)。また、この更新処理と並行して検索
対象周波数がワークパラメータEndFrqに対応する検索終
了周波数を越えたか否かを判別する(ステップS4)。
ステップS4の判別において、検索対象周波数がワーク
パラメータEndFrqに対応する検索終了周波数を越えてワ
ークパラメータEndFrqに対応する検索終了周波数を越え
ていない場合には(ステップS4;No)、検索を継続
する。ステップS4の判別において、検索対象周波数が
ワークパラメータEndFrqに対応する検索終了周波数を越
えている場合には(ステップS4;Yes)、ワークパ
ラメータPeakCntの値が3未満であるか否かを判別する
(ステップS5)。
Subsequently, the data corresponding to the original spectral shape is searched in order from the fundamental frequency F0 toward the high frequency side, and the work parameters Max.frq, Max G.
ain, Min.frq, and Min Gain are updated based on the search result (step S3 ). Further, in parallel with this updating process, it is determined whether or not the search target frequency exceeds the search end frequency corresponding to the work parameter EndFrq (step S4 ).
In the determination of step S4 , if the search target frequency exceeds the search end frequency corresponding to the work parameter EndFrq and does not exceed the search end frequency corresponding to the work parameter EndFrq (step S4 ; No), the search is continued. In the determination of step S4, if the search target frequency exceeds the search end frequencies corresponding to the work parameters EndFrq (Step S4; Yes), it determines whether or not the value of the work parameter PeakCnt is less than 3 ( Step S5 ).

【0056】ステップS5の判別において、ワークパラ
メータPeakCntの値が3未満である場合には(ステップ
S5;Yes)、検索対象を広げるためにピーク部(山
部)とディップ部(谷部)の基準ゲイン差を小さくし
(ステップS6)、処理を再びステップS2に移行し、
検索初期設定を再度行う。より具体的には、 DiffGain=DiffGain−2 とし、基準ゲイン差を2[dB]小さくし、処理を再び
ステップS2に移行し、検索初期設定を再度行う。
If it is determined in step S5 that the value of the work parameter PeakCnt is less than 3, (step
S5 : Yes), the reference gain difference between the peak portion (mountain portion) and the dip portion (valley portion) is reduced in order to broaden the search target (step S6 ), and the process proceeds to step S2 again.
Perform search initialization again. More specifically, DiffGain = DiffGain−2, the reference gain difference is reduced by 2 [dB], the process proceeds to step S2 again, and the search initialization is performed again.

【0057】ステップS5の判別において、ワークパラ
メータPeakCntの値が3以上である場合には(ステップ
S5;No)、ワークパラメータMax Gainの値とワーク
パラメータMin Gainの値とを比較し、そのゲイン差がワ
ークパラメータ DiffGainに設定された基準ゲイン差
であるか否かを判別し(ステップS7)、ゲイン差が
基準ゲイン差未満である場合には(ステップS7;Ye
s)、処理をステップS3に移行し、検索処理を継続す
る。
In the determination of step S5 , if the value of the work parameter PeakCnt is 3 or more (step
S5; No), the work parameters Max Gain of comparing the values of the work parameters Min Gain, reference gain difference Not that the gain difference is set to work parameter DiffGain
It is determined whether or not it is full (step S7 ), and if the gain difference is less than the reference gain difference (step S7 ; Ye).
s), the process proceeds to step S3 , and the search process is continued.

【0058】ステップS7の判別において、ゲイン差が
基準ゲイン差以上である場合には(ステップS7;N
o)、ワークパラメータMin.frqの値とワークパラメー
タMax.frqの値とを比較し、ワークパラメータMin.frqに
対応する周波数がワークパラメータMax.frqの周波数よ
りも高いか否かを判別する(ステップS8)。ステップ
S8の判別において、ワークパラメータMin.frqに対応
する周波数がワークパラメータMax.frqの周波数以下で
ある場合には(ステップS8;No)、 Min Gain=0 とし(ステップS9)、処理をステップS3に再度移行
する。
If it is determined in step S7 that the gain difference is equal to or larger than the reference gain difference (step S7 ; N
o), the value of the work parameter Min.frq is compared with the value of the work parameter Max.frq to determine whether the frequency corresponding to the work parameter Min.frq is higher than the frequency of the work parameter Max.frq ( Step S8 ). Step
When the frequency corresponding to the work parameter Min.frq is equal to or lower than the frequency of the work parameter Max.frq in the determination of S8 (step S8 ; No), Min Gain = 0 (step S9 ), and the process proceeds to step S3 . Migrate again.

【0059】ステップS8の判別において、ワークパラ
メータMin.frqに対応する周波数がワークパラメータMa
x.frqの周波数よりも高い場合には(ステップS8;Y
es)、以下の処理を順番に行い(ステップS10)、
処理を再びステップS3に移行する。 Peak[PeakCnt].frq =Max.frq Peak[PeakCnt].gain =Max Gain PeakCnt=PeakCnt+1 Max Gain=−999 Min Gain=0[dB]
In the determination in step S8 , the frequency corresponding to the work parameter Min.frq is the work parameter Ma.
If it is higher than the frequency of x.frq (step S8 ; Y
es), the following processing is performed in order (step S10 ),
The processing shifts to step S3 again. Peak [PeakCnt] .frq = Max.frq Peak [PeakCnt] .gain = Max Gain PeakCnt = PeakCnt + 1 Max Gain = −999 Min Gain = 0 [dB]

【0060】このようにして、第1共鳴点(第1フォル
マント)〜第3共鳴点(第3フォルマント)に相当する
ピーク部の周波数及びゲインが求まることとなる。上記
説明においては、検索終了周波数を3500[Hz]と
し、第3共鳴点までを検出する構成としていたが、基本
周波数を含む少なくとも二つの共鳴点が検出可能な周波
数帯域を設定すれば、検索終了周波数は任意に設定する
ことが可能である。
In this way, the frequencies and gains of the peak parts corresponding to the first resonance point (first formant) to the third resonance point (third formant) are obtained. In the above description, the search end frequency is set to 3500 [Hz], and detection is performed up to the third resonance point. However, if a frequency band in which at least two resonance points including the fundamental frequency can be detected is set, the search ends. The frequency can be set arbitrarily.

【0061】[2.9.2] 変形スペクトラル・シェ
イプの生成方法 次に、図12を参照して変形スペクトラル・シェイプS
new(f)の生成について説明する。上記共鳴点検出処理に
おいて検出された隣り合う二つの共鳴点P(n)及びP
(n+1)を周波数対数軸−ゲイン対数軸上で結んだ直
線を基準ゲインレベル直線LREFとし、この基準ゲイン
レベル直線LREFの周波数fにおけるゲイン値を基準ゲ
インレベルPK(f)とする。また、元のスペクトラル
・シェイプの周波数fにおけるゲイン値をPS(f)と
する。
[2.9.2] Method of Generating Modified Spectral Shape Next, referring to FIG. 12, modified spectral shape S
Generation of new (f) is explained. Two adjacent resonance points P (n) and P detected in the above resonance point detection processing
A straight line connecting (n + 1) on the frequency logarithmic axis-gain logarithmic axis is defined as a reference gain level straight line LREF, and the gain value at the frequency f of the reference gain level straight line LREF is defined as a reference gain level PK (f). Further, the gain value at the frequency f of the original spectral shape is PS (f).

【0062】ここで、共鳴点P(n)及びP(n+1)
にそれぞれ対応する周波数をfPn、fPn1とすると、周
波数fが fPn≦f<fPn1 の範囲内において、変形スペクトラル・シェイプSnew
(f)のゲインPD(f)を次式により定める。 PD(f)=PK(f)+K・(PS(f)−PK
(f)) ここで、Kは、コントローラより与えられる鼻音率パラ
メータであり、 K<1 で入力音声を鼻音化し、 K>1 で入力音声の非鼻音化を行う。
Here, the resonance points P (n) and P (n + 1)
Let fPn and fPn1 be the frequencies corresponding to, respectively, within the range of frequency f of fPn ≦ f <fPn1, the modified spectral shape Snew
The gain PD (f) of (f) is determined by the following equation. PD (f) = PK (f) + K · (PS (f) −PK
(F) Here, K is a nasal sound ratio parameter given by the controller. When K <1, the input voice is made nasal, and when K> 1, the input voice is made non-nasal.

【0063】より具体的には、図12の破線aとして示
すように、入力音声のスペクトラル・シェイプ(元のス
ペクトラル・シェイプ)の波形(実線で表す)と比較し
て、ディップ部の深さを浅くすることにより、実効的に
共鳴点の帯域幅を広くし、鼻音化がなされる。すなわ
ち、鼻が詰まったような音声に変換することができる。
また、図12の破線bとして示すように、ディップ部の
深さを深くすることにより、実効的に共鳴点の帯域幅を
狭くし、非鼻音化がなされる。すなわち、より明瞭な音
声に変換することができる。
More specifically, as shown by the broken line a in FIG. 12 , the depth of the dip portion is compared with the waveform (represented by the solid line) of the spectral shape (original spectral shape) of the input voice. By making it shallow, the bandwidth of the resonance point is effectively widened and nasalization is performed. That is, it is possible to convert the voice into a voice with a stuffy nose.
Further, as shown by a broken line b in FIG. 12 ,
By increasing the depth, the bandwidth of the resonance point is effectively narrowed and denasification is performed. That is, it is possible to convert to a clearer voice.

【0064】[2.10] 変形スペクトラルシェイプ
加工部の動作 ところで、一般的にアンプ成分が大きい場合には、高域
まで伸びた抜けの明るい音となり、アンプ成分が小さい
場合には、逆にこもった音になる。そこで、変形スペク
トラル・シェイプSnew(f)に関しては、このような状態
をシミュレートすべく、図13に示すように、スペクト
ラル・シェイプの高域成分、すなわち、高域成分部分の
スペクトラル・シェイプの傾きを新規アンプ成分Anew
の大きさに応じて補償するスペクトラルチルト補償(sp
ectral tilt correction)を行って、コントロールする
ことにより、よりリアルな音声を再生することができ
る。
[2.10] Operation of Deformed Spectral Shape Processing Section Generally, when the amplifier component is large, a bright sound that extends to the high frequency range is produced, and when the amplifier component is small, the sound is muffled. Makes a sound. Therefore, regarding the modified spectral shape Snew (f), in order to simulate such a state, as shown in FIG. 13 , the high-frequency component of the spectral shape, that is, the slope of the spectral shape of the high-frequency component part A new amplifier component Anew
Spectral tilt compensation (sp
By performing ectral tilt correction) and controlling it, more realistic sound can be reproduced.

【0065】続いて、生成された変形スペクトラル・シ
ェイプSnew(f)について、必要に応じてコントローラ2
9から入力される変形スペクトラル・シェイプ加工情報
に基づいて、変形スペクトラル・シェイプ加工部24に
よりさらなる波形の加工を行う。例えば、変形スペクト
ラル・シェイプSnew(f)を全体的に間延びさせる等の波
形加工を行う。 [2.11] 残差成分選択部の動作 一方、残差成分選択部25は、イージーシンクロナイゼ
ーション処理部22から入力された置換済ターゲットフ
レーム情報データINFtar-syncに含まれるターゲット
属性データのうち残差成分に関するターゲット属性デー
タ(残差成分Rtar-sync(f))、残差成分保持部12に
保持されている残差成分信号(周波数波形)Rme(f)及
びコントローラ29から入力される残差成分属性データ
選択情報に基づいて新しい残差成分属性データである新
規残差成分Rnew(f)を生成する。
Subsequently, the generated modified spectral shape Snew (f) is controller 2 if necessary.
Based on the modified spectral / shape processing information input from 9, the modified spectral / shape processing unit 24 further processes the waveform. For example, waveform processing such as extending the modified spectral shape Snew (f) as a whole is performed. [2.11] Operation of Residual Component Selection Unit On the other hand, the residual component selection unit 25 selects the target attribute data included in the replaced target frame information data INF tar-sync input from the easy synchronization processing unit 22. Target attribute data regarding the residual component (residual component Rtar-sync (f)), residual component signal (frequency waveform) Rme (f) held in the residual component holding unit 12, and residual input from the controller 29. A new residual component Rnew (f) which is new residual component attribute data is generated based on the difference component attribute data selection information.

【0066】すなわち、新規残差成分Rnew(f)について
は、次式により生成する。 Rnew(f)=R*(f)(ただし、*は、me又はtar-sync) この場合においては、me又はtar-syncのいずれを選択す
るかは、新規スペクトラル・シェイプSnew(f)と同一の
ものを選択するのがより好ましい。さらに、新規残差成
分Rnew(f)に関しても、新規スペクトラル・シェイプと
同様な状態をシミュレートすべく、図13に示したよう
に、残差成分の高域成分、すなわち、高域成分部分の残
差成分の傾きを新規アンプ成分Anewの大きさに応じて
補償するスペクトラルチルト補償(spectral tilt corr
ection)を行って、コントロールすることにより、より
リアルな音声を再生することができる。
That is, the new residual component Rnew (f) is generated by the following equation. Rnew (f) = R * (f) (where * is me or tar-sync) In this case, whether to select me or tar-sync is the same as the new spectral shape Snew (f) More preferably, one selected from Further, as for the new residual component Rnew (f), in order to simulate a state similar to that of the new spectral shape, as shown in FIG. 13, the high frequency component of the residual component, that is, the high frequency component part, Spectral tilt compensation that compensates the slope of the residual component according to the magnitude of the new amplifier component Anew (spectral tilt corr
You can play more realistic sound by controlling and controlling the section.

【0067】[2.12] 正弦波成分生成部の動作 続いて、正弦波成分生成部26は、変形スペクトラル・
シェイプ加工部24から出力された波形加工を伴わな
い、あるいは、波形加工を伴う変形スペクトラル・シェ
イプSnew(f)に基づいて、当該フレームにおける新たな
正弦波成分(F”0、A”0)、(F”1、A”1)、
(F”2、A”2)、……、(F”(N-1)、A”(N-1))
のN個の正弦波成分(以下、これらをまとめてF”n、
A”nと表記する。n=0〜(N−1)。)を求める。 [2.13] 逆高速フーリエ変換部の動作
[2.12] Operation of Sine Wave Component Generation Unit Subsequently, the sine wave component generation unit 26 changes the shape of the modified spectral
A new sine wave component (F ″ 0, A ″ 0) in the frame is output based on the modified spectral shape Snew (f) that is output from the shape processing unit 24 without waveform processing or with waveform processing. (F "1, A" 1),
(F "2, A" 2), ..., (F "(N-1), A" (N-1))
N sine wave components of (hereinafter, these are collectively referred to as F ″ n,
Notated as A ″ n, n = 0 to (N−1). [2.13] Operation of inverse fast Fourier transform unit

【0068】次に逆高速フーリエ変換部28は、求めた
新規周波数F”’nおよび新規アンプA”’n(=新規
正弦波成分)並びに新規残差成分Rnew(f)をFFTバッ
ファに格納し、順次逆FFTを行い、さらに得られた時
間軸信号を一部重複するようにオーバーラップ処理し、
それらを加算する加算処理を行うことにより新しい有声
音の時間軸信号である変換音声信号を生成する。このと
き、コントローラ29から入力される正弦波成分/残差
成分バランス制御信号に基づいて、正弦波成分及び残差
成分の混合比率を制御し、よりリアルな有声信号を得
る。この場合において、一般的には、残差成分の混合比
率を大きくするとざらついた声が得られる。この場合に
おいて、FFTバッファに新規周波数F”nおよび新規
アンプA”n(=新規正弦波成分)並びに新規残差成分
Rnew(f)を格納するに際し、異なるピッチ、かつ、適当
なピッチで変換された正弦波成分をさらに加えることに
より変換音声信号としてハーモニーを得ることができ
る。さらにシーケンサ31により伴奏音に適合したハー
モニーピッチを与えることにより、伴奏に適合した音楽
的ハーモニーを得ることができる。
Next, the inverse fast Fourier transform unit 28 stores the obtained new frequency F ″ ′ n, new amplifier A ″ ′ n (= new sine wave component) and new residual component Rnew (f) in the FFT buffer. , The inverse FFT is sequentially performed, and the obtained time axis signals are overlapped so as to partially overlap,
By performing addition processing for adding them, a converted voice signal which is a time axis signal of a new voiced sound is generated. At this time, the mixing ratio of the sine wave component and the residual component is controlled based on the sine wave component / residual component balance control signal input from the controller 29 to obtain a more realistic voiced signal. In this case, generally, a rough voice can be obtained by increasing the mixing ratio of the residual components. In this case, when the new frequency F ″ n and the new amplifier A ″ n (= new sine wave component) and the new residual component Rnew (f) are stored in the FFT buffer, they are converted with different pitches and appropriate pitches. A harmony can be obtained as a converted audio signal by further adding a sine wave component. Furthermore, by giving a harmony pitch suitable for the accompaniment sound by the sequencer 31, a musical harmony suitable for the accompaniment can be obtained.

【0069】[2.14] クロスフェーダの動作 次にクロスフェーダ30は、元無声/有声検出信号U/
Vme(t)に基づいて、入力音声信号Svが無声(U)であ
る場合には、入力音声信号Svをそのままミキサ30に
出力する。また、入力音声信号Svが有声(V)である
場合には、逆FFT変換部28が出力した変換音声信号
をミキサ30に出力する。この場合において、切替スイ
ッチとしてクロスフェーダ30を用いているのは、クロ
スフェード動作を行わせることによりスイッチ切替時の
クリック音の発生を防止するためである。
[2.14] Operation of Crossfader Next, the crossfader 30 detects the original unvoiced / voiced detection signal U /
If the input voice signal Sv is unvoiced (U) based on Vme (t), the input voice signal Sv is output to the mixer 30 as it is. When the input audio signal Sv is voiced (V), the converted audio signal output by the inverse FFT converter 28 is output to the mixer 30. In this case, the reason why the crossfader 30 is used as the changeover switch is to prevent the generation of a click sound when the switch is changed by performing the crossfade operation.

【0070】[2.15] シーケンサ、音源部、ミキ
サ及び出力部の動作 一方、シーケンサ31は、カラオケの伴奏音を発生する
ための音源制御情報を例えば、MIDI(Musical Inst
rument Digital Interface)データなどとして音源部3
2に出力する。これにより音源部32は、音源制御情報
に基づいて伴奏信号を生成し、ミキサ33に出力する。
ミキサ33は、入力音声信号Svあるいは変換音声信号
のいずれか一方及び伴奏信号を混合し、混合信号を出力
部34に出力する。出力部34は、図示しない増幅器を
有し混合信号を増幅して音響信号として出力することと
なる。
[2.15] Operation of Sequencer, Sound Source Section, Mixer, and Output Section On the other hand, the sequencer 31 outputs sound source control information for generating an accompaniment sound of karaoke, for example, MIDI (Musical Inst).
rument Digital Interface) Data source etc. 3
Output to 2. As a result, the sound source section 32 generates an accompaniment signal based on the sound source control information and outputs it to the mixer 33.
The mixer 33 mixes either the input audio signal Sv or the converted audio signal and the accompaniment signal, and outputs the mixed signal to the output unit 34. The output unit 34 has an amplifier (not shown) and amplifies the mixed signal and outputs it as an acoustic signal.

【0071】[3] 実施形態の変形例 [3.1] 第1変形例 上記実施形態の説明においては、検索対象周波数範囲に
おいては、全ての共鳴点を検出する構成としていたが、
図14に示すように全ての共鳴点が検出されなかった場
合(図14では、共鳴点P1.5が非検出)であっても、
実施形態と同様の処理を行うことにより、ほぼ同様な効
果を得ることが可能である。
[3] Modification of Embodiment [3.1] First Modification In the description of the above embodiment, all resonance points are detected in the search target frequency range.
Even if all resonance points are not detected as shown in FIG. 14 (resonance point P1.5 is not detected in FIG. 14),
By performing the same processing as that of the embodiment, it is possible to obtain substantially the same effect.

【0072】[3.2] 第2変形例 上記実施形態の説明においては、基準ゲインレベルの設
定を二つの隣り合う共鳴点を結んだ直線に基づいて行っ
ていたが、図15に示すように、基本周波数に相当する
最大ゲインを有する共鳴点及びスペクトラル・シェイプ
の平均傾きを算出し、最大ゲイン値を通り、スペクトラ
ル・シェイプの平均傾きを有する直線を基準ゲインレベ
ル直線LREFとして、同様の処理を行うことも可能であ
る。
[3.2] Second Modification In the description of the above embodiment, the reference gain level was set based on the straight line connecting two adjacent resonance points, but as shown in FIG. , The resonance point having the maximum gain corresponding to the fundamental frequency and the average slope of the spectral shape are calculated, and a straight line passing the maximum gain value and having the average slope of the spectral shape is set as the reference gain level line LREF, and the same processing is performed. It is also possible to do so.

【0073】[3.3] 第3変形例 上記実施形態の説明においては、共鳴点(ピーク部)を
結ぶ直線を基準ゲインレベル直線としていたが、同様に
して、図16に示すように、ディップ部(谷部)を結ぶ
直線を基準ゲインレベル直線LREFとし、ピーク部(例
えば、P1)の高さを高低することにより共鳴点の周波
数帯域を変更するように構成することも可能である。
[3.3] Third Modification In the above description of the embodiment, the straight line connecting the resonance points (peak portions) was used as the reference gain level straight line, but similarly, as shown in FIG. It is also possible to use a straight line connecting the portions (valley portions) as the reference gain level straight line LREF and change the frequency band of the resonance point by raising or lowering the height of the peak portion (for example, P1).

【0074】[4] 実施形態の効果 以上の結果、カラオケの伴奏とともに、元歌唱者の歌が
出力されるに際し、元歌唱者の歌声は、聴感上自然な鼻
音化あるいは非鼻音化がなされることとなる。
[4] As a result of the above effects, when the song of the original singer is output along with the accompaniment of karaoke, the singing voice of the original singer is made nasalized or nonnasalized in terms of hearing. It will be.

【0075】[0075]

【発明の効果】以上説明したように、この発明によれ
ば、聴感上自然な鼻音化変換音声あるいは非鼻音化変換
音声を容易に得ることが可能となる。
As described above, according to the present invention, it is possible to easily obtain a nasalized converted voice or a non-nasalized converted voice that is natural to the sense of hearing.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明の一実施形態の構成を示すブロック図
(その1)である。
FIG. 1 is a block diagram (No. 1) showing a configuration of an embodiment of the present invention.

【図2】 本発明の一実施形態の構成を示すブロック図
(その2)である。
FIG. 2 is a block diagram (part 2) showing the configuration of an embodiment of the present invention.

【図3】 実施形態におけるフレームの状態を示す図で
ある。
FIG. 3 is a diagram showing a state of a frame in the embodiment.

【図4】 実施形態における周波数スペクトルのピーク
検出を説明するための説明図である。
FIG. 4 is an explanatory diagram for explaining peak detection of a frequency spectrum in the embodiment.

【図5】 実施形態におけるフレーム毎のピーク値の連
携を示す図である。
FIG. 5 is a diagram showing cooperation of peak values for each frame in the embodiment.

【図6】 実施形態における周波数値の変化状態を示す
図である。
FIG. 6 is a diagram showing how the frequency value changes in the embodiment.

【図7】 実施形態における信号処理の説明図である。FIG. 7 is an explanatory diagram of signal processing according to the embodiment.

【図8】 実施形態における信号処理の説明図である。FIG. 8 is an explanatory diagram of signal processing according to the embodiment.

【図9】 イージーシンクロナイゼーション処理のタイ
ミングチャートである。
FIG. 9 is a timing chart of an easy synchronization process.

【図10】 イージーシンクロナイゼーション処理フロ
ーチャートである。
FIG. 10 is a flowchart of an easy synchronization process.

【図11】 共鳴点の検出処理フローチャートである。FIG. 11 is a resonance point detection processing flowchart.

【図12】 実施形態の動作説明図である。FIG. 12 is a diagram illustrating the operation of the embodiment.

【図13】 スペクトラル・シェイプのスペクトラルチ
ルト補償について説明する図である。
FIG. 13 is a diagram illustrating spectral tilt compensation of a spectral shape.

【図14】 第1変形例の説明図である。FIG. 14 is an explanatory diagram of a first modified example.

【図15】 第2変形例の説明図である。FIG. 15 is an explanatory diagram of a second modified example.

【図16】 第3変形例の説明図である。FIG. 16 is an explanatory diagram of a third modified example.

【符号の説明】[Explanation of symbols]

1…マイク、2…分析窓生成部、3…入力音声信号切出
部、4…高速フーリエ変換部、5…ピーク検出部、6…
無声/有声検出部、7…ピッチ抽出部、8…ピーク連携
部、9…補間合成部、10…残差成分検出部、11…高
速フーリエ変換部、12…残差成分保持部、13…正弦
波成分保持部、14…平均アンプ演算部、15…アンプ
正規化部、16…スペクトラル・シェイプ演算部、17
…ピッチ正規化部、18…元フレーム情報保持部、19
…静的変化/ビブラート的変化分離部、23…変形スペ
クトラル・シェイプ生成部、24…変形スペクトラル・
シェイプ加工部、26…正弦波成分生成部、27…正弦
波成分変形部、28…逆高速フーリエ変換部、29…コ
ントローラ、30…クロスフェーダ部、31…シーケン
サ、32…音源部、33…ミキサ、34…出力部
DESCRIPTION OF SYMBOLS 1 ... Microphone, 2 ... Analysis window generation part, 3 ... Input audio signal cutout part, 4 ... Fast Fourier transform part, 5 ... Peak detection part, 6 ...
Unvoiced / voiced detection unit, 7 ... Pitch extraction unit, 8 ... Peak cooperation unit, 9 ... Interpolation synthesis unit, 10 ... Residual component detection unit, 11 ... Fast Fourier transform unit, 12 ... Residual component holding unit, 13 ... Sine Wave component holding unit, 14 ... Average amplifier calculation unit, 15 ... Amplifier normalization unit, 16 ... Spectral shape calculation unit, 17
... pitch normalization section, 18 ... original frame information holding section, 19
… Static change / vibrato-like change separation unit, 23… Modified spectral shape generation unit, 24… Modified spectral
Shape processing unit, 26 ... Sine wave component generation unit, 27 ... Sine wave component transformation unit, 28 ... Inverse fast Fourier transform unit, 29 ... Controller, 30 ... Crossfader unit, 31 ... Sequencer, 32 ... Sound source unit, 33 ... Mixer , 34 ... Output unit

───────────────────────────────────────────────────── フロントページの続き (72)発明者 ザビエル セラ スペイン バルセロナ カルデデュー 08440 2−2 ビスカイア19 (56)参考文献 特開 平1−93796(JP,A) 特開 平6−208385(JP,A) 特開 平6−110499(JP,A) 特開 平4−9900(JP,A) 特開 平9−330099(JP,A) 特開 平6−175691(JP,A) 特開 平10−62460(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 21/04 G10K 15/04 302 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Xavier Serra Spain Barcelona Cardedue 08440 2-2 Vizcaia 19 (56) References JP-A-1-93796 (JP, A) JP-A-6-208385 (JP, A) JP-A-6-110499 (JP, A) JP-A-4-9900 (JP, A) JP-A-9-330099 (JP, A) JP-A-6-175691 (JP, A) JP-A-10-62460 (JP, A) (58) Fields surveyed (Int.Cl. 7 , DB name) G10L 21/04 G10K 15/04 302

Claims (11)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力音声信号から周波数軸上におけるス
ペクトラル・シェイプを抽出するスペクトラルシェイプ
抽出手段と、 前記スペクトラル・シェイプの共鳴点を検出する共鳴点
検出手段と、 前記共鳴点のゲインに基づいて基準ゲインレベルを設定
する基準ゲインレベル設定手段と、 前記基準ゲインレベルと前記スペクトラル・シェイプの
ゲインレベルとの差分に対応して前記スペクトラル・シ
ェイプの共鳴点の帯域幅を変化させることにより変更ス
ペクトラル・シェイプを生成する変更スペクトラルシェ
イプ生成手段と、 前記変更スペクトラル・シェイプに基づいて変換音声信
号を生成し、出力する音声生成手段と、 を備えたことを特徴とする音声変換装置。
1. A spectral shape extraction means for extracting a spectral shape on a frequency axis from an input audio signal, a resonance point detection means for detecting a resonance point of the spectral shape, and a reference based on a gain of the resonance point. Reference gain level setting means for setting a gain level, and the reference gain level and the spectral shape
A modified spectral shape generating means for generating a modified spectral shape by changing the bandwidth of the resonance point of the spectral shape corresponding to the difference with the gain level, and a converted audio signal based on the modified spectral shape. A voice conversion device comprising: a voice generation unit that generates and outputs.
【請求項2】 入力音声信号から周波数軸上におけるス
ペクトラル・シェイプを抽出するスペクトラルシェイプ
抽出手段と、 前記スペクトラル・シェイプの共鳴点を検出する共鳴点
検出手段と、 前記共鳴点のゲインに基づいて基準ゲインレベルを設定
する基準ゲインレベル設定手段と、 前記基準ゲインレベルと前記スペクトラル・シェイプの
ゲインレベルとの差分に対応して前記スペクトラル・シ
ェイプのディップ部のゲインを変化させることにより変
更スペクトラル・シェイプを生成する変更スペクトラル
シェイプ生成手段と、 前記変更スペクトラル・シェイプに基づいて変換音声信
号を生成し、出力する音声生成手段と、 を備えたことを特徴とする音声変換装置。
2. A spectral shape extracting means for extracting a spectral shape on a frequency axis from an input audio signal, a resonance point detecting means for detecting a resonance point of the spectral shape, and a reference based on a gain of the resonance point. Reference gain level setting means for setting a gain level, and the reference gain level and the spectral shape
A modified spectral shape generating unit that generates a modified spectral shape by changing the gain of the dip portion of the spectral shape in accordance with the difference from the gain level, and a converted audio signal based on the modified spectral shape A voice conversion device comprising:
【請求項3】 入力音声信号から周波数軸上におけるス
ペクトラル・シェイプを抽出するスペクトラルシェイプ
抽出手段と、 前記スペクトラル・シェイプのディップ部を検出するデ
ィップ部検出手段と、 前記ディップ部のゲインに基づいて基準ゲインレベルを
設定する基準ゲインレベル設定手段と、 前記基準ゲインレベルと前記スペクトラル・シェイプの
ゲインレベルとの差分に対応して前記スペクトラル・シ
ェイプのピーク部のゲインを変化させることにより変更
スペクトラル・シェイプを生成する変更スペクトラルシ
ェイプ生成手段と、 前記変更スペクトラル・シェイプに基づいて変換音声信
号を生成し、出力する音声生成手段と、 を備えたことを特徴とする音声変換装置。
3. A spectral shape extracting means for extracting a spectral shape on a frequency axis from an input audio signal, a dip portion detecting means for detecting a dip portion of the spectral shape, and a reference based on a gain of the dip portion. Reference gain level setting means for setting a gain level, and the reference gain level and the spectral shape
A modified spectral shape generating means for generating a modified spectral shape by changing the gain of the peak portion of the spectral shape in accordance with the difference from the gain level, and a converted audio signal based on the modified spectral shape. A voice conversion device comprising:
【請求項4】 請求項1または請求項2記載の音声変換
装置において、 前記基準ゲインレベル設定手段は、周波数−ゲイン軸上
で隣り合う二つの前記共鳴点を結ぶ直線を定義し、連続
する複数の前記直線で構成される曲線を前記基準ゲイン
レベルとして設定することを特徴とする音声変換装置。
4. The voice conversion device according to claim 1, wherein the reference gain level setting means defines a straight line connecting two adjacent resonance points on a frequency-gain axis, and a plurality of consecutive straight lines are defined. A voice conversion device, wherein a curve constituted by the straight line is set as the reference gain level.
【請求項5】 請求項1または請求項2記載の音声変換
装置において、 前記基準ゲインレベル設定手段は、周波数−ゲイン軸上
で予め設定した二つの前記共鳴点を結ぶ直線を前記基準
ゲインレベルとして設定することを特徴とする音声変換
装置。
5. The voice conversion device according to claim 1, wherein the reference gain level setting means sets a straight line connecting two resonance points set in advance on a frequency-gain axis to the reference line. > A voice conversion device characterized by being set as a gain level.
【請求項6】 請求項1または請求項2記載の音声変換
装置において、 前記基準ゲインレベル設定手段は、周波数−ゲイン軸上
で第1フォルマント周波数に対応するピーク部を通り、
前記スペクトラル・シェイプの平均傾きを有する直線を
前記基準ゲインレベルとして設定することを特徴とする
音声変換装置。
6. The voice conversion device according to claim 1, wherein the reference gain level setting means passes through a peak portion corresponding to a first formant frequency on a frequency-gain axis,
A voice conversion device, wherein a straight line having an average slope of the spectral shape is set as the reference gain level.
【請求項7】 請求項3記載の音声変換装置において、 前記基準ゲインレベル設定手段は、周波数−ゲイン軸上
で隣り合う二つの前記ディップ部を結ぶ直線を定義し、
連続する複数の前記直線で構成される曲線を前記基準ゲ
インレベルとして設定することを特徴とする音声変換装
置。
7. The voice conversion device according to claim 3, wherein the reference gain level setting means defines a straight line connecting two adjacent dip portions on a frequency-gain axis,
A voice conversion device, wherein a curve constituted by a plurality of continuous straight lines is set as the reference gain level.
【請求項8】 請求項3記載の音声変換装置において、 前記基準ゲインレベル設定手段は、周波数−ゲイン軸上
で予め設定した二つの前記ディップ部を結ぶ直線を前記
基準ゲインレベルとして設定することを特徴とする音声
変換装置。
8. The voice conversion device according to claim 3, wherein the reference gain level setting means forms a straight line connecting the two dip portions set in advance on a frequency-gain axis.
A voice conversion device characterized by being set as a reference gain level.
【請求項9】 入力音声信号から周波数軸上におけるス
ペクトラル・シェイプを抽出するスペクトラルシェイプ
抽出工程と、 前記スペクトラル・シェイプの共鳴点を検出する共鳴点
検出工程と、 前記共鳴点のゲインに基づいて基準ゲインレベルを設定
する基準ゲインレベル設定工程と、 前記基準ゲインレベルと前記スペクトラル・シェイプの
ゲインレベルとの差分に対応して前記スペクトラル・シ
ェイプの共鳴点の帯域幅を変化させることにより変更ス
ペクトラル・シェイプを生成する変更スペクトラルシェ
イプ生成工程と、 前記変更スペクトラル・シェイプに基づいて変換音声
を生成する音声生成工程と、 を備えたことを特徴とする音声変換方法。
9. A spectral shape extracting step of extracting a spectral shape on a frequency axis from an input audio signal, a resonance point detecting step of detecting a resonance point of the spectral shape, and a reference based on a gain of the resonance point. A reference gain level setting step of setting a gain level, and the reference gain level and the spectral shape
A modified spectral shape generation step of generating a modified spectral shape by changing the bandwidth of the resonance point of the spectral shape corresponding to the difference with the gain level, and a converted voice signal based on the modified spectral shape.
Speech conversion method of the speech production process, comprising the generating the issue.
【請求項10】 入力音声信号から周波数軸上における
スペクトラル・シェイプを抽出するスペクトラルシェイ
プ抽出工程と、 前記スペクトラル・シェイプの共鳴点を検出する共鳴点
検出工程と、 前記共鳴点のゲインに基づいて基準ゲインレベルを設定
する基準ゲインレベル設定工程と、 前記基準ゲインレベルと前記スペクトラル・シェイプの
ゲインレベルとの差分に対応して前記スペクトラル・シ
ェイプのディップ部のゲインを変化させることにより変
更スペクトラル・シェイプを生成する変更スペクトラル
シェイプ生成工程と、 前記変更スペクトラル・シェイプに基づいて変換音声信
号を生成する音声生成工程と、 を備えたことを特徴とする音声変換方法。
10. A spectral shape extracting step of extracting a spectral shape on a frequency axis from an input audio signal, a resonance point detecting step of detecting a resonance point of the spectral shape, and a reference based on a gain of the resonance point. A reference gain level setting step of setting a gain level, and the reference gain level and the spectral shape
A modified spectral shape generation step of generating a modified spectral shape by changing the gain of the dip portion of the spectral shape corresponding to the difference with the gain level, and a converted audio signal generated based on the modified spectral shape. A voice conversion method, comprising:
【請求項11】 入力音声信号から周波数軸上における
スペクトラル・シェイプを抽出するスペクトラルシェイ
プ抽出工程と、 前記スペクトラル・シェイプのディップ部を検出するデ
ィップ部検出工程と、 前記ディップ部のゲインに基づいて基準ゲインレベルを
設定する基準ゲインレベル設定工程と、 前記基準ゲインレベルと前記スペクトラル・シェイプの
ゲインレベルとの差分に対応して前記スペクトラル・シ
ェイプのピーク部のゲインを変化させることにより変更
スペクトラル・シェイプを生成する変更スペクトラルシ
ェイプ生成工程と、 前記変更スペクトラル・シェイプに基づいて変換音声信
号を生成する音声生成工程と、 を備えたことを特徴とする音声変換方法。
11. A spectral shape extracting step of extracting a spectral shape on a frequency axis from an input audio signal, a dip portion detecting step of detecting a dip portion of the spectral shape, and a reference based on a gain of the dip portion. A reference gain level setting step of setting a gain level, and the reference gain level and the spectral shape
A modified spectral shape generation step of generating a modified spectral shape by changing the gain of the peak portion of the spectral shape corresponding to the difference with the gain level, and a converted audio signal generated based on the modified spectral shape. A voice conversion method, comprising:
JP16904898A 1998-06-16 1998-06-16 Voice conversion device and voice conversion method Expired - Fee Related JP3447220B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16904898A JP3447220B2 (en) 1998-06-16 1998-06-16 Voice conversion device and voice conversion method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16904898A JP3447220B2 (en) 1998-06-16 1998-06-16 Voice conversion device and voice conversion method

Publications (2)

Publication Number Publication Date
JP2000003198A JP2000003198A (en) 2000-01-07
JP3447220B2 true JP3447220B2 (en) 2003-09-16

Family

ID=15879368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16904898A Expired - Fee Related JP3447220B2 (en) 1998-06-16 1998-06-16 Voice conversion device and voice conversion method

Country Status (1)

Country Link
JP (1) JP3447220B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5092902B2 (en) * 2008-05-29 2012-12-05 カシオ計算機株式会社 FIR filter coefficient calculation device, FIR filter device, and FIR filter coefficient calculation program

Also Published As

Publication number Publication date
JP2000003198A (en) 2000-01-07

Similar Documents

Publication Publication Date Title
JP3985814B2 (en) Singing synthesis device
US7606709B2 (en) Voice converter with extraction and modification of attribute data
JP5605066B2 (en) Data generation apparatus and program for sound synthesis
JP6791258B2 (en) Speech synthesis method, speech synthesizer and program
JP2004264676A (en) Apparatus and program for singing synthesis
Bonada et al. Sample-based singing voice synthesizer by spectral concatenation
US6944589B2 (en) Voice analyzing and synthesizing apparatus and method, and program
JP5136128B2 (en) Speech synthesizer
JP3540159B2 (en) Voice conversion device and voice conversion method
JP3502268B2 (en) Audio signal processing device and audio signal processing method
JP3447220B2 (en) Voice conversion device and voice conversion method
JP3447221B2 (en) Voice conversion device, voice conversion method, and recording medium storing voice conversion program
JP4349316B2 (en) Speech analysis and synthesis apparatus, method and program
JP3706249B2 (en) Voice conversion device, voice conversion method, and recording medium recording voice conversion program
JP3540609B2 (en) Voice conversion device and voice conversion method
JP4430174B2 (en) Voice conversion device and voice conversion method
JP3294192B2 (en) Voice conversion device and voice conversion method
JP6834370B2 (en) Speech synthesis method
JP3949828B2 (en) Voice conversion device and voice conversion method
JP2000003187A (en) Method and device for storing voice feature information
JP3540160B2 (en) Voice conversion device and voice conversion method
JP3934793B2 (en) Voice conversion device and voice conversion method
JP3907838B2 (en) Voice conversion device and voice conversion method
JP6822075B2 (en) Speech synthesis method
Zhou et al. A corpus-based concatenative mandarin singing voice synthesis system

Legal Events

Date Code Title Description
S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090704

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090704

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100704

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100704

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110704

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110704

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120704

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130704

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees