JP2000003187A - Method and device for storing voice feature information - Google Patents
Method and device for storing voice feature informationInfo
- Publication number
- JP2000003187A JP2000003187A JP10169046A JP16904698A JP2000003187A JP 2000003187 A JP2000003187 A JP 2000003187A JP 10169046 A JP10169046 A JP 10169046A JP 16904698 A JP16904698 A JP 16904698A JP 2000003187 A JP2000003187 A JP 2000003187A
- Authority
- JP
- Japan
- Prior art keywords
- component
- voice
- frequency
- amplifier
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、音声信号を生成す
る装置、特にカラオケ装置に用いて好適な音声特徴情報
記憶方法および音声特徴情報記憶装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an apparatus for generating an audio signal, and more particularly to a method and apparatus for storing audio characteristic information suitable for use in a karaoke apparatus.
【0002】[0002]
【従来の技術】入力された音声の周波数特性などを変え
て出力する音声変換装置は種々開発されており、例え
ば、カラオケ装置の中には、歌い手の歌った歌声のピッ
チを変換して、男性の声を女性の声に、あるいはその逆
に変換させるものもある(例えば、特表平8−5085
81号)。2. Description of the Related Art There have been developed various voice converters for changing the frequency characteristics and the like of an input voice and outputting the converted voice. For example, some karaoke devices convert the pitch of a singer's singing voice into a male voice. Some voices are converted to female voices and vice versa (for example, Japanese Translation of International Patent Application No. Hei 8-5085).
No. 81).
【0003】[0003]
【発明が解決しようとする課題】従来の音声変換装置に
おいては、音声の変換(例えば、男声→女声、女声→男
声など)は行われるものの、単に声質を変えるだけに止
まっていたので、例えば、特定の歌唱者(例えば、プロ
の歌手)の声に似せるように変換するということはでき
なかった。また、声質だけでなく、歌い方までも特定の
歌唱者に似させるという、ものまねのような機能があれ
ば、カラオケ装置などにおいては大変に面白いが、従来
の音声変換装置ではこのような処理は不可能であった。
そこで、本発明者らは、声質を目標(ターゲット)とす
る歌唱者の声に似させることができる音声変換装置を提
供することにした。In the conventional voice conversion apparatus, although voice conversion (for example, male voice → female voice, female voice → male voice) is performed, only voice quality is changed. It could not be converted to resemble the voice of a particular singer (eg, a professional singer). Also, if there is a function like imitation that makes not only voice quality but also singing style similar to a specific singer, it is very interesting in karaoke equipment etc. It was impossible.
Thus, the present inventors have provided a voice conversion device that can resemble the voice of a singer whose voice quality is a target.
【0004】しかし、かかる装置においては、音声特徴
情報を記憶する必要があるため、膨大な記憶容量が必要
である。この発明は上述した事情に鑑みてなされたもの
であり、僅かな記憶容量で高精度な音声特徴情報を記憶
できる音声特徴情報記憶方法および音声特徴情報記憶装
置を提供することを目的としている。[0004] However, in such a device, it is necessary to store voice feature information, so that a huge storage capacity is required. The present invention has been made in view of the above-described circumstances, and has as its object to provide a voice feature information storage method and a voice feature information storage device capable of storing voice feature information with high accuracy with a small storage capacity.
【0005】[0005]
【課題を解決するための手段】上記課題を解決するため
請求項1記載の構成にあっては、音声の特徴を表わす複
数の周波数Fk(但し、kは自然数)を得る過程と、基
準周波数F0と前記各自然数kとの乗算を行う過程と、
各乗算結果F0×kと前記各周波数Fkとの差分または
割合を求める過程と、これら差分または割合を記憶する
ことによって前記音声の特徴を記憶することを特徴とす
る。また、請求項2記載の構成にあっては、音声の特徴
を表わす複数の周波数Fk(但し、kは自然数)を得る
過程と、基準周波数F0と前記各自然数kとの乗算を行
う過程と、各乗算結果F0×kと前記各周波数Fkとの
差分または割合を求める過程と、これら差分または割合
のうち所定のスレッショルド値を超えるものを選択する
過程と、これら選択された差分または割合を記憶するこ
とによって前記音声の特徴を記憶することを特徴とす
る。また、請求項3記載の構成にあっては、音声の特徴
を表わす複数の周波数Fk(但し、kは自然数)を得る
過程と、基準周波数F0と前記各自然数kとの乗算を行
う過程と、各乗算結果F0×kと前記各周波数Fkとの
差分または割合を求める過程と、これら差分または割合
のうち大きい順に所定数の差分または割合を選択する過
程と、これら選択された差分または割合を記憶すること
によって前記音声の特徴を記憶することを特徴とする。
また、請求項4記載の構成にあっては、音声の特徴を表
わす複数の周波数Fk(但し、kは自然数)と、これら
周波数Fkに対応する振幅値Akを得る過程と、前記振
幅値Akのうち所定値以上であるものに対応する周波数
Fkを選択する過程と、基準周波数F0と、選択された
前記周波数Fkに対応する各自然数kとの乗算を行う過
程と、各乗算結果F0×kと前記選択された各周波数F
kとの差分または割合を求める過程と、これら差分また
は割合を記憶することによって前記音声の特徴を記憶す
ることを特徴とする。また、請求項5記載の構成にあっ
ては、請求項1〜4の何れかに記載の音声特徴情報記憶
方法を実行することを特徴とする。According to a first aspect of the present invention, there is provided a configuration for obtaining a plurality of frequencies Fk (where k is a natural number) representing a characteristic of a voice, and a method of obtaining a reference frequency F0. Multiplying by each of said natural numbers k;
A step of obtaining a difference or a ratio between each of the multiplication results F0 × k and each of the frequencies Fk, and storing the difference or the ratio to store the feature of the voice. Further, in the configuration according to the second aspect, a step of obtaining a plurality of frequencies Fk (k is a natural number) representing a feature of the voice, a step of multiplying a reference frequency F0 by each of the natural numbers k, A step of obtaining a difference or ratio between each multiplication result F0 × k and each of the frequencies Fk, a step of selecting a difference or ratio exceeding a predetermined threshold value, and storing the selected difference or ratio. Thus, the feature of the voice is stored. Further, in the configuration according to the third aspect, a step of obtaining a plurality of frequencies Fk (where k is a natural number) representing a feature of the voice, a step of multiplying a reference frequency F0 by each of the natural numbers k, Obtaining a difference or ratio between each multiplication result F0 × k and each of the frequencies Fk, selecting a predetermined number of differences or ratios in descending order of these differences or ratios, and storing these selected differences or ratios And storing the characteristics of the voice.
Further, in the configuration of the fourth aspect, a process of obtaining a plurality of frequencies Fk (where k is a natural number) representing a feature of a voice, an amplitude value Ak corresponding to the frequency Fk, and a process of obtaining the amplitude value Ak Selecting a frequency Fk corresponding to a frequency not less than a predetermined value, multiplying a reference frequency F0 by each natural number k corresponding to the selected frequency Fk; Each selected frequency F
a step of obtaining a difference or a ratio with respect to k, and storing the difference or the ratio to store the feature of the voice. According to a fifth aspect of the present invention, the voice feature information storage method according to any one of the first to fourth aspects is performed.
【0006】[0006]
【発明の実施の形態】[1] 実施形態の概要処理 [2] 実施形態の概要処理 次に図面を参照して本発明の好適な実施形態について説
明する。始めに、実施形態の概要処理について説明す
る。 [2.1] ステップS1 まず、ものまねをしようとする歌唱者(me)の音声(入
力音声信号)をリアルタイムでFFT(Fast Fourie Tr
ansform)する過程を含むSMS(Spectral Modeling S
ynthesis)分析を行い、フレーム単位で正弦波成分(Si
ne成分)を抽出するとともに、入力音声信号及び正弦波
成分からフレーム単位で残差成分(Residual成分)を生
成する。これと並行して入力音声信号が無声音(含む無
音)か否かを判別し、無声音である場合には、以下のス
テップS2〜ステップS6の処理は行わず、入力音声信
号をそのまま出力することとなる。この場合において、
SMS分析としては、前回のフレームにおけるピッチに
応じて分析窓幅を変更するピッチ同期分析を採用してい
る。DESCRIPTION OF THE PREFERRED EMBODIMENTS [1] Outline Processing of Embodiment [2] Outline Processing of Embodiment Next, a preferred embodiment of the present invention will be described with reference to the drawings. First, the outline processing of the embodiment will be described. [2.1] Step S1 First, the voice (input voice signal) of the singer (me) trying to imitate is FFT (Fast Fourie Tr) in real time.
SMS (Spectral Modeling S)
analysis) and performs a sine wave component (Si
ne component), and generates a residual component (residual component) for each frame from the input audio signal and the sine wave component. In parallel with this, it is determined whether or not the input audio signal is unvoiced (including non-voiced sound). If the input audio signal is unvoiced, the following steps S2 to S6 are not performed, and the input audio signal is output as it is. Become. In this case,
As the SMS analysis, pitch synchronous analysis that changes the analysis window width according to the pitch in the previous frame is employed.
【0007】[2.2] ステップS2 次に入力音声信号が有声音である場合には、抽出した正
弦波成分からさらに元属性(Attribute)データである
ピッチ(Pitch)、アンプ(Amplitude)及びスペクトラ
ル・シェイプ(Spectral Shape)を抽出する。さらに抽
出したピッチ及びアンプについては、ビブラート成分及
びビブラート成分以外の他の成分に分離する。[2.2] Step S2 Next, when the input voice signal is a voiced sound, pitch (Pitch), amplifier (Amplitude) and spectral which are original attribute data are further extracted from the extracted sine wave component. -Extract a shape (Spectral Shape). Further, the extracted pitch and amplifier are separated into a vibrato component and components other than the vibrato component.
【0008】[2.3] ステップS3 予め記憶(保存)してあるものまねの対象(Target)と
なる歌唱者の属性データ(ターゲット属性データ=ピッ
チ、アンプ及びスペクトラル・シェイプ)から、ものま
ねをしようとする歌唱者(me)の入力音声信号のフレー
ムに対応するフレームのターゲット属性データ(=ピッ
チ、アンプ及びスペクトラル・シェイプ)を取り出す。
この場合において、ものまねをしようとする歌唱者(m
e)の入力音声信号のフレームに対応するフレームのタ
ーゲット属性データが存在しない場合には、後に詳述す
るように、予め定めたイージーシンクロナイゼーション
規則(Easy Synchronization Rule)に従って、ターゲ
ット属性データを生成し、同様の処理を行う。[2.3] Step S3 Attempt to imitate from the singer's attribute data (target attribute data = pitch, amplifier and spectral shape) which is stored (saved) in advance and is the target of imitation (Target). The target attribute data (= pitch, amplifier, and spectral shape) of the frame corresponding to the frame of the input voice signal of the singer (me) to be extracted is extracted.
In this case, the singer trying to imitate (m
If target attribute data of a frame corresponding to the frame of the input audio signal of e) does not exist, target attribute data is generated in accordance with a predetermined Easy Synchronization Rule, as described in detail later. Then, the same processing is performed.
【0009】[2.4] ステップS4 次にものまねをしようとする歌唱者(me)に対応する元
属性データ及びものまねの対象となる歌唱者に対応する
ターゲット属性データを適宜選択して組み合わせること
により、新しい属性データ(新属性データ=ピッチ、ア
ンプ及びスペクトラル・シェイプ)を得る。なお、もの
まねではなく、単なる音声変換として用いる場合には、
元属性データ及びターゲット属性データの加算平均とし
て新属性データを得るなどの元属性データ及びターゲッ
ト属性データの双方に基づいて計算により新属性データ
を得るようにすることも可能である。[2.4] Step S4 The original attribute data corresponding to the singer (me) to be imitated next and the target attribute data corresponding to the singer to be imitated are appropriately selected and combined. , New attribute data (new attribute data = pitch, amplifier, and spectral shape). In addition, when using as a simple voice conversion instead of imitation,
It is also possible to obtain new attribute data by calculation based on both the original attribute data and the target attribute data, such as obtaining the new attribute data as an average of the original attribute data and the target attribute data.
【0010】[2.5] ステップS5 つづいて得られた新属性データに基づいて、当該フレー
ムの正弦波成分を求める。 [2.6] ステップS6 そして求めた正弦波成分と、ステップS1で求めた残差
成分あるいは予め記憶(保存)してあるものまねの対象
(Target)となる歌唱者の残差成分のいずれか一方と、
に基づいて逆FFTを行い、変換音声信号を得る。[2.5] Step S5 A sine wave component of the frame is determined based on the new attribute data obtained in the subsequent step. [2.6] Step S6 Then, one of the sine wave component obtained and the residual component obtained in step S1 or the residual component of the singer to be a target (Target) to be imitated in advance (preserved). When,
To obtain a converted audio signal.
【0011】[2.7] まとめ これらの処理の結果得られる変換音声信号によれば、再
生される音声は、物まねをしようとする歌唱者の歌声
が、あたかも、別の歌唱者(ターゲットの歌唱者)が歌
った歌声のようになる。[2.7] Conclusion According to the converted voice signal obtained as a result of these processes, the reproduced voice is as if the singing voice of the singer trying to imitate is different from that of another singer (the target singing voice). Person) sings like a singer.
【0012】[3] 実施形態の詳細構成 図1及び図2に、実施形態の詳細構成図を示す。なお、
本実施形態は、本発明による音声変換装置(音声変換方
法)をカラオケ装置に適用し、ものまねを行うことがで
きるカラオケ装置として構成した場合の例である。[3] Detailed Configuration of the Embodiment FIGS. 1 and 2 show detailed configuration diagrams of the embodiment. In addition,
The present embodiment is an example in which the voice conversion device (voice conversion method) according to the present invention is applied to a karaoke device and configured as a karaoke device that can perform imitation.
【0013】図1において、マイク1は、ものまねをし
ようとする歌唱者(me)の声を収集し、入力音声信号S
vとして入力音声信号切出部3に出力する。これと並行
して、分析窓生成部2は、前回のフレームで検出したピ
ッチの周期の固定倍(例えば、3.5倍など)の周期を
有する分析窓(例えば、ハミング窓)AWを生成し、入
力音声信号切出部3に出力する。なお、初期状態あるい
は前回のフレームが無声音(含む無音)の場合には、予
め設定した固定周期の分析窓を分析窓AWとして入力音
声信号切出部3に出力する。In FIG. 1, a microphone 1 collects the voice of a singer (me) trying to imitate, and
It is output to the input audio signal cutout unit 3 as v. In parallel with this, the analysis window generation unit 2 generates an analysis window (for example, a Hamming window) AW having a period that is a fixed multiple (for example, 3.5 times) of the period of the pitch detected in the previous frame. Is output to the input audio signal cutout unit 3. When the initial state or the previous frame is an unvoiced sound (including silence), an analysis window having a fixed period set in advance is output to the input audio signal cutout unit 3 as the analysis window AW.
【0014】これらにより入力音声信号切出部3は、入
力された分析窓AWと入力音声信号Svとを掛け合わ
せ、入力音声信号Svをフレーム単位で切り出し、フレ
ーム音声信号FSvとして高速フーリエ変換部4に出力
される。Thus, the input audio signal extracting section 3 multiplies the input analysis window AW by the input audio signal Sv, cuts out the input audio signal Sv in units of frames, and converts the input audio signal Sv into a frame audio signal FSv as a fast Fourier transform section 4. Is output to
【0015】より具体的には、入力音声信号Svとフレ
ームとの関係は、図3に示すようになっており、各フレ
ームFLは、前のフレームFLと一部重なるように設定
されている。そして、高速フーリエ変換部4においてフ
レーム音声信号FSvは、解析処理されるとともに、図
4に示すように、高速フーリエ変換部4の出力である周
波数スペクトルからピーク検出部5によりローカルピー
クが検出される。More specifically, the relationship between the input audio signal Sv and the frames is as shown in FIG. 3, and each frame FL is set so as to partially overlap the previous frame FL. Then, the frame audio signal FSv is analyzed in the fast Fourier transform unit 4, and a local peak is detected by the peak detecting unit 5 from the frequency spectrum output from the fast Fourier transform unit 4, as shown in FIG. .
【0016】より具体的には、図4に示すような周波数
スペクトルに対して、×印を付けたローカルピークを検
出する。このローカルピークは、周波数値とアンプ(振
幅)値の組み合わせとして表される。すなわち、図4に
示すように、(F0、A0)、(F1、A1)、(F
2、A2)、……、(FN、AN)というように各フレ
ームについてローカルピークが検出され、表されること
となる。More specifically, a local peak marked with x is detected in the frequency spectrum as shown in FIG. This local peak is represented as a combination of a frequency value and an amplifier (amplitude) value. That is, as shown in FIG. 4, (F0, A0), (F1, A1), (F
Local peaks are detected and represented for each frame, such as (2, A2),..., (FN, AN).
【0017】そして、図3に模式的に示すように、各フ
レーム毎に一組(以下、ローカルピーク組という。)と
して無声/有声検出部6及びピーク連携部8に出力され
る。無声/有声検出部6は、入力されたフレーム毎のロ
ーカルピークに基づいて、高周波成分の大きさに応じて
無声であることを検出(‘t’、‘k’等)し、無声/
有声検出信号U/Vmeをピッチ検出部7、イージーシン
クロナイゼーション処理部22及びクロスフェーダ部3
0に出力する。あるいは、時間軸上で単位時間あたりの
零クロス数に応じて無声であることを検出(‘s’等)
し、元無声/有声検出信号U/Vmeをピッチ検出部7、
イージーシンクロナイゼーション処理部22及びクロス
フェーダ部30に出力する。Then, as schematically shown in FIG. 3, one set (hereinafter referred to as a local peak set) is output to the unvoiced / voiced detection unit 6 and the peak coordination unit 8 for each frame. The unvoiced / voiced detection unit 6 detects that the voice is unvoiced ('t', 'k', etc.) according to the magnitude of the high-frequency component based on the input local peak for each frame.
The voiced detection signal U / Vme is supplied to a pitch detection unit 7, an easy synchronization processing unit 22, and a crossfader unit 3.
Output to 0. Alternatively, it is detected that there is no voice according to the number of zero crosses per unit time on the time axis ('s', etc.)
Then, the original unvoiced / voiced detection signal U / Vme is converted to a pitch detection unit 7,
The signals are output to the easy synchronization processing unit 22 and the crossfader unit 30.
【0018】さらに無声/有声検出部6は、入力された
フレームについて無声であると検出されなかった場合に
は、入力されたローカルピーク組をそのまま、ピッチ検
出部7に出力する。ピッチ検出部7は、入力されたロー
カルピーク組に基づいて、当該ローカルピーク組が対応
するフレームのピッチPmeを検出する。Further, the unvoiced / voiced detecting section 6 outputs the inputted local peak set to the pitch detecting section 7 as it is when the input frame is not detected as unvoiced. The pitch detector 7 detects the pitch Pme of the frame corresponding to the local peak set based on the input local peak set.
【0019】より具体的なフレームのピッチPmeの検出
方法としては、例えば、Maher,R.C.andJ.W.Beauchamp:"
Fundamental Frequency Estimation of Musical Signal
using a two-way Mismatch Procedure"(Journal of A
counstical Society of America95(4):2254-2263)に開
示されているような方法で行う。As a more specific method of detecting the pitch Pme of a frame, for example, Maher, RCand J.W. Beauchamp: "
Fundamental Frequency Estimation of Musical Signal
using a two-way Mismatch Procedure "(Journal of A
counstical Society of America95 (4): 2254-2263).
【0020】次に、ピーク検出部5から出力されたロー
カルピーク組は、ピーク連携部8において、前後のフレ
ームについて連携が判断され、連携すると認められるロ
ーカルピークについては、一連のデータ列となるように
ローカルピークをつなげる連携処理がなされる。Next, in the local peak set output from the peak detecting section 5, the link is determined for the preceding and succeeding frames in the peak linking section 8, and the local peaks recognized to be linked are formed into a series of data strings. A linking process for connecting a local peak to the data is performed.
【0021】ここで、この連携処理について、図5を参
照して説明する。今、図5(A)に示すようなローカル
ピークが前回のフレームにおいて検出され、図5(B)
に示すようなローカルピークが今回のフレームにおいて
検出されたとする。Here, the cooperation processing will be described with reference to FIG. Now, a local peak as shown in FIG. 5A is detected in the previous frame, and FIG.
It is assumed that a local peak as shown in FIG.
【0022】この場合、ピーク連携部8は、前回のフレ
ームで検出された各ローカルピーク(F0、A0)、
(F1、A1)、(F2、A2)、……、(FN、A
N)に対応するローカルピークが今回のフレームでも検
出されたか否かを調べる。対応するローカルピークがあ
るか否かの判断は、前回のフレームで検出されたローカ
ルピークの周波数を中心にした所定範囲内に今回のフレ
ームのローカルピークが検出されるか否かによって行わ
れる。In this case, the peak coordinating unit 8 calculates each local peak (F0, A0) detected in the previous frame,
(F1, A1), (F2, A2), ..., (FN, A
It is checked whether the local peak corresponding to N) has been detected in the current frame. The determination as to whether or not there is a corresponding local peak is made based on whether or not the local peak of the current frame is detected within a predetermined range centered on the frequency of the local peak detected in the previous frame.
【0023】より具体的には、図5の例では、ローカル
ピーク(F0、A0)、(F1、A1)、(F2、A
2)……については、対応するローカルピークが検出さ
れているが、ローカルピーク(FK、AK)については
(図5(A)参照)、対応するローカルピーク(図5
(B)参照)は検出されていない。More specifically, in the example of FIG. 5, the local peaks (F0, A0), (F1, A1), (F2, A
2)..., Corresponding local peaks are detected, but for local peaks (FK, AK) (see FIG. 5A), corresponding local peaks (FIG.
(See (B)) is not detected.
【0024】ピーク連携部8は、対応するローカルピー
クを検出した場合は、それらを時系列順に繋げて一組の
データ列として出力する。なお、対応するローカルピー
クが検出されない場合は、当該フレームについての対応
ローカルピークは無しということを示すデータに置き換
える。ここで、図6は、複数のフレームにわたるローカ
ルピークの周波数F0及び周波数F1の変化の一例を示
している。When the corresponding local peaks are detected, the peak linking unit 8 connects the local peaks in chronological order and outputs them as a set of data strings. If the corresponding local peak is not detected, the data is replaced with data indicating that there is no corresponding local peak for the frame. Here, FIG. 6 shows an example of changes in the frequency F0 and the frequency F1 of the local peak over a plurality of frames.
【0025】このような変化は、アンプ(振幅)A0、
A1、A2、……についても同様に認められる。この場
合、ピーク連携部8から出力されるデータ列は、フレー
ムの間隔おきに出力される離散的な値である。なお、ピ
ーク連携部8から出力されるピーク値を、以後におい
て、確定成分という。これは、元の信号(すなわち、音
声信号Sv)のうち正弦波の要素として確定的に置き換
えられる成分という意味である。また、置き換えられた
各正弦波(厳密には、正弦波のパラメータである周波数
及びアンプ(振幅))の各々については、正弦波成分と
呼ぶことにする。Such a change is caused by the amplifier (amplitude) A0,
A1, A2,... Are similarly recognized. In this case, the data string output from the peak linking unit 8 is a discrete value output at every frame interval. The peak value output from the peak linking unit 8 is hereinafter referred to as a deterministic component. This means a component that is deterministically replaced as a sine wave element in the original signal (that is, the audio signal Sv). Further, each of the replaced sine waves (strictly speaking, frequency and amplifier (amplitude) which are parameters of the sine wave) will be referred to as sine wave components.
【0026】次に、補間合成部9は、ピーク連携部8か
ら出力される確定成分について補間処理を行い、補間後
の確定成分に基づいていわゆるオシレータ方式で波形合
成を行う。この場合の補間の間隔は、後述する出力部3
4が出力する最終出力信号のサンプリングレート(例え
ば、44.1KHz)に対応した間隔で行われる。前述
した図6に示す実線は、正弦波成分の周波数F0、F1
について補間処理が行われた場合のイメージを示してい
る。Next, the interpolation synthesizing unit 9 performs an interpolation process on the deterministic component output from the peak linking unit 8, and synthesizes a waveform by a so-called oscillator method based on the deterministic component after the interpolation. The interpolation interval in this case is determined by the output unit 3 described later.
4 is performed at intervals corresponding to the sampling rate (for example, 44.1 KHz) of the final output signal output. The solid lines shown in FIG. 6 described above are the frequencies F0 and F1 of the sine wave components.
5 shows an image when the interpolation processing is performed for.
【0027】[3.1] 補間合成部の構成 ここで、補間合成部9の構成を図7に示す。補間合成部
9は、複数の部分波形発生部9aを備えて構成されてお
り、各部分波形発生部9aは、指定された正弦波成分の
周波数(F0、F1、…)およびアンプ(振幅)に応じ
た正弦波を発生する。ただし、本第1実施形態における
正弦波成分(F0、A0)、(F1、A1)、(F2、
A2)、……は、各々補間の間隔に従って時事刻々変化
していくものであるから、各部分波形発生部9aから出
力される波形は、その変化に従った波形になる。[3.1] Configuration of Interpolation Synthesis Unit The configuration of the interpolation synthesis unit 9 is shown in FIG. The interpolation / synthesis unit 9 includes a plurality of partial waveform generation units 9a, and each of the partial waveform generation units 9a adjusts a frequency (F0, F1,...) And an amplifier (amplitude) of a designated sine wave component. Generates a corresponding sine wave. However, the sine wave components (F0, A0), (F1, A1), (F2,
Since A2),... Change every moment according to the interpolation interval, the waveform output from each partial waveform generator 9a becomes a waveform according to the change.
【0028】すなわち、ピーク連携部8からは正弦波成
分(F0、A0)、(F1、A1)、(F2、A2)、
……が順次出力され、各正弦波成分の各々について補間
処理が行われるから、各部分波形発生部9aは、所定の
周波数領域内で周波数と振幅が変動する波形を出力す
る。そして、各部分波形発生部9aから出力された波形
は、加算部9bにおいて加算合成される。したがって、
補間合成部9の出力信号は、入力音声信号Svから確定
成分を抽出した正弦波成分合成信号SSSになる。That is, the sine wave components (F0, A0), (F1, A1), (F2, A2),
Are sequentially output and interpolation processing is performed on each of the sine wave components, so that each partial waveform generating section 9a outputs a waveform whose frequency and amplitude fluctuate within a predetermined frequency region. Then, the waveforms output from the respective partial waveform generators 9a are added and synthesized in an adder 9b. Therefore,
The output signal of the interpolation / synthesis unit 9 is a sine wave component synthesized signal SSS obtained by extracting a deterministic component from the input audio signal Sv.
【0029】[3.1.1] 補間合成部9のデータ構
成 ここで、補間合成部9におけるデータ構成について説明
する。補間合成部9は各部分成分について周波数とアン
プのペアをN+1組有しており、高い精度でこれらのデ
ータを記憶しようとすると、膨大なメモリ容量が必要に
なる。一方、データの有効桁を少なくする等の手法によ
り精度を下げると、音声信号の忠実度も下がる。[3.1.1] Data Configuration of Interpolation / Synthesis Unit 9 Here, the data configuration in the interpolation / synthesis unit 9 will be described. The interpolation / synthesis unit 9 has N + 1 pairs of frequency and amplifier for each partial component. To store these data with high accuracy, an enormous memory capacity is required. On the other hand, if the accuracy is reduced by a method such as reducing the effective digits of data, the fidelity of the audio signal is also reduced.
【0030】一方、人間の音声信号の性質として、各部
分成分の周波数は、ピッチ周波数のほぼ整数倍になる。
そこで、この性質を利用して、ピッチ周波数の整数倍の
値と各部分成分の周波数との相違に着目すれば、少ない
メモリ容量で忠実な再生が可能であると考えられる。具
体的には、以下に述べる何れかの方法、またはこれらの
組み合わせを採用すると好適である。On the other hand, as a property of a human voice signal, the frequency of each partial component is almost an integral multiple of the pitch frequency.
Therefore, by utilizing this property and paying attention to the difference between a value of an integer multiple of the pitch frequency and the frequency of each partial component, it is considered that faithful reproduction can be performed with a small memory capacity. Specifically, it is preferable to employ any of the methods described below or a combination thereof.
【0031】(1)差分を記憶する方法 周波数Fk(但しk=0〜N)は、以下のように表わすこと
ができる。 Fk=F0×k+dFk ここで、F0×kは、ピッチ周波数の整数倍の値であり、
dFkは、この整数倍の値と実際の周波数Fkとの差分値
である。実際に周波数Fkを記憶せず、差分値dFkを記
憶しておくことにより、周波数Fkを記憶するためのメ
モリ容量を削減することができる。但し、差分値dFkの
取りうる可能性のある値の最小値および最大値は、値
「k」に比例して増加する。(1) Method for storing the difference The frequency Fk (where k = 0 to N) can be expressed as follows. Fk = F0 × k + dFk Here, F0 × k is a value of an integral multiple of the pitch frequency,
dFk is a difference value between the value of this integral multiple and the actual frequency Fk. By storing the difference value dFk instead of actually storing the frequency Fk, the memory capacity for storing the frequency Fk can be reduced. However, the minimum and maximum possible values of the difference value dFk increase in proportion to the value “k”.
【0032】(2)比率を記憶する方法 周波数Fk(但しk=0〜N)は、以下の式によっても表わ
すことができる。 Fk=F0×k×rFk ここで、rFkは、ピッチ周波数の整数倍の値F0×kと
実際の周波数Fkとの比率である。そこで、実際に周波
数Fkを記憶せず、比率rFkを記憶しておくことによ
り、周波数Fkを記憶するためのメモリ容量を削減する
ことができる。この比率rFkは、値「k」に関係なくほ
ぼ一定である点で上述した差分値dFkよりも扱いが容易
である。(2) Method of storing the ratio The frequency Fk (where k = 0 to N) can also be expressed by the following equation. Fk = F0 × k × rFk Here, rFk is a ratio between a value F0 × k, which is an integral multiple of the pitch frequency, and the actual frequency Fk. Thus, by storing the ratio rFk without actually storing the frequency Fk, the memory capacity for storing the frequency Fk can be reduced. This ratio rFk is easier to handle than the difference value dFk described above in that it is substantially constant regardless of the value “k”.
【0033】ここで、上記各周波数Fkの採りうる範囲
は50Hz〜10kHz程度確保しておけば充分である。
一方、比率rFkの範囲は個人差があるが、本発明者らが
観測したところによれば、1音程(100セント)程度
確保しておけば大部分の人の音声を忠実に再現すること
ができる。また、比率rFkの精度は1セント程度確保し
ておけば充分である。Here, it is sufficient to secure the range in which each of the frequencies Fk can be taken is about 50 Hz to 10 kHz.
On the other hand, although the range of the ratio rFk varies from person to person, according to observations by the present inventors, it is possible to faithfully reproduce most human voices if one pitch (about 100 cents) is secured. it can. It is sufficient to secure the accuracy of the ratio rFk of about one cent.
【0034】(3)比率を対数値で記憶する方法 上記比率rFkを記憶する際、これを対数値に変換してお
くと、メモリ容量を一層削減することができる。この対
数値cFkとして「セント」を用いるとすれば、対数値c
Fkは下式により求まる。 cFk=1200×log2(rFk) 具体的には、対数値cFkによって+/−100セントの
範囲を1セントの精度で表現するためには、対数値cFk
を8ビットで記憶させるとよい。(3) Method of Storing Ratio as Logarithmic Value When storing the ratio rFk, if this ratio is converted to a logarithmic value, the memory capacity can be further reduced. If "cent" is used as the logarithmic value cFk, the logarithmic value c
Fk is obtained by the following equation. cFk = 1200 × log2 (rFk) Specifically, in order to express the range of +/− 100 cents with an accuracy of 1 cent by the logarithmic value cFk, the logarithmic value cFk
May be stored in 8 bits.
【0035】(4)一部の周波数Fkの記憶を省略する
方法 この方法は、上記方法(1)〜(3)の何れかの方法と組み
合わせて採られうる方法である。上記方法(1)〜(3)に
おいては、「(N+1)個」の差分値dFk、比率rFkま
たは対数値cFkが必要であると考えられる。しかし、本
発明者らの実験によれば、一部の周波数Fkについては
ピッチ周波数F0の整数倍であると仮定したとしても音
質上の劣化が少ないことが判明した。かかる部分成分に
おいては、周波数Fkとしてピッチ周波数F0の整数倍の
値を用いることができ、対数値cFk等を記憶する必要が
無くなる。(4) Method of omitting storage of some frequencies Fk This method is a method that can be adopted in combination with any of the above methods (1) to (3). In the above methods (1) to (3), it is considered that “(N + 1)” difference values dFk, ratio rFk, or logarithmic value cFk are required. However, according to experiments by the present inventors, it has been found that the sound quality does not deteriorate much even if it is assumed that some frequencies Fk are integral multiples of the pitch frequency F0. In such a partial component, a value that is an integral multiple of the pitch frequency F0 can be used as the frequency Fk, and there is no need to store a logarithmic value cFk or the like.
【0036】方法(3),(4)を組み合わせて採用するこ
とを想定すると、周波数Fkを忠実に再現すべき部分成
分は、以下の方法(4.1)〜(4.3)を採用して決定
することができる。なお、方法(4.1)〜(4.3)は
単独で用いてもよく、組み合わせで用いてもよい。 (4.1)再現数M(但しM<N+1)を予め決定してお
き、対数値cFkの大きい順にM個の部分成分を選択す
る。 (4.2)対数値cFkに対してスレッショルド値を決定し
ておき、対数値cFkが該スレッショルド値を超えた部分
成分を選択する。 (4.3)アンプの大きさが所定の条件(例えば最大のA
kに対して−30dBよりも大きい値)を満たす部分成
分を選択する。Assuming that the methods (3) and (4) are used in combination, the following components (4.1) to (4.3) are used as the partial components for faithfully reproducing the frequency Fk. Can be determined. In addition, the methods (4.1) to (4.3) may be used alone or in combination. (4.1) The reproduction number M (where M <N + 1) is determined in advance, and M partial components are selected in ascending order of the logarithmic value cFk. (4.2) A threshold value is determined for the logarithmic value cFk, and a partial component whose logarithmic value cFk exceeds the threshold value is selected. (4.3) The size of the amplifier is a predetermined condition (for example, the maximum A
A partial component that satisfies (a value greater than −30 dB with respect to k) is selected.
【0037】以上のように選択された部分成分に係る周
波数情報をM個記憶する場合、メモリの所定の領域に値
Mを記憶し、何番目の成分に対応するかを示す値kと、
周波数を特定するための情報(上記対数値cFk等)とを
M組記憶するとよい。かかる方法は、部分成分数N+1
よりも再現数Mがかなり小さい場合に特に有効である。When M pieces of frequency information relating to the partial components selected as described above are stored, a value M is stored in a predetermined area of the memory, and a value k indicating the order of the component,
It is preferable to store M sets of information for specifying the frequency (the logarithmic value cFk and the like). This method uses the number of partial components N + 1.
This is particularly effective when the reproduction number M is much smaller than the reproduction number M.
【0038】(5)アンプAkの記憶方法 この方法は、上記方法(4)またはこれと方法(1)〜(3)
とを組み合わせて採られうる方法である。本実施形態に
おいては、上述したように各部分成分に対してアンプA
kが記憶される。各アンプAkに対して1バイト(8ビッ
ト)を割り当て、データの精度を1dBにすると、アン
プAkは256dBのダイナミックレンジを有すること
になる。しかし、実際にはこのように広いダイナミック
レンジは不要であり、128dB程度確保できれば充分
である。(5) Method for storing the amplifier Ak This method is the same as the method (4) or the method (1) to (3).
Is a method that can be adopted in combination with the above. In the present embodiment, as described above, the amplifier A
k is stored. If one byte (8 bits) is assigned to each amplifier Ak and the data accuracy is 1 dB, the amplifier Ak has a dynamic range of 256 dB. However, in practice, such a wide dynamic range is not required, and it is sufficient to secure about 128 dB.
【0039】通常のコンピュータにおいては、データ長
を8ビット単位で設定するため、アンプAkに7ビット
を割り当てて128dBのダイナミックレンジを確保す
ると、1ビット余剰が生じることになる。そこで、この
1ビットにおいて、周波数を特定するための情報(上記
対数値cFk等)が存在するか否かを示すことにする。以
下、この情報をフラグxkというIn a normal computer, since the data length is set in units of 8 bits, if 7 bits are allocated to the amplifier Ak and a dynamic range of 128 dB is secured, one bit surplus occurs. Therefore, this one bit indicates whether or not there is information (for example, the logarithmic value cFk) for specifying the frequency. Hereinafter, this information is referred to as a flag xk.
【0040】そうすると、何番目の成分に対応するかを
示す値kを記憶するために独立の記憶領域を設ける必要
が無くなるため、メモリ容量を一層削減することができ
る。なお、アンプAkのデシベル値の表現の仕方につい
ても種々の態様が考えられる。例えば、アンプAkのう
ち最大値を0dBとして、0〜−127dBの範囲で表
現してもよい。また、最大値が0dBを超えた値を持つ
場合、あるいは、必要なダイナミックレンジが狭く高い
分解能が望まれる場合は、下式によりアンプnAkを求
め、アンプAkに代えてアンプnAkを記憶してもよい。 nAk=α・(Ak+β)In this case, it is not necessary to provide an independent storage area for storing the value k indicating the order of the component, so that the memory capacity can be further reduced. It should be noted that various modes are conceivable for expressing the decibel value of the amplifier Ak. For example, assuming that the maximum value of the amplifier Ak is 0 dB, it may be expressed in a range of 0 to -127 dB. When the maximum value has a value exceeding 0 dB, or when the required dynamic range is narrow and a high resolution is desired, the amplifier nAk is obtained by the following equation, and the amplifier nAk is stored instead of the amplifier Ak. Good. nAk = α · (Ak + β)
【0041】すなわち、上式においてアンプnAkが0
〜127の範囲に収まるようにα又はβを決定するとよ
い。例として必要なダイナミックレンジが+20dB〜
−40dBであった場合、α=−127/60、β=−
20とすると、アンプAkが20dBの時はnAk=0、
アンプAkが−40dBの時はnAk=127となり、記
憶エリアを有効に利用できる。αおよびβの値は予め決
定しておき固定値にしてもよく、状況に応じて変化させ
たい場合は一方、または双方の値もデータ列に加える等
の措置により、可変にしてもよい。但し、上記の方法に
おいて0〜127の範囲を超えたデータが存在した場合
は、その範囲に入るように、0以下の値は0に、127
以上の値は127に揃えることは必要であろう。That is, in the above equation, the amplifier nAk is 0
Α or β may be determined so as to fall within the range of ~ 127. As an example, the required dynamic range is + 20dB ~
In the case of −40 dB, α = −127 / 60, β = −
If n = 20, nAk = 0 when the amplifier Ak is 20 dB,
When the amplifier Ak is −40 dB, nAk = 127, and the storage area can be used effectively. The values of α and β may be determined in advance and set to fixed values. If it is desired to change them according to the situation, one or both of them may be made variable by taking measures such as adding them to the data string. However, if there is data exceeding the range of 0 to 127 in the above method, a value of 0 or less is set to 0 so that the data falls within the range.
The above values will need to be aligned to 127.
【0042】(6)まとめ 上記方法(3)、(4)および(5)を総合すると、周波数F
kを忠実に再現すべき正弦波成分においては、アンプAk
(7ビット)と、フラグxk(1ビット)と、対数値cF
k(8ビット)とによって合計16ビットのメモリ容量
が必要になる。また、周波数Fkをピッチ周波数F0の整
数倍に近似して良い場合は、アンプAk(7ビット)
と、フラグxk(1ビット)とによって合計8ビットの
メモリ容量が必要になる。一般的な浮動小数点データは
32ビット長が必要であるから、アンプAkおよび周波
数Fkを合わせると、正弦波成分あたり64ビットが必
要になる。本実施形態においては、これを8〜16ビッ
トに削減できるから、所要メモリ容量は1/8〜1/4
程度に削減することが可能である。(6) Conclusion The above methods (3), (4) and (5) are combined to find that the frequency F
For a sine wave component that should faithfully reproduce k, the amplifier Ak
(7 bits), flag xk (1 bit), and logarithmic value cF
With k (8 bits), a total memory capacity of 16 bits is required. If the frequency Fk can be approximated to an integral multiple of the pitch frequency F0, the amplifier Ak (7 bits)
And a flag xk (1 bit), a total memory capacity of 8 bits is required. Since general floating-point data requires a 32-bit length, combining the amplifier Ak and the frequency Fk requires 64 bits per sine wave component. In the present embodiment, since this can be reduced to 8 to 16 bits, the required memory capacity is 1/8 to 1/4.
It is possible to reduce to the extent.
【0043】[3.2] 残差成分検出部の動作 次に、残差成分検出部10は、補間合成部9から出力さ
れた正弦波成分合成信号SSSと入力音声信号Svとの偏
差である残差成分信号SRD(時間波形)を生成する。こ
の残差成分信号SRDは、音声に含まれる無声成分を多く
含む。一方、前述の正弦波成分合成信号SSSは有声成分
に対応するものである。ところで、目標(Target)とな
る歌唱者の声に似せるには、有声音についてだけ処理を
行えば、無声音については処理を施す必要はあまりな
い。そこで、本実施形態においては、有声母音成分に対
応する確定成分について音声変換処理を行うようにして
いる。より具体的には、残差成分信号SRDについては、
高速フーリエ変換部11で、周波数波形に変換し、得ら
れた残差成分信号(周波数波形)をRme(f)として残差
成分保持部12に保持しておく。[3.2] Operation of Residual Component Detecting Unit Next, the residual component detecting unit 10 calculates the deviation between the sine wave component synthesized signal SSS output from the interpolation synthesizing unit 9 and the input audio signal Sv. A residual component signal SRD (time waveform) is generated. This residual component signal SRD contains a lot of unvoiced components included in the voice. On the other hand, the above-mentioned sine wave component composite signal SSS corresponds to a voiced component. By the way, in order to resemble the voice of the singer who becomes the target (Target), if only the voiced sound is processed, it is not necessary to process the unvoiced sound. Therefore, in the present embodiment, speech conversion processing is performed on a deterministic component corresponding to a voiced vowel component. More specifically, regarding the residual component signal SRD,
The fast Fourier transform unit 11 converts the signal into a frequency waveform, and the obtained residual component signal (frequency waveform) is stored in the residual component storage unit 12 as Rme (f).
【0044】[3.3] 平均アンプ演算部の動作 一方、図8(A)に示すように、ピーク検出部5からピ
ーク連携部8を介して出力された正弦波成分(F0、A
0)、(F1、A1)、(F2、A2)、……、(F(N
-1)、A(N-1))のN個の正弦波成分(以下、これらをま
とめてFn、Anと表記する。n=0〜(N−1)。)
は、正弦波成分保持部13に保持されるとともに、アン
プAnは平均アンプ演算部14に入力され、各フレーム
毎に次式により平均アンプAmeが算出される。 Ame=Σ(An)/N[3.3] Operation of Average Amplifier Operation Unit On the other hand, as shown in FIG. 8A, sine wave components (F0, A) output from the peak detection unit 5 via the peak linking unit 8
0), (F1, A1), (F2, A2),..., (F (N
-1), A (N-1)) N sine wave components (hereinafter, these are collectively referred to as Fn and An. N = 0 to (N-1).)
Is held in the sine wave component holding unit 13, and the amplifier An is input to the average amplifier operation unit 14, and the average amplifier Ame is calculated for each frame by the following equation. Ame = Σ (An) / N
【0045】[3.4] アンプ正規化部の動作 次にアンプ正規化部15において、次式により各アンプ
Anを平均アンプAmeで正規化し、正規化アンプA’n
を求める。 A’n=An/Ame[3.4] Operation of Amplifier Normalization Unit Next, in the amplifier normalization unit 15, each amplifier An is normalized by the average amplifier Ame according to the following equation, and the normalized amplifier A'n
Ask for. A'n = An / Ame
【0046】[3.5] スペクトラル・シェイプ演算
部の動作 そして、スペクトラル・シェイプ演算部16において、
図8(B)に示すように、周波数Fn及び正規化アンプ
A’nにより得られる正弦波成分(Fn、A’n)をブ
レークポイントとするエンベロープ(包絡線)をスペク
トラル・シェイプSme(f)として生成する。この場合に
おいて、二つのブレークポイント間の周波数におけるア
ンプの値は、当該二つのブレークポイントを、例えば、
直線補間することにより算出する。なお、補間の方法は
直線補間に限られるものではない。[3.5] Operation of Spectral Shape Calculation Unit The spectral shape calculation unit 16
As shown in FIG. 8B, an envelope (envelope) having a sine wave component (Fn, A'n) obtained by the frequency Fn and the normalizing amplifier A'n as a break point has a spectral shape Sme (f). Generate as In this case, the value of the amplifier at the frequency between the two breakpoints,
It is calculated by linear interpolation. The method of interpolation is not limited to linear interpolation.
【0047】[3.6] ピッチ正規化部の動作 続いてピッチ正規化部17においては、各周波数Fnを
ピッチ検出部7において検出したピッチPmeで正規化
し、正規化周波数F’nを求める。F’n=Fn/Pme
これらの結果、元フレーム情報保持部18は、入力音声
信号Svに含まれる正弦波成分に対応する元属性データ
である平均アンプAme、ピッチPme、スペクトラル・シ
ェイプSme(f)、正規化周波数F’nを保持することと
なる。[3.6] Operation of Pitch Normalization Unit Subsequently, the pitch normalization unit 17 normalizes each frequency Fn with the pitch Pme detected by the pitch detection unit 7 to obtain a normalized frequency F'n. F'n = Fn / Pme
As a result, the original frame information holding unit 18 outputs the average amplifier Ame, the pitch Pme, the spectral shape Sme (f), and the normalized frequency F ′, which are the original attribute data corresponding to the sine wave component included in the input audio signal Sv. n will be held.
【0048】なお、この場合において、正規化周波数
F’nは、倍音列の周波数の相対値を表しており、も
し、フレームの倍音構造を完全倍音構造であるとして取
り扱うならば、保持する必要はない。この場合におい
て、男声/女声変換を行おうとしている場合には、この
段階において、男声→女声変換を行う場合には、ピッチ
をオクターブ上げ、女声→男声変換を行う場合にはピッ
チをオクターブ下げる男声/女声ピッチ制御処理を行う
ようにするのが好ましい。In this case, the normalized frequency F'n represents the relative value of the frequency of the overtone sequence, and if the overtone structure of the frame is treated as a complete overtone structure, it is not necessary to hold it. Absent. In this case, if a male / female conversion is going to be performed, at this stage, the pitch is raised by an octave when the male to female conversion is performed, and the pitch is lowered by an octave when the female to male conversion is performed. It is preferable to perform a female voice pitch control process.
【0049】つづいて、元フレーム情報保持部18に保
持している元属性データのうち、平均アンプAmeおよび
ピッチPmeについては、さらに静的変化/ビブラート的
変化分離部19により、フィルタリング処理などを行っ
て、静的変化成分とビブラート変化的成分とに分離して
保持する。なお、さらにビブラート変化的成分からより
高周波変化成分であるジッタ変化的成分を分離するよう
に構成することも可能である。Subsequently, of the original attribute data held in the original frame information holding unit 18, the average amplifier Ame and the pitch Pme are further subjected to a filtering process and the like by the static change / vibrato change change separation unit 19. Thus, the static change component and the vibrato change component are separately held. In addition, it is also possible to configure so as to further separate a jitter variable component which is a higher frequency change component from a vibrato variable component.
【0050】より具体的には、平均アンプAmeを平均ア
ンプ静的成分Ame-sta及び平均アンプビブラート的成分
Ame-vibとに分離して保持する。また、ピッチPmeをピ
ッチ静的成分Pme-sta及びピッチビブラート的成分Pme
-vibとに分離して保持する。More specifically, the average amplifier Ame is separated into an average amplifier static component Ame-sta and an average amplifier vibrato component Ame-vib and held. The pitch Pme is defined as a pitch static component Pme-sta and a pitch vibrato-like component Pme.
-vib and keep separately.
【0051】これらの結果、対応するフレームの元フレ
ーム情報データINFmeは、図8(C)に示すように、
入力音声信号Svの正弦波成分に対応する元属性データ
である平均アンプ静的成分Ame-sta、平均アンプビブラ
ート的成分Ame-vib、ピッチ静的成分Pme-sta、ピッチ
ビブラート的成分Pme-vib、スペクトラル・シェイプS
me(f)、正規化周波数F’n及び残差成分Rme(f)の
形で保持されることとなる。As a result, the original frame information data INFme of the corresponding frame is, as shown in FIG.
Average amplifier static component Ame-sta, average amplifier vibrato component Ame-vib, pitch static component Pme-sta, pitch vibrato component Pme-vib, which are original attribute data corresponding to the sine wave component of the input audio signal Sv, Spectral Shape S
me (f), the normalized frequency F'n, and the residual component Rme (f).
【0052】一方、ものまねの対象(target)となる歌
唱者に対応するターゲット属性データから構成されるタ
ーゲットフレーム情報データINFtarは、予め分析さ
れてターゲットフレーム情報保持部20を構成するハー
ドディスクなどに予め保持されている。この場合におい
て、ターゲットフレーム情報データINFtarのうち、
正弦波成分に対応するターゲット属性データとしては、
平均アンプ静的成分Atar-sta、平均アンプビブラート
的成分Atar-vib、ピッチ静的成分Ptar-sta、ピッチビ
ブラート的成分Ptar-vib、スペクトラル・シェイプSt
ar(f)がある。On the other hand, the target frame information data INFtar composed of the target attribute data corresponding to the singer to be imitated (target) is analyzed in advance and stored in advance in a hard disk or the like constituting the target frame information storage unit 20. Have been. In this case, of the target frame information data INFtar,
As target attribute data corresponding to the sine wave component,
Average amplifier static component Atar-sta, average amplifier vibrato component Atar-vib, pitch static component Ptar-sta, pitch vibrato component Ptar-vib, spectral shape St
There is ar (f).
【0053】また、ターゲットフレーム情報データIN
Ftarのうち、残差成分に対応するターゲット属性デー
タとしては、残差成分Rtar(f)がある。The target frame information data IN
Among Ftar, target attribute data corresponding to the residual component includes a residual component Rtar (f).
【0054】[3.7] キーコントロール/テンポチ
ェンジ部の動作 次にキーコントロール/テンポチェンジ部21は、シー
ケンサ31からの同期信号SSYNCに基づいて、ターゲッ
トフレーム情報保持部20から同期信号SSYNCに対応す
るフレームのターゲットフレーム情報INFtarの読出
処理及び読み出したターゲットフレーム情報データIN
Ftarを構成するターゲット属性データの補正処理を行
うとともに、読み出したターゲットフレーム情報INF
tarおよび当該フレームが無声であるか有声であるかを
表すターゲット無声/有声検出信号U/Vtarを出力す
る。[3.7] Operation of Key Control / Tempo Change Unit Next, the key control / tempo change unit 21 responds to the synchronization signal SSYNC from the target frame information holding unit 20 based on the synchronization signal SSYNC from the sequencer 31. Of target frame information INFtar of the frame to be read and read target frame information data IN
The target attribute data constituting the Ftar is corrected, and the read target frame information INF is read.
It outputs tar and a target unvoiced / voiced detection signal U / Vtar indicating whether the frame is unvoiced or voiced.
【0055】より具体的には、キーコントロール/テン
ポチェンジ部21の図示しないキーコントロールユニッ
トは、カラオケ装置のキーを基準より上げ下げした場
合、ターゲット属性データであるピッチ静的成分Ptar-
sta及びピッチビブラート的成分Ptar-vibについても、
同じだけ上げ下げする補正処理を行う。例えば、50
[cent]だけキーを上げた場合には、ピッチ静的成分P
tar-sta及びピッチビブラート的成分Ptar-vibについて
も50[cent]だけ上げなければならない。More specifically, a key control unit (not shown) of the key control / tempo change unit 21 is configured such that when the key of the karaoke apparatus is raised or lowered from the reference, the pitch static component Ptar- which is the target attribute data.
For the sta and pitch vibrato-like components Ptar-vib,
A correction process for raising and lowering by the same amount is performed. For example, 50
When the key is raised by [cent], the pitch static component P
The tar-sta and pitch vibrato-like component Ptar-vib must also be increased by 50 [cent].
【0056】また、キーコントロール/テンポチェンジ
部21の図示しないテンポチェンジユニットは、カラオ
ケ装置のテンポを上げ下げした場合には、変更後のテン
ポに相当するタイミングで、ターゲットフレーム情報デ
ータINFtarの読み出し処理を行う必要がある。この
場合において、必要なフレームに対応するタイミングに
相当するターゲットフレーム情報データINFtarが存
在しない場合には、当該必要なフレームのタイミングの
前後のタイミングに存在する二つのフレームのターゲッ
トフレーム情報データINFtarを読み出し、これら二
つのターゲットフレーム情報データINFtarにより補
間処理を行い、当該必要なタイミングにおけるフレーム
のターゲットフレーム情報データINFtar、ひいて
は、ターゲット属性データを生成する。A tempo change unit (not shown) of the key control / tempo change unit 21 reads the target frame information data INFtar at a timing corresponding to the changed tempo when the tempo of the karaoke apparatus is raised or lowered. There is a need to do. In this case, if there is no target frame information data INFtar corresponding to the timing corresponding to the required frame, the target frame information data INFtar of the two frames existing before and after the timing of the required frame is read out. Interpolation is performed using these two pieces of target frame information data INFtar to generate target frame information data INFtar of the frame at the necessary timing, and furthermore, target attribute data.
【0057】この場合において、ビブラート的成分(平
均アンプビブラート的成分Atar-vib及びピッチビブラ
ート的成分Ptar-vib)に関しては、そのままでは、ビ
ブラートの周期自体が変化してしまい、不適当であるの
で、周期が変動しないような補間処理を行う必要があ
る。又は、ターゲット属性データとして、ビブラートの
軌跡そのものを表すデータではなく、ビブラート周期及
びビブラート深さのパラメータを保持し、実際の軌跡を
演算により求めるようにすれば、この不具合を回避する
ことができる。In this case, the vibrato-like components (average amp vibrato-like component Atar-vib and pitch vibrato-like component Ptar-vib) are unsuitable as they are, because the vibrato period itself changes and is unsuitable. It is necessary to perform interpolation processing so that the period does not change. Alternatively, this problem can be avoided by holding the parameters of the vibrato cycle and the vibrato depth instead of the data representing the vibrato trajectory itself as the target attribute data and calculating the actual trajectory by calculation.
【0058】[3.8] イージーシンクロナイゼーシ
ョン処理部の動作 次にイージーシンクロナイゼーション処理部22は、も
のまねをしようとする歌唱者のフレーム(以下、元フレ
ームという。)に元フレーム情報データINFmeが存在
するにもかかわらず、対応するものまねの対象となる歌
唱者のフレーム(以下、ターゲットフレームという。)
にターゲットフレーム情報データINFtarが存在しな
い場合には、当該ターゲットフレームの前後方向に存在
するフレームのターゲットフレーム情報データINFta
rを当該ターゲットフレームのターゲットフレーム情報
データINFtarとするイージーシンクロナイゼーショ
ン処理を行う。[3.8] Operation of Easy Synchronization Processing Unit Next, the easy synchronization processing unit 22 adds the original frame information data INFme to the frame of the singer who wants to imitate (hereinafter referred to as the original frame). Despite the presence of, the singer's frame that is the target of the corresponding singer (hereinafter referred to as the target frame)
If the target frame information data INFtar does not exist in the target frame, the target frame information data INFta
An easy synchronization process is performed using r as the target frame information data INFtar of the target frame.
【0059】そして、イージーシンクロナイゼーション
処理部22は、後述する置換済ターゲットフレーム情報
データINFtar-syncに含まれるターゲット属性データ
のうち正弦波成分に関するターゲット属性データ(平均
アンプ静的成分Atar-sync-sta、平均アンプビブラート
的成分Atar-sync-vib、ピッチ静的成分Ptar-sync-st
a、ピッチビブラート的成分Ptar-sync-vib及びスペク
トラル・シェイプStar-sync(f))を正弦波成分属性デ
ータ選択部23に出力する。Then, the easy synchronization processing section 22 outputs the target attribute data (average amplifier static component Atar-sync-) of the sine wave component among the target attribute data included in the replaced target frame information data INFtar-sync described later. sta, average amp vibrato component Atar-sync-vib, pitch static component Ptar-sync-st
a, a pitch vibrato-like component Ptar-sync-vib and a spectral shape Star-sync (f)) are output to the sine wave component attribute data selection unit 23.
【0060】また、イージーシンクロナイゼーション処
理部22は、後述する置換済ターゲットフレーム情報デ
ータINFtar-syncに含まれるターゲット属性データの
うち残差成分に関するターゲット属性データ(残差成分
Rtar-sync(f))を残差成分選択部25に出力する。Further, the easy synchronization processing unit 22 generates target attribute data (residual component Rtar-sync (f)) relating to the residual component among target attribute data included in the replaced target frame information data INFtar-sync to be described later. ) Is output to the residual component selector 25.
【0061】このイージーシンクロナイゼーション処理
部22における処理においても、ビブラート的成分(平
均アンプビブラート的成分Atar-vib及びピッチビブラ
ート的成分Ptar-vib)に関しては、そのままでは、ビ
ブラートの周期自体が変化してしまい、不適当であるの
で、周期が変動しないような補間処理を行う必要があ
る。又は、ターゲット属性データとして、ビブラートの
軌跡そのものを表すデータではなく、ビブラート周期及
びビブラート深さのパラメータを保持し、実際の軌跡を
演算により求めるようにすれば、この不具合を回避する
ことができる。In the processing by the easy synchronization processing section 22, the vibrato cycle itself changes with the vibrato-like components (average amp vibrato-like component Atar-vib and pitch vibrato-like component Ptar-vib) as they are. Therefore, it is necessary to perform interpolation processing so that the period does not change. Alternatively, this problem can be avoided by holding the parameters of the vibrato cycle and the vibrato depth instead of the data representing the vibrato trajectory itself as the target attribute data and calculating the actual trajectory by calculation.
【0062】[3.8.1] イージーシンクロナイゼ
ーション処理の詳細 ここで、図9及び図10を参照してイージーシンクロナ
イゼーション処理について詳細に説明する。図9は、イ
ージーシンクロナイゼーション処理のタイミングチャー
トであり、図10はイージーシンクロナイゼーション処
理フローチャートである。[3.8.1] Details of Easy Synchronization Process Here, the easy synchronization process will be described in detail with reference to FIGS. 9 and 10. FIG. 9 is a timing chart of the easy synchronization process, and FIG. 10 is a flowchart of the easy synchronization process.
【0063】まず、イージーシンクロナイゼーション処
理部22は、シンクロナイゼーション処理の方法を表す
シンクロナイゼーションモード=“0”とする(ステッ
プS11)。このシンクロナイゼーションモード=
“0”は、元フレームに対応するターゲットフレームに
ターゲットフレーム情報データINFtarが存在する通
常処理の場合に相当する。First, the easy synchronization processing section 22 sets a synchronization mode = "0" indicating a method of the synchronization processing (step S11). This synchronization mode =
“0” corresponds to a normal process in which the target frame information data INFtar exists in the target frame corresponding to the original frame.
【0064】そしてあるタイミングtにおける元無声/
有声検出信号U/Vme(t)が無声(U)から有声(V)
に変化したか否かを判別する(ステップS12)。例え
ば、図9に示すように、タイミングt=t1において
は、元無声/有声検出信号U/Vme(t)が無声(U)か
ら有声(V)に変化している。Then, the original silence at a certain timing t /
The voiced detection signal U / Vme (t) changes from unvoiced (U) to voiced (V)
Is determined (step S12). For example, as shown in FIG. 9, at timing t = t1, the original unvoiced / voiced detection signal U / Vme (t) changes from unvoiced (U) to voiced (V).
【0065】ステップS12の判別において、元無声/
有声検出信号U/Vme(t)が無声(U)から有声(V)
に変化している場合には(ステップS12;Yes)、
タイミングtの前回のタイミングt-1における元無声/
有声検出信号U/Vme(t-1)が無声(U)かつターゲッ
ト無声/有声検出信号U/Vtar(t-1)が無声(U)であ
るか否かを判別する(ステップS18)。例えば、図9
に示すように、タイミングt=t0(=t1-1)において
は、元無声/有声検出信号U/Vme(t-1)が無声(U)
かつターゲット無声/有声検出信号U/Vtar(t-1)が無
声(U)となっている。In the determination in step S12, the original silent /
The voiced detection signal U / Vme (t) changes from unvoiced (U) to voiced (V)
(Step S12; Yes),
Original silence at the previous timing t-1 of timing t /
It is determined whether the voiced detection signal U / Vme (t-1) is unvoiced (U) and the target unvoiced / voiced detection signal U / Vtar (t-1) is unvoiced (U) (step S18). For example, FIG.
At time t = t0 (= t1-1), the original unvoiced / voiced detection signal U / Vme (t-1) is unvoiced (U).
And the target unvoiced / voiced detection signal U / Vtar (t-1) is unvoiced (U).
【0066】ステップS18の判別において、元無声/
有声検出信号U/Vme(t-1)が無声(U)かつターゲッ
ト無声/有声検出信号U/Vtar(t-1)が無声(U)とな
っている場合には(ステップS18;Yes)、当該タ
ーゲットフレームには、ターゲットフレーム情報データ
INFtarが存在しないので、シンクロナイゼーション
モード=“1”とし、置換用のターゲットフレーム情報
データINFholdを当該ターゲットフレームの後方向
(Backward)に存在するフレームのターゲットフレーム
情報とする。In the determination at step S18, the original silent /
When the voiced detection signal U / Vme (t-1) is unvoiced (U) and the target unvoiced / voiced detection signal U / Vtar (t-1) is unvoiced (U) (step S18; Yes), Since the target frame does not have the target frame information data INFtar, the synchronization mode is set to “1”, and the replacement target frame information data INFhold is set to the target of the frame existing in the backward direction (Backward) of the target frame. Frame information.
【0067】例えば、図9に示すように、タイミングt
=t1〜t2のターゲットフレームには、ターゲットフレ
ーム情報データINFtarが存在しないので、シンクロ
ナイゼーションモード=“1”とし、置換用ターゲット
フレーム情報データINFholdを当該ターゲットフレー
ムの後方向に存在するフレーム(すなわち、タイミング
t=t2〜t3に存在するフレーム)のターゲットフレー
ム情報データbackwardとする。For example, as shown in FIG.
= T1 to t2, since the target frame information data INFtar does not exist, the synchronization mode is set to “1”, and the replacement target frame information data INFhold is set to a frame existing in the backward direction of the target frame (ie, , Target frame information data backward at timing t = frames existing at t2 to t3).
【0068】そして、処理をステップS15に移行し、
シンクロナイゼーションモード=“0”であるか否かを
判別する(ステップS15)。ステップS15の判別に
おいて、シンクロナイゼーションモード=“0”である
場合には、タイミングtにおける元フレームに対応する
ターゲットフレームにターゲットフレーム情報データI
NFtar(t)が存在する場合、すなわち、通常処理である
ので、置換済ターゲットフレーム情報データINFtar-
syncをターゲットフレーム情報データINFtar(t)とす
る。Then, the process proceeds to step S15,
It is determined whether or not the synchronization mode is "0" (step S15). If it is determined in step S15 that the synchronization mode is "0", the target frame information data I is added to the target frame corresponding to the original frame at the timing t.
If NFtar (t) exists, that is, since it is a normal process, the replaced target frame information data INFtar-t
Let sync be target frame information data INFtar (t).
【0069】INFtar-sync=INFtar(t) 例えば、図9に示すようにタイミングt=t2〜t3のタ
ーゲットフレームには、ターゲットフレーム情報データ
INFtarが存在するので、 INFtar-sync=INFtar(t) とする。INFtar-sync = INFtar (t) For example, as shown in FIG. 9, the target frame at timing t = t2 to t3 has target frame information data INFtar, so that INFtar-sync = INFtar (t). I do.
【0070】この場合において、以降の処理に用いられ
る置換済ターゲットフレーム情報データINFtar-sync
に含まれるターゲット属性データ(平均アンプ静的成分
Atar-sync-sta、平均アンプビブラート的成分Atar-sy
nc-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラ
ート的成分Ptar-sync-vib、スペクトラル・シェイプS
tar-sync(f)及び残差成分Rtar-sync(f))は実質的に
は、以下の内容となる(ステップS16)。In this case, the replaced target frame information data INFtar-sync used in the subsequent processing
Target attribute data (average amplifier static component Atar-sync-sta, average amplifier vibrato-like component Atar-sy)
nc-vib, pitch static component Ptar-sync-sta, pitch vibrato-like component Ptar-sync-vib, spectral shape S
The tar-sync (f) and the residual component Rtar-sync (f) have substantially the following contents (step S16).
【0071】 Atar-sync-sta=Atar-sta Atar-sync-vib=Atar-vib Ptar-sync-sta=Ptar-sta Ptar-sync-vib=Ptar-vib Star-sync(f)=Star(f) Rtar-sync(f)=Rtar(f)Atar-sync-sta = Atar-sta Atar-sync-vib = Atar-vib Ptar-sync-sta = Ptar-sta Ptar-sync-vib = Ptar-vib Star-sync (f) = Star (f) Rtar-sync (f) = Rtar (f)
【0072】ステップS15の判別において、シンクロ
ナイゼーションモード=“1”またはシンクロナイゼー
ションモード=“2”である場合には、タイミングtに
おける元フレームに対応するターゲットフレームにター
ゲットフレーム情報データINFtar(t)が存在しない場
合であるので、置換済ターゲットフレーム情報データI
NFtar-syncを置換用ターゲットフレーム情報データI
NFholdとする。If it is determined in step S15 that the synchronization mode is "1" or the synchronization mode is "2", the target frame information data INFtar (t) is added to the target frame corresponding to the original frame at the timing t. ) Does not exist, the replaced target frame information data I
Target frame information data I for replacing NFtar-sync
NFhold.
【0073】INFtar-sync=INFhold 例えば、図9に示すように、タイミングt=t1〜t2の
ターゲットフレームには、ターゲットフレーム情報デー
タINFtarが存在せず、シンクロナイゼーションモー
ド=“1”となるが、タイミングt=t2〜t3のターゲ
ットフレームには、ターゲットフレーム情報データIN
Ftarが存在するので、置換済ターゲットフレーム情報
データINFtar-syncをタイミングt=t2〜t3のター
ゲットフレームのターゲットフレーム情報データである
置換用ターゲットフレーム情報データINFholdとする
処理P1を行い、以降の処理に用いられる置換済ターゲ
ットフレーム情報データINFtar-syncに含まれるター
ゲット属性データは、平均アンプ静的成分Atar-sync-s
ta、平均アンプビブラート的成分Atar-sync-vib、ピッ
チ静的成分Ptar-sync-sta、ピッチビブラート的成分P
tar-sync-vib、スペクトラル・シェイプStar-sync(f)
及び残差成分Rtar-sync(f)となる(ステップS1
6)。INFtar-sync = INFhold For example, as shown in FIG. 9, the target frame at the timing t = t1 to t2 does not have the target frame information data INFtar, and the synchronization mode becomes “1”. The target frame at the timing t = t2 to t3 includes the target frame information data IN
Since the Ftar exists, the process P1 of setting the replaced target frame information data INFtar-sync as replacement target frame information data INFhold, which is the target frame information data of the target frame at the timing t = t2 to t3, is performed. The target attribute data included in the replaced target frame information data INFtar-sync used is an average amplifier static component Atar-sync-s
ta, average amp vibrato component Atar-sync-vib, pitch static component Ptar-sync-sta, pitch vibrato component P
tar-sync-vib, spectral shape Star-sync (f)
And the residual component Rtar-sync (f) (step S1).
6).
【0074】また、図9に示すように、タイミングt=
t3〜t4のターゲットフレームには、ターゲットフレー
ム情報データINFtarが存在せず、シンクロナイゼー
ションモード=“2”となるが、タイミングt=t2〜
t3のターゲットフレームには、ターゲットフレーム情
報データINFtarが存在するので、置換済ターゲット
フレーム情報データINFtar-syncをタイミングt=t
2〜t3のターゲットフレームのターゲットフレーム情報
データである置換用ターゲットフレーム情報データIN
Fholdとする処理P2を行い、以降の処理に用いられる
置換済ターゲットフレーム情報データINFtar-syncに
含まれるターゲット属性データは、平均アンプ静的成分
Atar-sync-sta、平均アンプビブラート的成分Atar-sy
nc-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラ
ート的成分Ptar-sync-vib、スペクトラル・シェイプS
tar-sync(f)及び残差成分Rtar-sync(f)となる(ステッ
プS16)。As shown in FIG. 9, the timing t =
In the target frame from t3 to t4, the target frame information data INFtar does not exist, and the synchronization mode = “2”.
Since the target frame information data INFtar exists in the target frame at t3, the replaced target frame information data INFtar-sync is set at the timing t = t.
Replacement target frame information data IN which is the target frame information data of the target frames from 2 to t3
The target attribute data included in the replaced target frame information data INFtar-sync used in the subsequent processing includes an average amplifier static component Atar-sync-sta and an average amplifier vibrato-like component Atar-sy.
nc-vib, pitch static component Ptar-sync-sta, pitch vibrato-like component Ptar-sync-vib, spectral shape S
The result is a tar-sync (f) and a residual component Rtar-sync (f) (step S16).
【0075】ステップS12の判別において、元無声/
有声検出信号U/Vme(t)が無声(U)から有声(V)
に変化していない場合には(ステップS12;No)、
ターゲット無声/有声検出信号U/Vtar(t)が有声
(V)から無声(U)に変化しているか否かを判別する
(ステップS13)。ステップS13の判別において、
ターゲット無声/有声検出信号U/Vtar(t)が有声
(V)から無声(U)に変化している場合には(ステッ
プS13;Yes)、タイミングtの前回のタイミング
t-1における元無声/有声検出信号U/Vme(t-1)が有
声(V)かつターゲット無声/有声検出信号U/Vtar
(t-1)が有声(V)であるか否かを判別する(ステップ
S19)。In the determination in step S12, the original silent /
The voiced detection signal U / Vme (t) changes from unvoiced (U) to voiced (V)
(Step S12; No),
It is determined whether or not the target unvoiced / voiced detection signal U / Vtar (t) has changed from voiced (V) to unvoiced (U) (step S13). In the determination in step S13,
If the target unvoiced / voiced detection signal U / Vtar (t) changes from voiced (V) to unvoiced (U) (step S13; Yes), the original unvoiced / voiced signal at the previous timing t-1 of the timing t is output. The voiced detection signal U / Vme (t-1) is voiced (V) and the target unvoiced / voiced detection signal U / Vtar
It is determined whether or not (t-1) is voiced (V) (step S19).
【0076】例えば、図9に示すように、タイミングt
3においてターゲット無声/有声検出信号U/Vtar(t)
が有声(V)から無声(U)に変化し、タイミングt-1
=t2〜t3においては、元無声/有声検出信号U/Vme
(t-1)が有声(V)かつターゲット無声/有声検出信号
U/Vtar(t-1)が有声(U)となっている。ステップS
18の判別において、元無声/有声検出信号U/Vme(t
-1)が有声(V)かつターゲット無声/有声検出信号U
/Vtar(t-1)が有声(V)となっている場合には(ステ
ップS19;Yes)、当該ターゲットフレームには、
ターゲットフレーム情報データINFtarが存在しない
ので、シンクロナイゼーションモード=“2”とし、置
換用のターゲットフレーム情報データINFholdを当該
ターゲットフレームの前方向(forward)に存在するフ
レームのターゲットフレーム情報とする。For example, as shown in FIG.
Target unvoiced / voiced detection signal U / Vtar (t) at 3
Changes from voiced (V) to unvoiced (U) at timing t-1
= T2 to t3, the original unvoiced / voiced detection signal U / Vme
(t-1) is voiced (V) and the target unvoiced / voiced detection signal U / Vtar (t-1) is voiced (U). Step S
In the determination at 18, the original unvoiced / voiced detection signal U / Vme (t
-1) is voiced (V) and the target unvoiced / voiced detection signal U
If / Vtar (t-1) is voiced (V) (step S19; Yes), the target frame includes
Since the target frame information data INFtar does not exist, the synchronization mode is set to “2”, and the replacement target frame information data INFhold is set as the target frame information of the frame existing in the forward direction of the target frame.
【0077】例えば、図9に示すように、タイミングt
=t3〜t4のターゲットフレームには、ターゲットフレ
ーム情報データINFtarが存在しないので、シンクロ
ナイゼーションモード=“2”とし、置換用ターゲット
フレーム情報データINFholdを当該ターゲットフレー
ムの前方向に存在するフレーム(すなわち、タイミング
t=t2〜t3に存在するフレーム)のターゲットフレー
ム情報データforwardとする。For example, as shown in FIG.
= T3 to t4, since the target frame information data INFtar does not exist in the target frame, the synchronization mode is set to “2” and the replacement target frame information data INFhold is set to a frame existing in the forward direction of the target frame (that is, , Target frame information data forward at a timing t = frames t2 to t3).
【0078】そして、処理をステップS15に移行し、
シンクロナイゼーションモード=“0”であるか否かを
判別して(ステップS15)、以下、同様の処理を行
う。ステップS13の判別において、ターゲット無声/
有声検出信号U/Vtar(t)が有声(V)から無声(U)
に変化していない場合には(ステップS13;No)、
タイミングtにおける元無声/有声検出信号U/Vme
(t)が有声(V)から無声(U)に変化し、あるいは、
ターゲット無声/有声検出信号U/Vtar(t)が無声
(U)から有声(V)に変化しているか否かを判別する
(ステップS14)。Then, the process proceeds to step S15,
It is determined whether or not the synchronization mode is "0" (step S15), and the same processing is performed thereafter. In the determination in step S13, the target unvoiced /
The voiced detection signal U / Vtar (t) changes from voiced (V) to unvoiced (U)
(Step S13; No),
Original unvoiced / voiced detection signal U / Vme at timing t
(t) changes from voiced (V) to unvoiced (U), or
It is determined whether or not the target unvoiced / voiced detection signal U / Vtar (t) has changed from unvoiced (U) to voiced (V) (step S14).
【0079】ステップS14の判別において、タイミン
グtにおける元無声/有声検出信号U/Vme(t)が有声
(V)から無声(U)に変化し、かつ、ターゲット無声
/有声検出信号U/Vtar(t)が無声(U)から有声
(V)に変化している場合には(ステップS14;Ye
s)、シンクロナイゼーションモード=“0”とし、置
換用ターゲットフレーム情報データINFholdを初期化
(clear)し、処理をステップS15に移行して、以
下、同様の処理を行う。ステップS14の判別におい
て、タイミングtにおける元無声/有声検出信号U/V
me(t)が有声(V)から無声(U)に変化せず、あるい
は、ターゲット無声/有声検出信号U/Vtar(t)が無声
(U)から有声(V)に変化していない場合には(ステ
ップS14;No)、そのまま処理をステップS15に
移行し、以下同様の処理を行う。In the determination at step S14, the original unvoiced / voiced detection signal U / Vme (t) at timing t changes from voiced (V) to unvoiced (U), and the target unvoiced / voiced detection signal U / Vtar ( If t) changes from unvoiced (U) to voiced (V) (step S14; Ye)
s), the synchronization mode is set to "0", the replacement target frame information data INFhold is initialized (cleared), the process proceeds to step S15, and the same process is performed. In the determination of step S14, the original unvoiced / voiced detection signal U / V at timing t
When me (t) does not change from voiced (V) to unvoiced (U), or when target unvoiced / voiced detection signal U / Vtar (t) does not change from unvoiced (U) to voiced (V). (Step S14; No), the process proceeds to Step S15, and the same process is performed thereafter.
【0080】[3.9] 正弦波成分属性データ選択部
の動作 続いて、正弦波成分属性データ選択部23は、イージー
シンクロナイゼーション処理部22から入力された置換
済ターゲットフレーム情報データINFtar-syncに含ま
れるターゲット属性データのうち正弦波成分に関するタ
ーゲット属性データ(平均アンプ静的成分Atar-sync-s
ta、平均アンプビブラート的成分Atar-sync-vib、ピッ
チ静的成分Ptar-sync-sta、ピッチビブラート的成分P
tar-sync-vib及びスペクトラル・シェイプStar-sync
(f))及びコントローラ29から入力される正弦波成分
属性データ選択情報に基づいて、新しい正弦波成分属性
データである新規アンプ成分Anew、新規ピッチ成分Pn
ew及び新規スペクトラル・シェイプSnew(f)を生成す
る。[3.9] Operation of Sine Wave Component Attribute Data Selection Unit Subsequently, the sine wave component attribute data selection unit 23 replaces the replaced target frame information data INFtar-sync input from the easy synchronization processing unit 22. Attribute data on sine wave components (average amplifier static component Atar-sync-s)
ta, average amp vibrato component Atar-sync-vib, pitch static component Ptar-sync-sta, pitch vibrato component P
tar-sync-vib and spectral shape Star-sync
(f)) and the new amplifier component Anew and the new pitch component Pn, which are new sine wave component attribute data, based on the sine wave component attribute data selection information input from the controller 29.
Generate ew and a new spectral shape Snew (f).
【0081】すなわち、新規アンプ成分Anewについて
は、次式により生成する。 Anew=A*-sta+A*-vib(ただし、*は、me又はtar-sy
nc) より具体的には、図8(D)に示すように、新規アンプ
成分Anewを元属性データの平均アンプ静的成分Ame-st
aあるいはターゲット属性データの平均アンプ静的成分
Atar-sync-staのいずれか一方及び元属性データの平均
アンプビブラート的成分Ame-vibあるいはターゲット属
性データの平均アンプビブラート的成分Atar-sync-vib
のいずれか一方の組み合わせとして生成する。That is, the new amplifier component Anew is generated by the following equation. Anew = A * -sta + A * -vib (* is me or tar-sy
nc) More specifically, as shown in FIG. 8D, the new amplifier component Anew is replaced with the average amplifier static component Ame-st of the original attribute data.
a or the average amplifier static component Atar-sync-sta of the target attribute data and the average amplifier vibrato component Ame-vib of the original attribute data or the average amplifier vibrato component Atar-sync-vib of the target attribute data
Is generated as a combination of any one of the above.
【0082】また、新規ピッチ成分Pnewについては、
次式により生成する。 Pnew=P*-sta+P*-vib(ただし、*は、me又はtar-sy
nc) より具体的には、図8(D)に示すように、新規ピッチ
成分Pnewを元属性データのピッチ静的成分Pme-staあ
るいはターゲット属性データのピッチ静的成分Ptar-sy
nc-staのいずれか一方及び元属性データのピッチビブラ
ート的成分Pme-vibあるいはターゲット属性データのピ
ッチビブラート的成分Ptar-sync-vibのいずれか一方の
組み合わせとして生成する。Further, regarding the new pitch component Pnew,
Generated by the following equation. Pnew = P * -sta + P * -vib (* is me or tar-sy
nc) More specifically, as shown in FIG. 8D, the new pitch component Pnew is defined as the pitch static component Pme-sta of the original attribute data or the pitch static component Ptar-sy of the target attribute data.
It is generated as a combination of one of nc-sta and the pitch vibrato component Pme-vib of the original attribute data or the pitch vibrato component Ptar-sync-vib of the target attribute data.
【0083】また、新規スペクトラル・シェイプSnew
(f)については、次式により生成する。 Snew(f)=S*(f)(ただし、*は、me又はtar-sync) ところで、一般的にアンプ成分が大きい場合には、高域
まで伸びた抜けの明るい音となり、アンプ成分が小さい
場合には、逆にこもった音になる。そこで、新規スペク
トラル・シェイプSnew(f)に関しては、このような状態
をシミュレートすべく、図11に示すように、スペクト
ラル・シェイプの高域成分、すなわち、高域成分部分の
スペクトラル・シェイプの傾きを新規アンプ成分Anew
の大きさに応じて補償するスペクトラルチルト補償(sp
ectral tilt correction)を行って、コントロールする
ことにより、よりリアルな音声を再生することができ
る。Also, a new spectral shape Snew
(f) is generated by the following equation. Snew (f) = S * (f) (However, * is me or tar-sync) By the way, generally, when the amplifier component is large, it becomes a bright sound that extends to a high frequency and has a small amplifier component. In this case, the sound will be muffled. Therefore, for the new spectral shape Snew (f), in order to simulate such a state, as shown in FIG. 11, the high-frequency component of the spectral shape, that is, the gradient of the spectral shape of the high-frequency component portion. A new amplifier component Anew
Spectral tilt compensation (sp
By performing ectral tilt correction) and controlling, more realistic sound can be reproduced.
【0084】続いて、生成された新規アンプ成分Ane
w、新規ピッチ成分Pnew及び新規スペクトラル・シェイ
プSnew(f)について、必要に応じてコントローラ29か
ら入力される正弦波成分属性データ変形情報に基づい
て、属性データ変形部24によりさらなる変形を行う。
例えば、スペクトラル・シェイプを全体的に間延びさせ
る等の変形を行う。Subsequently, the generated new amplifier component Ane
w, the new pitch component Pnew and the new spectral shape Snew (f) are further modified by the attribute data modifying unit 24 based on the sine wave component attribute data modification information input from the controller 29 as needed.
For example, a deformation such as extending the entire spectral shape is performed.
【0085】[3.10] 残差成分選択部の動作 一方、残差成分選択部25は、イージーシンクロナイゼ
ーション処理部22から入力された置換済ターゲットフ
レーム情報データINFtar-syncに含まれるターゲット
属性データのうち残差成分に関するターゲット属性デー
タ(残差成分Rtar-sync(f))、残差成分保持部12に
保持されている残差成分信号(周波数波形)Rme(f)及
びコントローラ29から入力される残差成分属性データ
選択情報に基づいて新しい残差成分属性データである新
規残差成分Rnew(f)を生成する。[3.10] Operation of Residual Component Selection Unit On the other hand, the residual component selection unit 25 sets the target attribute included in the replaced target frame information data INFtar-sync input from the easy synchronization processing unit 22. Target attribute data (residual component Rtar-sync (f)) relating to the residual component of the data, the residual component signal (frequency waveform) Rme (f) held in the residual component holding unit 12 and input from the controller 29 Based on the residual component attribute data selection information to be generated, a new residual component Rnew (f), which is new residual component attribute data, is generated.
【0086】すなわち、新規残差成分Rnew(f)について
は、次式により生成する。 Rnew(f)=R*(f)(ただし、*は、me又はtar-sync) この場合においては、me又はtar-syncのいずれを選択す
るかは、新規スペクトラル・シェイプSnew(f)と同一の
ものを選択するのがより好ましい。That is, the new residual component Rnew (f) is generated by the following equation. Rnew (f) = R * (f) (* is me or tar-sync) In this case, whether to select me or tar-sync is the same as the new spectral shape Snew (f) It is more preferred to select
【0087】さらに、新規残差成分Rnew(f)に関して
も、新規スペクトラル・シェイプと同様な状態をシミュ
レートすべく、図11に示したように、残差成分の高域
成分、すなわち、高域成分部分の残差成分の傾きを新規
アンプ成分Anewの大きさに応じて補償するスペクトラ
ルチルト補償(spectral tilt correction)を行って、
コントロールすることにより、よりリアルな音声を再生
することができる。Further, as for the new residual component Rnew (f), in order to simulate the same state as the new spectral shape, as shown in FIG. 11, the high frequency component of the residual component, that is, the high frequency component, Performing a spectral tilt correction for compensating the gradient of the residual component of the component part according to the magnitude of the new amplifier component Anew,
By controlling, more realistic sound can be reproduced.
【0088】[3.11] 正弦波成分生成部の動作 続いて、正弦波成分生成部26は、属性データ変形部2
4から出力された変形を伴わない、あるいは、変形を伴
う新規アンプ成分Anew、新規ピッチ成分Pnew及び新規
スペクトラル・シェイプSnew(f)に基づいて、当該フレ
ームにおける新たな正弦波成分(F”0、A”0)、
(F”1、A”1)、(F”2、A”2)、……、
(F”(N-1)、A”(N-1))のN個の正弦波成分(以下、
これらをまとめてF”n、A”nと表記する。n=0〜
(N−1)。)を求める。[3.11] Operation of Sine Wave Component Generation Unit Subsequently, the sine wave component generation unit 26
4, a new sine wave component (F "0, F" 0, Fnew) in the frame based on the new amplifier component Anew, new pitch component Pnew and new spectral shape Snew (f) without or with the deformation output A "0),
(F "1, A" 1), (F "2, A" 2), ...,
(F ″ (N−1), A ″ (N−1)) N sinusoidal components
These are collectively denoted as F "n, A" n. n = 0
(N-1). ).
【0089】より具体的には、次式により新規周波数
F”nおよび新規アンプA”nを求める。 F”n=F’n×Pnew A”n=Snew(F”n)×Anew なお、完全倍音構造のモデルとして捉えるのであれば、 F”n=(n+1)×Pnew となる。More specifically, a new frequency F "n and a new amplifier A" n are obtained by the following equations. F "n = F'n.times.Pnew A" n = Snew (F "n) .times.Anew If it is considered as a model of a perfect harmonic structure, F" n = (n + 1) .times.Pnew.
【0090】[3.12] 正弦波成分変形部の動作 さらに、求めた新規周波数F”nおよび新規アンプA”
nについて、必要に応じてコントローラ29から入力さ
れる正弦波成分変形情報に基づいて、正弦波成分変形部
27によりさらなる変形を行う。例えば、偶数倍音成分
の新規アンプA”n(=A”0、A”2、A”4、…
…)だけを大きく(例えば、2倍する)等の変形を行
う。これによって得られる変換音声にさらにバラエティ
ーを持たせることが可能となる。[3.12] Operation of Sine Wave Component Deformer Further, the new frequency F "n and new amplifier A" obtained
n is further modified by the sine wave component transformation unit 27 based on the sine wave component transformation information input from the controller 29 as needed. For example, a new amplifier A "n (= A" 0, A "2, A" 4,...) Of even harmonic components.
..) Are increased (for example, doubled). As a result, it is possible to give the converted speech further variety.
【0091】[3.13] 逆高速フーリエ変換部の動
作 次に逆高速フーリエ変換部28は、求めた新規周波数
F”nおよび新規アンプA”n(=新規正弦波成分)並
びに新規残差成分Rnew(f)をFFTバッファに格納し、
順次逆FFTを行い、さらに得られた時間軸信号を一部
重複するようにオーバーラップ処理し、それらを加算す
る加算処理を行うことにより新しい有声音の時間軸信号
である変換音声信号を生成する。[3.13] Operation of Inverse Fast Fourier Transform Unit Next, the inverse fast Fourier transform unit 28 calculates the new frequency F "n and new amplifier A" n (= new sine wave component) and new residual component. Rnew (f) is stored in the FFT buffer,
Inverse FFT is sequentially performed, and the obtained time axis signals are overlapped so as to partially overlap, and an addition processing of adding them is performed to generate a converted voice signal which is a new voiced sound time axis signal. .
【0092】このとき、コントローラ29から入力され
る正弦波成分/残差成分バランス制御信号に基づいて、
正弦波成分及び残差成分の混合比率を制御し、よりリア
ルな有声信号を得る。この場合において、一般的には、
残差成分の混合比率を大きくするとざらついた声が得ら
れる。この場合において、FFTバッファに新規周波数
F”nおよび新規アンプA”n(=新規正弦波成分)並
びに新規残差成分Rnew(f)を格納するに際し、異なるピ
ッチ、かつ、適当なピッチで変換された正弦波成分をさ
らに加えることにより変換音声信号としてハーモニーを
得ることができる。さらにシーケンサ31により伴奏音
に適合したハーモニーピッチを与えることにより、伴奏
に適合した音楽的ハーモニーを得ることができる。At this time, based on the sine wave component / residual component balance control signal input from the controller 29,
A more realistic voiced signal is obtained by controlling the mixing ratio of the sine wave component and the residual component. In this case, generally,
When the mixing ratio of the residual components is increased, a rough voice is obtained. In this case, when the new frequency F "n, the new amplifier A" n (= new sine wave component) and the new residual component Rnew (f) are stored in the FFT buffer, they are converted at different pitches and at an appropriate pitch. Harmony can be obtained as a converted audio signal by further adding the sine wave component. Further, by giving a harmony pitch adapted to the accompaniment sound by the sequencer 31, musical harmony adapted to the accompaniment can be obtained.
【0093】[3.14] クロスフェーダの動作 次にクロスフェーダ部30は、元無声/有声検出信号U
/Vme(t)に基づいて、入力音声信号Svが無声(U)で
ある場合には、入力音声信号Svをそのままミキサ33
に出力する。また、入力音声信号Svが有声(V)であ
る場合には、逆高速フーリエ変換部28が出力した変換
音声信号をミキサ33に出力する。この場合において、
切替スイッチとしてクロスフェーダ部30を用いている
のは、クロスフェード動作を行わせることによりスイッ
チ切替時のクリック音の発生を防止するためである。[3.14] Operation of Crossfader Next, the crossfader unit 30 outputs the original unvoiced / voiced detection signal U
If the input audio signal Sv is unvoiced (U) based on / Vme (t), the input audio signal Sv is
Output to When the input audio signal Sv is voiced (V), the converted audio signal output from the inverse fast Fourier transform unit 28 is output to the mixer 33. In this case,
The reason why the crossfader unit 30 is used as the changeover switch is to prevent a click sound from occurring at the time of switchover by performing a crossfade operation.
【0094】[3.15] シーケンサ、音源部、ミキ
サ及び出力部の動作 一方、シーケンサ31は、カラオケの伴奏音を発生する
ための音源制御情報を例えば、MIDI(Musical Inst
rument Digital Interface)データなどとして音源部3
2に出力する。これにより音源部32は、音源制御情報
に基づいて伴奏信号を生成し、ミキサ33に出力する。
ミキサ33は、入力音声信号Svあるいは変換音声信号
のいずれか一方及び伴奏信号を混合し、混合信号を出力
部34に出力する。出力部34は、図示しない増幅器を
有し混合信号を増幅して音響信号として出力することと
なる。[3.15] Operation of Sequencer, Sound Source Unit, Mixer, and Output Unit On the other hand, the sequencer 31 transmits sound source control information for generating a karaoke accompaniment sound to, for example, MIDI (Musical Instrument).
rument Digital Interface) sound source section 3 as data etc.
Output to 2. Thereby, the sound source section 32 generates an accompaniment signal based on the sound source control information, and outputs the accompaniment signal to the mixer 33.
The mixer 33 mixes either the input audio signal Sv or the converted audio signal and the accompaniment signal, and outputs the mixed signal to the output unit 34. The output unit 34 has an amplifier (not shown), amplifies the mixed signal, and outputs it as an acoustic signal.
【0095】[4] 実施形態の変形例 [4.1] 第1変形例 以上の説明においては、属性データとしては、元属性デ
ータあるいはターゲット属性データのいずれかを選択的
に用いる構成としていたが、元属性データ及びターゲッ
ト属性データの双方を用い、補間処理を行うことにより
中間的な属性を有する変換音声信号を得るように構成す
ることも可能である。しかしながら、このような構成に
よれば、ものまねをしようとする歌唱者及びものまねの
対象(target)となる歌唱者のいずれにも似ていない変
換音声が得られる場合もある。また、特にスペクトラル
・シェイプを補間処理によって求めた場合には、ものま
ねをしようとする歌唱者が「あ」を発音し、ものまねの
対象となる歌唱者が「い」を発音している場合などに
は、「あ」でも「い」でもない音が変換音声として出力
される可能性があり、その取扱には注意が必要である。[4] Modifications of Embodiment [4.1] First Modification In the above description, either the original attribute data or the target attribute data is selectively used as the attribute data. It is also possible to obtain a converted audio signal having an intermediate attribute by performing an interpolation process using both the original attribute data and the target attribute data. However, according to such a configuration, a converted voice that is not similar to any of the singer trying to imitate and the singer to be imitated may be obtained. Also, especially when the spectral shape is obtained by interpolation processing, the singer trying to imitate pronounces "a", and the singer to be imitated pronounces "i". There is a possibility that sounds other than "A" or "I" may be output as converted voices, and care must be taken when handling them.
【0096】[4.2] 第2変形例 正弦波成分の抽出は、この実施形態で用いた方法に限ら
ない。要は、音声信号に含まれる正弦波を抽出できれば
よい。[4.2] Second Modification The extraction of the sine wave component is not limited to the method used in this embodiment. In short, it is only necessary to extract a sine wave included in the audio signal.
【0097】[4.3] 第3変形例 本実施形態においては、ターゲットの正弦波成分及び残
差成分を記憶したが、これに換えて、ターゲットの音声
そのものを記憶し、それを読み出してリアルタイム処理
によって正弦波成分と残差成分とを抽出してもよい。す
なわち、本実施形態でものまねをしようとする歌唱者の
音声に対して行った処理と同様の処理をターゲットの歌
唱者の音声に対して行ってもよい。[4.3] Third Modification In the present embodiment, the sine wave component and the residual component of the target are stored. Instead, the target voice itself is stored and read out to read in real time. The sine wave component and the residual component may be extracted by the processing. That is, processing similar to the processing performed on the voice of the singer trying to imitate in the present embodiment may be performed on the voice of the target singer.
【0098】[4.4] 第4変形例 本実施形態においては、属性データとして、ピッチ、ア
ンプ、スペクトラル・シェイプの全てを取り扱ったが、
少なくともいずれか一つを扱うようにすることも可能で
ある。[4.4] Fourth Modification In the present embodiment, all of the pitch, amplifier, and spectral shape are handled as attribute data.
It is also possible to handle at least one of them.
【0099】[4.5] 第5変形例 本実施形態の補間合成部9におけるデータ構成は、その
他の各部(例えばピッチ正規化部17〜正弦波成分変形
部27に至る区間)におけるデータ構成としても良いこ
とは言うまでもない。特に、ターゲットフレーム情報保
持部20においては、1曲分のターゲットフレーム情報
が記憶されるため、上記データ構成を用いることによる
データ量の削減効果が大きい。[4.5] Fifth Modification The data configuration in the interpolation / synthesis unit 9 of the present embodiment is the same as the data configuration in other units (for example, a section from the pitch normalization unit 17 to the sine wave component deformation unit 27). Needless to say, it is good. In particular, since the target frame information holding unit 20 stores the target frame information for one piece of music, the effect of reducing the data amount by using the above data configuration is great.
【0100】[5] 実施形態の効果 以上のように、本実施形態によれば、周波数Fkに対し
て差分値dFk、比率rFkまたは対数値cFkを記憶するよ
うにしたため、僅かな記憶容量で高精度な音声特徴情報
を記憶できる。さらに、アンプAkに対して1バイト中
の7ビットを割り当てて128dBのダイナミックレン
ジを確保するとともに残りの1ビットにおいて周波数を
特定するための情報(上記対数値cFk等)が存在するか
否かを示す態様においては、さらに記憶容量を削減する
ことができる。また、アンプAkに代えて「nAk=α・
(Ak+β)」によるアンプnAkを記憶することによ
り、所望のダイナミックレンジに応じて可能な限り高い
分解能を確保することが可能である。[5] Effects of the Embodiment As described above, according to the present embodiment, the difference value dFk, the ratio rFk or the logarithmic value cFk is stored for the frequency Fk. Accurate voice feature information can be stored. Furthermore, seven bits in one byte are allocated to the amplifier Ak to secure a dynamic range of 128 dB and determine whether or not there is information (such as the logarithmic value cFk) for specifying the frequency in the remaining one bit. In the embodiment shown, the storage capacity can be further reduced. Further, instead of the amplifier Ak, “nAk = α ·
By storing the amplifier nAk by “(Ak + β)”, it is possible to ensure the highest possible resolution according to the desired dynamic range.
【0101】[0101]
【発明の効果】以上説明したように本発明によれば、各
乗算結果F0×kと各周波数Fkとの差分または割合を
記憶することによって音声の特徴を記憶するから、僅か
な記憶容量で高精度な音声特徴情報を記憶できる。As described above, according to the present invention, since the characteristics of voice are stored by storing the difference or ratio between each multiplication result F0 × k and each frequency Fk, a high storage capacity can be obtained with a small storage capacity. Accurate voice feature information can be stored.
【図1】 本発明の一実施形態の構成を示すブロック図
(その1)である。FIG. 1 is a block diagram (part 1) illustrating a configuration of an embodiment of the present invention.
【図2】 本発明の一実施形態の構成を示すブロック図
(その2)である。FIG. 2 is a block diagram (part 2) showing a configuration of an embodiment of the present invention.
【図3】 実施形態におけるフレームの状態を示す図で
ある。FIG. 3 is a diagram illustrating a state of a frame according to the embodiment.
【図4】 実施形態における周波数スペクトルのピーク
検出を説明するための説明図である。FIG. 4 is an explanatory diagram for describing peak detection of a frequency spectrum in the embodiment.
【図5】 実施形態におけるフレーム毎のピーク値の連
携を示す図である。FIG. 5 is a diagram illustrating cooperation of peak values for each frame in the embodiment.
【図6】 実施形態における周波数値の変化状態を示す
図である。FIG. 6 is a diagram illustrating a change state of a frequency value in the embodiment.
【図7】 実施形態における処理過程における確定成分
の変化状態を示す図である。FIG. 7 is a diagram showing a change state of a deterministic component in a process in the embodiment.
【図8】 実施形態における信号処理の説明図である。FIG. 8 is an explanatory diagram of signal processing in the embodiment.
【図9】 イージーシンクロナイゼーション処理のタイ
ミングチャートである。FIG. 9 is a timing chart of an easy synchronization process.
【図10】 イージーシンクロナイゼーション処理フロ
ーチャートである。FIG. 10 is a flowchart of an easy synchronization process.
【図11】 スペクトラル・シェイプのスペクトラルチ
ルト補償について説明する図である。FIG. 11 is a diagram for explaining spectral tilt compensation of a spectral shape.
1…マイク、2…分析窓生成部、3…入力音声信号切出
部、4…高速フーリエ変換部、5…ピーク検出部、6…
無声/有声検出部、7…ピッチ抽出部、8…ピーク連携
部、9…補間合成部、10…残差成分検出部、11…高
速フーリエ変換部、12…残差成分保持部、13…正弦
波成分保持部、14…平均アンプ演算部、15…アンプ
正規化部、16…スペクトラル・シェイプ演算部、17
…ピッチ正規化部、18…元フレーム情報保持部、19
…静的変化/ビブラート的変化分離部、20…ターゲッ
トフレーム情報保持部、21…キーコントロール/テン
ポチェンジ部、22…イージーシンクロナイゼーション
処理部、23…正弦波成分属性データ選択部、24…属
性データ変形部、25…残差成分選択部、26…正弦波
成分生成部、27…正弦波成分変形部、28…逆高速フ
ーリエ変換部、29…コントローラ、30…クロスフェ
ーダ部、31…シーケンサ、32…音源部、33…ミキ
サ、34…出力部。DESCRIPTION OF SYMBOLS 1 ... Microphone, 2 ... Analysis window generation part, 3 ... Input audio signal extraction part, 4 ... Fast Fourier transform part, 5 ... Peak detection part, 6 ...
Unvoiced / voiced detection unit, 7: pitch extraction unit, 8: peak linking unit, 9: interpolation synthesis unit, 10: residual component detection unit, 11: fast Fourier transform unit, 12: residual component holding unit, 13: sine Wave component holding unit, 14: average amplifier calculation unit, 15: amplifier normalization unit, 16: spectral shape calculation unit, 17
... Pitch normalizing section, 18 ... Original frame information holding section, 19
... Static change / vibrato change separation section, 20 ... Target frame information holding section, 21 ... Key control / tempo change section, 22 ... Easy synchronization processing section, 23 ... Sine wave component attribute data selection section, 24 ... Attribute Data transformation unit, 25: Residual component selection unit, 26: Sine wave component generation unit, 27: Sine wave component transformation unit, 28: Inverse fast Fourier transform unit, 29: Controller, 30: Crossfader unit, 31: Sequencer, 32: sound source section, 33: mixer, 34: output section.
Claims (5)
(但し、kは自然数)を得る過程と、 基準周波数F0と前記各自然数kとの乗算を行う過程
と、 各乗算結果F0×kと前記各周波数Fkとの差分または
割合を求める過程と、 これら差分または割合を記憶することによって前記音声
の特徴を記憶することを特徴とする音声特徴情報記憶方
法。1. A plurality of frequencies Fk representing characteristics of a voice
(Where k is a natural number); a step of multiplying a reference frequency F0 by each of the natural numbers k; a step of calculating a difference or a ratio between each multiplication result F0 × k and each of the frequencies Fk; A voice feature information storage method, wherein the feature of the voice is stored by storing a difference or a ratio.
(但し、kは自然数)を得る過程と、 基準周波数F0と前記各自然数kとの乗算を行う過程
と、 各乗算結果F0×kと前記各周波数Fkとの差分または
割合を求める過程と、 これら差分または割合のうち所定のスレッショルド値を
超えるものを選択する過程と、 これら選択された差分または割合を記憶することによっ
て前記音声の特徴を記憶することを特徴とする音声特徴
情報記憶方法。2. A plurality of frequencies Fk representing characteristics of a voice.
(Where k is a natural number); a step of multiplying a reference frequency F0 by each of the natural numbers k; a step of calculating a difference or a ratio between each multiplication result F0 × k and each of the frequencies Fk; A voice feature information storage method, comprising: selecting a difference or a ratio exceeding a predetermined threshold value; and storing the selected difference or ratio to store the voice feature.
(但し、kは自然数)を得る過程と、 基準周波数F0と前記各自然数kとの乗算を行う過程
と、 各乗算結果F0×kと前記各周波数Fkとの差分または
割合を求める過程と、 これら差分または割合のうち大きい順に所定数の差分ま
たは割合を選択する過程と、 これら選択された差分または割合を記憶することによっ
て前記音声の特徴を記憶することを特徴とする音声特徴
情報記憶方法。3. A plurality of frequencies Fk representing characteristics of a voice.
(Where k is a natural number); a step of multiplying a reference frequency F0 by each of the natural numbers k; a step of calculating a difference or a ratio between each multiplication result F0 × k and each of the frequencies Fk; A voice feature information storage method, comprising: selecting a predetermined number of differences or ratios in descending order of the differences or ratios; and storing the voice characteristics by storing the selected differences or ratios.
(但し、kは自然数)と、これら周波数Fkに対応する
振幅値Akを得る過程と、 前記振幅値Akのうち所定値以上であるものに対応する
周波数Fkを選択する過程と、 基準周波数F0と、選択された前記周波数Fkに対応す
る各自然数kとの乗算を行う過程と、 各乗算結果F0×kと前記選択された各周波数Fkとの
差分または割合を求める過程と、 これら差分または割合を記憶することによって前記音声
の特徴を記憶することを特徴とする音声特徴情報記憶方
法。4. A plurality of frequencies Fk representing characteristics of a voice
(Where k is a natural number), a process of obtaining an amplitude value Ak corresponding to these frequencies Fk, a process of selecting a frequency Fk corresponding to a frequency equal to or more than a predetermined value among the amplitude values Ak, Multiplying each natural number k corresponding to the selected frequency Fk; obtaining a difference or ratio between each multiplication result F0 × k and each selected frequency Fk; A voice feature information storage method, wherein the voice feature is stored by storing.
情報記憶方法を実行することを特徴とする音声特徴情報
記憶装置。5. A voice feature information storage device that executes the voice feature information storage method according to claim 1.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10169046A JP2000003187A (en) | 1998-06-16 | 1998-06-16 | Method and device for storing voice feature information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10169046A JP2000003187A (en) | 1998-06-16 | 1998-06-16 | Method and device for storing voice feature information |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000003187A true JP2000003187A (en) | 2000-01-07 |
Family
ID=15879328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10169046A Pending JP2000003187A (en) | 1998-06-16 | 1998-06-16 | Method and device for storing voice feature information |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000003187A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005107088A (en) * | 2003-09-30 | 2005-04-21 | Yamaha Corp | Singing voice evaluating device, karaoke scoring device and its program |
JP2006251375A (en) * | 2005-03-10 | 2006-09-21 | Yamaha Corp | Voice processor and program |
AU2003264116B2 (en) * | 2002-08-07 | 2008-05-29 | Speedlingua S.A. | Audio-intonation calibration method |
-
1998
- 1998-06-16 JP JP10169046A patent/JP2000003187A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2003264116B2 (en) * | 2002-08-07 | 2008-05-29 | Speedlingua S.A. | Audio-intonation calibration method |
US7634410B2 (en) | 2002-08-07 | 2009-12-15 | Speedlingua S.A. | Method of audio-intonation calibration |
JP2005107088A (en) * | 2003-09-30 | 2005-04-21 | Yamaha Corp | Singing voice evaluating device, karaoke scoring device and its program |
JP2006251375A (en) * | 2005-03-10 | 2006-09-21 | Yamaha Corp | Voice processor and program |
JP4645241B2 (en) * | 2005-03-10 | 2011-03-09 | ヤマハ株式会社 | Voice processing apparatus and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7606709B2 (en) | Voice converter with extraction and modification of attribute data | |
JP3985814B2 (en) | Singing synthesis device | |
US7117154B2 (en) | Converting apparatus of voice signal by modulation of frequencies and amplitudes of sinusoidal wave components | |
Bonada et al. | Sample-based singing voice synthesizer by spectral concatenation | |
JP3711880B2 (en) | Speech analysis and synthesis apparatus, method and program | |
JP2003345400A (en) | Method, device, and program for pitch conversion | |
JP3540159B2 (en) | Voice conversion device and voice conversion method | |
JP3447221B2 (en) | Voice conversion device, voice conversion method, and recording medium storing voice conversion program | |
JP3502268B2 (en) | Audio signal processing device and audio signal processing method | |
JP4349316B2 (en) | Speech analysis and synthesis apparatus, method and program | |
JP2000003187A (en) | Method and device for storing voice feature information | |
JP3706249B2 (en) | Voice conversion device, voice conversion method, and recording medium recording voice conversion program | |
JP3540609B2 (en) | Voice conversion device and voice conversion method | |
JP3294192B2 (en) | Voice conversion device and voice conversion method | |
JP3949828B2 (en) | Voice conversion device and voice conversion method | |
JP3447220B2 (en) | Voice conversion device and voice conversion method | |
JP2001117597A (en) | Device and method for voice conversion and method of generating dictionary for voice conversion | |
JP3540160B2 (en) | Voice conversion device and voice conversion method | |
JP3934793B2 (en) | Voice conversion device and voice conversion method | |
JP3907838B2 (en) | Voice conversion device and voice conversion method | |
JP2000010600A (en) | Device and method for converting voice | |
JPH0944184A (en) | Voice converting device |