JP2003345400A - ピッチ変換装置、ピッチ変換方法及びプログラム - Google Patents
ピッチ変換装置、ピッチ変換方法及びプログラムInfo
- Publication number
- JP2003345400A JP2003345400A JP2002152787A JP2002152787A JP2003345400A JP 2003345400 A JP2003345400 A JP 2003345400A JP 2002152787 A JP2002152787 A JP 2002152787A JP 2002152787 A JP2002152787 A JP 2002152787A JP 2003345400 A JP2003345400 A JP 2003345400A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- input
- data
- conversion
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
ピッチ変動を再現可能とする。 【解決手段】 合成すべき歌唱音声について入力部10
から歌唱者データ、音符データ等を入力する。ピッチ変
換装置12は、ピッチ変換器14及びデータベース16
を含むもので、データベース16には複数の音符ピッチ
をそれぞれ複数の音声ピッチに変換するためのピッチ変
換データを関数[FT(S,p)]又は表の形で歌唱者
毎に記憶しておく。ピッチ変換器14は、歌唱者データ
の示す歌唱者Sに対応するピッチ変換データを参照して
音符データの示す音符ピッチPiを音声ピッチPoに変
換する。歌唱合成器18は、音声ピッチPoを有する歌
唱音声信号を合成する。データベース16には音符ピッ
チに対する音声ピッチの経時的変動分[ΔFT(S,
p,t)]を示す差分データを記憶し、このデータを読
出して音符ピッチPiに加算して音声ピッチPoとして
もよい。
Description
るに好適なピッチ変換装置、ピッチ変換方法及びプログ
ラムに関するものである。
のピッチにゆらぎを付与するようにしたものが知られて
いる(例えば、特開平9−281994号公報参照)。
ータをアナログ音声信号に変換するD/A変換器に供給
するクロック信号として、格納部から読出したクロック
間隔ゆらぎデータに応じてクロック周期にゆらぎをもた
せたクロック信号を用いることによりD/A変換出力
(アナログ音声信号)のピッチにゆらぎを付与してい
る。
する音声を発生するとき、物理的に一定の高さ(ピッ
チ)で発生するのは歌唱を職業とする人でも困難であ
り、一般的に発声ピッチは音符ピッチから多少ずれ、加
えて経時的なピッチ変動も生ずる。特に、歌唱を職業と
しない一般の人が歌唱した場合には、上記のようなピッ
チずれやピッチ変動の傾向が強く、歌唱の上手さ(又は
下手さ)を評価するための1つの要素となる。また、ピ
ッチのずれ方に歌唱者の特徴が見られる場合もある。そ
の上、人が発声できる上限又は下限に近いピッチの音を
発生しようとすると、声の発生機構に物理的な負担がか
かるため、発生したいピッチと、実際に発声したピッチ
とが異なる(上限近くの高音ではピッチが下がり易く、
下限近くの低音ではピッチが上がり易い)という現象が
ある。
ゆらぎデータの値をピッチ上昇方向又はピッチ下降方向
に変化させることによりピッチ変動の方向及び量を変化
させることができるが、平均ピッチで見た場合にピッチ
変動を加える前のピッチ(基準ピッチ)を変化させるこ
とはできず、ピッチ変動の時間的なパターンを変化させ
ることもできない。換言すれば、上記したような歌唱者
の発声ピッチや経時的なピッチ変動を再現することはで
きない。
の発声ピッチや経時的なピッチ変動を再現することがで
きる新規なピッチ変換装置、ピッチ変換方法及びプログ
ラムを提供することにある。
ッチ変換装置は、ピッチデータの示すピッチを有する歌
唱音声信号を合成する歌唱合成手段を備えた歌唱合成装
置において使用されるピッチ変換装置であって、合成す
べき順次の歌唱音声にそれぞれ対応して順次にピッチを
入力する入力手段と、複数の入力ピッチをそれぞれ複数
の音声ピッチに変換するためのピッチ変換データを記憶
する記憶手段と、前記入力手段から入力されるピッチ毎
に該ピッチを前記ピッチ変換データに基づいて音声ピッ
チに変換し、該音声ピッチを示すデータを前記ピッチデ
ータとして前記歌唱合成手段に供給する変換手段とを備
えたものである。
力ピッチをそれぞれ複数の音声ピッチに変換するための
ピッチ変換データが記憶手段に記憶され、このピッチ変
換データに基づいて入力に係る各ピッチが歌唱音声合成
用の音声ピッチに変換される。ピッチ変換データにおい
て、複数の音声ピッチとして歌唱者の複数の発声ピッチ
をそれぞれ用いると、合成歌唱音声において歌唱者の発
声ピッチやピッチ特徴を再現することができ、例えば発
声可能な上限ピッチの近くではピッチを若干低くすると
共に発声可能な下限ピッチの近くではピッチを若干高く
することができる。
手段は、歌唱者を示す歌唱者データを入力し、前記記憶
手段は、前記ピッチ変換データを歌唱者毎に記憶し、前
記変換手段は、前記歌唱者データの示す歌唱者に対応す
るピッチ変換データに基づいてピッチ変換を行なうよう
にしてもよい。このようにすると、歌唱者毎に発声ピッ
チやピッチ特徴を再現することができる。
変換の際に入力ピッチに依存する乱数的な(ランダム
な)ピッチ変動を音声ピッチに付与するようにしてもよ
い。このようにすると、合成歌唱音声に一層自然なピッ
チ変化を付与することができる。また、ピッチ変換の際
に歌唱者の実際の音声に含まれる経時的なピッチ変動を
音声ピッチに付与するようにしてもよい。このようにす
ると、歌唱者の経時的に不安定なピッチ変動を再現する
ことができる。
ピッチデータの示すピッチを有する歌唱音声信号を合成
する歌唱合成手段を備えた歌唱合成装置において使用さ
れるピッチ変換装置であって、合成すべき順次の歌唱音
声にそれぞれ対応して順次にピッチを入力する入力手段
と、複数の入力ピッチのうちの各入力ピッチ毎に該入力
ピッチに対する音声ピッチの経時的変動分を示すピッチ
差分データを記憶する記憶手段と、前記入力手段から入
力されるピッチ毎に該ピッチに対応するピッチ差分デー
タを前記記憶手段から読出すと共に入力に係るピッチに
対して読出しに係るピッチ差分データの示す音声ピッチ
の経時的変動分を加算してピッチ変換を行ない、このピ
ッチ変換後のピッチを示すデータを前記ピッチデータと
して前記歌唱合成手段に供給する変換手段とを備えたも
のである。
ッチ変換装置に関して前述したと同様にピッチ変換を行
なうことができる。その上、ピッチ差分データを用いて
ピッチ変換を行なうので、少ない記憶データ量で歌唱者
の発声ピッチの経時的変動を再現可能である。
手段は、歌唱者を示す歌唱者データを入力し、前記記憶
手段は、前記複数の入力ピッチにそれぞれ対応する複数
のピッチ差分データを歌唱者毎に記憶し、前記変換手段
は、前記歌唱者データの示す歌唱者に対応する複数のピ
ッチ差分データのうち前記入力手段から入力されたピッ
チに対応するピッチ差分データを前記記憶手段から読出
してピッチ変換を行なうようにしてもよい。このように
すると、歌唱者毎に発声ピッチの経時的変動を再現可能
である。
複数の入力ピッチをそれぞれ複数の音声ピッチに変換す
るためのピッチ変換データを記憶する記憶手段と、ピッ
チデータの示すピッチを有する歌唱音声信号を合成する
歌唱合成手段とを備えた歌唱合成装置において使用され
るピッチ変換方法であって、合成すべき順次の歌唱音声
にそれぞれ対応して順次にピッチを入力するステップ
と、このステップで入力されるピッチ毎に該ピッチを前
記ピッチ変換データに基づいて音声ピッチに変換し、該
音声ピッチを示すデータを前記ピッチデータとして前記
歌唱合成手段に供給するステップとを含むものである。
ッチ変換装置に関して前述したと同様にピッチ変換を行
なうことができる。
複数の入力ピッチのうちの各入力ピッチ毎に該入力ピッ
チに対する音声ピッチの経時的変動分を示すピッチ差分
データを記憶する記憶手段と、ピッチデータの示すピッ
チを有する歌唱音声信号を合成する歌唱合成手段とを備
えた歌唱合成装置において使用されるピッチ変換方法で
あって、合成すべき順次の歌唱音声にそれぞれ対応して
順次にピッチを入力するステップと、このステップで入
力されるピッチ毎に該ピッチに対応するピッチ差分デー
タを前記記憶手段から読出すと共に入力に係るピッチに
対して読出しに係るピッチ差分データの示す音声ピッチ
の経時的変動分を加算してピッチ変換を行ない、このピ
ッチ変換後のピッチを示すデータを前記ピッチデータと
して前記歌唱合成手段に供給するステップとを含むもの
である。
ッチ変換装置に関して前述したと同様にピッチ変換を行
なうことができる。
ピュータと、ピッチデータの示すピッチを有する歌唱音
声信号を合成する歌唱合成手段とを備えた歌唱合成装置
において使用されるプログラムであって、前記コンピュ
ータを、合成すべき順次の歌唱音声にそれぞれ対応して
順次にピッチを入力する入力手段と、複数の入力ピッチ
をそれぞれ複数の音声ピッチに変換するためのピッチ変
換データを記憶する記憶手段と、前記入力手段から入力
されるピッチ毎に該ピッチを前記ピッチ変換データに基
づいて音声ピッチに変換し、該音声ピッチを示すデータ
を前記ピッチデータとして前記歌唱合成手段に供給する
変換手段として機能させるものである。
ピュータを備えた歌唱合成装置において使用されるプロ
グラムであって、前記コンピュータを、合成すべき順次
の歌唱音声にそれぞれ対応して順次にピッチを入力する
入力手段と、複数の入力ピッチをそれぞれ複数の音声ピ
ッチに変換するためのピッチ変換データを記憶する記憶
手段と、前記入力手段から入力されるピッチ毎に該ピッ
チを前記ピッチ変換データに基づいて音声ピッチに変換
し、該音声ピッチを示すピッチデータを送出する変換手
段と、この変換手段から送出されるピッチデータの示す
音声ピッチを有する歌唱音声信号を合成する歌唱合成手
段として機能させるものである。
のピッチ変換装置に関して前述したと同様にピッチ変換
を行なうことができる。
ピュータと、ピッチデータの示すピッチを有する歌唱音
声信号を合成する歌唱合成手段とを備えた歌唱合成装置
において使用されるプログラムであって、前記コンピュ
ータを、合成すべき順次の歌唱音声にそれぞれ対応して
順次にピッチを入力する入力手段と、複数の入力ピッチ
のうちの各入力ピッチ毎に該入力ピッチに対する音声ピ
ッチの経時的変動分を示すピッチ差分データを記憶する
記憶手段と、前記入力手段から入力されるピッチ毎に該
ピッチに対応するピッチ差分データを前記記憶手段から
読出すと共に入力に係るピッチに対して読出しに係るピ
ッチ差分データの示す音声ピッチの経時的変動分を加算
してピッチ変換を行ない、このピッチ変換後のピッチを
示すデータを前記ピッチデータとして前記歌唱合成手段
に供給する変換手段として機能させるものである。
ピュータを備えた歌唱合成装置において使用されるプロ
グラムであって、前記コンピュータを、合成すべき順次
の歌唱音声にそれぞれ対応して順次にピッチを入力する
入力手段と、複数の入力ピッチのうちの各入力ピッチ毎
に該入力ピッチに対する音声ピッチの経時的変動分を示
すピッチ差分データを記憶する記憶手段と、前記入力手
段から入力されるピッチ毎に該ピッチに対応するピッチ
差分データを前記記憶手段から読出すと共に入力に係る
ピッチに対して読出しに係るピッチ差分データの示す音
声ピッチの経時的変動分を加算してピッチ変換を行な
い、このピッチ変換後のピッチを示すピッチデータを送
出する変換手段と、この変換手段から送出されるピッチ
データの示す音声ピッチを有する歌唱音声信号を合成す
る歌唱合成手段として機能させるものである。
のピッチ変換装置に関して前述したと同様にピッチ変換
を行なうことができる。
係る歌唱合成装置を示すものである。
チ変換装置12及び歌唱合成器18を含むもので、ピッ
チ変換装置12は、ピッチ変換器14及びデータベース
16を備えている。
タ、音声素片(単一の音素[音韻]又は音素連鎖)を示
す音声素片データ、音符のピッチ及び長さを示す音符デ
ータ、合成音声の音強度を示す音強度データ等を入力す
るもので、入力に係る音符ピッチPiを示す音符ピッチ
データ及び入力に係る歌唱者Sを示す歌唱者データは、
ピッチ変換器14に供給される。
(音符ピッチ)をそれぞれ複数の音声ピッチ(出力ピッ
チ)に変換するためのピッチ変換データがピッチ変換関
数[FT(S,p)]又はピッチ変換表の形で歌唱者毎
に記憶されている。
ぞれ対応する3つのピッチ変換関数FT(S1,p),
FT(S2,p),FT(S3,p)をデータベース1
6に記憶した例を示す。ここで、pは、入力ピッチを表
わす。
ピッチ変換器14は、入力部10からの歌唱者データの
示す歌唱者Sに対応するピッチ変換関数をデータベース
16にて参照すると共に、入力部10からの音符ピッチ
データの示す音符ピッチPiに対応する音声ピッチPo
を参照に係るピッチ変換関数に基づいて算出する。そし
て、算出された音声ピッチPoを示すピッチデータを歌
唱合成器18に出力する。
ッチ変換表の形で記憶している場合、ピッチ変換器14
は、入力部10からの歌唱者Sに対応するピッチ変換表
を参照すると共に、入力部10からの音符ピッチデータ
の示す音符ピッチPiに対応する音声ピッチPoを参照
に係るピッチ変換表から読出す。そして、読出された音
声ピッチPoを示すピッチデータを歌唱合成器18に供
給する。
者データ、音声素片データ、音符長データ及び音強度デ
ータと、ピッチ変換器14からのピッチデータとに基づ
いて歌唱音声信号を合成するものである。歌唱合成方式
としては、種々のものが公知であり、そのうちから適切
なものを選択して歌唱合成器18を構成することができ
る。
データの示す歌唱者と、音声素片データの示す音声素片
とに対応した音声成分データを用いて歌唱音声信号を合
成する。このとき、歌唱音声信号のピッチ、音長及び音
強度は、それぞれピッチデータ、音符長データ及び音強
度データに応じて決定される。
である。図3において、横軸の入力ピッチ[cent]は、
ピッチ変換器14に入力される音符ピッチに相当し、縦
軸の出力ピッチ[cent]は、ピッチ変換器14から出力
される音声ピッチに相当する。
は、所定の下限ピッチPLと所定の上限ピッチPHとの
間では出力ピッチが入力ピッチと等しいが、入力ピッチ
が上限ピッチPHより高いときは人の発声可能な上限ピ
ッチに近づくにつれて徐々に出力ピッチが入力ピッチよ
り低くなると共に、入力ピッチが下限ピッチPLより低
いときは人の発声可能な下限ピッチに近づくにつれて徐
々に出力ピッチが入力ピッチより高くなるような形状に
なっている。このような形状を数式的に表現すると、次
の数1に示す通りである。
ピッチより最大で数10セント程度低くなると共にp<
PLの領域では出力ピッチが入力ピッチより最大で数1
0セント程度高くなるようなピッチ変換関数を用いるこ
とができる。
唱者毎に適切な形状のものが用意され、図2に関して前
述したように歌唱者毎にデータベース16に記憶され
る。ピッチ変換器14は、入力に係る歌唱者Sに対応す
るピッチ変換関数を参照して入力ピッチPiを出力ピッ
チPoに変換する。このようなピッチ変換を数式的に表
現すると、次の数2の通りである。
例を示すもので、(A)は、変換前のピッチ変化(入力
ピッチの変化)を示し、(B)は、変換後のピッチ変化
(出力ピッチの変化)を示す。図4(A)において、順
次の入力ピッチは、合成すべき順次の歌唱音声にそれぞ
れ対応するものである。図4によれば、PLより低音域
では、出力ピッチが入力ピッチより高くなると共にPH
より高音域では出力ピッチが入力ピッチより低くなり、
PL以上でPH以下の中音域では出力ピッチが入力ピッ
チに等しくなっているのがわかる。図4の例では、入力
ピッチを離散的に与えたが、そうである必要はなく、連
続的に与えても構わない。
似したものであるが、歌唱者やピッチに依存する乱数的
な(ランダムな)ピッチ変動分rand(S,p)を加
えた次の数3の式に示すようなピッチ変換関数を用いて
もよい。
に図4(A)に示すような順次の入力ピッチにそれぞれ
応答して順次の出力ピッチにランダムなピッチ変化が加
わるようになり、合成音声に一層自然な変化を付与する
ことができる。
16には、時間に依存しないピッチ変換関数FT(S,
p)を記憶する例を示したが、データベース16には、
時間に依存するピッチ変換関数を記憶し、このピッチ変
換関数を参照してピッチ変換を行なうようにしてもよ
い。一例としてデータベース16には、ピッチ差分ΔF
T(S,p,t)を示すピッチ差分データをピッチ変換
データとして歌唱者毎に記憶する。ピッチ差分ΔFT
(S,p,t)は、歌唱者Sが音符ピッチpに対応する
音声を発生したときに時間tの進行に従って音符ピッチ
pに対する音声ピッチの差分を表わすものである。
ッチ変換関数ΔFT(S,p,t)の形で歌唱者毎に記
憶しておいた場合、ピッチ変換器14は、入力に係る歌
唱者Sに対応するピッチ変換関数ΔFT(S,p,t)
を参照して入力ピッチPiを出力ピッチPoに変換す
る。このようなピッチ変換を数式的に表現すると、次の
数4に示す通りである。
ピッチPi対応のピッチ差分ΔFT(S,Pi,t)を
加算することにより行なわれる。
チ変換関数ΔFT(S,p,t)を記憶する代りに、ピ
ッチ差分ΔFT(S,p,t)の経時的な変化波形を表
わすピッチ差分データを記憶するようにしてもよい。図
5は、このようなピッチ差分データを歌唱者S1…Sn
(nは2以上の整数)のうちの各歌唱者毎にp1〜p2
5の25ピッチ分記憶した例を示す。ピッチp1〜p2
5は、100セント(半音)刻みで1200〜3600
[cent]となっている。データベース16にピッチ
差分データを記憶すると、後述のピッチ波形データを記
憶する場合に比べてデータ量が少なくて済む。
分データとしては、実際の歌唱に基づくものを用いると
よい。一例を示すと、歌唱者S1にピッチp1に対応す
る音声を実際に発生させると共に、ピッチp1に対する
発生音声のピッチの差分の経時的変化波形を求め、この
変化波形を表わすピッチ差分データを用いる。このよう
にすると、歌唱者の特性を反映したピッチ変化を再現可
能になると共に、より人間的な微細なピッチ変化を表現
可能になる。
に対応するピッチ差分データのうち入力ピッチPiに対
応するピッチ差分データを参照して前述の数4の式に従
って入力ピッチPiを出力ピッチPoに変換する。図6
は、図5のピッチ差分データを用いたピッチ変換の一例
を示すもので、(A)は、図4(A)と同様に変換前の
ピッチ変化(入力ピッチの変化)を示し、(B)は、変
換後のピッチ変化(出力ピッチの変化)を示す。図6に
よれば、人の発声可能な上限ピッチ又は下限ピッチの近
傍では図4に関して前述したと同様に出力が入力ピッチ
よりそれぞれ低く又は高くなると共に、人の発声可能な
上限ピッチ又は下限ピッチの近傍ではピッチの変動量
(ゆらぎ量)が大きくなることがわかる。従って、人間
的な発声ピッチやピッチ変動の再現が可能となる。
で、図5の例においてすべてのピッチに対応可能とする
には全ピッチ分のピッチ差分データを記憶することにな
り、記憶するデータ量が膨大なものになってしまう。ま
た、ピッチ差分ΔFT(S,p,t)の変化が長く継続
するピッチ差分データについても、記憶するデータ量が
膨大なものになってしまう。このような記憶データ量の
増大を回避するためには、次の(イ)又は(ロ)のよう
な対策を適宜採用することができる。
ぞれピッチ差分ΔFT(S,p,t)を表わすピッチ差
分データを記憶した場合において、入力ピッチとピッチ
が丁度一致するピッチ差分データを検出できないとき
は、入力ピッチとピッチが最も近いピッチ差分データを
参照してピッチ変換を行なう。また、入力ピッチとピッ
チが近い2つのピッチ差分データから補間により新たな
ピッチ差分データを求めてピッチ変換を行なってもよ
い。
差分の変化継続時間が所定値以内のものを記憶してお
き、入力ピッチの時間長がピッチ差分ΔFT(S,p,
t)の変化継続時間を越えたときは、ピッチ差分の変化
波形において時間0等の適当な位置に戻って再びピッチ
差分データを読出す。
は、歌唱者毎に複数のピッチにそれぞれ対応してピッチ
差分の変化波形を表わすピッチ差分データを記憶した
が、歌唱者毎に複数のピッチにそれぞれ対応してピッチ
変化波形を表わすピッチ波形データをピッチ変換データ
として記憶するようにしてもよい。この場合、入力に係
る歌唱者Sに対応する複数のピッチ波形データのうち入
力ピッチPiに対応するピッチ波形データを読出して出
力ピッチPoとすることによりピッチ変換を行なう。ピ
ッチ波形データを実際の歌唱に基づいて作成すると、歌
唱者の発声ピッチや経時的なピッチ変動を再現すること
ができる。
ナルコンピュータ等の小型コンピュータにおいてソフト
ウェア処理として実行するようにしてもよい。すなわ
ち、ROM又はRAM等の記憶手段にストアしたプログ
ラムに従ってCPU(中央処理装置)にピッチ変換処理
を実行させるようにしてもよい。
唱合成装置を示すもので、この装置は、例えば特許第2
906970号に示されるSMS(Spectral Modeling
Synthesis)技術を用いて歌唱合成を行なうものであ
る。
し、ステップS2では、入力された歌唱音声信号にSM
S分析処理及び区間切出し処理を施す。
の時間フレームに区分し、各フレーム毎にFFT(Fast
Fourier Transform)等により1組の強度(マグニチ
ュード)スペクトルデータを生成し、各フレーム毎に1
組の強度スペクトルデータから複数のピークに対応する
線スペクトルを抽出する。これらの線スペクトルの振幅
値及び周波数を表わすデータを調和成分(Deterministi
c Component)のデータと称する。次に入力音声波形の
スペクトルから調和成分のスペクトルを差引いて残差ス
ペクトルを得る。この残差スペクトルを非調和成分(St
ochastic Component)と称する。
られた調和成分のデータ及び非調和成分のデータを音声
素片に対応して区分する。音声素片とは、歌詞の構成要
素であり、例えば[a],[i]のような単一の音素
(又は音韻:Phoneme)又は例えば「a i」,「a
p」のような音素連鎖(複数音素の連鎖)からなるもの
である。
成分のデータ及び非調和成分のデータが記憶される。ま
た、データベース20には、データベース16に関して
前述したと同様にピッチ変換データ(ピッチ差分データ
又はピッチ波形データである場合も含む)が記憶されて
いる。
データ及びメロディデータを入力する。そして、ステッ
プS4では、歌詞データが表わす音素列に音素列/音声
素片変換処理を施して音素列を音声素片に区分し、音声
素片毎にそれに対応する調和成分のデータ及び非調和成
分のデータを音声素片データとしてデータベース20か
ら読出す。
読出された音声素片データ(調和成分のデータ及び非調
和成分のデータ)に音声素片接続処理を施して音声素片
データ同士を発音順に接続する。
う。すなわち,ステップS3で入力されたメロディデー
タの示す音符ピッチを前述したと同様にしてデータベー
ス20のピッチ変換データ(ピッチ差分データ又はピッ
チ波形データである場合も含む)に基づいて音声ピッチ
に変換し、該音声ピッチを示すピッチデータを生成す
る。
データとステップS6で生成されたピッチデータの示す
音声ピッチとに基づいて該音声ピッチに適合した新たな
調和成分のデータを生成する。このとき、新たな調和成
分のデータでは、ステップS5の処理を受けた調和成分
のデータが表わすスペクトル包絡の形状をそのまま引継
ぐようにスペクトル強度を調整すると、ステップS1で
入力した音声信号の音色を再現することができる。
た調和成分のデータとステップS5の処理を受けた非調
和成分のデータとを音声素片毎に加算する。そして、ス
テップS9では、ステップS8で加算処理を受けたデー
タを音声素片毎に逆FFT等により時間領域の歌唱音声
信号に変換する。ステップ9の処理の結果として得られ
る歌唱音声信号は、ディジタル形式の信号であり、D/
A変換器22によりアナログ形式の歌唱音声信号に変換
される。
いう歌唱音声を合成するには、データベース20から音
声素片「#s」、「s a」、「a」、「a i」、
「i」、「i t」、「t a」、「a」、「a#」(#
は無音を表わす)にそれぞれ対応する音声素片データを
読出してステップS5で接続する。そして、ステップS
7では、音声素片毎にステップS6での変換に係るピッ
チを有する調和成分のデータを生成し、ステップS8の
加算処理、ステップS9の変換処理及び変換器22のD
/A変換処理を経ると、「サイタ」の歌唱音声信号が得
られる。
ーソナルコンピュータ等の小型コンピュータにおいてソ
フトウエア処理として実行してもよく、あるいは電子回
路等のハードウェアを用いて実行してもよい。
手段に記憶したピッチ変換データを用いて入力音符ピッ
チを歌唱合成用の音声ピッチに変換する構成にしたの
で、歌唱者の発声ピッチや経時的なピッチ変動を再現で
きる効果が得られる。また、人間の実際の発声における
経時的に不安定なピッチ変動を忠実に再現したり、音域
による発声ピッチの精度の違いを表現したり、歌唱者に
よるピッチ変化の違いを表現したりすることも可能とな
る。
ータの示す音声ピッチの変動分を加算してピッチ変換を
行なう構成にしたので、記憶するデータ量が少なくて済
む利点もある。
示すブロック図である。
ック図である。
一例を示す図であり、(A)は、変換前のピッチ変化を
示すグラフ、(B)は、変換後のピッチ変化を示すグラ
フである。
憶状況を示すグラフである。
の一例を示す図であり、(A)は、変換前のピッチ変化
を示すグラフ、(B)は、変換後のピッチ変化を示すグ
ラフである。
を示すブロック図である。
換器、16,20:データベース、18:歌唱合成器、
22:D/A変換器、S1:歌唱音声信号入力処理、S
2:SMS分析及び区間切出し処理、S3:歌詞データ
及びメロディデータ入力処理、S4:音素列−音声素片
変換処理、S5:音声素片接続処理、S6:ピッチ変換
処理、S7:調和成分生成処理、S8:加算処理、S
9:時間領域の歌唱音声信号に変換する処理。
Claims (12)
- 【請求項1】 ピッチデータの示すピッチを有する歌唱
音声信号を合成する歌唱合成手段を備えた歌唱合成装置
において使用されるピッチ変換装置であって、 合成すべき順次の歌唱音声にそれぞれ対応して順次にピ
ッチを入力する入力手段と、 複数の入力ピッチをそれぞれ複数の音声ピッチに変換す
るためのピッチ変換データを記憶する記憶手段と、 前記入力手段から入力されるピッチ毎に該ピッチを前記
ピッチ変換データに基づいて音声ピッチに変換し、該音
声ピッチを示すデータを前記ピッチデータとして前記歌
唱合成手段に供給する変換手段とを備えたピッチ変換装
置。 - 【請求項2】 前記入力手段は、歌唱者を示す歌唱者デ
ータを入力し、前記記憶手段は、前記ピッチ変換データ
を歌唱者毎に記憶し、前記変換手段は、前記歌唱者デー
タの示す歌唱者に対応するピッチ変換データに基づいて
ピッチ変換を行なう請求項1記載のピッチ変換装置。 - 【請求項3】 前記変換手段は、ピッチ変換の際に入力
ピッチに依存する乱数的なピッチ変動を音声ピッチに付
与する請求項1又は2記載のピッチ変換装置。 - 【請求項4】 前記変換手段は、ピッチ変換の際に経時
的なピッチ変動を音声ピッチに付与する請求項1又は2
記載のピッチ変換装置。 - 【請求項5】 ピッチデータの示すピッチを有する歌唱
音声信号を合成する歌唱合成手段を備えた歌唱合成装置
において使用されるピッチ変換装置であって、 合成すべき順次の歌唱音声にそれぞれ対応して順次にピ
ッチを入力する入力手段と、 複数の入力ピッチのうちの各入力ピッチ毎に該入力ピッ
チに対する音声ピッチの経時的変動分を示すピッチ差分
データを記憶する記憶手段と、 前記入力手段から入力されるピッチ毎に該ピッチに対応
するピッチ差分データを前記記憶手段から読出すと共に
入力に係るピッチに対して読出しに係るピッチ差分デー
タの示す音声ピッチの経時的変動分を加算してピッチ変
換を行ない、このピッチ変換後のピッチを示すデータを
前記ピッチデータとして前記歌唱合成手段に供給する変
換手段とを備えたピッチ変換装置。 - 【請求項6】 前記入力手段は、歌唱者を示す歌唱者デ
ータを入力し、前記記憶手段は、前記複数の入力ピッチ
にそれぞれ対応する複数のピッチ差分データを歌唱者毎
に記憶し、前記変換手段は、前記歌唱者データの示す歌
唱者に対応する複数のピッチ差分データのうち前記入力
手段から入力されたピッチに対応するピッチ差分データ
を前記記憶手段から読出してピッチ変換を行なう請求項
5記載のピッチ変換装置。 - 【請求項7】 複数の入力ピッチをそれぞれ複数の音声
ピッチに変換するためのピッチ変換データを記憶する記
憶手段と、ピッチデータの示すピッチを有する歌唱音声
信号を合成する歌唱合成手段とを備えた歌唱合成装置に
おいて使用されるピッチ変換方法であって、 合成すべき順次の歌唱音声にそれぞれ対応して順次にピ
ッチを入力するステップと、 このステップで入力されるピッチ毎に該ピッチを前記ピ
ッチ変換データに基づいて音声ピッチに変換し、該音声
ピッチを示すデータを前記ピッチデータとして前記歌唱
合成手段に供給するステップとを含むピッチ変換方法。 - 【請求項8】 複数の入力ピッチのうちの各入力ピッチ
毎に該入力ピッチに対する音声ピッチの経時的変動分を
示すピッチ差分データを記憶する記憶手段と、ピッチデ
ータの示すピッチを有する歌唱音声信号を合成する歌唱
合成手段とを備えた歌唱合成装置において使用されるピ
ッチ変換方法であって、 合成すべき順次の歌唱音声にそれぞれ対応して順次にピ
ッチを入力するステップと、 このステップで入力されるピッチ毎に該ピッチに対応す
るピッチ差分データを前記記憶手段から読出すと共に入
力に係るピッチに対して読出しに係るピッチ差分データ
の示す音声ピッチの経時的変動分を加算してピッチ変換
を行ない、このピッチ変換後のピッチを示すデータを前
記ピッチデータとして前記歌唱合成手段に供給するステ
ップとを含むピッチ変換方法。 - 【請求項9】 コンピュータと、ピッチデータの示すピ
ッチを有する歌唱音声信号を合成する歌唱合成手段とを
備えた歌唱合成装置において使用されるプログラムであ
って、前記コンピュータを、 合成すべき順次の歌唱音声にそれぞれ対応して順次にピ
ッチを入力する入力手段と、 複数の入力ピッチをそれぞれ複数の音声ピッチに変換す
るためのピッチ変換データを記憶する記憶手段と、 前記入力手段から入力されるピッチ毎に該ピッチを前記
ピッチ変換データに基づいて音声ピッチに変換し、該音
声ピッチを示すデータを前記ピッチデータとして前記歌
唱合成手段に供給する変換手段として機能させるプログ
ラム。 - 【請求項10】 コンピュータと、ピッチデータの示す
ピッチを有する歌唱音声信号を合成する歌唱合成手段と
を備えた歌唱合成装置において使用されるプログラムで
あって、前記コンピュータを、 合成すべき順次の歌唱音声にそれぞれ対応して順次にピ
ッチを入力する入力手段と、 複数の入力ピッチのうちの各入力ピッチ毎に該入力ピッ
チに対する音声ピッチの経時的変動分を示すピッチ差分
データを記憶する記憶手段と、 前記入力手段から入力されるピッチ毎に該ピッチに対応
するピッチ差分データを前記記憶手段から読出すと共に
入力に係るピッチに対して読出しに係るピッチ差分デー
タの示す音声ピッチの経時的変動分を加算してピッチ変
換を行ない、このピッチ変換後のピッチを示すデータを
前記ピッチデータとして前記歌唱合成手段に供給する変
換手段として機能させるプログラム。 - 【請求項11】 コンピュータを備えた歌唱合成装置に
おいて使用されるプログラムであって、前記コンピュー
タを、 合成すべき順次の歌唱音声にそれぞれ対応して順次にピ
ッチを入力する入力手段と、 複数の入力ピッチをそれぞれ複数の音声ピッチに変換す
るためのピッチ変換データを記憶する記憶手段と、 前記入力手段から入力されるピッチ毎に該ピッチを前記
ピッチ変換データに基づいて音声ピッチに変換し、該音
声ピッチを示すピッチデータを送出する変換手段と、 この変換手段から送出されるピッチデータの示す音声ピ
ッチを有する歌唱音声信号を合成する歌唱合成手段とし
て機能させるプログラム。 - 【請求項12】 コンピュータを備えた歌唱合成装置に
おいて使用されるプログラムであって、前記コンピュー
タを、 合成すべき順次の歌唱音声にそれぞれ対応して順次にピ
ッチを入力する入力手段と、 複数の入力ピッチのうちの各入力ピッチ毎に該入力ピッ
チに対する音声ピッチの経時的変動分を示すピッチ差分
データを記憶する記憶手段と、 前記入力手段から入力されるピッチ毎に該ピッチに対応
するピッチ差分データを前記記憶手段から読出すと共に
入力に係るピッチに対して読出しに係るピッチ差分デー
タの示す音声ピッチの経時的変動分を加算してピッチ変
換を行ない、このピッチ変換後のピッチを示すピッチデ
ータを送出する変換手段と、 この変換手段から送出されるピッチデータの示す音声ピ
ッチを有する歌唱音声信号を合成する歌唱合成手段とし
て機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002152787A JP3966074B2 (ja) | 2002-05-27 | 2002-05-27 | ピッチ変換装置、ピッチ変換方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002152787A JP3966074B2 (ja) | 2002-05-27 | 2002-05-27 | ピッチ変換装置、ピッチ変換方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003345400A true JP2003345400A (ja) | 2003-12-03 |
JP3966074B2 JP3966074B2 (ja) | 2007-08-29 |
Family
ID=29770040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002152787A Expired - Fee Related JP3966074B2 (ja) | 2002-05-27 | 2002-05-27 | ピッチ変換装置、ピッチ変換方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3966074B2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006030610A (ja) * | 2004-07-16 | 2006-02-02 | Yamaha Corp | 音声合成用スクリプト生成装置、音声合成装置、音声合成用スクリプト生成プログラム及び音声合成プログラム |
US7825321B2 (en) | 2005-01-27 | 2010-11-02 | Synchro Arts Limited | Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals |
JP2012037722A (ja) * | 2010-08-06 | 2012-02-23 | Yamaha Corp | 音合成用データ生成装置およびピッチ軌跡生成装置 |
JP2012058306A (ja) * | 2010-09-06 | 2012-03-22 | Yamaha Corp | 音合成用確率モデル生成装置および特徴量軌跡生成装置 |
JP2013164609A (ja) * | 2013-04-15 | 2013-08-22 | Yamaha Corp | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
JP2013195699A (ja) * | 2012-03-19 | 2013-09-30 | Yamaha Corp | 歌唱合成装置および歌唱合成プログラム |
CN104347080A (zh) * | 2013-08-09 | 2015-02-11 | 雅马哈株式会社 | 语音分析方法和装置、语音合成方法和装置、以及存储语音分析程序的介质 |
JP2016161919A (ja) * | 2015-03-05 | 2016-09-05 | ヤマハ株式会社 | 音声合成装置 |
CN109829482A (zh) * | 2019-01-04 | 2019-05-31 | 平安科技(深圳)有限公司 | 歌曲训练数据处理方法、装置及计算机可读存储介质 |
CN111081265A (zh) * | 2019-12-26 | 2020-04-28 | 广州酷狗计算机科技有限公司 | 音高处理方法、装置、设备及存储介质 |
-
2002
- 2002-05-27 JP JP2002152787A patent/JP3966074B2/ja not_active Expired - Fee Related
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006030610A (ja) * | 2004-07-16 | 2006-02-02 | Yamaha Corp | 音声合成用スクリプト生成装置、音声合成装置、音声合成用スクリプト生成プログラム及び音声合成プログラム |
JP4622356B2 (ja) * | 2004-07-16 | 2011-02-02 | ヤマハ株式会社 | 音声合成用スクリプト生成装置及び音声合成用スクリプト生成プログラム |
US7825321B2 (en) | 2005-01-27 | 2010-11-02 | Synchro Arts Limited | Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals |
JP2012037722A (ja) * | 2010-08-06 | 2012-02-23 | Yamaha Corp | 音合成用データ生成装置およびピッチ軌跡生成装置 |
US8916762B2 (en) | 2010-08-06 | 2014-12-23 | Yamaha Corporation | Tone synthesizing data generation apparatus and method |
JP2012058306A (ja) * | 2010-09-06 | 2012-03-22 | Yamaha Corp | 音合成用確率モデル生成装置および特徴量軌跡生成装置 |
JP2013195699A (ja) * | 2012-03-19 | 2013-09-30 | Yamaha Corp | 歌唱合成装置および歌唱合成プログラム |
JP2013164609A (ja) * | 2013-04-15 | 2013-08-22 | Yamaha Corp | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
CN104347080A (zh) * | 2013-08-09 | 2015-02-11 | 雅马哈株式会社 | 语音分析方法和装置、语音合成方法和装置、以及存储语音分析程序的介质 |
EP2838082A1 (en) * | 2013-08-09 | 2015-02-18 | Yamaha Corporation | Voice analysis method and device, voice synthesis method and device, and medium storing voice analysis program |
JP2016161919A (ja) * | 2015-03-05 | 2016-09-05 | ヤマハ株式会社 | 音声合成装置 |
CN109829482A (zh) * | 2019-01-04 | 2019-05-31 | 平安科技(深圳)有限公司 | 歌曲训练数据处理方法、装置及计算机可读存储介质 |
CN109829482B (zh) * | 2019-01-04 | 2023-10-27 | 平安科技(深圳)有限公司 | 歌曲训练数据处理方法、装置及计算机可读存储介质 |
CN111081265A (zh) * | 2019-12-26 | 2020-04-28 | 广州酷狗计算机科技有限公司 | 音高处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP3966074B2 (ja) | 2007-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3985814B2 (ja) | 歌唱合成装置 | |
JP3815347B2 (ja) | 歌唱合成方法と装置及び記録媒体 | |
JP5471858B2 (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
JP6733644B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
WO2018084305A1 (ja) | 音声合成方法 | |
JP3941611B2 (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP6724932B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
US20210375248A1 (en) | Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium | |
JP6821970B2 (ja) | 音声合成装置および音声合成方法 | |
JP2003255974A (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP3711880B2 (ja) | 音声分析及び合成装置、方法、プログラム | |
JP3966074B2 (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
JP6977818B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
US20220084492A1 (en) | Generative model establishment method, generative model establishment system, recording medium, and training data preparation method | |
JP4349316B2 (ja) | 音声分析及び合成装置、方法、プログラム | |
JP3540159B2 (ja) | 音声変換装置及び音声変換方法 | |
US20030046079A1 (en) | Voice synthesizing apparatus capable of adding vibrato effect to synthesized voice | |
EP1505570B1 (en) | Singing voice synthesizing method | |
JP3540609B2 (ja) | 音声変換装置及び音声変換方法 | |
JP2018077281A (ja) | 音声合成方法 | |
JP3294192B2 (ja) | 音声変換装置及び音声変換方法 | |
JP4207237B2 (ja) | 音声合成装置およびその合成方法 | |
JPH1031496A (ja) | 楽音発生装置 | |
RU2591640C1 (ru) | Способ модификации голоса и устройство для его осуществления (варианты) | |
JP2000003187A (ja) | 音声特徴情報記憶方法および音声特徴情報記憶装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061205 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20070302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070409 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070508 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070521 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100608 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110608 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120608 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120608 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130608 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140608 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |