JP2015161774A - 音合成方法及び音合成装置 - Google Patents

音合成方法及び音合成装置 Download PDF

Info

Publication number
JP2015161774A
JP2015161774A JP2014036603A JP2014036603A JP2015161774A JP 2015161774 A JP2015161774 A JP 2015161774A JP 2014036603 A JP2014036603 A JP 2014036603A JP 2014036603 A JP2014036603 A JP 2014036603A JP 2015161774 A JP2015161774 A JP 2015161774A
Authority
JP
Japan
Prior art keywords
spectrum
group delay
sound
signal
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014036603A
Other languages
English (en)
Other versions
JP6347536B2 (ja
Inventor
秀樹 坂野
Hideki Sakano
秀樹 坂野
裕展 西脇
Hironobu Nishiwaki
裕展 西脇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meijo University
Original Assignee
Meijo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meijo University filed Critical Meijo University
Priority to JP2014036603A priority Critical patent/JP6347536B2/ja
Publication of JP2015161774A publication Critical patent/JP2015161774A/ja
Application granted granted Critical
Publication of JP6347536B2 publication Critical patent/JP6347536B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

【課題】高品質の合成音を容易に生成することができる音合成方法を提供する。
【解決手段】音合成方法は、予め定めた周期性を表す指標の値と群遅延スペクトルの変動量との対応関係に基づいて、指標の任意の値に対応させた群遅延スペクトルの変動量を生成する第1工程S3と、この群遅延スペクトルの変動量を用いて群遅延スペクトルを生成する第2工程S4と、この群遅延スペクトルを積分又は累積和を計算して位相スペクトルに変換する第3工程S5と、任意の振幅スペクトル又は任意のスペクトル包絡と、第3工程S5で変換された位相スペクトルとを組み合わせて複素スペクトルを求め、この複素スペクトルを逆フーリエ変換して1周期分の信号である1ピッチ波形を生成する第4工程S6と、この1ピッチ波形を重畳加算して合成音を生成する第5工程S7とを備えており、第2工程S4から第5工程S7を繰り返して合成用フレーム長の合成音を生成する。
【選択図】図2

Description

本発明は音合成方法及び音合成装置に関するものである。
本発明の音合成方法及び音合成装置は、音声信号の音色を変換する際に基板技術として用いられる音声分析合成方式を拡張するものである。音声分析合成方式は、多くの場合、声の高さに関する情報である基本周波数、声道の情報を表すスペクトル包絡、及び無声音か有声音かを表す有声無声判定情報の3つの時間的に変化する情報を音声波形から分析して抽出し、これら情報から合成音を生成する。
スペクトル包絡は、音声信号の分析において求められる振幅スペクトルから、声の高さにも関係する周波数方向に変化する細かい変動情報を除去したものである。また、スペクトル包絡は音の音色の情報に深く関係している。つまり、音声において、スペクトル包絡は声道の情報と密接な関係にあり、誰が話しているかを表す話者性の情報や、何を話しているかを表す音韻性の情報を多分に含んでいる。
音声分析合成方式は音声信号から声道の情報を分離して表現することから、声道の制御が容易である。しかし、音声分析合成方式は、音声波形に含まれる情報の中で、振幅スペクトルと対になる位相スペクトルの情報をほとんど含んでいない。位相スペクトルは声帯振動における雑音性の情報等を多く含んでいる。そこで、音声分析合成方式は位相スペクトルを有声無声判定情報という縮退した情報に置き換えて合成音を生成している。この場合、アナウンサーのような声帯振動が規則的な音声であれば、このような縮退した情報であっても問題は少ないが、ハスキーな声やガラガラ声等の声帯振動が特殊な音声を入力し、再合成した場合は合成音の劣化が発生する。
さらに、近年では歌声合成システムにおいて、歌手が声帯の振動を積極的に制御するシャウト唱法やスクリーム唱法等を再現可能なシステムの実現の期待が高まっている。これらの音声も声帯振動がきわめて特殊であり、既存の音声分析合成方式では高品質な再現が難しい。声帯振動が特殊な音声の音声波形そのものを大量に収録しておき、それを使用する方法が用いられることも有るが、収録したものしか再現できないため、ユーザーが所望する声帯振動を再現することは困難である。
そこで、非特許文献1は、雑音性の強い声帯振動を持つ音声を高品質に再合成したり、雑音性を強調したりすることができる従来の音声分析合成方式を開示している。この音声分析合成方式は、位相スペクトルと同等の情報を持つ群遅延スペクトルを音声信号から抽出し、その値を増幅することによって、声帯振動の雑音性を強調することができる。
また、特許文献1は従来の音声合成方式を開示している。この音声合成方式は位相スペクトルの情報を変化させるものである。
特開平10−97287号公報
坂野秀樹、陸金林、中村哲、鹿野清宏、河原英紀、「時間領域平滑化群遅延による位相制御を用いた声質制御方式」、電子情報通信学会論文誌、D−II,Vol.J83−D−II,No.11,pp.2276−2282,2000年11月
しかし、非特許文献1の音声分析合成方式は、群遅延スペクトルを安定して取り出すために、ピッチマーキングという前処理が必要になる。ピッチマーキングは、誤りの多い自動処理であるため、誤りが多く発生した場合は、手動で修正を行わないと高い品質の音声合成ができない。また、特許文献1の音声合成方式は、入力音声の位相スペクトルの情報を利用するものではなく、単に位相スペクトルの情報を変化させるものである。
本発明は、上記従来の実情に鑑みてなされたものであって、高品質の合成音を容易に生成することができる音合成方法及び音合成装置を提供することを解決すべき課題としている。
本発明の音合成方法は、合成音を生成する音合成方法であって、
予め定めた周期性を表す指標の値と群遅延スペクトルの変動量との対応関係に基づいて、前記指標の任意の値に対応させた群遅延スペクトルの変動量を生成する第1工程と、
この第1工程で生成された前記群遅延スペクトルの変動量を用いて群遅延スペクトルを生成する第2工程と、
この第2工程で生成された群遅延スペクトルを積分又は累積和を計算して位相スペクトルに変換する第3工程と、
任意の振幅スペクトル又は任意のスペクトル包絡と、前記第3工程で変換された前記位相スペクトルとを組み合わせて複素スペクトルを求め、この複素スペクトルを逆フーリエ変換して1周期分の信号である1ピッチ波形を生成する第4工程と、
この第4工程で生成した前記1ピッチ波形を重畳加算して合成音を生成する第5工程とを備えており、
前記第2工程から第5工程を繰り返して合成用フレーム長の合成音を生成することを特徴とする。
また、本発明の音合成装置は、合成音を生成する音合成装置であって、
予め定めた指標の値と群遅延スペクトルの変動量との対応関係を記憶した記憶部と、
この記憶部に記憶された前記指標の値と前記群遅延スペクトルの変動量との対応関係に基づいて、前記指標の任意の値に対応させた群遅延スペクトルの変動量を生成する群遅延変動量生成部と、
この群遅延変動量生成部で生成された前記群遅延スペクトルの変動量を用いて群遅延スペクトルを生成する群遅延生成部と、
この群遅延生成部で生成された群遅延スペクトルを積分又は累積和を計算して位相スペクトルに変換する位相生成部と、
任意の振幅スペクトル又は任意のスペクトル包絡と、前記位相生成部で変換された前記位相スペクトルとを組み合わせて複素スペクトルを求め、この複素スペクトルを逆フーリエ変換して1周期分の信号である1ピッチ波形を生成する1ピッチ波形生成部と、
この第1ピッチ波形生成部で生成した前記1ピッチ波形を重畳加算して合成音を生成する重畳加算部とを備えている。
この音合成方法及び音合成装置は群遅延スペクトルの変動量と対応関係にある周期性を表す指標を利用して合成音を生成する。周期性を表す指標の値は群遅延スペクトルの変動量とは対応関係にあるため、予め定めておき、指標の任意の値に対応させて群遅延スペクトルの変動量を生成することができる。これは、群遅延スペクトルを忠実に再現するのではなく、各帯域における群遅延スペクトルの変動の度合いを再現することで、雑音性を有する合成音の生成を可能にするものである。
したがって、本発明の音合成方法及び音合成装置は高品質の合成音を容易に生成することができる。
実施例1の音合成装置を示すブロック図である。 実施例1の音合成方法を示すフローチャートである。 尖度の値を示すグラフである。 群遅延スペクトルの変動量を示すグラフである。 指標−群遅延変動量対応を示すグラフである。 群遅延スペクトルを示すグラフである。 位相スペクトルを示すグラフである。 スペクトル包絡を示すグラフである。 1ピッチ波形を示すグラフである。 合成音を示すグラフである。 実施例2の音合成装置を示すブロック図である。 実施例2の音合成方法を示すフローチャートである。
本発明における好ましい実施の形態を説明する。
本発明の音合成方法において、前記指標の任意の値は入力された音信号に対して設定した時間長さのフレーム長の分析用信号から抽出され得る。この場合、入力された音信号から群遅延スペクトルを抽出するよりも容易に抽出することができる指標を抽出するため、入力された音信号の分析を容易に行うことができる。
本発明の音合成方法及び音合成装置において、前記指標は尖度又はスペクトルフラットネスであり得る。この場合、尖度の値及びスペクトルフラットネスの値は群遅延スペクトルの変動量に対応しており、音信号から容易かつ安定して抽出することができる。
本発明の音合成方法において、前記任意の振幅スペクトル又は任意のスペクトル包絡は、入力された音信号に対して設定した時間長さのフレーム長の分析用信号から抽出され得る。この場合、位相スペクトルと組み合わせて複素スペクトルを求める際の振幅スペクトル又はスペクトル包絡を分析用信号から抽出したものを利用することによって、入力された音信号により近い合成音を生成することができる。
本発明の音合成方法において、前記第2工程で生成される前記群遅延スペクトルは群遅延スペクトルの変動量に所定の係数を乗じて生成され得る。この場合、群遅延スペクトルの変動量に乗じる所定の係数によって、合成音の雑音性を増幅させたり、減衰させたりすることができる。
本発明の音合成方法において、前記第2工程で生成される前記群遅延スペクトルは群遅延スペクトルの変動量に乱数を乗じて生成され得る。この場合、群遅延スペクトルの変動量に乗じる乱数によって、合成音の雑音性を増幅させたり、減衰させたりすることができると共に、合成音の雑音感をより良好に生成することができる。
本発明の音合成装置において、入力された音信号に対して設定した時間長さのフレーム長毎に分析用信号を抽出する分析用信号抽出部と、この分析用信号抽出部で抽出された前記分析用信号から周期性を表す前記指標の値を抽出する指標抽出部とを備え得る。この場合、分析用信号から抽出する周期性を表す指標の値は、分析用信号から群遅延スペクトルを抽出するよりも容易に抽出することができるため、入力された音信号の分析を容易に行うことができる。
本発明の音合成装置において、入力された音信号に対して設定した時間長さのフレーム長毎に分析用信号を抽出する分析用信号抽出部と、この分析用信号抽出部で抽出された前記分析用信号から前記振幅スペクトル又は前記スペクトル包絡を抽出するスペクトル抽出部とを備え得る。この場合、分析用信号抽出部で入力された音信号から分析用信号を抽出し、スペクトル抽出部で分析用信号から振幅スペクトル又はスペクトル包絡を抽出する。これによって、位相スペクトルと組み合わせて複素スペクトルを求める際の振幅スペクトル又はスペクトル包絡を分析用信号から抽出したものを利用することができ、入力された音信号により近い合成音を生成することができる。
次に、本発明の音合成方法及び音合成装置を具体化した実施例1及び2について、図面を参照しつつ説明する。
<実施例1>
実施例1の音合成装置は、図1に示すように、分析部10と合成部20とを備えている。分析部10は、分析用信号抽出部11、スペクトル抽出部12、基本周波数抽出部13、及び指標抽出部14を有している。合成部20は群遅延変動量生成部21、群遅延生成部22、位相生成部23、1ピッチ波形生成部24、重畳加算部25、及び記憶部26を有している。この音合成装置を利用した音合成方法は、音合成装置に入力された音信号を分析部10で分析し、分析によって得られた情報に基づき、合成部20で合成音を生成する。
この音合成装置を利用した音合成方法は、図2に示すように、先ず、分析用信号抽出部11において、音合成装置に入力された音信号に対し、分析開始点から設定した時間長さのフレーム長の分析用信号を抽出する(ステップS1)。必要に応じて、抽出した分析用信号に分析窓を乗じる。以下において、このフレームにおけるフレーム番号をmとする。
次に、指標抽出部14において、分析用信号抽出部11で抽出された分析用信号から周期性を表す指標である尖度の値Km(f)を抽出する(ステップS2)。尖度の値Km(f)は、図3に示すように、周波数fに依存し、群遅延スペクトルの変動量Wm(f)に対応している。尖度の値Km(f)は容易かつ安定して音信号から抽出することができるため、入力された音信号の分析を容易に行うことができる。また、周波数に応じて変化する尖度の値Km(f)を用いることによって、高品質な合成音を生成することができる。
次に、群遅延変動量生成部21において、群遅延スペクトルの変動量Wm(f)を生成する第1工程を実行する(ステップS3)。第1工程で生成された群遅延スペクトルの変動量Wm(f)を図4に示す。この群遅延スペクトルの変動量Wm(f)は、記憶部26に蓄積された「指標−群遅延変動量対応情報」(図5参照)に基づいて生成される。尖度の値Km(f)と群遅延スペクトルの変動量Wm(f)との対応関係は、実験的に予め定めておき、記憶部26に「指標−群遅延変動量対応情報」として蓄積されている。指標である尖度の値Km(f)と群遅延スペクトルの変動量Wm(f)との対応関係を表す関数Ψを周波数fと尖度の値Km(f)に依存したものであるとすると、Wm(f)=Ψ(f,Km(f))と表すことができる。
ここでは、まず、人工的に群遅延スペクトルの変動量Wm(f)を与えて作成した信号から尖度の値Km(f)を観察し、これらの関係をシグモイド関数に基づく式1で近似した。
ここで、b,c,dは、実験データから観察される尖度の値Km(f)と群遅延スペクトルの変動量Wm(f)とが最も良く対応付けられるように決められた定数である。また、a(f)も尖度の値Km(f)と群遅延スペクトルの変動量Wm(f)とが最もよく対応付けられるように定めた関数であり、例えば、シグモイド関数に基づく式2を利用することができる。
ここで、p,qもb,c,dと同様、実際のデータから観測される尖度の値Km(f)と群遅延スペクトルの変動量Wm(f)とが最も良く対応付けられるように決められた定数である。そして、Ψ-1(f,W)を用い、Wに関して逆関数を求めたものをΨ(f,W)とした。式1及び式2から式3になる。なお、必要に応じてa(f)はfに依存しない定数としてもよい。
次に、群遅延生成部22において、第1工程で生成された群遅延スペクトルの変動量Wm(f)を用いて合成用フレーム(フレーム番号をnとする)に対する群遅延スペクトルDn(f)を生成する第2工程を実行する(ステップS4)。第2工程で生成された群遅延スペクトルDn(f)を図6に示す。この群遅延スペクトルDn(f)は、Wm(f)に依存する変動量をもつものであればよく、乱数生成器を用いて、平均値0、分散1の乱数Nn(f)を生成し、それに対して群遅延スペクトルの変動量Wm(f)を乗じたものである。合成音の雑音性を増幅させたり、減衰させたりする場合は、この重みに対して非零の係数αを乗ずればよい。この場合、生成される群遅延スペクトルDn(f)は、Dn(f)=αWm(f)Nn(f)と表される。このように、乱数Nn(f)を乗ずることによって合成音の雑音感を良好に生成することができる。
次に、位相生成部23において、第2工程で生成された群遅延スペクトルDn(f)を積分して位相スペクトルθn(f)に変換する第3工程を実行する(ステップS5)。第3工程で変換された位相スペクトルθn(f)を図7に示す。また、この変換は式4に表される。なお、この位相スペクトルθn(f)に対しては、例えば、基本周波数の値に応じた位置のずれを再現するための変形等、他の変形を加えることもある。
次に、1ピッチ波形生成部24において、図8に示すスペクトル包絡Am(f)と、第3工程で生成された位相スペクトルθn(f)とを組み合わせて複素スペクトルYn(f)を求める。スペクトル包絡Am(f)は、分析部10のスペクトル抽出部12において、分析用信号から抽出したものである(ステップS6−1)。このため、入力された音信号により近い合成音を生成することができる。複素スペクトルYn(f)は式5に表させる。求められた複素スペクトルYn(f)を逆フーリエ変換して、図9に示す1周期分の信号(1ピッチ波形)yn(t)を生成する第4工程を実行する(ステップS6)。
次に、第4工程で生成した1ピッチ波形を分析部10の基本周波数抽出部13において分析用信号から抽出した基本周波数の値(ステップS7−1)を用いて重畳加算し、合成音を生成する第5工程を実行する(ステップS7)。加算開始位置は基本周期に基づいて更新する。分析フレームの更新が必要になるまで、第2工程から第5工程を繰り返す。
分析フレームの更新が必要になった場合(ステップS8)、分析開始点を更新し、分析用信号抽出部11で次の分析用信号を抽出し(ステップS1)、上述した各処理を実行する。合成用フレームnにおける加算開始位置をtnとすると、第2工程から第5工程を繰り返した処理後の合成音sm(t)は、繰り返し処理前の合成音sm-1(t)を用いて式6と表される。ここで、nmは分析用フレームmにおける合成用フレームの最初のフレーム番号を表す。Nmは分析用フレームmにおける合成の繰り返し回数を表す。
このようにして生成された合成音を図10に示す。この音合成方法及び音合成装置は群遅延スペクトルの変動量と対応関係にある周期性を表す指標として尖度を利用して合成音を生成する。尖度の値Km(f)は群遅延スペクトルの変動量Wm(f)とは対応関係にあるため、予め定めておき、分析用信号から抽出した尖度の値Km(f)に対応させて群遅延スペクトルの変動量Wm(f)を生成することができる。これは、群遅延スペクトルを忠実に再現するのではなく、各帯域における群遅延スペクトルの変動の度合いを再現することで、雑音性を有する合成音の生成を可能にするものである。
したがって、実施例1の音合成方法及び音合成装置は雑音性を有する合成音の生成を容易にすることができる。
<実施例2>
実施例2の音合成装置は、図11に示すように、分析部110において、線形予測分析部15、及び線形予測残差抽出部16を有し、合成部120において、残差駆動合成部27を有する点で実施例1と相違する。他の構成は実施例1と同様であり、同一の構成は同一の符号を付し、詳細な説明を省略する。
この音合成装置を利用した音合成方法は、図12に示すように、線形予測残差駆動型分析合成方式を利用するものである。つまり、1ピッチ波形生成部24において、線形予測残差抽出部16で抽出した線形予測残差信号の振幅スペクトルAm(f)(ステップS6−2)と、第3工程(ステップS5)で生成された位相スペクトルθn(f)とを組み合わせて複素スペクトルYn(f)を求め、逆フーリエ変換して、1周期分の信号(1ピッチ波形)を生成する第4工程を実行する(ステップS6)。
その後、重畳加算部25において、合成音を生成する第5工程を実行し(ステップS7)、線形予測残差駆動型分析合成方式に対して与える線形予測残差信号として利用する。そして、残差駆動合成部27において、分析フレーム毎に線形予測分析部15において抽出した線形予測係数(ステップS9−1)を用い、この線形予測残差信号で駆動して合成音を生成する(ステップS9)。
この音合成方法及び音合成装置も群遅延スペクトルの変動量と対応関係にある周期性を表す指標として尖度を利用して合成音を生成する。尖度の値Km(f)は群遅延スペクトルの変動量Wm(f)とは対応関係にあるため、予め定めておき、分析用信号から抽出した尖度の値Km(f)に対応させて群遅延スペクトルの変動量Wm(f)を生成することができる。これは、群遅延スペクトルを忠実に再現するのではなく、各帯域における群遅延スペクトルの変動の度合いを再現することで、雑音性を有する合成音の生成を可能にするものである。
したがって、実施例2の音合成方法及び音合成装置も雑音性を有する合成音の生成を容易にすることができる。
本発明は上記記述及び図面によって説明した実施例1及び2に限定されるものではなく、例えば次のような実施例も本発明の技術的範囲に含まれる。
(1)実施例1及び2では、分析部を有して音合成装置に入力した音信号を分析し、分析した各信号を基にして合成部で合成音を生成したが、分析部を有さず、蓄積した信号を基に合成部で合成音を生成してもよい。
(2)実施例1及び2では、周期性を表す指標として尖度を利用したが、尖度の代わりにスペクトルフラットネス、その他の周期性を表す指標を利用してもよい。
(3)実施例1及び2では、周波数に応じて変化する尖度を用いたが、全体域で1つの指標を用いてもよい。
(4)実施例1及び2では、分析用信号から尖度を抽出したが、スペクトル包絡の情報を取り除いた後の振幅スペクトルや、線形予測残差信号の振幅スペクトルから指標を抽出してもよい。
(5)実施例1及び2では、群遅延生成部において、乱数を群遅延スペクトルの変動量に乗じたが、乱数の代わりに適当に生成しておいた群遅延スペクトルを群遅延データベースとして用意しておき、それに対して同様の処理をしてもよい。
(6)実施例1及び2では、位相生成部において、群遅延スペクトルを積分して位相スペクトルに変換したが、群遅延スペクトルの累積和を計算して位相スペクトルに変換してもよい。
(7)実施例1及び2では、1ピッチ波形生成部において、スペクトル包絡と位相スペクトルを組み合わせて複素スペクトルを求めたが、スペクトル包絡の代わりに振幅スペクトルを利用してもよい。
本発明は、ハスキーさの再現や協調が可能なリアルタイム声質変換システム、シャウト・スクリーム唱法を再現・強調できる歌声合成システム、ハスキーさを制御できるテキスト音声合成システム、音色の雑音性を自在に制御できる音楽用シンセサイザーに利用可能である。
S3…第1工程
S4…第2工程
S5…第3工程
S6…第4工程
S7…第5工程
11…分析用信号抽出部
12…スペクトル抽出部
14…指標抽出部
21…群遅延変動量生成部
22…群遅延生成部
23…位相生成部
24…1ピッチ波形生成部
25…重畳加算部
26…記憶部

Claims (10)

  1. 合成音を生成する音合成方法であって、
    予め定めた周期性を表す指標の値と群遅延スペクトルの変動量との対応関係に基づいて、前記指標の任意の値に対応させた群遅延スペクトルの変動量を生成する第1工程と、
    この第1工程で生成された前記群遅延スペクトルの変動量を用いて群遅延スペクトルを生成する第2工程と、
    この第2工程で生成された群遅延スペクトルを積分又は累積和を計算して位相スペクトルに変換する第3工程と、
    任意の振幅スペクトル又は任意のスペクトル包絡と、前記第3工程で変換された前記位相スペクトルとを組み合わせて複素スペクトルを求め、この複素スペクトルを逆フーリエ変換して1周期分の信号である1ピッチ波形を生成する第4工程と、
    この第4工程で生成した前記1ピッチ波形を重畳加算して合成音を生成する第5工程とを備えており、
    前記第2工程から第5工程を繰り返して合成用フレーム長の合成音を生成することを特徴とする音合成方法。
  2. 前記指標の任意の値は、入力された音信号に対して設定した時間長さのフレーム長の分析用信号から抽出される請求項1記載の音合成方法。
  3. 前記指標は尖度又はスペクトルフラットネスである請求項1又は2記載の音合成方法。
  4. 前記任意の振幅スペクトル又は任意のスペクトル包絡は、入力された音信号に対して設定した時間長さのフレーム長の分析用信号から抽出される請求項1乃至3のいずれか1項記載の音合成方法。
  5. 前記第2工程で生成される前記群遅延スペクトルは群遅延スペクトルの変動量に所定の係数を乗じて生成される請求項1乃至4のいずれか1項記載の音合成方法。
  6. 前記第2工程で生成される前記群遅延スペクトルは群遅延スペクトルの変動量に乱数を乗じて生成される請求項1乃至5のいずれか1項記載の音合成方法。
  7. 合成音を生成する音合成装置であって、
    予め定めた指標の値と群遅延スペクトルの変動量との対応関係を記憶した記憶部と、
    この記憶部に記憶された前記指標の値と前記群遅延スペクトルの変動量との対応関係に基づいて、前記指標の任意の値に対応させた群遅延スペクトルの変動量を生成する群遅延変動量生成部と、
    この群遅延変動量生成部で生成された前記群遅延スペクトルの変動量を用いて群遅延スペクトルを生成する群遅延生成部と、
    この群遅延生成部で生成された群遅延スペクトルを積分又は累積和を計算して位相スペクトルに変換する位相生成部と、
    任意の振幅スペクトル又は任意のスペクトル包絡と、前記位相生成部で変換された前記位相スペクトルとを組み合わせて複素スペクトルを求め、この複素スペクトルを逆フーリエ変換して1周期分の信号である1ピッチ波形を生成する1ピッチ波形生成部と、
    この第1ピッチ波形生成部で生成した前記1ピッチ波形を重畳加算して合成音を生成する重畳加算部とを備えていることを特徴とする音合成装置。
  8. 入力された音信号に対して設定した時間長さのフレーム長毎に分析用信号を抽出する分析用信号抽出部と、
    この分析用信号抽出部で抽出された前記分析用信号から周期性を表す前記指標の値を抽出する指標抽出部とを備えている請求項7記載の音合成装置。
  9. 入力された音信号に対して設定した時間長さのフレーム長毎に分析用信号を抽出する分析用信号抽出部と、
    この分析用信号抽出部で抽出された前記分析用信号から前記振幅スペクトル又は前記スペクトル包絡を抽出するスペクトル抽出部とを備えている請求項7又は8記載の音合成装置。
  10. 前記指標は尖度又はスペクトルフラットネスである請求項7乃至9のいずれか1項記載の音合成装置。
JP2014036603A 2014-02-27 2014-02-27 音合成方法及び音合成装置 Active JP6347536B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014036603A JP6347536B2 (ja) 2014-02-27 2014-02-27 音合成方法及び音合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014036603A JP6347536B2 (ja) 2014-02-27 2014-02-27 音合成方法及び音合成装置

Publications (2)

Publication Number Publication Date
JP2015161774A true JP2015161774A (ja) 2015-09-07
JP6347536B2 JP6347536B2 (ja) 2018-06-27

Family

ID=54184909

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014036603A Active JP6347536B2 (ja) 2014-02-27 2014-02-27 音合成方法及び音合成装置

Country Status (1)

Country Link
JP (1) JP6347536B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107924686A (zh) * 2015-09-16 2018-04-17 株式会社东芝 语音处理装置、语音处理方法以及语音处理程序
CN109952609A (zh) * 2016-11-07 2019-06-28 雅马哈株式会社 声音合成方法
CN112820267A (zh) * 2021-01-15 2021-05-18 科大讯飞股份有限公司 波形生成方法以及相关模型的训练方法和相关设备、装置
CN113643717A (zh) * 2021-07-07 2021-11-12 深圳市联洲国际技术有限公司 一种音乐节奏检测方法、装置、设备及存储介质
CN114360490A (zh) * 2022-01-26 2022-04-15 腾讯科技(深圳)有限公司 语音合成方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004049304A1 (ja) * 2002-11-25 2004-06-10 Matsushita Electric Industrial Co., Ltd. 音声合成方法および音声合成装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004049304A1 (ja) * 2002-11-25 2004-06-10 Matsushita Electric Industrial Co., Ltd. 音声合成方法および音声合成装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
中野倫靖 他: "歌声・音声分析合成のためのF0適応多重フレーム統合分析に基づくスペクトル包絡と群遅延の推定法", 情報処理学会研究報告, vol. 2012, no. 7, JPN6017038472, 15 October 2012 (2012-10-15), pages 1 - 9 *
坂野秀樹 他: "時間領域平滑化群遅延による位相制御を用いた声質制御方式", 電子情報通信学会論文誌D-II, vol. Vol.J83-D-II,No.11, JPN6017038471, 25 November 2000 (2000-11-25), pages 2276 - 2282 *
河原英紀 他: "尖度に基づく音響的イベントの検出と音声分析変換合成システムへの応用について", 日本音響学会2010年春季研究発表会講演論文集CD-ROM, JPN6017038469, 1 March 2010 (2010-03-01), pages 315 - 316 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107924686A (zh) * 2015-09-16 2018-04-17 株式会社东芝 语音处理装置、语音处理方法以及语音处理程序
CN109952609A (zh) * 2016-11-07 2019-06-28 雅马哈株式会社 声音合成方法
CN109952609B (zh) * 2016-11-07 2023-08-15 雅马哈株式会社 声音合成方法
CN112820267A (zh) * 2021-01-15 2021-05-18 科大讯飞股份有限公司 波形生成方法以及相关模型的训练方法和相关设备、装置
CN113643717A (zh) * 2021-07-07 2021-11-12 深圳市联洲国际技术有限公司 一种音乐节奏检测方法、装置、设备及存储介质
CN114360490A (zh) * 2022-01-26 2022-04-15 腾讯科技(深圳)有限公司 语音合成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
JP6347536B2 (ja) 2018-06-27

Similar Documents

Publication Publication Date Title
US8280738B2 (en) Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
JP5275102B2 (ja) 音声合成装置及び音声合成方法
US20180174571A1 (en) Speech processing device, speech processing method, and computer program product
JP6791258B2 (ja) 音声合成方法、音声合成装置およびプログラム
JP2012048154A (ja) 音声合成装置、音声合成方法およびプログラム
JP6347536B2 (ja) 音合成方法及び音合成装置
JP6733644B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP2009163121A (ja) 音声処理装置及びそのプログラム
JP6876642B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
JP6821970B2 (ja) 音声合成装置および音声合成方法
JP2010014913A (ja) 声質変換音声生成装置および声質変換音声生成システム
JP2018077283A (ja) 音声合成方法
WO2020095951A1 (ja) 音響処理方法および音響処理システム
CN116168678A (zh) 语音合成方法、装置、计算机设备和存储介质
JP6977818B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP2013033103A (ja) 声質変換装置および声質変換方法
JP2007249009A (ja) 音響信号分析方法および音響信号合成方法
JP6834370B2 (ja) 音声合成方法
JP2018077280A (ja) 音声合成方法
JP6409417B2 (ja) 音響処理装置
JP6822075B2 (ja) 音声合成方法
JP7088403B2 (ja) 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム
JP6011039B2 (ja) 音声合成装置および音声合成方法
JP2018004997A (ja) 音声合成装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161013

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180528

R150 Certificate of patent or registration of utility model

Ref document number: 6347536

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250