JP2011247921A - 信号合成方法、信号合成装置及びプログラム - Google Patents

信号合成方法、信号合成装置及びプログラム Download PDF

Info

Publication number
JP2011247921A
JP2011247921A JP2010117960A JP2010117960A JP2011247921A JP 2011247921 A JP2011247921 A JP 2011247921A JP 2010117960 A JP2010117960 A JP 2010117960A JP 2010117960 A JP2010117960 A JP 2010117960A JP 2011247921 A JP2011247921 A JP 2011247921A
Authority
JP
Japan
Prior art keywords
signal
frequency
periodic
time
fundamental frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010117960A
Other languages
English (en)
Inventor
Hideyuki Mizuno
秀之 水野
Mitsuaki Isogai
光昭 磯貝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010117960A priority Critical patent/JP2011247921A/ja
Publication of JP2011247921A publication Critical patent/JP2011247921A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】特徴量から高速かつ高精度に時系列信号を合成する。
【解決手段】時系列信号の周期成分の周波数スペクトルに対応する周期特徴量と任意に選択された基本周波数とを用い、それぞれの周波数が基本周波数の整数倍である複数の正弦波の重畳によって、基本周波数と周期特徴量とに対応する時間領域の第1信号を生成し、時系列信号の非周期成分の周波数スペクトルに対応する非周期特徴量を用い、複数の正弦波の重畳によって、非周期特徴量に対応する時間領域の第2信号を生成し、第1信号と第2信号との和を合成信号とする。
【選択図】図1

Description

本発明は、時系列信号の分析により得られた特徴量やその特徴量に対して何らかの加工が行われた特徴量から時系列信号を合成する技術に関する。
近年、音声信号の分析により得られた特徴量やその特徴量に対して何らかの加工が行われた特徴量から高品質な音声信号を合成する技術が提案されており、従来の線形予測に基づくVocoderと比較して肉声に近い音声の合成が可能となってきている。例えば、STRAIGHT分析合成方式(例えば、非特許文献1参照)は代表的な高品質分析合成法であり、音声合成や聴覚実験等多くの分野で使用されている。また一方で正弦波重畳に基づく分析合成方法(正弦波重畳方式)も高品質な音声合成方式として有用であり、基本周波数の制御の自由度が高いことから歌唱音声合成やテキスト音声合成などの分野で利用されている。本方式では例えばHMN分析合成方式(例えば、非特許文献2参照)が近年実用的に利用されている代表的な例としてあげられる。
Hideki Kawahara, "STRAIGHT, exploitation of the other aspect of VOCODER : Perceptually isomorphic decomposition of speech sounds", Acoustic Science and Technology, Vol.27, No.6, pp.349-353, 2006 Laroche, J. Stylianou, Y. Moulines, E., "HNS: Speech modification based on a harmonic + noise model," in Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing’93, Minneapolis, MN, Apr. 1993, pp.550-553
しかし、上記の従来技術には以下のような課題がある。
まず、STRAIGHT分析合成方式の課題は合成処理にかかる処理量の多さである。STRAIGHTでは周期成分と非周期成分を独立に合成しそれを有声音では1ピッチ周期単位、無声音では決められた一定周期単位で、周期成分と非周期成分重ね合わせることで音声波形を生成する。その際周期成分、非周期成分ともに高次元のスペクトル特徴量から有声音では1周期毎、無声音では1フレーム単位で音声を合成し重ねわせている。これらの処理は周期成分の周波数に合わせた郡遅延の制御やスペクトル領域でのフィルタ処理など非常に複雑な処理の組み合わせにより実現されているため処理速度が極めて遅い。
次に、正弦波重畳方式の課題は合成処理で得られる信号の品質である。正弦波重畳方式では、分析処理時に得られた単純な白色性の残差を合成処理時の非周期成分として用いている。しかしながら、実際の音声では、非特許文献1でも示されている通り非周期成分であってもスペクトル特性を有している。そのため、実際の合成処理時において、分析処理に得られた単純な白色性の残差を非周期成分として周期成分と混合したのでは得られる合成信号の品質が劣化する。また、テキスト音声合成において応用する場合には音声合成時に分析時とは異なる基本周波数で合成することになるため、分析時に得られた残差成分をそのまま非周期成分として用いると合成信号の品質が劣化する。
なお、これらの課題は音声合成の場合に限定されるものではなく、時系列信号の分析により得られた特徴量やその特徴量に対して何らかの加工が行われた特徴量から時系列信号を合成する場合一般に共通するものである。
本発明はこのような点に鑑みてなされたものであり、時系列信号の分析により得られた特徴量やその特徴量に対して何らかの加工が行われた特徴量から高速かつ高精度に時系列信号を合成する技術を提供することを目的とする。
本発明では上記課題を解決するために、時系列信号の周期成分の周波数スペクトルに対応する周期特徴量と任意に選択された基本周波数とを用い、それぞれの周波数が基本周波数の整数倍である複数の正弦波の重畳によって、基本周波数と周期特徴量とに対応する時間領域の第1信号を生成し、時系列信号の非周期成分の周波数スペクトルに対応する非周期特徴量を用い、複数の正弦波の重畳によって、非周期特徴量に対応する時間領域の第2信号を生成し、第1信号と第2信号との和を合成信号とする。
ここで、周期成分に対応する第1信号は周波数が基本周波数の整数倍である複数の正弦波の重畳によって生成されるため、その生成のための演算量が少ない。また、非周期成分に対応する第2信号は複数の正弦波の重畳によって生成されるため、白色性の残差を用いて非周期成分を生成する場合に比べて合成信号の品質がよい。
以上のように本発明では、時系列信号の分析により得られた特徴量やその特徴量に対して何らかの加工が行われた特徴量から高速かつ高精度に時系列信号を合成することができる。
図1は、実施形態の信号合成装置の機能構成を説明するための図である。 図2は、実施形態の周期成分合成部の機能構成を説明するための図である。 図3は、実施形態の非周期成分合成部の機能構成を説明するための図である。 図4は、実施形態の信号合成方法を説明するための図である。 図5は、図4のステップS13の処理を説明するための図である。 図6は、図4のステップS14の処理を説明するための図である。 図7は、スペクトル特徴量と周期特徴量とを例示した図である。 図8は、周期特徴量を例示した図である。 図9は、それぞれ周波数が基本周波数の整数倍である正弦波を例示した図である。 図10は、スペクトル特徴量と非周期特徴量とを例示した図である。を例示した図である。 図11は、非周期特徴量を例示した図である。
以下、図面を参照して本発明の実施形態を説明する。
〔原理〕
まず、本形態の原理を説明する。
本形態では、時系列信号の周期成分の周波数スペクトルに対応する周期特徴量と任意に選択された基本周波数とを用い、それぞれの周波数が基本周波数の整数倍である複数の正弦波の重畳によって、基本周波数と周期特徴量とに対応する時間領域の第1信号を生成し、時系列信号の非周期成分の周波数スペクトルに対応する非周期特徴量を用い、複数の正弦波の重畳によって、非周期特徴量に対応する時間領域の第2信号を生成し、第1信号と第2信号との和を合成信号とする。ここで、本形態の時系列信号は、周期的成分と非周期的成分とを含み得る時系列の信号であり、その例は、音声信号、音響信号、映像情報、生体信号、地震波信号などである。また、本形態の第1信号は、基本周波数の整数倍である各周波数での周期特徴量の振幅スペクトルと当該基本周波数の整数倍である各周波数の正弦波との各積の和に対応する信号である。また、本形態の第2信号は、任意の各周波数での非周期特徴量の振幅スペクトルと当該任意の各周波数の正弦波との各積の和に対応する信号である。また、本形態の基本周波数は、周波数スペクトルから独立に定められた値である。
本形態では、周波数が基本周波数の整数倍である複数の正弦波の重畳によって周期成分に対応する第1信号が生成されるため、その生成のための演算量が少ない。同様に、複数の正弦波の重畳によって非周期成分に対応する第2信号が生成されるため、その生成のための演算量が少ない。また、複数の正弦波の重畳によって非周期成分に対応する第2信号が生成されるため、白色性の残差を用いて非周期成分を生成する場合に比べて合成信号の品質がよい。よって、本形態では、上述の周期特徴量や非周期特徴量から高速かつ高精度に時系列信号を合成することができる。
以下に周期特徴量や非周期特徴量から時系列信号を合成する方法の例を説明する。以下の例では、時系列信号の周波数スペクトルに対するスペクトル包絡を「スペクトル特徴量」とし、時系列信号の周期成分の周波数スペクトルに対するスペクトル包絡を「周期特徴量」とし、時系列信号の非周期成分の周波数スペクトルに対するスペクトル包絡を「非周期特徴量」とする。
<周期特徴量から時系列信号の周期成分(第1信号)を計算する方法>
図7の破線のグラフは時系列信号の周期成分の周波数スペクトルに対するスペクトル包絡(周期特徴量)を例示し、実線のグラフは時系列信号の周期成分の周波数スペクトルに対するスペクトル包絡(周期特徴量)を例示する。また、図8の実線のグラフは周期特徴量を例示し、白丸は選択された基本周波数の整数倍での周期特徴量を例示する。なお、図7及び図8の横軸は、離散周波数0,fs/L,…,fs(L-1)/Lに対するサンプル点0,1,...,(L-1)/Lを表す(周波数サンプル点)。ここで、fsはサンプリング周波数を表し、Lは周波数窓幅である正整数(スペクトル特徴量の次数)であり、図7の例ではL=512である。また、図7及び図8の縦軸は振幅スペクトルを表す。
本形態では、任意に選択された基本周波数を持つ時系列信号の周期成分(第1信号)を周期特徴量から合成する。このような第1信号は、任意に選択された基本周波数の整数倍の周波数を有する周期特徴量の高調波成分の総和で表現可能である。なお、「周期特徴量の高調波成分」とは、基本周波数の整数倍の周波数における周期特徴量の振幅スペクトルと当該基本周波数の整数倍での周波数の正弦波との積を意味する。具体的には、離散時間t(i) (iは整数)における第1信号Sp(t(i))は、例えば以下のように表現可能である。
Sp(t(i))=Σk=1 N Ak(t(i))・sin(2π・k・f0(t(i))・t(i))
k=1 N Ak(t(i))・sin(2π・k・f0(t(i))・(t(i-1)+Δt))
k=1 N Ak(t(i))・sin(θk,t(i)k,t(i)) …(1)
ただし、離散時間t(i)での選択された基本周波数をf0(t(i))と表し、離散時間t(i)に対応する各周波数k・f0(t(i))での周期特徴量の振幅スペクトル(高調波成分の振幅)をAk(t(i))と表し(図8参照)、離散時間t(i)よりも1離散時間過去の離散時間をt(i-1)と表し、離散時間t(i-1)と離散時間t(i)との差分(1離散時間間の時間差分)を定数Δtとし、θk,t(i)=2π・k・f0(t(i))・t(i-1)とし、ωk,t(i)=2π・k・f0(t(i))・Δtとし、Nを正整数とし、kを1以上N以下の整数とする。また、Nの例はシステムに許容された帯域幅をBWとした場合におけるBW/f0(t(i))以下の正整数である。従って概念的には図9で例示するような正弦波の重ね合わせで周期成分(第1信号)が生成できる。
ここで計算処理における問題はsin関数の計算時間である。計算を高速化するための一般的な方法として、テーブル化のような方法で三角関数の値を予め求めておき、それを用いた近似計算によって必要なsin関数の値を求める方法等がある。しかしながら、本形態のように基本周波数が任意の値に変更されることや離散時間t(i)の値が非常に大きくなることを考えると、近似計算を行うと誤差が大きくなり、生成される信号に歪が生じることになる。そこで、本形態では、以下のような方法で精度を保ったまま高速計算を行う。
まず、本形態では、或る時間区間内では基本周波数が一定であると仮定する。例えば、有声音などの時系列信号では基本周期(基本周波数の逆数)単位で基本周波数が更新され、基本周期内では基本周波数が一定であると仮定する。
ここで、上記の式(1)のsin(θk,t(i)k,t(i))は以下のように展開できる。
sin(θk,t(i)k,t(i))=sin(θk,t(i))・cos(ωk,t(i))+cos(θk,t(i))・sin(ωk,t(i)) …(2)
cos(θk,t(i)k,t(i))=cos(θk,t(i))・cos(ωk,t(i))-sin(θk,t(i))・sin(ωk,t(i)) …(3)
また、αk,t(i)=sin(θk,t(i)k,t(i))とし、βk,t(i)=cos(θk,t(i)k,t(i))とし、δs k,t(i)=sin(ωk,t(i))とし、δc k,t(i)=cos(ωk,t(i))とする。ここで、
αk,t(i-1)=sin(θk,t(i-1)k,t(i-1))=sin(θk,t(i)) …(4)
βk,t(i-1)=cos(θk,t(i-1)k,t(i-1))=cos(θk,t(i)) …(5)
となるため、式(2)(3)は以下のように変形できる。
αk,t(i)k,t(i-1)・δc k,t(i)t(i-1)・δs k,t(i) …(6)
βk,t(i)k,t(i-1)・δc k,t(i)t(i-1)・δs k,t(i) …(7)
離散時間t(i-1),t(i)を含む時間区間で基本周波数が一定であってf0(t(i-1))=f0(t(i))である場合、δc k,t(i-1)c k,t(i)かつδs k,t(i-1)s k,t(i)となり、この時間区間内(基本周期内等)においてδc k,t(i)及びδs k,t(i)は定数とみなせ、式(6)(7)は固定係数の単純な漸化式となり、高速に計算可能となる。そして、式(6)で得られたαk,t(i)を用いて
Sp(t(i))=Σk=1 N Ak(t(i))・αk,t(i) …(8)
によって離散時間t(i)での第1信号Sp(t(i))を計算できる。
<非周期特徴量から時系列信号の非周期成分(第2信号)を計算する方法>
図10の破線のグラフは、図7と同じ周期特徴量を例示し、実線のグラフは、時系列信号の非周期成分の周波数スペクトルに対するスペクトル包絡(非周期特徴量)を例示する。また、図11の実線のグラフは非周期特徴量を例示し、白丸は選択された各離散周波数0,fs/L,…,fs(L-1)/Lでの非周期特徴量を例示する。なお、図10及び図11の横軸は、離散周波数0,fs/L,…,fs(L-1)/Lに対するサンプル点0,1,...,(L-1)/Lを表す(周波数サンプル点)。ここで、図10の例ではL=512である。また、図10及び図11の縦軸は振幅スペクトルを表す。
本形態では、非周期特徴量から時系列信号の非周期成分(第2信号)を合成する。このような第2信号は、非周期特徴量の基底周波数fb=fs/Lに対する高調波成分の総和で表現可能である。なお、「非周期特徴量の基底周波数fb=fs/Lに対する高調波成分」とは、基底周波数fbの整数倍の周波数での非周期特徴量の振幅スペクトルと当該周波数の正弦波との積を意味する。具体的には、離散時間t(i)における第2信号Sa(t(i))は、例えば以下のように表現可能である。
Sa(t(i))=Σm=1 M Bm(t(i))・sin(2π・m・fb・t(i))
m=1 M Bm(t(i))・sin(2π・m・fb・(t(i-1)+Δt))
m=1 M Bm(t(i))・sin(θm,t(i)m) …(9)
ただし、離散時間t(i)に対応する各周波数m・fbでの周期特徴量の振幅スペクトルをBm(t(i))と表し(図11参照)、θm,t(i)=2π・m・fb・t(i-1)とし、ωm=2π・m・fb・Δtとし、MをM≦Lを満たす正整数(定数)とし、mを1以上M以下の整数とする。なお、サンプリング周波数fs及びスペクトル特徴量の次数Lは一定であるため、基底周波数fb=fs/Lも一定値となる。
ここで、周期成分と同様、非周期成分の計算処理における問題はsin関数の計算時間である。本形態では、以下のような方法で精度を保ったまま高速計算を行う。
ここで、上記の式(9)のsin(θm,t(i)m)は以下のように展開できる。
sin(θm,t(i)m)=sin(θm,t(i))・cos(ωm)+cos(θm,t(i))・sin(ωm) …(10)
cos(θm,t(i)m)=cos(θm,t(i))・cos(ωm)-sin(θm)・sin(ωm) …(11)
また、γm,t(i)=sin(θm,t(i)m)とし、ηm,t(i)=cos(θm,t(i)m)とし、εs m=sin(ωm)とし、εc m=cos(ωm)とする。ここで、
γm,t(i-1)=sin(θm,t(i-1)m)=sin(θm,t(i)) …(12)
ηm,t(i-1)=cos(θm,t(i-1)m)=cos(θm,t(i)) …(13)
となるため、式(10)(11)は以下のように変形できる。
γm,t(i)m,t(i-1)・εc mt(i-1)・εs m …(14)
ηm,t(i)m,t(i-1)・εc mt(i-1)・εs m …(15)
ここで、基底周波数fbは一定であるためωmは一定となりεs m及びεc mも一定となる。よって、εs m及びεc mは定数とみなせ、式(14)(15)は固定係数の単純な漸化式となり、高速に計算可能となる。そして、式(14)で得られたγm,t(i)を用いて
Sa(t(i))=Σm=1 M Bm(t(i))・γm,t(i) …(16)
によって離散時間t(i)での第2信号Sa(t(i))を計算できる。
<周期成分(第1信号)と非周期成分(第2信号)とから合成信号を生成する方法>
以上のように得られた離散時間t(i)での第1信号Sp(t(i))と第2信号Sa(t(i))とを用い、以下のようにSp(t(i))とSa(t(i))との和を離散時間t(i)での合成信号S(t(i))とする。
S(t(i))=Sp(t(i))+Sa(t(i)) …(17)
〔第1実施形態〕
次に、本発明の第1実施形態を説明する。なお、以下では、時系列信号が音声信号である場合を例示する。
<構成>
図1に例示するように、第1実施形態の信号合成装置1は、記憶部11と制御部12と基本周波数入力部13と信号入力部14と分析部15と周期成分合成部16と非周期成分合成部17と信号加算部18とを有する。図2に例示するように、本形態の周期成分合成部16は、判定部161と計算部162〜164と漸化式計算部165と抽出部166とN設定部167と重畳部168と記憶部169とを有する。図3に例示するように、本形態の非周期成分合成部17は、判定部171と計算部172,173と漸化式計算部175と抽出部176と重畳部178と記憶部179とを有する。
なお、信号合成装置1は、例えば、CPU(central processing unit)、RAM(random-access memory)、ROM(read-only memory)などを有する公知又は専用コンピュータと特別なプログラムとから構成される。すなわち、記憶部11,169,179は、例えば、RAM、レジスタ、キャッシュメモリ、ハードディスクやそれらを結合した記憶領域である。また、制御部12、分析部15、周期成分合成部16、非周期成分合成部17、及び信号加算部18は、例えば、特別なプログラムが読み込まれたCPUやメモリからなる処理部である。また、基本周波数入力部13や信号入力部14は、例えば、特別なプログラムが読み込まれたCPUやメモリや入力ポートなどからなる入力インタフェースである。なお、上記の特別なプログラムは、単一のプログラム列として構成されていてもよく、また、特別なプログラムの少なくとも一部が別個のモジュールとしてライブラリに格納されていてもよい。また、上記の特別なプログラム単体で本形態の機能を実現できるものでもよいし、上記の特別なプログラムがさらに他のライブラリ(記載していない)を読み出して各機能を実現してもよい。また、処理部の少なくとも一部が集積回路によって構成されていてもよい。また、信号合成装置1は、制御部12の制御のもと各処理を実行する。また、以下では説明を省略するが、各処理部が生成した各データは必要に応じて記憶部11に格納され、必要に応じてそれを必要とする処理部に読み出されて利用される。
<処理>
以下では、離散時間t(i)での処理を説明する。同様な処理が各離散時間t(i)で実行される。
まず、離散時間t(i)において、時系列信号である音声信号X(τ)(τ=t(i)-L/2,...,t(i),...,t(i)+(L/2)-1)が信号入力部14に入力される(図4/ステップS11)。音声信号X(τ)(τ=t(i)-L/2,...,t(i),...,t(i)+(L/2)-1)は分析部15に入力され、分析部15は、音声信号X(τ)(τ=t(i)-L/2,...,t(i),...,t(i)+(L/2)-1)を分析することで、離散時間t(i)における各離散周波数m'・fb(m'=0,...,(L-1)/L)でのスペクトル特徴量Sf(t(i),m')と、スペクトル特徴量Sf(t(i),m')に対する周期特徴量の比率を表す周期成分情報p(t(i),m')と、スペクトル特徴量Sf(t(i),m')に対する非周期特徴量の比率を表す非周期成分情報n(t(i),m')を生成して出力する。なお、分析部15で行われる分析方法に限定はなく、公知のどのような方法を用いてもよい。例えば、この分析方法としてはSTRAIGHT分析合成方式(例えば、非特許文献1参照)が代表的な例だが、他にも参考文献「B. Yegnanarayana,. Senior Member, IEEE,. Christophe d'Alessandro,. Member, IEEE, and Vassilis Darsinos, "An Iterative Algorithm for Decomposition of Speech Signals into Periodic and Aperiodic Components", IEEE Trans. On Speech and Audio Processing, Vol 6, No.1, pp.1-11, 1998」に記載された方法が用いられてもよい。
スペクトル特徴量Sf(t(i),m')と周期特徴量の比率を表す周期成分情報p(t(i),m')とは周期成分合成部16に入力される。周期成分合成部16は、スペクトル特徴量Sf(t(i),m')と周期成分情報p(t(i),m')とから特定される周期特徴量と、基本周波数入力部13から入力された任意に選択された基本周波数f(t(i))とを用い、それぞれの周波数が基本周波数f(t(i))の整数倍である複数の正弦波の重畳によって、基本周波数f(t(i))と周期特徴量とに対応する時間領域の第1信号Sp(t(i))を生成する(ステップS13)。以下にステップS13の具体例を示す。
[ステップS13の具体例(図5)]
まず、周期成分合成部16の判定部161(図2)が、基本周波数f(t(i))が1離散時間前の基本周波数f(t(i-1))から変更されたか否かを判定する(ステップS131)。本形態では、所定の時間区間(例えば、基本周期)ごとに選択された基本周波数f(t(i-1))が基本周波数入力部13に入力されるものとする。
ここで、基本周波数f(t(i))が1離散時間前の基本周波数f(t(i-1))から変更された場合(離散時間t(i)が初期時間である場合、又は、基本周波数入力部13に新たな基本周波数f(t(i))が入力された場合)、判定部161は、計算部162〜164に指示を与え、以下のステップS132a〜S132dの処理を実行させる。
まず、N設定部167に基本周波数f(t(i))が入力され、N設定部167は基本周波数f(t(i))に対応する正整数Nを設定して出力する。例えば、N設定部167はBW/f0(t(i))(BWは固定された帯域幅)以下の最大の整数をNとする(ステップS132a)。次に、計算部162に基本周波数f(t(i))が入力され、計算部162がk=1,...,Nについて
θk,t(i)=2π・k・f0(t(i))・t(i-1) …(18)
ωk,t(i)=2π・k・f0(t(i))・Δt …(19)
を計算して出力する(ステップS132b)。ωk,t(i)は計算部164に入力され、計算部164がk=1,...,Nについて
δs k,t(i)=sin(ωk,t(i)) …(20)
δc k,t(i)=cos(ωk,t(i)) …(21)
を計算し、得られたδs k,t(i)及びδc k,t(i)を記憶部169に格納する(ステップS132c)。また、計算部162から出力されたθk,t(i)とωk,t(i)は計算部163に入力され、計算部163がk=1,...,Nについて
αk,t(i)=sin(θk,t(i)k,t(i)) …(22)
βk,t(i)=cos(θk,t(i)k,t(i)) …(23)
を計算し、得られたαk,t(i)及びβk,t(i)を記憶部169に格納し(ステップS132d)、ステップS134に進む。
一方、ステップS131で、基本周波数f(t(i))が1離散時間前の基本周波数f(t(i-1))から変更されていないと判定された場合、判定部161は漸化式計算部165に指示を与える。これを受けた漸化式計算部165は、記憶部169からαk,t(i-1)とβk,t(i-1)とδs k,t(i-1)とδc k,t(i-1)とを読み出し、δs k,t(i)s k,t(i-1)とδc k,t(i)c k,t(i-1)として、各k (k=1,...,N)に対してそれぞれ、
αk,t(i)k,t(i-1)・δc k,t(i)t(i-1)・δs k,t(i) …(24)
βk,t(i)k,t(i-1)・δc k,t(i)t(i-1)・δs k,t(i) …(25)
を計算し、得られたαk,t(i),βk,t(i)s k,t(i)及びδc k,t(i)を記憶部169に格納し(ステップS133)、ステップS134に進む。
ステップS134では、スペクトル特徴量Sf(t(i),m')と周期成分情報p(t(i),m')と基本周波数f(t(i))とが抽出部166に入力される。抽出部166は、これらを用いてk=1,...,Nに対応する各周波数k・f0(t(i))での周期特徴量の振幅スペクトルAk(t(i))を抽出して出力する(ステップS134)。各振幅スペクトルAk(t(i))は重畳部168に入力される。重畳部168はさらに記憶部169からαk,t(i)を読み出し、Ak(t(i))及びαk,t(i) (k=1,...,N)を用い、第1信号
Sp(t(i))=Σk=1 N Ak(t(i))・αk,t(i) …(26)
を計算して出力する(ステップS135/[ステップS13の具体例]の説明終わり)。
また、スペクトル特徴量Sf(t(i),m')と非周期特徴量の比率を表す非周期成分情報n(t(i),m')とが非周期成分合成部17(図1)に入力される。非周期成分合成部17は、スペクトル特徴量Sf(t(i),m')と非周期成分情報n(t(i),m')とから特定される非周期特徴量を用い、複数の正弦波の重畳によって、非周期特徴量に対応する時間領域の第2信号Sa(t(i))を生成する(図4/ステップS14)。以下にステップS14の具体例を示す。
[ステップS14の具体例(図6)]
まず、非周期成分合成部17の判定部171(図3)が、離散時間t(i)が初期時間であるか否かを判定する(ステップS141)。
ここで、離散時間t(i)が初期時間であると判定された場合、判定部171は、計算部172及び173に指示を与え、以下のステップS142a及びS142bの処理を実行させる。
まず、計算部172が
θm,t(i)=2π・m・fb・t(i-1) …(27)
を計算して出力する(ステップS142a)。θm,t(i)は計算部173に入力され、計算部173がm=1,...,M(MはM≦Lを満たす定数)について
γm,t(i)=sin(θm,t(i)m) …(28)
ηm,t(i)=cos(θm,t(i)m) …(29)
を計算し、得られたγm,t(i)及びηm,t(i)を記憶部179に格納し(ステップS142b)、ステップS144に進む。
一方、ステップS141で、離散時間t(i)が初期時間でないと判定された場合、判定部171は漸化式計算部175に指示を与える。これを受けた漸化式計算部175は、記憶部179からγm,t(i)とηm,t(i)とを読み出し、各m (m=1,...,M)に対してそれぞれ、
γm,t(i)m,t(i-1)・εc mt(i-1)・εs m …(30)
ηm,t(i)m,t(i-1)・εc mt(i-1)・εs m …(31)
を計算する。なお、前述のようにεs m及びεc mは定数となる。得られたγm,t(i)及びηm,t(i)は記憶部179に格納され(ステップS143)、ステップS144に進む。
ステップS144では、スペクトル特徴量Sf(t(i),m')と非周期成分情報n(t(i),m')とが抽出部176に入力される。抽出部176は、これらを用いてm=1,...,Mに対応する各周波数m・fbでの周期特徴量の振幅スペクトルBm(t(i))を抽出して出力する(ステップS144)。各振幅スペクトルBm(t(i))は重畳部178に入力される。重畳部178はさらに記憶部179からγm,t(i)を読み出し、Bm(t(i))及びγm,t(i) (m=1,...,M)を用い、第2信号
Sa(t(i))=Σm=1 M Bm(t(i))・γm,t(i) …(32)
を計算して出力する(ステップS145/[ステップS14の具体例]の説明終わり)。
その後、第1信号Sp(t(i))と第2信号Sa(t(i))とが信号加算部18に入力される。信号加算部18は、第1信号Sp(t(i))と第2信号Sa(t(i))とを加算し、以下のように離散時間t(i)での合成信号S(t(i))を生成し、得られた合成信号S(t(i))を出力する。
S(t(i))=Sp(t(i))+Sa(t(i)) …(33)
<本形態の特徴>
以上のように、本形態では、周期成分(第1信号)を基本周波数の整数倍の周波数を有する複数の正弦波の重畳で表現し、1サンプルあたり高々ハーモニック数分の正弦波の加算のみで周期成分(第1信号)が計算可能であるため、高速な処理が可能である。ここでハーモニック数は基本周波数の整数倍となる周期成分の個数のことである。一方、非周期成分(第2信号)についても周期成分と同様に非周期成分のスペクトル特徴量の次元数個分の正弦波の加算で計算可能であり、また各高調波の角速度は一定のため漸化式を用いることで高速な処理が可能となる。
また、周期成分(第1信号)の合成において、音声の基本周波数によって決まる基本周期の時間単位でのみ基本周波数を更新する場合、当該基本周期内で漸化式を用いた高速な演算が可能となる。
また、STRAIGHTのような一定周期単位の波形重畳により音声を生成する方法では、原理的に当該一定周期単位以下での周期の制御が困難である。これに対し、本形態では、音声の特徴分析によって得られるスペクトル特徴と周期成分情報と非周期成分情報を用い、正弦波で合成することで周期成分(第1信号)を生成することとした。そのため、本形態では、1サンプル未満の単位で自由に基本周波数の変更が可能であるとともに、非周期成分に対応する正弦波も混合することでSTRAIGHT同様に高品質な音声の合成が可能となる。
〔第2実施形態〕
次に、本発明の第2実施形態を説明する。第2実施形態は第1実施形態の変形例であり、入力された時系列信号である音声信号が有声区間のものであるか、無声区間のものであるかに応じて処理を変える。これにより、無声区間において周期成分のための不要な演算がなされることをなくし、さらに演算速度を向上させることができる。以下では、第1実施形態との共通事項を中心に説明し、第1実施形態と共通する事項については説明を省略する。
<構成>
図1に例示するように、第2実施形態の信号合成装置2は、記憶部11と制御部12と基本周波数入力部13と信号入力部14と分析部15と周期成分合成部16と非周期成分合成部17と信号加算部18と選択部21と分析部22と非周期成分合成部23とを有する。非周期成分合成部17と非周期成分合成部23との構成は同一である。なお、本形態では、非周期成分合成部17と非周期成分合成部23とを別個の構成とするが、非周期成分合成部17が非周期成分合成部23として利用されてもよい。また、信号合成装置2も、例えば、CPU、RAM、ROMなどを有する公知又は専用コンピュータと特別なプログラムとから構成される。
<処理>
以下では、離散時間t(i)での処理を説明する。同様な処理が各離散時間t(i)で実行される。
まず、離散時間t(i)において、時系列信号である音声信号X(τ)(τ=t(i)-L/2,...,t(i),...,t(i)+(L/2)-1)が信号入力部14に入力される(図4/ステップS11)。音声信号X(τ)(τ=t(i)-L/2,...,t(i),...,t(i)+(L/2)-1)は選択部21に入力され、選択部21は、音声信号X(τ)(τ=t(i)-L/2,...,t(i),...,t(i)+(L/2)-1)が音声区間のものであるか無音声区間のものであるかを判定する(ステップS21)。なお、この判定は、音声信号X(τ)(τ=t(i)-L/2,...,t(i),...,t(i)+(L/2)-1)が音声区間のものであるか無音声区間のものであるかを表す入力情報dに基づいて行われる。入力情報dは人手によって設定されたものであってもよいし、音声信号X(τ)の平均エネルギーの閾値判定などによって自動的に設定されたものであってもよい。
ここで、音声信号X(τ)(τ=t(i)-L/2,...,t(i),...,t(i)+(L/2)-1)が音声区間のものであると判定された場合には、第1実施形態で説明したステップS12〜S15の処理が実行される。
一方、音声信号X(τ)(τ=t(i)-L/2,...,t(i),...,t(i)+(L/2)-1)が無音声区間のものであると判定された場合、音声信号X(τ)(τ=t(i)-L/2,...,t(i),...,t(i)+(L/2)-1)が分析部22に入力され、分析部22は、音声信号X(τ)(τ=t(i)-L/2,...,t(i),...,t(i)+(L/2)-1)を分析することで、離散時間t(i)における各離散周波数m'・fb(m'=0,...,(L-1)/L)でのスペクトル特徴量Sf(t(i),m')と、スペクトル特徴量Sf(t(i),m')に対する非周期特徴量の比率を表す非周期成分情報n(t(i),m')とを生成して出力する。なお、分析部22で行われる分析方法に限定はなく、公知のどのような方法を用いてもよい。例えば、この分析方法としてはSTRAIGHT分析合成方式(例えば、非特許文献1参照)や前述の参考文献の方式が挙げられる(ステップS22)。次に、スペクトル特徴量Sf(t(i),m')と非周期特徴量の比率を表す非周期成分情報n(t(i),m')とが非周期成分合成部22(図1)に入力される。非周期成分合成部22は、スペクトル特徴量Sf(t(i),m')と非周期成分情報n(t(i),m')とから特定される非周期特徴量を用い、複数の正弦波の重畳によって、非周期特徴量に対応する時間領域の第2信号Sa(t(i))を生成する。なお、この処理は第1実施形態で説明したステップS14と同じである(図4/ステップS23)。非周期成分合成部22は、第2信号Sa(t(i))を合成信号
S(t(i))=Sa(t(i)) …(34)
として出力する(ステップS24)。
〔変形例等〕
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1,2 信号合成装置

Claims (8)

  1. 時系列信号の周期成分の周波数スペクトルに対応する周期特徴量と任意に選択された基本周波数とを用い、それぞれの周波数が前記基本周波数の整数倍である複数の正弦波の重畳によって、前記基本周波数と前記周期特徴量とに対応する時間領域の第1信号を生成する周期成分合成ステップと、
    前記時系列信号の非周期成分の周波数スペクトルに対応する非周期特徴量を用い、複数の正弦波の重畳によって、前記非周期特徴量に対応する時間領域の第2信号を生成する非周期成分合成ステップと、
    前記第1信号と前記第2信号との和を合成信号とする信号加算ステップと、
    を有する信号合成方法。
  2. 請求項1の信号合成方法であって、
    前記第1信号は、前記基本周波数の整数倍である各周波数での前記周期特徴量の振幅スペクトルと当該基本周波数の整数倍である各周波数の正弦波との各積の和に対応する信号である、
    ことを特徴とする信号合成方法。
  3. 請求項1又は2の信号合成方法であって、
    iを整数とし、離散時間t(i)での前記第1信号をSp(t(i))と表し、前記離散時間t(i)での前記基本周波数をf0(t(i))と表し、Nを正整数とし、kを1以上N以下の整数とし、離散時間t(i)に対応する各周波数k・f0(t(i))での前記周期特徴量の振幅スペクトルをAk(t(i))と表し、離散時間t(i-1)と離散時間t(i)との差分を定数Δtとし、θk,t(i)=2π・k・f0(t(i))・t(i-1)とし、ωk,t(i)=2π・k・f0(t(i))・Δtとし、αk,t(i)=sin(θk,t(i)k,t(i))とし、βk,t(i)=cos(θk,t(i)k,t(i))とし、δs k,t(i)=sin(ωk,t(i))とし、δc k,t(i)=cos(ωk,t(i))とした場合、Sp(t(i))=Σk=1 N Ak(t(i))・αk,t(i)を満たし、
    前記周期成分合成ステップは、
    前記離散時間t(i)及びt(i-1)を含む時間区間において前記基本周波数が一定であって、f0(t(i))=f0(t(i-1))が満たされる場合、
    αk,t(i-1)とβk,t(i-1)とδs k,t(i-1)とδc k,t(i-1)とを用い、δs k,t(i)s k,t(i-1)とδc k,t(i)c k,t(i-1)として、各k (k=1,...,N)に対してそれぞれ、
    αk,t(i)k,t(i-1)・δc k,t(i)t(i-1)・δs k,t(i)とβk,t(i)k,t(i-1)・δc k,t(i)t(i-1)・δs k,t(i)
    を計算する第1漸化式計算ステップと、
    Ak(t(i))及びαk,t(i) (k=1,...,N)を用い、前記第1信号Sp(t(i))=Σk=1 N Ak(t(i))・αk,t(i)を計算する第1重畳ステップと、
    を含むことを特徴とする信号合成方法。
  4. 請求項1から3の何れかの信号合成方法であって、
    前記第2信号は、任意の各周波数での前記非周期特徴量の振幅スペクトルと当該任意の各周波数の正弦波との各積の和に対応する信号である、
    ことを特徴とする信号合成方法。
  5. 請求項1から4の何れかの信号合成方法であって、
    iを整数とし、離散時間t(i)での前記第2信号をSa(t(i))と表し、Mを正整数とし、mを1以上M以下の整数とし、所定の基底周波数をfbとし、離散時間t(i)に対応する各周波数m・fbでの前記周期特徴量の振幅スペクトルをBm(t(i))と表し、離散時間t(i-1)と離散時間t(i)との差分を定数Δtとし、θm,t(i)=2π・m・fb・t(i-1)とし、ωm=2π・m・fb・Δtとし、γm,t(i)=sin(θm,t(i)m)とし、ηm,t(i)=cos(θm,t(i)m)とし、εs m=sin(ωm)とし、εc m=cos(ωm)とした場合、Sa(t(i))=Σm=1 M Bm(t(i))・γm,t(i)を満たし、
    前記非周期成分合成ステップは、
    γm,t(i-1)とηm,t(i-1)とを用い、各m (m=1,...,M)に対してそれぞれ、
    γm,t(i)m,t(i-1)・εc mt(i-1)・εs mとηm,t(i)m,t(i-1)・εc mt(i-1)・εs m
    を計算する第2漸化式計算ステップと、
    Bm(t(i))及びγm,t(i) (m=1,...,M)を用い、前記第2信号Sa(t(i))=Σm=1 M Bm(t(i))・γm,t(i)を計算する第2重畳ステップと、を含む、
    ことを特徴とする信号合成方法。
  6. 請求項1から5の何れかの信号合成方法であって、
    前記基本周波数は、前記周波数スペクトルから独立に定められた値である、
    ことを特徴とする信号合成方法。
  7. 時系列信号の周期成分の周波数スペクトルに対応する周期特徴量と任意に選択された基本周波数とを用い、それぞれの周波数が前記基本周波数の整数倍である複数の正弦波の重畳によって、前記基本周波数と前記周期特徴量とに対応する時間領域の第1信号を生成する周期成分合成部と、
    前記時系列信号の非周期成分の周波数スペクトルに対応する非周期特徴量を用い、複数の正弦波の重畳によって、前記非周期特徴量に対応する時間領域の第2信号を生成する非周期成分合成部と、
    前記第1信号と前記第2信号との和を合成信号とする信号加算部と、
    をさらに有する信号合成装置。
  8. 請求項1から6の何れかの信号合成方法としてコンピュータを機能させるためのプログラム。
JP2010117960A 2010-05-24 2010-05-24 信号合成方法、信号合成装置及びプログラム Pending JP2011247921A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010117960A JP2011247921A (ja) 2010-05-24 2010-05-24 信号合成方法、信号合成装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010117960A JP2011247921A (ja) 2010-05-24 2010-05-24 信号合成方法、信号合成装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2011247921A true JP2011247921A (ja) 2011-12-08

Family

ID=45413308

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010117960A Pending JP2011247921A (ja) 2010-05-24 2010-05-24 信号合成方法、信号合成装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2011247921A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018159402A1 (ja) * 2017-02-28 2018-09-07 国立研究開発法人情報通信研究機構 音声合成システム、音声合成プログラムおよび音声合成方法
JP2019074580A (ja) * 2017-10-13 2019-05-16 Kddi株式会社 音声認識方法、装置およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6035792A (ja) * 1983-07-25 1985-02-23 株式会社河合楽器製作所 非高調波上音を発生する装置
JPH01170105A (ja) * 1987-11-26 1989-07-05 Rohde & Schwarz Gmbh & Co Kg 正弦波発振器
JPH0792978A (ja) * 1993-06-30 1995-04-07 Kawai Musical Instr Mfg Co Ltd 楽音発生装置
JP2000010565A (ja) * 1998-04-23 2000-01-14 Yamaha Corp 波形デ―タ生成方法、波形デ―タ生成プログラムを記録した記録媒体、波形デ―タ生成装置および波形デ―タを記録した記録媒体
JP2010217476A (ja) * 2009-03-17 2010-09-30 Yamaha Corp 波形データ生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6035792A (ja) * 1983-07-25 1985-02-23 株式会社河合楽器製作所 非高調波上音を発生する装置
JPH01170105A (ja) * 1987-11-26 1989-07-05 Rohde & Schwarz Gmbh & Co Kg 正弦波発振器
JPH0792978A (ja) * 1993-06-30 1995-04-07 Kawai Musical Instr Mfg Co Ltd 楽音発生装置
JP2000010565A (ja) * 1998-04-23 2000-01-14 Yamaha Corp 波形デ―タ生成方法、波形デ―タ生成プログラムを記録した記録媒体、波形デ―タ生成装置および波形デ―タを記録した記録媒体
JP2010217476A (ja) * 2009-03-17 2010-09-30 Yamaha Corp 波形データ生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018159402A1 (ja) * 2017-02-28 2018-09-07 国立研究開発法人情報通信研究機構 音声合成システム、音声合成プログラムおよび音声合成方法
JP2019074580A (ja) * 2017-10-13 2019-05-16 Kddi株式会社 音声認識方法、装置およびプログラム

Similar Documents

Publication Publication Date Title
Blaauw et al. A neural parametric singing synthesizer modeling timbre and expression from natural songs
Fulop et al. Algorithms for computing the time-corrected instantaneous frequency (reassigned) spectrogram, with applications
Driedger et al. A review of time-scale modification of music signals
US10741192B2 (en) Split-domain speech signal enhancement
JP5275612B2 (ja) 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
US20180174571A1 (en) Speech processing device, speech processing method, and computer program product
Wang et al. Neural harmonic-plus-noise waveform model with trainable maximum voice frequency for text-to-speech synthesis
JP6638944B2 (ja) 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
JP2013205697A (ja) 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
JP6876642B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Maia et al. Complex cepstrum for statistical parametric speech synthesis
US20160005392A1 (en) Devices and Methods for a Universal Vocoder Synthesizer
JP2018004870A (ja) 音声合成装置および音声合成方法
JP6347536B2 (ja) 音合成方法及び音合成装置
JP2018077283A (ja) 音声合成方法
Kadiri et al. Analysis of aperiodicity in artistic Noh singing voice using an impulse sequence representation of excitation source
JP2011247921A (ja) 信号合成方法、信号合成装置及びプログラム
Reddy et al. Inverse filter based excitation model for HMM‐based speech synthesis system
US20210366461A1 (en) Generating speech signals using both neural network-based vocoding and generative adversarial training
JP6400526B2 (ja) 音声合成装置、その方法、およびプログラム
JP2007328268A (ja) 音楽信号の帯域拡張方式
JP6167063B2 (ja) 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム
Al-Radhi et al. Adaptive refinements of pitch tracking and HNR estimation within a vocoder for statistical parametric speech synthesis
JP5163606B2 (ja) 音声分析合成装置、及びプログラム
JP4513556B2 (ja) 音声分析合成装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140415

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150106