JP3557124B2 - 音声変形方法、その装置、及びプログラム記録媒体 - Google Patents
音声変形方法、その装置、及びプログラム記録媒体 Download PDFInfo
- Publication number
- JP3557124B2 JP3557124B2 JP13712399A JP13712399A JP3557124B2 JP 3557124 B2 JP3557124 B2 JP 3557124B2 JP 13712399 A JP13712399 A JP 13712399A JP 13712399 A JP13712399 A JP 13712399A JP 3557124 B2 JP3557124 B2 JP 3557124B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- fundamental frequency
- window
- time window
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
【発明の属する技術分野】
この発明は、テキストからの音声合成をはじめとする規則音声合成技術において、合成目標の韻律に合わせるために音声素片を基本周波数変形する際に生じる合成音声の品質劣化を抑制したり、自然音声を分析合成して声質変形する際に生じる品質劣化を抑制することを目的とする音声合成方法及びプログラム記録媒体に関するものである。
【0002】
【従来の技術】
最近主流となっているPSOLA合成法をはじめとする波形合成方式は、音声波形をそのまま使うことから、変形量が少ない際に高音質な反面、変形量が大きいと歪みが目立つ。高音質を目指すためには、変形量を少なくするために大量の素片を必要としてしまう。また、自然な響きと個人性を保持することを長所とするCHATR法は大量の音声データを持ち、その中から出力する文に応じて適合する音韻を選びだす方式で、高音質な反面、信号処理を行わないので一般に所望の基本周波数パタンで音声を合成することは難しい。
【0003】
柔軟な変形を行うためには、音声を分析してモデル化するボコーダ型の分析合成方式が有利であるが、従来のボコーダは波形合成に対して音質が劣るというのが定説である。ボコーダの中でも短時間スペクトル分析をもとにした合成法では、ハミング窓にもとづく短時間スペクトルを平滑化したものをもとに合成しているのがほとんどである。
【0004】
【発明が解決しようとする課題】
人間の発声では、声帯と声道はつながっており、基本周波数の調節に伴って声道形状にいくらかの変化が生じることから、基本周波数の変化とともにスペクトルの構造も変化する。そこで、音声の基本周波数変形には基本周波数の変化量に応じて、スペクトル形状を変換することも必要になる。しかし、従来のボコーダ型合成法は声帯音源情報と声道形状にあたるスペクトル包絡情報を分離してモデル化しており、異なる基本周波数パターンを持っている変換対象の素片のスペクトルをそのまま用いて合成するのがほとんどであった。その場合、合成する基本周波数とスペクトルの不整合を防ぐために、スペクトル包絡は振幅スペクトルを平滑化したものを用いていた。
【0005】
この発明では平滑化する前の振幅スペクトルの微細成分が音質に影響をおよぼしていると考え、基本周波数を変形しても微細成分を保持するような音声変形方法を提供する。
【0006】
【課題を解決するための手段】
この発明によれば、入力音声信号に時間窓を乗じ、その時間窓を乗じた音声信号を周波数領域に変換して短時間スペクトルを分析し、そのスペクトルからスペクトル包絡と微細構造を分離し、また入力音声信号から基本周波数を抽出し、その基本周波数と目標基本周波数との比に比例して微細構造を周波数領域で伸縮し、その伸縮された微細構造とスペクトル包絡を加算してスペクトル合成し、その合成されたスペクトルを時間領域に変換する。
【0007】
基本周波数に反比例するように時間窓の窓長を決定し、その窓長の相補的ガウス窓関数を時間窓として用いる。
(1)音声の一般的性質として、スペクトル包絡は声道の特性を反映し、微細構造は基本周波数とその高調波成分を示す。基本周波数が変化する場合には、スペクトル包絡は変化せず、微細構造が基本周波数に応じて変化する。
(2)本発明によれば、目標周波数に音声を変形しても、スペクトル包絡は変化せず、微細構造が基本周波数に応じて変化する。したがって、変形された音声を聴取しても自然性を維持できる。
(3)さらに、音声を切出すときに用いる時間窓として音声の基本周波数の周期に比例した窓長をもつガウス相補型時間窓を用いることによって、基本周波数成分を反映した微細構造の抽出が損なわれない。そのため、この発明により目標基本周波数が得られるように基本周波数を変化させて音声を変形してもその自然性が確保できる。
【0008】
短時間スペクトルを求める場合、フーリエ変換の前に窓関数をかけて音声波形を切り出すが、従来の合成法では周波数分解能が高いハミング窓を用いるものがほとんどであった。この発明の実施例では、相補的なガウス窓を用いた短時間スペクトルをもとに分析することが特徴である。ハミング窓による短時間スペクトルと相補的なガウス窓(文献1参照)による短時間スペクトルを図9に示す。比較のためにハミング窓による短時間スペクトルを−1db下方にシフトしている。スペクトルの包絡は似ているが、微細成分の上下動が大幅に異なることがわかる。相補的なガウス窓による短時間スペクトルはスペクトル包絡をとってももとのスペクトルに近い一方、微細な成分もある程度併せ持っている。
【0009】
【発明の実施の形態】
図1にこの発明の基本構成を示す。入力音声はステップS0201のスペクトル分析部で短時間スペクトル分析および基本周波数抽出をされ、それをもとにステップS0202のスペクトル変形部で入力音声と目標合成音声の基本周波数の違いに応じてスペクトル変形を行い、変形されたスペクトルに基づいてステップS0203の重複加算合成部で重複加算法により合成音声を生成する。
【0010】
以下、この発明を規則音声合成に適用する場合の実施例を述べる。
図1中のステップS0201にあたる短時間スペクトル分析の処理例を図2に示す。入力音声は図3に示すように固定フレーム間隔ΔTで、つまりΔTづつ順次シフトさせながら分析され、nフレーム目の分析結果の短時間スペクトルX(ω,n)はフレームの中心の時間位置nΔtと結びついたパラメータとなる。まず、ステップS0301で入力音声については各フレーム中心点nΔtでの基本周波数を抽出する。実施例ではTEMPO法(文献1参照)にもとづいて基本周波数抽出に加えて有声無声判定も行う。各フレームについて、フーリエ変換の次数をNとするとき、ステップS0302で音声波形からフレーム中心の前後N/2点を切り出し、ステップS0303では当該フレームのステップS0301で抽出した基本周波数に基づき、3ピッチ分の長さの相補的なガウス窓をかけてステップS0304でFFTにより短時間スペクトルを求める。この窓かけの時間長、つまり短時間スペクトルを求める時間長は1〜5ピッチ分程度が好ましい。5ピッチより長くすると、不要な波形が加わって平均化され、微細成分を取り出すことが困難になる。好ましくは3ピッチ分程度がよい。ステップS0305では求めた短時間スペクトルの絶対値の対数をとり、対数振幅スペクトルを得る。ステップS0306では対数振幅スペクトルの逆フーリエ変換を行い、複素ケプストラムC(ω,n)を得る。
【0011】
従来法の例としてSTRAIGHT法では図4に示すように、ステップS0304の振幅スペクトルに対してステップS0501で平滑化を行い、音源成分にあたる微細成分を除去している。この発明では微細成分を除去せず、保持した状態でスペクトル変形を行う。
図1中のステップS0202にあたるスペクトル変形の処理例を図5に示す。ステップS0201で求めた入力音声の基本周波数をもとにケプストラムリフタを構成し、図2で求めた複素ケプストラムC(ω,n)に対して、ステップS0601で低ケフレンシ成分と高ケフレンシ成分に分離する。この分離は例えば基本周波数と対応する点よりわずか(20〜30程度(FFTが1024点の場合))低い点を境界として分ければよい。低ケフレンシ成分はスペクトル包絡のケプストラムであり、この低ケフレンシに対しステップS0602でFFTを行うことによりスペクトル包絡E(ω)が得られる。高ケフレンシ成分は音源成分のケプストラムであり、この高ケフレンシ成分に対し、ステップS0603でFFTを行うことにより音源成分であるスペクトルの微細成分R(ω)が得られる。これらスペクトル包絡E(ω)とスペクトルの微細成分R(ω)の例を図6に示す。
【0012】
音源成分R(ω)については、微細成分保持および合成基本周波数との整合をとるためにステップS0604で入力音声の基本周波数と合成音声の基本周波数の比rをもとに線形伸縮を行う。
このR(ω)に対する線形伸縮を、この実施例では図7に示す。R(ω)は離散フーリエ変換をもとにした離散データであるために、R(n)(nは整数)と表すことができ、周波数方向に伸縮すると離散値のサンプリング点からはずれる。そのため、伸縮後の微細成分のスペクトルR′(m)(mは整数)は図7に示すようにrn≦m<r(n+1)となるnに対してR′(m)={(r(n+1)−m)R(rn)+(m−rn)R(r(n+1))}/rにより線形補間により求める。また、伸縮を行うために、基本周波数を高くする場合(r>1)には高域において有効周波数をはみ出す部分があるため、この部分を捨て去る。逆に基本周波数を低くする場合(r<1)には高域のスペクトルを作る必要がある。この実施例では足りなくなった周波数でそこを中心に線対称となるスペクトルを用いる(スペクトルの折り返し)ことにより高域を作成する。ステップS0605においてスペクトル包絡と変形された音源成分の加算を行い、合成基本周波数にあったスペクトルを再構成する。
【0013】
音源成分R(ω)に対する線形伸縮の他の例を以下に示す。
(1)伸縮前の微細構造のスペクトルR(m)(0≦m<N/2、mは整数、Nはフレーム長)をフーリエ展開(好ましくはFFT)して展開係数ρ(k)を得る(0≦k<N/2、kは整数、Nはフレーム長)。ここで、ρ(k)=Σm=0 N/2−1 R(m)exp(2πjmk/N)(jは虚数単位)と算出する。また、R(m)=2/N Σk=0 N/2−1 ρ(k)exp(2πjmk/N)という関係がある。
(2)基本周波数F0 と目標基本周波数F0 ′とから伸縮後の微細構造のスペクトルR′(m)を基底関数expにおける変数xを(F0 /F0 ′)倍、つまり(F0 /F0 ′)xと置換して展開する。
【0014】
R′(m)=2/N Σk=0 N/2−1 ρ(k)exp(2πjmk/N ×(F0/F0′))
このような演算により、周波数幅F0 内における伸縮前の微細構造のスペクトルR(m)における成分は周波数幅F0 ′に伸縮される。周波数は離散的に与えられるため、上記の線形補間によれば顕著に平滑化されたり、F0 ′<F0 のときにf/2(fは標本化周波数)を定義できないという問題が生じる。しかし、この方法によればかかる問題を生じず、一義的に解を与えることができる。
【0015】
図1中のステップS0203にあたる重複加算合成部は図8に示す。この合成部はSTRAIGHT法に由来するものであり、詳細は文献1を参照のこと。ステップS0605で再構成されたスペクトルをもとにステップS0901で対数スペクトルを求め、ステップS0902でフーリエ逆変換により複素ケプストラムを求め、ステップS0903で最小位相化したスペクトルを求める。ステップS0904では有声音成分としてそのスペクトルに、位相操作として周波数領域でオールパスフィルタをかけて、ステップS0905でフーリエ逆変換により、インパルス応答を求めて、ステップS0906では合成する基本周波数の逆数に当たるピッチ間隔で重複加算する。また、ステップS0907では無声音成分としてそのスペクトルのインパルス応答を求め、ステップS0908で乱数列をたたみこんだものをステップS0909で固定間隔で重複加算する。ステップS0910では有声音成分と無声音成分をステップS0201で求めた有声無声判定をもとに混合して合成音声を得る。
【0016】
次に実験例を述べる。不均一な基本周波数F0 の変形が連続する規則合成音についてプリファレンステストで評価した。対象とする音声はそれぞれ1〜2秒程度の長さのもの3種類である。CV−VC素片で合成対象を覆うように素片を用いた。F0 の変形量が大きく、単位が短い場合となるように選んだ、合成法としてPSOLA、STRAIGHT、本発明方法の3種類について比較した変形対象のF0 を平行移動することにより全体的に高くする場合と、全体的に低くする場合でどう変わるか検討した。F0 の平行移動はもとのF0 の1.2倍、1.4倍(F0 を高くする)、1/1.2倍、1/1.4倍(F0 を低くする)の4通りである。被験者は9人で3種類の合成音のうち2個を1組とした刺激音をランダムな順番で提示した。
【0017】
その結果を図10に示す。上から順に3組ずつ、もとの合成F0 パタンと4種類の平行移動したF0 パタンでの結果である。各横バーの中の数字は同一テキストについての左の合成音と右の合成音を比較したときに左の合成音を選んだ比率を示す。例えば1番上の横バーでは同一テキストに対し、左のPSOLAによる合成音の方が、STRAIGHTによる合成音より音質がよいとした率が38.9%であることを示す。図中の◎は危険率が1%、○は危険率5%で有意な差を示す。この結果から、F0 を低くする変形でPSOLAよりSTRAIGHTや本発明方法が良い評価を得ている。F0 を高くする変形ではこの発明方法とSTRAIGHTを比較するとこの発明方法の方が選択され、しかも◎、○印のものについてはこの発明方法によれば従来法より高品質が得られることの信頼性が高いことが理解される。
【0018】
【発明の効果】
以上述べたようにこの発明によれば、入力音声のスペクトルをスペクトル包絡と微細成分(構造)とに分離し、その微細成分について目標基本周波数と原基本周波数との比に応じて伸縮させた後、スペクトル包絡と合成し、この合成スペクトルを時間領域に戻すことにより、スペクトル包絡は変化せず、微細成分のみを基本周波数に応じて変化させることができ、変形された音声を聴取しても自然性が維持される。
【0019】
特にガウス相補型時間窓を用いると、微細成分(構造)の抽出が良好に行われ、変形音声の自然性がより良好に確保できる。
この発明を分析合成音声および、規則音声合成に適用したところ、先にも示したように従来法に比べて高音質な合成音を得られることが確認できた。
[参考文献]
1.河原「聴覚の情景分析と高音質音声分析合成法STRAIGHT」音講論,1−2−1,pp189−193,1997(9)
【図面の簡単な説明】
【図1】この発明の基本構成を示す図。
【図2】図1中の音声分析部の処理手順の例を示す図。
【図3】音声信号に対する分析フレームと時間窓との関係例を示す図。
【図4】従来の音声分析の一部を示す図。
【図5】図1中のスペクトル変形部の処理手順の例を示す図。
【図6】音源成分(微細成分)とスペクトル包絡の分離例を示す図。
【図7】図5中の線形伸縮の例を示す図。
【図8】図1中の重複加算合成部の具体的処理手順の例を示す図。
【図9】ガウス窓とハミング窓とを用いた短時間スペクトルの各例を示す図。
【図10】実験結果を示す図。
Claims (5)
- 入力音声信号に時間窓を乗じる過程と、
その時間窓を乗じた入力音声信号を周波数領域に変換して短時間スペクトルを求める過程と、
前記スペクトルからスペクトル包絡と微細構造成分を分離する過程と、
前記入力音声信号から基本周波数を分析する過程と、
前記微細構造成分をフーリエ展開して展開係数を得る過程と、
前記展開係数の逆フーリエ展開に用いられる基底関数の変数を、その前記基本周波数と目標周波数との比率倍と置換して、前記展開係数を逆フーリエ変換して伸縮された微細構造成分を得る過程と、
前記スペクトル包絡と前記伸縮された微細構造成分とを加算してスペクトルを合成する過程と、
前記合成されたスペクトルを時間領域の信号に変換する過程と、を有する音声変形方法。 - 前記基本周波数に反比例するように前記時間窓の窓長を決定する過程を有し、
前記時間窓を乗じる過程は、前記時間窓として前記決定された窓長の相補的ガウス窓関数を乗じる過程であることを特徴とする請求項1記載の音声変形方法。 - 入力音声信号に時間窓を乗じる時間窓乗算部と、
その時間窓が乗算された入力音声信号を周波数領域に変換して短時間スペクトルを求めるスペクトル分析部と、
前記スペクトルからスペクトル包絡と微細構造成分を分離するスペクトル分離部と、
前記入力音声信号から基本周波数を分析する基本周波数分析部と、
前記微細構造成分をフーリエ展開して展開係数を求め、前記展開係数の逆フーリエ展開に用いられる基底関数の変数を、その前記基本周波数と目標周波数との比率倍と置換して、前記展開係数を逆フーリエ展開して伸縮された微細構造成分を得る微細構造伸縮部と、
前記スペクトル包絡と前記伸縮された微細構造成分とを加算してスペクトルを合成するスペクトル合成部と、
前記合成されたスペクトルを時間領域の信号に変換する信号合成部と、を有する音声変形装置。 - 前記基本周波数に反比例するように前記時間窓の窓長を決定する窓長設定部を有し、
前記時間窓乗算部では、前記時間窓として前記決定された窓長の相補的ガウス窓関数が用いられる、ことを特徴とする請求項3記載の音声変形装置。 - 請求項1又は2の何れか1項に記載の音声変形方法の各過程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13712399A JP3557124B2 (ja) | 1999-05-18 | 1999-05-18 | 音声変形方法、その装置、及びプログラム記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13712399A JP3557124B2 (ja) | 1999-05-18 | 1999-05-18 | 音声変形方法、その装置、及びプログラム記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000330582A JP2000330582A (ja) | 2000-11-30 |
JP3557124B2 true JP3557124B2 (ja) | 2004-08-25 |
Family
ID=15191365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP13712399A Expired - Lifetime JP3557124B2 (ja) | 1999-05-18 | 1999-05-18 | 音声変形方法、その装置、及びプログラム記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3557124B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3895758B2 (ja) | 2004-01-27 | 2007-03-22 | 松下電器産業株式会社 | 音声合成装置 |
JP4705203B2 (ja) | 2009-07-06 | 2011-06-22 | パナソニック株式会社 | 声質変換装置、音高変換装置および声質変換方法 |
-
1999
- 1999-05-18 JP JP13712399A patent/JP3557124B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2000330582A (ja) | 2000-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3266819B2 (ja) | 周期信号変換方法、音変換方法および信号分析方法 | |
JP5958866B2 (ja) | 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム | |
Rao et al. | Prosody modification using instants of significant excitation | |
JP6791258B2 (ja) | 音声合成方法、音声合成装置およびプログラム | |
JP2002202790A (ja) | 歌唱合成装置 | |
WO2011026247A1 (en) | Speech enhancement techniques on the power spectrum | |
JP3732793B2 (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
JP3450237B2 (ja) | 音声合成装置および方法 | |
Roebel | A shape-invariant phase vocoder for speech transformation | |
JP2018077283A (ja) | 音声合成方法 | |
Rao et al. | Voice conversion by prosody and vocal tract modification | |
JP2904279B2 (ja) | 音声合成方法および装置 | |
JP3557124B2 (ja) | 音声変形方法、その装置、及びプログラム記録媒体 | |
Babacan et al. | Parametric representation for singing voice synthesis: A comparative evaluation | |
Rao | Unconstrained pitch contour modification using instants of significant excitation | |
US7822599B2 (en) | Method for synthesizing speech | |
Jiang et al. | Production based pitch modification of voiced speech | |
JP6834370B2 (ja) | 音声合成方法 | |
JP3727885B2 (ja) | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 | |
Sun | Voice quality conversion in TD-PSOLA speech synthesis | |
JPH09510554A (ja) | 言語合成 | |
JP4468506B2 (ja) | 音声データ作成装置および声質変換方法 | |
Erro et al. | A pitch-asynchronous simple method for speech synthesis by diphone concatenation using the deterministic plus stochastic model | |
Espic et al. | Waveform Generation Based on Signal Reshaping for Statistical Parametric Speech Synthesis. | |
JP2018077280A (ja) | 音声合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040420 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040514 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090521 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090521 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100521 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100521 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110521 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120521 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130521 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140521 Year of fee payment: 10 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |