JP5862667B2 - 波形処理装置、波形処理方法および波形処理プログラム - Google Patents
波形処理装置、波形処理方法および波形処理プログラム Download PDFInfo
- Publication number
- JP5862667B2 JP5862667B2 JP2013524586A JP2013524586A JP5862667B2 JP 5862667 B2 JP5862667 B2 JP 5862667B2 JP 2013524586 A JP2013524586 A JP 2013524586A JP 2013524586 A JP2013524586 A JP 2013524586A JP 5862667 B2 JP5862667 B2 JP 5862667B2
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- pitch
- segment
- power
- normalization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 46
- 238000003672 processing method Methods 0.000 title claims description 9
- 238000010606 normalization Methods 0.000 claims description 129
- 238000004364 calculation method Methods 0.000 claims description 120
- 230000008859 change Effects 0.000 claims description 60
- 238000003860 storage Methods 0.000 claims description 41
- 238000000034 method Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 32
- 238000005070 sampling Methods 0.000 claims description 16
- 238000005520 cutting process Methods 0.000 claims description 3
- 230000008878 coupling Effects 0.000 claims description 2
- 238000010168 coupling process Methods 0.000 claims description 2
- 238000005859 coupling reaction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 91
- 238000012937 correction Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 101100129500 Caenorhabditis elegans max-2 gene Proteins 0.000 description 8
- 101100083446 Danio rerio plekhh1 gene Proteins 0.000 description 8
- 238000003780 insertion Methods 0.000 description 8
- 230000037431 insertion Effects 0.000 description 8
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
- Electrophonic Musical Instruments (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本発明は、波形処理装置、波形処理方法および波形処理プログラムに関し、特に、波形のパワーを変化させる波形処理装置、波形処理方法および波形処理プログラムに関する。
音声の波形は、横軸を時間とし、縦軸を振幅とする波形で表される。
音声合成では、予め収録した話者の音声から、素片毎に音声の波形を用意しておく。そして、出力しようとする音声に応じた素片の波形を連結することで、合成音声を得る。
各素片の音声の波形は、ピッチ周期で切り出される。この切り出された波形をピッチ波形と呼ぶ。1つの素片の波形から、ピッチ周期でピッチ波形が切り出されるので、素片毎に複数のピッチ波形が生成されることになる。なお、ピッチ周期は、ピッチ周波数(基本周波数)の逆数である。
合成音声のパワーの不均一を解消する方法として、収録された音声あるいは合成音声に対してコンプレッサ処理を行う方法が考えられる。図11は、音声の波形に対するコンプレッサ処理の例を示す模式図である。コンプレッサ処理前の音声の波形91のパワー包絡は、パワー包絡92のように模式的に表すことができる。コンプレッサ処理を行うことにより、音声の波形のパワー包絡は、パワー包絡93のようになる。
また、特許文献1には音声合成装置が記載されている。特許文献1に記載された音声合成装置は、以下に示すような波形の正規化処理を行う。すなわち、特許文献1に記載された音声合成装置は、1ピッチ波形を取り出す。この波形をX[i](i=1,・・・,N)としたとき、平均振幅PXは、以下に示す式(1)のように表される。
そして、特許文献1に記載された音声合成装置は、Aを所定の値として、以下に示す式(2)計算を行うことによって、正規化した波形情報S[i]を得る。
S[i]=X[i]×A/PX 式(2)
素片毎の音声の波形を得るために収録される音声のパワーは、音声収録条件や話者の癖等の影響で様々に変化する。このような収録音声から生成された波形を用いて合成音声を生成すると、横軸(時間軸)において、ある箇所でパワーが特に大きくなるといったパワーの不均一が生じる。その結果、聞き取りにくい合成音声が生成されてしまう。
前述のように、合成音声のパワーの不均一を解消する方法として、コンプレッサ処理が考えられる。しかし、コンプレッサ処理では、振幅値が閾値より低い部分の波形は変化させず、振幅値が閾値以上の部分に関して振幅値を一定にするように波形を変化させる。換言すれば、波形において、振幅値が閾値以上の部分を平坦にするように波形を変化させる。そのため、コンプレッサ処理では音声波形に歪みが生じ、音質が低下するという問題があった。
特許文献1に記載された正規化処理では、i=1,・・・,Nとして、式(2)の計算を行うことにより、波形のパワーを変化させる。従って、波形の歪みは生じない。
しかし、1つの素片に対して予め生成された複数のピッチ波形に対して、特許文献1に記載された正規化処理を行うと、各ピッチ波形の最大振幅が揃うことになる。自然な合成音声を得るためには、振幅の小さいピッチ波形については、他のピッチ波形よりも相対的に振幅が小さいという状態を維持することが好ましい。
そこで、本発明は、自然な合成音声が得られるように、素片の各ピッチ波形のパワーを変化させる波形処理装置、波形処理方法および波形処理プログラムを提供することを目的とする。
本発明による波形処理装置は、素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算手段と、パワー計算手段によって選択されたピッチ波形に対する正規化の程度を表す指標値である正規化度を、スカラを変数とする増加関数の関数値として計算する正規化度計算手段と、パワー計算手段によって選択されたピッチ波形の振幅値を変更する変更係数を、スカラおよび正規化度に基づいて計算する変更係数計算手段と、パワー計算手段によって選択されたピッチ波形の各サンプリング点における振幅値に変更係数を乗じる振幅変更手段とを備えることを特徴とする。
また、本発明による波形処理方法は、素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算し、選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、スカラを変数とする増加関数の関数値として計算し、選択したピッチ波形の振幅値を変更する変更係数を、スカラおよび正規化度に基づいて計算し、選択したピッチ波形の各サンプリング点における振幅値に変更係数を乗じることを特徴とする。
また、本発明による波形処理プログラムは、コンピュータに、素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算処理、パワー計算処理で選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、スカラを変数とする増加関数の関数値として計算する正規化度計算処理、パワー計算処理で選択したピッチ波形の振幅値を変更する変更係数を、スカラおよび正規化度に基づいて計算する変更係数計算処理、および、パワー計算処理で選択したピッチ波形の各サンプリング点における振幅値に変更係数を乗じる振幅変更処理を実行させることを特徴とする。
本発明によれば、自然な合成音声が得られるように、素片の各ピッチ波形のパワーを変化させることができる。
以下、本発明の実施形態を図面を参照して説明する。
1つの素片に対応する複数のピッチ波形に対して、特許文献1に記載された方法で正規化を行うと、その各ピッチ波形の最大振幅が揃う。このような正規化を完全正規化と呼ぶことにする。本発明では、1つの素片に対応する複数のピッチ波形に対して完全正規化を行う態様と、全く正規化を行わずにピッチ波形を元のままとする態様との中間的な態様を規定する規定値を算出する。以下、この規定値を正規化度と記す。正規化度は、正規化の程度を表す指標値であるということができる。そして、本発明では、その正規化度に応じて、ピッチ波形のパワーを変更する。
1つの素片に対応する複数のピッチ波形に対して、特許文献1に記載された方法で正規化を行うと、その各ピッチ波形の最大振幅が揃う。このような正規化を完全正規化と呼ぶことにする。本発明では、1つの素片に対応する複数のピッチ波形に対して完全正規化を行う態様と、全く正規化を行わずにピッチ波形を元のままとする態様との中間的な態様を規定する規定値を算出する。以下、この規定値を正規化度と記す。正規化度は、正規化の程度を表す指標値であるということができる。そして、本発明では、その正規化度に応じて、ピッチ波形のパワーを変更する。
実施形態1.
図1は、本発明の第1の実施形態の例を示すブロック図である。第1の実施形態の波形処理装置は、図1に示すように、音声素片記憶部1と、韻律補正部2と、素片波形連結部3とを備える。
図1は、本発明の第1の実施形態の例を示すブロック図である。第1の実施形態の波形処理装置は、図1に示すように、音声素片記憶部1と、韻律補正部2と、素片波形連結部3とを備える。
音声素片記憶部1は、素片毎に複数のピッチ波形を記憶する記憶装置である。ここで、素片の単位について説明する。音声のうち、母音単独の音節に関しては、その母音の前半と後半がそれぞれ1つの素片(素片の1単位)となる。また、子音の後に母音が続く音節では、子音と、その後に続く母音の前半とで1つの素片となり、また、その母音の後半が1つの素片となる。収録音声の波形は、素片毎に切り出される。そして、素片毎の波形を、さらに、ピッチ周期で分割することによりピッチ波形を生成する。なお、ピッチ周期は、例えば、波形のピークから次のピークまでの時間として求めることができる。1つの素片の波形をピッチ波形に分割するときには、ピークが中央に存在し、波形の両端のパワーがピークよりも小さくなっている波形をピッチ波形として切り出せばよい。
図1では、音声素片記憶部1が記憶する素片毎のピッチ波形群の例として、ピッチ波形群21,22,23を模式的に示している。ピッチ波形群21は、1つの素片に対応するピッチ波形群である。ピッチ波形群22,23に関しても、それぞれ1つの素片に対応する。
また、本例では、音声素片記憶部1が、ピッチ波形の間引きや挿入を行わずに素片の波形を生成した場合の素片毎の継続時間長も記憶している場合を例にする。
図2は、ピッチ波形の例を模式的に示す説明図である。ピッチ波形は、横軸(時間軸)に沿ってサンプリングされている。図2に例示するピッチ波形に対して、0〜N−1まで、N回のサンプリングを行っているとする。サンプリング回数Nは、1つのピッチ波形の長さということができる。そして、t=0,1,2,・・・,N−1としたときに、tにおける振幅値をP(t)とする。以下、t=0,1,2,・・・,N−1としたときに、振幅値がP(t)となるピッチ波形を、{P(t):t=0,1,2,・・・,N−1}と表現する場合がある。
韻律補正部2は、素片毎に、ピッチ波形群に属するピッチ波形のパワーを変化させる。さらに、その素片を出力する際の継続時間長に応じて、ピッチ波形の間引きや挿入を行い、ピッチ波形を連結(重ね合わせ加算)することによって、1つの素片の波形を生成する。
素片波形連結部3は、韻律補正部2によって作成された素片毎の波形を連結することによって、合成音声を生成する。
韻律補正部2は、パワー補正部10と、時間調整部8と、素片波形生成部9とを含む。
パワー補正部10は、音声素片記憶部1に記憶されているピッチ波形群を素片毎に読み込む。パワー補正部10は、1つの素片に対応する各ピッチ波形に対して正規化度を計算する。さらに、ピッチ波形のパワーを、そのピッチ波形に対して求めた正規化度に基づいて変化させる。換言すれば、パワーを正規化度に基づいて補正する。
具体的には、パワー補正部10は、パワー計算部4と、正規化度計算部6と、スケーリング係数計算部5と、乗算器7とを備える。
パワー計算部4は、音声素片記憶部1から素片毎にピッチ波形群を読み込む。そして、パワー計算部4、正規化度計算部6、スケーリング係数計算部5および乗算器7は、1つの素片のピッチ波形群に属するピッチ波形毎に処理を行う。なお、パワー計算部4は、例えば、合成音声における素片の順番に従って、素片毎にピッチ波形群を読み込む。
パワー計算部4は、着目しているピッチ波形に関して、パワーを表すスカラSを計算する。ここでは、パワー計算部4が、パワーを表すスカラSとして平均振幅を計算する場合を例にして説明する。ピッチ波形が{P(t):t=0,1,2,・・・,N−1}であるとすると、パワー計算部4は、以下に示す式(3)の計算を行うことによって平均振幅Sを計算すればよい。
なお、パワーを表すスカラSは上記の平均振幅に限定されず、パワー計算部4は、パワーを表すスカラSとして他の値を計算してもよい。パワーを表すスカラSの他の例に関しては、後述する。
正規化度計算部6は、パワーを表すスカラS(本例では平均振幅)を変数とする増加関数の関数値として、正規化度を計算する。正規化度をαとし、パワーを表すスカラSを変数とする増加関数をA(S)とすると、α=A(S)である。既に説明したように、正規化度は、1つの素片に対応する複数のピッチ波形に対して完全正規化を行う態様と、全く正規化を行わずにピッチ波形を元のままとする態様との中間的な態様を規定する規定値である。
αは、0.0≦α≦1.0を満たす実数である。A(S)として用いる増加関数は、例えば、階段関数であっても、折れ線関数であっても、あるいはシグモイド関数であってもよい。本例では、増加関数A(S)が折れ線関数である場合を例にして説明する。例えば、正規化度計算部6は、以下に示す式(4)の関数A(S)を用いて、パワー計算部4が計算した平均振幅Sに応じた値を計算することにより、正規化度αを求めればよい。
式(4)に示す関数は、図3に示すように表される。また、式(4)におけるαmin、αmaxは、αmin<αmaxを満たす定数として予め定めておけばよい。同様に、S1,S2に関しても、S1<S2を満たす定数として予め定めておけばよい。なお、式(4)は、折れ線関数の例であり、増加関数α=A(S)は、式(4)以外の式で表される折れ線関数であってもよい。また、折れ線関数でなくてもよい。
スケーリング係数計算部5は、パワーを表すスカラS(本例では平均振幅)と正規化度αとを変数とする関数の関数値として、スケーリング係数を計算する。スケーリング係数は、ピッチ波形の各サンプリング点における振幅値P(t)に対して乗じる係数である。P(t)にスケーリング係数を乗じることで、ピッチ波形のパワーを変更(補正)することができる。
スケーリング係数をgとし、スケーリング係数を表す関数をG(S,α)とすると、g=G(S,α)である。また、予め定めた定数をCとする。スケーリング係数計算部5は、(C/S)≦g≦1.0という条件を満たすスケーリング係数gを計算する。
スケーリング係数計算部5は、例えば、以下に示す式(5)の関数G(S,α)に、平均振幅Sおよび正規化度αを代入することにより、スケーリング係数gを求めればよい。
なお、式(5)におけるCは、上述のように、予め定めた定数である。
パワー計算部4、正規化度計算部6およびスケーリング係数計算部5の処理により、1つのピッチ波形に対して1つのスケーリング係数が求まる。
乗算器7は、着目しているピッチ波形の振幅値に、スケーリング係数計算部5によって計算されたスケーリング係数gを乗算することにより、ピッチ波形のパワーを変更する。すなわち、ピッチ波形を{P(t):t=0,1,2,・・・,N−1}と表すと、乗算器7は、t=0,1,2,・・・,N−1に関してそれぞれ、以下に示す式(6)の計算を行うことによって、パワーを変更する。
P(t)’=P(t)×g 式(6)
P(t)’は、各サンプリング点における補正後の振幅値である。
時間調整部8には、各素片に関して、素片を出力する際の継続時間長が入力される。時間調整部8は、パワーの補正が行われたピッチ波形群に対して予め定められていた継続時間長と、入力された継続時間長との割合に基づいて、補正後のピッチ波形群に対して、ピッチ波形の間引きを行ったり、あるいは、ピッチ波形の挿入を行ったりする。なお、挿入するピッチ波形は、既に得られているピッチ波形と同一でよい。
素片波形生成部9には、ピッチパタンが入力される。ピッチパタンはピッチ周波数の時系列である。素片波形生成部9は、ピッチパタンが示すピッチ周波数に応じて、素片毎に、ピッチ波形を連結する。素片波形生成部9は、ピッチ周波数の逆数を計算することにより、ピッチ周期を算出し、そのピッチ周期に合わせて、素片毎に、ピッチ波形群を連結すればよい。
なお、ピッチ波形の連結の際に、ピッチパタン(ピッチ周波数の時系列)に含まれるどのピッチ周波数からピッチ周期を計算すればよいかは、例えば、以下のように判定すればよい。例えば、ピッチパタンとして、ピッチ周波数と基準時点から経過時間とを対応付けた時系列を入力すればよい。素片波形生成部9は、合成音声におけるピッチ波形の順番を判断し、そのピッチ波形の順番に応じた経過時間に対応するピッチ周波数を用いて、ピッチ波形を連結する際に用いるピッチ周期を計算すればよい。
パワー計算部4,正規化度計算部6、スケーリング係数計算部5、乗算器7、時間調整部8、素片波形生成部9および素片波形連結部3は、例えば、波形処理プログラムに従って動作するコンピュータのCPUによって実現される。この場合、例えば、コンピュータのプログラム記憶装置(図示略)が波形処理プログラムを記憶し、CPUがそのプログラムを読み込んで、そのプログラムに従って、パワー計算部4,正規化度計算部6、スケーリング係数計算部5、乗算器7、時間調整部8、素片波形生成部9および素片波形連結部3として動作すればよい。また、各要素がそれぞれ別々のユニットで実現されていてもよい。
次に、動作について説明する。
図4は、1つの素片に関してピッチ波形を合成する処理の例を示すフローチャートである。音声素片記憶部1には、予め素片毎にピッチ波形群が記憶されているものとする。
図4は、1つの素片に関してピッチ波形を合成する処理の例を示すフローチャートである。音声素片記憶部1には、予め素片毎にピッチ波形群が記憶されているものとする。
パワー計算部4は、1素片分のピッチ波形群を音声素片記憶部1から読み込む(ステップS1)。そして、パワー計算部4は、ステップS1で読み込んだ1素片分のピッチ波形群の中で、まだ選択していないピッチ波形があるか否かを判定する(ステップS2)。未選択のピッチ波形がある場合(ステップS2におけるYes)、ステップS3に移行する。なお、ステップS1から最初にステップS2に移行した時点では、いずれのピッチ波形も選択していないので、ステップS3に移行する。
ステップS3において、パワー計算部4は、ステップS1で読み込んだ1素片分のピッチ波形群の中で、まだ選択していないピッチ波形を1つ選択する(ステップS3)。
次に、パワー計算部4は、選択したピッチ波形について、パワーを表すスカラSを計算する(ステップS4)。本例では、パワーを表すスカラSとして、平均振幅を計算する場合を例にして説明する。パワー計算部4は、選択したピッチ波形について、式(3)の計算を行うことにより、そのピッチ波形の平均振幅Sを計算すればよい。
次に、正規化度計算部6が、平均振幅Sに基づいて、正規化度αを計算する(ステップS5)。本例では、平均振幅Sを変数とする増加関数A(S)として、式(4)に示す関数が予め定められているとする。正規化度計算部6は、ステップS4で計算された平均振幅Sに応じた正規化度α(=A(S))を、式(4)に示す関数A(S)を用いて計算すればよい。
ステップS5の後、スケーリング係数計算部5が、平均振幅Sおよび正規化度αに基づいて、ステップS1で選択されたピッチ波形群に対するスケーリング係数を計算する(ステップS6)。本例では、スケーリング係数を表す関数G(S,α)として、式(5)に示す関数が予め定められているとする。正規化度計算部6は、ステップS4で計算された平均振幅SおよびステップS5で計算された正規化度αをG(S,α)に代入することによって、スケーリング係数を計算すればよい。
次に、乗算器7は、ステップS6で計算されたスケーリング係数gを用いて、ステップS3で選択されたピッチ波形のパワーを変更する(ステップS7)。選択したピッチ波形を、{P(t):t=0,1,2,・・・,N−1}と表した場合、乗算器7は、t=0,1,2,・・・,N−1に関してそれぞれ、式(6)に示す計算を行うことにより、各サンプリング点における補正後の振幅値P(t)’を計算すればよい。ステップS7の処理によって、ステップS3で選択された波形に対する補正が完了する。
ステップS7の後、パワー補正部10は、ステップS2以降の動作を繰り返す。
ステップS2において、未選択のピッチ波形がなくなったと判定したならば(ステップS2におけるNo)、ステップS8に移行する。なお、未選択のピッチ波形がないということは、ステップS1で読み込んだ1素片分のピッチ波形群に属するピッチ波形を全て選択済みであり、それらのピッチ波形について変更が完了していることになる。
時間調整部8には、素片を合成音声として出力する際の継続時間長が入力されている。時間調整部8は、ステップS1で読み込まれた1素片分のピッチ波形群に対して予め定められていた継続時間長と、入力された継続時間長との割合を計算する。そして、時間調整部8には、その割合に基づいて、補正後のピッチ波形群に対して、ピッチ波形の間引きを行ったり、あるいは、ピッチ波形の挿入を行ったりする(ステップS8)。なお、予め定められていた継続時間長は、ピッチ波形の間引きや挿入を行わずに素片の波形を生成した場合の素片の継続時間長である。
図5は、ピッチ波形の間引きの例を示す説明図であり、図6は、ピッチ波形の挿入の例を示す説明図である。図5(a)は、間引き前の各ピッチ波形を示し、図6(a)は、挿入前の各ピッチ波形を示す。本例では、1素片分のピッチ波形群に6個のピッチ波形が属している場合を例にする(図5(a)、図6(a)参照)。図5(a)および図6(a)に示す番号1〜6は、ピッチ波形の順番を表している。なお、図5および図6では、各ピッチ波形の最大振幅を共通としているが、各ピッチの最大振幅は共通であるとは限らない。
図5を参照して間引きの例について説明する。入力された継続時間長(素片を合成音声として出力する際の継続時間長)が、予め定められていた継続時間長の0.66倍であったとする。この場合、時間調整部8は、例えば、図5に示すように、2番目および4番目のピッチ波形を除外し、3番目、5番目および6番目のピッチ波形を2〜4番目に繰り上げる(図5(b)参照)。この結果、ピッチ波形の数が6個から4個に減少し、この素片の継続時間長は、間引きをしない場合に比べて0.66倍になる。
図6を参照して挿入の例について説明する。入力された継続時間長が予め定められていた継続時間長の1.33倍であったとする。この場合、時間調整部8は、図6に示すように、2番目のピッチ波長の次に、その2番目のピッチ波長と同一のピッチ波長を挿入する。同様に、4番目のピッチ波長の次に、その4番目のピッチ波長と同一のピッチ波長を挿入する。この結果、ピッチ波形の数が6個から8個に増加し、この素片の継続時間長は、挿入を行わない場合に比べて1.33倍になる。
なお、間引きや挿入は、図5および図6に示す例に限定されない。入力された継続時間長が予め定められていた継続時間長の何倍である場合に、何番目のピッチ波形を除外するか、また、何番目のピッチ波形と同一のピッチ波形を挿入するかについては、予め間引きや挿入のルールとして定めておけばよい。
ステップS8の次に、素片波形生成部9は、ステップS1で読み込まれたピッチ波形に対応するピッチ周波数を、入力されたピッチ周波数の中から特定し、ピッチ周波数の逆数を計算することにより、ピッチ周期を算出する。そして、そのピッチ周期に合わせて、個々のピッチ波形を連結する(ステップS9)。
なお、ピッチ波形を連結(重ね合わせ加算)する場合には、ピッチ周期に相当するずらし量を用いて重ね合わせ加算すればよい。例えば、1番目のピッチ波形がP1(t)であり、2番目のピッチ波形がP2(t)であり、1番目のピッチ波形から2番目のピッチ波形までのピッチ周期に相当するずらし量がTであるとする。この場合、素片波形生成部9は、P1(t)+P2(t+T)を計算することで、連結後のピッチ波形を得る。3番目以降のピッチ波形についても、同様にずらし量を反映させて重ね合わせ加算していけばよい。連結後の波形において、ピッチ周期が長い箇所では、ピークから次のピークまでが長くなり、ピッチ周期が短い箇所では、ピークから次のピークまでが短くなる。
なお、ピッチ波形を連結する際に、時間軸上で、前のピッチ波形の終点近辺と、その次のピッチ波形の始点近辺とを重複させてもよい。この場合、素片波形生成部9は、前のピッチ波形の終点近辺と、その次のピッチ波形の始点近辺との間で振幅値の加算を行えばよい。
以上のステップS1〜S9により、1つの素片の波形が生成されることになる。
韻律補正部2は、合成音声で用いる素片の順番に、素片毎に上記のステップS1〜S9の処理を行えばよい。
素片波形連結部3は、合成音声で用いる素片の順番に従って、各素片の波形を連結する。素片波形連結部3は、継続時間長に相当するずらし量を用いて、波形の重ね合わせ加算を行えばよい。例えば、1番の音素の波形がX1(t)であり、2番目の音素の波形がX2(t)であるとする。また、1番目の音素の継続時間長に相当するずらし量がRであるとする。この場合、素片波形連結部3は、X1(t)+X2(t+R)を計算することで連結後の波形を得る。3番目以降の音素の波形についても、同様にずらし量を反映させて重ね合わせ加算していけばよい。なお、前の音素の波形の終点近辺と、その次の音素の始点近辺とを重複させてもよい。この場合、素片波形連結部3は、前の音素の波形の終点近辺と、その次の音素の波形の始点近辺との間で振幅値の加算を行えばよい。
本発明において、正規化度αの計算に用いる関数A(S)は増加関数である。従って、平均振幅(パワーを表すスカラ)の値が大きいほど、正規化度は高くなる。すなわち、完全正規化に近づく。一方、平均振幅の値が小さいほど、正規化度は低くなり、ステップS7での変更によるパワーの変化は少なくなる。よって、振幅の小さいピッチ波形については、他のピッチ波形よりも相対的に振幅が小さいという状態を維持することができる。その結果、自然な合成音声を得ることができる。
また、スケーリング係数計算部5は、(C/S)≦g≦1.0という条件を満たすスケーリング係数gを計算し、乗算器7は、そのスケーリング係数gでパワーを変更する。従って、音声の収録条件や話者の癖により、突発的にパワーが増加するようなピッチ波形が得られたとしても、得られる合成音声の波形ではパワーの不均一が生じないようにすることができる。
また、乗算器7は、式(6)の計算によってピッチ波形のパワーを変更するので、変更後のピッチ波形に歪みは生ぜず、音質の低下を防止することができる。
次に、本発明の変形例について説明する。
まず、パワー計算部4による計算の変形例について説明する。上記の例では、パワー計算部4が、ピッチ波形に関して、パワーを表すスカラSとして平均振幅を計算する場合を示した。パワー計算部4は、以下に示す式(7)の計算によって、パワーを表すスカラSを求めてもよい。
式(7)によって得られるスカラは、式(3)によって得られる平均振幅の二乗である。
また、パワー計算部4は、以下に示す式(8)の計算によって、パワーを表すスカラSを求めてもよい。
次に、正規化度計算部6が正規化度αを求めるために用いる増加関数α=A(S)の変形例について説明する。上記の例では、増加関数α=A(S)が式(4)に示す折れ線関数である場合を例にして説明した。α=A(S)は増加関数であれば、折れ線関数でなくてもよい。例えば、正規化度計算部6は、以下に示す式(9)の関数A(S)を用いて、パワー計算部4が計算したスカラS(例えば、パワーの平均振幅)に応じた値を計算すればよい。
式(9)は、パワー計算部4が計算したスカラSが、予め定めた閾値Sth以下であれば、α=0.0であり、そうでなければ(すなわち、スカラSが閾値Sthより大きければ)、α=1.0とする階段関数である。なお、式(9)に示す関数は、二値関数と呼ぶこともできる。なお、式(9)は、階段関数の例であり、増加関数α=A(S)は、式(9)以外の式で表される階段関数であってもよい。
また、α=A(S)はシグモイド関数であってもよい。例えば、正規化度計算部6は、以下に示す式(10)に、パワー計算部4が計算したスカラSを代入することで正規化度αを計算すればよい。
式(10)において、αmin、αmaxは、αmin<αmaxを満たす定数として予め定めておけばよい。また、式(10)において、γ1,γ2は、以下に示す式(11)および式(12)を満足する定数として定めておけばよい。
γ1<0 式(11)
0<S1<γ2<S2 式(12)
また、式(12)におけるS1,S2に関しても、S1<S2を満たす定数として予め定めておけばよい。式(10)に示すシグモイド関数は、図7に示すように表される。なお、式(10)は、シグモイド関数の例であり、増加関数α=A(S)は、式(10)以外の式で表されるシグモイド関数であってもよい。
A(S)をシグモイド関数とすれば、正規化度αの変化が滑らかになるので、パワーの変化がより自然になる。
次に、スケーリング係数5がスケーリング係数gを求めるために用いる関数G(S,α)の変形例について説明する。上記の例では、関数g=G(S,α)が式(5)に示す関数である場合を例にして説明した。正規化度計算部6は、以下に示す式(13)の折れ線関数g=G(S,α)を用いて、スカラS(例えば、パワーの平均振幅)および正規化度αに応じたスケーリング係数gを計算してもよい。
式(13)におけるCは、予め定めた定数である。また、式(13)におけるα1,α2は、0.0≦α1<α2≦1.0を満たす定数として予め定めておけばよい。関数g=G(S,α)は、式(13)以外の式で表される折れ線関数であってもよい。
あるいは、正規化度計算部6は、以下に示す式(14)のシグモイド関数g=G(S,α)を用いて、スカラS(例えば、パワーの平均振幅)および正規化度αに応じたスケーリング係数gを計算してもよい。
式(14)におけるCは、予め定めた定数である。また、式(14)におけるβ1,β2は、以下に示す式(15)および式(16)を満足する定数として定めておけばよい。
β1<0 式(15)
0≦α1<β2<α2≦1.0 式(16)
また、第1の実施形態の他の変形例として、正規化度計算部6が、正規化度αの算出に用いる増加関数A(S)を切り替える態様が上げられる。以下、この変形例について説明する。
正規化度計算部6は、スケーリング係数の計算対象となる素片(すなわち、ステップS1で読み込まれたピッチ波形群に対応する素片)が、母音であるのか、有声破裂音(b,d,g)以外の子音を含んでいるのか、有声破裂音の子音を含んでいるのかによって、正規化度αの算出に用いる増加関数A(S)を切り替える。
なお、この場合、正規化度計算部6には、合成音声出力の対象となるテキスト情報に対して言語処理を行った結果が入力される。すなわち、個々の素片が、母音に該当する素片であるのか、有声破裂音以外の子音を含む素片であるのか、有声破裂音の子音を含む素片であるのかを、言語処理により判定し、素片の順番に、その判定結果を正規化度計算部6に入力すればよい。
スケーリング係数の計算対象となる素片が母音に該当する素片である場合、正規化度計算部6は、増加関数A(S)として、以下に示す式(17)の関数A(S)を用いて、正規化度αを計算すればよい。
また、スケーリング係数の計算対象となる素片が有声破裂音以外の子音を含む素片である場合、正規化度計算部6は、増加関数A(S)として、以下に示す式(18)の関数A(S)を用いて、正規化度αを計算すればよい。
また、スケーリング係数の計算対象となる素片が有声破裂音の子音を含む素片である場合、正規化度計算部6は、増加関数A(S)として、以下に示す式(19)の関数A(S)を用いて、正規化度αを計算すればよい。
なお、式(17)から式(19)において、S1,S2,Sthはそれぞれ、定数とし予め定めておけばよい。ただし、S2,Sthに関しては、S2<Sthを満足するように定める。また、式(17)および式(18)において、αmin1,αmax1,αmin2,αmax2はそれぞれ、αmin1<αmax1,αmin2<αmax2を満足する定数とし予め定めておけばよい。ただし、αmax1,αmax2に関しては、αmax2<αmax1という条件も満足するように定める。αmin1,αmin2については、どちらの値が大きくてもよい。
一般に、子音は正規化に伴う音声劣化が大きくなる可能性が高い。本変形例によれば、子音を含む素片の正規化度を小さく抑えることができる。また、有声破裂音に関してはスケーリング前よりもパワーが大きくなることを防止することができる。従って、スケーリングに伴う子音の音声劣化を防止することができる。
また、正規化度計算部6は、スケーリング係数の計算対象となる素片(すなわち、ステップS1で読み込まれたピッチ波形群に対応する素片)が、文頭から3モーラ以内の素片に該当する素片であるか否かによって、正規化度αの算出に用いる増加関数A(S)を切り替えてもよい。この場合には、合成音声出力の対象となるテキスト情報に対する言語処理として、個々の素片が文頭から3モーラ以内の素片に該当するか否かを判定する処理を行い、素片の順番に、その判定結果を正規化度計算部6に入力すればよい。
スケーリング係数の計算対象となる素片が文頭から3モーラ以内の素片である場合、正規化度計算部6は、増加関数A(S)として、以下に示す式(20)の関数A(S)を用いて、正規化度αを計算すればよい。
また、スケーリング係数の計算対象となる素片が文頭から3モーラ以内の素片でない場合、正規化度計算部6は、増加関数A(S)として、以下に示す式(21)の関数A(S)を用いて、正規化度αを計算すればよい。
なお、式(20)および式(21)において、S1,S2,S3はそれぞれ、S1<S3<S2を満足する定数として予め定めておけばよい。また、αmin1,αmax1,αmin2,αmax2はそれぞれ、αmin1<αmax1,αmin2<αmax2を満足する定数とし予め定めておけばよい。ただし、αmax1,αmax2に関しては、αmax2<αmax1という条件も満足するように定める。αmin1,αmin2については、どちらの値が大きくてもよい。
また、文頭から3モーラ以内の素片であるか否かではなく、呼気段落における呼気段落頭から3モーラ以内の素片であるか否かによって、正規化度αの算出に用いるA(S)を切り替えてもよい。すなわち、スケーリング係数の計算対象となる素片が呼気段落頭から3モーラ以内の素片である場合、正規化度計算部6は、式(20)を用いて正規化度αを計算すればよい。また、スケーリング係数の計算対象となる素片が呼気段落頭から3モーラ以内の素片でない場合、正規化度計算部6は、式(21)を用いて正規化度αを計算すればよい。この場合、正規化度計算部6には、呼気段落頭から3モーラ以内の素片であるか否かを素片毎に判定した結果が入力されればよい。
文頭(または呼気段落頭)から3モーラ以内では、パワーが大きくなることが多い。本変形例によれば、文頭(または呼気段落頭)から3モーラ以内の素片における正規化度を小さくすることによって、文頭や呼気段落頭における合成音声をより自然な音声にすることができる。
実施形態2.
第2の実施形態の波形処理装置は、音声素片記憶部1に記憶させるピッチ波形群を素片毎に生成する。図8は、本発明の第2の実施形態の例を示すブロック図である。第1の実施形態と同様の構成要素については、図1と同一の符号を付し、詳細な説明を省略する。第2の実施形態の波形処理装置は、第1の実施形態の要素(図1参照)に加え、さらに、収録音声波形記憶部32と、時間長情報記憶部31と、素片作成部33とを備える。
第2の実施形態の波形処理装置は、音声素片記憶部1に記憶させるピッチ波形群を素片毎に生成する。図8は、本発明の第2の実施形態の例を示すブロック図である。第1の実施形態と同様の構成要素については、図1と同一の符号を付し、詳細な説明を省略する。第2の実施形態の波形処理装置は、第1の実施形態の要素(図1参照)に加え、さらに、収録音声波形記憶部32と、時間長情報記憶部31と、素片作成部33とを備える。
収録音声波形記憶部32は、収録された音声の波形を記憶する記憶装置である。図8では、“u”,“ma”,“i”という各音節の連なりの波形を記憶している例を示している。
時間長情報記憶部31は、収録された音声の各音節の時間長を記憶する記憶装置である。すなわち、時間長情報記憶部31は、収録音声波形記憶部32に記憶された波形に対応する各音節の時間長を記憶する。例えば、時間長情報記憶部31は、“u”,“ma”,“i”等の音節毎に、その時間長を記憶する。
素片作成部33は、収録音声波形記憶部32に記憶された波形(収録された音声の波形)から素片毎の波形を切り出し、さらに、個々の素片の波形毎に、ピッチ波形を切り出す。そして、素片毎にピッチ波形群を音声素片記憶部1に記憶させる。
具体的には、素片作成部33は、素片波形切り出し部34と、ピッチ波形生成部35とを備える。
素片作成部33は、時間長情報記憶部31に記憶された音節毎の時間長に基づいて、収録音声波形記憶部32に記憶された波形(収録された音声の波形)から個々の素片の波形を切り出す。既に説明したように、母音単独の音節に関しては、その母音の前半と後半がそれぞれ1つの素片(素片の1単位)となる。また、子音の後に母音が続く音節では、子音と、その後に続く母音の前半とで1つの素片となり、また、その母音の後半が1つの素片となる。従って、素片作成部33は、収録された音声の波形から、母音単独の音節の前半と後半とをそれぞれ切り出せばよい。また、子音と、その後に続く母音とからなる音節に関しては、子音とその後に続く母音の前半を切り出すとともに、その母音の後半を切り出せばよい。また、収録された音声の波形において、個々の音節に該当する箇所は、音節毎の時間長に基づいて判定すればよい。
例えば、図8に例示するように収録された音声の波形(以下、単に収録波形と記す。)が、“u”,“ma”,“i”という音節に対応しているとする。素片作成部33は、“u”,“ma”,“i”の各時間長に基づいて、“u”,“ma”,“i”に対応する箇所を収録波形から特定し、その各音節に該当する箇所の前半部分と後半部分とをそれぞれ切り出す。この結果、素片毎の波形が得られる。
ピッチ波形生成部35は、各素片の波形毎に、ピッチ波形を切り出す。1つの素片の波形においても、ピークが複数現れる。ピッチ波形生成部35は、そのピーク間の間隔をピッチ周期として計算する。そして、ピッチ波形生成部35は、素片の波形をピッチ周期に合わせて切り出すことにより、1つの素片に関して複数のピッチ波形(ピッチ波形群)を得る。なお、ピッチ波形生成部35は、ピークが中央に存在し、波形の両端のパワーがピークよりも小さくなるようにして、個々のピッチ波形を切り出す。
ピッチ波形生成部35は、素片毎に、生成したピッチ波形群を音声素片記憶部1に記憶させる。
なお、上記の例では、“u”,“ma”,“i”という音節を含む収録波形を例に説明したが、収録音声波形記憶部32には、種々な音節を含む多くの収録波形を記憶させておく。また、その収録波形に応じた各音節の時間長を時間長情報記憶部31に記憶させておく。
素片波形切り出し部34およびピッチ波形生成部35は、例えば、波形処理プログラムに従って動作するコンピュータのCPUによって実現される。
韻律補正部2が備える各要素および素片波形連結部3については、第1の実施形態におけるそれらの要素と同様であり、説明を省略する。また、第1の実施形態の変形例を、第2の実施形態に適用してもよい。
本実施形態によれば、第1の実施形態と同様の効果を得ることができる。また、音声素片記憶部1に、種々の素片のピッチ波形群を自動的に記憶させることができる。
実施形態3.
図9は、本発明の第3の実施形態の例を示すブロック図である。第1の実施形態や第2の実施形態と同様の構成要素については、図1、図9と同一の符号を付し、詳細な説明を省略する。
図9は、本発明の第3の実施形態の例を示すブロック図である。第1の実施形態や第2の実施形態と同様の構成要素については、図1、図9と同一の符号を付し、詳細な説明を省略する。
第3の実施形態の波形処理装置は、収録音声波形記憶部32と、時間長情報記憶部31と、素片作成部33aと、音声素片記憶部1と、ピッチパタン生成部41と、素片波形連結部3を備える。
本実施形態では、素片作成部33aが、音声素片記憶部1に記憶させる前のピッチ波形群に対してスケーリングを行い、スケーリング後のピッチ波形群を音声素片記憶部1に記憶させる。
ピッチ波形生成部41は、素片毎に、音声素片記憶部1に記憶されたピッチ波形を連結する。
素片作成部33aは、素片波形切り出し部34と、ピッチ波形生成部35と、パワー補正部10とを備える。素片波形切り出し部34およびピッチ波形生成部35は、第2の実施形態におけるそれらの要素と同様である。パワー補正部10、およびパワー補正部10に含まれるパワー計算部4、正規化度計算部6、スケーリング係数計算部5および乗算器7は、第1および第2の実施形態におけるそれらの要素と同様である。なお、乗算器7は、スケーリング後のピッチ波形群を音声素片記憶部1に記憶させる。
ピッチ波形生成部41は、時間調整部8と、素片波形生成部9とを備える。時間調整部8、素片波形生成部9および素片波形連結部3は、第1および第2の実施形態におけるそれらの要素と同様である。
本実施形態においても、第2の実施形態と同様の効果が得られる。
次に本発明の最小構成について説明する。図10は、本発明の波形処理装置の最小構成の例を示すブロック図である。本発明の波形処理装置は、パワー計算手段71と、正規化度計算手段72と、変更係数計算手段73と、振幅変更手段74とを備える。
パワー計算手段71(例えば、パワー計算部4)は、素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラ(例えば、平均振幅、あるいは、式(7)または式(8)で得られるスカラ)を計算する。
正規化度計算手段72(例えば、正規化度計算部6)は、パワー計算手段71によって選択されたピッチ波形に対する正規化の程度を表す指標値である正規化度を、スカラを変数とする増加関数(例えば、式(4)、式(9)または式(10)に例示する関数A(S))の関数値として計算する。
換係数計算手段73(例えば、スケーリング係数計算部5)は、パワー計算手段71によって選択されたピッチ波形の振幅値を変更する変更係数(例えば、スケーリング係数g)を、スカラおよび正規化度に基づいて計算する。
振幅変更手段74(例えば、乗算器7)は、パワー計算手段71によって選択されたピッチ波形の各サンプリング点における振幅値に変更係数を乗じる。
以上のような構成により、自然な合成音声が得られるように、素片の各ピッチ波形のパワーを変化させることができる。
上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下に限定されるわけではない。
(付記1)素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算手段と、パワー計算手段によって選択されたピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算する正規化度計算手段と、パワー計算手段によって選択されたピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算する変更係数計算手段と、パワー計算手段によって選択されたピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる振幅変更手段とを備えることを特徴とする波形処理装置。
(付記2)変更係数計算手段は、変更係数をgとし、予め定められた定数をCとし、パワー計算手段に計算されたスカラをSとし、正規化度をαとしたときに、(C/S)≦g≦1.0を満足する変更係数gを、Sおよびαを変数とする関数の関数値として計算する付記1に記載の波形処理装置。
(付記3)振幅変更手段によって変更されたピッチ波形を連結することにより、素片を表す波形を生成する素片波形生成手段を備える付記1または付記2に記載の波形処理装置。
(付記4)素片波形生成手段によって生成された素片を表す波形を連結する素片波形連結手段を備える付記1から付記3のうちのいずれかに記載の波形処理装置。
(付記5)素片に対応するピッチ波形群を素片毎に記憶する素片記憶手段を備える付記1から付記4のうちのいずれかに記載の波形処理装置。
(付記6)収録された音声の波形を記憶する収録音声波形記憶手段と、前記収録された音声の波形を素片毎に切り出す素片波形切り出し手段と、素片毎に切り出された波形をピッチ波形毎に切り出し、素片毎に、素片に対応するピッチ波形群を生成するピッチ波形生成手段とを備える付記1から付記5のうちのいずれかに記載の波形処理装置。
(付記7)素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算し、選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算し、選択したピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算し、選択したピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じることを特徴とする波形処理方法。
(付記8)変更係数をgとし、予め定められた定数をCとし、選択したピッチ波形のパワーを表すスカラをSとし、正規化度をαとしたときに、(C/S)≦g≦1.0を満足する変更係数gを、Sおよびαを変数とする関数の関数値として計算する付記7に記載の波形処理方法。
(付記9)コンピュータに、素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算処理、パワー計算処理で選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算する正規化度計算処理、パワー計算処理で選択したピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算する変更係数計算処理、および、パワー計算処理で選択したピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる振幅変更処理を実行させるための波形処理プログラム。
(付記10)コンピュータに、変更係数計算処理で、変更係数をgとし、予め定められた定数をCとし、パワー計算処理で計算したスカラをSとし、正規化度をαとしたときに、(C/S)≦g≦1.0を満足する変更係数gを、Sおよびαを変数とする関数の関数値として計算させる付記9に記載の波形処理プログラム。
(付記11)素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算部と、パワー計算部によって選択されたピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算する正規化度計算部と、パワー計算部によって選択されたピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算する変更係数計算部と、パワー計算部によって選択されたピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる振幅変更部とを備えることを特徴とする波形処理装置。
(付記12)変更係数計算部は、変更係数をgとし、予め定められた定数をCとし、パワー計算部に計算されたスカラをSとし、正規化度をαとしたときに、(C/S)≦g≦1.0を満足する変更係数gを、Sおよびαを変数とする関数の関数値として計算する付記1に記載の波形処理装置。
(付記13)振幅変更部によって変更されたピッチ波形を連結することにより、素片を表す波形を生成する素片波形生成部を備える付記1または付記2に記載の波形処理装置。
(付記14)素片波形生成部によって生成された素片を表す波形を連結する素片波形連結部を備える付記1から付記3のうちのいずれかに記載の波形処理装置。
(付記15)素片に対応するピッチ波形群を素片毎に記憶する素片記憶部を備える付記1から付記4のうちのいずれかに記載の波形処理装置。
(付記16)収録された音声の波形を記憶する収録音声波形記憶部と、前記収録された音声の波形を素片毎に切り出す素片波形切り出し部と、素片毎に切り出された波形をピッチ波形毎に切り出し、素片毎に、素片に対応するピッチ波形群を生成するピッチ波形生成部とを備える付記1から付記5のうちのいずれかに記載の波形処理装置。
この出願は、2011年7月19日に出願された日本特許出願2011−158298を基礎とする優先権を主張し、その開示の全てをここに取り込む。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
本発明は、波形のパワーを変化させる波形処理装置に適用可能である。
1 音声素片記憶部
2 韻律補正部
3 素片波形連結部
4 パワー計算部
5 スケーリング係数計算部
6 正規化度計算部
7 乗算器
8 時間調整部
9 素片波形生成部
10 パワー補正部
2 韻律補正部
3 素片波形連結部
4 パワー計算部
5 スケーリング係数計算部
6 正規化度計算部
7 乗算器
8 時間調整部
9 素片波形生成部
10 パワー補正部
Claims (10)
- 素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算手段と、
パワー計算手段によって選択されたピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算する正規化度計算手段と、
パワー計算手段によって選択されたピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算する変更係数計算手段と、
パワー計算手段によって選択されたピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる振幅変更手段とを備える
ことを特徴とする波形処理装置。 - 変更係数計算手段は、変更係数をgとし、予め定められた定数をCとし、パワー計算手段に計算されたスカラをSとし、正規化度をαとしたときに、(C/S)≦g≦1.0を満足する変更係数gを、Sおよびαを変数とする関数の関数値として計算する
請求項1に記載の波形処理装置。 - 振幅変更手段によって変更されたピッチ波形を連結することにより、素片を表す波形を生成する素片波形生成手段を備える
請求項1または請求項2に記載の波形処理装置。 - 素片波形生成手段によって生成された素片を表す波形を連結する素片波形連結手段を備える
請求項1から請求項3のうちのいずれか1項に記載の波形処理装置。 - 素片に対応するピッチ波形群を素片毎に記憶する素片記憶手段を備える
請求項1から請求項4のうちのいずれか1項に記載の波形処理装置。 - 収録された音声の波形を記憶する収録音声波形記憶手段と、
前記収録された音声の波形を素片毎に切り出す素片波形切り出し手段と、
素片毎に切り出された波形をピッチ波形毎に切り出し、素片毎に、素片に対応するピッチ波形群を生成するピッチ波形生成手段とを備える
請求項1から請求項5のうちのいずれか1項に記載の波形処理装置。 - 素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算し、
選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算し、
選択したピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算し、
選択したピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる
ことを特徴とする波形処理方法。 - 変更係数をgとし、予め定められた定数をCとし、選択したピッチ波形のパワーを表すスカラをSとし、正規化度をαとしたときに、(C/S)≦g≦1.0を満足する変更係数gを、Sおよびαを変数とする関数の関数値として計算する
請求項7に記載の波形処理方法。 - コンピュータに、
素片に対応するピッチ波形群の中からピッチ波形を1つずつ選択し、選択したピッチ波形のパワーを表すスカラを計算するパワー計算処理、
パワー計算処理で選択したピッチ波形に対する正規化の程度を表す指標値である正規化度を、前記スカラを変数とする増加関数の関数値として計算する正規化度計算処理、
パワー計算処理で選択したピッチ波形の振幅値を変更する変更係数を、前記スカラおよび前記正規化度に基づいて計算する変更係数計算処理、および、
パワー計算処理で選択したピッチ波形の各サンプリング点における振幅値に前記変更係数を乗じる振幅変更処理
を実行させるための波形処理プログラム。 - コンピュータに、
変更係数計算処理で、変更係数をgとし、予め定められた定数をCとし、パワー計算処理で計算したスカラをSとし、正規化度をαとしたときに、(C/S)≦g≦1.0を満足する変更係数gを、Sおよびαを変数とする関数の関数値として計算させる
請求項9に記載の波形処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013524586A JP5862667B2 (ja) | 2011-07-19 | 2012-06-26 | 波形処理装置、波形処理方法および波形処理プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011158298 | 2011-07-19 | ||
JP2011158298 | 2011-07-19 | ||
JP2013524586A JP5862667B2 (ja) | 2011-07-19 | 2012-06-26 | 波形処理装置、波形処理方法および波形処理プログラム |
PCT/JP2012/004128 WO2013011634A1 (ja) | 2011-07-19 | 2012-06-26 | 波形処理装置、波形処理方法および波形処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2013011634A1 JPWO2013011634A1 (ja) | 2015-02-23 |
JP5862667B2 true JP5862667B2 (ja) | 2016-02-16 |
Family
ID=47557837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013524586A Active JP5862667B2 (ja) | 2011-07-19 | 2012-06-26 | 波形処理装置、波形処理方法および波形処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9443538B2 (ja) |
JP (1) | JP5862667B2 (ja) |
WO (1) | WO2013011634A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6398523B2 (ja) * | 2014-09-22 | 2018-10-03 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
CN112562635B (zh) * | 2020-12-03 | 2024-04-09 | 云知声智能科技股份有限公司 | 解决语音合成中拼接处产生脉冲信号的方法、装置及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2751262B2 (ja) * | 1988-11-19 | 1998-05-18 | ソニー株式会社 | 信号記録方法及び装置 |
JPH09244693A (ja) * | 1996-03-07 | 1997-09-19 | N T T Data Tsushin Kk | 音声合成方法及び装置 |
AU2003284654A1 (en) | 2002-11-25 | 2004-06-18 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis method and speech synthesis device |
JP5019807B2 (ja) * | 2006-07-07 | 2012-09-05 | シャープ株式会社 | 音声合成装置、音声合成方法および音声合成方法を実現するためのプログラム |
-
2012
- 2012-06-26 WO PCT/JP2012/004128 patent/WO2013011634A1/ja active Application Filing
- 2012-06-26 JP JP2013524586A patent/JP5862667B2/ja active Active
- 2012-06-26 US US14/131,460 patent/US9443538B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20140136192A1 (en) | 2014-05-15 |
WO2013011634A1 (ja) | 2013-01-24 |
JPWO2013011634A1 (ja) | 2015-02-23 |
US9443538B2 (en) | 2016-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3913770B2 (ja) | 音声合成装置および方法 | |
JP4469883B2 (ja) | 音声合成方法及びその装置 | |
JP4406440B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2008033133A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JPWO2012063424A1 (ja) | 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム | |
US9805711B2 (en) | Sound synthesis device, sound synthesis method and storage medium | |
JP5862667B2 (ja) | 波形処理装置、波形処理方法および波形処理プログラム | |
US7765103B2 (en) | Rule based speech synthesis method and apparatus | |
JP2009133890A (ja) | 音声合成装置及びその方法 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP4476855B2 (ja) | 音声合成装置及びその方法 | |
JP4525162B2 (ja) | 音声合成装置及びそのプログラム | |
JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
US8407054B2 (en) | Speech synthesis device, speech synthesis method, and speech synthesis program | |
JP2007271910A (ja) | 合成音声生成装置 | |
JP6011039B2 (ja) | 音声合成装置および音声合成方法 | |
JP5393546B2 (ja) | 韻律作成装置及び韻律作成方法 | |
JP2005265895A (ja) | 素片接続型音声合成装置及び方法 | |
JP5054632B2 (ja) | 音声合成装置及び音声合成プログラム | |
JP2007233181A (ja) | 音声合成装置、音声合成方法、及び、プログラム | |
JP2008299266A (ja) | 音声合成装置および音声合成方法 | |
JPH09230893A (ja) | 規則音声合成方法及び音声合成装置 | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2005300919A (ja) | 音声合成装置 | |
JP2002055693A (ja) | 音声合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150513 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5862667 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |