<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、歌唱音や発話音等の合成対象音を素片接続型の音声合成で生成する音声処理装置であり、図1に示すように、演算処理装置10と記憶装置12と入力装置14と表示装置16と放音装置18とを具備するコンピュータシステムで実現される。
演算処理装置10(CPU)は、記憶装置12に格納されたプログラムPGM1の実行で、合成対象音の音声信号SOUTを生成するための複数の機能(表示制御部22,情報生成部24,素片選択部26,音声合成部28)を実現する。音声信号SOUTは、合成対象音の波形を表す音響信号である。なお、演算処理装置10の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。
記憶装置12は、演算処理装置10が実行するプログラムPGM1や演算処理装置10が使用する各種の情報(素片群G,合成情報Z)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として採用される。
素片群Gは、複数の素片データWの集合(音声合成ライブラリ)である。各素片データWは、音声素片の時間軸上の波形を示すサンプル系列であり、音声合成の素材として利用される。音声素片は、言語的な意味の最小単位に相当する1個の音素(phoneme)または複数の音素を連結した音素連鎖(例えばダイフォンやトライフォン)である。なお、以下では便宜的に、無音を1個の音素(記号#)として説明する。
音声素片は、音響特性が定常的である定常素片と音響特性が時間的に変動する変動素片とに区分される。定常素片の典型例は、1個の音素で構成される有声音(有声母音または有声子音)の音声素片であり、変動素片の典型例は、1個の音素で構成される無声音(無声子音)の音声素片または複数の音素(有声音または無声音)で構成されて音素間の遷移を含む音声素片(音素連鎖)である。
図2の部分(A)には、変動素片の音声波形(包絡線)Vaが図示され、図2の部分(B)には、定常素片の音声波形(包絡線)Vbが図示されている。図2の部分(A)に示すように、変動素片に分類される音声素片については、特定の発声者がその音声素片を発声したときの音声波形Vaの全区間にわたるサンプル系列が素片データWとして記憶装置12に格納される。他方、定常素片に分類される音声素片については、図2の部分(B)に示すように、特定の発声者がその音声素片を発声したときの音声波形Vb(音響特性が定常的に維持される区間)のうち時間軸上の相異なる位置から抽出されたM個(以下の例示では3個)の単位波形u[1]〜u[M]の各々のサンプル系列の集合が素片データWとして記憶装置12に格納される。第1実施形態において1個の定常素片に対応する各単位波形u[m](m=1〜M)は、時間的に連続する有声音の音声波形Vbの1周期分(例えば数ミリ秒程度)に相当する時間長T0の区間である。M個の単位波形u[1]〜u[M]の各々は、受聴者に共通の音声素片と知覚される程度に音響特性が相互に類似する。ただし、音声波形Vbの相異なる時点から抽出されるから、M個の単位波形u[1]〜u[M]の各々の音響特性(波形)は、1個の音声素片を継続的に発声した場合の音響特性の変動(揺らぎ)の範囲内で相互に相違する。
図1の記憶装置12に格納された合成情報Zは、合成対象音を時系列に指定する情報(スコアデータ)である。図1に示すように、合成情報Zは、合成対象音を構成する複数の音声素片Zaの各々について音高Zbと発音時刻Zcと継続長Zdと音量Zeとを指定する。なお、以上に例示した情報に加えて(または以上の情報に代えて)、ボリューム(Volume)やベロシティ(Velocity)等の情報を合成情報Zで指定することも可能である。
入力装置14は、利用者からの指示を受付ける機器(例えばマウスやキーボード)である。表示装置16(例えば液晶表示装置)は、演算処理装置10から指示された画像を表示する。放音装置18(例えばスピーカやヘッドホン)は、演算処理装置10が生成する音声信号SOUTに応じた音波を放射する。
図1の表示制御部22は、合成情報Zの生成および編集のために利用者が視認する図3の部分(A)の編集画面40を表示装置16に表示させる。図3の部分(A)に示すように、編集画面40は、相互に交差する時間軸(横軸)と音高軸(縦軸)とが設定された画像(五線紙型またはピアノロール型の画像)である。利用者は、編集画面40を参照しながら入力装置14を適宜に操作することで、合成対象音を図形化した音符画像42の配置や各音符画像42の位置およびサイズの変更,各合成対象音に対する発音文字(例えば歌詞の音節)の指定を音声合成装置100に指示することが可能である。なお、編集画面40の形式は任意である。例えば、合成情報Zの各情報(音声素片Za,音高Zb,発音時刻Zc,継続長Zd,音量Ze)の各数値のリストを編集画面40として表示することも可能である。
図1の情報生成部24は、編集画面40に対する利用者からの指示に応じて合成情報Zを生成または更新する。具体的には、情報生成部24は、音符画像42に指定された発音文字に応じて合成情報Zの各音声素片Zaを設定する。例えば、図3の部分(A)に例示した発音文字「ま[ma]」については、図3の部分(B)に示すように[#-m],[m-a],[a],[a-#](#:無音)という4個の音声素片Zaに変換される。なお、以上の例示ではダイフォンを例示したが、発音文字「ま[ma]」は、例えばモノフォンを利用する場合には[m],[a]という2個の音声素片Zaに変換され、トライフォンを利用する場合には[#-m-a],[a-#]という2個の音声素片Zaに変換される。また、情報生成部24は、音符画像42の音高軸上の位置に応じて各音高Zbを設定し、各音声素片Zaの発音時刻Zcを音符画像42の時間軸上の位置に応じて設定し、継続長Zdを音符画像42の時間軸上の長さに応じて設定する。音量Zeも同様に利用者からの指示に応じて設定される。
素片選択部26は、合成情報Zが指定する各音声素片Zaに対応する素片データWを、各音声素片Zaの発音時刻Zcに対応する時点で、記憶装置12の素片群Gから順次に選択する。音声合成部28は、素片選択部26が選択した素片データWを利用して音声信号SOUTを生成する。具体的には、音声合成部28は、素片選択部26が選択した素片データWの音声素片(以下「選択素片」という)毎に、その選択素片について合成情報Zが指定する音高Zbと継続長Zdと音量Zeとに調整された素片波形Qを素片データWから生成し、相前後する素片波形Qを相互に連結することで音声信号SOUTを生成する。図4は、音声合成部28が素片波形Qを生成する処理のフローチャートである。素片選択部26が素片データWを選択するたびに図4の処理が実行される。
素片選択部26が素片データWを選択すると、音声合成部28は、選択素片が定常素片であるか否かを判定する(SA1)。定常素片と変動素片とを区別する方法は任意であるが、例えば音声素片の種類(定常素片/変動素片)を示す情報を素片データWに事前に付加し、その情報を参照して音声合成部28が定常素片と変動素片とを区別する構成が採用され得る。選択素片が変動素片である場合(SA1:NO)、音声合成部28は、素片選択部26が選択した素片データW(図2の部分(A)の音声波形Va)を、合成情報Zが選択素片について指定する音高Zbと継続長Zdと音量Zeとに調整することで選択素片の素片波形Qを生成する(SA2)。
他方、選択素片が定常素片である場合(SA1:YES)、音声合成部28は、選択素片の素片データWに含まれるM個の単位波形u[1]〜u[M]の各々を時間軸上に選択的に配列することで素片波形Qを生成する処理(以下「波形生成処理」という)を実行する(SA3)。
図5は、波形生成処理(図4の処理SA3)のフローチャートであり、図6は、波形生成処理の説明図である。図5の処理を開始すると、音声合成部28は、図6に示すように、合成情報Zが選択素片について指定する継続長ZdをN個の処理期間R[1]〜R[N]に区分する(SB1)。各処理期間R[n](n=1〜N)の時間長Lr[n]はランダムに設定される。ただし、各時間長Lr[n]は単位波形u[m]の時間長T0の整数倍に相当し、かつ、N個の時間長Lr[1]〜Lr[N]の合計は継続長Zdに合致する(Lr[1]+Lr[2]+……+Lr[N]=Zd)。
第1実施形態の時間長Lr[n]は、基準長L0と変動長d[n]との加算値として定義される(Lr[n]=L0+d[n])。音声合成部28は、N個の変動長d[n]の各々を所定の範囲内でランダムに設定し、各変動長d[n]を所定の基準長L0に加算することで処理期間R[n]の時間長Lr[n]を設定する。したがって、各処理期間R[n]の時間長Lr[n]は相違し得る。また、処理期間R[n]の個数Nは継続長Zdに応じて変化する。
音声合成部28は、図6に示すように、選択素片の素片データWに含まれるM個の単位波形u[1]〜u[M]を選択的に時間軸上に配列することで、時間長Lr[n]の合成波形C[n]を処理期間R[n]毎に生成する(SB2〜SB6)。N個の合成波形C[n]を連結させた波形が素片波形Qとして音声信号SOUTの生成に適用される。図6では、各単位波形u[m]の強度(振幅またはパワー)の時間変化が模式的に図示されている。
音声合成部28は、1個の処理期間R[n]を指定する変数nを1に初期化する(SB2)。そして、音声合成部28は、選択素片の素片データWに含まれるM個の単位波形u[1]〜u[M]のうち相異なる2個の単位波形u[m]を第1単位波形Ua[n]および第2単位波形Ub[n]として選択する(SB3)。
具体的には、音声合成部28は、直前の処理期間R[n-1]での第1単位波形Ua[n-1]を現在の処理期間R[n]の第2単位波形Ub[n]として選択し、M個の単位波形u[1]〜u[M]のうち第2単位波形Ub[n]を除外した(M−1)個からランダムに処理期間R[n]の第1単位波形Ua[n]を選択する。なお、最初の処理期間R[1]については、M個の単位波形u[1]〜u[M]のうち任意の1個(例えばM個からランダムまたは固定的に選択された1個)の単位波形u[m]が第2単位波形Ub[n]として選択される。
例えば図6に示すように、継続長Zd内の最初の処理期間R[1]では、単位波形u[3]が第1単位波形Ua[1]として選択されるとともに単位波形u[2]が第2単位波形Ub[1]として選択される。直後の処理期間R[2]では、単位波形u[1]が新たな第1単位波形Ua[2]として選択され、単位波形u[3]が第2単位波形Ub[2]として処理期間R[1]から引続き選択される。また、処理期間R[3]では、単位波形u[2]が新たな第1単位波形Ua[3]として選択され、単位波形u[1]が第2単位波形Ub[3]として処理期間R[2]から引続き選択される。
以上のように処理期間R[n]の第1単位波形Ua[n]および第2単位波形Ub[n]を選択すると、音声合成部28は、図6に示すように、複数の第1単位波形Ua[n]を配列した第1波形系列Sa[n]と、複数の第2単位波形Ub[n]を配列した第2波形系列Sb[n]とのクロスフェードで処理期間R[n]の合成波形C[n]を生成する(SB4)。具体的には、第1波形系列Sa[n]は、処理期間R[n]の時間長Lr[n]にわたる個数(Lr[n]/T0個)の第1単位波形Ua[n]を、各第1単位波形Ua[n]の強度(振幅)が経時的に増加するように調整して配列した時系列である。他方、第2波形系列Sb[n]は、処理期間R[n]の時間長Lr[n]にわたる個数(Lr[n]/T0個)の第2単位波形Ub[n]を、各第2単位波形Ub[n]の強度(振幅)が経時的に減少するように調整して配列した時系列である。音声合成部28は、第1波形系列Sa[n]と第2波形系列Sb[n]との加算で合成波形C[n]を生成する。
音声合成部28は、N個の処理期間R[1]〜R[N]の全部について合成波形C[n](C[1]〜C[N])を生成したか否かを判定する(SB5)。処理SB5の結果が否定である場合、変数nに1を加算し(SB6)、更新後の変数nに対応する処理期間R[n](すなわち直前に合成波形C[n-1]を生成した処理期間R[n-1]の直後の処理期間R[n])を対象として処理SB3から処理SB5を実行することで合成波形C[n]を生成する。
以上の処理の反復でN個の合成波形C[1]〜C[N]の生成が完了すると(SB5:YES)、音声合成部28は、N個の合成波形C[1]〜C[N]を時間軸上に配列することで素片波形Q0を生成する(SB7)。そして、音声合成部28は、処理SB7で生成した素片波形Q0を、合成情報Zが選択素片に指定する音高Zbおよび音量Zeに調整することで素片波形Qを生成する(SB8)。以上の説明から理解されるように、合成情報Zが選択素片に指定する継続長Zdにわたる音高Zbおよび音量Zeの素片波形Qが選択素片について生成される。前述の通り、変動素片について処理SA2で生成された素片波形Qと定常素片について波形生成処理SA3(処理SB8)で生成された素片波形Qとの連結で音声信号SOUTが生成される。
以上の説明から理解されるように、第1実施形態では、音声波形Vbのうち時間軸上の相異なる位置から抽出されたM個の単位波形u[1]〜u[M]を適宜に選択して配列することで合成波形C[n]が生成される。したがって、例えば定常音素の生成時に1個の音声波形Vbを反復させる構成(例えば特許文献1の構成)と比較すると、音声波形Vbの反復に起因して音声信号SOUTに発生する特性変化の周期性が受聴者に知覚され難くなる(すなわち高音質な音声信号SOUTを生成できる)という利点がある。
第1実施形態では特に、第1波形系列Sa[n]と第2波形系列Sb[n]とのクロスフェードで合成波形C[n]が生成されるから、例えば複数の単位波形u[m]を選択的に配列して合成波形C[n]を生成する構成と比較して、素片波形Qにおける特性変化の周期性が知覚され難いという効果は格別に顕著である。また、第1実施形態では、各処理期間R[n]が相異なる時間長Lr[n]に設定され得るから、N個の処理期間R[1]〜R[N]が相等しい時間長に設定される構成と比較して、素片波形Qにおける特性変化の周期性が知覚され難いという効果は格別に顕著である。また、第1実施形態では、処理期間R[n-1]で第1単位波形Ua[n-1]として選択された単位波形u[m]が直後の処理期間R[n]で引続き第2単位波形Ub[n]として選択される。したがって、第1単位波形Ua[n]および第2単位波形Ub[n]の双方を直前の処理期間R[n]での選択対象とは無関係に選択する構成と比較して、素片波形Qにおける特性変化の周期性が低減されるという利点がある。
また、第1実施形態では、音声波形Vbから抽出された複数の部分(単位波形u[m])が記憶装置12に格納されるから、音声波形Vbの全区間を記憶装置12に格納する構成と比較して、記憶装置12に必要な記憶容量が削減されるという利点もある。特に第1実施形態では、音声波形Vbの1周期分が各単位波形u[m]として記憶装置12に格納されるから、記憶容量の低減の効果は格別に顕著である。なお、携帯電話機や携帯情報端末等の携帯機器では、例えば据置型の情報処理装置と比較して記憶容量の制約が大きいから、記憶容量の削減が可能な第1実施形態は、音声合成装置100を携帯機器等に搭載した場合に格別に有効である。
<B:第2実施形態>
図7は、本発明の第2実施形態に係る音声処理装置200のブロック図である。音声処理装置200は、第1実施形態の音声合成装置100において定常音素の素片波形Qの生成に使用されるM個の単位波形u[1]〜u[M]を生成する。
図7に示すように、音声処理装置200は、演算処理装置50と記憶装置52とを具備するコンピュータシステムで実現される。記憶装置52は、演算処理装置50が実行するプログラムPGM2や演算処理装置50が記憶する各種の情報を記憶する。例えば、M個の単位波形u[1]〜u[M]の素材となる音声波形Vbが記憶装置52に格納される。音声波形Vbは、有声音の音声素片を時間的に連続して発声した音声を示すサンプル系列である。例えば音声処理装置200に接続された収音機器(図示略)が収音した音声波形Vbや、光ディスク等の各種の記録媒体またはインターネット等の通信網から供給された音声波形Vbが記憶装置52に格納される。なお、以下の説明では便宜的に1個の音声波形Vbのみに言及するが、実際には相異なる音声素片に対応する複数の音声波形Vbが記憶装置52に格納され、以下に例示する複数の単位波形u[m]の生成が音声波形Vb毎に順次に実行される。
演算処理装置50は、記憶装置52に格納されたプログラムPGM2の実行で、音声波形VbからM個の単位波形u[1]〜u[M]を生成するための複数の機能(波形抽出部62,波形補正部64)を実現する。なお、演算処理装置50の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。
図8には、記憶装置52に記憶された音声波形Vb(包絡線)が図示されている。図8に示すように、波形抽出部62は、記憶装置52に格納された音声波形Vbのうち時間軸上の相異なる位置からM個(以下の例示では3個)の単位波形x[1]〜x[M]を抽出する。各単位波形x[m]は、音声波形Vbの1周期分に相当する区間である。単位波形x[m]の抽出には公知の技術が任意に採用される。
発声者が1個の音声素片を継続的に発声した場合でも、実際の音声波形Vbの音響特性(振幅や周期)は経時的に変動するから、音声波形Vbから抽出された各単位波形x[m]の音響特性は相違し得る。図7の波形補正部64は、各単位波形x[m]の音響特性を相互に類似するように補正(正規化)することでM個の単位波形u[1]〜u[M]を生成する。図7に示すように、波形補正部64は、振幅補正部72と周期補正部74と位相補正部76とを含んで構成される。
図8に示すように、音声波形Vbにおける振幅の時間的な変動に起因して、各単位波形x[m]の強度(振幅)のピークトゥピーク値A[m]は相違し得る。ピークトゥピーク値A[m]は、単位波形x[m]の強度の最大値と最小値との差分(全振幅)を意味する。振幅補正部72は、単位波形x[m]のピークトゥピーク値A[m]が所定値A0に調整されるように各単位波形x[m]を補正(例えば単位波形x[m]を振幅方向に伸縮する)することで単位波形yA[m](yA[1]〜yA[M])を生成する。振幅補正部72による補正の方法は任意であるが、例えば、ピークトゥピーク値A[m]に対する所定値A0の比(A0/A[m])を補正値として単位波形x[m]に乗算する方法が好適である。
また、音声波形Vbにおける周期の時間的な変動に起因して、各単位波形x[m]の時間長(音声波形Vbの1周期)T[m]は相違し得る。図7の周期補正部74は、振幅補正部72による補正後の単位波形yA[m]の周期T[m]が所定値T0に調整されるように各単位波形yA[m]を補正することで単位波形yB[m](yB[1]〜yB[M])を生成する。周期補正部74による補正の方法は任意であるが、例えば以下に例示する方法が好適である。
図9の部分(A)は、振幅補正部72による補正後の単位波形yA[m]の波形図である。第1に、周期補正部74は、図9の部分(B)の例示の通り、各単位波形yA[m]を時間軸上で伸縮することで時間長T'[m]の単位波形yA'[m](yA'[1]〜yA'[M])を生成する。時間長T'[m]は、音声波形Vbのサンプリング周期の整数倍であり、かつ、単位波形yA[m]の時間長T[m]に最も近い時間長(例えば時間長T[m]の整数部)に設定される。各単位波形yA'[m]は、始点tsおよび終点teにて強度(信号値)がゼロとなるように生成される。第2に、周期補正部74は、図9の部分(C)の例示の通り、単位波形yA'[m]を時間軸上で伸縮することで時間長T0の単位波形yB[m](yB[1]〜yB[M])を生成する。時間長T0は、例えば、各単位波形yA'[m]の時間長T'[m]の最頻値(したがってサンプリング周期の整数倍)に設定される。
M個の単位波形yB[1]〜yB[M]のピークトゥピーク値A0および時間長T0は以上の処理で正規化(共通化)されるが、音声波形Vbのうち波形抽出部62が1周期として抽出された各単位波形x[m]の時間軸上の位置によっては、各単位波形yB[m]の波形の相関が低い可能性がある。例えば、図10の部分(A)の単位波形yB[1]は始点の直後に極大点(ピーク)が到来するのに対し、図10の部分(B)の単位波形yB[2]は始点の直後に極小点(ディップ)が到来するという相違がある。図7の位相補正部76は、周期補正部74による補正後のM個の単位波形yB[1]〜yB[M]の間で波形の相関が増加するように各単位波形yB[m]の位相を補正して単位波形u[m](u[1]〜u[M])を生成する。
位相補正部76は、周期補正部74による補正後のM個の単位波形yB[1]〜yB[M]のうちの1個の単位波形yB[m]を基準波形yREFとして選択する。図10では、部分(A)に図示された単位波形yB[1]を基準波形yREFとした場合が例示されている。位相補正部76は、基準波形yREF以外の(M−1)個の単位波形yB[m]の各々について基準波形yREFとの相互相関関数Fm(τ)を算定する。変数τは、基準波形yREFに対する単位波形yB[m]の時間差(シフト量)である。位相補正部76は、図10の部分(C)に例示されるように、相互相関関数Fm(τ)が最大となる変数τの時間だけ単位波形yB[m]の始点tsを時間軸上で移動する(単位波形yB[m]を移相する)ことで単位波形u[m]を生成する。図10の部分(C)に示すように、単位波形yB[m]のうち移動後の始点ts以前の区間は単位波形yB[m]の末尾に付加される。なお、音声波形Vbの2周期分を波形抽出部62が単位波形x[m]として抽出し、相互相関関数Fm(τ)が最大となる変数τの時間だけ単位波形yB[m]の始点tsから経過した時点を起点とする1周期分を位相補正部76が単位波形u[m]として抽出することも可能である。
以上の説明から理解されるように、第1実施形態におけるM個の単位波形u[1]〜u[M]は、ピークトゥピーク値A0および時間長T0が共通し、かつ、相互相関関数Fm(τ)が最大となるように位相が調整された関係にある。波形補正部64が生成したM個の単位波形u[1]〜u[M]は、図7に示すように記憶装置52に格納され、例えば通信網や可搬型の記録媒体を介して第1実施形態の音声合成装置100の記憶装置12に転送される。
第2実施形態では、M個の単位波形u[1]〜u[M]のピークトゥピーク値が所定値A0に調整されるから、単位波形u[m]毎にピークトゥピーク値が相違する構成と比較すると、単位波形u[m]を利用して生成される合成波形C[n](素片波形Q)における振幅の変動が抑制される。また、M個の単位波形u[1]〜u[M]の時間長が所定値T0に調整されるから、各単位波形u[m]の時間長が相違する構成と比較すると、単位波形u[m]を利用して生成される合成波形C[n]における周期(音高)の変動が抑制される。したがって、合成対象音のうち振幅や周期の変動が少ない定常素片の区間(定常部)について聴感的に自然な印象の音声を生成することが可能である。
また、各単位波形u[m]の相関が低い場合、第1波形系列Sa[n]と第2波形系列Sb[n]とを加算(クロスフェード)する段階で第1単位波形Ua[n]と第2単位波形Ub[n]とが相殺され、合成波形C[n]の再生音が聴感的に不自然な音声となる可能性がある。第2実施形態では、相互相関関数Fm(τ)が最大となるように各単位波形u[m]の位相が調整されるから、聴感的に自然な印象の音声を生成することが可能である。
なお、波形補正部64の各要素による処理の順番は適宜に変更される。例えば、周期補正部74による周期の補正後に振幅補正部72が振幅を補正する構成も採用され得る。また、波形補正部64の各要素は適宜に省略される。すなわち、波形補正部64は、振幅補正部72と周期補正部74と位相補正部76との少なくともひとつを含む要素として包括される。
<C:第3実施形態>
第2実施形態で説明した通り、周期補正部74は、各単位波形yA[m]の周期T[m]を所定値T0に調整する。第3実施形態は、各単位波形yB[m]の時間長(所定長T0)の選定方法に着目した周期補正部74の具体例である。図11は、第3実施形態の周期補正部74のブロック図であり、図12は、第3実施形態の周期補正部74の動作の説明図である。図11に示すように、第3実施形態の周期補正部74は、指標算定部742と補正処理部744とを含んで構成される。
指標算定部742は、図12に示すように、相異なる複数(K個)の候補長X[1]〜X[K]の各々について歪指標値D[k](k=1〜K)を算定する。候補長X[k]は、所定長T0の候補となる時間長であり、音声波形Vbのサンプリング周期の整数倍の時間長に設定される。例えば、候補長X[1]は、第2実施形態で説明した単位波形yA'[1]の時間長T'[1]に設定され、候補長X[2]は単位波形yA'[2]の時間長T'[2]に設定され、候補長X[3]は単位波形yA'[3]の時間長T'[3]に設定される(K=M=3)。歪指標値D[k]は、M個の単位波形yA[1]〜yA[M]の各々を初期的な周期T[m]から共通の候補長X[k]に伸縮した場合の各単位波形yA[m]の時間軸上の歪みの度合(伸縮の前後にわたる単位波形yA[m]の変形の度合)を示す指標である。図12のように単位波形yA[m]が3個である場合(M=3)を想定すると、歪指標値D[k]は、例えば以下の数式(1)で算定される。
D[k]=|T[1]−X[k]|/X[k]+|T[2]−X[k]|/X[k]+|T[3]−X[k]|/X[k] …(1)
数式(1)から理解されるように、各単位波形yA[m]の周期T[m]と候補長X[k]との相違が大きい(候補長X[k]に伸縮した場合の波形の変形が大きい)ほど歪指標値D[k]は大きい数値となる。
図11の補正処理部744は、図12に示すように、K個の候補長X[1]〜X[K]のうち歪指標値D[k]で表現される歪みの度合が最小となる候補長X[k](すなわち、最小の歪指標値D[k]に対応する候補長X[k])を所定長T0として選択し、振幅補正部72による補正後の各単位波形yA[m]の時間長(周期)T[m]を共通の所定長T0に調整することで単位波形yB[m]を生成する。各単位波形yA[m]の伸縮方法は第2実施形態と同様である。
以上に説明した通り、第3実施形態では、M個の単位波形yA[1]〜yA[M]の伸縮の度合(歪指標値D[k])が最小となるように調整後の各単位波形yB[m]の所定長T0が可変に設定されるから、周期補正部74による補正前の単位波形yA[m]と補正後の単位波形yB[m]との相違(音声波形Vbの音響特性からの乖離)が低減されるという利点がある。
なお、第2実施形態では、各単位波形yA[m]の周期T[m]の小数部の切捨で各単位波形yA'[m]の時間長T'[m]を算定したが、各単位波形yA[m]の周期T[m]の小数部の切上で各単位波形yA'[m]の時間長T'[m]を算定することも可能である。したがって、第3実施形態では、以下に例示する通り、各単位波形yA[m]の周期T[m]の小数部を切捨てた時間長Ta'[m]と各単位波形yA[m]の周期T[m]の小数部を切上げた時間長Tb'[m]とを各候補長X[k]とすることも可能である。
例えば、候補長X[1]は、単位波形yA[1]の周期T[1]の少数部を切捨てた時間長Ta'[1]に設定され、候補長X[2]は、単位波形yA[1]の周期T[1]の小数部を切上げた時間長Tb'[1]に設定される。候補長X[3]は、単位波形yA[2]の周期T[2]の少数部を切捨てた時間長Ta'[2]に設定され、候補長X[4]は、単位波形yA[2]の周期T[2]の小数部を切上げた時間長Tb'[2]に設定される。同様に、候補長X[5]は、単位波形yA[3]の周期T[3]の少数部を切捨てた時間長Ta'[3]に設定され、候補長X[6]は、単位波形yA[3]の周期T[3]の小数部を切上げた時間長Tb'[3]に設定される。すなわち、各単位波形yA[m]と周期T[m]の切捨/切上との組合せに対応した6種類の候補長X[1]〜X[6]が設定される。
指標算定部742は、各候補長X[k]について前掲の数式(1)の演算で歪指標値D[k](D[1]〜D[6])を算定し、補正処理部744は、6個の候補長X[1]〜X[6]のうち歪指標値D[k]が最小となる候補長X[k]を調整後の所定長T0として確定する。以上の構成においても第3実施形態と同様の効果が実現される。
なお、各歪指標値D[k]の算定方法は適宜に変更される。例えば、前掲の数式(1)では、各項を正数とするために周期T[m]と候補長X[k]との差分の絶対値|T[m]−X[k]|を算定したが、以下の数式(2)のように周期T[m]および候補長X[k]の差分と候補長X[k]との比を自乗することで各項を正数とすることも可能である。
D[k]={(T[1]−X[k])/X[k]}2
+{(T[2]−X[k])/X[k]}2+{(T[3]−X[k])/X[k]}2 …(2)
<D:第4実施形態>
図13は、第4実施形態における波形補正部64のブロック図である。図13に示すように、第4実施形態の波形補正部64は、前述の各形態で例示した要素(振幅補正部72,周期補正部74,位相補正部76)に歪補正部78を追加した構成である。
周期補正部74が各単位波形yA[m]の周期T[m]を時間長T0に伸縮すると、各単位波形yB[m]のピークトゥピーク値A[m]は、時間軸上での伸縮の度合に応じて、振幅補正部72による補正の直後(周期補正部74による補正前)のピークトゥピーク値A0から変動し得る。すなわち、周期補正部74の補正後の各単位波形yB[m]には歪みが発生する。具体的には、周期補正部74による補正後の単位波形yB[m]の時間長T0が補正前の単位波形yA[m]の周期T[m]と比較して長い(伸長の度合が高い)ほど、単位波形yB[m]のピークトゥピーク値A[m]は振幅補正部72による補正の直後ピークトゥピーク値A0と比較して小さい数値となり、周期補正部74による補正後の単位波形yB[m]の時間長T0が補正前の単位波形yA[m]の周期T[m]と比較して短い(収縮の度合が高い)ほど、単位波形yB[m]のピークトゥピーク値A[m]はピークトゥピーク値A0と比較して大きい数値となる。以上の傾向を考慮して、第4実施形態の歪補正部78は、周期補正部74による補正後の各単位波形yB[m]のピークトゥピーク値A[m]を調整することで以上に説明した波形の歪みを補正する。
具体的には、歪補正部78は、単位波形yA[m]の初期的な周期T[m]に対する時間長T0の比(T0/T[m])を、周期補正部74による補正後の単位波形yB[m]のピークトゥピーク値A[m]に補正値として作用させる(典型的には乗算する)。以上の説明から理解されるように、周期補正部74による補正後の単位波形yB[m]の時間長T0が補正前の単位波形yA[m]の周期T[m]に対して長い(周期補正部74による伸長の度合が大きい)ほど、単位波形yB[m]のピークトゥピーク値A[m]は歪補正部78による処理で大きい数値に補正される。したがって、周期補正部74による補正に起因した波形の歪みを抑制できるという利点がある。歪補正部78による補正後の各単位波形yB[m]を位相補正部76が補正して各単位波形u[m]を生成する処理は第2実施形態と同様である。
以上に説明した第4実施形態では、周期補正部74による単位波形yA[m]の伸縮の度合に応じて各単位波形yB[m]のピークトゥピーク値A[m]が補正されるから、音声波形Vbの音響特性を忠実に反映した単位波形u[m]を生成できるという利点がある。なお、第4実施形態における所定長T0の選定方法は任意であり、例えば、歪指標値D[k]に応じて時間長T0を設定する前述の第3実施形態が好適に採用される。
<C:第5実施形態>
第5実施形態は、第1実施形態の音声合成部28を図14の音声合成部28Aに置換した構成である。図14に示すように、音声合成部28Aは、合成処理部82と非調和成分生成部84とフィルタ部86と合成部88とを含んで構成される。合成処理部82は、第1実施形態の音声合成部28と同様に動作して音声信号HAを生成する。音声信号HAは、第1実施形態の音声信号SOUTに相当し、合成情報Zで指定される音高Zbおよび音量Zeに対応する調和成分(基音成分および倍音成分)を豊富に含む。以上のように調和成分が豊富な音声信号HAの再生音は、人工的な印象の音声となる可能性がある。そこで、第5実施形態では、音声信号HAに非調和成分HBを付加することで音声信号SOUTを生成する。
非調和成分生成部84は、非調和成分H0を生成する。非調和成分H0は、例えばホワイトノイズやピンクノイズ等の雑音成分である。フィルタ部86は、非調和成分H0から非調和成分HBを生成する。例えば、非調和成分H0のうち音高Zbに対応する各調波周波数(基本周波数および各倍音周波数)以外の帯域成分を選択的に通過させるコムフィルタがフィルタ部86として好適である。合成部88は、合成処理部82が生成した音声信号HAとフィルタ部86が生成した非調和成分HBとを加算することで音声信号SOUTを生成する。
以上に説明した第5実施形態では、合成処理部82が生成した音声信号HAに非調和成分HBが付加されるから、音声信号HAを単独で音声信号SOUTとして出力する構成と比較して、聴感的に自然な印象の音声を生成できるという利点がある。なお、図14のフィルタ部86を省略した構成(非調和成分H0が音声信号HAに加算される構成)も採用され得る。
<D:変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)変形例1
M個の単位波形u[1]〜u[M]を利用して合成波形C[n]を生成する方法は適宜に変更される。例えば、M個の単位波形u[1]〜u[M]から順次に選択される単位波形u[m]を時間軸上に配列して合成波形C[n]を生成する構成も採用され得る。以上の説明から理解されるように、第1実施形態の音声合成部28は、M個の単位波形u[1]〜u[M]を時間軸上に配列して音声信号SOUTを生成する要素(波形生成手段)の一例である。
また、以上の各形態では、各処理期間R[n]が時間軸上で連続する構成を例示したが、図15に示すように、複数個の単位波形u[m]が配列される保持期間E[n]を処理期間R[n]と直後の処理期間R[n+1]との間に介挿することも可能である。保持期間E[n]には、直前の処理期間R[n]で選択された第1単位波形Ua[n]の複数個が、強度を変化させることなく配列される。各保持期間E[n]の時間長Le[n]は、処理期間R[n]の時間長Lr[n]と同様に例えばランダムに設定され得るが、共通の固定値に設定することも可能である。図15の例示から理解されるように、相前後する処理期間R[n]が時間軸上で連続する構成は本発明において必須ではない。
(2)変形例2
各処理期間R[n]を相異なる時間長Lr[n]に設定する方法は適宜に変更される。例えば、時間長Lr[n]に対して所定値を加算または減算して時間長Lr[n+1]を算定することで各処理期間R[n]の時間長Lr[1]〜Lr[N]を相違させることも可能である。また、第1実施形態では時間長Lr[n]の変動長d[n]を乱数に設定したが、時間長Lr[n]自体を乱数とした構成も採用され得る。もっとも、時間長Lr[1]〜Lr[N]を相等しい時間に設定することも可能である。
(3)変形例3
処理期間R[n]毎に第1単位波形Ua[n]および第2単位波形Ub[n]を選択する方法は任意である。例えば、M個の単位波形u[1]〜u[M]を処理期間R[n]毎に順番に第1単位波形Ua[n]として選択する構成も採用され得る。また、第1実施形態では、処理期間R[n-1]で第1単位波形Ua[n-1]として選択された単位波形u[m]を直後の処理期間R[n]で引続き第2単位波形Ub[n]として選択したが、第1単位波形Ua[n]および第2単位波形Ub[n]の双方を処理期間R[n]毎に独立に選択することも可能である。
(4)変形例4
第2実施形態では、音声合成装置100とは別体の音声処理装置200を例示したが、音声波形VbからM個の単位波形u[1]〜u[M]を生成する音声処理装置200の機能(波形抽出部62,波形補正部64)を音声合成装置100に搭載することも可能である。