JP2012208479A

JP2012208479A - 音声合成装置

Info

Publication number: JP2012208479A
Application number: JP2012046505A
Authority: JP
Inventors: Hiroshi Kayama; 啓嘉山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-03-11
Filing date: 2012-03-02
Publication date: 2012-10-25
Anticipated expiration: 2032-03-02
Also published as: JP5915264B2

Abstract

【課題】記憶容量を削減しながら音声波形の反復に起因した音質の低下を防止する。
【解決手段】記憶装置１２は、有声音の音声波形Ｖbのうち時間軸上の相異なる位置から抽出されたＭ個の単位波形ｕ[1]〜ｕ[M]を記憶する。音声合成部２８は、Ｎ個の処理期間Ｒ[1]〜Ｒ[N]の各々について、Ｍ個の単位波形ｕ[1]〜ｕ[M]から選択された第１単位波形Ｕa[n]の複数個を処理期間Ｒ[n]内で経時的に強度が増加するように配列した第１波形系列Ｓa[n]と、Ｍ個の単位波形ｕ[1]〜ｕ[M]のうち第１単位波形Ｕa[n]とは相違する第２単位波形Ｕb[n]の複数個を処理期間Ｒ[n]内で経時的に強度が減少するように配列した第２波形系列Ｓb[n]とを加算（すなわちクロスフェード）した合成波形Ｃ[n]を生成する。
【選択図】図６

Description

本発明は、音声素片を利用して音声（発話音や歌唱音）を合成する技術に関する。

音声合成の対象として指定された音響（以下「合成対象音」という）を、事前に採取された複数の音声波形の接続で生成する素片接続型の音声合成が従来から提案されている。例えば特許文献１の技術では、音声素片毎に事前に採取された音声波形（素片データ）が記憶装置に格納され、合成対象音の発音文字（例えば歌詞）に対応する各音声波形を記憶装置から順次に選択して相互に接続することで合成対象音の音声信号が生成される。

特開２００７−２４０５６４号公報

特許文献１の技術では、記憶装置に格納された音声波形よりも長い時間長が合成対象音の継続長として指定された場合、その音声波形を反復（ループ）させることで音声信号が生成される。したがって、音声波形の時間長を１周期とする規則的な特性変化（例えば振幅や周期の変化）が発生し、受聴者が知覚する音質が低下するという問題がある。音声波形の反復が不要となる程度に各音声波形の時間長を充分に確保すれば以上の問題は解決されるが、長時間にわたる音声波形を格納するために膨大な記憶容量が必要になるという問題がある。以上の事情を考慮して、本発明は、音声合成に必要な記憶容量を削減しながら音声波形の反復に起因した音質の低下を防止することを目的とする。

以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。

本発明の音声合成装置は、有声音の音声波形（例えば音声波形Ｖb）のうち時間軸上の相異なる位置から抽出された複数の単位波形（例えば単位波形ｕ[m]）を記憶する波形記憶手段（例えば記憶装置１２）と、複数の単位波形の各々を時間軸上に配列して合成波形（例えば合成波形Ｃ[n]）を生成する波形生成手段（例えば音声合成部２８）とを具備する。以上の構成では、音声波形のうち時間軸上の相異なる位置から抽出された複数の単位波形の各々を時間軸上に配列して合成波形が生成されるから、音声波形を反復させる特許文献１の構成と比較して、波形の反復に起因した音質の低下を防止することが可能である。また、音声波形から抽出された各単位波形が波形記憶手段に記憶されるから、音声波形の全区間を記憶する構成と比較して必要な記憶容量が削減されるという利点もある。

本発明の好適な態様において、波形生成手段は、複数の処理期間（例えば処理期間Ｒ[n]）の各々について、複数の単位波形から選択された第１単位波形（例えば第１単位波形Ｕa[n]）の複数個を当該処理期間内で経時的に強度が増加するように配列した第１波形系列（例えば第１波形系列Ｓa[n]）と、複数の単位波形のうち第１単位波形とは相違する第２単位波形（例えば第２単位波形Ｕb[n]）の複数個を当該処理期間内で経時的に強度が減少するように配列した第２波形系列（例えば第２波形系列Ｓb[n]）とを加算した合成波形例えば合成波形Ｃ[n]）を生成する。以上の態様では、第１単位波形を配列した第１波形系列と第２単位波形を配列した第２波形系列との加算（クロスフェード）で合成波形が生成されるから、各処理期間の合成波形を配列した素片波形（例えば素片波形Ｑ）において特性変化の周期性が知覚され難いという効果は格別に顕著となる。なお、時間軸序上の全部の処理期間について第１単位波形と第２単位波形とが相違する必要は必ずしもなく、第１単位波形と第２単位波形とが共通する処理期間が存在する構成も本発明の範囲に包含される。すなわち、以上の態様における「複数の処理期間」は、時間軸上の全部の処理期間のうち第１単位波形と第２単位波形とが相違する各処理時間を意味する。

第１波形系列と第２波形系列との加算で合成波形を生成する態様の具体例において、複数の処理期間のうちの一の処理期間の第１単位波形と、複数の処理期間のうち一の処理期間の直後の処理期間の第２単位波形とは共通の単位波形である。以上の態様によれば、相前後する処理期間では共通の単位波形が第２単位波形として選択されるから、処理期間毎に第１単位波形および第２単位波形の双方が変更される構成と比較して、素片波形における処理期間毎の規則的な特性変化を抑制することが可能である。

第１波形系列と第２波形系列との加算で合成波形を生成する態様の具体例において、波形生成手段は、複数の単位波形から処理期間毎にランダムに第１単位波形を選択する。以上の態様では、処理期間毎にランダムに第１単位波形が選択されるから、素片波形における処理期間毎の周期的な特性変化を抑制することが可能である。

第１波形系列と第２波形系列との加算で合成波形を生成する態様の具体例において、波形生成手段は、複数の処理期間のうちの一の処理期間の時間長と他の処理期間の時間長とを相違させる。以上の態様では、各処理期間の時間長が相違し得るから、全部の処理期間の時間長が共通する構成と比較して、素片波形における周期的な特性変化を抑制することが可能である。以上の効果は、複数の処理期間の各々の時間長をランダムに設定することで格別に顕著となる。

本発明の好適な態様において、複数の単位波形の各々は、音声波形の１周期分に対応する。以上の態様では、音声波形の１周期分に対応する単位波形が合成波形の生成に利用されるから、記憶容量の削減と特性変化の周期性の抑制とを両立するという効果は格別に顕著となる。

本発明の好適な態様において、単位波形の強度（振幅）のピークトゥピーク値は複数の単位波形で共通する。以上の態様では、各単位波形のピークトゥピーク値が共通するから、複数の単位波形から生成される合成波形の振幅の変動が抑制される。したがって、振幅が定常に維持された自然な音声を生成できるという利点がある。

本発明の好適な態様において、単位波形の時間長は複数の単位波形で共通する。以上の態様では、各単位波形の時間長が共通するから、複数の単位波形から生成される合成波形の周期の変動が抑制される。したがって、周期が定常に維持された自然な音声を生成できるという利点がある。

本発明の好適な態様において、複数の単位波形は、各単位波形間の相互相関関数が最大となるように各々の位相が調整されている。以上の態様では、各単位波形間の相互相関関数が最大となるように各々の位相が調整されるから、第１単位波形と第２単位波形との相殺が抑制されて聴感的に自然な素片波形を生成できるという利点がある。

以上の各態様に係る音声合成装置は、音声の合成に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）で実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラム（例えばプログラムＰGM1）は、有声音の音声波形のうち時間軸上の相異なる位置から抽出された複数の単位波形を記憶する波形記憶手段を具備するコンピュータに、複数の単位波形の各々を時間軸上に配列して合成波形を生成する波形生成処理を実行させる。波形生成処理は、例えば、複数の処理期間の各々について、複数の単位波形から選択された第１単位波形の複数個を当該処理期間内で経時的に強度が増加するように配列した第１波形系列と、複数の単位波形のうち第１単位波形とは相違する第２単位波形の複数個を当該処理期間内で経時的に強度が減少するように配列した第２波形系列とを加算した合成波形を生成する処理である。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

また、本発明は、前述の各態様に係る音声合成装置に使用される複数の単位波形を生成する音声処理装置としても実施され得る。本発明の音声処理装置は、有声音の音声波形のうち時間軸上の相異なる位置から複数の単位波形を抽出する波形抽出手段（例えば波形抽出部６２）と、波形抽出手段が抽出した複数の単位波形を各単位波形の音響特性が近付くように補正する波形補正手段（例えば波形補正部６４）とを具備する。

本発明の好適な態様において、波形補正手段は、複数の単位波形の各々の時間長を共通の所定長に調整する周期補正手段（例えば周期補正部７４）を含む。以上の態様では、各単位波形の周期が共通の所定長に調整されるから、合成波形の周期の変動が抑制される。したがって、周期が定常に維持された自然な音声を生成できるという利点がある。

本発明の好適な態様において、周期補正手段は、相異なる複数の候補長の各々について、各単位波形を時間軸上で候補長に伸縮した場合の各単位波形の歪みの度合を示す歪指標値を算定する指標算定手段（例えば指標算定部７４２）と、複数の候補長のうち歪指標値が示す歪みの度合が最小となる候補長を所定長として選択し、複数の単位波形の各々の時間長を所定長に調整する補正処理手段（補正処理部７４４）とを含む。以上の態様では、各単位波形の歪みが抑制されるように補正後の所定長が選定されるから、音声波形の音響特性を忠実に反映した単位波形を生成できるという利点がある。

本発明の好適な態様に係る音声処理装置は、波形抽出手段が抽出した単位波形の時間長に対して所定長が長いほど当該単位波形の振幅が増加するように各単位波形の振幅を補正する歪補正手段（例えば歪補正部７８）を具備する。以上の態様では、周期補正手段による補正に起因した単位波形の振幅の変動が補正されるから、音声波形の音響特性を忠実に反映した単位波形を生成できるという効果は格別に顕著である。

以上に説明した音声処理装置は、音声処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）で実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラム（例えばプログラムＰGM2）は、音声合成に使用される複数の単位波形を生成するためのプログラムであって、有声音の音声波形のうち時間軸上の相異なる位置から複数の単位波形を抽出する波形抽出処理と、波形抽出処理で抽出した複数の単位波形を各単位波形の音響特性が近付くように補正する波形補正処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の音声処理装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。

本発明の第１実施形態に係る音声合成装置のブロック図である。変動素片および定常素片の素片データの説明図である。編集画像および音声素片の時系列の模式図である。音声合成部の動作のフローチャートである。定常素片の素片波形を生成する波形生成処理のフローチャートである。波形生成処理の説明図である。第２実施形態に係る音声処理装置のブロック図である。振幅補正部の動作の説明図である。周期補正部の動作の説明図である。位相補正部の動作の説明図である。第３実施形態における周期補正部のブロック図である。第３実施形態における周期補正部の動作の説明図である。第４実施形態における波形補正部のブロック図である。第５実施形態における音声合成部のブロック図である。変形例において定常素片の素片波形を生成する波形生成処理の説明図である。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。音声合成装置１００は、歌唱音や発話音等の合成対象音を素片接続型の音声合成で生成する音声処理装置であり、図１に示すように、演算処理装置１０と記憶装置１２と入力装置１４と表示装置１６と放音装置１８とを具備するコンピュータシステムで実現される。

演算処理装置１０（ＣＰＵ）は、記憶装置１２に格納されたプログラムＰGM1の実行で、合成対象音の音声信号ＳOUTを生成するための複数の機能（表示制御部２２，情報生成部２４，素片選択部２６，音声合成部２８）を実現する。音声信号ＳOUTは、合成対象音の波形を表す音響信号である。なお、演算処理装置１０の各機能を複数の集積回路に分散した構成や、専用の電子回路（ＤＳＰ）が各機能を実現する構成も採用され得る。

記憶装置１２は、演算処理装置１０が実行するプログラムＰGM1や演算処理装置１０が使用する各種の情報（素片群Ｇ，合成情報Ｚ）を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として採用される。

素片群Ｇは、複数の素片データＷの集合（音声合成ライブラリ）である。各素片データＷは、音声素片の時間軸上の波形を示すサンプル系列であり、音声合成の素材として利用される。音声素片は、言語的な意味の最小単位に相当する１個の音素（phoneme）または複数の音素を連結した音素連鎖（例えばダイフォンやトライフォン）である。なお、以下では便宜的に、無音を１個の音素（記号＃）として説明する。

音声素片は、音響特性が定常的である定常素片と音響特性が時間的に変動する変動素片とに区分される。定常素片の典型例は、１個の音素で構成される有声音（有声母音または有声子音）の音声素片であり、変動素片の典型例は、１個の音素で構成される無声音（無声子音）の音声素片または複数の音素（有声音または無声音）で構成されて音素間の遷移を含む音声素片（音素連鎖）である。

図２の部分(A)には、変動素片の音声波形（包絡線）Ｖaが図示され、図２の部分(B)には、定常素片の音声波形（包絡線）Ｖbが図示されている。図２の部分(A)に示すように、変動素片に分類される音声素片については、特定の発声者がその音声素片を発声したときの音声波形Ｖaの全区間にわたるサンプル系列が素片データＷとして記憶装置１２に格納される。他方、定常素片に分類される音声素片については、図２の部分(B)に示すように、特定の発声者がその音声素片を発声したときの音声波形Ｖb（音響特性が定常的に維持される区間）のうち時間軸上の相異なる位置から抽出されたＭ個（以下の例示では３個）の単位波形ｕ[1]〜ｕ[M]の各々のサンプル系列の集合が素片データＷとして記憶装置１２に格納される。第１実施形態において１個の定常素片に対応する各単位波形ｕ[m]（ｍ＝１〜Ｍ）は、時間的に連続する有声音の音声波形Ｖbの１周期分（例えば数ミリ秒程度）に相当する時間長Ｔ0の区間である。Ｍ個の単位波形ｕ[1]〜ｕ[M]の各々は、受聴者に共通の音声素片と知覚される程度に音響特性が相互に類似する。ただし、音声波形Ｖbの相異なる時点から抽出されるから、Ｍ個の単位波形ｕ[1]〜ｕ[M]の各々の音響特性（波形）は、１個の音声素片を継続的に発声した場合の音響特性の変動（揺らぎ）の範囲内で相互に相違する。

図１の記憶装置１２に格納された合成情報Ｚは、合成対象音を時系列に指定する情報（スコアデータ）である。図１に示すように、合成情報Ｚは、合成対象音を構成する複数の音声素片Ｚaの各々について音高Ｚbと発音時刻Ｚcと継続長Ｚdと音量Ｚeとを指定する。なお、以上に例示した情報に加えて（または以上の情報に代えて）、ボリューム（Volume）やベロシティ（Velocity）等の情報を合成情報Ｚで指定することも可能である。

入力装置１４は、利用者からの指示を受付ける機器（例えばマウスやキーボード）である。表示装置１６（例えば液晶表示装置）は、演算処理装置１０から指示された画像を表示する。放音装置１８（例えばスピーカやヘッドホン）は、演算処理装置１０が生成する音声信号ＳOUTに応じた音波を放射する。

図１の表示制御部２２は、合成情報Ｚの生成および編集のために利用者が視認する図３の部分(A)の編集画面４０を表示装置１６に表示させる。図３の部分(A)に示すように、編集画面４０は、相互に交差する時間軸（横軸）と音高軸（縦軸）とが設定された画像（五線紙型またはピアノロール型の画像）である。利用者は、編集画面４０を参照しながら入力装置１４を適宜に操作することで、合成対象音を図形化した音符画像４２の配置や各音符画像４２の位置およびサイズの変更，各合成対象音に対する発音文字（例えば歌詞の音節）の指定を音声合成装置１００に指示することが可能である。なお、編集画面４０の形式は任意である。例えば、合成情報Ｚの各情報（音声素片Ｚa，音高Ｚb，発音時刻Ｚc，継続長Ｚd，音量Ｚe）の各数値のリストを編集画面４０として表示することも可能である。

図１の情報生成部２４は、編集画面４０に対する利用者からの指示に応じて合成情報Ｚを生成または更新する。具体的には、情報生成部２４は、音符画像４２に指定された発音文字に応じて合成情報Ｚの各音声素片Ｚaを設定する。例えば、図３の部分(A)に例示した発音文字「ま［ｍａ］」については、図３の部分(B)に示すように［＃-ｍ］，［ｍ-ａ］，［ａ］，［ａ-＃］（＃：無音）という４個の音声素片Ｚaに変換される。なお、以上の例示ではダイフォンを例示したが、発音文字「ま［ｍａ］」は、例えばモノフォンを利用する場合には［ｍ］，［ａ］という２個の音声素片Ｚaに変換され、トライフォンを利用する場合には［＃-ｍ-ａ］，［ａ-＃］という２個の音声素片Ｚaに変換される。また、情報生成部２４は、音符画像４２の音高軸上の位置に応じて各音高Ｚbを設定し、各音声素片Ｚaの発音時刻Ｚcを音符画像４２の時間軸上の位置に応じて設定し、継続長Ｚdを音符画像４２の時間軸上の長さに応じて設定する。音量Ｚeも同様に利用者からの指示に応じて設定される。

素片選択部２６は、合成情報Ｚが指定する各音声素片Ｚaに対応する素片データＷを、各音声素片Ｚaの発音時刻Ｚcに対応する時点で、記憶装置１２の素片群Ｇから順次に選択する。音声合成部２８は、素片選択部２６が選択した素片データＷを利用して音声信号ＳOUTを生成する。具体的には、音声合成部２８は、素片選択部２６が選択した素片データＷの音声素片（以下「選択素片」という）毎に、その選択素片について合成情報Ｚが指定する音高Ｚbと継続長Ｚdと音量Ｚeとに調整された素片波形Ｑを素片データＷから生成し、相前後する素片波形Ｑを相互に連結することで音声信号ＳOUTを生成する。図４は、音声合成部２８が素片波形Ｑを生成する処理のフローチャートである。素片選択部２６が素片データＷを選択するたびに図４の処理が実行される。

素片選択部２６が素片データＷを選択すると、音声合成部２８は、選択素片が定常素片であるか否かを判定する（ＳA1）。定常素片と変動素片とを区別する方法は任意であるが、例えば音声素片の種類（定常素片／変動素片）を示す情報を素片データＷに事前に付加し、その情報を参照して音声合成部２８が定常素片と変動素片とを区別する構成が採用され得る。選択素片が変動素片である場合（ＳA1：NO）、音声合成部２８は、素片選択部２６が選択した素片データＷ（図２の部分(A)の音声波形Ｖa）を、合成情報Ｚが選択素片について指定する音高Ｚbと継続長Ｚdと音量Ｚeとに調整することで選択素片の素片波形Ｑを生成する（ＳA2）。

他方、選択素片が定常素片である場合（ＳA1：YES）、音声合成部２８は、選択素片の素片データＷに含まれるＭ個の単位波形ｕ[1]〜ｕ[M]の各々を時間軸上に選択的に配列することで素片波形Ｑを生成する処理（以下「波形生成処理」という）を実行する（ＳA3）。

図５は、波形生成処理（図４の処理ＳA3）のフローチャートであり、図６は、波形生成処理の説明図である。図５の処理を開始すると、音声合成部２８は、図６に示すように、合成情報Ｚが選択素片について指定する継続長ＺdをＮ個の処理期間Ｒ[1]〜Ｒ[N]に区分する（ＳB1）。各処理期間Ｒ[n]（ｎ＝１〜Ｎ）の時間長Ｌr[n]はランダムに設定される。ただし、各時間長Ｌr[n]は単位波形ｕ[m]の時間長Ｔ0の整数倍に相当し、かつ、Ｎ個の時間長Ｌr[1]〜Ｌr[N]の合計は継続長Ｚdに合致する（Ｌr[1]＋Ｌr[2]＋……＋Ｌr[N]＝Ｚd）。

第１実施形態の時間長Ｌr[n]は、基準長Ｌ0と変動長ｄ[n]との加算値として定義される（Ｌr[n]＝Ｌ0＋ｄ[n]）。音声合成部２８は、Ｎ個の変動長ｄ[n]の各々を所定の範囲内でランダムに設定し、各変動長ｄ[n]を所定の基準長Ｌ0に加算することで処理期間Ｒ[n]の時間長Ｌr[n]を設定する。したがって、各処理期間Ｒ[n]の時間長Ｌr[n]は相違し得る。また、処理期間Ｒ[n]の個数Ｎは継続長Ｚdに応じて変化する。

音声合成部２８は、図６に示すように、選択素片の素片データＷに含まれるＭ個の単位波形ｕ[1]〜ｕ[M]を選択的に時間軸上に配列することで、時間長Ｌr[n]の合成波形Ｃ[n]を処理期間Ｒ[n]毎に生成する（ＳB2〜ＳB6）。Ｎ個の合成波形Ｃ[n]を連結させた波形が素片波形Ｑとして音声信号ＳOUTの生成に適用される。図６では、各単位波形ｕ[m]の強度（振幅またはパワー）の時間変化が模式的に図示されている。

音声合成部２８は、１個の処理期間Ｒ[n]を指定する変数ｎを１に初期化する（ＳB2）。そして、音声合成部２８は、選択素片の素片データＷに含まれるＭ個の単位波形ｕ[1]〜ｕ[M]のうち相異なる２個の単位波形ｕ[m]を第１単位波形Ｕa[n]および第２単位波形Ｕb[n]として選択する（ＳB3）。

具体的には、音声合成部２８は、直前の処理期間Ｒ[n-1]での第１単位波形Ｕa[n-1]を現在の処理期間Ｒ[n]の第２単位波形Ｕb[n]として選択し、Ｍ個の単位波形ｕ[1]〜ｕ[M]のうち第２単位波形Ｕb[n]を除外した(Ｍ−1)個からランダムに処理期間Ｒ[n]の第１単位波形Ｕa[n]を選択する。なお、最初の処理期間Ｒ[1]については、Ｍ個の単位波形ｕ[1]〜ｕ[M]のうち任意の１個（例えばＭ個からランダムまたは固定的に選択された１個）の単位波形ｕ[m]が第２単位波形Ｕb[n]として選択される。

例えば図６に示すように、継続長Ｚd内の最初の処理期間Ｒ[1]では、単位波形ｕ[3]が第１単位波形Ｕa[1]として選択されるとともに単位波形ｕ[2]が第２単位波形Ｕb[1]として選択される。直後の処理期間Ｒ[2]では、単位波形ｕ[1]が新たな第１単位波形Ｕa[2]として選択され、単位波形ｕ[3]が第２単位波形Ｕb[2]として処理期間Ｒ[1]から引続き選択される。また、処理期間Ｒ[3]では、単位波形ｕ[2]が新たな第１単位波形Ｕa[3]として選択され、単位波形ｕ[1]が第２単位波形Ｕb[3]として処理期間Ｒ[2]から引続き選択される。

以上のように処理期間Ｒ[n]の第１単位波形Ｕa[n]および第２単位波形Ｕb[n]を選択すると、音声合成部２８は、図６に示すように、複数の第１単位波形Ｕa[n]を配列した第１波形系列Ｓa[n]と、複数の第２単位波形Ｕb[n]を配列した第２波形系列Ｓb[n]とのクロスフェードで処理期間Ｒ[n]の合成波形Ｃ[n]を生成する（ＳB4）。具体的には、第１波形系列Ｓa[n]は、処理期間Ｒ[n]の時間長Ｌr[n]にわたる個数（Ｌr[n]/Ｔ0個）の第１単位波形Ｕa[n]を、各第１単位波形Ｕa[n]の強度（振幅）が経時的に増加するように調整して配列した時系列である。他方、第２波形系列Ｓb[n]は、処理期間Ｒ[n]の時間長Ｌr[n]にわたる個数（Ｌr[n]/Ｔ0個）の第２単位波形Ｕb[n]を、各第２単位波形Ｕb[n]の強度（振幅）が経時的に減少するように調整して配列した時系列である。音声合成部２８は、第１波形系列Ｓa[n]と第２波形系列Ｓb[n]との加算で合成波形Ｃ[n]を生成する。

音声合成部２８は、Ｎ個の処理期間Ｒ[1]〜Ｒ[N]の全部について合成波形Ｃ[n]（Ｃ[1]〜Ｃ[N]）を生成したか否かを判定する（ＳB5）。処理ＳB5の結果が否定である場合、変数ｎに１を加算し（ＳB6）、更新後の変数ｎに対応する処理期間Ｒ[n]（すなわち直前に合成波形Ｃ[n-1]を生成した処理期間Ｒ[n-1]の直後の処理期間Ｒ[n]）を対象として処理ＳB3から処理ＳB5を実行することで合成波形Ｃ[n]を生成する。

以上の処理の反復でＮ個の合成波形Ｃ[1]〜Ｃ[N]の生成が完了すると（ＳB5：YES）、音声合成部２８は、Ｎ個の合成波形Ｃ[1]〜Ｃ[N]を時間軸上に配列することで素片波形Ｑ0を生成する（ＳB7）。そして、音声合成部２８は、処理ＳB7で生成した素片波形Ｑ0を、合成情報Ｚが選択素片に指定する音高Ｚbおよび音量Ｚeに調整することで素片波形Ｑを生成する（ＳB8）。以上の説明から理解されるように、合成情報Ｚが選択素片に指定する継続長Ｚdにわたる音高Ｚbおよび音量Ｚeの素片波形Ｑが選択素片について生成される。前述の通り、変動素片について処理ＳA2で生成された素片波形Ｑと定常素片について波形生成処理ＳA3（処理ＳB8）で生成された素片波形Ｑとの連結で音声信号ＳOUTが生成される。

以上の説明から理解されるように、第１実施形態では、音声波形Ｖbのうち時間軸上の相異なる位置から抽出されたＭ個の単位波形ｕ[1]〜ｕ[M]を適宜に選択して配列することで合成波形Ｃ[n]が生成される。したがって、例えば定常音素の生成時に１個の音声波形Ｖbを反復させる構成（例えば特許文献１の構成）と比較すると、音声波形Ｖbの反復に起因して音声信号ＳOUTに発生する特性変化の周期性が受聴者に知覚され難くなる（すなわち高音質な音声信号ＳOUTを生成できる）という利点がある。

第１実施形態では特に、第１波形系列Ｓa[n]と第２波形系列Ｓb[n]とのクロスフェードで合成波形Ｃ[n]が生成されるから、例えば複数の単位波形ｕ[m]を選択的に配列して合成波形Ｃ[n]を生成する構成と比較して、素片波形Ｑにおける特性変化の周期性が知覚され難いという効果は格別に顕著である。また、第１実施形態では、各処理期間Ｒ[n]が相異なる時間長Ｌr[n]に設定され得るから、Ｎ個の処理期間Ｒ[1]〜Ｒ[N]が相等しい時間長に設定される構成と比較して、素片波形Ｑにおける特性変化の周期性が知覚され難いという効果は格別に顕著である。また、第１実施形態では、処理期間Ｒ[n-1]で第１単位波形Ｕa[n-1]として選択された単位波形ｕ[m]が直後の処理期間Ｒ[n]で引続き第２単位波形Ｕb[n]として選択される。したがって、第１単位波形Ｕa[n]および第２単位波形Ｕb[n]の双方を直前の処理期間Ｒ[n]での選択対象とは無関係に選択する構成と比較して、素片波形Ｑにおける特性変化の周期性が低減されるという利点がある。

また、第１実施形態では、音声波形Ｖbから抽出された複数の部分（単位波形ｕ[m]）が記憶装置１２に格納されるから、音声波形Ｖbの全区間を記憶装置１２に格納する構成と比較して、記憶装置１２に必要な記憶容量が削減されるという利点もある。特に第１実施形態では、音声波形Ｖbの１周期分が各単位波形ｕ[m]として記憶装置１２に格納されるから、記憶容量の低減の効果は格別に顕著である。なお、携帯電話機や携帯情報端末等の携帯機器では、例えば据置型の情報処理装置と比較して記憶容量の制約が大きいから、記憶容量の削減が可能な第１実施形態は、音声合成装置１００を携帯機器等に搭載した場合に格別に有効である。

＜Ｂ：第２実施形態＞
図７は、本発明の第２実施形態に係る音声処理装置２００のブロック図である。音声処理装置２００は、第１実施形態の音声合成装置１００において定常音素の素片波形Ｑの生成に使用されるＭ個の単位波形ｕ[1]〜ｕ[M]を生成する。

図７に示すように、音声処理装置２００は、演算処理装置５０と記憶装置５２とを具備するコンピュータシステムで実現される。記憶装置５２は、演算処理装置５０が実行するプログラムＰGM2や演算処理装置５０が記憶する各種の情報を記憶する。例えば、Ｍ個の単位波形ｕ[1]〜ｕ[M]の素材となる音声波形Ｖbが記憶装置５２に格納される。音声波形Ｖbは、有声音の音声素片を時間的に連続して発声した音声を示すサンプル系列である。例えば音声処理装置２００に接続された収音機器（図示略）が収音した音声波形Ｖbや、光ディスク等の各種の記録媒体またはインターネット等の通信網から供給された音声波形Ｖbが記憶装置５２に格納される。なお、以下の説明では便宜的に１個の音声波形Ｖbのみに言及するが、実際には相異なる音声素片に対応する複数の音声波形Ｖbが記憶装置５２に格納され、以下に例示する複数の単位波形ｕ[m]の生成が音声波形Ｖb毎に順次に実行される。

演算処理装置５０は、記憶装置５２に格納されたプログラムＰGM2の実行で、音声波形ＶbからＭ個の単位波形ｕ[1]〜ｕ[M]を生成するための複数の機能（波形抽出部６２，波形補正部６４）を実現する。なお、演算処理装置５０の各機能を複数の集積回路に分散した構成や、専用の電子回路（ＤＳＰ）が各機能を実現する構成も採用され得る。

図８には、記憶装置５２に記憶された音声波形Ｖb（包絡線）が図示されている。図８に示すように、波形抽出部６２は、記憶装置５２に格納された音声波形Ｖbのうち時間軸上の相異なる位置からＭ個（以下の例示では３個）の単位波形ｘ[1]〜ｘ[M]を抽出する。各単位波形ｘ[m]は、音声波形Ｖbの１周期分に相当する区間である。単位波形ｘ[m]の抽出には公知の技術が任意に採用される。

発声者が１個の音声素片を継続的に発声した場合でも、実際の音声波形Ｖbの音響特性（振幅や周期）は経時的に変動するから、音声波形Ｖbから抽出された各単位波形ｘ[m]の音響特性は相違し得る。図７の波形補正部６４は、各単位波形ｘ[m]の音響特性を相互に類似するように補正（正規化）することでＭ個の単位波形ｕ[1]〜ｕ[M]を生成する。図７に示すように、波形補正部６４は、振幅補正部７２と周期補正部７４と位相補正部７６とを含んで構成される。

図８に示すように、音声波形Ｖbにおける振幅の時間的な変動に起因して、各単位波形ｘ[m]の強度（振幅）のピークトゥピーク値Ａ[m]は相違し得る。ピークトゥピーク値Ａ[m]は、単位波形ｘ[m]の強度の最大値と最小値との差分（全振幅）を意味する。振幅補正部７２は、単位波形ｘ[m]のピークトゥピーク値Ａ[m]が所定値Ａ0に調整されるように各単位波形ｘ[m]を補正（例えば単位波形ｘ[m]を振幅方向に伸縮する）することで単位波形ｙA[m]（ｙA[1]〜ｙA[M]）を生成する。振幅補正部７２による補正の方法は任意であるが、例えば、ピークトゥピーク値Ａ[m]に対する所定値Ａ0の比（Ａ0/Ａ[m]）を補正値として単位波形ｘ[m]に乗算する方法が好適である。

また、音声波形Ｖbにおける周期の時間的な変動に起因して、各単位波形ｘ[m]の時間長（音声波形Ｖbの１周期）Ｔ[m]は相違し得る。図７の周期補正部７４は、振幅補正部７２による補正後の単位波形ｙA[m]の周期Ｔ[m]が所定値Ｔ0に調整されるように各単位波形ｙA[m]を補正することで単位波形ｙB[m]（ｙB[1]〜ｙB[M]）を生成する。周期補正部７４による補正の方法は任意であるが、例えば以下に例示する方法が好適である。

図９の部分(A)は、振幅補正部７２による補正後の単位波形ｙA[m]の波形図である。第１に、周期補正部７４は、図９の部分(B)の例示の通り、各単位波形ｙA[m]を時間軸上で伸縮することで時間長Ｔ'[m]の単位波形ｙA'[m]（ｙA'[1]〜ｙA'[M]）を生成する。時間長Ｔ'[m]は、音声波形Ｖbのサンプリング周期の整数倍であり、かつ、単位波形ｙA[m]の時間長Ｔ[m]に最も近い時間長（例えば時間長Ｔ[m]の整数部）に設定される。各単位波形ｙA'[m]は、始点ｔsおよび終点ｔeにて強度（信号値）がゼロとなるように生成される。第２に、周期補正部７４は、図９の部分(C)の例示の通り、単位波形ｙA'[m]を時間軸上で伸縮することで時間長Ｔ0の単位波形ｙB[m]（ｙB[1]〜ｙB[M]）を生成する。時間長Ｔ0は、例えば、各単位波形ｙA'[m]の時間長Ｔ'[m]の最頻値（したがってサンプリング周期の整数倍）に設定される。

Ｍ個の単位波形ｙB[1]〜ｙB[M]のピークトゥピーク値Ａ0および時間長Ｔ0は以上の処理で正規化（共通化）されるが、音声波形Ｖbのうち波形抽出部６２が１周期として抽出された各単位波形ｘ[m]の時間軸上の位置によっては、各単位波形ｙB[m]の波形の相関が低い可能性がある。例えば、図１０の部分(A)の単位波形ｙB[1]は始点の直後に極大点（ピーク）が到来するのに対し、図１０の部分(B)の単位波形ｙB[2]は始点の直後に極小点（ディップ）が到来するという相違がある。図７の位相補正部７６は、周期補正部７４による補正後のＭ個の単位波形ｙB[1]〜ｙB[M]の間で波形の相関が増加するように各単位波形ｙB[m]の位相を補正して単位波形ｕ[m]（ｕ[1]〜ｕ[M]）を生成する。

位相補正部７６は、周期補正部７４による補正後のＭ個の単位波形ｙB[1]〜ｙB[M]のうちの１個の単位波形ｙB[m]を基準波形ｙREFとして選択する。図１０では、部分(A)に図示された単位波形ｙB[1]を基準波形ｙREFとした場合が例示されている。位相補正部７６は、基準波形ｙREF以外の(Ｍ−１)個の単位波形ｙB[m]の各々について基準波形ｙREFとの相互相関関数Ｆm(τ)を算定する。変数τは、基準波形ｙREFに対する単位波形ｙB[m]の時間差（シフト量）である。位相補正部７６は、図１０の部分(C)に例示されるように、相互相関関数Ｆm(τ)が最大となる変数τの時間だけ単位波形ｙB[m]の始点ｔsを時間軸上で移動する（単位波形ｙB[m]を移相する）ことで単位波形ｕ[m]を生成する。図１０の部分(C)に示すように、単位波形ｙB[m]のうち移動後の始点ｔs以前の区間は単位波形ｙB[m]の末尾に付加される。なお、音声波形Ｖbの２周期分を波形抽出部６２が単位波形ｘ[m]として抽出し、相互相関関数Ｆm(τ)が最大となる変数τの時間だけ単位波形ｙB[m]の始点ｔsから経過した時点を起点とする１周期分を位相補正部７６が単位波形ｕ[m]として抽出することも可能である。

以上の説明から理解されるように、第１実施形態におけるＭ個の単位波形ｕ[1]〜ｕ[M]は、ピークトゥピーク値Ａ0および時間長Ｔ0が共通し、かつ、相互相関関数Ｆm(τ)が最大となるように位相が調整された関係にある。波形補正部６４が生成したＭ個の単位波形ｕ[1]〜ｕ[M]は、図７に示すように記憶装置５２に格納され、例えば通信網や可搬型の記録媒体を介して第１実施形態の音声合成装置１００の記憶装置１２に転送される。

第２実施形態では、Ｍ個の単位波形ｕ[1]〜ｕ[M]のピークトゥピーク値が所定値Ａ0に調整されるから、単位波形ｕ[m]毎にピークトゥピーク値が相違する構成と比較すると、単位波形ｕ[m]を利用して生成される合成波形Ｃ[n]（素片波形Ｑ）における振幅の変動が抑制される。また、Ｍ個の単位波形ｕ[1]〜ｕ[M]の時間長が所定値Ｔ0に調整されるから、各単位波形ｕ[m]の時間長が相違する構成と比較すると、単位波形ｕ[m]を利用して生成される合成波形Ｃ[n]における周期（音高）の変動が抑制される。したがって、合成対象音のうち振幅や周期の変動が少ない定常素片の区間（定常部）について聴感的に自然な印象の音声を生成することが可能である。

また、各単位波形ｕ[m]の相関が低い場合、第１波形系列Ｓa[n]と第２波形系列Ｓb[n]とを加算（クロスフェード）する段階で第１単位波形Ｕa[n]と第２単位波形Ｕb[n]とが相殺され、合成波形Ｃ[n]の再生音が聴感的に不自然な音声となる可能性がある。第２実施形態では、相互相関関数Ｆm(τ)が最大となるように各単位波形ｕ[m]の位相が調整されるから、聴感的に自然な印象の音声を生成することが可能である。

なお、波形補正部６４の各要素による処理の順番は適宜に変更される。例えば、周期補正部７４による周期の補正後に振幅補正部７２が振幅を補正する構成も採用され得る。また、波形補正部６４の各要素は適宜に省略される。すなわち、波形補正部６４は、振幅補正部７２と周期補正部７４と位相補正部７６との少なくともひとつを含む要素として包括される。

＜Ｃ：第３実施形態＞
第２実施形態で説明した通り、周期補正部７４は、各単位波形ｙA[m]の周期Ｔ[m]を所定値Ｔ0に調整する。第３実施形態は、各単位波形ｙB[m]の時間長（所定長Ｔ0）の選定方法に着目した周期補正部７４の具体例である。図１１は、第３実施形態の周期補正部７４のブロック図であり、図１２は、第３実施形態の周期補正部７４の動作の説明図である。図１１に示すように、第３実施形態の周期補正部７４は、指標算定部７４２と補正処理部７４４とを含んで構成される。

指標算定部７４２は、図１２に示すように、相異なる複数（Ｋ個）の候補長Ｘ[1]〜Ｘ[K]の各々について歪指標値Ｄ[k]（ｋ＝１〜Ｋ）を算定する。候補長Ｘ[k]は、所定長Ｔ0の候補となる時間長であり、音声波形Ｖbのサンプリング周期の整数倍の時間長に設定される。例えば、候補長Ｘ[1]は、第２実施形態で説明した単位波形ｙA'[1]の時間長Ｔ'[1]に設定され、候補長Ｘ[2]は単位波形ｙA'[2]の時間長Ｔ'[2]に設定され、候補長Ｘ[3]は単位波形ｙA'[3]の時間長Ｔ'[3]に設定される（Ｋ＝Ｍ＝３）。歪指標値Ｄ[k]は、Ｍ個の単位波形ｙA[1]〜ｙA[M]の各々を初期的な周期Ｔ[m]から共通の候補長Ｘ[k]に伸縮した場合の各単位波形ｙA[m]の時間軸上の歪みの度合（伸縮の前後にわたる単位波形ｙA[m]の変形の度合）を示す指標である。図１２のように単位波形ｙA[m]が３個である場合（Ｍ＝３）を想定すると、歪指標値Ｄ[k]は、例えば以下の数式(1)で算定される。
Ｄ[k]＝|Ｔ[1]−Ｘ[k]|/Ｘ[k]＋|Ｔ[2]−Ｘ[k]|/Ｘ[k]＋|Ｔ[3]−Ｘ[k]|/Ｘ[k] …(1)
数式(1)から理解されるように、各単位波形ｙA[m]の周期Ｔ[m]と候補長Ｘ[k]との相違が大きい（候補長Ｘ[k]に伸縮した場合の波形の変形が大きい）ほど歪指標値Ｄ[k]は大きい数値となる。

図１１の補正処理部７４４は、図１２に示すように、Ｋ個の候補長Ｘ[1]〜Ｘ[K]のうち歪指標値Ｄ[k]で表現される歪みの度合が最小となる候補長Ｘ[k]（すなわち、最小の歪指標値Ｄ[k]に対応する候補長Ｘ[k]）を所定長Ｔ0として選択し、振幅補正部７２による補正後の各単位波形ｙA[m]の時間長（周期）Ｔ[m]を共通の所定長Ｔ0に調整することで単位波形ｙB[m]を生成する。各単位波形ｙA[m]の伸縮方法は第２実施形態と同様である。

以上に説明した通り、第３実施形態では、Ｍ個の単位波形ｙA[1]〜ｙA[M]の伸縮の度合（歪指標値Ｄ[k]）が最小となるように調整後の各単位波形ｙB[m]の所定長Ｔ0が可変に設定されるから、周期補正部７４による補正前の単位波形ｙA[m]と補正後の単位波形ｙB[m]との相違（音声波形Ｖbの音響特性からの乖離）が低減されるという利点がある。

なお、第２実施形態では、各単位波形ｙA[m]の周期Ｔ[m]の小数部の切捨で各単位波形ｙA'[m]の時間長Ｔ'[m]を算定したが、各単位波形ｙA[m]の周期Ｔ[m]の小数部の切上で各単位波形ｙA'[m]の時間長Ｔ'[m]を算定することも可能である。したがって、第３実施形態では、以下に例示する通り、各単位波形ｙA[m]の周期Ｔ[m]の小数部を切捨てた時間長Ｔa'[m]と各単位波形ｙA[m]の周期Ｔ[m]の小数部を切上げた時間長Ｔb'[m]とを各候補長Ｘ[k]とすることも可能である。

例えば、候補長Ｘ[1]は、単位波形ｙA[1]の周期Ｔ[1]の少数部を切捨てた時間長Ｔa'[1]に設定され、候補長Ｘ[2]は、単位波形ｙA[1]の周期Ｔ[1]の小数部を切上げた時間長Ｔb'[1]に設定される。候補長Ｘ[3]は、単位波形ｙA[2]の周期Ｔ[2]の少数部を切捨てた時間長Ｔa'[2]に設定され、候補長Ｘ[4]は、単位波形ｙA[2]の周期Ｔ[2]の小数部を切上げた時間長Ｔb'[2]に設定される。同様に、候補長Ｘ[5]は、単位波形ｙA[3]の周期Ｔ[3]の少数部を切捨てた時間長Ｔa'[3]に設定され、候補長Ｘ[6]は、単位波形ｙA[3]の周期Ｔ[3]の小数部を切上げた時間長Ｔb'[3]に設定される。すなわち、各単位波形ｙA[m]と周期Ｔ[m]の切捨／切上との組合せに対応した６種類の候補長Ｘ[1]〜Ｘ[6]が設定される。

指標算定部７４２は、各候補長Ｘ[k]について前掲の数式(1)の演算で歪指標値Ｄ[k]（Ｄ[1]〜Ｄ[6]）を算定し、補正処理部７４４は、６個の候補長Ｘ[1]〜Ｘ[6]のうち歪指標値Ｄ[k]が最小となる候補長Ｘ[k]を調整後の所定長Ｔ0として確定する。以上の構成においても第３実施形態と同様の効果が実現される。

なお、各歪指標値Ｄ[k]の算定方法は適宜に変更される。例えば、前掲の数式(1)では、各項を正数とするために周期Ｔ[m]と候補長Ｘ[k]との差分の絶対値|Ｔ[m]−Ｘ[k]|を算定したが、以下の数式(2)のように周期Ｔ[m]および候補長Ｘ[k]の差分と候補長Ｘ[k]との比を自乗することで各項を正数とすることも可能である。
Ｄ[k]＝｛（Ｔ[1]−Ｘ[k]）/Ｘ[k]｝²
＋｛（Ｔ[2]−Ｘ[k]）/Ｘ[k]｝²＋｛（Ｔ[3]−Ｘ[k]）/Ｘ[k]｝² …(2)

＜Ｄ：第４実施形態＞
図１３は、第４実施形態における波形補正部６４のブロック図である。図１３に示すように、第４実施形態の波形補正部６４は、前述の各形態で例示した要素（振幅補正部７２，周期補正部７４，位相補正部７６）に歪補正部７８を追加した構成である。

周期補正部７４が各単位波形ｙA[m]の周期Ｔ[m]を時間長Ｔ0に伸縮すると、各単位波形ｙB[m]のピークトゥピーク値Ａ[m]は、時間軸上での伸縮の度合に応じて、振幅補正部７２による補正の直後（周期補正部７４による補正前）のピークトゥピーク値Ａ0から変動し得る。すなわち、周期補正部７４の補正後の各単位波形ｙB[m]には歪みが発生する。具体的には、周期補正部７４による補正後の単位波形ｙB[m]の時間長Ｔ0が補正前の単位波形ｙA[m]の周期Ｔ[m]と比較して長い（伸長の度合が高い）ほど、単位波形ｙB[m]のピークトゥピーク値Ａ[m]は振幅補正部７２による補正の直後ピークトゥピーク値Ａ0と比較して小さい数値となり、周期補正部７４による補正後の単位波形ｙB[m]の時間長Ｔ0が補正前の単位波形ｙA[m]の周期Ｔ[m]と比較して短い（収縮の度合が高い）ほど、単位波形ｙB[m]のピークトゥピーク値Ａ[m]はピークトゥピーク値Ａ0と比較して大きい数値となる。以上の傾向を考慮して、第４実施形態の歪補正部７８は、周期補正部７４による補正後の各単位波形ｙB[m]のピークトゥピーク値Ａ[m]を調整することで以上に説明した波形の歪みを補正する。

具体的には、歪補正部７８は、単位波形ｙA[m]の初期的な周期Ｔ[m]に対する時間長Ｔ0の比（Ｔ0／Ｔ[m]）を、周期補正部７４による補正後の単位波形ｙB[m]のピークトゥピーク値Ａ[m]に補正値として作用させる（典型的には乗算する）。以上の説明から理解されるように、周期補正部７４による補正後の単位波形ｙB[m]の時間長Ｔ0が補正前の単位波形ｙA[m]の周期Ｔ[m]に対して長い（周期補正部７４による伸長の度合が大きい）ほど、単位波形ｙB[m]のピークトゥピーク値Ａ[m]は歪補正部７８による処理で大きい数値に補正される。したがって、周期補正部７４による補正に起因した波形の歪みを抑制できるという利点がある。歪補正部７８による補正後の各単位波形ｙB[m]を位相補正部７６が補正して各単位波形ｕ[m]を生成する処理は第２実施形態と同様である。

以上に説明した第４実施形態では、周期補正部７４による単位波形ｙA[m]の伸縮の度合に応じて各単位波形ｙB[m]のピークトゥピーク値Ａ[m]が補正されるから、音声波形Ｖbの音響特性を忠実に反映した単位波形ｕ[m]を生成できるという利点がある。なお、第４実施形態における所定長Ｔ0の選定方法は任意であり、例えば、歪指標値Ｄ[k]に応じて時間長Ｔ0を設定する前述の第３実施形態が好適に採用される。

＜Ｃ：第５実施形態＞
第５実施形態は、第１実施形態の音声合成部２８を図１４の音声合成部２８Aに置換した構成である。図１４に示すように、音声合成部２８Aは、合成処理部８２と非調和成分生成部８４とフィルタ部８６と合成部８８とを含んで構成される。合成処理部８２は、第１実施形態の音声合成部２８と同様に動作して音声信号ＨAを生成する。音声信号ＨAは、第１実施形態の音声信号ＳOUTに相当し、合成情報Ｚで指定される音高Ｚbおよび音量Ｚeに対応する調和成分（基音成分および倍音成分）を豊富に含む。以上のように調和成分が豊富な音声信号ＨAの再生音は、人工的な印象の音声となる可能性がある。そこで、第５実施形態では、音声信号ＨAに非調和成分ＨBを付加することで音声信号ＳOUTを生成する。

非調和成分生成部８４は、非調和成分Ｈ0を生成する。非調和成分Ｈ0は、例えばホワイトノイズやピンクノイズ等の雑音成分である。フィルタ部８６は、非調和成分Ｈ0から非調和成分ＨBを生成する。例えば、非調和成分Ｈ0のうち音高Ｚbに対応する各調波周波数（基本周波数および各倍音周波数）以外の帯域成分を選択的に通過させるコムフィルタがフィルタ部８６として好適である。合成部８８は、合成処理部８２が生成した音声信号ＨAとフィルタ部８６が生成した非調和成分ＨBとを加算することで音声信号ＳOUTを生成する。

以上に説明した第５実施形態では、合成処理部８２が生成した音声信号ＨAに非調和成分ＨBが付加されるから、音声信号ＨAを単独で音声信号ＳOUTとして出力する構成と比較して、聴感的に自然な印象の音声を生成できるという利点がある。なお、図１４のフィルタ部８６を省略した構成（非調和成分Ｈ0が音声信号ＨAに加算される構成）も採用され得る。

＜Ｄ：変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）変形例１
Ｍ個の単位波形ｕ[1]〜ｕ[M]を利用して合成波形Ｃ[n]を生成する方法は適宜に変更される。例えば、Ｍ個の単位波形ｕ[1]〜ｕ[M]から順次に選択される単位波形ｕ[m]を時間軸上に配列して合成波形Ｃ[n]を生成する構成も採用され得る。以上の説明から理解されるように、第１実施形態の音声合成部２８は、Ｍ個の単位波形ｕ[1]〜ｕ[M]を時間軸上に配列して音声信号ＳOUTを生成する要素（波形生成手段）の一例である。

また、以上の各形態では、各処理期間Ｒ[n]が時間軸上で連続する構成を例示したが、図１５に示すように、複数個の単位波形ｕ[m]が配列される保持期間Ｅ[n]を処理期間Ｒ[n]と直後の処理期間Ｒ[n+1]との間に介挿することも可能である。保持期間Ｅ[n]には、直前の処理期間Ｒ[n]で選択された第１単位波形Ｕa[n]の複数個が、強度を変化させることなく配列される。各保持期間Ｅ[n]の時間長Ｌe[n]は、処理期間Ｒ[n]の時間長Ｌr[n]と同様に例えばランダムに設定され得るが、共通の固定値に設定することも可能である。図１５の例示から理解されるように、相前後する処理期間Ｒ[n]が時間軸上で連続する構成は本発明において必須ではない。

（２）変形例２
各処理期間Ｒ[n]を相異なる時間長Ｌr[n]に設定する方法は適宜に変更される。例えば、時間長Ｌr[n]に対して所定値を加算または減算して時間長Ｌr[n+1]を算定することで各処理期間Ｒ[n]の時間長Ｌr[1]〜Ｌr[N]を相違させることも可能である。また、第１実施形態では時間長Ｌr[n]の変動長ｄ[n]を乱数に設定したが、時間長Ｌr[n]自体を乱数とした構成も採用され得る。もっとも、時間長Ｌr[1]〜Ｌr[N]を相等しい時間に設定することも可能である。

（３）変形例３
処理期間Ｒ[n]毎に第１単位波形Ｕa[n]および第２単位波形Ｕb[n]を選択する方法は任意である。例えば、Ｍ個の単位波形ｕ[1]〜ｕ[M]を処理期間Ｒ[n]毎に順番に第１単位波形Ｕa[n]として選択する構成も採用され得る。また、第１実施形態では、処理期間Ｒ[n-1]で第１単位波形Ｕa[n-1]として選択された単位波形ｕ[m]を直後の処理期間Ｒ[n]で引続き第２単位波形Ｕb[n]として選択したが、第１単位波形Ｕa[n]および第２単位波形Ｕb[n]の双方を処理期間Ｒ[n]毎に独立に選択することも可能である。

（４）変形例４
第２実施形態では、音声合成装置１００とは別体の音声処理装置２００を例示したが、音声波形ＶbからＭ個の単位波形ｕ[1]〜ｕ[M]を生成する音声処理装置２００の機能（波形抽出部６２，波形補正部６４）を音声合成装置１００に搭載することも可能である。

１００……音声合成装置、２００……音声処理装置、１０，５０……演算処理装置、１２，５２……記憶装置、１４……入力装置、１６……表示装置、１８……放音装置、２２……表示制御部、２４……情報生成部、２６……素片選択部、２８……音声合成部、４０……編集画面、４２……音符画像、６２……波形抽出部、６４……波形補正部、７２……振幅補正部、７４……周期補正部、７６……位相補正部、８２……合成処理部、８４……非調和成分生成部、８６……フィルタ部、８８……合成部、ｕ[m]（ｕ[1]〜ｕ[M]）……単位波形、Ｕa[n]……第１単位波形，Ｕb[n]……第２単位波形、Ｓa[n]……第１波形系列、Ｓb[n]……第２波形系列、Ｃ[n]……合成波形、Ｑ……素片波形、Ｖa，Ｖb……音声波形、ＳOUT……音声信号。

Claims

有声音の音声波形のうち時間軸上の相異なる位置から抽出された複数の単位波形を記憶する波形記憶手段と、
複数の処理期間の各々について、前記複数の単位波形から選択された第１単位波形の複数個を当該処理期間内で経時的に強度が増加するように配列した第１波形系列と、前記複数の単位波形のうち前記第１単位波形とは相違する第２単位波形の複数個を当該処理期間内で経時的に強度が減少するように配列した第２波形系列とを加算した合成波形を生成する波形生成手段と
を具備する音声合成装置。
前記複数の単位波形の各々は、前記音声波形の１周期分に対応する
請求項１の音声合成装置。
前記単位波形のピークトゥピーク値と時間長とは前記複数の単位波形で共通し、
前記複数の単位波形は、前記各単位波形間の相互相関関数が最大となるように各々の位相が調整されている
請求項１または請求項２の音声合成装置。
前記複数の処理期間のうちの一の処理期間の前記第１単位波形と、前記複数の処理期間のうち前記一の処理期間の直後の処理期間の前記第２単位波形とは共通の単位波形である
請求項１から請求項３の何れかの音声合成装置。
前記波形生成手段は、
前記複数の単位波形から処理期間毎にランダムに前記第１単位波形を選択し、
前記複数の処理期間の各々の時間長をランダムに設定する
請求項１から請求項４の何れかの音声合成装置。
請求項１から請求項５の何れかの音声合成装置に使用される複数の単位波形を生成する音声処理装置であって、
有声音の音声波形のうち時間軸上の相異なる位置から複数の単位波形を抽出する波形抽出手段と、
前記波形抽出手段が抽出した複数の単位波形を各単位波形の音響特性が近付くように補正する波形補正手段と
を具備する音声処理装置。