JP5782799B2

JP5782799B2 - 音声合成装置

Info

Publication number: JP5782799B2
Application number: JP2011090422A
Authority: JP
Inventors: 嘉山　啓; 啓嘉山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-04-14
Filing date: 2011-04-14
Publication date: 2015-09-24
Anticipated expiration: 2031-04-14
Also published as: JP2012225950A

Description

本発明は、複数の音声素片の連結で発話音や歌唱音等の音声を合成する技術に関する。

複数の音声素片の連結で所望の音声を合成する素片接続型の音声合成技術が従来から提案されている。例えば特許文献１には、利用者が指定した発音文字に対応する音声素片を順次に選択し、相前後する音声素片における所定長の区間（重複区間）をクロスフェードにより連結することで音声を合成する技術が開示されている。

特開２００７−２４０５６４号公報

しかし、各音声素片をクロスフェードする時間長の如何によっては各音声素片の重複区間にて音声波形（位相）が整合せず、局所的な強度の低下等の音質劣化が発生する可能性がある。以上の事情を考慮して、本発明は、各音声素片の重複区間における音質の劣化を抑制することを目的とする。

以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。

本発明の音声合成装置は、音声素片を順次に選択する素片選択手段（例えば素片選択部２６）と、素片選択手段が選択した相前後する第１音声素片（例えば音声素片Ｖ1）および第２音声素片（例えば音声素片Ｖ2）の各々の相関算定区間について両者間の時間差（例えば時間差τ）を変数とする相互相関関数（例えば相互相関関数Ｃ(τ)）を算定する相関算定手段（例えば相関算定部５２）と、第１音声素片の相関算定区間と第２音声素片の相関算定区間との時間差を相互相関関数が最大となる時間差（例えば相関最大時間τmax）に設定したときの第１音声素片と第２音声素片との重複区間（例えば重複区間Ｗ）をクロスフェードして第１音声素片と第２音声素片とを接続する素片連結手段（例えば素片連結部５４）とを具備する。以上の構成では、第１音声素片の相関算定区間と第２音声素片の相関算定区間との相互相関関数が最大となるように第１音声素片と第２音声素片との時間軸上の位置関係が決定される。したがって、第１音声素片と第２音声素片との重複区間での局所的な強度低下等が抑制された高音質な合成音を生成することが可能である。

本発明の好適な態様（例えば後述の第２実施形態）の音声合成装置は、第１音声素片および第２音声素片の各々の相関算定区間の音素が有声音であるか否かを判定する有声判定手段（例えば有声判定部６２）を具備し、素片連結手段は、音素が有声音であると有声判定手段が判定した場合には第１音声素片と第２音声素片とをクロスフェードで接続し、音素が有声音でないと有声判定手段が判定した場合には第１音声素片の終点に第２音声素片の始点を接続する。以上の態様では、音素が無声音である場合には第１音声素片と第２音声素片とのクロスフェードが省略されるから、音声素片の各音素の有声／無声に関わらず第１音声素片と第２音声素片とをクロスフェードする構成と比較して素片連結手段の処理負荷が軽減されるという利点がある。なお、音素が有声音でないと有声判定手段が判定した場合に相関算定手段が相互相関関数の算定を省略する構成も好適である。

本発明の好適な態様（例えば後述の第３実施形態）の音声合成装置は、第１音声素片と第２音声素片とで振幅が近付くように第１音声素片および第２音声素片の振幅を調整する振幅調整手段（例えば振幅調整部６４）を具備し、相関算定手段は、振幅調整手段による調整後の第１音声素片と第２音声素片とについて相互相関関数を算定する。以上の態様では、第１音声素片と第２音声素片との振幅が調整されたうえで相互相関関数が算定されるから、第１音声素片と第２音声素片とで振幅が大きく相違する場合でも、第１音声素片と第２音声素片との波形の類否を適切に反映した相互相関関数を算定することが可能である。更に好適な態様の音声合成装置は、振幅調整手段による調整の有無を利用者からの指示に応じて制御する第１制御手段（例えば条件制御部７０）を具備する。以上の態様によれば、利用者の要求に応じた多様な合成音を生成できるという利点がある。

本発明の好適な態様（例えば後述の第４実施形態）において、相関算定手段は、各音声素片を示す各サンプルの複数個に相当する時間を単位量として時間差を変化させて相互相関関数を算定する。以上の態様では、音声素片のサンプルの複数個に相当する時間を単位量として相互相関関数の時間差を変化させるから、音声素片のサンプル毎に時間差を変化させる構成と比較して、相互相関関数を算定する時間差の点数削減され、相関算定手段の処理負荷が軽減されるという利点がある。更に好適な態様の音声合成装置は、時間差の変化の単位量を利用者からの指示に応じて変化させる第２制御手段（例えば条件制御部７０）を具備する。以上の態様によれば、相関算定手段による処理負荷の軽減と相互相関関数の精度の向上との何れを優先すべきかを利用者が任意に選択できるという利点がある。

本発明の好適な態様において、第１音声素片の相関算定区間は、第１音声素片の終点を含む第１遷移区間（例えば遷移区間ＱE1）の前方の区間であり、第２音声素片の相関算定区間は、第２音声素片の始点を含む第２遷移区間（例えば遷移区間ＱE2）の後方の区間である。以上の態様では、第１音声素片の末尾の第１遷移区間と第２音声素片の先頭の第２遷移区間とが相関算定区間から除外される。したがって、第１遷移区間や第２遷移区間にて音声波形が安定しない場合でも、第１音声素片と第２音声素片との波形の類否を適切に反映した相互相関関数を安定的に算定することが可能である。更に好適な態様の音声合成装置は、第１遷移区間および第２遷移区間の時間長（例えば時間長ＬE）を利用者からの指示に応じて変化させる第３制御手段（例えば条件制御部７０）を具備する。以上の態様では、音声素片のうち音声波形が不安定な区間（第１遷移区間や第２遷移区間）を除外する程度を利用者が任意に選択することが可能である。

本発明の好適な態様の音声合成装置は、各音声素片の相関算定区間の時間長（例えば時間長ＬC）を利用者からの指示に応じて変化させる第４制御手段（例えば条件制御部７０）を具備する。以上の態様では、相関算定区間を算定する範囲の確保と相関算定手段による処理負荷の軽減との何れを優先させるかを利用者が任意に選択できるという利点がある。

以上の各態様に係る音声合成装置は、音声の合成に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）で実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラム（例えばプログラムＰGM）は、音声素片を順次に選択する素片選択処理（例えば素片選択部２６）と、素片選択処理で選択した相前後する第１音声素片（例えば音声素片Ｖ1）および第２音声素片（例えば音声素片Ｖ2）の各々の相関算定区間について両者間の時間差（例えば時間差τ）を変数とする相互相関関数（例えば相互相関関数Ｃ(τ)）を算定する相関算定処理（例えば相関算定部５２）と、第１音声素片の相関算定区間と第２音声素片の相関算定区間との時間差を相互相関関数が最大となる時間差（例えば相関最大時間τmax）に設定したときの第１音声素片と第２音声素片との重複区間（例えば重複区間Ｗ）をクロスフェードして第１音声素片と第２音声素片とを接続する素片連結処理（例えば素片連結部５４）とをコンピュータに実行させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

本発明の第１実施形態に係る音声合成装置のブロック図である。編集画面および音声素片の時系列の模式図である。音声合成部のブロック図である。音声合成部の動作の説明図である。第２実施形態における音声合成部のブロック図である。第２実施形態における音声合成部の動作の説明図である。第３実施形態における音声合成部のブロック図である。第３実施形態における音声合成部の動作の説明図である。第４実施形態における相関算定部の動作の説明図である。第５実施形態における音声合成部のブロック図である。設定画面の模式図である。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。音声合成装置１００は、発話音や歌唱音等の音声（以下「目標音」という）を素片接続型の音声合成処理で生成する音声処理装置であり、図１に示すように、演算処理装置１０と記憶装置１２と入力装置１４と表示装置１６と放音装置１８とを具備するコンピュータシステムで実現される。

演算処理装置１０（ＣＰＵ）は、記憶装置１２に格納されたプログラムＰGMの実行で、目標音の音声信号ＳOUTを生成するための複数の機能（表示制御部２２，情報生成部２４，素片選択部２６，音声合成部２８）を実現する。音声信号ＳOUTは、目標音の波形を表す音響信号である。なお、演算処理装置１０の各機能を複数の集積回路に分散した構成や、専用の電子回路（ＤＳＰ）が各機能を実現する構成も採用され得る。

記憶装置１２は、演算処理装置１０が実行するプログラムＰGMや演算処理装置１０が使用する各種のデータ（素片群Ｇ，合成情報Ｚ）を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として採用される。

素片群Ｇは、音声合成の素材として利用される複数の音声素片Ｖの集合（音声合成ライブラリ）である。各音声素片Ｖは、事前に採取された音声の時間軸上の波形を示すサンプル系列であり、言語的な意味の最小単位に相当する１個の音素、または相互に連結された複数の音素（音素連鎖）で構成される。なお、以下では便宜的に、無音を１個の音素（記号＃）として説明する。

合成情報Ｚは、目標音を時系列に指定する情報（スコアデータ）である。図１に示すように、合成情報Ｚは、目標音を構成する複数の音声素片の各々について、素片識別子Ｚaと音高Ｚbと発音期間（開始時刻および継続長）Ｚcと音量Ｚdとを指定する。素片識別子Ｚaは素片群Ｇ内の１個の音声素片Ｖを識別する符号である。

入力装置１４は、利用者からの指示を受付ける機器（例えばマウスやキーボード）である。表示装置１６（例えば液晶表示機器）は、演算処理装置１０から指示された画像を表示する。放音装置１８（例えばスピーカやヘッドホン）は、演算処理装置１０が生成する音声信号ＳOUTに応じた音波を放射する。

図１の表示制御部２２は、合成情報Ｚの生成および編集のために利用者が視認する図２の部分(A)の編集画面４０を表示装置１６に表示させる。図２の部分(A)に示すように、編集画面４０は、相互に交差する時間軸（横軸）と音高軸（縦軸）とが設定された画像（五線紙型またはピアノロール型の画像）である。利用者は、編集画面４０を参照しながら入力装置１４を適宜に操作することで、目標音を図形化した音符画像４２の配置や各音符画像４２の位置およびサイズの変更，各目標音に対する発音文字（例えば歌詞）の指定を音声合成装置１００に指示することが可能である。なお、編集画面４０の形式は任意である。例えば、合成情報Ｚの各情報（素片識別子Ｚa，音高Ｚb，発音期間Ｚc，音量Ｚd）のリストを編集画面４０として表示することも可能である。

図１の情報生成部２４は、編集画面４０に対する利用者からの指示に応じて合成情報Ｚを生成または更新する。具体的には、情報生成部２４は、音符画像４２に指定された発音文字に応じて合成情報Ｚの各素片識別子Ｚaを設定する。例えば、図２の部分(A)の発音文字「ま［ｍａ］」が指定された場合、図２の部分(B)に示すように、［＃-ｍ］，［ｍ-ａ］，［ａ］，［ａ-＃］（＃：無音）という４個の音声素片Ｖの各々を指定する素片識別子Ｚaが設定される。また、情報生成部２４は、音符画像４２の音高軸上の位置に応じて各音高Ｚbを設定し、各音声Ｅ素片の発音期間Ｚcを音符画像４２の時間軸上の位置（発音時刻）およびサイズ（継続長）に応じて設定する。合成情報Ｚの音量Ｚdも同様に利用者からの指示に応じて設定される。

図１の素片選択部２６は、合成情報Ｚが指定する各素片識別子Ｚaに対応する音声素片Ｖを記憶装置１２の素片群Ｇから順次に選択する。音声合成部２８は、素片選択部２６が選択した各音声素片Ｖを相互に連結することで音声信号ＳOUTを生成する。素片選択部２６による音声素片Ｖの選択と音声合成部２８による音声信号ＳOUTの生成とは、例えば入力装置１４に対する利用者からの指示を契機として実行される。図３に示すように、音声合成部２８は、相関算定部５２と素片連結部５４と調整処理部５６とを含んで構成される。

図４は、音声合成部２８が実行する処理の説明図である。図４では、相前後する音声素片Ｖ1（音声素片［＃-ｍ］）と音声素片Ｖ2（音声素片［ｍ-ａ］）とを連結する場合が例示されている。音声素片Ｖ1および音声素片Ｖ2の各々は複数の音素で構成される。素片選択部２６が選択する複数の音声素片のうち相前後する２個の音声素片Ｖの組毎に以下の処理が順次に実行される。

図４の部分(A)に示すように、相関算定部５２は、音声素片Ｖ1の相関算定区間ＱC1と音声素片Ｖ2の相関算定区間ＱC2との間で相互相関関数Ｃ(τ)を算定する。相互相関関数Ｃ(τ)は、相関算定区間ＱC1の始点と相関算定区間ＱC2の始点との時間差（時間軸上のシフト量）τを変数として両者間の波形の相関の程度を示す関数（数値列）である。時間差τは、音声素片Ｖの１個のサンプルを単位量（刻み幅）として変化する。

音声素片Ｖ1の相関算定区間ＱC1は、音声素片Ｖ1のうち所定の時間長ＬCにわたる部分である。具体的には、相関算定区間ＱC1は、音声素片Ｖ1のうち終点ｔeを含む時間長ＬEの遷移区間ＱE1の前方に位置する。すなわち、相関算定区間ＱC1の終点は遷移区間ＱE1の始点に一致する。音声素片Ｖ1を構成する最後の音素（図４の例示では音素［ｍ］）が相関算定区間ＱC1に含まれるように相関算定区間ＱC1の時間長ＬCや遷移区間ＱE1の時間長ＬEが選定される。

図４の部分(A)に示すように、音声素片Ｖ2の相関算定区間ＱC2は、音声素片Ｖ2のうち時間長ＬCにわたる部分である。具体的には、相関算定区間ＱC2は、音声素片Ｖ2のうち始点ｔsを含む時間長ＬEの遷移区間ＱE2に後続する。音声素片Ｖ2を構成する最初の音素（図４の例示では音素［ｍ］）が相関算定区間ＱC2に含まれるように相関算定区間ＱC2の時間長ＬCや遷移区間ＱE2の時間長ＬEが選定される。

図３の素片連結部５４は、相関算定部５２が算定した相互相関関数Ｃ(τ)が最大となるように音声素片Ｖ1と音声素片Ｖ2とを時間軸上に配置して音声素片Ｖ1と音声素片Ｖ2とを連結する。具体的には、素片連結部５４は、第１に、相互相関関数Ｃ(τ)が最大となる時間差τの数値（以下「相関最大時間τmax」という）を探索し、図４の部分(B)に示すように、相関算定区間ＱC1と相関算定区間ＱC2との時間差τが相関最大時間τmaxとなる（すなわち相関算定区間ＱC2が相関算定区間ＱC1に対して相関最大時間τmaxだけ遅延する）ように音声素片Ｖ1と音声素片Ｖ2との時間軸上の位置を決定する。すなわち、音声素片Ｖ1と音声素片Ｖ2とが時間軸上で相互に重複する区間（以下「重複区間」という）Ｗにて音声素片Ｖ1の最後の音素の波形（相関算定区間ＱC1内の波形）と音声素片Ｖ2の最初の音素の波形（相関算定区間ＱC2内の波形）との位相差が低減されるように、音声素片Ｖ1と音声素片Ｖ2との時間軸上の位置関係が設定される。

第２に、素片連結部５４は、図４の部分(C)に示すように、相互相関関数Ｃ(τ)に応じた調整後の音声素片Ｖ1と音声素片Ｖ2とを両者間の重複区間Ｗにてクロスフェードすることで音声素片Ｖ1と音声素片Ｖ2とを連結する。具体的には、素片連結部５４は、音声素片Ｖ1のうち重複区間Ｗ内の振幅をその重複区間Ｗの終点（音声素片Ｖ1の終点ｔe）にかけて経時的に低下させた波形と、音声素片Ｖ2のうち重複区間Ｗ内の振幅をその重複区間Ｗの始点（音声素片Ｖ2の始点ｔs）から経時的に上昇させた波形とを加算する。以上の説明から理解されるように、素片連結部５４によるクロスフェードの対象となる重複区間Ｗの時間長は相関最大時間τmaxに応じて決定される。

図３の調整処理部５６は、素片連結部５４が相互に連結した各音声素片Ｖの時系列を、合成情報Ｚが各音声素片に指定する音高Ｚbと発音期間Ｚcと音量Ｚdとに調整することで音声信号ＳOUTを生成する。調整処理部５６が生成した音声信号ＳOUTが放音装置１８に供給されて音波として再生される。

以上に説明した第１実施形態では、音声素片Ｖ1の相関算定区間ＱC1と音声素片Ｖ2の相関算定区間ＱC2との相互相関関数Ｃ(τ)が最大となるように音声素片Ｖ1と音声素片Ｖ2との時間軸上の位置関係（時間差）が決定される。すなわち、音声素片Ｖ1と音声素片Ｖ2との重複区間Ｗでは両者の波形が類似する（位相差が低減される）。したがって、音声素片Ｖ1と音声素片Ｖ2との重複区間Ｗでの局所的な強度低下等が抑制された高音質な音声信号ＳOUTを生成できるという利点がある。

なお、音声素片Ｖ1のうち終点ｔeを含む遷移区間ＱE1や音声素片Ｖ2のうち始点ｔsを含む遷移区間ＱE2では音声波形が過渡的で安定しないという傾向がある。したがって、相関算定区間ＱC1が遷移区間ＱE1を含む構成や相関算定区間ＱC2が遷移区間ＱE2を含む構成では相互相関関数Ｃ(τ)の数値が安定せず、音声素片Ｖ1と音声素片Ｖ2との時間差を適切に選定できない可能性がある。第１実施形態では、遷移区間ＱE1を除外した相関算定区間ＱC1と遷移区間ＱE2を除外した相関算定区間ＱC2との間で相互相関関数Ｃ(τ)が算定されるから、相互相関関数Ｃ(τ)の数値が安定する。したがって、音声素片Ｖ1および音声素片Ｖ2の重複区間Ｗでの局所的な強度低下等が有効に抑制されるように音声素片Ｖ1と音声素片Ｖ2との時間軸上の位置関係を適切に選定できるという利点がある。

＜Ｂ：第２実施形態＞
本発明の第２実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

図５は、第２実施形態における音声合成部２８のブロック図である。図５に示すように、第２実施形態の音声合成部２８は、第１実施形態と同様の要素（相関算定部５２，素片連結部５４，調整処理部５６）に有声判定部６２を追加した構成である。有声判定部６２は、素片選択部２６が選択した各音声素片Ｖを構成する音素が有声音（波形の周期性がある音声）および無声音（波形の周期性がない音声）の何れに該当するかを判定する。

図５に示すように、記憶装置１２に記憶された素片群Ｇは、第１実施形態と同様の複数の音声素片Ｖと、各音声素片Ｖに対応する複数の属性情報Ａとを含んで構成される。属性情報Ａは、音声素片Ｖの各音素が有声音および無声音の何れに該当するかを示す情報である。有声判定部６２は、素片選択部２６が選択した音声素片Ｖを構成する音素の有声性（有声性／無声音）をその音声素片Ｖの属性情報Ａに応じて判定する。

相前後する音声素片Ｖ1および音声素片Ｖ2を連結する場合に着目すると、有声判定部６２は、音声素片Ｖ1および音声素片Ｖ2にて連結の対象となる音素（以下「連結音素」という）が有声音であるか否かを音声素片Ｖ1および音声素片Ｖ2の各々の属性情報Ａに応じて判定する。連結音素は、音声素片Ｖ1のうち相関算定区間ＱC1内の音素（すなわち音声素片Ｖ1の最後の音素）および音声素片Ｖ2のうち相関算定区間ＱC2内の音素（すなわち音声素片Ｖ2の最初の音素）である。

図６は、第２実施形態の音声合成部２８が実行する処理の説明図である。図６の部分(A)は、音声素片Ｖ1および音声素片Ｖ2の連結音素が有声音の音素［ｍ］に該当する場合である。連結音素が有声音に該当すると有声判定部６２が判定した場合には、第１実施形態と同様の方法で音声素片Ｖ1と音声素片Ｖ2とが連結される。すなわち、音声素片Ｖ1の相関算定区間ＱC1と音声素片Ｖ2の相関算定区間ＱC2との相互相関関数Ｃ(τ)を相関算定部５２が算定し、相互相関関数Ｃ(τ)が最大となるように素片連結部５４が音声素片Ｖ1と音声素片Ｖ2とをクロスフェードする。

他方、図６の部分(B)は、音声素片Ｖ1および音声素片Ｖ2の連結音素が無声音の音素［ｓ］に該当する場合である。連結音素が無声音に該当すると有声判定部６２が判定した場合、素片連結部５４は、連結音素が有声音である場合（図６の部分(A)）とは相違する方法で音声素片Ｖ1と音声素片Ｖ2とを連結する。具体的には、素片連結部５４は、音声素片Ｖ1の終点に音声素片Ｖ2の始点を連結する。すなわち、音声素片Ｖ1と音声素片Ｖ2とのクロスフェードは実行されない。また、連結音素が無声音である場合には相関算定部５２による相互相関関数Ｃ(τ)の算定が省略される。

第２実施形態においても、連結音素が有声音である場合について第１実施形態と同様の効果が実現される。また、第２実施形態では、連結音素が無声音である場合には相関算定部５２による相互相関関数Ｃ(τ)の算定や素片連結部５４による音声素片Ｖ1と音声素片Ｖ2とのクロスフェードが省略されるから、連結音素が無声音である場合にも相互相関関数Ｃ(τ)の算定やクロスフェードを実行する構成と比較して音声合成部２８の処理負荷が低減されるという利点がある。なお、無声音の音素の波形には明確な周期性が存在しないから、音声素片Ｖ1と音声素片Ｖ2との位相差に起因した強度低下等の音質劣化は本来的に発生し難い。したがって、第２実施形態によれば、合成音の音質劣化を防止するという所期の効果を有効に維持しながら音声合成部２８の処理負荷を低減することが可能である。

＜Ｃ：第３実施形態＞
図７は、第３実施形態における音声合成部２８のブロック図である。図７に示すように、第３実施形態の音声合成部２８は、第１実施形態と同様の要素（相関算定部５２，素片連結部５４，調整処理部５６）に振幅調整部６４を追加した構成である。振幅調整部６４は、素片選択部２６が選択した各音声素片Ｖの振幅（強度）を調整する。

図８は、第３実施形態の音声合成部２８が実行する処理の説明図である。図８の部分(A)に示すように、音声素片Ｖ1の振幅（ピークトゥピーク値）Ａ1と音声素片Ｖ2の振幅Ａ2とが大きく相違する場合がある。以上のように振幅差が大きい音声素片Ｖの間の相互相関関数Ｃ(τ)では、振幅が大きい音声素片Ｖ2の波形の影響が過大となり、音声素片Ｖ1と音声素片Ｖ2との実際の波形の相関が相互相関関数Ｃ(τ)に反映される度合は相対的に低下する。

そこで、第３実施形態の振幅調整部６４は、音声素片Ｖ1の振幅Ａ1と音声素片Ｖ2の振幅Ａ2とが近付く（理想的には一致する）ように音声素片Ｖ1および音声素片Ｖ2を調整（正規化）する。例えば、振幅調整部６４は、図８の部分(B)に示すように、音声素片Ｖ1の振幅Ａ1と音声素片Ｖ2の振幅Ａ2とを所定値Ａ0に調整する。振幅の調整の方法は任意であるが、例えば、音声素片Ｖ1（Ｖ2）の振幅Ａ1（Ａ2）に対する所定値Ａ0の相対比Ａ0/Ａ1（Ａ0/Ａ2）を音声素片Ｖ1（Ｖ2）に乗算する方法が好適である。相関算定部５２は、図８に示すように、振幅調整部６４による調整後の音声素片Ｖ1と音声素片Ｖ2との間で相互相関関数Ｃ(τ)を算定する。他方、素片連結部５４は、図８の部分(C)に示すように、振幅調整部６４による調整前の音声素片Ｖ1と音声素片Ｖ2とを第１実施形態と同様の方法で連結する。ただし、振幅調整部６４による調整後の音声素片Ｖ1と音声素片Ｖ2とを連結することも可能である。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、振幅調整後の音声素片Ｖ1および音声素片Ｖ2の間で相互相関関数Ｃ(τ)が算定されるから、記憶装置１２に格納された音声素片Ｖ1と音声素片Ｖ2とで振幅が大きく相違する場合でも、音声素片Ｖ1と音声素片Ｖ2との波形の類否を適切に反映した相互相関関数Ｃ(τ)が算定される。したがって、音声素片Ｖ1と音声素片Ｖ2とで重複区間Ｗの位相が合致するように両者間の時間差τ（相関最大時間τmax）が適切に決定され、重複区間Ｗでの音質の劣化を防止するという効果を有効に実現することが可能である。

なお、以上の例示では第１実施形態を基礎とした構成を例示したが、音声素片Ｖ1および音声素片Ｖ2の振幅を調整する第３実施形態の構成は、第２実施形態において連結音素が有声音である場合（すなわち音声素片Ｖ1と音声素片Ｖ2とをクロスフェードで連結する場合）にも同様に適用される。

＜Ｄ：第４実施形態＞
図９は、第４実施形態における相関算定部５２の動作の説明図である。図９には、各音声素片Ｖのサンプリング周期ＴSが時間軸上に図示されている。第１実施形態の相関算定部５２は、音声素片Ｖ1の相関算定区間ＱC1と音声素片Ｖ2の相関算定区間ＱC2との時間差τを、音声素片Ｖのサンプルの１個分（すなわちサンプリング周期ＴS）を単位量として変化させて相互相関関数Ｃ(τ)を算定した。第４実施形態の相関算定部５２は、音声素片Ｖのサンプルの複数個に相当する時間長（すなわちサンプリング周期ＴSの整数倍の時間長）Ｔ0を単位量として相関算定区間ＱC1と相関算定区間ＱC2との時間差τを変化させて相互相関関数Ｃ(τ)を算定する。すなわち、第４実施形態では、相互相関関数Ｃ(τ)を算定する時間差τの点数が第１実施形態と比較して間引かれる。

第４実施形態においても第１実施形態と同様の効果が実現される。また、第４実施形態では、相互相関関数Ｃ(τ)を算定する時間差τの点数が削減されるから、第１実施形態と比較して相関算定部５２の処理負荷が軽減されるという利点がある。

＜Ｅ：第５実施形態＞
図１０は、第５実施形態における音声合成部２８のブロック図である。図１０に示すように、第５実施形態の音声合成部２８は、第１実施形態の要素（相関算定部５２，素片連結部５４，調整処理部５６）に第２実施形態の有声判定部６２と第３実施形態の振幅調整部６４とを追加した構成である。また、演算処理装置１０は条件制御部７０としても機能する。条件制御部７０は、入力装置１４に対する利用者からの指示に応じて音声合成部２８の動作条件を制御する。

第５実施形態の表示制御部２２は、音声合成部２８の動作条件の設定のために利用者が視認する図１１の設定画面８０を表示装置１６に表示させる。図１１に示すように、設定画面８０には、音声合成部２８の動作条件に関する複数の指示領域（チェックボックス）が配置される。利用者は、入力装置１４を適宜に操作することで指示領域を有効状態（チェック状態）または無効状態（チェック解除）の何れかに設定することが可能である。

指示領域８２（有声音クロスフェード接続）が有効状態に設定された場合、音声素片Ｖ1および音声素片Ｖ2の各々の有声音の音素が第１実施形態と同様にクロスフェードで連結されるように、条件制御部７０は音声合成部２８の各要素を制御する。他方、指示領域８２が無効状態に設定された場合、第２実施形態にて連結要素が無声音である場合と同様に、音声素片Ｖ1の終点に音声素片Ｖ2の始点が接続されるように条件制御部７０は音声合成部２８の各要素を制御する。すなわち、音声素片Ｖ1と音声素片Ｖ2とのクロスフェードは実行されない。

指示領域８４（無声音クロスフェード接続）についても同様に、有効状態に設定された場合には音声素片Ｖ1および音声素片Ｖ2の各々の無声音の音素がクロスフェードで接続され、無効状態に設定された場合には、第２実施形態と同様に音声素片Ｖ1に音声素片Ｖ2が後続するように条件制御部７０が音声合成部２８の各要素を制御する。

指示領域８２が有効状態に設定されると、表示制御部２２は、音声素片Ｖの有声音の音素のクロスフェードに関連する条件を指示する領域８２２を変更可能な状態に制御する。他方、指示領域８２が無効状態に設定されると、表示制御部２２は領域８２２を編集禁止の状態（例えば変更の指示を受付けないグレイアウト状態）に制御する。同様に、利用者が指示領域８４を有効状態に設定すると、音声素片Ｖの無声音の音素のクロスフェードに関連する条件を指示する領域８４２が変更可能な状態に制御され、指示領域８４が無効状態に設定されると領域８４２が編集禁止の状態に制御される。

領域８２２および領域８４２の各々は、指示領域８６（８６A，８６B，８６C，８６D）を含んで構成される。利用者が指示領域８６A（相関算定区間）を有効状態に設定して領域８８Aに数値を入力すると、条件制御部７０は、相関算定区間ＱC1および相関算定区間ＱC2の時間長ＬCを領域８８A内の数値に設定する。他方、指示領域８６Aが無効状態に設定された場合には時間長ＬCが所定の初期値に設定される。また、利用者が指示領域８６B（遷移区間）を有効状態に設定して領域８８Bに数値を入力すると、条件制御部７０は、遷移区間ＱE1および遷移区間ＱE2の時間長ＬEを領域８８Bの数値に設定する。指示領域８６Bが無効状態に設定された場合には時間長ＬEが所定の初期値に設定される。

指示領域８６C（振幅正規化）が有効状態に設定された場合、音声素片Ｖ1および音声素片Ｖ2の振幅の調整を振幅調整部６４が実行するように条件制御部７０は音声合成部２８を制御する。他方、指示領域８６Cが無効状態に設定された場合、振幅調整部６４による振幅の調整は省略される。

利用者が指示領域８６D（相関算定間引）を有効状態に設定して領域８８Cに数値を入力すると、条件制御部７０は、相互相関関数Ｃ(τ)の時間長τの変化の単位量となる時間長Ｔ0を領域８８Cの数値に応じて設定する。例えば、領域８８Cに数値「１/８」が入力された場合、時間長Ｔ0は音声素片Ｖのサンプルの８個分に相当する時間（サンプリング周期ＴSの８個分）に設定される。すなわち、相互相関関数Ｃ(τ)を算定する時間差τの点数が音声素片Ｖのサンプリングの点数の１/８に間引かれる。他方、指示領域８６Dが無効状態に設定された場合、条件制御部７０は、第１実施形態と同様に、時間長τの変化の単位量となる時間長Ｔ0を音声素片Ｖのサンプルの１個分に相当する時間（サンプリング周期ＴS）に設定する。

第５実施形態においても第１実施形態と同様の効果が実現される。また、第５実施形態では、音声合成部２８の各要素の動作条件が利用者からの指示に応じて制御されるから、利用者が所望する多様な音声を合成できるという利点がある。

＜Ｆ：変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。

（１）前述の各形態では、音声素片Ｖのうち所定の時間長ＬCの区間を相関算定区間ＱC（ＱC1，ＱC2）としたが、相関算定区間ＱCの選定の方法は任意である。例えば、音声素片Ｖを構成する各音素の境界にて相関算定区間ＱCを画定することも可能である。例えば、図４の音声素片Ｖ1については、音素［＃］と音素［ｍ］との境界を始点として相関算定区間ＱC1が設定され、音声素片Ｖ2については、音素［ｍ］と音素［ａ］との境界を終点として相関算定区間ＱC2が設定される。音声素片Ｖにおける各音素の境界を特定する方法は任意であるが、例えば各音素の境界の時点を指定する情報を音声素片Ｖに対応させて記憶装置１２に格納した構成が好適である。

なお、相関算定区間ＱCが音声素片Ｖの一部の区間である必要は必ずしもない。例えば、音声素片Ｖが１個の音素で構成される場合、音声素片Ｖの全部の区間を相関算定区間ＱCとして相互相関関数Ｃ(τ)が算定される。

（２）第２実施形態では、音声素片Ｖに付加された属性情報Ａに応じて各音素の有声性を判定したが、有声判定部６２が各音素の有声性を判定する方法は任意である。例えば、音声素片の各音素が有声音であるか否か（あるいは各音声素片をクロスフェードで接続するか否か）を音声素片Ｖ毎に指定したテーブルが記憶装置１２に格納された構成では、有声判定部６２がテーブルを参照して各音素の有声性（クロスフェードの必要性）を判定することが可能である。

（３）前述の各形態では、各音声素片Ｖの連結後に合成情報Ｚに応じて音高Ｚbや発音期間Ｚcや音量Ｚdを調整したが、合成情報Ｚに応じた調整後の各音声素片Ｖについて相関算定部５２による相互相関関数Ｃ(τ)の算定や素片連結部５４による連結を実行することも可能である。

（４）前述の各形態では、音声素片Ｖ1の相関算定区間ＱC1と音声素片Ｖ2の相関算定区間ＱC2とを相等しい時間長ＬCに設定したが、相関算定区間ＱC1と相関算定区間ＱC2とを相異なる時間長に設定することも可能である。同様に、音声素片Ｖ1の遷移区間ＱE1と音声素片Ｖ2の遷移区間ＱE2とで時間長を相違させた構成も採用され得る。

１００……音声合成装置、１０……演算処理装置、１２……記憶装置、１４……入力装置、１６……表示装置、１８……放音装置、２２……表示制御部、２４……情報生成部、２６……素片選択部、２８……音声合成部、４０……編集画面、４２……音符画像、５２……相関算定部、５４……素片連結部、５６……調整処理部、６２……有声判定部、６４……振幅調整部、７０……条件制御部、８０……設定画面、８２，８４，８６A，８６B，８６C，８６D……指示領域、Ｇ……素片群、Ｖ（Ｖ1，Ｖ2）……音声素片、Ｚ……合成情報、ＳOUT……音声信号。

Claims

音声素片を順次に選択する素片選択手段と、
前記素片選択手段が選択した相前後する第１音声素片および第２音声素片の各々の相関算定区間について両者間の時間差を変数とする相互相関関数を算定する相関算定手段と、
前記第１音声素片の相関算定区間と前記第２音声素片の相関算定区間との時間差を前記相互相関関数が最大となる時間差に設定したときの前記第１音声素片と前記第２音声素片との重複区間をクロスフェードして前記第１音声素片と前記第２音声素片とを接続する素片連結手段と、
前記第１音声素片および前記第２音声素片の各々の相関算定区間の音素が有声音であるか否かを判定する有声判定手段を具備し、
前記素片連結手段は、前記音素が有声音であると前記有声判定手段が判定した場合には前記第１音声素片と前記第２音声素片とを前記クロスフェードで接続し、前記音素が有声音でないと前記有声判定手段が判定した場合には前記第１音声素片の終点に前記第２音声素片の始点を接続する
音声合成装置。
音声素片を順次に選択する素片選択手段と、
前記素片選択手段が選択した相前後する第１音声素片および第２音声素片の各々の相関算定区間について両者間の時間差を変数とする相互相関関数を算定する相関算定手段と、
前記第１音声素片の相関算定区間と前記第２音声素片の相関算定区間との時間差を前記相互相関関数が最大となる時間差に設定したときの前記第１音声素片と前記第２音声素片との重複区間をクロスフェードして前記第１音声素片と前記第２音声素片とを接続する素片連結手段とを具備し、
前記第１音声素片の相関算定区間は、前記第１音声素片の終点を含む第１遷移区間の前方の区間であり、前記第２音声素片の相関算定区間は、前記第２音声素片の始点を含む第２遷移区間の後方の区間である
音声合成装置。
利用者からの指示に応じて、前記第１音声素片の前記第１遷移区間および前記第２音声素片の前記第２遷移区間の時間長を変化させる手段をさらに具備する
請求項２の音声合成装置。
利用者からの指示に応じて、前記第１音声素片の相関算定区間および前記第２音声素片の相関算定区間の時間長を変化させる手段をさらに具備する
請求項１から請求項３の何れかの音声合成装置。
前記第１音声素片と前記第２音声素片とで振幅が近付くように前記第１音声素片および前記第２音声素片の振幅を調整する振幅調整手段を具備し、
前記相関算定手段は、前記振幅調整手段による調整後の前記第１音声素片と前記第２音声素片とについて相互相関関数を算定する
請求項１から請求項４の何れかの音声合成装置。