JP5935545B2

JP5935545B2 - 音声合成装置

Info

Publication number: JP5935545B2
Application number: JP2012148192A
Authority: JP
Inventors: 慶二郎才野; 劔持　秀紀; 秀紀劔持
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-07-29
Filing date: 2012-07-02
Publication date: 2016-06-15
Anticipated expiration: 2032-07-02
Also published as: JP2013050705A

Description

本発明は、音声素片を利用して発話音や歌唱音等の音声を合成する技術に関する。

複数の音声素片を相互に連結することで所望の音声を合成する素片接続型の音声合成装置が従来から提案されている。例えば特許文献１には、複数の音素区間で構成される音声素片のうち母音の音素区間を部分的に利用することで合成音の明瞭度（口の開き具合）を制御する技術が開示されている。

図１０は、音声素片Ｖ［ｋ−ａ］の波形図である。音声素片Ｖは、子音の音素/ｋ/に対応する音素区間Ｓ1と母音の音素/ａ/に対応する音素区間Ｓ2とに区分される。音素区間Ｓ2は、音素/ａ/の波形が定常的に維持される定常区間ＥBと、音素区間Ｓ1の音素/ｋ/が音素/ａ/の定常的な波形に遷移する遷移区間ＥAとに区分される。特許文献１の技術では、遷移区間ＥA内の任意の時点（以下「境界時点」という）ＴBが利用者からの指示に応じて設定され、音声素片Ｖのうち境界時点ＴB以前の区間にその区間の最後のフレームを反復的に連結することで所望の時間長の音声信号が生成される。以上の構成によれば、境界時点ＴBを遷移区間ＥAの始点の近傍に設定することで、発声者が口を充分に開かずに発生した音声を合成することが可能である。

特許第４２６５５０１号公報

ところで、音素/ａ/の音声素片Ｖのうち音素区間Ｓ2の遷移区間ＥA内の前方のフレームには直前の音素区間Ｓ1の音素/ｋ/の影響が残存する。したがって、遷移区間ＥAの始点の近傍に境界時点ＴBを設定した場合には、音素/ｋ/の影響を含むフレームが合成音にて反復され、聴感的に不自然な音声となる可能性がある。以上の事情を考慮して、本発明は、フレームを反復する場合でも聴感的に自然な合成音を生成することを目的とする。

以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。

本発明の音声合成装置は、相異なる音素に対応する第１音素区間（例えば音素区間Ｓ1）と第１音素区間の後方の第２音素区間（例えば音素区間Ｓ2）とを含む音声素片を順次に選択する素片選択手段（例えば素片選択部３４）と、素片選択手段が選択した音声素片の第２音素区間のうち第１音素区間の音素から当該第２音素区間の音素に遷移する遷移区間（例えば遷移区間ＥA）内で当該音声素片の第１音素区間の音素の種別に応じた時点を限界時点（例えば限界時点ＴA）として設定する限界設定手段（例えば限界設定部４２）と、第２音素区間のうち限界時点の後方に位置する可変の時点を境界時点（例えば境界時点ＴB）として設定する境界設定手段（例えば境界設定部４４）と、音声素片を区分した複数のフレームのうち境界時点に対応するフレームを反復した区間（例えば単位データ群Ｚ2）を、音声素片のうち境界時点の前方の区間（例えば単位データ群Ｚ1）に後続させて音声信号を生成する合成処理手段（例えば合成処理部４６）とを具備する。以上の構成では、遷移区間内に設定された限界時点の後方に境界時点が設定される。すなわち、遷移区間のうち第１音素区間の音素の影響が過度に残存する時点は境界時点として設定されない。したがって、境界時点に対応するフレームを反復して音声信号を生成する構成にも関わらず、聴感的に自然な印象の合成音を生成できるという利点がある。また、遷移区間のうち第１音素区間の音素の影響が過度に残存する区間は第１音素区間の音素の種別に応じて相違するという傾向がある。以上の態様の音声合成装置では、遷移区間内の限界時点の位置が第１音素区間の音素の種別に応じて可変に設定されるから、第１音素区間の音素の種別に応じた適切な位置を限界時点として設定できるという利点がある。

本発明の好適な態様において、限界設定手段は、遷移区間のうち第１音素区間の音素の種別に応じて設定された割合（例えば割合Ｒ）の時間だけ、当該遷移区間の始点から後方または当該遷移区間の終点から前方の時点を、限界時点として設定する。以上の態様では、遷移区間のうち第１音素区間の音素の種別に応じて設定された割合の時間だけ、当該遷移区間の始点から後方または終点から前方の時点が限界時点として設定されるから、各音声素片における遷移区間の時間長の長短に関わらず適切な限界時点を設定できるという利点がある。なお、以上の態様の具体例は、例えば第１実施形態として後述される。

本発明の好適な態様において、限界設定手段は、第１音素区間の音素の種別に応じて設定された時間（例えば時間τ）だけ、遷移区間の始点から後方または当該遷移区間の終点から前方の時点を、限界時点として設定する。以上の態様では、遷移区間のうち第１音素区間の音素の種別に応じて設定された割合の時間だけ、当該遷移区間の始点から後方または終点から前方の時点が限界時点として設定されるから、各音声素片における遷移区間内の限界時点を簡易に設定できるという利点がある。なお、以上の態様の具体例は、例えば第２実施形態として後述される。

本発明の好適な態様の音声合成装置は、遷移区間内の複数のフレームの各々について当該フレームを反復した場合の音声の自然性の指標値（例えば指標値Ｋ）を算定する指標算定手段（例えば指標算定部４８）を具備し、限界設定手段は、各フレームの指標値に応じて限界時点を設定する。以上の態様では、遷移区間内の各フレームの指標値に応じて限界時点が設定されるから、音声素片の特性に応じた適切な限界時点を設定できるという利点がある。なお、以上の態様の具体例は、例えば第３実施形態として後述される。

具体的には、指標算定手段は、遷移区間内の各フレームの音量に応じた第１指標値（例えば指標値Ｋ1）と、遷移区間内の各フレームの非調和成分の強度に応じた第２指標値（例えば指標値Ｋ2）とを指標値として算定し、限界設定手段は、遷移区間のうち、第１指標値が示す音量が所定値を上回り、かつ、第２指標値が示す非調和成分の強度が所定値を下回る時点を限界時点として設定する。以上の態様によれば、例えば第１音素区間の音素が無声子音（例えば破裂音や破擦音や摩擦音）である場合に、遷移区間内の適切な位置に限界時点を設定できるという利点がある。

以上の各態様に係る音声合成装置は、音声合成に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）で実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラム（例えばプログラムＰGM）は、相異なる音素に対応する第１音素区間と第１音素区間の後方の第２音素区間とを含む音声素片を順次に選択する素片選択処理と、素片選択処理で選択した音声素片の第２音素区間のうち第１音素区間の音素から当該第２音素区間の音素に遷移する遷移区間内で当該音声素片の第１音素区間の音素の種別に応じた時点を限界時点として設定する限界設定処理と、第２音素区間のうち限界時点の後方に位置する可変の時点を境界時点として設定する境界設定処理と、音声素片を区分した複数のフレームのうち境界時点に対応するフレームを反復した区間を、音声素片のうち境界時点の前方の区間に後続させて音声信号を生成する合成処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

本発明の第１実施形態に係る音声合成装置のブロック図である。記憶装置に格納された素片群の模式図である。音素の分類の説明図である。音声素片の波形と単位データとの関係の説明図である。編集画面の模式図である。音声合成部のブロック図である。第２実施形態における音声素片の波形と単位データとの関係の説明図である。第３実施形態における音声合成部のブロック図である。指標値の説明図である。背景技術の説明図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。音声合成装置１００は、発話音や歌唱音等の音声を素片接続型の音声合成処理で生成する信号処理装置であり、図１に示すように、演算処理装置１２と記憶装置１４と表示装置２２と入力装置２４と放音装置２６とを具備するコンピュータシステムで実現される。

演算処理装置１２（ＣＰＵ）は、記憶装置１４に格納されたプログラムＰGMの実行で、合成音の波形を表す音声信号ＶOUTを生成するための複数の機能（表示制御部３２，素片選択部３４，音声合成部３６）を実現する。なお、演算処理装置１２の各機能を複数の集積回路に分散した構成や、専用の電子回路（ＤＳＰ）が一部の機能を実現する構成も採用され得る。

表示装置２２（例えば液晶表示装置）は、演算処理装置１２から指示された画像を表示する。入力装置２４は、利用者からの指示を受付ける機器（例えばマウスやキーボード）である。放音装置２６（例えばヘッドホンやスピーカ）は、演算処理装置１２が生成した音声信号ＶOUTに応じた音波を放射する。

記憶装置１４は、演算処理装置１２が実行するプログラムＰGMや演算処理装置１２が使用する各種のデータ（素片群ＱA，合成情報ＱB，限界情報ＱC）を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４として採用される。

記憶装置１４に格納される素片群ＱAは、図２に示すように、相異なる音声素片Ｖに対応する複数の素片データＤの集合（音声合成ライブラリ）である。第１実施形態における１個の音声素片Ｖは、相異なる音素に対応する２個の音素区間Ｓ（Ｓ1，Ｓ2）を連結したダイフォン（音素連鎖）である。音素区間Ｓ2は音素区間Ｓ1の後方に位置する。なお、以下では便宜的に無音を子音の音素として説明する。

図２に示すように、各素片データＤは、分類情報ＤAと区間情報ＤBと複数の単位データＵの時系列とを含んで構成される。複数の単位データＵの各々は、音声素片Ｖ（音素区間Ｓ1および音素区間Ｓ2）を時間軸上で区分した各フレームの音声の周波数スペクトルを指定する。なお、各単位データＵの形式は任意である。例えば、周波数スペクトルを直接に表現するデータ（周波数毎の強度の系列）のほか、周波数スペクトルから抽出された複数種の特徴量を指定するデータ（周波数スペクトルを近似的に再現可能なデータ）が単位データＵとして利用される。

分類情報ＤAは、音声素片Ｖを構成する各音素の分類を指定する。例えば図３に示すように、母音（/ａ/，/ｉ/，/ｕ/），破裂音（/ｔ/，/ｋ/，/ｐ/），破擦音（/ｔｓ/），鼻音（/ｍ/，/ｎ/），流音（/ｒ/），摩擦音（/ｓ/，/ｆ/），半母音（/ｗ/，/ｙ/），無音（/Ｓｉｌ/）等の分類が、音声素片Ｖの音素区間Ｓ1および音素区間Ｓ2の各々について分類情報ＤAで指定される。

図３に示すように、各音素は、複数の種別Ｃ（Ｃ1〜Ｃ3）に区分される。具体的には、子音の音素は、有声性の高低に応じて各種別Ｃに区分される。例えば日本語の音素の場合、半母音（/ｗ/，/ｙ/）や鼻音（/ｍ/，/ｎ/）や流音（/ｒ/）等の調和成分が豊富な音素、または、有声摩擦音（/ｚ/）や有声破裂音（/ｄ/）等の非調和成分が豊富な音素のように、有声性が高い子音（例えば有声子音）は種別Ｃ1に分類され、破裂音（/ｔ/，/ｋ/，/ｐ/）や破擦音（/ｔｓ/）や摩擦音（/ｓ/，/ｆ/）等の無声子音のように有声性が低い子音は種別Ｃ2に分類される。無音（/Ｓｉｌ/）は種別Ｃ3に分類される。また、母音（/ａ/，/ｉ/，/ｕ/）は種別Ｃ2に分類される。

図４は、１個の音声素片Ｖの波形図である。図４では、音素/ｋ/の音素区間Ｓ1に音素/ａ/の音素区間Ｓ2が後続する音声素片Ｖ［ｋ−ａ］の波形が例示されている。図４の音素境界ＧAは、音素区間Ｓ1と音素区間Ｓ2との境界を意味する。母音の音素区間Ｓ2は、状態境界ＧBを挟んで遷移区間ＥAと定常区間ＥBとに区分される。記憶装置１４に記憶された素片データＤの区間情報ＤBは、音声素片Ｖ内の音素境界ＧAと状態境界ＧBとを指定する。

図４の定常区間ＥBは、音素区間Ｓ2に対応する音素/ａ/の波形が定常的に維持される区間である。遷移区間ＥAは、区間情報ＤBで指定される音素境界ＧAから状態境界ＧBまでの区間（音素区間Ｓ1と定常区間ＥBとの間の区間）であり、音素区間Ｓ1の音素/ｋ/から音素区間Ｓ2の音素に波形が遷移する区間である。具体的には、発声者の口の形状が、音素区間Ｓ1の音素/ｋ/に対応する形状から音素境界ＧAで変化し始め、遷移区間ＥAの始点から終点にかけて音素区間Ｓ2の音素/ａ/に対応する形状に経時的に変化し、状態境界ＧBにて音素/ａ/に対応する形状に到達して以後は定常に維持される。すなわち、遷移区間ＥA内では、音素区間Ｓ1の音素/ｋ/の影響が経時的に減少するとともに音素区間Ｓ2の音素/ａ/の影響が経時的に増加して定常状態に到達する。以上の説明から理解されるように、遷移区間ＥAのうち先頭（音素境界ＧA）の近傍の区間には直前の音素区間Ｓ1の音素/ｋ/の影響が残存する。

記憶装置１４に記憶される合成情報（スコアデータ）ＱBは、図１に示すように、合成音の発音文字Ｘ1と発音期間Ｘ2と音高（ピッチ）Ｘ3と明瞭度Ｘ4とを時系列に指定する。発音文字Ｘ1は、例えば歌唱音を合成する場合の歌詞の文字列である。明瞭度Ｘ4は、合成音が聴感的に明確と知覚される程度を意味する変数であり、０以上かつ１以下の範囲内で設定される。発声者が発声時に口を大きく開くほど発声音は聴感的に明瞭と知覚される。したがって、明瞭度Ｘ4は、合成音の仮想的な発声者の口の開き具合を示す変数とも表現され得る。

図１の演算処理装置１２の表示制御部３２は、合成情報ＱBの生成および編集のために利用者が視認する図５の編集画面５０を表示装置２２に表示させる。編集画面５０は、第１領域５１と第２領域５２とに区分される。第１領域５１には、時間軸（横軸）と音高軸（縦軸）とが設定され、入力装置２４に対する利用者からの指示に応じて音指示子５４が配置される。各音指示子５４の音高軸上の位置に応じて合成情報ＱBの音高Ｘ3が設定され、時間軸上の位置およびサイズに応じて発音期間Ｘ2が設定される。また、利用者が各音指示子５４に指定した文字が合成情報ＱBの発音文字Ｘ1として設定される。

第２領域５２には、第１領域５１と共通の時間軸のもとで明瞭度Ｘ4の時系列が表示（棒グラフ表示）される。利用者は、入力装置２４を適宜に操作することで任意の音指示子５４の明瞭度Ｘ4を調整する。合成情報ＱB内の明瞭度Ｘ4は第２領域５２に対する指示に応じて設定される。

図１の素片選択部３４は、合成情報ＱBが時系列に指定する各発音文字Ｘ1に対応した音声素片Ｖを素片群ＱAから順次に選択する。音声合成部３６は、素片選択部３４が順次に選択する音声素片Ｖの素片データＤを利用して音声信号ＶOUTを生成する。概略的には、音声合成部３６は、合成情報ＱBの発音期間Ｘ2に応じて素片データＤを伸縮し、伸縮後の各単位データＵが示す周波数スペクトルを時間波形に変換したうえで合成情報ＱBの音高Ｘ3に調整して相互に連結することで音声信号ＶOUTを生成する。

図６は、音声合成部３６のブロック図である。図６に示すように、第１実施形態の音声合成部３６は、限界設定部４２と境界設定部４４と合成処理部４６とを含んで構成される。限界設定部４２は、素片選択部３４が選択した音声素片Ｖの音素区間Ｓ2が母音や摩擦音や鼻音等の時間的に持続可能な音素に該当する場合に、図４に示すように、音声素片Ｖの音素区間Ｓ2のうち区間情報ＤBが示す音素境界ＧA（遷移区間ＥAの始点）から区間情報ＤBが示す状態境界ＧB（遷移区間ＥAの終点）までの途中の時点を限界時点ＴAとして設定する。限界時点ＴAは、遷移区間ＥAのうち直前の音素区間Ｓ1の音素の影響が充分に低下すると推定される時点である。

図６の境界設定部４４は、図４に示すように、素片選択部３４が選択した音声素片Ｖの音素区間Ｓ2内の遷移区間ＥAのうち限界設定部４２が設定した限界時点ＴAから区間情報ＤBが示す状態境界ＧBまでの区間内に境界時点ＴBを設定する。境界時点ＴBの時間軸上の位置は合成情報ＱBの明瞭度Ｘ4に応じて可変に設定される。具体的には、明瞭度Ｘ4が最小値０である場合には限界時点ＴAが境界時点ＴBとして設定され、明瞭度Ｘ4が大きいほど限界時点ＴAから後方に離れた時点（状態境界ＧBに近い時点）が境界時点ＴBとして設定され、明瞭度Ｘ4が最大値１である場合には、区間情報ＤBが示す状態境界ＧBが境界時点ＴBとして設定される。音声素片Ｖのうち境界設定部４４が設定した境界時点ＴBの前方の区間（音素区間Ｓ1の始点から境界時点ＴBまでの区間）Ｗを以下では「適用区間」と表記する。

図６の合成処理部４６は、素片選択部３４が選択した音声素片Ｖの適用区間Ｗを利用して音声信号ＶOUTを生成する。具体的には、合成処理部４６は、図４に示すように、素片データＤのうち適用区間Ｗ内の単位データＵで構成される単位データ群Ｚ1に、適用区間Ｗ内の最後に位置する１個の単位データＵ（図４の斜線部）を反復して配置した単位データ群Ｚ2を連結する。単位データ群Ｚ2を構成する単位データＵの個数は、単位データ群Ｚ1と単位データ群Ｚ2との合計長が発音期間Ｘ2に応じた目標長となるように可変に設定される。

合成処理部４６は、単位データ群Ｚ1および単位データ群Ｚ2の各単位データＵが示す周波数スペクトルを時間波形に変換するとともに合成情報ＱBが指定する音高Ｘ3に調整し、相前後するフレームで相互に連結することで音声信号ＶOUTを生成する。なお、明瞭度Ｘ4が最大値１に設定され、かつ、発音期間Ｘ2に応じた目標長が所定値（例えば音声素片Ｖの時間長）を下回る場合、合成処理部４６は、素片データＤの単位データＵ（定常区間ＥBの単位データＵ）を後方から除去して目標長に調整することで音声信号ＶOUTを生成する（すなわち、単位データ群Ｚ2の付加は実行しない）。

以上のように、音素区間Ｓ2のうち音素の波形が定常状態となる定常区間ＥB以前（すなわち発声者の口が完全に開く以前）の遷移区間ＥA内で明瞭度Ｘ4に応じた位置に境界時点ＴBが設定されるから、発声者が口を充分に開かずに発声したような合成音を生成することが可能である。

前述のように、遷移区間ＥA内の前方の区間には直前の音素区間Ｓ1の音素の影響が残存するから、遷移区間ＥA内の極端に前方の位置に境界時点ＴBが設定されると、音素区間Ｓ1の音素の影響を含む単位データＵが単位データ群Ｚ2にて反復され、合成音が不自然な音声となる可能性がある。第１実施形態では、境界時点ＴBの位置が、音素境界ＧAの後方に位置する限界時点ＴA以降に制約されるから、音素区間Ｓ2のうち音素区間Ｓ1内の音素の影響が充分に低減された単位データＵが単位データ群Ｚ2として反復される。したがって、音素区間Ｓ1内の音素の影響を低減した聴感的に自然な音声を合成できるという利点がある。

ところで、音素区間Ｓ2内の複数の単位データＵのうち単位データ群Ｚ2として反復させた場合でも合成音が聴感的に不自然な音声とならない最先の単位データＵの位置（すなわち、音素区間Ｓ2内で音素区間Ｓ1の音素の影響が充分に低減される最初の単位データＵの位置）は、音素区間Ｓ1の音素の種別Ｃに応じて相違するという傾向がある。例えば、音素区間Ｓ1の音素が、有声性が高い半母音等の音素の種別Ｃ1に属する場合、音素区間Ｓ2のうち音素境界ＧAの近傍の単位データＵを反復させたとしても合成音はそれほど不自然な音声にはならない。他方、音素区間Ｓ1の音素が、非調和成分（雑音成分）が豊富で振幅が小さい破裂音等の音素の種別Ｃ2に属する場合、音素区間Ｓ2のうち音素境界ＧAの近傍の単位データＵを反復させると、音素区間Ｓ1の音素に由来する合成音の不自然さが顕著に知覚される。以上の傾向を考慮して、第１実施形態では、音素区間Ｓ2内の遷移区間ＥAに対する限界時点ＴAの位置を直前の音素区間Ｓ1の音素の種別Ｃに応じて変化させる。

図１に示すように、記憶装置１４には、限界時点ＴAの位置を規定する限界情報ＱCが記憶される。第１実施形態の限界情報ＱCは、区間情報ＤBが示す音素境界ＧA（遷移区間ＥAの始点）から限界時点ＴAまでの時間長が遷移区間ＥAの全体の時間に占める割合Ｒ（Ｒ1〜Ｒ3）を音素の種別Ｃ（Ｃ1〜Ｃ3）毎に指定する。割合Ｒ1〜Ｒ3は０以上１以下の範囲内の数値である。限界設定部４２は、素片選択部３４が選択した音声素片Ｖのうち音素区間Ｓ2の遷移区間ＥA内で限界情報ＱCに応じた時点を限界時点ＴAとして設定する。

具体的には、音声素片Ｖの音素区間Ｓ1が種別Ｃ1の音素（有声性が高い子音）に該当する場合、限界設定部４２は、限界情報ＱCが種別Ｃ1について指定する割合Ｒ1に応じて限界時点ＴAを設定する。すなわち、限界設定部４２は、図４に示すように、区間情報ＤBが指定する音素境界ＧAから遷移区間ＥAのＲ1倍の時間（Ｒ1×ＥA）だけ後方の時点を限界時点ＴAとして設定する。同様に、音素区間Ｓ1が種別Ｃ2の音素（無声子音または母音）に該当する場合、限界設定部４２は、音素境界ＧAから遷移区間ＥAのＲ2倍の時間（Ｒ2×ＥA）だけ後方の時点を限界時点ＴAとして設定する。また、音素区間Ｓ1が種別Ｃ3の音素（無音）に該当する場合、限界設定部４２は、音素境界ＧAから遷移区間ＥAのＲ3倍の時間（Ｒ3×ＥA）だけ後方の時点を限界時点ＴAとして設定する。なお、音素区間Ｓ1の種別情報Ｃは、素片データＤの分類情報ＤAから特定される。

音素区間Ｓ2内の複数の単位データＵのうち、その反復により生成された合成音が音素区間Ｓ1の音素に影響された不自然な音声とならない最先の単位データＵの位置を指定するように、限界情報ＱCの各割合Ｒは音素区間Ｓ1の音素の種別Ｃ毎に実験的または統計的に選定される。すなわち、音素区間Ｓ2内の複数の単位データＵのうち音素区間Ｓ1の音素の影響が充分に低減される最先の単位データＵの位置を指定するように種別Ｃ毎の割合Ｒが選定される。

例えば、音素区間Ｓ1の音素が種別Ｃ1に属する場合には音素区間Ｓ2内の音素境界ＧAの近傍の単位データＵを反復させても合成音はそれほど不自然にならないが、音素区間Ｓ1の音素が種別Ｃ2に属する場合に音素区間Ｓ2の音素境界ＧAの近傍の単位データＵを反復させると音素区間Ｓ1の音素に由来する合成音の不自然さが顕在化するという傾向を考慮すると、割合Ｒ1は割合Ｒ2を下回る数値に設定される。したがって、音素区間Ｓ2の遷移区間ＥAの時間長が共通する場合、音素区間Ｓ1の音素が種別Ｃ2に属する場合の限界時点ＴAは、音素区間Ｓ1の音素が種別Ｃ1に属する場合の限界時点ＴAよりも時間的に遅い時点となる。また、種別Ｃ2に対応する割合Ｒ2は、種別Ｃ3（無音）に対応する割合Ｒ3を下回る数値に設定される。具体的には、割合Ｒ1は０.２（２０％）程度に設定され、割合Ｒ2は０.３９（３９％）程度に設定され、割合Ｒ3は０.５（５０％）程度に設定される。

音素区間Ｓ1の音素に由来する合成音の不自然さを抑制するために、全部の音素について、音素境界ＧAから充分に後方の時点を限界時点ＴAとして選定した場合、合成音の明瞭度（口の開き具合）を充分に低下させることができない。すなわち、合成音の明瞭度の変化幅を充分に確保できない。他方、合成音の明瞭度を充分に低下させるために、全部の音素について、音素境界ＧAの近傍の時点を限界時点ＴAとして選定した場合、音素区間Ｓ1の音素に起因して合成音が不自然な音声となる。第１実施形態では、音素区間Ｓ2内の遷移区間ＥAに対する限界時点ＴAの位置が直前の音素区間Ｓ1の音素の種別Ｃに応じて設定されるから、合成音の明瞭度の変化幅を充分に確保すること（明瞭度を充分に低下させること）と音素区間Ｓ1の音素に起因した合成音の不自然さを低減することとを両立できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第１実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態の限界情報ＱC（割合Ｒ）は、遷移区間ＥAに対する限界時点ＴAの相対的な位置を規定する。他方、第２実施形態の限界情報ＱCは、遷移区間ＥAの始点から限界時点ＴAまでの時間τ（τ1〜τ3）を指定する。例えば、種別Ｃ1に対応する時間τ1は種別Ｃ2に対応する時間τ2を下回る時間に設定され、種別Ｃ2に対応する時間τ2は種別Ｃ3に対応する時間τ3以下の時間に設定される。時間τは、例えばフレーム数で規定される。例えば、時間τ1はフレームの２個分程度の時間に設定され、時間τ2および時間τ3はフレームの５個分程度の時間に設定される。

図７に示すように、音声素片Ｖの音素区間Ｓ1が種別Ｃ1の音素（有声子音）に該当する場合、限界設定部４２は、区間情報ＤBが指定する音素境界ＧA（遷移区間ＥA）から、限界情報ＱCが種別Ｃ1について指定する時間τ1だけ後方の時点を限界時点ＴAとして設定する。同様に、音素区間Ｓ1が種別Ｃ2の音素（無声子音または母音）に該当する場合には音素境界ＧAから時間τ2だけ後方の時点が限界時点ＴAとして設定され、音素区間Ｓ1が種別Ｃ3の音素（無音）に該当する場合には音素境界ＧAから時間τ3だけ後方の時点が限界時点ＴAとして設定される。

第２実施形態においても第１実施形態と同様の効果が実現される。なお、第２実施形態の限界情報ＱCは、音素境界ＧAから限界時点ＴAまでの絶対的な時間τを指定するから、遷移区間ＥA内での限界時点ＴAの位置が適切か否かは遷移区間ＥAの時間長に依存する。すなわち、遷移区間ＥAの時間長によっては限界時点ＴAが適切な位置でない可能性もある。他方、第１実施形態では、遷移区間ＥAに対する限界時点ＴAの相対的な位置が限界情報ＱCで指定されるから、遷移区間ＥAの時間長に関わらず、限界時点ＴAを種別Ｃ毎の適切な位置に設定できるという利点がある。もっとも、遷移区間ＥAの時間長が各種別Ｃ内の音声素片Ｖの間で略同等となるように音声素片Ｖが収録されることを前提とすれば、第１実施形態によれば、限界時点ＴAを簡易かつ安定的に設定できるという利点がある。

＜第３実施形態＞
第１実施形態および第２実施形態では、記憶装置１４に事前に記憶された限界情報ＱCを利用して限界設定部４２が遷移区間ＥA内に限界時点ＴAを設定した。第３実施形態では、音声素片Ｖの音響特性を解析した結果を利用して限界設定部４２が限界時点ＴAを設定する。

図８は、第３実施形態における音声合成部３６のブロック図である。図８に示すように、第３実施形態の音声合成部３６は、第１実施形態の音声合成部３６に指標算定部４８を追加した構成である。指標算定部４８は、素片選択部３４が選択した音声素片Ｖの音素区間Ｓ2のうち遷移区間ＥA内の複数のフレームの各々について、そのフレームの１個の単位データＵを反復することで生成される合成音の聴感的な自然性の尺度となる指標値Ｋを算定する。

１個の単位データＵを反復した場合に合成音が聴感的に不自然な音声となる典型的なフレームは、有声音と比較して音量が小さいフレームや、調和成分（基音成分および各倍音成分）に対する非調和成分の強度が高いフレームである。具体的には、破裂音や破擦音等の音素の音素区間Ｓ1の直後に位置する遷移区間ＥA内の前方のフレームの単位データＵを反復した場合に合成音は聴感的に不自然な音声となる。以上の傾向を考慮して、指標算定部４８は、各フレームの音量に関する指標値Ｋ1と、各フレームの非調和成分の強度に関する指標値Ｋ2とを、素片選択部３４が選択した音声素片Ｖの遷移区間ＥA内のフレーム毎に指標値Ｋとして算定する。

各フレームの指標値Ｋ1は、例えば、所定の音量Ａ0に対するそのフレームの音量Ａの比（Ｋ1＝Ａ／Ａ0）として算定される。所定の音量Ａ0は、例えば遷移区間ＥA内の最後のフレームの音量（遷移区間ＥA内の最大値である可能性が高い）である。したがって、遷移区間ＥA内で音量Ａが大きいフレーム（すなわち、単位データＵを反復した合成音が聴感的に自然な音声となる可能性が高いフレーム）ほど、指標値Ｋ1は大きい数値となる。

各フレームの指標値Ｋ2は、そのフレームの音声成分から非調和成分を低減または除去した場合の平均パワーＰSに対するそのフレームの平均パワーＰの比（Ｋ2＝Ｐ／ＰS）として算定される。図９には、遷移区間ＥA内の１個のフレームの単位データＵで指定された周波数スペクトルＳP1が図示されている。周波数スペクトルＳP1は、各調波周波数Ｆn（基本周波数および各倍音周波数）にて強度がピークとなる調和成分に加えて各調波周波数の間に存在する非調和成分を含んで構成される。

図９には、周波数スペクトルＳP1から非調和成分を除去した周波数スペクトルＳP2（斜線部）が併記されている。周波数スペクトルＳP2は、周波数スペクトルＳP1の各調波周波数Ｆnに所定の調波成分Ｈを配置し、各調波成分Ｈの強度を周波数スペクトルＳP1の包絡線ＥNVに合致するように調整したスペクトルである。指標算定部４８は、周波数スペクトルＳP2の平均パワーＰSに対する周波数スペクトルＳP1の平均パワーＰの比を指標値Ｋ2としてフレーム毎に算定する。したがって、調和成分に対する非調和成分の強度が低いフレーム（すなわち、単位データＵを反復した合成音が聴感的に自然な音声となる可能性が高いフレーム）ほど、指標値Ｋ2は小さい数値となる。

第３実施形態の限界設定部４２は、遷移区間ＥA内の各フレームの指標値Ｋ（Ｋ1，Ｋ2）に応じて限界時点ＴAを設定する。すなわち、限界設定部４２は、遷移区間ＥA内の複数のフレームのうち指標値Ｋが示す合成音の自然性が目標値を上回る最先のフレームの時点を限界時点ＴAとして設定する。

具体的には、指標算定部４８は、遷移区間ＥAの先頭から順次にフレームを選択してそのフレームの指標値Ｋ1と指標値Ｋ2とを算定し、限界設定部４２は、指標値Ｋ1が所定の閾値Ｋth1を上回るか否か（すなわち音量が目標値を上回るか否か）および指標値Ｋ2が所定の閾値Ｋth2を下回るか否か（すなわち調和成分に対する非調和成分の強度が目標値を下回るか否か）を判定する。限界設定部４２は、指標値Ｋ1の判定と指標値Ｋ2の判定との双方の結果が肯定となる最先のフレームの時点を限界時点ＴAとして設定する。すなわち、調和成分に対する非調和成分の強度が充分に低くて音量が大きい時点（単位データＵの反復で生成される合成音が聴感的に自然な音声となる時点）が限界時点ＴAとして設定される。したがって、第３実施形態においても結果的には、第１実施形態や第２実施形態と同様に、音素区間Ｓ1の音素の種別Ｃに応じた時点が限界時点ＴAとして設定される。例えば、音素区間Ｓ1の音素が種別Ｃ2に属する場合の限界時点ＴAは、音素区間Ｓ1の音素が種別Ｃ1に属する場合の限界時点ＴAよりも時間的に遅い時点となる。境界設定部４４や合成処理部４６の動作は第１実施形態と同様である。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、遷移区間ＥA内のフレーム毎に算定された指標値Ｋ（Ｋ1，Ｋ2）に応じて限界時点ＴAが設定されるから、限界時点ＴAを規定する限界情報ＱCが事前に用意された第１実施形態や第２実施形態と比較して、素片データＤの特性に応じた適切な限界時点ＴAを設定できるという利点がある。

＜変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。

（１）限界時点ＴAを指定する限界情報ＱCを各素片データＤに含ませることで限界時点ＴAを音声素片Ｖ毎に指定することも可能である。音声素片Ｖ毎の適切な限界時点ＴAは、例えば音声素片Ｖの音響を聴取するともに音声素片Ｖの波形を視認しながら例えば素片群ＱAの作成者が手動で指定する。第１実施形態で例示した割合Ｒや第２実施形態で例示した時間τが限界情報ＱCとして好適である。

（２）第１実施形態では、音素境界ＧAから限界時点ＴAまでの時間が遷移区間ＥAに占める割合Ｒを限界情報ＱCが指定したが、区間情報ＤBが示す状態境界ＧB（遷移区間ＥAの終点）から前方の限界時点ＴAまでの時間が遷移区間ＥAに占める割合Ｒを限界情報ＱCが種別Ｃ毎に指定する構成も採用される。限界設定部４２は、遷移区間ＥAのうち音素区間Ｓ1の音素の種別Ｃについて限界情報ＱCが指定する割合Ｒの時間だけ状態境界ＧBから前方（手前）の時点を限界時点ＴAとして設定する。同様に、第２実施形態では、状態境界ＧBから前方の限界時点ＴAまでの時間τを限界情報ＱCが種別Ｃ毎に指定する構成も採用される。限界設定部４２は、音素区間Ｓ1の音素の種別Ｃについて限界情報ＱCが指定する時間τだけ状態境界ＧBから前方の時点を限界時点ＴAとして設定する。

（３）前述の各形態では単位データＵの反復で伸長音（母音の定常的な伸ばし音）が生成されるから、各音声素片Ｖの音素区間Ｓ2のうち定常区間ＥBを省略することも可能である。定常区間ＥBを省略した構成によれば、素片群ＱAのデータ量を削減できるという利点がある。ただし、単位データＵの反復で生成される伸長音は実際に収録された伸長音と比較して不自然な音声となる場合があるから、定常区間ＥBを含むように音声素片Ｖの素片データＤを生成し、発音期間Ｘ2が短い場合には定常区間ＥBを含む音声素片Ｖをそのまま合成音の生成に使用する前述の各形態の構成が好適である。以上の例示から理解されるように、遷移区間ＥAは、音声素片Ｖのうち音素区間Ｓ2の一部（定常区間ＥB以外）または全部の区間を意味する。

（４）各音素の種別Ｃは適宜に変更される。例えば、相前後する母音の音素の間に無音区間が介在するように音声素片Ｖが生成（収録）された場合に母音を種別Ｃ1に分類すると、無音区間が過度に伸長されて不自然な合成音となり得ることを考慮して、前述の各形態では母音を種別Ｃ2に分類した。しかし、無音区間の伸長が発生しない場合（例えば相前後する母音の音素の間に無音区間が存在しない場合）や特段の問題とならない場合には、母音の音素を種別Ｃ1に分類することも可能である。

（５）前述の各形態のように単位データＵの反復のみで生成された合成音は人工的で不自然な音声と知覚される可能性がある。そこで、実際の発声音から抽出された変動成分（伸長音のうち時間的に微細に変動する揺れ成分）を、単位データＵの時系列から生成された音声に付加する構成も好適である。

（６）第３実施形態における指標値Ｋは適宜に変更される。例えば、音量の指標値Ｋ1および非調和成分の指標値Ｋ2の一方のみを利用して限界時点ＴAを設定する構成や、指標値Ｋ1および指標値Ｋ2以外の指標値Ｋを利用して限界時点ＴAを設定する構成も採用され得る。また、指標値Ｋ1や指標値Ｋ2の算定方法も適宜に変更される。例えば、前述の例示では、音量が大きいほど指標値Ｋ1が大きい数値となり、非調和成分の強度が低いほど指標値Ｋ2が小さい数値となる場合を例示したが、音量が大きいほど指標値Ｋ1が小さい数値となり、非調和成分の強度が低いほど指標値Ｋ2が大きい数値となるように指標値Ｋ1および指標値Ｋ2を算定することも可能である。

（７）第３実施形態は、音声素片Ｖの限界時点ＴAを設定する音声処理装置としても実現され得る。音声処理装置は、音声素片Ｖの遷移区間ＥA内の複数のフレームの各々について当該フレームを反復した場合の音声の自然性の指標値Ｋ（Ｋ1，Ｋ2）を算定する指標算定部４８と、指標算定部４８が算定した各フレームの指標値Ｋに応じて遷移区間ＥA内の限界時点ＴAを設定する限界設定部４２とを具備する。

（８）前述の各形態では、素片群ＱAを記憶する記憶装置１４が音声合成装置１００に搭載された構成を例示したが、音声合成装置１００とは独立した外部装置（例えばサーバ装置）が素片群ＱAを保持する構成も採用される。音声合成装置１００（素片選択部３４）は、例えば通信網を介して外部装置から音声素片Ｖ（素片データＤ）を取得して音声信号ＶOUTを生成する。同様に、音声合成装置１００から独立した外部装置に合成情報ＱBを保持することも可能である。以上の説明から理解されるように、素片データＤや合成情報ＱBを記憶する要素（前述の各形態における記憶装置１４）は音声合成装置１００の必須の要素ではない。

１００……音声合成装置、１２……演算処理装置、１４……記憶装置、２２……表示装置、２４……入力装置、２６……放音装置、３２……表示制御部、３４……素片選択部、３６……音声合成部、４２……限界設定部、４４……境界設定部、４６……合成処理部、４８……指標算定部。

Claims

相異なる音素に対応する第１音素区間と前記第１音素区間の後方の第２音素区間とを含む音声素片を順次に選択する素片選択手段と、
前記素片選択手段が選択した音声素片の第２音素区間のうち前記第１音素区間の音素から当該第２音素区間の音素に遷移する遷移区間内で当該音声素片の前記第１音素区間の音素の種別に応じた時点を限界時点として設定する限界設定手段と、
前記第２音素区間のうち前記限界時点の後方に位置する可変の時点を境界時点として設定する境界設定手段と、
前記音声素片を区分した複数のフレームのうち前記境界時点に対応するフレームを反復した区間を、前記音声素片のうち前記境界時点の前方の区間に後続させて音声信号を生成する合成処理手段と
を具備する音声合成装置。
前記限界設定手段は、前記遷移区間のうち前記第１音素区間の音素の種別に応じて設定された割合の時間だけ、当該遷移区間の始点から後方または当該遷移区間の終点から前方の時点を、限界時点として設定する
請求項１の音声合成装置。
前記限界設定手段は、前記第１音素区間の音素の種別に応じて設定された時間だけ、前記遷移区間の始点から後方または当該遷移区間の終点から前方の時点を、限界時点として設定する
請求項１の音声合成装置。
前記遷移区間内の複数のフレームの各々について当該フレームを反復した場合の音声の自然性の指標値を算定する指標算定手段を具備し、
前記限界設定手段は、前記各フレームの指標値に応じて前記限界時点を設定する
請求項１の音声合成装置。
前記指標算定手段は、前記遷移区間内の各フレームの音量に応じた第１指標値と、前記遷移区間内の各フレームの非調和成分の強度に応じた第２指標値とを前記指標値として算定し、
前記限界設定手段は、前記遷移区間のうち、前記第１指標値が示す音量が所定値を上回り、かつ、前記第２指標値が示す非調和成分の強度が所定値を下回る時点を前記限界時点として設定する
請求項４の音声合成装置。