JP5914996B2

JP5914996B2 - 音声合成装置およびプログラム

Info

Publication number: JP5914996B2
Application number: JP2011127123A
Authority: JP
Inventors: 慶二郎才野
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-06-07
Filing date: 2011-06-07
Publication date: 2016-05-11
Anticipated expiration: 2031-06-07
Also published as: JP2012252303A

Description

本発明は、複数の音声素片の連結で発話音や歌唱音等の音声を合成する技術に関する。

複数の音声素片を相互に連結することで所望の音声を合成する素片接続型の音声合成技術が従来から提案されている。例えば特許文献１には、利用者が指定した発音期間の時間長に応じて各音声素片（韻律小素片）を時間軸方向に伸縮して相互に連結することで所望の継続長の音声を合成する技術が開示されている。

特開２００３−１０８１７６号公報

しかし、特許文献１の技術では、発音速度（単位時間あたりの音素数）が高い合成音を生成するために各音声素片を時間軸方向に過度に収縮した場合に、実際に人間が発音時に口を変形させ得る速度を上回る速度で発音されたような不自然な音声が合成される可能性がある。また、人間が実際に早口で発音する場合には１個の音素の明瞭な発音が完了する以前に直後の音素の発音が開始される（すなわち音素の一部が省略される）という傾向がある。しかし、特許文献１の技術では、音声素片を収縮した場合でも各音素は始点から終点までの全体にわたり発音されるから、合成音は聴覚的に不自然な音声となる。例えば、１個の音素の発音を短い周期で反復する場合（例えば「わわわわ……」と発音する場合）、実際には各回の発音で口が完全に開く以前に次の発音が開始するが、特許文献１の技術では発音毎に口を完全に開いたような不自然な音声が生成される。以上の事情を考慮して、本発明は、発音速度が高い自然な音声を合成することを目的とする。

以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。

本発明の音声合成装置は、相異なる音素に対応する複数の音素区間（例えば音素区間Ｓ）を含む音声素片を順次に選択する素片選択手段（例えば素片選択部２２）と、素片選択手段が選択した音声素片の各音素区間について合成時間長（例えば合成時間長Ｔ）を可変に設定する音素長設定手段（例えば音素長設定部２４）と、素片選択手段が選択した音声素片の各音素区間のうち音素長設定手段が設定した合成時間長の対象区間（例えば対象区間Ｗ）の音声波形を相互に連結して音声信号を生成する音声合成手段（例えば音声合成部２６）とを具備する。以上の構成では、各音声素片の音素区間のうち音素長設定手段が設定した合成時間長にわたる対象区間の音声波形を相互に連結して音声信号が生成される。音声素片を伸縮して音声信号の合成に適用する構成と比較して自然な音声を合成することが可能である。また、音声素片の音素区間毎に対象区間が選定されるから、音声素片の全体として音声信号の生成に適用される区間を選定する構成と比較すると、例えば各音素のなかで重要な区間（例えば受聴者が音素を識別するうえで重要な区間）を音素区間毎に個別に対象区間として選定して自然な音声を合成できるという利点がある。

本発明の好適な態様において、音声素片の先頭に位置するとともに声道の閉鎖後の一時的な変形により発音される第１種別の音素に対応する音素区間（例えば第１種別Ｃ1の音素に対応する音素区間Ｓ1）は、第１種別の音素が発音される過程（例えば後方部ｐB）を含み、音声素片の末尾に位置するとともに第１種別の音素に対応する音素区間（例えば第１種別Ｃ1の音素に対応する音素区間Ｓ2）は、第１種別の音素が発音される直前の準備過程（例えば前方部ｐAの準備過程ｐA2）を含み、音声合成手段は、音声素片の先頭の音素区間が第１種別の音素に対応する場合に、その音素区間のうち始点から後方の合成時間長にわたる区間を対象区間として選定し（例えば図９の部分(A)）、音声素片の末尾の音素区間が第１種別の音素に対応する場合に、その音素区間のうち始点から後方の合成時間長にわたる区間を対象区間として選定する（例えば図９の部分(C)）。以上の態様では、第１種別の音素が発音される過程のうち前方側の区間が対象区間に優先的に包含され、第１種別の音素の準備過程のうち前方の区間（直前の音素の影響が顕著となる区間）が対象区間に優先的に包含される。したがって、第１種別の音素のうち例えば受聴者がその音素を認識するうえで重要な箇所を維持しながら音声信号を生成できるという利点がある。第１種別の音素は、典型的には発音が時間的に持続され難い音素である。例えば破裂音や破擦音等の音素が第１種別に区分される。

本発明の好適な態様において、音声素片の先頭に位置するとともに第１種別とは相違する第２種別の音素に対応する音素区間（例えば第２種別Ｃ2の音素に対応する音素区間Ｓ1）は、当該第２種別の音素が後続の音素に変化する過程（例えば後方部ｑB）を含み、音声素片の末尾に位置するとともに第２種別の音素に対応する音素区間（例えば第２種別Ｃ2の音素に対応する音素区間Ｓ2）は、直前の音素が当該第２種別の音素に変化する過程（例えば前方部ｑA）を含み、音声合成手段は、音声素片の先頭の音素区間が第２種別の音素に対応する場合に、その音素区間のうち終点から前方の合成時間長にわたる区間を対象区間として選定し、音声素片の末尾の音素区間が第２種別の音素に対応する場合に、その音素区間のうち始点から後方の合成時間長にわたる区間を対象区間として選定する。以上の態様では、第２種別の音素が後続の音素に変化する過程のうち後方側の区間が対象区間に優先的に包含され、直前の音素が第２種別の音素に変化する過程のうち前方側の区間が対象区間に優先的に包含される。したがって、第２種別の音素のうち例えば受聴者がその音素の前後の遷移を認識するうえで重要な箇所を維持しながら音声信号を生成できるという利点がある。なお、第２種別の音素は、典型的には発音が持続され得る音素である。例えば、声道の形状が定常的に維持された状態で発音される母音，半母音および摩擦音等の音素や、口腔の一部や鼻腔を介した通気により発音を維持したまま声道を部分的に閉鎖した準備状態から声道を一時的かつ急速に変形させることで発音される流音や鼻音等の音素が第２種別に区分される。

以上の各態様に係る音声合成装置は、音声合成に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）で実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラム（例えばプログラムＰGM）は、コンピュータを、相異なる音素に対応する複数の音素区間を含む音声素片を順次に選択する素片選択手段、素片選択手段が選択した音声素片の各音素区間について合成時間長を可変に設定する音素長設定手段、および、素片選択手段が選択した音声素片の各音素区間のうち音素長設定手段が設定した合成時間長の対象区間の音声波形を相互に連結して音声信号を生成する音声合成手段として機能させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

本発明の第１実施形態に係る音声合成装置のブロック図である。記憶装置に格納された素片群の模式図である。音声素片の模式図である。音素分類および音素種別の関係を示す図表である。第１種別の音素の説明図である。第２種別の音素の説明図である。音声素片の選択および合成時間長の設定の説明図である。対象区間の単位データを抽出する処理のフローチャートである。対象区間を選定する動作の説明図である。音声素片を連結する動作の具体例の説明図である。

図１は、本発明のひとつの実施形態に係る音声合成装置１００のブロック図である。音声合成装置１００は、発話音や歌唱音等の音声を素片接続型の音声合成処理で生成する信号処理装置であり、図１に示すように、演算処理装置１２と記憶装置１４と放音装置１６とを具備するコンピュータシステムで実現される。

演算処理装置１２（ＣＰＵ）は、記憶装置１４に格納されたプログラムＰGMの実行で、合成音の波形を表す音声信号ＶOUTを生成するための複数の機能（素片選択部２２，音素長設定部２４，音声合成部２６）を実現する。なお、演算処理装置１２の各機能を複数の集積回路に分散した構成や、専用の電子回路（ＤＳＰ）が一部の機能を実現する構成も採用され得る。放音装置１６（例えばヘッドホンやスピーカ）は、演算処理装置１２が生成した音声信号ＶOUTに応じた音波を放射する。記憶装置１４は、演算処理装置１２が実行するプログラムＰGMや演算処理装置１２が使用する各種のデータ（素片群ＧA，合成情報ＧB）を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４として採用される。

記憶装置１４に格納される素片群ＧAは、図２に示すように、複数の音声素片Ｖの各々に対応する音声素片データＤAおよび音素分類データＤBの集合（音声合成ライブラリ）である。図３に示すように、１個の音声素片Ｖは、相異なる音素に対応する２個の音素区間Ｓ（Ｓ1，Ｓ2）を連結したダイフォン（音素連鎖）である。音素区間Ｓ1は、音声素片Ｖの始点を含む時間長Ｌ1の区間であり、音素区間Ｓ2は、音声素片Ｖの終点を含む時間長Ｌ2の区間である。音素区間Ｓ2は音素区間Ｓ1に後続する。音素区間Ｓ1の時間長Ｌ1や音素区間Ｓ2の時間長Ｌ2は音声素片Ｖ毎に個別に決定される。なお、以下では便宜的に、無音を１個の音素として説明する。

図２の音声素片データＤAは、音声素片Ｖの時間波形を指定するデータである。図２に示すように、１個の音声素片Ｖに対応する音声素片データＤAは、その音声素片Ｖ（音素区間Ｓ1および音素区間Ｓ2）を時間軸上で区分した各フレームに対応する複数の単位データＵの時系列で構成される。各単位データＵは、１個のフレーム内の音声のスペクトルを規定する。例えば音声のスペクトルの形状の特徴を示す複数の変数（励起波形エンベロープ，胸部レゾナンス，声道レゾナンス，差分スペクトル）を含むＥｐＲ（Excitation plus Resonance）パラメータが単位データＵとして好適である。なお、ＥｐＲパラメータについては例えば特許第３７１１８８０号公報に開示されている。また、周波数毎の強度（すなわちスペクトル）を示すスペクトルデータを単位データＵとして採用することも可能である。図２に示すように、音声素片Ｖのうち音素区間Ｓ1に対応する複数の単位データＵの時系列を音素区間データＱ1と表記し、音声素片Ｖのうち音素区間Ｓ2に対応する複数の単位データＵの時系列を音素区間データＱ2と表記する。

図２の音素分類データＤBは、音声素片Ｖのうち音素区間Ｓ1および音素区間Ｓ2の各々に対応する音素の分類を指定する。音素分類データＤBが示す音素分類は、音素の調音方法に応じた分類である。例えば、日本語の音素を想定すると、図４に示すように、母音（/ａ/，/ｉ/，/ｕ/），半母音（/ｗ/），摩擦音（/ｓ/，/ｆ/），流音（/ｒ/），鼻音（/ｍ/，/ｎ/），破裂音（/ｔ/，/ｋ/，/ｐ/），破擦音（/ｔｓ/）等の音素分類を音素分類データＤBは指定する。ただし、音声素片Ｖが示す音声の言語は日本語に限定されない。

図４に示すように、各音素分類に属する音素は、調音方法に応じて第１種別Ｃ1と第２種別Ｃ2とに区分される。第１種別Ｃ1の音素は、発音が時間的に持続され難い音素であり、典型的には、声道が完全に閉鎖された初期的な準備状態から声道を一時的かつ急速に変形させることで発音される。具体的には、音素分類データＤBが示す複数の音素分類のうち、破裂音および破擦音等が第１種別Ｃ1に区分される。他方、第２種別Ｃ2の音素は、発音が持続され得る音素である。具体的には、音素分類データＤBが示す複数の音素分類のうち、声道の形状が定常的に維持された状態で発音される母音，半母音および摩擦音等の音素と、口腔の一部や鼻腔を介した通気により発音を維持したまま声道を部分的に閉鎖した準備状態から声道を一時的かつ急速に変形させることで発音される流音や鼻音等の音素とが、第２種別Ｃ2に区分される。

１個の音声素片Ｖの音素区間Ｓ1および音素区間Ｓ2の各々は、第１種別Ｃ1および第２種別Ｃ2の何れかの音素に対応する。例えば図５の部分(A)には、音素区間Ｓ1が第１種別Ｃ1の音素（破裂音/ｔ/）に対応する音声素片Ｖが例示され、図５の部分(B)には、音素区間Ｓ2が第１種別Ｃ1の音素に対応する音声素片Ｖが例示されている。なお、図５の部分(A)の音素区間Ｓ2および図５の部分(B)の音素区間Ｓ1の音素は任意である。また、図６の部分(A)には、音素区間Ｓ1が第２種別Ｃ2の音素（母音/ａ/）に対応する音声素片Ｖが例示され、図６の部分(B)には、音素区間Ｓ2が第２種別Ｃ2の音素に対応する音声素片Ｖが例示されている。図６の部分(A)の音素区間Ｓ2および図６の部分(B)の音素区間Ｓ1の音素は任意である。なお、図５および図６では、音声素片Ｖの各音素の波形の一例が便宜的に図示されているが、実際の各音素の波形は前後の音素に応じて多様に変化する。

図５の部分(C)に示すように、第１種別Ｃ1の音素（例えば破裂音/ｔ/）は、時間軸上で前方部ｐAと後方部ｐBとに区分される。前方部ｐAは、その音素の直前に発音された他の音素が減衰していく余韻過程ｐA1と、実際に音素（破裂音/ｔ/）が発音される直前の準備過程ｐA2とを含む。準備過程ｐA2は、音素の発音が可能な状態に声道を準備する過程（例えば声道を舌で閉鎖または収縮する過程）である。なお、余韻過程ｐA1が存在しない場合もある。他方、後方部ｐBは、準備過程ｐA2から声道を一時的かつ急速に変形させることで音素が実際に発音される過程（例えば準備過程ｐA2で声道の上流側に圧縮された空気を一気に解放する過程）である。

図５の部分(A)に示すように、音声素片Ｖのうち第１種別Ｃ1の音素に対応する音素区間Ｓ1は、その音素の後方部ｐBを含む。他方、図５の部分(B)に示すように、音声素片Ｖのうち第１種別Ｃ1の音素に対応する音素区間Ｓ2は、その音素の前方部ｐAを含む。すなわち、図５の部分(B)に例示された音声素片Ｖの末尾側の音素区間Ｓ2に図５の部分(A)の音素区間Ｓ1を後続させることで第１種別Ｃ1の音素（破裂音/ｔ/）が再現される。

他方、図６の部分(C)に示すように、第２種別Ｃ2の音素（例えば母音/ａ/）は、前方部ｑAと後方部ｑBとを含む。前方部ｑAは、直前の他の音素からその音素に変化していく過程（例えば口を開けていく過程）であり、後方部ｑBは、その音素が後続の他の音素に変化していく過程（例えば口を閉じていく過程）である。なお、第２種別Ｃ2の音素のうち流音/ｒ/や鼻音/ｍ/等の音素については、声道が部分的に閉鎖された準備状態から声道を一時的かつ急速に変形させる過程（例えば舌先で上顎を弾く過程）が前方部ｑAの始点側に含まれる。

図６の部分(A)に示すように、音声素片Ｖのうち第２種別Ｃ2の音素に対応する音素区間Ｓ1は、その音素の後方部ｑBを含む。他方、図６の部分(B)に示すように、音声素片Ｖのうち第２種別Ｃ2の音素に対応する音素区間Ｓ2は、その音素の前方部ｑAを含む。特定の発声者による発声音から以上の条件を満たすように各音声素片Ｖが抽出されて各音素区間Ｓが画定されたうえで音声素片Ｖ毎の音声素片データＤA（音素区間データＱ1および音素区間データＱ2）が作成される。

図１に示すように、記憶装置１４には、合成音を時系列に指定する合成情報（スコアデータ）ＧBが記憶される。合成情報ＧBは、合成音の発音文字Ｘ1と発音期間Ｘ2とピッチＸ3とを例えば音符毎に時系列に指定する。発音文字Ｘ1は、例えば歌唱音を合成する場合の歌詞の文字列であり、発音期間Ｘ2は、例えば発音の開始時刻と継続長とで指定される。合成情報ＧBは、例えば各種の入力機器に対する利用者からの指示に応じて生成されて記憶装置１４に格納される。なお、他の通信端末から通信網を介して受信された合成情報ＧBや可搬型の記録媒体から転送された合成情報ＧBを音声信号ＶOUTの生成に使用することも可能である。

図１の素片選択部２２は、合成情報ＧBが時系列に指定する各発音文字Ｘ1に対応する音声素片Ｖを素片群ＧAから順次に選択する。例えば図７に示すように、「go straight」という発音文字Ｘ1が指定された場合、素片選択部２２は、［Sil-gh］，［gh-@U］，［@U-s］，［s-t］，［t-r］，［r-eI］，［eI-t］，［t-Sil］という音声素片Ｖを選択する。なお、各音素の記号は、SAMPA（Speech Assessment Methods Phonetic Alphabet）に準拠している。なお、記号「Sil」は無音（Silence）を意味する。

図１の音素長設定部２４は、素片選択部２２が順次に選択する音声素片Ｖの各音素区間Ｓ（Ｓ1，Ｓ2）について、音声信号ＶOUTの合成に適用される場合の時間長（以下「合成時間長」という）Ｔを可変に設定する。各音素区間Ｓの合成時間長Ｔは、合成情報ＧBが時系列に指定する発音期間Ｘ2に応じて選定される。具体的には、音素長設定部２４は、図７に示すように、発音文字Ｘ1を構成する主要な母音の音素（図７の斜体字の音素）の始点がその発音文字Ｘ1の発音期間Ｘ2の始点に合致し、かつ、相前後する音素区間Ｓが時間軸上に隙間なく配列するように、各音素区間Ｓの合成時間長Ｔ（Ｔ(Sil)，Ｔ(gh)，Ｔ(@U)，……）を設定する。

図１の音声合成部２６は、素片選択部２２が順次に選択する音声素片Ｖを相互に連結することで音声信号ＶOUTを生成する。具体的には、音声合成部２６は、素片選択部２２が選択した音声素片Ｖの各音素区間Ｓ（Ｓ1，Ｓ2）の音素区間データＱ（Ｑ1，Ｑ2）から、その音素区間Ｓについて音素長設定部２４が設定した合成時間長Ｔにわたる単位データＵの時系列を生成し、各単位データＵが示すスペクトルを時間波形に変換したうえで相互に連結するとともに合成情報ＧBのピッチＸ3に調整することで音声信号ＶOUTを生成する。

例えば、各音素区間Ｓについて設定された合成時間長Ｔがその音素区間Ｓの初期的な時間長Ｌ（Ｌ1，Ｌ2）と比較して長い場合（すなわち音声素片Ｖの収録時と比較して発音速度を低下させる場合）、その音素区間Ｓに対応する音素区間データＱが合成時間長Ｔに伸長されたうえで音声信号ＶOUTの生成に適用される。音素区間データＱの伸長には公知の方法（例えば合成時間長Ｔ内の各時点の単位データＵを周囲の単位データＵから補間する方法）が任意に採用される。

他方、各音素区間Ｓについて設定された合成時間長Ｔがその音素区間Ｓの初期的な時間長Ｌ（Ｌ1，Ｌ2）と比較して短い場合（すなわち音声素片Ｖの収録時と比較して発音速度を上昇させる場合）、素片選択部２２が選択した音声素片Ｖの各音素区間Ｓ（Ｓ1，Ｓ2）のうち音素長設定部２４がその音素区間Ｓに設定した合成時間長Ｔの区間（以下「対象区間」という）Ｗについて音声素片データＤAが示す音声を相互に連結することで音声信号ＶOUTが生成される。具体的には、音声合成部２６は、各音素区間Ｓの音素区間データＱ（Ｑ1，Ｑ2）から合成時間長Ｔにわたる対象区間Ｗ内の単位データＵの時系列を抽出し、各単位データＵから特定される時間波形を相互に連結することで音声信号ＶOUTを生成する。すなわち、音素区間データＱのうち合成時間長Ｔにわたる対象区間Ｗ内の単位データＵの時系列が内容や順番が変更されることなく抽出されて音声信号ＶOUTの生成に利用される。

図８は、発音速度を上昇させる場合に音声合成部２６が音素区間データＱから対象区間Ｗ内の単位データＵを抽出する動作のフローチャートである。図８の処理は、音素長設定部２４により設定された合成時間長Ｔが初期的な時間長Ｌ（Ｌ1，Ｌ2）を下回る音素区間Ｓ毎に順次に実行される。

図８の処理を開始すると、音声合成部２６は、処理対象となる１個の音素区間（以下「注目音素区間」という）Ｓが音声素片Ｖの先頭側の音素区間Ｓ1に該当するか否かを判定する（ＳA1）。処理ＳA1の判定結果が肯定である場合、音声合成部２６は、注目音素区間Ｓの音素が第１種別Ｃ1に属するか否かを判定する（ＳA2）。具体的には、注目音素区間Ｓに対応する音素分類データＤBで指定される音素分類が、第１種別Ｃ1に属する所定の分類（破裂音，破擦音等）に該当するか否かに応じて、音声合成部２６は処理ＳA2の判定を実行する。

図５の部分(A)を参照して説明した通り、音声素片Ｖのうち第１種別Ｃ1の音素に対応する音素区間Ｓ1にはその音素の後方部ｐBが含まれる。第１種別Ｃ1の音素の後方部ｐBのうち音素の発音が実際に発音される時点を含む前方の区間は、その音素の特徴が受聴者に顕著に認識される区間（すなわち受聴者が音素を識別するうえで重要な区間）である。そこで、注目音素区間Ｓが音声素片Ｖの先頭の音素区間Ｓ1であり（ＳA1：YES）、かつ、第１種別Ｃ1の音素に対応する場合（ＳA2：YES）、音声合成部２６は、図９の部分(A)に示すように、注目音素区間Ｓ（後方部ｐB）のうちの前方の区間を優先的に対象区間Ｗとして選定する（ＳA3）。具体的には、注目音素区間Ｓの始点を起点として後方の合成時間長Ｔにわたる区間が対象区間Ｗとして選定される。

また、図６の部分(A)を参照して説明した通り、音声素片Ｖのうち第２種別Ｃ2の音素に対応する音素区間Ｓ1にはその音素の後方部ｑBが含まれる。第２種別Ｃ2の音素の後方部ｑBのうち直後の音素の影響が顕著となる後方の区間は、受聴者が音素の遷移を知覚するうえで特に重要な区間である。そこで、注目音素区間Ｓが音声素片Ｖの先頭の音素区間Ｓ1であり（ＳA1：YES）、かつ、第２種別Ｃ2の音素に対応する場合（ＳA2：NO）、音声合成部２６は、図９の部分(B)に示すように、注目音素区間Ｓ（後方部ｑB）のうちの後方の区間を優先的に対象区間Ｗとして選定する（ＳA4）。具体的には、注目音素区間Ｓの終点を起点として前方（手前側）の合計時間長Ｔにわたる区間が対象区間Ｗとして選定される。

他方、注目音素区間Ｓが音声素片Ｖの末尾の音素区間Ｓ2に該当する場合（ＳA1：NO）、音声合成部２６は、以下に詳述する通り、注目音素区間Ｓの音素種別（Ｃ1，Ｃ2）に関わらず、その注目音素区間Ｓのうちの前方の区間を優先的に対象区間Ｗとして選定する（ＳA3）。

図５の部分(B)を参照して説明した通り、音声素片Ｖのうち第１種別Ｃ1の音素に対応する音素区間Ｓ2にはその音素の前方部ｐAが含まれる。第１種別Ｃ1の音素の前方部ｐAのうち後方に位置する準備過程ｐA2は、大部分が無音であり、受聴者による音素の識別には殆ど影響しない。そこで、注目音素区間Ｓが音声素片Ｖの末尾の音素区間Ｓ2であり（ＳA1：NO）、かつ、第１種別Ｃ1の音素に対応する場合、音声合成部２６は、図９の部分(C)に示すように、注目音素区間Ｓ（前方部ｐA）のうち始点を起点として後方の合成時間長Ｔにわたる区間を対象区間Ｗとして選定する（ＳA3）。すなわち、第１種別Ｃ1の音素のうち直前の音素の影響が顕著となる余韻過程ｐA1は優先的に対象区間Ｗに包含される。

また、図６の部分(B)を参照して説明した通り、音声素片Ｖのうち第２種別Ｃ2の音素に対応する音素区間Ｓ2にはその音素の前方部ｑAが含まれる。第２種別Ｃ2の音素のうち母音や半母音や摩擦音等の音素の前方部ｑAのなかでは、直前の音素の影響が顕著となる前方の区間が、音素の遷移を聴覚的に識別するうえで特に重要である。また、第２種別Ｃ2の音素のうち流音や鼻音等の音素の前方部ｑAのなかでは、準備状態から声道が変形する過程を含む前方の区間が聴覚的な識別のうえで特に重要である。以上の傾向を考慮して、注目音素区間Ｓが音声素片Ｖの末尾の音素区間Ｓ2であり（ＳA1：NO）、かつ、第２種別Ｃ2の音素に対応する場合、音声合成部２６は、図９の部分(D)に示すように、注目音素区間Ｓ（前方部ｑA）のうち始点を起点として後方の合成時間長Ｔにわたる区間を対象区間Ｗとして選定する（ＳA3）。

以上の手順で注目音素区間Ｓの対象区間Ｗを選定すると、音声合成部２６は、注目音素区間Ｓの音素区間データＱ（Ｑ1，Ｑ2）から対象区間Ｗ内の単位データＵの時系列を抽出する（ＳA5）。前述の通り、処理ＳA5で抽出された各単位データＵが音声信号ＶOUTの生成に適用される。他方、注目音素区間Ｓの音素区間データＱのうち対象区間Ｗの外側の各単位データＵは、音声信号ＶOUTの生成に使用されることなく破棄される。

図１０は、図９の処理で音素区間Ｓの対象区間Ｗ毎に抽出された単位データＵから音声信号ＶOUTを生成する動作の説明図である。「saka」という発音文字Ｘ1に対応する３個の音声素片Ｖ（［s-a］，［a-k］，［k-a］）を素片選択部２２が選択した場合が図１０では例示されている。

図１０に示すように、第１番目の音声素片Ｖ［s-a］のうち第２種別Ｃ2の音素/ａ/に対応する末尾の音素区間Ｓ2については（ＳA1：NO）、その音素区間Ｓ2の始点を含む合成時間長Ｔ(a1)の対象区間Ｗが選定される（ＳA3）。また、第２番目の音声素片Ｖ［a-k］のうち第２種別Ｃ2の音素/ａ/に対応する先頭の音素区間Ｓ1（ＳA1：YES，ＳA2：NO）についてはその音素区間Ｓ1の終点を含む合成時間長Ｔ(a2)の対象区間Ｗが選定され（ＳA4）、音声素片Ｖ[a-k]のうち第１種別Ｃ1の音素/ｋ/に対応する末尾の音素区間Ｓ2（ＳA1：NO）については、その音素区間Ｓ2の始点を含む合成時間長Ｔ(k1)の対象区間Ｗが選定される（ＳA3）。第３番目の音声素片Ｖ［k-a］のうち第１種別Ｃ1の音素/ｋ/に対応する先頭の音素区間Ｓ1（ＳA1：YES，ＳA2：YES）については、その音素区間Ｓ1の始点を含む合成時間長Ｔ(k2)の対象区間Ｗが選定される（ＳA3）。以上のように選定された対象区間Ｗ内の各単位データＵが時間軸上で相互に直接的に連結されることで音声信号ＶOUTが生成される。

以上に説明したように、本実施形態では、音素区間Ｓの音素区間データＱのうち対象区間Ｗ内の単位データが抽出されて音声信号ＶOUTの生成に利用され、対象区間Ｗ以外の単位データは音声信号ＶOUTの生成に利用されずに削除される。音声信号ＶOUTの生成に利用される各単位データＵの内容や配列は抽出元の音素区間データＱの単位データＵと同様であるから、本実施形態によれば、合成情報ＧBで高い発音速度が指定された場合でも自然な音声を合成することが可能である。具体的には、実際の発音時に人間が口を変形させ得る速度を上回る速度で発音されたような音声や、発音速度が高いにも関わらず発音毎に口を完全に開いたような音声が生成される可能性を低減して、自然な音声を合成することができる。

また、本実施形態では、音声素片Ｖの音素区間Ｓ毎に対象区間Ｗが選定されるから、例えば音声素片Ｖの全体のうち例えば始点から後方の所定長にわたる区間を合成に適用する構成や、音声素片Ｖの全体のうち例えば終点から前方の所定長にわたる区間を合成に適用する構成と比較すると、各音素のなかで重要な区間（例えば受聴者が音素を識別するうえで重要な区間）を音素区間Ｓ毎に個別に選定して自然な音声を合成できるという利点がある。

例えば本実施形態では、音声素片Ｖの先頭に位置するとともに第１種別Ｃ1の音素に対応する音素区間Ｓ1（後方部ｐB）については、図９の部分(A)のように、その音素が実際に発音される時点を含む先頭側の区間が対象区間Ｗとして選定される。他方、音声素片Ｖの末尾に位置するとともに第１種別Ｃ1の音素に対応する音素区間Ｓ2（前方部ｐA）については、図９の部分(C)のように、準備過程ｐA2の部分的な削除で対象区間Ｗが選定される。したがって、第１種別Ｃ1の音素のうち受聴者がその音素を認識するうえで重要な箇所を維持しながら各音声素片Ｖを短縮できるという利点がある。

第２種別Ｃ2の音素についても同様であり、音素区間Ｓ1（後方部ｑB）については図９の部分(B)のように末尾側の区間が対象区間Ｗとして選定され、音素区間Ｓ2（前方部ｑA）については図９の部分(D)のように先頭側の区間が対象区間Ｗとして選定される。したがって、第２種別Ｃ2の音素のうち受聴者がその音素を認識するうえで重要な箇所を維持しながら各音声素片Ｖを短縮できるという利点がある。

＜変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。

（１）前述の実施形態では、注目音素区間Ｓが音素区間Ｓ1に該当するか否かの判定（ＳA1）と、注目音素区間Ｓが第１種別Ｃ1の音素に対応するか否かの判定（ＳA2）との結果に応じて、注目音素区間Ｓにおける対象区間Ｗの位置（先頭側／末尾側）を決定したが、音素区間Ｓの先頭側の区間および末尾側の区間の何れを対象区間Ｗとして選定すべきかを示す情報を音声素片データＤAに付加し、この情報に基づいて対象区間Ｗの位置（先頭側／末尾側）を決定することも可能である。

（２）音声素片データＤAの形式は任意である。例えば、前述の実施形態では、音声素片Ｖの各フレームのスペクトルを示す単位データＵの時系列を音声素片データＤAとして使用したが、例えば音声素片Ｖの時間軸上のサンプル系列を音声素片データＤAとして使用することも可能である。音声素片Ｖのサンプル系列を音声素片データＤAとした場合、音声素片データＤAのうち対象区間Ｗ内の各サンプルが音声信号ＶOUTの生成に適用され、残余のサンプルは破棄される。

（３）各音素区間Ｓの合成時間長Ｔを設定する方法は適宜に変更される。例えば、合成時間長Ｔの設定に適用する伸縮率（伸縮前の各音素区間Ｓの時間長Ｌに対する倍率）を母音の音素と子音の音素とで相違させることも可能である。例えば、母音の音素の伸縮率が子音の音素の伸縮率よりも高い数値に設定される。また、第１種別Ｃ1の音素のうち前方部ｐAに対応する音素区間Ｓ2と後方部ｐBに対応する音素区間Ｓ1とで伸縮率を相違させた構成も好適である。具体的には、前方部ｐAに対応する音素区間Ｓ2の伸縮率が後方部ｐBに対応する音素区間Ｓ1の伸縮率よりも高い数値（より大きく伸縮させる数値）に設定される。

（４）以上の説明ではダイフォンを例示したが、音声素片を構成する音素（音素区間Ｓ）の個数は任意である。例えば３個の音素区間Ｓを含むトライフォンを音声素片として利用する構成でも、前述の実施形態と同様に、素片選択部２２が選択した音声素片の３個の音素区間Ｓの各々について、音素の種別（Ｃ1／Ｃ2）に応じた位置に対象区間Ｗを選定することが可能である。なお、２個のダイフォンを連結して１個のトライフォンを構成する場合（例えば２個のダイフォン［ａ-ｓ］および［ｓ-ｅ］の連結で１個のトライフォン［ａ-ｓ-ｅ］を形成する場合）、前方のダイフォンの２個の音素区間Ｓと後方のダイフォンの２個の音素区間Ｓとの合計４個の音素区間Ｓが１個のトライフォンに含まれる。

１００……音声合成装置、１２……演算処理装置、１４……記憶装置、１６……放音装置、２２……素片選択部、２４……音素長設定部、２６……音声合成部。

Claims

相異なる音素に対応する複数の音素区間を含む音声素片を順次に選択する素片選択手段と、
前記素片選択手段が選択した音声素片の各音素区間について合成時間長を可変に設定する音素長設定手段と、
前記素片選択手段が選択した音声素片の各音素区間のうち前記音素長設定手段が設定した合成時間長の対象区間の音声波形を相互に連結して音声信号を生成する音声合成手段とを具備し、
音声素片の先頭に位置するとともに声道の閉鎖後の一時的な変形により発音される第１種別の音素に対応する音素区間は、前記第１種別の音素が発音される過程を含み、音声素片の末尾に位置するとともに前記第１種別の音素に対応する音素区間は、当該音素の直前の音素が減衰する余韻過程と、当該余韻過程に後続する過程であって前記第１種別の音素が発音される直前の準備過程とを含み、
前記音声合成手段は、音声素片の先頭の音素区間が前記第１種別の音素に対応する場合に、その音素区間のうち始点から後方の前記合成時間長にわたる区間を前記対象区間として選定し、音声素片の末尾の音素区間が前記第１種別の音素に対応する場合に、その音素区間のうち始点から後方の前記合成時間長にわたる区間であって前記余韻過程を含む区間を前記対象区間として選定する
音声合成装置。
コンピュータを、
相異なる音素に対応する複数の音素区間を含む音声素片を順次に選択する素片選択手段、
前記素片選択手段が選択した音声素片の各音素区間について合成時間長を可変に設定する音素長設定手段、および、
前記素片選択手段が選択した音声素片の各音素区間のうち前記音素長設定手段が設定した合成時間長の対象区間の音声波形を相互に連結して音声信号を生成する音声合成手段
として機能させるプログラムであって、
音声素片の先頭に位置するとともに声道の閉鎖後の一時的な変形により発音される第１種別の音素に対応する音素区間は、前記第１種別の音素が発音される過程を含み、音声素片の末尾に位置するとともに前記第１種別の音素に対応する音素区間は、当該音素の直前の音素が減衰する余韻過程と、当該余韻過程に後続する過程であって前記第１種別の音素が発音される直前の準備過程とを含み、
前記音声合成手段は、音声素片の先頭の音素区間が前記第１種別の音素に対応する場合に、その音素区間のうち始点から後方の前記合成時間長にわたる区間を前記対象区間として選定し、音声素片の末尾の音素区間が前記第１種別の音素に対応する場合に、その音素区間のうち始点から後方の前記合成時間長にわたる区間であって前記余韻過程を含む区間を前記対象区間として選定する
プログラム。