JP5782751B2

JP5782751B2 - 音声合成装置

Info

Publication number: JP5782751B2
Application number: JP2011048778A
Authority: JP
Inventors: 嘉山　啓; 啓嘉山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-03-07
Filing date: 2011-03-07
Publication date: 2015-09-24
Anticipated expiration: 2031-03-07
Also published as: JP2012185356A

Description

本発明は、音声素片を利用して音声（発話音や歌唱音）を合成する技術に関する。

音声合成の対象として指定された音響（以下「合成対象音」という）を、事前に採取された複数の音声素片の接続で生成する素片接続型の音声合成が従来から提案されている。音声素片の波形を示す素片データが音声素片毎に事前に採取されたうえで記憶装置に格納され、合成対象音の発音文字（例えば歌詞）に対応する各音声素片の素片データを記憶装置から選択して相互に接続することで合成対象音の音声信号が生成される。

特開２００７−２４０５６４号公報

しかし、素片接続型の音声合成で聴感的に自然な音声信号を合成するには多数の素片データ（例えば音高毎の音声データ）が必要であり、素片データの記憶に大容量の記憶装置が要求されるという問題がある。以上の問題は、記憶容量の制約が大きい携帯機器等に音声合成を実行させる場合に特に深刻化する。以上の事情を考慮して、本発明は、音声合成に必要な素片データの個数を削減することを目的とする。

以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。

本発明の音声合成装置は、音声素片の波形を示す素片データ（例えば素片データＷ）を複数の音声素片の各々について特徴量の数値毎に記憶する素片記憶手段（例えば記憶装置１２）と、合成対象音の各音声素片について特徴量（例えば継続長Ｄや音高Ｐや制御変数Ｘ）を指定する合成情報（例えば合成情報Ｚ）を取得する取得手段（例えば情報生成部２４）と、合成対象音の音声素片毎に素片記憶手段から素片データを選択する手段であって、合成対象音の第１音声素片（例えば音声素片［＃-ｂh］）について、合成情報にて第１音声素片に指定される特徴量が第１値（例えば範囲ＱA内の数値）である場合には、第１音声素片の第１値に対応する素片データ（例えば素片データＷ[#-bh]_n）を選択し、合成情報にて第１音声素片に指定される特徴量が第２値（例えば範囲ＱA外の数値）である場合には、第１音声素片とは相違する第２音声素片（例えば音声素片［＃-ｂ］）の第２値に対応する素片データ（例えば素片データＷ[#-b]_n）を選択する素片選択手段（例えば素片選択部２６）と、素片選択手段が選択した素片データを利用して音声信号（例えば音声信号ＳOUT）を合成する音声合成手段（例えば音声合成部２８）とを具備する。

以上の構成では、第１音声素片に指定される特徴量が第１値である場合には自身の素片データが選択される一方、特徴量が第２値である場合には他の音声素片の素片データが選択されるから、第１音声素片については第２値に対応する素片データを記憶する必要がない。すなわち、音声合成に必要な素片データの個数を削減することが可能である。なお、聴感的に自然な音響を合成するという観点からすると、第１音声素片と第２音声素片とで音響特性が相互に類似する構成が好適である。例えば、発音文字（音節）が相互に共通する２個の音声素片が第１音声素片および第２音声素片として好適である。

本発明の好適な態様において、素片選択手段は、合成情報にて第１音声素片に指定される特徴量が、第１値を含む第１範囲（例えば範囲ＱA）内にある場合には、第１音声素片の素片データを選択し、第１音声素片の特徴量が、第２値を含み第１範囲とは相違する第２範囲（例えば範囲ＱB）内にある場合には第２音声素片の素片データを選択する。

なお、音声素片の継続長が長いほど受聴者が音声素片の相違を聴感的に弁別し易いという傾向がある。したがって、音声素片の継続長を特徴量として指定する構成では、第１値を第２値よりも長い継続長に設定した構成が好適である。以上の態様では、音声素片の継続長が長い場合（第１値）に自身の素片データが選択され、音声素片の継続長が短い場合（第２値）に他の音声素片の素片データが流用される。したがって、音声素片の継続長が長い場合に他の音声素片の素片データを流用する構成と比較して、素片データの流用が受聴者に知覚され難いという利点がある。なお、以上の態様の具体例は例えば第１実施形態として後述される。

また、音声素片の音高が所定の範囲内にある場合に受聴者が音声素片の相違を聴感的に弁別し易いという傾向がある。したがって、音声素片の音高を特徴量として指定する構成では、第１値を含む所定の範囲の高域側の音高を第２値とする構成や、第１値を含む所定の範囲の低域側の音高を第２値とする構成が好適である。以上の態様では、音声素片の音高が所定の範囲内にある場合に自身の素片データが選択され、音声素片の音高がその範囲の高域側または低域側にある場合に他の音声素片の素片データが流用される。したがって、音声素片の音高が所定の範囲内にある場合にも他の音声素片の素片データを流用する構成と比較して、素片データの流用が受聴者に知覚され難いという利点がある。なお、以上の態様の具体例は例えば第２実施形態として後述される。

音声素片の強度（音量やベロシティ）が大きいほど受聴者が音声素片の相違を聴感的に弁別し易いという傾向がある。したがって、音声素片の強度を特徴量として指定する構成では、第１値を第２値よりも大きい強度に設定した構成が好適である。以上の態様では、音声素片の強度が大きい場合（第１値）に自身の素片データが選択され、音声素片の強度が小さい場合（第２値）に他の音声素片の素片データが流用される。したがって、音声素片の強度が高い場合にも他の音声素片の素片データを流用する構成と比較して、素片データの流用が受聴者に知覚され難いという利点がある。なお、以上の態様の具体例は例えば第３実施形態として後述される。

以上の各態様に係る音声合成装置は、音声の合成に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）で実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラムは、音声素片の波形を示す素片データを複数の音声素片の各々について特徴量の数値毎に記憶する素片記憶手段を具備するコンピュータに、合成対象音の各音声素片について特徴量を指定する合成情報を取得する取得処理と、合成対象音の音声素片毎に素片記憶手段から素片データを選択する処理であって、合成対象音の第１音声素片について、合成情報にて第１音声素片に指定される特徴量が第１値である場合には、第１音声素片の第１値に対応する素片データを選択し、合成情報にて第１音声素片に指定される特徴量が第２値である場合には、第１音声素片とは相違する第２音声素片の第２値に対応する素片データを選択する素片選択処理と、素片選択処理で選択した素片データを利用して音声信号を合成する音声合成処理とを実行させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

本発明の第１実施形態に係る音声合成装置のブロック図である。素片群の模式図である。編集画像および音声素片の時系列の模式図である。合成情報の模式図である。素片選択テーブルの模式図である。第２実施形態における素片選択テーブルの模式図である。第３実施形態における素片選択テーブルの模式図である。変形例における素片選択部の動作のフローチャートである。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。音声合成装置１００は、歌唱音や発話音等の合成対象音を素片接続型の音声合成で生成する音響処理装置であり、図１に示すように、演算処理装置１０と記憶装置１２と入力装置１４と表示装置１６と放音装置１８とを具備するコンピュータシステムで実現される。

演算処理装置１０（ＣＰＵ）は、記憶装置１２に格納されたプログラムＰGMの実行で、合成対象音の音声信号ＳOUTを生成するための複数の機能（表示制御部２２，情報生成部２４，素片選択部２６，音声合成部２８）を実現する。音声信号ＳOUTは、合成対象音の波形を表す音響信号である。なお、演算処理装置１０の各機能を複数の集積回路に分散した構成や、専用の電子回路（DSP）が各機能を実現する構成も採用され得る。

入力装置１４は、利用者からの指示を受付ける機器（例えばマウスやキーボード）である。表示装置１６（例えば液晶表示装置）は、演算処理装置１０から指示された画像を表示する。放音装置１８（例えばスピーカやヘッドホン）は、演算処理装置１０が生成する音声信号ＳOUTに応じた音波を放射する。

記憶装置１２は、演算処理装置１０が実行するプログラムＰGMや演算処理装置１０が使用する各種の情報（素片群ＧA，基礎情報ＧB）を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として採用される。

素片群ＧAは、複数の素片データＷの集合（音声合成ライブラリ）である。各素片データＷは、音声素片の時間軸上の波形を示すサンプル系列であり、音声合成の素材として利用される。音声素片は、言語的な意味の最小単位に相当する１個の音素（phoneme）または複数の音素を連結した音素連鎖（例えばダイフォンやトライフォン）である。なお、以下では便宜的に、無音を１個の音素（記号＃）として説明する。

図２に示すように、１個の音声素片について複数の素片データＷが記憶装置１２に格納される。１個の音声素片に対応する複数の素片データＷの各々は、始点から終点までの時間長（以下「継続長」という）が相違する。例えば無音［＃］から音素［ｂ］への遷移に相当する音声素片［＃-ｂ］（音素連鎖）については、継続長が相違するＮ個（Ｎは自然数）の素片データＷ[#-b]_1〜Ｗ[#-b]_Nが記憶装置１２に記憶される。

記憶装置１２に格納された基礎情報ＧBは、合成対象音（例えば歌唱曲の各音符）を時系列に指定する情報であり、図１に示すように、音高情報ＧB1と発音情報ＧB2と制御情報ＧB3とを含んで構成される。音高情報ＧB1は、合成対象音毎に音高（ノートナンバ）と発音時刻と継続長とを指定する。発音情報ＧB2は、合成対象音毎に発音文字（例えば歌詞の音節）を指定する。制御情報ＧB3は、合成対象音の特性を示す制御変数（例えば音楽的な表情を示す合成パラメータ）の経時的な変化を指定する。第１実施形態では音量（dynamics）を制御変数として例示する。図１の情報生成部２４は、入力装置１４に対する利用者からの指示に応じて基礎情報ＧBを生成および編集する。

表示制御部２２は、基礎情報ＧBの生成および編集のために利用者が視認する図３の部分(A)の編集画面４０を表示装置１６に表示させる。図３の部分(A)に示すように、編集画面４０は、相互に交差する時間軸（横軸）と音高軸（縦軸）とが設定された画像（五線紙型またはピアノロール型の画像）である。表示制御部２２は、入力装置１４に対する利用者からの指示に応じて各合成対象音の音符画像４２を編集画面４０に配置する。

利用者は、各音符画像４２の位置やサイズを入力装置１４に対する操作で適宜に変更する。情報生成部２４は、音高情報ＧB1が指定する音高を音符画像４２の音高軸上の位置に応じて設定し、音高情報ＧB1が指定する発音時刻を音符画像４２の時間軸上の位置に応じて設定し、音高情報ＧB1が指定する継続長を音符画像４２の時間軸上のサイズに応じて設定する。また、情報生成部２４は、発音情報ＧB2が指定する発音文字や制御情報ＧB3が指定する制御変数を利用者からの指示に応じて設定する。図３では、１個の合成対象音（音符画像４２）の発音文字として単語“ｂａｇ”が指定された場合が例示されている。なお、編集画面４０の形式は任意である。例えば、音高情報ＧB1（音高，発音時刻，継続長）や発音情報ＧB2（発音文字）や制御情報ＧB3の各数値のリストを編集画面４０として表示することも可能である。

音声合成の開始が利用者から指示されると、情報生成部２４は、記憶装置１２に格納された基礎情報ＧBから合成情報Ｚ（スコアデータ）を生成する。図４に示すように、合成情報Ｚは、素片系列Ｚ1と音高系列Ｚ2と変数系列Ｚ3とを含んで構成される。音高系列Ｚ2は、各合成対象音（音声素片）の音高Ｐと発音時刻Ｔと継続長Ｄとを時系列に指定し、変数系列Ｚ3は制御変数Ｘを時系列に指定する。音高系列Ｚ2は基礎情報ＧBの音高情報ＧB1から生成され、変数系列Ｚ3は基礎情報ＧBの制御情報ＧB3から生成される。

素片系列Ｚ1は、各合成対象音を構成する音声素片Ｓと各音声素片Ｓの発音時刻Ｔおよび継続長Ｄとを時系列に指定する。情報生成部２４は、基礎情報ＧBの発音情報ＧB2が指定する各発音文字を複数の音声素片Ｓの時系列に変換し、各音声素片Ｓの発音時刻Ｔおよび継続長Ｄを、基礎情報ＧBの音高情報ＧB1が各合成対象音について指定する発音時刻および継続長に応じて設定する。

例えば図３の部分(A)のように単語“ｂａｇ”が発音文字として指定された合成対象音については、図３の部分(B)に示すように、［＃-ｂh］,［ｂh-｛］,［｛］,［｛-ｇ］,［ｇ-＃］という５個の音声素片Ｓを指定する素片系列Ｚ1が生成される。なお、記号［｛］は、音声素片［ａ］を意味する。また、記号［ｂh］は、単語“ｂｉｇ”を発音する場合の“ｂ”の音素を意味し、単語“ｒｏｂ”を発音する場合の“ｂ”の音素［ｂ］とは区別される。

図１の素片選択部２６は、素片系列Ｚ1が指定する各音声素片Ｓに対応する素片データＷを記憶装置１２の素片群ＧAから順次に選択する。音声合成部２８は、素片選択部２６が選択した素片データＷを調整したうえで各素片データＷを時間軸上で相互に連結することで音声信号ＳOUTを生成する。具体的には、音声合成部２８は、素片選択部２６が選択した素片データＷを、素片系列Ｚ1が指定する発音時刻Ｔおよび継続長Ｄと、音高系列Ｚ2が指定する音高Ｐと、変数系列Ｚ3が指定する制御変数Ｘ（音量）とに調整したうえで相互に連結する。音声合成部２８が生成した音声信号ＳOUTが放音装置１８に供給されて音波として再生される。

次に、素片選択部２６が音声素片毎に素片データＷを選択する動作を説明する。第１実施形態の素片選択部２６は、記憶装置１２に記憶された素片選択テーブルＴBLaを参照して各音声素片Ｓに対応する素片データＷを選択する。

図５は、素片選択テーブルＴBLaの模式図である。図５に示すように、素片選択テーブルＴBLaは、複数の音声素片の各々について、素片系列Ｚ1で指定され得る継続長Ｄの数値範囲を区分したＮ個の範囲ｑ[1]〜ｑ[N]の各々に対して１個の素片データＷを対応させたテーブルである。変数ｎが大きい範囲ｑ[n]ほど継続長Ｄが長い場合が図５では想定されている。Ｎ個の範囲ｑ[1]〜ｑ[N]は、所定の閾値ＤTHを境界として正側（継続長Ｄが長い側）の範囲ＱAと負側（継続長Ｄが短い側）の範囲ＱBとに区分される。範囲ＱAは範囲ｑ[K+1]から範囲ｑ[N]で構成され、範囲ＱBは範囲ｑ[1]〜ｑ[K]で構成される。

素片選択部２６は、素片系列Ｚ1が指定する音声素片Ｓに対して素片選択テーブルＴBLaで対応付けられた複数の素片データＷのうち、素片系列Ｚ1がその音声素片Ｓに指定する継続長Ｄの属する範囲ｑ[n]に対応する１個の素片データＷを選択する。したがって、継続長Ｄの属する範囲ｑ[n]が相違するならば、音声素片Ｓが共通する場合でも、素片選択部２６が選択する素片データＷは相違し得る。

第１実施形態の音声素片Ｓのなかには、それ自身について用意された素片データＷが選択される音声素片Ｓ（例えば音声素片［＃-ｂ］）と、音響特性が類似する他の音声素片Ｓの素片データＷが流用される音声素片（例えば音声素片［＃-ｂh］）とがある。なお、以下の説明では、音響特性が類似する音声素片の組合せとして音声素片［＃-ｂ］と音声素片［＃-ｂh］とを便宜的に例示するが、音響特性が類似する他の組合せについても同様に処理される。

図５に示すように、音声素片［＃-ｂ］については、継続長Ｄが範囲ＱAおよび範囲ＱBの何れに属するかに関わらず、その音声素片［＃-ｂ］自身について用意された素片データＷ[#-b]_nが素片選択テーブルＴBLaにて指定される。したがって、素片系列Ｚ1が音声素片［＃-ｂ］を指定する場合、素片選択部２６は、その音声素片［＃-ｂ］自身について用意されたＮ個の素片データＷ（Ｗ[#-b]_1〜Ｗ[#-b]_N）のうち、素片系列Ｚ1にて指定される継続長Ｄが属する範囲ｑ[n]に対応する素片データＷ[#-b]_nを選択する。

他方、図５の音声素片［＃-ｂh］に着目すると、範囲ＱA内の継続長Ｄの各範囲ｑ[n]（すなわち閾値ＤTHよりも長い継続長Ｄ）についてはその音声素片［＃-ｂh］自身の素片データＷ[#-bh]_nが素片選択テーブルＴBLaにて指定されるが、範囲ＱB内の継続長Ｄの各範囲ｑ[n]（すなわち閾値ＤTHよりも短い継続長Ｄ）については、音響特性が類似する他の音声素片［＃-ｂ］の素片データＷ[#-b]_nが指定される。したがって、素片系列Ｚ1が音声素片［＃-ｂh］を指定する場合、素片選択部２６は、素片系列Ｚ1にて指定される継続長Ｄが範囲ＱA内の数値（第１値）であれば、その音声素片［＃-ｂh］自身の複数の素片データＷ（Ｗ[#-bh]_K+1〜Ｗ[#-bh]_N）のうちその継続長Ｄの属する範囲ｑ[n]に対応する素片データＷ[#-bh]_nを選択し、継続長Ｄが範囲ＱB内の数値（第２値）であれば、他の音声素片［＃-ｂ］に対応する複数の素片データＷ[#-b]_1〜Ｗ[#-b]_Nのうちその継続長Ｄの属する範囲ｑ[n]に対応する素片データＷ[#-b]_nを選択する。

すなわち、継続長Ｄが範囲ＱB内の数値である場合には、音声素片［＃-ｂ］の素片データＷ[#-b]_nが音声素片［＃-ｂh］について流用される。したがって、図２に示すように、音声素片［＃-ｂh］については、範囲ＱA内の継続長Ｄに対応する素片データＷ[#-bh]_K+1〜Ｗ[#-bh]_Nのみが記憶装置１２に記憶され、範囲ＱB内の継続長Ｄに対応する素片データ（Ｗ[#-bh]_1〜Ｗ[#-bh]_K）は記憶装置１２に記憶されない。

以上の構成によれば、音声素片［＃-ｂh］についても継続長Ｄの全部の範囲ｑ[1]〜ｑ[N]の素片データＷ（Ｗ[#-bh]_1〜Ｗ[#-bh]_N）を記憶する構成と比較して、素片データＷの個数を削減することが可能である。したがって、記憶装置１２に要求される記憶容量が低減される（ひいては音声合成装置１００の製造コストや装置規模が低減される）という利点がある。携帯電話機や携帯情報端末等の携帯機器では、例えば据置型の情報処理装置と比較して記憶容量の制約が大きいから、第１実施形態の前述の効果は、音声合成装置１００を携帯機器等に搭載した場合に格別に有効である。

また、範囲ＱBは範囲ＱAと比較して継続長Ｄが短い側に設定される。すなわち、音声素片［＃-ｂh］の継続長Ｄが閾値ＤTHよりも長い場合（範囲ＱA）には自身の素片データＷ[#-bh]_nが選択され、音声素片［＃-ｂh］について他の音声素片［＃-ｂ］の素片データＷ[#-b]_nが流用されるのは、音声素片［＃-ｂh］の継続長Ｄが閾値ＤTHよりも短い場合（範囲ＱB）に限定される。継続長Ｄが短いほど音声素片の識別は困難であるという傾向を考慮すると、第１実施形態によれば、継続長Ｄが長い場合（例えば継続長が範囲ＱA内にある場合）にも他の音声素片の素片データＷを流用する構成と比較して、音声素片［＃-ｂh］について自身の素片データＷを使用せずに他の音声素片［＃-ｂ］の素片データＷ[#-b]_nを流用していること（更には素片データＷの流用に起因した音響の不自然さ）が受聴者に知覚され難いという利点がある。すなわち、第１実施形態によれば、聴感的に自然な音声信号ＳOUTの生成と素片データＷの個数の削減とを両立することが可能である。

＜Ｂ：第２実施形態＞
本発明の第２実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第１実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

第２実施形態の記憶装置１２には、相異なる音高で発音された音声素片の波形を示す複数の素片データＷが音声素片毎に記憶装置１２に格納される。例えば音声素片［＃-ｂ］については、音高が相違するＮ個の素片データＷ[#-b]_1〜Ｗ[#-b]_Nが記憶装置１２に記憶される。

図６は、第２実施形態の素片選択部２６が素片データＷの選択に使用する素片選択テーブルＴBLbの模式図である。図６に示すように、素片選択テーブルＴBLbは、複数の音声素片の各々について、音高系列Ｚ2で指定され得る音高Ｐの数値範囲を区分した範囲ｑ[n]（ｑ[1]〜ｑ[N]）毎に１個の素片データＷを対応させる。変数ｎが大きい範囲ｑ[n]ほど音高Ｐが高い場合（範囲ｑ[n]が範囲ｑ[n-1]の高域側に位置する場合）が図６では想定されている。Ｎ個の範囲ｑ[1]〜ｑ[N]は、範囲ＱAと範囲ＱB1と範囲ＱB2とに区分される。範囲ＱAは、所定の音高Ｐを含む範囲ｑ[K]に相当する。範囲ＱB1は範囲ＱAの低域側に位置し、範囲ＱB2は範囲ＱAの高域側に位置する。なお、範囲ＱAが複数の範囲ｑ[n]を含む構成も採用され得る。

素片選択部２６は、素片系列Ｚ1が指定する音声素片Ｓに対して素片選択テーブルＴBLbにて対応付けられた複数の素片データＷのうち、音高系列Ｚ2がその音声素片に指定する音高Ｐの属する範囲ｑ[n]に対応する１個の素片データＷを選択する。例えば素片系列Ｚ1が音声素片［＃-ｂ］を指定する場合、素片選択部２６は、その音声素片［＃-ｂ］自身について用意されたＮ個の素片データＷ（Ｗ[#-b]_1〜Ｗ[#-b]_N）のうち音高Ｐの属する範囲ｑ[n]に対応する素片データＷ[#-b]_nを選択する。

他方、図６から理解されるように、素片系列Ｚ1が音声素片［＃-ｂh］を指定する場合、素片選択部２６は、音高系列Ｚ2にて指定される音高Ｐが範囲ＱA内の数値（第１値）であれば、音声素片［＃-ｂh］自身の素片データＷであってその音高Ｐの属する範囲ｑ[n]に対応する素片データＷ[#-bh]_nを選択し、音高Ｐが低域側の範囲ＱB1または高域側の範囲ＱB2内の数値（第２値）であれば、音響特性が類似する他の音声素片［＃-ｂ］の複数の素片データＷ（Ｗ[#-b]_1〜Ｗ[#-b]_N）のうちその音高Ｐの属する範囲ｑ[n]に対応する素片データＷ[#-b]_nを選択する。したがって、音声素片［＃-ｂh］については、範囲ＱA（ｑ[K]）内の音高Ｐに対応する素片データＷ（Ｗ[#-bh]_K）のみが記憶装置１２に記憶され、範囲ＱB1に対応する素片データＷ（Ｗ[#-bh]_1〜Ｗ[#-bh]_K-1）や範囲ＱB2に対応する素片データＷ（Ｗ[#-bh]_K+1〜Ｗ[#-bh]_N）は記憶装置１２に記憶されない。すなわち、第２実施形態でも、第１実施形態と同様に、素片データＷの個数を削減することが可能である。

なお、音高Ｐが高い場合や低い場合には音声素片の識別が困難であるという傾向がある。第２実施形態では、音声素片［＃-ｂh］に指定された音高Ｐが低域側の範囲ＱB1または高域側の範囲ＱB2内の数値である場合に他の音声素片［＃-ｂ］の素片データＷ[#-b]_nを流用するから、音声素片［＃-ｂh］の音高Ｐが範囲ＱA内にある場合に素片データＷ[#-b]_nを流用する構成と比較して、素片データＷ[#-b]_nの流用が受聴者に知覚され難いという利点がある。

＜Ｃ：第３実施形態＞
本発明の第３実施形態を以下に説明する。第３実施形態の記憶装置１２には、相異なる音量で発音された音声素片の波形を示す複数の素片データＷが音声素片毎に記憶装置１２に格納される。例えば音声素片［＃-ｂ］については、音量が相違するＮ個の素片データＷ[#-b]_1〜Ｗ[#-b]_Nが記憶装置１２に記憶される。

図７は、第３実施形態の素片選択部２６が素片データＷの選択に使用する素片選択テーブルＴBLcの模式図である。図７に示すように、素片選択テーブルＴBLcは、複数の音声素片の各々について、変数系列Ｚ3で指定され得る制御変数Ｘ（音量）の数値範囲を区分した範囲ｑ[n]（ｑ[1]〜ｑ[N]）毎に１個の素片データＷを対応させる。変数ｎが大きい範囲ｑ[n]ほど制御変数Ｘが大きい（音量が大きい）場合が図７では想定されている。Ｎ個の範囲ｑ[1]〜ｑ[N]は、所定の閾値ＸTHを上回る範囲ＱA（範囲ｑ[K+1]〜ｑ[N]）と閾値ＸTHを下回る範囲ＱB（範囲ｑ[1]〜ｑ[K]）とに区分される。

素片選択部２６は、素片系列Ｚ1が指定する音声素片Ｓに対して素片選択テーブルＴBLcにて対応付けられた複数の素片データＷのうち、変数系列Ｚ3がその音声素片Ｓに指定する制御変数Ｘの属する範囲ｑ[n]に対応する１個の素片データＷを選択する。例えば素片系列Ｚ1が音声素片［＃-ｂ］を指定する場合、素片選択部２６は、その音声素片［＃-ｂ］自身のＮ個の素片データＷ（Ｗ[#-b]_1〜Ｗ[#-b]_N）のうち制御変数Ｘの属する範囲ｑ[n]に対応する素片データＷ[#-b]_nを選択する。

他方、図７から理解されるように、素片系列Ｚ1が音声素片［＃-ｂh］を指定する場合、素片選択部２６は、変数系列Ｚ3にて指定される制御変数Ｘ（音量）が範囲ＱA内の数値（第１値）であれば、その音声素片［＃-ｂh］自身の素片データＷのうちその制御変数Ｘの属する範囲ｑ[n]に対応する素片データＷ[#-bh]_nを選択し、制御変数Ｘが範囲ＱB内の数値（第２値）であれば、音響特性が類似する他の音声素片［＃-ｂ］の複数の素片データＷ（Ｗ[#-b]_1〜Ｗ[#-b]_N）のうちその制御変数Ｘの範囲ｑ[n]に対応する素片データＷ[#-b]_nを選択する。したがって、音声素片［＃-ｂh］については、図２の例示と同様に、範囲ＱAに対応する素片データＷ（Ｗ[#-bh]_K+1〜Ｗ[#-bh]_N）のみが記憶装置１２に記憶され、範囲ＱBに対応する素片データＷ（Ｗ[#-bh]_1〜Ｗ[#-bh]_K）は記憶装置１２に記憶されない。すなわち、第３実施形態によれば、第１実施形態と同様に、素片データＷの個数を削減することが可能である。

なお、音量が小さい場合には音声素片の識別が困難であるという傾向がある。第３実施形態では、音声素片［＃-ｂh］に指定された制御変数Ｘ（音量）が小音量側の範囲ＱB内の数値である場合に他の音声素片［＃-ｂ］の素片データＷ[#-b]_nを流用するから、制御変数Ｘが大音量側の範囲ＱA内の数値である場合に素片データＷ[#-b]_nを流用する構成と比較して、素片データＷ[#-b]_nの流用が受聴者に知覚され難いという利点がある。なお、以上の説明では制御変数Ｘが音量を示す場合を例示したが、音量の代わりにベロシティ（典型的には発音開始直後の強度）を制御変数Ｘとして指定することも可能である。

＜Ｄ：変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）変形例１
音声素片の特徴量は以上の例示（継続長Ｄ，音高Ｐ，制御変数Ｘ（音量））に限定されない。例えば、音響の明瞭度が制御変数Ｘとして指定される構成では、音声素片［＃-ｂh］に指定された明瞭度が高い場合に自身の素片データＷ[#-bh]_nを選択し、明瞭度が低い場合に他の音声素片［＃-ｂ］の素片データＷ[#-b]_bを選択することが可能である。すなわち、以上の各形態における合成情報Ｚは、合成対象音の各音声素片Ｓについて特徴量（例えば継続長Ｄ，音高Ｐ，制御変数Ｘ）を指定する情報として包括される。

（２）変形例２
以上の各形態では、合成情報Ｚを基礎情報ＧBから生成したが、編集画面４０に対する利用者からの指示に応じて情報生成部２４が合成情報Ｚを直接に（すなわち基礎情報ＧBを経ずに）生成する構成も採用され得る。また、合成情報Ｚが他装置（例えば通信端末や可搬型の記録媒体）から提供される構成や、合成情報Ｚが記憶装置１２に事前に記憶された構成も採用され得る。以上の例示から理解されるように、前述の各形態における情報生成部２４は、合成情報Ｚを取得する手段（取得手段）の例示であり、合成情報Ｚを取得する方法の如何（基礎情報ＧBから生成するか直接に合成情報Ｚを生成するか，音声合成装置１００内で生成するか他装置で生成された合成情報Ｚを取得するか）は本発明において不問である。

（３）変形例３
前述の各形態では、音声素片の時間軸上の波形を示す素片データＷを例示したが、素片データＷの形態は任意である。例えば、素片データＷが音声素片の周波数スペクトルを示す構成も採用され得る。素片データＷの調整等を周波数領域で実行することも可能である。

（４）変形例４
前述の各形態では、音声素片［＃-ｂh］について自身の素片データＷ[#-bh]_nと他の音声素片[＃-ｂ]の素片データＷ[#-b]_nとの何れを選択するかを素片選択テーブルＴBL（ＴBLa，ＴBLb，ＴBLc）にて指定したが、他の音声素片の素片データＷを流用するか否かを、合成情報Ｚが指定する特徴量（例えば継続長Ｄ，音高Ｐ，制御変数Ｘ）に応じて素片選択部２６が判定する構成も採用され得る。例えば図８に示すように、素片選択部２６は、音声素片［＃-ｂh］について合成情報Ｚが指定する特徴量が範囲ＱA内の数値（第１値）であるか否かを判定し（Ｓ1）、判定の結果が肯定であれば、自身の素片データＷ[#-bh]_nを特徴量に応じて選択する一方（Ｓ2）、判定の結果が否定であれば、他の音声素片の素片データＷ[#-b]_nを特徴量に応じて選択する（Ｓ3）。

（５）変形例５
聴感的に音声素片を弁別可能な特徴量（例えば継続長Ｄ，音高Ｐ，制御変数Ｘ）の範囲ＱAは音声素片毎に相違する。したがって、自身について用意された素片データＷを選択する（すなわち他の音声素片の素片データＷを流用しない）特徴量の範囲ＱAと他の音声素片の素片データＷを流用する特徴量の範囲ＱB（ＱB1，ＱB2）とを音声素片毎に相違させた構成も好適である。例えば、聴感的に容易に弁別可能な音声素片については、範囲ＱAが広い範囲に設定されるとともに範囲ＱBが狭い範囲に設定される。すなわち、特徴量の広い範囲にわたって自身の素片データＷが選択され、素片データＷの流用に起因した聴感的な不自然さが低減される。他方、聴感的な弁別が比較的に困難な音声素片については、範囲ＱAが狭い範囲に設定されるとともに範囲ＱBが広い範囲に設定される。すなわち、特徴量の広い範囲にわたって他の音声素片の素片データＷが流用され、素片データＷの個数が削減される。

１００……音声合成装置、１０……演算処理装置、１２……記憶装置、１４……入力装置、１６……表示装置、１８……放音装置、２２……表示制御部、２４……情報生成部、２６……素片選択部、２８……音声合成部、４０……編集画面、４２……音符画像、Ｗ……素片データ、ＴBLa，ＴBLb，ＴBLc……素片選択テーブル。

Claims

合成対象音の各音声素片について特徴量を指定する合成情報を取得する取得手段と、
音声素片の波形を示す素片データを複数の音声素片の各々について特徴量の数値毎に含む素片群から、前記合成情報による音声素片の指定毎に素片データを選択する手段であって、前記合成対象音の第１音声素片について、前記合成情報にて前記第１音声素片に指定される特徴量が第１値である場合には、前記第１音声素片の前記第１値に対応する素片データを選択し、前記合成情報にて前記第１音声素片に指定される特徴量が第２値である場合には、前記第１音声素片とは相違する第２音声素片の前記第２値に対応する素片データを選択する素片選択手段と、
前記素片選択手段が選択した素片データを利用して音声信号を合成する音声合成手段と
を具備する音声合成装置。
前記素片選択手段は、前記合成情報にて前記第１音声素片に指定される特徴量が、前記第１値を含む第１範囲内にある場合には、前記第１音声素片の素片データを選択し、前記第１音声素片の特徴量が、前記第２値を含み前記第１範囲とは相違する第２範囲内にある場合には前記第２音声素片の素片データを選択する
請求項１の音声合成装置。
前記特徴量は、音声素片の継続長であり、
前記第１値が示す継続長は、前記第２値が示す継続長よりも長い
請求項１または請求項２の音声合成装置。
前記特徴量は合成対象音の音高を含み、
前記第２値が示す音高は、前記第１値を含む範囲の高域側および低域側の音高である
請求項１または請求項２の音声合成装置。
前記特徴量は、音声素片の強度であり、
前記第１値が示す強度は、前記第２値が示す強度よりも大きい
請求項１または請求項２の音声合成装置。
前記特徴量は、音声の明瞭度であり、
前記第１値が示す明瞭度は、前記第２値が示す明瞭度よりも高い
請求項１または請求項２の音声合成装置。