JP5790860B2

JP5790860B2 - 音声合成装置

Info

Publication number: JP5790860B2
Application number: JP2014203496A
Authority: JP
Inventors: 雅史吉田; 久湊　裕司; 裕司久湊; 隼人大下; 吉岡　靖雄; 靖雄吉岡
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-10-01
Filing date: 2014-10-01
Publication date: 2015-10-07
Anticipated expiration: 2029-10-28
Also published as: JP2015038622A

Description

本発明は、音声合成に適用される制御変数を設定する技術に関する。

発音の強度や息成分の強弱などの音楽的な表情が多様に制御された音声（典型的には歌唱音）を合成する技術が従来から提案されている。特許文献１には、合成の対象として指定された音（以下「指定音」という）の時系列を示す画像（ピアノロール画像）と、各指定音に付与される表情を示す複数種の制御変数の時間的な遷移を示すグラフとを、共通の時間軸のもとで表示する技術が提案されている。利用者は、予め時間的な遷移が設定された複数種の制御変数の何れかを選択してグラフを操作することで、その制御変数の時間的な遷移を編集することが可能である。

特開２００８−１６５１３０号公報

しかし、特許文献１の技術のもとで合成音に付与される表情を変更するためには、予め用意された制御変数を利用者が編集する必要がある。したがって、制御変数とその制御変数に応じて変化する音楽的な表情との相関を熟知していない利用者にとって作業の負担が大きいという問題がある。複数種の制御変数を編集可能な構成では、複数種の制御変数の何れかを１種類ずつ順次に選択して編集する作業が必要であるから、作業の負担の増大という問題は特に深刻となる。以上の事情を考慮して、本発明は、複数種の制御変数を設定するための利用者の作業の負担を軽減することを目的とする。

以上の課題を解決するために、本発明の音声合成装置は、音楽情報が示す指定音（合成の対象として指定された音）の時系列における適用区間を利用者からの指示に応じて可変に設定する区間設定手段と、音声合成に適用される制御変数の時系列を示す複数の変数情報のうち利用者からの指示に応じた変数情報を選択する変数選択手段と、変数選択手段が選択した変数情報に応じて適用区間内の制御変数の時系列を設定する変数設定手段と、音楽情報が示す指定音を合成する手段であって、変数設定手段が設定した制御変数の時系列を適用区間内の指定音の合成に適用する音声合成手段とを具備する。なお、音楽情報および変数情報は、単体の記憶装置（例えば図１の記憶装置１２）内に設定された別個の記憶領域、または、別体の記憶装置の各々に設定された記憶領域に記憶され得る。

以上の構成においては、制御変数の時間的な遷移を示す複数の変数情報のうち利用者からの指示に応じて選択された変数情報が、適用区間内の各指定音の音声合成に適用される制御変数Ｘの時系列の設定に利用される。したがって、合成音に付与される音楽的な表情を変更するためには利用者が制御変数の時系列を変更（編集）する必要がある特許文献１の技術と比較して、合成音に所望の表情を付与するために必要な利用者の作業の負担が軽減されるという利点がある。ただし、変数選択手段が複数の変数情報の何れかを選択する構成に加えて、変数設定手段による設定後の制御変数を特許文献１と同様に利用者が編集する構成も、本発明の範囲内の好適な態様として採用され得る。

本発明の好適な態様において、複数の変数情報の各々は、音声合成に適用される複数種の制御変数の各々について当該制御変数の時系列を示す。以上の態様においては、各変数情報が、複数種の制御変数の時系列を示すから、変数情報が１種類の制御変数のみを示す構成と比較すると、多様な表情の合成音を生成できるという利点がある。

本発明の好適な態様に係る音声合成装置は、音楽情報が示す各指定音に対応する音指示子の時系列と、変数設定手段が設定した制御変数の時系列とを、時間軸を共通にして表示装置に表示させる表示制御手段を具備する。以上の態様においては、各指定音の音指示子の時系列と制御変数の時系列とが時間軸を共通にして表示されるから、制御変数に応じて各指定音に付与される音楽的な表情を利用者が容易に確認できるという利点がある。

本発明の好適な態様において、変数選択手段は、合成音の複数の属性（例えば音質やジャンルや曲部位や調）の各々に関する選択肢の相異なる組合せに対応する複数の変数情報のうち、利用者が前記各属性について指示した選択肢の組合せに対応する変数情報を選択する。以上の態様によれば、利用者に馴染みのある属性の指示に応じて変数情報が選択されるから、変数情報で指示される音楽的な表情について利用者に詳細な知識がなくても、適切な変数情報を音声合成に適用できるという利点がある。

本発明の好適な態様において、区間設定手段は、適用区間内の編集区間を利用者からの指示に応じて可変に設定し、変数設定手段は、適用区間のうち編集区間内の制御変数の時系列と編集区間以外の区間（編集外区間）内の制御変数の時系列とを独立に設定し得る。以上の態様においては、適用区間のうち利用者からの指示に応じた編集区間について編集区間以外の区間内とは独立に制御変数の時系列が設定される。すなわち、適用区間内の制御変数の時系列を部分的に変更することが可能である。したがって、適用区間のみが設定される構成と比較して、利用者に意図を高度に反映した多様な表情の合成音を生成できるという利点がある。以上の態様の具体例は、例えば第２実施形態として後述される。

ところで、編集区間と編集外区間とで制御変数の時系列が独立に設定される構成では、制御変数の時系列が編集区間と編集外区間との境界にて不連続となる可能性がある。そこで、本発明の好適な態様において、変数設定手段は、適用区間における編集区間の内外で制御変数が連続するように制御変数の補間を実行する。以上の態様においては、編集区間と編集外区間との境界における制御変数の不連続な変化が抑制されるから、合成音の音楽的な表情の不自然（唐突）な変化が防止されるという利点がある。なお、以上の態様の具体例は、例えば第３実施形態として後述される。

本発明の好適な態様に係る音声合成装置は、利用者からの指示に応じて効果調整値を可変に設定する調整値設定手段を具備し、変数設定手段は、効果調整値に応じた度合で変数情報が適用区間内の指定音の合成に反映されるように適用区間内の制御変数の時系列を設定する。以上の態様においては、利用者からの指示で設定された効果調整値に応じた度合で変数情報が音声合成に反映されるから、利用者の音楽的な意図を反映した多様な表情の合成音を生成できるという利点がある。

本発明の好適な態様に係る音声合成装置は、利用者からの指示に応じた効果調整値を適用区間のうちの編集区間と編集区間以外の区間とで個別に設定する調整値設定手段を具備し、変数設定手段は、編集区間の効果調整値に応じた度合で当該編集区間内の指定音の合成に変数情報が反映され、編集区間以外の区間の効果調整値に応じた度合で当該区間内の指定音の合成に変数情報が反映されるように、適用区間内の制御変数の時系列を設定する。以上の態様においては、適用区間のうちの編集区間と編集外区間とについて設定された効果調整値に応じて、制御変数の時系列が編集区間と編集外区間とで独立に設定される。したがって、利用者に意図に沿った多様な表情の合成音を生成できるという利点がある。

なお、編集区間と編集外区間とについて効果調整値が設定される構成では、編集区間と編集外区間とで効果調整値が極端に相違することに起因して、合成音の音楽的な表情が不自然となる可能性もある。そこで、本発明の好適な態様における調整値設定手段は、適用区間のうち編集区間の効果調整値と編集区間以外の効果調整値とを、両者の比率を維持しながら、利用者からの指示に応じて変化させる。以上の態様においては、編集区間の効果調整値と編集外区間の効果調整値との比率が維持されるから、編集区間の内外で合成音の音楽的な表情が不自然に変化することを抑制できるという利点がある。なお、以上の態様の具体例は、例えば第４実施形態として後述される。

以上の各態様に係る音楽情報処理装置は、音楽情報の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータを、音楽情報が示す指定音（合成の対象として指定された音）の時系列における適用区間を利用者からの指示に応じて可変に設定する区間設定手段、音声合成に適用される制御変数の時系列を示す複数の変数情報のうち利用者からの指示に応じた変数情報を選択する変数選択手段、変数選択手段が選択した変数情報に応じて適用区間内の制御変数の時系列を設定する変数設定手段、および、音楽情報が示す指定音を合成する手段であって、変数設定手段が設定した制御変数の時系列を適用区間内の指定音の合成に適用する音声合成手段として機能させる。以上のプログラムによれば、本発明に係る音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

第１実施形態に係る音声合成装置のブロック図である。編集画像の模式図である。適用区間が指示された場合の編集画像の模式図である。管理画像の模式図である。操作画像の模式図である。区間条件および効果調整値が指示された場合の操作画像の模式図である。変数遷移画像が表示された状態の編集画像の模式図である。第２実施形態における編集画像の模式図である。第２実施形態における管理画像の模式図である。第２実施形態における管理画像の模式図である。第３実施形態の区間設定部による制御変数の補間を説明するための模式図である。第４実施形態における管理画像の模式図である。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。音声合成装置１００は、歌唱音などの様々な音声（以下「合成音」という）を合成する装置であり、図１に示すように、制御装置１０と記憶装置１２と入力装置１４と表示装置１６と放音装置１８とを具備するコンピュータシステムで実現される。音声合成装置１００を楽曲の歌唱音の合成に利用する場合を以下では想定する。

制御装置（ＣＰＵ）１０は、記憶装置１２に記憶されたプログラムＰGの実行で、音声信号ＳOUTの生成に必要な複数の機能（表示制御部２２，情報生成部２４，区間設定部２６，変数処理部３２，音声合成部３４）を実現する。音声信号ＳOUTは、合成音の波形を表す信号である。なお、制御装置１０の各機能を専用の電子回路（ＤＳＰ）で実現した構成や、制御装置１０の各機能を複数の集積回路に分散した構成も採用され得る。

入力装置１４は、利用者からの指示を受付ける機器（例えばマウスやキーボード）である。表示装置（例えば液晶表示装置）１６は、制御装置１０から指示された画像を表示する。放音装置（例えばスピーカやヘッドホン）１８は、制御装置１０が生成する音声信号ＳOUTに応じた音波を放射する。

記憶装置１２は、制御装置１０が実行するプログラムＰGや制御装置１０が使用する各種のデータ（音素情報ＤV，音楽情報ＤS，変数情報ＤP）を記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体（または複数種の記録媒体の組合せ）が記憶装置１２として任意に採用される。なお、プログラムＰGや各データ（ＤV，ＤS，ＤP）を複数の記録媒体に分散して記憶した構成も採用され得る。

音素情報ＤVは、合成音の素材として利用されるデータ群であり、相異なる音声素片に対応する多数の素片データ（例えば音声素片の時間波形や特徴量を示すデータ）を含んで構成される。音声素片は、音声を聴覚的に区別し得る最小の単位に相当する音素、または複数の音素を連結した音素連鎖である。

音楽情報ＤSは、楽曲を構成する各指定音の時系列を示す情報（スコアデータ）である。具体的には、音楽情報ＤSは、指定音の音高（ノートナンバ）と発音期間（例えば発音の開始時刻と継続長）と発音文字（例えば歌詞の文字に対応する音節や音韻）とを楽曲内の指定音毎に指定する。

変数情報ＤPは、音声合成に適用される複数種の制御変数（コントロールパラメータ）Ｘの時間的な変化を示すデータ群である。制御変数Ｘは、合成音に付与される音楽的な表情を制御するための変数である。具体的には、指定音の発音の強弱（velocity），音量（dynamics），息成分の強弱（breathness）、明瞭度（brightness，clearness），発音時の開口度（opening），発音者の性別（genderfactor），音高を連続的に変化（ポルタメント）させる時点（portamento-timing），音高の微小変化（pitch-bend），音高の微小変化の最大幅（pitch-bend sensitivity）など、音声合成に適用される公知の変数が制御変数Ｘとして任意に採用される。

図１に示すように、記憶装置１２は複数の変数情報ＤPを記憶する。１個の変数情報ＤPは、相異なる種類の制御変数Ｘ（Ｘ1，Ｘ2，……）に対応する複数の変数遷移データＶを含んで構成される。各制御変数Ｘの変数遷移データＶは、所定の時間にわたる当該制御変数Ｘの時系列（時間的な遷移）を示すデータ列である。各変数遷移データＶが示す制御変数Ｘの変化の態様は、同種の制御変数Ｘの変数遷移データＶでも変数情報ＤP毎に相違し得る。なお、変数情報ＤP内の各変数遷移データＶが示す制御変数Ｘの種類は、基本的には複数の変数情報ＤPで共通するが、変数情報ＤP毎に制御変数Ｘの種類が相違する構成を採用することも可能である。

図１の表示制御部２２は、音楽情報ＤSの生成および編集や合成音に付与される音楽的な表情の編集のために利用者が視認する画像（編集画像６０，管理画像７０，操作画像８０）を表示装置１６に表示させる。図２は、音楽情報ＤSの作成および編集に使用される編集画像６０の模式図である。図２に示すように、編集画像６０は、指定音の時系列を表示する楽譜領域６２と、制御変数Ｘの経時的な変化を表示する変数領域６４とを含んで構成される。

楽譜領域６２は、音高に対応する縦軸（音高軸）と時間に対応する横軸（時間軸）とが設定されたピアノロール型の画像領域である。利用者は、楽譜領域６２を視認しながら入力装置１４を適宜に操作することで指定音の音高と発音期間（始点および終点）とを指示する。表示制御部２２は、利用者から指示された指定音に対応する音指示子６２２を楽譜領域６２内に配置する。音高軸の方向における音指示子６２２の位置は利用者が指示した音高に応じて決定され、時間軸の方向における音指示子６２２の位置およびサイズは利用者が指示した発音期間に応じて決定される。また、利用者は、入力装置１４を適宜に操作することで各指定音の発音文字（歌詞）を指示する。なお、指定音の音譜を五線譜に記譜した楽譜の画像を楽譜領域６２に配置する構成も採用され得る。

図１の情報生成部２４は、楽譜領域６２に対して利用者から指示された指定音の音高と発音期間と発音文字とを対応させて記憶装置１２の音楽情報ＤSに格納する。以上の処理が反復されることで、利用者から指示された指定音の時系列を示す音楽情報ＤSが記憶装置１２に生成され、各指定音の音指示子６２２の時系列が図２の例示のように楽譜領域６２に表示される。

図１の区間設定部２６は、音楽情報ＤSが示す指定音の時系列（楽曲）のうち変数情報ＤPの適用の対象となる区間（以下「適用区間」という）ＳAを、入力装置１４に対する利用者からの指示に応じて可変に設定する。例えば、区間設定部２６は、楽譜領域６２に対して利用者から指示された始点から終点にわたる区間を適用区間ＳAとして特定する。区間設定部２６は、時間的に重複しない複数の適用区間ＳAを利用者からの指示に応じて楽曲内に順次に特定する。各適用区間ＳAの始点および終点は、入力装置１４に対する利用者からの指示に応じて随時に変更され得る。

図３に示すように、表示制御部２２は、区間設定部２６が設定した適用区間ＳAを示す区間指示子（網掛の部分）６２４を編集画像６０に配置する。区間指示子６２４は、例えば、楽譜領域６２のうち適用区間ＳAの始点から終点にかけて時間軸に沿って延在する帯状の画像である。また、利用者が指示した適用区間ＳAの識別情報（例えば図３の「パートＡ」という名称）が区間指示子６２４に付加される。

また、表示制御部２２は、各適用区間ＳAの管理に利用される図４の管理画像７０を表示装置１６に表示させる。図４に示すように、管理画像７０は、適用区間ＳA毎にレコード７２を配置した図表である。各レコード７２は、適用区間ＳAの識別情報（名称）と継続期間とを含んで構成される。継続期間は、適用区間ＳAの始点と終点とで指定される。なお、継続期間の指定の方法は任意である。例えば、図４の例示のように始点および終点の時刻を指定する方法のほか、楽曲内の小節や拍点の番号で継続期間の始点および終点を指定する方法も採用され得る。利用者は、管理画像７０に対する直接的な入力（継続期間や識別情報の入力）で適用区間ＳAを指示することも可能である。すなわち、区間設定部２６は、管理画像７０に対して利用者が入力した継続期間に相当する適用区間ＳAを設定する。

図１の変数処理部３２は、相異なる制御変数Ｘ（Ｘ1，Ｘ2，……）に対応する複数の変数遷移データＷを記憶装置１２内の変数情報ＤP（各変数遷移データＶ）から生成する。各制御変数Ｘに対応する変数遷移データＷは、適用区間ＳAの音声合成に適用されるべき当該制御変数Ｘの時系列（時間的な遷移）を示すデータ列である。変数処理部３２の具体的な構成や動作については後述する。

音声合成部３４は、記憶装置１２に格納された音楽情報ＤSが示す指定音を合成して音声信号ＳOUTを生成する。具体的には、音声合成部３４は、記憶装置１２の音素情報ＤVのうち音楽情報ＤSが示す各指定音の発音文字（音声素片）に対応する素片データを、音楽情報ＤSが示す音高および発音期間に調整したうえで相互に連結することで音声信号ＳOUTを生成する。音楽情報ＤSが示す指定音の時系列（楽曲）のうち区間設定部２６が設定した適用区間ＳA内の各指定音の合成には、変数処理部３２が生成した複数の変数遷移データＷが適用される。すなわち、音楽情報ＤSが示す指定音に対して各制御変数Ｘの変数遷移データＷに応じた音楽的な表情を付与した合成音の音声信号ＳOUTが生成される。なお、適用区間ＳA以外の区間の各指定音については、音楽的な表情を付与しない構成や、各制御変数Ｘを所定値（初期値）に固定して表情を付与する構成が採用され得る。音楽情報ＤSおよび制御変数Ｘに応じた音声合成には公知の技術が任意に採用される。

図１に示すように、変数処理部３２は、変数選択部４２と調整値設定部４４と変数設定部４６とを含んで構成される。変数選択部４２は、記憶装置１２に格納された複数の変数情報ＤPのうち利用者からの指示に応じた変数情報ＤPを適用区間ＳA毎に選択する。具体的には、変数選択部４２は、適用区間ＳAについて利用者が入力装置１４から指示した条件（以下「区間条件」という）に応じた変数情報ＤPを記憶装置１２から取得する。図１の調整値設定部４４は、変数選択部４２が選択した変数情報ＤPを音声合成に反映させる度合を示す効果調整値Ａを、入力装置１４に対する利用者からの指示に応じて可変に設定する。

表示制御部２２は、区間条件および効果調整値Ａの指示に利用される図５の操作画像８０を表示装置１６に表示させる。図５に示すように、操作画像８０は、区間条件の指示に利用される条件指示領域８２と、効果調整値Ａの指示に利用される調整値指示領域８４とを含んで構成される。

区間条件は、適用区間ＳAに関する複数の属性（音質，ジャンル，曲部位）で規定される。条件指示領域８２は、区間条件を規定する複数の属性の各々について、利用者が選択し得る複数の選択肢（候補）を羅列した画像である。具体的には、図５の例示のように、適用区間ＳAの音質に関する複数の選択肢（男声，女声，ロボット声）と、適用区間ＳAのジャンルに関する複数の選択肢（ロック，ポップス，ジャズ，……）と、適用区間ＳAの曲部位に関する複数の選択肢（イントロ，Ａメロ，Ｂメロ，サビ，……）とが条件指示領域８２に配列される。なお、以上の例示からも理解されるように、曲部位は、楽曲内における適用区間ＳAの構造的な位置付けに相当する。

利用者は、入力装置１４を適宜に操作することで、適用区間ＳAの各属性について、条件指示領域８２に配列された何れかの選択肢を指示する。図５では、利用者が、声質について「女声」を選択し、ジャンルについて「ボサノバ」を選択し、曲部位について「Ａメロ」を選択した場合が例示されている。利用者が属性毎に指示した選択肢の組合せが区間条件として変数選択部４２に指示される。

記憶装置１２は、利用者から指示され得る区間条件毎（すなわち、各属性について選択され得る選択肢の組合せ毎）に変数情報ＤPを記憶する。各区間条件に対応する変数情報ＤPの各変数遷移データＶは、変数遷移データＶが示す制御変数Ｘの時系列で表現される音楽的な表情の時間的な遷移が、その区間条件（音質，ジャンル，曲部位）を満たす旋律に対して音楽的に適合するように作成される。例えば、図５の例示で指示された区間条件（女声，ボサノバ，Ａメロ）に対応する変数情報ＤPの各変数遷移データＶは、各変数遷移データＶが示す音楽的な表情の時間的な遷移が、「ボサノバ」の楽曲のうち「Ａメロ」の旋律を「女声」で発声した場合の歌唱音に対して音楽的に適合するように作成される。図１の変数選択部４２は、記憶装置１２が記憶する複数の変数情報ＤPのうち、利用者から指示された区間条件に適合または近似する変数情報ＤPを記憶装置１２から選択的に取得する。

他方、図５の調整値指示領域８４には、入力装置１４に対する操作に応じて移動するスライダ型の操作子画像８４２が配置される。調整値設定部４４は、利用者が入力装置１４の操作で移動させた操作子画像８４２の位置に応じた効果調整値Ａを設定する。例えば、調整値設定部４４は、移動可能な範囲の下端に操作子画像８４２が位置する場合には効果調整値Ａを最小値（例えば０％）に設定し、移動可能な範囲の上端に操作子画像８４２が位置する場合には効果調整値Ａを最大値（例えば100％）に設定する。効果調整値Ａが最小値（０％）である場合、例えば図５にて「OFF」が併記された図形“○”の点灯で、適用区間ＳA内の合成音に音楽的な表情を付与しないことが表示され、効果調整値Ａが最小値を上回る場合、図５にて「ON」が併記された図形“○”の点灯で、適用区間ＳA内の合成音に音楽的な表情を付与することが表示される。

図６に示すように、利用者が条件指示領域８２に対して指示した区間条件と調整値指示領域８４に対して指示した効果調整値Ａとは管理画像７０にも反映される。なお、利用者は、入力装置１４を適宜に操作することで、管理画像７０に対して直接的に区間条件や効果調整値Ａを入力することも可能である。すなわち、管理画像７０に入力された区間条件に応じて変数選択部４２は変数情報ＤPを選択し、管理画像７０に対する入力に応じて調整値設定部４４は効果調整値Ａを設定する。

図１の変数設定部４６は、適用区間ＳAの音声合成に適用される各制御変数Ｘ（Ｘ1，Ｘ2，……）の変数遷移データＷを、変数選択部４２が選択した変数情報ＤPと調整値設定部４４が設定した効果調整値Ａとに応じて生成する。具体的には、変数設定部４６は、以下に例示する第１処理と第２処理とを実行する。

記憶装置１２に記憶された変数情報ＤPの各変数遷移データＶは、適用区間ＳAとは無関係に事前に選定された所定の時間にわたる制御変数Ｘの時系列を指示する。第１処理は、変数情報ＤPの各変数遷移データＶを、区間設定部２６が設定した適用区間ＳAの時間長に合致するように伸縮する処理である。例えば、各変数遷移データＶが示す制御変数Ｘの時系列を例えば補間（間引）により伸縮する処理や、制御変数Ｘの時系列が反復するように変数遷移データＶを時間軸に沿って連結する処理が、第１処理として採用され得る。

第２処理は、第１処理後の各変数遷移データＶを効果調整値Ａに応じて調整することで各変数遷移データＷを生成する処理である。具体的には、変数設定部４６は、変数遷移データＷにおける制御変数Ｘの時系列と、第１処理後の変数遷移データＶにおける当該制御変数Ｘの時系列との近似の度合（すなわち、変数遷移データＷに対して変数遷移データＶが反映される度合）が効果調整値Ａに応じて変化するように、各制御変数Ｘの変数遷移データＷを第２処理で生成する。例えば、変数設定部４６は、効果調整値Ａが最大値（100％）に近いほど、第２処理後の各変数遷移データＷにおける制御変数Ｘの時系列が変数遷移データＶの制御変数Ｘの時系列に近づき、効果調整値Ａが最小値（０％）に近いほど、第２処理後の各変数遷移データＷにおける制御変数Ｘが、変数遷移データＶとは無関係の所定値（例えばゼロ）に近づくように、各制御変数Ｘの変数遷移データＷを生成する。なお、以上では第１処理の実行後に第２処理を実行したが、第２処理の実行後に第１処理を実行する構成も採用される。

音声合成部３４は、以上の手順で変数処理部３２（変数設定部４６）が生成した各変数遷移データＷの制御変数Ｘの時系列を適用区間ＳA内の各指定音の合成に適用して音声信号ＳOUTを生成する。他方、表示制御部２２は、図７に示すように、各変数遷移データＷが示す制御変数Ｘの時系列を示す画像（以下「変数遷移画像」という）６４２を編集画像６０内の変数領域６４に制御変数Ｘ毎に配置する。具体的には、制御変数Ｘの遷移を示すグラフ（例えば折れ線グラフ）が変数遷移画像６４２として変数領域６４に表示される。表示制御部２２は、変数領域６４内の変数遷移画像６４２が示す制御変数Ｘの時系列と、楽譜領域６２内の各音指示子６２２（指定音）の時系列とで時間軸が共通（一致）するように変数遷移画像６４２を表示する。すなわち、変数領域６４内の変数遷移画像６４２のうち時間軸上の各時点での制御変数Ｘは、楽譜領域６２のうちその時点に存在する指定音の合成に適用される。

図７に示すように、変数遷移画像６４２は、制御変数Ｘ毎に相異なる態様（表示色や線幅や線種）で表示される。例えば、図７では、制御変数Ｘ1の変数遷移画像６４２を実線で表示し、制御変数Ｘ2の変数遷移画像６４２を破線で表示した場合が例示されている。なお、複数の制御変数Ｘのうち利用者から指示された１種以上の制御変数Ｘの変数遷移画像６４２のみを選択的に変数領域６４に配置する構成も採用され得る。また、変数領域６４内の各変数遷移画像６４２を変更（編集）する指示が入力装置１４から入力された場合に、その変数遷移画像６４２に対応する変数遷移データＷ（制御変数Ｘの時系列）を変数設定部４６が変更の指示に応じて更新する構成も好適である。

以上に説明したように、第１実施形態においては、制御変数Ｘの時間的な遷移を示す複数の変数情報ＤPのうち利用者からの指示（区間条件）に応じて選択された変数情報ＤPが、適用区間ＳA内の各指定音の音声合成に適用される制御変数Ｘの時系列の設定（変数遷移データＷの生成）に利用される。すなわち、変数選択部４２による選択の結果（変数情報ＤP）に応じて合成音の音楽的な表情を変更することが可能である。したがって、合成音の音楽的な表情を変更するためには変数情報を利用者が編集する必要がある特許文献１の技術と比較して、合成音に所望の表情を付与するために必要な利用者の作業の負担が軽減されるという利点がある。さらに、以上の例示においては、変数情報ＤPが複数の制御変数Ｘの時間的な遷移を指示するから、変数情報ＤPが１種類の制御変数Ｘのみを指示する構成と比較すると、多様な表情の合成音を生成できるという格別の効果が実現される。

また、変数情報ＤPを音声合成に反映させる度合が利用者からの指示（効果調整値Ａ）に応じて可変に制御されるから、事前に用意された変数情報ＤPが音声合成に利用されるとは言っても、変数情報ＤPの反映の度合が固定された構成と比較すると、利用者の音楽的な意図を反映した多様な合成音を生成できるという利点がある。

＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態を説明する。なお、以下の各例示において作用や機能が第１実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。

図８は、第２実施形態における編集画像６０の模式図である。第２実施形態の区間設定部２６は、入力装置１４に対する利用者からの指示に応じて適用区間ＳAのうちの編集区間ＳBを可変に設定する。区間設定部２６は、時間的に重複しない複数の編集区間ＳBを利用者からの指示に応じて各適用区間ＳA内に順次に特定し得る。なお、編集区間ＳBの設定には、適用区間ＳAの設定と同様の方法が適用される。

表示制御部２２は、図８に示すように、区間設定部２６が設定した編集区間ＳBを示す区間指示子６２６と、その編集区間ＳBについて利用者が指示した識別情報（図８の「フレーズＡ」という名称）とを編集画像６０に配置する。また、表示制御部２２は、図９に示すように、区間設定部２６が設定した編集区間ＳBの識別情報と継続期間とを含むレコード７２を、適用区間ＳAのレコード７２とは別個に管理画像７０に配置する。なお、適用区間ＳAのうち編集区間ＳB以外の区間（以下「編集外区間」という）に関する処理は第１実施形態の適用区間ＳAに関する処理と同様であるから、以下では適宜に説明を省略する。

利用者は、所望の編集区間ＳBを選択して操作画像８０を適宜に操作することで、編集区間ＳBの区間条件と効果調整値Ａとを、編集外区間の区間条件や効果調整値Ａとは独立に設定することが可能である。変数選択部４２は、編集区間ＳBについて指示された区間条件に対応する変数情報ＤPを選択し、調整値設定部４４は、編集区間ＳBについて指示された効果調整値Ａを変数設定部４６に通知する。表示制御部２２は、利用者が指示した区間条件や効果調整値Ａを、管理画像７０内の編集区間ＳBのレコード７２に反映させる。例えば、図１０では、網掛で示すように、編集区間ＳBの効果調整値Ａを、その編集区間ＳBを含む適用区間ＳAの効果調整値Ａ（図９の80％）から増加した場合（80％→90％）が想定されている。

変数設定部４６は、適用区間ＳAのうち編集区間ＳBの変数遷移データＷと編集外区間の変数遷移データＷとを独立に設定する。すなわち、変数設定部４６は、適用区間ＳAのうち編集外区間について既に生成された変数遷移データＷを維持したまま、編集区間ＳBの変数遷移データＷを、変数選択部４２が編集区間ＳBについて選択した変数情報ＤPと調整値設定部４４が編集区間ＳBについて設定した効果調整値Ａとに応じて生成する。編集区間ＳBの変数遷移データＷの生成には、例えば、第１実施形態における適用区間ＳA内の変数遷移データＷの生成と同様の方法が採用される。

表示制御部２２は、図８に示すように、適用区間ＳA内の編集外区間について第１実施形態と同様に変数遷移画像６４２を表示するほか、編集区間ＳBの変数遷移データＷに応じた変数遷移画像６４２を、変数領域６４のうち編集区間ＳBに対応する領域に配置する。音声合成部３４は、編集区間ＳBについて変数設定部４６が設定した変数遷移データＷを、その編集区間ＳB内の各指定音の合成に適用して音声信号ＳOUTを生成する。

第２実施形態においては、適用区間ＳAのうち利用者からの指示に応じた編集区間ＳBについて、編集外区間とは独立に変数遷移データＷが生成される。すなわち、適用区間ＳA内の制御変数Ｘの時系列を利用者が部分的に編集することが可能である。したがって、適用区間ＳAのみが設定される構成（第１実施形態）と比較して、利用者の意図を高度に反映した多様な表情の合成音を生成できるという利点がある。

＜Ｃ：第３実施形態＞
第２実施形態のように適用区間ＳAのうち編集区間ＳBと編集外区間とで変数遷移データＷが個別に設定されると、図８における変数領域６４の内容から理解されるように、変数遷移データＷの示す制御変数Ｘの時系列が編集区間ＳBと編集外区間との境界にて不連続となる可能性がある。そこで、第３実施形態の変数設定部４６は、編集区間ＳBの内外で制御変数Ｘが連続する（滑らかに遷移する）ように、編集外区間の変数遷移データＷと編集区間ＳBの変数遷移データＷとの補間を実行する。

例えば変数設定部４６は、図１１に示すように、編集区間ＳB内の変数遷移データＷが示す制御変数Ｘの時系列α1と、その編集区間ＳBの直前および直後の区間（編集外区間）の変数遷移データＷが示す制御変数Ｘの時系列α2とを時間軸上で重複させたうえでクロスフェードすることで、編集区間ＳBの始点および終点の部分における制御変数Ｘの時系列α3（破線部分）を算定する。音声合成部３４は、補間後の変数遷移データＷを適用区間ＳA（編集区間ＳBおよび編集外区間）内の音声合成に適用する。

以上の構成によれば、編集区間ＳBと編集外区間との境界における制御変数Ｘの不連続な変化が抑制されるから、合成音の音楽的な表情の不自然（唐突）な変化が防止される。したがって、音楽的な表情が滑らかに遷移する自然な合成音を生成できるという利点がある。もっとも、編集区間ＳBの内外で音楽的な表情を不連続に変化させることが望ましい楽曲（制御変数Ｘを補間すると却って不自然となる楽曲）も存在し得るから、変数遷移データＷの補間の実行の有無を利用者が指示し得る構成が好適である。

＜Ｄ：第４実施形態＞
第２実施形態では編集区間ＳBの効果調整値Ａと編集外区間の効果調整値Ａとを独立に設定したが、編集区間ＳBと編集外区間とで効果調整値Ａが極端に相違すると、合成音の音楽的な表情の遷移が不自然となる可能性もある。そこで、第４実施形態では、編集区間ＳBの効果調整値Ａと編集外区間の効果調整値Ａとの一方を他方に連動して変化させる。

具体的には、調整値設定部４４は、編集区間ＳBの効果調整値Ａと編集外区間の効果調整値Ａとを、両者の比率（相対比）を維持しながら利用者からの指示に応じて変化させる。例えば、図１０の例示のように編集外区間（適用区間ＳA）の効果調整値Ａが80％に設定されるとともに編集区間ＳBの効果調整値Ａが90％に設定された場合を想定する。図１２の例示のように、利用者が編集外区間（パートＡ）の効果調整値Ａを80％から70％に変更すると、調整値設定部４４は、編集区間ＳBの効果調整値Ａを図１０の90％から78％（≒90×70／80）に変更する。編集区間ＳBの効果調整値Ａを利用者が変更した場合にも同様に、調整値設定部４４は、変更前の両者の比率が維持されるように編集外区間の効果調整値Ａを変更する。

以上の構成によれば、編集区間ＳBの効果調整値Ａと編集外区間の効果調整値Ａとの比率を維持したまま各々が変更されるから、編集区間ＳBの内外で音楽的な表情が不自然に変化することを抑制できるという利点がある。

＜Ｅ：変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）変形例１
区間条件を構成する属性は以上の例示（音質，ジャンル，曲部位）に限定されない。例えば、楽曲の調（キー）を含む区間条件に応じて変数情報ＤPを選択する構成が採用される。もっとも、変数情報ＤPの選択にとって区間条件の指示は必須ではなく、変数情報ＤPの選択の方法は適宜に変更される。例えば、複数の変数情報ＤPの何れかを利用者が直接的に（すなわち区間条件の入力を介さずに）入力装置１４から指示する構成も採用され得る。以上の説明から理解されるように、以上の各形態における変数選択部４２は、複数の変数情報ＤPのうち利用者からの指示に応じた変数情報ＤPを選択する要素として包括される。ただし、音質やジャンルや曲部位といった利用者に馴染みのある区間条件を変数情報ＤPの選択に利用する以上の各形態によれば、変数情報ＤPで付与される音楽的な表情について詳細な知識がなくても、利用者の所望の変数情報ＤPを音声合成に適用できるという格別の効果が実現される。

（２）変形例２
効果調整値Ａに応じた変数遷移データＷの生成の方法は任意である。例えば、変数遷移データＶに対して効果調整値Ａを加算または乗算することで変数設定部４６が変数遷移データＷを生成する構成も採用される。また、多様な表情の付与という効果が不要であれば、効果調整値Ａの設定（調整値設定部４４）は省略され得る。

（３）変形例３
第３実施形態においては編集区間ＳAと編集外区間とで制御変数Ｘを補間したが、時間軸上で相前後する２個の適用区間ＳAについて制御変数Ｘを補間する構成も採用される。適用区間ＳA間の制御変数Ｘの補間には、編集区間ＳAと編集外区間とで制御変数Ｘを補間する第３実施形態と同様の方法が採用される。各適用区間ＳAについて制御変数Ｘを補間する構成によれば、相前後する各適用区間ＳAの境界における制御変数Ｘの不連続な変化が抑制されるから、音楽的な表情が滑らかに遷移する自然な合成音を生成できるという利点がある。

（４）変形例４
以上の各形態においては、変数処理部３２（変数設定部４６）が生成した変数遷移データＷ（制御変数Ｘの時系列）に応じて音声合成部３４が音声信号ＳOUTを生成する音声合成装置１００を例示したが、音声合成に適用される変数遷移データＷを生成する装置（変数処理装置）としても本発明は実施され得る。

具体的には、変数処理装置は、制御変数Ｘの時系列を示す複数の変数情報ＤPを記憶する記憶装置１２と、利用者からの指示に応じて適用区間ＳAを可変に設定する区間設定部２６と、複数の変数情報ＤPのうち利用者からの指示に応じた変数情報ＤPを利用して適用区間ＳA内の制御変数Ｘの時系列（変数遷移データＷ）を設定する変数処理部３２とを具備する。すなわち、情報生成部２４や音声合成部３４や表示制御部２２は適宜に省略され得る。変数処理装置（変数処理部３２）が生成した変数遷移データＷは、可搬型の記録媒体や通信網を介して、変数処理装置とは別体の音声合成装置（音声合成部３４を具備する）に提供されて音声合成に適用される。

１００……音声合成装置、１０……制御装置、１２……記憶装置、１４……入力装置、１６……表示装置、１８……放音装置、２２……表示制御部、２４……情報生成部、２６……区間設定部、３２……変数処理部、３４……音声合成部、４２……変数選択部、４４……調整値設定部、４６……変数設定部、６０……編集画像、６２……楽譜領域、６２２……音指示子、６２４，６２６……区間指示子、６４……変数領域、７０……管理画像、７２……レコード、８０……操作画像、８２……条件指示領域、８４……調整値指示領域、６４２……変数遷移画像、ＳA……適用区間、ＳB……編集区間、ＤS……音楽情報、ＤV……音素情報、ＤP……変数情報、Ｖ，Ｗ……変数遷移データ。

Claims

音楽情報が示す指定音の時系列における適用区間を利用者からの指示に応じて可変に設定する区間設定手段と、
音声合成に適用される制御変数の時系列を示す複数の変数情報のうち、前記適用区間の属性を含む区間条件に関する利用者からの指示に応じた変数情報を選択する変数選択手段と、
前記変数選択手段が選択した変数情報に応じて前記適用区間内の制御変数の時系列を設定する変数設定手段と、
前記音楽情報が示す指定音を合成する手段であって、前記変数設定手段が設定した制御変数の時系列を前記適用区間内の指定音の合成に適用する音声合成手段と
を具備する音声合成装置。
音楽情報が示す指定音の時系列のうち複数の指定音を含む適用区間を利用者からの指示に応じて可変に設定する区間設定手段と、
音声合成に適用される制御変数の時系列を示す複数の変数情報のうち利用者からの指示に応じた変数情報を選択する変数選択手段と、
前記変数選択手段が選択した変数情報に応じて前記適用区間内の制御変数の時系列を設定する変数設定手段と、
前記音楽情報が示す指定音を合成する手段であって、前記変数設定手段が設定した制御変数の時系列を前記適用区間内の各指定音の合成に適用する音声合成手段と
を具備する音声合成装置。
音楽情報が示す指定音の時系列における適用区間を利用者からの指示に応じて可変に設定する区間設定手段と、
音声合成に適用される複数種の制御変数の時系列を各々が示す複数の変数情報のうち利用者からの指示に応じた変数情報を選択する変数選択手段と、
前記変数選択手段が選択した変数情報に応じて前記適用区間内の前記複数種の制御変数の各々の時系列を設定する変数設定手段と、
前記音楽情報が示す指定音を合成する手段であって、前記変数設定手段が設定した複数種の制御変数の時系列を前記適用区間内の指定音の合成に適用する音声合成手段と
を具備する音声合成装置。