JP5790860B2 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP5790860B2
JP5790860B2 JP2014203496A JP2014203496A JP5790860B2 JP 5790860 B2 JP5790860 B2 JP 5790860B2 JP 2014203496 A JP2014203496 A JP 2014203496A JP 2014203496 A JP2014203496 A JP 2014203496A JP 5790860 B2 JP5790860 B2 JP 5790860B2
Authority
JP
Japan
Prior art keywords
variable
section
time series
user
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014203496A
Other languages
English (en)
Other versions
JP2015038622A (ja
Inventor
雅史 吉田
雅史 吉田
久湊 裕司
裕司 久湊
隼人 大下
隼人 大下
吉岡 靖雄
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2014203496A priority Critical patent/JP5790860B2/ja
Publication of JP2015038622A publication Critical patent/JP2015038622A/ja
Application granted granted Critical
Publication of JP5790860B2 publication Critical patent/JP5790860B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声合成に適用される制御変数を設定する技術に関する。
発音の強度や息成分の強弱などの音楽的な表情が多様に制御された音声(典型的には歌唱音)を合成する技術が従来から提案されている。特許文献1には、合成の対象として指定された音(以下「指定音」という)の時系列を示す画像(ピアノロール画像)と、各指定音に付与される表情を示す複数種の制御変数の時間的な遷移を示すグラフとを、共通の時間軸のもとで表示する技術が提案されている。利用者は、予め時間的な遷移が設定された複数種の制御変数の何れかを選択してグラフを操作することで、その制御変数の時間的な遷移を編集することが可能である。
特開2008−165130号公報
しかし、特許文献1の技術のもとで合成音に付与される表情を変更するためには、予め用意された制御変数を利用者が編集する必要がある。したがって、制御変数とその制御変数に応じて変化する音楽的な表情との相関を熟知していない利用者にとって作業の負担が大きいという問題がある。複数種の制御変数を編集可能な構成では、複数種の制御変数の何れかを1種類ずつ順次に選択して編集する作業が必要であるから、作業の負担の増大という問題は特に深刻となる。以上の事情を考慮して、本発明は、複数種の制御変数を設定するための利用者の作業の負担を軽減することを目的とする。
以上の課題を解決するために、本発明の音声合成装置は、音楽情報が示す指定音(合成の対象として指定された音)の時系列における適用区間を利用者からの指示に応じて可変に設定する区間設定手段と、音声合成に適用される制御変数の時系列を示す複数の変数情報のうち利用者からの指示に応じた変数情報を選択する変数選択手段と、変数選択手段が選択した変数情報に応じて適用区間内の制御変数の時系列を設定する変数設定手段と、音楽情報が示す指定音を合成する手段であって、変数設定手段が設定した制御変数の時系列を適用区間内の指定音の合成に適用する音声合成手段とを具備する。なお、音楽情報および変数情報は、単体の記憶装置(例えば図1の記憶装置12)内に設定された別個の記憶領域、または、別体の記憶装置の各々に設定された記憶領域に記憶され得る。
以上の構成においては、制御変数の時間的な遷移を示す複数の変数情報のうち利用者からの指示に応じて選択された変数情報が、適用区間内の各指定音の音声合成に適用される制御変数Xの時系列の設定に利用される。したがって、合成音に付与される音楽的な表情を変更するためには利用者が制御変数の時系列を変更(編集)する必要がある特許文献1の技術と比較して、合成音に所望の表情を付与するために必要な利用者の作業の負担が軽減されるという利点がある。ただし、変数選択手段が複数の変数情報の何れかを選択する構成に加えて、変数設定手段による設定後の制御変数を特許文献1と同様に利用者が編集する構成も、本発明の範囲内の好適な態様として採用され得る。
本発明の好適な態様において、複数の変数情報の各々は、音声合成に適用される複数種の制御変数の各々について当該制御変数の時系列を示す。以上の態様においては、各変数情報が、複数種の制御変数の時系列を示すから、変数情報が1種類の制御変数のみを示す構成と比較すると、多様な表情の合成音を生成できるという利点がある。
本発明の好適な態様に係る音声合成装置は、音楽情報が示す各指定音に対応する音指示子の時系列と、変数設定手段が設定した制御変数の時系列とを、時間軸を共通にして表示装置に表示させる表示制御手段を具備する。以上の態様においては、各指定音の音指示子の時系列と制御変数の時系列とが時間軸を共通にして表示されるから、制御変数に応じて各指定音に付与される音楽的な表情を利用者が容易に確認できるという利点がある。
本発明の好適な態様において、変数選択手段は、合成音の複数の属性(例えば音質やジャンルや曲部位や調)の各々に関する選択肢の相異なる組合せに対応する複数の変数情報のうち、利用者が前記各属性について指示した選択肢の組合せに対応する変数情報を選択する。以上の態様によれば、利用者に馴染みのある属性の指示に応じて変数情報が選択されるから、変数情報で指示される音楽的な表情について利用者に詳細な知識がなくても、適切な変数情報を音声合成に適用できるという利点がある。
本発明の好適な態様において、区間設定手段は、適用区間内の編集区間を利用者からの指示に応じて可変に設定し、変数設定手段は、適用区間のうち編集区間内の制御変数の時系列と編集区間以外の区間(編集外区間)内の制御変数の時系列とを独立に設定し得る。以上の態様においては、適用区間のうち利用者からの指示に応じた編集区間について編集区間以外の区間内とは独立に制御変数の時系列が設定される。すなわち、適用区間内の制御変数の時系列を部分的に変更することが可能である。したがって、適用区間のみが設定される構成と比較して、利用者に意図を高度に反映した多様な表情の合成音を生成できるという利点がある。以上の態様の具体例は、例えば第2実施形態として後述される。
ところで、編集区間と編集外区間とで制御変数の時系列が独立に設定される構成では、制御変数の時系列が編集区間と編集外区間との境界にて不連続となる可能性がある。そこで、本発明の好適な態様において、変数設定手段は、適用区間における編集区間の内外で制御変数が連続するように制御変数の補間を実行する。以上の態様においては、編集区間と編集外区間との境界における制御変数の不連続な変化が抑制されるから、合成音の音楽的な表情の不自然(唐突)な変化が防止されるという利点がある。なお、以上の態様の具体例は、例えば第3実施形態として後述される。
本発明の好適な態様に係る音声合成装置は、利用者からの指示に応じて効果調整値を可変に設定する調整値設定手段を具備し、変数設定手段は、効果調整値に応じた度合で変数情報が適用区間内の指定音の合成に反映されるように適用区間内の制御変数の時系列を設定する。以上の態様においては、利用者からの指示で設定された効果調整値に応じた度合で変数情報が音声合成に反映されるから、利用者の音楽的な意図を反映した多様な表情の合成音を生成できるという利点がある。
本発明の好適な態様に係る音声合成装置は、利用者からの指示に応じた効果調整値を適用区間のうちの編集区間と編集区間以外の区間とで個別に設定する調整値設定手段を具備し、変数設定手段は、編集区間の効果調整値に応じた度合で当該編集区間内の指定音の合成に変数情報が反映され、編集区間以外の区間の効果調整値に応じた度合で当該区間内の指定音の合成に変数情報が反映されるように、適用区間内の制御変数の時系列を設定する。以上の態様においては、適用区間のうちの編集区間と編集外区間とについて設定された効果調整値に応じて、制御変数の時系列が編集区間と編集外区間とで独立に設定される。したがって、利用者に意図に沿った多様な表情の合成音を生成できるという利点がある。
なお、編集区間と編集外区間とについて効果調整値が設定される構成では、編集区間と編集外区間とで効果調整値が極端に相違することに起因して、合成音の音楽的な表情が不自然となる可能性もある。そこで、本発明の好適な態様における調整値設定手段は、適用区間のうち編集区間の効果調整値と編集区間以外の効果調整値とを、両者の比率を維持しながら、利用者からの指示に応じて変化させる。以上の態様においては、編集区間の効果調整値と編集外区間の効果調整値との比率が維持されるから、編集区間の内外で合成音の音楽的な表情が不自然に変化することを抑制できるという利点がある。なお、以上の態様の具体例は、例えば第4実施形態として後述される。
以上の各態様に係る音楽情報処理装置は、音楽情報の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータを、音楽情報が示す指定音(合成の対象として指定された音)の時系列における適用区間を利用者からの指示に応じて可変に設定する区間設定手段、音声合成に適用される制御変数の時系列を示す複数の変数情報のうち利用者からの指示に応じた変数情報を選択する変数選択手段、変数選択手段が選択した変数情報に応じて適用区間内の制御変数の時系列を設定する変数設定手段、および、音楽情報が示す指定音を合成する手段であって、変数設定手段が設定した制御変数の時系列を適用区間内の指定音の合成に適用する音声合成手段として機能させる。以上のプログラムによれば、本発明に係る音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
第1実施形態に係る音声合成装置のブロック図である。 編集画像の模式図である。 適用区間が指示された場合の編集画像の模式図である。 管理画像の模式図である。 操作画像の模式図である。 区間条件および効果調整値が指示された場合の操作画像の模式図である。 変数遷移画像が表示された状態の編集画像の模式図である。 第2実施形態における編集画像の模式図である。 第2実施形態における管理画像の模式図である。 第2実施形態における管理画像の模式図である。 第3実施形態の区間設定部による制御変数の補間を説明するための模式図である。 第4実施形態における管理画像の模式図である。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、歌唱音などの様々な音声(以下「合成音」という)を合成する装置であり、図1に示すように、制御装置10と記憶装置12と入力装置14と表示装置16と放音装置18とを具備するコンピュータシステムで実現される。音声合成装置100を楽曲の歌唱音の合成に利用する場合を以下では想定する。
制御装置(CPU)10は、記憶装置12に記憶されたプログラムPGの実行で、音声信号SOUTの生成に必要な複数の機能(表示制御部22,情報生成部24,区間設定部26,変数処理部32,音声合成部34)を実現する。音声信号SOUTは、合成音の波形を表す信号である。なお、制御装置10の各機能を専用の電子回路(DSP)で実現した構成や、制御装置10の各機能を複数の集積回路に分散した構成も採用され得る。
入力装置14は、利用者からの指示を受付ける機器(例えばマウスやキーボード)である。表示装置(例えば液晶表示装置)16は、制御装置10から指示された画像を表示する。放音装置(例えばスピーカやヘッドホン)18は、制御装置10が生成する音声信号SOUTに応じた音波を放射する。
記憶装置12は、制御装置10が実行するプログラムPGや制御装置10が使用する各種のデータ(音素情報DV,音楽情報DS,変数情報DP)を記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体(または複数種の記録媒体の組合せ)が記憶装置12として任意に採用される。なお、プログラムPGや各データ(DV,DS,DP)を複数の記録媒体に分散して記憶した構成も採用され得る。
音素情報DVは、合成音の素材として利用されるデータ群であり、相異なる音声素片に対応する多数の素片データ(例えば音声素片の時間波形や特徴量を示すデータ)を含んで構成される。音声素片は、音声を聴覚的に区別し得る最小の単位に相当する音素、または複数の音素を連結した音素連鎖である。
音楽情報DSは、楽曲を構成する各指定音の時系列を示す情報(スコアデータ)である。具体的には、音楽情報DSは、指定音の音高(ノートナンバ)と発音期間(例えば発音の開始時刻と継続長)と発音文字(例えば歌詞の文字に対応する音節や音韻)とを楽曲内の指定音毎に指定する。
変数情報DPは、音声合成に適用される複数種の制御変数(コントロールパラメータ)Xの時間的な変化を示すデータ群である。制御変数Xは、合成音に付与される音楽的な表情を制御するための変数である。具体的には、指定音の発音の強弱(velocity),音量(dynamics),息成分の強弱(breathness)、明瞭度(brightness,clearness),発音時の開口度(opening),発音者の性別(genderfactor),音高を連続的に変化(ポルタメント)させる時点(portamento-timing),音高の微小変化(pitch-bend),音高の微小変化の最大幅(pitch-bend sensitivity)など、音声合成に適用される公知の変数が制御変数Xとして任意に採用される。
図1に示すように、記憶装置12は複数の変数情報DPを記憶する。1個の変数情報DPは、相異なる種類の制御変数X(X1,X2,……)に対応する複数の変数遷移データVを含んで構成される。各制御変数Xの変数遷移データVは、所定の時間にわたる当該制御変数Xの時系列(時間的な遷移)を示すデータ列である。各変数遷移データVが示す制御変数Xの変化の態様は、同種の制御変数Xの変数遷移データVでも変数情報DP毎に相違し得る。なお、変数情報DP内の各変数遷移データVが示す制御変数Xの種類は、基本的には複数の変数情報DPで共通するが、変数情報DP毎に制御変数Xの種類が相違する構成を採用することも可能である。
図1の表示制御部22は、音楽情報DSの生成および編集や合成音に付与される音楽的な表情の編集のために利用者が視認する画像(編集画像60,管理画像70,操作画像80)を表示装置16に表示させる。図2は、音楽情報DSの作成および編集に使用される編集画像60の模式図である。図2に示すように、編集画像60は、指定音の時系列を表示する楽譜領域62と、制御変数Xの経時的な変化を表示する変数領域64とを含んで構成される。
楽譜領域62は、音高に対応する縦軸(音高軸)と時間に対応する横軸(時間軸)とが設定されたピアノロール型の画像領域である。利用者は、楽譜領域62を視認しながら入力装置14を適宜に操作することで指定音の音高と発音期間(始点および終点)とを指示する。表示制御部22は、利用者から指示された指定音に対応する音指示子622を楽譜領域62内に配置する。音高軸の方向における音指示子622の位置は利用者が指示した音高に応じて決定され、時間軸の方向における音指示子622の位置およびサイズは利用者が指示した発音期間に応じて決定される。また、利用者は、入力装置14を適宜に操作することで各指定音の発音文字(歌詞)を指示する。なお、指定音の音譜を五線譜に記譜した楽譜の画像を楽譜領域62に配置する構成も採用され得る。
図1の情報生成部24は、楽譜領域62に対して利用者から指示された指定音の音高と発音期間と発音文字とを対応させて記憶装置12の音楽情報DSに格納する。以上の処理が反復されることで、利用者から指示された指定音の時系列を示す音楽情報DSが記憶装置12に生成され、各指定音の音指示子622の時系列が図2の例示のように楽譜領域62に表示される。
図1の区間設定部26は、音楽情報DSが示す指定音の時系列(楽曲)のうち変数情報DPの適用の対象となる区間(以下「適用区間」という)SAを、入力装置14に対する利用者からの指示に応じて可変に設定する。例えば、区間設定部26は、楽譜領域62に対して利用者から指示された始点から終点にわたる区間を適用区間SAとして特定する。区間設定部26は、時間的に重複しない複数の適用区間SAを利用者からの指示に応じて楽曲内に順次に特定する。各適用区間SAの始点および終点は、入力装置14に対する利用者からの指示に応じて随時に変更され得る。
図3に示すように、表示制御部22は、区間設定部26が設定した適用区間SAを示す区間指示子(網掛の部分)624を編集画像60に配置する。区間指示子624は、例えば、楽譜領域62のうち適用区間SAの始点から終点にかけて時間軸に沿って延在する帯状の画像である。また、利用者が指示した適用区間SAの識別情報(例えば図3の「パートA」という名称)が区間指示子624に付加される。
また、表示制御部22は、各適用区間SAの管理に利用される図4の管理画像70を表示装置16に表示させる。図4に示すように、管理画像70は、適用区間SA毎にレコード72を配置した図表である。各レコード72は、適用区間SAの識別情報(名称)と継続期間とを含んで構成される。継続期間は、適用区間SAの始点と終点とで指定される。なお、継続期間の指定の方法は任意である。例えば、図4の例示のように始点および終点の時刻を指定する方法のほか、楽曲内の小節や拍点の番号で継続期間の始点および終点を指定する方法も採用され得る。利用者は、管理画像70に対する直接的な入力(継続期間や識別情報の入力)で適用区間SAを指示することも可能である。すなわち、区間設定部26は、管理画像70に対して利用者が入力した継続期間に相当する適用区間SAを設定する。
図1の変数処理部32は、相異なる制御変数X(X1,X2,……)に対応する複数の変数遷移データWを記憶装置12内の変数情報DP(各変数遷移データV)から生成する。各制御変数Xに対応する変数遷移データWは、適用区間SAの音声合成に適用されるべき当該制御変数Xの時系列(時間的な遷移)を示すデータ列である。変数処理部32の具体的な構成や動作については後述する。
音声合成部34は、記憶装置12に格納された音楽情報DSが示す指定音を合成して音声信号SOUTを生成する。具体的には、音声合成部34は、記憶装置12の音素情報DVのうち音楽情報DSが示す各指定音の発音文字(音声素片)に対応する素片データを、音楽情報DSが示す音高および発音期間に調整したうえで相互に連結することで音声信号SOUTを生成する。音楽情報DSが示す指定音の時系列(楽曲)のうち区間設定部26が設定した適用区間SA内の各指定音の合成には、変数処理部32が生成した複数の変数遷移データWが適用される。すなわち、音楽情報DSが示す指定音に対して各制御変数Xの変数遷移データWに応じた音楽的な表情を付与した合成音の音声信号SOUTが生成される。なお、適用区間SA以外の区間の各指定音については、音楽的な表情を付与しない構成や、各制御変数Xを所定値(初期値)に固定して表情を付与する構成が採用され得る。音楽情報DSおよび制御変数Xに応じた音声合成には公知の技術が任意に採用される。
図1に示すように、変数処理部32は、変数選択部42と調整値設定部44と変数設定部46とを含んで構成される。変数選択部42は、記憶装置12に格納された複数の変数情報DPのうち利用者からの指示に応じた変数情報DPを適用区間SA毎に選択する。具体的には、変数選択部42は、適用区間SAについて利用者が入力装置14から指示した条件(以下「区間条件」という)に応じた変数情報DPを記憶装置12から取得する。図1の調整値設定部44は、変数選択部42が選択した変数情報DPを音声合成に反映させる度合を示す効果調整値Aを、入力装置14に対する利用者からの指示に応じて可変に設定する。
表示制御部22は、区間条件および効果調整値Aの指示に利用される図5の操作画像80を表示装置16に表示させる。図5に示すように、操作画像80は、区間条件の指示に利用される条件指示領域82と、効果調整値Aの指示に利用される調整値指示領域84とを含んで構成される。
区間条件は、適用区間SAに関する複数の属性(音質,ジャンル,曲部位)で規定される。条件指示領域82は、区間条件を規定する複数の属性の各々について、利用者が選択し得る複数の選択肢(候補)を羅列した画像である。具体的には、図5の例示のように、適用区間SAの音質に関する複数の選択肢(男声,女声,ロボット声)と、適用区間SAのジャンルに関する複数の選択肢(ロック,ポップス,ジャズ,……)と、適用区間SAの曲部位に関する複数の選択肢(イントロ,Aメロ,Bメロ,サビ,……)とが条件指示領域82に配列される。なお、以上の例示からも理解されるように、曲部位は、楽曲内における適用区間SAの構造的な位置付けに相当する。
利用者は、入力装置14を適宜に操作することで、適用区間SAの各属性について、条件指示領域82に配列された何れかの選択肢を指示する。図5では、利用者が、声質について「女声」を選択し、ジャンルについて「ボサノバ」を選択し、曲部位について「Aメロ」を選択した場合が例示されている。利用者が属性毎に指示した選択肢の組合せが区間条件として変数選択部42に指示される。
記憶装置12は、利用者から指示され得る区間条件毎(すなわち、各属性について選択され得る選択肢の組合せ毎)に変数情報DPを記憶する。各区間条件に対応する変数情報DPの各変数遷移データVは、変数遷移データVが示す制御変数Xの時系列で表現される音楽的な表情の時間的な遷移が、その区間条件(音質,ジャンル,曲部位)を満たす旋律に対して音楽的に適合するように作成される。例えば、図5の例示で指示された区間条件(女声,ボサノバ,Aメロ)に対応する変数情報DPの各変数遷移データVは、各変数遷移データVが示す音楽的な表情の時間的な遷移が、「ボサノバ」の楽曲のうち「Aメロ」の旋律を「女声」で発声した場合の歌唱音に対して音楽的に適合するように作成される。図1の変数選択部42は、記憶装置12が記憶する複数の変数情報DPのうち、利用者から指示された区間条件に適合または近似する変数情報DPを記憶装置12から選択的に取得する。
他方、図5の調整値指示領域84には、入力装置14に対する操作に応じて移動するスライダ型の操作子画像842が配置される。調整値設定部44は、利用者が入力装置14の操作で移動させた操作子画像842の位置に応じた効果調整値Aを設定する。例えば、調整値設定部44は、移動可能な範囲の下端に操作子画像842が位置する場合には効果調整値Aを最小値(例えば0%)に設定し、移動可能な範囲の上端に操作子画像842が位置する場合には効果調整値Aを最大値(例えば100%)に設定する。効果調整値Aが最小値(0%)である場合、例えば図5にて「OFF」が併記された図形“○”の点灯で、適用区間SA内の合成音に音楽的な表情を付与しないことが表示され、効果調整値Aが最小値を上回る場合、図5にて「ON」が併記された図形“○”の点灯で、適用区間SA内の合成音に音楽的な表情を付与することが表示される。
図6に示すように、利用者が条件指示領域82に対して指示した区間条件と調整値指示領域84に対して指示した効果調整値Aとは管理画像70にも反映される。なお、利用者は、入力装置14を適宜に操作することで、管理画像70に対して直接的に区間条件や効果調整値Aを入力することも可能である。すなわち、管理画像70に入力された区間条件に応じて変数選択部42は変数情報DPを選択し、管理画像70に対する入力に応じて調整値設定部44は効果調整値Aを設定する。
図1の変数設定部46は、適用区間SAの音声合成に適用される各制御変数X(X1,X2,……)の変数遷移データWを、変数選択部42が選択した変数情報DPと調整値設定部44が設定した効果調整値Aとに応じて生成する。具体的には、変数設定部46は、以下に例示する第1処理と第2処理とを実行する。
記憶装置12に記憶された変数情報DPの各変数遷移データVは、適用区間SAとは無関係に事前に選定された所定の時間にわたる制御変数Xの時系列を指示する。第1処理は、変数情報DPの各変数遷移データVを、区間設定部26が設定した適用区間SAの時間長に合致するように伸縮する処理である。例えば、各変数遷移データVが示す制御変数Xの時系列を例えば補間(間引)により伸縮する処理や、制御変数Xの時系列が反復するように変数遷移データVを時間軸に沿って連結する処理が、第1処理として採用され得る。
第2処理は、第1処理後の各変数遷移データVを効果調整値Aに応じて調整することで各変数遷移データWを生成する処理である。具体的には、変数設定部46は、変数遷移データWにおける制御変数Xの時系列と、第1処理後の変数遷移データVにおける当該制御変数Xの時系列との近似の度合(すなわち、変数遷移データWに対して変数遷移データVが反映される度合)が効果調整値Aに応じて変化するように、各制御変数Xの変数遷移データWを第2処理で生成する。例えば、変数設定部46は、効果調整値Aが最大値(100%)に近いほど、第2処理後の各変数遷移データWにおける制御変数Xの時系列が変数遷移データVの制御変数Xの時系列に近づき、効果調整値Aが最小値(0%)に近いほど、第2処理後の各変数遷移データWにおける制御変数Xが、変数遷移データVとは無関係の所定値(例えばゼロ)に近づくように、各制御変数Xの変数遷移データWを生成する。なお、以上では第1処理の実行後に第2処理を実行したが、第2処理の実行後に第1処理を実行する構成も採用される。
音声合成部34は、以上の手順で変数処理部32(変数設定部46)が生成した各変数遷移データWの制御変数Xの時系列を適用区間SA内の各指定音の合成に適用して音声信号SOUTを生成する。他方、表示制御部22は、図7に示すように、各変数遷移データWが示す制御変数Xの時系列を示す画像(以下「変数遷移画像」という)642を編集画像60内の変数領域64に制御変数X毎に配置する。具体的には、制御変数Xの遷移を示すグラフ(例えば折れ線グラフ)が変数遷移画像642として変数領域64に表示される。表示制御部22は、変数領域64内の変数遷移画像642が示す制御変数Xの時系列と、楽譜領域62内の各音指示子622(指定音)の時系列とで時間軸が共通(一致)するように変数遷移画像642を表示する。すなわち、変数領域64内の変数遷移画像642のうち時間軸上の各時点での制御変数Xは、楽譜領域62のうちその時点に存在する指定音の合成に適用される。
図7に示すように、変数遷移画像642は、制御変数X毎に相異なる態様(表示色や線幅や線種)で表示される。例えば、図7では、制御変数X1の変数遷移画像642を実線で表示し、制御変数X2の変数遷移画像642を破線で表示した場合が例示されている。なお、複数の制御変数Xのうち利用者から指示された1種以上の制御変数Xの変数遷移画像642のみを選択的に変数領域64に配置する構成も採用され得る。また、変数領域64内の各変数遷移画像642を変更(編集)する指示が入力装置14から入力された場合に、その変数遷移画像642に対応する変数遷移データW(制御変数Xの時系列)を変数設定部46が変更の指示に応じて更新する構成も好適である。
以上に説明したように、第1実施形態においては、制御変数Xの時間的な遷移を示す複数の変数情報DPのうち利用者からの指示(区間条件)に応じて選択された変数情報DPが、適用区間SA内の各指定音の音声合成に適用される制御変数Xの時系列の設定(変数遷移データWの生成)に利用される。すなわち、変数選択部42による選択の結果(変数情報DP)に応じて合成音の音楽的な表情を変更することが可能である。したがって、合成音の音楽的な表情を変更するためには変数情報を利用者が編集する必要がある特許文献1の技術と比較して、合成音に所望の表情を付与するために必要な利用者の作業の負担が軽減されるという利点がある。さらに、以上の例示においては、変数情報DPが複数の制御変数Xの時間的な遷移を指示するから、変数情報DPが1種類の制御変数Xのみを指示する構成と比較すると、多様な表情の合成音を生成できるという格別の効果が実現される。
また、変数情報DPを音声合成に反映させる度合が利用者からの指示(効果調整値A)に応じて可変に制御されるから、事前に用意された変数情報DPが音声合成に利用されるとは言っても、変数情報DPの反映の度合が固定された構成と比較すると、利用者の音楽的な意図を反映した多様な合成音を生成できるという利点がある。
<B:第2実施形態>
次に、本発明の第2実施形態を説明する。なお、以下の各例示において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
図8は、第2実施形態における編集画像60の模式図である。第2実施形態の区間設定部26は、入力装置14に対する利用者からの指示に応じて適用区間SAのうちの編集区間SBを可変に設定する。区間設定部26は、時間的に重複しない複数の編集区間SBを利用者からの指示に応じて各適用区間SA内に順次に特定し得る。なお、編集区間SBの設定には、適用区間SAの設定と同様の方法が適用される。
表示制御部22は、図8に示すように、区間設定部26が設定した編集区間SBを示す区間指示子626と、その編集区間SBについて利用者が指示した識別情報(図8の「フレーズA」という名称)とを編集画像60に配置する。また、表示制御部22は、図9に示すように、区間設定部26が設定した編集区間SBの識別情報と継続期間とを含むレコード72を、適用区間SAのレコード72とは別個に管理画像70に配置する。なお、適用区間SAのうち編集区間SB以外の区間(以下「編集外区間」という)に関する処理は第1実施形態の適用区間SAに関する処理と同様であるから、以下では適宜に説明を省略する。
利用者は、所望の編集区間SBを選択して操作画像80を適宜に操作することで、編集区間SBの区間条件と効果調整値Aとを、編集外区間の区間条件や効果調整値Aとは独立に設定することが可能である。変数選択部42は、編集区間SBについて指示された区間条件に対応する変数情報DPを選択し、調整値設定部44は、編集区間SBについて指示された効果調整値Aを変数設定部46に通知する。表示制御部22は、利用者が指示した区間条件や効果調整値Aを、管理画像70内の編集区間SBのレコード72に反映させる。例えば、図10では、網掛で示すように、編集区間SBの効果調整値Aを、その編集区間SBを含む適用区間SAの効果調整値A(図9の80%)から増加した場合(80%→90%)が想定されている。
変数設定部46は、適用区間SAのうち編集区間SBの変数遷移データWと編集外区間の変数遷移データWとを独立に設定する。すなわち、変数設定部46は、適用区間SAのうち編集外区間について既に生成された変数遷移データWを維持したまま、編集区間SBの変数遷移データWを、変数選択部42が編集区間SBについて選択した変数情報DPと調整値設定部44が編集区間SBについて設定した効果調整値Aとに応じて生成する。編集区間SBの変数遷移データWの生成には、例えば、第1実施形態における適用区間SA内の変数遷移データWの生成と同様の方法が採用される。
表示制御部22は、図8に示すように、適用区間SA内の編集外区間について第1実施形態と同様に変数遷移画像642を表示するほか、編集区間SBの変数遷移データWに応じた変数遷移画像642を、変数領域64のうち編集区間SBに対応する領域に配置する。音声合成部34は、編集区間SBについて変数設定部46が設定した変数遷移データWを、その編集区間SB内の各指定音の合成に適用して音声信号SOUTを生成する。
第2実施形態においては、適用区間SAのうち利用者からの指示に応じた編集区間SBについて、編集外区間とは独立に変数遷移データWが生成される。すなわち、適用区間SA内の制御変数Xの時系列を利用者が部分的に編集することが可能である。したがって、適用区間SAのみが設定される構成(第1実施形態)と比較して、利用者の意図を高度に反映した多様な表情の合成音を生成できるという利点がある。
<C:第3実施形態>
第2実施形態のように適用区間SAのうち編集区間SBと編集外区間とで変数遷移データWが個別に設定されると、図8における変数領域64の内容から理解されるように、変数遷移データWの示す制御変数Xの時系列が編集区間SBと編集外区間との境界にて不連続となる可能性がある。そこで、第3実施形態の変数設定部46は、編集区間SBの内外で制御変数Xが連続する(滑らかに遷移する)ように、編集外区間の変数遷移データWと編集区間SBの変数遷移データWとの補間を実行する。
例えば変数設定部46は、図11に示すように、編集区間SB内の変数遷移データWが示す制御変数Xの時系列α1と、その編集区間SBの直前および直後の区間(編集外区間)の変数遷移データWが示す制御変数Xの時系列α2とを時間軸上で重複させたうえでクロスフェードすることで、編集区間SBの始点および終点の部分における制御変数Xの時系列α3(破線部分)を算定する。音声合成部34は、補間後の変数遷移データWを適用区間SA(編集区間SBおよび編集外区間)内の音声合成に適用する。
以上の構成によれば、編集区間SBと編集外区間との境界における制御変数Xの不連続な変化が抑制されるから、合成音の音楽的な表情の不自然(唐突)な変化が防止される。したがって、音楽的な表情が滑らかに遷移する自然な合成音を生成できるという利点がある。もっとも、編集区間SBの内外で音楽的な表情を不連続に変化させることが望ましい楽曲(制御変数Xを補間すると却って不自然となる楽曲)も存在し得るから、変数遷移データWの補間の実行の有無を利用者が指示し得る構成が好適である。
<D:第4実施形態>
第2実施形態では編集区間SBの効果調整値Aと編集外区間の効果調整値Aとを独立に設定したが、編集区間SBと編集外区間とで効果調整値Aが極端に相違すると、合成音の音楽的な表情の遷移が不自然となる可能性もある。そこで、第4実施形態では、編集区間SBの効果調整値Aと編集外区間の効果調整値Aとの一方を他方に連動して変化させる。
具体的には、調整値設定部44は、編集区間SBの効果調整値Aと編集外区間の効果調整値Aとを、両者の比率(相対比)を維持しながら利用者からの指示に応じて変化させる。例えば、図10の例示のように編集外区間(適用区間SA)の効果調整値Aが80%に設定されるとともに編集区間SBの効果調整値Aが90%に設定された場合を想定する。図12の例示のように、利用者が編集外区間(パートA)の効果調整値Aを80%から70%に変更すると、調整値設定部44は、編集区間SBの効果調整値Aを図10の90%から78%(≒90×70/80)に変更する。編集区間SBの効果調整値Aを利用者が変更した場合にも同様に、調整値設定部44は、変更前の両者の比率が維持されるように編集外区間の効果調整値Aを変更する。
以上の構成によれば、編集区間SBの効果調整値Aと編集外区間の効果調整値Aとの比率を維持したまま各々が変更されるから、編集区間SBの内外で音楽的な表情が不自然に変化することを抑制できるという利点がある。
<E:変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)変形例1
区間条件を構成する属性は以上の例示(音質,ジャンル,曲部位)に限定されない。例えば、楽曲の調(キー)を含む区間条件に応じて変数情報DPを選択する構成が採用される。もっとも、変数情報DPの選択にとって区間条件の指示は必須ではなく、変数情報DPの選択の方法は適宜に変更される。例えば、複数の変数情報DPの何れかを利用者が直接的に(すなわち区間条件の入力を介さずに)入力装置14から指示する構成も採用され得る。以上の説明から理解されるように、以上の各形態における変数選択部42は、複数の変数情報DPのうち利用者からの指示に応じた変数情報DPを選択する要素として包括される。ただし、音質やジャンルや曲部位といった利用者に馴染みのある区間条件を変数情報DPの選択に利用する以上の各形態によれば、変数情報DPで付与される音楽的な表情について詳細な知識がなくても、利用者の所望の変数情報DPを音声合成に適用できるという格別の効果が実現される。
(2)変形例2
効果調整値Aに応じた変数遷移データWの生成の方法は任意である。例えば、変数遷移データVに対して効果調整値Aを加算または乗算することで変数設定部46が変数遷移データWを生成する構成も採用される。また、多様な表情の付与という効果が不要であれば、効果調整値Aの設定(調整値設定部44)は省略され得る。
(3)変形例3
第3実施形態においては編集区間SAと編集外区間とで制御変数Xを補間したが、時間軸上で相前後する2個の適用区間SAについて制御変数Xを補間する構成も採用される。適用区間SA間の制御変数Xの補間には、編集区間SAと編集外区間とで制御変数Xを補間する第3実施形態と同様の方法が採用される。各適用区間SAについて制御変数Xを補間する構成によれば、相前後する各適用区間SAの境界における制御変数Xの不連続な変化が抑制されるから、音楽的な表情が滑らかに遷移する自然な合成音を生成できるという利点がある。
(4)変形例4
以上の各形態においては、変数処理部32(変数設定部46)が生成した変数遷移データW(制御変数Xの時系列)に応じて音声合成部34が音声信号SOUTを生成する音声合成装置100を例示したが、音声合成に適用される変数遷移データWを生成する装置(変数処理装置)としても本発明は実施され得る。
具体的には、変数処理装置は、制御変数Xの時系列を示す複数の変数情報DPを記憶する記憶装置12と、利用者からの指示に応じて適用区間SAを可変に設定する区間設定部26と、複数の変数情報DPのうち利用者からの指示に応じた変数情報DPを利用して適用区間SA内の制御変数Xの時系列(変数遷移データW)を設定する変数処理部32とを具備する。すなわち、情報生成部24や音声合成部34や表示制御部22は適宜に省略され得る。変数処理装置(変数処理部32)が生成した変数遷移データWは、可搬型の記録媒体や通信網を介して、変数処理装置とは別体の音声合成装置(音声合成部34を具備する)に提供されて音声合成に適用される。
100……音声合成装置、10……制御装置、12……記憶装置、14……入力装置、16……表示装置、18……放音装置、22……表示制御部、24……情報生成部、26……区間設定部、32……変数処理部、34……音声合成部、42……変数選択部、44……調整値設定部、46……変数設定部、60……編集画像、62……楽譜領域、622……音指示子、624,626……区間指示子、64……変数領域、70……管理画像、72……レコード、80……操作画像、82……条件指示領域、84……調整値指示領域、642……変数遷移画像、SA……適用区間、SB……編集区間、DS……音楽情報、DV……音素情報、DP……変数情報、V,W……変数遷移データ。

Claims (3)

  1. 音楽情報が示す指定音の時系列における適用区間を利用者からの指示に応じて可変に設定する区間設定手段と、
    音声合成に適用される制御変数の時系列を示す複数の変数情報のうち、前記適用区間の属性を含む区間条件に関する利用者からの指示に応じた変数情報を選択する変数選択手段と、
    前記変数選択手段が選択した変数情報に応じて前記適用区間内の制御変数の時系列を設定する変数設定手段と、
    前記音楽情報が示す指定音を合成する手段であって、前記変数設定手段が設定した制御変数の時系列を前記適用区間内の指定音の合成に適用する音声合成手段と
    を具備する音声合成装置。
  2. 音楽情報が示す指定音の時系列のうち複数の指定音を含む適用区間を利用者からの指示に応じて可変に設定する区間設定手段と、
    音声合成に適用される制御変数の時系列を示す複数の変数情報のうち利用者からの指示に応じた変数情報を選択する変数選択手段と、
    前記変数選択手段が選択した変数情報に応じて前記適用区間内の制御変数の時系列を設定する変数設定手段と、
    前記音楽情報が示す指定音を合成する手段であって、前記変数設定手段が設定した制御変数の時系列を前記適用区間内の各指定音の合成に適用する音声合成手段と
    を具備する音声合成装置。
  3. 音楽情報が示す指定音の時系列における適用区間を利用者からの指示に応じて可変に設定する区間設定手段と、
    音声合成に適用される複数種の制御変数の時系列を各々が示す複数の変数情報のうち利用者からの指示に応じた変数情報を選択する変数選択手段と、
    前記変数選択手段が選択した変数情報に応じて前記適用区間内の前記複数種の制御変数の各々の時系列を設定する変数設定手段と、
    前記音楽情報が示す指定音を合成する手段であって、前記変数設定手段が設定した複数種の制御変数の時系列を前記適用区間内の指定音の合成に適用する音声合成手段と
    を具備する音声合成装置。
JP2014203496A 2014-10-01 2014-10-01 音声合成装置 Active JP5790860B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014203496A JP5790860B2 (ja) 2014-10-01 2014-10-01 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014203496A JP5790860B2 (ja) 2014-10-01 2014-10-01 音声合成装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009247784A Division JP5625321B2 (ja) 2009-10-28 2009-10-28 音声合成装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2015038622A JP2015038622A (ja) 2015-02-26
JP5790860B2 true JP5790860B2 (ja) 2015-10-07

Family

ID=52631687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014203496A Active JP5790860B2 (ja) 2014-10-01 2014-10-01 音声合成装置

Country Status (1)

Country Link
JP (1) JP5790860B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7000782B2 (ja) * 2017-09-29 2022-01-19 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置

Also Published As

Publication number Publication date
JP2015038622A (ja) 2015-02-26

Similar Documents

Publication Publication Date Title
JP6236765B2 (ja) 音楽データ編集装置および音楽データ編集方法
JP5625321B2 (ja) 音声合成装置およびプログラム
JP6620462B2 (ja) 合成音声編集装置、合成音声編集方法およびプログラム
JP6665446B2 (ja) 情報処理装置、プログラム及び音声合成方法
JP2008164932A (ja) 音楽編集装置および方法、並びに、プログラム
JP5817854B2 (ja) 音声合成装置およびプログラム
JP2019066649A (ja) 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP5423375B2 (ja) 音声合成装置
JP2016090916A (ja) 音声合成装置
JP2019066648A (ja) 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP5636665B2 (ja) 音楽情報処理装置および音楽情報処理方法
JP6390690B2 (ja) 音声合成方法および音声合成装置
JP5790860B2 (ja) 音声合成装置
JP6179221B2 (ja) 音響処理装置および音響処理方法
JP6255744B2 (ja) 楽曲表示装置および楽曲表示方法
JP5515986B2 (ja) 情報編集装置およびプログラム
JP5779838B2 (ja) 音響処理装置およびプログラム
JP5614262B2 (ja) 音楽情報表示装置
JP7124870B2 (ja) 情報処理方法、情報処理装置およびプログラム
JP2013195699A (ja) 歌唱合成装置および歌唱合成プログラム
JP5935831B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP5552797B2 (ja) 音声合成装置および音声合成方法
US20230244646A1 (en) Information processing method and information processing system
JP6341032B2 (ja) 楽音情報を処理する装置およびプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150720

R151 Written notification of patent or utility model registration

Ref document number: 5790860

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151