JP2015148750A - 歌唱合成装置 - Google Patents
歌唱合成装置 Download PDFInfo
- Publication number
- JP2015148750A JP2015148750A JP2014022205A JP2014022205A JP2015148750A JP 2015148750 A JP2015148750 A JP 2015148750A JP 2014022205 A JP2014022205 A JP 2014022205A JP 2014022205 A JP2014022205 A JP 2014022205A JP 2015148750 A JP2015148750 A JP 2015148750A
- Authority
- JP
- Japan
- Prior art keywords
- impression
- target section
- information
- singing voice
- control variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
【課題】歌唱音声の音響特性を選定する利用者の負担を軽減する。
【解決手段】歌唱合成装置100は、対象楽曲内の対象区間を設定する区間設定部と、対象楽曲の歌詞に応じて対象区間の印象(感情等)を特定する印象特定部と、印象特定部が特定した印象に対応する音響特性が対象区間に付与された対象楽曲の歌唱音声の音声信号Vを合成する歌唱合成部26とを具備する。
【選択図】図1
【解決手段】歌唱合成装置100は、対象楽曲内の対象区間を設定する区間設定部と、対象楽曲の歌詞に応じて対象区間の印象(感情等)を特定する印象特定部と、印象特定部が特定した印象に対応する音響特性が対象区間に付与された対象楽曲の歌唱音声の音声信号Vを合成する歌唱合成部26とを具備する。
【選択図】図1
Description
本発明は、楽曲の歌唱音声を合成する技術に関する。
楽曲の歌唱音声を合成する各種の技術が従来から提案されている。例えば特許文献1には、歌唱音声に付与される表情(音色や音量等の特徴)に関する変数を利用者からの指示に応じて制御する構成が開示されている。
特許文献1の技術では、歌唱音声の表情に関する変数を利用者が指示する必要があるから、利用者による作業の負担が問題となる。以上の事情を考慮して、本発明は、歌唱音声の音響特性を選定するための利用者の負担を軽減することを目的とする。
以上の課題を解決するために、本発明の歌唱合成装置は、楽曲内の対象区間を設定する区間設定手段と、楽曲に関連する情報に応じて対象区間の印象を特定する印象特定手段と、印象特定手段が特定した印象に対応する音響特性が対象区間に付与された楽曲の歌唱音声の音声信号を合成する歌唱合成手段とを具備する。以上の構成では、楽曲に関連する情報に応じて対象区間の印象が特定され、当該印象に応じた音響特性を対象区間に付与した歌唱音声の音声信号が生成される。したがって、歌唱音声の音響特性を選定するための利用者の負担を軽減することが可能である。
本発明の好適な態様に係る歌唱合成装置は、印象特定手段が特定した印象の度合を示す制御変数を設定する変数設定手段を具備し、歌唱合成手段は、印象特定手段が特定した印象に対応する音響特性が制御変数に応じた度合で対象区間に付与された歌唱音声の音声信号を合成する。以上の態様では、印象特定手段が特定した印象の度合を示す制御変数が可変に設定されるから、印象特定手段が特定した印象の度合が変化する多様な歌唱音声を合成することが可能である。また、対象区間における制御変数の数値の時間変化を利用者からの指示に応じて設定する構成によれば、利用者の意図や嗜好を反映した多様な印象の歌唱音声を生成できるという利点がある。
本発明の好適な態様に係る歌唱合成装置は、顔を表象する顔画像を表示装置に表示させ、顔画像の表情を利用者からの指示に応じて変更する表示制御手段を具備し、変数設定手段は、顔画像の表情に応じて制御変数の数値を設定する。以上の態様では、顔画像の表情に応じて制御変数が設定されるから、対象区間の印象が歌唱音声に反映される度合を利用者が直感的かつ容易に選定できるという利点がある。
本発明の好適な態様において、印象特定手段は、印象の特定結果の妥当性の指標値を算定し、変数設定手段は、印象特定手段が算定した指標値に応じて制御変数の初期値を設定する。以上の態様では、印象特定手段による印象の特定結果の妥当性の指標値に応じて制御変数の初期値が設定されるから、利用者が制御変数の数値を調整する作業の負荷が軽減されるという利点がある。
以上の各態様に係る歌唱合成装置は、DSP(Digital Signal Processor)等のハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。本発明のプログラムは、例えば通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る歌唱合成装置の動作方法(歌唱合成方法)としても特定される。
<第1実施形態>
図1は、本発明の第1実施形態に係る歌唱合成装置100の構成図である。歌唱合成装置100は、任意の楽曲(以下「対象楽曲」という)の歌唱音声の音声信号Vを生成する信号処理装置(音声合成装置)であり、演算処理装置10と記憶装置12と表示装置14と入力装置16と放音装置18とを具備するコンピュータシステム(例えば携帯電話機やパーソナルコンピュータ等の情報処理装置)で実現される。
図1は、本発明の第1実施形態に係る歌唱合成装置100の構成図である。歌唱合成装置100は、任意の楽曲(以下「対象楽曲」という)の歌唱音声の音声信号Vを生成する信号処理装置(音声合成装置)であり、演算処理装置10と記憶装置12と表示装置14と入力装置16と放音装置18とを具備するコンピュータシステム(例えば携帯電話機やパーソナルコンピュータ等の情報処理装置)で実現される。
表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置16は、歌唱合成装置100に対する各種の指示のために利用者が操作する操作機器であり、例えば利用者が操作する複数の操作子を含んで構成される。表示装置14と一体に構成されたタッチパネルを入力装置16として採用することも可能である。放音装置18(例えばスピーカやヘッドフォン)は、音声信号Vに応じた音響を再生する。なお、音声信号Vをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。
記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。第1実施形態の記憶装置12は、複数の音声素片群Lと対象楽曲の楽曲情報DMとを記憶する。
各音声素片群Lは、特定の発声者の発声音から事前に採取された複数の音声素片の集合(音声ライブラリ)である。各音声素片の発声者は複数の音声素片群Lにわたり共通するが、各音声素片の印象(感情,表情,情調)は音声素片群L毎に相違する。すなわち、任意の1種類の印象に対応する音声素片群Lの各音声素片には、当該印象に対応する音響特性が付随する。例えば「喜」の印象(感情)に対応する音声素片群Lの各音声素片には、「喜」の印象にある発声者の音声に特有の音響特性(例えば明瞭で抑揚が大きい特性)が付随し、「怒」の印象に対応する音声素片群Lの各音声素片には、「怒」の印象にある発声者の音声に特有の音響特性(例えば音量やその変動が大きい特性)が付随する。また、第1実施形態の記憶装置12には、特定の印象に属さない標準的な音声の音声素片群(以下「標準素片群」という)Lも記憶される。
楽曲情報DMは、対象楽曲を構成する複数の音符の時系列(すなわち歌唱パートの旋律)を指定するデータであり、図2に例示される通り、音符情報Q1と音声符号Q2とを対象楽曲の音符毎に含んで構成される。音符情報Q1は、音符の音高と発音期間(例えば発音時点と継続長)とを指定する。音声符号Q2は、音声合成の発音内容を指定する符号(例えば音節単位の発音文字)である。複数の音符にわたる音声符号Q2の時系列が対象楽曲の歌詞に相当する。
図1の演算処理装置10は、記憶装置12に記憶されたプログラムを実行することで複数の機能(表示制御部22,印象設定部24,歌唱合成部26)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置10の一部の機能を実現する構成も採用され得る。表示制御部22は、楽曲編集用のソフトウェア(エディタ)で実現され、歌唱合成部26は、音声合成用のソフトウェア(音声合成エンジン)で実現される。また、印象設定部24は、例えば、楽曲編集用または音声合成用のソフトウェアに対するプラグインソフトウェアで実現される。もっとも、各機能に対応するソフトウェアの切分けは任意であり、例えば、楽曲編集用のソフトウェアのひとつの機能として印象設定部24の機能を内包することも可能である。
表示制御部22は、各種の画像を表示装置14に表示させる。第1実施形態の表示制御部22は、例えば図3の編集画面40を表示装置14に表示させる。編集画面40は、楽譜画像42を包含する。楽譜画像42は、時間軸と音高軸とが設定された領域に、楽曲情報DMで指定される各音符を表象する音符画像44を時系列に配置したピアノロール画像である。楽譜画像42内の各音符画像44の位置と時間軸上の表示長とは音符情報Q1(音高,発音期間)に応じて設定され、各音符画像44には音声符号Q2(発音文字)が付加される。利用者は、入力装置16を適宜に操作することで楽譜画像42の編集(例えば音符や歌詞の追加または変更)を指示することが可能である。表示制御部22は、利用者からの指示に応じて楽譜画像42の内容を変更するとともに楽曲情報DMの内容を更新する。
図1の印象設定部24は、音声信号Vに反映される印象を設定する。第1実施形態の印象設定部24は、音声信号Vの印象の制御に利用される図4の特性情報DEを生成して記憶装置12に格納する。図4に例示される通り、第1実施形態の特性情報DEは、対象楽曲に設定されたK個の区間(以下「対象区間」という)S[1]〜S[K]の各々について印象情報E[k]と制御変数X[k]とを包含する(k=1〜K)。印象情報E[k]は、対象楽曲の対象区間S[k]から生起される印象の種類(例えば「喜」「怒」「哀」「楽」等の感情や、「クール」「かわいい」等の表情ないし情調)を指定する。印象情報E[k]が指定する印象に対応した音響特性を対象区間S[k]に付与した歌唱音声の音声信号Vが生成される。
制御変数X[k]は、印象情報E[k]の印象を音声信号Vに反映させる度合(当該印象に対応した音響特性を音声信号Vにて強調させる度合)の変数である。具体的には、制御変数X[k]の数値が大きいほど、印象情報E[k]に対応した音響特性が音声信号Vにて強調される。制御変数X[k]の数値は対象区間S[k]内で経時的に変動する。
図5は、第1実施形態における印象設定部24の構成図である。図5に例示される通り、第1実施形態の印象設定部24は、区間設定部32と印象特定部34と変数設定部36とを含んで構成される。区間設定部32は、対象楽曲内にK個の対象区間S[1]〜S[K]を設定する。各対象区間S[k]の設定の方法は任意であるが、例えば以下に例示される通り、利用者からの指示に応じて各対象区間S[k]を設定する構成が好適である。
表示制御部22は、図3の編集画面40のほかに図6の確認画面50を表示装置14に表示させる。図6に例示された確認画面50は、編集画面40の楽譜画像42と同様に、時間軸および音高軸が設定された楽譜画像52を包含する。楽譜画像52は、対象楽曲のうち編集画面40の楽譜画像42での表示範囲と比較して広い範囲を利用者に提示するための画像である。すなわち、楽譜画像52の時間軸上の特定の区間が楽譜画像42での表示対象として選定される。楽譜画像42と同様に、音符情報Q1で指定される各音符を表象する音符画像54が楽譜画像52には時系列に配置される。なお、確認画面50の楽譜画像52では音符の編集を利用者から受付けない構成も採用される。
利用者は、入力装置16を適宜に操作することで、楽譜画像52の時間軸上に任意の対象区間S[k]を指示することが可能である。例えば、利用者は、楽譜画像52の時間軸上の任意の2点を対象区間S[k]の各端点(始点,終点)として指示する。区間設定部32は、利用者からの指示に応じて対象楽曲のK個の対象区間S[1]〜S[K]を順次に設定する。各対象区間S[k]の時間長は対象区間S[k]毎に個別に選定され、相前後する各対象区間S[k]の間隔の有無は不問である。
図5の印象特定部34は、区間設定部32が設定した各対象区間S[k]について印象情報E[k](印象)を特定する。対象楽曲に関連する情報が印象情報E[k]の特定には利用される。第1実施形態の印象特定部34は、任意の1個の対象区間S[k]の各音符について楽曲情報DMが指定する音声符号Q2の時系列で構成される歌詞(文字列)Y[k]に応じて当該対象区間S[k]の印象情報E[k]を特定する。すなわち、対象楽曲に関連する情報として歌詞Y[k]が利用される。
歌詞Y[k]を利用した印象情報E[k]の特定(印象推定)には公知の技術が任意に採用される。例えば、楽曲の歌詞に採用され得る単語毎に印象が登録された単語辞書(例えば「別れ」-「哀」や「青空」-「楽」等の対応関係)から、対象区間S[k]の歌詞Y[k]に対する形態素解析で特定された各単語に対応する印象を探索し、探索の結果から対象区間S[k]の印象情報E[k]を特定することが可能である。表示制御部22は、図6に例示される通り、印象特定部34が特定した印象情報E[k]を表象する文字列(例えば「喜」「怒」「哀」「楽」等の文字)56を、確認画面50の楽譜画像52のうち対象区間S[k]に対応した位置(図6の例示では対象区間S[k]の内側)に表示させる。
図5の変数設定部36は、対象区間S[k]の制御変数X[k]を設定する。第1実施形態の変数設定部36は、以下に例示される通り、利用者からの指示に応じて各対象区間S[k]の制御変数X[k]を設定する。
図3に例示される通り、表示制御部22は、楽譜画像42とともに変数画像46を編集画面40に表示させる。変数画像46は、楽譜画像42と共通の時間軸のもとで制御変数X[k]の数値の時間変化を表現する画像(図3の例示では制御変数X[k]の折線グラフ)である。図3に破線で併記される通り、制御変数X[k]の数値は、対象区間S[k]の設定の直後の初期状態では対象区間S[k]の全域にわたり所定の初期値X0に設定され、入力装置16に対する利用者からの指示に応じて初期値X0から変更される。変数設定部36は、変数画像46に対する利用者からの指示に応じて制御変数X[k]を設定する。印象特定部34が特定した印象情報E[k]と変数設定部36が設定した制御変数X[k]とを対象楽曲のK個の対象区間S[1]〜S[K]の各々について含む特性情報DEが記憶装置12に格納される。
図1の歌唱合成部26は、記憶装置12に記憶された各音声素片群Lと楽曲情報DMと特性情報DEとを利用した音声合成で対象楽曲の歌唱音声の音声信号Vを生成する。第1実施形態の歌唱合成部26は、特性情報DEの印象情報E[k]に対応する音響特性が特性情報DEの制御変数X[k]に応じた度合で対象区間S[k]に付与された歌唱音声の音声信号Vを生成する。対象楽曲の各対象区間S[k]について、歌唱合成部26は、対象区間S[k]内の各音符の音声符号Q2に対応する音声素片を、印象情報E[k]が指定する印象の音声素片群Lと標準素片群Lとの各々から順次に選択し、印象情報E[k]の音声素片群Lから選択した音声素片と標準素片群Lから選択した音声素片とを制御変数X[k]に応じた混合比(補間比率)で相互に混合する。具体的には、制御変数X[k]が大きいほど印象情報E[k]の音声素片の比率が増加するように混合比が制御される。歌唱合成部26は、混合後の音声素片を音符情報Q1で指定される音高および発音期間に調整したうえで各音声素片を時間軸上で相互に連結して対象区間S[k]の音声信号Vを生成する。以上の説明から理解される通り、印象情報E[k]が指定する印象に対応した音響特性が制御変数X[k]に応じた度合で対象区間S[k]に付与された音声信号Vが生成される。したがって、歌唱合成部26が生成した音声信号Vが放音装置18に供給されることで、印象情報E[k]が指定する印象が対象区間S[k]に付随した歌唱音声が再生される。
図7は、第1実施形態の歌唱合成装置100の動作のフローチャートである。入力装置16に対する利用者からの指示を契機として処理が開始される。図7の処理を開始すると、表示制御部22は、図3の編集画面40と図6の確認画面50とを表示装置14に表示させ(S1)、編集画面40や確認画面50に対する利用者からの指示の内容を判別する(S2)。利用者からの指示の内容に応じた処理が実行される。例えば、編集画面40の楽譜画像42に対して各音符の編集が指示された場合(S2:a)、表示制御部22は、利用者からの指示に応じて楽曲情報DMの各音符の音符情報Q1または音声符号Q2を編集(追加,削除,変更)する(S3)。
確認画面50に対して対象区間S[k]が指示された場合(S2:b)、区間設定部32は、利用者からの指示に応じて対象区間S[k]を設定し(S4)、印象特定部34は、当該対象区間S[k]の印象を示す印象情報E[k]を特定する(S5)。また、編集画面40の変数画像46に対して制御変数X[k]の編集が指示された場合(S2:c)、変数設定部36は、利用者からの指示に応じて制御変数X[k]を設定する(S6)。表示制御部22は、以上に例示した編集の結果が反映されるように表示画像(編集画面40,確認画面50)を更新する(S7)。他方、歌唱音声の合成が指示された場合(S2:d)、歌唱合成部26は、各音声素片群Lと楽曲情報DMと特性情報DEとを利用した音声合成で音声信号Vを生成する(S8)。以上に例示した処理が完了した場合、利用者からの指示の判別(S2)に移行する。
以上に説明した通り、第1実施形態では、対象楽曲に関連する情報(歌詞Y[k])に応じて対象区間S[k]の印象情報E[k]が特定され、印象情報E[k]が指定する印象に対応した音響特性を対象区間S[k]に付与した歌唱音声の音声信号Vが生成される。したがって、歌唱音声の音響特性を選定するための利用者の負担を軽減することが可能である。
第1実施形態では、印象情報E[k]で指定される印象に対応した音響特性が制御変数X[k]に応じた度合で音声信号Vの対象区間S[k]に付与される。したがって、印象情報E[k]で指定される印象の度合が経時的に変化する多様な歌唱音声を合成することが可能である。第1実施形態では特に、制御変数X[k]の数値の時間変化が利用者からの指示に応じて設定されるから、利用者の意図や嗜好を反映した多様な印象の歌唱音声を生成できるという利点もある。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態の印象特定部34は、各対象区間S[k]の印象情報E[k]を第1実施形態と同様に特定するとともに、印象情報E[k]の特定結果の妥当性の指標値Z[k]を算定する。指標値Z[k]は、印象情報E[k]で指定される印象が対象区間S[k]の実際の印象として妥当と評価できる度合(印象の推定結果の尤もらしさ)の尺度である。例えば、印象情報E[k]に対応する単語が対象区間S[k]の歌詞Y[k]に登場する回数が多い(印象情報E[k]の印象が対象区間S[k]について妥当である)ほど、指標値Z[k]は大きい数値に設定される。
第2実施形態の変数設定部36は、対象区間S[k]の制御変数X[k]の初期値X0を、印象特定部34が算定した指標値Z[k]に応じて対象区間S[k]毎に可変に設定する。具体的には、変数設定部36は、指標値Z[k]が大きいほど対象区間S[k]の初期値X0を大きい数値に設定する。すなわち、印象特定部34による印象情報E[k]の特定結果の妥当性が高いほど制御変数X[k]の初期値X0は大きい数値に設定される。以上の説明から理解される通り、第2実施形態では、制御変数X[k]の初期値X0が印象情報E[k]の指標値Z[k]に応じて対象区間S[k]毎に個別に設定される。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、印象情報E[k]の指標値Z[k]に応じて制御変数X[k]の初期値X0が可変に設定されるから、印象情報E[k]の特定結果とは無関係の所定値に制御変数X[k]の初期値X0が固定される第1実施形態と比較して、利用者が制御変数X[k]の数値を編集する作業の負荷が軽減されるという利点がある。
<第3実施形態>
第3実施形態の印象特定部34は、対象区間S[k]毎に複数種の印象を特定する。具体的には、印象特定部34は、相異なる印象を指定する3種類の印象情報E1[k]〜E3[k]をK個の対象区間S[1]〜S[K]の各々について特定する。対象区間S[k]の歌詞Y[k]を各印象情報En[k](n=1〜3)の特定に利用する構成は第1実施形態と同様である。なお、1個の対象区間S[k]について特定される印象の種類数は任意である。
第3実施形態の印象特定部34は、対象区間S[k]毎に複数種の印象を特定する。具体的には、印象特定部34は、相異なる印象を指定する3種類の印象情報E1[k]〜E3[k]をK個の対象区間S[1]〜S[K]の各々について特定する。対象区間S[k]の歌詞Y[k]を各印象情報En[k](n=1〜3)の特定に利用する構成は第1実施形態と同様である。なお、1個の対象区間S[k]について特定される印象の種類数は任意である。
第3実施形態の変数設定部36は、相異なる印象情報En[k]に対応する複数(3種類)の制御変数X1[k]〜X3[k]を編集画面40に対する利用者からの指示に応じて設定する。図8は、第3実施形態における編集画面40の模式図である。図8に例示される通り、第3実施形態の編集画面40の変数画像46は、3種類の制御変数X1[k]〜X3[k]の数値の時間変化を共通の時間軸のもとで並列に表現する。利用者は、変数画像46から所望の制御変数Xn[k]を選択したうえで当該制御変数Xn[k]の数値の時間変化の編集を指示することが可能である。変数設定部36は、変数画像46に対する利用者からの指示に応じて各制御変数Xn[k]を個別に設定する。なお、複数の制御変数X1[k]〜X3[k]の何れかを利用者からの指示に応じて選択的に表示することも可能である。
歌唱合成部26は、対象楽曲の対象区間S[k]について、音声符号Q2に対応する音声素片を3種類の印象情報E1[k]〜E3[k]の各々に対応する音声素片群Lから順次に選択し、印象情報E1[k]の音声素片と印象情報E2[k]の音声素片と印象情報E3[k]の音声素片とを、制御変数X1[k]〜X3[k]に応じた混合比で相互に混合する。具体的には、制御変数Xn[k]の数値が大きいほど印象情報En[k]の音声素片が優勢となるように各印象情報E[k]に対応する音声素片が混合される。第1実施形態と同様に、混合後の各音声素片を相互に連結することで音声信号Vが生成される。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、各対象区間S[k]について複数の印象情報En[k]が特定されるから、相異なる複数の印象が付随する多様な音響特性の音声信号Vを生成できるという利点がある。
なお、各制御変数Xn[k]の表示の形式は図8の例示に限定されない。例えば、図9の例示のように、複数の制御変数X1[k]〜X3[k]の比率の時間変化を表現する構成や、図10の例示のように、各制御変数Xn[k]の数値を示す3軸が設定された空間内の座標点として3種類の制御変数X1[k]〜X3[k]の各数値を表現する構成も採用され得る。
<第4実施形態>
第4実施形態の表示制御部22は、人間の顔を表象する図11の顔画像(キャラクタ)62を表示装置14に表示させる。利用者は、入力装置16を適宜に操作することで、顔画像62が表象する顔の表情の変更を指示することが可能である。表示制御部22は、顔画像62に対する利用者からの指示に応じて顔画像62の表情を変更する。例えば、図11に例示される通り、顔画像62の各部(例えば目や口)を変形することで表情が変更される。
第4実施形態の表示制御部22は、人間の顔を表象する図11の顔画像(キャラクタ)62を表示装置14に表示させる。利用者は、入力装置16を適宜に操作することで、顔画像62が表象する顔の表情の変更を指示することが可能である。表示制御部22は、顔画像62に対する利用者からの指示に応じて顔画像62の表情を変更する。例えば、図11に例示される通り、顔画像62の各部(例えば目や口)を変形することで表情が変更される。
第4実施形態の変数設定部36は、表示装置14に表示された顔画像62の表情に応じて、印象特定部34が特定した印象情報E[k]に対応する制御変数X[k]の数値を可変に設定する。例えば、印象特定部34が「哀」の印象の印象情報E[k]を特定した場合、変数設定部36は、顔画像62の目尻が低下する(すなわち哀しい表情になる)ほど制御変数X[k]の数値を増加させる。すなわち、「哀」の印象が音声信号Vにて強調されるように制御変数X[k]が設定される。また、例えば印象特定部34が「喜」の印象の印象情報E[k]を特定した場合、変数設定部36は、顔画像62の目や口が拡大する(すなわち喜んだ表情になる)ほど制御変数X[k]の数値を増加させる。すなわち、「喜」の印象が音声信号Vにて強調されるように制御変数X[k]が設定される。対象区間S[k]の設定や音声信号Vの生成は前述の各形態と同様である。
第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態では、顔画像62の表情に応じて制御変数X[k]が制御されるから、対象区間S[k]の印象が音声信号Vに反映される度合を利用者が直感的かつ容易に指示できるという利点がある。
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)前述の各形態では、対象楽曲の歌詞Y[k]に応じて対象区間S[k]の印象(印象情報E[k])を特定したが、対象区間S[k]の印象を特定する方法は以上の例示に限定されない。具体的には、対象楽曲の調(短調,長調)に応じて対象区間S[k]の印象を推定することも可能である。例えば、対象楽曲が長調である場合には「楽」の印象の印象情報E[k]を特定し、対象楽曲が短調である場合には「哀」の印象の印象情報E[k]を特定する。また、楽曲情報DMが指定する演奏テンポや音量(ベロシティ)等の情報を対象区間S[k]の印象の特定に加味する構成や、対象楽曲の音楽的な傾向(継続長が長い音符が多い,スタッカートが多い)に応じて対象区間S[k]の印象を特定する構成も採用される。また、対象楽曲の伴奏音を示す伴奏情報(例えばWAVファイル)が楽曲情報DMに付随する場合には、伴奏情報を参照して対象区間S[k]の印象を特定することも可能である。例えば、伴奏情報が示す伴奏音の音量や音量変化が大きい対象区間S[k]については「激しい」「力強い」等の印象が特定される。また、対象楽曲のコード進行を指定するコード情報が楽曲情報DMに付随する場合には、コード情報が示すコードの情報を対象区間S[k]の印象の特定に参酌することも可能である。以上の説明から理解される通り、印象特定部34は、対象楽曲に関連する情報に応じて対象区間S[k]の印象(印象情報E[k])を特定する要素として包括される。
(2)前述の各形態では、利用者からの指示に応じて対象楽曲の各対象区間S[k]を設定したが、対象楽曲の対象区間S[k]を設定する方法は以上の例示に限定されない。例えば、音楽的な意義(位置付け)に応じて対象楽曲を区分した各区間(例えばサビ,Aメロ,Bメロ等の各区間)を対象区間S[k]とする構成や、所定長を単位として対象楽曲を時間軸上で区分した各区間を対象区間S[k]とする構成も採用され得る。
(3)前述の各形態では、1種類の印象の度合を示す制御変数X[k]を例示したが、相互に対立する2種類の印象(例えば「喜」-「怒」,「哀」-「楽」,「繊細」-「粗暴」等の対)に対応する範囲内の数値を制御変数X[k]が指定することも可能である。例えば、印象特定部が「喜」の印象情報E[k]を特定した対象区間S[k]について、最大値(例えば正数)が「喜」の印象に対応し、かつ、「喜」に対立する「怒」の印象に最小値(例えば負数)が対応する範囲内で、変数設定部36は制御変数X[k]を設定する。
(4)前述の各形態では、印象情報E[k]で指定される印象の音声素片と標準素片群Lの音声素片とを制御変数X[k]に応じて混合することで当該印象の度合を制御したが、音声信号Vの印象(音響特性)を制御するための方法は以上の例示に限定されない。例えば、印象情報E[k]で指定される印象の音声素片群Lから選択された音声素片の音響特性を、当該印象が強調または抑制されるように制御変数X[k]に応じて調整することで当該印象の度合を制御することも可能である。
(5)印象情報E[k]で指定される印象が音声信号Vに反映される度合を制御変数X[k]に応じて制御する構成(変数設定部36や制御変数X[k])は省略され得る。すなわち、印象特定部34が特定した印象(印象情報E[k])に対応する音響特性を所定の度合で音声信号Vの対象区間S[k]に付与することも可能である。
(6)前述の第2実施形態では、対象区間S[k]の制御変数X[k]の初期値X0を指標値Z[k]に応じて可変に設定したが、対象区間S[k]の全域にわたり初期値X0を指標値Z[k]に応じた一定の数値に設定する構成のほか、対象区間S[k]の歌詞Y[k]に包含される語句(例えば単語)に応じて対象区間S[k]内の制御変数X[k]の数値の時間変化を自動的に設定することも可能である。例えば、対象区間S[k]の歌詞Y[k]のうち印象(印象情報E[k])に特に影響する語句(例えば「泣いて」「ケンカ」等の単語)の区間について制御変数X[k]の数値(初期値X0)を大きい数値に設定する構成が想定される。
(7)前述の各形態では、複数の音声素片を相互に接続する素片接続型の音声合成を例示したが、音声合成の方式は以上の例示に限定されない。例えば、HMM(Hidden Markov Model)を利用して推定された音高の時間変化に対して音声符号Q2に応じたフィルタ処理を実行する統計モデル型の音声合成で音声信号Vを生成することも可能である。
(8)移動通信網やインターネット等の通信網を介して端末装置と通信するサーバ装置で歌唱合成装置100を実現することも可能である。具体的には、歌唱合成装置100は、端末装置から通信網を介して受信した楽曲情報DMから前述の各形態と同様に特性情報DEを生成し、音声素片群Lと楽曲情報DMと特性情報DEとを利用した音声合成で生成した音声信号V(または特性情報DE)を通信網から端末装置に送信する。
100……歌唱合成装置、10……演算処理装置、12……記憶装置、14……表示装置、16……入力装置、18……放音装置、22……表示制御部、24……印象設定部、26……歌唱合成部、32……区間設定部、34……印象特定部、36……変数設定部。
。
。
Claims (5)
- 楽曲内の対象区間を設定する区間設定手段と、
前記楽曲に関連する情報に応じて前記対象区間の印象を特定する印象特定手段と、
前記印象特定手段が特定した印象に対応する音響特性が前記対象区間に付与された前記楽曲の歌唱音声の音声信号を合成する歌唱合成手段と
を具備する歌唱合成装置。 - 前記印象特定手段が特定した印象の度合を示す制御変数を可変に設定する変数設定手段を具備し、
前記歌唱合成手段は、前記印象特定手段が特定した印象に対応する音響特性が前記制御変数に応じた度合で前記対象区間に付与された歌唱音声の音声信号を合成する
請求項1の歌唱合成装置。 - 前記変数設定手段は、前記対象区間における前記制御変数の数値の時間変化を利用者からの指示に応じて設定する
請求項2の歌唱合成装置。 - 顔を表象する顔画像を表示装置に表示させ、前記顔画像の表情を利用者からの指示に応じて変更する表示制御手段を具備し、
前記変数設定手段は、前記顔画像の表情に応じて前記制御変数の数値を設定する
請求項2の歌唱合成装置。 - 前記印象特定手段は、前記印象の特定結果の妥当性の指標値を算定し、
前記変数設定手段は、前記印象特定手段が算定した指標値に応じて前記制御変数の初期値を設定する
請求項2から請求項4の何れかの歌唱合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014022205A JP2015148750A (ja) | 2014-02-07 | 2014-02-07 | 歌唱合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014022205A JP2015148750A (ja) | 2014-02-07 | 2014-02-07 | 歌唱合成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015148750A true JP2015148750A (ja) | 2015-08-20 |
Family
ID=53892134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014022205A Pending JP2015148750A (ja) | 2014-02-07 | 2014-02-07 | 歌唱合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015148750A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018230669A1 (ja) * | 2017-06-14 | 2018-12-20 | ヤマハ株式会社 | 歌唱合成方法及び歌唱合成システム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003233388A (ja) * | 2002-02-07 | 2003-08-22 | Sharp Corp | 音声合成装置および音声合成方法、並びに、プログラム記録媒体 |
WO2005071664A1 (ja) * | 2004-01-27 | 2005-08-04 | Matsushita Electric Industrial Co., Ltd. | 音声合成装置 |
JP2008165130A (ja) * | 2007-01-05 | 2008-07-17 | Yamaha Corp | 歌唱音合成装置およびプログラム |
-
2014
- 2014-02-07 JP JP2014022205A patent/JP2015148750A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003233388A (ja) * | 2002-02-07 | 2003-08-22 | Sharp Corp | 音声合成装置および音声合成方法、並びに、プログラム記録媒体 |
WO2005071664A1 (ja) * | 2004-01-27 | 2005-08-04 | Matsushita Electric Industrial Co., Ltd. | 音声合成装置 |
JP2008165130A (ja) * | 2007-01-05 | 2008-07-17 | Yamaha Corp | 歌唱音合成装置およびプログラム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018230669A1 (ja) * | 2017-06-14 | 2018-12-20 | ヤマハ株式会社 | 歌唱合成方法及び歌唱合成システム |
JP2019002999A (ja) * | 2017-06-14 | 2019-01-10 | ヤマハ株式会社 | 歌唱合成方法及び歌唱合成システム |
CN110741430A (zh) * | 2017-06-14 | 2020-01-31 | 雅马哈株式会社 | 歌唱合成方法及歌唱合成系统 |
JP7059524B2 (ja) | 2017-06-14 | 2022-04-26 | ヤマハ株式会社 | 歌唱合成方法、歌唱合成システム、及びプログラム |
JP2022092032A (ja) * | 2017-06-14 | 2022-06-21 | ヤマハ株式会社 | 歌唱合成システム及び歌唱合成方法 |
JP7363954B2 (ja) | 2017-06-14 | 2023-10-18 | ヤマハ株式会社 | 歌唱合成システム及び歌唱合成方法 |
CN110741430B (zh) * | 2017-06-14 | 2023-11-14 | 雅马哈株式会社 | 歌唱合成方法及歌唱合成系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2838082B1 (en) | Voice analysis method and device, and medium storing voice analysis program | |
JP6665446B2 (ja) | 情報処理装置、プログラム及び音声合成方法 | |
JP6784022B2 (ja) | 音声合成方法、音声合成制御方法、音声合成装置、音声合成制御装置およびプログラム | |
JP6729539B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
US9711123B2 (en) | Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program recorded thereon | |
CN107430849A (zh) | 声音控制装置、声音控制方法和声音控制程序 | |
JP5625321B2 (ja) | 音声合成装置およびプログラム | |
JP2009258292A (ja) | 音声データ処理装置およびプログラム | |
JP2015148750A (ja) | 歌唱合成装置 | |
US11437016B2 (en) | Information processing method, information processing device, and program | |
WO2021106512A1 (ja) | 楽曲生成方法および楽曲生成システム | |
JP6828530B2 (ja) | 発音装置及び発音制御方法 | |
JP6299141B2 (ja) | 楽音情報生成装置および楽音情報生成方法 | |
JP5790860B2 (ja) | 音声合成装置 | |
JP7127682B2 (ja) | 情報処理方法、情報処理装置およびプログラム | |
JP2018151548A (ja) | 発音装置及びループ区間設定方法 | |
US20240135916A1 (en) | Non-transitory computer-readable recording medium, sound processing method, and sound processing system | |
JP7180642B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
JP5552797B2 (ja) | 音声合成装置および音声合成方法 | |
JP7158331B2 (ja) | カラオケ装置 | |
JP2024057180A (ja) | プログラム、音響処理方法および音響処理システム | |
JP2016014781A (ja) | 歌唱合成装置および歌唱合成プログラム | |
JP6295691B2 (ja) | 楽曲処理装置および楽曲処理方法 | |
KR20140131351A (ko) | 가창 지원 장치 | |
JP2015161822A (ja) | ブレス音設定装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161219 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171128 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180828 |