JP6152753B2 - 音声合成管理装置 - Google Patents

音声合成管理装置 Download PDF

Info

Publication number
JP6152753B2
JP6152753B2 JP2013178514A JP2013178514A JP6152753B2 JP 6152753 B2 JP6152753 B2 JP 6152753B2 JP 2013178514 A JP2013178514 A JP 2013178514A JP 2013178514 A JP2013178514 A JP 2013178514A JP 6152753 B2 JP6152753 B2 JP 6152753B2
Authority
JP
Japan
Prior art keywords
point
time
speech
image
axis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013178514A
Other languages
English (en)
Other versions
JP2015049253A (ja
Inventor
入山 達也
達也 入山
誠 橘
橘  誠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2013178514A priority Critical patent/JP6152753B2/ja
Publication of JP2015049253A publication Critical patent/JP2015049253A/ja
Application granted granted Critical
Publication of JP6152753B2 publication Critical patent/JP6152753B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

本発明は、音声合成に適用される変数を管理する技術に関する。
事前に収録された音声から採取された複数の音声素片の集合(以下「音声ライブラリ」という)を利用して所望の音声を合成する素片接続型の音声合成技術が従来から提案されている。例えば特許文献1には、相異なる声質の音声に対応する2種類の音声ライブラリの各々の音声素片を混合(モーフィング)することで、既存の音声ライブラリの音声とは声質が相違する音声を合成する技術が開示されている。
特開平9−50295号公報
ところで、各音声素片の音量は音声ライブラリ毎に相違し得る。したがって、複数の音声素片の混合で生成された合成音声の音量は、各音声素片の混合比率に応じて変動する。例えば、音量が大きい傾向にある音声ライブラリ内の音声素片の比率を経時的に減少させるとともに、音量が小さい傾向にある音声ライブラリ内の音声素片の比率を経時的に増加させて両者を混合した場合、合成音声の音量は経時的に減少する。したがって、合成音声の音量を一定に維持するためには、混合比率の時間変化に連動するように利用者が合成音声の音量の時間変化を調整する必要があり、利用者の作業負担が大きいという問題がある。
なお、以上の説明では便宜的に音量に着目したが、音量以外の音響特性についても同様の事情が妥当し得る。例えば、音高が高域側に知覚され易い傾向にある音声ライブラリの音声素片(明瞭で明るい雰囲気の音声)の比率を経時的に減少させるとともに、音高が低域側に知覚され易い傾向にある音声ライブラリの音声素片(例えば不明瞭で暗い雰囲気の音声)の比率を経時的に増加させて両者を混合した場合、受聴者が知覚する音高は経時的に低下する。したがって、合成音声の音高感を一定に維持するためには、混合比率の時間変化に連動するように利用者が合成音声の音高の時間変化を調整する必要がある。以上の事情を考慮して、本発明は、音声合成に適用される変数を設定する利用者の作業負担を軽減することを目的とする。
以上の課題を解決するために、本発明の第1態様に係る音声合成管理装置は、合成対象音声の合成時における第1音声と第2音声との混合比率を示す第1軸と、合成対象音声の音響特性に関する第1特性変数を示す第2軸とが設定された調整領域を含む調整画像を表示装置に表示させる表示制御手段と、調整領域内の第1指示点および第2指示点の指示を利用者から受付ける指示受付手段と、第1軸上で第1指示点に対応する数値から第2指示点に対応する数値への混合比率の時間変化と、第2軸上で第1指示点に対応する数値から第2指示点に対応する数値への第1特性変数の時間変化とを示す制御情報を生成する情報管理手段とを具備する。以上の構成では、第1音声と第2音声との混合比率を示す第1軸と、第1特性変数を示す第2軸とが設定された調整領域内に利用者から第1指示点および第2指示点が指示され、第1軸上で第1指示点に対応する数値から第2指示点に対応する数値への混合比率の時間変化と、第2軸上で第1指示点に対応する数値から第2指示点に対応する数値への第1特性変数の時間変化とを示す制御情報が生成される。したがって、利用者は、混合比率の時間変化と第1特性変数の時間変化とを並行的に指示することが可能である。すなわち、混合比率の時間変化と第1特性変数の時間変化とを個別的に指示する必要がある従来の構成と比較して、利用者の作業負担を軽減できるという利点がある。
本発明の好適な態様において、情報管理手段は、合成対象音声のうち時間軸上の第1時点から第2時点までの期間について、第1軸上で第1指示点に対応する数値から第2指示点に対応する数値への混合比率の時間変化と、第2軸上で第1指示点に対応する数値から第2指示点に対応する数値への第1特性変数の時間変化とを示す制御情報を生成する。以上の態様では、合成対象音声のうち第1時点から第2時点までの特定の期間について混合比率および第1特性変数の時間変化を調整することが可能である。また、指示受付手段が第1時点および第2時点の指示を利用者から受付ける構成によれば、合成対象音声のうち利用者の所望の期間について混合比率と第1特性変数との時間変化を調整できるという利点がある。
本発明の好適な態様において、表示制御手段は、調整領域内の各地点が相異なる表示態様に設定された調整画像と、時間軸上の第1時点から第2時点にかけて調整領域内の第1指示点での表示態様から第2指示点での表示態様に変化する遷移画像を含む変数画像とを表示装置に表示させる。以上の構成によれば、第1時点から第2時点にかけて調整領域内の第1指示点での表示態様から第2指示点での表示態様に変化する遷移画像が表示装置に表示されるから、第1時点から第2時点にわたる混合比率および第1特性変数の時間変化を利用者が視覚的および直観的に把握できるという利点がある。また、合成対象音声の音響特性に関する第2特性変数の時間変化を遷移画像の形状で表現する変数画像を表示制御手段が表示装置に表示させる構成によれば、第2特性変数の時間変化を遷移画像とは別個に表示する構成と比較して表示内容を簡素化することが可能である。
本発明の好適な態様において、表示制御手段は、調整領域内の各地点が相異なる表示態様に設定された調整画像と、合成対象音声の各音符を表象する音符図像を、時間軸と音高軸とが設定された楽譜領域に配置した楽譜画像とを表示装置に表示させ、各音符図像における時間軸上の各地点の表示態様を、調整領域における第1指示点から第2指示点までの経路のうち当該地点に対応した地点での表示態様に設定する。以上の態様では、各音符を表象する音符図像が、混合比率および第1特性変数の時間変化の表示にも流用されるから、混合比率および第1特性変数の時間変化と各音符との関係を利用者が容易に把握できるという利点がある。なお、以上の態様の具体例は例えば第3実施形態として後述される。
本発明の好適な態様において、表示制御手段は、調整領域内の各地点が相異なる表示態様に設定された調整画像と、合成対象音声の各音符を表象する音符図像と各音符図像に対応する補助図像とを、時間軸と音高軸とが設定された楽譜領域に配置した楽譜画像とを表示装置に表示させ、各補助図像における時間軸上の各地点の表示態様を、調整領域における第1指示点から第2指示点までの経路のうち当該地点に対応した地点での表示態様に設定する。以上の態様では、各音符図像に対応する補助図像が混合比率および第1特性変数の時間変化の表示に利用されるから、混合比率および第1特性変数の時間変化と各音符との関係を利用者が容易に把握できるという利点がある。なお、以上の態様の具体例は例えば第4実施形態として後述される。
本発明の第2態様に係る音声合成管理装置は、合成対象音声の合成に利用されるN種類(Nは3以上の自然数)の音声の各々に対応する基準点が設定された調整領域を含む調整画像を表示装置に表示させる表示制御手段と、調整領域内の第1指示点および第2指示点の指示を利用者から受付ける指示受付手段と、合成対象音声の合成時におけるN種類の音声の混合比率について、調整領域内で第1指示点に対応する数値から第2指示点に対応する数値への時間変化を示す制御情報を生成する情報管理手段とを具備する。以上の構成では、合成対象音声の合成に利用されるN種類(Nは3以上の自然数)の音声の各々に対応する基準点が設定された調整領域内に利用者から第1指示点および第2指示点が指示され、N種類の音声の混合比率について、調整領域内で第1指示点に対応する数値から第2指示点に対応する数値への時間変化を示す制御情報が生成される。したがって、利用者は、各音声の相互的な関係を調整領域で視覚的に確認しながら混合比率の時間変化を指示することが可能である。すなわち、N種類の音声の混合比率を個別的に指示する必要がある構成と比較して、利用者の作業負担を軽減できるという利点がある。
以上の各態様に係る音声合成管理装置は、制御情報の生成等に専用されるDSP(Digital Signal Processor)等のハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音声合成管理装置の動作方法(音声合成管理方法)としても特定される。
本発明の第1実施形態に係る音声合成装置のブロック図である。 混合処理の説明図である。 合成情報の模式図である。 音声合成処理のフローチャートである。 編集画像の模式図である。 音声合成装置の動作のフローチャートである。 編集処理のフローチャートである。 編集画像の模式図である。 調整領域と各指示点との関係を示す模式図である。 調整領域と各指示点との関係を示す模式図である。 編集画像の模式図である。 第2実施形態における編集画像の模式図である。 第3実施形態における編集画像の模式図である。 第4実施形態における編集画像の模式図である。 第5実施形態における混合処理の説明図である。 第5実施形態における編集画像の模式図である。 第5実施形態における混合比率の説明図である。 第6実施形態における調整画像の模式図である。 各指示点間の経路の変形例の模式図である。 各指示点間の経路の変形例の模式図である。 調整領域の変形例の模式図である。 第5実施形態の変形例における調整領域の模式図である。 第5実施形態の変形例における調整領域の模式図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、複数の音声素片を連結する素片接続型の音声合成処理で任意の音声の音声信号Sを生成する。具体的には、第1実施形態の音声合成装置100は、任意の楽曲(以下「合成楽曲」という)の歌唱音声の音声信号Sを生成する信号処理装置であり、演算処理装置10と記憶装置12と表示装置14と入力装置16と放音装置18とを具備するコンピュータシステム(例えば携帯電話機やパーソナルコンピュータ等の情報処理装置)で実現される。
表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置16は、音声合成装置100に対する各種の指示のために利用者が操作する操作機器(例えばマウス等のポインティングデバイスやキーボード)であり、例えば利用者が操作する複数の操作子を含んで構成される。なお、表示装置14と一体に構成されたタッチパネルを入力装置16として採用することも可能である。放音装置18(例えばスピーカやヘッドホン)は、音声信号Sに応じた音響を再生する。音声信号Sをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略されている。
記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。第1実施形態の記憶装置12は、音声ライブラリL(LA,LB)と合成情報Qとを記憶する。
音声ライブラリLは、特定の発声者の音声から事前に採取された複数の音声素片P(PA,PB)の集合である。各音声素片Pは、言語的な意味の区別の最小単位である音素(例えば母音や子音)、または、複数の音素を連結した音素連鎖(例えばダイフォンやトライフォン)である。各音声素片Pは、時間領域での音声波形のサンプル系列や、音声波形のフレーム毎に算定された周波数領域のスペクトルの時系列として表現される。
図1に例示される通り、第1実施形態の記憶装置12は、複数の音声ライブラリL(LA,LB)を記憶する。音声ライブラリLAは、第1音声から抽出された複数の音声素片PAの集合であり、音声ライブラリLBは、第2音声から抽出された複数の音声素片PBの集合である。第1音声と第2音声とは声質(声色)が相違する。具体的には、第1音声(各音声素片PA)と第2音声(各音声素片PB)とは、相異なる発声者が発声した音声、または、ひとりの発声者が声質を相違させて発声した音声である。
第1実施形態では、図2に例示される通り、合成対象となる音声(以下「合成対象音声」という)の発音内容に対応する音声素片P(PA,PB)が音声ライブラリLAおよび音声ライブラリLBの双方から順次に選択され、音声ライブラリLAから選択された音声素片PAと音声ライブラリLBから選択された音声素片PBとを混合比率Rで混合すること(以下「混合処理」という)で音声素片PSが生成される。混合処理(モーフィング)は、例えば以下の数式(a)で表現される通り、音声素片PAの声質に関する変数pAと音声素片PBの声質に関する変数pBとを混合比率Rに応じて加重加算することで、音声素片PSの声質に関する変数pSを算定する処理である。声質に関する変数としては、音声スペクトルの包絡線を規定する特徴量が例示され得る。
pS=(1−R)・pA+R・pB ……(a)
混合比率Rは、音声ライブラリLA内の音声素片PAと音声ライブラリLB内の音声素片PBとの混合処理における各音声素片Pの優勢度(混合後の音声素片PSに反映される度合)に相当する。具体的には、混合比率Rが最小値(例えば0)である場合には、混合後の音声素片PSは音声素片PAに一致し、混合比率Rが大きいほど音声素片PSに対する音声素片PAの影響が減少し、混合比率Rが最大値(例えば1)である場合には、混合後の音声素片PSは音声素片PBに一致する。以上の説明から理解される通り、音声素片PSの声質は、混合比率Rに応じて音声素片PAと音声素片PBとの中間的な声質に設定され得る。混合処理で順次に生成される音声素片PSを時間軸上で相互に連結することで音声信号Sが生成される。なお、音声素片PAと音声素片PBとの混合処理には、数式(a)以外にも公知の技術が任意に採用され得る。
図1の合成情報Qは、合成対象音声を指定する。図3に例示される通り、第1実施形態の合成情報Qは、楽曲情報QMと制御情報QCとを含んで構成される。楽曲情報QMは、合成楽曲の内容を指定する時系列データであり、合成楽曲を構成する音符毎に音高q1と発音期間q2と音声符号q3とを指定する。音高q1は、例えばMIDI(Musical Instrument Digital Interface)規格に準拠したノートナンバーである。発音期間q2は、例えば発音の開始時刻と継続長(または発音の終了時刻)とで規定される音符の継続長である。音声符号q3は、合成対象音声の発音内容(すなわち合成楽曲の歌詞)を指定する。例えば合成楽曲の歌詞を構成する文字(書記素)や各文字に対応する音素の音素記号が音声符号q3として指定される。
図3の制御情報QCは、音声合成処理に適用される変数の時間変化を指定する。第1実施形態の制御情報QCは、音声素片PAおよび音声素片PBの混合比率Rの時間変化と第1特性変数の時間変化とを指定する。第1特性変数は、合成対象音声の音響特性に関する変数(特徴量)である。第1実施形態では音量Vを第1特性変数として例示する。第1実施形態の制御情報QCは、合成対象音声(合成楽曲)のうち特定の期間(以下「制御期間」という)内の混合比率Rおよび音量Vの時間変化を指定する。
図1の演算処理装置10(CPU)は、記憶装置12に記憶されたプログラムを実行することで、合成情報Qの編集や音声信号Sの生成のための複数の機能(指示受付部22,表示制御部24,情報管理部26,音声合成部28)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置10の一部の機能を実現する構成も採用され得る。
音声合成部28は、記憶装置12に記憶された音声ライブラリLと合成情報Qとを利用した音声合成処理で音声信号Sを生成する。図4は、音声合成処理のフローチャートである。音声合成処理を開始すると、音声合成部28は、合成情報Qの楽曲情報QMが音符毎に指定する音声符号q3に応じた音声素片P(PA,PB)を音声ライブラリLAおよび音声ライブラリLBの双方から順次に選択する(SA1)。
音声合成部28は、音声ライブラリLAから選択した音声素片PAと音声ライブラリLBから選択した音声素片PBとについて、合成情報Qの制御情報QCが現時点について指定する混合比率Rを適用した混合処理を実行することで音声素片PSを生成する(SA2)。また、音声合成部28は、混合後の音声素片PSの音量を、制御情報QCが現時点について指定する音量Vに調整する(SA3)。そして、音声合成部28は、混合処理(SA2)および音量調整(SA3)で順次に生成される各音声素片PSを、合成情報Qの楽曲情報QMが指定する音高q1および発音期間q2に調整し(SA4)、調整後の各音声素片PSを相互に連結することで音声信号Sを生成する(SA5)。
図1の表示制御部24は、各種の画像を表示装置14に表示させる。第1実施形態の表示制御部24は、合成情報Qが指定する合成楽曲の内容を利用者が確認および編集するための図5の編集画像30を表示装置14に表示させる。図5に例示される通り、編集画像30は、楽譜画像40と変数画像50とを包含する。
楽譜画像40は、相互に交差する時間軸(横軸)および音高軸(縦軸)が設定されたピアノロール型の座標平面(以下「楽譜領域」という)42を含んで構成され、合成情報Qの楽曲情報QMが指定する合成楽曲の内容を表現する。具体的には、表示制御部24は、合成楽曲の各音符を表象する音符図像44を楽譜領域42に配置する。音高軸の方向における音符図像44の位置は、楽曲情報QMが指定する音高q1に応じて設定され、時間軸の方向における音符図像44の位置および表示長は、楽曲情報QMが指定する発音期間q2に応じて設定される。また、各音符図像44には、楽曲情報QMが指定する音声符号q3が付加される。図5では、音声符号q3が指定する文字(合成楽曲の歌詞)と音素記号とを音符図像44の内側に配置した場合が例示されている。
変数画像50は、時間軸(横軸)が設定された領域(以下「変数領域」という)52を含んで構成され、混合処理(SA2)に適用される混合比率Rの時間変化と音量調整(SA3)に適用される音量Vの時間変化とを表現する。変数領域52の時間軸は楽譜領域42の時間軸と共通する。なお、変数画像50の具体的な内容については後述する。
指示受付部22は、入力装置16に対する操作に応じた利用者からの指示を受付ける。例えば利用者は、編集画像30を確認しながら入力装置16を適宜に操作することで合成情報Qの編集を指示することが可能である。情報管理部26は、記憶装置12に記憶された合成情報Qを管理する。具体的には、情報管理部26は、指示受付部22が利用者から受付けた編集の指示に応じて合成情報Q(楽曲情報QM,制御情報QC)を更新する。
図6は、第1実施形態の音声合成装置100の概略的な動作のフローチャートである。入力装置16に対する利用者からの指示を契機として図6の処理が開始される。処理を開始すると、表示制御部24は、記憶装置12に記憶された合成情報Qに応じた図5の編集画像30を表示装置14に表示させる(SB1)。そして、指示受付部22は、合成情報Qの編集の指示を利用者から受付けたか否かを判定する(SB2)。
合成情報Qの編集の指示を指示受付部22が受付けた場合(SB2:YES)、表示制御部24による編集画像30の更新と情報管理部26による合成情報Qの更新とを含む編集処理が実行される(SB3)。例えば、音符の追加が利用者から指示された場合、表示制御部24は、楽譜領域42内で利用者から指示された位置に音符図像44を追加し、情報管理部26は、利用者から指示された音符の情報(q1〜q3)を合成情報Qの楽曲情報QMに追加する。既存の音符図像44の移動や時間軸上の伸縮が利用者から指示された場合、表示制御部24は、音符図像44の位置や表示長を利用者からの指示に応じて変更し、情報管理部26は、楽曲情報QMのうち編集対象の音符の音高q1や発音期間q2を利用者からの指示に応じて変更する。また、各音符の音声符号q3の変更が利用者から指示された場合、表示制御部24は、当該音符の音声符号q3の表示を利用者からの指示に応じて変更し、情報管理部26は、楽曲情報QMのうち当該音符の音声符号q3を利用者からの指示に応じて変更する。合成情報Qの編集が指示されていない場合(SB2:NO)、編集処理は実行されない。
以上の処理が完了すると、指示受付部22は、音声合成(音声信号Sの生成)の指示を利用者から受付けたか否かを判定する(SB4)。音声合成の指示を指示受付部22が受付けた場合(SB4:YES)、音声合成部28は、音声ライブラリL(LA,LB)と合成情報Qとを適用した図4の音声合成処理を実行することで音声信号Sを生成する(SB5)。他方、音声合成が指示されていない場合(SB4:NO)には音声合成処理は実行されない。また、指示受付部22は、処理終了の指示を利用者から受付けたか否かを判定する(SB6)。処理終了が指示されていない場合(SB6:NO)には、処理がステップSB1に遷移して以降の処理が反復され、処理終了が指示された場合(SB6:YES)には図6の処理が終了する。
利用者は、入力装置16を適宜に操作することで、混合比率Rおよび音量Vの時間変化の編集を指示することが可能である。図7は、混合比率Rおよび音量Vの時間変化の編集の指示を指示受付部22が受付けた場合(SB2:YES)に演算処理装置10が実行する編集処理(SB3)のフローチャートである。
混合比率Rおよび音量Vの編集が指示されると、表示制御部24は、図8に例示される通り、調整画像60を表示装置14に表示させる(SC1)。調整画像60は、合成対象音声(合成楽曲)の制御期間内における混合比率Rの時間変化と音量Vの時間変化とを利用者が編集するための画像である。
調整画像60は、相互に交差する第1軸A1(横軸)と第2軸A2(縦軸)とが設定された調整領域62を包含する。第1軸A1は、音声素片PA(第1音声)と音声素片PB(第2音声)との混合比率Rの数値を示す座標軸であり、第2軸A2は、合成対象音声(混合後の音声素片PS)の音量Vの数値を示す座標軸である。第1軸A1の負側の端部(左端部)に表示された「声色A」は第1音声の声質を意味し、第1軸A1の正側の端部(右端部)に表示された「声色B」は第2音声の声質を意味する。
調整領域62内の各地点は位置に応じて相異なる表示態様(色相や彩度や明度等の視覚的に識別可能な画像の性状)で表示される。実際の調整領域62は多数の色彩を含むカラー画像であるが、特許図面でカラー画像を利用できないという事情から便宜的に、図8では、調整領域62内の色相を図面上の階調の濃淡(グレースケール)で代替的に表現し、調整領域62内の明度(階調)を図面上の網点の粗密で代替的に表現した。具体的には、青色から赤色にわたる色相の分布が低階調から高階調にわたる階調の分布で表現され、暗部から明部にわたる階調の分布が高密度(密)から低密度(疎)への網点の密度で表現される。すなわち、図8から理解される通り、第1実施形態の調整領域62は、第1軸A1の負側(左側)の端部から正側(右側)の端部にかけて赤色(階調:高)から青色(階調:低)に連続的に変化するとともに、第2軸A2の負側から正側にかけて低階調(網点:密)から高階調(網点:疎)に連続的に変化する画像である。
利用者は、図8の楽譜画像40を確認しながら入力装置16を適宜に操作することで、変数領域52の時間軸上に複数の時点T(T1,T2)を任意に指示することが可能である。指示受付部22は、時間軸上の複数の時点T(T1,T2)の指示を利用者から受付ける(SC2)。時点T1は、合成対象音声のうち混合比率Rと音量Vとが変化する制御期間の始点に相当し、時点T2は制御期間の終点に相当する。表示制御部24は、図8に例示される通り、指示受付部22が利用者から受付けた各時点Tを変数領域52内に表示する(SC3)。利用者は、楽譜画像40の複数の音符図像44の時系列を随時に確認しながら、合成楽曲のうち混合比率Rおよび音量Vを変化させるべき箇所が制御期間に包含されるように時点T1と時点T2とを指示する。また、利用者は、入力装置16に対する操作で各時点Tを時間軸の方向に移動させることも可能である。
利用者は、図8の調整画像60を確認しながら入力装置16を適宜に操作することで、変数領域52内の各時点Tに対応する複数の地点(以下「指示点」という)Xを調整領域62内に指示することが可能である。指示受付部22は、調整領域62内の複数の指示点X(X1,X2)の指示を利用者から順次に受付ける(SC4)。表示制御部24は、図8に例示される通り、指示受付部22が指示を受付けた各指示点Xと、相前後して指示された2個の指示点Xを連結する経路Cとを調整領域62内に表示する(SC5)。第1実施形態の経路Cは2個の指示点Xを連結する直線である。なお、経路Cの表示は省略され得る。
1個の指示点Xは、混合比率Rおよび音量Vの各数値に対応した座標点である。すなわち、指示点Xの第1軸A1上の位置が混合比率Rの数値に相当し、指示点Xの第2軸A2上の位置が音量Vの数値に相当する。指示点Xが第1軸A1の正側の端部(声色B)に近付くほど混合比率Rの数値は増加し、指示点Xが第2軸A2の正側の端部に近付くほど音量Vの数値は増加する。
図9は、複数の指示点X(X1,X2)が指定された調整領域62の模式図である。図9では、調整領域62内の表示態様の変化の図示を便宜的に省略した。利用者が指示した指示点X1は、時点T1(制御期間の始点)における混合比率Rおよび音量Vの数値に対応する。すなわち、図9に例示される通り、第1軸A1上で指示点X1に対応する数値r1は時点T1での混合比率Rの数値に相当し、第2軸A2上で指示点X1に対応する数値v1は時点T1での音量Vの数値に相当する。他方、指示点X2は、時点T2(制御期間の終点)における混合比率Rおよび音量Vの数値に対応する。すなわち、図9に例示される通り、第1軸A1上で指示点X2に対応する数値r2は時点T2での混合比率Rの数値に相当し、第2軸A2上で指示点X2に対応する数値v2は時点T2での音量Vの数値に相当する。以上の説明から理解される通り、指示点X1および指示点X2は、時点T1から時点T2にかけて数値r1から数値r2に連続的に遷移する混合比率Rの時間変化と、時点T1から時点T2にかけて数値v1から数値v2に連続的に遷移する音量Vの時間変化とを表現する。
利用者は、入力装置16を適宜に操作することで、調整領域62内の任意の指示点X(以下「選択指示点X」という)を選択し、選択指示点Xに対応する音声の再生を指示することが可能である。選択指示点Xの選択を指示受付部22が受付けると、音声合成部28は、選択指示点Xに対応する混合比率Rと音量Vとを適用した音声合成処理で音声信号Sを生成する。具体的には、音声合成部28は、特定の発音内容(例えば合成情報Qで指定される音声符号q3とは無関係に事前に選定された文字)に対応する音声素片P(PA,PB)を音声ライブラリLAおよび音声ライブラリLBの双方から選択し(SA1)、選択指示点Xに対応する混合比率Rの数値を適用した混合処理(SA2)と、選択指示点Xに対応する音量Vの数値を適用した音量調整(SA3)とを実行することで、所定の音高および発音期間の音声信号Sを生成(SA4,SA5)して放音装置18から再生する。すなわち、利用者は、各指示点Xに対応する混合比率Rおよび音量Vを適用した合成音声を実際に聴取しながら、所望の合成音声が生成されるように調整領域62内の各指示点Xの位置を調整することが可能である。例えば、音声素片PAと音声素片PBとの収録時の音量差に起因した合成音声の音量感の変化(混合比率Rの時間変化に連動した変化)が抑制されるように、音量Vを混合比率Rに応じて調整することが可能である。
表示制御部24は、図8に例示される通り、調整領域62内に指示された各指示点Xに応じた遷移画像54を変数画像50の変数領域52に配置する(SC6)。遷移画像54は、時間軸に沿って延在する帯状の画像であり、時点T1から時点T2にわたる混合比率Rおよび音量Vの時間変化を表現する。第1実施形態の表示制御部24は、遷移画像54の時間軸上の各時点での表示態様が、変数領域52内の時間軸上の時点T1から時点T2にかけて、調整領域62内の指示点X1での表示態様から指示点X2での表示態様まで連続的に変化するように遷移画像54を生成する。すなわち、遷移画像54のうち時点T1での表示態様は、調整領域62内の指示点X1での表示態様に一致し、遷移画像54のうち時点T2での表示態様は、調整領域62内の指示点X2での表示態様に一致する。また、遷移画像54のうち時点T1と時点T2との間の任意の時点tでの表示態様は、調整領域62内の指示点X1から指示点X2までの経路C上で当該時点tに対応する地点での表示態様に一致する。したがって、利用者は、変数画像50を確認することで、時点T1から時点T2にわたる混合比率Rおよび音量Vの時間変化を視覚的に把握することが可能である。
情報管理部26は、調整画像60および変数画像50の内容が反映されるように合成情報Qの制御情報QCを更新する(SC7)。具体的には、混合比率Rおよび音量Vが、時間軸上の時点T1から時点T2にかけて、指示点X1に対応する数値から指示点X2に対応する数値まで経路Cに沿って遷移するように、制御情報QCが更新される。すなわち、情報管理部26は、時間軸上の時点T1から時点T2にかけて、第1軸A1上で指示点X1に対応する数値r1から指示点X2に対応する数値r2まで混合比率Rが連続的に遷移し、かつ、第2軸A2上で指示点X1に対応する数値v1から指示点X2に対応する数値v2まで音量Vが連続的に遷移するように、制御情報QCを更新する。
以上に説明した通り、第1実施形態では、音声素片PAおよび音声素片PBの混合比率Rを示す第1軸A1と、合成対象音声の音量Vを示す第2軸A2とが設定された調整領域62に、利用者からの指示に応じた各指示点X(X1,X2)が設定される。そして、第1軸A1上で指示点X1に対応する数値r1から指示点X2に対応する数値r2まで遷移する混合比率Rの時間変化と、第2軸A2上で指示点X1に対応する数値v1から指示点X2に対応する数値v2まで遷移する音量Vの時間変化とを指定する制御情報QCが生成される。以上の構成によれば、利用者は、混合比率Rと音量Vとの関係を確認しながら、混合比率Rの時間変化の指示に並行して音量Vの時間変化を指示する(両者の時間変化を一括的に指示する)ことが可能である。したがって、音声合成処理に適用される変数(混合比率Rおよび音量V)を指示する利用者の作業負担を軽減できるという利点がある。
また、第1実施形態では、時間軸上の時点T1から時点T2にかけて混合比率Rおよび音量Vが指示点X1での数値から指示点X2での数値まで遷移するように制御情報QCが生成されるから、合成対象音声(合成楽曲)の特定の期間について限定的に混合比率Rおよび音量Vの時間変化を利用者が指示することが可能である。また、制御期間を画定する時点T1および時点T2は利用者からの指示に応じて可変に設定されるから、合成対象音声のうち利用者の所望の期間について混合比率Rおよび音量Vの時間変化を指示できるという利点もある。
例えば、声色Bの第2音声(音声素片PB)の音量が声色Aの第1音声(音声素片PA)と比較して大きいと仮定し、合成対象音声を第2音声(声色B)から第1音声(声色A)に経時的に変化させる場合を想定する。図10の例示のように第1軸A1の正側(声色B側)に位置する指示点X1と負側(声色A側)に位置する指示点X2とで第2軸A2上の位置が相等しい場合、時点T1から時点T2にかけて音量Vの数値は略一定に維持される。したがって、合成音声の声質が第2音声の声色Bから第1音声の声色Aに遷移する制御期間において、合成音声の音量は、収録時における各音声素片Pの音量差に起因して、制御期間内で経時的に減少する。他方、図9の例示のように第2軸A2上で指示点X2が指示点X1の正側に位置する場合、時点T1から時点T2にかけて音量Vの数値は経時的に増加する。したがって、合成音声の声質が第2音声の声色Bから第1音声の声色Aに遷移する制御期間において、合成音量の音量は制御期間内で略一定に維持される。すなわち、収録時における各音声素片Pの音量差が低減される。
第1実施形態では、調整領域62内の各地点が相異なる表示態様に設定され、時間軸上の時点T1から時点T2にかけて、調整領域62内の指示点X1での表示態様から指示点X2での表示態様に変化する遷移画像54が表示装置14に表示される。したがって、時点T1から時点T2にわたる混合比率Rおよび音量Vの時間変化を利用者が視覚的および直観的に把握できるという利点もある。
なお、以上の例示では、調整領域62内の2個の指示点X(X1,X2)と変数領域52内の2個の時点T(T1,T2)とを例示したが、図11に例示される通り、変数領域52内の3個以上の時点T(T1,T2,T3)と調整領域62内の3個以上の指示点X(X1,X2,X3)とを設定することも可能である。表示制御部24が変数領域52に配置する遷移画像54の表示態様は、時間軸上の時点T1から時点T2にかけて調整領域62内の指示点X1での表示態様から指示点X2での表示態様まで連続的に変化し、かつ、時間軸上の時点T2から時点T3にかけて調整領域62内の指示点X2での表示態様から指示点X3での表示態様まで連続的に変化する。また、情報管理部26は、混合比率Rおよび音量Vが、時点T1から時点T2にかけて指示点X1での数値から指示点X2での数値まで経路C12に沿って遷移するとともに、時点T2から時点T3にかけて指示点X2での数値から指示点X3での数値まで経路C23に沿って遷移するように、制御情報QCを更新する。
<第2実施形態>
本発明の第2実施形態を以下に説明する。以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態における合成情報Qの制御情報QCは、第1実施形態と同様に混合比率Rおよび第1特性変数(音量V)の時間変化を指定するほか、第2特性変数の時間変化を指定する。第2特性変数は、第1特性変数と同様に、合成対象音声の音響特性に関する変数(特徴量)である。第2実施形態では、音量Uを第2特性変数として例示する。音量V(第1特性変数)と音量U(第2特性変数)とは同種の音響特性であるが、音量Vは混合比率Rの時間変化との関連を考慮して調整されるのに対し、音量Uは、合成楽曲の各音符との関連(合成楽曲の進行に連動した音量の時間変化)を考慮して調整される。すなわち、例えば、音声素片PAと音声素片PBとの収録時の音量差に起因した合成音声の音量感の変化(混合比率Rの時間変化に連動した変化)が抑制されるように音量Vを混合比率Rに応じて調整しながら、合成楽曲の進行とともに音楽的な表現として音量Uを変化させることが可能である。
図12は、第2実施形態における編集画像30の模式図である。第2実施形態における変数画像50の変数領域52には、第1実施形態と同様の時間軸と、時間軸に交差する数値軸AY(縦軸)とが設定される。数値軸AYは、音量Uの数値を示す座標軸である。
第2実施形態の変数画像50は、混合比率Rおよび音量Vの時間変化を第1実施形態と同様に遷移画像54の表示態様(色相や明度等)で表現するほか、制御情報QCが指定する音量Uの時間変化を遷移画像54の形状で表現する。具体的には、遷移画像54の上縁に位置する外形線56で音量Uの時間変化が表現される。図12では、遷移画像54の外形線56を、音量Uの時間変化を表現する折線とした場合が例示されている。遷移画像54の外形線56のうち時間軸上の任意の時点tでの1点に対応する数値軸AY上の数値が、当該時点tにおける音量Uの数値を意味する。
利用者は、入力装置16を適宜に操作することで遷移画像54の外形線56の編集(変形)を指示することが可能である。表示制御部24は、指示受付部22が利用者から受付けた指示に応じて遷移画像54の外形線56を変形し、情報管理部26は、合成情報Qの制御情報QCが指定する音量Uの時間変化を利用者からの指示に応じて更新する。具体的には、情報管理部26は、音量Uの時間変化を、表示制御部24による変形後の外形線56で表現される時間変化に更新する。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、混合比率Rおよび音量Vの時間変化が遷移画像54の表示態様(色相や明度等)で表現されるほか、合成楽曲内の音量Uの時間変化が遷移画像54の形状で表現される。したがって、例えば音量Uの時間変化を遷移画像54とは別個に表示する構成と比較して簡素な表示で、混合比率Rおよび音量Vに加えて音量Uの時間変化を利用者が確認できるという利点がある。
<第3実施形態>
図13は、第3実施形態における編集画像30の模式図である。第1実施形態では、楽譜領域42とは別個の変数領域52に配置された遷移画像54で混合比率Rおよび音量Vの時間変化を表現した。第3実施形態では、楽譜領域42内に配置された音符図像44を利用して混合比率Rおよび音量Vの時間変化を表現する。調整画像60の内容は第1実施形態と同様である。
図13から理解される通り、第3実施形態の表示制御部24は、制御期間内の各音符図像44の表示態様が、時間軸上の時点T1から時点T2にかけて、調整領域62内の指示点X1での表示態様から指示点X2での表示態様まで連続的に変化するように、各音符図像44の表示態様を制御する。例えば、楽譜領域42内の複数の音符図像44のうち時点T1を含む音符の音符図像44における当該時点T1での表示態様は、調整領域62内の指示点X1での表示態様に一致する。同様に、時点T2を含む音符の音符図像44における当該時点T2での表示態様は、調整領域62内の指示点X2での表示態様に一致する。また、時間軸上の任意の時点tを含む音符の音符図像44における当該時点tでの表示態様は、調整領域62のうち指示点X1から指示点X2までの経路C上で当該時点tに対応した地点の表示態様に設定される。
他方、変数画像50の変数領域52には、第2実施形態と同様に時間軸と数値軸AY(縦軸)とが設定され、制御情報QCが指定する音量Uの時間変化を表現する遷移線58が表示される。図13の遷移線58は、音量Uの時間変化を表現する折線であり、第2実施形態における遷移画像54の外形線56に相当する。なお、変数画像50を省略することも可能である。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、楽譜領域42内に配置された音符図像44の表示態様に応じて混合比率Rおよび音量Vの時間変化が表現されるから、混合比率Rおよび音量Vの時間変化と合成楽曲の各音符との関係を利用者が容易に把握できるという利点がある。
<第4実施形態>
図14は、第4実施形態における編集画像30の模式図である。図14に例示される通り、第4実施形態の楽譜領域42には、合成楽曲の各音符を表象する音符図像44と、各音符図像44に対応する補助図像46が配置される。相対応する音符図像44と補助図像46とは、相互に近接した位置(すなわち、音符図像44と補助図像46との対応関係を利用者が判別可能な位置)に配置される。補助図像46の時間軸上の表示長は、当該補助図像46に対応する音符図像44と共通する。
第3実施形態では楽譜領域42内の各音符図像44を利用して混合比率Rおよび音量Vの時間変化を表現したが、第4実施形態では、音符図像44とは別個の各補助図像46を混合比率Rおよび音量Vの時間変化の表現に利用する。すなわち、補助図像46は、音符図像44が表象する音符に関連する変数(混合比率R,音量V)の表示を補助する図像として位置付けられる。なお、調整画像60の内容は第1実施形態と同様である。また、変数画像50の変数領域52には、第2実施形態と同様に、制御情報QCが指定する音量Uの時間変化を表現する遷移線58が表示される。変数画像50を省略することも可能である。
図14から理解される通り、第3実施形態の表示制御部24は、制御期間内の各補助図像46の表示態様が、時間軸上の時点T1から時点T2にかけて、調整領域62内の指示点X1での表示態様から指示点X2での表示態様まで連続的に変化するように、各補助図像46の表示態様を制御する。例えば、時点T1を含む音符の補助図像46における当該時点T1の表示態様は、調整領域62内の指示点X1での表示態様に一致し、時点T2を含む音符の補助図像46における当該時点T2の表示態様は、調整領域62内の指示点X2での表示態様に一致する。また、時間軸上の任意の時点tを含む音符の補助図像46における当該時点tでの表示態様は、調整領域62のうち指示点X1から指示点X2までの経路C上で当該時点tに対応した地点の表示態様に設定される。
第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態では、楽譜領域42内の各音符図像44に対応する補助図像46の表示態様に応じて混合比率Rおよび音量Vの時間変化が表現されるから、第3実施形態と同様に、混合比率Rおよび音量Vの時間変化と合成楽曲の各音符との関係を利用者が容易に把握できるという利点がある。
なお、混合比率Rおよび音量Vの表示に音符図像44を利用する第3実施形態では、第4実施形態の補助図像46が不要であるから、第4実施形態と比較して楽譜画像40の内容が簡素化される(表示要素の総数が削減される)という利点がある。他方、音符図像44とは別個の補助図像46を混合比率Rおよび音量Vの表示に利用する第4実施形態では、音符図像44の表示態様を混合比率Rや音量Vの時間変化とは無関係に選定でき(音符図像44の表示態様の選定の自由度が高い)、例えば各音符図像44に付加された音声符号q3の視認性を維持できるという利点がある。
<第5実施形態>
第1実施形態から第4実施形態では2種類の音声(第1音声,第2音声)の混合処理を例示したが、声質が相違する3種類以上の音声の音声素片Pを混合する混合処理も想定され得る。3種類以上の音声の音声素片Pを混合する場面で混合比率Rの時間変化を調整する場合、各音声の比率を利用者が総合的に考慮しながら混合比率Rを決定する必要があり、利用者の作業負担が大きいという問題がある。第5実施形態は、3種類以上の音声の混合比率Rの時間変化を調整する利用者の作業負担を軽減するための形態である。
図15は、第5実施形態における混合処理の説明図である。図15に例示される通り、第5実施形態の記憶装置12には、3個の音声ライブラリL(LA,LB,LC)が記憶される。音声ライブラリLCは、音声ライブラリLAの第1音声や音声ライブラリLBの第2音声とは声質(声色)が相違する第3音声から抽出された複数の音声素片PCの集合である。音声合成部28が実行する混合処理(SA3)では、音声ライブラリLAから選択された音声素片PAと音声ライブラリLBから選択された音声素片PBと音声ライブラリLCから選択された音声素片PCとが混合比率Rのもとで混合される。第5実施形態の混合比率Rは、第1音声の比率(加重値)λAと第2音声の比率λBと第3音声の比率λCとを包含する。混合処理は、例えば以下の数式(b)で表現される通り、音声素片PAの変数pAと音声素片PBの変数pBと音声素片PCの変数pCとを混合比率R(λA,λB,λC)に応じて加重加算することで、合成後の音声素片PSの声質に関する変数pSを算定する処理である。比率λAと比率λBと比率λCとの合計値は例えば1である。
pS=λA・pA+λB・pB+λC・pC ……(b)
以上の説明から理解される通り、音声素片PSの声質は、混合比率Rに応じて音声素片PAと音声素片PBと音声素片PCとの中間的な声質に設定され得る。混合処理で順次に生成される音声素片PSを時間軸上で相互に連結して音声信号Sを生成する動作は第1実施形態と同様である。合成情報Qの制御情報QCは、混合処理に適用される混合比率R(λA,λB,λC)の時間変化を指定する。第5実施形態では音量Vの時間変化は省略される。なお、第5実施形態の混合処理には、数式(b)以外にも公知の技術が任意に採用され得る。
図16は、第5実施形態における編集画像30の模式図である。第5実施形態の編集画像30は、第1実施形態と同様の楽譜画像40と、混合比率Rの時間変化を調整するための調整画像60および変数画像50とを含んで構成される。第5実施形態の調整画像60は、音声合成処理に利用される各音声に対応する基準点G(GA,GB,GC)が相互に離間して設定された調整領域62を包含する。基準点GA(声色A)は第1音声(音声素片PA)に対応し、基準点GB(声色B)は第2音声(音声素片PB)に対応し、基準点GC(声色C)は第3音声(音声素片PC)に対応する。
調整領域62内の各地点は位置に応じて相異なる表示態様で表示される。実際の調整領域62は多色の色彩を含むカラー画像であるが、図16では便宜的に、調整領域62内の色相を図面上の階調の濃淡(グレースケール)で代替的に表現した。具体的には、調整領域62の中心の周囲に青色と青色と緑色と赤色とにわたる連続的な色相の分布を波長順に配色した画像が調整領域62として好適である。
第1実施形態と同様に、指示受付部22は、変数領域52の時間軸上の複数の時点T(T1,T2,T3)の指示を利用者から受付け(SC2)、表示制御部24は、各時点Tを変数領域52内に表示する(SC3)。また、指示受付部22は、調整領域62の複数の指示点X(X1,X2,X3)の指示を利用者から受付け(SC4)、表示制御部24は、指示受付部22が受付けた各指示点Xと、相前後して指示された2個の指示点Xを連結する経路C(C12,C23)とを調整領域62内に表示する(SC5)。
第5実施形態の1個の指示点Xは、混合比率R(λA,λB,λC)の各数値に対応した座標点である。具体的には、指示点Xが1個の基準点Gに近いほど、当該基準点Gに対応する音声の比率λ(λA,λB,λC)が大きい数値となるように、調整領域62内における指示点Xの位置に応じて混合比率Rの各比率λの数値が決定される。指示点Xの位置と各比率λの数値との関係の具体例を以下に列挙する。
図17は、第5実施形態の調整領域62の模式図である。図17では、調整領域62内の各地点での表示態様の相違の図示を便宜的に省略した。図17における指示点の各位置σ(σ1,σ2,σ3,σ4,……)と、当該位置σの指示点Xに対応する各比率λの相対比(λA:λB:λC)との関係は、例えば以下の通りである。
(1)位置σ1(基準点GA) λA:λB:λC=10: 0: 0
(2)位置σ2(基準点GB) λA:λB:λC= 0:10: 0
(3)位置σ3(基準点GC) λA:λB:λC= 0: 0:10
(4)位置σ4 λA:λB:λC= 0:10:10
(5)位置σ5 λA:λB:λC= 5: 5: 0
(6)位置σ6 λA:λB:λC= 5: 0: 5
(7)位置σ7 λA:λB:λC=10: 5: 5
なお、指示点Xと混合比率R(各比率λ)との関係は以上の例示に限定されない。例えば、各音声の基準点Gから指示点Xまでの距離と当該基準点Gに対応する音声の比率λとが反比例するように、調整領域62内の指示点Xの位置に応じて各比率λの数値を決定することも可能である。
表示制御部24は、第1実施形態と同様に、調整領域62内に指示された各指示点Xに応じた遷移画像54を変数画像50の変数領域52に配置する(SC6)。具体的には、図16から理解される通り、遷移画像54の表示態様は、時間軸上の時点T1から時点T2にかけて、調整領域62内の指示点X1での表示態様から指示点X2での表示態様まで連続的に変化するとともに、時間軸上の時点T2から時点T3にかけて、調整領域62内の指示点X2での表示態様から指示点X3での表示態様まで連続的に変化する。
情報管理部26は、混合比率Rの各比率λが、調整領域62内の各指示点Xでの数値に応じて経時的に遷移するように、合成情報Qの制御情報QCを更新する(SC7)。具体的には、混合比率R(各比率λ)が、時点T1から時点T2にかけて、調整領域62内の指示点X1に対応する数値から指示点X2に対応する数値まで、経路C12に沿って遷移するとともに、時点T2から時点T3にかけて、調整領域62内の指示点X2に対応する数値から指示点X3に対応する数値まで、経路C23に沿って遷移するように、制御情報QCが更新される。
以上に説明した通り、第5実施形態では、混合処理に適用される各音声に対応する基準点G(GA,GB,GC)が設定された調整領域62に、利用者からの指示に応じた指示点X(X1,X2,X3)が設定され、各指示点Xの間にわたる混合比率R(λA,λB,λC)の時間変化が制御情報QCにて指定される。以上の構成によれば、利用者は、混合処理に適用される各音声の相互的な関係(各音声の比率λの関係)を調整領域62で視覚的に確認しながら混合比率Rの時間変化を指示することが可能である。したがって、混合比率Rの時間変化を調整する利用者の作業負担が軽減されるという利点がある。
なお、第5実施形態でも、第2実施形態と同様に、制御情報QCが指定する音量Uの時間変化を遷移画像54の形状(外形線56の形状)で表現する構成が採用され得る。また、第3実施形態と同様に、調整領域62内の各指示点Xの間の表示態様の変化を、楽譜領域42内の各音符図像44の表示態様に応じて表現する構成や、第4実施形態と同様に、調整領域62内の各指示点Xの間の表示態様の変化を、楽譜領域42内の各補助図像46の表示態様に応じて表現する構成も、第5実施形態に採用され得る。
<第6実施形態>
図18は、第6実施形態の表示制御部24が表示装置14に表示させる調整画像60の模式図である。第6実施形態の調整画像60は、相互に交差する第1軸A1(横軸)と第2軸A2(縦軸)とが設定された調整領域62を包含する。第1軸A1と第2軸A2とは、相異なる種類の特性変数の数値を示す座標軸である。特性変数は、合成対象音声の音響特性に関する変数であり、音声合成部28による音声合成処理に適用される。例えば音声の明瞭度(brightness, clearness),気息成分の強弱(breathiness),男声/女声の度合(genderfactor),音高の微小変化(pitch-bend),音量(dynamics),発音の強弱(velocity)等の変数が特性変数として例示され得る。第1軸A1は、以上の例示から選択された第1特性変数の数値を示す座標軸であり、第2軸A2は、第1特性変数とは別種の第2特性変数の数値を示す座標軸である。
調整領域62内の各地点が位置に応じて相異なる表示態様で表示される点や、調整領域62内に利用者からの指示に応じて複数の指示点Xが設定される点は第1実施形態と同様である。また、第1実施形態と同様に、変数画像50の変数領域52には、利用者からの指示に応じた複数の時点Tが設定され、調整領域62内の各指示点Xの間と同様に時間軸上の各時点T間で表示態様が変化する遷移画像54が配置される。
合成情報Qの制御情報QCは、第1特性変数および第2特性変数の時間変化を指定する。情報管理部26は、第1特性変数および第2特性変数の数値が、調整領域62内の各指示点Xでの数値に応じて経時的に遷移するように、制御情報QCを更新する。具体的には、第1特性変数の数値が、時点T1から時点T2にかけて、第1軸A1上で指示点X1に対応する数値から指示点X2に対応する数値まで連続的に遷移するとともに、第2特性変数の数値が、時点T1から時点T2にかけて、第2軸A2上で指示点X1に対応する数値から指示点X2に対応する数値まで連続的に遷移するように、制御情報QCが更新される。
以上に説明した通り、第6実施形態では、第1特性変数の第1軸A1と第2特性変数の第2軸A2とが設定された調整領域62に、利用者からの指示に応じた指示点X(X1,X2)が設定され、指示点X1に対応する数値から指示点X2に対応する数値まで遷移するように第1特性変数および第2特性変数の時間変化が設定される。以上の構成によれば、利用者は、第1特性変数と第2特性変数との関係を確認しながら両者の時間変化を指示することが可能である。したがって、音声合成処理に適用される特性変数を指示する利用者の作業負担を軽減できるという利点がある。
<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
(1)前述の各形態では、調整領域62内の各指示点Xを直線の経路Cで連結したが、経路Cは直線に限定されない。例えば、図19に例示される通り、3個の指示点X(X1,X2,X3)に応じた補間曲線を経路Cとして設定する構成や、図20に例示される通り、各指示点X間で利用者が任意に指定した曲線(自由曲線)を経路Cとして設定する構成が採用され得る。
(2)前述の各形態では、調整領域62内の各地点の位置に応じて明度や色相を相違させたが、調整領域62内の各地点の位置に応じて相違させる表示態様は明度や色相に限定されない。例えば、図21に例示される通り、網掛やハッチング等のパターン(塗潰しパターン)を調整領域62内の各地点の位置に応じて相違させることも可能である。また、前述の各形態では調整領域62をカラー画像としたが、調整領域62を白黒画像として、調整領域62内の各地点の位置に応じて明度(階調)を相違させることも可能である。
(3)第1実施形態から第4実施形態では、混合比率Rとともに調整される第1特性変数として音量Vを例示したが、第1特性変数は音量Vに限定されない。また、第2実施形態では、遷移画像54の形状で時間変化が表現される第2特性変数として音量Uを例示したが、第2特性変数は音量Uに限定されない。例えば、第6実施形態で例示した通り、音声の明瞭度,気息成分の強弱,男声/女声の度合,音高の微小変化等を、第1実施形態から第4実施形態の第1特性変数や第2実施形態の第2特性変数として選択することも可能である。
(4)前述の各形態では、時点T1から時点T2にわたる変数の時間変化に着目したが、例えば合成対象音声(合成楽曲)の全区間にわたる変数の時間変化を調整する場合にも本発明は同様に適用され得る。すなわち、変数の時間変化が調整される期間を合成対象音声の特定の期間(制御期間)に限定する構成は必須ではない。したがって、利用者による各時点Tの指示は省略され得る。また、時間軸上の各時点Tを利用者からの指示に応じて設定する構成は必須ではない。具体的には、利用者からの指示を要件としない所定の方法で合成対象音声(合成楽曲)に各時点Tを設定することも可能である。例えば、合成楽曲の歌唱区間(例えばフレーズ)を公知の方法で検出し、歌唱区間の始点および終点を各時点Tに設定すれば、歌唱区間の前方と後方とで歌唱音声の声質を相違させることが可能である。
(5)第5実施形態では、調整領域62の隅部に基準点Gを設定したが、図22に例示される通り、調整領域62の内部に基準点G(GA,GB,GC)を設定することも可能である。図22の例示では、各基準点Gを頂点とする三角形状の領域68が調整領域62の内側に画定される。また、図22の例示のように、各基準点Gで画定される領域68の内側および外側に指示点Xが設定され得る構成では、領域68の内側と外側とで混合処理の内容を相違させることも可能である。
例えば、図22の例示の通り、指示点X1が領域68の内側に位置するとともに指示点X2が領域68の外側に位置する場合を想定する。音声合成部28は、時点T1から時点T2までの期間のうち経路C12上で領域68の内側の区間に対応する各時点tでは、第5実施形態の例示と同様に、全部(3種類)の音声の音声素片P(PA,PB,PC)を混合比率Rのもとで混合する。他方、時点T1から時点T2までの期間のうち経路C12上で領域68の外側の区間に対応する各時点tでは、指示点X2に近い2個の基準点G(GA,GC)に対応する音声素片P(PA,PC)を混合比率Rのもとで混合する。図22の例示では、指示点X2および指示点X3は何れも領域68の外側に位置するから、時点T2から時点T3までの期間では、音声素片PAと音声素片PCとが混合比率Rのもとで混合される。
(6)第5実施形態では、3種類の音声(第1音声,第2音声,第3音声)の混合を例示したが、混合対象となる音声の種類数は任意であり、例えば4種類以上の音声を混合することも可能である。図23は、5種類の音声を混合する場合の調整領域62の模式図である。図23に例示される通り、各音声に対応する5個の基準点G(GA,GB,GC,GD,GE)が円形状の調整領域62の円周上に設定される。
(7)前述の各形態では、合成情報Qの管理(表示制御部24および情報管理部26)と音声信号Sの生成(音声合成部28)との双方を実行する音声合成装置100を例示したが、合成情報Qを管理する音声合成管理装置としても本発明は特定され得る。音声合成管理装置では音声合成部28の有無は不問である。また、携帯電話機等の端末装置と通信するサーバ装置で音声合成装置100や音声合成管理装置を実現することも可能である。指示受付部22は、利用者が端末装置に付与した指示を端末装置から通信網を介して受付け、表示制御部24は、例えば編集画像30の画像データを端末装置に送信することで編集画像30を端末装置の表示装置に表示させる。また、音声合成部28は、音声合成処理で生成した音声信号Sを端末装置に送信する。
(8)前述の各形態では、合成楽曲の歌唱音声の音声信号Sの生成を例示したが、歌唱音声以外の音声(例えば会話音等)の音声信号Sの生成にも本発明を適用することが可能である。したがって、合成情報Qの楽曲情報QM(音高q1,発音期間q2)は省略され得る。また、前述の各形態では、日本語の音声の合成を例示したが、合成対象となる音声の言語は任意である。例えば、英語,スペイン語,中国語,韓国語等の任意の言語の音声を生成する場合にも本発明を適用することが可能である。
100……音声合成装置、10……演算処理装置、12……記憶装置、14……表示装置、16……入力装置、18……放音装置、22……指示受付部、24……表示制御部、26……情報管理部、28……音声合成部、30……編集画像、40……楽譜画像、42……楽譜領域、44……音符図像、46……補助図像、50……変数画像、52……変数領域、54……遷移画像、56……外形線、58……遷移線、60……調整画像、62……調整領域。

Claims (5)

  1. 合成対象音声の合成時における第1音声と第2音声との混合比率を示す第1軸と、前記合成対象音声の音響特性に関する第1特性変数を示す第2軸とが設定された調整領域を含む調整画像を表示装置に表示させる表示制御手段と、
    前記調整領域内の第1指示点および第2指示点の指示を利用者から受付ける指示受付手段と、
    前記第1軸上で前記第1指示点に対応する数値から前記第2指示点に対応する数値への前記混合比率の時間変化と、前記第2軸上で前記第1指示点に対応する数値から前記第2指示点に対応する数値への前記第1特性変数の時間変化とを示す制御情報を生成する情報管理手段と
    を具備する音声合成管理装置。
  2. 前記情報管理手段は、前記合成対象音声のうち時間軸上の第1時点から第2時点までの期間について、前記第1軸上で前記第1指示点に対応する数値から前記第2指示点に対応する数値への前記混合比率の時間変化と、前記第2軸上で前記第1指示点に対応する数値から前記第2指示点に対応する数値への前記第1特性変数の時間変化とを示す制御情報を生成する
    請求項1の音声合成管理装置。
  3. 前記表示制御手段は、
    前記調整領域内の各地点が相異なる表示態様に設定された前記調整画像と、
    時間軸上の前記第1時点から前記第2時点にかけて前記調整領域内の前記第1指示点での表示態様から前記第2指示点での表示態様に変化する遷移画像を含む変数画像と
    を前記表示装置に表示させる
    請求項2の音声合成管理装置。
  4. 前記表示制御手段は、前記合成対象音声の音響特性に関する第2特性変数の時間変化を前記遷移画像の形状で表現する前記変数画像を前記表示装置に表示させる
    請求項3の音声合成管理装置。
  5. 前記表示制御手段は、
    前記調整領域内の各地点が相異なる表示態様に設定された前記調整画像と、
    前記合成対象音声の各音符を表象する音符図像を、時間軸と音高軸とが設定された楽譜領域に配置した楽譜画像と
    を前記表示装置に表示させ、前記各音符図像における時間軸上の各地点の表示態様を、前記調整領域における前記第1指示点から前記第2指示点までの経路のうち当該地点に対応した地点での表示態様に設定する
    請求項2の音声合成管理装置。
JP2013178514A 2013-08-29 2013-08-29 音声合成管理装置 Active JP6152753B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013178514A JP6152753B2 (ja) 2013-08-29 2013-08-29 音声合成管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013178514A JP6152753B2 (ja) 2013-08-29 2013-08-29 音声合成管理装置

Publications (2)

Publication Number Publication Date
JP2015049253A JP2015049253A (ja) 2015-03-16
JP6152753B2 true JP6152753B2 (ja) 2017-06-28

Family

ID=52699360

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013178514A Active JP6152753B2 (ja) 2013-08-29 2013-08-29 音声合成管理装置

Country Status (1)

Country Link
JP (1) JP6152753B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6834370B2 (ja) * 2016-11-07 2021-02-24 ヤマハ株式会社 音声合成方法
JP2017107228A (ja) * 2017-02-20 2017-06-15 株式会社テクノスピーチ 歌声合成装置および歌声合成方法
JP7059524B2 (ja) * 2017-06-14 2022-04-26 ヤマハ株式会社 歌唱合成方法、歌唱合成システム、及びプログラム
WO2019239972A1 (ja) * 2018-06-15 2019-12-19 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
JP7124870B2 (ja) 2018-06-15 2022-08-24 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7571099B2 (en) * 2004-01-27 2009-08-04 Panasonic Corporation Voice synthesis device
JP4720974B2 (ja) * 2004-12-21 2011-07-13 株式会社国際電気通信基礎技術研究所 音声発生装置およびそのためのコンピュータプログラム
JP5728913B2 (ja) * 2010-12-02 2015-06-03 ヤマハ株式会社 音声合成情報編集装置およびプログラム
JP6236765B2 (ja) * 2011-11-29 2017-11-29 ヤマハ株式会社 音楽データ編集装置および音楽データ編集方法

Also Published As

Publication number Publication date
JP2015049253A (ja) 2015-03-16

Similar Documents

Publication Publication Date Title
JP6152753B2 (ja) 音声合成管理装置
EP2680254B1 (en) Sound synthesis method and sound synthesis apparatus
JP6236765B2 (ja) 音楽データ編集装置および音楽データ編集方法
JP2016090916A (ja) 音声合成装置
JP5625321B2 (ja) 音声合成装置およびプログラム
US10453478B2 (en) Sound quality determination device, method for the sound quality determination and recording medium
JP5223433B2 (ja) 音声データ処理装置およびプログラム
JP5636665B2 (ja) 音楽情報処理装置および音楽情報処理方法
JP5509536B2 (ja) 音声データ処理装置およびプログラム
JP6136202B2 (ja) 音楽データ編集装置および音楽データ編集方法
US11437016B2 (en) Information processing method, information processing device, and program
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP4720974B2 (ja) 音声発生装置およびそのためのコンピュータプログラム
JP6828530B2 (ja) 発音装置及び発音制御方法
JP5790860B2 (ja) 音声合成装置
JP6337698B2 (ja) 音響処理装置
US12014723B2 (en) Information processing method, information processing device, and program
JP5552797B2 (ja) 音声合成装置および音声合成方法
JP2024057180A (ja) プログラム、音響処理方法および音響処理システム
JP6286946B2 (ja) 音声合成装置および音声合成方法
JP6036903B2 (ja) 表示制御装置および表示制御方法
JP2014170251A (ja) 音声合成装置、音声合成方法およびプログラム
JP6497065B2 (ja) 音声合成用ライブラリ生成装置および音声合成装置
JP5782799B2 (ja) 音声合成装置
CN118077222A (zh) 信息处理装置、信息处理方法和程序

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160620

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170502

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170515

R151 Written notification of patent or utility model registration

Ref document number: 6152753

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151