JP6171393B2 - 音響合成装置および音響合成方法 - Google Patents

音響合成装置および音響合成方法 Download PDF

Info

Publication number
JP6171393B2
JP6171393B2 JP2013035147A JP2013035147A JP6171393B2 JP 6171393 B2 JP6171393 B2 JP 6171393B2 JP 2013035147 A JP2013035147 A JP 2013035147A JP 2013035147 A JP2013035147 A JP 2013035147A JP 6171393 B2 JP6171393 B2 JP 6171393B2
Authority
JP
Japan
Prior art keywords
beat
sound
performance
information
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013035147A
Other languages
English (en)
Other versions
JP2014164131A (ja
Inventor
久湊 裕司
裕司 久湊
嘉山 啓
啓 嘉山
慶二郎 才野
慶二郎 才野
誠 橘
橘  誠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2013035147A priority Critical patent/JP6171393B2/ja
Publication of JP2014164131A publication Critical patent/JP2014164131A/ja
Application granted granted Critical
Publication of JP6171393B2 publication Critical patent/JP6171393B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、音声(例えば歌唱音)や楽音を合成する技術に関する。
所望の楽曲の歌唱音や演奏音を合成する技術(音声合成技術,楽音合成技術)が従来から提案されている。例えば特許文献1には、楽曲の歌詞データが時系列に指定する各歌詞の歌唱時点を、利用者による電子楽器の演奏内容を示す演奏データに応じて制御する技術が開示されている。特許文献1の技術によれば、電子楽器の演奏に同期した歌唱音声が実時間的に生成される。
特開2008−170592号公報
特許文献1の技術によれば、演奏データで指定される音高および発音期間の歌唱音声を正確に合成することは可能であるが、演奏者に固有の音楽的な傾向を反映した聴感的に自然な合成音を生成することは実際には容易ではない。以上の事情を考慮して、本発明は、演奏の傾向を反映した合成音を生成することを目的とする。
以上の課題を解決するために、本発明の第1態様に係る音響合成装置は、演奏音の各拍点を演奏拍点として順次に特定する拍解析手段と、楽曲の各基準拍点と拍解析手段が特定した各演奏拍点との時間差に応じた拍位置情報(例えば拍位置情報X[n])を拍点毎(例えば楽曲の特定の区間内の各拍点に付与された拍番号毎)に生成する情報生成手段と、音響合成に適用される合成情報が時系列に指定する各音響の発音点の時間軸上の位置(例えば発音時刻Q3)を、当該音響に対応する拍点の拍位置情報に応じて可変に制御する合成制御手段と、合成制御手段による制御後の合成情報に応じて音響信号を生成する音響合成手段とを具備する。以上の構成では、楽曲の各基準拍点と演奏音の各演奏拍点との時間差に応じた拍位置情報が拍点毎に生成され、合成情報が指定する各音響の発音点の位置が、当該音響に対応する拍点の拍位置情報に応じて可変に制御される。したがって、拍点毎の傾向(基準拍点に対する演奏拍点の先後の傾向)を反映した音響信号を生成することが可能である。
第1態様に係る音響合成装置の好適例において、情報生成手段は、楽曲の複数の小節にわたる基準拍点と演奏拍点との時間差の分布(例えば確率分布νX[n])を示す拍位置情報を拍点毎に生成し、合成制御手段は、合成情報が時系列に指定する各音響の発音点の時間軸上の位置を、当該音響に対応する拍点の拍位置情報が示す分布に従う乱数(例えば乱数RX)に応じて制御する。以上の態様では、楽曲の複数の小節にわたる基準拍点と演奏拍点との時間差の分布を示す拍位置情報が拍点毎に生成され、各音響に対応する拍点の拍位置情報で規定される分布に従う乱数に応じて当該音響の発音点の位置が制御される。したがって、演奏音の演奏拍点の概略的な傾向が反映された聴感的に自然な音響信号を生成できるという利点がある。
本発明の第2態様に係る音響合成装置は、演奏音の拍点毎の強度を順次に特定する拍解析手段と、拍解析手段が特定した拍点毎の強度に応じた拍強度情報(例えば拍強度情報Y[n])を拍点毎に生成する情報生成手段と、音響合成に適用される合成情報が時系列に指定する各音響の強度(例えば音量Q2)を、当該音響に対応する拍点の拍強度情報に応じて可変に制御する合成制御手段と、合成制御手段による制御後の合成情報に応じて音響信号を生成する音響合成手段とを具備する。以上の構成では、演奏音の拍点毎の強度に応じた拍強度情報が拍点毎に生成され、合成情報が指定する各音響の強度が、当該音響に対応する拍点の拍強度情報に応じて可変に制御される。したがって、拍点毎の演奏強度の傾向を反映した音響信号を生成することが可能である。
第2態様に係る音響合成装置の好適例において、情報生成手段は、楽曲の複数の小節にわたる演奏音の強度の分布(例えば確率分布νY[n])を示す拍強度情報を拍点毎に生成し、合成制御手段は、合成情報が時系列に指定する各音響の強度を、当該音響に対応する拍点の拍強度情報が示す分布に従う乱数(例えば乱数RY)に応じて制御する。以上の態様では、楽曲の複数の小節にわたる演奏音の強度の分布を示す拍強度情報が拍点毎に生成され、各音響に対応する拍点の拍強度情報で規定される分布に従う乱数に応じて当該音響の強度が制御される。したがって、演奏音の演奏強度の概略的な傾向が反映された聴感的に自然な音響信号を生成できるという利点がある。
第2態様に係る音響合成装置の好適例において、合成制御手段は、合成情報が時系列に指定する各音響の音色に関する音色情報(例えば気息度DBや明瞭度DC)を、拍強度情報に応じた制御後の当該音響の音量に応じて可変に制御する。以上の態様では、各音響の音量に応じて音色情報が制御されるから、多様な音色の音響信号を生成することが可能である。
以上の各態様に係る音響合成装置は、音響信号の生成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。
第1実施形態の音響合成装置のブロック図である。 拍情報を生成する処理の説明図である。 拍位置情報の説明図である。 拍強度情報の説明図である。 拍位置情報を利用した発音時刻の制御の説明図である。 第2実施形態における音量と気息度との関係の説明図である。 第2実施形態における音量と明瞭度との関係の説明図である。 第3実施形態の音響合成装置のブロック図である。 演奏拍点が基準拍点に対して遅延した場合の動作の説明図である。 演奏拍点が基準拍点に対して先行した場合の動作の説明図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音響合成装置100Aのブロック図である。第1実施形態の音響合成装置100Aには、演奏装置12と再生装置14とが接続される。演奏装置12は、利用者による演奏動作に応じた演奏信号Pを生成する電子楽器である。演奏信号Pは、演奏音(楽音)の波形を示す音響信号である。音響合成装置100Aは、楽曲の歌唱音の波形を示す音響信号Vを生成する。具体的には、演奏信号Pから抽出される音楽的な傾向を反映した音響信号Vが生成される。再生装置14は、音響合成装置100Aが生成した音響信号Vに応じた音響を放射する放音機器(例えばスピーカやヘッドホン)を含んで構成される。第1実施形態の再生装置14は、演奏装置12が生成した演奏信号Pと音響合成装置100Aが生成した音響信号Vとの混合音を再生する。利用者は、再生装置14による音響信号Vの再生音を聴取しながら再生音に同期するように演奏装置12で楽曲の伴奏音を演奏する。演奏信号Pから抽出される音楽的な傾向(音響信号Vの再生音の受聴者が知覚する音楽的な特徴)としては、例えば、演奏者に特有のグルーブ(groove)感や演奏上の癖等の演奏動作の音楽的な特徴が例示され得る。
図1に示すように、音響合成装置100Aは、演算処理装置22と記憶装置24とを具備するコンピュータシステムで実現される。記憶装置24は、演算処理装置22が実行するプログラムPGMや演算処理装置22が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置24として任意に採用される。
第1実施形態の記憶装置24は、音声素片群Lと合成情報Sとを記憶する。音声素片群Lは、音響信号Vの合成用素材として利用される複数の音声素片の集合(音声合成ライブラリ)である。音声素片は、言語的な意味の区別の最小単位である音素(例えば母音や子音)の単体や複数の音素を連結した音素連鎖(例えばダイフォンやトライフォン)である。
合成情報Sは、楽曲の内容を指定する時系列データであり、楽曲毎に事前に作成されて記憶装置24に記憶される。図1に示すように、合成情報Sは、音楽情報S1と音符列情報S2とを含んで構成される。音楽情報S1は、楽曲の拍子(4/4拍子等)やテンポ等の音楽的な属性情報を指定する。他方、音符列情報S2は、楽曲を構成する複数の音符の各々について音高Q1と音量Q2と発音時刻Q3と継続長Q4と発音符号Q5とを指定する。音高Q1は、音符の音高を意味する数値(各音高のノートナンバ)であり、音量Q2は、音符の強度である。発音時刻Q3は、音符の発音点の時刻であり、継続長Q4は、音符の発音が継続される時間長(音価)である。すなわち、発音時刻Q3から継続長Q4が経過した時点が音符の消音点(終点)に相当する。発音符号Q5は、音符の発音とともに発声すべき発音内容(楽曲の歌詞)を示す符号である。合成情報Sを利用した音声合成で楽曲の歌唱音の音響信号Vが生成される。
演算処理装置22は、記憶装置24に記憶されたプログラムPGMを実行することで、音響信号Vを生成するための複数の機能(拍解析部32,情報生成部34,合成制御部36,音響合成部38)を実現する。なお、演算処理装置22の各機能を複数の集積回路に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置22の一部の機能を担当する構成も採用され得る。
拍解析部32は、演奏装置12から供給される演奏信号Pを解析する。具体的には、拍解析部32は、図2に示すように、演奏信号Pの各拍点(以下「演奏拍点」という)Bpを特定するとともに演奏信号Pの演奏拍点Bp毎に解析情報Fを順次に生成する。各演奏拍点Bpの特定(拍点検出)には公知の技術が任意に採用される。例えば、拍解析部32は、時間軸上で演奏信号Pの音量が極大となる略等間隔の時点を演奏拍点Bpとして特定する。また、例えば2009−265493号公報に開示された技術により各演奏拍点Bpを検出することも可能である。
各演奏拍点Bpの解析情報Fは時間差Faと強度Fbとを含んで構成される。時間差Faは、図2に示すように、楽曲の各拍点(以下「基準拍点」という)Brefと演奏信号Pから特定された各演奏拍点Bpとの時間差である。基準拍点Brefは、合成情報Sの音楽情報S1が指定する拍子およびテンポに応じた間隔で時間軸上に規定された時点(すなわち楽曲の正規の拍点)である。楽曲の歌唱音を示す音響信号Vの再生音に同期するように利用者は演奏装置12を演奏するから、各基準拍点Brefと各演奏拍点Bpとで時間軸上の位置は略一致するが、実際には各基準拍点Brefと各演奏拍点Bpとの間には利用者による演奏の特徴を反映した時間差Faが発生する。他方、強度Fbは、演奏拍点Bp毎の演奏信号Pの強度である。例えば、各演奏拍点Bpでの演奏信号Pの音量(パワー)を強度Fbとして算定する構成や、相前後する2個の演奏拍点Bpの間の音量の平均値を一方の演奏拍点Bpの強度Fbとして算定する構成が好適である。
図1の情報生成部34は、拍解析部32による演奏信号Pの解析結果(解析情報Fの時系列)に応じた拍情報ZXおよび拍情報ZYを生成する。拍情報ZXおよび拍情報ZYは、楽曲を時間軸上で区分した単位期間毎に順次に生成される。1個の単位期間は、楽曲のM個(Mは2以上の自然数)の小節で構成される。単位期間内の小節数Mは、例えば音響合成装置100Aに対する利用者からの指示に応じて可変に設定される。
図2に示すように、楽曲の各小節内にはN個(図2の例示では4個)の基準拍点Brefが存在する。図2に示すように、情報生成部34が生成する拍情報ZXは、楽曲の各小節のN個の基準拍点Brefに対応するN個の拍位置情報X[1]〜X[N]を含んで構成される。また、拍情報ZYは、楽曲の各小節のN個の基準拍点Brefに対応するN個の拍強度情報Y[1]〜Y[N]を含んで構成される。拍数Nは、楽曲の拍子に応じて規定される。例えば、4/4拍子の楽曲の拍数Nは4(N=4)である。情報生成部34は、合成情報Sの音楽情報S1が指定する拍子を参照することで拍数Nを特定し、各拍番号n(n=1〜N)の拍位置情報X[n]および拍強度情報Y[n]を拍点毎に生成する。
拍情報ZXのうち第n拍に対応する拍位置情報X[n]は、単位期間内のM個の小節にわたる第n拍の基準拍点Brefと演奏拍点Bpとの時間差Faに応じて生成される。具体的には、拍位置情報X[n]は、単位期間内のM個の小節の各々における第n拍の基準拍点Brefと演奏拍点Bpとの時間差Faの度数分布(確率分布)を指定する。例えば、拍位置情報X[n]は、図3に示すように、M個の小節にわたる第n拍の時間差Faの度数分布を近似する確率分布(確率密度関数)νX[n]の平均値xA[n]および散布度xB[n]を含んで構成される。確率分布νX[n]の典型例は正規分布である。また、散布度xB[n]は、M個の小節にわたる第n拍の時間差Faの散らばりの度合を示す統計量であり、典型的には標準偏差である。以上の説明から理解される通り、拍情報ZX(各拍位置情報X[n])は、楽曲の基準拍点Brefに対する演奏拍点Bpの時間差の傾向(例えば各小節の1拍目が遅延し易いといった個々の演奏者に特有の演奏の傾向)を小節内の拍点毎(拍番号n毎)に示す情報である。
拍情報ZYのうち第n拍に対応する拍強度情報Y[n]は、単位期間内のM個の小節にわたる第n拍の演奏拍点Bpの強度Fbに応じて生成される。具体的には、拍強度情報Y[n]は、単位期間内のM個の小節の各々における第n拍の演奏拍点Bpの強度Fbの度数分布(確率分布)を指定する。例えば、拍強度情報Y[n]は、図4に示すように、M個の小節にわたる第n拍の強度Fbの度数分布を近似する確率分布νY[n]の平均値yA[n]および散布度yB[n]を含んで構成される。確率分布νY[n]の典型例は正規分布である。また、散布度yB[n]は、M個の小節にわたる第n拍の強度Fbの散らばりの度合を示す統計量であり、典型的には標準偏差である。以上の説明から理解される通り、拍情報ZY(各拍強度情報Y[n])は、楽曲の演奏拍点Bpでの演奏強度の傾向(例えば各小節の2拍目で音量が増加し易いといった個々の演奏者に特有の演奏の傾向)を小節内の拍番号n毎に示す情報である。
楽曲の基準拍点Brefに対する演奏拍点Bpの時間差の傾向や演奏拍点Bpでの演奏強度の傾向は拍番号n毎に相違し、拍番号n毎の演奏の傾向には演奏者に固有に特徴が観察される。そして、拍番号n毎の演奏の傾向が演奏者に固有の音楽的な傾向(例えばグルーブ感や演奏上の癖)として受聴者に知覚される。すなわち、情報生成部34が生成する拍情報ZXおよび拍情報ZYは、演奏装置12を演奏する利用者に固有の傾向を示す情報として利用され得る。図1の合成制御部36は、情報生成部34が生成した拍情報ZX(X[1]〜X[N])および拍情報ZY(Y[1]〜Y[N])が示す演奏傾向を合成情報Sに反映させる。
第1実施形態の合成制御部36は、楽曲の合成情報Sが時系列に指定する各音符の発音時刻(発音点の時間軸上の位置)Q3を、拍情報ZXのうち当該音符に対応する拍番号nの拍位置情報X[n]に応じて可変に制御する。具体的には、合成制御部36は、合成情報Sが指定する各音符の発音時刻Q3を、当該音符に対応する拍番号nの拍位置情報X[n]が示す確率分布νX[n]に従う乱数RXに応じて制御する。例えば、図5から理解される通り、合成制御部36は、確率分布νX[n]に従う乱数RXを生成するとともに発音時刻Q3に乱数RXを加算することで第n拍の音符の発音点を時間軸上で前後させる。なお、1個の音符bの発音時刻Q3を終点(消音点)とする音符aが存在する場合(すなわち、音符aと音符bとが時間軸上で間隔をあけずに連続する場合)、合成制御部36は、拍位置情報X[n]に応じた音符bの発音時刻Q3の変動に対応するように音符aの終点(継続長Q4)を制御することで、音符bの発音時刻Q3の制御後にも音符aと音符bとを時間軸上で連続させる。
また、合成制御部36は、楽曲の合成情報Sが時系列に指定する各音符の音量Q2を、拍情報ZYのうち当該音符に対応する拍番号nの拍強度情報Y[n]に応じて可変に制御する。具体的には、合成制御部36は、合成情報Sが指定する各音符の音量Q2を、当該音符に対応する拍番号nの拍位置情報X[n]が示す確率分布νY[n]に従う乱数RYに応じて制御する。例えば、合成制御部36は、確率分布νY[n]に従う乱数RYを生成するとともに音量Q2に乱数RYを加算することで第n拍の音符の音量Q2を増減させる。以上の説明から理解される通り、情報生成部34が生成した拍情報ZX(X[1]〜X[N])および拍情報ZY(Y[1]〜Y[N])が合成情報Sに反映される。
図1の音響合成部38は、合成制御部36による制御後の合成情報Sを利用して歌唱音の音響信号Vを生成する。第1実施形態では、記憶装置24に記憶された音声素片群Lの各音声素片を相互に接続する素片接続型の音声合成により音響信号Vを生成する。具体的には、音響合成部38は、各音符の発音符号Q5に対応する音声素片を音声素片群Lから順次に選択し、各音声素片を音高Q1および音量Q2に調整するとともに継続長Q3に伸縮し、調整後の各音声素片を時間軸上の発音時刻Q3に配置して相互に連結することで音響信号Vを生成する。音響合成部38が生成した音響信号Vが演奏信号Pと混合されたうえで再生装置14に供給される。したがって、演奏装置12の演奏音を伴奏とした楽曲の歌唱音が再生される。
以上の説明から理解される通り、第1実施形態では、拍番号n毎の演奏拍点Bpのタイミングの傾向や拍番号n毎の演奏強度の傾向が合成情報Sに反映される。したがって、演奏装置12に対する演奏の傾向(例えば演奏者に固有のグルーブ感や演奏上の癖)が付与された聴感的に自然な音響信号Vを生成できるという利点がある。なお、拍情報ZXに応じた発音時刻Q3の制御と拍情報ZYに応じた音量Q2の制御との一方のみを実行することも可能である。
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同等である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態では、音響合成部38による音響信号Vの生成(音声合成)に音色情報が適用される。音色情報は、合成情報Sが指定する各音符の音色を指示する変数である。以下の説明では、気息度(breathiness)DBと明瞭度(clearness)DCとを音色情報として例示する。気息度DBは、音声の気息性の度合(例えば音声の全体に対する気息性成分の強度比率)を示す変数であり、例えば音声の調波成分に対する非調波成分(気息成分)の強度の制御に適用される。また、明瞭度DCは、音声の明瞭性(いわゆる音声の張り)の度合を示す変数であり、例えば音声の低域成分に対する高域成分(明瞭と知覚される成分)の強度の制御に適用される。
第2実施形態の合成制御部36は、第1実施形態と同様に各音符の発音時刻Q3を拍情報ZXに応じて調整するとともに各音符の音量Q2を拍情報ZYに応じて調整するほか、調整後の各音符の音量Q2に応じて当該音符の音色情報(気息度DBおよび明瞭度DC)を可変に制御する。音色情報は、拍情報ZYの更新毎(すなわち単位期間毎)に、更新後の拍情報ZYで調整された音量Q2に応じて変更される。
音声の音量が増加するほど音声における気息性の度合は低下するという傾向がある。以上の傾向を考慮して、第2実施形態の合成制御部36は、概略的には、拍情報ZYを適用した調整後の音量Q2が増加するほど気息度DBを減少させる。具体的には、合成制御部36は、音量Q2に対して図6の関係が成立するように気息度DBを音量Q2に応じて可変に設定する。すなわち、音量Q2が閾値TB1を下回る場合(Q2<TB1)には気息度DBが最大値DBmax(例えばDBmax=127)に設定され、音量Q2が閾値TB1と閾値TB2との間の数値である場合(TB1≦Q2≦TB2)には音量Q2の増加に対して減少するように気息度DBが制御され、音量Q2が閾値TB2を上回る場合(Q2>TB2)には気息度DBが最小値DBmin(例えばDBmin=0)に設定される。閾値TB1および閾値TB2は、例えば音響合成装置100Aに対する利用者からの指示に応じて可変に設定される。
また、音声の音量が増加するほど明瞭度は上昇するというという傾向がある。以上の傾向を考慮して、第2実施形態の合成制御部36は、概略的には、拍情報ZYを適用した調整後の音量Q2が増加するほど明瞭度DCを増加させる。具体的には、合成制御部36は、音量Q2に対して図7の関係が成立するように明瞭度DCを音量Q2に応じて可変に設定する。すなわち、音量Q2が閾値TC1を下回る場合(Q2<TC1)には明瞭度DCが最小値DCmin(例えばDCmin=0)に設定され、音量Q2が閾値TC1と閾値TC2との間の数値である場合(TC1≦Q2≦TC2)には音量Q2の増加に連動して増加するように明瞭度DCが制御され、音量Q2が閾値TC2を上回る場合(Q2>TC2)には明瞭度DCが最大値DCmax(例えばDmax=127)に設定される。閾値TC1および閾値TC2は、例えば音響合成装置100Aに対する利用者からの指示に応じて可変に設定される。
音響合成部38は、合成制御部36による調整後の合成情報Sと合成制御部36が設定した音色情報(気息度DBおよび明瞭度DC)とに応じた音響信号Vを生成する。具体的には、合成制御部36は、合成制御部36が設定した気息度DBが高いほど音響信号Vの非調波成分の強度を増加させて気息性の度合を増加させ、明瞭度DCが高いほど音響信号Vの高域成分の強度を増加させて明瞭性を増加させる。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、調整後の音量Q2に応じて各音符の音色(気息性や明瞭性)が制御されるから、実際の音声の音量と音色との関係を加味した聴感的に自然な音響信号Vを生成できるという利点がある。
<第3実施形態>
図8は、第3実施形態の音響合成装置100Bのブロック図である。第3実施形態の音響合成装置100Bの演算処理装置22は、拍解析部32と合成制御部36と音響合成部38として機能する。第1実施形態と同様に、利用者は、再生装置14による音響信号Vの再生音を聴取しながら再生音に同期するように演奏装置12で楽曲の伴奏音を演奏する。図8の拍解析部32は、演奏装置12から供給される演奏信号Pの各演奏拍点Bpを特定する。
第3実施形態の合成制御部36は、記憶装置24に記憶された合成情報Sが音符毎に指定する発音時刻Q3を、拍解析部32が特定した各演奏拍点Bpと楽曲の基準拍点Brefとの先後に応じて調整する。具体的には、演奏拍点Bpが基準拍点Brefに対して遅延した場合には、合成情報Sが指定する各音符の発音時刻Q3を遅延させ、演奏拍点Bpが基準拍点Brefに対して先行する場合には、合成情報Sが指定する各音符の発音時刻Q3を先行させる。音響合成部38は、第1実施形態と同様に、合成制御部36による制御後の合成情報Sに応じた音響信号Vを生成する。
図9には、楽曲の基準拍点Bref(Bref[1],Bref[2],……)と、基準拍点Brefに同期して「はながさいた[ha-na-ga-sa-i-ta]」と歌唱した模範的な歌唱音(基準歌唱)とが図示されている。演奏信号Pの演奏拍点Bpが基準拍点Brefに合致する場合(または時間差が充分に小さい場合)、合成制御部36は合成情報Sの各音符の発音時刻Q3を変更しない。したがって、図9に例示された基準歌唱の音響信号Vが音響合成部38により生成されて再生装置14から再生される。
図9では、演奏拍点Bpが基準拍点Bref[5]に対して時間δだけ遅延した場合が想定されている。以上のように演奏拍点Bpが遅延した場合、合成制御部36は、遅延後の演奏拍点Bpを起点として等間隔に配列する基準拍点Brefを再設定し、再設定後の各基準拍点Brefに同期するように合成情報Sの各音符の発音時刻Q3を調整する。したがって、演奏拍点Bpが遅延している最中の歌詞「さ」は調整前の基準拍点Bref[5]にて発音が開始される一方、演奏拍点Bpの遅延の検出後の歌詞「い」は調整後の基準拍点Bref[6]にて発音が開始される。具体的には、歌詞「さ」に対応する音声素片[a]が伸長されるとともに歌詞「い」に対応する音声素片[a-i]の音素[i]の開始点が更新後の基準拍点Bref[6]に調整される。
図10には、図9と同様に、楽曲の基準拍点Bref(Bref[1],Bref[2],……)と、基準拍点Brefに同期して「(はな)がさい(た)[(ha-na-)ga-sa-i(-ta)]」と歌唱した基準歌唱とが図示されている。図10では、演奏拍点Bpが基準拍点Bref[2]に対して時間δだけ先行した場合が想定されている。以上のように演奏拍点Bpが先行した場合、合成制御部36は、基準拍点Brefに先行する演奏拍点Bpを起点として等間隔に配列する基準拍点Brefを再設定し、再設定後の各基準拍点Brefに同期するように合成情報Sの各音符の発音時刻Q3を調整する。したがって、基準拍点Bref[2]に先行する演奏拍点Bp(更新後の基準拍点Bref[2])の直後から歌詞「さ」の発音が開始されるとともに以後の歌詞については再設定後の基準拍点Brefに同期する。具体的には、歌詞「さ」に対応する音声素片[s-a]が収縮される。
第2実施形態においては、基準拍点Brefに対する演奏拍点Bpの先後(先行/遅延)に応じて合成情報Sの各音符の発音時刻Q3が調整されるから、演奏信号Pの各演奏拍点Bpの間隔が変動する場合(例えば利用者が演奏装置12の演奏に習熟していない場合)でも、演奏装置12の演奏に整合した歌唱音の音響信号Vを生成できるという利点がある。
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
(1)演奏音の演奏拍点Bpを特定する方法は以上の例示に限定されない。例えば、前述の各形態では、演奏音の波形を示す演奏信号Pから演奏拍点Bpを特定したが、MIDI(Musical Instrument Digital Interface)楽器を演奏装置12として利用した構成では、演奏装置12から音響合成装置100(100A,100B)に演奏信号Pとして供給されるMIDIデータを参照して拍解析部32が演奏拍点Bpを特定する。
また、記憶装置24に記憶された合成情報Sを演奏信号Pの演奏拍点Bpの検出に利用することも可能である。例えば、演奏信号Pのうち合成情報Sが規定する基準拍点Brefを含む所定の範囲内で強度が極大となる地点を演奏拍点Bpとして特定することが可能である。演奏拍点Bpの特定に合成情報Sを利用する構成によれば、演奏信号Pのみから演奏拍点Bpを特定する構成と比較して高精度に各演奏拍点Bpを特定できるという利点がある。
(2)第3実施形態では、基準拍点Brefに対する演奏拍点Bpの先後を演奏拍点Bpの発生後に判定したが、演奏拍点Bpの時間軸上の位置を過去の演奏拍点Bpの位置から予測することも可能である。例えば、第k番目の演奏拍点Bp[k]と直後の演奏拍点Bp[k+1]との間隔(以下「拍間隔」という)β[k]を以下の数式(1)の演算で予測することが可能である。
Figure 0006171393

数式(1)から理解される通り、過去の相前後する拍間隔(β[k-i],β[k-i-1])の相対比のγ組分(γは2以上の自然数)にわたる平均値を直前の拍間隔β[k-1]に乗算することで第k番目の演奏拍点Bp[k]の拍間隔β[k]が算定される。以上の構成によれば、各演奏拍点Bpの拍間隔β[k]が事前に予測されるから、基準拍点Brefに対する演奏拍点Bpの遅延や先行に対して各音符の発音時刻Q3を迅速に調整することが可能である。また、過去の各拍間隔β[k-i]を利用するから、例えば、演奏装置12の演奏のテンポが上昇する場合(accelerando)や演奏のテンポが低下する場合(ritardando)にも拍間隔β[k]を高精度に推定できるという利点がある。
(3)第2実施形態では、基準拍点Brefに対する演奏拍点Bpの遅延/先行に応じて各音符の発音時刻Q3を制御したが、演奏拍点Bpの遅延/先行に応じた制御対象は発音時刻Q3に限定されない。例えば、基準拍点Brefに対して演奏拍点Bpが遅延した場合に音量Q2を低下させる構成や、演奏拍点Bpが遅延した場合に音色情報を変化させる構成(例えば音響信号Vの明瞭性を低下させる)構成も採用される。また、演奏装置12の演奏のテンポが上昇した場合(各演奏拍点Bpの間隔が減少した場合)に音響信号Vのピッチを上昇させることも可能である。また、演奏拍点Bpの遅延/先行に応じた音声(例えば「ちょっと早い」といった音声)を生成することも可能である。
(4)演奏拍点Bpが長時間にわたり遅延した場合に、演奏拍点Bpの発生が再開するまでの期間(以下「保留期間」という)にて直前の発音符号Q5の音響を反復的に発生させることも可能である。例えば、「さいた」という歌詞の「た」に対応する演奏拍点Bpが検出されない場合に、最後の「た」に対応する母音「あ」を「さいた」の直後に反復的に発生させた「さいたあああ……」という歌唱の音響信号Vを生成する構成や、「さいた」の最後の「た」を「さいた」の直後に反復的に発生させた「さいたたた……」という歌唱の音響信号Vを生成する構成が採用される。音響合成部38は、保留期間内では音響信号Vの音量を所定の周期(例えば直前のテンポに対応する4分音符の時間長毎)で変動させる。
また、保留期間の時間長が所定値を上回る場合に、合成情報Sで指定される発音符号Q5の歌唱音の生成を停止し、事前に用意された歌詞(以下「演奏開始用歌詞」という)の歌唱音を生成することも可能である。演奏開始用歌詞は、利用者による演奏の再開を促進するための歌詞であり、例えば「せーの」「いちにーさんしー」「ワンツースリー」等の文字列が好例である。音響合成部38は、例えば基準拍点Brefに同期した間隔で演奏開始用歌詞の各文字の音響を生成する。また、合成情報Sのうち保留期間の開始前に生成された音声の直後の所定長にわたる音符の発音符号Q5や音高Q1の音名を演奏開始用歌詞として音声を生成する構成も採用される。また、演奏開始用歌詞の音声に代えて、利用者に拍点を指示する音響(例えばメトロノーム音)を生成することも可能である。
(5)第2実施形態では、合成情報Sが指定する歌唱音を演奏拍点Bpに追随させたが、例えば演奏拍点Bpの間隔が過度に短い場合には歌唱音が不自然な音声となる可能性がある。したがって、例えば演奏拍点Bpの間隔が過度に短い場合に、合成情報Sのうち現在の処理対象の音符からみて後方の音符まで処理をスキップする(例えば楽曲内の間奏のように歌唱音が存在しない区間をスキップする)ことも可能である。
(6)前述の各形態では、楽曲の1個の小節内の各拍点の拍番号nに着目したが、複数個の小節を単位として各拍点に拍番号nを付与することも可能である。例えば、2個の小節を単位とする場合を想定すると、第1番目の小節の各拍点には1から4の各拍番号nが順番に付与され、第2番目の小節の各拍点には5から8の各拍番号nが順番に付与される。また、楽曲内の特定の区間(例えば特定のフレーズや歌唱曲の第1番と第2番等)を単位として各拍点に拍番号を付与することも可能である。また、楽曲の全部の拍点について拍位置情報X[n]および拍強度情報Y[n]を生成する構成は必須ではない。例えば、楽曲の特定の拍点のみについて拍位置情報X[n]や拍強度情報Y[n]を生成することも可能である。
(7)前述の各形態では、歌唱音を合成する音響合成装置100(音声合成装置)を例示したが、楽器の演奏音を合成する音響合成装置100(楽音合成装置)にも本発明は適用され得る。すなわち、本発明の音響合成装置は、音声合成装置および楽音合成装置の双方を包含する。また、合成情報Sを加工する合成情報加工装置としても本発明は適用され得る。合成情報加工装置は、拍解析部32と情報生成部34と合成制御部36とを含んで構成され、音響合成部38の有無は不問である。
100A,100B……音響合成装置、12……演奏装置、14……再生装置、22……演算処理装置、24……記憶装置、32……拍解析部、34……情報生成部、36……合成制御部、38……音響合成部。

Claims (3)

  1. 演奏音の各拍点を演奏拍点として順次に特定する拍解析手段と、
    楽曲の各基準拍点と前記拍解析手段が特定した各演奏拍点との時間差に応じた拍位置情報と、楽曲の複数の小節にわたる演奏音の強度の分布を示す拍強度情報とを拍点毎に生成する情報生成手段と、
    音響合成に適用される合成情報が時系列に指定する各音響について、当該音響に対応する拍点の拍位置情報に応じて発音点の時間軸上の位置を可変に制御し、当該音響に対応する拍点の拍強度情報が示す分布に従う乱数に応じて強度を制御する合成制御手段と、
    前記合成制御手段による制御後の合成情報に応じて音響信号を生成する音響合成手段と
    を具備する音響合成装置。
  2. 前記合成制御手段は、前記合成情報が時系列に指定する各音響の音色に関する音色情報を、前記拍強度情報に応じた制御後の当該音響の音量に応じて可変に制御する
    請求項1の音響合成装置。
  3. 演奏音の各拍点を演奏拍点として順次に特定する拍解析ステップと、
    楽曲の各基準拍点と前記拍解析ステップで特定した各演奏拍点との時間差に応じた拍位置情報と、楽曲の複数の小節にわたる演奏音の強度の分布を示す拍強度情報とを拍点毎に生成する情報生成ステップと、
    音響合成に適用される合成情報が時系列に指定する各音響について、当該音響に対応する拍点の拍位置情報に応じて発音点の時間軸上の位置を可変に制御し、当該音響に対応する拍点の拍強度情報が示す分布に従う乱数に応じて強度を制御する合成制御ステップと、
    前記合成制御ステップによる制御後の合成情報に応じて音響信号を生成する音響合成ステップと
    を含む音響合成方法。
JP2013035147A 2013-02-25 2013-02-25 音響合成装置および音響合成方法 Expired - Fee Related JP6171393B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013035147A JP6171393B2 (ja) 2013-02-25 2013-02-25 音響合成装置および音響合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013035147A JP6171393B2 (ja) 2013-02-25 2013-02-25 音響合成装置および音響合成方法

Publications (2)

Publication Number Publication Date
JP2014164131A JP2014164131A (ja) 2014-09-08
JP6171393B2 true JP6171393B2 (ja) 2017-08-02

Family

ID=51614776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013035147A Expired - Fee Related JP6171393B2 (ja) 2013-02-25 2013-02-25 音響合成装置および音響合成方法

Country Status (1)

Country Link
JP (1) JP6171393B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6295691B2 (ja) * 2014-02-05 2018-03-20 ヤマハ株式会社 楽曲処理装置および楽曲処理方法
JP6587007B1 (ja) * 2018-04-16 2019-10-09 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
CN112530401B (zh) * 2020-11-30 2024-05-03 清华珠三角研究院 一种语音合成方法、系统及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1031496A (ja) * 1996-07-15 1998-02-03 Casio Comput Co Ltd 楽音発生装置
JP3812510B2 (ja) * 2002-08-08 2006-08-23 ヤマハ株式会社 演奏データ処理方法および楽音信号合成方法
JP2010117419A (ja) * 2008-11-11 2010-05-27 Casio Computer Co Ltd 電子楽器

Also Published As

Publication number Publication date
JP2014164131A (ja) 2014-09-08

Similar Documents

Publication Publication Date Title
JP6171711B2 (ja) 音声解析装置および音声解析方法
US7825321B2 (en) Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
JP5605066B2 (ja) 音合成用データ生成装置およびプログラム
JP4207902B2 (ja) 音声合成装置およびプログラム
JP5143569B2 (ja) 音響的特徴の同期化された修正のための方法及び装置
JP4645241B2 (ja) 音声処理装置およびプログラム
JP6561499B2 (ja) 音声合成装置および音声合成方法
JP7476934B2 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
JP6171393B2 (ja) 音響合成装置および音響合成方法
JP6175812B2 (ja) 楽音情報処理装置及びプログラム
JPH10319947A (ja) 音域制御装置
JP6390690B2 (ja) 音声合成方法および音声合成装置
JP4844623B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
JP4304934B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
CN115349147A (zh) 音信号生成方法、推定模型训练方法、音信号生成系统及程序
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP2001155031A (ja) 曲検索システムの入力データ処理方法及びデータ入力装置
JP2004061753A (ja) 歌唱音声を合成する方法および装置
JP2016183998A (ja) 音声合成装置、及びプログラム
WO2022208627A1 (ja) 歌唱音出力システムおよび方法
WO2023171497A1 (ja) 音響生成方法、音響生成システムおよびプログラム
JP5552797B2 (ja) 音声合成装置および音声合成方法
JP6295691B2 (ja) 楽曲処理装置および楽曲処理方法
JP6331470B2 (ja) ブレス音設定装置およびブレス音設定方法
JP6182894B2 (ja) 音響処理装置および音響処理方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170619

R151 Written notification of patent or utility model registration

Ref document number: 6171393

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees