JP5943618B2 - 音符列設定装置および音符列設定方法 - Google Patents

音符列設定装置および音符列設定方法 Download PDF

Info

Publication number
JP5943618B2
JP5943618B2 JP2012012888A JP2012012888A JP5943618B2 JP 5943618 B2 JP5943618 B2 JP 5943618B2 JP 2012012888 A JP2012012888 A JP 2012012888A JP 2012012888 A JP2012012888 A JP 2012012888A JP 5943618 B2 JP5943618 B2 JP 5943618B2
Authority
JP
Japan
Prior art keywords
note
string
sound
unit
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012012888A
Other languages
English (en)
Other versions
JP2013152337A (ja
Inventor
慶二郎 才野
慶二郎 才野
恵一 徳田
恵一 徳田
圭一郎 大浦
圭一郎 大浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Nagoya Institute of Technology NUC
Original Assignee
Yamaha Corp
Nagoya Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp, Nagoya Institute of Technology NUC filed Critical Yamaha Corp
Priority to JP2012012888A priority Critical patent/JP5943618B2/ja
Publication of JP2013152337A publication Critical patent/JP2013152337A/ja
Application granted granted Critical
Publication of JP5943618B2 publication Critical patent/JP5943618B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Description

本発明は、文字列を解析する技術に関し、特に、歌詞の文字列を音符列に対応させるために好適に利用される。
利用者が指定した歌詞に好適な音符列(旋律)を生成する技術が従来から提案されている。例えば特許文献1には、歌詞を構成する各単語の抑揚に応じた音高を歌詞の各音節(文字)に付与することで音符列を生成する技術が開示されている。また、非特許文献1には、歌詞の韻律に対応して音高が変動するように音符列を生成する技術が開示されている。
特開2002−149179号公報
深山ほか6名,"Orpheus:歌詞の韻律に基づいた自動作曲システム",情報処理学会研究報告[音楽情報科学],2008(78),p.179-184,2008年7月30日
ところで、実際には歌詞と音符との対応は非常に多様であり、歌詞の各音節と音符列の各音符とが1対1に対応する楽曲もあれば、歌詞の複数の音節が1個の音符に対応する楽曲も数多く存在する。複数の音節が1個の音符に対応するという傾向は、例えばラップ音楽等の分野で特に顕著である。しかし、特許文献1や非特許文献1の技術では、歌詞の各音節に対して各音符が1対1に対応する単調な音符列しか生成できないという問題がある。
他方、歌詞の2個以上の音節に対して1個の音符が対応するように歌詞の単語毎に音節数と音符数との関係を事前に決定することも可能であるが、歌詞の各単語と音符数との関係が画一的であるという問題がある。例えば、「ない(無い)」という単語の全体(2音節)を1個の音符に対応させるという規則を前提とした場合、歌詞内の前後の内容に関わらず「ない」という単語には固定的に1個の音符が付与され、「な」と「い」とを別個の音符に付与した音符列は生成されないという制約がある。したがって、歌詞に対する多様な音符列を生成できないという前述の問題は根本的には解決されない。以上の事情を考慮して、本発明は、歌詞の文字列に対する柔軟かつ多様な譜割の実現を目的とする。
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の各要素と後述の各実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明の音符列設定装置は、複数の音単位を時系列に配列した指定文字列(例えば指定文字列X)に対応する音符列(例えば特定音符列M)を設定する装置であって、指定文字列内で相前後する各音単位間の連結の有無を音単位毎に指定する連結情報(例えば連結情報y[n])を時系列に配列した連結情報列(例えば連結情報列Y)を、指定文字列が観測された条件のもとで連結情報列が生起する条件付確率を最大化する確率モデルにより生成する解析処理手段(例えば解析処理部30)と、連結情報列が指定する連結の有無を指定文字列の各音単位に適用して得られる各譜割単位(例えば譜割単位z[m])に対応する複数の音符を時系列に配列した音符列を取得する音符列取得手段(例えば音符列取得部40)とを具備する。確率モデルは、例えば、複数の音単位を時系列に配列した学習用文字列(例えば学習用文字列XL)と、学習用文字列内で相前後する各音単位間の連結の有無を音単位毎に指定する連結情報を時系列に配列した学習用連結情報列(例えば学習用連結情報列YL)とを各々が含む複数の学習データ(例えば学習データL)を利用した機械学習で生成される。
以上の構成では、指定文字列の各音単位の連結の有無を指定する連結情報列が生成される。したがって、歌詞の各音節が音符列の各音符に対して1対1に割当てられる特許文献1や非特許文献1の技術と比較して、各音符に対応する音単位の個数が可変に設定された多様な譜割が実現される。また、指定文字列Xに対する確率モデルの適用で連結情報列が生成されるから、例えば歌詞の単語毎に音節数と音符数との関係を事前に決定する構成と比較して、柔軟かつ多様な譜割を実現することが可能である。
なお、音符列は、音高が指定された複数の音符の時系列(音高列)を意味する。各音符の音高は、典型的には平均律の12半音から選択されるが、任意に選定することも可能である。例えば、既存の任意のスケール(例えばペンタトニックスケール)の各音高や、既存のスケールとは無関係に選定された各音高(例えば任意の間隔で選定された各音高)が、音符列の各音符について指定され得る。また、音符列の各音符について継続長の指定は必須ではない。
本発明の好適な態様において、音符列取得手段は、複数の音符を時系列に配列した複数の音符列(例えば音符列M[k])のうち、連結情報列が指定する連結の有無を指定文字列の各音単位に適用して得られる譜割単位の個数に対応する音符数の音符列選択する。以上の態様では、譜割単位の個数に対応する音符数の音符列複数の音符列から選択される。したがって、例えば各譜割単位に対応する音符を所定の規則で自動的に選定する構成と比較して、既存の楽曲と同等の自然な音符列を指定文字列に対して設定できるという利点がある。
本発明の好適な態様において、音符列取得手段は、譜割単位の個数に対応する音符数の複数の候補音符列(例えば候補音符列MC)を複数の音符列から選択する第1選択手段(例えば第1選択部41)と、各譜割単位を構成する音単位の個数に応じた基準長(例えば基準長TZ)と、候補音符列内で当該譜割単位に対応する音符の継続長(例えば継続長TM)との差異に応じた誤差指標値(例えば誤差指標値E)を、複数の候補音符列の各々について算定し、各候補音符列の誤差指標値に応じて1個の候補音符列を選択する第2選択手段(例えば第2選択部42)とを含む。以上の態様では、各譜割単位を構成する音単位の個数に応じた基準長と各音符の継続長との差異に応じた誤差指標値に応じて候補音符列が選択されるから、指定文字列の各音単位と音符列の各音符とが無理なく対応した自然な音符列を設定できるという利点がある。
本発明の好適な態様において、確率モデルは、複数の素性で規定される条件付確率場の確率モデルである。多数の楽曲(特にラップ音楽)に妥当する一般的な譜割傾向を考慮すると、確率モデルを規定する複数の素性は、音単位が母音であり連結情報が連結を指定する場合に発火する素性(例えば素性f1)と、音単位が撥音であり連結情報が連結を指定する場合に発火する素性(例えば素性f2)と、音単位が長音であり連結情報が連結を指定する場合に発火する素性(例えば素性f3)と、音単位が促音であり連結情報が連結を指定する場合に発火する素性(例えば素性f4)と、音単位が特定の品詞を構成し、連結情報が連結を指定する場合に発火する素性(例えば素性f5)と、音単位が無声化音であり連結情報が連結を指定する場合に発火する素性(例えば素性f6)とのうちの少なくとも1種類の素性を含むように選定される。以上の態様によれば、譜割傾向を充分に反映した連結情報列を生成できるという利点がある。また、直前の音単位にグリッサンドが付与され(より詳細には、直前の音単位が、グリッサンドの付与された音符に割当てられた複数の音単位のなかで先頭の音単位であり)、連結情報が直前の音単位との連結を指定する場合に発火する素性(例えば素性f7)や、直前の音単位がアクセントであり連結情報が直前の音単位との連結を指定する場合に発火する素性(例えば素性f8)を確率モデルに適用することも可能である。グリッサンドに関連する素性は、音高が上昇する方向のグリッサンドが直前の音単位に付与され(より詳細には、直前の音単位が、上昇方向のグリッサンドの付与された音符に割当てられた複数の音単位のなかで先頭の音単位であり)、連結情報が直前の音単位との連結を指定する場合に発火する素性(例えば素性f7a)と、音高が下降する方向のグリッサンドが直前の音単位に付与され(より詳細には、直前の音単位が、下降方向のグリッサンドの付与された音符に割当てられた複数の音単位のなかで先頭の音単位であり)、連結情報が直前の音単位との連結を指定する場合に発火する素性(例えば素性f7b)とに区分され得る。
本発明の好適な態様の音符列設定装置は、処理対象の文字列(例えば文字列X0)を区分して複数の指定文字列を生成する文字列取得手段(例えば文字列取得部22)を具備し、複数の指定文字列の各々について、解析処理手段による連結情報列の生成と、音符列取得手段による音符列の取得とが実行される。以上の態様では、処理対象の文字列が複数の指定文字列に区分されて指定文字列毎に連結情報列の生成と音符列の取得とが実行されるから、指定文字列が充分に長い場合でも適切な音符列を設定できるという利点がある。なお、以上の態様の具体例は例えば第4実施形態として後述される。
以上の各態様に係る音符列設定装置は、音符列の設定に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、複数の音単位を時系列に配列した指定文字列に対応する音符列を設定するためのプログラムであって、複数の音単位を時系列に配列した学習用文字列と、学習用文字列内で相前後する各音単位間の連結の有無を音単位毎に指定する連結情報を時系列に配列した学習用連結情報列とを各々が含む複数の学習データを利用した機械学習で生成された確率モデルを、指定文字列に適用することで、指定文字列内の各音単位の連結情報を時系列に配列した連結情報列を生成する解析処理と、連結情報列が指定する連結の有無を指定文字列の各音単位に適用して得られる各譜割単位に対応する複数の音符を時系列に配列した音符列を取得する音符列取得処理とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る音符列設定装置と同様の作用および効果が実現される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。
本発明の第1実施形態に係る音声合成装置のブロック図である。 指定文字列,連結情報列および譜割文字列の模式図である。 音符列設定部のブロック図である。 譜割文字列の各譜割単位と音符列の各音符との対応(譜割)の説明図である。 学習データの模式図である。 音符列取得部のブロック図である。 ラップ音楽の歌唱音を記譜した譜面である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、利用者が指定した歌詞の文字列X0の歌唱旋律として好適な音符列を設定してその音符列の歌唱音の音声信号Vを生成する信号処理装置であり、演算処理装置12と記憶装置14と入力装置16と放音装置18とを具備するコンピュータシステムで実現される。なお、以下の説明では、ラップ音楽の歌唱音を合成する場合を想定する。
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種の情報(例えば音符列M[1]〜M[K]および確率モデル情報Q)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に採用される。第1実施形態の記憶装置14は、相異なる旋律を表現するK個の音符列M[1]〜M[K]を記憶する(Kは2以上の自然数)。各音符列M[k](k=1〜K)は、音高および継続長が指定された複数の音符の時系列である。具体的には、既存の楽曲から抽出された所定長の区間(例えば1小節分)が音符列M[k]として記憶装置14に事前に格納される。K個の音符列M[1]〜M[K]は、相異なる個数の音符で構成される2個以上の音符列M[k]を含む。各音符列M[k]は、例えば、各音符の音高を指定して発音または消音を指示するイベントデータと各イベントデータの処理の時点を指定するタイミングデータとを配列したMIDI(Musical Instrument Digital Interface)形式の時系列データとして記述される。
入力装置16は、音声合成装置100に対する利用者からの指示を受付ける機器であり、例えば利用者が操作する複数の操作子を含んで構成される。利用者は、入力装置16を適宜に操作することで所望の文字列X0を歌詞として指定することが可能である。文字列X0は、例えば漢字および仮名で指定される。なお、音声合成装置100に対する指示を音声で入力するためのマイクロホンを入力装置16として採用することも可能である。
演算処理装置12は、記憶装置14に格納されたプログラムPGMを実行することで、利用者が指定した文字列X0に応じた音声信号Vを生成するための複数の機能(文字列取得部22,音符列設定部24,音声合成部26)を実現する。なお、演算処理装置12の各機能を複数の装置に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。放音装置18(例えばスピーカやヘッドホン)は、演算処理装置12が生成した音声信号Vに応じた音波を再生する。
図1の文字列取得部22は、利用者が指定した文字列X0から指定文字列Xを生成する。指定文字列Xは、複数の音単位x[n](x[1],x[2],x[3],……)の時系列である。第1実施形態における1個の音単位x[n]は1個のモーラ(拍)に相当する。1個のモーラは、特定の時間長(1個の短音節に相当する時間)にわたる音声の分節単位を意味する。日本語に着目すると、長音「ー」や促音「ッ」や撥音「ン」は1個のモーラに相当するが、「ョ」や「ェ」等の小書きの仮名は単独では1個のモーラに該当せず、「キョ」や「シェ」のように直前の1文字と一体(拗音)で1個のモーラに相当する。
第1実施形態の文字列取得部22は、漢字と仮名とが混在する文字列X0を仮名(カタカナ)に変換し、図2の部分(A)に示すように、変換後の文字列X0を音単位x[n]毎に区分することで指定文字列Xを生成する。文字列取得部22による指定文字列Xの生成には、形態素解析を含む公知の自然言語処理が任意に採用される。
図1の音符列設定部24は、記憶装置14に記憶されたK個の音符列M[1]〜M[K]のうち指定文字列Xの歌唱用の旋律として好適な1個の音符列M[k](以下「特定音符列M」という)を選択する。音声合成部26は、指定文字列Xを特定音符列Mの旋律で歌唱した歌唱音の音声信号Vを生成(音声合成)する。音声合成部26による音声合成には公知の技術が任意に採用される。
音符列設定部24の具体的な構成および動作を以下に説明する。図3は、音符列設定部24のブロック図である。図3に示すように、音符列設定部24は、解析処理部30と音符列取得部40とを含んで構成される。解析処理部30および音符列取得部40の各々の構成および動作を以下に詳述する。
<解析処理部30>
解析処理部30は、指定文字列内の各音単位x[n]と各音符との対応(譜割)を指定する連結情報列Yを生成する。図4には、図2の部分(A)の指定文字列Xの譜割が例示されている。図4に示すように、特定音符列Mの各音符には単数または複数の音単位x[n]が割当てられる。解析処理部30が生成する連結情報列Yは、指定文字列内で特定音符列M内の1個の音符に割当てられる1個以上の音単位x[n]の範囲を指定する情報である。なお、図4に示すように、音符列M[k]にてタイで連結された複数の音符は1個の音符として取扱う。
第1実施形態の連結情報列Yは、図2の部分(B)に例示される通り、指定文字列X内の各音単位x[n]に対応する複数の連結情報y[n](y[1],y[2],y[3],……)の時系列である。連結情報列Yのうち任意の1個の音単位x[n]に対応する連結情報y[n]は、その音単位x[n]を直前の音単位x[n-1]に連結して1個の音符に割当てるか否かを指定する情報(フラグ)である。具体的には、連結情報y[n]の数値0は、音単位x[n]を直前の音単位x[n-1]に連結することを意味し、連結情報y[n]の数値1は、音単位x[n]を直前の音単位x[n-1]に連結しないことを意味する。
例えば、図2の部分(B)に例示された連結情報列Yでは連結情報y[2]が0であるから、
図4に示すように、指定文字列Xのうち連結情報y[2]に対応する音単位x[2]「ー」と直
前の音単位x[1]「キョ」とを連結した文字列「キョー」(すなわち音単位x[n]の2個分
)が特定音符列M内の1個の音符に割当てられる。また、図2の部分(B)の例示では連結
情報y[7]が0であるから、図4に示すように、指定文字列Xのうち連結情報y[7]に対応
する音単位x[7]「ス」と直前の音単位x[6]「デ」とを連結した文字列「デス」が特定音
符列M内の1個の音符に割当てられる。なお、3個以上の音単位x[n]が連結情報y[n]に
応じて連結される場合もある。他方、図2に例示された音単位x[3]〜x[5]の各々は、自
身の連結情報y[n]および直後の連結情報y[n+1]の双方が1であるから、図4に示すよう
に、各音単位x[n]が単独で特定音符列M内の1個の音符に割当てられる。
以上の説明から理解されるように、指定文字列X内で相前後する各音単位x[n]を連結情報列Yの各連結情報y[n]に応じて連結することで、図2の部分(C)や図4の例示の通り、複数の譜割単位z[m](z[1],z[2],z[3],……)を時系列に配列した譜割文字列Zが特定される。譜割文字列Z内の各譜割単位z[m]は、特定音符列M内の1個の音符に割当てられる単位を意味し、指定文字列X内の1個の音単位x[n]または指定文字列X内で相前後する複数の音単位x[n]の結合に相当する。例えば図2の部分(C)に例示された譜割文字列Z内の譜割単位z[1]は、指定文字列X内の音単位x[1]「キョ」と音単位x[2]「ー」とを連結情報y[2]に応じて連結した文字列「キョー」に相当し、図2の部分(C)の譜割単位z[2]は、指定文字列X内の1個の音単位[3]「ワ」に相当する。
指定文字列X内で相前後する各音単位x[n]の連結の有無(各音単位x[n]を単独で1個の音符に割当てるか、各音単位x[n]を前後に連結して1個の音符に割当てるか)は、既存の楽曲の歌唱音から観測される譜割の傾向(以下「譜割傾向」という)を加味して決定される。解析処理部30は、事前の機械学習により譜割傾向が反映された確率モデルを指定文字列Xに適用することで連結情報列Yを生成する。第1実施形態の解析処理部30が適用する確率モデルは、条件付確率場(CRF:Conditional Random Fields)を利用した線形対数モデルである。条件付確率場の確率モデルは、指定文字列X(X={x[1],x[2],x[3],……})が観測されたという条件のもとで連結情報列Y(Y={y[1],y[2],y[3],……})が生起する条件付確率P(Y|X)を以下の数式(1)で定義する。
Figure 0005943618
譜割傾向のもとで指定文字列Xに対して最適な連結情報列Yを特定する解析処理部30の処理は、以下の数式(2)で表現される通り、指定文字列Xに対して条件付確率P(Y|X)を最大化する連結情報列Yを特定する演算に相当する。
Figure 0005943618
数式(1)の分母は、条件付確率P(Y|X)を1以下の正数(確率値)に制限するための正規化項であり、全通りの連結情報列Yにわたる総和を意味するから、数式(2)の連結情報列Yには関与しない。したがって、指定文字列Xに最適な連結情報列Yを特定する確率モデルは、数式(2)を変形した以下の数式(3)で表現される。
Figure 0005943618

以上に説明した通り、第1実施形態の解析処理部30は、複数(例えば全通り)の連結情報列Yのうち指定文字列Xに対して条件付確率P(Y|X)が最大となる連結情報列Yを選択する。
数式(3)(数式(1))の確率モデルは、複数の素性fで規定される。各素性fは、指定文字列Xと連結情報列Yとの関係を規定する関数である。具体的には、指定文字列Xの各音単位x[n]と連結情報列Yの各連結情報y[n]とが所定の条件を充足する場合に1に設定され、条件を充足しない場合に0に設定される関数が素性fとして採用される。すなわち、各素性fは、指定文字列Xの各音単位x[n]と連結情報列Yの各連結情報y[n]とが所定の条件を充足したことを検出する関数と換言され得る。各素性fに対応する条件が成立してその素性fが1に設定される(素性fが条件の成立を検出する)ことを、以下の説明では「素性fが発火する」と表記する場合がある。素性fが発火する条件は素性f毎に相違する。機械学習用の楽曲に対して頻繁に発火する(譜割傾向に整合する)ように複数の素性fは設定される。具体的には、母音,撥音(ン),長音(ー)および促音(ッ)が直前の音節と連結して1音符内で発声され易いという傾向を考慮して、第1実施形態の確率モデルに適用される複数の素性fは、以下の4種類の素性f1〜f4を包含する。
素性f1:音単位x[n]が母音であり、連結情報y[n]が0である場合に発火する。
素性f2:音単位x[n]が撥音であり、連結情報y[n]が0である場合に発火する。
素性f3:音単位x[n]が長音であり、連結情報y[n]が0である場合に発火する。
素性f4:音単位x[n]が促音であり、連結情報y[n]が0である場合に発火する。
なお、以上の説明では、音単位x[n]と連結情報y[n]との関係を規定した素性(観測素性)fを例示したが、連結情報列Y内で相前後する各連結情報y[n]の関係を規定した素性(遷移素性)fを確率モデルに反映させることも可能である。ただし、連結情報y[n]の時系列自体に特定の傾向を見出すことが困難であるという事情を考慮すると、連結情報列Yの生成に使用される確率モデルには、前述の例示のような観測素性fが好適に適用される。
数式(1)の記号φf(X,Y)は、1種類の素性fが指定文字列Xと連結情報列Yとの関係のもとで発火する回数(すなわち音単位x[n]と連結情報y[n]とが所定の条件を充足する回数)を計数する関数である。また、数式(1)の記号θfは、1種類の素性fの加重値(重要度)を意味する。したがって、数式(3)のうち加重値θfと関数(発火回数)φf(X,Y)との積を全種類の素性fについて加算した部分Σfθfφf(X,Y)は、指定文字列Xに対する連結情報列Yの確信度(譜割傾向のもとでの尤もらしさ)に相当する。なお、数式(1)で指数関数(e)を導入しているのは、条件付確率P(Y|X)を正数(確率分布)に制限するための便宜的な措置である。
数式(3)で表現される確率モデルに譜割傾向を反映させる機械学習は、既存の楽曲から事前に作成された多数の学習データLに対して数式(1)の条件付確率P(Y|X)が大きい数値となるように各素性fの加重値θfを選定する処理である。多数の学習データLについて、学習用文字列XLのうち素性fが規定する各音単位(例えば母音,撥音,長音,促音)x[n]の出現度数に対して学習用連結情報列YL内の連結情報y[n]が0となる度数の割合(発火割合)が高い素性f(すなわち、多数の学習データLの学習用文字列XL内の特定の音単位x[n]に対する連結情報y[n]の数値0の割合を高精度に検出できる素性f)の加重値θfほど大きい数値(数値範囲や正負は不問)に設定される。図5に示すように、各学習データLは、学習用文字列XLと学習用連結情報列YLとを含んで構成される。学習用文字列XLは、指定文字列Xと同様に複数の音単位(第1実施形態ではモーラ)x[n]の時系列であり、学習用連結情報列YLは、連結情報列Yと同様に複数の連結情報y[n]の時系列である。
具体的には、各学習データLは、既存の多数の楽曲(歌唱曲)から抽出された所定長(例えば1小節)の音符列の各音符と歌唱音を区分した各音単位との対応(すなわち譜割)に応じて作成される。例えば、図5に示すように、既存の楽曲の歌唱音から抽出された「キ|ノ|ー|ワ|ア|メ|デ|シ|タ」(「|」は音単位x[n]の境界を意味する)という学習用文字列XL(9個の音単位x[1]〜x[9]の時系列)に着目する。学習用の既存の楽曲において、音単位x[2]「ノ」と音単位x[3]「ー」とを連結した文字列「ノー」が1個の音符内で発声され、音単位x[7]「デ」と音単位x[8]「シ」とを連結した文字列「デシ」が1個の音符内で発声されている場合には、連結情報y[3]と連結情報y[8]とを0(直前の音単位x[n-1]との連結を意味する数値)に設定し、残余の連結情報y[n]を1に設定した学習用連結情報列YLが生成される。各学習データLは、例えば音声合成装置100の提供者が多数の楽曲を解析することで作成され得る。
以上に説明した各学習データLの学習用文字列XLおよび学習用連結情報列YLを数式(1)の指定文字列Xおよび連結情報列Yとして適用した機械学習により各素性fの加重値θfが事前に決定され、数式(3)の確率モデルを規定する確率モデル情報Qとして各加重値θfが記憶装置14に格納される。解析処理部30は、確率モデル情報Qの各加重値θfで規定される数式(3)の確率モデルを指定文字列Xに適用することで連結情報列Yを生成する。したがって、学習用の多数の楽曲にわたる譜割傾向のもとで指定文字列Xに最適な連結情報列Y(譜割傾向を反映した連結情報列Y)が特定される。なお、音声合成装置100の演算処理装置12が複数の学習データLから確率モデル情報Qを生成して記憶装置14に格納することも可能であるが、外部装置にて生成された確率モデル情報Qが可搬型の記録媒体や通信回線を介して音声合成装置100に提供されて記憶装置14に格納される構成も好適である。以上が解析処理部30の具体的な構成および動作である。
<音符列取得部40>
図3の音符列取得部40は、文字列取得部22が取得した指定文字列Xと解析処理部30が生成した連結情報列Yとに応じた1個の音符列M[k]を記憶装置14内のK個の特定音符列M[1]〜M[K]から特定音符列Mとして選択する。第1実施形態の音符列取得部40は、連結情報列Y内の各連結情報y[n]が指定する連結の有無を指定文字列Xの各音単位x[n]に適用した譜割文字列Z(図2の部分(C))内の譜割単位z[m]の個数に対応する音符数の音符列M[k]を特定音符列Mとして取得する。図6は、第1実施形態の音符列取得部40のブロック図である。図6に示すように、音符列取得部40は、第1選択部41と第2選択部42とを含んで構成される。
第1選択部41は、複数の譜割単位z[m]を時系列に配列した譜割文字列Zを指定文字列Xと連結情報列Yとに応じて生成し、記憶装置14に記憶されたK個の音符列M[1]〜M[K]のうち、譜割文字列Z内の譜割単位z[m]と同数の音符で構成される全部の音符列M[k](以下「候補音符列MC」という)を特定する。例えば、図2の部分(C)や図4の例示では、譜割文字列Zが5個の譜割単位z[1]〜z[5]で構成されるから、5個の音符で構成される各音符列M[k]が候補音符列MCとして選択される。すなわち、第1選択部41は、譜割文字列Zの譜割単位z[m]に対して1対1に対応する音符で構成される候補音符列MCを選択する。
ところで、譜割文字列Z内には、相異なる個数の音単位x[n]を連結した複数の譜割単位z[m]が混在し、各候補音符列MC内には、継続長が相違する複数の音符が混在する。以上の事情のもとでは、多数の音単位x[n]で構成される譜割単位z[m]に対して継続長の短い音符を割当てた場合に、1個の音符に多数の音単位x[n]が無理に詰込まれたような不自然な譜割となる可能性がある。以上の傾向を考慮して、各音単位x[n]が無理なく各音符に対応する自然な譜割を実現する観点から、第2選択部42は、多数の音単位x[n]で構成される譜割単位z[m]に対して継続長が長い音符が対応する候補音符列MCを特定音符列Mとして選択する。
具体的には、第2選択部42は、第1選択部41が選択した複数の候補音符列MCの各々について誤差指標値Eを算定する。誤差指標値Eは、譜割文字列Z内の各譜割単位z[m]を構成する音単位x[n]の個数に応じた基準長TZと、候補音符列MC内でその譜割単位z[m]に対応する音符の継続長TMとが相違する度合の指標である。具体的には、誤差指標値Eは、以下の数式(4)で表現されるように、各譜割単位z[m]の基準長TZと各音符の継続長TMとの差分の絶対値を、相対応する譜割単位z[m]と音符との複数組について総和(または平均)した数値である。
Figure 0005943618
譜割文字列Z内の1個の譜割単位z[m]の基準長TZは、その譜割単位z[m]を構成する音単位x[n]の個数Nxに応じた数値である。具体的には、所定長T0に音単位x[n]の個数Nxを乗算した数値が基準長TZ(TZ=Nx・T0)として算定される。所定長T0は、1個の音単位x[n]が発声される時間長(音価)として合理的に期待される時間長に統計的または経験的に設定される。例えばラップ音楽では、1個の音単位(モーラ)x[n]が16分音符の時間長で発声される場合が多いという傾向があるから、所定長T0は16分音符の時間長に設定される。
例えば、図4に例示された譜割文字列Z内の譜割単位z[1]「キョー」は、音単位x[1]「キョ」および音単位x[2]「ー」の2個で構成されるから、基準長TZは所定長T0の2個分(2T0)に設定される。譜割単位z[5]「デス」の基準長TZも同様に所定長T0の2個分に設定される。他方、譜割文字列Zのうち1個の音単位x[n]で構成される譜割単位z[m](z[2],z[3],z[4])の基準長TZは所定長T0の1個分に設定される。以上の説明から理解される通り、基準長TZは、1個の譜割単位z[m]の発声に好適な時間長に相当する。他方、継続長TMは、所定長T0を単位とした音符の時間長である。すなわち、16分音符の継続長TMは所定長T0の1個分に相当し(TM=T0)、8分音符の継続長TMは所定長T0の2個分に相当する(TM=2T0)。
以上の説明から理解されるように、誤差指標値Eは、譜割文字列Z内の各譜割単位z[m]に期待される発音長(基準長TZ)と各候補音符列MC内で各譜割単位z[m]に対応する音符の継続長TMとの乖離度の指標に相当する。すなわち、多数の音単位x[n]で構成される譜割単位z[m]に継続長TMの短い音符が対応する候補音符列MCや少数の音単位x[n]で構成される譜割単位z[m]に継続長TMの長い音符が対応する候補音符列MCについては誤差指標値Eが大きい数値となる。以上の傾向を考慮して、第1実施形態の第2選択部42は、複数の候補音符列MCのうち誤差指標値Eが最小となる1個の候補音符列MCを特定音符列Mとして選択する。
例えば、図4の例示の通り、5個の譜割単位z[1]〜z[5]で構成される譜割文字列Zに対し、5個の16分音符で構成される候補音符列MC1と、5個の8分音符で構成される候補音符列MC2とを第1選択部41が選択した場合を想定する。所定長T0を前述の例示のように16分音符と仮定すると、候補音符列MC1の誤差指標値E1と候補音符列MC2の誤差指標値E2とは以下の数値となる。
E1=|2−1|+|1−1|+|1−1|+|1−1|+|2−1|=2
E2=|2−2|+|1−2|+|1−2|+|1−2|+|2−2|=3
なお、以上の演算では、基準長TZと継続長TMとに共通する所定長T0の表記を省略した。したがって、誤差指標値E1および誤差指標値E2の演算式における数値「2」は16分音符の2個分(8分音符)の時間長2T0を意味し、数値「1」は16分音符の1個分の時間長T0を意味する。以上の例示では誤差指標値E1が誤差指標値E2を下回るから、第2選択部42は、候補音符列MC1を特定音符列Mとして選択する。以上が音符列取得部40の具体的な構成および動作である。
音符列設定部24(解析処理部30,音符列取得部40)による以上の処理の結果、譜割文字列Zの各譜割単位z[m]に対して1対1に対応する音符で構成される特定音符列Mが特定される。図1の音声合成部26は、譜割文字列Zの各譜割単位z[m]を、特定音符列Mのうちその譜割単位z[m]に対応する音符の音高および継続長で発声した音声(歌唱音)の音声信号Vを生成する。
以上に説明したように、第1実施形態では、複数の学習データLにわたる譜割傾向が反映されるように学習処理で生成された確率モデルに指定文字列Xを適用することで、指定文字列X内の各音単位x[n]の連結の有無を指定する連結情報列Yが生成される。したがって、歌詞の各音節が音符列の各音符に対して1対1に割当てられる特許文献1や非特許文献1の技術と比較すると、各音符に割当てられる音単位x[n]の個数が可変に設定された多様な譜割が実現される。しかも、既存の楽曲から生成された複数の学習データLを利用した学習処理で生成された確率モデルが連結情報列Yの生成に使用されるから、既存の楽曲の譜割傾向を反映した自然な譜割を実現できるという利点もある。特定の歌手の歌唱曲の学習データLを確率モデルの学習処理に適用することで、その歌手に固有の譜割傾向を反映した譜割を実現することも可能である。
また、第1実施形態では、指定文字列Xの全体に対する確率モデルの適用により連結情報列Yが生成されるから、各音単位x[n]の連結の有無は指定文字列Xの全体に応じて多様に制御される。例えば、指定文字列Xが「キョー(今日)」という単語を含む場合、指定文字列X内の前後の音単位x[n]の内容に応じて、「キョ」と「ー」とが相異なる音符に別個に割当てられる場合もあれば、「キョー」が一体として1個の音符に割当てられる場合もある。したがって、例えば歌詞の単語毎に音節数と音符数との関係を事前に決定する構成と比較して柔軟かつ多様な譜割を実現することが可能である。
また、第1実施形態では、複数の候補音符列MCのうち誤差指標値Eが最小となる候補音符列MCが特定音符列Mとして選択されるから、指定文字列Xの各音単位x[n]が各音符に対して無理なく対応した自然な譜割を実現できるという利点がある。
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態の文字列取得部22は、文字列X0を複数の音単位x[n]に区分して指定文字列Xを生成するほか、文字列X0内で各音単位x[n]が構成する単語の品詞と、各音単位x[n]の無声化の有無とを判別する。音単位x[n]の品詞および無声化の有無の判別には公知の技術が任意に採用される。
特定の品詞(例えば名詞)の音単位x[n]や無声化した音単位x[n]が直前の音節と連結して1音符内で発声され易いという傾向を考慮して、第2実施形態の確率モデルを規定する複数の素性fは、第1実施形態と同様の4種類の素性f1〜f4に加えて、以下に例示する2種類の素性f(f5,f6)を含む。
素性f5:音単位x[n]を含む単語の品詞が名詞であり、連結情報y[n]が0である場合に発火する。
素性f6:音単位x[n]が無声化し、連結情報y[n]が0である場合に発火する。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、音単位x[n]の品詞や無声化の有無を加味した譜割傾向を反映した確率モデルが連結情報列Yの生成に適用されるから、第1実施形態と比較して、実際の譜割傾向を忠実に反映した多様な譜割が実現されるという利点もある。なお、第2実施形態では、素性f1〜f6を含む複数の素性fで規定される確率モデルを例示したが、素性f1〜f6の少なくとも1種類の素性を含む複数の素性fで規定される確率モデルを連結情報列Yの生成に適用することも可能である。
<第3実施形態>
第3実施形態の音声合成装置100は、第1実施形態と同様にラップ音楽の歌唱音を合成する。図7は、多数のラップ音楽の傾向を加味して決定された以下の条件を基礎とする記譜法で特定のラップ音楽(歌詞「キョーワハレデス」)の歌唱音を表現した譜面である。
条件1:各音符の音価(継続長)の基本単位は16分音符である。ただし、8分音符以上の音価の3連符の各々を音価の基本単位とすることも可能である。
条件2:音符を規定する音階は、所定の根音(基本音高)を中心として上下に2段階の合計5段階の音高で構成される。例えば、図7の例示のように、1半音を単位として根音(root)からの音高差が「−5」,「−2」,「0(根音自身)」,「+3」および「+5」となるマイナーペンタトニックスケールが採用される。
条件3:1個の音符に単数または複数のモーラが内包され得る。
図7では、歌唱音のグリッサンドとアクセント(強勢)とが凡例の記号で便宜的に図式化されている。グリッサンドは、目標音高を起点として歌唱音高を上昇または下降させる歌唱法である。図7の例示では、音単位x[1]「キョ」と音単位x[2]「ー」との2個にわたりグリッサンドが付与され、音単位x[1]「キョ」にアクセントが付与されている。図7から把握される通り、グリッサンドで歌唱される音単位x[n]やアクセントが付与される音単位x[n]は直後の音節と連結して1音符内で発声され易いという傾向がある。なお、図7では、無声化された音単位x[n]「ス」に記号「’」が付加されている。
以上の傾向を考慮して、第3実施形態の確率モデルを規定する複数の素性fは、第1実施形態と同様の4種類の素性f1〜f4に加えて、以下に例示する2種類の素性f(f7,f8)を含む。
素性f7:直前の音単位x[n-1]にグリッサンドが付与され(より詳細には、直前の音単位x[n-1]が、グリッサンドの付与された音符に割当てられた複数の音単位のなかで先頭の音単位であり)、連結情報y[n]が0である場合に発火する。
素性f8:直前の音単位x[n-1]がアクセントであり、連結情報y[n]が0である場合に発火する。
素性f7は、グリッサンドにより音高が変化する方向に応じて以下の素性f7aと素性f7bとに区別することも可能である。
素性f7a:直前の音単位x[n-1]に上昇方向のグリッサンドが付与され(より詳細には、直前の音単位x[n-1]が、上昇方向のグリッサンドの付与された音符に割当てられた複数の音単位のなかで先頭の音単位であり)、連結情報y[n]が0である場合に発火する。
素性f7b:直前の音単位x[n-1]に下降方向のグリッサンドが付与され(より詳細には、直前の音単位x[n-1]が、下降方向のグリッサンドの付与された音符に割当てられた複数の音単位のなかで先頭の音単位であり)、連結情報y[n]が0である場合に発火する。
第3実施形態の文字列取得部22は、文字列X0を複数の音単位x[n]に区分して指定文字列Xを生成するほか、各音単位x[n]がアクセントに該当するか否かと、各音単位x[n]にグリッサンドが付与されるか否かとを判別する。アクセントの有無の判別には公知の技術(形態素解析等の自然言語処理)が任意に採用される。なお、素性f8に係るアクセントは、音声の強弱を対象とした強勢アクセント(stress accent)と音声の高低を対象とした高低アクセント(pitch accennt)との双方を包含し、何れも形態素解析等の自然言語処理で特定可能である。また、多数のラップ音楽では、アクセントの直後の音単位(モーラ)x[n]が長音や無声化音である場合に、音単位x[n]が直前の音単位x[n-1]からのグリッサンドで発声されるという概略的な傾向がある。以上の傾向を考慮して、第3実施形態の文字列取得部22は、文字列X0内の音単位x[n]自身が長音または無声化音であり、かつ、直前の音単位x[n-1]がアクセントに該当する場合に、音単位x[n]にグリッサンドが付与されると推定する。各音単位x[n]におけるアクセントおよびグリッサンドの有無が以上の方法で判別された指定文字列Xを、前掲の素性f7(f7a,f7b)および素性f8を含む複数の素性fで規定される数式(3)の確率モデルに適用することで、解析処理部30は連結情報列Yを生成する。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、各音単位x[n]におけるアクセントやグリッサンドの有無を加味した譜割傾向を反映した確率モデルが連結情報列Yの生成に適用されるから、第1実施形態と比較して、実際の譜割傾向(特にラップ音楽の譜割傾向)を忠実に反映した多様な譜割が実現されるという利点もある。なお、第3実施形態では、素性f7および素性f8を含む複数の素性fで規定される確率モデルを例示したが、素性f7および素性f8の一方のみを含む複数の素性fで規定される確率モデルを連結情報列Yの生成に適用することも可能である。また、第2実施形態で例示した素性f5および素性f6と、第3実施形態で例示した素性f7および素性f8との双方を適用することも可能である。以上の説明から理解されるように、本発明の好適な確率モデルは、以上に例示した素性f1〜f8のうちの少なくとも1種類の素性を含む複数の素性fで規定される。
<第4実施形態>
第1実施形態では、指定文字列Xから生成された譜割文字列Z内の譜割単位z[m]と同数の音符で構成される音符列M[k]を候補音符列MCとして選択したが、譜割文字列Z内の譜割単位z[m]の個数が音符列M[1]〜M[K]の音符数の最大値を上回るような長い指定文字列Xを利用者が指定する可能性もある。
以上の事情を考慮して、第4実施形態の文字列取得部22は、利用者が指定した文字列X0を区分することで複数の指定文字列Xを生成する。具体的には、指定文字列Xを構成する音単位x[n]の総数が所定の範囲内の数値となるように各指定文字列Xが画定される。各指定文字列Xの音単位x[n]の総数の範囲は、各指定文字列Xから生成される譜割文字列Zの譜割単位z[m]の総数が記憶装置14内の各音符列M[k]の音符数の最大値以下となるように選定される。そして、文字列取得部22が生成した複数の指定文字列Xの各々について、音符列設定部24による特定音符列Mの取得(解析処理部30による連結情報列Yの生成および音符列取得部40による特定音符列Mの生成)と音声合成部26による音声信号Vの合成とが第1実施形態と同様に実行される。
文字列取得部22が文字列X0を区分する方法は任意であるが、例えば自然言語処理で検出される言語的な境界(区切)で文字列X0を複数の指定文字列Xに区分する方法が好適である。例えばアクセント句(1個のアクセントを含む単位)や文節等の句単位で文字列X0が複数の指定文字列Xに区分される。また、自然言語処理で文字列X0に特定される複数の境界のうち、区分後の各指定文字列Xを構成する音単位x[n]の個数が所定の基準値に近似するように選択された境界で文字列X0を区分することも可能である。音単位x[n]の個数の基準値は、例えば各音符列M[k]の各々の音符数に応じた数値(例えばK個の音符列M[1]〜M[K]にわたる音符数の平均値や最大値)に設定される。また、各指定文字列Xの音単位x[n]の個数が所定の範囲内の数値となるように利用者が入力装置16の操作で各指定文字列Xの境界を指定する構成も好適である。
第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態では、文字列X0を区分した複数の指定文字列Xの各々について音符列設定部24や音声合成部26による処理が実行されるから、利用者が長い文字列X0を指定した場合でも、適切に譜割や音声合成を実現することが可能である。なお、第2実施形態の構成(素性f5および素性f6)や第3実施形態の構成(素性f7および素性f8)は第4実施形態にも採用され得る。
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)前述の各形態では、譜割文字列Zの譜割単位z[m]と同数の音符で構成される複数の候補音符列MCの選択(第1選択部41)と、候補音符列MCの誤差指標値Eの算定および比較とで特定音符列Mを選択したが、音符列取得部40が特定音符列Mを選択する方法は適宜に変更される。例えば、譜割文字列Zの譜割単位z[m]と同数の音符で構成される複数の候補音符列MCから例えばランダムに1個の候補音符列MCを特定音符列Mとして選択する構成も採用され得る。また、記憶装置14に記憶された音符列M[k]毎に音符数が相違する場合には、譜割文字列Zの譜割単位z[m]の個数と同数の音符で構成される1個の音符列M[k]が特定音符列Mとして選択される。
また、前述の各形態では、記憶装置14に事前に記憶されたK個の音符列M[1]〜M[K]の何れかを音符列取得部40が特定音符列Mとして選択する構成を例示したが、音符列取得部40が特定音符列Mを取得する方法は、以上の例示(事前に用意された音符列M[k]の選択)に限定されない。具体的には、譜割文字列Zの各譜割単位z[m]に対して所定の規則で音符を順次に割当てることで音符列取得部40が特定音符列Mを生成(自動作曲)することも可能である。例えば、各譜割単位z[m]の抑揚に応じて音高や継続長が設定された各音符の時系列を特定音符列Mとして生成する構成が採用され得る。以上の説明から理解されるように、音符列取得部40は、譜割文字列Zの譜割単位z[m]の個数に対応する音符数の音符列を取得(例えば選択や生成)する要素として包括される。
(2)指定文字列Xを構成する音単位x[n]は、前述の各形態で例示したモーラには限定されない。例えば文字列X0が英語で指定された場合、文字列X0の各音節を音単位x[n]として指定文字列Xを生成する構成が好適である。
(3)前述の各形態では、利用者が文字列X0を指定する構成を例示したが、文字列取得部22が文字列X0を取得する方法は任意である。例えば、外部装置から通信網を介して受信した文字列X0を文字列取得部22が処理する構成や、記憶装置14や他の記録媒体に記憶された文字列X0を文字列取得部22が処理する構成も採用され得る。また、利用者が指定文字列X(各音単位x[n])を直接的に指定する構成も採用され得る。指定文字列Xが直接に指定される構成では、文字列取得部22による文字列X0の解析が省略される。
(4)前述の各形態では、連結情報列Yの各連結情報y[n]が音単位x[n]とその直前の音単位x[n]との連結の有無を指定する場合を例示したが、各連結情報y[n]が音単位x[n]とその直後の音単位x[n+1]との連結の有無を指定することも可能である。すなわち、連結情報y[n]は、指定文字列Xや学習用文字列XL内で相前後する各音単位x[n]間の連結の有無を指定する情報として包括される。
(5)前述の各形態では条件付確率場の確率モデルを例示したが、確率モデルの形式は適宜に変更される。例えば、隠れマルコフモデル(HMM:Hidden Markov Model)等の公知の確率モデルを連結情報列Yの生成に利用することも可能である。
(6)前述の各形態では、音声合成部26を含む音声合成装置100を例示したが、指定文字列Xに好適な音符列を設定する音符列設定装置(自動作曲装置)としても本発明は実現され得る。すなわち、前述の各形態で例示した音声合成部26は省略され得る。また、指定文字列Xの解析で連結情報列Yを生成する文字列解析装置や、音符列に対する譜割に好適な譜割文字列Zを指定文字列Xの解析で生成する文字列解析装置としても本発明は実現され得る。本発明の文字列解析装置は、前述の各形態における解析処理部30で構成され、音符列取得部40は省略される。
100……音声合成装置、12……演算処理装置、14……記憶装置、16……入力装置、18……放音装置、22……文字列取得部、24……音符列設定部、26……音声合成部、30……解析処理部、40……音符列取得部、41……第1選択部、42……第2選択部、Q……確率モデル情報、X……指定文字列、x[n]……音単位、Y……連結情報列、y[n]……連結情報、Z……譜割文字列、z[n]……譜割単位、M[k](M[1]〜M[K])……音符列、M……特定音符列、V……音声信号。

Claims (6)

  1. 複数の音単位を時系列に配列した指定文字列に対応する音符列を設定する装置であって、
    前記指定文字列内で相前後する各音単位間の連結の有無を音単位毎に指定する連結情報を時系列に配列した連結情報列を、前記指定文字列が観測された条件のもとで連結情報列が生起する条件付確率を最大化する確率モデルにより生成する解析処理手段と、
    前記連結情報列が指定する連結の有無を前記指定文字列の各音単位に適用して得られる各譜割単位に対応する複数の音符を時系列に配列した音符列を取得する音符列取得手段と
    を具備する音符列設定装置。
  2. 前記音符列取得手段は、複数の音符を時系列に配列した複数の音符列のうち、前記連結情報列が指定する連結の有無を前記指定文字列の各音単位に適用して得られる譜割単位の個数に対応する音符数の音符列選択する
    請求項1の音符列設定装置。
  3. 前記音符列取得手段は、
    前記譜割単位の個数に対応する音符数の複数の候補音符列を前記複数の音符列から選択する第1選択手段と、
    前記各譜割単位を構成する音単位の個数に応じた基準長と、前記候補音符列内で当該譜割単位に対応する音符の継続長との差異に応じた誤差指標値を、前記複数の候補音符列の各々について算定し、前記各候補音符列の誤差指標値に応じて1個の候補音符列を選択する第2選択手段とを含む
    請求項2の音符列設定装置。
  4. 前記確率モデルは、複数の素性で規定される条件付確率場の確率モデルであり、
    前記複数の素性は、
    音単位が母音であり連結情報が連結を指定する場合に発火する素性と、
    音単位が撥音であり連結情報が連結を指定する場合に発火する素性と、
    音単位が長音であり連結情報が連結を指定する場合に発火する素性と、
    音単位が促音であり連結情報が連結を指定する場合に発火する素性と、
    音単位が特定の品詞を構成し、連結情報が連結を指定する場合に発火する素性と、
    音単位が無声化音であり連結情報が連結を指定する場合に発火する素性と
    のうちの少なくとも1種類の素性を含む
    請求項1から請求項3の何れかの音符列設定装置。
  5. 処理対象の文字列を区分して複数の指定文字列を生成する文字列取得手段を具備し、
    前記複数の指定文字列の各々について、前記解析処理手段による連結情報列の生成と、前記音符列取得手段による音符列の取得とが実行される
    請求項1から請求項4の何れかの音符列設定装置。
  6. 複数の音単位を時系列に配列した指定文字列に対応する音符列を設定する方法であって、
    コンピュータシステムが、
    前記指定文字列内で相前後する各音単位間の連結の有無を音単位毎に指定する連結情報を時系列に配列した連結情報列を、前記指定文字列が観測された条件のもとで連結情報列が生起する条件付確率を最大化する確率モデルにより生成し、
    前記連結情報列が指定する連結の有無を前記指定文字列の各音単位に適用して得られる各譜割単位に対応する複数の音符を時系列に配列した音符列を取得する
    音符列設定方法。
JP2012012888A 2012-01-25 2012-01-25 音符列設定装置および音符列設定方法 Expired - Fee Related JP5943618B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012012888A JP5943618B2 (ja) 2012-01-25 2012-01-25 音符列設定装置および音符列設定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012012888A JP5943618B2 (ja) 2012-01-25 2012-01-25 音符列設定装置および音符列設定方法

Publications (2)

Publication Number Publication Date
JP2013152337A JP2013152337A (ja) 2013-08-08
JP5943618B2 true JP5943618B2 (ja) 2016-07-05

Family

ID=49048733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012012888A Expired - Fee Related JP5943618B2 (ja) 2012-01-25 2012-01-25 音符列設定装置および音符列設定方法

Country Status (1)

Country Link
JP (1) JP5943618B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016177277A (ja) * 2015-03-20 2016-10-06 ヤマハ株式会社 発音装置、発音方法および発音プログラム
JP6728754B2 (ja) 2015-03-20 2020-07-22 ヤマハ株式会社 発音装置、発音方法および発音プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011175006A (ja) * 2010-02-23 2011-09-08 Sony Corp 情報処理装置、自動作曲方法、学習装置、学習方法、及びプログラム
JP5560769B2 (ja) * 2010-02-26 2014-07-30 大日本印刷株式会社 音素符号変換装置および音声合成装置

Also Published As

Publication number Publication date
JP2013152337A (ja) 2013-08-08

Similar Documents

Publication Publication Date Title
EP2733696B1 (en) Voice synthesizing method and voice synthesizing apparatus
EP2980786B1 (en) Voice analysis method and device, voice synthesis method and device and medium storing voice analysis program
US9818396B2 (en) Method and device for editing singing voice synthesis data, and method for analyzing singing
JP5949607B2 (ja) 音声合成装置
JP2011048335A (ja) 歌声合成システム、歌声合成方法及び歌声合成装置
JP5974436B2 (ja) 楽曲生成装置
JP2016161919A (ja) 音声合成装置
EP3631789A1 (en) System and method for automatically generating musical output
JP2016033662A (ja) ターゲット文字列の推定
JP5943618B2 (ja) 音符列設定装置および音符列設定方法
JP2013104878A (ja) 楽曲生成装置
JP2014095856A (ja) 音声処理装置
Delalez et al. Vokinesis: syllabic control points for performative singing synthesis.
JP6167503B2 (ja) 音声合成装置
JP6044284B2 (ja) 音声合成装置
US20220044662A1 (en) Audio Information Playback Method, Audio Information Playback Device, Audio Information Generation Method and Audio Information Generation Device
JP2017156495A (ja) 歌詞生成装置および歌詞生成方法
JP6828530B2 (ja) 発音装置及び発音制御方法
JP2018151548A (ja) 発音装置及びループ区間設定方法
JP4622356B2 (ja) 音声合成用スクリプト生成装置及び音声合成用スクリプト生成プログラム
JP6372066B2 (ja) 合成情報管理装置および音声合成装置
JP5974473B2 (ja) 曲編集装置、曲編集方法及びプログラム
KR101427666B1 (ko) 악보 편집 서비스 제공 방법 및 장치
JP2013156544A (ja) 発声区間特定装置、音声パラメータ生成装置、及びプログラム
JPWO2019003350A1 (ja) 歌唱音生成装置及び方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150108

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160524

R150 Certificate of patent or registration of utility model

Ref document number: 5943618

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees