JP5943618B2

JP5943618B2 - 音符列設定装置および音符列設定方法

Info

Publication number: JP5943618B2
Application number: JP2012012888A
Authority: JP
Inventors: 慶二郎才野; 恵一徳田; 圭一郎大浦
Original assignee: Yamaha Corp; Nagoya Institute of Technology NUC
Current assignee: Yamaha Corp; Nagoya Institute of Technology NUC
Priority date: 2012-01-25
Filing date: 2012-01-25
Publication date: 2016-07-05
Anticipated expiration: 2032-01-25
Also published as: JP2013152337A

Description

本発明は、文字列を解析する技術に関し、特に、歌詞の文字列を音符列に対応させるために好適に利用される。

利用者が指定した歌詞に好適な音符列（旋律）を生成する技術が従来から提案されている。例えば特許文献１には、歌詞を構成する各単語の抑揚に応じた音高を歌詞の各音節（文字）に付与することで音符列を生成する技術が開示されている。また、非特許文献１には、歌詞の韻律に対応して音高が変動するように音符列を生成する技術が開示されている。

特開２００２−１４９１７９号公報

深山ほか６名，"Orpheus：歌詞の韻律に基づいた自動作曲システム"，情報処理学会研究報告［音楽情報科学］，2008(78)，p.179-184，2008年7月30日

ところで、実際には歌詞と音符との対応は非常に多様であり、歌詞の各音節と音符列の各音符とが１対１に対応する楽曲もあれば、歌詞の複数の音節が１個の音符に対応する楽曲も数多く存在する。複数の音節が１個の音符に対応するという傾向は、例えばラップ音楽等の分野で特に顕著である。しかし、特許文献１や非特許文献１の技術では、歌詞の各音節に対して各音符が１対１に対応する単調な音符列しか生成できないという問題がある。

他方、歌詞の２個以上の音節に対して１個の音符が対応するように歌詞の単語毎に音節数と音符数との関係を事前に決定することも可能であるが、歌詞の各単語と音符数との関係が画一的であるという問題がある。例えば、「ない（無い）」という単語の全体（２音節）を１個の音符に対応させるという規則を前提とした場合、歌詞内の前後の内容に関わらず「ない」という単語には固定的に１個の音符が付与され、「な」と「い」とを別個の音符に付与した音符列は生成されないという制約がある。したがって、歌詞に対する多様な音符列を生成できないという前述の問題は根本的には解決されない。以上の事情を考慮して、本発明は、歌詞の文字列に対する柔軟かつ多様な譜割の実現を目的とする。

以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の各要素と後述の各実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。

本発明の音符列設定装置は、複数の音単位を時系列に配列した指定文字列（例えば指定文字列Ｘ）に対応する音符列（例えば特定音符列Ｍ）を設定する装置であって、指定文字列内で相前後する各音単位間の連結の有無を音単位毎に指定する連結情報（例えば連結情報ｙ[n]）を時系列に配列した連結情報列（例えば連結情報列Ｙ）を、指定文字列が観測された条件のもとで連結情報列が生起する条件付確率を最大化する確率モデルにより生成する解析処理手段（例えば解析処理部３０）と、連結情報列が指定する連結の有無を指定文字列の各音単位に適用して得られる各譜割単位（例えば譜割単位ｚ[m]）に対応する複数の音符を時系列に配列した音符列を取得する音符列取得手段（例えば音符列取得部４０）とを具備する。確率モデルは、例えば、複数の音単位を時系列に配列した学習用文字列（例えば学習用文字列ＸL）と、学習用文字列内で相前後する各音単位間の連結の有無を音単位毎に指定する連結情報を時系列に配列した学習用連結情報列（例えば学習用連結情報列ＹL）とを各々が含む複数の学習データ（例えば学習データＬ）を利用した機械学習で生成される。

以上の構成では、指定文字列の各音単位の連結の有無を指定する連結情報列が生成される。したがって、歌詞の各音節が音符列の各音符に対して１対１に割当てられる特許文献１や非特許文献１の技術と比較して、各音符に対応する音単位の個数が可変に設定された多様な譜割が実現される。また、指定文字列Ｘに対する確率モデルの適用で連結情報列が生成されるから、例えば歌詞の単語毎に音節数と音符数との関係を事前に決定する構成と比較して、柔軟かつ多様な譜割を実現することが可能である。

なお、音符列は、音高が指定された複数の音符の時系列（音高列）を意味する。各音符の音高は、典型的には平均律の１２半音から選択されるが、任意に選定することも可能である。例えば、既存の任意のスケール（例えばペンタトニックスケール）の各音高や、既存のスケールとは無関係に選定された各音高（例えば任意の間隔で選定された各音高）が、音符列の各音符について指定され得る。また、音符列の各音符について継続長の指定は必須ではない。

本発明の好適な態様において、音符列取得手段は、複数の音符を時系列に配列した複数の音符列（例えば音符列Ｍ[k]）のうち、連結情報列が指定する連結の有無を指定文字列の各音単位に適用して得られる譜割単位の個数に対応する音符数の音符列を選択する。以上の態様では、譜割単位の個数に対応する音符数の音符列が複数の音符列から選択される。したがって、例えば各譜割単位に対応する音符を所定の規則で自動的に選定する構成と比較して、既存の楽曲と同等の自然な音符列を指定文字列に対して設定できるという利点がある。

本発明の好適な態様において、音符列取得手段は、譜割単位の個数に対応する音符数の複数の候補音符列（例えば候補音符列ＭC）を複数の音符列から選択する第１選択手段（例えば第１選択部４１）と、各譜割単位を構成する音単位の個数に応じた基準長（例えば基準長ＴZ）と、候補音符列内で当該譜割単位に対応する音符の継続長（例えば継続長ＴM）との差異に応じた誤差指標値（例えば誤差指標値Ｅ）を、複数の候補音符列の各々について算定し、各候補音符列の誤差指標値に応じて１個の候補音符列を選択する第２選択手段（例えば第２選択部４２）とを含む。以上の態様では、各譜割単位を構成する音単位の個数に応じた基準長と各音符の継続長との差異に応じた誤差指標値に応じて候補音符列が選択されるから、指定文字列の各音単位と音符列の各音符とが無理なく対応した自然な音符列を設定できるという利点がある。

本発明の好適な態様において、確率モデルは、複数の素性で規定される条件付確率場の確率モデルである。多数の楽曲（特にラップ音楽）に妥当する一般的な譜割傾向を考慮すると、確率モデルを規定する複数の素性は、音単位が母音であり連結情報が連結を指定する場合に発火する素性（例えば素性ｆ1）と、音単位が撥音であり連結情報が連結を指定する場合に発火する素性（例えば素性ｆ2）と、音単位が長音であり連結情報が連結を指定する場合に発火する素性（例えば素性ｆ3）と、音単位が促音であり連結情報が連結を指定する場合に発火する素性（例えば素性ｆ4）と、音単位が特定の品詞を構成し、連結情報が連結を指定する場合に発火する素性（例えば素性ｆ5）と、音単位が無声化音であり連結情報が連結を指定する場合に発火する素性（例えば素性ｆ6）とのうちの少なくとも１種類の素性を含むように選定される。以上の態様によれば、譜割傾向を充分に反映した連結情報列を生成できるという利点がある。また、直前の音単位にグリッサンドが付与され（より詳細には、直前の音単位が、グリッサンドの付与された音符に割当てられた複数の音単位のなかで先頭の音単位であり）、連結情報が直前の音単位との連結を指定する場合に発火する素性（例えば素性ｆ7）や、直前の音単位がアクセントであり連結情報が直前の音単位との連結を指定する場合に発火する素性（例えば素性ｆ8）を確率モデルに適用することも可能である。グリッサンドに関連する素性は、音高が上昇する方向のグリッサンドが直前の音単位に付与され（より詳細には、直前の音単位が、上昇方向のグリッサンドの付与された音符に割当てられた複数の音単位のなかで先頭の音単位であり）、連結情報が直前の音単位との連結を指定する場合に発火する素性（例えば素性ｆ7a）と、音高が下降する方向のグリッサンドが直前の音単位に付与され（より詳細には、直前の音単位が、下降方向のグリッサンドの付与された音符に割当てられた複数の音単位のなかで先頭の音単位であり）、連結情報が直前の音単位との連結を指定する場合に発火する素性（例えば素性ｆ7b）とに区分され得る。

本発明の好適な態様の音符列設定装置は、処理対象の文字列（例えば文字列Ｘ0）を区分して複数の指定文字列を生成する文字列取得手段（例えば文字列取得部２２）を具備し、複数の指定文字列の各々について、解析処理手段による連結情報列の生成と、音符列取得手段による音符列の取得とが実行される。以上の態様では、処理対象の文字列が複数の指定文字列に区分されて指定文字列毎に連結情報列の生成と音符列の取得とが実行されるから、指定文字列が充分に長い場合でも適切な音符列を設定できるという利点がある。なお、以上の態様の具体例は例えば第４実施形態として後述される。

以上の各態様に係る音符列設定装置は、音符列の設定に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、複数の音単位を時系列に配列した指定文字列に対応する音符列を設定するためのプログラムであって、複数の音単位を時系列に配列した学習用文字列と、学習用文字列内で相前後する各音単位間の連結の有無を音単位毎に指定する連結情報を時系列に配列した学習用連結情報列とを各々が含む複数の学習データを利用した機械学習で生成された確率モデルを、指定文字列に適用することで、指定文字列内の各音単位の連結情報を時系列に配列した連結情報列を生成する解析処理と、連結情報列が指定する連結の有無を指定文字列の各音単位に適用して得られる各譜割単位に対応する複数の音符を時系列に配列した音符列を取得する音符列取得処理とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る音符列設定装置と同様の作用および効果が実現される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。

本発明の第１実施形態に係る音声合成装置のブロック図である。指定文字列，連結情報列および譜割文字列の模式図である。音符列設定部のブロック図である。譜割文字列の各譜割単位と音符列の各音符との対応（譜割）の説明図である。学習データの模式図である。音符列取得部のブロック図である。ラップ音楽の歌唱音を記譜した譜面である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。音声合成装置１００は、利用者が指定した歌詞の文字列Ｘ0の歌唱旋律として好適な音符列を設定してその音符列の歌唱音の音声信号Ｖを生成する信号処理装置であり、演算処理装置１２と記憶装置１４と入力装置１６と放音装置１８とを具備するコンピュータシステムで実現される。なお、以下の説明では、ラップ音楽の歌唱音を合成する場合を想定する。

記憶装置１４は、演算処理装置１２が実行するプログラムＰGMや演算処理装置１２が使用する各種の情報（例えば音符列Ｍ[1]〜Ｍ[K]および確率モデル情報Ｑ）を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４として任意に採用される。第１実施形態の記憶装置１４は、相異なる旋律を表現するＫ個の音符列Ｍ[1]〜Ｍ[K]を記憶する（Ｋは２以上の自然数）。各音符列Ｍ[k]（ｋ＝１〜Ｋ）は、音高および継続長が指定された複数の音符の時系列である。具体的には、既存の楽曲から抽出された所定長の区間（例えば１小節分）が音符列Ｍ[k]として記憶装置１４に事前に格納される。Ｋ個の音符列Ｍ[1]〜Ｍ[K]は、相異なる個数の音符で構成される２個以上の音符列Ｍ[k]を含む。各音符列Ｍ[k]は、例えば、各音符の音高を指定して発音または消音を指示するイベントデータと各イベントデータの処理の時点を指定するタイミングデータとを配列したMIDI（Musical Instrument Digital Interface）形式の時系列データとして記述される。

入力装置１６は、音声合成装置１００に対する利用者からの指示を受付ける機器であり、例えば利用者が操作する複数の操作子を含んで構成される。利用者は、入力装置１６を適宜に操作することで所望の文字列Ｘ0を歌詞として指定することが可能である。文字列Ｘ0は、例えば漢字および仮名で指定される。なお、音声合成装置１００に対する指示を音声で入力するためのマイクロホンを入力装置１６として採用することも可能である。

演算処理装置１２は、記憶装置１４に格納されたプログラムＰGMを実行することで、利用者が指定した文字列Ｘ0に応じた音声信号Ｖを生成するための複数の機能（文字列取得部２２，音符列設定部２４，音声合成部２６）を実現する。なお、演算処理装置１２の各機能を複数の装置に分散した構成や、専用の電子回路（ＤＳＰ）が各機能を実現する構成も採用され得る。放音装置１８（例えばスピーカやヘッドホン）は、演算処理装置１２が生成した音声信号Ｖに応じた音波を再生する。

図１の文字列取得部２２は、利用者が指定した文字列Ｘ0から指定文字列Ｘを生成する。指定文字列Ｘは、複数の音単位ｘ[n]（ｘ[1],ｘ[2],ｘ[3],……）の時系列である。第１実施形態における１個の音単位ｘ[n]は１個のモーラ（拍）に相当する。１個のモーラは、特定の時間長（１個の短音節に相当する時間）にわたる音声の分節単位を意味する。日本語に着目すると、長音「ー」や促音「ッ」や撥音「ン」は１個のモーラに相当するが、「ョ」や「ェ」等の小書きの仮名は単独では１個のモーラに該当せず、「キョ」や「シェ」のように直前の１文字と一体（拗音）で１個のモーラに相当する。

第１実施形態の文字列取得部２２は、漢字と仮名とが混在する文字列Ｘ0を仮名（カタカナ）に変換し、図２の部分(A)に示すように、変換後の文字列Ｘ0を音単位ｘ[n]毎に区分することで指定文字列Ｘを生成する。文字列取得部２２による指定文字列Ｘの生成には、形態素解析を含む公知の自然言語処理が任意に採用される。

図１の音符列設定部２４は、記憶装置１４に記憶されたＫ個の音符列Ｍ[1]〜Ｍ[K]のうち指定文字列Ｘの歌唱用の旋律として好適な１個の音符列Ｍ[k]（以下「特定音符列Ｍ」という）を選択する。音声合成部２６は、指定文字列Ｘを特定音符列Ｍの旋律で歌唱した歌唱音の音声信号Ｖを生成（音声合成）する。音声合成部２６による音声合成には公知の技術が任意に採用される。

音符列設定部２４の具体的な構成および動作を以下に説明する。図３は、音符列設定部２４のブロック図である。図３に示すように、音符列設定部２４は、解析処理部３０と音符列取得部４０とを含んで構成される。解析処理部３０および音符列取得部４０の各々の構成および動作を以下に詳述する。

＜解析処理部３０＞
解析処理部３０は、指定文字列Ｘ内の各音単位ｘ[n]と各音符との対応（譜割）を指定する連結情報列Ｙを生成する。図４には、図２の部分(A)の指定文字列Ｘの譜割が例示されている。図４に示すように、特定音符列Ｍの各音符には単数または複数の音単位ｘ[n]が割当てられる。解析処理部３０が生成する連結情報列Ｙは、指定文字列Ｘ内で特定音符列Ｍ内の１個の音符に割当てられる１個以上の音単位ｘ[n]の範囲を指定する情報である。なお、図４に示すように、音符列Ｍ[k]にてタイで連結された複数の音符は１個の音符として取扱う。

第１実施形態の連結情報列Ｙは、図２の部分(B)に例示される通り、指定文字列Ｘ内の各音単位ｘ[n]に対応する複数の連結情報ｙ[n]（ｙ[1],ｙ[2],ｙ[3],……）の時系列である。連結情報列Ｙのうち任意の１個の音単位ｘ[n]に対応する連結情報ｙ[n]は、その音単位ｘ[n]を直前の音単位ｘ[n-1]に連結して１個の音符に割当てるか否かを指定する情報（フラグ）である。具体的には、連結情報ｙ[n]の数値０は、音単位ｘ[n]を直前の音単位ｘ[n-1]に連結することを意味し、連結情報ｙ[n]の数値１は、音単位ｘ[n]を直前の音単位ｘ[n-1]に連結しないことを意味する。

例えば、図２の部分(B)に例示された連結情報列Ｙでは連結情報ｙ[2]が０であるから、
図４に示すように、指定文字列Ｘのうち連結情報ｙ[2]に対応する音単位ｘ[2]「ー」と直
前の音単位ｘ[1]「キョ」とを連結した文字列「キョー」（すなわち音単位ｘ[n]の２個分
）が特定音符列Ｍ内の１個の音符に割当てられる。また、図２の部分(B)の例示では連結
情報ｙ[7]が０であるから、図４に示すように、指定文字列Ｘのうち連結情報ｙ[7]に対応
する音単位ｘ[7]「ス」と直前の音単位ｘ[6]「デ」とを連結した文字列「デス」が特定音
符列Ｍ内の１個の音符に割当てられる。なお、３個以上の音単位ｘ[n]が連結情報ｙ[n]に
応じて連結される場合もある。他方、図２に例示された音単位ｘ[3]〜ｘ[5]の各々は、自
身の連結情報ｙ[n]および直後の連結情報ｙ[n+1]の双方が１であるから、図４に示すよう
に、各音単位ｘ[n]が単独で特定音符列Ｍ内の１個の音符に割当てられる。

以上の説明から理解されるように、指定文字列Ｘ内で相前後する各音単位ｘ[n]を連結情報列Ｙの各連結情報ｙ[n]に応じて連結することで、図２の部分(C)や図４の例示の通り、複数の譜割単位ｚ[m]（ｚ[1],ｚ[2],ｚ[3],……）を時系列に配列した譜割文字列Ｚが特定される。譜割文字列Ｚ内の各譜割単位ｚ[m]は、特定音符列Ｍ内の１個の音符に割当てられる単位を意味し、指定文字列Ｘ内の１個の音単位ｘ[n]または指定文字列Ｘ内で相前後する複数の音単位ｘ[n]の結合に相当する。例えば図２の部分(C)に例示された譜割文字列Ｚ内の譜割単位ｚ[1]は、指定文字列Ｘ内の音単位ｘ[1]「キョ」と音単位ｘ[2]「ー」とを連結情報ｙ[2]に応じて連結した文字列「キョー」に相当し、図２の部分(C)の譜割単位ｚ[2]は、指定文字列Ｘ内の１個の音単位[3]「ワ」に相当する。

指定文字列Ｘ内で相前後する各音単位ｘ[n]の連結の有無（各音単位ｘ[n]を単独で１個の音符に割当てるか、各音単位ｘ[n]を前後に連結して１個の音符に割当てるか）は、既存の楽曲の歌唱音から観測される譜割の傾向（以下「譜割傾向」という）を加味して決定される。解析処理部３０は、事前の機械学習により譜割傾向が反映された確率モデルを指定文字列Ｘに適用することで連結情報列Ｙを生成する。第１実施形態の解析処理部３０が適用する確率モデルは、条件付確率場（CRF：Conditional Random Fields）を利用した線形対数モデルである。条件付確率場の確率モデルは、指定文字列Ｘ（Ｘ＝｛ｘ[1],ｘ[2],ｘ[3],……｝）が観測されたという条件のもとで連結情報列Ｙ（Ｙ＝｛ｙ[1],ｙ[2],ｙ[3],……｝）が生起する条件付確率Ｐ(Y|X)を以下の数式(1)で定義する。

譜割傾向のもとで指定文字列Ｘに対して最適な連結情報列Ｙを特定する解析処理部３０の処理は、以下の数式(2)で表現される通り、指定文字列Ｘに対して条件付確率Ｐ(Y|X)を最大化する連結情報列Ｙを特定する演算に相当する。

数式(1)の分母は、条件付確率Ｐ(Y|X)を１以下の正数（確率値）に制限するための正規化項であり、全通りの連結情報列Ｙにわたる総和を意味するから、数式(2)の連結情報列Ｙには関与しない。したがって、指定文字列Ｘに最適な連結情報列Ｙを特定する確率モデルは、数式(2)を変形した以下の数式(3)で表現される。

以上に説明した通り、第１実施形態の解析処理部３０は、複数（例えば全通り）の連結情報列Ｙのうち指定文字列Ｘに対して条件付確率Ｐ(Y|X)が最大となる連結情報列Ｙを選択する。

数式(3)（数式(1)）の確率モデルは、複数の素性ｆで規定される。各素性ｆは、指定文字列Ｘと連結情報列Ｙとの関係を規定する関数である。具体的には、指定文字列Ｘの各音単位ｘ[n]と連結情報列Ｙの各連結情報ｙ[n]とが所定の条件を充足する場合に１に設定され、条件を充足しない場合に０に設定される関数が素性ｆとして採用される。すなわち、各素性ｆは、指定文字列Ｘの各音単位ｘ[n]と連結情報列Ｙの各連結情報ｙ[n]とが所定の条件を充足したことを検出する関数と換言され得る。各素性ｆに対応する条件が成立してその素性ｆが１に設定される（素性ｆが条件の成立を検出する）ことを、以下の説明では「素性ｆが発火する」と表記する場合がある。素性ｆが発火する条件は素性ｆ毎に相違する。機械学習用の楽曲に対して頻繁に発火する（譜割傾向に整合する）ように複数の素性ｆは設定される。具体的には、母音，撥音（ン），長音（ー）および促音（ッ）が直前の音節と連結して１音符内で発声され易いという傾向を考慮して、第１実施形態の確率モデルに適用される複数の素性ｆは、以下の４種類の素性ｆ1〜ｆ4を包含する。
素性ｆ1：音単位ｘ[n]が母音であり、連結情報ｙ[n]が０である場合に発火する。
素性ｆ2：音単位ｘ[n]が撥音であり、連結情報ｙ[n]が０である場合に発火する。
素性ｆ3：音単位ｘ[n]が長音であり、連結情報ｙ[n]が０である場合に発火する。
素性ｆ4：音単位ｘ[n]が促音であり、連結情報ｙ[n]が０である場合に発火する。

なお、以上の説明では、音単位ｘ[n]と連結情報ｙ[n]との関係を規定した素性（観測素性）ｆを例示したが、連結情報列Ｙ内で相前後する各連結情報ｙ[n]の関係を規定した素性（遷移素性）ｆを確率モデルに反映させることも可能である。ただし、連結情報ｙ[n]の時系列自体に特定の傾向を見出すことが困難であるという事情を考慮すると、連結情報列Ｙの生成に使用される確率モデルには、前述の例示のような観測素性ｆが好適に適用される。

数式(1)の記号φf(X,Y)は、１種類の素性ｆが指定文字列Ｘと連結情報列Ｙとの関係のもとで発火する回数（すなわち音単位ｘ[n]と連結情報ｙ[n]とが所定の条件を充足する回数）を計数する関数である。また、数式(1)の記号θfは、１種類の素性ｆの加重値（重要度）を意味する。したがって、数式(3)のうち加重値θfと関数（発火回数）φf(X,Y)との積を全種類の素性ｆについて加算した部分Σ_fθ_fφ_f(X,Y)は、指定文字列Ｘに対する連結情報列Ｙの確信度（譜割傾向のもとでの尤もらしさ）に相当する。なお、数式(1)で指数関数（ｅ）を導入しているのは、条件付確率Ｐ(Y|X)を正数（確率分布）に制限するための便宜的な措置である。

数式(3)で表現される確率モデルに譜割傾向を反映させる機械学習は、既存の楽曲から事前に作成された多数の学習データＬに対して数式(1)の条件付確率Ｐ(Y|X)が大きい数値となるように各素性ｆの加重値θfを選定する処理である。多数の学習データＬについて、学習用文字列ＸLのうち素性ｆが規定する各音単位（例えば母音，撥音，長音，促音）ｘ[n]の出現度数に対して学習用連結情報列ＹL内の連結情報ｙ[n]が０となる度数の割合（発火割合）が高い素性ｆ（すなわち、多数の学習データＬの学習用文字列ＸL内の特定の音単位ｘ[n]に対する連結情報ｙ[n]の数値０の割合を高精度に検出できる素性ｆ）の加重値θfほど大きい数値（数値範囲や正負は不問）に設定される。図５に示すように、各学習データＬは、学習用文字列ＸLと学習用連結情報列ＹLとを含んで構成される。学習用文字列ＸLは、指定文字列Ｘと同様に複数の音単位（第１実施形態ではモーラ）ｘ[n]の時系列であり、学習用連結情報列ＹLは、連結情報列Ｙと同様に複数の連結情報ｙ[n]の時系列である。

具体的には、各学習データＬは、既存の多数の楽曲（歌唱曲）から抽出された所定長（例えば１小節）の音符列の各音符と歌唱音を区分した各音単位との対応（すなわち譜割）に応じて作成される。例えば、図５に示すように、既存の楽曲の歌唱音から抽出された「キ|ノ|ー|ワ|ア|メ|デ|シ|タ」（「｜」は音単位ｘ[n]の境界を意味する）という学習用文字列ＸL（９個の音単位ｘ[1]〜ｘ[9]の時系列）に着目する。学習用の既存の楽曲において、音単位ｘ[2]「ノ」と音単位ｘ[3]「ー」とを連結した文字列「ノー」が１個の音符内で発声され、音単位ｘ[7]「デ」と音単位ｘ[8]「シ」とを連結した文字列「デシ」が１個の音符内で発声されている場合には、連結情報ｙ[3]と連結情報ｙ[8]とを０（直前の音単位ｘ[n-1]との連結を意味する数値）に設定し、残余の連結情報ｙ[n]を１に設定した学習用連結情報列ＹLが生成される。各学習データＬは、例えば音声合成装置１００の提供者が多数の楽曲を解析することで作成され得る。

以上に説明した各学習データＬの学習用文字列ＸLおよび学習用連結情報列ＹLを数式(1)の指定文字列Ｘおよび連結情報列Ｙとして適用した機械学習により各素性ｆの加重値θfが事前に決定され、数式(3)の確率モデルを規定する確率モデル情報Ｑとして各加重値θfが記憶装置１４に格納される。解析処理部３０は、確率モデル情報Ｑの各加重値θfで規定される数式(3)の確率モデルを指定文字列Ｘに適用することで連結情報列Ｙを生成する。したがって、学習用の多数の楽曲にわたる譜割傾向のもとで指定文字列Ｘに最適な連結情報列Ｙ（譜割傾向を反映した連結情報列Ｙ）が特定される。なお、音声合成装置１００の演算処理装置１２が複数の学習データＬから確率モデル情報Ｑを生成して記憶装置１４に格納することも可能であるが、外部装置にて生成された確率モデル情報Ｑが可搬型の記録媒体や通信回線を介して音声合成装置１００に提供されて記憶装置１４に格納される構成も好適である。以上が解析処理部３０の具体的な構成および動作である。

＜音符列取得部４０＞
図３の音符列取得部４０は、文字列取得部２２が取得した指定文字列Ｘと解析処理部３０が生成した連結情報列Ｙとに応じた１個の音符列Ｍ[k]を記憶装置１４内のＫ個の特定音符列Ｍ[1]〜Ｍ[K]から特定音符列Ｍとして選択する。第１実施形態の音符列取得部４０は、連結情報列Ｙ内の各連結情報ｙ[n]が指定する連結の有無を指定文字列Ｘの各音単位ｘ[n]に適用した譜割文字列Ｚ（図２の部分(C)）内の譜割単位ｚ[m]の個数に対応する音符数の音符列Ｍ[k]を特定音符列Ｍとして取得する。図６は、第１実施形態の音符列取得部４０のブロック図である。図６に示すように、音符列取得部４０は、第１選択部４１と第２選択部４２とを含んで構成される。

第１選択部４１は、複数の譜割単位ｚ[m]を時系列に配列した譜割文字列Ｚを指定文字列Ｘと連結情報列Ｙとに応じて生成し、記憶装置１４に記憶されたＫ個の音符列Ｍ[1]〜Ｍ[K]のうち、譜割文字列Ｚ内の譜割単位ｚ[m]と同数の音符で構成される全部の音符列Ｍ[k]（以下「候補音符列ＭC」という）を特定する。例えば、図２の部分(C)や図４の例示では、譜割文字列Ｚが５個の譜割単位ｚ[1]〜ｚ[5]で構成されるから、５個の音符で構成される各音符列Ｍ[k]が候補音符列ＭCとして選択される。すなわち、第１選択部４１は、譜割文字列Ｚの譜割単位ｚ[m]に対して１対１に対応する音符で構成される候補音符列ＭCを選択する。

ところで、譜割文字列Ｚ内には、相異なる個数の音単位ｘ[n]を連結した複数の譜割単位ｚ[m]が混在し、各候補音符列ＭC内には、継続長が相違する複数の音符が混在する。以上の事情のもとでは、多数の音単位ｘ[n]で構成される譜割単位ｚ[m]に対して継続長の短い音符を割当てた場合に、１個の音符に多数の音単位ｘ[n]が無理に詰込まれたような不自然な譜割となる可能性がある。以上の傾向を考慮して、各音単位ｘ[n]が無理なく各音符に対応する自然な譜割を実現する観点から、第２選択部４２は、多数の音単位ｘ[n]で構成される譜割単位ｚ[m]に対して継続長が長い音符が対応する候補音符列ＭCを特定音符列Ｍとして選択する。

具体的には、第２選択部４２は、第１選択部４１が選択した複数の候補音符列ＭCの各々について誤差指標値Ｅを算定する。誤差指標値Ｅは、譜割文字列Ｚ内の各譜割単位ｚ[m]を構成する音単位ｘ[n]の個数に応じた基準長ＴZと、候補音符列ＭC内でその譜割単位ｚ[m]に対応する音符の継続長ＴMとが相違する度合の指標である。具体的には、誤差指標値Ｅは、以下の数式(4)で表現されるように、各譜割単位ｚ[m]の基準長ＴZと各音符の継続長ＴMとの差分の絶対値を、相対応する譜割単位ｚ[m]と音符との複数組について総和（または平均）した数値である。

譜割文字列Ｚ内の１個の譜割単位ｚ[m]の基準長ＴZは、その譜割単位ｚ[m]を構成する音単位ｘ[n]の個数Ｎxに応じた数値である。具体的には、所定長Ｔ0に音単位ｘ[n]の個数Ｎxを乗算した数値が基準長ＴZ（ＴZ＝Ｎx・Ｔ0）として算定される。所定長Ｔ0は、１個の音単位ｘ[n]が発声される時間長（音価）として合理的に期待される時間長に統計的または経験的に設定される。例えばラップ音楽では、１個の音単位（モーラ）ｘ[n]が１６分音符の時間長で発声される場合が多いという傾向があるから、所定長Ｔ0は１６分音符の時間長に設定される。

例えば、図４に例示された譜割文字列Ｚ内の譜割単位ｚ[1]「キョー」は、音単位ｘ[1]「キョ」および音単位ｘ[2]「ー」の２個で構成されるから、基準長ＴZは所定長Ｔ0の２個分（２Ｔ0）に設定される。譜割単位ｚ[5]「デス」の基準長ＴZも同様に所定長Ｔ0の２個分に設定される。他方、譜割文字列Ｚのうち１個の音単位ｘ[n]で構成される譜割単位ｚ[m]（ｚ[2],ｚ[3],ｚ[4]）の基準長ＴZは所定長Ｔ0の１個分に設定される。以上の説明から理解される通り、基準長ＴZは、１個の譜割単位ｚ[m]の発声に好適な時間長に相当する。他方、継続長ＴMは、所定長Ｔ0を単位とした音符の時間長である。すなわち、１６分音符の継続長ＴMは所定長Ｔ0の１個分に相当し（ＴM＝Ｔ0）、８分音符の継続長ＴMは所定長Ｔ0の２個分に相当する（ＴM＝２Ｔ0）。

以上の説明から理解されるように、誤差指標値Ｅは、譜割文字列Ｚ内の各譜割単位ｚ[m]に期待される発音長（基準長ＴZ）と各候補音符列ＭC内で各譜割単位ｚ[m]に対応する音符の継続長ＴMとの乖離度の指標に相当する。すなわち、多数の音単位ｘ[n]で構成される譜割単位ｚ[m]に継続長ＴMの短い音符が対応する候補音符列ＭCや少数の音単位ｘ[n]で構成される譜割単位ｚ[m]に継続長ＴMの長い音符が対応する候補音符列ＭCについては誤差指標値Ｅが大きい数値となる。以上の傾向を考慮して、第１実施形態の第２選択部４２は、複数の候補音符列ＭCのうち誤差指標値Ｅが最小となる１個の候補音符列ＭCを特定音符列Ｍとして選択する。

例えば、図４の例示の通り、５個の譜割単位ｚ[1]〜ｚ[5]で構成される譜割文字列Ｚに対し、５個の１６分音符で構成される候補音符列ＭC1と、５個の８分音符で構成される候補音符列ＭC2とを第１選択部４１が選択した場合を想定する。所定長Ｔ0を前述の例示のように１６分音符と仮定すると、候補音符列ＭC1の誤差指標値Ｅ1と候補音符列ＭC2の誤差指標値Ｅ2とは以下の数値となる。
Ｅ1＝|２−１|＋|１−１|＋|１−１|＋|１−１|＋|２−１|＝２
Ｅ2＝|２−２|＋|１−２|＋|１−２|＋|１−２|＋|２−２|＝３
なお、以上の演算では、基準長ＴZと継続長ＴMとに共通する所定長Ｔ0の表記を省略した。したがって、誤差指標値Ｅ1および誤差指標値Ｅ2の演算式における数値「２」は１６分音符の２個分（８分音符）の時間長２Ｔ0を意味し、数値「１」は１６分音符の１個分の時間長Ｔ0を意味する。以上の例示では誤差指標値Ｅ1が誤差指標値Ｅ2を下回るから、第２選択部４２は、候補音符列ＭC1を特定音符列Ｍとして選択する。以上が音符列取得部４０の具体的な構成および動作である。

音符列設定部２４（解析処理部３０，音符列取得部４０）による以上の処理の結果、譜割文字列Ｚの各譜割単位ｚ[m]に対して１対１に対応する音符で構成される特定音符列Ｍが特定される。図１の音声合成部２６は、譜割文字列Ｚの各譜割単位ｚ[m]を、特定音符列Ｍのうちその譜割単位ｚ[m]に対応する音符の音高および継続長で発声した音声（歌唱音）の音声信号Ｖを生成する。

以上に説明したように、第１実施形態では、複数の学習データＬにわたる譜割傾向が反映されるように学習処理で生成された確率モデルに指定文字列Ｘを適用することで、指定文字列Ｘ内の各音単位ｘ[n]の連結の有無を指定する連結情報列Ｙが生成される。したがって、歌詞の各音節が音符列の各音符に対して１対１に割当てられる特許文献１や非特許文献１の技術と比較すると、各音符に割当てられる音単位ｘ[n]の個数が可変に設定された多様な譜割が実現される。しかも、既存の楽曲から生成された複数の学習データＬを利用した学習処理で生成された確率モデルが連結情報列Ｙの生成に使用されるから、既存の楽曲の譜割傾向を反映した自然な譜割を実現できるという利点もある。特定の歌手の歌唱曲の学習データＬを確率モデルの学習処理に適用することで、その歌手に固有の譜割傾向を反映した譜割を実現することも可能である。

また、第１実施形態では、指定文字列Ｘの全体に対する確率モデルの適用により連結情報列Ｙが生成されるから、各音単位ｘ[n]の連結の有無は指定文字列Ｘの全体に応じて多様に制御される。例えば、指定文字列Ｘが「キョー（今日）」という単語を含む場合、指定文字列Ｘ内の前後の音単位ｘ[n]の内容に応じて、「キョ」と「ー」とが相異なる音符に別個に割当てられる場合もあれば、「キョー」が一体として１個の音符に割当てられる場合もある。したがって、例えば歌詞の単語毎に音節数と音符数との関係を事前に決定する構成と比較して柔軟かつ多様な譜割を実現することが可能である。

また、第１実施形態では、複数の候補音符列ＭCのうち誤差指標値Ｅが最小となる候補音符列ＭCが特定音符列Ｍとして選択されるから、指定文字列Ｘの各音単位ｘ[n]が各音符に対して無理なく対応した自然な譜割を実現できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第１実施形態と同等である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

第２実施形態の文字列取得部２２は、文字列Ｘ0を複数の音単位ｘ[n]に区分して指定文字列Ｘを生成するほか、文字列Ｘ0内で各音単位ｘ[n]が構成する単語の品詞と、各音単位ｘ[n]の無声化の有無とを判別する。音単位ｘ[n]の品詞および無声化の有無の判別には公知の技術が任意に採用される。

特定の品詞（例えば名詞）の音単位ｘ[n]や無声化した音単位ｘ[n]が直前の音節と連結して１音符内で発声され易いという傾向を考慮して、第２実施形態の確率モデルを規定する複数の素性ｆは、第１実施形態と同様の４種類の素性ｆ1〜ｆ4に加えて、以下に例示する２種類の素性ｆ（ｆ5，ｆ6）を含む。
素性ｆ5：音単位ｘ[n]を含む単語の品詞が名詞であり、連結情報ｙ[n]が０である場合に発火する。
素性ｆ6：音単位ｘ[n]が無声化し、連結情報ｙ[n]が０である場合に発火する。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、音単位ｘ[n]の品詞や無声化の有無を加味した譜割傾向を反映した確率モデルが連結情報列Ｙの生成に適用されるから、第１実施形態と比較して、実際の譜割傾向を忠実に反映した多様な譜割が実現されるという利点もある。なお、第２実施形態では、素性ｆ1〜ｆ6を含む複数の素性ｆで規定される確率モデルを例示したが、素性ｆ1〜ｆ6の少なくとも１種類の素性を含む複数の素性ｆで規定される確率モデルを連結情報列Ｙの生成に適用することも可能である。

＜第３実施形態＞
第３実施形態の音声合成装置１００は、第１実施形態と同様にラップ音楽の歌唱音を合成する。図７は、多数のラップ音楽の傾向を加味して決定された以下の条件を基礎とする記譜法で特定のラップ音楽（歌詞「キョーワハレデス」）の歌唱音を表現した譜面である。
条件１：各音符の音価（継続長）の基本単位は１６分音符である。ただし、８分音符以上の音価の３連符の各々を音価の基本単位とすることも可能である。
条件２：音符を規定する音階は、所定の根音（基本音高）を中心として上下に２段階の合計５段階の音高で構成される。例えば、図７の例示のように、１半音を単位として根音（root）からの音高差が「−５」，「−２」，「０（根音自身）」，「＋３」および「＋５」となるマイナーペンタトニックスケールが採用される。
条件３：１個の音符に単数または複数のモーラが内包され得る。

図７では、歌唱音のグリッサンドとアクセント（強勢）とが凡例の記号で便宜的に図式化されている。グリッサンドは、目標音高を起点として歌唱音高を上昇または下降させる歌唱法である。図７の例示では、音単位ｘ[1]「キョ」と音単位ｘ[2]「ー」との２個にわたりグリッサンドが付与され、音単位ｘ[1]「キョ」にアクセントが付与されている。図７から把握される通り、グリッサンドで歌唱される音単位ｘ[n]やアクセントが付与される音単位ｘ[n]は直後の音節と連結して１音符内で発声され易いという傾向がある。なお、図７では、無声化された音単位ｘ[n]「ス」に記号「’」が付加されている。

以上の傾向を考慮して、第３実施形態の確率モデルを規定する複数の素性ｆは、第１実施形態と同様の４種類の素性ｆ1〜ｆ4に加えて、以下に例示する２種類の素性ｆ（ｆ7，ｆ8）を含む。
素性ｆ7：直前の音単位ｘ[n-1]にグリッサンドが付与され（より詳細には、直前の音単位ｘ[n-1]が、グリッサンドの付与された音符に割当てられた複数の音単位のなかで先頭の音単位であり）、連結情報ｙ[n]が０である場合に発火する。
素性ｆ8：直前の音単位ｘ[n-1]がアクセントであり、連結情報ｙ[n]が０である場合に発火する。

素性ｆ7は、グリッサンドにより音高が変化する方向に応じて以下の素性ｆ7aと素性ｆ7bとに区別することも可能である。
素性ｆ7a：直前の音単位ｘ[n-1]に上昇方向のグリッサンドが付与され（より詳細には、直前の音単位ｘ[n-1]が、上昇方向のグリッサンドの付与された音符に割当てられた複数の音単位のなかで先頭の音単位であり）、連結情報ｙ[n]が０である場合に発火する。
素性ｆ7b：直前の音単位ｘ[n-1]に下降方向のグリッサンドが付与され（より詳細には、直前の音単位ｘ[n-1]が、下降方向のグリッサンドの付与された音符に割当てられた複数の音単位のなかで先頭の音単位であり）、連結情報ｙ[n]が０である場合に発火する。

第３実施形態の文字列取得部２２は、文字列Ｘ0を複数の音単位ｘ[n]に区分して指定文字列Ｘを生成するほか、各音単位ｘ[n]がアクセントに該当するか否かと、各音単位ｘ[n]にグリッサンドが付与されるか否かとを判別する。アクセントの有無の判別には公知の技術（形態素解析等の自然言語処理）が任意に採用される。なお、素性ｆ8に係るアクセントは、音声の強弱を対象とした強勢アクセント（stress accent）と音声の高低を対象とした高低アクセント（pitch accennt）との双方を包含し、何れも形態素解析等の自然言語処理で特定可能である。また、多数のラップ音楽では、アクセントの直後の音単位（モーラ）ｘ[n]が長音や無声化音である場合に、音単位ｘ[n]が直前の音単位ｘ[n-1]からのグリッサンドで発声されるという概略的な傾向がある。以上の傾向を考慮して、第３実施形態の文字列取得部２２は、文字列Ｘ0内の音単位ｘ[n]自身が長音または無声化音であり、かつ、直前の音単位ｘ[n-1]がアクセントに該当する場合に、音単位ｘ[n]にグリッサンドが付与されると推定する。各音単位ｘ[n]におけるアクセントおよびグリッサンドの有無が以上の方法で判別された指定文字列Ｘを、前掲の素性ｆ7（ｆ7a，ｆ7b）および素性ｆ8を含む複数の素性ｆで規定される数式(3)の確率モデルに適用することで、解析処理部３０は連結情報列Ｙを生成する。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、各音単位ｘ[n]におけるアクセントやグリッサンドの有無を加味した譜割傾向を反映した確率モデルが連結情報列Ｙの生成に適用されるから、第１実施形態と比較して、実際の譜割傾向（特にラップ音楽の譜割傾向）を忠実に反映した多様な譜割が実現されるという利点もある。なお、第３実施形態では、素性ｆ7および素性ｆ8を含む複数の素性ｆで規定される確率モデルを例示したが、素性ｆ7および素性ｆ8の一方のみを含む複数の素性ｆで規定される確率モデルを連結情報列Ｙの生成に適用することも可能である。また、第２実施形態で例示した素性ｆ5および素性ｆ6と、第３実施形態で例示した素性ｆ7および素性ｆ8との双方を適用することも可能である。以上の説明から理解されるように、本発明の好適な確率モデルは、以上に例示した素性ｆ1〜ｆ8のうちの少なくとも１種類の素性を含む複数の素性ｆで規定される。

＜第４実施形態＞
第１実施形態では、指定文字列Ｘから生成された譜割文字列Ｚ内の譜割単位ｚ[m]と同数の音符で構成される音符列Ｍ[k]を候補音符列ＭCとして選択したが、譜割文字列Ｚ内の譜割単位ｚ[m]の個数が音符列Ｍ[1]〜Ｍ[K]の音符数の最大値を上回るような長い指定文字列Ｘを利用者が指定する可能性もある。

以上の事情を考慮して、第４実施形態の文字列取得部２２は、利用者が指定した文字列Ｘ0を区分することで複数の指定文字列Ｘを生成する。具体的には、指定文字列Ｘを構成する音単位ｘ[n]の総数が所定の範囲内の数値となるように各指定文字列Ｘが画定される。各指定文字列Ｘの音単位ｘ[n]の総数の範囲は、各指定文字列Ｘから生成される譜割文字列Ｚの譜割単位ｚ[m]の総数が記憶装置１４内の各音符列Ｍ[k]の音符数の最大値以下となるように選定される。そして、文字列取得部２２が生成した複数の指定文字列Ｘの各々について、音符列設定部２４による特定音符列Ｍの取得（解析処理部３０による連結情報列Ｙの生成および音符列取得部４０による特定音符列Ｍの生成）と音声合成部２６による音声信号Ｖの合成とが第１実施形態と同様に実行される。

文字列取得部２２が文字列Ｘ0を区分する方法は任意であるが、例えば自然言語処理で検出される言語的な境界（区切）で文字列Ｘ0を複数の指定文字列Ｘに区分する方法が好適である。例えばアクセント句（１個のアクセントを含む単位）や文節等の句単位で文字列Ｘ0が複数の指定文字列Ｘに区分される。また、自然言語処理で文字列Ｘ0に特定される複数の境界のうち、区分後の各指定文字列Ｘを構成する音単位ｘ[n]の個数が所定の基準値に近似するように選択された境界で文字列Ｘ0を区分することも可能である。音単位ｘ[n]の個数の基準値は、例えば各音符列Ｍ[k]の各々の音符数に応じた数値（例えばＫ個の音符列Ｍ[1]〜Ｍ[K]にわたる音符数の平均値や最大値）に設定される。また、各指定文字列Ｘの音単位ｘ[n]の個数が所定の範囲内の数値となるように利用者が入力装置１６の操作で各指定文字列Ｘの境界を指定する構成も好適である。

第４実施形態においても第１実施形態と同様の効果が実現される。また、第４実施形態では、文字列Ｘ0を区分した複数の指定文字列Ｘの各々について音符列設定部２４や音声合成部２６による処理が実行されるから、利用者が長い文字列Ｘ0を指定した場合でも、適切に譜割や音声合成を実現することが可能である。なお、第２実施形態の構成（素性ｆ5および素性ｆ6）や第３実施形態の構成（素性ｆ7および素性ｆ8）は第４実施形態にも採用され得る。

＜変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）前述の各形態では、譜割文字列Ｚの譜割単位ｚ[m]と同数の音符で構成される複数の候補音符列ＭCの選択（第１選択部４１）と、候補音符列ＭCの誤差指標値Ｅの算定および比較とで特定音符列Ｍを選択したが、音符列取得部４０が特定音符列Ｍを選択する方法は適宜に変更される。例えば、譜割文字列Ｚの譜割単位ｚ[m]と同数の音符で構成される複数の候補音符列ＭCから例えばランダムに１個の候補音符列ＭCを特定音符列Ｍとして選択する構成も採用され得る。また、記憶装置１４に記憶された音符列Ｍ[k]毎に音符数が相違する場合には、譜割文字列Ｚの譜割単位ｚ[m]の個数と同数の音符で構成される１個の音符列Ｍ[k]が特定音符列Ｍとして選択される。

また、前述の各形態では、記憶装置１４に事前に記憶されたＫ個の音符列Ｍ[1]〜Ｍ[K]の何れかを音符列取得部４０が特定音符列Ｍとして選択する構成を例示したが、音符列取得部４０が特定音符列Ｍを取得する方法は、以上の例示（事前に用意された音符列Ｍ[k]の選択）に限定されない。具体的には、譜割文字列Ｚの各譜割単位ｚ[m]に対して所定の規則で音符を順次に割当てることで音符列取得部４０が特定音符列Ｍを生成（自動作曲）することも可能である。例えば、各譜割単位ｚ[m]の抑揚に応じて音高や継続長が設定された各音符の時系列を特定音符列Ｍとして生成する構成が採用され得る。以上の説明から理解されるように、音符列取得部４０は、譜割文字列Ｚの譜割単位ｚ[m]の個数に対応する音符数の音符列を取得（例えば選択や生成）する要素として包括される。

（２）指定文字列Ｘを構成する音単位ｘ[n]は、前述の各形態で例示したモーラには限定されない。例えば文字列Ｘ0が英語で指定された場合、文字列Ｘ0の各音節を音単位ｘ[n]として指定文字列Ｘを生成する構成が好適である。

（３）前述の各形態では、利用者が文字列Ｘ0を指定する構成を例示したが、文字列取得部２２が文字列Ｘ0を取得する方法は任意である。例えば、外部装置から通信網を介して受信した文字列Ｘ0を文字列取得部２２が処理する構成や、記憶装置１４や他の記録媒体に記憶された文字列Ｘ0を文字列取得部２２が処理する構成も採用され得る。また、利用者が指定文字列Ｘ（各音単位ｘ[n]）を直接的に指定する構成も採用され得る。指定文字列Ｘが直接に指定される構成では、文字列取得部２２による文字列Ｘ0の解析が省略される。

（４）前述の各形態では、連結情報列Ｙの各連結情報ｙ[n]が音単位ｘ[n]とその直前の音単位ｘ[n]との連結の有無を指定する場合を例示したが、各連結情報ｙ[n]が音単位ｘ[n]とその直後の音単位ｘ[n+1]との連結の有無を指定することも可能である。すなわち、連結情報ｙ[n]は、指定文字列Ｘや学習用文字列ＸL内で相前後する各音単位ｘ[n]間の連結の有無を指定する情報として包括される。

（５）前述の各形態では条件付確率場の確率モデルを例示したが、確率モデルの形式は適宜に変更される。例えば、隠れマルコフモデル（HMM：Hidden Markov Model）等の公知の確率モデルを連結情報列Ｙの生成に利用することも可能である。

（６）前述の各形態では、音声合成部２６を含む音声合成装置１００を例示したが、指定文字列Ｘに好適な音符列を設定する音符列設定装置（自動作曲装置）としても本発明は実現され得る。すなわち、前述の各形態で例示した音声合成部２６は省略され得る。また、指定文字列Ｘの解析で連結情報列Ｙを生成する文字列解析装置や、音符列に対する譜割に好適な譜割文字列Ｚを指定文字列Ｘの解析で生成する文字列解析装置としても本発明は実現され得る。本発明の文字列解析装置は、前述の各形態における解析処理部３０で構成され、音符列取得部４０は省略される。

１００……音声合成装置、１２……演算処理装置、１４……記憶装置、１６……入力装置、１８……放音装置、２２……文字列取得部、２４……音符列設定部、２６……音声合成部、３０……解析処理部、４０……音符列取得部、４１……第１選択部、４２……第２選択部、Ｑ……確率モデル情報、Ｘ……指定文字列、ｘ[n]……音単位、Ｙ……連結情報列、ｙ[n]……連結情報、Ｚ……譜割文字列、ｚ[n]……譜割単位、Ｍ[k]（Ｍ[1]〜Ｍ[K]）……音符列、Ｍ……特定音符列、Ｖ……音声信号。

Claims

複数の音単位を時系列に配列した指定文字列に対応する音符列を設定する装置であって、
前記指定文字列内で相前後する各音単位間の連結の有無を音単位毎に指定する連結情報を時系列に配列した連結情報列を、前記指定文字列が観測された条件のもとで連結情報列が生起する条件付確率を最大化する確率モデルにより生成する解析処理手段と、
前記連結情報列が指定する連結の有無を前記指定文字列の各音単位に適用して得られる各譜割単位に対応する複数の音符を時系列に配列した音符列を取得する音符列取得手段と
を具備する音符列設定装置。
前記音符列取得手段は、複数の音符を時系列に配列した複数の音符列のうち、前記連結情報列が指定する連結の有無を前記指定文字列の各音単位に適用して得られる譜割単位の個数に対応する音符数の音符列を選択する
請求項１の音符列設定装置。
前記音符列取得手段は、
前記譜割単位の個数に対応する音符数の複数の候補音符列を前記複数の音符列から選択する第１選択手段と、
前記各譜割単位を構成する音単位の個数に応じた基準長と、前記候補音符列内で当該譜割単位に対応する音符の継続長との差異に応じた誤差指標値を、前記複数の候補音符列の各々について算定し、前記各候補音符列の誤差指標値に応じて１個の候補音符列を選択する第２選択手段とを含む
請求項２の音符列設定装置。
前記確率モデルは、複数の素性で規定される条件付確率場の確率モデルであり、
前記複数の素性は、
音単位が母音であり連結情報が連結を指定する場合に発火する素性と、
音単位が撥音であり連結情報が連結を指定する場合に発火する素性と、
音単位が長音であり連結情報が連結を指定する場合に発火する素性と、
音単位が促音であり連結情報が連結を指定する場合に発火する素性と、
音単位が特定の品詞を構成し、連結情報が連結を指定する場合に発火する素性と、
音単位が無声化音であり連結情報が連結を指定する場合に発火する素性と
のうちの少なくとも１種類の素性を含む
請求項１から請求項３の何れかの音符列設定装置。
処理対象の文字列を区分して複数の指定文字列を生成する文字列取得手段を具備し、
前記複数の指定文字列の各々について、前記解析処理手段による連結情報列の生成と、前記音符列取得手段による音符列の取得とが実行される
請求項１から請求項４の何れかの音符列設定装置。
複数の音単位を時系列に配列した指定文字列に対応する音符列を設定する方法であって、
コンピュータシステムが、
前記指定文字列内で相前後する各音単位間の連結の有無を音単位毎に指定する連結情報を時系列に配列した連結情報列を、前記指定文字列が観測された条件のもとで連結情報列が生起する条件付確率を最大化する確率モデルにより生成し、
前記連結情報列が指定する連結の有無を前記指定文字列の各音単位に適用して得られる各譜割単位に対応する複数の音符を時系列に配列した音符列を取得する
音符列設定方法。