JP5900076B2

JP5900076B2 - 平文歌詞復元装置

Info

Publication number: JP5900076B2
Application number: JP2012066547A
Authority: JP
Inventors: 入山　達也; 達也入山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2012-03-23
Filing date: 2012-03-23
Publication date: 2016-04-06
Anticipated expiration: 2032-03-23
Also published as: JP2013196659A

Description

この発明は、歌唱合成特有の編集が施された歌詞から編集前の歌詞を復元する技術に関する。

歌唱音声を電気的に合成する歌唱合成技術では、自然な歌唱音声を得られるようにするために、日本語や英語などの自然言語で記述されたオリジナルの歌詞（以下、平文歌詞）に対して歌唱合成特有の編集を施した後に歌唱音声の合成を行うことが一般的である。例えば、漢字仮名混じりの自然な日本語で平文歌詞が記述されている場合には、音素の列に一意に変換できるようにするために表意文字である漢字を平仮名や片仮名などの表音文字で書き下し、さらに、音素の誤変換を回避するために主語を表す格助詞「は」を「わ」に置き換える、或いは音符の数に合わせて長音記号（メリスマ）の数を調整する、といった具合である。以下では、上記編集を施した後の歌詞を「歌唱合成用歌詞」と呼ぶ。従来、平文歌詞から歌唱合成用歌詞への編集作業は歌唱音声を合成しようとする者が人手で行うことが一般的であったが、近年では、この編集作業を自動化する技術も提案されている（例えば、特許文献１参照）。

特開２００２−１８２６７５号公報

ところで、近年では、自ら作詞・作曲したオリジナル曲について歌唱合成技術により歌唱音声を合成し、その歌唱音声を動画とともに動画投稿サイトへ投稿するなどして不特定多数のユーザに公開する者もいる。このような投稿者は、インターネットユーザの間では、「○○○○プロデューサ」、或いは「○○○○Ｐ」などと呼ばれている（「○○○○」は当該投稿者のハンドルネームなど）。また、このようにして公開された歌唱音声が人気を集め、ＣＤ化されて販売されたり、カラオケ曲として登録されたりするなどの事例も見受けられる。このようなＣＤ化やカラオケ曲としての登録の際には、ＣＤの販売元や著作権管理団体に歌詞を登録のための情報を提出する必要があるが、上記オリジナル曲についてはその提供が難しい場合が多い。その理由は以下の通りである。

歌唱合成技術においては、歌唱音声を表す波形データを歌唱合成エンジンに生成させるためのシーケンスデータ（曲を構成する各音符に関する情報（発音時刻、音符長、音高など）と音符に合わせて歌唱する歌詞とを音符毎に対応付けるデータ：所謂歌唱合成用スコアなど）を作成する過程においてオリジナルの歌詞に対して歌唱合成特有の編集が施され、プロデューサが作詞した元々の歌詞とシーケンスデータに実際に埋め込まれている歌詞とは必ずしも一致しない。また、シーケンスデータの作成の際には、メロディとのフィット感を向上させるために歌詞の改変（例えば、言葉の置き換えなど）が行われることも多く、仮に、プロデューサがシーケンスデータの作成開始前にオリジナルの歌詞を紙などに書きとめておいたとしても、当該書きとめておいた歌詞を上記歌唱音声の平文歌詞とすることができない場合も多い。つまり、プロデューサ自らが作詞・作曲したオリジナル曲については、適切な平文歌詞を表す情報がそもそも存在しない場合が多いのである。これが、ＣＤの販売元や著作権管理団体に歌詞を登録のための情報の提出が難しい理由である。

また、適切な平文歌詞を表す情報が存在しないということは、シーケンスデータの生成過程においても不具合を引き起こす場合がある。例えば、楽曲全体の歌詞を俯瞰することができず、楽曲の１番の歌詞と２番の歌詞との間に不整合があるか否かを容易に確認することができないからである。

本発明は以上に説明した課題に鑑みて為されたものであり、歌唱合成特有の編集が施された歌唱合成用歌詞から平文歌詞を復元する技術を提供することを目的とする。

上記課題を解決するために本発明は、曲を構成する音の並びを表す音データと、前記音の並びを構成する各音に合わせて発音する表音文字を表す歌唱合成用歌詞データと、を受け取る入力手段と、前記歌唱合成用歌詞データの表す表音文字列に含まれる形態素を形態素解析により特定して平文歌詞を復元する手段であって、前記形態素解析により共通の表音文字列から複数の形態素の候補が得られた場合に複数の形態素の候補の取捨選択を前記音データを利用して行う平文歌詞復元手段と、前記平文歌詞復元手段により復元された平文歌詞を表す平文歌詞データを出力する出力手段と、を有することを特徴とする平文歌詞復元装置、を提供する。

音データの一例としては、曲を構成する各音符の発音時刻、音符長、音高（ピッチ）およびベロシティを表す音符データが挙げられるが、所謂１２半音の何れかの音高を表すデータではなく、自由な音高を示すデータであっても良い。また、歌唱合成用歌詞データにより表される表音文字の文字列は前述した歌唱合成用歌詞に対応するのであるから、入力手段に入力される音データと歌唱合成用歌詞データは、前述した歌唱合成用シーケンスデータのように、両者を一体にしたものであっても良く、各々別個のデータであっても良い。要は、音データにより表される音の並びを構成する各音と、歌唱合成用歌詞データにより表される歌唱合成用歌詞とが音（例えば、音符）毎に互いに対応付けられている態様であれば良い。

形態素解析により得られた形態素の候補の取捨選択を音データを利用して行う態様の具体例としては、以下の２つの態様が考えられる。第１の態様は、曲を構成する音の並びにおける各音の音高が音データにより示されている場合には、音データにより示される音高の時間変化に基づいて、平文歌詞を構成する各形態素のアクセントを推定し、アクセントの推定結果を利用して形態素の取捨選択を行う態様である。一般に、曲を構成する音の並びにおける音高の時間変化（例えば、メロディ）は、それら音に合わせて発音する歌詞を話し言葉として発音したときの高低アクセントやストレスに準じていることが多い。このため、曲における音高の時間変化を、当該曲を構成する各音に合わせて発音する歌詞（形態素）のアクセントと見做して形態素の取捨選択を行うことによって、形態素の誤選択を回避することができると考えられる。

そして、第２の態様は、曲を構成する音の並びにおける各音の音量の変化が音データにより示されている場合には、曲を構成する音の並びにおける各音の音量の変化（或いは休符の位置）に基づいて、平文歌詞における文節の区切り位置を推定し、文節の区切り位置の推定結果を利用して形態素の取捨選択を行う態様である。一般に、メロディの間に挿入される音量の小さい部分や休符は、歌詞における文節の区切り位置に対応していることが多い。このため、このような態様によっても形態素の誤選択を回避することができると考えられる。

上記のように音データを補助的に用いず、単に形態素解析のみを行うことによっても、例えば空白などの区切り文字により各形態素（或いは形態素を含む文節単位）に区画しつつ平文歌詞を生成すること、或いは表意文字による置き換えが可能な形態素の一部或いは全部を表意文字に置き換えて平文歌詞を生成することで、言語的にわかり易く自然な平文歌詞を復元することも勿論考えられる。しかし、本発明の平文歌詞復元装置においては、音データを補助情報として形態素の取捨選択を行うことにより、単に形態素解析のみを行う場合に比較して形態素の誤選択を回避し、より適切な平文歌詞を復元することが可能になる。なお、本発明の別の態様としては、コンピュータを平文歌詞復元手段として機能させるプログラムを提供する態様も考えられ、このようなプログラムの提供態様としてはＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）などのコンピュータ読み取り可能な記録媒体に書き込んで配布する態様やインターネットなどの電気通信回線経由のダウンロードにより配布する態様が考えられる。

より好ましい態様においては、前記平文歌詞復元手段は、前記音データを利用した取捨選択によっても前記平文歌詞を構成する形態素を一意に特定できない場合には、形態素の候補をユーザに提示して何れか１の候補の選択を促すことを特徴とする。一般に楽曲の歌詞は本来的には「詩」に近く、文章に比較して表現や構成の自由度が高いため、アクセントや文節区切り位置を補助的に用いたとしても、作詞者が本来意図した形態素の組み合わせを一意に特定できない場合がある。このように作詞者が本来意図した形態素の組み合わせを一意に特定できない場合であっても、本態様によれば、それら組み合わせの候補をユーザ（例えば作詞者や上記プロデューサ）に提示し、正しい組み合わせを指定させることが可能になる。

さらに好ましい態様においては、前記歌唱合成用歌詞データの表す文字列には、歌唱合成用の特殊記号の付与、メリスマ調整、および格助詞の置き換えの少なくとも１つが施されており、前記平文歌詞復元手段は、前記歌唱合成用歌詞データの表す文字列に対して、特殊記号の削除、メリスマ調整の解除、および格助詞の置き換えの解除を予め定められたルールにしたがって施した後に前記形態素解析を施すことを特徴とする。前述したように、歌唱合成用シーケンスデータの生成過程では、音素の列を一意に生成することができるようにするための編集（歌詞に含まれる表意文字をその読みに対応した表音文字により書き下す編集）に加えて特殊記号の付与、メリスマ調整、および格助詞の置き換えといった編集が行われることが多いが、本態様によれば、特殊記号の付与、メリスマ調整、および格助詞の置き換えといった編集を解除し、言語的により自然な平文歌詞を復元することが可能になる。なお、本発明の別の態様としては、歌唱合成用の特殊記号の付与、メリスマ調整、および格助詞の置き換えの少なくとも１つを施して得られ歌唱合成用歌詞に対してこれらの編集を解除する処理のみを施し、その処理結果を平文歌詞とする態様も勿論考えられる。

さらに好ましい態様においては、前記出力手段は、前記歌唱合成用の特殊記号と前記音データの示す情報の少なくとも一方を付加情報として前記平文歌詞データとともに出力することを特徴とする。具体的には、上記特殊記号のうち息継ぎタイミングを示すブレス記号を、平文歌詞において当該ブレス記号の示す息継ぎタイミングに対応する位置に付与して出力したり、音データから把握されるコードを示すコード情報を付与して出力するといった具合である。このような態様によれば、カラオケ歌唱の際、或いは楽器の弾き語りを行う際にこれら付加情報を利用して歌唱（或いは演奏）を行うことが可能になる。

この発明の第１実施形態の平文歌詞復元装置１０Ａの構成例を示す図である。歌唱合成用シーケンスデータの一例を示す図である。同平文歌詞復元装置１０Ａの不揮発性記憶部１４４に記憶されているルールデータ１４４ａ２の表す変換ルールの一例を示す図である。この発明の第２実施形態の平文歌詞復元装置１０Ｂの構成例を示す図である。同平文歌詞復元装置１０Ｂによる平文歌詞の復元例を示す図である。この発明の第３実施形態の平文歌詞復元装置１０Ｃの構成例を示す図である。同平文歌詞復元装置１０Ｃによる平文歌詞の復元例を示す図である。補助情報を加味しても平文歌詞への復元が難しい事例を示す図である。変形例（２）を説明するための図である。

以下、図面を参照しつつ本発明の実施形態について説明する。
（Ａ：第１実施形態）
図１は、この発明の第１実施形態の平文歌詞復元装置１０Ａの構成例を示すブロック図である。この平文歌詞復元装置１０Ａは、歌唱合成用に生成されたシーケンスデータ（以下、歌唱合成用シーケンスデータ）に埋め込まれている歌詞（すなわち、歌唱合成用歌詞）から平文歌詞を復元して出力する装置である。ここで、歌唱合成用シーケンスデータの具体例としては、図２（Ａ）に示す歌唱合成用スコアや図２（Ｂ）に示すＸＭＬ形式のシーケンスデータが挙げられる。

図２（Ａ）に示すように、歌唱合成用スコアには、ピッチデータトラックと音韻データトラックとが含まれる。ピッチデータトラックと音韻データトラックは時間軸を同じくする時系列データである。ピッチデータトラックには、楽曲を構成する各音符のピッチがマッピングされており、音韻データトラックには各音符に合わせた発音する歌唱合成用歌詞を構成する音素の列がマッピングされている。一方、ＸＭＬ形式のシーケンスデータは、図２（Ｂ）に示すように、音符により表される音に関する情報（発音時刻、音符の長さ、音高、音量およびベロシティなど）と、当該音符に合わせて発音する歌唱合成用歌詞に関する情報（当該歌詞を表す表音文字および音素）とを楽曲を構成する音符毎に対にして記述したデータである。

例えば、図２（Ｂ）に示すＸＭＬ形式のシーケンスデータでは、タグ＜ｎｏｔｅ＞とタグ＜／ｎｏｔｅ＞により区画されたデータが１つの音符に対応する。より詳細に説明すると、タグ＜ｎｏｔｅ＞とタグ＜／ｎｏｔｅ＞により区画されたデータのうち、タグ＜ｐｏｓＴｉｃｋ＞とタグ＜／ｐｏｓＴｉｃｋ＞により区画されたデータは音符の発音時刻を、タグ＜ｄｕｒＴｉｃｋ＞とタグ＜／ｄｕｒＴｉｃｋ＞により区画されたデータは音符の長さを、タグ＜ｎｏｔｅＮｕｍ＞とタグ＜／ｎｏｔｅＮｕｍ＞により区画されたデータは音符の音高を各々表す。さらに、タグ＜Ｌｙｒｉｃ＞とタグ＜／Ｌｙｒｉｃ＞により区画されたデータは音符に合わせて発音する歌唱合成用歌詞を、タグ＜ｐｈｎｍｓ＞とタグ＜／ｐｈｎｍｓ＞により区画されたデータは当該歌唱合成用歌詞に対応する音素を各々表す。なお、図２（Ｂ）では、音素を表すデータとして一般的な発音記号の文字列データを用いる（すなわち、一般的な発音記号により音素を表記する）場合について例示されているが、ＳＡＭＰＡ（ＳＡＭ音声記号）やＸ−ＳＡＭＰＡ（拡張ＳＡＭ音声記号）により音素を表記しても勿論良い。本実施形態では、歌唱合成用シーケンスデータとして図２（Ｂ）に示すＸＭＬ形式のシーケンスデータが平文歌詞復元装置１０Ａに入力される。

図１に示すように、平文歌詞復元装置１０Ａは、制御部１１０、ユーザインタフェース部１２０、外部機器インタフェース部１３０、記憶部１４０、およびこれら構成要素間のデータ授受を仲介するバス１５０を含んでいる。制御部１１０は、例えばＣＰＵ（Central Processing Unit）である。この制御部１１０は、記憶部１４０に記憶されている平文歌詞復元プログラム１４４ａ１を実行し、平文歌詞復元装置１０Ａの制御中枢として機能する。平文歌詞復元プログラム１４４ａ１にしたがって制御部１１０が実行する処理については後に明らかにする。

ユーザインタフェース部１２０は、平文歌詞復元装置１０Ａをユーザに利用させるための各種ユーザインタフェースを提供する。このユーザインタフェース部１２０には、各種画面を表示するための表示部と、各種データや指示をユーザに入力させるための操作部とが含まれる（図１では、何れも図示略）。表示部は、液晶ディスプレイとその駆動回路により構成され、制御部１１０による制御の下、各種画面を表す画像を表示する。操作部は、テンキーやカーソルキーなどの多数の操作子を備えたキーボードと、マウスなどのポインティングデバイスとを含んでいる。操作部に対してユーザが何らかの操作を行うと、操作部はその操作内容を表すデータをバス１５０を介して制御部１１０に与える。これにより、ユーザの操作内容が制御部１１０に伝達される。

表示部に表示される画面の一例としては、歌唱合成用シーケンスデータにおいて互いに対応付けられている音符と歌唱合成用歌詞とをピアノロール形式で表示するシーケンスデータ編集画面が挙げられる。このシーケンスデータ編集画面を視認したユーザは、操作部に設けられている各種操作子を操作することによって、音符の追加・削除や音符に対応付ける歌唱合成用歌詞の変更などの編集を行うことができ、その編集の内容は歌唱合成用シーケンスデータに反映される。

外部機器インタフェース部１３０は、ＵＳＢ（Universal Serial Bus）インタフェースやＮＩＣ（Network
Interface Card）などの各種入出力インタフェースの集合体である。平文歌詞復元装置１０Ａに外部機器を接続する場合、当該外部機器は外部機器インタフェース部１３０に含まれる各種入出力インタフェースのうちの好適なものに接続される。本実施形態では、平文歌詞の復元対象となる曲の歌唱合成用シーケンスデータは外部機器インタフェース部１３０を介して平文歌詞復元装置１０Ａに入力される。より詳細に説明すると、本実施形態では、平文歌詞の復元対象となる曲の歌唱合成用シーケンスデータを記憶した外部機器が外部機器インタフェース部１３０に接続され、外部機器インタフェース部１３０を介して当該外部機器から平文歌詞復元装置１０Ａに当該歌唱合成用シーケンスデータが入力される。つまり、外部機器インタフェース部１３０（より正確には、各種入出力インタフェース）は、平文歌詞復元装置１０Ａに対して歌唱合成用シーケンスデータを入力するための入力手段の役割を果たす。例えば、平文歌詞復元装置１０Ａに歌唱合成用シーケンスデータを与える外部機器がインターネットなどの電気通信回線を介して平文歌詞復元装置１０Ａに接続される場合には、外部機器インタフェース部１３０に含まれるＮＩＣが上記入力手段の役割を果たす。

記憶部１４０は、揮発性記憶部１４２と不揮発性記憶部１４４とを含んでいる。揮発性記憶部１４２は、例えばＲＡＭ（Random Access Memory）により構成されている。この揮発性記憶部１４２は、各種プログラムを実行する際のワークエリアとして制御部１１０によって利用される。不揮発性記憶部１４４は、例えばハードディスクやフラッシュメモリなどの不揮発性メモリにより構成されている。不揮発性記憶部１４４には、本実施形態の平文歌詞復元装置１０Ａに特徴的な機能を実現するためのプログラムとデータが格納されている。

不揮発性記憶部１４４に格納されているプログラムの一例としては、歌唱合成用シーケンスデータの編集を実現するためのシーケンスデータ編集プログラム（図１では、図示略）と平文歌詞復元プログラム１４４ａ１が挙げられる。不揮発性記憶部１４４に格納されているデータの一例としては、前述したピアノロール形式の編集画面の画面フォーマットを規定する画面フォーマットデータ（図１では図示略）やルールデータ１４４ａ２が挙げられる。不揮発性記憶部１４４に格納されているプログラムおよびデータのうち、シーケンスデータ編集プログラムおよび画面フォーマットデータについては一般的な歌唱合成装置が有するものと特段に変るところはない。したがって、以下では、平文歌詞復元プログラム１４４ａ１およびルールデータ１４４ａ２を中心に説明する。

ルールデータ１４４ａ２は、歌唱合成用歌詞から平文歌詞を復元するための変換ルール（換言すれば、平文歌詞を歌唱合成用歌詞に変換する際のルールの裏返し）を示すデータである。平文歌詞復元プログラム１４４ａ１は、歌唱合成用シーケンスデータに埋め込まれている歌唱合成用歌詞をルールデータ１４４ａ２の示すルールにしたがって平文歌詞に変換し、当該平文歌詞を表す平文歌詞データ（本実施形態では、平文歌詞を構成する各文字の文字コードを配列した文字列データ）を生成する平文歌詞復元処理を制御部１１０に実行させるプログラムである。

ルールデータ１４４ａ２により表される変換ルールの一例としては、以下のルールａ１〜ルールａ３が挙げられる。
ルールａ１（特殊記号の削除）
前述したように、歌唱合成用シーケンスデータの作成過程では、自然言語で記述された平文歌詞に含まれる表意文字（日本語で平文歌詞が記述されている場合には漢字）を平仮名などの表音文字により書き下す編集に加えて、歌唱合成特有の各種特殊記号を挿入する編集が行われることが多い。このような特殊記号の一例としては、合成された歌唱音において息継ぎを再現してリアルさを向上させるためのブレス記号「ｂｒ」、複数の音節に分割される英単語を音節単位に分割して音符に割り当てるための音節区切り記号「‐
」（半角ハイフン＋半角スペース）、発音記号を事後的に入力する場所を予め確保しておくために挿入されるデフォルト歌詞「ａ」などが挙げられる。このルールａ１にしたがった変換処理は、図３（Ａ）に示すように、歌唱合成特有の特殊記号を削除し、言語的により自然な平文歌詞を復元するための処理である。なお、本実施形態において複数の音節に分割される英単語を音節単位に分割して音符に割り当てるための音節区切り記号として「半角ハイフン＋半角スペース」を用いるが、例えば「Good-bye」のように、本来的に含まれる「半角ハイフン」と上記音節区切り記号とを「半角ハイフン」の直後に「半角スペース」が後続するか否かによって区別するようにしても良く、本来的に含まれる「半角ハイフン」との区別を容易にするため音節区切り記号を構成する文字として「半角ハイフン」以外の文字を用いても良い。

ルールａ２（不要なメリスマ（長音記号）の削除）
歌唱合成用シーケンスデータの作成過程では、平文歌詞が長音記号を含んでいる場合に当該歌詞に対応する音符の数に合わせて長音記号の数を調整する編集が行われる場合がある。例えば、「ピーナッツ」という単語を「ピーーナッツ」と書き換えるといった具合である。また、平文歌詞を構成する単語に促音が含まれている場合には、当該単語に対応する音符の数に合わせて「促音」を「１または複数の長音記号＋促音」に置き換えることも一般に行われる。例えば、「えっと」という単語を「えーーーっと」に置き換えるといった具合である。このルールａ２にしたがった変換処理は、図３（Ｂ）に示すように、歌唱合成に特有な長音記号の調整を解除し（すなわち、「連続する複数の長音記号」の「１つの長音記号」への置き換え、および「１または複数の長音記号＋促音」の「促音」への置き換え）、日本語としてより自然な平文歌詞を復元するための処理である。

ルールａ３（格助詞「は」由来の「わ」など歌唱合成用に置き換えられた格助詞の復元）
歌唱合成用シーケンスデータの作成過程では、主語を表す格助詞「は」（発音は「Ｗａ」）を「わ」に置き換える編集が行われる。これは、歌唱音声を表す波形データの生成の際に、主語を表す格助詞「は」に対応する音素が「Ｈａ」と誤変換されることを回避するためである。また、目的語を表す格助詞「を」を「お」に置き換える変換が行われる場合もある。このルールａ３にしたがった変換処理は、図３（ｃ）に示すように、歌唱合成に特有な格助詞の置き換えを解除し、日本語としてより自然な平文歌詞を復元するための処理である。

もっとも、歌唱合成用歌詞に含まれている「わ」という文字が主語を表す格助詞「は」に由来するものであるのか否かを歌唱合成用歌詞のみに基づいて判別することは、当該文字が文頭に位置している場合を除いては一般的には困難である（目的語を表す格助詞「を」に由来する「お」についても同様）。しかし、歌唱合成用シーケンスデータの作成過程において、主語を表す格助詞「は」については「わ´」と置き換えるといった具合に所定の修飾（この例では、「´」の付与）を付与して置き換えるよう置き換えルールが定められていれば、修飾の有無に基づいて主語を表す格助詞「は」に由来するものであるのか否かを一意に判別することが可能になる。この場合、ルールａ３は“「わ´」を「は」に置き換え、「お´」を「を」に置き換える”といったルールとなる。

操作部に対する操作により、平文歌詞の復元対象となる曲の歌唱合成用シーケンスデータが選択され、平文歌詞に復元が指示されると、制御部１１０は、平文歌詞復元プログラム１４４ａ１を不揮発性記憶部１４４から揮発性記憶部１４２へ読み出し、その実行を開始する。平文歌詞復元プログラム１４４ａ１の実行を開始した制御部１１０は、まず、平文歌詞の復元対象として選択された曲の歌唱合成用シーケンスデータを解析し、各音符に対応付けられている歌詞をその発音順に並べ、歌唱合成用歌詞を表す歌唱合成用歌詞データを生成する。

より詳細に説明すると、制御部１１０は、歌唱合成用シーケンスデータ（図２（Ｂ）参照）においてタグ＜ｐｏｓＴｉｃｋ＞とタグ＜／ｐｏｓＴｉｃｋ＞により区画されたデータの値が小さい音符から順にタグ＜Ｌｙｒｉｃ＞とタグ＜／Ｌｙｒｉｃ＞により区画されたデータに含まれる歌詞（図２（Ｂ）に示す例では、CDATA[]の引数）を配列して歌唱合成用歌詞データを生成する。なお、平文歌詞復元装置１０Ａに与えられる歌唱合成用シーケンスデータが図２（Ａ）に示す歌唱合成用スコアである場合には、当該歌唱合成用スコアの音韻データトラックにマッピングされている音素を先頭のものから順に表音文字に変換して配列し、歌唱合成用歌詞データを生成すれば良い。

次いで、制御部１１０は、歌唱合成用歌詞データに対して、ルールａ１にしたがった変換処理、ルールａ２にしたがった変換処理およびルールａ３にしたがった変換処理を順次施す。ここで、ルールａ１にしたがった変換処理とは、歌唱合成用歌詞データの表す文字列を構成する各文字について先頭から順に一文字ずつ歌唱合成用の特殊記号であるか否かを判定し、歌唱合成用の特殊記号である場合に当該文字を削除する（先頭側へつめる）処理である。また、ルールａ２にしたがった変換処理とは、歌唱合成用歌詞データ（本実施形態では、ルールａ１にしたがった変換処理を経た歌唱合成用歌詞データ）の表す文字列に連続する長音記号が含まれるか否かを判定し、連続する長音記号が含まれていた場合には、さらに、当該連続する長音記号に促音が後続しているか否かを判定し、後続している場合には当該連続する長音記号を削除し、促音が後続していない場合には連続する長音記号のうちの最初のもの以外を削除する処理である。そして、ルールａ３にしたがった変換処理とは、歌唱合成用歌詞データ（本実施形態では、ルールａ１およびａ２にしたがった変換処理を経た歌唱合成用歌詞データ）の表す文字列をその先頭から走査し、「わ´」を「は」に置き換える処理、および「お´」を「を」に置き換える処理である。なお、上記各変換処理の実行順は上記の順に限定されるものではなく、適宜入れ換えても良い。

そして、制御部１１０は、上記各変換処理を経た歌唱合成用歌詞データを、平文歌詞を表す平文歌詞データとして出力する。ここで、平文歌詞データの出力態様としては、種々の態様が考えられる。具体的には、平文歌詞データの表す平文歌詞を表示部に表示させる（すなわち、ユーザインタフェース部１２０が出力手段の役割を果たす）態様や、歌唱合成用シーケンスデータの入力元となった外部機器へ外部機器インタフェース部１３０を介して出力する（すなわち、外部機器インタフェース部１３０が出力手段の役割を果たす）態様が考えられる。例えば、外部機器インタフェース１３０に含まれるＮＩＣに上記入力手段および出力手段の役割を担わせるようにすれば、平文歌詞復元装置１０Ａに対する歌唱合成用シーケンスデータの入力を電気通信回線経由で行わせ、復元結果である平文歌詞データを同電気通信回線を介して上記歌唱合成用シーケンスデータの入力元へ返却するといった所謂ＡＳＰ（Application Service Provider）形式のサービスを提供することも可能である。また、外部機器インタフェース１３０に含まれるＮＩＣに上記出力手段の役割を担わせる場合には、ユーザインタフェース部１２０（或いは、外部機器インタフェース部１３０に含まれるＵＳＢインタフェース）を介して平文歌詞復元装置１０Ａに対する歌唱合成用シーケンスデータの入力を行わせ、復元結果である平文歌詞データを電気通信回線に接続された他の記憶装置に送信して記憶させること（所謂クラウド対応とすること）も可能である。

このように、本実施形態の平文歌詞復元装置１０Ａによれば、漢字などの表意文字と平仮名などの表音文字とが混在する平文歌詞（或いは、さらに英単語を含む平文歌詞）に対して表意文字の読みを表音文字で書き下す編集、および「ブレス記号などの特殊記号の付与」、「メリスマの調整」、「格助詞の置き換え」、或いはこれらのうちの任意の組み合わせ、からなる編集を施すことで得られた歌唱合成用歌詞から、表音文字のみで記述されてはいるものの、歌唱合成特有の特殊記号を含まず、また長音記号の数や格助詞の表記が自然な平文歌詞を復元し、当該平文歌詞を表す歌詞データを出力することが可能になる。

（Ｂ：第２実施形態）
次いで、本発明の第２実施形態について説明する。前述した第１実施形態では、歌唱合成用シーケンスデータに埋め込まれている歌唱合成用歌詞に対して、予め定められたルールにしたがって「特殊記号の削除」、「メリスマ調整の解除」、および「格助詞の置き換えの解除」を施して平文歌詞を復元する場合について説明した。これに対して本実施形態では、形態素解析を利用して平文歌詞の復元を行う点が上記第１実施形態と異なる。

図４は、本発明の第２実施形態の平文歌詞復元装置１０Ｂの構成例を示すブロック図である。図４では図１におけるものと同一の構成要素には同一の符号が付されている。図４と図１を対比すれば明らかように、平文歌詞復元装置１０Ｂは平文歌詞復元装置１０Ａと同一のハードウェア構成（すなわち、制御部１１０、ユーザインタフェース部１２０、外部機器インタフェース部１３０、記憶部１４０およびバス１５０からなる構成）を有するものの、ソフトウェア構成が異なっている。より詳細に説明すると、平文歌詞復元装置１０Ｂのソフトウェア構成は、平文歌詞復元プログラム１４４ａ１に換えて平文歌詞復元プログラム１４４ｂ１が不揮発性記憶部１４４に記憶されている点と、ルールデータ１４４ａ２に換えて形態素解析用辞書１４４ｂ２が不揮発性記憶部１４４に記憶されている点の２点において平文歌詞復元装置１０Ａのソフトウェア構成と異なる。

平文歌詞復元プログラム１４４ｂ１は、歌唱合成用シーケンスデータから歌唱合成用歌詞データを生成する処理、および形態素解析用辞書１４４ｂ２を利用した形態素解析により、歌唱合成用歌詞データの表す歌唱合成用歌詞から平文歌詞を復元する平文歌詞復元処理を制御部１１０に実行させるためのプログラムである。形態素解析のアルゴリズムについては、後方からの最長マッチングなど公知のアルゴリズムを適宜用いるようにすれば良い。形態素解析用辞書１４４ｂ２には、様々な形態素（言語において意味を有する最小の単位）が当該形態素の読みを表す文字列データ（平仮名などの表音文字で当該読みを記述した文字列データ）の形式で登録されている。なお、上記文字列データに対応付けて形態素を表意文字（例えば、漢字）で記述した第２の文字列データを形態素解析用辞書１４４ｂ２に登録しておいても良く、さらに当該形態素を発音する際の高低アクセントや使用頻度（当該形態素が一般的な曲の歌詞に表れる頻度）を示すデータを上記文字列データに対応付けて形態素解析用辞書１４４ｂ２に登録しておいても良い。

例えば、平文歌詞への復元対象の歌唱合成用歌詞が「わたしおもうの」というものであり、形態素解析用辞書１４４ｂ２に「わたし」、「おもう」という形態素が登録されている場合には、平文歌詞復元プログラム１４４ｂ１にしたがって制御部１１０が実行する平文歌詞復元処理の実行過程で上記歌唱合成用歌詞は、「わたし」、「おもう」、「の」と分解される。このようにして分解された各形態素を空白などの所定の区切り文字で形態素毎に分かち書きして平文歌詞を生成する処理を制御部１１０に実行させるようにすれば、図５（Ａ）に示す平文歌詞を表す平文歌詞データが生成される。

形態素「わたし」に対応付けて「私」という第２の文字列データが形態素解析用辞書１４４ｂ２に登録されており、形態素「おもう」に対応付けて「思う」という第２の文字列データが形態素解析用辞書１４４ｂ２に登録されている場合には、これら第２の文字列データを利用して漢字仮名変換を行うことにより、図５（Ｂ）に示すような漢字仮名混じりの平文歌詞や、図５（Ｃ）に示すような漢字にルビを付与した漢字仮名混じりの平文歌詞を復元することも可能である。図５（Ａ）に示す平文歌詞と、図５（Ｂ）或いは図５（Ｃ）に示す平文歌詞とを対比すれば明らかなように、後者（すなわち、図５（Ｂ）或いは図５（Ｃ）に示す方）が日本語としてより自然で判り易いことは言うまでも無い。なお、漢字仮名変換については公知のアルゴリズムを利用して行うようにすれば良い。

形態素解析用辞書１４４ｂ２に第２の文字列データとして漢字を登録する際に、当該漢字を習う学習レベルに対応した難易度を定めておけば、平文歌詞に使用する漢字の難易度をユーザに指定させて漢字仮名変換を行うこともできる。例えば、「私」という漢字は小学校三年生で習うものであり、「思」という漢字は小学校二年生で習うものである場合、平文歌詞に使用する漢字の難易度を「小学校二年生までに習うもの」と制限する指定がユーザによって為された場合には、「わたしおもうの」という歌唱合成用歌詞からは図５（Ｄ）に示す平文歌詞が復元されることになる。また、「小学校三年生までに習う漢字を使用し、小学校二年生までに習う漢字にはルビを振らない」といった具合に、比較的に平易な漢字にはルビを振らないように指定する態様も考えられ、この場合は、「わたしおもうの」という歌唱合成用歌詞からは図５（Ｅ）に示す平文歌詞が復元されることになる。

なお、形態素解析用辞書１４４ｂ２に第２の文字列データとして漢字が登録されている態様では、歌唱合成用歌詞は元々の平文歌詞に含まれる表意文字（漢字）を平仮名などの表音文字により書き下して生成されたものであるから、同音意義語（例えば、「思い」と「重い」）の判別を行えず、歌唱合成用歌詞を構成する形態素の組み合わせとして複数種のものが得られる場合がある。このように複数種の組み合わせが得られた場合には、それら形態素の組み合わせをユーザに提示して何れか１つを選択させるようにしても良い。また、各形態素の組み合わせについて、形態素同士の連結の適切性や文章としての整合性に基づいて各組み合わせの得点（形態素同士の連結の適切性が高いほど高い得点を与え、文章としての整合性が高いほど高い得点を与えるなど）を算出し、最も得点の高い組み合わせに基づいて平文歌詞を生成しても良い。また、得点の高い順にリスト形式に各形態素の組み合わせを並べてユーザに提示し、何れか１つの組み合わせの選択を促しても良く、この場合は上記得点に関して予め閾値を定めておき、当該閾値を上回る得点の組み合わせについてのみ上記リスト形式による表示を行っても良い。なお、形態素同士の連結の適切性や文章としての整合性を評価するためのアルゴリズム、および整合性の評価結果等に基づく得点の算出アルゴリズムについては既存のものを適宜利用するようにすれば良い。

また、歌唱合成用シーケンスデータの生成過程では、より自然な歌唱音声を合成できるようにするために、前述した格助詞の置き換えの他にも歌唱合成特有の歌詞の書き換えが行われる場合がある。このような歌唱合成特有の歌詞の書き換えの具体例としては、（ａ）母音の伸張（「わたしが」を「わあたあしが」と書き換えたり、「わーたしが」と書き換えるなど）、（ｂ）促音の当該促音に先行する母音への書き換え（「さっき」を「さあき」と書き換えるなど）、（ｃ）母音「う」の母音「お」への置き換え（例えば、「そうなの」を「そおなの」と置き換えるなど）、（ｄ）促音の省略（促音を休符に置き換えるなど）、が挙げられる。このような歌唱合成特有の歌詞の書き換えによって歌唱合成用歌詞に含まれている形態素が本来とは異なるものとなっている場合であっても、平文歌詞の復元を行えるようにするために、所謂「あいまい検索」を利用した形態素解析（「わあたあしが」や「わーたしが」を「わたしが」と判断する形態素解析）を行っても良い。なお、「あいまい検索」を利用した形態素解析については既存のアルゴリズムを適宜利用するようにすれば良く、また、「わあたあし」や「わーたし」を「わたし」に対応付けて形態素解析辞書１４４ｂ２に登録しておくなど辞書の構成によって実現しても良い。

なお、「あいまい検索」を利用した形態素解析を行う場合も、歌唱合成用歌詞を構成する形態素の組み合わせとして複数種のものが得られる場合があるので、それら複数種の形態素の組み合わせをユーザに提示して何れか１つを選択させるようにしても良く、形態素解析用辞書に登録されていない単語を含んでいるか否か（含んでいれば、減点）、形態素同士の連結の適切性、文章としての整合性、類似の形態素が連続して表れる回数などに基づいて各組み合わせの得点を算出し、最も得点の高い組み合わせに基づいて平文歌詞を生成しても良い。この点は、「あいまい検索」を利用しない場合と同様である。また、形態素の組み合わせの候補毎に、当該組み合わせを構成する形態素毎に当該形態素を本来の歌詞とした場合の歌唱合成用歌詞の揺らぎの大きさ（例えば、レーベンシュタイン距離などの編集距離）を集計し、それら集計値とともに各候補をユーザに提示して何れか１つを選択させても良く、また、上記集計値に基づいて特定される組み合わせ（例えば、集計値が最も小さいものなど）に基づいて平文歌詞を生成しても良い。上記揺らぎの大きさについてはその都度計算により求めても良く、「わあたあし」や「わーたし」を「わたし」に対応付けて形態素解析辞書１４４ｂ２に登録しておくなど辞書の構成により「あいまい検索」を実現する場合には、「わあたあし」や「わーたし」などの揺らいだ歌詞の各々に元々の歌詞である「わたし」からの揺らぎの大きさを表すデータを対応付けて形態素解析辞書１４４ｂ２に登録しておいても良い。

このように、本実施形態の平文歌詞復元装置１０Ｂによっても、歌唱合成用歌詞から自然な平文歌詞を復元することが可能になる。また、前述したルールベースの変換（特に、メリスマの調整と格助詞の復元）を形態素解析を利用した復元と併用するようにすれば（具体的には、ルールベースの復元を施した後に形態素解析を利用した復元を施すようにする）、不要なメリスマや格助詞の変換に起因した形態素解析の誤判断を回避し、より高い精度で平文歌詞を復元することが可能になる。

（Ｃ：第３実施形態）
図６は、この発明の第３実施形態の平文歌詞復元装置１０Ｃの構成例を示す図である。この平文歌詞復元装置１０Ｃは、前述した平文歌詞復元装置１０Ｂと同様に形態素解析を利用して平文歌詞の復元を行う装置である。ただし、平文歌詞復元装置１０Ｃは、平文歌詞の復元の際に補助情報を利用して形態素解析の精度を高めるようにした点が平文歌詞復元装置１０Ｂと異なり、平文歌詞復元装置１０Ｃの不揮発性記憶部１４４には、平文歌詞復元プログラム１４４ｂ１に換えて平文歌詞復元プログラム１４４ｃ１が格納されている点が平文歌詞復元装置１０Ｂと異なる。

形態素解析の精度を高めるために利用する補助情報としては、種々のものが考えられる。例えば、図２（Ｂ）に示す歌唱合成用シーケンスにおいてタグ＜ｎｏｔｅＮｕｍ＞とタグ＜／ｎｏｔｅＮｕｍ＞により区画されたデータ（すなわち、曲を構成する各音符の音高を表すデータ）や、各音符において発音する歌詞の音量を示すデータなど、音符に関する情報を表す音符データを上記補助情報として用いることや、形態素解析用辞書１４４ｂ２に一般的な歌詞等における出現頻度が登録されている場合には、当該出現頻度を補助情報として用いることが考えられる。以下、曲を構成する各音符の音高、各音符において発音する歌詞の音量および一般的な歌詞等における出現頻度の各々を補助情報として利用する場合の具体的な利用態様について説明する。

（Ｃ−１：音高を示す音符データを補助情報として利用する場合）
一般に、曲における音高の時間変化（例えば、メロディ）は、歌詞を話し言葉として発音したときの高低アクセントやストレスに準じていることが多い。したがって、音高を示す音符データを補助情報として利用する場合には、音符データにより示される音高の時間変化に基づいて各音符に合わせて発音する平文歌詞の高低アクセントを推定することができ、アクセントの推定結果に基づいて形態素の取捨選択（例えば、音符データにより示される音高の時間変化から推定された高低アクセントとは異なる高低アクセントを有する形態素を除外するなど）を行って、平文歌詞を構成する形態素を特定することができる。この場合、形態素解析用辞書１４４ｂ２に各形態素の高低アクセントを示すデータが登録されている必要があることは言うまでも無い。

例えば、歌唱合成用歌詞が「きいろおおい」である場合、図７（Ａ）に示すように、最初の「お」にアクセントがあれば、「おおい」の部分のアクセントは「多い」のアクセントに一致するめ、当該歌詞は「黄色多い」を意味すると判断することができる。これに対して、「い」にアクセントがあれば、「おおい」の部分は「多い」を意味するのではなく、「おお」の部分は歌唱合成特有の母音の伸張に由来していると判断することができる。また、「い」にアクセントがあることから「きいろ」は「黄色」を意味し、結局上記歌唱合成用歌詞は「黄色い」を意味していると判断できる。このように、音符データにより示される音高の時間変化に基づいて各音符に合わせて発音する歌詞の高低アクセントを推定し、その推定結果に基づいて形態素の取捨選択を行って平文歌詞を構成する形態素を特定するようにすれば、母音の伸張などの歌唱合成特有の歌詞の揺らぎに起因した形態素の誤判別を回避し、より高い精度で平文歌詞を復元することが可能になる。

（Ｃ−２：音量を示す音符データを補助情報として利用する場合）
一般に、メロディの間に挿入される音量の小さい部分や休符は、歌詞における文節の区切り位置に対応していることが多い。したがって、音量を示す音符データを補助情報として利用する場合には、音符データにより示される音量の時間変化や休符の位置に基づいて平文歌詞における文節の区切り位置を推定することができ、その推定結果に基づいて形態素の取捨選択（推定された文節区切り位置を跨ぐような形態素を除外するなど）を行って、平文歌詞を構成する形態素を特定することができる。

例えば、歌唱合成用歌詞が「もお、とおくに」（「、」は休符）である場合、この歌唱合成用歌詞は「もお」と「とおくに」に区切られると推定することができる。この場合、前述した「あいまい検索」を利用した形態素解析を行えば、図７（Ｂ）に示すように「もう、とおくに」という平文歌詞を復元することができる（すなわち、推定された文節区切りを跨ぐような「もおと」および「おくに」といった形態素の組み合わせを除外し、「もお」は「もう」の揺らぎであると判断することができる）。また、歌唱合成用歌詞が「もおと、おくに」である場合には、「もおと」と「おくに」に区切られると推定することができ、同図７（Ｂ）に示すように、「もっと、おくに」という平文歌詞を復元することができる（換言すれば、「もおと」は「もっと」の揺らぎであると判断することができる）。なお、歌唱合成特有の編集によって促音「っ」が休符に置き換えられる場合もあるが、前述した「あいまい検索」を利用した形態素解析を行えば、図７（Ｂ）に示すように、「も、とおくに」という歌唱合成用歌詞から「もっと、おくに」という平文歌詞を復元することができる。

このように、音符データにより示される音量の時間変化または休符の位置に基づいて平文歌詞における文節区切りの位置を推定し、その推定結果に基づいて形態素の取捨選択を行うことによっても、歌唱合成特有の歌詞の揺らぎに起因した形態素の誤判別を回避し、より高い精度で平文歌詞を復元することが可能になる。

（Ｃ−３：出現頻度を補助情報として利用する場合）
形態素解析用辞書１４４ｂ２に登録されている単語であっても、一般的な歌詞等における使用頻度が低い単語（例えば、古語や特殊な固有名詞など）は、平文歌詞の復元対象の曲においても同様に歌詞として使用されている可能性は低いと考えられる。したがって、形態素解析用辞書１４４ｂ２に一般的な歌詞等における使用頻度を示すデータが登録されており、当該使用頻度を補助情報として利用する場合には、形態素解析において辞書にマッチしたとしても、一般的な歌詞としての使用頻度が低いものであれば平文歌詞を構成する形態素の候補から除外するようにすれば良い。

例えば、歌唱合成用歌詞が「そおしいいて」であり、形態素解析用辞書１４４ｂ２に「そおし」（「曽於市」）が登録されている場合であっても、「そおし」（「曽於市」）という単語の一般的な歌詞における使用頻度が低い場合には、「そおし」を平文歌詞を構成する形態素の候補から除外するのである。これにより、図７（Ｃ）に示すように、上記歌唱合成用歌詞から「曽於市行って」などの誤った平文歌詞が復元されることを回避することができる（「そおし」（「曽於市」）が除外されれば、前述した「あいまい検索」を利用した形態素解析によって上記歌唱合成用歌詞は「そして」の揺らぎであると判断できる）。また、平文歌詞の復元対象の曲の歌唱合成用歌詞が「ぼくわかんないよ」であり、形態素解析用辞書１４４ｂ２に「かんない」（「関内」）が登録されている場合であっても、「かんない」（「関内」）という単語の一般的な歌詞における使用頻度が低い場合には、「かんない」を平文歌詞を構成する形態素の候補から除外することで、図７（Ｃ）に示すように、上記歌唱合成用歌詞から「僕は関内よ」などの誤った平文歌詞が復元されることを回避することができる。

なお、同一の単語であっても楽曲の属するジャンルによって使用頻度が異なることが考えられるため、楽曲のジャンル毎に当該ジャンルにおける使用頻度を表すデータを各単語に対応付けて格納した形態素解析用辞書を用意しておいても良い。例えば、歌唱合成用歌詞が「ああわが」というものである場合、一般的には「泡が」への変換が想定されるが、当該曲が校歌である場合には「ああ我が」への変換も充分に考えられるからである。また、一般的な文章などではほとんど使用されないものの、歌詞等においては高い頻度で使われる単語（例えば、「ラララララ・・・」など）は、形態素解析用辞書１４４ｂ２には登録されていなくてもそのまま出力する必要がある。このため、形態素解析用辞書１４４ｂ２とは別個に、歌詞等においては高い頻度で使われる単語のみを登録した辞書を用意しておき、形態素解析用辞書１４４ｂ２には登録されていなくても、当該辞書に登録されている単語であればそのまま出力するようにしても良い。

以上、曲を構成する音の並びにおける各音の音高、各音において発音する歌詞の音量および一般的な歌詞等における出現頻度の何れかを補助情報として利用する場合について説明したが、これら３種類の補助情報の任意の２つ或いは全部を併用することも勿論考えられる。ただし、複数種の補助情報を併用する場合には、各補助情報に基づく判断結果が相互に矛盾する場合が有り得る。具体的には、以下のような事例である。

歌唱合成用歌詞が「わたしわかったの」であり、形態素解析用辞書１４４ｂ２に「わたし」（「私」）、「かった」（「勝った」）、「わかった」（「判った」）の各形態素が登録されている場合、復元候補の平文歌詞としては「私は勝ったの」と「私判ったの」の２つが考えられる。ここで、歌唱合成用歌詞が「わたしわかったの」に対応する音高の時間変化が図８（Ａ）に示す態様であり、かつ図８（Ａ）に示すように「わたしわ」の直後に休符がある場合には、上記歌唱合成用歌詞は「わたしわ」と「かったの」に区切られること、および「かったの」部分の音高の時間変化から、上記歌唱合成用歌詞は「私は勝ったの」の意であると判断できる。また、上記歌唱合成用歌詞に対応する音高の時間変化が図８（Ｂ）に示す態様であり、かつ図８（Ｂ）に示すように「わたし」の直後に休符がある場合には、上記歌唱合成用歌詞は「わたし」と「わかったの」に区切られること、および「わかったの」部分の音高の時間変化から、上記歌唱合成用歌詞は「私判ったの」の意であると判断できる。

これに対して、上記歌唱合成用歌詞に対応する音高の時間変化および休符の位置が図８（Ｃ）或いは図８（Ｄ）に示す態様である場合には、何れとも判断がつかない。図８（Ｃ）および図８（Ｂ）の両者とも、休符の位置は図８（Ａ）と同一であるが、「し」から「わ」への音高の変化態様および「かったの」部分の音高の変化態様はむしろ図８（Ｂ）の態様に近い。したがって、音量変化および休符の位置のみに基づけば図８（Ｃ）および（Ｄ）は「私は勝ったの」の意であると判別される一方、音高変化のみに基づけば図８（Ｃ）および図８（Ｄ）は「私判ったの」の意であると判別され、相互に矛盾する。このように、複数種の補助情報を併用する場合には各補助情報に基づく判断が相互に矛盾する場合が有り得ることを考慮し、何れの補助情報に基づく判断を優先するのかを予め定めておいても良いし、ユーザに選択させるようにしても良い。また、補助情報を加味しても歌唱合成用歌詞を構成する形態素の組み合わせが複数考えられ、一意に特定することができない場合には、それら複数の組み合わせをユーザに提示して何れか１つを選択させるようにしても良く、各組み合わせについて得点（例えば、前述した各形態素の揺らぎの大きさの集計値など）を算出し、ユーザに提示する候補をその算出結果に基づいて絞り込んでも良い。

以上説明したように、本実施形態によれば、前述した第２実施形態に比較して、歌唱合成特有の歌詞の揺らぎに起因した形態素の誤判別を回避し、より高い精度で平文歌詞を復元することが可能になる。なお、本実施形態においても、前述したルールベースの変換（特に、メリスマの調整と格助詞の復元）を形態素解析を利用した復元と併用するようにすれば（具体的には、ルールベースの復元を施した後に形態素解析を利用した復元を施すようにする）、不要なメリスマや格助詞の変換に起因した形態素解析の誤判断を回避し、より高い精度で平文歌詞を復元することが可能になる。

（Ｄ：その他の実施形態）
以上本発明の第１〜第３実施形態について説明したが、この実施形態に以下の変形を加えても勿論良い。
（１）上記各実施形態では、平文歌詞の復元対象の曲の歌唱合成用シーケンスデータを平文歌詞復元装置へ入力し、この歌唱合成用シーケンスデータから歌唱合成用歌詞データ（すなわち、当該曲の歌唱合成用歌詞を表すデータ）を生成し、さらにこの歌唱合成用歌詞データの表す歌唱合成用歌詞から平文歌詞を復元する場合について説明した。しかし、第１実施形態の平文歌詞復元装置１０Ａおよび第２実施形態の平文歌詞復元装置１０Ｂに対しては歌唱合成用歌詞データを直接入力しても良く、第３実施形態の平文歌詞復元装置１０Ｃに対しては歌唱合成用歌詞データと、平文歌詞の復元対象の曲を構成する各音に関する情報（例えば、音高）を示すデータであって、前記歌唱合成用歌詞データと時間軸を同じくする音符データとを直接入力しても良い。なお、上記各実施形態では、曲を構成する音の並びを表すデータとして音符データを用いたが、当該音の音高が所謂１２半音に限定されないことは言うまでも無い。

（２）上記各実施形態では、歌唱合成用シーケンスデータに埋め込まれている歌唱合成用歌詞から平文歌詞を復元し、当該平文歌詞を表す平文歌詞データを出力する場合について説明した。しかし、歌唱合成用シーケンスデータには、他の制御情報（歌手情報、コード（和音）情報、音の強弱に関する情報、ピッチベンドに関する情報、音色に関する情報、子音の長さや発音速度に関する情報、息継ぎのタイミングを示す情報など）が含まれており、これら制御情報を付加情報として平文歌詞とともに出力するようにしても良い。ここで、音の強弱に関する情報の具体例としては、アクセント、クレッシェンド、デクレッシェンド、ｆ（フォルテ）、ｐ（ピアノ）などが挙げられる。また、ピッチベンドに関する情報の具体例としては、ピッチベンド、ポルタメントタイミング、ビブラートなどが挙げられる。そして、音色に関する情報の具体例としては、ブレシネスやクリアネスが挙げられる。

例えば、デュエット曲の歌唱合成用シーケンスデータの場合には、各歌唱パートを担当する歌手についての歌手情報が含まれおり、各歌唱パート毎に歌唱合成用歌詞が埋め込まれている。このような歌唱合成用シーケンスデータを対象として平文歌詞を復元し歌詞カードを生成する場合には、図９（Ａ）に示すように、歌唱パート毎に平文歌詞を出力し、さらに各歌唱パートに担当歌手に関する歌手情報（図９（Ａ）において括弧を付した情報）を出力するようにすれば良い。また、平文歌詞の復元対象の曲の歌唱合成用シーケンスデータにコードを示すコード情報が含まれている場合には、図９（Ｂ）に示すように、平文歌詞を小節単位で区切り、各小節にコード情報の示すコードを付記した歌詞カードを出力するようにしても良い。

（３）上記第１実施形態では、ルールデータ１４４ａ２が平文歌詞復元プログラム１４４ａ１とは別個に不揮発性記憶部１４４に記憶されていたが、前者を後者に埋め込んで（すなわち、ルールデータ１４４ａ２と平文歌詞復元プログラム１４４ａ１を一体にして）不揮発性記憶部１４４に記憶させておいても良い。第２実施形態（或いは第３実施形態）における形態素解析用辞書１４４ｂ２についても同様に平文歌詞復元プログラム１４４ｂ１（或いは、平文歌詞復元プログラム１４４ｃ１）と一体にして不揮発性記憶部１４４に記憶させておいても良い。

また、ルールデータ１４４ａ２（或いは形態素解析用辞書１４４ｂ２）が埋め込まれた平文歌詞復元プログラムを不揮発性記憶部１４４に予め記憶させておくのではなく、ＣＤ−ＲＯＭなどのコンピュータ読み取り可能な記録媒体に当該プログラムを書き込んで配布しても良く、インターネットなどの電気通信回線経由のダウンロードにより当該プログラムを配布しても良い。このようにして配布されるプログラムにしたがって一般的なコンピュータを作動させることで、当該コンピュータを上記各実施形態の平文歌詞復元装置として機能させることが可能になるからである。

１０Ａ，１０Ｂ，１０Ｃ…平文歌詞復元装置、１１０…制御部、１２０…ユーザインタフェース部、１３０…外部機器インタフェース部、１４０…記憶部、１４２…揮発性記憶部、１４４…不揮発性記憶部、１４４ａ１，１４４ｂ１，１４４ｃ１…平文歌詞復元プログラム、１４４ａ２…ルールデータ、１４４ｂ２…形態素解析用辞書、１５０…バス。

Claims

曲を構成する音の並びを表す音データと、前記音の並びを構成する各音に合わせて発音する表音文字を表す歌唱合成用歌詞データと、を受け取る入力手段と、
前記歌唱合成用歌詞データの表す表音文字列に含まれる形態素を形態素解析により特定して平文歌詞を復元する手段であって、前記形態素解析により共通の表音文字列から複数の形態素の候補が得られた場合に複数の形態素の候補の取捨選択を前記音データを利用して行う平文歌詞復元手段と、
前記平文歌詞復元手段により復元された平文歌詞を表す平文歌詞データを出力する出力手段と、有し、
前記音データは、前記音の並びを構成する各音に合わせて発音する歌詞の音量を示すデータを含み、
前記平文歌詞復元手段は、前記音データにより示される音量の変化に基づいて前記平文歌詞における文節の区切り位置を推定し、文節の区切り位置の推定結果を利用して形態素の取捨選択を行うこと
を特徴とする平文歌詞復元装置。
前記音データは、前記音の並びを構成する各音の音高を示すデータを含み、
前記平文歌詞復元手段は、前記音データにより示される前記曲の音高の時間変化に基づいて前記平文歌詞を構成する各形態素のアクセントを推定し、アクセントの推定結果を利用して形態素の取捨選択を行うことを特徴とする請求項１に記載の平文歌詞復元装置。
前記平文歌詞復元手段は、前記音データを利用した取捨選択によっても前記平文歌詞を構成する形態素を一意に特定できない場合には、形態素の候補をユーザに提示して何れか１の候補の選択を促すことを特徴とする請求項１または請求項２に記載の平文歌詞復元装置。
前記歌唱合成用歌詞データの表す文字列には、歌唱合成用の特殊記号の付与、メリスマ調整、および格助詞の置き換えの少なくとも１つが施されており、
前記平文歌詞復元手段は、前記歌唱合成用歌詞データの表す文字列に対して、特殊記号の削除、メリスマ調整の解除、および格助詞の置き換えの解除を予め定められたルールにしたがって施した後に前記形態素解析を施すことを特徴とする請求項１〜３の何れか１項に記載の平文歌詞復元装置。
前記出力手段は、前記歌唱合成用の特殊記号と前記音データの示す情報の少なくとも一方を付加情報として前記平文歌詞データとともに出力することを特徴とする請求項１〜４の何れか１項に記載の平文歌詞復元装置。