JP6114980B2

JP6114980B2 - 楽曲処理装置および楽曲処理方法

Info

Publication number: JP6114980B2
Application number: JP2012229033A
Authority: JP
Inventors: 広海石先; 服部　元; 元服部; 小野　智弘; 智弘小野
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2012-10-16
Filing date: 2012-10-16
Publication date: 2017-04-19
Anticipated expiration: 2032-10-16
Also published as: JP2014081478A

Description

本発明は、楽曲データを処理して単語データを付与する楽曲処理装置および楽曲処理方法に関する。

従来、楽曲に合わせてＷＥＢ上の画像を利用して楽曲スライドショーを生成する技術が知られている。例えば、特許文献１記載の携帯情報端末は、楽曲再生時に、音声認識によって歌詞を抽出し、その抽出された歌詞から所定のルールに基づいてキーワードを抽出し、キーワードに基づいて、ローカルストレージやインターネット上のＷＥＢページから画像を検索し、楽曲再生時に画像を表示させている。

また、特許文献２記載のクエリ抽出装置は、歌詞を複数に区分し、優先的にキーワード群が選択される優先区分を決定して、全体的かつ局所的に歌詞に適合した画像を検索している。特許文献３記載の画像表示装置は、楽曲歌詞と画像を同期再生する場合に自動で適した表示時間を決定し、画像表示が極端に短くなったり極端に長くなったりすることを防止して画像表示を切り替えている。

特開２００８−８９５４号公報特開２０１１−０４８７２９号公報特開２０１１−１６６３８６号公報

舟澤慎太郎, 石先広海, 帆足啓一郎, 滝嶋康弘, 甲藤二郎: 歌詞特徴を考慮したWeb画像と楽曲同期再生システムの提案, 第8 回情報科学技術フォーラム, E-034 (2009). D. A. Shamma, B. Pardo, and K. J. Hammond: MusicStory: a Personalized Music VＩＤeo Creator, Proceedings of the 13th Annual ACM International Conference on Multimedia, pp.563-566 (2005). R. Cai, L. Zhang, F. Jing, W. Lai, and W. -Y. Ma: Automated Music VＩＤeo Generation Using Web Image Resource, Proceedings of IEEE International Conference on Acoustic, Speech, and SignalProcessing, 2:pp.737-740 (2007). 舟澤慎太郎, 石先広海, 帆足啓一郎, 滝嶋康弘, 甲藤二郎: 歌詞の印象に基づく楽曲検索のための楽曲自動分類に関する検討, 第71 回情報処理学会全国大会, 5R-2 (2009). 石先、帆足、小野、歌詞情報に基づくWEB画像検索を利用した楽曲連動スライドショー生成システム、情報処理学会研究報告. [オーディオビジュアル複合情報処理] 2011-AVM-73(9), 1-6, 2011-07-07

しかしながら、上記のような従来技術では、歌詞を元にＷＥＢ画像を検索し、検索された画像と楽曲とを連動再生させているが、歌詞の存在しない楽曲については画像を連動再生することができない。例えば、クラシック楽曲や、歌詞のない邦楽・洋楽の楽曲については楽曲と連動して楽曲に適した画像を表示することは困難である。

本発明は、このような事情に鑑みてなされたものであり、歌詞データが付帯していない楽曲データに対しても関連性の高い画像データを検索可能にする楽曲処理装置および楽曲処理方法を提供することを目的とする。

（１）上記の目的を達成するため、本発明の楽曲処理装置は、楽曲データを処理して単語データを付与する楽曲処理装置であって、入力された楽曲データから音響特徴量を抽出する第１の特徴量抽出部と、予め楽曲の音響特徴量と単語データとを共起確率で関連付けて構築された確率モデルを用いて、前記抽出された音響特徴量に関連する単語データを推定する単語推定部と、を備えることを特徴としている。

このように、音響特徴量と単語データとを関連付けるデータを利用して入力された楽曲データから音響特徴量を抽出し、関係性の高い単語データを楽曲データに自動付与することで、歌詞データが付帯していない楽曲データに対しても関連性の高い画像データを検索可能にすることができる。

（２）また、本発明の楽曲処理装置は、前記入力された楽曲データに付帯する歌詞データの有無を判定し、歌詞データの有無に応じた部分区間で前記入力された楽曲データを分割管理する分割管理部を更に備えることを特徴としている。これにより、歌詞データの付帯していない楽曲データを適当な区間に分割して管理できる。

（３）また、本発明の楽曲処理装置は、前記第１の特徴量抽出部が、前記部分区間の音響特徴量を抽出し、前記単語推定部が、前記部分区間ごとに単語データを推定することを特徴としている。これにより、歌詞データが付帯していない楽曲データであっても適当な区間ごとに単語データを付与できる。

（４）また、本発明の楽曲処理装置は、前記推定された単語データに関連する画像データを検索する画像データ検索部を更に備えることを特徴としている。これにより、歌詞データが付帯していない楽曲データに対して、付与された単語データに応じた画像データを対応させることができる。

（５）また、本発明の楽曲処理装置は、前記推定された単語データを用いて全体印象ラベルを付与する全体印象ラベル付与部を更に備え、前記画像データ検索部は、前記付与された全体印象ラベルを参照して画像データを選定することを特徴としている。これにより、全体の印象を考慮した上で区間ごとに適した画像データを選定することができる。

（６）また、本発明の楽曲処理装置は、詞データが付帯された楽曲データから音響特徴量を抽出する第２の特徴量抽出部と、前記歌詞データから重要語データを抽出し、前記抽出された音響特徴量と重要語データとを共起確率で関連付ける確率モデルを構築する確率モデル構築部と、を更に備え、前記単語推定部は、前記確率モデル構築部で構築された確率モデルを用いることを特徴としている。これにより、歌詞データが付帯された楽曲データから得られた確率モデルを利用することができる。

（７）また、本発明の楽曲処理方法は、楽曲データを処理して単語データを付与する楽曲処理方法であって、入力された楽曲データから音響特徴量を抽出するステップと、予め楽曲の音響特徴量と単語データとを共起確率で関連付けて構築された確率モデルを用いて、前記抽出された音響特徴量に関連する単語データを推定するステップと、を含むことを特徴としている。これにより、歌詞データが付帯していない楽曲データに対しても関連性の高い画像データを検索可能にすることができる。

本発明によれば、歌詞データが付帯していない楽曲データに対しても関連性の高い画像データを検索可能にする。

本発明の楽曲処理装置の構成を示すブロック図である。楽曲ＤＢのデータ構造の一例を示す図である。本発明の楽曲処理装置の動作を示すフローチャートである。分割管理処理を示すフローチャートである。確率モデル構築処理を示すフローチャートである。単語推定処理を示すフローチャートである全体印象生成処理を示すフローチャートである。画像検索処理を示すフローチャートである。

次に、本発明の実施の形態について、図面を参照しながら説明する。本発明の楽曲処理装置は、歌詞データが付帯している楽曲データから抽出した重要単語と、音響特徴を関連付けたデータを用いて、歌詞データが付帯していない楽曲データに対して時系列に合わせて単語データを付与する。また、付与した単語データからＷＥＢ上で画像データを検索し、楽曲再生とともに表示可能にする。

［楽曲処理装置の構成］
図１は、楽曲処理装置１００の構成を示すブロック図である。図１に示すように、楽曲処理装置１００は、楽曲ＤＢ１１０、分割管理部１２０、第２の特徴量抽出部１３０、確率モデル構築部１４０、第１の特徴量抽出部１５０、単語推定部１６０、全体印象生成部１７０、画像検索部１８０および再生部１９０を備えている。楽曲処理装置１００は、例えば楽曲に画像を合わせたスライドショーを提供するサーバに用いられ、ユーザ端末においてスライドショーのストリーミング再生が可能になる。

楽曲ＤＢ１１０は、楽曲ファイルを格納する。また、例えば楽曲ＩＤ、楽曲種類情報、歌詞、同期情報、スライドショーのようなメタ情報も格納できる。図２は、楽曲ＤＢ１１０のデータ構造の一例を示す図である。楽曲ＩＤは、楽曲ごとに振られたユニークなＩＤである。楽曲種類情報は、歌詞データの付帯の有無のいずれかを示す情報である。同期情報は、歌詞の各行の開始時間と終了時間が記述された情報である。スライドショーは、歌詞の行ごとに表示されるテンプレート画像が記述されているデータである。

分割管理部１２０は、入力された楽曲データに歌詞データが付帯するか否かを判定し、歌詞データが付帯するか否かに応じて決められた部分区間で、入力された楽曲データを分割管理する。歌詞データが付帯する場合には、入力された楽曲データをテキスト同期情報に基づいて分割できる。一方、付帯テキストが存在しない場合でも分割管理処理を行うことができる。歌詞データが付帯しない楽曲は、例えば一律にＮ秒単位で分割し、分割区間ごとに音響特徴量を抽出することが好ましい。なお、Ｎは、任意に設定できる整数である。

第２の特徴量抽出部１３０は、歌詞データが付帯された楽曲データから音響特徴量を抽出する。例えば、歌詞データが付帯している楽曲データの同期データから、歌詞が再生される時間帯の音響特徴量を抽出し、学習データとする。なお、同期データとは、歌詞データとその再生時間情報を指す。

確率モデル構築部１４０は、歌詞データから重要語データを抽出し、第２の特徴量抽出部１３０で抽出された音響特徴量と抽出された重要語データとを共起確率で関連付ける確率モデルを構築する。このようにして、学習データに対して音響特徴と単語の出現確率を求め、確率モデルを構築し、構築された確率モデルを蓄積する。蓄積された確率モデルは、単語推定部１６０により用いられる。

確率モデル構築部１４０は、歌詞データが付帯している楽曲データを学習データとして、そのデータから同期データを抽出し、対応する歌詞データの部分を形態素解析して名詞を抽出する。例えば、７２曲の楽曲データからはおよそ１０３９の同期データを学習データとして利用できる。なお、同期データ数は歌詞の行数に依存する。

学習データを用いてＰＬＳＡモデルの構築およびラベル付け（音響特徴とラベルの事後確率推定）を行う。このとき、同期データに含まれるユニークな単語を抽出し、ＴＦＩＤＦの上位ｗｏｒｄを抽出する。そして、同期データごとに単語の出現確率と、音響特徴を抽出し、モデル構築を行うことができる。具体的には、同期データごとに音響特徴の抽出と各単語の出現確率を計算する。

次に、音響特徴とＮ個潜在トピックスとのそれぞれの事後確率を推定する。その後、音響特徴とＮ個潜在トピックスとのそれぞれの事後確率を使って、Ｎ個のそれぞれの潜在トピックスと各キーワードとの事後確率を推定し、これをモデルとする。

また、未知の同期データより音響特徴を求め、この音響特徴とＮ個の潜在トピックスへの潜在確率を推定する。そして、単語ごとに、あらかじめ求めたあったＮ個の潜在トピックスと各単語の事後確率の総和をもとめ、これを音響特徴と単語の事後確率値とする。この事後確率が大きいほうから上位をその同期データでのラベルとする。なお、それぞれの事後確率の推定はＥＭアルゴリズムを用いて推定できる。

歌詞データは、楽曲中の再生される時間情報を保有している。そのため、楽曲中の音響特徴と歌詞単語を関連付け、音響特徴量に対する歌詞単語の出現頻度を用いることができる。未知の音響特徴量を確率モデルに入力したときにもっともらしい歌詞単語を付与することが可能である。なお、例えば確率モデルとしては、ＰＬＳＡを適用することができる。

第１の特徴量抽出部１５０は、入力された楽曲データから音響特徴量を抽出する。その際には、区間管理されている部分区間ごとの音響特徴量を抽出する。音響特徴量の抽出能力は、第２の特徴量抽出部１３０の能力と同様である。

単語推定部１６０は、入力された楽曲データに対して関連する単語データを推定する。その際には、楽曲の音響特徴量と単語データとを共起確率で関連付けて構築された確率モデルを用いて抽出された音響特徴量に関連する単語データを推定して行う。確率モデル構築部１４０で構築された確率モデルを用い、部分区間ごとに単語データを推定する。

単語推定部１６０は、未知の音響特徴による単語の出現確率を、モデルを使って算出する。このようにして歌詞データが付帯しない楽曲データに対して音響特徴をもとに単語を自動付与できる。

全体印象生成部１７０は、歌詞データが付帯しない楽曲データに対して推定された単語データを用いて全体印象ラベルを付与する。全体印象生成部１７０は、単語データが対応付けられた楽曲データに基づき、単語データから受ける全体の印象を全体印象ラベルとして付与する。

画像検索部１８０は、推定された単語データに関連する画像データをＷＥＢ上で検索する。付与された全体印象ラベルを参照して画像データを選定することが好ましい。再生部１９０は、画像検索部１８０で生成されたスライドショーを用いて、楽曲データの再生と連動させて画像データも再生する。なお、上記のような装置構成は一例であり、例えば確率モデル構築の機能のみが別の装置であってもよく、各機能がネットワークで接続されたシステムであってもよい。

［楽曲処理装置の動作］
図３は、楽曲処理装置１００の動作を示すフローチャートである。図３に示すように、楽曲処理装置１００は、まず、入力された楽曲データを分割管理処理する（ステップＳ１）。次に、歌詞データが付帯する楽曲データを用いて確率モデルを構築する（ステップＳ２）。そして、入力された歌詞データが付帯しない楽曲データから音響特徴量を抽出し、抽出された音響特徴量および確率モデルを用いて、入力された楽曲データに対して単語データを推定する（ステップＳ３）。

単語データが付帯された楽曲データから全体印象を生成する（ステップＳ４）。そして、区間ごとに対応する単語データおよび全体印象から画像を検索し選定する（ステップＳ５）。区間に対して画像を特定するスライドショーを作成して楽曲データに連動させて画像データを再生させる（ステップＳ６）。このようにして、歌詞データが付帯していない楽曲データに対しても関連性の高い画像データでスライドショーを作成できる。以下、各処理を説明する。

（分割管理処理）
図４は、分割管理処理を示すフローチャートである。まず、入力された楽曲データに歌詞データ（同期したテキストデータ）が付帯しているか否かを判定する（ステップＴ１）。歌詞データが付帯していないと判定された場合には、あらかじめ定められた分割パラメータを設定し（ステップＴ２）、その分割パラメータに基づいて、楽曲を分割管理する。例えば、３秒を基準に部分区間に分割管理できる（ステップＴ３）。

歌詞データが存在していると判定された場合には、歌詞データが存在しない区間（非テキスト付帯区間）の有無を判定する（ステップＴ４）。非テキスト区間が存在する場合には、分割パラメータを設定し（ステップＴ５）、設定された分割パラメータに基づいて非テキスト区間を分割することができる（ステップＴ６）。この処理は非テキスト区間が複数あった場合には、すべての非テキスト区間に対して適用することができる（ステップＴ７）。すべての非テキスト区間について処理が終了し、非テキスト付帯区間が存在しなければ、分割管理処理を終了する。

（確率モデル構築処理）
図５は、確率モデル構築処理を示すフローチャートである。まず、歌詞データが付帯する楽曲データを学習データとして入力する（ステップＰ１）。次に、歌詞の一行の再生時間に対応する区間の楽曲データを抽出し、その楽曲データの音響特徴量を抽出する（ステップＰ２）。

例えば、ＭＦＣＣ、ビートヒストグラム等を音響特徴とすることができ、ＣＬＡＭ、ＭＡＲＳＹＡＳなどのソフトウェアにより音響特徴量を抽出することができる。次に、歌詞データを形態素解析により品詞分解し、重要語を抽出する（ステップＰ３）。音響特徴と重要語とを利用してＰＬＳＡの潜在確率を求め、確率モデルを構築する（ステップＰ４）。このようにして求めた潜在確率マトリクスは確率モデルとして、蓄積しておき、単語推定に利用される。

なお、楽曲データの分割単位における重要単語抽出では、歌詞データが付帯している楽曲データであれば歌詞の一行分で、歌詞データが付帯していない楽曲データであれば、分割単位で重要語を抽出する。重要語として、例えばＴＦＩＤＦ値の高い単語を抽出することができる。

（単語推定処理）
図６は、単語推定処理を示すフローチャートである。まず、歌詞データが付帯しない楽曲データを入力する（ステップＱ１）。次に、入力された歌詞データが付帯しない楽曲データから音響特徴量を抽出する（ステップＱ２）。そして、抽出した音響特徴量をＰＬＳＡによって得られた潜在確率マトリクスを参照し、対応する音響特徴量に該当する上位Ｍ件の歌詞に含まれる単語を分割区間に対応する単語として推定し（ステップＱ３）、単語推定処理を終了する。これにより歌詞データが付帯していない楽曲データに対して、歌詞データに相当する単語データを付与することができる。

（全体印象生成処理）
図７は、全体印象生成処理を示すフローチャートである。まず、事前に歌詞に対して全体印象のラベルが付与された教師データを準備する（ステップＲ１）。次に、楽曲データに付帯する歌詞データを形態素解析して得られた単語または楽曲データに対応付けて推定された単語データを特徴ベクトルの要素として抽出する（ステップＲ２）。抽出した特徴ベクトルにより、候補語ごとに正、負の２クラス識別器を用いて評価し、新たに入力された歌詞に対してすべての候補語の正負を判定する（ステップＲ３）。識別器により正として判定されたすべての候補語を、その楽曲の全体印象語に決定し（ステップＲ４）、全体印象生成処理を終了する。

なお、全識別器は例えばSupport Vector Machine（ＳＶＭ）を利用することができる。また、パラメータ作成のための教師データは例えば以下のようにして作成することができる。すなわち、まず学習データとして２４０曲程度の楽曲を準備する。例えば、Music lyrics database(http://www.mldb.org)より歌詞データを取得することができる。

そして、１曲あたり５人くらいが回答するように曲を振り分けてアンケートを実施し、アンケートの結果より、使用する全体印象語を決定する。過半数の回答が得られた単語をその楽曲の全体語印象とする。ＳＶＭの特徴量は全楽曲から得られた単語の出現確率をもとにしたＴＦＩＤＦ値を使用する。

単語は、形態素解析(ＰＯＳＴａｇｇｅｒ、ＭＥＣＡＢ)などを使用して得ることができる。教師データにより全体印象語を付与する識別器を利用して、新規の楽曲歌詞や単語データが付与された楽曲データに対しても全体印象語を付与できる。

楽曲ＩＤの入力に対して、楽曲ＤＢ１１０より歌詞データを抽出し、形態素解析・ＴＦＩＤＦ算出により特徴ベクトルを作成する。教師データにより作成された識別器を用いて、歌詞特徴ベクトルに基づいて候補語の正負を出力させ、正であった語を最終的に全体印象語として付与する。なお、全体印象語については日本語に限らない。

（画像検索処理）
図８は、画像検索処理を示すフローチャートである。画像検索処理は入力された楽曲データに付帯する歌詞データまたは推定された単語データを抽出する（ステップＬ１）。その際には、形態素解析により品詞分解を適用し、単語を品詞ごとに選別できる。そして、抽出された単語データを用いて画像データを検索する（ステップＬ２）。画像検索対象としては、ＦＬＩＣＫＲ（登録商標）などのＷＥＢサービスや、個人の写真コレクションなどを利用することができる。検索して得られた画像群から、表示するための１枚を抽出することで各行または分割単位で表示する画像を選定する（ステップＬ３）。

表示するための一枚の画像は例えば、検索して得られた画像データに付与されたタグと、全体印象語の関連度合を調べることにより選定できる。このようにして該当する区間に関連する画像データを選定する。そして選定した画像および表示区間を特定するデータとしてスライドショーを生成し（ステップＬ４）、画像検索処理を終了する。これにより歌詞データが付帯していない楽曲データに対して、楽曲データに適した画像データを付与することができる。なお、以上のような処理は、プログラムにより行うことができる。

１００楽曲処理装置
１１０楽曲ＤＢ
１２０分割管理部
１３０第２の特徴量抽出部
１４０確率モデル構築部
１５０第１の特徴量抽出部
１６０単語推定部
１７０全体印象生成部
１８０画像検索部
１９０再生部

Claims

楽曲データを処理して単語データを付与する楽曲処理装置であって、
入力された楽曲データに付帯する歌詞データの有無を判定し、歌詞データの有無に応じた部分区間で前記入力された楽曲データを分割管理する分割管理部と、
前記入力された楽曲データから音響特徴量を抽出する第１の特徴量抽出部と、
予め楽曲の音響特徴量と単語データとを共起確率で関連付けて構築された確率モデルを用いて、前記抽出された音響特徴量に関連する単語データを推定する単語推定部と、を備えることを特徴とする楽曲処理装置。
前記第１の特徴量抽出部は、前記部分区間の音響特徴量を抽出し、
前記単語推定部は、前記部分区間ごとに単語データを推定することを特徴とする請求項１記載の楽曲処理装置。
前記推定された単語データを用いて全体印象ラベルを付与する全体印象ラベル付与部と、
前記推定された単語データに関連する画像データを検索する画像データ検索部と、を更に備え、
前記画像データ検索部は、前記付与された全体印象ラベルを参照して画像データを選定することを特徴とする請求項１または請求項２記載の楽曲処理装置。
歌詞データが付帯された楽曲データから音響特徴量を抽出する第２の特徴量抽出部と、
前記歌詞データから重要語データを抽出し、前記抽出された音響特徴量と重要語データとを共起確率で関連付ける確率モデルを構築する確率モデル構築部と、を更に備え、
前記単語推定部は、前記確率モデル構築部で構築された確率モデルを用いることを特徴とする請求項１から請求項３のいずれかに記載の楽曲処理装置。
楽曲データを処理して単語データを付与する楽曲処理プログラムであって、
入力された楽曲データに付帯する歌詞データの有無を判定し、歌詞データの有無に応じた部分区間で前記入力された楽曲データを分割管理する処理と、
前記入力された楽曲データから音響特徴量を抽出する処理と、
予め楽曲の音響特徴量と単語データとを共起確率で関連付けて構築された確率モデルを用いて、前記抽出された音響特徴量に関連する単語データを推定する処理と、をコンピュータに実行させることを特徴とする楽曲処理プログラム。
楽曲データを処理して単語データを付与する楽曲処理方法であって、
入力された楽曲データに付帯する歌詞データの有無を判定し、歌詞データの有無に応じた部分区間で前記入力された楽曲データを分割管理するステップと、
前記入力された楽曲データから音響特徴量を抽出するステップと、
予め楽曲の音響特徴量と単語データとを共起確率で関連付けて構築された確率モデルを用いて、前記抽出された音響特徴量に関連する単語データを推定するステップと、を含むことを特徴とする楽曲処理方法。