JP2018025949A

JP2018025949A - 学習装置、映像検索装置、方法、及びプログラム

Info

Publication number: JP2018025949A
Application number: JP2016157008A
Authority: JP
Inventors: 航光田; Wataru Mitsuta; 東中　竜一郎; Ryuichiro Higashinaka; 竜一郎東中; 松尾　義博; Yoshihiro Matsuo; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-08-09
Filing date: 2016-08-09
Publication date: 2018-02-15
Anticipated expiration: 2036-08-09
Also published as: JP6553557B2

Abstract

【課題】楽曲の歌詞データに適した映像を精度よく検索するためのランキングモデルを学習することができる。
【解決手段】ランカ学習部６４が、正解データのキーワードペア特徴量と、不正解データのキーワードペア特徴量と、正解データのトピックペア特徴量と、不正解データのトピックペア特徴量とに基づいて、ランキングモデルを学習することにより、楽曲の歌詞データに適した映像を精度よく検索するためのランキングモデルを学習する。
【選択図】図１

Description

本発明は、学習装置、映像検索装置、方法、及びプログラムに係り、特に、楽曲の歌詞データに適した映像を検索するための学習装置、映像検索装置、方法、及びプログラムに関する。

Web検索におけるイメージ検索など、テキストから映像を検索するニーズは高い。テキストから映像を検索することができれば、映像を目視で確認しながら検索する必要はなく、コストを低減できる。また、テキストに合った映像が取得できれば、テキストの内容を視覚的に補助することも可能である。

情報検索と言語処理(言語と計算)，第２章情報検索の基礎、第４章言語処理技術の利用、徳永健伸(著)，東京大学出版会，1999

イメージ検索などでは、入力されるテキストはキーワードであることが多い。しかし、楽曲の歌詞といった長文かつ主観的な文章を入力として、該当する映像を検索する手法はこれまでに確立されていない。

本発明は、上記事情を鑑みて成されたものであり、楽曲の歌詞データに適した映像を精度よく検索するためのランキングモデルを学習することができる学習装置、方法、及びプログラムを提供することを目的とする。

また、楽曲の歌詞データに適した映像を精度よく検索することができる映像検索装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る学習装置は、楽曲の歌詞データに適した映像を検索するためのランキングモデルを学習する学習装置であって、楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データ、及び楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データに含まれる歌詞データの各々から、歌詞用キーワードを抽出する歌詞用キーワード抽出部と、前記正解データ及び前記不正解データに含まれる概要テキストデータの各々から、概要テキスト用キーワードを抽出する概要テキスト用キーワード抽出部と、前記正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量とに基づいて、前記ランキングモデルを学習するランカ学習部と、を含んで構成されている。

また、第２の発明に係る学習装置は、楽曲の歌詞データに適した映像を検索するためのランキングモデルを学習する学習装置であって、楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データ、及び楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データに含まれる歌詞データの各々から、歌詞用トピックを抽出する歌詞用トピック抽出部と、前記正解データ及び前記不正解データに含まれる概要テキストデータの各々から、概要テキスト用トピックを抽出する概要テキスト用トピック抽出部と、前記正解データの前記歌詞データから抽出された歌詞用トピック及び前記正解データの前記概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、前記不正解データの前記歌詞データから抽出された歌詞用トピック及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量とに基づいて、前記ランキングモデルを学習するランカ学習部と、を含んで構成されている。

また、第３の発明に係る学習装置は、楽曲の歌詞データに適した映像を検索するためのランキングモデルを学習する学習装置であって、楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データ、及び楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データに含まれる歌詞データの各々から、歌詞用キーワードを抽出する歌詞用キーワード抽出部と、前記正解データ及び前記不正解データに含まれる概要テキストデータの各々から、概要テキスト用キーワードを抽出する概要テキスト用キーワード抽出部と、前記正解データ及び前記不正解データに含まれる歌詞データの各々から、歌詞用トピックを抽出する歌詞用トピック抽出部と、前記正解データ及び前記不正解データに含まれる概要テキストデータの各々から、概要テキスト用トピックを抽出する概要テキスト用トピック抽出部と、前記正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記正解データの前記歌詞データから抽出された歌詞用トピック及び前記正解データの前記概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、前記不正解データの前記歌詞データから抽出された歌詞用トピック及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量とに基づいて、前記ランキングモデルを学習するランカ学習部と、を含んで構成されている。

また、第１〜第３の発明に係る学習装置において、前記概要テキスト用キーワードは、人物、場所、季節、又はイベントを表すキーワードであるようにしてもよい。

第４の発明に係る映像検索装置は、楽曲の歌詞データに適した映像を検索する映像検索装置であって、入力された楽曲の歌詞データから、歌詞用キーワードを抽出する歌詞用キーワード抽出部と、楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量とに基づいて予め学習された、楽曲の歌詞データに適した映像を検索するためのランキングモデルを記憶するランキングモデル記憶部と、前記映像の各々に対する、前記歌詞用キーワード抽出部によって抽出された歌詞用キーワード及び前記映像に付与された概要テキストデータから抽出される概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記ランキングモデルとに基づいて、入力された楽曲の歌詞データに適した映像を検索する映像検索部と、を含んで構成されている。

また、第５の発明に係る映像検索装置は、楽曲の歌詞データに適した映像を検索する映像検索装置であって、入力された楽曲の歌詞データから、歌詞用トピックを抽出する歌詞用トピック抽出部と、楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データの前記歌詞データから抽出された歌詞用トピック及び前記正解データの前記概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データの前記歌詞データから抽出された歌詞用トピック及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量とに基づいて予め学習された、楽曲の歌詞データに適した映像を検索するためのランキングモデルを記憶するランキングモデル記憶部と、前記映像の各々に対する、前記歌詞用トピック抽出部によって抽出された歌詞用トピック及び前記映像に付与された概要テキストデータから抽出される概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、前記ランキングモデルとに基づいて、入力された楽曲の歌詞データに適した映像を検索する映像検索部と、を含んで構成されている。

また、第６の発明に係る映像検索装置は、楽曲の歌詞データに適した映像を検索する映像検索装置であって、入力された楽曲の歌詞データから、歌詞用キーワードを抽出する歌詞用キーワード抽出部と、前記入力された楽曲の歌詞データから、歌詞用トピックを抽出する歌詞用トピック抽出部と、楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記正解データの前記歌詞データから抽出された歌詞用トピック及び前記正解データの前記概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、前記不正解データの前記歌詞データから抽出された歌詞用トピック及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量とに基づいて予め学習された、楽曲の歌詞データに適した映像を検索するためのランキングモデルを記憶するランキングモデル記憶部と、前記映像の各々に対する、前記歌詞用キーワード抽出部によって抽出された歌詞用キーワード及び前記映像に付与された概要テキストデータから抽出される概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記歌詞用トピック抽出部によって抽出された歌詞用トピック及び前記映像に付与された概要テキストデータから抽出される概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、前記ランキングモデルとに基づいて、入力された楽曲の歌詞データに適した映像を検索する映像検索部と、を含んで構成されている。

第７の発明に係る学習方法は、楽曲の歌詞データに適した映像を検索するためのランキングモデルを学習する学習装置における学習方法であって、歌詞用キーワード抽出部が、楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データ、及び楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データに含まれる歌詞データの各々から、歌詞用キーワードを抽出するステップと、概要テキスト用キーワード抽出部が、前記正解データ及び前記不正解データに含まれる概要テキストデータの各々から、概要テキスト用キーワードを抽出するステップと、ランカ学習部が、前記正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量とに基づいて、前記ランキングモデルを学習するステップと、を含んで実行することを特徴とする。

第８の発明に係る映像検索方法は、歌詞用キーワード抽出部と、楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量とに基づいて予め学習された、楽曲の歌詞データに適した映像を検索するためのランキングモデルを記憶するランキングモデル記憶部と、映像検索部とを備え、楽曲の歌詞データに適した映像を検索する映像検索装置における映像検索方法であって、前記歌詞用キーワード抽出部が、入力された楽曲の歌詞データから、歌詞用キーワードを抽出するステップと、前記映像検索部が、前記映像の各々に対する、前記歌詞用キーワード抽出部によって抽出された歌詞用キーワード及び前記映像に付与された概要テキストデータから抽出される概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記ランキングモデル記憶部に記憶されているランキングモデルとに基づいて、入力された楽曲の歌詞データに適した映像を検索するステップと、を含んで実行することを特徴とする。

第９の発明に係るプログラムは、コンピュータを、第１〜第３の発明に係る学習装置、又は第４〜第６の発明に係る映像検索装置の各部として機能させるためのプログラムである。

本発明の学習装置、方法、及びプログラムによれば、歌詞データの各々から、歌詞用キーワードを抽出し、概要テキストデータの各々から、概要テキスト用キーワードを抽出し、歌詞データの各々から、歌詞用トピックを抽出し、概要テキストデータの各々から、概要テキスト用トピックを抽出し、正解データの歌詞データから抽出された歌詞用キーワード及び正解データの概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、不正解データの歌詞データから抽出された歌詞用キーワード及び不正解データの概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、正解データの歌詞データから抽出された歌詞用トピック及び正解データの概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、不正解データの歌詞データから抽出された歌詞用トピック及び不正解データの概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量とに基づいて、ランキングモデルを学習することにより、楽曲の歌詞データに適した映像を精度よく検索するためのランキングモデルを学習することができる、という効果が得られる。

本発明の映像検索装置、方法、及びプログラムによれば、入力された楽曲の歌詞データから、歌詞用キーワードを抽出し、入力された楽曲の歌詞データから、歌詞用トピックを抽出し、映像の各々に対する、抽出された歌詞用キーワード及び映像に付与された概要テキストデータから抽出される概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、抽出された歌詞用トピック及び映像に付与された概要テキストデータから抽出される概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、ランキングモデルとに基づいて、入力された楽曲の歌詞データに適した映像を検索することにより、楽曲の歌詞データに適した映像を精度よく検索することができる。

本発明の実施の形態に係る学習装置の構成を示すブロック図である。歌詞データの形態素解析の結果の一例を示す図である。単語抽出の結果の一例を示す図である。概要テキストの形態素解析の結果の一例を示す図である。ある歌詞のトピックの上位５個の確率値の一例を示す図である。本発明の実施の形態に係る映像検索装置の構成を示すブロック図である。概要テキストのランキング結果の一例を示す図である。本発明の実施の形態に係る学習装置における学習処理ルーチンを示すフローチャートである。本発明の実施の形態に係る映像検索装置における映像検索処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る概要＞

まず、本発明の実施の形態における概要を説明する。

本発明の実施の形態における楽曲映像検索は、学習処理と、検索処理とからなる。学習処理では、学習装置において、検索処理を行うために必要となるランキングモデルが作成される。検索処理では、映像検索装置において、学習処理で作成されたランキングモデルを元に、楽曲の歌詞データに対して映像の検索を行う。

＜本発明の実施の形態に係る学習装置の構成＞

次に、本発明の実施の形態に係る学習装置の構成について説明する。図１に示すように、本発明の実施の形態に係る学習装置１００は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この学習装置１００は、機能的には図１に示すように演算部２０を備えている。

演算部２０は、歌詞データＤＢ３０と、歌詞用キーワード抽出部３２と、各歌詞のキーワードリスト３４と、概要テキストデータＤＢ３６と、概要テキスト用キーワード抽出部３８と、各概要テキストのキーワードリスト４０と、歌詞用トピックモデル作成部４２と、歌詞用トピックモデル４４と、歌詞用トピック抽出部４６と、各歌詞のトピックリスト４８と、概要テキスト用トピックモデル作成部５０と、概要テキスト用トピックモデル５２と、概要テキスト用トピック抽出部５４と、各概要テキストのトピックリスト５６と、歌詞・概要テキストペア正解データ５８と、不正解データ作成部６０と、歌詞・概要テキストペア不正解データ６２と、ランカ学習部６４と、ランキングモデル記憶部６６とを含んで構成されている。

歌詞データＤＢ３０には、複数の楽曲の歌詞データが格納されている。

歌詞用キーワード抽出部３２は、以下に説明するように、歌詞データＤＢ３０に格納されている歌詞データの各々から、歌詞用キーワードを抽出し、歌詞ごとのキーワードリストを作成して、各歌詞のキーワードリスト３４として保存する。

歌詞用キーワード抽出部３２は、具体的には、まず、歌詞データ中の歌詞それぞれについて、形態素解析を行う。

例えば、以下のような歌詞があるとする。

私はあなたに会いたい
今すぐにでも会いたいの
・・・

上記の歌詞は、図２に示すように形態素解析される。ここで、形態素解析器にはNTT(R)が開発したJTAGを用いている。

図２において各行が１単語を表しており、左から順に表層形、品詞、標準形、基本形、読み、意味属性を表している。意味属性は３つのフィールドからなっており、名詞に関する意味属性、固有名詞に関する意味属性、用言に関する意味属性である。意味属性とは意味を表す番号である。

上記の形態素解析結果から、「あなた」は意味属性として15と2651を持つことが分かる。意味属性の詳細は以下の非特許文献２に示されている。

非特許文献２：池原悟,宮崎正弘,白井諭,横尾昭男,中岩浩巳,小倉健太郎,大山芳史,林良彦(1997) 日本語語彙大系．岩波書店．

歌詞用キーワード抽出部３２は、次に、形態素解析の結果を利用して、所定の単語をキーワードとして抽出する。具体的には、品詞が名詞、動詞語幹、形容詞語幹のいずれかであり、かつ接尾辞ではない単語を抽出する。上記の形態素解析の結果では、図３に示す単語が抽出される。

ここで、品詞が動詞語幹、および、形容詞語幹である形態素からは基本形を抽出対象とする。また、品詞が名詞である形態素からは標準形を抽出対象とする。

上記の手続きの結果、対象となる歌詞に対して、以下のキーワードリストが作成される。

[私、あなた、会う、今、会う、・・・]

当該キーワード抽出処理を歌詞データ中の全ての歌詞に対して適用し、歌詞ごとにキーワードリストを作成し、各歌詞のキーワードリスト３４として保存する。

概要テキストデータＤＢ３６には、映像に付与された概要テキストが格納されている。概要テキストとは、映像の説明であったり、映像の台本であったり、映像中の会話の情報であったり、テキストで表されるものであれば何でもよい。本実施例では、映像の説明が書かれたテキストを概要テキストと呼ぶ。

概要テキスト用キーワード抽出部３８は、以下に説明するように、概要テキストデータＤＢ３６に格納されている概要テキストデータの各々から、概要テキスト用キーワードを抽出し、概要テキストごとにキーワードリストを作成して、各概要テキストのキーワードリスト４０として保存する。各概要テキストのキーワードリスト４０は、概要テキストにおいて説明されている映像中の状況を表すキーワードのリストである。

概要テキスト用キーワードには、具体的には以下に列挙する６種類のキーワードがある。

・人物キーワード：映像の人物を表す単語や表現
・場所キーワード：映像中の場所を表す単語や表現
・季節キーワード：映像中の季節を表す単語や表現
・イベントキーワード：映像中のイベントを表す単語や表現
・行動キーワード：映像中の行動や動作を表す単語や表現
・感情キーワード：映像中の感情を表す単語や表現

なお、アプリケーション依存で、これら以外のキーワードを定義してもよい。ここでは、映像を検索するのに重要と考えられるキーワードを定義している。

概要テキスト用キーワード抽出部３８では、これらのキーワードを抽出するために、日本語語彙大系（図示省略）、感情語抽出器（図示省略）、評価表現抽出器（図示省略）を用いる。

日本語語彙大系は、上記の状況のうち、人物キーワード、場所キーワード、季節キーワード、イベントキーワードを表す単語を抽出するために利用する。日本語語彙大系には、名詞の意味属性が階層的に整理されており、各意味属性には、上位の意味属性と、下位の意味属性がある。

例えば、「場所」の意味属性の上位には「具体」があり、下位には「施設」、「地域」、「自然」がある。この意味属性の階層情報を利用して、以下のように、各状況を表すと考えられるキーワードを列挙した。

・人物キーワード：「人」、「衣」、「衣料」、および、これらの下位の意味属性に対応する単語
・場所キーワード：「場所」、「建造物」、「乗り物」、「仕事場」、および、これらの下位の意味属性に対応する単語
・季節キーワード：「季節」、および、これらの下位の意味属性に対応する単語
・イベントキーワード：「式・行事等」、「生活」、および、これらの下位の意味属性に対応する単語

ここで、列挙されたキーワードにマッチした単語が概要テキストにあれば、それらは、人物、場所、季節、もしくは、イベントキーワードとして抽出される。

例えば、以下の概要テキストを考える。

夏になる
少年が公園に行く

上記の概要テキストに対し形態素解析を行った結果を図４に示す。先に述べたように、最後のカラムには意味属性が記述されている。

ここで、「夏」は、意味属性が2674（夏）であり、2672（季節）の下位属性であるため、季節キーワードとして抽出される。現状、単語が複数の意味属性を持つ場合は、先頭の意味属性を利用して抽出を行うが、すべてを用いても良い。

なお、単語を抽出する際は、単語の標準形（３列目）を抽出する。標準形を用いることで、表記の僅かな違いを吸収してキーワードを抽出することができる。

上記の概要テキストに対しては、以下の単語が抽出される。

人物キーワード「少年」
場所キーワード「公園」
季節キーワード「夏」
イベントキーワードなし

次に、感情語抽出器について説明する。感情語抽出器は、感情キーワードを抽出するために用いる。感情語抽出器としては、NTT(R)が開発したリッチインデクサという言語処理ツールを用いる。リッチインデクサには、予め決められた所定のキーワードリストを元に、感情に関わるキーワードを抽出する機能がある。この、リッチインデクサの機能を用いて、感情キーワードとして、例えば、楽しい、驚く、悲しい、幸せ、安心、心配といったキーワードを抽出する。

次に、評価表現抽出器について説明する。評価表現抽出器は、行動・感情キーワードを抽出するために用いる。行動にも様々あるが、ポジティブやネガティブといった極性に関わる行動を映像に関する重要な行動・感情と捉え、評価表現の中で、行動・感情に関するものを抽出する。評価表現とは、評価・感情に関わる言語表現を指す。ここでは、行動・感情に関する評価表現のリストを作成し、それらに合致するものを抽出することで、行動・感情キーワードとする。例えば、ほほえむ、ゆっくり、爽やか、切ない、慌てるといったキーワードを抽出する。

概要テキスト用キーワード抽出部３８では、上記の日本語語彙大系、感情語抽出器、及び評価表現抽出器を用いて、概要テキストデータＤＢ３６に格納されている全ての概要テキストデータに対して概要テキスト用キーワードの抽出を行い、概要テキストごとにキーワードのリストを作成し、各概要テキストのキーワードリストと４０して保存する。

歌詞用トピックモデル作成部４２は、歌詞データＤＢ３０に格納されている歌詞データの各々から歌詞用トピックモデル４４を作成する。

トピックモデルとは、文書が複数の潜在トピックから生成されると仮定したモデルであり、単語の表層だけではない、文書の背後にある構造を分析するためによく用いられるものである。トピックモデルについては、以下の非特許文献３が詳しい。

非特許文献３：トピックモデル,岩田具治(著),講談社,2015.

歌詞用トピックモデル作成部４２では、具体的には、Latent Dirichlet Allocation（LDA）というアルゴリズムを用いて、歌詞データからトピックモデルを作成する。これは、トピックモデルを作成するのに一般的なアルゴリズムである。トピックモデルの構築には、各文書（すなわち、歌詞データのそれぞれ）を単語集合で表す必要があるが、ここでは、形態素解析の結果得られるすべての単語を利用した。トピック数は300とした。トピックモデル作成のツールには、gensimと呼ばれるライブラリを用いた。LDAについては、フリーソフトも多いため、それらを用いてもよい。

歌詞用トピック抽出部４６は、歌詞データＤＢ３０に格納されている歌詞データの各々から、歌詞用トピックモデル４４に基づいて、歌詞用トピックを抽出し、各歌詞のトピックリスト４８を作成する。先に述べたように、トピックモデルでは、文書の背後に存在する潜在トピックを仮定し、それらが混ざりあって一つの文書が生成されていると考える。逆に言えば、一つの文書を、トピックモデルを用いて分析することで（これをinferenceという）、含まれている潜在トピックを調べることができる。ある文書に多く含まれている潜在トピックは、その文書の主要なトピックと考えられるので、それらを抽出する。

歌詞データについて、トピックを抽出する際には、歌詞用トピックモデル４４を利用する。歌詞用トピックモデルを用いた分析により、歌詞データ中のトピックリストを作成する。具体的には、各歌詞において、一定の割合以上含まれるトピックのみを抽出し、その歌詞のトピックリストとする。本発明の実施の形態ではこの閾値を0.1と定めた。例えば、ある歌詞のトピックの上位５個の含まれる度合い（確率値）が、図５に示すようになっていた場合、閾値が0.1以上のトピックを抽出することで、トピック85と122をこの歌詞のトピックリストとして抽出する。なお、85や122はトピックを表す番号である。

概要テキスト用トピックモデル作成部５０は、歌詞用トピックモデル作成部４２と同様の処理を、概要テキストデータＤＢ３６に格納されている概要テキストデータに対して行うことで、概要テキストデータについての概要テキスト用トピックモデル５２を作成する。本実施の形態では、トピック数は50とした。

概要テキスト用トピック抽出部５４は、概要テキストデータＤＢ３６に格納されている概要テキストデータの各々から、概要テキスト用トピックモデル５２に基づいて、概要テキスト用トピックを抽出し、各概要テキストのトピックリスト５６を作成する。閾値は、歌詞用トピック抽出部４６と同じとした。

歌詞・概要テキストペア正解データ５８は、楽曲の歌詞データと、当該楽曲の歌詞データに適した映像に付与された概要テキストデータとが正しく対応付いている正解データのペアの集合である。これらの対応付けは人手で行ったものである。

不正解データ作成部６０は、歌詞・概要テキストペア正解データ５８を用いて、楽曲の歌詞データと、当該楽曲の歌詞データに適していない映像に付与された概要テキストデータとが対応付いたペアの集合である歌詞・概要テキストペア不正解データ６２を作成する。

本実施の形態の目的は、歌詞に合った概要テキストを検索することで、その概要テキストに紐付いた映像を検索することである。すなわち、歌詞に対して、複数の概要テキストから対応付くものと対応付かないものを分類出来ればよい。

一般に、分類問題は教師あり学習で行われる。そのためには、正解データ（正例と呼ぶ）と不正解データ（負例と呼ぶ）の両方が必要である。

しかしながら、教師データとして、対応付けられた正例は持っているものの、負例を持っていなかったため、負例を自動生成することにした。具体的には、歌詞について、所定の概要テキストの集合からランダムに選択し、それを負例とした。ランダムに選ばれた概要テキストは対応付いていることは稀であると考えられるため、負例として利用することが可能である。このような手法は疑似負例の生成とも呼ばれ、機械学習において、よく用いられる手法である。

このように、不正解データ作成部６０は、不正解データとして、歌詞と概要テキスト（歌詞と対応付いているもの以外の概要テキスト）とをランダムに組み合わせたペアを作成する。なお、ランダムに選択する以外に、人手で対応付かないことが確認されている歌詞と概要テキストのペアを不正解データとして利用してもよい。

本実施の形態では、正例と負例の割合は１:１に設定した。この割合は、後段のランカ学習部６４の性能に応じて、変更してもよい。

歌詞・概要テキストペア正解データ５８のそれぞれについて不正解データを一つずつ作成し、学習データとした。学習データには、更に、歌詞データと当該歌詞に紐付く概要テキスト、及び歌詞データと当該歌詞データに紐付かない概要テキストが含まれている。

ランカ学習部６４は、正解データの歌詞データから抽出された歌詞用キーワード及び正解データの概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、不正解データの歌詞データから抽出された歌詞用キーワード及び不正解データの概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、正解データの歌詞データから抽出された歌詞用トピック及び正解データの概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、不正解データの歌詞データから抽出された歌詞用トピック及び不正解データの概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量とに基づいて、ランキングモデルを学習し、ランキングモデル記憶部６６に記憶する。上記において、正解データは歌詞・概要テキストペア正解データ５８に基づき、不正解データは歌詞・概要テキストペア不正解データ６２に基づく。

ランカ学習部６４においては、上記の学習用データから特徴量を抽出し、この特徴量を元に評価関数を学習することで、楽曲の歌詞データに適した映像のランキングが可能なランキングモデル（ランカ）を作成する。

特徴量の抽出には、学習データのそれぞれから得られる、各歌詞のキーワードリスト３４と各概要テキストのキーワードリスト４０、及び各歌詞のトピックリスト４８と各概要テキストのトピックリスト５６を用いる。特徴量としては、２種類あり、キーワードペア特徴量とトピックペア特徴量がある。それぞれの特徴量は、正解データは歌詞・概要テキストペア正解データ５８と、不正解データは歌詞・概要テキストペア不正解データ６２とのそれぞれの全ての組み合わせについて抽出する。

キーワードペア特徴量とは、歌詞用キーワード抽出部３２で作成した、歌詞データの各歌詞のキーワードリスト３４に含まれる単語と、概要テキスト用キーワード抽出部３８で作成した、概要テキストの各概要テキストのキーワードリスト４０に含まれる単語をもとに、そのすべての組み合わせを特徴量にしたものである。例えば、歌詞データと概要テキストとのキーワードリストのそれぞれが、以下のように構成されているとする。

歌詞のキーワードリスト:[君(4回),会う(3回) ,ドキドキ(1回) ,...]
概要テキストのキーワードリスト:[カジュアル(2回),二人(2回),楽しい(1回),...]

この場合に、上記の歌詞のキーワードリスト及び概要テキストのキーワードリストの組み合わせから、キーワードペア特徴量として、"君-カジュアル","君-二人","君-楽しい","会う-カジュアル","会う-二人","会う-楽しい","ドキドキ-カジュアル","ドキドキ-二人","ドキドキ-楽しい"といった特徴量を抽出する。このようにして、歌詞のキーワードリスト及び概要テキストのキーワードリストの全ての組み合わせについてキーワードペア特徴量を抽出する。

キーワードペア特徴量の値としては、当該キーワードペア特徴量を持つ組み合わせ、すなわち歌詞のキーワードリスト及び概要テキストのキーワードリストの組み合わせにおいて当該キーワードペア特徴量が出現したか否かを２値として利用する。なお、二値ではなく、特徴量の値として組み合わせにおける頻度情報を利用してもよい。

学習に使う素性は、学習データの全ての正例において、一定数以上出現する特徴量のみとしてもよい。そうすることで、特徴量の空間が小さくなり学習コストが低くなる。本発明の実施の形態では出現数の閾値を５に設定した。すなわち、学習データの組み合わせに５個以上含まれる特徴量が学習に使用される。

トピックペア特徴量は、歌詞用トピック抽出部４６で作成した、各歌詞のトピックリスト４８と、概要テキスト用トピック抽出部５４で作成した、各概要テキストのトピックリスト５６に含まれるトピックをもとに、キーワードペア特徴量と同様に、その組み合わせすべてを特徴量にしたものである。例えば、歌詞データと概要テキストとのトピックリストがそれぞれ以下のように構成されているとする。

歌詞のトピックリスト:[85,122]
概要テキストのトピックリスト:[33,2,27]

この場合に、特徴量として、"85-33","85-2","85-27","122-33","122-2","122-27"というトピックペア特徴量が抽出される。

ここでも、学習データの全ての正例において、一定数以上出現する特徴量のみを用いてもよいが、本発明の実施の形態では学習データの正例における全てのトピックペア特徴量を利用している。

このようにして、学習データにおける正例、負例のそれぞれについてキーワードペア特徴量及びトピックペア特徴量を抽出し、正例と負例を分類することのできる評価関数を機械学習によって学習する。これは単純な二値分類問題であるので、分類問題によく用いられるアルゴリズムを用いればよい。ここでは、ロジスティック回帰を利用する。ほかのアルゴリズムとして、サポートベクトルマシン（SVM）を用いてもよい。なお、二値分類問題のモデルは、一般に分類対象の事例について正例らしさ（もしくは負例らしさ）の信頼度を出力できるため、その数値を用いて、複数の分類対象をランキングすることができる。本発明の実施の形態でも、ロジスティック回帰で得られた分類モデルを用いてランキングを行う。なお、ランキングSVMのようにランキングに特化した機械学習のアルゴリズムを用いて学習を行ってもよい。その場合は、正例を負例よりも上位にランキングするように評価関数を学習すればよい。

ランキングモデル記憶部６６には、ランカ学習部６４で学習された、楽曲の歌詞データに適した映像を検索するためのランキングモデルが格納される。

＜本発明の実施の形態に係る映像検索装置の構成＞

次に、本発明の実施の形態に係る映像検索装置の構成について説明する。図６に示すように、本発明の実施の形態に係る映像検索装置２００は、ＣＰＵと、ＲＡＭと、後述する映像検索処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この映像検索装置２００は、機能的には図６に示すように入力部２１０と、演算部２２０と、出力部２７０とを備えている。

入力部２１０は、楽曲の歌詞データを受け付ける。歌詞の他に、歌手名、作曲者名、楽曲ジャンルなどの情報も受け付けてもよい。歌詞の情報は演算部２２０へと出力され、解析が行われる。

演算部２２０は、歌詞用キーワード抽出部２３２と、各概要テキストのキーワードリスト２４０と、歌詞用トピックモデル２４４と、歌詞用トピック抽出部２４６と、各概要テキストのトピックリスト２５６と、映像検索部２６４と、ランキングモデル記憶部２６６とを含んで構成されている。

歌詞用キーワード抽出部２３２は、入力部２１０で受け付けた楽曲の歌詞データから、歌詞用キーワードを抽出する。具体的な処理は、上記歌詞用キーワード抽出部３２と同様の処理を行えばよい。

各概要テキストのキーワードリスト２４０には、上記各概要テキストのキーワードリスト４０と同様のものが格納されている。

歌詞用トピックモデル２４４には、上記歌詞用トピックモデル４４と同様のものが格納されている。

歌詞用トピック抽出部２４６は、入力部２１０で受け付けた楽曲の歌詞データから、歌詞用トピックモデル２４４に基づいて、歌詞用トピックを抽出する。具体的な処理は、上記歌詞用トピック抽出部４６と同様の処理を行えばよい。

ランキングモデル記憶部２６６には、上記ランキングモデル記憶部６６と同様のものが格納されている。

映像検索部２６４は、映像の各々に対する、歌詞用キーワード抽出部２３２によって抽出された歌詞用キーワード及び、各概要のキーワードリスト２４０において映像に付与された概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、歌詞用トピック抽出部２４６によって抽出された歌詞用トピック、及び各概要テキストのトピックリスト２５６において映像に付与された概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、ランキングモデル記憶部２６６に格納されているランキングモデルとに基づいて、入力された楽曲の歌詞データに適した映像を検索する。

映像検索部２６４は、まず、歌詞用キーワード抽出部２３２で抽出した歌詞用キーワードのリストと、検索対象である概要テキストのキーワードリスト２４０とのペアを作り、前述のキーワードペア特徴量を抽出する。また、歌詞用トピック抽出部２４６で抽出した歌詞用トピックのリストと、検索対象である概要テキストのトピックリスト２５６とのペアを作り、前述のトピックペア特徴量を抽出する。そして、キーワードペア特徴量及びトピックペア特徴量のそれぞれの特徴量について、ランキングモデル記憶部２６６に格納されているランキングモデル（本発明の実施の形態においてはロジスティック回帰のモデル）を適用することで、正例らしさ（すなわち、対応付いているかどうか）のスコアを求める。このスコアに基づいて、概要テキストをランキングすることにより、最も対応付いていると考えられる概要テキストが取得でき、また、その結果概要テキストに紐付いている映像を出力することができる。

例えば、ある歌詞データについて、５つの映像に付与された概要テキストのランキングを行った結果を図７に示す。

図７の結果は、概要テキストの番号と出力されたスコア（ロジスティック回帰を用いているため正例らしさを表す確率値）を表しており、この値が高いものほど、歌詞とその概要テキストが対応付いていることを表している。この例では２番目の概要テキストが、0.909のスコアと高く、入力された歌詞データと最も対応付いていると判定されている。

出力部２７０は、映像検索部２６４が出力した概要テキストのランキング情報から、上位Ｎ個の概要テキストに紐付いた映像をＮ個出力する。Ｎはアプリケーションに応じて設定すればよい。本発明の実施の形態では、Ｎは５としているが、最も対応付いている映像のみを検索したい場合Ｎを１とすればよい。

＜本発明の実施の形態に係る学習装置の作用＞

次に、本発明の実施の形態に係る学習装置１００の作用について説明する。学習装置１００は、図８に示す学習処理ルーチンを実行する。

まず、ステップＳ１００では、歌詞データＤＢ３０に格納されている歌詞データの各々から、歌詞用キーワードを抽出し、歌詞ごとのキーワードリストを作成して、各歌詞のキーワードリスト３４として保存する。

次に、ステップＳ１０２では、概要テキストデータＤＢ３６に格納されている概要テキストデータの各々から、概要テキスト用キーワードを抽出し、概要テキストごとにキーワードリストを作成して、各概要テキストのキーワードリスト４０として保存する。

ステップＳ１０４では、歌詞データＤＢ３０に格納されている歌詞データの各々から歌詞用トピックモデル４４を作成する。

ステップＳ１０６では、歌詞データＤＢ３０に格納されている歌詞データの各々から、歌詞用トピックモデル４４に基づいて、歌詞用トピックを抽出し、各歌詞のトピックリスト４８を作成する。

ステップＳ１０８では、ステップＳ１０４と同様の処理を、概要テキストデータＤＢ３６に格納されている概要テキストデータに対して行う事で、概要テキストデータについての概要テキスト用トピックモデル５２を作成する。

ステップＳ１１０では、概要テキストデータＤＢ３６に格納されている概要テキストデータの各々から、概要テキスト用トピックモデル５２に基づいて、概要テキスト用トピックを抽出し、各概要テキストのトピックリスト５６を作成する。

ステップＳ１１２では、歌詞・概要テキストペア正解データ５８を用いて、楽曲の歌詞データと、当該楽曲の歌詞データに適していない映像に付与された概要テキストデータとが対応付いたペアの集合である歌詞・概要テキストペア不正解データ６２を作成する。

ステップＳ１１４では、正解データの歌詞データから抽出された歌詞用キーワード及び正解データの概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、不正解データの歌詞データから抽出された歌詞用キーワード及び不正解データの概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、正解データの歌詞データから抽出された歌詞用トピック及び正解データの概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、不正解データの歌詞データから抽出された歌詞用トピック及び不正解データの概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量とに基づいて、ランキングモデルを学習し、ランキングモデル記憶部６６に記憶し、処理を終了する。

以上説明したように、本発明の実施の形態に係る学習装置によれば、歌詞データの各々から、歌詞用キーワードを抽出し、概要テキストデータの各々から、概要テキスト用キーワードを抽出し、歌詞データの各々から、歌詞用トピックを抽出し、概要テキストデータの各々から、概要テキスト用トピックを抽出し、正解データの歌詞データから抽出された歌詞用キーワード及び正解データの概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、不正解データの歌詞データから抽出された歌詞用キーワード及び不正解データの概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、正解データの歌詞データから抽出された歌詞用トピック及び正解データの概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、不正解データの歌詞データから抽出された歌詞用トピック及び不正解データの概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量とに基づいて、ランキングモデルを学習することにより、楽曲の歌詞データに適した映像を精度よく検索するためのランキングモデルを学習することができる。

＜本発明の実施の形態に係る映像検索装置の作用＞

次に、本発明の実施の形態に係る映像検索装置２００の作用について説明する。入力部２１０において楽曲の歌詞データを受け付けると、映像検索装置２００は、図９に示す映像検索処理ルーチンを実行する。

まず、ステップＳ２００では、入力部２１０で受け付けた楽曲の歌詞データから、歌詞用キーワードを抽出する。

次に、ステップＳ２０２では、入力部２１０で受け付けた楽曲の歌詞データから、歌詞用トピックモデル２４４に基づいて、歌詞用トピックを抽出する。

ステップＳ２０４では、映像の各々に対する、歌詞用キーワード抽出部２３２によって抽出された歌詞用キーワード及び、各概要のキーワードリスト２４０において映像に付与された概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、歌詞用トピック抽出部２４６によって抽出された歌詞用トピック、及び各概要テキストのトピックリスト２５６において映像に付与された概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、ランキングモデル記憶部２６６に格納されているランキングモデルとに基づいて、入力された楽曲の歌詞データに適した、映像に付与された概要テキストを検索する。

ステップＳ２０６では、ステップＳ２０４で検索された概要テキストのランキング情報から、上位Ｎ個の概要テキストに紐付いた映像をＮ個出力して処理を終了する。

以上説明したように、本発明の実施の形態に係る映像検索装置によれば、入力された楽曲の歌詞データから、歌詞用キーワードを抽出し、入力された楽曲の歌詞データから、歌詞用トピックを抽出し、映像の各々に対する、抽出された歌詞用キーワード及び映像に付与された概要テキストデータから抽出される概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、抽出された歌詞用トピック及び映像に付与された概要テキストデータから抽出される概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、ランキングモデルとに基づいて、入力された楽曲の歌詞データに適した映像を検索することにより、楽曲の歌詞データに適した映像を精度よく検索することができる。

また、楽曲の歌詞といった長文かつ主観的な文章から、適切な映像が検索することができれば、楽曲に応じた映像を提供できるシステムに繋がり、楽曲の楽しみ方が広がる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施の形態では、学習装置１００は、歌詞データＤＢ３０と、歌詞用キーワード抽出部３２と、各歌詞のキーワードリスト３４と、概要テキストデータＤＢ３６と、概要テキスト用キーワード抽出部３８と、各概要テキストのキーワードリスト４０と、歌詞用トピックモデル作成部４２と、歌詞用トピックモデル４４と、歌詞用トピック抽出部４６と、各歌詞のトピックリスト４８と、概要テキスト用トピックモデル作成部５０と、概要テキスト用トピックモデル５２と、概要テキスト用トピック抽出部５４と、各概要テキストのトピックリスト５６と、歌詞・概要テキストペア正解データ５８と、不正解データ作成部６０と、歌詞・概要テキストペア不正解データ６２と、ランカ学習部６４と、ランキングモデル記憶部６６とを含んで構成され、キーワードペア特徴量と、トピックペア特徴量とに基づいてランキングモデルを学習していたが、これに限定されるものではない。例えば、学習装置１００を歌詞データＤＢ３０と、歌詞用キーワード抽出部３２と、各歌詞のキーワードリスト３４と、概要テキストデータＤＢ３６と、概要テキスト用キーワード抽出部３８と、各概要テキストのキーワードリスト４０と、歌詞・概要テキストペア正解データ５８と、不正解データ作成部６０と、歌詞・概要テキストペア不正解データ６２と、ランカ学習部６４と、ランキングモデル記憶部６６とを含んで構成し、キーワードペア特徴量に基づいてランキングモデルを学習するようにしてもよい。この場合には、映像検索装置２００について、演算部２２０は、歌詞用キーワード抽出部２３２と、各概要テキストのキーワードリスト２４０と、映像検索部２６４と、ランキングモデル記憶部２６６とを含んで構成し、キーワードペア特徴量と、ランキングモデルとに基づいて、入力された楽曲の歌詞データに適した映像を検索するようにしてもよい。

また、学習装置１００を、歌詞データＤＢ３０と、概要テキストデータＤＢ３６と、歌詞用トピックモデル作成部４２と、歌詞用トピックモデル４４と、歌詞用トピック抽出部４６と、各歌詞のトピックリスト４８と、概要テキスト用トピックモデル作成部５０と、概要テキスト用トピックモデル５２と、概要テキスト用トピック抽出部５４と、各概要テキストのトピックリスト５６と、歌詞・概要テキストペア正解データ５８と、不正解データ作成部６０と、歌詞・概要テキストペア不正解データ６２と、ランカ学習部６４と、ランキングモデル記憶部６６とを含んで構成し、トピックペア特徴量に基づいてランキングモデルを学習するようにしてもよい。この場合には、映像検索装置２００について、演算部２２０は、歌詞用トピックモデル２４４と、歌詞用トピック抽出部２４６と、各概要テキストのトピックリスト２５６と、映像検索部２６４と、ランキングモデル記憶部２６６とを含んで構成し、トピックペア特徴量と、ランキングモデルとに基づいて、入力された楽曲の歌詞データに適した映像を検索するようにしてもよい。

２０、２２０演算部
３２、２３２歌詞用キーワード抽出部
３４各歌詞のキーワードリスト
３８概要テキスト用キーワード抽出部
４０、２４０各概要テキストのキーワードリスト
４２歌詞用トピックモデル作成部
４４、２４４歌詞用トピックモデル
４６、２４６歌詞用トピック抽出部
４８各歌詞のトピックリスト
５０概要テキスト用トピックモデル作成部
５２概要テキスト用トピックモデル
５４概要テキスト用トピック抽出部
５６、２５６各概要テキストのトピックリスト
５８歌詞・概要テキストペア正解データ
６０不正解データ作成部
６２歌詞・概要テキストペア不正解データ
６４ランカ学習部
６６ランキングモデル記憶部
１００学習装置
２００映像検索装置
２１０入力部
２６４映像検索部
２６６ランキングモデル記憶部
２７０出力部

Claims

楽曲の歌詞データに適した映像を検索するためのランキングモデルを学習する学習装置であって、
楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データ、及び楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データに含まれる歌詞データの各々から、歌詞用キーワードを抽出する歌詞用キーワード抽出部と、
前記正解データ及び前記不正解データに含まれる概要テキストデータの各々から、概要テキスト用キーワードを抽出する概要テキスト用キーワード抽出部と、
前記正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量とに基づいて、前記ランキングモデルを学習するランカ学習部と、
を含む学習装置。
楽曲の歌詞データに適した映像を検索するためのランキングモデルを学習する学習装置であって、
楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データ、及び楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データに含まれる歌詞データの各々から、歌詞用トピックを抽出する歌詞用トピック抽出部と、
前記正解データ及び前記不正解データに含まれる概要テキストデータの各々から、概要テキスト用トピックを抽出する概要テキスト用トピック抽出部と、
前記正解データの前記歌詞データから抽出された歌詞用トピック及び前記正解データの前記概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、前記不正解データの前記歌詞データから抽出された歌詞用トピック及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量とに基づいて、前記ランキングモデルを学習するランカ学習部と、
を含む学習装置。
楽曲の歌詞データに適した映像を検索するためのランキングモデルを学習する学習装置であって、
楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データ、及び楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データに含まれる歌詞データの各々から、歌詞用キーワードを抽出する歌詞用キーワード抽出部と、
前記正解データ及び前記不正解データに含まれる概要テキストデータの各々から、概要テキスト用キーワードを抽出する概要テキスト用キーワード抽出部と、
前記正解データ及び前記不正解データに含まれる歌詞データの各々から、歌詞用トピックを抽出する歌詞用トピック抽出部と、
前記正解データ及び前記不正解データに含まれる概要テキストデータの各々から、概要テキスト用トピックを抽出する概要テキスト用トピック抽出部と、
前記正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記正解データの前記歌詞データから抽出された歌詞用トピック及び前記正解データの前記概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、前記不正解データの前記歌詞データから抽出された歌詞用トピック及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量とに基づいて、前記ランキングモデルを学習するランカ学習部と、
を含む学習装置。
楽曲の歌詞データに適した映像を検索する映像検索装置であって、
入力された楽曲の歌詞データから、歌詞用キーワードを抽出する歌詞用キーワード抽出部と、
楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量とに基づいて予め学習された、楽曲の歌詞データに適した映像を検索するためのランキングモデルを記憶するランキングモデル記憶部と、
前記映像の各々に対する、前記歌詞用キーワード抽出部によって抽出された歌詞用キーワード及び前記映像に付与された概要テキストデータから抽出される概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記ランキングモデルとに基づいて、入力された楽曲の歌詞データに適した映像を検索する映像検索部と、
を含む映像検索装置。
楽曲の歌詞データに適した映像を検索する映像検索装置であって、
入力された楽曲の歌詞データから、歌詞用トピックを抽出する歌詞用トピック抽出部と、
楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データの前記歌詞データから抽出された歌詞用トピック及び前記正解データの前記概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データの前記歌詞データから抽出された歌詞用トピック及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量とに基づいて予め学習された、楽曲の歌詞データに適した映像を検索するためのランキングモデルを記憶するランキングモデル記憶部と、
前記映像の各々に対する、前記歌詞用トピック抽出部によって抽出された歌詞用トピック及び前記映像に付与された概要テキストデータから抽出される概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、前記ランキングモデルとに基づいて、入力された楽曲の歌詞データに適した映像を検索する映像検索部と、
を含む映像検索装置。
楽曲の歌詞データに適した映像を検索する映像検索装置であって、
入力された楽曲の歌詞データから、歌詞用キーワードを抽出する歌詞用キーワード抽出部と、
前記入力された楽曲の歌詞データから、歌詞用トピックを抽出する歌詞用トピック抽出部と、
楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記正解データの前記歌詞データから抽出された歌詞用トピック及び前記正解データの前記概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、前記不正解データの前記歌詞データから抽出された歌詞用トピック及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量とに基づいて予め学習された、楽曲の歌詞データに適した映像を検索するためのランキングモデルを記憶するランキングモデル記憶部と、
前記映像の各々に対する、前記歌詞用キーワード抽出部によって抽出された歌詞用キーワード及び前記映像に付与された概要テキストデータから抽出される概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記歌詞用トピック抽出部によって抽出された歌詞用トピック及び前記映像に付与された概要テキストデータから抽出される概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、前記ランキングモデルとに基づいて、入力された楽曲の歌詞データに適した映像を検索する映像検索部と、
を含む映像検索装置。
前記概要テキスト用キーワードは、人物、場所、季節、又はイベントを表すキーワードである請求項１又は請求項３に記載の学習装置。
楽曲の歌詞データに適した映像を検索するためのランキングモデルを学習する学習装置における学習方法であって、
歌詞用キーワード抽出部が、楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データ、及び楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データに含まれる歌詞データの各々から、歌詞用キーワードを抽出するステップと、
概要テキスト用キーワード抽出部が、前記正解データ及び前記不正解データに含まれる概要テキストデータの各々から、概要テキスト用キーワードを抽出するステップと、
ランカ学習部が、前記正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量とに基づいて、前記ランキングモデルを学習するステップと、
を含む学習方法。
歌詞用キーワード抽出部と、楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量とに基づいて予め学習された、楽曲の歌詞データに適した映像を検索するためのランキングモデルを記憶するランキングモデル記憶部と、映像検索部とを備え、楽曲の歌詞データに適した映像を検索する映像検索装置における映像検索方法であって、
前記歌詞用キーワード抽出部が、入力された楽曲の歌詞データから、歌詞用キーワードを抽出するステップと、
前記映像検索部が、前記映像の各々に対する、前記歌詞用キーワード抽出部によって抽出された歌詞用キーワード及び前記映像に付与された概要テキストデータから抽出される概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記ランキングモデル記憶部に記憶されているランキングモデルとに基づいて、入力された楽曲の歌詞データに適した映像を検索するステップと、
を含む映像検索方法。
コンピュータを、請求項１〜請求項３、請求項７のいずれか１項に記載の学習装置、又は請求項４〜請求項６のいずれか１項に記載の映像検索装置の各部として機能させるためのプログラム。