JP6735711B2 - 学習装置、映像検索装置、方法、及びプログラム - Google Patents

学習装置、映像検索装置、方法、及びプログラム Download PDF

Info

Publication number
JP6735711B2
JP6735711B2 JP2017115218A JP2017115218A JP6735711B2 JP 6735711 B2 JP6735711 B2 JP 6735711B2 JP 2017115218 A JP2017115218 A JP 2017115218A JP 2017115218 A JP2017115218 A JP 2017115218A JP 6735711 B2 JP6735711 B2 JP 6735711B2
Authority
JP
Japan
Prior art keywords
lyrics
data
keyword
tag
song
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017115218A
Other languages
English (en)
Other versions
JP2019003270A (ja
Inventor
航 光田
航 光田
東中 竜一郎
竜一郎 東中
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017115218A priority Critical patent/JP6735711B2/ja
Publication of JP2019003270A publication Critical patent/JP2019003270A/ja
Application granted granted Critical
Publication of JP6735711B2 publication Critical patent/JP6735711B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、学習装置、映像検索装置、方法、及びプログラムに係り、特に、楽曲の歌詞データに適した映像を検索するための学習装置、映像検索装置、方法、及びプログラムに関する。
Web検索におけるイメージ検索など、テキストから映像を検索するニーズは高い。テキストから映像を検索することができれば、映像を目視で確認しながら検索する必要はなく、コストを低減できる。また、テキストに合った映像が取得できれば、テキストの内容を視覚的に補助することも可能である。
情報検索と言語処理(言語と計算),第2章 情報検索の基礎、第4章 言語処理技術の利用、徳永 健伸(著),東京大学出版会,1999
イメージ検索などでは、入力されるテキストはキーワードであることが多い。しかし、楽曲の歌詞といった長文かつ主観的な文章を入力として、該当する映像を検索する手法はこれまでに確立されていない。
本発明は、上記事情を鑑みて成されたものであり、楽曲の歌詞データに適した映像を精度よく検索するためのランキングモデルを学習することができる学習装置、方法、及びプログラムを提供することを目的とする。
また、楽曲の歌詞データに適した映像を精度よく検索することができる映像検索装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る映像検索装置は、概要テキストデータが付与された複数の映像から、楽曲に適した映像を検索する映像検索装置であって、入力された、楽曲の付加情報を表す1種類以上のタグが付与された楽曲の歌詞データから、歌詞用キーワードを抽出する歌詞用キーワード抽出部と、楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量とに基づいて予め学習された、楽曲の歌詞データに適した映像を検索するための歌詞に関するフィルタを記憶する歌詞フィルタ記憶部と、前記複数の映像の各々に対する、前記歌詞用キーワード抽出部によって抽出された歌詞用キーワード及び前記映像に付与された概要テキストデータから抽出される概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記歌詞に関するフィルタとに基づいて、前記入力された楽曲の歌詞データに対する前記映像の各々のスコアを算出する歌詞フィルタ適用部と、前記タグが付与された学習用の楽曲の各々と、前記複数の映像の各々との予め求められた対応付けに基づいて予め学習された、前記タグの種類毎の、前記タグの種類が表す付加情報と前記複数の映像の各々との結び付きの強さを測るための前記タグに関するフィルタを記憶するタグフィルタ記憶部と、前記タグの種類毎に、前記入力された楽曲の前記タグの前記付加情報と、前記タグに関するフィルタとに基づいて、前記入力された楽曲の前記タグの前記付加情報に対する前記映像の各々のスコアを算出するタグフィルタ適用部と、前記算出された前記入力された楽曲の歌詞データに対する前記映像の各々のスコアと、前記算出された前記入力された楽曲の前記タグの前記付加情報に対する前記映像の各々のスコアとに基づいて、前記入力された楽曲に適した映像を検索する映像検索部と、を含んで構成されている。
また、第1の発明に係る映像検索装置において、前記タグの種類は、前記楽曲のジャンル、及び前記楽曲のテンポを含み、前記タグフィルタ適用部は、前記入力された楽曲の前記ジャンルに関する前記付加情報に対する前記映像の各々のスコアと、前記入力された楽曲の前記テンポに関する前記付加情報に対する前記映像の各々のスコアとを算出し、前記映像検索部は、前記算出された前記入力された楽曲の歌詞データに対する前記映像の各々のスコアと、前記ジャンルに関する前記付加情報に対する前記映像の各々のスコアと、前記テンポに関する前記付加情報に対する前記映像の各々のスコアとに基づいて、映像を検索するようにしてもよい。
また、第2の発明に係る学習装置において、概要テキストデータが付与された複数の映像から、楽曲の歌詞データに適した映像を検索するためのフィルタを学習する学習装置であって、楽曲の付加情報を表す1種類以上のタグが付与された楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データ、及び楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データに含まれる歌詞データの各々から、歌詞用キーワードを抽出する歌詞用キーワード抽出部と、前記正解データ及び前記不正解データに含まれる概要テキストデータの各々から、概要テキスト用キーワードを抽出する概要テキスト用キーワード抽出部と、前記正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量とに基づいて、歌詞に関するフィルタを学習する歌詞フィルタ学習部と、前記タグが付与された学習用の楽曲の各々と、前記複数の映像の各々との予め求められた対応付けとに基づいて、前記タグの種類毎の、前記タグの種類が表す付加情報と前記複数の映像の各々との結び付きの強さを測るための前記タグに関するフィルタを学習するタグフィルタ学習部と、を含んで構成されている。
また、第2の発明に係る学習装置において、前記タグの種類は、前記楽曲のジャンル、及び前記楽曲のテンポを含み、前記タグフィルタ学習部は、前記ジャンル、及び前記テンポの各々のタグに関するフィルタを学習するようにしてもよい。
第3の発明に係る映像検索方法は、概要テキストデータが付与された複数の映像から、楽曲に適した映像を検索する映像検索装置における映像検索方法であって、歌詞用キーワード抽出部が、入力された、楽曲の付加情報を表す1種類以上のタグが付与された楽曲の歌詞データから、歌詞用キーワードを抽出するステップと、歌詞フィルタ適用部が、前記複数の映像の各々に対する、前記歌詞用キーワード抽出部によって抽出された歌詞用キーワード及び前記映像に付与された概要テキストデータから抽出される概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、歌詞フィルタ記憶部に記憶された、楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量とに基づいて予め学習された、楽曲の歌詞データに適した映像を検索するための歌詞に関するフィルタとに基づいて、前記入力された楽曲の歌詞データに対する前記映像の各々のスコアを算出するステップと、タグフィルタ適用部が、前記タグの種類毎に、前記入力された楽曲の前記タグの前記付加情報と、タグフィルタ記憶部に記憶された、前記タグが付与された学習用の楽曲の各々と、前記複数の映像の各々との予め求められた対応付けに基づいて予め学習された、前記タグの種類毎の、前記タグの種類が表す付加情報と前記複数の映像の各々との結び付きの強さを測るための前記タグに関するフィルタとに基づいて、前記入力された楽曲の前記タグの前記付加情報に対する前記映像の各々のスコアを算出するステップと、映像検索部が、前記算出された前記入力された楽曲の歌詞データに対する前記映像の各々のスコアと、前記算出された前記入力された楽曲の前記タグの前記付加情報に対する前記映像の各々のスコアとに基づいて、前記入力された楽曲に適した映像を検索するステップと、を含んで実行することを特徴とする。
第4の発明に係る学習方法は、概要テキストデータが付与された複数の映像から、楽曲の歌詞データに適した映像を検索するためのフィルタを学習する学習装置における学習方法であって、歌詞用キーワード抽出部が、楽曲の付加情報を表す1種類以上のタグが付与された楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データ、及び楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データに含まれる歌詞データの各々から、歌詞用キーワードを抽出するステップと、概要テキスト用キーワード抽出部が、前記正解データ及び前記不正解データに含まれる概要テキストデータの各々から、概要テキスト用キーワードを抽出するステップと、歌詞フィルタ学習部が、前記正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量とに基づいて、歌詞に関するフィルタを学習するステップと、タグフィルタ学習部が、前記タグが付与された学習用の楽曲の各々と、前記複数の映像の各々との予め求められた対応付けとに基づいて、前記タグの種類毎の、前記タグの種類が表す付加情報と前記複数の映像の各々との結び付きの強さを測るための前記タグに関するフィルタを学習するステップと、を含んで実行することを特徴とする。
第5の発明に係るプログラムは、コンピュータを、第1の発明に係る映像検索装置の各部として機能させるためのプログラムである。
第6の発明に係るプログラムは、コンピュータを、第2の発明に係る学習装置の各部として機能させるためのプログラムである。
本発明の映像検索装置、方法、及びプログラムによれば、入力されたタグが付与された楽曲の歌詞データから、歌詞用キーワードを抽出し、入力された楽曲の歌詞データから、歌詞用トピックを抽出し、映像の各々に対する、抽出された歌詞用キーワード及び映像に付与された概要テキストデータから抽出される概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、抽出された歌詞用トピック及び映像に付与された概要テキストデータから抽出される概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、歌詞に関するフィルタとに基づいて、入力された楽曲の歌詞データに対する映像の各々のスコアを算出し、楽曲のタグの付加情報と、タグに関するフィルタとに基づいて、タグの付加情報に対する映像の各々のスコアを算出し、歌詞データに対する映像の各々のスコアと、タグの付加情報に対する映像の各々のスコアとに基づいて、楽曲に適した映像を検索することにより、楽曲に適した映像を精度よく検索することができる。
本発明の学習装置、方法、及びプログラムによれば、正解データの歌詞データから抽出された歌詞用キーワード及び正解データの概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、不正解データの歌詞データから抽出された歌詞用キーワード及び不正解データの概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、正解データの歌詞データから抽出された歌詞用トピック及び正解データの概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、不正解データの歌詞データから抽出された歌詞用トピック及び不正解データの概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量とに基づいて、歌詞フィルタを学習し、タグが付与された学習用の楽曲の各々と、複数の映像の各々との予め求められた対応付けに基づいて、タグが表す付加情報と複数の映像の各々との結び付きの強さを測るためのタグに関するフィルタを学習することにより、楽曲に適した映像を精度よく検索するためのフィルタを学習することができる、という効果が得られる。
本発明の実施の形態に係る学習装置の構成を示すブロック図である。 歌詞データの形態素解析の結果の一例を示す図である。 単語抽出の結果の一例を示す図である。 概要テキストの形態素解析の結果の一例を示す図である。 ある歌詞のトピックの上位5個の確率値の一例を示す図である。 ジャンルの付加情報が付与された各楽曲ID、各映像IDの対応付けの一例を示す図である。 テンポの付加情報が付与された各楽曲ID、各映像IDの対応付けの一例を示す図である。 ジャンルと映像の結び付きの強さを表すジャンルフィルタの一例を示す図である。 テンポと映像の結び付きの強さを表すジャンルフィルタの一例を示す図である。 本発明の実施の形態に係る映像検索装置の構成を示すブロック図である。 歌詞データの一例を示す図である。 映像の概要テキストの一例を示す図である。 ランキングした上位5件の映像、及び映像のスコアの一例を示す図である。 本発明の実施の形態に係る学習装置における学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る映像検索装置における映像検索処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
本発明の実施の形態における楽曲映像検索は、学習処理と、検索処理とからなる。学習処理では、学習装置において、検索処理を行うために必要となるフィルタが作成される。検索処理では、映像検索装置において、学習処理で作成されたフィルタを元に、楽曲の歌詞データに対して映像の検索を行う。
<本発明の実施の形態に係る学習装置の構成>
次に、本発明の実施の形態に係る学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係る学習装置100は、CPUと、RAMと、後述する学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この学習装置100は、機能的には図1に示すように演算部20を備えている。
演算部20は、歌詞データDB30と、歌詞用キーワード抽出部32と、各歌詞のキーワードリスト34と、概要テキストデータDB36と、概要テキスト用キーワード抽出部38と、各概要テキストのキーワードリスト40と、歌詞用トピックモデル作成部42と、歌詞用トピックモデル44と、歌詞用トピック抽出部46と、各歌詞のトピックリスト48と、概要テキスト用トピックモデル作成部50と、概要テキスト用トピックモデル52と、概要テキスト用トピック抽出部54と、各概要テキストのトピックリスト56と、歌詞・概要テキストペア正解データ58と、不正解データ作成部60と、歌詞・概要テキストペア不正解データ62と、歌詞フィルタ学習部64と、歌詞フィルタ記憶部66と、タグ付き楽曲映像ペアデータ記憶部70と、ジャンルフィルタ学習部72と、テンポフィルタ学習部74と、タグフィルタ記憶部76とを含んで構成されている。ジャンルフィルタ学習部72、及びテンポフィルタ学習部74がタグフィルタ学習部の一例である。
歌詞データDB30には、複数の楽曲の歌詞データが格納されている。
歌詞用キーワード抽出部32は、以下に説明するように、歌詞データDB30に格納されている歌詞データの各々から、歌詞用キーワードを抽出し、歌詞ごとのキーワードリストを作成して、各歌詞のキーワードリスト34として保存する。
歌詞用キーワード抽出部32は、具体的には、まず、歌詞データ中の歌詞それぞれについて、形態素解析を行う。
例えば、以下のような歌詞があるとする。
私はあなたに会いたい
今すぐにでも会いたいの
・・・
上記の歌詞は、図2に示すように形態素解析される。ここで、形態素解析器にはNTT(R)が開発したJTAGを用いている。
図2において各行が1単語を表しており、左から順に表層形、品詞、標準形、基本形、読み、意味属性を表している。意味属性は3つのフィールドからなっており、名詞に関する意味属性、固有名詞に関する意味属性、用言に関する意味属性である。意味属性とは意味を表す番号である。
上記の形態素解析結果から、「あなた」は意味属性として15と2651を持つことが分かる。意味属性の詳細は以下の非特許文献2に示されている。
非特許文献2:池原悟,宮崎正弘,白井諭,横尾昭男,中岩浩巳,小倉健太郎,大山芳史,林良彦(1997) 日本語語彙大系.岩波書店.
歌詞用キーワード抽出部32は、次に、形態素解析の結果を利用して、所定の単語をキーワードとして抽出する。具体的には、品詞が名詞、動詞語幹、形容詞語幹のいずれかであり、かつ接尾辞ではない単語を抽出する。上記の形態素解析の結果では、図3に示す単語が抽出される。
ここで、品詞が動詞語幹、および、形容詞語幹である形態素からは基本形を抽出対象とする。また、品詞が名詞である形態素からは標準形を抽出対象とする。
上記の手続きの結果、対象となる歌詞に対して、以下のキーワードリストが作成される。
[私、あなた、会う、今、会う、・・・]
当該キーワード抽出処理を歌詞データ中の全ての歌詞に対して適用し、歌詞ごとにキーワードリストを作成し、各歌詞のキーワードリスト34として保存する。
概要テキストデータDB36には、映像に付与された概要テキストが格納されている。概要テキストとは、映像の説明であったり、映像の台本であったり、映像中の会話の情報であったり、テキストで表されるものであれば何でもよい。本実施例では、映像の説明が書かれたテキストを概要テキストと呼ぶ。
概要テキスト用キーワード抽出部38は、以下に説明するように、概要テキストデータDB36に格納されている概要テキストデータの各々から、概要テキスト用キーワードを抽出し、概要テキストごとにキーワードリストを作成して、各概要テキストのキーワードリスト40として保存する。各概要テキストのキーワードリスト40は、概要テキストにおいて説明されている映像中の状況を表すキーワードのリストである。
概要テキスト用キーワードには、具体的には以下に列挙する6種類のキーワードがある。
・人物キーワード:映像中の人物を表す単語や表現
・場所キーワード:映像中の場所を表す単語や表現
・季節キーワード:映像中の季節を表す単語や表現
・イベントキーワード:映像中のイベントを表す単語や表現
・行動キーワード:映像中の行動や動作を表す単語や表現
・感情キーワード:映像中の感情を表す単語や表現
なお、アプリケーション依存で、これら以外のキーワードを定義してもよい。ここでは、映像を検索するのに重要と考えられるキーワードを定義している。
概要テキスト用キーワード抽出部38では、これらのキーワードを抽出するために、日本語語彙大系(図示省略)、感情語抽出器(図示省略)、評価表現抽出器(図示省略)を用いる。
日本語語彙大系は、上記の状況のうち、人物キーワード、場所キーワード、季節キーワード、イベントキーワードを表す単語を抽出するために利用する。日本語語彙大系には、名詞の意味属性が階層的に整理されており、各意味属性には、上位の意味属性と、下位の意味属性がある。
例えば、「場所」の意味属性の上位には「具体」があり、下位には「施設」、「地域」、「自然」がある。この意味属性の階層情報を利用して、以下のように、各状況を表すと考えられるキーワードを列挙した。
・人物キーワード:「人」、「衣」、「衣料」、および、これらの下位の意味属性に対応する単語
・場所キーワード:「場所」、「建造物」、「乗り物」、「仕事場」、および、これらの下位の意味属性に対応する単語
・季節キーワード:「季節」、および、これらの下位の意味属性に対応する単語
・イベントキーワード:「式・行事等」、「生活」、および、これらの下位の意味属性に対応する単語
ここで、列挙されたキーワードにマッチした単語が概要テキストにあれば、それらは、人物、場所、季節、もしくは、イベントキーワードとして抽出される。
例えば、以下の概要テキストを考える。
夏になる
少年が公園に行く
上記の概要テキストに対し形態素解析を行った結果を図4に示す。先に述べたように、最後のカラムには意味属性が記述されている。
ここで、「夏」は、意味属性が2674(夏)であり、2672(季節)の下位属性であるため、季節キーワードとして抽出される。現状、単語が複数の意味属性を持つ場合は、先頭の意味属性を利用して抽出を行うが、すべてを用いても良い。
なお、単語を抽出する際は、単語の標準形(3列目)を抽出する。標準形を用いることで、表記の僅かな違いを吸収してキーワードを抽出することができる。
上記の概要テキストに対しては、以下の単語が抽出される。
人物キーワード「少年」
場所キーワード「公園」
季節キーワード「夏」
イベントキーワードなし
次に、感情語抽出器について説明する。感情語抽出器は、感情キーワードを抽出するために用いる。感情語抽出器としては、NTT(R)が開発したリッチインデクサという言語処理ツールを用いる。リッチインデクサには、予め決められた所定のキーワードリストを元に、感情に関わるキーワードを抽出する機能がある。この、リッチインデクサの機能を用いて、感情キーワードとして、例えば、楽しい、驚く、悲しい、幸せ、安心、心配といったキーワードを抽出する。
次に、評価表現抽出器について説明する。評価表現抽出器は、行動・感情キーワードを抽出するために用いる。行動にも様々あるが、ポジティブやネガティブといった極性に関わる行動を映像に関する重要な行動・感情と捉え、評価表現の中で、行動・感情に関するものを抽出する。評価表現とは、評価・感情に関わる言語表現を指す。ここでは、行動・感情に関する評価表現のリストを作成し、それらに合致するものを抽出することで、行動・感情キーワードとする。例えば、ほほえむ、ゆっくり、爽やか、切ない、慌てるといったキーワードを抽出する。
概要テキスト用キーワード抽出部38では、上記の日本語語彙大系、感情語抽出器、及び評価表現抽出器を用いて、概要テキストデータDB36に格納されている全ての概要テキストデータに対して概要テキスト用キーワードの抽出を行い、概要テキストごとにキーワードのリストを作成し、各概要テキストのキーワードリストと40して保存する。
歌詞用トピックモデル作成部42は、歌詞データDB30に格納されている歌詞データの各々から歌詞用トピックモデル44を作成する。
トピックモデルとは、文書が複数の潜在トピックから生成されると仮定したモデルであり、単語の表層だけではない、文書の背後にある構造を分析するためによく用いられるものである。トピックモデルについては、以下の非特許文献3が詳しい。
非特許文献3:トピックモデル,岩田具治(著),講談社,2015.
歌詞用トピックモデル作成部42では、具体的には、Latent Dirichlet Allocation(LDA)というアルゴリズムを用いて、歌詞データからトピックモデルを作成する。これは、トピックモデルを作成するのに一般的なアルゴリズムである。トピックモデルの構築には、各文書(すなわち、歌詞データのそれぞれ)を単語集合で表す必要があるが、ここでは、形態素解析の結果得られるすべての単語を利用した。トピック数は300とした。トピックモデル作成のツールには、gensimと呼ばれるライブラリを用いた。LDAについては、フリーソフトも多いため、それらを用いてもよい。
歌詞用トピック抽出部46は、歌詞データDB30に格納されている歌詞データの各々から、歌詞用トピックモデル44に基づいて、歌詞用トピックを抽出し、各歌詞のトピックリスト48を作成する。先に述べたように、トピックモデルでは、文書の背後に存在する潜在トピックを仮定し、それらが混ざりあって一つの文書が生成されていると考える。逆に言えば、一つの文書を、トピックモデルを用いて分析することで(これをinferenceという)、含まれている潜在トピックを調べることができる。ある文書に多く含まれている潜在トピックは、その文書の主要なトピックと考えられるので、それらを抽出する。
歌詞データについて、トピックを抽出する際には、歌詞用トピックモデル44を利用する。歌詞用トピックモデルを用いた分析により、歌詞データ中のトピックリストを作成する。具体的には、各歌詞において、一定の割合以上含まれるトピックのみを抽出し、その歌詞のトピックリストとする。本発明の実施の形態ではこの閾値を0.1と定めた。例えば、ある歌詞のトピックの上位5個の含まれる度合い(確率値)が、図5に示すようになっていた場合、閾値が0.1以上のトピックを抽出することで、トピック85と122をこの歌詞のトピックリストとして抽出する。なお、85や122はトピックを表す番号である。
概要テキスト用トピックモデル作成部50は、歌詞用トピックモデル作成部42と同様の処理を、概要テキストデータDB36に格納されている概要テキストデータに対して行うことで、概要テキストデータについての概要テキスト用トピックモデル52を作成する。本実施の形態では、トピック数は50とした。
概要テキスト用トピック抽出部54は、概要テキストデータDB36に格納されている概要テキストデータの各々から、概要テキスト用トピックモデル52に基づいて、概要テキスト用トピックを抽出し、各概要テキストのトピックリスト56を作成する。閾値は、歌詞用トピック抽出部46と同じとした。
歌詞・概要テキストペア正解データ58は、楽曲の歌詞データと、当該楽曲の歌詞データに適した映像に付与された概要テキストデータとが正しく対応付いている正解データのペアの集合である。これらの対応付けは人手で行ったものである。
不正解データ作成部60は、歌詞・概要テキストペア正解データ58を用いて、楽曲の歌詞データと、当該楽曲の歌詞データに適していない映像に付与された概要テキストデータとが対応付いたペアの集合である歌詞・概要テキストペア不正解データ62を作成する。
本実施の形態の目的は、歌詞に合った概要テキストを検索することで、その概要テキストに紐付いた映像を検索することである。すなわち、歌詞に対して、複数の概要テキストから対応付くものと対応付かないものを分類出来ればよい。
一般に、分類問題は教師あり学習で行われる。そのためには、正解データ(正例と呼ぶ)と不正解データ(負例と呼ぶ)の両方が必要である。
しかしながら、教師データとして、対応付けられた正例は持っているものの、負例を持っていなかったため、負例を自動生成することにした。具体的には、歌詞について、所定の概要テキストの集合からランダムに選択し、それを負例とした。ランダムに選ばれた概要テキストは対応付いていることは稀であると考えられるため、負例として利用することが可能である。このような手法は疑似負例の生成とも呼ばれ、機械学習において、よく用いられる手法である。
このように、不正解データ作成部60は、不正解データとして、歌詞と概要テキスト(歌詞と対応付いているもの以外の概要テキスト)とをランダムに組み合わせたペアを作成する。なお、ランダムに選択する以外に、人手で対応付かないことが確認されている歌詞と概要テキストのペアを不正解データとして利用してもよい。
本実施の形態では、正例と負例の割合は1:1に設定した。この割合は、後段の歌詞フィルタ学習部64の性能に応じて、変更してもよい。
歌詞・概要テキストペア正解データ58のそれぞれについて不正解データを一つずつ作成し、学習データとした。学習データには、更に、歌詞データと当該歌詞に紐付く概要テキスト、及び歌詞データと当該歌詞データに紐付かない概要テキストが含まれている。
歌詞フィルタ学習部64は、正解データの歌詞データから抽出された歌詞用キーワード及び正解データの概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、不正解データの歌詞データから抽出された歌詞用キーワード及び不正解データの概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、正解データの歌詞データから抽出された歌詞用トピック及び正解データの概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、不正解データの歌詞データから抽出された歌詞用トピック及び不正解データの概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量とに基づいて、歌詞に関する歌詞フィルタを学習し、歌詞フィルタ記憶部66に記憶する。上記において、正解データは歌詞・概要テキストペア正解データ58に基づき、不正解データは歌詞・概要テキストペア不正解データ62に基づく。
歌詞フィルタ学習部64においては、上記の学習用データから特徴量を抽出し、この特徴量を元に評価関数を学習することで、楽曲の歌詞データに適した映像のランキングが可能なランキングモデル(ランカ)を歌詞フィルタとして作成する。
特徴量の抽出には、学習データのそれぞれから得られる、各歌詞のキーワードリスト34と各概要テキストのキーワードリスト40、及び各歌詞のトピックリスト48と各概要テキストのトピックリスト56を用いる。特徴量としては、2種類あり、キーワードペア特徴量とトピックペア特徴量がある。それぞれの特徴量は、正解データは歌詞・概要テキストペア正解データ58と、不正解データは歌詞・概要テキストペア不正解データ62とのそれぞれの全ての組み合わせについて抽出する。
キーワードペア特徴量とは、歌詞用キーワード抽出部32で作成した、歌詞データの各歌詞のキーワードリスト34に含まれる単語と、概要テキスト用キーワード抽出部38で作成した、概要テキストの各概要テキストのキーワードリスト40に含まれる単語をもとに、そのすべての組み合わせを特徴量にしたものである。例えば、歌詞データと概要テキストとのキーワードリストのそれぞれが、以下のように構成されているとする。
歌詞のキーワードリスト:[君(4回),会う(3回) ,ドキドキ(1回) ,...]
概要テキストのキーワードリスト:[カジュアル(2回),二人(2回),楽しい(1回),...]
この場合に、上記の歌詞のキーワードリスト及び概要テキストのキーワードリストの組み合わせから、キーワードペア特徴量として、"君-カジュアル","君-二人","君-楽しい","会う-カジュアル","会う-二人","会う-楽しい","ドキドキ-カジュアル","ドキドキ-二人","ドキドキ-楽しい"といった特徴量を抽出する。このようにして、歌詞のキーワードリスト及び概要テキストのキーワードリストの全ての組み合わせについてキーワードペア特徴量を抽出する。
キーワードペア特徴量の値としては、当該キーワードペア特徴量を持つ組み合わせ、すなわち歌詞のキーワードリスト及び概要テキストのキーワードリストの組み合わせにおいて当該キーワードペア特徴量が出現したか否かを2値として利用する。なお、二値ではなく、特徴量の値として組み合わせにおける頻度情報を利用してもよい。
学習に使う素性は、学習データの全ての正例において、一定数以上出現する特徴量のみとしてもよい。そうすることで、特徴量の空間が小さくなり学習コストが低くなる。本発明の実施の形態では出現数の閾値を5に設定した。すなわち、学習データの組み合わせに5個以上含まれる特徴量が学習に使用される。
トピックペア特徴量は、歌詞用トピック抽出部46で作成した、各歌詞のトピックリスト48と、概要テキスト用トピック抽出部54で作成した、各概要テキストのトピックリスト56に含まれるトピックをもとに、キーワードペア特徴量と同様に、その組み合わせすべてを特徴量にしたものである。例えば、歌詞データと概要テキストとのトピックリストがそれぞれ以下のように構成されているとする。
歌詞のトピックリスト:[85,122]
概要テキストのトピックリスト:[33,2,27]
この場合に、特徴量として、"85-33","85-2","85-27","122-33","122-2","122-27"というトピックペア特徴量が抽出される。
ここでも、学習データの全ての正例において、一定数以上出現する特徴量のみを用いてもよいが、本発明の実施の形態では学習データの正例における全てのトピックペア特徴量を利用している。
このようにして、学習データにおける正例、負例のそれぞれについてキーワードペア特徴量及びトピックペア特徴量を抽出し、正例と負例を分類することのできる評価関数を機械学習によって学習する。これは単純な二値分類問題であるので、分類問題によく用いられるアルゴリズムを用いればよい。ここでは、ロジスティック回帰を利用する。ほかのアルゴリズムとして、サポートベクトルマシン(SVM)を用いてもよい。なお、二値分類問題のモデルは、一般に分類対象の事例について正例らしさ(もしくは負例らしさ)の信頼度を出力できるため、その数値を用いて、複数の分類対象をランキングすることができる。本発明の実施の形態でも、ロジスティック回帰で得られた分類モデルを用いてランキングを行う。なお、ランキングSVMのようにランキングに特化した機械学習のアルゴリズムを用いて学習を行ってもよい。その場合は、正例を負例よりも上位にランキングするように評価関数を学習すればよい。
歌詞フィルタ記憶部66には、歌詞フィルタ学習部64で学習された、楽曲の歌詞データに適した映像を検索するための歌詞フィルタが格納される。
タグ付き楽曲映像ペアデータ記憶部70は、楽曲の付加情報を表すタグが付与された学習用の楽曲の各々と、複数の映像の各々との対応付けが格納されている。対応付けは、例えば、タグの付与された各楽曲IDに対して、各楽曲のどの映像が対応付けられているのかを表す映像IDが対応したデータである。タグは、ジャンル、及びテンポとする。例えば、1000曲の楽曲(SONG0001〜SONG1000)に対して、100種類の映像(MOVIE001〜MOVIE100)のいずれかが対応付いたデータが存在するとする。
ジャンルのタグについては、図6に示すように、ジャンルの付加情報(JPOP、洋楽、及び演歌のいずれか)が付与された各楽曲IDに対して、映像IDが対応付けられており、各楽曲にどの映像が対応付けられているのかを表す。SONG0002のように、1つの楽曲に複数の映像が対応付けられていてもよい。また、SONG0004のように、1つの楽曲に複数のジャンルを表すラベルが付与されていてもよい。
テンポのタグについては、図7に示すように、テンポの付加情報(SLOW、MID、及びFASTのいずれか)が付与された各楽曲IDに対して、映像IDが対応付けられており、各楽曲にどの映像が対応付けられているのかを表す。SONG0002のように、1つの楽曲に複数の映像が対応付けられていてもよい。また、SONG0004のように、1つの楽曲に複数のテンポを表すラベルが付与されていてもよい。
ジャンルフィルタ学習部72は、タグ付き楽曲映像ペアデータ記憶部70に記憶されているジャンルのタグが付与された学習用の楽曲の各々と、複数の映像の各々との予め求められた対応付けに基づいて、ジャンルのタグの、タグが表す付加情報と複数の映像の各々との結び付きの強さを測るためのジャンルに関するジャンルフィルタを学習する。
ジャンルフィルタ学習部72は、具体的には、図8に示すような、映像IDに対して、ジャンルのJPOP、洋楽、及び演歌の各数値が、そのジャンルと映像の結び付きの強さ(0〜1)を表わし、1に近いほど結び付きが強いことを表すデータをジャンルフィルタとして学習し、ジャンルフィルタを、タグフィルタ記憶部76に記憶する。
ジャンルフィルタにおける結び付きの強さを表すスコアの計算方法について説明する。
計算手法として、本実施の形態ではフィッシャーの正確確率検定を利用する。検定を用いて、特定のジャンルの楽曲のみに多く出現する映像を求める。検定については、非特許文献4を参照する。なお、カイ二乗検定を利用してもよい。
非特許文献4:生命情報処理における機械学習多重検定と推定量設計,瀬々潤,講談社
まず、各ジャンルで、概要テキストごとに下記のようなクロス集計と呼ばれる表を作成する。
次に、表1の中の数値A,B,C,Dを利用して、フィッシャーの正確確率検定を行うことで、JPOPの楽曲においてMOVIE-001が有意に多く出現しているかを判定することができる。
フィッシャーの正確確率検定で求まったp値を利用して、JPOPとMOVIE001との結び付きの強さを表すスコアを以下のように計算する。JPOPの楽曲におけるMOVIE001の期待出現回数とAの値を比較し、Aの方が大きく、かつp値が閾値未満であれば、スコアを1−p値とする。それ以外であれば、スコア0をとする。
期待出現回数は以下の(1)式で求めることができる。本実施の形態では、閾値は0.001とした。ただし、閾値は、どの程度ジャンルとの結び付きの強さを考慮するかによって、適切な閾値を設定することが望ましい。

・・・(1)
テンポフィルタ学習部74は、タグ付き楽曲映像ペアデータ記憶部70に記憶されているテンポのタグが付与された学習用の楽曲の各々と、複数の映像の各々との予め求められた対応付けに基づいて、テンポのタグの、タグが表す付加情報と複数の映像の各々との結び付きの強さを測るためのテンポに関するテンポフィルタを学習する。
テンポフィルタ学習部74では、ジャンルフィルタ学習部72と同様に、タグ付き楽曲映像ペアデータ記憶部70に記憶されているテンポに関する対応付けに基づいて、テンポごとに映像との結び付きの強さを表すスコア計算する。まず、各テンポで、概要テキストごとにクロス集計を作成する。次に、フィッシャーの正確確率検定を行う。最後に、各テンポで、計算されたp値と設定した閾値を用いて、映像の各々のスコアを計算する。
テンポフィルタ学習部74は、図9に示すような、映像IDに対して、テンポのSLOW、MID、及びFASTの各数値が、そのジャンルと映像の結び付きの強さ(0〜1)を表わし、1に近いほど結び付きが強いことを表すデータをテンポフィルタとして学習し、テンポフィルタを、タグフィルタ記憶部76に記憶する。
タグフィルタ記憶部76には、ジャンルフィルタ学習部72で学習されたジャンルフィルタ、及びテンポフィルタ学習部74で学習されたテンポフィルタが格納される。
<本発明の実施の形態に係る映像検索装置の構成>
次に、本発明の実施の形態に係る映像検索装置の構成について説明する。図10に示すように、本発明の実施の形態に係る映像検索装置200は、CPUと、RAMと、後述する映像検索処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この映像検索装置200は、機能的には図10に示すように入力部210と、演算部220と、出力部290とを備えている。
入力部210は、楽曲の付加情報を表すジャンル及びテンポのタグが付与された楽曲の歌詞データを受け付ける。例えば、ジャンルがJPOP、テンポがMID、図11に示すようなテキストが歌詞データであるような楽曲の情報を受け付ける。他のジャンルとしては、例えば、歌手名、作曲者名などの情報も受け付けてもよい。歌詞の情報は演算部220へと出力され、解析が行われる。
演算部220は、歌詞用キーワード抽出部232と、各概要テキストのキーワードリスト240と、歌詞用トピックモデル244と、歌詞用トピック抽出部246と、各概要テキストのトピックリスト256と、歌詞フィルタ適用部264と、歌詞フィルタ記憶部266と、ジャンルフィルタ適用部272と、テンポフィルタ適用部274と、タグフィルタ記憶部276と、映像検索部278とを含んで構成されている。なお、ジャンルフィルタ適用部272、及びテンポフィルタ適用部274が、タグフィルタ適用部の一例である。
歌詞用キーワード抽出部232は、入力部210で受け付けた楽曲の歌詞データから、歌詞用キーワードを抽出する。具体的な処理は、上記歌詞用キーワード抽出部32と同様の処理を行えばよい。
各概要テキストのキーワードリスト240には、上記各概要テキストのキーワードリスト40と同様のものが格納されている。
歌詞用トピックモデル244には、上記歌詞用トピックモデル44と同様のものが格納されている。
歌詞用トピック抽出部246は、入力部210で受け付けた楽曲の歌詞データから、歌詞用トピックモデル244に基づいて、歌詞用トピックを抽出する。具体的な処理は、上記歌詞用トピック抽出部46と同様の処理を行えばよい。
歌詞フィルタ記憶部266には、上記歌詞フィルタ記憶部66と同様のものが格納されている。
タグフィルタ記憶部276には、上記タグフィルタ記憶部76と同様のものが格納されている。
歌詞フィルタ適用部264は、複数の映像の各々に対する、歌詞用キーワード抽出部232によって抽出された歌詞用キーワード、及び各概要のキーワードリスト240において映像に付与された概要テキストデータから抽出される概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、歌詞用トピック抽出部246によって抽出された歌詞用トピック、及び各概要テキストのトピックリスト256において映像に付与された概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、歌詞フィルタ記憶部266に格納されている歌詞フィルタとに基づいて、入力された楽曲の歌詞データに対する映像の各々のスコアを算出し、ランキングする。
歌詞フィルタ適用部264は、まず、歌詞用キーワード抽出部232で抽出した歌詞用キーワードのリストと、検索対象である概要テキストのキーワードリスト240とのペアを作り、前述のキーワードペア特徴量を抽出する。また、歌詞用トピック抽出部246で抽出した歌詞用トピックのリストと、検索対象である概要テキストのトピックリスト256とのペアを作り、前述のトピックペア特徴量を抽出する。そして、キーワードペア特徴量及びトピックペア特徴量のそれぞれの特徴量について、歌詞フィルタ記憶部266に格納されているランキングモデル(本発明の実施の形態においてはロジスティック回帰のモデル)を適用することで、正例らしさ(すなわち、対応付いているかどうか)のスコアを求める。各映像の概要テキストのスコアを0〜1で表し、スコアは1に近いほど、適切な映像であることを表す。このスコアに基づいて、概要テキストをランキングすることができる。ランキングにより、最も対応付いていると考えられる概要テキストが取得でき、また、その結果概要テキストに紐付いている映像を出力することができる。例えば、入力された歌詞に対して、最も高いスコアの映像の概要テキストの例を図12に示す。
ジャンルフィルタ適用部272は、入力された楽曲のジャンルの付加情報について、入力された楽曲のタグの付加情報と、タグフィルタ記憶部276に格納されているジャンルのタグに関するジャンルフィルタとに基づいて、入力された楽曲のジャンルの付加情報の各々に対する映像の各々のスコアを算出し、ランキングする。
ランキングの作成には、タグフィルタ記憶部276に記憶されているジャンルフィルタを利用する。入力されたジャンルにおける各映像のスコアを元に、昇順に映像を並び換えることで、ランキングを作成する。映像のランキングを0〜1のスコア付きで、ランキングとして出力する。スコアは1に近いほど、適切な映像であることを表す。
テンポフィルタ適用部274は、入力された楽曲のテンポの付加情報について、入力された楽曲のタグの付加情報と、タグフィルタ記憶部276に格納されているテンポのタグに関するテンポフィルタとに基づいて、入力された楽曲のテンポの付加情報の各々に対する映像の各々のスコアを算出し、ランキングする。
楽曲のテンポを入力として受け取り、映像のランキングを0〜1のスコア付きで、ランキングとして出力する。1に近いほど、適切な映像であることを表す。
ランキングの作成には、タグフィルタ記憶部276に記憶されているテンポフィルタを利用する。入力された填補における各映像のスコアを元に、昇順に映像を並び換えることで、ランキングを作成する。
映像検索部278は、歌詞フィルタ適用部264で算出された入力された楽曲の歌詞データに対する映像の各々のスコアと、ジャンルフィルタ適用部272で算出された入力された楽曲のジャンルのタグに対する映像の各々のスコアと、テンポフィルタ適用部274で算出された入力された楽曲のテンポのタグに対する映像の各々のスコアとに基づいて、各映像の最終的なスコアを算出してランキングし、入力された楽曲に適した映像を検索する。
各映像の最終的なスコア(Score)は、以下の(2)式で計算される。

・・・(2)
LyricsScoreは歌詞フィルタ適用部が出力した映像のスコアを表し、GenreScoreはジャンルフィルタ適用部272が出力した映像のスコアを表し、TempoScoreはテンポフィルタ適用部274が出力した映像のスコアを表す。a,b,cは各フィルタが出力したスコアの重みを表す係数である。
係数が大きい程、そのフィルタのスコアが最終的なスコアに反映される。例えば、aを1.0,bを0.5,cを0と定めると、歌詞フィルタの影響を大きくし、テンポフィルタの影響をなくすことができる。利用したい状況に応じて、適切な値を調整しつつ設定することが望ましい。映像検索部278は計算された最終的な各映像のスコアを昇順に並べることで、ランキングを作成する。例えば、歌詞データが上記図11のテキストであり、ジャンルがJPOPである楽曲が入力された場合、入力に適した映像として、図13に示す上位5件の映像、及び映像のスコアを出力する。最も上位のMOVIE083の映像には上記図12で示した概要テキストが付与されている。
<本発明の実施の形態に係る学習装置の作用>
次に、本発明の実施の形態に係る学習装置100の作用について説明する。学習装置100は、図14に示す学習処理ルーチンを実行する。
まず、ステップS100では、歌詞データDB30に格納されている歌詞データの各々から、歌詞用キーワードを抽出し、歌詞ごとのキーワードリストを作成して、各歌詞のキーワードリスト34として保存する。
次に、ステップS102では、概要テキストデータDB36に格納されている概要テキストデータの各々から、概要テキスト用キーワードを抽出し、概要テキストごとにキーワードリストを作成して、各概要テキストのキーワードリスト40として保存する。
ステップS104では、歌詞データDB30に格納されている歌詞データの各々から歌詞用トピックモデル44を作成する。
ステップS106では、歌詞データDB30に格納されている歌詞データの各々から、歌詞用トピックモデル44に基づいて、歌詞用トピックを抽出し、各歌詞のトピックリスト48を作成する。
ステップS108では、ステップS104と同様の処理を、概要テキストデータDB36に格納されている概要テキストデータに対して行う事で、概要テキストデータについての概要テキスト用トピックモデル52を作成する。
ステップS110では、概要テキストデータDB36に格納されている概要テキストデータの各々から、概要テキスト用トピックモデル52に基づいて、概要テキスト用トピックを抽出し、各概要テキストのトピックリスト56を作成する。
ステップS112では、歌詞・概要テキストペア正解データ58を用いて、楽曲の歌詞データと、当該楽曲の歌詞データに適していない映像に付与された概要テキストデータとが対応付いたペアの集合である歌詞・概要テキストペア不正解データ62を作成する。
ステップS114では、正解データの歌詞データから抽出された歌詞用キーワード及び正解データの概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、不正解データの歌詞データから抽出された歌詞用キーワード及び不正解データの概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、正解データの歌詞データから抽出された歌詞用トピック及び正解データの概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、不正解データの歌詞データから抽出された歌詞用トピック及び不正解データの概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量とに基づいて、歌詞に関する歌詞フィルタを学習し、歌詞フィルタ記憶部66に記憶する。
ステップS116では、タグ付き楽曲映像ペアデータ記憶部70に記憶されているジャンルのタグが付与された学習用の楽曲の各々と、複数の映像の各々との予め求められた対応付けに基づいて、ジャンルのタグの、タグが表す付加情報と複数の映像の各々との結び付きの強さを測るためのジャンルに関するジャンルフィルタを学習し、タグフィルタ記憶部76に記憶する。
ステップS118では、タグ付き楽曲映像ペアデータ記憶部70に記憶されているテンポのタグが付与された学習用の楽曲の各々と、複数の映像の各々との予め求められた対応付けに基づいて、テンポのタグの、タグが表す付加情報と複数の映像の各々との結び付きの強さを測るためのテンポに関するテンポフィルタを学習し、タグフィルタ記憶部76に記憶して処理を終了する。
以上説明したように、本発明の実施の形態に係る学習装置によれば、正解データの歌詞データから抽出された歌詞用キーワード及び正解データの概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、不正解データの歌詞データから抽出された歌詞用キーワード及び不正解データの概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、正解データの歌詞データから抽出された歌詞用トピック及び正解データの概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、不正解データの歌詞データから抽出された歌詞用トピック及び不正解データの概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量とに基づいて、歌詞フィルタを学習し、タグが付与された学習用の楽曲の各々と、複数の映像の各々との予め求められた対応付けに基づいて、タグが表す付加情報と複数の映像の各々との結び付きの強さを測るためのタグに関するフィルタを学習することにより、楽曲に適した映像を精度よく検索するためのフィルタを学習することができる。
<本発明の実施の形態に係る映像検索装置の作用>
次に、本発明の実施の形態に係る映像検索装置200の作用について説明する。入力部210において楽曲の歌詞データを受け付けると、映像検索装置200は、図9に示す映像検索処理ルーチンを実行する。
まず、ステップS200では、入力部210で受け付けた楽曲の歌詞データから、歌詞用キーワードを抽出する。
次に、ステップS202では、入力部210で受け付けた楽曲の歌詞データから、歌詞用トピックモデル244に基づいて、歌詞用トピックを抽出する。
ステップS204では、複数の映像の各々に対する、歌詞用キーワード抽出部232によって抽出された歌詞用キーワード、及び各概要のキーワードリスト240において映像に付与された概要テキストデータから抽出される概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、歌詞用トピック抽出部246によって抽出された歌詞用トピック、及び各概要テキストのトピックリスト256において映像に付与された概要テキストデータから抽出された概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、歌詞フィルタ記憶部266に格納されている歌詞フィルタとに基づいて、入力された楽曲の歌詞データに対する映像の各々のスコアを算出し、ランキングする。
ステップS206では、入力された楽曲のジャンルの付加情報について、入力された楽曲のタグの付加情報と、タグフィルタ記憶部276に格納されているジャンルのタグに関するジャンルフィルタとに基づいて、入力された楽曲のジャンルの付加情報の各々に対する映像の各々のスコアを算出し、ランキングする。
ステップS208では、入力された楽曲のテンポの付加情報について、入力された楽曲のタグの付加情報と、タグフィルタ記憶部276に格納されているテンポのタグに関するテンポフィルタとに基づいて、入力された楽曲のテンポの付加情報の各々に対する映像の各々のスコアを算出し、ランキングする。
ステップS210では、歌詞フィルタ適用部264で算出された入力された楽曲の歌詞データに対する映像の各々のスコアと、ジャンルフィルタ適用部272で算出された入力された楽曲のジャンルのタグに対する映像の各々のスコアと、テンポフィルタ適用部274で算出された入力された楽曲のテンポのタグに対する映像の各々のスコアとに基づいて、各映像の最終的なスコアを算出してランキングし、上位N個の映像ID及びスコアを出力して処理を終了する。
以上説明したように、本発明の実施の形態に係る映像検索装置によれば、入力されたタグが付与された楽曲の歌詞データから、歌詞用キーワードを抽出し、入力された楽曲の歌詞データから、歌詞用トピックを抽出し、映像の各々に対する、抽出された歌詞用キーワード及び映像に付与された概要テキストデータから抽出される概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、抽出された歌詞用トピック及び映像に付与された概要テキストデータから抽出される概要テキスト用トピックの組み合わせを表すトピックペア特徴量と、歌詞に関するフィルタとに基づいて、入力された楽曲の歌詞データに対する映像の各々のスコアを算出し、楽曲のタグの付加情報と、タグに関するフィルタとに基づいて、タグの付加情報に対する映像の各々のスコアを算出し、歌詞データに対する映像の各々のスコアと、タグの付加情報に対する映像の各々のスコアとに基づいて、楽曲に適した映像を検索することにより、楽曲に適した映像を精度よく検索することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
20、220 演算部
32、232 歌詞用キーワード抽出部
34 各歌詞のキーワードリスト
38 概要テキスト用キーワード抽出部
40、240 各概要テキストのキーワードリスト
42 歌詞用トピックモデル作成部
44、244 歌詞用トピックモデル
46、246 歌詞用トピック抽出部
48 各歌詞のトピックリスト
50 概要テキスト用トピックモデル作成部
52 概要テキスト用トピックモデル
54 概要テキスト用トピック抽出部
56、256 各概要テキストのトピックリスト
58 歌詞・概要テキストペア正解データ
60 不正解データ作成部
62 歌詞・概要テキストペア不正解データ
64 歌詞フィルタ学習部
66 歌詞フィルタ記憶部
70 タグ付き楽曲映像ペアデータ記憶部
72 ジャンルフィルタ学習部
74 テンポフィルタ学習部
76 タグフィルタ記憶部
100 学習装置
200 映像検索装置
210 入力部
264 歌詞フィルタ適用部
266 歌詞フィルタ記憶部
272 ジャンルフィルタ適用部
274 テンポフィルタ適用部
276 タグフィルタ記憶部
278 映像検索部
290 出力部

Claims (8)

  1. 概要テキストデータが付与された複数の映像から、楽曲に適した映像を検索する映像検索装置であって、
    入力された、楽曲の付加情報を表す1種類以上のタグが付与された楽曲の歌詞データから、歌詞用キーワードを抽出する歌詞用キーワード抽出部と、
    楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量とに基づいて予め学習された、楽曲の歌詞データに適した映像を検索するための歌詞に関するフィルタを記憶する歌詞フィルタ記憶部と、
    前記複数の映像の各々に対する、前記歌詞用キーワード抽出部によって抽出された歌詞用キーワード及び前記映像に付与された概要テキストデータから抽出される概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記歌詞に関するフィルタとに基づいて、前記入力された楽曲の歌詞データに対する前記映像の各々のスコアを算出する歌詞フィルタ適用部と、
    前記タグが付与された学習用の楽曲の各々と、前記複数の映像の各々との予め求められた対応付けに基づいて予め学習された、前記タグの種類毎の、前記タグの種類が表す付加情報と前記複数の映像の各々との結び付きの強さを測るための前記タグに関するフィルタを記憶するタグフィルタ記憶部と、
    前記タグの種類毎に、前記入力された楽曲の前記タグの前記付加情報と、前記タグに関するフィルタとに基づいて、前記入力された楽曲の前記タグの前記付加情報に対する前記映像の各々のスコアを算出するタグフィルタ適用部と、
    前記算出された前記入力された楽曲の歌詞データに対する前記映像の各々のスコアと、前記算出された前記入力された楽曲の前記タグの前記付加情報に対する前記映像の各々のスコアとに基づいて、前記入力された楽曲に適した映像を検索する映像検索部と、
    を含む映像検索装置。
  2. 前記タグの種類は、前記楽曲のジャンル、及び前記楽曲のテンポを含み、
    前記タグフィルタ適用部は、前記入力された楽曲の前記ジャンルに関する前記付加情報に対する前記映像の各々のスコアと、前記入力された楽曲の前記テンポに関する前記付加情報に対する前記映像の各々のスコアとを算出し、
    前記映像検索部は、前記算出された前記入力された楽曲の歌詞データに対する前記映像の各々のスコアと、前記ジャンルに関する前記付加情報に対する前記映像の各々のスコアと、前記テンポに関する前記付加情報に対する前記映像の各々のスコアとに基づいて、映像を検索する請求項1に記載の映像検索装置。
  3. 概要テキストデータが付与された複数の映像から、楽曲の歌詞データに適した映像を検索するためのフィルタを学習する学習装置であって、
    楽曲の付加情報を表す1種類以上のタグが付与された楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データ、及び楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データに含まれる歌詞データの各々から、歌詞用キーワードを抽出する歌詞用キーワード抽出部と、
    前記正解データ及び前記不正解データに含まれる概要テキストデータの各々から、概要テキスト用キーワードを抽出する概要テキスト用キーワード抽出部と、
    前記正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量とに基づいて、歌詞に関するフィルタを学習する歌詞フィルタ学習部と、
    前記タグが付与された学習用の楽曲の各々と、前記複数の映像の各々との予め求められた対応付けとに基づいて、前記タグの種類毎の、前記タグの種類が表す付加情報と前記複数の映像の各々との結び付きの強さを測るための前記タグに関するフィルタを学習するタグフィルタ学習部と、
    を含む学習装置。
  4. 前記タグの種類は、前記楽曲のジャンル、及び前記楽曲のテンポを含み、
    前記タグフィルタ学習部は、前記ジャンル、及び前記テンポの各々のタグに関するフィルタを学習する請求項3に記載の学習装置。
  5. 概要テキストデータが付与された複数の映像から、楽曲に適した映像を検索する映像検索装置における映像検索方法であって、
    歌詞用キーワード抽出部が、入力された、楽曲の付加情報を表す1種類以上のタグが付与された楽曲の歌詞データから、歌詞用キーワードを抽出するステップと、
    歌詞フィルタ適用部が、前記複数の映像の各々に対する、前記歌詞用キーワード抽出部によって抽出された歌詞用キーワード及び前記映像に付与された概要テキストデータから抽出される概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、歌詞フィルタ記憶部に記憶された、楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量とに基づいて予め学習された、楽曲の歌詞データに適した映像を検索するための歌詞に関するフィルタとに基づいて、前記入力された楽曲の歌詞データに対する前記映像の各々のスコアを算出するステップと、
    タグフィルタ適用部が、前記タグの種類毎に、前記入力された楽曲の前記タグの前記付加情報と、タグフィルタ記憶部に記憶された、前記タグが付与された学習用の楽曲の各々と、前記複数の映像の各々との予め求められた対応付けに基づいて予め学習された、前記タグの種類毎の、前記タグの種類が表す付加情報と前記複数の映像の各々との結び付きの強さを測るための前記タグに関するフィルタとに基づいて、前記入力された楽曲の前記タグの前記付加情報に対する前記映像の各々のスコアを算出するステップと、
    映像検索部が、前記算出された前記入力された楽曲の歌詞データに対する前記映像の各々のスコアと、前記算出された前記入力された楽曲の前記タグの前記付加情報に対する前記映像の各々のスコアとに基づいて、前記入力された楽曲に適した映像を検索するステップと、
    を含む映像検索方法。
  6. 概要テキストデータが付与された複数の映像から、楽曲の歌詞データに適した映像を検索するためのフィルタを学習する学習装置における学習方法であって、
    歌詞用キーワード抽出部が、楽曲の付加情報を表す1種類以上のタグが付与された楽曲の歌詞データと、前記楽曲の歌詞データに適した映像に付与された概要テキストデータとのペアである正解データ、及び楽曲の歌詞データと、前記楽曲の歌詞データに適していない映像に付与された概要テキストデータとのペアである不正解データに含まれる歌詞データの各々から、歌詞用キーワードを抽出するステップと、
    概要テキスト用キーワード抽出部が、前記正解データ及び前記不正解データに含まれる概要テキストデータの各々から、概要テキスト用キーワードを抽出するステップと、
    歌詞フィルタ学習部が、前記正解データの前記歌詞データから抽出された歌詞用キーワード及び前記正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量と、前記不正解データの前記歌詞データから抽出された歌詞用キーワード及び前記不正解データの前記概要テキストデータから抽出された概要テキスト用キーワードの組み合わせを表すキーワードペア特徴量とに基づいて、歌詞に関するフィルタを学習するステップと、
    タグフィルタ学習部が、前記タグが付与された学習用の楽曲の各々と、前記複数の映像の各々との予め求められた対応付けとに基づいて、前記タグの種類毎の、前記タグの種類が表す付加情報と前記複数の映像の各々との結び付きの強さを測るための前記タグに関するフィルタを学習するステップと、
    を含む学習方法。
  7. コンピュータを、請求項1又は請求項2に記載の映像検索装置の各部として機能させるためのプログラム。
  8. コンピュータを、請求項3又は請求項4に記載の学習装置の各部として機能させるためのプログラム。
JP2017115218A 2017-06-12 2017-06-12 学習装置、映像検索装置、方法、及びプログラム Active JP6735711B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017115218A JP6735711B2 (ja) 2017-06-12 2017-06-12 学習装置、映像検索装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017115218A JP6735711B2 (ja) 2017-06-12 2017-06-12 学習装置、映像検索装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019003270A JP2019003270A (ja) 2019-01-10
JP6735711B2 true JP6735711B2 (ja) 2020-08-05

Family

ID=65007854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017115218A Active JP6735711B2 (ja) 2017-06-12 2017-06-12 学習装置、映像検索装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6735711B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977318B (zh) * 2019-04-04 2021-06-29 掌阅科技股份有限公司 书籍搜索方法、电子设备及计算机存储介质
JP7190479B2 (ja) * 2020-12-28 2022-12-15 楽天グループ株式会社 学習装置、機械学習モデル及び学習方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09288681A (ja) * 1996-04-23 1997-11-04 Toshiba Corp 背景映像検索表示装置および背景映像検索方法
JP5559750B2 (ja) * 2011-07-12 2014-07-23 ヤフー株式会社 広告処理装置、情報処理システム及び広告処理方法
JP5431532B2 (ja) * 2012-06-08 2014-03-05 日本電信電話株式会社 質問応答装置、モデル学習装置、方法、及びプログラム
JP6159989B2 (ja) * 2013-06-26 2017-07-12 Kddi株式会社 シナリオ生成システム、シナリオ生成方法およびシナリオ生成プログラム
JP6446987B2 (ja) * 2014-10-16 2019-01-09 日本電気株式会社 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム

Also Published As

Publication number Publication date
JP2019003270A (ja) 2019-01-10

Similar Documents

Publication Publication Date Title
US10936824B2 (en) Detecting literary elements in literature and their importance through semantic analysis and literary correlation
Wilson et al. Recognizing contextual polarity: An exploration of features for phrase-level sentiment analysis
Bonet-Jover et al. Exploiting discourse structure of traditional digital media to enhance automatic fake news detection
KR20120054986A (ko) 디지털 콘텐츠 검색 장치 및 방법
Kallipolitis et al. Semantic search in the World News domain using automatically extracted metadata files
Gupta et al. A novel hybrid text summarization system for Punjabi text
Razavi et al. Dream sentiment analysis using second order soft co-occurrences (SOSCO) and time course representations
Nguyen et al. Statistical approach for figurative sentiment analysis on social networking services: a case study on twitter
Fathy et al. A hybrid model for emotion detection from text
Renjit et al. CUSAT NLP@ AILA-FIRE2019: Similarity in Legal Texts using Document Level Embeddings.
Fell et al. Song lyrics summarization inspired by audio thumbnailing
JP6735711B2 (ja) 学習装置、映像検索装置、方法、及びプログラム
Jha et al. Hsas: Hindi subjectivity analysis system
Wattiheluw et al. Developing word sense disambiguation corpuses using Word2vec and Wu Palmer for disambiguation
Patel et al. An automatic text summarization: A systematic review
JP6553557B2 (ja) 学習装置、映像検索装置、方法、及びプログラム
Alorini et al. Machine learning enabled sentiment index estimation using social media big data
Malandrakis et al. Affective language model adaptation via corpus selection
Abdulllah et al. Emotions Classification for Arabic Tweets.
Akkineni et al. Hybrid Method for Framing Abstractive Summaries of Tweets.
Yu et al. Extracting and Clustering of Story Events from a Story Corpus.
Kumar et al. Summarization using corpus training and machine learning
Chiha et al. Supervised machine learning approach for subjectivity/objectivity classification of social data
Gajendrasinh et al. Sentiment analysis for Feature extraction using dependency tree and named entities
Girault Concept lattice mining for unsupervised named entity annotation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190827

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200626

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200714

R150 Certificate of patent or registration of utility model

Ref document number: 6735711

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150