JP2016081265A

JP2016081265A - 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム

Info

Publication number: JP2016081265A
Application number: JP2014211413A
Authority: JP
Inventors: 祐一森谷; Yuichi Moriya; 善雄石澤; Yoshio Ishizawa; 康高山本; Yasutaka Yamamoto; 綾子星野; Ayako Hoshino
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-10-16
Filing date: 2014-10-16
Publication date: 2016-05-16
Anticipated expiration: 2034-10-16
Also published as: JP6446987B2

Abstract

【課題】テキストと映像とのマッチングを行う負荷を軽減することができる映像選択装置などを提供する。
【解決手段】本発明の一態様に係る映像選択システムは、映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、を備える。
【選択図】図１８

Description

本発明は、コンピュータなどを用いて映像を選択する情報処理技術に関する。

音声と共に映像を再生する際、再生される音声の内容と映像の内容とがかけ離れていれば、その音声及び映像を視聴する視聴者は違和感を覚える。しかし、人手で音声の内容に関係がある映像を選択することは、非常に繁雑な作業である。再生される音声として、例えば、ナレーション、朗読、アナウンス、及び楽曲の歌詞などがある。

楽曲に合わせて画像を表示する技術の例が、特許文献１によって開示されている。特許文献１によって開示されているスライドショー作成サーバは、楽曲の行ごとの歌詞と、行ごとに表示される一連の画像と、歌詞を利用して推定された全体印象語とを含む、元スライドショーのデータを、複数の元スライドショーについて記憶する。スライドショー作成サーバは、ユーザによって指定された複数の画像から画像特徴量を抽出する。スライドショー作成サーバは、抽出した画像特徴量を用いて画像データにタグを付与する。スライドショー作成サーバは、指定された画像全てについて、付与されているタグを使用して、全体印象ラベルを付与する。スライドショー作成サーバは、付与した全体印象ラベルに適合する元スライドショーを選択する。スライドショー作成サーバは、選択された元スライドショーの画像データを、ユーザによって指定された画像で置き換えることによって、新しいスライドショーを作成する。

特許文献２には、複数の種別のうち、必ずしも同一でないいずれかの１つ以上の種別に分類される、複数のコンテンツの類似度を示す距離を算出するコンテンツ検索装置が記載されている。そのコンテンツ検索装置は、導出可能なコンテンツの特徴（画像特徴、音響特徴、及び意味特徴のいずれか１つ以上）の特徴量を導出する。そのコンテンツ検索装置は、あらかじめ計算された異なる特徴間の相関に基づいて、導出した特徴量を使用して、そのコンテンツの未知の特徴の特徴量を推定する。そのコンテンツ検索装置は、例えば、画像コンテンツ及びそのメタデータから導出した画像特徴量及び意味特徴量に基づいて、その画像コンテンツの音響特徴量を推定する。そのコンテンツ検索装置は、導出及び推定した全ての特徴量に基づいて、類似度を算出する。

特許文献３には、楽曲をカテゴリに分類する楽曲分類装置が記載されている。その楽曲分類装置は、楽曲の歌詞データに基づいて、楽曲をカテゴリ名によって特定される分類先に分類するカテゴリ分類器を、学習によって生成する。その楽曲分類装置は、カテゴリに分類された楽曲を、クラスタリングによってサブカテゴリに分類する。

特開２０１４−１１５７２９号公報国際公開第２０１０／０５３１６０号特開２０１３−２１４３２６号公報

再生される音声の内容は、テキストによって表すことができる。

特許文献１のスライドショー作成サーバは、あらかじめ作成されている元スライドショーの画像データを、ユーザによって指定された画像で置き換えることによって、新しいスライドショーを作成する。従って、そのスライドショー作成サーバは、例えば楽曲が表すテキストにマッチした映像を選択することはできない。

また、元スライドショーは、楽曲と、その楽曲の歌詞が表すテキストにマッチしない画像データとによって作成されていてもよい。その場合、そのスライドショー作成サーバが作成する新しいスライドショーは、楽曲と、その楽曲の歌詞が表すテキストにマッチしない画像データとによって構成される。すなわち、そのスライドショー作成サーバは、楽曲と、その楽曲が表すテキストにマッチする画像データとによって構成されるスライドショーを作成するとは限らない。

特許文献２のコンテンツ検索装置は、計算又は推定された特徴量に基づいてコンテンツ間の距離を計算することによって、コンテンツ間の類似度を推定する。そのコンテンツ検索装置が、例えば指定されたテキストからの距離が小さいコンテンツを検索する場合、必ずしも映像が得られるとは限らない。また、コンテンツ間の距離は音響特徴量にも依存するので、互いにマッチするテキスト及び映像の意味特徴量及び顔像特徴量が近い場合であっても、計算又は推定された音響特徴量の差が大きければ、そのテキスト及び映像の間の距離は小さくならない。従って、そのコンテンツ検索装置は、テキストにマッチした映像を選択することはできない。

特許文献３の技術は、楽曲を分類する技術である。従って、特許文献３の技術によって、テキストにマッチした映像を選択することはできない。

本発明の目的は、テキストと映像とのマッチングを行う負荷を軽減することができる映像選択装置などを提供することにある。

本発明の一態様に係る映像選択システムは、映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、を備える。

本発明の一態様に係る特徴量生成装置は、それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納する素性抽出手段と、前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成手段と、を備える。

本発明の一態様に係る映像選択方法は、映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成し、
対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成し、前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出し、導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する。

本発明の一態様に係る特徴量生成方法は、それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納し、前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する。

本発明の一態様に係る映像選択プログラムは、コンピュータを、映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、して動作させる。

本発明の一態様に係る特徴量生成プログラムは、コンピュータを、それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納する素性抽出手段と、前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成手段と、して動作させる。

本発明には、テキストと映像とのマッチングを行う負荷を軽減することができるという効果がある。

図１は、本発明の第１の実施形態に係る映像選択装置１の構成を表すブロック図である。図２は、本発明の第１の実施形態の付随情報の例を表す図である。図３は、特徴生成装置１００の、複数のテキストと付随情報とに基づいて素性を抽出する動作の例を表すフローチャートである。図４は、抽出される素性の例を模式的に表す図である。図５は、抽出された素性の例を模式的に表す図である。図６は、素性リストの例を模式的に表す図である。図７は、本発明の第１の実施形態の特徴生成装置１００の、映像特徴を生成する動作の例を表すフローチャートである。図８は、映像毎の、映像に関連付けられているテキストの例を模式的に表す図である。図９は、映像特徴ベクトル例を模式的に表す図である。図１０は、本発明の第１の実施形態の映像選択装置１１０の、映像特徴ベクトルを受信する動作の例を表すフローチャートである。図１１は、本発明の第１の実施形態の映像選択装置１１０の、対象テキストを受信するのに応じて映像を選択する動作の例を表すフローチャートである。図１２は、対象特徴ベクトルの例を模式的に表す図である。図１３は、類似度導出部１１３が類似度を導出する、対象特徴量、及び、映像特徴量の例を模式的に表す図である。図１４は、類似度の例を模式的に表す図である。図１５は、本発明の第１の実施形態の第１の変形例の映像選択システム１Ａの構成の例を表すブロック図である。図１６は、本発明の第１の実施形態の第２の変形例の映像選択システム１Ｂの構成の例を表すブロック図である。図１７は、本発明の第１の実施形態の第３の変形例の映像選択システム１Ｃの構成の例を表すブロック図である。図１８は、本発明の第２の実施形態の映像選択システム１Ｄの構成の例を表すブロック図である。図１９は、本発明の各実施形態に係る映像選択装置及び特徴生成装置を実現するのに使用できるコンピュータの構成の例を表すブロック図である。

以下では、本発明の実施形態について、図面を参照して詳細に説明する。

＜第１の実施形態＞
まず、本発明の第１の実施形態について、図面を参照して詳細に説明する。

図１は、本発明の第１の実施形態に係る映像選択システム１の構成を表すブロック図である。

図１を参照すると、本実施形態の映像選択システム１は、特徴生成装置１００と、映像選択装置１１０とを含む。特徴生成装置１００と、映像選択装置１１０とは、通信可能に接続されている。図１に示す例では、特徴生成装置１００と、映像選択装置１１０とは、異なる装置として実装されている。しかし、映像選択装置１１０が、特徴生成装置１００を含んでいてもよい。映像選択装置１１０が、特徴生成装置１００として動作してもよい。

特徴生成装置１００は、付随情報受信部１０１と、付随情報記憶部１０２と、教師データ受信部１０３と、教師データ記憶部１０４と、属性抽出部１０５と、素性抽出部１０６と、素性記憶部１０７と、映像特徴生成部１０８とを含む。映像選択システム１は、映像選択システム１のユーザが指示などを入力するのに使用する、ユーザ端末（図示されない）を含んでいてもよい。

映像選択装置１１０は、対象受信部１１１と、対象特徴生成部１１２と、類似度導出部１１３と、映像選択部１１４と、出力部１１５と、映像特徴受信部１１６と、映像特徴記憶部１１７とを含む。映像選択装置１１０は、さらに、映像受信部１１８と、映像記憶部１１９とを含んでいてもよい。

教師データ受信部１０３は、複数のテキストを受信する。本発明の各実施形態において、テキストを表すデータを、単にテキストとも表記する。例えば、テキストを受信することは、そのテキストを表すデータを受信することを意味する。それらの複数のテキストは、例えば、映像選択装置１１０によって、教師データ受信部１０３に入力されてもよい。それらの複数のテキストは、例えば、後述の複数の映像を記憶する映像サーバ（図示されない）によって、教師データ受信部１０３に入力されてもよい。それらの複数のテキストは、例えば、ユーザ端末（図示されない）によって、教師データ受信部１０３に入力されてもよい。

教師データ受信部１０３が受信するテキストの各々は、そのテキストの内容と関連する、複数の映像のうち少なくともいずれかの映像に関連付けられている。それらの複数の映像の各々は、少なくとも１つのテキストと関連付けられていればよい。例えば、映像選択システム１のユーザが、複数のテキストの各々について、テキストとそのテキストの内容に関連すると判定した映像とを、あらかじめ関連付けておけばよい。テキストの内容に関連すると判定された映像は、例えば、そのテキストの内容に、視覚的に、体感的に、または、視覚的で体感的にマッチすると判定された映像である。映像選択システム１のユーザは、複数の映像の各々について、その映像の内容に、視覚的に、体感的に、または、視覚的で体感的にマッチすると判定した１つ以上のテキストを、その映像に関連付けておいてもよい。映像に関連付けられるテキストは、その映像の企画意図を含んでいてもよい。後述されるように、企画意図は、例えば、映像のコンセプトや、映像を制作する目的などを表すフレーズや文章である。

教師データ受信部１０３は、テキストと、少なくとも一つの、映像の識別子である映像ＩＤ（Ｉｄｅｎｔｉｆｉｅｒ）との、複数の組を受信すればよい。教師データ受信部１０３は、受信した、複数の映像の少なくともいずれかに関連付けられているテキストを、教師データ記憶部１０４に格納する。

テキストは、例えば、歌詞である。テキストは、ナレーション、朗読、又はアナウンスの内容を表すテキストであってもよい。以下では、主に、テキストが歌詞である場合の映像選択システム１について説明する。

教師データ記憶部１０４は、それぞれ、複数の映像の少なくともいずれかに関連付けられている、複数のテキストを記憶する。

付随情報受信部１０１は、上述の複数の映像の各々の、付随情報を受信する。付随情報は、例えば、映像選択装置１１０によって、付随情報受信部１０１に入力されてもよい。付随情報は、例えば、前述の映像サーバ（図示されない）によって、付随情報受信部１０１に入力されてもよい。付随情報は、例えば、ユーザ端末（図示されない）によって、付随情報受信部１０１に入力されてもよい。付随情報受信部１０１は、受信した付随情報を、付随情報記憶部１０２に格納する。

付随情報記憶部１０２は、複数の映像の各々の、付随情報を記憶する。

付随情報は、映像の内容を表す単語を含む情報である。付随情報は、例えば、映像を分類する観点（すなわち、映像の種類）を表す項目毎に、単語によって表されていてもよい。付随情報は、項目毎に、文章又はフレーズによって表されていてもよい。付随情報は、項目毎に、単語と、文章又はフレーズとの、いずれか一方又は双方によって表されていてもよい。

図２は、付随情報の例を表す図である。付随情報は、例えば、映像の内容を表す複数の種類の情報を含む。それらの複数の種類の情報は、例えば、映像を複数の観点で複数のカテゴリに分類した場合における、分類の観点及び分類の結果を表す。その場合、例えば、分類の観点を項目と表記し、分類の観点を特定する名称を項目名と表記し、分類の結果（すなわち、映像が分類されたカテゴリ）を項目の値と表記する。付随情報は、分類の観点及び分類の結果でなくてもよい。「項目名」は、付随情報によって内容が表される映像の、分類の観点を表す名称である。図２では、「例（内容）」は、それぞれの項目名によって表される情報の、具体例又は内容を表す。括弧によって囲まれていない単語は、付随情報が含む、項目毎の値の具体例である。括弧によって囲まれている語句が、付随情報が含む項目毎の値の内容を表す。付随情報によって内容が表される映像の種類は、項目毎の値によって表される。図２を参照すると、付随情報は、例えば、企画意図、モデル、服装、場所、季節、天候、時候、イベントなどの項目名によって表される項目の値を含む。以下の説明では、例えば、項目名が「企画意図」である項目の値を、「企画意図の値」などと表記する。

図２に示す例では、企画意図の値は、例えば、フレーズ又は文章によって表される。企画意図以外の項目の値は、単語によって表される。企画意図の値であるフレーズや文章は、例えば、映像のコンセプトや、映像を制作する目的などを表す。モデルの値は、例えば、男女、男、女などの映像に登場する人物の性別などである。モデルの値は、人物以外の、動物、植物、又は物などであってもよい。服装の値は、例えば、洋服、和服などの、映像に登場する人物の服装である。服装の値は、単に「服」であってもよい。場所の値は、例えば、映像が撮影された場所、又は、撮影の対象が存在する場所を表す単語である。場所の値は、都会や海などの、場所の区分を表す単語であっても、具体的な地域名であってもよい。季節の値は、映像が撮影された季節を表す単語である。天候の値は、映像が撮影されたときの天候を表す単語である。時候の値は、映像が撮影された時間帯を表す単語である。イベントの値は、映像として撮影された場面において起こっているイベントを表す単語である。付随情報は、単語によって表される項目について、一つの項目当たり２つ以上の単語を含んでいてもよい。単語を含まない項目（すなわち、値が存在しない項目）が存在していてもよい。付随情報は、図２に示す例に限られない。付随情報は、図２に示す項目を含んでいなくてもよい。付随情報は、図２に示す項目以外の項目の情報を含んでいてもよい。

属性抽出部１０５は、付随情報から、映像の内容の少なくとも一部を表す単語である、属性を抽出する。属性抽出部１０５は、付随情報が値として単語を含む場合、その単語を抽出すればよい。付随情報が値として文章又はフレーズを含む場合、属性抽出部１０５は、その文章又はフレーズから、例えば、ＴＦ−ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ−ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）法によって、映像毎に、その映像の特徴を表す単語を抽出すればよい。

素性抽出部１０６は、抽出された属性の各々について、教師データ記憶部１０４に格納されているテキストから、その属性に係る（すなわち、その属性を修飾する）語句を、素性として抽出する。素性抽出部１０６は、抽出された属性の各々について、例えばその属性を持つ映像に関連付けられているテキストから、その属性に係る（すなわち、その属性を修飾する）語句を、素性として抽出すればよい。映像が持つ属性は、その映像の付随情報が含む属性である。素性抽出部１０６は、抽出した素性を、素性記憶部１０７に格納する。素性抽出部１０６は、抽出した全ての素性のリストである、素性リストを生成してもよい。素性抽出部１０６は、生成した素性リストを、素性記憶部１０７に格納してもよい。

素性抽出部１０６は、例えば、テキストに対して、形態素解析や構文解析などの、基本的なテキスト処理によって、属性に係る語句を検出し、検出された語句の品詞や特性を推定すればよい。

素性抽出部１０６が検出する語句の長さは、限定されていればよい。その場合、語句の長さは、語句を構成する単位の数であればよい。語句を構成する単位は、例えば、その語句を構成する、形容詞、形容動詞、及び、名詞と助詞との組み合わせなどであればよい。例えば、属性が「人」であり、「人」に係る語句として、「背が高い」が検出された場合、素性抽出部１０６は、語句「背が高い」を構成する単位として、例えば、「背が」と「高い」を特定すればよい。そして、素性抽出部１０６は、語句「背が高い」の長さが２であると判定すればよい。素性抽出部１０６は、あらかじめ決められた長さ（例えば２個）以下の長さの語句を検出すればよい。語句の特性は、例えば、属性を修飾する可能性が否かを表す特性である。

素性抽出部１０６は、テキスト処理の結果を使用して、検出された、属性に係る語句が、その属性を修飾しうる語句か否かを判定すればよい。素性抽出部１０６は、検出された、属性に係る語句が、その属性を修飾しうると判定した場合、その語句を素性として抽出すればよい。

例えば、素性抽出部１０６は、検出された語句が、形容詞、形容動詞、又は、名詞と助詞との組み合わせなどの、他の単語を修飾できる語句である場合、その語句が属性を修飾しうる語句であると判定すればよい。その場合、素性抽出部１０６は、検出された語句を、素性として抽出してもよい。

素性抽出部１０６は、さらに、例えば、単語の種類と、その種類の単語を修飾するのに使用される語句との組み合わせを含む辞書を使用して、属性に係る語句として検出された語句が、その属性を修飾する語句として使用されるか否かを判定してもよい。素性抽出部１０６は、検出された語句が他の単語を修飾できる語句であり、さらに、検出された語句が、その語句が係る属性を修飾するのに使用される場合、その語句を素性として抽出してもよい。

素性は、素性抽出部１０６によって、映像に関連付けられているテキストから抽出される素性に限られない。素性は、あらかじめ選択された、例えば、イベントの名称を表す語句や、場所を表す語句を含んでいてもよい。素性抽出部１０６によって映像に関連付けられているテキストから抽出される素性以外の素性は、例えば映像選択システム１の管理者によって、あらかじめ素性記憶部１０７に格納されていてもよい。イベントや場所を表す語句が集められた辞書が、例えば映像選択システム１の管理者によって、あらかじめ作成され、例えば素性辞書記憶部（図示されない）や素性記憶部１０７などの、素性抽出部１０６がアクセスできる記憶部に格納されていてもよい。そして、素性抽出部１０６は、そのような辞書から語句を読み出してもよい。素性抽出部１０６は、上述の辞書から読み出した語句を、素性として、素性記憶部１０７に格納してもよい。

上述のように、映像には、その映像に内容が関連すると判定された、例えば歌詞などのテキストが関連付けられている。映像の内容を表す情報（例えば上述の付随情報）から抽出された単語（例えば上述の属性）は、その映像に関連付けられている、例えば歌詞などのテキストにも現れることが多い。そして、映像に関連付けられているテキストにおいて現れる、その映像の内容を表す情報から抽出された単語に係る語句は、「視覚的」、「体感的」な語句であることが、経験的に知られている。従って、素性抽出部１０６が素性として抽出する語句は、「視覚的」、「体感的」な語句である。言い換えると、素性抽出部１０６は、「視覚的」、「体感的」な語句を、素性として抽出することができる。

映像特徴生成部１０８は、映像毎に、映像に関連付けられているテキスト対してテキストマイニング処理を行うことによって、その映像の特徴量である映像特徴量を生成する。より具体的には、映像特徴生成部１０８は、映像毎に、映像に関連付けられているテキストにおいて、抽出された素性の各々を検出する。そして、映像特徴生成部１０８は、映像毎に、映像に関連付けられているテキストにおいて出現する素性を表す、映像特徴量を生成する。上述のテキストマイニング処理は、例えば、上述のように素性を抽出し、抽出された素性の各々を検出することを表す。映像特徴生成部１０８は、前述の複数の映像の全てが選択されるまで、順次映像を選択しながら、選択された映像の映像特徴量の生成を繰り返せばよい。具体的には、映像特徴生成部１０８は、例えば、映像を選択し、選択した映像に関連付けられているテキストにおいて、素性として抽出された語句（すなわち、素性）を検出すればよい。

映像特徴生成部１０８は、素性を検出した結果に基づいて、検出された素性を表す特徴量を、映像特徴量として生成する。映像特徴量は、例えば、検出された素性が要素である集合であってもよい。映像特徴量は、例えば、抽出された全ての素性がいずれかの要素に関連付けられているベクトルによって表現されていてもよい。その場合、以下の説明では、映像特徴量を、映像特徴ベクトルとも表記する。映像特徴生成部１０８は、例えば、素性とベクトルの要素とが、１対１に関連付けられるように、素性とベクトルの要素とを関連付ければよい。映像特徴生成部１０８は、例えば、素性リストにおける素性の順で、素性と、映像特徴ベクトルの要素とを関連付ければよい。映像特徴量は、例えば、要素の値が、その要素に関連付けられている素性が出現したことを表す値（例えば１）又はその要素が出現しなかったことを表す値（例えば０）である、映像特徴ベクトルであってもよい。

映像特徴生成部１０８は、選択した映像に関連付けられているテキストにおいて、素性毎に、素性の出現頻度を検出してもよい。その場合、映像特徴生成部１０８は、素性毎に検出された素性の出現頻度を表す特徴量を、映像特徴量として生成すればよい。映像特徴量は、要素が、検出された素性とその素性の出現頻度との組み合わせである、集合であってもよい。映像特徴量は、要素の値が、その要素に関連付けられている素性の出現頻度である、映像特徴ベクトルであってもよい。その場合、映像特徴生成部１０８は、複数の映像の映像特徴ベクトルの大きさが一定になるように、各映像特徴ベクトルを正規化すればよい。

映像特徴ベクトルの大きさは、例えば、長さ（すなわち、各要素の値の２乗の和の平方根）である。映像特徴生成部１０８は、各映像の特徴ベクトルの大きさが１になるように、各映像特徴ベクトルを正規化してもよい。

映像特徴生成部１０８は、生成した、各映像の映像特徴量を、映像選択装置１１０に送信する。映像特徴生成部１０８は、複数の映像の各々について、映像ＩＤと映像特徴量とを関連付け、互いに関連付けられた映像ＩＤと映像特徴量とを、映像選択装置１１０に送信すればよい。映像特徴生成部１０８は、さらに、抽出された素性を、映像選択装置１１０に送信する。映像特徴生成部１０８は、素性記憶部１０７から素性リストを読み出し、読み出した素性リストを、映像選択装置１１０にすればよい。

映像選択装置１１０の映像特徴受信部１１６は、映像特徴生成部１０８から、各映像の映像特徴量を受信する。映像特徴生成部１０８は、複数の映像の各々について、互いに関連付けられた映像ＩＤと映像特徴量とを、映像特徴生成部１０８から受信すればよい。映像特徴受信部１１６は、受信した、複数の映像の各々の、互いに関連付けられた映像ＩＤと映像特徴量とを、映像特徴記憶部１１７に格納する。映像特徴受信部１１６は、さらに、例えば映像特徴生成部１０８から、例えば素性リストとして、抽出された素性の集合を受信し、受信した素性の集合（例えば素性リスト）を、映像特徴記憶部１１７に格納する。

映像特徴記憶部１１７は、複数の映像の各々の、互いに関連付けられた映像ＩＤと映像特徴量とを記憶する。映像特徴記憶部１１７は、さらに、素性の集合（例えば素性リスト）を記憶する。

対象受信部１１１は、例えば、ユーザによって指定されたテキストを、そのユーザが使用するユーザ端末（図示されない）から受信する。指定されたテキストは、例えば、ユーザが、映像選択装置１１０に、そのテキストに応じた映像を選択させるテキストである。以下の説明では、指定されたテキストを、対象テキストと表記する。対象テキストは、例えば、歌詞である。対象テキストは、例えば、ナレーション、朗読、あるいは、アナウンスなどの内容を表すテキストであってもよい。

対象特徴生成部１１２は、対象テキストに対してテキストマイニング処理を行うことによって、その対象テキストの特徴量である対象特徴量を生成する。より具体的には、対象特徴生成部１１２は、対象テキストにおいて、例えば映像特徴記憶部１１７に格納されている素性の集合（例えば素性リスト）に含まれる素性を検出する。そして対象特徴生成部１１２は、素性を検出した結果に基づいて、対象テキストにおいて出現する素性を表す特徴量である、対象特徴量を生成する。

映像特徴生成部１０８が生成する映像特徴量が、素性毎に、映像に関連付けられているテキストにおいて素性が出現するか否かを表す特徴量である場合、対象特徴生成部１１２は、対象テキストにおいて、各素性が出現するか否かを検出すればよい。そして、対象特徴生成部１１２は、素性が出現するか否かを、素性毎に表す対象特徴量を生成すればよい。対象特徴量は、検出された素性の集合であってもよい。対象特徴量は、各要素の値が、その要素に関連付けられている素性が出現したことを表す値（例えば１）、又は、その要素に関連付けられている要素が出現しなかったことを表す値（例えば０）であるベクトル（対象特徴ベクトル）であってもよい。

映像特徴量が素性毎の素性の出現頻度を表す場合、対象特徴生成部１１２は、対象テキストにおいて、素性毎の素性の出現頻度を検出すればよい。そして、対象特徴生成部１１２は、各素性の出現頻度を表す対象特徴量を生成すればよい。対象特徴量は、例えば、要素が、素性とその素性の出現頻度との組み合わせである、集合であってもよい。対象特徴量は、各要素の値が、その要素に関連付けられている素性の出現頻度を表すベクトル（対象特徴ベクトル）であってもよい。対象特徴生成部１１２は、対象特徴ベクトルを正規化してもよい。対象特徴生成部１１２は、対象特徴ベクトルを正規化しなくてもよい。

類似度導出部１１３は、複数の映像の各々について、映像の映像特徴量に対する、対象特徴量の類似の程度を示す指標である、類似度を導出する。すなわち、類似度導出部１１３が導出する類似度は、映像特徴量と対象特徴量とが、どの程度類似しているかを示す指標である。以下の説明では、２つの特徴量が類似していることを、類似性が高いと表記する。２つの特徴量が類似していないことを、類似性が低いと表記する。２つの特徴量が類似する程度を、類似性の高さと表記する。類似度は、類似性が高いほど大きくてもよい。類似度は、類似性が高いほど小さくてもよい。

類似度は、例えば、式１によって表される、コサイン類似度である。類似度がコサイン類似度である場合、類似度の値が大きいほど、類似性が高い。式１及び以下で示す式において、「×」は掛け算を表す識別子である。ベクトルｑは、対象特徴ベクトルであり、ｑ_ｉは対象特徴ベクトルのｉ番目の要素である。ベクトルｄ^ｘは、ｘ番目の映像の映像特徴ベクトルであり、ｄ^ｘ _ｉは、ベクトルｄ^ｘのｉ番目の要素である。また、映像の数はＮ（Ｎは自然数）である。

類似度は、例えば、式２によって表される、ユークリッド距離であってもよい。類似度がユークリッド距離である場合、類似度の値が小さいほど、類似性が高い。類似度は、ユークリッド距離の逆数であってもよい。その場合、ユークリッド距離が０である場合、類似度導出部１１３は、例えば、類似度導出部１１３が処理できる最大の数値を、類似度として設定すればよい。類似度がユークリッド距離の逆数である場合、類似度の値が大きいほど、類似性が高い。式２において、「ｔ」はベクトルの転置を表し、「＊」はベクトルの積（内積）を表す。式２において、各ベクトルは行ベクトルである。

類似度は、式３によって表される、ジャッカード係数であってもよい。ジャッカード係数は、２つの特徴ベクトルの０ではない共通の要素の数を、それらの特徴ベクトルの少なくとも一方の要素が０ではない要素の数で割ることによって得られる値である。類似度がジャッカード係数である場合、類似度の値が大きいほど、類似性が高い。式３において、|Q∩D^x|は、ベクトルｑとベクトルｄ^ｘの、値が０でない共通の要素の数を表す。|Q∪D^x|ベクトルｑとベクトルｄ^ｘの少なくとも一方の要素の値が０ではない要素の数である。Qは、例えば、ベクトルｑの、値が０でない要素の番号の集合である。D^xは、例えば、ベクトルｄ^ｘの、値が０でない要素の番号の集合である。「∩」は、積集合を表す。「∪」は和集合を表す。

類似度=|Q∩D^x|/|Q∪D^x| ・・・（式３）
映像選択部１１４は、導出された類似度が、類似性が高いことを表す映像を選択する。映像選択部１１４は、複数の映像の各々について算出された類似度から、類似性が最も高いことを表す類似度を選択すればよい。そして、映像選択部１１４は、選択された類似度の導出に使用された映像特徴量を持つ（すなわち映像特徴量に関連付けられている）映像を選択すればよい。

対象受信部１１１は、対象テキストに加えて、排除キーワードを受信してもよい。排除キーワードは、１つ以上の単語である。その場合、映像選択部１１４は、付随情報に排除キーワードのいずれかが含まれる映像を、導出される類似度の値にかかわらず、選択しない。また、その場合、例えば映像記憶部１１９が、付随情報記憶部１０２が記憶する付随情報と同じ付随情報を記憶していればよい。例えば、映像受信部１１８が、複数の映像を記憶する映像サーバ（図示されない）、ユーザ端末（図示されない）、又は特徴生成装置１００などから、その付随情報を受信すればよい。そして映像受信部１１８が、受信した付随情報を映像記憶部１１９に格納すればよい。

出力部１１５は、映像選択部１１４による選択の結果を表すデータを出力する。選択の結果を表すデータは、例えば、選択された映像の映像ＩＤである。

前述のように、映像選択装置１１０は、映像受信部１１８と映像記憶部１１９とを含んでいてもよい。

映像受信部１１８は、前述の複数の映像を記憶する映像サーバ（図示されない）から、それらの複数の映像の映像データを受信する。そして、映像受信部１１８は、受信した映像データを、映像記憶部１１９に格納する。映像記憶部１１９は、映像受信部１１８によって格納された、複数の映像の映像データを記憶する。

映像記憶部１１９が複数の映像データを記憶している場合、出力部１１５は、映像選択部１１４によって選択された映像の映像データを出力してもよい。

次に、本実施形態の映像選択システム１の動作について、図面を参照して詳細に説明する。

図３は、特徴生成装置１００の、複数のテキストと付随情報とに基づいて素性を抽出する動作の例を表すフローチャートである。

まず、教師データ受信部１０３が、映像に関連付けられた１つ以上のテキストを、複数の映像の各々について受信する（ステップＳ１０１）。映像に関連付けられた１つ以上のテキストは、教師データとも表記される。教師データ受信部１０３は、受信した教師データを、教師データ記憶部１０４に格納する（ステップＳ１０２）。

次に、付随情報受信部１０１が、付随情報を受信する（ステップＳ１０３）。図２は、付付随情報受信部１０１が受信する、付随情報の例を表す。付付随情報受信部１０１は、複数の映像の各々について、図２に例示する付随情報を受信する。付随情報受信部１０１は、受信した付随情報を、付随情報記憶部１０２に格納する（ステップＳ１０４）。

ステップＳ１０３及びステップＳ１０４の動作は、ステップＳ１０１及びステップＳ１０２の動作より前に行われてもよい。ステップＳ１０３及びステップＳ１０４の動作は、ステップＳ１０１及びステップＳ１０２の動作と並列に行われてもよい。

次に、属性抽出部１０５は、付随情報記憶部１０２に格納されている付随情報から、属性を抽出する（ステップＳ１０５）。

次に、素性抽出部１０６が、属性抽出部１０５が抽出した属性を修飾する語句を、素性として、学習データから抽出する（ステップＳ１０６）。

図４は、抽出される素性の例を模式的に表す図である。図４に示す例では、映像１とテキストＡが関連付けられている。映像２とテキストＢが関連付けられている。映像３とテキストＣが関連付けられている。右側のブロック内の語句は、それらのテキストの一部を模式的に表す。これらのブロック内で、丸括弧に囲まれている単語が、属性検出部１０５によって抽出された属性のうち、テキストに含まれる属性である。下線が付されている語句が、属性に係る語句として抽出された素性である。例えば、テキストＡは、属性として、「春」と「男」とを含んでいる。素性抽出部１０６は、「春」に係る素性として、「暖かい」を抽出する。素性抽出部１０６は、さらに、「男」に係る素性として「背の高い」を抽出する。

図５は、抽出された素性の例を模式的に表す図である。図５において、「属性」は、いずれかのテキストにおいて検出された属性である。図５において、「素性」は、検出された属性に係る語句として抽出された素性である。

次に、素性抽出部１０６は、抽出された素性のリストである素性リストを生成する（ステップＳ１０７）。

図６は、素性リストの例を模式的に表す図である。図６において、「属性」は、いずれかのテキストにおいて検出された属性である。図６において、「素性」は、検出された属性に係る語句として抽出された素性である。図６において、太い線によって囲まれている部分が素性リストを表す。

次に、素性抽出部１０６は、生成した素性リストを、素性記憶部１０７に格納する（ステップＳ１０８）。

次に、本実施形態の特徴生成装置１００の、映像特徴を生成する動作について、図面を参照して詳細に説明する。

図７は、本実施形態の特徴生成装置１００の、映像特徴を生成する動作の例を表すフローチャートである。

図７を参照すると、映像特徴生成部１０８は、素性抽出部１０６によって抽出された素性のリストである素性リストを、素性記憶部１０７から読み出す。（ステップＳ１１１）。

次に、映像特徴生成部１０８は、映像に関連付けられているテキストを、映像毎に特定する（ステップＳ１１２）。

図８は、映像毎の、映像に関連付けられているテキストの例を模式的に表す図である。上述のように映像ＩＤは映像を特定する識別子である。図８において、「テキスト」は、映像ＩＤによって特定されるそれぞれの映像に関連付けられている、１つ以上のテキストの識別子を表す。

映像特徴生成部１０８は、映像毎に、映像に関連付けられているテキストにおいて、素性リストに含まれる素性を検出する（ステップＳ１１３）。映像特徴生成部１０８は、素性を検出した結果に基づいて、映像に関連付けられているテキストに出現する素性を表す映像特徴量（例えば映像特徴ベクトル）を、映像毎に生成する（ステップＳ１１４）。

図９は、映像特徴ベクトル例を模式的に表す図である。図９において、例えば、太い線によって描かれている四角形によって囲まれている部分が、映像１の映像特徴ベクトルを表す。映像１の特徴ベクトルの下の、２つの段に示す数値の列が、映像２及び映像３の映像特徴ベクトルを表す。図９に示す映像特徴ベクトルの各要素の値は、映像に関連付けられているテキストにおける、素性の出現頻度を表す。図９に示す例では、各映像特徴ベクトルは正規化されていない。

映像特徴生成部１０８は、さらに、各映像の映像特徴ベクトルの大きさが同じになるように、各映像特徴ベクトルを正規化すればよい。映像特徴生成部１０８ではなく、例えば、映像選択装置１１０の類似度導出部１１３が、各映像特徴ベクトルを正規化してもよい。

映像特徴生成部１０８は、映像毎に生成した映像特徴ベクトルと、素性リストとを、映像選択装置１１０に送信する（ステップＳ１１５）。

次に、本実施形態の映像選択装置１１０の動作について、図面を参照して詳細に説明する。まず、本実施形態の映像選択装置１１０の、映像特徴ベクトルを受信する動作について説明する。

図１０は、本実施形態の映像選択装置１１０の、映像特徴ベクトルを受信する動作の例を表すフローチャートである。

図１０を参照すると、映像特徴受信部１１６が、特徴生成装置１００の映像特徴生成部１０８から、映像特徴量（例えば映像特徴ベクトル）と、素性リストとを受信する（ステップＳ２０１）。映像特徴受信部１１６は、受信した映像特徴量と素性リストとを、映像特徴記憶部１１７に格納する（ステップＳ２０２）。

次に、本実施形態の映像選択装置１１０の、対象テキストを受信するのに応じて映像を選択する動作について説明する。

図１１は、本実施形態の映像選択装置１１０の、対象テキストを受信するのに応じて映像を選択する動作の例を表すフローチャートである。

図１１を参照すると、まず、対象受信部１１１が、対象テキストを受信する（ステップＳ２１１）。対象受信部１１１は、例えば、コンテンツ配信サーバから、例えば、音声コンテンツの内容を表す対象テキストを受信してもよい。

次に、対象特徴生成部１１２は、対象受信部１１１が受信した対象テキストにおいて、素性抽出部１０６によって抽出された素性のリストである素性リストに含まれる素性を抽出する（ステップＳ２１２）。前述のように、素性リストは、例えば、映像特徴受信部１１６によって映像特徴記憶部１１７に格納されている。

対象特徴生成部１１２は、素性を抽出した結果に基づいて、対象テキストに出現する素性を表す、対象特徴量（例えば対象特徴ベクトル）を生成する（ステップＳ２１３）。

図１２は、対象特徴ベクトルの例を模式的に表す図である。図１２に示す数値列が、対処特徴ベクトルを表す。図１２に示す対象特徴ベクトルは、対象テキストにおける、素性リストに含まれる各素性の出現頻度を表す。

次に、類似度導出部１１３が、映像特徴量の各々に対する、対象特徴量の類似の程度を表す類似度を算出する（ステップＳ２１４）。

図１３は、類似度導出部１１３が類似度を導出する、対象特徴ベクトル、及び、映像特徴ベクトルの例を模式的に表す図である。図１３に示す例では、対象特徴量は、対象特徴ベクトルである。映像特徴量は、映像特徴ベクトルである。また、図１３に示す例では、対象特徴ベクトル、及び、各映像特徴ベクトルは、正規化されている。前述のように対象特徴ベクトルは、正規化されていなくてもよい。類似度導出部１１３は、映像特徴ベクトルの各々について、対象特徴ベクトルと映像特徴ベクトルとの間の類似性の高さを表す類似度を導出する。

図１４は、類似度の例を模式的に表す図である。図１４は、図１３に示す各映像の映像特徴ベクトルと、対象特徴ベクトルとの間の類似性の高さを表す類似度である。図１４に示す例では、類似度はコサイン類似度である。従って、類似度の値が大きいほど、類似性が高い。

映像選択部１１４は、算出した類似度を使用して、対象特徴量に類似する映像特徴量を選択する（ステップＳ２１５）。映像選択部１１４は、類似度が、類似性が最も高いことを表す映像特徴量を選択すればよい。図１４に示す例では、類似度の値が最も大きい映像特徴量が、対象特徴量に最も良く類似する映像特徴量である。そして、映像３の映像特徴量が、対象特徴量に最も良く類似する。すなわち、図１４に示す例では、映像３の映像特徴量と対象特徴量との類似性が最も高い。

映像選択部１１４は、選択された映像特徴量に関連する映像を選択する（ステップＳ２１６）。図１４に示す例では、選択された、映像３の映像特徴量に関連する映像は、映像３である。映像選択部１１４は、映像３を選択する。

出力部１１５は、映像選択部１１４による選択の結果を出力する（ステップＳ２１７）。出力部１１５は、映像選択部１１４による選択の結果として、例えば、選択された映像の識別子（すなわち映像ＩＤ）を出力すればよい。図１４に示す例では、出力部１１５は、選択された映像である映像３の映像ＩＤを出力すればよい。出力部１１５は、例えば、対象受信部１１１に対象テキストを送信した装置に、選択された映像の映像ＩＤを出力すればよい。対象受信部１１１が、コンテンツ配信サーバ（図示されない）から対象テキストを受信した場合、出力部１１５は、そのコンテンツ配信サーバに、選択された映像の映像ＩＤを送信すればよい。コンテンツ配信サーバは、出力部１１５から映像ＩＤを受信する。

例えば、コンテンツ配信サーバが、カラオケの楽曲と映像とを配信するカラオケサーバである場合、コンテンツ配信サーバは、楽曲の配信の要求を受信するのに応じて、その楽曲の歌詞である対象テキストを、映像選択装置１１０に送信すればよい。映像選択装置１１０は、送信された対象テキストに対して選択した映像ＩＤをコンテンツ配信サーバに送信する。コンテンツ配信サーバは、受信した映像ＩＤが表す映像を特定する。そして、コンテンツ配信サーバは、対象テキストが歌詞である楽曲と、受信した映像ＩＤによって表される映像とを、例えば、その楽曲の配信を要求した端末に配信すればよい。コンテンツ配信サーバは、あらかじめ、配信することができる複数の楽曲について、歌詞を対象テキストとして映像選択装置１１０に送信しておいてもよい。そして、コンテンツ配信サーバは、あらかじめ、選択された映像の映像ＩＤを受信しておいてもよい。コンテンツ配信サーバは、あらかじめ、楽曲の識別子である楽曲ＩＤと、その楽曲の歌詞が対象テキストである場合に選択された映像の映像ＩＤとを、記憶領域（図示されない）に記憶しておいてもよい。そして、コンテンツ配信サーバは、楽曲の配信を要求されるのに応じて、配信を要求された楽曲の歌詞に対して選択された映像の映像ＩＤを読み出せばよい。そして、コンテンツ配信サーバは、配信を要求された楽曲と、読み出した映像ＩＤが表す映像とを、楽曲の配信を要求した端末に配信すればよい。

コンテンツ配信サーバが、ナレーション、朗読、又は、アナウンスなど音声コンテンツの要求に応じて、音声コンテンツと映像とを配信するコンテンツ配信サーバであってもよい。その場合、コンテンツ配信サーバは、例えば、配信可能な音声コンテンツの内容を表すテキストデータを、対象テキストとして、映像選択装置１１０に送信すればよい。コンテンツ配信サーバは、映像選択装置１１０から映像ＩＤを受信し、対象テキストによって内容が表される音声コンテンツと、受信した映像ＩＤによって表される映像とを、音声コンテンツの配信を要求した端末に送信すればよい。コンテンツ配信サーバは、コンテンツの配信の要求を受信するのに応じて、対象テキストの送信、映像ＩＤの受信、及び、音声コンテンツと映像との配信を行ってもよい。コンテンツ配信サーバは、あらかじめ、対象テキストの送信と、映像ＩＤの受信とを行い、対象テキストによって内容が表されるコンテンツのコンテンツＩＤと、その対象テキストに対して選択された映像ＩＤとを記憶していてもよい。音声コンテンツの配信の要求を受信するのに応じて、その音声コンテンツと、記憶している映像ＩＤに基づいて特定した、その音声コンテンツの内容を表す対象テキストに対して選択された映像とを、音声コンテンツの配信を要求した端末に送信してもよい。

以上で説明した本実施形態には、テキストと映像とのマッチングを行う負荷を軽減することができるという第１の効果がある。

その理由は、映像の特徴を表す映像特徴量とテキストの特徴を表す対象特徴量との、類似性の高さの程度に基づいて、映像選択部１１４がテキストと映像とのマッチングを行うからである。映像特徴量は、映像にあらかじめ関連付けられているテキストとその映像の付随情報とを使用して、映像特徴生成部１０８によって生成される。対象特徴量は、映像特徴量と同じ種類の特徴量である。そして、対象特徴量は、マッチングの対象であるテキスト（上述の対処テキスト）を使用して、対象特徴生成部１１２によって生成される。

本実施形態には、テキストの内容と映像の内容とが精度よく一致するように、テキストに対して映像を選択することができるという効果がある。

その理由は、映像特徴生成部１０８と対象特徴生成部１１２とが、素性抽出部１０６が抽出する素性を使用して、特徴量を生成するからである。前述のように、映像の内容を端的に表す単語（上述の属性）を修飾する語句である素性は、視覚的な、体感的な、又は、視覚的で体感的な語句であることが、経験的に判明している。映像にあらかじめ関連付けられているテキストは、その映像に、視覚的に、体感的に、または、視覚的で体感的にマッチすると、例えばユーザによって判定されたテキストである。従って、映像に関連付けられているテキストにおいて出現する上述の素性と、対象テキストにおいて出現する素性とが類似している場合、その映像と対象テキストとは、視覚的に、体感的に、または、視覚的で体感的にマッチする可能性が高い。映像特徴生成部１０８は、映像に関連付けられているテキストにおいて出現する素性を表す映像特徴量を生成する。対象特徴生成部１１２は、対象テキストにおいて出現する素性を表す対象特徴量を生成する。類似度導出部１１３は、そのような、映像特徴量と対象特徴量とが類似する程度を表す類似度を導出する。映像選択部１１４は、そのような類似度を使用して、映像特徴量と対象特徴量とが類似するように、対象テキストに対する映像を選択する。従って、映像選択部１１４は、対象テキストに対して、視覚的に、体感的に、または、視覚的で体感的にマッチする映像を、精度よく選択することができる。

以上で説明した第２の効果について、さらに具体的に詳しく説明する。

素性抽出部１０６は、上述のように、付随情報から抽出された単語である属性を修飾する語句を抽出することによって、視覚的、体感的に表現されている語句を、素性として抽出する。対象特徴生成部１１２は、例えば歌詞などの対象テキストにおける、素性の出現頻度をもとに、対象特徴量（例えば対象特徴ベクトル）を生成する。映像特徴生成部１０８は、映像に関連付けられている、歌詞などのテキストや、その映像の付随情報（特に企画意図等）における、素性の出現頻度をもとに、映像特徴ベクトルを生成する。類似度導出部１１３は、対象特徴ベクトルと映像特徴ベクトルとが類似する程度である類似性の高さを表す、例えばコサイン類似度などの類似度を算出する。映像選択部１１４は、コサイン類似度などの類似度を使用して、対象特徴ベクトルと映像特徴ベクトルとを比較することによって、対象テキストと映像との関連の深さを表す関連性を判定する。上述の対象特徴ベクトルと映像特徴ベクトルとの間の類似度による判定は、視覚的、体感的な特性を利用した、対象テキストと映像との間の関連の判定である。従って、そのような類似度を使用して、対象テキストに対して、対象特徴ベクトルと映像特徴ベクトルとが類似する映像を選択することによって、視覚的、体感的に、対象テキストに類似した映像が選ばれることが期待できる。

例えば、素性の抽出において、属性である「空」に係る語句を抽出することによって、「青い」や、「晴れた」などの、視覚的、体感的な語句が素性として抽出されることが期待できる。映像に関連付けられたテキストにおける、そのような素性の出現頻度を導出した場合、例えば「青い空」の特徴を持つ映像に関連付けられたテキストの中に、「青い」や「晴れた」などの、視覚的に同じ特性を備える語句の出現数が高いことが期待できる。さらに、対象テキストの中に、「青い空」または「晴れた空」という表現がある場合、「青い」という語句及び「晴れた」という語句の少なくともいずれかの出現頻度が高い映像と、対象テキストとの類似度が高くなる。

以上のように、本実施形態の映像選択システム１は、例えば対象テキストに、「青い空」や「厳しい冬」のような、視覚的な、体感的な表現がある場合、その対象テキストを、「晴れた空」や、「寒い季節」などの特徴を備える映像にマッチさせることができる。このように、本実施形態の映像選択システム１は、同義語を使ったマッチングによって実現することができないマッチングを行うことができる。

すなわち、本実施形態の映像選択システム１は、テキストに対して、視覚的に違和感のない適切な映像を選択することができる。

＜第１の実施形態の第１の変形例＞
次に、本発明の第１の実施形態の第１の変形例について、図面を参照して詳細に説明する。

図１５は、本変形例の映像選択システム１Ａの構成の例を表すブロック図である。図１５と図１を比較すると、本変形例の映像選択システム１Ａは、映像選択装置１１０の代わりに、映像選択装置１１０Ａを含む。映像選択装置１１０Ａは、第１の実施形態の映像選択装置１１０の各構成要素に加えて、教師データ受信部１２１と、教師データ記憶部１２２と、教師データ送信部１２３と、付随情報受信部１２４と、付随情報記憶部１２５と、付随情報送信部１２６とを含む。映像選択システム１Ａは、映像選択システム１Ａのユーザが指示などを入力するのに使用する、ユーザ端末（図示されない）を含んでいてもよい。

教師データ受信部１２１は、例えばコンテンツ配信サーバなどの他の装置から、上述の教師データ（それぞれ映像に関連付けられている、複数のテキスト）を受信する。教師データ受信部１２１は、受信した教師データを、教師データ記憶部１２２に格納する。教師データ記憶部１２２は、教師データを記憶する。教師データ送信部１２３は、教師データ記憶部１２２に格納されている教師データを、教師データ受信部１０３に送信する。教師データ受信部１０３は、教師データ送信部１２３から、教師データを受信する。

付随情報受信部１２４は、例えばコンテンツ配信サーバなどの他の装置から、上述の付随情報を受信する。付随情報受信部１２４は、受信した付随情報を、付随情報記憶部１２５に格納する。付随情報記憶部１２５は、付随情報を記憶する。付随情報送信部１２６は、付随情報記憶部１２５に格納されている付随情報を、付随情報受信部１０１に送信する。付随情報受信部１０１は、付随情報送信部１２６から、付随情報を受信する。

以上の相違を除き、本変形例の映像選択システム１Ａは、第１の実施形態の映像選択システム１と同じである。

＜第１の実施形態の第２の変形例＞
次に、本発明の第１の実施形態の第２の変形例について、図面を参照して詳細に説明する。

図１６は、本変形例の映像選択システム１Ｂの構成の例を表すブロック図である。図１６を参照すると、映像選択システム１Ｂは、映像選択装置１１０Ｂを含む。映像選択システム１Ｂは、特徴生成装置１００を含む。映像選択システム１Ｂは、映像選択システム１Ｂのユーザが指示などを入力するのに使用する、ユーザ端末（図示されない）を含んでいてもよい。

以上の相違を除き、本変形例の映像選択システム１Ｂは、第１の実施形態の映像選択システム１と同じである。

＜第１の実施形態の第３の変形例＞
次に、本発明の第１の実施形態の第３の変形例について、図面を参照して詳細に説明する。

図１７は、本変形例の映像選択システム１Ｃの構成の例を表すブロック図である。本変形例の映像選択システム１Ｃは、映像選択装置１１０Ｃを含む。映像選択装置１１０Ｃは、第１の実施形態の特徴生成装置１００の各構成要素を含む。映像選択装置１１０Ｃは、映像特徴受信部１１６を含んでいなくてよい。そして、映像選択装置１１０Ｃは、第１の実施形態の特徴生成装置１００として動作する。映像選択システム１Ｃは、映像選択システム１Ｃのユーザが指示などを入力するのに使用する、ユーザ端末（図示されない）を含んでいてもよい。

本実施形態の映像特徴生成部１０８は、生成した映像特徴量を、映像特徴記憶部１１７に格納する。本実施形態の映像特徴生成部１０８は、上述の素性リストを、映像特徴記憶部１１７に格納してもよい。本実施形態の素性抽出部１０６は、素性リストを、対象特徴生成部１１２に送信してもよい。本実施形態の対象特徴生成部１１２は、素性記憶部１０７から素性リストを読み出してもよい。

以上の相違を除き、本変形例の映像選択システム１Ｃは、第１の実施形態の映像選択システム１と同じである。

＜第２の実施形態＞
次に、本発明の第２の実施形態について、図面を参照して詳細に説明する。本実施形態は、本発明の各実施形態を概念的に表す実施形態である。

図１８は、本実施形態の映像選択システム１Ｄの構成の例を表すブロック図である。

図１８を参照すると、本実施形態の映像選択システム１１０Ｄは、映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成部１０８と、対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成部１１２と、前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出部１１３と、導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択部１１４と、を備える。

以上で説明した本実施形態には、第１の実施形態の第１の効果と同じ効果がある。その理由は、第１の実施形態の第１の効果が生じる理由と同じである。

＜他の実施形態＞
映像選択装置１１０、映像選択装置１１０Ａ、映像選択装置１１０Ｂ、映像選択装置１１０Ｃ、映像選択装置１１０Ｄ、特徴生成装置１００、及び、特徴生成装置１００Ｄは、それぞれ、コンピュータ及びコンピュータを制御するプログラム、専用のハードウェア、又は、コンピュータ及びコンピュータを制御するプログラムと専用のハードウェアの組合せにより実現することができる。

図１９は、映像選択装置１１０、映像選択装置１１０Ａ、映像選択装置１１０Ｂ、映像選択装置１１０Ｃ、映像選択装置１１０Ｄ、特徴生成装置１００、及び、特徴生成装置１００Ｄを実現することができる、コンピュータ１０００のハードウェア構成の一例を表す図である。図１９を参照すると、コンピュータ１０００は、プロセッサ１００１と、メモリ１００２と、記憶装置１００３と、Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インタフェース１００４とを含む。また、コンピュータ１０００は、記録媒体１００５にアクセスすることができる。メモリ１００２と記憶装置１００３は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ハードディスクなどの記憶装置である。記録媒体１００５は、例えば、ＲＡＭ、ハードディスクなどの記憶装置、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、可搬記録媒体である。記憶装置１００３が記録媒体１００５であってもよい。プロセッサ１００１は、メモリ１００２と、記憶装置１００３に対して、データやプログラムの読み出しと書き込みを行うことができる。プロセッサ１００１は、Ｉ／Ｏインタフェース１００４を介して、例えば、他の装置にアクセスすることができる。プロセッサ１００１は、記録媒体１００５にアクセスすることができる。記録媒体１００５には、コンピュータ１０００を、映像選択装置１１０、映像選択装置１１０Ａ、映像選択装置１１０Ｂ、映像選択装置１１０Ｃ、映像選択装置１１０Ｄ、特徴生成装置１００、又は、特徴生成装置１００Ｄとして動作させるプログラムが格納されている。

プロセッサ１００１は、記録媒体１００５に格納されている、コンピュータ１０００を、映像選択装置１１０、映像選択装置１１０Ａ、映像選択装置１１０Ｂ、映像選択装置１１０Ｃ、映像選択装置１１０Ｄ、特徴生成装置１００、又は、特徴生成装置１００Ｄとして動作させるプログラムを、メモリ１００２にロードする。そして、プロセッサ１００１が、メモリ１００２にロードされたプログラムを実行することにより、コンピュータ１０００は、映像選択装置１１０、映像選択装置１１０Ａ、映像選択装置１１０Ｂ、映像選択装置１１０Ｃ、映像選択装置１１０Ｄ、特徴生成装置１００、又は、特徴生成装置１００Ｄとして動作する。

付随情報受信部１０１、教師データ受信部１０３、属性抽出部１０５、素性抽出部１０６、映像特徴生成部１０８、対象受信部１１１、対象特徴生成部１１２、類似度導出部１１３、映像選択部１１４、出力部１１５、映像特徴受信部１１６、映像受信部１１８、教師データ受信部１２１、教師データ送信部１２３、付随情報受信部１２４、及び、付随情報送信部１２６は、例えば、プログラムを記憶する記録媒体１００５からメモリ１００２に読み込まれた、各部の機能を実現することができる専用のプログラムと、そのプログラムを実行するプロセッサ１００１により実現することができる。また、付随情報記憶部１０２、教師データ記憶部１０４、素性記憶部１０７、映像特徴記憶部１１７、映像記憶部１１９、教師データ記憶部１２２、及び、付随情報記憶部１２５は、コンピュータ１０００が含むメモリ１００２やハードディスク装置等の記憶装置１００３により実現することができる。あるいは、付随情報受信部１０１、付随情報記憶部１０２、教師データ受信部１０３、教師データ記憶部１０４、属性抽出部１０５、素性抽出部１０６、素性記憶部１０７、映像特徴生成部１０８、対象受信部１１１、対象特徴生成部１１２、類似度導出部１１３、映像選択部１１４、出力部１１５、映像特徴受信部１１６映像特徴記憶部１１７、映像受信部１１８、映像記憶部１１９、教師データ受信部１２１、教師データ記憶部１２２、教師データ送信部１２３、付随情報受信部１２４、付随情報記憶部１２５、及び、付随情報送信部１２６の一部又は全部を、各部の機能を実現する専用の回路によって実現することもできる。

また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、
対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、
前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、
導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、
を備える映像選択システム。

（付記２）
前記複数の映像の少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記映像の前記属性を修飾する語句である素性を抽出する素性抽出部をさらに備え、
前記映像特徴生成手段は、前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の前記映像特徴量として生成し、
前記対象特徴生成手段は、前記対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象特徴量として生成する
付記１に記載の映像選択システム。

（付記３）
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段
をさらに備える付記２に記載の映像選択システム。

（付記４）
それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納する素性抽出手段と、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成手段と、
を備える特徴量生成装置。

（付記５）
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段
をさらに備える付記４に記載の特徴量生成装置。

（付記６）
映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成し、
対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成し、
前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出し、
導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する、
映像選択方法。

（付記７）
前記複数の映像の少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記映像の前記属性を修飾する語句である素性を抽出し、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の前記映像特徴量として生成し、
前記対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象特徴量として生成する
付記６に記載の映像選択方法。

（付記８）
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する
付記７に記載の映像選択方法。

（付記９）
それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納し、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する、
特徴量生成方法。

（付記１０）
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する
付記９に記載の特徴量生成方法。

（付記１１）
コンピュータを、
映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、
対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、
前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、
導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、
して動作させる映像選択プログラム。

（付記１２）
コンピュータを、
前記複数の映像の少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記映像の前記属性を修飾する語句である素性を抽出する素性抽出部と、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の前記映像特徴量として生成する前記映像特徴生成手段と、
前記対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象特徴量として生成する前記対象特徴生成手段と、
して動作させる付記１１に記載の映像選択プログラム。

（付記１３）
コンピュータを、
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段と
して動作させる付記１２に記載の映像選択プログラム。

（付記１４）
コンピュータを、
それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納する素性抽出手段と、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成手段と、
して動作させる特徴量生成プログラム。

（付記１５）
コンピュータを、
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段と
して動作させる付記１４に記載の特徴量生成プログラム。

以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

１映像選択システム
１Ａ映像選択システム
１Ｂ映像選択システム
１Ｃ映像選択システム
１Ｄ映像選択システム
１００特徴生成装置
１００Ｄ特徴生成装置
１０１付随情報受信部
１０２付随情報記憶部
１０３教師データ受信部
１０４教師データ記憶部
１０５属性抽出部
１０６素性抽出部
１０７素性記憶部
１０８映像特徴生成部
１１０映像選択装置
１１０Ａ映像選択装置
１１０Ｂ映像選択装置
１１０Ｃ映像選択装置
１１０Ｄ映像選択装置
１１１対象受信部
１１２対象特徴生成部
１１３類似度導出部
１１４映像選択部
１１５出力部
１１６映像特徴受信部
１１７映像特徴記憶部
１１８映像受信部
１１９映像記憶部
１２１教師データ受信部
１２２教師データ記憶部
１２３教師データ送信部
１２４付随情報受信部
１２５付随情報記憶部
１２６付随情報送信部
１０００コンピュータ
１００１プロセッサ
１００２メモリ
１００３記憶装置
１００４Ｉ／Ｏインタフェース
１００５記録媒体

Claims

映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、
対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、
前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、
導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、
を備える映像選択システム。
前記複数の映像の少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記映像の前記属性を修飾する語句である素性を抽出する素性抽出部をさらに備え、
前記映像特徴生成手段は、前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の前記映像特徴量として生成し、
前記対象特徴生成手段は、前記対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象特徴量として生成する
請求項１に記載の映像選択システム。
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段
をさらに備える請求項２に記載の映像選択システム。
それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納する素性抽出手段と、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成手段と、
を備える特徴量生成装置。
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段
をさらに備える請求項４に記載の特徴量生成装置。
映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成し、
対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成し、
前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出し、
導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する、
映像選択方法。
前記複数の映像の少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記映像の前記属性を修飾する語句である素性を抽出し、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の前記映像特徴量として生成し、
前記対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象特徴量として生成する
請求項６に記載の映像選択方法。
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する
請求項７に記載の映像選択方法。
それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納し、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する、
特徴量生成方法。
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する
請求項９に記載の特徴量生成方法。
コンピュータを、
映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、
対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、
前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、
導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、
して動作させる映像選択プログラム。
コンピュータを、
前記複数の映像の少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記映像の前記属性を修飾する語句である素性を抽出する素性抽出部と、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の前記映像特徴量として生成する前記映像特徴生成手段と、
前記対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象特徴量として生成する前記対象特徴生成手段と、
して動作させる請求項１１に記載の映像選択プログラム。
コンピュータを、
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段と
して動作させる請求項１２に記載の映像選択プログラム。
コンピュータを、
それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納する素性抽出手段と、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成手段と、
して動作させる特徴量生成プログラム。
コンピュータを、
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段と
して動作させる請求項１４に記載の特徴量生成プログラム。