JP2016081265A - 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム - Google Patents

映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム Download PDF

Info

Publication number
JP2016081265A
JP2016081265A JP2014211413A JP2014211413A JP2016081265A JP 2016081265 A JP2016081265 A JP 2016081265A JP 2014211413 A JP2014211413 A JP 2014211413A JP 2014211413 A JP2014211413 A JP 2014211413A JP 2016081265 A JP2016081265 A JP 2016081265A
Authority
JP
Japan
Prior art keywords
video
feature
text
target
videos
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014211413A
Other languages
English (en)
Other versions
JP6446987B2 (ja
Inventor
祐一 森谷
Yuichi Moriya
祐一 森谷
善雄 石澤
Yoshio Ishizawa
善雄 石澤
康高 山本
Yasutaka Yamamoto
康高 山本
綾子 星野
Ayako Hoshino
綾子 星野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014211413A priority Critical patent/JP6446987B2/ja
Publication of JP2016081265A publication Critical patent/JP2016081265A/ja
Application granted granted Critical
Publication of JP6446987B2 publication Critical patent/JP6446987B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】 テキストと映像とのマッチングを行う負荷を軽減することができる映像選択装置などを提供する。
【解決手段】 本発明の一態様に係る映像選択システムは、映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、を備える。
【選択図】 図18

Description

本発明は、コンピュータなどを用いて映像を選択する情報処理技術に関する。
音声と共に映像を再生する際、再生される音声の内容と映像の内容とがかけ離れていれば、その音声及び映像を視聴する視聴者は違和感を覚える。しかし、人手で音声の内容に関係がある映像を選択することは、非常に繁雑な作業である。再生される音声として、例えば、ナレーション、朗読、アナウンス、及び楽曲の歌詞などがある。
楽曲に合わせて画像を表示する技術の例が、特許文献1によって開示されている。特許文献1によって開示されているスライドショー作成サーバは、楽曲の行ごとの歌詞と、行ごとに表示される一連の画像と、歌詞を利用して推定された全体印象語とを含む、元スライドショーのデータを、複数の元スライドショーについて記憶する。スライドショー作成サーバは、ユーザによって指定された複数の画像から画像特徴量を抽出する。スライドショー作成サーバは、抽出した画像特徴量を用いて画像データにタグを付与する。スライドショー作成サーバは、指定された画像全てについて、付与されているタグを使用して、全体印象ラベルを付与する。スライドショー作成サーバは、付与した全体印象ラベルに適合する元スライドショーを選択する。スライドショー作成サーバは、選択された元スライドショーの画像データを、ユーザによって指定された画像で置き換えることによって、新しいスライドショーを作成する。
特許文献2には、複数の種別のうち、必ずしも同一でないいずれかの1つ以上の種別に分類される、複数のコンテンツの類似度を示す距離を算出するコンテンツ検索装置が記載されている。そのコンテンツ検索装置は、導出可能なコンテンツの特徴(画像特徴、音響特徴、及び意味特徴のいずれか1つ以上)の特徴量を導出する。そのコンテンツ検索装置は、あらかじめ計算された異なる特徴間の相関に基づいて、導出した特徴量を使用して、そのコンテンツの未知の特徴の特徴量を推定する。そのコンテンツ検索装置は、例えば、画像コンテンツ及びそのメタデータから導出した画像特徴量及び意味特徴量に基づいて、その画像コンテンツの音響特徴量を推定する。そのコンテンツ検索装置は、導出及び推定した全ての特徴量に基づいて、類似度を算出する。
特許文献3には、楽曲をカテゴリに分類する楽曲分類装置が記載されている。その楽曲分類装置は、楽曲の歌詞データに基づいて、楽曲をカテゴリ名によって特定される分類先に分類するカテゴリ分類器を、学習によって生成する。その楽曲分類装置は、カテゴリに分類された楽曲を、クラスタリングによってサブカテゴリに分類する。
特開2014−115729号公報 国際公開第2010/053160号 特開2013−214326号公報
再生される音声の内容は、テキストによって表すことができる。
特許文献1のスライドショー作成サーバは、あらかじめ作成されている元スライドショーの画像データを、ユーザによって指定された画像で置き換えることによって、新しいスライドショーを作成する。従って、そのスライドショー作成サーバは、例えば楽曲が表すテキストにマッチした映像を選択することはできない。
また、元スライドショーは、楽曲と、その楽曲の歌詞が表すテキストにマッチしない画像データとによって作成されていてもよい。その場合、そのスライドショー作成サーバが作成する新しいスライドショーは、楽曲と、その楽曲の歌詞が表すテキストにマッチしない画像データとによって構成される。すなわち、そのスライドショー作成サーバは、楽曲と、その楽曲が表すテキストにマッチする画像データとによって構成されるスライドショーを作成するとは限らない。
特許文献2のコンテンツ検索装置は、計算又は推定された特徴量に基づいてコンテンツ間の距離を計算することによって、コンテンツ間の類似度を推定する。そのコンテンツ検索装置が、例えば指定されたテキストからの距離が小さいコンテンツを検索する場合、必ずしも映像が得られるとは限らない。また、コンテンツ間の距離は音響特徴量にも依存するので、互いにマッチするテキスト及び映像の意味特徴量及び顔像特徴量が近い場合であっても、計算又は推定された音響特徴量の差が大きければ、そのテキスト及び映像の間の距離は小さくならない。従って、そのコンテンツ検索装置は、テキストにマッチした映像を選択することはできない。
特許文献3の技術は、楽曲を分類する技術である。従って、特許文献3の技術によって、テキストにマッチした映像を選択することはできない。
本発明の目的は、テキストと映像とのマッチングを行う負荷を軽減することができる映像選択装置などを提供することにある。
本発明の一態様に係る映像選択システムは、映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、を備える。
本発明の一態様に係る特徴量生成装置は、それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納する素性抽出手段と、前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成手段と、を備える。
本発明の一態様に係る映像選択方法は、映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成し、
対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成し、前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出し、導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する。
本発明の一態様に係る特徴量生成方法は、それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納し、前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する。
本発明の一態様に係る映像選択プログラムは、コンピュータを、映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、して動作させる。
本発明の一態様に係る特徴量生成プログラムは、コンピュータを、それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納する素性抽出手段と、前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成手段と、して動作させる。
本発明には、テキストと映像とのマッチングを行う負荷を軽減することができるという効果がある。
図1は、本発明の第1の実施形態に係る映像選択装置1の構成を表すブロック図である。 図2は、本発明の第1の実施形態の付随情報の例を表す図である。 図3は、特徴生成装置100の、複数のテキストと付随情報とに基づいて素性を抽出する動作の例を表すフローチャートである。 図4は、抽出される素性の例を模式的に表す図である。 図5は、抽出された素性の例を模式的に表す図である。 図6は、素性リストの例を模式的に表す図である。 図7は、本発明の第1の実施形態の特徴生成装置100の、映像特徴を生成する動作の例を表すフローチャートである。 図8は、映像毎の、映像に関連付けられているテキストの例を模式的に表す図である。 図9は、映像特徴ベクトル例を模式的に表す図である。 図10は、本発明の第1の実施形態の映像選択装置110の、映像特徴ベクトルを受信する動作の例を表すフローチャートである。 図11は、本発明の第1の実施形態の映像選択装置110の、対象テキストを受信するのに応じて映像を選択する動作の例を表すフローチャートである。 図12は、対象特徴ベクトルの例を模式的に表す図である。 図13は、類似度導出部113が類似度を導出する、対象特徴量、及び、映像特徴量の例を模式的に表す図である。 図14は、類似度の例を模式的に表す図である。 図15は、本発明の第1の実施形態の第1の変形例の映像選択システム1Aの構成の例を表すブロック図である。 図16は、本発明の第1の実施形態の第2の変形例の映像選択システム1Bの構成の例を表すブロック図である。 図17は、本発明の第1の実施形態の第3の変形例の映像選択システム1Cの構成の例を表すブロック図である。 図18は、本発明の第2の実施形態の映像選択システム1Dの構成の例を表すブロック図である。 図19は、本発明の各実施形態に係る映像選択装置及び特徴生成装置を実現するのに使用できるコンピュータの構成の例を表すブロック図である。
以下では、本発明の実施形態について、図面を参照して詳細に説明する。
<第1の実施形態>
まず、本発明の第1の実施形態について、図面を参照して詳細に説明する。
図1は、本発明の第1の実施形態に係る映像選択システム1の構成を表すブロック図である。
図1を参照すると、本実施形態の映像選択システム1は、特徴生成装置100と、映像選択装置110とを含む。特徴生成装置100と、映像選択装置110とは、通信可能に接続されている。図1に示す例では、特徴生成装置100と、映像選択装置110とは、異なる装置として実装されている。しかし、映像選択装置110が、特徴生成装置100を含んでいてもよい。映像選択装置110が、特徴生成装置100として動作してもよい。
特徴生成装置100は、付随情報受信部101と、付随情報記憶部102と、教師データ受信部103と、教師データ記憶部104と、属性抽出部105と、素性抽出部106と、素性記憶部107と、映像特徴生成部108とを含む。映像選択システム1は、映像選択システム1のユーザが指示などを入力するのに使用する、ユーザ端末(図示されない)を含んでいてもよい。
映像選択装置110は、対象受信部111と、対象特徴生成部112と、類似度導出部113と、映像選択部114と、出力部115と、映像特徴受信部116と、映像特徴記憶部117とを含む。映像選択装置110は、さらに、映像受信部118と、映像記憶部119とを含んでいてもよい。
教師データ受信部103は、複数のテキストを受信する。本発明の各実施形態において、テキストを表すデータを、単にテキストとも表記する。例えば、テキストを受信することは、そのテキストを表すデータを受信することを意味する。それらの複数のテキストは、例えば、映像選択装置110によって、教師データ受信部103に入力されてもよい。それらの複数のテキストは、例えば、後述の複数の映像を記憶する映像サーバ(図示されない)によって、教師データ受信部103に入力されてもよい。それらの複数のテキストは、例えば、ユーザ端末(図示されない)によって、教師データ受信部103に入力されてもよい。
教師データ受信部103が受信するテキストの各々は、そのテキストの内容と関連する、複数の映像のうち少なくともいずれかの映像に関連付けられている。それらの複数の映像の各々は、少なくとも1つのテキストと関連付けられていればよい。例えば、映像選択システム1のユーザが、複数のテキストの各々について、テキストとそのテキストの内容に関連すると判定した映像とを、あらかじめ関連付けておけばよい。テキストの内容に関連すると判定された映像は、例えば、そのテキストの内容に、視覚的に、体感的に、または、視覚的で体感的にマッチすると判定された映像である。映像選択システム1のユーザは、複数の映像の各々について、その映像の内容に、視覚的に、体感的に、または、視覚的で体感的にマッチすると判定した1つ以上のテキストを、その映像に関連付けておいてもよい。映像に関連付けられるテキストは、その映像の企画意図を含んでいてもよい。後述されるように、企画意図は、例えば、映像のコンセプトや、映像を制作する目的などを表すフレーズや文章である。
教師データ受信部103は、テキストと、少なくとも一つの、映像の識別子である映像ID(Identifier)との、複数の組を受信すればよい。教師データ受信部103は、受信した、複数の映像の少なくともいずれかに関連付けられているテキストを、教師データ記憶部104に格納する。
テキストは、例えば、歌詞である。テキストは、ナレーション、朗読、又はアナウンスの内容を表すテキストであってもよい。以下では、主に、テキストが歌詞である場合の映像選択システム1について説明する。
教師データ記憶部104は、それぞれ、複数の映像の少なくともいずれかに関連付けられている、複数のテキストを記憶する。
付随情報受信部101は、上述の複数の映像の各々の、付随情報を受信する。付随情報は、例えば、映像選択装置110によって、付随情報受信部101に入力されてもよい。付随情報は、例えば、前述の映像サーバ(図示されない)によって、付随情報受信部101に入力されてもよい。付随情報は、例えば、ユーザ端末(図示されない)によって、付随情報受信部101に入力されてもよい。付随情報受信部101は、受信した付随情報を、付随情報記憶部102に格納する。
付随情報記憶部102は、複数の映像の各々の、付随情報を記憶する。
付随情報は、映像の内容を表す単語を含む情報である。付随情報は、例えば、映像を分類する観点(すなわち、映像の種類)を表す項目毎に、単語によって表されていてもよい。付随情報は、項目毎に、文章又はフレーズによって表されていてもよい。付随情報は、項目毎に、単語と、文章又はフレーズとの、いずれか一方又は双方によって表されていてもよい。
図2は、付随情報の例を表す図である。付随情報は、例えば、映像の内容を表す複数の種類の情報を含む。それらの複数の種類の情報は、例えば、映像を複数の観点で複数のカテゴリに分類した場合における、分類の観点及び分類の結果を表す。その場合、例えば、分類の観点を項目と表記し、分類の観点を特定する名称を項目名と表記し、分類の結果(すなわち、映像が分類されたカテゴリ)を項目の値と表記する。付随情報は、分類の観点及び分類の結果でなくてもよい。「項目名」は、付随情報によって内容が表される映像の、分類の観点を表す名称である。図2では、「例(内容)」は、それぞれの項目名によって表される情報の、具体例又は内容を表す。括弧によって囲まれていない単語は、付随情報が含む、項目毎の値の具体例である。括弧によって囲まれている語句が、付随情報が含む項目毎の値の内容を表す。付随情報によって内容が表される映像の種類は、項目毎の値によって表される。図2を参照すると、付随情報は、例えば、企画意図、モデル、服装、場所、季節、天候、時候、イベントなどの項目名によって表される項目の値を含む。以下の説明では、例えば、項目名が「企画意図」である項目の値を、「企画意図の値」などと表記する。
図2に示す例では、企画意図の値は、例えば、フレーズ又は文章によって表される。企画意図以外の項目の値は、単語によって表される。企画意図の値であるフレーズや文章は、例えば、映像のコンセプトや、映像を制作する目的などを表す。モデルの値は、例えば、男女、男、女などの映像に登場する人物の性別などである。モデルの値は、人物以外の、動物、植物、又は物などであってもよい。服装の値は、例えば、洋服、和服などの、映像に登場する人物の服装である。服装の値は、単に「服」であってもよい。場所の値は、例えば、映像が撮影された場所、又は、撮影の対象が存在する場所を表す単語である。場所の値は、都会や海などの、場所の区分を表す単語であっても、具体的な地域名であってもよい。季節の値は、映像が撮影された季節を表す単語である。天候の値は、映像が撮影されたときの天候を表す単語である。時候の値は、映像が撮影された時間帯を表す単語である。イベントの値は、映像として撮影された場面において起こっているイベントを表す単語である。付随情報は、単語によって表される項目について、一つの項目当たり2つ以上の単語を含んでいてもよい。単語を含まない項目(すなわち、値が存在しない項目)が存在していてもよい。付随情報は、図2に示す例に限られない。付随情報は、図2に示す項目を含んでいなくてもよい。付随情報は、図2に示す項目以外の項目の情報を含んでいてもよい。
属性抽出部105は、付随情報から、映像の内容の少なくとも一部を表す単語である、属性を抽出する。属性抽出部105は、付随情報が値として単語を含む場合、その単語を抽出すればよい。付随情報が値として文章又はフレーズを含む場合、属性抽出部105は、その文章又はフレーズから、例えば、TF−IDF(Term Frequency−Inverse Document Frequency)法によって、映像毎に、その映像の特徴を表す単語を抽出すればよい。
素性抽出部106は、抽出された属性の各々について、教師データ記憶部104に格納されているテキストから、その属性に係る(すなわち、その属性を修飾する)語句を、素性として抽出する。素性抽出部106は、抽出された属性の各々について、例えばその属性を持つ映像に関連付けられているテキストから、その属性に係る(すなわち、その属性を修飾する)語句を、素性として抽出すればよい。映像が持つ属性は、その映像の付随情報が含む属性である。素性抽出部106は、抽出した素性を、素性記憶部107に格納する。素性抽出部106は、抽出した全ての素性のリストである、素性リストを生成してもよい。素性抽出部106は、生成した素性リストを、素性記憶部107に格納してもよい。
素性抽出部106は、例えば、テキストに対して、形態素解析や構文解析などの、基本的なテキスト処理によって、属性に係る語句を検出し、検出された語句の品詞や特性を推定すればよい。
素性抽出部106が検出する語句の長さは、限定されていればよい。その場合、語句の長さは、語句を構成する単位の数であればよい。語句を構成する単位は、例えば、その語句を構成する、形容詞、形容動詞、及び、名詞と助詞との組み合わせなどであればよい。例えば、属性が「人」であり、「人」に係る語句として、「背が高い」が検出された場合、素性抽出部106は、語句「背が高い」を構成する単位として、例えば、「背が」と「高い」を特定すればよい。そして、素性抽出部106は、語句「背が高い」の長さが2であると判定すればよい。素性抽出部106は、あらかじめ決められた長さ(例えば2個)以下の長さの語句を検出すればよい。語句の特性は、例えば、属性を修飾する可能性が否かを表す特性である。
素性抽出部106は、テキスト処理の結果を使用して、検出された、属性に係る語句が、その属性を修飾しうる語句か否かを判定すればよい。素性抽出部106は、検出された、属性に係る語句が、その属性を修飾しうると判定した場合、その語句を素性として抽出すればよい。
例えば、素性抽出部106は、検出された語句が、形容詞、形容動詞、又は、名詞と助詞との組み合わせなどの、他の単語を修飾できる語句である場合、その語句が属性を修飾しうる語句であると判定すればよい。その場合、素性抽出部106は、検出された語句を、素性として抽出してもよい。
素性抽出部106は、さらに、例えば、単語の種類と、その種類の単語を修飾するのに使用される語句との組み合わせを含む辞書を使用して、属性に係る語句として検出された語句が、その属性を修飾する語句として使用されるか否かを判定してもよい。素性抽出部106は、検出された語句が他の単語を修飾できる語句であり、さらに、検出された語句が、その語句が係る属性を修飾するのに使用される場合、その語句を素性として抽出してもよい。
素性は、素性抽出部106によって、映像に関連付けられているテキストから抽出される素性に限られない。素性は、あらかじめ選択された、例えば、イベントの名称を表す語句や、場所を表す語句を含んでいてもよい。素性抽出部106によって映像に関連付けられているテキストから抽出される素性以外の素性は、例えば映像選択システム1の管理者によって、あらかじめ素性記憶部107に格納されていてもよい。イベントや場所を表す語句が集められた辞書が、例えば映像選択システム1の管理者によって、あらかじめ作成され、例えば素性辞書記憶部(図示されない)や素性記憶部107などの、素性抽出部106がアクセスできる記憶部に格納されていてもよい。そして、素性抽出部106は、そのような辞書から語句を読み出してもよい。素性抽出部106は、上述の辞書から読み出した語句を、素性として、素性記憶部107に格納してもよい。
上述のように、映像には、その映像に内容が関連すると判定された、例えば歌詞などのテキストが関連付けられている。映像の内容を表す情報(例えば上述の付随情報)から抽出された単語(例えば上述の属性)は、その映像に関連付けられている、例えば歌詞などのテキストにも現れることが多い。そして、映像に関連付けられているテキストにおいて現れる、その映像の内容を表す情報から抽出された単語に係る語句は、「視覚的」、「体感的」な語句であることが、経験的に知られている。従って、素性抽出部106が素性として抽出する語句は、「視覚的」、「体感的」な語句である。言い換えると、素性抽出部106は、「視覚的」、「体感的」な語句を、素性として抽出することができる。
映像特徴生成部108は、映像毎に、映像に関連付けられているテキスト対してテキストマイニング処理を行うことによって、その映像の特徴量である映像特徴量を生成する。より具体的には、映像特徴生成部108は、映像毎に、映像に関連付けられているテキストにおいて、抽出された素性の各々を検出する。そして、映像特徴生成部108は、映像毎に、映像に関連付けられているテキストにおいて出現する素性を表す、映像特徴量を生成する。上述のテキストマイニング処理は、例えば、上述のように素性を抽出し、抽出された素性の各々を検出することを表す。映像特徴生成部108は、前述の複数の映像の全てが選択されるまで、順次映像を選択しながら、選択された映像の映像特徴量の生成を繰り返せばよい。具体的には、映像特徴生成部108は、例えば、映像を選択し、選択した映像に関連付けられているテキストにおいて、素性として抽出された語句(すなわち、素性)を検出すればよい。
映像特徴生成部108は、素性を検出した結果に基づいて、検出された素性を表す特徴量を、映像特徴量として生成する。映像特徴量は、例えば、検出された素性が要素である集合であってもよい。映像特徴量は、例えば、抽出された全ての素性がいずれかの要素に関連付けられているベクトルによって表現されていてもよい。その場合、以下の説明では、映像特徴量を、映像特徴ベクトルとも表記する。映像特徴生成部108は、例えば、素性とベクトルの要素とが、1対1に関連付けられるように、素性とベクトルの要素とを関連付ければよい。映像特徴生成部108は、例えば、素性リストにおける素性の順で、素性と、映像特徴ベクトルの要素とを関連付ければよい。映像特徴量は、例えば、要素の値が、その要素に関連付けられている素性が出現したことを表す値(例えば1)又はその要素が出現しなかったことを表す値(例えば0)である、映像特徴ベクトルであってもよい。
映像特徴生成部108は、選択した映像に関連付けられているテキストにおいて、素性毎に、素性の出現頻度を検出してもよい。その場合、映像特徴生成部108は、素性毎に検出された素性の出現頻度を表す特徴量を、映像特徴量として生成すればよい。映像特徴量は、要素が、検出された素性とその素性の出現頻度との組み合わせである、集合であってもよい。映像特徴量は、要素の値が、その要素に関連付けられている素性の出現頻度である、映像特徴ベクトルであってもよい。その場合、映像特徴生成部108は、複数の映像の映像特徴ベクトルの大きさが一定になるように、各映像特徴ベクトルを正規化すればよい。
映像特徴ベクトルの大きさは、例えば、長さ(すなわち、各要素の値の2乗の和の平方根)である。映像特徴生成部108は、各映像の特徴ベクトルの大きさが1になるように、各映像特徴ベクトルを正規化してもよい。
映像特徴生成部108は、生成した、各映像の映像特徴量を、映像選択装置110に送信する。映像特徴生成部108は、複数の映像の各々について、映像IDと映像特徴量とを関連付け、互いに関連付けられた映像IDと映像特徴量とを、映像選択装置110に送信すればよい。映像特徴生成部108は、さらに、抽出された素性を、映像選択装置110に送信する。映像特徴生成部108は、素性記憶部107から素性リストを読み出し、読み出した素性リストを、映像選択装置110にすればよい。
映像選択装置110の映像特徴受信部116は、映像特徴生成部108から、各映像の映像特徴量を受信する。映像特徴生成部108は、複数の映像の各々について、互いに関連付けられた映像IDと映像特徴量とを、映像特徴生成部108から受信すればよい。映像特徴受信部116は、受信した、複数の映像の各々の、互いに関連付けられた映像IDと映像特徴量とを、映像特徴記憶部117に格納する。映像特徴受信部116は、さらに、例えば映像特徴生成部108から、例えば素性リストとして、抽出された素性の集合を受信し、受信した素性の集合(例えば素性リスト)を、映像特徴記憶部117に格納する。
映像特徴記憶部117は、複数の映像の各々の、互いに関連付けられた映像IDと映像特徴量とを記憶する。映像特徴記憶部117は、さらに、素性の集合(例えば素性リスト)を記憶する。
対象受信部111は、例えば、ユーザによって指定されたテキストを、そのユーザが使用するユーザ端末(図示されない)から受信する。指定されたテキストは、例えば、ユーザが、映像選択装置110に、そのテキストに応じた映像を選択させるテキストである。以下の説明では、指定されたテキストを、対象テキストと表記する。対象テキストは、例えば、歌詞である。対象テキストは、例えば、ナレーション、朗読、あるいは、アナウンスなどの内容を表すテキストであってもよい。
対象特徴生成部112は、対象テキストに対してテキストマイニング処理を行うことによって、その対象テキストの特徴量である対象特徴量を生成する。より具体的には、対象特徴生成部112は、対象テキストにおいて、例えば映像特徴記憶部117に格納されている素性の集合(例えば素性リスト)に含まれる素性を検出する。そして対象特徴生成部112は、素性を検出した結果に基づいて、対象テキストにおいて出現する素性を表す特徴量である、対象特徴量を生成する。
映像特徴生成部108が生成する映像特徴量が、素性毎に、映像に関連付けられているテキストにおいて素性が出現するか否かを表す特徴量である場合、対象特徴生成部112は、対象テキストにおいて、各素性が出現するか否かを検出すればよい。そして、対象特徴生成部112は、素性が出現するか否かを、素性毎に表す対象特徴量を生成すればよい。対象特徴量は、検出された素性の集合であってもよい。対象特徴量は、各要素の値が、その要素に関連付けられている素性が出現したことを表す値(例えば1)、又は、その要素に関連付けられている要素が出現しなかったことを表す値(例えば0)であるベクトル(対象特徴ベクトル)であってもよい。
映像特徴量が素性毎の素性の出現頻度を表す場合、対象特徴生成部112は、対象テキストにおいて、素性毎の素性の出現頻度を検出すればよい。そして、対象特徴生成部112は、各素性の出現頻度を表す対象特徴量を生成すればよい。対象特徴量は、例えば、要素が、素性とその素性の出現頻度との組み合わせである、集合であってもよい。対象特徴量は、各要素の値が、その要素に関連付けられている素性の出現頻度を表すベクトル(対象特徴ベクトル)であってもよい。対象特徴生成部112は、対象特徴ベクトルを正規化してもよい。対象特徴生成部112は、対象特徴ベクトルを正規化しなくてもよい。
類似度導出部113は、複数の映像の各々について、映像の映像特徴量に対する、対象特徴量の類似の程度を示す指標である、類似度を導出する。すなわち、類似度導出部113が導出する類似度は、映像特徴量と対象特徴量とが、どの程度類似しているかを示す指標である。以下の説明では、2つの特徴量が類似していることを、類似性が高いと表記する。2つの特徴量が類似していないことを、類似性が低いと表記する。2つの特徴量が類似する程度を、類似性の高さと表記する。類似度は、類似性が高いほど大きくてもよい。類似度は、類似性が高いほど小さくてもよい。
類似度は、例えば、式1によって表される、コサイン類似度である。類似度がコサイン類似度である場合、類似度の値が大きいほど、類似性が高い。式1及び以下で示す式において、「×」は掛け算を表す識別子である。ベクトルqは、対象特徴ベクトルであり、qは対象特徴ベクトルのi番目の要素である。ベクトルdは、x番目の映像の映像特徴ベクトルであり、d は、ベクトルdのi番目の要素である。また、映像の数はN(Nは自然数)である。
Figure 2016081265
類似度は、例えば、式2によって表される、ユークリッド距離であってもよい。類似度がユークリッド距離である場合、類似度の値が小さいほど、類似性が高い。類似度は、ユークリッド距離の逆数であってもよい。その場合、ユークリッド距離が0である場合、類似度導出部113は、例えば、類似度導出部113が処理できる最大の数値を、類似度として設定すればよい。類似度がユークリッド距離の逆数である場合、類似度の値が大きいほど、類似性が高い。式2において、「t」はベクトルの転置を表し、「*」はベクトルの積(内積)を表す。式2において、各ベクトルは行ベクトルである。
Figure 2016081265
類似度は、式3によって表される、ジャッカード係数であってもよい。ジャッカード係数は、2つの特徴ベクトルの0ではない共通の要素の数を、それらの特徴ベクトルの少なくとも一方の要素が0ではない要素の数で割ることによって得られる値である。類似度がジャッカード係数である場合、類似度の値が大きいほど、類似性が高い。式3において、|Q∩Dx|は、ベクトルqとベクトルdの、値が0でない共通の要素の数を表す。|Q∪Dx|ベクトルqとベクトルdの少なくとも一方の要素の値が0ではない要素の数である。Qは、例えば、ベクトルqの、値が0でない要素の番号の集合である。Dxは、例えば、ベクトルdの、値が0でない要素の番号の集合である。「∩」は、積集合を表す。「∪」は和集合を表す。
類似度=|Q∩Dx|/|Q∪Dx| ・・・(式3)
映像選択部114は、導出された類似度が、類似性が高いことを表す映像を選択する。映像選択部114は、複数の映像の各々について算出された類似度から、類似性が最も高いことを表す類似度を選択すればよい。そして、映像選択部114は、選択された類似度の導出に使用された映像特徴量を持つ(すなわち映像特徴量に関連付けられている)映像を選択すればよい。
対象受信部111は、対象テキストに加えて、排除キーワードを受信してもよい。排除キーワードは、1つ以上の単語である。その場合、映像選択部114は、付随情報に排除キーワードのいずれかが含まれる映像を、導出される類似度の値にかかわらず、選択しない。また、その場合、例えば映像記憶部119が、付随情報記憶部102が記憶する付随情報と同じ付随情報を記憶していればよい。例えば、映像受信部118が、複数の映像を記憶する映像サーバ(図示されない)、ユーザ端末(図示されない)、又は特徴生成装置100などから、その付随情報を受信すればよい。そして映像受信部118が、受信した付随情報を映像記憶部119に格納すればよい。
出力部115は、映像選択部114による選択の結果を表すデータを出力する。選択の結果を表すデータは、例えば、選択された映像の映像IDである。
前述のように、映像選択装置110は、映像受信部118と映像記憶部119とを含んでいてもよい。
映像受信部118は、前述の複数の映像を記憶する映像サーバ(図示されない)から、それらの複数の映像の映像データを受信する。そして、映像受信部118は、受信した映像データを、映像記憶部119に格納する。映像記憶部119は、映像受信部118によって格納された、複数の映像の映像データを記憶する。
映像記憶部119が複数の映像データを記憶している場合、出力部115は、映像選択部114によって選択された映像の映像データを出力してもよい。
次に、本実施形態の映像選択システム1の動作について、図面を参照して詳細に説明する。
図3は、特徴生成装置100の、複数のテキストと付随情報とに基づいて素性を抽出する動作の例を表すフローチャートである。
まず、教師データ受信部103が、映像に関連付けられた1つ以上のテキストを、複数の映像の各々について受信する(ステップS101)。映像に関連付けられた1つ以上のテキストは、教師データとも表記される。教師データ受信部103は、受信した教師データを、教師データ記憶部104に格納する(ステップS102)。
次に、付随情報受信部101が、付随情報を受信する(ステップS103)。図2は、付付随情報受信部101が受信する、付随情報の例を表す。付付随情報受信部101は、複数の映像の各々について、図2に例示する付随情報を受信する。付随情報受信部101は、受信した付随情報を、付随情報記憶部102に格納する(ステップS104)。
ステップS103及びステップS104の動作は、ステップS101及びステップS102の動作より前に行われてもよい。ステップS103及びステップS104の動作は、ステップS101及びステップS102の動作と並列に行われてもよい。
次に、属性抽出部105は、付随情報記憶部102に格納されている付随情報から、属性を抽出する(ステップS105)。
次に、素性抽出部106が、属性抽出部105が抽出した属性を修飾する語句を、素性として、学習データから抽出する(ステップS106)。
図4は、抽出される素性の例を模式的に表す図である。図4に示す例では、映像1とテキストAが関連付けられている。映像2とテキストBが関連付けられている。映像3とテキストCが関連付けられている。右側のブロック内の語句は、それらのテキストの一部を模式的に表す。これらのブロック内で、丸括弧に囲まれている単語が、属性検出部105によって抽出された属性のうち、テキストに含まれる属性である。下線が付されている語句が、属性に係る語句として抽出された素性である。例えば、テキストAは、属性として、「春」と「男」とを含んでいる。素性抽出部106は、「春」に係る素性として、「暖かい」を抽出する。素性抽出部106は、さらに、「男」に係る素性として「背の高い」を抽出する。
図5は、抽出された素性の例を模式的に表す図である。図5において、「属性」は、いずれかのテキストにおいて検出された属性である。図5において、「素性」は、検出された属性に係る語句として抽出された素性である。
次に、素性抽出部106は、抽出された素性のリストである素性リストを生成する(ステップS107)。
図6は、素性リストの例を模式的に表す図である。図6において、「属性」は、いずれかのテキストにおいて検出された属性である。図6において、「素性」は、検出された属性に係る語句として抽出された素性である。図6において、太い線によって囲まれている部分が素性リストを表す。
次に、素性抽出部106は、生成した素性リストを、素性記憶部107に格納する(ステップS108)。
次に、本実施形態の特徴生成装置100の、映像特徴を生成する動作について、図面を参照して詳細に説明する。
図7は、本実施形態の特徴生成装置100の、映像特徴を生成する動作の例を表すフローチャートである。
図7を参照すると、映像特徴生成部108は、素性抽出部106によって抽出された素性のリストである素性リストを、素性記憶部107から読み出す。(ステップS111)。
次に、映像特徴生成部108は、映像に関連付けられているテキストを、映像毎に特定する(ステップS112)。
図8は、映像毎の、映像に関連付けられているテキストの例を模式的に表す図である。上述のように映像IDは映像を特定する識別子である。図8において、「テキスト」は、映像IDによって特定されるそれぞれの映像に関連付けられている、1つ以上のテキストの識別子を表す。
映像特徴生成部108は、映像毎に、映像に関連付けられているテキストにおいて、素性リストに含まれる素性を検出する(ステップS113)。映像特徴生成部108は、素性を検出した結果に基づいて、映像に関連付けられているテキストに出現する素性を表す映像特徴量(例えば映像特徴ベクトル)を、映像毎に生成する(ステップS114)。
図9は、映像特徴ベクトル例を模式的に表す図である。図9において、例えば、太い線によって描かれている四角形によって囲まれている部分が、映像1の映像特徴ベクトルを表す。映像1の特徴ベクトルの下の、2つの段に示す数値の列が、映像2及び映像3の映像特徴ベクトルを表す。図9に示す映像特徴ベクトルの各要素の値は、映像に関連付けられているテキストにおける、素性の出現頻度を表す。図9に示す例では、各映像特徴ベクトルは正規化されていない。
映像特徴生成部108は、さらに、各映像の映像特徴ベクトルの大きさが同じになるように、各映像特徴ベクトルを正規化すればよい。映像特徴生成部108ではなく、例えば、映像選択装置110の類似度導出部113が、各映像特徴ベクトルを正規化してもよい。
映像特徴生成部108は、映像毎に生成した映像特徴ベクトルと、素性リストとを、映像選択装置110に送信する(ステップS115)。
次に、本実施形態の映像選択装置110の動作について、図面を参照して詳細に説明する。まず、本実施形態の映像選択装置110の、映像特徴ベクトルを受信する動作について説明する。
図10は、本実施形態の映像選択装置110の、映像特徴ベクトルを受信する動作の例を表すフローチャートである。
図10を参照すると、映像特徴受信部116が、特徴生成装置100の映像特徴生成部108から、映像特徴量(例えば映像特徴ベクトル)と、素性リストとを受信する(ステップS201)。映像特徴受信部116は、受信した映像特徴量と素性リストとを、映像特徴記憶部117に格納する(ステップS202)。
次に、本実施形態の映像選択装置110の、対象テキストを受信するのに応じて映像を選択する動作について説明する。
図11は、本実施形態の映像選択装置110の、対象テキストを受信するのに応じて映像を選択する動作の例を表すフローチャートである。
図11を参照すると、まず、対象受信部111が、対象テキストを受信する(ステップS211)。対象受信部111は、例えば、コンテンツ配信サーバから、例えば、音声コンテンツの内容を表す対象テキストを受信してもよい。
次に、対象特徴生成部112は、対象受信部111が受信した対象テキストにおいて、素性抽出部106によって抽出された素性のリストである素性リストに含まれる素性を抽出する(ステップS212)。前述のように、素性リストは、例えば、映像特徴受信部116によって映像特徴記憶部117に格納されている。
対象特徴生成部112は、素性を抽出した結果に基づいて、対象テキストに出現する素性を表す、対象特徴量(例えば対象特徴ベクトル)を生成する(ステップS213)。
図12は、対象特徴ベクトルの例を模式的に表す図である。図12に示す数値列が、対処特徴ベクトルを表す。図12に示す対象特徴ベクトルは、対象テキストにおける、素性リストに含まれる各素性の出現頻度を表す。
次に、類似度導出部113が、映像特徴量の各々に対する、対象特徴量の類似の程度を表す類似度を算出する(ステップS214)。
図13は、類似度導出部113が類似度を導出する、対象特徴ベクトル、及び、映像特徴ベクトルの例を模式的に表す図である。図13に示す例では、対象特徴量は、対象特徴ベクトルである。映像特徴量は、映像特徴ベクトルである。また、図13に示す例では、対象特徴ベクトル、及び、各映像特徴ベクトルは、正規化されている。前述のように対象特徴ベクトルは、正規化されていなくてもよい。類似度導出部113は、映像特徴ベクトルの各々について、対象特徴ベクトルと映像特徴ベクトルとの間の類似性の高さを表す類似度を導出する。
図14は、類似度の例を模式的に表す図である。図14は、図13に示す各映像の映像特徴ベクトルと、対象特徴ベクトルとの間の類似性の高さを表す類似度である。図14に示す例では、類似度はコサイン類似度である。従って、類似度の値が大きいほど、類似性が高い。
映像選択部114は、算出した類似度を使用して、対象特徴量に類似する映像特徴量を選択する(ステップS215)。映像選択部114は、類似度が、類似性が最も高いことを表す映像特徴量を選択すればよい。図14に示す例では、類似度の値が最も大きい映像特徴量が、対象特徴量に最も良く類似する映像特徴量である。そして、映像3の映像特徴量が、対象特徴量に最も良く類似する。すなわち、図14に示す例では、映像3の映像特徴量と対象特徴量との類似性が最も高い。
映像選択部114は、選択された映像特徴量に関連する映像を選択する(ステップS216)。図14に示す例では、選択された、映像3の映像特徴量に関連する映像は、映像3である。映像選択部114は、映像3を選択する。
出力部115は、映像選択部114による選択の結果を出力する(ステップS217)。出力部115は、映像選択部114による選択の結果として、例えば、選択された映像の識別子(すなわち映像ID)を出力すればよい。図14に示す例では、出力部115は、選択された映像である映像3の映像IDを出力すればよい。出力部115は、例えば、対象受信部111に対象テキストを送信した装置に、選択された映像の映像IDを出力すればよい。対象受信部111が、コンテンツ配信サーバ(図示されない)から対象テキストを受信した場合、出力部115は、そのコンテンツ配信サーバに、選択された映像の映像IDを送信すればよい。コンテンツ配信サーバは、出力部115から映像IDを受信する。
例えば、コンテンツ配信サーバが、カラオケの楽曲と映像とを配信するカラオケサーバである場合、コンテンツ配信サーバは、楽曲の配信の要求を受信するのに応じて、その楽曲の歌詞である対象テキストを、映像選択装置110に送信すればよい。映像選択装置110は、送信された対象テキストに対して選択した映像IDをコンテンツ配信サーバに送信する。コンテンツ配信サーバは、受信した映像IDが表す映像を特定する。そして、コンテンツ配信サーバは、対象テキストが歌詞である楽曲と、受信した映像IDによって表される映像とを、例えば、その楽曲の配信を要求した端末に配信すればよい。コンテンツ配信サーバは、あらかじめ、配信することができる複数の楽曲について、歌詞を対象テキストとして映像選択装置110に送信しておいてもよい。そして、コンテンツ配信サーバは、あらかじめ、選択された映像の映像IDを受信しておいてもよい。コンテンツ配信サーバは、あらかじめ、楽曲の識別子である楽曲IDと、その楽曲の歌詞が対象テキストである場合に選択された映像の映像IDとを、記憶領域(図示されない)に記憶しておいてもよい。そして、コンテンツ配信サーバは、楽曲の配信を要求されるのに応じて、配信を要求された楽曲の歌詞に対して選択された映像の映像IDを読み出せばよい。そして、コンテンツ配信サーバは、配信を要求された楽曲と、読み出した映像IDが表す映像とを、楽曲の配信を要求した端末に配信すればよい。
コンテンツ配信サーバが、ナレーション、朗読、又は、アナウンスなど音声コンテンツの要求に応じて、音声コンテンツと映像とを配信するコンテンツ配信サーバであってもよい。その場合、コンテンツ配信サーバは、例えば、配信可能な音声コンテンツの内容を表すテキストデータを、対象テキストとして、映像選択装置110に送信すればよい。コンテンツ配信サーバは、映像選択装置110から映像IDを受信し、対象テキストによって内容が表される音声コンテンツと、受信した映像IDによって表される映像とを、音声コンテンツの配信を要求した端末に送信すればよい。コンテンツ配信サーバは、コンテンツの配信の要求を受信するのに応じて、対象テキストの送信、映像IDの受信、及び、音声コンテンツと映像との配信を行ってもよい。コンテンツ配信サーバは、あらかじめ、対象テキストの送信と、映像IDの受信とを行い、対象テキストによって内容が表されるコンテンツのコンテンツIDと、その対象テキストに対して選択された映像IDとを記憶していてもよい。音声コンテンツの配信の要求を受信するのに応じて、その音声コンテンツと、記憶している映像IDに基づいて特定した、その音声コンテンツの内容を表す対象テキストに対して選択された映像とを、音声コンテンツの配信を要求した端末に送信してもよい。
以上で説明した本実施形態には、テキストと映像とのマッチングを行う負荷を軽減することができるという第1の効果がある。
その理由は、映像の特徴を表す映像特徴量とテキストの特徴を表す対象特徴量との、類似性の高さの程度に基づいて、映像選択部114がテキストと映像とのマッチングを行うからである。映像特徴量は、映像にあらかじめ関連付けられているテキストとその映像の付随情報とを使用して、映像特徴生成部108によって生成される。対象特徴量は、映像特徴量と同じ種類の特徴量である。そして、対象特徴量は、マッチングの対象であるテキスト(上述の対処テキスト)を使用して、対象特徴生成部112によって生成される。
本実施形態には、テキストの内容と映像の内容とが精度よく一致するように、テキストに対して映像を選択することができるという効果がある。
その理由は、映像特徴生成部108と対象特徴生成部112とが、素性抽出部106が抽出する素性を使用して、特徴量を生成するからである。前述のように、映像の内容を端的に表す単語(上述の属性)を修飾する語句である素性は、視覚的な、体感的な、又は、視覚的で体感的な語句であることが、経験的に判明している。映像にあらかじめ関連付けられているテキストは、その映像に、視覚的に、体感的に、または、視覚的で体感的にマッチすると、例えばユーザによって判定されたテキストである。従って、映像に関連付けられているテキストにおいて出現する上述の素性と、対象テキストにおいて出現する素性とが類似している場合、その映像と対象テキストとは、視覚的に、体感的に、または、視覚的で体感的にマッチする可能性が高い。映像特徴生成部108は、映像に関連付けられているテキストにおいて出現する素性を表す映像特徴量を生成する。対象特徴生成部112は、対象テキストにおいて出現する素性を表す対象特徴量を生成する。類似度導出部113は、そのような、映像特徴量と対象特徴量とが類似する程度を表す類似度を導出する。映像選択部114は、そのような類似度を使用して、映像特徴量と対象特徴量とが類似するように、対象テキストに対する映像を選択する。従って、映像選択部114は、対象テキストに対して、視覚的に、体感的に、または、視覚的で体感的にマッチする映像を、精度よく選択することができる。
以上で説明した第2の効果について、さらに具体的に詳しく説明する。
素性抽出部106は、上述のように、付随情報から抽出された単語である属性を修飾する語句を抽出することによって、視覚的、体感的に表現されている語句を、素性として抽出する。対象特徴生成部112は、例えば歌詞などの対象テキストにおける、素性の出現頻度をもとに、対象特徴量(例えば対象特徴ベクトル)を生成する。映像特徴生成部108は、映像に関連付けられている、歌詞などのテキストや、その映像の付随情報(特に企画意図等)における、素性の出現頻度をもとに、映像特徴ベクトルを生成する。類似度導出部113は、対象特徴ベクトルと映像特徴ベクトルとが類似する程度である類似性の高さを表す、例えばコサイン類似度などの類似度を算出する。映像選択部114は、コサイン類似度などの類似度を使用して、対象特徴ベクトルと映像特徴ベクトルとを比較することによって、対象テキストと映像との関連の深さを表す関連性を判定する。上述の対象特徴ベクトルと映像特徴ベクトルとの間の類似度による判定は、視覚的、体感的な特性を利用した、対象テキストと映像との間の関連の判定である。従って、そのような類似度を使用して、対象テキストに対して、対象特徴ベクトルと映像特徴ベクトルとが類似する映像を選択することによって、視覚的、体感的に、対象テキストに類似した映像が選ばれることが期待できる。
例えば、素性の抽出において、属性である「空」に係る語句を抽出することによって、「青い」や、「晴れた」などの、視覚的、体感的な語句が素性として抽出されることが期待できる。映像に関連付けられたテキストにおける、そのような素性の出現頻度を導出した場合、例えば「青い空」の特徴を持つ映像に関連付けられたテキストの中に、「青い」や「晴れた」などの、視覚的に同じ特性を備える語句の出現数が高いことが期待できる。さらに、対象テキストの中に、「青い空」または「晴れた空」という表現がある場合、「青い」という語句及び「晴れた」という語句の少なくともいずれかの出現頻度が高い映像と、対象テキストとの類似度が高くなる。
以上のように、本実施形態の映像選択システム1は、例えば対象テキストに、「青い空」や「厳しい冬」のような、視覚的な、体感的な表現がある場合、その対象テキストを、「晴れた空」や、「寒い季節」などの特徴を備える映像にマッチさせることができる。このように、本実施形態の映像選択システム1は、同義語を使ったマッチングによって実現することができないマッチングを行うことができる。
すなわち、本実施形態の映像選択システム1は、テキストに対して、視覚的に違和感のない適切な映像を選択することができる。
<第1の実施形態の第1の変形例>
次に、本発明の第1の実施形態の第1の変形例について、図面を参照して詳細に説明する。
図15は、本変形例の映像選択システム1Aの構成の例を表すブロック図である。図15と図1を比較すると、本変形例の映像選択システム1Aは、映像選択装置110の代わりに、映像選択装置110Aを含む。映像選択装置110Aは、第1の実施形態の映像選択装置110の各構成要素に加えて、教師データ受信部121と、教師データ記憶部122と、教師データ送信部123と、付随情報受信部124と、付随情報記憶部125と、付随情報送信部126とを含む。映像選択システム1Aは、映像選択システム1Aのユーザが指示などを入力するのに使用する、ユーザ端末(図示されない)を含んでいてもよい。
教師データ受信部121は、例えばコンテンツ配信サーバなどの他の装置から、上述の教師データ(それぞれ映像に関連付けられている、複数のテキスト)を受信する。教師データ受信部121は、受信した教師データを、教師データ記憶部122に格納する。教師データ記憶部122は、教師データを記憶する。教師データ送信部123は、教師データ記憶部122に格納されている教師データを、教師データ受信部103に送信する。教師データ受信部103は、教師データ送信部123から、教師データを受信する。
付随情報受信部124は、例えばコンテンツ配信サーバなどの他の装置から、上述の付随情報を受信する。付随情報受信部124は、受信した付随情報を、付随情報記憶部125に格納する。付随情報記憶部125は、付随情報を記憶する。付随情報送信部126は、付随情報記憶部125に格納されている付随情報を、付随情報受信部101に送信する。付随情報受信部101は、付随情報送信部126から、付随情報を受信する。
以上の相違を除き、本変形例の映像選択システム1Aは、第1の実施形態の映像選択システム1と同じである。
<第1の実施形態の第2の変形例>
次に、本発明の第1の実施形態の第2の変形例について、図面を参照して詳細に説明する。
図16は、本変形例の映像選択システム1Bの構成の例を表すブロック図である。図16を参照すると、映像選択システム1Bは、映像選択装置110Bを含む。映像選択システム1Bは、特徴生成装置100を含む。映像選択システム1Bは、映像選択システム1Bのユーザが指示などを入力するのに使用する、ユーザ端末(図示されない)を含んでいてもよい。
以上の相違を除き、本変形例の映像選択システム1Bは、第1の実施形態の映像選択システム1と同じである。
<第1の実施形態の第3の変形例>
次に、本発明の第1の実施形態の第3の変形例について、図面を参照して詳細に説明する。
図17は、本変形例の映像選択システム1Cの構成の例を表すブロック図である。本変形例の映像選択システム1Cは、映像選択装置110Cを含む。映像選択装置110Cは、第1の実施形態の特徴生成装置100の各構成要素を含む。映像選択装置110Cは、映像特徴受信部116を含んでいなくてよい。そして、映像選択装置110Cは、第1の実施形態の特徴生成装置100として動作する。映像選択システム1Cは、映像選択システム1Cのユーザが指示などを入力するのに使用する、ユーザ端末(図示されない)を含んでいてもよい。
本実施形態の映像特徴生成部108は、生成した映像特徴量を、映像特徴記憶部117に格納する。本実施形態の映像特徴生成部108は、上述の素性リストを、映像特徴記憶部117に格納してもよい。本実施形態の素性抽出部106は、素性リストを、対象特徴生成部112に送信してもよい。本実施形態の対象特徴生成部112は、素性記憶部107から素性リストを読み出してもよい。
以上の相違を除き、本変形例の映像選択システム1Cは、第1の実施形態の映像選択システム1と同じである。
<第2の実施形態>
次に、本発明の第2の実施形態について、図面を参照して詳細に説明する。本実施形態は、本発明の各実施形態を概念的に表す実施形態である。
図18は、本実施形態の映像選択システム1Dの構成の例を表すブロック図である。
図18を参照すると、本実施形態の映像選択システム110Dは、映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成部108と、対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成部112と、前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出部113と、導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択部114と、を備える。
以上で説明した本実施形態には、第1の実施形態の第1の効果と同じ効果がある。その理由は、第1の実施形態の第1の効果が生じる理由と同じである。
<他の実施形態>
映像選択装置110、映像選択装置110A、映像選択装置110B、映像選択装置110C、映像選択装置110D、特徴生成装置100、及び、特徴生成装置100Dは、それぞれ、コンピュータ及びコンピュータを制御するプログラム、専用のハードウェア、又は、コンピュータ及びコンピュータを制御するプログラムと専用のハードウェアの組合せにより実現することができる。
図19は、映像選択装置110、映像選択装置110A、映像選択装置110B、映像選択装置110C、映像選択装置110D、特徴生成装置100、及び、特徴生成装置100Dを実現することができる、コンピュータ1000のハードウェア構成の一例を表す図である。図19を参照すると、コンピュータ1000は、プロセッサ1001と、メモリ1002と、記憶装置1003と、I/O(Input/Output)インタフェース1004とを含む。また、コンピュータ1000は、記録媒体1005にアクセスすることができる。メモリ1002と記憶装置1003は、例えば、RAM(Random Access Memory)、ハードディスクなどの記憶装置である。記録媒体1005は、例えば、RAM、ハードディスクなどの記憶装置、ROM(Read Only Memory)、可搬記録媒体である。記憶装置1003が記録媒体1005であってもよい。プロセッサ1001は、メモリ1002と、記憶装置1003に対して、データやプログラムの読み出しと書き込みを行うことができる。プロセッサ1001は、I/Oインタフェース1004を介して、例えば、他の装置にアクセスすることができる。プロセッサ1001は、記録媒体1005にアクセスすることができる。記録媒体1005には、コンピュータ1000を、映像選択装置110、映像選択装置110A、映像選択装置110B、映像選択装置110C、映像選択装置110D、特徴生成装置100、又は、特徴生成装置100Dとして動作させるプログラムが格納されている。
プロセッサ1001は、記録媒体1005に格納されている、コンピュータ1000を、映像選択装置110、映像選択装置110A、映像選択装置110B、映像選択装置110C、映像選択装置110D、特徴生成装置100、又は、特徴生成装置100Dとして動作させるプログラムを、メモリ1002にロードする。そして、プロセッサ1001が、メモリ1002にロードされたプログラムを実行することにより、コンピュータ1000は、映像選択装置110、映像選択装置110A、映像選択装置110B、映像選択装置110C、映像選択装置110D、特徴生成装置100、又は、特徴生成装置100Dとして動作する。
付随情報受信部101、教師データ受信部103、属性抽出部105、素性抽出部106、映像特徴生成部108、対象受信部111、対象特徴生成部112、類似度導出部113、映像選択部114、出力部115、映像特徴受信部116、映像受信部118、教師データ受信部121、教師データ送信部123、付随情報受信部124、及び、付随情報送信部126は、例えば、プログラムを記憶する記録媒体1005からメモリ1002に読み込まれた、各部の機能を実現することができる専用のプログラムと、そのプログラムを実行するプロセッサ1001により実現することができる。また、付随情報記憶部102、教師データ記憶部104、素性記憶部107、映像特徴記憶部117、映像記憶部119、教師データ記憶部122、及び、付随情報記憶部125は、コンピュータ1000が含むメモリ1002やハードディスク装置等の記憶装置1003により実現することができる。あるいは、付随情報受信部101、付随情報記憶部102、教師データ受信部103、教師データ記憶部104、属性抽出部105、素性抽出部106、素性記憶部107、映像特徴生成部108、対象受信部111、対象特徴生成部112、類似度導出部113、映像選択部114、出力部115、映像特徴受信部116映像特徴記憶部117、映像受信部118、映像記憶部119、教師データ受信部121、教師データ記憶部122、教師データ送信部123、付随情報受信部124、付随情報記憶部125、及び、付随情報送信部126の一部又は全部を、各部の機能を実現する専用の回路によって実現することもできる。
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、
対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、
前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、
導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、
を備える映像選択システム。
(付記2)
前記複数の映像の少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記映像の前記属性を修飾する語句である素性を抽出する素性抽出部をさらに備え、
前記映像特徴生成手段は、前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の前記映像特徴量として生成し、
前記対象特徴生成手段は、前記対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象特徴量として生成する
付記1に記載の映像選択システム。
(付記3)
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段
をさらに備える付記2に記載の映像選択システム。
(付記4)
それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納する素性抽出手段と、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成手段と、
を備える特徴量生成装置。
(付記5)
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段
をさらに備える付記4に記載の特徴量生成装置。
(付記6)
映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成し、
対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成し、
前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出し、
導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する、
映像選択方法。
(付記7)
前記複数の映像の少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記映像の前記属性を修飾する語句である素性を抽出し、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の前記映像特徴量として生成し、
前記対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象特徴量として生成する
付記6に記載の映像選択方法。
(付記8)
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する
付記7に記載の映像選択方法。
(付記9)
それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納し、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する、
特徴量生成方法。
(付記10)
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する
付記9に記載の特徴量生成方法。
(付記11)
コンピュータを、
映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、
対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、
前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、
導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、
して動作させる映像選択プログラム。
(付記12)
コンピュータを、
前記複数の映像の少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記映像の前記属性を修飾する語句である素性を抽出する素性抽出部と、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の前記映像特徴量として生成する前記映像特徴生成手段と、
前記対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象特徴量として生成する前記対象特徴生成手段と、
して動作させる付記11に記載の映像選択プログラム。
(付記13)
コンピュータを、
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段と
して動作させる付記12に記載の映像選択プログラム。
(付記14)
コンピュータを、
それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納する素性抽出手段と、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成手段と、
して動作させる特徴量生成プログラム。
(付記15)
コンピュータを、
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段と
して動作させる付記14に記載の特徴量生成プログラム。
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
1 映像選択システム
1A 映像選択システム
1B 映像選択システム
1C 映像選択システム
1D 映像選択システム
100 特徴生成装置
100D 特徴生成装置
101 付随情報受信部
102 付随情報記憶部
103 教師データ受信部
104 教師データ記憶部
105 属性抽出部
106 素性抽出部
107 素性記憶部
108 映像特徴生成部
110 映像選択装置
110A 映像選択装置
110B 映像選択装置
110C 映像選択装置
110D 映像選択装置
111 対象受信部
112 対象特徴生成部
113 類似度導出部
114 映像選択部
115 出力部
116 映像特徴受信部
117 映像特徴記憶部
118 映像受信部
119 映像記憶部
121 教師データ受信部
122 教師データ記憶部
123 教師データ送信部
124 付随情報受信部
125 付随情報記憶部
126 付随情報送信部
1000 コンピュータ
1001 プロセッサ
1002 メモリ
1003 記憶装置
1004 I/Oインタフェース
1005 記録媒体

Claims (15)

  1. 映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、
    対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、
    前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、
    導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、
    を備える映像選択システム。
  2. 前記複数の映像の少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記映像の前記属性を修飾する語句である素性を抽出する素性抽出部をさらに備え、
    前記映像特徴生成手段は、前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の前記映像特徴量として生成し、
    前記対象特徴生成手段は、前記対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象特徴量として生成する
    請求項1に記載の映像選択システム。
  3. 前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段
    をさらに備える請求項2に記載の映像選択システム。
  4. それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納する素性抽出手段と、
    前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成手段と、
    を備える特徴量生成装置。
  5. 前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段
    をさらに備える請求項4に記載の特徴量生成装置。
  6. 映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成し、
    対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成し、
    前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出し、
    導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する、
    映像選択方法。
  7. 前記複数の映像の少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記映像の前記属性を修飾する語句である素性を抽出し、
    前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の前記映像特徴量として生成し、
    前記対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象特徴量として生成する
    請求項6に記載の映像選択方法。
  8. 前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する
    請求項7に記載の映像選択方法。
  9. それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納し、
    前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する、
    特徴量生成方法。
  10. 前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する
    請求項9に記載の特徴量生成方法。
  11. コンピュータを、
    映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、
    対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、
    前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、
    導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、
    して動作させる映像選択プログラム。
  12. コンピュータを、
    前記複数の映像の少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記映像の前記属性を修飾する語句である素性を抽出する素性抽出部と、
    前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の前記映像特徴量として生成する前記映像特徴生成手段と、
    前記対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象特徴量として生成する前記対象特徴生成手段と、
    して動作させる請求項11に記載の映像選択プログラム。
  13. コンピュータを、
    前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段と
    して動作させる請求項12に記載の映像選択プログラム。
  14. コンピュータを、
    それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納する素性抽出手段と、
    前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成手段と、
    して動作させる特徴量生成プログラム。
  15. コンピュータを、
    前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段と
    して動作させる請求項14に記載の特徴量生成プログラム。
JP2014211413A 2014-10-16 2014-10-16 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム Active JP6446987B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014211413A JP6446987B2 (ja) 2014-10-16 2014-10-16 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014211413A JP6446987B2 (ja) 2014-10-16 2014-10-16 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム

Publications (2)

Publication Number Publication Date
JP2016081265A true JP2016081265A (ja) 2016-05-16
JP6446987B2 JP6446987B2 (ja) 2019-01-09

Family

ID=55958624

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014211413A Active JP6446987B2 (ja) 2014-10-16 2014-10-16 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム

Country Status (1)

Country Link
JP (1) JP6446987B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528588A (zh) * 2016-09-14 2017-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
JP2019003270A (ja) * 2017-06-12 2019-01-10 日本電信電話株式会社 学習装置、映像検索装置、方法、及びプログラム
JP2022505320A (ja) * 2019-09-29 2022-01-14 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 検索方法及び検索装置、記憶媒体
US11531839B2 (en) 2018-07-11 2022-12-20 Kabushiki Kaisha Toshiba Label assigning device, label assigning method, and computer program product

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09128401A (ja) * 1995-10-27 1997-05-16 Sharp Corp 動画像検索装置及びビデオ・オン・デマンド装置
JP2000339310A (ja) * 1999-05-25 2000-12-08 Nippon Telegr & Teleph Corp <Ntt> 文書分類方法、文書分類装置、およびプログラムを記録する記録媒体
WO2008016102A1 (fr) * 2006-08-03 2008-02-07 Nec Corporation dispositif de calcul de similarité et dispositif de recherche d'informations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09128401A (ja) * 1995-10-27 1997-05-16 Sharp Corp 動画像検索装置及びビデオ・オン・デマンド装置
JP2000339310A (ja) * 1999-05-25 2000-12-08 Nippon Telegr & Teleph Corp <Ntt> 文書分類方法、文書分類装置、およびプログラムを記録する記録媒体
WO2008016102A1 (fr) * 2006-08-03 2008-02-07 Nec Corporation dispositif de calcul de similarité et dispositif de recherche d'informations

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528588A (zh) * 2016-09-14 2017-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
JP2019003270A (ja) * 2017-06-12 2019-01-10 日本電信電話株式会社 学習装置、映像検索装置、方法、及びプログラム
US11531839B2 (en) 2018-07-11 2022-12-20 Kabushiki Kaisha Toshiba Label assigning device, label assigning method, and computer program product
JP2022505320A (ja) * 2019-09-29 2022-01-14 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 検索方法及び検索装置、記憶媒体
JP7181999B2 (ja) 2019-09-29 2022-12-01 ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド 検索方法及び検索装置、記憶媒体

Also Published As

Publication number Publication date
JP6446987B2 (ja) 2019-01-09

Similar Documents

Publication Publication Date Title
WO2019105432A1 (zh) 文本推荐方法、装置及电子设备
US20180349515A1 (en) Multilingual business intelligence for actions
Nie et al. Multimedia answering: enriching text QA with media information
CN104885081B (zh) 搜索系统和相应方法
US20140201180A1 (en) Intelligent Supplemental Search Engine Optimization
EP3532906A1 (en) Video tagging system and method
US20140108311A1 (en) Information porcessing apparatus and method, and program thereof
WO2020103899A1 (zh) 用于生成图文信息的方法和用于生成图像数据库的方法
WO2017048450A1 (en) Systems, methods, and computer products for recommending media suitable for a designated style of use
US20140379719A1 (en) System and method for tagging and searching documents
US20150186495A1 (en) Latent semantic indexing in application classification
CN108133058B (zh) 一种视频检索方法
WO2014206151A1 (en) System and method for tagging and searching documents
CN111506794A (zh) 一种基于机器学习的谣言管理方法和装置
JP6767342B2 (ja) 検索装置、検索方法および検索プログラム
US9235634B2 (en) Method and server for media classification
CN106294473B (zh) 一种实体词挖掘方法、信息推荐方法及装置
US9176993B2 (en) Efficiently identifying images, videos, songs or documents most relevant to the user using binary search trees on attributes for guiding relevance feedback
JP6446987B2 (ja) 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム
Mukherjee et al. Author-specific sentiment aggregation for polarity prediction of reviews.
CN110717038A (zh) 对象分类方法及装置
CN106663123B (zh) 以评论为中心的新闻阅读器
CN114090766A (zh) 视频文本筛选方法、装置及电子设备
EP3144825A1 (en) Enhanced digital media indexing and retrieval
WO2010132062A1 (en) System and methods for sentiment analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181119

R150 Certificate of patent or registration of utility model

Ref document number: 6446987

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150