JP6446987B2 - Video selection device, video selection method, video selection program, feature amount generation device, feature amount generation method, and feature amount generation program - Google Patents
Video selection device, video selection method, video selection program, feature amount generation device, feature amount generation method, and feature amount generation program Download PDFInfo
- Publication number
- JP6446987B2 JP6446987B2 JP2014211413A JP2014211413A JP6446987B2 JP 6446987 B2 JP6446987 B2 JP 6446987B2 JP 2014211413 A JP2014211413 A JP 2014211413A JP 2014211413 A JP2014211413 A JP 2014211413A JP 6446987 B2 JP6446987 B2 JP 6446987B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- video
- text
- attribute
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
本発明は、コンピュータなどを用いて映像を選択する情報処理技術に関する。 The present invention relates to an information processing technique for selecting an image using a computer or the like.
音声と共に映像を再生する際、再生される音声の内容と映像の内容とがかけ離れていれば、その音声及び映像を視聴する視聴者は違和感を覚える。しかし、人手で音声の内容に関係がある映像を選択することは、非常に繁雑な作業である。再生される音声として、例えば、ナレーション、朗読、アナウンス、及び楽曲の歌詞などがある。 When reproducing a video together with audio, if the content of the reproduced audio and the content of the video are far from each other, a viewer who views the audio and video feels uncomfortable. However, manually selecting a video that is related to the audio content is a very complicated task. Examples of the reproduced voice include narration, reading, announcement, and lyrics of music.
楽曲に合わせて画像を表示する技術の例が、特許文献1によって開示されている。特許文献1によって開示されているスライドショー作成サーバは、楽曲の行ごとの歌詞と、行ごとに表示される一連の画像と、歌詞を利用して推定された全体印象語とを含む、元スライドショーのデータを、複数の元スライドショーについて記憶する。スライドショー作成サーバは、ユーザによって指定された複数の画像から画像特徴量を抽出する。スライドショー作成サーバは、抽出した画像特徴量を用いて画像データにタグを付与する。スライドショー作成サーバは、指定された画像全てについて、付与されているタグを使用して、全体印象ラベルを付与する。スライドショー作成サーバは、付与した全体印象ラベルに適合する元スライドショーを選択する。スライドショー作成サーバは、選択された元スライドショーの画像データを、ユーザによって指定された画像で置き換えることによって、新しいスライドショーを作成する。
An example of a technique for displaying an image in accordance with music is disclosed in
特許文献2には、複数の種別のうち、必ずしも同一でないいずれかの1つ以上の種別に分類される、複数のコンテンツの類似度を示す距離を算出するコンテンツ検索装置が記載されている。そのコンテンツ検索装置は、導出可能なコンテンツの特徴(画像特徴、音響特徴、及び意味特徴のいずれか1つ以上)の特徴量を導出する。そのコンテンツ検索装置は、あらかじめ計算された異なる特徴間の相関に基づいて、導出した特徴量を使用して、そのコンテンツの未知の特徴の特徴量を推定する。そのコンテンツ検索装置は、例えば、画像コンテンツ及びそのメタデータから導出した画像特徴量及び意味特徴量に基づいて、その画像コンテンツの音響特徴量を推定する。そのコンテンツ検索装置は、導出及び推定した全ての特徴量に基づいて、類似度を算出する。
特許文献3には、楽曲をカテゴリに分類する楽曲分類装置が記載されている。その楽曲分類装置は、楽曲の歌詞データに基づいて、楽曲をカテゴリ名によって特定される分類先に分類するカテゴリ分類器を、学習によって生成する。その楽曲分類装置は、カテゴリに分類された楽曲を、クラスタリングによってサブカテゴリに分類する。 Patent Document 3 describes a music classification device that classifies music into categories. The music classification device generates, by learning, a category classifier that classifies music to a classification destination specified by a category name based on the lyrics data of the music. The music classification device classifies music classified into categories into subcategories by clustering.
再生される音声の内容は、テキストによって表すことができる。 The content of the reproduced voice can be represented by text.
特許文献1のスライドショー作成サーバは、あらかじめ作成されている元スライドショーの画像データを、ユーザによって指定された画像で置き換えることによって、新しいスライドショーを作成する。従って、そのスライドショー作成サーバは、例えば楽曲が表すテキストにマッチした映像を選択することはできない。
The slide show creation server of
また、元スライドショーは、楽曲と、その楽曲の歌詞が表すテキストにマッチしない画像データとによって作成されていてもよい。その場合、そのスライドショー作成サーバが作成する新しいスライドショーは、楽曲と、その楽曲の歌詞が表すテキストにマッチしない画像データとによって構成される。すなわち、そのスライドショー作成サーバは、楽曲と、その楽曲が表すテキストにマッチする画像データとによって構成されるスライドショーを作成するとは限らない。 In addition, the original slide show may be created by music and image data that does not match the text represented by the lyrics of the music. In that case, the new slide show created by the slide show creation server is composed of music and image data that does not match the text represented by the lyrics of the music. That is, the slide show creation server does not always create a slide show composed of music and image data that matches the text represented by the music.
特許文献2のコンテンツ検索装置は、計算又は推定された特徴量に基づいてコンテンツ間の距離を計算することによって、コンテンツ間の類似度を推定する。そのコンテンツ検索装置が、例えば指定されたテキストからの距離が小さいコンテンツを検索する場合、必ずしも映像が得られるとは限らない。また、コンテンツ間の距離は音響特徴量にも依存するので、互いにマッチするテキスト及び映像の意味特徴量及び顔像特徴量が近い場合であっても、計算又は推定された音響特徴量の差が大きければ、そのテキスト及び映像の間の距離は小さくならない。従って、そのコンテンツ検索装置は、テキストにマッチした映像を選択することはできない。
The content search device of
特許文献3の技術は、楽曲を分類する技術である。従って、特許文献3の技術によって、テキストにマッチした映像を選択することはできない。 The technique of Patent Document 3 is a technique for classifying music pieces. Therefore, the video matching the text cannot be selected by the technique of Patent Document 3.
本発明の目的は、テキストと映像とのマッチングを行う負荷を軽減することができる映像選択装置などを提供することにある。 An object of the present invention is to provide a video selection device and the like that can reduce the load of matching text and video.
本発明の一態様に係る映像選択システムは、映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、を備える。 The video selection system according to an aspect of the present invention performs a text mining process on text associated with a video to obtain a video feature amount that is a feature amount of the video for each of the plurality of videos. For each of the video feature generation means, the target feature generation means for generating the target feature quantity that is the feature quantity of the target text by executing the text mining process on the target text, and the video feature quantity Similarity degree deriving means for deriving a degree of similarity representing the degree of similarity of the video feature quantity with respect to the target feature quantity, and the video having a high degree of similarity with respect to the target feature quantity based on the derived similarity degree Video selection for selecting a feature and selecting the video associated with the text from which the selected video feature was derived It includes a stage, a.
本発明の一態様に係る特徴量生成装置は、それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納する素性抽出手段と、前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成手段と、を備える。 The feature amount generation device according to an aspect of the present invention is a phrase that modifies the attribute from the text based on an attribute that is a phrase related to at least one of a plurality of videos each associated with the text. A feature extraction unit that extracts a feature and stores the extracted feature in the feature storage unit; and for each of the plurality of videos, the text stored in the feature storage unit in a text associated with the video Video feature generation means for detecting each feature and generating a feature quantity representing the detected feature as a video feature quantity of the video;
本発明の一態様に係る映像選択方法は、映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成し、
対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成し、前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出し、導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する。
In the video selection method according to one aspect of the present invention, a video mining process is performed on the text associated with the video, and the video feature quantity that is the video feature quantity is determined for each of the plurality of videos. Generate
By executing the text mining process on the target text, a target feature amount that is a feature amount of the target text is generated, and for each of the video feature amounts, the video feature amount is similar to the target feature amount A degree of similarity representing the degree of the image is derived, and based on the derived degree of similarity, the video feature quantity having a high degree of similarity to the target feature quantity is selected, and the selected video feature quantity is derived Select the video associated with the text.
本発明の一態様に係る特徴量生成方法は、それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納し、前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する。 A feature value generation method according to an aspect of the present invention is a phrase that modifies an attribute from the text based on an attribute that is a phrase related to at least one of a plurality of videos each associated with the text. A feature is extracted, the extracted feature is stored in a feature storage unit, and each of the features stored in the feature storage unit in each of the plurality of videos is associated with the video. A feature amount representing the detected feature is detected and generated as a video feature amount of the video.
本発明の一態様に係る映像選択プログラムは、コンピュータを、映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、して動作させる。 The video selection program according to an aspect of the present invention performs a text mining process on a text associated with a video by a computer, thereby obtaining a video feature amount that is a feature amount of the video. Video feature generation means for generating each of the target feature generation means for generating a target feature quantity that is a feature quantity of the target text by executing the text mining process on the target text, and the video feature quantity A similarity degree deriving unit for deriving a degree of similarity representing the degree of similarity of the video feature amount with respect to the target feature amount, and a degree of similarity with respect to the target feature amount based on the derived degree of similarity. The video associated with the text from which the high video feature is selected and the selected video feature is derived A video selecting means for selecting operates in.
本発明の一態様に係る特徴量生成プログラムは、コンピュータを、それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納する素性抽出手段と、前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成手段と、して動作させる。 The feature value generation program according to one aspect of the present invention modifies the attribute from the text based on an attribute that is a phrase related to at least one of a plurality of videos each associated with the text. A feature extraction unit that extracts a feature that is a phrase to be stored and stores the extracted feature in the feature storage unit; and for each of the plurality of videos, a text associated with the video is stored in the feature storage unit Each feature is detected and a feature amount representing the detected feature is operated as a video feature generation unit that generates a video feature amount of the video.
本発明には、テキストと映像とのマッチングを行う負荷を軽減することができるという効果がある。 The present invention has the effect of reducing the load for matching text and video.
以下では、本発明の実施形態について、図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
<第1の実施形態>
まず、本発明の第1の実施形態について、図面を参照して詳細に説明する。
<First Embodiment>
First, a first embodiment of the present invention will be described in detail with reference to the drawings.
図1は、本発明の第1の実施形態に係る映像選択システム1の構成を表すブロック図である。
FIG. 1 is a block diagram showing the configuration of a
図1を参照すると、本実施形態の映像選択システム1は、特徴生成装置100と、映像選択装置110とを含む。特徴生成装置100と、映像選択装置110とは、通信可能に接続されている。図1に示す例では、特徴生成装置100と、映像選択装置110とは、異なる装置として実装されている。しかし、映像選択装置110が、特徴生成装置100を含んでいてもよい。映像選択装置110が、特徴生成装置100として動作してもよい。
Referring to FIG. 1, a
特徴生成装置100は、付随情報受信部101と、付随情報記憶部102と、教師データ受信部103と、教師データ記憶部104と、属性抽出部105と、素性抽出部106と、素性記憶部107と、映像特徴生成部108とを含む。映像選択システム1は、映像選択システム1のユーザが指示などを入力するのに使用する、ユーザ端末(図示されない)を含んでいてもよい。
The
映像選択装置110は、対象受信部111と、対象特徴生成部112と、類似度導出部113と、映像選択部114と、出力部115と、映像特徴受信部116と、映像特徴記憶部117とを含む。映像選択装置110は、さらに、映像受信部118と、映像記憶部119とを含んでいてもよい。
The
教師データ受信部103は、複数のテキストを受信する。本発明の各実施形態において、テキストを表すデータを、単にテキストとも表記する。例えば、テキストを受信することは、そのテキストを表すデータを受信することを意味する。それらの複数のテキストは、例えば、映像選択装置110によって、教師データ受信部103に入力されてもよい。それらの複数のテキストは、例えば、後述の複数の映像を記憶する映像サーバ(図示されない)によって、教師データ受信部103に入力されてもよい。それらの複数のテキストは、例えば、ユーザ端末(図示されない)によって、教師データ受信部103に入力されてもよい。
The teacher
教師データ受信部103が受信するテキストの各々は、そのテキストの内容と関連する、複数の映像のうち少なくともいずれかの映像に関連付けられている。それらの複数の映像の各々は、少なくとも1つのテキストと関連付けられていればよい。例えば、映像選択システム1のユーザが、複数のテキストの各々について、テキストとそのテキストの内容に関連すると判定した映像とを、あらかじめ関連付けておけばよい。テキストの内容に関連すると判定された映像は、例えば、そのテキストの内容に、視覚的に、体感的に、または、視覚的で体感的にマッチすると判定された映像である。映像選択システム1のユーザは、複数の映像の各々について、その映像の内容に、視覚的に、体感的に、または、視覚的で体感的にマッチすると判定した1つ以上のテキストを、その映像に関連付けておいてもよい。映像に関連付けられるテキストは、その映像の企画意図を含んでいてもよい。後述されるように、企画意図は、例えば、映像のコンセプトや、映像を制作する目的などを表すフレーズや文章である。
Each text received by the teacher
教師データ受信部103は、テキストと、少なくとも一つの、映像の識別子である映像ID(Identifier)との、複数の組を受信すればよい。教師データ受信部103は、受信した、複数の映像の少なくともいずれかに関連付けられているテキストを、教師データ記憶部104に格納する。
The teacher
テキストは、例えば、歌詞である。テキストは、ナレーション、朗読、又はアナウンスの内容を表すテキストであってもよい。以下では、主に、テキストが歌詞である場合の映像選択システム1について説明する。
The text is, for example, lyrics. The text may be text representing the content of a narration, reading, or announcement. In the following, the
教師データ記憶部104は、それぞれ、複数の映像の少なくともいずれかに関連付けられている、複数のテキストを記憶する。
The teacher
付随情報受信部101は、上述の複数の映像の各々の、付随情報を受信する。付随情報は、例えば、映像選択装置110によって、付随情報受信部101に入力されてもよい。付随情報は、例えば、前述の映像サーバ(図示されない)によって、付随情報受信部101に入力されてもよい。付随情報は、例えば、ユーザ端末(図示されない)によって、付随情報受信部101に入力されてもよい。付随情報受信部101は、受信した付随情報を、付随情報記憶部102に格納する。
The accompanying
付随情報記憶部102は、複数の映像の各々の、付随情報を記憶する。
The accompanying
付随情報は、映像の内容を表す単語を含む情報である。付随情報は、例えば、映像を分類する観点(すなわち、映像の種類)を表す項目毎に、単語によって表されていてもよい。付随情報は、項目毎に、文章又はフレーズによって表されていてもよい。付随情報は、項目毎に、単語と、文章又はフレーズとの、いずれか一方又は双方によって表されていてもよい。 The accompanying information is information including a word representing the content of the video. The accompanying information may be represented by a word for each item representing a viewpoint for classifying videos (that is, the type of video), for example. The accompanying information may be expressed by sentences or phrases for each item. The accompanying information may be represented by one or both of a word and a sentence or a phrase for each item.
図2は、付随情報の例を表す図である。付随情報は、例えば、映像の内容を表す複数の種類の情報を含む。それらの複数の種類の情報は、例えば、映像を複数の観点で複数のカテゴリに分類した場合における、分類の観点及び分類の結果を表す。その場合、例えば、分類の観点を項目と表記し、分類の観点を特定する名称を項目名と表記し、分類の結果(すなわち、映像が分類されたカテゴリ)を項目の値と表記する。付随情報は、分類の観点及び分類の結果でなくてもよい。「項目名」は、付随情報によって内容が表される映像の、分類の観点を表す名称である。図2では、「例(内容)」は、それぞれの項目名によって表される情報の、具体例又は内容を表す。括弧によって囲まれていない単語は、付随情報が含む、項目毎の値の具体例である。括弧によって囲まれている語句が、付随情報が含む項目毎の値の内容を表す。付随情報によって内容が表される映像の種類は、項目毎の値によって表される。図2を参照すると、付随情報は、例えば、企画意図、モデル、服装、場所、季節、天候、時候、イベントなどの項目名によって表される項目の値を含む。以下の説明では、例えば、項目名が「企画意図」である項目の値を、「企画意図の値」などと表記する。 FIG. 2 is a diagram illustrating an example of accompanying information. The accompanying information includes, for example, a plurality of types of information representing the content of the video. The plurality of types of information represent, for example, classification viewpoints and classification results when videos are classified into a plurality of categories from a plurality of viewpoints. In this case, for example, a classification viewpoint is expressed as an item, a name specifying the classification viewpoint is expressed as an item name, and a classification result (that is, a category in which videos are classified) is expressed as an item value. The accompanying information may not be a classification viewpoint and a classification result. The “item name” is a name representing the viewpoint of classification of the video whose contents are represented by the accompanying information. In FIG. 2, “example (content)” represents a specific example or content of information represented by each item name. A word not surrounded by parentheses is a specific example of a value for each item included in the accompanying information. Words enclosed in parentheses represent the contents of values for each item included in the accompanying information. The type of video whose content is represented by the accompanying information is represented by a value for each item. Referring to FIG. 2, the accompanying information includes, for example, values of items represented by item names such as planning intention, model, clothes, place, season, weather, time of day, and event. In the following description, for example, the value of an item whose item name is “planning intention” is expressed as “planning intention value” or the like.
図2に示す例では、企画意図の値は、例えば、フレーズ又は文章によって表される。企画意図以外の項目の値は、単語によって表される。企画意図の値であるフレーズや文章は、例えば、映像のコンセプトや、映像を制作する目的などを表す。モデルの値は、例えば、男女、男、女などの映像に登場する人物の性別などである。モデルの値は、人物以外の、動物、植物、又は物などであってもよい。服装の値は、例えば、洋服、和服などの、映像に登場する人物の服装である。服装の値は、単に「服」であってもよい。場所の値は、例えば、映像が撮影された場所、又は、撮影の対象が存在する場所を表す単語である。場所の値は、都会や海などの、場所の区分を表す単語であっても、具体的な地域名であってもよい。季節の値は、映像が撮影された季節を表す単語である。天候の値は、映像が撮影されたときの天候を表す単語である。時候の値は、映像が撮影された時間帯を表す単語である。イベントの値は、映像として撮影された場面において起こっているイベントを表す単語である。付随情報は、単語によって表される項目について、一つの項目当たり2つ以上の単語を含んでいてもよい。単語を含まない項目(すなわち、値が存在しない項目)が存在していてもよい。付随情報は、図2に示す例に限られない。付随情報は、図2に示す項目を含んでいなくてもよい。付随情報は、図2に示す項目以外の項目の情報を含んでいてもよい。 In the example illustrated in FIG. 2, the plan intention value is represented by, for example, a phrase or a sentence. The values of items other than the planning intention are represented by words. The phrase or sentence, which is the value of the planning intention, represents, for example, the concept of the video or the purpose of producing the video. The value of the model is, for example, the sex of a person appearing in a video such as a man, woman, man or woman. The model value may be an animal, a plant, or an object other than a person. The value of clothes is, for example, the clothes of a person appearing in the video, such as clothes and Japanese clothes. The value of clothes may simply be “clothes”. The value of the place is, for example, a word representing the place where the video is shot or the place where the subject of shooting exists. The value of the place may be a word representing a division of the place, such as a city or the sea, or a specific area name. The value of the season is a word that represents the season in which the video was shot. The value of the weather is a word representing the weather when the video is taken. The time value is a word indicating the time zone when the video was taken. The value of the event is a word representing an event occurring in the scene shot as a video. The accompanying information may include two or more words per item for the item represented by the word. There may be an item that does not include a word (that is, an item that does not have a value). The accompanying information is not limited to the example shown in FIG. The accompanying information may not include the items shown in FIG. The accompanying information may include information on items other than the items shown in FIG.
属性抽出部105は、付随情報から、映像の内容の少なくとも一部を表す単語である、属性を抽出する。属性抽出部105は、付随情報が値として単語を含む場合、その単語を抽出すればよい。付随情報が値として文章又はフレーズを含む場合、属性抽出部105は、その文章又はフレーズから、例えば、TF−IDF(Term Frequency−Inverse Document Frequency)法によって、映像毎に、その映像の特徴を表す単語を抽出すればよい。
The
素性抽出部106は、抽出された属性の各々について、教師データ記憶部104に格納されているテキストから、その属性に係る(すなわち、その属性を修飾する)語句を、素性として抽出する。素性抽出部106は、抽出された属性の各々について、例えばその属性を持つ映像に関連付けられているテキストから、その属性に係る(すなわち、その属性を修飾する)語句を、素性として抽出すればよい。映像が持つ属性は、その映像の付随情報が含む属性である。素性抽出部106は、抽出した素性を、素性記憶部107に格納する。素性抽出部106は、抽出した全ての素性のリストである、素性リストを生成してもよい。素性抽出部106は、生成した素性リストを、素性記憶部107に格納してもよい。
For each of the extracted attributes, the
素性抽出部106は、例えば、テキストに対して、形態素解析や構文解析などの、基本的なテキスト処理によって、属性に係る語句を検出し、検出された語句の品詞や特性を推定すればよい。
For example, the
素性抽出部106が検出する語句の長さは、限定されていればよい。その場合、語句の長さは、語句を構成する単位の数であればよい。語句を構成する単位は、例えば、その語句を構成する、形容詞、形容動詞、及び、名詞と助詞との組み合わせなどであればよい。例えば、属性が「人」であり、「人」に係る語句として、「背が高い」が検出された場合、素性抽出部106は、語句「背が高い」を構成する単位として、例えば、「背が」と「高い」を特定すればよい。そして、素性抽出部106は、語句「背が高い」の長さが2であると判定すればよい。素性抽出部106は、あらかじめ決められた長さ(例えば2個)以下の長さの語句を検出すればよい。語句の特性は、例えば、属性を修飾する可能性が否かを表す特性である。
The length of the phrase detected by the
素性抽出部106は、テキスト処理の結果を使用して、検出された、属性に係る語句が、その属性を修飾しうる語句か否かを判定すればよい。素性抽出部106は、検出された、属性に係る語句が、その属性を修飾しうると判定した場合、その語句を素性として抽出すればよい。
The
例えば、素性抽出部106は、検出された語句が、形容詞、形容動詞、又は、名詞と助詞との組み合わせなどの、他の単語を修飾できる語句である場合、その語句が属性を修飾しうる語句であると判定すればよい。その場合、素性抽出部106は、検出された語句を、素性として抽出してもよい。
For example, if the detected word / phrase is a phrase that can modify other words, such as an adjective, an adjective verb, or a combination of a noun and a particle, the phrase can modify the attribute. What is necessary is just to determine that it is. In that case, the
素性抽出部106は、さらに、例えば、単語の種類と、その種類の単語を修飾するのに使用される語句との組み合わせを含む辞書を使用して、属性に係る語句として検出された語句が、その属性を修飾する語句として使用されるか否かを判定してもよい。素性抽出部106は、検出された語句が他の単語を修飾できる語句であり、さらに、検出された語句が、その語句が係る属性を修飾するのに使用される場合、その語句を素性として抽出してもよい。
The
素性は、素性抽出部106によって、映像に関連付けられているテキストから抽出される素性に限られない。素性は、あらかじめ選択された、例えば、イベントの名称を表す語句や、場所を表す語句を含んでいてもよい。素性抽出部106によって映像に関連付けられているテキストから抽出される素性以外の素性は、例えば映像選択システム1の管理者によって、あらかじめ素性記憶部107に格納されていてもよい。イベントや場所を表す語句が集められた辞書が、例えば映像選択システム1の管理者によって、あらかじめ作成され、例えば素性辞書記憶部(図示されない)や素性記憶部107などの、素性抽出部106がアクセスできる記憶部に格納されていてもよい。そして、素性抽出部106は、そのような辞書から語句を読み出してもよい。素性抽出部106は、上述の辞書から読み出した語句を、素性として、素性記憶部107に格納してもよい。
The feature is not limited to the feature extracted by the
上述のように、映像には、その映像に内容が関連すると判定された、例えば歌詞などのテキストが関連付けられている。映像の内容を表す情報(例えば上述の付随情報)から抽出された単語(例えば上述の属性)は、その映像に関連付けられている、例えば歌詞などのテキストにも現れることが多い。そして、映像に関連付けられているテキストにおいて現れる、その映像の内容を表す情報から抽出された単語に係る語句は、「視覚的」、「体感的」な語句であることが、経験的に知られている。従って、素性抽出部106が素性として抽出する語句は、「視覚的」、「体感的」な語句である。言い換えると、素性抽出部106は、「視覚的」、「体感的」な語句を、素性として抽出することができる。
As described above, the video is associated with text such as lyrics, for example, which has been determined to be related to the video. A word (for example, the above-described attribute) extracted from information representing the content of the video (for example, the accompanying information described above) often appears in text associated with the video, such as lyrics. It is empirically known that the phrases related to the words extracted from the information representing the contents of the video appearing in the text associated with the video are “visual” and “sensible” phrases. ing. Therefore, the phrases extracted by the
映像特徴生成部108は、映像毎に、映像に関連付けられているテキスト対してテキストマイニング処理を行うことによって、その映像の特徴量である映像特徴量を生成する。より具体的には、映像特徴生成部108は、映像毎に、映像に関連付けられているテキストにおいて、抽出された素性の各々を検出する。そして、映像特徴生成部108は、映像毎に、映像に関連付けられているテキストにおいて出現する素性を表す、映像特徴量を生成する。上述のテキストマイニング処理は、例えば、上述のように素性を抽出し、抽出された素性の各々を検出することを表す。映像特徴生成部108は、前述の複数の映像の全てが選択されるまで、順次映像を選択しながら、選択された映像の映像特徴量の生成を繰り返せばよい。具体的には、映像特徴生成部108は、例えば、映像を選択し、選択した映像に関連付けられているテキストにおいて、素性として抽出された語句(すなわち、素性)を検出すればよい。
For each video, the video
映像特徴生成部108は、素性を検出した結果に基づいて、検出された素性を表す特徴量を、映像特徴量として生成する。映像特徴量は、例えば、検出された素性が要素である集合であってもよい。映像特徴量は、例えば、抽出された全ての素性がいずれかの要素に関連付けられているベクトルによって表現されていてもよい。その場合、以下の説明では、映像特徴量を、映像特徴ベクトルとも表記する。映像特徴生成部108は、例えば、素性とベクトルの要素とが、1対1に関連付けられるように、素性とベクトルの要素とを関連付ければよい。映像特徴生成部108は、例えば、素性リストにおける素性の順で、素性と、映像特徴ベクトルの要素とを関連付ければよい。映像特徴量は、例えば、要素の値が、その要素に関連付けられている素性が出現したことを表す値(例えば1)又はその要素が出現しなかったことを表す値(例えば0)である、映像特徴ベクトルであってもよい。
The video
映像特徴生成部108は、選択した映像に関連付けられているテキストにおいて、素性毎に、素性の出現頻度を検出してもよい。その場合、映像特徴生成部108は、素性毎に検出された素性の出現頻度を表す特徴量を、映像特徴量として生成すればよい。映像特徴量は、要素が、検出された素性とその素性の出現頻度との組み合わせである、集合であってもよい。映像特徴量は、要素の値が、その要素に関連付けられている素性の出現頻度である、映像特徴ベクトルであってもよい。その場合、映像特徴生成部108は、複数の映像の映像特徴ベクトルの大きさが一定になるように、各映像特徴ベクトルを正規化すればよい。
The video
映像特徴ベクトルの大きさは、例えば、長さ(すなわち、各要素の値の2乗の和の平方根)である。映像特徴生成部108は、各映像の特徴ベクトルの大きさが1になるように、各映像特徴ベクトルを正規化してもよい。
The size of the video feature vector is, for example, the length (that is, the square root of the sum of the squares of the values of the respective elements). The video
映像特徴生成部108は、生成した、各映像の映像特徴量を、映像選択装置110に送信する。映像特徴生成部108は、複数の映像の各々について、映像IDと映像特徴量とを関連付け、互いに関連付けられた映像IDと映像特徴量とを、映像選択装置110に送信すればよい。映像特徴生成部108は、さらに、抽出された素性を、映像選択装置110に送信する。映像特徴生成部108は、素性記憶部107から素性リストを読み出し、読み出した素性リストを、映像選択装置110にすればよい。
The video
映像選択装置110の映像特徴受信部116は、映像特徴生成部108から、各映像の映像特徴量を受信する。映像特徴生成部108は、複数の映像の各々について、互いに関連付けられた映像IDと映像特徴量とを、映像特徴生成部108から受信すればよい。映像特徴受信部116は、受信した、複数の映像の各々の、互いに関連付けられた映像IDと映像特徴量とを、映像特徴記憶部117に格納する。映像特徴受信部116は、さらに、例えば映像特徴生成部108から、例えば素性リストとして、抽出された素性の集合を受信し、受信した素性の集合(例えば素性リスト)を、映像特徴記憶部117に格納する。
The video
映像特徴記憶部117は、複数の映像の各々の、互いに関連付けられた映像IDと映像特徴量とを記憶する。映像特徴記憶部117は、さらに、素性の集合(例えば素性リスト)を記憶する。
The video
対象受信部111は、例えば、ユーザによって指定されたテキストを、そのユーザが使用するユーザ端末(図示されない)から受信する。指定されたテキストは、例えば、ユーザが、映像選択装置110に、そのテキストに応じた映像を選択させるテキストである。以下の説明では、指定されたテキストを、対象テキストと表記する。対象テキストは、例えば、歌詞である。対象テキストは、例えば、ナレーション、朗読、あるいは、アナウンスなどの内容を表すテキストであってもよい。
For example, the
対象特徴生成部112は、対象テキストに対してテキストマイニング処理を行うことによって、その対象テキストの特徴量である対象特徴量を生成する。より具体的には、対象特徴生成部112は、対象テキストにおいて、例えば映像特徴記憶部117に格納されている素性の集合(例えば素性リスト)に含まれる素性を検出する。そして対象特徴生成部112は、素性を検出した結果に基づいて、対象テキストにおいて出現する素性を表す特徴量である、対象特徴量を生成する。
The target
映像特徴生成部108が生成する映像特徴量が、素性毎に、映像に関連付けられているテキストにおいて素性が出現するか否かを表す特徴量である場合、対象特徴生成部112は、対象テキストにおいて、各素性が出現するか否かを検出すればよい。そして、対象特徴生成部112は、素性が出現するか否かを、素性毎に表す対象特徴量を生成すればよい。対象特徴量は、検出された素性の集合であってもよい。対象特徴量は、各要素の値が、その要素に関連付けられている素性が出現したことを表す値(例えば1)、又は、その要素に関連付けられている要素が出現しなかったことを表す値(例えば0)であるベクトル(対象特徴ベクトル)であってもよい。
When the video feature amount generated by the video
映像特徴量が素性毎の素性の出現頻度を表す場合、対象特徴生成部112は、対象テキストにおいて、素性毎の素性の出現頻度を検出すればよい。そして、対象特徴生成部112は、各素性の出現頻度を表す対象特徴量を生成すればよい。対象特徴量は、例えば、要素が、素性とその素性の出現頻度との組み合わせである、集合であってもよい。対象特徴量は、各要素の値が、その要素に関連付けられている素性の出現頻度を表すベクトル(対象特徴ベクトル)であってもよい。対象特徴生成部112は、対象特徴ベクトルを正規化してもよい。対象特徴生成部112は、対象特徴ベクトルを正規化しなくてもよい。
When the video feature amount represents the appearance frequency of the feature for each feature, the target
類似度導出部113は、複数の映像の各々について、映像の映像特徴量に対する、対象特徴量の類似の程度を示す指標である、類似度を導出する。すなわち、類似度導出部113が導出する類似度は、映像特徴量と対象特徴量とが、どの程度類似しているかを示す指標である。以下の説明では、2つの特徴量が類似していることを、類似性が高いと表記する。2つの特徴量が類似していないことを、類似性が低いと表記する。2つの特徴量が類似する程度を、類似性の高さと表記する。類似度は、類似性が高いほど大きくてもよい。類似度は、類似性が高いほど小さくてもよい。
The degree-of-
類似度は、例えば、式1によって表される、コサイン類似度である。類似度がコサイン類似度である場合、類似度の値が大きいほど、類似性が高い。式1及び以下で示す式において、「×」は掛け算を表す識別子である。ベクトルqは、対象特徴ベクトルであり、qiは対象特徴ベクトルのi番目の要素である。ベクトルdxは、x番目の映像の映像特徴ベクトルであり、dx iは、ベクトルdxのi番目の要素である。また、映像の数はN(Nは自然数)である。
The similarity is, for example, a cosine similarity expressed by
類似度は、例えば、式2によって表される、ユークリッド距離であってもよい。類似度がユークリッド距離である場合、類似度の値が小さいほど、類似性が高い。類似度は、ユークリッド距離の逆数であってもよい。その場合、ユークリッド距離が0である場合、類似度導出部113は、例えば、類似度導出部113が処理できる最大の数値を、類似度として設定すればよい。類似度がユークリッド距離の逆数である場合、類似度の値が大きいほど、類似性が高い。式2において、「t」はベクトルの転置を表し、「*」はベクトルの積(内積)を表す。式2において、各ベクトルは行ベクトルである。
The similarity may be, for example, a Euclidean distance expressed by
類似度は、式3によって表される、ジャッカード係数であってもよい。ジャッカード係数は、2つの特徴ベクトルの0ではない共通の要素の数を、それらの特徴ベクトルの少なくとも一方の要素が0ではない要素の数で割ることによって得られる値である。類似度がジャッカード係数である場合、類似度の値が大きいほど、類似性が高い。式3において、|Q∩Dx|は、ベクトルqとベクトルdxの、値が0でない共通の要素の数を表す。|Q∪Dx|ベクトルqとベクトルdxの少なくとも一方の要素の値が0ではない要素の数である。Qは、例えば、ベクトルqの、値が0でない要素の番号の集合である。Dxは、例えば、ベクトルdxの、値が0でない要素の番号の集合である。「∩」は、積集合を表す。「∪」は和集合を表す。 The similarity may be a Jackard coefficient expressed by Equation 3. The Jackard coefficient is a value obtained by dividing the number of non-zero common elements of two feature vectors by the number of elements in which at least one element of those feature vectors is not zero. When the similarity is a Jackard coefficient, the similarity is higher as the similarity value is larger. In Equation 3, | Q∩D x | represents the number of common elements of vector q and vector d x whose values are not zero. | Q∪D x | This is the number of elements in which the value of at least one of the vector q and the vector d x is not zero. Q is, for example, a set of element numbers of vector q whose values are not 0. D x is, for example, a set of numbers of elements whose values are not 0 of the vector d x . “∩” represents a product set. “∪” represents a union.
類似度=|Q∩Dx|/|Q∪Dx| ・・・(式3)
映像選択部114は、導出された類似度が、類似性が高いことを表す映像を選択する。映像選択部114は、複数の映像の各々について算出された類似度から、類似性が最も高いことを表す類似度を選択すればよい。そして、映像選択部114は、選択された類似度の導出に使用された映像特徴量を持つ(すなわち映像特徴量に関連付けられている)映像を選択すればよい。
Similarity = | Q∩D x | / | Q∪D x | (Formula 3)
The
対象受信部111は、対象テキストに加えて、排除キーワードを受信してもよい。排除キーワードは、1つ以上の単語である。その場合、映像選択部114は、付随情報に排除キーワードのいずれかが含まれる映像を、導出される類似度の値にかかわらず、選択しない。また、その場合、例えば映像記憶部119が、付随情報記憶部102が記憶する付随情報と同じ付随情報を記憶していればよい。例えば、映像受信部118が、複数の映像を記憶する映像サーバ(図示されない)、ユーザ端末(図示されない)、又は特徴生成装置100などから、その付随情報を受信すればよい。そして映像受信部118が、受信した付随情報を映像記憶部119に格納すればよい。
The
出力部115は、映像選択部114による選択の結果を表すデータを出力する。選択の結果を表すデータは、例えば、選択された映像の映像IDである。
The
前述のように、映像選択装置110は、映像受信部118と映像記憶部119とを含んでいてもよい。
As described above, the
映像受信部118は、前述の複数の映像を記憶する映像サーバ(図示されない)から、それらの複数の映像の映像データを受信する。そして、映像受信部118は、受信した映像データを、映像記憶部119に格納する。映像記憶部119は、映像受信部118によって格納された、複数の映像の映像データを記憶する。
The
映像記憶部119が複数の映像データを記憶している場合、出力部115は、映像選択部114によって選択された映像の映像データを出力してもよい。
When the
次に、本実施形態の映像選択システム1の動作について、図面を参照して詳細に説明する。
Next, the operation of the
図3は、特徴生成装置100の、複数のテキストと付随情報とに基づいて素性を抽出する動作の例を表すフローチャートである。
FIG. 3 is a flowchart showing an example of an operation of extracting features based on a plurality of texts and accompanying information in the
まず、教師データ受信部103が、映像に関連付けられた1つ以上のテキストを、複数の映像の各々について受信する(ステップS101)。映像に関連付けられた1つ以上のテキストは、教師データとも表記される。教師データ受信部103は、受信した教師データを、教師データ記憶部104に格納する(ステップS102)。
First, the teacher
次に、付随情報受信部101が、付随情報を受信する(ステップS103)。図2は、付付随情報受信部101が受信する、付随情報の例を表す。付付随情報受信部101は、複数の映像の各々について、図2に例示する付随情報を受信する。付随情報受信部101は、受信した付随情報を、付随情報記憶部102に格納する(ステップS104)。
Next, the accompanying
ステップS103及びステップS104の動作は、ステップS101及びステップS102の動作より前に行われてもよい。ステップS103及びステップS104の動作は、ステップS101及びステップS102の動作と並列に行われてもよい。 The operations in steps S103 and S104 may be performed before the operations in steps S101 and S102. The operations in step S103 and step S104 may be performed in parallel with the operations in step S101 and step S102.
次に、属性抽出部105は、付随情報記憶部102に格納されている付随情報から、属性を抽出する(ステップS105)。
Next, the
次に、素性抽出部106が、属性抽出部105が抽出した属性を修飾する語句を、素性として、学習データから抽出する(ステップS106)。
Next, the
図4は、抽出される素性の例を模式的に表す図である。図4に示す例では、映像1とテキストAが関連付けられている。映像2とテキストBが関連付けられている。映像3とテキストCが関連付けられている。右側のブロック内の語句は、それらのテキストの一部を模式的に表す。これらのブロック内で、丸括弧に囲まれている単語が、属性検出部105によって抽出された属性のうち、テキストに含まれる属性である。下線が付されている語句が、属性に係る語句として抽出された素性である。例えば、テキストAは、属性として、「春」と「男」とを含んでいる。素性抽出部106は、「春」に係る素性として、「暖かい」を抽出する。素性抽出部106は、さらに、「男」に係る素性として「背の高い」を抽出する。
FIG. 4 is a diagram schematically illustrating an example of extracted features. In the example shown in FIG. 4,
図5は、抽出された素性の例を模式的に表す図である。図5において、「属性」は、いずれかのテキストにおいて検出された属性である。図5において、「素性」は、検出された属性に係る語句として抽出された素性である。 FIG. 5 is a diagram schematically illustrating an example of extracted features. In FIG. 5, “attribute” is an attribute detected in any text. In FIG. 5, “feature” is a feature extracted as a phrase related to a detected attribute.
次に、素性抽出部106は、抽出された素性のリストである素性リストを生成する(ステップS107)。
Next, the
図6は、素性リストの例を模式的に表す図である。図6において、「属性」は、いずれかのテキストにおいて検出された属性である。図6において、「素性」は、検出された属性に係る語句として抽出された素性である。図6において、太い線によって囲まれている部分が素性リストを表す。 FIG. 6 is a diagram schematically illustrating an example of a feature list. In FIG. 6, “attribute” is an attribute detected in any text. In FIG. 6, “feature” is a feature extracted as a phrase related to a detected attribute. In FIG. 6, a part surrounded by a thick line represents a feature list.
次に、素性抽出部106は、生成した素性リストを、素性記憶部107に格納する(ステップS108)。
Next, the
次に、本実施形態の特徴生成装置100の、映像特徴を生成する動作について、図面を参照して詳細に説明する。
Next, an operation for generating video features of the
図7は、本実施形態の特徴生成装置100の、映像特徴を生成する動作の例を表すフローチャートである。
FIG. 7 is a flowchart illustrating an example of an operation of generating a video feature of the
図7を参照すると、映像特徴生成部108は、素性抽出部106によって抽出された素性のリストである素性リストを、素性記憶部107から読み出す。(ステップS111)。
Referring to FIG. 7, the video
次に、映像特徴生成部108は、映像に関連付けられているテキストを、映像毎に特定する(ステップS112)。
Next, the video
図8は、映像毎の、映像に関連付けられているテキストの例を模式的に表す図である。上述のように映像IDは映像を特定する識別子である。図8において、「テキスト」は、映像IDによって特定されるそれぞれの映像に関連付けられている、1つ以上のテキストの識別子を表す。 FIG. 8 is a diagram schematically illustrating an example of text associated with a video for each video. As described above, the video ID is an identifier for specifying a video. In FIG. 8, “text” represents an identifier of one or more texts associated with each video specified by the video ID.
映像特徴生成部108は、映像毎に、映像に関連付けられているテキストにおいて、素性リストに含まれる素性を検出する(ステップS113)。映像特徴生成部108は、素性を検出した結果に基づいて、映像に関連付けられているテキストに出現する素性を表す映像特徴量(例えば映像特徴ベクトル)を、映像毎に生成する(ステップS114)。
For each video, the video
図9は、映像特徴ベクトル例を模式的に表す図である。図9において、例えば、太い線によって描かれている四角形によって囲まれている部分が、映像1の映像特徴ベクトルを表す。映像1の特徴ベクトルの下の、2つの段に示す数値の列が、映像2及び映像3の映像特徴ベクトルを表す。図9に示す映像特徴ベクトルの各要素の値は、映像に関連付けられているテキストにおける、素性の出現頻度を表す。図9に示す例では、各映像特徴ベクトルは正規化されていない。
FIG. 9 is a diagram schematically illustrating an example of a video feature vector. In FIG. 9, for example, a portion surrounded by a rectangle drawn by a thick line represents a video feature vector of
映像特徴生成部108は、さらに、各映像の映像特徴ベクトルの大きさが同じになるように、各映像特徴ベクトルを正規化すればよい。映像特徴生成部108ではなく、例えば、映像選択装置110の類似度導出部113が、各映像特徴ベクトルを正規化してもよい。
The video
映像特徴生成部108は、映像毎に生成した映像特徴ベクトルと、素性リストとを、映像選択装置110に送信する(ステップS115)。
The video
次に、本実施形態の映像選択装置110の動作について、図面を参照して詳細に説明する。まず、本実施形態の映像選択装置110の、映像特徴ベクトルを受信する動作について説明する。
Next, the operation of the
図10は、本実施形態の映像選択装置110の、映像特徴ベクトルを受信する動作の例を表すフローチャートである。
FIG. 10 is a flowchart illustrating an example of an operation of receiving a video feature vector of the
図10を参照すると、映像特徴受信部116が、特徴生成装置100の映像特徴生成部108から、映像特徴量(例えば映像特徴ベクトル)と、素性リストとを受信する(ステップS201)。映像特徴受信部116は、受信した映像特徴量と素性リストとを、映像特徴記憶部117に格納する(ステップS202)。
Referring to FIG. 10, the video
次に、本実施形態の映像選択装置110の、対象テキストを受信するのに応じて映像を選択する動作について説明する。
Next, an operation of selecting a video in response to receiving the target text of the
図11は、本実施形態の映像選択装置110の、対象テキストを受信するのに応じて映像を選択する動作の例を表すフローチャートである。
FIG. 11 is a flowchart showing an example of an operation of selecting a video in response to receiving the target text in the
図11を参照すると、まず、対象受信部111が、対象テキストを受信する(ステップS211)。対象受信部111は、例えば、コンテンツ配信サーバから、例えば、音声コンテンツの内容を表す対象テキストを受信してもよい。
Referring to FIG. 11, first, the
次に、対象特徴生成部112は、対象受信部111が受信した対象テキストにおいて、素性抽出部106によって抽出された素性のリストである素性リストに含まれる素性を抽出する(ステップS212)。前述のように、素性リストは、例えば、映像特徴受信部116によって映像特徴記憶部117に格納されている。
Next, the target
対象特徴生成部112は、素性を抽出した結果に基づいて、対象テキストに出現する素性を表す、対象特徴量(例えば対象特徴ベクトル)を生成する(ステップS213)。
The target
図12は、対象特徴ベクトルの例を模式的に表す図である。図12に示す数値列が、対処特徴ベクトルを表す。図12に示す対象特徴ベクトルは、対象テキストにおける、素性リストに含まれる各素性の出現頻度を表す。 FIG. 12 is a diagram schematically illustrating an example of the target feature vector. A numerical string shown in FIG. 12 represents a countermeasure feature vector. The target feature vector shown in FIG. 12 represents the appearance frequency of each feature included in the feature list in the target text.
次に、類似度導出部113が、映像特徴量の各々に対する、対象特徴量の類似の程度を表す類似度を算出する(ステップS214)。
Next, the similarity
図13は、類似度導出部113が類似度を導出する、対象特徴ベクトル、及び、映像特徴ベクトルの例を模式的に表す図である。図13に示す例では、対象特徴量は、対象特徴ベクトルである。映像特徴量は、映像特徴ベクトルである。また、図13に示す例では、対象特徴ベクトル、及び、各映像特徴ベクトルは、正規化されている。前述のように対象特徴ベクトルは、正規化されていなくてもよい。類似度導出部113は、映像特徴ベクトルの各々について、対象特徴ベクトルと映像特徴ベクトルとの間の類似性の高さを表す類似度を導出する。
FIG. 13 is a diagram schematically illustrating examples of target feature vectors and video feature vectors from which the
図14は、類似度の例を模式的に表す図である。図14は、図13に示す各映像の映像特徴ベクトルと、対象特徴ベクトルとの間の類似性の高さを表す類似度である。図14に示す例では、類似度はコサイン類似度である。従って、類似度の値が大きいほど、類似性が高い。 FIG. 14 is a diagram schematically illustrating an example of similarity. FIG. 14 shows the similarity indicating the level of similarity between the video feature vector of each video shown in FIG. 13 and the target feature vector. In the example shown in FIG. 14, the similarity is a cosine similarity. Therefore, the greater the similarity value, the higher the similarity.
映像選択部114は、算出した類似度を使用して、対象特徴量に類似する映像特徴量を選択する(ステップS215)。映像選択部114は、類似度が、類似性が最も高いことを表す映像特徴量を選択すればよい。図14に示す例では、類似度の値が最も大きい映像特徴量が、対象特徴量に最も良く類似する映像特徴量である。そして、映像3の映像特徴量が、対象特徴量に最も良く類似する。すなわち、図14に示す例では、映像3の映像特徴量と対象特徴量との類似性が最も高い。
The
映像選択部114は、選択された映像特徴量に関連する映像を選択する(ステップS216)。図14に示す例では、選択された、映像3の映像特徴量に関連する映像は、映像3である。映像選択部114は、映像3を選択する。
The
出力部115は、映像選択部114による選択の結果を出力する(ステップS217)。出力部115は、映像選択部114による選択の結果として、例えば、選択された映像の識別子(すなわち映像ID)を出力すればよい。図14に示す例では、出力部115は、選択された映像である映像3の映像IDを出力すればよい。出力部115は、例えば、対象受信部111に対象テキストを送信した装置に、選択された映像の映像IDを出力すればよい。対象受信部111が、コンテンツ配信サーバ(図示されない)から対象テキストを受信した場合、出力部115は、そのコンテンツ配信サーバに、選択された映像の映像IDを送信すればよい。コンテンツ配信サーバは、出力部115から映像IDを受信する。
The
例えば、コンテンツ配信サーバが、カラオケの楽曲と映像とを配信するカラオケサーバである場合、コンテンツ配信サーバは、楽曲の配信の要求を受信するのに応じて、その楽曲の歌詞である対象テキストを、映像選択装置110に送信すればよい。映像選択装置110は、送信された対象テキストに対して選択した映像IDをコンテンツ配信サーバに送信する。コンテンツ配信サーバは、受信した映像IDが表す映像を特定する。そして、コンテンツ配信サーバは、対象テキストが歌詞である楽曲と、受信した映像IDによって表される映像とを、例えば、その楽曲の配信を要求した端末に配信すればよい。コンテンツ配信サーバは、あらかじめ、配信することができる複数の楽曲について、歌詞を対象テキストとして映像選択装置110に送信しておいてもよい。そして、コンテンツ配信サーバは、あらかじめ、選択された映像の映像IDを受信しておいてもよい。コンテンツ配信サーバは、あらかじめ、楽曲の識別子である楽曲IDと、その楽曲の歌詞が対象テキストである場合に選択された映像の映像IDとを、記憶領域(図示されない)に記憶しておいてもよい。そして、コンテンツ配信サーバは、楽曲の配信を要求されるのに応じて、配信を要求された楽曲の歌詞に対して選択された映像の映像IDを読み出せばよい。そして、コンテンツ配信サーバは、配信を要求された楽曲と、読み出した映像IDが表す映像とを、楽曲の配信を要求した端末に配信すればよい。
For example, when the content distribution server is a karaoke server that distributes karaoke music and video, the content distribution server receives the target text that is the lyrics of the music in response to receiving a request for music distribution, What is necessary is just to transmit to the image |
コンテンツ配信サーバが、ナレーション、朗読、又は、アナウンスなど音声コンテンツの要求に応じて、音声コンテンツと映像とを配信するコンテンツ配信サーバであってもよい。その場合、コンテンツ配信サーバは、例えば、配信可能な音声コンテンツの内容を表すテキストデータを、対象テキストとして、映像選択装置110に送信すればよい。コンテンツ配信サーバは、映像選択装置110から映像IDを受信し、対象テキストによって内容が表される音声コンテンツと、受信した映像IDによって表される映像とを、音声コンテンツの配信を要求した端末に送信すればよい。コンテンツ配信サーバは、コンテンツの配信の要求を受信するのに応じて、対象テキストの送信、映像IDの受信、及び、音声コンテンツと映像との配信を行ってもよい。コンテンツ配信サーバは、あらかじめ、対象テキストの送信と、映像IDの受信とを行い、対象テキストによって内容が表されるコンテンツのコンテンツIDと、その対象テキストに対して選択された映像IDとを記憶していてもよい。音声コンテンツの配信の要求を受信するのに応じて、その音声コンテンツと、記憶している映像IDに基づいて特定した、その音声コンテンツの内容を表す対象テキストに対して選択された映像とを、音声コンテンツの配信を要求した端末に送信してもよい。
The content distribution server may be a content distribution server that distributes audio content and video in response to a request for audio content such as narration, reading, or announcement. In this case, the content distribution server may transmit, for example, text data representing the contents of distributable audio content as the target text to the
以上で説明した本実施形態には、テキストと映像とのマッチングを行う負荷を軽減することができるという第1の効果がある。 The present embodiment described above has a first effect that the load for matching text and video can be reduced.
その理由は、映像の特徴を表す映像特徴量とテキストの特徴を表す対象特徴量との、類似性の高さの程度に基づいて、映像選択部114がテキストと映像とのマッチングを行うからである。映像特徴量は、映像にあらかじめ関連付けられているテキストとその映像の付随情報とを使用して、映像特徴生成部108によって生成される。対象特徴量は、映像特徴量と同じ種類の特徴量である。そして、対象特徴量は、マッチングの対象であるテキスト(上述の対処テキスト)を使用して、対象特徴生成部112によって生成される。
The reason is that the
本実施形態には、テキストの内容と映像の内容とが精度よく一致するように、テキストに対して映像を選択することができるという効果がある。 In the present embodiment, there is an effect that the video can be selected for the text so that the content of the text and the content of the video are accurately matched.
その理由は、映像特徴生成部108と対象特徴生成部112とが、素性抽出部106が抽出する素性を使用して、特徴量を生成するからである。前述のように、映像の内容を端的に表す単語(上述の属性)を修飾する語句である素性は、視覚的な、体感的な、又は、視覚的で体感的な語句であることが、経験的に判明している。映像にあらかじめ関連付けられているテキストは、その映像に、視覚的に、体感的に、または、視覚的で体感的にマッチすると、例えばユーザによって判定されたテキストである。従って、映像に関連付けられているテキストにおいて出現する上述の素性と、対象テキストにおいて出現する素性とが類似している場合、その映像と対象テキストとは、視覚的に、体感的に、または、視覚的で体感的にマッチする可能性が高い。映像特徴生成部108は、映像に関連付けられているテキストにおいて出現する素性を表す映像特徴量を生成する。対象特徴生成部112は、対象テキストにおいて出現する素性を表す対象特徴量を生成する。類似度導出部113は、そのような、映像特徴量と対象特徴量とが類似する程度を表す類似度を導出する。映像選択部114は、そのような類似度を使用して、映像特徴量と対象特徴量とが類似するように、対象テキストに対する映像を選択する。従って、映像選択部114は、対象テキストに対して、視覚的に、体感的に、または、視覚的で体感的にマッチする映像を、精度よく選択することができる。
The reason is that the video
以上で説明した第2の効果について、さらに具体的に詳しく説明する。
The second effect described above will be described in more detail.
素性抽出部106は、上述のように、付随情報から抽出された単語である属性を修飾する語句を抽出することによって、視覚的、体感的に表現されている語句を、素性として抽出する。対象特徴生成部112は、例えば歌詞などの対象テキストにおける、素性の出現頻度をもとに、対象特徴量(例えば対象特徴ベクトル)を生成する。映像特徴生成部108は、映像に関連付けられている、歌詞などのテキストや、その映像の付随情報(特に企画意図等)における、素性の出現頻度をもとに、映像特徴ベクトルを生成する。類似度導出部113は、対象特徴ベクトルと映像特徴ベクトルとが類似する程度である類似性の高さを表す、例えばコサイン類似度などの類似度を算出する。映像選択部114は、コサイン類似度などの類似度を使用して、対象特徴ベクトルと映像特徴ベクトルとを比較することによって、対象テキストと映像との関連の深さを表す関連性を判定する。上述の対象特徴ベクトルと映像特徴ベクトルとの間の類似度による判定は、視覚的、体感的な特性を利用した、対象テキストと映像との間の関連の判定である。従って、そのような類似度を使用して、対象テキストに対して、対象特徴ベクトルと映像特徴ベクトルとが類似する映像を選択することによって、視覚的、体感的に、対象テキストに類似した映像が選ばれることが期待できる。
As described above, the
例えば、素性の抽出において、属性である「空」に係る語句を抽出することによって、「青い」や、「晴れた」などの、視覚的、体感的な語句が素性として抽出されることが期待できる。映像に関連付けられたテキストにおける、そのような素性の出現頻度を導出した場合、例えば「青い空」の特徴を持つ映像に関連付けられたテキストの中に、「青い」や「晴れた」などの、視覚的に同じ特性を備える語句の出現数が高いことが期待できる。さらに、対象テキストの中に、「青い空」または「晴れた空」という表現がある場合、「青い」という語句及び「晴れた」という語句の少なくともいずれかの出現頻度が高い映像と、対象テキストとの類似度が高くなる。 For example, in the feature extraction, it is expected that visual and bodily words such as “blue” and “sunny” will be extracted as features by extracting words related to the attribute “sky”. it can. When the appearance frequency of such a feature in the text associated with the video is derived, for example, in the text associated with the video with the characteristic of “blue sky”, such as “blue” and “sunny” It can be expected that the number of words having visually the same characteristics is high. Furthermore, when the target text includes the expression “blue sky” or “sunny sky”, the target text and the video with a high frequency of appearance of at least one of the words “blue” and the term “sunny” The degree of similarity is increased.
以上のように、本実施形態の映像選択システム1は、例えば対象テキストに、「青い空」や「厳しい冬」のような、視覚的な、体感的な表現がある場合、その対象テキストを、「晴れた空」や、「寒い季節」などの特徴を備える映像にマッチさせることができる。このように、本実施形態の映像選択システム1は、同義語を使ったマッチングによって実現することができないマッチングを行うことができる。
As described above, in the
すなわち、本実施形態の映像選択システム1は、テキストに対して、視覚的に違和感のない適切な映像を選択することができる。
That is, the
<第1の実施形態の第1の変形例>
次に、本発明の第1の実施形態の第1の変形例について、図面を参照して詳細に説明する。
<First Modification of First Embodiment>
Next, a first modification of the first embodiment of the present invention will be described in detail with reference to the drawings.
図15は、本変形例の映像選択システム1Aの構成の例を表すブロック図である。図15と図1を比較すると、本変形例の映像選択システム1Aは、映像選択装置110の代わりに、映像選択装置110Aを含む。映像選択装置110Aは、第1の実施形態の映像選択装置110の各構成要素に加えて、教師データ受信部121と、教師データ記憶部122と、教師データ送信部123と、付随情報受信部124と、付随情報記憶部125と、付随情報送信部126とを含む。映像選択システム1Aは、映像選択システム1Aのユーザが指示などを入力するのに使用する、ユーザ端末(図示されない)を含んでいてもよい。
FIG. 15 is a block diagram illustrating an example of the configuration of the video selection system 1A according to the present modification. Comparing FIG. 15 with FIG. 1, the
教師データ受信部121は、例えばコンテンツ配信サーバなどの他の装置から、上述の教師データ(それぞれ映像に関連付けられている、複数のテキスト)を受信する。教師データ受信部121は、受信した教師データを、教師データ記憶部122に格納する。教師データ記憶部122は、教師データを記憶する。教師データ送信部123は、教師データ記憶部122に格納されている教師データを、教師データ受信部103に送信する。教師データ受信部103は、教師データ送信部123から、教師データを受信する。
The teacher
付随情報受信部124は、例えばコンテンツ配信サーバなどの他の装置から、上述の付随情報を受信する。付随情報受信部124は、受信した付随情報を、付随情報記憶部125に格納する。付随情報記憶部125は、付随情報を記憶する。付随情報送信部126は、付随情報記憶部125に格納されている付随情報を、付随情報受信部101に送信する。付随情報受信部101は、付随情報送信部126から、付随情報を受信する。
The accompanying
以上の相違を除き、本変形例の映像選択システム1Aは、第1の実施形態の映像選択システム1と同じである。
Except for the above differences, the video selection system 1A of the present modification is the same as the
<第1の実施形態の第2の変形例>
次に、本発明の第1の実施形態の第2の変形例について、図面を参照して詳細に説明する。
<Second Modification of First Embodiment>
Next, a second modification of the first embodiment of the present invention will be described in detail with reference to the drawings.
図16は、本変形例の映像選択システム1Bの構成の例を表すブロック図である。図16を参照すると、映像選択システム1Bは、映像選択装置110Bを含む。映像選択システム1Bは、特徴生成装置100を含む。映像選択システム1Bは、映像選択システム1Bのユーザが指示などを入力するのに使用する、ユーザ端末(図示されない)を含んでいてもよい。
FIG. 16 is a block diagram illustrating an example of a configuration of a video selection system 1B according to the present modification. Referring to FIG. 16, the video selection system 1B includes a
以上の相違を除き、本変形例の映像選択システム1Bは、第1の実施形態の映像選択システム1と同じである。
Except for the above differences, the video selection system 1B of the present modification is the same as the
<第1の実施形態の第3の変形例>
次に、本発明の第1の実施形態の第3の変形例について、図面を参照して詳細に説明する。
<Third Modification of First Embodiment>
Next, a third modification of the first embodiment of the present invention will be described in detail with reference to the drawings.
図17は、本変形例の映像選択システム1Cの構成の例を表すブロック図である。本変形例の映像選択システム1Cは、映像選択装置110Cを含む。映像選択装置110Cは、第1の実施形態の特徴生成装置100の各構成要素を含む。映像選択装置110Cは、映像特徴受信部116を含んでいなくてよい。そして、映像選択装置110Cは、第1の実施形態の特徴生成装置100として動作する。映像選択システム1Cは、映像選択システム1Cのユーザが指示などを入力するのに使用する、ユーザ端末(図示されない)を含んでいてもよい。
FIG. 17 is a block diagram illustrating an example of a configuration of a video selection system 1C according to the present modification. The video selection system 1C of the present modification includes a
本実施形態の映像特徴生成部108は、生成した映像特徴量を、映像特徴記憶部117に格納する。本実施形態の映像特徴生成部108は、上述の素性リストを、映像特徴記憶部117に格納してもよい。本実施形態の素性抽出部106は、素性リストを、対象特徴生成部112に送信してもよい。本実施形態の対象特徴生成部112は、素性記憶部107から素性リストを読み出してもよい。
The video
以上の相違を除き、本変形例の映像選択システム1Cは、第1の実施形態の映像選択システム1と同じである。
Except for the above differences, the video selection system 1C of the present modification is the same as the
<第2の実施形態>
次に、本発明の第2の実施形態について、図面を参照して詳細に説明する。本実施形態は、本発明の各実施形態を概念的に表す実施形態である。
<Second Embodiment>
Next, a second embodiment of the present invention will be described in detail with reference to the drawings. This embodiment is an embodiment conceptually representing each embodiment of the present invention.
図18は、本実施形態の映像選択システム1Dの構成の例を表すブロック図である。 FIG. 18 is a block diagram illustrating an example of the configuration of the video selection system 1D of the present embodiment.
図18を参照すると、本実施形態の映像選択システム110Dは、映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成部108と、対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成部112と、前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出部113と、導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択部114と、を備える。
Referring to FIG. 18, the video selection system 110D according to the present embodiment performs a text mining process on text associated with a video, thereby obtaining a video feature quantity that is the video feature quantity. A video
以上で説明した本実施形態には、第1の実施形態の第1の効果と同じ効果がある。その理由は、第1の実施形態の第1の効果が生じる理由と同じである。 The present embodiment described above has the same effect as the first effect of the first embodiment. The reason is the same as the reason why the first effect of the first embodiment occurs.
<他の実施形態>
映像選択装置110、映像選択装置110A、映像選択装置110B、映像選択装置110C、映像選択装置110D、特徴生成装置100、及び、特徴生成装置100Dは、それぞれ、コンピュータ及びコンピュータを制御するプログラム、専用のハードウェア、又は、コンピュータ及びコンピュータを制御するプログラムと専用のハードウェアの組合せにより実現することができる。
<Other embodiments>
The
図19は、映像選択装置110、映像選択装置110A、映像選択装置110B、映像選択装置110C、映像選択装置110D、特徴生成装置100、及び、特徴生成装置100Dを実現することができる、コンピュータ1000のハードウェア構成の一例を表す図である。図19を参照すると、コンピュータ1000は、プロセッサ1001と、メモリ1002と、記憶装置1003と、I/O(Input/Output)インタフェース1004とを含む。また、コンピュータ1000は、記録媒体1005にアクセスすることができる。メモリ1002と記憶装置1003は、例えば、RAM(Random Access Memory)、ハードディスクなどの記憶装置である。記録媒体1005は、例えば、RAM、ハードディスクなどの記憶装置、ROM(Read Only Memory)、可搬記録媒体である。記憶装置1003が記録媒体1005であってもよい。プロセッサ1001は、メモリ1002と、記憶装置1003に対して、データやプログラムの読み出しと書き込みを行うことができる。プロセッサ1001は、I/Oインタフェース1004を介して、例えば、他の装置にアクセスすることができる。プロセッサ1001は、記録媒体1005にアクセスすることができる。記録媒体1005には、コンピュータ1000を、映像選択装置110、映像選択装置110A、映像選択装置110B、映像選択装置110C、映像選択装置110D、特徴生成装置100、又は、特徴生成装置100Dとして動作させるプログラムが格納されている。
FIG. 19 illustrates a
プロセッサ1001は、記録媒体1005に格納されている、コンピュータ1000を、映像選択装置110、映像選択装置110A、映像選択装置110B、映像選択装置110C、映像選択装置110D、特徴生成装置100、又は、特徴生成装置100Dとして動作させるプログラムを、メモリ1002にロードする。そして、プロセッサ1001が、メモリ1002にロードされたプログラムを実行することにより、コンピュータ1000は、映像選択装置110、映像選択装置110A、映像選択装置110B、映像選択装置110C、映像選択装置110D、特徴生成装置100、又は、特徴生成装置100Dとして動作する。
The
付随情報受信部101、教師データ受信部103、属性抽出部105、素性抽出部106、映像特徴生成部108、対象受信部111、対象特徴生成部112、類似度導出部113、映像選択部114、出力部115、映像特徴受信部116、映像受信部118、教師データ受信部121、教師データ送信部123、付随情報受信部124、及び、付随情報送信部126は、例えば、プログラムを記憶する記録媒体1005からメモリ1002に読み込まれた、各部の機能を実現することができる専用のプログラムと、そのプログラムを実行するプロセッサ1001により実現することができる。また、付随情報記憶部102、教師データ記憶部104、素性記憶部107、映像特徴記憶部117、映像記憶部119、教師データ記憶部122、及び、付随情報記憶部125は、コンピュータ1000が含むメモリ1002やハードディスク装置等の記憶装置1003により実現することができる。あるいは、付随情報受信部101、付随情報記憶部102、教師データ受信部103、教師データ記憶部104、属性抽出部105、素性抽出部106、素性記憶部107、映像特徴生成部108、対象受信部111、対象特徴生成部112、類似度導出部113、映像選択部114、出力部115、映像特徴受信部116映像特徴記憶部117、映像受信部118、映像記憶部119、教師データ受信部121、教師データ記憶部122、教師データ送信部123、付随情報受信部124、付随情報記憶部125、及び、付随情報送信部126の一部又は全部を、各部の機能を実現する専用の回路によって実現することもできる。
Accompanying
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。 Moreover, although a part or all of said embodiment can be described also as the following additional remarks, it is not restricted to the following.
(付記1)
映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、
対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、
前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、
導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、
を備える映像選択システム。
(Appendix 1)
Video feature generation means for generating, for each of the plurality of videos, a video feature quantity that is a feature quantity of the video by performing a text mining process on text associated with the video;
Target feature generation means for generating a target feature quantity that is a feature quantity of the target text by executing the text mining process on the target text;
Similarity degree deriving means for deriving the degree of similarity of the video feature quantity with respect to the target feature quantity for each of the video feature quantities;
Based on the derived degree of similarity, the video feature amount having a high degree of similarity to the target feature amount is selected, and the video associated with the text from which the selected video feature amount is derived is selected. Video selection means to
A video selection system comprising:
(付記2)
前記複数の映像の少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記映像の前記属性を修飾する語句である素性を抽出する素性抽出部をさらに備え、
前記映像特徴生成手段は、前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の前記映像特徴量として生成し、
前記対象特徴生成手段は、前記対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象特徴量として生成する
付記1に記載の映像選択システム。
(Appendix 2)
A feature extracting unit that extracts a feature that is a phrase that modifies the attribute of the video from the text based on an attribute that is a phrase related to at least one of the plurality of videos;
For each of the plurality of videos, the video feature generation means detects each of the extracted features in the text associated with the video, and calculates a feature amount representing the detected features. Generating as the video feature amount,
The video selection system according to
(付記3)
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段
をさらに備える付記2に記載の映像選択システム。
(Appendix 3)
The video selection system according to
(付記4)
それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納する素性抽出手段と、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成手段と、
を備える特徴量生成装置。
(Appendix 4)
Based on an attribute that is a phrase related to at least one of a plurality of videos each associated with text, a feature that is a phrase that modifies the attribute is extracted from the text, and the extracted feature is stored as a feature A feature extraction means stored in the means;
For each of the plurality of videos, in the text associated with the video, each of the features stored in the feature storage means is detected, and a feature amount representing the detected feature is detected as the video of the video. Video feature generation means for generating as feature quantities;
A feature amount generating apparatus.
(付記5)
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段
をさらに備える付記4に記載の特徴量生成装置。
(Appendix 5)
The feature quantity generation device according to appendix 4, further comprising attribute extraction means for extracting the attribute from accompanying information that is associated with each of the videos and is information that characterizes the videos.
(付記6)
映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成し、
対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成し、
前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出し、
導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する、
映像選択方法。
(Appendix 6)
Generating a video feature amount that is a feature amount of the video for each of the plurality of videos by performing a text mining process on text associated with the video;
By executing the text mining process on the target text, a target feature amount that is a feature amount of the target text is generated,
For each of the video feature quantities, derive a similarity indicating the degree of similarity of the video feature quantity to the target feature quantity,
Based on the derived degree of similarity, the video feature amount having a high degree of similarity to the target feature amount is selected, and the video associated with the text from which the selected video feature amount is derived is selected. To
Video selection method.
(付記7)
前記複数の映像の少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記映像の前記属性を修飾する語句である素性を抽出し、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の前記映像特徴量として生成し、
前記対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象特徴量として生成する
付記6に記載の映像選択方法。
(Appendix 7)
Based on an attribute that is a phrase related to at least one of the plurality of videos, a feature that is a phrase that modifies the attribute of the video is extracted from the text;
For each of the plurality of videos, in the text associated with the video, each of the extracted features is detected, and a feature amount representing the detected feature is generated as the video feature amount of the video. ,
The video selection method according to claim 6, wherein each of the extracted features is detected in the target text, and a feature amount representing the detected feature is generated as the target feature amount.
(付記8)
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する
付記7に記載の映像選択方法。
(Appendix 8)
The video selection method according to claim 7, wherein the attribute is extracted from accompanying information that is associated with each of the videos and is information that characterizes the video.
(付記9)
それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納し、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する、
特徴量生成方法。
(Appendix 9)
Based on an attribute that is a phrase related to at least one of a plurality of videos each associated with text, a feature that is a phrase that modifies the attribute is extracted from the text, and the extracted feature is stored as a feature Stored in the means,
For each of the plurality of videos, in the text associated with the video, each of the features stored in the feature storage means is detected, and a feature amount representing the detected feature is detected as the video of the video. Generate as feature quantity,
Feature generation method.
(付記10)
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する
付記9に記載の特徴量生成方法。
(Appendix 10)
The feature value generation method according to claim 9, wherein the attribute is extracted from accompanying information that is associated with each of the videos and is information that characterizes the video.
(付記11)
コンピュータを、
映像に関連付けられているテキストに対してテキストマイニング処理を実行することによって、前記映像の特徴量である映像特徴量を、複数の前記映像の各々について生成する映像特徴生成手段と、
対象テキストに対して前記テキストマイニング処理を実行することによって、前記対象テキストの特徴量である対象特徴量を生成する対象特徴生成手段と、
前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、
導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、
して動作させる映像選択プログラム。
(Appendix 11)
Computer
Video feature generation means for generating, for each of the plurality of videos, a video feature quantity that is a feature quantity of the video by performing a text mining process on text associated with the video;
Target feature generation means for generating a target feature quantity that is a feature quantity of the target text by executing the text mining process on the target text;
Similarity degree deriving means for deriving the degree of similarity of the video feature quantity with respect to the target feature quantity for each of the video feature quantities;
Based on the derived degree of similarity, the video feature amount having a high degree of similarity to the target feature amount is selected, and the video associated with the text from which the selected video feature amount is derived is selected. Video selection means to
Video selection program to be operated.
(付記12)
コンピュータを、
前記複数の映像の少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記映像の前記属性を修飾する語句である素性を抽出する素性抽出部と、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の前記映像特徴量として生成する前記映像特徴生成手段と、
前記対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象特徴量として生成する前記対象特徴生成手段と、
して動作させる付記11に記載の映像選択プログラム。
(Appendix 12)
Computer
A feature extraction unit that extracts a feature that is a phrase that modifies the attribute of the video from the text based on an attribute that is a phrase related to at least one of the plurality of videos;
For each of the plurality of videos, in the text associated with the video, each of the extracted features is detected, and a feature amount representing the detected feature is generated as the video feature amount of the video. The video feature generating means;
The target feature generating means for detecting each of the extracted features in the target text and generating a feature amount representing the detected feature as the target feature amount;
The video selection program according to appendix 11, which is operated as described above.
(付記13)
コンピュータを、
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段と
して動作させる付記12に記載の映像選択プログラム。
(Appendix 13)
Computer
13. The video selection program according to appendix 12, wherein the video selection program is operated as attribute extraction means for extracting the attribute from accompanying information that is associated with each of the videos and is information that characterizes the video.
(付記14)
コンピュータを、
それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納する素性抽出手段と、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成手段と、
して動作させる特徴量生成プログラム。
(Appendix 14)
Computer
Based on an attribute that is a phrase related to at least one of a plurality of videos each associated with text, a feature that is a phrase that modifies the attribute is extracted from the text, and the extracted feature is stored as a feature A feature extraction means stored in the means;
For each of the plurality of videos, in the text associated with the video, each of the features stored in the feature storage means is detected, and a feature amount representing the detected feature is detected as the video of the video. Video feature generation means for generating as feature quantities;
A feature generation program to be operated.
(付記15)
コンピュータを、
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出手段と
して動作させる付記14に記載の特徴量生成プログラム。
(Appendix 15)
Computer
15. The feature quantity generation program according to appendix 14, which is operated as attribute extraction means for extracting the attribute from accompanying information that is associated with each of the videos and is information that characterizes the videos.
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 The present invention has been described above with reference to the embodiments, but the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
1 映像選択システム
1A 映像選択システム
1B 映像選択システム
1C 映像選択システム
1D 映像選択システム
100 特徴生成装置
100D 特徴生成装置
101 付随情報受信部
102 付随情報記憶部
103 教師データ受信部
104 教師データ記憶部
105 属性抽出部
106 素性抽出部
107 素性記憶部
108 映像特徴生成部
110 映像選択装置
110A 映像選択装置
110B 映像選択装置
110C 映像選択装置
110D 映像選択装置
111 対象受信部
112 対象特徴生成部
113 類似度導出部
114 映像選択部
115 出力部
116 映像特徴受信部
117 映像特徴記憶部
118 映像受信部
119 映像記憶部
121 教師データ受信部
122 教師データ記憶部
123 教師データ送信部
124 付随情報受信部
125 付随情報記憶部
126 付随情報送信部
1000 コンピュータ
1001 プロセッサ
1002 メモリ
1003 記憶装置
1004 I/Oインタフェース
1005 記録媒体
DESCRIPTION OF
Claims (15)
映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の特徴量である映像特徴量として生成する映像特徴生成手段と、
対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象テキストの特徴量である対象特徴量として生成する対象特徴生成手段と、
前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出手段と、
導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択手段と、
を備える映像選択システム。 Feature extraction means for extracting a feature that is a phrase that modifies the attribute of the video from text associated with the video having the attribute based on an attribute that is a phrase related to at least one of the plurality of videos; ,
Oite the text associated with the image, extracted by detecting each of the feature, the feature value representing the said detected feature, image feature generating means for generating a video image characteristic amount is a feature amount of the image When,
Detecting each of said feature that Oite, extracted into target text, the object characteristic generating means for generating a target characteristic quantity is a feature quantity representing the said detected feature, a feature quantity of the target text,
Similarity degree deriving means for deriving the degree of similarity of the video feature quantity with respect to the target feature quantity for each of the video feature quantities;
Based on the derived degree of similarity, the video feature amount having a high degree of similarity to the target feature amount is selected, and the video associated with the text from which the selected video feature amount is derived is selected. Video selection means to
A video selection system comprising:
請求項1に記載の映像選択システム。 Before Symbol image feature generating means, for each of the plurality of images to generate the image feature
Image selection system according to 請 Motomeko 1.
をさらに備える請求項2に記載の映像選択システム。 The video selection system according to claim 2, further comprising attribute extraction means for extracting the attribute from accompanying information that is associated with each of the videos and is information that characterizes the video.
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成手段と、
を備える特徴量生成装置。 Based on an attribute that is a phrase related to at least one of a plurality of videos each associated with text, a feature that is a phrase that modifies the attribute is extracted from the text, and the extracted feature is stored as a feature A feature extraction means stored in the means;
For each of the plurality of videos, in the text associated with the video, each of the features stored in the feature storage means is detected, and a feature amount representing the detected feature is detected as the video of the video. Video feature generation means for generating as feature quantities;
A feature amount generating apparatus.
をさらに備える請求項4に記載の特徴量生成装置。 The feature quantity generation device according to claim 4, further comprising attribute extraction means that extracts the attribute from accompanying information that is associated with each of the videos and is information that characterizes the videos.
複数の映像の少なくともいずれかに関連する語句である属性に基づいて、当該属性を持つ映像に関連付けられているテキストから、前記映像の前記属性を修飾する語句である素性を抽出し、
映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の特徴量である映像特徴量として生成し、
対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象テキストの特徴量である対象特徴量として生成し、
前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出し、
導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する、
映像選択方法。 Computer
Based on an attribute that is a phrase related to at least one of a plurality of videos, a feature that is a phrase that modifies the attribute of the video is extracted from text associated with the video having the attribute,
Oite the text associated with the image, extracted by detecting each of the feature, the feature value representing the said detected feature, generates as image feature is a feature value of the image,
Oite the target text, extracted detects each of the feature, the feature value representing the said detected feature, generates a target feature quantity is a feature quantity of the target text,
For each of the video feature quantities, derive a similarity indicating the degree of similarity of the video feature quantity to the target feature quantity,
Based on the derived degree of similarity, the video feature amount having a high degree of similarity to the target feature amount is selected, and the video associated with the text from which the selected video feature amount is derived is selected. To
Video selection method.
前記複数の映像の各々について、前記映像特徴量を生成する
請求項6に記載の映像選択方法。 Computer
Generating the video feature for each of the plurality of videos;
Video selection method according to 請 Motomeko 6.
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する
請求項7に記載の映像選択方法。 Computer
The video selection method according to claim 7, wherein the attribute is extracted from accompanying information that is associated with each of the videos and is information that characterizes the video.
それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納し、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する、
特徴量生成方法。 Computer
Based on an attribute that is a phrase related to at least one of a plurality of videos each associated with text, a feature that is a phrase that modifies the attribute is extracted from the text, and the extracted feature is stored as a feature Stored in the means,
For each of the plurality of videos, in the text associated with the video, each of the features stored in the feature storage means is detected, and a feature amount representing the detected feature is detected as the video of the video. Generate as feature quantity,
Feature generation method.
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する
請求項9に記載の特徴量生成方法。 Computer
The feature value generation method according to claim 9, wherein the attribute is extracted from accompanying information that is associated with each of the videos and is information that characterizes the video.
複数の映像の少なくともいずれかに関連する語句である属性に基づいて、当該属性を持つ映像に関連付けられているテキストから、前記映像の前記属性を修飾する語句である素性を抽出する素性抽出処理と、
映像に関連付けられているテキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の特徴量である映像特徴量として生成する映像特徴生成処理と、
対象テキストにおいて、抽出された前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記対象テキストの特徴量である対象特徴量として生成する対象特徴生成処理と、
前記映像特徴量の各々について、当該映像特徴量の、前記対象特徴量に対する類似の程度を表す類似度を導出する類似度導出処理と、
導出された前記類似度に基づいて、前記対象特徴量に対する類似の程度が高い前記映像特徴量を選択し、選択された前記映像特徴量が導出された前記テキストに関連付けられている前記映像を選択する映像選択処理と、
を実行させる映像選択プログラム。 On the computer,
A feature extraction process for extracting a feature that is a phrase that modifies the attribute of the video based on an attribute that is a phrase related to at least one of the plurality of videos from text associated with the video having the attribute; ,
Oite the text associated with the image, extracted by detecting each of the feature, the feature value representing the said detected feature, image feature generation process of generating the image feature is a feature value of the image When,
Oite the target text, extracted detects each of the feature, the feature value representing the said detected feature, and the object characteristic generation process of generating a target characteristic quantity is a feature quantity of the target text,
For each of the video feature amounts, a similarity degree derivation process for deriving a degree of similarity representing the degree of similarity of the video feature amount to the target feature amount;
Based on the derived degree of similarity, the video feature amount having a high degree of similarity to the target feature amount is selected, and the video associated with the text from which the selected video feature amount is derived is selected. Video selection processing to
A video selection program that executes
請求項11に記載の映像選択プログラム。 The video feature generation processing generates the video feature amount for each of the plurality of videos.
Video selection program according to 請 Motomeko 11.
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出処理
を実行させる請求項12に記載の映像選択プログラム。 On the computer,
Attribute extraction processing for extracting the attribute from accompanying information that is associated with each of the videos and is information that characterizes the videos
The video selection program according to claim 12, wherein:
それぞれテキストが関連付けられている複数の映像の、少なくともいずれかに関連する語句である属性に基づいて、前記テキストから、前記属性を修飾する語句である素性を抽出し、抽出した前記素性を素性記憶手段に格納する素性抽出処理と、
前記複数の映像の各々について、当該映像に関連付けられているテキストにおいて、前記素性記憶手段に格納されている前記素性の各々を検出し、検出された前記素性を表す特徴量を、前記映像の映像特徴量として生成する映像特徴生成処理と、
を実行させる特徴量生成プログラム。 On the computer,
Based on an attribute that is a phrase related to at least one of a plurality of videos each associated with text, a feature that is a phrase that modifies the attribute is extracted from the text, and the extracted feature is stored as a feature A feature extraction process stored in the means;
For each of the plurality of videos, in the text associated with the video, each of the features stored in the feature storage means is detected, and a feature amount representing the detected feature is detected as the video of the video. Video feature generation processing to generate as a feature amount;
A feature generation program that executes
前記映像の各々に関連付けられている、当該映像を特徴付ける情報である付随情報から、前記属性を抽出する属性抽出処理
を実行させる請求項14に記載の特徴量生成プログラム。 On the computer,
Attribute extraction processing for extracting the attribute from accompanying information that is associated with each of the videos and is information that characterizes the videos
15. The feature quantity generation program according to claim 14, wherein:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014211413A JP6446987B2 (en) | 2014-10-16 | 2014-10-16 | Video selection device, video selection method, video selection program, feature amount generation device, feature amount generation method, and feature amount generation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014211413A JP6446987B2 (en) | 2014-10-16 | 2014-10-16 | Video selection device, video selection method, video selection program, feature amount generation device, feature amount generation method, and feature amount generation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016081265A JP2016081265A (en) | 2016-05-16 |
JP6446987B2 true JP6446987B2 (en) | 2019-01-09 |
Family
ID=55958624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014211413A Active JP6446987B2 (en) | 2014-10-16 | 2014-10-16 | Video selection device, video selection method, video selection program, feature amount generation device, feature amount generation method, and feature amount generation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6446987B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528588A (en) * | 2016-09-14 | 2017-03-22 | 厦门幻世网络科技有限公司 | Method and apparatus for matching resources for text information |
JP6735711B2 (en) * | 2017-06-12 | 2020-08-05 | 日本電信電話株式会社 | Learning device, video search device, method, and program |
JP6829226B2 (en) | 2018-07-11 | 2021-02-10 | 株式会社東芝 | Labeling device, labeling method and program |
CN110659392B (en) * | 2019-09-29 | 2022-05-06 | 北京市商汤科技开发有限公司 | Retrieval method and device, and storage medium |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09128401A (en) * | 1995-10-27 | 1997-05-16 | Sharp Corp | Moving picture retrieval device and video-on-demand device |
JP3471253B2 (en) * | 1999-05-25 | 2003-12-02 | 日本電信電話株式会社 | Document classification method, document classification device, and recording medium recording document classification program |
JP5257071B2 (en) * | 2006-08-03 | 2013-08-07 | 日本電気株式会社 | Similarity calculation device and information retrieval device |
-
2014
- 2014-10-16 JP JP2014211413A patent/JP6446987B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016081265A (en) | 2016-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019105432A1 (en) | Text recommendation method and apparatus, and electronic device | |
Nie et al. | Multimedia answering: enriching text QA with media information | |
US20180349515A1 (en) | Multilingual business intelligence for actions | |
CN104885081B (en) | Search system and corresponding method | |
US20140201180A1 (en) | Intelligent Supplemental Search Engine Optimization | |
EP3532906A1 (en) | Video tagging system and method | |
US20140108311A1 (en) | Information porcessing apparatus and method, and program thereof | |
WO2020103899A1 (en) | Method for generating inforgraphic information and method for generating image database | |
KR20160107187A (en) | Coherent question answering in search results | |
US20140379719A1 (en) | System and method for tagging and searching documents | |
US20150186495A1 (en) | Latent semantic indexing in application classification | |
WO2015188719A1 (en) | Association method and association device for structural data and picture | |
CN108133058B (en) | Video retrieval method | |
KR102088357B1 (en) | Device and Method for Machine Reading Comprehension Question and Answer | |
JP6767342B2 (en) | Search device, search method and search program | |
CN106294473B (en) | Entity word mining method, information recommendation method and device | |
JP6446987B2 (en) | Video selection device, video selection method, video selection program, feature amount generation device, feature amount generation method, and feature amount generation program | |
Mukherjee et al. | Author-specific sentiment aggregation for polarity prediction of reviews. | |
CN110717038A (en) | Object classification method and device | |
US20140188901A1 (en) | Efficiently identifying images, videos, songs or documents most relevant to the user using binary search trees on attributes for guiding relevance feedback | |
Qiu et al. | Improving news video annotation with semantic context | |
EP3144825A1 (en) | Enhanced digital media indexing and retrieval | |
KR101928074B1 (en) | Server and method for content providing based on context information | |
WO2010132062A1 (en) | System and methods for sentiment analysis | |
Hu et al. | Embracing information explosion without choking: Clustering and labeling in microblogging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170915 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180807 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181119 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6446987 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |