JP5234836B2 - Content management apparatus, information relevance calculation method, and information relevance calculation program - Google Patents
Content management apparatus, information relevance calculation method, and information relevance calculation program Download PDFInfo
- Publication number
- JP5234836B2 JP5234836B2 JP2010095578A JP2010095578A JP5234836B2 JP 5234836 B2 JP5234836 B2 JP 5234836B2 JP 2010095578 A JP2010095578 A JP 2010095578A JP 2010095578 A JP2010095578 A JP 2010095578A JP 5234836 B2 JP5234836 B2 JP 5234836B2
- Authority
- JP
- Japan
- Prior art keywords
- content
- annotation
- relevance
- annotations
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は,文書,画像,音楽,映像などのコンテンツを管理するシステムにおいて,コンテンツに対して付与されるアノテーション同士の関連度,およびアノテーションとコンテンツ間の関連度を算出する情報関連度算出技術に関するものである。 The present invention relates to an information relevance calculation technique for calculating the relevance between annotations given to content and the relevance between annotations and content in a system for managing content such as documents, images, music, and videos. Is.
電子化された文書,画像,音楽,映像などのコンテンツを扱うサービスでは,タグと呼ばれる単語や短い文章がコンテンツにアノテーションとして付加され,分類や検索に利用されている。 In services that handle content such as digitized documents, images, music, and videos, words called tags and short sentences are added to the content as annotations and used for classification and search.
アノテーションを用いてコンテンツを分類する方法は,一つのコンテンツを一つのカテゴリに振り分ける従来の一般的な分類方法とは異なり,タグ等を利用することによって,一つのコンテンツに対して複数の属性情報を付与して分類することができる。こうすることで,複数の属性や特性を持つコンテンツに対しても,複数の分類情報を付加することができ,ユーザは複数の属性や特性を指定してコンテンツを検索し,絞り込むことが可能になる。 The method of classifying content using annotation is different from the conventional general method of classifying one content into one category. By using tags, etc., multiple attribute information can be assigned to one content. It can be given and classified. In this way, multiple classification information can be added to content with multiple attributes and characteristics, and the user can search and narrow down content by specifying multiple attributes and characteristics. Become.
コンテンツの分類や検索にタグを利用するサービスとしては,国内では,はてな(登録商標)ブックマークやニコニコ動画(登録商標),国外では,YouTube(登録商標)やFlickr(登録商標),deliciousなどが存在する。それらのサービスでは,各コンテンツに付加されたタグを,ユーザが自由に参照することができる。このとき,コンテンツに付加された日時が早い順にタグを並べてユーザに提示するのが一般的である。 Services that use tags for content classification and search include Hatena (registered trademark) bookmarks and Nico Nico Douga (registered trademark) in Japan, and YouTube (registered trademark), Flickr (registered trademark), and delicious in other countries. To do. In these services, the user can freely refer to the tag added to each content. At this time, the tags are generally arranged in order from the earliest date and time added to the content and presented to the user.
さらに,deliciousでは,コンテンツであるウェブページに付けられたタグ群を,どのユーザが付けたかによって分類して表示するほか,そのウェブページに付けられた全てのタグを,付けたユーザが多いものから順に並べて表示する技術が用いられている。すなわち,より多くのユーザによって付加されたタグほど,より上位に配置されることになる。 Furthermore, in delicious, the tag group attached to the web page which is the content is classified and displayed according to which user attached, and since many users attached all the tags attached to the web page. A technique of arranging and displaying in order is used. That is, tags added by more users are placed higher.
タグとコンテンツの関連度を算出する既存の検索技術としては,画像の特徴量を利用してランキングするもの(非特許文献1)が挙げられる。 As an existing search technique for calculating the degree of association between a tag and a content, there is a technique for ranking using a feature amount of an image (Non Patent Literature 1).
しかしながら,従来技術では,アノテーションにコンテンツとの関連度を表す値が付いておらず,また,コンテンツとの関連度の高さによって順序付けがされていない。そのため,ユーザは,どのアノテーションがコンテンツを典型的に表しているのかを判断することができず,また,システム開発者は,アノテーションとコンテンツ間の関連度を利用したランキングや関連コンテンツの推薦を行うシステムを作成することができない。 However, in the prior art, the annotation does not have a value indicating the degree of association with the content, and is not ordered according to the degree of the degree of association with the content. As a result, users cannot determine which annotations typically represent content, and system developers make rankings using the degree of association between annotations and content and recommend related content The system cannot be created.
前述したdeliciousなどの従来技術では,コンテンツに付加されたタグがユーザごとに分類されているシステムにしか適用することができない。さらに,タグ数によるランキングでは,カテゴリ名などの多くのユーザが共通して付加する一般的なタグが上位になりやすい。そのため,タグの名前からコンテンツの特徴を絞り込んで推測することができるようなタグが上位にランキングされるとは限らない。 The above-described conventional technology such as delicious can be applied only to a system in which tags added to content are classified for each user. Furthermore, in ranking based on the number of tags, general tags that are commonly added by many users such as category names tend to be higher. For this reason, tags that can be estimated by narrowing down the characteristics of the content from the tag name are not necessarily ranked higher.
また,非特許文献1では,画像の特徴量を用いてタグと画像の関連度を計算し,タグtj およびタグtj における画像の類似度および下記の式(1) のGoogle(登録商標)distanceによって定義されたタグ間の距離を用いて関連度の修正を行っている。そのため,画像に対してだけしか適用できない手法であり,また,アノテーション情報のみを用いた場合と比較して解析のための時間や計算量などのコストがかかってしまう。
In
d(ti ,tj )={max(log f(ti ),log f(tj ))−log f(ti ,tj )}÷{log G−min(log f(ti ),log f(tj ))} …式(1)
ここで,f(ti )およびf(tj )は,タグti およびタグtj が付加された画像数,f(ti ,tj )は,f(ti )とf(tj )とが共に付加された画像数,Gは,全画像数である。
d (t i , t j ) = {max (log f (t i ), log f (t j )) − log f (t i , t j )} ÷ {log G−min (log f (t i )) , Log f (t j ))} (1)
Here, f (t i ) and f (t j ) are the number of images to which tag t i and tag t j are added, and f (t i , t j ) are f (t i ) and f (t j ). ) Are added together, and G is the total number of images.
本発明は,以上のような課題を解決するためのものであり,コンテンツの分類などを目的として付加されたアノテーションに対して,アノテーション情報のみを用いることにより,アノテーションとコンテンツとの関連度を算出できる点を特徴とする。また,算出した関連度は,コンテンツのランキングや推薦に利用することができる。 The present invention is for solving the above-mentioned problems, and the degree of association between annotation and content is calculated by using only annotation information for annotation added for the purpose of content classification and the like. It is characterized by what it can do. The calculated relevance can be used for content ranking and recommendation.
本発明は,上記課題を解決するため,コンテンツに付随するアノテーションを格納した情報記憶手段を有するコンテンツ管理装置が,単一のコンテンツに付加された複数のアノテーションに対し,コンテンツに関連する度合いによって関連度を算出する方法であって,各コンテンツに付加されたアノテーション群を取得し,任意のアノテーション間の関連度(以下,A−A関連度と記す)を算出し,算出されたアノテーション間の関連度を利用してあるアノテーションと他のアノテーション群との関連度を算出し,アノテーションとコンテンツ間の関連度(以下,A−C関連度と記す)の算出およびランキングを行うことを特徴とする。 In order to solve the above-described problem, the present invention relates to a content management apparatus having an information storage unit storing annotations accompanying content with respect to a plurality of annotations added to a single content depending on the degree related to the content. Is a method for calculating the degree of annotation, which is obtained by acquiring an annotation group added to each content, calculating the degree of association between arbitrary annotations (hereinafter referred to as A-A degree of association), and the relation between the calculated annotations. The degree of association between an annotation and another annotation group is calculated using the degree, and the degree of association between the annotation and the content (hereinafter referred to as AC relation degree) is calculated and ranked.
アノテーション間の関連度の算出には,あるアノテーションが付加されたコンテンツ集合に対する別のアノテーションも付加されたコンテンツ集合の包含率,または,アノテーションの同一コンテンツにおける共起頻度,または,アノテーションの出現頻度に対する独立性検定の値,などが利用可能である。 The calculation of the degree of association between annotations is based on the content rate of the content set with another annotation added to the content set with a certain annotation, the co-occurrence frequency in the same content of the annotation, or the appearance frequency of the annotation. Independence test values, etc. are available.
また,あるアノテーションと同一コンテンツに付加された他のアノテーション群との関連度の算出には,他のアノテーション群とのA−A関連度の総和,または,他のアノテーション群とのA−A関連度の中央値,または,他のアノテーション群とのA−A関連度の比率をリンクの強さとするランダムサーファーモデル,などが利用可能である。 In addition, in calculating the degree of association between an annotation and another annotation group added to the same content, the sum of the degrees of AA association with other annotation groups, or the AA association with other annotation groups A random surfer model in which the median degree or the ratio of AA relevance with other annotation groups is used as the link strength can be used.
非特許文献1記載の発明,および,本発明は,双方ともに,アノテーションとコンテンツとの関連性を求める点で一致している。しかしながら,次の点で大きな違いがある。非特許文献1に記載されている技術では,アノテーション同士の関連性を分析することに加えてコンテンツそのものの特徴である画像特徴を求め,アノテーションとコンテンツとの関連性を算出する。これに対して,本発明は,アノテーション同士の関連性のみに基づいて,アノテーションとコンテンツとの関連性を算出できる。
Both the invention described in Non-Patent
本発明が,アノテーション同士の関連性のみによって,アノテーションとコンテンツ間の関連性を求めることができる理由を,図1を用いて説明する。図1は,アノテーションによって記述されるコンテンツ内容のイメージ図である。 The reason why the present invention can determine the relationship between the annotation and the content only by the relationship between the annotations will be described with reference to FIG. FIG. 1 is an image diagram of content contents described by annotation.
アノテーションは,コンテンツの内容を捉えて付加されるものである。したがって,各アノテーションは,コンテンツの持つ内容のうち,少なくともその一部を表現したものであるといえる。図1の例では,図7に示すような,「旅行」,「神奈川県」,「電車」,「江ノ電」,「江ノ島」,「鎌倉」という6つのアノテーション(タグ)が付加された「神奈川県の観光名所」というタイトルのビデオコンテンツについて,ビデオコンテンツ全体の内容に対して,各アノテーションが表現している部分を図示している。 Annotations are added by capturing the content. Therefore, it can be said that each annotation expresses at least a part of the content. In the example of FIG. 1, “Kanagawa” to which six annotations (tags) such as “travel”, “Kanagawa prefecture”, “train”, “Enoden”, “Enoshima”, and “Kamakura” are added as shown in FIG. For the video content titled “Prefectural Tourist Attractions”, the part represented by each annotation is shown for the entire video content.
本発明は,次の知見に基づいている。
[知見1]:より多くのアノテーションにより重複して表現されている内容は,コンテンツの主要な内容である。
The present invention is based on the following knowledge.
[Knowledge 1]: The content that is duplicated by more annotations is the main content.
コンテンツの全内容において,特に重要な内容については,多くのアノテーションが表現しようとするであろう。図1では,アノテーションによって表現される内容を示す円が多く重なっている領域が,「主要な内容」の領域に相当する。 Many annotations will try to express particularly important content in the whole content. In FIG. 1, an area where many circles indicating the contents represented by the annotation overlap each other corresponds to the “main contents” area.
さらに,本発明は,次の知見に基づいて,各アノテーションとコンテンツとの関連性を求める。
[知見2]:主要な内容を表現するアノテーションは,コンテンツとの関連性が高い。
Further, the present invention obtains the relationship between each annotation and content based on the following knowledge.
[Knowledge 2]: Annotations that express the main contents are highly related to the contents.
図1でいえば,アノテーションの円がより多く重なっている領域が大きいほど,コンテンツとの関連性が高いアノテーションであるということになる。 In FIG. 1, the larger the area where more circles of annotation are overlapped, the higher the relevance with the content.
したがって,アノテーション同士の内容がどの程度重なり合っているかを推定すれば,コンテンツの主要な内容を推定することができるのである。 Therefore, the main contents of the content can be estimated by estimating how much the annotations overlap.
また,本発明では,同一コンテンツに付加された他のアノテーションの情報とどれだけ共通した情報を表現しているかを示すアノテーション同士の関連度を算出する。あるアノテーションが付加されたコンテンツ集合に対する別のアノテーションも付加されたコンテンツ集合の包含率による関連度の算出手段を用いることにより,アノテーション間の非対称な関係を定義することができる。または,アノテーションの同一コンテンツにおける共起頻度による関連度の算出手段を用いることにより,アノテーションが付加されたコンテンツ数の差に影響されにくい関連度の算出ができる。または,アノテーションの出現頻度に対する独立性検定の値による関連度の算出手段を用いることにより,統計情報を利用した精度の高い関連度の算出ができる。 In the present invention, the degree of association between annotations indicating how much information is expressed with information of other annotations added to the same content is calculated. An asymmetric relationship between annotations can be defined by using a means for calculating a degree of association based on the content rate of a content set to which another annotation is added to a content set to which a certain annotation is added. Alternatively, by using a means for calculating the degree of association based on the co-occurrence frequency in the same content of the annotation, the degree of relevance that is not easily affected by the difference in the number of contents with the annotation added can be calculated. Alternatively, by using a means for calculating the degree of association based on the value of the independence test for the appearance frequency of the annotation, it is possible to calculate the degree of association with high accuracy using statistical information.
また,本発明では,同一コンテンツに付加された他のアノテーションのうち,どれだけ多くのアノテーションと共通の情報を表現できているかによってアノテーションとコンテンツ間の関連度を算出する。他のアノテーション群とのA−A関連度の総和による関連度の算出手段を用いることにより,少ない計算コストでアノテーションとコンテンツ間の関連度を算出できる。または,他のアノテーション群とのA−A関連度の中央値による関連度の算出手段を用いることにより,A−A関連度の外れ値に影響されにくい関連度の算出ができる。または,他のアノテーション群とのA−A関連度の比率をリンクの強さとするランダムサーファーモデルによる関連度の算出手段を用いることにより,同一コンテンツに付けられた全てのタグとの関係性を考慮した精度の高い関連度の算出ができる。 In the present invention, the degree of association between the annotation and the content is calculated based on how many annotations common to the same content can be expressed among other annotations added to the same content. By using a means for calculating the degree of association based on the sum of the degrees of AA association with other annotation groups, the degree of association between the annotation and the content can be calculated with a small calculation cost. Alternatively, by using a means for calculating the relevance level based on the median AA relevance level with other annotation groups, it is possible to calculate the relevance level that is not easily affected by an outlier of the AA relevance level. Alternatively, by using a means for calculating the degree of association based on a random surfer model with the link strength as the ratio of AA relevance with other annotation groups, the relationship with all tags attached to the same content is considered. Highly accurate relevance can be calculated.
したがって,本発明の手法は,アノテーション情報のみを利用し,画像特徴量などコンテンツの種類に依存する情報を利用しないため,アノテーションが付加された任意のコンテンツに対して適用可能であり,画像特徴量を利用した手法と比べ計算コストが少ない点で,従来技術とは異なる。 Therefore, since the method of the present invention uses only annotation information and does not use information that depends on the type of content such as image feature amount, it can be applied to any content with an annotation added. It is different from the conventional technology in that the calculation cost is low compared with the method that uses the.
また,従来は,コンテンツに付加されるアノテーション群は,アノテーションが付けられた順に並べて提示されることが一般的であった。このため,コンテンツに付加されたどのアノテーションがコンテンツの特徴をより適切かつ詳細に表現しているかを知ることは困難であり,一目しただけでコンテンツの概要を把握することはできなかった。 Conventionally, annotation groups added to content are generally presented in the order in which annotations are added. For this reason, it is difficult to know which annotations added to the content express the features of the content more appropriately and in detail, and it was not possible to grasp the outline of the content at a glance.
これに対し,本発明によれば,コンテンツに付加された各アノテーションに対してコンテンツとの関連度を算出し,アノテーションをコンテンツとの関連度が高い順に並べることができる。したがって,関連度の高いアノテーションを一目するだけで,コンテンツの概要を把握することが可能になる。 On the other hand, according to the present invention, it is possible to calculate the degree of association with content for each annotation added to the content and arrange the annotations in descending order of degree of association with the content. Therefore, it is possible to grasp the outline of the content only by looking at the annotation with high relevance.
また,従来のアノテーションを指定した検索における検索結果リストは,閲覧された回数や投稿された日時など,アノテーションとコンテンツとの関連度とは関係のない指標による並べ替えしかできなかったのに対し,本発明を利用することで,検索条件に指定したアノテーションとの関連度が高い順に検索結果のコンテンツを並べて提示することが可能になる。 In addition, the search result list in the conventional search specifying annotations could only be sorted by an index that is not related to the degree of association between annotations and content, such as the number of times viewed or the date and time of posting. By using the present invention, it becomes possible to arrange and present the search result contents in descending order of the degree of association with the annotation specified as the search condition.
さらに,本発明では,あるコンテンツにおける主要なアノテーションを含む他のコンテンツを発見することにより,従来の重複するアノテーション数が多いコンテンツを発見する手法と比べ,関連するコンテンツをより高い精度で取得することが可能になる。すなわち,従来手法では,コンテンツに付加されたアノテーションのうちコンテンツの特徴を典型的に表現できていないアノテーションが重複する場合と,コンテンツに対して典型的なアノテーションが重複する場合を同等に扱っていたのに対し,本発明を利用することで,より典型的なアノテーションがより多く重複しているコンテンツを取得することができる。 Furthermore, in the present invention, by finding other contents including main annotations in a certain content, it is possible to obtain related contents with higher accuracy than the conventional method of finding contents having a large number of overlapping annotations. Is possible. In other words, in the conventional method, the annotations that are not able to express the characteristics of the content are duplicated in the annotations added to the content, and the case where the typical annotations are duplicated for the content is treated equally. On the other hand, by using the present invention, it is possible to acquire content in which more typical annotations are duplicated more.
以上のように,本発明によれば,コンテンツとコンテンツに付加されたアノテーションとの関連度を算出することにより,従来技術では得られなかった,コンテンツの検索およびコンテンツの推薦などに極めて有効な情報を提供することができるようになる。 As described above, according to the present invention, by calculating the degree of association between content and annotations added to the content, information that is extremely useful for content search, content recommendation, etc., which cannot be obtained by the prior art. Will be able to provide.
以下,本発明の実施の形態について,図面を用いて説明する。図2は,本発明の実施形態に係るコンテンツ管理装置を模式的に示す構成図である。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 2 is a block diagram schematically showing the content management apparatus according to the embodiment of the present invention.
コンテンツ管理装置10は,コンテンツとアノテーションとを保持するアノテーション蓄積装置100と,情報関連度算出部110と,情報関連度算出部110によって算出されたアノテーションとコンテンツ間の関連度(A−C関連度)を記憶するA−C関連度記憶装置120を備える。情報関連度算出部110は,コンテンツ選択部111,A−A関連度算出部112,A−C関連度算出部113から構成される。
The
アノテーション蓄積装置100は,この例では,コンテンツ情報管理テーブル101と,アノテーション情報管理テーブル102を格納している。また,A−C関連度記憶装置120は,アノテーションとコンテンツの関係の強さ(関連度)の情報を保持するA−C関係管理テーブル121を記憶する。説明を分かりやすくするために,この例では,アノテーション蓄積装置100とA−C関連度記憶装置120とを別装置として表しているが,同じ記憶装置であってもよい。また,ここではアノテーション蓄積装置100に,コンテンツ自体も格納されているものとして説明するが,アノテーション蓄積装置100では,コンテンツを特定するコンテンツIDとそのアノテーション群のみを管理することとし,コンテンツ自体は他の装置に格納されているとしてもよい。
In this example, the
入出力装置20は,関連度の算出操作を行う人間が利用するディスプレイやキーボードその他の周辺装置であるが,関連度を利用するシステムであってもよい。以下では,コンテンツ管理装置10を利用する人間またはシステムを“ユーザ”という。
The input /
コンテンツ管理装置10は,例えば,CPU(Central Processing Unit ),ROM(Read Only Memory),RAM(Random Access Memory),HDD(Hard Disk Drive ),およびRAMなどの記憶手段に展開されたプログラムを含む。図2に示した構成要素の動作を記述したプログラムは,コンテンツ管理装置10として利用されるコンピュータ上で実行させたり,または,ネットワークなどを介してサービスとして実行させたりすることが可能である。アノテーション蓄積装置100は,API(Application Program Interface )などを通じてコンテンツおよびアノテーションを取得するプログラムであってもよい。
The
情報関連度算出部110は,あるコンテンツに付加された複数のアノテーションに対し,各アノテーションとコンテンツとの関係の強さを数値で表すA−C関連度を算出する。ここで,コンテンツとは,例えば,電子化された文書,画像,音楽,映像などを含み,アノテーションとは,タグ,キーワード,メタデータ,ユーザ情報などを含む。
The information
すなわち,情報関連度選出部110は,入出力装置20や他のシステムなどのユーザからの要求に応じて,コンテンツ選択部111にて,関連度の算出の対象となるコンテンツを決定し,A−A関連度算出部112にて,A−A関連度を算出し,A−C関連度算出部113にて,A−C関連度を算出した後,アノテーション群のA−C関連度算出結果を出力する。または,算出したA−C関連度をA−C関連度記憶装置120に記憶する。
That is, the information relevance
図3は,情報関連度算出部110におけるコンテンツおよびアノテーション情報の処理の概要を示すフローチャートである。
FIG. 3 is a flowchart showing an outline of content and annotation information processing in the information
情報関連度算出部110は,図3に示すように,まず,コンテンツ選択部111により,入出力装置20等から入力された条件に適合するコンテンツ集合を,アノテーション蓄積装置100で管理されているコンテンツの中から選択する(ステップS1)。コンテンツを選択する条件は,メニュー等による選択,作成日時等による選択,検索キーワードによる選択など,任意でよい。
As shown in FIG. 3, the information
次に,A−A関連度算出部112により,選択されたコンテンツ集合の中の関連度算出の対象となるコンテンツに付加されたアノテーション群を,アノテーション蓄積装置100から取得する(ステップS2)。続いて,A−A関連度算出部112では,取得したアノテーションの任意の組み合わせに対してA−A関連度を算出する処理を実行する(ステップS3)。
Next, the AA
次に,A−C関連度算出部113により,ステップS3で算出したA−A関連度から,各アノテーションとコンテンツ間の関連度(A−C関連度)を算出する処理を実行する(ステップS4)。算出したアノテーション群のA−C関連度を,入出力装置20等に出力してユーザに提示する。または,A−C関連度記憶装置120に格納する(ステップS5)。さらに,A−C関連度の算出対象となったアノテーション群について,A−C関連度が高い順もしくは低い順に並べ替えて,順序づけされたアノテーション群を出力するようにしてもよい。選択されたコンテンツが複数ある場合には,ステップS2〜S5を各コンテンツについて繰り返す。
Next, the A-C
図4は,アノテーション蓄積装置100に格納されたアノテーション情報の例を示す図である。アノテーション蓄積装置100には,図4に示すように,関連度の算出の対象になるコンテンツおよびそれらに付加されているアノテーションについてのデータを記憶するコンテンツ情報管理テーブル101とアノテーション情報管理テーブル102が格納されている。アノテーション蓄積装置100は,コンテンツを選択するための検索条件を指定することにより,コンテンツやコンテンツに付加されたアノテーションについてのデータを出力する。
FIG. 4 is a diagram illustrating an example of annotation information stored in the
コンテンツ情報管理テーブル101には,図4(A)に示すように,コンテンツを識別するコンテンツID,コンテンツの名前,コンテンツの説明情報などが格納される。また,アノテーション情報管理テーブル102には,図4(B)に示すように,アノテーションを識別するアノテーションID,アノテーションの名前などの情報が格納される。 As shown in FIG. 4A, the content information management table 101 stores a content ID for identifying content, a content name, content description information, and the like. Further, as shown in FIG. 4B, the annotation information management table 102 stores information such as an annotation ID for identifying an annotation and an annotation name.
図4に示したコンテンツ情報管理テーブル101およびアノテーション情報管理テーブル102は一例であり,名前や説明などの属性は格納されていなくてもよく,また,他の属性が格納されていてもよい。 The content information management table 101 and the annotation information management table 102 shown in FIG. 4 are examples, and attributes such as name and description may not be stored, and other attributes may be stored.
図5は,A−C関連度記憶装置120に格納されるアノテーション−コンテンツ関係管理テーブル(A−C関係管理テーブル)121の例を示す図である。A−C関係管理テーブル121には,図5に示すように,情報関連度算出部110によって算出されたA−C関連度が,各コンテンツIDとアノテーションIDとの組合せのそれぞれに対して格納される。図5に示すA−C関係管理テーブル121も一例であり,他のデータ形式でA−C関連度等の情報を格納するようにしてもよい。
FIG. 5 is a diagram illustrating an example of the annotation-content relationship management table (AC relationship management table) 121 stored in the AC
以上のアノテーション蓄積装置100に格納された情報をもとに,コンテンツ選択部111では,関連度の算出の対象になるコンテンツをアノテーション蓄積装置100から検索し,該当する各コンテンツに対して,コンテンツに付加されたアノテーション群を取得し,取得したアノテーション群をA−A関連度算出部112に伝達する。A−A関連度算出部112では,条件に該当する各コンテンツに対し,同一コンテンツに付加された任意のアノテーション間における関連度であるA−A関連度を算出する。
Based on the information stored in the
図6に,本発明の一実施形態におけるコンテンツに付加されたアノテーションについてのA−A関連度の例を示す。同図において,アノテーションA,アノテーションB,アノテーションC,アノテーションDは,同一のコンテンツaに付加されたアノテーションを表している。アノテーション間の関連度は二つ,もしくは複数のアノテーションの関係として表現される。本実施形態では,アノテーション間の関連度を二つのアノテーション間の関係として説明する。二つのアノテーションA,Bにおいて,アノテーションAから見たアノテーションBとの関連度と,アノテーションBから見たアノテーションAとの関連度は同じであるとは限らないため,これらを区別するためにアノテーション間の関係は,片方向の関係として定義してもよい。 FIG. 6 shows an example of the AA relevance level for the annotation added to the content according to the embodiment of the present invention. In the figure, annotation A, annotation B, annotation C, and annotation D represent annotations added to the same content a. The degree of association between annotations is expressed as a relationship between two or more annotations. In the present embodiment, the degree of association between annotations will be described as a relationship between two annotations. In two annotations A and B, the degree of association with annotation B viewed from annotation A and the degree of association with annotation A viewed from annotation B are not necessarily the same. This relationship may be defined as a one-way relationship.
〔A−A関連度の第1の実施例〕
例えば,同一のコンテンツaに付加されたアノテーションAとアノテーションBのA−A関連度R(A,B)の第1の実施例として,あるアノテーションが付加されたコンテンツ集合に対する別のアノテーションも付加されたコンテンツ集合の包含率により定義してもよい。このとき,A−A関連度R(A,B)は,次の式(2) で与えられる。
[First Example of AA Relevance]
For example, as a first example of the A-A relevance R (A, B) between annotation A and annotation B added to the same content a, another annotation for a content set to which a certain annotation is added is also added. It may be defined by the inclusion rate of the content set. At this time, the AA relevance R (A, B) is given by the following equation (2).
R(A,B)={A,Bを共に含むコンテンツ数}/{Bを含むコンテンツ数}
…式(2)
ここで,A,Bを共に含むコンテンツ数とは,アノテーション蓄積装置100において蓄積されているコンテンツ集合の中で,アノテーションAおよびアノテーションBが共に付加されたコンテンツの総数のことである。また,Bを含むコンテンツ数とは,アノテーション蓄積装置100において蓄積されているコンテンツ集合の中で,アノテーションBが付加されたコンテンツの総数のことである。
R (A, B) = {number of contents including both A and B} / {number of contents including B}
... Formula (2)
Here, the number of contents including both A and B is the total number of contents to which both annotation A and annotation B are added in the contents set stored in the
A−A関連度の第1の実施例に挙げた手法を用いることにより,アノテーションが付加されたコンテンツの総数に大きな差がある場合のA−A関連度を算出する際に,付けられたコンテンツ数の多いアノテーションに対してはA−A関連度を低く算出し,付けられたコンテンツ数の少ないアノテーションに対してはA−A関連度を高く算出するといった,非対称な関係を定義することができる。 Content attached when calculating the AA relevance when there is a large difference in the total number of annotated content by using the method described in the first example of the AA relevance It is possible to define an asymmetric relationship such that the AA relevance level is calculated low for annotations with a large number, and the AA relevance level is calculated high for annotations with a small number of attached contents. .
図7は,アノテーションが付加されたコンテンツの例を示す図である。また,図8は,A−A関連度の算出方法を模式的に示す図である。例えば,図7に示すようなアノテーションが付加されたコンテンツを考える。このとき,二つのアノテーション「江ノ電」と「電車」の関連度R(江ノ電, 電車) およびR(電車, 江ノ電) は,図8のように算出される。すなわち,アノテーション「電車」が付加されたコンテンツ数が100,「江ノ電」が付加されたコンテンツ数が25であり,「電車」と「江ノ電」とが共に付加されたコンテンツ数が20である場合,A−A関連度は,次のように算出される。 FIG. 7 is a diagram illustrating an example of content to which annotations are added. FIG. 8 is a diagram schematically illustrating a method of calculating the AA relevance level. For example, consider content with an annotation as shown in FIG. At this time, the relations R (Enoden, train) and R (train, Enoden) between the two annotations “Enoden” and “train” are calculated as shown in FIG. That is, when the number of contents to which the annotation “train” is added is 100, the number of contents to which “Enoden” is added is 25, and the number of contents to which both “train” and “Enoden” are added is 20, The AA relevance is calculated as follows.
R(江ノ電, 電車) =20/100=0.2
R(電車, 江ノ電) =20/25=0.8
〔A−A関連度の第2の実施例〕
A−A関連度R(A,B)の第2の実施例として,A−A関連度をアノテーションの同一コンテンツにおける共起頻度により定義してもよい。このとき,A−A関連度R(A,B)は,次の式(3) で与えられる。
R (Enoden, train) = 20/100 = 0.2
R (train, Enoden) = 20/25 = 0.8
[Second Example of AA Relevance]
As a second example of the AA relevance level R (A, B), the AA relevance level may be defined by the co-occurrence frequency of annotations in the same content. At this time, the AA relevance R (A, B) is given by the following equation (3).
R(A,B)
={A,Bを共に含むコンテンツ数}/{AまたはBを含むコンテンツ数}…式(3)
ここで,AまたはBを共に含むコンテンツ数とは,アノテーション蓄積装置100において蓄積されているコンテンツ集合の中で,アノテーションAまたはアノテーションBが付加されたコンテンツの総数のことである。
R (A, B)
= {Number of contents including both A and B} / {number of contents including A or B} Expression (3)
Here, the number of contents including both A and B is the total number of contents to which annotation A or annotation B is added in the contents set stored in the
A−A関連度の第2の実施例に挙げた手法を用いることにより,アノテーションが付加されたコンテンツ数に差があるときにA−A関連度が高くならないため,カテゴリ名などの付加されたコンテンツ数の多いアノテーションや,わずかなコンテンツにしか付加されていないアノテーションの影響によってA−A関連度が高く算出されるのを防ぐことができる。 By using the method described in the second example of the AA relevance level, the AA relevance level does not increase when there is a difference in the number of contents with annotations added. It can be prevented that the AA relevance level is calculated high due to the influence of annotations having a large number of contents or annotations added to only a few contents.
〔A−A関連度の第3の実施例〕
また,別のA−A関連度R(A,B)の第3の実施例として,アノテーションの出現頻度に対するカイ二乗値により定義してもよい。このとき,A−A関連度R(A,B)は,次の式(4) で与えられる。
[Third Example of AA Relevance]
Further, as a third example of another AA association degree R (A, B), it may be defined by a chi-square value for the appearance frequency of the annotation. At this time, the AA relevance R (A, B) is given by the following equation (4).
ここで,nはアノテーション蓄積装置100において蓄積されているコンテンツ集合に存在するコンテンツの総数であり,[A,B],[ ̄A, ̄B],[ ̄A,B],[A, ̄B]は,それぞれアノテーションA,Bを共に含むコンテンツ数,アノテーションA,Bのどちらも含まないコンテンツ数,アノテーションBを含みアノテーションAを含まないコンテンツ数,アノテーションAを含みアノテーションBを含まないコンテンツ数である。なお,「 ̄A」の「 ̄」は,Aの上に付く記号である(Bも同様)。
Here, n is the total number of contents existing in the content set stored in the
また,[A],[ ̄A],[B],[ ̄B]は,それぞれアノテーションAを含むコンテンツ数,アノテーションAを含まないコンテンツ数,アノテーションBを含むコンテンツ数,アノテーションBを含まないコンテンツ数である。得られたコンテンツ数が少なかった場合,次の参考文献1に記載されているような「イェーツの補正」などの補正を行ってもよい。
[A], [ ̄A], [B], and [ ̄B] are the number of contents including annotation A, the number of contents not including annotation A, the number of contents including annotation B, and the contents not including annotation B, respectively. Is a number. When the number of obtained contents is small, correction such as “Yates correction” as described in
〔参考文献1〕:F. Yates, “Contingency Tables Involving Small Numbers and the X2 Test ”,Supplement to the Journal of the Royal Statistical Society, Pages:217-235, 1934.
A−A関連度の第3の実施例に挙げた手法を用いることにより,統計情報を利用するため,各アノテーションが付加される傾向に相関性があるかどうかを反映した精度の高いA−A関連度を算出することができる。
[Reference 1]: F. Yates, “Contingency Tables Involving Small Numbers and the X 2 Test”, Supplement to the Journal of the Royal Statistical Society, Pages: 217-235, 1934.
Since the statistical information is used by using the method described in the third embodiment of the AA relevance level, AA with high accuracy reflecting whether or not there is a correlation in the tendency that each annotation is added. Relevance can be calculated.
A−C関連度算出部113は,A−A関連度算出部112で計算された各アノテーション間での関連度の値を入力として,アノテーションとコンテンツ間の関連度であるA−C関連度の算出を行う。
The A-C
コンテンツにアノテーションを付加するシステムでは,コンテンツの主要な属性や特徴は,そのコンテンツに付加される多くのアノテーションによって表現される傾向がある。そこで,本実施形態では,あるコンテンツに付加されたアノテーションについて,同一コンテンツに付加されたより多くの他のアノテーションと,より高い関連度を持っている場合に,アノテーションとコンテンツ間の関連度が高くなるとして説明する。すなわち,コンテンツに付加されたアノテーション群のうち,どのアノテーションとも高い関連度を持っているアノテーションは,A−C関連度が高く算出される。 In a system for adding annotations to content, the main attributes and features of the content tend to be expressed by many annotations added to the content. Therefore, in this embodiment, when an annotation added to a certain content has a higher degree of association with a larger number of other annotations added to the same content, the degree of association between the annotation and the content increases. Will be described. That is, an annotation having a high relevance level with any annotation in the annotation group added to the content is calculated to have a high AC relevance level.
〔A−C関連度の第1の実施例〕
図6に示したコンテンツにおけるアノテーション群の例では,例えば,A−C関連度の第1の実施例として,コンテンツaに対するアノテーションAのA−C関連度S(a,A)をアノテーションAと同一コンテンツに付加された他のアノテーション群とのA−A関連度の総和により定義してもよい。このとき,A−C関連度S(a,A)は,次の式(5) で与えられる。
[First Example of A-C Relevance]
In the example of the annotation group in the content illustrated in FIG. 6, for example, as a first example of the A-C relevance, the A-C relevance S (a, A) of the annotation A with respect to the content a is the same as the annotation A. You may define by the sum total of AA relevance degree with the other annotation group added to the content. At this time, the AC relevance S (a, A) is given by the following equation (5).
S(a,A)=ΣR(t,A) 〔ただし,Σはt∈Tの総和〕 …式(5)
なお,Tはコンテンツaに付加されたアノテーションA以外のアノテーション群を含む集合である。
S (a, A) = ΣR (t, A) [where Σ is the sum of t∈T] (5)
T is a set including annotation groups other than the annotation A added to the content a.
A−C関連度の第1の実施例に挙げた手法を用いることにより,算出したA−A関連度の合計を求めるだけでよいため,少ない計算コストでA−C関連度を算出することができる。 By using the method described in the first example of the A-C relevance level, it is only necessary to obtain the total of the calculated A-A relevance levels. Therefore, it is possible to calculate the A-C relevance level with a low calculation cost. it can.
アノテーションが付加されたコンテンツの表示画面の一例を図7に示しているが,このコンテンツに付加されたアノテーションのA−A関連度からA−C関連度を算出する例を図9に示す。図9は,A−A関連度算出部112によって算出されたR(A,B)の値を要素とするA−A関連度テーブルを示しており,例えば,アノテーション「旅行」に対するコンテンツ「神奈川県の観光名所」のA−C関連度S(神奈川県の観光名所,旅行)は,次のように算出される。
FIG. 7 shows an example of the display screen of the content with the annotation added. FIG. 9 shows an example of calculating the A-C relevance from the AA relevance of the annotation added to the content. FIG. 9 shows an AA association degree table whose elements are R (A, B) values calculated by the AA association
S(神奈川県の観光名所,旅行)
=R(神奈川県,旅行)+R(電車,旅行)+R(江ノ電,旅行)+R(江ノ島,旅行)+R(鎌倉,旅行)
=0.1+0.3+0.01+0.01+0.03=0.45
他のアノテーションについてのA−C関連度についても,それぞれ同様に算出される。このようにして算出されたA−C関連度から,図9に示すA−A関連度テーブルでは,タグ「江ノ島」のA−C関連度が「3.7」で,最も高くなることがわかる。
S (sightseeing spot, travel of Kanagawa)
= R (Kanagawa Prefecture, Travel) + R (Train, Travel) + R (Enoden, Travel) + R (Enoshima, Travel) + R (Kamakura, Travel)
= 0.1 + 0.3 + 0.01 + 0.01 + 0.03 = 0.45
The AC relevance levels for other annotations are calculated in the same manner. From the A-C relevance level calculated in this way, it can be seen that in the AA relevance level table shown in FIG. 9, the A-C relevance level of the tag “Enoshima” is “3.7”, which is the highest. .
〔A−C関連度の第2の実施例〕
A−C関連度S(a,A)の第2の実施例として,A−C関連度を他のアノテーション群とのA−A関連度の中央値により定義してもよい。このとき,A−C関連度S(a,A)は,次の式(6) で与えられる。同一コンテンツに付加されている他のアノテーションの総数をnとする。
[Second Example of A-C Relevance]
As a second example of the A-C relevance S (a, A), the A-C relevance may be defined by the median AA relevance with other annotation groups. At this time, the AC relevance S (a, A) is given by the following equation (6). Let n be the total number of other annotations added to the same content.
・nが奇数の場合
S(a,A)=R(t′(n+1)/2 ,A)
・nが偶数の場合 …式(6)
S(a,A)=(R(t′n/2 ,A)+R(t′n/2+1 ,A))/2
ここで,t′i は同一コンテンツに付加された他の全てのアノテーションとの間のA−A関連度を小さい順に並べ替えたときにi番目となるアノテーションである。
When n is an odd number S (a, A) = R (t ′ (n + 1) / 2 , A)
・ When n is an even number: Formula (6)
S (a, A) = (R (t ′ n / 2 , A) + R (t ′ n / 2 + 1 , A)) / 2
Here, t ′ i is the i-th annotation when the AA association degrees with all other annotations added to the same content are rearranged in ascending order.
A−C関連度の第2の実施例に挙げた手法を用いることにより,A−A関連度の中に他の値と比べて非常に大きな値や小さな値の外れ値が含まれていた場合に,中央値によって緩和され,A−C関連度が不当に高く算出されたり,不当に低く算出されたりするのを防ぐことができる。 By using the method described in the second example of the A-C relevance, the A-A relevance includes a very large value or an outlier that is smaller than other values. In addition, it is mitigated by the median value, and it can be prevented that the degree of A-C relevance is unduly high or low.
〔A−C関連度の第3の実施例〕
また,別のA−C関連度S(a,A)の第3の実施例として,各アノテーションをノードとし,他のアノテーション群とのA−A関連度の比率をエッジの強さとするランダムサーファーモデル(参考文献2参照)により定義してもよい。このとき,A−C関連度S(a,A)は,以下に示す式で与えられる。
[Third Example of A-C Relevance]
In addition, as a third example of another AC relevance S (a, A), a random surfer having each annotation as a node and a ratio of AA relevance to other annotation groups as edge strength It may be defined by a model (see Reference 2). At this time, the AC relevance S (a, A) is given by the following equation.
〔参考文献2〕:S. Brin and L. Page,“The anatomy of a large scale hypertextual web search engine ”, In Proceedings of the seventh international conference on World Wide Web, Pages:107-117, 1998.
以下の式において,ti はコンテンツaに付加されたアノテーションのうち,i番目に付加されたアノテーションであり,Tj はコンテンツaに付加されたアノテーションのうちアノテーションtj 以外のアノテーションを含む集合とする。
1.Ma (i,j)を(i,j)成分とする行列Ma を定義する。
[Reference 2]: S. Brin and L. Page, “The anatomy of a large scale hypertextual web search engine”, In Proceedings of the seventh international conference on World Wide Web, Pages: 107-117, 1998.
In the following expression, t i is an i-th annotation added to the content a, and T j is a set including annotations other than the annotation t j among the annotations added to the content a. To do.
1. A matrix M a having M a (i, j) as an (i, j) component is defined.
・i=jの場合: Ma (i,j)=0
・i≠jの場合: Ma (i,j)=R(tj ,ti )/ΣR(tj ,t)
〔ただし,Σはt∈Tj の総和〕
2.Ma の固有値と固有ベクトル列の全ての組み合わせを計算し,絶対値が最大となる固有ベクトルを長さが1になるように正規化したベクトルVを求める。
3.ベクトルVのi行目の値をS(a,ti )とする。
When i = j: M a (i, j) = 0
When i ≠ j: M a (i, j) = R (t j , t i ) / ΣR (t j , t)
[Where Σ is the sum of t∈T j ]
2. All combinations of eigenvalues of M a and eigenvector sequences are calculated, and a vector V obtained by normalizing the eigenvectors having the maximum absolute value so as to have a length of 1 is obtained.
3. The value of the i-th row of the vector V is S (a, t i ).
ランダムサーファーモデルでは,エッジの強さが同じであっても,より高い値を持ったノードとのエッジの方が重視される。すなわち,A−C関連度の第3の実施例に挙げた手法を用いることにより,他の多くのアノテーションと高いA−A関連度を持っているアノテーションであるかを考慮して,どのアノテーションとのA−A関連度を重視するのかを決定する。したがって,精度の高いA−C関連度の算出が可能になる。 In the random surfer model, even if the edge strength is the same, an edge with a node having a higher value is more important. In other words, by using the method described in the third example of the A-C relevance level, it is possible to determine which annotations are considered in consideration of the annotation having a high AA relevance level with many other annotations. It is determined whether to attach importance to the AA relevance level. Accordingly, it is possible to calculate the AC relevance with high accuracy.
〔コンテンツランキング処理〕
A−C関連度を算出済みのアノテーションが付加されたコンテンツを利用することにより,ユーザがアノテーションを指定して検索を行った際における検索結果のコンテンツ集合を,指定したアノテーションとの関連が強い順に並べて提示することが可能である。これにより,検索を行ったユーザは,同じアノテーションが付けられたコンテンツ集合の中でも,アノテーションによって表現される特徴をより多く持ったコンテンツを発見し,閲覧することができるようになる。
[Content ranking processing]
By using content with annotations whose AC relevance has been calculated, the content set of the search results when the user performs a search by specifying the annotations in descending order of the relationship with the specified annotations. It is possible to present them side by side. As a result, the user who has performed the search can find and browse content having more features expressed by the annotation, even in the content set with the same annotation.
このとき,例えば,検索条件で指定したアノテーションが,コンテンツ中で何番目にA−C関連度が高いタグなのかを利用し,検索結果を並べ替えてもよい。 At this time, for example, the search result may be rearranged by using the number of tags with the highest A-C relevance in the content, which is the annotation specified in the search condition.
図10は,コンテンツ集合の並べ替えを行うコンテンツ管理装置の構成例を示す図である。図10において,アノテーション蓄積装置100,情報関連度算出部110,A−C関連度記憶装置120は,図2における同符号のものに対応する。
FIG. 10 is a diagram illustrating a configuration example of a content management apparatus that rearranges content sets. 10, the
コンテンツランキング部130は,A−C関連度に従ってコンテンツ集合の並べ替えを行うものであり,コンテンツ選択部131,アノテーション並べ替え部132,コンテンツ並べ替え部133から構成される。
The
以下,図10に示すコンテンツランキング部130が実行する処理手順について説明する。コンテンツランキング部130は,コンテンツを検索して得られた検索結果リスト中のコンテンツの順序を,次のような処理手順で決定する。
Hereinafter, a processing procedure executed by the
(1)ユーザからの検索要求に対して,コンテンツ選択部131は,アノテーション蓄積装置100から,指定されたアノテーションが付加されているコンテンツ集合を取得する。
(1) In response to a search request from a user, the
(2)コンテンツ選択部131は,取得したコンテンツに付加されているA−C関連度を,A−C関連度記憶装置120から読み出し,各コンテンツに付加されたアノテーションとそれらのA−C関連度をアノテーション並べ替え部132に伝達する。ただし,アノテーション群のA−C関連度が算出済みでない場合には,前述した情報関連度算出部110の処理機能を用いてA−C関連度を算出し,算出結果をアノテーション並べ替え部132に伝達する。
(2) The
(3)アノテーション並べ替え部132は,取得された各コンテンツについて,そのコンテンツに付加されたアノテーションをA−C関連度が高い順に並べ替え,各コンテンツとアノテーションをコンテンツ並べ替え部133に伝達する。
(3) For each acquired content, the
(4)コンテンツ並べ替え部133は,指定されたアノテーションが,並べ替えの後に上位に付加されているコンテンツから順にコンテンツを並べ替える。ただし,指定されたアノテーションの位置が同じ場合,付加されているアノテーションが少ないコンテンツから順に並べる。また,コンテンツに付加されているアノテーションの数が同じ場合,指定されたアノテーションのA−C関連度の値が高いものから順に並べる。さらに,アノテーションのA−C関連度の値が同じ場合,コンテンツIDが小さいものから順に並べる。
(4) The
(5)コンテンツ並べ替え部133は,コンテンツ集合の並べ替え結果をユーザに出力する。
(5) The
〔関連コンテンツ取得処理〕
さらに,A−C関連度を算出したアノテーションが付加されたコンテンツを利用することにより,あるコンテンツに関連する別のコンテンツを発見することが可能である。これにより,ユーザはあるコンテンツを閲覧したときに,閲覧したコンテンツに関連する別のコンテンツを推薦する情報を自動的に入手することができ,続けて関連コンテンツを閲覧することができるようになる。
[Related content acquisition processing]
Furthermore, it is possible to find another content related to a certain content by using the content to which the annotation for which the AC relevance degree is calculated is added. As a result, when a user browses a certain content, the user can automatically obtain information for recommending another content related to the browsed content, and can subsequently browse the related content.
このとき,例えば,コンテンツに付けられたアノテーション群の類似度としてコサイン類似度を利用し,コンテンツの類似度の算出を行ってもよい。 At this time, for example, the cosine similarity may be used as the similarity of the annotation group attached to the content to calculate the content similarity.
図11は,関連コンテンツ集合の取得を行うコンテンツ管理装置の構成例を示す図である。図11において,アノテーション蓄積装置100,情報関連度算出部110,A−C関連度記憶装置120は,図2における同符号のものに対応する。
FIG. 11 is a diagram illustrating a configuration example of a content management apparatus that acquires a related content set. In FIG. 11, the
関連コンテンツ取得部140は,A−C関連度を算出したアノテーションが付加されたコンテンツを利用することにより,現在着目しているコンテンツと関連するコンテンツを取得するものであり,ベクトル作成部141,ベクトル類似度算出部142,関連コンテンツ提示部143から構成される。
The related
以下,図11に示す関連コンテンツ取得部140が実行する処理手順について説明する。関連コンテンツ取得部140は,現在着目しているコンテンツと関連するコンテンツを,次のような処理手順で選出する。
Hereinafter, a processing procedure executed by the related
(1)ベクトル作成部141は,コンテンツ集合C={Ci |i=1〜nC }(ただし,nC はコンテンツの総数)中の各コンテンツCi に対し,Ci に付加されたアノテーション集合Ti ={Tij|j=1〜nTi}(ただし,nTiはコンテンツに付加されたアノテーションの総数)を要素とし,各要素の値としてアノテーションTijとコンテンツCi のA−C関連度の値を持つA−C関連度ベクトルVi を定義し,ベクトル類似度算出部142に伝達する。ただし,アノテーション群のA−C関連度が算出済みでない場合には,前述した情報関連度算出部110の処理機能を用いてA−C関連度を算出し,A−C関連度ベクトルを作成し,ベクトル類似度算出部142に伝達する。
(1)
(2)ベクトル類似度算出部142は,A−C関連度ベクトルVx と,A−C関連度ベクトル集合V={Vi |i=1〜nC ,i≠x}中の各A−C関連度ベクトルVi とのコサイン類似度cos(Vx ,Vi )を計算し,関連コンテンツ提示部143に伝達する。
(2) The vector
(3)関連コンテンツ提示部143は,コサイン類似度cos(Vx ,Vi )が,あらかじめ決めておいた閾値の値以上となるA−C関連度ベクトルVi の集合を求め,そのA−C関連度ベクトルVi に対応するコンテンツCi の集合を,コンテンツCx に関連するコンテンツの集合とする。
(3) The related
(4)関連コンテンツ提示部143は,関連コンテンツ集合をユーザに出力する。
(4) The related
以上,本発明の実施形態を説明したが,本発明は,上記の実施形態に限定されず,特許請求の範囲に記載された技術的範囲内において変更や応用が可能である。 Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and modifications and applications can be made within the technical scope described in the claims.
10 コンテンツ管理装置
20 入出力装置
100 アノテーション蓄積装置
101 コンテンツ情報管理テーブル
102 アノテーション情報管理テーブル
110 情報関連度算出部
111 コンテンツ選択部
112 A−A関連度算出部
113 A−C関連度算出部
120 A−C関連度記憶装置
121 A−C関係管理テーブル
130 コンテンツランキング部
131 コンテンツ選択部
132 アノテーション並べ替え部
133 コンテンツ並べ替え部
140 関連コンテンツ取得部
141 ベクトル作成部
142 ベクトル類似度算出部
143 関連コンテンツ提示部
DESCRIPTION OF
Claims (8)
コンテンツに付加されたアノテーション群を格納したアノテーション蓄積手段と,
指定されたコンテンツを選択し,コンテンツに付加されたアノテーション群を前記アノテーション蓄積手段から取得するコンテンツ選択手段と,
前記アノテーション群におけるアノテーション同士の関係の強さを数値で表すアノテーション間の関連度を算出するアノテーション間関連度算出手段と,
前記アノテーション間の関連度から,各アノテーションとコンテンツとの関係の強さを数値で表すアノテーションとコンテンツ間の関連度を算出するアノテーション−コンテンツ間関連度算出手段と,
算出されたアノテーションとコンテンツ間の関連度を記憶または出力するアノテーション−コンテンツ間関連度出力手段とを備える
ことを特徴とするコンテンツ管理装置。 A content management device that stores and manages annotations added to content,
Annotation storage means storing annotations added to the content;
A content selection means for selecting designated content and acquiring an annotation group added to the content from the annotation storage means;
An inter-annotation relevance calculating means for calculating a relevance between annotations that expresses the strength of the relationship between annotations in the annotation group by a numerical value;
An annotation-content relevance calculating means for calculating the relevance between the annotation and the content that expresses the strength of the relationship between each annotation and the content from the relevance between the annotations,
A content management apparatus, comprising: an annotation-content relevance output means for storing or outputting the calculated relevance between the annotation and the content.
あるアノテーションが付加されたコンテンツ集合に対する別のアノテーションも付加されたコンテンツ集合の包含率による関連度の算出手段,
または,アノテーションの同一コンテンツにおける共起頻度による関連度の算出手段,
または,アノテーションの出現頻度に対する独立性検定の値による関連度の算出手段の少なくともいずれかを備える
ことを特徴とする請求項1に記載のコンテンツ管理装置。 The inter-annotation relevance calculating means is:
A means for calculating the degree of association based on the content rate of a content set to which another annotation is added to a content set to which a certain annotation is added,
Or a means of calculating the relevance by the co-occurrence frequency in the same content of annotation,
The content management apparatus according to claim 1, further comprising at least one of a degree-of-association calculation unit based on an independence test value with respect to an annotation appearance frequency.
他のアノテーション群とのアノテーション間の関連度の総和による関連度の算出手段,
または,他のアノテーション群とのアノテーション間の関連度の中央値による関連度の算出手段,
または,他のアノテーション群とのアノテーション間の関連度の比率をリンクの強さとするランダムサーファーモデルによる関連度の算出手段の少なくともいずれかを備える
ことを特徴とする請求項1または請求項2に記載のコンテンツ管理装置。 The annotation-content relevance calculation means includes:
A means for calculating the degree of association by the sum of the degree of association between annotations with other annotation groups,
Or a means for calculating the degree of association by the median degree of association between annotations with other annotation groups,
3. The method according to claim 1, further comprising at least one of a degree-of-association calculation means based on a random surfer model in which a link strength is a ratio of the degree of association between annotations with other annotation groups. Content management device.
ことを特徴とする請求項1,請求項2または請求項3に記載のコンテンツ管理装置。 Based on the annotation group for which the degree of association between the annotation and the content is calculated and the degree of association between the annotation and the content, the order is sorted in descending order of the degree of association between the annotation and the content. The content management apparatus according to claim 1, further comprising output processing means for outputting the annotation group that has been processed.
コンテンツに付加されたアノテーション群を格納したアノテーション蓄積手段と,
請求項1から請求項4までのいずれか1項に記載の,前記コンテンツ選択手段および前記アノテーション間関連度算出手段および前記アノテーション−コンテンツ間関連度算出手段によって算出されたアノテーションとコンテンツ間の関連度を記憶するアノテーション−コンテンツ間関連度記憶手段と,
前記アノテーション蓄積手段に格納された各コンテンツに付加されたアノテーション群の情報と,前記アノテーション−コンテンツ間関連度記憶手段に記憶されたアノテーションとコンテンツ間の関連度の情報とをもとに,あるコンテンツに付加されたアノテーション群の順序をアノテーションとコンテンツ間の関連度が高い順に並べ替えるアノテーション並べ替え手段と,
コンテンツ集合中の各コンテンツに付加されたアノテーション群とそれらのアノテーションとコンテンツ間の関連度とをもとに,コンテンツ集合の順序を並べ替えるコンテンツ並べ替え手段とを備える
ことを特徴とするコンテンツ管理装置。 A content management device that stores and manages annotations added to content,
Annotation storage means storing annotations added to the content;
The degree of association between the annotation and the content calculated by the content selection unit, the inter-annotation relevance calculation unit, and the annotation-content relevance calculation unit according to any one of claims 1 to 4. Annotation-content relevance storage means for storing
A certain content based on the information of the annotation group added to each content stored in the annotation storage means and the information on the relation between the annotation and the content stored in the annotation-content relevance storage means An annotation sorting means for rearranging the order of annotations added to the item in descending order of the degree of association between the annotation and the content,
A content management device comprising content sorting means for rearranging the order of content sets based on annotations added to each content in the content set and the degree of association between the annotations and the content .
コンテンツに付加されたアノテーション群を格納したアノテーション蓄積手段と,
請求項1から請求項4までのいずれか1項に記載の,前記コンテンツ選択手段および前記アノテーション間関連度算出手段および前記アノテーション−コンテンツ間関連度算出手段によって算出されたアノテーションとコンテンツ間の関連度を記憶するアノテーション−コンテンツ間関連度記憶手段と,
前記アノテーション蓄積手段に格納された各コンテンツに付加されたアノテーション群のアノテーションとコンテンツ間の関連度を値とするアノテーションとコンテンツ間の関連度ベクトルを作成するベクトル作成手段と,
コンテンツごとに作成した前記アノテーションとコンテンツ間の関連度ベクトル同士の類似度を算出するベクトル類似度算出手段と,
算出したアノテーションとコンテンツ間の関連度ベクトル同士の類似度の情報をもとに,あるコンテンツに関連する他のコンテンツを取得して提示する関連コンテンツ提示手段とを備える
ことを特徴とするコンテンツ管理装置。 A content management device that stores and manages annotations added to content,
Annotation storage means storing annotations added to the content;
The degree of association between the annotation and the content calculated by the content selection unit, the inter-annotation relevance calculation unit, and the annotation-content relevance calculation unit according to any one of claims 1 to 4. Annotation-content relevance storage means for storing
A vector creation means for creating an annotation having a value of the degree of association between the annotations of the annotation group added to each content stored in the annotation storage means and the content, and a degree of association vector between the contents;
A vector similarity calculation means for calculating a similarity between the relevance vectors between the annotation created for each content and the content;
A content management apparatus comprising: related content presenting means for acquiring and presenting other content related to a certain content based on information on the similarity between the calculated annotation and the relevance vector between the content .
指定されたコンテンツを選択し,コンテンツに付加されたアノテーション群を前記アノテーション蓄積手段から取得するコンテンツ選択ステップと,
前記アノテーション群におけるアノテーション同士の関係の強さを数値で表すアノテーション間の関連度を算出するアノテーション間関連度算出ステップと,
前記アノテーション間の関連度から,各アノテーションとコンテンツとの関係の強さを数値で表すアノテーションとコンテンツ間の関連度を算出するアノテーション−コンテンツ間関連度算出ステップと,
算出されたアノテーションとコンテンツ間の関連度を記憶または出力するアノテーション−コンテンツ間関連度出力ステップとを実行する
ことを特徴とする情報関連度算出方法。 An information relevance calculation method executed by a content management apparatus having an annotation storage unit storing annotations added to content,
A content selection step of selecting the specified content and acquiring the annotation group added to the content from the annotation storage means;
An inter-annotation relevance calculation step for calculating a relevance level between annotations that numerically represents the strength of the relationship between annotations in the annotation group;
An annotation-content relevance calculating step for calculating the relevance between the annotation and the content that expresses the strength of the relationship between each annotation and the content from the relevance between the annotations;
An information relevance calculation method, comprising: executing an annotation-content relevance output step for storing or outputting a relevance between the calculated annotation and the content.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010095578A JP5234836B2 (en) | 2010-04-19 | 2010-04-19 | Content management apparatus, information relevance calculation method, and information relevance calculation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010095578A JP5234836B2 (en) | 2010-04-19 | 2010-04-19 | Content management apparatus, information relevance calculation method, and information relevance calculation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011227633A JP2011227633A (en) | 2011-11-10 |
JP5234836B2 true JP5234836B2 (en) | 2013-07-10 |
Family
ID=45042916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010095578A Active JP5234836B2 (en) | 2010-04-19 | 2010-04-19 | Content management apparatus, information relevance calculation method, and information relevance calculation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5234836B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6003388B2 (en) * | 2012-08-17 | 2016-10-05 | 大日本印刷株式会社 | Server apparatus, program, and communication system |
JP5998807B2 (en) | 2012-09-28 | 2016-09-28 | 株式会社メルコホールディングス | Information processing system, information processing apparatus, information processing method, and information processing program |
JP6076762B2 (en) * | 2013-02-01 | 2017-02-08 | 東芝メディカルシステムズ株式会社 | Report creation support system and report creation support program |
JP7107877B2 (en) | 2019-03-22 | 2022-07-27 | 株式会社日立製作所 | Storage system and storage cost optimization method |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006048286A (en) * | 2004-08-03 | 2006-02-16 | Sony Corp | Information processing device and method, and program |
US9715542B2 (en) * | 2005-08-03 | 2017-07-25 | Search Engine Technologies, Llc | Systems for and methods of finding relevant documents by analyzing tags |
JP5153390B2 (en) * | 2008-03-07 | 2013-02-27 | 富士フイルム株式会社 | Related word dictionary creation method and apparatus, and related word dictionary creation program |
-
2010
- 2010-04-19 JP JP2010095578A patent/JP5234836B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011227633A (en) | 2011-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI524193B (en) | Computer-readable media and computer-implemented method for semantic table of contents for search results | |
US8131734B2 (en) | Image based annotation and metadata generation system with experience based learning | |
JP5378315B2 (en) | Scalable indexing for layout-based document search and ranking | |
US20150213027A1 (en) | Objective and subjective ranking of comments | |
US20070055657A1 (en) | System for generating and managing context information | |
JP6381775B2 (en) | Information processing system and information processing method | |
EP3048540A1 (en) | Picture ordering method and device | |
US20080270386A1 (en) | Document retrieval system and document retrieval method | |
US8880536B1 (en) | Providing book information in response to queries | |
US8983965B2 (en) | Document rating calculation system, document rating calculation method and program | |
CN106095738B (en) | Recommending form fragments | |
US20160283564A1 (en) | Predictive visual search enginge | |
JP2010224622A (en) | Method and program for applying tag | |
JP2013218584A (en) | Information processor, method and program, information communication terminal, control method of the same and control program of the same | |
JP5234836B2 (en) | Content management apparatus, information relevance calculation method, and information relevance calculation program | |
CN103530309B (en) | Using the system and method based on the electronic document search of context for the compound event | |
JP2015527677A (en) | Social network search result presentation method and apparatus, and storage medium | |
JP5500070B2 (en) | Data classification system, data classification method, and data classification program | |
CN106776910A (en) | The display methods and device of a kind of Search Results | |
JP2011203776A (en) | Similar image retrieval device, method, and program | |
KR20190023503A (en) | Image based patent search apparatus | |
JP6727097B2 (en) | Information processing apparatus, information processing method, and program | |
US20140149378A1 (en) | Method and apparatus for determining rank of web pages based upon past content portion selections | |
JP5127553B2 (en) | Information processing apparatus, information processing method, program, and recording medium | |
JP2007233752A (en) | Retrieval device, computer program and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110921 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130321 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5234836 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160405 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |