JP2011227633A

JP2011227633A - コンテンツ管理装置，情報関連度算出方法および情報関連度算出プログラム

Info

Publication number: JP2011227633A
Application number: JP2010095578A
Authority: JP
Inventors: Taiga Yoshida; 大我吉田; Takeshi Irie; 豪入江; Takashi Sato; 隆佐藤; Akira Kojima; 明小島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-04-19
Filing date: 2010-04-19
Publication date: 2011-11-10
Anticipated expiration: 2030-04-19
Also published as: JP5234836B2

Abstract

【課題】コンテンツに付加されたアノテーションに対し，コンテンツとの関連度の強さを示す値を算出し，コンテンツ検索時のランキングおよびコンテンツの推薦に利用できるようにする。
【解決手段】コンテンツ管理装置１０は，Ａ−Ａ関連度算出部１１２により，コンテンツに付加されたアノテーション間の組み合わせごとにアノテーション間の関連度（Ａ−Ａ関連度）を算出する。次に，Ａ−Ｃ関連度算出部１１３により，各アノテーションが同一コンテンツに付加された他のアノテーション群とどの程度強い関係で結ばれているかをＡ−Ａ関連度から計算することにより，各アノテーションがコンテンツについてどれくらい典型的であるかを表すアノテーションとコンテンツ間の関連度（Ａ−Ｃ関連度）を算出し，ユーザに提示する。
【選択図】図２

Description

本発明は，文書，画像，音楽，映像などのコンテンツを管理するシステムにおいて，コンテンツに対して付与されるアノテーション同士の関連度，およびアノテーションとコンテンツ間の関連度を算出する情報関連度算出技術に関するものである。

電子化された文書，画像，音楽，映像などのコンテンツを扱うサービスでは，タグと呼ばれる単語や短い文章がコンテンツにアノテーションとして付加され，分類や検索に利用されている。

アノテーションを用いてコンテンツを分類する方法は，一つのコンテンツを一つのカテゴリに振り分ける従来の一般的な分類方法とは異なり，タグ等を利用することによって，一つのコンテンツに対して複数の属性情報を付与して分類することができる。こうすることで，複数の属性や特性を持つコンテンツに対しても，複数の分類情報を付加することができ，ユーザは複数の属性や特性を指定してコンテンツを検索し，絞り込むことが可能になる。

コンテンツの分類や検索にタグを利用するサービスとしては，国内では，はてな（登録商標）ブックマークやニコニコ動画（登録商標），国外では，ＹｏｕＴｕｂｅ（登録商標）やＦｌｉｃｋｒ（登録商標），ｄｅｌｉｃｉｏｕｓなどが存在する。それらのサービスでは，各コンテンツに付加されたタグを，ユーザが自由に参照することができる。このとき，コンテンツに付加された日時が早い順にタグを並べてユーザに提示するのが一般的である。

さらに，ｄｅｌｉｃｉｏｕｓでは，コンテンツであるウェブページに付けられたタグ群を，どのユーザが付けたかによって分類して表示するほか，そのウェブページに付けられた全てのタグを，付けたユーザが多いものから順に並べて表示する技術が用いられている。すなわち，より多くのユーザによって付加されたタグほど，より上位に配置されることになる。

タグとコンテンツの関連度を算出する既存の検索技術としては，画像の特徴量を利用してランキングするもの（非特許文献１）が挙げられる。

D. Liu, X. S. Hua, L. J. Yang, M. Wang and H. J. Zhang，"Tag Ranking ", In Proceedings of A-CM International World Wide Web Conference, Pages:351-360, 2009 ．

しかしながら，従来技術では，アノテーションにコンテンツとの関連度を表す値が付いておらず，また，コンテンツとの関連度の高さによって順序付けがされていない。そのため，ユーザは，どのアノテーションがコンテンツを典型的に表しているのかを判断することができず，また，システム開発者は，アノテーションとコンテンツ間の関連度を利用したランキングや関連コンテンツの推薦を行うシステムを作成することができない。

前述したｄｅｌｉｃｉｏｕｓなどの従来技術では，コンテンツに付加されたタグがユーザごとに分類されているシステムにしか適用することができない。さらに，タグ数によるランキングでは，カテゴリ名などの多くのユーザが共通して付加する一般的なタグが上位になりやすい。そのため，タグの名前からコンテンツの特徴を絞り込んで推測することができるようなタグが上位にランキングされるとは限らない。

また，非特許文献１では，画像の特徴量を用いてタグと画像の関連度を計算し，タグｔ_jおよびタグｔ_jにおける画像の類似度および下記の式(1) のＧｏｏｇｌｅ（登録商標）ｄｉｓｔａｎｃｅによって定義されたタグ間の距離を用いて関連度の修正を行っている。そのため，画像に対してだけしか適用できない手法であり，また，アノテーション情報のみを用いた場合と比較して解析のための時間や計算量などのコストがかかってしまう。

ｄ（ｔ_i，ｔ_j）＝｛ｍａｘ（log ｆ（ｔ_i），log ｆ（ｔ_j））−log ｆ（ｔ_i，ｔ_j）｝÷｛log Ｇ−ｍｉｎ（log ｆ（ｔ_i），log ｆ（ｔ_j））｝ …式(1)
ここで，ｆ（ｔ_i）およびｆ（ｔ_j）は，タグｔ_iおよびタグｔ_jが付加された画像数，ｆ（ｔ_i，ｔ_j）は，ｆ（ｔ_i）とｆ（ｔ_j）とが共に付加された画像数，Ｇは，全画像数である。

本発明は，以上のような課題を解決するためのものであり，コンテンツの分類などを目的として付加されたアノテーションに対して，アノテーション情報のみを用いることにより，アノテーションとコンテンツとの関連度を算出できる点を特徴とする。また，算出した関連度は，コンテンツのランキングや推薦に利用することができる。

本発明は，上記課題を解決するため，コンテンツに付随するアノテーションを格納した情報記憶手段を有するコンテンツ管理装置が，単一のコンテンツに付加された複数のアノテーションに対し，コンテンツに関連する度合いによって関連度を算出する方法であって，各コンテンツに付加されたアノテーション群を取得し，任意のアノテーション間の関連度（以下，Ａ−Ａ関連度と記す）を算出し，算出されたアノテーション間の関連度を利用してあるアノテーションと他のアノテーション群との関連度を算出し，アノテーションとコンテンツ間の関連度（以下，Ａ−Ｃ関連度と記す）の算出およびランキングを行うことを特徴とする。

アノテーション間の関連度の算出には，あるアノテーションが付加されたコンテンツ集合に対する別のアノテーションも付加されたコンテンツ集合の包含率，または，アノテーションの同一コンテンツにおける共起頻度，または，アノテーションの出現頻度に対する独立性検定の値，などが利用可能である。

また，あるアノテーションと同一コンテンツに付加された他のアノテーション群との関連度の算出には，他のアノテーション群とのＡ−Ａ関連度の総和，または，他のアノテーション群とのＡ−Ａ関連度の中央値，または，他のアノテーション群とのＡ−Ａ関連度の比率をリンクの強さとするランダムサーファーモデル，などが利用可能である。

非特許文献１記載の発明，および，本発明は，双方ともに，アノテーションとコンテンツとの関連性を求める点で一致している。しかしながら，次の点で大きな違いがある。非特許文献１に記載されている技術では，アノテーション同士の関連性を分析することに加えてコンテンツそのものの特徴である画像特徴を求め，アノテーションとコンテンツとの関連性を算出する。これに対して，本発明は，アノテーション同士の関連性のみに基づいて，アノテーションとコンテンツとの関連性を算出できる。

本発明が，アノテーション同士の関連性のみによって，アノテーションとコンテンツ間の関連性を求めることができる理由を，図１を用いて説明する。図１は，アノテーションによって記述されるコンテンツ内容のイメージ図である。

アノテーションは，コンテンツの内容を捉えて付加されるものである。したがって，各アノテーションは，コンテンツの持つ内容のうち，少なくともその一部を表現したものであるといえる。図１の例では，図７に示すような，「旅行」，「神奈川県」，「電車」，「江ノ電」，「江ノ島」，「鎌倉」という６つのアノテーション（タグ）が付加された「神奈川県の観光名所」というタイトルのビデオコンテンツについて，ビデオコンテンツ全体の内容に対して，各アノテーションが表現している部分を図示している。

本発明は，次の知見に基づいている。
［知見１］：より多くのアノテーションにより重複して表現されている内容は，コンテンツの主要な内容である。

コンテンツの全内容において，特に重要な内容については，多くのアノテーションが表現しようとするであろう。図１では，アノテーションによって表現される内容を示す円が多く重なっている領域が，「主要な内容」の領域に相当する。

さらに，本発明は，次の知見に基づいて，各アノテーションとコンテンツとの関連性を求める。
［知見２］：主要な内容を表現するアノテーションは，コンテンツとの関連性が高い。

図１でいえば，アノテーションの円がより多く重なっている領域が大きいほど，コンテンツとの関連性が高いアノテーションであるということになる。

したがって，アノテーション同士の内容がどの程度重なり合っているかを推定すれば，コンテンツの主要な内容を推定することができるのである。

また，本発明では，同一コンテンツに付加された他のアノテーションの情報とどれだけ共通した情報を表現しているかを示すアノテーション同士の関連度を算出する。あるアノテーションが付加されたコンテンツ集合に対する別のアノテーションも付加されたコンテンツ集合の包含率による関連度の算出手段を用いることにより，アノテーション間の非対称な関係を定義することができる。または，アノテーションの同一コンテンツにおける共起頻度による関連度の算出手段を用いることにより，アノテーションが付加されたコンテンツ数の差に影響されにくい関連度の算出ができる。または，アノテーションの出現頻度に対する独立性検定の値による関連度の算出手段を用いることにより，統計情報を利用した精度の高い関連度の算出ができる。

また，本発明では，同一コンテンツに付加された他のアノテーションのうち，どれだけ多くのアノテーションと共通の情報を表現できているかによってアノテーションとコンテンツ間の関連度を算出する。他のアノテーション群とのＡ−Ａ関連度の総和による関連度の算出手段を用いることにより，少ない計算コストでアノテーションとコンテンツ間の関連度を算出できる。または，他のアノテーション群とのＡ−Ａ関連度の中央値による関連度の算出手段を用いることにより，Ａ−Ａ関連度の外れ値に影響されにくい関連度の算出ができる。または，他のアノテーション群とのＡ−Ａ関連度の比率をリンクの強さとするランダムサーファーモデルによる関連度の算出手段を用いることにより，同一コンテンツに付けられた全てのタグとの関係性を考慮した精度の高い関連度の算出ができる。

したがって，本発明の手法は，アノテーション情報のみを利用し，画像特徴量などコンテンツの種類に依存する情報を利用しないため，アノテーションが付加された任意のコンテンツに対して適用可能であり，画像特徴量を利用した手法と比べ計算コストが少ない点で，従来技術とは異なる。

また，従来は，コンテンツに付加されるアノテーション群は，アノテーションが付けられた順に並べて提示されることが一般的であった。このため，コンテンツに付加されたどのアノテーションがコンテンツの特徴をより適切かつ詳細に表現しているかを知ることは困難であり，一目しただけでコンテンツの概要を把握することはできなかった。

これに対し，本発明によれば，コンテンツに付加された各アノテーションに対してコンテンツとの関連度を算出し，アノテーションをコンテンツとの関連度が高い順に並べることができる。したがって，関連度の高いアノテーションを一目するだけで，コンテンツの概要を把握することが可能になる。

また，従来のアノテーションを指定した検索における検索結果リストは，閲覧された回数や投稿された日時など，アノテーションとコンテンツとの関連度とは関係のない指標による並べ替えしかできなかったのに対し，本発明を利用することで，検索条件に指定したアノテーションとの関連度が高い順に検索結果のコンテンツを並べて提示することが可能になる。

さらに，本発明では，あるコンテンツにおける主要なアノテーションを含む他のコンテンツを発見することにより，従来の重複するアノテーション数が多いコンテンツを発見する手法と比べ，関連するコンテンツをより高い精度で取得することが可能になる。すなわち，従来手法では，コンテンツに付加されたアノテーションのうちコンテンツの特徴を典型的に表現できていないアノテーションが重複する場合と，コンテンツに対して典型的なアノテーションが重複する場合を同等に扱っていたのに対し，本発明を利用することで，より典型的なアノテーションがより多く重複しているコンテンツを取得することができる。

以上のように，本発明によれば，コンテンツとコンテンツに付加されたアノテーションとの関連度を算出することにより，従来技術では得られなかった，コンテンツの検索およびコンテンツの推薦などに極めて有効な情報を提供することができるようになる。

アノテーションによって記述されるコンテンツ内容のイメージ図である。本発明の実施形態に係るコンテンツ管理装置の構成例を示す図である。情報関連度算出部の処理フローチャートである。アノテーション蓄積装置に格納されたアノテーション情報の例を示す図である。Ａ−Ｃ関連度記憶装置に記憶されるアノテーション−コンテンツ関係管理テーブルの例を示す図である。コンテンツに付加されたアノテーションについてのＡ−Ａ関連度の例を示す図である。アノテーションが付加されたコンテンツの例を示す図である。Ａ−Ａ関連度の算出方法の例を示す模式図である。Ａ−Ａ関連度からのＡ−Ｃ関連度算出方法の例を示す模式図である。コンテンツ集合の並べ替えを行うコンテンツ管理装置の構成例を示す図である。関連コンテンツ集合の取得を行うコンテンツ管理装置の構成例を示す図である。

以下，本発明の実施の形態について，図面を用いて説明する。図２は，本発明の実施形態に係るコンテンツ管理装置を模式的に示す構成図である。

コンテンツ管理装置１０は，コンテンツとアノテーションとを保持するアノテーション蓄積装置１００と，情報関連度算出部１１０と，情報関連度算出部１１０によって算出されたアノテーションとコンテンツ間の関連度（Ａ−Ｃ関連度）を記憶するＡ−Ｃ関連度記憶装置１２０を備える。情報関連度算出部１１０は，コンテンツ選択部１１１，Ａ−Ａ関連度算出部１１２，Ａ−Ｃ関連度算出部１１３から構成される。

アノテーション蓄積装置１００は，この例では，コンテンツ情報管理テーブル１０１と，アノテーション情報管理テーブル１０２を格納している。また，Ａ−Ｃ関連度記憶装置１２０は，アノテーションとコンテンツの関係の強さ（関連度）の情報を保持するＡ−Ｃ関係管理テーブル１２１を記憶する。説明を分かりやすくするために，この例では，アノテーション蓄積装置１００とＡ−Ｃ関連度記憶装置１２０とを別装置として表しているが，同じ記憶装置であってもよい。また，ここではアノテーション蓄積装置１００に，コンテンツ自体も格納されているものとして説明するが，アノテーション蓄積装置１００では，コンテンツを特定するコンテンツＩＤとそのアノテーション群のみを管理することとし，コンテンツ自体は他の装置に格納されているとしてもよい。

入出力装置２０は，関連度の算出操作を行う人間が利用するディスプレイやキーボードその他の周辺装置であるが，関連度を利用するシステムであってもよい。以下では，コンテンツ管理装置１０を利用する人間またはシステムを“ユーザ”という。

コンテンツ管理装置１０は，例えば，ＣＰＵ（Central Processing Unit ），ＲＯＭ（Read Only Memory），ＲＡＭ（Random Access Memory），ＨＤＤ（Hard Disk Drive ），およびＲＡＭなどの記憶手段に展開されたプログラムを含む。図２に示した構成要素の動作を記述したプログラムは，コンテンツ管理装置１０として利用されるコンピュータ上で実行させたり，または，ネットワークなどを介してサービスとして実行させたりすることが可能である。アノテーション蓄積装置１００は，ＡＰＩ（Application Program Interface ）などを通じてコンテンツおよびアノテーションを取得するプログラムであってもよい。

情報関連度算出部１１０は，あるコンテンツに付加された複数のアノテーションに対し，各アノテーションとコンテンツとの関係の強さを数値で表すＡ−Ｃ関連度を算出する。ここで，コンテンツとは，例えば，電子化された文書，画像，音楽，映像などを含み，アノテーションとは，タグ，キーワード，メタデータ，ユーザ情報などを含む。

すなわち，情報関連度選出部１１０は，入出力装置２０や他のシステムなどのユーザからの要求に応じて，コンテンツ選択部１１１にて，関連度の算出の対象となるコンテンツを決定し，Ａ−Ａ関連度算出部１１２にて，Ａ−Ａ関連度を算出し，Ａ−Ｃ関連度算出部１１３にて，Ａ−Ｃ関連度を算出した後，アノテーション群のＡ−Ｃ関連度算出結果を出力する。または，算出したＡ−Ｃ関連度をＡ−Ｃ関連度記憶装置１２０に記憶する。

図３は，情報関連度算出部１１０におけるコンテンツおよびアノテーション情報の処理の概要を示すフローチャートである。

情報関連度算出部１１０は，図３に示すように，まず，コンテンツ選択部１１１により，入出力装置２０等から入力された条件に適合するコンテンツ集合を，アノテーション蓄積装置１００で管理されているコンテンツの中から選択する（ステップＳ１）。コンテンツを選択する条件は，メニュー等による選択，作成日時等による選択，検索キーワードによる選択など，任意でよい。

次に，Ａ−Ａ関連度算出部１１２により，選択されたコンテンツ集合の中の関連度算出の対象となるコンテンツに付加されたアノテーション群を，アノテーション蓄積装置１００から取得する（ステップＳ２）。続いて，Ａ−Ａ関連度算出部１１２では，取得したアノテーションの任意の組み合わせに対してＡ−Ａ関連度を算出する処理を実行する（ステップＳ３）。

次に，Ａ−Ｃ関連度算出部１１３により，ステップＳ３で算出したＡ−Ａ関連度から，各アノテーションとコンテンツ間の関連度（Ａ−Ｃ関連度）を算出する処理を実行する（ステップＳ４）。算出したアノテーション群のＡ−Ｃ関連度を，入出力装置２０等に出力してユーザに提示する。または，Ａ−Ｃ関連度記憶装置１２０に格納する（ステップＳ５）。さらに，Ａ−Ｃ関連度の算出対象となったアノテーション群について，Ａ−Ｃ関連度が高い順もしくは低い順に並べ替えて，順序づけされたアノテーション群を出力するようにしてもよい。選択されたコンテンツが複数ある場合には，ステップＳ２〜Ｓ５を各コンテンツについて繰り返す。

図４は，アノテーション蓄積装置１００に格納されたアノテーション情報の例を示す図である。アノテーション蓄積装置１００には，図４に示すように，関連度の算出の対象になるコンテンツおよびそれらに付加されているアノテーションについてのデータを記憶するコンテンツ情報管理テーブル１０１とアノテーション情報管理テーブル１０２が格納されている。アノテーション蓄積装置１００は，コンテンツを選択するための検索条件を指定することにより，コンテンツやコンテンツに付加されたアノテーションについてのデータを出力する。

コンテンツ情報管理テーブル１０１には，図４（Ａ）に示すように，コンテンツを識別するコンテンツＩＤ，コンテンツの名前，コンテンツの説明情報などが格納される。また，アノテーション情報管理テーブル１０２には，図４（Ｂ）に示すように，アノテーションを識別するアノテーションＩＤ，アノテーションの名前などの情報が格納される。

図４に示したコンテンツ情報管理テーブル１０１およびアノテーション情報管理テーブル１０２は一例であり，名前や説明などの属性は格納されていなくてもよく，また，他の属性が格納されていてもよい。

図５は，Ａ−Ｃ関連度記憶装置１２０に格納されるアノテーション−コンテンツ関係管理テーブル（Ａ−Ｃ関係管理テーブル）１２１の例を示す図である。Ａ−Ｃ関係管理テーブル１２１には，図５に示すように，情報関連度算出部１１０によって算出されたＡ−Ｃ関連度が，各コンテンツＩＤとアノテーションＩＤとの組合せのそれぞれに対して格納される。図５に示すＡ−Ｃ関係管理テーブル１２１も一例であり，他のデータ形式でＡ−Ｃ関連度等の情報を格納するようにしてもよい。

以上のアノテーション蓄積装置１００に格納された情報をもとに，コンテンツ選択部１１１では，関連度の算出の対象になるコンテンツをアノテーション蓄積装置１００から検索し，該当する各コンテンツに対して，コンテンツに付加されたアノテーション群を取得し，取得したアノテーション群をＡ−Ａ関連度算出部１１２に伝達する。Ａ−Ａ関連度算出部１１２では，条件に該当する各コンテンツに対し，同一コンテンツに付加された任意のアノテーション間における関連度であるＡ−Ａ関連度を算出する。

図６に，本発明の一実施形態におけるコンテンツに付加されたアノテーションについてのＡ−Ａ関連度の例を示す。同図において，アノテーションＡ，アノテーションＢ，アノテーションＣ，アノテーションＤは，同一のコンテンツａに付加されたアノテーションを表している。アノテーション間の関連度は二つ，もしくは複数のアノテーションの関係として表現される。本実施形態では，アノテーション間の関連度を二つのアノテーション間の関係として説明する。二つのアノテーションＡ，Ｂにおいて，アノテーションＡから見たアノテーションＢとの関連度と，アノテーションＢから見たアノテーションＡとの関連度は同じであるとは限らないため，これらを区別するためにアノテーション間の関係は，片方向の関係として定義してもよい。

〔Ａ−Ａ関連度の第１の実施例〕
例えば，同一のコンテンツａに付加されたアノテーションＡとアノテーションＢのＡ−Ａ関連度Ｒ（Ａ，Ｂ）の第１の実施例として，あるアノテーションが付加されたコンテンツ集合に対する別のアノテーションも付加されたコンテンツ集合の包含率により定義してもよい。このとき，Ａ−Ａ関連度Ｒ（Ａ，Ｂ）は，次の式(2) で与えられる。

Ｒ（Ａ，Ｂ）＝｛Ａ，Ｂを共に含むコンテンツ数｝／｛Ｂを含むコンテンツ数｝
…式(2)
ここで，Ａ，Ｂを共に含むコンテンツ数とは，アノテーション蓄積装置１００において蓄積されているコンテンツ集合の中で，アノテーションＡおよびアノテーションＢが共に付加されたコンテンツの総数のことである。また，Ｂを含むコンテンツ数とは，アノテーション蓄積装置１００において蓄積されているコンテンツ集合の中で，アノテーションＢが付加されたコンテンツの総数のことである。

Ａ−Ａ関連度の第１の実施例に挙げた手法を用いることにより，アノテーションが付加されたコンテンツの総数に大きな差がある場合のＡ−Ａ関連度を算出する際に，付けられたコンテンツ数の多いアノテーションに対してはＡ−Ａ関連度を低く算出し，付けられたコンテンツ数の少ないアノテーションに対してはＡ−Ａ関連度を高く算出するといった，非対称な関係を定義することができる。

図７は，アノテーションが付加されたコンテンツの例を示す図である。また，図８は，Ａ−Ａ関連度の算出方法を模式的に示す図である。例えば，図７に示すようなアノテーションが付加されたコンテンツを考える。このとき，二つのアノテーション「江ノ電」と「電車」の関連度Ｒ（江ノ電, 電車) およびＲ（電車, 江ノ電) は，図８のように算出される。すなわち，アノテーション「電車」が付加されたコンテンツ数が１００，「江ノ電」が付加されたコンテンツ数が２５であり，「電車」と「江ノ電」とが共に付加されたコンテンツ数が２０である場合，Ａ−Ａ関連度は，次のように算出される。

Ｒ（江ノ電, 電車) ＝２０／１００＝０．２
Ｒ（電車, 江ノ電) ＝２０／２５＝０．８
〔Ａ−Ａ関連度の第２の実施例〕
Ａ−Ａ関連度Ｒ（Ａ，Ｂ）の第２の実施例として，Ａ−Ａ関連度をアノテーションの同一コンテンツにおける共起頻度により定義してもよい。このとき，Ａ−Ａ関連度Ｒ（Ａ，Ｂ）は，次の式(3) で与えられる。

Ｒ（Ａ，Ｂ）
＝｛Ａ，Ｂを共に含むコンテンツ数｝／｛ＡまたはＢを含むコンテンツ数｝…式(3)
ここで，ＡまたはＢを共に含むコンテンツ数とは，アノテーション蓄積装置１００において蓄積されているコンテンツ集合の中で，アノテーションＡまたはアノテーションＢが付加されたコンテンツの総数のことである。

Ａ−Ａ関連度の第２の実施例に挙げた手法を用いることにより，アノテーションが付加されたコンテンツ数に差があるときにＡ−Ａ関連度が高くならないため，カテゴリ名などの付加されたコンテンツ数の多いアノテーションや，わずかなコンテンツにしか付加されていないアノテーションの影響によってＡ−Ａ関連度が高く算出されるのを防ぐことができる。

〔Ａ−Ａ関連度の第３の実施例〕
また，別のＡ−Ａ関連度Ｒ（Ａ，Ｂ）の第３の実施例として，アノテーションの出現頻度に対するカイ二乗値により定義してもよい。このとき，Ａ−Ａ関連度Ｒ（Ａ，Ｂ）は，次の式(4) で与えられる。

ここで，ｎはアノテーション蓄積装置１００において蓄積されているコンテンツ集合に存在するコンテンツの総数であり，［Ａ，Ｂ］，［￣Ａ，￣Ｂ］，［￣Ａ，Ｂ］，［Ａ，￣Ｂ］は，それぞれアノテーションＡ，Ｂを共に含むコンテンツ数，アノテーションＡ，Ｂのどちらも含まないコンテンツ数，アノテーションＢを含みアノテーションＡを含まないコンテンツ数，アノテーションＡを含みアノテーションＢを含まないコンテンツ数である。なお，「￣Ａ」の「￣」は，Ａの上に付く記号である（Ｂも同様）。

また，［Ａ］，［￣Ａ］，［Ｂ］，［￣Ｂ］は，それぞれアノテーションＡを含むコンテンツ数，アノテーションＡを含まないコンテンツ数，アノテーションＢを含むコンテンツ数，アノテーションＢを含まないコンテンツ数である。得られたコンテンツ数が少なかった場合，次の参考文献１に記載されているような「イェーツの補正」などの補正を行ってもよい。

〔参考文献１〕：F. Yates, “Contingency Tables Involving Small Numbers and the Ｘ² Test ”，Supplement to the Journal of the Royal Statistical Society, Pages:217-235, 1934.
Ａ−Ａ関連度の第３の実施例に挙げた手法を用いることにより，統計情報を利用するため，各アノテーションが付加される傾向に相関性があるかどうかを反映した精度の高いＡ−Ａ関連度を算出することができる。

Ａ−Ｃ関連度算出部１１３は，Ａ−Ａ関連度算出部１１２で計算された各アノテーション間での関連度の値を入力として，アノテーションとコンテンツ間の関連度であるＡ−Ｃ関連度の算出を行う。

コンテンツにアノテーションを付加するシステムでは，コンテンツの主要な属性や特徴は，そのコンテンツに付加される多くのアノテーションによって表現される傾向がある。そこで，本実施形態では，あるコンテンツに付加されたアノテーションについて，同一コンテンツに付加されたより多くの他のアノテーションと，より高い関連度を持っている場合に，アノテーションとコンテンツ間の関連度が高くなるとして説明する。すなわち，コンテンツに付加されたアノテーション群のうち，どのアノテーションとも高い関連度を持っているアノテーションは，Ａ−Ｃ関連度が高く算出される。

〔Ａ−Ｃ関連度の第１の実施例〕
図６に示したコンテンツにおけるアノテーション群の例では，例えば，Ａ−Ｃ関連度の第１の実施例として，コンテンツａに対するアノテーションＡのＡ−Ｃ関連度Ｓ（ａ，Ａ）をアノテーションＡと同一コンテンツに付加された他のアノテーション群とのＡ−Ａ関連度の総和により定義してもよい。このとき，Ａ−Ｃ関連度Ｓ（ａ，Ａ）は，次の式(5) で与えられる。

Ｓ（ａ，Ａ）＝ΣＲ（ｔ，Ａ）〔ただし，Σはｔ∈Ｔの総和〕 …式(5)
なお，Ｔはコンテンツａに付加されたアノテーションＡ以外のアノテーション群を含む集合である。

Ａ−Ｃ関連度の第１の実施例に挙げた手法を用いることにより，算出したＡ−Ａ関連度の合計を求めるだけでよいため，少ない計算コストでＡ−Ｃ関連度を算出することができる。

アノテーションが付加されたコンテンツの表示画面の一例を図７に示しているが，このコンテンツに付加されたアノテーションのＡ−Ａ関連度からＡ−Ｃ関連度を算出する例を図９に示す。図９は，Ａ−Ａ関連度算出部１１２によって算出されたＲ（Ａ，Ｂ）の値を要素とするＡ−Ａ関連度テーブルを示しており，例えば，アノテーション「旅行」に対するコンテンツ「神奈川県の観光名所」のＡ−Ｃ関連度Ｓ（神奈川県の観光名所，旅行）は，次のように算出される。

Ｓ（神奈川県の観光名所，旅行）
＝Ｒ（神奈川県，旅行）＋Ｒ（電車，旅行）＋Ｒ（江ノ電，旅行）＋Ｒ（江ノ島，旅行）＋Ｒ（鎌倉，旅行）
＝０．１＋０．３＋０．０１＋０．０１＋０．０３＝０．４５
他のアノテーションについてのＡ−Ｃ関連度についても，それぞれ同様に算出される。このようにして算出されたＡ−Ｃ関連度から，図９に示すＡ−Ａ関連度テーブルでは，タグ「江ノ島」のＡ−Ｃ関連度が「３．７」で，最も高くなることがわかる。

〔Ａ−Ｃ関連度の第２の実施例〕
Ａ−Ｃ関連度Ｓ（ａ，Ａ）の第２の実施例として，Ａ−Ｃ関連度を他のアノテーション群とのＡ−Ａ関連度の中央値により定義してもよい。このとき，Ａ−Ｃ関連度Ｓ（ａ，Ａ）は，次の式(6) で与えられる。同一コンテンツに付加されている他のアノテーションの総数をｎとする。

・ｎが奇数の場合
Ｓ（ａ，Ａ）＝Ｒ（ｔ′_(n+1)/2，Ａ）
・ｎが偶数の場合 …式(6)
Ｓ（ａ，Ａ）＝（Ｒ（ｔ′_n/2，Ａ）＋Ｒ（ｔ′_n/2+1，Ａ））／２
ここで，ｔ′_iは同一コンテンツに付加された他の全てのアノテーションとの間のＡ−Ａ関連度を小さい順に並べ替えたときにｉ番目となるアノテーションである。

Ａ−Ｃ関連度の第２の実施例に挙げた手法を用いることにより，Ａ−Ａ関連度の中に他の値と比べて非常に大きな値や小さな値の外れ値が含まれていた場合に，中央値によって緩和され，Ａ−Ｃ関連度が不当に高く算出されたり，不当に低く算出されたりするのを防ぐことができる。

〔Ａ−Ｃ関連度の第３の実施例〕
また，別のＡ−Ｃ関連度Ｓ（ａ，Ａ）の第３の実施例として，各アノテーションをノードとし，他のアノテーション群とのＡ−Ａ関連度の比率をエッジの強さとするランダムサーファーモデル（参考文献２参照）により定義してもよい。このとき，Ａ−Ｃ関連度Ｓ（ａ，Ａ）は，以下に示す式で与えられる。

〔参考文献２〕：S. Brin and L. Page,“The anatomy of a large scale hypertextual web search engine ”, In Proceedings of the seventh international conference on World Wide Web, Pages:107-117, 1998.
以下の式において，ｔ_iはコンテンツａに付加されたアノテーションのうち，ｉ番目に付加されたアノテーションであり，Ｔ_jはコンテンツａに付加されたアノテーションのうちアノテーションｔ_j以外のアノテーションを含む集合とする。
１．Ｍ_a（ｉ，ｊ）を（ｉ，ｊ）成分とする行列Ｍ_aを定義する。

・ｉ＝ｊの場合：Ｍ_a（ｉ，ｊ）＝０
・ｉ≠ｊの場合：Ｍ_a（ｉ，ｊ）＝Ｒ（ｔ_j，ｔ_i）／ΣＲ（ｔ_j，ｔ）
〔ただし，Σはｔ∈Ｔ_jの総和〕
２．Ｍ_aの固有値と固有ベクトル列の全ての組み合わせを計算し，絶対値が最大となる固有ベクトルを長さが１になるように正規化したベクトルＶを求める。
３．ベクトルＶのｉ行目の値をＳ（ａ，ｔ_i）とする。

ランダムサーファーモデルでは，エッジの強さが同じであっても，より高い値を持ったノードとのエッジの方が重視される。すなわち，Ａ−Ｃ関連度の第３の実施例に挙げた手法を用いることにより，他の多くのアノテーションと高いＡ−Ａ関連度を持っているアノテーションであるかを考慮して，どのアノテーションとのＡ−Ａ関連度を重視するのかを決定する。したがって，精度の高いＡ−Ｃ関連度の算出が可能になる。

〔コンテンツランキング処理〕
Ａ−Ｃ関連度を算出済みのアノテーションが付加されたコンテンツを利用することにより，ユーザがアノテーションを指定して検索を行った際における検索結果のコンテンツ集合を，指定したアノテーションとの関連が強い順に並べて提示することが可能である。これにより，検索を行ったユーザは，同じアノテーションが付けられたコンテンツ集合の中でも，アノテーションによって表現される特徴をより多く持ったコンテンツを発見し，閲覧することができるようになる。

このとき，例えば，検索条件で指定したアノテーションが，コンテンツ中で何番目にＡ−Ｃ関連度が高いタグなのかを利用し，検索結果を並べ替えてもよい。

図１０は，コンテンツ集合の並べ替えを行うコンテンツ管理装置の構成例を示す図である。図１０において，アノテーション蓄積装置１００，情報関連度算出部１１０，Ａ−Ｃ関連度記憶装置１２０は，図２における同符号のものに対応する。

コンテンツランキング部１３０は，Ａ−Ｃ関連度に従ってコンテンツ集合の並べ替えを行うものであり，コンテンツ選択部１３１，アノテーション並べ替え部１３２，コンテンツ並べ替え部１３３から構成される。

以下，図１０に示すコンテンツランキング部１３０が実行する処理手順について説明する。コンテンツランキング部１３０は，コンテンツを検索して得られた検索結果リスト中のコンテンツの順序を，次のような処理手順で決定する。

（１）ユーザからの検索要求に対して，コンテンツ選択部１３１は，アノテーション蓄積装置１００から，指定されたアノテーションが付加されているコンテンツ集合を取得する。

（２）コンテンツ選択部１３１は，取得したコンテンツに付加されているＡ−Ｃ関連度を，Ａ−Ｃ関連度記憶装置１２０から読み出し，各コンテンツに付加されたアノテーションとそれらのＡ−Ｃ関連度をアノテーション並べ替え部１３２に伝達する。ただし，アノテーション群のＡ−Ｃ関連度が算出済みでない場合には，前述した情報関連度算出部１１０の処理機能を用いてＡ−Ｃ関連度を算出し，算出結果をアノテーション並べ替え部１３２に伝達する。

（３）アノテーション並べ替え部１３２は，取得された各コンテンツについて，そのコンテンツに付加されたアノテーションをＡ−Ｃ関連度が高い順に並べ替え，各コンテンツとアノテーションをコンテンツ並べ替え部１３３に伝達する。

（４）コンテンツ並べ替え部１３３は，指定されたアノテーションが，並べ替えの後に上位に付加されているコンテンツから順にコンテンツを並べ替える。ただし，指定されたアノテーションの位置が同じ場合，付加されているアノテーションが少ないコンテンツから順に並べる。また，コンテンツに付加されているアノテーションの数が同じ場合，指定されたアノテーションのＡ−Ｃ関連度の値が高いものから順に並べる。さらに，アノテーションのＡ−Ｃ関連度の値が同じ場合，コンテンツＩＤが小さいものから順に並べる。

（５）コンテンツ並べ替え部１３３は，コンテンツ集合の並べ替え結果をユーザに出力する。

〔関連コンテンツ取得処理〕
さらに，Ａ−Ｃ関連度を算出したアノテーションが付加されたコンテンツを利用することにより，あるコンテンツに関連する別のコンテンツを発見することが可能である。これにより，ユーザはあるコンテンツを閲覧したときに，閲覧したコンテンツに関連する別のコンテンツを推薦する情報を自動的に入手することができ，続けて関連コンテンツを閲覧することができるようになる。

このとき，例えば，コンテンツに付けられたアノテーション群の類似度としてコサイン類似度を利用し，コンテンツの類似度の算出を行ってもよい。

図１１は，関連コンテンツ集合の取得を行うコンテンツ管理装置の構成例を示す図である。図１１において，アノテーション蓄積装置１００，情報関連度算出部１１０，Ａ−Ｃ関連度記憶装置１２０は，図２における同符号のものに対応する。

関連コンテンツ取得部１４０は，Ａ−Ｃ関連度を算出したアノテーションが付加されたコンテンツを利用することにより，現在着目しているコンテンツと関連するコンテンツを取得するものであり，ベクトル作成部１４１，ベクトル類似度算出部１４２，関連コンテンツ提示部１４３から構成される。

以下，図１１に示す関連コンテンツ取得部１４０が実行する処理手順について説明する。関連コンテンツ取得部１４０は，現在着目しているコンテンツと関連するコンテンツを，次のような処理手順で選出する。

（１）ベクトル作成部１４１は，コンテンツ集合Ｃ＝｛Ｃ_i｜ｉ＝１〜ｎ_C｝（ただし，ｎ_Cはコンテンツの総数）中の各コンテンツＣ_iに対し，Ｃ_iに付加されたアノテーション集合Ｔ_i＝｛Ｔ_ij｜ｊ＝１〜ｎ_Ti｝（ただし，ｎ_Tiはコンテンツに付加されたアノテーションの総数）を要素とし，各要素の値としてアノテーションＴ_ijとコンテンツＣ_iのＡ−Ｃ関連度の値を持つＡ−Ｃ関連度ベクトルＶ_iを定義し，ベクトル類似度算出部１４２に伝達する。ただし，アノテーション群のＡ−Ｃ関連度が算出済みでない場合には，前述した情報関連度算出部１１０の処理機能を用いてＡ−Ｃ関連度を算出し，Ａ−Ｃ関連度ベクトルを作成し，ベクトル類似度算出部１４２に伝達する。

（２）ベクトル類似度算出部１４２は，Ａ−Ｃ関連度ベクトルＶ_xと，Ａ−Ｃ関連度ベクトル集合Ｖ＝｛Ｖ_i｜ｉ＝１〜ｎ_C，ｉ≠ｘ｝中の各Ａ−Ｃ関連度ベクトルＶ_iとのコサイン類似度ｃｏｓ（Ｖ_x，Ｖ_i）を計算し，関連コンテンツ提示部１４３に伝達する。

（３）関連コンテンツ提示部１４３は，コサイン類似度ｃｏｓ（Ｖ_x，Ｖ_i）が，あらかじめ決めておいた閾値の値以上となるＡ−Ｃ関連度ベクトルＶ_iの集合を求め，そのＡ−Ｃ関連度ベクトルＶ_iに対応するコンテンツＣ_iの集合を，コンテンツＣ_xに関連するコンテンツの集合とする。

（４）関連コンテンツ提示部１４３は，関連コンテンツ集合をユーザに出力する。

以上，本発明の実施形態を説明したが，本発明は，上記の実施形態に限定されず，特許請求の範囲に記載された技術的範囲内において変更や応用が可能である。

１０コンテンツ管理装置
２０入出力装置
１００アノテーション蓄積装置
１０１コンテンツ情報管理テーブル
１０２アノテーション情報管理テーブル
１１０情報関連度算出部
１１１コンテンツ選択部
１１２Ａ−Ａ関連度算出部
１１３Ａ−Ｃ関連度算出部
１２０Ａ−Ｃ関連度記憶装置
１２１Ａ−Ｃ関係管理テーブル
１３０コンテンツランキング部
１３１コンテンツ選択部
１３２アノテーション並べ替え部
１３３コンテンツ並べ替え部
１４０関連コンテンツ取得部
１４１ベクトル作成部
１４２ベクトル類似度算出部
１４３関連コンテンツ提示部

Claims

コンテンツに付加されたアノテーション群を記憶し管理するコンテンツ管理装置であって，
コンテンツに付加されたアノテーション群を格納したアノテーション蓄積手段と，
指定されたコンテンツを選択し，コンテンツに付加されたアノテーション群を前記アノテーション蓄積手段から取得するコンテンツ選択手段と，
前記アノテーション群におけるアノテーション同士の関係の強さを数値で表すアノテーション間の関連度を算出するアノテーション間関連度算出手段と，
前記アノテーション間の関連度から，各アノテーションとコンテンツとの関係の強さを数値で表すアノテーションとコンテンツ間の関連度を算出するアノテーション−コンテンツ間関連度算出手段と，
算出されたアノテーションとコンテンツ間の関連度を記憶または出力するアノテーション−コンテンツ間関連度出力手段とを備える
ことを特徴とするコンテンツ管理装置。
前記アノテーション間関連度算出手段は，
あるアノテーションが付加されたコンテンツ集合に対する別のアノテーションも付加されたコンテンツ集合の包含率による関連度の算出手段，
または，アノテーションの同一コンテンツにおける共起頻度による関連度の算出手段，
または，アノテーションの出現頻度に対する独立性検定の値による関連度の算出手段の少なくともいずれかを備える
ことを特徴とする請求項１に記載のコンテンツ管理装置。
前記アノテーション−コンテンツ間関連度算出手段は，
他のアノテーション群とのアノテーション間の関連度の総和による関連度の算出手段，
または，他のアノテーション群とのアノテーション間の関連度の中央値による関連度の算出手段，
または，他のアノテーション群とのアノテーション間の関連度の比率をリンクの強さとするランダムサーファーモデルによる関連度の算出手段の少なくともいずれかを備える
ことを特徴とする請求項１または請求項２に記載のコンテンツ管理装置。
前記アノテーションとコンテンツ間の関連度の算出対象となったアノテーション群と前記アノテーションとコンテンツ間の関連度とをもとに，前記アノテーションとコンテンツ間の関連度が高い順もしくは低い順に並べ替えて，順序づけされたアノテーション群を出力する出力処理手段をさらに備える
ことを特徴とする請求項１，請求項２または請求項３に記載のコンテンツ管理装置。
コンテンツに付加されたアノテーション群を記憶し管理するコンテンツ管理装置であって，
コンテンツに付加されたアノテーション群を格納したアノテーション蓄積手段と，
請求項１から請求項４までのいずれか１項に記載の，前記コンテンツ選択手段および前記アノテーション間関連度算出手段および前記アノテーション−コンテンツ間関連度算出手段によって算出されたアノテーションとコンテンツ間の関連度を記憶するアノテーション−コンテンツ間関連度記憶手段と，
前記アノテーション蓄積手段に格納された各コンテンツに付加されたアノテーション群の情報と，前記アノテーション−コンテンツ間関連度記憶手段に記憶されたアノテーションとコンテンツ間の関連度の情報とをもとに，あるコンテンツに付加されたアノテーション群の順序をアノテーションとコンテンツ間の関連度が高い順に並べ替えるアノテーション並べ替え手段と，
コンテンツ集合中の各コンテンツに付加されたアノテーション群とそれらのアノテーションとコンテンツ間の関連度とをもとに，コンテンツ集合の順序を並べ替えるコンテンツ並べ替え手段とを備える
ことを特徴とするコンテンツ管理装置。
コンテンツに付加されたアノテーション群を記憶し管理するコンテンツ管理装置であって，
コンテンツに付加されたアノテーション群を格納したアノテーション蓄積手段と，
請求項１から請求項４までのいずれか１項に記載の，前記コンテンツ選択手段および前記アノテーション間関連度算出手段および前記アノテーション−コンテンツ間関連度算出手段によって算出されたアノテーションとコンテンツ間の関連度を記憶するアノテーション−コンテンツ間関連度記憶手段と，
前記アノテーション蓄積手段に格納された各コンテンツに付加されたアノテーション群のアノテーションとコンテンツ間の関連度を値とするアノテーションとコンテンツ間の関連度ベクトルを作成するベクトル作成手段と，
コンテンツごとに作成した前記アノテーションとコンテンツ間の関連度ベクトル同士の類似度を算出するベクトル類似度算出手段と，
算出したアノテーションとコンテンツ間の関連度ベクトル同士の類似度の情報をもとに，あるコンテンツに関連する他のコンテンツを取得して提示する関連コンテンツ提示手段とを備える
ことを特徴とするコンテンツ管理装置。
コンテンツに付加されたアノテーション群を格納したアノテーション蓄積手段を備えるコンテンツ管理装置が実行する情報関連度算出方法であって，
指定されたコンテンツを選択し，コンテンツに付加されたアノテーション群を前記アノテーション蓄積手段から取得するコンテンツ選択ステップと，
前記アノテーション群におけるアノテーション同士の関係の強さを数値で表すアノテーション間の関連度を算出するアノテーション間関連度算出ステップと，
前記アノテーション間の関連度から，各アノテーションとコンテンツとの関係の強さを数値で表すアノテーションとコンテンツ間の関連度を算出するアノテーション−コンテンツ間関連度算出ステップと，
算出されたアノテーションとコンテンツ間の関連度を記憶または出力するアノテーション−コンテンツ間関連度出力ステップとを実行する
ことを特徴とする情報関連度算出方法。
請求項７に記載の情報関連度算出方法を，コンピュータに実行させるための情報関連度算出プログラム。