JP2011227633A - コンテンツ管理装置,情報関連度算出方法および情報関連度算出プログラム - Google Patents

コンテンツ管理装置,情報関連度算出方法および情報関連度算出プログラム Download PDF

Info

Publication number
JP2011227633A
JP2011227633A JP2010095578A JP2010095578A JP2011227633A JP 2011227633 A JP2011227633 A JP 2011227633A JP 2010095578 A JP2010095578 A JP 2010095578A JP 2010095578 A JP2010095578 A JP 2010095578A JP 2011227633 A JP2011227633 A JP 2011227633A
Authority
JP
Japan
Prior art keywords
content
annotation
relevance
annotations
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010095578A
Other languages
English (en)
Other versions
JP5234836B2 (ja
Inventor
Taiga Yoshida
大我 吉田
Takeshi Irie
豪 入江
Takashi Sato
隆 佐藤
Akira Kojima
明 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010095578A priority Critical patent/JP5234836B2/ja
Publication of JP2011227633A publication Critical patent/JP2011227633A/ja
Application granted granted Critical
Publication of JP5234836B2 publication Critical patent/JP5234836B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】コンテンツに付加されたアノテーションに対し,コンテンツとの関連度の強さを示す値を算出し,コンテンツ検索時のランキングおよびコンテンツの推薦に利用できるようにする。
【解決手段】コンテンツ管理装置10は,A−A関連度算出部112により,コンテンツに付加されたアノテーション間の組み合わせごとにアノテーション間の関連度(A−A関連度)を算出する。次に,A−C関連度算出部113により,各アノテーションが同一コンテンツに付加された他のアノテーション群とどの程度強い関係で結ばれているかをA−A関連度から計算することにより,各アノテーションがコンテンツについてどれくらい典型的であるかを表すアノテーションとコンテンツ間の関連度(A−C関連度)を算出し,ユーザに提示する。
【選択図】図2

Description

本発明は,文書,画像,音楽,映像などのコンテンツを管理するシステムにおいて,コンテンツに対して付与されるアノテーション同士の関連度,およびアノテーションとコンテンツ間の関連度を算出する情報関連度算出技術に関するものである。
電子化された文書,画像,音楽,映像などのコンテンツを扱うサービスでは,タグと呼ばれる単語や短い文章がコンテンツにアノテーションとして付加され,分類や検索に利用されている。
アノテーションを用いてコンテンツを分類する方法は,一つのコンテンツを一つのカテゴリに振り分ける従来の一般的な分類方法とは異なり,タグ等を利用することによって,一つのコンテンツに対して複数の属性情報を付与して分類することができる。こうすることで,複数の属性や特性を持つコンテンツに対しても,複数の分類情報を付加することができ,ユーザは複数の属性や特性を指定してコンテンツを検索し,絞り込むことが可能になる。
コンテンツの分類や検索にタグを利用するサービスとしては,国内では,はてな(登録商標)ブックマークやニコニコ動画(登録商標),国外では,YouTube(登録商標)やFlickr(登録商標),deliciousなどが存在する。それらのサービスでは,各コンテンツに付加されたタグを,ユーザが自由に参照することができる。このとき,コンテンツに付加された日時が早い順にタグを並べてユーザに提示するのが一般的である。
さらに,deliciousでは,コンテンツであるウェブページに付けられたタグ群を,どのユーザが付けたかによって分類して表示するほか,そのウェブページに付けられた全てのタグを,付けたユーザが多いものから順に並べて表示する技術が用いられている。すなわち,より多くのユーザによって付加されたタグほど,より上位に配置されることになる。
タグとコンテンツの関連度を算出する既存の検索技術としては,画像の特徴量を利用してランキングするもの(非特許文献1)が挙げられる。
D. Liu, X. S. Hua, L. J. Yang, M. Wang and H. J. Zhang,"Tag Ranking ", In Proceedings of A-CM International World Wide Web Conference, Pages:351-360, 2009 .
しかしながら,従来技術では,アノテーションにコンテンツとの関連度を表す値が付いておらず,また,コンテンツとの関連度の高さによって順序付けがされていない。そのため,ユーザは,どのアノテーションがコンテンツを典型的に表しているのかを判断することができず,また,システム開発者は,アノテーションとコンテンツ間の関連度を利用したランキングや関連コンテンツの推薦を行うシステムを作成することができない。
前述したdeliciousなどの従来技術では,コンテンツに付加されたタグがユーザごとに分類されているシステムにしか適用することができない。さらに,タグ数によるランキングでは,カテゴリ名などの多くのユーザが共通して付加する一般的なタグが上位になりやすい。そのため,タグの名前からコンテンツの特徴を絞り込んで推測することができるようなタグが上位にランキングされるとは限らない。
また,非特許文献1では,画像の特徴量を用いてタグと画像の関連度を計算し,タグtj およびタグtj における画像の類似度および下記の式(1) のGoogle(登録商標)distanceによって定義されたタグ間の距離を用いて関連度の修正を行っている。そのため,画像に対してだけしか適用できない手法であり,また,アノテーション情報のみを用いた場合と比較して解析のための時間や計算量などのコストがかかってしまう。
d(ti ,tj )={max(log f(ti ),log f(tj ))−log f(ti ,tj )}÷{log G−min(log f(ti ),log f(tj ))} …式(1)
ここで,f(ti )およびf(tj )は,タグti およびタグtj が付加された画像数,f(ti ,tj )は,f(ti )とf(tj )とが共に付加された画像数,Gは,全画像数である。
本発明は,以上のような課題を解決するためのものであり,コンテンツの分類などを目的として付加されたアノテーションに対して,アノテーション情報のみを用いることにより,アノテーションとコンテンツとの関連度を算出できる点を特徴とする。また,算出した関連度は,コンテンツのランキングや推薦に利用することができる。
本発明は,上記課題を解決するため,コンテンツに付随するアノテーションを格納した情報記憶手段を有するコンテンツ管理装置が,単一のコンテンツに付加された複数のアノテーションに対し,コンテンツに関連する度合いによって関連度を算出する方法であって,各コンテンツに付加されたアノテーション群を取得し,任意のアノテーション間の関連度(以下,A−A関連度と記す)を算出し,算出されたアノテーション間の関連度を利用してあるアノテーションと他のアノテーション群との関連度を算出し,アノテーションとコンテンツ間の関連度(以下,A−C関連度と記す)の算出およびランキングを行うことを特徴とする。
アノテーション間の関連度の算出には,あるアノテーションが付加されたコンテンツ集合に対する別のアノテーションも付加されたコンテンツ集合の包含率,または,アノテーションの同一コンテンツにおける共起頻度,または,アノテーションの出現頻度に対する独立性検定の値,などが利用可能である。
また,あるアノテーションと同一コンテンツに付加された他のアノテーション群との関連度の算出には,他のアノテーション群とのA−A関連度の総和,または,他のアノテーション群とのA−A関連度の中央値,または,他のアノテーション群とのA−A関連度の比率をリンクの強さとするランダムサーファーモデル,などが利用可能である。
非特許文献1記載の発明,および,本発明は,双方ともに,アノテーションとコンテンツとの関連性を求める点で一致している。しかしながら,次の点で大きな違いがある。非特許文献1に記載されている技術では,アノテーション同士の関連性を分析することに加えてコンテンツそのものの特徴である画像特徴を求め,アノテーションとコンテンツとの関連性を算出する。これに対して,本発明は,アノテーション同士の関連性のみに基づいて,アノテーションとコンテンツとの関連性を算出できる。
本発明が,アノテーション同士の関連性のみによって,アノテーションとコンテンツ間の関連性を求めることができる理由を,図1を用いて説明する。図1は,アノテーションによって記述されるコンテンツ内容のイメージ図である。
アノテーションは,コンテンツの内容を捉えて付加されるものである。したがって,各アノテーションは,コンテンツの持つ内容のうち,少なくともその一部を表現したものであるといえる。図1の例では,図7に示すような,「旅行」,「神奈川県」,「電車」,「江ノ電」,「江ノ島」,「鎌倉」という6つのアノテーション(タグ)が付加された「神奈川県の観光名所」というタイトルのビデオコンテンツについて,ビデオコンテンツ全体の内容に対して,各アノテーションが表現している部分を図示している。
本発明は,次の知見に基づいている。
[知見1]:より多くのアノテーションにより重複して表現されている内容は,コンテンツの主要な内容である。
コンテンツの全内容において,特に重要な内容については,多くのアノテーションが表現しようとするであろう。図1では,アノテーションによって表現される内容を示す円が多く重なっている領域が,「主要な内容」の領域に相当する。
さらに,本発明は,次の知見に基づいて,各アノテーションとコンテンツとの関連性を求める。
[知見2]:主要な内容を表現するアノテーションは,コンテンツとの関連性が高い。
図1でいえば,アノテーションの円がより多く重なっている領域が大きいほど,コンテンツとの関連性が高いアノテーションであるということになる。
したがって,アノテーション同士の内容がどの程度重なり合っているかを推定すれば,コンテンツの主要な内容を推定することができるのである。
また,本発明では,同一コンテンツに付加された他のアノテーションの情報とどれだけ共通した情報を表現しているかを示すアノテーション同士の関連度を算出する。あるアノテーションが付加されたコンテンツ集合に対する別のアノテーションも付加されたコンテンツ集合の包含率による関連度の算出手段を用いることにより,アノテーション間の非対称な関係を定義することができる。または,アノテーションの同一コンテンツにおける共起頻度による関連度の算出手段を用いることにより,アノテーションが付加されたコンテンツ数の差に影響されにくい関連度の算出ができる。または,アノテーションの出現頻度に対する独立性検定の値による関連度の算出手段を用いることにより,統計情報を利用した精度の高い関連度の算出ができる。
また,本発明では,同一コンテンツに付加された他のアノテーションのうち,どれだけ多くのアノテーションと共通の情報を表現できているかによってアノテーションとコンテンツ間の関連度を算出する。他のアノテーション群とのA−A関連度の総和による関連度の算出手段を用いることにより,少ない計算コストでアノテーションとコンテンツ間の関連度を算出できる。または,他のアノテーション群とのA−A関連度の中央値による関連度の算出手段を用いることにより,A−A関連度の外れ値に影響されにくい関連度の算出ができる。または,他のアノテーション群とのA−A関連度の比率をリンクの強さとするランダムサーファーモデルによる関連度の算出手段を用いることにより,同一コンテンツに付けられた全てのタグとの関係性を考慮した精度の高い関連度の算出ができる。
したがって,本発明の手法は,アノテーション情報のみを利用し,画像特徴量などコンテンツの種類に依存する情報を利用しないため,アノテーションが付加された任意のコンテンツに対して適用可能であり,画像特徴量を利用した手法と比べ計算コストが少ない点で,従来技術とは異なる。
また,従来は,コンテンツに付加されるアノテーション群は,アノテーションが付けられた順に並べて提示されることが一般的であった。このため,コンテンツに付加されたどのアノテーションがコンテンツの特徴をより適切かつ詳細に表現しているかを知ることは困難であり,一目しただけでコンテンツの概要を把握することはできなかった。
これに対し,本発明によれば,コンテンツに付加された各アノテーションに対してコンテンツとの関連度を算出し,アノテーションをコンテンツとの関連度が高い順に並べることができる。したがって,関連度の高いアノテーションを一目するだけで,コンテンツの概要を把握することが可能になる。
また,従来のアノテーションを指定した検索における検索結果リストは,閲覧された回数や投稿された日時など,アノテーションとコンテンツとの関連度とは関係のない指標による並べ替えしかできなかったのに対し,本発明を利用することで,検索条件に指定したアノテーションとの関連度が高い順に検索結果のコンテンツを並べて提示することが可能になる。
さらに,本発明では,あるコンテンツにおける主要なアノテーションを含む他のコンテンツを発見することにより,従来の重複するアノテーション数が多いコンテンツを発見する手法と比べ,関連するコンテンツをより高い精度で取得することが可能になる。すなわち,従来手法では,コンテンツに付加されたアノテーションのうちコンテンツの特徴を典型的に表現できていないアノテーションが重複する場合と,コンテンツに対して典型的なアノテーションが重複する場合を同等に扱っていたのに対し,本発明を利用することで,より典型的なアノテーションがより多く重複しているコンテンツを取得することができる。
以上のように,本発明によれば,コンテンツとコンテンツに付加されたアノテーションとの関連度を算出することにより,従来技術では得られなかった,コンテンツの検索およびコンテンツの推薦などに極めて有効な情報を提供することができるようになる。
アノテーションによって記述されるコンテンツ内容のイメージ図である。 本発明の実施形態に係るコンテンツ管理装置の構成例を示す図である。 情報関連度算出部の処理フローチャートである。 アノテーション蓄積装置に格納されたアノテーション情報の例を示す図である。 A−C関連度記憶装置に記憶されるアノテーション−コンテンツ関係管理テーブルの例を示す図である。 コンテンツに付加されたアノテーションについてのA−A関連度の例を示す図である。 アノテーションが付加されたコンテンツの例を示す図である。 A−A関連度の算出方法の例を示す模式図である。 A−A関連度からのA−C関連度算出方法の例を示す模式図である。 コンテンツ集合の並べ替えを行うコンテンツ管理装置の構成例を示す図である。 関連コンテンツ集合の取得を行うコンテンツ管理装置の構成例を示す図である。
以下,本発明の実施の形態について,図面を用いて説明する。図2は,本発明の実施形態に係るコンテンツ管理装置を模式的に示す構成図である。
コンテンツ管理装置10は,コンテンツとアノテーションとを保持するアノテーション蓄積装置100と,情報関連度算出部110と,情報関連度算出部110によって算出されたアノテーションとコンテンツ間の関連度(A−C関連度)を記憶するA−C関連度記憶装置120を備える。情報関連度算出部110は,コンテンツ選択部111,A−A関連度算出部112,A−C関連度算出部113から構成される。
アノテーション蓄積装置100は,この例では,コンテンツ情報管理テーブル101と,アノテーション情報管理テーブル102を格納している。また,A−C関連度記憶装置120は,アノテーションとコンテンツの関係の強さ(関連度)の情報を保持するA−C関係管理テーブル121を記憶する。説明を分かりやすくするために,この例では,アノテーション蓄積装置100とA−C関連度記憶装置120とを別装置として表しているが,同じ記憶装置であってもよい。また,ここではアノテーション蓄積装置100に,コンテンツ自体も格納されているものとして説明するが,アノテーション蓄積装置100では,コンテンツを特定するコンテンツIDとそのアノテーション群のみを管理することとし,コンテンツ自体は他の装置に格納されているとしてもよい。
入出力装置20は,関連度の算出操作を行う人間が利用するディスプレイやキーボードその他の周辺装置であるが,関連度を利用するシステムであってもよい。以下では,コンテンツ管理装置10を利用する人間またはシステムを“ユーザ”という。
コンテンツ管理装置10は,例えば,CPU(Central Processing Unit ),ROM(Read Only Memory),RAM(Random Access Memory),HDD(Hard Disk Drive ),およびRAMなどの記憶手段に展開されたプログラムを含む。図2に示した構成要素の動作を記述したプログラムは,コンテンツ管理装置10として利用されるコンピュータ上で実行させたり,または,ネットワークなどを介してサービスとして実行させたりすることが可能である。アノテーション蓄積装置100は,API(Application Program Interface )などを通じてコンテンツおよびアノテーションを取得するプログラムであってもよい。
情報関連度算出部110は,あるコンテンツに付加された複数のアノテーションに対し,各アノテーションとコンテンツとの関係の強さを数値で表すA−C関連度を算出する。ここで,コンテンツとは,例えば,電子化された文書,画像,音楽,映像などを含み,アノテーションとは,タグ,キーワード,メタデータ,ユーザ情報などを含む。
すなわち,情報関連度選出部110は,入出力装置20や他のシステムなどのユーザからの要求に応じて,コンテンツ選択部111にて,関連度の算出の対象となるコンテンツを決定し,A−A関連度算出部112にて,A−A関連度を算出し,A−C関連度算出部113にて,A−C関連度を算出した後,アノテーション群のA−C関連度算出結果を出力する。または,算出したA−C関連度をA−C関連度記憶装置120に記憶する。
図3は,情報関連度算出部110におけるコンテンツおよびアノテーション情報の処理の概要を示すフローチャートである。
情報関連度算出部110は,図3に示すように,まず,コンテンツ選択部111により,入出力装置20等から入力された条件に適合するコンテンツ集合を,アノテーション蓄積装置100で管理されているコンテンツの中から選択する(ステップS1)。コンテンツを選択する条件は,メニュー等による選択,作成日時等による選択,検索キーワードによる選択など,任意でよい。
次に,A−A関連度算出部112により,選択されたコンテンツ集合の中の関連度算出の対象となるコンテンツに付加されたアノテーション群を,アノテーション蓄積装置100から取得する(ステップS2)。続いて,A−A関連度算出部112では,取得したアノテーションの任意の組み合わせに対してA−A関連度を算出する処理を実行する(ステップS3)。
次に,A−C関連度算出部113により,ステップS3で算出したA−A関連度から,各アノテーションとコンテンツ間の関連度(A−C関連度)を算出する処理を実行する(ステップS4)。算出したアノテーション群のA−C関連度を,入出力装置20等に出力してユーザに提示する。または,A−C関連度記憶装置120に格納する(ステップS5)。さらに,A−C関連度の算出対象となったアノテーション群について,A−C関連度が高い順もしくは低い順に並べ替えて,順序づけされたアノテーション群を出力するようにしてもよい。選択されたコンテンツが複数ある場合には,ステップS2〜S5を各コンテンツについて繰り返す。
図4は,アノテーション蓄積装置100に格納されたアノテーション情報の例を示す図である。アノテーション蓄積装置100には,図4に示すように,関連度の算出の対象になるコンテンツおよびそれらに付加されているアノテーションについてのデータを記憶するコンテンツ情報管理テーブル101とアノテーション情報管理テーブル102が格納されている。アノテーション蓄積装置100は,コンテンツを選択するための検索条件を指定することにより,コンテンツやコンテンツに付加されたアノテーションについてのデータを出力する。
コンテンツ情報管理テーブル101には,図4(A)に示すように,コンテンツを識別するコンテンツID,コンテンツの名前,コンテンツの説明情報などが格納される。また,アノテーション情報管理テーブル102には,図4(B)に示すように,アノテーションを識別するアノテーションID,アノテーションの名前などの情報が格納される。
図4に示したコンテンツ情報管理テーブル101およびアノテーション情報管理テーブル102は一例であり,名前や説明などの属性は格納されていなくてもよく,また,他の属性が格納されていてもよい。
図5は,A−C関連度記憶装置120に格納されるアノテーション−コンテンツ関係管理テーブル(A−C関係管理テーブル)121の例を示す図である。A−C関係管理テーブル121には,図5に示すように,情報関連度算出部110によって算出されたA−C関連度が,各コンテンツIDとアノテーションIDとの組合せのそれぞれに対して格納される。図5に示すA−C関係管理テーブル121も一例であり,他のデータ形式でA−C関連度等の情報を格納するようにしてもよい。
以上のアノテーション蓄積装置100に格納された情報をもとに,コンテンツ選択部111では,関連度の算出の対象になるコンテンツをアノテーション蓄積装置100から検索し,該当する各コンテンツに対して,コンテンツに付加されたアノテーション群を取得し,取得したアノテーション群をA−A関連度算出部112に伝達する。A−A関連度算出部112では,条件に該当する各コンテンツに対し,同一コンテンツに付加された任意のアノテーション間における関連度であるA−A関連度を算出する。
図6に,本発明の一実施形態におけるコンテンツに付加されたアノテーションについてのA−A関連度の例を示す。同図において,アノテーションA,アノテーションB,アノテーションC,アノテーションDは,同一のコンテンツaに付加されたアノテーションを表している。アノテーション間の関連度は二つ,もしくは複数のアノテーションの関係として表現される。本実施形態では,アノテーション間の関連度を二つのアノテーション間の関係として説明する。二つのアノテーションA,Bにおいて,アノテーションAから見たアノテーションBとの関連度と,アノテーションBから見たアノテーションAとの関連度は同じであるとは限らないため,これらを区別するためにアノテーション間の関係は,片方向の関係として定義してもよい。
〔A−A関連度の第1の実施例〕
例えば,同一のコンテンツaに付加されたアノテーションAとアノテーションBのA−A関連度R(A,B)の第1の実施例として,あるアノテーションが付加されたコンテンツ集合に対する別のアノテーションも付加されたコンテンツ集合の包含率により定義してもよい。このとき,A−A関連度R(A,B)は,次の式(2) で与えられる。
R(A,B)={A,Bを共に含むコンテンツ数}/{Bを含むコンテンツ数}
…式(2)
ここで,A,Bを共に含むコンテンツ数とは,アノテーション蓄積装置100において蓄積されているコンテンツ集合の中で,アノテーションAおよびアノテーションBが共に付加されたコンテンツの総数のことである。また,Bを含むコンテンツ数とは,アノテーション蓄積装置100において蓄積されているコンテンツ集合の中で,アノテーションBが付加されたコンテンツの総数のことである。
A−A関連度の第1の実施例に挙げた手法を用いることにより,アノテーションが付加されたコンテンツの総数に大きな差がある場合のA−A関連度を算出する際に,付けられたコンテンツ数の多いアノテーションに対してはA−A関連度を低く算出し,付けられたコンテンツ数の少ないアノテーションに対してはA−A関連度を高く算出するといった,非対称な関係を定義することができる。
図7は,アノテーションが付加されたコンテンツの例を示す図である。また,図8は,A−A関連度の算出方法を模式的に示す図である。例えば,図7に示すようなアノテーションが付加されたコンテンツを考える。このとき,二つのアノテーション「江ノ電」と「電車」の関連度R(江ノ電, 電車) およびR(電車, 江ノ電) は,図8のように算出される。すなわち,アノテーション「電車」が付加されたコンテンツ数が100,「江ノ電」が付加されたコンテンツ数が25であり,「電車」と「江ノ電」とが共に付加されたコンテンツ数が20である場合,A−A関連度は,次のように算出される。
R(江ノ電, 電車) =20/100=0.2
R(電車, 江ノ電) =20/25=0.8
〔A−A関連度の第2の実施例〕
A−A関連度R(A,B)の第2の実施例として,A−A関連度をアノテーションの同一コンテンツにおける共起頻度により定義してもよい。このとき,A−A関連度R(A,B)は,次の式(3) で与えられる。
R(A,B)
={A,Bを共に含むコンテンツ数}/{AまたはBを含むコンテンツ数}…式(3)
ここで,AまたはBを共に含むコンテンツ数とは,アノテーション蓄積装置100において蓄積されているコンテンツ集合の中で,アノテーションAまたはアノテーションBが付加されたコンテンツの総数のことである。
A−A関連度の第2の実施例に挙げた手法を用いることにより,アノテーションが付加されたコンテンツ数に差があるときにA−A関連度が高くならないため,カテゴリ名などの付加されたコンテンツ数の多いアノテーションや,わずかなコンテンツにしか付加されていないアノテーションの影響によってA−A関連度が高く算出されるのを防ぐことができる。
〔A−A関連度の第3の実施例〕
また,別のA−A関連度R(A,B)の第3の実施例として,アノテーションの出現頻度に対するカイ二乗値により定義してもよい。このとき,A−A関連度R(A,B)は,次の式(4) で与えられる。
Figure 2011227633
ここで,nはアノテーション蓄積装置100において蓄積されているコンテンツ集合に存在するコンテンツの総数であり,[A,B],[ ̄A, ̄B],[ ̄A,B],[A, ̄B]は,それぞれアノテーションA,Bを共に含むコンテンツ数,アノテーションA,Bのどちらも含まないコンテンツ数,アノテーションBを含みアノテーションAを含まないコンテンツ数,アノテーションAを含みアノテーションBを含まないコンテンツ数である。なお,「 ̄A」の「 ̄」は,Aの上に付く記号である(Bも同様)。
また,[A],[ ̄A],[B],[ ̄B]は,それぞれアノテーションAを含むコンテンツ数,アノテーションAを含まないコンテンツ数,アノテーションBを含むコンテンツ数,アノテーションBを含まないコンテンツ数である。得られたコンテンツ数が少なかった場合,次の参考文献1に記載されているような「イェーツの補正」などの補正を行ってもよい。
〔参考文献1〕:F. Yates, “Contingency Tables Involving Small Numbers and the X2 Test ”,Supplement to the Journal of the Royal Statistical Society, Pages:217-235, 1934.
A−A関連度の第3の実施例に挙げた手法を用いることにより,統計情報を利用するため,各アノテーションが付加される傾向に相関性があるかどうかを反映した精度の高いA−A関連度を算出することができる。
A−C関連度算出部113は,A−A関連度算出部112で計算された各アノテーション間での関連度の値を入力として,アノテーションとコンテンツ間の関連度であるA−C関連度の算出を行う。
コンテンツにアノテーションを付加するシステムでは,コンテンツの主要な属性や特徴は,そのコンテンツに付加される多くのアノテーションによって表現される傾向がある。そこで,本実施形態では,あるコンテンツに付加されたアノテーションについて,同一コンテンツに付加されたより多くの他のアノテーションと,より高い関連度を持っている場合に,アノテーションとコンテンツ間の関連度が高くなるとして説明する。すなわち,コンテンツに付加されたアノテーション群のうち,どのアノテーションとも高い関連度を持っているアノテーションは,A−C関連度が高く算出される。
〔A−C関連度の第1の実施例〕
図6に示したコンテンツにおけるアノテーション群の例では,例えば,A−C関連度の第1の実施例として,コンテンツaに対するアノテーションAのA−C関連度S(a,A)をアノテーションAと同一コンテンツに付加された他のアノテーション群とのA−A関連度の総和により定義してもよい。このとき,A−C関連度S(a,A)は,次の式(5) で与えられる。
S(a,A)=ΣR(t,A) 〔ただし,Σはt∈Tの総和〕 …式(5)
なお,Tはコンテンツaに付加されたアノテーションA以外のアノテーション群を含む集合である。
A−C関連度の第1の実施例に挙げた手法を用いることにより,算出したA−A関連度の合計を求めるだけでよいため,少ない計算コストでA−C関連度を算出することができる。
アノテーションが付加されたコンテンツの表示画面の一例を図7に示しているが,このコンテンツに付加されたアノテーションのA−A関連度からA−C関連度を算出する例を図9に示す。図9は,A−A関連度算出部112によって算出されたR(A,B)の値を要素とするA−A関連度テーブルを示しており,例えば,アノテーション「旅行」に対するコンテンツ「神奈川県の観光名所」のA−C関連度S(神奈川県の観光名所,旅行)は,次のように算出される。
S(神奈川県の観光名所,旅行)
=R(神奈川県,旅行)+R(電車,旅行)+R(江ノ電,旅行)+R(江ノ島,旅行)+R(鎌倉,旅行)
=0.1+0.3+0.01+0.01+0.03=0.45
他のアノテーションについてのA−C関連度についても,それぞれ同様に算出される。このようにして算出されたA−C関連度から,図9に示すA−A関連度テーブルでは,タグ「江ノ島」のA−C関連度が「3.7」で,最も高くなることがわかる。
〔A−C関連度の第2の実施例〕
A−C関連度S(a,A)の第2の実施例として,A−C関連度を他のアノテーション群とのA−A関連度の中央値により定義してもよい。このとき,A−C関連度S(a,A)は,次の式(6) で与えられる。同一コンテンツに付加されている他のアノテーションの総数をnとする。
・nが奇数の場合
S(a,A)=R(t′(n+1)/2 ,A)
・nが偶数の場合 …式(6)
S(a,A)=(R(t′n/2 ,A)+R(t′n/2+1 ,A))/2
ここで,t′i は同一コンテンツに付加された他の全てのアノテーションとの間のA−A関連度を小さい順に並べ替えたときにi番目となるアノテーションである。
A−C関連度の第2の実施例に挙げた手法を用いることにより,A−A関連度の中に他の値と比べて非常に大きな値や小さな値の外れ値が含まれていた場合に,中央値によって緩和され,A−C関連度が不当に高く算出されたり,不当に低く算出されたりするのを防ぐことができる。
〔A−C関連度の第3の実施例〕
また,別のA−C関連度S(a,A)の第3の実施例として,各アノテーションをノードとし,他のアノテーション群とのA−A関連度の比率をエッジの強さとするランダムサーファーモデル(参考文献2参照)により定義してもよい。このとき,A−C関連度S(a,A)は,以下に示す式で与えられる。
〔参考文献2〕:S. Brin and L. Page,“The anatomy of a large scale hypertextual web search engine ”, In Proceedings of the seventh international conference on World Wide Web, Pages:107-117, 1998.
以下の式において,ti はコンテンツaに付加されたアノテーションのうち,i番目に付加されたアノテーションであり,Tj はコンテンツaに付加されたアノテーションのうちアノテーションtj 以外のアノテーションを含む集合とする。
1.Ma (i,j)を(i,j)成分とする行列Ma を定義する。
・i=jの場合: Ma (i,j)=0
・i≠jの場合: Ma (i,j)=R(tj ,ti )/ΣR(tj ,t)
〔ただし,Σはt∈Tj の総和〕
2.Ma の固有値と固有ベクトル列の全ての組み合わせを計算し,絶対値が最大となる固有ベクトルを長さが1になるように正規化したベクトルVを求める。
3.ベクトルVのi行目の値をS(a,ti )とする。
ランダムサーファーモデルでは,エッジの強さが同じであっても,より高い値を持ったノードとのエッジの方が重視される。すなわち,A−C関連度の第3の実施例に挙げた手法を用いることにより,他の多くのアノテーションと高いA−A関連度を持っているアノテーションであるかを考慮して,どのアノテーションとのA−A関連度を重視するのかを決定する。したがって,精度の高いA−C関連度の算出が可能になる。
〔コンテンツランキング処理〕
A−C関連度を算出済みのアノテーションが付加されたコンテンツを利用することにより,ユーザがアノテーションを指定して検索を行った際における検索結果のコンテンツ集合を,指定したアノテーションとの関連が強い順に並べて提示することが可能である。これにより,検索を行ったユーザは,同じアノテーションが付けられたコンテンツ集合の中でも,アノテーションによって表現される特徴をより多く持ったコンテンツを発見し,閲覧することができるようになる。
このとき,例えば,検索条件で指定したアノテーションが,コンテンツ中で何番目にA−C関連度が高いタグなのかを利用し,検索結果を並べ替えてもよい。
図10は,コンテンツ集合の並べ替えを行うコンテンツ管理装置の構成例を示す図である。図10において,アノテーション蓄積装置100,情報関連度算出部110,A−C関連度記憶装置120は,図2における同符号のものに対応する。
コンテンツランキング部130は,A−C関連度に従ってコンテンツ集合の並べ替えを行うものであり,コンテンツ選択部131,アノテーション並べ替え部132,コンテンツ並べ替え部133から構成される。
以下,図10に示すコンテンツランキング部130が実行する処理手順について説明する。コンテンツランキング部130は,コンテンツを検索して得られた検索結果リスト中のコンテンツの順序を,次のような処理手順で決定する。
(1)ユーザからの検索要求に対して,コンテンツ選択部131は,アノテーション蓄積装置100から,指定されたアノテーションが付加されているコンテンツ集合を取得する。
(2)コンテンツ選択部131は,取得したコンテンツに付加されているA−C関連度を,A−C関連度記憶装置120から読み出し,各コンテンツに付加されたアノテーションとそれらのA−C関連度をアノテーション並べ替え部132に伝達する。ただし,アノテーション群のA−C関連度が算出済みでない場合には,前述した情報関連度算出部110の処理機能を用いてA−C関連度を算出し,算出結果をアノテーション並べ替え部132に伝達する。
(3)アノテーション並べ替え部132は,取得された各コンテンツについて,そのコンテンツに付加されたアノテーションをA−C関連度が高い順に並べ替え,各コンテンツとアノテーションをコンテンツ並べ替え部133に伝達する。
(4)コンテンツ並べ替え部133は,指定されたアノテーションが,並べ替えの後に上位に付加されているコンテンツから順にコンテンツを並べ替える。ただし,指定されたアノテーションの位置が同じ場合,付加されているアノテーションが少ないコンテンツから順に並べる。また,コンテンツに付加されているアノテーションの数が同じ場合,指定されたアノテーションのA−C関連度の値が高いものから順に並べる。さらに,アノテーションのA−C関連度の値が同じ場合,コンテンツIDが小さいものから順に並べる。
(5)コンテンツ並べ替え部133は,コンテンツ集合の並べ替え結果をユーザに出力する。
〔関連コンテンツ取得処理〕
さらに,A−C関連度を算出したアノテーションが付加されたコンテンツを利用することにより,あるコンテンツに関連する別のコンテンツを発見することが可能である。これにより,ユーザはあるコンテンツを閲覧したときに,閲覧したコンテンツに関連する別のコンテンツを推薦する情報を自動的に入手することができ,続けて関連コンテンツを閲覧することができるようになる。
このとき,例えば,コンテンツに付けられたアノテーション群の類似度としてコサイン類似度を利用し,コンテンツの類似度の算出を行ってもよい。
図11は,関連コンテンツ集合の取得を行うコンテンツ管理装置の構成例を示す図である。図11において,アノテーション蓄積装置100,情報関連度算出部110,A−C関連度記憶装置120は,図2における同符号のものに対応する。
関連コンテンツ取得部140は,A−C関連度を算出したアノテーションが付加されたコンテンツを利用することにより,現在着目しているコンテンツと関連するコンテンツを取得するものであり,ベクトル作成部141,ベクトル類似度算出部142,関連コンテンツ提示部143から構成される。
以下,図11に示す関連コンテンツ取得部140が実行する処理手順について説明する。関連コンテンツ取得部140は,現在着目しているコンテンツと関連するコンテンツを,次のような処理手順で選出する。
(1)ベクトル作成部141は,コンテンツ集合C={Ci |i=1〜nC }(ただし,nC はコンテンツの総数)中の各コンテンツCi に対し,Ci に付加されたアノテーション集合Ti ={Tij|j=1〜nTi}(ただし,nTiはコンテンツに付加されたアノテーションの総数)を要素とし,各要素の値としてアノテーションTijとコンテンツCi のA−C関連度の値を持つA−C関連度ベクトルVi を定義し,ベクトル類似度算出部142に伝達する。ただし,アノテーション群のA−C関連度が算出済みでない場合には,前述した情報関連度算出部110の処理機能を用いてA−C関連度を算出し,A−C関連度ベクトルを作成し,ベクトル類似度算出部142に伝達する。
(2)ベクトル類似度算出部142は,A−C関連度ベクトルVx と,A−C関連度ベクトル集合V={Vi |i=1〜nC ,i≠x}中の各A−C関連度ベクトルVi とのコサイン類似度cos(Vx ,Vi )を計算し,関連コンテンツ提示部143に伝達する。
Figure 2011227633
(3)関連コンテンツ提示部143は,コサイン類似度cos(Vx ,Vi )が,あらかじめ決めておいた閾値の値以上となるA−C関連度ベクトルVi の集合を求め,そのA−C関連度ベクトルVi に対応するコンテンツCi の集合を,コンテンツCx に関連するコンテンツの集合とする。
(4)関連コンテンツ提示部143は,関連コンテンツ集合をユーザに出力する。
以上,本発明の実施形態を説明したが,本発明は,上記の実施形態に限定されず,特許請求の範囲に記載された技術的範囲内において変更や応用が可能である。
10 コンテンツ管理装置
20 入出力装置
100 アノテーション蓄積装置
101 コンテンツ情報管理テーブル
102 アノテーション情報管理テーブル
110 情報関連度算出部
111 コンテンツ選択部
112 A−A関連度算出部
113 A−C関連度算出部
120 A−C関連度記憶装置
121 A−C関係管理テーブル
130 コンテンツランキング部
131 コンテンツ選択部
132 アノテーション並べ替え部
133 コンテンツ並べ替え部
140 関連コンテンツ取得部
141 ベクトル作成部
142 ベクトル類似度算出部
143 関連コンテンツ提示部

Claims (8)

  1. コンテンツに付加されたアノテーション群を記憶し管理するコンテンツ管理装置であって,
    コンテンツに付加されたアノテーション群を格納したアノテーション蓄積手段と,
    指定されたコンテンツを選択し,コンテンツに付加されたアノテーション群を前記アノテーション蓄積手段から取得するコンテンツ選択手段と,
    前記アノテーション群におけるアノテーション同士の関係の強さを数値で表すアノテーション間の関連度を算出するアノテーション間関連度算出手段と,
    前記アノテーション間の関連度から,各アノテーションとコンテンツとの関係の強さを数値で表すアノテーションとコンテンツ間の関連度を算出するアノテーション−コンテンツ間関連度算出手段と,
    算出されたアノテーションとコンテンツ間の関連度を記憶または出力するアノテーション−コンテンツ間関連度出力手段とを備える
    ことを特徴とするコンテンツ管理装置。
  2. 前記アノテーション間関連度算出手段は,
    あるアノテーションが付加されたコンテンツ集合に対する別のアノテーションも付加されたコンテンツ集合の包含率による関連度の算出手段,
    または,アノテーションの同一コンテンツにおける共起頻度による関連度の算出手段,
    または,アノテーションの出現頻度に対する独立性検定の値による関連度の算出手段の少なくともいずれかを備える
    ことを特徴とする請求項1に記載のコンテンツ管理装置。
  3. 前記アノテーション−コンテンツ間関連度算出手段は,
    他のアノテーション群とのアノテーション間の関連度の総和による関連度の算出手段,
    または,他のアノテーション群とのアノテーション間の関連度の中央値による関連度の算出手段,
    または,他のアノテーション群とのアノテーション間の関連度の比率をリンクの強さとするランダムサーファーモデルによる関連度の算出手段の少なくともいずれかを備える
    ことを特徴とする請求項1または請求項2に記載のコンテンツ管理装置。
  4. 前記アノテーションとコンテンツ間の関連度の算出対象となったアノテーション群と前記アノテーションとコンテンツ間の関連度とをもとに,前記アノテーションとコンテンツ間の関連度が高い順もしくは低い順に並べ替えて,順序づけされたアノテーション群を出力する出力処理手段をさらに備える
    ことを特徴とする請求項1,請求項2または請求項3に記載のコンテンツ管理装置。
  5. コンテンツに付加されたアノテーション群を記憶し管理するコンテンツ管理装置であって,
    コンテンツに付加されたアノテーション群を格納したアノテーション蓄積手段と,
    請求項1から請求項4までのいずれか1項に記載の,前記コンテンツ選択手段および前記アノテーション間関連度算出手段および前記アノテーション−コンテンツ間関連度算出手段によって算出されたアノテーションとコンテンツ間の関連度を記憶するアノテーション−コンテンツ間関連度記憶手段と,
    前記アノテーション蓄積手段に格納された各コンテンツに付加されたアノテーション群の情報と,前記アノテーション−コンテンツ間関連度記憶手段に記憶されたアノテーションとコンテンツ間の関連度の情報とをもとに,あるコンテンツに付加されたアノテーション群の順序をアノテーションとコンテンツ間の関連度が高い順に並べ替えるアノテーション並べ替え手段と,
    コンテンツ集合中の各コンテンツに付加されたアノテーション群とそれらのアノテーションとコンテンツ間の関連度とをもとに,コンテンツ集合の順序を並べ替えるコンテンツ並べ替え手段とを備える
    ことを特徴とするコンテンツ管理装置。
  6. コンテンツに付加されたアノテーション群を記憶し管理するコンテンツ管理装置であって,
    コンテンツに付加されたアノテーション群を格納したアノテーション蓄積手段と,
    請求項1から請求項4までのいずれか1項に記載の,前記コンテンツ選択手段および前記アノテーション間関連度算出手段および前記アノテーション−コンテンツ間関連度算出手段によって算出されたアノテーションとコンテンツ間の関連度を記憶するアノテーション−コンテンツ間関連度記憶手段と,
    前記アノテーション蓄積手段に格納された各コンテンツに付加されたアノテーション群のアノテーションとコンテンツ間の関連度を値とするアノテーションとコンテンツ間の関連度ベクトルを作成するベクトル作成手段と,
    コンテンツごとに作成した前記アノテーションとコンテンツ間の関連度ベクトル同士の類似度を算出するベクトル類似度算出手段と,
    算出したアノテーションとコンテンツ間の関連度ベクトル同士の類似度の情報をもとに,あるコンテンツに関連する他のコンテンツを取得して提示する関連コンテンツ提示手段とを備える
    ことを特徴とするコンテンツ管理装置。
  7. コンテンツに付加されたアノテーション群を格納したアノテーション蓄積手段を備えるコンテンツ管理装置が実行する情報関連度算出方法であって,
    指定されたコンテンツを選択し,コンテンツに付加されたアノテーション群を前記アノテーション蓄積手段から取得するコンテンツ選択ステップと,
    前記アノテーション群におけるアノテーション同士の関係の強さを数値で表すアノテーション間の関連度を算出するアノテーション間関連度算出ステップと,
    前記アノテーション間の関連度から,各アノテーションとコンテンツとの関係の強さを数値で表すアノテーションとコンテンツ間の関連度を算出するアノテーション−コンテンツ間関連度算出ステップと,
    算出されたアノテーションとコンテンツ間の関連度を記憶または出力するアノテーション−コンテンツ間関連度出力ステップとを実行する
    ことを特徴とする情報関連度算出方法。
  8. 請求項7に記載の情報関連度算出方法を,コンピュータに実行させるための情報関連度算出プログラム。
JP2010095578A 2010-04-19 2010-04-19 コンテンツ管理装置,情報関連度算出方法および情報関連度算出プログラム Active JP5234836B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010095578A JP5234836B2 (ja) 2010-04-19 2010-04-19 コンテンツ管理装置,情報関連度算出方法および情報関連度算出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010095578A JP5234836B2 (ja) 2010-04-19 2010-04-19 コンテンツ管理装置,情報関連度算出方法および情報関連度算出プログラム

Publications (2)

Publication Number Publication Date
JP2011227633A true JP2011227633A (ja) 2011-11-10
JP5234836B2 JP5234836B2 (ja) 2013-07-10

Family

ID=45042916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010095578A Active JP5234836B2 (ja) 2010-04-19 2010-04-19 コンテンツ管理装置,情報関連度算出方法および情報関連度算出プログラム

Country Status (1)

Country Link
JP (1) JP5234836B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014038519A (ja) * 2012-08-17 2014-02-27 Dainippon Printing Co Ltd サーバ装置、プログラム及び通信システム
JP2014149689A (ja) * 2013-02-01 2014-08-21 Toshiba Corp レポート作成支援システム及びレポート作成支援プログラム
US9286360B2 (en) 2012-09-28 2016-03-15 Melco Holdings Inc. Information processing system, information processing device, information processing method, and computer readable recording medium
JP7433374B2 (ja) 2019-03-22 2024-02-19 株式会社日立製作所 ストレージシステム、及び、記憶コスト適正化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048286A (ja) * 2004-08-03 2006-02-16 Sony Corp 情報処理装置および方法、並びにプログラム
JP2009503751A (ja) * 2005-08-03 2009-01-29 ウィンク テクノロジ−ズ インコ−ポレイテッド 関連性判定方法、情報収集方法、オブジェクト組織化方法及び検索システム
JP2009217367A (ja) * 2008-03-07 2009-09-24 Fujifilm Corp 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048286A (ja) * 2004-08-03 2006-02-16 Sony Corp 情報処理装置および方法、並びにプログラム
JP2009503751A (ja) * 2005-08-03 2009-01-29 ウィンク テクノロジ−ズ インコ−ポレイテッド 関連性判定方法、情報収集方法、オブジェクト組織化方法及び検索システム
JP2009217367A (ja) * 2008-03-07 2009-09-24 Fujifilm Corp 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014038519A (ja) * 2012-08-17 2014-02-27 Dainippon Printing Co Ltd サーバ装置、プログラム及び通信システム
US9286360B2 (en) 2012-09-28 2016-03-15 Melco Holdings Inc. Information processing system, information processing device, information processing method, and computer readable recording medium
JP2014149689A (ja) * 2013-02-01 2014-08-21 Toshiba Corp レポート作成支援システム及びレポート作成支援プログラム
JP7433374B2 (ja) 2019-03-22 2024-02-19 株式会社日立製作所 ストレージシステム、及び、記憶コスト適正化方法

Also Published As

Publication number Publication date
JP5234836B2 (ja) 2013-07-10

Similar Documents

Publication Publication Date Title
TWI524193B (zh) 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法
US8868558B2 (en) Quote-based search
US8131734B2 (en) Image based annotation and metadata generation system with experience based learning
US8046368B2 (en) Document retrieval system and document retrieval method
US20150213027A1 (en) Objective and subjective ranking of comments
US20070055657A1 (en) System for generating and managing context information
EP3048540A1 (en) Picture ordering method and device
US8392429B1 (en) Informational book query
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
CN106095738B (zh) 推荐表单片段
US20100106732A1 (en) Identifying Visually Similar Objects
US20180144059A1 (en) Animated snippets for search results
US20160283564A1 (en) Predictive visual search enginge
JPWO2016135905A1 (ja) 情報処理システム及び情報処理方法
CN107870915B (zh) 对搜索结果的指示
JP2010224622A (ja) タグ付与方法およびタグ付与プログラム
US20080147631A1 (en) Method and system for collecting and retrieving information from web sites
JP5234836B2 (ja) コンテンツ管理装置,情報関連度算出方法および情報関連度算出プログラム
JPWO2010013472A1 (ja) データ分類システム、データ分類方法、及びデータ分類プログラム
US20140095465A1 (en) Method and apparatus for determining rank of web pages based upon past content portion selections
WO2013080493A1 (en) Contextual search for modeling notations
US20140149378A1 (en) Method and apparatus for determining rank of web pages based upon past content portion selections
JP6727097B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2007233752A (ja) 検索装置、コンピュータプログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110921

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130321

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5234836

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350