JP2010282544A

JP2010282544A - コミュニティ分類装置，コミュニティ分類方法およびコミュニティ分類プログラム

Info

Publication number: JP2010282544A
Application number: JP2009137101A
Authority: JP
Inventors: Takeshi Irie; 豪入江; Takashi Sato; 隆佐藤; Kiyoharu Aizawa; 清晴相澤; Toshihiko Yamazaki; 俊彦山崎
Original assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Priority date: 2009-06-08
Filing date: 2009-06-08
Publication date: 2010-12-16

Abstract

【課題】画像，音声・音楽，映像を共有するコミュニティサイトにおいて，ユーザにとって利便性に優れた適切なコミュニティの分類を実現する。
【解決手段】コミュニティ情報抽出部１２は，コミュニティ，ユーザおよびコンテンツのデータを格納したコミュニティデータベース１１から，コミュニティに所属するユーザ群やコンテンツ群やその特徴量，ユーザが嗜好するコンテンツ群やその特徴量，コンテンツ群の周辺文書群，ユーザが嗜好するコンテンツ群の周辺文書群などをコミュニティ情報として抽出する。コミュニティ類似度計算部１３は，二つの異なるコミュニティのコミュニティ情報からそれらの類似度を計算し，その結果をもとに，コミュニティクラスタリング部１４は，コミュニティを分類する。
【選択図】図１

Description

本発明は，画像，音声・音楽，映像を共有・公開するコミュニティサイトにおいて，コミュニティサイトに登録されているコミュニティを分類するコンピュータの応用技術に関するものである。

ブロードバンドの普及に伴い，画像や音声・音楽，映像などのマルチメディアコンテンツを共有・公開可能なコミュニティサイトの利用が盛んになった。コミュニティサイトを利用するユーザは，
（１）興味のある話題や，画像，音声・音楽，映像コンテンツが共通するユーザ同士で，コミュニティと呼ばれるグループを形成する，
（２）自分が所属するコミュニティにコンテンツを公開したり，公開されたコンテンツに対する意見交換や感想を述べたりするなどのコミュニケーションをとる，
などといった行為を楽しむことができる。

通常，新しいコミュニティを作成したり，既存のコミュニティに参加したりすることは，どのユーザであっても自由に行うことができる場合が多い。したがって，膨大な数のユニークユーザを持つコミュニティサイトでは，それに伴って，コミュニティの数も膨大な数にのぼっており，今現時点で，どのようなコミュニティが存在するかをすべて把握することは，事実上不可能である。このことは，次のような問題を引き起こす。
（１）既存のコミュニティに，新たに参加しようとするユーザにとって，興味のあるコミュニティを発見することが難しい。
（２）類似するコミュニティが既に存在していることに気づかないユーザが，同様のコミュニティを新たに形成してしまう。この結果，類似するコミュニティが乱立する。
（３）本来であれば一つに統合されているべきであるところを，いくつかの類似するコミュニティに分割されてしまうため，本来の規模よりも小さい規模でのコミュニケーションしか楽しむことができない。

このような問題は，コミュニティサイトにおける本来の楽しみを損なうものである。この問題を解決するためには，コミュニティを効果的に発見するために，類似するコミュニティを分類して提示する手段が必要となる。

これまでにも，Ｗｅｂにおけるコミュニティ抽出・分類の方法として，例えば非特許文献１，２，特許文献１，２に記載の技術が存在する。

非特許文献１に記載の技術は，ある特定の語句に対して，関連性のあるコミュニティを抽出する。Ｗｅｂのリンク構造をグラフとみなし，特定の語句に着目した場合に，その特定の語句に関する情報を多く含むノード(Authority) と，Authority へのリンクが多く集まっているノード(Hub) が存在すると考え，Authority を含むリンクが密なノードの集合を，その語句に関連するコミュニティであるとして抽出する。また，これを改善した類似技術として，非特許文献２に記載の技術もある。

また，特許文献１に記載の技術では，文書をノード，文書間の関連性をリンクとみなしたグラフから，コミュニティ毎の重要な話題（キーワード）を抽出する。この技術を応用すればそのキーワードに関連する文書群をコミュニティとして抽出することができる。

特許文献２に記載の技術では，ある特定の語句でキーワード検索を行った結果，得られる文書群に含まれるキーワード群（関連語群）を抽出し，これらのキーワード群でそれぞれ再度検索を行った結果得られる文書群間のリンクの密度に応じて関連語間の関係性を抽出し，関係性の高い関連語を含む文書群によってコミュニティを抽出する。

特開２００７−４１７００号公報特開２００７−９４５５２号公報

J.Kleinberg,"Authoritative Sources in a Hyperlinked Environment", In Proceedings ACM-SIAM Symposium on Discrete Algorithms, 1998. M.Toyoda, M.Kitsuregawa,"Creating a Web Community Chart for Navigating Related Communities ", In Proceedings ACM Hypertext, 2001.

非特許文献１，２に記載の技術では，着目する語句を１つ決定すると，抽出されるコミュニティが１つ得られる。しかしながら，ユーザが興味のあるコミュニティに関連する語句を適切かつ一意に決定できるとは限らないため，利便性に劣るという問題があった。

また，非特許文献１，２，特許文献１，２などの従来の技術では，Ｗｅｂのリンク構造，あるいは，コンテンツとしては文書のみを用いて，コミュニティの分類を実施していた。しかしながら，画像，音声・音楽，映像を共有するコミュニティサイトは，Ｗｅｂのリンク構造や文書の情報以外にも，画像，音声・音楽，映像の情報や，ユーザの興味や嗜好性があって成り立っている。従来技術では，これらを考慮することができず，たとえ画像，音声・音楽，映像を共有するコミュニティサイトに応用したとしても，適切なコミュニティの分類ができないという問題があった。

上記のような理由から，従来技術のみでは，画像，音声・音楽，映像を共有するコミュニティサイトにおいては，コミュニティの適切な分類ができなかった。

本発明は，この課題に基づいてなされたものであって，画像，音声・音楽，映像を共有するコミュニティサイトにおいて，ユーザにとって利便性に優れた適切なコミュニティの分類を実現する手段を提供することを目的とする。

前記課題の解決を図るために，本発明は，マルチメディアコンテンツを共有または公開するコミュニティサイトに登録されているコミュニティを分類するコミュニティ分類装置であって，前記コミュニティサイトに登録されているコミュニティ，前記コミュニティに所属するユーザおよび前記コミュニティに所属するコンテンツのデータを格納したコミュニティデータベースと，前記コミュニティのコミュニティ情報として，前記コミュニティデータベースから，コミュニティに所属するユーザ群，コミュニティに所属するコンテンツ群，コミュニティに所属するコンテンツ群の特徴量，コミュニティに所属するユーザが嗜好するコンテンツ群，コミュニティに所属するユーザが嗜好するコンテンツ群の特徴量，コミュニティに所属するコンテンツ群の周辺文書群，コミュニティに所属するユーザが嗜好するコンテンツ群の周辺文書群のうち，少なくとも１つを抽出するコミュニティ情報抽出部と，前記コミュニティ情報抽出部が抽出した第一のコミュニティのコミュニティ情報と，第二のコミュニティのコミュニティ情報とを比較し，予めコミュニティ情報の種類毎に定められた類似度の計算式に従って類似度を計算するコミュニティ類似度計算部と，すべてのコミュニティ間の類似度に基づいて，類似するコミュニティを分類し，出力するコミュニティクラスタリング部とを備えることを特徴とする。

以上のように，画像，音声・音楽，映像を共有するコミュニティを形成しているコンテンツ，文書，ユーザの情報を用いることで，そのコミュニティの嗜好や活動を効果的に捉えることが可能となり，類似するコミュニティ同士を高精度に分類することができる。

また，上記発明において，さらに，予め定められた分類閾値，あるいは，ユーザから指定された分類閾値に基づいて分類基準を定めるコミュニティクラスタリング深度決定部を備えることを特徴とする。

コミュニティクラスタリング深度決定部を備えることにより，コミュニティ情報の類似性がどの程度の強さであれば，同一に分類するかを任意に決定することができる。

例えば，「花」，「アジアの花」，「日本の花」，「桜」という４つのコミュニティ群があったとする。これらには，「花」⊃「アジアの花」⊃「日本の花」⊃「桜」という包含関係が成立する。例えば，｛「桜」，「日本の花」｝の間に最も強い類似度があり，｛「桜」，「アジアの花」｝，｛「桜」，「花」｝の順に類似度が低くなっていく。花の中でも，特に「桜」に興味のあるユーザがいた場合には，最初に提示される「花」というコミュニティ群よりも，「桜」というコミュニティ群が提示された方が有益であり，漠然と「花」に関するコミュニティを探しているユーザにとっては，まず「花」のコミュニティのまとまりを提示するほうが有益である。この発明では，このような調節を，ユーザの希望に合わせて実行できる。

また，上記発明において，前記コミュニティ情報抽出部は，一定の時間区間に前記コミュニティデータベースに登録された情報のみに基づいて，前記コミュニティ情報を抽出することを特徴とする。

コミュニティ情報抽出部が特定の時間区間毎のコミュニティ情報を分析することで，例えば，最新のコミュニティの情報に基づく分類結果や，これまでの経緯を踏まえた分類結果など，ユーザの目的に応じた観点からの分類結果を提示することができる。

また，上記発明において，前記コミュニティクラスタリング部が分類したコミュニティの分類結果を，分類されたコミュニティに含まれるコンテンツの情報またはユーザの情報とともに出力する分類結果出力部を備えることを特徴とする。

この分類結果出力部により，分類されたコミュニティそのものの情報だけでなく，分類されたコミュニティに含まれるコンテンツやユーザの情報を提供できる。この結果，例えばユーザがコミュニティの中で共有されているコンテンツを見たい，あるいは，どのようなユーザが参加しているか知りたい，といったニーズに即応できる。

以上示したように，本発明によれば，画像，音声・音楽，映像を共有するコミュニティの情報を用いて，類似するコミュニティ同士をまとめあげて分類し，ユーザの好みの観点から，好みの深さでコミュニティを探し出すことができるようになる。

コミュニティ分類装置の構成例を示すブロック図である。コミュニティテーブルの例を示す図である。ユーザテーブルの例を示す図である。コンテンツテーブルの例を示す図である。コミュニティ−ユーザテーブルの例を示す図である。コミュニティ−コンテンツテーブルの例を示す図である。ユーザ−コンテンツテーブルの例を示す図である。本発明の実施形態の一例における処理フローを示す図である。シンボル時系列の生成処理を説明する図である。シンボル変換表の一例を示す図である。コミュニティ類似度の計算方法を説明する図である。コミュニティ類似度の計算方法を説明する図である。コミュニティ類似度の計算方法を説明する図である。コミュニティのクラスタリングの例を説明する図である。クラスタリング深度による分類を説明する図である。クラスタリング深度による分類を説明する図である。コミュニティ分類結果の提示例を示す図である。コミュニティ分類結果の提示例を示す図である。

以下，図面を用いながら，本発明の実施形態について説明する。図１は，本発明の一実施形態におけるコミュニティ分類装置の構成例を示すブロック図である。

本発明の実施形態の一例で対象とするコミュニティサイトとして，説明の都合上，次のようなものを想定する。なお，本発明は必ずしもこのようなコミュニティサイトに限定されるものではない。
・ユーザは，任意の数のコミュニティに所属することができる。
・コミュニティには，画像ファイル，音声ファイル，音楽ファイル，映像ファイルなどのコンテンツが関連付けられている。
・コンテンツの周辺には，テキスト文書が付与されている。

本システムは，コミュニティ分類装置（以下，サーバという）１０と，各端末１７−１〜１７−３とが，通信網１８を介して接続されている。サーバ１０は，ＣＰＵ(Central Processing Unit) ，ＨＤＤ(Hard Disk Drive) ，ＲＡＭ (Random Access Memory) ，ＲＯＭ (Read Only Memory) 等から構成され，これらのハードウェアとソフトウェアプログラム等から実現されるコミュニティデータベース１１，コミュニティ情報抽出部１２，コミュニティ類似度計算部１３，コミュニティクラスタリング部１４，クラスタリング深度決定部１５，分類結果出力部１６を備えている。コミュニティ情報抽出部１２は，シンボル時系列生成部１２ａを備え，コミュニティ類似度計算部１３は，シンボル時系列類似度計算部１３ａを備える。

また，端末１７−１〜１７−３は，ＣＰＵ(Central Processing Unit) ，ＨＤＤ(Hard Disk Drive) ，ＲＡＭ (Random Access Memory) ，ＲＯＭ (Read Only Memory) ，キーボードやポインティングデバイスなどによる入力装置，および，ディスプレイなどの出力装置によって構成され，通信網１８と接続可能なものとする。例えばＰＣ(Personal Computer) ，携帯電話端末，あるいは，ＰＤＡ(Personal Data Assistant) などを用いるものとしてもよい。

通信網１８は，情報を伝達するための物理的な経路とプロトコルが定められているものを用いる。例えば，インターネットなどのようなＩＰ(Internet Protocol) 通信可能なものであれば好適である。

サーバ１０には，コミュニティデータベース１１を搭載している。ここには，対象とするコミュニティサイト上で，ユーザによって形成されたコミュニティ，ユーザ，およびコンテンツの情報などが，ユニークに識別可能となるように格納されているものとする。コミュニティデータベース１１は，コミュニティに所属するユーザや，コンテンツが関連付けて検索できるシステムとなっていることが好ましく，例えば，ＲＤＢＭＳ(Relational Database Management System) であってもよい。

各種データの格納の方法は，さまざまな形態が考えられるが，固有識別可能な識別子（ＩＤ）を付与し，これをもって管理するものとしてもよい。ここで，コンテンツを画像とした場合の例として，図２〜図７に，ＩＤによってコミュニティデータ，ユーザデータ，画像データを格納した場合のテーブルの一例を示す。

図２は，コミュニティデータベース１１中に設けられるコミュニティテーブル２０の例を示している。コミュニティテーブル２０には，各コミュニティをユニークに識別するためのコミュニティＩＤ２１ａ〜２１ｎとコミュニティの名称２２ａ〜２２ｎとの対応情報が格納されている。

図３は，コミュニティデータベース１１中に設けられるユーザテーブル３０の例を示している。ユーザテーブル３０には，各ユーザをユニークに識別するユーザＩＤ３１ａ〜３１ｎとユーザの名称３２ａ〜３２ｎとの対応情報が格納されている。

図４は，コミュニティデータベース１１中に設けられるコンテンツテーブル４０の例を示している。コンテンツテーブル４０には，各コンテンツをユニークに識別するコンテンツＩＤ４１ａ〜４１ｎとコンテンツの名称４２ａ〜４２ｎとの対応情報が格納されている。また，Ｗｅｂなどの場合には，コンテンツデータとして，そのコンテンツの存在場所を示すＵＲＬ（Uniform Resource Locator）などを同時に格納して管理するものとしてよい。

さらに，コミュニティデータベース１１には，図５に示すように，コミュニティと，そのコミュニティに所属するユーザとを，コミュニティＩＤ５１ａ〜５１ｎとユーザＩＤ５２ａ〜５２ｎとの対応情報によって関連付ける情報が格納されたコミュニティ−ユーザテーブル５０と，図６に示すように，コミュニティと，そのコミュニティに所属するコンテンツとを，コミュニティＩＤ６１ａ〜６１ｎとコンテンツＩＤ６２ａ〜６２ｎとの対応情報によって関連付ける情報が格納されたコミュニティ−コンテンツテーブル６０と，図７に示すように，ユーザと，各ユーザが嗜好しているコンテンツとを，ユーザＩＤ７１ａ〜７１ｎとコンテンツＩＤ７２ａ〜７２ｎとの対応情報によって関連付ける情報が格納されたユーザ−コンテンツテーブル７０とが設置されている。

ここで，嗜好しているとは，例えばユーザが「過去に一定回数以上閲覧・視聴した」，あるいは，ユーザが気に入ったコンテンツを登録できる，いわば「お気に入り」システムが採用されているような場合には，ユーザが「お気に入りに登録している」といった情報を用いるものとする。

図８は，本発明の実施形態の一例における処理フローを示す図である。以下，図１に示すコミュニティ分類装置１０が実行する処理の詳細を，図８に従って説明する。

〔コミュニティ情報の抽出〕
まず，ステップＳ１において，コミュニティ情報抽出部１２が，コミュニティデータベース１１から，格納されている各種データを抽出し，コミュニティ情報を抽出する。抽出するコミュニティ情報は，以下のようなものである。
（１）Ｉｎｆｏ１：コミュニティに所属するユーザ群
（２）Ｉｎｆｏ２：コミュニティに所属するコンテンツ群
（３）Ｉｎｆｏ３：コミュニティに所属するユーザが嗜好するコンテンツ群
（４）Ｉｎｆｏ４：コミュニティに所属するコンテンツ群の特徴量
（５）Ｉｎｆｏ５：コミュニティに所属するユーザが嗜好するコンテンツ群の特徴量
（６）Ｉｎｆｏ６：コミュニティに所属するコンテンツ群の周辺文書群
（７）Ｉｎｆｏ７：コミュニティに所属するユーザが嗜好するコンテンツ群の周辺文書群
これらのコミュニティ情報を抽出するため，まず，コミュニティデータベース１１から，データを抽出しておく必要がある。この抽出の方法としては，例えば，コミュニティデータベース１１がＲＤＢＭＳによって構築されている場合には，ＳＱＬを用いることができる。図２〜図７の例に従って，その一例を説明する。

まず，コミュニティ名称が「日本の花」に所属している画像の名称を抽出する場合を説明する。例えば，ＳＱＬ規格ＳＱＬ：２００３に則った場合，以下のＳＱＬ文を実行すればよい。

［コミュニティ情報を抽出するＳＱＬ文の例］
ＳＥＬＥＣＴコンテンツテーブル．名称
ＦＲＯＭコンテンツテーブル
ＪＯＩＮコミュニティ−コンテンツテーブル
ＯＮコンテンツテーブル．コンテンツＩＤ＝コミュニティ−コンテンツテーブル．コンテンツＩＤ
ＪＯＩＮコミュニティテーブル
ＯＮコミュニティ−コンテンツテーブル．コミュニティＩＤ＝コミュニティテーブル．コミュニティＩＤ
ＷＨＥＲＥコミュニティテーブル．名称＝花
この結果として得られる出力には，少なくとも「ハイビスカス」，「梅」，「チューリップ」，「新宿御苑の桜」が含まれる。同様に，例えば，「ユーザＩＤが０００００２のユーザが所属するコミュニティの名称」や，「コンテンツ名称がチューリップであるコンテンツが所属するコミュニティに所属しているユーザの名称」など，図２〜図７に示した任意のデータに関連するデータを抽出することができる。この手続きによって，Ｉｎｆｏｌ〜Ｉｎｆｏ３はそれぞれ取得可能である。

また，Ｉｎｆｏ４，Ｉｎｆｏ５については，Ｉｎｆｏ２，Ｉｎｆｏ３によって取得したコンテンツ群に対して，特徴量抽出処理を実施する。特に不都合がない場合には，Ｉｎｆｏ４，Ｉｎｆｏ５は同様の方法によって抽出してよいため，以降に述べる方法は，断りがない限りＩｎｆｏ４，Ｉｎｆｏ５双方を抽出するために利用してよい。

抽出する特徴量は，コンテンツ同士の類似性を計測するのに適したものが好ましいが，これは，コンテンツが画像であるか，音声・音楽であるか，映像であるかなどによって変化させてもよい。

まず，画像である場合について説明する。特徴量としては，例えば，明るさや色，形状情報，テクスチャ情報などを用いることができる。例えば，明るさとしてはピクセル毎の輝度値や，色としてはＲＧＢからなるベクトル，形状情報としてはエッジ方向のヒストグラム，テクスチャ情報としてはコントラストを用いてもよい。このピクセル毎の輝度値は，必ずしもすべてのピクセルについて計算する必要はなく，例えば適当なブロック（縦５ピクセル×横５ピクセルなど）を用意し，この範囲のピクセル平均値などを求めるなどの工夫によって，抽出する値の数を削減してもよい。

これらの特徴量は，後に任意の２つの画像間の類似度を計算する際に画像サイズを合わせる必要が出てくるため扱いにくい場合もある。サイズ合わせが不要な特徴量を用いる必要がある場合には，例えば領域毎のＲＧＢヒストグラムや，ＨＳＶヒストグラム，あるいは，ＹＵＶヒストグラムを用いてもよいし，テクスチャ情報としてウェーブレット変換係数などを用いてもよい。あるいは，下記の参考文献１に記載のＳＩＦＴ(Scale Invariant Feature Transform) を用いたＶｉｓｕａｌｗｏｒｄヒストグラムを用いるものとしてもよい。ＳＩＦＴを用いた場合には，スケール変換や位置，オリエンテーションに不変な局所特徴量を抽出できるという利点がある。

［参考文献１］：G.Csurka, C.R.Dance, L.Fan, J.Willamowski, C.Bray,“Visual Categorization with Bags of Keypoints”，In Proceedings of ECCV Workshop on Statistical Learning in Computer Vision, pp.59-74, 2004．
音声・音楽の特徴量を抽出する場合には，例えば音響信号にＦＦＴ（Fast Fourier Transform）を掛け，周波数スペクトルを抽出する。あるいは，ケプストラム分析を実施し，ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）を求めてもよい。また，これらの音韻情報だけでなく，音高，音量などの韻律情報を用いてもよい。

映像である場合には，動画像（フレーム画像系列）と音声・音楽信号の双方を含んでいる。音声・音楽に関しては，前述の音声・音楽の場合と同様に，周波数スペクトルや，ＭＦＣＣ，韻律情報を求めるものとする。動画像に対しては，例えば前述の画像の特徴量を，すべてのフレーム画像にわたって計算するものとしてもよい。また，すべてのフレーム画像にわたって計算することが困難な場合には，適当な間隔，例えば５フレーム画像毎などに計算するものとしてもよく，これによって抽出する値の数を削減することができる。

また，動画像や音声・音楽をインデクシングし，抽出されたインデクスを利用するものとしてもよい。インデクシング結果を用いた場合の特徴量抽出方法の一例について説明する。

インデクスとしては，任意のものを用いてよい。動画像であれば，例えば下記の参考文献２に記載の技術を用いて，動画像中のカット点を用いるものとしてもよいし，参考文献３に記載の技術を用いて，カメラの動きを用いるものとしてもよい。あるいは，参考文献４に記載の技術を用い，動画像中に含まれる文字列（テロップ）を用いるものとしてもよい。

［参考文献２］：特開平０８−２１４２１０号公報
［参考文献３］：特開平１１−１５９５３号公報
［参考文献４］：特開２００１−７６０９４号公報
また，音声・音楽であれば，例えば下記の参考文献５に記載の音声・音楽や，参考文献６に記載の感情などを用いるものとしてもよい。

［参考文献５］：谷口行信，南憲一，佐藤隆，桑野秀豪，児島治彦，外村佳伸，“ＳｃｅｎｅＣａｂｉｎｅｔ：映像解析技術を統合した映像インデクシングシステム”，電子情報通信学会論文誌，D-II, Vol.J84-D-II, No.6, pp.1112-1121, 2001年 6月．
［参考文献６］：ＷＯ／２００８／０３２７８７
抽出されたインデクスを，特徴量として記述する場合には，例えばインデクスが検出された時間順序を保持した離散ベクトルとして扱う。

この処理は，シンボル時系列生成部１２ａによって実行される。図９を用いて，この処理の一例を詳述する。まず，映像（ビデオ）９１を，予め定めた時間間隔に分割する。この時間間隔は任意のものでよく，例えば３秒毎などと定めればよい。図９の例では，元の映像９１が１２個の区間（Ｖ１，Ｖ２，Ｖ３，…，Ｖ１２）に分割されている。

図９では，検出するインデクスとして，カット点（ｃｔ），カメラ動作（ｃｍ），文字列（ｃｈ），音声（ｓｐ），音楽（ｍｕ），笑い声（ｌａ）の６種のインデクスを，前述の技術によって検出した。区間Ｖ１，Ｖ２，Ｖ３，…，Ｖ１２のそれぞれの区間内に，インデクシング結果９２が検出されたとする。図中，黒のボックスがある部分が該当のインデクスが検出された区間である。

検出の後，区間毎にインデクスの有無を２値化したものを要素に持つベクトルを生成し，これを時系列順に並べたインデクス時系列９３を生成する。最後に，検出されたインデクス時系列９３を，シンボル変換表に基づいて，シンボル時系列９４に変換し，これを特徴量とする。

シンボル変換表とは，インデクス時系列をシンボル時系列に変換する際の規則を定めた表である。図１０に，シンボル変換表の一例を示す。この例では，図９の場合と同様，インデクスとしては前述の６種を用いている。

インデクス時系列の各区間におけるベクトルは，１か０の値を要素に持つベクトルとして生成されるため，ベクトルの長さ（インデクスの数）をｋとすれば，ベクトルの取り得る値の場合の数は２^k通りである。したがって，図１０では，２⁶＝６４通りの場合がありえる。シンボルは，これらの場合の数をユニークに識別するＩＤであり，例えばアルファベット（Ａ，Ｂ，Ｃ，…，Ｚ，ＡＡ，ＡＢ，…）を利用してもよい。あるいは，整数で与えるものとしてもよい。以上の処理によって，Ｉｎｆｏ４，Ｉｎｆｏ５の特徴量を抽出することができる。

続いて，Ｉｎｆｏ６，Ｉｎｆｏ７の特徴量についての抽出方法を説明する。Ｉｎｆｏ６，Ｉｎｆｏ７については，Ｉｎｆｏ２，Ｉｎｆｏ３によって取得したコンテンツ群に対して，周辺にある文書を抽出する。特に不都合がない場合には，Ｉｎｆｏ６，Ｉｎｆｏ７は同様の方法によって抽出してよいため，以降，述べる方法は，断りがない限りＩｎｆｏ６，Ｉｎｆｏ７双方を抽出するために利用してよい。

抽出する文書の例としては，例えばコンテンツのタイトルや，説明文を用いることができる。また，一般的なコミュニティサイトでは，コンテンツの内容などを表す短い単語をタグとして付与したり，コンテンツのカテゴリ（例えば，スポーツ，ＰＯＰＳなど）を設定したりすることができる場合もある。あるいは，コンテンツに付与された視聴者のコメントなども用いることができる。これらは，予めコミュニティデータベース１１中のコンテンツテーブル４０などに格納しておくものとしてもよい。

また，その他のコンテンツがＷｅｂサイトに公開されている場合，コンテンツは，ＨＴＭＬ（Hyper Text Markup Language）やＸＭＬ（eXtensible Markup Language）などの，マークアップ言語内に埋め込まれている。例えば，ＨＴＭＬである場合には，画像については＜ｉｍｇ＞タグ，音楽や画像については＜Ｏｂｊｅｃｔ＞タグや＜ｅｍｂｅｄ＞タグ内などにあることが多い。そこで，これらの周辺に記述されているテキスト文書を抽出対象とするものとしてもよい。

抽出したテキスト文書は自然文であるため，この文書から語句を抽出する。語句の抽出には，例えば形態素解析を実施すればよい。タグは，既に語句として付与されている場合が多く，この場合には特に形態素解析などを用いる必要はない。これらの抽出された語句に対して，それぞれの語句の重みを計算する。重みの計算の仕方は，例えばｔｆ−ｉｄｆ(Term Frequency-Inverse Document Frequency) 法を用いることができる。これらの方法によって，各語句の重みを計算した後，これらの語句の重みを用いて，文書ベクトルを生成し，これを特徴量とすればよい。これらの処理を，コミュニティデータベース１１に格納されているすべてのコミュニティに対して実行するものとする。

以上が，コミュニティ情報抽出部１２がコミュニティデータベース１１から，格納されている各種データを抽出し，コミュニティ情報を抽出する処理の詳細である。この例では，コミュニティデータベース１１に格納されているすべてのデータを用いて，コミュニティ情報を抽出する場合について述べた。しかしながら，必ずしもすべてのデータを用いてコミュニティ情報を抽出する必要はなく，例えば過去のある特定の時間区間のみに着目し，この時間区間内にコミュニティデータベース１１に登録されたデータのみを用いるものとしてもよい。

例えば現在〜１年前，１年前〜２年前，２年前〜３年前，…などと，時間区間を分けて情報を抽出することによって，後述する処理により分類されるコミュニティが，時間を追ってどのように移り変わるかという情報の提供に役に立つ。このような分類結果の提示によって，例えば最新のコミュニティの情報に基づく分類結果や，これまでの経緯を踏まえた分類結果など，ユーザの目的に応じた観点からの分類結果を提示することができる。

各種特徴量は，コンテンツが変化しない限り不変であるので，例えば，再計算を省くため，一度抽出した特徴量や，高い頻度で抽出が要求されるコンテンツの特徴量は，コンテンツテーブル４０内にコンテンツＩＤ４１ａ〜４１ｎと対応付けて格納しておくことによって，処理時間コストを削減することが可能である。

〔コミュニティの類似度計算〕
次に，ステップＳ２において，コミュニティ類似度計算部１３が，ステップＳ１で抽出したコミュニティ情報に基づき，任意の二つのコミュニティ間の類似度値を計算する。以降，この処理の一例について詳述する。

類似度の計算は，Ｉｎｆｏ１〜Ｉｎｆｏ７のそれぞれに対して，個別にその類似度を計算し，後に各計算結果を統合して，類似度を計算するものとしてよい。以降，コミュニティＡとコミュニティＢの，異なるコミュニティの類似度を計算する場合について，コミュニティＡのコミュニティ情報をＩｎｆｏ１（Ａ）〜Ｉｎｆｏ７（Ａ），コミュニティＢのコミュニティ情報をＩｎｆｏ１（Ｂ）〜Ｉｎｆｏ７（Ｂ）と表して説明する。Ｉｎｆｏ１（Ａ）〜Ｉｎｆｏ７（Ａ）と，Ｉｎｆｏ１（Ｂ）〜Ｉｎｆｏ７（Ｂ）から計算する各類似度を，それぞれＳｉｍ１（Ａ，Ｂ）〜Ｓｉｍ７（Ａ，Ｂ）とおき，それぞれの計算方法の一例を示す。

［Ｓｉｍ１（Ａ，Ｂ）の計算］
図１１を用いて，Ｓｉｍ１（Ａ，Ｂ）の計算方法の一例を説明する。Ｓｉｍ１（Ａ，Ｂ）は，コミュニティに所属するユーザ群のコミュニティ情報Ｉｎｆｏ１を用いて計算する類似度である。図１１の例では，コミュニティＡに所属するユーザが１０名，コミュニティＢに所属するユーザが８名，双方に所属するユーザが５名いる。このとき，本実施形態の一例では，Ｓｉｍ１（Ａ，Ｂ）を，以下の式によって計算する。

Ｓｉｍ１（Ａ，Ｂ）＝Ｊａｃｃａｒｄ（Ｉｎｆｏ１（Ａ），Ｉｎｆｏ１（Ｂ））
ここで，Ｊａｃｃａｒｄ（Ｉｎｆｏ１（Ａ），Ｉｎｆｏ１（Ｂ））は，集合の要素数を表す＃｛・｝を用いて，次式によって表される。

Ｊａｃｃａｒｄ（Ｉｎｆｏ１（Ａ），Ｉｎｆｏ１（Ｂ））＝＃｛Ｉｎｆｏ１（Ａ）∩Ｉｎｆｏ１（Ｂ）｝／＃｛Ｉｎｆｏ１（Ａ）∪Ｉｎｆｏ１（Ｂ）｝
すなわち，これはコミュニティＡとコミュニティＢに属するユーザ数の全体（重複を許さない）に対する，コミュニティＡとコミュニティＢ双方に属するユーザ数の割合である。図１１の例では，Ｓｉｍ１（Ａ，Ｂ）＝５／１３≒０．３８となる。

［Ｓｉｍ２（Ａ，Ｂ）の計算］
図１２に基づいて，Ｓｉｍ２（Ａ，Ｂ）の計算方法の一例を説明する。Ｓｉｍ２（Ａ，Ｂ）は，コミュニティに所属するコンテンツ群のコミュニティ情報Ｉｎｆｏ２を用いて計算する類似度である。ここで説明するＳｉｍ２（Ａ，Ｂ）の計算手順は，Ｓｉｍ１（Ａ，Ｂ）と概ね同じである。

図１２の例では，コミュニティＡに所属するコンテンツが１２個，コミュニティＢに所属するコンテンツが１５個，双方に所属するコンテンツが６個ある。このとき，本実施形態の一例では，Ｓｉｍ２（Ａ，Ｂ）を，以下の式によって計算する。

Ｓｉｍ２（Ａ，Ｂ）＝Ｊａｃｃａｒｄ（Ｉｎｆｏ２（Ａ），Ｉｎｆｏ２（Ｂ））
これはコミュニティＡとコミュニティＢに属するコンテンツ数の全体（重複を許さない）に対する，コミュニティＡとコミュニティＢ双方に属するコンテンツ数の割合である。図１２の例では，Ｓｉｍ２（Ａ，Ｂ）＝６／２１≒０．２９となる。

［Ｓｉｍ３（Ａ，Ｂ）の計算］
図１３に基づいて，Ｓｉｍ３（Ａ，Ｂ）の計算方法の一例を説明する。Ｓｉｍ３（Ａ，Ｂ）は，コミュニティに所属するユーザが嗜好するコンテンツ群のコミュニティ情報Ｉｎｆｏ３を用いて計算する類似度である。図１３の例では，各コミュニティに所属するユーザが嗜好するコンテンツを，ユーザからコンテンツヘの有向リンクとして表現している。コミュニティＡに属するユーザ数は，重複を許して４，コミュニティＢは同じく３であり，これらのユーザから嗜好されている（リンクが張られている）コンテンツ群を表すＩｎｆｏ３（Ａ）∪Ｉｎｆｏ３（Ｂ）には，１３１〜１３５の５つのコンテンツが含まれている。

また，コミュニティＡおよびコミュニティＢのそれぞれのユーザからのリンク数を個別に数えた結果を，図中括弧内に「（コミュニティＡのユーザからリンク数，コミュニティＢのユーザからのリンク数）」で記載しており，例えばコンテンツ１３１では（２，０），コンテンツ１３２では（４，１）となっている。

本実施形態の一例では，Ｓｉｍ３（Ａ，Ｂ）を，以下の式によって計算する。

ここで，ｃｊは，コンテンツを表し，＃｛ｃｊ∈Ｉｎｆｏ３（Ａ）∪Ｉｎｆｏ３（Ｂ）｝は，Ｉｎｆｏ３（Ａ）∪Ｉｎｆｏ３（Ｂ）に含まれるコンテンツ数，＃｛ｌｉｎｋ（Ｘ→ｃｊ）｝はコミュニティＸに属するユーザＩｎｆｏ１（Ａ）から，コンテンツｃｊヘのリンク数，＃｛Ｉｎｆｏ１（Ｘ）｝は，コミュニティＸに属するユーザ数を表す。

図１３の例では，Ｓｉｍ３（Ａ，Ｂ）＝１−１／５×（｜２／４−０｜＋｜４／４−１／３｜＋｜２／４−１／３｜＋｜１／４−２／３｜＋｜０−２／３｜）≒０．５２となる。

［Ｓｉｍ４（Ａ，Ｂ）の計算］
Ｓｉｍ４（Ａ，Ｂ）は，コンテンツの種類や，抽出した特徴量に合わせて，適切な計算方法を適用することが好ましい。以下では，まずＳｉｍ４（Ａ，Ｂ）の基本的な計算手順を述べた後，コンテンツの種類や，特徴量の場合についての詳細な説明を行う。

Ｓｉｍ４（Ａ，Ｂ）を計算する基本的な計算手順の一例は，次のとおりである。Ｓｉｍ４（Ａ，Ｂ）は，コミュニティに所属するコンテンツ群の特徴量のコミュニティ情報Ｉｎｆｏ４を用いて計算する類似度である。

Ｉｎｆｏ４（Ａ）に含まれるコンテンツＡｃと，Ｉｎｆｏ４（Ｂ）に含まれるコンテンツＢｃのあり得るペアの場合の数は，＃｛Ｉｎｆｏ４（Ａ）｝×＃｛Ｉｎｆｏ４（Ｂ）｝である。

このすべてのペアについて，コンテンツや特徴量毎に定めた距離Ｄｉｓｔ（Ａｃ，Ｂｃ）を計算し，これが予め定めた闇値以下となったペアの数をＮとする。このとき，Ｓｉｍ４（Ａ，Ｂ）を以下の式によって求める。

Ｓｉｍ４（Ａ，Ｂ）＝Ｎ／（＃｛Ｉｎｆｏ４（Ａ）｝×＃｛Ｉｎｆｏ４（Ｂ）｝）
距離Ｄｉｓｔ（Ａｃ，Ｂｃ）は，コンテンツの種類，特徴量の種類ごとに適切なものを用いればよい。

例えばコンテンツが画像で，特徴量としてピクセル毎の輝度値，もしくはＲＧＢを用いた場合には，Ｄｉｓｔ（Ａｃ，Ｂｃ）は，Ａｃ，Ｂｃ間のピクセル値の平均自乗差を，全ピクセルにわたり平均した値などとすればよい。

また，例えば特徴量として，ＲＧＢヒストグラム，ＨＳＶヒストグラム，ＹＵＶヒストグラム，上述した参考文献１に記載のＳＩＦＴを用いたＶｉｓｕａｌｗｏｒｄヒストグラムを用いた場合などには，ヒストグラム距離を用いることができる。

コンテンツが音声・音楽である場合にも，特徴量として，例えばＦＦＴ周波数スペクトルを用いたときには，各周波数におけるスペクトル強度の平均自乗誤差について，周波数方向・時間方向に平均した値をＤｉｓｔ（Ａｃ，Ｂｃ）とすることができ，また，例えばＭＦＣＣを用いたときには，ケプストラム距離を適用できる。

コンテンツが映像である場合には，先の画像，音声・音楽に述べた特徴量と同じものであれば，同様の計算方法を適用してよい。

また，動画像や音声・音楽をインデクシングし，抽出されたインデクスを利用した場合には，シンボル時系列類似度計算部１３ａが，２つのシンボル時系列間の類似度を計算する。

Ａｃ，Ｂｃ共に，シンボル時系列が得られている。このとき，これら２つのシンボル時系列の距離を定めるＤｉｓｔ（Ａｃ，Ｂｃ）としては，例えば，ＤＰ(Dynamic Programming) マッチングなどを用いた，レーベンシュタイン距離などを用いることができる。

さらに，類似度を計算する際に，シンボル時系列を複数の部分シンボル時系列に分割して評価するものとしてもよい。この分割の仕方としては，次のようなものが考えられる。例えば，すべての要素が０であることを表すシンボルの部分（図１０の例では，シンボルＡ）は，元の映像中には何のインデクスも含まれていない部分であり，映像中の意味的な切れ目を表す可能性がある。そこで，この部分を境界として，映像を分割することが考えられる。

あるいは，特定のインデクスを必ず境界とするものとしてもよい。特にカット点は，映像の構造を規定する基本単位であるショットを定める境界として用いられることが多いため，これを用いるものとしてもよい。

これらの分割によって，元のシンボル時系列Ａｃ，Ｂｃが，それぞれ｛Ａｃｌ，Ａｃ２，Ａｃ３，…，Ａｃｎ｝，（Ｂｃｌ，Ｂｃ２，Ｂｃ３，…，Ｂｃｍ）に分割されたとすると，これらの集合間の要素のすべてのペアに対して，例えば，レーベンシュタイン距離やＨＭＭによる尤度を計算し，これらの平均値をＳｉｍ４（Ａ，Ｂ）とするものとしてもよい。

［Ｓｉｍ５（Ａ，Ｂ）の計算］
Ｓｉｍ５（Ａ，Ｂ）は，コミュニティに所属するユーザが嗜好するコンテンツ群の特徴量のコミュニティ情報Ｉｎｆｏ５を用いて計算する類似度である。このＳｉｍ５（Ａ，Ｂ）は，おおよそＳｉｍ４（Ａ，Ｂ）と同様の手続きで求めることができる。すなわち，Ｉｎｆｏ５（Ａ）に含まれるコンテンツＡｃと，Ｉｎｆｏ５（Ｂ）に含まれるコンテンツＢｃのあり得るペアの場合の数＃｛Ｉｎｆｏ５（Ａ）｝×＃｛Ｉｎｆｏ５（Ｂ）｝と，このすべてのペアについて，コンテンツや特徴量毎に定めた距離Ｄｉｓｔ（Ａｃ，Ｂｃ）を計算し，これが予め定めた閾値以下となったペアの数Ｎとによって，次式によって計算できる。

Ｓｉｍ５（Ａ，Ｂ）＝Ｎ／（＃｛Ｉｎｆｏ５（Ａ）｝×＃｛Ｉｎｆｏ５（Ｂ）｝）
距離Ｄｉｓｔ（Ａｃ，Ｂｃ）も，Ｓｉｍ４（Ａ，Ｂ）の計算で述べたものと同様のものを用いればよい。

［Ｓｉｍ６（Ａ，Ｂ）の計算］
Ｓｉｍ６（Ａ，Ｂ）は，コミュニティに所属するコンテンツ群の周辺文書群のコミュニティ情報Ｉｎｆｏ６を用いて，文書ベクトル間の距離，あるいは傾きを算出することにより求める。

まず，Ｉｎｆｏ６（Ａ）に含まれる文書Ａｔとその文書ベクトルｖ（Ａｔ）と，Ｉｎｆｏ６（Ｂ）に含まれる文書Ｂｔとその文書ベクトルｖ（Ｂｔ）との，あり得るペアの場合の数は，＃｛Ｉｎｆｏ６（Ａ）｝×＃｛Ｉｎｆｏ６（Ｂ）｝である。このすべてのペアについて，文書ベクトルの傾きＣｏｓ（Ａｔ，Ｂｔ）を，
Ｃｏｓ（Ａｔ，Ｂｔ）＝ｖ（Ａｔ）・ｖ（Ｂｔ）／（｜ｖ（Ａｔ）｜｜ｖ（Ｂｔ｜）
によって計算し，これが予め定めた閾値以上となったペアの数Ｎによって，次式を用いて計算できる。

Ｓｉｍ６（Ａ，Ｂ）＝Ｎ／（＃｛Ｉｎｆｏ６（Ａ）｝×＃｛Ｉｎｆｏ６（Ｂ）｝）
［Ｓｉｍ７（Ａ，Ｂ）の計算］
Ｓｉｍ７（Ａ，Ｂ）は，コミュニティに所属するユーザが嗜好するコンテンツ群の周辺文書群のコミュニティ情報Ｉｎｆｏ７を用いて計算する類似度である。Ｓｉｍ７（Ａ，Ｂ）についても，Ｓｉｍ６（Ａ，Ｂ）の計算と同様の方法によって計算でき，上述の場合と同様，次式によって求めることができる。

Ｓｉｍ７（Ａ，Ｂ）＝Ｎ／（＃｛Ｉｎｆｏ７（Ａ）｝×＃｛Ｉｎｆｏ７（Ｂ）｝）
以上がＳｉｍ１（Ａ，Ｂ）〜Ｓｉｍ７（Ａ，Ｂ）の計算方法の一例であるが，必ずしも上記のものでなくともよく，このほか，類似性を測るための適切な方法であれば，任意のものを用いることができる。

計算したＳｉｍ１（Ａ，Ｂ）〜Ｓｉｍ７（Ａ，Ｂ）を用いて，コミュニティＡ，コミュニティＢの最終的な類似度Ｓｉｍ（Ａ，Ｂ）を計算する。

例えば次式で表されるように，Ｓｉｍ１（Ａ，Ｂ）〜Ｓｉｍ７（Ａ，Ｂ）の線形結合で求めるものとしてもよい。

Ｓｉｍ（Ａ，Ｂ）＝Σ_k=1 ⁷（ａ_k×Ｓｉｍ k（Ａ，Ｂ））
Σ_k=1 ⁷ａ_k＝１
ａ_kの値は，制約を満たす範囲で任意の値としてよい。

あるいは，線形結合ではなく，非線形結合によって計算するものとしてもよく，例えば，ＳＶＭ（Support Vector Machine）や，ＭＬＰ（Multi Layer Perceptron）などを用いるものとしてもよい。

以上，説明した処理を，任意の２つのコミュニティ間に適用することで，それらの類似度を計算することができる。

〔コミュニティのクラスタリング〕
次に，ステップＳ３において，コミュニティクラスタリング部１４が，コミュニティ間の類似度に基づいて，すべてのコミュニティを類似するコミュニティの集合にクラスタリングする。

この方法の一例としては，例えば階層的クラスタリングの方法を用いることができる。コミュニティデータベース１１に登録されているコミュニティには，任意の２つのコミュニティ間の類似度Ｓｉｍ（Ａ，Ｂ）が計算されている。このため，例えば参考文献７に記載されている階層型クラスタリングの一種である凝集型階層的クラスタリングを用いることによって，図１４に一例として示すようなデンドログラムを描くことができる。

［参考文献７］：R.O.Duda, P.E.Hart, D.G.Stork,“パターン識別 10.9 階層クラスタリング”，尾上守夫（監訳），pp.552-558, 新技術コミュニケーションズ, 2001．
図１４のデンドログラムは，類似度が大きいものから順に同じクラスタに集約されていく様子を示したものである。したがって，デンドログラム下部で結合されているほど類似したクラスタであり，上部で結合されているクラスタほど類似していないクラスタであることを意味する。

また，このほか，Ｋ−Ｍｅａｎｓ法などのクラスタリング法を適用するものとしてもよい。以上の処理によって，クラスタリングを実行することが可能である。

〔分類結果の提示〕
次に，ステップＳ４において，クラスタリング深度決定部１５が，クラスタリング深度を決定し，これに基づいて，分類結果出力部１６が，分類結果を出力・提示する。

クラスタリング深度とは，図１４のような，クラスタリングの結果得られたデンドログラムの，どの高さでクラスタリング結果を提示するかを定める類似度の閾値である。

図１４のデンドログラムを例に説明する。図１５に示すように，類似度が０．５の付近をクラスタリング深度とすれば，Ｃｌｓ１，Ｃｌｓ２，Ｃｌｓ３の３つのクラスタが，コミュニティの分類結果として提示される。同じデンドログラムであっても，図１６に示すように，類似度が０．７の付近をクラスタリング深度とすれば，Ｃｌｓ１，Ｃｌｓ２，…，Ｃｌｓ６の６つのクラスタが提示されることとなる。

提示するクラスタは，特にすべてを表示する必要はなく，例えばユーザが指定したポイントと，その近傍のクラスタだけを提示するものとしてもよい。また，本実施形態の一例では，クラスタリング深度は，予め定めておくものとしてもよいし，ユーザの希望するクラスタリング深度を入力させて決定するものとしてもよい。

特に，ユーザがインタラクティブにクラスタリング深度を変化させることで，提示結果を変化させることができるインタフェースを用いた場合には，最初は深度を低く，０．３程度に設定して，大まかなクラスタを確認したのち，興味のあるクラスタの周辺のみを，高い深度で詳細化するといった，効率的な提示手段を提供できる。

提示する際には，各クラスタに含まれるコミュニティにおいて，生起頻度の高い語句や，文書を合わせて提示するものとしてもよい。

例えば，クラスタＣｌｓ１に属するコミュニティが，「サル」，「犬」，「ゴリラ」などであった場合，これらのコミュニティ情報Ｉｎｆｏ６，Ｉｎｆｏ７には，「動物」という語句が高い頻度で出現していると考えられる。そこで，このクラスタＣｌｓ１に，「動物」という名称を与え，同時に提示することで，ユーザに対してそのクラスタにどのようなコミュニティが存在するかを把握しやすくさせることができる。この名称は，必ずしも単一の語句である必要はなく，重要語のうち，生起頻度の高いいくつかを選定し，提示することとしてもよい。

また，このような名称を与えることによって，図１７に示すように，クラスタの階層構造１７１を表示し，希望のクラスタを選択することによって，当該クラスタに含まれるコミュニティや，これらのコミュニティに含まれるコンテンツ，ユーザ情報などを提示領域１７２に表示すれば，ユーザにとって，有益で利用しやすい情報提供が可能である。

あるいは，図１８に示すように，クラスタを名称と共に２次元探索空間１８１上に図形的に配置して提示すれば，ユーザにとってさらに見やすい結果となる。この２次元探索空間１８１では，ユーザがポインティングデバイスによって，表示するクラスタの位置やクラスタリング深度を自在に操作でき，ポインティングした位置に応じて，当該ポイントに存在する付近のコミュニティや，これらのコミュニティに含まれるコンテンツ，ユーザ情報などを，提示領域１８２に提示する。２次元探索空間１８１における上部に表示されたバーが，クラスタリング深度を指示するためのバーである。

上記以外にもさまざまな分類の仕方は存在するが，適宜適当な形態を取ってよいことは言うまでもない。

なお，本実施形態の一例のコミュニティ分類方法における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し，そのプログラムを，コンピュータを用いて実行して本発明を実現することができる。

以上，本発明の実施形態の一例について説明したが，本発明は以上説明した実施形態の一例に限定されるものでなく，特許請求の範囲の各請求項に記載した技術的範囲において各種の変形を行うことが可能である。

例えば生成された分類結果の情報を含む，ＸＭＬ（eXtensible Markup Language）データを生成してもよい。汎用的なＸＭＬデータであれば本発明により生成される出力結果の利用性を高めることができる。

１０コミュニティ分類装置（サーバ）
１１コミュニティデータベース
１２コミュニティ情報抽出部
１２ａシンボル時系列生成部
１３コミュニティ類似度計算部
１３ａシンボル時系列類似度計算部
１４コミュニティクラスタリング部
１５クラスタリング深度決定部
１６分類結果出力部
１７−１〜１７−３端末
１８通信網

Claims

マルチメディアコンテンツを共有または公開するコミュニティサイトに登録されているコミュニティを分類するコミュニティ分類装置であって，
前記コミュニティサイトに登録されているコミュニティ，前記コミュニティに所属するユーザおよび前記コミュニティに所属するコンテンツのデータを格納したコミュニティデータベースと，
前記コミュニティのコミュニティ情報として，前記コミュニティデータベースから，コミュニティに所属するユーザ群，コミュニティに所属するコンテンツ群，コミュニティに所属するコンテンツ群の特徴量，コミュニティに所属するユーザが嗜好するコンテンツ群，コミュニティに所属するユーザが嗜好するコンテンツ群の特徴量，コミュニティに所属するコンテンツ群の周辺文書群，コミュニティに所属するユーザが嗜好するコンテンツ群の周辺文書群のうち，少なくとも１つを抽出するコミュニティ情報抽出部と，
前記コミュニティ情報抽出部が抽出した第一のコミュニティのコミュニティ情報と，第二のコミュニティのコミュニティ情報とを比較し，予めコミュニティ情報の種類毎に定められた類似度の計算式に従って類似度を計算するコミュニティ類似度計算部と，
すべてのコミュニティ間の類似度に基づいて，類似するコミュニティを分類し，出力するコミュニティクラスタリング部とを備える
ことを特徴とするコミュニティ分類装置。
請求項１記載のコミュニティ分類装置において，
さらに，予め定められた分類閾値，あるいは，ユーザから指定された分類閾値に基づいて分類基準を定めるコミュニティクラスタリング深度決定部を備える
ことを特徴とするコミュニティ分類装置。
請求項１または請求項２記載のコミュニティ分類装置において，
前記コミュニティ情報抽出部は，一定の時間区間に前記コミュニティデータベースに登録された情報のみに基づいて，前記コミュニティ情報を抽出する
ことを特徴とするコミュニティ分類装置。
請求項１，請求項２または請求項３記載のコミュニティ分類装置において，
前記コミュニティクラスタリング部が分類したコミュニティの分類結果を，分類されたコミュニティに含まれるコンテンツの情報またはユーザの情報とともに出力する分類結果出力部を備える
ことを特徴とするコミュニティ分類装置。
マルチメディアコンテンツを共有または公開するコミュニティサイトに登録されているコミュニティ，前記コミュニティに所属するユーザおよび前記コミュニティに所属するコンテンツのデータを格納したコミュニティデータベースを備えるコミュニティ分類装置が，前記コミュニティサイトに登録されているコミュニティを分類するコミュニティ分類方法であって，
前記コミュニティのコミュニティ情報として，前記コミュニティデータベースから，コミュニティに所属するユーザ群，コミュニティに所属するコンテンツ群，コミュニティに所属するコンテンツ群の特徴量，コミュニティに所属するユーザが嗜好するコンテンツ群，コミュニティに所属するユーザが嗜好するコンテンツ群の特徴量，コミュニティに所属するコンテンツ群の周辺文書群，コミュニティに所属するユーザが嗜好するコンテンツ群の周辺文書群のうち，少なくとも１つを抽出するコミュニティ情報抽出ステップと，
前記コミュニティ情報抽出ステップにより抽出した第一のコミュニティのコミュニティ情報と，第二のコミュニティのコミュニティ情報とを比較し，予めコミュニティ情報の種類毎に定められた類似度の計算式に従って類似度を計算するコミュニティ類似度計算ステップと，
すべてのコミュニティ間の類似度に基づいて，類似するコミュニティを分類し，出力するコミュニティクラスタリングステップとを有する
ことを特徴とするコミュニティ分類方法。
請求項５記載のコミュニティ分類方法において，
さらに，予め定められた分類閾値，あるいは，ユーザから指定された分類閾値に基づいて分類基準を定めるコミュニティクラスタリング深度決定ステップを有する
ことを特徴とするコミュニティ分類方法。
請求項５または請求項６記載のコミュニティ分類方法において，
前記コミュニティ情報抽出ステップでは，一定の時間区間に前記コミュニティデータベースに登録された情報のみに基づいて，前記コミュニティ情報を抽出する
ことを特徴とするコミュニティ分類方法。
請求項５，請求項６または請求項７記載のコミュニティ分類方法において，
前記コミュニティクラスタリングステップで分類したコミュニティの分類結果を，分類されたコミュニティに含まれるコンテンツの情報またはユーザの情報とともに出力する分類結果出力ステップを有する
ことを特徴とするコミュニティ分類方法。
請求項５から請求項８までのいずれか１項に記載のコミュニティ分類方法を，コンピュータに実行させるためのコミュニティ分類プログラム。