JP2010282544A - コミュニティ分類装置,コミュニティ分類方法およびコミュニティ分類プログラム - Google Patents
コミュニティ分類装置,コミュニティ分類方法およびコミュニティ分類プログラム Download PDFInfo
- Publication number
- JP2010282544A JP2010282544A JP2009137101A JP2009137101A JP2010282544A JP 2010282544 A JP2010282544 A JP 2010282544A JP 2009137101 A JP2009137101 A JP 2009137101A JP 2009137101 A JP2009137101 A JP 2009137101A JP 2010282544 A JP2010282544 A JP 2010282544A
- Authority
- JP
- Japan
- Prior art keywords
- community
- information
- content
- user
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
【課題】画像,音声・音楽,映像を共有するコミュニティサイトにおいて,ユーザにとって利便性に優れた適切なコミュニティの分類を実現する。
【解決手段】コミュニティ情報抽出部12は,コミュニティ,ユーザおよびコンテンツのデータを格納したコミュニティデータベース11から,コミュニティに所属するユーザ群やコンテンツ群やその特徴量,ユーザが嗜好するコンテンツ群やその特徴量,コンテンツ群の周辺文書群,ユーザが嗜好するコンテンツ群の周辺文書群などをコミュニティ情報として抽出する。コミュニティ類似度計算部13は,二つの異なるコミュニティのコミュニティ情報からそれらの類似度を計算し,その結果をもとに,コミュニティクラスタリング部14は,コミュニティを分類する。
【選択図】図1
【解決手段】コミュニティ情報抽出部12は,コミュニティ,ユーザおよびコンテンツのデータを格納したコミュニティデータベース11から,コミュニティに所属するユーザ群やコンテンツ群やその特徴量,ユーザが嗜好するコンテンツ群やその特徴量,コンテンツ群の周辺文書群,ユーザが嗜好するコンテンツ群の周辺文書群などをコミュニティ情報として抽出する。コミュニティ類似度計算部13は,二つの異なるコミュニティのコミュニティ情報からそれらの類似度を計算し,その結果をもとに,コミュニティクラスタリング部14は,コミュニティを分類する。
【選択図】図1
Description
本発明は,画像,音声・音楽,映像を共有・公開するコミュニティサイトにおいて,コミュニティサイトに登録されているコミュニティを分類するコンピュータの応用技術に関するものである。
ブロードバンドの普及に伴い,画像や音声・音楽,映像などのマルチメディアコンテンツを共有・公開可能なコミュニティサイトの利用が盛んになった。コミュニティサイトを利用するユーザは,
(1)興味のある話題や,画像,音声・音楽,映像コンテンツが共通するユーザ同士で,コミュニティと呼ばれるグループを形成する,
(2)自分が所属するコミュニティにコンテンツを公開したり,公開されたコンテンツに対する意見交換や感想を述べたりするなどのコミュニケーションをとる,
などといった行為を楽しむことができる。
(1)興味のある話題や,画像,音声・音楽,映像コンテンツが共通するユーザ同士で,コミュニティと呼ばれるグループを形成する,
(2)自分が所属するコミュニティにコンテンツを公開したり,公開されたコンテンツに対する意見交換や感想を述べたりするなどのコミュニケーションをとる,
などといった行為を楽しむことができる。
通常,新しいコミュニティを作成したり,既存のコミュニティに参加したりすることは,どのユーザであっても自由に行うことができる場合が多い。したがって,膨大な数のユニークユーザを持つコミュニティサイトでは,それに伴って,コミュニティの数も膨大な数にのぼっており,今現時点で,どのようなコミュニティが存在するかをすべて把握することは,事実上不可能である。このことは,次のような問題を引き起こす。
(1)既存のコミュニティに,新たに参加しようとするユーザにとって,興味のあるコミュニティを発見することが難しい。
(2)類似するコミュニティが既に存在していることに気づかないユーザが,同様のコミュニティを新たに形成してしまう。この結果,類似するコミュニティが乱立する。
(3)本来であれば一つに統合されているべきであるところを,いくつかの類似するコミュニティに分割されてしまうため,本来の規模よりも小さい規模でのコミュニケーションしか楽しむことができない。
(1)既存のコミュニティに,新たに参加しようとするユーザにとって,興味のあるコミュニティを発見することが難しい。
(2)類似するコミュニティが既に存在していることに気づかないユーザが,同様のコミュニティを新たに形成してしまう。この結果,類似するコミュニティが乱立する。
(3)本来であれば一つに統合されているべきであるところを,いくつかの類似するコミュニティに分割されてしまうため,本来の規模よりも小さい規模でのコミュニケーションしか楽しむことができない。
このような問題は,コミュニティサイトにおける本来の楽しみを損なうものである。この問題を解決するためには,コミュニティを効果的に発見するために,類似するコミュニティを分類して提示する手段が必要となる。
これまでにも,Webにおけるコミュニティ抽出・分類の方法として,例えば非特許文献1,2,特許文献1,2に記載の技術が存在する。
非特許文献1に記載の技術は,ある特定の語句に対して,関連性のあるコミュニティを抽出する。Webのリンク構造をグラフとみなし,特定の語句に着目した場合に,その特定の語句に関する情報を多く含むノード(Authority) と,Authority へのリンクが多く集まっているノード(Hub) が存在すると考え,Authority を含むリンクが密なノードの集合を,その語句に関連するコミュニティであるとして抽出する。また,これを改善した類似技術として,非特許文献2に記載の技術もある。
また,特許文献1に記載の技術では,文書をノード,文書間の関連性をリンクとみなしたグラフから,コミュニティ毎の重要な話題(キーワード)を抽出する。この技術を応用すればそのキーワードに関連する文書群をコミュニティとして抽出することができる。
特許文献2に記載の技術では,ある特定の語句でキーワード検索を行った結果,得られる文書群に含まれるキーワード群(関連語群)を抽出し,これらのキーワード群でそれぞれ再度検索を行った結果得られる文書群間のリンクの密度に応じて関連語間の関係性を抽出し,関係性の高い関連語を含む文書群によってコミュニティを抽出する。
J.Kleinberg,"Authoritative Sources in a Hyperlinked Environment", In Proceedings ACM-SIAM Symposium on Discrete Algorithms, 1998.
M.Toyoda, M.Kitsuregawa,"Creating a Web Community Chart for Navigating Related Communities ", In Proceedings ACM Hypertext, 2001.
非特許文献1,2に記載の技術では,着目する語句を1つ決定すると,抽出されるコミュニティが1つ得られる。しかしながら,ユーザが興味のあるコミュニティに関連する語句を適切かつ一意に決定できるとは限らないため,利便性に劣るという問題があった。
また,非特許文献1,2,特許文献1,2などの従来の技術では,Webのリンク構造,あるいは,コンテンツとしては文書のみを用いて,コミュニティの分類を実施していた。しかしながら,画像,音声・音楽,映像を共有するコミュニティサイトは,Webのリンク構造や文書の情報以外にも,画像,音声・音楽,映像の情報や,ユーザの興味や嗜好性があって成り立っている。従来技術では,これらを考慮することができず,たとえ画像,音声・音楽,映像を共有するコミュニティサイトに応用したとしても,適切なコミュニティの分類ができないという問題があった。
上記のような理由から,従来技術のみでは,画像,音声・音楽,映像を共有するコミュニティサイトにおいては,コミュニティの適切な分類ができなかった。
本発明は,この課題に基づいてなされたものであって,画像,音声・音楽,映像を共有するコミュニティサイトにおいて,ユーザにとって利便性に優れた適切なコミュニティの分類を実現する手段を提供することを目的とする。
前記課題の解決を図るために,本発明は,マルチメディアコンテンツを共有または公開するコミュニティサイトに登録されているコミュニティを分類するコミュニティ分類装置であって,前記コミュニティサイトに登録されているコミュニティ,前記コミュニティに所属するユーザおよび前記コミュニティに所属するコンテンツのデータを格納したコミュニティデータベースと,前記コミュニティのコミュニティ情報として,前記コミュニティデータベースから,コミュニティに所属するユーザ群,コミュニティに所属するコンテンツ群,コミュニティに所属するコンテンツ群の特徴量,コミュニティに所属するユーザが嗜好するコンテンツ群,コミュニティに所属するユーザが嗜好するコンテンツ群の特徴量,コミュニティに所属するコンテンツ群の周辺文書群,コミュニティに所属するユーザが嗜好するコンテンツ群の周辺文書群のうち,少なくとも1つを抽出するコミュニティ情報抽出部と,前記コミュニティ情報抽出部が抽出した第一のコミュニティのコミュニティ情報と,第二のコミュニティのコミュニティ情報とを比較し,予めコミュニティ情報の種類毎に定められた類似度の計算式に従って類似度を計算するコミュニティ類似度計算部と,すべてのコミュニティ間の類似度に基づいて,類似するコミュニティを分類し,出力するコミュニティクラスタリング部とを備えることを特徴とする。
以上のように,画像,音声・音楽,映像を共有するコミュニティを形成しているコンテンツ,文書,ユーザの情報を用いることで,そのコミュニティの嗜好や活動を効果的に捉えることが可能となり,類似するコミュニティ同士を高精度に分類することができる。
また,上記発明において,さらに,予め定められた分類閾値,あるいは,ユーザから指定された分類閾値に基づいて分類基準を定めるコミュニティクラスタリング深度決定部を備えることを特徴とする。
コミュニティクラスタリング深度決定部を備えることにより,コミュニティ情報の類似性がどの程度の強さであれば,同一に分類するかを任意に決定することができる。
例えば,「花」,「アジアの花」,「日本の花」,「桜」という4つのコミュニティ群があったとする。これらには,「花」⊃「アジアの花」⊃「日本の花」⊃「桜」という包含関係が成立する。例えば,{「桜」,「日本の花」}の間に最も強い類似度があり,{「桜」,「アジアの花」},{「桜」,「花」}の順に類似度が低くなっていく。花の中でも,特に「桜」に興味のあるユーザがいた場合には,最初に提示される「花」というコミュニティ群よりも,「桜」というコミュニティ群が提示された方が有益であり,漠然と「花」に関するコミュニティを探しているユーザにとっては,まず「花」のコミュニティのまとまりを提示するほうが有益である。この発明では,このような調節を,ユーザの希望に合わせて実行できる。
また,上記発明において,前記コミュニティ情報抽出部は,一定の時間区間に前記コミュニティデータベースに登録された情報のみに基づいて,前記コミュニティ情報を抽出することを特徴とする。
コミュニティ情報抽出部が特定の時間区間毎のコミュニティ情報を分析することで,例えば,最新のコミュニティの情報に基づく分類結果や,これまでの経緯を踏まえた分類結果など,ユーザの目的に応じた観点からの分類結果を提示することができる。
また,上記発明において,前記コミュニティクラスタリング部が分類したコミュニティの分類結果を,分類されたコミュニティに含まれるコンテンツの情報またはユーザの情報とともに出力する分類結果出力部を備えることを特徴とする。
この分類結果出力部により,分類されたコミュニティそのものの情報だけでなく,分類されたコミュニティに含まれるコンテンツやユーザの情報を提供できる。この結果,例えばユーザがコミュニティの中で共有されているコンテンツを見たい,あるいは,どのようなユーザが参加しているか知りたい,といったニーズに即応できる。
以上示したように,本発明によれば,画像,音声・音楽,映像を共有するコミュニティの情報を用いて,類似するコミュニティ同士をまとめあげて分類し,ユーザの好みの観点から,好みの深さでコミュニティを探し出すことができるようになる。
以下,図面を用いながら,本発明の実施形態について説明する。図1は,本発明の一実施形態におけるコミュニティ分類装置の構成例を示すブロック図である。
本発明の実施形態の一例で対象とするコミュニティサイトとして,説明の都合上,次のようなものを想定する。なお,本発明は必ずしもこのようなコミュニティサイトに限定されるものではない。
・ユーザは,任意の数のコミュニティに所属することができる。
・コミュニティには,画像ファイル,音声ファイル,音楽ファイル,映像ファイルなどのコンテンツが関連付けられている。
・コンテンツの周辺には,テキスト文書が付与されている。
・ユーザは,任意の数のコミュニティに所属することができる。
・コミュニティには,画像ファイル,音声ファイル,音楽ファイル,映像ファイルなどのコンテンツが関連付けられている。
・コンテンツの周辺には,テキスト文書が付与されている。
本システムは,コミュニティ分類装置(以下,サーバという)10と,各端末17−1〜17−3とが,通信網18を介して接続されている。サーバ10は,CPU(Central Processing Unit) ,HDD(Hard Disk Drive) ,RAM (Random Access Memory) ,ROM (Read Only Memory) 等から構成され,これらのハードウェアとソフトウェアプログラム等から実現されるコミュニティデータベース11,コミュニティ情報抽出部12,コミュニティ類似度計算部13,コミュニティクラスタリング部14,クラスタリング深度決定部15,分類結果出力部16を備えている。コミュニティ情報抽出部12は,シンボル時系列生成部12aを備え,コミュニティ類似度計算部13は,シンボル時系列類似度計算部13aを備える。
また,端末17−1〜17−3は,CPU(Central Processing Unit) ,HDD(Hard Disk Drive) ,RAM (Random Access Memory) ,ROM (Read Only Memory) ,キーボードやポインティングデバイスなどによる入力装置,および,ディスプレイなどの出力装置によって構成され,通信網18と接続可能なものとする。例えばPC(Personal Computer) ,携帯電話端末,あるいは,PDA(Personal Data Assistant) などを用いるものとしてもよい。
通信網18は,情報を伝達するための物理的な経路とプロトコルが定められているものを用いる。例えば,インターネットなどのようなIP(Internet Protocol) 通信可能なものであれば好適である。
サーバ10には,コミュニティデータベース11を搭載している。ここには,対象とするコミュニティサイト上で,ユーザによって形成されたコミュニティ,ユーザ,およびコンテンツの情報などが,ユニークに識別可能となるように格納されているものとする。コミュニティデータベース11は,コミュニティに所属するユーザや,コンテンツが関連付けて検索できるシステムとなっていることが好ましく,例えば,RDBMS(Relational Database Management System) であってもよい。
各種データの格納の方法は,さまざまな形態が考えられるが,固有識別可能な識別子(ID)を付与し,これをもって管理するものとしてもよい。ここで,コンテンツを画像とした場合の例として,図2〜図7に,IDによってコミュニティデータ,ユーザデータ,画像データを格納した場合のテーブルの一例を示す。
図2は,コミュニティデータベース11中に設けられるコミュニティテーブル20の例を示している。コミュニティテーブル20には,各コミュニティをユニークに識別するためのコミュニティID21a〜21nとコミュニティの名称22a〜22nとの対応情報が格納されている。
図3は,コミュニティデータベース11中に設けられるユーザテーブル30の例を示している。ユーザテーブル30には,各ユーザをユニークに識別するユーザID31a〜31nとユーザの名称32a〜32nとの対応情報が格納されている。
図4は,コミュニティデータベース11中に設けられるコンテンツテーブル40の例を示している。コンテンツテーブル40には,各コンテンツをユニークに識別するコンテンツID41a〜41nとコンテンツの名称42a〜42nとの対応情報が格納されている。また,Webなどの場合には,コンテンツデータとして,そのコンテンツの存在場所を示すURL(Uniform Resource Locator)などを同時に格納して管理するものとしてよい。
さらに,コミュニティデータベース11には,図5に示すように,コミュニティと,そのコミュニティに所属するユーザとを,コミュニティID51a〜51nとユーザID52a〜52nとの対応情報によって関連付ける情報が格納されたコミュニティ−ユーザテーブル50と,図6に示すように,コミュニティと,そのコミュニティに所属するコンテンツとを,コミュニティID61a〜61nとコンテンツID62a〜62nとの対応情報によって関連付ける情報が格納されたコミュニティ−コンテンツテーブル60と,図7に示すように,ユーザと,各ユーザが嗜好しているコンテンツとを,ユーザID71a〜71nとコンテンツID72a〜72nとの対応情報によって関連付ける情報が格納されたユーザ−コンテンツテーブル70とが設置されている。
ここで,嗜好しているとは,例えばユーザが「過去に一定回数以上閲覧・視聴した」,あるいは,ユーザが気に入ったコンテンツを登録できる,いわば「お気に入り」システムが採用されているような場合には,ユーザが「お気に入りに登録している」といった情報を用いるものとする。
図8は,本発明の実施形態の一例における処理フローを示す図である。以下,図1に示すコミュニティ分類装置10が実行する処理の詳細を,図8に従って説明する。
〔コミュニティ情報の抽出〕
まず,ステップS1において,コミュニティ情報抽出部12が,コミュニティデータベース11から,格納されている各種データを抽出し,コミュニティ情報を抽出する。抽出するコミュニティ情報は,以下のようなものである。
(1)Info1:コミュニティに所属するユーザ群
(2)Info2:コミュニティに所属するコンテンツ群
(3)Info3:コミュニティに所属するユーザが嗜好するコンテンツ群
(4)Info4:コミュニティに所属するコンテンツ群の特徴量
(5)Info5:コミュニティに所属するユーザが嗜好するコンテンツ群の特徴量
(6)Info6:コミュニティに所属するコンテンツ群の周辺文書群
(7)Info7:コミュニティに所属するユーザが嗜好するコンテンツ群の周辺文書群
これらのコミュニティ情報を抽出するため,まず,コミュニティデータベース11から,データを抽出しておく必要がある。この抽出の方法としては,例えば,コミュニティデータベース11がRDBMSによって構築されている場合には,SQLを用いることができる。図2〜図7の例に従って,その一例を説明する。
まず,ステップS1において,コミュニティ情報抽出部12が,コミュニティデータベース11から,格納されている各種データを抽出し,コミュニティ情報を抽出する。抽出するコミュニティ情報は,以下のようなものである。
(1)Info1:コミュニティに所属するユーザ群
(2)Info2:コミュニティに所属するコンテンツ群
(3)Info3:コミュニティに所属するユーザが嗜好するコンテンツ群
(4)Info4:コミュニティに所属するコンテンツ群の特徴量
(5)Info5:コミュニティに所属するユーザが嗜好するコンテンツ群の特徴量
(6)Info6:コミュニティに所属するコンテンツ群の周辺文書群
(7)Info7:コミュニティに所属するユーザが嗜好するコンテンツ群の周辺文書群
これらのコミュニティ情報を抽出するため,まず,コミュニティデータベース11から,データを抽出しておく必要がある。この抽出の方法としては,例えば,コミュニティデータベース11がRDBMSによって構築されている場合には,SQLを用いることができる。図2〜図7の例に従って,その一例を説明する。
まず,コミュニティ名称が「日本の花」に所属している画像の名称を抽出する場合を説明する。例えば,SQL規格SQL:2003に則った場合,以下のSQL文を実行すればよい。
[コミュニティ情報を抽出するSQL文の例]
SELECT コンテンツテーブル.名称
FROM コンテンツテーブル
JOIN コミュニティ−コンテンツテーブル
ON コンテンツテーブル.コンテンツID=コミュニティ−コンテンツテーブル.コンテンツID
JOIN コミュニティテーブル
ON コミュニティ−コンテンツテーブル.コミュニティID=コミュニティテーブル.コミュニティID
WHERE コミュニティテーブル.名称=花
この結果として得られる出力には,少なくとも「ハイビスカス」,「梅」,「チューリップ」,「新宿御苑の桜」が含まれる。同様に,例えば,「ユーザIDが000002のユーザが所属するコミュニティの名称」や,「コンテンツ名称がチューリップであるコンテンツが所属するコミュニティに所属しているユーザの名称」など,図2〜図7に示した任意のデータに関連するデータを抽出することができる。この手続きによって,Infol〜Info3はそれぞれ取得可能である。
SELECT コンテンツテーブル.名称
FROM コンテンツテーブル
JOIN コミュニティ−コンテンツテーブル
ON コンテンツテーブル.コンテンツID=コミュニティ−コンテンツテーブル.コンテンツID
JOIN コミュニティテーブル
ON コミュニティ−コンテンツテーブル.コミュニティID=コミュニティテーブル.コミュニティID
WHERE コミュニティテーブル.名称=花
この結果として得られる出力には,少なくとも「ハイビスカス」,「梅」,「チューリップ」,「新宿御苑の桜」が含まれる。同様に,例えば,「ユーザIDが000002のユーザが所属するコミュニティの名称」や,「コンテンツ名称がチューリップであるコンテンツが所属するコミュニティに所属しているユーザの名称」など,図2〜図7に示した任意のデータに関連するデータを抽出することができる。この手続きによって,Infol〜Info3はそれぞれ取得可能である。
また,Info4,Info5については,Info2,Info3によって取得したコンテンツ群に対して,特徴量抽出処理を実施する。特に不都合がない場合には,Info4,Info5は同様の方法によって抽出してよいため,以降に述べる方法は,断りがない限りInfo4,Info5双方を抽出するために利用してよい。
抽出する特徴量は,コンテンツ同士の類似性を計測するのに適したものが好ましいが,これは,コンテンツが画像であるか,音声・音楽であるか,映像であるかなどによって変化させてもよい。
まず,画像である場合について説明する。特徴量としては,例えば,明るさや色,形状情報,テクスチャ情報などを用いることができる。例えば,明るさとしてはピクセル毎の輝度値や,色としてはRGBからなるベクトル,形状情報としてはエッジ方向のヒストグラム,テクスチャ情報としてはコントラストを用いてもよい。このピクセル毎の輝度値は,必ずしもすべてのピクセルについて計算する必要はなく,例えば適当なブロック(縦5ピクセル×横5ピクセルなど)を用意し,この範囲のピクセル平均値などを求めるなどの工夫によって,抽出する値の数を削減してもよい。
これらの特徴量は,後に任意の2つの画像間の類似度を計算する際に画像サイズを合わせる必要が出てくるため扱いにくい場合もある。サイズ合わせが不要な特徴量を用いる必要がある場合には,例えば領域毎のRGBヒストグラムや,HSVヒストグラム,あるいは,YUVヒストグラムを用いてもよいし,テクスチャ情報としてウェーブレット変換係数などを用いてもよい。あるいは,下記の参考文献1に記載のSIFT(Scale Invariant Feature Transform) を用いたVisual wordヒストグラムを用いるものとしてもよい。SIFTを用いた場合には,スケール変換や位置,オリエンテーションに不変な局所特徴量を抽出できるという利点がある。
[参考文献1]:G.Csurka, C.R.Dance, L.Fan, J.Willamowski, C.Bray,“Visual Categorization with Bags of Keypoints”,In Proceedings of ECCV Workshop on Statistical Learning in Computer Vision, pp.59-74, 2004.
音声・音楽の特徴量を抽出する場合には,例えば音響信号にFFT(Fast Fourier Transform)を掛け,周波数スペクトルを抽出する。あるいは,ケプストラム分析を実施し,MFCC(Mel-Frequency Cepstrum Coefficient)を求めてもよい。また,これらの音韻情報だけでなく,音高,音量などの韻律情報を用いてもよい。
音声・音楽の特徴量を抽出する場合には,例えば音響信号にFFT(Fast Fourier Transform)を掛け,周波数スペクトルを抽出する。あるいは,ケプストラム分析を実施し,MFCC(Mel-Frequency Cepstrum Coefficient)を求めてもよい。また,これらの音韻情報だけでなく,音高,音量などの韻律情報を用いてもよい。
映像である場合には,動画像(フレーム画像系列)と音声・音楽信号の双方を含んでいる。音声・音楽に関しては,前述の音声・音楽の場合と同様に,周波数スペクトルや,MFCC,韻律情報を求めるものとする。動画像に対しては,例えば前述の画像の特徴量を,すべてのフレーム画像にわたって計算するものとしてもよい。また,すべてのフレーム画像にわたって計算することが困難な場合には,適当な間隔,例えば5フレーム画像毎などに計算するものとしてもよく,これによって抽出する値の数を削減することができる。
また,動画像や音声・音楽をインデクシングし,抽出されたインデクスを利用するものとしてもよい。インデクシング結果を用いた場合の特徴量抽出方法の一例について説明する。
インデクスとしては,任意のものを用いてよい。動画像であれば,例えば下記の参考文献2に記載の技術を用いて,動画像中のカット点を用いるものとしてもよいし,参考文献3に記載の技術を用いて,カメラの動きを用いるものとしてもよい。あるいは,参考文献4に記載の技術を用い,動画像中に含まれる文字列(テロップ)を用いるものとしてもよい。
[参考文献2]:特開平08−214210号公報
[参考文献3]:特開平11−15953号公報
[参考文献4]:特開2001−76094号公報
また,音声・音楽であれば,例えば下記の参考文献5に記載の音声・音楽や,参考文献6に記載の感情などを用いるものとしてもよい。
[参考文献3]:特開平11−15953号公報
[参考文献4]:特開2001−76094号公報
また,音声・音楽であれば,例えば下記の参考文献5に記載の音声・音楽や,参考文献6に記載の感情などを用いるものとしてもよい。
[参考文献5]:谷口行信,南憲一,佐藤隆,桑野秀豪,児島治彦,外村佳伸,“SceneCabinet:映像解析技術を統合した映像インデクシングシステム”,電子情報通信学会論文誌,D-II, Vol.J84-D-II, No.6, pp.1112-1121, 2001年 6月.
[参考文献6]:WO/2008/032787
抽出されたインデクスを,特徴量として記述する場合には,例えばインデクスが検出された時間順序を保持した離散ベクトルとして扱う。
[参考文献6]:WO/2008/032787
抽出されたインデクスを,特徴量として記述する場合には,例えばインデクスが検出された時間順序を保持した離散ベクトルとして扱う。
この処理は,シンボル時系列生成部12aによって実行される。図9を用いて,この処理の一例を詳述する。まず,映像(ビデオ)91を,予め定めた時間間隔に分割する。この時間間隔は任意のものでよく,例えば3秒毎などと定めればよい。図9の例では,元の映像91が12個の区間(V1,V2,V3,…,V12)に分割されている。
図9では,検出するインデクスとして,カット点(ct),カメラ動作(cm),文字列(ch),音声(sp),音楽(mu),笑い声(la)の6種のインデクスを,前述の技術によって検出した。区間V1,V2,V3,…,V12のそれぞれの区間内に,インデクシング結果92が検出されたとする。図中,黒のボックスがある部分が該当のインデクスが検出された区間である。
検出の後,区間毎にインデクスの有無を2値化したものを要素に持つベクトルを生成し,これを時系列順に並べたインデクス時系列93を生成する。最後に,検出されたインデクス時系列93を,シンボル変換表に基づいて,シンボル時系列94に変換し,これを特徴量とする。
シンボル変換表とは,インデクス時系列をシンボル時系列に変換する際の規則を定めた表である。図10に,シンボル変換表の一例を示す。この例では,図9の場合と同様,インデクスとしては前述の6種を用いている。
インデクス時系列の各区間におけるベクトルは,1か0の値を要素に持つベクトルとして生成されるため,ベクトルの長さ(インデクスの数)をkとすれば,ベクトルの取り得る値の場合の数は2k 通りである。したがって,図10では,26 =64通りの場合がありえる。シンボルは,これらの場合の数をユニークに識別するIDであり,例えばアルファベット(A,B,C,…,Z,AA,AB,…)を利用してもよい。あるいは,整数で与えるものとしてもよい。以上の処理によって,Info4,Info5の特徴量を抽出することができる。
続いて,Info6,Info7の特徴量についての抽出方法を説明する。Info6,Info7については,Info2,Info3によって取得したコンテンツ群に対して,周辺にある文書を抽出する。特に不都合がない場合には,Info6,Info7は同様の方法によって抽出してよいため,以降,述べる方法は,断りがない限りInfo6,Info7双方を抽出するために利用してよい。
抽出する文書の例としては,例えばコンテンツのタイトルや,説明文を用いることができる。また,一般的なコミュニティサイトでは,コンテンツの内容などを表す短い単語をタグとして付与したり,コンテンツのカテゴリ(例えば,スポーツ,POPSなど)を設定したりすることができる場合もある。あるいは,コンテンツに付与された視聴者のコメントなども用いることができる。これらは,予めコミュニティデータベース11中のコンテンツテーブル40などに格納しておくものとしてもよい。
また,その他のコンテンツがWebサイトに公開されている場合,コンテンツは,HTML(Hyper Text Markup Language)やXML(eXtensible Markup Language)などの,マークアップ言語内に埋め込まれている。例えば,HTMLである場合には,画像については<img>タグ,音楽や画像については<Object>タグや<embed>タグ内などにあることが多い。そこで,これらの周辺に記述されているテキスト文書を抽出対象とするものとしてもよい。
抽出したテキスト文書は自然文であるため,この文書から語句を抽出する。語句の抽出には,例えば形態素解析を実施すればよい。タグは,既に語句として付与されている場合が多く,この場合には特に形態素解析などを用いる必要はない。これらの抽出された語句に対して,それぞれの語句の重みを計算する。重みの計算の仕方は,例えばtf−idf(Term Frequency-Inverse Document Frequency) 法を用いることができる。これらの方法によって,各語句の重みを計算した後,これらの語句の重みを用いて,文書ベクトルを生成し,これを特徴量とすればよい。これらの処理を,コミュニティデータベース11に格納されているすべてのコミュニティに対して実行するものとする。
以上が,コミュニティ情報抽出部12がコミュニティデータベース11から,格納されている各種データを抽出し,コミュニティ情報を抽出する処理の詳細である。この例では,コミュニティデータベース11に格納されているすべてのデータを用いて,コミュニティ情報を抽出する場合について述べた。しかしながら,必ずしもすべてのデータを用いてコミュニティ情報を抽出する必要はなく,例えば過去のある特定の時間区間のみに着目し,この時間区間内にコミュニティデータベース11に登録されたデータのみを用いるものとしてもよい。
例えば現在〜1年前,1年前〜2年前,2年前〜3年前,…などと,時間区間を分けて情報を抽出することによって,後述する処理により分類されるコミュニティが,時間を追ってどのように移り変わるかという情報の提供に役に立つ。このような分類結果の提示によって,例えば最新のコミュニティの情報に基づく分類結果や,これまでの経緯を踏まえた分類結果など,ユーザの目的に応じた観点からの分類結果を提示することができる。
各種特徴量は,コンテンツが変化しない限り不変であるので,例えば,再計算を省くため,一度抽出した特徴量や,高い頻度で抽出が要求されるコンテンツの特徴量は,コンテンツテーブル40内にコンテンツID41a〜41nと対応付けて格納しておくことによって,処理時間コストを削減することが可能である。
〔コミュニティの類似度計算〕
次に,ステップS2において,コミュニティ類似度計算部13が,ステップS1で抽出したコミュニティ情報に基づき,任意の二つのコミュニティ間の類似度値を計算する。以降,この処理の一例について詳述する。
次に,ステップS2において,コミュニティ類似度計算部13が,ステップS1で抽出したコミュニティ情報に基づき,任意の二つのコミュニティ間の類似度値を計算する。以降,この処理の一例について詳述する。
類似度の計算は,Info1〜Info7のそれぞれに対して,個別にその類似度を計算し,後に各計算結果を統合して,類似度を計算するものとしてよい。以降,コミュニティAとコミュニティBの,異なるコミュニティの類似度を計算する場合について,コミュニティAのコミュニティ情報をInfo1(A)〜Info7(A),コミュニティBのコミュニティ情報をInfo1(B)〜Info7(B)と表して説明する。Info1(A)〜Info7(A)と,Info1(B)〜Info7(B)から計算する各類似度を,それぞれSim1(A,B)〜Sim7(A,B)とおき,それぞれの計算方法の一例を示す。
[Sim1(A,B)の計算]
図11を用いて,Sim1(A,B)の計算方法の一例を説明する。Sim1(A,B)は,コミュニティに所属するユーザ群のコミュニティ情報Info1を用いて計算する類似度である。図11の例では,コミュニティAに所属するユーザが10名,コミュニティBに所属するユーザが8名,双方に所属するユーザが5名いる。このとき,本実施形態の一例では,Sim1(A,B)を,以下の式によって計算する。
図11を用いて,Sim1(A,B)の計算方法の一例を説明する。Sim1(A,B)は,コミュニティに所属するユーザ群のコミュニティ情報Info1を用いて計算する類似度である。図11の例では,コミュニティAに所属するユーザが10名,コミュニティBに所属するユーザが8名,双方に所属するユーザが5名いる。このとき,本実施形態の一例では,Sim1(A,B)を,以下の式によって計算する。
Sim1(A,B)=Jaccard(Info1(A),Info1(B))
ここで,Jaccard(Info1(A),Info1(B))は,集合の要素数を表す#{・}を用いて,次式によって表される。
ここで,Jaccard(Info1(A),Info1(B))は,集合の要素数を表す#{・}を用いて,次式によって表される。
Jaccard(Info1(A),Info1(B))=#{Info1(A)∩Info1(B)}/#{Info1(A)∪Info1(B)}
すなわち,これはコミュニティAとコミュニティBに属するユーザ数の全体(重複を許さない)に対する,コミュニティAとコミュニティB双方に属するユーザ数の割合である。図11の例では,Sim1(A,B)=5/13≒0.38となる。
すなわち,これはコミュニティAとコミュニティBに属するユーザ数の全体(重複を許さない)に対する,コミュニティAとコミュニティB双方に属するユーザ数の割合である。図11の例では,Sim1(A,B)=5/13≒0.38となる。
[Sim2(A,B)の計算]
図12に基づいて,Sim2(A,B)の計算方法の一例を説明する。Sim2(A,B)は,コミュニティに所属するコンテンツ群のコミュニティ情報Info2を用いて計算する類似度である。ここで説明するSim2(A,B)の計算手順は,Sim1(A,B)と概ね同じである。
図12に基づいて,Sim2(A,B)の計算方法の一例を説明する。Sim2(A,B)は,コミュニティに所属するコンテンツ群のコミュニティ情報Info2を用いて計算する類似度である。ここで説明するSim2(A,B)の計算手順は,Sim1(A,B)と概ね同じである。
図12の例では,コミュニティAに所属するコンテンツが12個,コミュニティBに所属するコンテンツが15個,双方に所属するコンテンツが6個ある。このとき,本実施形態の一例では,Sim2(A,B)を,以下の式によって計算する。
Sim2(A,B)=Jaccard(Info2(A),Info2(B))
これはコミュニティAとコミュニティBに属するコンテンツ数の全体(重複を許さない)に対する,コミュニティAとコミュニティB双方に属するコンテンツ数の割合である。図12の例では,Sim2(A,B)=6/21≒0.29となる。
これはコミュニティAとコミュニティBに属するコンテンツ数の全体(重複を許さない)に対する,コミュニティAとコミュニティB双方に属するコンテンツ数の割合である。図12の例では,Sim2(A,B)=6/21≒0.29となる。
[Sim3(A,B)の計算]
図13に基づいて,Sim3(A,B)の計算方法の一例を説明する。Sim3(A,B)は,コミュニティに所属するユーザが嗜好するコンテンツ群のコミュニティ情報Info3を用いて計算する類似度である。図13の例では,各コミュニティに所属するユーザが嗜好するコンテンツを,ユーザからコンテンツヘの有向リンクとして表現している。コミュニティAに属するユーザ数は,重複を許して4,コミュニティBは同じく3であり,これらのユーザから嗜好されている(リンクが張られている)コンテンツ群を表すInfo3(A)∪Info3(B)には,131〜135の5つのコンテンツが含まれている。
図13に基づいて,Sim3(A,B)の計算方法の一例を説明する。Sim3(A,B)は,コミュニティに所属するユーザが嗜好するコンテンツ群のコミュニティ情報Info3を用いて計算する類似度である。図13の例では,各コミュニティに所属するユーザが嗜好するコンテンツを,ユーザからコンテンツヘの有向リンクとして表現している。コミュニティAに属するユーザ数は,重複を許して4,コミュニティBは同じく3であり,これらのユーザから嗜好されている(リンクが張られている)コンテンツ群を表すInfo3(A)∪Info3(B)には,131〜135の5つのコンテンツが含まれている。
また,コミュニティAおよびコミュニティBのそれぞれのユーザからのリンク数を個別に数えた結果を,図中括弧内に「(コミュニティAのユーザからリンク数,コミュニティBのユーザからのリンク数)」で記載しており,例えばコンテンツ131では(2,0),コンテンツ132では(4,1)となっている。
本実施形態の一例では,Sim3(A,B)を,以下の式によって計算する。
ここで,cjは,コンテンツを表し,#{cj∈Info3(A)∪Info3(B)}は,Info3(A)∪Info3(B)に含まれるコンテンツ数,#{link(X→cj)}はコミュニティXに属するユーザInfo1(A)から,コンテンツcjヘのリンク数,#{Info1(X)}は,コミュニティXに属するユーザ数を表す。
図13の例では,Sim3(A,B)=1−1/5×(|2/4−0|+|4/4−1/3|+|2/4−1/3|+|1/4−2/3|+|0−2/3|)≒0.52となる。
[Sim4(A,B)の計算]
Sim4(A,B)は,コンテンツの種類や,抽出した特徴量に合わせて,適切な計算方法を適用することが好ましい。以下では,まずSim4(A,B)の基本的な計算手順を述べた後,コンテンツの種類や,特徴量の場合についての詳細な説明を行う。
Sim4(A,B)は,コンテンツの種類や,抽出した特徴量に合わせて,適切な計算方法を適用することが好ましい。以下では,まずSim4(A,B)の基本的な計算手順を述べた後,コンテンツの種類や,特徴量の場合についての詳細な説明を行う。
Sim4(A,B)を計算する基本的な計算手順の一例は,次のとおりである。Sim4(A,B)は,コミュニティに所属するコンテンツ群の特徴量のコミュニティ情報Info4を用いて計算する類似度である。
Info4(A)に含まれるコンテンツAcと,Info4(B)に含まれるコンテンツBcのあり得るペアの場合の数は,#{Info4(A)}×#{Info4(B)}である。
このすべてのペアについて,コンテンツや特徴量毎に定めた距離Dist(Ac,Bc)を計算し,これが予め定めた闇値以下となったペアの数をNとする。このとき,Sim4(A,B)を以下の式によって求める。
Sim4(A,B)=N/(#{Info4(A)}×#{Info4(B)})
距離Dist(Ac,Bc)は,コンテンツの種類,特徴量の種類ごとに適切なものを用いればよい。
距離Dist(Ac,Bc)は,コンテンツの種類,特徴量の種類ごとに適切なものを用いればよい。
例えばコンテンツが画像で,特徴量としてピクセル毎の輝度値,もしくはRGBを用いた場合には,Dist(Ac,Bc)は,Ac,Bc間のピクセル値の平均自乗差を,全ピクセルにわたり平均した値などとすればよい。
また,例えば特徴量として,RGBヒストグラム,HSVヒストグラム,YUVヒストグラム,上述した参考文献1に記載のSIFTを用いたVisual wordヒストグラムを用いた場合などには,ヒストグラム距離を用いることができる。
コンテンツが音声・音楽である場合にも,特徴量として,例えばFFT周波数スペクトルを用いたときには,各周波数におけるスペクトル強度の平均自乗誤差について,周波数方向・時間方向に平均した値をDist(Ac,Bc)とすることができ,また,例えばMFCCを用いたときには,ケプストラム距離を適用できる。
コンテンツが映像である場合には,先の画像,音声・音楽に述べた特徴量と同じものであれば,同様の計算方法を適用してよい。
また,動画像や音声・音楽をインデクシングし,抽出されたインデクスを利用した場合には,シンボル時系列類似度計算部13aが,2つのシンボル時系列間の類似度を計算する。
Ac,Bc共に,シンボル時系列が得られている。このとき,これら2つのシンボル時系列の距離を定めるDist(Ac,Bc)としては,例えば,DP(Dynamic Programming) マッチングなどを用いた,レーベンシュタイン距離などを用いることができる。
さらに,類似度を計算する際に,シンボル時系列を複数の部分シンボル時系列に分割して評価するものとしてもよい。この分割の仕方としては,次のようなものが考えられる。例えば,すべての要素が0であることを表すシンボルの部分(図10の例では,シンボルA)は,元の映像中には何のインデクスも含まれていない部分であり,映像中の意味的な切れ目を表す可能性がある。そこで,この部分を境界として,映像を分割することが考えられる。
あるいは,特定のインデクスを必ず境界とするものとしてもよい。特にカット点は,映像の構造を規定する基本単位であるショットを定める境界として用いられることが多いため,これを用いるものとしてもよい。
これらの分割によって,元のシンボル時系列Ac,Bcが,それぞれ{Acl,Ac2,Ac3,…,Acn},(Bcl,Bc2,Bc3,…,Bcm)に分割されたとすると,これらの集合間の要素のすべてのペアに対して,例えば,レーベンシュタイン距離やHMMによる尤度を計算し,これらの平均値をSim4(A,B)とするものとしてもよい。
[Sim5(A,B)の計算]
Sim5(A,B)は,コミュニティに所属するユーザが嗜好するコンテンツ群の特徴量のコミュニティ情報Info5を用いて計算する類似度である。このSim5(A,B)は,おおよそSim4(A,B)と同様の手続きで求めることができる。すなわち,Info5(A)に含まれるコンテンツAcと,Info5(B)に含まれるコンテンツBcのあり得るペアの場合の数#{Info5(A)}×#{Info5(B)}と,このすべてのペアについて,コンテンツや特徴量毎に定めた距離Dist(Ac,Bc)を計算し,これが予め定めた閾値以下となったペアの数Nとによって,次式によって計算できる。
Sim5(A,B)は,コミュニティに所属するユーザが嗜好するコンテンツ群の特徴量のコミュニティ情報Info5を用いて計算する類似度である。このSim5(A,B)は,おおよそSim4(A,B)と同様の手続きで求めることができる。すなわち,Info5(A)に含まれるコンテンツAcと,Info5(B)に含まれるコンテンツBcのあり得るペアの場合の数#{Info5(A)}×#{Info5(B)}と,このすべてのペアについて,コンテンツや特徴量毎に定めた距離Dist(Ac,Bc)を計算し,これが予め定めた閾値以下となったペアの数Nとによって,次式によって計算できる。
Sim5(A,B)=N/(#{Info5(A)}×#{Info5(B)})
距離Dist(Ac,Bc)も,Sim4(A,B)の計算で述べたものと同様のものを用いればよい。
距離Dist(Ac,Bc)も,Sim4(A,B)の計算で述べたものと同様のものを用いればよい。
[Sim6(A,B)の計算]
Sim6(A,B)は,コミュニティに所属するコンテンツ群の周辺文書群のコミュニティ情報Info6を用いて,文書ベクトル間の距離,あるいは傾きを算出することにより求める。
Sim6(A,B)は,コミュニティに所属するコンテンツ群の周辺文書群のコミュニティ情報Info6を用いて,文書ベクトル間の距離,あるいは傾きを算出することにより求める。
まず,Info6(A)に含まれる文書Atとその文書ベクトルv(At)と,Info6(B)に含まれる文書Btとその文書ベクトルv(Bt)との,あり得るペアの場合の数は,#{Info6(A)}×#{Info6(B)}である。このすべてのペアについて,文書ベクトルの傾きCos(At,Bt)を,
Cos(At,Bt)=v(At)・v(Bt)/(|v(At)||v(Bt|)
によって計算し,これが予め定めた閾値以上となったペアの数Nによって,次式を用いて計算できる。
Cos(At,Bt)=v(At)・v(Bt)/(|v(At)||v(Bt|)
によって計算し,これが予め定めた閾値以上となったペアの数Nによって,次式を用いて計算できる。
Sim6(A,B)=N/(#{Info6(A)}×#{Info6(B)})
[Sim7(A,B)の計算]
Sim7(A,B)は,コミュニティに所属するユーザが嗜好するコンテンツ群の周辺文書群のコミュニティ情報Info7を用いて計算する類似度である。Sim7(A,B)についても,Sim6(A,B)の計算と同様の方法によって計算でき,上述の場合と同様,次式によって求めることができる。
[Sim7(A,B)の計算]
Sim7(A,B)は,コミュニティに所属するユーザが嗜好するコンテンツ群の周辺文書群のコミュニティ情報Info7を用いて計算する類似度である。Sim7(A,B)についても,Sim6(A,B)の計算と同様の方法によって計算でき,上述の場合と同様,次式によって求めることができる。
Sim7(A,B)=N/(#{Info7(A)}×#{Info7(B)})
以上がSim1(A,B)〜Sim7(A,B)の計算方法の一例であるが,必ずしも上記のものでなくともよく,このほか,類似性を測るための適切な方法であれば,任意のものを用いることができる。
以上がSim1(A,B)〜Sim7(A,B)の計算方法の一例であるが,必ずしも上記のものでなくともよく,このほか,類似性を測るための適切な方法であれば,任意のものを用いることができる。
計算したSim1(A,B)〜Sim7(A,B)を用いて,コミュニティA,コミュニティBの最終的な類似度Sim(A,B)を計算する。
例えば次式で表されるように,Sim1(A,B)〜Sim7(A,B)の線形結合で求めるものとしてもよい。
Sim(A,B)=Σk=1 7 (ak ×Sim k(A,B))
Σk=1 7 ak =1
ak の値は,制約を満たす範囲で任意の値としてよい。
Σk=1 7 ak =1
ak の値は,制約を満たす範囲で任意の値としてよい。
あるいは,線形結合ではなく,非線形結合によって計算するものとしてもよく,例えば,SVM(Support Vector Machine)や,MLP(Multi Layer Perceptron)などを用いるものとしてもよい。
以上,説明した処理を,任意の2つのコミュニティ間に適用することで,それらの類似度を計算することができる。
〔コミュニティのクラスタリング〕
次に,ステップS3において,コミュニティクラスタリング部14が,コミュニティ間の類似度に基づいて,すべてのコミュニティを類似するコミュニティの集合にクラスタリングする。
次に,ステップS3において,コミュニティクラスタリング部14が,コミュニティ間の類似度に基づいて,すべてのコミュニティを類似するコミュニティの集合にクラスタリングする。
この方法の一例としては,例えば階層的クラスタリングの方法を用いることができる。コミュニティデータベース11に登録されているコミュニティには,任意の2つのコミュニティ間の類似度Sim(A,B)が計算されている。このため,例えば参考文献7に記載されている階層型クラスタリングの一種である凝集型階層的クラスタリングを用いることによって,図14に一例として示すようなデンドログラムを描くことができる。
[参考文献7]:R.O.Duda, P.E.Hart, D.G.Stork,“パターン識別 10.9 階層クラスタリング”,尾上守夫(監訳),pp.552-558, 新技術コミュニケーションズ, 2001.
図14のデンドログラムは,類似度が大きいものから順に同じクラスタに集約されていく様子を示したものである。したがって,デンドログラム下部で結合されているほど類似したクラスタであり,上部で結合されているクラスタほど類似していないクラスタであることを意味する。
図14のデンドログラムは,類似度が大きいものから順に同じクラスタに集約されていく様子を示したものである。したがって,デンドログラム下部で結合されているほど類似したクラスタであり,上部で結合されているクラスタほど類似していないクラスタであることを意味する。
また,このほか,K−Means法などのクラスタリング法を適用するものとしてもよい。以上の処理によって,クラスタリングを実行することが可能である。
〔分類結果の提示〕
次に,ステップS4において,クラスタリング深度決定部15が,クラスタリング深度を決定し,これに基づいて,分類結果出力部16が,分類結果を出力・提示する。
次に,ステップS4において,クラスタリング深度決定部15が,クラスタリング深度を決定し,これに基づいて,分類結果出力部16が,分類結果を出力・提示する。
クラスタリング深度とは,図14のような,クラスタリングの結果得られたデンドログラムの,どの高さでクラスタリング結果を提示するかを定める類似度の閾値である。
図14のデンドログラムを例に説明する。図15に示すように,類似度が0.5の付近をクラスタリング深度とすれば,Cls1,Cls2,Cls3の3つのクラスタが,コミュニティの分類結果として提示される。同じデンドログラムであっても,図16に示すように,類似度が0.7の付近をクラスタリング深度とすれば,Cls1,Cls2,…,Cls6の6つのクラスタが提示されることとなる。
提示するクラスタは,特にすべてを表示する必要はなく,例えばユーザが指定したポイントと,その近傍のクラスタだけを提示するものとしてもよい。また,本実施形態の一例では,クラスタリング深度は,予め定めておくものとしてもよいし,ユーザの希望するクラスタリング深度を入力させて決定するものとしてもよい。
特に,ユーザがインタラクティブにクラスタリング深度を変化させることで,提示結果を変化させることができるインタフェースを用いた場合には,最初は深度を低く,0.3程度に設定して,大まかなクラスタを確認したのち,興味のあるクラスタの周辺のみを,高い深度で詳細化するといった,効率的な提示手段を提供できる。
提示する際には,各クラスタに含まれるコミュニティにおいて,生起頻度の高い語句や,文書を合わせて提示するものとしてもよい。
例えば,クラスタCls1に属するコミュニティが,「サル」,「犬」,「ゴリラ」などであった場合,これらのコミュニティ情報Info6,Info7には,「動物」という語句が高い頻度で出現していると考えられる。そこで,このクラスタCls1に,「動物」という名称を与え,同時に提示することで,ユーザに対してそのクラスタにどのようなコミュニティが存在するかを把握しやすくさせることができる。この名称は,必ずしも単一の語句である必要はなく,重要語のうち,生起頻度の高いいくつかを選定し,提示することとしてもよい。
また,このような名称を与えることによって,図17に示すように,クラスタの階層構造171を表示し,希望のクラスタを選択することによって,当該クラスタに含まれるコミュニティや,これらのコミュニティに含まれるコンテンツ,ユーザ情報などを提示領域172に表示すれば,ユーザにとって,有益で利用しやすい情報提供が可能である。
あるいは,図18に示すように,クラスタを名称と共に2次元探索空間181上に図形的に配置して提示すれば,ユーザにとってさらに見やすい結果となる。この2次元探索空間181では,ユーザがポインティングデバイスによって,表示するクラスタの位置やクラスタリング深度を自在に操作でき,ポインティングした位置に応じて,当該ポイントに存在する付近のコミュニティや,これらのコミュニティに含まれるコンテンツ,ユーザ情報などを,提示領域182に提示する。2次元探索空間181における上部に表示されたバーが,クラスタリング深度を指示するためのバーである。
上記以外にもさまざまな分類の仕方は存在するが,適宜適当な形態を取ってよいことは言うまでもない。
なお,本実施形態の一例のコミュニティ分類方法における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し,そのプログラムを,コンピュータを用いて実行して本発明を実現することができる。
以上,本発明の実施形態の一例について説明したが,本発明は以上説明した実施形態の一例に限定されるものでなく,特許請求の範囲の各請求項に記載した技術的範囲において各種の変形を行うことが可能である。
例えば生成された分類結果の情報を含む,XML(eXtensible Markup Language)データを生成してもよい。汎用的なXMLデータであれば本発明により生成される出力結果の利用性を高めることができる。
10 コミュニティ分類装置(サーバ)
11 コミュニティデータベース
12 コミュニティ情報抽出部
12a シンボル時系列生成部
13 コミュニティ類似度計算部
13a シンボル時系列類似度計算部
14 コミュニティクラスタリング部
15 クラスタリング深度決定部
16 分類結果出力部
17−1〜17−3 端末
18 通信網
11 コミュニティデータベース
12 コミュニティ情報抽出部
12a シンボル時系列生成部
13 コミュニティ類似度計算部
13a シンボル時系列類似度計算部
14 コミュニティクラスタリング部
15 クラスタリング深度決定部
16 分類結果出力部
17−1〜17−3 端末
18 通信網
Claims (9)
- マルチメディアコンテンツを共有または公開するコミュニティサイトに登録されているコミュニティを分類するコミュニティ分類装置であって,
前記コミュニティサイトに登録されているコミュニティ,前記コミュニティに所属するユーザおよび前記コミュニティに所属するコンテンツのデータを格納したコミュニティデータベースと,
前記コミュニティのコミュニティ情報として,前記コミュニティデータベースから,コミュニティに所属するユーザ群,コミュニティに所属するコンテンツ群,コミュニティに所属するコンテンツ群の特徴量,コミュニティに所属するユーザが嗜好するコンテンツ群,コミュニティに所属するユーザが嗜好するコンテンツ群の特徴量,コミュニティに所属するコンテンツ群の周辺文書群,コミュニティに所属するユーザが嗜好するコンテンツ群の周辺文書群のうち,少なくとも1つを抽出するコミュニティ情報抽出部と,
前記コミュニティ情報抽出部が抽出した第一のコミュニティのコミュニティ情報と,第二のコミュニティのコミュニティ情報とを比較し,予めコミュニティ情報の種類毎に定められた類似度の計算式に従って類似度を計算するコミュニティ類似度計算部と,
すべてのコミュニティ間の類似度に基づいて,類似するコミュニティを分類し,出力するコミュニティクラスタリング部とを備える
ことを特徴とするコミュニティ分類装置。 - 請求項1記載のコミュニティ分類装置において,
さらに,予め定められた分類閾値,あるいは,ユーザから指定された分類閾値に基づいて分類基準を定めるコミュニティクラスタリング深度決定部を備える
ことを特徴とするコミュニティ分類装置。 - 請求項1または請求項2記載のコミュニティ分類装置において,
前記コミュニティ情報抽出部は,一定の時間区間に前記コミュニティデータベースに登録された情報のみに基づいて,前記コミュニティ情報を抽出する
ことを特徴とするコミュニティ分類装置。 - 請求項1,請求項2または請求項3記載のコミュニティ分類装置において,
前記コミュニティクラスタリング部が分類したコミュニティの分類結果を,分類されたコミュニティに含まれるコンテンツの情報またはユーザの情報とともに出力する分類結果出力部を備える
ことを特徴とするコミュニティ分類装置。 - マルチメディアコンテンツを共有または公開するコミュニティサイトに登録されているコミュニティ,前記コミュニティに所属するユーザおよび前記コミュニティに所属するコンテンツのデータを格納したコミュニティデータベースを備えるコミュニティ分類装置が,前記コミュニティサイトに登録されているコミュニティを分類するコミュニティ分類方法であって,
前記コミュニティのコミュニティ情報として,前記コミュニティデータベースから,コミュニティに所属するユーザ群,コミュニティに所属するコンテンツ群,コミュニティに所属するコンテンツ群の特徴量,コミュニティに所属するユーザが嗜好するコンテンツ群,コミュニティに所属するユーザが嗜好するコンテンツ群の特徴量,コミュニティに所属するコンテンツ群の周辺文書群,コミュニティに所属するユーザが嗜好するコンテンツ群の周辺文書群のうち,少なくとも1つを抽出するコミュニティ情報抽出ステップと,
前記コミュニティ情報抽出ステップにより抽出した第一のコミュニティのコミュニティ情報と,第二のコミュニティのコミュニティ情報とを比較し,予めコミュニティ情報の種類毎に定められた類似度の計算式に従って類似度を計算するコミュニティ類似度計算ステップと,
すべてのコミュニティ間の類似度に基づいて,類似するコミュニティを分類し,出力するコミュニティクラスタリングステップとを有する
ことを特徴とするコミュニティ分類方法。 - 請求項5記載のコミュニティ分類方法において,
さらに,予め定められた分類閾値,あるいは,ユーザから指定された分類閾値に基づいて分類基準を定めるコミュニティクラスタリング深度決定ステップを有する
ことを特徴とするコミュニティ分類方法。 - 請求項5または請求項6記載のコミュニティ分類方法において,
前記コミュニティ情報抽出ステップでは,一定の時間区間に前記コミュニティデータベースに登録された情報のみに基づいて,前記コミュニティ情報を抽出する
ことを特徴とするコミュニティ分類方法。 - 請求項5,請求項6または請求項7記載のコミュニティ分類方法において,
前記コミュニティクラスタリングステップで分類したコミュニティの分類結果を,分類されたコミュニティに含まれるコンテンツの情報またはユーザの情報とともに出力する分類結果出力ステップを有する
ことを特徴とするコミュニティ分類方法。 - 請求項5から請求項8までのいずれか1項に記載のコミュニティ分類方法を,コンピュータに実行させるためのコミュニティ分類プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009137101A JP2010282544A (ja) | 2009-06-08 | 2009-06-08 | コミュニティ分類装置,コミュニティ分類方法およびコミュニティ分類プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009137101A JP2010282544A (ja) | 2009-06-08 | 2009-06-08 | コミュニティ分類装置,コミュニティ分類方法およびコミュニティ分類プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010282544A true JP2010282544A (ja) | 2010-12-16 |
Family
ID=43539193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009137101A Withdrawn JP2010282544A (ja) | 2009-06-08 | 2009-06-08 | コミュニティ分類装置,コミュニティ分類方法およびコミュニティ分類プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010282544A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013068999A (ja) * | 2011-09-20 | 2013-04-18 | Dainippon Printing Co Ltd | スポット情報提供装置、スポット情報提供システム及びスポット情報提供プログラム |
KR101300498B1 (ko) * | 2011-11-17 | 2013-09-12 | 한국과학기술정보연구원 | 관심기술 네트워크 구조화 서비스 시스템 및 방법 |
-
2009
- 2009-06-08 JP JP2009137101A patent/JP2010282544A/ja not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013068999A (ja) * | 2011-09-20 | 2013-04-18 | Dainippon Printing Co Ltd | スポット情報提供装置、スポット情報提供システム及びスポット情報提供プログラム |
KR101300498B1 (ko) * | 2011-11-17 | 2013-09-12 | 한국과학기술정보연구원 | 관심기술 네트워크 구조화 서비스 시스템 및 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11238066B2 (en) | Generating personalized clusters of multimedia content elements based on user interests | |
US20220035827A1 (en) | Tag selection and recommendation to a user of a content hosting service | |
US20190340194A1 (en) | Associating still images and videos | |
TWI636416B (zh) | 內容個人化之多相排序方法和系統 | |
US9098807B1 (en) | Video content claiming classifier | |
US20090259606A1 (en) | Diversified, self-organizing map system and method | |
US20140201180A1 (en) | Intelligent Supplemental Search Engine Optimization | |
US20100211551A1 (en) | Method, system, and computer readable recording medium for filtering obscene contents | |
US11157542B2 (en) | Systems, methods and computer program products for associating media content having different modalities | |
US11797634B2 (en) | System and method for providing a content item based on computer vision processing of images | |
CN107918657B (zh) | 一种数据源的匹配方法和装置 | |
Zhou et al. | Enhancing online video recommendation using social user interactions | |
JP6767342B2 (ja) | 検索装置、検索方法および検索プログラム | |
US9639633B2 (en) | Providing information services related to multimodal inputs | |
CN113158023A (zh) | 基于混合推荐算法的公共数字生活精准分类服务方法 | |
CN113806588B (zh) | 搜索视频的方法和装置 | |
Zhou et al. | Relevance feature mapping for content-based multimedia information retrieval | |
US20170185690A1 (en) | System and method for providing content recommendations based on personalized multimedia content element clusters | |
US20090125381A1 (en) | Methods for identifying documents relating to a market | |
Jayarajah et al. | Can instagram posts help characterize urban micro-events? | |
US9424338B2 (en) | Clustering queries for image search | |
Amorim et al. | Novelty detection in social media by fusing text and image into a single structure | |
JP2007164633A (ja) | コンテンツ検索方法及び装置及びプログラム | |
JP6314071B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2010282544A (ja) | コミュニティ分類装置,コミュニティ分類方法およびコミュニティ分類プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111125 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111118 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20111221 |
|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20120904 |