JP2008004080A

JP2008004080A - コミュニティによって生成されたウェブサイトをメタデータに用いる方法、機械読取可能な媒体、装置及びシステム

Info

Publication number: JP2008004080A
Application number: JP2007130736A
Authority: JP
Inventors: Khemdut Purang; プランケムドゥット; Mark Plutowski; プルトウスキーマーク
Original assignee: Sony Corp; Sony Electronics Inc
Current assignee: Sony Corp; Sony Electronics Inc
Priority date: 2006-05-16
Filing date: 2007-05-16
Publication date: 2008-01-10
Also published as: CN101075259A; US20070271274A1

Abstract

【課題】コミュニティによって生成されたウェブサイトをメタデータに用いる方法及びシステムを提供する。
【解決手段】カテゴリデータセットは、カテゴリと関係データの名前を含み、関係データは、カテゴリとコンテンツとの関係を定義する。コンテンツのためのカテゴリは、ウィキペディアウェブサイトのようにオンラインコミュニティによって生成され、特定のコンテンツに関連するウェブサイトからウェブページを検索し、コンテンツメタデータのためにウェブページを分析することにより生成される。そのコンテンツのためのカテゴリデータは、コンテンツメタデータから抽出される。さらに、カテゴリデータセット内の用語は、カテゴリ及び関係データに基づいて削減される。
【選択図】図１Ａ

Description

本発明は、一般に、マルチメディアに関し、特に、マルチメディアメタデータを生成するために、コミュニティによって生成されたデータ情報源を用いるマルチメディアに関する。

クラスタリング及び分類は、あるデータマイニングアプリケーションにおいて重要な操作である傾向がある。例えば、録画されたテレビ番組や電子番組ガイドの項目及びその他の種類のマルチメディアコンテンツ等のコンテンツを、ユーザが検索して自動的に整理することを支援する目的を有するデータシステムにおいて、データセットの中のデータはクラスタリング及び／または分類される必要がある可能性がある。

一般に、多くのクラスタリング及び分類アルゴリズムは、データセットが数値で示されるとき、例えば、データセット内のデータが全て固有の類似点の連続または自然な順序によって関連付けられているときに効果がある。数値で示されるデータセットは、単一の属性またはカテゴリを表すことが多い。一方、カテゴリ別のデータセットは、複数の属性またはカテゴリを表し、またそれらは個別的（discrete、不連続）であり、したがって、それらの間には、自然な距離または近接した基準が欠如していることが多い。

カテゴリデータセットは、カテゴリの名前と、関係データとを含み、関係データは、カテゴリとコンテンツとの関係を定義する。コンテンツのためのカテゴリは、ウィキペディア（WIKIPEDIA）ウェブサイトのような、オンラインコミュニティが生成した、特定のあるコンテンツに関連するウェブサイトからウェブページを取り出し、コンテンツメタデータのためにウェブページを解析することによって生成される。あるコンテンツのためのカテゴリデータは、コンテンツメタデータから抽出される。さらに、カテゴリデータセットの中の用語は、カテゴリ及び関係データに基づいて削減される。

本発明は、異なる範囲のシステム、クライアント、サーバ、方法及び機械読取可能な媒体に関連して説明される。ここで説明された本発明の側面に加えて、本発明のさらなる側面は、図面を参照し、以下の詳細な説明を読むことによって明らかにされるであろう。

本特許文書の開示の一部は、著作権保護の対象となる構成要素を含む。著作権者は、特許商標局の特許ファイルまたは記録において開示される特許文書または特許公開のいずれによる複製に対しても全く異議はないが、それ以外については全ての著作権を保有する。以下の通知（Copyright (c) 2005, Sony Electronics, Incorporated, All Rights Reserved.）は、図面において説明されるようなソフトウェア及びデータに対し適用される。

以下の本発明の実施形態の詳細な説明においては、同様の参照符号は同様の要素を示し、実施の可能性のある特定の実施形態を図示することによって示される添付図面が参照される。これらの実施形態は、当業者が発明の実施をすることができる程度に詳細に説明され、他の実施形態は、利用されることができ、論理的、機械的、電気的、機能的、及びその他の変更を本発明の範囲から逸脱しない範囲で行うことができると理解される。したがって、以下の詳細な説明は、制限する意味に解釈されるものではなく、本発明の範囲は、添付されたクレームのみによって定義される。

図１Ａは、コンテンツのような、カテゴリデータ１１による特徴付けが可能な情報を自動的に推薦または選択することが可能なデータシステム１０の図である。カテゴリデータは、カテゴリデータセットとしても参照され、複数の属性やカテゴリを記述する。各カテゴリは、カテゴリ名と関係データとを備える。関係データは、カテゴリと１または２以上の特定のコンテンツとの間の関係を定義する。ここで用いられる「用語（term、項目）」という語は、カテゴリ名である。ある実施形態においては、カテゴリデータは、用語と用語の関係の数に基づく次元を有する。カテゴリデータ内の用語及び／または用語の関係が多くなるほど、カテゴリデータの次元数は大きくなる。逆に、用語及び／または用語の関係が少なくなるほど、カテゴリデータの次元数は小さくなる。

さらに、カテゴリデータは、疎である（sparse）場合があり、これは、カテゴリデータは大きな次元数を有することを意味する。ある実施形態においては、カテゴリデータは疎である。なぜならば、カテゴリは不連続であり、カテゴリ間の自然な類似の基準が欠如しているからである。カテゴリデータには、例えば、電子番組ガイド（ＥＰＧ；electronic program guide）データやコンテンツメタデータが含まれる。データシステム１０は、前処理を行ってデータベース入力８Ａ−Ｎからカテゴリデータ１１をロードするための入力処理モジュール９を含む。ある実施形態において、データベース入力８Ａ−Ｎは、ウィキペディア（WIKIPEDIA）等の、コミュニティによって生成されたいくつかの情報源のうちの１つであることができる。

カテゴリデータ１１は、クラスタリング／分類モジュール１２によって、クラスタに分類され、かつ／あるいは、フォルダに分類される。モジュール１２によって行われるクラスタリング及び分類の詳細については、後述する。クラスタリング／分類モジュール１２の出力は、クラスタツリーや系統樹（樹状図）のような組織的なデータ構造１３である。クラスタツリーは、カテゴリデータのインデックスつきの組織として用いられてもよく、あるいは、データの最適なクラスタを選択するために用いられてもよい。

多くのクラスタリングアプリケーションは、カテゴリデータ内に存在するパターンの分布を最もよく示すクラスタツリー内の特定のレイヤを識別する必要がある。ある実施形態において、組織的なデータ構造１３には、最適な数のクラスタを含む唯一のクラスタグループを含む最適なレイヤが含まれる。

データ分析モジュール１４は、フォルダベースの分類子及び／またはクラスタリング操作によって生成された分類子を用いて、コンテンツを自動的に推薦または選択するようにしてもよい。データ分析モジュール１４は、ユーザにとって興味のあるコンテンツや、ユーザによって選択されたコンテンツに類似または関連するコンテンツを自動的に推薦または提供するようにしてもよい。ある実施形態においては、ユーザは、特定のコンテンツ項目を分類するカテゴリデータレコードの複数のフォルダを特定し、データ分析モジュール１４は、類似度に基づいて適切なフォルダを有する新しいコンテンツ項目のためにカテゴリデータレコードを割り当てる。

また、図１Ａに示すユーザーインタフェース１５は、ユーザがデータシステム１０を用いてコンテンツを検索し、自動的に組織化することを支援するために設計されている。このようなコンテンツは、例えば、録画されたテレビ番組、電子番組ガイド（ＥＰＧ）の項目及びマルチメディアコンテンツ等であってもよい。

クラスタリングは、カテゴリデータ間のいくつかの類似の基準に従ってカテゴリデータを複数のクラスタに組織化する処理である。モジュール１２は、初期値（seed）ベースの階層型クラスタリング、順序（order）不変クラスタリング及び部分空間有界帰納（再帰）クラスタリングを含む、１または２以上のクラスタリング処理を用いることによって、カテゴリデータをクラスタリングする。ある実施形態においては、クラスタリング／分類モジュール１２は、カテゴリデータを受け取った順番とは無関係の方法で、クラスタを結合する。

ある実施形態においては、ユーザによって生成されたフォルダのグループは、新しいカテゴリデータレコードが、ユーザが生成したフォルダグループに対し比較され最も適切なフォルダの中に自動的に分類されるような分類子としてふるまうことがある。他の実施形態においては、クラスタリング／分類モジュール１２は、ユーザのフィードバックに基づいて、フォルダベースの分類子を実装する。フォルダベースの分類子は、自動的にフォルダの集合を生成し、自動的にフォルダを集合に追加及び集合から削除する。フォルダベースの分類子はまた、集合の中にない他のフォルダのコンテンツを自動的に変更してもよい。

ある実施形態においては、クラスタリンク／分類モジュール１２は、クラスタリングまたは分類を行う前、あるいは行っている間にカテゴリデータを増加させるようにしてもよい。増加させるための１つの方法は、カテゴリデータの属性を割り振ることである。増加させることにより、クラスタリングと分類処理を支援するためのカテゴリデータの総合的な品質が高められつつ、カテゴリデータのどのような不足も緩和することができる。

クラスタリング／分類モジュール１２、組織的なデータ構造１３及びデータ分析モジュール１４は、図１Ａでは特に分離されたモジュールとして示したが、異なる分離されたモジュールとして実装されてもよく、あるいは、１または２以上のモジュールに結合されてもよい。

図１Ａに示すように、データベース入力モジュール９は、データベース８−Ｎからの情報を処理し、カテゴリデータセット１１に情報をロードする。データベース入力モジュール９は、上述したコミュニティによって生成された情報源から利用可能なデータを処理する公共情報源処理装置（パブリックソースプロセッサ）１７をさらに備える。ある実施形態において、公共情報源処理装置（パブリックソースプロセッサ）１７は、あるコンテンツのために情報を要求し、結果得られる情報をコンテンツメタデータに入力できる形式に加工する。

データベース入力モジュール９は、データベース次元減少モジュール１６をさらに備える。上述したように、カテゴリデータセットは、疎であることができる。データセットの次元数を減らすことによって、データセットを使用するモジュールの効果や品質が向上する。なぜなら、データセットは密度がより高く検索及び／または処理するのがより簡単になるからである。ある実施形態において、データベース次元減少モジュール１６は、カテゴリデータセット１１内の用語とコンテンツとの間の用語関係を変更することによって、カテゴリデータセット１１の次元数を減少させる。用語関係は、カテゴリデータ１１内の用語と、その用語に関連する１または２以上の特定のコンテンツとの関係を定義するデータである。他の実施形態においては、データベース次元減少モジュール１６は、カテゴリデータセット内の用語の数を減らすことによってカテゴリデータセット１１の次元数を減少させる。カテゴリデータの次元を減少させるための個々の方法論は、「コンテンツカテゴリデータのための次元数減少」（出願番号１１／４３５，４９４、代理人整理番号８０３９８．Ｐ６５５）と題する同時係属中の米国特許出願に記載されている。出願番号１１／４３５，４９４に記載されているように、カテゴリデータの次元数は、カテゴリデータセットの中のカテゴリ名及び関係データに基づいて減少される。関係データは、カテゴリデータセットとカテゴリデータセットに関連するコンテンツとの関係を定義している。

ある実施形態において、データベース入力モジュール９は、コンテンツメタデータから、特定のコンテンツのためのカテゴリデータを抽出する。コンテンツメタデータは、データシステム１０によって用いられるコンテンツを記述する情報である。図１Ｂは、データベース入力モジュール９によって処理される特定のコンテンツのためのコンテンツメタデータ１５０の一実施形態を示す。図１Ｂにおいて、コンテンツメタデータ１５０は、プログラム識別子１５２と、放送局（Station Broadcaster：ステーションブロードキャスタ、放送装置）１５４と、放送地域１５６と、カテゴリデータ１５８と、ジャンル１６０と、日付１６２と、開始時間１６４と、終了時間１６６と、（放送）期間（duration）１６８と、を備える。コンテンツメタデータ１５０は、さらに、付加的な領域（図示せず）を含んでもよい。プログラム識別子は、データシステム１０によって用いられるコンテンツを特定する。放送局（Station Broadcaster）１５４及び放送地域１５６は、放送局と、コンテンツが表示された地域とを特定する。さらに、コンテンツメタデータ１５０は、日付１６２、開始時間１６４及び終了時間１６６をもって、コンテンツが表示された日付と時間とを特定する。（放送）期間（duration）１６８は、コンテンツの（放送）期間である。さらに、ジャンルは、コンテンツに関するジャンルを示す。

特定のコンテンツのためのカテゴリデータは、コンテンツの断片に関連する異なるカテゴリを説明する１または２以上の用語（term、項目）である。図１Ｂに示すように、カテゴリデータ１５８は、ベスト、進行中（Underway）、スポーツ、ゴルフカテゴリ、ゴルフ、芸術、０サブカルチャー、アニメーション、家族、家族世代（FamilyGeneration）、子供（Child）、子供（Kids）、家族、家族世代（FamilyGeneration）及び子供（Child）等の用語を備える。したがって、カテゴリデータ１５８は、プログラムを説明する15の用語を備える。用語のいくつかは関連しており、例えば、「スポーツ、ゴルフカテゴリ、ゴルフ」はスポーツに関連する。また、「家族、家族世代（FamilyGeneration）、子供（Child）、子供（Kids）」は家族に関連する。さらに、カテゴリデータ１５８は、重複した用語や場合によっては未定義の用語（０サブカルチャー）を含んでいる。定義が不明であるので、未定義の用語は１つのプログラムに関連している。

正確かつ最新のコンテンツ１５０を生成することに関する１つの問題は、大量のコンテンツを維持することである。例えば、１週間のテレビ番組編成には、プログラムについて説明する何千もの個々の用語を有する何千ものプログラムがある可能性がある。大量のコンテンツデータを維持するためのコストや時間を削減するための可能な方法の１つは、ｗｉｋｉベースのウェブサイトのようにコミュニティによって生成されたウェブサイトからコンテンツメタデータを抽出することである。ｗｉｋｉベースのウェブサイトは、多言語でコンテンツ無料のウェブベース百科事典であり、ユーザが簡単にコンテンツを追加したり編集したりすることができるようになっている。一例としては、公に利用可能なウィキペディア（WIKIPEDIA）サービスがある。このように、ｗｉｋｉ百科事典は、多くのユーザの協力によって書かれたものであり、記事の殆どをウェブブラウザを用いて誰でも編集することが可能である。これにより、コンテンツのためのメタデータを生成することが比較的安価な方法により可能となっている。

図２は、コミュニティによって生成されたウェブサイトからコンテンツメタデータを生成するための方法２００の一実施形態のフローチャートである。一実施形態においては、方法２００は、ｗｉｋｉタイプのウェブサイトからコンテンツ情報を検索する。他の実施形態にといては、方法２００は、他のコミュニティまたは商業ウェブサイト、例えば、ウィキペディア（WIKIPEDIA）、グレースノート（GRACENOTE）、インターネット・ムービー・データベース（IMDB；The Internet Movie Database）、ムードロジック（MOODLOGIC）、ROTTEN TOMATOES、AMG、AMAZON等からコンテンツ情報を検索する。

方法２００は、ウェブ検索を通して情報を取り込むことによって、ｗｉｋｉに含まれる情報を利用することができる。ブロック２０２では、方法２００は、興味のあるコンテンツに関する情報を受け取る。例えば、ある実施形態においては、方法２００は、タイトル、ジャンル及び俳優、女優、プロデューサ、ディレクター等の情報を受け取る。ブロック２０４で、方法２００は、受け取ったコンテンツ情報に基づいて、コンテンツに関連するウェブページを検索する。検索されたウェブの一実施形態について、図３でさらに説明する。

ブロック２０６では、方法２００は、検索されたウェブページからテキストを抽出する。テキストの抽出は、興味のあるコンテンツについて記述あるいは関連する用語を抽出する。テキスト抽出の一実施形態について、図４でさらに説明する。

ブロック２０８で、方法２００は、任意に、抽出されたテキストから停止語を取り除く。ある実施形態では、停止語は、文、節などを区別する句読点である。あるいは、停止語は、ａ、ｔｈｅ、ａｎ、ｏｆ、ｉｎ、ｂｕｔ、ｏｒ等の他の指標を含むことができる。停止語を取り除くことによって、抽出されたテキストは、コンテンツ及び停止語ではない他の用語に関連する用語と共に残される。

ブロック２１０で、方法２００は、任意に、本技術分野において既知の語幹抽出アルゴリズムの１つを用いて、抽出されたテキストから語幹抽出用語を取り除く。語幹抽出アルゴリズムは、例えば、Paice/Husk、Porter、Lovins、Dawson、Krovetz等であるがこれに限られない。語幹抽出は、用語をその語幹または原形に変える。例えば、単語「計算する」と「計算」は、「計算」という語幹を有する。語幹抽出によって、抽出されたテキスト内の用語の数が減少されるように、用語の語幹抽出は、抽出されたテキストの中の用語の変形をさらに減少させる。

ブロック２１２では、方法２００は、変更された抽出テキストからそのコンテンツのためのメタデータに用語を追加する。例えば、方法２００は、コンテンツのジャンル、俳優、女優、賞、プロデューサ、ディレクター、レビュー、さらなる情報へのリンク等に関する用語を抽出する。ある実施形態においては、方法２００は、抽出された用語をカテゴリデータに追加する。本実施形態には、方法２００は、コンテンツを分類するのに役立つカテゴリデータ１１に抽出された用語を追加する。カテゴリデータ１１は、ジャンル、俳優、女優、賞、プロデューサ、ディレクター等であるが、これに限られない。あるいは、方法２００は、データを分類することができる。別の実施形態では、方法２００は、コンテンツメタデータを格納するのに用いられる、別のメタデータデータベースに用語を追加する。

図３は、コンテンツウェブページを検索するための方法３００の一実施形態のフローチャートである。ブロック３０２では、方法３００は、興味のあるコンテンツに関する情報を受け取る。例えば、ある実施形態では、方法３００は、コンテンツのタイトル、ジャンル、コンテンツの長さ、製作年、及び俳優、女優、プロデューサ、ディレクター等についての情報を受け取る。受け取った情報に基づいて、方法３００は、コンテンツのためのＵＲＬ（uniform resource locator）を形成する。例えば、方法３００が、公開ウィキペディア（WIKIPEDIA）から“スター・ウォーズエピソード４／新たなる希望（Star Wars IV: A New Hope）”についての情報を検索する場合、方法３００は、情報源（“en.wikipedia.org/wiki/”）及びタイトル（“Star Wars IV: A New Hope”）に基づいてＵＲＬを生成する。各コミュニティの情報源は、アクセスに用いられるそれぞれのフォーマットを持つことができる。

ブロック３０６で、方法３００は、ブロック３０４で形成されたＵＲＬを開く。ある実施形態においては、方法３０６はＨＴＴＰ（Hypertext transfer protocol）リクエストを行うことによってＵＲＬを開くが、別の実施形態では、方法３００は、他のプロトコル（ＨＴＴＰＳ等）を用いてＵＲＬを開く。方法３０８は、ブロック３０８で、ＵＲＬコンテンツを返す。

図４は、コンテンツウェブページを構文解析（パース）するための方法４００の一実施形態のフローチャートである。ブロック４０２で、方法４００は、ウェブページを受け取る。ある実施形態においては、ウェブページは、ＨＴＭＬ（hypertext markup language）ページである。あるいは、ウェブページは、本技術分野において既知の他の種類のテキストフォーマット（Extended HTML （XHTML）、extended markup language（XML）、standard generalized markup language（SGML）等）であってもよい。

ブロック４０４では、方法４００は、ＨＴＭＬ構文解析の動作を指定する。構文解析の動作は、ＨＴＭＬ構文解析ツール（パーサ）が受け取ったウェブページから単語をどのようにして抽出するかを定義する。例えば、方法４００は、ＨＴＭＬタグ内の全テキストを除去したり、ＨＴＭＬの“ＭＥＴＡ”タグを除く全てのＨＴＭＬタグを除去したり、数字で始まる単語を無視したりするように指定することができる。さらに、他の実施形態においては、方法４００は、他のフォーマットの種類（ＸＨＴＭＬ、ＸＭＬ、ＳＧＭＬ等）に基づいて構文解析の動作を指定することができる。指定された構文解析の動作に基づいて、方法４００は、ブロック４０６で本技術分野において既知のアルゴリズム、例えば本実施形態において既知の構文解析の動作、例えば空白で単語を分離する（“Ｍｒ．Ｘ”、“ＪｏｅＰｕｂｌｉｃ”等の場合を除く）等の方法を用いて、ＨＴＭＬページの構文解析を行い単語を分離する。ブロック４０８で、方法４００は、最初のＮ個の単語を構文解析が行われたＨＴＭＬページから抽出する。一実施形態においては、Ｎは、単語の大まかな制限である。あるいは、Ｎは、例えば、テキストの最初のＮ段落から選択された単語といったように、処理された段落の数に基づく制限であってもよい。抽出されたメタデータは、カテゴリデータ１１への入力として用いられるため、抽出された単語の数を制限することにより、カテゴリデータの大きさをより小さく維持することができる。あるいは、方法４００は、全ての単語を構文解析が行われたＨＴＭＬページから抽出する。

図５は、コミュニティによって生成されたウェブサイトからコンテンツメタデータを生成する装置の一実施形態を示すブロック図である。ある実施形態においては、入力プロセッサ１１が、公共情報源処理装置（パブリックソースプロセッサ）１７を含む。あるいは、入力プロセッサ１１は、公共情報源処理装置１７を含まないが、公共情報源処理装置１７と結合されている。公共情報源処理装置１７は、情報検索モジュール５０２と、テキスト抽出モジュール５０４と、停止語処理モジュール５０６と、語幹抽出処理モジュール５０８と、メタデータ出力モジュール５１０とを備える。情報検索モジュール５０２は、図２のブロック２０４に示されるように、特定のコンテンツに関する、コミュニティによって生成された情報源から情報を検索する。テキスト抽出モジュール５０４は、図２のブロック２０６に示されるように、要求された情報から用語を抽出する。停止語処理モジュール５０６は、図２のブロック２０８に示すように、抽出された用語から停止語を除去する。語幹抽出処理モジュール５０６は、図２のブロック２１０に示されるように、抽出された用語を関連する語幹にする処理を行う。メタデータ出力モジュール５１０は、図２のブロック２１２に示すように、抽出された用語を特定のコンテンツのためのメタデータに追加する。

以下の図６〜７の説明は、上述した本発明にかかる方法を実行するのに好適なコンピュータハードウェア及び他の操作コンポーネントの概略を提供することを意図するものであるが、適用可能な環境はこれに限られることを意味するものではない。当業者であれば、本発明の実施形態は他のコンピュータシステム構成で実現されることも可能であることを直ちに理解するであろう。他のコンピュータシステム構成は、例えば、携帯端末、マルチプロセッサシステム、マイクロプロセッサベースの、あるいはプログラム可能な家電、ネットワークＰＣ、ミニコンピュータ、メインフレーム・コンピュータ及び同様のものを含む。本発明の実施形態は、ピアツーピアネットワーク基盤のような通信ネットワークを通じてリンクされている遠隔処理装置によってタスクが実行される分散コンピューティング環境において、実現されることも可能である。

実際には、ここで説明した方法は、機械実行可能な命令からなる１または２以上のプログラムを構成するようにしてもよい。図２〜４のフローチャートを参照して方法を説明することにより、当業者は、好適に構成された機械（機械読取可能な媒体から命令を実行する機械のプロセッサ）上で論理ブロックによって表された操作（行為）を実行するための命令を含む、プログラムを開発することが可能となる。機械実行可能な命令は、コンピュータプログラミング言語で記述されてもよく、あるいは、ファームウェア論理回路またはハードウェア回路で実装されてもよい。認識されている規格に従うプログラミング言語で記述された命令の場合、様々なハードウェアプラットホーム上で、そして様々なオペレーティングシステムへのインタフェースに対し実行されることができる。さらに、本発明は、いかなる特定のプログラミング言語に関して説明されるものではない。ここで説明されるような本発明の内容を実装するためには、多様なプログラミング言語を用いることができると理解されたい。さらに、動作を行いまたは結果をもたらすようなソフトウェアを、一または他の形式（例えば、プログラム、手続き、プロセス、アプリケーション、モジュール、ロジック等）で呼ぶことは、本技術分野においては一般的である。このような表現は、単に、機械によるソフトウェアの実行が機械のプロセッサに動作を実行させ、あるいは結果を生成させることを言うための省略表現に過ぎない。さらに、発明の範囲から逸脱しない範囲で、より多くまたはより少ないプロセスをフローチャートに図示された方法に組み入れるようにしてもよく、いかなる特定の順番もここに示され説明されたブロックの配列によって暗黙に定義されるものではないと理解されたい。

図６は、インターネット等のネットワーク６０２を通じて互いに連結されるいくつかのコンピュータシステム６００を示す。ここで用いられる「インターネット」という語は、ＷＷＷ（World Wide Web）を構成するハイパーテキストマークアップ言語（HyperText Markup Language；ＨＴＭＬ）文書にＴＣＰ／ＩＰプロトコルや、場合によってはＨＴＴＰ（hypertext transfer protocol）等の他のプロトコルなどの所定のプロトコルを用いるネットワークのことを呼ぶ。インターネットの物理接続及びインターネットのプロトコル及び通信手順は、当業者に周知である。インターネット６０２へのアクセスは、一般に、ＩＳＰ６０４及び６０６のようなインターネットサービスプロバイダ（Internet Service Providers；ＩＳＰ）によって提供される。クライアントコンピュータシステム６１２、６１６、６２４及び６２６のようなクライアントシステム上のユーザは、ＩＳＰ６０４及び６０６のようなインターネットサービスプロバイダを通じてインターネットへのアクセスを行う。インターネットにアクセスすることによってクライアントコンピュータシステムのユーザは、情報の交換、電子メールの送受信、ＨＴＭＬ形式で作成されている文書等の文書の閲覧が可能となる。これらの文書は、インターネット「上に」あると見なされているウェブサーバ６０８のようなウェブサーバによって提供されていることが多い。コンピュータシステムは、本技術分野において周知のＩＳＰでもあるシステムなしで構成され、インターネットに接続されることができるが、多くの場合、これらのウェブサーバは、ＩＳＰ６０４等のＩＳＰによって提供されている。

ウェブサーバ６０８は、通常少なくとも１つのサーバコンピュータシステムとして動作し、ＷＷＷのプロトコルを用いて動作するように構成され、インターネットに接続されるコンピュータシステムである。任意に、ウェブサーバ６０８は、クライアントシステムにインターネットへのアクセスを提供するＩＳＰの一部であることができる。ウェブサーバ６０８は、それ自体がウェブコンテンツ６４０に連結されるサーバコンピュータシステム６１０に接続されるように表され、ウェブコンテンツ６４０は、メディアデータベースの一形式であると見なすことができる。図６には、２つのコンピュータシステム６０８及び６１０が示されているが、ウェブサーバシステム６０８及びサーバコンピュータシステム６１０は、ウェブサーバ機能と、以下でさらに説明されるサーバコンピュータシステム６１０によって提供されるサーバ機能とを提供する異なるソフトウェアコンポーネントを有する１つのコンピュータシステムであってもよい。

クライアントコンピュータシステム６１２、６１６、６２４及び６２６は、それぞれ、適当なウェブブラウザソフトウェアを備え、ウェブサーバ６０８によって提供されるＨＴＭＬページを閲覧することができる。ＩＳＰ６０４は、クライアントコンピュータシステム６１２の一部であると見なされることができるモデムインタフェース６１４を通じて、クライアントコンピュータシステム６１２にインターネット接続を提供する。クライアントコンピュータシステムは、パーソナルコンピュータシステム、ネットワークコンピュータ、ウェブＴＶシステム、携帯端末、またはその他のコンピュータシステムであってもよい。同様に、ＩＳＰ６０６は、図６に示されるこれら３つのコンピュータシステムに対する接続と同一ではないが、クライアントシステム６１６、６２４及び６２６にインターネット接続を提供する。クライアントコンピュータシステム６１６は、クライアントコンピュータシステム６２４及び６２６がＬＡＮの一部であると同時に、モデムインタフェース６１８を通じて結合される。図６には、インタフェース６１４及び６１８が、総称してモデムとして示されるが、これらのインタフェースの各々は、アナログモデム、ＩＳＤＮモデム、ケーブルモデム、衛星通信インタフェース、または一のコンピュータシステムを他のコンピュータシステムに結合するための他のインタフェースであってもよいと理解されたい。クライアントコンピュータシステム６２４及び６２６は、イーサネット（登録商標）ネットワークまたは他のネットワークインタフェースであることができるネットワークインタフェース６３０及び６３２を通じてＬＡＮ６２２に接続される。ＬＡＮ６２２はまた、ファイアウォール及び他のローカルエリアネットワーク向けのインターネット関連サービスを提供可能なゲートウェイコンピュータシステム６２０に接続される。ゲートウェイコンピュータシステム６２０は、インターネット接続をクライアントコンピュータシステム６２４及び６２６に提供するためにＩＳＰ６０６に接続される。ゲートウェイコンピュータシステム６２０は、従来のサーバコンピュータシステムであってもよい。また、ウェブサーバシステム６０８は、従来のサーバコンピュータシステムであってもよい。

あるいはまた、周知のように、サーバコンピュータシステム６２８は、ファイル６３６及び他のサービスをクライアント６２４、６２６に提供するために、ゲートウェイシステム６２０を通じてインターネットに接続せずに、ネットワークインタフェース６３４を通じて直接ＬＡＮ６２２に接続されてもよい。さらにクライアントシステム６１２、６１６、６２４及び６２６のいずれかの組み合わせが、ＬＡＮ６２２、インターネット６０２、または通信媒体としての組み合わせを用いて、ピアツーピアネットワークで同時に接続されるようにしてもよい。一般に、ピアツーピアネットワークは、中央サーバまたはサーバ群を用いないで、記憶及び検索のための複数の機械のネットワーク全体にデータを配布する。従って、各ピアネットワークノードは、上述したクライアント及びサーバの両方の機能を組み込むようにしてもよい。

図７は、エンコーダまたはデコーダとして使用可能な従来のコンピュータシステムの一実施形態を示している。コンピュータシステム７００は、モデムまたはネットワークインタフェース７０２を通じて外部のシステムに連結する。モデムまたはネットワークインタフェース７０２は、コンピュータシステム７００の一部であると見なすことができると理解されたい。このインタフェース７０２は、アナログモデム、ＩＳＤＮモデム、ケーブルモデム、トークンリングインタフェース、衛星通信インタフェース、またはコンピュータシステムを他のコンピュータシステムと結合するための他のインタフェースであってもよい。コンピュータシステム７０２は、処理装置７０４を含み、処理装置７０４は、インテルペンティアム（登録商標）マイクロプロセッサまたはモトローラパワーＰＣマイクロプロセッサ等の従来のマイクロプロセッサであってもよい。メモリ７０８は、バス７０６によってプロセッサ７０４に結合される。メモリ７０８は、ダイナミック・ランダム・アクセス・メモリ（dynamic random access memory；ＤＲＡＭ）であってもよく、また、スタティック・ランダム・アクセス・メモリ(SRAM)を含むようにしてもよい。バス７０６は、メモリ７０８と、不揮発性記憶装置７１４と、ディスプレイ制御装置７１０と、入力／出力（入出力）制御装置７１６ともプロセッサ７０４を結合する。ディスプレイ制御装置７１０は、ディスプレイ装置７１２上の表示を従来の方法で制御し、ディスプレイ装置７１２は、ブラウン管（cathode ray tube；ＣＲＴ）ディスプレイまたは液晶ディスプレイ（liquid crystal display；ＬＣＤ）であってもよい。入力／出力装置７１８は、キーボード、ディスクドライブ、プリンタ、スキャナ、及び、マウスや他のポインティングデバイスを含む他の入出力装置を含むことができる。ディスプレイ制御装置７１０及び入出力制御装置７１６は、従来周知技術を用いて実装されることができる。ディジタル画像入力装置７２０は、デジタルカメラからの画像をコンピュータシステム７００に入力できるようにするために入出力制御装置７１６と結合されるデジタルカメラであってもよい。不揮発性記憶装置７１４は、磁気ハードディスク、光ディスク、または大量データのための別の形式の記憶装置であることが多い。このいくつかのデータは、ダイレクトメモリアクセスプロセスによって、コンピュータシステム７００でソフトウェアが実行される間に度々メモリ７０８に書き込みされる。当業者であれば、「コンピュータ読取可能な媒体」及び「機械読取可能な媒体」という用語が、プロセッサ７０４によってアクセス可能ないかなる種類の記憶装置も含み、データ信号をコード化する搬送波をも網羅することは直ちに理解されるであろう。

ネットワークコンピュータは、本発明の実施形態と共に用いることが可能な別の種類のコンピュータシステムである。ネットワークコンピュータは、通常、ハードディスクや他の大容量記憶装置を含まず、かつ、実行可能なプログラムが、プロセッサ７０４によって実行されるためにネットワーク接続からメモリ７０８にロードされる。本技術分野において既知のウェブテレビのシステムも、本発明の実施形態に沿ったコンピュータシステムであると考えられるが、所定の入力または出力装置のような図７に示される特徴のいくつかが欠けていてもよい、一般的なコンピュータシステムは、通常、少なくとも１つのプロセッサ、メモリ、及びメモリをプロセッサに結合するバスを含む。

コンピュータシステム７００は、異なるアーキテクチャを有する多くの可能なコンピュータシステムの一例であると理解されたい。例えば、インテルマイクロプロセッサを基礎とするパーソナルコンピュータは、複数のバスを備えることが多く、その１つは、周辺機器と、プロセッサ７０４及びメモリ７０８（メモリバスと呼ばれることが多い）に直接接続するものとのための入力／出力（入出力）バスであってもよい。バスは、異なるバスプロトコルのために必要とされる任意の変換を実行するブリッジコンポーネントを通じて同時に接続される。

また、コンピュータシステム７００は、オペレーティングシステムソフトウェアの一部であるディスクオペレーティングシステム等のファイル管理システムを含む、オペレーティングシステムソフトウェアによって制御されると理解されたい。関連するファイル管理システムソフトウェアを備えるオペレーティングシステムソフトウェアの一例が、ワシントン州レッドモンドのマイクロソフト社のＷｉｎｄｏｗｓ（登録商標）として知られるオペレーティングシステムのファミリー及びそれらの関連するファイル管理システムである。ファイル管理システムは、一般に、不揮発性記憶装置７１４に格納され、不揮発性記憶装置７１４に格納されているファイルを含むデータを入出力しメモリにデータを格納するためにオペレーティングシステムによって必要とされる様々な動作をプロセッサ７０４に実行させる。

以上の明細書において、本発明は、その特定の模範的な実施形態に関して説明された。それに加えて以下のクレームに詳しく説明されるように、本発明のより広い精神と範囲から逸脱しない範囲で様々な変更が可能であることは言うまでもない。従って、明細書及び図面は、制限的な意味よりもむしろ説明に役立てる意味に取られるべきものである。

マルチメディアデータベースシステムの一実施形態を示す図である。コンテンツメタデータの一実施形態を示す図である。コミュニティによって生成されたウェブサイトから得られるコンテンツのためのメタデータを生成する方法の一実施形態を示すフローチャートである。図３の方法において用いられるコンテンツのウェブページを検索する方法の一実施形態を示すフローチャートである。コンテンツのウェブページを構文解析する方法の一実施形態を示すフローチャートである。コミュニティによって生成されたウェブサイトからコンテンツメタデータを生成する装置の一実施形態を示すブロック図である。本発明を実施するのに適切な動作環境の一実施形態の図である。図２〜４の動作環境において用いられるのに適切なコンピュータシステムの一実施形態の図である。

Claims

コミュニティによって生成されたウェブサイトから、特定のコンテンツに関連するウェブページを受信する段階と、
前記ウェブページから複数の用語を抽出する段階と、
前記コンテンツに関連するコンテンツメタデータに前記複数の用語を追加する段階と、
前記コンテンツメタデータから特定のカテゴリデータを抽出する段階と、
前記特定のカテゴリデータをカテゴリテータセットに取り込む段階と、
前記カテゴリデータセットと関係データに基づく前記カテゴリデータセットの次元数を減少させる段階と、を備え、
前記関係データは、前記カテゴリデータセットと前記カテゴリデータセットに関連するコンテンツとの関係を定義することを特徴とする、コンピュータ化された方法。
前記複数の用語を抽出する段階は、
前記ウェブページの中の用語を語幹抽出する段階と、
前記ウェブページから停止語を除去する段階と、
前記ウェブページから限定された数の用語を抽出する段階と、
のうち少なくとも１つをさらに備えることを特徴とする、請求項１に記載のコンピュータ化された方法。
前記複数の用語を抽出する段階は、前記ウェブページのフォーマットにおける構文解析動作を定義する段階をさらに備えることを特徴とする、請求項１に記載のコンピュータ化された方法。
前記メタデータは、前記カテゴリデータであることを特徴とする、請求項１に記載のコンピュータ化された方法。
コミュニティによって生成されたウェブサイトから、特定のコンテンツに関連するウェブページを受信する段階と、
前記ウェブページから複数の用語を抽出する段階と、
前記コンテンツに関連するコンテンツメタデータに前記複数の用語を追加する段階と、
前記コンテンツメタデータから特定のカテゴリデータを抽出する段階と、
前記特定のカテゴリデータをカテゴリテータセットに取り込む段階と、
前記カテゴリデータセットと関係データに基づく前記カテゴリデータセットの次元数を減少させる段階と、を備え、
前記関係データは、前記カテゴリデータセットと前記カテゴリデータセットに関連するコンテンツとの関係を定義することを特徴とする、機械読取可能な媒体。
前記複数の用語を抽出する段階は、
前記ウェブページの中の用語を語幹抽出する段階と、
前記ウェブページから停止語を除去する段階と、
前記ウェブページから限定された数の用語を抽出する段階と、
のうち少なくとも１つをさらに備えることを特徴とする、請求項５に記載の機械読取可能な媒体。
前記複数の用語を抽出する段階は、前記ウェブページのフォーマットにおける構文解析動作を定義する段階をさらに備えることを特徴とする、請求項５に記載の機械読取可能な媒体。
前記メタデータは、前記カテゴリデータであることを特徴とする、請求項５に記載の機械読取可能な媒体。
コミュニティによって生成されたウェブサイトから、特定のコンテンツに関連するウェブページを受信する手段と、
前記ウェブページから複数の用語を抽出する手段と、
前記コンテンツに関連するコンテンツメタデータに前記複数の用語を追加する手段と、
前記コンテンツメタデータから特定のカテゴリデータを抽出する手段と、
前記特定のカテゴリデータをカテゴリテータセットに取り込む手段と、
前記カテゴリデータセットと関係データに基づく前記カテゴリデータセットの次元数を減少させる手段と、を備え、
前記関係データは、前記カテゴリデータセットと前記カテゴリデータセットに関連するコンテンツとの関係を定義することを特徴とする装置。
前記複数の用語を抽出する手段は、
前記ウェブページの中の用語を語幹抽出することと、
前記ウェブページから停止語を除去することと、
前記ウェブページから限定された数の用語を抽出することと、
のうち少なくとも１つをさらに備えることを特徴とする、請求項９に記載の装置。
前記複数の用語を抽出する手段は、前記ウェブページのフォーマットにおける構文解析動作を定義することをさらに備えることを特徴とする、請求項９に記載の装置。
前記メタデータは、前記カテゴリデータであることを特徴とする、請求項９に記載の装置。
プロセッサと、
バスを介して前記プロセッサと結合されたメモリと、
前記プロセッサが、
コミュニティによって生成されたウェブサイトから、特定のコンテンツに関連するウェブページを受信し、
前記ウェブページから複数の用語を抽出し、
前記コンテンツに関連するコンテンツメタデータに前記複数の用語を追加し、
前記コンテンツメタデータから特定のカテゴリデータを抽出し、
前記特定のカテゴリデータをカテゴリテータセットに取り込み、
前記カテゴリデータセットと関係データに基づく前記カテゴリデータセットの次元数を減少させ、前記関係データは、前記カテゴリデータセットと前記カテゴリデータセットに関連するコンテンツとの関係を定義するように、前記プロセッサによって前記メモリから実行されるプロセスと、
を備えるシステム。
前記複数の用語を抽出することは、
前記ウェブページの中の用語を語幹抽出することと、
前記ウェブページから停止語を除去することと、
前記ウェブページから限定された数の用語を抽出することと、
のうち少なくとも１つをさらに備えることを特徴とする、請求項１３に記載のシステム。
前記複数の用語を抽出することは、前記ウェブページのフォーマットにおける構文解析動作を定義することをさらに備えることを特徴とする、請求項１３に記載のシステム。
前記メタデータは、前記カテゴリデータであることを特徴とする、請求項１３に記載のシステム。