JP2008004080A - コミュニティによって生成されたウェブサイトをメタデータに用いる方法、機械読取可能な媒体、装置及びシステム - Google Patents
コミュニティによって生成されたウェブサイトをメタデータに用いる方法、機械読取可能な媒体、装置及びシステム Download PDFInfo
- Publication number
- JP2008004080A JP2008004080A JP2007130736A JP2007130736A JP2008004080A JP 2008004080 A JP2008004080 A JP 2008004080A JP 2007130736 A JP2007130736 A JP 2007130736A JP 2007130736 A JP2007130736 A JP 2007130736A JP 2008004080 A JP2008004080 A JP 2008004080A
- Authority
- JP
- Japan
- Prior art keywords
- content
- category data
- terms
- extracting
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
【解決手段】カテゴリデータセットは、カテゴリと関係データの名前を含み、関係データは、カテゴリとコンテンツとの関係を定義する。コンテンツのためのカテゴリは、ウィキペディアウェブサイトのようにオンラインコミュニティによって生成され、特定のコンテンツに関連するウェブサイトからウェブページを検索し、コンテンツメタデータのためにウェブページを分析することにより生成される。そのコンテンツのためのカテゴリデータは、コンテンツメタデータから抽出される。さらに、カテゴリデータセット内の用語は、カテゴリ及び関係データに基づいて削減される。
【選択図】図1A
Description
Claims (16)
- コミュニティによって生成されたウェブサイトから、特定のコンテンツに関連するウェブページを受信する段階と、
前記ウェブページから複数の用語を抽出する段階と、
前記コンテンツに関連するコンテンツメタデータに前記複数の用語を追加する段階と、
前記コンテンツメタデータから特定のカテゴリデータを抽出する段階と、
前記特定のカテゴリデータをカテゴリテータセットに取り込む段階と、
前記カテゴリデータセットと関係データに基づく前記カテゴリデータセットの次元数を減少させる段階と、を備え、
前記関係データは、前記カテゴリデータセットと前記カテゴリデータセットに関連するコンテンツとの関係を定義することを特徴とする、コンピュータ化された方法。 - 前記複数の用語を抽出する段階は、
前記ウェブページの中の用語を語幹抽出する段階と、
前記ウェブページから停止語を除去する段階と、
前記ウェブページから限定された数の用語を抽出する段階と、
のうち少なくとも1つをさらに備えることを特徴とする、請求項1に記載のコンピュータ化された方法。 - 前記複数の用語を抽出する段階は、前記ウェブページのフォーマットにおける構文解析動作を定義する段階をさらに備えることを特徴とする、請求項1に記載のコンピュータ化された方法。
- 前記メタデータは、前記カテゴリデータであることを特徴とする、請求項1に記載のコンピュータ化された方法。
- コミュニティによって生成されたウェブサイトから、特定のコンテンツに関連するウェブページを受信する段階と、
前記ウェブページから複数の用語を抽出する段階と、
前記コンテンツに関連するコンテンツメタデータに前記複数の用語を追加する段階と、
前記コンテンツメタデータから特定のカテゴリデータを抽出する段階と、
前記特定のカテゴリデータをカテゴリテータセットに取り込む段階と、
前記カテゴリデータセットと関係データに基づく前記カテゴリデータセットの次元数を減少させる段階と、を備え、
前記関係データは、前記カテゴリデータセットと前記カテゴリデータセットに関連するコンテンツとの関係を定義することを特徴とする、機械読取可能な媒体。 - 前記複数の用語を抽出する段階は、
前記ウェブページの中の用語を語幹抽出する段階と、
前記ウェブページから停止語を除去する段階と、
前記ウェブページから限定された数の用語を抽出する段階と、
のうち少なくとも1つをさらに備えることを特徴とする、請求項5に記載の機械読取可能な媒体。 - 前記複数の用語を抽出する段階は、前記ウェブページのフォーマットにおける構文解析動作を定義する段階をさらに備えることを特徴とする、請求項5に記載の機械読取可能な媒体。
- 前記メタデータは、前記カテゴリデータであることを特徴とする、請求項5に記載の機械読取可能な媒体。
- コミュニティによって生成されたウェブサイトから、特定のコンテンツに関連するウェブページを受信する手段と、
前記ウェブページから複数の用語を抽出する手段と、
前記コンテンツに関連するコンテンツメタデータに前記複数の用語を追加する手段と、
前記コンテンツメタデータから特定のカテゴリデータを抽出する手段と、
前記特定のカテゴリデータをカテゴリテータセットに取り込む手段と、
前記カテゴリデータセットと関係データに基づく前記カテゴリデータセットの次元数を減少させる手段と、を備え、
前記関係データは、前記カテゴリデータセットと前記カテゴリデータセットに関連するコンテンツとの関係を定義することを特徴とする装置。 - 前記複数の用語を抽出する手段は、
前記ウェブページの中の用語を語幹抽出することと、
前記ウェブページから停止語を除去することと、
前記ウェブページから限定された数の用語を抽出することと、
のうち少なくとも1つをさらに備えることを特徴とする、請求項9に記載の装置。 - 前記複数の用語を抽出する手段は、前記ウェブページのフォーマットにおける構文解析動作を定義することをさらに備えることを特徴とする、請求項9に記載の装置。
- 前記メタデータは、前記カテゴリデータであることを特徴とする、請求項9に記載の装置。
- プロセッサと、
バスを介して前記プロセッサと結合されたメモリと、
前記プロセッサが、
コミュニティによって生成されたウェブサイトから、特定のコンテンツに関連するウェブページを受信し、
前記ウェブページから複数の用語を抽出し、
前記コンテンツに関連するコンテンツメタデータに前記複数の用語を追加し、
前記コンテンツメタデータから特定のカテゴリデータを抽出し、
前記特定のカテゴリデータをカテゴリテータセットに取り込み、
前記カテゴリデータセットと関係データに基づく前記カテゴリデータセットの次元数を減少させ、前記関係データは、前記カテゴリデータセットと前記カテゴリデータセットに関連するコンテンツとの関係を定義するように、前記プロセッサによって前記メモリから実行されるプロセスと、
を備えるシステム。 - 前記複数の用語を抽出することは、
前記ウェブページの中の用語を語幹抽出することと、
前記ウェブページから停止語を除去することと、
前記ウェブページから限定された数の用語を抽出することと、
のうち少なくとも1つをさらに備えることを特徴とする、請求項13に記載のシステム。 - 前記複数の用語を抽出することは、前記ウェブページのフォーマットにおける構文解析動作を定義することをさらに備えることを特徴とする、請求項13に記載のシステム。
- 前記メタデータは、前記カテゴリデータであることを特徴とする、請求項13に記載のシステム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/436,011 US20070271274A1 (en) | 2006-05-16 | 2006-05-16 | Using a community generated web site for metadata |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008004080A true JP2008004080A (ja) | 2008-01-10 |
Family
ID=38713176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007130736A Withdrawn JP2008004080A (ja) | 2006-05-16 | 2007-05-16 | コミュニティによって生成されたウェブサイトをメタデータに用いる方法、機械読取可能な媒体、装置及びシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20070271274A1 (ja) |
JP (1) | JP2008004080A (ja) |
CN (1) | CN101075259A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010191940A (ja) * | 2009-01-23 | 2010-09-02 | Kenwood Corp | 情報処理装置および情報処理方法、並びにプログラム |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8196039B2 (en) * | 2006-07-07 | 2012-06-05 | International Business Machines Corporation | Relevant term extraction and classification for Wiki content |
US20080010386A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method and apparatus for client wiring model |
US7954052B2 (en) * | 2006-07-07 | 2011-05-31 | International Business Machines Corporation | Method for processing a web page for display in a wiki environment |
US8219900B2 (en) * | 2006-07-07 | 2012-07-10 | International Business Machines Corporation | Programmatically hiding and displaying Wiki page layout sections |
US8775930B2 (en) | 2006-07-07 | 2014-07-08 | International Business Machines Corporation | Generic frequency weighted visualization component |
US20080010338A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method and apparatus for client and server interaction |
US20080010387A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method for defining a Wiki page layout using a Wiki page |
US8560956B2 (en) * | 2006-07-07 | 2013-10-15 | International Business Machines Corporation | Processing model of an application wiki |
US20080010345A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method and apparatus for data hub objects |
US20080040661A1 (en) * | 2006-07-07 | 2008-02-14 | Bryce Allen Curtis | Method for inheriting a Wiki page layout for a Wiki page |
US20080010388A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method and apparatus for server wiring model |
CN102768670B (zh) * | 2012-05-31 | 2014-08-20 | 哈尔滨工程大学 | 基于节点属性标签传播的网页聚类方法 |
US10642941B2 (en) * | 2015-04-09 | 2020-05-05 | International Business Machines Corporation | System and method for pipeline management of artifacts |
CN106126688B (zh) * | 2016-06-29 | 2020-03-24 | 厦门趣处网络科技有限公司 | 基于web内容和结构挖掘的智能网络信息采集系统、方法 |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5963746A (en) * | 1990-11-13 | 1999-10-05 | International Business Machines Corporation | Fully distributed processing memory element |
WO1995017711A1 (en) * | 1993-12-23 | 1995-06-29 | Diacom Technologies, Inc. | Method and apparatus for implementing user feedback |
US5734916A (en) * | 1994-06-01 | 1998-03-31 | Screenplay Systems, Inc. | Method and apparatus for identifying, predicting, and reporting object relationships |
US6460036B1 (en) * | 1994-11-29 | 2002-10-01 | Pinpoint Incorporated | System and method for providing customized electronic newspapers and target advertisements |
US6282548B1 (en) * | 1997-06-21 | 2001-08-28 | Alexa Internet | Automatically generate and displaying metadata as supplemental information concurrently with the web page, there being no link between web page and metadata |
US6732145B1 (en) * | 1997-08-28 | 2004-05-04 | At&T Corp. | Collaborative browsing of the internet |
US6513027B1 (en) * | 1999-03-16 | 2003-01-28 | Oracle Corporation | Automated category discovery for a terminological knowledge base |
US6592627B1 (en) * | 1999-06-10 | 2003-07-15 | International Business Machines Corporation | System and method for organizing repositories of semi-structured documents such as email |
JP3485253B2 (ja) * | 1999-06-18 | 2004-01-13 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報処理方法、情報端末支援サーバ、情報処理プログラムを格納する記憶媒体 |
US7165069B1 (en) * | 1999-06-28 | 2007-01-16 | Alexa Internet | Analysis of search activities of users to identify related network sites |
US6668273B1 (en) * | 1999-11-18 | 2003-12-23 | Raindance Communications, Inc. | System and method for application viewing through collaborative web browsing session |
US7558598B2 (en) * | 1999-12-01 | 2009-07-07 | Silverbrook Research Pty Ltd | Dialling a number via a coded surface |
US6915269B1 (en) * | 1999-12-23 | 2005-07-05 | Decisionsorter Llc | System and method for facilitating bilateral and multilateral decision-making |
US7162691B1 (en) * | 2000-02-01 | 2007-01-09 | Oracle International Corp. | Methods and apparatus for indexing and searching of multi-media web pages |
US6625585B1 (en) * | 2000-02-18 | 2003-09-23 | Bioreason, Inc. | Method and system for artificial intelligence directed lead discovery though multi-domain agglomerative clustering |
US6539354B1 (en) * | 2000-03-24 | 2003-03-25 | Fluent Speech Technologies, Inc. | Methods and devices for producing and using synthetic visual speech based on natural coarticulation |
US8396859B2 (en) * | 2000-06-26 | 2013-03-12 | Oracle International Corporation | Subject matter context search engine |
US7075000B2 (en) * | 2000-06-29 | 2006-07-11 | Musicgenome.Com Inc. | System and method for prediction of musical preferences |
US6545209B1 (en) * | 2000-07-05 | 2003-04-08 | Microsoft Corporation | Music content characteristic identification and matching |
US7685183B2 (en) * | 2000-09-01 | 2010-03-23 | OP40, Inc | System and method for synchronizing assets on multi-tiered networks |
US20050033807A1 (en) * | 2003-06-23 | 2005-02-10 | Lowrance John D. | Method and apparatus for facilitating computer-supported collaborative work sessions |
KR20020022374A (ko) * | 2000-09-20 | 2002-03-27 | 오길록 | 웹 문서의 주소 변환을 이용한 공동 브라우징 방법 |
US7330850B1 (en) * | 2000-10-04 | 2008-02-12 | Reachforce, Inc. | Text mining system for web-based business intelligence applied to web site server logs |
US20020103920A1 (en) * | 2000-11-21 | 2002-08-01 | Berkun Ken Alan | Interpretive stream metadata extraction |
US7085736B2 (en) * | 2001-02-27 | 2006-08-01 | Alexa Internet | Rules-based identification of items represented on web pages |
US20020138624A1 (en) * | 2001-03-21 | 2002-09-26 | Mitsubishi Electric Information Technology Center America, Inc. (Ita) | Collaborative web browsing |
US20030041108A1 (en) * | 2001-08-22 | 2003-02-27 | Henrick Robert F. | Enhancement of communications by peer-to-peer collaborative web browsing |
KR100472202B1 (ko) * | 2001-12-05 | 2005-03-08 | 한국전자통신연구원 | 아이 알 씨 프로토콜을 이용한 웹 공동 브라우징 시스템및 그 방법 |
JP3860046B2 (ja) * | 2002-02-15 | 2006-12-20 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ランダムサンプル階層構造を用いた情報処理のためのプログラム、システムおよび記録媒体 |
US6996575B2 (en) * | 2002-05-31 | 2006-02-07 | Sas Institute Inc. | Computer-implemented system and method for text-based document processing |
US20040260710A1 (en) * | 2003-02-28 | 2004-12-23 | Marston Justin P. | Messaging system |
JP4199026B2 (ja) * | 2003-03-03 | 2008-12-17 | 富士通株式会社 | 情報関連性表示方法、プログラム、記憶媒体及び装置 |
US7895191B2 (en) * | 2003-04-09 | 2011-02-22 | International Business Machines Corporation | Improving performance of database queries |
US7308464B2 (en) * | 2003-07-23 | 2007-12-11 | America Online, Inc. | Method and system for rule based indexing of multiple data structures |
US8589373B2 (en) * | 2003-09-14 | 2013-11-19 | Yaron Mayer | System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers |
US20050060350A1 (en) * | 2003-09-15 | 2005-03-17 | Baum Zachariah Journey | System and method for recommendation of media segments |
US7437358B2 (en) * | 2004-06-25 | 2008-10-14 | Apple Inc. | Methods and systems for managing data |
US7774326B2 (en) * | 2004-06-25 | 2010-08-10 | Apple Inc. | Methods and systems for managing data |
WO2006047790A2 (en) * | 2004-10-27 | 2006-05-04 | Client Dynamics, Inc. | Enhanced client relationship management systems and methods with a recommendation engine |
US8171022B2 (en) * | 2004-11-05 | 2012-05-01 | Johnston Jeffrey M | Methods, systems, and computer program products for facilitating user interaction with customer relationship management, auction, and search engine software using conjoint analysis |
US7777125B2 (en) * | 2004-11-19 | 2010-08-17 | Microsoft Corporation | Constructing a table of music similarity vectors from a music similarity graph |
US7676489B2 (en) * | 2005-12-06 | 2010-03-09 | Sap Ag | Providing natural-language interface to repository |
-
2006
- 2006-05-16 US US11/436,011 patent/US20070271274A1/en not_active Abandoned
-
2007
- 2007-05-16 CN CNA200710103715XA patent/CN101075259A/zh active Pending
- 2007-05-16 JP JP2007130736A patent/JP2008004080A/ja not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010191940A (ja) * | 2009-01-23 | 2010-09-02 | Kenwood Corp | 情報処理装置および情報処理方法、並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN101075259A (zh) | 2007-11-21 |
US20070271274A1 (en) | 2007-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008004080A (ja) | コミュニティによって生成されたウェブサイトをメタデータに用いる方法、機械読取可能な媒体、装置及びシステム | |
US11281743B2 (en) | Systems and methods for dynamically creating hyperlinks associated with relevant multimedia content | |
US7840568B2 (en) | Sorting media objects by similarity | |
US20070271286A1 (en) | Dimensionality reduction for content category data | |
US9165085B2 (en) | System and method for publishing aggregated content on mobile devices | |
US7809710B2 (en) | System and method for extracting content for submission to a search engine | |
US5983267A (en) | System for indexing and displaying requested data having heterogeneous content and representation | |
US20170228470A1 (en) | Data system and method | |
US9268856B2 (en) | System and method for inclusion of interactive elements on a search results page | |
US7961189B2 (en) | Displaying artists related to an artist of interest | |
US7797350B2 (en) | System and method for processing downloaded data | |
US20090265631A1 (en) | System and method for a user interface to navigate a collection of tags labeling content | |
JP2006139763A (ja) | テキストマイニングおよび検索のためのアプリケーションプログラミングインターフェース | |
EP2272010A2 (en) | Systems and methods of identifying chunks from multiple syndicated content providers | |
US6823492B1 (en) | Method and apparatus for creating an index for a structured document based on a stylesheet | |
Zadel et al. | Web Services for Music Information Retrieval. | |
Dunckley | Multimedia databases: An object relational approach | |
Nadee et al. | Towards data extraction of dynamic content from JavaScript Web applications | |
US7750909B2 (en) | Ordering artists by overall degree of influence | |
Houben et al. | HERA: Automatically generating hypermedia front-ends for ad hoc data from heterogeneous and legacy information systems | |
Natu et al. | Digital asset management using a native XML database implementation | |
US9330170B2 (en) | Relating objects in different mediums | |
Moscato et al. | Overfa: A collaborative framework for the semantic annotation of documents and websites | |
US20080114786A1 (en) | Breaking documents | |
Ipeirotis et al. | Extending SDARTS: extracting metadata from web databases and interfacing with the open archives initiative |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20080619 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20080619 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080709 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090811 |
|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20100803 |