JP5469244B2 - 選択的なコンテンツ抽出 - Google Patents
選択的なコンテンツ抽出 Download PDFInfo
- Publication number
- JP5469244B2 JP5469244B2 JP2012519522A JP2012519522A JP5469244B2 JP 5469244 B2 JP5469244 B2 JP 5469244B2 JP 2012519522 A JP2012519522 A JP 2012519522A JP 2012519522 A JP2012519522 A JP 2012519522A JP 5469244 B2 JP5469244 B2 JP 5469244B2
- Authority
- JP
- Japan
- Prior art keywords
- content
- article
- node
- nodes
- engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
Description
以下で説明する様々な実施形態は、1つのウェブページ又は一連の関連するウェブページからコンテンツを選択的及び自動的に抽出するよう動作するものである。該抽出されたコンテンツは、次いで生成することが可能である。本書で用いる場合、抽出されたコンテンツの生成とは、印刷、表示、通信、及び電子的な記憶を含み得るものであるが、これらに限定されるものではない。
ウェブコンテンツ:
ウェブコンテンツは、ユーザへ情報を伝達するために使用することができる。該情報は、ユーザが要求した記事コンテンツ、並びに、ウェブサイト識別子、リンク、及び種々の広告といった周辺コンテンツを含むものである。記事コンテンツは、ニュース記事、レシピ、又は他の任意の話題といった、特定の主題に関するテキスト及びイメージ等の情報を含むことが可能である。
コンテンツ抽出:
図2のウェブページ10を一例として用いた場合、図3ないし図8に関して後述する様々な実施形態は、セクション12の記事コンテンツを自動的に抽出するよう動作する。セクション14-18からのコンテンツが除外される。次いで、該抽出されたコンテンツは、印刷、保管、電子メール等といった様々な態様で生成することができる。勿論、ウェブページ10は、単なる一例として使用されるものである。後述する手順は、様々なウェブページフォーマットについて実施可能なものである。
・ノード72は、タイトル26のためのタグ及びコンテンツ72aに対応し、
・ノード74は、テキスト28のためのタグ及びコンテンツ74aに対応し、
・ノード76は、イメージ30のためのタグ及びコンテンツ76aに対応し、
・ノード78は、インライン広告32のためのタグ及びコンテンツ78aに対応し、
・ノード80は、テキスト34のためのタグ及びコンテンツ80aに対応し、
・ノード82は、インライン広告36のためのタグ及びコンテンツ82aに対応し、
・ノード84は、テキスト38のためのタグ及びコンテンツ84aに対応し、
・ノード86は、リンク40のためのタグ及びコンテンツ86aに対応する。
・ノード90は、カラム広告44のためのタグ及びコンテンツ90aに対応し、
・ノード92は、関連リンク46のためのタグ及びコンテンツ92aに対応し、
・ノード94は、カラム広告48のためのタグ及びコンテンツ94aに対応する。
抽出システム:
図9及び図10は、ウェブコンテンツを選択的に抽出するための本発明によるシステム102として機能する様々な物理的及び論理的な構成要素を示している。システム102は、構造エンジン104、記事エンジン106、及び生成エンジン108を含むよう示されている。構造エンジン104は、複数のノードを含む階層構造をウェブページ内で検知することができるハードウェア及びプログラムの任意の組み合わせを概略的に表している。既述のように、かかる階層構造は、DOM(Document Object Model)を含むことが可能である。
動作:
図11及び図12は、様々な実施形態を実施するために実行される各ステップの例示的なフローチャートである。図11及び図12について議論する際に、図2ないし図10を参照して、文脈に即した例を提供する。しかし、実施形態は、それらの例に限定されるものではない。図11から開始して、ウェブページ内の階層構造が検出される(ステップ136)。該構造は、階層的に編成された複数のノードを含む。所与の実施形態では、該構造は、図3ないし図5の例で示したようなDOM(Document Object Model)である。図9の例では、構造エンジン104がステップ136を実行する責務を負うものとなる。図10を参照すると、構造エンジン104は、少なくとも部分的に、OS130、ドライバ132、ブラウザ134、又はサーバ装置116により実行されているプログラムさえも介して、実施することが可能である。
144)。該構造は、階層的に編成された複数のノードを含む。所与の実施形態では、該構造は、図3ないし図5の例で示したようなDOM(Document Object Model)である。図9の例では、構造エンジン104がステップ144を実行する責務を負うものとなる。図10を参照すると、構造エンジン104は、少なくとも部分的に、OS130、ドライバ132、ブラウザ134、又はサーバ装置116により実行されているプログラムさえも介して、実施することが可能である。
結論:
図1ないし図8は、例示的なウェブページに関する選択的なコンテンツ抽出を示すために使用したものである。しかし、その実施形態には限定されない。図9及び図10は、様々な実施形態のアーキテクチャ、機能、及び動作を示したものである。図9及び図10に示す様々な構成要素は、少なくとも部分的にプログラムとして定義されるものである。かかる各構成要素、その一部、又はそれらの様々な組み合わせは、全体的又は部分的に、任意の1つ又は2つ以上の特定の論理的な機能を実施するための1つ又は2つ以上の実行可能命令からなるモジュール、セグメント、又はそのコードの一部を表すことが可能なものである。各構成要素又はその様々な組み合わせは、該1つ又は2つ以上の特定の論理的な機能を実施するための1つの回路又は相互接続された多数の回路を表すことが可能なものである。
Claims (15)
- ウェブコンテンツの抽出方法であって、
構造エンジンにより複数のノードを含む階層構造を第1のウェブページ内で検出し、
記事エンジンにより該複数のノードから潜在的な記事ノードを識別し、
前記記事エンジンにより前記階層構造内で最高ランクを有する前記識別された潜在的な記事ノードのうちの1つを第1の記事ノードとして選択し、
前記記事エンジンにより前記第1の記事ノードからコンテンツを抽出し、
前記記事エンジンにより、前記第1のウェブページが、前記第1の記事ノードのコンテンツの続きであるコンテンツを有する第2の記事ノードを含む第2のウェブページの存在を示すコンテンツを含むノードを含むか否かを判定し、
その判定結果が肯定である際に、
前記構造エンジンにより複数のノードを含む階層構造を前記第2のウェブページ内で検出し、
前記記事エンジンにより該複数のノードから潜在的な記事ノードを識別し、
前記記事エンジンにより前記第2のウェブページの前記階層構造内で最初に現れた前記識別された潜在的な記事ノードを前記第2の記事ノードとして選択し、
前記記事エンジンにより該第2の記事ノードからコンテンツを抽出し、
生成エンジンにより前記第1の記事ノード及び前記第2の記事ノードから抽出されたコンテンツを生成する、
という各ステップを含む、ウェブコンテンツの抽出方法。 - 前記記事エンジンにより、前記第1の記事ノードの前記コンテンツを、該第1の記事ノードと同じ階層レベルにある他のノードからのコンテンツとマージするステップと、前記記事エンジンにより、前記第2の記事ノードの前記コンテンツを、該第2の記事ノードと同じ階層レベルにある他のノードからのコンテンツとマージするステップとを更に含み、
前記生成ステップが、該マージされたコンテンツを生成するステップからなる、
請求項1に記載の方法。 - 前記記事エンジンにより、前記第1の記事ノードと同じ階層レベルにあるノード及び前記第2の記事ノードと同じ階層レベルにあるノードであって、広告コンテンツ及び所定のしきい値未満の量のテキストコンテンツのうちの一方又は両方を含むノードを識別し、
前記記事エンジンにより、該識別されたノードからのコンテンツを前記マージされるコンテンツから除外する、
という各ステップを更に含む、請求項2に記載の方法。 - 潜在的な記事ノードを識別する前記ステップが、所定のしきい値を越える量のテキストコンテンツを含む複数のノードのうちの1つ又は2つ以上を識別するステップからなる、請求項1ないし請求項3の何れか一項に記載の方法。
- 前記テキストコンテンツの量が単語数又は文字数である、請求項4に記載の方法。
- コンピュータ実行可能命令が記録されたコンピュータ読み取り可能媒体であって、該命令が、
複数のノードを含む階層構造を第1のウェブページ内で検出し、
該複数のノードから潜在的な記事ノードを識別し、
前記階層構造内で最高ランクを有する前記識別された潜在的な記事ノードを第1の記事ノードとして選択し、
該第1の記事ノードからコンテンツを抽出し、
前記第1のウェブページが、該第1の記事ノードの該コンテンツの続きであるコンテンツを有する第2の記事ノードを含む第2のウェブページの存在を示すコンテンツを含むノードを含むか否かを判定し、
その判定結果が肯定である場合に、
複数のノードを含む階層構造を前記第2のウェブページ内で検出し、
該複数のノードから潜在的な記事ノードを識別し、
前記第2のウェブページの前記階層構造内で最初に現れた前記識別された潜在的な記事ノードを前記第2の記事ノードとして選択し、
該第2の記事ノードからコンテンツを抽出し、
前記第1の記事ノード及び第2の記事ノードから抽出されたコンテンツを生成する、
という各ステップを処理システムに実行させるものである、コンピュータ読み取り可能媒体。 - 前記命令が前記処理システムに実行させる前記ステップが、前記第1の記事ノードの前記コンテンツを、該第1の記事ノードと同じ階層レベルにある他のノードからのコンテンツとマージするステップと、前記第2の記事ノードの前記コンテンツを、該第2の記事ノードと同じ階層レベルにある他のノードからのコンテンツとマージするステップとを含み、
前記生成ステップが、該マージされたコンテンツを生成するステップからなる、
請求項6に記載のコンピュータ読み取り可能媒体。 - 前記命令が前記処理システムに実行させる前記ステップが、
前記第1の記事ノードと同じ階層レベルにあるノード及び前記第2の記事ノードと同じ階層レベルにあるノードであって、広告コンテンツ及び所定のしきい値未満の量のテキストコンテンツのうちの一方又は両方を含むノードを識別し、
該識別されたノードからのコンテンツを前記マージされるコンテンツから除外する、
という各ステップを含む、請求項7に記載のコンピュータ読み取り可能媒体。 - 潜在的な記事ノードを識別する前記ステップが、所定のしきい値を越える量のテキストコンテンツを含む複数のノードのうちの1つ又は2つ以上を識別するステップからなる、請求項6ないし請求項8の何れか一項に記載のコンピュータ読み取り可能媒体。
- 前記テキストコンテンツの量が単語数又は文字数である、請求項9に記載のコンピュータ読み取り可能媒体。
- ウェブコンテンツ抽出システムであって、
複数のノードを含む階層構造をウェブページ内で検出するよう動作する構造エンジンと、
該複数のノードから潜在的な記事ノードを識別し、及び前記階層構造内で最高ランクを有する前記識別された潜在的な記事ノードを記事ノードとして選択して該記事ノードからコンテンツを抽出するよう動作する、記事エンジンと、
該記事ノードから抽出されたコンテンツを生成するよう動作する生成エンジンとを備えており、
前記構造エンジンが、複数のノードを含む階層構造を第1のウェブページ内で検出し、
前記記事エンジンが、前記複数のノードから潜在的な記事ノードを識別し、前記階層構造内で最高ランクを有する前記識別された潜在的な記事ノードのうちの1つを第1の記事ノードとして選択し、該第1の記事ノードからコンテンツを抽出し、及び該第1の記事ノードのコンテンツの続きであるコンテンツを有する第2の記事ノードを含む第2のウェブページの存在を示すコンテンツを含むノードを前記第1のウェブページが含むか否かを判定し、
その判定結果が肯定である際に、
前記構造エンジンが、前記第2のウェブページ内で複数のノードを含む階層構造を検出し、
前記記事エンジンが、該複数のノードから潜在的な記事ノードを識別し、該第2のウェブページの該階層構造内で最初に現れた前記識別された潜在的な記事ノードを前記第2の記事ノードとして選択し、及び該第2の記事ノードからコンテンツを抽出し、
前記生成エンジンが、前記第1の記事ノード及び前記第2の記事ノードから抽出されたコンテンツを生成する、
ウェブコンテンツ抽出システム。 - 前記記事エンジンが、前記記事ノードの前記コンテンツを、該記事ノードと同じ階層レベルにある他のノードからのコンテンツとマージし、及び該マージされるコンテンツを抽出するよう動作することができ、
前記生成エンジンが、該マージされたコンテンツを生成するよう動作するものである、
請求項11に記載のウェブコンテンツ抽出システム。 - 前記記事エンジンが、
前記記事ノードと同じ階層レベルにあるノードであって、広告コンテンツ及び所定のしきい値未満の量のテキストコンテンツのうちの一方又は両方を含むノードを識別し、及び
該識別されたノードからのコンテンツを前記マージされるコンテンツから除外する
よう動作するものである、請求項12に記載のウェブコンテンツ抽出システム。 - 前記記事エンジンが、
所定のしきい値を越える量のテキストコンテンツを含む前記複数のノードのうちの1つ又は2つ以上を識別することにより潜在的な記事ノードを識別する
よう動作するものである、請求項11ないし請求項13の何れか一項に記載のウェブコンテンツ抽出システム。 - 前記テキストコンテンツの量が単語数又は文字数である、請求項14に記載のウェブコンテンツ抽出システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2009/049298 WO2011002456A1 (en) | 2009-06-30 | 2009-06-30 | Selective content extraction |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012532395A JP2012532395A (ja) | 2012-12-13 |
JP5469244B2 true JP5469244B2 (ja) | 2014-04-16 |
Family
ID=43411320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012519522A Expired - Fee Related JP5469244B2 (ja) | 2009-06-30 | 2009-06-30 | 選択的なコンテンツ抽出 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9032285B2 (ja) |
EP (1) | EP2449521A4 (ja) |
JP (1) | JP5469244B2 (ja) |
CN (1) | CN102460432B (ja) |
WO (1) | WO2011002456A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011108146A (ja) * | 2009-11-20 | 2011-06-02 | Sony Corp | 情報処理装置、情報処理方法、プログラムおよび情報処理システム |
US8620849B2 (en) | 2010-03-10 | 2013-12-31 | Lockheed Martin Corporation | Systems and methods for facilitating open source intelligence gathering |
WO2012012911A1 (en) * | 2010-07-28 | 2012-02-02 | Hewlett-Packard Development Company, L.P. | Producing web page content |
CN102831121B (zh) | 2011-06-15 | 2015-07-08 | 阿里巴巴集团控股有限公司 | 一种网页信息抽取的方法和系统 |
WO2013009889A1 (en) | 2011-07-11 | 2013-01-17 | Paper Software LLC | System and method for searching a document |
WO2013009879A1 (en) | 2011-07-11 | 2013-01-17 | Paper Software LLC | System and method for processing document |
CA2840231A1 (en) | 2011-07-11 | 2013-01-17 | Paper Software LLC | System and method for processing document |
AU2012281166B2 (en) * | 2011-07-11 | 2017-08-24 | Paper Software LLC | System and method for processing document |
US10055718B2 (en) | 2012-01-12 | 2018-08-21 | Slice Technologies, Inc. | Purchase confirmation data extraction with missing data replacement |
US20150095751A1 (en) * | 2013-09-27 | 2015-04-02 | Microsoft Corporation | Employing page links to merge pages of articles |
US9665617B1 (en) * | 2014-04-16 | 2017-05-30 | Google Inc. | Methods and systems for generating a stable identifier for nodes likely including primary content within an information resource |
US20150339394A1 (en) * | 2014-05-20 | 2015-11-26 | Tasty Time, Inc. | Extracting Online Recipes, and Arranging and Generating a Cookbook |
US10331758B2 (en) | 2016-09-23 | 2019-06-25 | Hvr Technologies Inc. | Digital communications platform for webpage overlay |
US10447635B2 (en) | 2017-05-17 | 2019-10-15 | Slice Technologies, Inc. | Filtering electronic messages |
US11803883B2 (en) | 2018-01-29 | 2023-10-31 | Nielsen Consumer Llc | Quality assurance for labeled training data |
CN110795931B (zh) * | 2018-07-17 | 2022-10-21 | 福建天泉教育科技有限公司 | 一种web网站页面语言的检测方法及终端 |
CN109086361B (zh) * | 2018-07-20 | 2019-06-21 | 北京开普云信息科技有限公司 | 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统 |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6029182A (en) * | 1996-10-04 | 2000-02-22 | Canon Information Systems, Inc. | System for generating a custom formatted hypertext document by using a personal profile to retrieve hierarchical documents |
JP3772504B2 (ja) | 1998-01-08 | 2006-05-10 | セイコーエプソン株式会社 | ネットワークプリンタ及びネットワーク印刷方法 |
JPH11212751A (ja) * | 1998-01-29 | 1999-08-06 | Canon Inc | 画像形成装置、画像形成方法および記憶媒体 |
US6360227B1 (en) * | 1999-01-29 | 2002-03-19 | International Business Machines Corporation | System and method for generating taxonomies with applications to content-based recommendations |
JP2001184344A (ja) * | 1999-12-21 | 2001-07-06 | Internatl Business Mach Corp <Ibm> | 情報処理システム、プロキシサーバ、ウェブページ表示制御方法、記憶媒体、及びプログラム伝送装置 |
US20020109680A1 (en) * | 2000-02-14 | 2002-08-15 | Julian Orbanes | Method for viewing information in virtual space |
AU2001243443A1 (en) * | 2000-03-09 | 2001-09-17 | The Web Access, Inc. | Method and apparatus for performing a research task by interchangeably utilizinga multitude of search methodologies |
US20020007379A1 (en) * | 2000-05-19 | 2002-01-17 | Zhi Wang | System and method for transcoding information for an audio or limited display user interface |
JP2002032364A (ja) | 2000-07-14 | 2002-01-31 | Ricoh Co Ltd | 文書情報処理方法、文書情報処理装置及び記録媒体 |
US20020016801A1 (en) * | 2000-08-01 | 2002-02-07 | Steven Reiley | Adaptive profile-based mobile document integration |
WO2002033584A1 (en) * | 2000-10-19 | 2002-04-25 | Copernic.Com | Text extraction method for html pages |
US6650348B2 (en) * | 2001-01-17 | 2003-11-18 | Microsoft Corporation | System and method for web-based content scheduling |
JP2002229985A (ja) | 2001-02-06 | 2002-08-16 | Ricoh Co Ltd | 構造化文書処理装置、構造化文書処理方法およびコンピュータに構造化文書処理を実行させるためのプログラム |
JP2002229984A (ja) | 2001-02-06 | 2002-08-16 | Ricoh Co Ltd | 構造化文書処理装置、構造化文書処理方法およびコンピュータに構造化文書処理を実行させるためのプログラム |
US20020010715A1 (en) * | 2001-07-26 | 2002-01-24 | Garry Chinn | System and method for browsing using a limited display device |
US7072883B2 (en) * | 2001-12-21 | 2006-07-04 | Ut-Battelle Llc | System for gathering and summarizing internet information |
US7065707B2 (en) * | 2002-06-24 | 2006-06-20 | Microsoft Corporation | Segmenting and indexing web pages using function-based object models |
JP4370783B2 (ja) | 2002-06-27 | 2009-11-25 | 沖電気工業株式会社 | 情報処理装置および方法 |
US7752072B2 (en) * | 2002-07-16 | 2010-07-06 | Google Inc. | Method and system for providing advertising through content specific nodes over the internet |
US7203901B2 (en) * | 2002-11-27 | 2007-04-10 | Microsoft Corporation | Small form factor web browsing |
US20040158799A1 (en) * | 2003-02-07 | 2004-08-12 | Breuel Thomas M. | Information extraction from html documents by structural matching |
US20050076000A1 (en) * | 2003-03-21 | 2005-04-07 | Xerox Corporation | Determination of table of content links for a hyperlinked document |
CN1592280A (zh) * | 2003-09-01 | 2005-03-09 | 摩托罗拉公司 | 用于网页概括的网关 |
JP2005189973A (ja) | 2003-12-24 | 2005-07-14 | Ricoh Co Ltd | 構造化文書印刷システム |
US20060070004A1 (en) * | 2004-09-30 | 2006-03-30 | Microsoft Corporation | System and method for unified navigation |
JP2006235942A (ja) | 2005-02-24 | 2006-09-07 | Canon Inc | 構造化文書処理装置 |
KR20070043386A (ko) * | 2005-10-21 | 2007-04-25 | 삼성전자주식회사 | 프레임 태그를 이용한 웹 브라우저의 인쇄영역 설정 장치및 방법 |
US20070288247A1 (en) * | 2006-06-11 | 2007-12-13 | Michael Mackay | Digital life server |
US20070293950A1 (en) * | 2006-06-14 | 2007-12-20 | Microsoft Corporation | Web Content Extraction |
US10460327B2 (en) * | 2006-07-28 | 2019-10-29 | Palo Alto Research Center Incorporated | Systems and methods for persistent context-aware guides |
US7801358B2 (en) * | 2006-11-03 | 2010-09-21 | Google Inc. | Methods and systems for analyzing data in media material having layout |
US20080201118A1 (en) * | 2007-02-16 | 2008-08-21 | Fan Luo | Modeling a web page on top of HTML elements level by encapsulating the details of HTML elements in a component, building a web page, a website and website syndication on browser-based user interface |
US7917846B2 (en) * | 2007-06-08 | 2011-03-29 | Apple Inc. | Web clip using anchoring |
US8869023B2 (en) * | 2007-08-06 | 2014-10-21 | Ricoh Co., Ltd. | Conversion of a collection of data to a structured, printable and navigable format |
US20090248707A1 (en) * | 2008-03-25 | 2009-10-01 | Yahoo! Inc. | Site-specific information-type detection methods and systems |
US8156419B2 (en) * | 2008-07-17 | 2012-04-10 | International Business Machines Corporation | Intelligent preloads of views and asynchronous loading of models using the MVC design pattern |
US8155990B2 (en) * | 2009-01-26 | 2012-04-10 | Microsoft Corporation | Linear-program formulation for optimizing inventory allocation |
US8806325B2 (en) * | 2009-11-18 | 2014-08-12 | Apple Inc. | Mode identification for selective document content presentation |
US8315849B1 (en) * | 2010-04-09 | 2012-11-20 | Wal-Mart Stores, Inc. | Selecting terms in a document |
US8555155B2 (en) * | 2010-06-04 | 2013-10-08 | Apple Inc. | Reader mode presentation of web content |
US9280528B2 (en) * | 2010-10-04 | 2016-03-08 | Yahoo! Inc. | Method and system for processing and learning rules for extracting information from incoming web pages |
-
2009
- 2009-06-30 JP JP2012519522A patent/JP5469244B2/ja not_active Expired - Fee Related
- 2009-06-30 CN CN200980160237.3A patent/CN102460432B/zh not_active Expired - Fee Related
- 2009-06-30 WO PCT/US2009/049298 patent/WO2011002456A1/en active Application Filing
- 2009-06-30 US US13/378,153 patent/US9032285B2/en not_active Expired - Fee Related
- 2009-06-30 EP EP20090846942 patent/EP2449521A4/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
CN102460432B (zh) | 2013-11-20 |
JP2012532395A (ja) | 2012-12-13 |
EP2449521A1 (en) | 2012-05-09 |
EP2449521A4 (en) | 2013-07-03 |
WO2011002456A1 (en) | 2011-01-06 |
US9032285B2 (en) | 2015-05-12 |
CN102460432A (zh) | 2012-05-16 |
US20120089903A1 (en) | 2012-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5469244B2 (ja) | 選択的なコンテンツ抽出 | |
US10706091B2 (en) | User driven computerized selection, categorization, and layout of live content components | |
US8819028B2 (en) | System and method for web content extraction | |
US7958444B2 (en) | Visualizing document annotations in the context of the source document | |
JP6116247B2 (ja) | 視覚的要素をブロック分割し、識別し、インデクスを付けて、ドキュメントを検索するためのシステムおよび方法 | |
Akpınar et al. | Vision based page segmentation algorithm: Extended and perceived success | |
US20150067476A1 (en) | Title and body extraction from web page | |
JP6462970B1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
TW201013430A (en) | Method and system for providing suggested tags associated with a target page for manipulation by a user | |
JP2009043258A (ja) | データ群を構造化フォーマットに変換する方法、システム | |
US7949936B2 (en) | Selecting advertising for a web page | |
US8972863B2 (en) | Standard schema and user interface for website maps | |
Evert | A Lightweight and Efficient Tool for Cleaning Web Pages. | |
JP2014175000A (ja) | ファイル変換方法及びシステム | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
US8990224B1 (en) | Detecting document text that is hard to read | |
JP5317638B2 (ja) | Web文書主要コンテンツ抽出装置及びプログラム | |
JP2006243861A (ja) | 履歴作成装置、活動履歴作成方法、及び活動履歴作成プログラム | |
CN113806667B (zh) | 一种支持网页分类的方法和系统 | |
JP2009265770A (ja) | 重要文提示システム | |
JP7134814B2 (ja) | システム、ページデータ出力方法、及びプログラム | |
JP5225331B2 (ja) | データ抽出装置及び方法 | |
JP5068356B2 (ja) | ブログ本文特定装置及びブログ本文特定方法 | |
JP2011054006A (ja) | 画像のキーワード決定システム | |
JP6564811B2 (ja) | パッセージ提示制御装置、パッセージ提示方法、及びパッセージ提示プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130430 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130514 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130722 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5469244 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |