JP5469244B2 - 選択的なコンテンツ抽出 - Google Patents

選択的なコンテンツ抽出 Download PDF

Info

Publication number
JP5469244B2
JP5469244B2 JP2012519522A JP2012519522A JP5469244B2 JP 5469244 B2 JP5469244 B2 JP 5469244B2 JP 2012519522 A JP2012519522 A JP 2012519522A JP 2012519522 A JP2012519522 A JP 2012519522A JP 5469244 B2 JP5469244 B2 JP 5469244B2
Authority
JP
Japan
Prior art keywords
content
article
node
nodes
engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012519522A
Other languages
English (en)
Other versions
JP2012532395A (ja
Inventor
リュウ,サム
ジョシ,パラグ
シオン,ユウホン
アトキンス,クレイトン
リュウ,ジェリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of JP2012532395A publication Critical patent/JP2012532395A/ja
Application granted granted Critical
Publication of JP5469244B2 publication Critical patent/JP5469244B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Description

ウェブページは、プリント用ではなくディスプレイ画面用に設計されることが多い。テキスト及びイメージを含み得る主な記事に加えて、ウェブページは、動的に生成される広告その他の周辺の情報を含むことが多い。その結果として、ウェブページをプリントすることを望むユーザは、その結果に不満を覚えることが多い。プリントされたウェブページは、複数頁にまたがる乱雑な外観を有するものとなる可能性があり、この場合、主な記事は、広告その他の周辺のコンテンツが散在した状態で1頁上に現れ又は2頁以上に分割されることになる。
ウェブページフォーマットの例示的な描写である。 コンテンツが散在した状態の図1のウェブページフォーマットの例示的な描写である。 一実施形態による階層構造の例示的な描写である。 一実施形態による階層構造の例示的な描写である。 一実施形態による階層構造の例示的な描写である。 一実施形態による抽出されたコンテンツの例示的な描写である。 一実施形態により選択され抽出されたコンテンツが除去された後の例示的な描写である。 一実施形態により生成されたコンテンツの例示的な描写である。 一実施形態による選択的コンテンツ抽出システムの例示的な描写である。 一実施形態による図9のシステムを実施することができる環境の例示的な描写である。 様々な実施形態を実施するために実行する各ステップを示すフローチャートである。 様々な実施形態を実施するために実行する各ステップを示すフローチャートである。
序論:
以下で説明する様々な実施形態は、1つのウェブページ又は一連の関連するウェブページからコンテンツを選択的及び自動的に抽出するよう動作するものである。該抽出されたコンテンツは、次いで生成することが可能である。本書で用いる場合、抽出されたコンテンツの生成とは、印刷、表示、通信、及び電子的な記憶を含み得るものであるが、これらに限定されるものではない。
動作時には、ウェブページが調査されてDOM(Document Object Model)等の階層構造が識別される。該構造の複数のノードが調査されて潜在的な記事ノードが識別される。一例では、潜在的な記事ノードとは、一定のしきい値を越える量のテキストを含むノードである。該しきい値は、所定の文字数又は単語数を規定するものである。該構造内で最初に現れる潜在的な記事は、記事ノードとして識別される。該記事ノード及び同一階層レベルにある兄弟(sibling)ノードからのコンテンツが抽出され、マージされ、及び生成される。場合によっては、兄弟ノードからの広告等のコンテンツは除去される。
ウェブコンテンツ:
ウェブコンテンツは、ユーザへ情報を伝達するために使用することができる。該情報は、ユーザが要求した記事コンテンツ、並びに、ウェブサイト識別子、リンク、及び種々の広告といった周辺コンテンツを含むものである。記事コンテンツは、ニュース記事、レシピ、又は他の任意の話題といった、特定の主題に関するテキスト及びイメージ等の情報を含むことが可能である。
図1は、ウェブページ10の例示的なフォーマットである。図示のフォーマットは、例示的なものであるが、記事12、ヘッダ14、カラム16、及びフッタ18を含む、共通のセクションを含む。記事セクション12は、特定の関心の主題に関するテキスト及びイメージ等の記事コンテンツを含む。その例として、ニュース記事、建築計画、及びレシピが挙げられるが、これらに限定されるものではない。該記事セクションはまた、その記事コンテンツに直接関係のないインライン広告及びその他の周辺コンテンツを含むことが可能である。ヘッダ14は典型的には、ウェブサイトを識別するデータやナビゲーションリンクを含み、またバナー広告を含むことが多い。カラム16は、記事セクション14のコンテンツに関係し又は該コンテンツとは無関係の広告及びリンクを含むことが可能である。フッタ18は、ウェブサイトを識別するデータ、該ウェブサイトのためのナビゲーションリンク、及び広告を含むことが可能である。
図2は、各セクション12-18内に例示的なコンテンツが散在した状態の図1のウェブページ10の描写である。ヘッダ14は、バナー広告20、ウェブサイトタイトル22、及びウェブサイトリンクバー24を含むよう示されている。バナー広告20は、一般に別のウェブページへのリンクとして働くイメージを表すものである。ウェブサイトタイトル22は、ウェブサイトを識別するテキスト及びイメージ等のコンテンツを表すものである。ウェブサイトリンクバー24は、識別されたウェブサイトへとナビゲートするための一群のリンクを表すものである。典型的には、コンテンツ20,22,24の何れも、セクション12の記事コンテンツの主題とは直接関係のないものとなる。
記事セクション12は、タイトル26、テキスト28、イメージ30、インライン広告32、テキスト34、インライン広告36、テキスト38、及び場合によっては続きリンク40を含むよう示されている。タイトル26は、記事コンテンツのタイトルを表している。テキスト28,34,38は、記事コンテンツの本文を表している。イメージ30は、記事コンテンツの一部である写真その他のグラフィカルコンテンツを表している。インライン広告32,36は、他のウェブサイトへのリンクを表し、タイトル26、テキスト28,24,38、及びイメージ30に必ずしも関連するものではなく、記事コンテンツの周辺に存在するものである。記事コンテンツは、1または2頁以上の更なるウェブページにまたがることが可能である。かかる場合には、続きリンク40が含まれる。続きリンク40は、更なる記事コンテンツを含む後続のウェブページへのリンクを表すものであり、記事セクション12の最後に現れることが多く、「次」又は「1」及び「2」等の単語を含むものである。該更なるウェブページは、更に別のウェブページへの別の続きリンクを含むことも含まないことも可能である。
カラムセクション16は、カラム広告44、関連リンク46、及びカラム広告48を含むよう示されている。カラム広告44,48は、別のウェブサイトへのリンクを表し、該ウェブサイトは前記記事コンテンツの主題に関連するもの又は関連しないものとすることが可能である。関連リンク46は、ウェブページ10の記事コンテンツに関連する他の記事コンテンツを含むウェブサイトの他のウェブページへのリンクを表すものである。フッタ18は、バナー広告50及びウェブサイトリンクバー52を含むよう示されている。バナー広告50は一般に、別のウェブページへのリンクとして働くイメージを表すものである。ウェブサイトリンクバー52は、ウェブサイトへナビゲートするための1グループのリンクを表すものである。典型的には、コンテンツ44-52は何れも、セクション12の記事コンテンツの主題とは直接関係のないものとなる。
コンテンツ抽出:
図2のウェブページ10を一例として用いた場合、図3ないし図8に関して後述する様々な実施形態は、セクション12の記事コンテンツを自動的に抽出するよう動作する。セクション14-18からのコンテンツが除外される。次いで、該抽出されたコンテンツは、印刷、保管、電子メール等といった様々な態様で生成することができる。勿論、ウェブページ10は、単なる一例として使用されるものである。後述する手順は、様々なウェブページフォーマットについて実施可能なものである。
図3から開始して、対象となるウェブページの階層構造52が識別される。ここで、該対象となるウェブページは、図2のウェブページ10である。かかる階層構造は、図3に示し図4及び図5で展開するようなウェブページのDOM(Document Object Model)とすることが可能である。構造52は、階層的に編成された複数のノードを含む。ノード54は、ルートノードであり、この例では、ウェブページ言語をHTML(Hyper-Text Mark-up Language)として識別するものである。ノード54が開始タグ<HTML>及び終了タグ</HTML>を含むことに留意されたい。図面の参照を効率化するために、該2つのタグを単一のノード54と称することとする。文脈によっては、各タグを構造52上の別個のノードとして識別する場合がある。
ルートノード54は、子ノード56,58を含み又は取り囲む。互いに対して、ノード56,58は、構造52内の同じ階層レベルにおける兄弟である。ノード56は、HTMLコードのヘッドタグに対応し、ヘッドコンテンツ60として識別される1つ又は2つ以上の子ノードを含む。該ヘッドコンテンツ60は、ウェブページの閲覧者には直接見えない内容を含む1つ又は2つ以上の子ノードを表している。ヘッドコンテンツ60は、スタイルシート及びJavaScriptプログラム等のアイテムへの外部リンクを含むことが可能である。ヘッドコンテンツ60はまた、閲覧者のブラウザの上部バー内に現れるウェブページのタイトルを含む。他の要素は、ページ記述及びキーワードを含むことが可能である。
ノード58は、HTMLコードのボディタグに対応し、この例ではウェブページ10のセクション12-18に対応するコンテンツ62-68を含み又は取り囲む。換言すれば、ボディコンテンツ62-68は、ウェブページが閲覧される際に見ることができるコンテンツを規定する様々な子ノードを表すものである。ヘッダコンテンツ62は、ウェブページ10のヘッダセクション14の内容を定義する様々なノードを表している。記事コンテンツ64は、図4で展開されたものであり、ウェブページ10の記事セクション12の内容を定義する様々なノードを表している。カラムコンテンツ66は、図5で展開されたものであり、ウェブページ10のカラムセクション16の内容を定義する様々なノードを表している。フッタコンテンツ68は、ウェブページ10のフッタセクション18の内容を定義する様々なノードを表している。
図4を参照すると、記事コンテンツ64は、ウェブページ10の記事セクション12に対応する開始及び終了タグを表すノード70を含んでいる。例示的なタグとして、<div>、<p>、及び<br>が挙げられるが、それらに限定されるものではない。タグ70は子ノード72-86を含み又は取り囲む。図2に関し、
・ノード72は、タイトル26のためのタグ及びコンテンツ72aに対応し、
・ノード74は、テキスト28のためのタグ及びコンテンツ74aに対応し、
・ノード76は、イメージ30のためのタグ及びコンテンツ76aに対応し、
・ノード78は、インライン広告32のためのタグ及びコンテンツ78aに対応し、
・ノード80は、テキスト34のためのタグ及びコンテンツ80aに対応し、
・ノード82は、インライン広告36のためのタグ及びコンテンツ82aに対応し、
・ノード84は、テキスト38のためのタグ及びコンテンツ84aに対応し、
・ノード86は、リンク40のためのタグ及びコンテンツ86aに対応する。
図5を参照すると、カラムコンテンツ66は、ウェブページ10のカラムセクション16に対応する開始及び終了タグを表すノード88を含んでいる。例示的なタグとして、<div>、<p>、及び<br>が挙げられるが、それらに限定されるものではない。タグ88は子ノード90-94を含み又は取り囲む。図5に関し、
・ノード90は、カラム広告44のためのタグ及びコンテンツ90aに対応し、
・ノード92は、関連リンク46のためのタグ及びコンテンツ92aに対応し、
・ノード94は、カラム広告48のためのタグ及びコンテンツ94aに対応する。
上述したように、目的は、記事セクション12からのコンテンツを、該記事セクション12以外のセクション14-18からのコンテンツを除外して抽出し及び発行することにある。別の目的は、抽出された記事コンテンツから、それが発行される前に、広告その他の周辺情報を更に削除することにある。これを行うために、図3ないし図5に示す構造52を調査して潜在的な記事ノードを識別する。記事ノードは、図1ないし図5の例では、記事セクション12の一部をなすコンテンツを含むノードである。潜在的な記事ノードとは、ウェブページの主題に直接関係するコンテンツを含んでいる可能性を示す特徴を有するノードである。一実施携帯では、潜在的な記事ノードは、所定のしきい値を越える量のテキストを含むノードである。該しきい値は、特定の文字数又は単語数を定義し得るものである。識別された複数の潜在的な記事ノードのうち、前記構造内で最初に現れるノードが記事ノードとして識別される。該記事ノード及び兄弟ノードからコンテンツが抽出され、マージされ、及び生成される。場合によっては、広告等のコンテンツは除外される。
図6を参照する一方、図3ないし図5を再び参照すると、ノード74のテキスト74a、ノード84のテキスト84a、及びノード92の関連リンク92aが、それぞれ、前記しきい値を越える量のテキストを含むものと仮定する。このため、該ノード74,84,92の各々は、潜在的な記事ノードとして識別されることになる。構造52内で、ノード74は、最初に現れ、それ故、識別された潜在的な記事ノードのうち最もランクの高いものとなる。その結果として、ノード74は、この例では、記事ノードとして識別される。ノード72,76-86は、ノード74の兄弟ノードである。換言すれば、ノード72,76-86は、構造52内でノード74と同じ階層レベルにある。
識別された記事ノード74及び兄弟ノード72,76-86からのコンテンツは、抽出され、図6の例示的なコンテンツ構造96に示すようにマージされる。構造96のコンテンツを生成する前に、識別された記事ノード74のテキストの周辺コンテンツが識別され除外されて、図7の例示的なコンテンツ構造98に示すようになる。周辺コンテンツは、多数の態様で識別することができる。例えば、周辺コンテンツは、テキスト「広告」を有するリンク又はイメージを含むことが可能である。周辺コンテンツは、しきい値未満の量のテキストを有するリンクとすることが可能である。例えば、関連ページへの続きリンクは、単純に、単語「次」又は「続き」又は「1」及び「2」を含む可能性がある。このため、図7では、コンテンツ78a,82a,86aは、図7の構造98から除外されている。
次いで、コンテンツ構造98のコンテンツ72a,74a,76a,80a,84aを、図8の生成されたコンテンツ100に示すように生成することができる。上述のように、抽出されたコンテンツは、印刷、モニタ上への表示、電子メール又はウェブページを介した通信、及びファイル内への電子的な格納を含む、多数の態様で生成することが可能である。図8の例では、生成されたコンテンツ100は、ウェブページ10の主たる話題、すなわち、記事セクション12の主題に直接関係するコンテンツを含む。生成されたコンテンツ100から除外されたコンテンツは、セクション14-18のコンテンツとセクション12の周辺コンテンツである。
抽出システム:
図9及び図10は、ウェブコンテンツを選択的に抽出するための本発明によるシステム102として機能する様々な物理的及び論理的な構成要素を示している。システム102は、構造エンジン104、記事エンジン106、及び生成エンジン108を含むよう示されている。構造エンジン104は、複数のノードを含む階層構造をウェブページ内で検知することができるハードウェア及びプログラムの任意の組み合わせを概略的に表している。既述のように、かかる階層構造は、DOM(Document Object Model)を含むことが可能である。
記事エンジン106は、前記仮想構造の複数のノードから潜在的な記事ノードを識別することができるハードウェア及びプログラムの任意の組み合わせを概略的に示している。記事エンジン106は、そのタスクを、単語数または文字数といった所与のしきい値を越える量のテキストを含むノードを識別することにより行うことが可能である。記事エンジン106は次いで、階層構造内でランクが最も高い潜在的な記事ノードを記事ノードとして識別する。記事エンジン106は、該識別された記事ノードからコンテンツを抽出する。該識別された記事ノードが兄弟ノード(すなわち同じ階層レベルにあるノード)を有する場合には、記事エンジン106は、それら兄弟ノードからコンテンツを抽出し、該抽出したコンテンツをマージする。記事エンジン106はまた、複数の該兄弟ノードのうちの1つ又は2つ以上からのコンテンツを前記マージされるコンテンツから除外する責務を負うことが可能である。抽出されたコンテンツを調査して、記事エンジン106は、イメージに関連して単語「広告」又は「ad」を含む兄弟ノードからのコンテンツを除外することが可能である。記事エンジン106はまた、所与のしきい値を下回る量のテキストを含む兄弟ノードからのコンテンツを除外することが可能である。
記事エンジン106はまた、識別された記事ノードに対する兄弟ノードが、関連する後続のウェブページの存在を示すコンテンツを含むか否かを判定する責務を負うことが可能である。関連する後続のウェブページとは、現在のウェブページの抽出されたコンテンツの続きであるコンテンツを有する記事ノードを有するウェブページである。図4に示すように、ノード86等の兄弟ノードは、単語「次」又はその他の(抽出されたコンテンツに関連するコンテンツを後続のウェブページが含むことの)指示子を有するリンクを含む可能性がある。このため、記事エンジン106は、リンク及び単語「次」又は「1」及び「2」又は「続き」を含むコンテンツについて兄弟ノードを調査する。かかるコンテンツの検出時に、構造エンジン104は、そのリンクにより参照されるウェブページ内で、複数のノードを含む階層構造を検出する。該新しい複数のノードを調査して、記事エンジン106は、上述した態様でコンテンツを抽出し、該新たに抽出されたコンテンツを以前に抽出されたコンテンツに追加する。このプロセスは、記事エンジン106が関連する後続のウェブページの指示を見いださなくなるまで繰り返すことが可能である。
生成エンジン108は、抽出されマージされたコンテンツを生成することができるハードウェア及びプログラムのあらゆる組み合わせを概略的に表すものである。上述したように、抽出されたコンテンツは、印刷、モニタ上への表示、電子メール又はウェブページを介した通信、及びファイルへの電子的な格納を含む、多数の態様で生成することが可能である。
図9のシステム102は、図10の環境110等の多数の環境で実施することが可能である。環境110は、クライアント装置112、サーバ装置114,116、プリンタ118、データリポジトリ120、及び表示装置122を含む。クライアント装置は、ウェブコンテンツを取得し処理することができるあらゆるコンピューティング装置を概略的に表すものである。例えば、クライアント装置112は、デスクトップコンピュータ、ラップトップコンピュータ、スマートフォンとすることが可能である。サーバ装置114は、クライアント装置112へウェブページを提供することができる1つ又は2つ以上のあらゆる装置を概略的に表すものである。サーバ装置116は、クライアント装置112へリモートアプリケーションを提供することができる1つ又は2つ以上のあらゆる装置を概略的に表すものである。プリンタ118は、印刷されたイメージを生成することができるあらゆるイメージ形成装置を概略的に表すものである。データリポジトリ120は、後の読み出し及び使用のために電子的なデータを格納することができるあらゆるサービスを概略的に表すものである。表示装置122は、所望のイメージを表示することができるコンピュータ用モニタ又はテレビ等のあらゆる装置を概略的に表すものである。
リンク124は、クライアント装置112を装置114-122に対して相互接続する。リンク124は、遠隔通信リンク、赤外線リンク、無線リンク、又は電子的な通信を提供する他のあらゆる接続手段又はシステムを介した、ケーブル、無線、光ファイバ、又はリモート接続のうちの1つ又は2つ以上を概略的に表すものである。リンク124は、イントラネット、インターネット、又はそれらの組み合わせを表し得るものである。図10に示すクライアント装置112と装置114-122との間でリンク124が辿る経路は、それら装置間の論理的な通信経路を表すものであり、必ずしもそれら装置間の物理的な経路ではない。
図10の例では、クライアント装置112は、プロセッサ126及びメモリ128を含む。プロセッサ126は、メモリ128内に格納されたプログラム命令を実行することができるあらゆる装置を概略的に表すものである。メモリ128は、プログラム命令を格納するよう構成されたあらゆるメモリを概略的に表すものであり、該プログラム命令は、その実行時に、プロセッサ126にウェブページからウェブコンテンツを選択的に抽出させ、又は、サーバ装置116が実行しているリモートアプリケーションが該抽出を行うことをプロセッサ126に要求させるものである。
メモリ128は、OS(Operating System)130、ドライバ132、及びブラウザ134を含むよう示されている。OS130は、あらゆるソフトウェアプラットフォームを概略的に表すものであり、該ソフトウェアプラットフォーム上でドライバ132及びブラウザ134等の他のプログラム又はアプリケーションが実行される。一例として、Linux(登録商標)及びMicrosoft Windows(登録商標)が挙げられる。ドライバ132は、その実行時に、プリンタ118、データリポジトリ120、及び表示装置122の動作を制御するあらゆるプログラム命令を概略的に表すものである。特に、ドライバ132は、OS130及びブラウザ134の翻訳を行うものとして機能する。ドライバ132は、OS130及びブラウザ134から受信した汎用的なコマンドを、周辺装置118,120,122により使用することができる装置固有のコマンドへと翻訳する。ブラウザ134は、その実行時に、ドライバ132の使用を介してサーバ装置114からウェブページを読み出し、該ウェブページを表示させ、及び該ウェブページをプリントさせるよう動作する、あらゆるプログラム命令を概略的に表すものである。
上述のように、図9のシステム102の様々な構成要素は、ハードウェア及びプログラムの組み合わせを含むものである。図10に関し、ハードウェア要素は、プロセッサ126及び/又はサーバ装置116により実施することが可能である。プログラム要素は、OS130、ドライバ132、ブラウザ134、及び/又はサーバ装置116により実行されるプログラムの一部として実施することが可能である。
動作:
図11及び図12は、様々な実施形態を実施するために実行される各ステップの例示的なフローチャートである。図11及び図12について議論する際に、図2ないし図10を参照して、文脈に即した例を提供する。しかし、実施形態は、それらの例に限定されるものではない。図11から開始して、ウェブページ内の階層構造が検出される(ステップ136)。該構造は、階層的に編成された複数のノードを含む。所与の実施形態では、該構造は、図3ないし図5の例で示したようなDOM(Document Object Model)である。図9の例では、構造エンジン104がステップ136を実行する責務を負うものとなる。図10を参照すると、構造エンジン104は、少なくとも部分的に、OS130、ドライバ132、ブラウザ134、又はサーバ装置116により実行されているプログラムさえも介して、実施することが可能である。
潜在的な記事ノードは、ステップ136で検出された構造の複数のノードから識別される(ステップ138)。この際に、該複数のノードを調査して、ウェブページの主題に直接関係するコンテンツをノードが含んでいる可能性を示す特徴を有するノードを識別する。かかる特徴は、単語数又は文字数のしきい値を越える量のテキストを含むことが可能である。前記構造内で最高ランクを有する潜在的な記事ノード、すなわち、最初に現れる潜在的な記事ノードが、記事ノードとして選択される(ステップ140)。図9を参照すると、記事エンジン106は、ステップ138,140の実行を責務とするものである。図10を参照すると、記事エンジン106は、少なくとも部分的に、OS130、ドライバ132、ブラウザ134、又はサーバ装置116により実行されているプログラムさえも介して、実施することが可能である。
該選択された記事ノードからのコンテンツが生成される(ステップ142)。該生成は、印刷、表示、電子メッセージを介した通信、ウェブへの投稿、及びファイルへの保存を含むことが可能である。図9を参照すると、生成エンジン108は、ステップ138,140の実行を責務とするものである。図10を参照すると、生成エンジン108は、少なくとも部分的に、OS130、ドライバ132、ブラウザ134、又はサーバ装置116により実行されているプログラムさえも介して、実施することが可能である。
ステップ140で選択された記事ノードは、全ての記事コンテンツを含まない可能性がある。かかる場合には、該選択された記事ノードに対する兄弟ノードが識別される。該選択された記事ノードからのコンテンツが、かかる兄弟ノードから抽出されたコンテンツとマージされ、該マージされたコンテンツがステップ142で生成される。しかし、該兄弟ノードのうちの幾つかは、該記事コンテンツの主題にとって重要でない広告及びリンクといったコンテンツを含んでいる可能性がある。マージされたコンテンツを生成する前に、1つ又は2つ以上の広告コンテンツ及びしきい値未満の量のテキストコンテンツを含む兄弟ノードを識別する。広告コンテンツを含む兄弟ノードは、例えば、単語「広告」又は「ad」又はそれらの変形例(及び希ではあるがその他のテキスト)を含む記述を探索することにより、識別することが可能である。かかる識別された1つ又は2つ以上の兄弟ノードからのコンテンツは、マージされるコンテンツから除外される。
図12を参照すると、取得したウェブページ内の階層構造を検出する(ステップ
144)。該構造は、階層的に編成された複数のノードを含む。所与の実施形態では、該構造は、図3ないし図5の例で示したようなDOM(Document Object Model)である。図9の例では、構造エンジン104がステップ144を実行する責務を負うものとなる。図10を参照すると、構造エンジン104は、少なくとも部分的に、OS130、ドライバ132、ブラウザ134、又はサーバ装置116により実行されているプログラムさえも介して、実施することが可能である。
潜在的な記事ノードは、ステップ144で検出された構造の複数のノードから識別される(ステップ146)。この際に、該複数のノードを調査して、ウェブページの主題に直接関係するコンテンツをノードが含んでいる可能性を示す特徴を有するノードを識別する。かかる特徴は、単語数又は文字数のしきい値を越える量のテキストを含むことが可能である。前記ステップ144で検出された前記構造内で最高ランクを有する潜在的な記事ノード、すなわち、最初に現れる潜在的な記事ノードが、記事ノードとして選択される(ステップ148)。該選択された記事ノードからコンテンツが抽出される(ステップ150)。
関連する後続のウェブページが存在するか否かが判定される(ステップ152)。かかるウェブページは、前記選択された記事ノードのコンテンツの続きであるコンテンツを含む。兄弟ノードは、単語「次」又はその他の(後続のウェブページが前記選択された記事ノードのコンテンツに関連するコンテンツを含むことの)指示子を有するリンクを含む可能性がある。このため、記事エンジン106は、ステップ152で、該選択された記事ノードの兄弟ノードを調査して、リンク及び単語「次」又は「続き」又は「1」及び「2」を含むコンテンツの有無を判定する。該ステップ152で肯定的な判定が行われた場合には、後続のウェブページを取得して(ステップ154)、該プロセスはステップ144に戻る。かかる場合には、ステップ150が繰り返される度に、選択された記事ノードからコンテンツを抽出することが可能である。前記ステップ152で否定的な判定が行われた場合には、該プロセスはステップ156へと進み、ステップ148で選択された1つ又は2つ以上の記事ノードからステップ150で抽出されたコンテンツがマージされる。図9を参照すると、記事エンジン106は、ステップ146-156の実行を責務とするものとなる。図10を参照すると、記事エンジン106は、少なくとも部分的に、OS130、ドライバ132、ブラウザ134、又はサーバ装置116により実行されているプログラムさえも介して、実施することが可能である。
次いでマージされたコンテンツが生成される(ステップ142)。生成は、印刷、表示、電子メッセージを介した通信、ウェブサイトへの投稿、及びファイルへの保存を含むことができる。図9を参照すると、生成エンジン108は、ステップ138,140の実行を責務とするものとなる。図10を参照すると、生成エンジン108は、少なくとも部分的に、OS130、ドライバ132、ブラウザ134、又はサーバ装置116により実行されているプログラムさえも介して、実施することが可能である。
ステップ140で選択された1つ又は2つ以上の記事ノードは、全ての記事コンテンツを含まない場合がある。かかる場合には、該選択された記事ノードに対する兄弟ノードが識別される。それら兄弟ノードからのコンテンツが、ステップ150で抽出され、ステップ156でマージされる。しかし、兄弟ノードによっては、該記事コンテンツの主題にとって重要でない広告やリンク等のコンテンツを含んでいる可能性がある。マージされたコンテンツを生成する前に、1つ又は2つ以上の広告コンテンツやしきい値未満の量のテキストコンテンツを含む兄弟ノードを識別する。広告コンテンツを含む兄弟ノードは、例えば、単語「広告」又はその変形例(及び希ではあるがその他のテキスト)を含む記述を探索することにより、識別することが可能である。かかる識別された1つ又は2つ以上の兄弟ノードからのコンテンツは、ステップ156のマージされるコンテンツから除外される。
結論:
図1ないし図8は、例示的なウェブページに関する選択的なコンテンツ抽出を示すために使用したものである。しかし、その実施形態には限定されない。図9及び図10は、様々な実施形態のアーキテクチャ、機能、及び動作を示したものである。図9及び図10に示す様々な構成要素は、少なくとも部分的にプログラムとして定義されるものである。かかる各構成要素、その一部、又はそれらの様々な組み合わせは、全体的又は部分的に、任意の1つ又は2つ以上の特定の論理的な機能を実施するための1つ又は2つ以上の実行可能命令からなるモジュール、セグメント、又はそのコードの一部を表すことが可能なものである。各構成要素又はその様々な組み合わせは、該1つ又は2つ以上の特定の論理的な機能を実施するための1つの回路又は相互接続された多数の回路を表すことが可能なものである。
また、本発明は、命令実行システム(コンピュータ読み取り可能媒体からロジックをフェッチし又は取得して該ロジックに含まれる命令を実行することができるコンピュータ/プロセッサベースのシステム又はASIC(特定用途向け集積回路)又はその他のシステムなど)により使用し又は該システムと連携して使用するための任意のコンピュータ読み取り可能媒体で実施することが可能である。「コンピュータ読み取り可能媒体」とは、かかる命令実行システムにより使用し又は該システムと連携して使用するためのプログラム又はデータを収容し、格納し、又は維持することができる、あらゆる媒体とすることが可能なものである。コンピュータ読み取り可能媒体は、例えば、電子的な媒体、磁気的な媒体、光学的な媒体、電磁的な媒体、又は半導体による媒体といった多数の物理的な媒体のうちの何れとすることも可能である。適当なコンピュータ読み取り可能媒体の更に特定の例として、フロッピィディスク又はハードディスク等のコンピュータ用ポータブル磁気ディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、EPROM(Erasable Programmable Read-Only Memory)、又はポータブルコンパクトディスクが挙げられるが、これには限定されない。
図11及び図12のフローチャートは、特定の実行順を示しているが、その実行順は、図示のものとは異ならせることが可能である。例えば、2つ又は3つ以上のブロックの実行順を図示とは異なる順序に入れ替えることが可能である。また、図示の連続する2つ又は3つ以上のブロックを、同時に又は部分的に同時に実行することが可能である。かかる変形例の全ては、本発明の範囲内のものである。
上記の例示的な実施形態に関して本発明を図示及び説明した。しかし、特許請求の範囲に記載する本発明の思想及び範囲から逸脱することなく、他の形態、細部、及び実施形態を実施することが可能である、ということが理解されよう。

Claims (15)

  1. ウェブコンテンツの抽出方法であって、
    構造エンジンにより複数のノードを含む階層構造を第1のウェブページ内で検出し、
    記事エンジンにより該複数のノードから潜在的な記事ノードを識別し、
    前記記事エンジンにより前記階層構造内で最高ランクを有する前記識別された潜在的な記事ノードのうちの1つを第1の記事ノードとして選択し、
    前記記事エンジンにより前記第1の記事ノードからコンテンツを抽出し、
    前記記事エンジンにより、前記第1のウェブページが、前記第1の記事ノードのコンテンツの続きであるコンテンツを有する第2の記事ノードを含む第2のウェブページの存在を示すコンテンツを含むノードを含むか否かを判定し、
    その判定結果が肯定である際に、
    前記構造エンジンにより複数のノードを含む階層構造を前記第2のウェブページ内で検出し、
    前記記事エンジンにより該複数のノードから潜在的な記事ノードを識別し、
    前記記事エンジンにより前記第2のウェブページの前記階層構造内で最初に現れた前記識別された潜在的な記事ノードを前記第2の記事ノードとして選択し、
    前記記事エンジンにより該第2の記事ノードからコンテンツを抽出し、
    生成エンジンにより前記第1の記事ノード及び前記第2の記事ノードから抽出されたコンテンツを生成する、
    という各ステップを含む、ウェブコンテンツの抽出方法。
  2. 前記記事エンジンにより、前記第1の記事ノードの前記コンテンツを、該第1の記事ノードと同じ階層レベルにある他のノードからのコンテンツとマージするステップと、前記記事エンジンにより、前記第2の記事ノードの前記コンテンツを、該第2の記事ノードと同じ階層レベルにある他のノードからのコンテンツとマージするステップとを更に含み、
    前記生成ステップが、該マージされたコンテンツを生成するステップからなる、
    請求項1に記載の方法。
  3. 前記記事エンジンにより、前記第1の記事ノードと同じ階層レベルにあるノード及び前記第2の記事ノードと同じ階層レベルにあるノードであって、広告コンテンツ及び所定のしきい値未満の量のテキストコンテンツのうちの一方又は両方を含むノードを識別し、
    前記記事エンジンにより、該識別されたノードからのコンテンツを前記マージされるコンテンツから除外する、
    という各ステップを更に含む、請求項2に記載の方法。
  4. 潜在的な記事ノードを識別する前記ステップが、所定のしきい値を越える量のテキストコンテンツを含む複数のノードのうちの1つ又は2つ以上を識別するステップからなる、請求項1ないし請求項3の何れか一項に記載の方法。
  5. 前記テキストコンテンツの量が単語数又は文字数である、請求項4に記載の方法。
  6. コンピュータ実行可能命令が記録されたコンピュータ読み取り可能媒体であって、該命令が
    複数のノードを含む階層構造を第1のウェブページ内で検出し、
    該複数のノードから潜在的な記事ノードを識別し、
    前記階層構造内で最高ランクを有する前記識別された潜在的な記事ノードを第1の記事ノードとして選択し、
    該第1の記事ノードからコンテンツを抽出し、
    前記第1のウェブページが、該第1の記事ノードの該コンテンツの続きであるコンテンツを有する第2の記事ノードを含む第2のウェブページの存在を示すコンテンツを含むノードを含むか否かを判定し、
    その判定結果が肯定である場合に、
    複数のノードを含む階層構造を前記第2のウェブページ内で検出し、
    該複数のノードから潜在的な記事ノードを識別し、
    前記第2のウェブページの前記階層構造内で最初に現れた前記識別された潜在的な記事ノードを前記第2の記事ノードとして選択し、
    該第2の記事ノードからコンテンツを抽出し、
    前記第1の記事ノード及び第2の記事ノードから抽出されたコンテンツを生成する、
    という各ステップを処理システムに実行させるものである、コンピュータ読み取り可能媒体。
  7. 前記命令が前記処理システムに実行させる前記ステップが、前記第1の記事ノードの前記コンテンツを、該第1の記事ノードと同じ階層レベルにある他のノードからのコンテンツとマージするステップと、前記第2の記事ノードの前記コンテンツを、該第2の記事ノードと同じ階層レベルにある他のノードからのコンテンツとマージするステップとを含み、
    前記生成ステップが、該マージされたコンテンツを生成するステップからなる、
    請求項6に記載のコンピュータ読み取り可能媒体。
  8. 前記命令が前記処理システムに実行させる前記ステップが、
    前記第1の記事ノードと同じ階層レベルにあるノード及び前記第2の記事ノードと同じ階層レベルにあるノードであって、広告コンテンツ及び所定のしきい値未満の量のテキストコンテンツのうちの一方又は両方を含むノードを識別し、
    該識別されたノードからのコンテンツを前記マージされるコンテンツから除外する、
    という各ステップを含む、請求項7に記載のコンピュータ読み取り可能媒体。
  9. 潜在的な記事ノードを識別する前記ステップが、所定のしきい値を越える量のテキストコンテンツを含む複数のノードのうちの1つ又は2つ以上を識別するステップからなる、請求項6ないし請求項8の何れか一項に記載のコンピュータ読み取り可能媒体。
  10. 前記テキストコンテンツの量が単語数又は文字数である、請求項9に記載のコンピュータ読み取り可能媒体。
  11. ウェブコンテンツ抽出システムであって、
    複数のノードを含む階層構造をウェブページ内で検出するよう動作する構造エンジンと、
    該複数のノードから潜在的な記事ノードを識別し、及び前記階層構造内で最高ランクを有する前記識別された潜在的な記事ノードを記事ノードとして選択して該記事ノードからコンテンツを抽出するよう動作する、記事エンジンと、
    該記事ノードから抽出されたコンテンツを生成するよう動作する生成エンジンとを備えており、
    前記構造エンジンが、複数のノードを含む階層構造を第1のウェブページ内で検出し、
    前記記事エンジンが、前記複数のノードから潜在的な記事ノードを識別し、前記階層構造内で最高ランクを有する前記識別された潜在的な記事ノードのうちの1つを第1の記事ノードとして選択し、該第1の記事ノードからコンテンツを抽出し、及び該第1の記事ノードのコンテンツの続きであるコンテンツを有する第2の記事ノードを含む第2のウェブページの存在を示すコンテンツを含むノードを前記第1のウェブページが含むか否かを判定し、
    その判定結果が肯定である際に、
    前記構造エンジンが、前記第2のウェブページ内で複数のノードを含む階層構造を検出し、
    前記記事エンジンが、該複数のノードから潜在的な記事ノードを識別し、該第2のウェブページの該階層構造内で最初に現れた前記識別された潜在的な記事ノードを前記第2の記事ノードとして選択し、及び該第2の記事ノードからコンテンツを抽出し、
    前記生成エンジンが、前記第1の記事ノード及び前記第2の記事ノードから抽出されたコンテンツを生成する、
    ウェブコンテンツ抽出システム。
  12. 前記記事エンジンが、前記記事ノードの前記コンテンツを、該記事ノードと同じ階層レベルにある他のノードからのコンテンツとマージし、及び該マージされるコンテンツを抽出するよう動作することができ、
    前記生成エンジンが、該マージされたコンテンツを生成するよう動作するものである、
    請求項11に記載のウェブコンテンツ抽出システム。
  13. 前記記事エンジンが、
    前記記事ノードと同じ階層レベルにあるノードであって、広告コンテンツ及び所定のしきい値未満の量のテキストコンテンツのうちの一方又は両方を含むノードを識別し、及び
    該識別されたノードからのコンテンツを前記マージされるコンテンツから除外する
    よう動作するものである、請求項12に記載のウェブコンテンツ抽出システム。
  14. 前記記事エンジンが、
    所定のしきい値を越える量のテキストコンテンツを含む前記複数のノードのうちの1つ又は2つ以上を識別することにより潜在的な記事ノードを識別する
    よう動作するものである、請求項11ないし請求項13の何れか一項に記載のウェブコンテンツ抽出システム。
  15. 前記テキストコンテンツの量が単語数又は文字数である、請求項14に記載のウェブコンテンツ抽出システム。
JP2012519522A 2009-06-30 2009-06-30 選択的なコンテンツ抽出 Expired - Fee Related JP5469244B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2009/049298 WO2011002456A1 (en) 2009-06-30 2009-06-30 Selective content extraction

Publications (2)

Publication Number Publication Date
JP2012532395A JP2012532395A (ja) 2012-12-13
JP5469244B2 true JP5469244B2 (ja) 2014-04-16

Family

ID=43411320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012519522A Expired - Fee Related JP5469244B2 (ja) 2009-06-30 2009-06-30 選択的なコンテンツ抽出

Country Status (5)

Country Link
US (1) US9032285B2 (ja)
EP (1) EP2449521A4 (ja)
JP (1) JP5469244B2 (ja)
CN (1) CN102460432B (ja)
WO (1) WO2011002456A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011108146A (ja) * 2009-11-20 2011-06-02 Sony Corp 情報処理装置、情報処理方法、プログラムおよび情報処理システム
US8620849B2 (en) 2010-03-10 2013-12-31 Lockheed Martin Corporation Systems and methods for facilitating open source intelligence gathering
WO2012012911A1 (en) * 2010-07-28 2012-02-02 Hewlett-Packard Development Company, L.P. Producing web page content
CN102831121B (zh) 2011-06-15 2015-07-08 阿里巴巴集团控股有限公司 一种网页信息抽取的方法和系统
WO2013009889A1 (en) 2011-07-11 2013-01-17 Paper Software LLC System and method for searching a document
WO2013009879A1 (en) 2011-07-11 2013-01-17 Paper Software LLC System and method for processing document
CA2840231A1 (en) 2011-07-11 2013-01-17 Paper Software LLC System and method for processing document
AU2012281166B2 (en) * 2011-07-11 2017-08-24 Paper Software LLC System and method for processing document
US10055718B2 (en) 2012-01-12 2018-08-21 Slice Technologies, Inc. Purchase confirmation data extraction with missing data replacement
US20150095751A1 (en) * 2013-09-27 2015-04-02 Microsoft Corporation Employing page links to merge pages of articles
US9665617B1 (en) * 2014-04-16 2017-05-30 Google Inc. Methods and systems for generating a stable identifier for nodes likely including primary content within an information resource
US20150339394A1 (en) * 2014-05-20 2015-11-26 Tasty Time, Inc. Extracting Online Recipes, and Arranging and Generating a Cookbook
US10331758B2 (en) 2016-09-23 2019-06-25 Hvr Technologies Inc. Digital communications platform for webpage overlay
US10447635B2 (en) 2017-05-17 2019-10-15 Slice Technologies, Inc. Filtering electronic messages
US11803883B2 (en) 2018-01-29 2023-10-31 Nielsen Consumer Llc Quality assurance for labeled training data
CN110795931B (zh) * 2018-07-17 2022-10-21 福建天泉教育科技有限公司 一种web网站页面语言的检测方法及终端
CN109086361B (zh) * 2018-07-20 2019-06-21 北京开普云信息科技有限公司 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029182A (en) * 1996-10-04 2000-02-22 Canon Information Systems, Inc. System for generating a custom formatted hypertext document by using a personal profile to retrieve hierarchical documents
JP3772504B2 (ja) 1998-01-08 2006-05-10 セイコーエプソン株式会社 ネットワークプリンタ及びネットワーク印刷方法
JPH11212751A (ja) * 1998-01-29 1999-08-06 Canon Inc 画像形成装置、画像形成方法および記憶媒体
US6360227B1 (en) * 1999-01-29 2002-03-19 International Business Machines Corporation System and method for generating taxonomies with applications to content-based recommendations
JP2001184344A (ja) * 1999-12-21 2001-07-06 Internatl Business Mach Corp <Ibm> 情報処理システム、プロキシサーバ、ウェブページ表示制御方法、記憶媒体、及びプログラム伝送装置
US20020109680A1 (en) * 2000-02-14 2002-08-15 Julian Orbanes Method for viewing information in virtual space
AU2001243443A1 (en) * 2000-03-09 2001-09-17 The Web Access, Inc. Method and apparatus for performing a research task by interchangeably utilizinga multitude of search methodologies
US20020007379A1 (en) * 2000-05-19 2002-01-17 Zhi Wang System and method for transcoding information for an audio or limited display user interface
JP2002032364A (ja) 2000-07-14 2002-01-31 Ricoh Co Ltd 文書情報処理方法、文書情報処理装置及び記録媒体
US20020016801A1 (en) * 2000-08-01 2002-02-07 Steven Reiley Adaptive profile-based mobile document integration
WO2002033584A1 (en) * 2000-10-19 2002-04-25 Copernic.Com Text extraction method for html pages
US6650348B2 (en) * 2001-01-17 2003-11-18 Microsoft Corporation System and method for web-based content scheduling
JP2002229985A (ja) 2001-02-06 2002-08-16 Ricoh Co Ltd 構造化文書処理装置、構造化文書処理方法およびコンピュータに構造化文書処理を実行させるためのプログラム
JP2002229984A (ja) 2001-02-06 2002-08-16 Ricoh Co Ltd 構造化文書処理装置、構造化文書処理方法およびコンピュータに構造化文書処理を実行させるためのプログラム
US20020010715A1 (en) * 2001-07-26 2002-01-24 Garry Chinn System and method for browsing using a limited display device
US7072883B2 (en) * 2001-12-21 2006-07-04 Ut-Battelle Llc System for gathering and summarizing internet information
US7065707B2 (en) * 2002-06-24 2006-06-20 Microsoft Corporation Segmenting and indexing web pages using function-based object models
JP4370783B2 (ja) 2002-06-27 2009-11-25 沖電気工業株式会社 情報処理装置および方法
US7752072B2 (en) * 2002-07-16 2010-07-06 Google Inc. Method and system for providing advertising through content specific nodes over the internet
US7203901B2 (en) * 2002-11-27 2007-04-10 Microsoft Corporation Small form factor web browsing
US20040158799A1 (en) * 2003-02-07 2004-08-12 Breuel Thomas M. Information extraction from html documents by structural matching
US20050076000A1 (en) * 2003-03-21 2005-04-07 Xerox Corporation Determination of table of content links for a hyperlinked document
CN1592280A (zh) * 2003-09-01 2005-03-09 摩托罗拉公司 用于网页概括的网关
JP2005189973A (ja) 2003-12-24 2005-07-14 Ricoh Co Ltd 構造化文書印刷システム
US20060070004A1 (en) * 2004-09-30 2006-03-30 Microsoft Corporation System and method for unified navigation
JP2006235942A (ja) 2005-02-24 2006-09-07 Canon Inc 構造化文書処理装置
KR20070043386A (ko) * 2005-10-21 2007-04-25 삼성전자주식회사 프레임 태그를 이용한 웹 브라우저의 인쇄영역 설정 장치및 방법
US20070288247A1 (en) * 2006-06-11 2007-12-13 Michael Mackay Digital life server
US20070293950A1 (en) * 2006-06-14 2007-12-20 Microsoft Corporation Web Content Extraction
US10460327B2 (en) * 2006-07-28 2019-10-29 Palo Alto Research Center Incorporated Systems and methods for persistent context-aware guides
US7801358B2 (en) * 2006-11-03 2010-09-21 Google Inc. Methods and systems for analyzing data in media material having layout
US20080201118A1 (en) * 2007-02-16 2008-08-21 Fan Luo Modeling a web page on top of HTML elements level by encapsulating the details of HTML elements in a component, building a web page, a website and website syndication on browser-based user interface
US7917846B2 (en) * 2007-06-08 2011-03-29 Apple Inc. Web clip using anchoring
US8869023B2 (en) * 2007-08-06 2014-10-21 Ricoh Co., Ltd. Conversion of a collection of data to a structured, printable and navigable format
US20090248707A1 (en) * 2008-03-25 2009-10-01 Yahoo! Inc. Site-specific information-type detection methods and systems
US8156419B2 (en) * 2008-07-17 2012-04-10 International Business Machines Corporation Intelligent preloads of views and asynchronous loading of models using the MVC design pattern
US8155990B2 (en) * 2009-01-26 2012-04-10 Microsoft Corporation Linear-program formulation for optimizing inventory allocation
US8806325B2 (en) * 2009-11-18 2014-08-12 Apple Inc. Mode identification for selective document content presentation
US8315849B1 (en) * 2010-04-09 2012-11-20 Wal-Mart Stores, Inc. Selecting terms in a document
US8555155B2 (en) * 2010-06-04 2013-10-08 Apple Inc. Reader mode presentation of web content
US9280528B2 (en) * 2010-10-04 2016-03-08 Yahoo! Inc. Method and system for processing and learning rules for extracting information from incoming web pages

Also Published As

Publication number Publication date
CN102460432B (zh) 2013-11-20
JP2012532395A (ja) 2012-12-13
EP2449521A1 (en) 2012-05-09
EP2449521A4 (en) 2013-07-03
WO2011002456A1 (en) 2011-01-06
US9032285B2 (en) 2015-05-12
CN102460432A (zh) 2012-05-16
US20120089903A1 (en) 2012-04-12

Similar Documents

Publication Publication Date Title
JP5469244B2 (ja) 選択的なコンテンツ抽出
US10706091B2 (en) User driven computerized selection, categorization, and layout of live content components
US8819028B2 (en) System and method for web content extraction
US7958444B2 (en) Visualizing document annotations in the context of the source document
JP6116247B2 (ja) 視覚的要素をブロック分割し、識別し、インデクスを付けて、ドキュメントを検索するためのシステムおよび方法
Akpınar et al. Vision based page segmentation algorithm: Extended and perceived success
US20150067476A1 (en) Title and body extraction from web page
JP6462970B1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
TW201013430A (en) Method and system for providing suggested tags associated with a target page for manipulation by a user
JP2009043258A (ja) データ群を構造化フォーマットに変換する方法、システム
US7949936B2 (en) Selecting advertising for a web page
US8972863B2 (en) Standard schema and user interface for website maps
Evert A Lightweight and Efficient Tool for Cleaning Web Pages.
JP2014175000A (ja) ファイル変換方法及びシステム
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
US8990224B1 (en) Detecting document text that is hard to read
JP5317638B2 (ja) Web文書主要コンテンツ抽出装置及びプログラム
JP2006243861A (ja) 履歴作成装置、活動履歴作成方法、及び活動履歴作成プログラム
CN113806667B (zh) 一种支持网页分类的方法和系统
JP2009265770A (ja) 重要文提示システム
JP7134814B2 (ja) システム、ページデータ出力方法、及びプログラム
JP5225331B2 (ja) データ抽出装置及び方法
JP5068356B2 (ja) ブログ本文特定装置及びブログ本文特定方法
JP2011054006A (ja) 画像のキーワード決定システム
JP6564811B2 (ja) パッセージ提示制御装置、パッセージ提示方法、及びパッセージ提示プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140130

R150 Certificate of patent or registration of utility model

Ref document number: 5469244

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees