JP2016154052A - ウェブページ情報を抽出する方法およびシステム - Google Patents

ウェブページ情報を抽出する方法およびシステム Download PDF

Info

Publication number
JP2016154052A
JP2016154052A JP2016105581A JP2016105581A JP2016154052A JP 2016154052 A JP2016154052 A JP 2016154052A JP 2016105581 A JP2016105581 A JP 2016105581A JP 2016105581 A JP2016105581 A JP 2016105581A JP 2016154052 A JP2016154052 A JP 2016154052A
Authority
JP
Japan
Prior art keywords
node
path
extracted
information
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016105581A
Other languages
English (en)
Other versions
JP6141490B2 (ja
Inventor
ボーヤン カイ
Boyang Cai
ボーヤン カイ
チー チアン
Qi Qiang
チー チアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2016154052A publication Critical patent/JP2016154052A/ja
Application granted granted Critical
Publication of JP6141490B2 publication Critical patent/JP6141490B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ウェブページ情報を抽出する方法およびシステムを提供する。【解決手段】ウェブページ情報を抽出する方法は、サンプルページの文書オブジェクトモデル(DOM)構造を分析して、抽出される情報の位置を取得することを含む。抽出される情報の位置に対応するノードは、ターゲットノードとしてDOM構造内でレンダリングされる。ターゲットノードから開始して、相対位置情報が、ルートノードが探し出されるまで再帰的にトラバースされて、候補パスを作成する。候補パスは、パスセットとしてレンダリングされる。抽出されるページのDOM構造が分析され、情報がパスセット内のルートノードから開始するページのDOM構造内に配置され、抽出されたノード候補セットが取得される。抽出されたノード候補セット由来の最も高いロバスト性を有するノードが最後に抽出されたノードとして選択され、抽出された情報は、抽出されたノードを用いて取得される。【選択図】図11

Description

本発明は、ネットワーク技術の分野に関し、具体的には、ウェブページ情報を抽出する方法およびシステムに関する。
本出願は、参照によりその全体が本明細書に組み込まれる、2011年6月15日出願の中国特許出願第201110161113.6号、表題「Method and system of extracting web page information」に対する優先権を主張する。
インターネットの急速な発展に伴い、インターネットは、情報流通の最も重要な基盤になっている。しかしながら、インターネット上での情報の爆発的な普及を考慮して、ユーザが所望する情報をいかに迅速かつ効率的に取得することができるかが、対処されるべき問題となっている。従来の検索エンジンは、キーワード検索を介してウェブページを取得するのに役立ち得る。しかしながら、それらは、関連ページのリンクを提供するだけであり得る。ユーザは、依然として、手動でウェブページをブラウズして、ユーザが所望する情報を探し出さなければならない。その一方で、正確なクエリをカスタマイズすることができないため、いくつかの検索結果は、ユーザが所望するものではなく、したがって、正確かつ特殊化された検索結果が提供されない場合がある。インターネットをデータベース等の情報源であるかのようにクエリするのが理想的な方法である。したがって、ウェブページ情報抽出が出現している。ウェブページ情報抽出は、目的とするウェブページ情報を異なる情報源から取得し、ユーザが、データベース内の情報を用いて、情報クエリ、検索、データマイニング、またはデータ分析を行うことができるように、情報、すなわち、ユーザが目的とする情報を抽出して、データベースに記憶することができる。ウェブページ情報抽出の目的は、ウェブページのテキスト情報を抽出し、そのテキスト情報を構造化データとして表現することである。そのようにする目的は、処理するのが困難なテキスト情報を、容易に処理および分析される構造化データに変換することである。
ウェブページは、文書オブジェクトモデル(DOM)およびハイパーテキストマークアップ言語(HTML)によって定義された文書であり、重要な情報が通常バックエンドデータベースに記憶され、かつ固定ページテンプレートを用いてユーザに提示される半構造化文書である。ウェブページは、実際には、ファイルである。ユーザに提示されるものは、通常、ブラウザによって解釈されたコンテンツである。メニューから「ソースを見る」を選択すると、ノートパッドを用いてウェブページの実際のコンテンツ見ることができる。見ることができるように、ウェブページは、実際には、様々なタグ(例えば、ヘッダ、フォント、色、サイズ等)を用いたウェブページ上のテキスト、画像、表、および音声等の要素を説明するテキストファイルである。これらのタグは、ウェブページに表示されるテキストコンテンツを切り離す。タグは、構造化情報を文書に導入する。これらのタグに基づいて、文書は、DOM構造と称されるツリー構造として表され得る。DOM構造内に抽出されるコンテンツの位置を配置することによって、ウェブページ情報の抽出を実現することができる。ウェブページ情報を抽出する一般的なプロセスは、抽出されるコンテンツの位置情報をサンプルページから取得することと、同一のテンプレートを用いたウェブページのデータセットの場合、位置情報を用いてコンテンツ抽出を実行することとを含む。位置情報の正確さは、ウェブページ情報抽出の質を直接決定する。ウェブページが急速に更新されるため、DOM構造は、複雑であり、かつ頻繁に変更され、したがって、位置情報の修正につながり易く、位置決め失敗または誤った情報の抽出をもたらす。ウェブページ情報抽出システムは、ウェブページコンテンツの正確でロバストな(「ロバスト」とは、「強い」、「頑丈な」、または「安定した」等の意味を有する)位置決めの解決策の発見を目指す。
現行の科学技術において、XPATH(XPATHとは、XML文書内の情報を探し出すための言語であり、XPATHは、パス表現を用いてXML文書内のノードまたはノードセットを選択する)を自動的に生成して、ウェブページ情報の抽出を行う方法が存在する。XPATHを自動的に生成する方法は、ユーザがウェブページからの抽出のためにコンテンツを選択することと、プロセスがDOM構造内に抽出されたコンテンツの位置を記録することと、DOMルートノードからレベル毎にターゲットノードまでのタグ名情報およびシフト情報のみを含むXPATHパスを自動的に生成することと、XPATHを用いて抽出されるウェブページのセットから情報を取得することとを含む。自動的に生成されたXPATHは、概して、タグ名およびシフトの情報のみを記録し、位置決め情報を過度に単純化するため、絶え間なく変わるウェブページ構造についていくことができない。さらに、ウェブページのコンテンツが更新された後、コンテンツの配置失敗または抽出を目的としないコンテンツの配置等の問題は、XPATHパス上の要素が変更された後に生じる。同時に、XPATHの記録された情報が過度に単純化されるため、XPATHを用いて繰り返し構造の識別問題を解決することはできない。したがって、繰り返し構造の識別および抽出を実行するためのさらなる算出が要求される。
本開示を実行するときに、本発明者は、少なくとも、ウェブページ情報抽出が、概して、半自動情報抽出方法を使用し、かつページ構造を分析することによって抽出される情報を配置するといった現行の科学技術において存在する問題を発見した。ウェブページ情報は、動的に変更されるデータの種類であり、かつリアルタイムで更新されるため、位置情報は、ウェブページのコンテンツが更新され、ウェブページの構造が変更された後に無効になり、抽出失敗または不正確な抽出結果につながる。
その一方で、現行の科学技術は、繰り返し構造の識別の問題を有能に解決することができない。自動XPATH生成方法は、XPATHを用いて繰り返し構造の識別の問題を解決することができず、繰り返し構造の識別および抽出の実行のためにさらなる算出を要求する。
上述の問題を解決するために、本開示の実施形態は、ウェブページのコンテンツが更新され、ウェブページの構造が変更された後でも、情報を正確に配置し、かつ良好なロバスト性で正確な抽出結果を取得することができる、ウェブページ情報を抽出する方法およびシステムを提供する。
技術的提案は以下の通りである。
本開示の実施形態は、ウェブページ情報の抽出の方法を提供する。該方法は、サンプルページのDOM構造を分析して、DOM構造内の抽出される情報の位置を取得することと、DOM構造内の抽出される情報の位置に対応するノードをターゲットノードとしてレンダリングし、ターゲットノードから開始して、事前に取得された相対位置情報をトラバースしてノードを取得して、該ノードがルートノードであるかを判定し、そうでない場合、ルートノードが探し出されるまで別のノードを再帰的に探し続けて候補パスを作成し、ターゲットノードからルートノードまでの取得された候補パスをパスセットとしてレンダリングすることと、抽出されるページのDOM構造を分析し、パスセット内のルートノードから開始するパスを用いて抽出されるページのDOM構造内に抽出される情報を配置し、抽出されるウェブページのDOM構造内の抽出される情報の位置に対応するノードを抽出されたノード候補セットとして取得することと、最も高いロバスト性を有するノードを抽出されたノード候補セットから選択して、最後に抽出されたノードとし、抽出されたノードを用いて抽出された情報を取得することと、を含む。
好ましくは、ターゲットノードから開始して、事前に取得された相対位置情報をトラバースしてノードを取得し、該ノードがルートノードであるかを判定し、そうでない場合、ルートノードが探し出されるまで別のノードを再帰的に探し続けて候補パスを作成し、ターゲットノードからルートノードまでの取得された候補パスをパスセットとしてレンダリングすることは、特に、ターゲットノードから開始して、ターゲットノードを現在のノードとしてレンダリングすることと、事前に取得された現在のノードの最近傍の相対位置情報をトラバースし、それから相対位置iに対応するBiノードを選択し、Biがルートノードであるかを判定することと、Biがルートノードであると判定された場合、そのパスをパスリストに追加し、そうでない場合、Biを現在のノードとして使用し、ルートノードが探し出されるまで別のノードを再帰的に探し出し、そのパスをパスリストに追加することと、パスリスト内のパスをパスセットとしてレンダリングすることと、を含む。
好ましくは、最も高いロバスト性を有するノードを抽出されたノード候補セットから選択して、最後に抽出されたノードとすることは、信頼性判定のルールに従って、抽出されたノード候補セット中の抽出された候補ノードに対応するパスに関連するスコアを算出し、最も高いスコアを有するパスに対応するノードを最後に抽出されたノードとして選択することを含む。
好ましくは、ターゲットノードから開始して、事前に取得された相対位置情報をトラバースしてノードを取得し、該ノードがルートノードであるかを判定し、そうでない場合、ルートノードが探し出されるまで別のノードを再帰的に探し続けて候補パスを作成し、ターゲットノードからルートノードまでの取得された候補パスをパスセットとしてレンダリングすることは、特に、ターゲットノードから開始して、ターゲットノードを現在のノードとしてレンダリングすることと、事前に取得された現在のノードの最近傍の相対位置情報をトラバースし、それから相対位置iに対応するBiノードを選択し、Biがルートノードであるかを判定することと、Biがルートノードであると判定された場合、そのパスをパスリストに追加することと、Biがルートノードではないと判定された場合、信頼性判定のルールに従ってスコア減点の条件を算出および判定し、スコア減点が設定閾値以下である場合、Biノードを現在のノードとして使用し、ルートノードが探し出されるまで別のノードを再帰的に探し続け、そのパスをパスリストに追加し、スコア減点が閾値を超える場合、現在のパス上での検索を停止することと、パスリスト内で最小のスコア減点を有する最初のNパスをパスセットとして記憶することと、を含む。
好ましくは、ターゲットノードから開始して、事前に取得された相対位置情報をトラバースしてノードを取得し、該ノードがルートノードであるかを判断し、そうでない場合、ルートノードが探し出されるまで別のノードを再帰的に探し続けて候補パスを作成し、ターゲットノードからルートノードまでの取得された候補パスをパスセットとしてレンダリングすることは、特に、ターゲットノードから開始して、ターゲットノードを現在のノードとしてレンダリングすることと、事前に取得された現在のノードの最近傍の相対位置情報をトラバースし、それから相対位置iに対応するBiノードを選択し、Biがルートノードであるかを判定することと、Biがルートノードであると判定された場合、そのパスをパスリストに追加し、そうでない場合、Biを現在のノードとして使用し、ルートノードが探し出されるまで別のノードを再帰的に探し出し、そのパスをパスリストに追加することと、信頼性判定のルールに従って、スコア減点をパスリスト内にあるすべてのパスに対して行い、パスの合計スコア減点が閾値を超えるかを判定し、閾値を超えない場合、パスに関連する結果を保持することと、パスリスト内で最小のスコア減点を有する最初のNパスをパスセットとして記憶することと、を含む。
好ましくは、パスリスト内で最小のスコア減点を有する最初のNパスは、パスセットとして記憶され、Nは、既定の整数である。
好ましくは、最も高いロバスト性を有するノードを抽出されたノード候補セットから選択して、最後に抽出されたノードとすることは、最も高いスコアを有するパスに対応するノードを抽出されたノード候補セットから最後の抽出された最終ノードとして選択することを含む。
好ましくは、信頼性判定のルールは、相対位置情報に関連するルール、ノードの総数に関連するルール、および/またはシフト位置情報に関連するルールを含む。
好ましくは、事前にノードに対応する相対位置情報を取得することは、DOM構造をトラバースして、ノードのテキストおよびスタイル情報を取得することと、該テキストおよびスタイル情報を用いて、それぞれのノードの最近傍の相対位置情報を取得することと、を含む。
好ましくは、ターゲットノードからルートノードまでの取得された候補パスをパスセットとしてレンダリングするときに、該方法は、取得されたパスセット内のノードのパス情報を用いてノード間のパス類似性を算出し、繰り返し構造を有するパスを識別することをさらに含む。
好ましくは、取得されたパスセット内のノードのパス情報を用いてノード間のパス類似性を算出し、繰り返し構造を有するパスを識別することは、ノードのパス情報を用いて兄弟ノード間のパス類似性を算出することと、パス類似性を用いて繰り返し構造を有するすべての兄弟ノードを取得し、繰り返し構造を有する兄弟ノードのシフト情報を記録することと、繰り返し構造を有するすべての兄弟ノードによって所有される同等のパスを、抽出中に使用されるパスセットとしてフィルタ処理することと、を含む。
好ましくは、パスセットを用いて抽出されるウェブページの抽出されたノードセットを取得することは、パスセットを用いて抽出されるウェブページの抽出されたノード候補セットを取得し、パスが繰り返し構造を指す場合、繰り返し構造を有する兄弟ノードのシフト情報を用いて、繰り返し構造を有する複数のパスを抽出し、抽出されるウェブページ情報に対応するノードを抽出されたノード候補セットとして取得することを含む。
好ましくは、ノードのパス情報を用いて兄弟ノード間のパス類似性を算出することは、以下を含み、
Figure 2016154052
式中、sim(A,B)は、ノードAとノードBとの間の類似性の程度を表し、パス(A∩B)は、ノードAおよびBに関連する同等のパスのセットを表し、パス(A∪B)は、ノードAおよびBに関連するすべてのパスを含むセットを表し、スコア(x)は、パスxのスコア減点を表す。
好ましくは、該方法は、パスセットに対する最後に抽出されたノードに対応するパスの重みを設定閾値と比較して、関連した抽出が成功したかを判定し、それから得られた結果が設定閾値を超える場合、抽出が失敗したと判定し、得られた結果が設定閾値以下である場合、抽出が成功したと判定することをさらに含む。
本開示の実施形態は、ウェブページ情報を抽出するシステムをさらに開示し、該システムは、サンプルページのDOM構造を分析し、DOM構造内の抽出される情報の位置を取得するために使用される、サンプルページ抽出情報位置取得ユニットと、DOM構造内の抽出される情報の位置に対応するノードをターゲットノードとしてレンダリングし、ターゲットノードから開始して、事前に取得された相対位置情報をトラバースしてノードを取得して、該ノードがルートノードであるかを判定し、そうでない場合、ルートノードが探し出されるまで別のノードを再帰的に探し続けて候補パスを作成し、ターゲットノードからルートノードまでの取得された候補パスをパスセットとしてレンダリングするために使用される、パスセット取得ユニットと、抽出されるページのDOM構造を分析し、パスセット内のルートノードから開始するパスを用いて抽出されるページのDOM構造内に抽出される情報を配置し、抽出されるページのDOM構造内の抽出される情報の位置に対応するノードを抽出されたノード候補セットとして取得するために使用される、抽出されたノード候補セット取得ユニットと、最も高いロバスト性を有するノードを抽出されたノード候補セットから選択して、最後に抽出されたノードとし、抽出されたノードを用いて抽出された情報を取得するために使用される、抽出された情報取得ユニットと、を含む。
好ましくは、該システムは、DOM構造をトラバースしてノードのテキストおよびスタイル情報を取得し、該テキストおよびスタイル情報を用いてそれぞれのノードの最近傍の相対位置情報を取得するために使用される、ノード位置情報取得サブユニットをさらに含む。
好ましくは、該システムは、取得されたパスセット内のノードのパス情報を用いてノード間のパス類似性を算出し、繰り返し構造を有するパスを識別するために使用される、繰り返し構造認識ユニットをさらに含む。
好ましくは、繰り返し構造認識ユニットは、ノードのパス情報を用いて兄弟ノード間のパス類似性を算出するために使用される、パス類似性算出サブユニットと、パス類似性を用いて繰り返し構造を有するすべての兄弟ノードを取得する、繰り返し兄弟ノード取得サブユニットと、繰り返し構造を有する兄弟ノードのシフト情報を記録するために使用される、シフト情報記録サブユニットと、繰り返し構造を有するすべての兄弟ノードによって所有される同等のパスを抽出中に使用されるパスセットとしてフィルタ処理するために使用される、同等のパス取得サブユニットと、を含む。
好ましくは、該システムは、パスセットに対する最後に抽出されたノードに対応するパスの重みを設定閾値と比較して、関連した抽出が成功したかを判定する抽出結果判定ユニットを含む。
複数のパスを位置決めする技術を使用し、かつDOM構造およびテキストコンテンツを分析することによって、本開示は、パターンを自動的に見つけ出し、多数の加重されているが厳密に順序付けられていないパスを生成し、複数のパスを配置することによってコンテンツを抽出し、パスの関連した重みに基づいて最後の抽出結果を選択する。多数のパスが豊富なページ情報を含むため、ウェブページのコンテンツが更新され、ウェブページの構造が変更された後の無効な位置情報の結果生じる抽出失敗または不正確な抽出結果の問題は、対話コストを増加させることなくデータの正確さを維持しながら解決される。
その一方で、多数のパスに関連する豊富な情報に基づいて、繰り返し構造の判定を、パスの類似性の全体の程度を算出することによって達成することができ、したがって、繰り返し構造を識別および抽出する問題を有能に解決する。
本開示の例示的な実施形態または現行の科学技術の技術スキームをより明確に理解するために、例示的な実施形態または現行の科学技術の説明に不可欠な添付の図が、以下に簡潔に説明される。以下の図は、本開示の少数の例示的な実施形態を構成するにすぎない。これらの添付の図に基づいて、当業者であれば、独創的に努力することなく、他の図を得ることができる。
本開示の例示の方法を説明するフローチャートである。 本開示の第1の実施形態に従う方法を説明するフローチャートである。 本開示の第1の実施形態に従うDOM構造を説明する概略図である。 本開示の第1の実施形態に従うパス選択を説明するチャートである。 本開示の実施形態に従う取得された抽出された候補ノードセットを説明する概略図である。 本開示の第2の実施形態に従う方法を説明する概略図である。 本開示の第2の実施形態に従うパス選択を説明するチャートである。 本開示の第3の実施形態に従う方法を説明する概略図である。 本開示の第3の実施形態に従うパス選択を説明するチャートである。 本出願の方法の実施形態に従うシステムを説明する概略図である。 図10でより詳細に説明される例示的なシステムである。
本開示は、ウェブページ情報を抽出する方法を開示する。当業者が本開示における技術スキームを理解するために、例示的な実施形態の技術スキームは、例示的な実施形態の添付の図を用いてより明確かつ完全に説明される。本明細書に記載の例示的な実施形態は、本開示の例示的な実施形態すべてではなく一部のみを構成する。本開示の例示的な実施形態に基づいて、当業者であれば、依然として本開示の範囲内であるすべての他の例示的な実施形態を得ることができる。
ウェブページは、その重要な情報が通常バックエンドデータベースに記憶され、固定ページテンプレートでユーザに提示される半構造化された文書である。ウェブページ情報を抽出する一般的なプロセスは、抽出されるコンテンツの位置情報をサンプルページから取得することと、それと同一のテンプレートを用いたウェブページのデータセットの場合、位置情報を用いてコンテンツ抽出を実行することと、を含む。位置情報の正確さは、ウェブページ情報抽出の質を直接決定する。現行の科学技術において、XPATH(XPATHとは、XML文書内の情報を探し出すための言語であり、XPATHは、パス表現を用いてXML文書内のノードまたはノードセットを選択する)を自動的に生成して、ウェブページ情報の抽出を行う方法が存在する。XPATHを自動的に生成する方法は、ユーザがウェブページからの抽出のためにコンテンツを選択することと、プロセスがDOM構造内に抽出されたコンテンツの位置を記録することと、DOMルートノードからレベル毎にターゲットノードまでのタグ名情報およびシフト情報のみを含むXPATHパスを自動的に生成することと、XPATHを用いて抽出されるウェブページのセットから情報を取得することとを含む。自動的に生成されたXPATHは、概して、タグ名およびシフトの情報のみを記録し、位置決め情報を過度に単純化するため、絶え間なく変わるウェブページ構造についていくことができない。さらに、ウェブページのコンテンツが更新された後、コンテンツの配置失敗または抽出を目的としないコンテンツの配置等の問題は、XPATHパス上の要素が変更された後に生じる。同時に、XPATHの記録された情報が過度に単純化されるため、XPATHを用いて、繰り返し構造の識別問題を解決することができず、繰り返し構造の識別および抽出を実行するためにさらなる算出を要求する。
上述のことを考慮して、本開示は、ウェブページ情報を抽出する方法を提供する。本開示によって提供される技術的提案において、サンプルページのパスセットが取得されるとき、逆位置決め方法は、ターゲットノードからルートノードまでの複数のパスを取得するために使用される。その後、複数のパスを位置決めする方法は、複数のパスによって形成されるパスセットに基づいて抽出されるページの情報を配置するために使用される。したがって、抽出されるページの情報を配置するために複数のパスが取得されるため、ページ情報が修正され、構造が変更された場合でも、抽出されるコンテンツを良好なロバスト性で正確に配置することができるが、但し、ページが実質的に再構築されていないことを条件とする。
図1は、本開示の実施形態に従う方法のフローチャートである。本開示のウェブページ情報を抽出する方法は、添付の図と併せて以下で説明される。
ウェブページ情報を抽出する方法は、以下の手順を含む。
S101は、サンプルページのDOM構造を分析し、DOM構造内の抽出される情報の位置を取得する。
S102は、DOM構造内の抽出される情報の位置に対応するノードをターゲットノードとしてレンダリングし、ターゲットノードから開始して、事前に取得された相対位置情報をトラバースしてノードを取得して、該ノードがルートノードであるかを判定し、そうでない場合、ルートノードが探し出されるまで別のノードを再帰的に探し続けて候補パスを作成し、ターゲットノードからルートノードまでの取得された候補パスをパスセットとしてレンダリングする。
S103は、抽出されるページのDOM構造を分析し、パスセット内のルートノードから開始するパスを用いて抽出されるページのDOM構造内に抽出される情報を配置し、抽出されるページのDOM構造内の抽出される情報の位置に対応するノードを抽出されたノード候補セットとして取得する。
S104は、最も高いロバスト性を有するノードを抽出されたノード候補セットから選択して、最後に抽出されたノードとし、抽出されたノードを用いて抽出された情報を取得する。
本開示によって提供される技術的提案において、我々は、最初に、サンプルページ内に抽出される情報の位置情報、すなわち、ターゲットノードの位置情報を取得し、ターゲットノードの位置情報を用いてターゲットノードからルートノードまでの複数のパスを取得する必要があり、ここで逆位置決め方法が使用される。サンプルページは、通常、ユーザによって提供され、抽出されるウェブページと同一のウェブページテンプレートを用いるウェブページである。該方法の考えられる実行は、抽出されることが所望される情報に基づいてユーザにウェブアドレスを入力させ、関連したウェブページをサンプルページとしてダウンロードさせることである。サンプルページは、異なるウェブサイトからダウンロードされてもよい。したがって、抽出されるウェブページは、この場合、サンプルページと同一のテンプレートを有するウェブページのセットに相当する。他の方法は、サンプルページを取得するために使用されてもよく、本開示によって限定されるものではない。
現行の科学技術において、ユーザは、抽出されるサンプルページ内の情報を選択し、プロセスは、DOM構造内の抽出される情報の位置を記録し、バックエンドは、ルートノードからレベル毎にターゲットノードまでのパスを自動的に生成する。それらのノードのいずれかに変更が生じた場合、コンテンツの配置失敗の問題が生じ得る。本開示によって提供される技術的提案は、最近傍の相対位置情報を用いて複数のパスを取得し、抽出されるページのルートノードから開始する複数のパスを用いてターゲットノード、すなわち、抽出されるコンテンツを探し出す。
図2を参照して、図2は、本開示の第1の実施形態に従う方法を説明するフローチャートであり、図と併せて以下で説明される。
S201は、サンプルページから抽出される情報を選択する。
抽出される情報は、ユーザが目的とする情報であり、ウェブページ情報抽出に関して、ユーザがウェブページ情報抽出を介して抽出することを所望する情報の種類に相当する。抽出される情報は、概して、ユーザによって定義および提供される。本開示によって提供される実施形態において、ユーザは、抽出される情報を対話型インタフェースを介してサンプルページから選択することができる。この時に、ユーザは、ライン選択またはフレーム選択を用いてサンプルページ内に抽出される情報を示すことができる。ユーザによって示されるサンプルページ内に抽出される情報が「履歴およびソース」である場合、ユーザは、ラインまたはフレーム選択を用いて抽出される情報を選択することができる。
S202は、サンプルページのDOM構造を分析し、DOMツリーを構築し、DOM構造内の抽出される情報の位置を取得し、ターゲットノードの位置情報を取得する。
DOM(文書オブジェクトモデル)は、
Figure 2016154052
と呼ばれる中国名を有する。DOMは、オブジェクト管理グループ(OMG)の規格に基づいて設計され、オブジェクト指向様式で文書モデルを説明する。DOMは、文書を表し、かつ修正するために必要とされるオブジェクト、これらのオブジェクトの挙動および属性、ならび にこれらのオブジェクト間の関係を定義する。DOMは、ノードの層によって形成される文書上に全ウェブページをマッピングする。すべてのDOM構造は、1つのルートノードのみを有し、それぞれのHTMLタグがツリー上でノードを表すツリー構造である。
表1は、DOM構造の簡単な例を示す。
[表1]
<html>
<head>
<body id=“view”>
<div id=“usrbar”>
<div id=“wrap”>
<div id=“header”>
<div id=“page”>
<div id=“content-wrap”class=“layout grid-m0s245 w1000”>
<div id=“content”class=“col-main article”>
<div class=“main-wrap main-shadow”>
<div class=“content-hd”>
<div class=“content-bd main-body”>
<div class=“text”>
<span class=“editable-lemma”data-edit-id=“page94238”></span>
<h1 class=“title”>regular expression<h1>
<script>
<script type=“text/javascript”>
<div class=“clear”> </div>
<style type=“text/css”>
<div class=“mod-top”>
<fieldset id=“catalog-0”class=“text_dir nslog-area”>
<div class=“clear”></div>
<script type=“test/javascript”>
<div id=“lemmacontent-0 ”class=“lemma-main-content”>
<h2 class=“headline-1 first bk-sidecatalog-title”>
<span class=“text_edit editable-title”data-edit>
<a class=“nslog:1019” onclich=“bk.view.edit.Le”>
< /span/>
<a name=“1”></a>
<span class=“headline-content”>history and source</span>
</h2>
DOM文書内の抽出される情報の位置、「履歴およびソース」は、以下である:
<span class=“headline−content”>history and source</span>
このような方法で、DOM内の抽出される情報の位置情報、すなわち、ターゲットノードの位置情報が取得される。
S203は、サンプルページのDOM構造をトラバースして、それぞれのノードに関連するテキストおよびスタイル属性の情報を取得する。ノードのテキストおよびスタイル情報は、主に、ノードの相対位置情報定義の準備のために取得される。本開示によって提供される技術的提案において、ターゲットノードからルートノードまでのすべてのパスは、相対位置情報を用いて取得される。相対位置情報に基づいて、ターゲットノードからルートノードまでの複数のパスが探し出される。
我々は、以下のようにノードの情報を導入する。ノードの情報は、主に、以下のものを含む:
(1)HTMLタグ名
<span class=“headline−content”>history and source</span>において、関連したタグ名は「span」である。
(2)テキストコンテンツ
例えば、<span>price:</span>
<strong id=“J−StrPrice”>719.0</strong>
この中で、「price」は、ノードのテキスト情報である。
(3)タグスタイルID(識別子)
例えば、<span>price:</span>
<strong id=“J−StrPrice”>719.0</strong>
記録された価格に対するタグ「strong」のIDは、J_StrPriceである。
(4)タグスタイルクラス(カテゴリー)
<span class=“headline−content”>history and source</span>
タグ「span」のクラスは、class=headline−contentである。
(5)他のスタイル属性は、主に、名称、src、href、alt等を含む。
S204は、テキストおよびスタイル情報を用いてそれぞれのノードの最近接の相対位置情報を取得する。
本開示によって提供される実施形態において、最近接の相対位置情報を、2つの主なクラスに分けることができる。
1つのクラスは、ターゲットノードと兄弟、親、または子関係を有するノードの情報に相当し、同一の親ノードに直接接続するノードは、兄弟ノードと呼ばれる。
説明用の例として、Aは、ターゲットノードであり、Bは、Aに隣接したノードである。ノードAとノードBとの間のノード層関係に基づいて、ノードAと以下の関係を有するノードBを、最近傍と定義することができる:BがAの左側の兄弟であり、BがAの右側の兄弟であり、BがAの親であり、BがAの子である。それに対応して、ノードBの位置情報は、最近傍の相対位置情報と称され得る。
もう1つのクラスは、ターゲットノードと直接層関係を有し、かつテキストおよびスタイル属性を有するノードを指す。直接層関係は、本明細書において、BがAの親、子、または子孫であると定義される。説明用の例を用いる。Aは、ターゲットノードである。Bは、Aの子孫ノードであり、スタイルIDをXXXとして有するノードである。ここで、ノードBの位置情報は、最近傍の相対位置情報と称され得る。同様に、Aの子孫ノードであり、かつスタイルクラスをXXXとして有するノードB、Aの子孫ノードであり、かつテキストをXXXとして有するノードB、ならびAの子ノードであり、かつタグをXXXとして有するノードBはすべて、最近傍の相対位置情報と定義されてもよい。ここで、Bは、Aと直接層関係を有するノードであり、例えば、Bは、Aの親、子、または子孫ノード等である。その一方で、ウェブページの構造内で、スタイルをIDまたはクラスとして有するノードは、特別な種類のノードであり、特別な意味を有するノードである。これらのノードは、ウェブページの構造の重要な要素である。したがって、本開示の実施形態において、最近傍の相対位置情報を定義するとき、ターゲットノードと直接層関係を有し、かつIDまたはクラス等のスタイル属性を有するノードは、最隣接ノードとしても定義される。具体的には、注目を集めるべき他の重要な属性を、実際のニーズに基づいて定義することもできる。本開示は、それを限定しない。
図3は、本開示の第1の実施形態に従うDOM構造の概略図である。図中の接続線は、親子関係のみを識別し、同一の親と直接接続したノードは、兄弟ノードと呼ばれる。それぞれのノードのテキストおよびスタイル情報は、次の表に表される。
Figure 2016154052
図3において、「ルート」として表されるノードは、ルートノードであり、ノードDの最近傍の位置情報を、以下のように説明することができる。
(1)ターゲットノードと兄弟、親、または子関係を有するノードの情報。
Dは、Eの左側の兄弟である。
Dは、Bの子である。
Dは、Bの第1の子である。
Fは、Dの第1の子ノードである。
(2)ターゲットノードと直接層関係を有し、かつテキストまたはスタイル属性を有するノードの位置情報。
Dは、divのタグを有するBの第1の子ノードである。
Dは、abcのスタイルIDを有するBの第1の子孫ノードである。
Dは、abcのスタイルを有するルートの第1の子孫ノードである。
Dは、div−topのクラスを有するBの第1の子孫ノードである。
Dは、div−topのクラスを有するルートの第1の子孫ノードである。
Fは、aのタグを有するDの第1の子ノードである。
Fは、「google」のテキストを有するDの第1の子孫ノードである。
Fは、www.google.comのsrc属性を有するDの第1の子孫ノードである。
それぞれのノードの最近傍の相対位置情報を取得することにより、ターゲットノードからルートノードまでのパスを、相対位置情報に基づいて探し出すことができる。
AおよびBが2つのノードを表し、かつBがAに最隣接した位置を有するノードである表3の描写は、最近傍に関連するある特定の相対位置情報の一例である。
[表3]
Aは、Bの左側の兄弟である。
Aは、Bの右側の兄弟である。
Aは、Bの親である(第1層より上)。
Aは、Bのn番目の子ノードである(子は、親の下の第1の層に限定されると定義される)。
Aは、XXXのタグを有するBの子のn番目のノードである(一般的)。
Aは、XXXのスタイルidを有するBの子孫間のn番目のノード(ノードB下のフォレストの全ノードセット)である。
Aは、XXXのスタイルクラスを有するBの子孫間のn番目のノードである。
Aは、XXXのテキストを有するBの子孫間のn番目のノードである。
Aは、yのスタイル属性の値xを有するBの子孫間のn番目のノードである。
Bは、Aのn番目の子ノードである。
Bは、XXXのタグを有するAの子のn番目のノードである。
Bは、XXXのスタイルIDを有するAの子孫間のn番目のノードである。
Bは、XXXのスタイルクラスを有するAの子孫間のn番目のノードである。
Bは、XXXのテキストを有するAの子孫間のn番目のノードである。
Bは、yのスタイル属性の値xを有するAの子孫間のn番目のノードである。
「AがXXXのテキストを有するBの子孫間のn番目のノードである」という相対位置情報を定義するとき、S203で取得された関連したノードのテキスト情報が使用される。
「BがXXXのスタイルidを有するAの子孫間のn番目のノードである」という相対位置情報を定義するとき、S203で取得された関連したノードのタグスタイルID情報が使用される。
「BがXXXのスタイルクラスを有するAの子孫間のn番目のノードである」という相対位置情報を定義するとき、S203で取得された関連したノードのタグスタイルクラス情報が使用される。
S205は、先に取得されたノードの位置情報を使用し、ターゲットノードから開始して、ターゲットノードからルートノードまでのすべてのパスをパスセットとして探し出す。
S202で取得されるDOM構造内の抽出される情報の位置に対応するノードは、ターゲットノードとしてレンダリングされる。ターゲットノードから開始して、先に取得された相対位置情報がトラバースされてノードを取得し、ノードがルートノードであるかの判定が下される。そうでない場合、ルートノードが探し出されるまで別のノードが再帰的に探し出され、候補パスを形成する。ターゲットノードからルートノードまでの取得されたすべての候補パスは、パスセットを形成する。
図4は、本開示の第1の実施形態に従うパス選択のチャートである。プロセスの詳細は、図と併せて以下で説明される。
S251は、ターゲットノードから開始して、ターゲットノードを現在のノードとして設定する。
S252は、現在のノードの最近傍の先に取得された相対位置情報をトラバースし、それから相対位置iに対応するノードBiを選択して、Biがルートノードであるかを判定する。
Biがルートノードであると判定された場合、S253は、関連したパスをパスリストに追加し、そうでない場合、Biを現在のノードとして使用し、ルートノードが探し出されるまで別のノードを再帰的に探し続け、そのパスをパスリストに追加する。
S254は、パスリスト内のパスをパスセットとしてレンダリングする。
本開示のパス選択方法の例は、図3および先に定義された相対位置と併せて以下で説明される。
本開示の実施形態において、我々は、ノードの最近傍の相対位置情報を使用し、ターゲットノードから開始して、ターゲットノードからルートノードまでのパスをパスセットとして探し出し、レンダリングする。この場合、ターゲットノードからルートノードまでの探し出されたパスは、ターゲットノードからルートノードまで層毎に上に進むパスだけではなく、ホッピングパスでもある。図3に示されるように、「ルート」ノードは、ルートノードであり、ターゲットノードは、Dである。ノードBは、ターゲットノードDの親ノードと定義され、ノードEは、Dの右側の兄弟であり、ノードFは、ノードDの第1の子ノードである。したがって、我々は、ターゲットノードDからルートノードまでの少なくとも4つのパスを探し出すことができる。
(1)ターゲットノードDからノードB、その後ルートノードまでのパス。
(2)ターゲットノードDからノードE、ノードB、その後ルートノードまでのパス。
(3)ターゲットノードDからノードB、ノードA、その後ルートノードまでのパス。
(4)Dの相対位置情報の1つが「Dは、abcのスタイルを有するルートの第1の子孫ノードである」と説明される場合、ターゲットノードDからルートノードまでの直接パスを探し出すことができる。
上記のパスにおいて、第1のパスを、ターゲットノードからルートノードまでの層毎に上に進むパスと見なすことができる。
第2のパスは、「DはEの左側の兄弟である」および「BはEの親である」という相対位置情報を使用して、ターゲットノードDからノードE、ノードB、その後ルートノードまでのパスを探し出す。
第3のパスは、「DはBの第1の子である」および「AはBの右側の兄弟である」という相対位置情報を使用して、ターゲットノードDからノードB、ノードA、その後ルートノードまでのパスを探し出す。
第4のパスは、「Dはabcのスタイルを有するルートの第1の子孫ノードである」という相対位置情報を使用して、ターゲットノードDからルートノードまでの直接パスを探し出す。パスセットを用いて抽出されるページのターゲットノードを探し出すとき、このパスを用いて、ターゲットノードをルートノードから取得することができる。
パスリスト内の上記のパスは、パスセットとしてレンダリングされる。上記のパスのうち、第1のパスのみが、ターゲットノードからルートノードまでの層毎に上に進むパスである。他のパスは、相対位置情報およびホッピングを用いるパスである。ウェブページのコンテンツまたは構造に任意の変更が生じた場合、ターゲットノードをこれらの複数のパスに基づいて引き続き配置することができる。
S206は、抽出されるページのDOM構造を分析する。
抽出されるウェブページは、サンプルページと同一のウェブページテンプレートを有するページのセットに相当する。本開示によって提供される実施形態において、抽出されるページを、ネットワーククローラツールを用いて取得することができる。ネットワーククローラ(ウェブページスパイダー、ネットワークアンドロイドとも呼ばれる)は、ある特定の基準に従ってワールドワイドウェブ上で情報を自動的にクロールするプロセスまたはスクリプトである。概して、ネットワーククローラは、検索エンジンのためにワールドワイドウェブからページをダウンロードする自動ウェブページ抽出プロセスであり、検索エンジンの重要な要素である。抽出されるページを取得するとき、我々は、ネットワーククローラツールを用いてページを取得することができる。抽出される全ページのDOM構造を取得するために、抽出されるページのDOMツリーが作成される。
S207は、パスセット内のルートノードから開始するパスを用いて抽出されるページのDOM構造内の抽出される情報の位置を配置し、抽出されるページのDOM構造内の抽出される情報の位置に対応するノードを抽出されたノード候補セットとして取得する。
図5は、本開示の実施形態に従うパスセットを用いて抽出されるページの抽出されたノード候補セットを取得する概略図である。図5で示されるように、パスは、インタプリタを用いてDOM内のポインティング要素の位置を配置することができる。したがって、S205で取得されたパスセットを用いて、抽出されるページの抽出されたノード候補セットを取得することができる。本明細書で使用される方法は、パスセット内の複数のパスを用いて、抽出されるページのコンテンツを配置すること、すなわち、ルートノードから開始して、抽出されるコンテンツであるターゲットノードを探し出すことである。
微妙な違いがページ構造内に存在し得るため、パスは、抽出されるページ内の要素、例えば、図5のAおよびBを配置するときに、異なるノードを指してもよい。図中でヌルで表される無効な位置決め等の無効な位置決めは、ページ構造の違いが原因で生じる場合もある。例えば、ページコンテンツまたはページ構造が更新されるとき、ルートノードからターゲットノードまでのパス内のある特定のノードを変更することができる。XPATHを自動的に生成する方法、すなわち、ルートノードからターゲットノードまでの層毎に上に進むパスを用いる方法が使用される場合、コンテンツを配置することができない場合がある。その一方で、相対位置情報を用いて複数のパスを取得するため、抽出されるページの要素がパスセットを用いてインタプリタによって配置されるときに、複数の異なるノードを配置することができる。
S208は、最もロバストなノードを抽出されたノード候補セットから最後に抽出されたノードとして選択し、抽出されたノードを用いて情報を抽出する。
本開示の実施形態において、最後に抽出されたノードを選択するとき、最もロバストなノードが最後に抽出されたノードとして選択される。最もロバストなノードは、最も正確かつロバストに位置決めされるノードセット内のノードに相当する。最もロバストなノードを選択するとき、信頼性判定のルールが使用される。具体的には、信頼性判定のルールに従って、抽出されたノード候補セット内の抽出された候補ノードに応答するパスに関連するスコアが算出され、最も高いスコアを有するパスに対応するノードは、最後の抽出されるノードとして選択される。最もロバストなノードの選択は、本開示において提供される例示の方法に限定されない。他の算出方法を用いて、最もロバストなノードを選択することができる。
ここで、信頼性判定のルールが使用される。信頼性判定のルールは、重要性および安定性の違いに基づいて、異なる相対位置情報、パス長、およびシフト位置情報を有するノードの信頼性を判定する。我々は、信頼性判定のルールを以下のように定義する。
(1)相対位置情報に関連するルール
完全なパスは、一連の相対位置情報から構成されており、相対位置情報の種類によって信頼性判定のルールは異なる。
表4は、それぞれの信頼性に従う相対位置情報の降順を示す。
Figure 2016154052
表4は、それぞれの信頼性に従う相対位置情報の降順を示す。我々は、相対位置情報の信頼性を判定する2つの主な基準を有し、1つは、特徴的なタグの重要性の程度であり、もう1つは、それが変更される可能性である。具体的には、ウェブページ構造において、スタイルIDおよびスタイルクラスのマーカーを有するノードは、多くの場合、特別な種類のノードであり、ウェブページ情報抽出における使用に非常に好適である。さらに、これらの種類のノードは、多くの場合、ウェブページ構造が変更されるときにほとんど変更されず、安定した信頼性のあるノードである。したがって、我々は、上に列記されるそれらの信頼性を有することができる。src属性、href属性、またはalt属性を有するノードは、多くの場合、リンクに相当する。これらの種類のノードは、全体のウェブページ構造において一意性を有する場合が多い。それらの対応するコンテンツが、多くの場合、より重要または有意である一方で、変更される可能性は比較的低い。したがって、これらは、我々がパス選択を行うときにかなりの注目を集めるノードである。テキスト情報を有するノードは、多くの場合、我々が目的とする情報を直接探し出すのに役立ち、例えば、「価格」情報を有するノードは、我々が価格に関連する情報を抽出するときに目的とする情報を迅速に探し出すのに役立つ。この表において、ターゲットノードから親ノードまでの関係が1対1である一方で、ターゲットノードから子ノード(複数を含む)までの関係が多数対1であり得、したがって、より低い信頼性を有するため、親ノードは子ノードよりも信頼性が高い。
(2)ノードの総数に関連するルール
パスの信頼性は、パス内を通過するノードの総数に基づいて判定される。通過するノードの数が多いほど、パスは長く、信頼性は低く、ロバスト性は低い。これは、ノードの総数が増加するにつれてパスの長さが長くなるためである。それらのノードのうちのいずれか1つの情報が変更される場合、ターゲットノードの不正確な位置決めが生じ得る。ノードの数が増加するにつれて、この種の危険性が増加し、したがって、信頼性が低下する。
(3)シフト位置情報に関連するルール
ノードの位置情報を説明するとき、我々は、以下のように表現する:AはBのn番目の子ノードであり、Aは***のスタイルIDを有するn番目の子孫ノードである。ここで、シフト位置は、位置情報のシフト数(序数等)またはシフトの総数(合計数)を指す。シフト数が多いほど、シフトの総数は多く、信頼性は低い。これは、シフト位置がノード間の関係の親密さの程度を反映するためである。より大きいシフト位置は、ノード間の関係の親密性がより低く、したがって、信頼性が比較的低いことを示す。
我々は、上記の信頼性判定のルールを用いてパスの信頼性およびロバスト性を判定し、パスの信頼性およびロバスト性を判定することによって、最も高いロバスト性を有するノードを最後に抽出されたノードとして選択する。ここで、我々は、信頼性判定のルールに従ってパスのスコアを提供し、より高い信頼性を有するパスにより高いスコアを与える。上記の3種類の信頼性判定ルールを、個別に、または組み合わせて使用することができる。判定が3種類のルールの組み合わせを用いて行われる場合、その結果は、より正確なものとなる。
例えば、それぞれのパスに100の合計スコアを有しさせ、3つのパスをステップS208で取得された抽出されたノード候補セット内に取得させ、2つのパスがノードAを通過し、1つのパスがノードBを通過する。ノードAを通過するパスに対して減点されたスコアが、それぞれ、70および80である場合、ノードAの合計スコアは、(100−70)+(100−80)=50である。ノードBを通過するパスに対して減点されたスコアが10である場合、ノードBの合計スコアは、100−10=90である。したがって、最も高いスコアを有する抽出結果は、ノードBを指すパスである。その結果、最終的に抽出されるノードは、Bである。
S209は、最後に抽出されたノードに対応するパスに関連する重みを設定閾値と比較し、関連した抽出が成功したかを判定する。
本開示の実施形態において、最後に抽出されたノードの「合計ノードスコア」を「全てのパスの合計スコア」で割った後に得られた結果が設定閾値と比較され、関連した抽出が成功したかを判定する。得られた結果が設定閾値を超える場合、抽出が失敗したと判定される。得られた結果が設定閾値以下である場合、抽出が成功したと判定される。
本開示の好ましい実施形態において、ターゲットノードからルートノードまでのすべてのパスをパスセットとして取得するとき、信頼性判定のルールを用いて、最小のスコア減点を有するターゲットノードからルートノードまでの最初のNパスをパスセットとして探し出す。ロバスト性が高いほど、スコア減点は小さい。このようにして、取得されたパスは、もはやターゲットノードからルートノードまでのすべてのパスではないが、最小のスコア減点を有するパスセット内の好ましいパスである。
本開示の第2の実施形態は、添付の図と併せて以下で説明される。図6は、第2の例示の方法の概略図である。
S601は、抽出される情報をサンプルページから選択する。
S602は、サンプルページのDOM構造を分析し、DOM構造を作成し、DOM構造内の抽出される情報の位置を取得する。
S603は、サンプルページのDOM構造をトラバースして、それぞれのノードのテキストおよびスタイル属性情報を取得する。
S604は、S603で取得されたテキストおよびスタイル属性情報を用いて、それぞれのノードの最近傍の相対位置情報を取得する。
S605は、相対位置情報を利用し、ターゲットノードからルートノードまでのパスを探し出す(これは、ターゲットノードから開始する)ときに、信頼性判定のルールに従ってパスのスコア減点を行い、最小のスコア減点を有する最初のNパスをパスセットとしてレンダリングする。
ターゲットノードは、DOM構造内に抽出される情報の位置に対応するノードに相当する。パスは、一連の相対位置情報と定義される。ノードは、S604で取得された位置情報をトラバースすることによって選択される。全体のパススコア減点が算出される。閾値を超える場合、その伝播は停止される。さもなければ、次のノードがルートノードになるまで、次のノードは再帰的に探し出される。
図7は、本開示の第2の実施形態に従うパス選択を説明するチャートである。具体的なプロセスは、添付の図と併せて以下で説明される。
S651は、ターゲットノードから開始して、ターゲットノードを現在のノードとして設定する。
S652は、S604で取得された現在のノードの最近傍の先に取得された相対位置情報をトラバースし、それから相対位置iに対応するノードBiを選択して、Biがルートノードであるかを判定する。
S653は、Biがルートノードであると判定された場合、関連したパスをパスリストに追加し、そうでない場合、S654に進む。
S654は、信頼性判定のルールに従ってスコア減点の条件を算出および判定し、スコア減点が閾値以下である場合、Biを現在のノードとして設定してS652に進み、スコア減点が閾値を超える場合、伝播を停止する。
S655は、パスリスト内で最小のスコア減点を有する最初のNパスをパスセットとしてレンダリングする。
S654で、現在のパスのスコア減点の条件を算出および判定するときに、信頼性判定のルールは、以下のように設計される。
(1)位置情報のルール
完全なパスは、一連の相対位置情報から構成されており、相対位置情報の種類によって信頼性判定のルールは異なる。
表5は、それぞれの信頼性に従う相対位置情報の降順を示す。
Figure 2016154052
表5は、それぞれの信頼性に従う相対位置情報の降順を示す。第1の実施形態において説明されるように、我々は、相対位置情報の信頼性を判定する2つの主な基準を有し、1つは、特徴的なタグの重要性の程度であり、もう1つは、それが変更される可能性である。
(2)ノードの総数に関連するルール
パスの信頼性は、パス内を通過するノードの総数に基づいて判定される。通過するノードの数が多いほど、すなわち、パスが長いほど、信頼性は低い。
(3)シフト位置情報に関連するルール
判定は、位置情報のシフト数(序数等)またはシフトの総数(合計数)を指すシフト位置に基づく。シフト数が多いほど、シフトの総数は多く、信頼性は低い。
上記の3種類の信頼性判定ルールを、個別に、または組み合わせて使用することができる。判定が3種類のルールの組み合わせを用いて行われる場合、その結果は、より正確なものとなる。
S606は、抽出されるページのDOM構造を分析し、抽出されるページのDOMツリーを作成し、抽出されるページの全DOM構造を取得する。
S607は、パスセットを用いて抽出されたノード候補セットを取得する。
図5で示されるように、パスは、インタプリタを用いてDOM内のポインティング要素を配置することができる。このようにして、S605で取得されたパスセットを用いて、抽出されるページの抽出されたノード候補セットを取得することができる。本明細書で使用される方法は、パスセット内の複数のパスを用いて、抽出されるページのコンテンツを配置すること、すなわち、ルートノードから開始して、抽出されるコンテンツであるターゲットノードを探し出すことである。
微妙な違いがページ構造内に存在し得るため、パスセットは、抽出されるページ内の要素を配置するときに異なるノードを指し得る。
S608は、最もロバストなノードを抽出されたノード候補セットから最後に抽出されたノードとして選択し、抽出されたノードを用いて情報を抽出する。
S609は、最後に抽出されたノードに対応するパスに関連する重みを設定閾値と比較し、関連した抽出が成功したかを判定する。
本開示の実施形態において、最後に抽出されたノードの「合計ノードスコア」を「全てのパスの合計スコア」で割った後に得られた結果が設定閾値と比較され、関連した抽出が成功したかを判定する。得られた結果が設定閾値を超える場合、抽出が失敗したと判定される。得られた結果が設定閾値以下である場合、抽出が成功したと判定される。
本開示の別の好ましい実施形態において、信頼性判定のルールは、最小のスコア減点を有するターゲットノードからルートノードまでのパスを探し出してパスセットを形成するためにも使用される。第3の実施形態と第2の実施形態との主な相違点は、ターゲットノードからルートノードまでのすべてのパスを探し出した後、第3の実施形態は、信頼性判定のルールに従って探し出されたパスのすべてのスコア減点を行い、それから最小の減点を有する最初のNパスを選択することである。その一方で、第2の実施形態は、伝播プロセス中に信頼性判定のルールに従ってスコア減点を行い、閾値を超えるスコア減点が発生したときに伝播を停止する。
図8は、本開示の第3の例示の方法のフローチャートであり、添付の図と併せて以下で説明される。
S801は、抽出される情報をサンプルページから選択する。
本開示によって提供される実施形態において、ユーザは、抽出される情報を対話型インタフェースを介してサンプルページから選択することができる。この時点で、ユーザは、ライン選択またはフレーム選択を用いてサンプルページ内に抽出される情報を示すことができる。ユーザによって示されるサンプルページ内に抽出される情報が「履歴およびソース」である場合、ユーザは、ラインまたはフレーム選択を用いて抽出される情報を選択することができる。
S802は、サンプルページのDOM構造を分析し、DOMツリーを構築し、DOM構造内の抽出される情報の位置を取得し、ターゲットノードの位置情報を取得する。
S803は、サンプルページのDOM構造をトラバースして、それぞれのノードに関連するテキストおよびスタイル属性の情報を取得する。
S804は、S803で取得されたテキストおよびスタイル情報を用いて、それぞれのノードの最近傍の相対位置情報を取得する。
S805は、ターゲットノードから開始して、ターゲットノードからルートノードまでのすべてのパスを探し出し、信頼性判定のルールを用いてすべてのパスのスコア減点を行い、最小のスコア減点を有する最初のNパスを探し出す。
図9は、本開示の第3の実施形態に従うパス選択のチャートである。具体的なプロセスは、添付の図と併せて以下で説明される。
具体的なプロセスは、以下の通りである。
S851は、ターゲットノードから開始して、ターゲットノードを現在のノードとして設定する。
S852は、S804で取得された現在のノードの最近傍の先に取得された相対位置情報をトラバースし、それから相対位置iに対応するノードBiを選択して、Biがルートノードであるかを判定する。
S853は、Biがルートノードであると判定された場合、関連したパスをパスリストに追加し、そうでない場合、Biを現在のノードとして設定して、ルートノードが探し出されるまでS852に進む。
S854は、信頼性判定のルールに従ってすべての探し出されたパスのスコア減点を算出し、全体のパススコア減点が閾値を超えるかを判定し、閾値を超えない場合、そのパス結果を保持する。
S855は、パスリスト内で最小のスコア減点を有する最初のNパスをパスセットとしてレンダリングする。
S806は、抽出されるページのDOM構造を分析する。
S807は、パスセットを用いて抽出されたノード候補セットを取得する。
微妙な違いがページ構造内に存在し得るため、パスセットは、抽出されるページ内の要素を配置するときに異なるノードを指し得る。
S808は、最もロバストなノードを抽出されたノード候補セットから最後に抽出されたノードとして選択し、抽出されたノードを用いて情報を抽出する。
S809は、最後に抽出されたノードに対応するパスに関連する重みを設定閾値と比較し、関連した抽出が成功したかを判定する。
本開示の実施形態において、最後に抽出されたノードの「合計ノードスコア」を「全てのパスの合計スコア」で割った後に得られた結果が設定閾値と比較され、関連した抽出が成功したかを判定する。得られた結果が設定閾値を超える場合、抽出が失敗したと判定される。得られた結果が設定閾値以下である場合、抽出が成功したと判定される。
本開示の別の実施形態において、該方法は、繰り返し構造を識別することをさらに含む。ページ情報の抽出を、単純構造からの単一の情報の抽出、繰り返し構造からの複数の情報の抽出に分類することができる。繰り返し構造を識別することは、繰り返し構造を有する複数のパスの情報抽出を可能にする。
繰り返し構造の抽出方法は、ノードのパス情報を用いて兄弟ノード間のパス類似性を算出することと、パス類似性を用いて繰り返し構造を有するすべての兄弟ノードを取得し、繰り返し構造を有する兄弟ノードのシフト情報を記録することと、繰り返し構造を有するすべての兄弟ノードによって所有される同等のパスを抽出中に使用されるパスセットとしてフィルタ処理することと、を含む。
兄弟ノードは、同一の親ノードに直接接続されるノードと定義される。本開示の実施形態に従って、2つの検索結果のヘッダが、DOM内に同一の構造を有する場合、我々は、この種の同一の(または実質的に同様の)DOMツリー構造を繰り返し構造と称する。
以下の表に示されるように、表6および7の2つの検索結果のヘッダは、繰り返しコンテンツである。
[表6]
Sister Jiang Baidu Baike
Sister Jiangは、以前にJiang Zhiweiと呼ばれた有名な殉難者Jiang Zhuyunのニックネームである。Jiang Zhuyunは、1920年8月20日に四川省自貢市で生まれ……
Baike.baidu.com/view/59656.htm−ウェブページスクリーンショット−同様の結果
[表7]
Sister Jiang全シリーズ−オンラインで高解像度で観る−Youkuビデオチャンネル
Sister Jiang、Sister Jiangをオンラインで観る、Sister Jiang全シリーズ、Sister Jiangのテレビドラマ……
www.youku.com/show_page/id_zaa64e69ada5a11de97c0.html−ウェブページスクリーンショット
表6のウェブページに対応するDOM構造は、表8に示される。表7のウェブページに対応するDOM構造は、表9に示される。
[表8]
<li class=“g”>
<div class=“vsc”sig=“GD-”rawurl= “http://baike.baidu.com/view/59656.htm”>
<div class=“vspi”></div>
<span class=“t1”>
<h8 class=“r”>
<a class=”1” onmousedown“return clk(this.href, “”, “”, “”, “1”, “”, ’occAAFjAA’)”href=“http://baike.baidu.com/view/59656.htm”>
<em>Sister Jiang</em>
_Baidu Baike
</a>
</h3>
<button class=“vspib”></button>
</span>
<div class=“s”>
</div>
</li>
[表9]
<li class=“g”>
<div class=“vsc”sig=“6G1”rawurl=“http:// www.youku.com/show_page/id_zaa64e69ada5a11de97c0.html”>
<div class=“vspi”></div>
<span class=“t1”>
<h8 class=“r”>
<a class=”1” onmousedown“return clk(this.href, “”, “”, “”, “1”, “”, ’occ8QFjAB’)”href=“http:// www.youku.com/show_page/id_zaa64e69ada5a11de97c0.html”>
<em>Sister Jiang</em>
全シリーズ−オンラインで高解像度で観る−Youkuビデオチャンネル
</a>
</h3>
<button class=“vspib”></button>
</span>
<div class=“s”>
</div>
</li>
表8および9に示されるように、太字斜体部分は、繰り返し構造内のヘッダである。
同等のパスの判定:2つのパスのシフトのみが異なる場合、その2つのパスは、同等であると見なされる。
例えば、
第1のヘッダに関連するパス:
A.第1の「li」要素の第1の「em」要素の親
B.第1の「li」要素の第1の「a」要素
C.第1の「li」要素の「1」要素のクラスを有する第1の「a」要素
第2のヘッダに関連するパス:
A‘.第2の「li」要素の第1の「em」要素の親
B‘.第2の「li」要素の第1の「a」要素
C‘.第2の「li」要素の「1」要素のクラスを有する第1の「a」要素
対応する3対のパスは、同等であると判定され、すなわち、AおよびA’、BおよびB’、ならびにCおよびC’は、それらのシフトのみが異なるため、それぞれ、同等であると判定される。
繰り返し構造を判定し、かつノード間の類似性の程度を算出するとき、我々は、以下の算出方法を用いる。
sim(A,B)の算出方法:
Figure 2016154052
式中、sim(A,B)は、ノードAとノードBとの間の類似度の度合を表し、
パス(A∩B)は、ノードAおよびBに関連する同等のパスのセットを表し、
パス(A∪B)は、ノードAおよびBに関連するすべてのパスを含むセットを表し、
スコア(x)は、パスxのスコア減点を表す。
したがって、閾値および確立されたスコア化機能に基づいて、ノードAの繰り返し兄弟ノードを配置することができる。その後、同等のパスを有するすべての繰り返し兄弟ノードを、抽出中に使用されるパスとしてフィルタ処理することができる。繰り返し兄弟のシフト情報を記録および使用して、複数のデータを繰り返し構造から抽出することができる。
それに対応して、XPATHセットを用いて抽出されるページを抽出するとき、パスが繰り返し構造を指す場合、繰り返し兄弟のシフト情報を記録し、複数のデータを抽出するステップを行う。前述のように、ページ情報の抽出を、単純構造からの単一の情報の抽出、繰り返し構造からの複数の情報の抽出に分類することができる。パスが繰り返し構造を指す場合、繰り返し兄弟のシフト情報を先に記録したため、我々は、繰り返し兄弟のシフト情報を用いて、繰り返し構造が抽出されるときに繰り返し構造を有する複数のデータを抽出することができる。
例示的な実施形態の上記の説明から、当業者であれば、開示の方法およびシステムを、必須のユニバーサルハードウェアプラットフォームを使用するソフトウェアを用いて、または以前の実行アプローチが多くの状況において好ましいハードウェアを用いて実行することができることを明確に理解することができる。この理解に基づいて、本開示の技術スキームまたは現行の科学技術への貢献を、ソフトウェア製品の形態で実行することができる。ソフトウェア製品を、不揮発性記憶媒体、例えば、ROM/RAM、ディスク、コンパクトディスク等に記憶してもよく、コンピューティングデバイス(例えば、パソコン、サーバ、もしくはネットワークデバイス等)に関する命令を含み、本開示の例示的な実施形態または例示的な実施形態のある特定の箇所で説明される方法を実行する。これらの記憶媒体には、読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク、または光ディスク等のプログラミングコードを記憶することができる媒体が含まれる。
上記の例示的な方法に対応して、本開示は、ウェブページ情報を抽出するシステムをさらに提供する。
図10は、例示的なシステム概略図であり、添付の図と併せて以下で説明される。
サンプルページ抽出情報位置取得ユニット1001は、サンプルページのDOM構造を分析し、DOM構造内の抽出される情報の位置を取得するために使用される。
パスセット取得ユニット1002は、DOM構造内の抽出される情報の位置に対応するノードをターゲットノードとしてレンダリングし、ターゲットノードから開始して、事前に取得された相対位置情報をトラバースしてノードを取得して、該ノードがルートノードであるかを判定し、そうでない場合、ルートノードが探し出されるまで別のノードを再帰的に探し続けて候補パスを作成し、ターゲットノードからルートノードまでの取得された候補パスをパスセットとしてレンダリングするために使用される。
抽出されたノード候補セット取得ユニット1003は、抽出されるページのDOM構造を分析し、パスセット内のルートノードから開始するパスを用いて抽出されるページのDOM構造内に抽出される情報を配置し、抽出されるページのDOM構造内の抽出される情報の位置に対応するノードを抽出されたノード候補セットとして取得するために使用される。
抽出された情報取得ユニット1004は、最も高いロバスト性を有するノードを抽出されたノード候補セットから選択して、最後に抽出されたノードとし、抽出されたノードを用いて抽出された情報を取得するために使用される。
ノード位置情報取得サブユニットは、DOM構造をトラバースしてノードのテキストおよびスタイル情報を取得し、該テキストおよびスタイル情報を用いてそれぞれのノードの最近傍の相対位置情報を取得するために使用される。
該システムは、取得されたパスセット内のノードのパス情報を用いてノード間のパス類似性を算出し、かつ繰り返し構造を有するパスを識別するために使用される繰り返し構造認識ユニットをさらに含む。
繰り返し構造認識ユニットは、ノードのパス情報を用いて兄弟ノード間のパス類似性を算出するために使用される、パス類似性算出サブユニットと、パス類似性を用いて繰り返し構造を有するすべての兄弟ノードを取得する、繰り返し兄弟ノード取得サブユニットと、繰り返し構造を有する兄弟ノードのシフト情報を記録するために使用される、シフト情報記録サブユニットと、抽出中に使用されるパスセットとして繰り返し構造を有するすべての兄弟ノードによって所有される同等のパスをフィルタ処理するために使用される、同等のパス取得サブユニットと、を含む。
該システムは、パスセットに対する最後に抽出されたノードに対応するパスの重みを設定閾値と比較して、関連した抽出が成功したかを判定する抽出結果判定ユニットを含む。
図11は、上述のシステム等の例示的なシステム1100をより詳細に説明する。一実施形態において、システム1100は、1つ以上のプロセッサ1101、ネットワークインタフェース1102、メモリ1103、および入出力インタフェース1104を含むことができるが、これらに限定されない。
メモリ1103は、ランダムアクセスメモリ(RAM)等の揮発性メモリ、および/または読み出し専用メモリ(ROM)もしくはフラッシュRAM等の不揮発性メモリの形態で、コンピュータ可読媒体を含んでもよい。メモリ1103は、コンピュータ可読媒体の一例である。
コンピュータ可読媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータ等の、情報を記憶するための任意の方法または科学技術を用いて実装される揮発性及び不揮発性の取り外し可能および取り外し不可能な媒体が含まれる。コンピュータ記憶媒体の例には、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他の種類のランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的消去可能プログラム可能読み出し専用メモリ(EPROM)、フラッシュメモリ、もしくは他のメモリ技術、コンパクトディスク読み出し専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、もしくは他の光学的記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、もしくは他の磁気記憶デバイス、またはコンピューティングデバイスによるアクセス用に情報を記憶するために使用することができる任意の他の非伝送媒体が挙げられるが、これらに限定されない。本明細書で定義されるように、コンピュータ可読媒体には、変調データシグナルおよび搬送波等の一過性媒体は含まれない。
メモリ1103は、プログラムユニット1105およびプログラムデータ1106を含んでもよい。一実施形態において、プログラムユニット1105は、サンプルページ抽出情報位置取得ユニット1107、パスセット取得ユニット1108、抽出されたノード候補セット取得ユニット1109、および抽出情報取得ユニット1110を含んでもよい。一実施形態において、プログラムユニット1105は、ノード位置情報取得サブユニット1111、繰り返し構造認識ユニット1112、パス類似性算出サブユニット1113、繰り返し兄弟ノード取得サブユニット1114、シフト情報記録サブユニット1115、同等のパス取得サブユニット1116、および抽出結果判定ユニット1117をさらに含んでもよい。これらのプログラムユニットおよび任意のサブユニットならびに/またはモジュールに関する詳細を、上記の実施形態において見出すことができる。
本開示によって提供される技術的提案において、サンプルページのパスセットが取得されるとき、逆位置決め方法を用いて、DOM構造およびテキストコンテンツを分析することによって、ターゲットノードからルートノードまでの複数の厳密に順序付けられていないパスを取得する。その後、複数のパスを位置決めする方法を用いて、複数のパスによって形成されるパスセットに基づいて、抽出されるページの情報を配置する。したがって、抽出されるページの情報を配置するために複数のパスが取得されるため、ページ情報が修正され、構造が変更された場合でも、抽出されるコンテンツを良好なロバスト性で正確に配置することができるが、但し、ページが実質的に再構築されていないことを条件とする。
さらに、信頼性判定のルールを用いて、開示の方法およびシステムは、多数の加重されているが厳密に順序付けられていないパスを取得し、複数のパスを配置することによってコンテンツを抽出し、最後の抽出結果をそれらのパスの関連した重みに基づいて選択する。多数のパスが豊富なページ情報を含むため、正確な位置決め結果は、対話コストを増加させることなくデータの正確さを維持することを前提に得られる。したがって、ウェブページのコンテンツが更新され、ウェブページの構造が変更された後の無効な位置情報の結果生じる抽出失敗または不正確な抽出結果の問題は、解決される。
さらに、複数のパスに関連する豊富な情報およびパスの類似性の全体の程度の算出に基づいて、本開示で提供される技術スキームは、繰り返し構造の判定を完了し、したがって、繰り返し構造を識別および抽出する問題を解決する。
上述の説明は、本開示の特定の実施例にすぎない。当業者であれば、本開示を、本開示の原理から逸脱することなく、多くの方法で変更または修正することができることに留意されたい。これらの修正点および改良点も、本開示の保護範囲内に包含されるべきである。

Claims (20)

  1. ウェブページ情報を抽出する方法であって、
    実行可能な命令で構成される1つ以上のプロセッサの制御下で、
    サンプルページの文書オブジェクトモデル(DOM)構造を分析して、前記DOM構造内の抽出される情報の位置を取得することと、
    前記DOM構造内の抽出される前記情報の前記位置に対応するノードをターゲットノードとしてレンダリングし、前記ターゲットノードから開始して、事前に取得された相対位置情報をトラバースしてノードを取得して、前記ノードがルートノードであるかを判定し、そうでない場合、前記ルートノードが探し出されるまで別のノードを再帰的に探し続けて候補パスを作成し、前記ターゲットノードから前記ルートノードまでの取得された前記候補パスをパスセットとしてレンダリングすることと、
    抽出されるページのDOM構造を分析し、前記パスセット内の前記ルートノードから開始するパスを用いて抽出される前記ページの前記DOM構造内に抽出される前記情報を配置し、抽出される前記ウェブページの前記DOM構造内の抽出される前記情報の前記位置に対応するノードを抽出されたノード候補セットとして取得することと、
    最も高いロバスト性を有するノードを前記抽出されたノード候補セットから選択して、最後に抽出されたノードとし、前記抽出されたノードを用いて抽出された情報を取得することと、を含む、方法。
  2. 前記ターゲットノードから開始して、事前に取得された相対位置情報をトラバースしてノードを取得して、前記ノードがルートノードであるかを判定し、そうでない場合、前記ルートノードが探し出されるまで別のノードを再帰的に探し続けて候補パスを作成し、前記ターゲットノードから前記ルートノードまでの取得された前記候補パスをパスセットとしてレンダリングすることは、
    前記ターゲットノードから開始して、前記ターゲットノードを現在のノードとしてレンダリングすることと、
    事前に取得された前記現在のノードの最近傍の相対位置情報をトラバースし、それから相対位置iに対応するBiノードを選択し、Biが前記ルートノードであるかを判定することと、
    Biが前記ルートノードであると判定された場合、そのパスをパスリストに追加し、そうでない場合、Biを前記現在のノードとして使用し、前記ルートノードが探し出されるまで別のノードを再帰的に探し出し、そのパスを前記パスリストに追加することと、
    前記パスリスト内のパスを前記パスセットとしてレンダリングすることと、を含む、請求項1に記載の方法。
  3. 最も高いロバスト性を有するノードを前記抽出されたノード候補セットから選択して、最後に抽出されたノードとすることは、
    信頼性判定のルールに基づいて、前記抽出されたノード候補セット内の抽出された候補ノードに対応するパスに関連するスコアを算出し、最も高いスコアを有するパスに対応するノードを前記最後に抽出されたノードとして選択することを含む、請求項2に記載の方法。
  4. 前記ターゲットノードから開始して、事前に取得された相対位置情報をトラバースしてノードを取得して、前記ノードがルートノードであるかを判定し、そうでない場合、前記ルートノードが探し出されるまで別のノードを再帰的に探し続けて候補パスを作成し、前記ターゲットノードから前記ルートノードまでの取得された前記候補パスをパスセットとしてレンダリングすることは、
    前記ターゲットノードから開始して、前記ターゲットノードを現在のノードとしてレンダリングすることと、
    事前に取得された前記現在のノードの最近傍の相対位置情報をトラバースし、それから相対位置iに対応するBiノードを選択し、Biが前記ルートノードであるかを判定することと、
    Biが前記ルートノードであると判定された場合、そのパスをパスリストに追加することと、
    Biが前記ルートノードではないと判定された場合、前記信頼性判定のルールに従ってスコア減点の条件を算出および判定し、前記スコア減点が設定閾値以下である場合、前記Biノードを前記現在のノードとして使用し、前記ルートノードが探し出されるまで別のノードを再帰的に探し続け、そのパスを前記パスリストに追加し、前記スコア減点が前記閾値を超える場合、現在のパス上での検索を停止することと、
    前記パスリスト内で最小のスコア減点を有する最初のNパスを前記パスセットとして記憶することと、を含む、請求項1に記載の方法。
  5. 前記ターゲットノードから開始して、事前に取得された相対位置情報をトラバースしてノードを取得して、前記ノードがルートノードであるかを判定し、そうでない場合、前記ルートノードが探し出されるまで別のノードを再帰的に探し続けて候補パスを作成し、前記ターゲットノードから前記ルートノードまでの取得された前記候補パスをパスセットとしてレンダリングすることは、
    前記ターゲットノードから開始して、前記ターゲットノードを現在のノードとしてレンダリングすることと、
    事前に取得された前記現在のノードの最近傍の相対位置情報をトラバースし、それから相対位置iに対応するBiノードを選択し、Biが前記ルートノードであるかを判定することと、
    Biが前記ルートノードであると判定された場合、そのパスをパスリストに追加し、そうでない場合、Biを前記現在のノードとして使用し、前記ルートノードが探し出されるまで別のノードを再帰的に探し出し、そのパスを前記パスリストに追加することと、
    前記信頼性判定のルールに従って、スコア減点を前記パスリスト内にあるすべてのパスに対して行い、パスの合計スコア減点が前記閾値を超えるかを判定し、前記閾値を超えない場合、前記パスに関連する結果を保持することと、
    前記パスリスト内で最小のスコア減点を有する最初のNパスを前記パスセットとして記憶することと、を含む、請求項1に記載の方法。
  6. 前記パスリスト内で最小のスコア減点を有する前記最初のNパスは、パスセットとして記憶され、Nは、既定の整数である、請求項5に記載の方法。
  7. 最も高いロバスト性を有するノードを前記抽出された候補ノードセットから選択して、最後に抽出されたノードとすることは、
    最も高いスコアを有するパスに対応するノードを前記抽出されたノード候補セットから前記最後に抽出されたノードとして選択することを含む、請求項5に記載の方法。
  8. 前記信頼性判定のルールは、相対位置情報に関連するルール、ノードの総数に関連するルール、および/またはシフト位置情報に関連するルールを含む、請求項5に記載の方法。
  9. 事前に前記ノードに対応する前記相対位置情報を取得することは、
    前記DOM構造をトラバースして、前記ノードのテキストおよびスタイル情報を取得することと、
    前記テキストおよびスタイル情報を用いて、それぞれのノードの最近傍の相対位置情報を取得することと、を含む、請求項1に記載の方法。
  10. 前記ターゲットノードから前記ルートノードまでの取得された前記候補パスを前記パスセットとしてレンダリングするときに、
    前記取得されたパスセット内の前記ノードのパス情報を用いて前記ノード間のパス類似性を算出し、繰り返し構造を有するパスを識別することをさらに含む、請求項1に記載の方法。
  11. 前記取得されたパスセット内の前記ノードのパス情報を用いて前記ノード間のパス類似性を算出し、繰り返し構造を有するパスを識別することは、
    前記ノードの前記パス情報を用いて兄弟ノード間の前記パス類似性を算出することと、
    前記パス類似性を用いて前記繰り返し構造を有するすべての兄弟ノードを取得し、前記繰り返し構造を有する兄弟ノードのシフト情報を記録することと、
    前記繰り返し構造を有するすべての前記兄弟ノードによって所有される同等のパスを、抽出中に使用される前記パスセットとしてフィルタ処理することと、を含む、請求項10に記載の方法。
  12. 前記パスセットを用いて抽出される前記ウェブページの前記抽出されたノードセットを取得することは、
    前記パスセットを用いて抽出される前記ウェブページの前記抽出されたノード候補セットを取得し、パスが繰り返し構造を指す場合、前記繰り返し構造を有する前記兄弟ノードの前記シフト情報を用いて、前記繰り返し構造を有する複数のパスを抽出し、抽出される前記ウェブページ情報に対応する前記ノードを前記抽出されたノード候補セットとして取得することを含む、請求項11に記載の方法。
  13. 前記ノードの前記パス情報を用いて兄弟ノード間の前記パス類似性を算出することは、以下を含み、
    Figure 2016154052

    式中、sim(A,B)は、ノードAとノードBとの間の類似性の程度を表し、
    パス(A∩B)は、前記ノードAおよびBに関連する同等のパスのセットを表し、
    パス(A∪B)は、前記ノードAおよびBに関連するすべての前記パスを含むセットを表し、
    スコア(x)は、パスxのスコア減点を表す、請求項11に記載の方法。
  14. 前記パスセットに対する前記最後に抽出されたノードに対応する前記パスの重みを設定閾値と比較して、関連した抽出が成功したかを判定し、それから得られた結果が前記設定閾値を超える場合、前記抽出が失敗したと判定し、前記得られた結果が前記設定閾値以下である場合、前記抽出が成功したと判定することをさらに含む、請求項に1記載の方法。
  15. ウェブページ情報を抽出するシステムであって、
    サンプルページの文書オブジェクトモデル(DOM)構造を分析し、前記DOM構造内の抽出される情報の位置を取得するために使用される、サンプルページ抽出情報位置取得ユニットと、
    前記DOM構造内に抽出される前記情報の前記位置に対応するノードをターゲットノードとしてレンダリングし、前記ターゲットノードから開始して、事前に取得された相対位置情報をトラバースしてノードを取得して、前記ノードがルートノードであるかを判定し、そうでない場合、前記ルートノードが探し出されるまで別のノードを再帰的に探し続けて候補パスを作成し、前記ターゲットノードから前記ルートノードまでの取得された前記候補パスをパスセットとしてレンダリングするために使用される、パスセット取得ユニットと、
    抽出されるページのDOM構造を分析し、前記パスセット内の前記ルートノードから開始するパスを用いて抽出される前記ページの前記DOM構造内に抽出される前記情報を配置し、抽出されるページの前記DOM構造内の抽出される前記情報の前記位置に対応するノードを抽出されたノード候補セットとして取得するために使用される、抽出されたノード候補取得ユニットと、
    最も高いロバスト性を有するノードを前記抽出されたノード候補セットから選択して、最後に抽出されたノードとし、前記抽出されたノードを用いて抽出された情報を取得するために使用される、抽出された情報取得ユニットと、を備える、システム。
  16. 前記DOM構造をトラバースして、ノードのテキストおよびスタイル情報を取得し、前記テキストおよびスタイル情報を用いて、それぞれのノードの最近傍の相対位置情報を取得するために使用される、ノード位置情報取得サブユニットをさらに備える、請求項15に記載のシステム。
  17. 前記取得されたパスセット内の前記ノードのパス情報を用いて前記ノード間のパス類似性を算出し、繰り返し構造を有するパスを識別するために使用される、繰り返し構造認識ユニットをさらに備える、請求項15に記載のシステム。
  18. 前記繰り返し構造認識ユニットは、
    前記ノードの前記パス情報を用いて兄弟ノード間の前記パス類似性を算出するために使用される、パス類似性算出サブユニットと、
    前記パス類似性を用いて前記繰り返し構造を有するすべての兄弟ノードを取得する、繰り返し兄弟ノード取得サブユニットと、
    前記繰り返し構造を有する兄弟ノードのシフト情報を記録するために使用される、シフト情報記録サブユニットと、
    前記繰り返し構造を有するすべての前記兄弟ノードによって所有される同等のパスを抽出中に使用される前記パスセットとしてフィルタ処理するために使用される、同等のパス取得サブユニットと、を備える、請求項17に記載のシステム。
  19. 前記パスセットに対する前記最後に抽出されたノードに対応する前記パスの重みを設定閾値と比較して、関連した抽出が成功したかを判定する抽出結果判定ユニットをさらに備える、請求項15に記載のシステム。
  20. 1つ以上のプロセッサによって実行されるときに、行為を行うように前記1つ以上のプロセッサを設定する、実行可能な命令を記憶する1つ以上のコンピュータ可読媒体であって、前記行為が、
    サンプルページの文書オブジェクトモデル(DOM)構造を分析して、前記DOM構造内の抽出される情報の位置を取得することと、
    前記DOM構造内に抽出される前記情報の前記位置に対応するノードをターゲットノードとしてレンダリングし、前記ターゲットノードから開始して、事前に取得された相対位置情報をトラバースしてノードを取得して、前記ノードがルートノードであるかを判定し、そうでない場合、前記ルートノードが探し出されるまで別のノードを再帰的に探し続けて候補パスを作成し、前記ターゲットノードから前記ルートノードまでの取得された前記候補パスをパスセットとしてレンダリングすることと、
    抽出されるページのDOM構造を分析し、前記パスセット内の前記ルートノードから開始するパスを用いて抽出される前記ページの前記DOM構造内に抽出される前記情報を配置し、抽出される前記ウェブページの前記DOM構造内の抽出される前記情報の前記位置に対応するノードを抽出されたノード候補セットとして取得することと、
    最も高いロバスト性を有するノードを前記抽出されたノード候補セットから選択して、最後に抽出されたノードとし、前記抽出されたノードを用いて抽出された情報を取得することと、を含む、1つ以上のコンピュータ可読媒体。
JP2016105581A 2011-06-15 2016-05-26 ウェブページ情報を抽出する方法およびシステム Active JP6141490B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201110161113.6 2011-06-15
CN201110161113.6A CN102831121B (zh) 2011-06-15 2011-06-15 一种网页信息抽取的方法和系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014515962A Division JP5944985B2 (ja) 2011-06-15 2012-06-13 ウェブページ情報を抽出する方法およびシステム

Publications (2)

Publication Number Publication Date
JP2016154052A true JP2016154052A (ja) 2016-08-25
JP6141490B2 JP6141490B2 (ja) 2017-06-07

Family

ID=47334264

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2014515962A Active JP5944985B2 (ja) 2011-06-15 2012-06-13 ウェブページ情報を抽出する方法およびシステム
JP2016105581A Active JP6141490B2 (ja) 2011-06-15 2016-05-26 ウェブページ情報を抽出する方法およびシステム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2014515962A Active JP5944985B2 (ja) 2011-06-15 2012-06-13 ウェブページ情報を抽出する方法およびシステム

Country Status (7)

Country Link
US (2) US9053206B2 (ja)
EP (1) EP2721517B1 (ja)
JP (2) JP5944985B2 (ja)
CN (1) CN102831121B (ja)
HK (1) HK1173821A1 (ja)
TW (1) TW201250492A (ja)
WO (1) WO2012174137A1 (ja)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10055718B2 (en) 2012-01-12 2018-08-21 Slice Technologies, Inc. Purchase confirmation data extraction with missing data replacement
US20140201623A1 (en) * 2013-01-17 2014-07-17 Bazaarvoice, Inc Method and system for determining and using style attributes of web content
CA2816781C (en) 2013-05-28 2022-07-05 Ibm Canada Limited - Ibm Canada Limitee Identifying client states
US9747262B1 (en) * 2013-06-03 2017-08-29 Ca, Inc. Methods, systems, and computer program products for retrieving information from a webpage and organizing the information in a table
WO2015013899A1 (en) * 2013-07-31 2015-02-05 Empire Technology Development Llc Information extraction from semantic data
CN103942309B (zh) * 2014-04-18 2017-06-30 网易乐得科技有限公司 一种网络数据获取设备、方法及获取过程的实现方法
TWI549008B (zh) * 2014-07-30 2016-09-11 Chunghwa Telecom Co Ltd A large number of data into the system and methods of screening management
CN104462540B (zh) * 2014-12-24 2018-03-30 中国科学院声学研究所 网页信息抽取方法
CN104572934B (zh) * 2014-12-29 2016-03-30 西安交通大学 一种基于dom的网页关键内容抽取方法
CN104794168B (zh) * 2015-03-30 2018-06-05 明博教育科技有限公司 一种知识点关联方法及系统
CN106547520B (zh) * 2015-09-16 2021-05-28 腾讯科技(深圳)有限公司 一种代码路径分析方法及装置
CN105095527A (zh) * 2015-09-29 2015-11-25 北京奇虎科技有限公司 基于链接地址的搜索方法及装置
CN105426352A (zh) * 2015-11-24 2016-03-23 国家电网公司 模板文档自动生成方法
CN105677638B (zh) * 2016-01-05 2018-10-09 北京工业大学 Web信息抽取方法
KR101722157B1 (ko) * 2016-01-06 2017-04-03 (주)포그리트 정보 수집 장치 및 이를 이용한 웹 사이트의 정보 수집 방법
KR101722161B1 (ko) * 2016-01-06 2017-04-03 (주)포그리트 웹 사이트의 사용성 분석 장치 및 이를 이용한 웹 사이트의 사용성 분석 방법
CN107807927B (zh) * 2016-09-08 2022-04-29 阿里巴巴(中国)有限公司 基于下发规则的页面解析方法、装置、客户端设备及系统
WO2018053620A1 (en) 2016-09-23 2018-03-29 Hvr Technologies Inc. Digital communications platform for webpage overlay
GB2558870A (en) * 2016-10-25 2018-07-25 Parrotplay As Internet browsing
CN108009171B (zh) * 2016-10-27 2020-06-30 腾讯科技(北京)有限公司 一种提取内容数据的方法和装置
EP3559820A4 (en) * 2016-12-21 2020-08-26 Open Text Corporation SYSTEMS AND METHODS FOR CONVERTING WEB CONTENT INTO REUSABLE TEMPLATES AND COMPONENTS
CN106599280B (zh) * 2016-12-23 2019-11-22 北京奇虎科技有限公司 确定网页节点路径信息的方法及装置
CN106951451B (zh) * 2017-02-22 2019-11-12 麒麟合盛网络技术股份有限公司 一种网页内容提取方法、装置及计算设备
CN107038240B (zh) * 2017-04-20 2020-07-24 金电联行(北京)信息技术有限公司 一种网页列表内容检测方法
US10447635B2 (en) 2017-05-17 2019-10-15 Slice Technologies, Inc. Filtering electronic messages
CN107463372B (zh) * 2017-07-07 2020-10-13 北京小米移动软件有限公司 一种数据驱动的页面更新方法和装置
CN107463676B (zh) * 2017-08-04 2020-06-30 杭州安恒信息技术股份有限公司 文本数据存储方法及装置
CN107729481B (zh) * 2017-10-16 2020-10-13 鼎富智能科技有限公司 一种自定义规则的文本信息抽取结果筛选方法及装置
CN107919129A (zh) * 2017-11-15 2018-04-17 百度在线网络技术(北京)有限公司 用于控制页面的方法和装置
US11803883B2 (en) 2018-01-29 2023-10-31 Nielsen Consumer Llc Quality assurance for labeled training data
US10922366B2 (en) * 2018-03-27 2021-02-16 International Business Machines Corporation Self-adaptive web crawling and text extraction
CN108563729B (zh) * 2018-04-04 2022-04-01 福州大学 一种基于dom树的招标网站中标信息抽取方法
CN108694242B (zh) * 2018-05-14 2023-03-21 中国平安财产保险股份有限公司 基于dom的节点查找方法、设备、存储介质及装置
CN108920434B (zh) * 2018-06-06 2022-08-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和系统
US10846463B2 (en) * 2018-08-01 2020-11-24 Citrix Systems, Inc. Document object model (DOM) element location platform
CN109582886B (zh) * 2018-11-02 2022-05-10 北京字节跳动网络技术有限公司 页面内容提取方法、模板的生成方法及装置、介质及设备
US11226727B2 (en) * 2018-11-12 2022-01-18 Citrix Systems, Inc. Systems and methods for live tiles for SaaS
CN109657180B (zh) * 2018-12-11 2021-11-26 中科国力(镇江)智能技术有限公司 一种智能化网页内容自动模糊抽取系统
US20200186623A1 (en) * 2018-12-11 2020-06-11 Microsoft Technology Licensing, Llc Performant retrieval and presentation of content
CN110163654B (zh) * 2019-04-15 2021-09-17 上海趣蕴网络科技有限公司 一种广告投放数据追踪方法和系统
US11205041B2 (en) * 2019-08-15 2021-12-21 Anil Kumar Web element rediscovery system and method
CN112530616B (zh) * 2019-09-18 2024-01-26 北京广利核系统工程有限公司 一种核电站应急操作规程的判断方法及装置
CN111090797B (zh) * 2019-11-29 2023-07-25 苏宁云计算有限公司 数据获取方法、装置、计算机设备和存储介质
CN111241436A (zh) * 2019-12-31 2020-06-05 五八有限公司 一种数据请求处理方法、装置、终端设备及存储介质
CN111698364B (zh) * 2020-06-19 2021-09-21 深圳市小满科技有限公司 联系人信息提取方法、相关设备及计算机可读存储介质
US11416381B2 (en) 2020-07-17 2022-08-16 Micro Focus Llc Supporting web components in a web testing environment
CN112182319B (zh) * 2020-09-23 2024-03-26 中国建设银行股份有限公司 网页相似度确定方法、网页聚类方法、装置及电子设备
CN112347332A (zh) * 2020-11-17 2021-02-09 南开大学 一种基于XPath的爬虫目标定位方法
CN112579957A (zh) * 2020-12-23 2021-03-30 中国电子信息产业集团有限公司第六研究所 一种基于图像分析的智能化网页内容解析方法
CN112765941A (zh) * 2021-01-21 2021-05-07 语联网(武汉)信息技术有限公司 自动提取网页正文的方法及系统
US11841909B2 (en) 2022-02-11 2023-12-12 International Business Machines Corporation Text analytics views for web site sources
CN114491325A (zh) * 2022-02-16 2022-05-13 平安科技(深圳)有限公司 网页数据的提取方法和装置、计算机设备、存储介质
US11960561B2 (en) * 2022-07-28 2024-04-16 Siteimprove A/S Client-side generation of lossless object model representations of dynamic webpages

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030200502A1 (en) * 2002-04-23 2003-10-23 International Business Machines Corporation Generating and utilizing robust XPATH expressions
JP2005301437A (ja) * 2004-04-07 2005-10-27 Hitachi Ins Software Ltd 適応型ウエブページデータ抽出装置および抽出プログラム
JP2010086517A (ja) * 2008-09-29 2010-04-15 Mitsubishi Electric Research Laboratories Inc コンピュータによって実施される、ウェブページからデータを抽出する方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654734B1 (en) * 2000-08-30 2003-11-25 International Business Machines Corporation System and method for query processing and optimization for XML repositories
US7213200B2 (en) * 2002-04-23 2007-05-01 International Business Machines Corporation Selectable methods for generating robust XPath expressions
US7127467B2 (en) * 2002-05-10 2006-10-24 Oracle International Corporation Managing expressions in a database system
US7584194B2 (en) 2004-11-22 2009-09-01 Truveo, Inc. Method and apparatus for an application crawler
GB0428365D0 (en) * 2004-12-24 2005-02-02 Ibm Methods and apparatus for generating a parser and parsing a document
US20070073592A1 (en) 2005-09-28 2007-03-29 Redcarpet, Inc. Method and system for network-based comparision shopping
WO2007099544A2 (en) * 2006-03-01 2007-09-07 Infogin Ltd. Methods and apparatus for enabling use of web content on various types of devices
CN101094194B (zh) 2006-06-19 2010-06-23 腾讯科技(深圳)有限公司 一种提取Web页面中用户所需Web信息的方法
US9547648B2 (en) 2006-08-03 2017-01-17 Excalibur Ip, Llc Electronic document information extraction
TW200836075A (en) 2007-02-16 2008-09-01 Esobi Inc Method of converting hypertext markup language web page into pure text and system thereof
US8719291B2 (en) * 2007-04-24 2014-05-06 Lixto Software Gmbh Information extraction using spatial reasoning on the CSS2 visual box model
US20080320031A1 (en) * 2007-06-19 2008-12-25 C/O Canon Kabushiki Kaisha Method and device for analyzing an expression to evaluate
US7765236B2 (en) 2007-08-31 2010-07-27 Microsoft Corporation Extracting data content items using template matching
US8589366B1 (en) * 2007-11-01 2013-11-19 Google Inc. Data extraction using templates
US20090125529A1 (en) * 2007-11-12 2009-05-14 Vydiswaran V G Vinod Extracting information based on document structure and characteristics of attributes
US20090204889A1 (en) 2008-02-13 2009-08-13 Mehta Rupesh R Adaptive sampling of web pages for extraction
US8897742B2 (en) * 2009-11-13 2014-11-25 William J. Johnson System and method for sudden proximal user interface
US20090248707A1 (en) * 2008-03-25 2009-10-01 Yahoo! Inc. Site-specific information-type detection methods and systems
US20100169311A1 (en) * 2008-12-30 2010-07-01 Ashwin Tengli Approaches for the unsupervised creation of structural templates for electronic documents
JP5469244B2 (ja) 2009-06-30 2014-04-16 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 選択的なコンテンツ抽出
CN101944094B (zh) * 2009-07-06 2014-06-18 富士通株式会社 网页信息提取方法和装置
US20110040770A1 (en) 2009-08-13 2011-02-17 Yahoo! Inc. Robust xpaths for web information extraction
US8667015B2 (en) 2009-11-25 2014-03-04 Hewlett-Packard Development Company, L.P. Data extraction method, computer program product and system
US9449114B2 (en) 2010-04-15 2016-09-20 Paypal, Inc. Removing non-substantive content from a web page by removing its text-sparse nodes and removing high-frequency sentences of its text-dense nodes using sentence hash value frequency across a web page collection
US8555155B2 (en) * 2010-06-04 2013-10-08 Apple Inc. Reader mode presentation of web content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030200502A1 (en) * 2002-04-23 2003-10-23 International Business Machines Corporation Generating and utilizing robust XPATH expressions
JP2005301437A (ja) * 2004-04-07 2005-10-27 Hitachi Ins Software Ltd 適応型ウエブページデータ抽出装置および抽出プログラム
JP2010086517A (ja) * 2008-09-29 2010-04-15 Mitsubishi Electric Research Laboratories Inc コンピュータによって実施される、ウェブページからデータを抽出する方法

Also Published As

Publication number Publication date
US9767211B2 (en) 2017-09-19
TW201250492A (en) 2012-12-16
HK1173821A1 (en) 2013-05-24
US20130014002A1 (en) 2013-01-10
CN102831121B (zh) 2015-07-08
EP2721517B1 (en) 2019-08-28
JP6141490B2 (ja) 2017-06-07
CN102831121A (zh) 2012-12-19
EP2721517A4 (en) 2015-04-22
JP5944985B2 (ja) 2016-07-05
EP2721517A1 (en) 2014-04-23
WO2012174137A1 (en) 2012-12-20
US9053206B2 (en) 2015-06-09
JP2014523016A (ja) 2014-09-08
US20150242527A1 (en) 2015-08-27

Similar Documents

Publication Publication Date Title
JP6141490B2 (ja) ウェブページ情報を抽出する方法およびシステム
US10152488B2 (en) Static-analysis-assisted dynamic application crawling architecture
US8661335B2 (en) Methods and systems for identifying content elements
US9734149B2 (en) Clustering repetitive structure of asynchronous web application content
CN108090104B (zh) 用于获取网页信息的方法和装置
US9836438B2 (en) Methods and systems of outputting content of interest
JP5856139B2 (ja) 仮想ドキュメントを用いたインデックス付与と検索
US11580177B2 (en) Identifying information using referenced text
JP2010086517A (ja) コンピュータによって実施される、ウェブページからデータを抽出する方法
JP4189369B2 (ja) 構造化文書検索装置及び構造化文書検索方法
JP6966158B2 (ja) 検索データを処理するための方法、装置及びプログラム
US20120072824A1 (en) Content acquisition documents, methods, and systems
Kumar Apache Solr search patterns
JP2012059212A (ja) 抽出装置、抽出方法及び抽出プログラム
Gao et al. Stable web scraping: an approach based on neighbour zone and path similarity of page elements
US9426237B2 (en) Web navigation using web navigation pattern histories
US20160117352A1 (en) Apparatus and method for supporting visualization of connection relationship
KR101272377B1 (ko) 시맨틱 클라우드에 기반한 시맨틱 어노테이션 방법 및 장치
JP5068356B2 (ja) ブログ本文特定装置及びブログ本文特定方法
Jánosi-Rancz et al. Semantic data extraction
KR20230174123A (ko) 룰셋 기반의 웹사이트 크롤링을 위한 클라우드 서버
Zheng Effective methods for web crawling and web information extraction
CN117852517A (zh) 网页相似度的确定方法、装置、电子设备及可读存储介质
JP2008242803A (ja) Webサイトツリー作成装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160627

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170502

R150 Certificate of patent or registration of utility model

Ref document number: 6141490

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250