JP7347179B2 - ウェブページ内容を抽出する方法、装置及びコンピュータプログラム - Google Patents

ウェブページ内容を抽出する方法、装置及びコンピュータプログラム Download PDF

Info

Publication number
JP7347179B2
JP7347179B2 JP2019221285A JP2019221285A JP7347179B2 JP 7347179 B2 JP7347179 B2 JP 7347179B2 JP 2019221285 A JP2019221285 A JP 2019221285A JP 2019221285 A JP2019221285 A JP 2019221285A JP 7347179 B2 JP7347179 B2 JP 7347179B2
Authority
JP
Japan
Prior art keywords
web page
similarity
representative set
features
page feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019221285A
Other languages
English (en)
Other versions
JP2020098592A (ja
Inventor
迎炬 夏
ジョン・ジョォングアン
遥 孟
チェヌ・イェヌ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2020098592A publication Critical patent/JP2020098592A/ja
Application granted granted Critical
Publication of JP7347179B2 publication Critical patent/JP7347179B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ウェブページ内容を抽出する方法、装置及びコンピュータ読み取り可能な記憶媒体に関する。
インターネット、固定アクセス装置及び移動アクセス端末の迅速な発展に伴い、ウェブページが、人々が情報を取得し、情報を作り出す主な媒体となっている。しかし、ウェブページの数が激増するにつれて、必要な情報を迅速且つ正確に得ることが困難である。
デジタル資源及びインターネット上の情報の飛躍的な増加に伴い、ユーザが便利に閲覧し得る情報が大量存在する。よって、ニーズに応じて、抽取する必要のある情報を自動で抽取することも要される。ウェブページ内容を抽出する方法及びシステムについて言えば、通常、半構造化のWebドキュメントからのデータの抽取に関し、その核心は、ネットワーク上に分散している半構造化のHTMLページに暗に含まれる情報ポイントを抽取し、より構造的且つ語義がより明確な形式で表し、ユーザがWeb上でデータを検索すること、及び、応用プログラムがWeb上のデータを直接利用することに利便性を提供することにある。ウェブページ内容の情報抽出がインターネット情報処理の第一歩であるため、情報抽出の正確性は、後続の処理に直接影響を与えることがある。情報抽取の目的は、ノイズを抽出して除去し、ウェブページ中の価値ありの情報、例えば、ウェブページのタイトル、時間、テキスト、リンクなどの情報を得ることにある。
従来のウェブページ情報抽出方法として、規則に基づく抽出方法、機械学習に基づく抽出方法などがある。規則に基づく方法は、比較的高い抽出正確性を達成することができるが、規則を作るプロセスでは、専門家の関与を要する。人的な関与が必要であるから、少量のデータについて言えば有効であるかもしれないが、このような人的注釈付け方法は、莫大なデータを処理することができない。規則に基づく抽出方法に比べ、機械学習に基づく方法は、人的な関与を必要としない。しかし、このような方法は、往々にして、大量の注釈付きコーパスを要する。また、注釈付きコーパスの作成が人的に完成される必要があるので、従来の機械学習に基づく情報抽出方法も局限性が存在する。
本発明の目的は、ウェブページ情報を抽出する方法、装置及びコンピュータ記憶媒体を提供することにある。従来技術に比べ、本発明は、莫大なデータの処理に用いることができ、また、大量の人的注釈付けを必要とせず、より高い正確性を有するため、ニーズに応じて、必要な情報を適切に抽出することができる。
上述の目的を達成するために、本発明の一側面によれば、ウェブページ内容を抽出する方法が提供され、それは、ウェブページ特徴と、少なくとも1つのウェブページ特徴クラスタの代表的(typical)集合との類似度を計算し、代表的集合は、対応するウェブページ特徴クラスタ中で互いの間の類似度が比較的高いウェブページ特徴のサンプルを含み;ウェブページ特徴との類似度が最も高い代表的集合を確定し;ウェブページ特徴を用いて、確定された代表的集合に関連付けられているウェブページ特徴クラスタを更新し;更新されたウェブページ特徴クラスタの代表的集合を再び計算し;及び、更新されたウェブページ特徴クラスタに関連付けられている抽出テンプレートに基づいて、ウェブページから内容を抽出することを含む。
本発明の他の側面によれば、ウェブページ内容を抽出する装置がさらに提供され、それは、少なくとも1つの処理器を含み、該処理器は、ウェブページ内容を抽出する方法を実行するように構成される。
本発明の他の側面によれば、コンピュータ可読プログラム指令を記憶したコンピュータ可読記憶媒体がさらに提供され、前記プログラム指令は、コンピュータにより実行されるときに、ウェブページ内容を抽出する方法を実現することができる。
ウェブページにおける抽出待ち内容の一例を示す図である。 本発明の実施例によるウェブページ内容抽出方法のフローチャートである。 一例としてのウェブページの一部を示す図である。 図3Aに示すウェブページの一部をDOMツリーに変換する一例を示す図である。 本発明の実施例によるウェブページ情報抽出システムのブロック図である。 本発明の実施例によるウェブページ内容抽出装置を実現し得る汎用機器の構成である。
以下、添付した図面を参照しながら、本開示を実施するための好適な形態を詳細に説明する。なお、このような実施形態は、例示に過ぎず、本開示を限定するものでない。
図1は、ウェブページにおける抽出待ち内容の一例を示す図である。
具体的には、例示として、図1は、1つの募集用ウェブページのサンプルを示しており、そのうち、左側の比較的小さい矩形領域中の内容及び右側の比較的大きい矩形中の内容が抽出待ち内容のサンプルである。図1に示すように、左側の比較的小さい矩形領域中の抽出待ち内容は、学歴に関する情報であり、右側の比較的大きい矩形中の抽出待ち内容は、職務内容に関する情報である。このウェブページサンプルでは、抽出待ち内容が学歴及び職務内容の情報に関するが、もちろん、抽出すべき内容がユーザのニーズによるものであり、以下に説明する本発明の各実施例を用いて、ニーズに応じて、必要な種類の情報の抽出を行うことができる。よって、抽出待ちのウェブページ情報内容は、複数の段落のテキストであっても良く、表(table)の形式で存在するデータであっても良い。なお、本発明の各実施例は、抽出待ちのウェブページ情報内容の類型について限定しない。本発明の各実施例によるウェブページ情報抽出方法及び装置は、各種の形式のウェブページ及び各種の形式の内容に適用することができる。
以下、図2に基づいて、本発明の実施例におけるウェブページ内容抽出方法について説明する。図2は、本発明の実施例におけるウェブページ内容抽出方法の各ステップのフローチャートである。
図2を参照する。ステップ201では、ウェブページ特徴と、少なくとも1つのウェブページ特徴クラスタの代表的集合との類似度を計算する。
ここでのウェブページ特徴は、例えば、ドキュメントオブジェクトモデル(Document Object Model、DOM)のラベルのウェブページ特徴であっても良い。本発明の各実施例によれば、ウェブページは、複数のウェブサイトからスクレイピング又はダウンロードすることにより得ることができ、スクレイピング又はダウンロードされたウェブページは、ドキュメントオブジェクトモデルツリーに変換することができる。図3Bは、変換後のドキュメントオブジェクツリーの一例を示している。スクレイピング又はダウンロードされたウェブページをすべてドキュメントオブジェクツリーに変換した後に、順次、各ウェブページ中のウェブページ特徴と、ウェブページ特徴クラスタの代表的集合との類似度を計算する。代替として、1つのウェブページをスクレイピングした後に、直ぐにテップ201の処理を行っても良い。以下、ウェブページ形式の一種としてのDOMツリーモデルについて簡単に紹介する。
図3Aは、一例としてのウェブページの一部を示す図である。
図3Bは、図3Aに示すウェブページの一部をドキュメントオブジェクトモデルツリーに変換する一例を示す図である。
図3Bを参照する。葉ノードのパターンの定義に基づいて、例示として、図3B中の葉ノード“川崎市”のパターンが“text_strong_p_div_川崎市”であり、そのうち、該葉ノードのパターンの経路(path)が“text_strong_p_div_”であり、内容が“川崎市”である。同様に、他の各葉ノードのパターンが、それぞれ、“text_h2_div_川崎市”、“text_p_div_麻生区弁公室”などである。“text_strong_p_div_川崎市”は、DOMのラベルである。
以下、DOMのラベルをウェブページ特徴とする例について説明する。なお、該例は、示すためのものであり、ウェブページ特徴の形式を限定するものでない。本発明の各実施例は、DOMのラベルをウェブページ特徴とするウェブページに限定されず、任意のインターネットの内容にも適用することができる。ここで、DOMについて簡単に説明する。ドキュメントオブジェクトモデルDOMは、プラットフォーム及び語言と独立した方式で1つのドキュメントの内容及び構造に対してアクセス及び変更を行うことができる。DOMは、ユーザのページを動的に変化させることができ、例えば、1つの要素を動的に表し又は隠し、その属性を変更し、1つの要素を増加させるなどして、ページの双方向性を大幅に向上させることができる。DOMは、実際に、オブジェクト指向方式で記述されるドキュメントモデルであり、それは、ドキュメントの表示及び変更に必要なオブジェクト、これらのオブジェクトの行為及び属性、並びにこれらのオブジェクト間の関係を定義することができる。DOMは、ページ上のデータ及び構造の1つのツリー状の表現と見なすことができるが、ページは、図3Bに示すようなDOMツリーでない方式で実現することもできる。
一例として、抽出待ちウェブページ内容情報がDOMのラベルである場合、DOMのラベルとしてのウェブページ特徴のサンプルは、以下のように表すことができる。
“<tag1><tag2>……<tagn>C1”
DOMのラベルがウェブページ特徴とされる1つの具体例は、以下の通りである。
“<html><body><div[1]><div[2]><div[1]><div[4]><div[1]><div><dl><dt[6]text content”
抽出待ちウェブページ内容情報が関係型データであり、その中に属性及び属性値が含まれる場合、1つのサンプルは、以下のように表すことができる。
“<tag11><tag12>……<tag1n>R1<tag21><tag22>……<tag2n>C1”
そのうち、R1及びC1は、それぞれ、抽出する必要のある属性及び属性値である。
関係型データとしてのウェブページ特徴の1つの具体例は、以下の通りである。
“<html><body><table><tbody><tr><td><table><tbody><tr[2]><td><table><tbody><tr[8]><td[1]>Required Education<html><body><table><tbody><tr><td><table><tbody><tr[2]><td><table><tbody><tr[8]><td[2]>4 Year Degree”
上述の表現から分かるように、“Required Education”は、“必要な学歴”を表す属性であり、“4 Year Degree”は、大学卒業を表し、即ち、“必要な学歴”の属性の属性値である。
よって、ウェブページ特徴のサンプルは、例えば、上述のようなDOMのラベル型サンプル又は関係型データサンプルである。もちろん、ウェブページ特徴は、この2種類の形式に限られず、任意の適切な形式のデータであっても良い。
k個の抽出待ちのウェブページ特徴クラスタ:{R1,R2,…,Rk}があり、且つ各クラスタが各自、若干個のサンプルを有するとすれば、k個の代表的集合:{C1,C2,…,Ck}があり、各代表的集合が若干個の代表的サンプル点を有し、代表的集合には、対応するウェブページ特徴クラスタ中で互いの間の類似度が比較的高いウェブページ特徴のサンプルが含まれれる。
このように、抽出待ちウェブページ内容情報のウェブページに対して解析を行ってウェブページ特徴のサンプルを得た後に、ステップ201では、ウェブページ特徴のサンプルと、既存の少なくとも1つのウェブページ特徴クラスタ{R1,R2,…,Rk}の代表的集合{C1,C2,…,Ck}との類似度を計算する。なお、既存の少なくとも1つのウェブページ特徴クラスタ{R1,R2,…,Rk}及びその代表的集合{C1,C2,…,Ck}は、最近更新されたウェブページ特徴クラスタ及びその代表的集合であり、最初のシードウェブページ特徴クラスタ及びその代表的集合が小規模なものであるため、人的に確定されても良く、該人的に確定されたウェブページ特徴クラスタ及び代表的集合から、自動反復(iteration)により更新を行うことで、最近更新されたウェブページ特徴クラスタ{R1,R2,…,Rk}及びその代表的集合{C1,C2,…,Ck}を得ることができる。なお、ここでのウェブページ特徴のサンプルは、1つ以上のサンプルであっても良く、即ち、抽出待ち情報のウェブページ情報のサンプルの集合である。
ステップ201では、1つのウェブページ特徴のサンプルと、1つの代表的集合との類似度を計算し、具体的には、それぞれ、該ウェブページ特徴のサンプルと、代表的集合中の各ウェブページ特徴との類似度を計算し、そして、計算された各類似度の平均値を求めて該ウェブページ特徴のサンプルと該代表的集合との類似度とすることができる。なお、本発明の実施例による類似度の計算は、このような方法に限定されず、サンプルと、他のサンプルを含む集合との類似度を計算し得る任意の方法を採用しても良い。以下、サンプル間類似度の計算方法について説明する。
<サンプル間類似度の計算>
ここで、サンプル間類似度の計算方法について説明する。類似度計算は、サンプルの間の類似度を計算するために用いられる。ここでのサンプルは、抽出待ち情報及び該情報に関する特徴を含む。類似度計算の正確性を向上させるために、特に、異なる表し方のウェブページフォーマット間の類似度計算の正確性を向上させるために、類似度の計算方法に対して学習を行う必要がある。
類似度学習のタスクは、サンプル間の類似度を学習することである。ウェブページの表現形式が多種多様であるため、サンプル間の類似度の計算がとても困難である。通常のやり方は、サンプルをもう1つの空間にマッピングし、該空間内で、同類サンプル間の距離が近く、異類サンプル間の距離が遠い。よって、訓練済みニューラルネットワークを用いてウェブページ特徴間の類似度を確定することを考慮して、本発明の各実施例における類似度計算の学習は、並列の2つの共有重みのネットワークにより実現され、該ネットワークは、類別が多く、又は、訓練サンプル全体が以前の方法の訓練に用いられない分類問題に応用することができる。本発明の各実施例における類似度計算では、具体的には、入力される、対(ペア)になるサンプルを1つの空間にマッピングし、パラメータを調整することで、入力されるサンプル対の該空間内の距離がその類別の区分を表し得るようにさせる。
続いて、再び図2を参照する。ステップ202では、ウェブページ特徴のサンプルとの類似度が最も高い代表的集合を確定し、具体的には、ステップ201で計算されたウェブページ特徴のサンプルと、各代表的集合との各類似度の比較を行うことで、ウェブページ特徴のサンプルとの類似度が最も大きい代表的集合を確定することができる。
ウェブページ特徴のサンプルとの類似度が最も大きい代表的集合を確定した後に、図2のステップ203では、ウェブページ特徴を用いて、確定された代表的集合に関連付けられたウェブページ特徴クラスタを更新し、具体的には、ウェブページ特徴を、確定された、ウェブページ特徴に対応する代表的集合に合併(merge)することで、確定された代表的集合に関連付けられたウェブページ特徴クラスタに対して更新を行う。
続いて、再び図2を参照する。ステップ204では、更新されたウェブページ特徴クラスタの代表的集合を再び計算する。
確定された代表的集合内の代表的サンプル点の数がM(Mは、1よりも大きい整数)であるとする。なお、代表的集合内の代表的サンプル点の数は、予め設定される固定値であっても良く、又は、所定の閾値を用いて制御されるものであっても良く、又は、他の制約条件に従って変化することができるものであっても良い。例示のために、本発明の各実施例では、以下のステップを用いて、代表的サンプル点を更新する。
ステップ201におけるウェブページ特徴のサンプルからなる集合中の1つのサンプルを用いて、各クラスタCmについて、以下の公式により代表的サンプル点を更新する。
Figure 0007347179000001
公式(2)を公式(1)に代入して計算を行うことで、公式(1)のargmaxの右側の式の値が最大であるようにさせる前のM個のサンプルを選択し(ここで、argmax関数についての説明を省略する)、そのうち、simは、類似度を示し、Xmiは、類別Cm中の第i個目のサンプルを示し、Xmjは、類別m中の第j個目のサンプルを示し、Pkは、Xmiが属するクラスタCmとは異なる他のクラスタである。或いは、以下の公式(3)により、類似度の比が所定閾値θよりも大きいサンプルを選択する。
Figure 0007347179000002
上述のようにウェブページ特徴クラスタを更新した後に、ウェブページ特徴のサンプルからなる集合のうちから他のサンプルを選択してこのステップを、収斂(収束)するまで又は所定の最大の反復ステップ数に達するまで繰り返す。
最後に、再び図2を参照する。ステップ205では、更新されたウェブページ特徴クラスタに関連付けられた抽出テンプレートに基づいて、ウェブページから内容を抽出する。具体的には、更新された各クラスタを得た後に、各更新されたクラスタに関連付けられた抽出テンプレートを用いて、未知のデータに対して抽出を行うことができる。抽出テンプレートに一致したデータ中の内容が抽出される。本発明の各実施例による一例では、代表的サンプル点を用いて抽出テンプレートを表す。このような場合、1つの抽出待ち情報の新しいサンプルを得たときに、該サンプルと、各更新されたクラスタの代表的サンプル点との間の類似度を計算する。類似度が最も大きいクラスタに関連付けられた抽出テンプレートを選択して、該サンプルに対して抽出を行う抽出テンプレートとすることで、該サンプルに対して情報抽出を行う。なお、あるクラスタに関連付けられた抽出テンプレートを用いて情報を抽出することが当業者にとって周知であるため、ここでは、本発明の実施例における応用について説明するが、具体的な実現方法の説明を省略する。
図4は、本発明の実施例におけるウェブページ情報抽出システムのブロック図である。
図4に示すシステム400は、シードサンプル記憶ユニット401、類似度学習ユニット402、類似度計算ユニット403、代表点計算ユニット404、代表点記憶ユニット405、分類ユニット406、入力ユニット407及び情報抽出ユニット408を含む。そのうち、シードサンプル記憶ユニット401は、シードサンプルを記憶し、類似度学習ユニット402は、サンプル間の類似度に対して学習を行い、類似度計算ユニット403は、サンプル間の類似度を計算し、代表点計算ユニット404は、計算により代表的な点を確定し、代表点記憶ユニット405は、代表的な点を記憶し、分類ユニット406は、類似度に基づいて、サンプルを対応するクラスタに分類し、入力ユニット407は、ウェブページを入力し、情報抽出ユニット408は、ウェブページ内容を抽出する。
本発明の実施例により、代表的集合中で互いの間の類似度が比較的高いウェブページ特徴のサンプルが、同一類別(種類)のウェブページ内容から得られるものである。例えば、上述の“必要な学歴”及び“職務内容”が、異なる類別に属する。また、類別も、ウェブページ特徴の類型を表す類別であっても良い。本発明の実施例により、応用のニーズに応じて、類別に対しての定義を適応的に調整することができ、類別の定義に対しての調整は、図4に示すシードサンプル記憶ユニット401に記憶のシードサンプルに対して手動で調整することで実現される。さらに、本発明の実施例により、代表的集合の数が、抽出待ちウェブページ内容の種類の数(種数)に等しい。
図5は、発明の実施例によるウェブページ情報抽出装置及びウェブページ情報抽出方法を実現し得る汎用機器700の構成図である。汎用機器700は、例えば、コンピュータシステムであっても良い。なお、汎用機器700は、例示に過ぎず、本発明による方法及び装置の使用範囲又は機能について限定しない。また、汎用機器700は、上述の方法及び装置における任意のモジュールやアセンブリなど又はその組み合わせに依存しない。
図5では、中央処理装置(CPU)701は、ROM 702に記憶されているプログラム又は記憶部708からRAM 703にロッドされているプログラムに基づいて各種の処理を行う。RAM 703では、ニーズに応じて、CPU 701が各種の処理を行うときに必要なデータなどを記憶することもできる。CPU 701、ROM 702及びRAM 703は、バス704を経由して互いに接続される。入力/出力インターフェース705もバス704に接続される。
また、入力/出力インターフェース705には、さらに、次のような部品が接続され、即ち、キーボードなどを含む入力部706、液晶表示器(LCD)などのような表示器及びスピーカーなどを含む出力部707、ハードディスクなどを含む記憶部708、ネットワークインターフェースカード、例えば、LANカード、モデムなどを含む通信部709である。通信部709は、例えば、インターネット、LANなどのネットワークを経由して通信処理を行う。
ドライブ710は、ニーズに応じて、入力/出力インターフェース705に接続されても良い。取り外し可能な媒体711、例えば、半導体メモリなどは、必要に応じて、ドライブ710にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部708にインストールすることができる。
また、本発明は、さらに、マシン可読指令コードを含むプログラムプロダクトを提供する。このような指令コードは、マシンにより読み取られて実行されるときに、上述の本開示の実施形態における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー(carry)する、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶器などの各種記憶媒体も、本開示に含まれる。
上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などを含んでも良いが、これらに限定されない。
また、上述の方法における各操作(処理)は、各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現することもできる。
また、以上の実施例などに関し、さらに以下のように付記として開示する。
(付記1)
ウェブページ内容抽出方法であって、
ウェブページ特徴と、少なくとも1つのウェブページ特徴クラスタの代表的集合との類似度を計算し、前記代表的集合は、対応するウェブページ特徴クラスタ中で互いの間の類似度が比較的高いウェブページ特徴のサンプルを含み;
前記ウェブページ特徴との類似度が最も高い代表的集合を確定し;
前記ウェブページ特徴を用いて、確定された代表的集合に関連付けられたウェブページ特徴クラスタを更新し;
更新されたウェブページ特徴クラスタの代表的集合を再び計算し;及び
更新されたウェブページ特徴クラスタに関連付けられた抽出テンプレートに基づいて、ウェブページから内容を抽出する、方法。
(付記2)
付記1に記載の方法であって、
前記代表的集合中で互いの間の類似度が比較的高いウェブページ特徴のサンプルが、同一類別(種類)のウェブページ内容から取得される、方法。
(付記3)
付記2に記載の方法、そのうち、
前記代表的集合の数が、抽出待ちウェブページ内容の類別の数(種数)に等しい、方法。
(付記4)
付記2又は3に記載の方法であって、
前記類別は、ウェブページ特徴の類型を表す類別を含む、方法。
(付記5)
付記2又は3に記載の方法であって、
前記類別の定義に対して調整が、シードサンプルに対しての調整により実現される、方法。
(付記6)
付記5に記載の方法であって、
前記シードサンプルが人的に確定される、方法。
(付記7)
付記1に記載の方法であって、
更新されたウェブページ特徴クラスタ中のウェブページ特徴と、他のサンプルのウェブページ特徴との類似度の和を、各代表的集合との類似度の和で割った値(比率)に基づいて、更新されたウェブページ特徴クラスタの代表的集合を構成するサンプルを選択する、方法。
(付記8)
付記7に記載の方法であって、
比較的大きい比率に対応する所定数のサンプルを用いて、更新されたウェブページ特徴クラスタの代表的集合を構成する、方法。
(付記9)
付記1に記載の方法であって、
ニューラルネットワークを用いてウェブページ特徴間の類似度を計算する、方法。
(付記10)
付記9に記載の方法であって、
前記ニューラルネットワークは、Siameseネットワークを含む、方法。
(付記11)
付記9に記載の方法であって、
前記ニューラルネットワークは、訓練済みニューラルネットワークである、方法。
(付記12)
付記1に記載の方法であって、
抽出待ちウェブページ内容情報がDOMのラベル又は関係型(リレーショナル)データである、方法。
(付記13)
ウェブページ内容抽出装置であって、
少なくとも1つの処理器を含み、それは、付記1~12のうちに任意の1項に記載の方法を実行するように構成される、装置。
(付記14)
コンピュータ可読プログラム指令を記憶したコンピュータ読み取り可能な記憶媒体であって、
前記プログラム指令がコンピュータにより実行されるときに、付記1~12のうちの任意の1項に記載の方法を実現することができる、記憶媒体。
(付記15)
ウェブページ内容抽出システムであって、
シードサンプルを記憶するためのシードサンプル記憶ユニット;
サンプル間の類似度に対して学習を行うための類似度学習ユニット;
サンプル間の類似度を計算するための類似度計算ユニット;
計算することにより代表的な点を確定するための代表点計算ユニット;
代表的な点を記憶するための代表点記憶ユニット;
類似度に基づいて、サンプルを対応するクラスタに分類するための分類ユニット;
ウェブページを入力するための入力ユニット;及び
前記ウェブページの内容を抽出するための情報抽出ユニットを含む、システム。
以上、本開示の好ましい実施形態を説明したが、本開示はこの実施形態に限定されず、本開示の趣旨を離脱しない限り、本開示に対するあらゆる変更は、本開示の技術的範囲に属する。

Claims (9)

  1. ウェブページ内容を抽出する方法であって、
    ウェブページ特徴と、少なくとも1つのウェブページ特徴クラスタの集合であって対応するウェブページ特徴クラスタ中で互いの間の類似度が比較的高いウェブページ特徴のサンプルを含む代表的集合との類似度を計算し、
    前記ウェブページ特徴との類似度が最も高い代表的集合を確定し、
    前記ウェブページ特徴を用いて、確定された代表的集合に関連付けられているウェブページ特徴クラスタを更新し、
    更新されたウェブページ特徴クラスタ中のウェブページ特徴と、他のサンプルのウェブページ特徴との類似度の和を、各代表的集合との類似度の和で割った値に基づいて、更新されたウェブページ特徴クラスタの代表的集合を構成するサンプルを選択することで、更新されたウェブページ特徴クラスタの代表的集合を再び計算し、
    更新されたウェブページ特徴クラスタに関連付けられている抽出テンプレートに基づいて、ウェブページから内容を抽出する、
    ことをコンピュータが実行する方法。
  2. 請求項1に記載の方法であって、
    前記代表的集合中で互いの間の類似度が比較的高いウェブページ特徴のサンプルが、同じ種類のウェブページ内容から取得される、方法。
  3. 請求項2に記載の方法であって、
    前記代表的集合の数が、抽出待ちウェブページ内容の種数に等しい、方法。
  4. 請求項に記載の方法であって、
    比較的大きい比率に対応する所定数のサンプルを用いて、更新されたウェブページ特徴クラスタの代表的集合を構成する、方法。
  5. 請求項1に記載の方法であって、
    ニューラルネットワークを用いて、ウェブページ特徴間の類似度を確定する、方法。
  6. 請求項に記載の方法であって、
    前記ニューラルネットワークは、Siameseネットワークを含む、方法。
  7. 請求項に記載の方法であって、
    前記ニューラルネットワークは、訓練済みニューラルネットワークである、方法。
  8. ウェブページ内容を抽出する装置であって、
    少なくとも1つの処理器を含み、
    前記少なくとも1つの処理器は、
    ウェブページ特徴と、少なくとも1つのウェブページ特徴クラスタの集合であって対応するウェブページ特徴クラスタ中で互いの間の類似度が比較的高いウェブページ特徴のサンプルを含む代表的集合との類似度を計算し、
    前記ウェブページ特徴との類似度が最も高い代表的集合を確定し、
    前記ウェブページ特徴を用いて、確定された代表的集合に関連付けられているウェブページ特徴クラスタを更新し、
    更新されたウェブページ特徴クラスタの代表的集合を再び計算し、
    更新されたウェブページ特徴クラスタに関連付けられている抽出テンプレートに基づいて、ウェブページから内容を抽出する、
    ことを特徴とする装置。
  9. コンピュータに
    ウェブページ特徴と、少なくとも1つのウェブページ特徴クラスタの集合であって対応するウェブページ特徴クラスタ中で互いの間の類似度が比較的高いウェブページ特徴のサンプルを含む代表的集合との類似度を計算し、
    前記ウェブページ特徴との類似度が最も高い代表的集合を確定し、
    前記ウェブページ特徴を用いて、確定された代表的集合に関連付けられているウェブページ特徴クラスタを更新し、
    更新されたウェブページ特徴クラスタの代表的集合を再び計算し、
    更新されたウェブページ特徴クラスタに関連付けられている抽出テンプレートに基づいて、ウェブページから内容を抽出する、
    処理を実行させることを特徴とするプログラム。
JP2019221285A 2018-12-18 2019-12-06 ウェブページ内容を抽出する方法、装置及びコンピュータプログラム Active JP7347179B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811549846.5 2018-12-18
CN201811549846.5A CN111339396B (zh) 2018-12-18 2018-12-18 提取网页内容的方法、装置和计算机存储介质

Publications (2)

Publication Number Publication Date
JP2020098592A JP2020098592A (ja) 2020-06-25
JP7347179B2 true JP7347179B2 (ja) 2023-09-20

Family

ID=71106014

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019221285A Active JP7347179B2 (ja) 2018-12-18 2019-12-06 ウェブページ内容を抽出する方法、装置及びコンピュータプログラム

Country Status (2)

Country Link
JP (1) JP7347179B2 (ja)
CN (1) CN111339396B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102570477B1 (ko) * 2020-12-28 2023-09-04 주식회사 에스투더블유 웹 페이지에서 자동으로 사용자 식별 객체 획득하는 방법
CN113434790B (zh) * 2021-06-16 2023-07-25 北京百度网讯科技有限公司 重复链接的识别方法、装置及电子设备
CN113486228B (zh) * 2021-07-02 2022-05-10 燕山大学 基于md5三叉树和改进birch算法的互联网论文数据自动抽取算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092889A (ja) 2003-09-18 2005-04-07 Fujitsu Ltd ウェブページのための情報ブロック抽出装置及び情報ブロック抽出方法
JP2007199966A (ja) 2006-01-25 2007-08-09 Fuji Xerox Co Ltd 文書分類装置、文書分類方法および文書分類プログラム
JP2009181301A (ja) 2008-01-30 2009-08-13 Nippon Hoso Kyokai <Nhk> 表現テンプレート生成装置、その方法およびそのプログラム
US20180300576A1 (en) 2015-10-02 2018-10-18 Alexandre DALYAC Semi-automatic labelling of datasets

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193951A (zh) * 2010-03-19 2011-09-21 华为技术有限公司 信息抽取的方法及系统
US8645384B1 (en) * 2010-05-05 2014-02-04 Google Inc. Updating taxonomy based on webpage
KR101266504B1 (ko) * 2012-01-20 2013-05-24 성균관대학교산학협력단 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
CN103631789A (zh) * 2012-08-21 2014-03-12 富士通株式会社 文档处理方法和装置
CN103885977B (zh) * 2012-12-21 2019-02-05 腾讯科技(深圳)有限公司 一种网页数据的分类方法、装置和系统
CN103514292A (zh) * 2013-10-09 2014-01-15 南京大学 一种基于小样本半监督学习的网页数据抽取方法
CN103870567A (zh) * 2014-03-11 2014-06-18 浪潮集团有限公司 一种云计算中垂直搜索引擎网页采集模板自动识别方法
CN103838886A (zh) * 2014-03-31 2014-06-04 辽宁四维科技发展有限公司 基于代表词知识库的文本内容分类方法
CN104504086B (zh) * 2014-12-25 2017-11-21 北京国双科技有限公司 网页页面的聚类方法和装置
CN104484461B (zh) * 2014-12-29 2018-03-23 北京奇虎科技有限公司 一种基于百科数据对实体进行分类的方法及系统
CN104699817B (zh) * 2015-03-24 2018-01-05 中国人民解放军国防科学技术大学 一种基于改进谱聚类的搜索引擎排序方法与系统
CN104834717A (zh) * 2015-05-11 2015-08-12 浪潮集团有限公司 一种基于网页聚类的Web信息自动抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092889A (ja) 2003-09-18 2005-04-07 Fujitsu Ltd ウェブページのための情報ブロック抽出装置及び情報ブロック抽出方法
JP2007199966A (ja) 2006-01-25 2007-08-09 Fuji Xerox Co Ltd 文書分類装置、文書分類方法および文書分類プログラム
JP2009181301A (ja) 2008-01-30 2009-08-13 Nippon Hoso Kyokai <Nhk> 表現テンプレート生成装置、その方法およびそのプログラム
US20180300576A1 (en) 2015-10-02 2018-10-18 Alexandre DALYAC Semi-automatic labelling of datasets

Also Published As

Publication number Publication date
CN111339396A (zh) 2020-06-26
CN111339396B (zh) 2024-04-16
JP2020098592A (ja) 2020-06-25

Similar Documents

Publication Publication Date Title
JP7347179B2 (ja) ウェブページ内容を抽出する方法、装置及びコンピュータプログラム
WO2018218708A1 (zh) 一种基于深度学习的舆情热点类别划分方法
CN110196908A (zh) 数据分类方法、装置、计算机装置及存储介质
WO2017162134A1 (zh) 用于文本处理的电子设备和方法
CN110442725B (zh) 实体关系抽取方法及装置
CN105404674B (zh) 一种知识依赖的网页信息抽取方法
JP2004110161A (ja) テキスト文比較装置
Shah et al. Sentimental Analysis Using Supervised Learning Algorithms
CN108154198A (zh) 知识库实体归一方法、系统、终端和计算机可读存储介质
CN116541911B (zh) 一种基于人工智能的包装设计系统
CN113312480B (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
CN114840685A (zh) 一种应急预案知识图谱构建方法
Garrido-Munoz et al. A holistic approach for image-to-graph: application to optical music recognition
CN116611131B (zh) 一种包装图形自动生成方法、装置、介质及设备
CN113869609A (zh) 一种根因分析频繁子图置信度预测方法及系统
CN111951079B (zh) 一种基于知识图谱的信用评级方法、装置及电子设备
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
CN111930944A (zh) 文件标签分类方法及装置
CN117034948A (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质
Wang et al. Discriminant mutual information for text feature selection
CN108241650B (zh) 训练分类标准的训练方法和装置
CN115936003A (zh) 基于神经网络的软件功能点查重方法、装置、设备及介质
Park et al. Estimating comic content from the book cover information using fine-tuned VGG model for comic search
Anastasopoulos et al. Computational text analysis for public management research: An annotated application to county budgets
CN115344668A (zh) 一种多领域与多学科科技政策资源检索方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220809

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230821

R150 Certificate of patent or registration of utility model

Ref document number: 7347179

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150