JP7347179B2 - ウェブページ内容を抽出する方法、装置及びコンピュータプログラム - Google Patents
ウェブページ内容を抽出する方法、装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP7347179B2 JP7347179B2 JP2019221285A JP2019221285A JP7347179B2 JP 7347179 B2 JP7347179 B2 JP 7347179B2 JP 2019221285 A JP2019221285 A JP 2019221285A JP 2019221285 A JP2019221285 A JP 2019221285A JP 7347179 B2 JP7347179 B2 JP 7347179B2
- Authority
- JP
- Japan
- Prior art keywords
- web page
- similarity
- representative set
- features
- page feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
DOMのラベルがウェブページ特徴とされる1つの具体例は、以下の通りである。
抽出待ちウェブページ内容情報が関係型データであり、その中に属性及び属性値が含まれる場合、1つのサンプルは、以下のように表すことができる。
そのうち、R1及びC1は、それぞれ、抽出する必要のある属性及び属性値である。
上述の表現から分かるように、“Required Education”は、“必要な学歴”を表す属性であり、“4 Year Degree”は、大学卒業を表し、即ち、“必要な学歴”の属性の属性値である。
ここで、サンプル間類似度の計算方法について説明する。類似度計算は、サンプルの間の類似度を計算するために用いられる。ここでのサンプルは、抽出待ち情報及び該情報に関する特徴を含む。類似度計算の正確性を向上させるために、特に、異なる表し方のウェブページフォーマット間の類似度計算の正確性を向上させるために、類似度の計算方法に対して学習を行う必要がある。
ウェブページ内容抽出方法であって、
ウェブページ特徴と、少なくとも1つのウェブページ特徴クラスタの代表的集合との類似度を計算し、前記代表的集合は、対応するウェブページ特徴クラスタ中で互いの間の類似度が比較的高いウェブページ特徴のサンプルを含み;
前記ウェブページ特徴との類似度が最も高い代表的集合を確定し;
前記ウェブページ特徴を用いて、確定された代表的集合に関連付けられたウェブページ特徴クラスタを更新し;
更新されたウェブページ特徴クラスタの代表的集合を再び計算し;及び
更新されたウェブページ特徴クラスタに関連付けられた抽出テンプレートに基づいて、ウェブページから内容を抽出する、方法。
付記1に記載の方法であって、
前記代表的集合中で互いの間の類似度が比較的高いウェブページ特徴のサンプルが、同一類別(種類)のウェブページ内容から取得される、方法。
付記2に記載の方法、そのうち、
前記代表的集合の数が、抽出待ちウェブページ内容の類別の数(種数)に等しい、方法。
付記2又は3に記載の方法であって、
前記類別は、ウェブページ特徴の類型を表す類別を含む、方法。
付記2又は3に記載の方法であって、
前記類別の定義に対して調整が、シードサンプルに対しての調整により実現される、方法。
付記5に記載の方法であって、
前記シードサンプルが人的に確定される、方法。
付記1に記載の方法であって、
更新されたウェブページ特徴クラスタ中のウェブページ特徴と、他のサンプルのウェブページ特徴との類似度の和を、各代表的集合との類似度の和で割った値(比率)に基づいて、更新されたウェブページ特徴クラスタの代表的集合を構成するサンプルを選択する、方法。
付記7に記載の方法であって、
比較的大きい比率に対応する所定数のサンプルを用いて、更新されたウェブページ特徴クラスタの代表的集合を構成する、方法。
付記1に記載の方法であって、
ニューラルネットワークを用いてウェブページ特徴間の類似度を計算する、方法。
付記9に記載の方法であって、
前記ニューラルネットワークは、Siameseネットワークを含む、方法。
付記9に記載の方法であって、
前記ニューラルネットワークは、訓練済みニューラルネットワークである、方法。
付記1に記載の方法であって、
抽出待ちウェブページ内容情報がDOMのラベル又は関係型(リレーショナル)データである、方法。
ウェブページ内容抽出装置であって、
少なくとも1つの処理器を含み、それは、付記1~12のうちに任意の1項に記載の方法を実行するように構成される、装置。
コンピュータ可読プログラム指令を記憶したコンピュータ読み取り可能な記憶媒体であって、
前記プログラム指令がコンピュータにより実行されるときに、付記1~12のうちの任意の1項に記載の方法を実現することができる、記憶媒体。
ウェブページ内容抽出システムであって、
シードサンプルを記憶するためのシードサンプル記憶ユニット;
サンプル間の類似度に対して学習を行うための類似度学習ユニット;
サンプル間の類似度を計算するための類似度計算ユニット;
計算することにより代表的な点を確定するための代表点計算ユニット;
代表的な点を記憶するための代表点記憶ユニット;
類似度に基づいて、サンプルを対応するクラスタに分類するための分類ユニット;
ウェブページを入力するための入力ユニット;及び
前記ウェブページの内容を抽出するための情報抽出ユニットを含む、システム。
Claims (9)
- ウェブページ内容を抽出する方法であって、
ウェブページ特徴と、少なくとも1つのウェブページ特徴クラスタの集合であって対応するウェブページ特徴クラスタ中で互いの間の類似度が比較的高いウェブページ特徴のサンプルを含む代表的集合との類似度を計算し、
前記ウェブページ特徴との類似度が最も高い代表的集合を確定し、
前記ウェブページ特徴を用いて、確定された代表的集合に関連付けられているウェブページ特徴クラスタを更新し、
更新されたウェブページ特徴クラスタ中のウェブページ特徴と、他のサンプルのウェブページ特徴との類似度の和を、各代表的集合との類似度の和で割った値に基づいて、更新されたウェブページ特徴クラスタの代表的集合を構成するサンプルを選択することで、更新されたウェブページ特徴クラスタの代表的集合を再び計算し、
更新されたウェブページ特徴クラスタに関連付けられている抽出テンプレートに基づいて、ウェブページから内容を抽出する、
ことをコンピュータが実行する方法。 - 請求項1に記載の方法であって、
前記代表的集合中で互いの間の類似度が比較的高いウェブページ特徴のサンプルが、同じ種類のウェブページ内容から取得される、方法。 - 請求項2に記載の方法であって、
前記代表的集合の数が、抽出待ちウェブページ内容の種数に等しい、方法。 - 請求項1に記載の方法であって、
比較的大きい比率に対応する所定数のサンプルを用いて、更新されたウェブページ特徴クラスタの代表的集合を構成する、方法。 - 請求項1に記載の方法であって、
ニューラルネットワークを用いて、ウェブページ特徴間の類似度を確定する、方法。 - 請求項5に記載の方法であって、
前記ニューラルネットワークは、Siameseネットワークを含む、方法。 - 請求項5に記載の方法であって、
前記ニューラルネットワークは、訓練済みニューラルネットワークである、方法。 - ウェブページ内容を抽出する装置であって、
少なくとも1つの処理器を含み、
前記少なくとも1つの処理器は、
ウェブページ特徴と、少なくとも1つのウェブページ特徴クラスタの集合であって対応するウェブページ特徴クラスタ中で互いの間の類似度が比較的高いウェブページ特徴のサンプルを含む代表的集合との類似度を計算し、
前記ウェブページ特徴との類似度が最も高い代表的集合を確定し、
前記ウェブページ特徴を用いて、確定された代表的集合に関連付けられているウェブページ特徴クラスタを更新し、
更新されたウェブページ特徴クラスタの代表的集合を再び計算し、
更新されたウェブページ特徴クラスタに関連付けられている抽出テンプレートに基づいて、ウェブページから内容を抽出する、
ことを特徴とする装置。 - コンピュータに、
ウェブページ特徴と、少なくとも1つのウェブページ特徴クラスタの集合であって対応するウェブページ特徴クラスタ中で互いの間の類似度が比較的高いウェブページ特徴のサンプルを含む代表的集合との類似度を計算し、
前記ウェブページ特徴との類似度が最も高い代表的集合を確定し、
前記ウェブページ特徴を用いて、確定された代表的集合に関連付けられているウェブページ特徴クラスタを更新し、
更新されたウェブページ特徴クラスタの代表的集合を再び計算し、
更新されたウェブページ特徴クラスタに関連付けられている抽出テンプレートに基づいて、ウェブページから内容を抽出する、
処理を実行させることを特徴とするプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811549846.5 | 2018-12-18 | ||
CN201811549846.5A CN111339396B (zh) | 2018-12-18 | 2018-12-18 | 提取网页内容的方法、装置和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020098592A JP2020098592A (ja) | 2020-06-25 |
JP7347179B2 true JP7347179B2 (ja) | 2023-09-20 |
Family
ID=71106014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019221285A Active JP7347179B2 (ja) | 2018-12-18 | 2019-12-06 | ウェブページ内容を抽出する方法、装置及びコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7347179B2 (ja) |
CN (1) | CN111339396B (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102570477B1 (ko) * | 2020-12-28 | 2023-09-04 | 주식회사 에스투더블유 | 웹 페이지에서 자동으로 사용자 식별 객체 획득하는 방법 |
CN113434790B (zh) * | 2021-06-16 | 2023-07-25 | 北京百度网讯科技有限公司 | 重复链接的识别方法、装置及电子设备 |
CN113486228B (zh) * | 2021-07-02 | 2022-05-10 | 燕山大学 | 基于md5三叉树和改进birch算法的互联网论文数据自动抽取算法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092889A (ja) | 2003-09-18 | 2005-04-07 | Fujitsu Ltd | ウェブページのための情報ブロック抽出装置及び情報ブロック抽出方法 |
JP2007199966A (ja) | 2006-01-25 | 2007-08-09 | Fuji Xerox Co Ltd | 文書分類装置、文書分類方法および文書分類プログラム |
JP2009181301A (ja) | 2008-01-30 | 2009-08-13 | Nippon Hoso Kyokai <Nhk> | 表現テンプレート生成装置、その方法およびそのプログラム |
US20180300576A1 (en) | 2015-10-02 | 2018-10-18 | Alexandre DALYAC | Semi-automatic labelling of datasets |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102193951A (zh) * | 2010-03-19 | 2011-09-21 | 华为技术有限公司 | 信息抽取的方法及系统 |
US8645384B1 (en) * | 2010-05-05 | 2014-02-04 | Google Inc. | Updating taxonomy based on webpage |
KR101266504B1 (ko) * | 2012-01-20 | 2013-05-24 | 성균관대학교산학협력단 | 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법 |
CN103631789A (zh) * | 2012-08-21 | 2014-03-12 | 富士通株式会社 | 文档处理方法和装置 |
CN103885977B (zh) * | 2012-12-21 | 2019-02-05 | 腾讯科技(深圳)有限公司 | 一种网页数据的分类方法、装置和系统 |
CN103514292A (zh) * | 2013-10-09 | 2014-01-15 | 南京大学 | 一种基于小样本半监督学习的网页数据抽取方法 |
CN103870567A (zh) * | 2014-03-11 | 2014-06-18 | 浪潮集团有限公司 | 一种云计算中垂直搜索引擎网页采集模板自动识别方法 |
CN103838886A (zh) * | 2014-03-31 | 2014-06-04 | 辽宁四维科技发展有限公司 | 基于代表词知识库的文本内容分类方法 |
CN104504086B (zh) * | 2014-12-25 | 2017-11-21 | 北京国双科技有限公司 | 网页页面的聚类方法和装置 |
CN104484461B (zh) * | 2014-12-29 | 2018-03-23 | 北京奇虎科技有限公司 | 一种基于百科数据对实体进行分类的方法及系统 |
CN104699817B (zh) * | 2015-03-24 | 2018-01-05 | 中国人民解放军国防科学技术大学 | 一种基于改进谱聚类的搜索引擎排序方法与系统 |
CN104834717A (zh) * | 2015-05-11 | 2015-08-12 | 浪潮集团有限公司 | 一种基于网页聚类的Web信息自动抽取方法 |
-
2018
- 2018-12-18 CN CN201811549846.5A patent/CN111339396B/zh active Active
-
2019
- 2019-12-06 JP JP2019221285A patent/JP7347179B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005092889A (ja) | 2003-09-18 | 2005-04-07 | Fujitsu Ltd | ウェブページのための情報ブロック抽出装置及び情報ブロック抽出方法 |
JP2007199966A (ja) | 2006-01-25 | 2007-08-09 | Fuji Xerox Co Ltd | 文書分類装置、文書分類方法および文書分類プログラム |
JP2009181301A (ja) | 2008-01-30 | 2009-08-13 | Nippon Hoso Kyokai <Nhk> | 表現テンプレート生成装置、その方法およびそのプログラム |
US20180300576A1 (en) | 2015-10-02 | 2018-10-18 | Alexandre DALYAC | Semi-automatic labelling of datasets |
Also Published As
Publication number | Publication date |
---|---|
CN111339396A (zh) | 2020-06-26 |
CN111339396B (zh) | 2024-04-16 |
JP2020098592A (ja) | 2020-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7347179B2 (ja) | ウェブページ内容を抽出する方法、装置及びコンピュータプログラム | |
WO2018218708A1 (zh) | 一种基于深度学习的舆情热点类别划分方法 | |
CN110196908A (zh) | 数据分类方法、装置、计算机装置及存储介质 | |
WO2017162134A1 (zh) | 用于文本处理的电子设备和方法 | |
CN110442725B (zh) | 实体关系抽取方法及装置 | |
CN105404674B (zh) | 一种知识依赖的网页信息抽取方法 | |
JP2004110161A (ja) | テキスト文比較装置 | |
Shah et al. | Sentimental Analysis Using Supervised Learning Algorithms | |
CN108154198A (zh) | 知识库实体归一方法、系统、终端和计算机可读存储介质 | |
CN116541911B (zh) | 一种基于人工智能的包装设计系统 | |
CN113312480B (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
Garrido-Munoz et al. | A holistic approach for image-to-graph: application to optical music recognition | |
CN116611131B (zh) | 一种包装图形自动生成方法、装置、介质及设备 | |
CN113869609A (zh) | 一种根因分析频繁子图置信度预测方法及系统 | |
CN111951079B (zh) | 一种基于知识图谱的信用评级方法、装置及电子设备 | |
CN113837307A (zh) | 数据相似度计算方法、装置、可读介质及电子设备 | |
CN111930944A (zh) | 文件标签分类方法及装置 | |
CN117034948A (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
Wang et al. | Discriminant mutual information for text feature selection | |
CN108241650B (zh) | 训练分类标准的训练方法和装置 | |
CN115936003A (zh) | 基于神经网络的软件功能点查重方法、装置、设备及介质 | |
Park et al. | Estimating comic content from the book cover information using fine-tuned VGG model for comic search | |
Anastasopoulos et al. | Computational text analysis for public management research: An annotated application to county budgets | |
CN115344668A (zh) | 一种多领域与多学科科技政策资源检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220809 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230315 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230411 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230609 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230821 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7347179 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |