CN110110198B - 一种网页信息抽取方法及装置 - Google Patents
一种网页信息抽取方法及装置 Download PDFInfo
- Publication number
- CN110110198B CN110110198B CN201711458949.6A CN201711458949A CN110110198B CN 110110198 B CN110110198 B CN 110110198B CN 201711458949 A CN201711458949 A CN 201711458949A CN 110110198 B CN110110198 B CN 110110198B
- Authority
- CN
- China
- Prior art keywords
- candidate
- target extraction
- probability
- webpage
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提供了一种网页信息抽取方法及装置,包括:根据网页的DOM树确定网页的候选元素以及文本信息;根据网页的展示页面截图确定网页的候选位置信息;根据各候选位置信息、各候选元素的文本信息确定各候选元素作为目标抽取元素的第一概率和各候选位置作为目标抽取位置的第二概率;根据第一概率和第二概率从各候选元素和各候选位置中确定目标抽取元素和目标抽取位置;根据确定为目标抽取元素的候选元素和确定为目标抽取位置的候选位置对网页进行信息抽取。通过提取网页的候选元素的文本信息以及候选位置信息,使用神经网络模型和空间概率分布模型对抽取位置进行定位,提高了网页信息抽取的定位精度和容错率,实现网页信息的自动化抽取。
Description
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种网页信息抽取方法及装置。
背景技术
随着互联网中信息的飞速增长,互联网网页已成为人类获取知识和信息的最重要的途径。传统搜索引擎技术能够根据用户查询快速排序网页,提高信息检索的效率。然而,对于搜索引擎反馈的大量结果,还需要进行人工排查和筛选。随着信息的爆炸式增长,这种信息检索方式已经很难满足人们全面掌控信息资源的需要,知识图谱技术的出现为解决信息检索问题提供了新的思路。知识图谱技术以图形的方式向用户返回加工和推荐的知识,是实现智能化语义检索的基础和桥梁。而知识图谱的构建需从海量的数据源中提取出实体(概念)、属性以及实体间的相互关系,并在此基础上形成本体化的知识表达。如何构建一个高精度、高自动化的数据信息抽取系统成为了一个亟待解决的技术难题。现有的技术中,一般利用文档对象模型(Document Object Model,简称DOM)树对网页信息进行定位,实现对应位置数据的抽取。在基于网页DOM树的匹配规则来实现网页信息的抽取时,主要过程为:首先,通过网页超级文本标记语言(HyperText Markup Language,简称HTML)代码解析出DOM树;其次,通过人工对DOM树进行规则匹配,查找DOM树符合抽取规则的路径或子树;最后,进行定位并抽取数据。由于该方案过于依赖人工标注DOM树,信息抽取效率低,而对于没有标注过的网页,则很难利用标注规则找到相对应数据的位置并抽取数据。
发明内容
本发明实施例提供一种网页信息抽取方法及装置,用于解决依赖人工标注DOM树定位网页信息抽取位置的方法效率和精度低的问题。
本发明实施例提供了一种网页信息抽取方法,包括:
获取网页的文档对象模型DOM树和所述网页的展示页面截图;
根据所述网页的DOM树确定所述网页的候选元素以及候选元素的文本信息;
根据所述网页的展示页面截图确定所述网页的候选位置信息;
根据各候选位置信息、各候选元素的文本信息确定所述网页的各候选元素作为目标抽取元素的第一概率;
根据各候选位置信息确定所述网页的各候选位置作为目标抽取元素对应的目标抽取位置的第二概率;
根据所述第一概率和所述第二概率从各候选元素和各候选位置中确定目标抽取元素和所述目标抽取元素对应的目标抽取位置;
根据确定为目标抽取元素的候选元素和确定为所述目标抽取元素对应的目标抽取位置的候选位置对所述网页进行信息抽取。
可选地,所述根据各候选位置信息、各候选元素的文本信息确定所述网页的各候选元素作为目标抽取元素的第一概率,包括:
将各候选位置信息、各候选元素的文本信息输入神经网络模型;
通过所述神经网络模型预测输出各候选元素作为目标抽取元素的第一概率。
可选地,所述根据各候选位置信息确定所述网页的各候选位置作为目标抽取元素对应的目标抽取位置的第二概率,包括:
将各候选位置信息输入目标抽取元素对应的空间概率分布模型;
通过所述空间概率分布模型预测输出各候选位置作为目标抽取元素对应的目标抽取位置的第二概率。
可选地,所述根据所述第一概率和所述第二概率从各候选元素和各候选位置中确定目标抽取元素和所述目标抽取元素对应的目标抽取位置,包括:
将各候选元素中第一概率满足第一预设条件的候选元素确定为所述目标抽取元素;
将各候选位置中第二概率满足第二预设条件的候选位置确定为所述目标抽取元素对应的目标抽取位置。
可选地,所述根据所述第一概率和所述第二概率从各候选元素和各候选位置中确定目标抽取元素和所述目标抽取元素对应的目标抽取位置,包括:
根据所述第一概率和所述第二概率确定各候选元素和各候选位置的关联概率;
将满足第三预设条件的关联概率对应的候选元素和候选位置确定为目标抽取元素和所述目标抽取元素对应的目标抽取位置。
可选地,所述根据所述网页的DOM树确定所述网页的候选元素以及候选元素的文本信息,包括:
将所述DOM树中叶节点的上一层节点确定为所述网页的候选元素;
针对任意一个候选元素,根据所述候选元素在DOM树中位置对所述候选元素的内容进行文本编码,确定所述候选元素的文本信息。
相应地,本发明实施例提供了一种网页信息抽取装置,包括:
获取模块,用于获取网页的文档对象模型DOM树和所述网页的展示页面截图;
处理模块,用于根据所述网页的DOM树确定所述网页的候选元素以及候选元素的文本信息;根据所述网页的展示页面截图确定所述网页的候选位置信息;根据各候选位置信息、各候选元素的文本信息确定所述网页的各候选元素作为目标抽取元素的第一概率;根据各候选位置信息确定所述网页的各候选位置作为目标抽取元素对应的目标抽取位置的第二概率;根据所述第一概率和所述第二概率从各候选元素和各候选位置中确定目标抽取元素和所述目标抽取元素对应的目标抽取位置;根据确定为目标抽取元素的候选元素和确定为所述目标抽取元素对应的目标抽取位置的候选位置对所述网页进行信息抽取。
可选地,所述处理模块具体用于:
将各候选位置信息、各候选元素的文本信息输入神经网络模型;
通过所述神经网络模型预测输出各候选元素作为目标抽取元素的第一概率。
可选地,所述处理模块具体用于:
将各候选位置信息输入目标抽取元素对应的空间概率分布模型;
通过所述空间概率分布模型预测输出各候选位置作为目标抽取元素对应的目标抽取位置的第二概率。
可选地,所述处理模块具体用于:
将各候选元素中第一概率满足第一预设条件的候选元素确定为所述目标抽取元素;
将各候选位置中第二概率满足第二预设条件的候选位置确定为所述目标抽取元素对应的目标抽取位置。
可选地,所述处理模块具体用于:
根据所述第一概率和所述第二概率确定各候选元素和各候选位置的关联概率;
将满足第三预设条件的关联概率对应的候选元素和候选位置确定为目标抽取元素和所述目标抽取元素对应的目标抽取位置。
可选地,所述处理模块具体用于:
将所述DOM树中叶节点的上一层节点确定为所述网页的候选元素;
针对任意一个候选元素,根据所述候选元素在DOM树中位置对所述候选元素的内容进行文本编码,确定所述候选元素的文本信息。
本发明实施例提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述任一项所述的方法。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述任一项所述的方法。
综上,本发明实施例提供了一种网页信息抽取方法及装置,包括:获取网页的文档对象模型DOM树和所述网页的展示页面截图;根据所述网页的DOM树确定所述网页的候选元素以及候选元素的文本信息;根据所述网页的展示页面截图确定所述网页的候选位置信息;根据各候选位置信息、各候选元素的文本信息确定所述网页的各候选元素作为目标抽取元素的第一概率;根据各候选位置信息确定所述网页的各候选位置作为目标抽取元素对应的目标抽取位置的第二概率;根据所述第一概率和所述第二概率从各候选元素和各候选位置中确定目标抽取元素和所述目标抽取元素对应的目标抽取位置;根据确定为目标抽取元素的候选元素和确定为所述目标抽取元素对应的目标抽取位置的候选位置对所述网页进行信息抽取。通过从网页的DOM树和展示页面截图提取候选元素、候选元素的文本信息以及候选位置信息,而不是仅仅依赖单一网页DOM树的定位特征,这样不仅可以使信息定位更精确,也可以使网页自动抽取装置更加灵活,适用于多变的网页模板。其次,使用神经网络模型和空间概率分布模型从候选元素中确定目标抽取元素以及从候选位置中确定目标抽取元素对应的目标抽取位置,提高了网页信息抽取的定位精度和容错率。与传统的信息定位方式相比,在网页模板多样性的情况下更适用各种复杂的抽取规则,不再依赖人工标注DOM树进行定位,实现海量网页信息的自动化抽取,提高了网页抽取的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种网页信息抽取方法的流程示意图;
图2为本发明实施例提供的一种文本编码方法的流程示意图;
图3为本发明实施例提供的一种确定第一概率的方法的流程示意图;
图4为本发明实施例提供的一种网页信息抽取装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种网页信息抽取方法,如图1所示,包括以下步骤:
步骤S101,获取网页的DOM树和网页的展示页面截图。
步骤S102,根据网页的DOM树确定网页的候选元素以及候选元素的文本信息。
步骤S103,根据网页的展示页面截图确定网页的候选位置信息。
步骤S104,根据各候选位置信息、各候选元素的文本信息确定网页的各候选元素作为目标抽取元素的第一概率。
步骤S105,根据各候选位置信息确定网页的各候选位置作为目标抽取元素对应的目标抽取位置的第二概率。
步骤S106,根据第一概率和第二概率从各候选元素和各候选位置中确定目标抽取元素和目标抽取元素对应的目标抽取位置。
步骤S107,根据确定为目标抽取元素的候选元素和确定为目标抽取元素对应目标抽取位置的候选位置对网页进行信息抽取。
具体地,在步骤S101中,使用网页渲染工具,轻量级的网页浏览器完全解析网页,获取网页的DOM树和网页的展示页面截图。本发明实施例适用的网页包括但不限于新闻网页、公司网页、购物网页、视频网页、论坛网页。
在步骤S102中,由于网页模板的个性化和实际应用的需求,DOM树叶节点往往不能完整表示需抽取的信息内容,比如某公司主页中,公司地址、邮编、电话都是该公司的联系方式,而DOM树叶节点仅仅是某一部分的内容(地址或邮编或电话),无法完整表达该公司的联系方式,因此将DOM树中叶节点的上一层节点公司联系方式确定为网页的候选元素,候选元素包括叶节点的所有的内容。为了确定候选元素的文本信息,需要对候选元素的内容进行文本编码。本发明实施例提供了一种根据候选元素在DOM树中位置对候选元素的内容进行文本编码的方法,针对任意一个候选元素,具体包括以下步骤,如图2所示:
步骤S201,通过网格将网页进行分割,分割后的各个网格包括网格坐标。
步骤S202,将候选元素中的内容进行分词后保存至文本矩阵中,文本矩阵包括候选元素覆盖的网格位置的坐标以及候选元素分词后各个词语的序列号。
步骤S203,采用哈希函数对文本矩阵进行降维确定候选元素的文本信息。
具体实施中,对网页进行分割的网格粒度根据实际情况确定。分词可采用结巴分词工具。采用文本矩阵中候选元素覆盖的网格位置坐标表示候选元素在网页DOM树中的相对位置。由于在文本编码过程中,考虑了候选元素之间的相对位置信息,保证文本信息的准确性。将叶节点的上一层节点作为候选元素进行文本编码,保证完整的文本信息编码。通过网格对网页进行分割,简化编码的信息内容,保证处理速度。
在步骤S103中,在根据网页的展示页面截图确定网页的候选位置信息时,采用区域生成网络对网页的展示页面截图进行处理,对网页的展示页面截图中候选位置使用边框区域(比如矩形)进行表述。为了进一步提高边框区域的表述精度,使用边框回归方法对边框区域进行微调,使得边框区域的最终位置和真实位置逼近。下面举例说明确定网页的候选位置及候选位置信息的过程:
设定原始窗口P、相关的图片特征,预测平移变换和缩放变换的四个参数,采用边框回归的方法对原始窗口P进行变化,具体可通过两步线性变换逼近真实窗口G,其中两步线性变换包括水平尺度和垂直尺度。采用重叠度对原始窗口P和真实窗口G的位置关系进行描述。重叠度IoU定义如公式(1)所示:
当原始窗口P和真实窗口G的重叠度大于预设阈值时,则说明原始窗口P和真实窗口G逼近,然后采用边框回归的方法对原始窗口P到真实窗口G变换进行建模,确定网页的候选位置和候选位置的位置信息。若原始窗口P和真实窗口G距离较远,窗口变化应为非线性问题,不能利用边框回归进行建模。
在步骤S104中,目标抽取元素根据网页实际的抽取任务设定,比如需要从公司网页中抽取公司联系方式,则可以将公司联系方式确定为目标抽取元素。需要从公司网页中抽取公司新闻,则可以将公司新闻确定为目标抽取元素。可选地,根据各候选位置信息、各候选元素的文本信息确定网页的各候选元素作为目标抽取元素的第一概率,具体包括以下步骤,如图3所示:
步骤S301,将各候选位置信息、各候选元素的文本信息输入神经网络模型。
步骤S302,通过神经网络模型预测输出各候选元素作为目标抽取元素的第一概率。
具体实施中,候选元素的文本信息和候选位置信息在空间维度上是相对应的,故可以将候选元素的文本信息和候选位置信息同时输入神经网络模型进行处理。
在步骤S105中,将各候选位置信息输入目标抽取元素对应的空间概率分布模型,然后通过空间概率分布模型预测输出各候选位置作为目标抽取元素对应的目标抽取位置的第二概率。具体实施中,根据训练数据对各目标抽取元素对应的空间概率分布进行建模,确定对应的空间概率分布模型。目标抽取元素c的空间概率分布模型具体如公式(2)所示:
其中,*是卷积过程,g是二维离散高斯函数,fc是由定义的目标抽取元素c的频率矩阵,其中nc(x,y)是在位置(x,y)上的元素为目标抽取元素c的样本数,N是总训练样本数,[-M,M]为元素的坐标范围。
将候选位置的候选位置信息代入公式(2)确定候选位置作为目标抽取元素对应的目标抽取位置的第二概率。比如设定目标抽取元素为公司联系方式,通过建模确定公司联系方式的空间概率分布模型如公式(2)所示,候选位置1的候选位置信息为[l,r,b,t],其中,l和r表示候选位置1对应的边框区域在x轴方向的坐标范围,b和t表示候选位置1对应的边框区域在y轴方向的坐标范围。
将候选位置信息代入公式(2)得到候选位置1作为公司联系方式对应的目标抽取位置的第二概率为:
在步骤S106中,至少包括以下两种根据第一概率和第二概率从各候选元素和各候选位置中确定目标抽取元素和目标抽取元素对应的目标抽取位置的方法,分别为:
方法一、将各候选元素中第一概率满足第一预设条件的候选元素确定为目标抽取元素,将各候选位置中第二概率满足第二预设条件的候选位置确定为目标抽取元素对应的目标抽取位置。具体实施中,可将第一预设条件设置为概率最大,第二预设条件设置为概率最大。
方法二、根据第一概率和第二概率确定各候选元素和各候选位置的关联概率,将满足第三预设条件的关联概率对应的候选元素和候选位置确定为目标抽取元素和目标抽取元素对应的目标抽取位置。具体实施中,第三预设条件可设置为概率最大。将各候选元素作为目标抽取元素的第一概率分别与各候选位置作为目标抽取元素对应的目标抽取位置的第二概率相乘确定各候选元素和各候选位置的关联概率,具体符合下述公式(3):
P(c|position,context)=P(c|context)×P(c|position)……………(3)
其中,P(c|position,context)为候选元素和候选位置的关联概率,P(c|context)为候选元素作为目标抽取元素c的第一概率,P(c|position)为候选位置作为目标抽取元素c对应的目标抽取位置的第二概率。
下面以具体的例子对上述两种方法进行说明,设定目标抽取元素为公司联系方式,第一预设条件、第二预设条件和第三预设条件均为概率最大。根据公司网页的DOM树确定出候选元素A、候选元素B、候选元素C及对应的文本信息,根据公司的展示页面截图中确定出候选位置1、候选位置2、候选位置3。将候选元素A、候选元素B和候选元素C的文本信息以及候选位置1、候选位置2和候选位置3的候选位置信息输入神经网络模型,神经网络模型输出候选元素A作为公司联系方式的第一概率为0.5、候选元素B作为公司联系方式的第一概率为0.7、候选元素C作为公司联系方式的第一概率为0.3。将候选位置1、候选位置2和候选位置3的候选位置信息输入公司联系方式对应的空间概率分布模型之后,空间概率分布模型的输出结果为:候选位置1作为公司联系方式对应的目标抽取位置的第二概率为0.8,候选位置2作为公司联系方式对应的目标抽取位置的第二概率为0.5,候选位置3作为公司联系方式对应的目标抽取位置的第二概率为0.4。
采用上述方法一可得:神经网络模型输出的最大第一概率对应的候选元素为候选元素B,故将候选元素B确定为公司联系方式。空间概率分布模型输出的最大第二概率对应的候选位置为候选位置1,故将候选位置1确定为公司联系方式对应的目标抽取位置。
采用上述方法二可得:将上述各候选元素作为公司联系方式的第一概率和各候选位置作为公司联系方式对应的目标抽取位置的第二概率代入公式(3),其结果分别为:
P(公司联系方式|候选位置1,候选元素A)=0.8*0.5=0.4
P(公司联系方式|候选位置1,候选元素B)=0.8*0.7=0.56
P(公司联系方式|候选位置1,候选元素C)=0.8*0.3=0.24
P(公司联系方式|候选位置2,候选元素A)=0.5*0.5=0.25
P(公司联系方式|候选位置2,候选元素B)=0.5*0.7=0.35
P(公司联系方式|候选位置2,候选元素C)=0.5*0.3=0.15
P(公司联系方式|候选位置3,候选元素A)=0.4*0.5=0.2
P(公司联系方式|候选位置3,候选元素B)=0.4*0.7=0.28
P(公司联系方式|候选位置3,候选元素C)=0.4*0.3=0.12
由上述结果可知,候选元素B和候选位置1的关联概率最大,则将候选元素B确定为公司联系方式,候选位置1确定为公司联系方式在网页中对应的目标抽取位置。
在步骤S107中,利用可扩展标记语言路径语言(Xml Path Language,简称XPath),同时结合确定为目标抽取元素的候选元素和确定为目标抽取元素对应的目标抽取位置的候选位置对网页进行信息抽取。通过结构化数据展示接口输出抽取的相关网页信息,抽取结果的读取可以采用文本文档方式和知识图谱方式。
通过从网页的DOM树和展示页面截图提取候选元素、候选元素的文本信息以及候选位置信息,而不是依赖单一网页DOM树的定位特征,不仅可以使信息定位更精确,也可以使网页自动抽取装置更加灵活,适用于多变的网页模板。其次,使用神经网络模型和空间概率分布模型从候选元素中确定目标抽取元素以及从候选位置中确定目标抽取元素对应的目标抽取位置,提高了网页信息抽取的定位精度和容错率。与传统的信息定位方式相比,在网页模板多样性的情况下更适用各种复杂的抽取规则,不再依赖人工标注DOM树进行定位,实现海量网页信息的自动化抽取,提高了网页抽取的效率。
为了更好的解释本发明实施例,下面通过具体的实施场景描述本发明实施例提供的一种网页信息抽取方法,设定新闻网页包括新闻标题、新闻正文、新闻评论以及新闻来源信息等,目标抽取元素为新闻来源信息。获取新闻网页DOM树和新闻网页的展示页面截图。将新闻网页的DOM树中叶节点的上一节点确定为候选元素,确定出的候选元素为候选元素A、候选元素B和候选元素C。对确定出的候选元素的内容进行文本编码确定各候选元素的文本信息。采用区域生成网络对新闻网页的展示页面截图进行处理确定候选位置及对应的候选位置信息,确定出的候选位置为候选位置1、候选位置2和候选位置3。将候选元素A、候选元素B和候选元素C的文本信息以及候选位置1、候选位置2和候选位置3的候选位置信息输入神经网络模型,神经网络模型输出候选元素A作为新闻来源信息的第一概率为0.7、候选元素B作为新闻来源信息的第一概率为0.4、候选元素C作为新闻来源信息的第一概率为0.3。根据样本数据构建新闻来源信息对应的空间概率分布模型,将候选位置1、候选位置2和候选位置3的候选位置信息输入新闻来源信息对应的空间概率分布模型之后,空间概率分布模型的输出结果为:候选位置1作为新闻来源信息对应的目标抽取位置的第二概率为0.8,候选位置2作为新闻来源信息对应的目标抽取位置的第二概率为0.5,候选位置3作为新闻来源信息对应的目标抽取位置的第二概率为0.4。将神经网络模型输出的第一概率与空间概率模型输出的第二概率代入公式(3),确定各候选元素与各候选位置的关联概率,其结果分别为:
P(新闻来源信息|候选位置1,候选元素A)=0.8*0.7=0.56
P(新闻来源信息|候选位置1,候选元素B)=0.8*0.4=0.32
P(新闻来源信息|候选位置1,候选元素C)=0.8*0.3=0.24
P(新闻来源信息|候选位置2,候选元素A)=0.5*0.7=0.35
P(新闻来源信息|候选位置2,候选元素B)=0.5*0.4=0.2
P(新闻来源信息|候选位置2,候选元素C)=0.5*0.3=0.15
P(新闻来源信息|候选位置3,候选元素A)=0.4*0.7=0.28
P(新闻来源信息|候选位置3,候选元素B)=0.4*0.4=0.16
P(新闻来源信息|候选位置3,候选元素C)=0.4*0.3=0.12
由上述结果可知,候选元素A和候选位置1的关联概率最大,则将候选元素A确定为新闻来源信息,候选位置1确定为新闻来源信息在网页中对应的目标抽取位置。然后根据候选位置1和候选元素A对新闻网页的新闻来源信息进行抽取,并将抽取的信息通过结构化数据展示接口输出。
综上,本发明实施例提供了一种网页信息抽取方法及装置,包括:获取网页的文档对象模型DOM树和所述网页的展示页面截图;根据所述网页的DOM树确定所述网页的候选元素以及候选元素的文本信息;根据所述网页的展示页面截图确定所述网页的候选位置信息;根据各候选位置信息、各候选元素的文本信息确定所述网页的各候选元素作为目标抽取元素的第一概率;根据各候选位置信息确定所述网页的各候选位置作为目标抽取元素对应的目标抽取位置的第二概率;根据所述第一概率和所述第二概率从各候选元素和各候选位置中确定目标抽取元素和所述目标抽取元素对应的目标抽取位置;根据确定为目标抽取元素的候选元素和确定为所述目标抽取元素对应的目标抽取位置的候选位置对所述网页进行信息抽取。通过从网页的DOM树和展示页面截图提取候选元素、候选元素的文本信息以及候选位置信息,而不是仅仅依赖单一网页DOM树的定位特征,这样不仅可以使信息定位更精确,也可以使网页自动抽取装置更加灵活,适用于多变的网页模板。其次,使用神经网络模型和空间概率分布模型从候选元素中确定目标抽取元素以及从候选位置中确定目标抽取元素对应的目标抽取位置,提高了网页信息抽取的定位精度和容错率。与传统的信息定位方式相比,在网页模板多样性的情况下更适用各种复杂的抽取规则,不再依赖人工标注DOM树进行定位,实现海量网页信息的自动化抽取,提高了网页抽取的效率。
基于相同的技术构思,本发明实施例还提供了一种网页信息抽取装置,如图4所示,包括:
获取模块401,用于获取网页的文档对象模型DOM树和所述网页的展示页面截图;
处理模块402,用于根据所述网页的DOM树确定所述网页的候选元素以及候选元素的文本信息;根据所述网页的展示页面截图确定所述网页的候选位置信息;根据各候选位置信息、各候选元素的文本信息确定所述网页的各候选元素作为目标抽取元素的第一概率;根据各候选位置信息确定所述网页的各候选位置作为目标抽取元素对应的目标抽取位置的第二概率;根据所述第一概率和所述第二概率从各候选元素和各候选位置中确定目标抽取元素和所述目标抽取元素对应的目标抽取位置;根据确定为目标抽取元素的候选元素和确定为所述目标抽取元素对应的目标抽取位置的候选位置对所述网页进行信息抽取。
可选地,所述处理模块402具体用于:
将各候选位置信息、各候选元素的文本信息输入神经网络模型;
通过所述神经网络模型预测输出各候选元素作为目标抽取元素的第一概率。
可选地,所述处理模块402具体用于:
将各候选位置信息输入目标抽取元素对应的空间概率分布模型;
通过所述空间概率分布模型预测输出各候选位置作为目标抽取元素对应的目标抽取位置的第二概率。
可选地,所述处理模块402具体用于:
将各候选元素中第一概率满足第一预设条件的候选元素确定为所述目标抽取元素;
将各候选位置中第二概率满足第二预设条件的候选位置确定为所述目标抽取元素对应的目标抽取位置。
可选地,所述处理模块402具体用于:
根据所述第一概率和所述第二概率确定各候选元素和各候选位置的关联概率;
将满足第三预设条件的关联概率对应的候选元素和候选位置确定为目标抽取元素和所述目标抽取元素对应的目标抽取位置。
可选地,所述处理模块402具体用于:
将所述DOM树中叶节点的上一层节点确定为所述网页的候选元素;
针对任意一个候选元素,根据所述候选元素在DOM树中位置对所述候选元素的内容进行文本编码,确定所述候选元素的文本信息。
本发明实施例提供了一种计算设备,该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,简称PDA)等。该计算设备可以包括中央处理器(Center Processing Unit,简称CPU)、存储器、输入/输出设备等,输入设备可以包括键盘、鼠标、触摸屏等,输出设备可以包括显示设备,如液晶显示器(Liquid Crystal Display,简称LCD)、阴极射线管(Cathode Ray Tube,简称CRT)等。
存储器,可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中,存储器可以用于存储网页信息抽取方法的程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行网页信息抽取方法。
本发明实施例提供了一种计算机存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行网页信息抽取方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (14)
1.一种网页信息抽取方法,其特征在于,包括:
获取网页的文档对象模型DOM树和所述网页的展示页面截图;
根据所述网页的DOM树确定所述网页的候选元素以及候选元素的文本信息;
根据所述网页的展示页面截图确定所述网页的候选位置信息;
根据各候选位置信息、各候选元素的文本信息确定所述网页的各候选元素作为目标抽取元素的第一概率;
根据各候选位置信息确定所述网页的各候选位置作为目标抽取元素对应的目标抽取位置的第二概率;
根据所述第一概率和所述第二概率从各候选元素和各候选位置中确定目标抽取元素和所述目标抽取元素对应的目标抽取位置;
根据确定为目标抽取元素的候选元素和确定为所述目标抽取元素对应的目标抽取位置的候选位置对所述网页进行信息抽取。
2.如权利要求1所述的方法,其特征在于,所述根据各候选位置信息、各候选元素的文本信息确定所述网页的各候选元素作为目标抽取元素的第一概率,包括:
将各候选位置信息、各候选元素的文本信息输入神经网络模型;
通过所述神经网络模型预测输出各候选元素作为目标抽取元素的第一概率。
3.如权利要求1所述的方法,其特征在于,所述根据各候选位置信息确定所述网页的各候选位置作为目标抽取元素对应的目标抽取位置的第二概率,包括:
将各候选位置信息输入目标抽取元素对应的空间概率分布模型;
通过所述空间概率分布模型预测输出各候选位置作为目标抽取元素对应的目标抽取位置的第二概率。
4.如权利要求1所述的方法,其特征在于,所述根据所述第一概率和所述第二概率从各候选元素和各候选位置中确定目标抽取元素和所述目标抽取元素对应的目标抽取位置,包括:
将各候选元素中第一概率满足第一预设条件的候选元素确定为所述目标抽取元素;
将各候选位置中第二概率满足第二预设条件的候选位置确定为所述目标抽取元素对应的目标抽取位置。
5.如权利要求1所述的方法,其特征在于,所述根据所述第一概率和所述第二概率从各候选元素和各候选位置中确定目标抽取元素和所述目标抽取元素对应的目标抽取位置,包括:
根据所述第一概率和所述第二概率确定各候选元素和各候选位置的关联概率;
将满足第三预设条件的关联概率对应的候选元素和候选位置确定为目标抽取元素和所述目标抽取元素对应的目标抽取位置。
6.如权利要求1所述的方法,其特征在于,所述根据所述网页的DOM树确定所述网页的候选元素以及候选元素的文本信息,包括:
将所述DOM树中叶节点的上一层节点确定为所述网页的候选元素;
针对任意一个候选元素,根据所述候选元素在DOM树中位置对所述候选元素的内容进行文本编码,确定所述候选元素的文本信息。
7.一种网页信息抽取装置,其特征在于,包括:
获取模块,用于获取网页的文档对象模型DOM树和所述网页的展示页面截图;
处理模块,用于根据所述网页的DOM树确定所述网页的候选元素以及候选元素的文本信息;根据所述网页的展示页面截图确定所述网页的候选位置信息;根据各候选位置信息、各候选元素的文本信息确定所述网页的各候选元素作为目标抽取元素的第一概率;根据各候选位置信息确定所述网页的各候选位置作为目标抽取元素对应的目标抽取位置的第二概率;根据所述第一概率和所述第二概率从各候选元素和各候选位置中确定目标抽取元素和所述目标抽取元素对应的目标抽取位置;根据确定为目标抽取元素的候选元素和确定为所述目标抽取元素对应的目标抽取位置的候选位置对所述网页进行信息抽取。
8.如权利要求7所述的装置,其特征在于,所述处理模块具体用于:
将各候选位置信息、各候选元素的文本信息输入神经网络模型;
通过所述神经网络模型预测输出各候选元素作为目标抽取元素的第一概率。
9.如权利要求7所述的装置,其特征在于,所述处理模块具体用于:
将各候选位置信息输入目标抽取元素对应的空间概率分布模型;
通过所述空间概率分布模型预测输出各候选位置作为目标抽取元素对应的目标抽取位置的第二概率。
10.如权利要求7所述的装置,其特征在于,所述处理模块具体用于:
将各候选元素中第一概率满足第一预设条件的候选元素确定为所述目标抽取元素;
将各候选位置中第二概率满足第二预设条件的候选位置确定为所述目标抽取元素对应的目标抽取位置。
11.如权利要求7所述的装置,其特征在于,所述处理模块具体用于:
根据所述第一概率和所述第二概率确定各候选元素和各候选位置的关联概率;
将满足第三预设条件的关联概率对应的候选元素和候选位置确定为目标抽取元素和所述目标抽取元素对应的目标抽取位置。
12.如权利要求7所述的装置,其特征在于,所述处理模块具体用于:
将所述DOM树中叶节点的上一层节点确定为所述网页的候选元素;
针对任意一个候选元素,根据所述候选元素在DOM树中位置对所述候选元素的内容进行文本编码,确定所述候选元素的文本信息。
13.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行如权利要求1至6任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711458949.6A CN110110198B (zh) | 2017-12-28 | 2017-12-28 | 一种网页信息抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711458949.6A CN110110198B (zh) | 2017-12-28 | 2017-12-28 | 一种网页信息抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110110198A CN110110198A (zh) | 2019-08-09 |
CN110110198B true CN110110198B (zh) | 2021-06-15 |
Family
ID=67483427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711458949.6A Active CN110110198B (zh) | 2017-12-28 | 2017-12-28 | 一种网页信息抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110198B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476037B (zh) * | 2020-04-14 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN112269906B (zh) * | 2020-10-14 | 2023-04-14 | 西安邮电大学 | 网页正文的自动抽取方法及装置 |
CN112347332A (zh) * | 2020-11-17 | 2021-02-09 | 南开大学 | 一种基于XPath的爬虫目标定位方法 |
CN114626364A (zh) * | 2022-01-26 | 2022-06-14 | 科大讯飞股份有限公司 | 内容提取方法及相关装置、电子设备、存储介质 |
CN115033822B (zh) * | 2022-06-14 | 2024-05-17 | 壹沓科技(上海)有限公司 | 一种元素定位方法、装置、设备及可读存储介质 |
CN115796145B (zh) * | 2022-11-16 | 2023-09-08 | 珠海横琴指数动力科技有限公司 | 一种网页文本的采集方法、系统、服务器及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937438A (zh) * | 2009-06-30 | 2011-01-05 | 富士通株式会社 | 网页内容提取方法和装置 |
CN103491116A (zh) * | 2012-06-12 | 2014-01-01 | 深圳市世纪光速信息技术有限公司 | 正文相关的结构化数据的处理方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8010544B2 (en) * | 2008-06-06 | 2011-08-30 | Yahoo! Inc. | Inverted indices in information extraction to improve records extracted per annotation |
-
2017
- 2017-12-28 CN CN201711458949.6A patent/CN110110198B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937438A (zh) * | 2009-06-30 | 2011-01-05 | 富士通株式会社 | 网页内容提取方法和装置 |
CN103491116A (zh) * | 2012-06-12 | 2014-01-01 | 深圳市世纪光速信息技术有限公司 | 正文相关的结构化数据的处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110110198A (zh) | 2019-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110198B (zh) | 一种网页信息抽取方法及装置 | |
AU2018247340B2 (en) | Dvqa: understanding data visualizations through question answering | |
CN109190049B (zh) | 关键词推荐方法、系统、电子设备和计算机可读介质 | |
CN113822067A (zh) | 关键信息提取方法、装置、计算机设备及存储介质 | |
CN110737768A (zh) | 基于深度学习的文本摘要自动生成方法及装置、存储介质 | |
CN116049597B (zh) | 网页的多任务模型的预训练方法、装置及电子设备 | |
CN115438740A (zh) | 一种多源数据的汇聚融合方法和系统 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
CN116610304B (zh) | 页面代码生成方法、装置、设备和存储介质 | |
CN103150355A (zh) | 一种网页内容预览的方法、装置及设备 | |
US20230177359A1 (en) | Method and apparatus for training document information extraction model, and method and apparatus for extracting document information | |
CN115546815A (zh) | 一种表格识别方法、装置、设备及存储介质 | |
CN115373658A (zh) | 一种基于Web图片的前端代码自动生成方法和装置 | |
CN111723177B (zh) | 信息提取模型的建模方法、装置及电子设备 | |
CN112069807A (zh) | 文本数据的主题提取方法、装置、计算机设备及存储介质 | |
XUE et al. | Multiple clustering algorithm based on dynamic weighted tensor distance | |
Yang et al. | Engineering Drawing Manager: A Smart Data Extractor and Management Software | |
Amalia et al. | A PRELIMINARY STUDY OF SENTIMENT ANALYSIS ON COVID-19 NEWS: LESSON LEARNED FROM DATA ACQUISITION, PRE-PROCESSING, AND DESCRIPTIVE ANALYTICS | |
US20240095413A1 (en) | System and method for managing geometric designs | |
Bose | Extraction of Relevant Images for Boilerplate Removal in Web Browsers | |
CN115098090A (zh) | 表单生成方法及装置 | |
John et al. | Information Retrieval Technique for Web using NLP | |
Vu et al. | Adaptive Web page layout for mobile devices | |
CN117218225A (zh) | 文本生成图像预处理方法、装置和计算机设备和存储介质 | |
CN113869030A (zh) | 资讯文本的获取方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |