CN110427541B

CN110427541B - 一种网页内容提取方法、系统、电子设备及介质

Info

Publication number: CN110427541B
Application number: CN201910717220.9A
Authority: CN
Inventors: 赵姝; 余豪; 段震; 陈洁; 张燕平
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2022-09-16
Anticipated expiration: 2039-08-05
Also published as: CN110427541A

Abstract

本发明提供了一种网页内容提取方法，包括以下步骤：S1：针对待提取网页所属网站的代码规则确定HTML代码中与提取内容相关的第一特征、第二特征和第三特征S2：定义索引关键词；S3：提取完整的HTML页面；S4：确定索引关键词的父级范围；S5：将匹配关键词与输入的索引关键词进行比对，计算匹配概率；S6：输出匹配概率最大的匹配关键词对应的待提取内容。本发明提供的网页内容提取方法和系统的优点在于：通过前期对网站规则的解读确定相应特征进行后期的检索和提取，提高了在不同网站进行提取的适用性，通过匹配概率选择匹配度最高的关键词，提高了准确性，便于后期的数据处理，降低数据清洗难度。

Description

一种网页内容提取方法、系统、电子设备及介质

技术领域

本发明涉及信息检索与提取技术领域，尤其涉及一种网页内容提取方法系统、电子设备及介质。

背景技术

现如今，互联网技术高速发展，互联网上的数据呈爆炸式增长。网页信息抽取(网络爬虫)旨在从互联网上参差不齐的数据中爬取所需的有用数据以供研究或使用。

大部分网站的数据内容都比较规整，可以通过分析网页中的内容，确定所需要提取内容在DOM树中的相对位置，从而提取相关的数据，但是当内容比较繁多，网站后台可以自定义数据格式的时候，网页中的信息格式并不都是统一的，会出现很多界面内容错乱，因此目前的提取技术对于解决不规整网页时会出现一定的困难，不能有效的将非结构化的数据变成结构化的数据。比如一些论文网站，里面的关键词Subjects，会有多种形式，如sbujects，subject等各种各样形式，而且相关的位置可能会在最上方或者最下方，对于常规的提取方法，里面的内容以及位置不固定，给数据提取以及提取之后的数据清洗带来了很大的困扰。

发明内容

本发明所要解决的技术问题在于针对不同的网页编码规则和字段定义规则提供一种能够适应不同规则的信息提取的方法和系统。

本发明是通过以下技术方案解决上述技术问题的：

一种网页内容提取方法，包括以下步骤：

S1：针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征；每行HTML代码对应于父级范围内的一个子范围，所述第一部分对应于网页内容中的匹配关键词，所述第二部分对应于网页内容中的待提取内容；

S2：定义索引关键词；

S3：提取待提取网页的HTML标签树判断HTML代码是否完整，如果完整，则生成完整的HTML页面，如果不完整，则将不完整的标签进行补齐并生成完整的HTML页面；

S4：基于第一特征对网页内容进行定位，确定索引关键词的父级范围；

S5：基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对，计算匹配概率；

S6：输出匹配概率最大的匹配关键词对应的待提取内容。

优选地，步骤S3中针对加载完的HTML页面，确定页面中是否存在待解析的js脚本，如果页面中没有js脚本，则直接生成完整的HTML页面；如果存在js脚本，对js脚本渲染后生成完整的HTML页面。

优选地，步骤S3中通过splash技术对js脚本进行动态渲染。

优选地，步骤S4中基于第一特征使用xpath算法对待提取内容的父级范围进行定位。

优选地，步骤S5中计算匹配概率的方法为：

将匹配关键词存储为一阶矩阵X＝[x_M]，索引关键词存储为一阶矩阵Y＝[y_N]，集合中的每个元素代表一个字母；引入M*N的二维矩阵C_M,N，令

其中，i∈[0,M],j∈[0,N]；

则匹配概率为C_i,j/N。

本发明还提供了一种网页内容提取系统，包括

特征提取模块：针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征；每行HTML代码对应于父级范围内的一个子范围，所述第一部分对应于网页内容中的匹配关键词，所述第二部分对应于网页内容中的待提取内容；

关键词定义模块：定义索引关键词；

代码提取模块：提取待网页的HTML标签树判断HTML代码是否完整，如果完整，则生成完整的HTML页面，如果不完整，则将不完整的标签进行补齐并生成完整的HTML页面；

父级定位模块：基于第一特征对网页内容进行定位，确定索引关键词的父级范围；

匹配计算模块：基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对，计算匹配概率；

内容提取模块：提取匹配概率最大的匹配关键词对应的待提取内容。

本发明还提供了一种电子处理设备，包括至少一个处理器和存储有至少一个执行程序的存储装置，当所述至少一个执行程序被所述至少一个处理器执行，所述至少一个处理器实现所述的方法。

本发明还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时能够实现所述的方法。

本发明提供的网页内容提取方法和系统的优点在于：通过前期对网站规则的解读确定相应特征进行后期的检索和提取，提高了在不同网站进行提取的适用性，通过匹配概率选择匹配度最高的关键词，提高了准确性，便于后期的数据处理，降低数据清洗难度。

附图说明

图1为本发明的实施例所提供的网页内容提取方法的流程图；

图2为本发明的实施例所提供的网页HTML页面示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

如图1所示，本实施例提供了一种网页内容提取方法，包括

参考图2，本实施例以英文文献网站arXiv.org为例进行说明，其访问地址为：https://arxiv.org，本实施例希望提取的内容为文献所属的学科，即网页中“Subjects”后面对应的内容；对其HTML代码进行分析，框4中出现了表示科目的关键词subjects，其所属的父级范围的divclass参考框1，确定为metastable，即第一特征为metastable，结合框2和框3可以确定其第二特征为tr，结合框4和框5可以确定其第三特征为td。父级范围被第二特征tr分为四个子范围，子范围被第三特征td分为第一部分和第二部分，所述第一部分对应于网页内容中的匹配关键词subjects，所述第二部分对应于网页内种中的待提取内容AstrophysicsofGalaxies(Astro-ph.GA)。

S2：定义索引关键词；由于不同的网站对学科使用的关键词不完全相同，本实施例选用subject作为索引关键词，如果需要提取其他信息可自行定义使用索引关键词。

判断HTML页面是否完整的具体方法为检测页面中是否存在未解析的js脚本，如果页面中没有js脚本，直接生成完整的HTML页面，如果存在js脚本，对js脚本渲染后生成完整的HTML页面。本实施例以现有技术中的splash渲染引擎对js脚本进行动态渲染。

S4：基于第一特征对网页内容进行定位，确定索引关键词的父级范围；本实施例以现有技术中的使用xpath算法输入所述第一特征进行父级定位。

其中，i∈[0,M],j∈[0,N]；

则匹配概率为C_i,j/N。

下面以匹配关键词为sbujects为例进行说明上述计算方法，索引关键词依然为subject，此时矩阵X＝[s,b,u,j,e,c,t,s]，矩阵Y＝[s,u,b,j,e,c,t]，M＝8,N＝7；

利用公式(1)计算矩阵C_8,7的数值得到下表；

表1：二维矩阵数据

对于矩阵C_ij，实际上不存在i＝0或j＝0，本申请为了计算方便添加了这一内容，根据公式(1)可知C_i0和C_0j均填充为0。

i＝1时，由于x₁＝y₁，故C₁₁＝C₀₀+1＝1，由于x₁≠y₂，则C₁₂＝max(C₀₂,C₁₁)＝1，经过分析可知当x_i≠y_j时，填充结果为其前方和上方数值中较大的结果，由此可确定第一行其他位置均为1。

i＝2时，由于x₂＝y₃，则C₂₃＝C₁₂+1＝2，其余位置均不相等，故C₂₁＝max(C₁₁,C₂₀)＝1，C₂₂＝max(C₂₁,C₁₂)＝1，其余位置均填充2。

i＝3时，由于x₃＝y₂，则C₃₂＝C₂₁+1＝2，其余位置均不相等，故C₃₁＝max(C₂₁,C₃₀)＝1，其余位置均填充2。

i＝4时，由于x₄＝y₄，则C₄₄＝C₃₃+1＝3，其余位置均不相等，故得到C₄₁＝1，C₄₂＝2，C₄₃＝2，C₄₅＝max(C₃₅,C₄₄)＝2，其余位置均为3.

i＝5时，由于x₅＝y₅，则C₅₅＝C₄₄+1＝4，其余位置均不相等，C₅₅之前的元素数值与各自上方的数值相同，C₅₅之后的数值与C₅₅相同，均为4。

由于x₆＝y₆，x₇＝y₇，可知C₆₆＝5，C₇₇＝6，其余位置不再详述。

当i＝8时，由于x₈＝y₁，则C₈₁＝C₇₀+1＝1，其余位置均与同列上一行数值相同，不再赘述。

最终得到C_8,7＝6，则匹配关键词sbujects的匹配概率为6/7。

S6：输出匹配概率最大的匹配关键词对应的待提取内容；具体为将匹配度最高的匹配关键词对应的HTML代码所在的子范围内的第二部分HTML代码对应的网页内容提取出来。

在上述实施例中，仅给出了基于HTML代码进行范围划分和提取的起始特征，而没有给出系统识别的终止特征，对于本领域技术人员来说，应该知晓父级范围为HTML代码中符合第一特征的divclass到与其对应的/div符号处，子范围以tr起始，并以紧随其后的/tr认为是该子范围的终点特征，第一部分和第二部分均已td起始，以/td作为终点特征。当然，本领域技术人员也可以用下一个同级别的命令符作为终止特征。

本实施例对步骤做出的编号仅用于区分各步骤，不用于限定各步骤的顺序。

本申请还提供了一种网页内容提取系统，包括

关键词定义模块：定义索引关键词；

本申请还提供了一种电子处理设备，包括至少一个处理器和存储有至少一个执行程序的存储装置，当所述至少一个执行程序被所述至少一个处理器执行，使得所述至少一个处理器实现以下方法：

S2：定义索引关键词；

S6：输出匹配概率最大的匹配关键词对应的待提取内容。

本申请还提供了了一种计算机可读存储介质，内存储有计算机程序，当所述算计程序被处理器执行时，能够实现以下方法：

S2：定义索引关键词；

S6：输出匹配概率最大的匹配关键词对应的待提取内容。

Claims

1.一种网页内容提取方法，其特征在于：包括以下步骤：

S2：定义索引关键词；

S5：基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对，计算匹配概率；方法为：

其中，i∈[0,M],j∈[0,N]；

则匹配概率为C_i,j/N；

S6：输出匹配概率最大的匹配关键词对应的待提取内容。

2.根据权利要求1所述的一种网页内容提取方法，其特征在于：步骤S3中针对加载完的HTML页面，确定页面中是否存在待解析的js脚本，如果页面中没有js脚本，则直接生成完整的HTML页面；如果存在js脚本，对js脚本渲染后生成完整的HTML页面。

3.根据权利要求2所述的一种网页内容提取方法，其特征在于：步骤S3中通过splash技术对js脚本进行动态渲染。

4.根据权利要求1所述的一种网页内容提取方法，其特征在于：步骤S4中基于第一特征使用xpath算法对待提取内容的父级范围进行定位。

5.一种网页内容提取系统，其特征在于：包括

关键词定义模块：定义索引关键词；

匹配计算模块：基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对，计算匹配概率；方法为：

其中，i∈[0,M],j∈[0,N]；

则匹配概率为C_i,j/N；

6.一种电子处理设备，其特征在于：包括至少一个处理器和存储有至少一个执行程序的存储装置，当所述至少一个执行程序被所述至少一个处理器执行，所述至少一个处理器实现如权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，存储有计算机程序，其特征在于：所述计算机程序被处理器执行时能够实现如权利要求1-4任一项所述的方法。