CN108829898B

CN108829898B - Html内容页发布时间提取方法和系统

Info

Publication number: CN108829898B
Application number: CN201810719405.9A
Authority: CN
Inventors: 夏静; 吴东野; 郑叶平; 冯大辉
Original assignee: Nocode Tech Co ltd
Current assignee: Nocode Tech Co ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-11-20
Anticipated expiration: 2038-06-29
Also published as: CN108829898A

Abstract

本发明提供了一种HTML内容页发布时间提取方法和系统，其中，方法包括以下步骤：解析HTML，获取日期形式的文本所在的HTML片段；根据人工标注的日期确认和选取正样本、负样本，并根据正样本、负样本自动生成标签库；将标签库中的样本进行向量转换，生成特征表示；通过特征表示训练SVM模型；将待预测HTML的特征表示送入训练好的SVM模型进行预测，若预测值为正，则判断该特征表示为该待预测HTML的发布时间。本发明可以从HTML自动生成标签库，从而摆脱传统算法中对自然语言，排版规则，前端编程语言的依赖，并且模型的训练和维护成本非常低。

Description

HTML内容页发布时间提取方法和系统

技术领域

本发明涉及计算机互联网技术领域，特别涉及一种HTML内容页发布时间提取方法和系统。

背景技术

HTML网页既包含编程语言(如CSS、JavaScript)，又包括自然语言如中文，英文，法语等。此外HTML网页的格式也并非像自然语言一样，有约定俗成的分段分句。不同的网页类型、时代、国家、风格的工程师在网页编写上有不同的风格。这些网页一般来自于网络爬虫，针对这些爬来的数据，如果不加解析/抽取，直接交给数据挖掘工程师或者人类读者，他们是无法处理的，因为噪声太大，有价值的信息太分散。

网页内容抽取(Web Data Extraction)一般包括标题，正文，作者，发布时间。鉴于发布时间的重要性，以及现有算法在发布时间提取上的不足，本项目的关注点在网页发布时间。目前的内容抽取方案主要有三类：1)基于浅层文本特征(Shallow Text Features)的内容抽取，如文本部分是否包含标点符号、停顿词、文本标签比(Text Tag Ratio)或文本密度(Text Density)等；2)基于HTML里节点关系的提取，如两个节点之间的路径长短，某个结点包含多少子节点和子节点特征；3)基于文本、结点特征的机器学习模型，如随机森林，决策树，神经网络。

这些算法使用的一些特征(如text density、text tag ratio等)，跟发布时间并不总是有很强的相关性。开放域测试结果显示此类算法常常取不出时间信息或者提取出错误时间信息，并且算法的维护成本较高。

发明内容

本发明的目的是提供一种HTML内容页发布时间提取方法和系统，解决现有上述的问题。

为解决上述问题，本发明实施例提供一种HTML内容页发布时间提取方法，包括以下步骤：

解析HTML，获取日期形式的文本所在的HTML片段；

根据人工标注的日期确认和选取正样本、负样本，并根据正样本、负样本自动生成标签库；

将标签库中的样本进行向量转换，生成特征表示；

通过特征表示训练SVM模型；

将待预测HTML的特征表示送入训练好的SVM模型进行预测，若预测值为正，则判断该特征表示为该待预测HTML的发布时间。

作为一种实施方式，所述获取日期形式的文本所在的HTML片段步骤，包括以下步骤：

在找到日期形式的文本后，向上取包括本节点在内的四级父节点。

作为一种实施方式，所述根据人工标注的日期确认和选取正样本、负样本，并根据正样本、负样本自动生成标签库步骤，包括以下步骤：

在获取日期形式的文本及其相关HTML片段后，对日期形式的文本进行正负判定，并对相关HTML片段提取标签名和标签属性；

根据判断结果确认正样本和负样本，正样本和负样本均包括原始日期、判定值、标签名以及标签属性；

将HTML转换为若干正样本和负样本，所有正样本和负样本生成该HTML的标签库。

作为一种实施方式，所述将标签库中的样本进行向量转换，生成特征表示步骤，包括以下步骤：

分别对标签库中标签名和标签属性进行频率统计，提取出现次数最高的相同或不同数量的标签名和标签属性；

将提取后的标签名和标签属性分别放入标签库的两个不同文件中；

同时，对日期形式的文本的原始字符串进行统计；

结合相同或不同数量的标签名、标签属性以及原始字符串，获得若干特征表示。

作为一种实施方式，所述通过特征表示训练SVM模型步骤，包括以下步骤：

通过求解使

成立，且

最大时的

和b的值，使正负样本距离最大，进而得到SVM模型的相关参数，其中，y_i为样本类型，y_i＝1表示为正样本，y_i＝-1表示为负样本，

表示为权重，

表示为自变量，b表示为偏差。

作为一种实施方式，通过构建拉格朗日方程将最优化方程转换成线性方程，拉格朗日方程：

其中，a_i表示为拉格朗日因子。

作为一种实施方式，通过RBF核函数将方程中自变量透射到高维空间中，RBF核函数：

其中，σ表示为自由参数。

本发明还提供一种HTML内容页发布时间提取系统，包括

获取单元，用于解析HTML，获取日期形式的文本所在的HTML片段；

样本单元，用于根据人工标注的日期确认和选取正样本、负样本，并根据正样本、负样本自动生成标签库；

转换单元，用于将标签库中的样本进行向量转换，生成特征表示；

训练单元，用于通过特征表示训练SVM模型；

预测单元，用于将待预测HTML的特征表示送入训练好的SVM模型进行预测，若预测值为正，则判断该特征表示为该待预测HTML的发布时间。

作为一种实施方式，所述样本单元还包括用于在获取日期形式的文本及其相关HTML片段后，对日期形式的文本进行正负判定，并对相关HTML片段提取标签名和标签属性；

作为一种实施方式，所述转换单元还用于分别对标签库中标签名和标签属性进行频率统计，提取出现次数最高的相同或不同数量的标签名和标签属性；

同时，对日期形式的文本的原始字符串进行统计；

本发明相比于现有技术的有益效果在于：可以从HTML自动生成标签库(TagGlossary)，从而摆脱传统算法中对自然语言、排版规则以及前端编程语言的依赖，并且模型的训练和维护成本非常低；以日期形式文本为特征，较好的解决了HTML中自然语言和前端编程语言的粘合在一起的问题；根据HTML网页上的TAG的分布规律自动生成比较好的上下文特征。

附图说明

图1为本发明的HTML内容页发布时间提取方法的流程图；

图2为本发明的HTML内容页发布时间提取系统的模块连接图。

附图标注：1、获取单元；2、样本单元；3、转换单元；4、训练单元；5、预测单元。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的部分实施例，而不是全部实施例。

如图1所示，一种HTML内容页发布时间提取方法，主要包括以下步骤：

S100：解析HTML，获取日期形式的文本所在的HTML片段；

S200：根据人工标注的日期确认和选取正样本、负样本，并根据正样本、负样本自动生成标签库；

S300：将标签库中的样本进行向量转换，生成特征表示；

S400：通过特征表示训练SVM模型；

S500：将待预测HTML的特征表示送入训练好的SVM模型进行预测，若预测值为正，则判断该特征表示为该待预测HTML的发布时间。

其中，步骤S100、S200以及S300为预处理部分，实现从单个HTML到特征表示的转换。

步骤S100主要包括以下内容：

(1)：从url获取某个HTML；

(2)：对获取的HTML进行解析，拿到解析过的tag名称、tag属性以及不同tag之间的上下级关系；

(3)：构建日期类查找函数，将所有的源语言日期表述替换为分隔符，并对日期形式进行正则匹配；

(4)：通过日期查找函数定位HTML中所有包含日期形式的文本；

(5)：通过这些日期文本，获取包含该日期文本的“相关HTML片段”

在找到日期形式的文本后，向上取了包括本节点在内的四级父节点，即父节点的父节点的父节点的父节点。如果只取日期文本所在的HTML片段，只有一级，信息量太少，不适合做特征，因此，选择四级。

步骤S200主要包括以下内容：

(1)：在获取日期形式的文本及其相关HTML片段后，对日期形式的文本进行正负判定，并对相关HTML片段提取标签名和标签属性；

(2)：根据判断结果确认正样本和负样本，正样本和负样本均包括原始日期、判定值、标签名以及标签属性；

(3)：将HTML转换为若干正样本和负样本，所有正样本和负样本生成该HTML的标签库。

其中，日期形式的文本的正负判定过程如下：把包含日期及其他信息的字符串转换为标准格式，如UTC。将这个值和人工标注的值进行比较，如果与人工标注日期基本一致，则认为该日期即正确时间(ground truth)，它的label值假设为“1”。否则，认为该文本时间是错误时间，label值设为“0”。

提取标签名和标签属性的总原则是保留最多的可识别日期的标识性信息，剔除具体的会随着网页改变而改变的干扰信息。如具体的url网址，则会被替换掉。常见的情况还包括以下几种：如果标签属性是最小单位字符串，直接提取；如果是文本是列表，遍历，提取字符串；如果是文本链接，舍去链接，但链接计数器递增；如果日期直接标签属性内含含有更小的标签，处理到最小的标签为止。剔除干扰信息后，再做一些简单的去重，去空格符，转义符等，得到比较整齐及无重复的标签名以及标签属性。

至此，对于每一个日期类型的文本(包括正样本和负样本)，有四类数据：包含原始日期的字符串、判断值(即正确时间与否，label)、与之相关的标签名(tag names)以及与之相关的标签属性(tag attributes)。

因为每篇html中的日期有多个，但正确的只有一个，这里需要做一个样本平衡处理，以保证最终的标签库里正样本和负样本具有代表性且数量基本一致。将同一页面中的正样本和负样本转换后，则自动生成包含该页面所有正样本和负样本的标签库。

步骤S300主要包括以下内容：

(1)：分别对标签库中标签名(tag names)和标签属性(tag attributes)进行频率统计，提取出现次数最高的相同或不同数量的标签名和标签属性；

(2)：将提取后的标签名和标签属性分别放入标签库(Tag Glossary)的两个不同文件中；

(3)：同时，对日期形式的文本的原始字符串进行统计；

(4)：结合相同或不同数量的标签名、标签属性以及原始字符串，获得若干特征表示。

具体的，通过观察频率分布，假设取出现次数最高的m个tag names和n个tagattributes，同时，假设在z个特征上对日期形式的文本的原始字符串进行统计，即可得到z个维度，这三方面的特征形成Tag Glossary列表。再通过这个m+n+z维的向量对每一条日期样本进行向量化处理，这样得到若干个用于SVM模型训练的特征表示。

SVM模型要解决的问题是分类问题，希望可以最大程度的区分两类数据，也称为widest margin problem.SVM模型优化方程如下：

其中，

表示为权重，

表示为自变量，b表示为偏差，y_i表示为样本类型，y_i＝1表示正样本，y_i＝-1表示负样本。通过简单几何转换，可得到这两类样本之间的最大距离为

求解此时的

和b的值。

SVM模型的任务就是求解上述方程，并使得正样本和负样本的距离最远(widestmargin problem)。但是，SVM模型的本质是带有限制条件的最优化方程(constrainedoptimization problem)。

拉格朗日函数可解决带有限制条件的优化问题。上述方程可以构建出这样的拉格朗日方程：

其中，

表示为权重，

表示为自变量，b表示为偏差，y_i表示为样本类型，y_i＝1表示该样本为正，y_i＝-1表示该样本为负，a_i是拉格朗日因子；

该方程经过优化后变成：

其中，

表示为权重，

表示为自变量，y_iy_j表示为样本类型,a_ia_j表示为拉格朗日因子。

从优化后的方程可以看出L是线性方程，但样本中可能出现线性不可分的情况，因此，通过引入了核函数，将自变量x投射到高维空间里。在实施例中，核函数用的是RBF(Radical Basis Function)：

其中，σ表示为自由参数。

这里可以看到当σ足够小，会导致L的解拟合过度，也就是过拟合。因此，在调试模型的时候做了惩罚处理。

在步骤S500中，针对新网页，同样通过步骤S100-S400得到所有日期变量相关的特征表示，假设有k个日期待预测，先将其转换为与之对应的k个待预测HTML的特征，将这k个特征表示送入训练好的SVM模型进行预测。若某个特征表示的预测值为正，则判断该特征表示为该待预测HTML的发布时间。

如图2所示，本发明还提供一种HTML内容页发布时间提取系统，包括获取单元1、样本单元2、转换单元3、训练单元4以及预测单元5，其中，获取单元1、样本单元2以及转换单元3为预处理部分的结构。获取单元1用于解析HTML，获取日期形式的文本所在的HTML片段；样本单元2用于根据人工标注的日期确认和选取正样本、负样本，并根据正样本、负样本自动生成标签库；转换单元3用于将标签库中的样本进行向量转换，生成特征表示；训练单元4用于通过特征表示训练SVM模型；预测单元5用于将待预测HTML的特征表示送入训练好的SVM模型进行预测，若预测值为正，则判断该特征表示为该待预测HTML的发布时间。

除上述作用外，获取单元1还用于在找到日期形式的文本后，向上取包括本节点在内的四级父节点。

样本单元2还用于在获取日期形式的文本及其相关HTML片段后，对日期形式的文本进行正负判定，并对相关HTML片段提取标签名和标签属性；根据判断结果确认正样本和负样本，正样本和负样本均包括原始日期、判定值、标签名以及标签属性；将HTML转换为若干正样本和负样本，所有正样本和负样本生成该HTML的标签库。

转换单元3还用于分别对标签库中标签名和标签属性进行频率统计，提取出现次数最高的相同或不同数量的标签名和标签属性；将提取后的标签名和标签属性分别放入标签库的两个不同文件中；同时，对日期形式的文本的原始字符串进行统计；结合相同或不同数量的标签名、标签属性以及原始字符串，获得若干特征表示。

本发明所提供的方法可以从HTML自动生成标签库(Tag Glossary)，从而摆脱传统算法中对自然语言、排版规则以及前端编程语言的依赖，并且模型的训练和维护成本非常低；以日期形式文本为特征，较好的解决了HTML中自然语言和前端编程语言的粘合在一起的问题；根据HTML网页上的TAG的分布规律自动生成比较好的上下文特征；SVM模型中的核函数保证了正样本和负样本的最大可分，跟上述特征结合在一起，比较快捷准确的实现了正确日期和错误日期的区分，从而保证了对目标字段的高效提取；不仅可用于提取时间字段，对HTML网页上其它字段(如标题、作者等)同样快速准确识别。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。