CN108829898B - Html内容页发布时间提取方法和系统 - Google Patents
Html内容页发布时间提取方法和系统 Download PDFInfo
- Publication number
- CN108829898B CN108829898B CN201810719405.9A CN201810719405A CN108829898B CN 108829898 B CN108829898 B CN 108829898B CN 201810719405 A CN201810719405 A CN 201810719405A CN 108829898 B CN108829898 B CN 108829898B
- Authority
- CN
- China
- Prior art keywords
- html
- tag
- positive
- sample
- date
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种HTML内容页发布时间提取方法和系统,其中,方法包括以下步骤:解析HTML,获取日期形式的文本所在的HTML片段;根据人工标注的日期确认和选取正样本、负样本,并根据正样本、负样本自动生成标签库;将标签库中的样本进行向量转换,生成特征表示;通过特征表示训练SVM模型;将待预测HTML的特征表示送入训练好的SVM模型进行预测,若预测值为正,则判断该特征表示为该待预测HTML的发布时间。本发明可以从HTML自动生成标签库,从而摆脱传统算法中对自然语言,排版规则,前端编程语言的依赖,并且模型的训练和维护成本非常低。
Description
技术领域
本发明涉及计算机互联网技术领域,特别涉及一种HTML内容页发布时间提取方法和系统。
背景技术
HTML网页既包含编程语言(如CSS、JavaScript),又包括自然语言如中文,英文,法语等。此外HTML网页的格式也并非像自然语言一样,有约定俗成的分段分句。不同的网页类型、时代、国家、风格的工程师在网页编写上有不同的风格。这些网页一般来自于网络爬虫,针对这些爬来的数据,如果不加解析/抽取,直接交给数据挖掘工程师或者人类读者,他们是无法处理的,因为噪声太大,有价值的信息太分散。
网页内容抽取(Web Data Extraction)一般包括标题,正文,作者,发布时间。鉴于发布时间的重要性,以及现有算法在发布时间提取上的不足,本项目的关注点在网页发布时间。目前的内容抽取方案主要有三类:1)基于浅层文本特征(Shallow Text Features)的内容抽取,如文本部分是否包含标点符号、停顿词、文本标签比(Text Tag Ratio)或文本密度(Text Density)等;2)基于HTML里节点关系的提取,如两个节点之间的路径长短,某个结点包含多少子节点和子节点特征;3)基于文本、结点特征的机器学习模型,如随机森林,决策树,神经网络。
这些算法使用的一些特征(如text density、text tag ratio等),跟发布时间并不总是有很强的相关性。开放域测试结果显示此类算法常常取不出时间信息或者提取出错误时间信息,并且算法的维护成本较高。
发明内容
本发明的目的是提供一种HTML内容页发布时间提取方法和系统,解决现有上述的问题。
为解决上述问题,本发明实施例提供一种HTML内容页发布时间提取方法,包括以下步骤:
解析HTML,获取日期形式的文本所在的HTML片段;
根据人工标注的日期确认和选取正样本、负样本,并根据正样本、负样本自动生成标签库;
将标签库中的样本进行向量转换,生成特征表示;
通过特征表示训练SVM模型;
将待预测HTML的特征表示送入训练好的SVM模型进行预测,若预测值为正,则判断该特征表示为该待预测HTML的发布时间。
作为一种实施方式,所述获取日期形式的文本所在的HTML片段步骤,包括以下步骤:
在找到日期形式的文本后,向上取包括本节点在内的四级父节点。
作为一种实施方式,所述根据人工标注的日期确认和选取正样本、负样本,并根据正样本、负样本自动生成标签库步骤,包括以下步骤:
在获取日期形式的文本及其相关HTML片段后,对日期形式的文本进行正负判定,并对相关HTML片段提取标签名和标签属性;
根据判断结果确认正样本和负样本,正样本和负样本均包括原始日期、判定值、标签名以及标签属性;
将HTML转换为若干正样本和负样本,所有正样本和负样本生成该HTML的标签库。
作为一种实施方式,所述将标签库中的样本进行向量转换,生成特征表示步骤,包括以下步骤:
分别对标签库中标签名和标签属性进行频率统计,提取出现次数最高的相同或不同数量的标签名和标签属性;
将提取后的标签名和标签属性分别放入标签库的两个不同文件中;
同时,对日期形式的文本的原始字符串进行统计;
结合相同或不同数量的标签名、标签属性以及原始字符串,获得若干特征表示。
作为一种实施方式,所述通过特征表示训练SVM模型步骤,包括以下步骤:
作为一种实施方式,通过RBF核函数将方程中自变量透射到高维空间中,RBF核函数:
本发明还提供一种HTML内容页发布时间提取系统,包括
获取单元,用于解析HTML,获取日期形式的文本所在的HTML片段;
样本单元,用于根据人工标注的日期确认和选取正样本、负样本,并根据正样本、负样本自动生成标签库;
转换单元,用于将标签库中的样本进行向量转换,生成特征表示;
训练单元,用于通过特征表示训练SVM模型;
预测单元,用于将待预测HTML的特征表示送入训练好的SVM模型进行预测,若预测值为正,则判断该特征表示为该待预测HTML的发布时间。
作为一种实施方式,所述样本单元还包括用于在获取日期形式的文本及其相关HTML片段后,对日期形式的文本进行正负判定,并对相关HTML片段提取标签名和标签属性;
根据判断结果确认正样本和负样本,正样本和负样本均包括原始日期、判定值、标签名以及标签属性;
将HTML转换为若干正样本和负样本,所有正样本和负样本生成该HTML的标签库。
作为一种实施方式,所述转换单元还用于分别对标签库中标签名和标签属性进行频率统计,提取出现次数最高的相同或不同数量的标签名和标签属性;
将提取后的标签名和标签属性分别放入标签库的两个不同文件中;
同时,对日期形式的文本的原始字符串进行统计;
结合相同或不同数量的标签名、标签属性以及原始字符串,获得若干特征表示。
本发明相比于现有技术的有益效果在于:可以从HTML自动生成标签库(TagGlossary),从而摆脱传统算法中对自然语言、排版规则以及前端编程语言的依赖,并且模型的训练和维护成本非常低;以日期形式文本为特征,较好的解决了HTML中自然语言和前端编程语言的粘合在一起的问题;根据HTML网页上的TAG的分布规律自动生成比较好的上下文特征。
附图说明
图1为本发明的HTML内容页发布时间提取方法的流程图;
图2为本发明的HTML内容页发布时间提取系统的模块连接图。
附图标注:1、获取单元;2、样本单元;3、转换单元;4、训练单元;5、预测单元。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的部分实施例,而不是全部实施例。
如图1所示,一种HTML内容页发布时间提取方法,主要包括以下步骤:
S100:解析HTML,获取日期形式的文本所在的HTML片段;
S200:根据人工标注的日期确认和选取正样本、负样本,并根据正样本、负样本自动生成标签库;
S300:将标签库中的样本进行向量转换,生成特征表示;
S400:通过特征表示训练SVM模型;
S500:将待预测HTML的特征表示送入训练好的SVM模型进行预测,若预测值为正,则判断该特征表示为该待预测HTML的发布时间。
其中,步骤S100、S200以及S300为预处理部分,实现从单个HTML到特征表示的转换。
步骤S100主要包括以下内容:
(1):从url获取某个HTML;
(2):对获取的HTML进行解析,拿到解析过的tag名称、tag属性以及不同tag之间的上下级关系;
(3):构建日期类查找函数,将所有的源语言日期表述替换为分隔符,并对日期形式进行正则匹配;
(4):通过日期查找函数定位HTML中所有包含日期形式的文本;
(5):通过这些日期文本,获取包含该日期文本的“相关HTML片段”
在找到日期形式的文本后,向上取了包括本节点在内的四级父节点,即父节点的父节点的父节点的父节点。如果只取日期文本所在的HTML片段,只有一级,信息量太少,不适合做特征,因此,选择四级。
步骤S200主要包括以下内容:
(1):在获取日期形式的文本及其相关HTML片段后,对日期形式的文本进行正负判定,并对相关HTML片段提取标签名和标签属性;
(2):根据判断结果确认正样本和负样本,正样本和负样本均包括原始日期、判定值、标签名以及标签属性;
(3):将HTML转换为若干正样本和负样本,所有正样本和负样本生成该HTML的标签库。
其中,日期形式的文本的正负判定过程如下:把包含日期及其他信息的字符串转换为标准格式,如UTC。将这个值和人工标注的值进行比较,如果与人工标注日期基本一致,则认为该日期即正确时间(ground truth),它的label值假设为“1”。否则,认为该文本时间是错误时间,label值设为“0”。
提取标签名和标签属性的总原则是保留最多的可识别日期的标识性信息,剔除具体的会随着网页改变而改变的干扰信息。如具体的url网址,则会被替换掉。常见的情况还包括以下几种:如果标签属性是最小单位字符串,直接提取;如果是文本是列表,遍历,提取字符串;如果是文本链接,舍去链接,但链接计数器递增;如果日期直接标签属性内含含有更小的标签,处理到最小的标签为止。剔除干扰信息后,再做一些简单的去重,去空格符,转义符等,得到比较整齐及无重复的标签名以及标签属性。
至此,对于每一个日期类型的文本(包括正样本和负样本),有四类数据:包含原始日期的字符串、判断值(即正确时间与否,label)、与之相关的标签名(tag names)以及与之相关的标签属性(tag attributes)。
因为每篇html中的日期有多个,但正确的只有一个,这里需要做一个样本平衡处理,以保证最终的标签库里正样本和负样本具有代表性且数量基本一致。将同一页面中的正样本和负样本转换后,则自动生成包含该页面所有正样本和负样本的标签库。
步骤S300主要包括以下内容:
(1):分别对标签库中标签名(tag names)和标签属性(tag attributes)进行频率统计,提取出现次数最高的相同或不同数量的标签名和标签属性;
(2):将提取后的标签名和标签属性分别放入标签库(Tag Glossary)的两个不同文件中;
(3):同时,对日期形式的文本的原始字符串进行统计;
(4):结合相同或不同数量的标签名、标签属性以及原始字符串,获得若干特征表示。
具体的,通过观察频率分布,假设取出现次数最高的m个tag names和n个tagattributes,同时,假设在z个特征上对日期形式的文本的原始字符串进行统计,即可得到z个维度,这三方面的特征形成Tag Glossary列表。再通过这个m+n+z维的向量对每一条日期样本进行向量化处理,这样得到若干个用于SVM模型训练的特征表示。
SVM模型要解决的问题是分类问题,希望可以最大程度的区分两类数据,也称为widest margin problem.SVM模型优化方程如下:
SVM模型的任务就是求解上述方程,并使得正样本和负样本的距离最远(widestmargin problem)。但是,SVM模型的本质是带有限制条件的最优化方程(constrainedoptimization problem)。
拉格朗日函数可解决带有限制条件的优化问题。上述方程可以构建出这样的拉格朗日方程:
该方程经过优化后变成:
从优化后的方程可以看出L是线性方程,但样本中可能出现线性不可分的情况,因此,通过引入了核函数,将自变量x投射到高维空间里。在实施例中,核函数用的是RBF(Radical Basis Function):
这里可以看到当σ足够小,会导致L的解拟合过度,也就是过拟合。因此,在调试模型的时候做了惩罚处理。
在步骤S500中,针对新网页,同样通过步骤S100-S400得到所有日期变量相关的特征表示,假设有k个日期待预测,先将其转换为与之对应的k个待预测HTML的特征,将这k个特征表示送入训练好的SVM模型进行预测。若某个特征表示的预测值为正,则判断该特征表示为该待预测HTML的发布时间。
如图2所示,本发明还提供一种HTML内容页发布时间提取系统,包括获取单元1、样本单元2、转换单元3、训练单元4以及预测单元5,其中,获取单元1、样本单元2以及转换单元3为预处理部分的结构。获取单元1用于解析HTML,获取日期形式的文本所在的HTML片段;样本单元2用于根据人工标注的日期确认和选取正样本、负样本,并根据正样本、负样本自动生成标签库;转换单元3用于将标签库中的样本进行向量转换,生成特征表示;训练单元4用于通过特征表示训练SVM模型;预测单元5用于将待预测HTML的特征表示送入训练好的SVM模型进行预测,若预测值为正,则判断该特征表示为该待预测HTML的发布时间。
除上述作用外,获取单元1还用于在找到日期形式的文本后,向上取包括本节点在内的四级父节点。
样本单元2还用于在获取日期形式的文本及其相关HTML片段后,对日期形式的文本进行正负判定,并对相关HTML片段提取标签名和标签属性;根据判断结果确认正样本和负样本,正样本和负样本均包括原始日期、判定值、标签名以及标签属性;将HTML转换为若干正样本和负样本,所有正样本和负样本生成该HTML的标签库。
转换单元3还用于分别对标签库中标签名和标签属性进行频率统计,提取出现次数最高的相同或不同数量的标签名和标签属性;将提取后的标签名和标签属性分别放入标签库的两个不同文件中;同时,对日期形式的文本的原始字符串进行统计;结合相同或不同数量的标签名、标签属性以及原始字符串,获得若干特征表示。
本发明所提供的方法可以从HTML自动生成标签库(Tag Glossary),从而摆脱传统算法中对自然语言、排版规则以及前端编程语言的依赖,并且模型的训练和维护成本非常低;以日期形式文本为特征,较好的解决了HTML中自然语言和前端编程语言的粘合在一起的问题;根据HTML网页上的TAG的分布规律自动生成比较好的上下文特征;SVM模型中的核函数保证了正样本和负样本的最大可分,跟上述特征结合在一起,比较快捷准确的实现了正确日期和错误日期的区分,从而保证了对目标字段的高效提取;不仅可用于提取时间字段,对HTML网页上其它字段(如标题、作者等)同样快速准确识别。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种HTML内容页发布时间提取方法,其特征在于,包括以下步骤:
解析HTML,获取日期形式的文本所在的HTML片段;
根据人工标注的日期确认和选取正样本、负样本,并根据正样本、负样本自动生成标签库;
将标签库中的样本进行向量转换,生成特征表示;
通过特征表示训练SVM模型;
将待预测HTML的特征表示送入训练好的SVM模型进行预测,若预测值为正,则判断该特征表示为该待预测HTML的发布时间;
其中,所述根据人工标注的日期确认和选取正样本、负样本,并根据正样本、负样本自动生成标签库步骤,包括以下步骤:
在获取日期形式的文本及其相关HTML片段后,对日期形式的文本进行正负判定,并对相关HTML片段提取标签名和标签属性;
根据判断结果确认正样本和负样本,正样本和负样本均包括原始日期、判定值、标签名以及标签属性;
将HTML转换为若干正样本和负样本,所有正样本和负样本生成该HTML的标签库;
所述将标签库中的样本进行向量转换,生成特征表示步骤,包括以下步骤:
分别对标签库中标签名和标签属性进行频率统计,提取出现次数最高的相同或不同数量的标签名和标签属性;
将提取后的标签名和标签属性分别放入标签库的两个不同文件中;
同时,对日期形式的文本的原始字符串进行统计;
结合相同或不同数量的标签名、标签属性以及原始字符串,获得若干特征表示。
2.根据权利要求1所述的HTML内容页发布时间提取方法,其特征在于,所述获取日期形式的文本所在的HTML片段步骤,包括以下步骤:
在找到日期形式的文本后,向上取包括本节点在内的四级父节点。
6.一种HTML内容页发布时间提取系统,其特征在于,包括
获取单元,用于解析HTML,获取日期形式的文本所在的HTML片段;
样本单元,用于根据人工标注的日期确认和选取正样本、负样本,并根据正样本、负样本自动生成标签库;
转换单元,用于将标签库中的样本进行向量转换,生成特征表示;
训练单元,用于通过特征表示训练SVM模型;
预测单元,用于将待预测HTML的特征表示送入训练好的SVM模型进行预测,若预测值为正,则判断该特征表示为该待预测HTML的发布时间;
其中,所述获取单元还用于
在获取日期形式的文本及其相关HTML片段后,对日期形式的文本进行正负判定,并对相关HTML片段提取标签名和标签属性;
根据判断结果确认正样本和负样本,正样本和负样本均包括原始日期、判定值、标签名以及标签属性;
将HTML转换为若干正样本和负样本,所有正样本和负样本生成该HTML的标签库;
所述转换单元,还用于分别对标签库中标签名和标签属性进行频率统计,提取出现次数最高的相同或不同数量的标签名和标签属性;
将提取后的标签名和标签属性分别放入标签库的两个不同文件中;
同时,对日期形式的文本的原始字符串进行统计;
结合相同或不同数量的标签名、标签属性以及原始字符串,获得若干特征表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810719405.9A CN108829898B (zh) | 2018-06-29 | 2018-06-29 | Html内容页发布时间提取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810719405.9A CN108829898B (zh) | 2018-06-29 | 2018-06-29 | Html内容页发布时间提取方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108829898A CN108829898A (zh) | 2018-11-16 |
CN108829898B true CN108829898B (zh) | 2020-11-20 |
Family
ID=64135295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810719405.9A Active CN108829898B (zh) | 2018-06-29 | 2018-06-29 | Html内容页发布时间提取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108829898B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885667A (zh) * | 2019-01-24 | 2019-06-14 | 平安科技(深圳)有限公司 | 文本生成方法、装置、计算机设备及介质 |
CN110119484B (zh) * | 2019-03-27 | 2021-04-06 | 湖南星汉数智科技有限公司 | 网页发布时间抽取方法、装置、计算机装置及计算机可读存储介质 |
CN114547497A (zh) * | 2022-02-24 | 2022-05-27 | 马上消费金融股份有限公司 | 网页发布时间的确定方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218420A (zh) * | 2013-04-01 | 2013-07-24 | 北京鹏宇成软件技术有限公司 | 一种网页标题提取方法及装置 |
CN103544210A (zh) * | 2013-09-02 | 2014-01-29 | 烟台中科网络技术研究所 | 一种识别网页类型的系统和方法 |
CN103605794A (zh) * | 2013-12-05 | 2014-02-26 | 国家计算机网络与信息安全管理中心 | 一种网站分类方法 |
CN105912633A (zh) * | 2016-04-11 | 2016-08-31 | 上海大学 | 面向稀疏样本的聚焦式Web信息抽取系统及方法 |
CN107315797A (zh) * | 2017-06-19 | 2017-11-03 | 江西洪都航空工业集团有限责任公司 | 一种网络新闻获取及文本情感预测系统 |
-
2018
- 2018-06-29 CN CN201810719405.9A patent/CN108829898B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218420A (zh) * | 2013-04-01 | 2013-07-24 | 北京鹏宇成软件技术有限公司 | 一种网页标题提取方法及装置 |
CN103544210A (zh) * | 2013-09-02 | 2014-01-29 | 烟台中科网络技术研究所 | 一种识别网页类型的系统和方法 |
CN103605794A (zh) * | 2013-12-05 | 2014-02-26 | 国家计算机网络与信息安全管理中心 | 一种网站分类方法 |
CN105912633A (zh) * | 2016-04-11 | 2016-08-31 | 上海大学 | 面向稀疏样本的聚焦式Web信息抽取系统及方法 |
CN107315797A (zh) * | 2017-06-19 | 2017-11-03 | 江西洪都航空工业集团有限责任公司 | 一种网络新闻获取及文本情感预测系统 |
Non-Patent Citations (2)
Title |
---|
Web Page Publication Date Extraction and Application;Zhuming Chen 等;《Journal of Computational Information Systems》;20101231;第3章,图2 * |
Web Page Publication Time Detection and Its Application for Page Rank;Zhumin Chen 等;《Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval》;20101231;第1-2页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108829898A (zh) | 2018-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11734328B2 (en) | Artificial intelligence based corpus enrichment for knowledge population and query response | |
EP3920044A1 (en) | Data-driven structure extraction from text documents | |
CN107943911A (zh) | 数据抽取方法、装置、计算机设备及可读存储介质 | |
Stein et al. | Intrinsic plagiarism analysis | |
US9645988B1 (en) | System and method for identifying passages in electronic documents | |
Yuan-jie et al. | Web service classification based on automatic semantic annotation and ensemble learning | |
CN108829898B (zh) | Html内容页发布时间提取方法和系统 | |
Kaur | Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study | |
CN114817576B (zh) | 模型训练及专利知识图谱补全方法、装置及存储介质 | |
US11003950B2 (en) | System and method to identify entity of data | |
US20230028664A1 (en) | System and method for automatically tagging documents | |
Zhu et al. | Relation classification via target-concentrated attention cnns | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
Diana et al. | Measuring performance of n-gram and Jaccard-similarity metrics in document plagiarism application | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
Šimsa et al. | Docile 2023 teaser: document information localization and extraction | |
Barteld et al. | Token-based spelling variant detection in Middle Low German texts | |
CN112667819A (zh) | 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置 | |
Haase et al. | Taxy. io@ FinTOC-2020: Multilingual Document Structure Extraction using Transfer Learning | |
Zim et al. | Exploring word2vec embedding for sentiment analysis of bangla raw and romanized text | |
Pertsas et al. | Ontology-driven information extraction from research publications | |
Chikkamath et al. | Patent sentiment analysis to highlight patent paragraphs | |
Vitman et al. | Evaluating the Impact of OCR Quality on Short Texts Classification Task | |
Yuan et al. | Big Data Aspect‐Based Opinion Mining Using the SLDA and HME‐LDA Models | |
CN113191160A (zh) | 一种知识感知的情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 1208, No. 371 Xingxing Road, Xiaoshan Economic and Technological Development Zone, Hangzhou City, Zhejiang Province Applicant after: NOCODE TECH. Co.,Ltd. Address before: 310000 345, room 2, 1197 Binan Road, Binjiang District, Hangzhou, Zhejiang. Applicant before: NOCODE TECH. Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |