CN116484831A

CN116484831A - 一种基于多维度的发布时间识别方法及装置

Info

Publication number: CN116484831A
Application number: CN202310151315.5A
Authority: CN
Inventors: 田振
Original assignee: Beijing Maxtech Co ltd
Current assignee: Beijing Maxtech Co ltd
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-07-25
Anticipated expiration: 2043-02-22
Also published as: CN116484831B

Abstract

本申请公开了一种基于多维度的发布时间识别方法及装置，通过获取文章页面，对文章页面进行DOM树构建，并获取文章页面中所有的时间标签得到时间标签集合，将时间标签集合中的所有时间转化为标准时间得到基础时间标签集合；将基础时间标签集合进行去重和噪音过滤处理得到过滤时间标签集合；依次分析过滤时间标签集合的样式特征、内容特征、位置特征和额外加分项后得到样式分数集合、文本分数集合、位置分数集合和额外分数集合，将样式分数集合、文本分数集合、位置特征集合和额外分数集合进行归一化处理得到各个维度的最终分数，根据各个维度的最终分数得到当前文章的发布时间。本申请提供的方法提高了文章发布时间识别的精准度。

Description

一种基于多维度的发布时间识别方法及装置

技术领域

本申请涉及发布时间识别技术领域，具体涉及一种基于多维度的发布时间识别方法及装置。

背景技术

随着社会的不断发展，对于网络文章尤其是新闻媒体的发布时间进行准确的提取，在传播分析、舆情监测与预警等领域都有着极其重要的意义。

现有的发布时间识别方法主要包括标签特征抽取发布时间和正则匹配。标签特征抽取发布时间比较单一，只适用于大部分网站的发布时间抽取，例如：对网页标签中带有time属性的标签抽取；对于一些不规则的网站以及论坛网站，往往兼容性不好，新闻类网站比较容易抽取不到，论坛类网站容易将作者的创建账号时间误认为是发布时间等。而正则匹配更容易将文章或标题内的含有时间的文字误识别为发布时间，从而影响最终结果。

现有的对于发布时间的识别，难度最大的为论坛类网站的发布时间识别，因为论坛类网站往往带有楼层回帖，比较容易混淆发布时间，导致识别结果不准确。

发明内容

为此，本申请提供一种基于多维度的发布时间识别方法及装置，以解决现有技术存在的发布时间识别不准确的问题。

为了实现上述目的，本申请提供如下技术方案：

第一方面，一种基于多维度的发布时间识别方法，包括：

获取文章页面；

对所述文章页面进行DOM树构建，并获取所述文章页面中所有的时间标签得到时间标签集合；

将所述时间标签集合中的所有时间转化为标准时间得到基础时间标签集合；

将所述基础时间标签集合进行去重和噪音过滤处理得到过滤时间标签集合；

分析所述过滤时间标签集合的样式特征得到样式特征集合，并根据样式特征进行打分得到样式分数集合；

分析所述样式特征集合的内容特征得到内容特征集合，并根据内容特征进行打分得到文本分数集合；

分析所述内容特征集合的位置特征得到位置特征集合，并根据位置特征进行得分得到位置分数集合；

分析所述位置特征集合的额外加分项，得到额外分数集合；

将所述样式分数集合、所述文本分数集合、所述位置特征集合和所述额外分数集合进行归一化处理得到各个维度的最终分数；

根据各个维度的最终分数得到当前文章的发布时间。

可选地，所述时间标签集合包括a标签、p标签、time自定义标签和正则匹配到的时间文字特征标签。

可选地，所述根据样式特征进行打分得到样式分数集合，具体是通过识别所述过滤时间标签集合中的父标签class属性或id属性中是否含有time或date字样、所述过滤时间标签集合是否含有年月日字样、是否含有明显的背景颜色以及是否具有链接地址进行打分的。

可选地，所述位置分数为所述位置特征集合内的标签位置与发布时间假想点的位置的差值的绝对值。

可选地，所述发布时间假想点为文章标题和作者点或标题和正文点在文章中的均值。

可选地，若当前标签的位置大于全页标签位置的4/5或者小于全页位置标签位置的1/5时当前标签的位置分数为零。

可选地，所述额外加分项包括判断当前标签的兄弟标签中是否含有地域词、是否含有分割线、是否含有楼层信息以及是否含有作者信息。

第二方面，一种基于多维度的发布时间识别装置，包括：

文章页面获取模块，用于获取文章页面；

基础备选条件构建模块，用于对所述文章页面进行DOM树构建，并获取所述文章页面中所有的时间标签得到时间标签集合；

标准时间转化模块，用于将所述时间标签集合中的所有时间转化为标准时间得到基础时间标签集合；

过滤模块，用于将所述基础时间标签集合进行去重和噪音过滤处理得到过滤时间标签集合；

样式特征分析模块，用于分析所述过滤时间标签集合的样式特征得到样式特征集合，并根据样式特征进行打分得到样式分数集合；

内容特征分析模块，用于分析所述样式特征集合的内容特征得到内容特征集合，并根据内容特征进行打分得到文本分数集合；

位置特征分析模块，用于分析所述内容特征集合的位置特征得到位置特征集合，并根据位置特征进行得分得到位置分数集合；

额外加分项分析模块，用于分析所述位置特征集合的额外加分项，得到额外分数集合；

归一化处理模块，用于将所述样式分数集合、所述文本分数集合、所述位置特征集合和所述额外分数集合进行归一化处理得到各个维度的最终分数；

文章发布时间确定模块，用于根据各个维度的最终分数得到当前文章的发布时间。

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种基于多维度的发布时间识别方法的步骤。

第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种基于多维度的发布时间识别方法的步骤。

相比现有技术，本申请至少具有以下有益效果：

本申请提供了一种基于多维度的发布时间识别方法及装置，通过获取文章页面，对文章页面进行DOM树构建，并获取文章页面中所有的时间标签得到时间标签集合，将时间标签集合中的所有时间转化为标准时间得到基础时间标签集合；将基础时间标签集合进行去重和噪音过滤处理得到过滤时间标签集合；依次分析过滤时间标签集合的样式特征、内容特征、位置特征和额外加分项得到样式分数集合、文本分数集合、位置分数集合和额外分数集合，将样式分数集合、文本分数集合、位置特征集合和额外分数集合进行归一化处理得到各个维度的最终分数，根据各个维度的最终分数得到当前文章的发布时间。本申请基于多个维度分析得到分数排行榜，最后取得分最高地标签判定为当前文章的发布时间，能够准确抽取网页文章发布时间，提高了文章发布时间识别的精准度。

附图说明

为了更直观地说明现有技术以及本申请，下面给出几个示例性的附图。应当理解，附图中所示的具体形状、构造，通常不应视为实现本申请时的限定条件；例如，本领域技术人员基于本申请揭示的技术构思和示例性的附图，有能力对某些单元(部件)的增/减/归属划分、具体形状、位置关系、连接方式、尺寸比例关系等容易作出常规的调整或进一步的优化。

图1为本申请实施例一提供的一种基于多维度的发布时间识别方法流程图；

图2为本申请实施例一提供的一种基于多维度的发布时间识别方法框图；

图3为本申请实施例一提供的论坛网站结果示意图；

图4为本申请实施例一提供的新闻网站结果示意图。

具体实施方式

以下结合附图，通过具体实施例对本申请作进一步详述。

在本申请的描述中：除非另有说明，“多个”的含义是两个或两个以上。本申请中的术语“第一”、“第二”、“第三”等旨在区别指代的对象，而不具有技术内涵方面的特别意义(例如，不应理解为对重要程度或次序等的强调)。“包括”、“包含”、“具有”等表述方式，同时还意味着“不限于”(某些单元、部件、材料、步骤等)。

本申请中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语，通常是为了便于对照附图直观理解，而并非对实际产品中位置关系的绝对限定。在未脱离本申请揭示的技术构思的情况下，这些相对位置关系的改变，当亦视为本申请表述的范畴。

实施例一

本实施例提供了一种基于多维度的发布时间识别方法，通过获取网页源码，对该网页源码进行DOM树构建，将网页的所有标签和位置相关信息进行一个树状结构构建，方便后续对各节点特征参数等进行对比分析，构建好后便可利用树状结构的优势，对任意节点的子节点和父节点进行查询分析，以及对当前节点的位置参数、样式参数特征参数等进行提取对比。

请参阅图1和图2，一种基于多维度的发布时间识别方法具体包括：

S1：获取文章页面；

S2：对文章页面进行DOM树构建，并获取文章页面中所有的时间标签得到时间标签集合；

本实施例先对文章页面进行DOM树构建，然后通过正则及标签特征取出所有a标签、p标签以及正则匹配出的时间类型的所有标签。

经过大量的页面分析可以得出，一般包含发布时间的标签为p标签、a标签、time等自定义标签、正则匹配到的时间文字特征标签等；其次对于标签本身及父子标签观察发现，大部分时间类型的标签其父子标签或本标签的样式特征里面含有time、utime和date等，其发布时间的文字里面大概率含有类似于“发布时间”、“发布于”及“某年某月某日”等特征，其位置一般在作者和标题之间或标题与正文之间。

S3：将时间标签集合中的所有时间转化为标准时间得到基础时间标签集合；

例如：对2分钟前的标签，转化成当前时间两分钟前的标准年月日时分秒的格式化时间。

S4：将基础时间标签集合进行去重和噪音过滤处理得到过滤时间标签集合；

在噪音过滤前先对基础时间标签集合进行去重，再过滤标签内容文字为空的标签和包含音标签集合，得到相对较纯净的标签集合，即过滤时间标签集合。

公式为：

R₁＝P-P∩(P₁∪P₂∪...∪P_n)

其中，R₁表示候选标签集合，P表示预选标签集合，P₁，P₂，...P_n表示不同的噪音集合。

S5：分析过滤时间标签集合的样式特征得到样式特征集合，并根据样式特征进行打分得到样式分数集合；

对得到的过滤时间标签集合的样式特征进行打分，分别识别当前标签父子标签的class属性和id属性中是否含有time或date特征，如果有则对当前标签加10分，如果没有则不加分或减分；如当前标签的父标签或字标签的class属性或id属性中有time、date、stime等特征加5分；又如通过正则匹配到当前标签含有年月日字样，则加15分，没有则不加分；对含有明显的背景颜色标签及具有链接地址的标签，判定为匹配发布时间标签，则减10分；最终根据匹配出的样式结果为当前标签赋值分数得到样式分数集合StyleScore。

S6：分析样式特征集合的内容特征得到内容特征集合，并根据内容特征进行打分得到文本分数集合；

对样式特征分析后的样式特征集合进行文本内容分析，如果当前标签或其父子标签下的文本里含有“年、月、日、时、分、秒”的特征，则为当前标签加10分，如果含有“分钟前”、“秒前”的特征则加15分，含有“发布于”、“发表于”特征加20分，没有则不加分，对含有“注册时间”、“最后登录时间”的内容特征的标签减10分，最终根据匹配的内容结果为当前标签赋值分数得到文本分数集合TextScore。

S7：分析内容特征集合的位置特征得到位置特征集合，并根据位置特征进行得分得到位置分数集合；

对内容特征分析后的内容特征集合进行位置分析，首先大部分文章都具有标签，根据headers里面的title对标全文内容，能找到大部分标题h1标签，若未找到标题，则截取全文的前五分之一点作为标题点。其次找到作者标签，作者标签为包含author的标签，当author找不到的时候，可以找文章的content标签，作者和正文都找不到的时候，可以截取全文的前二分之一作者中间点。通过文章标题和作者点或标题和正文点，二者求在文章中的均值，即为发布时间假想点，将分析过内容特征的标签集合内的标签位置，与发布时间假想点的位置取差值的绝对值赋值当前标签的位置分数得到位置分数集合NodeScore。需说明的是，这里设置一个阈值，如果当前标签的位置大于全页标签位置的4/5或者小于全页位置标签位置的1/5，则将当前标签的位置分数置为零，即去掉全页位置在头部和尾部的时间标签，因为一般标签不会隐藏在导航栏和最底层的网站信息里面。

S8：分析位置特征集合的额外加分项，得到额外分数集合；

对分析完位置特征的位置特征集合进行额外加分项的分析，取当前标签的兄弟标签，①若兄弟标签中含有地域词，如：“发表于：2015-03-2410:05:15,来自：浙江省桐乡市”；②含有分割线，如：“2022-12-06|时尚领域爱好者”；③含有楼层信息，如：“2022-12-0617:55第1楼”；④含有作者信息，如：“26分钟前重庆日报”，以上特征每发现一处加10分，没有不加分，将得到的分数赋值当前标签得到额外分数集合ExtraScore。

S9：将样式分数集合、文本分数集合、位置特征集合和额外分数集合进行归一化处理得到各个维度的最终分数；

将StyleScore分数集合、TextScore分数集合、NodeScore分数集合和ExtraScore分数集合分别进行归一化处理，使得每一个特征分析的最终得分都在0～1之间，这样既可以统一度量基数，又可以防止某些噪音标签因某一个分析维度的分值过高而影响其他维度的分析结果。

S10：根据各个维度的最终分数得到当前文章的发布时间。

将最终分析集合的所有标签的各个维度分数乘以权重再相加，得到分数排行榜，取得分数最高标签判定为当前文章的发布时间，若出现并列的情况，则位置标签的分数高者胜出。

公式为：

其中，R₂表示标签得分集合，W表示归一化后的权重值集合，μ表示分值均值，并有δ表示分值标准差，并有/>υ表示维度分值，n表示候选标签数量。

请参阅图3和表一，图3为论坛网站结果示例，表一为论坛网站部分计算结果；

表一：论坛网站部分计算结果

请参阅图4和表二，图4为新闻网站结果示例，表二为新闻网站部分计算结果；

表二：新闻网站部分计算结果

综上可知，本实施例提供的一种基于多维度的发布时间识别方法，能够准确抽取网页文章发布时间，提高文章发布时间识别的精准度。

实施例二

本实施例提供了一种基于多维度的发布时间识别装置，包括：

文章页面获取模块，用于获取文章页面；

关于一种基于多维度的发布时间识别装置的具体限定可以参见上文中对于一种基于多维度的发布时间识别方法的限定，在此不再赘述。

实施例三

本实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种基于多维度的发布时间识别方法的步骤。

实施例四

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种基于多维度的发布时间识别方法的步骤。

以上实施例的各技术特征可以进行任意的组合(只要这些技术特征的组合不存在矛盾)，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述；这些未明确写出的实施例，也都应当认为是本说明书记载的范围。

上文中通过一般性说明及具体实施例对本申请作了较为具体和详细的描述。应当理解，基于本申请的技术构思，还可以对这些具体实施例作出若干常规的调整或进一步的创新；但只要未脱离本申请的技术构思，这些常规的调整或进一步的创新得到的技术方案也同样落入本申请的权利要求保护范围。

Claims

1.一种基于多维度的发布时间识别方法，其特征在于，包括：

获取文章页面；

分析所述位置特征集合的额外加分项，得到额外分数集合；

根据各个维度的最终分数得到当前文章的发布时间。

2.根据权利要求1所述的基于多维度的发布时间识别方法，其特征在于，所述时间标签集合包括a标签、p标签、time自定义标签和正则匹配到的时间文字特征标签。

3.根据权利要求1所述的基于多维度的发布时间识别方法，其特征在于，所述根据样式特征进行打分得到样式分数集合，具体是通过识别所述过滤时间标签集合中的父标签class属性或id属性中是否含有time或date字样、所述过滤时间标签集合是否含有年月日字样、是否含有明显的背景颜色以及是否具有链接地址进行打分的。

4.根据权利要求1所述的基于多维度的发布时间识别方法，其特征在于，所述位置分数为所述位置特征集合内的标签位置与发布时间假想点的位置的差值的绝对值。

5.根据权利要求4所述的基于多维度的发布时间识别方法，其特征在于，所述发布时间假想点为文章标题和作者点或标题和正文点在文章中的均值。

6.根据权利要求4所述的基于多维度的发布时间识别方法，其特征在于，若当前标签的位置大于全页标签位置的4/5或者小于全页位置标签位置的1/5时当前标签的位置分数为零。

7.根据权利要求1所述的基于多维度的发布时间识别方法，其特征在于，所述额外加分项包括判断当前标签的兄弟标签中是否含有地域词、是否含有分割线、是否含有楼层信息以及是否含有作者信息。

8.一种基于多维度的发布时间识别装置，其特征在于，包括：

文章页面获取模块，用于获取文章页面；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。