CN111324711B

CN111324711B - 一种帖子时效性判别方法、装置、及存储介质

Info

Publication number: CN111324711B
Application number: CN202010092942.2A
Authority: CN
Inventors: 沈椿壮; 张�杰; 于皓; 袁杰
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2024-03-22
Anticipated expiration: 2040-02-14
Also published as: CN111324711A

Abstract

一种帖子时效性判别方法，包括采集预定数据库中的答案帖数据；采用预先训练好的时效性判别模型对所采集的答案帖数据进行判别并识别出过时答案帖；所述时效性判别模型是采用包括正样本和负样本的样本数据训练得到的；其中，所述正样本是从指定数据库中提取的未过时的答案帖，所述负样本是从所述指定数据库中提取的过时的答案帖。本申请能够自动判别答案帖是否过时，效率高。

Description

一种帖子时效性判别方法、装置、及存储介质

技术领域

本文涉及计算机技术，尤指一种帖子时效性判别方法、装置、及存储介质。

背景技术

IT行业的技术开发人员在日常的工作和学习中，经常会运用到很多技术相关的工具(算法、操作系统、开发环境、编程语言、API等)。在运用的过程中，往往会遇到很多问题。对于少数技术人员，会在各种讨论社区和问答网站上发帖进行提问。但大多数人往往直接在搜索引擎中输入自己遇到的问题，并查询已有的被大家公认的解决方案，并套用在自己的工作中。这种方式有时可以解决问题，但很多情况下，相同的问题却不能通过查到的方法解决。造成这个现象的一个最主要的原因在于，搜索到的解决方案随着IT技术的更新和淘汰，已经不能解决该问题了。

StackOverflow作为全球最大的IT技术开源讨论社区，拥有上千万的日活量，积累了大量的IT技术讨论帖，其中也隐藏了大量的过时技术信息。这类信息由于可以在当时完美的解决问题，因此会有很高的点赞量和浏览量，甚至被标记为最佳答案。因此很容易会误导开发人员。因此，从问答网站和讨论社区中，提取这类答案帖并给出提示信息，是一个亟需解决的问题。例如以下网址为一个IT技术讨论社区：

https://stackoverflow.com/questions/422724/iphone-sdk-can-i-start-a-file-song-in-the-ipod-feature-of-the-iphone-via-the/422726#422726。

当前StackOverflow及其类似的技术讨论社区(CSDN、Github等)都没有一个有效的方式来解决这一问题。这类社区拥有大量的用户，也有着大量的答案帖作者。这些用户来自于社会，不能高效的进行统一管理和规则约束。论坛现在已有的做法，大多数靠社区用户人为的对过时讨论帖进行修改和标注，部分社区机制支持用户投反对票，也可以投票关闭过时信息的答案帖。部分仍然活跃在社区论坛的答案帖作者会主动的修改自己答案中可能存在的过时信息，甚至进行删除。论坛也会鼓励用户编辑过时技术帖或对问题帖提出基于新版本技术的回答。

很多论坛通过设定一定的机制来解决这个问题，例如以下论坛：

·Introduce an"Obsolete Answer"vote

·Implement a vote-based warning system for potentially dangerousanswers

·Can we exempt downvoted accepted answers from getting the top spot？

·Deemphasise the accept mark if there's an answer the communitystrongly prefers？

所谓的过时的答案帖针对的是一些过时的技术，但是往往还有有人在继续使用这些过时技术，(例如：python2将于2020年停止维护，但是仍然有大量的开发人员使用python2)对于这些人来说，这些过时讨论帖所给出的信息是他们所需要的，所以单纯的删除和编辑是不能解决这个问题的。

绝大多数用户在回答了一个问题后，就不会再关注这一问题帖。甚至很多情况下，随着时间的推移，答案帖作者不再使用这个社区。所以当一个技术帖过时后，很难有人会回来对它进行编辑或更新。

很多过时技术帖在刚被提出时往往可以解决技术问题，所以点赞量浏览量极高，也可能被接受为最佳答案。过时后对其投反对票不能很好的表达它存在的过时问题。对问题重新回答的答案帖点赞量浏览量可能也不会比过时帖高，排序会排在后边，很多时候不会被人发现。

论坛用户的编辑权限有限。无法给一个很合适的权限可以让用户对过时帖进行编辑的同时，防止用户对其他帖子进行错误编辑。

评论也是不够的，因为它可能被埋大量评论的底部。此外，StackOverflow的注释设计为稍为短暂的性质。评论也不会改变回答的顺序。论坛用户通过评论提示该技术帖过时往往也是有限的。

发明内容

本申请提供了一种帖子时效性判别方法、装置、及存储介质，能够达到自动判别过时帖子的目的。

本申请提供了一种帖子时效性判别方法，包括：采集预定数据库中的答案帖数据；采用预先训练好的时效性判别模型对所采集的答案帖数据进行判别并识别出过时答案帖；所述时效性判别模型是采用包括正样本和负样本的样本数据训练得到的；其中，所述正样本是从指定数据库中提取的未过时的答案帖，所述负样本是从所述指定数据库中提取的过时的答案帖。

在一个示例性实施例中，所述未过时的答案帖采用以下方式获取：从所述指定数据库中筛选出没有编辑历史且不具有表示过时的预定关键词并且满足预定第一浏览属性的答案帖作为初筛正样本的答案帖；根据所述初筛正样本获取所述未过时的答案帖。

在一个示例性实施例中，所述预定第一浏览属性的答案帖，包括：创建时间在预定期限内、浏览量大于预定量、及点赞量大于预定量的答案帖。

在一个示例性实施例中，所述过时的答案帖采用以下方式获取：从所述指定数据库中筛选出具有表示过时的预定关键词并且带有编辑历史的答案帖；从所筛选的答案帖中筛选出编辑时间在过时评论之后的答案帖作为第一初筛负样本；

从数据库中筛选出具有表示过时的预定关键词并且没有编辑历史的答案帖；从所筛选出的答案帖中删除满足预定第二浏览属性的答案帖后的剩余的答案帖作为第二初筛正样本的答案帖；

根据所述第一初筛负样本和第二初筛负样本获取所述过时的答案帖。

在一个示例性实施例中，所述预定第二浏览属性的答案帖，包括：创建时间在预定期限内、评论大于预定条数、及评论长度大于预定长度的答案帖。

在一个示例性实施例中，所述正样本和负样本通过对初筛正样本和第一、第二初筛负样本进行预定处理获得；所述预定处理包括以下方式至少之一：

去除初筛正样本和第一、第二初筛负样中的超文本标签和噪声特性；

去除初筛正样本和第一、第二初筛负样中长度大于预定长度的句子；

对初筛正样本和第一、第二初筛负样中长度小于预定长度的句子，使用指定字符填充到预定长度。

本申请提供了一种帖子时效性判别装置，包括：

采集模块，用于采集预定数据库中的答案帖数据；

识别模块，用于采用预先训练好的时效性判别模型对所采集的答案帖数据进行判别并识别出过时答案帖；所述时效性判别模型是采用包括正样本和负样本的样本数据训练得到的；其中，所述正样本是从指定数据库中提取的未过时的答案帖，所述负样本是从所述指定数据库中提取的过时的答案帖。

在一个示例性实施例中，所述未过时的答案帖采用以下方式获取：

从所述指定数据库中筛选出没有编辑历史且不具有表示过时的预定关键词并且满足预定第一浏览属性的答案帖作为初筛正样本的答案帖；

根据所述初筛正样本获取所述未过时的答案帖。

在一个示例性实施例中，所述过时的答案帖采用以下方式获取：

从所述指定数据库中筛选出具有表示过时的预定关键词并且带有编辑历史的答案帖；从所筛选的答案帖中筛选出编辑时间在过时评论之后的答案帖作为第一初筛负样本；

从数据库中筛选出具有具有表示过时的预定关键词并且没有编辑历史的答案帖；从所筛选出的答案帖中删除满足预定第二浏览属性的答案帖后的剩余的答案帖作为第二初筛正样本的答案帖；

本申请提供了一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如任一所述的方法。

与相关技术相比，本申请包括通过采用训练好的时效性判别模型对所采集的答案帖数据进行判别并识别出过时答案帖，能够高效的识别过时答案贴。

在一个示例性实施例中，本申请通过训练时效性判别模型对正样本和负样本的筛选从而进一步提高模型的准确性。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例帖子时效性判别方法流程图；

图2为本申请实施例具有过时关键词的答案帖示例；

图3为本申请实施例帖子时效性判别装置模块示意图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

如图1所示，本申请提供一种帖子时效性判别方法，包括以下步骤：

S1、采集预定数据库中的答案帖数据；

S2、采用预先训练好的时效性判别模型对所采集的答案帖数据进行判别并识别出过时答案帖；所述时效性判别模型是采用包括正样本和负样本的样本数据训练得到的；其中，所述正样本是从指定数据库中提取的未过时的答案帖，所述负样本是从所述指定数据库中提取的过时的答案帖。

在一个示例性实施例中，预定数据库可以为StackOverflow等各种技术讨论社区和问答网站。

在一个示例性实施例中，指定数据库可以StackOverflow等各种技术讨论社区和问答网站中用于训练模型的数据。

在一个示例性实施例中，时效性判别模型通过fastText文本分类模型采用指定数据库中筛选的正样本和负样本进行训练而获得。

所谓的过时的答案帖针对的是一些过时的技术，但是往往还有人在继续使用这些过时技术，绝大多数用户在回答了一个问题后，就不会再关注这一问题帖。甚至很多情况下，随着时间的推移，答案帖作者不再使用这个社区。所以当一个技术帖过时后，很难有人会回来对它进行编辑或更新。

从所述指定数据库中筛选出没有编辑历史且不具有表示过时的预定关键词并且满足预定第一浏览属性的答案帖作为初筛正样本的答案帖；根据所述初筛正样本获取所述未过时的答案帖。

一般的，在网站的后台数据库中，存储帖子的表中有特定字段。在网站的数据库中，答案贴和问题贴都是由不同的字段表示的。如果该字段非空则表示有编辑历史，具体编辑历史贴可以在另一个表中的关联字段查找。

其中，不具有表示过时的预定关键词的答案帖可以通过罗列关键词采用逻辑表达式在数据库中进行检索。

通过答案帖的流量属性能够确定答案帖的热度，从而判断答案帖是否过时。

根据所述第一和第二初筛负样本获取所述过时的答案帖。

在一个示例性实施例中，可以将第一和第二初筛负样本合并作为初筛负样本。

同理，可以采用关键词检索到具有过时关键词的答案帖。

在一个示例性实施例中，所述预定第二浏览属性的答案帖，包括：创建时间在预定期限内、评论大于预定条数、且评论长度大于预定长度的答案帖。

从第二浏览属性可以将有过时关键词但热度比较高的答案帖排除为过时的答案帖。

方式一、去除初筛正样本和第一、第二初筛负样中的超文本标签和噪声特性；

方式二、去除初筛正样本和第一、第二初筛负样中长度大于预定长度的句子；

方式三、对初筛正样本和第一、第二初筛负样中长度小于预定长度的句子，使用指定字符填充到预定长度。

通过对初筛正样本和负样本进行清洗，从而更利于模型识别。

下面以StackOveflow网址作为指定数据可为例，对上述进行解释说明。

步骤1、查找评论中带有表示过时词的答案帖，这些答案帖中可能带有过时技术且被其他用户在评论中标记，关键词包括其中至少之一：‘％been abandoned％’、‘％deprecated％’、‘％out-of-date％’‘％out of date％’、‘％outdate％’、‘％old-fashion％’‘％old fashion％’、‘％obsolet％’、‘％no longer maintain％'、‘％nolonger available％'、‘％no longer valid％'、‘％no longer exist％’、‘％no longerwork％'、‘％no longer true％'、‘％no longer support％'、‘％no longer use％'、'％no longer corrent％'、‘％no longer allow％'、‘％no longer compatible％'、‘％nolonger accurate％’、‘％no more maintain％'、‘％no more available％'‘％no morevalid％'、‘％no more exist％'、‘％no more working％'、‘％no more true％'、‘％nomore support％'、‘％no more useful％'、‘％no more allow％'、‘％no moreaccurate％'。

上述关键词前后增加的符号％表示通配符，能够防止遗漏，增加检索准确性。

如图2所示，通过过时关键词在StackOverflow查找到关于“vsnprint”相关技术的答案贴，从答案贴的评论中包含过时关键词“deprecated”。

步骤2、在查询结果取样10％并人工判别，有79％为真实的过时答案帖，其余为噪声样本，即答案帖不过时但评论中带有表示过时的词，这种词往往没有形容答案帖是否过时，而是在讨论其他话题。

步骤3、从步骤2抽取的答案帖中，查找带有编辑历史的答案帖。对于有编辑历史的答案帖，从数据库中查找编辑时间在过时评论之后的答案帖版本作为初筛负样本。因为这种情况往往是有人评论答案帖过时，然后作者或社区管理员对答案帖进行了编辑。

步骤4、从步骤2抽取的答案帖中，对于没有编辑历史的答案帖，我们删除帖子创建时间为近三年的、评论数量大于4条的、具有过时词的评论长度大于45的，将剩余的答案贴也作为初筛负样本。

步骤5、将步骤3和步骤4的数据合并在一起作为过时答案帖数据，共55484个答案帖，人工取样1％进行判别，有91％为真实过时答案帖。

步骤6、从数据集中抽取创建时间为近三年的、浏览量大于50000、点赞量大于20、没有编辑历史且评论中没有过时关键字的帖子，并进行下采样，得到55484个答案帖，作为不过时答案帖并作为初筛正样本。

步骤7、使用步骤5和步骤6得到的数据作为正样本和负样本数据，使用正则表达式对数据进行清洗，去掉数据中的html超文本标签和噪声特性，去掉长度大于300的句子。对于长度小于300的句子，使用</PAD>字符填充到300。

步骤8、使用步骤7得到的数据，取80％作为训练数据集、10％作为测试数据集、10％作为验证数据集、训练文本分类模型fastText。训练好的模型即可用于判别答案帖是否存在过时信息。

步骤9、随着时间的推移，模型学习到的不过时技术可能变得过时，因此当判别模型失效时，需要重复以上过程训练新的模型、

如图3所示，本申请提供一种帖子时效性判别装置，包括如下模块：

采集模块10，用于采集预定数据库中的答案帖数据；

识别模块20，用于采用预先训练好的时效性判别模型对所采集的答案帖数据进行判别并识别出过时答案帖；所述时效性判别模型是采用包括正样本和负样本的样本数据训练得到的；其中，所述正样本是从指定数据库中提取的未过时的答案帖，所述负样本是从所述指定数据库中提取的过时的答案帖。

根据所述初筛正样本获取所述未过时的答案帖。

根据所述第一和第二初筛负样本获取所述过时的答案帖。

本申请还提供一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述中任一项所述的方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种帖子时效性判别方法，其特征在于，包括：

采集预定数据库中的答案帖数据；

采用预先训练好的时效性判别模型对所采集的答案帖数据进行判别并识别出过时答案帖；所述时效性判别模型是采用包括正样本和负样本的样本数据训练得到的；其中，所述正样本是从指定数据库中提取的未过时的答案帖，所述负样本是从所述指定数据库中提取的过时的答案帖；

其中，所述过时的答案帖采用以下方式获取：

从数据库中筛选出具有表示过时的预定关键词并且没有编辑历史的答案帖；从所筛选出的答案帖中删除满足预定第二浏览属性的答案帖后的剩余的答案帖作为第二初筛负样本的答案帖；

根据所述第一初筛负样本和第二初筛负样本获取所述过时的答案帖；

所述未过时的答案帖采用以下方式获取：

根据所述初筛正样本获取所述未过时的答案帖；

所述预定第一浏览属性的答案帖，包括：创建时间在预定期限内、浏览量大于预定量、及点赞量大于预定量的答案帖；

所述预定第二浏览属性的答案帖，包括：

创建时间在预定期限内、评论大于预定条数、及评论长度大于预定长度的答案帖。

2.根据权利要求1所述的帖子时效性判别方法，其特征在于，所述正样本和负样本通过对初筛正样本和第一、第二初筛负样本进行预定处理获得；所述预定处理包括以下方式至少之一：

3.一种帖子时效性判别装置，其特征在于，包括：

采集模块，用于采集预定数据库中的答案帖数据；

识别模块，用于采用预先训练好的时效性判别模型对所采集的答案帖数据进行判别并识别出过时答案帖；所述时效性判别模型是采用包括正样本和负样本的样本数据训练得到的；其中，所述正样本是从指定数据库中提取的未过时的答案帖，所述负样本是从所述指定数据库中提取的过时的答案帖；

其中，所述过时的答案帖采用以下方式获取：

所述未过时的答案帖采用以下方式获取：

根据所述初筛正样本获取所述未过时的答案帖；

所述预定第二浏览属性的答案帖，包括：

4.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-2中任一项所述的方法。