CN106447239A

CN106447239A - 一种数据发布的审核方法及装置

Info

Publication number: CN106447239A
Application number: CN201611023322.3A
Authority: CN
Inventors: 陈建树; 王志超; 曹欢欢
Original assignee: Beijing ByteDance Technology Co Ltd
Current assignee: Beijing Douyin Information Service Co Ltd
Priority date: 2016-11-21
Filing date: 2016-11-21
Publication date: 2017-02-22
Anticipated expiration: 2036-11-21
Also published as: CN106447239B

Abstract

本发明提供一种数据发布的审核方法及装置，包括：接收待发布数据，将其作为待审核数据放入审核队列中；对所述审核队列中的所述待审核数据赋予审核优先级分值；根据所述审核优先级分值对所述审核队列进行排序，对排序后的所述待审核数据进行审核。本发明通过对审核队列中的待审核数据赋予审核优先级的分值，进而使得审核队列中的待审核数据是按照审核优先级分值进行排序及优先审核，从而提高审核效率，并且降低审核过程误杀的概率，使放出的评论量更多；影响面更大；被阅读，回复和点赞的概率更大；所述审核方法的过程相当于雇佣更多的审核人员按照简单排序审核评论的效果，在没有增加人力成本的情况下大幅提高的评论的用户体验。

Description

一种数据发布的审核方法及装置

技术领域

本发明涉及计算机互联网技术领域，特别涉及一种数据发布的审核方法及装置。

背景技术

随着互联网技术的普及，在网站或APP上发表评论，或者和其它网友互动，早已成为广大网民除浏览内容之外最主要的上网需求。

网络数据评论的发布一方面能够降低普通公众发表言论的门槛，对政府部门了解民意有很大的帮助；另一方面则会存在一些不良影响，例如：涉嫌违反法律法规的过激言论，恶意引导舆论的网络水军，发布虚假广告信息的恶意用户，格调不高的低俗评论等。

这些不良评论容易引发负面的社会问题，给政府监管部门、网站以及APP的平台运营团队都带来极大的麻烦。为此，对于具有数据评论发布功能的网站或APP都必须花费一定的精力处理所述些不良评论内容。

现有技术中，通过设置相关识别策略来拦截相关数据评论，但通常情况下识别策略要求非常严格，需要做到极高的召回率，方能保证不漏掉不良评论，但其准确性较低。对于大型网站和超级APP，出于用户体验考虑，会有专门的审核团队对被拦截的疑似不良评论做二次确认。如果发现有被误杀的评论数据，可以人工操作放出。对于无力承担审核成本的小型网站和APP，一般情况下会容忍部分正常评论被误杀。

然而，在审核被拦截的疑似不良评论时，待审核评论的排序使得审核团队的审核效率受到较大影响。最常见的排序策略是按照评论发表时间排序，但在实际审核过程中按照评论发表时间排序的策略其审核效率很低。例如：一条被拦截评论发表的时间更早，但是被评论的文章不存在点击量或者点击量较低，审核这条评论后，即使发现所述评论是误杀并成功放出，这条评论存在的意义也不大。反之，如果一条新发的被拦截评论本来是发表在一篇热门文章下面，如果经过审核认为所述评论可以放出，产生的收益就会远大于审核之前那条更老的评论。

基于现有技术存在的问题如何提供一种能够根据数据发布的优先级来实现对所述数据发布的审核成为本领域亟待解决的技术问题。

发明内容

本发明要解决的技术问题是如何提供一种数据发布的审核方法及装置，以解决现有技术中对发布数据审核效率较低的技术问题。

为解决上述技术问题，本发明提供一种数据发布的审核方法，具体包括：

一种数据发布的审核方法，包括：

接收待发布数据，将其作为待审核数据放入审核队列中；

对所述审核队列中的所述待审核数据赋予审核优先级分值；

根据所述审核优先级分值对所述审核队列进行排序，对排序后的所述待审核数据进行审核。

优选的，所述接收待发布数据，将其作为待审核数据放入审核队列中包括：

判断所述待发布数据是否符合发布条件，若是，则发布，若否，则将所述待发布数据作为所述待审核数据放入审核队列，并进入所述对所述待审核数据进行审核优先级分值的步骤。

优选的，所述对所述待审核数据赋予审核优先级分值包括：

预先根据训练数据的数据特征构建优先级评分模型；

根据所述待审核数据的数据特征导出所述待审核数据在所述优先级评分模型中对应的审核优先级分值。

优选的，所述数据特征包括：

所述待审核数据本身的特征参数、发表所述待审核数据的用户特征参数和/或与所述待审核数据相对应的数据内容的状态统计参数。

优选的，所述待审核数据本身的特征参数包括：

具有广告词的特征参数和/或具有敏感词的特征参数；

优选的，所述发表所述待审核数据的用户特征参数包括：

发表评论被禁言的次数、距离上次被禁言到当前发表评论为止的时间和/或被禁止评论放出的比例。

优选的，与所述待审核数据相对应的数据内容的状态统计参数包括：

所述数据内容单位时间的阅读量和/或所述数据内容单位时间内所发表评论的点赞量之和。

优选的，所述根据所述审核优先级分值对所述审核队列进行排序，对排序后的所述待审核数据进行审核包括：

在预设时间内检测所述审核队列中的所述待审核数据的所述数据特征是否变化，若变化则进入下一步；

根据所述检测结果对所述待审核数据的审核优先级分值执行更新。

优选的，所述根据所述检测结果对所述待审核数据的审核优先级分值执行更新包括：

判断所述待审核数据的审核优先级分值距离上一次的更新时间是否大于设定的更新时间阈值，若是，则更新所述待审核数据的审核优先级分值；若否，则将所述审核数据放入缓存队列。

优选的，包括：

对更新后的所述待审核数据的审核优先级分值，对所述审核队列进行排序。

一种数据发布的审核装置，包括：

接收模块，用于接收待审核数据，并将其作为待审核数据放入审核队列中；

赋值模块，用于所述审核队列中的所述待审核数据赋予审核优先级分值；

排序审核模块，用于根据所述审核优先级分值对所述审核队列进行排序，并对排序后的所述待审核数据进行审核。

优选的，所述接收模块包括：

拦截模块，拦截所述接收模块中的所述待发布数据是否为疑似不良数据；所述拦截模块包括：判断模块，用于判断所述接收模块中的所述待发布数据是否符合发布条件，若是，则发布；若否，则将所述待发布数据作为待审核数据放入审核队列中，并进入所述赋值模块。

优选的，所述赋值模块包括：

构建模块，用于预先根据训练数据的数据特征构建优先级评分模型；

导出模块，用于根据所述优先级评分模型中导出所述待审核数据在所述优先级评分模型中对应的审核优先级分值。

优选的，所述排序审核模块包括：

检测模块，用于在预设时间内检测所述审核队列中的所述待审核数据的所述数据特征是否变化，若变化则进入更新模块；

所述更新模块，用于根据所述检测结果对所述待审核数据的审核优先级分值执行更新。

优选的，所述更新模块包括：

更新时间判断模块，用于判断所述待审核数据的审核优先级分值距离上一次的更新时间是否大于设定的更新时间阈值，若是，则更新所述待审核数据的审核优先级分值；若否，则将所述审核数据放入缓存队列等待更新。

与现有技术相比，本发明的特点在于：通过对审核队列中的待审核数据赋予审核优先级的分值，进而使得审核队列中的待审核数据是按照审核优先级分值进行排序，审核人员能够对较高优先级的待审核数据进行优先审核，从而提高审核效率，并且降低审核过程误杀的概率，使放出的评论量更多；影响面更大；被阅读，回复和点赞的概率更大；所述审核方法的过程相当于雇佣更多的审核人员按照简单排序审核评论的效果，在没有增加人力成本的情况下大幅提高的评论的用户体验。

附图说明

为了更清楚地说明本发明实施例和现有技术中的技术方案，下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种数据发布的审核方法的流程图；

图2是本发明提供的一种数据发布的审核装置的结构示意图。

具体实施方式

下面将接合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1所示，图1是本发明提供的一种数据发布的审核方法的流程图。

如图1所示，本发明提供的一种数据发布的审核方法包括：

步骤S110：接收待发布数据，将其作为待审核数据放入审核队列中。

在所述步骤S110的具体实现过程中，所述接收待发布数据可以是评论数据信息，即：对文章或对新闻或对某些网络信息发表的评论数据，也或者是基于某些已发表的评论数据发表的评论数据，即：嵌套评论数据；或者是针对已发表评论数据的回复评论数据等等，所述些评论数据可以是文本数据、图形数据和/或语音数据等。

在本实施例中，采用针对文本数据下的评论数据信息的审核过程进行说明，但实际上，在使用本发明提供的数据发布的审核方法，并不仅限于本实施中的内容。

为提高待发布数据的审核效率，在本实施例中，对所述接收发布数据进行判断，即：判断所述待发布数据是否符合发布条件，若是，则发布，若否，则将所述待发布数据作为所述待审核数据放入审核队列，并进入步骤S120中，即：所述对所述待审核数据进行审核优先级分值。也就是说，接收到对某一文本数据(即：文章)的评论数据(即：待发布数据)后，先对所述评论数据进行筛选过滤，判断所述评论数据是否为疑似不良评论，以便将无需进行审核队列的正常评论数据直接发布，进而提高审核效率。

在判断所述待发布的评论数据是否符合发布条件，可以通过基于敏感词命中的简单规则，或者基于敏感词命中次数，位置等额外信息的复杂规则，或者基于文本相似的规则。

通常情况下可以先用敏感词命中做触发，一旦触发后再用一个复杂的机器学习模型对评论打分，比如Logistic Regression，神经网络等。所述机器学习模型需要预先在人工标注的不良评论样本上进行训练，建立评论拦截训练模型。所述评论拦截训练模型在拦截时主要考虑评论的文本内容，或者可以考虑评论发表用户的历史行为。一般来说有过不良行为记录的用户风险更高，即使是在类似的评论数据内容下，这类用户的评论更容易被所述评论拦截训练模型识别为不良评论，并被拦截，并放入审核队列中。

以上仅是对于疑似不良评论的拦截进行简单说明，实际操作过程中，可以选取现有技术中对疑似不良评论的拦截方式，只要是能够将待发布评论数据中存在的疑似不良评论拦截即可，因为拦截的疑似不良评论可能存在有误拦截的情况，因此，还需要对进入审核队列中的疑似不良评论数据进行再次审核，以免发生误杀情况。

步骤S120：对所述待审核数据赋予审核优先级分值。

所述步骤S120的具体实现过程可以是，预先根据训练数据的数据特征构建优先级评分模型，构建所述优先级评分模型可以采用pair-wise算法，具体过程可以是：

具体的，先自动构造数万评论pair然后标注评论pair中那一条应所述被优先审核，不好判断的pair则被丢弃。需要说明的是，此处的判断可以存在两种情况，一种是：当审核队列中的待审核数据为已经被筛选过滤的疑似不良评论数据的情况下，可以将不好判断的pair丢弃；另一种是：当审核队列中的待审核数据没有经过筛选过滤，则可以将没有任何特征的评论数据设定为最高优先级。

比如，如果评论pair中有一条是不良评论，另一条是正常评论，则后一条的审核优先级分值应所述高于前一条的审核优先级分值。再比如，如果评论pair中两条都是正常评论，在单位时间内被点赞更多的评论可以设定为优先审核。如果评论pair中两条都是不良评论，可以设定为丢弃pair。

通过上述规则，得到一定数量的标注pair后，用若干现有的pair-wise学习算法学习任意一个能够把这些pair全部排序正确的排序模型F(x)，即给定：x1，x2，如果审核人员认为x1比x2优先级高，F(x1)应所述大于F(x2)。优先级评分模型最后用于给待审核的评论数据分配审核优先级分值，也就是说给定评论x，其优先级为F(x)，即：通过审核队列中的评论数据x，可以通过优先级评分模型获知评论x的审核优先级分值F(x)。

在构建优先级评分模型后，根据所述待审核数据的数据特征导出所述待审核数据在所述优先级评分模型中对应的审核优先级分值。

再对所述优先级评分模型构建的过程中，可以通过评论数据的数据特征供其构建，并能够通过抽取出审核队列中的待发布评论数据的数据特征得到特征向量，将所述特征向量发送至优先级评分模型中，所述优先级评分模型则会根据特征向量查询到对应的审核优先级分值并导出，从而获得所述待发布评论数据的审核优先级分值。

在本实施例中，所述数据特征可以包括以下形式：

1、所述待审核数据本身的特征参数，即：评论数据本身的特征参数，包括：具有广告词的特征参数和/或具有敏感词的特征参数；具体可以为：机器识别评论是广告的概率，机器识别评论包含脏话的概率，机器识别评论属于人身攻击的概率和/或机器识别评论有色情意味的概率等等。

2、发表所述待审核数据的用户特征参数，即：发表评论数据的用户特征参数，其具体是可以是，用户发表评论被禁言的次数，所述次数可以是统计用户历史发表评论的数据的次数；用户距离最近一次被禁言到当前发表评论为止的时间；和/或，用户被禁止评论数据放出的比例，所述放出比例可以是设定为某一时间端内评论被禁止放出的比例。

3、与所述待审核数据相对应的数据内容的状态统计参数，即：与所述评论数据相对应的文章(数据内容)，所述文章已经放出评论的数量；可以理解为对文章冷热程度的判断数据，具体可以是：评论文章(数据内容)单位时间的阅读量和/或评论文章(数据内容)单位时间内所有放出评论的点赞量之和。

需要说明的是，上述数据特征仅为本实施中的举例，实际应用过程中还可以根据审核内容等采用不同的数据特征。所述优先级评分模块是通过待审核数据的数据特征，导出其对应的审核优先级分值。

步骤S130：根据所述审核优先级分值进行排序，对排序后的所述待审核数据进行审核。

所述步骤S130的具体实现过程可以是，根据审核队列中的赋予待审核评论数据审核优先级分值的大小对待审核评论数据进行排序，根据审核要求，按照降序的方式对待审核评论数据进行排序，即：审核优先级分值从大到小排列。

由于在对某一文本数据进行评论时，会在短时间内产生大量的评论数据，审核队列的评论数据量会不断的产生变化，另外，在对已赋予审核优先级分值的评论数据还存在评述数据的数据特征产生变化的情况，例如：点击量和/或阅读量的变化等等，对于已经赋予审核优先级分值的评述数据很有可能发生审核优先级分值的变化，因此，为提高审核效率，保证审核队列中评述数据审核优先级分值能够随数据特征的变化而变化，在本实施例中，所述步骤S130：对审核优先级分值对所述审核队列进行排序，对排序后的所述待审核数据进行审核还包括：

所述更新的过程可以在原有的审核队列基础上对待审核评论数据的审核优先级分值进行更新，也可以新建一个审核队列将更新后的待审核评论数据的审核优先级分值进行存储，在更新完毕后将就的审核队列删除。

可以理解的是，对一篇文章的评论数据可能在短时间内容生产大量评论数据，而数据特征的变化也发生大量变化，不断的更新优先级分值会对审核人员的审核工作带来困扰，因此，可以通过设定一个更新时间阈值，在更新时间阈值到达后才进行更新，进而提高审核工作的效率。具体可以是：

在本实施例中，更新时间的阈值可以根据通常情况下的审核数据变化量的平均值来设定，也可以根据实际审核工作的时间要求来设定。

在更新后，需要根据更新后的所述待审核数据的审核优先级分值，重新对所述审核队列进行排序，以便审核人员根据最新优先级情况对待审核评论数据进行审核。

可以理解是，在对于放入缓存队列的待审核评论数据当到达更新时间后，其优先权分值会被更新，并放入审核队列中，之后删除缓存队列中的待审核评论数据，对更新后的待审核评论数据的排序也会随之重新排序。在本实施例中，更新审核队列的过程可以新建一个审核队列，所述审核队列可以包括旧审核队列中的评论和缓存队列中的评论，建好后新的审核队列后，审核人员通过新的审核队列对待审核评论数据进行审核，并删除旧的审核队列。

需要说明的是，对于具有审核优先级分值的审核队列，在审核人员审核的显示画面中使将审核优先级分值从高到低显示，进而便于审核人员将审核优先级分值较高的评述数据进行优先审核。

以上为本发明提供的一种数据发布的审核方法的具体实现过程的描述，所述方法能够提高审核效率，并且能够使放出的评论量更多，影响面更大，被阅读，回复和点赞的概率更大，采用所述审核方法的效果相当于雇佣更多的审核人员按照简单排序审核评论的效果，在没有增加人力成本的情况下大幅提高的评论的用户体验。

基于上述本发明提供的一种数据发布的审核方法，本发明还提供一种与数据发布的审核方法相对应的数据发布的审核装置，因为所述数据发布的审核装置与数据发布的审核方法相对应，因此仅为示意性的描述，所述装置的具体实现过程及内容可以参考方法的描述。

请参考图2所示，图2是本发明提供的一种数据发布的审核装置的结构示意图。

如图2所示，本发明提供的一种数据发布的审核装置包括：

接收模块201，用于接收待审核数据，并将其作为待审核数据放入审核队列中；

赋值模块202，用于所述审核队列中的所述待审核数据赋予审核优先级分值；

排序审核模块203，用于根据所述审核优先级分值对所述审核队列进行排序，并对排序后的所述待审核数据进行审核。

其中，所述接收模块201，包括：

拦截模块，用于拦截所述接收模块中的所述待发布数据是否为疑似不良数据，所述拦截模块包括：判断模块，用于判断所述接收模块中的所述待发布数据是否符合发布条件，若是，则发布；若否，则将所述待发布数据作为待审核数据放入审核队列中，并进入所述赋值模块。

所述赋值模块202包括：

所述排序审核模块203包括：

所述更新模块包括：

可以理解的是，本发明提供的一种数据发布的审核装置，还可以包括：交互模块，用于将具有审核优先级分值的审核队列显示供审核人员审核，判断对应的待审核评论数据是否可以放出。

以上所述仅为本发明提供的一种数据发布的审核方法及装置的优选实施方式，并不构成对本发明保护范围的限定。所述实施例中的部件数量并不局限于实施例中所采用的方式，任何在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

1.一种数据发布的审核方法，其特征在于，包括：

接收待发布数据，将其作为待审核数据放入审核队列中；

对所述审核队列中的所述待审核数据赋予审核优先级分值；

2.根据权利要求1所述的数据发布的审核方法，其特征在于，所述接收待发布数据，将其作为待审核数据放入审核队列中包括：

3.根据权利要求1或2任意一项所述的数据发布的审核方法，其特征在于，所述对所述待审核数据赋予审核优先级分值包括：

预先根据训练数据的数据特征构建优先级评分模型；

4.根据权利要求3所述的数据发布的审核方法，其特征在于，所述数据特征包括：

5.根据权利要求4所述的数据发布的审核方法，其特征在于，所述待审核数据本身的特征参数包括：

具有广告词的特征参数和/或具有敏感词的特征参数。

6.根据权利要求4所述的数据发布的审核方法，其特征在于，所述发表所述待审核数据的用户特征参数包括：

7.根据权利要求4所述的数据发布的审核方法，其特征在于，与所述待审核数据相对应的数据内容的状态统计参数包括：

8.根据权利要求1所述的数据发布的审核方法，其特征在于，所述根据所述审核优先级分值对所述审核队列进行排序，对排序后的所述待审核数据进行审核包括：

9.根据权利要求8所述的数据发布的审核方法，其特征在于，所述根据所述检测结果对所述待审核数据的审核优先级分值执行更新包括：

10.根据权利要求8或9任意一项所述的数据发布的审核方法，其特征在于，包括：

11.一种数据发布的审核装置，其特征在于，包括：

12.根据权利要求11所述的数据发布的审核装置，其特征在于，所述接收模块包括：

13.根据权利要求11或12所述的数据发布的审核装置，其特征在于，所述赋值模块包括：

14.根据权利要求11所述的数据发布的审核装置，其特征在于，所述排序审核模块包括：

15.根据权利要求14所述的数据发布的审核装置，其特征在于，所述更新模块包括：