CN110457566A

CN110457566A - 信息筛选方法、装置、电子设备及存储介质

Info

Publication number: CN110457566A
Application number: CN201910754914.XA
Authority: CN
Inventors: 白肇强; 白雪峰; 程文文
Original assignee: Tencent Technology Wuhan Co Ltd
Current assignee: Tencent Technology Wuhan Co Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-11-15
Anticipated expiration: 2039-08-15
Also published as: CN110457566B

Abstract

本申请公开了信息筛选方法、装置、电子设备及存储介质，信息筛选方法包括获取样本信息对应的用户行为数据；通过目标数据训练规则模型；其中，所述目标数据为出现频率大于第一预设值的用户行为数据；利用训练后的规则模型对待检信息执行信息筛选操作得到目标类信息。本申请能够快速筛选特定类型的信息，提高信息审核的效率。

Description

信息筛选方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及信息筛选方法、装置、电子设备及存储介质。

背景技术

随着移动互联网的发展，用户可以通过各种社交平台发布文字、图片以及视频信息。但是，部分用户为了提高点击率和热度，往往存在选取夸张标题、视频随意剪辑导致视频内容残缺不全等情况。

相关技术中，通常采用人工审查的方式对用户发布的信息进行审核，但是人工审核的效率较低，无法高效地检测出问题信息。

因此，如何快速筛选特定类型的信息，提高信息审核的效率是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供信息筛选方法、装置、电子设备及存储介质，能够提高信息审核的效率。

为实现上述目的，本申请第一方面的第一种实施方式提供了一种信息筛选方法，包括：

获取样本信息对应的用户行为数据；

通过目标数据训练规则模型；其中，所述目标数据为出现频率大于第一预设值的用户行为数据；

利用训练后的规则模型对待检信息执行信息筛选操作得到目标类信息。

结合本申请第一方面的第一种实施方式，在本申请第一方面的第二种实施方式中，所述通过目标数据训练规则模型包括：

生成所述目标数据对应的第一正则表达式；

利用所述第一正则表达式训练所述规则模型。

结合本申请第一方面的第一种实施方式，在本申请第一方面的第三种实施方式中，所述获取样本信息对应的用户行为数据包括：

获取所述样本信息的评论类数据、负反馈类数据和举报类数据。

结合本申请第一方面的第三种实施方式，在本申请第一方面的第四种实施方式中，所述通过目标数据训练规则模型包括：

生成目标评论类数据对应的初始正则表达式；

利用目标负反馈类数据和目标举报类数据对所述初始正则表达式执行交叉验证操作；

根据交叉验证结果修正所述初始正则表达式得到第二正则表达式；

利用所述第二正则表达式训练所述规则模型；

其中，所述目标评论类数据、所述目标负反馈类数据和所述目标举报类数据的出现频率均大于所述第一预设值。

结合本申请第一方面的第一种实施方式，在本申请第一方面的第五种实施方式中，所述利用训练后的规则模型对待检信息执行信息筛选操作得到目标类信息包括：

获取待检信息对应的待检用户行为数据；

将所述待检用户行为数据输入所述训练后的规则模型得到规则命中数据；

当所述规则命中数据占所有所述待检用户行为数据的比例大于第二预设值时，将所述待检信息设置为目标类信息。

结合本申请第一方面的第一种实施方式、第一方面的第二种实施方式、本申请第一方面的第三种实施方式、本申请第一方面的第四种实施方式和本申请第一方面的第五种实施方式，在本申请第一方面的第六种实施方式中，在利用训练后的规则模型对待检信息执行信息筛选操作得到目标类信息之后，还包括：

根据所述待检信息的后验数据对所述目标类信息进行过滤得到待上传信息，以便上传所述待上传信息；

其中，所述后验数据包括评论率、点赞率和负反馈率中的任一项或任几项的组合。

结合本申请第一方面的第六种实施方式，在本申请第一方面的第七种实施方式中，当所述后验数据包括评论率、点赞率和负反馈率时，根据所述待检信息的后验数据对所述目标类信息进行过滤得到待上传信息包括：

根据预设公式计算所述目标类信息的权重值；

根据所述权重值对所有所述目标类信息进行过滤得到所述待上传信息；

其中，所述预设公式为Q＝α·A+β·B+δ·C，Q为权重值，α为第一系数，A为评论率，β为第二系数，B为点赞率，δ为第三系数，C为负反馈率。

为实现上述目的，本申请第二方面提供了一种信息筛选装置，该信息筛选装置包括：

数据获取模块，用于获取样本信息对应的用户行为数据；

训练模块，用于通过目标数据训练规则模型；其中，所述目标数据为出现频率大于第一预设值的用户行为数据；

筛选模块，用于利用训练后的规则模型对待检信息执行信息筛选操作得到目标类信息。

为实现上述目的，本申请第三方面提供了一种电子设备，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

获取样本信息对应的用户行为数据；

为实现上述目的，本申请第四方面提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上任一项所述信息筛选方法的步骤。

可见，本申请通过获取样本信息对应的用户行为数据训练规则模型，使得规则模型能够基于训练过程中构建的规则对待检信息执行信息筛选得到与样本信息属于同一类别的目标类信息。由于本申请中用于训练规则模型的目标数据为出现频率大于第一预设值的用户行为数据，目标数据能够成为描述样本信息主要特征的数据，因此利用目标数据训练的规则模型能够对待检信息中与样本信息相似的信息进行高效且准确的筛选，本申请的信息筛选过程可以快速筛选特定类型的信息，提高了信息审核的效率。本申请同时还提供了信息筛选装置、电子设备和存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例的一种信息筛选系统的一种组成架构示意图；

图2示出了本申请实施例的一种信息筛选方法的流程示意图；

图3示出了本申请实施例的一种规则模型训练方法的流程示意图；

图4示出了本申请实施例的另一种规则模型训练方法的流程示意图；

图5示出了本申请实施例的一种利用规则模型筛选信息的方法的流程示意图；

图6示出了本申请实施例的一种标题夸张类视频的筛选方法的流程示意图；

图7示出了本申请实施例的一种问题视频的筛选原理示意图；

图8示出了本申请实施例的一种信息筛选装置的结构示意图；

图9示出了本申请实施例的一种电子设备的一种组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着移动互联网的发展，用户可以通过各种社交平台发布文字、图片以及视频信息。但是用户发布的信息往往可能存在质量问题，例如，目前短视频内容的形式层出不穷，部分视频作者为了吸引用户点击，往往会选取一些特别夸张的标题，即标题党，除此之外，还有一些作者对视频随意剪切，导致视频内容残缺不全，十分影响用户体验，传统的人工审查不可能对所有视频逐一审查，审查的效率较低，即便是抽查对于部分时长较长的视频也难以完全播放后去评估。基于上述视频审查技术中存在种种缺陷，本申请通过以下几个实施例提供新的信息筛选方案，能够快速筛选特定类型的信息，提高了信息审核的效率。

为了便于理解本申请的信息筛选方法，下面对于本申请的信息筛选方法所适用的系统进行介绍。参见图1，其示出了本申请实施例的一种信息筛选系统的一种组成架构示意图。

如图1所示，本申请实施例提供的信息筛选系统包括：电子设备10、行为数据库20和业务服务器30，电子设备10、行为数据库20和业务服务器30之间通过网络实现通信连接。

行为数据库20中可以存储有多个信息，行为数据库20中的信息可以按照特定的类别划分依据进行分类存储，例如行为数据库20中可以存储有标题夸张类视频的用户行为数据、内容与标题不符类视频的用户行为数据或内容不完整类视频的用户行为数据等。当然行为数据库20中除了可以包括视频用户行为数据之外，还可以包括图片信息的用户行为数据、文本信息的用户行为数据。需要说明的是，用户行为数据指描述用户行为的数据，用户行为指用户在使用产品时产生的一系列操作，如点击、播放、评论、点赞、转发、收藏以及反馈与举报等操作。行为数据库20中存储的信息可以视为用于训练规则模型的样本，使用不同类型的用户行为数据可以使规则模型具有不同的信息筛选能力。电子设备10为训练规则模型并利用训练后的规则模型执行信息筛选操作的装置，电子设备10中的规则模型可以按照特定的周期更新，以便提升筛选的准确度。业务服务器30为存储业务数据的服务器，具体的业务服务器30可以为视频发布平台、图片发布平台或文本发布平台等信息发布平台的业务服务器30，业务服务器30中可以存储用户在各个信息发布平台上发表信息以及其他用户对该信息的用户行为数据。在本实施例中电子设备10根据行为数据库20中存储的特定类型的数据训练规则模型，以使训练后的规则模型能够将业务服务器中存储的待检信息进行筛选得到目标类型的信息。通过上述基于规则模型进行筛选的操作，无需人工参与到具体视频内容审核过程，可以快速筛选特定类型的信息，提高了信息审核的效率。

下面对信息筛选系统的信息筛选过程进行详细介绍。

参见图2，其示出了本申请实施例的一种信息筛选方法的流程示意图，本实施例的方法可以包括：

S101，电子设备从行为数据库获取样本信息对应的用户行为数据；

其中，本实施例的行为数据库中可以存储有多个已发布信息的用户行为数据，例如当已发布信息为新闻类视频时，该已发布信息的用户行为数据可以包括用户对于该信息的评论、反馈信息以及举报信息等。由于用户行为数据是用户在阅读、观看或收听已发布信息的之后执行的一系列操作，因此信息与用户行为数据相互对应。需要说明的是，上述提到的已发布信息可以为图片、视频、文字或音频，在此不对已发布信息的形式进行限定。

本实施例中可以根据已发布信息的类别添加标签。例如，当已发布信息为关于足球比赛的视频，可以为该已发布信息添加体育类标签；当已发布信息为关于歌唱比赛的视频，可以为该已发布信息添加音乐类标签。在行为数据库在存储已发布信息的用户行为数据时，可以按照用户行为数据所对应的已发布信息的标签进行聚类。本实施例中提到的样本信息指属于同一类别的已发布信息，本实施例获取的是同一类别的已发布信息的用户行为数据。在本步骤之前还可以存在以下操作：当接收到模型训练指令，解析模型训练指令确定目标类型，将信息类型为目标类型的已发布信息设置为样本信息。上述通过解析模型训练指令得到的目标类型为需要训练后的规则模型所能够识别的信息类型。

举例说明上述获取样本信息的用户行为数据的过程：行为数据库中存储有编号1～10的已发布数据的用户行为数据，编号1、2、3、4和5的已发布数据为养生类短视频，编号6、7和8的已发布数据为脱口秀音频，编号为9和10的已发布信息为动物图片。当本实施例需要对养生类短视频进行筛选时，可以将标签为养生的1、2、3、4和5的已发布数据作为样本信息，获取样本信息的用户行为数据。在获取养生类短视频对应的用户行为数据之后，可以执行S102以及S103的模型训练和信息筛选操作。在后续操作中训练得到的规则模型具有识别养生类短视频的能力。

当然，上述举例是将已发布信息的内容作为信息划分以及筛选的依据，本实施例还可以按照已发布信息的信息质量的角度实现用户行为数据的获取。例如行为数据库中存储有编号1～10的已发布数据的用户行为数据，编号1、2、3、4和5的已发布数据为标题夸张的短视频，编号6、7和8的已发布数据为内容残缺不全的短视频，编号为9和10的已发布信息为传播虚假信息的短视频。当本实施例需要对标题夸张的短视频进行筛选时，可以将标签为养生的1、2、3、4和5的已发布数据作为样本信息，获取样本信息的用户行为数据。在获取标题夸张短视频对应的用户行为数据之后，可以执行S102以及S104的模型训练和信息筛选操作。在后续操作中训练得到的规则模型具有识别标题夸张短视频的能力。

S102，电子设备通过目标数据训练规则模型；

其中，本实施例建立在获取了样本信息对应的用户行为数据的基础上，获取的用户行为数据为用户在阅读、观看或收听样本信息后，针对样本信息内容产生的一系列操作，如点击、播放、评论、点赞、转发、收藏、反馈与举报等操作。因此用户行为数据可以反映样本信息的质量、类别以及对于该样本信息的接受程度。例如，当一则样本信息的大多数评论信息都在讨论“越位”、“犯规”、“守门员”和“点球”时，可以判定该用户行为数据对应的样本信息为足球类信息；当一则样本信息的存在大量的举报且举报信息为“标题党”时，可以判定该用户行为数据对应的样本信息为标题与内容不符的信息。

由于用户行为数据是用户的操作，用户行为数据具有一定的不确定性，即可能存在无法反映样本信息的质量、类别以及对于该样本信息的接受程度的用户行为数据，因此为了提高用于训练规则模型的用户行为数据的识别率，本实施例通过将出现频率大于第一预设值的用户行为数据设置为目标数据，利用目标数据训练规则模型。例如，针对同一则短视频存在50条评论信息，有46条的评论内容为“标题党”，其余4条评论信息内容为“很好”，评论内容为“标题党”的出现频率为96％，第一预设值为60％，此时则可以将评论内容“标题党”作为用于训练规则模型的目标数据。而若50条评论信息中仅有10条评论内容为“标题党”，则说明评论内容“标题党”尚不能成为反映该短视频质量或类别信息，评论内容“标题党”不能作为用于训练规则模型的目标数据。作为一种可行的实施方式，本实施例训练的是正则匹配的规则模型，在规则模型稳定识别之后，积累到的数据可以作为样本，可以利用该样本训练有监督的机器学习模型，利用规则加机器学习来进一步提升准确率。机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

S103，业务服务器向电子设备发送待检信息；

其中，业务服务器可以为存储业务数据的服务器，例如业务服务器可以为视频发布平台、图片发布平台或文本发布平台等信息发布平台的业务服务器，业务服务器中可以存储用户在各个信息发布平台上发表信息以及其他用户对该信息的用户行为数据。由于每天信息发布平台上发布的信息数量可以达到千万数量级，因此业务服务器中存储的已发布信息无法全部执行如行为数据库中的类别划分或标签添加操作。本实施例中提到的待检信息为用户发表的未经过类别划分的信息以及该信息对应的待检用户行为信息。

S104，电子设备利用训练后的规则模型对待检信息执行信息筛选操作得到目标类信息。

本实施例中的通过对规则模型进行训练后，规则模型具有识别与样本信息属于相同类别的信息的能力，因此电子设备可以将未知类别的待检信息输入训练后的规则模型，以便将特定类型的目标类信息进行筛选。

本实施例通过获取样本信息对应的用户行为数据训练规则模型，使得规则模型能够基于训练过程中构建的规则对待检信息执行信息筛选得到与样本信息属于同一类别的目标类信息。由于本实施例中用于训练规则模型的目标数据为出现频率大于第一预设值的用户行为数据，目标数据能够成为描述样本信息主要特征的数据，因此利用目标数据训练的规则模型能够对待检信息中与样本信息相似的信息进行高效且准确的筛选，本实施例的信息筛选过程可以快速筛选特定类型的信息，提高了信息审核的效率。

请参见图3，其示出了本申请实施例的一种规则模型训练方法的流程示意图，本实施例是对图2对应的实施例中S102的具体描述，提供了通过正则表达式训练规则模型的技术方案，可以将本实施例与图2对应的实施例相结合得到更为优选的实施方式，本实施例可以包括以下步骤：

S201，生成目标数据对应的第一正则表达式；

S202，利用第一正则表达式训练规则模型。

其中，目标数据为出现频率大于第一预设值的用户行为数据，因此目标数据能够良好的反映用户对于样本数据的普遍评价。需要说明的是，同一类别的信息的用户行为数据具有一定的相似性，例如一段美食视频所对应的评论信息可以包括“好吃”、“美味”或“馋了”等关键词。本实施例中目标数据所对应的样本信息为属于同一类的信息，因此根据目标数据可以确定样本信息所在类别对应的用户行为数据的特征。正则表达式又称规则表达式，可以用于检索、替换那些符合特定的文本。本实施例根据目标数据构建第一正则表达式，由于目标数据可以包括点击量、播放量、评论信息和举报信息等内容，因此第一正则表达式可以为基于用户行为数据的正则表达式。本实施例不限定第一正则表达式的数量，在得到第一正则表达式后，可以利用所有的第一正则表达式训练规则模型，以使训练后的规则模型具备识别与样本信息类别相同的其他信息的能力。

需要说明的是，使用第一正则表达式构建规则时，可以综合考虑结果的精确率与召回率。规则数量越多，每条规则的层次越复杂，模型的精确率就会越高，但会使得模型的泛化能力降低，即适应性变差，不能感知某些用户较为隐晦的表达，所以召回率会较低，并且要避免规则过于复杂时导致自动化监控的时间与运算成本过高。规则数量较少时，模型层次较简单，模型的精确率会降低，但是由于规则建立得比较“广泛”，因此能发现很多较为隐晦的表达，因此召回率会较高。

请参见图4，其示出了本申请实施例的另一种规则模型训练方法的流程示意图，本实施例是对图2对应的实施例中S102的具体描述，提供了结合正则表达式与交叉验证操作训练规则模型的技术方案，可以将本实施例与图2对应的实施例相结合得到更为优选的实施方式，本实施例可以包括以下步骤：

S301，获取样本信息的评论类数据、负反馈类数据和举报类数据；

其中，评论类数据为用户对于样本信息的评论内容，负反馈类数据为用户对于样本信息的反馈内容，举报类数据为用于对于样本信息的举报内容。其中，负反馈类数据中可以包括描述音画不同步的反馈、播放卡帧的反馈或用户自定义的反馈内容，举报类数据中可以包括举报样本信息存在内容违规、虚假或侵犯版权行为的举报内容。

S302，生成目标评论类数据对应的初始正则表达式；

其中，在本步骤之前可以按照出现频率从评论类数据、负反馈类数据和举报类数据中筛选得到目标评论类数据、目标负反馈类数据和目标举报类数据。具体的，目标评论类数据在所有评论类数据中的出现频率大于第一预设值，目标负反馈类数据在所有负反馈类数据中的出现频率大于第一预设值，目标举报类数据在所有举报类数据中的出现频率大于第一预设值。

S303，利用目标负反馈类数据和目标举报类数据对初始正则表达式执行交叉验证操作；

S304，根据交叉验证结果修正初始正则表达式得到第二正则表达式；

本实施例从用户行为数据的角度进行挖掘，目标评论类数据可以一定程度上反映出该样本信息可能存在的问题或对应的类型，因此本实施例抽取了部分能反映视频具体特征的典型评论进行规则构建，同时用户提交的负反馈与举报的数据可以与规则识别出来的内容进行交叉验证。通过利用目标负反馈类数据和目标举报类数据对初始正则表达式执行交叉验证操作，能够提高用于训练规则模型的正则表达式的质量，进而能够提升训练后的规则模型的检验准确率。

S305，利用第二正则表达式训练规则模型；

由于本实施例用于训练的规则模型经过交叉验证，因此能够提高规则模型识别信息的准确率。

请参见图5，其示出了本申请实施例的一种利用规则模型筛选信息的方法的流程示意图，本实施例是对图2对应的实施例中S104的具体描述，提供了利用规则模型执行信息筛选操作得到目标类信息的技术方案，可以将本实施例与图2对应的实施例相结合得到更为优选的实施方式，本实施例可以包括以下步骤：

S401，获取待检信息对应的待检用户行为数据；

其中，待检信息可以为网络上用户实时发布的信息，待检用户行为数据为待检信息对应的点击、播放、评论、点赞、转发、收藏、反馈与举报等用户行为数据。

S402，将待检用户行为数据输入训练后的规则模型得到规则命中数据；

其中，本实施例可以利用训练后的规则模型对每一则待检信息对应的待检用户行为数据进行正则匹配，将符合正则表达式的待检用户行为数据设置为规则命中数据。

S403，当规则命中数据占所有待检用户行为数据的比例大于第二预设值时，将待检信息设置为目标类信息。

由于用户行为数据具有不可控性，S401中确定的待检用户行为数据中可以存在部分干扰数据，因此本实施例对于规则命中数据执行基于出现比例的筛选，将规则命中数据占所有待检用户行为数据的比例大于第二预设值的待检信息设置为目标类信息。举例说明上述实施例的过程，例如第二预设值为60％，存在一则待检信息A的100条待检用户行为数据中有20条符合规则模型的正则表达式，即存在20条规则命中数据，规则命中数据占所有待检用户行为数据的比例为20％，此时该待检信息A不为目标类信息。当另一则待检信息B的80条待检用户行为数据中有60条符合规则模型的正则表达式，即存在60条规则命中数据，规则命中数据占所有待检用户行为数据的比例为75％，此时该待检信息B为目标类信息。

作为对于图2对应实施例的进一步补充，本申请实施例提供了一种目标类信息上传方法，本实施例为图2对应的实施例中获得目标类信息后的后续操作，本实施例提供了按照权重值上传目标类信息的技术方案，可以将本实施例与图2对应的实施例相结合得到更为优选的实施方式，本实施例可以包括：

根据待检信息的后验数据对目标类信息进行过滤得到待上传信息，以便上传待上传信息；其中，后验数据包括评论率、点赞率和负反馈率中的任一项或任几项的组合。

具体的，当后验数据包括评论率、点赞率和负反馈率时，上述根据待检信息的后验数据对目标类信息进行过滤得到待上传信息的过程可以包括以下步骤：

步骤1：根据预设公式计算目标类信息的权重值；

步骤2：根据权重值对所有目标类信息进行过滤得到待上传信息；

其中，预设公式为Q＝α·A+β·B+δ·C，Q为权重值，α为第一系数，A为评论率，β为第二系数，B为点赞率，δ为第三系数，C为负反馈率。

其中，本实施例基于目标类信息的权重值对目标类信息进行了过滤，可以仅将权重值较大的目标类信息进行上传，以便优先上报曝光率高的信息。

为了便于理解本申请实施例的方案，下面结合本申请实施例的方案所适用的实际应用场景进行介绍。

参见图6，其示出了本申请实施例的一种标题夸张类视频的筛选方法的流程示意图，本实施例的方法可以包括步骤：

S501，获取数据库中属于标题夸张类型的样本视频，并确定样本视频对应的评论类数据、负反馈类数据和举报类数据；

其中，本实施例中的数据库中可以存储多种类型的样本视频，且数据库可以根据视频类型对样本视频进行分区存储。本实施例的目的在于筛选出标题夸张类视频，即需要训练对标题夸张类视频具有识别能力的规则模型。

S502，生成目标评论类数据对应的初始正则表达式；

S503，利用目标负反馈类数据和目标举报类数据对初始正则表达式执行交叉验证操作；

其中，目标评论类数据、目标负反馈类数据和目标举报类数据的出现频率均大于第一预设值。

S504，根据交叉验证结果修正初始正则表达式得到第二正则表达式；

S505，利用第二正则表达式训练规则模型；

其中，本实施例使用正则表达式构建规则时，需要同时考虑结果的精确率与召回率。规则数量越多，每条规则的层次越复杂，模型的精确率就会越高，但会使得模型的泛化能力降低，即适应性变差，不能感知某些用户较为隐晦的表达，所以召回率会较低，并且要避免规则过于复杂时导致自动化监控的时间与运算成本过高；规则数量较少，层次较简单，模型的精确率会降低，但是由于规则建立得比较“广泛”，因此能发现很多较为隐晦的表达，因此召回率会较高。

S506，获取待检信息对应的待检用户行为数据；

其中，本实施例可以存在获取每天现网的海量内容数据及其相对应的用户行为数据与后验数据的操作。

S507，将待检用户行为数据输入训练后的规则模型得到规则命中数据；

其中，本实施例可以利用拟合好的规则模型对待检用户行为数据中每一条评论进行正则匹配，如规则“.*标题.*(误|举报|恶心)”可以把待检用户行为数据中所有包含标题误导的评论识别出来，再统计单篇内容的规则命中数量，与改篇内容评论总量进行比较，统计命中数量所占比例，利用预设的阈值即可筛选出符合要求的内容。

S508，当规则命中数据占所有待检用户行为数据的比例大于第二预设值时，将待检信息设置为目标类信息。

S509，根据待检信息的后验数据对目标类信息进行过滤得到待上传信息，以便上传待上传信息；

其中，本实施例可以利用后验数据对统计好的标题夸张类视频进行二次筛选过滤，如使用评论率(评论数量除以播放量)、点赞率以及负反馈率等进行过滤，以便保留优质视频。具体的后验数据可以包括如PV/VV(Page View/Visit View，浏览量/访问次数)、点赞数、评论数以及转发数等。

本实施例前期需要对评论数据、负反馈与举报数据等用户行为数据以及内容的后验数据进行分析，挖掘用户的特点和其在产品中的使用习惯，形成经验，最后构建整套工具的流程与框架。本实施例除了可以筛选出存在标题夸张的视频外，还可以筛选出其他类型的问题视频，请参见图7，其示出了本申请实施例的一种问题视频的筛选原理示意图，通过用户行为数据和对应的有问题的视频进行分析入手，筛选出高频出现的评论或者反馈内容，以此构建正则表达式训练规则模型，再利用规则模型找出高潜的问题视频，结合后验数据进行二次筛选，最后得到待上传信息。本实施例通过分析用户的使用习惯与特征，构建业务适用的规则模型，利用内容的评论互动数据、负反馈与举报数据以及内容的后验数据，对多次命中规则监控的内容提取出来，及时发现有质量问题的内容。本实施例利用评论数据、负反馈数据与举报数据以及内容的后验数据，对多次命中规则监控的内容提取出来，可以及时发现有质量问题的内容，并把有问题的内容及时上传，以自动化监控代替人工审查。与传统的人工抽查方式相比，本实施例可以高效快速地识别出问题视频，为视频内容质量的监控提供了有效的手段。

请参见图8，其示出了本申请实施例的一种信息筛选装置的结构示意图，该装置可以包括：

数据获取模块100，用于获取样本信息对应的用户行为数据；

训练模块200，用于通过目标数据训练规则模型；其中，目标数据为出现频率大于第一预设值的用户行为数据；

筛选模块300，用于利用训练后的规则模型对待检信息执行信息筛选操作得到目标类信息。

可见，本实施例通过获取样本信息对应的用户行为数据训练规则模型，使得规则模型能够基于训练过程中构建的规则对待检信息执行信息筛选得到与样本信息属于同一类别的目标类信息。由于本实施例中用于训练规则模型的目标数据为出现频率大于第一预设值的用户行为数据，目标数据能够成为描述样本信息主要特征的数据，因此利用目标数据训练的规则模型能够对待检信息中与样本信息相似的信息进行高效且准确的筛选，本实施例的信息筛选过程可以快速筛选特定类型的信息，提高了信息审核的效率。

进一步的，训练模块200包括：

第一正则表达式生成单元，用于生成目标数据对应的第一正则表达式；

第一模型训练单元，用于利用第一正则表达式训练规则模型。

进一步的，数据获取模块100具体为用于获取样本信息的评论类数据、负反馈类数据和举报类数据的模块。

进一步的，训练模块200包括：

初始正则表达式生成单元，用于生成目标评论类数据对应的初始正则表达式；

交叉验证单元，用于利用目标负反馈类数据和目标举报类数据对初始正则表达式执行交叉验证操作；

第二正则表达式生成单元，用于根据交叉验证结果修正初始正则表达式得到第二正则表达式；

第二模型训练单元，用于利用第二正则表达式训练规则模型；

进一步的，筛选模块300包括：

用户行为数据获取单元，用于获取待检信息对应的待检用户行为数据；

数据输入模块，用于将待检用户行为数据输入训练后的规则模型得到规则命中数据；

设置单元，用于当规则命中数据占所有待检用户行为数据的比例大于第二预设值时，将待检信息设置为目标类信息。

进一步的，还包括：

上传模块，用于根据待检信息的后验数据对目标类信息进行过滤得到待上传信息，以便上传待上传信息；

其中，后验数据包括评论率、点赞率和负反馈率中的任一项或任几项的组合。

进一步的，当后验数据包括评论率、点赞率和负反馈率时，上传模块包括：

权重计算单元，用于根据预设公式计算目标类信息的权重值；

过滤单元，用于根据权重值对所有目标类信息进行过滤得到待上传信息；

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

另一方面，本申请还提供了一种电子设备，如参见图9，其示出了本申请实施例的一种电子设备的一种组成结构示意图，本实施例的电子设备2100可以包括：处理器2101和存储器2102。

可选的，该电子设备还可以包括通信接口2103、输入单元2104和显示器2105和通信总线2106。

处理器2101、存储器2102、通信接口2103、输入单元2104、显示器2105、均通过通信总线2106完成相互间的通信。

在本申请实施例中，该处理器2101，可以为中央处理器(Central ProcessingUnit，CPU)，特定应用集成电路，数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。

该处理器可以调用存储器2102中存储的程序。具体的，处理器可以执行以下信息筛选方法的实施例中电子设备侧所执行的操作。

存储器2102中用于存放一个或者一个以上程序，程序可以包括程序代码，所述程序代码包括计算机操作指令，在本申请实施例中，该存储器中至少存储有用于实现以下功能的程序：

获取样本信息对应的用户行为数据；

在一种可能的实现方式中，该存储器2102可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、以及至少一个功能(比如话题检测功能等)所需的应用程序等；存储数据区可存储根据计算机的使用过程中所创建的数据。

此外，存储器2102可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

该通信接口2103可以为通信模块的接口，如GSM模块的接口。

本申请还可以包括显示器2104和输入单元2105等等。

当然，图9所示的电子设备的结构并不构成对本申请实施例中电子设备的限定，在实际应用中电子设备可以包括比图9所示的更多或更少的部件，或者组合某些部件。

另一方面，本申请实施例还提供了一种存储介质，该存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，用于实现如上任意一个实施例中所描述的信息筛选方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种信息筛选方法，其特征在于，包括：

获取样本信息对应的用户行为数据；

2.根据权利要求1所述信息筛选方法，其特征在于，所述通过目标数据训练规则模型包括：

生成所述目标数据对应的第一正则表达式；

利用所述第一正则表达式训练所述规则模型。

3.根据权利要求1所述信息筛选方法，其特征在于，所述获取样本信息对应的用户行为数据包括：

4.根据权利要求3所述信息筛选方法，其特征在于，所述通过目标数据训练规则模型包括：

生成目标评论类数据对应的初始正则表达式；

利用所述第二正则表达式训练所述规则模型；

5.根据权利要求1所述信息筛选方法，其特征在于，所述利用训练后的规则模型对待检信息执行信息筛选操作得到目标类信息包括：

获取待检信息对应的待检用户行为数据；

6.根据权利要求1至5任一项所述信息筛选方法，其特征在于，在利用训练后的规则模型对待检信息执行信息筛选操作得到目标类信息之后，还包括：

7.根据权利要求6所述信息筛选方法，其特征在于，当所述后验数据包括评论率、点赞率和负反馈率时，根据所述待检信息的后验数据对所述目标类信息进行过滤得到待上传信息包括：

根据预设公式计算所述目标类信息的权重值；

8.一种信息筛选装置，其特征在于，包括：

数据获取模块，用于获取样本信息对应的用户行为数据；

9.一种电子设备，其特征在于，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

获取样本信息对应的用户行为数据；

10.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上权利要求1至7任一项所述信息筛选方法的步骤。