CN112395556A

CN112395556A - 异常用户检测模型训练方法、异常用户审核方法及装置

Info

Publication number: CN112395556A
Application number: CN202011062609.3A
Authority: CN
Inventors: 李益永; 井雪; 孙准; 黄秋实; 项伟
Original assignee: Guangzhou Baiguoyuan Network Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-02-23
Anticipated expiration: 2040-09-30
Also published as: WO2022068600A1; CN112395556B

Abstract

本发明实施例公开了一种异常用户检测模型训练方法、异常用户审核方法及装置，包括：获取样本用户的评论数据，评论数据包括样本用户评论的视频和评论内容，从样本用户的所有评论内容中确定出目标评论内容，以通过目标评论内容获取样本用户为异常用户的概率；对评论内容进行统计以获得样本用户的评论内容的统计特征；确定样本用户评论的视频为违规视频的违规分数；将样本用户为异常用户的概率、统计特征以及违规分数作为训练样本，样本用户的标签作为样本标签来训练异常用户检测模型。实现了从评论数据中提取与异常行为具有强关联关系的高层次特征来训练异常用户检测模型，提高了异常用户检测模型预测用户为异常用户的概率的准确度。

Description

异常用户检测模型训练方法、异常用户审核方法及装置

技术领域

本发明实施例涉及内容审核技术领域，尤其涉及一种异常用户检测模型训练方法、异常用户审核方法、异常用户检测模型训练装置、异常用户审核装置、电子设备及存储介质。

背景技术

随着互联网技术发展，各种视频平台进入人们的日常生活中，人们可以通过短视频、直播等视频平台观看视频或者上传视频，然而，由于用户的多样性以及为了维护健康的网络环境需求，需要对用户进行审核以确定用户是否为异常用户。

在对用户进行审核中，异常用户可以是具有异常行为的违规用户，为了保护未成年人，异常用户是审核重点。目前主要是根据用户对视频的评论内容来检测出异常用户进行惩罚，然而，视频存在信号不准确的问题，如无法准确确定用户评论的视频是否为禁止未成年观看的视频，是否是色情视频；另外，用户对视频的评论内容中与异常行为强关联的词汇非常少，异常用户的评论内容也并非全部是与异常行为相关的内容；再者，异常用户具有对抗行为，如异常用户在评论中使用异常用户之间才可以理解的色情文字的变形词、甚至创造异常用户之间专用的词汇来避免被检测，造成无法从评论中提取与异常行为相关的特征来检测异常用户。

综上所述，在用户评论的视频信号不准确、评论内容中与异常行为强关联词汇少以及异常用户具有对抗行为的情况下，难以从用户的评论数据中提取出与异常行为具有强逻辑关系的特征来检测用户是否是异常用户。

发明内容

本发明实施例提供一种异常用户检测模型训练方法、异常用户审核方法及装置，以解决现有技术中难以从用户的评论数据中提取出与异常行为具有强逻辑关系的特征来检测用户是否是异常用户的问题。

第一方面，本发明实施例提供了一种异常用户检测模型训练方法，包括：

获取样本用户的评论数据，所述评论数据包括所述样本用户评论的视频和评论内容，所述样本用户为标注了异常用户标签和正常用户标签的用户；

从所述样本用户的所有评论内容中确定出目标评论内容，以通过所述目标评论内容获取所述样本用户为异常用户的概率；

对所述评论内容进行统计以获得所述样本用户的评论内容的统计特征；

确定所述样本用户评论的视频为违规视频的违规分数；

将所述样本用户为异常用户的概率、所述统计特征以及所述违规分数作为训练样本，所述样本用户的标签作为样本标签来训练异常用户检测模型。

第二方面，本发明实施例提供了一种异常用户审核方法，包括：

获取待审核用户的评论数据，所述评论数据包括所述待审核用户评论的视频以及评论内容；

从所述待审核用户的所有评论内容中确定出目标评论内容，以通过所述目标评论内容获取所述样本用户为异常用户的概率；

对所述评论内容进行统计以获得所述待审核用户的评论内容的统计特征；

确定所述待审核用户评论的视频为违规视频的违规分数；

将所述待审核用户为异常用户的第一概率、所述统计特征以及所述违规分数输入预先训练好的异常用户检测模型中得到所述待审核用户为异常用户的第二概率；

在所述第二概率大于预设阈值时，将所述待审核用户的用户标识发送到审核后台，以在所述审核后台对所述待审核用户进行审核；

其中，所述异常用户检测模型通过第一方面所述的异常用户检测模型训练方法所训练。

第三方面，本发明实施例提供了一种异常用户检测模型训练装置，包括：

样本用户评论数据获取模块，用于获取样本用户的评论数据，所述评论数据包括所述样本用户评论的视频和评论内容，所述样本用户为标注了异常用户标签和正常用户标签的用户；

概率获取模块，用于从所述样本用户的所有评论内容中确定出目标评论内容，以通过所述目标评论内容获取所述样本用户为异常用户的概率；

统计特征获取模块，用于对所述评论内容进行统计以获得所述样本用户的评论内容的统计特征；

视频违规分数确定模块，用于确定所述样本用户评论的视频为违规视频的违规分数；

模型训练模块，用于将所述样本用户为异常用户的概率、所述统计特征以及所述违规分数作为训练样本，所述样本用户的标签作为样本标签来训练异常用户检测模型。

第四方面，本发明实施例提供了一种异常用户审核装置，包括：

待审核用户评论数据获取模块，用于获取待审核用户的评论数据，所述评论数据包括所述待审核用户评论的视频以及评论内容；

概率获取模块，用于从所述待审核用户的所有评论内容中确定出目标评论内容，以通过所述目标评论内容获取所述样本用户为异常用户的概率；

统计特征获取模块，用于对所述评论内容进行统计以获得所述待审核用户的评论内容的统计特征；

视频违规分数确定模块，用于确定所述待审核用户评论的视频为违规视频的违规分数；

异常用户检测模块，用于将所述待审核用户为异常用户的第一概率、所述统计特征以及所述违规分数输入预先训练好的异常用户检测模型中得到所述待审核用户为异常用户的第二概率；

审核模块，用于在所述第二概率大于预设阈值时，将所述待审核用户的用户标识发送到审核后台，以在所述审核后台对所述待审核用户进行审核；

其中，所述异常用户检测模型通过本发明第一方面所述的异常用户检测模型训练方法所训练。

第五方面，本发明实施例提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任一实施例所述的异常用户检测模型训练方法，和/或，本发明任一实施例所述的异常用户审核方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任一实施例所述的异常用户检测模型训练方法，和/或，本发明任一实施例所述的异常用户审核方法。

本发明实施例在获取样本用户的评论数据后，从样本用户的所有评论内容中确定出目标评论内容以获取样本用户为异常用户的概率，对评论内容进行统计以获得样本用户的评论内容的统计特征，确定样本用户评论的视频为违规视频的违规分数，将样本用户为异常用户的概率、统计特征以及违规分数作为训练样本，样本用户的标签作为样本标签来训练异常用户检测模型，一方面，从所有评论内容确定目标评论内容来获取样本用户为异常用户的概率，排除了用户评论中与异常行为无关的评论内容，建立了用户评论内容与异常行为之间的强关联性；另一方面，实现了通过统计特征来建立用户行为与异常行为的强关联关系；再一方面，对用户评论的所有视频计算违规分数，将违规分数作为视频与异常行为的关联特征，即可以从样本用户的评论数据中提取与异常行为具有强关联关系的高层次特征来训练异常用户检测模型，提高了异常用户检测模型预测用户为异常用户的概率的准确度，在审核时，从待审核用户的评论数据中提取上述高层次特征后，将高层次特征输入异常用户检测模型中得到待审核用户为异常用户的概率，由于异常用户检测模型概率准确度高，能够提取待审核用户评论内容中与异常行为强关联的高层次特征，预测待审核用户为异常用户的概率的准确性高，能够有效检测出异常用户送审，提高了异常行为的打击效率。

附图说明

图1是本发明实施例一提供的一种异常用户检测模型训练方法的步骤流程图；

图2是本发明实施例二提供的一种异常用户检测模型训练方法的步骤流程图；

图3是本发明实施例三提供的一种异常用户审核方法的步骤流程图；

图4是本发明实施例四提供的一种异常用户检测模型训练装置的结构框图；

图5是本发明实施例五提供的一种异常用户审核装置的结构框图；

图6是本发明实施例六提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

实施例一

图1为本发明实施例一提供的一种异常用户检测模型训练方法的步骤流程图，本发明实施例可适用于训练异常用户检测模型来检测异常用户的情况，该方法可以由本发明实施例的异常用户检测模型训练装置来执行，该异常用户检测模型训练装置可以由硬件或软件来实现，并集成在本发明实施例所提供的电子设备中，具体地，如图1所示，本发明实施例的异常用户检测模型训练方法可以包括如下步骤：

S101、获取样本用户的评论数据，所述评论数据包括所述样本用户评论的视频和评论内容，所述样本用户为标注了异常用户标签和正常用户标签的用户。

其中，异常用户可以是网络上具有违规行为的用户。

本发明实施例训练异常用户检测模型前，需要获取样本用户的评论数据作为训练数据，具体地，可以获取指定数量的样本用户，样本用户可以是标注了正常用户标签和异常用户标签的用户，如人工审核用户为正常用户或者异常用户后，对人工审核后的用户进行标注即可以得到样本用户，样本用户的评论数据可以是指样本用户对视频的评论内容以及所评论的视频，在一个示例中，样本用户为短视频平台、直播平台或者其他平台的用户，可以获取样本用户在各个平台上对多个短视频进行评论的评论内容、所评论的短视频作为样本用户的评论数据。

S102、从所述待审核用户的所有评论内容中确定出目标评论内容，以通过所述目标评论内容获取所述样本用户为异常用户的概率。

在本发明实施例中，可以预先训练第一分类模型和第二分类模型，其中，第一分类模型用于预测评论内容为异常用户的评论内容的分数，第二分类模型用于根据样本用户的评论内容预测样本用户属于异常用户的概率。具体地，将用户的每条评论内容转换为向量后，将每个向量输入到第一分类模型中得到向量对应的评论内容为异常用户的评论内容的分数，然后将排名在前的N个向量的评论内容作为目标评论内容，将目标评论内容的向量连接为一个总向量输入到第二分类模型中得到样本用户为异常用户的概率。

S103、对所述评论内容进行统计以获得所述样本用户的评论内容的统计特征。

本发明实施例中，统计特征代表了样本用户的评论内容中的行为规律与异常行为的关联，在一个可选实施例中，对于一个样本用户，可以对该样本用户的所有评论内容的向量进行聚类得到聚类结果，根据聚类结果确定样本用户的评论内容的统计特征，例如聚类结果包括聚类类别的数量、每个聚类类别的向量数量以及无法聚类的向量数量，则可以根据聚类类别的数量、每个聚类类别的向量数量以及无法聚类的向量数量来计算统计特征，在一个示例中，可以将排序在前的M个最大的聚类类别的向量数量、所有聚类类别的向量数量的n阶距、评论内容的数量、无法聚类的向量数量等作为统计特征。

S104、确定所述样本用户评论的视频为违规视频的违规分数。

在一个可选实施例中，可以预先训练违规检测模型，该违规检测模型可以预测视频的违规得分，可以将用户评论的所有视频输入该违规检测模型中得到每个视频的违规分数，将所有视频的违规分数求和得到用户评论的视频为违规视频的违规分数。

S105、将所述样本用户为异常用户的概率、所述统计特征以及所述违规分数作为训练样本，所述样本用户的标签作为样本标签来训练异常用户检测模型。

具体地，初始化异常用户检测模型后，随机提取一个样本用户的异常用户的概率、统计特征以及违规分数输入到异常用户检测模型后得到该样本用户为异常用户的概率，通过该概率与样本用户的标签来计算损失率，根据损失率调整模型参数直到模型收敛即可以得到训练好的异常用户检测模型。

实施例二

图2为本发明实施例二提供的一种异常用户检测模型训练方法的步骤流程图，本发明实施例在前述实施例一的基础上进行优化，具体地，如图2所示，本发明实施例的异常用户检测模型训练方法可以包括如下步骤：

S201、获取样本用户的评论数据，所述评论数据包括所述样本用户评论的视频和评论内容，所述样本用户为标注了异常用户标签和正常用户标签的用户。

S202、将所述样本用户的每条评论内容转换为向量。

具体地，评论内容为文字，需要将文字转换为向量，在一个示例中，可以预先训练向量转换模型，通过向量转换模型将评论内容转换为向量。在训练向量转换模型时，可以根据字典或者词典对评论内容进行标注，以评论内容为输入得到预测的向量，通过预测的向量和标注调整参数得到训练好的向量转换模型。在一个示例中，可以将样本用户的每条评论输入训练好的向量转换模型中得到每条评论内容对应的向量，该向量的维数可以是300维、500维等。

S203、针对每个向量，将所述向量输入预先训练好的第一分类模型中得到所述向量对应的评论内容为异常用户的评论内容的分数。

在本发明实施例中，第一分类模型可以通过以下方式训练：

将样本用户的标签设置为样本用户的评论内容的标签，以样本用户的评论内容的向量为训练样本，以评论内容的标签作为标签来训练第一分类模型。如异常用户的标签为1，正常用户的标签为0，则异常用户的所有评论内容的标签都为1，正常用户的所有评论内容都为0，无需对每条评论内容进行人工审核来标注标签，节省了人力成本。

在训练好第一分类模型后，对于每个样本用户，将样本用户的每条评论内容的向量输入预先训练好的第一分类模型中，通过第一分类模型预测该向量对应的评论内容为异常用户的评论内容的分数。

S204、将所述分数排名在前的指定数量个向量作为目标向量输入预先训练好的第二分类模型中，得到所述样本用户为异常用户的概率。

具体地，对样本用户的所有评论内容按照分数从大到小进行排序，由于分数越大说明该评论内容越有可能是异常用户的评论内容，可以将分数排序在前的指定数量的评论内容作为目标评论内容，将目标评论内容的向量拼接为一个总向量，将该总向量输入训练好的第二分类模型中得到样本用户为异常用户的概率。

其中，第二分类模型可以为预测用户为异常用户的概率的模型，在一个示例中，一条评论内容的向量可以为300维的向量，可以将一个样本用户的所有评论内容对应的多个向量中，将分数排名在前5的5个向量拼接为一个1500维的总向量输入第二分类模型，从而得到样本用户为异常用户的概率，该概率可以记为C1。

本发明实施例将样本用户的每条评论内容转换为向量后，先通过第一分类模型预测向量对应的评论内容为异常用户的评论内容的分数，定性分析了评论内容中含有异常行为内容的倾向，即样本用户的所有评论内容包含异常行为内容可能性的排序，从而可以选择排序在前指定数量个评论内容作为目标评论内容，将目标评论内容的向量输入第二分类模型中来预测样本用户为异常用户的概率，实现了从样本用户的所有评论内容中排除正常行为内容的评论内容，挖掘出含有异常行为内容的评论内容来预测样本用户为异常用户的概率，提高了概率的准确性。

S205、对所述向量进行聚类得到聚类结果，所述聚类结果包括聚类类别的数量、每个聚类类别的向量数量以及无法聚类的向量数量。

具体地，对于一个样本用户的所有评论内容的向量，可以通过聚类算法对所有向量进行聚类得到聚类结果，聚类结果可以包括聚类类别的数量、每个聚类类别的向量数量以及无法聚类的向量数量。其中，聚类算法可以是dbscan、 knn、k-means等聚类算法。

S206、根据所述聚类类别的数量、每个聚类类别的向量数量以及无法聚类的向量数量计算所述样本用户的评论内容的统计特征。

在一个可选实施例中，可以统计样本用户的评论内容的评论总数量，计算所有聚类类别的向量数量的n阶距，将评论总数量、n阶距以及无法聚类的向量数量作为统计特征。

在一个示例中，评论总数量记为C2，统计所有聚类类别的向量数量后，计算所有聚类类别的向量数量的平均值，计算所有聚类类别的向量数量相对于平均值的1阶距C3、2阶距C4和4阶距C5，其中，1阶距C3挖掘了样本用户的评论内容的整体相似程度，由于异常用户发送与异常行为相关的评论内容较多，正常用户发送评论内容比较随机，因此，1阶距C3越大，样本用户评论内容的相似度越高，样本用户越有可能是异常用户；2阶距C4挖掘了样本用户评论热点的个数，异常用户通常评论异常行为相关的热点，即异常用户评论的特点集中，正常用户评论特点比较分散；4阶距C5挖掘了敏感度更高的热点个数，可以对评论热点相对集中的样本用户进行细分。

其中，n阶距的计算公式如下：

上述公式中，μ_n为n阶距，n为自然数，c为所有聚类类别的向量数量的平均值，f(x)d为概率密度函数，x为聚类类别的向量数量。

在另一可选实施例中，还可以对聚类类别的向量数量按照正向排序得到排序在前的m个聚类类别，计算排序在第一的聚类类别的向量数量与聚类类别的数量的比值得到第一比值，计算排序在第一的聚类类别的向量数量与排序在第二的聚类类别的向量数量的比值得到第二比值，计算排序在第一的聚类类别的向量数量与评论总数量的比值得到第三比值，将排序在前的m个聚类类别的向量数量、第一比值、第二比值以及第三比值作为统计特征。

在一个示例中，每个聚类类别包括至少一个向量，则可以按照每个聚类类别所包含的向量数量对所有聚类类别从大到小进行排序，从而得到排序在前3 的3个聚类类别，分别记排序在前3的聚类类别的向量数量记为C6、C7、C8，然后进行以下计算：

计算排序第一的聚类类别的向量数量C6与聚类类别的数量的比值C9，比值C9挖掘了评论内容的热点话题在评论内容的所有话题中的突出程度；

计算排序第一的聚类类别的向量数量C6与排序第二的聚类类别的向量数量C7的比值C10，比值C10挖掘了评论内容的热点话题的相对突出程度；

计算排序在第一的聚类类别的向量数量C6与评论总数量C2的比值C11，比值C11挖掘了热点话题的评论内容在所有评论内容中的比例。

通过上述统计计算后，可以将评论总数量C2、1阶距C3、2阶距C4、4阶距C5、排序在前3的聚类类别的向量数量C6、C7、C8、比值C9、比值C10、比值C11以及无法聚类的向量数量C12作为统计特征。

当然，在实际应用中，本领域技术人员还可根据聚类结果计算其他统计特征，本发明实施例对统计特征所包含的内容不加以限制。

本发明实施例对聚类得到聚类结果，并根据聚类结果计算统计特征，通过统计特征挖掘样本用户的评论行为规律与异常行为的关联，如异常用户批量发送评论现象极多，异常用户发送评论的目的性强，热点评论话题集中。

S207、针对所述样本用户评论的每个视频，将所述视频输入预先训练好的违规检测模型中得到所述视频为第一违规视频的第一概率，以及所述视频为第二违规视频的第二概率。

其中，第一违规视频和第二违规视频可以是表征异常行为的两种类型的视频，如具有异常行为倾向的用户比较喜欢评论以指定年龄段人物(0-18岁)为主体的视频和色情视频，则第一违规视频可以是以指定年龄段人物为主体的视频，第二违规视频可以是色情视频。

在实际应用中可以预先获取训练数据来训练好违规检测模型，该违规检测模型可以检测视频为第一违规视频的第一概率，视频为第二违规视频的第二概率。对于样本用户的所有视频，可以将所有视频依次输入违规检测模型中，得到各个视频为第一违规视频的第一概率，视频为第二违规视频的第二概率。

在一可选实施例中，在通过违规检测模型得到各个视频为第一违规视频的第一概率，视频为第二违规视频的第二概率后，可以从样本用户评论的视频中随机选取指定数量的视频，确定指定数量的视频的第一复审概率和第二复审概率，针对指定数量的视频中的每个视频，将第一复审概率作为第一概率，以及将第二复审概率作为第二概率。具体地，可以随机选取指定数量的视频推送到视频审核后台，通过视频审核后台进行人工审核来确定送审视频为第一违规视频的第一复审概率，视频为第二违规视频的第二复审概率，将送审视频的第一复审概率作为第一概率，以及将第二复审概率作为第二概率。通过人工干预确定视频为第一违规视频的第一概率，视频为第二违规视频的第二概率，可以提高概率的准确度，避免违规检测模型无法准确预测，造成视频是否是违规视频的信号不准确的问题。

S208、计算所述样本用户评论的视频的第一概率的和值得到第一违规分数，以及计算第二概率的和值得到第二违规分数。

具体地，对样本用户评论的所有视频的第一概率求和得到第一违规分数 C13，样本用户评论的所有视频的第二概率求和得到第二违规分数C14。

本发明实施例将样本用户评论的视频为第一违规视频和第二违规视频的违规分数作为特征，由于异常用户评论的视频通常是与异常行为相关的违规视频，通过违规分数可以挖掘出用户评论的视频与异常行为的关联，即样本用户评论的视频的违规分数越高，样本用户有更高的概率是异常用户。

S209、将所述样本用户为异常用户的概率、所述统计特征以及所述违规分数作为训练样本，所述样本用户的标签作为样本标签来训练异常用户检测模型。

具体地，将上述S204-S209得到的C1-C14作为一个训练样本，样本用户的标签作为样本标签来训练异常用户检测模型，即从样本用户的评论数据中提取的特征x＝[c₁,c₂,…,c₁₄]，样本用户的标签作为训练标签。

本发明实施例将样本用户的评论内容转换为向量后，将向量输入预先训练好的第一分类模型中得到向量对应的评论内容为异常用户的评论内容的分数，将分数排名在前的指定数量个向量作为目标向量输入预先训练好的第二分类模型中，得到样本用户为异常用户的概率，在对向量进行聚类得到聚类结果后，根据聚类结果中的聚类类别的数量、每个聚类类别的向量数量以及无法聚类的向量数量计算样本用户的评论内容的统计特征，针对样本用户评论的每个视频，将视频输入预先训练好的违规检测模型中得到视频为第一违规视频的第一概率，以及视频为第二违规视频的第二概率，计算样本用户评论的视频的第一概率的和值得到第一违规分数，以及计算第二概率的和值得到第二违规分数，将样本用户为异常用户的概率、统计特征以及违规分数作为训练样本，样本用户的标签作为样本标签来训练异常用户检测模型。实现了从样本用户的评论数据中提取与异常行为具有强关联关系的概率、统计特征以及违规分数作为高层次特征来训练异常用户检测模型，提高了异常用户检测模型预测用户为异常用户的概率的准确度，在审核时，从待审核用户的评论数据中提取上述高层次特征后，将高层次特征输入异常用户检测模型中得到待审核用户为异常用户的概率，由于异常用户检测模型概率准确度高，能够提取待审核用户评论内容中与异常行为强关联的高层次特征，预测待审核用户为异常用户的概率的准确性高，能够有效检测出异常用户送审，提高了异常行为的打击效率。

实施例三

图3为本发明实施例三提供的一种异常用户审核方法的步骤流程图，本发明实施例可适用于审核异常用户的情况，该方法可以由本发明实施例的异常用户审核装置来执行，该异常用户审核装置可以由硬件或软件来实现，并集成在本发明实施例所提供的电子设备中，具体地，如图3所示，本发明实施例的异常用户审核方法可以包括如下步骤：

S301、获取待审核用户的评论数据，所述评论数据包括所述待审核用户评论的视频以及评论内容。

待审核用户可以是短视频、直播等平台的用户，在需要对待审核用户进行审核时，可以获取该待审核用户评论的视频，以及对视频评论的评论内容。

S302、从所述待审核用户的所有评论内容中确定出目标评论内容，以通过所述目标评论内容获取所述样本用户为异常用户的概率。

S303、对所述评论内容进行统计以获得所述待审核用户的评论内容的统计特征。

S304、确定所述待审核用户评论的视频为违规视频的违规分数。

步骤S302-S304可以参数实施例一中S102-S104，或者参考实施例二 S202-S209，在此不再详述。

S305、将所述待审核用户为异常用户的第一概率、所述统计特征以及所述违规分数输入预先训练好的异常用户检测模型中得到所述待审核用户为异常用户的第二概率。

具体地，可以先通过实施例一或实施例二所提供的异常用户检测模型训练方法训练好异常用户检测模型，通过S301-S304从待审核用户的评论数据中获取到待审核用户为异常用户的第一概率、统计特征以及违规分数后，将待审核用户为异常用户的第一概率、统计特征以及违规分数输入到异常用户检测模型，得到待审核用户为异常用户的第二概率，其中，异常用户可以是网络上具有违规行为的用户。

S306、在所述第二概率大于预设阈值时，将所述待审核用户的用户标识发送到审核后台，以在所述审核后台对所述待审核用户进行审核。

如果第二概率大于阈值，说明该待审核用户有可能是异常用户，为了保证准确性，可以将该待审核用户的用户标识(uid)发送到审核后台，在审核后台进行人工审核以确定该待审核用户是否是异常用户。如果该待审核用户经人工审核后确定是异常用户，则为该待审核用户标注异常用户标签，否则标签正常用户标签，在接收审核后台发送的用户标识以及用户标识的标签后，将用户标识关联的用户作为样本用户以定时重训练异常用户检测模型，可以以最新的样本数据重训练异常用户检测模型，提高模型准确度。

本发明实施例获取待审核用户的评论数据后，从待审核用户的所有评论内容中确定出目标评论内容，以通过目标评论内容获取样本用户为异常用户的概率，对评论内容进行统计以获得待审核用户的评论内容的统计特征，确定待审核用户评论的视频为违规视频的违规分数，将待审核用户为异常用户的第一概率、统计特征以及所述违规分数输入预先训练好的异常用户检测模型中得到待审核用户为异常用户的第二概率，由于可以从待审核用户的评论数据中提取与异常行为具有强关联关系的概率、统计特征以及违规分数作为高层次特征输入到异常用户检测模型中预测待审核用户为异常用户的概率，预测待审核用户为异常用户的概率的准确性高，能够有效检测出异常用户送审，提高了异常行为的打击效率。

实施例四

图4是本发明实施例四提供的一种异常用户检测模型训练装置的结构框图，如图4所示，本发明实施例的异常用户检测模型训练装置具体可以包括如下模块：

样本用户评论数据获取模块401，用于获取样本用户的评论数据，所述评论数据包括所述样本用户评论的视频和评论内容，所述样本用户为标注了异常用户标签和正常用户标签的用户；

概率获取模块402，用于从所述样本用户的所有评论内容中确定出目标评论内容，以通过所述目标评论内容获取所述样本用户为异常用户的概率；

统计特征获取模块403，用于对所述评论内容进行统计以获得所述样本用户的评论内容的统计特征；

视频违规分数确定模块404，用于确定所述样本用户评论的视频为违规视频的违规分数；

模型训练模块405，用于将所述样本用户为异常用户的概率、所述统计特征以及所述违规分数作为训练样本，所述样本用户的标签作为样本标签来训练异常用户检测模型。

本发明实施例所提供的异常用户检测模型训练装置可执行本发明实施例一或实施例二所提供的异常用户检测模型训练方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5是本发明实施例五提供的一种异常用户审核装置的结构框图，如图5 所示，本发明实施例的异常用户审核装置具体可以包括如下模块：

待审核用户评论数据获取模块501，用于获取待审核用户的评论数据，所述评论数据包括所述待审核用户评论的视频以及评论内容；

概率获取模块502，用于从所述待审核用户的所有评论内容中确定出目标评论内容，以通过所述目标评论内容获取所述样本用户为异常用户的概率；

统计特征获取模块503，用于对所述评论内容进行统计以获得所述待审核用户的评论内容的统计特征；

视频违规分数确定模块504，用于确定所述待审核用户评论的视频为违规视频的违规分数；

异常用户检测模块505，用于将所述待审核用户为异常用户的概率、所述统计特征以及所述违规分数输入预先训练好的异常用户检测模型中得到所述待审核用户为异常用户的第二概率；

审核模块506，用于在所述第二概率大于预设阈值时，将所述待审核用户的用户标识发送到审核后台，以在所述审核后台对所述待审核用户进行审核；

其中，所述异常用户检测模型通过实施例一或实施例二所述的异常用户检测模型训练方法所训练。

本发明实施例所提供的异常用户检测模型训练装置可执行本发明实施例三所提供的异常用户审核方法，具备执行方法相应的功能模块和有益效果。

实施例六

参照图6，示出了本发明一个示例中的一种电子设备的结构示意图。如图6 所示，该电子设备具体可以包括：处理器601、存储装置602、具有触摸功能的显示屏603、输入装置604、输出装置605以及通信装置606。该电子设备中处理器601的数量可以是一个或者多个，图6中以一个处理器601为例。该电子设备的处理器601、存储装置602、显示屏603、输入装置604、输出装置605 以及通信装置606可以通过总线或者其他方式连接，图6中以通过总线连接为例。所述电子设备用于执行如本发明任一实施例提供的异常用户检测模型训练方法，和/或，异常用户审核方法。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述方法实施例所述的异常用户检测模型训练方法，和/或，异常用户审核方法。

需要说明的是，对于装置、电子设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变换、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种异常用户检测模型训练方法，其特征在于，包括：

确定所述样本用户评论的视频为违规视频的违规分数；

2.根据权利要求1所述的方法，其特征在于，在根据所述评论内容获取所述样本用户为异常用户的概率之前，还包括：

将所述样本用户的每条评论内容转换为向量。

3.根据权利要求2所述的方法，其特征在于，所述从所述样本用户的所有评论内容中确定出目标评论内容，以通过所述目标评论内容获取所述样本用户为异常用户的概率，包括：

针对每个向量，将所述向量输入预先训练好的第一分类模型中得到所述向量对应的评论内容为异常用户的评论内容的分数；

将所述分数排名在前的指定数量个向量作为目标向量输入预先训练好的第二分类模型中，得到所述样本用户为异常用户的概率。

4.根据权利要求3所述的方法，其特征在于，所述第一分类模型通过以下方式训练：

将所述样本用户的标签设置为所述样本用户的评论内容的标签；

以所述样本用户的评论内容的向量为训练样本，以所述评论内容的标签作为标签来训练第一分类模型。

5.根据权利要求2或3或4所述的方法，其特征在于，所述对所述评论内容进行统计以获得所述样本用户的评论内容的统计特征，包括：

对所述向量进行聚类得到聚类结果，所述聚类结果包括聚类类别的数量、每个聚类类别的向量数量以及无法聚类的向量数量；

根据所述聚类类别的数量、每个聚类类别的向量数量以及无法聚类的向量数量计算所述样本用户的评论内容的统计特征。

6.根据权利要求5所述的方法，其特征在于，所述根据所述聚类类别的数量、每个聚类类别的向量数量以及无法聚类的向量数量计算所述样本用户的评论内容的统计特征，包括：

统计所述样本用户的评论内容的评论总数量；

计算所有聚类类别的向量数量的n阶距；

将所述评论总数量、所述n阶距以及所述无法聚类的向量数量作为统计特征。

7.根据权利要求6所述的方法，其特征在于，所述根据所述聚类类别的数量、每个聚类类别的向量数量以及无法聚类的向量数量计算所述样本用户的评论内容的统计特征，还包括：

对所述聚类类别的向量数量按照正向排序得到排序在前的m个聚类类别；

计算排序在第一的聚类类别的向量数量与聚类类别的数量的比值得到第一比值；

计算排序在第一的聚类类别的向量数量与排序在第二的聚类类别的向量数量的比值得到第二比值；

计算排序在第一的聚类类别的向量数量与评论总数量的比值得到第三比值；

将所述排序在前的m个聚类类别的向量数量、所述第一比值、所述第二比值以及所述第三比值作为统计特征。

8.根据权利要求1或2或3或4所述的方法，其特征在于，所述确定所述样本用户评论的视频为违规视频的违规分数，包括：

针对所述样本用户评论的每个视频，将所述视频输入预先训练好的违规检测模型中得到所述视频为第一违规视频的第一概率，以及所述视频为第二违规视频的第二概率；

计算所述样本用户评论的视频的第一概率的和值得到第一违规分数，以及计算第二概率的和值得到第二违规分数。

9.根据权利要求8所述的方法，其特征在于，在计算所述样本用户评论的视频的第一概率的和值得到第一违规分数，以及计算第二概率的和值得到第二违规分数之前，还包括：

从所述样本用户评论的视频中随机选取指定数量的视频；

确定所述指定数量的视频的第一复审概率和第二复审概率；

针对所述指定数量的视频中的每个视频，将所述第一复审概率作为第一概率，以及将所述第二复审概率作为第二概率。

10.一种异常用户审核方法，其特征在于，包括：

确定所述待审核用户评论的视频为违规视频的违规分数；

其中，所述异常用户检测模型通过权利要求1-9任一项所述的异常用户检测模型训练方法所训练。

11.根据权利要求10所述的方法，其特征在于，在所述概率大于预设阈值时，将所述待审核用户的用户标识发送到审核后台之后，还包括：

接收审核后台发送的用户标识以及所述用户标识的标签，所述标签为正常用户标签或者异常用户标签；

将所述用户标识关联的用户作为样本用户。

12.一种异常用户检测模型训练装置，其特征在于，包括：

概率获取模块，用于从所述样本用户的所有评论内容中确定出目标评论内容，以通过所述目标评论内容获取所述样本用户为异常用户的第一概率；

13.一种异常用户审核装置，其特征在于，包括：

异常用户检测模块，用于将所述待审核用户为异常用户的概率、所述统计特征以及所述违规分数输入预先训练好的异常用户检测模型中得到所述待审核用户为异常用户的第二概率；

14.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一项所述的异常用户检测模型训练方法，和/或，权利要求10-11任一项所述的异常用户审核方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一项所述的异常用户检测模型训练方法，和/或，权利要求10-11任一项所述的异常用户审核方法。