CN113157901B

CN113157901B - 用户产生内容过滤方法及相关装置

Info

Publication number: CN113157901B
Application number: CN202010075298.8A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2024-02-23
Anticipated expiration: 2040-01-22
Also published as: CN113157901A

Abstract

本申请提供一种用户产生内容滤除方法及相关装置，属于互联网技术领域。该用户产生内容评价方法可以包括：获取用户产生内容的多个维度向量，所述多个维度向量包括词向量和句向量；将所述多维度向量输入关键词库和/或种子库和/或内容类型评价模型以确定所述用户产生内容的内容类型，所述关键词库中包含关键词词向量样本，所述种子库中包含句向量样本，所述内容类型评价模型通过多个子评价模型构建；在所述内容类型为目标类型时，滤除所述用户产生内容。本申请可以有效提升用户产生内容过滤的可靠性。

Description

用户产生内容过滤方法及相关装置

技术领域

本申请涉及互联网技术领域，具体而言，涉及一种用户产生内容过滤方法及相关装置。

背景技术

随着移动互联网和社交网络的大规模普及,内容生产的门槛降低，越来越多的用户每天会产生数以亿计的用户产生内容(UGC)，比如评论，点赞等与内容的互动交互。由于用户发表内容的门槛的降低，用户产生内容的存在很多低质量内容需要监管违规过滤处理。

现有技术中，用户产生内容(UGC)低质标准模糊，低质量内容占比低(例如，在QQ看点当中图文部分约3％，视频部分约2％)，导致有效的低质量内容样本很少；且高准确度标注的低质量内容样本缺乏，标注人力缺乏，低俗和谩骂等内容混在一起，难以做到精确建立模型，现在方案采用手工配置的低俗关键词或者一些浅层模型进行打击，打击覆盖低且误打击严重，结果也没有得到有效沉淀，响应处理效率低。例如，目前，存在使用FastText、LR/SVM分类结果、标题关键词特征等再训练LR(Logistic Regression)逻辑回归模型进行分类过滤的方法。但是，由于用户产生内容情况复杂，例如，存在UGC内容的短文本信息量少，不像长文本且没有上下文用来辨别语境，同时评论不具有规范性，口语化、简称、网络用语较多等。目前的模型很难彻底过滤低质的用户产生内容，所以存在用户产生内容滤除可靠性较低的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请实施例的目的在于提供一种用户产生内容过滤方法及装置，其能够有效提升用户产生内容过滤的可靠性。

根据本申请的一个实施例，一种用户产生内容过滤方法可以包括：获取用户产生内容的多个维度向量，所述多个维度向量包括词向量和句向量；将所述多维度向量输入关键词库和/或种子库和/或内容类型评价模型以确定所述用户产生内容的内容类型，所述关键词库中包含关键词词向量样本，所述种子库中包含句向量样本，所述内容类型评价模型通过多个子评价模型构建；在所述内容类型为目标类型时，滤除所述用户产生内容。

在本申请的一些实施例中，还包括：通过基于词向量的textcnn模型、基于句向量的textcnn-like卷积网络模型以及基于词向量、句向量的svm模型构建所述内容类型评价模型。

在本申请的一些实施例中，所述评价模块还被配置成：将所述多维度向量输入基于词向量的textcnn模型中，生成第一评价结果；将所述多维度向量输入基于句向量的textcnn-like卷积网络模型中，生成第二评价结果；将所述多维度向量输入基于词向量、句向量的svm模型中，生成第三评价结果；通过所述第一评价结果、第二评价结果、第三评价结果确定所述用户产生内容的内容类型。

在本申请的一些实施例中，所述评价模块还被配置成：根据融合策略，利用所述第一评价结果、第二评价结果、第三评价结果确定所述用户产生内容的内容类型，所述融合策略用于指示多个评价结果的联合评价策略。

在本申请的一些实施例中，所述评价模块还被配置成：将所述关键词库中的关键词的词向量样本与所述多维度向量中的词向量进行比较；在所述关键词的词向量样本与所述多维度向量中的词向量存在相同的词向量样本时，确定所述用户产生的内容类型为目标类型。

在本申请的一些实施例中，所述评价模块还被配置成：计算所述多维度向量中的句向量和所述种子库中句向量样本的相似度；在所述相似度大于预定阈值时，确定所述用户产生的内容类型为目标类型。

在本申请的一些实施例中，所述关键词库，包括：第一关键词库，所述第一关键词库中存储低俗类型关键词的词向量样本；第二关键词库，所述第二关键词库中存储谩骂类型关键词的词向量样本。

在本申请的一些实施例中，所述所述种子库，包括：第一种子库，所述第一种子库中存储低俗类型文本的句向量样本；第二种子库，所述第二种子库中存储骗取点赞类型文本的句向量样本。

在本申请的一些实施例中，所述内容类型评价模型，包括：第一内容类型评价模型，所述第一内容类型评价模型用于评价所述用户产生内容是否为低俗类型内容；第二内容类型评价模型，所述第二内容类型评价模型用于评价所述用户产生内容是否为谩骂类型内容；第三内容类型评价模型，所述第三内容类型评价模型用于评价所述用户产生内容是否为骗取点赞类型内容。

根据本申请的另一实施例，一种用户产生内容过滤终端可以包括：存储器，存储有计算机可读指令；处理器，读取存储器存储的计算机可读指令，以执行如上所述的方法。

根据本申请的另一实施例，一种计算机程序介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的方法。

根据本申请的实施例，能够获取用户产生内容的多个维度向量，所述多个维度向量包括词向量和句向量；将所述多维度向量输入关键词库和/或种子库和/或内容类型评价模型以确定所述用户产生内容的内容类型，所述关键词库中包含关键词词向量样本，所述种子库中包含句向量样本，所述内容类型评价模型通过多个子评价模型构建；在所述内容类型为目标类型时，滤除所述用户产生内容。

通过获取用户产生内容的多个维度向量，可以抽取到用户产生内容不同程度和粒度的语义，进而，可以通过关键词库和/或种子库和/或内容类型评价模型，利用不同程度和粒度的语义进行多轮、多粒度挖掘内容本身的信息评价，然后，在评价的内容类型为目标类型时，滤除用户产生内容，可以实现用户产生内容的多轮可靠召回，有效提升用户产生内容过滤的可靠性。

本申请的其他特征和优点将通过下面结合附图的详细描述变得显然，或部分地通过本申请的实践而习得。

应当理解，以上的一般描述和后文的详细描述仅是示例性和解释性的，并不旨在限制本申请。

附图说明

图1示出了可以应用本申请实施例的系统的示意图。

图2示出了根据本申请的一个实施例的用户产生内容过滤方法的流程图。

图3示出了根据本申请的又一个实施例的用户产生内容过滤方法的流程图。

图4示出了一个实施例的用户产生内容过滤的应用场景中调取用户相关信息的终端界面图。

图5示出了根据本申请实施例的一种应用场景下用户产生内容过滤系统的架构示意图。

图6示出了根据图5所示实施例的用户产生内容过滤流程图。

图7示出了根据本申请的一个实施例的用户产生内容过滤装置的框图。

图8示出了根据本申请的一个实施例的电子设备的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本申请实施例的系统100的示意图。

如图1所示，系统100可以包括终端设备101、网络102、终端设备103。终端设备101与终端设备103可以通过网络102进行通信。网络102可以是有线网络、无线网络等。

应该理解，图1中的终端设备、网络的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络。比如终端设备103可以是多个服务器组成的服务器集群或者多个终端组成的区块链网络等。

可以使用终端设备101通过网络102与终端设备103交互，以获取终端设备103上的用户产生内容。终端设备101可以为具有计算处理能力的各种设备，包括但不限于服务器、个人计算机、手机等。

在本申请的一个实施例中，终端设备101可以获取用户产生内容的多个维度向量，其中，多个维度向量包括词向量和句向量；将多维度向量输入关键词库和/或种子库和/或内容类型评价模型以确定用户产生内容的内容类型，关键词库中包含关键词词向量样本，种子库中包含句向量样本，内容类型评价模型通过多个子评价模型构建；在内容类型为目标类型时，滤除所述用户产生内容。

图2示意性示出了根据本申请的一个实施例的用户产生内容过滤方法的流程图。该用户产生内容过滤方法的执行主体可以是具有计算处理功能的电子设备，比如图1中所示的终端设备101。如图2所示，该用户产生内容过滤方法可以包括步骤S210至步骤S240。

步骤S210，获取用户产生内容的多个维度向量，所述多个维度向量包括词向量和句向量；

步骤S220，将所述多维度向量输入关键词库和/或种子库和/或内容类型评价模型以确定所述用户产生内容的内容类型，所述关键词库中包含关键词词向量样本，所述种子库中包含句向量样本，所述内容类型评价模型通过多个子评价模型构建；

步骤S230，在所述内容类型为目标类型时，滤除所述用户产生内容。

下面描述用户产生内容过滤时，所进行的各步骤的具体过程。

在步骤S210中，获取用户产生内容的多个维度向量，所述多个维度向量包括词向量和句向量。

用户产生内容(UGC)，比如评论，点赞等与主体内容的互动交互内容。多个维度向量是不同粒度的向量，比如包括词向量及句向量等。

获取用户产生内容的多个维度的向量的方法可以包括：将用户产生内容利用现有的分词方法分词后得到多个词，然后通过查找词向量字典将每个词转换为对应的词向量；基于句向量模型(例如，RNN、LSTM、Seq2Seq、Attention等)将用户产生内容的文本转化为句向量。如果用户产生内容中存在表情符号，将表情符号映射为中文，例如，提取表情符号文本标识转化为表情符号对应的文本标识串，然后，可以基于上述两种方式转化为词向量和句向量。

通过获取用户产生内容的多个维度向量，可以抽取到用户产生内容不同程度和粒度的语义。

一种实施例中，获取用户产生内容的句向量的方法包括：

利用训练好的skip-thought模型，将用户产生内容转化为句向量。

Skip-Thoughts模型是一个句子编码器。它学习将输入的句子编码成固定维度的向量表示。该模型是利用句子之间顺序的半监督模型，利用一个encoder编码器(输入的中心句)和两个decoder解码器(分别预测上一句和下一句)，同时预测中心句的上一句和下一句，训练目标是使预测的上一句和下一句和损失函数之和。这样可以基于句子之间的搭配情况，提取到用户产生内容的特征向量，保证语义解析的准确性。

在步骤S220中，将所述多维度向量输入关键词库和/或种子库和/或内容类型评价模型以确定所述用户产生内容的内容类型，所述关键词库中包含关键词词向量样本，所述种子库中包含句向量样本，所述内容类型评价模型通过多个子评价模型构建。

关键词库中包含关键词词向量样本，其中，关键词可以是符合预定类型标准的关键词，例如各种不便于公共展示，影响不良的低质词汇。可以包括收集的低俗，谩骂等细化标准的关键词的运营相关的配置词库。

种子库中包含句向量样本，其中，句向量可以是符合预定类型标准的用户产生内容的句子的句向量，例如各种不便于公共展示，影响不良的低质用户产生内容。可以包括低俗种子库和灌水种子库等细化标准的种子库，其中对应的是一段低俗或者灌水内容(骗取用户点赞的用户产生内容)的短文本。

内容类型评价模型通过多个子评价模型构建，可以通过融合多个各具语义解析特色的子评价模型构建用户产生内容评价机器学习模型，可以融合基于不同维度的向量的子评价模型，例如多个基于不同维度的向量的分类机器学习模型。可以通过对多种来源(例如，来源于不同内容消费平台)的用户产生内容UGC数据进行多轮清洗，收集高质量的信息流业务中的低俗评论数据(例如，收集百分之百为低俗评论的高质量评论内容)，并利用海量预训练语料(例如，历史上的低俗文本的BERT向量)增加额外信息进行模型训练。可以，收集各种类型的用户产生内容样本作为内容评价模型的输入，对应的类型作为输出训练得到内容评价模型。

将多维度向量输入关键词库和/或种子库和/或内容类型评价模型，可以通过词向量比较和/或句向量比较和/或不同维度的内容类型评价模型，利用不同程度和粒度的语义进行多轮、多粒度挖掘内容本身的信息评价，可靠确定用户产生内容的内容类型。

一种实施例中，所述关键词库，包括：

第一关键词库，所述第一关键词库中存储低俗类型关键词的词向量样本；

第二关键词库，所述第二关键词库中存储谩骂类型关键词的词向量样本。

低俗类型及谩骂类型的内容具有明显的类型关键词汇，可以通过收集低俗类型及谩骂类型的关键词，有效细化类型标准，分别配置关键词库，保证识别可靠性。

一种实施例中，所述种子库，包括：

第一种子库，所述第一种子库中存储低俗类型文本的句向量样本；

第二种子库，所述第二种子库中存储骗取点赞类型文本的句向量样本。

低俗类型文本和骗取点赞类型文本存在部分是口语化的短语，没有明确聚焦的词语和关键词，此时，通过设置存储低俗类型文本的句向量样本及骗取点赞类型文本的句向量样本的种子库，用种子库存储一段短语的句向量进行识别，可以保证识别效果。

一种实施例中，所述种子库中存储各种类型的用户产生内容的BERT向量，BERT向量时通过BERT预训练微调，取BERT模型生成向量最后一层特征向量，能够有效得学习到短文本本身的语义知识。

一种实施例中，所述内容类型评价模型，包括：

第一内容类型评价模型，所述第一内容类型评价模型用于评价所述用户产生内容是否为低俗类型内容；

第二内容类型评价模型，所述第二内容类型评价模型用于评价所述用户产生内容是否为谩骂类型内容；

第三内容类型评价模型，所述第三内容类型评价模型用于评价所述用户产生内容是否为骗取点赞类型内容。

对UGC内容可以按照质量特征进行拆分，细化标准，分为低俗类型，谩骂类型和骗取点赞类型(泛低质)，然后训练对应不同类型标准的内容类型评价模型，分别进行用户产生内容的评价，可以保证每个模型的评价准确性，进而，从总体上提升评价准确性。

一种实施例中，还包括：

通过基于词向量的textcnn模型、基于句向量的textcnn-like卷积网络模型以及基于词向量、句向量的svm模型构建所述内容类型评价模型。

基于词向量的textcnn模型是将卷积神经网络CNN应用到文本分类任务，利用多个不同大小size的卷积核(对应与词向量大小)来提取句子中的关键信息，能够有效地捕捉用户产生内容的局部关键特征，进行内容分类。

基于句向量的textcnn-like卷积网络模型，是将卷积神经网络CNN应用到文本分类任务，利用多个不同大小size的卷积核(对应与句向量大小)来提取句子的关键信息，能够从句向量维度有效地捕捉用户产生内容的局部关键特征，进行内容分类。

基于词向量、句向量的svm模型，是一种建立在统计学习理论基础上的机器学习方法。该模型可以专门针对有限样本情况，其目标是得到现有信息下的最优解而不仅仅是样本数量趋于无穷大时的最优值；而且最终转化为一个二次型寻优问题，理论上得到的是全局最优点，可以解决在神经网络方法中无法避免的局部极值问题。

通过收集多维度向量作为输入，对应的类型标签作为输出，可以训练得到满足要求的基于词向量的textcnn模型、基于句向量的textcnn-like卷积网络模型及基于词向量、句向量的svm模型。

基于词向量的textcnn模型、基于句向量的textcnn-like卷积网络模型以及基于词向量、句向量的svm模型构建内容类型评价模型，可以增加用户产生内容总体召回和准确率，每个模型都有自己擅长的地方，综合各自的优点，比如基于词向量和句向量对原始短语含义可以进行不同程度和粒度的挖掘。

一种实施例中，还包括：获取主体内容的相关信息的词向量和句向量和/或用户相关信息的词向量和句向量，所述主体内容为引导所述用户产生内容产生的内容，所述用户相关信息为发表所述用户产生内容的用户的相关信息，以将所述主体内容的相关信息的词向量和句向量和/或用户相关信息的词向量和句向量以及所述多维度向量输入第二内容评价模型，得到第二内容类型，所述第二内容评价模型，包括：基于词向量的textcnn模型及基于句向量的svm模型。

通过提取主体内容的相关信息(例如，用户浏览的图文内容的类别标签等)的词向量和句向量和/或用户相关信息(例如，参考图4所示界面中包括的用户本身的性别，QQ年龄，活跃消息等信息)的词向量和句向量，可以提取到较多的分类指示信息，通过采用第二内容评价模型，可以通过较多的分类分类信息，保证评价准确性的同时，通过较少的模型，提高评价效率。主体内容为引导用户产生内容产生的内容，例如当用户产生内容为针对一个图文内容(例如，视频等)的一段评论时，该图文内容(例如，视频等)就是主体内容。

一种实施例中，参考图3所示，将所述多维度向量输入内容类型评价模型以确定所述用户产生内容的内容类型，包括：

步骤S310，将所述多维度向量输入基于词向量的textcnn模型中，生成第一评价结果；

步骤S320，将所述多维度向量输入基于句向量的textcnn-like卷积网络模型中，生成第二评价结果；

步骤S330，将所述多维度向量输入基于词向量、句向量的svm模型中，生成第三评价结果；

步骤S340，通过所述第一评价结果、第二评价结果、第三评价结果确定所述用户产生内容的内容类型。

第一评价结果、第二评价结果及第三评价结果可以是用户产生内容是否是目标类型(例如，是否是谩骂类型等)。

通过第一评价结果、第二评价结果、第三评价结果综合确定用户产生内容的内容类型，可以结合各个模型的评价结果，有效保证评价准确性。综合确定的方法可以是将第一评价结果、第二评价结果、第三评价结果中数量最多的结果作为最终结果(例如，当第一评价结果、第二评价结果、第三评价结果中至少两个都为谩骂类型的结果时，将谩骂类型为数量最多的结果，作为最终结果)，也就是用户产生内容的内容类型。

一种实施例中，通过所述第一评价结果、第二评价结果、第三评价结果确定所述用户产生内容的内容类型包括：

根据融合策略，利用所述第一评价结果、第二评价结果、第三评价结果确定所述用户产生内容的内容类型，所述融合策略用于指示多个评价结果的联合评价策略。

融合策略用于指示多个评价结果的联合评价策略，可以是当第一评价结果、第二评价结果、第三评价结果中有两个确定用户产生内容为目标类型，确定用户产生内容为目标类型。也可以是当第一评价结果、第二评价结果、第三评价结果中，第三评价结果为目标类型，且第一评价结果、第二评价结果中至少一个为目标类型时，确定用户产生内容为目标类型。

一种实施例中，将所述多维度向量输入关键词库以确定所述用户产生内容的内容类型，包括：

将所述关键词库中的关键词的词向量样本与所述多维度向量中的词向量进行比较；

在所述关键词的词向量样本与所述多维度向量中的词向量存在相同的词向量样本时，确定所述用户产生的内容类型为目标类型。

将关键词库中的关键词的词向量样本与多维度向量中的词向量进行比较的方法可以是各种相似度度量方法，例如欧氏距离或者汉明距离等。当相似度高于预定阈值时，可以确定在关键词的词向量样本与多维度向量中的词向量存在相同的词向量样本，然后，当该相同的词向量样本为目标类型时，就可以确定用户产生内容的内容类型为目标类型。可以理解，用户产生内容可以为多个类型，例如同时为谩骂及低俗类型。

一种实施例中，将所述多维度向量输入种子库以确定所述用户产生内容的内容类型，包括：

计算所述多维度向量中的句向量和所述种子库中句向量样本的相似度；

在所述相似度大于预定阈值时，确定所述用户产生的内容类型为目标类型。

计算多维度向量中的句向量和种子库中句向量样本的相似度的方法是各种相似度度量方法，例如欧氏距离或者汉明距离等。当相似度高于预定阈值时，可以确定在种子库中句向量样本与多维度向量中的句向量存在相似的句向量样本，然后，当该相似的句向量样本为目标类型时，就可以确定用户产生内容的内容类型为目标类型。可以理解，当种子库中存储多种类型的句向量样本时，用户产生内容可以为多个确定为多个类型，例如同时为谩骂及低俗类型。可以在种子库中只存储目标类型的句向量样本时，在相似度大于预定阈值时，直接确定用户产生的内容类型为目标类型。

表情符号在之前的模型训练过程中被清洗，表情符号可以洗掉/映射为中文，在清洗前和清洗后，加入两遍种子库，降低比较相似的阈值，可以增加模型召回量。对于超短文本(例如少于5个字的文本)，可以建立超短文本库进行比较评价。

在步骤S230中，在所述内容类型为目标类型时，滤除所述用户产生内容。

目标类型可以是与预定滤除标准对应的内容类型，例如，低俗标准，谩骂标准及骗取点赞内容标准等。

一种实施例中，还包括：

展示除滤除的用户展示内容之外的其它用户产生内容。

可以在内容展示终端展示除滤除的用户展示内容之外的其它用户产生内容。通过对大量无意义的用户产生内容进行识别，例如，骗赞评论和灌水段子进行识别，提升用户产生内容整体质量和用户体验。

一种实施例中，所述展示除滤除的用户展示内容之外的其它用户产生内容，包括：

计算每个所述其它用户产生内容与主体内容的相似度，所述主体内容为引导多个所述用户产生内容产生的内容；

按照所述相似度由高到低的顺序，展示所述其它用户产生内容。

计算每个其它用户产生内容与主体内容的相似度的方法：可以是提取主体内容的标签/分类信息的特征后，与其它用户产生内容的特征向量进行相似度计算。通过对各类用户产生内容降权的排序处理，使得真正有意义的优质评论得到更多的曝光和展示，也可以进一步提升评论区整体质量和氛围。

参考图5所示，内容生产端和内容消费端：PUC或者UGC，MCN都可以是内容生产者，通过移动端或者后端接口API系统，提供本地或者拍摄的图文内容，视频或者图集内容，这些都是内容分发的主要内容来源。其中，MCN(Multi-Channel Network)：是一种多频道网络的产品形态，将PGC内容联合起来，在资本的有力支持下，保障内容的持续输出，从而最终实现商业的稳定变现；PGC(全称：Professional Generated Content)互联网术语，指专业生产内容(图文网站)、专家生产内容(微博)。用来泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化。也称为PPC,(Professionally-produced Content)；UGC(User GeneratedContent)指用户原创内容，是伴随着以提倡个性化为主要特点的Web2.0概念而兴起的。它并不是某一种具体的业务，而是一种用户使用互联网的新方式，即由原来的以下载为主变成下载和上传并重。

内容生产端可以通过和上下行接口服务器的通讯，可以先获取上传服务器接口地址，然后上传本地文件。在上传本地文件时，例如在上传拍摄过程当中本地图文内容时，可以选择搭配的音乐，滤镜模板和图文的美化功能等等；

内容消费端可以和上下行接口服务器通讯，获取访问图文或者视频文件的图文索引信息，然后下载对应的流媒体文件并且通过本地播放器来播放观看或者直接通过索引信息消费图文内容；同时将上传和下载过程当中用户播放的行为数据，卡顿，加载时间，播放点击等上报给服务器；

内容消费端消费内容的互动信息，也就是对主体内容的评论短文本，点赞，转发，收藏等互动信息，可以通过用户产生内容上下行接口服务器上报，写入用户产生内容库中；

用户产生内容上下行接口服务器可以对于用户产生内容UGC调用用户产生内容排序过滤服务进行内容的清洗排序和质量保证；

上下行接口服务器：可以和内容生产端直接通讯，从前端提交的内容，通常是内容的标题，发布者，摘要，封面图，发布时间，或者是拍摄的图文直接通过该服务器进入服务端，把文件存入内容数据库；将图文内容的元信息，比如图文文件大小，封面图链接，码率，文件格式，标题，发布时间，作者等信息写入内容数据库；将上传的文件等内容提交给调度中心服务器，进行后续的内容处理和流转；和内容消费端通讯提供分发内容的索引信息；

内容数据库：图文内容(主体内容)的核心数据库，所有生产者发布内容的元信息都保存在这个业务数据库当中，重点是图文内容本身的元信息比如图文内容的作者，标题，大小，发布时间，分类，标签等等，对于视频文件内容包括大小，封面图链接，码率，文件格式，标题，发布时间，作者，还包括人工审核过程中对内容的分类(包括一，二，三级别分类和标签信息)；上下行内容接口服务在收到视频文件的时候对内容进行标准的转码操作，转码完成后异步返回元信息主要是文件大小，码率，规格，截取封面图这些信息都会保存在内容数据库当中；人工审核过程当中会读取内容数据库当中的信息，同时人工审核的结果和状态也会回传进入内容数据库，来更新内容数据库当中内容的元信息；调度中心对内容处理主要包括机器处理系统和人工审核处理系统，其中，机器处理就是调用排重服务，排除完全重复和相似的内容，排重的结果会写入内容数据库，且完全重复一样的内容不会给人工进行重复的二次处理。

调度中心服务：负责图文内容流转的整个调度过程，通过上下行接口服务器接收入库的图文内容，然后从内容数据库中获取图文的元信息；调度人工审核系统和机器处理系统，控制调度的顺序和优先级；对于图文内容，先和图文排重服务通讯，后者对不同码率，不同清晰度，不同尺寸，部分黑屏，有无滤镜，有无logo和在相似图文内容当中插入部分广告内容和片头片尾的裁剪都可以进行处理，有效建设进入人工审核过程当中需要处理的内容；调度进入人工审核系统需要进行人工审核的图文内容，过滤掉重复的内容；最后通过人工审核系统的内容，启用内容分发，通过内容出口分发服务，可以是推荐引擎或者搜索引擎或者运营直接的展示页面提供给终端的内容消费者；

人工审核系统：需要读取内容数据库中图文内容本身的原始信息，可以是一个业务复杂的基于web数据库开发的系统，通过人工来对图文内容是否涉及色情，赌博，敏感等低质的特性进行一轮初步过滤；在初步审核的基础之上，对内容进行二次审核，主要是对内容进行分类和标签的标注或者确认。

用户产生内容排序过滤服务：可以包括如图7所示的用户产生内容过滤装置，按照上述的内容处理架构，调用内容类型评价模型(包括低俗，谩骂，灌水等类型的内容类型评价模型)、种子库及关键词库(图中未示出)；可以直接和用户产生内容上下行接口服务通讯，将用户实时生成用户产生内容进行过滤处理，部分过滤内容写入用户产生内容库，未过滤内容直接返回内容消费端展示。

用户产生内容上下行接口服务：可以和内容消费端通讯，接收上报上来的内容评论UGC短文本，点赞，转发，收藏等互动信息，并且写入用户产生内容库；调用用户产生内容排序过滤服务直接处理内容消费端产生的内容。

用户产生内容库：可以通过用户产生内容上下行接口服务接收上报上来的UGC短文本，点赞，转发，收藏等互动信息；可以给内容类型评价模型集合服务提供训练的原始样本数据；可以为用户产生内容UGC监控巡检服务提供巡检和抽样的数据来源。

内容类型评价模型：可以对于用户产生内容库当中的内容，按照上述的框架，集成多个低质内容处理的模型和能力及对词库的工程实现(例如，第一关键词库，第二关键词库，第一内容类型评价模型，第二内容类型评价模型及第三内容类型评价模型等)。

用户产生内容监控巡检服务：可以从用户产生内容库中抽检线上的用户产生内容流水打击数据(如关键词库，内容类型评价模型的内容类型评价数据)送审到人工审核系统，如图6所示的人工审核标注，来通过人工验证人审标注的结果；可以通过该服务的线上流水抽样评估各种低质模型(例如，第一关键词库，第二关键词库，第一内容类型评价模型，第二内容类型评价模型及第三内容类型评价模型等)的准确率和误打击率，提供主动的质量保证机制。

种子库：可以包括第一种子库和第二种子库，分别存储低俗或者灌水(骗取点赞)内容的短文本的句向量；由于内容类型评价模型的训练和更新需要时间，所以可以对于模型来不及更新和训练的内容，采用种子库方式保存，包种子库短文本向量化，比如BERT向量；同时，对于新产生的短文本，也用同样的方式向量化，然后和种子库当中的向量进行距离的比较和匹配，命中到达阈值的直接过滤掉。

图6示出了根据图5所示实施例的用户产生内容过滤流程图。

参考图6所示，对于超短文本的用户产生内容，可以是少于5个字的用户产生内容的文本，可以通过获取超短文本的用户产生内容的向量与超短文本词库(存储需要滤除的各类型超短文本的向量样本)中的超短文本的向量样本进行相似度比较，当相似度大于预定超短过滤阈值时直接过滤，负责进行线上排序。对于其它用户产生内容，可以依次通过第一关键词库，第一种子库，第一内容类型评价模型，第二关键词库，第二内容类型评价模型，第二种子库及第三内容类型评价模型，依次确定是否为目标类型(低俗类型/谩骂类型/骗赞类型)，每次在确定为目标类型时，直接过滤到用户产生内容库，可以为用户产生内容UGC监控巡检服务提供抽样数据，未过滤内容进行线上排序用户产生内容。可以来理解，在其他场景中第一关键词库，第一种子库，第一内容类型评价模型，第二关键词库，第二内容类型评价模型，第二种子库及第三内容类型评价模型的顺序可以根据需求设定。可以利用人工审核标注得到的关键词库和种子库及第一、第二及第三内容类型训练集和测试集(标注了用户产生内容的内容类型的训练集和测试集)进行模型周期更新(周期训练)，关键词库及种子库维护(将新得到的关键词和句子补充至库中)。

测试集离线评估模型准确召回可以是构造对应每个模型的正负样本集合，然后直接调用对应模型看标记的结果和样本集合比较。线上打击流水抽样评估准确率和误打击率可以直接抽检线上打击记录结果和人工标记判断结果比较。用户举报率就是用户举报用户产生内容当中，各类型内容占比，可以通过用户举报率用来衡量模型效果。大盘/头部健康度是指所有产生用户产生内容UGC的头部浏览量，比如前1000个内容对应的评论当中低俗内容占比，可以有效衡量和监控过滤效果。

如图7所示，用户产生内容过滤装置400可以包括获取模块410、评价模块420及滤除模块430。

获取模块410可以用于获取用户产生内容的多个维度向量，所述多个维度向量包括词向量和句向量；评价模块420可以用于将所述多维度向量输入关键词库和/或种子库和/或内容类型评价模型以确定所述用户产生内容的内容类型，所述关键词库中包含关键词词向量样本，所述种子库中包含句向量样本，所述内容类型评价模型通过多个子评价模型构建；滤除模块430可以用于在所述内容类型为目标类型时，滤除所述用户产生内容。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

图8示意性示出了根据本申请的一个实施例的电子设备的框图。

需要说明的是，图8示出的电子设备500仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，电子设备500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机存取存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统操作所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN(局域网)卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本申请的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的实施例，而可以在不脱离其范围的情况下进行各种修改和改变。

Claims

1.一种用户产生内容过滤方法，其特征在于，包括：

获取用户产生内容的多个维度向量，所述多个维度向量包括词向量和句向量；

将所述多维度向量输入关键词库、种子库和内容类型评价模型以确定所述用户产生内容的内容类型，所述关键词库中包含关键词词向量样本，所述种子库中包含句向量样本，所述内容类型评价模型通过多个各具语义解析特色的子评价模型构建，多个子评价模型包括基于不同维度的向量的分类机器学习模型；

在所述内容类型为目标类型时，滤除所述用户产生内容；

其中，所述关键词库包括第一关键词库和第二关键词库，所述第一关键词库中存储低俗类型关键词的词向量样本，所述第二关键词库中存储谩骂类型关键词的词向量样本；所述种子库包括第一种子库和第二种子库，所述第一种子库中存储低俗类型文本的句向量样本，所述第二种子库中存储骗取点赞类型文本的句向量样本；所述内容类型评价模型包括第一内容类型评价模型、第二内容类型评价模型和第三内容类型评价模型，所述第一内容类型评价模型用于评价所述用户产生内容是否为低俗类型内容，所述第二内容类型评价模型用于评价所述用户产生内容是否为谩骂类型内容，所述第三内容类型评价模型用于评价所述用户产生内容是否为骗取点赞类型内容，各个内容类型评价模型通过基于词向量的textcnn模型、基于句向量的textcnn-like卷积网络模型以及基于词向量、句向量的svm模型构建得到；

所述将所述多维度向量输入关键词库、种子库和内容类型评价模型以确定所述用户产生内容的内容类型，包括：

依次通过所述第一关键词库、所述第一种子库、所述第一内容类型评价模型、所述第二关键词库、所述第二内容类型评价模型、所述第二种子库及所述第三内容类型评价模型，确定所述用户产生内容的内容类型是否为所述目标类型。

2.根据权利要求1所述的方法，其特征在于，将所述多维度向量输入内容类型评价模型以确定所述用户产生内容的内容类型，包括：

将所述多维度向量输入基于词向量的textcnn模型中，生成第一评价结果；

将所述多维度向量输入基于句向量的textcnn-like卷积网络模型中，生成第二评价结果；

将所述多维度向量输入基于词向量、句向量的svm模型中，生成第三评价结果；

通过所述第一评价结果、第二评价结果、第三评价结果确定所述用户产生内容的内容类型。

3.根据权利要求2所述的方法，其特征在于，通过所述第一评价结果、第二评价结果、第三评价结果确定所述用户产生内容的内容类型包括：

4.根据权利要求1所述的方法，其特征在于，将所述多维度向量输入关键词库以确定所述用户产生内容的内容类型，包括：

5.根据权利要求1所述的方法，其特征在于，将所述多维度向量输入种子库以确定所述用户产生内容的内容类型，包括：

6.一种用户产生内容过滤装置，其特征在于，包括：

获取模块，用于获取用户产生内容的多个维度向量，所述多个维度向量包括词向量和句向量；

评价模块，用于将所述多维度向量输入关键词库、种子库和内容类型评价模型以确定所述用户产生内容的内容类型，所述关键词库中包含关键词词向量样本，所述种子库中包含句向量样本，所述内容类型评价模型通过多个各具语义解析特色的子评价模型构建，多个子评价模型包括基于不同维度的向量的分类机器学习模型；

滤除模块，用于在所述内容类型为目标类型时，滤除所述用户产生内容；

所述评价模块还用于：

7.一种用户产生内容过滤终端，其特征在于，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行如上权利要求1-5任一项所述的方法。

8.一种计算机程序介质，其上存储有计算机可读指令，其特征在于，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上权利要求1-5任一项所述的方法。