CN110516066A

CN110516066A - 一种文本内容安全防护方法和装置

Info

Publication number: CN110516066A
Application number: CN201910667697.0A
Authority: CN
Inventors: 陈万源; 郦柏金
Original assignee: Tong Shield Holdings Ltd
Current assignee: Tong Shield Holdings Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-11-29
Anticipated expiration: 2039-07-23
Also published as: CN110516066B

Abstract

本发明提供了一种文本内容安全防护方法和装置，该方法和装置应用于互联网，具体为获取用户输入的文本和用户的基本信息；利用基于深度学习的垃圾文本识别模型对文本进行处理，得到文本的文本分类标签和文本分值；针对文本进行相似性计算，并结合历史黑白名单和用户的行为得到用户的用户分类标签和用户分值；对文本分类标签、文本分值、用户分类标签和用户分值综合计算，得到用户及文本的综合标签，并将综合标签结合实际业务场景进行内容安全防护。从而实现对垃圾文本的自动审核，由于不需要人工审核，因此解决了人工审核垃圾文本所耗费人力物力过大的问题。

Description

一种文本内容安全防护方法和装置

技术领域

本发明涉及互联网技术领域，特别是涉及一种文本内容安全防护方法和装置。

背景技术

随着互联网的发展，人们对移动网络的使用增加，各种场景业务的蓬勃扩展，在直播平台、视频弹幕、评论贴吧、聊天对话等场景下，互联网上的数据呈现爆炸式增长，发文、聊天等互动内容已经成为人们阐述想法、倾诉感情、记录生活和工作中不可或缺的部分。

在直播、弹幕、评论场景中，有许多用户或者团伙会经常发送一些涉黄、广告黑产、涉政违禁等垃圾文本，垃圾文本的泛滥，不符合政府对网络垃圾信息的监管，同时也严重影响了用户在直播、弹幕、评论场景中的体验。

为了符合政府监管以及提高用户使用体验，需要对垃圾文本内容进行识别、过滤和屏蔽，而对于目前海量增长的垃圾文本内容，如果通过人工进行审核和处置，则需要耗费巨量的人力和物力，几乎是不可能完成的任务。

发明内容

有鉴于此，本发明提供了一种文本内容安全防护方法和装置，以解决人工审核垃圾文本所耗费人力物力过大的问题。

为了解决上述问题，本发明公开了一种文本内容安全防护方法，应用于互联网，所述文本内容安全防护方法包括步骤：

获取用户输入的文本和所述用户的基本信息；

利用基于深度学习的垃圾文本识别模型对所述文本进行处理，得到所述文本的文本分类标签和文本分值；

针对所述文本进行相似性计算，并结合历史黑白名单和所述用户的行为得到用户的用户分类标签和用户分值；

对所述文本分类标签、文本分值、用户分类标签和用户分值综合计算，得到所述用户及所述文本的综合标签，并将所述综合标签结合实际业务场景进行内容安全防护。

可选的，所述利用基于深度学习的垃圾文本识别模型对所述文本进行处理，得到所述文本的文本分类标签和文本分值，包括步骤：

对准备的样本集中的每个文本进行分词处理，得到相应的文本特征；

对所述文本特征进行特征泛化和重组处理，得到扩展文本特征；

将扩展文本特征组成文本特征向量；

将所述文本特征向量输入循环神经网络，经过前向处理和反向处理得到所述文本的张量；

根据所述张量输出所述文本分类标签和所述文本分值。

可选的，所述文本特征向量包括词语级别的词向量和字符级别的词向量。

可选的，所述针对所述文本进行相似性计算，并结合历史黑白名单和所述用户的行为得到用户的用户分类标签和用户分值，包括步骤：

针对所述文本进行相似性计算，得到所述文本的相似分值，再结合文本的相似分值、所述用户的基本信息和所述历史黑白名单，并综合所述用户的用户行为输出所述用户分类标签和所述用户分值。

可选的，所述用户的基本信息包括所述用户的IP、设备信息、用户ID、用户昵称和发文时间中的部分或全部。

还提供了一种文本内容安全防护装置，应用于互联网，所述文本内容安全防护装置包括：

信息获取模块，被配置为获取用户输入的文本和所述用户的基本信息；

第一处理模块，被配置为利用基于深度学习的垃圾文本识别模型对所述文本进行处理，得到所述文本的文本分类标签和文本分值；

第二处理模块，被配置为针对所述文本进行相似性计算，并结合历史黑白名单和所述用户的行为得到用户的用户分类标签和用户分值；

综合处理模块，被配置为对所述文本分类标签、文本分值、用户分类标签和用户分值综合计算，得到所述用户及所述文本的综合标签，并将所述综合标签结合实际业务场景进行内容安全防护。

可选的，所述第一处理模块包括：

分词处理单元，被配置为对准备的样本集中的每个文本进行分词处理，得到相应的文本特征；

扩展处理单元，被配置为对所述文本特征进行特征泛化和重组处理，得到扩展文本特征；

向量处理单元，被配置为将扩展文本特征组成文本特征向量；

模型计算单元，被配置为将所述文本特征向量输入循环神经网络，经过前向处理和反向处理得到所述文本的张量；

张量处理单元，被配置为根据所述张量输出所述文本分类标签和所述文本分值。

可选的，所述第二计算模块被配置为针对所述文本进行相似性计算，得到所述文本的相似分值，再结合文本的相似分值、所述用户的基本信息和所述历史黑白名单，并综合所述用户的用户行为输出所述用户分类标签和所述用户分值。

从上述技术方案可以看出，本发明提供了一种文本内容安全防护方法和装置，该方法和装置应用于互联网，具体为获取用户输入的文本和用户的基本信息；利用基于深度学习的垃圾文本识别模型对文本进行处理，得到文本的文本分类标签和文本分值；针对文本进行相似性计算，并结合历史黑白名单和用户的行为得到用户的用户分类标签和用户分值；对文本分类标签、文本分值、用户分类标签和用户分值综合计算，得到用户及文本的综合标签，并将综合标签结合实际业务场景进行内容安全防护。从而实现对垃圾文本的自动审核，由于不需要人工审核，因此解决了人工审核垃圾文本所耗费人力物力过大的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种文本内容安全防护方法的流程图；

图2为本发明实施例的一种基于深度学习的模型处理流程图；

图3为本发明实施例的一种用户行为处理流程图；

图4为本发明实施例的一种文本内容安全防护装置的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本申请实施例的一种文本内容安全防护方法的流程图。

参照图1所示，本实施例提供的文本内容安全防护方法应用于互联网，具体来说应用于互联网的服务端或者客户端，该方法具备包括如下步骤：

S1、获取用户输入的文本和用户的基本信息。

这里是指用户在通过互联网发出的请求信息或者上传的其他信息，其中会包括用户输入的文本信息，另外，在获取用户输入的文本以外，还获取用户的基本信息，基本信息包括但不限于该用户的IP、设备信息、用户ID、用户昵称和发文时间中的全部或部分信息。

S2、利用垃圾文本识别模型对文本进行处理。

即将前述文本输入到利用预先训练的基于深度学习的垃圾文本识别模型，利用垃圾文本识别模型对该文本进行处理，从而得到文本的文本分类标签和文本分值。具体过程如下，如图2所示：

1、分词处理。针对文本内容进行分词预处理(将文本分成一个个词语，如我爱桂林山水，分成我/爱/桂林/山水)。

2、文本特征泛化和词语重组处理，得到扩展文本特征。进过步骤1之后，针对文本内容得到的分词，有许多实际上同一个类型的特征，或者进过修改后是统一类型的特征。将文本特征泛化和词汇重组后，扩展文本特征重新排放。其中：

1)特征泛化，将是变异体但为同一种类型的特征泛化，如微信和veixin是统一类型可以泛化成微信。如有许多的数字或者英文类型也是同一种类型。

2)词语重组，将多个文字进行重组新的特征。如手机1995705XXXX、1995904XXXX都可以重组‘[PHONE_NUM]’。

3、将文本特征词语组成文本特征向量，其中文本特征向量包括词语级别的词向量(word-embedding)和字符级别的词向量(char-embedding)。

经过了步骤2后，文本特征得到了扩展，但是，当出现了新词或者新的词语时，依旧不能识别，本发明将同时加入词级别的向量和字级别的向量，向量有200个维度，其中每一个词可以由多个字组成，在本深度学习的神经网络中，每个词由最多6个字组成，字经过了一层1维的卷积神经网络网络，再经过了一层max-pool层，字级别的向量再和词级别的向量拼接(concat)成新的tensor。

4、使用bilstm+attention神经网络对文本特征向量进行处理。经过了步骤3后，得到了文本的特征tensor，经过前向的循环神经网络(前向tensor)和反向的循环神经网络(反向tensor)，然后将两个tensor拼接(concat)形成新的tensor。在本发明中的循环神经网络加入了attention(注意力机制)。

5、输出相关文本的文本分类标签和文本分值。经过了bilstm+attention得到最后的输出的tensor，最后经过sigmod得到相应的标签分值。

S3、计算用户的用户分类标签和用户分值。

在计算文本的文本分类标签和文本分值的同时，针对该文本进行相似性计算，并结合历史黑白名单和用户的行为得到用户的用户分类标签和用户分值。具体过程如下，如图3所示：

建模与计算。针对用户的文本进行相似性计算，得到文本的相似分值，其中相似性计算使用的simhash算法。同时结合用户的基本信息，用户的基本信息包括用户ip、设备、用户名称、用户ID、发帖间隔时间等，通过文本相似性并结合用户的基本信息进行建模，其中，建模算法使用了svm算法和频次计算，最终输出相关文本分类的标签和分值。

在建模计算时结合预先构建的历史黑白名单，如手机号码黑名单。如果命中黑名单的一定条件下(如超过发帖频次一定阈值)，输出垃圾分类的标签。

S4、根据两类分类标签和分值得到的综合标签进行内容安全防护。

在得到两类分类标签和分值后进行综合计算，得到用户及文本的综合标签，种类两类分类标签和分值是指基于用户输入的文本的文本分类标签和文本分值，和基于用户的用户分类标签和用户分值。

这里计算综合分值是指结合实际业务场景对文本分类标签、文本分值、用户分类标签和用户分值进行标签统一，然后根据统一处理的标签进行内容安全防护，实现垃圾文本的自动审核。

值得强调的是，本步骤与步骤S3不分先后，两者可以并行执行。

从上述技术方案可以看出，本实施例提供了一种文本内容安全防护方法，该方法应用于互联网，具体为获取用户输入的文本和用户的基本信息；利用基于深度学习的垃圾文本识别模型对文本进行处理，得到文本的文本分类标签和文本分值；针对文本进行相似性计算，并结合历史黑白名单和用户的行为得到用户的用户分类标签和用户分值；对文本分类标签、文本分值、用户分类标签和用户分值综合计算，得到用户及文本的综合标签，并将综合标签结合实际业务场景进行内容安全防护。从而实现对垃圾文本的自动审核，由于不需要人工审核，因此解决了人工审核垃圾文本所耗费人力物力过大的问题。

实施例二

图4为本申请实施例的一种文本内容安全防护装置的框图。

参照图4所示，本实施例提供的文本内容安全防护装置应用于互联网，具体来说应用于互联网的服务端或者客户端，该装置具备包括信息获取模块10、第一处理模块20、第二处理模块30和综合处理模块40。

信息获取模块用于获取用户输入的文本和用户的基本信息。

第一处理模块用于利用垃圾文本识别模型对文本进行处理。

即将前述文本输入到利用预先训练的基于深度学习的垃圾文本识别模型，利用垃圾文本识别模型对该文本进行处理，从而得到文本的文本分类标签和文本分值。该模块具体包括分词处理单元、扩展处理单元、向量处理单元、模型计算单元和张量处理单元。

分词处理单元用于分词处理。针对文本内容进行分词预处理(将文本分成一个个词语，如我爱桂林山水，分成我/爱/桂林/山水)。

扩展处理单元用于文本特征泛化和词语重组处理，得到扩展文本特征。进过分词处理单元处理之后，针对文本内容得到的分词，有许多实际上同一个类型的特征，或者进过修改后是统一类型的特征。将文本特征泛化和词汇重组后，扩展文本特征重新排放。其中：

向量处理单元用于将文本特征词语组成文本特征向量，其中文本特征向量包括词语级别的词向量(word-embedding)和字符级别的词向量(char-embedding)。

经过了扩展处理单元的处理后，文本特征得到了扩展，但是，当出现了新词或者新的词语时，依旧不能识别，本发明将同时加入词级别的向量和字级别的向量，向量有200个维度，其中每一个词可以由多个字组成，在本深度学习的神经网络中，每个词由最多6个字组成，字经过了一层1维的卷积神经网络网络，再经过了一层max-pool层，字级别的向量再和词级别的向量拼接(concat)成新的tensor。

模型计算单元用于使用bilstm+attention神经网络对文本特征向量进行处理。经过了向量处理单元的处理后，得到了文本的特征tensor，经过前向的循环神经网络(前向tensor)和反向的循环神经网络(反向tensor)，然后将两个tensor拼接(concat)形成新的tensor。在本发明中的循环神经网络加入了attention(注意力机制)。

张量处理单元用于输出相关文本的文本分类标签和文本分值。经过了bilstm+attention得到最后的输出的tensor，最后经过sigmod得到相应的标签分值。

第二处理模块用于计算用户的用户分类标签和用户分值。该模块与第二处理模块为并行处理的关系。

综合处理模块用于根据两类分类标签和分值得到的综合标签进行内容安全防护。

从上述技术方案可以看出，本实施例提供了一种文本内容安全防护装置，该装置应用于互联网，具体为获取用户输入的文本和用户的基本信息；利用基于深度学习的垃圾文本识别模型对文本进行处理，得到文本的文本分类标签和文本分值；针对文本进行相似性计算，并结合历史黑白名单和用户的行为得到用户的用户分类标签和用户分值；对文本分类标签、文本分值、用户分类标签和用户分值综合计算，得到用户及文本的综合标签，并将综合标签结合实际业务场景进行内容安全防护。从而实现对垃圾文本的自动审核，由于不需要人工审核，因此解决了人工审核垃圾文本所耗费人力物力过大的问题。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本内容安全防护方法，应用于互联网，其特征在于，所述文本内容安全防护方法包括步骤：

获取用户输入的文本和所述用户的基本信息；

2.如权利要求1所述的文本内容安全防护方法，其特征在于，所述利用基于深度学习的垃圾文本识别模型对所述文本进行处理，得到所述文本的文本分类标签和文本分值，包括步骤：

将扩展文本特征组成文本特征向量；

根据所述张量输出所述文本分类标签和所述文本分值。

3.如权利要求2所述的文本内容安全防护方法，其特征在于，所述文本特征向量包括词语级别的词向量和字符级别的词向量。

4.如权利要求1所述的文本内容安全防护方法，其特征在于，所述针对所述文本进行相似性计算，并结合历史黑白名单和所述用户的行为得到用户的用户分类标签和用户分值，包括步骤：

5.如权利要求4所述的文本内容安全防护方法，其特征在于，所述用户的基本信息包括所述用户的IP、设备信息、用户ID、用户昵称和发文时间中的部分或全部。

6.一种文本内容安全防护装置，应用于互联网，其特征在于，所述文本内容安全防护装置包括：

7.如权利要求6所述的文本内容安全防护装置，其特征在于，所述第一处理模块包括：

8.如权利要求7所述的文本内容安全防护装置，其特征在于，所述文本特征向量包括词语级别的词向量和字符级别的词向量。

9.如权利要求1所述的文本内容安全防护装置，其特征在于，所述第二计算模块被配置为针对所述文本进行相似性计算，得到所述文本的相似分值，再结合文本的相似分值、所述用户的基本信息和所述历史黑白名单，并综合所述用户的用户行为输出所述用户分类标签和所述用户分值。

10.如权利要求9所述的文本内容安全防护装置，其特征在于，所述用户的基本信息包括所述用户的IP、设备信息、用户ID、用户昵称和发文时间中的部分或全部。