CN110516066A - 一种文本内容安全防护方法和装置 - Google Patents

一种文本内容安全防护方法和装置 Download PDF

Info

Publication number
CN110516066A
CN110516066A CN201910667697.0A CN201910667697A CN110516066A CN 110516066 A CN110516066 A CN 110516066A CN 201910667697 A CN201910667697 A CN 201910667697A CN 110516066 A CN110516066 A CN 110516066A
Authority
CN
China
Prior art keywords
text
user
score value
content
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910667697.0A
Other languages
English (en)
Other versions
CN110516066B (zh
Inventor
陈万源
郦柏金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tong Shield Holdings Ltd
Original Assignee
Tong Shield Holdings Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tong Shield Holdings Ltd filed Critical Tong Shield Holdings Ltd
Priority to CN201910667697.0A priority Critical patent/CN110516066B/zh
Publication of CN110516066A publication Critical patent/CN110516066A/zh
Application granted granted Critical
Publication of CN110516066B publication Critical patent/CN110516066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明提供了一种文本内容安全防护方法和装置,该方法和装置应用于互联网,具体为获取用户输入的文本和用户的基本信息;利用基于深度学习的垃圾文本识别模型对文本进行处理,得到文本的文本分类标签和文本分值;针对文本进行相似性计算,并结合历史黑白名单和用户的行为得到用户的用户分类标签和用户分值;对文本分类标签、文本分值、用户分类标签和用户分值综合计算,得到用户及文本的综合标签,并将综合标签结合实际业务场景进行内容安全防护。从而实现对垃圾文本的自动审核,由于不需要人工审核,因此解决了人工审核垃圾文本所耗费人力物力过大的问题。

Description

一种文本内容安全防护方法和装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种文本内容安全防护方法和装置。
背景技术
随着互联网的发展,人们对移动网络的使用增加,各种场景业务的蓬勃扩展,在直播平台、视频弹幕、评论贴吧、聊天对话等场景下,互联网上的数据呈现爆炸式增长,发文、聊天等互动内容已经成为人们阐述想法、倾诉感情、记录生活和工作中不可或缺的部分。
在直播、弹幕、评论场景中,有许多用户或者团伙会经常发送一些涉黄、广告黑产、涉政违禁等垃圾文本,垃圾文本的泛滥,不符合政府对网络垃圾信息的监管,同时也严重影响了用户在直播、弹幕、评论场景中的体验。
为了符合政府监管以及提高用户使用体验,需要对垃圾文本内容进行识别、过滤和屏蔽,而对于目前海量增长的垃圾文本内容,如果通过人工进行审核和处置,则需要耗费巨量的人力和物力,几乎是不可能完成的任务。
发明内容
有鉴于此,本发明提供了一种文本内容安全防护方法和装置,以解决人工审核垃圾文本所耗费人力物力过大的问题。
为了解决上述问题,本发明公开了一种文本内容安全防护方法,应用于互联网,所述文本内容安全防护方法包括步骤:
获取用户输入的文本和所述用户的基本信息;
利用基于深度学习的垃圾文本识别模型对所述文本进行处理,得到所述文本的文本分类标签和文本分值;
针对所述文本进行相似性计算,并结合历史黑白名单和所述用户的行为得到用户的用户分类标签和用户分值;
对所述文本分类标签、文本分值、用户分类标签和用户分值综合计算,得到所述用户及所述文本的综合标签,并将所述综合标签结合实际业务场景进行内容安全防护。
可选的,所述利用基于深度学习的垃圾文本识别模型对所述文本进行处理,得到所述文本的文本分类标签和文本分值,包括步骤:
对准备的样本集中的每个文本进行分词处理,得到相应的文本特征;
对所述文本特征进行特征泛化和重组处理,得到扩展文本特征;
将扩展文本特征组成文本特征向量;
将所述文本特征向量输入循环神经网络,经过前向处理和反向处理得到所述文本的张量;
根据所述张量输出所述文本分类标签和所述文本分值。
可选的,所述文本特征向量包括词语级别的词向量和字符级别的词向量。
可选的,所述针对所述文本进行相似性计算,并结合历史黑白名单和所述用户的行为得到用户的用户分类标签和用户分值,包括步骤:
针对所述文本进行相似性计算,得到所述文本的相似分值,再结合文本的相似分值、所述用户的基本信息和所述历史黑白名单,并综合所述用户的用户行为输出所述用户分类标签和所述用户分值。
可选的,所述用户的基本信息包括所述用户的IP、设备信息、用户ID、用户昵称和发文时间中的部分或全部。
还提供了一种文本内容安全防护装置,应用于互联网,所述文本内容安全防护装置包括:
信息获取模块,被配置为获取用户输入的文本和所述用户的基本信息;
第一处理模块,被配置为利用基于深度学习的垃圾文本识别模型对所述文本进行处理,得到所述文本的文本分类标签和文本分值;
第二处理模块,被配置为针对所述文本进行相似性计算,并结合历史黑白名单和所述用户的行为得到用户的用户分类标签和用户分值;
综合处理模块,被配置为对所述文本分类标签、文本分值、用户分类标签和用户分值综合计算,得到所述用户及所述文本的综合标签,并将所述综合标签结合实际业务场景进行内容安全防护。
可选的,所述第一处理模块包括:
分词处理单元,被配置为对准备的样本集中的每个文本进行分词处理,得到相应的文本特征;
扩展处理单元,被配置为对所述文本特征进行特征泛化和重组处理,得到扩展文本特征;
向量处理单元,被配置为将扩展文本特征组成文本特征向量;
模型计算单元,被配置为将所述文本特征向量输入循环神经网络,经过前向处理和反向处理得到所述文本的张量;
张量处理单元,被配置为根据所述张量输出所述文本分类标签和所述文本分值。
可选的,所述文本特征向量包括词语级别的词向量和字符级别的词向量。
可选的,所述第二计算模块被配置为针对所述文本进行相似性计算,得到所述文本的相似分值,再结合文本的相似分值、所述用户的基本信息和所述历史黑白名单,并综合所述用户的用户行为输出所述用户分类标签和所述用户分值。
可选的,所述用户的基本信息包括所述用户的IP、设备信息、用户ID、用户昵称和发文时间中的部分或全部。
从上述技术方案可以看出,本发明提供了一种文本内容安全防护方法和装置,该方法和装置应用于互联网,具体为获取用户输入的文本和用户的基本信息;利用基于深度学习的垃圾文本识别模型对文本进行处理,得到文本的文本分类标签和文本分值;针对文本进行相似性计算,并结合历史黑白名单和用户的行为得到用户的用户分类标签和用户分值;对文本分类标签、文本分值、用户分类标签和用户分值综合计算,得到用户及文本的综合标签,并将综合标签结合实际业务场景进行内容安全防护。从而实现对垃圾文本的自动审核,由于不需要人工审核,因此解决了人工审核垃圾文本所耗费人力物力过大的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种文本内容安全防护方法的流程图;
图2为本发明实施例的一种基于深度学习的模型处理流程图;
图3为本发明实施例的一种用户行为处理流程图;
图4为本发明实施例的一种文本内容安全防护装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本申请实施例的一种文本内容安全防护方法的流程图。
参照图1所示,本实施例提供的文本内容安全防护方法应用于互联网,具体来说应用于互联网的服务端或者客户端,该方法具备包括如下步骤:
S1、获取用户输入的文本和用户的基本信息。
这里是指用户在通过互联网发出的请求信息或者上传的其他信息,其中会包括用户输入的文本信息,另外,在获取用户输入的文本以外,还获取用户的基本信息,基本信息包括但不限于该用户的IP、设备信息、用户ID、用户昵称和发文时间中的全部或部分信息。
S2、利用垃圾文本识别模型对文本进行处理。
即将前述文本输入到利用预先训练的基于深度学习的垃圾文本识别模型,利用垃圾文本识别模型对该文本进行处理,从而得到文本的文本分类标签和文本分值。具体过程如下,如图2所示:
1、分词处理。针对文本内容进行分词预处理(将文本分成一个个词语,如我爱桂林山水,分成我/爱/桂林/山水)。
2、文本特征泛化和词语重组处理,得到扩展文本特征。进过步骤1之后,针对文本内容得到的分词,有许多实际上同一个类型的特征,或者进过修改后是统一类型的特征。将文本特征泛化和词汇重组后,扩展文本特征重新排放。其中:
1)特征泛化,将是变异体但为同一种类型的特征泛化,如微信和veixin是统一类型可以泛化成微信。如有许多的数字或者英文类型也是同一种类型。
2)词语重组,将多个文字进行重组新的特征。如手机1995705XXXX、1995904XXXX都可以重组‘[PHONE_NUM]’。
3、将文本特征词语组成文本特征向量,其中文本特征向量包括词语级别的词向量(word-embedding)和字符级别的词向量(char-embedding)。
经过了步骤2后,文本特征得到了扩展,但是,当出现了新词或者新的词语时,依旧不能识别,本发明将同时加入词级别的向量和字级别的向量,向量有200个维度,其中每一个词可以由多个字组成,在本深度学习的神经网络中,每个词由最多6个字组成,字经过了一层1维的卷积神经网络网络,再经过了一层max-pool层,字级别的向量再和词级别的向量拼接(concat)成新的tensor。
4、使用bilstm+attention神经网络对文本特征向量进行处理。经过了步骤3后,得到了文本的特征tensor,经过前向的循环神经网络(前向tensor)和反向的循环神经网络(反向tensor),然后将两个tensor拼接(concat)形成新的tensor。在本发明中的循环神经网络加入了attention(注意力机制)。
5、输出相关文本的文本分类标签和文本分值。经过了bilstm+attention得到最后的输出的tensor,最后经过sigmod得到相应的标签分值。
S3、计算用户的用户分类标签和用户分值。
在计算文本的文本分类标签和文本分值的同时,针对该文本进行相似性计算,并结合历史黑白名单和用户的行为得到用户的用户分类标签和用户分值。具体过程如下,如图3所示:
建模与计算。针对用户的文本进行相似性计算,得到文本的相似分值,其中相似性计算使用的simhash算法。同时结合用户的基本信息,用户的基本信息包括用户ip、设备、用户名称、用户ID、发帖间隔时间等,通过文本相似性并结合用户的基本信息进行建模,其中,建模算法使用了svm算法和频次计算,最终输出相关文本分类的标签和分值。
在建模计算时结合预先构建的历史黑白名单,如手机号码黑名单。如果命中黑名单的一定条件下(如超过发帖频次一定阈值),输出垃圾分类的标签。
S4、根据两类分类标签和分值得到的综合标签进行内容安全防护。
在得到两类分类标签和分值后进行综合计算,得到用户及文本的综合标签,种类两类分类标签和分值是指基于用户输入的文本的文本分类标签和文本分值,和基于用户的用户分类标签和用户分值。
这里计算综合分值是指结合实际业务场景对文本分类标签、文本分值、用户分类标签和用户分值进行标签统一,然后根据统一处理的标签进行内容安全防护,实现垃圾文本的自动审核。
值得强调的是,本步骤与步骤S3不分先后,两者可以并行执行。
从上述技术方案可以看出,本实施例提供了一种文本内容安全防护方法,该方法应用于互联网,具体为获取用户输入的文本和用户的基本信息;利用基于深度学习的垃圾文本识别模型对文本进行处理,得到文本的文本分类标签和文本分值;针对文本进行相似性计算,并结合历史黑白名单和用户的行为得到用户的用户分类标签和用户分值;对文本分类标签、文本分值、用户分类标签和用户分值综合计算,得到用户及文本的综合标签,并将综合标签结合实际业务场景进行内容安全防护。从而实现对垃圾文本的自动审核,由于不需要人工审核,因此解决了人工审核垃圾文本所耗费人力物力过大的问题。
实施例二
图4为本申请实施例的一种文本内容安全防护装置的框图。
参照图4所示,本实施例提供的文本内容安全防护装置应用于互联网,具体来说应用于互联网的服务端或者客户端,该装置具备包括信息获取模块10、第一处理模块20、第二处理模块30和综合处理模块40。
信息获取模块用于获取用户输入的文本和用户的基本信息。
这里是指用户在通过互联网发出的请求信息或者上传的其他信息,其中会包括用户输入的文本信息,另外,在获取用户输入的文本以外,还获取用户的基本信息,基本信息包括但不限于该用户的IP、设备信息、用户ID、用户昵称和发文时间中的全部或部分信息。
第一处理模块用于利用垃圾文本识别模型对文本进行处理。
即将前述文本输入到利用预先训练的基于深度学习的垃圾文本识别模型,利用垃圾文本识别模型对该文本进行处理,从而得到文本的文本分类标签和文本分值。该模块具体包括分词处理单元、扩展处理单元、向量处理单元、模型计算单元和张量处理单元。
分词处理单元用于分词处理。针对文本内容进行分词预处理(将文本分成一个个词语,如我爱桂林山水,分成我/爱/桂林/山水)。
扩展处理单元用于文本特征泛化和词语重组处理,得到扩展文本特征。进过分词处理单元处理之后,针对文本内容得到的分词,有许多实际上同一个类型的特征,或者进过修改后是统一类型的特征。将文本特征泛化和词汇重组后,扩展文本特征重新排放。其中:
1)特征泛化,将是变异体但为同一种类型的特征泛化,如微信和veixin是统一类型可以泛化成微信。如有许多的数字或者英文类型也是同一种类型。
2)词语重组,将多个文字进行重组新的特征。如手机1995705XXXX、1995904XXXX都可以重组‘[PHONE_NUM]’。
向量处理单元用于将文本特征词语组成文本特征向量,其中文本特征向量包括词语级别的词向量(word-embedding)和字符级别的词向量(char-embedding)。
经过了扩展处理单元的处理后,文本特征得到了扩展,但是,当出现了新词或者新的词语时,依旧不能识别,本发明将同时加入词级别的向量和字级别的向量,向量有200个维度,其中每一个词可以由多个字组成,在本深度学习的神经网络中,每个词由最多6个字组成,字经过了一层1维的卷积神经网络网络,再经过了一层max-pool层,字级别的向量再和词级别的向量拼接(concat)成新的tensor。
模型计算单元用于使用bilstm+attention神经网络对文本特征向量进行处理。经过了向量处理单元的处理后,得到了文本的特征tensor,经过前向的循环神经网络(前向tensor)和反向的循环神经网络(反向tensor),然后将两个tensor拼接(concat)形成新的tensor。在本发明中的循环神经网络加入了attention(注意力机制)。
张量处理单元用于输出相关文本的文本分类标签和文本分值。经过了bilstm+attention得到最后的输出的tensor,最后经过sigmod得到相应的标签分值。
第二处理模块用于计算用户的用户分类标签和用户分值。该模块与第二处理模块为并行处理的关系。
在计算文本的文本分类标签和文本分值的同时,针对该文本进行相似性计算,并结合历史黑白名单和用户的行为得到用户的用户分类标签和用户分值。具体过程如下,如图3所示:
建模与计算。针对用户的文本进行相似性计算,得到文本的相似分值,其中相似性计算使用的simhash算法。同时结合用户的基本信息,用户的基本信息包括用户IP、设备、用户名称、用户ID、发帖间隔时间等,通过文本相似性并结合用户的基本信息进行建模,其中,建模算法使用了SVM算法和频次计算,最终输出相关文本分类的标签和分值。
在建模计算时结合预先构建的历史黑白名单,如手机号码黑名单。如果命中黑名单的一定条件下(如超过发帖频次一定阈值),输出垃圾分类的标签。
综合处理模块用于根据两类分类标签和分值得到的综合标签进行内容安全防护。
在得到两类分类标签和分值后进行综合计算,得到用户及文本的综合标签,种类两类分类标签和分值是指基于用户输入的文本的文本分类标签和文本分值,和基于用户的用户分类标签和用户分值。
这里计算综合分值是指结合实际业务场景对文本分类标签、文本分值、用户分类标签和用户分值进行标签统一,然后根据统一处理的标签进行内容安全防护,实现垃圾文本的自动审核。
从上述技术方案可以看出,本实施例提供了一种文本内容安全防护装置,该装置应用于互联网,具体为获取用户输入的文本和用户的基本信息;利用基于深度学习的垃圾文本识别模型对文本进行处理,得到文本的文本分类标签和文本分值;针对文本进行相似性计算,并结合历史黑白名单和用户的行为得到用户的用户分类标签和用户分值;对文本分类标签、文本分值、用户分类标签和用户分值综合计算,得到用户及文本的综合标签,并将综合标签结合实际业务场景进行内容安全防护。从而实现对垃圾文本的自动审核,由于不需要人工审核,因此解决了人工审核垃圾文本所耗费人力物力过大的问题。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种文本内容安全防护方法,应用于互联网,其特征在于,所述文本内容安全防护方法包括步骤:
获取用户输入的文本和所述用户的基本信息;
利用基于深度学习的垃圾文本识别模型对所述文本进行处理,得到所述文本的文本分类标签和文本分值;
针对所述文本进行相似性计算,并结合历史黑白名单和所述用户的行为得到用户的用户分类标签和用户分值;
对所述文本分类标签、文本分值、用户分类标签和用户分值综合计算,得到所述用户及所述文本的综合标签,并将所述综合标签结合实际业务场景进行内容安全防护。
2.如权利要求1所述的文本内容安全防护方法,其特征在于,所述利用基于深度学习的垃圾文本识别模型对所述文本进行处理,得到所述文本的文本分类标签和文本分值,包括步骤:
对准备的样本集中的每个文本进行分词处理,得到相应的文本特征;
对所述文本特征进行特征泛化和重组处理,得到扩展文本特征;
将扩展文本特征组成文本特征向量;
将所述文本特征向量输入循环神经网络,经过前向处理和反向处理得到所述文本的张量;
根据所述张量输出所述文本分类标签和所述文本分值。
3.如权利要求2所述的文本内容安全防护方法,其特征在于,所述文本特征向量包括词语级别的词向量和字符级别的词向量。
4.如权利要求1所述的文本内容安全防护方法,其特征在于,所述针对所述文本进行相似性计算,并结合历史黑白名单和所述用户的行为得到用户的用户分类标签和用户分值,包括步骤:
针对所述文本进行相似性计算,得到所述文本的相似分值,再结合文本的相似分值、所述用户的基本信息和所述历史黑白名单,并综合所述用户的用户行为输出所述用户分类标签和所述用户分值。
5.如权利要求4所述的文本内容安全防护方法,其特征在于,所述用户的基本信息包括所述用户的IP、设备信息、用户ID、用户昵称和发文时间中的部分或全部。
6.一种文本内容安全防护装置,应用于互联网,其特征在于,所述文本内容安全防护装置包括:
信息获取模块,被配置为获取用户输入的文本和所述用户的基本信息;
第一处理模块,被配置为利用基于深度学习的垃圾文本识别模型对所述文本进行处理,得到所述文本的文本分类标签和文本分值;
第二处理模块,被配置为针对所述文本进行相似性计算,并结合历史黑白名单和所述用户的行为得到用户的用户分类标签和用户分值;
综合处理模块,被配置为对所述文本分类标签、文本分值、用户分类标签和用户分值综合计算,得到所述用户及所述文本的综合标签,并将所述综合标签结合实际业务场景进行内容安全防护。
7.如权利要求6所述的文本内容安全防护装置,其特征在于,所述第一处理模块包括:
分词处理单元,被配置为对准备的样本集中的每个文本进行分词处理,得到相应的文本特征;
扩展处理单元,被配置为对所述文本特征进行特征泛化和重组处理,得到扩展文本特征;
向量处理单元,被配置为将扩展文本特征组成文本特征向量;
模型计算单元,被配置为将所述文本特征向量输入循环神经网络,经过前向处理和反向处理得到所述文本的张量;
张量处理单元,被配置为根据所述张量输出所述文本分类标签和所述文本分值。
8.如权利要求7所述的文本内容安全防护装置,其特征在于,所述文本特征向量包括词语级别的词向量和字符级别的词向量。
9.如权利要求1所述的文本内容安全防护装置,其特征在于,所述第二计算模块被配置为针对所述文本进行相似性计算,得到所述文本的相似分值,再结合文本的相似分值、所述用户的基本信息和所述历史黑白名单,并综合所述用户的用户行为输出所述用户分类标签和所述用户分值。
10.如权利要求9所述的文本内容安全防护装置,其特征在于,所述用户的基本信息包括所述用户的IP、设备信息、用户ID、用户昵称和发文时间中的部分或全部。
CN201910667697.0A 2019-07-23 2019-07-23 一种文本内容安全防护方法和装置 Active CN110516066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910667697.0A CN110516066B (zh) 2019-07-23 2019-07-23 一种文本内容安全防护方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910667697.0A CN110516066B (zh) 2019-07-23 2019-07-23 一种文本内容安全防护方法和装置

Publications (2)

Publication Number Publication Date
CN110516066A true CN110516066A (zh) 2019-11-29
CN110516066B CN110516066B (zh) 2022-04-15

Family

ID=68622760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910667697.0A Active CN110516066B (zh) 2019-07-23 2019-07-23 一种文本内容安全防护方法和装置

Country Status (1)

Country Link
CN (1) CN110516066B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460802A (zh) * 2020-03-12 2020-07-28 微民保险代理有限公司 异常报文分类方法、装置、计算机设备和存储介质
CN111582825A (zh) * 2020-05-09 2020-08-25 焦点科技股份有限公司 一种基于深度学习的产品信息审核方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588879A (zh) * 2004-08-12 2005-03-02 复旦大学 一种互联网内容过滤系统及过滤方法
CN101295393A (zh) * 1997-11-06 2008-10-29 联信技术公司 根据权限管理信息和其它信息进行选配、选择、窄带广播和/或分类的系统和方法
CN102831248A (zh) * 2012-09-18 2012-12-19 北京奇虎科技有限公司 网络热点挖掘方法及装置
US20130018884A1 (en) * 2011-07-11 2013-01-17 Aol Inc. Systems and Methods for Providing a Content Item Database and Identifying Content Items
CN103078854A (zh) * 2012-12-28 2013-05-01 北京亿赞普网络技术有限公司 报文过滤方法与装置
CN104199981A (zh) * 2014-09-24 2014-12-10 苏州大学 一种基于微博文本的个人和机构用户分类方法及系统
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
CN107633077A (zh) * 2017-09-25 2018-01-26 南京安链数据科技有限公司 一种多策略清洗社交媒体文本数据的系统和方法
CN108090193A (zh) * 2017-12-21 2018-05-29 阿里巴巴集团控股有限公司 异常文本的识别方法和装置
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法
CN109299228A (zh) * 2018-11-27 2019-02-01 阿里巴巴集团控股有限公司 计算机执行的文本风险预测方法及装置
CN110019790A (zh) * 2017-10-09 2019-07-16 阿里巴巴集团控股有限公司 文本识别、文本监控、数据对象识别、数据处理方法
CN110019763A (zh) * 2017-12-27 2019-07-16 北京京东尚科信息技术有限公司 文本过滤方法、系统、设备及计算机可读存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295393A (zh) * 1997-11-06 2008-10-29 联信技术公司 根据权限管理信息和其它信息进行选配、选择、窄带广播和/或分类的系统和方法
CN1588879A (zh) * 2004-08-12 2005-03-02 复旦大学 一种互联网内容过滤系统及过滤方法
US20150142809A1 (en) * 2011-07-11 2015-05-21 Aol Inc. Systems and methods for providing a content item database and identifying content items
US20130018884A1 (en) * 2011-07-11 2013-01-17 Aol Inc. Systems and Methods for Providing a Content Item Database and Identifying Content Items
CN102831248A (zh) * 2012-09-18 2012-12-19 北京奇虎科技有限公司 网络热点挖掘方法及装置
CN103078854A (zh) * 2012-12-28 2013-05-01 北京亿赞普网络技术有限公司 报文过滤方法与装置
CN104199981A (zh) * 2014-09-24 2014-12-10 苏州大学 一种基于微博文本的个人和机构用户分类方法及系统
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
CN107633077A (zh) * 2017-09-25 2018-01-26 南京安链数据科技有限公司 一种多策略清洗社交媒体文本数据的系统和方法
CN110019790A (zh) * 2017-10-09 2019-07-16 阿里巴巴集团控股有限公司 文本识别、文本监控、数据对象识别、数据处理方法
CN108090193A (zh) * 2017-12-21 2018-05-29 阿里巴巴集团控股有限公司 异常文本的识别方法和装置
CN110019763A (zh) * 2017-12-27 2019-07-16 北京京东尚科信息技术有限公司 文本过滤方法、系统、设备及计算机可读存储介质
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法
CN109299228A (zh) * 2018-11-27 2019-02-01 阿里巴巴集团控股有限公司 计算机执行的文本风险预测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡璨等: "社交网络用户发布模式和兴趣预测研究", 《计算机工程与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460802A (zh) * 2020-03-12 2020-07-28 微民保险代理有限公司 异常报文分类方法、装置、计算机设备和存储介质
CN111460802B (zh) * 2020-03-12 2024-02-20 微民保险代理有限公司 异常报文分类方法、装置、计算机设备和存储介质
CN111582825A (zh) * 2020-05-09 2020-08-25 焦点科技股份有限公司 一种基于深度学习的产品信息审核方法及系统
CN111582825B (zh) * 2020-05-09 2021-02-12 焦点科技股份有限公司 一种基于深度学习的产品信息审核方法及系统

Also Published As

Publication number Publication date
CN110516066B (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN103577989B (zh) 一种基于产品识别的信息分类方法及信息分类系统
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN106407178A (zh) 一种会话摘要生成方法及装置
CN105117387B (zh) 一种智能机器人交互系统
CN113268610B (zh) 基于知识图谱的意图跳转方法、装置、设备及存储介质
CN111767403A (zh) 一种文本分类方法和装置
CN105022754A (zh) 基于社交网络的对象分类方法及装置
CN110413769A (zh) 场景分类方法、装置、存储介质及其电子设备
CN111694937A (zh) 基于人工智能的面试方法、装置、计算机设备及存储介质
CN113722483B (zh) 话题分类方法、装置、设备及存储介质
CN106875076A (zh) 建立外呼质量模型、外呼模型及外呼评价的方法及系统
CN102708164A (zh) 电影期望值的计算方法及系统
CN110516066A (zh) 一种文本内容安全防护方法和装置
CN106844344A (zh) 用于对话的贡献度计算方法及主题抽取方法和系统
CN110298041A (zh) 垃圾文本过滤方法、装置、电子设备及存储介质
Stemle et al. Using language learner data for metaphor detection
CN107368489A (zh) 一种资讯数据处理方法及装置
CN111897955B (zh) 基于编解码的评语生成方法、装置、设备和存储介质
CN110309355A (zh) 内容标签的生成方法、装置、设备及存储介质
CN107783958A (zh) 一种目标语句识别方法及装置
CN113051869B (zh) 一种结合语义识别实现标识文本差异内容的方法及系统
CN113705247B (zh) 主题模型效果评估方法、装置、设备、存储介质和产品
Cha et al. Extracting topic related keywords by backtracking CNN based text classifier
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
Wójcik et al. Ontology based approach to sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant