CN110991171A - 敏感词检测方法及装置 - Google Patents

敏感词检测方法及装置 Download PDF

Info

Publication number
CN110991171A
CN110991171A CN201910945463.8A CN201910945463A CN110991171A CN 110991171 A CN110991171 A CN 110991171A CN 201910945463 A CN201910945463 A CN 201910945463A CN 110991171 A CN110991171 A CN 110991171A
Authority
CN
China
Prior art keywords
text
word
classification model
sensitive
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910945463.8A
Other languages
English (en)
Other versions
CN110991171B (zh
Inventor
禹庆华
叶盛
李虎
李国辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qianxin Technology Group Co Ltd
Secworld Information Technology Beijing Co Ltd
Original Assignee
Qianxin Technology Group Co Ltd
Secworld Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qianxin Technology Group Co Ltd, Secworld Information Technology Beijing Co Ltd filed Critical Qianxin Technology Group Co Ltd
Priority to CN201910945463.8A priority Critical patent/CN110991171B/zh
Publication of CN110991171A publication Critical patent/CN110991171A/zh
Application granted granted Critical
Publication of CN110991171B publication Critical patent/CN110991171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明实施例提供一种敏感词检测方法及装置,其中,方法包括:获取目标文本,对目标文本进行分词处理;将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取文本分类模型输出的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;若文本分类模型输出的目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。本发明实施例能提高检测敏感词的效率,节省人工成本,时效性高。

Description

敏感词检测方法及装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种敏感词检测方法及装置。
背景技术
随着信息技术的快速发展,在互联网的网页中的文本内容也以爆炸式的速度涌现,例如直播弹幕、贴吧、评论、社交平台等互联网内容类产品,随着活跃用户量的增加,这些产品会带来大量的文本。然而这些文本中可能会存在如广告类或其他不良类型等敏感词。
敏感词主要用来做网页过滤或者网页违规监测等作用,可过滤掉网页中存在的敏感词的信息。因此,敏感词检测是现代网络监控的必要功能。随着内容的增多和时间的推移,敏感词需要不断的去富集。用富集后的敏感词来过滤网页或监测,从网页过滤或监测结果中再发现新敏感词。因此,这是一个不断迭代更新的过程。
当前,敏感词收集主要还是通过人工运营来收集,人工需要查看大量的文本内容,人工检测出敏感词。但是,这种人工检测敏感词的方式效率太低,而且实时性不够。
发明内容
针对现有技术存在的问题,本发明实施例提供一种敏感词检测方法及装置。
本发明实施例提供一种敏感词检测方法,包括:
获取目标文本,对所述目标文本进行分词处理;
将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;
若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;
其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
可选地,在将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重之前,所述方法还包括:
获取带有类别的标注的文本样本;
对所述带有类别的标注的文本样本进行分词处理;
基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练,生成文本分类模型。
可选地,所述文本分类模型中,所输入的分词处理后的文本中的每个词语在循环神经网络内部均有一个隐藏状态,对于所输入的分词处理后的文本中的任一词语,通过隐藏层得到当前词语的隐藏状态,把隐藏状态值输入注意力机制函数得到每个词的注意力权重,把每个词的隐藏状态值和注意力权重相乘结合在一起,结合值输入到一个全连接层,全连接层输出值是整个文本的特征向量,对所述特征向量进行类别的分类,使得所述文本分类模型输出所输入的分词处理后的文本的类别和分词处理后的文本中每个词语的注意力权重。
可选地,所述目标文本包括:从新监测到的网页中提取的文本;或者,
利用已检测出的敏感词对监测的网页进行过滤、从过滤后的网页中提取的文本。
本发明实施例提供一种敏感词检测装置,包括:
第一获取模块,用于获取目标文本,对所述目标文本进行分词处理;
第二获取模块,用于将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;
检测模块,用于若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;
其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
可选地,所述装置还包括:
第三获取模块,用于获取带有类别的标注的文本样本;
处理模块,用于对所述带有类别的标注的文本样本进行分词处理;
训练模块,用于基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练,生成文本分类模型。
可选地,所述文本分类模型中,所输入的分词处理后的文本中的每个词语在循环神经网络内部均有一个隐藏状态,对于所输入的分词处理后的文本中的任一词语,通过隐藏层得到当前词语的隐藏状态,把隐藏状态值输入注意力机制函数得到每个词的注意力权重,把每个词的隐藏状态值和注意力权重相乘结合在一起,结合值输入到一个全连接层,全连接层输出值是整个文本的特征向量,对所述特征向量进行类别的分类,使得所述文本分类模型输出所输入的分词处理后的文本的类别和分词处理后的文本中每个词语的注意力权重。
可选地,所述目标文本包括:从新监测到的网页中提取的文本;或者,
利用已检测出的敏感词对监测的网页进行过滤、从过滤后的网页中提取的文本。
本发明实施例提供的敏感词检测方法及装置,通过将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取文本分类模型输出的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常,若文本分类模型输出的目标文本的类别为敏感,将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词,其中,文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的,由此,能够检测出目标文本中的敏感词,提高检测敏感词的效率,节省人工成本,而且时效性高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种敏感词检测方法的流程示意图;
图2为本发明一实施例提供的一种敏感词检测装置的结构示意图;
图3为本发明一实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明一实施例提供的一种敏感词检测方法的流程示意图,如图1所示,本实施例的敏感词检测方法,包括:
S1、获取目标文本,对所述目标文本进行分词处理。
需要说明的是,本实施例所述敏感词检测方法的执行主体为处理器。
可以理解的是,在具体应用中,可以利用分词工具,对所述目标文本进行分词处理,本实施例并不对所述分词工具进行限制,只要能够实现对目标文本进行分词处理功能的工具都可以。
可以理解的是,敏感词主要用来做网页过滤或者网页违规监测等作用,因此,本实施例所述目标文本可以包括:从新监测到的网页中提取的文本;或者,利用已检测出的敏感词对监测的网页进行过滤、从过滤后的网页中提取的文本。
S2、将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常。
其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
可以理解的是,由于本实施例所述文本分类模型是带有注意力机制的循环神经网络模型,是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的,因此所述文本分类模型中,所输入的分词处理后的目标文本中的每个词语在循环神经网络内部均有一个隐藏状态,对于所输入的分词处理后的目标文本中的任一词语,通过隐藏层得到将当前词语的隐藏状态,把隐藏状态值输入注意力机制函数得到每个词的注意力权重,把每个词的隐藏状态值和注意力权重相乘结合在一起,结合值输入到一个全连接层,全连接层输出值是整个文本的特征向量,对所述特征向量进行类别的分类,使得所述文本分类模型可以输出所输入的分词处理后的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重。
S3、若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词。
可以理解的是,本实施例在循环神经网络中引入了注意力机制,在基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练的过程中,可利用注意力机制能够训练出分词处理后的带有类别的标注的文本样本中每个词语的注意力权重,具体原理可参考现有技术中对注意力机制的说明,本实施例不进行详细阐述。
可以理解的是,一些网站会根据自身实际情况,预先设定一些只适用于本网站的特殊敏感词。
本实施例是先利用文本分类模型,对分词处理后的目标文本进行分类,获取目标文本的类别(目标文本的类别为敏感或者正常)和分词处理后的目标文本中每个词语的注意力权重,分词处理后的目标文本中每个词语的注意力权重的大小可以代表每一个单词对分类结果的影响程度,因此,本实施例在所述目标文本的类别为敏感时,将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词。
可以理解的是,所检测出的敏感词的注意力权重越大,则表明所检测出的敏感词对所述目标文本的类别为敏感的文本分类结果的作用/影响程度越大。
可以理解的是,由于敏感词主要用来做网页过滤或者网页违规监测等作用,本实施例检测出新的敏感词后,可以用来过滤或监测更多的网页中的文本内容,新监测到的网页也可以利用本实施例所述敏感词检测方法检测出新的敏感词,两者之间是相互迭代促进的。
本实施例提供的敏感词检测方法,通过将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取文本分类模型输出的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常,若文本分类模型输出的目标文本的类别为敏感,将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词,其中,文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的,由此,能够检测出目标文本中的敏感词,提高检测敏感词的效率,节省人工成本,而且时效性高。
进一步地,在上述实施例的基础上,在所述步骤S2之前,本实施例所述方法还可以包括图中未示出的步骤P1-P3:
P1、获取带有类别的标注的文本样本。
可以理解的是,所述类别是文本的类别,包括:敏感和正常,所述类别的标注是将文本样本标注为敏感还是正常。
P2、对所述带有类别的标注的文本样本进行分词处理。
可以理解的是,在具体应用中,可以利用分词工具,对所述带有类别的标注的文本样本进行分词处理,本实施例并不对所述分词工具进行限制,只要能够实现对所述带有类别的标注的文本样本进行分词处理功能的工具都可以。
P3、基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练,生成文本分类模型。
可以理解的是,本实施例在循环神经网络中引入了注意力机制,在基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练的过程中,利用注意力机制能够训练出分词处理后的带有类别的标注的文本样本中每个词语的注意力权重,具体原理可参考现有技术中对注意力机制的说明,本实施例不进行详细阐述。
可以理解的是,所述文本分类模型中,
所输入的分词处理后的文本中的每个词语在循环神经网络内部均有一个隐藏状态,对于所输入的分词处理后的文本中的任一词语,通过隐藏层得到当前词语的隐藏状态,把隐藏状态值输入注意力机制函数得到每个词的注意力权重,把每个词的隐藏状态值和注意力权重相乘结合在一起,结合值输入到一个全连接层,全连接层输出值是整个文本的特征向量,对所述特征向量进行类别的分类,使得所述文本分类模型输出所输入的分词处理后的文本的类别和分词处理后的文本中每个词语的注意力权重。
本实施例提供的敏感词检测方法,利用基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的文本分类模型,获取目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,将类别为敏感的分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词,相比于现有技术,能够检测出目标文本中的敏感词,提高检测敏感词的效率,节省人工成本,而且时效性高。
图2示出了本发明一实施例提供的一种敏感词检测装置的结构示意图,如图2所示,本实施例的敏感词检测装置,包括:第一获取模块21、第二获取模块22和检测模块23;其中:
所述第一获取模块21,用于获取目标文本,对所述目标文本进行分词处理;
所述第二获取模块22,用于将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;
所述检测模块23,用于若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;
其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
具体地,所述第一获取模块21获取目标文本,对所述目标文本进行分词处理;所述第二获取模块22将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;所述检测模块23若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
需要说明的是,本实施例所述敏感词检测装置应用于处理器中。
可以理解的是,在具体应用中,所述第一获取模块21可以利用分词工具,对所述目标文本进行分词处理,本实施例并不对所述分词工具进行限制,只要能够实现对目标文本进行分词处理功能的工具都可以。
可以理解的是,敏感词主要用来做网页过滤或者网页违规监测等作用,因此,本实施例所述目标文本可以包括:从新监测到的网页中提取的文本;或者,利用已检测出的敏感词对监测的网页进行过滤、从过滤后的网页中提取的文本。
可以理解的是,由于本实施例所述文本分类模型是带有注意力机制的循环神经网络模型,是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的,因此所述文本分类模型中,所输入的分词处理后的目标文本中的每个词语在循环神经网络内部均有一个隐藏状态,对于所输入的分词处理后的目标文本中的任一词语,通过隐藏层得到当前词语的隐藏状态,把隐藏状态值输入注意力机制函数得到每个词的注意力权重,把每个词的隐藏状态值和注意力权重相乘结合在一起,结合值输入到一个全连接层,全连接层输出值是整个文本的特征向量,对所述特征向量进行类别的分类,使得所述文本分类模型可以输出所输入的分词处理后的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重。
可以理解的是,本实施例在循环神经网络中引入了注意力机制,在基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练的过程中,可利用注意力机制能够训练出分词处理后的带有类别的标注的文本样本中每个词语的注意力权重,具体原理可参考现有技术中对注意力机制的说明,本实施例不进行详细阐述。
可以理解的是,一些网站会根据自身实际情况,预先设定一些只适用于本网站的特殊敏感词。
本实施例是先利用文本分类模型,对分词处理后的目标文本进行分类,获取目标文本的类别(目标文本的类别为敏感或者正常)和分词处理后的目标文本中每个词语的注意力权重,分词处理后的目标文本中每个词语的注意力权重的大小可以代表每一个单词对分类结果的影响程度,因此,本实施例在所述目标文本的类别为敏感时,将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词。
可以理解的是,所检测出的敏感词的注意力权重越大,则表明所检测出的敏感词对所述目标文本的类别为敏感的文本分类结果的作用/影响程度越大。
可以理解的是,由于敏感词主要用来做网页过滤或者网页违规监测等作用,本实施例所述敏感词检测装置检测出新的敏感词后,可以用来过滤或监测更多的网页中的文本内容,新监测到的网页也可以利用本实施例所述敏感词检测装置检测出新的敏感词,两者之间是相互迭代促进的。
本实施例提供的敏感词检测装置,通过第一获取模块获取目标文本,对所述目标文本进行分词处理,第二获取模块将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常,检测模块若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词,其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的,由此,能够检测出目标文本中的敏感词,提高检测敏感词的效率,节省人工成本,而且时效性高。
进一步地,在上述实施例的基础上,本实施例所述敏感词检测装置还可以包括图中未示出的:
第三获取模块,用于获取带有类别的标注的文本样本;
处理模块,用于对所述带有类别的标注的文本样本进行分词处理;
训练模块,用于基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练,生成文本分类模型。
可以理解的是,所述类别是文本的类别,包括:敏感和正常,所述类别的标注是将文本样本标注为敏感还是正常。
可以理解的是,在具体应用中,所述第三获取模块可以利用分词工具,对所述带有类别的标注的文本样本进行分词处理,本实施例并不对所述分词工具进行限制,只要能够实现对所述带有类别的标注的文本样本进行分词处理功能的工具都可以。
可以理解的是,本实施例在循环神经网络中引入了注意力机制,在基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练的过程中,利用注意力机制能够训练出分词处理后的带有类别的标注的文本样本中每个词语的注意力权重,具体原理可参考现有技术中对注意力机制的说明,本实施例不进行详细阐述。
可以理解的是,所述文本分类模型中,所输入的分词处理后的文本中的每个词语在循环神经网络内部均有一个隐藏状态,对于所输入的分词处理后的文本中的任一词语,通过隐藏层得到当前词语的隐藏状态,把隐藏状态值输入注意力机制函数得到每个词的注意力权重,把每个词的隐藏状态值和注意力权重相乘结合在一起,结合值输入到一个全连接层,全连接层输出值是整个文本的特征向量,对所述特征向量进行类别的分类,使得所述文本分类模型输出所输入的分词处理后的文本的类别和分词处理后的文本中每个词语的注意力权重。
本实施例提供的敏感词检测装置,利用基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的文本分类模型,获取目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,将类别为敏感的分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词,相比于现有技术,能够检测出目标文本中的敏感词,提高检测敏感词的效率,节省人工成本,而且时效性高。
本发明实施例提供的敏感词检测装置,可以用于执行前述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图3示出了本发明一实施例提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括存储器302、处理器301、总线303及存储在存储器302上并可在处理器301上运行的计算机程序,其中,处理器301,存储器302通过总线303完成相互间的通信。所述处理器301执行所述计算机程序时实现上述方法的步骤,例如包括:获取目标文本,对所述目标文本进行分词处理;将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤,例如包括:获取目标文本,对所述目标文本进行分词处理;将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种敏感词检测方法,其特征在于,包括:
获取目标文本,对所述目标文本进行分词处理;
将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;
若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;
其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
2.根据权利要求1所述的敏感词检测方法,其特征在于,在将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重之前,所述方法还包括:
获取带有类别的标注的文本样本;
对所述带有类别的标注的文本样本进行分词处理;
基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练,生成文本分类模型。
3.根据权利要求2所述的敏感词检测方法,其特征在于,所述文本分类模型中,所输入的分词处理后的文本中的每个词语在循环神经网络内部均有一个隐藏状态,对于所输入的分词处理后的文本中的任一词语,通过隐藏层得到当前词语的隐藏状态,把隐藏状态值输入注意力机制函数得到每个词的注意力权重,把每个词的隐藏状态值和注意力权重相乘结合在一起,结合值输入到一个全连接层,全连接层输出值是整个文本的特征向量,对所述特征向量进行类别的分类,使得所述文本分类模型输出所输入的分词处理后的文本的类别和分词处理后的文本中每个词语的注意力权重。
4.根据权利要求1所述的敏感词检测方法,其特征在于,所述目标文本包括:从新监测到的网页中提取的文本;或者,
利用已检测出的敏感词对监测的网页进行过滤、从过滤后的网页中提取的文本。
5.一种敏感词检测装置,其特征在于,包括:
第一获取模块,用于获取目标文本,对所述目标文本进行分词处理;
第二获取模块,用于将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;
检测模块,用于若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;
其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
6.根据权利要求5所述的敏感词检测装置,其特征在于,所述装置还包括:
第三获取模块,用于获取带有类别的标注的文本样本;
处理模块,用于对所述带有类别的标注的文本样本进行分词处理;
训练模块,用于基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练,生成文本分类模型。
7.根据权利要求6所述的敏感词检测装置,其特征在于,所述文本分类模型中,所输入的分词处理后的文本中的每个词语在循环神经网络内部均有一个隐藏状态,对于所输入的分词处理后的文本中的任一词语,通过隐藏层得到当前词语的隐藏状态,把隐藏状态值输入注意力机制函数得到每个词的注意力权重,把每个词的隐藏状态值和注意力权重相乘结合在一起,结合值输入到一个全连接层,全连接层输出值是整个文本的特征向量,对所述特征向量进行类别的分类,使得所述文本分类模型输出所输入的分词处理后的文本的类别和分词处理后的文本中每个词语的注意力权重。
8.根据权利要求5所述的敏感词检测装置,其特征在于,所述目标文本包括:从新监测到的网页中提取的文本;或者,
利用已检测出的敏感词对监测的网页进行过滤、从过滤后的网页中提取的文本。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。
CN201910945463.8A 2019-09-30 2019-09-30 敏感词检测方法及装置 Active CN110991171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910945463.8A CN110991171B (zh) 2019-09-30 2019-09-30 敏感词检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910945463.8A CN110991171B (zh) 2019-09-30 2019-09-30 敏感词检测方法及装置

Publications (2)

Publication Number Publication Date
CN110991171A true CN110991171A (zh) 2020-04-10
CN110991171B CN110991171B (zh) 2023-10-13

Family

ID=70081901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910945463.8A Active CN110991171B (zh) 2019-09-30 2019-09-30 敏感词检测方法及装置

Country Status (1)

Country Link
CN (1) CN110991171B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084306A (zh) * 2020-09-10 2020-12-15 北京天融信网络安全技术有限公司 一种敏感词挖掘方法、装置、存储介质及电子设备
CN112597770A (zh) * 2020-12-16 2021-04-02 盐城数智科技有限公司 基于深度学习的敏感信息查询方法
CN112765402A (zh) * 2020-12-31 2021-05-07 北京奇艺世纪科技有限公司 一种敏感信息识别方法、装置、设备及存储介质
CN113111174A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于深度学习模型的群体识别方法与装置、设备及介质
CN113111175A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于深度学习模型极端行为识别方法与装置、设备及介质
CN113111176A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于深度学习模型作案手段识别方法与装置、设备及介质
CN113761112A (zh) * 2020-10-09 2021-12-07 北京沃东天骏信息技术有限公司 一种敏感词过滤方法和装置
WO2022121164A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 封停敏感词预测方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170736A (zh) * 2017-12-15 2018-06-15 南瑞集团有限公司 一种基于循环注意力机制的文档快速扫描定性方法
US10210860B1 (en) * 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
CN109992771A (zh) * 2019-03-13 2019-07-09 北京三快在线科技有限公司 一种文本生成的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170736A (zh) * 2017-12-15 2018-06-15 南瑞集团有限公司 一种基于循环注意力机制的文档快速扫描定性方法
US10210860B1 (en) * 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
CN109472024A (zh) * 2018-10-25 2019-03-15 安徽工业大学 一种基于双向循环注意力神经网络的文本分类方法
CN109992771A (zh) * 2019-03-13 2019-07-09 北京三快在线科技有限公司 一种文本生成的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王盛玉;曾碧卿;商齐;韩旭丽;: "基于词注意力卷积神经网络模型的情感分析研究" *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111174A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于深度学习模型的群体识别方法与装置、设备及介质
CN113111175A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于深度学习模型极端行为识别方法与装置、设备及介质
CN113111176A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于深度学习模型作案手段识别方法与装置、设备及介质
CN112084306A (zh) * 2020-09-10 2020-12-15 北京天融信网络安全技术有限公司 一种敏感词挖掘方法、装置、存储介质及电子设备
CN112084306B (zh) * 2020-09-10 2023-08-29 北京天融信网络安全技术有限公司 一种关键词挖掘方法、装置、存储介质及电子设备
CN113761112A (zh) * 2020-10-09 2021-12-07 北京沃东天骏信息技术有限公司 一种敏感词过滤方法和装置
WO2022121164A1 (zh) * 2020-12-10 2022-06-16 平安科技(深圳)有限公司 封停敏感词预测方法、装置、计算机设备及存储介质
CN112597770A (zh) * 2020-12-16 2021-04-02 盐城数智科技有限公司 基于深度学习的敏感信息查询方法
CN112765402A (zh) * 2020-12-31 2021-05-07 北京奇艺世纪科技有限公司 一种敏感信息识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110991171B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN110991171A (zh) 敏感词检测方法及装置
CN109299258B (zh) 一种舆情事件检测方法、装置及设备
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
US20150295942A1 (en) Method and server for performing cloud detection for malicious information
CN108021651B (zh) 一种网络舆情风险评估方法及装置
CN103577755A (zh) 一种基于支持向量机的恶意脚本静态检测方法
CN107346433A (zh) 一种文本数据分类方法及服务器
CN113837531A (zh) 一种基于网络评论的产品质量问题发现及风险评估方法
JP2019133621A (ja) Apiドキュメンテーションの収集
CN109902179A (zh) 基于自然语言处理的筛选电商垃圾评论的方法
CN107861856A (zh) 云数据系统中告警信息的处理方法和计算机存储介质
CN104850617A (zh) 短文本处理方法及装置
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
Zainol et al. Association analysis of cyberbullying on social media using Apriori algorithm
CN117077075A (zh) 用于环境保护的水质监测系统及其方法
CN113127365A (zh) 确定网页质量的方法、装置、电子设备和计算机可读存储介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
CN107506349A (zh) 一种基于网络日志的用户负面情绪预测方法和系统
CN108959293A (zh) 一种文本数据分类方法及服务器
Munot et al. Conceptual framework for abstractive text summarization
CN114969333A (zh) 基于数据挖掘的网络信息安全管理方法及装置
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置
Kumar Segmentation based twitter opinion mining using ensemble learning
CN111541683B (zh) 风险网站宣传主体检测方法、装置、设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088

Applicant after: Qianxin Technology Group Co.,Ltd.

Applicant after: Qianxin Wangshen information technology (Beijing) Co.,Ltd.

Address before: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088

Applicant before: Qianxin Technology Group Co.,Ltd.

Applicant before: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.

GR01 Patent grant
GR01 Patent grant