CN111061874B - 敏感信息检测方法和装置 - Google Patents
敏感信息检测方法和装置 Download PDFInfo
- Publication number
- CN111061874B CN111061874B CN201911256390.8A CN201911256390A CN111061874B CN 111061874 B CN111061874 B CN 111061874B CN 201911256390 A CN201911256390 A CN 201911256390A CN 111061874 B CN111061874 B CN 111061874B
- Authority
- CN
- China
- Prior art keywords
- words
- word
- text
- participle
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开敏感信息检测方法和装置,其中,一种敏感信息检测方法,包括:响应于接收到的待检测文本,对待检测文本进行分词处理以得到第一分词序列;判断第一分词序列中的各分词是否能够匹配上白名单中的词;如果能够匹配上白名单中的词,使用与白名单中的词对应的预设标记替换第一分词序列中与白名单中的词匹配的分词以形成第二分词序列,其中,白名单中的词均具有对应的预设标记;判断第二分词序列中的各分词是否能够匹配上黑名单中的词;以及如果第二分词序列中的任一分词能够匹配上黑名单中的词,将待检测文本确定为敏感信息。本申请实施例通过先进行白名单匹配和替换再进行黑名单检测,能避免一部分词被误识别为敏感词,减少误识别的概率。
Description
技术领域
本发明属于敏感信息检测技术领域,尤其涉及敏感信息检测方法和装置。
背景技术
随着互联网的不断发展和进步,基于文本信息的网络服务已经深入到人们生活的各个方面。但是互联网服务中的文本信息在给人们带来交流便利的同时,不可避免地也会散播一些未经证实的消息或不良内容,很多情况下会出现违反国家法律法规并损害公众利益的言行。因此,为了维护国家法律和公民权益,越来越多的网络文本服务中集成了敏感词过滤功能。
目前流行的敏感词匹配技术,通常采用敏感词库中的敏感词向待判定的文本匹配的方式进行的,需要反复地提取词语并逐词比对。
发明人在实现本申请的过程中发现:其一,这种反复执行的敏感词查找操作会严重降低网络服务的性能,影响用户体验;其二,这种提取方式只考虑文本的局部信息,没有考虑句子的上下文语义信息,会错误屏蔽掉用户的信息,降低用户的通讯质量;其三,这种提取方式使用的是统一的敏感词库,没有考虑不同的用户有不同的敏感词库,不支持敏感词库的配置,灵活度不高。
发明内容
本发明实施例提供一种敏感信息检测方法和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种敏感信息检测方法,包括:响应于接收到的待检测文本,对所述待检测文本进行分词处理以得到第一分词序列;判断所述第一分词序列中的各分词是否能够匹配上白名单中的词;如果能够匹配上所述白名单中的词,使用与所述白名单中的词对应的预设标记替换所述第一分词序列中与所述白名单中的词匹配的分词以形成第二分词序列,其中,所述白名单中的词均具有对应的预设标记;判断所述第二分词序列中的各分词是否能够匹配上黑名单中的词;以及如果所述第二分词序列中的任一分词能够匹配上所述黑名单中的词,将所述待检测文本确定为敏感信息。
第二方面,本发明实施例提供一种敏感信息检测装置,包括:分词模块,配置为响应于接收到的待检测文本,对所述待检测文本进行分词处理以得到第一分词序列;白名单判断模块,配置为判断所述第一分词序列中的各分词是否能够匹配上白名单中的词;标记替换模块,配置为如果能够匹配上所述白名单中的词,使用与所述白名单中的词对应的预设标记替换所述第一分词序列中与所述白名单中的词匹配的分词以形成第二分词序列,其中,所述白名单中的词均具有对应的预设标记;黑名单判断模块,配置为判断所述第二分词序列中的各分词是否能够匹配上黑名单中的词;以及敏感信息确定模块,配置为如果所述第二分词序列中的任一分词能够匹配上所述黑名单中的词,将所述待检测文本确定为敏感信息。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的敏感信息检测方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的敏感信息检测方法的步骤。
本申请的方法和装置提供的方案通过先对待检测文本进行分词形成第一分词序列,之后再对该第一分词序列进行白名单检测,如果第一分词序列中存在分词能够匹配上白名单上的词,就采用预设标记对该分词进行替换,从而后续再进行黑名单检测时不会将白名单中存在的敏感词判定为敏感信息,从而能避免一部分词被误识别为敏感词,减少误识别的概率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种敏感信息检测方法的流程图;
图2为本发明一实施例提供的一种敏感信息检测方法的流程图;
图3为本发明一实施例提供的一种敏感信息检测方法的一个具体实施例的基于神经网络的文本分类方法的神经网络模型的网络架构图;
图4为本发明一实施例提供的一种敏感信息检测方法的一个具体实施例的示意图;
图5为本发明一实施例提供的一种敏感信息检测装置的框图;
图6为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的敏感信息检测方法一实施例的流程图,本实施例的敏感信息检测方法可以适用于对网络服务中的文本信息进行敏感信息检测,如网页、社交网络等中用户之间发送或者系统回复的文本信息等。
如图1所示,在步骤101中,响应于接收到的待检测文本,对待检测文本进行分词处理以得到第一分词序列;
在步骤102中,判断第一分词序列中的各分词是否能够匹配上白名单中的词;
在步骤103中,如果能够匹配上白名单中的词,使用与白名单中的词对应的预设标记替换第一分词序列中与白名单中的词匹配的分词以形成第二分词序列,其中,白名单中的词均具有对应的预设标记;
在步骤104中,判断第二分词序列中的各分词是否能够匹配上黑名单中的词;
在步骤105中,如果第二分词序列中的任一分词能够匹配上黑名单中的词,将待检测文本确定为敏感信息。
在本实施例中,对于步骤101,敏感信息检测装置在接收到待检测文本之后,对该待检测文本进行分词处理从而得到第一分词序列。当接收到需要检测的文本时,首先需要进行分词操作,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,现有技术中中文分词技术已经是一门比较成熟的技术了,在此不再赘述。
之后,对于步骤102,敏感信息检测装置首先判断第一分词序列中的各分词是否能够匹配上白名单中的词。其中,敏感词名单分为黑名单和白名单。敏感词黑名单是传统的敏感词库,里面是敏感词集合,比如“裸聊”、“傻X”和“生殖器”等词。敏感词白名单指非敏感词集合,一般这些词包含敏感词,但是完整的词就不是敏感词,比如“水稻杂种”、“生殖器发育”和“打击毒品”。敏感词白名单的作用是屏蔽掉这些词,以免这些词被误识别为敏感词。
然后,对于步骤103,敏感信息检测装置如果判断第一分词序列中的各分词能够匹配上白名单中的词,使用与白名单中的词对应的预设标记替换第一分词序列中与白名单中的词匹配的分词以形成第二分词序列,其中,白名单中的词均具有对应的预设标记。从而对于某些完整的词不是敏感词,但是其中包含敏感词的词语可以放在白名单中先进行一次过滤和替换,从而之后再进行黑名单检测时这些包含敏感词的白名单就不会被判定为包含黑名单中的词,从而减少误识别。例如,“水稻杂种”可以采用“&”进行替换,从而后续在进行黑名单检测时,将不会检测到“杂种”这个词。其中,白名单中的词均具有对应的预设标记,预设标记可以时预设的一些符号,或者是一些别的非敏感词,总之,目标是使其与白名单中的词对应的分词在后续黑名单检测过程中不被检测出,具体采用何种标记替换,本领域技术人员根据现有的描述可以有多种实现方式,本申请在此没有限制,在此不再赘述。
之后,对于步骤104,敏感信息检测装置判断第二分词序列中的各分词是否能够匹配上黑名单中的词。最后,对于步骤105,如果第二分词序列中的任一分词能够匹配上黑名单中的词,将待检测文本确定为敏感信息。当第二分词序列中包含黑名单中的词时,将其确定为敏感信息,对于敏感信息,还会进行一些后续的屏蔽之类的处理,从而保证最终在网络上传播的信息不包含敏感词,本申请在此没有限制,在此不再赘述。
本实施例的方法通过先对待检测文本进行分词形成第一分词序列,之后再对该第一分词序列进行白名单检测,如果第一分词序列中存在分词能够匹配上白名单上的词,就采用预设标记对该分词进行替换,从而后续再进行黑名单检测时不会将白名单中存在的敏感词判定为敏感信息,从而能避免一部分词被误识别为敏感词,减少误识别的概率。
在一些可选的实施例中,可以采用前缀树为数据结构来存储敏感词黑名单和白名单,该数据结构占用空间小,匹配速度快。待判定的文本先和敏感词白名单前缀树匹配,如果匹配上则在原来的文本上替换掉匹配上的白名单词,然后将替换后的文本分词,分词后和敏感词黑名单前缀树匹配,如果匹配上就说明该文本内容敏感,应该屏蔽,没有则不屏蔽。例如,待判定的文本信息是“...女性应该保护乳房...”,匹配上白名单前缀树中的词“保护乳房”,并且替换后文本信息为“...女性应该#...”,这样即使“乳房”这个词是在黑名单词中也匹配不到,该文本就不会误判为敏感信息。
在一些可选的实施例中,在如果第二分词序列中的任一分词能够匹配上黑名单中的词之后,上述方法还包括:基于匹配上的黑名单中的词的预设类别对待检测文本进行分类,其中,黑名单中的词具有预设类别。从而可以对能够匹配上黑名单的词的待检测文本进行分类,以更好地进行后续处理,例如,检测到待检测文本中存在脏话,将待检测分类为脏话,可以提示用户“文本中存在脏话,已屏蔽,请文明用语”或者“文本中存在脏话,请修正”之类的,本申请在此没有限制。
在另一些可选的实施例中,在判断第二分词序列是否能够匹配上黑名单中的词之后,上述方法还包括:如果第二分词序列中的各分词均不能匹配上黑名单中的词,将待检测文本输入文本分类模型以判断待检测文本是否为敏感文本,文本分类模型为经过预设文本分类训练的分类模型,文本分类模型采用长短时记忆神经网络构建。
在一些可选的实施例中,在判断第一分词序列中的各分词是否能够匹配上白名单中的词之后,上述方法还包括:如果不能够匹配上白名单中的词,判断第一分词序列中的各分词是否能够匹配上黑名单中的词。
请参考图2,其示出了本申请提供的另一种敏感信息检测方法的实施例的流程图。该流程图主要是针对步骤“如果不能够匹配上白名单中的词,判断第一分词序列中的各分词是否能够匹配上黑名单中的词”之后的步骤进一步限定的步骤的流程图。
如图2所示,在步骤201中,如果第一分词序列中的任一分词能够匹配上黑名单中的词,基于匹配上的黑名单中的词的预设类别对待检测文本进行分类;
在步骤202中,如果第一分词序列中的各分词均不能匹配上黑名单中的词,将待检测文本输入文本分类模型以判断待检测文本是否为敏感文本,文本分类模型为经过预设文本分类训练的分类模型。
在本实施例中,对于步骤201,敏感信息检测装置如果判断第一分词序列中的任一分词能够匹配上黑名单中的词,基于匹配上的黑名单中的词的预设类别对待检测文本进行分类。其中第一分词序列是没有经过白名单中预设标记替换的分词序列,如果该分词序列中存在任一分词能够匹配上个黑名单上的词,则说明该第一分词序列中存在敏感信息。
之后,对于步骤202,如果第一分词序列中的各分词均不能匹配上黑名单中的词,将待检测文本输入文本分类模型以判断待检测文本是否为敏感文本,文本分类模型为经过预设文本分类训练的分类模型。对于不能匹配上黑名单上的词的第一分词序列,还需要再将其输入文本分类模型中进行文本分类,从而更好地确认该第一分词序列中是否存在敏感信息。在一些可选的实施例中,文本分类模型是一个二分类模型,经过了大量敏感文本和非敏感文本地训练,可以输入一个文本然后输出这个文本是否为敏感文本或者说这个文本中是否存在敏感信息。该文本分类模型可以是采用LSTM(Long Short-Term Memory,长短时记忆)网络构建的文本分类模型,从而可以综合考虑文本的上下文语义信息。进一步地,还可以采用双向LSTM网络构建,本申请在此没有限制。
在一些可选的实施例中,白名单和黑名单为开发者针对所开发的产品定制的白名单和黑名单。从而可以有一个初始的黑名单和白名单,之后用户使用该产品定制专用于某些领域的产品时,还可以根据初始的白名单和黑名单对该产品进行领域化定制,从而形成专属于某些领域的白名单和黑名单,然后定制化的产品初始化时就会加载定制后的白名单和黑名单,从而更好地适用于不同的领域。例如对于医学领域的很多专有名词再普通的场景中可能会被定义为敏感词,但是在医学领域讨论时,如果这些词被定义为敏感词而被屏蔽或进行其他类似处理,那么就会使得沟通变得特别难以理解,因此定制专属领域的黑白名单可以使得某些领域内的沟通变得更加顺畅,信息传达更加准确。
进一步的,敏感信息检测也可以配合领域分类使用,当将某一语句分类到某一具体领域后,再启用相应的领域黑白名单进行敏感信息检测,此方式可以用于内存比较大的设备,或者说比较追求敏感信息判断的精准的设备,本申请在此没有限制。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
本申请提供一种敏感信息自动过滤管理系统,用于检测用户发送和数据库回复信息中的敏感信息(色情,脏话,犯罪和政治性的词语),然后可以过滤这些敏感信息。本发明主要由规则和统计机器学习方法组成,规则是指通过将敏感词黑名单和白名单以前缀树的数据结构存放在内存中去对文本信息进行匹配,统计机器学习方法是指用神经网络方法对整个输入的文本判断其语义是否敏感,本质上是对文本信息进行二分类。本发明建立了一条自动的“净化”信息流程,节省了大量的人力去做人工的检查、审核,极大的提高了效率。
本申请的方案主要有以下几个设计要点:
1.敏感词名单分为黑名单和白名单。敏感词黑名单是传统的敏感词库,里面是敏感词集合,比如“裸聊”、“傻X”和“XXX事件”等词。敏感词白名单指非敏感词集合,一般这些词包含敏感词,但是完整的词就不是敏感词,比如“水稻杂种”、“生殖器发育”和“打击毒品”。敏感词白名单的作用是屏蔽掉这些词,以免这些词被误识别为敏感词。
2.以前缀树为数据结构来存储敏感词黑名单和白名单,该数据结构占用空间小,匹配速度快。待判定的文本先和敏感词白名单前缀树匹配,如果匹配上则在原来的文本上替换掉匹配上的白名单词,然后将替换后的文本分词,分词后和敏感词黑名单前缀树匹配,如果匹配上就说明该文本内容敏感,应该屏蔽,没有则不屏蔽。例如,待判定的文本信息是“...女性应该保护乳房...”,匹配上白名单前缀树中的词“保护乳房”,并且替换后文本信息为“...女性应该#...”,这样即使“乳房”这个词是在黑名单词中也匹配不到,该文本就不会误判为敏感信息。
3.将敏感词黑名单中的词人工进行分类,类别为“色情”、“政治”、“脏话”和“犯罪”。在2中,输入的文本如有敏感词则会识别出来,并且根据预先设置的敏感词和类别的映射表给识别出来的敏感词相应的类别,以方便后续的过滤操作。例如:给定输入文本信息“你是傻X吗”,系统检测出敏感词“傻X”,并且分类为“脏话”。
4.支持根据产品自定义敏感词黑白名单,并且可以对敏感词黑白名单进行实时更新。不同的用户可能需要不同的黑白名单,比如对一般用户而言,“生殖器”这个词是一个敏感词,但是对于医学相关的用户,这个词就不是敏感词,可以实时从敏感词黑名单中删除这个词。通过不同的产品有不同的敏感词黑白名单,可以更好的满足不同用户的需求,而且这种可定制敏感词库的方式还支持实时更新黑白名单,兼具灵活性和高效性。
除了规则外,本发明还设计了一个基于神经网络的文本分类方法,用以判断输入的文本信息是否敏感,并且该方法可以综合考虑文本的上下文语义信息。该神经网络模型的网络架构如图3所示:
在图3中,假定有一句子S=(w1,w2,...,wn),该句中有n个字,用embedding向量的序列来表示。在这里wi表示句子中第i个字的d维的向量,因此S为n×d的二维矩阵。然后通过双向LSTM得到H=(h1, h2,...,hn),形状为n×2u。为了将一个变长的句子编码成一个固定大小的向量,需要用n个LSTM的隐向量的线性组合,所以利用self-attention 机制来获得线性组合的权值。该self-attention机制将LSTM的隐状态H 作为输入,并且输出权值向量a:
a=softmax(ws2×tanh(Ws1×HT))
上式中Ws1是一个形状为da×2u的权值矩阵,ws2是一个长度为da的向量,其中da是一个可以任意设置的超参。由于H形状为n×2u,所以向量a的长度为n。softmax()函数确保计算出来的a的权值的总和为1。
该向量表示通常专注于句子的一个组成部分,比如相关词或短语的一个特殊集合。因此,在一个句子中可以用多个组成部分来表示该句子的整体语义。比如说想要r个不同部分来表示句子的信息,可以扩展ws2 到r×da,表示为Ws2,于是最终的向量a变成矩阵A:
A=softmax(Ws2×tanh(Ws1×HT))
上式中A为r×n的矩阵,最后通过将A乘以H得到一个加权求和的 r×2u的M矩阵,展开后即为最终句子的向量表示:
M=A×H
本申请实施例的方案流程图如图4所示,步骤如下:
1.输入文本,判断分词后的文本能否匹配上白名单中的词,如果不能则下一步,如果匹配上则将该词替换;
2.将上一步的文本分词后到黑名单检测,判断输入的文本是否有黑名单词,如有则进行黑名单词分类,最后结束。如果没有则到模型;
模型会判断输入的文本信息是否敏感,最终输出结果。
从而通过对待检测文本先进行白名单的匹配和替换再进行黑名单的匹配,可以使得白名单中的一些敏感词不会被确认为敏感信息,从而极大地减少误判。进一步的,再对文本进行文本分类,可以使得最终判断的结果更加精准,能够结合上下文得出更加精确的结论。
请参考图5,其示出了本发明一实施例提供的一种敏感信息检测装置的框图。
如图5所示,敏感信息检测装置500,包括分词模块510、白名单判断模块520、标记替换模块530、黑名单判断模块540和敏感信息确定模块550。
其中,分词模块510,配置为响应于接收到的待检测文本,对待检测文本进行分词处理以得到第一分词序列;白名单判断模块520,配置为判断第一分词序列中的各分词是否能够匹配上白名单中的词;标记替换模块530,配置为如果能够匹配上白名单中的词,使用与白名单中的词对应的预设标记替换第一分词序列中与白名单中的词匹配的分词以形成第二分词序列,其中,白名单中的词均具有对应的预设标记;黑名单判断模块540,配置为判断第二分词序列中的各分词是否能够匹配上黑名单中的词;以及敏感信息确定模块550,配置为如果所述第二分词序列中的任一分词能够匹配上所述黑名单中的词,将所述待检测文本确定为敏感信息。
在一些可选的实施例中,上述装置还包括:分类模块(图中未示出 ),配置为基于匹配上的黑名单中的词的预设类别对待检测文本进行分类,其中,黑名单中的词具有预设类别。
应当理解,图5中记载的诸模块与参考图1和图2中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块,在此不再赘述。
值得注意的是,本申请的实施例中的模块并不用于限制本申请的方案,例如分词模块可以描述为将接收的语句文本分为说法和至少一个词条的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如分词模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的敏感信息检测方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
响应于接收到的待检测文本,对所述待检测文本进行分词处理以得到第一分词序列;
判断所述第一分词序列中的各分词是否能够匹配上白名单中的词;
如果能够匹配上所述白名单中的词,使用与所述白名单中的词对应的预设标记替换所述第一分词序列中与所述白名单中的词匹配的分词以形成第二分词序列,其中,所述白名单中的词均具有对应的预设标记;
判断所述第二分词序列中的各分词是否能够匹配上黑名单中的词;
如果所述第二分词序列中的任一分词能够匹配上所述黑名单中的词,将所述待检测文本确定为敏感信息。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据敏感信息检测装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至敏感信息检测装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项敏感信息检测方法。
图6是本发明实施例提供的电子设备的结构示意图,如图6所示,该设备包括:一个或多个处理器610以及存储器620,图6中以一个处理器610为例。敏感信息检测方法的设备还可以包括:输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图6中以通过总线连接为例。存储器620 为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例敏感信息检测方法。输入装置630可接收输入的数字或字符信息,以及产生与敏感信息检测装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于敏感信息检测装置中,包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
响应于接收到的待检测文本,对所述待检测文本进行分词处理以得到第一分词序列;
判断所述第一分词序列中的各分词是否能够匹配上白名单中的词;
如果能够匹配上所述白名单中的词,使用与所述白名单中的词对应的预设标记替换所述第一分词序列中与所述白名单中的词匹配的分词以形成第二分词序列,其中,所述白名单中的词均具有对应的预设标记;
判断所述第二分词序列中的各分词是否能够匹配上黑名单中的词;
如果所述第二分词序列中的任一分词能够匹配上所述黑名单中的词,将所述待检测文本确定为敏感信息。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID 和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种敏感信息检测方法,包括:
响应于接收到的待检测文本,对所述待检测文本进行分词处理以得到第一分词序列;
判断所述第一分词序列中的各分词是否能够匹配上白名单中的词;
如果能够匹配上所述白名单中的词,使用与所述白名单中的词对应的预设标记替换所述第一分词序列中与所述白名单中的词匹配的分词以形成第二分词序列,其中,所述白名单中的词均具有对应的预设标记;
判断所述第二分词序列中的各分词是否能够匹配上黑名单中的词;
如果所述第二分词序列中的任一分词能够匹配上所述黑名单中的词,将所述待检测文本确定为敏感信息。
2.根据权利要求1所述的方法,其中,在所述如果所述第二分词序列中的任一分词能够匹配上所述黑名单中的词之后,所述方法还包括:
基于匹配上的所述黑名单中的词的预设类别对所述待检测文本进行分类,其中,所述黑名单中的词具有预设类别。
3.根据权利要求1所述的方法,其中,在判断所述第二分词序列是否能够匹配上黑名单中的词之后,所述方法还包括:
如果所述第二分词序列中的各分词均不能匹配上所述黑名单中的词,将所述待检测文本输入文本分类模型以判断所述待检测文本是否为敏感文本,所述文本分类模型为经过预设文本分类训练的分类模型,所述文本分类模型采用长短时记忆神经网络构建。
4.根据权利要求1所述的方法,其中,在所述判断所述第一分词序列中的各分词是否能够匹配上白名单中的词之后,所述方法还包括:
如果不能够匹配上所述白名单中的词,判断所述第一分词序列中的各分词是否能够匹配上所述黑名单中的词。
5.根据权利要求4所述的方法,其中,在所述如果不能够匹配上所述白名单中的词,判断所述第一分词序列中的各分词是否能够匹配上所述黑名单中的词之后,所述方法还包括:
如果所述第一分词序列中的任一分词能够匹配上所述黑名单中的词,基于匹配上的所述黑名单中的词的预设类别对所述待检测文本进行分类;
如果所述第一分词序列中的各分词均不能匹配上所述黑名单中的词,将所述待检测文本输入文本分类模型以判断所述待检测文本是否为敏感文本,所述文本分类模型为经过预设文本分类训练的分类模型。
6.根据权利要求1-5中任一项所述的方法,其中,所述白名单和所述黑名单为开发者针对所开发的产品定制的白名单和黑名单。
7.一种敏感信息检测装置,包括:
分词模块,配置为响应于接收到的待检测文本,对所述待检测文本进行分词处理以得到第一分词序列;
白名单判断模块,配置为判断所述第一分词序列中的各分词是否能够匹配上白名单中的词;
标记替换模块,配置为如果能够匹配上所述白名单中的词,使用与所述白名单中的词对应的预设标记替换所述第一分词序列中与所述白名单中的词匹配的分词以形成第二分词序列,其中,所述白名单中的词均具有对应的预设标记;
黑名单判断模块,配置为判断所述第二分词序列中的各分词是否能够匹配上黑名单中的词;
敏感信息确定模块,配置为如果所述第二分词序列中的任一分词能够匹配上所述黑名单中的词,将所述待检测文本确定为敏感信息。
8.根据权利要求7所述的装置,其中,所述装置还包括:
分类模块,配置为基于匹配上的所述黑名单中的词的预设类别对所述待检测文本进行分类,其中,所述黑名单中的词具有预设类别。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911256390.8A CN111061874B (zh) | 2019-12-10 | 2019-12-10 | 敏感信息检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911256390.8A CN111061874B (zh) | 2019-12-10 | 2019-12-10 | 敏感信息检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111061874A CN111061874A (zh) | 2020-04-24 |
CN111061874B true CN111061874B (zh) | 2022-07-08 |
Family
ID=70300402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911256390.8A Active CN111061874B (zh) | 2019-12-10 | 2019-12-10 | 敏感信息检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061874B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131367A (zh) * | 2020-09-24 | 2020-12-25 | 民生科技有限责任公司 | 自审核的人机对话方法、系统及可读存储介质 |
CN112199948A (zh) * | 2020-09-28 | 2021-01-08 | 中国互联网金融协会 | 文本内容识别和违规广告识别方法、装置及电子设备 |
CN112417103A (zh) * | 2020-12-02 | 2021-02-26 | 百度国际科技(深圳)有限公司 | 用于检测敏感词的方法、装置、设备和存储介质 |
CN112767107A (zh) * | 2021-01-14 | 2021-05-07 | 中国工商银行股份有限公司 | 检测黑名单的方法、装置、设备、介质和程序产品 |
CN113094493A (zh) * | 2021-03-03 | 2021-07-09 | 杭州电魂网络科技股份有限公司 | 快速过滤文本的方法、系统、电子装置和存储介质 |
CN113761191B (zh) * | 2021-05-14 | 2024-08-16 | 京东科技控股股份有限公司 | 文本识别方法、装置、设备及存储介质 |
CN114048740B (zh) * | 2021-09-28 | 2022-10-28 | 马上消费金融股份有限公司 | 敏感词检测方法、装置及计算机可读存储介质 |
CN113946682B (zh) * | 2021-12-21 | 2022-03-11 | 北京大学 | 基于自适应图神经网络的敏感文本检测方法及系统 |
CN114648027B (zh) * | 2022-05-23 | 2022-09-30 | 每日互动股份有限公司 | 一种文本信息的处理方法、装置、计算机设备及存储介质 |
CN114881615A (zh) * | 2022-06-06 | 2022-08-09 | 山东浪潮爱购云链信息科技有限公司 | 一种采购平台中论坛数据交互的方法、设备 |
CN115017904B (zh) * | 2022-07-08 | 2024-01-30 | 周向红 | 一种基于大数据的信息处理方法和信息处理系统 |
CN117056455A (zh) * | 2023-07-04 | 2023-11-14 | 中国经济信息社有限公司 | 一种稿件内容安全审核方法、装置、电子设备及介质 |
CN117332039B (zh) * | 2023-09-20 | 2024-07-02 | 鹏城实验室 | 文本检测方法、装置、设备和存储介质 |
CN118095255A (zh) * | 2023-12-25 | 2024-05-28 | 安徽省公共气象服务中心(安徽省突发公共事件预警信息发布中心) | 基于Jieba分词的气象预警质控白名单制作方法和系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8544060B1 (en) * | 2012-01-27 | 2013-09-24 | Symantec Corporation | Method and system for detecting and protecting against potential data loss from unknown applications |
CN109657228B (zh) * | 2018-10-31 | 2023-06-06 | 北京三快在线科技有限公司 | 一种敏感文本确定方法及装置 |
CN109543764B (zh) * | 2018-11-28 | 2023-06-16 | 安徽省公共气象服务中心 | 一种基于智能语义感知的预警信息合法性检测方法及检测系统 |
-
2019
- 2019-12-10 CN CN201911256390.8A patent/CN111061874B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111061874A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111061874B (zh) | 敏感信息检测方法和装置 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN110309304A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN111738011A (zh) | 违规文本的识别方法及装置、存储介质、电子装置 | |
US11010687B2 (en) | Detecting abusive language using character N-gram features | |
CN107784034B (zh) | 页面类别识别方法及装置、用于页面类别识别的装置 | |
CN111931859B (zh) | 一种多标签图像识别方法和装置 | |
CN113328994B (zh) | 一种恶意域名处理方法、装置、设备及机器可读存储介质 | |
CN110069769B (zh) | 应用标签生成方法、装置及存储设备 | |
CN111625636A (zh) | 一种人机对话的拒绝识别方法、装置、设备、介质 | |
CN114448664A (zh) | 钓鱼网页的识别方法、装置、计算机设备及存储介质 | |
CN109033224B (zh) | 一种风险文本识别方法和装置 | |
CN113965377A (zh) | 一种攻击行为检测方法及装置 | |
CN109829043B (zh) | 词性确认方法、装置、电子设备及存储介质 | |
CN116881408A (zh) | 基于ocr和nlp的视觉问答防诈骗方法及系统 | |
CN115935358A (zh) | 一种恶意软件识别方法、装置、电子设备及存储介质 | |
CN112101023B (zh) | 文本处理方法、装置以及电子设备 | |
CN114118087A (zh) | 实体确定方法、装置、电子设备及存储介质 | |
CN115757764A (zh) | 一种信息识别方法、装置、设备及计算机可读存储介质 | |
CN112189190A (zh) | 不正当邮件判定装置、不正当邮件判定方法以及不正当邮件判定程序 | |
CN117454142B (zh) | 数据生成方法、装置、存储介质以及电子设备 | |
CN115098680B (zh) | 数据处理方法、装置、电子设备、介质及程序产品 | |
Lökk et al. | Viability of sentiment analysis for troll detection on twitter: A comparative study between the naive bayes and maximum entropy algorithms | |
CN117744627A (zh) | 回复内容生成方法、装置、电子设备及存储介质 | |
CN111552851A (zh) | 类型确定方法及装置、设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |