CN111831803A

CN111831803A - 一种敏感信息检测方法、装置及存储介质

Info

Publication number: CN111831803A
Application number: CN202010563895.5A
Authority: CN
Inventors: 王振杰
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2020-10-27

Abstract

本公开提供了一种敏感信息检测方法、装置及存储介质。用于提高对网络敏感信息的检测准确度。本公开首先对于用户的网络行为文本进行预处理，去除干扰字符生成待检测文本，然后使用文本情感极性判断工具对所述待检测文本进行情感极性判断，对判定为消极负面的待检测文本进行分词处理，最后再使用词典树对经分词处理后的待检测文本进行敏感词检测。本公开提供的方案能够更准确的理解待检测文本的语义信息，能够提高敏感词的检测效率、降低误检率。

Description

一种敏感信息检测方法、装置及存储介质

技术领域

本公开涉及网络安全技术领域，尤其涉及一种敏感信息检测方法、装置及存储介质。

背景技术

随着计算机网络的不断发展和完善，网络用户可以在越来越多的地方随意发表不负责任的言论以及在网上检索各种垃圾信息，比如博客、论坛和评论等。尤其是在企业内网环境中，为了防止一些恶意、色情、反动以及暴恐等信息，信息管理部门往往会设置一个数量庞大的敏感词库，当检测到文本信息包含敏感词库中的关键字时，都会给出提示或者告警。

对于一个待检测的文本，传统的方法通常是逐字的遍历每个字符，判断该字符是否在敏感词库中，虽然该方法有一定的可用性，由于敏感词库里的词汇比较多，在访问量巨大的网络应用中存在性能低下的问题，同时，因为该方法采用的是逐字遍历的方式，往往存在误检率比较高的问题。另外一种误检的情况是能正确检测敏感词，但是这句话是积极向上的，这是因为统计规则不能理解句子的含义，解决办法可以通过基于自然语言处理的算法模型，根据句子语义信息进行情感极性判别，比如：“坚决抵制颠覆国家的行为”，检测到敏感词是“颠覆国家”，但是本身这句话是积极正向的，传统的业界做法无法解决此类问题。

发明内容

有鉴于此，本公开提供了一种敏感信息检测方法、设备及存储介质，以提高敏感信息检测准确度。

基于本公开一实施例，本公开提供了一种敏感信息检测方法，该方法包括：

对于用户的网络行为文本进行预处理，去除干扰字符生成待检测文本；

使用文本情感极性判断工具对所述待检测文本进行情感极性判断；

使用分词工具对判定为消极负面的待检测文本进行分词处理；

使用词典树对经分词处理后的待检测文本进行敏感词检测，如果检测到匹配的敏感词，则标识所述网络行为日志文本为敏感文本，否则标识为非敏感文本。

进一步地，所述使用文本情感极性判断工具对所述待检测文本进行情感极性判断方法为：

所述文本情感极性判断工具以所述待检测文本作为输入，输出所述待检测文本的极性概率值，当极性概率值大于预设的临界阈值时，判定为积极正向，否则判定为消极负面。

进一步地，所述使用词典树对经分词处理后的待检测文本进行敏感词检测的步骤中，所述词典树的构建方法为：

从敏感词库中读取敏感词，对敏感词进行分词处理后，在内存中构建所述敏感词的词典树；或从敏感词库中读取敏感词及其对应的编码，基于编码在内存中构建所述词典树。

进一步地，所述使用词典树对经分词处理后的待检测文本进行敏感词检测的步骤具体为：

使用词典树对经分词处理后的待检测文本中的每一个词依次进行敏感词检测，检测到敏感词后即停止检测并输出检测结果；或检测到所有敏感词后，输出所有匹配的敏感词。

进一步地，所述的文本情感极性判断工具为SnowNLP，所述分词工具jieba。

基于本公开的另一方面，本公开还提供了一种敏感信息检测装置，该装置包括：

预处理模块，用于对于用户的网络行为文本进行预处理，去除干扰字符生成待检测文本；

极性判断模块，用于使用文本情感极性判断工具对所述待检测文本进行情感极性判断；

分词处理模块，用于使用分词工具对判定为消极负面的待检测文本进行分词处理；

词典树检测模块，用于使用词典树对经分词处理后的待检测文本进行敏感词检测，如果检测到匹配的敏感词，则标识所述网络行为日志文本为敏感文本，否则标识为非敏感文本。

进一步地，所述极性判断模块中的文本情感极性判断工具以所述待检测文本作为输入，输出所述待检测文本的极性概率值；当极性概率值大于预设的临界阈值时，所述极性判断模块判定所述待检测文本为积极正向，否则判定为消极负面。

进一步地，所述装置还包括词典树构建模块，该模块用于从敏感词库中读取敏感词，对敏感词进行分词处理后，在内存中构建所述敏感词的词典树；或从敏感词库中读取敏感词及其对应的编码，基于编码在内存中构建所述词典树。

进一步地，所述词典树检测模块使用词典树对经分词处理后的待检测文本中的每一个词依次进行敏感词检测，检测到敏感词后即停止检测并输出检测结果；或检测到所有敏感词后，输出所有匹配的敏感词。

本公开还提供一种机器可读存储介质，所述机器可读存储介质中存储有计算机程序，所述机器可读存储介质中的计算机程序被处理器读取执行用于实施本公开实施例提供的敏感信息检测方法各步骤的功能。

本公开提出了一种敏感信息检测方法、设备及存储介质，本公开基于敏感词库构建词典树，对用户的网络行为文本进行预处理，去除干扰字符生成待检测文本后，使用文本情感极性判断工具对所述待检测文本进行情感极性判断，对于判定为消极负面的待检测文本进行分词处理，然后使用词典树对待检测文本进行敏感词检测。本公开提供的方案能够更准确的理解待检测文本的语义信息，能够提高敏感词的检测效率、降低误检率。

附图说明

为了更加清楚地说明本公开实施例或者现有技术中的技术方案，下面将对本公开实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本公开实施例的这些附图获得其他的附图。

图1为本公开实施例提供的一种敏感信息检测方法的步骤流程图；

图2为本公开另一实施例提供的敏感信息检测方法的步骤流程图；

图3为字典树构建示意图；

图4为本公开实施例提供的一种词典树构建示意图；

图5为本公开实施例提供的一种敏感信息检测设备的结构示意图。

具体实施方式

在本公开实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本公开实施例。本公开实施例和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。本公开中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1为本公开实施例提供的一种敏感信息检测方法的步骤流程图，该方法包括：

步骤101.对于用户的网络行为文本进行预处理，去除干扰字符生成待检测文本。

该步骤中，所述的网络行为文本可以是网络用户在博客、论坛发布或转发的文章、评论等，也可以是用户在搜索引擎中输入的搜索文本，也可以是通过网络中的采集器获取的用户上网行为日志数据等，本公开不做限定。

该步骤中，所述的干扰字符指干扰或规避敏感信息检测的字符，例如在敏感文本“颠覆A₁A₂”词汇中添加的规避检测的符号，如“颠％覆￥A₁@A₂”中的符号“％”、“￥”、“$”、“@”等。

步骤102.使用文本情感极性判断工具对所述待检测文本进行情感极性判断。

该步骤中，所述的文本情感极性判断工具可以是SnowNLP，SnowNLP是一个python写的开源类库，可以方便的处理文本内容，比如文本分类，词性标注以及文本的情感极性判断。本公开不限定具体实现文本情感极性判断功能的工具种类和名称，只要能够判断输入的文本是积极正向的还是消极负面的即可。

步骤103.使用分词工具对判定为消极负面的待检测文本进行分词处理。

该步骤中，所述的分词工具可以是Jieba，Jieba是开源的一个专门用于分词的工具包。本公开不具体限定分词工具的种类和名称，只要能把一个文本语句切割成一个个单独的词即可。

步骤104.使用词典树对经分词处理后的待检测文本进行敏感词检测，如果检测到匹配的敏感词，则标识所述网络行为日志文本为敏感文本，否则标识为非敏感文本。

该步骤中，所述的词典树基于敏感词库构建，敏感词库可以是存储有敏感词汇的关系型数据库、文本文件等，所述的敏感词库存储的敏感词可以是单个的词也可以是语句，如果是语句时，可对语句先进行分词处理，然后再构建词典树。

该步骤中，可以从数据库中读取敏感词库的内容，基于敏感词在敏感词库中的编码在内存中构造出词典树，例如假设敏感词“颠覆”的编码为“001000”，敏感词“A₁A₂”的编码为“001001”，敏感词“B₁B₂B₃”的编码为“001002”，通过敏感词库中的敏感词编码即可构造出如图4所示的词典树，编码本身即可体现出树形结构的父节点和子节点的关系。如果敏感词库中存储的敏感词是一个包括多个词的语句，可以在读出后，先通过分词工具进行分词处理，然后以第一个词汇作为根节点构造该敏感词对应的词典树，如果第一词汇已经构建有词典树，则可将新的词典树分支添加到已构建词典树上。以上构建词典树的方式仅为示例，本公开不限定敏感词库的组织和存储方式，也不限定具体的词典树的构造方式。

图2为本公开另一实施例提供的敏感信息检测方法的步骤流程图，以下结合该实施例详细描述具体实现过程。

步骤201.构建敏感词库。

对于大量的敏感词，传统的存储方式是基于字典树的方式，比如，对于包含敏感词的文本“颠覆A₁A₂”，“颠覆B₁B₂B₃”这两个敏感词汇(本公开的敏感词示例仅用于辅助解释本公开的技术方案，不代表任何个人、单位或组织的观点、意图，无任何实质意义)，如果采用字典树的方法来检测这些敏感词，构建过程如图3所示：

首先以“颠”这个字符作为根节点，编号“0000”，然后以“覆”作为第一个子节点，编号0100。字“A₁”作为子节点0100的一个分支节点，编号0110，字“A₂”作为子节点0110的子节点，编号0111。字“B₁”作为子节点0100的另一个分支节点，编号0120。同理，字“B₂”作为节点0120的子节点，编号 0121，“B₃”作为节点0121的子节点，编号0122。

基于字典树的构建方式，虽然也能检测到敏感词汇，但是存在误检率比较高的问题，比如，敏感词库存在色情类敏感词“破处”，按照上述方式建立字典树“破-处”，待检测文本为“公安查破处理案件的详情”，当采用逐字遍历的方式进行检测时，就会检测到存在色情词汇—“破处”，而该文本本身是正常的，从而造成误检。

鉴于基于字典树构建敏感词库存在较高误检率的问题，本公开利用自然语言处理的方法进行构建敏感词库。对于敏感词，首先进行分词处理，本公开采用jieba分词工具对每个敏感词(包括单个词和语句的情况)进行分词处理，然后再基于词典树的方式进行构建。对于“颠覆A₁A₂”，“颠覆B₁B₂B₃”这两个敏感词汇，如果采用基于自然语言处理的词典树构建方法，如图4所示，构建过程如下：

首先采用jieb分词工具对“颠覆A₁A₂”，“颠覆B₁B₂B₃”进行分词，假设分词结果为[“颠覆”，“A₁A₂”],[“颠覆”,“B₁B₂B₃”]。然后，以“颠覆”作为树的根节点，编号为root，“A₁A₂”作为根节点root的一个子节点，编号A，“B₁B₂B₃”作为根节点root的另一个子节点，编号B。

基于自然语言处理的词典树构建方法，能够很好地解决传统方法带来的误检问题。比如，敏感词库存在色情类敏感词“破处”，按照上述方式首先进行 jieba分词，结果仍然是“破处”，建立词典树为“破处”，待检测文本为“公安查破处理案件的详情”，而对于待检测同样采用jieba进行分词，结果为“公安/查破/处理/案件/的/详情”,最后再进行逐词检测，则不会检测到敏感词“破处”，从而降低了误检。

步骤202.获取用户的网络行为文本。

为了更好地实现对敏感信息的监控和审计，该实施例通过采集器获取用户的上网行为日志文本数据并存储到数据库，比如采集到的用户搜索引擎的数据主要包括用户名称，mac地址，源IP，目的IP，源端口，目的端口，搜索内容等字段等，该实施例可将用户搜索内容content字段作为用户的网络行为文本，如表1所示。

表1

步骤203.对用户的网络行为文本进行预处理，去除干扰字符生成待检测文本。

采集用户上网行为数据后，该实施例抽取搜索内容作为用户的网络行为文本进行检测，传统的检测方法，可能会直接将搜索内容作为待检测文本进行处理，但这样做的缺点是(1)如果文本中故意夹杂各种干扰字符，绕开敏感词库的检测，如果不进行处理则会造成漏检。(2)误检的问题，传统的逐字进行匹配误检率比较高。

因此，该实施例针对原始获得的用户的网络行为文本首先进行预处理，去除用户的网络行为文本中的干扰字符，生成待检测文本。例如对“如何颠％覆￥’A₁’@’A₂’”进行预处理后，得到的待检测文本结果为“如何颠覆A₁A₂”。

步骤204.使用文本情感极性判断工具对所述待检测文本进行情感极性判断，若判断为消极负面，则执行步骤205，否则结束流程。

对于传统的方法无法解决句子语义信息的问题，该实施例基于SnowNLP的情感极性判别方法，首先对于过滤后的待检测文本进行情感极性判别，看该文本是属于积极正向的还是消极负面的。将待检测文本输入到SnowNLP工具中， SnowNLP可以输出极性概率值，极性概率值越接近1表示越积极正面，越接近 0表示越消极负面。本公开预设一个临界阈值，当极性概率值大于该临界阈值时，判定待检测文本为积极正面，当极性概率值小于等于该临界阈值时，判定待检测文本为消极负面。例如，设定临界阈值为0.5，当SnowNLP输出的极性概率值大于0.5，则判定待检测文本为积极正向的，不需要进行后续的敏感词检测，提高了检测效率。如果SnowNLP输出的极性概率值小于等于0.5时，判定该待检测文本为消极负面，则需要进行后续的敏感词检测，识别出具体的敏感词。比如对于文本“如何颠覆A₁A₂”，SnowNLP给出的概率值等于0.156696089172953，判定为消极负面的，然后再进行敏感词检测。

步骤205.使用分词工具对判定为消极负面的待检测文本进行分词处理。

对于情感极性判定为消极负面的待检测文本，首先进行jieba分词处理，然后再结合词典树进行敏感词检测识别，例如假设敏感文本为“如何颠覆A₁A₂”，分词后结果为“如何/颠覆/A₁A₂”。

步骤206.使用词典树对经分词处理后的待检测文本进行敏感词检测，如果检测到匹配的敏感词，则标识所述网络行为日志文本为敏感文本，否则标识为非敏感文本。

对于大量的敏感词汇数据，该实施例采用基于词典树的方式构建成了一个类似于一颗一颗的树，这样判断一个文本是否存在敏感词时，根据第一个词就可以确认需要检索的是那棵树，然后再在这棵树中进行检索，就大大减少了检索的匹配范围。

例如，预先从敏感词库中读取“颠覆A₁A₂”这个敏感词，构建相应的词典树。待检测文本经分词处理后结果为“颠覆/A₁A₂”。在词典树中查询“颠覆”看其是否存在，如果不存在，则证明以“颠覆”开头的敏感词还不存在，设置标志位flag＝0，然后判断“颠覆”这个词是否为待检测文本中的最后一个词，若是表示该文本检测结束，没有敏感词，设置结束标志位isEnd＝0，否则设置标志位isEnd＝1。

如果在词典树中查到了“颠覆”这个敏感词，表明存在以“颠覆”开头的敏感词，设置标志位flag＝1，然后判断“颠覆”这个词是否为待检测文本中的最后一个词，若是设置标志位isEnd＝0，表示该文本检测结束，没有检测到敏感词(因为敏感词汇是“颠覆A₁A₂”)。

如果在词典树中查到了“颠覆”这个敏感词，表明存在以“颠覆”开头的敏感词，设置标志位flag＝1，然后判断“颠覆”这个词是否为文本中的最后一个词，如果不是设置标志位isEnd＝1，需要继续匹配后面的“A₁A₂”，此时需要判断词典树中“颠覆”的子节点是否存在“A₁A₂”，如果存在则是正确匹配到“颠覆A₁A₂”，检测到该文本存在敏感词；如果“颠覆”后面的子节点不存在“A₁A₂”，则表明该文本不存在敏感词。

同理，对待经分词处理后的待检测文本中的每一个词按照上述方式进行检索匹配，则能够精准识别出待检测文本中的敏感词。

图5为本公开一实施例提供的一种敏感信息检测设备的结构示意图，该设备500包括：诸如中央处理单元CPU、图形处理单元GPU等的处理器501、内部总线502、以及诸如磁盘、易失性或非易失性存储器的机器可读存储介质530。其中，处理器501与机器可读存储介质530可以通过内部总线502相互通信。机器可读存储介质530内可存储实施本公开实施例提供的敏感信息检测方法步骤的计算机程序，当该计算机程序被处理器501执行时即可实施本公开实施例提供的敏感信息检测方法的各步骤功能。

本公开另一实施例中还提供了一种敏感信息检测装置，该装置以模块化逻辑组件的方式来实施本公开提供的敏感信息检测方法的各步骤功能，模块之间通过消息交互来实现步骤之前的信息依赖关系。当存储于非易失性机器可读存储介质中的实现本公开提供的敏感信息检测方法的计算机程序被读取并加载到如设备500的易失性机器可读存储介质中时，即可形成该实施例的敏感信息检测装置，与本公开实施例提供的敏感信息检测方法步骤相对应的，该装置包括：预处理模块、极性判断模块、分词处理模块、词典树检测模块。

预处理模块用于对于用户的网络行为文本进行预处理，去除干扰字符生成待检测文本。

极性判断模块用于使用文本情感极性判断工具对所述待检测文本进行情感极性判断。极性判断模块中的文本情感极性判断工具以待检测文本作为输入，输出所述待检测文本的极性概率值，当极性概率值大于预设的临界阈值时，极性判断模块判定所述待检测文本为积极正向，否则判定为消极负面。

分词处理模块用于使用分词工具对判定为消极负面的待检测文本进行分词处理。

词典树检测模块用于使用词典树对经分词处理后的待检测文本进行敏感词检测，如果检测到匹配的敏感词，则标识所述网络行为日志文本为敏感文本，否则标识为非敏感文本。

在词典树检测模块进行敏感词检测之前，需要先构建词典树，因此该装置还包括词典树构建模块，该模块用于从敏感词库中读取敏感词，对敏感词进行分词处理后，在内存中构建所述敏感词的词典树；或从敏感词库中读取敏感词及其对应的编码，基于编码在内存中构建所述词典树。

词典树检测模块使用词典树对经分词处理后的待检测文本中的每一个词依次进行敏感词检测，检测到敏感词后即停止检测并输出检测结果或检测到所有敏感词后，输出所有匹配的敏感词。

以上所述仅为本公开的实施例而已，并不用于限制本公开。对于本领域技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本公开的权利要求范围之内。

Claims

1.一种敏感信息检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述使用文本情感极性判断工具对所述待检测文本进行情感极性判断方法为：

3.根据权利要求1所述的方法，其特征在于，所述使用词典树对经分词处理后的待检测文本进行敏感词检测的步骤中，所述词典树的构建方法为：

4.根据权利要求1所述的方法，其特征在于，所述使用词典树对经分词处理后的待检测文本进行敏感词检测的步骤具体为：

5.根据权利要求1所述的方法，其特征在于，

所述的文本情感极性判断工具为SnowNLP，所述分词工具jieba。

6.一种敏感信息检测装置，其特征在于，该装置包括：

7.根据权利要求6所述的装置，其特征在于，

所述极性判断模块中的文本情感极性判断工具以所述待检测文本作为输入，输出所述待检测文本的极性概率值；

当极性概率值大于预设的临界阈值时，所述极性判断模块判定所述待检测文本为积极正向，否则判定为消极负面。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

词典树构建模块，用于从敏感词库中读取敏感词，对敏感词进行分词处理后，在内存中构建所述敏感词的词典树；或从敏感词库中读取敏感词及其对应的编码，基于编码在内存中构建所述词典树。

9.根据权利要求6所述的装置，其特征在于，

所述词典树检测模块使用词典树对经分词处理后的待检测文本中的每一个词依次进行敏感词检测，检测到敏感词后即停止检测并输出检测结果；或检测到所有敏感词后，输出所有匹配的敏感词。

10.一种机器可读存储介质，所述机器可读存储介质中存储有计算机程序，其特征在于，所述机器可读存储介质中的计算机程序被处理器读取执行用于实施权利要求1至5中任一项所述的方法步骤的功能。