CN115510500A

CN115510500A - 一种文本内容的敏感分析方法及系统

Info

Publication number: CN115510500A
Application number: CN202211447627.2A
Authority: CN
Inventors: 胡红亮; 杨万波
Original assignee: Beijing Guoke Zhongan Technology Co ltd
Current assignee: Beijing Guoke Zhongan Technology Co ltd
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2022-12-23
Anticipated expiration: 2042-11-18
Also published as: CN115510500B

Abstract

本发明涉及文本信息处理技术领域，特别涉及一种文本内容的敏感分析方法及系统，包括，挖掘潜在敏感关键词，对敏感词库进行扩充。构建关键词树，利用AC自动机算法遍历待检测文本，识别所述待检测文本包含的第一敏感词。将每个第一敏感词分别输入到敏感分类模型中，得到对应第一敏感词基于不同敏感类别的类别概率值，并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型。基于所有敏感信息类型，对所述待检测文本进行威胁评级。可以提高对敏感信息类型确定的准确性，进而来提高敏感信息确定文本的威胁情况。

Description

一种文本内容的敏感分析方法及系统

技术领域

本发明涉及文本信息处理技术领域，特别涉及一种文本内容的敏感分析方法及系统。

背景技术

目前，传统的敏感信息检测方式基本采用关键字或正则去匹配响应中的敏感信息，如涉黄、涉暴、涉政等，这些主要依赖安全运营人员的经验对敏感信息进行筛选，由于安全运营人员的经验不一，会导致误报率以及漏报率的概率增加，使得敏感信息类型的确定准确性下降，进而导致对文本所存在的威胁判断出现失误。

因此，本发明提出一种文本内容的敏感分析方法及系统。

发明内容

本发明提供一种文本内容的敏感分析方法及系统，用以通过对词库扩充以及对敏感词进行类别概率值的确定，并筛选最高概率值对应的敏感类别，可以提高对敏感信息类型确定的准确性，进而来提高敏感信息确定文本的威胁情况。

本发明提供一种文本内容的敏感分析方法，包括：

步骤1：挖掘潜在敏感关键词，对敏感词库进行扩充；

步骤2：构建关键词树，利用AC自动机算法遍历待检测文本，识别所述待检测文本包含的第一敏感词；

步骤3：将每个第一敏感词分别输入到敏感分类模型中，得到对应第一敏感词基于不同敏感类别的类别概率值，并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型；

步骤4：基于所有敏感信息类型，对所述待检测文本进行威胁评级。

优选的，挖掘潜在敏感关键词，对敏感词库进行扩充，包括：

获取定时更新的敏感数据；

对定时更新的敏感数据进行文本分词，并训练词向量；

将所述词向量进行相似度匹配，提取潜在敏感关键词，对敏感词库进行扩充。

优选的，基于所有敏感信息类型，对所述待检测文本进行威胁评级，包括：

确定所述待检测文本中每个第一敏感词的维度特征；

基于敏感信息分级模型，并结合对应第一敏感词的维度特征，确定对应第一敏感词所匹配的每个维度特征的特征权重；

基于所有第一敏感词的所有特征权重，计算所述待检测文本的文本敏感指数；

按照所述文本敏感指数对所述待检测文本进行评分；

根据评分结果对威胁结果进行评级，并输出与所述待检测文本匹配的威胁标签；

其中，所述威胁标签包括：高危标签、中危标签以及低危标签；

所述维度特征包括：类型维度、同类型数据维度以及敏感严重维度。

优选的，构建关键词树，包括：

确定扩充后的敏感词库中的历史关键词以及新增关键词；

获取每个历史关键词每次历史搜索的被定义结果，构建被定义集合；

分析所述被定义集合，确定对应历史关键词的敏感定义等级，按照等级-优先级转换机制，获取得到对应历史关键词的第一优先级；

获取每个新增关键词的设定标签，按照标签-优先级转换机制，确定每个新增关键词的第二优先级；

根据所述历史关键词以及新增关键词的敏感前缀，进行词层级划分，构建得到初始树；

按照对应历史关键词的第一优先级以及对应新增关键词的第二优先级，输入到所述初始树的对应位置上，构建得到关键词树；

其中，所述新增关键词为潜在敏感关键词。

优选的，分析所述被定义集合，确定对应历史关键词的敏感定义等级，包括：

分析所述被定义集合中存在的同类定义以及每个同类定义包含的被定义次数，同时，获取每个同类定义中每个被定义结果的定义时间集合

；

获取

中每个相邻时间段的时间间隔

以及

到

时间段内对应的总定义次数，来确定对应同类定义的被定义随机性；

按照被定义次数以及被定义随机性，获取得到对应历史关键词的定义等级；

其中，

表示对应同类定义中第

次被定义结果的定义时间点；

表示对应同类定义中第

次被定义结果的定义时间点；

表示对应同类定义结果中第

次被定义结果的定义时间点；

表示对应同类定义结果中第

次被定义结果的定义时间点。

优选的，将每个第一敏感词分别输入到敏感分类模型中，得到对应第一敏感词基于不同敏感类别的类别概率值，并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型，包括：

将每个第一敏感词分别输入到敏感分类模型中，获取得到对应第一敏感词的敏感类别，并分别确定对应第一敏感词基于每个敏感类别的初始概率值；

将所有的初始概率值进行排序，并判断最高概率值是否为一个；

若为一个，将对应最高概率值对应的敏感类别作为第一敏感词的敏感信息类型；

若不为一个，获取最高概率值对应的所有待分析类别以及剩余分析类别；

分别确定每个待分析类别与剩余分析类别的第一匹配程度，同时，分别确定每个待分析类别与余下待分析类别的第二匹配程度；

判断所述第一匹配程度以及第二匹配程度是否满足筛选条件，若满足，筛选得到最佳敏感类别作为对应第一敏感词的敏感信息类型；

若不满足，对所述敏感分类模型的当下识别精度进行精度细化，并按照精度细化后的模型继续对每个待分析类别对应的第一敏感词进行分析，筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型。

本发明提供一种文本内容的敏感分析系统，包括：

扩充模块，用于挖掘潜在敏感关键词，对敏感词库进行扩充；

词识别模块，用于构建关键词树，利用AC自动机算法遍历待检测文本，识别所述待检测文本包含的第一敏感词；

类别确定模块，用于将每个第一敏感词分别输入到敏感分类模型中，得到对应第一敏感词基于不同敏感类别的类别概率值，并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型；

评级模块，用于基于所有敏感信息类型，对所述待检测文本进行威胁评级。

优选的，所述扩充模块，包括：

数据获取单元，用于获取定时更新的敏感数据；

训练单元，用于对定时更新的敏感数据进行文本分词，并训练词向量；

库扩充单元，用于将所述词向量进行相似度匹配，提取潜在敏感关键词，对敏感词库进行扩充。

本发明提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行任一项所述方法的步骤。

本发明提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行任一项所述方法的步骤。

与现有技术相比，本申请的有益效果如下：

通过对词库扩充以及对敏感词进行类别概率值的确定，并筛选最高概率值对应的敏感类别，可以提高对敏感信息类型确定的准确性，进而来提高敏感信息确定文本的威胁情况。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种文本内容的敏感分析方法的流程图；

图2为本发明实施例中敏感词库的扩充流程图；

图3为本发明实施例中一种文本内容的敏感分析方法的结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供一种文本内容的敏感分析方法，如图1所示，包括：

步骤1：挖掘潜在敏感关键词，对敏感词库进行扩充；

该实施例中，挖掘潜在敏感关键词从历史文本中挖掘，提取历史文本中的关键词，将包含敏感信息的关键词作为潜在敏感词加入到敏感词库，对敏感词库进行扩充。

该实施例中，关键词树是字典树，又叫单词查找树，是一种树形结构。这里将敏感词库中的所有敏感关键词加入到关键词树中，方便后续对关键词树每个节点对应的敏感关键词进行遍历。

该实施例中，AC自动机算法主要依靠构造一个有限状态机（类似于在一个字典树中添加失配指针）来实现。这些额外的失配指针允许在查找字典树节点对应的敏感关键词失败时进行回退（例如设字典树的敏感关键词国家法律匹配失败，但是字典树中存在另一个敏感关键词国家领土，失配指针就会指向前缀敏感词国家），转向该前缀的其他分支，免于重复匹配前缀，提高遍历字典树的效率。

该实施例中，通过对待检测文本内容和关键词树的敏感关键词分别遍历，然后进行匹配，匹配成功的敏感关键词就是待检测文本的第一敏感词。

该实施例中，对每个第一敏感词进行分类之前需要先构建敏感分类模型，然后将每个第一敏感词分别输入到敏感分类模型中计算每个第一敏感词属于每类敏感信息的概率，概率最大的即为该第一敏感词的敏感类别。

该实施例中，构建敏感分类模型通过bert预训练模型构建。

上述技术方案的有益效果是：通过对词库扩充以及对敏感词进行类别概率值的确定，并筛选最高概率值对应的敏感类别，可以提高对敏感信息类型确定的准确性，进而来提高敏感信息确定文本的威胁情况。

本发明提供一种文本内容的敏感分析方法，如图2所示，挖掘潜在敏感关键词，对敏感词库进行扩充，包括：

步骤21：获取定时更新的敏感数据；

步骤22：对定时更新的敏感数据进行文本分词，并训练词向量；

步骤23：将所述词向量进行相似度匹配，提取潜在敏感关键词，对敏感词库进行扩充。

该实施例中，由于敏感词库是不定时更新的，有些更新的词有作为潜在敏感的必要，有些更新的词没有作为潜在敏感的必要，因此，进行相似度匹配，进行词库扩充。

该实施例中，利用word2vec词向量对敏感词库进行扩充。

上述技术方案的有益效果是：通过训练词向量、相似度匹配，便于提取潜在关键词，实现对敏感词库的有效扩充。

本发明提供一种文本内容的敏感分析方法，基于所有敏感信息类型，对所述待检测文本进行威胁评级，包括：

确定所述待检测文本中每个第一敏感词的维度特征；

按照所述文本敏感指数对所述待检测文本进行评分；

该实施例中，敏感信息分级模型是预先训练好的，且是基于不同敏感词以及对应的维度特征、特征权重为样本训练得到的。

其中，基于所有第一敏感词的所有特征权重，计算所述待检测文本的文本敏感指数，包括：

其中，

指的是维度特征的个数；

指的是待检测文本中第一敏感词的个数；

表示第

个维度特征对应的第

个第一敏感词中的特征权重；

表示指数函数；

表示文本敏感指数。

该实施例中，基于指数-评分数据表，可以得到文本敏感指数所匹配的待检测文本的评分，且该数据表是预先设置好的。

该实施例中，基于评分-评级数据表，可以得到评分所匹配的待监测文本的评级，且该数据表也是预先设置好的。

上述技术方案的有益效果是：通过确定维度特征并进行特征权重的设置，可以有效计算文本敏感指数，进而进行评分以及评级，可以有效确定出文本的威胁情况。

本发明提供一种文本内容的敏感分析方法，构建关键词树，包括：

确定扩充后的敏感词库中的历史关键词以及新增关键词；

其中，所述新增关键词为潜在敏感关键词。

该实施例中，历史关键词是没对敏感词库进行扩充前敏感词库中已经有的敏感词，新增敏感词是对敏感词库进行扩充时得到的历史文本集合中的一些关键词。

该实施例中，被定义结果是每个历史关键词每次历史搜索时显示的敏感类别，比如一个历史敏感词历史搜索时显示它是涉黄敏感词、涉暴敏感词或涉政敏感词。

该实施例中，敏感定义等级就是对搜索显示的敏感词类别进行等级划分，给不同类型的敏感词划分不同的等级。

该实施例中，等级-优先级转换机制是按照敏感词的等级对每类历史敏感词设置第一优先级，且是包括不同敏感词的等级以及与等级匹配的优先级在内的，敏感词等级越高，历史敏感词第一优先级越高，最后根据第一优先级将历史敏感词加入到关键词树中。

该实施例中，标签优先级转换机制是根据新增关键词过程中对一些关键词的标签设定，来确定不同标签设定的新增关键词的第二优先级，第一标签设定的标定词的第二优先级比第二标签设定的标定词的第二优先级高。

该实施例中，敏感前缀指的是历史关键词和新增关键词中共有的敏感词前缀，历史敏感词和新增敏感词中前几个一样的字组成的敏感词就是它们的敏感前缀。

该实施例中，词层级划分就是根据敏感前缀来进行敏感词分层，历史关键词和新增关键词的敏感前缀关键词划分在该历史敏感词和新增敏感词的上一层，当历史关键词或新增关键词作为敏感前缀的时候，以该历史敏感词和新增敏感词为敏感前缀的敏感关键词划分在该历史关键词和新增关键词的下一层。

该实施例中，初始树只是对树的上下层级结构进行划分，没有加入历史关键词和新增关键词。

该实施例中，将历史关键词根据第一优先级加入到划分好层级的初始树中，将新增关键词根据第二优先级加入到分好层级的初始树中，当所有历史关键词和新增关键词都加入到初始树后，关键词树构建完成。

上述技术方案的有益效果是：构建关键词树可以将历史关键词和新增关键词分别按照优先级加入到关键词树中，根据敏感前缀对关键词树进行层级结构划分，确保每个敏感关键词都加入到关键词树中。

本发明提供一种文本内容的敏感分析方法，分析所述被定义集合，确定对应历史关键词的敏感定义等级，包括：

；

获取

中每个相邻时间段的时间间隔

以及

到

其中，

表示对应同类定义中第

次被定义结果的定义时间点；

表示对应同类定义中第

次被定义结果的定义时间点；

表示对应同类定义结果中第

次被定义结果的定义时间点；

表示对应同类定义结果中第

次被定义结果的定义时间点。

该实施例中，同类定义指被定义的敏感关键词是同一个类型的敏感词，被定义次数是每一类敏感词被定义的次数，也可以用来表示每一类敏感词的数量，同类敏感词被定义次数越多，该类敏感词数量越多。

该实施例中，每类敏感词的定义时间集合是由该类敏感词中的每个敏感关键词被定义结果时的时间组成。该类敏感词有多少个敏感关键词，定义时间集合的时间点就有多少个。

该实施例中，随机性是偶然性的一种形式，具有某一概率的事件集合中的各个事件所表现出来的不确定性。对于一个随机事件可以探讨其可能出现的概率，反映该事件发生的可能性的大小。这里被定义随机性指每个敏感关键词被定义的时间和每类敏感词的被定义次数的，来确定出现的随机性，由于某些时段某些关键词出现的频率会高有些时段某些关键词出现的频率会低，也就是热度情况，所以会存在出现的随机性，每两个被定义结果为同类敏感词的敏感关键词的定义时间间隔不一定一样。

该实施例中，定义等级根据被定义次数的多少以及被定义随机性的大小进行划分。如果被定义次数越多且被定义随机性越大，则该类定义划分的等级越高，如果被定义次数越少且被定义随机性越小，则该类定义划分的等级越低。

上述技术方案的有益效果是：确定对应历史关键词的敏感定义等级，可以根据敏感定义分级结果设置历史关键词的优先级，以此确定历史关键词加入到关键词树中的顺序。

本发明提供一种文本内容的敏感分析方法，将每个第一敏感词分别输入到敏感分类模型中，得到对应第一敏感词基于不同敏感类别的类别概率值，并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型，包括：

该实施例中，用bert预训练模型对每类敏感关键词组成的训练样本集合进行训练，bert模型学习每个训练样本集合的特征，在不同的下游任务上进行训练和测试，得到最终的敏感分类模型。

该实施例中，将每个第一敏感词分别输入敏感模型分类后，利用朴素贝叶斯算法计算每个第一敏感词属于每类敏感关键词的概率。比如一共三类敏感关键词，分别是涉黄敏感词、涉暴敏感词、涉政敏感词，一个第一敏感词属于这三类敏感关键词的概率分别是0.5，0.6，0.7，那么该第一敏感词就是一个涉政敏感词。

该实施例中，如果有两类敏感关键词的概率一样，并且是最大的，则将这两个敏感关键词类别分别与第三个敏感关键词类别进行匹配，得到两个第一匹配程度。同时将这两个敏感关键词类别进行匹配得到第二匹配程度。判断两个第一匹配程度和第二匹配程度是否满足筛选条件，如果有一个第一匹配程度以及第二匹配程度满足筛选条件则该第一匹配程度对应的那个概率最大的敏感关键词类别就是该第一敏感词的敏感类别。

该实施例中，第一匹配程度的筛选条件是待分析类别与剩余分析类别的匹配程度小于0.6。

该实施例中，第二匹配程度的筛选条件是每两个待分析类别的匹配程度大于0.6。

该实施例中，如果第一匹配程度以及第二匹配程度不满足筛选条件，则对所述敏感分类模型的当下识别精度进行精度细化，划分更多的敏感类型，继续计算每个第一敏感词的属于每个敏感类别的概率，筛选最高概率值对应的敏感类别作为该第一敏感词的敏感信息类型。

上述技术方案的有益效果是：通过对第一匹配程度以及第二匹配程度设置筛选条件，可以对敏感分类模型的当下识别精度进行精度细化，更加准确地确定每个第一敏感词的敏感类别。

本发明提供一种文本内容的敏感分析系统，如图3所示，包括：

本发明提供一种文本内容的敏感分析系统，所述扩充模块，包括：

数据获取单元，用于获取定时更新的敏感数据；

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

步骤1：挖掘潜在敏感关键词，对敏感词库进行扩充；

在一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

步骤1：挖掘潜在敏感关键词，对敏感词库进行扩充；

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。