CN113486654B

CN113486654B - 一种基于先验主题聚类的敏感词库构建与扩展方法

Info

Publication number: CN113486654B
Application number: CN202110857533.1A
Authority: CN
Inventors: 叶佳豪; 房鹏展
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2024-04-26
Anticipated expiration: 2041-07-28
Also published as: CN113486654A

Abstract

本发明公开了一种基于先验主题聚类的敏感词库构建与扩展方法，其特征在于，包括步骤1，对敏感文本进行分词，步骤2，选取主题的锚定词，步骤3，锚定词的先验主题聚类，选择与锚定词同主题下的词汇作为新的敏感词，加入到基础敏感词库。本发明通过基于切词的分词算法，可以灵活设定锚定词，为主题聚类引入先验知识，最后筛出可靠的候选敏感词，解决了敏感词库自动构建的效率、扩展性和准确性问题。

Description

一种基于先验主题聚类的敏感词库构建与扩展方法

技术领域

本发明涉及敏感词检测领域，特别涉及一种基于先验主题聚类的敏感词库构建与扩展方法。

背景技术

敏感信息检测主要依靠敏感词库进行匹配检测，因此一个完备准确的敏感词库比不可少。通常，企业通过人工审核众多敏感文本并从中抽取关键敏感词汇，将关键敏感词整理到相应的敏感词库中。但是面对成千上万的敏感文本，一方面需要审核人员具备审核的业务知识来识别敏感词；另一方面，敏感词往往是随时间随环境而变化的，基于已有的敏感词库进行敏感信息检测容易失效。因此，基于人工构建敏感词库是低效且容易因为词库的规模和时效问题降低了敏感信息的检测效果。

目前自动构建敏感词库的方法主要通过新词发现算法来发现新的词语，如有监督的基于序列标注的新词发现算法，但是该方法的缺点是需要大量的标注数据，不具备可扩展性；另外一种是无监督的基于信息熵的新词发现算法，该方法通过计算词语的频数，凝固度，自由度三个维度来确定是否为新词，该方法的缺点是计算复杂，且准确性不高。

因此，需要一种更准确且适用的敏感词库构建与扩展方法。

发明内容

本发明所要解决的技术问题是，需要一种敏感词库构建与扩展方法，解决敏感词库自动构建的效率、扩展性和准确性问题。

为解决上述技术问题，本发明提供一种基于先验主题聚类的敏感词库构建与扩展方法，具体如下：

步骤1，对敏感文本进行分词，所述分词具体为，对于敏感文本，利用基于切词的新词发现算法进行分词；

步骤2，选取主题的锚定词，所述选取具体为，选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词；

步骤3，锚定词的先验主题聚类，所述先验主题聚类具体为，将主题的锚定词加入到先验主题聚类模型中，得到基于锚定词的主题词汇概率分布，选择与锚定词同主题下的词汇作为新的敏感词，加入到基础敏感词库。

所述步骤1中，所述利用基于切词的新词发现算法进行分词，具体为，根据敏感文本中字片段的稳定性来判断是否切分这个字片段，以时间复杂度为O(N)的算法切分敏感文本，包括如下步骤：

步骤1-1：统计字片段中相邻的两字字a和字b共现的频率P(a,b)，分别统计字a和字b的频率P(a)和P(b)，取α为比值，所述α代表基于切词的粒度，α的取值范围为1-10；如果

则把相邻两字字a和字b切分，统计切分后的词汇的词频，预设与敏感文本的数量成正相关的阈值，选取词频大于所述预设阈值的词汇作为候选词；

步骤1-2：所述步骤1-1中得到的候选词的集合经过分词词库筛选，排除出现在分词词库中的词汇，得到候选新词；

步骤1-3：将步骤1-2得到的候选新词加入分词词库中，得到新的分词词库，利用新的分词词库对敏感文本进行分词，得到经过分词的敏感文本。

所述步骤2中，选取与敏感词有关的锚定词，具体为，选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词，包括如下步骤：

步骤2-1：预设基础敏感词库，所述基础敏感词库中包括不止一个主题，所述每个主题下包括不止一个敏感词，所述敏感词是该主题下出现频率高于预设频率且只出现在该主题的词汇；

步骤2-2：从基础敏感词库的敏感词中选取出现在敏感文本中的敏感词；

步骤2-3：根据步骤2-2中选取的敏感词的频率，选取频率最高的指定数量的敏感词作为主题的锚定词。

所述步骤3中，锚定词的先验主题聚类，具体为，选取步骤2中的锚定词，以半监督的主题建模方式，获取与锚定词相关的主题敏感词加入到基础敏感词库中，包括如下步骤：

步骤3-1：对经过切分的敏感文本进行先验主题聚类，定义主题和敏感文本的多元互信息为：

其中X代表所有候选敏感词组成的敏感文本，Y代表敏感文本的主题集合，TC代表变量的多元互信息，I代表两个随机变量之间的互信息；当TC(X|Y)为0，即主题Y解释了文档X的分布概率；

步骤3-2：先验主题聚类的目标函数为：

其中I(X_i:Y_j)代表词汇i与主题j的互信息，p(y_j|x)代表候选敏感词在主题j的概率分布，α_i,j代表词汇i出现在主题j的强度；

步骤3-3：将先验主题聚类得到的主题的锚定词集合加入到基础敏感词库中。

所述步骤1-1中，所述α取值为1，所述步骤1-2中，所述分词词库为jieba分词词库。

所述步骤2-1中，所述预设频率设定为0.1；所述步骤2-3中，所述指定数量为5个。

所述步骤3-2中，当且仅当词汇i只出现在主题j中，所述α_i,j大于等于1，所述词汇i即为锚定词，j是锚定词下的主题；所述步骤3-3中，对于所述锚定词集合，排除基础敏感词库中已有的敏感词，得到新的敏感词。

本发明主要用于敏感词库的构建与扩展，通过基于切词的分词算法，解决了敏感词领域未登录词导致的分词不准确的问题；通过基于先验的主题聚类，可以灵活设定锚定词，为主题聚类引入先验知识，解决了主题聚类下的不准确问题，最后筛出可靠的候选敏感词，解决敏感词库自动构建的效率、扩展性和准确性问题。

附图说明

图1为本发明的示例性实施例的方法流程图；

图2为本发明的示例性实施例中基于切词的新词发现算法进行分词的方法流程图；

图3为本发明的示例性实施例中选取与敏感词有关的的锚定词的方法流程图；

图4为本发明的示例性实施例中主题的锚定词的先验主题聚类的方法流程图。

具体实施方式

下面结合附图和示例性实施例对本发明作进一步的说明：

本发明提供一种基于先验主题聚类的敏感词库构建与扩展方法，在基于信息熵的新词发现算法的基础上，提出基于切词的新词发现算法，时间复杂度从O(N^2)降低到O(N),提高了新词发现的效率；在无监督的主题聚类的基础上，提出基于锚定词的先验主题聚类，以半监督的方式，通过少量的锚定词，提高了主题聚类的准确性，解决了因为监督数据不足导致的扩展性问题。因此通过上述方式，本方法解决了敏感词库自动构建的效率、扩展性和准确性问题，具体如下：

步骤1，对敏感文本进行分词，具体为，对于敏感文本，利用基于切词的新词发现算法进行分词；

步骤2，选取主题的锚定词，具体为，选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词。

步骤3，主题的锚定词的先验主题聚类，具体为，将主题的锚定词加入到先验主题聚类模型中，得到基于锚定词的主题词汇概率分布，最后选择与锚定词同主题下的词汇作为新的敏感词，加入到基础敏感词库从而实现敏感词库的自动创建和扩展。

所述步骤1中利用基于切词的新词发现算法进行分词，具体为，根据敏感文本中字片段的稳定性来判断是否切分这个字片段，以时间复杂度为O(N)的算法切分敏感文本，具体步骤包含如下步骤：

步骤1-1：统计字片段中相邻的两字字a和字b共现的频率P(a,b)，然后分别统计字a和字b的频率P(a)和P(b)，取α为比值，所述α代表基于切词的粒度，根据实际应用场景，通过灵活α值得大小来达到不同的分词粒度需求，通常设定α值为1-10之间；经过反复调试参数，发现当α取1时，分词的粒度较小，更多的新的敏感词能够被保留而不被错误的切分，因此本方法当α取1时可以获得最优效果，如果

那么就把这相邻两字a和字b切分，最后通过统计切分后的词汇的词频，预设与敏感文本的数量成正相关的阈值，选取词频大于所述预设阈值的词汇作为候选词；

步骤1-2：将步骤1-1中得到的候选词的集合经过已有的jieba分词词库筛选，排除出现在jieba分词词库中的词语，得到候选新词；

步骤1-3：将步骤1-2得到的候选新词加入到jieba已有的分词词库中，得到新的分词词库，重新利用新的分词词库对敏感文本进行分词，得到经过分词的敏感文本。通过同时利用基于切分的新词发现的候选新词和jieba已有的分词词库，提升了对新词和常规词的分词准确率。

所述步骤2中，选取主题的锚定词，具体为，选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词。

步骤2-1：预设基础敏感词库，所述敏感词库中包括不止一个主题，所述每个主题下包括不止一个敏感词，所述敏感词是该主题下出现频率高于预设频率且只出现在该主题的词语，所述预设频率设定为0.1；

步骤2-2：从步骤2-1中的各个主题下的敏感词中选取出现在敏感文本中的敏感词；

步骤2-3：根据步骤2-2中选取的敏感词的频率，选取频率最高的5个敏感词作为主题的锚定词。

所述步骤3中主题的锚定词的先验主题聚类，具体为，最大化主题和敏感文本之间的互信息；选取步骤2中产生的各个主题下的敏感词作为锚定词，以半监督的主题建模方式，获取与锚定词相关的主题敏感词加入到基础敏感词库中，提高主题聚类的准确性、灵活性、可扩展性，具体步骤包含如下：

步骤3-1：将经过切分的敏感文本，进行先验主题聚类，最大化主题和敏感文本之间的互信息，定义主题和敏感文本的多元互信息为：

其中X代表所有候选敏感词组成的敏感文本，Y代表敏感文本的主题集合，TC代表变量的多元互信息，I代表两个随机变量之间的互信息；该主题建模通过最大化主题Y与敏感文本的互信息，此时TC(X|Y)为0，即主题Y很好的解释了文档X的分布概率。

步骤3-2：将步骤2选取的锚定词的主题强度设置为大于等于1，实现半监督的主题建模，主题聚类的目标函数为如下所示：

其中I(X_i:Y_j)代表词汇i与主题j的互信息，p(y_j|x)代表候选敏感词在主题j的概率分布，α_i,j代表词汇i出现在主题j的强度，当且仅当词汇i只出现在主题j中的时候大于等于1。因此通过设置α_i,j大于等于1，则词汇i必定出现在主题j中，此时词汇i即为人为设置的锚定词，j是锚定词下的主题；

步骤3-3：将先验主题聚类得到的主题词集合，排除掉基础词库中已有的敏感词，得到新的敏感词加入到基础敏感词库中。

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进与应用，都属于本发明的保护范围。

Claims

1.一种基于先验主题聚类的敏感词库构建与扩展方法，其特征在于，包括如下步骤：

步骤3，锚定词的先验主题聚类，所述先验主题聚类具体为，将主题的锚定词加入到先验主题聚类模型中，得到基于锚定词的主题词汇概率分布，选择与锚定词同主题下的词汇作为新的敏感词，加入到基础敏感词库；

则把相邻两字字a和字b切分，统计切分后的词汇的词频，预设与敏感文本的数量成正相关的阈值，选取词频大于该阈值的词汇作为候选词；

步骤1-3：将步骤1-2得到的候选新词加入分词词库中，得到新的分词词库，利用新的分词词库对敏感文本进行分词，得到经过分词的敏感文本；

步骤3-2：先验主题聚类的目标函数为：

2.如权利要求1所述的一种基于先验主题聚类的敏感词库构建与扩展方法，其特征在于，所述步骤2中，选取与敏感词有关的锚定词，具体为，选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词，包括如下步骤：

3.如权利要求2所述的一种基于先验主题聚类的敏感词库构建与扩展方法，其特征在于，所述步骤1-1中，所述α取值为1，所述步骤1-2中，所述分词词库为jieba分词词库。

4.如权利要求3所述的一种基于先验主题聚类的敏感词库构建与扩展方法，其特征在于，所述步骤2-1中，所述预设频率设定为0.1；所述步骤2-3中，所述指定数量为5个。

5.如权利要求4所述的一种基于先验主题聚类的敏感词库构建与扩展方法，其特征在于，所述步骤3-2中，当且仅当词汇i只出现在主题j中，所述α_i,j大于等于1，所述词汇i即为锚定词，j是锚定词下的主题；所述步骤3-3中，对于所述锚定词集合，排除基础敏感词库中已有的敏感词，得到新的敏感词。