CN112364153A

CN112364153A - 一种基于干扰特征的关键词识别方法及装置

Info

Publication number: CN112364153A
Application number: CN202011244265.8A
Authority: CN
Inventors: 万志勇; 林壮源; 张裕桥
Original assignee: China Datacom Corp ltd
Current assignee: China Datacom Corp ltd
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-02-12

Abstract

本申请公开了一种基于干扰特征的关键词识别方法及装置，属于信息安全领域，所述方法包括：建立敏感词数据库以及关键词组合规则；将待测试文本输入到敏感词数据库以及关键词组合规则中，进行匹配；得到匹配结果并输出。所述装置包括：建立数据库及规则模块、匹配模块以及输出模块；本申请最大限度的降低关键词过滤的误检率。与传统关键词识别算法对比，干扰特征的关键词算法具备更好的抗干扰能力。能够过滤一些利用变形字、噪音、普通词汇来发送的不良信息，提高关键词过滤效果。

Description

一种基于干扰特征的关键词识别方法及装置

技术领域

本发明属于信息安全领域，具体涉及一种基于干扰特征的关键词识别方法及装置。

背景技术

2013年以来，不良信息呈现大规模泛滥的态势，出现了大量不良文本信息，这些不良信息包括淫秽、色情、暴力等低俗信息；赌博、犯罪等技能教唆信息；毒品、违禁药品、刀具枪械、监听器、假证件、发票等管制品买卖信息；虚假股票、信用卡、彩票等诈骗信息，以及网络销赃等多方面内容。2018年来，有一些人利用噪音和普通词汇发送或发布不良信息行为，对这些利用噪音和普通词汇发送不良文本进行过滤是一个很大的问题。

现有的检测不良文本信息的方式是基于“敏感”词汇列表的来进行检测的。首先将之前定义为“敏感”词汇设为关键词存入数据库，后续将待检测的文本集进行关键词匹配，若待检测的文本集中含有列表中的“敏感”词汇的，则认为该文本集中含有不良信息。这种检测方式比较简单，但这种方式存在着不足，首先定义“敏感”词汇的力度，小的话容易漏过滤，大的话容易造成误判。其次，用户为了避免信息被过滤，往往会对“敏感”词汇中间进行加噪音处理，而这种词汇变形的数据是无穷的。

现有技术中存在敏感词误判以及敏感词加噪后无法滤除的问题，目前尚未提出有效的解决方案。

发明内容

为解决现有技术中的不足，本申请提出一种基于干扰特征的关键词识别方法及装置，最大限度的降低关键词过滤的误检率。

一种基于干扰特征的关键词识别方法，包括如下步骤：

建立敏感词数据库以及关键词组合规则；

将待测试文本输入到敏感词数据库以及关键词组合规则中，进行匹配；

得到匹配结果并输出。

所述建立敏感词库以及关键词组合规则，包括如下步骤：

用户输入规则；

根据用户输入规则提取出关键词以及关键词组合规则；

根据所提取的关键词进行变异扩充，得到敏感词数据库；

输出敏感词数据库以及关键词组合规则。

所述将待测试文本输入到敏感词数据库以及关键词组合规则中，进行匹配，过程如下：

输入待测试文本；

提取所述待测试文本的关键词；

判断所述关键词是否与敏感词数据库能够匹配；

若匹配，则所述关键词为敏感关键词，需过滤掉；

若不匹配，则判断所述关键词是否与敏感特征词数据库能够匹配；若不匹配，则所述关键词不是敏感关键词，则不需过滤；若匹配，则判断所述关键词中是否存在噪音；

若不存在噪音，则所述关键词不是敏感关键词，则不需过滤；

若存在噪音，则所述关键词是具有干扰信息的关键词，需过滤掉。

所述判断所述关键词中是否存在噪音，过程如下：

记录所述关键词的第一个字符，为对应的原始内容索引；

记录所述关键词的最后一个字符，为对应的原始内容最后一个字符索引；

判断两个索引之差是否大于关键词因子的字符数；

若大于，则所述关键词为具有干扰信息的关键词，需滤除掉；

若不大于，则所述关键词不是敏感关键词，则不需过滤。

一种基于干扰特征的关键词识别装置，采用所述的基于干扰特征的关键词识别方法实现，包括：建立数据库及规则模块、匹配模块以及输出模块；

所述建立数据库及规则模块、匹配模块以及输出模块依次顺序连接；

所述建立数据库及规则模块，用于建立敏感词数据库以及关键词组合规则；

所述匹配模块，用于将待测试文本输入到敏感词数据库以及关键词组合规则中，进行匹配；

所述输出模块，用于得到匹配结果并输出。

本申请所达到的有益效果：

以前关键词算法存在误检率高，关键词识别的不够全面。本专利开发了一个干扰特征的关键词识别算法，最大限度的降低关键词过滤的误检率。过滤的效果接近于人脑识别的结果，与传统关键词识别算法对比，干扰特征的关键词算法具备更好的抗干扰能力。能够过滤一些利用变形字、噪音、普通词汇来发送的不良信息，提高关键词过滤效果。

附图说明

图1为本发明实施例的一种基于干扰特征的关键词识别方法流程图；

图2为本发明实施例的建立敏感词库以及关键词组合规则流程图；

图3为本发明实施例的将待测试文本输入到敏感词数据库以及关键词组合规则中进行匹配流程图；

图4为本发明实施例的判断所述关键词中是否存在噪音流程图；

图5为本发明实施例的基于干扰特征的关键词识别装置示意图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

一种基于干扰特征的关键词识别方法，如图1所示，包括如下步骤：

步骤S1：建立敏感词数据库以及关键词组合规则；

步骤S2：将待测试文本输入到敏感词数据库以及关键词组合规则中，进行匹配；

步骤S3：得到匹配结果并输出。

所述建立敏感词库以及关键词组合规则，如图2所示，包括如下步骤：

步骤S100：用户输入规则；

步骤S101：根据用户输入规则提取出关键词以及关键词组合规则；根据文本内容提取涉嫌敏感关键词，如：催款、贷款、诈骗类敏感字眼。

针对营销广告、销售手段类信息，提取常见不良文本中高频词汇。

例子1:：点数优惠，代开發篻15817734373，可直接提取“發篻”作为敏感关键词。

例子2：※优＠惠ち诚ナ信{国τ地}【税#票】133 4118 8869郭，不可直接提取“税票”作为敏感关键词，可将税票作为敏感特征关键词，文本匹配关键词时，再根据关键词组合规则判断关键词中是否含有噪音。

步骤S102：根据所提取的关键词进行变异扩充，得到敏感词数据库；

变异扩充需要人工扩充，判断敏感关键词是否常出现在不良信息文本中，如是,查询敏感关键词的近形词及多音词，组合新的敏感关键词。

例子1：敏感关键词“中腾信”常出现在催款类文本中，根据它的近形词与多音词，可扩展的敏感关键词有“钟腾信”“忠腾信”“中騰信”“中驣信”“中螣xin”等。

有关变异关键词的提取方法很多论文对此有进一步描述，在本申请中不再赘述。

步骤S103：输出敏感词数据库以及关键词组合规则。

关键词组合规则是先判断测试文本中是否含有敏感关键词，如无，则判断是否含有敏感特征关键词，如有，再根据关键词组合规则判断文本中敏感关键词是否含有噪音，进一步判断是否含有干扰信息。

所述将待测试文本输入到敏感词数据库以及关键词组合规则中，进行匹配，如图3所示，过程如下：

步骤S201：输入待测试文本；

步骤S202：提取所述待测试文本的关键词；

手工收集所述待测试文本，包括投诉数据、正常数据和嫌疑数据。

步骤S203：判断所述关键词是否与敏感词数据库能够匹配；

步骤S204：若匹配，则所述关键词为敏感关键词，需过滤掉；

步骤S205：若不匹配，则判断所述关键词是否与敏感特征词数据库能够匹配；

步骤S206：若不匹配，则所述关键词不是敏感关键词，则不需过滤；

步骤S207：若匹配，则判断所述关键词中是否存在噪音；

步骤S208：若不存在噪音，则所述关键词不是敏感关键词，则不需过滤；

步骤S209：若存在噪音，则所述关键词是具有干扰信息的关键词，需过滤掉。

所述判断所述关键词中是否存在噪音，如图4所示，过程如下：

步骤S301：记录所述关键词的第一个字符，为对应的原始内容索引；

步骤S302：记录所述关键词的最后一个字符，为对应的原始内容最后一个字符索引；

步骤S303：判断两个索引之差是否大于关键词因子的字符数；

步骤S304：若大于，则所述关键词为具有干扰信息的关键词，需滤除掉；

步骤S305：若不大于，则所述关键词不是敏感关键词，则不需过滤。

一种基于干扰特征的关键词识别装置，采用所述的基于干扰特征的关键词识别方法实现，如图5所示，包括：建立数据库及规则模块、匹配模块以及输出模块；

所述输出模块，用于得到匹配结果并输出。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.一种基于干扰特征的关键词识别方法，其特征在于，所述方法包括以下步骤：

建立敏感词数据库以及关键词组合规则；

得到匹配结果并输出。

2.根据权利要求1所述的基于干扰特征的关键词识别方法，其特征在于：

所述建立敏感词库以及关键词组合规则，包括如下步骤：

用户输入规则；

根据用户输入规则提取出关键词以及关键词组合规则；

根据所提取的关键词进行变异扩充，得到敏感词数据库；

输出敏感词数据库以及关键词组合规则。

3.根据权利要求1所述的基于干扰特征的关键词识别方法，其特征在于：

输入待测试文本；

提取所述待测试文本的关键词；

判断所述关键词是否与敏感词数据库能够匹配；

若匹配，则所述关键词为敏感关键词，需过滤掉；

4.根据权利要求1所述的基于干扰特征的关键词识别方法，其特征在于：

所述判断所述关键词中是否存在噪音，过程如下：

记录所述关键词的第一个字符，为对应的原始内容索引；

判断两个索引之差是否大于关键词因子的字符数；

若不大于，则所述关键词不是敏感关键词，则不需过滤。

5.一种基于干扰特征的关键词识别装置，其特征在于：采用所述的基于干扰特征的关键词识别方法实现，包括：建立数据库及规则模块、匹配模块以及输出模块；

所述输出模块，用于得到匹配结果并输出。