CN112001170B

CN112001170B - 一种识别经过变形的敏感词的方法和系统

Info

Publication number: CN112001170B
Application number: CN202010472614.5A
Authority: CN
Inventors: 刘梦迪; 梁循
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2023-05-09
Anticipated expiration: 2040-05-29
Also published as: CN112001170A

Abstract

本发明属于通讯网络技术领域，涉及一种识别经过变形的敏感词的方法和系统，包括以下步骤：判断待测词与预建立的敏感词库中的敏感词是否相同，若是则判断待测词为敏感词，若否则进入下一步；判断所述待测词与所述敏感词的拼音是否相同或相似，若相同或相似则输出对应的分值；将待测词中所有的字分成至少两个组成部分，判断各组成部分与敏感词的组成部分是否相同或相似，若相同或相似则输出各组成部分所对应的分值；将所有获得的分值相加，并判断是否超过阈值，若否，则待测词非敏感词，若是，则待测词为敏感词。其可以更加准确的锁定经过变形的敏感词。

Description

一种识别经过变形的敏感词的方法和系统

技术领域

本发明是关于一种识别经过变形的敏感词的方法和系统，属于通讯网络技术领域。

背景技术

随着移动互联网的迅速发展，网络媒体、微博、微信等工具已经成为人们生活中不可分割的一部分。然而，随着互联网社区的发展，心怀不轨及不法分子开始利用这些载体进行恐怖活动、散播网络色情、传播不实谣言，给经济社会和人民正常生活带来巨大损失。因此，社会化媒体作为重要的信息载体，对其中的报道及言论进行严格的管控和监督十分必要。敏感词过滤就是一种阻止网络犯罪和网络暴力的技术手段，主要是针对性地筛查和屏蔽可能存在违法或不良信息的关键词，实现防患于未然。

现在常用的敏感词过滤方式是构建敏感关键词库，通过查找与敏感词列表相匹配的字符串，之后使用符号将敏感词进行替换或者使用禁止发出、屏蔽等方式避免不当言论的出现。词语由不同汉字的组合形成，这一关键属性使得只有精准匹配时才进行过滤。然而，目前网络中出现了很多敏感词的变形词。如此一来，一个简单的敏感词可能衍生出几十种写法，将其尽收在词库中的工作量较为巨大，词库存储容量大，过滤速度也较为缓慢。而且更为重要的是变形词的变形方法多种多样，如谐音、形似字，这就使得变形词很难穷举。

发明内容

针对上述现有技术的不足，本发明的目的是提供了一种识别经过变形的敏感词的方法和系统，其可以更加准确的锁定经过变形的敏感词。

为实现上述目的，本发明提供了一种识别经过变形的敏感词的方法，包括以下步骤：S1判断待测词与预建立的敏感词库中的敏感词是否相同，若是则判断待测词为敏感词，若否则进入下一步；S2判断待测词与敏感词的拼音是否相同或相似，若相同或相似则输出对应的分值；S3将待测词中所有的字分成两个或两个以上组成部分，判断各组成部分与敏感词的组成部分是否相同或相似，若相同或相似则输出各组成部分所对应的分值；S4将所有获得的分值相加，并判断是否超过阈值，若否，则待测词非敏感词，若是，则待测词为敏感词。

进一步，判断拼音相同或相似的方法为：将待测词的拼音的字母及其位置与敏感词的拼音进行比较，若不存在差别则认定拼音相同，若只存在一处差别则认定拼音相似，若存在两处及两处以上的差别则认为拼音不相同，其中拼音相同的得分大于拼音相似的得分，拼音不相同不得分。

进一步，敏感词库中的数据包括：敏感词、敏感词的拼音和经过拆分后的敏感词组成部件。

进一步，经过拆分后的敏感词组成部件采用如下方法获得：构建所需的最小拆分字表，选择汉语拆字字典进行爬取，把每个字拆分为两个及以上的组成部件，将爬取到的数据存储于敏感词库；并从存储的数据中剔除最小拆分字及其拆分方式。

进一步，最小拆分字表包括不可拆分的字和偏旁部首。

进一步，判断各组成部分与敏感词的组成部分是否相同或相似的过程为：S3.1判断待测词中各个字是否可拆分，若存在不可拆分的字，判断不可拆分的字是否在最小拆分字表中，若存在追溯到对应的敏感词，并采用步骤S3.2-S3.3中的方法对其他词进行比较，如不存在则此步骤输出得分为零；S3.2将待测词中各个字均拆分为两个或两个以上组成部分，判断各组成部分是否存在在最小拆分字表中，若存在则判断组成部分相同，并输出相同对应的得分；否则进入下一步；S3.3判断各组成部分是否存在在相似组成部件库中，若存在则判断预建立的相似组成部件库中，若存在则判断组成部分相似，并输出相似对应的得分；否则此步骤输出得分为零。

进一步，不同组成部分对应的权重不同，能够单独构成文字的组成部件对应的权重大于组成部件为偏旁部首对应的权重，组成部分相同的得分大于组成部分相似的得分。

进一步，两个汉字a、b的相似度得分为S，相似度得分S可以采用下式进行计算：

其中，汉字a与汉字b共同的能够单独构成文字的组成部件的权重为

其中i＝{1,2,3,……n}，n为两个汉字共同的能够单独构成文字的组成部件的个数；共同偏旁部首的组成部件的权重为

其中j ＝{1,2,3,……,m}，m为两个汉字共同偏旁部首的个数；当两个汉字间存在相似偏旁部首时，该路径权重为w_ab，汉字a与汉字b与其偏旁部首的权重分别表示为

x，y，z为系数，步骤S3中输出的得分为各个字的平均得分。

进一步，当存在共同能够单独构成文字的组成部件时x为1，不存在时x为0；当存在共同偏旁部首时y为1，不存在时y为0；当存在相似偏旁部首时z为1，不存在时z为0。

本发明公开了一种识别经过变形的敏感词的系统，包括：现有敏感词判断模块，用于判断待测词与预建立的敏感词库中的敏感词是否相同，若是则判断待测词为敏感词，若否则进入下一步；字音变形判断模块，用于判断待测词中是否存在相邻的两个不可拆分的字，若是，则判断两个不可拆分的字是否可以构成另一个字，若是则判断字是否出现在敏感词中，若出现则输出这一判断步骤所对应的分值；字形变形判断模块，用于将待测词中所有的字分成两个或两个以上组成部分，判断各组成部分与敏感词的组成部分是否相同或相似，若相同或相似则输出各组成部分所对应的分值；结果输出模块，用于将所有获得的分值相加，并判断是否超过阈值，若否，则待测词非敏感词，若是，则待测词为敏感词。

本发明由于采取以上技术方案，其具有以下优点：本发明通过构建相似偏旁部首的用户字典，使得这类汉字之间也可以建立起联系，它们并不是直接关联，而是通过相似部件关联起来的，通过这种方式而建立起联系的实体称为形近二阶联想。读音相近的汉字替换敏感词中的部分汉字，并不影响整体的理解，因此本发明中将发音相近的汉字也建立了关联，通过这种方式而建立起联系的实体称为音近一阶联想。本发明可以实现当搜寻一个关键字时，得到与之字形相似(形近一阶联想及二级联想)和拼音发音相似(音近一阶联想)的汉字，这些汉字的排列组合可以形成庞大的敏感词库，从而为舆情管理和舆情监控目的的实现提供便利。通过将这些汉字进行排列组合，极大地提高了特定敏感词的联想词范围，从而能够尽可能地覆盖为逃避监管而出现在网络、媒体上的各式各样的敏感词汇，从源头杜绝不良词汇的发布和传播。另一方面，本发明极大地节约了时间和人工成本，有利于资源的合理分配和有效利用。

附图说明

图1是本发明一实施例中识别经过变形的敏感词的方法流程图；

图2是本发明一实施例中的字体拆分方法的示意图；

图3是本发明一实施例中的知识图谱的局部结构图；

图4是本发明一实施例中的字形相同或相似得分原则的示意图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方向，通过具体实施例对本发明进行详细的描绘。然而应当理解，具体实施方式的提供仅为了更好地理解本发明，它们不应该理解成对本发明的限制。在本发明的描述中，需要理解的是，所用到的术语仅仅是用于描述的目的，而不能理解为指示或暗示相对重要性。

实施例一

本实施例提供了一种识别经过变形的敏感词的方法，如图1所示，包括以下步骤：

S1判断待测词与预建立的敏感词库中的敏感词是否相同，若是则判断待测词为敏感词，若否则进入下一步。

敏感词库中的数据包括：敏感词、敏感词的拼音和经过拆分后的敏感词组成部件。

经过拆分后的敏感词组成部件采用如下方法获得：构建所需的最小拆分字表，本实施例中通过爬虫技术选择汉语拆字字典进行爬取，把每个字拆分为两个及两个以上的组成部件，而不是拆成类似于五笔的较为零散的笔划；另外，拆字时以常用字优先。将爬取到的数据存储于敏感词库；并从存储的数据中剔除最小拆分字及其拆分方式。并根据需求定制不同规则以选择最为理想的汉字拆分方式。其中，本实施例中的最小拆分字表包括不可拆分的字、偏旁部首和/或继续拆分意义有限的字等，比如上、下和子等字。

S2判断所述待测词与所述敏感词的拼音是否相同或相似，若相同或相似则输出对应的分值。

相近读音汉字用户数据库构建：以汉语拼音发音特点为根据，编写程序检测不同汉字之间的发音相似性，输出发音相似度高的汉字组。从而得到读音相似用户数据字典(Similar Pronounciation User Data Dictionary，即SPUDD)。

判断拼音相同或相似的方法为：将待测词的拼音的字母及其位置与敏感词的拼音进行比较，若不存在差别则认定拼音相同，若只存在一处差别则认定拼音相似，若存在两处及两处以上的差别则认为拼音不相同，其中拼音相同的得分大于拼音相似的得分，拼音不相同不得分。

S3如图2所示，将待测词中所有的字分成两个或两个以上组成部分，判断各组成部分与敏感词的组成部分是否相同或相似，若相同或相似则输出各组成部分所对应的分值；S4将所有获得的分值相加，并判断是否超过阈值，若否，则待测词非敏感词，若是，则待测词为敏感词。

相似偏旁部首的相似组成部件库构建：主要包括常用相似偏旁部首，如“冫氵”、“亻彳”等。从而得到相似偏旁部首用户数据字典(Similar Radical User DataDictionary，即SRUDD)。具体哪些偏旁部首是相似可以采用认为筛选的方法，或者选择字典中给出的相近偏旁部首。

根据抽取的不同敏感词和敏感词的拼音、组成部件所形成的三元组为基本单位，绘制知识图谱。得到知识图谱后，提供量化汉字相似性的方法，为相似汉字的获取提供思路。对敏感词库和相似偏旁部首的相似组成部件库的数据进行标准化，使其符合 Neo4j对于数据的要求，便于三元组的进一步构建。

将敏感词库中的敏感词和组成部件分离，分别形成汉字实体和组成部件实体。对于组成部分实体，如果偏旁部首存在广泛使用的名称，则将该名称作为此偏旁部首的属性添加；将敏感词库中的敏感词和组成部件原有的一对多关系处理为一一对应的“组成”关系；将SPUDD中相似发音的敏感词原有的一对多关系处理为一一对应的“音近”关系。相似偏旁部首的相似组成部件库为一一对应的“形似”关系，无需处理；将以上步骤得到的数据集处理成为格式为UTD-8的CSV文件。

如图3所示，先后导入所有数据集形成知识图谱，为提升可读性将实体间的关系进行了可视化标注，将不同属性的节点和边附以了多种颜色和不同形状。

判断各组成部分与敏感词的组成部分是否相同或相似的过程为：

S3.1判断待测词中各个字是否可拆分，若存在不可拆分的字，判断不可拆分的字是否在最小拆分字表中，若存在追溯到对应的敏感词，因为对应的敏感词通常数量不多，通常都是个位数的，故只需在输出设备中显示上述对应的敏感词，人工判断待测词是否和敏感词相同，如不存在则此步骤输出得分为零。由于自动判断敏感词是否相同计算量比较大，用时长，所以对于输出结果不多的敏感词采用人工判断反而比较节省时间和成本。而且对于将敏感词中一个字拆分为两个的情况，比如将“强”字拆分为“弓”和“虽”，现有的敏感词检索方法很难检索到这类变形的敏感词，但本实施例中方法通过则可以有效锁定这一类变形的敏感词。

S3.2将待测词中各个字均拆分为两个或两个以上组成部分，判断各组成部分是否存在在最小拆分字表中，若存在则判断组成部分相同，并输出相同对应的得分；否则进入下一步。

S3.3判断各组成部分是否存在在相似组成部件库中，若存在则判断预建立的相似组成部件库中，若存在则判断组成部分相似，并输出相似对应的得分；否则此步骤输出得分为零。

不同组成部分对应的权重不同，能够单独构成文字的组成部件对应的权重大于组成部件为偏旁部首对应的权重，组成部分相同的得分大于组成部分相似的得分。

两个汉字a、b的相似度得分为S，相似度得分S可以采用下式进行计算：

x，y，z为系数，步骤S3中输出的得分为各个字的平均得分。当存在共同能够单独构成文字的组成部件时x为1，不存在时x为0；当存在共同偏旁部首时y为1，不存在时y为0；当存在相似偏旁部首时z为1，不存在时z为0。

本实施例中将最终判断为敏感词的输出结果记录在敏感词库中，并同时记录其拼音和组成部件，扩展汉语拆字字典中的拆字方法。同时也可以通过神经网络算法等智能算法对本实施例方法中各项得分进行训练、调整。如将大量已经判断为敏感词的词作为待测词，通过本实施例中方法判断其是否为敏感词，如是则终止，如否则调整各项得分，直至输出结果符合要求。

如图4所示，以计算图式汉字与“循”的相似度为例说明本实施例中汉字字形记分规则。根据上述原则，“循”与“偱”的相似度为0.8*0.8+0.5*0.5*0.3＝0.715；“循”与“遁”的相似度为0.8*0.8＝0.64；“循”与“很”的相似度为0.5*0.5＝0.25。可以发现，“循”与“偱”的相似度最高，因为两者既存在共同成字部件，又存在相似偏旁部首，其次是“遁”，因为两者存在相同的成字部件，再其次为“很”，两者仅存在共同的偏旁部首，而“循”与“狠”的相似度为0，因为两者之间并无共同部件，也无相似偏旁部首，即没有直接的路径相连。而“偱”与“很”的相似度为0.075，因两者的偏旁部首组成存在直接的部首相似关系。

S4将所有获得的分值相加，并判断是否超过阈值，若否，则待测词非敏感词，若是，则待测词为敏感词。

此处的阈值可以根据实际需求，综合考虑敏感词特征设定。由于拼音或字形非常相似均可以直接判断为敏感词，故阈值通常是低于字音步骤或者字形步骤输出的最高得分。也可以根据字音或字形分别进行分数统计。

第二实施例

基于相同的发明构思，本发明公开了一种识别经过变形的敏感词的系统，包括：

现有敏感词判断模块，用于判断待测词与预建立的敏感词库中的敏感词是否相同，若是则判断待测词为敏感词，若否则进入下一步；

字音变形判断模块，用于判断待测词与敏感词的拼音是否相同或相似，若相同或相似则输出对应的分值；

字形变形判断模块，用于将待测词中所有的字分成两个或两个以上组成部分，判断各组成部分与敏感词的组成部分是否相同或相似，若相同或相似则输出各组成部分所对应的分值；

结果输出模块，用于将所有获得的分值相加，并判断是否超过阈值，若否，则待测词非敏感词，若是，则待测词为敏感词。

上述内容仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种识别经过变形的敏感词的方法，其特征在于，包括以下步骤：

S1判断待测词与预建立的敏感词库中的敏感词是否相同，若是则判断所述待测词为敏感词，若否则进入下一步；

S2判断所述待测词中是否存在相邻的两个不可拆分的字，若是，则判断所述两个不可拆分的字是否可以构成另一个字，若是则判断所述字是否出现在敏感词中，若出现则输出这一判断步骤所对应的分值；

S3将所述待测词中所有的字分成两个或两个以上组成部分，判断各组成部分与所述敏感词的组成部分是否相同或相似，若相同或相似则输出各组成部分所对应的分值；

S4将所有获得的分值相加，并判断是否超过阈值，若否，则待测词非敏感词，若是，则待测词为敏感词；

判断各组成部分与所述敏感词的组成部分是否相同或相似的过程为：

S3.1判断所述待测词中各个字是否可拆分，若存在不可拆分的字，判断所述不可拆分的字是否在最小拆分字表中，若存在追溯到对应的敏感词，并采用步骤S3.2-S3.3中的方法对其他词进行比较，如不存在则此步骤输出得分为零；

S3.2将所述待测词中各个字均拆分为两个或两个以上组成部分，判断各组成部分是否存在在所述最小拆分字表中，若存在则判断所述组成部分相同，并输出相同对应的得分；否则进入下一步；

S3.3判断各组成部分是否存在在相似组成部件库中，若存在则判断预建立的相似组成部件库中，若存在则判断所述组成部分相似，并输出相似对应的得分；否则此步骤输出得分为零；

不同所述组成部分对应的权重不同，能够单独构成文字的组成部件对应的权重大于组成部件为偏旁部首对应的权重，所述组成部分相同的得分大于所述组成部分相似的得分；

两个的汉字a、b的相似度得分为S，其中，汉字a与汉字b共同的能够单独构成文字的组成部件的权重为其中i＝{1,2,3,……n}，n为两个汉字共同的能够单独构成文字的组成部件的个数；共同偏旁部首的组成部件的权重为其中j＝{1,2,3,……,m}，m为两个汉字共同偏旁部首的个数；当两个汉字间存在相似偏旁部首时，路径权重为w_ab，汉字a、汉字b与其偏旁部首的权重分别表示为x，y，z为系数，所述步骤S3中输出的得分为各个字的平均得分。

2.如权利要求1所述的识别经过变形的敏感词的方法，其特征在于，判断拼音相同或相似的方法为：将待测词的拼音的字母及其位置与所述敏感词的拼音进行比较，若不存在差别则认定拼音相同，若只存在一处差别则认定拼音相似，若存在两处及两处以上的差别则认为拼音不相同，其中拼音相同的得分大于拼音相似的得分，拼音不相同不得分。

3.如权利要求1所述的识别经过变形的敏感词的方法，其特征在于，敏感词库中的数据包括：敏感词、敏感词的拼音和经过拆分后的敏感词组成部件。

4.如权利要求3所述的识别经过变形的敏感词的方法，其特征在于，所述经过拆分后的敏感词组成部件采用如下方法获得：构建所需的最小拆分字表，选择汉语拆字字典进行爬取，把每个字拆分为两个及以上的组成部件，将爬取到的数据存储于敏感词库；并从存储的数据中剔除最小拆分字及其拆分方式。

5.如权利要求4所述的识别经过变形的敏感词的方法，其特征在于，所述最小拆分字表包括不可拆分的字和偏旁部首。

6.如权利要求1所述的识别经过变形的敏感词的方法，其特征在于，当存在共同能够单独构成文字的组成部件时x为1，不存在时x为0；当存在共同偏旁部首时y为1，不存在时y为0；当存在相似偏旁部首时z为1，不存在时z为0。

7.一种识别经过变形的敏感词的系统，其特征在于，包括：

现有敏感词判断模块，用于判断待测词与预建立的敏感词库中的敏感词是否相同，若是则判断所述待测词为敏感词，若否则进入下一步；

字音变形判断模块，用于判断所述待测词中是否存在相邻的两个不可拆分的字，若是，则判断所述两个不可拆分的字是否可以构成另一个字，若是则判断所述字是否出现在敏感词中，若出现则输出这一判断步骤所对应的分值；

字形变形判断模块，用于将所述待测词中所有的字分成两个或两个以上组成部分，判断各组成部分与所述敏感词的组成部分是否相同或相似，若相同或相似则输出各组成部分所对应的分值；

结果输出模块，用于将所有获得的分值相加，并判断是否超过阈值，若否，则待测词非敏感词，若是，则待测词为敏感词；