CN107357778B

CN107357778B - 一种变形词的识别验证方法及系统

Info

Publication number: CN107357778B
Application number: CN201710482689.XA
Authority: CN
Inventors: 张健; 江永青; 纪传俊; 陈运文; 高翔
Original assignee: Datagrand Tech Inc
Current assignee: Daguan Data Co ltd
Priority date: 2017-06-22
Filing date: 2017-06-22
Publication date: 2020-10-30
Anticipated expiration: 2037-06-22
Also published as: CN107357778A

Abstract

本发明公开了一种变形词的识别验证方法及系统，识别验证方法具有以下有益效果：通过语音和字形的扩展，使变形字库可得到扩展，从而其中的变形词的数量得到扩充，质量得到提高，降低了误判的几率；通过训练样本进行上下文概率的训练，从而使变形词的语义验证的误判几率进一步降低，并且精确性得到提高；通过验证结果更新训练样本，使算法的自动更新性能提高，从而能够扩展用于语义验证的概念库，随着验证结果的积累，误判几率不断减小。识别验证系统包括：获取单元、变形训练单元、识别单元以及语义验证单元，实现了与方法相同的有益效果。

Description

一种变形词的识别验证方法及系统

技术领域

本发明涉及机器识别变形词的领域，具体涉及一种变形词的识别验证方法及系统。

背景技术

我们在浏览贴吧、论坛、新闻媒体等类似的各种平台中，会时常看到变形的敏感词。人脑的思维方式让我们能够非常自然地发现这些变形词，因为这些变形词在句子中是“异常”的部分，这种“异常”的感觉会将我们的注意力聚集到这一区域，进而逐渐发现完整的变形词。而机器在直接面对这些变形词(包括间杂特殊符号、同音变换、形近变换、简繁转换、偏旁拆分等)时就显得稍微力不从心，变形词识别是解决中文垃圾内容过滤的一个重要问题。

目前，在申请号为200810224894.7的中国专利申请中，公开了一种敏感词校对的方法及系统：通过组成敏感词的字的内码，及内码和字的拼音字母组成信息的对应关系，确定敏感词拼音字母组成信息；从被校对文本中获取被校对词，通过组成被校对词的汉字内码，及内码和字的拼音字母组成信息的对应关系，确定被校对词拼音字母组成信息；若被校对词与敏感词，彼此之间的拼音字母组成信息相同，则确定被校对词为敏感词，因此通过语音校对，使得敏感词的变形词可以被校对出来，提高了敏感词的校对准确率。

另外在申请号为201210537803的中国专利申请中，公开了一种变形词证认系统及证认方法。在该变形词证认系统中，通过同音变换和拆字变形在变形词库中查找原形词的变形词，然后将变形词提供给变形词检测模块，证认模块通过预先设定的概念库的支持，检测待检测数据的语义背景与原形词概念集合的相似程度，变形词判别模块通过相似度值与预先设定的判别阈值比较，得出所检测的变形词是否为原形词的变形词的结论。

现有的变形词识别技术的不足之处在于，系统和方法均基于固定的变形词库和概念库，其中的变形词、训练样本的数量和质量均有较大的局限性，容易出现误判；算法自动更新性能差，不具备扩展变字词库和概念库的能力。

发明内容

本发明的目的是提供一种变形词的识别验证方法及系统，以解决上述不足之处。

为了实现上述目的，本发明提供如下技术方案：

一种变形词的识别验证方法，包括以下步骤：

获取敏感词和训练样本；

根据所述敏感词进行语音和字形扩展得到变形词，并通过所述训练样本进行基于上下文概率的训练，得到n元语言模型；

输入待检测文本，并根据所述敏感词和变形词对所述待检测文本进行识别；

将所述识别结果输入所述n元语言模型进行上下文语义验证。

上述变形词的识别验证方法，语音的扩展包括以下步骤：

提取所述敏感词的原始拼音，并据其关联得到类似发音的同音拼音；

将所述同音拼音对应的同音词归为语音变形词的范畴。

上述变形词的识别验证方法，字形的扩展包括以下步骤：

对所述敏感词进行偏旁拆解，并获得偏旁变形词；

对所述敏感词进行字形相似判断，并获得相似变形词。

上述变形词的识别验证方法，进行偏旁拆解包括以下步骤：

建立偏旁拆解词典，并据其对所述敏感词进行偏旁拆解；

确立偏旁拆解结果与敏感词中每个字间对应的关系。

上述变形词的识别验证方法，进行字形相似判断包括以下步骤：

通过英文字符对汉字笔画进行一一对应的定义；

根据所述敏感词中字的笔顺统计得到相应的英文字符；

根据所述相应的英文字符的个数和排列顺序，求得所述敏感词中字对应的编辑距离最小的变形字。

上述变形词的识别验证方法，所述n元语言模型的获得包括以下步骤：

对所述训练样本中对应的变形词w_k出现的频率进行统计；

定义上下文窗口大小为K，并在所述上下文窗口范围内，对所述训练样本中对应的两个词w_i，w_k共同出现的频率进行统计；

其中，P(W_k＝w_k)＝c(w_k)/N，

K表示上下文窗口大小，N训练样本的数目，“w_i”出现在“w_k”后面第k-i位的统计数目。

上述变形词的识别验证方法，对所述待检测文本进行识别包括以下步骤：

遍历所述待检测文本，并根据其中的每个字构建候选变形字集合；

从所述候选变形字集合中识别出与所述待检测文本中字一致的变形字，并据其关联到所述识别结果。

上述变形词的识别验证方法，进行上下文语义验证包括以下步骤：

判断所述识别结果是否在n元语言模型中；

若在，则筛选所述识别结果的上下文距离为m的邻近词，并进行验证计算：

若计算结果小于设定的阈值或者所述识别结果不在n元语言模型中时，判断所述识别结果为变形词。

上述变形词的识别验证方法，得到变形词后还包括以下步骤：

输出语义验证结果，并周期性的将其输入所述训练样本中，得到更新样本；

通过所更新样本对所述变形词进行基于上下文概率的训练。

上述技术方案中，本发明提供的一种变形词的识别验证方法，具有以下有益效果：

1)通过语音和字形的扩展，使变形字库可得到扩展，从而其中的变形词的数量得到扩充，质量得到提高，降低了误判的几率；

2)通过训练样本进行上下文概率的训练，从而使变形词的语义验证的误判几率进一步降低，并且精确性得到提高；

3)通过验证结果更新训练样本，使算法的自动更新性能提高，从而能够扩展用于语义验证的概念库，随着验证结果的积累，误判几率不断减小。

一种变形词的识别验证系统，包括：

获取单元，用以获取敏感词和训练样本；

变形训练单元，用以根据所述敏感词进行语音和字形扩展得到变形词，并通过所述训练样本进行基于上下文概率的训练，得到n元语言模型；

识别单元，用以输入待检测文本，并根据所述敏感词和变形词对所述待检测文本进行识别；

语义验证单元，用以将所述识别结果输入所述n元语言模型进行上下文语义验证。

1)通过变形训练单元使变形字库可得到扩展，从而其中的变形词的数量得到扩充，质量得到提高，降低了误判的几率；

2)通过变形训练单元中的训练样本进行上下文概率的训练，从而使变形词的语义验证的误判几率进一步降低，并且精确性得到提高；

3)通过语义验证单元中的验证结果更新训练样本，使算法的自动更新性能提高，从而能够扩展用于语义验证的概念库，随着验证结果的积累，误判几率不断减小。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的变形词的识别验证方法的流程示意图；

图2为本发明一优选实施例提供的变形词的识别验证方法的流程示意图；

图3为本发明一优选实施例提供的变形词的识别验证方法的流程示意图；

图4为本发明一优选实施例提供的变形词的识别验证方法的流程示意图；

图5为本发明一优选实施例提供的变形词的识别验证方法的流程示意图；

图6为本发明一优选实施例提供的变形词的识别验证方法的流程示意图；

图7为本发明一优选实施例提供的变形词的识别验证方法的流程示意图；

图8为本发明一优选实施例提供的变形词的识别验证方法的流程示意图；

图9为本发明一优选实施例提供的变形词的识别验证方法的流程示意图；

图10为本发明实施例提供的变形词的识别验证系统的流程示意图；

图11为本发明实施例提供的变形词的识别验证系统的结构框图；

图12为本发明一优选实施例提供的对待检测文本进行识别的结构示意图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面将结合附图对本发明作进一步的详细介绍。

如图1、11所示，为本发明实施例提供的一种变形词的识别验证方法，包括以下步骤：

S101、获取敏感词集合和训练样本；

敏感词是指文本中涉及违犯法律、规定或者道德准则的词语的集合；敏感词集合存储于敏感词库中，敏感词库内的敏感词数量会随着更新不断累积。训练样本是指包含变形词的多个文本的集合；变形词全部存储于变形字库中；训练样本中的变形词为确定的，从而可以进行变形词基于上下文概率的训练。

S102、根据所述敏感词进行语音和字形扩展得到变形词，并通过所述训练样本进行基于上下文概率的训练，得到n元语言模型；

变形词是指扩展后得到的变形字，再进行基于敏感词进行组词得到的词语；其可以为一个变形字和多个敏感字组成的词语，也可以全是由变形字组成的词语，与敏感词的词义一一对应即可。

如图2所示，在步骤S102中，语音的扩展包括以下步骤：

S201、提取所述敏感词的原始拼音，并据其关联得到类似发音的同音拼音；

S202、将所述同音拼音对应的同音词归为语音变形词的范畴。

原始拼音是指敏感词对应的汉语拼音；同音拼音是指根据原始拼音关联而来的类似发音的汉语拼音，类似发音可以是原始拼音本身(仅声调不一致)、平翘舌转换、前后鼻音转换等形式；比如：“微信”是敏感词库的一个词，变形字库里面加入“wei”、“xin”和“xing”，读音对应的敏感字分别是“微”、“信”和“信”；组成的同音词可以为“威信”、“卫星”以及“维心”等；上述同音词均可以作为变形词，对变形字库进行扩展。

如图3所示，在步骤S102中，字形的扩展包括以下步骤：

S301、对所述敏感词进行偏旁拆解，并获得偏旁变形词；

偏旁拆解后得到与敏感词中字对应的变形字，一个敏感字对应多个变形字，将这些变形字按照敏感词进行组词，得到偏旁变形词；偏旁变形词中可以仅包含一个变形字，也可以都为变形字。比如：对于敏感词“海淘”，拆解两个偏旁部首分别是“氵每”和“氵匋”。变形字库加入拆解结果以及对应的敏感字；再按照敏感词进行组词得到“氵每氵匋”或者“每匋”等偏旁变形词。

如图4所示，在步骤S301中，进行偏旁拆解包括以下步骤：

S401、建立偏旁拆解词典，并据其对所述敏感词进行偏旁拆解；

S402、确立偏旁拆解结果与敏感词中每个字间对应的关系。

偏旁拆解词典录入汉字中的各个偏旁，按照该词典将敏感词拆解为偏旁和偏旁以外的字形，并将拆解得到的变形字并入变形字库中，敏感词中的字和拆解得到的偏旁+偏旁以外的字形、偏旁以外的字形为对应的关系，即当变形字为偏旁以外的字形或偏旁+偏旁以外的字形时，可以关联到相应的敏感词，如此，可便于通过机器对变形词进行识别。

S302、对所述敏感词进行字形相似判断，并获得相似变形词。

相似判断后得到与敏感词中字对应的变形字，一个敏感字对应多个变形字，将这些变形字按照敏感词进行组词，得到相似变形词；相似变形词中可以仅包含一个变形字，也可以都为变形字；进一步的，字形相似判断是通过计算候选字和敏感字的笔顺的编辑距离值来衡量，获得的变形词在视觉上和原字比较相似。比如：对于敏感词“日本”，对其中一个或两个字的笔画数进行删减，对于“日”得到相似变形字“口”、“目”、“田”，对于“本”得到相似变形字“木”、“术”、“禾”等，再将上述的两个变形字或一个变形字和敏感词中的一个字进行任意组合，得到相似变形词。

如图5所示，在步骤S302中，进行字形相似判断包括以下步骤：

S501、通过英文字符对汉字笔画进行一一对应的定义；

在计算两个字的字形相似程度时，我们先对汉字中的每种笔画都定义为单个字母，包括点、横、竖、撇、捺、横折、横撇、撇折、横折折、横折钩、横折弯钩、横折折撇等。具体而言，“f”表示竖，“c”表示横折，“j”表示横，综上，依次用不同的单个英文字符表示笔画。

S502、根据所述敏感词中字的笔顺统计得到相应的英文字符；

根据一一对应的笔画和英文字符对所有敏感词中的每个字构建笔顺的词典，譬如“日”表示为“fcjj”，“口”字表示为“fcj”；如此，通过英文字符即表示了笔画，还表示了笔顺，从而可以确定一个敏感字，并且在该敏感字上增加或删减笔画等时，能够得到观感相似的变形字。

S503、根据所述相应的英文字符的个数和排列顺序，求得所述敏感词中字对应的编辑距离最小的变形字。

英文字符一一对应，可以表示笔画，英文字符的排列顺序可以表示笔顺，对敏感词中的每个字进行笔画的删减、增加等操作，得到编辑距离最小的变形字。编辑距离是指两个字符串之间，由一个转换成另外一个所需要的最少操作次数，允许的操作包括字符替换、增加字符、减少字符、颠倒字符。举例来讲，apple和apply的编辑距离是1，access和actress的编辑距离是2。

作文本实施例中优选的，通过编辑距离来计算两个字的相似程度，不过定义的操作和原始的编辑距离定义方法不同，此时的字到字之间的转换操作是在笔顺层面的，允许的操作包括笔顺替换、增加笔顺和减少笔顺。譬如说，“口”字的笔画顺序是“竖横折横”，“日”字的笔画顺序是“竖横折横横”,“口”字可以通过增加笔画“横”来转换成“日”字，所以编辑距离为1。

在一些实施例中，最小编辑距离按照敏感词而定，敏感词为“微信”时，对其中的“微”字进行相似变形扩展，“微”的笔顺表示为“ssffbfjspsjsl”，通过计算求得了编辑距离最小的变形字包括“溦”字和“徵”字，对应的笔顺表示分别为“kkifbfjspsjsl”和“ssffbfjjjfjsjsl”，他们和原字的编辑距离分别是3和3。

在一些实施例中，通过字形相似程度计算和敏感词中的字编辑距离小于设定的阈值(譬如说可以设定为3，根据实际情况而定)的变形字，加入到变形字库。

如图6所示，在步骤S102中，所述n元语言模型的获得包括以下步骤：

S601、对所述训练样本中对应的变形词w_k出现的频率进行统计；

S602、定义上下文窗口大小为K，并在所述上下文窗口范围内，对所述训练样本中对应的两个词w_i，w_k共同出现的频率进行统计；

P(W₁＝w₁...，W_k＝w_k...，W_K＝w_K)＝P(W_k＝w_k)*∏_i≠kP(W_i＝w_i|W_k＝w_k)，

其中，P(W_k＝w_k)＝c(w_k)/N，

统计训练样本中的每一个变形词出现的频率，并且在一定长度的上下文窗口内，统计和该变形词共同出现的词，以及在整个训练样本中共同出现的频率；统计完的结果，通过上述公式进行该变形词基于上下文概率的计算，得到一个n元语言模型。

在一些实施例中，设定上下文窗口大小是9，即是训练样本中的某个变形词前面和后面4个词的共现关系；计算流程如下：

S103、输入待检测文本，并根据所述敏感词和变形词对所述待检测文本进行识别；

待检测文本是指需要对其中的敏感词、变形词进行识别、验证的文档；通过调取敏感词库进行待检测文本中的敏感词的识别，通过调取变形词库进行待检测文本中的变形词的识别，具体识别方式如S701、S702。

如图7所示，在步骤S103中，对所述待检测文本进行识别包括以下步骤：

S701、遍历所述待检测文本，并根据其中的每个字构建候选变形字集合；

S702、从所述候选变形字集合中识别出与所述待检测文本中字一致的变形字，并据其关联到所述识别结果。

具体而言，针对待检测文本中的每个字，都从变形字库中搜寻到与某一个文本中的字对应的候选变形字集合，将变形字集合中的每一个变形字与待检测文本中的该文本字对比，若有类似的，则表明该文本字为变形字；按找上述方式对文本中的每个字都如此操作，得到文本变形字的集合，再根据文本顺序对变形字进行两两组合、拼接成文本变形词，最后根据文本变形词在变形字库中关联到相对应的字库变形词，则认为文本变形词为变形而来的；若在变形字库中未关联到相对应的字库变形词，则认为文本变形词为正常词语。识别结果是指判断为变形词的文本变形词的集合。可选的，在两两组合、拼接成文本变形词后，再根据其判断在敏感词库中是否能关联到相应的字库敏感词，若关联到，则判断为该文本变形词为变形而来。

在一些实施例中，如图12所示，遍历整个句子，通过变形字库查找获得可能是变形的字，包含了“叚”、“証”和“茄”字。对变形字两两组合进行拼接，并且从敏感词库中查找到“假证”是敏感词。

S104、将所述识别结果输入所述n元语言模型进行上下文语义验证。

如图8所示，在步骤S104中，进行上下文语义验证包括以下步骤：

S801、判断所述识别结果是否在n元语言模型中；

S802、若在，则筛选所述识别结果的上下文距离为m的邻近词，并进行验证计算：

举例而言，获得了识别结果w以及获取上下文距离为4以内的邻近词。如果变形词w不在n元语法模型的词典中，那么直接返回识别结果确认为变形词。如果变形词在n元语法模型的词典中，筛选出现在模型词典中的邻近词w1-w9，通过上述公式进行计算，计算结果小于设定的阈值那么判定识别结果确认为变形词，否则是正常词语。通过上下文语义进行了变形词的验证，避免误杀。

如图9所示，在步骤S104后，还包括以下步骤：

S901、输出语义验证结果，并周期性的将其输入所述训练样本中，得到更新样本；

S902、通过所更新样本对所述变形词进行基于上下文概率的训练。

周期性是指按照设定的周期将一个或多个已经验证过的待检测文本归入训练样本中；将验证后的待检测文本输入到训练样本中，使训练样本能够基于的内容不断的自动更新，在根据更新后的样本进行基于上下文概率的训练，从而能够获得精确性、鲁棒性较高的n元语言模型；随着文本的积累，再进行变形词的识别、判断时，具有更强的变形词识别、判断能力，误判的几率会随之不断减小。

如图10所示，为本发明实施例还提供的一种变形词的识别验证系统，包括：

获取单元，用以获取敏感词和训练样本；

以上只通过说明的方式描述了本发明的某些示范性实施例，毋庸置疑，对于本领域的普通技术人员，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式对所描述的实施例进行修正。因此，上述附图和描述在本质上是说明性的，不应理解为对本发明权利要求保护范围的限制。

Claims

1.一种变形词的识别验证方法，其特征在于，包括以下步骤：

获取敏感词和训练样本；

将所述识别结果输入所述n元语言模型进行上下文语义验证。

2.根据权利要求1所述的变形词的识别验证方法，其特征在于，语音的扩展包括以下步骤：

将所述同音拼音对应的同音词归为语音变形词的范畴。

3.根据权利要求1所述的变形词的识别验证方法，其特征在于，字形的扩展包括以下步骤：

对所述敏感词进行偏旁拆解，并获得偏旁变形词；

对所述敏感词进行字形相似判断，并获得相似变形词。

4.根据权利要求3所述的变形词的识别验证方法，其特征在于，进行偏旁拆解包括以下步骤：

建立偏旁拆解词典，并据其对所述敏感词进行偏旁拆解；

确立偏旁拆解结果与敏感词中每个字间对应的关系。

5.根据权利要求3所述的变形词的识别验证方法，其特征在于，进行字形相似判断包括以下步骤：

通过英文字符对汉字笔画进行一一对应的定义；

根据所述敏感词中字的笔顺统计得到相应的英文字符；

6.根据权利要求1所述的变形词的识别验证方法，其特征在于，所述n元语言模型的获得包括以下步骤：

对所述训练样本中对应的变形词w_k出现的频率进行统计；

其中，P(W_k＝w_k)＝c(w_k)/N，

7.根据权利要求1所述的变形词的识别验证方法，其特征在于，对所述待检测文本进行识别包括以下步骤：

8.根据权利要求1所述的变形词的识别验证方法，其特征在于，进行上下文语义验证包括以下步骤：

判断所述识别结果是否在n元语言模型中；

9.根据权利要求1所述的变形词的识别验证方法，其特征在于，得到变形词后还包括以下步骤：

通过所更新样本对所述变形词进行基于上下文概率的训练。

10.一种变形词的识别验证系统，其特征在于，包括：

获取单元，用以获取敏感词和训练样本；