CN111488732B - 一种变形关键词检测方法、系统及相关设备 - Google Patents

一种变形关键词检测方法、系统及相关设备 Download PDF

Info

Publication number
CN111488732B
CN111488732B CN201910075451.4A CN201910075451A CN111488732B CN 111488732 B CN111488732 B CN 111488732B CN 201910075451 A CN201910075451 A CN 201910075451A CN 111488732 B CN111488732 B CN 111488732B
Authority
CN
China
Prior art keywords
keywords
target
preset
deformed
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910075451.4A
Other languages
English (en)
Other versions
CN111488732A (zh
Inventor
杨荣海
王大伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201910075451.4A priority Critical patent/CN111488732B/zh
Publication of CN111488732A publication Critical patent/CN111488732A/zh
Application granted granted Critical
Publication of CN111488732B publication Critical patent/CN111488732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明实施例提供了一种变形关键词检测方法、系统及相关设备,用于提高变形关键词检测的效率及检出率。本发明实施例中,变形关键词检测系统采用预设语言模型对待检测文本进行初步筛选,只对合理性概率值小于第一阈值的目标句子进行进一步检测,大大减少了文本检测的计算量,提高了检测效率。其次,通过检测目标句子中文本的字形和/或发音与预置关键词的相似度,可以有效检测出预置关键词的可疑关键词,提高了形音字的检出率。最后,将目标句子中的可疑关键词替换为预置关键词生成还原文本,将还原文本输入预设语言模型,进行进一步的确认,若还原文本对应的合理性概率值不小于第一阈值,则判定待检测文本中存在变形关键词,提高了检测的准确率。

Description

一种变形关键词检测方法、系统及相关设备
技术领域
本发明涉及计算机信息处理技术领域,尤其涉及一种变形关键词检测方法、系统及相关设备。
背景技术
文本检测是一个非常重要的问题,经常被用在多个领域,如垃圾邮件、垃圾短信、网页篡改等。
传统的文本检测技术通常是对整个文本进行关键词匹配,例如根据字符串相似度算法判断原有关键词与变形词的距离。对整个文本进行关键词匹配,工作量大,检测效率低下。其次,为对抗检测,攻击者经常对关键词做变形,比如将“六合彩”变形为“六和彩”,以避开检测,导致检出率低。
有鉴于此,有必要提出一种新的检测文本的方法。
发明内容
本发明实施例提供了一种变形关键词检测方法、系统及相关设备,用于提高变形关键词检测的效率及检出率。
本发明实施例第一方面提供了一种变形关键词检测方法,其特征在于,包括:
将待检测文本输入预设语言模型中,得到所述待检测文本中每个句子的合理性概率值;
若所述待检测文本中存在目标句子,所述目标句子对应的合理性概率值小于第一阈值,则检测所述目标句子中是否存在可疑关键词,所述可疑关键词与预置关键词列表中的某一个预置关键词的字形和/或发音相似度超过第二阈值;
若存在所述可疑关键词,则将所述目标句子中的可疑关键词替换为预置关键词生成所述目标句子对应的还原文本;
判断所述还原文本对应的合理性概率值是否大于所述第一阈值,若大于,则判定所述待检测文本中存在变形关键词。
可选的,作为一种可能的实施例,本发明实施例中,所述检测所述目标句子中是否存在可疑关键词,包括:
采用滑动窗口机制从所述目标句子中依次截取预置数量的字符形成对应的字符串,并计算各个字符串与每个预置关键词的字形和/或发音的相似度;
判断是否存在目标滑动窗口,所述目标滑动窗口对应的字符串与某一个预置关键词的字形和/或发音的相似度超过所述第二阈值,若存在,则判定所述目标句子中是否存在可疑关键词。
可选的,作为一种可能的实施例,本发明实施例中,所述检测所述目标句子中是否存在变形关键词,包括:
遍历每个汉字,计算每个汉字与所述预置关键词列表中每个关键字在发音和/或字形上的相似度;
若存在目标汉字,所述目标汉字与所述预置关键词列表中目标关键字相似度不小于第三阈值,则将所述目标汉字作为所述目标关键字的形音字;
将所述目标关键词中的所述目标关键字替换为所述目标汉字,生成所述目标关键词对应的预置变形关键词,所有的预置变形关键词形成变形词库;
采用所述变形词库中的预置变形关键词对所述目标句子进行匹配,若匹配成功,则判定所述目标句子中存在可疑关键词。
可选的,作为一种可能的实施例,本发明实施例中,在采用所述变形词库中的预置变形关键词对所述目标句子进行匹配之前,所述方法还包括:
将所述变形词库中的预置变形关键词依次输入搜索引擎中进行搜索;
判断返回的搜索内容中含有对应的预置变形关键词的个数是否小于第四阈值,若小于,则从所述变形词库中删除对应的预置变形关键词。
本发明实施例第二方面提供了一种变形关键词检测系统,其特征在于,包括:
输入模块,用于将待检测文本输入预设语言模型中,得到所述待检测文本中每个句子的合理性概率值;
第一判断模块,用于判断所述待检测文本中存在目标句子,所述目标句子对应的合理性概率值小于第一阈值;
检测模块,用于检测所述目标句子中是否存在可疑关键词,所述可疑关键词与预置关键词列表中的某一个预置关键词的字形和/或发音相似度超过第二阈值;
还原模块,若存在所述可疑关键词,则将所述目标句子中的可疑关键词替换为预置关键词生成所述目标句子对应的还原文本;
第二判断模块,用于判断所述还原文本对应的合理性概率值是否大于所述第一阈值,若大于,则判定所述待检测文本中存在变形关键词。
可选的,作为一种可能的实施例,本发明实施例中,所述检测模块包括:
第一计算单元,用于采用滑动窗口机制从所述目标句子中依次截取预置数量的字符形成对应的字符串,并计算各个字符串与每个预置关键词的字形和/或发音的相似度;
判断单元,判断是否存在目标滑动窗口,所述目标滑动窗口对应的字符串与某一个预置关键词的字形和/或发音的相似度超过所述第二阈值,若存在,则判定所述目标句子中是否存在可疑关键词。
可选的,作为一种可能的实施例,本发明实施例中,所述检测模块包括:
第二计算单元,用于遍历每个汉字,计算每个汉字与所述预置关键词列表中每个关键字在发音和/或字形上的相似度;
识别单元,若存在目标汉字,所述目标汉字与所述预置关键词列表中目标关键字相似度不小于第三阈值,则将所述目标汉字作为所述目标关键字的形音字;
生成单元,用于将所述目标关键词中的所述目标关键字替换为所述目标汉字,生成所述目标关键词对应的预置变形关键词,所有的预置变形关键词形成变形词库;
匹配单元,采用所述变形词库中的预置变形关键词对所述目标句子进行匹配,若匹配成功,则判定所述目标句子中存在可疑关键词。
可选的,作为一种可能的实施例,本发明实施例中的变形关键词检测系统还包括:
第二输入模块,用于将所述变形词库中的预置变形关键词依次输入搜索引擎中进行搜索;
删除模块,用于判断返回的搜索内容中含有对应的预置变形关键词的个数是否小于第四阈值,若小于,则从所述变形词库中删除对应的预置变形关键词。
本发明实施例第三方面提供了一种计算机装置,其特征在于,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如第一方面及第一方面中任意一项可能的实施方式中的步骤。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如第一方面及第一方面中任意一项可能的实施方式中的步骤。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,变形关键词检测系统采用预设语言模型对待检测文本中每个句子进行初步筛选,只对待检测文本中合理性概率值小于第一阈值的目标句子进行进一步检测,大大减少了文本检测的计算量,提高了检测效率。其次,通过检测目标句子中是否存在与某一个预置关键词的字形和/或发音相似度超过第二阈值的可疑关键词,可以有效检测出预置关键词的变形,提高了形音字的检出率。最后,若检测出可疑关键词,则将目标句子中的可疑关键词替换为预置关键词生成还原文本,将还原文本输入预设语言模型,进行进一步的确认,若还原文本对应的合理性概率值不小于第一阈值,则判定待检测文本中存在变形关键词,提高了检测的准确率。
附图说明
图1为本发明实施例中一种变形关键词检测方法的一个实施例示意图;
图2为本发明实施例一种变形关键词检测方法中检测目标句子中是否存在可疑关键词的一个流程示意图;
图3为本发明实施例一种变形关键词检测方法中检测目标句子中是否存在可疑关键词的另一个流程示意图;
图4为本发明实施例中一种变形关键词检测系统的一个实施例示意图;
图5为本发明实施例中一种变形关键词检测系统的另一个实施例示意图;
图6为本发明实施例中一种变形关键词检测系统的另一个实施例示意图;
图7为本发明实施例中一种变形关键词检测系统的另一个实施例示意图;
图8为本发明实施例中一种计算机装置的一个实施例示意图。
具体实施方式
本发明实施例提供了一种变形关键词检测方法、系统及相关设备,用于提高变形关键词检测的效率及检出率。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
基于关键词对文本进行检测,是一个非常重要的问题,经常被用在多个领域,如垃圾邮件、垃圾短信、网页篡改等。为对抗检测,攻击者经常对关键词做变形,如用音近字、形近字来替代关键词。一个例子为,将关键词“六合彩”变形为“六和采”,或者是使用火星文等来替代正常文本。我们将这类变化字形或者发音的字称为形音字。
针对上述方案的不足,本发明提出了一种基于语言模型及形音字识别相结合的方案。方案利用语言模型,学习各个词语在正常文本中的上下文特征。通过这个语言模型,判断句子的通顺程度。对于通顺程度小于设定阈值的语句,进行形音字离。本方案能够判断文本中是否存在精心设计的关键词形音字,同时也能够自动生成关键词的各种变形,提高了关键词识别的效率及准确度。该方案能够用在垃圾短信、网页篡改、垃圾邮件等场景中的关键词识别。
本发明实施例中涉及语言模型的应用,为了便于理解,下面将对语言模型进行简单说明。假定某个语言所有可能存在的句子符合一个概率分布。语言模型的任务是对这种潜在的概率分布建模,以计算每个句子在该语言中出现的概率。良好的语言模型应给符合语言表达习惯的句子分配较高的概率,而给错误的句子接近于0的概率。现有的语言模型可以基于RNN(循环神经网络)、LSTM(长短期记忆网络),BERT模型等实现。不同的语言模型代表着语言的不同建模方式。以下使用一种基于循环神经网络(RNN)的语言模型作为本发明的一种实施例。
本发明实施例中仅以循环神经网络实现语言模型为例,对语言模型进行说明。对于一个由T个词按顺序构成的句子S,设S=(w1,w2,…,wT),其中w是句子S中的词语。假定输入为S=(w1,w2,…,wT),定义RNN的第t个输出为其中|v|为语料单词表的大小,/>代表句子S的第t个词是词表中第j个词的概率。本发明实施例中的语言模型分为三层:
嵌入层:利用词向量技术,如word2vec,将词wi映射成向量xi
RNN层:计算(y1,y2,…yT)=RNN(x1,x2,…xT);
输出层:
语言模型计算概率P(S)=P(w1,w2,…wT),这个概率被定义为句子S是一个符合某种语言(如中文)的语言表达习惯的句子的概率,它可以按照条件概率链式展开为,P(w1,w2…wT)=P(w1)P(w2|w1)P(w3|w1w2)…P(wT|w1…wT-1)。当S是一个异常的、不符合语言表达习惯的句子时,语言模型输出的概率满足P(S)≈0。
为了便于理解,下面对本发明实施例中的具体流程进行描述,请参阅图1,本发明实施例中一种识别关键词形音字的方法的一个实施例可包括:
101、将待检测文本输入预设语言模型中,得到待检测文本中每个句子的合理性概率值;
实际运用中,文本的篡改只是存在于整个文本的一部分,为了提高检测效率,可以预先对待检测文本进行初步过滤。可选的,本发明实施例中可以预设语言模型,收集训练文本来训练语言模型,其中训练文本包括正常文本如中文维基语料,以及含有关键词的文本。要注意的是,后者不能含有关键词形音字的变形。关键词文本的一种获取方法是使用网络爬虫,抓取与关键词相关的恶意网页,对语料做分句处理,然后对每句话S做分词,根据S中各个词语在训练语料中出现的次数,训练语言模型,用于计算P(S)。对于未出现在训练语料中的词语,可以使用各种平滑技术,如拉普拉斯平滑。设定一个置信度Q若待检测文本的P(S)小于预先设定的置信度Q,则认为这句话不通顺,可能含有关键词形音字,进入形音字模块做过滤。若P(S)大于置信度Q,则认为这句话较为通顺,不包含形音字。
在获取到待检测文本之后,变形关键词检测系统可以将待检测文本输入预设语言模型中,进行分句处理,指根据文本中的标点符号(可以是逗号、句号或多个连续空格等)将语料划分为多个句子,并计算待检测文本中每个句子的合理性概率值。
102、若待检测文本中存在目标句子,则检测目标句子中是否存在可疑关键词;
在得到待检测文本中每个句子的合理性概率值之后,对于合理性概率值小于第一阈值的目标句子进行进一步检测。具体的,变形关键词检测系统可以基于字形和/或发音相似度,检测目标句子中是否存在可疑关键词,其中该可疑关键词与预置关键词列表中的某一个预置关键词的相似度超过第二阈值,具体的阈值设定可以根据用户的需求进行合理的设定,具体此处不做限定。
其中,预置关键词列表中包含用户想要检测的关键词,预置关键词列表可以由人工提供,或者由其他可行方式获得,例如可以从互联网中采集现有的检测方案中设置关键词,具体此处不做限定。
103、若目标句子中存在可疑关键词,则将目标句子中的可疑关键词替换为预置关键词生成目标句子对应的还原文本;
在检测出可疑关键词之后,为了防止误检,变形关键词检测系统可以将目标句子中的可疑关键词替换为预置关键词生成目标句子对应的还原文本,根据还原文本判断是否误检。
104、判断还原文本对应的合理性概率值是否大于第一阈值,若大于,则判定待检测文本中存在变形关键词。
为了防止误检,变形关键词检测系统可以将还原文本输入预设语言模型,得到还原文本的合理性概率值,根据输出的概率值判断是否误检。
若还原文本对应的合理性概率值不小于第一阈值,则说明还原文本是通顺的句子,而还原文本对应的目标句子却是不通顺的,说明目标句子中存在篡改,即待检测文本中存在变形关键词。
本发明实施例中,变形关键词检测系统采用预设语言模型对待检测文本中每个句子进行初步筛选,只对待检测文本中合理性概率值小于第一阈值的目标句子进行进一步检测,大大减少了文本检测的计算量,提高了检测效率。其次,通过检测目标句子中是否存在与某一个预置关键词的字形和/或发音相似度超过第二阈值的可疑关键词,可以有效检测出预置关键词的变形,提高了形音字的检出率。最后,若检测出可疑关键词,则将目标句子中的可疑关键词替换为预置关键词生成还原文本,将还原文本输入预设语言模型,进行进一步的确认,若还原文本对应的合理性概率值不小于第一阈值,则判定待检测文本中存在变形关键词,提高了检测的准确率。
实际运用中对于检测目标句子中是否存在可疑关键词的过程,可以分为两种方式,下面将分别进行说明。
请参阅图2,在上述图1所示的实施例的基础上,本发明实施例中检测目标句子中是否存在可疑关键词的流程可包括:
201、采用滑动窗口机制从目标句子中依次截取预置数量的字符形成对应的字符串,并计算各个字符串与每个预置关键词的字形和/或发音的相似度;
可选的,作为一种可能的实施方式,本发明实施例中变形关键词检测系统可以采用滑动窗口机制从目标句子中依次截取预置数量的字符形成对应的字符串,并计算各个字符串与每个预置关键词的字形和/或发音的相似度。
具体的,字形相似度可以基于如下三种方式:
1、四角编码。采用成熟的四角编码方式,取汉字的左上角,右上角,左下角以及右下角四个角的笔形,将汉字编码成阿拉伯数字。转换后,再对四角编码的相似度进行计算,便可以得出两个汉字在字形上的相似程度,用sim_corner表示。四角编码在一定程度上能够反映汉字的字形结构,但是有些外形截然不同的汉字,因为其四角结构相同,这些汉字也会拥有相同的四角编码,如“量”与“日”的四角编码均为6010。
2、字体结构。根据汉字的不同结构,用一个字符来表示该汉字的结构(如两个字是否为上下结构,左右结构等),进一步来区分字形。比如“你”和“好”都是左右结构,那么字体结构就相同;
3、图像相似度。将待检测汉字与敏感词转化为黑白图像。然后判断相同像素的比例,作为其相似度。
对于发音相似度的计算过程可以是,先将汉字转化成其对应的拼音,再进行传统的相似度匹配算法如Levenshtein算法,来比较变形词与关键词在发音上的相似度。使用本技术,当攻击者将“六合彩”变形为“六和采”时,其拼音一致,因此相似度为100%。
可以理解的是,上述字形相似度和发音相似度计算方式,仅仅是示例性的,实际运用中还可以基于其他方式计算字形的相似度,具体此处不做限定。
202、判断是否存在目标滑动窗口,若存在,则判定目标句子中存在可疑关键词。
本发明实施例中可以单独采用字形的相似度或发音的相似度,来确定目标滑动窗口对应的字符串与某一个预置关键词的相似度,还可以同时采用相似度和发音的相似度,来确定目标滑动窗口对应的字符串与某一个预置关键词的相似度,例如可以设置字形相似度超过预先设定的第二阈值,那么就直接加入;如果发音相似度超过音近第二阈值a1,同时自行相似度超过另一个第二阈值a2,那么目标滑动窗口对应的字符串与预置关键词的相似度超过第二阈值,其中a1与a2可以相同也可不同,具体的可疑关键词的识别逻辑此处不做限定。
若目标滑动窗口对应的字符串与某一个预置关键词的字形和/或发音的相似度超过第二阈值,则判定目标句子中是否存在可疑关键词。
请参阅图3,本发明实施例中检测目标句子中是否存在可疑关键词的流程可包括:
301、遍历每个汉字,计算每个汉字与预置关键词列表中每个关键字在发音和/或字形上的相似度;
在获取到预置关键词列表之后,变形关键词检测系统可以基于该预置关键词列表中的关键词建立变形词库。首先,变形关键词检测系统遍历每个汉字,计算每个汉字与预置关键词列表中每个关键字在发音和/或字形上的相似度,可以将每个汉字与预置关键词列表中每个关键字在发音和/或字形上的相似度作为两个字之间的相似度,具体的发音和/或字形上的相似度的计算方式可以参照图2所示的实施例中步骤201中所示的方法,此处不做赘述。
302、若存在目标汉字,目标汉字与预置关键词列表中目标关键字相似度不小于第三阈值,则将目标汉字作为目标关键字的形音字;
在遍历每个汉字的过程中,若存在与预置关键词列表中目标关键字相似度不小于第三阈值的目标汉字,则将目标汉字作为目标关键字的形音字,可以理解的是,预置关键词中的一个关键字可以有一个或多个形音字。
303、将目标关键词中的目标关键字替换为目标汉字,生成目标关键词对应的预置变形关键词,所有的预置变形关键词形成变形词库;
变形关键词检测系统可以将目标关键词中的目标关键字替换为目标汉字,生成目标关键词对应的预置变形关键词,所有的预置变形关键词形成变形词库。
304、采用变形词库中的预置变形关键词对目标句子进行匹配,若匹配成功,则判定目标句子中存在可疑关键词;
变形关键词检测系统可以采用变形词库中的预置变形关键词对目标句子进行匹配,若匹配成功,则判定目标句子中存在可疑关键词。具体的,变形关键词检测系统可以采用滑动窗口机制采集预置长度的字符串与变形词库中的预置变形关键词进行匹配,匹配成功,则判定目标句子中存在可疑关键词。
305、将变形词库中的预置变形关键词依次输入搜索引擎中进行搜索;
可选的,在上述步骤的基础上,当变形词库中的预置变形关键词较多时,为了提高检测效率,可以对变形词库进行过滤。作为一种可能的实施方式,变形关键词检测系统可以将变形词库中的预置变形关键词依次输入搜索引擎中进行搜索,根据搜索的结果对变形词库中的预置变形关键词进行过滤。
306、判断返回的搜索内容中含有对应的预置变形关键词的个数是否小于第四阈值,若小于,则从变形词库中删除对应的预置变形关键词。
对预置变形关键词进行搜索之后,可以确定每一条搜索结果中是否包含对应的预置变形关键词,变形关键词检测系统可以判断返回的搜索内容中含有对应的预置变形关键词的个数是否小于第四阈值;若小于,则说明该预置变形关键词使用率很低,可以从变形词库中删除对应的预置变形关键词;若大于,说明该预置变形关键词使用率高,可以保留该预置变形关键词。具体的第四阈值可以是1以及大于1的自然数,具体可以根据实际情况进行合理的调整,具体此处不做限定。
可以理解的是,在本发明的各种实施例中,上述各步骤的序号的大小并不意味着执行顺序的先后,各步骤的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
请参阅图4,本发明实施例还提供了一种变形关键词检测系统,本发明实施例中一种变形关键词检测系统的一个实施例可包括:
第一输入模块401,用于将待检测文本输入预设语言模型中,得到待检测文本中每个句子的合理性概率值;
第一判断模块402,用于判断待检测文本中存在目标句子,目标句子对应的合理性概率值小于第一阈值;
检测模块403,用于检测目标句子中是否存在可疑关键词,可疑关键词与预置关键词列表中的某一个预置关键词的字形和/或发音相似度超过第二阈值;
还原模块404,若存在可疑关键词,则将目标句子中的可疑关键词替换为预置关键词生成目标句子对应的还原文本;
第二判断模块405,用于判断所述还原文本对应的合理性概率值是否大于所述第一阈值,若大于,则判定所述待检测文本中存在变形关键词。
可选的,请参阅图5,作为一种可能的实施方式,本发明实施例中的检测模块403包括:
第一计算单元4031,用于采用滑动窗口机制从目标句子中依次截取预置数量的字符形成对应的字符串,并计算各个字符串与每个预置关键词的字形和/或发音的相似度;
判断单元4032,判断是否存在目标滑动窗口,目标滑动窗口对应的字符串与某一个预置关键词的字形和/或发音的相似度超过第二阈值,若存在,则判定目标句子中存在可疑关键词。
可选的,请参阅图6,作为一种可能的实施方式,本发明实施例中的检测模块403包括:
第二计算单元4033,用于遍历每个汉字,计算每个汉字与预置关键词列表中每个关键字在发音和/或字形上的相似度;
识别单元404,若存在目标汉字,目标汉字与预置关键词列表中目标关键字相似度不小于第三阈值,则将目标汉字作为目标关键字的形音字;
生成单元4035,用于将目标关键词中的目标关键字替换为目标汉字,生成目标关键词对应的预置变形关键词,所有的预置变形关键词形成变形词库;
匹配单元4036,采用所述变形词库中的预置变形关键词对所述目标句子进行匹配,若匹配成功,则判定所述目标句子中存在可疑关键词。
可选的,请参阅图7,作为一种可能的实施方式,本发明实施例中的变形关键词检测系统还包括:
第二输入模块406,用于将变形词库中的预置变形关键词依次输入搜索引擎中进行搜索;
删除模块407,用于判断返回的搜索内容中含有对应的预置变形关键词的个数是否小于第四阈值,若小于,则从变形词库中删除对应的预置变形关键词。
本发明实施例中,变形关键词检测系统采用预设语言模型对待检测文本中每个句子进行初步筛选,只对待检测文本中合理性概率值小于第一阈值的目标句子进行进一步检测,大大减少了文本检测的计算量,提高了检测效率。其次,检测目标句子中是否存在与预置关键词的字形和/或发音相似度超过第二阈值的可疑关键词,可以有效检测出预置关键词的变形,提高了形音字的检出率。最后,若检测出可疑关键词,则将目标句子中的可疑关键词替换为预置关键词生成还原文本,将还原文本输入预设语言模型,进行进一步的确认,若还原文本对应的合理性概率值不小于第一阈值,则判定待检测文本中存在变形关键词,提高了检测的准确率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上面从模块化功能实体的角度对本发明实施例中的检测系统进行了描述,下面从硬件处理的角度对本发明实施例中的计算机装置进行描述:
本发明实施例还提供了一种计算机装置8,如图8所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机装置8一般指服务器等处理能力较强的计算机设备。
参考图8,计算机装置8包括:电源810、存储器820、处理器830、有线或无线网络接口840以及存储在存储器中并可在处理器上运行的计算机程序。处理器执行计算机程序时实现上述各个变形关键词检测方法实施例中的步骤,例如图1所示的步骤101至104。或者,处理器执行计算机程序时实现上述各装置实施例中各模块或单元的功能。
本发明的一些实施例中,处理器具体用于实现如下步骤:
将待检测文本输入预设语言模型中,得到待检测文本中每个句子的合理性概率值;
若待检测文本中存在目标句子,目标句子对应的合理性概率值小于第一阈值,则检测目标句子中是否存在可疑关键词,可疑关键词与预置关键词列表中的某一个预置关键词的字形和/或发音相似度超过第二阈值;
若存在可疑关键词,则将目标句子中的可疑关键词替换为预置关键词生成目标句子对应的还原文本;
判断还原文本对应的合理性概率值是否大于第一阈值,若大于,则判定待检测文本中存在变形关键词。
可选的,本发明的一些实施例中,处理器还可以用于实现如下步骤:
采用滑动窗口机制从目标句子中依次截取预置数量的字符形成对应的字符串,并计算各个字符串与每个预置关键词的字形和/或发音的相似度;
判断是否存在目标滑动窗口,目标滑动窗口对应的字符串与某一个预置关键词的字形和/或发音的相似度超过第二阈值,若存在,则判定目标句子中存在可疑关键词。
可选的,本发明的一些实施例中,处理器还可以用于实现如下步骤:
遍历每个汉字,计算每个汉字与预置关键词列表中每个关键字在发音和/或字形上的相似度;
若存在目标汉字,目标汉字与预置关键词列表中目标关键字相似度不小于第三阈值,则将目标汉字作为目标关键字的形音字;
将目标关键词中的目标关键字替换为目标汉字,生成目标关键词对应的预置变形关键词,所有的预置变形关键词形成变形词库;
采用变形词库中的预置变形关键词对目标句子进行匹配,若匹配成功,则判定目标句子中存在可疑关键词。
可选的,本发明的一些实施例中,处理器还可以用于实现如下步骤:
将变形词库中的预置变形关键词依次输入搜索引擎中进行搜索;
判断返回的搜索内容中含有对应的预置变形关键词的个数是否小于第四阈值,若小于,则从变形词库中删除对应的预置变形关键词。
计算机装置8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器中,并由处理器执行。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。
本领域技术人员可以理解,图8中示出的结构并不构成对计算机装置8的限定,计算机装置8可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,例如计算机装置还可以包括输入输出设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,可以实现如下步骤:
将待检测文本输入预设语言模型中,得到待检测文本中每个句子的合理性概率值;
若待检测文本中存在目标句子,目标句子对应的合理性概率值小于第一阈值,则检测目标句子中是否存在可疑关键词,可疑关键词与预置关键词列表中的某一个预置关键词的字形和/或发音相似度超过第二阈值;
若存在可疑关键词,则将目标句子中的可疑关键词替换为预置关键词生成目标句子对应的还原文本;
判断还原文本对应的合理性概率值是否大于第一阈值,若大于,则判定待检测文本中存在变形关键词。
可选的,本发明的一些实施例中,处理器还可以用于实现如下步骤:
采用滑动窗口机制从目标句子中依次截取预置数量的字符形成对应的字符串,并计算各个字符串与每个预置关键词的字形和/或发音的相似度;
判断是否存在目标滑动窗口,目标滑动窗口对应的字符串与某一个预置关键词的字形和/或发音的相似度超过第二阈值,若存在,则判定目标句子中存在可疑关键词。
可选的,本发明的一些实施例中,处理器还可以用于实现如下步骤:
遍历每个汉字,计算每个汉字与预置关键词列表中每个关键字在发音和/或字形上的相似度;
若存在目标汉字,目标汉字与预置关键词列表中目标关键字相似度不小于第三阈值,则将目标汉字作为目标关键字的形音字;
将目标关键词中的目标关键字替换为目标汉字,生成目标关键词对应的预置变形关键词,所有的预置变形关键词形成变形词库;
采用变形词库中的预置变形关键词对目标句子进行匹配,若匹配成功,则判定目标句子中存在可疑关键词。
可选的,本发明的一些实施例中,处理器还可以用于实现如下步骤:
将变形词库中的预置变形关键词依次输入搜索引擎中进行搜索;
判断返回的搜索内容中含有对应的预置变形关键词的个数是否小于第四阈值,若小于,则从变形词库中删除对应的预置变形关键词。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种变形关键词检测方法,其特征在于,包括:
将待检测文本输入预设语言模型中,得到所述待检测文本中每个句子的合理性概率值;
若所述待检测文本中存在目标句子,所述目标句子对应的合理性概率值小于第一阈值,则检测所述目标句子中是否存在可疑关键词,所述可疑关键词与预置关键词列表中的某一个预置关键词的字形和/或发音相似度超过第二阈值;
若存在所述可疑关键词,则将所述目标句子中的可疑关键词替换为预置关键词生成所述目标句子对应的还原文本;
判断所述还原文本所对应的合理性概率值是否大于所述第一阈值,若大于,则判定所述待检测文本中存在变形关键词;
所述检测所述目标句子中是否存在可疑关键词,包括:
采用滑动窗口机制从所述目标句子中依次截取预置数量的字符形成对应的字符串,并计算各个字符串与每个预置关键词的字形和/或发音的相似度;
判断是否存在目标滑动窗口,所述目标滑动窗口对应的字符串与某一个预置关键词的字形和/或发音的相似度超过所述第二阈值,若存在,则判定所述目标句子中是否存在可疑关键词;
所述检测所述目标句子中是否存在可疑关键词,包括:
遍历每个汉字,计算每个汉字与所述预置关键词列表中每个关键字在发音和/或字形上的相似度;
若存在目标汉字,所述目标汉字与所述预置关键词列表中目标关键字相似度不小于第三阈值,则将所述目标汉字作为所述目标关键字的形音字;
将所述目标关键词中的所述目标关键字替换为所述目标汉字,生成所述目标关键词对应的预置变形关键词,所有的预置变形关键词形成变形词库;
采用所述变形词库中的预置变形关键词对所述目标句子进行匹配,若匹配成功,则判定所述目标句子中存在可疑关键词。
2.根据权利要求1所述的方法,其特征在于,在采用所述变形词库中的预置变形关键词对所述目标句子进行匹配之前,所述方法还包括:
将所述变形词库中的预置变形关键词依次输入搜索引擎中进行搜索;
判断返回的搜索内容中含有对应的预置变形关键词的个数是否小于第四阈值,若小于,则从所述变形词库中删除对应的预置变形关键词。
3.一种变形关键词检测系统,其特征在于,包括:
第一输入模块,用于将待检测文本输入预设语言模型中,得到所述待检测文本中每个句子的合理性概率值;
第一判断模块,用于判断所述待检测文本中存在目标句子,所述目标句子对应的合理性概率值小于第一阈值;
检测模块,用于检测所述目标句子中是否存在可疑关键词,所述可疑关键词与预置关键词列表中的某一个预置关键词的字形和/或发音相似度超过第二阈值;
还原模块,若存在所述可疑关键词,则将所述目标句子中的可疑关键词替换为预置关键词生成所述目标句子对应的还原文本;
第二判断模块,用于判断所述还原文本所对应的合理性概率值是否大于所述第一阈值,若大于,则判定所述待检测文本中存在变形关键词;
第一计算单元,用于采用滑动窗口机制从所述目标句子中依次截取预置数量的字符形成对应的字符串,并计算各个字符串与每个预置关键词的字形和/或发音的相似度;
判断单元,判断是否存在目标滑动窗口,所述目标滑动窗口对应的字符串与某一个预置关键词的字形和/或发音的相似度超过所述第二阈值,若存在,则判定所述目标句子中是否存在可疑关键词;
所述检测模块包括:
第二计算单元,用于遍历每个汉字,计算每个汉字与所述预置关键词列表中每个关键字在发音和/或字形上的相似度;
识别单元,若存在目标汉字,所述目标汉字与所述预置关键词列表中目标关键字相似度不小于第三阈值,则将所述目标汉字作为所述目标关键字的形音字;
生成单元,用于将所述目标关键词中的所述目标关键字替换为所述目标汉字,生成所述目标关键词对应的预置变形关键词,所有的预置变形关键词形成变形词库;
匹配单元,采用所述变形词库中的预置变形关键词对所述目标句子进行匹配,若匹配成功,则判定所述目标句子中存在可疑关键词。
4.根据权利要求3所述的系统,其特征在于,还包括:
第二输入模块,用于将所述变形词库中的预置变形关键词依次输入搜索引擎中进行搜索;
删除模块,用于判断返回的搜索内容中含有对应的预置变形关键词的个数是否小于第四阈值,若小于,则从所述变形词库中删除对应的预置变形关键词。
5.一种计算机装置,其特征在于,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至2中任意一项所述方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至2中任意一项所述方法的步骤。
CN201910075451.4A 2019-01-25 2019-01-25 一种变形关键词检测方法、系统及相关设备 Active CN111488732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910075451.4A CN111488732B (zh) 2019-01-25 2019-01-25 一种变形关键词检测方法、系统及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910075451.4A CN111488732B (zh) 2019-01-25 2019-01-25 一种变形关键词检测方法、系统及相关设备

Publications (2)

Publication Number Publication Date
CN111488732A CN111488732A (zh) 2020-08-04
CN111488732B true CN111488732B (zh) 2024-04-09

Family

ID=71811456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910075451.4A Active CN111488732B (zh) 2019-01-25 2019-01-25 一种变形关键词检测方法、系统及相关设备

Country Status (1)

Country Link
CN (1) CN111488732B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112564988B (zh) * 2021-02-19 2021-06-18 腾讯科技(深圳)有限公司 告警处理方法、装置及电子设备
CN112817996A (zh) * 2021-02-23 2021-05-18 杭州安恒信息技术股份有限公司 一种违法关键词库的更新方法、装置、设备及存储介质
CN113486656B (zh) * 2021-07-16 2023-11-10 支付宝(杭州)信息技术有限公司 一种语料生成方法及装置
CN113591464B (zh) * 2021-07-28 2022-06-10 百度在线网络技术(北京)有限公司 变体文本检测方法、模型训练方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101729520A (zh) * 2008-10-28 2010-06-09 北京大学 敏感信息的检测方法及装置
CN107122346A (zh) * 2016-12-28 2017-09-01 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置
CN107357778A (zh) * 2017-06-22 2017-11-17 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN108804414A (zh) * 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 文本修正方法、装置、智能设备及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140214401A1 (en) * 2013-01-29 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101729520A (zh) * 2008-10-28 2010-06-09 北京大学 敏感信息的检测方法及装置
CN107122346A (zh) * 2016-12-28 2017-09-01 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置
CN107357778A (zh) * 2017-06-22 2017-11-17 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN108804414A (zh) * 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 文本修正方法、装置、智能设备及可读存储介质

Also Published As

Publication number Publication date
CN111488732A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN108984530B (zh) 一种网络敏感内容的检测方法及检测系统
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
Harouni et al. Online Persian/Arabic script classification without contextual information
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
RU2757713C1 (ru) Распознавание рукописного текста посредством нейронных сетей
WO2019246294A1 (en) Methods, devices and systems for data augmentation to improve fraud detection
CN106127222B (zh) 一种基于视觉的字符串相似度计算方法及相似性判断方法
CA3168501A1 (en) Machine learned structured data extraction from document image
AU2019419891B2 (en) System and method for spatial encoding and feature generators for enhancing information extraction
CN113159013B (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
Suo et al. A simple and robust correlation filtering method for text-based person search
CN111783767A (zh) 文字识别方法、装置、电子设备及存储介质
CN111401099A (zh) 文本识别方法、装置以及存储介质
WO2021236269A1 (en) Text recognition for a neural network
CN115374325A (zh) 网站分类方法、装置、分类设备及存储介质
Mohammad et al. Contour-based character segmentation for printed Arabic text with diacritics
CN112749639B (zh) 模型训练方法、装置、计算机设备和存储介质
EP4060526A1 (en) Text processing method and device
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN109511000B (zh) 弹幕类别确定方法、装置、设备及存储介质
Yasin et al. Transformer-Based Neural Machine Translation for Post-OCR Error Correction in Cursive Text
CN114821603B (zh) 票据识别方法、装置、电子设备以及存储介质
US20230376687A1 (en) Multimodal extraction across multiple granularities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant