CN114091436B - 一种基于决策树及变体识别的敏感词检测方法 - Google Patents
一种基于决策树及变体识别的敏感词检测方法 Download PDFInfo
- Publication number
- CN114091436B CN114091436B CN202210072534.XA CN202210072534A CN114091436B CN 114091436 B CN114091436 B CN 114091436B CN 202210072534 A CN202210072534 A CN 202210072534A CN 114091436 B CN114091436 B CN 114091436B
- Authority
- CN
- China
- Prior art keywords
- word
- node
- decision tree
- sensitive
- pinyin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明属于自然语言处理技术领域,提供了一种基于决策树及变体识别的敏感词检测方法,方法如下,S1.构建敏感词词典并按预设周期更新,敏感词按照首字母顺序将汉字字形和对应的拼音添加至所述敏感词词典中,并根据敏感词词典构建决策树;S2.将文本输入至敏感词检测模型中,所述敏感词检测模型以所述决策树为基础通过匹配算法以及匹配标准检测文本中的敏感词,并对所述敏感词进行定位;通过本申请对字形与拼音的直接对比以及相似度对比,可有效解决未收入敏感词问题以及修改敏感词字形、拼音或英文来逃避检测的问题。
Description
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种基于决策树及变体识别的敏感词检测方法。
背景技术
随着互联网时代的发展与繁荣,海量网络资源使得人们获取信息、生活交流、消费理财等变得越来越方便快捷。但是人们在享受着互联网带来的便利的同时,也有不少人利用互联网信息传播快速广泛的特点,在网上发布各种色情、暴力、反动、迷信等非法信息,这给人们尤其是青少年带来了巨大的危害,也给社会带来了诸多的不良影响。
为了应对这种问题,不少的互联网公司以及公共信息管理部门,每时每刻都在对发布在互联网上的信息进行审查与过滤。但是由于互联网上的数据量庞大,人工审查费时费力,只能作为一种辅助手段,使用在文本内容十分严肃且重要的场合。因此基于自然语言处理的敏感信息文本自动检测方法成为研究热点。
现有的研究中,依然存在较多的问题需要解决,如仅对敏感词的汉字或拼音进行直接对比,对汉字和拼音的变体情况考虑较少,导致敏感词的过滤准确率较低等;本申请期望解决当前研究中较为突出的问题,提供一种敏感词查全率、查准率更高的方法。
发明内容
本发明的目的在于提供一种基于决策树及变体识别的敏感词检测方法,其通过对字形与拼音的直接对比以及相似度对比,有效解决未收入敏感词问题以及修改敏感词字形、拼音或英文来逃避检测的问题。
本发明的实施例通过以下技术方案实现:
一种基于决策树及变体识别的敏感词检测方法,包括如下步骤:
S1.构建敏感词词典并按预设周期更新,敏感词按照首字母顺序将汉字字形和对应的拼音添加至所述敏感词词典中,并根据敏感词词典构建决策树;
S2.将文本输入至敏感词检测模型中,所述敏感词检测模型以所述决策树为基础通过匹配算法以及匹配标准检测文本中的敏感词,并对所述敏感词进行定位。
进一步的,所述敏感词的定位具体为,所述敏感词的位置使用元组表示,所述元组的第一位为所述敏感词在文本中的起始位置,所述元组的第二位为所述敏感词在文本中的结束位置。
进一步的,所述敏感词定位后还包括,将所述敏感词与定位以字典的形式保存,其中所述字典的键值为所述敏感词,所述键值对应的值为对应所述敏感词的定位元组。
进一步的,所述决策树的结构具体为,通过类结构表示各节点,类中属性包括汉字字符、英文字符串、结束位、当前节点的下一级节点,所述汉字字符用于存储节点对应的汉字,所述英文字符串用于存储汉字的拼音和\或英文敏感词;类中的方法包括查找指定汉字的下一级节点以及查找指定拼音的下一级节点。
进一步的,所述根据敏感词构建决策树包括如下步骤:
S11.在决策树的根节点下构建二十六个目录节点,二十六个所述目录节点依次对应字母A至Z;
S12.根据所述敏感词的首字母进入至对应的所述目录节点中,构建首字母节点并插入目录节点中,进入首字母节点;
S13.遍历所述敏感词中的每一个字,若当前节点下未包含当前被判断字则进行步骤S14,否则进行步骤S15;
S14.将被判断字及其拼音作为内容构建子节点,插入当前节点的子节点集,若所述被判断字为所述敏感词的最后一个字,将节点结束位开启,结束遍历,否则进入该子节点并执行S13判断下一个字;
S15.进入当前子节点,若所述被判断字为所述敏感词的最后一个字,将节点结束位开启,结束遍历,否则继续执行S13判断下一个字。
进一步的,所述敏感词检测模型所采用的检测算法包括如下步骤:
S21. 以输入文本中首字或选择输入文本中的一个字作为起点进行判断;
S22.根据被判断字的首字母在所述决策树对应的目录节点下寻找对应的子节点,若在目录节点中寻找到对应的子节点则执行步骤S23,否则以当前被判断字之后的第一个字作为被判断字继续执行步骤S22直到遍历并判断完输入文本;
S23.进入匹配状态,保存被判断字在文本中的位置作为进入位置,并进入目录节点中对应的子节点,并以进入位置之后的第一个字作为被判断字;
S24.在当前子节点下,寻找被判断字对应的下一级子节点,若在当前子节点下寻找到对应的下一级子节点,进入步骤S25,否则退出所述匹配状态,返回所述进入位置,以进入位置之后的第一个字作为被判断字继续执行步骤S22;
S25.判断当前子节点中结束位是否开启,若结束位开启,则退出匹配状态并记录退出位置、敏感词以及位置信息,并以退出位置之后的第一个字作为被判断字执行步骤S22;否则以当前被判断字之后的第一个字作为被判断字继续执行步骤S24。
进一步的,所述位置信息包括进入位置信息与退出位置信息。
进一步的,所述S2中的匹配标准具体如下:
当待检测字符为汉字时,若能在决策树的节点中找到与其完全相同的汉字则匹配成功;若不能找到完全相同的汉字但在决策树的节点中找到完全相同的拼音则匹配成功;当汉字与拼音均不能匹配成功,则判断待检测字符与决策树的节点中汉字的字形相似度以及拼音的拼音相似度,若字形相似度与拼音相似度均高于预设阈值,则匹配成功;
当待检测字符为英文时,则将连续的英文字符构建为英文字符串进行匹配,若该英文字符串与决策树的节点中的拼音完全相同则匹配成功,否则判断该英文字符串与决策树的节点中拼音的拼音相似度,当拼音相似度高于预设阈值时则匹配成功。
进一步的,所述字形相似度的计算具体如式(1)所示,
其中,w1表示待检测汉字的拆分体,w2表示决策树的节点中汉字的拆分体,d为w1和w2的编辑距离。
进一步的,所述拼音相似度的计算具体如式(2)所示,
其中,p 1表示待检测汉字的拼音,p 2表示决策树的节点中汉字的拼音,D为p 1和p 2的编辑距离,D_final为p 1和p 2的韵母的编辑距离,当p 1和p 2的声母首字母相同时,x为0,不同时,x为1,α和β表示权重。
本发明实施例的技术方案至少具有如下优点和有益效果:
(1)本发明针对的传统DFA算法的状态存储进行了扩展,使用决策树存储DFA的每一个状态,决策树的目录节点可以快捷的定位到敏感词开始匹配的初始状态,不需要遍历整个DFA首状态,从而优化了算法的时间复杂度;
(2)对决策树的内容进行了扩展,传统决策树中,每个节点只包含了汉字没有拼音,针对目前互联网上常常使用同音字替换或者拼音替换来躲避敏感词检测的情况,我们在决策树的节点中增加了拼音信息,并且可以根据拼音来进行匹配,从而提高了敏感词检测的准确度;
(3)对敏感词匹配算法进行了扩展,现有敏感词匹配算法只是对汉字、拼音或英文进行直接对比,对汉字、拼音和英文的变体情况考虑不到位,而本发明设计出了针对汉字、拼音或英文变体的相似度计算算法,可以有效解决未收入敏感词问题以及修改敏感词字形、拼音或英文来逃避检测的问题。
附图说明
图1为本发明提供的基于决策树及变体识别的敏感词检测方法的流程示意图;
图2为本发明提供的基于决策树及变体识别的敏感词检测方法的决策树结构示意图;
图3为本发明提供的基于决策树及变体识别的敏感词检测方法中决策树构建过程的流程图;
图4为本发明提供的基于决策树及变体识别的敏感词检测方法中匹配算法的流程图;
图5为本发明提供的基于决策树及变体识别的敏感词检测方法中匹配标准的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
首先,对本申请中的敏感词与决策树做相关说明,具体如下:
敏感词的定位具体为,所述敏感词的位置使用元组表示,所述元组的第一位为所述敏感词在文本中的起始位置,所述元组的第二位为所述敏感词在文本中的结束位置。
敏感词定位后还包括,将所述敏感词与定位以字典的形式保存,其中所述字典的键值为所述敏感词,所述键值对应的值为对应所述敏感词的定位元组。
决策树的结构具体为,通过类结构表示各节点,类中属性包括汉字字符、英文字符串、结束位、当前节点的下一级节点,所述汉字字符用于存储节点对应的汉字,所述英文字符串用于存储汉字的拼音和\或英文敏感词;类中的方法包括查找指定汉字的下一级节点以及查找指定拼音的下一级节点。
需要说明的是,由于决策树的节点层级是根据敏感词长度所决定的,因此决策树的节点层级并不固定,所以在本申请中对各节点层级并不以第一节点层、第二节点层或第N节点层来命名,本申请中所描述的下一级节点都是基于当前所在节点的下一级节点。
由于现有技术中基本仅对敏感词的汉字或拼音进行直接对比,对汉字和拼音的变体情况考虑较少,导致敏感词的过滤准确率较低,以及修改敏感词字形、拼音或英文来逃避检测的问题。
因此本申请期望提供一种基于决策树及变体识别的敏感词检测方法来解决上述问题,如图1所示,该方法包括如下步骤:
S1.构建敏感词词典并按预设周期更新,敏感词按照首字母顺序将汉字字形和对应的拼音添加至所述敏感词词典中,并根据敏感词词典构建决策树。
如图2展示的决策树结构,本实施例中根据敏感词构建决策树具体包括如下步骤:
S11.在决策树的根节点下构建二十六个目录节点,二十六个所述目录节点依次对应字母A至Z;
S12.根据所述敏感词的首字母进入至对应的所述目录节点中,构建首字母节点并插入目录节点中,进入首字母节点;
S13.遍历所述敏感词中的每一个字,若当前节点下未包含当前被判断字则进行步骤S14,否则进行步骤S15;
S14.将被判断字及其拼音作为内容构建子节点,插入当前节点的子节点集,若所述被判断字为所述敏感词的最后一个字,将节点结束位开启,结束遍历,否则进入该子节点并执行S13判断下一个字;
S15.进入当前子节点,若所述被判断字为所述敏感词的最后一个字,将节点结束位开启,结束遍历,否则继续执行S13判断下一个字。
可以知晓的是,敏感词的更新同样采用上述步骤实现;本申请针对的传统DFA算法的状态存储进行了扩展,使用决策树存储DFA的每一个状态,决策树的目录节点可以快捷的定位到敏感词开始匹配的初始状态,不需要遍历整个DFA首状态,从而优化了算法的时间复杂度;另外在传统决策树中,每个节点只包含了汉字没有拼音,针对目前互联网上常常使用同音字替换或者拼音替换来躲避敏感词检测的情况,我们通过对决策树的内容进行扩展,在决策树的节点中增加了拼音信息,从而可以根据拼音来进行匹配,进而提高敏感词检测的准确度。
上述步骤的判断流程如图3所示。
S2.将文本输入至敏感词检测模型中,所述敏感词检测模型以所述决策树为基础通过匹配算法以及匹配标准检测文本中的敏感词,并对所述敏感词进行定位。
其中,敏感词检测模型所采用的检测算法包括如下步骤:
S21. 以输入文本中首字或选择输入文本中的一个字作为起点进行判断;
S22.根据被判断字的首字母在所述决策树对应的目录节点下寻找对应的子节点,若在目录节点中寻找到对应的子节点则执行步骤S23,否则以当前被判断字之后的第一个字作为被判断字继续执行步骤S22直到遍历并判断完输入文本;
S23.进入匹配状态,保存被判断字在文本中的位置作为进入位置,并进入目录节点中对应的子节点,并以进入位置之后的第一个字作为被判断字;
S24.在当前子节点下,寻找被判断字对应的下一级子节点,若在当前子节点下寻找到对应的下一级子节点,进入步骤S25,否则退出所述匹配状态,返回所述进入位置,以进入位置之后的第一个字作为被判断字继续执行步骤S22;
S25.判断当前子节点中结束位是否开启,若结束位开启,则退出匹配状态并记录退出位置、敏感词以及位置信息,并以退出位置之后的第一个字作为被判断字执行步骤S22;否则以当前被判断字之后的第一个字作为被判断字继续执行步骤S24。
需要明确的是,所述位置信息包括进入位置信息与退出位置信息。
上述步骤的匹配流程如图4所示。
匹配标准具体如下:
当待检测字符为汉字时,若能在决策树的节点中找到与其完全相同的汉字则匹配成功;若不能找到完全相同的汉字但在决策树的节点中找到完全相同的拼音则匹配成功;当汉字与拼音均不能匹配成功,则判断待检测字符与决策树的节点中汉字的字形相似度以及拼音的拼音相似度,若字形相似度与拼音相似度均高于预设阈值,则匹配成功;
当待检测字符为英文时,则将连续的英文字符构建为英文字符串进行匹配,若该英文字符串与决策树的节点中的拼音完全相同则匹配成功,否则判断该英文字符串与决策树的节点中拼音的拼音相似度,当拼音相似度高于预设阈值时则匹配成功。
现有敏感词匹配算法只是对汉字、拼音或英文进行直接对比,对汉字、拼音和英文的变体情况考虑不到位,而本发明通过对敏感词匹配算法进行扩展,设计出了针对汉字、拼音或英文变体的相似度计算算法,可以有效解决未收入敏感词问题以及修改敏感词字形、拼音或英文来逃避检测的问题。
上述具体的匹配标准逻辑流程如图5所示。
对于字形相似度的计算,具体如式(1)所示,
其中,w1表示待检测汉字的拆分体的长度,w2表示决策树的节点中汉字的拆分体的长度,d为w1和w2的编辑距离,max函数表示待检测汉字的拆分体的长度与决策树的节点中汉字的拆分体的长度中较大的数值。
其中编辑距离如式(3)所示;
其中,d[i][j]表示w1第i位与w2第j位的编辑距离,表示第i位待检测汉字的拆分体的长度,表示第j位决策树的节点中汉字的拆分体的长度,s为常数,当w1第i位和w2第j位相同时s取值为1,当w1第i位和w2第j位不同时s取值为0,当w1和w2的长度都为0时,它们的编辑距离为0,min函数表示w1前i-1位与w2前j位的编辑距离加1、w1前i位与w2前j-1位的编辑距离加1、w1前i-1位与w2前j-1位的编辑距离加s中的最小值,max函数表示w1第i位和w2第j位的汉字拆分体长度的最大值。
对于拼音相似度的计算具体如式(2)所示,
其中,p 1表示待检测汉字的拼音,p 2表示决策树的节点中汉字的拼音,D为p 1和p 2的编辑距离,D_final为p 1和p 2的韵母的编辑距离,当p 1和p 2的声母首字母相同时,x为0,不同时,x为1,α和β表示权重。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于决策树及变体识别的敏感词检测方法,其特征在于,包括如下步骤:
S1.构建敏感词词典并按预设周期更新,敏感词按照首字母顺序将汉字字形和对应的拼音添加至所述敏感词词典中,并根据敏感词词典构建决策树;所述决策树的结构具体为,通过类结构表示各节点,类中属性包括汉字字符、英文字符串、结束位、当前节点的下一级节点,所述汉字字符用于存储节点对应的汉字,所述英文字符串用于存储汉字的拼音和\或英文敏感词;类中的方法包括查找指定汉字的下一级节点以及查找指定拼音的下一级节点;
S2.将文本输入至敏感词检测模型中,所述敏感词检测模型以所述决策树为基础通过匹配算法以及匹配标准检测文本中的敏感词,并对所述敏感词进行定位;所述匹配算法包括如下步骤:
S21. 以输入文本中首字或选择输入文本中的一个字作为起点进行判断;
S22.根据被判断字的首字母在所述决策树对应的目录节点下寻找对应的子节点,若在目录节点中寻找到对应的子节点则执行步骤S23,否则以当前被判断字之后的第一个字作为被判断字继续执行步骤S22直到遍历并判断完输入文本;
S23.进入匹配状态,保存被判断字在文本中的位置作为进入位置,并进入目录节点中对应的子节点,并以进入位置之后的第一个字作为被判断字;
S24.在当前子节点下,寻找被判断字对应的下一级子节点,若在当前子节点下寻找到对应的下一级子节点,进入步骤S25,否则退出所述匹配状态,返回所述进入位置,以进入位置之后的第一个字作为被判断字继续执行步骤S22;
S25.判断当前子节点中结束位是否开启,若结束位开启,则退出匹配状态并记录退出位置、敏感词以及位置信息,并以退出位置之后的第一个字作为被判断字执行步骤S22;否则以当前被判断字之后的第一个字作为被判断字继续执行步骤S24;
所述匹配标准具体如下:
当待检测字符为汉字时,若能在决策树的节点中找到与其完全相同的汉字则匹配成功;若不能找到完全相同的汉字但在决策树的节点中找到完全相同的拼音则匹配成功;当汉字与拼音均不能匹配成功,则判断待检测字符与决策树的节点中汉字的字形相似度以及拼音的拼音相似度,若字形相似度与拼音相似度均高于预设阈值,则匹配成功;
当待检测字符为英文时,则将连续的英文字符构建为英文字符串进行匹配,若该英文字符串与决策树的节点中的拼音完全相同则匹配成功,否则判断该英文字符串与决策树的节点中拼音的拼音相似度,当拼音相似度高于预设阈值时则匹配成功;
其中,所述字形相似度的计算具体如式(1)所示,
其中,w1表示待检测汉字的拆分体的长度,w2表示决策树的节点中汉字的拆分体的长度,d为w1和w2的编辑距离,max函数表示待检测汉字的拆分体长度与决策树的节点中汉字的拆分体的长度中最大的数值;
所述拼音相似度的计算具体如式(2)所示,
其中,p 1表示待检测汉字的拼音,p 2表示决策树的节点中汉字的拼音,D为p 1和p 2的编辑距离,D_final为p 1和p 2的韵母的编辑距离,当p 1和p 2的声母首字母相同时,x为0,不同时,x为1,α和β表示权重。
2.根据权利要求1所述的基于决策树及变体识别的敏感词检测方法,其特征在于,所述敏感词的定位具体为,所述敏感词的位置使用元组表示,所述元组的第一位为所述敏感词在文本中的起始位置,所述元组的第二位为所述敏感词在文本中的结束位置。
3.根据权利要求2所述的基于决策树及变体识别的敏感词检测方法,其特征在于,所述敏感词定位后还包括,将所述敏感词与定位以字典的形式保存,其中所述字典的键值为所述敏感词,所述键值对应的值为对应所述敏感词的定位元组。
4.根据权利要求1所述的基于决策树及变体识别的敏感词检测方法,其特征在于,所述根据敏感词构建决策树包括如下步骤:
S11.在决策树的根节点下构建二十六个目录节点,二十六个所述目录节点依次对应字母A至Z;
S12.根据所述敏感词的首字母进入至对应的所述目录节点中,构建首字母节点并插入目录节点中,进入首字母节点;
S13.遍历所述敏感词中的每一个字,若当前节点下未包含当前被判断字则进行步骤S14,否则进行步骤S15;
S14.将被判断字及其拼音作为内容构建子节点,插入当前节点的子节点集,若所述被判断字为所述敏感词的最后一个字,将节点结束位开启,结束遍历,否则进入该子节点并执行S13判断下一个字;
S15.进入当前子节点,若所述被判断字为所述敏感词的最后一个字,将节点结束位开启,结束遍历,否则继续执行S13判断下一个字。
5.根据权利要求1所述的基于决策树及变体识别的敏感词检测方法,其特征在于,所述位置信息包括进入位置信息与退出位置信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210072534.XA CN114091436B (zh) | 2022-01-21 | 2022-01-21 | 一种基于决策树及变体识别的敏感词检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210072534.XA CN114091436B (zh) | 2022-01-21 | 2022-01-21 | 一种基于决策树及变体识别的敏感词检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114091436A CN114091436A (zh) | 2022-02-25 |
CN114091436B true CN114091436B (zh) | 2022-05-17 |
Family
ID=80309054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210072534.XA Active CN114091436B (zh) | 2022-01-21 | 2022-01-21 | 一种基于决策树及变体识别的敏感词检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114091436B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115309899B (zh) * | 2022-08-09 | 2023-05-16 | 烟台中科网络技术研究所 | 一种文本中特定内容识别存储方法及系统 |
CN115512697A (zh) * | 2022-09-30 | 2022-12-23 | 贵州小爱机器人科技有限公司 | 语音敏感词的识别方法、装置、电子设备及存储介质 |
CN116089910B (zh) * | 2023-02-16 | 2023-10-20 | 北京计算机技术及应用研究所 | 一种支持多种格式电子文档的密级检测方法 |
CN117493540A (zh) * | 2023-12-28 | 2024-02-02 | 荣耀终端有限公司 | 文本匹配方法、终端设备及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446232A (zh) * | 2016-10-08 | 2017-02-22 | 深圳市彬讯科技有限公司 | 一种基于规则的敏感文本过滤方法 |
CN111859093A (zh) * | 2020-07-30 | 2020-10-30 | 中国联合网络通信集团有限公司 | 敏感词处理方法、装置及可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104991889B (zh) * | 2015-06-26 | 2018-02-02 | 江苏科技大学 | 一种基于模糊分词的非多字词错误自动校对方法 |
CN112307820B (zh) * | 2019-07-29 | 2022-03-22 | 北京易真学思教育科技有限公司 | 文本识别方法、装置、设备和计算机可读介质 |
CN111159990B (zh) * | 2019-12-06 | 2022-09-30 | 国家计算机网络与信息安全管理中心 | 一种基于模式拓展的通用特殊词识别方法及系统 |
CN112329390B (zh) * | 2020-09-30 | 2023-08-04 | 海南大学 | 一种基于音形义的中文词相似度检测算法 |
CN112287684A (zh) * | 2020-10-30 | 2021-01-29 | 中国科学院自动化研究所 | 融合变体词识别的短文本审核方法及装置 |
-
2022
- 2022-01-21 CN CN202210072534.XA patent/CN114091436B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446232A (zh) * | 2016-10-08 | 2017-02-22 | 深圳市彬讯科技有限公司 | 一种基于规则的敏感文本过滤方法 |
CN111859093A (zh) * | 2020-07-30 | 2020-10-30 | 中国联合网络通信集团有限公司 | 敏感词处理方法、装置及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
基于AC自动机的抗干扰不良文本检测系统设计与实现;熊斯玥;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20210715(第(2021)07期);I138-742,第28-29,32-36页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114091436A (zh) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114091436B (zh) | 一种基于决策树及变体识别的敏感词检测方法 | |
US6904402B1 (en) | System and iterative method for lexicon, segmentation and language model joint optimization | |
JP4213228B2 (ja) | テキストのトークン分割方法 | |
US6754650B2 (en) | System and method for regular expression matching using index | |
JP5224953B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US6785677B1 (en) | Method for execution of query to search strings of characters that match pattern with a target string utilizing bit vector | |
KR100414236B1 (ko) | 데이터의 검색을 위한 서치 시스템 및 방법 | |
US20090006079A1 (en) | Regular expression word verification | |
KR970029146A (ko) | 래티스를 키로 하여 검색을 행하는 사전 검색 장치 및 방법 | |
JPH08508124A (ja) | 言語認識照合システム | |
CN103309852A (zh) | 一种基于统计和规则的特定领域的合成词发现方法 | |
JPH08508123A (ja) | 言語認識照合システム | |
CN107291858B (zh) | 一种基于字符串后缀的数据索引方法 | |
WO2016138773A1 (zh) | 基于图的地址知识处理方法及装置 | |
US20050091033A1 (en) | System and method for performing analysis on word variants | |
KR20060043583A (ko) | 언어 데이터의 로그의 압축 방법 및 시스템 | |
JP4108337B2 (ja) | 電子ファイリングシステム及びその検索インデックス作成方法 | |
JP4856573B2 (ja) | 要約文生成装置及び要約文生成プログラム | |
JP4439497B2 (ja) | 検索処理装置及びプログラム | |
CN114064855B (zh) | 一种基于变压器知识库的信息检索方法及系统 | |
Satta et al. | Efficient transformation-based parsing | |
JP2000194713A (ja) | 文字列検索方法及び装置及び文字列検索プログラムを格納した記憶媒体 | |
CN113836917A (zh) | 文本分词处理方法及其装置、设备与介质 | |
JP2007133682A (ja) | 全文検索システム、及び、その全文検索方法 | |
Baeza-Yates et al. | Text searching: theory and practice |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |