CN116562297B - 基于HTrie树的中文敏感词变形体识别方法及系统 - Google Patents

基于HTrie树的中文敏感词变形体识别方法及系统 Download PDF

Info

Publication number
CN116562297B
CN116562297B CN202310826501.4A CN202310826501A CN116562297B CN 116562297 B CN116562297 B CN 116562297B CN 202310826501 A CN202310826501 A CN 202310826501A CN 116562297 B CN116562297 B CN 116562297B
Authority
CN
China
Prior art keywords
sensitive word
htrie
tree
sensitive
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310826501.4A
Other languages
English (en)
Other versions
CN116562297A (zh
Inventor
张克君
金禹含
王文彬
王钧
邹兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE
Original Assignee
BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE filed Critical BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE
Priority to CN202310826501.4A priority Critical patent/CN116562297B/zh
Publication of CN116562297A publication Critical patent/CN116562297A/zh
Application granted granted Critical
Publication of CN116562297B publication Critical patent/CN116562297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于HTrie树的中文敏感词变形体识别方法及系统,其方法包括:步骤S1:获取网络的敏感词数据集,对敏感词数据集进行预处理以及扩充,构建扩充敏感词数据集;步骤S2:根据扩充的敏感词数据集构建HTrie树;步骤S3:对待识别的目标文本进行预处理,得到标准化的目标文本;步骤S4:使用基于HTrie树的中文敏感词变形体识别算法对标准化的目标文本进行识别,将识别结果与扩充的敏感词数据集进行相似度计算,将大于预设阈值的词识别为敏感词。本发明提供的方法可提高敏感词识别的查全率和查准率。

Description

基于HTrie树的中文敏感词变形体识别方法及系统
技术领域
本发明涉及网络安全和信息安全领域,具体涉及一种基于HTrie树的中文敏感词变形体识别方法及系统。
背景技术
如今,互联网的各大社交平台用户数量激增,平台内容更新不断,用户随时随地发布的文本信息可能涉及政治、军事、娱乐、经济、道德等多个领域,越来越多的信息夹杂各种涉嫌各种不良信息,而这些信息的共同点是包含大量敏感词。一般情况下,网络不良信息使用的是准确无误的中文汉字,没有任何变形处理,这样只需简单的字符串匹配方法就能解决。除此以外考虑结合文本内容进行分析,如敏感词的过滤识别技术包括基于内容的单模式匹配如BF算法、RK算法、Sunday算法、BM算法、Horspool算法和典型的KMP算法等,或多模式匹配如Wu-Manber算法、Trie树以及Aho 和 Corasick提出的Aho-Corasick算法等,或使用文本分类技术对文本中的敏感信息进行识别和过滤等,这类研究很好的解决了识别文本内容包含敏感信息的问题,但不能实现隐蔽敏感词的发现。
为避免以往简单的基于敏感词表等方法的识别和过滤,网络上出现越来越多的敏感词变形体以干扰识别系统的监测,而现有的算法如ST-DFA算法和SWDT-IFA算法等几乎难以识别多种变形敏感词或识别效率不高,这给社交平台过滤识别敏感信息带来巨大的难题,更影响着越来越多的网络用户尤其是未成年用户。
Trie树又称前缀树或单词查找树,是哈希树的变种但效率高于哈希树,利用其字符串的公共前缀来减少查询时间,尽可能减少不必要的字符串比较。前缀搜索的优点在于查询速度快且可以查询以某一字符串为起始的所有结果而非完全匹配结果,因此,相对于其他的模式匹配算法,Trie树用于识别敏感词变形体的效果更好。
综上所述,当前传统的敏感词识别算法无法处理变形体,而现有中文敏感词识别算法可处理的敏感词变形体类型有限且识别准确率不高。因此,如何提高敏感词识别的准确率成为一个亟待解决的问题。
发明内容
为了解决上述技术问题,本发明提供一种基于HTrie树的中文敏感词变形体识别方法及系统。
本发明技术解决方案为:一种基于HTrie树的中文敏感词变形体识别方法,包括:
步骤S1:获取网络的敏感词数据集,对所述敏感词数据集进行预处理以及扩充,构建扩充敏感词数据集;
步骤S2:根据所述扩充的敏感词数据集构建HTrie树;
步骤S3:对待识别的目标文本进行预处理,得到标准化的目标文本;
步骤S4:使用基于HTrie树的中文敏感词变形体识别算法对所述标准化的目标文本进行识别,将识别结果与所述扩充的敏感词数据集进行相似度计算,将大于预设阈值的词识别为敏感词。
本发明与现有技术相比,具有以下优点:
1、本发明公开了一种基于HTrie树的中文敏感词变形体识别方法,构建扩充敏感词数据集,增加了可处理敏感词变形体的类型数量,从而解决了现有方法文敏感词识别算法存在可处理的敏感词变形体类型有限和识别准确率不高的问题,以及网络信息严重人工干扰问题。
2、本发明构建HTrie树用于存储敏感词的中文、英文和拼音形式,并在识别近音字等隐蔽词汇时将结果与数据集进行验证计算,添加了相似度比对,提高了识别敏感词的查全率和查准率,其中查全率的提升尤为显著。
附图说明
图1为本发明实施例中一种基于HTrie树的中文敏感词变形体识别方法的流程图;
图2为本发明实施例中HTrie树示意图;
图3为本发明实施例中双指针长度对识别敏感词文本数、词数、运行时间的影响示意图;
图4为本发明实施例中基于HTrie树的中文敏感词变形体识别算法流程图;
图5为本发明实施例中一种基于HTrie树的中文敏感词变形体识别系统的结构框图。
具体实施方式
本发明提供了一种基于HTrie树的中文敏感词变形体识别方法,可提高敏感词识别的查全率和查准率。
为了使本发明的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本发明进一步详细说明。
实施例一
如图1所示,本发明实施例提供的一种基于HTrie树的中文敏感词变形体识别方法,包括下述步骤:
步骤S1:获取网络的敏感词数据集,对敏感词数据集进行预处理以及扩充,构建扩充敏感词数据集;
步骤S2:根据扩充的敏感词数据集构建HTrie树;
步骤S3:对待识别的目标文本进行预处理,得到标准化的目标文本;
步骤S4:使用基于HTrie树的中文敏感词变形体识别算法对标准化的目标文本进行识别,将识别结果与扩充的敏感词数据集进行相似度计算,将大于预设阈值的词识别为敏感词。
在一个实施例中,上述步骤S1:获取网络的敏感词数据集,对敏感词数据集进行预处理以及扩充,构建扩充敏感词数据集,具体包括:
步骤S11:对采集的敏感词数据集进行去重、清洗和排序的预处理;
从网络获取并整合多领域敏感词数据,对其进行去重、排序和清洗,得到敏感词数据集
步骤S12:将敏感词数据集中的敏感词设为普通式敏感词;构建普通式敏感词对应的繁体式敏感词、拼音式敏感词、英文式敏感词和汉字拆解式敏感词,从而形成扩充敏感词数据集。
举例来说,如表1所示,假设隐形耳机为敏感词,将隐形耳机的简体字作为普通式敏感词,并作为扩充敏感词数据集的关键字,是敏感词数据集的唯一标识,不可为空,起到识别和验证敏感词的重要作用。将隐形耳机进行繁体化,并作为繁体式敏感词进行存储。构建将隐形耳机的拼音式敏感词,包括:拼音式(即保存每个字的拼音的全拼)和拼音简称式(即只保存每个字的拼音首字母),其中,拼音式包括带声调标注的和不带声调标注两种形式。拼音式敏感词不包含空格。英文式敏感词是将普通式敏感词翻译为英文进行保存,如果该敏感词有对应的专有英文简称,则保存该英文简称,如“证监会”保存为“csrc”。汉字拆解式敏感词是将敏感词的每个字可能的拆解结果放在单独一列中,多个结果的用空格分开。
表1 扩充敏感词存储结构
此外,本发明实施例还会保存普通式敏感词的各种变体形式,如表2所示:
表2 敏感词变形体形式及示例
在一个实施例中,上述步骤S2:根据扩充的敏感词数据集构建HTrie树,具体包括:
根据扩充敏感词数据集构建HTrie树,HTrie树根节点不包含字符,其子节点及叶节点均只包含一个字符。
如图2所示,为基于扩充敏感词数据集构建的HTrie树。本发明实施例基于Trie进行改进,构建HTrie树,用于存储扩充敏感词数据集,HTrie树构建算法的伪代码如下所示:
本发明实施例的HTrie树同时包含中文和英文等内容,但仍然保留Trie树的根节点不包含字符而其他节点包含一个字符和其利用字符串的公共前缀建立分支的特点,并且为每个叶节点保存从根节点到达该叶节点所经过路径的所有字符组成的字符串,以增强前缀搜索匹配的结果。
在一个实施例中,上述步骤S3:对待识别的目标文本进行预处理,得到标准化的目标文本,具体包括:
对待识别的目标文本进行标准化及文本清洗,需要清理包括但不限于插入干扰符号式敏感词中的各种符号(如逗号、句号、冒号、感叹号等常用标点符号)、转换英文字母大写为小写、将繁体字转为简体字,将拆解字还原为普通字、去除网址、将表情转为意思相近的一个字等。
在一个实施例中,上述步骤S4:使用基于HTrie树的中文敏感词变形体识别算法对标准化的目标文本进行识别,将识别结果与扩充的敏感词数据集进行相似度计算,将大于预设阈值的词识别为敏感词,具体包括:
步骤S41:对标准化的目标文本使用双指针机制依次获取其部分待检测字符串,即第一个指针指向第一个字符,第二个指针遍历第一个指针后n个字符,其中,n为预设的长度;
步骤S42:将待检测字符串和HTrie树,使用基于HTrie树的中文敏感词变形体识别算法进行识别匹配,如果匹配成功,则第一个指针直接指向匹配成功的字符串后一位,重复步骤S42;
步骤S43:如果匹配不成功,第一个指针和第二个指针均向后移1位,重复步骤S42。
截取字符串的长度n不应过短,否则长敏感词难以被发现,但长度也不应过长,否则一次识别所需时间也随之增加,且对识别的查全率和查准率没有提升。根据实验和分析,如图3所示,虽然n=4时运行时间最短,但是经过实验证明当n=5时,可以取得更好的识别效果并且运行时间较短。本发明实施例中的双指针截取的字符串共有三种类型,分别是全为中文、全为英文或拼音和中拼混合形式,对不同类型的文本设置不同的相似度阈值,高于阈值的敏感词需向扩充的敏感词数据集进行验证,并返回敏感词的普通形式。
在一个实施例中,上述步骤S42中基于HTrie树的中文敏感词变形体识别算法,具体包括:
步骤S421:判断标准化的目标文本是否只含中文,若不是,则直接跳转步骤S424;若只含中文,则使用HTrie树进行前缀搜索,得到中文搜索结果列表;
步骤S422:如果中文搜索结果列表不为空,则直接查找中文搜索结果列表内是否存在与待检测字符串相同的词,若存在,则待检测字符串为敏感词,否则直接结束本轮搜索;如果中文搜索结果列表为空,则将待检测字符串转为拼音再次使用HTrie树进行前缀搜索,得到拼音搜索结果列表,例如在搜索和识别词语“证府”时,其本意为敏感词“政府”,但“证府”并不在HTire树内,搜索结果为空,则将“证府”转为拼音“”和“/>”,再次使用HTrie树进行前缀搜索;
步骤S423:如果拼音搜索结果列表为空,则结束本轮搜索;否则将拼音搜索结果列表中所有词分别与待检测字符串计算相似度J1,若J1大于阈值T1时,则待检测字符串为敏感词,例如搜索拼音“”和“/>”后,该拼音在HTrie树内搜索结果也为“”和“/>”,则将两个拼音分别与对应的搜索结果计算相似度得J1为1,即识别“证府”为“政府”的同音字替换敏感词;
本发明实施例采用杰卡德相似系数对待检测字符串和搜索结果列表中所有词进行相似度计算,其计算公式如下:
其中,W1和W2表示字符串,W1∩W2表示两个字符串中相同字符的个数,W1∪W2表示两个字符串中所有不相同的字符个数,结果为一个小于等于1的数,表示两个字符串相似程度,越接近1表示相似度越高,越接近0表示相似度越低。
步骤S424:判断待检测字符串是否只含英文或拼音,若不是,则直接跳转步骤S426;若只含英文或拼音,则先将待检测字符串转为英文、拼音和拼音首字母三种形式分别储存并使用HTrie树进行三次前缀搜索,获得一个合并三次搜索结果的列表;
步骤S425:如果合并三次搜索结果的列表为空,则结束本轮搜索;如果不为空,则直接查找合并三次搜索结果的列表内与待检测字符串相同的词,若存在,则待检测字符串为敏感词;
步骤S426:将待检测字符串转为拼音及拼音首字母两种形式分别储存并使用HTrie树进行两次前缀搜索,获得一个合并两次搜索结果列表;
步骤S427:如果合并两次搜索结果列表为空,则结束本轮搜索;若不为空,则将合并两次搜索结果列表内的所有结果查询其对应的普通式敏感词及拼音,分别计算普通式敏感词及拼音式敏感词与待检测字符串相似度J2和J3,若J2大于阈值T2或J3大于阈值T3时,则待检测字符串为敏感词。
若经过上述步骤,如果判定待检测字符串为敏感词后,将该敏感词向扩充的敏感词数据集进行验证,给出对应的普通式词,通过字符串替换,将文本中的敏感词替换为对应的普通式敏感词,最后输出一个不含敏感词变形体的文本。
在本发明实施例中,设置阈值T1=0.5,T2=0.4,T3=0.5。用户可根据实际体情况调整阈值,当阈值设置较高时,对敏感词识别较严格。
基于HTrie树的中文敏感词变形体识别算法的伪代码如下所示:
基于HTrie树的中文敏感词变形体识别算法的流程示意图如图4所示。
表3展示了本发明的基于HTrie树的中文敏感词变形体识别算法的识别率,使用本发明的算法识别微博中爬取的1783条带有敏感词或其变形体的文本,同识别出2126个敏感词,其中,同一文本中的重复出现敏感词仅计算一次。经过人工检查对比,共正确识别敏感词1987个,错误识别139个,未识别89个。除了近音字替换式识别率较低,对与其他形式的变体识别率很高。由于中文同音/近音字极多,易将正常词汇误判为敏感词,因此导致近音字替换式的识别率相对较低。
表3 基于HTrie树的中文敏感词变形体识别算法的对敏感词的识别率
本发明的选择了3种可识别敏感词变形体的算法Trie-DFA、ST-DFA和SWDT-IFA算法同本发明的HTrie-EDS进行对比。实验结果如表4、表5和表6所示。从表4中可以看出本发明提供的方法可以识别其他算法无法识别的敏感词变形体形式,表5展示了本发明提供的方法的时间复杂度较好于其他算法。表6展示了本发明方法相比其他方法具有更高的查全率和查准率。
表4 各算法可识别的敏感词变体形式
表5 各算法的时间复杂度
表6 各算法的查全率和查准率
本发明公开了一种基于HTrie树的中文敏感词变形体识别方法,构建扩充敏感词数据集,增加了可处理敏感词变形体的类型数量,从而解决了现有方法文敏感词识别算法存在可处理的敏感词变形体类型有限和识别准确率不高的问题,以及网络信息严重人工干扰问题。本发明构建HTrie树用于存储敏感词中文、英文和拼音形式,并在识别近音字等隐蔽词汇时将结果与数据集进行验证计算,添加了相似度比对,提高了识别敏感词的查全率和查准率,其中查全率的提升尤为显著。
实施例二
如图5所示,本发明实施例提供了一种基于HTrie树的中文敏感词变形体识别系统,包括下述模块:
构建扩充敏感词数据集模块51,用于获取网络的敏感词数据集,对敏感词数据集进行预处理以及扩充,构建扩充敏感词数据集;
构建HTrie树模块52,用于根据扩充的敏感词数据集构建HTrie树;
目标文本预处理模块53,用于对待识别的目标文本进行预处理,得到标准化的目标文本;
识别敏感词模块54,用于使用基于HTrie树的中文敏感词变形体识别算法对标准化的目标文本进行识别,将识别结果与扩充的敏感词数据集进行相似度计算,将大于预设阈值的词识别为敏感词。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (4)

1.一种基于HTrie树的中文敏感词变形体识别方法,其特征在于,包括:
步骤S1:获取网络的敏感词数据集,对所述敏感词数据集进行预处理以及扩充,构建扩充敏感词数据集;
步骤S2:根据所述扩充的敏感词数据集构建HTrie树;
步骤S3:对待识别的目标文本进行预处理,得到标准化的目标文本;
步骤S4:使用基于HTrie树的中文敏感词变形体识别算法对所述标准化的目标文本进行识别,将识别结果与所述扩充的敏感词数据集进行相似度计算,将大于预设阈值的词识别为敏感词,具体包括:
步骤S41:对所述标准化的目标文本使用双指针机制依次获取其部分待检测字符串,
步骤S42:将所述待检测字符串和HTrie树,使用基于HTrie树的中文敏感词变形体识别算法进行识别匹配,如果匹配成功,则第一个指针直接指向匹配成功的字符串后一位,重复步骤S42;其中,所述基于HTrie树的中文敏感词变形体识别算法,具体包括:
步骤S421:判断所述标准化的目标文本是否只含中文,若不是,则直接跳转步骤S424;若只含中文,则使用HTrie树进行前缀搜索,得到中文搜索结果列表;
步骤S422:如果所述中文搜索结果列表不为空,则直接查找所述中文搜索结果列表内是否存在与所述待检测字符串相同的词,若存在,则所述待检测字符串为敏感词,否则直接结束本轮搜索;如果所述中文搜索结果列表为空,则将所述待检测字符串转为拼音再次使用HTrie树进行前缀搜索,得到拼音搜索结果列表;
步骤S423:如果所述拼音搜索结果列表为空,则结束本轮搜索;否则将所述拼音搜索结果列表中所有词分别与所述待检测字符串计算相似度J1,若J1大于阈值T1时,则所述待检测字符串为敏感词;
步骤S424:判断所述待检测字符串是否只含英文或拼音,若不是,则直接跳转步骤S426;若只含英文或拼音,则先将所述待检测字符串转为英文、拼音和拼音首字母三种形式分别储存并使用HTrie树进行三次前缀搜索,获得一个合并三次搜索结果的列表;
步骤S425:如果所述合并三次搜索结果的列表为空,则结束本轮搜索;如果不为空,则直接查找所述合并三次搜索结果的列表内与所述待检测字符串相同的词,若存在,则所述待检测字符串为敏感词;
步骤S426:将所述待检测字符串转为拼音及拼音首字母两种形式分别储存并使用HTrie树进行两次前缀搜索,获得一个合并两次搜索结果列表;
步骤S427:如果所述合并两次搜索结果列表为空,则结束本轮搜索;若不为空,则将所述合并两次搜索结果列表内的所有结果查询其对应的普通式敏感词及拼音式敏感词,分别计算所述普通式敏感词及所述拼音式敏感词与所述待检测字符串相似度J2和J3,若J2大于阈值T2或J3大于阈值T3时,则所述待检测字符串为敏感词;
步骤S43:如果匹配不成功,所述第一个指针和第二个指针均向后移1位,重复步骤S42。
2.根据权利要求1所述的基于HTrie树的中文敏感词变形体识别方法,其特征在于,所述步骤S1:获取网络的敏感词数据集,对所述敏感词数据集进行预处理以及扩充,构建扩充敏感词数据集,具体包括:
步骤S11:对采集的所述敏感词数据集进行去重、清洗和排序的预处理;
步骤S12:将所述敏感词数据集中的敏感词设为普通式敏感词;构建所述普通式敏感词对应的繁体式敏感词、拼音式敏感词、英文式敏感词和汉字拆解式敏感词,从而形成扩充敏感词数据集。
3.根据权利要求2所述的基于HTrie树的中文敏感词变形体识别方法,其特征在于,所述步骤S2:根据所述扩充的敏感词数据集构建HTrie树,具体包括:
根据所述扩充敏感词数据集构建HTrie树,所述HTrie树根节点不包含字符,其子节点及叶节点均只包含一个字符。
4.一种基于HTrie树的中文敏感词变形体识别系统,其特征在于,包括下述模块:
构建扩充敏感词数据集模块,用于获取网络的敏感词数据集,对所述敏感词数据集进行预处理以及扩充,构建扩充敏感词数据集;
构建HTrie树模块,用于根据所述扩充的敏感词数据集构建HTrie树;
目标文本预处理模块,用于对待识别的目标文本进行预处理,得到标准化的目标文本;
识别敏感词模块,用于使用基于HTrie树的中文敏感词变形体识别算法对所述标准化的目标文本进行识别,将识别结果与所述扩充的敏感词数据集进行相似度计算,将大于预设阈值的词识别为敏感词,具体包括:
步骤S41:对所述标准化的目标文本使用双指针机制依次获取其部分待检测字符串,
步骤S42:将所述待检测字符串和HTrie树,使用基于HTrie树的中文敏感词变形体识别算法进行识别匹配,如果匹配成功,则第一个指针直接指向匹配成功的字符串后一位,重复步骤S42;其中,所述基于HTrie树的中文敏感词变形体识别算法,具体包括:
步骤S421:判断所述标准化的目标文本是否只含中文,若不是,则直接跳转步骤S424;若只含中文,则使用HTrie树进行前缀搜索,得到中文搜索结果列表;
步骤S422:如果所述中文搜索结果列表不为空,则直接查找所述中文搜索结果列表内是否存在与所述待检测字符串相同的词,若存在,则所述待检测字符串为敏感词,否则直接结束本轮搜索;如果所述中文搜索结果列表为空,则将所述待检测字符串转为拼音再次使用HTrie树进行前缀搜索,得到拼音搜索结果列表;
步骤S423:如果所述拼音搜索结果列表为空,则结束本轮搜索;否则将所述拼音搜索结果列表中所有词分别与所述待检测字符串计算相似度J1,若J1大于阈值T1时,则所述待检测字符串为敏感词;
步骤S424:判断所述待检测字符串是否只含英文或拼音,若不是,则直接跳转步骤S426;若只含英文或拼音,则先将所述待检测字符串转为英文、拼音和拼音首字母三种形式分别储存并使用HTrie树进行三次前缀搜索,获得一个合并三次搜索结果的列表;
步骤S425:如果所述合并三次搜索结果的列表为空,则结束本轮搜索;如果不为空,则直接查找所述合并三次搜索结果的列表内与所述待检测字符串相同的词,若存在,则所述待检测字符串为敏感词;
步骤S426:将所述待检测字符串转为拼音及拼音首字母两种形式分别储存并使用HTrie树进行两次前缀搜索,获得一个合并两次搜索结果列表;
步骤S427:如果所述合并两次搜索结果列表为空,则结束本轮搜索;若不为空,则将所述合并两次搜索结果列表内的所有结果查询其对应的普通式敏感词及拼音式敏感词,分别计算所述普通式敏感词及所述拼音式敏感词与所述待检测字符串相似度J2和J3,若J2大于阈值T2或J3大于阈值T3时,则所述待检测字符串为敏感词;
步骤S43:如果匹配不成功,所述第一个指针和第二个指针均向后移1位,重复步骤S42。
CN202310826501.4A 2023-07-07 2023-07-07 基于HTrie树的中文敏感词变形体识别方法及系统 Active CN116562297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310826501.4A CN116562297B (zh) 2023-07-07 2023-07-07 基于HTrie树的中文敏感词变形体识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310826501.4A CN116562297B (zh) 2023-07-07 2023-07-07 基于HTrie树的中文敏感词变形体识别方法及系统

Publications (2)

Publication Number Publication Date
CN116562297A CN116562297A (zh) 2023-08-08
CN116562297B true CN116562297B (zh) 2023-09-26

Family

ID=87500403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310826501.4A Active CN116562297B (zh) 2023-07-07 2023-07-07 基于HTrie树的中文敏感词变形体识别方法及系统

Country Status (1)

Country Link
CN (1) CN116562297B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117435692A (zh) * 2023-11-02 2024-01-23 北京云上曲率科技有限公司 一种基于变体对抗敏感文本识别方法和系统
CN117892724B (zh) * 2024-03-15 2024-06-04 成都赛力斯科技有限公司 一种文本检测方法、装置、设备及存储介质
CN118468871B (zh) * 2024-07-12 2024-10-11 厦门众联世纪股份有限公司 一种多线程数据对比方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918548A (zh) * 2019-04-08 2019-06-21 上海凡响网络科技有限公司 一种自动检测文档敏感信息的方法和应用
CN114385775A (zh) * 2021-12-29 2022-04-22 南京视察者智能科技有限公司 一种基于大数据的敏感词识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8701032B1 (en) * 2012-10-16 2014-04-15 Google Inc. Incremental multi-word recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918548A (zh) * 2019-04-08 2019-06-21 上海凡响网络科技有限公司 一种自动检测文档敏感信息的方法和应用
CN114385775A (zh) * 2021-12-29 2022-04-22 南京视察者智能科技有限公司 一种基于大数据的敏感词识别方法

Also Published As

Publication number Publication date
CN116562297A (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN116562297B (zh) 基于HTrie树的中文敏感词变形体识别方法及系统
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
US8055498B2 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
US8745061B2 (en) Suffix array candidate selection and index data structure
CN110569328B (zh) 实体链接方法、电子装置及计算机设备
US8041662B2 (en) Domain name geometrical classification using character-based n-grams
CN107918604B (zh) 一种中文的分词方法及装置
CN108846016B (zh) 一种面向中文分词的搜索算法
Bellare et al. Learning extractors from unlabeled text using relevant databases
CN103514238A (zh) 基于分类查找的敏感词识别处理方法
CN111506726B (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
US8583415B2 (en) Phonetic search using normalized string
CN102750379A (zh) 一种基于过滤型的字符串快速匹配方法
CN110489997A (zh) 一种基于模式匹配算法的敏感信息脱敏方法
CN109165331A (zh) 一种英文地名的索引建立方法及其查询方法和装置
CN109359481B (zh) 一种基于bk树的反碰撞搜索约减方法
JP2008541272A (ja) 署名生成および関連性を有するマッチングエンジン
CN111814781B (zh) 用于对图像块识别结果进行校正的方法、设备和存储介质
CN115577269A (zh) 一种基于字符串文本特征相似度的黑名单模糊匹配方法
Pandi et al. A novel similarity measure for sequence data
JP5594134B2 (ja) 文字列検索装置,文字列検索方法および文字列検索プログラム
Sherkat et al. A new approach for multi-pattern string matching in large text corpora
Sanabila et al. Automatic Wayang Ontology Construction using Relation Extraction from Free Text
Varol et al. Pattern and Phonetic Based Street Name Misspelling Correction
JP4915499B2 (ja) 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant