CN105574090B - 一种敏感词过滤方法及系统 - Google Patents
一种敏感词过滤方法及系统 Download PDFInfo
- Publication number
- CN105574090B CN105574090B CN201510917567.XA CN201510917567A CN105574090B CN 105574090 B CN105574090 B CN 105574090B CN 201510917567 A CN201510917567 A CN 201510917567A CN 105574090 B CN105574090 B CN 105574090B
- Authority
- CN
- China
- Prior art keywords
- word
- sensitive
- filtering
- chinese
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及字符串多模式匹配领域,公开了一种敏感词过滤方法,包括中文、英文、网址敏感词及排除词的管理;字符规格化处理方法;一组针对不同存在形式敏感词的过滤策略及实现方法,至少包括对中文、英文、网址、全拼、拼音编写、变形词的过滤;一组敏感词的判定规则;中文敏感词的近似匹配方法,本发明还公开了一种敏感词过滤装置。本发明满足了内容的管理者和搜集者对发布或搜集的文本过滤敏感词的需要,能够快速准确地完成大量敏感词的过滤,向调用者返回敏感词及其敏感级别和在文本中出现的位置。
Description
技术领域
本发明涉及字符串多模式匹配领域,尤其涉及一种敏感词过滤方法及系统。
背景技术
随着互联网的发展,网站内容日益丰富,互联网的开放性向用户提供了UGC(UserGenerated Content,用户生产内容)网站或者社交应用软件等,用户共享信息的同时伴随着许多不符合互联网使用环境甚至违反国家法律法规的内容,如政治敏感、色情词汇等等,给互联网管理工作带来了巨大的压力。
文本内容的发布渠道越来越多样,发布者也越来越大众化,有时甚至是匿名的,面对纷繁大量的文本,互联网管理者希望能从中过滤出非法的和对自己不利的信息,此外,内容的搜集者在从网络上搜集文本时,也希望能通过有效的技术手段获取自己感兴趣的信息,而排除掉大量的无关信息,从而营造一个良好的互联网使用环境。
现有技术中的敏感词过滤方法中敏感词匹配模式单一,容易造成敏感词的误匹配或者漏匹配,并且匹配策略性能较低,给敏感词的过滤速度带来了很大的压力。
发明内容
为克服现有技术的不足,本发明的目的是:提供一种敏感词过滤方法及系统,一方面有效减少敏感词的误判,另一方面利用不同形式的过滤策略及近似匹配,有效减少敏感词的漏判,从而保证敏感词过滤的准确率和召回率。
为了解决背景技术中的技术问题,本发明提供了一种敏感词过滤方法,包括以下步骤:
S1、对敏感词、排除词以及文本的字符进行规格化处理,对敏感词规格化处理形成敏感词管理规则,对排除词规格化处理形成排除词管理规则;
S2、根据所述敏感词管理规则和排除词管理规则建立敏感词过滤模型,利用所述敏感词过滤模型对规格化处理后的文本的字符或分词进行扫描;
S3、根据敏感词过滤策略,将所述敏感词过滤模型与被扫描的字符或者分词进行匹配,判断所述字符或者分词是否为敏感词或者排除词;
S4、若判断结果为敏感词,且根据敏感词的上下文判定所述敏感词成立,则记录所述敏感词的属性,否则,执行S3,直至完成对所述文本的扫描。
优选地,所述步骤S3中的敏感词过滤策略包括缺省敏感词过滤策略、英文敏感词过滤策略、网址敏感词过滤策略、中文敏感词过滤策略、中文分词敏感词过滤策略和中文敏感词近似匹配过滤策略。
进一步地,所述缺省敏感词过滤策略为以字符作为文本的基本组成单元,过滤非英文、非网址、非中文形式的敏感词;所述英文敏感词过滤策略为过滤英文敏感词,以及中文敏感词的全屏和拼音缩写;所述网址敏感词过滤策略为过滤网址敏感词;所述中文敏感词过滤策略为过滤以字符为基本组成单元的中文敏感词;所述中文分词敏感词过滤策略为过滤以分词为基本组成单元的中文敏感词;所述中文敏感词近似匹配过滤策略为采用跳跃式扫描文本,利用中文敏感词及其残缺词对高敏感级别的中文敏感词进行匹配。
本发明还提供了一种敏感词过滤系统,包括以下模块:
规格化处理模块,用于对敏感词、排除词以及文本的字符进行规格化处理;
敏感词管理模块,用于通过所述规格化处理模块对敏感词进行规格化处理,进而维护管理敏感词库中的敏感词;
排除词管理模块,用于通过所述规格化处理模块对排除词进行规格化处理,进而维护管理敏感词对应的排除词;
敏感词过滤模块,用于根据敏感词管理模块和排除词管理模块建立的过滤模型,实现对文本中敏感词的匹配与判定,并汇总过滤结果。
优选地,所述敏感词过滤模块包括缺省敏感词过滤子模块、英文敏感词过滤子模块、网址敏感词过滤子模块、中文敏感词过滤子模块、中文分词敏感词过滤子模块及中文敏感词近似匹配过滤子模块。
具体地,所述规格化处理模块进一步用于:将多个连续空白字符替换为单个空格字符、将繁体中文字符转换为简体中文字符、将大写字母转为小写字母、仅保留多个连续标点符号的第一个、对英文单词进行词形还原。
具体地,所述过滤模型为由敏感词及其排除词构造形成的Aho-Corasick自动机,所述敏感词过滤模块包括的各子模块利用Aho-Corasick自动机匹配算法,并行执行对文本的敏感词过滤。
进一步地,所述缺省敏感词过滤子模块用于过滤非英文、非网址、非中文形式的敏感词,以字符作为文本的基本组成单元;所述英文敏感词过滤子模块用于过滤英文敏感词,以及中文敏感词的全屏和拼音缩写;所述网址敏感词过滤子模块用于过滤网址敏感词;所述中文敏感词过滤子模块用于过滤以字符为基本组成单元的中文敏感词;所述中文分词敏感词过滤子模块用于过滤以分词为基本组成单元的中文敏感词;所述中文敏感词近似匹配过滤子模块用于采用跳跃式扫描文本,利用中文敏感词及其残缺词对高敏感级别的中文敏感词进行匹配。
具体地,所述敏感词过滤模块在匹配过程中,即匹配敏感词,又匹配排除词;在判定过程中,如果敏感词作为排除词的子串出现,则不添加到过滤结果中,否则,将所述敏感词及其出现位置和敏感级别添加到所述过滤结果中。
本发明的敏感词过滤系统还包括词库数据库模块,用于存储敏感词和排除词,对所述敏感词和排除词的管理包括对所述词库数据库模块的增加、修改、删除和查询操作。
采用上述技术方案,本发明具有如下有益效果:①针对不同存在形式的敏感词,采用专门的过滤策略,保证了过滤中文敏感词、英文敏感词、网址敏感词的高准确率和高召回率;②通过特殊的字符规格化等预处理技术,消除了特殊字符、不同的字符格式等造成的干扰;③通过排除词和其它匹配成功后的判定规则,减少了敏感词在特定上下文的误判;④支持分词,减少了因组词错误而引起的误判;⑤针对敏感级别高的中文敏感词,能够做到一定程度的近似匹配,提高了召回率;⑥采用成熟高效的Aho-Corasick自动机算法和多线程分布式技术,解决了过滤大量敏感词的性能问题。综上所述,本发明的敏感词过滤方法及系统一方面能够有效减少敏感词的误判,另一方面利用不同形式的过滤策略及近似匹配,有效减少敏感词的漏判,保证了敏感词过滤的准确率和召回率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的敏感词过滤系统的模块示意图;
图2是本发明实施例提供的规格化处理模块的工作流程图;
图3是本发明实施例提供的敏感词与排除词的实体关系图;
图4是本发明实施例提供的敏感词过滤方法的流程图;
图5是本发明实施例提供的用于中文敏感词近似匹配的Aho-Corasick自动机示例图;
图6是本发明实施例提供的中文敏感词近似匹配的扫描路径示例图;
图7是本发明实施例提供的中文敏感词近似匹配过程的状态转移示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:图4是本发明实施例提供的敏感词过滤方法的流程图,从图中可以清楚地看出,本实施例提供的敏感词过滤方法包括以下步骤:
S1、对敏感词、排除词以及文本的字符进行规格化处理,对敏感词规格化处理形成敏感词管理规则,对排除词规格化处理形成排除词管理规则;
S2、根据所述敏感词管理规则和排除词管理规则建立敏感词过滤模型,利用所述敏感词过滤模型对规格化处理后的文本的字符或分词进行扫描;
S3、根据敏感词过滤策略,将所述敏感词过滤模型与被扫描的字符或者分词进行匹配,判断所述字符或者分词是否为敏感词或者排除词;
S4、若判断结果为敏感词,且根据敏感词的上下文判定所述敏感词成立,则记录所述敏感词的属性,否则,执行S3,直至完成对所述文本的扫描,其中,所述敏感词主要包括两个属性:存在形式、敏感级别,敏感词按存在形式可分为中文敏感词、英文敏感词、网址敏感词和缺省形式敏感词,中文敏感词的全拼形式和拼音缩写形式作为英文敏感词。
优选地,所述步骤S3中的敏感词过滤策略包括缺省敏感词过滤策略、英文敏感词过滤策略、网址敏感词过滤策略、中文敏感词过滤策略、中文分词敏感词过滤策略和中文敏感词近似匹配过滤策略。
具体地,所述缺省敏感词过滤策略为以字符作为文本的基本组成单元,过滤非英文、非网址、非中文形式的敏感词;所述英文敏感词过滤策略为过滤英文敏感词,以及中文敏感词的全屏和拼音缩写;所述网址敏感词过滤策略为过滤网址敏感词;所述中文敏感词过滤策略为过滤以字符为基本组成单元的中文敏感词;所述中文分词敏感词过滤策略为过滤以分词为基本组成单元的中文敏感词;所述中文敏感词近似匹配过滤策略为采用跳跃式扫描文本,利用中文敏感词及其残缺词对高敏感级别的中文敏感词进行匹配。
进一步地,所述步骤S1中对文本的字符进行规格化处理,其内部流程如图2所示:步骤201将多个连续空白字符替换为单个空格字符;步骤202将繁体中文字符转换为简体中文字符;步骤203将大写英文字符转换成小写英文字符;步骤204仅保留多个连续标点符号的第一个;步骤205使用Stanford NLP工具包对英文单词进行词形还原。
实施例2:图1是本发明实施例提供的敏感词过滤系统的模块示意图,从图中可以清楚地看出,本实施例提供的敏感词过滤系统的技术架构包括四个主要模块:字符规格化处理模块101、敏感词管理模块102、排除词管理103、敏感词过滤模块104,其中,模块102、103依赖于模块101,实现对敏感词和排除词的规格化处理,模块104依赖于模块101,实现对文本的规格化处理,模块104依赖模块102、103,获取敏感词和排除词并构造Aho-Corasick自动机。
进一步地,模块104包括6个过滤子模块和1个过滤结果汇总子模块:缺省敏感词过滤子模块105、英文敏感词过滤子模块106、网址敏感词过滤子模块107、中文敏感词过滤子模块108、中文分词敏感词过滤子模块109、中文敏感词近似匹配过滤子模块110及过滤结果汇总子模块111。6个过滤子模块105-110采用多线程或分布式技术同时过滤文本,将过滤结果提供给汇总子模块111,由111合并成最终结果返回给调用者。
字符规格化处理模块101作为整个架构中的基础工具模块,提供对敏感词、排除词和文本的规格化处理,其内部流程如图2所示:步骤201将多个连续空白字符替换为单个空格字符;步骤202将繁体中文字符转换为简体中文字符;步骤203将大写英文字符转换成小写英文字符;步骤204仅保留多个连续标点符号的第一个;步骤205使用Stanford NLP工具包对英文单词进行词形还原,例如将“using”还原成“use”。
敏感词管理模块:内容的管理者或搜集者将不期望或期望出现的词维护在敏感词库中,其中,敏感词主要包括两个属性:存在形式、敏感级别,敏感词按存在形式可分为中文敏感词、英文敏感词、网址敏感词和缺省形式敏感词,中文敏感词的全拼形式和拼音缩写形式作为英文敏感词;对不同存在形式的敏感词,在过滤时对文本采取不同的过滤策略,一般地,敏感词的基本组成单元为字符,特殊地,如果中文敏感词中包含空格,则认为该中文敏感词的基本组成单元为中文分词,并以空格作为分词间的分隔符。
排除词管理模块:对敏感词维护其排除词,例如,“卖血”的排除词“卖血压计”,如果敏感词在文本中以排除词的子串出现,则不作为敏感词;以中文分词为基本组成单元的中文敏感词,其排除词的基本组成单元也为分词。
敏感词过滤模块:包含一组敏感词过滤子模块,每个过滤子模块是对某种过滤策略的实现,子模块的内部流程主要包括文本预处理、匹配和匹配成功后的判定,匹配算法使用Aho-Corasick自动机算法。采用多线程或分布式技术同时执行各个子模块,快速地完成对文本的过滤。
本发明所述敏感词过滤方法基于词库,词库存储在文件或关系型数据库中。敏感词及其排除词的实体关系如图3所示:敏感词301与排除词302是多对多的关系(例如敏感词“代考”、“替考”均有排除词“严禁代考替考”和“打击代考替考”);网址敏感词303、英文敏感词304、中文敏感词305继承敏感词301;中文敏感词305可以拥有多个全拼形式306和拼音缩写307(例如“赌博机”的全拼“duboji”、“du bo ji”和拼音缩写“dbj”);中文敏感词305可以拥有多个变形词308(例如“赌博机”的变形词“贝者十尃木几”)。对上述敏感词、排除词的管理包括增加、修改、删除和查询操作,其中全拼形式306和拼音缩写307由程序自动生成,并通过人工筛选维护在词库中;变形词308由人工对中文敏感词305中的字进行拆字或替换为新的字之后得到。
各个过滤子模块的内部总体流程如图4所示:步骤401使用字符规格化处理模块101对文本进行预处理。特殊地,对于网址敏感词过滤,添加了将“。”、“,”、“、”、“:”、“点”、“點”替换为“.”的操作;对于中文敏感词过滤,添加了去除既非中文也非标点字符的操作。步骤402使用构造好的Aho-Corasick自动机扫描文本:每扫描一个字符或分词(分词扫描仅用于中文分词敏感词过滤),使用匹配步骤403判断是否命中敏感词或排除词,如果未命中,则跳转到步骤402;如果命中,则使用判定步骤404判断匹配的词,如果匹配的词是排除词,则从当前过滤结果中删除作为该排除词的子串出现在文本中的敏感词,再跳转到步骤402;如果匹配的词是敏感词,则根据上下文判定该敏感词是否成立,如果不成立,则跳转到步骤402;如果敏感词判定通过,则使用步骤405记录该敏感词及其敏感级别和出现位置,再跳转到时步骤402。步骤404对敏感词的判定规则包括:对英文敏感词,如果命中的词两边有英文字母,则判定为不通过;对网址敏感词,如果命中的词两边有英文字母或数字,则判定为不通过,如果右侧字符为“.”且“.”后面有英文字母或数字,同样判定为不通过。
缺省敏感词过滤子模块:用于过滤非英文、非网址、非中文形式的敏感词,以字符作为文本和模式串的基本组成单元,使用这些敏感词及其排除词构造Aho-Corasick自动机,进行精确匹配。在过滤文本时,第一步在匹配前,调用字符规格化处理模块对文本进行预处理;第二步在匹配过程中,既匹配敏感词,又匹配排除词,如果敏感词作为排除词的子串出现,则不作为敏感词,如果命中了某个敏感词,则将该敏感词及其出现位置和敏感级别添加到过滤结果中。
英文敏感词过滤子模块:扩展了缺省敏感词过滤子模块,用于过滤英文敏感词和中文敏感词的全拼、拼音缩写形式,在匹配成功后添加判定规则:如果命中的词两边有英文字母,则判定为命中失效。
网址敏感词过滤子模块:扩展了缺省敏感词过滤子模块,用于过滤网址敏感词,在文本预处理结束前,添加了将“。”、“,”、“、”、“:”、“点”、“點”替换为“.”的操作,在匹配成功后添加判定规则:如果命中的词两边有英文字母或数字,则判定为命中失效;如果右侧字符为“.”且“.”后面有英文字母或数字,判定为命中失效。
中文敏感词过滤子模块:扩展了缺省敏感词过滤子模块,用于过滤以字符为基本组成单元的中文敏感词,在文本预处理结束前,添加了去除文本中既非中文也非标点字符的操作。
中文分词敏感词过滤子模块:扩展了中文敏感词过滤子模块,用于过滤以分词为基本组成单元的中文敏感词,在构造Aho-Corasick自动机时,以分词作为状态转移的条件,在匹配文本时,先使用Ansj对文本分词,再使用Aho-Corasick自动机一次扫描一个分词进行匹配。
中文敏感词近似匹配过滤子模块:扩展了中文敏感词过滤子模块,用于过滤敏感级别高的中文敏感词,基于Levenshtein编辑距离,对敏感词,允许一个删除操作,相邻的两个字符间允许一个插入操作。在构造Aho-Corasick自动机时,删除敏感词原型中的一个字符,得到一组残缺词,对残缺词和原型词构造Aho-Corasick自动机,在匹配文本时,一次扫描或跨过一位字符,维护一个状态的集合,到达的每个有输出值的状态即为一个成功的匹配。
过滤结果汇总子模块:合并各过滤子模块的过滤结果,对所有在文本中出现的敏感词,标示敏感级别,并记录它们每次出现的位置。
具体介绍中文敏感词近似匹配过滤子模块110,其基于Levenshtein编辑距离,通过使用中文敏感词及其残缺词构造的Aho-Corasick自动机,跳跃式扫描文本,做到对高敏感级别中文敏感词的近似匹配。图5、图6、图7是从文本“二氰合银酸钾”中过滤出敏感词“氰化银钾”的示例图,该示例支持对敏感词一个删除操作,并支持敏感词中相邻两个字符间的一个插入操作。
图5是对敏感词“氰化银钾”及其残缺词“氰化银”、“氰化钾”、“氰银钾”、“化银钾”构造的Aho-Corasick自动机(残缺词从敏感词原型中删除一个字符得到)。该自动机的状态包括:501、502、503、504、505、506、507、508、509、510、511。其中501是初始状态,507、508、509、510、511是终结状态。在扫描文本时,如果到达一个终结状态,则表明匹配上了对应的模式串。
图6描述了扫描文本“二氰合银酸钾”的路径,包括601到609共9条路径,每个字符到下一个字符会形成一条路径,此外,每个字符到下下个字符也会形成一条路径。
图7描述了用图5的自动机按图6的路径扫描时,各时刻的状态转移过程。依次有T1到T5共5个时刻,每个时刻拥有一组活动状态并将这些状态维护在一个集合中。
在T1时刻:进入初始状态501。
在T2时刻:对501扫描第1个字符“二”未引起状态的转移,将501(二,1)加入到当前状态集合。
在T3时刻:对501(二,1)扫描第2个字符“氰”转移到状态502,将502(氰,2)加入到当前状态集合,由于初始状态501(氰,2)未曾得到过,将501(氰,2)加入到当前状态集合;对501(二,1)扫描第3个字符“合”未引起状态的转移,将501(合,3)加入到当前状态集合。
在T4时刻:对502(氰,2)扫描第3个字符“合”未引起状态的转移,由于501(合,3)已在T3时刻得到,丢弃该状态;对502(氰,2)扫描第4个字符“银”转移到状态504,将504(银,4)加入到当前状态集合,由于初始状态501(银,4)未曾得到过,将501(银,4)加入到当前状态集合;对501(合,3)扫描第4个字符“银”未引起状态的转移,由于501(银,4)已得到,不再重复添加;对501(合,3)扫描第5个字符“酸”未引起状态的转移,将501(酸,5)加入到当前状态集合;对501(氰,2)扫描第3个字符“合”未引起状态的转移,由于501(合,3)已在T3时刻得到,丢弃该状态;对501(氰,2)扫描第4个字符“银”未引起状态的转移,由于501(银,4)已得到,不再重复添加。
在T5时刻:对504(银,4)扫描第5个字符“酸”未引起状态的转移,由于501(酸,5)已在T4时刻得到,丢弃该状态;对504(银,4)扫描第6个字符“钾”转移到状态507,将507(钾,6)加入到当前状态集合,由于507是终结状态,将对应的模式串“氰银钾”添加到过滤结果中,由于初始状态501(钾,6)未曾得到过,将501(钾,6)加入到当前状态集合;对501(银,4)扫描第5个字符“酸”未引起状态的转移,由于501(酸,5)已在T4时刻得到,丢弃该状态;对501(银,4)扫描第6个字符“钾”未引起状态的转移,由于501(钾,6)已得到,不再重复添加;对501(酸,5)扫描第6个字符“钾”未引起状态的转移,由于501(钾,6)已得到,不再重复添加。
T5时刻结束后,文本“二氰合银酸钾”扫描完毕,近似匹配命中“氰银钾”,从而过滤出敏感词“氰化银钾”。
本发明的敏感词过滤方法及系统一方面能够有效减少敏感词的误判,另一方面利用不同形式的过滤策略及近似匹配,有效减少敏感词的漏判,保证了敏感词过滤的准确率和召回率。
以上所揭露的仅为本发明的几种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (8)
1.一种敏感词过滤方法,其特征在于,包括以下步骤:
S1、对敏感词、排除词以及文本的字符进行规格化处理,对敏感词规格化处理形成敏感词管理规则,对排除词规格化处理形成排除词管理规则;所述敏感词与所述排除词为相对应的实体关系;
所述规格化处理包括将多个连续空白字符替换为单个空格字符、将繁体中文字符转换为简体中文字符、将大写字母转为小写字母、仅保留多个连续标点符号的第一个、对英文单词进行词形还原;
S2、根据所述敏感词管理规则和排除词管理规则建立敏感词过滤模型,利用所述敏感词过滤模型对规格化处理后的文本的字符或分词进行扫描;
所述过滤模型为由敏感词及其排除词构造形成的Aho-Corasick自动机,利用Aho-Corasick自动机匹配算法,并行执行对文本的敏感词过滤;
S3、根据敏感词过滤策略,将所述敏感词过滤模型与被扫描的字符或者分词进行匹配,判断所述字符或者分词是否为敏感词或者排除词;在匹配过程中,既匹配敏感词,又匹配排除词;在判定过程中,如果敏感词作为排除词的子串出现,则不添加到过滤结果中,否则,将所述敏感词及其出现位置和敏感级别添加到所述过滤结果中;
S4、若判断结果为敏感词,且根据敏感词的上下文判定所述敏感词成立,则记录所述敏感词的属性,否则,执行S3,直至完成对所述文本的扫描。
2.根据权利要求1所述的敏感词过滤方法,其特征在于,
所述步骤S3中的敏感词过滤策略包括缺省敏感词过滤策略、英文敏感词过滤策略、网址敏感词过滤策略、中文敏感词过滤策略、中文分词敏感词过滤策略和中文敏感词近似匹配过滤策略。
3.根据权利要求2所述的敏感词过滤方法,其特征在于,
所述缺省敏感词过滤策略为以字符作为文本的基本组成单元,过滤非英文、非网址、非中文形式的敏感词;
所述英文敏感词过滤策略为过滤英文敏感词,以及中文敏感词的全屏和拼音缩写;所述网址敏感词过滤策略为过滤网址敏感词;
所述中文敏感词过滤策略为过滤以字符为基本组成单元的中文敏感词;
所述中文分词敏感词过滤策略为过滤以分词为基本组成单元的中文敏感词;
所述中文敏感词近似匹配过滤策略为采用跳跃式扫描文本,利用中文敏感词及其残缺词对高敏感级别的中文敏感词进行匹配。
4.一种敏感词过滤系统,其特征在于,包括以下模块:
规格化处理模块,用于对敏感词、排除词以及文本的字符进行规格化处理;所述敏感词与所述排除词为相对应的实体关系;
所述规格化处理模块包括将多个连续空白字符替换为单个空格字符、将繁体中文字符转换为简体中文字符、将大写字母转为小写字母、仅保留多个连续标点符号的第一个、对英文单词进行词形还原;
敏感词管理模块,用于通过所述规格化处理模块对敏感词进行规格化处理,进而维护管理敏感词库中的敏感词;
排除词管理模块,用于通过所述规格化处理模块对排除词进行规格化处理,进而维护管理敏感词对应的排除词;
敏感词过滤模块,用于根据敏感词管理模块和排除词管理模块建立的过滤模型,实现对文本中敏感词的匹配与判定,并汇总过滤结果;所述过滤模型为由敏感词及其排除词构造形成的Aho-Corasick自动机,所述敏感词过滤模块包括的各子模块利用Aho-Corasick自动机匹配算法,并行执行对文本的敏感词过滤;
所述敏感词过滤模块在匹配过程中,即匹配敏感词,又匹配排除词;在判定过程中,如果敏感词作为排除词的子串出现,则不添加到过滤结果中,否则,将所述敏感词及其出现位置和敏感级别添加到
所述过滤结果中。
5.根据权利要求4所述的敏感词过滤系统,其特征在于,
所述敏感词过滤模块包括缺省敏感词过滤子模块、英文敏感词过滤子模块、网址敏感词过滤子模块、中文敏感词过滤子模块、中文分词敏感词过滤子模块及中文敏感词近似匹配过滤子模块。
6.根据权利要求5所述的敏感词过滤系统,其特征在于,
所述缺省敏感词过滤子模块用于过滤非英文、非网址、非中文形式的敏感词,以字符作为文本的基本组成单元;
所述英文敏感词过滤子模块用于过滤英文敏感词,以及中文敏感词的全屏和拼音缩写;所述网址敏感词过滤子模块用于过滤网址敏感词;
所述中文敏感词过滤子模块用于过滤以字符为基本组成单元的中文敏感词;所述中文分词敏感词过滤子模块用于过滤以分词为基本组成单元的中文敏感词;
所述中文敏感词近似匹配过滤子模块用于采用跳跃式扫描文本,利用中文敏感词及其残缺词对高敏感级别的中文敏感词进行匹配。
7.根据权利要求4-6中任意一项所述的敏感词过滤系统,其特征在于,
所述敏感词过滤模块在匹配过程中,即匹配敏感词,又匹配排除词;在判定过程中,如果敏感词作为排除词的子串出现,则不添加到过滤结果中,否则,将所述敏感词及其出现位置和敏感级别添加到所述过滤结果中。
8.根据权利要求7所述的敏感词过滤系统,其特征在于,
还包括词库数据库模块,用于存储敏感词和排除词,对所述敏感词和排除词的管理包括对所述词库数据库模块的增加、修改、删除和查询操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510917567.XA CN105574090B (zh) | 2015-12-10 | 2015-12-10 | 一种敏感词过滤方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510917567.XA CN105574090B (zh) | 2015-12-10 | 2015-12-10 | 一种敏感词过滤方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105574090A CN105574090A (zh) | 2016-05-11 |
CN105574090B true CN105574090B (zh) | 2017-12-26 |
Family
ID=55884221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510917567.XA Active CN105574090B (zh) | 2015-12-10 | 2015-12-10 | 一种敏感词过滤方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105574090B (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106131595A (zh) * | 2016-05-26 | 2016-11-16 | 武汉斗鱼网络科技有限公司 | 一种用于视频直播的标题敏感词控制方法及装置 |
CN106055541B (zh) * | 2016-06-29 | 2018-12-28 | 清华大学 | 一种新闻内容敏感词过滤方法及系统 |
WO2018000273A1 (zh) * | 2016-06-29 | 2018-01-04 | 深圳狗尾草智能科技有限公司 | 一种不良语料内容检测装置和方法 |
CN106372184A (zh) * | 2016-08-31 | 2017-02-01 | 迈普通信技术股份有限公司 | 防止中文关键字过滤逃逸的网络设备及方法 |
CN106547878A (zh) * | 2016-10-26 | 2017-03-29 | 北京微网通联股份有限公司 | 基于多关键词的快速过滤方法 |
CN106572393A (zh) * | 2016-11-09 | 2017-04-19 | 北京小米移动软件有限公司 | 界面显示方法及装置 |
CN108536693A (zh) * | 2017-03-02 | 2018-09-14 | 北京京东尚科信息技术有限公司 | 一种敏感词过滤方法、装置、电子设备、存储介质 |
CN107895122B (zh) * | 2017-11-08 | 2021-08-27 | 山东大学 | 一种专用敏感信息主动防御方法、装置及系统 |
CN108052529A (zh) * | 2017-11-09 | 2018-05-18 | 福建省天奕网络科技有限公司 | 一种敏感词过滤方法及终端 |
CN107943954B (zh) * | 2017-11-24 | 2020-07-10 | 杭州安恒信息技术股份有限公司 | 网页敏感信息的检测方法、装置及电子设备 |
CN108038190A (zh) * | 2017-12-11 | 2018-05-15 | 杭州有赞科技有限公司 | 基于多层字典树的敏感词过滤方法及系统 |
CN108170806B (zh) * | 2017-12-28 | 2020-11-20 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
CN108519970B (zh) * | 2018-02-06 | 2021-08-31 | 平安科技(深圳)有限公司 | 文本中敏感信息的鉴定方法、电子装置及可读存储介质 |
CN110737677B (zh) * | 2018-07-20 | 2023-05-05 | 武汉烽火众智智慧之星科技有限公司 | 一种数据搜索系统及方法 |
CN110941959B (zh) * | 2018-09-21 | 2023-05-26 | 阿里巴巴集团控股有限公司 | 文本违规检测、文本还原方法、数据处理方法及设备 |
CN109597987A (zh) * | 2018-10-25 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 一种文本还原方法、装置及电子设备 |
CN109684469B (zh) * | 2018-12-13 | 2023-06-06 | 平安科技(深圳)有限公司 | 敏感词过滤方法、装置、计算机设备及存储介质 |
CN109740053B (zh) * | 2018-12-26 | 2021-03-05 | 广州灵聚信息科技有限公司 | 基于nlp技术的敏感词屏蔽方法和装置 |
CN110362659A (zh) * | 2019-07-16 | 2019-10-22 | 北京洛必德科技有限公司 | 机器人开放语料库的异常语句过滤方法和系统 |
CN110674262B (zh) * | 2019-10-16 | 2023-01-06 | 北京百度网讯科技有限公司 | 词语识别方法、装置、电子设备和介质 |
CN112989810B (zh) * | 2019-12-17 | 2024-03-12 | 北京达佳互联信息技术有限公司 | 文本信息的识别方法、装置及服务器、存储介质 |
CN111090671B (zh) * | 2019-12-19 | 2023-06-23 | 山大地纬软件股份有限公司 | 消除数据库中空字符串和无效字符串差异的方法和装置 |
CN111259151B (zh) * | 2020-01-20 | 2023-05-30 | 广州多益网络股份有限公司 | 一种混合文本敏感词变体识别方法和装置 |
CN112287684B (zh) * | 2020-10-30 | 2024-06-11 | 中国科学院自动化研究所 | 融合变体词识别的短文本审核方法及装置 |
CN114021564B (zh) * | 2022-01-06 | 2022-04-01 | 成都无糖信息技术有限公司 | 一种针对社交文本的切分取词方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104850574A (zh) * | 2015-02-15 | 2015-08-19 | 博彦科技股份有限公司 | 一种面向文本信息的敏感词过滤方法 |
CN104933093A (zh) * | 2015-05-19 | 2015-09-23 | 武汉泰迪智慧科技有限公司 | 基于大数据的地区舆情监控及决策辅助系统和方法 |
-
2015
- 2015-12-10 CN CN201510917567.XA patent/CN105574090B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104850574A (zh) * | 2015-02-15 | 2015-08-19 | 博彦科技股份有限公司 | 一种面向文本信息的敏感词过滤方法 |
CN104933093A (zh) * | 2015-05-19 | 2015-09-23 | 武汉泰迪智慧科技有限公司 | 基于大数据的地区舆情监控及决策辅助系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105574090A (zh) | 2016-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105574090B (zh) | 一种敏感词过滤方法及系统 | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN105426360B (zh) | 一种关键词抽取方法及装置 | |
CN107153713A (zh) | 社交网络中基于节点间相似性的重叠社区检测方法及系统 | |
CN105550171B (zh) | 一种垂直搜索引擎的查询信息纠错方法和系统 | |
CN110210029A (zh) | 基于垂直领域的语音文本纠错方法、系统、设备及介质 | |
CN106202153A (zh) | 一种es搜索引擎的拼写纠错方法及系统 | |
CN105975625A (zh) | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 | |
CN108829658A (zh) | 新词发现的方法及装置 | |
CN103514236B (zh) | 检索应用中基于拼音的检索条件纠错提示处理方法 | |
CN103914444B (zh) | 一种纠错方法及其装置 | |
CN101404033A (zh) | 本体层级结构的自动生成方法及系统 | |
CN106446072B (zh) | 网页内容的处理方法和装置 | |
CN106095778A (zh) | 搜索引擎的中文搜索词自动纠错方法 | |
CN110362824A (zh) | 一种自动纠错的方法、装置、终端设备及存储介质 | |
CN107578292A (zh) | 一种用户画像构建系统 | |
CN108228571B (zh) | 对联的生成方法、装置、存储介质及终端设备 | |
CN108845982A (zh) | 一种基于词的关联特征的中文分词方法 | |
CN109408811A (zh) | 一种数据处理方法及服务器 | |
CN103123624A (zh) | 确定中心词的方法及装置、搜索方法及装置 | |
CN109145287A (zh) | 印尼语单词检错纠错方法及系统 | |
CN106257441A (zh) | 一种基于词频的skip语言模型的训练方法 | |
CN109684928B (zh) | 基于互联网检索的中文文档识别方法 | |
CN110245349A (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN102999533A (zh) | 一种火星文识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |