CN113094493A - 快速过滤文本的方法、系统、电子装置和存储介质 - Google Patents
快速过滤文本的方法、系统、电子装置和存储介质 Download PDFInfo
- Publication number
- CN113094493A CN113094493A CN202110236399.3A CN202110236399A CN113094493A CN 113094493 A CN113094493 A CN 113094493A CN 202110236399 A CN202110236399 A CN 202110236399A CN 113094493 A CN113094493 A CN 113094493A
- Authority
- CN
- China
- Prior art keywords
- text
- blacklist
- filtering
- filtered
- vocabularies
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 129
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000004590 computer program Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 3
- 230000009191 jumping Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种快速过滤文本的方法、系统、电子装置和存储介质,其中,该快速过滤文本的方法包括:配置特殊符号过滤规则,并加载黑名单的文本词汇生成黑名单拓扑树,加载白名单的文本词汇生成白名单拓扑树;接着根据特殊符号过滤规则,生成去除特殊符号的待过滤文本,并记录特殊符号信息;然后通过黑名单拓扑树匹配和白名单拓扑树匹配,过滤待过滤文本,得到过滤文本;最后将记录的特殊符号信息还原到过滤文本中,并输出最终的过滤文本。通过本申请,解决了在对网络文本进行过滤时,存在的内存资源占用大、效率不高和过滤不完全的问题,提高了文本过滤的效率和用户体验感。
Description
技术领域
本申请涉及计算机领域,特别是涉及快速过滤文本的方法、系统、电子装置和存储介质。
背景技术
在如今信息爆炸的互联网时代,越来越多的人在网络上发布信息和获取信息,例如年轻人通过网络进行娱乐和交友,或利用网络资源进行学习等,然而,随着信息技术的快速发展,网络环境也变得越来越复杂,因此,为了让用户拥有和谐的网络环境,需要对网络上的一些内容进行文本过滤。
在相关技术中,采用KMP搜索字库的方法过滤文本,然而,随着字库的体量越来越庞大,占用的资源越来越多,文本过滤的效率会显著下降,且无法过滤一些语义上被特殊符号分割的黑名单词汇,从而无法给网络营造完全良好的环境。
目前针对相关技术中,在对网络文本进行过滤时,存在的内存资源占用大、效率不高和过滤不完全的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了快速过滤文本的方法、系统、电子装置和存储介质,至少解决相关技术中在对网络文本进行过滤时,存在的内存资源占用大、效率不高和过滤不完全的问题。
第一方面,本申请实施例提供了一种快速过滤文本的方法,所述方法包括:
配置特殊符号过滤规则,并加载黑名单的文本词汇生成黑名单拓扑树,加载白名单的文本词汇生成白名单拓扑树;
根据所述特殊符号过滤规则,生成去除特殊符号的待过滤文本,并记录所述特殊符号信息;
通过所述黑名单拓扑树匹配和所述白名单拓扑树匹配,过滤所述待过滤文本,得到过滤文本;
将记录的所述特殊符号信息还原到所述过滤文本中,并输出最终的过滤文本。
在其中一些实施例中,在生成黑名单拓扑树和白名单拓扑树之后,所述方法包括:
为所述黑名单拓扑树和所述白名单拓扑树的节点创建搜索匹配失败的跳转链接,通过所述跳转链接深度匹配所述待过滤文本中的黑名单词汇。
在其中一些实施例中,所述通过所述黑名单拓扑树匹配和所述白名单拓扑树匹配,过滤所述待过滤文本包括:
通过所述黑名单拓扑树匹配所述待过滤文本,得到所述待过滤文本中的黑名单词汇;
通过所述白名单拓扑树匹配所述黑名单词汇,判断所述黑名单词汇在语义上是否属于白名单词汇。
在其中一些实施例中,所述判断所述黑名单词汇在语义上是否属于白名单词汇包括:
在所述黑名单词汇在语义上属于所述白名单词汇的情况下,生成得到所述过滤文本;
在所述黑名单词汇在语义上不属于所述白名单词汇的情况下,通过指定规则替换所述黑名单词汇,生成得到所述过滤文本。
第二方面,本申请实施例提供了一种快速过滤文本的系统,所述系统包括:
配置模块,用于配置特殊符号过滤规则,并加载黑名单的文本词汇生成黑名单拓扑树,加载白名单的文本词汇生成白名单拓扑树;
过滤模块,用于根据所述特殊符号过滤规则,生成去除特殊符号的待过滤文本,并记录所述特殊符号信息,
通过所述黑名单拓扑树匹配和所述白名单拓扑树匹配,过滤所述待过滤文本,得到过滤文本;
还原模块,用于将记录的所述特殊符号信息还原到所述过滤文本中,并输出最终的过滤文本。
在其中一些实施例中,在生成黑名单拓扑树和白名单拓扑树之后,
所述配置模块还用于为所述黑名单拓扑树和所述白名单拓扑树的节点创建搜索匹配失败的跳转链接,通过所述跳转链接深度匹配所述待过滤文本中的黑名单词汇。
在其中一些实施例中,所述过滤模块还用于通过所述黑名单拓扑树匹配所述待过滤文本,得到所述待过滤文本中的黑名单词汇,
通过所述白名单拓扑树匹配所述黑名单词汇,判断所述黑名单词汇在语义上是否属于白名单词汇。
在其中一些实施例中,在所述黑名单词汇在语义上属于所述白名单词汇的情况下,所述过滤模块生成得到所述过滤文本;
在所述黑名单词汇在语义上不属于所述白名单词汇的情况下,所述过滤模块通过指定规则替换所述黑名单词汇,生成得到所述过滤文本。
第三方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项所述的快速过滤文本的方法。
第四方面,本申请实施例提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项所述的快速过滤文本的方法。
相比于相关技术,本申请实施例提供的一种快速过滤文本的方法,配置特殊符号过滤规则,并加载黑名单的文本词汇生成黑名单拓扑树,加载白名单的文本词汇生成白名单拓扑树;接着根据特殊符号过滤规则,生成去除特殊符号的待过滤文本,并记录特殊符号信息;然后通过黑名单拓扑树匹配和白名单拓扑树匹配,过滤待过滤文本,得到过滤文本;最后将记录的特殊符号信息还原到过滤文本中,并输出最终的过滤文本,解决了在对网络文本进行过滤时,存在的内存资源占用大、效率不高和过滤不完全的问题,提高了文本过滤的效率和用户体验感。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种快速过滤文本的方法的应用环境示意图;
图2是根据本申请实施例的快速过滤文本方法的流程图;
图3是根据本申请实施例的节点搜索匹配失败的跳转示意图;
图4是根据本申请实施例的快速过滤文本系统的结构框图;
图5是根据本申请实施例的一种快速过滤文本的系统示意图;
图6是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请提供的快速过滤文本的方法,可以应用于如图1所示的应用环境中,图1是根据本申请实施例的一种快速过滤文本的方法的应用环境示意图,如图1所示,其中,该应用环境的系统包括服务器10和终端设备11,其中,在服务器10上配置特殊符号过滤规则,并加载黑名单的文本词汇生成黑名单拓扑树,加载白名单的文本词汇生成白名单拓扑树;接着根据特殊符号过滤规则,生成去除特殊符号的待过滤文本,并记录特殊符号信息;然后通过黑名单拓扑树匹配和白名单拓扑树匹配,过滤待过滤文本,得到过滤文本;最后将记录的特殊符号信息还原到过滤文本中,并输出最终的过滤文本,解决了在对网络文本进行过滤时,存在的内存资源占用大、效率不高和过滤不完全的问题,提高了过滤文本的效率和用户体验感。
本实施例提供了一种快速过滤文本的方法,图2是根据本申请实施例的快速过滤文本方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,配置特殊符号过滤规则,并加载黑名单的文本词汇生成黑名单拓扑树,加载白名单的文本词汇生成白名单拓扑树;这里的特殊符号过滤规则是自定义的,其中,过滤的特殊符号包括但不限于标点符号、其他的特殊文字符号等。本实施例中加载黑名单文本词汇自动生成拓扑结构的黑名单树,加载白名单文本词汇自动生成拓扑结构的白名单树,通过生成的黑名单树和白名单树能有效减少多个黑名单词汇和白名单词汇中共有字符占用的内存资源,提高文本过滤的效率。
优选的,在生成黑名单拓扑树和白名单拓扑树之后,为黑名单拓扑树和白名单拓扑树的节点创建搜索匹配失败的跳转链接,通过跳转链接深度匹配待过滤文本中的黑名单词汇。图3是根据本申请实施例的节点搜索匹配失败的跳转示意图,如图3所示,以黑名单拓扑树为例,其中,root为黑名单拓扑数的根节点。本实施例中输入黑名单词汇ABD,从根节点出发开始搜索匹配该黑名单词汇ABD,首先匹配A,服务器10发现有ABC的黑名单链,然后在匹配C的时候发现匹配失败,即C!=D,这时由于B点已经匹配过了,不需要重复匹配,因此就从深度为2的B点跳转到深度为1的B点,即如图3中的箭头1;在跳转到深度为1的B点后,继续匹配,发现有BD的黑名单链,即匹配成功,说明ABD中的黑名单词汇为BD。本实施例中通过跳转链接能深度匹配待过滤文本中的黑名单词汇,提高匹配的正确率。
步骤S202,根据特殊符号过滤规则,生成去除特殊符号的待过滤文本,并记录特殊符号信息;本实施例中根据特殊符号过滤规则,将输入文本中的特殊符号,例如:引号、逗号或句号等标点符号,过滤出来,生成去除特殊符号的待过滤文本,并记录这些特殊符号信息。经过特殊符号过滤后得到的待过滤文本只剩下文字部分,以进行接下来的黑名单词汇过滤。
步骤S203,通过黑名单拓扑树匹配和白名单拓扑树匹配,过滤待过滤文本,得到过滤文本;本实施例通过黑名单拓扑树匹配和白名单拓扑树匹配,过滤上述步骤S202中得到的,去除了特殊符号的待过滤文本,得到过滤文本。
优选的,通过黑名单拓扑树匹配和白名单拓扑树匹配,过滤待过滤文本包括:通过黑名单拓扑树匹配待过滤文本,得到待过滤文本中的黑名单词汇;通过白名单拓扑树匹配黑名单词汇,判断黑名单词汇在语义上是否属于白名单词汇。本实施例通过黑名单拓扑树匹配去除了特殊符号的待过滤文本,判断待过滤文本中是否存在黑名单词汇;如果存在,那么就通过黑名单拓扑树过滤得到待过滤文本中的黑名单词汇,如果不存在,那么说明待过滤文本中没有黑名单词汇,可以直接输出。在待过滤文本中存在黑名单词汇的情况下,通过白名单拓扑树匹配黑名单词汇,判断过滤得到的黑名单词汇在语义上是否属于白名单词汇。
优选的,在黑名单词汇在语义上属于白名单词汇的情况下,生成得到过滤文本;在黑名单词汇在语义上不属于白名单词汇的情况下,通过指定规则替换黑名单词汇,生成得到过滤文本。其中,本实施例中的指定规则是自定义的,通过自定义的规则可以将黑名单词汇替换为“***”或“···”等。本实施例通过黑名单词汇替换能有效的净化网络语言环境,提高用户体验。
步骤S204,将记录的特殊符号信息还原到过滤文本中,并输出最终的过滤文本。优选的,本实施例将步骤S202中记录得到的特殊符号信息按照原来文本的顺序,还原到过滤完黑名单词汇的过滤文本中,并输出得到最终的过滤文本。
通过上述步骤S201至步骤S204,相对于现有技术中,采用KMP搜索字库的方法过滤文本,占用的资源多,文本过滤的效率低,且无法过滤一些语义上被特殊符号分割的黑名单词汇,从而无法给网络营造完全良好的环境的问题。本实施例配置特殊符号过滤规则,并加载黑名单的文本词汇生成黑名单拓扑树,加载白名单的文本词汇生成白名单拓扑树;接着根据特殊符号过滤规则,生成去除特殊符号的待过滤文本,并记录特殊符号信息;然后通过黑名单拓扑树匹配和白名单拓扑树匹配,过滤待过滤文本,得到过滤文本;最后将记录的特殊符号信息还原到过滤文本中,并输出最终的过滤文本,解决了在对网络文本进行过滤时,存在的内存资源占用大、效率不高和过滤不完全的问题,提高了文本过滤的效率和用户体验感。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种快速过滤文本的系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本申请实施例的快速过滤文本系统的结构框图,如图4所示,该系统包括配置模块41、过滤模块42和还原模块43:
配置模块41,用于配置特殊符号过滤规则,并加载黑名单的文本词汇生成黑名单拓扑树,加载白名单的文本词汇生成白名单拓扑树;过滤模块42,用于根据特殊符号过滤规则,生成去除特殊符号的待过滤文本,并记录特殊符号信息,通过黑名单拓扑树匹配和白名单拓扑树匹配,过滤待过滤文本,得到过滤文本;还原模块43,用于将记录的特殊符号信息还原到过滤文本中,并输出最终的过滤文本。
通过上述系统,配置模块41加载黑名单文本词汇自动生成拓扑结构的黑名单树,加载白名单文本词汇自动生成拓扑结构的白名单树,通过生成的黑名单树和白名单树能有效减少多个黑名单词汇和白名单词汇中共有字符占用的内存资源,提高文本过滤的效率;过滤模块42根据特殊符号过滤规则,生成去除特殊符号的待过滤文本,并记录特殊符号信息,通过黑名单拓扑树匹配和白名单拓扑树匹配,过滤待过滤文本,得到过滤文本;还原模块43将记录的特殊符号信息还原到过滤文本中,并输出最终的过滤文本。整个系统解决了在对网络文本进行过滤时,存在的内存资源占用大、效率不高和过滤不完全的问题,提高了文本过滤的效率和用户体验感。
在其中一些实施例中,在生成黑名单拓扑树和白名单拓扑树之后,配置模块41还用于为黑名单拓扑树和白名单拓扑树的节点创建搜索匹配失败的跳转链接,通过跳转链接深度匹配待过滤文本中的黑名单词汇。如图3所示,以黑名单拓扑树为例,其中,root为黑名单拓扑数的根节点。本实施例中输入黑名单词汇ABD,从根节点出发开始搜索匹配该黑名单词汇ABD,首先匹配A,服务器10发现有ABC的黑名单链,然后在匹配C的时候发现匹配失败,即C!=D,这时由于B点已经匹配过了,不需要重复匹配,因此就从深度为2的B点跳转到深度为1的B点,即如图3中的箭头1;在跳转到深度为1的B点后,继续匹配,发现有BD的黑名单链,即匹配成功,说明ABD中的黑名单词汇为BD。本实施例中通过跳转链接能深度匹配待过滤文本中的黑名单词汇,提高匹配的正确率。置复用时间,可以错开服务器使用高峰,避免资源浪费,提高了服务器的效率。
在其中一些实施例中,过滤模块42还用于通过黑名单拓扑树匹配待过滤文本,得到待过滤文本中的黑名单词汇;通过白名单拓扑树匹配黑名单词汇,判断黑名单词汇在语义上是否属于白名单词汇。本实施例通过黑名单拓扑树匹配去除了特殊符号的待过滤文本,判断待过滤文本中是否存在黑名单词汇;如果存在,那么就通过黑名单拓扑树过滤得到待过滤文本中的黑名单词汇,如果不存在,那么说明待过滤文本中没有黑名单词汇,可以直接输出。在待过滤文本中存在黑名单词汇的情况下,通过白名单拓扑树匹配黑名单词汇,判断过滤得到的黑名单词汇在语义上是否属于白名单词汇。
在其中一些实施例中,在黑名单词汇在语义上属于白名单词汇的情况下,过滤模块42生成得到过滤文本;在黑名单词汇在语义上不属于白名单词汇的情况下,过滤模块42通过指定规则替换黑名单词汇,生成得到过滤文本。其中,本实施例中的指定规则是自定义的,通过自定义的规则可以将黑名单词汇替换为“***”或“···”等。本实施例通过黑名单词汇替换能有效的净化网络语言环境,提高用户体验。
下面结合应用场景对本发明进行详细的说明。
本发明的目的是提供一种快速过滤文本的方法和系统,图5是根据本申请实施例的一种快速过滤文本的系统示意图,如图5所示,本实施例中的快速过滤文本的技术方案的流程步骤包括:
S1,输入文本;
S2,根据配置的特殊符号过滤规则,去除输入文本中的特殊符号,生成待过滤文本并记录特殊符号信息;
S3,通过黑名单拓扑树匹配去除了特殊符号的待过滤文本,判断待过滤文本中是否存在黑名单词汇;
S4,如果不存在,那么说明待过滤文本中没有黑名单词汇,可以直接跳转到步骤S7;如果存在,那么就通过黑名单拓扑树过滤得到待过滤文本中的黑名单词汇;
S5,通过白名单拓扑树匹配黑名单词汇,判断该黑名单词汇在语义上是否属于白名单词汇;
S6,如果黑名单词汇在语义上属于白名单词汇,那么直接跳转到步骤S7;而如果黑名单词汇在语义上不属于白名单词汇,那么通过指定规则替换黑名单词汇;
S7,判断待过滤文本是否过滤完全,如果不是,则返回到步骤S3;如果是,则将记录的特殊符号信息还原到过滤完全的文本中,并输出最终的过滤文本。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
另外,结合上述实施例中的快速过滤文本的方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种快速过滤文本的方法。
在一个实施例中,图6是根据本申请实施例的电子设备的内部结构示意图,如图6所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图6所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种快速过滤文本的方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种快速过滤文本的方法,其特征在于,所述方法包括:
配置特殊符号过滤规则,并加载黑名单的文本词汇生成黑名单拓扑树,加载白名单的文本词汇生成白名单拓扑树;
根据所述特殊符号过滤规则,生成去除特殊符号的待过滤文本,并记录所述特殊符号信息;
通过所述黑名单拓扑树匹配和所述白名单拓扑树匹配,过滤所述待过滤文本,得到过滤文本;
将记录的所述特殊符号信息还原到所述过滤文本中,并输出最终的过滤文本。
2.根据权利要求1所述的方法,其特征在于,在生成黑名单拓扑树和白名单拓扑树之后,所述方法包括:
为所述黑名单拓扑树和所述白名单拓扑树的节点创建搜索匹配失败的跳转链接,通过所述跳转链接深度匹配所述待过滤文本中的黑名单词汇。
3.根据权利要求1所述的方法,其特征在于,所述通过所述黑名单拓扑树匹配和所述白名单拓扑树匹配,过滤所述待过滤文本包括:
通过所述黑名单拓扑树匹配所述待过滤文本,得到所述待过滤文本中的黑名单词汇;
通过所述白名单拓扑树匹配所述黑名单词汇,判断所述黑名单词汇在语义上是否属于白名单词汇。
4.根据权利要求3所述的方法,其特征在于,所述判断所述黑名单词汇在语义上是否属于白名单词汇包括:
在所述黑名单词汇在语义上属于所述白名单词汇的情况下,生成得到所述过滤文本;
在所述黑名单词汇在语义上不属于所述白名单词汇的情况下,通过指定规则替换所述黑名单词汇,生成得到所述过滤文本。
5.一种快速过滤文本的系统,其特征在于,所述系统包括:
配置模块,用于配置特殊符号过滤规则,并加载黑名单的文本词汇生成黑名单拓扑树,加载白名单的文本词汇生成白名单拓扑树;
过滤模块,用于根据所述特殊符号过滤规则,生成去除特殊符号的待过滤文本,并记录所述特殊符号信息,
通过所述黑名单拓扑树匹配和所述白名单拓扑树匹配,过滤所述待过滤文本,得到过滤文本;
还原模块,用于将记录的所述特殊符号信息还原到所述过滤文本中,并输出最终的过滤文本。
6.根据权利要求5所述的系统,其特征在于,在生成黑名单拓扑树和白名单拓扑树之后,
所述配置模块还用于为所述黑名单拓扑树和所述白名单拓扑树的节点创建搜索匹配失败的跳转链接,通过所述跳转链接深度匹配所述待过滤文本中的黑名单词汇。
7.根据权利要求5所述的系统,其特征在于,
所述过滤模块还用于通过所述黑名单拓扑树匹配所述待过滤文本,得到所述待过滤文本中的黑名单词汇,
通过所述白名单拓扑树匹配所述黑名单词汇,判断所述黑名单词汇在语义上是否属于白名单词汇。
8.根据权利要求7所述的系统,其特征在于,
在所述黑名单词汇在语义上属于所述白名单词汇的情况下,所述过滤模块生成得到所述过滤文本;
在所述黑名单词汇在语义上不属于所述白名单词汇的情况下,所述过滤模块通过指定规则替换所述黑名单词汇,生成得到所述过滤文本。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至4中任一项所述的快速过滤文本的方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至4中任一项所述的快速过滤文本的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110236399.3A CN113094493A (zh) | 2021-03-03 | 2021-03-03 | 快速过滤文本的方法、系统、电子装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110236399.3A CN113094493A (zh) | 2021-03-03 | 2021-03-03 | 快速过滤文本的方法、系统、电子装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113094493A true CN113094493A (zh) | 2021-07-09 |
Family
ID=76666290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110236399.3A Pending CN113094493A (zh) | 2021-03-03 | 2021-03-03 | 快速过滤文本的方法、系统、电子装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113094493A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956180A (zh) * | 2016-05-30 | 2016-09-21 | 北京京东尚科信息技术有限公司 | 一种敏感词过滤方法 |
CN109684469A (zh) * | 2018-12-13 | 2019-04-26 | 平安科技(深圳)有限公司 | 敏感词过滤方法、装置、计算机设备及存储介质 |
CN111061874A (zh) * | 2019-12-10 | 2020-04-24 | 苏州思必驰信息科技有限公司 | 敏感信息检测方法和装置 |
CN111914057A (zh) * | 2020-06-01 | 2020-11-10 | 杭州城市大数据运营有限公司 | 客服系统敏感词检测过滤方法和装置 |
-
2021
- 2021-03-03 CN CN202110236399.3A patent/CN113094493A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956180A (zh) * | 2016-05-30 | 2016-09-21 | 北京京东尚科信息技术有限公司 | 一种敏感词过滤方法 |
CN109684469A (zh) * | 2018-12-13 | 2019-04-26 | 平安科技(深圳)有限公司 | 敏感词过滤方法、装置、计算机设备及存储介质 |
CN111061874A (zh) * | 2019-12-10 | 2020-04-24 | 苏州思必驰信息科技有限公司 | 敏感信息检测方法和装置 |
CN111914057A (zh) * | 2020-06-01 | 2020-11-10 | 杭州城市大数据运营有限公司 | 客服系统敏感词检测过滤方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5744892B2 (ja) | テキストフィルタリングの方法およびシステム | |
CN111209005B (zh) | 程序文件的编译方法、装置和计算机可读存储介质 | |
US8903929B2 (en) | Forgotten attachment detection | |
JP6720626B2 (ja) | キュレートされたコンテンツ内の古くなったアイテムの除去 | |
Koppula et al. | Learning url patterns for webpage de-duplication | |
US20160357718A1 (en) | Methods and apparatus for extraction of content from an email or email threads for use in providing implicit profile attributes and content for recommendation engines | |
CN107545071B (zh) | 一种字符串匹配的方法和装置 | |
CN109522550B (zh) | 文本信息纠错方法、装置、计算机设备和存储介质 | |
EP3846089A1 (en) | Generating a knowledge graph of multiple application programming interfaces | |
CN112199473A (zh) | 一种知识问答系统中的多轮对话方法与装置 | |
Heck et al. | Horizontal traceability for just‐in‐time requirements: the case for open source feature requests | |
CA2809021C (en) | Systems and methods for lexicon generation | |
CN111143513B (zh) | 一种敏感词识别方法、装置及电子设备 | |
CN110704721A (zh) | 客户端数据处理方法、装置、终端设备及可读存储介质 | |
EP3438818B1 (en) | Method and device for compiling computer language | |
CN113094493A (zh) | 快速过滤文本的方法、系统、电子装置和存储介质 | |
CN113688240B (zh) | 威胁要素提取方法、装置、设备及存储介质 | |
CN112579472B (zh) | 测试用例的自动生成方法及装置 | |
KR101748069B1 (ko) | 동적 그래프 기반의 그래프 요약을 수행하는 장치 및 방법 | |
CN114581241A (zh) | 智能合约的处理方法和装置、处理器及电子设备 | |
CN110312166B (zh) | 直播间消息过滤方法、装置、电子设备及存储介质 | |
CN113177142A (zh) | 一种扩展图数据库存储结构方法、系统、设备和储存介质 | |
CN116757203B (zh) | 一种自然语言匹配方法、装置、计算机设备及存储介质 | |
US20180174019A1 (en) | Artificial intelligence analysis service | |
RU2775820C2 (ru) | Способ и сервер для обработки текстовой последовательности в задаче машинной обработки |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210709 |