CN112287385A - 敏感词过滤方法、装置、计算机设备和可读存储介质 - Google Patents
敏感词过滤方法、装置、计算机设备和可读存储介质 Download PDFInfo
- Publication number
- CN112287385A CN112287385A CN202011074973.1A CN202011074973A CN112287385A CN 112287385 A CN112287385 A CN 112287385A CN 202011074973 A CN202011074973 A CN 202011074973A CN 112287385 A CN112287385 A CN 112287385A
- Authority
- CN
- China
- Prior art keywords
- words
- input content
- local
- word
- matched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004590 computer program Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 10
- 230000006855 networking Effects 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本申请涉及一种敏感词过滤方法、装置、计算机设备和可读存储介质,其中,该敏感词过滤方法包括:获取用户的输入内容;将所述输入内容与本地词库中的词进行匹配;若不匹配,将所述输入内容通过互联网过滤接口与后台数据库中的词进行比对,并将所述比对的比对信息存入所述本地词库。通过本申请,解决了在保证敏感词更新的及时性的情况下,游戏项目中敏感词过滤检测的成本较高的问题,实现了在保证敏感词更新的及时性的情况下,降低游戏项目中敏感词过滤检测成本的效果。
Description
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种敏感词过滤方法、装置、计算机设备和可读存储介质。
背景技术
通常游戏中的取名、聊天、都需要进行敏感词过滤检测,对用户的输入内容进行敏感词过滤检测,能够防止恶意用户发表不当言论。目前市面敏感词过滤方法包括本地词库匹配算法和实时联网的互联网过滤接口方法。
在相关技术中,本地词库匹配算法由于是在本地进行检测,检测效果依赖本地词库的丰富程度,无法及时拦截最新的敏感词,需要额外进行本地词库维护工作,并且只有当发现新的敏感词之后才会添加到本地词库,因此本地词库的更新维护天然的具有滞后性;实时联网的互联网过滤接口方法能够及时拦截各种敏感词以及变异敏感词,但是所述方法按照检测次数计费,对于高度活跃的游戏项目而言这是一笔不小的额外开支。
目前,针对相关技术中,在保证敏感词更新的及时性的情况下,游戏项目中敏感词过滤检测的成本较高的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种敏感词过滤方法、装置、计算机设备和可读存储介质,以至少解决相关技术中,在保证敏感词更新的及时性的情况下,游戏项目中敏感词过滤检测的成本较高的问题。
第一方面,本申请实施例提供了一种敏感词过滤方法,所述方法包括:
获取用户的输入内容;
将所述输入内容与本地词库中的词进行匹配;
若不匹配,将所述输入内容通过互联网过滤接口与后台数据库中的词进行比对,并将所述比对的比对信息存入所述本地词库。
在其中一些实施例中,在所述输入内容与所述本地词库中的词不匹配之后,在将所述输入内容通过互联网过滤接口与后台数据库中的词进行比对之前,所述方法包括:在预设时间段内,将多条所述输入内容合并为一条输入内容。
在其中一些实施例中,所述本地词库包括白词库和黑词库,所述将所述输入内容与本地词库进行匹配包括:
将所述输入内容与所述白词库中的白词进行匹配;
若所述输入内容与所述白词匹配,所述输入内容过滤通过;
若所述输入内容与所述白词不匹配,将所述输入内容与所述黑词库中的黑词进行匹配,若所述输入内容与所述黑词匹配,拦截所述输入内容,若所述输入内容与所述黑词不匹配,则代表所述输入内容与所述本地词库中的词不匹配。
在其中一些实施例中,所述本地词库中的词设置有有效期,所述将所述输入内容与所述本地词库中的词进行匹配包括:将所述输入内容与所述本地词库中的处于所述有效期内的词进行匹配。
第二方面,本申请实施例提供了一种敏感词过滤装置,所述装置包括:
获取模块,用于获取用户的输入内容;
匹配模块,用于将所述输入内容与本地词库中的词进行匹配;
过滤模块,用于在所述输入内容与所述本地词库中的词不匹配的情况下,将所述输入内容通过互联网过滤接口与后台数据库中的词进行比对,并将所述比对的比对信息存入所述本地词库。
在其中一些实施例中,所述过滤模块还包括:
合并单元,用于在所述输入内容与所述本地词库中的词不匹配之后,在将所述输入内容通过互联网过滤接口与后台数据库中的词进行比对之前,在预设时间段内,将多条所述输入内容合并为一条输入内容。
在其中一些实施例中,所述本地词库包括白词库和黑词库,所述匹配模块还用于将所述输入内容与所述白词库中的白词进行匹配,若所述输入内容与所述白词匹配,所述输入内容过滤通过;若所述输入内容与所述白词不匹配,将所述输入内容与所述黑词库中的黑词进行匹配,若所述输入内容与所述黑词匹配,拦截所述输入内容,若所述输入内容与所述黑词不匹配,则代表所述输入内容与所述本地词库中的词不匹配。
在其中一些实施例中,所述本地词库中的词设置有有效期,所述匹配模块还用于将所述输入内容与所述本地词库中的处于所述有效期内的词进行匹配。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的敏感词过滤方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述第一方面所述的敏感词过滤方法。
相比于相关技术,本申请实施例提供的敏感词过滤方法,通过获取用户的输入内容,将该输入内容与本地词库中的词进行匹配,若不匹配,将该输入内容通过互联网过滤接口与后台数据库中的词进行比对,并将该比对的比对信息存入该本地词库,解决了在保证敏感词更新的及时性的情况下,游戏项目中敏感词过滤检测的成本较高的问题,实现了在保证敏感词更新的及时性的情况下,降低游戏项目中敏感词过滤检测成本的效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的敏感词过滤的方法的应用环境示意图;
图2是根据本申请实施例的敏感词过滤方法的流程图;
图3是根据本申请实施例的将输入内容与本地词库进行匹配的流程图;
图4是根据本申请实施例的敏感词过滤装置的结构框图;
图5是根据本申请实施例的另一种敏感词过滤装置的结构框图;
图6是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请提供的的敏感词过滤方法,可以应用于如图1所示的应用环境中,图1是根据本申请实施例的敏感词过滤的方法的应用环境示意图,如图1所示,其中,终端101与服务器102通过网络进行通信,服务器102通过终端101获取用户的输入内容,其中,终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本实施例提供了一种敏感词过滤方法,图2是根据本申请实施例的敏感词过滤方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取用户的输入内容,例如游戏中的取名和聊天内容;
步骤S202,将该输入内容与本地词库中的词进行匹配,例如,当输入内容为多个词汇的集合时,先将该输入内容拆解成多个单个词汇,再在本地词库中逐个遍历该拆解后的单个词汇,当输入内容为单个词汇时,直接在本地词库中遍历该单个词汇;
步骤S203,若不匹配,将该输入内容通过互联网过滤接口与后台数据库中的词进行比对,并将该比对的比对信息存入该本地词库,需要说明的是,比对信息包括:输入内容中的与本地词库匹配不上的词,及该匹配不上的词的属性,其中,词的属性包括白词或者黑词,白词为允许通过的合法文本,黑词即敏感词,为禁止通过的非法文本和/或保密文本,例如,若遍历结果为该单个词汇在本地词库中不存在,将该单个词汇通过互联网过滤接口与后台数据库中的词进行比对,并将该单个词汇及该单个词汇对应的属性(白词/黑词)存入本地词库。
通过上述步骤S201至S203,相对于现有技术中本地词库匹配算法无法及时拦截最新的敏感词,且实时联网的互联网过滤接口方法需要支付较高的检测费用的问题,本实施例先将该输入内容与本地词库中的词进行匹配,再将不匹配的输入内容进行联网比对,相当一部分的输入内容被本地词库提前匹配并处理掉,从而降低了互联网过滤接口的调用率,解决了频繁调用互联网过滤接口导致敏感词过滤检测成本高的问题,达到了在保证敏感词更新的及时性的情况下,降低游戏项目中敏感词过滤检测成本的效果,另外,由于互联网过滤接口存在故障风险,通过降低接口调用率,使得本方法的抗风险能力更高;本实施例还将联网比对的比对信息更新至本地词库,完成了本地词库的自动更新,保证敏感词更新的及时性,且无需人工维护本地词库,降低了运维成本,需要说明的是,在本方法首次使用前,可以在本地词库中预设一些常用词汇,随着本方法的多次使用,本地词库会不停的自我完善,从而增加输入内容与本地词库中的词的匹配成功率,使调用到联网接口的次数大大降低,进一步实现了降低游戏项目中敏感词过滤检测成本的效果。
在其中一些实施例中,在该输入内容与该本地词库中的词不匹配之后,在将该输入内容通过互联网过滤接口与后台数据库中的词进行比对之前,该方法包括:在预设时间段内,将多条该输入内容合并为一条输入内容,例如,若遍历结果为该单个词汇在本地词库中不存在,将该单个词汇标记为待处理词汇,当到达预设时间时,将在该预设时间段内积累的待处理词汇合并并生成一条调用请求,再去调用互联网过滤接口;作为可选的实施方式,所述预设时间段取为200毫秒;当短时间内输入多个词时,通过将在处于预设时间段内的多条该输入内容合并为一条输入内容,能够进一步降低互联网过滤接口的调用率,从而进一步降低敏感词过滤检测成本。
在其中一些实施例中,该本地词库包括白词库和黑词库,图3是根据本申请实施例的将输入内容与本地词库进行匹配的流程图,如图3所示,包括以下步骤:
步骤S301,将该输入内容与该白词库中的白词进行匹配,例如,当输入内容为多个词汇的集合时,先将该输入内容拆解成多个单个词汇,再在白词库中逐个遍历该拆解后的单个词汇,当输入内容为单个词汇时,直接在白词库中遍历该单个词汇;
步骤S302,若该输入内容与该白词匹配,该输入内容过滤通过,例如,若遍历结果为该单个词汇在白词库中存在,该单个词汇过滤通过;
步骤S303,若该输入内容与该白词不匹配,将该输入内容与该黑词库中的黑词进行匹配,若该输入内容与该黑词匹配,拦截该输入内容,若该输入内容与该黑词不匹配,则代表该输入内容与该本地词库中的词不匹配,例如,若遍历结果为该单个词汇在白词库中不存在,在黑词库中遍历该单个词汇,若遍历结果为该单个词汇在黑词库中存在,拦截该单个词汇,若遍历结果为该单个词汇在黑词库中不存在,则代表该单个词汇在两种本地词库中均不存在。
通过上述步骤S301至步骤S303,本实施例设置了白词库和黑词库两种本地词库,并将两种本地词库通过链式的方式串联起来,若该输入内容与白词词库的白词匹配,该输入内容过滤通过,若该输入内容与黑词词库的黑词匹配,拦截该输入内容,因此相比相关技术中从白词或黑词单一方面对输入内容进行匹配,本实施例从合法文本和非法文本两方面入手对该输入内容进行匹配,能够进一步降低本地词库与输入内容匹配不上的概率,从而减少到达互联网过滤接口的请求数量,使调用到联网接口的次数大大降低;本实施例经过初步的测试,取得了良好的效果,从开始的100%调用互联网过滤接口,综合降低到50%调用互联网检测接口,最多降低到13%。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,例如,由于白词库和黑词库两种本地词库通过链式的方式串联,因此在另一些实施例中,也可以先将该输入内容与该黑词库中的黑词进行匹配,若该输入内容与该黑词匹配,拦截该输入内容;若该输入内容与该黑词不匹配,将该输入内容与该白词库中的白词进行匹配,若该输入内容与该白词匹配,该输入内容过滤通过,若该输入内容与该白词不匹配,则代表该输入内容与该本地词库中的词不匹配。
考虑到白词和黑词带有时间属性,随着时间的推移,白词可能演变成黑词,黑词也可能转化成白词,因此在其中一些实施例中,该本地词库中的词设置有有效期,该将该输入内容与该本地词库中的词进行匹配包括:将该输入内容与该本地词库中的处于该有效期内的词进行匹配,例如,在本地词库中筛选出处于有效期内的词,再在处于有效期内的词的集合中遍历该单个词汇;需要说明的是,在将联网比对的比对信息更新至本地词库时,需要将黑词和/或白词,以及该黑词和/或白词对应的有效期,均存入或更新至本地词库。
本实施例还提供了一种敏感词过滤装置,该装置用于实现上述实施例,图4是根据本申请实施例的敏感词过滤装置的结构框图,如图4所示,该装置包括:获取模块41、匹配模块42和过滤模块43。
获取模块41,用于获取用户的输入内容;匹配模块42,用于将所述输入内容与本地词库中的词进行匹配;过滤模块43,用于在所述输入内容与所述本地词库中的词不匹配的情况下,将所述输入内容通过互联网过滤接口与后台数据库中的词进行比对,并将所述比对的比对信息存入所述本地词库。
作为可选的实施方式,所述本地词库中的词设置有有效期,所述匹配模块42还用于将所述输入内容与所述本地词库中的处于所述有效期内的词进行匹配。
作为可选的实施方式,所述本地词库包括白词库和黑词库,所述匹配模块42还用于将所述输入内容与所述白词库中的白词进行匹配,若所述输入内容与所述白词匹配,所述输入内容过滤通过;若所述输入内容与所述白词不匹配,将所述输入内容与所述黑词库中的黑词进行匹配,若所述输入内容与所述黑词匹配,拦截所述输入内容,若所述输入内容与所述黑词不匹配,则代表所述输入内容与所述本地词库中的词不匹配。
图5是根据本申请实施例的另一种敏感词过滤装置的结构框图,如图5所示,该装置包括图4所示的所有模块,且所述过滤模块43还包括:合并单元51,用于在所述输入内容与所述本地词库中的词不匹配之后,在将所述输入内容通过互联网过滤接口与后台数据库中的词进行比对之前,在预设时间段内,将多条所述输入内容合并为一条输入内容。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
另外,结合上述实施例中的敏感词过滤的方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种敏感词过滤的方法。
在一个实施例中,图6是根据本申请实施例的电子设备的内部结构示意图,如图6所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图6所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种敏感词过滤的方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上该实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种敏感词过滤方法,其特征在于,包括:
获取用户的输入内容;
将所述输入内容与本地词库中的词进行匹配;
若不匹配,将所述输入内容通过互联网过滤接口与后台数据库中的词进行比对,并将所述比对的比对信息存入所述本地词库。
2.根据权利要求1所述的方法,其特征在于,在所述输入内容与所述本地词库中的词不匹配之后,在将所述输入内容通过互联网过滤接口与后台数据库中的词进行比对之前,所述方法包括:在预设时间段内,将多条所述输入内容合并为一条输入内容。
3.根据权利要求1所述的方法,其特征在于,所述本地词库包括白词库和黑词库,所述将所述输入内容与本地词库进行匹配包括:
将所述输入内容与所述白词库中的白词进行匹配;
若所述输入内容与所述白词匹配,所述输入内容过滤通过;
若所述输入内容与所述白词不匹配,将所述输入内容与所述黑词库中的黑词进行匹配,若所述输入内容与所述黑词匹配,拦截所述输入内容,若所述输入内容与所述黑词不匹配,则代表所述输入内容与所述本地词库中的词不匹配。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述本地词库中的词设置有有效期,所述将所述输入内容与所述本地词库中的词进行匹配包括:将所述输入内容与所述本地词库中的处于所述有效期内的词进行匹配。
5.一种敏感词过滤装置,其特征在于,所述装置包括:
获取模块,用于获取用户的输入内容;
匹配模块,用于将所述输入内容与本地词库中的词进行匹配;
过滤模块,用于在所述输入内容与所述本地词库中的词不匹配的情况下,将所述输入内容通过互联网过滤接口与后台数据库中的词进行比对,并将所述比对的比对信息存入所述本地词库。
6.根据权利要求5所述的装置,其特征在于,所述过滤模块还包括:
合并单元,用于在所述输入内容与所述本地词库中的词不匹配之后,在将所述输入内容通过互联网过滤接口与后台数据库中的词进行比对之前,在预设时间段内,将多条所述输入内容合并为一条输入内容。
7.根据权利要求5所述的装置,其特征在于,所述本地词库包括白词库和黑词库,所述匹配模块还用于将所述输入内容与所述白词库中的白词进行匹配,若所述输入内容与所述白词匹配,所述输入内容过滤通过;若所述输入内容与所述白词不匹配,将所述输入内容与所述黑词库中的黑词进行匹配,若所述输入内容与所述黑词匹配,拦截所述输入内容,若所述输入内容与所述黑词不匹配,则代表所述输入内容与所述本地词库中的词不匹配。
8.根据权利要求5至7中任一项所述的装置,其特征在于,所述本地词库中的词设置有有效期,所述匹配模块还用于将所述输入内容与所述本地词库中的处于所述有效期内的词进行匹配。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的敏感词过滤方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至4中任一项所述的敏感词过滤方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011074973.1A CN112287385A (zh) | 2020-10-09 | 2020-10-09 | 敏感词过滤方法、装置、计算机设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011074973.1A CN112287385A (zh) | 2020-10-09 | 2020-10-09 | 敏感词过滤方法、装置、计算机设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112287385A true CN112287385A (zh) | 2021-01-29 |
Family
ID=74421808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011074973.1A Pending CN112287385A (zh) | 2020-10-09 | 2020-10-09 | 敏感词过滤方法、装置、计算机设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287385A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113824804A (zh) * | 2021-11-24 | 2021-12-21 | 飞狐信息技术(天津)有限公司 | 一种关键词检测的方法及相关装置 |
CN114648027A (zh) * | 2022-05-23 | 2022-06-21 | 每日互动股份有限公司 | 一种文本信息的处理方法、装置、计算机设备及存储介质 |
CN115186657A (zh) * | 2022-07-28 | 2022-10-14 | 北京网景盛世技术开发中心 | 错敏信息检测方法、装置、计算机设备及存储介质 |
CN115455179A (zh) * | 2022-08-22 | 2022-12-09 | 深圳行星网络科技有限公司 | 敏感词汇检测方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473326A (zh) * | 2013-09-13 | 2013-12-25 | 百度在线网络技术(北京)有限公司 | 一种提供搜索建议的方法和装置 |
CN104850574A (zh) * | 2015-02-15 | 2015-08-19 | 博彦科技股份有限公司 | 一种面向文本信息的敏感词过滤方法 |
CN108027813A (zh) * | 2015-09-18 | 2018-05-11 | 迈克菲有限责任公司 | 用于多语言文档过滤的系统和方法 |
CN111241389A (zh) * | 2019-12-30 | 2020-06-05 | 陕西数字基地出版传媒集团有限公司 | 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 |
-
2020
- 2020-10-09 CN CN202011074973.1A patent/CN112287385A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473326A (zh) * | 2013-09-13 | 2013-12-25 | 百度在线网络技术(北京)有限公司 | 一种提供搜索建议的方法和装置 |
CN104850574A (zh) * | 2015-02-15 | 2015-08-19 | 博彦科技股份有限公司 | 一种面向文本信息的敏感词过滤方法 |
CN108027813A (zh) * | 2015-09-18 | 2018-05-11 | 迈克菲有限责任公司 | 用于多语言文档过滤的系统和方法 |
CN111241389A (zh) * | 2019-12-30 | 2020-06-05 | 陕西数字基地出版传媒集团有限公司 | 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113824804A (zh) * | 2021-11-24 | 2021-12-21 | 飞狐信息技术(天津)有限公司 | 一种关键词检测的方法及相关装置 |
CN114648027A (zh) * | 2022-05-23 | 2022-06-21 | 每日互动股份有限公司 | 一种文本信息的处理方法、装置、计算机设备及存储介质 |
CN114648027B (zh) * | 2022-05-23 | 2022-09-30 | 每日互动股份有限公司 | 一种文本信息的处理方法、装置、计算机设备及存储介质 |
CN115186657A (zh) * | 2022-07-28 | 2022-10-14 | 北京网景盛世技术开发中心 | 错敏信息检测方法、装置、计算机设备及存储介质 |
CN115455179A (zh) * | 2022-08-22 | 2022-12-09 | 深圳行星网络科技有限公司 | 敏感词汇检测方法、装置、设备及存储介质 |
CN115455179B (zh) * | 2022-08-22 | 2023-06-23 | 深圳悦想网络技术有限公司 | 敏感词汇检测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287385A (zh) | 敏感词过滤方法、装置、计算机设备和可读存储介质 | |
US11856077B2 (en) | Smart caching based on reputation information | |
US10509772B1 (en) | Efficient locking of large data collections | |
US9405910B2 (en) | Automatic library detection | |
US11449570B2 (en) | Data caching method and apparatus | |
CN108717426B (zh) | 企业数据的更新方法、装置、计算机设备及存储介质 | |
CN109413153B (zh) | 数据爬取方法、装置、计算机设备和存储介质 | |
CN111008348A (zh) | 反爬虫方法、终端、服务器及计算机可读存储介质 | |
US11792178B2 (en) | Techniques for mitigating leakage of user credentials | |
CN107844488A (zh) | 数据查询方法和装置 | |
WO2018008013A2 (en) | System and method for webpages scripts validation | |
CN112019377B (zh) | 网络用户角色识别的方法、系统、电子装置和存储介质 | |
US20230252158A1 (en) | System and method for dynamically updating existing threat models based on newly identified active threats | |
CN108415767B (zh) | 服务器线程控制方法、装置、设备及可读存储介质 | |
CN111221853A (zh) | 药品清单异常检测方法、装置、计算机设备和存储介质 | |
CN112765190A (zh) | Ip数据更新方法、装置、设备及介质 | |
CN114493642A (zh) | 用户画像标签生成方法、装置、计算设备及存储介质 | |
CN112417508A (zh) | 一种数据脱敏方法、数据存储系统及存储介质和服务器 | |
CN114741628A (zh) | 一种网页加载方法及相关装置 | |
US11934531B2 (en) | System and method for automatically identifying software vulnerabilities using named entity recognition | |
CN108737458B (zh) | 一种用于控制流量的方法及装置 | |
CN116304458B (zh) | 一种web页面实时通知更新方法、装置、设备及介质 | |
CN112667730B (zh) | 一种外部数据验证方法、系统、设备及存储介质 | |
CN113645064B (zh) | 任务下发方法、装置、电子设备及存储介质 | |
CN115905304A (zh) | 目标数据库中基于标注的函数调用折叠方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |