CN107025239B - 敏感词过滤的方法和装置 - Google Patents

敏感词过滤的方法和装置 Download PDF

Info

Publication number
CN107025239B
CN107025239B CN201610070729.5A CN201610070729A CN107025239B CN 107025239 B CN107025239 B CN 107025239B CN 201610070729 A CN201610070729 A CN 201610070729A CN 107025239 B CN107025239 B CN 107025239B
Authority
CN
China
Prior art keywords
sensitive
word
column
kth
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610070729.5A
Other languages
English (en)
Other versions
CN107025239A (zh
Inventor
彭杰明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOYA ONLINE GAME DEVELOPMENT (SHENZHEN) Co Ltd
Original Assignee
BOYA ONLINE GAME DEVELOPMENT (SHENZHEN) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOYA ONLINE GAME DEVELOPMENT (SHENZHEN) Co Ltd filed Critical BOYA ONLINE GAME DEVELOPMENT (SHENZHEN) Co Ltd
Priority to CN201610070729.5A priority Critical patent/CN107025239B/zh
Publication of CN107025239A publication Critical patent/CN107025239A/zh
Application granted granted Critical
Publication of CN107025239B publication Critical patent/CN107025239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明提出了一种敏感词过滤的方法,通过接收待检查的文本内容,将接收到的文本内容进行分词处理,将处理得到的分词与敏感词库中的敏感词进行匹配,若匹配成功,则将所述分词标记为敏感词,并将标记为敏感词的分词进行隐藏处理。该方法通过计算机将接收到的文本内容进行分词处理,进而将得到的分词与敏感库中的敏感词进行匹配,若匹配成功,则将该分词标记为敏感词,并进行隐藏处理,这个过程全自动进行,提高了敏感词查找的效率。此外,还提出了一种敏感词过滤的装置。

Description

敏感词过滤的方法和装置
技术领域
本发明涉及网络技术领域,特别是涉及一种敏感词过滤方法和装置。
背景技术
互联网的出现极大地促进了各种信息内容在用户之间的发布和传播,例如,即时通信工具因其可以方便、快捷的完成客户端之间的沟通而被越来越多的人使用。在这个过程中,常常会有人利用各种互联网工具发送包括“敏感词”的文本信息。其中,敏感词包括不文明词汇、涉及国家安全的词汇等。传统的对文本内容中的敏感词的识别大多通过人工方式来进行的,但是通过人工方式检查不仅耗时耗力,而且效率低。
发明内容
基于此,为了解决上述查找敏感词效率低的问题,提出了一种敏感词过滤方法和装置。
一种敏感词过滤的方法,所述方法包括:接收待检查的文本内容;将接收到的所述文本内容进行分词处理;将处理得到的分词与敏感词库中的敏感词进行匹配;若匹配成功,则将所述分词标记为敏感词;将所述标记为敏感词的分词进行隐藏处理。
在其中一个实施例中,在所述接收待检查的文本内容的步骤之前还包括:建立树状敏感词库,包括:将敏感词中的第一个字作为第一层节点,将所述敏感词中的第二个字作为第二层节点,将具有相同第一个字和第二个字的所有敏感词作为第三层。
在其中一个实施例中,所述将接收到的所述文本内容进行分词处理的步骤为:根据文本内容的长度n和敏感词库中的最大敏感词长度m进行分词处理,建立分词列表;所述建立分词列表的步骤包括:将文本内容中的第k个字放入第一列第k行的位置,将文本内容中的第k个和第k+1个字放入第二列第k行的位置,依次类推,直到将第k至第k+m-1个字放入第m列第k行的位置,其中,所述k为大于0小于n的正整数,k+m-1小于等于n的正整数。
在其中一个实施例中,所述将处理得到的分词与敏感词库中的敏感词进行匹配的步骤包括:在敏感词库的第一层节点中查找与所述分词列表中第一列第k行匹配的关键字,其中,首次读取所述分词列表中的第一列第一行中的分词,之后每次读取第一列中下一行中的分词;若在所述敏感词库的第一层节点中未查找到与所述第一列第k行匹配的关键字,则继续在所述第一层节点中查找与第一列第k+1行匹配的关键字;若在所述敏感词库的第一层节点中查找到了与所述第一列第k行匹配的关键字,则在所述第一层节点下的第二层节点中查找与第k行第二列分词中的第二个字匹配的关键字,如果在所述第二层节点中未查到与所述第k行第二列分词中的第二个字匹配的关键字,则回到敏感词库的第一层节点查找与第一列第k+1行匹配的关键字;如果在所述第二层节点中查找到了与第k行第二列分词中的第二个字匹配的关键字,则获取与所述第二层节点对应的敏感词列表,在所述敏感词列表中查找与第k行中的分词匹配的敏感词。
在其中一个实施例中,所述将标记为敏感词的分词进行隐藏处理的步骤为:用符号代替标记为敏感词的分词。
一种敏感词过滤的装置,所述装置包括:接收模块,用于接收待检查的文本内容;分词模块,用于将接收到的所述文本内容进行分词处理;匹配模块,用于将处理得到的分词与敏感词库中的敏感词进行匹配;标记模块,用于若分词与敏感词库中的敏感词匹配成功,则将所述分词标记为敏感词;
隐藏模块,用于将所述标记为敏感词的分词进行隐藏处理。
在其中一个实施例中,所述装置还包括:建立模块,用于建立树状敏感词库,包括:将敏感词中的第一个字作为第一层节点,将所述敏感词中的第二个字作为第二层节点,将具有相同第一个字和第二个字的所有敏感词作为第三层。
在其中一个实施例中,所述分词模块还用于根据文本内容的长度n和敏感词库中的最大敏感词长度m进行分词处理,建立分词列表;所述建立分词列表的步骤包括:将文本内容中的第k个字放入第一列第k行的位置,将文本内容中的第k个和第k+1个字放入第二列第k行的位置,依次类推,直到将第k至第k+m-1个字放入第m列第k行的位置,其中,所述k为大于0小于n的正整数,k+m-1小于等于n的正整数。
在其中一个实施例中,所述匹配模块还用于在敏感词库的第一层节点中查找与所述分词列表中第一列第k行匹配的关键字,其中,首次读取所述分词列表中的第一列第一行中的分词,之后每次读取第一列中下一行中的分词;若在所述敏感词库的第一层节点中未查找到与所述第一列第k行匹配的关键字,则继续在所述第一层节点中查找与第一列第k+1行匹配的关键字;若在所述敏感词库的第一层节点中查找到了与所述第一列第k行匹配的关键字,则在所述第一层节点下的第二层节点中查找与第k行第二列分词中的第二个字匹配的关键字,如果在所述第二层节点中未查到与所述第k行第二列分词中的第二个字匹配的关键字,则回到敏感词库的第一层节点查找与第一列第k+1行匹配的关键字;如果在所述第二层节点中查找到了与第k行第二列分词中的第二个字匹配的关键字,则获取与所述第二层节点对应的敏感词列表,在所述敏感词列表中查找与第k行中的分词匹配的敏感词。
在其中一个实施例中,所述标记模块还用于用符号代替标记为敏感词的分词。
上述敏感词过滤的方法和装置,通过接收待检查的文本内容,将接收到的文本内容进行分词处理,将处理得到的分词与敏感词库中的敏感词进行匹配,若匹配成功,则将所述分词标记为敏感词,并将标记为敏感词的分词进行隐藏处理。该方法通过计算机将接收到的文本内容进行分词处理,进而将得到的分词与敏感库中的敏感词进行匹配,若匹配成功,则将该分词标记为敏感词,并进行隐藏处理,这个过程全自动进行,提高了敏感词查找的效率。
附图说明
图1为一个实施例中敏感词过滤的方法流程图;
图2为另一个实施例中敏感词过滤的方法流程图;
图3为一个实施例中敏感词库的示意图;
图4为一个实施例中将分词与敏感词库匹配的方法流程图;
图5为一个实施例中敏感词过滤装置的结构框图;
图6为另一个实施例中敏感词过滤装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,提出了一种敏感词过滤的方法,该方法包括:
步骤102,接收待检查的文本内容。
在本实施例中,服务器接收终端发送的待检查的文本内容。具体的,终端首先接收用户输入的文本内容,再将所接收的文本内容作为待检查的文本内容上传到服务器,服务器接收终端发送的待检查的文本内容。
步骤104,将接收到的文本内容进行分词处理。
具体的,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。将接收到的文本内容进行分词处理,就是要将文本内容划分为一个个的字或词,便于后续与敏感词库中的敏感词进行匹配。在本实施例中,是根据文本内容的长度和敏感词库中最大敏感词长度(即敏感词库中最长的敏感词的长度)来确定具体的分词数目的。比如,假设敏感词库中最大敏感词长度为4,那么进行分词时,分别将文本内容,分为一个字,两个字,三个字和四个字的词。
步骤106,将处理得到的分词与敏感词库中的敏感词进行匹配,若匹配成功,则进入步骤108,若匹配失败,则结束。
具体的,敏感词库为树状敏感词库,其中,敏感词的第一个字作为第一层节点,敏感词的第二个字作为第二层节点,将具有相同第一个字和第二个字的所有敏感词作为第三层,具有相同第一个字和第二个字的所有敏感词组成了第二层节点下的敏感词列表。将处理得到的分词与敏感词库中的敏感词进行匹配,若匹配成功,则将该分词进行标记,若匹配失败,则说明该分词不是敏感词,不作处理。
步骤108,将分词标记为敏感词。
具体的,当分词与敏感库中的敏感词匹配成功时,说明该分词为敏感词,将该分词进行标记,便于后续进行隐藏处理。
步骤110,将标记为敏感词的分词进行隐藏处理。
具体的,将标记为敏感词的分词用其他字符代替或者不显示。比如,可以用“*”代替标记为敏感词的分词,这样在用户端,该敏感词就显示为“*”。
在本实施例中,通过接收待检查的文本内容,将接收到的文本内容进行分词处理,将处理得到的分词与敏感词库中的敏感词进行匹配,若匹配成功,则将所述分词标记为敏感词,并将标记为敏感词的分词进行隐藏处理。该方法通过计算机将接收到的文本内容进行分词处理,进而将得到的分词与敏感库中的敏感词进行匹配,若匹配成功,则将该分词标记为敏感词,并进行隐藏处理,这个过程全自动进行,提高了敏感词查找的效率。
如图2所示,在一个实施例中,在接收待检查的文本内容的步骤之前还包括:步骤101,建立树状敏感词库,包括:将敏感词中的第一个字作为第一层节点,将所述敏感词中的第二个字作为第二层节点,将具有相同第一个字和第二个字的所有敏感词作为第三层。
具体的,树状敏感词一共分为三层,其中,将敏感词中的第一个字作为第一层节点,将敏感词的第二个字作为第二层节点,将具有相同第一个字和第二个字的所有敏感词作为第三层。比如将“真钱斗”,“真钱投注”,“真钱赌博”,“真实文凭”,“真实资格”,“真实视频”等词作为敏感词,在敏感词库中的表示如图3所示,其中,敏感词的第一个字“真”作为第一层节点,第二个字“钱”或“实”作为第二层节点,“真钱斗”,“真钱投注”,“真钱赌博”“真实文凭”,“真实资格”,“真实视频”在第三层。
在一个实施例中,将接收到的所述文本内容进行分词处理的步骤为:根据文本内容的长度n和敏感词库中的最大敏感词长度m进行分词处理,建立分词列表;所述建立分词列表的步骤包括:将文本内容中的第k个字放入第一列第k行的位置,将文本内容中的第k个和第k+1个字放入第二列第k行的位置,依次类推,直到将第k至第k+m-1个字放入第m列第k行的位置,其中,所述k为大于0小于n的正整数,k+m-1小于等于n的正整数。
在本实施例中,将接收到的文本内容进行分词处理是根据文本内容的长度n和敏感词库中的最大敏感词长度m来进行分词处理的,建立分词列表,通过将文本内容中的第k个放入分词列表中的第一列第k行的位置,将文本内容中的第k个和第k+1个字放入第二列第k行的位置,依次类推,直到将第k至第k+m-1个字放入第m列第k行的位置,其中,n为文本内容的长度,m为敏感词库中最大的敏感词长度,k为大于0小于等于n的正整数,k+m-1小于等于n的正整数。最终的分词总数为nm-[m(m-1)/2]。具体的,假设敏感词库中最大的敏感词长度为4,输入的文本内容长度为5,那么其总的分词总数为18。比如,文本内容为“我是博雅人”,首先,将文本内容的第一个字“我”放入分词列表中的第一列第一行的位置,将第一个字“我”和第二个字“是”一起放入第二列第一行的位置,依次类推,直到将第一个字至第四个字“我是博雅”一起放入第四列第一行的位置。按照上述规则,将文本内容的第二个字“是”放入分词列表中的第一列第二行的位置,依次类推。最后得到的分词列表如表1所示:
表1
如图4所示,在一个实施例中,将处理得到的分词与敏感词库中的敏感词进行匹配的步骤包括:
步骤106a,在敏感词库的第一层节点中查找与分词列表中第一列第k行匹配的关键字,其中,首次读取分词列表中的第一列第一行中的分词,之后每次读取第一列中下一行中的分词;若匹配失败则进入步骤106b,若匹配成功,则进入步骤106c。
具体的,首先在敏感词库中的第一层节点查找与分词列表中第一列第k行匹配的敏感词,其中,k为大于0小于等于文字内容长度n的正整数,第一列中的分词为单个字的分词,如表1所示。首次读取分词列表中的分词是从第一列的第一行开始的,之后每次读取第一列中下一行中的分词。若在敏感词库的第一层节点中没有查找到与第一列第k行匹配的关键词,则继续在敏感词库中的第一层节点查找与第一列第k+1行匹配的关键词。若在敏感词库中的第一层节点中查找到了与第一列第k行匹配的关键词,则继续在敏感词库中的第二层节点中查找与第k行第二列分词中的第二个字匹配的关键词。
步骤106b,在第一层节点中查找与第一列第k+1行匹配的关键字。
具体的,当在敏感词库中的第一层节点中没有查找到与分词列表中的第一列第k行匹配的关键词,则继续在敏感词库中的第一层节点中查找与第一列第k+1行匹配的关键词,依次类推。
步骤106c,在第一层节点下的第二层节点中查找与第k行第二列分词中的第二个字匹配的关键字,若匹配失败,则进入步骤106b,若匹配成功,则进入步骤106d。
具体的,当在敏感词库中的第一层节点中查找到了与分词列表中的第一列第k行匹配的关键词,则在该第一层节点下的第二层节点中查找与第k行第二列分词中的第二个字匹配的关键词,如果在敏感词库中的第二层节点没有查找到与第k行第二列匹配的关键词,则回到到第一层节点查找与第一列第k+1行匹配的关键词。如果在该第一层节点下的第二层节点中查找到了与第k行第二列匹配的关键词,则获取与该第二层节点对应的敏感词列表,在该敏感词列表中查找与第k行中的分词匹配的敏感词。
步骤106d,获取与第二层节点对应的敏感词列表,在敏感词列表中查找与第k行中的分词匹配的敏感词,若匹配成功,则进入步骤108,若匹配失败,则进入步骤106b。
具体的,当在第一层节点下的第二层节点中查找到了与第k行第二列匹配的关键词,则在敏感词列表中查找与第k行中的分词匹配的敏感词,若匹配成功,则将对应的分词标记为敏感词。若匹配失败,则回到第一层节点查找与第一列第k+1行匹配的关键字。
在本实施例中,通过建立分词列表,根据上述设定的规则将分词列表中的分词与敏感词库中的敏感词进行匹配,该算法先在第一层节点中匹配关键字,只有匹配到关键字才进入第二层节点,该算法时间复杂度低,最好的情况下时间复制度为O(n),最坏的情况下时间复杂度为O(nm),其中,n表示文本内容的长度,m表示敏感词库中最大敏感词的长度,其中,O(n)、O(nm)为线性阶。
在一个实施例中,将处理得到的分词与敏感词库中的敏感词进行匹配的具体过程为:将分词列表按照XY轴结构组织,将分词列表中的行作为X轴,将列作为Y轴,以表1为例来进行说明,分词列表的行1,2,3,4分别表示X1,X2,X3,X4;分词列表的列1,2,3,4,5分别表示为Y1,Y2,Y3,Y4,Y5。比如,“我”所在的位置为X1Y1。将文本内容“我是博雅人”与敏感词库匹配的步骤如下:首先,取X1Y1位置的“我”与敏感词库中的第一层节点匹配,此时时间复杂度为O(1),如果匹配不成功,则说明处于Y1横轴上的词不存在于于敏感词库中,可直接跳过Y1横轴上的其他分词匹配,接下来去取X1Y2位置的“是”与敏感词库中的第一层节点匹配。如果匹配成功,则取X2Y1位置的“我是”中的第二个“是”字与第一层节点“我”下的第二层节点匹配,如果匹配不成功,同样可直接跳过Y1横轴上的其他分词,接下来去取X1Y2位置的“是”与敏感词库中的第一层节点匹配。若匹配成功,则取出该第二层节点下的敏感词列表,与Y1轴中剩下的分词进行匹配,若匹配成功,则将对应的分词标记为敏感词。
具体的,参考图3中的敏感词库,当取到X1Y4位置的“博”可在敏感词库中的第一层节点中匹配到“博”,则继续取X2Y4位置的“博雅”中的第二个字“雅”与第一层节点“博”下面的第二层节点匹配,发现匹配到了第二层节点中的“雅”,接下来取第二层节点“雅”对应的敏感词列表(“博雅”,“博雅人”,“博雅棋牌”),将Y4横轴上的分词与敏感词列表匹配,最后,标记出“博雅”“博雅人”为敏感词,将原始文本内容中的“博雅”“博雅人”替换为“*”,则最终在用户端显示为“我是***”。
在一个实施例中,将标记为敏感词的分词进行隐藏处理的步骤为:用符号代替标记为敏感词的分词。
具体的,将标记为敏感词的分词用其他符号代替进行隐藏。比如,可以用“*”代替标记为敏感词的分词,这样在用户端,该敏感词就显示为“*”。
如图5所示,在一个实施例中,提出了一种敏感词过滤的装置,所述装置包括:
接收模块502,用于接收待检查的文本内容;
分词模块504,用于将接收到的所述文本内容进行分词处理;
匹配模块506,用于将处理得到的分词与敏感词库中的敏感词进行匹配;
标记模块508,用于若分词与敏感词库中的敏感词匹配成功,则将所述分词标记为敏感词;
隐藏模块510,用于将所述标记为敏感词的分词进行隐藏处理。
如图6所示,在一个实施例中,上述敏感词过滤的装置还包括:
建立模块501,用于建立树状敏感词库,包括:将敏感词中的第一个字作为第一层节点,将所述敏感词中的第二个字作为第二层节点,将具有相同第一个字和第二个字的所有敏感词作为第三层。
在一个实施例中,分词模块504还用于根据文本内容的长度n和敏感词库中的最大敏感词长度m进行分词处理,建立分词列表;所述建立分词列表的步骤包括:将文本内容中的第k个字放入第一列第k行的位置,将文本内容中的第k个和第k+1个字放入第二列第k行的位置,依次类推,直到将第k至第k+m-1个字放入第m列第k行的位置,其中,所述k为大于0小于n的正整数,k+m-1小于等于n的正整数。
在一个实施例中,匹配模块506还用于在敏感词库的第一层节点中查找与所述分词列表中第一列第k行匹配的关键字,其中,首次读取所述分词列表中的第一列第一行中的分词,之后每次读取第一列中下一行中的分词;若在所述敏感词库的第一层节点中未查找到与所述第一列第k行匹配的关键字,则继续在所述第一层节点中查找与第一列第k+1行匹配的关键字;若在所述敏感词库的第一层节点中查找到了与所述第一列第k行匹配的关键字,则在所述第一层节点下的第二层节点中查找与第k行第二列分词中的第二个字匹配的关键字,如果在所述第二层节点中未查到与所述第k行第二列分词中的第二个字匹配的关键字,则回到敏感词库的第一层节点查找与第一列第k+1行匹配的关键字;如果在所述第二层节点中查找到了与第k行第二列分词中的第二个字匹配的关键字,则获取与所述第二层节点对应的敏感词列表,在所述敏感词列表中查找与第k行中的分词匹配的敏感词。
在一个实施例中,标记模块508还用于用符号代替标记为敏感词的分词。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种敏感词过滤的方法,所述方法包括:
接收待检查的文本内容;
将接收到的所述文本内容进行分词处理;
将处理得到的分词与敏感词库中的敏感词进行匹配;
若匹配成功,则将所述分词标记为敏感词;
将所述标记为敏感词的分词进行隐藏处理;
所述将接收到的所述文本内容进行分词处理的步骤为:
根据文本内容的长度n和敏感词库中的最大敏感词长度m进行分词处理,建立分词列表;
所述将处理得到的分词与敏感词库中的敏感词进行匹配的步骤包括:
在敏感词库的第一层节点中查找与所述分词列表中第一列第k行匹配的关键字,其中,首次读取所述分词列表中的第一列第一行中的分词,之后每次读取第一列中下一行中的分词;
若在所述敏感词库的第一层节点中查找到了与所述第一列第k行匹配的关键字,则在所述第一层节点下的第二层节点中查找与第k行第二列分词中的第二个字匹配的关键字,如果在所述第二层节点中未查到与所述第k行第二列分词中的第二个字匹配的关键字,则回到敏感词库的第一层节点查找与第一列第k+1行匹配的关键字;如果在所述第二层节点中查找到了与第k行第二列分词中的第二个字匹配的关键字,则获取与所述第二层节点对应的敏感词列表,在所述敏感词列表中查找与第k行中的分词匹配的敏感词。
2.根据权利要求1所述的方法,其特征在于,所述建立分词列表的步骤包括:
将文本内容中的第k个字放入第一列第k行的位置,将文本内容中的第k个和第k+1个字放入第二列第k行的位置,依次类推,直到将第k至第k+m-1个字放入第m列第k行的位置,其中,所述k为大于0小于n的正整数,k+m-1为小于等于n的正整数。
3.根据权利要求2所述的方法,其特征在于,若在所述敏感词库的第一层节点中未查找到与所述第一列第k行匹配的关键字,则继续在所述第一层节点中查找与第一列第k+1行匹配的关键字。
4.根据权利要求1所述的方法,其特征在于,所述将标记为敏感词的分词进行隐藏处理的步骤为:用符号代替标记为敏感词的分词。
5.根据权利要求1所述的方法,其特征在于,在所述接收待检查的文本内容的步骤之前还包括:建立树状敏感词库,包括:将敏感词中的第一个字作为第一层节点,将所述敏感词中的第二个字作为第二层节点,将具有相同第一个字和第二个字的所有敏感词作为第三层。
6.一种敏感词过滤的装置,所述装置包括:
接收模块,用于接收待检查的文本内容;
分词模块,用于将接收到的所述文本内容进行分词处理;
匹配模块,用于将处理得到的分词与敏感词库中的敏感词进行匹配;
标记模块,用于若分词与敏感词库中的敏感词匹配成功,则将所述分词标记为敏感词;
隐藏模块,用于将所述标记为敏感词的分词进行隐藏处理;
所述分词模块还用于根据文本内容的长度n和敏感词库中的最大敏感词长度m进行分词处理,建立分词列表;
所述匹配模块还用于在敏感词库的第一层节点中查找与所述分词列表中第一列第k行匹配的关键字,其中,首次读取所述分词列表中的第一列第一行中的分词,之后每次读取第一列中下一行中的分词;
若在所述敏感词库的第一层节点中查找到了与所述第一列第k行匹配的关键字,则在所述第一层节点下的第二层节点中查找与第k行第二列分词中的第二个字匹配的关键字,如果在所述第二层节点中未查到与所述第k行第二列分词中的第二个字匹配的关键字,则回到敏感词库的第一层节点查找与第一列第k+1行匹配的关键字;如果在所述第二层节点中查找到了与第k行第二列分词中的第二个字匹配的关键字,则获取与所述第二层节点对应的敏感词列表,在所述敏感词列表中查找与第k行中的分词匹配的敏感词。
7.根据权利要求6所述的装置,其特征在于,所述建立分词列表的步骤包括:将文本内容中的第k个字放入第一列第k行的位置,将文本内容中的第k个和第k+1个字放入第二列第k行的位置,依次类推,直到将第k至第k+m-1个字放入第m列第k行的位置,其中,所述k为大于0小于n的正整数,k+m-1为小于等于n的正整数。
8.根据权利要求7所述的装置,其特征在于,若在所述敏感词库的第一层节点中未查找到与所述第一列第k行匹配的关键字,则继续在所述第一层节点中查找与第一列第k+1行匹配的关键字。
9.根据权利要求6所述的装置,其特征在于,所述标记模块还用于用符号代替标记为敏感词的分词。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
建立模块,用于建立树状敏感词库,包括:将敏感词中的第一个字作为第一层节点,将所述敏感词中的第二个字作为第二层节点,将具有相同第一个字和第二个字的所有敏感词作为第三层。
11.一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN201610070729.5A 2016-02-01 2016-02-01 敏感词过滤的方法和装置 Active CN107025239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610070729.5A CN107025239B (zh) 2016-02-01 2016-02-01 敏感词过滤的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610070729.5A CN107025239B (zh) 2016-02-01 2016-02-01 敏感词过滤的方法和装置

Publications (2)

Publication Number Publication Date
CN107025239A CN107025239A (zh) 2017-08-08
CN107025239B true CN107025239B (zh) 2019-12-27

Family

ID=59524616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610070729.5A Active CN107025239B (zh) 2016-02-01 2016-02-01 敏感词过滤的方法和装置

Country Status (1)

Country Link
CN (1) CN107025239B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107807994A (zh) * 2017-11-08 2018-03-16 米哈游科技(上海)有限公司 一种敏感词检测方法、装置、设备及介质
CN108052529A (zh) * 2017-11-09 2018-05-18 福建省天奕网络科技有限公司 一种敏感词过滤方法及终端
CN107977423A (zh) * 2017-11-27 2018-05-01 厦门二五八网络科技集团股份有限公司 基于含有违法词的互联网文章自动过滤处理方法及系统
CN107992578B (zh) * 2017-12-06 2019-11-22 山西睿信智达传媒科技股份有限公司 敏感视频源的数据库自动检测方法
CN109916424A (zh) * 2017-12-12 2019-06-21 上海博泰悦臻网络技术服务有限公司 数据处理方法、导航终端、服务器、导航系统
CN109033150B (zh) * 2018-06-12 2024-01-30 平安科技(深圳)有限公司 敏感词验证方法、装置、计算机设备及存储介质
CN108920677A (zh) * 2018-07-09 2018-11-30 华中师范大学 问卷调查方法、调查系统及电子设备
CN109284438A (zh) * 2018-08-15 2019-01-29 深圳点猫科技有限公司 一种利用前端编程语言过滤敏感词的方法以及电子设备
CN109684469B (zh) * 2018-12-13 2023-06-06 平安科技(深圳)有限公司 敏感词过滤方法、装置、计算机设备及存储介质
CN111723571A (zh) * 2020-06-12 2020-09-29 上海极链网络科技有限公司 一种文本信息审核方法及系统
CN113157904B (zh) * 2021-03-30 2024-02-09 北京优医达智慧健康科技有限公司 基于dfa算法的敏感词过滤方法及系统
CN113221554A (zh) * 2021-04-27 2021-08-06 北京字跳网络技术有限公司 文本处理方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682090A (zh) * 2012-04-26 2012-09-19 焦点科技股份有限公司 一种基于聚合词树的敏感词匹配处理系统及方法
CN102880636A (zh) * 2012-08-03 2013-01-16 深圳证券信息有限公司 不良信息检测方法及服务端
CN103186845A (zh) * 2011-12-29 2013-07-03 盈世信息科技(北京)有限公司 一种垃圾邮件过滤方法
CN103516915A (zh) * 2012-06-27 2014-01-15 百度在线网络技术(北京)有限公司 在移动终端通话过程中敏感词汇的替换方法、系统及装置
CN104850574A (zh) * 2015-02-15 2015-08-19 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7403526B1 (en) * 2004-05-17 2008-07-22 Cisco Technology, Inc. Partitioning and filtering a search space of particular use for determining a longest prefix match thereon
US7379870B1 (en) * 2005-02-03 2008-05-27 Hrl Laboratories, Llc Contextual filtering

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186845A (zh) * 2011-12-29 2013-07-03 盈世信息科技(北京)有限公司 一种垃圾邮件过滤方法
CN102682090A (zh) * 2012-04-26 2012-09-19 焦点科技股份有限公司 一种基于聚合词树的敏感词匹配处理系统及方法
CN103516915A (zh) * 2012-06-27 2014-01-15 百度在线网络技术(北京)有限公司 在移动终端通话过程中敏感词汇的替换方法、系统及装置
CN102880636A (zh) * 2012-08-03 2013-01-16 深圳证券信息有限公司 不良信息检测方法及服务端
CN104850574A (zh) * 2015-02-15 2015-08-19 博彦科技股份有限公司 一种面向文本信息的敏感词过滤方法

Also Published As

Publication number Publication date
CN107025239A (zh) 2017-08-08

Similar Documents

Publication Publication Date Title
CN107025239B (zh) 敏感词过滤的方法和装置
CN107463666B (zh) 一种基于文本内容的敏感词过滤方法
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
US9195738B2 (en) Tokenization platform
US8577882B2 (en) Method and system for searching multilingual documents
CN106033416A (zh) 一种字符串处理方法及装置
CN110941959B (zh) 文本违规检测、文本还原方法、数据处理方法及设备
CN105045847B (zh) 一种从文本信息中提取中文机构单位名称的方法
CN111159363A (zh) 一种基于知识库的问题答案确定方法及装置
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
CN106933878B (zh) 一种信息处理方法及装置
CN107153469B (zh) 为输入数据搜索匹配候选项的方法、数据库创建方法、装置及计算机程序产品
WO2015062377A1 (zh) 一种相似文本检测装置、方法以及应用
CN108932434B (zh) 一种基于机器学习技术的数据加密方法及装置
CN111310224B (zh) 日志脱敏方法、装置、计算机设备及计算机可读存储介质
CN111062199B (zh) 一种不良信息识别方法及装置
CN111274428B (zh) 一种关键词的提取方法及装置、电子设备、存储介质
CN107169065B (zh) 一种特定内容的去除方法和装置
Chambers et al. Character-based models for adversarial phone extraction: Preventing human sex trafficking
CN107665443A (zh) 获取目标用户的方法及装置
Danisch et al. Unfolding ego-centered community structures with “a similarity approach”
JP2020181332A (ja) 高精度類似画像検索方法、プログラム及び高精度類似画像検索装置
CN115270800B (zh) 终端门店名称的提取方法、装置、设备和计算机存储介质
CN105653912B (zh) 一种识别批量注册行为的方法及装置
TW201333735A (zh) 中文網路資訊監測分析系統及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant