CN107463666A - 一种基于文本内容的敏感词过滤方法 - Google Patents

一种基于文本内容的敏感词过滤方法 Download PDF

Info

Publication number
CN107463666A
CN107463666A CN201710651487.3A CN201710651487A CN107463666A CN 107463666 A CN107463666 A CN 107463666A CN 201710651487 A CN201710651487 A CN 201710651487A CN 107463666 A CN107463666 A CN 107463666A
Authority
CN
China
Prior art keywords
sensitive
word
transferred
character
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710651487.3A
Other languages
English (en)
Other versions
CN107463666B (zh
Inventor
李英祥
吴珊
胡志恒
李倩宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou YanXu Network Technology Co., Ltd
Original Assignee
Chengdu Delta Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Delta Information Technology Co Ltd filed Critical Chengdu Delta Information Technology Co Ltd
Priority to CN201710651487.3A priority Critical patent/CN107463666B/zh
Publication of CN107463666A publication Critical patent/CN107463666A/zh
Application granted granted Critical
Publication of CN107463666B publication Critical patent/CN107463666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于文本内容的敏感词过滤方法,包括以下步骤:构建中文敏感词库,将中文敏感词库中的中文词向中拼混合词进行扩充,形成中拼混合敏感词库;通过敏感词查找树结构建立确定有限状态自动机中各个敏感词的转换函数,将中拼混合敏感词库中的敏感词构建成敏感词树;根据敏感词树的结构在文本中对敏感词进行检索,对检索到的敏感词使用指定符号进行替换,完成敏感词过滤;本发明查全率高、在实际应用中易于实现。

Description

一种基于文本内容的敏感词过滤方法
技术领域
本发明涉及敏感词过滤领域,具体涉及一种基于文本内容的敏感词过滤方法。
背景技术
互联网给人们一个自由、便捷和开放的空间,任何人都可以在虚拟的世界里畅所欲言;因此海量的网络信息出现在人们;人们在享受快捷、方便的同时,大量的违法、暴力等敏感信息也接踵而至,给社会造成了严重的负面影响;敏感信息会通过各种载体进行传播,主要有图片、声音、视频和文字等;如今,敏感信息充斥着网络中的每个角落,从制度上进行瓜里不能达到很好的效果,从技术上及时发现、追踪和处理敏感信息对于降低互联网中的敏感信息对社会的危害起到举足轻重的作用;因此,在信息处理领域中,敏感信息过滤成为其中一项紧迫而重要的技术问题;由于英文单词之间有空格来进行分隔,并且英文中只包含26个字母,但中文字词间除了必须的标点符号之外,没有明显的分隔符;并且汉字的数量庞大,因此许多英文敏感信息过滤算法对于中文敏感信息的过滤并不合适;如果想要达到对敏感信息更好的过滤,就必须研究一种能在信息源、传播途径中、接收端都实用的中文敏感信息过滤算法。
早期的文本过滤技术主要是单纯的关键字匹配以及词频统计方法,这种过滤方法比较简单;在单模式匹配算法中,比较经典的有:BF算法、KMP算法、BM算法等;在多模式匹配算法中,比较经典的有:AC算法、CW算法、WM算法等,这些算法能在一定程度上成功的匹配关键字,但存在着时间复杂度高、实际应用中匹配速度慢、灵活性差、实际应用困难等问题;后来一些学者使用文本分类技术来对文本敏感信息进行过滤;首先对文本特征进行提取,根据其特征将文本划分到若干类别中,再根据属于哪个类别来判断文本的敏感性,然后将敏感文本过滤掉;文本分类技术中也出现了大量的分类算法,如AP聚类算法、基于向量空间模型的K-means算法及基于后缀树(STC)算法等;这些算法对于识别敏感文本有着很大的贡献;但是对于文本中的敏感词却无能为力;还有比较常见的过滤方法就是对文本先进行去停用词、音译词等;而在中文文本中又不存在明显的词边界,利用分词的方法难以识别出词典中未包含的敏感词,并且更新和维护人工词典也耗时耗力;因此分词技术本身就存在很大的障碍,在一些短文本中,例如微博、即时聊天信息、朋友圈等网络平台,人们常常会使用到语气词、助词等停用词和一些带有感情色彩的标点符号,如果对这样的文本进行去停用词、去符号等预处理操作,用户体验明显要差很多,实用性并不广泛。
发明内容
本发明提供一种可过滤人工干扰的敏感词并且在实际应用中易于实现的基于文本内容的敏感词过滤方法。
本发明采用的技术方案是:一种基于文本内容的敏感词过滤方法,包括以下步骤:
构建中文敏感词库,将中文敏感词库中的中文词向中拼混合词进行扩充,形成中拼混合敏感词库;
通过单词查找树结构建立确定有限状态自动机中各个敏感词的转换函数,将中拼混合敏感词库中的敏感词构建成敏感词树;
根据敏感词树的结构在文本中对敏感词进行检索,对检索到的敏感词使用指定符号进行替换,完成敏感词过滤。
进一步的,所述单词查找树结构如下:
根节点不包含任何字符;除根节点以外的每个节点记录不定量的字符数以及结束标志位符号,子节点采用哈希机制;从跟节点到某一个节点路径上的所有字符串连接起来构成新的字符串;每个词的公共前缀共享一个分支。
进一步的,所述构建敏感词树包括以下步骤:
S1:以敏感词文本中的一行为一个元素添加到敏感词集合中;
S2:获取敏感词集合中的元素个数,初始化Map容器,即sensitiveWordMap,初始化nowMap=null;
S3:判断敏感词集合中的所有元素是否被访问,如果是,则结束,如果否,则转入步骤 S4;
S4:获取敏感词集合中的当前元素,即当前敏感词,初始化开始标志位,start=0;
S5:使nowMap指向sensitiveWordMap;
S6:获取当前敏感词的长度length,初始化敏感词的个数标j=0;
S7:若j≥length,则转入步骤S3;若j<length,则转入步骤S8;
S8:获取敏感词集合中的当前元素的第j个字符,若当前字符是“(”,则标志位start=j, j++并转入步骤S7;若当前字符是“)”,则截取start+1到j的字符串,赋给临时的字符串变量,并转入步骤S9;若是字母,则j++,并转入步骤S7;若为汉字,则把当前汉字赋给临时字符串变量,并转入步骤S9;
S9:将字符串变量给一个对象WordMap,若当前Map,中存在该敏感字,则nowMap指向WordMap,并转入步骤S10;若WordMap中不存在当前敏感字,则构建新的Map,即newWordMap,使nowMap指向newWordMap,并先把结束标志位设置为0;
S10:判断是否是该词中的最后一个字,若是,则设置结束标志位设置为1,并转入步骤S3;若不是,则j++,并转入步骤S7。
进一步的,所述中拼混合敏感词库构建过程如下:
S1:获取中文敏感词库中的汉字词语及对应的拼音;
S2:以汉字词语的每个字为单位放入一个字符串数组,将拼音以分隔符为单位放入另一个字符串数组,并获取词语的长度length;
S3:将汉字词语中的第一个字和拼音中的第一个拼音分装进队列,若length≥2时,初始化i=2,j=1,并转入步骤S4;若length=1,则转入步骤S9;
S4:若i<length,则转入步骤S5,若i≥lengh,则转入步骤S9;
S5:若j<2i,则转入步骤S6,若j≥2i,则使i++,j=1,并转入步骤S4;
S6:取出队列的头元素;
S7:取出的头元素后追加汉字数组中的第i个元素,并在取出的元素后追加拼音数组中的第i个元素,形成新的元素;
S8:将步骤S7中形成的元素分别插入队尾,j++,并转入步骤S5;
S9:以队列中的一个元素为一行依次写入敏感词文本中,构成中拼混合敏感词库。
进一步的,所述敏感词检索过程如下:
S1:初始化敏感词结束标识flag=false,匹配标识数matchFlag=0,获取的文本内容中的当前字符word=0,word转化为字符串的标识key=null,nowMap=sensitiveWordMap,i=beinIndex 开始检测的位置,新建一个字符串变量StringBuffer对象给pinyin变量;
S2:若i<txt.length()被检测文本内容长度,则转入步骤S3,否则执行S4;
S3:获取被检测文本内容中的当前字符给获取的文本内容中的当前字符word,将word 转化为字符串变量String类型给key,检测当前的key是否为汉字,若为汉字,则转入步骤 S4,若不是汉字,则转入步骤S5;
S4:在nowMap中获取指定的key对应的value,若nowMap中不存在指定的key,即nowMap=null,则转入步骤S7;若nowMap!=null,则转入步骤S6;
S5:若获取的文本内容中的当前字符word是字母,则在pinyin后追加当前的字母,并且matchFlag++,i++,并转入步骤S3;若获取的文本内容中的当前字符word是空格并且当前的pinyin.length()>0,则把pinyin转换为String数据类型并给Key,同时清空pinyin中的内容,并转入步骤S4;若既不是汉字也不是拼音则判定为无意义符号,此时匹配标识数matchFlag++,i++,并转入步骤S3;
S6:对匹配标识数matchFlag加1后,判断结束标识isEnd是否为1,若isEnd=1,结束标识flag设置为true,同时判断匹配类型是否为指定的匹配类型matchType,,若满足则转入步骤S7;若isEnd!=1,i++,则转入步骤S3;
S7:若匹配标识数matchFlag<1或flag的值为真,则判断不是敏感词,使matchFlag=0,并返回matchFlag的值,否则直接返回matchFlag的值。
本发明的有益效果是:
(1)本发明对于无干扰的敏感词都可以成功过滤,并且保留不在敏感词库中的词;
(2)本发明对于人工干扰中符号干扰的敏感词、中拼混合干扰的敏感词和同时具有符号和拼音的符号干扰的敏感词能正确过滤;
(3)本发明的查全率高、在实际应用中易于实现。
附图说明
图1为本发明流程示意图。
图2为DFA的状态转移图。
图3为实施例中敏感词树结构示意图。
图4为敏感词检测与过滤方法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步说明。
如图1所示,一种基于文本内容的敏感词过滤方法,包括以下步骤:
构建中文敏感词库,将中文敏感词库中的中文词向中拼混合词进行扩充,形成中拼混合敏感词库;
中文敏感词库向中拼混合敏感词文本的扩建,是根据排列组合的思想,把每个中文词语和对应的拼音进行排列组合的扩充,实现敏感词库的完整性和全面性;所述敏感词表示带有敏感政治倾向、暴力倾向、不健康色彩的词或不文明语。
中拼混合敏感词库可表示为:
Csen_word={c0,c1,c2,...,ci,...,cn-1},(0≤i<n)
式中,n为敏感词的个数,ci为第i个敏感词;其中对ci有:
ci={ci0,ci1,...,cij,...,cim-1},(0≤j<m)
式中:m为第i个敏感词的长度,cij为第i个敏感词的第j个敏感字。
中拼混合敏感词库构建过程如下:
S1:获取中文敏感词库中的汉字词语及对应的拼音;
S2:以汉字词语的每个字为单位放入一个字符串数组,将拼音以分隔符为单位放入另一个字符串数组,并获取词语的长度length;
S3:将汉字词语中的第一个字和拼音中的第一个拼音分别装进一个已定义的队列中,若 length≥2时,初始化i=2,j=1,并转入步骤S4;若length=1,则转入步骤S9;
S4:若i<length,则转入步骤S5,若i≥length,则转入步骤S9;
S5:若j<2i,则转入步骤S6,若j≥2i,则使i++,j=1,并转入步骤S4;
S6:取出队列的头元素;
S7:取出的头元素后追加汉字数组中的第i个元素,并在取出的元素后追加拼音数组中的第i个元素,形成新的元素;
S8:将步骤S7中形成的元素分别插入队尾,j++,并转入步骤S5;
S9:以队列中的一个元素为一行依次写入敏感词文本中,构成中拼混合敏感词库。
通过敏感词查找树结构建立确定有限状态自动机DFA中各个敏感词的转换函数,将中拼混合敏感词库中的敏感词构建成敏感词树;
敏感词查找树结构为:根节点不包含任何字符;除根节点以外的每个节点记录不定量的字符数以及结束标志位符号,子节点采用哈希机制;从跟节点到某一个节点路径上的所有字符串连接起来构成新的字符串;每个词的公共前缀共享一个分支。
DFA的数学模型如下:
MDFA=(S,∑,δ,S0,F)
式中:S为有限非空状态集,∑是输入字符的字母表,δ是转移函数,用来表示一个状态在某个输入字符触发后转移到下一个确定的状态,S0为初始状态,F是终止状态集合。
构建敏感词树包括以下步骤:
S1:以敏感词库中的一个词语为一个单位添加到敏感词集合keyWordSet中;
S2:获取敏感词集合keyWordSet中的元素个数size,初始化Map容器(Map是按键-值对存储数据的一种集合类),即sensitiveWordMap,初始化nowMap=null(nowMap为存储当前敏感字的一个Map对象);
S3:判断敏感词集合keyWordSet中的所有元素是否被访问,如果是,则结束,如果否,则转入步骤S4;
S4:获取敏感词集合中的当前元素,即当前敏感词key,初始化开始标志位,start=0;
S5:使nowMap指向sensitiveWordMap(初始化后的Map容器);
S6:获取当前敏感词的长度length,初始化敏感词的个数标j=0;
S7:若j≥length,则转入步骤S3;若j<length,则转入步骤S8;
S8:获取敏感词集合中的当前元素的第j个字符,若当前字符是“(”,则标志位start=j, j++并转入步骤S7;若当前字符是“)”,则截取start+1到j的字符串,赋给临时的字符串变量,并转入步骤S9;若是字母,则j++,并转入步骤S7;若为汉字,则把当前汉字赋给临时字符串变量,并转入步骤S9;
S9:将字符串变量smallKey给一个对象wordMap(wordMap是盛装当前获取的内容的一个对象),若当前Map中存在该敏感字,则nowMap指向wordMap,并转入步骤S10;若wordMap中不存在当前敏感字,则构建新的Map,即newWordMap,使nowMap指向 newWordMap,并先把结束标志位isEnd设置为0;
S10:判断是否是该词中的最后一个字,若是,即j==k.length-1,则设置结束标志位设置为1sEnd=1,并转入步骤S3;若不是,则j++,并转入步骤S7。
根据敏感词树的结构在文本中对敏感词进行检索,对检索到的敏感词使用指定符号进行替换,完成敏感词过滤。
敏感词检索指对文本内容中的无干扰敏感词、无意义符号干扰敏感词、中拼混合干扰敏感词、拆分干扰敏感词的检索;为了识别出文本中的拼音,假设拼音后使用空格隔开,无意义符号定义为:敏感词中夹杂的一切符号;无意义符号干扰敏感词指在敏感词中加载无意义符号来进行干扰,以抵抗对敏感词的过滤效率;如对于敏感词“阿扁堆翔”,加入无意义符号变形为“@¥阿%…扁…&堆+=翔!”;中拼混合干扰敏感词指在一个敏感词中使用某个汉字的拼音代替该字,如对于敏感词“阿扁堆翔”,增加拼音干扰后变形为“a扁duixiang”;拆分干扰敏感词指把敏感词中的某些字进行拆分,如对于敏感词“阿扁堆翔”,加入拆分干扰后变形为“阿扁土住羊羽”,如图3所示。
检索与过滤敏感词的方法包括:检测文本中的敏感词和替换文本中的敏感词两部分,具体过程如下:
S1:初始化敏感词结束标识flag=false,匹配标识数matchFlag=0,获取的文本内容中的当前字符word=0,word转化为字符串的标识key=null,nowMap=sensitiveWordMap,i=beinIndex 开始检测的位置,新建一个字符串变量StringBuffer对象给pinyin变量(盛装拼音的一个对象);
S2:若i<txt.length()(txt.length()表示被检测文本的长度)被检测文本内容长度,则转入步骤S3,否则执行S4;
S3:获取被检测文本内容中的当前字符给获取的文本内容中的当前字符word,将word 转化为字符串变量String类型给key,检测当前的key是否为汉字,若为汉字,则转入步骤 S4,若不是汉字,则转入步骤S5;
S4:在nowMap中获取指定的key对应的value,若nowMap中不存在指定的key,即nowMap=null,则转入步骤S7;若nowMap!=null,则转入步骤S6;
S5:若获取的文本内容中的当前字符word是字母,则在pinyin后追加当前的字母,并且matchFlag++,i++,并转入步骤S3;若获取的文本内容中的当前字符word是空格并且当前的pinyin.length()>0(pinyin.length()表示拼音变量的长度),则把pinyin转换为String数据类型并给Key,同时清空pinyin中的内容,并转入步骤S4;若既不是汉字也不是拼音则判定为无意义符号,此时匹配标识数matchFlag++,i++,并转入步骤S3;
S6:对匹配标识数matchFlag加1后,判断结束标识isEnd是否为1,若isEnd=1,结束标识flag设置为true,同时判断匹配类型是否为指定的匹配类型matchType,,若满足则转入步骤S7;若isEnd!=1,i++,则转入步骤S3;
S7:若匹配标识数matchFlag<1或flag的值为真,则判断不是敏感词,使matchFlag=0,并返回matchFlag的值,否则直接返回matchFlag的值。
获取文本中的所有敏感词的方法是,在文本中使用上述敏感词检测算法检测到敏感词后,把当下检测到的敏感词放在集合中,然后对文本继续检测;因此,当文本被访问结束时,对整个文本的敏感词检测也结束;当在文本中检测到敏感词以后,使用指定符号进行替换,达到对敏感词过滤的目的。
检索匹配过程,存在两种匹配规则:a、最小匹配规则;b、最大匹配规则;最小匹配规则是指在当检索到一个词语的结束标识为结束符号时,例如本发明中的isEnd为1时,就立即判定检索结束,判定敏感词被检索到;最大匹配规则是指当检索到结束标志位为结束符号时,继续再向后检索,看是否还存在后续,若不存在,则判定为当前检测到的敏感词;若存在,则直到检测到的结束标识符没有后续为止的敏感词为当前所检索到的敏感词;以文本中同时存在“AB”和“ABCD”两个敏感词为例来说明最小和最大匹配规则;若被检索的文本中存在敏感词“ABCD”,当检索到“B”字时,此时的结束标志位为结束标识符,也就是isEnd=1,对于最小匹配规则,就立即判定当前的敏感词为“AB”;对于最大匹配规则,还要继续检索,看“B”字之后是否还存在后续,发现有后续“C”,则继续向后检索,直到获取到“D”字的结束标识为结束标示符isEnd=1,再向后检索判断“D”字后是否有后续,发现没有,则判定当前的敏感词为“ABCD”;因此,对于不同的要求和不同的应用,在检索算法中应用不同的规则,对于精度要求更高的,就采用最大匹配规则,对于时间要求更高的就采用最小匹配规则;上述算法中使用的是最小匹配规则。
为了说明本发明的效果,对本发明的算法的抗人工干扰能力、查全率、查准率进行评估;所述的抗人工干扰的能力评估是指,算法对于加入人工干扰后的敏感词的过滤能力;目前,敏感词过滤技术的关键问题中的人工干扰包括无意义符号干扰、中拼混合干扰、拆分干扰;本算法能很好的解决人工干扰问题。
查全率指能够将人工判断应该过滤出来的所有敏感词均识别出来;定义为,使用系统过滤算法过滤出来与人工判定应该过滤出来相吻合的敏感词;与人工判定应该过滤出来的敏感词数的比率;对于查全率的定义如下:
查准率的定义为,人工判定应该过滤出来的敏感词数,与系统过滤算法过滤出来的总的敏感词数的比率,定义为:
对本发明的方法进行测试,采用Java语言对算法进行验证;根据网上提供的一个敏感词库,共敏感词1030个,其中字符数为2~4的1022;根据数据可以得到,实际应用中敏感词的字符数在2~4的个数约占99%;为了对人工干扰中的中拼混合干扰测试,首先对原敏感词文本中的敏感词进行了中拼扩充;为了评价抗人工干扰能力,在文本中加入了符号干扰、中拼混合干扰及符号干扰加中拼混合干扰;经测试本发明能成功地过滤掉无干扰敏感词、无意义符号干扰敏感词、中拼混合干扰敏感词以及无意义符号干扰加中拼混合干扰敏感词,并且保留非敏感内容;经测试查准率为100%,查全率约为87%~100%;经测试对于不含敏感词的文本,其查准率为100%,查全率为100%;对于插入500个敏感词的文本,查准率为100%,查全率为97%;对于全为敏感词库的文本,其查准率为100%,查全率为87%;即在最坏的情况下,其查全率在87%左右,其他情况的查全率大于87%。
敏感词检索方法中txt表示被检测的文本内容,数据类型为String,beinIndex表示开始检测的位置,数据类型为int,matchType表示匹配类型,数据类型为int,flag表示敏感词结束标识,数据类型为boolean,matchFlag表示匹配标识数,数据类型为int,word表示获取的文本内容中的当前字符,数据类型为char,key表示word强制转化为字符串的标识,数据类型为String。
本发明对于无干扰的敏感词,无论词的长度为多少,只要在可表示的长度范围内,都可以成功地过滤,而保留不在敏感词库中的词;解决了人工干扰中符号干扰的敏感词能正确过滤;解决了人工干扰的中拼混合的干扰问题,并对于内容中的非敏感词保留;可以过滤同时有拼音和符号干扰的敏感词;对于不含敏感词的文本,其查准率为100%,查全率为100%;对于插入500个敏感词的文本,查准率为100%,查全率为97%;对于全为敏感词库的文本,其查准率为100%,查全率为87%,也就是,在最坏的情况下,其查全率在87%左右,其他情况的查全率大于87%。

Claims (5)

1.一种基于文本内容的敏感词过滤方法,其特征在于,包括以下步骤:
构建中拼混合敏感词库,将中文敏感词库中的中文词向中拼混合词进行扩充,形成中拼混合敏感词库;
通过敏感词查找树结构建立确定有限状态自动机中各个敏感词的转换函数,将中拼混合敏感词库中的敏感词构建成敏感词树;
根据敏感词树的结构在被测文本中对敏感词进行检索,对检索到的敏感词使用指定符号进行替换,完成敏感词过滤。
2.根据权利要求1所述的一种基于文本内容的敏感词过滤方法,其特征在于,所述敏感词查找树结构如下:
根节点不包含任何字符;除根节点以外的每个节点记录不定量的字符数以及结束标志位符号,子节点采用哈希机制;从跟节点到某一个节点路径上的所有字符串连接起来构成新的字符串;每个词的公共前缀共享一个分支。
3.根据权利要求1所述的一种基于文本内容的敏感词过滤方法,其特征在于,所述构建敏感词树包括以下步骤:
S1:以敏感词文本中的一个词语为一个单位添加到敏感词集合中;
S2:获取敏感词集合中的元素个数,初始化Map容器,即sensitiveWordMap,初始化nowMap=null;
S3:判断敏感词集合中的所有元素是否被访问,如果是,则结束,如果否,则转入步骤S4;
S4:获取敏感词集合中的当前元素,即当前敏感词,初始化开始标志位,start=0;
S5:使nowMap指向sensitiveWordMap;
S6:获取当前敏感词的长度length,初始化敏感词的个数标j=0;
S7:若j≥length,则转入步骤S3;若j<length,则转入步骤S8;
S8:获取敏感词集合中的当前元素的第j个字符,若当前字符是“(”,则标志位start=j,j++并转入步骤S7;若当前字符是“)”,则截取start+1到j的字符串,赋给临时的字符串变量,并转入步骤S9;若是字母,则j++,并转入步骤S7;若为汉字,则把当前汉字赋给临时字符串变量,并转入步骤S9;
S9:将字符串变量给一个对象WordMap,若当前Map,中存在该敏感字,则nowMap指向WordMap,并转入步骤S10;若WordMap中不存在当前敏感字,则构建新的Map,即newWordMap,使nowMap指向newWordMap,并先把结束标志位设置为0;
S10:判断是否是该词中的最后一个字,若是,则设置结束标志位设置为1,并转入步骤S3;若不是,则j++,并转入步骤S7。
4.根据权利要求1所述的一种基于文本内容的敏感词过滤方法,其特征在于,所述中拼混合敏感词库构建过程如下:
S1:获取中文敏感词库中的汉字词语及对应的拼音;
S2:以汉字词语的每个字为单位放入一个字符串数组,将拼音以分隔符为单位放入另一个字符串数组,并获取词语的长度length;
S3:将汉字词语中的第一个字和拼音中的第一个拼音分装进队列,若length≥2时,初始化i=2,j=1,并转入步骤S4;若length=1,则转入步骤S9;
S4:若i<length,则转入步骤S5,若i≥lengh,则转入步骤S9;
S5:若j<2i,则转入步骤S6,若j≥2i,则转入步骤S9;
S6:取出队列的头元素;
S7:取出的头元素后追加汉字数组中的第i个元素,并在取出的元素后追加拼音数组中的第i个元素,形成新的元素;
S8:将步骤S7中形成的元素分别插入队尾,j++,并转入步骤S5;
S9:以队列中的一个元素为一行依次写入敏感词文本中,构成中拼混合敏感词库。
5.根据权利要求1所述的一种基于文本内容的敏感词过滤方法,其特征在于,所述敏感词检索过程如下:
S1:初始化敏感词结束标识flag=false,匹配标识数matchFlag=0,获取的文本内容中的当前字符word=0,word转化为字符串的标识key=null,nowMap=sensitiveWordMap,i=beinIndex开始检测的位置,新建一个字符串变量StringBuffer对象给pinyin变量;
S2:若i<txt.length()被检测文本内容长度,则转入步骤S3,否则执行S4;
S3:获取被检测文本内容中的当前字符给获取的文本内容中的当前字符word,将word转化为字符串变量String类型给key,检测当前的key是否为汉字,若为汉字,则转入步骤S4,若不是汉字,则转入步骤S5;
S4:在nowMap中获取指定的key对应的value,若nowMap中不存在指定的key,即nowMap=null,则转入步骤S7;若nowMap!=null,则转入步骤S6;
S5:若获取的文本内容中的当前字符word是字母,则在pinyin后追加当前的字母,并且matchFlag++,i++,并转入步骤S3;若获取的文本内容中的当前字符word是空格并且当前的pinyin.length()>0,则把pinyin转换为String数据类型并给Key,同时清空pinyin中的内容,并转入步骤S4;若既不是汉字也不是拼音则判定为无意义符号,此时匹配标识数matchFlag++,i++,并转入步骤S3;
S6:对匹配标识数matchFlag加1后,判断结束标识isEnd是否为1,若isEnd=1,结束标识flag设置为true,同时判断匹配类型是否为指定的匹配类型matchType,,若满足则转入步骤S7;若isEnd!=1,i++,则转入步骤S3;
S7:若匹配标识数matchFlag<1或flag的值为真,则判断不是敏感词,使matchFlag=0,并返回matchFlag的值,否则直接返回matchFlag的值。
CN201710651487.3A 2017-08-02 2017-08-02 一种基于文本内容的敏感词过滤方法 Active CN107463666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710651487.3A CN107463666B (zh) 2017-08-02 2017-08-02 一种基于文本内容的敏感词过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710651487.3A CN107463666B (zh) 2017-08-02 2017-08-02 一种基于文本内容的敏感词过滤方法

Publications (2)

Publication Number Publication Date
CN107463666A true CN107463666A (zh) 2017-12-12
CN107463666B CN107463666B (zh) 2019-12-06

Family

ID=60548100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710651487.3A Active CN107463666B (zh) 2017-08-02 2017-08-02 一种基于文本内容的敏感词过滤方法

Country Status (1)

Country Link
CN (1) CN107463666B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170806A (zh) * 2017-12-28 2018-06-15 东软集团股份有限公司 敏感词检测过滤方法、装置和计算机设备
CN109271548A (zh) * 2018-07-25 2019-01-25 浙江工业大学 一种应急广播敏感信息过滤系统
CN109284438A (zh) * 2018-08-15 2019-01-29 深圳点猫科技有限公司 一种利用前端编程语言过滤敏感词的方法以及电子设备
CN109446529A (zh) * 2018-11-05 2019-03-08 用友网络科技股份有限公司 一种基于确定有穷自动机的敏感词检测方法和系统
CN109492218A (zh) * 2018-10-22 2019-03-19 浪潮软件股份有限公司 一种基于确定有穷状态机的同义词快速替换方法
CN109670092A (zh) * 2019-01-07 2019-04-23 北京仁和汇智信息技术有限公司 Xml文档校对方法及装置
CN109902223A (zh) * 2019-01-14 2019-06-18 中国科学院信息工程研究所 一种基于多模态信息特征的不良内容过滤方法
CN109918548A (zh) * 2019-04-08 2019-06-21 上海凡响网络科技有限公司 一种自动检测文档敏感信息的方法和应用
CN110110069A (zh) * 2019-04-04 2019-08-09 上海易点时空网络有限公司 关键词过滤方法及装置
CN110674247A (zh) * 2019-09-23 2020-01-10 广州虎牙科技有限公司 弹幕信息的拦截方法、装置、存储介质及设备
CN110674262A (zh) * 2019-10-16 2020-01-10 北京百度网讯科技有限公司 词语识别方法、装置、电子设备和介质
CN111159329A (zh) * 2019-12-24 2020-05-15 深圳市优必选科技股份有限公司 敏感词检测方法、装置、终端设备和计算机可读存储介质
CN111159990A (zh) * 2019-12-06 2020-05-15 国家计算机网络与信息安全管理中心 一种基于模式拓展的通用特殊词识别方法及系统
CN111522950A (zh) * 2020-04-26 2020-08-11 成都思维世纪科技有限责任公司 一种针对非结构化海量文本敏感数据的快速识别系统
CN112287684A (zh) * 2020-10-30 2021-01-29 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN112434523A (zh) * 2020-11-25 2021-03-02 上海极链网络科技有限公司 一种降低敏感词谐音匹配误警率的文本审核装置及方法
CN112559672A (zh) * 2021-02-22 2021-03-26 深圳市优讯通信息技术有限公司 信息检测方法、电子设备及计算机存储介质
WO2021139268A1 (zh) * 2020-07-16 2021-07-15 平安科技(深圳)有限公司 敏感词检测方法、装置、计算机设备及存储介质
CN113128220A (zh) * 2021-04-30 2021-07-16 北京奇艺世纪科技有限公司 文本判别的方法、装置、电子设备及存储介质
CN113157904A (zh) * 2021-03-30 2021-07-23 北京优医达智慧健康科技有限公司 基于dfa算法的敏感词过滤方法及系统
CN114021564A (zh) * 2022-01-06 2022-02-08 成都无糖信息技术有限公司 一种针对社交文本的切分取词方法及系统
CN115081440A (zh) * 2022-07-22 2022-09-20 湖南湘生网络信息有限公司 文本中变种词的识别及提取原敏感词的方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799596A (zh) * 2011-05-27 2012-11-28 广州明朝网络科技有限公司 基于网络应用的关键词过滤方法及系统
CN103617251A (zh) * 2013-11-28 2014-03-05 金蝶软件(中国)有限公司 一种敏感词匹配方法及系统
CN104504091A (zh) * 2014-12-26 2015-04-08 新疆卡尔罗媒体科技有限公司 维吾尔语敏感词过滤系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799596A (zh) * 2011-05-27 2012-11-28 广州明朝网络科技有限公司 基于网络应用的关键词过滤方法及系统
CN103617251A (zh) * 2013-11-28 2014-03-05 金蝶软件(中国)有限公司 一种敏感词匹配方法及系统
CN104504091A (zh) * 2014-12-26 2015-04-08 新疆卡尔罗媒体科技有限公司 维吾尔语敏感词过滤系统

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170806B (zh) * 2017-12-28 2020-11-20 东软集团股份有限公司 敏感词检测过滤方法、装置和计算机设备
CN108170806A (zh) * 2017-12-28 2018-06-15 东软集团股份有限公司 敏感词检测过滤方法、装置和计算机设备
CN109271548A (zh) * 2018-07-25 2019-01-25 浙江工业大学 一种应急广播敏感信息过滤系统
CN109284438A (zh) * 2018-08-15 2019-01-29 深圳点猫科技有限公司 一种利用前端编程语言过滤敏感词的方法以及电子设备
CN109492218A (zh) * 2018-10-22 2019-03-19 浪潮软件股份有限公司 一种基于确定有穷状态机的同义词快速替换方法
CN109492218B (zh) * 2018-10-22 2023-03-21 浪潮软件股份有限公司 一种基于确定有穷状态机的同义词快速替换方法
CN109446529A (zh) * 2018-11-05 2019-03-08 用友网络科技股份有限公司 一种基于确定有穷自动机的敏感词检测方法和系统
CN109670092A (zh) * 2019-01-07 2019-04-23 北京仁和汇智信息技术有限公司 Xml文档校对方法及装置
CN109902223A (zh) * 2019-01-14 2019-06-18 中国科学院信息工程研究所 一种基于多模态信息特征的不良内容过滤方法
CN110110069A (zh) * 2019-04-04 2019-08-09 上海易点时空网络有限公司 关键词过滤方法及装置
CN109918548A (zh) * 2019-04-08 2019-06-21 上海凡响网络科技有限公司 一种自动检测文档敏感信息的方法和应用
CN110674247A (zh) * 2019-09-23 2020-01-10 广州虎牙科技有限公司 弹幕信息的拦截方法、装置、存储介质及设备
CN110674262A (zh) * 2019-10-16 2020-01-10 北京百度网讯科技有限公司 词语识别方法、装置、电子设备和介质
CN111159990A (zh) * 2019-12-06 2020-05-15 国家计算机网络与信息安全管理中心 一种基于模式拓展的通用特殊词识别方法及系统
CN111159990B (zh) * 2019-12-06 2022-09-30 国家计算机网络与信息安全管理中心 一种基于模式拓展的通用特殊词识别方法及系统
CN111159329A (zh) * 2019-12-24 2020-05-15 深圳市优必选科技股份有限公司 敏感词检测方法、装置、终端设备和计算机可读存储介质
CN111159329B (zh) * 2019-12-24 2023-09-08 深圳市优必选科技股份有限公司 敏感词检测方法、装置、终端设备和计算机可读存储介质
CN111522950A (zh) * 2020-04-26 2020-08-11 成都思维世纪科技有限责任公司 一种针对非结构化海量文本敏感数据的快速识别系统
CN111522950B (zh) * 2020-04-26 2023-06-27 成都思维世纪科技有限责任公司 一种针对非结构化海量文本敏感数据的快速识别系统
WO2021139268A1 (zh) * 2020-07-16 2021-07-15 平安科技(深圳)有限公司 敏感词检测方法、装置、计算机设备及存储介质
CN112287684A (zh) * 2020-10-30 2021-01-29 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN112434523A (zh) * 2020-11-25 2021-03-02 上海极链网络科技有限公司 一种降低敏感词谐音匹配误警率的文本审核装置及方法
CN112434523B (zh) * 2020-11-25 2022-08-26 上海极链网络科技有限公司 一种降低敏感词谐音匹配误警率的文本审核装置及方法
CN112559672A (zh) * 2021-02-22 2021-03-26 深圳市优讯通信息技术有限公司 信息检测方法、电子设备及计算机存储介质
CN113157904A (zh) * 2021-03-30 2021-07-23 北京优医达智慧健康科技有限公司 基于dfa算法的敏感词过滤方法及系统
CN113157904B (zh) * 2021-03-30 2024-02-09 北京优医达智慧健康科技有限公司 基于dfa算法的敏感词过滤方法及系统
CN113128220A (zh) * 2021-04-30 2021-07-16 北京奇艺世纪科技有限公司 文本判别的方法、装置、电子设备及存储介质
CN113128220B (zh) * 2021-04-30 2023-07-18 北京奇艺世纪科技有限公司 文本判别的方法、装置、电子设备及存储介质
CN114021564B (zh) * 2022-01-06 2022-04-01 成都无糖信息技术有限公司 一种针对社交文本的切分取词方法及系统
CN114021564A (zh) * 2022-01-06 2022-02-08 成都无糖信息技术有限公司 一种针对社交文本的切分取词方法及系统
CN115081440A (zh) * 2022-07-22 2022-09-20 湖南湘生网络信息有限公司 文本中变种词的识别及提取原敏感词的方法、装置及设备
CN115081440B (zh) * 2022-07-22 2022-11-01 湖南湘生网络信息有限公司 文本中变种词的识别及提取原敏感词的方法、装置及设备

Also Published As

Publication number Publication date
CN107463666B (zh) 2019-12-06

Similar Documents

Publication Publication Date Title
CN107463666A (zh) 一种基于文本内容的敏感词过滤方法
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
US11301637B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
US20230385409A1 (en) Unstructured text classification
CN111460083A (zh) 文档标题树的构建方法、装置、电子设备及存储介质
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
CN110569354B (zh) 弹幕情感分析方法及装置
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
US20220171935A1 (en) Machine-learning techniques for augmenting electronic documents with data-verification indicators
CN110222328B (zh) 基于神经网络的分词和词类标注方法、装置、设备及存储介质
Khatun et al. Authorship Attribution in Bangla literature using Character-level CNN
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
Syam et al. Hate speech detection on Twitter using long short-term memory (LSTM) method
JP7172187B2 (ja) 情報表示方法、情報表示プログラムおよび情報表示装置
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN107679122B (zh) 一种模糊搜索方法及终端
Sultana et al. Authorship recognition of tweets: A comparison between social behavior and linguistic profiles
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
Fersellia et al. Sentiment Analysis of Shopee Food Application User Satisfaction Using the C4. 5 Decision Tree Method
CN111274428B (zh) 一种关键词的提取方法及装置、电子设备、存储介质
CN108038109A (zh) 从非结构化文本中提取特征词的方法及系统、计算机程序
Wibawa et al. Sentiment analysis on user satisfaction level of cellular data service using the k-Nearest Neighbor (k-NN) algorithm
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
CN103034657A (zh) 文档摘要生成方法和装置
KR102476208B1 (ko) 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191227

Address after: 311100 no.107-2, building 3, no.633, Linping Avenue, Donghu street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou YanXu Network Technology Co., Ltd

Address before: 610225 Sichuan city of Chengdu province Chengdu University of Information Technology Shuangliu County West Port Economic Development Zone in Chengdu Research Institute

Patentee before: Chengdu Delta Information technology Co., Ltd