CN102880636A - 不良信息检测方法及服务端 - Google Patents

不良信息检测方法及服务端 Download PDF

Info

Publication number
CN102880636A
CN102880636A CN2012102753711A CN201210275371A CN102880636A CN 102880636 A CN102880636 A CN 102880636A CN 2012102753711 A CN2012102753711 A CN 2012102753711A CN 201210275371 A CN201210275371 A CN 201210275371A CN 102880636 A CN102880636 A CN 102880636A
Authority
CN
China
Prior art keywords
information
word
dictionary
degree
carried out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012102753711A
Other languages
English (en)
Inventor
山其本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN SECURITIES INFORMATION CO Ltd
Original Assignee
SHENZHEN SECURITIES INFORMATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN SECURITIES INFORMATION CO Ltd filed Critical SHENZHEN SECURITIES INFORMATION CO Ltd
Priority to CN2012102753711A priority Critical patent/CN102880636A/zh
Publication of CN102880636A publication Critical patent/CN102880636A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种不良信息检测方法及服务端,其方法包括:服务端接收客户端发送的信息发布请求;将信息发布请求所携带的信息与预设的过滤词库进行分词匹配,计算出相关度;当相关度大于预置的阈值时,对信息进行过滤处理。本发明通过维护一个过滤词库,对每一条信息进行分词匹配,计算出该条信息与过滤词库中敏感词的相关度,并将该相关度与预置的阈值进行比对,当相关度大于预置的阈值时,对该条信息进行过滤处理,并在数据库中作上相应标记,使这条信息仅对发布者自己可见,而对其他人不可见。从而有效阻止了不良信息的传播,增强了网站的维护性与良好的交互性;此外,由于减少了人工参与力度,从而提高了网站信息管理的效率。

Description

不良信息检测方法及服务端
技术领域
本发明涉及网络技术领域,尤其涉及一种不良信息检测方法及服务端。
背景技术
随着计算机和通讯技术的高速发展,网络的信息量以指数级增加,不良信息的检查难度同时也大大增强。
随着web2.0技术的大力发展,特别是微博技术的发展,使得信息的传播方式发生了巨大的变化。信息不再由某些人或者某个团体发出,让公众消费,而是信息逐渐扁平化,每个人都可以是一个自媒体,都是信息的生产者,由此使得现有的信息审查技术变得力不从心。
目前,通常采用的一种技术是封锁不良用户的ID来实现对不良信息的审查,而这种方式需要网站的审查者做大量的工作来保证不造成误杀。例如,审查者需要关心微博作者通常在何时发表哪些言论,需要对所有言论一一审查,以判断其中哪些言论为不良言论,这无疑增加了审查员的工作量。
现有采用的另一种技术是直接查封不良言论用户的账号,使得该用户无法进行任何操作,这种方式的优点在于,可以屏蔽大用户,但是却无法避免该用户重新注册账号。而且由于查封账号还具有一定的延迟性,因此对于新注册用户的审查效果并不明显。
另外,有的网站只对关键词限制,此种方式中,网站需维护一个关键词词库,当微博中含有关键词时,系统予以直接替换,这种方式的缺点是无法理解语义上的具体含义,则有可能将第一句的末尾字和第二句的首字看成一个词,从而造成误杀。同时采用这种严格限定的方式,会造成很多语句被屏蔽。
还有的网站会对某一个IP段进行过滤,这种方法通常易适合对付木马爬虫等恶意程序,对于不良信息,则会让同IP的其他人无法操作。
发明内容
本发明的主要目的在于提供一种不良信息检测方法及服务端,旨在有效阻止不良信息的传播。
为了达到上述目的,本发明提出一种不良信息检测方法,包括:
服务端接收客户端发送的信息发布请求;
将所述信息发布请求所携带的信息与预设的过滤词库进行分词匹配,计算出相关度;
当所述相关度大于预置的阈值时,对所述信息进行过滤处理。
优选地,所述将信息发布请求所携带的信息与预设的过滤词库进行分词匹配,计算出相关度的步骤包括:
对所述信息发布请求所携带的信息进行语义分析,获取供信息搜索的查询词;
将所述查询词与预设的过滤词库中的敏感词列表进行对比,以预定的匹配算法计算所述查询词与所述敏感词列表中敏感词的相关度。
优选地,所述预定的匹配算法基于所述查询词与所述敏感词列表的空间向量模型而设定。
优选地,所述对信息进行过滤处理的步骤之后还包括:
在数据库中为所述信息设置一标记位,将所述信息限制在所述客户端的发布者可见而非发布者不可见的范围。
优选地,所述对信息进行过滤处理的步骤之后还包括:
根据所述信息中的敏感词,更新所述信息发布者的不良信息统计表。
本发明还提出一种检测不良信息的服务端,包括:
信息接收模块,用于接收客户端发送的信息发布请求;
匹配计算模块,用于将所述信息发布请求所携带的信息与预设的过滤词库进行分词匹配,计算出相关度;
信息处理模块,用于当所述相关度大于预置的阈值时,对所述信息进行过滤处理。
优选地,所述匹配计算模块包括:
分析单元,用于对所述信息发布请求所携带的信息进行语义分析,获取供信息搜索的查询词;
匹配计算单元,用于将所述查询词与预设的过滤词库中的敏感词列表进行对比,以预定的匹配算法计算所述查询词与所述敏感词列表中敏感词的相关度。
优选地,所述预定的匹配算法基于所述查询词与所述敏感词列表的空间向量模型而设定。
优选地,所述处理模块还用于对信息进行过滤处理后,在数据库中为所述信息设置一标记位,将所述信息限制在所述客户端的发布者可见而非发布者不可见的范围。
优选地,所述处理模块还用于对信息进行过滤处理后,根据所述信息中的敏感词,更新所述信息发布者的不良信息统计表。
本发明提出的一种不良信息检测方法及服务端,通过维护一个过滤词库,对每一条信息进行分词匹配,计算出该条信息与过滤词库中敏感词的相关度,并将该相关度与预置的阈值进行比对,当相关度大于预置的阈值时,对该条信息进行过滤处理,并在数据库中作上相应标记,使这条信息仅对发布者自己可见,而对其他人不可见。这样即使用户发布了不当言论也可以使之无法扩散,而发布者本人也无法知晓别人无法看到,从而有效阻止了不良信息的传播,增强了网站的维护性与良好的交互性;此外,由于减少了人工参与力度,从而提高了网站信息管理的效率。
附图说明
图1是本发明不良信息检测方法第一实施例的流程示意图;
图2是本发明不良信息检测方法第二实施例的流程示意图;
图3是本发明检测不良信息的服务端较佳实施例的结构示意图;
图4是本发明检测不良信息的服务端较佳实施例中匹配计算模块的结构示意图。
为了使本发明的技术方案更加清楚、明了,下面将结合附图作进一步详述。
具体实施方式
本发明中信息指用户通过网站发布的信息,比如微博信息等,以下实施例以微博信息举例说明,但并不限于此种情形。
如图1所示,本发明第一实施例提出一种不良信息检测方法,包括:
步骤S101,服务端接收客户端发送的信息发布请求;
以微博信息为例,用户通过客户端向服务端发送微博信息发布请求,该请求中携带有用户欲发表的微博信息。
步骤S102,将所述信息发布请求所携带的信息与预设的过滤词库进行分词匹配,计算出相关度;
步骤S103,当所述相关度大于预置的阈值时,对所述信息进行过滤处理。
当服务端接收到客户端发来的请求后,对整条微博信息进行语义分析,获取查询词,该查询词将作为在预设的过滤词库中对微博信息进行搜索过滤时的索引。
具体地,本实施例预先设置有一过滤词库,该过滤词库包括敏感词列表,在通过对微博信息进行语义分析获取到查询词后,将所述查询词与预设的过滤词库中的敏感词列表进行对比,并以预定的匹配算法计算所述查询词与所述敏感词列表中敏感词的相关度。
其中,预定的匹配算法基于所述查询词与所述敏感词列表的空间向量模型而设定。该匹配算法涉及的匹配公式的推导原理为:
首先,将过滤词库看成一个向量,过滤词库中每一个词都具有一个权重,不同的词有不同的权重。因此,基于该过滤词库将产生两个向量,其中:
过滤词库的向量表示为:
Dictionary={term1,term2,…,termN};
过滤词库中词的权重的向量表示为:
DictionaryVector={weight1,weight2,…,weightN};
同理,用户所发的微博信息在分词后也会生成两个向量,其中:
整条微博信息的向量表示为:
Topic={Topicterm1,Topicterm2,…,Topicterm3};
微博信息中词的权重的向量表示为:
TopicVector={Topicterm1,Topicterm2,…,Topicterm3};
通常,当两个向量的相关度较大时,则二者的矢量积也越大。也就是说,当两个向量的夹角越小时,两个向量的相关性就越大。因此,为了简化计算,这里可以采用两个向量的夹角的余弦值来表示两个向量的匹配度,即相关度,其匹配计算公式可以表示如下:
match ( D , T ) = cos α = V → D · V → T | V → D | × | V → T | - - - ( 1 )
上述公式(1)中,match(D,T)表示微博向量与过滤词库向量的匹配度,表示过滤词库向量,
Figure BDA0000197339533
表示微博向量。
在此,假设:
微博向量为:
Figure BDA0000197339534
;其中,t1表示微博信息中词的向量,T表示整条微博的向量;
过滤词库的向量为:
Figure BDA0000197339535
;其中,d1表示过滤词库中词的向量,D表示整个过滤词库的向量。
上述表达式中,过滤词库和所发微博信息的维度一致,均为N。此时N值为两者的并集。当某一向量不存在某一个维度时,其权重用0表示。
上述表达式中,w为词的权重:
w=tf*idf             (2)
上述公式(2)中,tf为分词后的 t 在文档T 中出现的词频,idf为Term t出现的次数。
将上述公式(2)带入到点积公式中:
V → D · V → T = V D * V T = tf ( t 1 , T ) * idf ( t 1 , T ) * tf ( d 1 , D ) * idr ( d 2 , D ) + tf ( t 2 , T ) * idf ( t 2 , T ) * tf ( d 2 , D ) * idf ( d 2 , D ) + · · · + tf ( tn , T ) * idf ( tn , T ) * tf ( dn , D ) * idf ( dn , D ) - - - ( 3 )
考虑到过滤词库中一个词只出现一次,所以tf(t1,D)==1,idf是该词出现的次数,因为在过滤词库中只出现过一次,所以,结果为词库长度的倒数
Figure BDA0000197339537
。另外,由于词库是动态变动的,总会有新的词加入进来,所以,这里将N设置为大于词库长度的值,这样以后就不会因为词库变动使得N增大。这样,所述点积公式变为:
V → D · V → T = V D * V T = tf ( t 1 , T ) * idf ( t 1 , T ) * 1 N + tf ( t 2 , T ) * idf ( t 2 , T ) * 1 N + · · · + tf ( tn , T ) * idf ( tn , T ) * 1 N - - - ( 4 )
将上述公式(4)代入到匹配公式(1)中,匹配公式(1)为:
match ( D , T ) = cos α = V → D · V → T | V → D | × | V → T | = 1 | V → T | × Σ t in n ( tf ( t , T ) * idf ( ) * 1 N × 1 | V → D | ) - - - ( 5 )
其中:
| V → T | = w ( t 1 , T ) 2 + w ( t 2 , T ) 2 + . . . + w ( tN , T ) 2 = Σ t in n tf ( t , T ) × idf ( t , T )
所以匹配公式(1)变为:
match ( D , T ) = cos α = V → D · V → T | V → D | × | V → T | = 1 N × 1 | V → T | × Σ t in n tf ( t , T ) × idf ( t , T ) ; - - - ( 6 )
此外,考虑到过滤词库中的敏感词列表是已知的,所以|VD|通常为1,因此,还有一种基于上述匹配算法的扩展,则是预先设定过滤词库中每个词的权重,由此,可以根据设定的权重值更好地更动态的优化匹配结果。然后,可以根据用户所发微博信息在过滤词库的敏感词列表中非法词的次数与频率的积求和,之后去根,得出相关度的值。
当用户所发微博信息不含有敏感词时,则可以得出这个相关度值为0,也就是完全不相关,用户所发微博信息中没有敏感词,则允许用户发布该微博信息。
当用户所发微博信息与过滤词库的匹配度大于0时,说明用户发表了敏感词。本实施例预先设置一敏感信息度的阈值,根据用户所发微博信息与过滤词库的匹配度和该阈值的比较结果来动态判断该微博信息是否可以发表。上述敏感信息度的阈值以根据实际情况做出改变。
当用户所发微博信息与过滤词库的匹配度小于该阈值时,表示用户所发微博信息含有的敏感词比较少,服务端则允许用户发表。另外还可以根据敏感词设定的权重不同,来判定该条信息不太敏感,可以适量放行。
当用户所发微博信息与过滤词库的匹配度大于该阈值时,说明此条微博信息很敏感,需要过滤。由此,实现了对不良信息的检测。
本实施例上述对不良信息的检测方法,通过维护一个过滤词库,对每一条信息进行分词匹配,计算出该条信息与过滤词库中敏感词的相关度,并将该相关度与预置的阈值进行比对,当相关度大于预置的阈值时,对该条信息进行过滤处理,有效阻止了不良信息的传播,并减少了人工参与力度,进而提高了网站信息管理的效率。
如图2所示,本发明第二实施例提出一种不良信息检测方法,在上述第一实施例的基础上,在步骤S103对信息进行过滤处理之后还包括:
步骤S104,在数据库中为所述信息设置一标记位,将所述信息限制在所述客户端的发布者可见而非发布者不可见的范围。
步骤S105,根据所述信息中的敏感词,更新所述信息发布者的不良信息统计表。
本实施例与上述第一实施例的区别在于,本实施例还包括对过滤出来的微博信息的处理过程。
在现有技术中,当检测出用户所要发布的微博信息为不良信息时,通常做法是通知客户,此信息敏感,不予发表,这种处理方式中,用户可以猜测出系统的敏感词列表,从而做出语义上或者拼写上的适当改变,然后再重新发表微博信息,以达到扩散信息的效果。
为了规避现有技术的缺陷,本实施例采用以下处理方式:在数据库中针对此不良微博信息设置一个标记位,表示此条微博信息只是对发布者本人可见,而对其他人永远不可见。这样发布者并不知道系统过滤了此条微博,而不会想办法绕过系统。而且其他用户也无法看到此微博,从而达到了不良信息无法扩散的效果。
此外,本实施例还对发布不良信息用户进行不良信息统计,以便后续做出相应的封杀策略。
具体地,当检测到用户发布的微博信息包含敏感词时,找出用户发表的敏感词,然后在服务端的系统中找到该敏感词对应的映射标记,在用户的标记列表中将此类标记加1,由此,根据所述信息中的敏感词,更新信息发布者的不良信息统计表,通过此种统计方式,可便于后续很方便的统计出每个用户发表的敏感信息,同时为以后的过滤词库的搜索索引提供更大的方便。此外,当出现某些紧急事件时,可以通过上述统计结果找到某类用户,并利于制定相应的封杀策略。
本实施例不良信息检测的方法,通过维护一个过滤词库,对每一条信息进行分词匹配,计算出该条信息与过滤词库中敏感词的相关度,并将该相关度与预置的阈值进行比对,当相关度大于预置的阈值时,对该条信息进行过滤处理,并在数据库中作上相应标记,使这条信息仅对发布者自己可见,而对其他人不可见。这样即使用户发布了不当言论也可以使之无法扩散,而发布者本人也无法知晓别人无法看到,从而有效阻止了不良信息的传播,增强了网站的维护性与良好的交互性;此外,由于减少了人工参与力度,从而提高了网站信息管理的效率。
如图3所示,本发明较佳实施例提出一种检测不良信息的服务端,包括:信息接收模块301、匹配计算模块302以及信息处理模块303,其中:
信息接收模块301,用于接收客户端发送的信息发布请求;
匹配计算模块302,用于将所述信息发布请求所携带的信息与预设的过滤词库进行分词匹配,计算出相关度;
信息处理模块303,用于当所述相关度大于预置的阈值时,对所述信息进行过滤处理。
以微博信息为例,用户通过客户端向服务端发送微博信息发布请求,该请求中携带有用户欲发表的微博信息。
当服务端的信息接收模块301接收到客户端发来的请求后,匹配计算模块302对整条微博信息进行语义分析,获取查询词,该查询词将作为在预设的过滤词库中对微博信息进行搜索过滤时的索引。
具体地,本实施例预先设置有一过滤词库,该过滤词库包括敏感词列表,在通过对微博信息进行语义分析获取到查询词后,将所述查询词与预设的过滤词库中的敏感词列表进行对比,并以预定的匹配算法计算所述查询词与所述敏感词列表中敏感词的相关度。
其中,预定的匹配算法基于所述查询词与所述敏感词列表的空间向量模型而设定。该匹配算法涉及的匹配公式的推导原理为:
首先,将过滤词库看成一个向量,过滤词库中每一个词都具有一个权重,不同的词有不同的权重。因此,基于该过滤词库将产生两个向量,其中:
过滤词库的向量表示为:
Dictionary={term1,term2,…,termN};
过滤词库中词的权重的向量表示为:
DictionaryVector={weight1,weight2,…,weightN};
同理,用户所发的微博信息在分词后也会生成两个向量,其中:
整条微博信息的向量表示为:
Topic={Topicterm1,Topicterm2,…,Topicterm3};
微博信息中词的权重的向量表示为:
TopicVector={Topicterm1,Topicterm2,…,Topicterm3};
通常,当两个向量的相关度较大时,则二者的矢量积也越大。也就是说,当两个向量的夹角越小时,两个向量的相关性就越大。因此,为了简化计算,这里可以采用两个向量的夹角的余弦值来表示两个向量的匹配度,即相关度,其匹配计算公式可以表示如下:
match ( D , T ) = cos α = V → D · V → T | V → D | × | V → T | - - - ( 1 )
上述公式(1)中,match(D,T)表示微博向量与过滤词库向量的匹配度,
Figure BDA00001973395313
表示过滤词库向量,
Figure BDA00001973395314
表示微博向量。
在此,假设:
微博向量为:
Figure BDA00001973395315
;其中,t1表示微博信息中词的向量,T表示整条微博的向量;
过滤词库的向量为:
Figure BDA00001973395316
;其中,d1表示过滤词库中词的向量,D表示整个过滤词库的向量。
上述表达式中,过滤词库和所发微博信息的维度一致,均为N。此时N值为两者的并集。当某一向量不存在某一个维度时,其权重用0表示。
上述表达式中,w为词的权重:
w=tf*idf             (2)
上述公式(2)中,tf为分词后的 t 在文档T 中出现的词频,idf为Term t出现的次数。
将上述公式(2)带入到点积公式中:
V → D · V → T = V D * V T = tf ( t 1 , T ) * idf ( t 1 , T ) * tf ( d 1 , D ) * idr ( d 2 , D ) + tf ( t 2 , T ) * idf ( t 2 , T ) * tf ( d 2 , D ) * idf ( d 2 , D ) + · · · + tf ( tn , T ) * idf ( tn , T ) * tf ( dn , D ) * idf ( dn , D ) - - - ( 3 )
考虑到过滤词库中一个词只出现一次,所以tf(t1,D)==1,idf是该词出现的次数,因为在过滤词库中只出现过一次,所以,结果为词库长度的倒数。另外,由于词库是动态变动的,总会有新的词加入进来,所以,这里将N设置为大于词库长度的值,这样以后就不会因为词库变动使得N增大。这样,所述点积公式变为:
V → D · V → T = V D * V T = tf ( t 1 , T ) * idf ( t 1 , T ) * 1 N + tf ( t 2 , T ) * idf ( t 2 , T ) * 1 N + · · · + tf ( tn , T ) * idf ( tn , T ) * 1 N - - - ( 4 )
将上述公式(4)代入到匹配公式(1)中,匹配公式(1)为:
match ( D , T ) = cos α = V → D · V → T | V → D | × | V → T | = 1 | V → T | × Σ t in n ( tf ( t , T ) * idf ( ) * 1 N × 1 | V → D | ) - - - ( 5 )
其中:
| V → T | = w ( t 1 , T ) 2 + w ( t 2 , T ) 2 + . . . + w ( tN , T ) 2 = Σ t in n tf ( t , T ) × idf ( t , T )
所以匹配公式(1)变为:
match ( D , T ) = cos α = V → D · V → T | V → D | × | V → T | = 1 N × 1 | V → T | × Σ t in n tf ( t , T ) × idf ( t , T ) ; - - - ( 6 )
此外,考虑到过滤词库中的敏感词列表是已知的,所以|VD|通常为1,因此,还有一种基于上述匹配算法的扩展,则是预先设定过滤词库中每个词的权重,由此,可以根据设定的权重值更好地更动态的优化匹配结果。然后,可以根据用户所发微博信息在过滤词库的敏感词列表中非法词的次数与频率的积求和,之后去根,得出相关度的值。
当用户所发微博信息不含有敏感词时,则可以得出这个相关度值为0,也就是完全不相关,用户所发微博信息中没有敏感词,服务端的信息处理模块303则允许用户发布该微博信息。
当用户所发微博信息与过滤词库的匹配度大于0时,说明用户发表了敏感词。本实施例预先设置一敏感信息度的阈值,信息处理模块303根据用户所发微博信息与过滤词库的匹配度和该阈值的比较结果来动态判断该微博信息是否可以发表。上述敏感信息度的阈值以根据实际情况做出改变。
当用户所发微博信息与过滤词库的匹配度小于该阈值时,表示用户所发微博信息含有的敏感词比较少,服务端则允许用户发表。另外还可以根据敏感词设定的权重不同,来判定该条信息不太敏感,可以适量放行。
当用户所发微博信息与过滤词库的匹配度大于该阈值时,说明此条微博信息很敏感,需要过滤。由此,实现了对不良信息的检测。
本实施例上述方案,通过维护一个过滤词库,对每一条信息进行分词匹配,计算出该条信息与过滤词库中敏感词的相关度,并将该相关度与预置的阈值进行比对,当相关度大于预置的阈值时,对该条信息进行过滤处理,有效阻止了不良信息的传播,并减少了人工参与力度,进而提高了网站信息管理的效率。
在具体实施过程中,如图4所示,所述匹配计算模块302包括:分析单元3021以及匹配计算单元3022,其中:
分析单元3021,用于对所述信息发布请求所携带的信息进行语义分析,获取供信息搜索的查询词;
匹配计算单元3022,用于将所述查询词与预设的过滤词库中的敏感词列表进行对比,以预定的匹配算法计算所述查询词与所述敏感词列表中敏感词的相关度。
进一步,本实施例信息处理模块303还对过滤出来的微博信息进行相应的处理。
在现有技术中,当检测出用户所要发布的微博信息为不良信息时,通常做法是通知客户,此信息敏感,不予发表,这种处理方式中,用户可以猜测出系统的敏感词列表,从而做出语义上或者拼写上的适当改变,然后再重新发表微博信息,以达到扩散信息的效果。
为了规避现有技术的缺陷,本实施例采用以下处理方式:在数据库中针对此不良微博信息设置一个标记位,表示此条微博信息只是对发布者本人可见,而对其他人永远不可见。这样发布者并不知道系统过滤了此条微博,而不会想办法绕过系统。而且其他用户也无法看到此微博,从而达到了不良信息无法扩散的效果。
此外,本实施例还对发布不良信息用户进行不良信息统计,以便后续做出相应的封杀策略。
具体地,当检测到用户发布的微博信息包含敏感词时,找出用户发表的敏感词,然后在服务端的系统中找到该敏感词对应的映射标记,在用户的标记列表中将此类标记加1,由此,根据所述信息中的敏感词,更新信息发布者的不良信息统计表,通过此种统计方式,可便于后续很方便的统计出每个用户发表的敏感信息,同时为以后的过滤词库的搜索索引提供更大的方便。此外,当出现某些紧急事件时,可以通过上述统计结果找到某类用户,并利于制定相应的封杀策略。
本实施例不良信息检测的服务端,通过维护一个过滤词库,对每一条信息进行分词匹配,计算出该条信息与过滤词库中敏感词的相关度,并将该相关度与预置的阈值进行比对,当相关度大于预置的阈值时,对该条信息进行过滤处理,并在数据库中作上相应标记,使这条信息仅对发布者自己可见,而对其他人不可见。这样即使用户发布了不当言论也可以使之无法扩散,而发布者本人也无法知晓别人无法看到,通常发布者也不会去他人微博检查是否每条微博都会对大众可见,这样发布者会以为发布成功,从而有效阻止了不良信息的传播,增强了网站的维护性与良好的交互性;此外,由于减少了人工参与力度,从而提高了网站信息管理的效率。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种不良信息检测方法,其特征在于,包括:
服务端接收客户端发送的信息发布请求;
将所述信息发布请求所携带的信息与预设的过滤词库进行分词匹配,计算出相关度;
当所述相关度大于预置的阈值时,对所述信息进行过滤处理。
2.根据权利要求1所述的方法,其特征在于,所述将信息发布请求所携带的信息与预设的过滤词库进行分词匹配,计算出相关度的步骤包括:
对所述信息发布请求所携带的信息进行语义分析,获取供信息搜索的查询词;
将所述查询词与预设的过滤词库中的敏感词列表进行对比,以预定的匹配算法计算所述查询词与所述敏感词列表中敏感词的相关度。
3.根据权利要求2所述的方法,其特征在于,所述预定的匹配算法基于所述查询词与所述敏感词列表的空间向量模型而设定。
4.根据权利要求1、或3所述的方法,其特征在于,所述对信息进行过滤处理的步骤之后还包括:
在数据库中为所述信息设置一标记位,将所述信息限制在所述客户端的发布者可见而非发布者不可见的范围。
5.根据权利要求4所述的方法,其特征在于,所述对信息进行过滤处理的步骤之后还包括:
根据所述信息中的敏感词,更新所述信息发布者的不良信息统计表。
6.一种检测不良信息的服务端,其特征在于,包括:
信息接收模块,用于接收客户端发送的信息发布请求;
匹配计算模块,用于将所述信息发布请求所携带的信息与预设的过滤词库进行分词匹配,计算出相关度;
信息处理模块,用于当所述相关度大于预置的阈值时,对所述信息进行过滤处理。
7.根据权利要求6所述的服务端,其特征在于,所述匹配计算模块包括:
分析单元,用于对所述信息发布请求所携带的信息进行语义分析,获取供信息搜索的查询词;
匹配计算单元,用于将所述查询词与预设的过滤词库中的敏感词列表进行对比,以预定的匹配算法计算所述查询词与所述敏感词列表中敏感词的相关度。
8.根据权利要求7所述的服务端,其特征在于,所述预定的匹配算法基于所述查询词与所述敏感词列表的空间向量模型而设定。
9.根据权利要求6、7或8所述的服务端,其特征在于,所述处理模块还用于对信息进行过滤处理后,在数据库中为所述信息设置一标记位,将所述信息限制在所述客户端的发布者可见而非发布者不可见的范围。
10.根据权利要求9所述的服务端,其特征在于,所述处理模块还用于对信息进行过滤处理后,根据所述信息中的敏感词,更新所述信息发布者的不良信息统计表。
CN2012102753711A 2012-08-03 2012-08-03 不良信息检测方法及服务端 Pending CN102880636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012102753711A CN102880636A (zh) 2012-08-03 2012-08-03 不良信息检测方法及服务端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012102753711A CN102880636A (zh) 2012-08-03 2012-08-03 不良信息检测方法及服务端

Publications (1)

Publication Number Publication Date
CN102880636A true CN102880636A (zh) 2013-01-16

Family

ID=47481962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012102753711A Pending CN102880636A (zh) 2012-08-03 2012-08-03 不良信息检测方法及服务端

Country Status (1)

Country Link
CN (1) CN102880636A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198161A (zh) * 2013-04-28 2013-07-10 中国科学院计算技术研究所 微博水军识别方法与设备
CN103279476A (zh) * 2013-04-11 2013-09-04 深圳市易聆科信息技术有限公司 一种web应用系统敏感文字的检测方法及系统
CN103345530A (zh) * 2013-07-25 2013-10-09 南京邮电大学 一种基于语义网的社交网络黑名单自动过滤模型
CN103544265A (zh) * 2013-10-17 2014-01-29 常熟市华安电子工程有限公司 一种论坛过滤系统
CN103678602A (zh) * 2013-12-16 2014-03-26 昆明理工大学 一种含敏感度计算的网页过滤方法
CN104050191A (zh) * 2013-03-14 2014-09-17 北京百度网讯科技有限公司 对推广信息进行监控的方法和设备
CN105373528A (zh) * 2015-08-18 2016-03-02 新华网股份有限公司 一种文本内容敏感性分析方法和装置
CN105574434A (zh) * 2015-12-14 2016-05-11 网易(杭州)网络有限公司 信息屏蔽方法及装置
CN105989093A (zh) * 2015-02-12 2016-10-05 阿里巴巴集团控股有限公司 敏感词的自动发现方法及其装置和应用
CN106162093A (zh) * 2016-08-03 2016-11-23 天梯头条传媒(苏州)有限公司 现场实时采编系统
CN106446149A (zh) * 2016-09-21 2017-02-22 联动优势科技有限公司 一种通知信息的过滤方法及装置
CN107025239A (zh) * 2016-02-01 2017-08-08 博雅网络游戏开发(深圳)有限公司 敏感词过滤的方法和装置
CN107357824A (zh) * 2017-06-15 2017-11-17 联想(北京)有限公司 信息处理方法、服务平台及计算机存储介质
CN107807966A (zh) * 2017-10-13 2018-03-16 深圳市迅雷网络技术有限公司 一种敏感信息屏蔽方法和服务端
CN109033150A (zh) * 2018-06-12 2018-12-18 平安科技(深圳)有限公司 敏感词验证方法、装置、计算机设备及存储介质
CN110245212A (zh) * 2019-04-28 2019-09-17 阿里巴巴集团控股有限公司 一种内容审核方法及装置
CN112182461A (zh) * 2020-08-21 2021-01-05 杭州安恒信息技术股份有限公司 网页敏感度的计算方法、装置
CN112231442A (zh) * 2020-10-15 2021-01-15 北京临近空间飞行器系统工程研究所 一种敏感词过滤方法及装置
CN113824804A (zh) * 2021-11-24 2021-12-21 飞狐信息技术(天津)有限公司 一种关键词检测的方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446970A (zh) * 2008-12-15 2009-06-03 腾讯科技(深圳)有限公司 一种对用户发布的文本内容审核处理的方法及其装置
CN102053993A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置
CN102521402A (zh) * 2011-12-23 2012-06-27 上海电机学院 文本过滤系统及方法
CN102591951A (zh) * 2011-12-28 2012-07-18 信石科技(天津)有限公司 快速过滤微博信息的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446970A (zh) * 2008-12-15 2009-06-03 腾讯科技(深圳)有限公司 一种对用户发布的文本内容审核处理的方法及其装置
CN102053993A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置
CN102521402A (zh) * 2011-12-23 2012-06-27 上海电机学院 文本过滤系统及方法
CN102591951A (zh) * 2011-12-28 2012-07-18 信石科技(天津)有限公司 快速过滤微博信息的方法

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050191A (zh) * 2013-03-14 2014-09-17 北京百度网讯科技有限公司 对推广信息进行监控的方法和设备
CN104050191B (zh) * 2013-03-14 2019-04-12 北京百度网讯科技有限公司 对推广信息进行监控的方法和设备
CN103279476B (zh) * 2013-04-11 2016-12-28 深圳市易聆科信息技术股份有限公司 一种web应用系统敏感文字的检测方法及系统
CN103279476A (zh) * 2013-04-11 2013-09-04 深圳市易聆科信息技术有限公司 一种web应用系统敏感文字的检测方法及系统
CN103198161A (zh) * 2013-04-28 2013-07-10 中国科学院计算技术研究所 微博水军识别方法与设备
CN103198161B (zh) * 2013-04-28 2018-09-07 中国科学院计算技术研究所 微博水军识别方法与设备
CN103345530A (zh) * 2013-07-25 2013-10-09 南京邮电大学 一种基于语义网的社交网络黑名单自动过滤模型
CN103544265A (zh) * 2013-10-17 2014-01-29 常熟市华安电子工程有限公司 一种论坛过滤系统
CN103678602A (zh) * 2013-12-16 2014-03-26 昆明理工大学 一种含敏感度计算的网页过滤方法
CN103678602B (zh) * 2013-12-16 2017-02-01 昆明理工大学 一种含敏感度计算的网页过滤方法
CN105989093B (zh) * 2015-02-12 2019-09-10 阿里巴巴集团控股有限公司 敏感词的自动发现方法及其装置和应用
CN105989093A (zh) * 2015-02-12 2016-10-05 阿里巴巴集团控股有限公司 敏感词的自动发现方法及其装置和应用
CN105373528A (zh) * 2015-08-18 2016-03-02 新华网股份有限公司 一种文本内容敏感性分析方法和装置
CN105373528B (zh) * 2015-08-18 2019-03-12 新华网股份有限公司 一种文本内容敏感性分析方法和装置
CN105574434A (zh) * 2015-12-14 2016-05-11 网易(杭州)网络有限公司 信息屏蔽方法及装置
CN105574434B (zh) * 2015-12-14 2019-04-09 网易(杭州)网络有限公司 信息屏蔽方法及装置
CN107025239A (zh) * 2016-02-01 2017-08-08 博雅网络游戏开发(深圳)有限公司 敏感词过滤的方法和装置
CN107025239B (zh) * 2016-02-01 2019-12-27 博雅网络游戏开发(深圳)有限公司 敏感词过滤的方法和装置
CN106162093A (zh) * 2016-08-03 2016-11-23 天梯头条传媒(苏州)有限公司 现场实时采编系统
CN106446149A (zh) * 2016-09-21 2017-02-22 联动优势科技有限公司 一种通知信息的过滤方法及装置
CN106446149B (zh) * 2016-09-21 2020-01-10 联动优势科技有限公司 一种通知信息的过滤方法及装置
CN107357824A (zh) * 2017-06-15 2017-11-17 联想(北京)有限公司 信息处理方法、服务平台及计算机存储介质
CN107807966A (zh) * 2017-10-13 2018-03-16 深圳市迅雷网络技术有限公司 一种敏感信息屏蔽方法和服务端
CN109033150A (zh) * 2018-06-12 2018-12-18 平安科技(深圳)有限公司 敏感词验证方法、装置、计算机设备及存储介质
CN109033150B (zh) * 2018-06-12 2024-01-30 平安科技(深圳)有限公司 敏感词验证方法、装置、计算机设备及存储介质
CN110245212A (zh) * 2019-04-28 2019-09-17 阿里巴巴集团控股有限公司 一种内容审核方法及装置
CN112182461A (zh) * 2020-08-21 2021-01-05 杭州安恒信息技术股份有限公司 网页敏感度的计算方法、装置
CN112231442A (zh) * 2020-10-15 2021-01-15 北京临近空间飞行器系统工程研究所 一种敏感词过滤方法及装置
CN113824804A (zh) * 2021-11-24 2021-12-21 飞狐信息技术(天津)有限公司 一种关键词检测的方法及相关装置

Similar Documents

Publication Publication Date Title
CN102880636A (zh) 不良信息检测方法及服务端
CN101231661B (zh) 对象级知识挖掘的方法和系统
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN102609407B (zh) 一种网络不良文本内容的细粒度语义检测方法
CN108829656B (zh) 网络信息的数据处理方法及数据处理装置
CN101819585A (zh) 一种论坛事件传播图的构建装置及构建方法
CN103678528A (zh) 基于段落抄袭检测的电子作业反抄袭系统和方法
CN102117339A (zh) 针对不安全网页文本的过滤监管方法
CN103218412A (zh) 舆情信息处理方法与装置
CN106682123A (zh) 一种获取热点事件的方法及装置
CN103617213A (zh) 识别新闻网页属性特征的方法和系统
CN103902619A (zh) 一种网络舆情监控方法及系统
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
CN109376231A (zh) 一种媒体热点跟踪方法及系统
CN102508830A (zh) 从新闻文档中抽取社会网络的方法和系统
CN103365879A (zh) 一种用于获取页面相似度的方法与设备
CN101984620A (zh) 码本生成方法与隐蔽通信系统
Xu et al. Mining Web search engines for query suggestion
CN110659301A (zh) 用于本机应用内容验证的方法和系统
CN113010771B (zh) 搜索引擎中的个性化语义向量模型的训练方法及装置
Guha Related Fact Checks: a tool for combating fake news
CN116933075A (zh) 网络安全领域的问答模型训练方法、智能问答方法及装置
CN105099996B (zh) 网站验证方法及装置
CN103312584A (zh) 一种在网络社区中发布信息的方法与设备
Liu et al. An illegal billboard advertisement detection framework based on machine learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130116