CN102694673A - 一种网络言论监控方法、设备及系统 - Google Patents
一种网络言论监控方法、设备及系统 Download PDFInfo
- Publication number
- CN102694673A CN102694673A CN2011100732557A CN201110073255A CN102694673A CN 102694673 A CN102694673 A CN 102694673A CN 2011100732557 A CN2011100732557 A CN 2011100732557A CN 201110073255 A CN201110073255 A CN 201110073255A CN 102694673 A CN102694673 A CN 102694673A
- Authority
- CN
- China
- Prior art keywords
- speech
- network speech
- network
- sign
- recognition rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例公开了一种网络言论监控方法,包括:获取用户发表的网络言论;判断所述网络言论是否与预设的识别规则相匹配,若判断结果为是,为所述网络言论标注相应的标识;根据预设的标识与控制方式的逻辑对应关系,采用与所述网络言论的标识相对应的控制方式对所述网络言论进行安全控制。本发明实施例还公开了一种网络言论监控设备及系统。采用本发明,可有效地对不安全的网络言论进行过滤,提高对网络言论的安全保护力度。
Description
技术领域
本发明涉及网络言论安全监控技术领域,尤其涉及一种网络言论监控方法、设备及系统。
背景技术
随着网络的普及,越来越多的人利用网络进行交流,比如:网络留言、网络评论、发表各种网络言论等等,网络的快捷给人们的生活带来便利的同时,也让许多恶意分子有机可乘,比如:恶意分子利用网络发布中奖诈骗信息、广告信息、恶意言论信息等,给网络的应用带来了极坏的影响,严重损坏了用户的业务体验。
请参见图1,为现有的网络言论系统的结构示意图。用户通过客户端发布网络言论(如:网络留言、论坛评论等),客户端将用户发布的网络言论发送至业务服务器,业务服务器处理业务逻辑,包括:验证发布者的用户名(ID)、密码等信息,并将用户发布的该网络言论添加至相应的发布队列中,将发布队列返回给客户端进行显示,用户即可查看到自己发布的网络言论。业务服务器将该网络言论传送至数据服务器进行存储和管理。
为了防止恶意分子对网络应用进行破坏,现有的网络言论的安全监控方案基于关键词技术进行网络言论的安全控制,具体为:在业务服务器中预先存储不安全网络言论的关键词库,对关键词库中的各个关键词进行级别划分,如可划分为:严重恶意、恶意、轻微恶意三个级别,针对不同级别制定相应的控制方式,如:严重恶意级别对应的控制方式为“封号”,恶意级别对应的控制方式为“禁言”,轻微恶意级别对应的控制方式为“禁止发表该条言论”。当接收到用户发表的各种网络言论时,业务服务器首先对各种网络言论进行解析,当解析出网络言论中包含关键词库中的关键词,确定该关键词的级别,并根据确定的级别对应的控制方式对网络言论进行控制。
发明人发现,现有的网络言论的安全监控方案虽然能在一定程度上过滤掉部分不安全网络言论(如:恶意言论),但这种基于关键词技术的方案在应用中存在一些缺陷:
1、控制过于武断。现有的网络言论的安全监控方案往往在判断网络言论中存在某一个匹配的关键词时,即认为该网络言论为不安全网络言论,随即采取相应的控制方式进行控制,这种仅仅凭借一个关键词来判定一段网络言论的方式太过草率和武断,容易影响用户的业务体验。
2、对中性词很难界定,容易形成控制盲区。现有的网络言论的安全监控方案对于模糊性质的中性词很难处理,比如:“奖品”一词,在中奖诈骗类言论中,该词用于欺骗用户,属于恶意关键词,但是正常用户交流中,该词可能是用户发表的正常言论;对于这一类中性词,现有方案往往无法准确进行判断和处理,因此可能造成许多安全控制的盲区,从而降低了对网络言论的安全保护力度。
发明内容
本发明实施例所要解决的技术问题在于,提供一种网络言论监控方法、设备及系统,可有效地对不安全网络言论进行理解识别和过滤,提高对网络言论的安全保护力度。
为了解决上述技术问题,本发明实施例提供了一种网络言论监控方法,包括:
获取用户发表的网络言论;
判断所述网络言论是否与预设的识别规则相匹配,若判断结果为是,为所述网络言论标注相应的标识;
根据预设的标识与控制方式的逻辑对应关系,采用与所述网络言论的标识相对应的控制方式对所述网络言论进行安全控制。
其中,所述获取用户发表的网络言论包括:
接收客户端发送的用户发表的网络言论;或者,
接收业务服务器上报的用户发表的网络言论;
其中,所述网络言论包括:微博留言、微博评论、微博回复、论坛留言、论坛评论、留言板留言、日志评论及博客留言中的任一种或多种。
其中,所述判断所述网络言论是否与预设的识别规则相匹配,若判断结果为是,为所述网络言论标注相应的标识,包括:
解析所述网络言论,获得至少一个独立的短句;
对所述短句进行识别,判断所述短句是否与所述预设的识别规则相匹配;
若判断结果为是,为所述短句标注相应的标识。
其中,所述解析所述网络言论,获得至少一个独立的短句,包括:
基于标点符号对所述网络言论进行分割,获得至少一个独立的短句;或者,
基于短句长度的统计规律对所述网络言论进行分割,获得至少一个独立的短句。
其中,所述获取用户发表的网络言论之前,还包括:
预先设定各种识别规则,及预先设定各种标识与控制方式的逻辑对应关系;
所述预设的识别规则包括以下规则中的任一种或多种:广告类言论识别规则、诈骗类言论识别规则、恶意言论识别规则、反动类言论识别规则、色情类言论识别规则、政治类言论识别规则;
所述标识包括以下标识中的任一种或多种:广告标识、诈骗标识、恶意标识、反动标识、色情标识、政治标识;
所述控制方式包括:禁止所述网络言论的发表、封锁所述网络言论的发起方ID、禁止所述网络言论的发起方ID的所有网络言论的发表、向所述网络言论的发起方发送警告信息中的任一种或多种;
所述预设的标识与控制方式的逻辑对应关系为:任一种标识对应一种控制方式,或者,多种标识的组合对应至少一种控制方式。
其中,所述预先设定各种识别规则,包括:
从网络中获取各种不安全网络言论的样本;
从所述样本中提取每种不安全网络言论的共有特征,并从所述样本中提炼每种不安全网络言论的必要信息要素;
根据每种不安全网络言论的共有特征和必要信息要素,生成每种不安全网络言论的识别规则。
相应地,本发明实施例还提供了一种网络言论监控设备,包括:
获取模块,用于获取用户发表的网络言论;
标注模块,用于判断所述获取模块获取的所述网络言论是否与预设的识别规则相匹配,当判断结果为是时,为所述网络言论标注相应的标识;
安全控制模块,用于根据预设的标识与控制方式的逻辑对应关系,采用与所述标注模块为所述网络言论标注的标识相对应的控制方式对所述网络言论进行安全控制。
其中,所述获取模块接收客户端发送的用户发表的网络言论;或者,所述获取模块接收业务服务器上报的用户发表的网络言论;
其中,所述网络言论包括:微博留言、微博评论、微博回复、论坛留言、论坛评论、留言板留言、日志评论及博客留言中的任一种或多种。
其中,所述标注模块包括:
解析单元,用于解析所述网络言论,获得至少一个独立的短句;
识别判断单元,用于对所述解析单元获得的短句进行识别,判断所述短句是否与所述预设的识别规则相匹配;
标注单元,用于当所述识别判断单元判断结果为是时,为所述短句标注相应的标识。
其中,所述解析单元用于基于标点符号对所述网络言论进行分割,获得至少一个独立的短句;或者,基于短句长度的统计规律对所述网络言论进行分割,获得至少一个独立的短句。
其中,所述设备还包括:
存储模块,用于存储预先设定的各种识别规则,及预先设定的各种标识与控制方式的逻辑对应关系;
所述预设的识别规则包括以下规则中的任一种或多种:广告类言论识别规则、诈骗类言论识别规则、恶意言论识别规则、反动类言论识别规则、色情类言论识别规则、政治类言论识别规则;
所述标识包括以下标识中的任一种或多种:广告标识、诈骗标识、恶意标识、反动标识、色情标识、政治标识;
所述控制方式包括:禁止所述网络言论的发表、封锁所述网络言论的发起方ID、禁止所述网络言论的发起方ID的所有网络言论的发表、向所述网络言论的发起方发送警告信息中的任一种或多种;
所述预设的标识与控制方式的逻辑对应关系为:任一种标识对应一种控制方式,或者,多种标识的组合对应至少一种控制方式。
相应地,本发明实施例还提供了一种网络言论监控系统,包括:上述的网络言论监控设备。
实施本发明实施例,具有如下有益效果:
1、本发明实施例采用预设的识别规则对用户发表的网络言论进行识别和判断,当判断所述网络言论与预设的识别规则相匹配时,自动为该网络言论标注相应的标识,并采用与该标识相对应的控制方式进行安全控制,基于该识别规则对网络言论进行监控,可有效过滤掉不安全的网络言论,提高对网络言论的安全保护力度;
2、本发明实施例的网络监控所基于的预设的识别规则,是从网络中各种不安全网络言论的样本的指导学习过程中提炼而成,能够有效地对各种不安全网络言论进行理解识别,有利于提高网络言论安全的监控力度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有的网络言论系统的结构示意图;
图2为本发明的网络言论监控系统的第一实施例的结构示意图;
图3为本发明的网络言论监控系统的第二实施例的结构示意图;
图4为本发明的网络言论监控系统的第三实施例的结构示意图;
图5为本发明的网络言论监控设备的第一实施例的结构示意图;
图6为本发明的网络言论监控设备的第二实施例的结构示意图;
图7为本发明的网络言论监控设备的标注模块的实施例的结构示意图;
图8为本发明的网络言论监控方法的第一实施例的流程图;
图9为本发明的网络言论监控方法的第二实施例的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图2,为本发明的网络言论监控系统的第一实施例的结构示意图;所述网络言论监控系统包括:客户端、业务服务器和数据服务器,还包括:网络言论监控设备。
本实施例中,网络言论监控设备可以为安全保护服务器,其采用异步离线的方式去保护系统的网络言论的安全,如图2所示,用户通过客户端发表网络言论,业务服务器接收到客户端发送的用户的网络言论时,一方面进行正常的业务逻辑处理;另一方面,业务服务器将接收到的网络言论上报至安全保护服务器,安全保护服务器基于预设的识别规则对业务服务器上报的网络言论进行识别判断,并采用相应的控制方式控制该网络言论,过滤恶意的网络言论,保护系统的网络言论安全;最后,安全保护服务器还需要到数据服务器中对所述安全控制后的网络言论进行离线清理,删除被安全保护服务器识别并进行安全控制的网络言论,避免这些网络言论干扰到正常用户的业务体验。
请一并参见图3,为本发明的网络言论监控系统的第二实施例的结构示意图;与上一实施例相同,所述网络言论监控系统包括:客户端、业务服务器、数据服务器和网络言论监控设备。
本实施例中,网络言论监控设备可以为安全过滤网,其采用同步的方式去保护系统的网络言论的安全,如图3所示,该安全过滤网设置于业务逻辑的关键路径上,在进行业务逻辑处理时直接进行保护。安全过滤网对系统的网络言论的安全保护过程与上一实施例过程相同,在此不赘述。
请一并参见图4,为本发明的网络言论监控系统的第三实施例的结构示意图;与上一实施例相同,所述网络言论监控系统包括:客户端、业务服务器、数据服务器和网络言论监控设备。
本实施例中,网络言论监控设备可以为安全防火墙,该安全防火墙可以为软件防火墙或硬件防火墙,其采用同步的方式去保护系统的网络言论的安全,如图4所示,该安全防火墙设置于业务服务器与客户端之间,直接接收客户端发送的网络言论,并在进行业务逻辑之前对系统的网络言论进行过滤和保护。安全防火墙对系统的网络言论的安全保护过程与上一实施例过程类似,在此不赘述。
为了更清楚地说明本发明,下面将对本发明的网络言论监控系统中的网络言论监控设备进行详细介绍。
请参见图5,为本发明的网络言论监控设备的第一实施例的结构示意图;所述网络言论监控设备包括:
获取模块10,用于获取用户发表的网络言论。
具体实现中,所述获取模块10可以接收客户端发送的用户发表的网络言论,如图4所示实施例中,网络言论监控设备设置于客户端与业务服务器之间,此时所述获取模块10则直接接收客户端发送的用户发表的网络言论;所述获取模块10也可以接收业务服务器上报的用户发表的网络言论,如图2所示实施列中,网络言论监控设备设置于业务逻辑的关键路径之外,其接收业务服务器上报的用户发表的网络言论;如图3所示实施例中,网络言论监控设备设置于业务逻辑的关键路径上,其也可接收业务服务器上报的用户发表的网络言论。具体地,所述网络言论包括但不限于:微博留言、微博评论、微博回复、论坛留言、论坛评论、留言板留言、日志评论及博客留言中的任一种或多种。
标注模块20,用于判断所述获取模块10获取的所述网络言论是否与预设的识别规则相匹配,当判断结果为是时,为所述网络言论标注相应的标识。
所述预设的识别规则包括但不限于以下规则中的任一种或多种:广告类言论识别规则、诈骗类言论识别规则、恶意言论识别规则、反动类言论识别规则、色情类言论识别规则、政治类言论识别规则。所述标注模块20首先将所述获取模块10获取的网络言论进行解析,获得至少一个独立的短句,然后基于所述预设的识别规则识别各个短句,当识别到所述短句与所述预设的识别规则相匹配时,为所述网络言论自动标注相应的标识,所述标识包括但不限于以下标识中的任一种或多种:广告标识、诈骗标识、恶意标识、反动标识、色情标识、政治标识。
安全控制模块30,用于根据预设的标识与控制方式的逻辑对应关系,采用与所述标注模块20为所述网络言论标注的标识相对应的控制方式对所述网络言论进行安全控制。
具体实现中,所述预设的标识与控制方式的逻辑对应关系为:任一种标识对应一种控制方式,或者,多种标识的组合对应至少一种控制方式。所述控制方式包括但不限于:禁止所述网络言论的发表、封锁所述网络言论的发起方ID、禁止所述网络言论的发起方ID的所有网络言论的发表、向所述网络言论的发起方发送警告信息中的任一种或多种。需要说明的是,标识与控制方式的逻辑对应关系可以根据实际需要进行设定,比如:根据实际需要,可预设“广告标识”与“禁止所述网络言论的发表”的控制方式相对应;也可预设“广告标识+恶意标识”与“封锁所述网络言论的发起方ID”的控制方式对应;还可预设“广告标识”与“禁止所述网络言论的发表”及“封锁所述网络言论的发起方ID”两种控制方式相对应,等等,其他情况可类似分析,在此不赘述。所述安全控制模块30针对不同标识的网络言论,采用相对应的适当措施来对该网络言论进行对抗,有效地阻止了恶意的网络言论泛滥,保护了系统的网络言论安全。
本发明实施例可有效地对不安全的网络言论进行过滤,提高对网络言论的安全保护力度。
请参见图6,为本发明的网络言论监控设备的第二实施例的结构示意图;与上一实施例相同,所述网络言论监控设备包括:获取模块10、标注模块20和安全控制模块30。本实施例中,所述网络言论监控设备还包括:
存储模块40,用于存储预先设定的各种识别规则,及预先设定的各种标识与控制方式的逻辑对应关系。
所述预设的识别规则包括但不限于以下规则中的任一种或多种:广告类言论识别规则、诈骗类言论识别规则、恶意言论识别规则、反动类言论识别规则、色情类言论识别规则、政治类言论识别规则。所述存储模块40则用于存储所述预设的识别规则的集合,具体实现中,所述存储模块40可构建一个知识库,该知识库的构建过程包括:各种识别规则的设置过程及更新修正过程。
下面以中奖诈骗类言论识别规则为例,来具体说明识别规则的设置过程和更新修正过程。
首先,所述存储模块40从网络中获取大量的中奖诈骗类言论的样本,比如:“恭喜用户,你获得了某官方3万元大奖一份,请来www.zhongjiang.com领取!”、“尊敬的用户,某公司成立10周年庆典活动,有大礼相送,请登录www.af.com!”、“恭喜你,您是第100万开通农场业务的用户,你获得了某官方赠送精美大礼包一份,请登录www.jiangpin.cn领取!”,等等。
其次,所述存储模块40从上述各种中奖诈骗类言论样本中提取共有特征,一:相同的信息传达对象。上述中奖诈骗类的信息传达对象都是针对第二人称的,如“你”、“您”、“用户”;二:均带有与“奖品”相关或相似的词,包括“奖品”、“中奖”、“奖金”、“礼物”、“礼品”、“礼包”、“回馈等;三:均带有欺骗性网站的链接。
再次,所述存储模块40模拟人脑抽象理解一句话关键信息要素的过程,提炼出中奖诈骗类言论的信息要素,表达如下:{某某原因}{你}{中奖了}{请登录某网站}{汇款领奖},所述存储模块40提炼得到的信息要素对具有共有特征的不同表现形式的中奖诈骗类言论进行了高度概括和抽象。
最后,所述存储模块40基于上述提取的共有特征,以及提炼得到的各个信息要素,从中提取出必要的、不可缺失的信息要素抽象出中奖诈骗类言论的识别规则:{中奖诈骗类言论}={第二人称}+{奖品}+{外网链接}。上述过程即为中奖诈骗类言论识别规则的预设过程,该过程是基于对现有出现的中奖诈骗类言论的样本的指导学习形成的,也是对机器(网络言论监控设备)进行训练的过程。
可以理解的是,上述过程仅为举例,其他识别规则,比如:茶叶广告类言论的识别规则为:{茶叶广告类言论}={茶叶}+{外网链接};再如:色情类言论的识别规则为:{色情空间}={空间有}+{色情}+{图,视频,电影};又如:强制别人传播,否则诅咒别人的恶意言论识别规则为:{强制转发恶意言论}={不}+{传播该评论}+{诅咒} +{你,全家};上述各种识别规则的形成过程可类似分析,在此不赘述。
基于对现有出现的各种不安全网络言论的样本的指导学习,形成各种识别规则,所述存储模块40将所有的识别规则聚集存储,即构建得到包含识别规则集合的知识库:{中奖诈骗类言论}={{广告类言论识别规则}、{诈骗类言论识别规则}、{恶意言论识别规则}、{反动类言论识别规则}、{色情类言论识别规则}、{政治类言论识别规则}……}。
需要说明的是,随着各种不安全网络言论的变种,所述预设的识别规则也会根据不断的指导学习过程进行不断更新和修正,该知识库也相应的进行不断更新和修正,该更新修正过程与上述识别规则的形成过程类似,在此不赘述。
构建好所述知识库后,所述存储模块40需要将其转化为所述网络言论监控设备能够识别的命令逻辑,由网络言论监控设备执行该命令逻辑来完成对预设的识别规则的应用。依上述例子,基于预设的中奖诈骗类言论识别规则,其命令逻辑如下:
Function knowledgebase.Label(comment) //自动标注逻辑
{
Foreach rule in knowledgebase //对预设的所有识别规则进行逐一识别
{
If rule.Recognize(comment); then //如果某规则识别了短句
comment got rule.Label //为短句标注规则对应的标识
Endif
}
}
Function rule.Recognize(comment) //识别规则的识别逻辑
{
IF comment.Contains {第二人称} && comment Contains {奖品} && comment Contains{外网链接};then
//判断该网络言论是否匹配了识别规则包含的所有信息要素
Return rule recognize this comment
//信息要素全部包含,则该网络言论与该识别规则相匹配
Else
Return rule do not recognize this comment
//该网络言论与该识别规则不匹配
Endif
}
Function comment.Contains {第二人称} //信息要素的识别逻辑
{
If (comment.Contains keyword "你" || comment.Contains keyword "您" || comment.Contains keyword "用户" ) then
//短句评论是否含有信息要素的具体化内容特征
Return comment contain {第二人称} //短句含有{第二人称}信息
Else
Return comment do not contain {第二人称}
Endif
}
所述标注模块20通过执行上述命令逻辑,可判断网络言论是否与知识库中预设的中奖诈骗类言论的识别规则相匹配,且当判断结果为是时,自动对该网络言论标注所述预设的中奖诈骗类言论的识别规则对应的标识,如:中奖诈骗标识。
需要说明的是,所述存储模块40还用于存储预先设定的各种标识与控制方式的逻辑对应关系;所述标识包括但不限于以下标识中的任一种或多种:广告标识、诈骗标识、恶意标识、反动标识、色情标识、政治标识;所述预设的标识与控制方式的逻辑对应关系为:任一种标识对应一种控制方式,或者,多种标识的组合对应至少一种控制方式;所述控制方式包括但不限于:禁止所述网络言论的发表、封锁所述网络言论的发起方ID、禁止所述网络言论的发起方ID的所有网络言论的发表、向所述网络言论的发起方发送警告信息中的任一种或多种。
本发明实施例可有效地对不安全的网络言论进行理解识别和过滤,提高对网络言论的安全保护力度。
为了更清楚地说明本发明,下面将对本发明的网络言论监控设备中的标注模块进行详细介绍。
请参见图7,为本发明的网络言论监控设备的标注模块的实施例的结构示意图;所述标注模块20包括:
解析单元201,用于解析所述网络言论,获得至少一个独立的短句。
所谓短句,指采用高度提炼的短语或一句话表达一个观点或主题。用户通过客户端发布网络言论,该网络言论可以是一长段的言论(多个独立的短句构成),也可以为一个短句。当所述网络言论为一个短句时,所述解析单元201直接获得该短句;当所述网络言论为一长段的言论时,所述解析单元201对该长段的言论进行分割,获得多个独立的短句,所述解析单元201对长段言论的分割方式可以为:基于标点符号的分割方式,即按照标点符号进行分割获得短句;基于统计规律进行分割,即按照短句平均的长度对长段的言论进行分割;等等。
识别判断单元202,用于对所述解析单元201获得的短句进行识别,判断所述短句是否与所述预设的识别规则相匹配。
所述识别判断单元202基于所述预设的识别规则对所述解析单元201获得的各个短句进行识别,具体地,所述识别判断单元202通过执行上一实施例中的命令逻辑来进行识别判断。
标注单元203,用于当所述识别判断单元202判断结果为是时,为所述短句标注相应的标识。
当所述识别判断单元202判断短句与预设的识别规则相匹配时,所述标注单元203通过执行上一实施例中的命令逻辑,自动对该匹配的网络言论标注所述预设的中奖诈骗类言论的识别规则对应的标识,如:中奖诈骗标识。需要说明的是,若所述识别判断单元202的判断结果为否,表明所述网络言论为正常的言论,则采用正常的业务逻辑对该网络言论进行处理,此过程与现有技术相同,在此不赘述。
本发明实施例可有效地对不安全的网络言论进行过滤,提高对网络言论的安全保护力度。
为了更清楚地说明本发明,下面将对本发明的网络言论监控设备所执行的网络言论监控方法进行详细介绍。
请参见图8,为本发明的网络言论监控方法的第一实施例的流程图;所述方法包括:
S101,获取用户发表的网络言论。
具体实现中,所述S101可以接收客户端发送的用户发表的网络言论,如图4所示实施例中,网络言论监控设备设置于客户端与业务服务器之间,此时所述网络言论监控设备则执行所述S101,直接接收客户端发送的用户发表的网络言论;所述S101也可以接收业务服务器上报的用户发表的网络言论,如图2所示实施列中,网络言论监控设备设置于业务逻辑的关键路径之外,其执行所述S101,接收业务服务器上报的用户发表的网络言论;如图3所示实施例中,网络言论监控设备设置于业务逻辑的关键路径上,其执行所述S101,接收业务服务器上报的用户发表的网络言论。具体地,所述网络言论包括但不限于:微博留言、微博评论、微博回复、论坛留言、论坛评论、留言板留言、日志评论及博客留言中的任一种或多种。
S102,判断所述网络言论是否与预设的识别规则相匹配,若判断结果为是,转入S103;否则,结束。
所述预设的识别规则包括但不限于以下规则中的任一种或多种:广告类言论识别规则、诈骗类言论识别规则、恶意言论识别规则、反动类言论识别规则、色情类言论识别规则、政治类言论识别规则。所述S102首先将所述获取的网络言论进行解析,获得至少一个独立的短句,然后基于所述预设的识别规则识别各个短句,当识别到所述短句与所述预设的识别规则相匹配时,转入执行S103,否则,结束。
S103,为所述网络言论标注相应的标识。
当所述S102识别到所述短句与所述预设的识别规则相匹配时,所述S103为所述网络言论自动标注相应的标识,所述标识包括但不限于以下标识中的任一种或多种:广告标识、诈骗标识、恶意标识、反动标识、色情标识、政治标识。
S104,根据预设的标识与控制方式的逻辑对应关系,采用与所述网络言论的标识相对应的控制方式对所述网络言论进行安全控制。
具体实现中,所述预设的标识与控制方式的逻辑对应关系为:任一种标识对应一种控制方式,或者,多种标识的组合对应至少一种控制方式。所述控制方式包括但不限于:禁止所述网络言论的发表、封锁所述网络言论的发起方ID、禁止所述网络言论的发起方ID的所有网络言论的发表、向所述网络言论的发起方发送警告信息中的任一种或多种。需要说明的是,标识与控制方式的逻辑对应关系可以根据实际需要进行设定,比如:根据实际需要,可预设“广告标识”与“禁止所述网络言论的发表”的控制方式相对应;也可预设“广告标识+恶意标识”与“封锁所述网络言论的发起方ID”的控制方式对应;还可预设“广告标识”与“禁止所述网络言论的发表”及“封锁所述网络言论的发起方ID”两种控制方式相对应,等等,其他情况可类似分析,在此不赘述。所述S104针对不同标识的网络言论,采用相对应的适当措施来对该网络言论进行对抗,有效地阻止了不安全的网络言论泛滥,保护了系统的网络言论安全。
本发明实施例可有效地对不安全的网络言论进行过滤,提高对网络言论的安全保护力度。
请参见图9,为本发明的网络言论监控方法的第二实施例的流程图;所述方法包括:
S201,预先设定各种识别规则,及预先设定各种标识与控制方式的逻辑对应关系。
所述预设的识别规则包括但不限于以下规则中的任一种或多种:广告类言论识别规则、诈骗类言论识别规则、恶意言论识别规则、反动类言论识别规则、色情类言论识别规则、政治类言论识别规则。所述S201对各种识别规则的设置过程,即为对包含各种识别规则的知识库的构建过程,该知识库的构建过程包括:各种识别规则的设置过程及更新修正过程。
下面以中奖诈骗类言论识别规则为例,来具体说明所述识别规则的设置过程和更新修正过程。
首先,所述S201从网络中获取大量的中奖诈骗类言论的样本,比如:“恭喜用户,你获得了某官方3万元大奖一份,请来www.zhongjiang.com领取!”、“尊敬的用户,某公司成立10周年庆典活动,有大礼相送,请登录www.af.com!”、“恭喜你,您是第100万开通农场业务的用户,你获得了某官方赠送精美大礼包一份,请登录www.jiangpin.cn领取!”,等等。
其次,所述S201上述各种中奖诈骗类言论样本中提取共有特征,一:相同的信息传达对象。上述中奖诈骗类的信息传达对象都是针对第二人称的,如“你”、“您”、“用户”;二:均带有与“奖品”相关或相似的词,包括“奖品”、“中奖”、“奖金”、“礼物”、“礼品”、“礼包”、“回馈等;三:均带有欺骗性网站的链接。
再次,所述S201模拟人脑抽象理解一句话关键信息要素的过程,提炼出中奖诈骗类言论的信息要素,表达如下:{某某原因}{你}{中奖了}{请登录某网站}{汇款领奖},所述S201提炼得到的信息要素对具有共有特征的不同表现形式的中奖诈骗类言论进行了高度概括和抽象。
最后,所述S201基于上述提取的共有特征,以及提炼得到的各个信息要素,从中提取出必要的、不可缺失的信息要素抽象出中奖诈骗类言论的识别规则:{中奖诈骗类言论}={第二人称}+{奖品}+{外网链接}。上述过程即为中奖诈骗类言论识别规则的预设过程,该过程是基于对现有出现的中奖诈骗类言论的样本的指导学习形成的。
可以理解的是,上述过程仅为举例,其他识别规则,比如:茶叶广告类言论的识别规则为:{茶叶广告类言论}={茶叶}+{外网链接};再如:色情类言论的识别规则为:{色情空间}={空间有}+{色情}+{图,视频,电影};又如:强制别人传播,否则诅咒别人的恶意言论识别规则为:{强制转发恶意言论}={不}+{传播该评论}+{诅咒} +{你,全家};上述各种识别规则的形成过程可类似分析,在此不赘述。
基于对现有出现的各种不安全网络言论的样本的指导学习,形成各种识别规则,所述S201将所有的识别规则聚集,即构建得到包含识别规则集合的知识库:{中奖诈骗类言论}={{广告类言论识别规则}、{诈骗类言论识别规则}、{恶意言论识别规则}、{反动类言论识别规则}、{色情类言论识别规则}、{政治类言论识别规则}……}。
需要说明的是,随着各种不安全的网络言论的变种,所述预设的识别规则也会根据不断的指导学习过程进行不断更新和修正,该知识库也相应的进行不断更新和修正,该更新修正过程与上述识别规则的形成过程类似,在此不赘述。
构建好所述知识库后,所述S201需要将其转化为所述网络言论监控设备能够识别的命令逻辑,由网络言论监控设备执行该命令逻辑来完成对预设的识别规则的应用。依上述例子,基于预设的中奖诈骗类言论识别规则,其命令逻辑如下:
Function knowledgebase.Label(comment) //自动标注逻辑
{
Foreach rule in knowledgebase //对预设的所有识别规则进行逐一识别
{
If rule.Recognize(comment); then //如果某规则识别了短句
comment got rule.Label //为短句标注规则对应的标识
Endif
}
}
Function rule.Recognize(comment) //识别规则的识别逻辑
{
IF comment.Contains {第二人称} && comment Contains {奖品} && comment Contains{外网链接};then
//判断该网络言论是否匹配了识别规则包含的所有信息要素
Return rule recognize this comment
//信息要素全部包含,则该网络言论与该识别规则相匹配
Else
Return rule do not recognize this comment
//该网络言论与该识别规则不匹配
Endif
}
Function comment.Contains {第二人称} //信息要素的识别逻辑
{
If (comment.Contains keyword "你" || comment.Contains keyword "您" || comment.Contains keyword "用户" ) then
//短句评论是否含有信息要素的具体化内容特征
Return comment contain {第二人称} //短句含有{第二人称}信息
Else
Return comment do not contain {第二人称}
Endif
}
S202,接收客户端发送的用户发表的网络言论,或接收业务服务器上报的用户发表的网络言论。
本实施例中,所述S202与上一实施例中的S101的步骤类似,在此不赘述。
S203,解析所述网络言论,获得至少一个独立的短句。
所谓短句,指采用高度提炼的短语或一句话表达一个观点或主题。用户通过客户端发布网络言论,该网络言论可以是一长段的言论(多个独立的短句构成),也可以为一个短句。当所述网络言论为一个短句时,所述S203直接获得该短句;当所述网络言论为一长段的言论时,所述S203对该长段的言论进行分割,获得多个独立的短句,所述S203对长段言论的分割方式可以为:基于标点符号的分割方式,即按照标点符号进行分割获得短句;基于统计规律进行分割,即按照短句平均的长度对长段的言论进行分割;等等。
S204,对所述短句进行识别,判断所述短句是否与所述预设的识别规则相匹配;若判断结果为是,转入S205;否则,结束。
所述S204基于所述预设的识别规则对所述S203获得的各个短句进行识别,具体地,所述S204通过所述S201中的命令逻辑来进行识别判断。
S205,若判断结果为是,为所述短句标注相应的标识。
当所述S204判断短句与预设的识别规则相匹配时,所述S205通过执行上一实施例中的命令逻辑,自动对该匹配的网络言论标注所述预设的中奖诈骗类言论的识别规则对应的标识,如:中奖诈骗标识。需要说明的是,若所述S204的判断结果为否,表明所述网络言论为正常的言论,则采用正常的业务逻辑对该网络言论进行处理,此过程与现有技术相同,在此不赘述。
本实施例中,所述S203-S205为上一实施例的S102-S103的具体细化步骤。
S206,根据预设的标识与控制方式的逻辑对应关系,采用与所述网络言论的标识相对应的控制方式对所述网络言论进行安全控制。
本实施例中,所述S206与上一实施例的S104的步骤相同,在此不赘述。
本发明实施例可有效地对不安全的网络言论进行理解识别和过滤,提高对网络言论的安全保护力度。
通过上述实施例的描述,本发明实施例采用预设的识别规则对用户发表的网络言论进行识别和判断,当判断所述网络言论与预设的识别规则相匹配时,自动为该网络言论标注相应的标识,并采用与该标识相对应的控制方式进行安全控制,基于该识别规则对网络言论进行监控,可有效过滤掉不安全的网络言论,提高对网络言论的安全保护力度;另外,本发明实施例的网络监控所基于的预设的识别规则,是从网络中各种不安全网络言论的样本的指导学习过程中提炼而成,能够有效地对各种不安全网络言论进行理解识别,有利于提高网络言论安全的监控力度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (12)
1.一种网络言论监控方法,其特征在于,包括:
获取用户发表的网络言论;
判断所述网络言论是否与预设的识别规则相匹配,若判断结果为是,为所述网络言论标注相应的标识;
根据预设的标识与控制方式的逻辑对应关系,采用与所述网络言论的标识相对应的控制方式对所述网络言论进行安全控制。
2.如权利要求1所述的方法,其特征在于,所述获取用户发表的网络言论包括:
接收客户端发送的用户发表的网络言论;或者,
接收业务服务器上报的用户发表的网络言论;
其中,所述网络言论包括:微博留言、微博评论、微博回复、论坛留言、论坛评论、留言板留言、日志评论及博客留言中的任一种或多种。
3.如权利要求1所述的方法,其特征在于,所述判断所述网络言论是否与预设的识别规则相匹配,若判断结果为是,为所述网络言论标注相应的标识,包括:
解析所述网络言论,获得至少一个独立的短句;
对所述短句进行识别,判断所述短句是否与所述预设的识别规则相匹配;
若判断结果为是,为所述短句标注相应的标识。
4.如权利要求3所述的方法,其特征在于,所述解析所述网络言论,获得至少一个独立的短句,包括:
基于标点符号对所述网络言论进行分割,获得至少一个独立的短句;或者,
基于短句长度的统计规律对所述网络言论进行分割,获得至少一个独立的短句。
5.如权利要求1-4任一项所述的方法,其特征在于,所述获取用户发表的网络言论之前,还包括:
预先设定各种识别规则,及预先设定各种标识与控制方式的逻辑对应关系;
所述预设的识别规则包括以下规则中的任一种或多种:广告类言论识别规则、诈骗类言论识别规则、恶意言论识别规则、反动类言论识别规则、色情类言论识别规则、政治类言论识别规则;
所述标识包括以下标识中的任一种或多种:广告标识、诈骗标识、恶意标识、反动标识、色情标识、政治标识;
所述控制方式包括:禁止所述网络言论的发表、封锁所述网络言论的发起方ID、禁止所述网络言论的发起方ID的所有网络言论的发表、向所述网络言论的发起方发送警告信息中的任一种或多种;
所述预设的标识与控制方式的逻辑对应关系为:任一种标识对应一种控制方式,或者,多种标识的组合对应至少一种控制方式。
6.如权利要求5所述的方法,其特征在于,所述预先设定各种识别规则,包括:
从网络中获取各种不安全网络言论的样本;
从所述样本中提取每种不安全网络言论的共有特征,并从所述样本中提炼每种不安全网络言论的必要信息要素;
根据每种不安全网络言论的共有特征和必要信息要素,生成每种不安全网络言论的识别规则。
7.一种网络言论监控设备,其特征在于,包括:
获取模块,用于获取用户发表的网络言论;
标注模块,用于判断所述获取模块获取的所述网络言论是否与预设的识别规则相匹配,当判断结果为是时,为所述网络言论标注相应的标识;
安全控制模块,用于根据预设的标识与控制方式的逻辑对应关系,采用与所述标注模块为所述网络言论标注的标识相对应的控制方式对所述网络言论进行安全控制。
8.如权利要求7所述的设备,其特征在于,所述获取模块接收客户端发送的用户发表的网络言论;或者,所述获取模块接收业务服务器上报的用户发表的网络言论;
其中,所述网络言论包括:微博留言、微博评论、微博回复、论坛留言、论坛评论、留言板留言、日志评论及博客留言中的任一种或多种。
9.如权利要求7所述的设备,其特征在于,所述标注模块包括:
解析单元,用于解析所述网络言论,获得至少一个独立的短句;
识别判断单元,用于对所述解析单元获得的短句进行识别,判断所述短句是否与所述预设的识别规则相匹配;
标注单元,用于当所述识别判断单元判断结果为是时,为所述短句标注相应的标识。
10.如权利要求9所述的设备,其特征在于,所述解析单元基于标点符号对所述网络言论进行分割,获得至少一个独立的短句;或者,基于短句长度的统计规律对所述网络言论进行分割,获得至少一个独立的短句。
11.如权利要求7所述的设备,其特征在于,还包括:
存储模块,用于存储预先设定的各种识别规则,及预先设定的各种标识与控制方式的逻辑对应关系;
所述预设的识别规则包括以下规则中的任一种或多种:广告类言论识别规则、诈骗类言论识别规则、恶意言论识别规则、反动类言论识别规则、色情类言论识别规则、政治类言论识别规则;
所述标识包括以下标识中的任一种或多种:广告标识、诈骗标识、恶意标识、反动标识、色情标识、政治标识;
所述控制方式包括:禁止所述网络言论的发表、封锁所述网络言论的发起方ID、禁止所述网络言论的发起方ID的所有网络言论的发表、向所述网络言论的发起方发送警告信息中的任一种或多种;
所述预设的标识与控制方式的逻辑对应关系为:任一种标识对应一种控制方式,或者,多种标识的组合对应至少一种控制方式。
12.一种网络言论监控系统,其特征在于,包括:如权利要求7-11任一项所述的网络言论监控设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100732557A CN102694673A (zh) | 2011-03-25 | 2011-03-25 | 一种网络言论监控方法、设备及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100732557A CN102694673A (zh) | 2011-03-25 | 2011-03-25 | 一种网络言论监控方法、设备及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102694673A true CN102694673A (zh) | 2012-09-26 |
Family
ID=46859965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100732557A Pending CN102694673A (zh) | 2011-03-25 | 2011-03-25 | 一种网络言论监控方法、设备及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102694673A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136346A (zh) * | 2013-02-07 | 2013-06-05 | 珠海市君天电子科技有限公司 | 一种鉴定微博虚假广告的方法 |
WO2014101706A1 (zh) * | 2012-12-27 | 2014-07-03 | 腾讯科技(深圳)有限公司 | 一种用户生成内容提及的骚扰屏蔽方法、装置和系统 |
CN104462118A (zh) * | 2013-09-21 | 2015-03-25 | 郑建锋 | 控制信息传播风险的方法及系统 |
CN106250482A (zh) * | 2016-07-29 | 2016-12-21 | 宇龙计算机通信科技(深圳)有限公司 | 屏蔽广告信息的方法、装置和系统 |
CN107766329A (zh) * | 2017-10-23 | 2018-03-06 | 广东欧珀移动通信有限公司 | 黑名单配置方法及装置 |
CN108452525A (zh) * | 2017-12-25 | 2018-08-28 | 福建省天奕网络科技有限公司 | 一种游戏中聊天信息的监控方法及系统 |
CN109783804A (zh) * | 2018-12-17 | 2019-05-21 | 北京百度网讯科技有限公司 | 低质言论识别方法、装置、设备及计算机可读存储介质 |
CN111966975A (zh) * | 2020-07-16 | 2020-11-20 | 深圳市翩翩科技有限公司 | 一种管理网络社群的方法、终端设备及存储介质 |
CN115134329A (zh) * | 2022-06-29 | 2022-09-30 | 中国银行股份有限公司 | 一种网络行为的控制方法及装置、电子设备、存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1350241A (zh) * | 2001-12-03 | 2002-05-22 | 上海交通大学 | 网络聊天室内容安全监管系统 |
US20090070376A1 (en) * | 2007-09-12 | 2009-03-12 | Nhn Corporation | Method of controlling display of comments |
CN101393555A (zh) * | 2008-09-09 | 2009-03-25 | 浙江大学 | 一种垃圾博客检测方法 |
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
CN101919223A (zh) * | 2008-02-06 | 2010-12-15 | 迪斯尼实业公司 | 用于管理虚拟社区中谈话的方法和系统 |
CN101976231A (zh) * | 2010-08-25 | 2011-02-16 | 孙强国 | 一种多语种短信息的网络监管方法 |
-
2011
- 2011-03-25 CN CN2011100732557A patent/CN102694673A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1350241A (zh) * | 2001-12-03 | 2002-05-22 | 上海交通大学 | 网络聊天室内容安全监管系统 |
US20090070376A1 (en) * | 2007-09-12 | 2009-03-12 | Nhn Corporation | Method of controlling display of comments |
CN101919223A (zh) * | 2008-02-06 | 2010-12-15 | 迪斯尼实业公司 | 用于管理虚拟社区中谈话的方法和系统 |
CN101393555A (zh) * | 2008-09-09 | 2009-03-25 | 浙江大学 | 一种垃圾博客检测方法 |
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
CN101976231A (zh) * | 2010-08-25 | 2011-02-16 | 孙强国 | 一种多语种短信息的网络监管方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10320729B2 (en) | 2012-12-27 | 2019-06-11 | Tencent Technology (Shenzhen) Company Limited | Method, apparatus, and system for shielding harassment by mention in user generated content |
WO2014101706A1 (zh) * | 2012-12-27 | 2014-07-03 | 腾讯科技(深圳)有限公司 | 一种用户生成内容提及的骚扰屏蔽方法、装置和系统 |
CN103136346A (zh) * | 2013-02-07 | 2013-06-05 | 珠海市君天电子科技有限公司 | 一种鉴定微博虚假广告的方法 |
CN104462118A (zh) * | 2013-09-21 | 2015-03-25 | 郑建锋 | 控制信息传播风险的方法及系统 |
CN106250482A (zh) * | 2016-07-29 | 2016-12-21 | 宇龙计算机通信科技(深圳)有限公司 | 屏蔽广告信息的方法、装置和系统 |
CN107766329A (zh) * | 2017-10-23 | 2018-03-06 | 广东欧珀移动通信有限公司 | 黑名单配置方法及装置 |
CN107766329B (zh) * | 2017-10-23 | 2021-08-06 | Oppo广东移动通信有限公司 | 黑名单配置方法及装置 |
CN108452525B (zh) * | 2017-12-25 | 2021-06-29 | 福建省天奕网络科技有限公司 | 一种游戏中聊天信息的监控方法及系统 |
CN108452525A (zh) * | 2017-12-25 | 2018-08-28 | 福建省天奕网络科技有限公司 | 一种游戏中聊天信息的监控方法及系统 |
CN109783804A (zh) * | 2018-12-17 | 2019-05-21 | 北京百度网讯科技有限公司 | 低质言论识别方法、装置、设备及计算机可读存储介质 |
CN109783804B (zh) * | 2018-12-17 | 2023-07-07 | 北京百度网讯科技有限公司 | 低质言论识别方法、装置、设备及计算机可读存储介质 |
CN111966975A (zh) * | 2020-07-16 | 2020-11-20 | 深圳市翩翩科技有限公司 | 一种管理网络社群的方法、终端设备及存储介质 |
CN115134329A (zh) * | 2022-06-29 | 2022-09-30 | 中国银行股份有限公司 | 一种网络行为的控制方法及装置、电子设备、存储介质 |
CN115134329B (zh) * | 2022-06-29 | 2024-03-15 | 中国银行股份有限公司 | 一种网络行为的控制方法及装置、电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102694673A (zh) | 一种网络言论监控方法、设备及系统 | |
CN110197672B (zh) | 一种语音通话质量检测方法、服务器、存储介质 | |
CN102576358B (zh) | 单词对取得装置、单词对取得方法及其程序 | |
CN103177204A (zh) | 密码信息提示方法及装置 | |
CN107193973A (zh) | 语义解析信息的领域识别方法及装置、设备及可读介质 | |
CN108090127A (zh) | 建立问答文本评价模型与评价问答文本的方法、装置 | |
Atwell et al. | A comparative evaluation of modern English corpus grammatical annotation schemes | |
CN107402913A (zh) | 先行词的确定方法和装置 | |
CN111597817B (zh) | 一种事件信息抽取方法及装置 | |
CN107872433A (zh) | 一种身份验证方法及其设备 | |
CN106815207A (zh) | 用于法律裁判文书的信息处理方法及装置 | |
US10339534B2 (en) | Segregation of chat sessions based on user query | |
CN104346396A (zh) | 一种即时通讯客户端的数据处理方法、装置、终端及系统 | |
CN109873813A (zh) | 文本输入异常监控方法、装置、计算机设备及存储介质 | |
CN106547791A (zh) | 一种数据访问方法及系统 | |
CN106354818A (zh) | 基于社交媒体的动态用户属性提取方法 | |
CN107357824A (zh) | 信息处理方法、服务平台及计算机存储介质 | |
CN107992578A (zh) | 敏感视频源的数据库自动检测方法 | |
CN108269116A (zh) | 一种广告安全监测方法和装置 | |
CN109726533A (zh) | 用户账号判断方法和装置 | |
CN108153764A (zh) | 一种舆情处理方法及装置 | |
CN110362825A (zh) | 一种基于文本的金融数据抽取方法、装置和电子设备 | |
CN105844226A (zh) | 基于主观题的数据处理方法及其装置 | |
CN106971163A (zh) | 一种接领人识别方法、装置和系统 | |
WO2024080813A1 (ko) | 역추적을 통한 빅데이터 및 머신러닝 기반 로또 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120926 |