一种网络信息传播的监控方法和装置
技术领域
本申请涉及网络技术,特别涉及一种网络信息传播的监控方法和装置。
背景技术
随着互联网技术的迅猛发展,借助网络的力量,各种类型的信息可以实现快速的更加广泛的传播效应;比如,当网络用户在互联网上发布一条信息时,在较短的时间内,该信息有可能被全国甚至全世界范围的民众所知悉。这种网络信息的传播在一定程度上对有益信息的推广能够起到积极的作用,但是,如果网络信息是具有负面影响的信息,就需要对其在互联网上的传播进行监控,以密切关注信息在网络的发展态势,比如传播速度和传播规模,以使得能够及时遏制恶劣影响以及危害社会事件的产生。当前对网络信息传播的监控技术,存在监控不准确的缺陷,不利于准确掌握信息传播状态。
发明内容
有鉴于此,本申请提供一种网络信息传播的监控方法和装置,以提高对于信息在网络上的发展态势监控的准确度。
具体地,本申请是通过如下技术方案实现的:
第一方面,提供一种网络信息传播的监控方法,包括:
根据监控的目标事件,采集包括所述目标事件的网页数据;
对所述网页数据进行分析,得到所述目标事件的网络来源以及网络传播数据;
综合所述网络来源和网络传播数据,计算所述目标事件的监控值,所述监控值用于表示所述目标事件在网络上的传播态势。
第二方面,提供一种网络信息传播的监控装置,包括:
信息采集模块,用于根据监控的目标事件,采集包括所述目标事件的网页数据;
数据处理模块,用于对所述网页数据进行分析,得到所述目标事件的网络来源以及网络传播数据;
监控分析模块,用于综合所述网络来源和网络传播数据,计算所述目标事件的监控值,所述监控值用于表示所述目标事件在网络上的传播态势。
本申请提供的网络信息传播的监控方法和装置,通过根据所监控的目标事件的来源和网络传播数据等信息综合计算监控值,能够使得对于目标事件在网络上传播的评估更加准确,从而提高了对于信息在网络上的发展态势监控的准确度。
附图说明
图1是本申请一示例性实施例示出的一种网络信息传播监控的应用场景;
图2是本申请一示例性实施例示出的一种网络信息传播的监控方法的流程图;
图3是本申请一示例性实施例示出的一种舆情监控的流程图;
图4是本申请一示例性实施例示出的网络信息传播的监控装置的结构图;
图5是本申请一示例性实施例示出的网络信息传播的监控装置的结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请实施例的网络信息传播的监控方法和装置,可以应用于对信息在互联网上的传播情况进行监控,比如,某网络用户在网络上发布了一条信息(该信息的类型或格式不限),这条信息对于用户A(比如,企业、个人、或者政府部门等)来说相对比较重要,用户A需要及时的了解该信息在网络上达到了怎样的传播规模,比如,只有一小部分人群可以获知,或者已经在全国范围内形成了热点话题。本实施例的方法可以用于监控上述情况的信息传播程度,以使得关心该信息的用户比如用户A及时采取对应的措施。
如图1所示,示例了本实施例的网络信息传播监控的应用场景,信息在网络11中传播时,通常是多途径传播,比如,可以在新闻媒体上发布,或者可以在论坛中发布,或者还可以是在即时通信工具上进行传播等各种方式。示例性的,图1中的服务器12至服务器14可以用于表示各种传播途径的服务器,比如对应上述的媒体服务器、即时通信服务器等。在网络上传播的信息可以是存储在服务器上,并通过服务器推送给客户端以展示给网络用户,比如,某新闻媒体的媒体服务器上存储一条新闻信息,当用户通过访问该媒体网站时,就会从对应的媒体服务器上下载包括该新闻信息的网页,用户浏览网页获知该新闻信息,该信息也通过网络实现了向网络用户的传播。
本实施例中,可以将网络信息传播的监控装置设置在终端设备15上,该终端设备15例如可以是个人电脑、移动终端或者服务器。网络信息传播的监控装置在终端设备上运行,图2示例了该装置执行的网络信息传播的监控方法的流程,如图2所示,可以包括:
201、根据监控的目标事件,采集包括所述目标事件的网页数据;
202、对所述网页数据进行分析,得到所述目标事件的网络来源以及网络传播数据;
例如,所述网络传播数据包括如下至少一项:所述目标事件在所述网络来源的转发次数、点击次数或者评论次数;
203、综合所述网络来源和网络传播数据,计算所述目标事件的监控值,所述监控值用于表示所述目标事件在网络上的传播态势。
其中,在步骤201中,监控装置可以利用网络爬虫技术进行网页数据的采集。网络爬虫技术是一种能够自动获取网页内容的方式,可以根据要监控的信息自动从网页服务器上下载对应的网页内容到本地。当然也可以采用其他方式来获取多种途径的网页信息。
所述的监控的目标事件,例如是“支付宝为用户提供了一个广受好评的增值服务”,监控装置获取该目标事件的方式,可以是使用该监控装置进行监控的用户已经具备了监控主题,将该监控主题输入到监控装置中(例如,在监控装置的人机交互界面输入该监控主题对应的关键词),以上述目标事件为例,用户可以输入增值服务的名称。或者,还可以是用户先使用搜索引擎搜索到当前网络上的热门事件作为要监控的目标事件,并输入到监控装置。
在确定要监控的目标事件后,监控装置可以根据该目标事件采集网页数据。例如,在使用上述的爬虫技术采集数据时,可以是访问预定的访问地址对应的网页,获取网页数据,比如,用户可以在监控装置的人机交互界面中以选择或者输入的方式,预先设定爬虫要访问的站点(例如,新浪、搜狐、天涯等),爬虫将根据用户设定的站点访问对应的服务器,采集到该站点的网页内容。或者,用户也可以不预先指定访问地址,而是由爬虫进行全网搜索。此外,在采集时,爬虫可以将某站点的所有网页数据都抓取,或者,为了节省网络资源消耗,也可以只抓取包含监控目标事件的网页数据,比如,在访问网页时,爬虫可以先通过页面数据分析判断网页是否包括目标事件的信息,若确定包括才将网页数据下载到监控装置本地。
在采集到网页数据后,监控装置在202中对网页数据进行分析,比如通常的分词处理、文本识别等技术,获取到网页数据中包括的如下信息:目标事件的网络来源以及网络传播数据。网络来源例如包括:搜狐、网易等新闻媒体、或者论坛、微博等来源;而网络传播数据可以包括如下至少一项:目标事件在网络来源的转发次数、点击次数或者评论次数,比如,监控目标事件在论坛上的转发次数。
在203中,监控装置将综合在202中得到的网络来源和网络传播数据,计算所述目标事件的监控值,所述监控值用于表示所述目标事件在网络上的传播态势。也就是说,在本步骤中,监控装置将综合根据来源、转发次数、评价次数等信息,进行量化评估目标事件在网络上的传播态势。
本实施例的网络信息传播的监控,可以由网络中采集较为全面的反映信息在网络上的传播程度的多途径信息,比如,可以采集用于表示信息传播影响面的因素内容(例如,上述信息发布在新闻媒体上,新闻媒体的影响面可以决定信息传播的影响面),还可以采集用于表示信息传播的发展速度的因素内容(例如,上述信息在论坛上的转发次数、被评论次数等,代表了信息的发展速度),因此,监控装置采集的信息,能够较为全面的反映信息在网络上的传播程度,包括影响该信息传播的发展速度和影响面等内容,综合该多方面信息进行量化表示信息的网络传播,从而相对于传统监控方式中的单一途径监控,将大大提高对于网络信息传播程度的监控准确度。
如下以“舆情”信息在网络上传播的监控为例,示例性的说明如何采用本申请实施例的网络信息传播的监控方法来对舆情传播进行监控,“舆情”是指围绕一些社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者产生和持有的社会政治态度,是较多群众关于社会中各种现象、问题所表达的态度、意见和情绪等表现的总和。对于这些舆情的发展如果引导不善,有可能产生负面的影响,对社会安全构成威胁,因此有必要进行舆情监控,以及时遏制住不良舆情的发展态势。相关技术中,在对舆情监控时主要是根据舆情内容进行统计,例如,统计网络上对于某个内容的事件的发布数量,这种分析方式尚不能准确评估舆情发展。
本实施例的网络信息传播的监控方法可以用于对舆情传播的发展态势进行监控,例如,对于一个舆情“某某省的某某镇发生了六级地震”,相关部门想要查看下在互联网上该舆情当前的传播程度(例如,各大媒体都已经发布了该消息,或者,仅有很小量的传播未造成较大影响),应用本实施例的舆情监控装置,就可以监控得到舆情的发展情况。比如,监控装置可以通过爬虫技术获取网络上存在的舆情,该舆情可以是舆情监控系统的用户要使用该系统执行监控的目标舆情;并且在从网络上采集舆情时,可以采集分布在各个新闻媒体、微博、微信、BBS等站点的舆情。
在一个例子中,监控装置在步骤202中对网页数据进行分析时,可以获取舆情的网络来源,舆情的网络来源对舆情在网络上的传播发展也具有较重要的影响作用,例如,在一个知名的具有较高用户访问量的网站发布一条舆情,相比于在一个访问量很小的不知名的网站发布一条舆情,将更容易引发快速的大规模的舆情传播。知名网站和不知名网站都同样是发布了一条舆情,数量是相同的,据此不能显示出舆情发展的区别;而如果在此基础上考虑到发布舆情的网站本身的传播影响力,将能够更准确的区分出不同的舆情发展态势。因此在202中要从网页数据中获取到舆情的网络来源,这个来源主要是考虑到各个新闻媒体,新闻媒体发布舆情影响舆情的传播。
根据上述的舆情来源影响力的原理,本申请实施例可以从易观或alexa获取到各新闻媒体的排名及其访问用户规模等数据,并根据排名和访问用户规模设置各新闻媒体的权重,可以称为来源影响权重。例如,假设在新闻媒体中,媒体B排第一,对应的日均访问用户量是10000,媒体C排第二,对应的日均访问用户量是8000,那么可以设置媒体B的来源影响权重是“1”,设置媒体C的来源影响权重是“8000/10000=0.8”,该来源影响权重用于表示不同媒体的不同影响力,如果在影响力较大的媒体上发布舆情,则认为该舆情的发展会更快速和更大规模,如上所述的,通常认为用户访问量较大的新闻媒体,其具有更高的来源影响权重。
需要说明的是,上述权重数值的计算仅是举例,实际应用中当然可以采用其他方式;同理,后续的例子也并不对本申请实施例造成限制。此外,在上面描述的过程中,监控装置可以采集易观或alexa获取到各新闻媒体的排名及其访问用户规模等数据,并根据这些数据设置来源对应的来源影响权重。
实际实施中,监控的目标事件的网络来源可能会包括多种类型的来源,例如,一条舆情在媒体B和媒体C上都发布了,此时可以按照上面的方式,根据不同类型的网络来源的用户访问量等数据,分别设置各类型的网络来源的来源影响权重,假设媒体B权重“1”和媒体C权重“0.8”。并将多种类型的网络来源分别对应的来源影响权重相加,得到所述网络来源对应的来源影响数值,比如1+0.8=1.8,该1.8即为舆情的来源影响数值。该来源影响数值用于表示舆情发布的媒体对于舆情网络传播的影响度。
在另一个例子中,监控装置在步骤202中对网页数据进行分析时,还可以获取舆情在网络来源上的网络传播数据。比如,网络来源可以是社交网络工具或者论坛,而在这些来源上的网络传播数据可以是转发次数、点击次数、评论次数等,当然也可以是其他信息,不局限于此。如下举例说明:
比如,可以采集舆情在社交网络工具的网络传播数据。比如,如果舆情的来源是社交网络工具,该社交网络工具例如是,微博、微信等。舆情在这些社交网络工具发布时,舆情的网络传播数据也代表了该舆情的传播情况。比如,如果在微信的朋友圈发布一条舆情“某某省的某某镇发生了六级地震”,假设在朋友圈该舆情被转发了500次,被80个人点赞,被100个评论,那么这些转发数量、点赞数量(点赞数量也可以认为是评论次数)、评论数量实际上都可以表示该舆情已经被传播;比如从数量上看仅发布了一条舆情,但是如果该舆情被80人点赞,则实际上该舆情已经传播了80人。因此,本实施例将上述的转发、点赞、评论等等都统称为该舆情的“网络传播数据”。
又比如,还可以采集舆情在论坛的网络传播数据。比如,如果舆情的来源是论坛,例如BBS,舆情在论坛发布时,舆情的网络传播数据也代表了该舆情的传播情况;比如,舆情在BBS的点击数量和评论数情况等,原理同上,不再详述。
在采集到上述的网络传播数据后,在203中监控装置要根据这些数据进行量化处理,通过量化的方式将其纳入对舆情发展的评估中,并且量化评估的方式也能够使得对于舆情发展预测更加准确,比如上述的媒体来源就通过来源影响权重,对媒体来源在舆情传播中的作用进行了量化评估。对于上述的社交网络工具、论坛等网络来源的网络传播数据,也可以进行量化得到传播影响数值。本实施例可以分别计算不同的网络来源对应的传播影响数值,比如,可以根据在社交网络工具上获取的网络传播数据计算社交传播影响数值,并根据论坛上获取的网络传播数据计算论坛传播影响数值。
例如,社交传播影响数值的计算如下:假设在社交网络工具上获取的网络传播数据是转发数量,舆情在微博和微信的总共转发数量是5000条,那么可以设置社交传播影响数值为5000。再例如,论坛传播影响数值的计算如下:假设在论坛获取的网络传播数据包括舆情的点击数量和评论数量,舆情在BBS的点击数量是80,评论数量是100,那么可以设置论坛传播影响数值为“80*0.5+1*100=140”,其中,0.5和1分别表示点击数量和评论数量的权重,因为考虑到对舆情进行评论相比于对舆情点赞,表明该舆情更深入到民众中,民众对该舆情给予了更多的关注,所以将评论的权重设置高于点击的权重,这些权重可以称为第二权重。此外,舆情所来源的论坛的数量也可以是多个,例如行业BBS、高校BBS等,在计算论坛传播影响数值时,例如可以根据这些BBS的点击数量的总和、评论数量的总和来计算,或者,也可以分别计算各个BBS的数值,并通过各个BBS数值的加权求和得到总的论坛传播影响数值。
需要说明的是,上述的社交网络工具、论坛等来源,以及转发次数、评价次数等网络传播数据,只是简单描述了采集的几个影响舆情传播程度的因素,实际实施中,还可以采集其他影响舆情发展的因素,并不局限于这些因素。比如,要实行舆情监控的主体可以是不同的,政府可以对政务信息进行舆情监控,火警部门可以对火情信息进行舆情监控,煤炭企业也可以对矿业信息进行舆情监控等,不同行业的部门或企业,其所关心的舆情不同,舆情分布的热点网络站点也可能不同,A行业的热点网站是a,B行业的热点网站是b,那么在舆情监控时可以设置不同的监控站点,在监控A行业的舆情时可以重点查看a网站的信息,监控B行业的舆情时可以重点查看b网站的信息等。因此,上述的社交网络工具、论坛、新闻媒体等,仅是本实施例的示例性站点,在做具体的舆情监控时可以选用其他的站点,不做限制,但是原理同本实施例所述。
上述的描述中,监控装置已经分别量化了网络来源的来源影响数值(用于表示媒体的影响面对于舆情传播的影响)、以及各种来源的网络传播数据对应的传播影响数值,在203中,监控装置还将综合根据网络来源和网络传播数据计算目标事件的监控值。
示例性的,监控值可以通过如下公式计算:
Y=q1*(媒体传播影响数值)+q2*(社交传播影响数值)+q3*(论坛传播影响数值)
其中,媒体传播影响数值、社交传播影响数值和论坛传播影响数值的计算上述已经说明,而q1、q2和q3分别表示上述媒体、社交网络工具、论坛三方面的因素在影响舆情发展方面的权重,可以称为第一权重,用于表示各因素的重要程度,如果因素在舆情发展方面作用越大,则其权重越高,这些参数能够体现上述的三方面因素在影响舆情发展方面的不同影响力。比如,在上述例子中,1.8即为舆情的媒体传播影响数值,5000是社交传播影响数值,但是实际上,新闻媒体的影响力可能更加高于社交传播影响数值,因此可以将媒体传播影响数值的对应权重q1设置为10000,将社交传播影响数值的权重q2设置为1,以平衡两者之间的数值比重。此外,本实施例假设权重q3的数值为10。需要再次说明,在上述例子中的各个参数的计算方式以及参数取值,仅为示例,不用于限制本申请,只要按照与本实施例类似的原理灵活设定舆情发展的评估分值即可。
仍以上述的例子为例,舆情的监控值可以是:Y=q1*(媒体传播影响数值)+q2*(社交传播影响数值)+q3*(论坛传播影响数值)=10000*1.8+1*5000+10*140=18000+5000+1400=24400,该数值24400可以称为舆情的监控值,而上述的媒体传播影响数值、社交传播影响数值、论坛传播影响数值都可以称为舆情的发展影响参数,均是影响舆情发展的其中一个方面的因素,其中,媒体传播影响数值可以用于表示舆情的影响面,通常媒体传播影响数值越高表示舆情在该媒体发布的影响面就越大;而社交传播影响数值和论坛传播影响数值可以用于表示舆情的发展速度,通常这两个分值越高表示舆情的发展速度越快,比如论坛传播影响数值越高时,论坛里发布的该舆情得到了比较多的点击量和评价数量。可以根据该监控值评估舆情的发展程度,例如,监控值越高表明该舆情的传播规模越大。
上述的对舆情监控的流程可以参见图3的示例。结合图3的示例,由于微博或微信的转发数量、以及舆情在BBS的点击数量等信息通常是不断更新的数据,因此在本申请实施例中,舆情监控系统可以定期去获取这些信息,例如,每隔半小时就重新采集一次舆情在BBS的点击数量,同样可以通过爬虫技术采集。在重新采集数据后,仍然按照上述的计算方式得到舆情的监控值;然后综合定期得到的各监控值,监控所述舆情的发展,比如得到目标事件在网络上的发展指数,该指数用于表示舆情的网络发展速度。
例如,假设在时刻t1,计算得到舆情的监控值是80,在半小时以后根据重新采集的数据计算得到监控值是200,那么在半小时之内舆情分值从80到200表明舆情在网络的传输速度比较快,可以预测当前舆情仍然处于一个快速发展阶段。又例如,以半小时为间隔,连续采集并计算了四次舆情的监控值,但是分值变化趋势比较缓慢,比如80——90——110——115,那表明舆情发展比较慢,当前不会造成较大的传播影响。进一步的,还可以根据上述舆情发展的例子,量化得到舆情告警指数,比如,可以设定舆情告警指数(相当于发展指数)=监控值/变化时间间隔,根据该指数表示舆情发展的速度。
在本实施例中,舆情监控系统可以判断是否接收到“结束监控”的指示,如果接收到该指示则停止监控,即不再执行定期采集数据和计算的流程,如果未接收到指示则可以维持定期采集计算的步骤。该“结束监控”指示的发送方式可以灵活设置,例如,舆情监控系统可以实现为一个监控软件,那么该软件包括供用户操作的监控界面,可以通过监控界面设置供用户发送停止监控指示的方式,比如用户点击界面中的“停止监控”图标,或者将正在监控的舆情从监控界面区域移除等方式,都可以触发对该舆情监控的停止。
在又一个例子中,还可能出现的情况是,当舆情监控系统第一次采集舆情时,只有新闻媒体上发布有该舆情,而在论坛或微博等站点尚未出现该舆情,此时在计算舆情的监控值时,上述公式Y=q1*(媒体传播影响数值)+q2*(社交传播影响数值)+q3*(论坛传播影响数值)中的社交传播影响数值、论坛传播影响数值可以取值为0;当监控系统第二次采集舆情时,舆情得到了进一步发展,在论坛或微博等站点也已经出现了该舆情,此时公式中的社交传播影响数值、论坛传播影响数值再按照上述方式进行计算。
上述计算舆情监控值的公式可以预先设置在监控装置中,监控装置根据该公式中限定的舆情发展的各个影响因素,采集对应的信息,比如,公式中限定了根据论坛的点击数和评论数计算论坛传播影响数值,则监控装置在采集舆情时需要获取这些信息,并根据该信息计算评估舆情发展的影响度。具体公式的设定可以由监控装置的使用者或者设计者来决定,例如,使用者或者设计者可以根据能够影响舆情传播的因素及其影响力来设定,或者根据舆情所属的行业特点分析得到。
本申请实施例的网络信息传播的监控方法和装置,在对网络信息传播的发展进行评估时,充分考虑了能够影响信息传播的各个因素,包括信息来源的影响力,信息的转发、评论等传播数量,从而使得根据这些因素计算得到的信息影响度值较为准确,提高了对于信息发展评估的准确性。
为了实现上述方法,本实施例还提供了一种网络信息传播的监控装置,如图4所示,该装置可以包括:信息采集模块41、数据处理模块42和监控分析模块43;其中,
信息采集模块41,用于根据监控的目标事件,采集包括所述目标事件的网页数据;
数据处理模块42,用于对所述网页数据进行分析,得到所述目标事件的网络来源以及网络传播数据;
例如,所述网络传播数据包括如下至少一项:所述目标事件在所述网络来源的转发次数、点击次数或者评论次数;
监控分析模块43,用于综合所述网络来源和网络传播数据,计算所述目标事件的监控值,所述监控值用于表示所述目标事件在网络上的传播态势。
进一步的,信息采集模块41,还用于定期采集包括所述目标事件的网页数据;
所述监控分析模块43,还用于根据所述信息采集模块定期采集的网页数据,计算所述目标事件的监控值;并综合定期得到的各监控值,得到所述目标事件在网络上的发展指数。
如图5所示,该装置中的监控分析模块43,可以包括:数值计算单元431和加权处理单元432;其中,
数值计算单元431,用于分别计算所述网络来源影响目标事件网络传播的来源影响数值,以及所述网络传播数据影响目标事件网络传播的传播影响数值;
加权处理单元432,用于根据所述网络来源和网络传播数据对应的第一权重、所述来源影响数值以及所述传播影响数值进行加权计算,得到所述目标事件的监控值。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。