CN107944019A - 一种基于爬虫技术的境外舆情监测装置、系统及方法 - Google Patents

一种基于爬虫技术的境外舆情监测装置、系统及方法 Download PDF

Info

Publication number
CN107944019A
CN107944019A CN201711310304.8A CN201711310304A CN107944019A CN 107944019 A CN107944019 A CN 107944019A CN 201711310304 A CN201711310304 A CN 201711310304A CN 107944019 A CN107944019 A CN 107944019A
Authority
CN
China
Prior art keywords
module
monitoring
data
public sentiment
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711310304.8A
Other languages
English (en)
Inventor
陈晨
曾祥伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China And Guangzhou (beijing) Culture Media Co Ltd
Original Assignee
China And Guangzhou (beijing) Culture Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China And Guangzhou (beijing) Culture Media Co Ltd filed Critical China And Guangzhou (beijing) Culture Media Co Ltd
Priority to CN201711310304.8A priority Critical patent/CN107944019A/zh
Publication of CN107944019A publication Critical patent/CN107944019A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开一种基于爬虫技术的境外舆情监测装置、系统及方法,该方法构建数据爬取模块数据获取规则,获取目标站点的数据信息;设定监控关键词,通过舆情搜索模块对获取的数据信息进行对应于关键词的舆情信息搜索;通过文字获取模块、语音获取模块及图像获取模块分别获取对应于关键词的文字、语音或图像数据;利用境外服务器将在境外获取的文字、语音或图像数据中的敏感信息通过信息发送模块发送到数据存储模块。本发明通过搭建海外服务器的方式,合法绕过访问控制,采集境外网站舆情,分析在线言论及传播行为,并且当某些舆情在国内封锁的时候,可继续追踪舆情发酵情况,为国内舆情正向引导提供数据支持。

Description

一种基于爬虫技术的境外舆情监测装置、系统及方法
技术领域
本发明涉及舆情监测技术领域,具体涉及一种基于爬虫技术的境外舆情监测装置、系统及方法。
背景技术
随着信息全球化的来临,信息呈现全球化传播的趋势。当前,网络媒体日益发达,网民数量也不断增加,互联网已经成为民意表达的最主要空间。网络舆情监测与预警可以发掘其出现、发展和消亡的因素,通过连续不间断地动态监测、度量及采集相关的信息,从而对当前网络舆情做出评价分析并预测其发展趋势,及时做出等级预报。
反映民意的网络舆情,源于现实世界,又会正面或负面作用于现实世界,舆情传播过程中,与现实的关系可能发生复杂的变化。及时发现、分析、管理、利用网络舆情就变得非常重要。
目前,境外监测除了要实现数据实时抓取外,还需要避免采用翻墙软件等违规操作。现阶段采集海外舆情的方式主要有VPN模式,调用指定媒体数据接口方式,代理服务器方式,搭建海外服务器方式。其中,VPN方式目前国内属于非法操作;调用数据接口的方式受限于接口配置的各种访问控制,无法获得足够的信息,代理服务器存在安全方面的考虑也不实用。同时某些舆情在国内封锁的时候,无法继续追踪舆情发酵情况,无法为国内舆情正向引导提供数据支持。
发明内容
本发明的目的在于提供一种基于爬虫技术的境外舆情监测装置、系统及方法,通过搭建海外服务器的方式,合法绕过访问控制,采集境外网站舆情,分析在线言论及传播行为,为国内舆情正向引导提供数据支持。
为实现上述目的,本发明的技术方案为:一种基于爬虫技术的境外舆情监测装置,所述监测装置包括数据爬取模块、舆情搜索模块、文字获取模块、语音获取模块、图像获取模块、文字监测模块、语音监测模块、图像监测模块及预警模块;所述数据爬取模块用于获取进行舆情监测的网站数据信息;所述舆情搜索模块用于对用户输入的关键词进行舆情信息搜索;所述文字获取模块与所述舆情搜索模块建立连接关系,文字获取模块用于获取对应于用户输入关键词的文字舆情信息;所述语音获取模块与所述舆情搜索模块建立连接关系,语音获取模块用于获取对应于用户输入关键词的语音舆情信息;所述图像获取模块与所述舆情搜索模块建立连接关系,图像获取模块用于获取对应于用户输入关键词的图像舆情信息;所述文字监测模块与所述文字获取模块建立连接关系,文字监测模块用于对获取的文字舆情信息进行敏感信息监测;所述语音监测模块与所述语音获取模块建立连接关系,语音监测模块用于对获取的语音舆情信息进行敏感信息监测;所述图像监测模块与所述图像获取模块建立连接关系,图像监测模块用于对获取的图像舆情信息进行敏感信息监测;所述预警模块与所述文字监测模块、语音监测模块及图像监测模块建立连接关系,预警模块用于对获取的文字、语音或图像敏感信息进行预警。
如上所述的一种基于爬虫技术的境外舆情监测装置,所述监测装置还包括信息发送模块,所述信息发送模块与所述文字监测模块、语音监测模块或图像监测模块建立连接关系,信息发送模块用于传输文字监测模块、语音监测模块或图像监测模块监测到的敏感信息。
以设置在中国境内和境外的监测装置为例,设置在境外的监测装置利用信息发送模块将监测到的敏感信息发送到境内的服务器。文字监测模块通过文字监测算法进行实现,如通过关键字匹配算法进行敏感信息匹配。语音监测模块通过语音识别算法进行实现,语音识别算法如DTW算法,DTW算法是应用在孤立词识别的算法,用来识别一些特定的指令,DTW算法是基于DP(动态规划)的算法基础上发展而来的。语音识别的框架是,首先有一个比对的模版声音,然后去截取其里面包含真正属于语音的部分,采用vad语音活动检测的算法,而在vad中间使用双门限端点检测这种方法,采用vad判断语音的开始和结束,判断方法就是通过音量的大小做一个阈值判定,在时域上很简单就能判定。图像监测模块通过图像识别算法进行实现,图像识别算法根据图像的颜色特征、纹理特征、形状特征以及局部特征点进行识别,从而对含有敏感信息的图像进行监测。
进一步,所述监测装置还包括数据存储模块,所述数据存储模块与所述信息发送模块建立连接关系,数据存储模块用于存储文字监测模块、语音监测模块或图像监测模块监测到的敏感信息。数据存储模块可以整合到数据中心实现,数据中心不仅包括计算机系统和与之配套的设备,例如通信和存储系统,还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置。数据中心可以采用无线或有线两种方式,无线方式可以采用无线DDN系统,无线DDN系统分为监测点和数据中心两部分,监测点采用GPRS DTU,可提供RS-232、RS485、以及以太网接口,数据中也可采用宽带ADSL或专线方式接入Internet。
如上所述的一种基于爬虫技术的境外舆情监测装置,所述数据爬取模块采用通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和\或深层网络爬虫规则。通用网络爬虫爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。
通用网络爬虫结构可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合部分。聚焦网络爬虫是指选择性地爬行那些与预先定义好的主题相关页面,与通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。增量式网络爬虫是对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,能够在一定程度上保证所爬行的页面是尽可能新的页面。增量式爬虫有两个目标:保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。为实现第一个目标,增量式爬虫需要通过重新访问网页来更新本地页面集中页面内容,可以采用统一更新法:爬虫以相同的频率访问所有网页,不考虑网页的改变频率;个体更新法:爬虫根据个体网页的改变频率来重新访问各页面;基于分类的更新法:爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类,然后以不同的频率访问这两类网页。深层网络爬虫结构包含爬行控制器、解析器、表单分析器、表单处理器、响应分析器、LVS控制器和两个爬虫内部数据结构URL列表、LVS表。其中LVS表示标签/数值集合,用来表示填充表单的数据源。深层网络爬虫表单填写可以基于领域知识进行表单填写,此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单。也可以采用基于网页结构分析进行表单填写,此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成DOM树,从中提取表单各字段值。
本发明还提供一种基于爬虫技术的境外舆情监测系统,所述监测系统采用上述的监测装置,所述监测系统还包括第一服务器、第二服务器及数据中心设备;所述第一服务器与所述监测装置建立连接关系,第一服务器设置在一国境外,第一服务器通过信息发送模块与所述数据中心设备建立连接关系,第一服务器用于对国外舆情进行监测并将监测信息发送到所述数据中心设备;所述第二服务器与所述监测装置建立连接关系,第二服务器设置在一国境内,第二服务器用于对境内舆情进行监测并将监测信息发送到所述数据中心设备;所述数据中心设备与所述第一服务器或第二服务器建立连接关系,数据中心设备通过数据接口存储舆情采集信息。
如上所述的一种基于爬虫技术的境外舆情监测系统,所述第一服务器数量为若干个,若干个第一服务器设置在若干不同国家境内。
本发明还提供一种基于爬虫技术的境外舆情监测方法,所述监测方法采用上述的监测装置,通过上述的监测系统实现,所述监测方法包括以下步骤:
步骤一、构建数据爬取模块数据获取规则,获取目标站点的数据信息;
步骤二、设定监控关键词,通过舆情搜索模块对获取的数据信息进行对应于关键词的舆情信息搜索;
步骤三、通过文字获取模块、语音获取模块及图像获取模块分别获取对应于关键词的文字、语音或图像数据;
步骤四、利用境外服务器将在境外获取的文字、语音或图像数据中的敏感信息通过信息发送模块发送到数据存储模块。
如上所述的一种基于爬虫技术的境外舆情监测方法,所述步骤一中,构建数据爬取模块的数据获取规则具体采用拓扑分析算法或网页内容分析算法。
如上所述的一种基于爬虫技术的境外舆情监测方法,所述步骤三中还包括通过文字识别算法、语音识别算法或图形识别算法对获取的文字、语音或图像数据进行敏感信息监测。
如上所述的一种基于爬虫技术的境外舆情监测方法,所述步骤四中,利用境外服务器将在境外获取的文字、语音或图像数据中的敏感信息通过信息发送模块发送到境内服务器上,通过数据中心设备对获取的文字、语音或图像数据中的敏感信息进行存储。
本发明具有如下优点:利用爬虫技术,并依托在我国国内及境外部署的服务器,能对特定区域、媒体类型、网站、时间范围内的舆情信息搜索,能根据用户预定的监控关键词在1-5分钟以内发现境外多个国家的重点新闻、社区、博客、平媒等媒体的相关舆情信息,并对敏感信息及时报警。爬虫规则可将数据抓取到境外合法服务器上,再把有效信息返送到国内服务器上,最后,用户查看国内服务器上的分析加工后的数据。本发明通过搭建海外服务器的方式,合法绕过访问控制,采集境外网站舆情,分析在线言论及传播行为,及时发现并跟踪新舆情,并且当某些舆情在国内封锁的时候,可继续追踪舆情发酵情况,为国内舆情正向引导提供数据支持。
附图说明
图1为基于爬虫技术的境外舆情监测装置示意图;
图2为基于爬虫技术的境外舆情监测系统示意图;
图3为基于爬虫技术的境外舆情监测方法示意图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,一种基于爬虫技术的境外舆情监测装置,监测装置包括数据爬取模块1、舆情搜索模块2、文字获取模块3、语音获取模块4、图像获取模块5、文字监测模块6、语音监测模块7、图像监测模块8及预警模块9;数据爬取模块1用于获取进行舆情监测的网站数据信息;舆情搜索模块2用于对用户输入的关键词进行舆情信息搜索;文字获取模块3与舆情搜索模块2建立连接关系,文字获取模块3用于获取对应于用户输入关键词的文字舆情信息;语音获取模块4与舆情搜索模块2建立连接关系,语音获取模块4用于获取对应于用户输入关键词的语音舆情信息;图像获取模块5与舆情搜索模块2建立连接关系,图像获取模块5用于获取对应于用户输入关键词的图像舆情信息;文字监测模块6与文字获取模块3建立连接关系,文字监测模块6用于对获取的文字舆情信息进行敏感信息监测;语音监测模块7与语音获取模块4建立连接关系,语音监测模块7用于对获取的语音舆情信息进行敏感信息监测;图像监测模块8与图像获取模块5建立连接关系,图像监测模块8用于对获取的图像舆情信息进行敏感信息监测;预警模块9与文字监测模块6、语音监测模块7及图像监测模块8建立连接关系,预警模块9用于对获取的文字、语音或图像敏感信息进行预警。
基于爬虫技术的境外舆情监测装置的一个实施例中,监测装置还包括信息发送模块10,信息发送模块10与文字监测模块6、语音监测模块7或图像监测模块8建立连接关系,信息发送模块10用于传输文字监测模块6、语音监测模块7或图像监测模块8监测到的敏感信息。
以设置在中国境内和境外的监测装置为例,设置在境外的监测装置利用信息发送模块10将监测到的敏感信息发送到境内的服务器。文字监测模块6通过文字监测算法进行实现,如通过关键字匹配算法进行敏感信息匹配。语音监测模块7通过语音识别算法进行实现,语音识别算法如DTW算法,DTW算法是应用在孤立词识别的算法,用来识别一些特定的指令,DTW算法是基于DP(动态规划)的算法基础上发展而来的。语音识别的框架是,首先有一个比对的模版声音,然后去截取其里面包含真正属于语音的部分,采用vad语音活动检测的算法,而在vad中间使用双门限端点检测这种方法,采用vad判断语音的开始和结束,判断方法就是通过音量的大小做一个阈值判定,在时域上很简单就能判定。图像监测模块8通过图像识别算法进行实现,图像识别算法根据图像的颜色特征、纹理特征、形状特征以及局部特征点进行识别,从而对含有敏感信息的图像进行监测。
进一步,监测装置还包括数据存储模块11,数据存储模块11与信息发送模块10建立连接关系,数据存储模块11用于存储文字监测模块6、语音监测模块7或图像监测模块8监测到的敏感信息。数据存储模块11可以整合到数据中心实现,数据中心不仅包括计算机系统和与之配套的设备,例如通信和存储系统,还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置。数据中心可以采用无线或有线两种方式,无线方式可以采用无线DDN系统,无线DDN系统分为监测点和数据中心两部分,监测点采用GPRS DTU,可提供RS-232、RS485、以及以太网接口,数据中也可采用宽带ADSL或专线方式接入Internet。
基于爬虫技术的境外舆情监测装置的一个实施例中,数据爬取模块1采用通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和\或深层网络爬虫规则。通用网络爬虫爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。
通用网络爬虫结构可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合部分。聚焦网络爬虫是指选择性地爬行那些与预先定义好的主题相关页面,与通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。增量式网络爬虫是对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,能够在一定程度上保证所爬行的页面是尽可能新的页面。增量式爬虫有两个目标:保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。为实现第一个目标,增量式爬虫需要通过重新访问网页来更新本地页面集中页面内容,可以采用统一更新法:爬虫以相同的频率访问所有网页,不考虑网页的改变频率;个体更新法:爬虫根据个体网页的改变频率来重新访问各页面;基于分类的更新法:爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类,然后以不同的频率访问这两类网页。深层网络爬虫结构包含爬行控制器、解析器、表单分析器、表单处理器、响应分析器、LVS控制器和两个爬虫内部数据结构URL列表、LVS表。其中LVS表示标签/数值集合,用来表示填充表单的数据源。深层网络爬虫表单填写可以基于领域知识进行表单填写,此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单。也可以采用基于网页结构分析进行表单填写,此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成DOM树,从中提取表单各字段值。
参见图2,本发明还提供一种基于爬虫技术的境外舆情监测系统,监测系统采用上述的监测装置,监测系统还包括第一服务器12、第二服务器13及数据中心设备14;第一服务器12与监测装置建立连接关系,第一服务器12设置在一国境外,第一服务器12通过信息发送模块10与数据中心设备14建立连接关系,第一服务器12用于对国外舆情进行监测并将监测信息发送到数据中心设备14;第二服务器13与监测装置建立连接关系,第二服务器13设置在一国境内,第二服务器13用于对境内舆情进行监测并将监测信息发送到数据中心设备14;数据中心设备14与第一服务器12或第二服务器13建立连接关系,数据中心设备14通过数据接口存储舆情采集信息。
基于爬虫技术的境外舆情监测系统的一个实施例中,第一服务器12数量为若干个,若干个第一服务器12设置在若干不同国家境内。
参见图3,本发明还提供一种基于爬虫技术的境外舆情监测方法,监测方法采用上述的监测装置,通过上述的监测系统实现,监测方法包括以下步骤:
S1、构建数据爬取模块1数据获取规则,获取目标站点的数据信息;
S2、设定监控关键词,通过舆情搜索模块2对获取的数据信息进行对应于关键词的舆情信息搜索;
S3、通过文字获取模块3、语音获取模块4及图像获取模块5分别获取对应于关键词的文字、语音或图像数据;
S4、利用境外服务器将在境外获取的文字、语音或图像数据中的敏感信息通过信息发送模块10发送到数据存储模块11。
基于爬虫技术的境外舆情监测方法一个实施例中,S1中,构建数据爬取模块1的数据获取规则具体采用拓扑分析算法或网页内容分析算法。
基于爬虫技术的境外舆情监测方法一个实施例中,S3中还包括通过文字识别算法、语音识别算法或图形识别算法对获取的文字、语音或图像数据进行敏感信息监测。
基于爬虫技术的境外舆情监测方法一个实施例中,S4中,利用境外服务器将在境外获取的文字、语音或图像数据中的敏感信息通过信息发送模块10发送到境内服务器上,通过数据中心设备14对获取的文字、语音或图像数据中的敏感信息进行存储。
本发明利用爬虫技术,并依托在我国国内及境外部署的服务器,能对特定区域、媒体类型、网站、时间范围内的舆情信息搜索,能根据用户预定的监控关键词在1-5分钟以内发现境外多个国家的重点新闻、社区、博客、平媒等媒体的相关舆情信息,并对敏感信息及时报警。爬虫规则可将数据抓取到境外合法服务器上,再把有效信息返送到国内服务器上,最后,用户查看国内服务器上的分析加工后的数据。本发明通过搭建海外服务器的方式,合法绕过访问控制,采集境外网站舆情,分析在线言论及传播行为,及时发现并跟踪新舆情,并且当某些舆情在国内封锁的时候,可继续追踪舆情发酵情况,为国内舆情正向引导提供数据支持。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种基于爬虫技术的境外舆情监测装置,其特征在于:所述监测装置包括数据爬取模块、舆情搜索模块、文字获取模块、语音获取模块、图像获取模块、文字监测模块、语音监测模块、图像监测模块和预警模块;所述数据爬取模块用于获取进行舆情监测的网站数据信息;所述舆情搜索模块用于对用户输入的关键词进行舆情信息搜索;所述文字获取模块与所述舆情搜索模块建立连接关系,文字获取模块用于获取对应于用户输入关键词的文字舆情信息;所述语音获取模块与所述舆情搜索模块建立连接关系,语音获取模块用于获取对应于用户输入关键词的语音舆情信息;所述图像获取模块与所述舆情搜索模块建立连接关系,图像获取模块用于获取对应于用户输入关键词的图像舆情信息;所述文字监测模块与所述文字获取模块建立连接关系,文字监测模块用于对获取的文字舆情信息进行敏感信息监测;所述语音监测模块与所述语音获取模块建立连接关系,语音监测模块用于对获取的语音舆情信息进行敏感信息监测;所述图像监测模块与所述图像获取模块建立连接关系,图像监测模块用于对获取的图像舆情信息进行敏感信息监测;所述预警模块与所述文字监测模块、语音监测模块及图像监测模块建立连接关系,预警模块用于对获取的文字、语音或图像敏感信息进行预警。
2.根据权利要求1所述的一种基于爬虫技术的境外舆情监测装置,其特征在于:所述监测装置还包括信息发送模块,所述信息发送模块与所述文字监测模块、语音监测模块或图像监测模块建立连接关系,信息发送模块用于传输文字监测模块、语音监测模块或图像监测模块监测到的敏感信息。
3.根据权利要求2所述的一种基于爬虫技术的境外舆情监测装置,其特征在于:所述监测装置还包括数据存储模块,所述数据存储模块与所述信息发送模块建立连接关系,数据存储模块用于存储文字监测模块、语音监测模块或图像监测模块监测到的敏感信息。
4.根据权利要求1所述的一种基于爬虫技术的境外舆情监测装置,其特征在于:所述数据爬取模块采用通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和\或深层网络爬虫规则。
5.一种基于爬虫技术的境外舆情监测系统,所述监测系统采用如权利要求1至4任一项所述的监测装置,其特征在于:所述监测系统还包括第一服务器、第二服务器及数据中心设备;所述第一服务器与所述监测装置建立连接关系,第一服务器设置在一国境外,第一服务器通过信息发送模块与所述数据中心设备建立连接关系,第一服务器用于对国外舆情进行监测并将监测信息发送到所述数据中心设备;所述第二服务器与所述监测装置建立连接关系,第二服务器设置在一国境内,第二服务器用于对境内舆情进行监测并将监测信息发送到所述数据中心设备;所述数据中心设备与所述第一服务器或第二服务器建立连接关系,数据中心设备通过数据接口存储舆情采集信息。
6.根据权利要求5所述的一种基于爬虫技术的境外舆情监测系统,其特征在于:所述第一服务器数量为若干个,若干个第一服务器设置在若干不同国家境内。
7.一种基于爬虫技术的境外舆情监测方法,所述监测方法采用如权利要求1至4任一项所述的监测装置,通过如权利要求5至6任一项所述的监测系统实现,其特征在于:所述监测方法包括以下步骤:
步骤一、构建数据爬取模块数据获取规则,获取目标站点的数据信息;
步骤二、设定监控关键词,通过舆情搜索模块对获取的数据信息进行对应于关键词的舆情信息搜索;
步骤三、通过文字获取模块、语音获取模块及图像获取模块分别获取对应于关键词的文字、语音或图像数据;
步骤四、利用境外服务器将在境外获取的文字、语音或图像数据中的敏感信息通过信息发送模块发送到数据存储模块。
8.根据权利要求7所述的一种基于爬虫技术的境外舆情监测方法,其特征在于:所述步骤一中,构建数据爬取模块的数据获取规则具体采用拓扑分析算法或网页内容分析算法。
9.根据权利要求7所述的一种基于爬虫技术的境外舆情监测方法,其特征在于:所述步骤三中还包括通过文字识别算法、语音识别算法或图形识别算法对获取的文字、语音或图像数据进行敏感信息监测。
10.根据权利要求7所述的一种基于爬虫技术的境外舆情监测方法,其特征在于:所述步骤四中,利用境外服务器将在境外获取的文字、语音或图像数据中的敏感信息通过信息发送模块发送到境内服务器上,通过数据中心设备对获取的文字、语音或图像数据中的敏感信息进行存储。
CN201711310304.8A 2017-12-11 2017-12-11 一种基于爬虫技术的境外舆情监测装置、系统及方法 Pending CN107944019A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711310304.8A CN107944019A (zh) 2017-12-11 2017-12-11 一种基于爬虫技术的境外舆情监测装置、系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711310304.8A CN107944019A (zh) 2017-12-11 2017-12-11 一种基于爬虫技术的境外舆情监测装置、系统及方法

Publications (1)

Publication Number Publication Date
CN107944019A true CN107944019A (zh) 2018-04-20

Family

ID=61946565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711310304.8A Pending CN107944019A (zh) 2017-12-11 2017-12-11 一种基于爬虫技术的境外舆情监测装置、系统及方法

Country Status (1)

Country Link
CN (1) CN107944019A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614550A (zh) * 2018-12-11 2019-04-12 平安科技(深圳)有限公司 舆情监控方法、装置、计算机设备及存储介质
CN109902099A (zh) * 2019-01-31 2019-06-18 平安科技(深圳)有限公司 基于图文大数据的舆情跟踪方法、装置和计算机设备
CN109948019A (zh) * 2019-01-10 2019-06-28 中央财经大学 一种深层网络数据获取方法
CN112749314A (zh) * 2020-12-23 2021-05-04 民生科技有限责任公司 一种精准高效的目标舆情智能监控系统及方法
CN112804192A (zh) * 2020-12-21 2021-05-14 网神信息技术(北京)股份有限公司 暗网泄露监测方法、装置、电子设备、程序和介质
CN112949691A (zh) * 2021-02-02 2021-06-11 山东寻声网络科技有限公司 一种用于企业的舆情监测系统
CN113434751A (zh) * 2021-07-14 2021-09-24 国际关系学院 一种网络热点人工智能预警系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN103164403A (zh) * 2011-12-08 2013-06-19 深圳市北科瑞声科技有限公司 视频索引数据的生成方法和系统
CN104850549A (zh) * 2014-02-13 2015-08-19 夷希数码科技(上海)有限公司 一种网络舆情的监控方法
CN106095903A (zh) * 2016-06-08 2016-11-09 成都三零凯天通信实业有限公司 一种基于深度学习技术的广播电视舆情分析方法及系统
CN106803167A (zh) * 2017-02-28 2017-06-06 深圳海带宝网络科技股份有限公司 一种跨境电商全球商品清关系统
CN106960042A (zh) * 2017-03-29 2017-07-18 中国科学技术大学苏州研究院 基于弹幕语义分析的网络直播监督方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN103164403A (zh) * 2011-12-08 2013-06-19 深圳市北科瑞声科技有限公司 视频索引数据的生成方法和系统
CN104850549A (zh) * 2014-02-13 2015-08-19 夷希数码科技(上海)有限公司 一种网络舆情的监控方法
CN106095903A (zh) * 2016-06-08 2016-11-09 成都三零凯天通信实业有限公司 一种基于深度学习技术的广播电视舆情分析方法及系统
CN106803167A (zh) * 2017-02-28 2017-06-06 深圳海带宝网络科技股份有限公司 一种跨境电商全球商品清关系统
CN106960042A (zh) * 2017-03-29 2017-07-18 中国科学技术大学苏州研究院 基于弹幕语义分析的网络直播监督方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
时代传媒网: "大象舆情系统实现了境内和境外全网监测功能", 《大象舆情系统实现了境内和境外全网监测功能 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614550A (zh) * 2018-12-11 2019-04-12 平安科技(深圳)有限公司 舆情监控方法、装置、计算机设备及存储介质
CN109948019A (zh) * 2019-01-10 2019-06-28 中央财经大学 一种深层网络数据获取方法
CN109902099A (zh) * 2019-01-31 2019-06-18 平安科技(深圳)有限公司 基于图文大数据的舆情跟踪方法、装置和计算机设备
CN109902099B (zh) * 2019-01-31 2023-09-26 平安科技(深圳)有限公司 基于图文大数据的舆情跟踪方法、装置和计算机设备
CN112804192A (zh) * 2020-12-21 2021-05-14 网神信息技术(北京)股份有限公司 暗网泄露监测方法、装置、电子设备、程序和介质
CN112749314A (zh) * 2020-12-23 2021-05-04 民生科技有限责任公司 一种精准高效的目标舆情智能监控系统及方法
CN112949691A (zh) * 2021-02-02 2021-06-11 山东寻声网络科技有限公司 一种用于企业的舆情监测系统
CN113434751A (zh) * 2021-07-14 2021-09-24 国际关系学院 一种网络热点人工智能预警系统及方法
CN113434751B (zh) * 2021-07-14 2023-06-02 国际关系学院 一种网络热点人工智能预警系统及方法

Similar Documents

Publication Publication Date Title
CN107944019A (zh) 一种基于爬虫技术的境外舆情监测装置、系统及方法
CN103176985B (zh) 一种及时高效的互联网信息爬取方法
CN110266647A (zh) 一种命令和控制通信检测方法及系统
CN109902216A (zh) 一种基于社交网络的数据采集与分析方法
Jayaweera et al. Crime analytics: Analysis of crimes through newspaper articles
CN107329970A (zh) 一种针对手机管控系统舆情大数据进行分析处理的方法
JP2005316998A (ja) 製品のサポートに関するサービス要求のマイニング
CN108664599A (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN109977291A (zh) 基于物理知识图谱的检索方法、装置、设备及存储介质
CN112084413B (zh) 一种信息推荐的方法、装置及存储介质
CN110377751A (zh) 课件智能生成方法、装置、计算机设备及存储介质
Zervakis et al. Efficient continuous multi-query processing over graph streams
CN110535850A (zh) 帐号登录的处理方法和装置、存储介质及电子装置
CN109947858A (zh) 一种数据处理的方法及装置
CN112989157A (zh) 一种检测爬虫请求的方法和装置
CN116996325A (zh) 一种基于云计算的网络安全检测方法及系统
CN106202312B (zh) 一种用于移动互联网的兴趣点搜索方法和系统
KR20180009408A (ko) 소셜 네트워크 분석과 온톨로지를 이용한 장소성 추출 시스템 및 방법
Xu Cultural communication in double-layer coupling social network based on association rules in big data
Kumar et al. A survey on pattern discovery of web usage mining
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
CN103093236B (zh) 一种基于图像语义分析的移动终端色情过滤方法
Hu Big data analysis of criminal investigations
CN117240523A (zh) 一种基于结构信息原理的网络欺骗账户的检测方法
Espín-Noboa et al. Hoprank: How semantic structure influences teleportation in pagerank (A case study on bioportal)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180420

RJ01 Rejection of invention patent application after publication