CN113672792A - 一种网络舆情数据处理方法及系统 - Google Patents
一种网络舆情数据处理方法及系统 Download PDFInfo
- Publication number
- CN113672792A CN113672792A CN202110962745.6A CN202110962745A CN113672792A CN 113672792 A CN113672792 A CN 113672792A CN 202110962745 A CN202110962745 A CN 202110962745A CN 113672792 A CN113672792 A CN 113672792A
- Authority
- CN
- China
- Prior art keywords
- public opinion
- algorithm
- mobile terminal
- opinion data
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 74
- 238000007405 data analysis Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 49
- 230000008569 process Effects 0.000 claims abstract description 10
- 230000009193 crawling Effects 0.000 claims abstract description 9
- 238000004806 packaging method and process Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 5
- 238000013144 data compression Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 12
- 238000005516 engineering process Methods 0.000 abstract description 11
- 238000012423 maintenance Methods 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 abstract description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 235000014510 cooky Nutrition 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种网络舆情数据处理方法及系统。服务端响应于舆情处理任务调度指令,生成与舆情处理任务调度指令对应的任务信息;服务端将任务信息发送给移动端,使得移动端根据接收到的任务信息,结合保存在移动端中,且与任务信息对应的舆情数据分析算法,执行舆情数据分析任务,以获得网络舆情数据处理结果。使得在相同的成本下,可以配置更多移动终端进行舆情数据处理,将集中处理的任务分发给移动终端本地化处理,减轻了服务器的运算要求,大大的降低的服务器的采购成本使得舆情数据的爬取和处理的效率得到较大的提升,解决了现有的舆情分析的爬虫技术对网络、PC硬件采集及维护、部署成本高而限制了舆情数据采集、处理的效率的技术问题。
Description
技术领域
本申请涉及舆情数据处理技术领域,尤其涉及一种网络舆情数据处理方法及系统。
背景技术
舆情分析主要技术涉及信息采集,现有的舆情分析的爬虫技术主要部署在PC服务器上进行数据采集,对网络、PC硬件采集及维护、部署成本相对比较高,不利于爬虫节点的扩展,严重限制了舆情数据采集、处理的效率。
发明内容
本申请提供了一种网络舆情数据处理方法及系统,用于解决现有的舆情分析的爬虫技术主要部署在PC服务器上进行数据采集,对网络、PC硬件采集及维护、部署成本高而限制了舆情数据采集、处理的效率的技术问题。
有鉴于此,本申请第一方面提供了一种网络舆情数据处理方法,包括:
服务端响应于舆情处理任务调度指令,生成与所述舆情处理任务调度指令对应的任务信息;
所述服务端将所述任务信息发送给移动端,使得所述移动端根据接收到的所述任务信息,结合所述移动端中保存的,且与所述任务信息对应的舆情数据分析算法,执行舆情数据分析任务,以获得网络舆情数据处理结果,其中,所述舆情数据分析算法的获得方式为所述移动端接收所述服务端下发的所述舆情数据分析算法,并保存在所述移动端本地。
优选地,所述舆情处理任务调度指令的生成方式为:所述服务端根据用户输入的操作指令生成的。
优选地,所述舆情数据分析算法具体包括:网络舆情数据爬取子算法和舆情数据标注处理子算法。
优选地,所述生成与所述舆情处理任务调度指令对应的任务信息之后,且将所述任务信息发送给所述移动端之前还包括:
所述服务端确定各个所述移动端的任务状态,以便将所述任务信息发送给所述任务状态为可用状态的移动端。
优选地,所述任务状态的确定过程为:
所述服务端判断所述移动端是否正在执行舆情数据分析任务,若否,则所述移动端的任务状态为可用状态,若是,则判断所述舆情数据分析任务的任务进度是否大于预置的任务进度阈值,若是,则所述移动端的任务状态为可用状态,若否,则所述移动端的任务状态为繁忙状态。
优选地,所述生成与所述舆情处理任务调度指令对应的任务信息之后,且将所述任务信息发送给所述移动端之前还包括:
所述服务端判断所述移动端是否保存有与所述任务信息对应的舆情数据分析算法,若否,则将所述舆情数据分析算法发送给所述移动端,以便所述移动端接收所述舆情数据分析算法,并将所述舆情数据分析算法保存在所述移动端本地。
优选地,所述舆情数据分析算法发送给所述移动端具体包括:
通过预设的算法封装协议,对所述舆情数据分析算法进行压缩封装处理,得到算法数据包,并将所述算法数据包发送给所述移动端,其中所述算法数据包包括:算法包序号、算法名称、算法包大小、算法包类型、算法语义内容、要求开始执行时间、执行顺序、接收成功标志、算法执行进度反馈、算法包校验。
优选地,所述将所述算法数据包发送给所述移动端之前还包括:
通过数据压缩算法,对所述算法数据包进行二次压缩。
优选地,还包括:
所述服务端响应于新移动端发送的节点扩展请求,根据所述节点扩展请求中包含的移动端信息,对所述新移动端进行注册以及配置。
本申请第二方面提供了一种网络舆情数据处理系统,包括:服务端和移动端,所述移动端与所述服务端通信连接;
所述服务端被配置为:响应于舆情处理任务调度指令,生成与所述舆情处理任务调度指令对应的任务信息,并将所述任务信息发送给所述移动端;
所述移动端被配置为:根据接收到的任务信息,结合所述移动端中保存的,且与所述任务信息对应的舆情数据分析算法,执行舆情数据分析任务,以获得网络舆情数据处理结果,其中,所述舆情数据分析算法的获得方式为所述移动端接收所述服务端下发的所述舆情数据分析算法,并保存在所述移动端本地。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供的网络舆情数据处理方法,通过将传统的舆情分析技术与移动终端技术相结合,利用移动终端成本低的特点,使得在相同的成本下,可以配置更多移动终端进行舆情数据处理,同时充分利用移动终端的运算能力,将集中处理的任务分发给移动终端本地化处理,减轻了服务器的运算要求,大大的降低的服务器的采购成本使得舆情数据的爬取和处理的效率得到较大的提升,解决了现有的舆情分析的爬虫技术主要部署在PC服务器上进行数据采集,对网络、PC硬件采集及维护、部署成本高而限制了舆情数据采集、处理的效率的技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请提供的一种网络舆情数据处理方法的第一个实施例的流程示意图;
图2为本申请提供的一种网络舆情数据处理方法的第二个实施例的流程示意图;
图3为本申请提供的一种网络舆情数据处理系统的第一个实施例结构示意图。
具体实施方式
本申请实施例提供了一种网络舆情数据处理方法及系统,用于解决现有的舆情分析的爬虫技术主要部署在PC服务器上进行数据采集,对网络、PC硬件采集及维护、部署成本高而限制了舆情数据采集、处理的效率的技术问题。
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
随着移动终端技术的进步,在当今移动互联网已经普及的时代,移动终端已经拥有了不输给PC主机的运算能力,而且成本已经降到非常低的水平。
请参阅图1,本申请第一个实施例提供了一种网络舆情数据处理方法,包括:
步骤101、服务端响应于舆情处理任务调度指令,生成与舆情处理任务调度指令对应的任务信息;
步骤102、服务端将任务信息发送给移动端,使得移动端根据接收到的任务信息,结合保存在移动端中,且与任务信息对应的舆情数据分析算法,执行舆情数据分析任务,以获得网络舆情数据处理结果,其中,舆情数据分析算法的获得方式为移动端接收服务端下发的舆情数据分析算法,并保存在移动端本地。
为了降低硬件的采购成本,本申请实施例优选采取支持基于ARM架构的移动端,达到与Windows相同的性能,但硬件要求、功耗更低,性能更强大。并基于ARM架构的移动端为例进行说明。
在本申请实施例的网络舆情数据处理方法中,移动端只负责执行算法加载、算法执行等工作,其余的动态性的工作交由服务端自动分发,移动端在接收相关任务后,即可开始加载与该任务信息对应的舆情数据分析算法的执行,在完成舆情数据分析算法的运算后,即可得到网络舆情数据处理结果。而获得的网络舆情数据处理结果还可以根据实际应用需要选择相应的保存方式,可以进行打包合并后上传给服务端进行汇总保存,也可以直接保存在移动端中。将网络舆情分析主体设计由重变轻,减小了终端对硬件性能的要求,降低了硬件成本。一般舆情爬虫节点的硬件成本在3000或更高,而现在普通的移动终端硬件成本可以控制在500以下。每台PC的功率一台在150瓦以上,移动终端一般在5瓦左右,电量消耗相差巨大。在性能、价格、效率上的比较,基于移动终端的数据采集处理技术更具优势。
本实施例提供的网络舆情数据处理方法,通过将传统的舆情分析技术与移动终端技术相结合,利用移动终端成本低的特点,使得在相同的成本下,可以配置更多移动终端进行舆情数据处理,同时充分利用移动终端的运算能力,将集中处理的任务分发给移动终端本地化处理,减轻了服务器的运算要求,大大的降低的服务器的采购成本,使得舆情数据的爬取和处理的效率得到较大的提升,解决了现有的舆情分析的爬虫技术主要部署在PC服务器上进行数据采集,对网络、PC硬件采集及维护、部署成本高而限制了舆情数据采集、处理的效率的技术问题。
以上为本申请提供的一种网络舆情数据处理方法的第一个实施例的详细说明,下面为本申请提供的一种网络舆情数据处理方法的第二个实施例的详细说明。
请参阅图2,本申请第二个实施例在上述第一个实施例的基础上,提供了一种网络舆情数据处理方法。
进一步地,舆情处理任务调度指令的生成方式为:服务端根据用户输入的操作指令生成的。
进一步地,舆情数据分析算法具体包括:网络舆情数据爬取子算法和舆情数据标注处理子算法。
其中,网络舆情数据爬取子算法用于控制移动端进行舆情数据的采集,其具体实施过程可以参考以下示例:通过Appium和puppeteer提供的api直接控制浏览器及APP,模拟大部分用户操作作为爬虫访问页面来收集数据。创建一个Browser实例,通过.launch启动一个Chorme实例。如网站需要登陆,则模拟用户登录操作,通过.setCookie的保存登录的cookie,维持网站登录的有效性。登录成功,通过page.waitForXPath的Api等待对应的元素出现,返回对应的ElementHandle实例。根据已编辑好的抓取逻辑,操作页面的page DOMEnvironment,获取对应的数据,页面获取完成通过page.close关闭对应页面,返回获取的数据集,分析数据结构,通过与后台的接口,将数据保存到数据仓库,以便通过舆情数据标注处理子算法进行后续的数据处理。
舆情数据标注处理子算法用于对爬取得到的舆情数据进行标注分析,其具体实施过程可以参考以下示例:结合HanLP自然语言处理工具包,通过计算语义相似度和词性标注的功能,筛选出与关键词词义距离相近的数据。设定的指定关键词,结合抓取的数据,计算两者词语语义的相似度,根据相似度范围设定,判定本条数据属于该关键词或不属于该关键词的数据。筛选出属于该关键词的数据,运用词性标注的功能,对数据进一步的筛选,从而得出更接近关键词的数据。
进一步地,生成与舆情处理任务调度指令对应的任务信息之后,且将任务信息发送给移动端之前还包括:
步骤1001、服务端确定各个移动端的任务状态,以便将任务信息发送给任务状态为可用状态的移动端。
需要说明的是,服务端通过scheduler,定时从后台发出的查询指令,检测各移动端的任务状态,在检测到可用状态的移动端时,自主分配到该移动端当中执行,实现自主化操作。
其中,任务状态的确定过程为:
服务端判断移动端是否正在执行舆情数据分析任务,若否,则移动端的任务状态为可用状态,若是,则判断舆情数据分析任务的任务进度是否大于预置的任务进度阈值,若是,则移动端的任务状态为可用状态,若否,则移动端的任务状态为繁忙状态,例如,在移动端的任务进度超过70%的时候,可以将该移动端的任务状态配置为可用状态,以便服务端提前下达下一个任务给移动端,缩短移动端任务空档时间。
进一步地,生成与舆情处理任务调度指令对应的任务信息之后,且将任务信息发送给移动端之前还包括:
步骤1002、服务端判断移动端是否保存有与任务信息对应的舆情数据分析算法,若否,则执行步骤1003,若是,则执行步骤102。
步骤1003、将舆情数据分析算法发送给移动端,以便移动端接收舆情数据分析算法,并将舆情数据分析算法保存在移动端本地。
进一步地,步骤1003中的将舆情数据分析算法发送给移动端具体包括:
通过预设的算法封装协议,对舆情数据分析算法进行压缩封装处理,得到算法数据包,并将算法数据包发送给移动端,其中算法数据包包括:算法包序号、算法名称、算法包大小、算法包类型、算法语义内容、要求开始执行时间、执行顺序、接收成功标志、算法执行进度反馈、算法包校验。
进一步地,在得到算法数据包之后,且在将算法数据包发送给移动端之前还可以包括:
通过数据压缩算法,对算法数据包进行二次压缩。
需要说明的是,本申请实施例利用ARM架构的优势,利用终端的GPU运算能力对舆情数据进行标注处理。以往数据标注都是在服务器集中处理,对服务器的性能要求极高。现在只需要在服务器上定制好各类计算策略,即可以分发给轻APP执行。为了确保算法数据包的独立性及传输性能,算法数据包采用自编协议进行定义,协议主要内容包括:算法数据包序号、算法名称、算法数据包大小、算法数据包类型、算法语义内容、要求开始执行时间、执行顺序、接收成功标志、算法执行进度反馈、算法数据包校验。算法数据包采用数据压缩算法,如ZIP压缩算法等进行二次压缩,减轻算法数据包文件大小,减少网络带宽的占用,提高传输速度。
进一步地,还包括:
步骤1005、服务端响应于新移动端发送的节点扩展请求,根据节点扩展请求中包含的移动端信息,对新移动端进行注册以及配置。
需要说明的是,本申请实施例还包括:新移动端节点的扩展。当需要扩展节点的时候,在新移动端上访问一键部署地址,访问地址后就会自动ROOT,并自动安装应用,服务端完成对该新移动端的注册,并自动分发一个节点编码给移动端,移动端此时进入就绪状态,并已经完成节点的注册,可以自动开始接收任务、执行任务。
以上为本申请提供的一种网络舆情数据处理方法的第二个实施例的详细说明,下面为本申请提供的一种网络舆情数据处理系统的第一个实施例的详细说明。
请参阅图3,本申请第三个实施例提供了一种网络舆情数据处理系统,包括:服务端S和移动端C,移动端C与服务端S通信连接;
服务端S被配置为:响应于舆情处理任务调度指令,生成与舆情处理任务调度指令对应的任务信息,并将任务信息发送给移动端C;
移动端C被配置为:根据接收到的任务信息,结合保存在移动端C中,且与任务信息对应的舆情数据分析算法,执行舆情数据分析任务,以获得网络舆情数据处理结果,其中,舆情数据分析算法的获得方式为移动端C接收服务端S下发的舆情数据分析算法,并保存在移动端本地。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种网络舆情数据处理方法,其特征在于,包括:
服务端响应于舆情处理任务调度指令,生成与所述舆情处理任务调度指令对应的任务信息;
所述服务端将所述任务信息发送给移动端,使得所述移动端根据接收到的所述任务信息,结合所述移动端中保存的,且与所述任务信息对应的舆情数据分析算法,执行舆情数据分析任务,以获得网络舆情数据处理结果,其中,所述舆情数据分析算法为所述服务端下发给所述移动端,并保存在所述移动端本地的算法,具体包括:网络舆情数据爬取子算法和舆情数据标注处理子算法。
2.根据权利要求1所述的一种网络舆情数据处理方法,其特征在于,所述舆情处理任务调度指令的生成方式为:所述服务端根据用户输入的操作指令生成的。
3.根据权利要求1所述的一种网络舆情数据处理方法,其特征在于,所述网络舆情数据爬取子算法是基于Appium和puppeteer提供的api接口构建的,用于通过所述api接口控制浏览器及APP,模拟用户操作作为爬虫访问页面,以收集舆情数据;
所述舆情数据标注处理子算法是基于HanLP自然语言处理工具包构建的,用于通过基于所述HanLP自然语言处理工具包计算所述舆情数据与舆情关键词的相似度,以根据所述相似度对所述舆情数据进行标注处理,其中,所述舆情关键词存储在所述移动端接收到的任务信息中。
4.根据权利要求1所述的一种网络舆情数据处理方法,其特征在于,所述生成与所述舆情处理任务调度指令对应的任务信息之后,且将所述任务信息发送给所述移动端之前还包括:
所述服务端确定各个所述移动端的任务状态,以便将所述任务信息发送给所述任务状态为可用状态的移动端。
5.根据权利要求4所述的一种网络舆情数据处理方法,其特征在于,所述任务状态的确定过程为:
所述服务端判断所述移动端是否正在执行舆情数据分析任务,若否,则所述移动端的任务状态为可用状态,若是,则判断所述舆情数据分析任务的任务进度是否大于预置的任务进度阈值,若是,则所述移动端的任务状态为可用状态,若否,则所述移动端的任务状态为繁忙状态。
6.根据权利要求1所述的一种网络舆情数据处理方法,其特征在于,所述生成与所述舆情处理任务调度指令对应的任务信息之后,且将所述任务信息发送给所述移动端之前还包括:
所述服务端判断所述移动端是否保存有与所述任务信息对应的舆情数据分析算法,若否,则将所述舆情数据分析算法发送给所述移动端,以便所述移动端接收所述舆情数据分析算法,并将所述舆情数据分析算法保存在所述移动端本地。
7.根据权利要求6所述的一种网络舆情数据处理方法,其特征在于,所述舆情数据分析算法发送给所述移动端具体包括:
通过预设的算法封装协议,对所述舆情数据分析算法进行压缩封装处理,得到算法数据包,并将所述算法数据包发送给所述移动端,其中所述算法数据包包括:算法包序号、算法名称、算法包大小、算法包类型、算法语义内容、要求开始执行时间、执行顺序、接收成功标志、算法执行进度反馈、算法包校验。
8.根据权利要求7所述的一种网络舆情数据处理方法,其特征在于,所述将所述算法数据包发送给所述移动端之前还包括:
通过数据压缩算法,对所述算法数据包进行二次压缩。
9.根据权利要求1所述的一种网络舆情数据处理方法,其特征在于,还包括:
所述服务端响应于新移动端发送的节点扩展请求,根据所述节点扩展请求中包含的移动端信息,对所述新移动端进行注册以及配置。
10.一种网络舆情数据处理系统,其特征在于,包括:服务端和移动端,所述移动端与所述服务端通信连接;
所述服务端被配置为:响应于舆情处理任务调度指令,生成与所述舆情处理任务调度指令对应的任务信息,并将所述任务信息发送给所述移动端;
所述移动端被配置为:根据接收到的任务信息,结合所述移动端中保存的,且与所述任务信息对应的舆情数据分析算法,执行舆情数据分析任务,以获得网络舆情数据处理结果,其中,所述舆情数据分析算法为所述移动端接收所述服务端下发的所述舆情数据分析算法,并保存在所述移动端本地的算法,具体包括:网络舆情数据爬取子算法和舆情数据标注处理子算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110962745.6A CN113672792A (zh) | 2021-08-20 | 2021-08-20 | 一种网络舆情数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110962745.6A CN113672792A (zh) | 2021-08-20 | 2021-08-20 | 一种网络舆情数据处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113672792A true CN113672792A (zh) | 2021-11-19 |
Family
ID=78544626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110962745.6A Pending CN113672792A (zh) | 2021-08-20 | 2021-08-20 | 一种网络舆情数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113672792A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102638579A (zh) * | 2012-03-29 | 2012-08-15 | 深圳市高正软件有限公司 | 一种基于移动设备数据传输的数据处理方法及系统 |
CN108595510A (zh) * | 2018-03-22 | 2018-09-28 | 成都数聚城堡科技有限公司 | 一种基于浏览器端的爬虫、分布式爬虫系统及方法 |
CN109299271A (zh) * | 2018-10-30 | 2019-02-01 | 腾讯科技(深圳)有限公司 | 训练样本生成、文本数据、舆情事件分类方法及相关设备 |
CN109815385A (zh) * | 2019-01-31 | 2019-05-28 | 无锡火球普惠信息科技有限公司 | 基于app客户端的爬虫及爬取方法 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
-
2021
- 2021-08-20 CN CN202110962745.6A patent/CN113672792A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102638579A (zh) * | 2012-03-29 | 2012-08-15 | 深圳市高正软件有限公司 | 一种基于移动设备数据传输的数据处理方法及系统 |
CN108595510A (zh) * | 2018-03-22 | 2018-09-28 | 成都数聚城堡科技有限公司 | 一种基于浏览器端的爬虫、分布式爬虫系统及方法 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN109299271A (zh) * | 2018-10-30 | 2019-02-01 | 腾讯科技(深圳)有限公司 | 训练样本生成、文本数据、舆情事件分类方法及相关设备 |
CN109815385A (zh) * | 2019-01-31 | 2019-05-28 | 无锡火球普惠信息科技有限公司 | 基于app客户端的爬虫及爬取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177569B (zh) | 基于人工智能的推荐处理方法、装置及设备 | |
CN109344395B (zh) | 一种数据处理方法、装置、服务器及存储介质 | |
CN108595583A (zh) | 动态图表类页面数据爬取方法、装置、终端及存储介质 | |
CN109561117B (zh) | 数据采集方法及装置 | |
CN106354873A (zh) | 网页加载方法、装置及系统 | |
CN102722499B (zh) | 搜索引擎及其实现方法 | |
CN104850546A (zh) | 移动媒介信息的展示方法和系统 | |
CN110795697B (zh) | 逻辑表达式的获取方法、装置、存储介质以及电子装置 | |
CN107291759A (zh) | 浏览器页面资源的处理方法和装置 | |
CN106056408A (zh) | 一种追踪推广方的方法及装置 | |
CN110995569A (zh) | 一种智能互动方法、装置、计算机设备和存储介质 | |
CN110334268B (zh) | 一种区块链项目热词生成方法以及装置 | |
CN111527501A (zh) | 芯片适配确定方法及相关产品 | |
CN105745644A (zh) | 表示在网页浏览器中的网页的状态表示的建立 | |
CN105160018A (zh) | 一种复制/粘贴图片的方法、装置和系统 | |
CN105989114A (zh) | 一种收藏内容推荐方法及终端 | |
CN115471283A (zh) | 广告批量投放方法、装置、设备及存储介质 | |
CN115422334A (zh) | 信息处理方法、装置、电子设备及存储介质 | |
CN105550179A (zh) | 一种网页收藏方法和浏览器插件 | |
CN112308573A (zh) | 智能客服方法及装置、存储介质、计算机设备 | |
CN109697281A (zh) | 在线合并文档的方法、装置及电子设备 | |
CN109741739A (zh) | 一种应用处理方法及装置 | |
CN109325199A (zh) | 一种利用编程语言减少网页重绘次数的方法以及电子设备 | |
CN113672792A (zh) | 一种网络舆情数据处理方法及系统 | |
CN113792232B (zh) | 页面特征计算方法、装置、电子设备、介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |