CN108200129A - 一种互联网统计数据获取方法及系统 - Google Patents
一种互联网统计数据获取方法及系统 Download PDFInfo
- Publication number
- CN108200129A CN108200129A CN201711404437.1A CN201711404437A CN108200129A CN 108200129 A CN108200129 A CN 108200129A CN 201711404437 A CN201711404437 A CN 201711404437A CN 108200129 A CN108200129 A CN 108200129A
- Authority
- CN
- China
- Prior art keywords
- data
- counted
- internet
- statistics
- processing queue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
- H04L67/1004—Server selection for load balancing
- H04L67/1014—Server selection for load balancing based on the content of a request
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/60—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
- H04L67/63—Routing a service request depending on the request content or context
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种互联网统计数据获取方法及系统,所述系统包括:客户端、数据存储中心和数据统计单元,数据存储中心存储有互联网数据,所述方法包括:客户端向数据存储中心发送获取目标统计数据的请求,请求中携带有查询待统计互联网数据的关键字;数据存储中心根据所述关键字查询获得所述待统计互联网数据,并将所述待统计互联网数据推送至所述数据统计单元的处理队列中;数据统计单元基于所述待统计互联网数据进入所述处理队列的顺序,对所述处理队列中的所述待统计互联网数据进行统计,获得所述目标统计数据,并将所述目标统计数据反馈给所述客户端。该方法及系统可以缩短获取目标统计数据的时间、提高获取目标统计数据的速率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种互联网统计数据获取方法及系统。
背景技术
当今社会,互联网已经渗透到人们的工作和生活的方方面面,同时也产生了大量的互联网数据,互联网进入大数据时代。由于大数据的统计结果可以反映事物的本质和发展规律,因此对互联网统计数据的应用越来越广泛。例如,用户在撰写评论文章时,常需要引用相关话题的互联网统计数据,以佐证文章的观点。
目前,用户为了获得与某一话题相关的互联网统计数据,常采用的处理方式是:用户先利用搜索引擎从互联网上搜索获得与该话题相关的互联网数据,搜索完毕后将搜索获得的互联网数据导入Excel表格中,最后使用Excel软件中的相关数据处理工具进行统计获得统计结果。
现有的获得互联网统计数据的处理方式,需要较多的人工参与,且耗费的时间较长,对用户来说不够快捷。
发明内容
本申请实施例提供一种互联网统计数据获取方法及系统,以解决现有的获取互联网统计数据耗时较长、不够快捷的技术问题。
第一方面,本申请实施例提供一种互联网统计数据获取方法,应用于互联网统计数据获取系统,所述系统包括:客户端、数据存储中心和数据统计单元,所述数据存储中心存储有互联网数据,所述方法包括:
所述客户端向所述数据存储中心发送获取目标统计数据的请求,所述请求中携带有查询待统计互联网数据的关键字;
所述数据存储中心根据所述关键字查询获得所述待统计互联网数据,并将所述待统计互联网数据推送至所述数据统计单元的处理队列中;
所述数据统计单元基于所述待统计互联网数据进入所述处理队列的顺序,对所述处理队列中的所述待统计互联网数据进行统计,获得所述目标统计数据,并将所述目标统计数据反馈给所述客户端。
第二方面,本申请实施例还提供一种互联网统计数据获取系统,所述系统包括:客户端、数据存储中心和数据统计单元,所述数据存储中心存储有互联网数据,其中:
所述客户端,用于向所述数据存储中心发送获取目标统计数据的请求,并接收所述数据统计单元返回的所述目标统计数据;其中,所述请求中携带有查询待统计互联网数据的关键字;
所述数据存储中心,用于根据所述关键字查询获得所述待统计互联网数据,并将所述待统计互联网数据推送至所述数据统计单元的处理队列中;
所述数据统计单元,用于基于所述待统计互联网数据进入所述处理队列的顺序,对所述处理队列中的所述待统计互联网进行统计,获得所述目标统计数据,并将所述目标统计数据反馈给所述客户端。
本申请实施例采用的上述至少一个技术方案,一方面,在待统计互联网数据查询和统计过程中不需要人工参与;另一方面,由于数据存储中心将查询获得的待统计互联网数据推送至数据统计单元的处理队列中,而数据统计单元是基于所述待统计互联网数据进入所述处理队列的顺序,对所述处理队列中的所述待统计互联网数据进行统计,获得目标统计数据,这使得数据统计单元在数据存储中心查询获得待统计互联网数据的过程中,就可以对待统计互联网数据进行统计,而不是等所有待统计互联网数据查询完毕之后再进行统计,也即采用边查询边统计计算的流式处理方式。因此可以缩短获取目标统计数据的时间、提高获取目标统计数据的速率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1A为本申请实施例提供的一种互联网统计数据获取方法的一种具体实现方式的流程示意图;
图1B为本申请实施例提供的一种互联网统计数据获取方法的一种应用效果示意图;
图1C为本申请实施例提供的一种互联网统计数据获取方法的另一种应用效果示意图;
图1D为本申请实施例提供的一种互联网统计数据获取方法的交互过程示意图;
图2为表征本申请实施例提供的一种互联网统计数据获取方法的有益效果的示意图;
图3为图1A所示的实施例中的步骤103的一种具体实施方式的原理示意图;
图4为本申请实施例提供的一种互联网统计数据获取系统的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了解决现有技术中的互联网统计数据获取方式耗时长、对用户来说不够快捷的问题,本申请实施例提供了一种互联网统计数据获取方法和系统,下面分别进行说明。
下面先对本申请实施例提供的一种互联网统计数据获取方法进行说明。
本申请实施例提供的一种互联网统计数据获取方法,应用于互联网统计数据获取系统,该系统主要包括:客户端、数据存储中心和数据统计单元,其中,数据存储中心存储有互联网数据,如图1A所示,该方法可以包括如下步骤:
步骤101、所述客户端向所述数据存储中心发送获取目标统计数据的请求,所述请求中携带有查询待统计互联网数据的关键字。
其中,客户端,还可以是用户与上述互联网数据统计系统交互的工具。沿用本申请背景技术中所举的例子,如果用户在撰写评论文章时,需要引用相关话题的互联网统计数据,以佐证文章的观点,那么,客户端具体可以是一个文档编辑器。
其中,数据存储中心中存储有互联网数据,可选地,数据存储中心可以实时访问预设的访问站点,以从预设的访问站点爬取互联网数据。其中,预设的访问站点可以是互联网中的全部访问站点,以获得全网数据,当然也可以是部分互联网数据。
具体的,用户可以通过客户端设置需要查询的互联网统计数据所针对的话题的关键字,客户端在接收到用户设置的关键字以后,向数据存储中心发送获取与该关键字对应的目标统计数据的请求。
步骤102、所述数据存储中心根据所述关键字查询获得所述待统计互联网数据,并将所述待统计互联网数据推送至所述数据统计单元的处理队列中。
步骤103、所述数据统计单元基于所述待统计互联网数据进入所述处理队列的顺序,对所述处理队列中的所述待统计互联网数据进行统计,获得所述目标统计数据,并将所述目标统计数据反馈给所述客户端。
具体可以将处理队列理解为是一个先进先出队列,在对处理队列中的所述待统计互联网数据进行统计时,可以从处理队列的头部开始不断按序读取数据进行统计。
其中,数据统计单元可以按照常规的方式对接收到的所述待统计互联网数据进行分类统计,例如,对针对某一话题的关键字查询的到的待统计数据,可以统计得到关于描述该话题的文章的媒体的占比,或者得到该话题讨论的事件的走势,等等。下文会结合具体的实施方式对统计过程进行说明,详见下文。
可选地,在步骤103之前,也即在对所述处理队列中的所述待统计互联网数据进行统计,获得所述目标统计数据之前,本申请实施例提供的一种互联网统计数据获取方法还可以包括:所述数据统计单元对处理队列中的所述待统计互联网数据进行过滤。
具体可以将处理队列中的待统计互联网数据中的重复数据和垃圾数据等干扰数据进行过滤,其中,垃圾数据可以是标题和/或内容缺失的数据以及格式不正确的数据(如乱码)等等。
可以理解,对处理队列中的待统计互联网数据进行过滤以后,可以排除无效数据的干扰,得到有效的待统计互联统计数据,依照这样的待统计互联网数据进行统计获得的目标统计数据更能正确地反映事物的本质合发展规律,具有更强的证明力。
可选地,在步骤103之后,数据统计单元还可以将统计获得的目标统计数据保存在预设的数据库中,以方便用户在后续的应用中使用该目标统计数据。
可选地,客户端在接收到所述数据统计单元返回的所述目标统计数据之后,还可以进一步地根据目标统计数据绘制图形和/或报表,以得到佐证用户的想要表达的观点的直观地证据。具体可以绘制得到如图1B所示的饼图,或者如图1C所示的折线图,以及柱状图等等,以佐证文章的观点。
其中,图1B所示的饼图,可以用于说明用户所撰写的文章中引用的网络统计数据的来源,例如,在图1B中来自微博的占比为35%,来自长微博的占比为30%,来自新闻网站的占比为20%,来自微信公众号的占比为9%,来自论坛网站的占比为4%,来自博客的占比为2%。图1C所示的折线图可以用于说明用户所撰写的文章中关心的两个事件的走势,其中虚线代表一个事件的走势,实线表示另一事件的走势。可以理解,图1B和图1C所示的饼图和折线图是一种示例,这并不构成对申请保护范围的限定。
此外,图1D还示出了本申请实施例提供的一种互联网统计数据获取方法的各步骤的执行主体的交互过程。
如图1D所示,用户1通过步骤100在客户端2中设置需要查询的互联网统计数据所针对的话题的关键字;客户端2接收到用户1设置的关键字以后,执行步骤101向数据存储中心3发送获取目标统计数据的请求,该请求中携带有查询待统计数据的关键字;数据存储中心3接收到请求后,执行步骤102向数据统计单元4的处理队列中推送查询获得的所述待统计互联网数据;数据统计单元4接收到待统计互联网数据后,执行步骤103获得目标统计数据;最后数据统计单元4将统计获得的目标统计数据反馈给客户端2,这样用户1就可以通过客户端2引用目标统计数据来佐证自己撰写的文章的观点。
本申请实施例提供的一种互联网统计数据获取方法,一方面,在待统计互联网数据查询和统计过程中不需要人工参与;另一方面,由于数据存储中心将查询获得的待统计互联网数据推送至数据统计单元的处理队列中,而数据统计单元是基于所述待统计互联网数据进入所述处理队列的顺序,对所述处理队列中的所述待统计互联网数据进行统计,获得目标统计数据,这使得数据统计单元在数据存储中心查询获得待统计互联网数据的过程中,就可以对待统计互联网数据进行统计,而不是等所有待统计互联网数据查询完毕之后再进行统计,也即采用边查询边统计计算的流式处理方式。因此可以缩短获取目标统计数据的时间、提高获取目标统计数据的速率。
具体如图2所示,对于传统的目标统计数据获取方式,由于是在查询步骤 (或搜索步骤)结束之后,再进行统计计算,因此,用户最终获得反映目标统计数据的图形或报表的时长T1等于数据查询时长t1、数据统计时长t2和图形或报表绘制时长t3的总和。
而对于本申请实施例提供的一种互联网数据统计方法,用户最终获得反映目标统计数据的图形或报表的时长T2等于数据查询时长t1、查询结束后的统计时长t4和图形或报表绘制时长t3的总和。
由于本申请实施例提供的一种互联网数据统计方法,在数据查询的过程中就进行统计计算,因此查询结束后的统计时长t4明显小于传统方式中的数据统计时长t2,最终使得本申请实施例提供的一种互联网数据统计方法耗费的总时长明显小于传统方式(T2明显小于T1)。可见,本申请实施例提供的一种互联网数据统计方法,可以缩短获取目标统计数据的时间、提高获取目标统计数据的速率。
在本申请的另一实施例中,在图1A所示的实施例的基础上,本申请实施例提供的一种互联网统计数据获取方法,还可以包括:采用第一预设方式在所述客户端中展示获取所述目标统计数据的进度。
和/或,还可以包括:在所述客户端中展示获取所述目标统计数据已消耗的时长。
具体而言,在客户端向数据存储中心发送获取目标统计数据的请求之后,可以采用第二预设方式查询所述数据统计单元统计获得所述目标统计数据的进度;然后采用第一预设方式在所述客户端中展示所述进度。
其中,第二预设方式可以是轮询的方式,第一预设方式可以包括:进度条和/或进度百分数等能够表示进度的方式。
本申请实施例,由于能够在客户端中向用户展示获取目标统计数据的进度,和/或获取所述目标统计数据已消耗的时长,因此可以使用户随时了解统计的进展,或者估算得到统计结果的大致时间,提升了用户体验。
在本申请的又一实施例中,上述步骤102中的“将所述待统计互联网数据推送至所述数据统计单元”具体可以包括:将所述待统计互联网数据推送至所述数据统计单元中的多个处理队列中,且不同处理队列中存储的数据不同。
则相应的,上述步骤103中的“基于所述待统计互联网数据进入所述处理队列的顺序,对所述处理队列中的所述待统计互联网数据进行统计,获得所述目标统计数据”具体可以包括:基于所述待统计互联网数据进入所述多个处理队列的顺序,对所述多个处理队列中的所述待统计互联网数据分别进行统计,得到对应的统计子结果;将各所述统计子结果进行汇总得到所述目标统计数据。
具体如图3所示,可以采用kafka作为处理队列,Spark Streaming作为流式处理的计算框架。kafka是一个分布式处理队列,通过将不同的队列分布在不同的服务器上,也就是分布在图3中的分区1、分区2、…、分区n中,增加队列数据的吞吐量,提升数据处理速度。Spark Streaming是一个分布式流式处理框架,通过这个框架,对每一分区可以对应启动一个计算任务,这样多个分区对应启动多个计算任务(具体如图3中的任务1、任务2、…、任务n),每个任务同时分别计算一部分数据,最后在所有的任务计算完毕后,把各任务计算得到的结果进行汇总,就可以得到最终的目标统计数据。不难理解,多任务并行计算,可以进一步提升统计速度,从而进一步缩短获得目标统计数据的时间。
在一种具体实施方式中,上述“基于所述待统计互联网数据进入所述多个处理队列的顺序,对所述多个处理队列中的所述待统计互联网数据分别进行统计,得到对应的统计子结果”具体可以包括:基于所述待统计互联网数据进入所述多个处理队列的顺序,从所述多个处理队列中分别按序读取第一预设数量的待统计互联网数据进行统计,获得对应的基准统计结果;对所述多个处理队列中的剩余待统计互联网数据分别循环执行指定步骤,直到所述多个处理队列中的剩余待统计互联网数据被处理完,获得对应的统计子结果。
其中,所述指定步骤可以包括:从处理队列中按序读取第二预设数量的数据进行统计,获得当前统计结果;将所述当前统计结果与对应的基准统计结果进行迭代获得迭代统计结果,并将对应的所述基准统计结果更新为所述迭代统计结果。
第一预设数量和第二预设数量可以根据实际需要进行设定,通常情况下,第二预设数量与第一预设数量相等。
对第一预设数量的数据和第二预设数量的数据进行统计的具体方法可以是常规的统计方法,此处不做赘述。
在实际应用中,可以按照预设的时间间隔从所述多个处理队列中分别按序读取第二预设数量的数据进行统计,获得当前统计结果。其中预设的时间间隔可以参考计算获得当前统计结果的时长确定,一般情况下,该预设时间间隔大于或等于计算获得当前统计结果的时长。
可以理解,对各处理队列,最后一次迭代获得的迭代统计结果即为对应的统计子结果。
本申请实施例提供的一种互联网统计数据获取方法,由于数据存储中心将查询获得的待统计互联网数据推送至数据统计单元中的多个处理队列中,并且对各处理队列,分别不断地从中按序取出第二预设数量的数据进行迭代计算,得到最终的统计子结果。这使得数据统计单元在数据存储中心查询获得待统计互联网数据的过程中,就可以对待统计互联网数据进行统计,而不是等所有待统计互联网数据查询完毕之后再进行统计,也即采用边查询边迭代计算的流式处理方式,因此,可以缩短获取目标统计数据的时间、提高获取目标统计数据的速率。
再有,在一种更为具体的实施方式中,上述指定步骤中的“从处理队列中按序读取第二预设数量的数据进行统计,获得当前统计结果”具体可以包括:从处理队列中按序读取第二预设数量的数据;将读取出的第二预设数量的数据分配至第三预设数量的处理设备中分别进行统计;对所述第三预设数量的处理设备获得的统计结果进行汇总,获得当前统计结果。
其中第三预设数量可以人为设定,例如可以是3或4等等。
不难理解,将第二预设数量的数据分配至第三预设数量的处理设备中分别进行统计,也是一种多处理设备并行处理的统计计算方式,这可以更进一步地缩短获得目标统计数据的时间,从而更进一步地提高获取目标统计数据的速率。
相应于上述方法实施例,本申请实施例还提供了一种互联网统计数据获取装置,下面进行说明。
如图4所示,本申请实施例提供的一种互联网统计数据获取装置可以包括:客户端2、数据存储中心3和数据统计单元4。
客户端2,用于向所述数据存储中心3发送获取目标统计数据的请求,并接收所述数据统计单元返回的所述目标统计数据;其中,所述请求中携带有查询待统计互联网数据的关键字。
客户端2,还可以理解为是用户1与上述互联网数据统计系统交互的工具。沿用本申请背景技术中所举的例子,如果用户在撰写评论文章时,需要引用相关话题的互联网统计数据,以佐证文章的观点,那么,客户端2具体可以是一个文档编辑器。
其中,数据存储中心3中存储有互联网数据,可选地,数据存储中心3可以实时访问预设的访问站点,以从预设的访问站点爬取互联网数据。预设的访问站点可以是互联网中的全部访问站点,以获得全网数据,当然也可以是部分互联网数据。
具体的,用户1可以通过客户端2设置需要查询的互联网统计数据所针对的话题的关键字,客户端2在接收到用户设置的关键字以后,向数据存储中心 3发送获取与该关键字对应的目标统计数据的请求。
数据存储中心3,用于根据所述关键字查询获得所述待统计互联网数据,并将所述待统计互联网数据推送至所述数据统计单元4的处理队列中。
数据统计单元4,用于基于所述待统计互联网数据进入所述处理队列的顺序,对所述处理队列中的所述待统计互联网进行统计,获得所述目标统计数据,并将所述目标统计数据反馈给所述客户端2。
具体可以将处理队列理解为是一个先进先出队列,在对处理队列中的所述待统计互联网数据进行统计时,可以从处理队列的头部开始不断按序读取数据进行统计。
可选地,在本申请实施例中,数据统计单元4还可以在统计计算之前,对处理队列中的所述待统计互联网数据进行过滤。具体可以将处理队列中的待统计互联网数据中的重复数据和垃圾数据等干扰数据进行过滤,其中,垃圾数据可以是标题和/或内容缺失的数据以及格式不正确的数据等等。
对处理队列中的待统计互联网数据进行过滤以后,可以排除无效数据的干扰,得到有效的待统计互联统计数据,依照这样的待统计互联网数据进行统计获得的目标统计数据更能正确地反映事物的本质合发展规律,具有更强的证明力。
可选地,在本申请实施例中,数据统计单元4还可以将统计获得的目标统计数据保存在预设的数据库中,以方便用户在后续的应用中使用该目标统计数据。
可选地,在本申请实施例中,客户端2在接收到所述数据统计单元4返回的所述目标统计数据之后,还可以进一步地根据目标统计数据绘制图形和/或报表,以得到佐证用户的想要表达的观点的直观地证据。
本申请实施例提供的一种互联网统计数据获取系统,一方面,在待统计互联网数据查询和统计过程中不需要人工参与;另一方面,由于数据存储中心将查询获得的待统计互联网数据推送至数据统计单元的处理队列中,而数据统计单元是基于所述待统计互联网数据进入所述处理队列的顺序,对所述处理队列中的所述待统计互联网数据进行统计,获得目标统计数据,这使得数据统计单元在数据存储中心查询获得待统计互联网数据的过程中,就可以对待统计互联网数据进行统计,而不是等所有待统计互联网数据查询完毕之后再进行统计,也即采用边查询边统计计算的流式处理方式。因此,可以缩短获取目标统计数据的时间、提高获取目标统计数据的速率。
在本申请的另一实施例中,客户端2还可以采用第一预设方式在所述客户端2中展示获取所述目标统计数据的进度;和/或,在所述客户端2中展示获取所述目标统计数据已消耗的时长。
具体而言,在客户端向数据存储中心3发送获取目标统计数据的请求之后,可以采用第二预设方式查询所述数据统计单元统计获得所述目标统计数据的进度;采用第一预设方式在所述客户端中展示所述进度。
其中,第二预设方式可以是轮询的方式,第一预设方式可以包括:进度条和/或进度百分数等能够表示进度的方式。
本申请实施例,由于能够在客户端中向用户展示获取目标统计数据的进度,和/或获取所述目标统计数据已消耗的时长,因此可以使用户随时了解统计的进展,或者估算得到统计结果的大致时间,提升了用户体验。
在本申请的又一实施例中,数据存储中心3具体可以将所述待统计互联网数据推送至所述数据统计单元4中的多个处理队列中,且不同处理队列中存储的数据不同。
则相应的,数据统计单元4具体可以基于所述待统计互联网数据进入所述多个处理队列的顺序,对所述多个处理队列中的所述待统计互联网数据分别进行统计,得到对应的统计子结果;将各所述统计子结果进行汇总得到所述目标统计数据。
并且,在一种具体实施方式中,数据统计单元4可以基于所述待统计互联网数据进入所述多个处理队列的顺序,从所述多个处理队列中分别按序读取第一预设数量的待统计互联网数据进行统计,获得对应的基准统计结果;对所述多个处理队列中的剩余待统计互联网数据分别循环执行指定步骤,直到所述多个处理队列中的剩余待统计互联网数据被处理完,获得对应的统计子结果。
其中,所述指定步骤可以包括:从处理队列中按序读取第二预设数量的数据进行统计,获得当前统计结果;将所述当前统计结果与对应的基准统计结果进行迭代获得迭代统计结果,并将对应的所述基准统计结果更新为所述迭代统计结果。
其中,第一预设数量和第二预设数量可以根据实际需要进行设定,通常情况下,第二预设数量与第一预设数量相等。
可以理解,对各处理队列,数据统计单元4最后一次迭代获得的迭代统计结果即为对应的统计子结果。
本申请实施例提供的一种互联网统计数据获取系统,由于数据存储中心将查询获得的待统计互联网数据推送至数据统计单元中的多个处理队列中,并且数据统计单元对各处理队列,分别不断地从中按序取出第二预设数量的数据进行迭代计算,得到最终的统计子结果。这使得数据统计单元在数据存储中心查询获得待统计互联网数据的过程中,就可以对待统计互联网数据进行统计,而不是等所有待统计互联网数据查询完毕之后再进行统计,也即采用边查询边迭代计算的流式处理方式,因此,可以进一步地缩短获取目标统计数据的时间、提高获取目标统计数据的速率。
再有,在一种更为具体的实施方式中,在数据统计单元4中,“从处理队列中按序读取第二预设数量的数据进行统计,获得当前统计结果”具体可以包括:从处理队列中按序读取第二预设数量的数据;将读取出的第二预设数量的数据分配至第三预设数量的处理设备中分别进行统计;对所述第三预设数量的处理设备获得的统计结果进行汇总,获得当前统计结果。
其中第三预设数量可以人为设定,例如可以是3或4等等。
不难理解,数据统计单元4,将第二预设数量的数据分配至第三预设数量的处理设备中分别进行统计,也是一种多处理设备并行处理的统计计算方式,这可以更进一步地缩短获得目标统计数据的时间,从而更进一步地提高获取目标统计数据的速率。
本发明实施例提供的互联网统计数据获取系统能够实现图1A所示的互联网统计数据获取方法实现的各个过程,并且能取得同样的技术效果,为避免重复,这里不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,本申请中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种互联网统计数据获取方法,其特征在于,应用于互联网统计数据获取系统,所述系统包括:客户端、数据存储中心和数据统计单元,所述数据存储中心存储有互联网数据,所述方法包括:
所述客户端向所述数据存储中心发送获取目标统计数据的请求,所述请求中携带有查询待统计互联网数据的关键字;
所述数据存储中心根据所述关键字查询获得所述待统计互联网数据,并将所述待统计互联网数据推送至所述数据统计单元的处理队列中;
所述数据统计单元基于所述待统计互联网数据进入所述处理队列的顺序,对所述处理队列中的所述待统计互联网数据进行统计,获得所述目标统计数据,并将所述目标统计数据反馈给所述客户端。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用第一预设方式在所述客户端中展示获取所述目标统计数据的进度。
3.根据权利要求2所述的方法,其特征在于,所述采用第一预设方式在所述客户端中展示获取所述目标统计数据的进度,包括:
所述客户端采用第二预设方式查询所述数据统计单元统计获得所述目标统计数据的进度;
采用第一预设方式在所述客户端中展示所述进度。
4.根据权利要求2或3所述的方法,其特征在于,
所述第一预设方式包括:进度条和/或进度百分数。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述客户端根据所述目标统计数据绘制图形和/或报表。
6.根据权利要求1所述的方法,其特征在于,
所述将所述待统计互联网数据推送至所述数据统计单元的处理队列中,包括:将所述待统计互联网数据推送至所述数据统计单元中的多个处理队列中,且不同存储队列中存储的数据不同;则,
所述基于所述待统计互联网数据进入所述处理队列的顺序,对所述处理队列中的所述待统计互联网数据进行统计,获得所述目标统计数据,包括:基于所述待统计互联网数据进入所述多个处理队列的顺序,对所述多个处理队列中的所述待统计互联网数据分别进行统计,得到对应的统计子结果;将各所述统计子结果进行汇总得到所述目标统计数据。
7.根据权利要求6所述的方法,其特征在于,所述基于所述待统计互联网数据进入所述多个处理队列的顺序,对所述多个处理队列中的所述待统计互联网数据分别进行统计,得到对应的统计子结果,包括:
基于所述待统计互联网数据进入所述多个处理队列的顺序,从所述多个处理队列中分别按序读取第一预设数量的待统计互联网数据进行统计,获得对应的基准统计结果;
对所述多个处理队列中的剩余待统计互联网数据分别循环执行指定步骤,直到所述多个处理队列中的剩余待统计互联网数据被处理完,获得对应的统计子结果;
其中,所述指定步骤包括:从处理队列的剩余待统计互联网数据中按序读取第二预设数量的数据进行统计,获得当前统计结果;将所述当前统计结果与对应的基准统计结果进行迭代获得迭代统计结果,并将对应的所述基准统计结果更新为所述迭代统计结果。
8.根据权利要求7所述的方法,其特征在于,所述从处理队列中按序读取第二预设数量的数据进行统计,获得当前统计结果,包括:
从处理队列中按序读取第二预设数量的数据;
将读取出的第二预设数量的数据分配至第三预设数量的处理设备中分别进行统计;
对所述第三预设数量的处理设备获得的统计结果进行汇总,获得当前统计结果。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述数据存储中心从预设的访问站点爬取互联网数据。
10.一种互联网统计数据获取系统,其特征在于,所述系统包括:客户端、数据存储中心和数据统计单元,所述数据存储中心存储有互联网数据,其中:
所述客户端,用于向所述数据存储中心发送获取目标统计数据的请求,并接收所述数据统计单元返回的所述目标统计数据;其中,所述请求中携带有查询待统计互联网数据的关键字;
所述数据存储中心,用于根据所述关键字查询获得所述待统计互联网数据,并将所述待统计互联网数据推送至所述数据统计单元的处理队列中;
所述数据统计单元,用于基于所述待统计互联网数据进入所述处理队列的顺序,对所述处理队列中的所述待统计互联网进行统计,获得所述目标统计数据,并将所述目标统计数据反馈给所述客户端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711404437.1A CN108200129A (zh) | 2017-12-22 | 2017-12-22 | 一种互联网统计数据获取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711404437.1A CN108200129A (zh) | 2017-12-22 | 2017-12-22 | 一种互联网统计数据获取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108200129A true CN108200129A (zh) | 2018-06-22 |
Family
ID=62583230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711404437.1A Pending CN108200129A (zh) | 2017-12-22 | 2017-12-22 | 一种互联网统计数据获取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108200129A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325798A (zh) * | 2018-08-22 | 2019-02-12 | 深圳市佰仟金融服务有限公司 | 一种电销数据统计的方法以及一种电销平台 |
CN109658251A (zh) * | 2018-09-28 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 备付金率查询方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1395171A (zh) * | 2001-07-06 | 2003-02-05 | 华为技术有限公司 | 一种计算机软件程序的代码统计工具及其实现方法 |
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析系统及方法 |
CN106649670A (zh) * | 2016-12-14 | 2017-05-10 | 北京五八信息技术有限公司 | 基于流式计算的数据监控方法及装置 |
CN106708965A (zh) * | 2016-12-01 | 2017-05-24 | 北京奇虎科技有限公司 | 一种数据的处理方法和装置 |
CN107087001A (zh) * | 2017-05-15 | 2017-08-22 | 华中科技大学 | 一种分布式的互联网重要地址空间检索系统 |
-
2017
- 2017-12-22 CN CN201711404437.1A patent/CN108200129A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1395171A (zh) * | 2001-07-06 | 2003-02-05 | 华为技术有限公司 | 一种计算机软件程序的代码统计工具及其实现方法 |
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析系统及方法 |
CN106708965A (zh) * | 2016-12-01 | 2017-05-24 | 北京奇虎科技有限公司 | 一种数据的处理方法和装置 |
CN106649670A (zh) * | 2016-12-14 | 2017-05-10 | 北京五八信息技术有限公司 | 基于流式计算的数据监控方法及装置 |
CN107087001A (zh) * | 2017-05-15 | 2017-08-22 | 华中科技大学 | 一种分布式的互联网重要地址空间检索系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325798A (zh) * | 2018-08-22 | 2019-02-12 | 深圳市佰仟金融服务有限公司 | 一种电销数据统计的方法以及一种电销平台 |
CN109658251A (zh) * | 2018-09-28 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 备付金率查询方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7844663B2 (en) | Methods, systems, and computer program products for gathering information and statistics from a community of nodes in a network | |
CN106664322A (zh) | 事件流变换 | |
US9699042B2 (en) | Systems and methods of classifying sessions | |
EP2684172A2 (en) | Sending product information based on determined preference values | |
CN110109901B (zh) | 筛选目标对象的方法和装置 | |
CN108259638A (zh) | 个人群组列表智能排序方法、智能终端及存储介质 | |
WO2014107441A2 (en) | Social media impact assessment | |
CN108073625A (zh) | 用于元数据信息管理的系统及方法 | |
EP2715640A2 (en) | Method and system for displaying related product information | |
CN107306355A (zh) | 一种内容推荐方法及服务器 | |
CN103164434A (zh) | 实时数据的获取方法、装置及系统 | |
CN112053176B (zh) | 一种信息投放数据的分析方法、装置、设备及存储介质 | |
CN108762907A (zh) | 基于多个客户端的任务处理方法及系统 | |
CN107180050A (zh) | 一种数据抓取系统及方法 | |
CN102982112A (zh) | 排行榜生成方法、日志生成方法和服务器 | |
CN104462303A (zh) | 一种数据处理方法和装置 | |
CN108268357A (zh) | 实时数据处理方法和装置 | |
CN110096521A (zh) | 日志信息处理方法及装置 | |
CN105574032A (zh) | 规则匹配运算方法及装置 | |
CN103605736B (zh) | 转化数据的处理方法及装置 | |
CN108200129A (zh) | 一种互联网统计数据获取方法及系统 | |
CN107481039A (zh) | 一种事件处理方法及终端设备 | |
CN107092650B (zh) | 一种网络日志分析方法及装置 | |
CN107145508A (zh) | 网站数据处理方法、装置及系统 | |
CN107256498A (zh) | 业务对象发送方法、装置、设备及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180622 |
|
RJ01 | Rejection of invention patent application after publication |