CN108108488A - 基于流式计算的数据统计分析方法及系统、计算机程序 - Google Patents

基于流式计算的数据统计分析方法及系统、计算机程序 Download PDF

Info

Publication number
CN108108488A
CN108108488A CN201810028931.0A CN201810028931A CN108108488A CN 108108488 A CN108108488 A CN 108108488A CN 201810028931 A CN201810028931 A CN 201810028931A CN 108108488 A CN108108488 A CN 108108488A
Authority
CN
China
Prior art keywords
data
result
carried out
streaming computing
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810028931.0A
Other languages
English (en)
Inventor
喻银根
朱秀松
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Translation Language Through Polytron Technologies Inc
Original Assignee
Chinese Translation Language Through Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Translation Language Through Polytron Technologies Inc filed Critical Chinese Translation Language Through Polytron Technologies Inc
Priority to CN201810028931.0A priority Critical patent/CN108108488A/zh
Publication of CN108108488A publication Critical patent/CN108108488A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据分析技术领域,公开了一种基于流式计算的数据统计分析方法及系统、计算机程序,通过指定的条件进行数据的筛选;将数据通过不同规则,不同的时间纬度进行聚合、计算、统计;将统计结果进行分类存储;在接收到一批数据以后,将数据放到流式任务中;首先对数据进行分类操作,按照数据的各种分类进行分组,将同样的分类的数据进行简单的计算并进行保存,然后,根据保存的结果进行聚合获得想要的新闻分析的结果;当一条数据被接收到之后,数据将被进行分类等等。本发明在计算结束后才能看到分析结果,效率、速度、灵活性都较差,但是新版的分析会使分析结果的速度逐步出现,效率更高,灵活性更高。

Description

基于流式计算的数据统计分析方法及系统、计算机程序
技术领域
本发明属于数据分析技术领域,尤其涉及一种基于流式计算的数据统计分析方法及系统、计算机程序。
背景技术
目前,业内常用的现有技术是这样的:
大数据计算主要有批量计算和流式计算两种形态,在传统的数据处理流程中,总是先收集数据,然后将数据放到DB中。当人们需要的时候通过DB对数据做query,得到答案或进行相关的处理。这样看起来虽然非常合理,但是结果却非常的紧凑和,尤其是在一些实时搜索应用环境中的某些具体问题,类似于MapReduce方式的离线处理并不能很好地解决问题。这就引出了一种新的数据计算结构---流计算方式。它可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析,捕捉到可能有用的信息,并把结果发送到下一计算节点。
综上所述,现有技术存在的问题是:
(1)现有技术最主要的是,常规的统计计算只能按照一个维度进行计算,并且在计算结束后才能看到分析结果,效率、速度、灵活性都较差。而通过流式计算后的数据可以在计算中就看到部分分析结果,而且可以将分析结果再次聚合生成不同方向的分析数据。
解决上述技术问题的难度和意义:
本发明的数据统计分析是通过指定的条件进行数据的筛选,将数据通过不同规则,不同的时间纬度进行聚合、计算、统计,将统计结果进行分类存储,目前常规的统计计算只能按照一个维度进行计算,并且在计算结束后才能看到分析结果,效率、速度、灵活性都较差,但是本发明的分析会使分析结果的速度逐步出现,效率更高,灵活性更高。
发明内容
针对现有技术存在的问题,本发明提供了一种基于流式计算的数据统计分析方法及系统、计算机程序。本发明通过流式计算后的数据可以在计算中就看到部分分析结果,而且可以将分析结果再次聚合生成不同方向的分析数据。当每条数据进入到系统后,都可以进入统计任务流中,使得结果可能更加快速,更加高效的展现出来。
本发明是这样实现的,一种基于流式计算的数据统计分析方法,所述基于流式计算的数据统计分析方法为:
通过爬虫进行数据的获取;
通过数据的属性、特性、分类属性、不同的时间纬度进行聚合、计算、统计;
将统计结果进行分类存储。
进一步,所述基于流式计算的数据统计分析方法具体包括:
将接收的数据放到流式任务中;首先进行数据分类,将同样的分类的数据进行计算并保存,然后,根据保存的结果进行聚合获得分析结果;
数据分类包括把具有某种共同属性或特征的数据归并在一起,进行区别;
数据分类中,遵循约定的分类原则,按照数据的内涵、性质及管理的要求,将所有数据按一定的结构体系分为不同的集合,使每个数据在相应的分类体系中都有一个对应位置。
进一步,所述不同的时间纬度包括:字符型定性维度和数值型定量维度;
所述通过数据的属性、特性、分类属性、不同的时间纬度进行聚合、计算、统计;具体包括:
对定量维度做数值型数据离散化,并根据时间进行最细的流水统计;接着,把流水数据进行持久化保存;
当需要对保存的数据中其中的一个维度进行分析时,对持久化数据的结果进行单维度的聚合,获得到计算分析的结果。
本发明的另一目的在于提供一种实现所述基于流式计算的数据统计分析方法的计算机程序。
本发明的另一目的在于提供一种实现所述基于流式计算的数据统计分析方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于流式计算的数据统计分析方法。
本发明的另一目的在于提供一种基于流式计算的数据统计分析系统,包括:
接收数据模块:用于接收数据供应提供的数据;
数据分类模块:用于将数据根据各种分类进行处理;
数据计算模块:用于根据数据的分类将数据进行分类分纬度计算;
数据保存模块:将计算结果进行保存;
二次聚合模块:通过保存结果的不同纬度分类,进行二次聚合,并获得需要的结果。
本发明另一目的在于提供一种搭载有所述基于流式计算的数据统计分析系统的信息数据处理终端。
综上所述,本发明的优点及积极效果为:
本发明的数据统计分析是通过爬虫获取数据,将数据通过数据的属性、特性、分类属性、不同的时间纬度进行聚合、计算、统计。将相同属性特性的数据进行计算,计算出同样属性特性及时间的数据的数量,如:在2017年1月1日有100条正面中国的数据,在同一天有100条负面美国的数据,将统计结果进行分类存储,如:根据不同计算方式进行结果的保存,分为属性表,特性表,分类属性表等,目前常规的统计计算只能按照一个维度进行计算,并且在计算结束后才能看到分析结果,效率、速度、灵活性都较差,但是新版的分析会使分析结果的速度逐步出现,效率更高,灵活性更高。并且在增量的更新上,新版分析会在数据爬取到的同时进入流式计算的流程中,能更加实时的展示数据的分析结果。
本发明对现有基于对大数据分析法整体框架体系进行了改进。提供了一种更直观,更便捷的表现数据的工具。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。而基于流式计算的数据分析就充分体现了这一价值,比起传统的分析法,为数据的可视化展现提供更高效、更优质、更多样性的分析数据结果,在速度、灵活性上都有很大的提高。
本发明可以广泛的应用到科学计算,信息分析领域的高效数据统计分析方法。
附图说明
图1是本发明实施例提供的基于流式计算的数据统计分析方法流程图。
图2是本发明实施例提供的基于流式计算的数据统计分析系统示意图。
图中:1、接收数据模块;2、数据分类模块;3、数据计算模块;4、数据保存模块;5、二次聚合模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明通过流式计算后的数据可以在计算中就看到部分分析结果,而且可以将分析结果再次聚合生成不同方向的分析数据。
如图1所示,本发明实施例提供的基于流式计算的数据统计分析方法,有几个步骤:接收数据、数据分类、数据计算、数据保存、二次聚合。
接收数据:接收数据供应提供的数据;
数据分类:将数据根据各种分类进行处理;
数据计算:根据数据的分类将数据进行分类分纬度计算。
数据保存:将计算结果进行保存;
二次聚合:通过保存结果的不同纬度分类,进行二次聚合,并获得想要的结果。
如图2所示,本发明实施例提供的基于流式计算的数据统计分析系统,包括:
接收数据模块1:接收数据供应提供的数据
数据分类模块2:将数据根据各种分类进行处理
数据计算模块3:根据数据的分类将数据进行分类分纬度计算。
数据保存模块4:将计算结果进行保存
二次聚合模块5:通过保存结果的不同纬度分类,进行二次聚合,并获得想要的结果。
下面结合具体分析对本发明作进一步描述。
本发明实施例提供的基于流式计算的数据统计分析方法中,在接收到一批数据以后,将数据放到流式任务中。首先会对数据进行分类操作,按照数据的各种分类进行分组,将同样的分类的数据进行简单的计算并进行保存,根据保存的结果进行聚合获得想要的新闻分析的结果。
当一条数据被接收到之后,数据将被进行分类,数据分类就是把具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别。为了实现数据共享和提高处理效率,必须遵循约定的分类原则和方法,按照信息的内涵、性质及管理的要求,将系统内所有信息按一定的结构体系分为不同的集合,从而使得每个信息在相应的分类体系中都有一个对应位置。
维度可以分为定性维度跟定量维度,也就是根据数据类型来划分,数据类型为字符型(文本型)数据,就是定性维度,如地区、性别都是定性维度;数据类型为数值型数据的,就为定量维度,如收入、年龄、消费等,一般对定量维度需要做数值分组处理,也就是数值型数据离散化,这样做的目的是为了使规律更加明显,因为分组越细,规律就越不明显,最后细到成最原始的流水数据,那就无规律可循。而我们的计算则要根据时间进行最细的流水统计。
然后,需要把流水数据进行持久化保存。
当需要对保存的数据中其中的一个维度进行分析时,可以对持久化数据的结果进行单维度的聚合,就可以更快速获得到计算分析的结果。
该系统采用了本公司自主研发的数据分类算法,分类标准为国标分类,通过人工标注语料进行机器学习,训练算法的分类模型。带来了更加准确的数据分类。
下面结合具体应用对本发明作进一步描述。
本发明实施例提供的基于流式计算的数据统计系统的优势在于流式计算及统计思路,普通的数据统计只能在计算结束以后才可以获得数据结果,而通过流式计算则只需要在第一条数据保存以后就可以获得部分结果。当同时进行多个分析时,普通的分析方法只能一个一个进行分析,而本发明的系统只需要进行一次流式计算,然后通过计算结果不同方向的聚合获得到不同结果,在速度、质量、灵活性上都有不同程度的提高。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于流式计算的数据统计分析方法,其特征在于,所述基于流式计算的数据统计分析方法为:
通过爬虫进行数据的获取;
通过数据的属性、特性、分类属性、不同的时间纬度进行将同样属性的数据进行加法统计,将数据时间格式化后进行时间的数据统计,将同分类进行统计计算,或者将多种属性当做唯一值进行统计,如:将新闻类,2018年1月1日中国数据进行数据量统计,美国数据进行数据量统计;
将统计结果进行分类存储。
2.如权利要求1所述的基于流式计算的数据统计分析方法,其特征在于,所述基于流式计算的数据统计分析方法具体包括:
将接收的数据放到流式任务中;首先进行数据分类,将同样的分类的数据进行计算并保存,然后,根据保存的结果进行聚合获得分析结果;
数据分类包括把具有某种共同属性或特征的数据归并在一起,进行区别;
数据分类中,遵循约定的分类原则,按照数据的内涵、性质及管理的要求,将所有数据按一定的结构体系分为不同的集合,使每个数据在相应的分类体系中都有一个对应位置。
3.如权利要求1所述的基于流式计算的数据统计分析方法,其特征在于,所述不同的时间纬度包括:字符型定性维度和数值型定量维度;
所述通过数据的属性、特性、分类属性、不同的时间纬度进行聚合、计算、统计;具体包括:
对定量维度做数值型数据离散化,并根据时间进行最细的流水统计;接着,把流水数据进行持久化保存;
当需要对保存的数据中其中的一个字符型定性维度进行分析时,对持久化数据的结果进行单维度的聚合,获得到计算分析的结果;保存结果为时间、国家、分类统计,而我们需要对国家数据量进行分析时,就只需要根据国家数据量进行数据聚合,就可以得到我们需要的数据。
4.一种实现权利要求1~3任意一项所述基于流式计算的数据统计分析方法的计算机程序。
5.一种实现权利要求1~3任意一项所述基于流式计算的数据统计分析方法的信息数据处理终端。
6.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-3任意一项所述的基于流式计算的数据统计分析方法。
7.一种如权利要求1所述基于流式计算的数据统计分析方法的基于流式计算的数据统计分析系统,其特征在于,所述基于流式计算的数据统计分析系统包括:
接收数据模块:用于接收数据供应提供的数据;
数据分类模块:用于将数据根据各种分类进行处理;
数据计算模块:用于根据数据的分类将数据进行分类分纬度计算;
数据保存模块:将计算结果进行保存;
二次聚合模块:通过保存结果的不同纬度分类,进行二次聚合,并获得需要的结果。
8.一种搭载有权利要求7所述基于流式计算的数据统计分析系统的信息数据处理终端。
CN201810028931.0A 2018-01-12 2018-01-12 基于流式计算的数据统计分析方法及系统、计算机程序 Pending CN108108488A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810028931.0A CN108108488A (zh) 2018-01-12 2018-01-12 基于流式计算的数据统计分析方法及系统、计算机程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810028931.0A CN108108488A (zh) 2018-01-12 2018-01-12 基于流式计算的数据统计分析方法及系统、计算机程序

Publications (1)

Publication Number Publication Date
CN108108488A true CN108108488A (zh) 2018-06-01

Family

ID=62219918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810028931.0A Pending CN108108488A (zh) 2018-01-12 2018-01-12 基于流式计算的数据统计分析方法及系统、计算机程序

Country Status (1)

Country Link
CN (1) CN108108488A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096311A (zh) * 2019-03-18 2019-08-06 北京三快在线科技有限公司 流式计算中聚合时间的评估方法、装置、设备及存储介质
CN111178747A (zh) * 2019-12-26 2020-05-19 金蝶征信有限公司 企业画像生成方法、装置、计算机设备和存储介质
CN111581296A (zh) * 2020-04-02 2020-08-25 深圳壹账通智能科技有限公司 数据相关性分析方法、装置、计算机系统及可读存储介质
CN113641693A (zh) * 2021-08-20 2021-11-12 北京百度网讯科技有限公司 流式计算系统的数据处理方法及装置、电子设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1540504A (zh) * 2003-04-26 2004-10-27 徐砚星 流式分类统计方法
WO2007106711A2 (en) * 2006-03-10 2007-09-20 Chroma Energy, Inc. Method and system for trace aligned and trace non-aligned pattern statistical calculation in seismic analysis
CN104268260A (zh) * 2014-10-10 2015-01-07 中国科学院重庆绿色智能技术研究院 一种流数据的分类方法及其装置和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1540504A (zh) * 2003-04-26 2004-10-27 徐砚星 流式分类统计方法
WO2007106711A2 (en) * 2006-03-10 2007-09-20 Chroma Energy, Inc. Method and system for trace aligned and trace non-aligned pattern statistical calculation in seismic analysis
CN104268260A (zh) * 2014-10-10 2015-01-07 中国科学院重庆绿色智能技术研究院 一种流数据的分类方法及其装置和系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096311A (zh) * 2019-03-18 2019-08-06 北京三快在线科技有限公司 流式计算中聚合时间的评估方法、装置、设备及存储介质
CN110096311B (zh) * 2019-03-18 2021-05-25 北京三快在线科技有限公司 流式计算中聚合时间的评估方法、装置、设备及存储介质
CN111178747A (zh) * 2019-12-26 2020-05-19 金蝶征信有限公司 企业画像生成方法、装置、计算机设备和存储介质
CN111581296A (zh) * 2020-04-02 2020-08-25 深圳壹账通智能科技有限公司 数据相关性分析方法、装置、计算机系统及可读存储介质
CN111581296B (zh) * 2020-04-02 2022-08-16 深圳壹账通智能科技有限公司 数据相关性分析方法、装置、计算机系统及可读存储介质
CN113641693A (zh) * 2021-08-20 2021-11-12 北京百度网讯科技有限公司 流式计算系统的数据处理方法及装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN108108488A (zh) 基于流式计算的数据统计分析方法及系统、计算机程序
TWI653542B (zh) 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置
WO2019153735A1 (zh) 数据处理方法、装置和系统
US9152691B2 (en) System and method for performing set operations with defined sketch accuracy distribution
CN104077407B (zh) 一种智能数据搜索系统及方法
EP4020315A1 (en) Method, apparatus and system for determining label
US8868599B2 (en) Computing correlated aggregates over a data stream
US11841839B1 (en) Preprocessing and imputing method for structural data
WO2022247955A1 (zh) 非正常账号识别方法、装置、设备和存储介质
CN110365503A (zh) 一种指标确定方法及其相关设备
CN104657466B (zh) 一种基于论坛帖子特征的用户兴趣识别方法及装置
CN111740884A (zh) 一种日志处理方法及电子设备、服务器、存储介质
CN110262919A (zh) 异常数据分析方法、装置、设备与计算机可读存储介质
CN106874943A (zh) 业务对象分类方法和系统
CN114090601B (zh) 一种数据筛选方法、装置、设备以及存储介质
CN112541635A (zh) 业务数据统计预测方法、装置、计算机设备及存储介质
CN116244612B (zh) 一种基于自学习参数度量的http流量聚类方法及装置
CN106649050A (zh) 时序系统多参数运行态势图形表示方法
CN113868509A (zh) 基于云计算的科技政策数据信息咨询服务系统
CN110378543A (zh) 离职风险预测方法、装置、计算机设备和存储介质
CN105447117B (zh) 一种用户聚类的方法和装置
Sundareswaran Egomotion from global flow field data
CN109101631A (zh) 数据建模方法及装置
CN112100177A (zh) 数据存储方法、装置、计算机设备及存储介质
CN113918577B (zh) 数据表识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180601