CN108268645A - 大数据处理方法与系统 - Google Patents
大数据处理方法与系统 Download PDFInfo
- Publication number
- CN108268645A CN108268645A CN201810063235.3A CN201810063235A CN108268645A CN 108268645 A CN108268645 A CN 108268645A CN 201810063235 A CN201810063235 A CN 201810063235A CN 108268645 A CN108268645 A CN 108268645A
- Authority
- CN
- China
- Prior art keywords
- data
- standard
- processing method
- excavated
- big
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种大数据处理方法与系统。大数据处理方法通过对获取到的标准原始数据进行分布式存储,得到待挖掘数据;标准化数据预处理待挖掘数据,得到标准挖掘数据,并基于预设分析模型进行处理,获得可视化成品数据;运用分布式存储、标准化数据预处理以及分析模型,以较低的硬件成本,对数据进行精炼、存储,提高大数据挖掘的效率与质量采用分析模型从多个角度对数据进行挖掘,得到相应的可视化成品数据;实现了高效可靠的大数据存储、处理与分析,弱化了数据库性能对海量数据统计计算与展示的影响。
Description
技术领域
本发明涉及招聘信息处理技术领域,特别是涉及一种大数据处理方法与系统。
背景技术
随着信息时代的发展,全球数据总量爆炸式增长;在招聘信息领域,每天都产生大量的招聘数据,具体可包括招聘网页浏览量、招聘岗位点击量、岗位投递热度、学历分布、薪酬要求、行业需求等等;对这些海量的数据进行截取、管理、统计以及处理等操作后,可得到多维度的招聘信息;通过数据展示平台,能以可视化的模式,将该招聘信息进行展示。
但在实现过程中,发明人发现传统技术中至少存在如下问题:传统的招聘数据展示平台依靠数据库技术统计数据展示,其性能严重依赖数据库服务器硬件性能,面对海量数据时,常常出现处理速度慢的情况,甚至是无法处理海量的数据统计计算。
发明内容
基于此,有必要针对传统的招聘数据展示平台严重依靠数据库技术,无法处理海量的数据统计计算的问题,提供一种大数据处理方法与系统。
为了实现上述目的,一方面,本发明实施例提供了一种大数据处理方法,包括:
对获取到的标准原始数据进行分布式存储,得到待挖掘数据;
对待挖掘数据进行标准化数据预处理,得到标准挖掘数据;
基于预设分析模型处理标准挖掘数据,得到可视化成品数据;预设分析模型为根据业务可视化逻辑和/或数据可视化逻辑建立的模型。
在其中一个实施例中,得到可视化成品数据的步骤之后,还包括步骤:
通过二级缓存系统缓存可视化成品数据。
在其中一个实施例中,通过二级缓存系统缓存可视化成品数据的步骤之后,还包括以下步骤:
根据外部访问端类型,实时设置可视化成品数据的访问权限;
配置可视化成品数据的数据展示格式。
在其中一个实施例中,预设分析模型包括深度学习框架。
在其中一个实施例中,标准化数据预处理包括数据格式标准化,以及以下任意一项或几项的组合:数据筛选、数据排序、数据聚合、数据概化以及去除重复、异常、错误数据。
在其中一个实施例中,对获取到的标准原始数据进行分布式存储的步骤之前,还包括以下步骤:
通过大数据采集平台处理从数据源实时获取到的流数据,得到标准原始数据;
存储标准原始数据至数据池。
在其中一个实施例中,标准化数据预处理待挖掘数据,得到标准挖掘数据的步骤之后,还包括步骤:
远程备份标准挖掘数据至数据仓库。
另一方面,本发明实施例还提供了一种大数据处理系统,包括:
待挖掘数据获取模块,用于对获取到的标准原始数据进行分布式存储,得到待挖掘数据;
标准化数据预处理模块,用于对待挖掘数据进行标准化数据预处理,得到标准挖掘数据;
可视化数据挖掘模块,用于基于预设分析模型,处理标准挖掘数据,得到可视化成品数据;预设分析模型为根据业务可视化逻辑和/或数据可视化逻辑建立的模型。
一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述的大数据处理方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现上述的大数据处理方法的步骤。
上述技术方案中的一个技术方案具有如下优点和有益效果:
对获取到的标准原始数据进行分布式存储,得到待挖掘数据;标准化数据预处理待挖掘数据,得到标准挖掘数据,并基于预设分析模型进行处理,获得可视化成品数据;运用分布式存储、标准化数据预处理对海量数据进行逐步精炼、提取,降低数据的占用空间并提高后续的处理效率;预设分析模型可从多个维度对数据进行信息挖掘,得到相应的可视化成品数据,可反映对应的规律或趋势;本发明实施例以较低的硬件成本,对数据进行精炼、存储,提高大数据挖掘的效率与质量,实现了高效可靠的大数据存储、处理与分析,弱化了数据库性能对海量数据统计计算与展示的影响。
附图说明
图1为一个实施例中大数据处理方法的应用环境图;
图2为一个实施例中大数据处理方法的第一示意性流程图;
图3为一个实施例中大数据处理方法的第二示意性流程图;
图4为一个实施例中大数据处理方法的第三示意性流程图;
图5为一个实施例中大数据处理方法的第四示意性流程图;
图6为一个实施例中大数据处理方法的第五示意性流程图;
图7为一个实施例中大数据处理系统的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
随着信息时代的发展,每天都迸发出海量的数据,比如各种云端数据、门户网站用户的点击行为、页面打开频率、线下pos机(point of sale,销售终端)的实时交易数据等等;对海量数据进行分析、总结,可得出相关业务的规律、趋势以及结论等;因此,大数据的处理与运用成了多种行业的研究热点。
然而,传统的数据库技术在进行统计数据展示时,严重依赖数据库服务器硬件性能;面对海量数据,传统的数据库技术常常出现处理速度慢的情况,因而不得不投入更多的硬件成本,来提升数据库服务器性能;数据量的爆炸式增长使得硬件投入成本非常高。
本申请提供的大数据处理方法,可以应用于如图1所示的应用环境中。其中,各终端102通过网络与服务器104进行通信。服务器104通过分布式存储、标准化数据预处理以及相应分析模型对海量数据进行逐步精简、统一以及分析,最终得到对应的可视化成品数据;终端102可通过从服务器104中获取多种可视化成品数据。其中,终端102可以但不限于是各种个人计算机、网站发布终端、LCD(Liquid Crystal Display,液晶显示器)大数据显示矩阵、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在招聘信息处理技术领域,由于招聘信息涉及了很多方面的信息,比如国家与地方的政策规定、行业发展趋势、技术发展动向、消费热点、岗位需求量、岗位投递热度、毕业生就业意向、学历分布、创业导向等等。这些信息中包含着许多规律与趋势,对这些数据进行整理并挖掘,可得到多个维度的招聘数据;具体的,可包括行业需求、人才分布、招工动向、从业意向、薪资情况等。这些招聘数据对地方政府、公司企业以及个人等,都具有重要的指导意义;但是,传统的招聘数据展示平台严重依靠数据库技术,无法处理海量的数据统计计算的问题,难以从海量数据中挖掘出多维度的招聘信息并进行展示。
为此,有必要针对传统的招聘数据展示平台严重依靠数据库技术,无法处理海量的数据统计计算的问题,提供一种大数据处理方法,参见图2,图2为一个实施例中大数据处理方法的第一示意性流程图,包括:
步骤S210,对获取到的标准原始数据进行分布式存储,得到待挖掘数据;
具体而言,由于传统的数据库在存储海量数据时,需要投入大量的硬件成本;因此,采用分布式存储的方式来对数据进行存储,通过分布式多节点机器对海量数据进行存储,在提高存储量的同时保证较低的硬件投入成本,并且,可避免数据量庞大造成的处理速度慢的问题;
需要说明的是,标准原始数据可为对原始数据进行分类、并根据类别进行统一格式处理后的数据;对原始数据的精炼处理,减少原始数据的占用空间,并提高后续数据处理、分析、挖掘的效率;
分布式存储可将数据分散存储在多台独立的设备上,区别于集中式存储,并不是将数据存储与某个或多个特点的节点;
待挖掘数据可为能够挖掘出相关信息规律、趋势的数据;通过相关的业务逻辑、数据逻辑或者算法,可以从中挖掘出相应的信息;
步骤S220,对待挖掘数据进行标准化数据预处理,得到标准挖掘数据;
具体而言,待挖掘数据进行标准化数据预处理后,可得到标准挖掘数据;
需要说明的是,标准化数据预处理可在数据挖掘之前对数据做进一步的精炼处理,清洗去重,集成变换,以便提高后续数据挖掘的效率和质量;
标准挖掘数据可为经过标准化数据预处理后,剔除了脏数据的数据。
步骤S230,基于预设分析模型处理标准挖掘数据,得到可视化成品数据;预设分析模型为根据业务可视化逻辑和/或数据可视化逻辑建立的模型。
具体而言,根据实际需求,采用预设分析模型对标准挖掘数据进行挖掘,可得到对应的可视化成品数据;
需要说明的是,预设分析模型可根据实际需求,选用对应的业务逻辑和/或数据逻辑,通过适当的算法建立的模型;可用于对数据进行测试、分析等,降低人工参与度,避免数据统计展示结果片面化。
可视化成品数据可通过数据展示平台进行展示,能够反映出相关业务或数据的规律、趋势等。
本发明实施例对获取到的标准原始数据进行分布式存储,得到待挖掘数据;标准化数据预处理待挖掘数据,得到标准挖掘数据,并基于预设分析模型进行处理,获得可视化成品数据;运用分布式存储、标准化数据预处理对海量数据进行逐步精炼、提取,降低数据的占用空间并提高后续的处理效率;预设分析模型可从多个维度对数据进行信息挖掘,得到相应的可视化成品数据,可反映对应的规律或趋势;本发明实施例以较低的硬件成本,实现了高效可靠的大数据存储、处理与分析,弱化了数据库性能对海量数据统计计算与展示的影响。
可选的,本发明实施例可应用于招聘信息处理技术领域;门户网站实时发布新闻热点、政策规定、行业发展趋势、技术发展动向等信息,企业、招聘网站发布企业信息、岗位信息等,从这些发布的信息中,可获得网站运行信息;而用户点击、浏览网站等行为,会生成用户行为数据;上述数据实时产生,数量巨大,且其中包含有许多与招聘相关的信息,因此,对这些数据进行多维度挖掘,可得到大量具有参考意义的招聘信息;传统数据库技术依赖于服务器硬件性能,在面对庞大的数据时,常会出现处理速度慢的问题;利用本发明实施例的方法,可采用分布式存储手段来存储网站运行信息、用户行为信息等,弱化数据库性能对数据统计展示的影响;采用标准化数据预处理,可对数据进行精炼处理,提高数据处理、分析、挖掘效率,避免处理速度慢的问题;采用分析模型对数据进行挖掘,可根据需要,从多个角度分别挖掘招聘信息(例如岗位热度、学位分布、薪酬待遇等),最终可得到多维度的、可用于展示的成品数据,能够在招聘会、网络节点、智能终端、显示矩阵等端口进行展示;
需要说明的是,除了招聘信息处理技术领域,本发明实施例还可应用于其他技术领域,如电信、交通、医疗、金融以及社交媒体等。
进一步的,由于数据库一旦发生问题,整个数据展示平台将无法使用,因此,在一个实施例中,如图3所示,图3为一个实施例中大数据处理方法的第二示意性流程图,得到可视化成品数据的步骤之后,还包括步骤:
步骤S340,通过二级缓存系统缓存可视化成品数据。
具体而言,采用二级缓存系统对可视化成品数据进行缓存;缓存的引入可很好地应对数据访问量激增时带来的压力;
可选的,可采用J2Cache二级缓存框架;
需要说明的是,二级缓存可解决系统重启造成数据丢失的问题,从而能够应对大量的访问,减轻服务器压力,减少数据库直接访问,提升系统响应;进而使得数据库处理能力不再是整个系统瓶颈;
由于在春招、秋招、专场招聘会等招聘高峰时段,数据访问量会激增,传统数据库技术很可能出现服务器崩溃重启的情况,采用二级缓存技术,可减轻服务器压力,减少数据库直接访问,避免系统重启造成数据丢失的问题。
在一个实施例中,参见图3,通过二级缓存系统缓存可视化成品数据的步骤之后,还包括以下步骤:
步骤S350,根据外部访问端类型,实时设置可视化成品数据的访问权限;
具体而言,可管理可视化成品数据的访问权限,实时关闭或开放可视化成品数据的访问;可选的,可根据外部访问端的类型、合法性、访问时间等来设置访问权限;
需要说明的是,管理可视化成品数据可防止不合法的访问、提高安全性,同时,也便于维护;可选的,可配置招聘网站、招聘终端的访问权限。
步骤S360,配置可视化成品数据的数据展示格式。
具体而言,可对外多端提供访问接口,以多种数据展示格式进行展示;
可选的,能够提供api接口(Application Programming Interface,应用程序编程接口)的数据访问,以json,xml,Protobuf等数据格式提供数据展示结果;具体的,可采用WebService服务器;
需要说明的是,通过配置可视化成品数据的数据展示格式,可用于网站发布、api接口访问、LCD大数据显示矩阵展示以及多端发布;可选的,根据招聘需求,配置不同的数据展示格式,能够应用于招聘会现场、招聘网站等。
在一个实施例中,预设分析模型包括深度学习框架。
具体而言,预设分析模型还可包括深度学习框架,用于辅助进行训练建模;
可选的,可采用Tensorflow on Spark框架进行训练建模。
在一个实施例中,标准化数据预处理包括数据格式标准化,以及以下任意一项或几项的组合:数据筛选、数据排序、数据聚合、数据概化以及去除重复、异常、错误数据。
具体而言,标准化数据预处理需要将待挖掘数据的格式进行标准化处理,以便分析模型对数据进行挖掘;而数据筛选、数据排序、数据聚合、数据概化以及去除重复、异常、错误数据能够去除待挖掘数据中的脏数据,进一步提高数据分析、挖掘效率和质量;
需要说明的是,数据筛选可根据设定的条件来获取相关数据,对海量数据进行精炼;
数据排序可根据分析要求来设置,以便提高数据处理效率;
数据聚合可合并来自不同数据源的数据;
数据概化可将任务相关的大数据集从较低的概念层抽象到较高概念层,方便后续数据挖掘;
去除重复、异常、错误数据能够剔除数据中的脏数据,精炼数据,提高挖掘效率;
进一步的,还包括数据审核,对数据的准确性、适用性、及时性、一致性进行审核。
在一个实施例中,如图4所示,图4为一个实施例中大数据处理方法的第三示意性流程图,对获取到的标准原始数据进行分布式存储的步骤之前,还包括以下步骤:
步骤S402,通过大数据采集平台处理从数据源实时获取到的流数据,得到标准原始数据;
具体而言,可采用大数据采集平台实时处理从各数据源采集的不同种类和格式的流数据,生成统一格式的数据;
需要说明的是,可对接各种数据源、非结构化数据以及结构化数据;
数据源可以来自数据仓库、各种云端数据、门户网站用户的点击行为、页面打开频率、线下pos机的实时交易数据等,可包括用户行为数据和网站运行数据;
可选的,可涉及国家与地方的政策规定、行业发展趋势、技术发展动向、消费热点、岗位需求量、岗位投递热度、毕业生就业意向、学历分布、创业导向等;
具体的,可通过大数据采集平台(比如Apache Flume、Fluentd等),实时源源不断的采集来自各种数据源的海量数据。
步骤S404,存储标准原始数据至数据池。
具体而言,可将采集、处理获得的数据存储至数据池中;
需要说明的是,数据池可集中处理,直接将一系列的结构化的数据或者非结构化的数据存储在数据池中,将部分数据开放给具有一定开发能力企业,政府,改变以往平台数据闭合困境,聚集行业及地区,形成数据共享交流生态。
在一个实施例中,参见图5,图5为一个实施例中大数据处理方法的第四示意性流程图,标准化数据预处理待挖掘数据,得到标准挖掘数据的步骤之后,还包括步骤:
步骤S570,远程备份标准挖掘数据至数据仓库。
具体而言,使用远程备份的方式,将数据备份在远程服务期的数据仓库中,避免数据丢失、入侵系统、恶意删除数据的风险。
需要说明的是,数据备份行为靠近数据应用产品阶段,恢复的数据既可使用,还能继续进行挖掘,且不危及数据结果呈现。
在一个实施例中,如图6所示,图6为一个实施例中大数据处理方法的第五示意性流程图,通过大数据采集平台对多个网站进行数据实时采集交换,并将处理得到的标准原始数据存入数据池中,可向具有开发能力的第三方开放;采用防火墙检测所有封包,对不符合规则的访问进行隔绝,保护数据不受破坏;透过防火墙定时将数据传输到Hadoop大数据平台进行分布式存储,再通过一系列的数据预处理、清洗去重、集成转换等,使其形成适用于数据挖掘的形式(属于上述标准挖掘数据);备份该数据,并根据业务逻辑与数据逻辑选择适应的算法建立模型,对数据进行测试、分析、挖掘;其中,建模手段可以采用传统的人工建模,也可引人深度学习框架辅助进行训练建模;采用二级缓存系统对可视化成品数据进行缓存,解决系统重启造成数据丢失的问题;通过控制管理模块对数据访问权限进行管理,可以实时关闭或开放数据访问;基于WebService服务器对外多端提供api接口的数据访问,以json,xml,Protobuf等数据格式提供数据展示结果。
上述大数据处理方法实施例对获取到的标准原始数据进行分布式存储,得到待挖掘数据;标准化数据预处理待挖掘数据,得到标准挖掘数据,并基于预设分析模型进行处理,获得可视化成品数据;运用分布式存储、标准化数据预处理对海量数据进行逐步精炼、提取,降低数据的占用空间并提高后续的处理效率;预设分析模型可从多个维度对数据进行信息挖掘,得到相应的可视化成品数据,可反映对应的规律或趋势;以较低的硬件成本,实现了高效可靠的大数据存储、处理与分析,弱化了数据库性能对海量数据统计计算与展示的影响;
本发明实施例中,采用二级缓存,可应对数据访问量激增时带来的压力;实时配置访问权限,提高安全性,且便于维护;配置多种数据展示格式,可进行多端点数据发布和展示;标准化数据预处理可去除脏数据,提高数据分析、挖掘的效率和质量;通过大数据采集平台,可实现数据采集自动化;通过向第三方平台开放的数据池来存储标准原始数据,可实现数据共享;采用分析模型以及深度学习框架,可实现数据分析自动化;远程备份标准挖掘数据可提高安全性。
应该理解的是,虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,还提供了一种大数据处理系统,参见图7,图7为一个实施例中大数据处理系统的结构框图,包括:
待挖掘数据获取模块710,用于对获取到的标准原始数据进行分布式存储,得到待挖掘数据;
标准化数据预处理模块720,用于对待挖掘数据进行标准化数据预处理,得到标准挖掘数据;
可视化数据挖掘模块730,用于基于预设分析模型,处理标准挖掘数据,得到可视化成品数据;预设分析模型为根据业务可视化逻辑和/或数据可视化逻辑建立的模型。
在一个实施例中,还包括数据缓存模块,用于通过二级缓存系统缓存可视化成品数据。
在一个实施例中,还包括访问权限设置模块,用于根据外部访问端类型,实时设置可视化成品数据的访问权限;数据展示格式配置模块,用于配置可视化成品数据的数据展示格式。
在一个实施例中,预设分析模型包括深度学习框架。
在一个实施例中,标准化数据预处理包括数据格式标准化,以及以下任意一项或几项的组合:数据筛选、数据排序、数据聚合、数据概化以及去除重复、异常、错误数据。
在一个实施例中,还包括数据采集处理模块,用于通过大数据采集平台处理从数据源实时获取到的流数据,得到标准原始数据;数据池存储模块,用于存储标准原始数据至数据池。
在一个实施例中,还包括远程备份模块,用于远程备份标准挖掘数据至数据仓库。
关于大数据处理系统的具体限定可以参见上文中对于大数据处理方法的限定,在此不再赘述。上述大数据处理系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示,图8为一个实施例中计算机设备的内部结构图。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统、计算机程序和数据库的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种大数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述的大数据处理方法的步骤,包括:
对获取到的标准原始数据进行分布式存储,得到待挖掘数据;
对待挖掘数据进行标准化数据预处理,得到标准挖掘数据;
基于预设分析模型处理标准挖掘数据,得到可视化成品数据;预设分析模型为根据业务可视化逻辑和/或数据可视化逻辑建立的模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过二级缓存系统缓存可视化成品数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据外部访问端类型,实时设置可视化成品数据的访问权限;配置可视化成品数据的数据展示格式。
在一个实施例中,处理器执行计算机程序时,预设分析模型包括深度学习框架。
在一个实施例中,处理器执行计算机程序时,标准化数据预处理包括数据格式标准化,以及以下任意一项或几项的组合:数据筛选、数据排序、数据聚合、数据概化以及去除重复、异常、错误数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过大数据采集平台处理从数据源实时获取到的流数据,得到标准原始数据;数据池存储模块,用于存储标准原始数据至数据池。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:远程备份标准挖掘数据至数据仓库。
在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述的大数据处理方法的步骤,包括:
对获取到的标准原始数据进行分布式存储,得到待挖掘数据;
对待挖掘数据进行标准化数据预处理,得到标准挖掘数据;
基于预设分析模型处理标准挖掘数据,得到可视化成品数据;预设分析模型为根据业务可视化逻辑和/或数据可视化逻辑建立的模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过二级缓存系统缓存可视化成品数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据外部访问端类型,实时设置可视化成品数据的访问权限;配置可视化成品数据的数据展示格式。
在一个实施例中,计算机程序被处理器执行时,预设分析模型包括深度学习框架。
在一个实施例中,计算机程序被处理器执行时,标准化数据预处理包括数据格式标准化,以及以下任意一项或几项的组合:数据筛选、数据排序、数据聚合、数据概化以及去除重复、异常、错误数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过大数据采集平台处理从数据源实时获取到的流数据,得到标准原始数据;数据池存储模块,用于存储标准原始数据至数据池。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:远程备份标准挖掘数据至数据仓库。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种大数据处理方法,其特征在于,包括:
对获取到的标准原始数据进行分布式存储,得到待挖掘数据;
对所述待挖掘数据进行标准化数据预处理,得到标准挖掘数据;
基于预设分析模型处理所述标准挖掘数据,得到可视化成品数据;所述预设分析模型为根据业务可视化逻辑和/或数据可视化逻辑建立的模型。
2.根据权利要求1所述的大数据处理方法,其特征在于,得到可视化成品数据的步骤之后,还包括步骤:
通过二级缓存系统缓存所述可视化成品数据。
3.根据权利要求2所述的大数据处理方法,其特征在于,通过二级缓存系统缓存所述可视化成品数据的步骤之后,还包括以下步骤:
根据外部访问端类型,实时设置所述可视化成品数据的访问权限;
配置所述可视化成品数据的数据展示格式。
4.根据权利要求1所述的大数据处理方法,其特征在于,所述预设分析模型包括深度学习框架。
5.根据权利要求1所述的大数据处理方法,其特征在于,
所述标准化数据预处理包括数据格式标准化,以及以下任意一项或几项的组合:数据筛选、数据排序、数据聚合、数据概化以及去除重复、异常、错误数据。
6.根据权利要求1至5任意一项所述的大数据处理方法,其特征在于,对获取到的标准原始数据进行分布式存储的步骤之前,还包括以下步骤:
通过大数据采集平台处理从数据源实时获取到的流数据,得到所述标准原始数据;
存储所述标准原始数据至数据池。
7.根据权利要求6所述的大数据处理方法,其特征在于,标准化数据预处理所述待挖掘数据,得到标准挖掘数据的步骤之后,还包括步骤:
远程备份所述标准挖掘数据至数据仓库。
8.一种大数据处理系统,其特征在于,包括:
待挖掘数据获取模块,用于对获取到的标准原始数据进行分布式存储,得到待挖掘数据;
标准化数据预处理模块,用于对所述待挖掘数据进行标准化数据预处理,得到标准挖掘数据;
可视化数据挖掘模块,用于基于预设分析模型处理所述标准挖掘数据,得到可视化成品数据;所述预设分析模型为根据业务可视化逻辑和/或数据可视化逻辑建立的模型。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的大数据处理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的大数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810063235.3A CN108268645A (zh) | 2018-01-23 | 2018-01-23 | 大数据处理方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810063235.3A CN108268645A (zh) | 2018-01-23 | 2018-01-23 | 大数据处理方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108268645A true CN108268645A (zh) | 2018-07-10 |
Family
ID=62776519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810063235.3A Pending CN108268645A (zh) | 2018-01-23 | 2018-01-23 | 大数据处理方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108268645A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033330A (zh) * | 2018-07-19 | 2018-12-18 | 北京车联天下信息技术有限公司 | 大数据清洗方法、装置和服务器 |
CN109271432A (zh) * | 2018-08-21 | 2019-01-25 | 中国平安人寿保险股份有限公司 | 报表数据的处理方法、装置、计算机设备和存储介质 |
CN109815480A (zh) * | 2018-12-14 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种数据处理方法和装置、及存储介质 |
CN109933693A (zh) * | 2019-03-13 | 2019-06-25 | 重庆尚唯信息技术有限公司 | 一种基于大数据技术的全球智库数据开发与组织方法 |
CN110110001A (zh) * | 2019-05-10 | 2019-08-09 | 八戒科技服务有限公司 | 服务成果数据处理方法、装置、存储介质及系统 |
CN110750563A (zh) * | 2018-07-20 | 2020-02-04 | 北京京东尚科信息技术有限公司 | 多模型数据处理方法、系统、装置、电子设备及存储介质 |
CN112181972A (zh) * | 2020-11-02 | 2021-01-05 | 北京通付盾人工智能技术有限公司 | 基于大数据的数据治理方法、装置和计算机设备 |
CN112487262A (zh) * | 2020-11-25 | 2021-03-12 | 建信金融科技有限责任公司 | 一种数据处理的方法和装置 |
CN112508119A (zh) * | 2020-12-16 | 2021-03-16 | 平安银行股份有限公司 | 特征挖掘组合方法、装置、设备及计算机可读存储介质 |
CN112527640A (zh) * | 2020-12-04 | 2021-03-19 | 山东中创软件商用中间件股份有限公司 | 缺陷数据可视化处理方法、系统、装置及可读存储介质 |
CN112559531A (zh) * | 2020-12-22 | 2021-03-26 | 平安银行股份有限公司 | 数据收集方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320757A (zh) * | 2015-10-19 | 2016-02-10 | 杭州华量软件有限公司 | 一种快速处理数据的商业智能分析方法 |
CN106296498A (zh) * | 2015-05-21 | 2017-01-04 | 中兴通讯股份有限公司 | 数据处理方法及装置 |
CN107193909A (zh) * | 2017-05-08 | 2017-09-22 | 杭州东方通信软件技术有限公司 | 数据处理方法及系统 |
-
2018
- 2018-01-23 CN CN201810063235.3A patent/CN108268645A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106296498A (zh) * | 2015-05-21 | 2017-01-04 | 中兴通讯股份有限公司 | 数据处理方法及装置 |
CN105320757A (zh) * | 2015-10-19 | 2016-02-10 | 杭州华量软件有限公司 | 一种快速处理数据的商业智能分析方法 |
CN107193909A (zh) * | 2017-05-08 | 2017-09-22 | 杭州东方通信软件技术有限公司 | 数据处理方法及系统 |
Non-Patent Citations (1)
Title |
---|
SHINEDEVELOPER: "初步认识j2cache", 《HTTPS://WWW.JIANSHU.COM/P/6B79932318D1》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033330A (zh) * | 2018-07-19 | 2018-12-18 | 北京车联天下信息技术有限公司 | 大数据清洗方法、装置和服务器 |
CN110750563A (zh) * | 2018-07-20 | 2020-02-04 | 北京京东尚科信息技术有限公司 | 多模型数据处理方法、系统、装置、电子设备及存储介质 |
CN109271432A (zh) * | 2018-08-21 | 2019-01-25 | 中国平安人寿保险股份有限公司 | 报表数据的处理方法、装置、计算机设备和存储介质 |
CN109815480B (zh) * | 2018-12-14 | 2022-08-12 | 平安科技(深圳)有限公司 | 一种数据处理方法和装置、及存储介质 |
CN109815480A (zh) * | 2018-12-14 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种数据处理方法和装置、及存储介质 |
CN109933693A (zh) * | 2019-03-13 | 2019-06-25 | 重庆尚唯信息技术有限公司 | 一种基于大数据技术的全球智库数据开发与组织方法 |
CN110110001A (zh) * | 2019-05-10 | 2019-08-09 | 八戒科技服务有限公司 | 服务成果数据处理方法、装置、存储介质及系统 |
CN112181972A (zh) * | 2020-11-02 | 2021-01-05 | 北京通付盾人工智能技术有限公司 | 基于大数据的数据治理方法、装置和计算机设备 |
CN112487262A (zh) * | 2020-11-25 | 2021-03-12 | 建信金融科技有限责任公司 | 一种数据处理的方法和装置 |
CN112527640A (zh) * | 2020-12-04 | 2021-03-19 | 山东中创软件商用中间件股份有限公司 | 缺陷数据可视化处理方法、系统、装置及可读存储介质 |
CN112508119A (zh) * | 2020-12-16 | 2021-03-16 | 平安银行股份有限公司 | 特征挖掘组合方法、装置、设备及计算机可读存储介质 |
CN112508119B (zh) * | 2020-12-16 | 2024-04-05 | 平安银行股份有限公司 | 特征挖掘组合方法、装置、设备及计算机可读存储介质 |
CN112559531A (zh) * | 2020-12-22 | 2021-03-26 | 平安银行股份有限公司 | 数据收集方法、装置、电子设备及存储介质 |
CN112559531B (zh) * | 2020-12-22 | 2023-07-25 | 平安银行股份有限公司 | 数据收集方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108268645A (zh) | 大数据处理方法与系统 | |
CN109583620B (zh) | 企业潜在风险预警方法、装置、计算机设备和存储介质 | |
CN108491320A (zh) | 应用程序的异常分析方法、装置、计算机设备和存储介质 | |
Haque et al. | Evaluation of a mining project under the joint effect of commodity price and exchange rate uncertainties using real options valuation | |
Cao et al. | Sensitivity analysis of nonlinear behavior with distorted probability | |
CN101093512A (zh) | 一种数据筛选方法及一种数据筛选系统 | |
Sanz-Lázaro | Climate extremes can drive biological assemblages to early successional stages compared to several mild disturbances | |
CN111258466A (zh) | 数据可视化方法、装置、计算机设备和存储介质 | |
Kravets et al. | Industrial cyber-physical systems: Risks assessment and attacks modeling | |
Askari-Nasab et al. | Modelling open pit dynamics using discrete simulation | |
Hua et al. | Impact of US uncertainty on Chinese stock market volatility | |
Liang et al. | Funding liquidity, debt tenor structure, and creditor’s belief: an exogenous dynamic debt run model | |
Breuer et al. | Systematic stress tests on public data | |
Triki et al. | An artificial intelligence approach for the stochastic management of coastal aquifers | |
Javid et al. | Sectoral investment analysis for Saudi Arabia | |
Crafa | From agent-based modeling to actor-based reactive systems in the analysis of financial networks | |
CN111078500A (zh) | 运行配置参数的调整方法、装置、计算机设备和存储介质 | |
Xue et al. | Preventing price manipulation attack by front-running | |
Foroud et al. | Surrogate-based optimization of horizontal well placement in a mature oil reservoir | |
King et al. | A combinatorial procedure to determine the full range of potential operating scenarios for a dam system | |
CN112508692A (zh) | 基于卷积神经网络的资源回收风险预测方法、装置和电子设备 | |
CN107423204A (zh) | 应用程序的操作日志的处理方法、装置以及终端 | |
Bing | Critical infrastructure protection based on memory-augmented meta-learning framework | |
CN111212073B (zh) | 基于公有云的黑名单账户共享方法及装置 | |
CN108647288A (zh) | 企业关系的挖掘方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180710 |