CN108038196A - 一种数据处理系统和方法 - Google Patents

一种数据处理系统和方法 Download PDF

Info

Publication number
CN108038196A
CN108038196A CN201711318199.2A CN201711318199A CN108038196A CN 108038196 A CN108038196 A CN 108038196A CN 201711318199 A CN201711318199 A CN 201711318199A CN 108038196 A CN108038196 A CN 108038196A
Authority
CN
China
Prior art keywords
data
server
business datum
database
preprocessing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711318199.2A
Other languages
English (en)
Inventor
谢永恒
韩石磊
火莽
火一莽
万月亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201711318199.2A priority Critical patent/CN108038196A/zh
Publication of CN108038196A publication Critical patent/CN108038196A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理系统和方法,涉及大数据分析处理领域。该处理方法包括:可视化页面系统实时下发规则数据到数据库服务器中;预处理服务器从所述数据库服务器获取所述规则数据、业务基础数据和待处理的业务数据,根据所述规则数据和所述业务基础数据对所述业务数据进行流式预处理;数据库服务器获取并存储预处理后的业务数据。通过本发明,用户可利用可视化页面系统修改预处理规则,规则数据实时下发到数据库服务器,预处理服务器能够及时获取到新的规则数据并解析应用,无需重启系统,有效的预防系统重启导致的数据丢失和堆积。

Description

一种数据处理系统和方法
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种数据处理系统和方法。
背景技术
数据预处理技术主要实现对数据的去噪、重构、比对、富化等操作,涉及“数据预处理体系结构”、“基于元数据的异构数据处理”两个方面,为后续数据对象化存储和对数据的分析计算提供高质量的数据支持。
预处理业务主要根据预处理规则来执行,现有技术中,当预处理规则发生改变时,不能实时应用到当前的预处理中。增加或删减预处理规则后,系统需要重新编码和重新启动才能应用新的规则;系统重启会带来数据丢失或积压的问题,导致结果数据偏差或者不能实时反馈。
发明内容
本发明的目的在于提出一种数据处理系统和方法,能够实时更改并应用新的数据预处理规则,并实现可视化操作。
为达此目的,本发明采用以下技术方案:
一方面,本发明提供一种数据处理系统,包括:预处理服务器集群、数据库服务器集群、Web应用服务器集群和客户端;
预处理服务器集群、数据库服务器集群和Web应用服务器集群通过交换机组成分布式存储系统;
客户端通过Web应用服务器提供的应用接口访问所述Web应用服务器上的可视化页面系统。
其中,Web应用服务器集群与交换机之间架设有防火墙。
另一方面,本发明提供一种数据处理方法,包括:
可视化页面系统实时下发规则数据到数据库服务器中;
预处理服务器从所述数据库服务器获取所述规则数据、业务基础数据和待处理的业务数据,根据所述规则数据和所述业务基础数据对所述业务数据进行流式预处理;
数据库服务器获取并存储预处理后的业务数据。
其中,所述规则数据存储在数据库服务器的内存数据库中;
所述业务基础数据和所述业务数据存储在数据库服务器的数据库或者文件系统中。
进一步的,根据所述规则数据和所述业务基础数据对所述业务数据进行流式预处理,包括:
预处理服务器读取所述规则数据中的规则,根据所述规则将所述业务基础数据与所述业务数据比对,以进行预处理。
进一步的,预处理服务器从所述数据库服务器获取所述规则数据,包括:
预处理服务器按照周期从所述数据库服务器获取所述规则数据;或者
预处理服务器收到所述数据库服务器更新所述规则数据的消息后,从所述数据库服务器获取所述规则数据。
进一步的,预处理服务器从所述数据库服务器获取所述规则数据、业务基础数据和待处理的业务数据,包括:
预处理服务器接收所述数据库服务器推送的数据,根据所述数据的标志对所述数据进行分类,区分出规则数据、业务基础数据和业务数据。
进一步的,数据库服务器获取并存储预处理后的业务数据之后,还包括:
所述可视化页面系统获取并以图表形式显示所述业务数据,提供图表结构维护、规则数据配置、业务数据查询的应用接口。
本发明的有益效果为:
用户可通过可视化页面系统修改预处理规则,规则数据实时下发到数据库服务器,预处理服务器能够及时获取到新的规则数据并解析应用,无需重启系统,有效的预防系统重启导致的数据丢失和堆积。
附图说明
图1是本发明实施例提供的数据处理系统的结构示意图;
图2是本发明实施例提供的数据处理方法的流程图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本实施例提供一种数据处理系统,用于提供大数据的分析处理平台,提供数据服务。
图1是本发明实施例提供的数据处理系统的结构示意图。如图1所示,该系统包括:预处理服务器1集群、数据库服务器2集群、Web应用服务器3集群和客户端5;
预处理服务器1集群、数据库服务器2集群和Web应用服务器3集群通过交换机4组成分布式存储系统;
客户端5通过Web应用服务器3提供的应用接口访问所述Web应用服务器3上的可视化页面系统。
其中,Web应用服务器3集群与交换机4之间架设有防火墙5。
预处理服务器1集群、数据库服务器2集群和连接他们的交换机4组成局域网;客户端5与Web应用服务器3之间通过交换机连接,必要的情况下可加入多层路由以实现网络拓扑结构。
分布式大数据存储和检索技术能够存储和分析的数据量大,数据类型多样,既有结构化数据,也有如视音频、网页、文档等半结构化和非结构化信息,根据数据类型、容量、使用模式的不同,采用关系型数据库、NoSQL数据库、内存数据库、分布式文件系统等不同的技术来对数据信息进行存储。针对异构数据类型,建立符合不同业务逻辑的专用数据库机制。
本实施例还提供一种数据处理方法,由上述数据处理系统来执行,用于解决相同的技术问题,达到相同的技术效果。
图2是本发明实施例提供的数据处理方法的流程图。如图2所示,该方法包括如下步骤:
S11,可视化页面系统实时下发规则数据到数据库服务器中。
所述可视化页面系统以图表等形式向用户展示业务数据,并提供图表结构维护、规则数据配置、业务数据查询的应用接口。
S12,预处理服务器从所述数据库服务器获取所述规则数据、业务基础数据和待处理的业务数据,根据所述规则数据和所述业务基础数据对所述业务数据进行流式预处理。
其中,所述规则数据存储在数据库服务器的内存数据库中,本实施例采用Redis内存数据库;所述业务基础数据和所述业务数据存储在数据库服务器的数据库或者文件系统中。
预处理服务器接收所述数据库服务器推送的数据,根据所述数据的标志对所述数据进行分类,区分出规则数据、业务基础数据和业务数据。
并且预处理服务器按照周期从所述数据库服务器获取所述规则数据;或者预处理服务器收到所述数据库服务器更新所述规则数据的消息后,从所述数据库服务器获取所述规则数据。
预处理服务器读取所述规则数据中的规则,根据所述规则将所述业务基础数据与所述业务数据比对,以实现比对、富化、打标、去重等预处理。例如,根据规则数据中的规则,将业务数据中的字段A与业务基础数据中的字段B进行对比或匹配,根据结果,从业务数据中删除字段C,或者将业务基础数据中的字段D加入业务数据中。
本实施例中,预处理服务器采用可实现流式预处理的Hadoop分布式服务器集群或者spark分布式服务器集群。
S13,数据库服务器获取并存储预处理后的业务数据。
本实施例搭建ElasticSearch数据库集群、HBASE集群或者HDFS文件系统服务器,专门用于存储预处理后的结构化数据。使用ElasticSearch数据库作为存储介质,可为数据索引存储、全文检索、字段检索做技术储备;使用HBASE数据库作为存储介质,可为海量PB级数据的存储做技术储备,也有助于提高大数据的加载速度。
步骤S13之后,还包括:
S14,所述可视化页面系统获取并以图表形式显示所述业务数据。
数据可视化技术包含在页面上可视化的数据导入、数据查询、语句检索、可视化图形等,支持以图形化的形式展现不同维度的统计视图,在功能层面以数据为中心进行组织和展现,主要包括:数据统计、用户使用系统统计等。
本实施例中,用户可通过可视化页面系统修改预处理规则,规则数据实时下发到数据库服务器,预处理服务器能够及时获取到新的规则数据并解析应用,无需重启系统,有效的预防系统重启导致的数据丢失和堆积。
以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理,而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。

Claims (8)

1.一种数据处理系统,其特征在于,包括:预处理服务器集群、数据库服务器集群、Web应用服务器集群和客户端;
预处理服务器集群、数据库服务器集群和Web应用服务器集群通过交换机组成分布式存储系统;
客户端通过Web应用服务器提供的应用接口访问所述Web应用服务器上的可视化页面系统。
2.根据权利要求1所述的数据处理系统,其特征在于:
Web应用服务器集群与交换机之间架设有防火墙。
3.一种数据处理方法,其特征在于,包括:
可视化页面系统实时下发规则数据到数据库服务器中;
预处理服务器从所述数据库服务器获取所述规则数据、业务基础数据和待处理的业务数据,根据所述规则数据和所述业务基础数据对所述业务数据进行流式预处理;
数据库服务器获取并存储预处理后的业务数据。
4.根据权利要求3所述的数据处理方法,其特征在于:
所述规则数据存储在数据库服务器的内存数据库中;
所述业务基础数据和所述业务数据存储在数据库服务器的数据库或者文件系统中。
5.根据权利要求3所述的数据处理方法,其特征在于,根据所述规则数据和所述业务基础数据对所述业务数据进行流式预处理,包括:
预处理服务器读取所述规则数据中的规则,根据所述规则将所述业务基础数据与所述业务数据比对,以进行预处理。
6.根据权利要求3所述的数据处理方法,其特征在于,预处理服务器从所述数据库服务器获取所述规则数据,包括:
预处理服务器按照周期从所述数据库服务器获取所述规则数据;或者
预处理服务器收到所述数据库服务器更新所述规则数据的消息后,从所述数据库服务器获取所述规则数据。
7.根据权利要求3所述的数据处理方法,其特征在于,预处理服务器从所述数据库服务器获取所述规则数据、业务基础数据和待处理的业务数据,包括:
预处理服务器接收所述数据库服务器推送的数据,根据所述数据的标志对所述数据进行分类,区分出规则数据、业务基础数据和业务数据。
8.根据权利要求3所述的数据处理方法,其特征在于,数据库服务器获取并存储预处理后的业务数据之后,还包括:
所述可视化页面系统获取并以图表形式显示所述业务数据,提供图表结构维护、规则数据配置、业务数据查询的应用接口。
CN201711318199.2A 2017-12-12 2017-12-12 一种数据处理系统和方法 Pending CN108038196A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711318199.2A CN108038196A (zh) 2017-12-12 2017-12-12 一种数据处理系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711318199.2A CN108038196A (zh) 2017-12-12 2017-12-12 一种数据处理系统和方法

Publications (1)

Publication Number Publication Date
CN108038196A true CN108038196A (zh) 2018-05-15

Family

ID=62102380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711318199.2A Pending CN108038196A (zh) 2017-12-12 2017-12-12 一种数据处理系统和方法

Country Status (1)

Country Link
CN (1) CN108038196A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959443A (zh) * 2018-06-13 2018-12-07 沈文策 一种信息推送方法、信息处理方法及装置
CN109491651A (zh) * 2018-10-24 2019-03-19 东软集团股份有限公司 数据预处理方法,装置,存储介质及电子设备
CN110515927A (zh) * 2019-08-28 2019-11-29 中国工商银行股份有限公司 数据处理方法及其系统、电子设备和介质
CN111159277A (zh) * 2019-12-02 2020-05-15 三盟科技股份有限公司 一种智能数据分析方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279891A (zh) * 2011-09-02 2011-12-14 深圳中兴网信科技有限公司 一种并行搜索it日志的检索方法、装置及系统
CN102930393A (zh) * 2012-10-25 2013-02-13 海南电网公司 一种电网信息综合展示可视化系统
US20160105731A1 (en) * 2014-05-21 2016-04-14 Iccode, Inc. Systems and methods for identifying and acquiring information regarding remotely displayed video content
CN106126601A (zh) * 2016-06-20 2016-11-16 华南理工大学 一种社保大数据分布式预处理方法及系统
CN106372185A (zh) * 2016-08-31 2017-02-01 广东京奥信息科技有限公司 一种异构数据源的数据预处理方法
CN106709012A (zh) * 2016-12-26 2017-05-24 北京锐安科技有限公司 一种大数据分析方法及装置
CN107256219A (zh) * 2017-04-24 2017-10-17 卡斯柯信号有限公司 应用于自动列车控制系统海量日志的大数据融合分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279891A (zh) * 2011-09-02 2011-12-14 深圳中兴网信科技有限公司 一种并行搜索it日志的检索方法、装置及系统
CN102930393A (zh) * 2012-10-25 2013-02-13 海南电网公司 一种电网信息综合展示可视化系统
US20160105731A1 (en) * 2014-05-21 2016-04-14 Iccode, Inc. Systems and methods for identifying and acquiring information regarding remotely displayed video content
CN106126601A (zh) * 2016-06-20 2016-11-16 华南理工大学 一种社保大数据分布式预处理方法及系统
CN106372185A (zh) * 2016-08-31 2017-02-01 广东京奥信息科技有限公司 一种异构数据源的数据预处理方法
CN106709012A (zh) * 2016-12-26 2017-05-24 北京锐安科技有限公司 一种大数据分析方法及装置
CN107256219A (zh) * 2017-04-24 2017-10-17 卡斯柯信号有限公司 应用于自动列车控制系统海量日志的大数据融合分析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959443A (zh) * 2018-06-13 2018-12-07 沈文策 一种信息推送方法、信息处理方法及装置
CN109491651A (zh) * 2018-10-24 2019-03-19 东软集团股份有限公司 数据预处理方法,装置,存储介质及电子设备
CN110515927A (zh) * 2019-08-28 2019-11-29 中国工商银行股份有限公司 数据处理方法及其系统、电子设备和介质
CN111159277A (zh) * 2019-12-02 2020-05-15 三盟科技股份有限公司 一种智能数据分析方法及系统

Similar Documents

Publication Publication Date Title
CN108038196A (zh) 一种数据处理系统和方法
CN107315776A (zh) 一种基于云计算的数据管理系统
CN105740303B (zh) 改进的对象存储的方法及装置
DE202015009779U1 (de) Implementierung semistrukturierter Daten als ein Datenbankelement erster Klasse
CN108021809A (zh) 一种数据处理方法及系统
CN107122497A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN108985981A (zh) 数据处理系统及方法
CN108073625A (zh) 用于元数据信息管理的系统及方法
CN106033438B (zh) 舆情数据存储方法和服务器
Karakus et al. Call center performance evaluation using big data analytics
US20180165367A1 (en) Hyperdata generation in the cloud
CN112256880A (zh) 文本识别方法和装置、存储介质及电子设备
Hu et al. Towards big linked data: a large-scale, distributed semantic data storage
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
Anderson et al. Architectural Implications of Social Media Analytics in Support of Crisis Informatics Research.
US11074266B2 (en) Semantic concept discovery over event databases
CN110472119A (zh) 一种应用于政务舆情分析平台
Byun et al. Automated Twitter data collecting tool for data mining in social network
CN110019152A (zh) 一种大数据清洗方法
Sauer et al. Horizontal cloud database partitioning with data mining techniques
CN105245394A (zh) 一种基于分层方式分析网络访问日志的方法和设备
Kaur Big data: A review of challenges, tools and techniques
US20140067840A1 (en) System and method for retrieving information
CN109684331A (zh) 一种基于Kudu的对象存储元数据管理装置及方法
CN109254961A (zh) 一种分布式多引擎数据质量管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180515

RJ01 Rejection of invention patent application after publication