CN113609201A - 一种业务数据处理方法及系统 - Google Patents
一种业务数据处理方法及系统 Download PDFInfo
- Publication number
- CN113609201A CN113609201A CN202110915674.4A CN202110915674A CN113609201A CN 113609201 A CN113609201 A CN 113609201A CN 202110915674 A CN202110915674 A CN 202110915674A CN 113609201 A CN113609201 A CN 113609201A
- Authority
- CN
- China
- Prior art keywords
- data
- processing
- real
- time
- batch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 87
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 20
- 230000002159 abnormal effect Effects 0.000 claims description 14
- 230000010354 integration Effects 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000007726 management method Methods 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 6
- 238000013179 statistical model Methods 0.000 claims description 6
- 238000007418 data mining Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000013523 data management Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000000737 periodic effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000010223 real-time analysis Methods 0.000 claims description 3
- 238000013450 outlier detection Methods 0.000 claims 1
- 230000004927 fusion Effects 0.000 abstract description 5
- 230000001965 increasing effect Effects 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Bioethics (AREA)
- Fuzzy Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种业务数据处理方法及系统,属于数据处理领域,解决了对企业、行业、产品多元异构数据难以融合且融合操作流程复杂的问题,且跨机构数据与用户及商业隐私保护之间存在不可调和的矛盾,大批量数据实时处理效率低,数据处理逻辑和数据源紧耦合,类似的数据处理逻辑需根据不同的数据源多次开发的问题,突破解决分布式系统的关键问题,主要包括:水平扩展、容错、进度管理等,能够以分布式job的形式在集群中运行,从而允许在业务增长时通过增加运行时节点的方式实现扩展,能够及时监测到问题,并且将问题节点上的job分配给健康的节点继续运行,job可以记录自身处理的进度,避免重复处理数据。
Description
技术领域
本发明属于数据处理领域,具体是一种业务数据处理方法及系统。
背景技术
专利公开号CN107545338A的发明公开了业务数据处理方法及业务数据处理系统,所述方法的一具体实施方式包括:将所接收的业务数据的处理流程,转换为一个或多个业务消息,业务消息包括流程定义;基于路由数据库,确定与一个或多个业务消息对应的流程引擎实例和路由策略,路由数据库存储流程定义、流程引擎实例和路由策略的映射关系;基于所确定的路由策略,将一个或多个业务消息路由到对应的流程引擎实例;通过所述流程引擎实例来执行所述业务消息,该实现方式能够保证业务消息的有序进行,保证了业务数据的一致性。
现有的业务数据处理方法以及上述的方法及系统在对企业、行业、产品多元异构数据处理中,数据难以融合且融合操作流程复杂,大批量数据实时处理效率低,数据处理逻辑和数据源紧耦合,类似的数据处理逻辑需根据不同的数据源多次开发。
发明内容
为了解决上述方案存在的问题,本发明提供了一种业务数据处理方法及系统。
本发明的目的可以通过以下技术方案实现:一种业务数据处理方法,包括以下步骤:
S1、多数据源集成:将各种数据源的相关数据提取、融合、梳理成一个分析数据集;
S2、离线批处理:处理和分析海量历史数据,为下一次数据应用生成结果数据的过程;
S3、实时数据处理:对计算机在实际发生的时间内的数据进行收集,并进行现场处理;
S4、批流一体化:用相同的接口实现大数据的流量计算和批量计算,从而保证处理过程和结果的一致性;
S5、整合多源异构数据:将来自不同来源的多种成分组成的一个整体,其中既有混合型数据又有离散型数据,混合型数据包括结构化和非结构化数据,离散型数据指分布在不同系统或平台的数据;
S6、隐私加密计算:针对不同的数据采用不同的加密方式,完成对数据的处理工作。
优选的,S2中离线批处理包括数据源、批量采集系统以及离心批处理引擎,其中数据源包括流数据、套接字流、OGG日志流、日志文件、批处理文件数据、数据库。
优选的,S3中处理方式包括有数据生成、实时采集、实时缓存存储、实时计算、实时落地、实时展示以及实时分析。
优选的,S4中对数据进行处理可采用三种不同的架构,包括Lambda架构、Kappa架构以及Fink处理模型。
优选的,S6中隐私加密方式包括有同态加密、安全多方计算加密、差分隐私加密、可信执行环境加密以及联邦算法加密。
优选的,一种业务数据处理系统,包括元数据管理系统和异常值检测系统,其中数据管理系统包括业务系统、元数据管理中心以及后期处理中心,元数据管理中心包括数据缓冲层、Kafka、实时OLAP、贴源层、数据整合层、历史OLAP以及数据查询平台,其中后期处理中心包括有BI系统、自助查询、数据挖掘以及数据预测。
优选的,异常值检测系统包括核心业务系统、BI系统、监控系统、IT系统、第三方数据,核心业务系统、BI系统、监控系统、IT系统、第三方数据内部的数据输送至实时数据流处理模块内,实时数据流处理包括有数据预处理、阈值自动计算以及异常识别过滤,实时数据流处理通过历史数据输送至线下机器进行学习,其中学习方式有算法选择分类、统计模型拟合、周期性学习、精准率以及召回率,实时数据流处理模块同时将处理后的数据输送至模型部署和服务端口内,模型部署和服务包括线上统计模型、深度学习模块以及相关性模型。
优选的,异常值检测系统内还可对多个异常值进行关联,并对多维度事件分析,再通过历史数据查询进行人工反馈;
与现有技术相比,本发明的有益效果是:
突破解决分布式系统的关键问题,主要包括:水平扩展、容错、进度管理等,能够以分布式job的形式在集群中运行,从而允许在业务增长时通过增加运行时节点的方式实现扩展,能够及时监测到问题,并且将问题节点上的job分配给健康的节点继续运行,job可以记录自身处理的进度,避免重复处理数据;
将处理逻辑和数据源解耦开来,同时屏蔽了数据抽取过程中可能发生的异常对后继作业的影响,并且将异构的数据源数据存储为统一的格式,为后继的处理提供一致的访问接口,然后独立于数据源,可被多次访问,亦可根据业务需要缓存全部或一定期限的原始数据,提供了转换分析更高的灵活度;
构建数据流批一体能力,利用引擎流批一体的能力,并且Flink的流计算能力在珍岛内部大规模业务应用的验证,以及Flink流批一体成熟提升搭建流批一体管理。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程示意图;
图2为本发明元数据管理系统原理框图;
图3为本发明异常值检测系统原理框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种业务数据处理方法,包括以下步骤:
S1、多数据源集成:将各种数据源的相关数据提取、融合、梳理成一个分析数据集,其中多数据源集成包括:
S11、连接所需的多源数据库并获取相关数据;
S12、研究和理解获得的数据;
S13、梳理和清理数据;
S14、数据转换和结构建立;
S15、对各类数据进行组合;
S16、建立分析数据集;
S2、离线批处理:处理和分析海量历史数据,为下一次数据应用生成结果数据的过程;
S3、实时数据处理:对计算机在实际发生的时间内的数据进行收集,并进行现场处理;
S4、批流一体化:用相同的接口实现大数据的流量计算和批量计算,从而保证处理过程和结果的一致性;
S5、整合多源异构数据:将来自不同来源的多种成分组成的一个整体,其中既有混合型数据又有离散型数据,混合型数据包括结构化和非结构化数据,离散型数据指分布在不同系统或平台的数据;
S6、隐私加密计算:针对不同的数据采用不同的加密方式,完成对数据的处理工作。
S2中离线批处理包括数据源、批量采集系统以及离心批处理引擎,其中数据源包括流数据、套接字流、OGG日志流、日志文件、批处理文件数据、数据库;
批量采集系统用于采集批量数据,组件包括Flume组件;用于批量采集数据文件日志文件;Sqoop组件;用于批量采集数据库数据;第三方采集/ET工具:第三方数据采集、加载和处理工具;离线批处理引擎:用于实现高性能的离线批处理作业运行;离线批处理的通用组件包括HDFS:分布式文件系统,为各种批处理引擎提供数据存储,并能以各种文件格式存储数据;YARN:资源调度引擎,为各种批处理引擎提供资源调度能力;MapReduce:传统批处理引擎,用于处理非SQL批处理作业,尤其是数据挖掘和机器学习批处理作业,在海量数据下使用广泛且稳定,但处理速度较慢;Hive:传统的SQL批处理引擎,用于处理SQL批处理作业。使用海量数据时比较稳定,但处理速度较慢;Spark:基于内存的数据处理引擎,适合海量数据,处理速度快;Spark SQL:一种新型的sql批处理引擎,用于处理SQL批处理作业,适用于海量数据,处理速度快。
S3中处理方式包括有数据生成、实时采集、实时缓存存储、实时计算、实时落地、实时展示以及实时分析。
S4中对数据进行处理可采用三种不同的架构,包括Lambda架构、Kappa架构以及Fink处理模型;
Lambda架构是批流一体化的必然要求,其核心是按需使用批量和流式的处理框架,以取得延时、吞吐和容错方面的平衡,Lambda架构分别针对批式和流式数据提供相应的处理逻辑,并且最终通过一个服务层进行对外服务的输出;
Kappa架构不同于Lambda同时计算流量计算和批量计算并合并视图,Kappa只是通过流量计算的一个数据链接计算并生成视图,并且Kappa也采用了事件再处理的原则;
Flink通过一个底层引擎同时支持流处理和批处理。
S6中隐私加密方式包括有同态加密、安全多方计算加密、差分隐私加密、可信执行环境加密以及联邦算法加密:
同态加密适合云计算时代需要将计算转移到云端,保证未加密数据安全的应用场景,允许计算加密的密文,同态加密的核心是在密文/加密空间提供两种原始运算:两个同态加密值相乘的能力和/或两个同态加密值相加的能力,根据是否可以同时支持乘法和加法,同态加密可以分为两种基本类型:全同态加密和部分同态加密,全同态加密支持密文空间的乘法和加法,而部分同态加密只提供密文空间的乘法或加法,可以集成到支持核心业务功能的算法中,比如加密搜索和加密分析;
安全多方计算加密允许多方一起操作数据,同时保持其输入信息的私密性和安全性;
差分隐私加密随机生成的噪声被添加到基本数据,并且对改变的数据执行的任何计算仅在统计上/方向上是正确的,反之,则不准确,由于无法保证准确的结果,并且可能的计算有限,差分隐私的应用领域比其他隐私增强技术更窄;
可信执行环境加密安全边界范围很小,只存在于硬件芯片本身,而不存在于网络边界,与任何安全边界模型一样,如果您能够突破边界,就可以访问其中的所有数据,因为所有的内容都在片上飞地解密,可信执行环境实现了非常快的计算能力,但是需要权衡安全性和隐私性的削弱,这可能适用于一些安全性和隐私约束更宽松的用例;
联邦算法,分布式多用户,每个用户客户端都有当前用户的数据集。传统的深度学习将这些数据收集在一起,得到汇总数据集,训练得到MSUM模型,参与用户共同训练一个模型,而用户数据Di保存在本地,不对外传输。如果存在非负实数δ,则MFED的模型精度VFED和MSUM的模型精度VSUM满足以下不等式;VFED-VSUM<δ联邦学习算法实现了δ精度损失,联邦算法允许训练模型有一定程度的性能偏差,但其为所有参与者提供了数据安全和隐私保护。
一种业务数据处理系统,包括元数据管理系统和异常值检测系统,其中数据管理系统包括业务系统、元数据管理中心以及后期处理中心,元数据管理中心包括数据缓冲层、Kafka、实时OLAP、贴源层、数据整合层、历史OLAP以及数据查询平台,其中后期处理中心包括有BI系统、自助查询、数据挖掘以及数据预测;
异常值检测系统包括核心业务系统、BI系统、监控系统、IT系统、第三方数据,核心业务系统、BI系统、监控系统、IT系统、第三方数据内部的数据输送至实时数据流处理模块内,实时数据流处理包括有数据预处理、阈值自动计算以及异常识别过滤,实时数据流处理通过历史数据输送至线下机器进行学习,其中学习方式有算法选择分类、统计模型拟合、周期性学习、精准率以及召回率,实时数据流处理模块同时将处理后的数据输送至模型部署和服务端口内,模型部署和服务包括线上统计模型、深度学习模块以及相关性模型,异常值检测系统内还可对多个异常值进行关联,并对多维度事件分析,再通过历史数据查询进行人工反馈。
上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。
本发明的工作原理:
通过基本配置注册实时数据融合相关的各类数据节点,通过限制配置限制数据任务执行过程中对数据节点的访问,操作动作范围及规则,通过策略配置指定语义映射、多节点降级顺序等数据融合任务执行过程中需遵循的策略;
如图2,通过基本配置,选择数据链路、选择资源分组、选择任务执行方式,通过限制配置与策略配置对基于链路设定之下的各类限制与策略进行个性化配置;
如图3,基于自身在数据融合领域的深厚积累,支持实时接入各类异构数据为异常检测所用,很好的解决了数据时效性问题;
为保证数据的安全性,还涉及到隐私计算技术以及联邦算法,其中联邦学习方法使营销狗移动和其他便携式穿戴设备能够协作学习共享的预测模型,同时将所有训练数据保存在设备上,将进行机器学习的能力与将数据存储在云中的需求分离,标准机器学习方法需要将训练数据集中在一台机器或数据中心,珍岛构建了最安全、最强大的云基础架构之一,用于处理这些数据,通过用户与移动设备交互训练的模型得到的脱敏数据以改善我们对用户的服务。
在本发明所提供的实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。
另对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。
Claims (8)
1.一种业务数据处理方法,其特征在于,包括以下步骤:
S1、多数据源集成:将各种数据源的相关数据提取、融合、梳理成一个分析数据集;
S2、离线批处理:处理和分析海量历史数据,为下一次数据应用生成结果数据的过程;
S3、实时数据处理:对计算机在实际发生的时间内的数据进行收集,并进行现场处理;
S4、批流一体化:用相同的接口实现大数据的流量计算和批量计算,从而保证处理过程和结果的一致性;
S5、整合多源异构数据:将来自不同来源的多种成分组成一个整体,其中既有混合型数据又有离散型数据,混合型数据包括结构化和非结构化数据,离散型数据指分布在不同系统或平台的数据;
S6、隐私加密计算:针对不同的数据采用不同的加密方式,完成对数据的处理工作。
2.根据权利要求1所述的一种业务数据处理方法,其特征在于,S2中离线批处理包括数据源、批量采集系统以及离心批处理引擎,其中数据源包括流数据、套接字流、OGG日志流、日志文件、批处理文件数据、数据库。
3.根据权利要求1所述的一种业务数据处理方法,其特征在于,S3中处理方式包括数据生成、实时采集、实时缓存存储、实时计算、实时落地、实时展示以及实时分析。
4.根据权利要求1所述的一种业务数据处理方法,其特征在于,S4中对数据进行处理可采用三种不同的架构,包括Lambda架构、Kappa架构以及Fink处理模型。
5.根据权利要求1所述的一种业务数据处理方法,其特征在于,S6中隐私加密方式包括同态加密、安全多方计算加密、差分隐私加密、可信执行环境加密以及联邦算法加密。
6.一种业务数据处理系统,其特征在于,用于实现权利要求1-5任一所述的业务数据处理方法,包括元数据管理系统和异常值检测系统,其中数据管理系统包括业务系统、元数据管理中心以及后期处理中心,元数据管理中心包括数据缓冲层、Kafka、实时OLAP、贴源层、数据整合层、历史OLAP以及数据查询平台,其中后期处理中心包括BI系统、自助查询、数据挖掘以及数据预测。
7.根据权利要求6所述的一种业务数据处理系统,其特征在于,异常值检测系统包括核心业务系统、BI系统、监控系统、IT系统、第三方数据,核心业务系统、BI系统、监控系统、IT系统、第三方数据内部的数据输送至实时数据流处理模块内,实时数据流处理包括数据预处理、阈值自动计算以及异常识别过滤,实时数据流处理通过历史数据输送至线下机器进行学习,其中学习方式有算法选择分类、统计模型拟合、周期性学习、精准率以及召回率,实时数据流处理模块同时将处理后的数据输送至模型部署和服务端口内,模型部署和服务包括线上统计模型、深度学习模块以及相关性模型。
8.根据权利要求7所述的一种业务数据处理系统,其特征在于,异常值检测系统内还可对多个异常值进行关联,并对多维度事件分析,再通过历史数据查询进行人工反馈。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110915674.4A CN113609201A (zh) | 2021-08-10 | 2021-08-10 | 一种业务数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110915674.4A CN113609201A (zh) | 2021-08-10 | 2021-08-10 | 一种业务数据处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113609201A true CN113609201A (zh) | 2021-11-05 |
Family
ID=78340172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110915674.4A Pending CN113609201A (zh) | 2021-08-10 | 2021-08-10 | 一种业务数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609201A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115080156A (zh) * | 2022-08-23 | 2022-09-20 | 卓望数码技术(深圳)有限公司 | 基于流批一体的大数据批量计算的优化计算方法及装置 |
CN115208930A (zh) * | 2022-04-21 | 2022-10-18 | 福州市小唐小能信息科技有限公司 | 一种基于Kappa架构的监控系统及监控方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021194A (zh) * | 2014-06-13 | 2014-09-03 | 浪潮(北京)电子信息产业有限公司 | 一种面向行业大数据多样性应用的混合型处理系统及处理方法 |
US20170046243A1 (en) * | 2015-08-12 | 2017-02-16 | Avekshaa Technologies Private Ltd | System and method for monitoring and measuring application performance using application index |
CN109343995A (zh) * | 2018-10-25 | 2019-02-15 | 金税信息技术服务股份有限公司 | 基于多源异构数据融合、机器学习及客服机器人的智能运维分析系统 |
CN111190876A (zh) * | 2019-12-31 | 2020-05-22 | 天津浪淘科技股份有限公司 | 日志管理系统及其运行方法 |
-
2021
- 2021-08-10 CN CN202110915674.4A patent/CN113609201A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021194A (zh) * | 2014-06-13 | 2014-09-03 | 浪潮(北京)电子信息产业有限公司 | 一种面向行业大数据多样性应用的混合型处理系统及处理方法 |
US20170046243A1 (en) * | 2015-08-12 | 2017-02-16 | Avekshaa Technologies Private Ltd | System and method for monitoring and measuring application performance using application index |
CN109343995A (zh) * | 2018-10-25 | 2019-02-15 | 金税信息技术服务股份有限公司 | 基于多源异构数据融合、机器学习及客服机器人的智能运维分析系统 |
CN111190876A (zh) * | 2019-12-31 | 2020-05-22 | 天津浪淘科技股份有限公司 | 日志管理系统及其运行方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115208930A (zh) * | 2022-04-21 | 2022-10-18 | 福州市小唐小能信息科技有限公司 | 一种基于Kappa架构的监控系统及监控方法 |
CN115080156A (zh) * | 2022-08-23 | 2022-09-20 | 卓望数码技术(深圳)有限公司 | 基于流批一体的大数据批量计算的优化计算方法及装置 |
CN115080156B (zh) * | 2022-08-23 | 2022-11-11 | 卓望数码技术(深圳)有限公司 | 基于流批一体的大数据批量计算的优化计算方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7373611B2 (ja) | ログ監査方法、装置、電子機器、媒体およびコンピュータプログラム | |
Kotenko et al. | Parallel big data processing system for security monitoring in Internet of Things networks. | |
CN111327681A (zh) | 一种基于Kubernetes的云计算数据平台构建方法 | |
CN106790718A (zh) | 服务调用链路分析方法及系统 | |
CN113609201A (zh) | 一种业务数据处理方法及系统 | |
US20150254474A1 (en) | Generation of analysis reports using trusted and public distributed file systems | |
CN111782620A (zh) | 一种信用链路自动跟踪平台及其方法 | |
Elagib et al. | Big data analysis solutions using MapReduce framework | |
CN113347170A (zh) | 一种基于大数据框架的智能分析平台设计方法 | |
Ferry et al. | Towards a big data platform for managing machine generated data in the cloud | |
Solmaz et al. | ALACA: A platform for dynamic alarm collection and alert notification in network management systems | |
Reddy et al. | A comprehensive literature review on data analytics in IIoT (Industrial Internet of Things) | |
Kim-Hung et al. | A scalable IoT framework to design logical data flow using virtual sensor | |
Cao et al. | Analytics everywhere for streaming iot data | |
Theeten et al. | Chive: Bandwidth optimized continuous querying in distributed clouds | |
CN114969047A (zh) | 一种数据处理系统及方法 | |
CN112288317B (zh) | 一种基于多源异构数据治理的工业大数据分析平台和方法 | |
CN113806446A (zh) | 一种大数据海量数据快速检索方法 | |
Bhuyan et al. | Crime predictive model using big data analytics | |
Maske et al. | A real time processing and streaming of wireless network data using storm | |
Wadhera et al. | A systematic Review of Big data tools and application for developments | |
Pasteris et al. | Data distribution and scheduling for distributed analytics tasks | |
CN114860851A (zh) | 数据处理方法、装置、设备及存储介质 | |
Chaffai et al. | Real-Time Analysis of Students’ Activities on an E-Learning Platform based on Apache Spark | |
Boubiche et al. | Integrating Big data paradigm in WSNs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |