CN113392646A - 一种数据中台系统、构建方法及装置 - Google Patents
一种数据中台系统、构建方法及装置 Download PDFInfo
- Publication number
- CN113392646A CN113392646A CN202110769462.XA CN202110769462A CN113392646A CN 113392646 A CN113392646 A CN 113392646A CN 202110769462 A CN202110769462 A CN 202110769462A CN 113392646 A CN113392646 A CN 113392646A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- module
- service
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000004140 cleaning Methods 0.000 claims abstract description 11
- 238000006243 chemical reaction Methods 0.000 claims abstract description 9
- 238000001914 filtration Methods 0.000 claims abstract description 9
- 238000010801 machine learning Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 15
- 238000013508 migration Methods 0.000 claims description 12
- 230000005012 migration Effects 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 5
- 238000012827 research and development Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013523 data management Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据中台系统、构建方法及装置,涉及数据处理技术领域,对企业内部所有目标数据进行采集,将采集到的目标数据进行分类处理,将不同的数据类型划分到对应的特征区存储,根据数据特征区进行数据仓库的构建,根据特征区不同的数据类型,划分主题,获取场景主题库,分析处理主题库数据,获取该主题的业务模型,对仓库内数据提供清洗转换和冗余数据过滤,实时对业务模型进行调整优化,建立业务需求,根据业务需求和仓库内数据相结合形成独立数据集,与业务模型相结合,获取该业务的数据资产地图,本发明能建立统一的企业级数据标准指标体系,解决数据来源多元化和标准不统一的问题,消除不同业务板块核心业务链条之间的数据孤岛。
Description
技术领域
本发明涉及数据处理技术领域,具体地说,涉及一种数据中台系统、构建方法及装置。
背景技术
在大数据时代,用户进行数据检索时,用户要从储存的大量数据中高效找到相关度最大的数据结果是比较麻烦的,数据检索方式是逐条进行匹配的,数据检索的过程中耗时长,有时候检索结果会等很久才会出现第一条检索结果信息,用户很难在检索的进程中尽快同步的查看检索结果,需要浪费较长的等待时间,同时对于经常被检索的数据没有统计信息;
数据中台是一个思维,一个概念,即将业务数据化,数据业务化,真正实现数据和业务进行打通,数据中台连接数据前台和后台,突破数据局限,为企业提供更灵活、高效、低成本的数据分析挖掘服务,避免企业为满足具体某部门某种数据分析需求而投放大量高成本、重复性的数据开发成本;
然而现有技术中,没有建立统一的企业级数据标准指标体系,造成了数据来源多元化和标准不统一,没有采用合适点的技术体系来构建,而且还有没有同时构建业务中台和数据中台的情况,造成不同业务板块核心业务链条之间的数据孤岛,无法对外提供统一一致的数据服务。
发明内容
本发明的主要目的是提出一种数据中台系统、构建方法及装置,旨在针对现有技术中,数据来源多元化和标准不统一,不同业务板块核心业务链条之间的数据孤岛,无法对外提供统一一致的数据服务的问题,建立统一的企业级数据标准指标体系,解决数据来源多元化和标准不统一的问题,同步数据中台和业务中台的建设,整合业务中台数据,消除不同业务板块核心业务链条之间的数据孤岛。
为实现上述目的,本发明提出一种数据中台系统,所述数据中台系统包括:
采集模块,分类模块,迁移模块,存储模块,构建模块,管理模块以及应用模块;
所述采集模块将企业内部所有目标数据进行采集,并将采集到的目标数据发送给分类模块;
所述分类模块接收采集模块发送的目标数据,对目标数据进行分词处理,对分词后的数据进行提取关键词特征信息处理,根据提取的关键词特征信息划分特征区,并将目标数据和划分好的特征区数据发送给迁移模块;
所述迁移模块接收分类模块发送的目标数据及特征区数据,根据目标数据中的关键词特征信息命名特征区,将不同的数据类型划分到对应的特征区,并发送给存储模块;
所述存储模块接收迁移模块发送的数据,进行存储,并进行异常数据剔除,预设触发信号,接收数据后,触发信号,发送信号给构建模块;
所述构建模块接收存储模块发送的触发信号及储存的数据,进行数据仓库的构建,根据特征区不同的数据类型,划分主题,获取场景主题库,分析处理主题库数据,获取该主题的业务模型;
所述管理模块对构建的数据仓库及主题业务模型进行监督管理,对仓库内数据提供清洗转换和冗余数据过滤,实时对业务模型进行调整优化,并发送该数据给应用模块;
所述应用模块接收管理模块发送的数据,建立业务需求,根据业务需求和仓库内数据相结合形成独立数据集,与业务模型相结合,获取该业务的数据资产地图,整合全企业的所有数据,然后进行统一的数据打通、统一建模、对外提供统一数据服务,建立统一的企业级数据标准指标体系,解决数据来源多元化和标准不统一的问题。
近一步的是,所述采集模块采集数据的方式为ETL模式,对企业数据进行离线数据采集和实时流数据采集,并对采集的数据进行异常数据剔除处理,采用高效的方式将数据从不同的来源提取到数据仓库中,进行异常数据的剔除,保障了处理数据的速度。
更近一步的是,所述分类模块对分词后的数据进行提取关键词特征信息处理,根据提取的关键词特征信息划分特征区的处理流程如下:
S1,对进行分词处理后的数据进行词频统计,将统计的词频作为该词的权重;
S2,根据词频对词语的权重进行排序,预设权重阀值,将超出阀值的词语认定为关键词信息,对关键词按照频率从多到少的顺序进行罗列;
S3,对排名前五的关键词语进行分析,确认其关键词特征信息;
S4,根据S3中获得的关键词特征信息,划分数据特征区,按照权重划分确立关键词,以此来获取主题的特征信息,有助于对数据类别进行准确的划分,为后期相适应的数据研发、分析及应用去噪。
更近一步的是,所述数据仓库的构建流程为:
S1,根据储存数据划分出来的数据特征区信息生成数据标签,作为此类数据的聚合区;
S2,将关键词信息作为该类数据聚合区域内的数据目录;
S3,将和关键词对应的数据存储到对应的数据目录里;
S4,提取数据内的图像,根据图像标注文字命名图像名称,建立图像数据库,构建数据仓库,有助于检索数据,提升企业的业务中台和企业服务的关联度。
更近一步的是,所述业务模型的获取流程为:
S1,预设入模数据量,判定数据库的主题数据量是否符合要求,符合,进行下一步,不符合,继续获取数据;
S2,对符合入模数据量的数据进行与机器学习模型进行匹配处理,对入模数据进行训练集和验证集的划分,调整模型训练的参数;
S3,对匹配处理后的数据进行判定,合格,保存该模型及模型指标,作为该主题的业务预测模型;
S4,不合格,对该数据采用备选模型进行模型训练及参数调整,得到调整后的模型数据,判定该模型指标是否达标,若达标则输出采用的模型及参数信息,并保存此机器学习模型为业务预测的模型;
S5,不达标,将未达标的模型进行个性化建模处理,输出个性化模型结果,并保存此机器学习模型为业务预测的模型,构建业务模型,和主题数据相匹配,有助于获取更具代表性和实用性的业务模型,提高业务预测的准确性。
更近一步的是,所述机器学习模型种类包括:线性模型,K近邻模型,决策树模型,神经网络模型,支持向量机,聚类算法以及贝叶斯模型,设置多种机器学习模型,有助于快速进行模型匹配,获取业务适用模型,提升速率,节约匹配时间。
更近一步的是,所述应用模块建立业务需求,根据业务需求和仓库内数据相结合形成独立数据集,与业务模型相结合,获取该业务的数据资产地图的处理流程为:
S1,建立信息输入界面,由用户提供检索信息,获取用户输入的业务需求;
S2,根据输入的业务需求信息提取关键词,根据关键词信息搜索数据仓库内对应的主题数据;
S3,和主题数据对应得到该数据的业务机器学习模型,将实时更新的主题数据和业务模型相结合,获取该业务的数据资产地图。
更近一步的是,所述应用模块还包括登录模块,所述登录模块设置独立登录账号,用户根据独立账号信息实现企业业务往来,设置独立账号登录企业,获取用户完整信息,有助于整理用户完整的信息数据,提升获取用户目的的准确性。
一种数据中台构建方法,流程如下:
S1,采集企业内部所有目标数据,对目标数据进行分词处理;
S2,对分词后的数据进行提取关键词特征信息处理,根据提取的关键词特征信息划分特征区;
S3,根据目标数据中的关键词特征信息命名特征区,将不同的数据类型划分到对应的特征区,进行存储,并进行异常数据剔除;
S4,对剔除后的数据进行数据仓库的构建,根据特征区不同的数据类型,划分主题,获取场景主题库,分析处理主题库数据,获取该主题的业务模型;
S5,用户输入检索信息,建立业务需求,根据业务需求和仓库内数据相结合形成独立数据集,与业务模型相结合,获取该业务的数据资产地图;
S6,实时对仓库内数据提供清洗转换和冗余数据过滤,对业务模型进行调整优化。
一种数据中台装置,包括:处理器和存储器,所述处理器耦接所述存储器,所述存储器中存储有数据中台构建方法的程序,所述处理器执行所述数据中台构建方法的程序以实现如权利要求9所述的数据中台构建方法。
相比于现有技术,本发明的有益效果为:
(1)本发明整合全企业的所有数据,然后进行统一的数据打通、统一建模、对外提供统一数据服务,建立统一的企业级数据标准指标体系,解决数据来源多元化和标准不统一的问题,建立与企业能力相适应的数据研发、分析、应用和资产管理技术体系,在业务中台建设的同时,同步启动数据中台建设,整合业务中台数据,消除不同业务板块核心业务链条之间的数据孤岛,对外提供统一的一致的数据服务;
(2)本发明采用ETL模式作为采集方式,高效的将数据从不同的来源提取到数据仓库中,进行异常数据的剔除,保障了处理数据的速度,按照权重划分确立关键词,有助于对数据类别进行准确的划分,为后期相适应的数据研发、分析及应用去噪,设置多种机器学习模型,有助于快速进行模型匹配,获取业务适用模型,节约匹配时间,设置独立账号登录企业,获取用户完整信息,有助于整理用户完整的信息数据,提升获取用户目的的准确性。
附图说明
为了更清楚地说明本申请实施例或示例性中的技术方案,下面将对实施例或示例性描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以按照这些附图示出的获得其他的附图。
图1为本发明的模块功能结构示意图;
图2为本发明方法流程结构示意图;
图3为本发明的装置结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围,下面结合附图和具体实施例对本发明进行详细描述。
实施例1
如图1所示,一种数据中台系统,包括:
采集模块,分类模块,迁移模块,存储模块,构建模块,管理模块以及应用模块;
所述采集模块将企业内部所有目标数据进行采集,并将采集到的目标数据发送给分类模块;
所述分类模块接收采集模块发送的目标数据,对目标数据进行分词处理,对分词后的数据进行提取关键词特征信息处理,根据提取的关键词特征信息划分特征区,并将目标数据和划分好的特征区数据发送给迁移模块;
所述迁移模块接收分类模块发送的目标数据及特征区数据,根据目标数据中的关键词特征信息命名特征区,将不同的数据类型划分到对应的特征区,并发送给存储模块;
所述存储模块接收迁移模块发送的数据,进行存储,并进行异常数据剔除,预设触发信号,接收数据后,触发信号,发送信号给构建模块;
所述构建模块接收存储模块发送的触发信号及储存的数据,进行数据仓库的构建,根据特征区不同的数据类型,划分主题,获取场景主题库,分析处理主题库数据,获取该主题的业务模型;
所述管理模块对构建的数据仓库及主题业务模型进行监督管理,对仓库内数据提供清洗转换和冗余数据过滤,实时对业务模型进行调整优化,并发送该数据给应用模块;
所述应用模块接收管理模块发送的数据,建立业务需求,根据业务需求和仓库内数据相结合形成独立数据集,与业务模型相结合,获取该业务的数据资产地图;
下面结合具体的实施情况,对该方法进行解读:
首先使用采集模块对目标数据进行采集,采用ETL模式对企业所有的不同来源的数据进行采集,采用ETL模式采集数据,可以高效的将数据从不同的来源提取到数据仓库中,并进行一些清洗和异常数据的剔除;
然后使用分类模块将目标数据进行分类处理,将采集的目标数据进行分词处理,对进行分词处理后的数据进行词频统计,将统计的词频作为该词的权重,根据词频对词语的权重进行排序,预设权重阀值,将超出阀值的词语认定为关键词信息,对关键词按照频率从多到少的顺序进行罗列,对排名前五的关键词语进行分析,确认其关键词特征信息,根据获得的关键词特征信息,划分数据特征区,使用Kafka Connect将数据从数据源抽取出来,根据目标数据中的关键词特征信息命名特征区,将不同的数据类型划分到对应的特征区,放到一个或者多个目的地,保存到存储模块中,并预设触发信号,接收数据后,触发信号,发送信号给构建模块;
接着使用构建模块接收存储模块发送的触发信号及储存的数据建立数据仓库,采用高性能的数据分析引擎,根据储存数据划分出来的数据特征区信息生成数据标签,作为此类数据的聚合区,将关键词信息作为该类数据聚合区域内的数据目录,将和关键词对应的数据存储到对应的数据目录里,提取数据内的图像,根据图像标注文字命名图像名称,建立图像数据库;
然后根据特征区不同的数据类型,划分主题,获取场景主题库,分析处理主题库数据,获取该主题的业务模型,预设入模数据量,判定数据库的主题数据量是否符合要求,符合,进行下一步,不符合,继续获取数据,对符合入模数据量的数据进行与机器学习模型进行匹配处理,对入模数据进行训练集和验证集的划分,调整模型训练的参数,对匹配处理后的数据进行判定,合格,保存该模型及模型指标,作为该主题的业务预测模型,不合格,对该数据采用备选模型进行模型训练及参数调整,得到调整后的模型数据,判定该模型指标是否达标,若达标则输出采用的模型及参数信息,并保存此机器学习模型为业务预测的模型,不达标,将未达标的模型进行个性化建模处理,输出个性化模型结果,并保存此机器学习模型为业务预测的模型;
然后应用模块建立信息输入界面,由用户提供检索信息,获取用户输入的业务需求,根据输入的业务需求信息提取关键词,根据关键词信息搜索数据仓库内对应的主题数据,和主题数据对应得到该数据的业务机器学习模型,将实时更新的主题数据和业务模型相结合,获取该业务的数据资产地图,由管理模块对仓库内数据提供清洗转换和冗余数据过滤,实时对业务模型进行调整优化,并发送该数据给应用模块;
整合全企业的所有数据,然后进行统一的数据打通、统一建模、对外提供统一数据服务,建立统一的企业级数据标准指标体系,解决数据来源多元化和标准不统一的问题,建立与企业能力相适应的数据研发、分析、应用和资产管理技术体系,在业务中台建设的同时,同步启动数据中台建设,整合业务中台数据,消除不同业务板块核心业务链条之间的数据孤岛,对外提供统一的一致的数据服务。
实施例2
一种数据中台构建方法,流程如下:
S1,采集企业内部所有目标数据,对目标数据进行分词处理;
S2,对分词后的数据进行提取关键词特征信息处理,根据提取的关键词特征信息划分特征区;
S3,根据目标数据中的关键词特征信息命名特征区,将不同的数据类型划分到对应的特征区,进行存储,并进行异常数据剔除;
S4,对剔除后的数据进行数据仓库的构建,根据特征区不同的数据类型,划分主题,获取场景主题库,分析处理主题库数据,获取该主题的业务模型;
S5,用户输入检索信息,建立业务需求,根据业务需求和仓库内数据相结合形成独立数据集,与业务模型相结合,获取该业务的数据资产地图;
S6,实时对仓库内数据提供清洗转换和冗余数据过滤,对业务模型进行调整优化;
如图2所示,在具体的实施过程中,首先建立数据汇聚平台来收集处理数据,创立用户界面,用户界面可直接配置数据源,定制任务调度和采集模型,确认数据采集频率和方式,采用ETL模式对企业所有的不同来源的数据进行采集,采用ETL模式采集数据,可以高效的将数据从不同的来源提取到数据仓库中,并进行一些清洗和异常数据的剔除;
将采集的目标数据进行分词处理,对进行分词处理后的数据进行词频统计,将统计的词频作为该词的权重,根据词频对词语的权重进行排序,预设权重阀值,将超出阀值的词语认定为关键词信息,对关键词按照频率从多到少的顺序进行罗列,对排名前五的关键词语进行分析,确认其关键词特征信息,根据获得的关键词特征信息,划分数据特征区,使用Kafka Connect将数据从数据源抽取出来,根据目标数据中的关键词特征信息命名特征区,将不同的数据类型划分到对应的特征区,放到一个或者多个目的地,并进行保存,支持传统IDC数据库、非/半结构化存储等多种数据存储模式;
接着建立数据仓库,采用高性能的数据分析引擎,该数据仓库支持多种离线脚本类型,支持编码任务的自定义调度配置,资源配置,任务参数配置,支持查看代码结构及执行计划,支持查看历史版本及回滚,在建模研发的基础上扩展支持编码研发,满足多样化、多时效的业务场景诉求,支持基于计算引擎快速实现物理表与逻辑模型的数据查询与结果获取,实现轻量化数据查询服务,根据储存数据划分出来的数据特征区信息生成数据标签,作为此类数据的聚合区,将关键词信息作为该类数据聚合区域内的数据目录,将和关键词对应的数据存储到对应的数据目录里,提取数据内的图像,根据图像标注文字命名图像名称,建立图像数据库;
然后根据特征区不同的数据类型,划分主题,获取场景主题库,分析处理主题库数据,获取该主题的业务模型,预设入模数据量,判定数据库的主题数据量是否符合要求,符合,进行下一步,不符合,继续获取数据,对符合入模数据量的数据进行与机器学习模型进行匹配处理,对入模数据进行训练集和验证集的划分,调整模型训练的参数,对匹配处理后的数据进行判定,合格,保存该模型及模型指标,作为该主题的业务预测模型,不合格,对该数据采用备选模型进行模型训练及参数调整,得到调整后的模型数据,判定该模型指标是否达标,若达标则输出采用的模型及参数信息,并保存此机器学习模型为业务预测的模型,不达标,将未达标的模型进行个性化建模处理,输出个性化模型结果,并保存此机器学习模型为业务预测的模型,设立线性模型,K近邻模型,决策树模型,神经网络模型,支持向量机,聚类算法以及贝叶斯模型等作为机器学习模型的种类;
然后建立信息输入界面,由用户提供检索信息,获取用户输入的业务需求,根据输入的业务需求信息提取关键词,根据关键词信息搜索数据仓库内对应的主题数据,和主题数据对应得到该数据的业务机器学习模型,调用数据门户API,实现综合性可视化分析,基于数据源的数据表创建生成主题式的服务单元及API,面向API调用者的应用中心,创立基于业务应用的视角对API进行集中式的查看和调用,将实时更新的主题数据和业务模型相结合,获取该业务的数据资产地图,对仓库内数据提供清洗转换和冗余数据过滤,实时对业务模型进行调整优化;
建立统一的企业级数据标准指标体系,解决数据来源多元化和标准不统一的问题,针对业务需求和数据管理形成不同主题的数据集、数据资产地图,数据资源清晰可见。
实施例3
一种数据中台装置,包括:处理器和存储器,所述处理器耦接所述存储器,所述存储器中存储有数据中台构建方法的程序,所述处理器执行所述数据中台构建方法的程序以实现如权利要求9所述的数据中台构建方法;
如图3所示,在具体的实施过程中,建立统一的企业级数据标准指标体系,解决数据来源多元化和标准不统一的问题,结合企业自身技术能力和数据应用场景,选择合适的技术体系构建数据中台,在业务中台建设的同时,同步启动数据中台建设,整合业务中台数据,消除不同业务板块核心业务链条之间的数据孤岛,对外提供统一的一致的数据服务。
以上所述实施例仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。
Claims (10)
1.一种数据中台系统,其特征在于,包括:
采集模块,分类模块,迁移模块,存储模块,构建模块,管理模块以及应用模块;
所述采集模块将企业内部所有目标数据进行采集,并将采集到的目标数据发送给分类模块;
所述分类模块接收采集模块发送的目标数据,对目标数据进行分词处理,对分词后的数据进行提取关键词特征信息处理,根据提取的关键词特征信息划分特征区,并将目标数据和划分好的特征区数据发送给迁移模块;
所述迁移模块接收分类模块发送的目标数据及特征区数据,根据目标数据中的关键词特征信息命名特征区,将不同的数据类型划分到对应的特征区,并发送给存储模块;
所述存储模块接收迁移模块发送的数据,进行存储,并进行异常数据剔除,预设触发信号,接收数据后,触发信号,发送信号给构建模块;
所述构建模块接收存储模块发送的触发信号及储存的数据,进行数据仓库的构建,根据特征区不同的数据类型,划分主题,获取场景主题库,分析处理主题库数据,获取该主题的业务模型;
所述管理模块对构建的数据仓库及主题业务模型进行监督管理,对仓库内数据提供清洗转换和冗余数据过滤,实时对业务模型进行调整优化,并发送该数据给应用模块;
所述应用模块接收管理模块发送的数据,建立业务需求,根据业务需求和仓库内数据相结合形成独立数据集,与业务模型相结合,获取该业务的数据资产地图。
2.根据权利要求1所述的一种数据中台系统,其特征在于:所述采集模块采集数据的方式为ETL模式,对企业数据进行离线数据采集和实时流数据采集,并对采集的数据进行异常数据剔除处理。
3.根据权利要求1所述的一种数据中台系统,其特征在于:所述分类模块对分词后的数据进行提取关键词特征信息处理,根据提取的关键词特征信息划分特征区的处理流程如下:
S1,对进行分词处理后的数据进行词频统计,将统计的词频作为该词的权重;
S2,根据词频对词语的权重进行排序,预设权重阀值,将超出阀值的词语认定为关键词信息,对关键词按照频率从多到少的顺序进行罗列;
S3,对排名前五的关键词语进行分析,确认其关键词特征信息;
S4,根据S3中获得的关键词特征信息,划分数据特征区。
4.根据权利要求1所述的一种数据中台系统,其特征在于:所述数据仓库的构建流程为:
S1,根据储存数据划分出来的数据特征区信息生成数据标签,作为此类数据的聚合区域;
S2,将关键词信息作为该类数据聚合区域内的数据目录;
S3,将和关键词对应的数据存储到对应的数据目录里;
S4,提取数据内的图像,根据图像标注文字命名图像名称,建立图像数据库。
5.根据权利要求1所述的一种数据中台系统,其特征在于:所述业务模型的获取流程为:
S1,预设入模数据量,判定数据库的主题数据量是否符合要求,符合,进行下一步,不符合,继续获取数据;
S2,对符合入模数据量的数据进行与机器学习模型进行匹配处理,对入模数据进行训练集和验证集的划分,调整模型训练的参数;
S3,对匹配处理后的数据进行判定,合格,保存该模型及模型指标,作为该主题的业务预测模型;
S4,不合格,对该数据采用备选模型进行模型训练及参数调整,得到调整后的模型数据,判定该模型指标是否达标,若达标则输出采用的模型及参数信息,并保存此机器学习模型为业务预测的模型;
S5,不达标,将未达标的模型进行个性化建模处理,输出个性化模型结果,并保存此机器学习模型为业务预测的模型。
6.根据权利要求5所述的一种数据中台系统,其特征在于,所述机器学习模型种类包括:线性模型,K近邻模型,决策树模型,神经网络模型,支持向量机,聚类算法以及贝叶斯模型。
7.根据权利要求1所述的一种数据中台系统,其特征在于,所述应用模块建立业务需求,根据业务需求和仓库内数据相结合形成独立数据集,与业务模型相结合,获取该业务的数据资产地图的处理流程为:
S1,建立信息输入界面,由用户提供检索信息,获取用户输入的业务需求;
S2,根据输入的业务需求信息提取关键词,根据关键词信息搜索数据仓库内对应的主题数据;
S3,和主题数据对应得到该数据的业务机器学习模型,将实时更新的主题数据和业务模型相结合,获取该业务的数据资产地图。
8.根据权利要求1所述的一种数据中台系统,其特征在于:所述应用模块还包括登录模块,所述登录模块设置独立登录账号,用户根据独立账号信息实现企业业务往来。
9.一种数据中台构建方法,其特征在于,流程如下:
S1,采集企业内部所有目标数据,对目标数据进行分词处理;
S2,对分词后的数据进行提取关键词特征信息处理,根据提取的关键词特征信息划分特征区;
S3,根据目标数据中的关键词特征信息命名特征区,将不同的数据类型划分到对应的特征区,进行存储,并进行异常数据剔除;
S4,对剔除后的数据进行数据仓库的构建,根据特征区不同的数据类型,划分主题,获取场景主题库,分析处理主题库数据,获取该主题的业务模型;
S5,用户输入检索信息,建立业务需求,根据业务需求和仓库内数据相结合形成独立数据集,与业务模型相结合,获取该业务的数据资产地图;
S6,实时对仓库内数据提供清洗转换和冗余数据过滤,对业务模型进行调整优化。
10.一种数据中台装置,其特征在于,包括:处理器和存储器,所述处理器耦接所述存储器,所述存储器中存储有数据中台构建方法的程序,所述处理器执行所述数据中台构建方法的程序以实现如权利要求9所述的数据中台构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110769462.XA CN113392646B (zh) | 2021-07-07 | 2021-07-07 | 一种数据中台系统、构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110769462.XA CN113392646B (zh) | 2021-07-07 | 2021-07-07 | 一种数据中台系统、构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392646A true CN113392646A (zh) | 2021-09-14 |
CN113392646B CN113392646B (zh) | 2024-08-27 |
Family
ID=77625410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110769462.XA Active CN113392646B (zh) | 2021-07-07 | 2021-07-07 | 一种数据中台系统、构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392646B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113961615A (zh) * | 2021-09-27 | 2022-01-21 | 北京东方通科技股份有限公司 | 一种多层服务融合决策方法及系统 |
CN114357029A (zh) * | 2022-01-04 | 2022-04-15 | 工银瑞信基金管理有限公司 | 业务数据的处理方法、装置、设备、介质及程序产品 |
CN114969161A (zh) * | 2022-06-23 | 2022-08-30 | 北京百度网讯科技有限公司 | 数据处理方法和装置、数据中台系统 |
CN115470705A (zh) * | 2022-09-19 | 2022-12-13 | 贵州航天云网科技有限公司 | 基于ai算法的智能业务建模方法 |
CN115499381A (zh) * | 2022-10-12 | 2022-12-20 | 安徽青松食品有限公司 | 企业数据管理系统及方法 |
CN115861655A (zh) * | 2023-02-15 | 2023-03-28 | 中建电子信息技术有限公司 | 一种基于施工大数据的ai辅助决策和管理优化服务系统 |
CN116303379A (zh) * | 2022-12-13 | 2023-06-23 | 北京博望华科科技有限公司 | 一种数据处理方法、系统及计算机储存介质 |
CN116431736A (zh) * | 2023-02-06 | 2023-07-14 | 北京三维天地科技股份有限公司 | 一种在线数据仓库模型的构建方法及系统 |
CN117009921A (zh) * | 2023-08-04 | 2023-11-07 | 振宁(无锡)智能科技有限公司 | 一种数据融合引擎的优化数据处理方法及系统 |
CN117350520A (zh) * | 2023-12-04 | 2024-01-05 | 浙江大学高端装备研究院 | 一种汽车生产优化方法和系统 |
CN117370325A (zh) * | 2023-10-19 | 2024-01-09 | 杭州数亮科技股份有限公司 | 一种基于大数据采集分析的数据中台系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150100331A1 (en) * | 2013-10-08 | 2015-04-09 | Joydeep Roychowdhury | Business intelligence system and services for payor in healthcare industry |
CN109522312A (zh) * | 2018-11-27 | 2019-03-26 | 北京锐安科技有限公司 | 一种数据处理方法、装置、服务器和存储介质 |
CN111435344A (zh) * | 2019-01-15 | 2020-07-21 | 中国石油集团川庆钻探工程有限公司长庆钻井总公司 | 一种基于大数据的钻井提速影响因素分析模型 |
EP3786783A1 (fr) * | 2019-08-30 | 2021-03-03 | Bull SAS | Systeme d'aide a la conception d'application d'intelligence artificielle, executable sur des plates-formes informatiques distribuees |
CN112580914A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 汇集多源数据的企业级数据中台系统的实现方法及装置 |
CN112801607A (zh) * | 2021-01-12 | 2021-05-14 | 深圳市中博科创信息技术有限公司 | 一种管理服务平台及构建方法 |
-
2021
- 2021-07-07 CN CN202110769462.XA patent/CN113392646B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150100331A1 (en) * | 2013-10-08 | 2015-04-09 | Joydeep Roychowdhury | Business intelligence system and services for payor in healthcare industry |
CN109522312A (zh) * | 2018-11-27 | 2019-03-26 | 北京锐安科技有限公司 | 一种数据处理方法、装置、服务器和存储介质 |
CN111435344A (zh) * | 2019-01-15 | 2020-07-21 | 中国石油集团川庆钻探工程有限公司长庆钻井总公司 | 一种基于大数据的钻井提速影响因素分析模型 |
EP3786783A1 (fr) * | 2019-08-30 | 2021-03-03 | Bull SAS | Systeme d'aide a la conception d'application d'intelligence artificielle, executable sur des plates-formes informatiques distribuees |
CN112580914A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 汇集多源数据的企业级数据中台系统的实现方法及装置 |
CN112801607A (zh) * | 2021-01-12 | 2021-05-14 | 深圳市中博科创信息技术有限公司 | 一种管理服务平台及构建方法 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113961615B (zh) * | 2021-09-27 | 2022-05-03 | 北京东方通科技股份有限公司 | 一种多层服务融合决策方法及系统 |
CN113961615A (zh) * | 2021-09-27 | 2022-01-21 | 北京东方通科技股份有限公司 | 一种多层服务融合决策方法及系统 |
CN114357029A (zh) * | 2022-01-04 | 2022-04-15 | 工银瑞信基金管理有限公司 | 业务数据的处理方法、装置、设备、介质及程序产品 |
CN114357029B (zh) * | 2022-01-04 | 2022-09-02 | 工银瑞信基金管理有限公司 | 业务数据的处理方法、装置、设备及介质 |
CN114969161A (zh) * | 2022-06-23 | 2022-08-30 | 北京百度网讯科技有限公司 | 数据处理方法和装置、数据中台系统 |
CN114969161B (zh) * | 2022-06-23 | 2023-09-08 | 北京百度网讯科技有限公司 | 数据处理方法和装置、数据中台系统 |
CN115470705B (zh) * | 2022-09-19 | 2023-08-08 | 贵州航天云网科技有限公司 | 基于ai算法的智能业务建模方法 |
CN115470705A (zh) * | 2022-09-19 | 2022-12-13 | 贵州航天云网科技有限公司 | 基于ai算法的智能业务建模方法 |
CN115499381A (zh) * | 2022-10-12 | 2022-12-20 | 安徽青松食品有限公司 | 企业数据管理系统及方法 |
CN116303379A (zh) * | 2022-12-13 | 2023-06-23 | 北京博望华科科技有限公司 | 一种数据处理方法、系统及计算机储存介质 |
CN116431736A (zh) * | 2023-02-06 | 2023-07-14 | 北京三维天地科技股份有限公司 | 一种在线数据仓库模型的构建方法及系统 |
CN116431736B (zh) * | 2023-02-06 | 2023-10-20 | 北京三维天地科技股份有限公司 | 一种在线数据仓库模型的构建方法及系统 |
CN115861655A (zh) * | 2023-02-15 | 2023-03-28 | 中建电子信息技术有限公司 | 一种基于施工大数据的ai辅助决策和管理优化服务系统 |
CN117009921A (zh) * | 2023-08-04 | 2023-11-07 | 振宁(无锡)智能科技有限公司 | 一种数据融合引擎的优化数据处理方法及系统 |
CN117009921B (zh) * | 2023-08-04 | 2024-02-23 | 振宁(无锡)智能科技有限公司 | 一种数据融合引擎的优化数据处理方法及系统 |
CN117370325A (zh) * | 2023-10-19 | 2024-01-09 | 杭州数亮科技股份有限公司 | 一种基于大数据采集分析的数据中台系统 |
CN117370325B (zh) * | 2023-10-19 | 2024-05-28 | 杭州数亮科技股份有限公司 | 一种基于大数据采集分析的数据中台系统 |
CN117350520A (zh) * | 2023-12-04 | 2024-01-05 | 浙江大学高端装备研究院 | 一种汽车生产优化方法和系统 |
CN117350520B (zh) * | 2023-12-04 | 2024-02-27 | 浙江大学高端装备研究院 | 一种汽车生产优化方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113392646B (zh) | 2024-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113392646A (zh) | 一种数据中台系统、构建方法及装置 | |
CN111444236B (zh) | 一种基于大数据的移动终端用户画像构建方法及系统 | |
CN107766511A (zh) | 智能问答方法、终端及存储介质 | |
CN106844640B (zh) | 一种网页数据分析处理方法 | |
US10380267B2 (en) | System and method for tagging multimedia content elements | |
CN112801132B (zh) | 一种图像处理方法和装置 | |
CN108228787B (zh) | 按照多级类目处理信息的方法和装置 | |
CN109766451A (zh) | 一种云计算平台及其调度、数据分析方法 | |
CN110413708B (zh) | 一种面向业务术语的数据分析系统 | |
KR102601545B1 (ko) | 지리 위치점 정렬 방법, 정렬 모델 트레이닝 방법 및 대응하는 장치 | |
CN113409555B (zh) | 一种基于物联网的实时报警联动方法及系统 | |
CN110968801A (zh) | 地产产品搜索方法、存储介质及电子设备 | |
CN105518644A (zh) | 在地图上实时处理并显示社交数据的方法 | |
CN113239054B (zh) | 信息生成方法及相关装置 | |
CN114791927A (zh) | 一种数据分析方法和装置 | |
CN113792033A (zh) | 一种基于Spark的数据质量核查方法、装置、存储介质及终端 | |
CN113595886A (zh) | 即时通讯消息的处理方法、装置、电子设备及存储介质 | |
CN113205808A (zh) | 一种基于ai咨询云计算搭建方法及系统 | |
CN109902196B (zh) | 一种商标类别推荐方法、装置、计算机设备及存储介质 | |
CN117171244A (zh) | 基于数据中台构建的企业数据管理系统及其数据分析方法 | |
CN114741550B (zh) | 图像搜索方法、装置、电子设备和计算机可读存储介质 | |
CN115409553B (zh) | 一种基于大数据和位置信息的广告投放系统及其方法 | |
CN111159213A (zh) | 一种数据查询方法、装置、系统和存储介质 | |
CN112948251B (zh) | 软件自动测试方法及装置 | |
CN114648010A (zh) | 数据表标准化方法、装置、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |