CN114493535B - 一种基于资产模型的数据驱动用数据中台系统 - Google Patents
一种基于资产模型的数据驱动用数据中台系统 Download PDFInfo
- Publication number
- CN114493535B CN114493535B CN202210108415.5A CN202210108415A CN114493535B CN 114493535 B CN114493535 B CN 114493535B CN 202210108415 A CN202210108415 A CN 202210108415A CN 114493535 B CN114493535 B CN 114493535B
- Authority
- CN
- China
- Prior art keywords
- data
- service
- module
- business service
- business
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 claims abstract description 28
- 238000013439 planning Methods 0.000 claims abstract description 27
- 238000012417 linear regression Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 14
- 230000010354 integration Effects 0.000 claims abstract description 12
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 238000013500 data storage Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 26
- 230000002457 bidirectional effect Effects 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 24
- 230000007246 mechanism Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 238000013523 data management Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000002349 favourable effect Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000013075 data extraction Methods 0.000 description 3
- 238000013499 data model Methods 0.000 description 3
- 238000013079 data visualisation Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Agronomy & Crop Science (AREA)
- Animal Husbandry (AREA)
- Marine Sciences & Fisheries (AREA)
- Mining & Mineral Resources (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于资产模型的数据驱动用数据中台系统,包括数据源、数据集成单元、数据存储单元、数据治理单元、数据资产管理单元及推荐规划服务单元,推荐规划服务单元包括标签推荐模块、模型规划推荐模块及数据服务共享模块。有益效果:可以实现数据资产化和资产业务化,提高数据整合利用效率和数据质量,打通数据孤岛,加强数据共享性,有利于全面掌握核心数据资产现状,保证数据共享安全合规性;此外,本发明不仅可以自动为整合后的数据推荐相应的数据标签,而且还可以采用协同推荐算法和多元线性回归模型同时对业务服务进行推荐,并采用预设置信度的取值方式来分析得到最终的业务服务,从而可以有效地提高业务服务的推荐准确率。
Description
技术领域
本发明涉及数据处理技术领域,具体来说,涉及一种基于资产模型的数据驱动用数据中台系统。
背景技术
在当今的大数据时代背景下,数据作为越来越重要的生产要素,将成为比土地、石油、煤矿等更为核心的生产资源,如何加工利用数据,释放数据价值,实现企业的数字化转型,是企业面临的重要课题。企业为了紧跟市场变化迅速做出反应,越来越多的企业意识到需要沉淀数据,挖掘数据的价值才能拥抱复杂的市场变化,维持企业竞争力。同时,企业IT建设逐渐趋向成熟,企业积累了大量的数据,为企业数字化转型提供了数据基础。企业需要一套成熟的数据产品和先进的数据理念沉淀数据资产,孵化数据应用以实现企业经营目标,即通过一成熟的数据中台系统实现企业经营目标。
数据中台系统是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一数据标准和口径,同时还包括构建数据中台系统过程中的所需要模型服务,算法服务,建设数据中台系统需要的组织、流程、标准、规范和管理制度等。数据中台系统把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,通过数据挖掘和分析工具实现数据服务能力,进而为客户或生态提供高效服务,同时,这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势所在,增强企业快速创新和,助力企业构筑业务生态。因此,本发明提出了一种基于资产模型的数据驱动用数据中台系统。
发明内容
针对相关技术中的问题,本发明提出一种基于资产模型的数据驱动用数据中台系统,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
一种基于资产模型的数据驱动用数据中台系统,包括数据源、数据集成单元、数据存储单元、数据治理单元、数据资产管理单元及推荐规划服务单元;
所述数据源用于提供所需要数据的器件或原始媒体;
所述数据集成单元用于将各业务系统的数据归集至数据中心;
所述数据存储单元用于将采集、抽取的业务数据汇聚后以数据形态的方式进行存储;
所述数据治理单元用于对各业务系统中的数据进行治理,进行数据统一管控;
所述数据资产管理单元用于根据数据资产目录对数据资产进行动态追踪盘点;
所述推荐规划服务单元用于依据数据标签为用户精确推荐相应的业务服务,还用于为各部门及各业务系统提供数据共享服务;
其中,所述推荐规划服务单元包括标签推荐模块、模型规划推荐模块及数据服务共享模块;
所述标签推荐模块用于利用预先构建的基于注意力机制的双向长短期记忆网络模型为业务数据推荐数据标签;
所述模型规划推荐模块用于依据预设置信度为用户精确推荐所需的业务服务;
所述数据服务共享模块用于为各部门及各业务系统提供数据共享服务。
进一步的,所述标签推荐模块包括模型构建训练模块和数据标签输出模块;
其中,所述模型构建训练模块用于利用历史业务数据构建基于注意力机制的双向长短期记忆网络模型并进行训练;
所述数据标签输出模块用于采集业务数据并输入训练后的基于注意力机制的双向长短期记忆网络模型得到与该业务数据相对应的数据标签。
进一步的,所述利用历史业务数据构建基于注意力机制的双向长短期记忆网络模型并进行训练包括以下步骤:
采集历史业务数据,并对该历史业务数据中的数据标签进行标注得到数据集;
基于历史业务数据中业务数据与数据标签之间的关系构建基于注意力机制的双向长短期记忆网络模型;
利用所述数据集对基于注意力机制的双向长短期记忆网络模型进行训练。
进一步的,所述基于注意力机制的双向长短期记忆网络模型由词嵌入层、Bi-LSTM层及Attention层构成;
其中,所述词嵌入层利用预先训练好的Word2vec词向量模型,通过查询每一个词的词向量并把它们组成句向量,所述Bi-LSTM层用于提取每一个词的词向量的特征,所述Attention层用来关注与标签密切相关的信息。
进一步的,所述模型规划推荐模块包括第一业务服务推荐模块、第二业务服务推荐模块和业务服务推荐模块;
其中,所述第一业务服务推荐模块用于利用协同推荐算法依据用户输入的数据标签为用户推荐第一业务服务;
所述第二业务服务推荐模块用于利用多元线性回归模型依据用户输入的数据标签为用户推荐第二业务服务;
所述业务服务推荐模块用于采用预设置信度结合第一业务服务及第二业务服务为用户精确推荐与数据标签相对应的业务服务。
进一步的,所述第一业务服务推荐模块包括相似用户获取模块、业务服务数据集推荐模块和相似第一业务服务推荐模块;
其中,所述相似用户获取模块用于对用户输入的数据标签进行相似度计算,并寻找数据库中具有相似数据标签的用户;
所述业务服务数据集推荐模块用于根据相似度计算生成与该用户输入的数据标签相似的业务服务推荐数据集;
所述相似第一业务服务推荐模块用于基于业务服务推荐数据集为用户推荐相似的第一业务服务。
进一步的,所述第二业务服务推荐模块包括线性关系描述模块和预测业务服务输出模块;
其中,所述线性关系描述模块用于利用多元线性回归模型描述业务服务与数据标签之间的随机线性关系;
所述预测业务服务输出模块用于利用训练后的多元线性回归模型输出与用户输入数据标签相对应的预测业务服务,得到第二业务服务。
进一步的,所述业务服务推荐模块在采用预设置信度结合第一业务服务及第二业务服务为用户精确推荐与数据标签相对应的业务服务时包括以下步骤:
判断第一业务服务与第二业务服务是否相同,若是,则取第一业务或第二业务为精确推荐的业务服务,若否,则根据预设的置信度分析得到精确推荐的业务服务。
进一步的,所述根据预设的置信度分析得到精确推荐的业务服务包括以下步骤:
获取用户输入数据标签的数量并判断其是否大于预先设定的阈值,若是,则取第二业务服务作为精确推荐的业务服务,若否,则取第一业务服务作为精确推荐的业务服务。
本发明的有益效果为:
1)通过建设数据中台,构建多种数据资产模型,可以满足不同企业的业务诉求,形成数据资产到业务应用的闭环,实现数据资产化和资产业务化,并提高数据整合利用效率和数据质量,打通数据孤岛,加强数据共享性,有利于全面掌握核心数据资产现状,保证数据共享安全合规性。
2)通过设置有标签推荐模块及模型规划推荐模块,从而不仅可以在标签推荐模块的作用下自动为整合后的数据推荐相应的数据标签,从而便于工作人员对于数据的查阅与调用,而且可以在模型规划推荐模块的作用下分别基于协同推荐算法和多元线性回归模型为用户推荐相应的第一业务服务和第二业务服务,并利用预设的置信度最终为用户精确推荐与数据标签相对应的业务服务,相比于传统的单一推荐方法,本发明采用协同推荐算法和多元线性回归模型同时对业务服务进行推荐,并采用预设置信度的取值方式来分析得到最终的业务服务,从而可以有效地提高业务服务的推荐准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于资产模型的数据驱动用数据中台系统的结构示意图;
图2是根据本发明实施例的一种基于资产模型的数据驱动用数据中台系统中标签推荐模块的结构示意图;
图3是根据本发明实施例的一种基于资产模型的数据驱动用数据中台系统中模型规划推荐模块的结构示意图;
图4是根据本发明实施例的一种基于资产模型的数据驱动用数据中台系统中第一业务服务推荐模块的结构示意图;
图5是根据本发明实施例的一种基于资产模型的数据驱动用数据中台系统中第二业务服务推荐模块的结构示意图。
图中:
1、数据源;11、数据库;12、接口数据;13、文件数据源;14、流数据;15、爬虫数据;2、数据集成单元;21、全域数据抽取模块;22、实时数据采集模块;3、数据存储单元;31、关系型数据库;32、分布式数据库;33、数据可视化模块;4、数据治理单元;41、数据模型管理模块;42、数据标准管理模块;43、元数据管理模块;44、数据安全管理模块;45、生命周期管理模块;46、数据质量管理模块;5、数据资产管理单元;51、资产盘点模块;52、资产目录模块;53、数据资产模型;54、发布审批模块;6、推荐规划服务单元;61、标签推荐模块;611、模型构建训练模块;612、数据标签输出模块;62、模型规划推荐模块;621、第一业务服务推荐模块;6211、相似用户获取模块;6212、业务服务数据集推荐模块;6213、相似第一业务服务推荐模块;622、第二业务服务推荐模块;6221、线性关系描述模块;6222、预测业务服务输出模块;623、业务服务推荐模块;63、数据服务共享模块。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了一种基于资产模型的数据驱动用数据中台系统。
现结合附图和具体实施方式对本发明进一步说明,如图1-5所示,根据本发明实施例的一种基于资产模型的数据驱动用数据中台系统,包括数据源1、数据集成单元2、数据存储单元3、数据治理单元4、数据资产管理单元5及推荐规划服务单元6;
所述数据源1用于提供所需要数据的器件或原始媒体;
所述数据源1包括数据库11、接口数据12、文件数据源13、流数据14及爬虫数据15;所述数据库11用于各业务系统中数据的存储;所述接口数据12用于存储数据传输时向数据连接线输出的数据;所述文件数据源13用于各业务系统中文件数据来源的存储;所述流数据14用于各业务系统中流数据的存储;所述爬虫数据15用于存储各业务系统中的爬虫数据。
所述数据集成单元2用于将各业务系统的数据归集至数据中心;
所述数据集成单元2包括全域数据抽取模块21和实时数据采集模块22;所述全域数据抽取模块21用于业务系统中数据的抽取;所述实时数据采集模块22用于业务系统中实时数据的采集。
所述数据存储单元3用于将采集、抽取的业务数据汇聚后以数据形态的方式进行存储;
所述数据存储单元3包括关系型数据库31、分布式数据库32和数据可视化模块33;所述关系型数据库31用于采用关系模型来组织数据的存储;所述分布式数据库32用于采用分布式的方式来进行数据的存储;所述数据可视化模块33用于将存储的数据进行可视化处理。
所述数据治理单元4用于对各业务系统中的数据进行治理,进行数据统一管控;
所述数据治理单元4包括数据模型管理模块41、数据标准管理模块42、元数据管理模块43、数据安全管理模块44、生命周期管理模块45及数据质量管理模块46;所述数据模型管理模块41用于根据业务对数据进行分层及整合处理;所述数据标准管理模块42用于指定一系列标准,对元数据进行标准的检查;所述元数据管理模块43用于技术人员进行分析数据来龙去脉及对数据库底层数据质量进行把控;所述数据安全管理模块44用于对数据安全进行管理;所述生命周期管理模块45用于对数据的生命周期进行管理;所述数据质量管理模块46用于根据一系列规则,对库表数据进行校验和整改。
所述数据资产管理单元5用于根据数据资产目录对数据资产进行动态追踪盘点;
所述数据资产管理单元5包括资产盘点模块51、资产目录模块52、数据资产模型53及发布审批模块54;所述资产盘点模块51用于对企业的资产进行盘点;所述资产目录模块52用于根据业务形成资产目录;所述数据资产模型53用于为企业提供多种数据资产模型,使得企业能基于该资产模型,进行微量调整,进行快速部署;所述发布审批模块54用于发布并审核企业的数据资产模型。
所述推荐规划服务单元6用于依据数据标签为用户精确推荐相应的业务服务,还用于为各部门及各业务系统提供数据共享服务。
所述推荐规划服务单元6包括标签推荐模块61、模型规划推荐模块62及数据服务共享模块63;
所述标签推荐模块61用于利用预先构建的基于注意力机制的双向长短期记忆网络模型为业务数据推荐数据标签;
其中,所述标签推荐模块61包括模型构建训练模块611和数据标签输出模块612;
所述模型构建训练模块611用于利用历史业务数据构建基于注意力机制的双向长短期记忆网络模型并进行训练;
具体的,所述利用历史业务数据构建基于注意力机制的双向长短期记忆网络模型并进行训练包括以下步骤:采集历史业务数据,并对该历史业务数据中的数据标签进行标注得到数据集;基于历史业务数据中业务数据与数据标签之间的关系构建基于注意力机制的双向长短期记忆网络模型;利用所述数据集对基于注意力机制的双向长短期记忆网络模型进行训练。
本实施例中采用的基于注意力机制的双向长短期记忆网络模型本质上是一个多标签分类算法,它可以通过学习历史的业务数据中业务数据与数据标签之间的语义联系,得到训练良好的多标排序算法。基于注意力机制的双向长短期记忆网络模型可以对于候选集中的每一个标签都计算出它们的独立置信概率,置信概率值最大的几个标签将会作为Top-k标签推荐给用户。
所述数据标签输出模块612用于采集业务数据并输入训练后的基于注意力机制的双向长短期记忆网络模型得到与该业务数据相对应的数据标签。
所述基于注意力机制的双向长短期记忆网络模型由词嵌入层、Bi-LSTM层及Attention层构成,训练时用的激活函数为Sigmoid;
其中,所述词嵌入层利用预先训练好的Word2vec词向量模型,通过查询每一个词的词向量并把它们组成句向量,所述Bi-LSTM层用于提取每一个词的词向量的特征,所述Attention层用来关注与标签密切相关的信息。
Word2vec,又名word embeddings,中文名“词嵌入技术”,被广泛运用于自然文本领域将文档中的字词转为计算机可以理解的稠密向量(Dense Vector)。Word2vec是一系列用来将自然文本中的字词转化为词向量形式的相关模型的简称。这些模型本质上为一种浅层的神经网络,用来提取预处理之后的文本特征。Word2vec以之前的One-Hot Encoder向量作为输入,在隐藏层进行多次加权计算迭代,便可以将One-Hot Encoder向量转化为低维度的连续值,也就是稠密向量,并且其中意思相近的词将被映射到向量空间中相近的位置。在Word2vec模型训练完成之后,便可以用来映射每个词到一个向量,可用来表示词对词之间的关系,从而得到整个文档的向量表示。
其中,hi由前向LSTM处理得到的以及反向LSTM处理得到的结合而成,且由前一个LSTM单元的细胞状态隐藏层状态以及当前的词向量输入xi计算得到,而由后一个LSTM单元的细胞状态隐藏层状态以及当前的词向量输入得到,和的计算公式如下:
式中,f(LSTM)指的是LSTM的算法。
所述模型规划推荐模块62用于依据预设置信度为用户精确推荐所需的业务服务;
其中,所述模型规划推荐模块62包括第一业务服务推荐模块621、第二业务服务推荐模块622和业务服务推荐模块623;
所述第一业务服务推荐模块621用于利用协同推荐算法依据用户输入的数据标签为用户推荐第一业务服务;
所述第一业务服务推荐模块621包括相似用户获取模块6211、业务服务数据集推荐模块6212和相似第一业务服务推荐模块6213;所述相似用户获取模块6211用于对用户输入的数据标签进行相似度计算,并寻找数据库中具有相似数据标签的用户;所述业务服务数据集推荐模块6212用于根据相似度计算生成与该用户输入的数据标签相似的业务服务推荐数据集;所述相似第一业务服务推荐模块6213用于基于业务服务推荐数据集为用户推荐相似的第一业务服务。
具体的,所述对用户输入的数据标签进行相似度计算,寻找数据库中具有相似数据标签的用户包括以下步骤:
若当前用户选择的数据标签不同时,采用以下公式计算:
sim(u1,u2)=0;
若当前用户选择的数据标签相同时,采用以下公式计算:
其中,sim(u1,u2)为用户u1与u2的相似度,S为数据标签总数,▽在单选选择情况下相同为1,不同为0,且在多选情况下:
根据上述公式判断相似最近用户,并选取相似度最近的若干用户。
具体的,根据相似度计算生成与该用户输入的数据标签相似的业务服务推荐数据集;
所述根据相似度计算生成与该用户输入的数据标签相似的业务服务推荐数据集包括以下步骤:
计算某个业务服务组中业务服务对当前用户输入的推荐值,采用以下公式计算:
选取p值最大的五个业务服务推荐给当前用户,同时后台分析业务服务结果,进行综合业务服务风险评估。
具体的,基于业务服务推荐数据集为用户推荐相似的第一业务服务包括以下步骤:
基于推荐的五个业务服务向用户推荐与输入数据标签相似度最高的业务服务,得到第一业务服务。
所述第二业务服务推荐模块622用于利用多元线性回归模型依据用户输入的数据标签为用户推荐第二业务服务;
其中,所述第二业务服务推荐模块622包括线性关系描述模块6221和预测业务服务输出模块6222;所述线性关系描述模块6221用于利用多元线性回归模型描述业务服务与数据标签之间的随机线性关系;所述预测业务服务输出模块6222用于利用训练后的多元线性回归模型输出与用户输入数据标签相对应的预测业务服务,得到第二业务服务。
具体的,所述利用多元线性回归模型依据用户输入的数据标签为用户推荐第二业务服务包括以下步骤:
利用多元线性回归模型描述业务服务与数据标签之间的随机线性关系,其关系如下:
yi=β0+β1xi1+β2xi2+β3xi3+εi,i=1,2,...,n;
其中,yi表示回归预测值,xi1表示数据标签中业务用户数,xi2表示数据标签中业务类型,xi3表示数据标签中业务分组数据汇聚协议、协议数据单元吞吐量,β0,β1,β2,β3表示回归系数,εi表示随机误差项,各εi相互独立且服从N(0,σ2)分布,n表示样本容量,且n个样本观测值如下:
(yi,xi1,xi2,xi3),i=1,2,...,n;
所述利用多元线性回归模型采用多元线性回归法建立,参数通过最小二乘法确定;
记输入矩阵X、输出矩阵Y、系数矩阵β如下:
采用最小二乘法确定回归方程的参数估计值:
利用训练后的多元线性回归模型输出与用户输入数据标签相对应的预测业务服务,得到第二业务服务。
所述业务服务推荐模块623用于采用预设置信度结合第一业务服务及第二业务服务为用户精确推荐与数据标签相对应的业务服务。
其中,所述采用预设置信度结合第一业务服务及第二业务服务为用户精确推荐与数据标签相对应的业务服务包括以下步骤:
判断第一业务服务与第二业务服务是否相同,若是,则取第一业务或第二业务为精确推荐的业务服务,若否,则根据预设的置信度分析得到精确推荐的业务服务;
具体的,所述根据预设的置信度分析得到精确推荐的业务服务包括以下步骤:
获取用户输入数据标签的数量并判断其是否大于预先设定的阈值(本实施例中预先设定的阈值可以根据预先进行的实验分析得到,并选取最优的阈值),若是,则判定多元线性回归模型的置信度更高,取第二业务服务作为精确推荐的业务服务,若否,则判定协同推荐算法的置信度更高,取第一业务服务作为精确推荐的业务服务。
所述数据服务共享模块63用于为各部门及各业务系统提供数据共享服务。
综上所述,借助于本发明的上述技术方案,通过建设数据中台,构建多种数据资产模型,可以满足不同企业的业务诉求,形成数据资产到业务应用的闭环,实现数据资产化和资产业务化,并提高数据整合利用效率和数据质量,打通数据孤岛,加强数据共享性,有利于全面掌握核心数据资产现状,保证数据共享安全合规性。
此外,通过设置有标签推荐模块61及模型规划推荐模块62,从而不仅可以在标签推荐模块61的作用下自动为整合后的数据推荐相应的数据标签,从而便于工作人员对于数据的查阅与调用,而且可以在模型规划推荐模块62的作用下分别基于协同推荐算法和多元线性回归模型为用户推荐相应的第一业务服务和第二业务服务,并利用预设的置信度最终为用户精确推荐与数据标签相对应的业务服务,相比于传统的单一推荐方法,本发明采用协同推荐算法和多元线性回归模型同时对业务服务进行推荐,并采用预设置信度的取值方式来分析得到最终的业务服务,从而可以有效地提高业务服务的推荐准确率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于资产模型的数据驱动用数据中台系统,其特征在于,包括数据源(1)、数据集成单元(2)、数据存储单元(3)、数据治理单元(4)、数据资产管理单元(5)及推荐规划服务单元(6);
所述数据源(1)用于提供所需要数据的器件或原始媒体;
所述数据集成单元(2)用于将各业务系统的数据归集至数据中心;
所述数据存储单元(3)用于将采集、抽取的业务数据汇聚后以数据形态的方式进行存储;
所述数据治理单元(4)用于对各业务系统中的数据进行治理,进行数据统一管控;
所述数据资产管理单元(5)用于根据数据资产目录对数据资产进行动态追踪盘点;
所述推荐规划服务单元(6)用于依据数据标签为用户精确推荐相应的业务服务,还用于为各部门及各业务系统提供数据共享服务;
其中,所述推荐规划服务单元(6)包括标签推荐模块(61)、模型规划推荐模块(62)及数据服务共享模块(63);
所述标签推荐模块(61)用于利用预先构建的基于注意力机制的双向长短期记忆网络模型为业务数据推荐数据标签;
所述模型规划推荐模块(62)用于依据预设置信度为用户精确推荐所需的业务服务;
所述数据服务共享模块(63)用于为各部门及各业务系统提供数据共享服务;
所述模型规划推荐模块(62)包括第一业务服务推荐模块(621)、第二业务服务推荐模块(622)和业务服务推荐模块(623);
其中,所述第一业务服务推荐模块(621)用于利用协同推荐算法依据用户输入的数据标签为用户推荐第一业务服务;
所述第二业务服务推荐模块(622)用于利用多元线性回归模型依据用户输入的数据标签为用户推荐第二业务服务;
所述业务服务推荐模块(623)用于采用预设置信度结合第一业务服务及第二业务服务为用户精确推荐与数据标签相对应的业务服务;
所述第一业务服务推荐模块(621)包括相似用户获取模块(6211)、业务服务数据集推荐模块(6212)和相似第一业务服务推荐模块(6213);
其中,所述相似用户获取模块(6211)用于对用户输入的数据标签进行相似度计算,并寻找数据库中具有相似数据标签的用户;
所述业务服务数据集推荐模块(6212)用于根据相似度计算生成与该用户输入的数据标签相似的业务服务推荐数据集;
所述相似第一业务服务推荐模块(6213)用于基于业务服务推荐数据集为用户推荐相似的第一业务服务;
所述第二业务服务推荐模块(622)包括线性关系描述模块(6221)和预测业务服务输出模块(6222);
其中,所述线性关系描述模块(6221)用于利用多元线性回归模型描述业务服务与数据标签之间的随机线性关系;
所述预测业务服务输出模块(6222)用于利用训练后的多元线性回归模型输出与用户输入数据标签相对应的预测业务服务,得到第二业务服务;
所述业务服务推荐模块(623)在采用预设置信度结合第一业务服务及第二业务服务为用户精确推荐与数据标签相对应的业务服务时包括以下步骤:
判断第一业务服务与第二业务服务是否相同,若是,则取第一业务或第二业务为精确推荐的业务服务,若否,则根据预设的置信度分析得到精确推荐的业务服务;
所述根据预设的置信度分析得到精确推荐的业务服务包括以下步骤:
获取用户输入数据标签的数量并判断其是否大于预先设定的阈值,若是,则取第二业务服务作为精确推荐的业务服务,若否,则取第一业务服务作为精确推荐的业务服务。
2.根据权利要求1所述的一种基于资产模型的数据驱动用数据中台系统,其特征在于,所述标签推荐模块(61)包括模型构建训练模块(611)和数据标签输出模块(612);
其中,所述模型构建训练模块(611)用于利用历史业务数据构建基于注意力机制的双向长短期记忆网络模型并进行训练;
所述数据标签输出模块(612)用于采集业务数据并输入训练后的基于注意力机制的双向长短期记忆网络模型得到与该业务数据相对应的数据标签。
3.根据权利要求2所述的一种基于资产模型的数据驱动用数据中台系统,其特征在于,所述利用历史业务数据构建基于注意力机制的双向长短期记忆网络模型并进行训练包括以下步骤:
采集历史业务数据,并对该历史业务数据中的数据标签进行标注得到数据集;
基于历史业务数据中业务数据与数据标签之间的关系构建基于注意力机制的双向长短期记忆网络模型;
利用所述数据集对基于注意力机制的双向长短期记忆网络模型进行训练。
4.根据权利要求3所述的一种基于资产模型的数据驱动用数据中台系统,其特征在于,所述基于注意力机制的双向长短期记忆网络模型由词嵌入层、Bi-LSTM层及Attention层构成;
其中,所述词嵌入层利用预先训练好的Word2vec词向量模型,通过查询每一个词的词向量并把它们组成句向量,所述Bi-LSTM层用于提取每一个词的词向量的特征,所述Attention层用来关注与标签密切相关的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210108415.5A CN114493535B (zh) | 2022-01-28 | 2022-01-28 | 一种基于资产模型的数据驱动用数据中台系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210108415.5A CN114493535B (zh) | 2022-01-28 | 2022-01-28 | 一种基于资产模型的数据驱动用数据中台系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114493535A CN114493535A (zh) | 2022-05-13 |
CN114493535B true CN114493535B (zh) | 2022-09-06 |
Family
ID=81476527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210108415.5A Active CN114493535B (zh) | 2022-01-28 | 2022-01-28 | 一种基于资产模型的数据驱动用数据中台系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114493535B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115456101B (zh) * | 2022-09-23 | 2023-09-12 | 上海豹云网络信息服务有限公司 | 一种基于数据中台的数据安全传输方法及系统 |
CN116522095B (zh) * | 2023-06-30 | 2023-09-08 | 中交第四航务工程勘察设计院有限公司 | 一种基于数据中台的主数据治理方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781407A (zh) * | 2019-10-21 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 用户标签生成方法、装置及计算机可读存储介质 |
CN113674065A (zh) * | 2021-08-30 | 2021-11-19 | 中国平安人寿保险股份有限公司 | 基于服务触点的业务推荐方法、装置、电子设备及介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11669914B2 (en) * | 2018-05-06 | 2023-06-06 | Strong Force TX Portfolio 2018, LLC | Adaptive intelligence and shared infrastructure lending transaction enablement platform responsive to crowd sourced information |
CN109615437A (zh) * | 2018-12-18 | 2019-04-12 | 北京蚁链科技有限公司 | 销售获客跟踪管理方法 |
CN110569353B (zh) * | 2019-07-03 | 2023-04-07 | 重庆大学 | 一种基于注意力机制的Bi-LSTM的标签推荐方法 |
US11954577B2 (en) * | 2019-09-13 | 2024-04-09 | Intuit Inc. | Deep neural network based user segmentation |
CN111045656A (zh) * | 2020-03-12 | 2020-04-21 | 大汉软件股份有限公司 | 一种构建政务服务中台体系基础架构的方法和系统 |
CN111488524B (zh) * | 2020-04-08 | 2022-08-16 | 吉林大学 | 一种面向注意力的语义敏感的标签推荐方法 |
US11461824B2 (en) * | 2020-05-18 | 2022-10-04 | Salesforce, Inc. | Systems and methods of product recommendation and integrated language modelling |
CN112256859A (zh) * | 2020-10-23 | 2021-01-22 | 辽宁工程技术大学 | 一种基于双向长短期记忆网络显式信息耦合分析的推荐方法 |
CN112396404A (zh) * | 2020-11-27 | 2021-02-23 | 广州光点信息科技有限公司 | 一种数据中台系统 |
CN112905685B (zh) * | 2021-03-12 | 2023-11-28 | 国网安徽省电力有限公司 | 一种面向信息化建设的架构管控系统及设备 |
-
2022
- 2022-01-28 CN CN202210108415.5A patent/CN114493535B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781407A (zh) * | 2019-10-21 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 用户标签生成方法、装置及计算机可读存储介质 |
CN113674065A (zh) * | 2021-08-30 | 2021-11-19 | 中国平安人寿保险股份有限公司 | 基于服务触点的业务推荐方法、装置、电子设备及介质 |
Non-Patent Citations (1)
Title |
---|
基于客户画像的精准推荐;刘光榕等;《科技经济导刊》;20161215(第35期);第28+84页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114493535A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428053B (zh) | 一种面向税务领域知识图谱的构建方法 | |
CN110751261B (zh) | 神经网络模型的训练方法和系统以及预测方法和系统 | |
CN114493535B (zh) | 一种基于资产模型的数据驱动用数据中台系统 | |
CN106445988A (zh) | 一种大数据的智能处理方法和系统 | |
CN117271767A (zh) | 基于多智能体的运维知识库的建立方法 | |
CN112308230A (zh) | 一种资产管理全生命周期知识库的构建及应用方法 | |
Chen et al. | Forecasting directions, dates, and causes of future technological revolutions concerning the growth of human capital | |
CN115409127A (zh) | 一种合同违约风险预测模型的训练方法和相关装置 | |
CN113902569A (zh) | 数字资产中的绿色资产的占比的识别方法及相关产品 | |
Mandilara et al. | Knowledge Graph Data Enrichment based on a Software Library for Text Mapping to the Sustainable Development Goals. | |
CN116823321B (zh) | 一种电商用经济管理数据分析方法及系统 | |
CN117371940A (zh) | 一种金融信创管理全息智能化控制方法及系统 | |
Li et al. | PecidRL: Petition expectation correction and identification based on deep reinforcement learning | |
Zhao et al. | Safe semi-supervised classification algorithm combined with active learning sampling strategy | |
CN115292274B (zh) | 一种数据仓库主题模型构建方法和系统 | |
CN116629258A (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
Li et al. | An improved genetic-XGBoost classifier for customer consumption behavior prediction | |
CN116452353A (zh) | 一种财务数据管理方法及系统 | |
Xu | Research on enterprise knowledge unified retrieval based on industrial big data | |
Karthikeyan et al. | Machine learning based student performance analysis system | |
Pawade et al. | Survey on Resume and Job Profile Matching System | |
Boppana et al. | Machine Learning Based Stock Price Prediction by Integrating ARIMA model and Sentiment Analysis with Insights from News and Information | |
KR102666388B1 (ko) | 유망기술 발전가능성 예측정보 생성 장치 및 방법 | |
Kinger et al. | Towards smarter hiring: resume parsing and ranking with YOLOv5 and DistilBERT | |
Zhang et al. | Multiple science data-oriented Technology Roadmapping method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |