CN115470788A - 一种用于数据中台的数据分析方法及系统 - Google Patents
一种用于数据中台的数据分析方法及系统 Download PDFInfo
- Publication number
- CN115470788A CN115470788A CN202211420690.7A CN202211420690A CN115470788A CN 115470788 A CN115470788 A CN 115470788A CN 202211420690 A CN202211420690 A CN 202211420690A CN 115470788 A CN115470788 A CN 115470788A
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- sub
- chain
- functional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种用于数据中台的数据分析方法及系统,包括:获取数据中台接收到的数据,对数据进行状态预处理;基于数据属性将状态预处理后的数据划分为功能数据以及特征数据;提取特征数据的第一特征词进行关联分析;提取功能数据的第二特征词进行功能分析;基于关联分析结果以及功能分析结果,确定数据中台接收到的数据存在的数据异常以及数据中台存在的本身异常。通过依次分析特征数据的第一特征词以及功能数据的第二特征词,得到关联分析结果以及功能分析结果,确定数据中台接收到的数据存在的数据异常以及数据中台存在的本身异常,提高数据中台工作效率,确保数据中台正常运行以及数据中台的数据分析工作正常。
Description
技术领域
本发明涉及数据分析技术领域,特别涉及一种用于数据中台的数据分析方法及系统。
背景技术
目前,随着科学技术的发展,各大企业都将重点转向数字化,生产、作业数字化代表了一个企业的现代化水平,成为衡量企业发展的重要指标。在企业数字化转型过程中,对各业务单元业务与数据的沉淀,构建包括数据技术、数据治理、数据运营等数据建设、管理、使用体系,实现数据赋能的数据中台应运而生。数据中台,是新型信息化应用框架体系中的核心,实现企业大数据采集、治理、分析挖掘、指标应用等功能。其中,数据中台中的数据分析功能最为重要,而对于数据的异常分析以及对数据中台异常的分析是很少见的。
因此,本发明提供了一种用于数据中台的数据分析方法及系统。
发明内容
本发明提供一种用于数据中台的数据分析方法及系统,用以通过对数据中台收到的数据进行预处理,还通过对功能数据与特征数据的划分,依次分析特征数据的第一特征词以及功能数据的第二特征词,得到关联分析结果以及功能分析结果,确定数据中台接收到的数据存在的数据异常以及数据中台存在的本身异常,提高数据中台工作效率,确保数据中台正常运行以及数据中台的数据分析工作正常。
本发明提供一种用于数据中台的数据分析方法,包括:
步骤1:获取数据中台接收到的数据,对所述数据进行状态预处理;
步骤2:基于数据属性将状态预处理后的数据划分为功能数据以及特征数据;
步骤3:提取特征数据的第一特征词进行关联分析;
步骤4:提取功能数据的第二特征词进行功能分析;
步骤5:基于关联分析结果以及功能分析结果,确定所述数据中台接收到的数据存在的数据异常以及所述数据中台存在的本身异常。
优选的,本发明提供一种用于数据中台的数据分析方法,获取数据中台接收到的数据,对所述数据进行状态预处理,包括:
将数据中台在预设操作行为下接收到的每个数据依次输入到数据熵值计算模型,得到每个数据的数据熵值;
根据数据中台接收数据的时间,对所有数据熵值进行时间排序,并得到每两个相邻数据的熵值差;
提取熵值差大于预设熵值差的第一相邻数据,并剔除所述第一相邻数据中的后一个数据,保留所述第一相邻数据中的前一个数据;
提取熵值差小于或等于预设熵值差的第二相邻数据并保留;
基于保留的数据,构建数据链,并按照数量相等原则将所述数据链划分为若干数据子链。
优选的,本发明提供一种用于数据中台的数据分析方法,基于数据属性将状态预处理后的数据划分为功能数据以及特征数据,包括:
构建功能区域以及特征区域,并将所有数据子链放入所述功能区域;
获取每个数据子链的数据内容,输入到数据子链属性指数计算模型,得到每个数据子链的属性指数;
基于预设功能属性指数范围,对超出预设功能属性指数范围的属性指数相对应的数据子链赋换区标记,将所有带有换区标记的数据子链转移到特征区域,得到特征数据;
将所述功能区域的剩余数据子链所对应的数据作为功能数据。
优选的,本发明提供一种用于数据中台的数据分析方法,提取特征数据的第一特征词进行关联分析,包括:
获取与所述特征数据对应的第一子链,并确定每个第一子链的源数据;
根据每个第一子链对应源数据中每个第一数据的嵌入表示,构建得到对应源数据的特征向量;
基于对应源数据的特征向量以及预设向量的比较,确定对应源数据的差异类型,并将差异类型相同的第一子链进行组合,构建得到若干个数据子链集合;
确定每个数据子链集合中每个第二子链的头部数据以及尾部数据,得到每个第二子链的头部数据的第一特征词以及对应尾部数据的第一特征词;
依次将每个第二子链的头部数据的第一特征词与同个数据子链集合中的其余第二子链的尾部数据的第一特征词进行贡献度分析,选取贡献度数值最大的作为第一贡献度;
若第一贡献度大于或等于第一预设关联贡献度,则判定所述第一贡献度相对应的两个第二子链的头部数据与尾部数据相关联,并做内关联标记;
若第一贡献度小于第一预设关联贡献度,则判定所述第一贡献度相对应的两个第二子链的头部数据与尾部数据不关联,并做外关联标记;
将同个数据子链集合中的每个有外关联标记的第二子链的头部数据与其余数据子链集合中有外关联标记的第二子链的尾部数据进行贡献度分析,选取贡献度数值最大的作为第二贡献度;
若第二贡献度大于或等于第二预设关联贡献度,则所述第二贡献度相对应的两个第二子链的头部数据与尾部数据相关联,并做外关联成功标记;
基于不同数据子链集合所对应的内关联标记、外关联成功标记、内关联标记的数量以及外关联成功的数量,输入到子链关联模型,得到关联拓扑图。
优选的,本发明提供一种用于数据中台的数据分析方法,提取功能数据的第二特征词进行功能分析,包括:
获取所述功能数据的功能类型,并确定每个功能类型所匹配的数据的数据特征并结合对应功能类型进行编码,得到功能类型特征向量;
提取所述功能数据中的每个第三子链所包含数据的第二特征词,并对所述第二特征词进行编码,得到第二特征向量;
依次计算所述第二特征向量与每个功能类型特征向量的匹配指数,选取数值最大的匹配指数作为第二匹配指数;
若所述第二匹配指数大于或等于预设匹配指数,则所述第二匹配指数相对应的第三子链与数据功能类型相匹配,获取得到对应第三子链的数据功能类型。
优选的,本发明提供一种用于数据中台的数据分析方法,依次计算所述第二特征向量与每个功能类型特征向量的匹配指数,包括:
其中,表示第二特征向量与对应功能类型特征向量的匹配指数;表示第二
特征向量中的元素个数,其中,第二特征向量的元素个数与功能类型特征向量的元素个数
相等;表示第二特征向量中第个元素的数值;表示功能类型特征向量中第个元
素的数值;表示对应功能类型特征向量的匹配权重。
优选的,本发明提供一种用于数据中台的数据分析方法,基于关联分析结果以及功能分析结果,确定所述数据中台接收到的数据存在的数据异常以及所述数据中台存在的本身异常,包括:
将功能数据的每个第三子链的数据功能类型以及特征数据的关联拓扑图输入到数据子链-网模拟模型,得到数据模拟网;
对所述数据模拟网进行异常检测,确定数据中台接收到的数据中存在的数据异常。
优选的,本发明提供一种用于数据中台的数据分析方法,基于关联分析结果以及功能分析结果,确定所述数据中台接收到的数据存在的数据异常以及所述数据中台存在的本身异常,还包括:
获取所述数据模拟网,输入到数据模拟网断链判断模型,得到数据模拟网断链数量,若断链数量大于或等于预设断链异常数量,则确定数据中台存在异常。
本发明提供一种用于数据中台的数据分析系统,包括:
预处理模块:获取数据中台接收到的数据,对所述数据进行状态预处理;
划分模块:基于数据属性将状态预处理后的数据划分为功能数据以及特征数据;
关联分析模块:提取特征数据的第一特征词进行关联分析;
功能分析模块:提取功能数据的第二特征词进行功能分析;
异常确定模块:基于关联分析结果以及功能分析结果,确定所述数据中台接收到的数据存在的数据异常以及所述数据中台存在的本身异常。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种用于数据中台的数据分析方法的流程图;
图2为本发明实施例中一种用于数据中台的数据分析系统的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本发明实施例提供一种用于数据中台的数据分析方法,如图1所示,包括:
步骤1:获取数据中台接收到的数据,对所述数据进行状态预处理;
步骤2:基于数据属性将状态预处理后的数据划分为功能数据以及特征数据;
步骤3:提取特征数据的第一特征词进行关联分析;
步骤4:提取功能数据的第二特征词进行功能分析;
步骤5:基于关联分析结果以及功能分析结果,确定所述数据中台接收到的数据存在的数据异常以及所述数据中台存在的本身异常。
该实施例中,状态预处理指的是通过对数据中台接收到的数据中的相邻数据的数据熵值求差,将大于预设熵值差的数据熵值差相对应的相邻数据中的后一个数据进行剔除,从而达到减少无用数据干扰数据分析的目的。
该实施例中,数据属性指的是数据本身的一种特性,包括:功能属性、特征属性。
该实施例中,功能数据指的是含有数据需要实现的功能的数据,从而达到实现数据功能的目的。
该实施例中,特征数据指的是不包含数据需要实现的功能的数据,只含有数据信息的数据。
该实施例中,第一特征词指的是能够反映特征数据特征,可作为特征数据的区分和鉴别标准的特征词,从而达到对特征数据进行区分的目的。
该实施例中,关联分析指的是对于在特征数据中,查找存在于特征数据之间的频繁模式、关联、相关性或因果结构,或者说,关联分析是发现特征数据中不同特征数据之间的联系,得到关联拓扑图。
该实施例中,第二特征词能够反映功能数据特征,可作为功能数据的区分和鉴别标准的特征词,从而达到对功能数据进行区分的目的。
该实施例中,功能分析指的是对功能数据中数据功能类型的分析。
上述技术方案的有益效果是:通过对数据中台收到的数据进行预处理,还通过对功能数据与特征数据的划分,依次分析特征数据的第一特征词以及功能数据的第二特征词,得到关联分析结果以及功能分析结果,确定数据中台接收到的数据存在的数据异常以及数据中台存在的本身异常,提高数据中台工作效率,确保数据中台正常运行以及数据中台的数据分析工作正常。
实施例2:
本发明实施例提供一种用于数据中台的数据分析方法,获取数据中台接收到的数据,对所述数据进行状态预处理,包括:
将数据中台在预设操作行为下接收到的每个数据依次输入到数据熵值计算模型,得到每个数据的数据熵值;
根据数据中台接收数据的时间,对所有数据熵值进行时间排序,并得到每两个相邻数据的熵值差;
提取熵值差大于预设熵值差的第一相邻数据,并剔除所述第一相邻数据中的后一个数据,保留所述第一相邻数据中的前一个数据;
提取熵值差小于或等于预设熵值差的第二相邻数据并保留;
基于保留的数据,构建数据链,并按照数量相等原则将所述数据链划分为若干数据子链。
该实施例中,预设操作行为指的是预先设置好的数据中台的收集数据的操作行为。
该实施例中,数据熵值计算模型指的是由数据以及相对应的熵值计算而来的,能够计算数据的熵值,从而达到对数据进行筛选的目的。
该实施例中,预设熵值差指的是预先设置好的相邻数据的熵值差在一定范围内时能够代表相邻数据有关联的熵值差临界值。
该实施例中,数据链指的是数据中台收到的所有数据构成的数据网。
该实施例中,数据子链指的是由数据链划分的数据量相等的数据链。
上述技术方案的有益效果是:通过对数据的数据熵值进行计算,还通过对相邻数据的数据熵值进行比较,将干扰、无用的数据进行剔除,筛选出可用数据,提高数据中台的数据分析效率与准确性。
实施例3:
本发明实施例提供一种用于数据中台的数据分析方法,基于数据属性将状态预处理后的数据划分为功能数据以及特征数据,包括:
构建功能区域以及特征区域,并将所有数据子链放入所述功能区域;
获取每个数据子链的数据内容,输入到数据子链属性指数计算模型,得到每个数据子链的属性指数;
基于预设功能属性指数范围,对超出预设功能属性指数范围的属性指数相对应的数据子链赋换区标记,将所有带有换区标记的数据子链转移到特征区域,得到特征数据;
将所述功能区域的剩余数据子链所对应的数据作为功能数据。
该实施例中,功能区域指的是放置功能数据的区域,从而达到区分功能数据和特征数据的目的。
该实施例中,特征区域指的是放置特征数据的区域,从而达到区分功能数据和特征数据的目的。
该实施例中,数据子链属性指数计算模型指的是由数据子链以及相对应的属性指数训练而来的,能够计算数据子链的属性指数,从而达到确定其属性的目的。
该实施例中,属性指数指的是能够准确表现数据子链的属性的指数。
该实施例中,预设功能属性指数范围指的是预先设置的属性指数在此范围内的为功能数据,从而达到筛选功能数据的目的。
该实施例中,换区标记指的是为了将非功能数据更换到特征区域,为超出预设功能属性指数范围的属性指数相对应的数据子链做的标记。
上述技术方案的有益效果是:通过对数据的属性指数的判断,区分功能数据与特征数据,为后续对特征数据与功能数据分别进行分析做了准备,有助于提高数据中台的数据分析的准确性以及效率。
实施例4:
本发明实施例提供一种用于数据中台的数据分析方法,提取特征数据的第一特征词进行关联分析,包括:
获取与所述特征数据对应的第一子链,并确定每个第一子链的源数据;
根据每个第一子链对应源数据中每个第一数据的嵌入表示,构建得到对应源数据的特征向量;
基于对应源数据的特征向量以及预设向量的比较,确定对应源数据的差异类型,并将差异类型相同的第一子链进行组合,构建得到若干个数据子链集合;
确定每个数据子链集合中每个第二子链的头部数据以及尾部数据,得到每个第二子链的头部数据的第一特征词以及对应尾部数据的第一特征词;
依次将每个第二子链的头部数据的第一特征词与同个数据子链集合中的其余第二子链的尾部数据的第一特征词进行贡献度分析,选取贡献度数值最大的作为第一贡献度;
若第一贡献度大于或等于第一预设关联贡献度,则判定所述第一贡献度相对应的两个第二子链的头部数据与尾部数据相关联,并做内关联标记;
若第一贡献度小于第一预设关联贡献度,则判定所述第一贡献度相对应的两个第二子链的头部数据与尾部数据不关联,并做外关联标记;
将同个数据子链集合中的每个有外关联标记的第二子链的头部数据与其余数据子链集合中有外关联标记的第二子链的尾部数据进行贡献度分析,选取贡献度数值最大的作为第二贡献度;
若第二贡献度大于或等于第二预设关联贡献度,则所述第二贡献度相对应的两个第二子链的头部数据与尾部数据相关联,并做外关联成功标记;
基于不同数据子链集合所对应的内关联标记、外关联成功标记、内关联标记的数量以及外关联成功的数量,输入到子链关联模型,得到关联拓扑图。
该实施例中,第一子链指的是特征数据相对应的数据子链。
该实施例中,源数据指的是直接来自源文件的数据,未经过加工和包装处理的数据,源数据是特征创建之后的原始状态。
该实施例中,嵌入表示指的是将每个第一子链对应源数据中每个第一数据在网络最后一层的向量化表示给输出出来,丢掉了网络的其他层对第一数据的特征的抽取与表示。
该实施例中,特征向量指的是将每个第一子链对应源数据中每个第一数据在嵌入表示后的向量表示,能够代表每个第一子链对应源数据的特征。
该实施例中,预设向量指的是为了将源数据的特征向量分出差异类型,预先设置的每种差异类型的参考向量。
该实施例中,第二子链指的是每个数据子链集合中的数据子链。
该实施例中,头部数据指的是数据子链中处在头部的最小单元的数据。
该实施例中,尾部数据指的是数据子链中处在尾部的最小单元的数据。
该实施例中,第一特征词指的是能够反映特征数据特征,可作为特征数据的区分和鉴别标准的特征词,从而达到对特征数据进行区分的目的。
该实施例中,贡献度分析指的是第二子链的头部数据的第一特征词为同个数据子链集合中的其余第二子链的尾部数据的第一特征词的影响贡献度,能够代表第二子链的头部数据的第一特征词与同个数据子链集合中的其余第二子链的尾部数据的第一特征词的关联度。
该实施例中,第一预设关联贡献度指的是预先设置的第二子链的头部数据的第一特征词与同个数据子链集合中的其余第二子链的尾部数据的第一特征词有关联的最低贡献度。
该实施例中,内关联标记指的是表示第二子链的头部数据的第一特征词与同个数据子链集合中的其余第二子链的尾部数据的第一特征词有关联的标记。
该实施例中,外关联标记指的是表示第二子链的头部数据的第一特征词与同个数据子链集合中的其余第二子链的尾部数据的第一特征词无关联,进行外部关联进程的标记。
该实施例中,第二预设关联贡献度指的是预先设置的外关联标记的第二子链的头部数据与其余数据子链集合中有外关联标记的第二子链的尾部数据有关联的最低贡献度。
该实施例中,外关联成功标记指的是表示外关联标记的第二子链的头部数据与其余数据子链集合中有外关联标记的第二子链的尾部数据有关联的标记。
该实施例中,子链关联模型指的是由内关联标记、外关联成功标记、内关联标记的数量以及外关联成功的数量以及相对应的关联拓扑图训练而成的,能够将不同数据子链集合所对应的内关联标记、外关联成功标记、内关联标记的数量以及外关联成功的数量转化为关联拓扑图的模型。
该实施例中,关联拓扑图指的是由数据子链按照关联关系构成的网络结构图。
上述技术方案的有益效果是:通过对特征数据进行源数据分析、嵌入表示后,得到按照特征数据的差异类型划分的若干数据子链集合,对数据子链集合中的数据子链的第一特征词进行内关联与外关联,得到特征数据的特征分析结果,有助于提高数据中台的数据分析的准确性以及效率。
实施例5:
本发明实施例提供一种用于数据中台的数据分析方法,提取功能数据的第二特征词进行功能分析,包括:
获取所述功能数据的功能类型,并确定每个功能类型所匹配的数据的数据特征并结合对应功能类型进行编码,得到功能类型特征向量;
提取所述功能数据中的每个第三子链所包含数据的第二特征词,并对所述第二特征词进行编码,得到第二特征向量;
依次计算所述第二特征向量与每个功能类型特征向量的匹配指数,选取数值最大的匹配指数作为第二匹配指数;
若所述第二匹配指数大于或等于预设匹配指数,则所述第二匹配指数相对应的第三子链与数据功能类型相匹配,获取得到对应第三子链的数据功能类型。
该实施例中,功能类型指的是功能数据需要实现的功能类型,包括:计算功能、传递功能、显示功能。
该实施例中,功能类型特征向量指的是按照每个数据功能的功能类型编码确定的,能够代表该功能类型的特征的向量。
该实施例中,第三子链指的是功能数据中的数据子链。
该实施例中,第二特征词指的是每个第三子链包含数据的能够反映功能数据的数据特征,可作为功能数据的区分和鉴别标准的特征词,从而达到对功能数据进行区分的目的。
该实施例中,第二特征向量指的是对第二特征词进行编码得到的能够代表第二特征词对应的第三子链的数据的特征的向量。
该实施例中,预设匹配指数指的是预先设置的第二特征向量与功能类型特征向量相匹配的最低匹配指数。
上述技术方案的有益效果是:通过对功能类型特征向量与功能数据中数据子链的特征向量计算,得到功能数据相对应的功能类型,对功能数据的分析,有利于提高数据中台的数据分析的准确性以及效率。
实施例6:
本发明实施例提供一种用于数据中台的数据分析方法,依次计算所述第二特征向量与每个功能类型特征向量的匹配指数,包括:
其中,表示第二特征向量与对应功能类型特征向量的匹配指数;表示第二
特征向量中的元素个数,其中,第二特征向量的元素个数与功能类型特征向量的元素个数
相等;表示第二特征向量中第个元素的数值;表示功能类型特征向量中第个元
素的数值;表示对应功能类型特征向量的匹配权重。
上述技术方案的有益效果是:通过对第二特征向量与每个功能类型特征向量的匹配指数进行计算,将功能数据与功能类型精准匹配,精准的分析了功能数据,提高了数据中台的数据分析的准确性以及效率。
实施例7:
本发明实施例提供一种用于数据中台的数据分析方法,基于关联分析结果以及功能分析结果,确定所述数据中台接收到的数据存在的数据异常以及所述数据中台存在的本身异常,包括:
将功能数据的每个第三子链的数据功能类型以及特征数据的关联拓扑图输入到数据子链-网模拟模型,得到数据模拟网;
对所述数据模拟网进行异常检测,确定数据中台接收到的数据中存在的数据异常。
该实施例中,数据子链-网模拟模型指的是由数据功能类型、关联拓扑图以及数据模拟网训练而成的,能将数据功能类型、关联拓扑图转化为数据模拟网的模型。
该实施例中,数据模拟网指的是按照数据功能类型、关联拓扑图中的数据子链关联关系模拟而成的数据网,能够表示功能数据与特征数据相结合的模拟效果。
上述技术方案的有益效果是:通过对关联分析结果以及功能分析结果的综合分析,得到功能数据和特征数据相结合的数据模拟网,便于查找数据子链中的数据异常,确保数据中台正常运行以及数据中台的数据分析工作正常。
实施例8:
本发明实施例提供一种用于数据中台的数据分析方法,基于关联分析结果以及功能分析结果,确定所述数据中台接收到的数据存在的数据异常以及所述数据中台存在的本身异常,还包括:
获取所述数据模拟网,输入到数据模拟网断链判断模型,得到数据模拟网断链数量,若断链数量大于或等于预设断链异常数量,则确定数据中台存在异常。
该实施例中,数据模拟网断链判断模型指的是由数据模拟网以及数据模拟网断链数量训练得到的,能够判断出数据模拟网断链数量的模型。
该实施例中,预设断链异常数量指的是预先设置好的判断数据模拟网断链异常的数量。
上述技术方案的有益效果是:通过对数据模拟网的断链判断,得到数据模拟网断链数量,判断数据中台工作异常,及时采取数据中台维护措施,确保数据中台正常运行以及数据中台的数据分析工作正常。
实施例9:
一种用于数据中台的数据分析系统,如图2所示,包括:
预处理模块:获取数据中台接收到的数据,对所述数据进行状态预处理;
划分模块:基于数据属性将状态预处理后的数据划分为功能数据以及特征数据;
关联分析模块:提取特征数据的第一特征词进行关联分析;
功能分析模块:提取功能数据的第二特征词进行功能分析;
异常确定模块:基于关联分析结果以及功能分析结果,确定所述数据中台接收到的数据存在的数据异常以及所述数据中台存在的本身异常。
上述技术方案的有益效果是:通过对数据中台收到的数据进行预处理,还通过对功能数据与特征数据的划分,依次分析特征数据的第一特征词以及功能数据的第二特征词,得到关联分析结果以及功能分析结果,确定数据中台接收到的数据存在的数据异常以及数据中台存在的本身异常,提高数据中台工作效率,确保数据中台正常运行以及数据中台的数据分析工作正常。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种用于数据中台的数据分析方法,其特征在于,包括:
步骤1:获取数据中台接收到的数据,对所述数据进行状态预处理;
步骤2:基于数据属性将状态预处理后的数据划分为功能数据以及特征数据;
步骤3:提取特征数据的第一特征词进行关联分析;
步骤4:提取功能数据的第二特征词进行功能分析;
步骤5:基于关联分析结果以及功能分析结果,确定所述数据中台接收到的数据存在的数据异常以及所述数据中台存在的本身异常。
2.根据权利要求1所述的方法,其特征在于,获取数据中台接收到的数据,对所述数据进行状态预处理,包括:
将数据中台在预设操作行为下接收到的每个数据依次输入到数据熵值计算模型,得到每个数据的数据熵值;
根据数据中台接收数据的时间,对所有数据熵值进行时间排序,并得到每两个相邻数据的熵值差;
提取熵值差大于预设熵值差的第一相邻数据,并剔除所述第一相邻数据中的后一个数据,保留所述第一相邻数据中的前一个数据;
提取熵值差小于或等于预设熵值差的第二相邻数据并保留;
基于保留的数据,构建数据链,并按照数量相等原则将所述数据链划分为若干数据子链。
3.根据权利要求1所述的方法,其特征在于,基于数据属性将状态预处理后的数据划分为功能数据以及特征数据,包括:
构建功能区域以及特征区域,并将所有数据子链放入所述功能区域;
获取每个数据子链的数据内容,输入到数据子链属性指数计算模型,得到每个数据子链的属性指数;
基于预设功能属性指数范围,对超出预设功能属性指数范围的属性指数相对应的数据子链赋换区标记,将所有带有换区标记的数据子链转移到特征区域,得到特征数据;
将所述功能区域的剩余数据子链所对应的数据作为功能数据。
4.根据权利要求3所述的方法,其特征在于,提取特征数据的第一特征词进行关联分析,包括:
获取与所述特征数据对应的第一子链,并确定每个第一子链的源数据;
根据每个第一子链对应源数据中每个第一数据的嵌入表示,构建得到对应源数据的特征向量;
基于对应源数据的特征向量以及预设向量的比较,确定对应源数据的差异类型,并将差异类型相同的第一子链进行组合,构建得到若干个数据子链集合;
确定每个数据子链集合中每个第二子链的头部数据以及尾部数据,得到每个第二子链的头部数据的第一特征词以及对应尾部数据的第一特征词;
依次将每个第二子链的头部数据的第一特征词与同个数据子链集合中的其余第二子链的尾部数据的第一特征词进行贡献度分析,选取贡献度数值最大的作为第一贡献度;
若第一贡献度大于或等于第一预设关联贡献度,则判定所述第一贡献度相对应的两个第二子链的头部数据与尾部数据相关联,并做内关联标记;
若第一贡献度小于第一预设关联贡献度,则判定所述第一贡献度相对应的两个第二子链的头部数据与尾部数据不关联,并做外关联标记;
将同个数据子链集合中的每个有外关联标记的第二子链的头部数据与其余数据子链集合中有外关联标记的第二子链的尾部数据进行贡献度分析,选取贡献度数值最大的作为第二贡献度;
若第二贡献度大于或等于第二预设关联贡献度,则所述第二贡献度相对应的两个第二子链的头部数据与尾部数据相关联,并做外关联成功标记;
基于不同数据子链集合所对应的内关联标记、外关联成功标记、内关联标记的数量以及外关联成功的数量,输入到子链关联模型,得到关联拓扑图。
5.根据权利要求4所述的方法,其特征在于,提取功能数据的第二特征词进行功能分析,包括:
获取所述功能数据的功能类型,并确定每个功能类型所匹配的数据的数据特征并结合对应功能类型进行编码,得到功能类型特征向量;
提取所述功能数据中的每个第三子链所包含数据的第二特征词,并对所述第二特征词进行编码,得到第二特征向量;
依次计算所述第二特征向量与每个功能类型特征向量的匹配指数,选取数值最大的匹配指数作为第二匹配指数;
若所述第二匹配指数大于或等于预设匹配指数,则所述第二匹配指数相对应的第三子链与数据功能类型相匹配,获取得到对应第三子链的数据功能类型。
7.根据权利要求5所述的方法,其特征在于,基于关联分析结果以及功能分析结果,确定所述数据中台接收到的数据存在的数据异常以及所述数据中台存在的本身异常,包括:
将功能数据的每个第三子链的数据功能类型以及特征数据的关联拓扑图输入到数据子链-网模拟模型,得到数据模拟网;
对所述数据模拟网进行异常检测,确定数据中台接收到的数据中存在的数据异常。
8.根据权利要求7所述的方法,其特征在于,基于关联分析结果以及功能分析结果,确定所述数据中台接收到的数据存在的数据异常以及所述数据中台存在的本身异常,还包括:
获取所述数据模拟网,输入到数据模拟网断链判断模型,得到数据模拟网断链数量,若断链数量大于或等于预设断链异常数量,则确定数据中台存在异常。
9.一种用于数据中台的数据分析系统,其特征在于,包括:
预处理模块:获取数据中台接收到的数据,对所述数据进行状态预处理;
划分模块:基于数据属性将状态预处理后的数据划分为功能数据以及特征数据;
关联分析模块:提取特征数据的第一特征词进行关联分析;
功能分析模块:提取功能数据的第二特征词进行功能分析;
异常确定模块:基于关联分析结果以及功能分析结果,确定所述数据中台接收到的数据存在的数据异常以及所述数据中台存在的本身异常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211420690.7A CN115470788B (zh) | 2022-11-15 | 2022-11-15 | 一种用于数据中台的数据分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211420690.7A CN115470788B (zh) | 2022-11-15 | 2022-11-15 | 一种用于数据中台的数据分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115470788A true CN115470788A (zh) | 2022-12-13 |
CN115470788B CN115470788B (zh) | 2023-04-11 |
Family
ID=84338252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211420690.7A Active CN115470788B (zh) | 2022-11-15 | 2022-11-15 | 一种用于数据中台的数据分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115470788B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116110227A (zh) * | 2023-03-08 | 2023-05-12 | 交通运输部规划研究院 | 公路交通大数据处理方法和装置 |
CN116668325A (zh) * | 2023-05-30 | 2023-08-29 | 广州银汉科技有限公司 | 一种基于一站式服务的游戏数据中台应用系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190392075A1 (en) * | 2018-06-25 | 2019-12-26 | Sap Se | Efficient data relationship mining using machine learning |
CN114021970A (zh) * | 2021-11-04 | 2022-02-08 | 国网安徽省电力有限公司信息通信分公司 | 一种基于数据中台的企业数据资产模型构建方法 |
US20220044133A1 (en) * | 2020-08-07 | 2022-02-10 | Sap Se | Detection of anomalous data using machine learning |
CN114780622A (zh) * | 2022-06-27 | 2022-07-22 | 天津能源物联网科技股份有限公司 | 一种基于大数据平台的供热数据的智能分析方法及系统 |
-
2022
- 2022-11-15 CN CN202211420690.7A patent/CN115470788B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190392075A1 (en) * | 2018-06-25 | 2019-12-26 | Sap Se | Efficient data relationship mining using machine learning |
US20220044133A1 (en) * | 2020-08-07 | 2022-02-10 | Sap Se | Detection of anomalous data using machine learning |
CN114021970A (zh) * | 2021-11-04 | 2022-02-08 | 国网安徽省电力有限公司信息通信分公司 | 一种基于数据中台的企业数据资产模型构建方法 |
CN114780622A (zh) * | 2022-06-27 | 2022-07-22 | 天津能源物联网科技股份有限公司 | 一种基于大数据平台的供热数据的智能分析方法及系统 |
Non-Patent Citations (2)
Title |
---|
KLAUS-TYCHO FOERSTER等: "Survey of Reconfigurable Data Center Networks: Enablers, Algorithms, Complexity" * |
杨献;言圣;: "大数据技术在LKJ设备分析系统中的应用研究" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116110227A (zh) * | 2023-03-08 | 2023-05-12 | 交通运输部规划研究院 | 公路交通大数据处理方法和装置 |
CN116110227B (zh) * | 2023-03-08 | 2023-09-22 | 交通运输部规划研究院 | 公路交通大数据处理方法和装置 |
CN116668325A (zh) * | 2023-05-30 | 2023-08-29 | 广州银汉科技有限公司 | 一种基于一站式服务的游戏数据中台应用系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115470788B (zh) | 2023-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115470788B (zh) | 一种用于数据中台的数据分析方法及系统 | |
CN113190421B (zh) | 一种用于数据中心的设备健康状态的检测分析方法 | |
CN112491796B (zh) | 一种基于卷积神经网络的入侵检测及语义决策树量化解释方法 | |
CN111798312A (zh) | 一种基于孤立森林算法的金融交易系统异常识别方法 | |
CN108304567B (zh) | 高压变压器工况模式识别与数据分类方法及系统 | |
CN112733146B (zh) | 基于机器学习的渗透测试方法、装置、设备及存储介质 | |
WO2011145955A1 (en) | Method and system for sequence correlation | |
CN110162972B (zh) | 一种基于语句联合编码深度神经网络的uaf漏洞检测方法 | |
CN111209317A (zh) | 一种知识图谱异常社区检测方法及装置 | |
CN116862081B (zh) | 一种污染治理设备运维方法及系统 | |
CN117034143B (zh) | 一种基于机器学习的分布式系统故障诊断方法及装置 | |
CN114880312B (zh) | 一种可柔性设置的应用系统业务数据稽核方法 | |
CN111881164B (zh) | 基于边缘计算和路径分析的数据处理方法及大数据云平台 | |
CN114385775A (zh) | 一种基于大数据的敏感词识别方法 | |
CN115204536A (zh) | 楼宇设备故障预测方法、装置、设备及存储介质 | |
CN113254572B (zh) | 一种基于云平台的电子文档分类监管系统 | |
CN113242213B (zh) | 一种电力通信骨干网节点脆弱性诊断方法 | |
CN114020715A (zh) | 一种日志数据的处理方法、装置、介质及设备 | |
CN111062827A (zh) | 一种基于人工智能模式的工程监理方法 | |
CN114710344B (zh) | 一种基于溯源图的入侵检测方法 | |
CN103870590B (zh) | 具有报错特征的网页识别方法和装置 | |
CN116150401A (zh) | 基于带噪声数据集的强鲁棒性知识图谱三元组质检网络模型训练方法及质检方法 | |
CN111913872A (zh) | 一种基于缺陷预测的软件静态检查警告排序优化方法 | |
CN116821799B (zh) | 基于gru-dnn的地灾预警数据分类方法 | |
CN115510984A (zh) | 支付平台的防侵入方法、系统及云平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |