CN111105041A

CN111105041A - 一种用于智慧数据碰撞的机器学习方法及装置

Info

Publication number: CN111105041A
Application number: CN201911210149.1A
Authority: CN
Inventors: 张艳清; 查文宇; 王纯斌; 赵神州; 潘小东; 王伟才
Original assignee: Chengdu Sefon Software Co Ltd
Current assignee: Chengdu Sefon Software Co Ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-05-05
Anticipated expiration: 2039-12-02
Also published as: CN111105041B

Abstract

本发明公开了一种用于智慧数据碰撞的机器学习方法及装置，提供一种基于K‑means拓展的智慧数据碰撞的算法，采用人工智能的方式，极大释放了人工劳动力，提高了表格和字段关联的识别精度和速度，并且该方法实现在低端硬件，数据来源不一的情况下仍然可以高效、精准的识别出相关字段和相关表格。解决了现有方案当数据来源不一、不规范，但是仍然具有可用价值时，仍然需要人力标注，人力匹配字段和表格，针对业务要求，每个团队都要重新定制化开发不同的表格，字段挖掘模型，耗费大量成本的问题。

Description

一种用于智慧数据碰撞的机器学习方法及装置

技术领域

本发明涉及机器学习领域，特别涉及一种用于智慧数据碰撞的机器学习方法及装置。

背景技术

基于CNN(Convolution Neural Network,卷积神经网络)，深度学习的数据关联特征学习方法在数据关联挖掘检测等方面取得了巨大成功，引起了机器学习领域的极大关注。

传统的数据挖掘关联表格字段局限性。当前所有知名的数据挖掘团队在面对庞大，冗杂的数据时仍然需要耗费大量人力，物力去进行表格的比对，关联，对于数据字段，缺失值，表格不统一的情况更是头大，为了达到更好的挖掘效果，仍然采用人力标记，人力比对的方法，亟需实现智慧化数据碰撞。而许多高深有效的人工智能框架的功能、特征、倾向性均由美国等发布组织所把持，这也是整个人工智能产业难以在不同领域实现商用的重要原因之一，因为中小型公司几乎只能使用这些公开的框架进行上层包装式研发，受限技术实力，缺乏根据真实需求和不同应用深度定制一个标准的表格字段关联，推荐的能力。

现有方案当数据来源不一、不规范，但是仍然具有可用价值时，仍然需要人力标注，人力匹配字段和表格，针对业务要求，每个团队都要重新定制化开发不同的表格，字段挖掘模型，耗费大量成本。

发明内容

本发明的目的在于：提供了一种用于智慧数据碰撞的机器学习方法及装置，解决了现有方案当数据来源不一、不规范，但是仍然具有可用价值时，仍然需要人力标注，人力匹配字段和表格，针对业务要求，每个团队都要重新定制化开发不同的表格，字段挖掘模型，耗费大量成本的问题。

本发明采用的技术方案如下：

一种用于智慧数据碰撞的机器学习方法，包括以下步骤：

S1、对数据源每个表格的每个字段进行随机数据降采样后的到降维数据；

S2、对降维数据中的字段进行标记，标记每个字段分别来自哪个表格；

S3、将步骤S2处理后的字段输入K-means模型中，将降维数据中的表格输入K-means模型中；

S4、K-means模型对步骤S3中输入的数据进行迭代训练使聚类结果综合指标最优，类内间距最小，类间间距最大后停止训练，得到最优的K-means模型。

本方案提供一种基于K-means拓展的智慧数据碰撞的算法，采用人工智能的方式，极大释放了人工劳动力，提高了表格和字段关联的识别精度和速度，并且该方法实现在低端硬件，数据来源不一的情况下仍然可以高效、精准的识别出相关字段和相关表格。

进一步的，步骤S1中对数据源每个表格的每个字段进行随机数据降采样前还包括对数据源的数据进行预处理。

进一步的，所述对数据源的数据进行预处理的方法包括自动化缺失值处理、异常值处理、度量指标归一化处理中的至少一个。

进一步的，步骤S4中K-means模型中的具体衡量指标包括以下指标中的至少一个：IV指标、Gini增益指标、熵指标、信息增益指标、pearson系数指标、距离相关系数指标和高斯混合模型指标。

进一步的，步骤S4中K-means模型的根据以下全部指标使用加权求和的综合评价指标方法进行训练：IV指标、Gini增益指标、熵指标、信息增益指标、pearson系数指标、距离相关系数指标和高斯混合模型指标。

IV指标，用于挑选字段，IV就越大，该字段就越应该进入到中心字段的类别中。

Gini增益指标，是不纯度衡量指标。分别计算待分类的字段中的数据加入到初始的k个中心字段的Gini增益，找到使得Gini增益最小的中心字段，把待分类的字段和中心字段聚类到一类。

熵指标，是不纯度衡量指标。对一个字段而言，中心字段有它和没它时信息量将发生变化，而前后信息量的差值就是这个特征给系统带来的信息量，即熵。分别计算待分类的字段中的数据加入到初始的k个中心字段的熵，找到使得熵最小的中心字段，把待分类的字段和中心字段聚类到一类。

信息增益指标，衡量标准是看字段特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。信息增益能考察特征对每个中心字段的贡献。

pearson系数指标，用来衡量两个字段集合是否符合统一分布，变化规律是否一致，可以衡量字段间的线性关系。相关系数的绝对值越大，相关性越强：相关系数越接近于1或-1，相关度越强，相关系数越接近于0，相关度越弱。

距离相关系数指标，计算待分类的字段和中心字段分别的欧式距离，把待分类字段分到使得欧式距离最小的中心字段所在的类中。

高斯混合模型指标，分别拟合k个中心字段和待分类字段的高斯混合模型，若待分类字段的参数和某个中心字段的参数的方差和欧式距离最小，则分为一类。

类内间距、类间间距指标。分别计算待分类的字段和K个中心字段之间的类内间距，和类间间距，使得类内间距最小，类间间距最大的字段即分为一类。

进一步的，得到最优的K-means模型后，还包括：

S5、将最优的K-means模型结合其他算法进行进一步的无监督集成学习；

S6、通过无监督集成学习获得K-means模型和其他算法的权重，得到优于K-means模型的聚类关联模型。

进一步的，所述其他算法的包括PCA主成分分析算法、自编码算法中的至少一个。

即将迭代训练分为两步：

第一步迭代训练：字段归一化，预处理完成后就开始K-means训练。为了实现智能训练,本K-means拓展训练框架采用了动态学习指标权重和动态学习集成方法的权重的算法和自动判收敛算法。随着迭代轮次的展开，权重会根据K-means算法中的综合指标的变化而动态调整，逐步训练到收敛使得综合指标最小、类内间距最小、类间间距最大的聚类结果。指标变化在一定时间内变化小于阈值，那么系统将自行停止训练，标志训练完成。

第二步迭代训练：集成学习中加入自编码和主成分分析，将聚类的结果和主成分分析的字段结果进行综合指标的权重相加。训练每个学习器的权重指标，得到最优结果。

一种用于智慧数据碰撞的机器学习装置，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令，实现如权利要求1所述的一种用于智慧数据碰撞的机器学习方法。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明一种用于智慧数据碰撞的机器学习方法及装置，本发明用人工智能的方式完全解决了筛选大数据表格，字段关联时极度耗费人力、关联覆盖度不高、精确度不高、建模效率低下等问题。完全自动化，用人工智能代替人工实现组件模块化，让组件开发人员更关注组件自身的业务，业务划分更佳清晰，可维护性更强，开发效率更高；

2.本发明一种用于智慧数据碰撞的机器学习方法及装置，关联速度快。本发明针对跨操作系统的服务端硬件深度优化，实现在低端硬件下，针对TB，PB级数据，实现关联精度高，速度快，效率高；

3.本发明一种用于智慧数据碰撞的机器学习方法及装置，解决了现有方案当数据来源不一、不规范，但是仍然具有可用价值时，仍然需要人力标注，人力匹配字段和表格，针对业务要求，每个团队都要重新定制化开发不同的表格，字段挖掘模型，耗费大量成本的问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本发明的流程示意图；

图2是本发明的流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合图1至图2对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

无监督学习：是和监督学习相对的另一种主流机器学习的方法，监督学习解决的是分类和回归问题，而无监督学习解决的主要是聚类问题。

CNN：Convolution Neural Network,卷积神经网络。

means算法:随机选取k个中心点，计算其他样本点到中心点的欧式距离，再把距离最近的点归到新的一类，重新计算均值和反差等距离指标，并设置收敛的新的k个中心点，继续迭代。

数据碰撞算法:从给定的n个表格，每个表格的m个字段中，找出互相关联，具有前后顺序的表格或者字段，得出对业务有用的信息。

智慧数据碰撞：将人工智能应用于数据挖掘领域，实现自动表关联，关键表推荐，目标字段推荐，智能特征选择，自动度量特征价值的功能，减少人力开发，选取特征和合并处理表格的过程。

多表读取：可读取数据源下面的所有表，并自动过滤维表，仅输出事实表，同时还支持自动搜索数据库表与表之间的已配置的关联关系，输出数据集的关联规则。

数据预处理：将表格中度量单位不一致的归一化到统一标准，对照字典表格进行字段名，表格名称的标准修改，去除异常值。

K-means聚类拓展：相比于传统的K-means聚类算法中的欧式距离指标的衡量，此处选取结合IV，Gini增益，信息增益，pearson系数，距离相关系数等方法进行加权求和得到最终的距离来进行自动综合评价，使得每个字段能聚类到综合评价指标最高的字段中形成一个新类，再计算每一个类的均值和方差得到新的中心字段。继续迭代。其中算法可以延伸为集成学习，加入自编码，PCA主成分分析法进行多种学习器结果的整合得到比单个学习器更好的学习效果。获取了大量表格数据，字段数据以后，对这些表格进行字段提取。表格由许多字段构成，因此分析表格的关联程度一定程度上可以由分析某字段的关联程度代替。本方法采用两个维度进行表格关联分析和字段分析。

对于大数据的数据减少的方法：由于目标只是获取字段之间的相关性，不是对数据进行实时的挖掘和针对业务性的处理，我们简化此过程，对每个表中的每个字段按比例进行随机采样，保证每个字段采样后的分布和原分布保持一致，实现数据量的减少和后期计算量的减少。

K-means初步关联判定：经过预处理得到标准的字段名称以后，根据字段的字段名类型，字段名长度，字段内容的长度，类型，最大最小值，均差，平方差来进行从字段名称和字段内容两个维度进行综合评判。

实施例1

一种用于智慧数据碰撞的机器学习方法，包括以下步骤：

实施例2

本实施例在实施例1的基础上进一步的，步骤S1中对数据源每个表格的每个字段进行随机数据降采样前还包括对数据源的数据进行预处理。

实施例3

本实施例在实施例1的基础上进一步的，步骤S4中K-means模型中的具体衡量指标包括以下指标中的至少一个：IV指标、Gini增益指标、熵指标、信息增益指标、pearson系数指标、距离相关系数指标和高斯混合模型指标。

实施例4

本实施例在实施例1的基础上进一步的，得到最优的K-means模型后，还包括：

即将迭代训练分为两步：

实施例5

一种用于智慧数据碰撞的机器学习装置，包括：

存储器，用于存储可执行指令；

实施例6

一种采用本方案进行机器学习的详细方法：大数据预处理，大数据采样方法。自研人工智能框架进行K-means迭代训练和自编码，PCA主成分分析的集成学习权重训练。

首先对大数据进行多数据来源的获取，对于无标签数据友好，可以实现判断字段的长度，范围，均值方差，是否符合同一分布来实现无监督学习，达到无标签情况下的字段匹配，将无标签的字段判定到与其相似度极高的有字段的数据上，达到增加数据量，使得无标签数据自动打标签的功能。

再将获取的大数据进行预处理。与传统的预处理不同的是，对于大批量的数据，可以实现批量处理，替代数据的代码分行专一化处理和手动处理，此部分分为自动化缺失值处理，异常值处理，度量指标归一化处理。

然后对每个表格的每个字段进行在保证数据仍然符合原来的分布的随机数据降采样，实现大数据的降维，降低计算量，同时能够保证具有很好的关联效果。

进一步，将表格中的字段的样本分别标记为来自哪一个表格，方便后续的表格关联挖掘分析。从表格和字段维度分别进行处理，放入到模型的输入当中。

再用自主研发的K-means拓展框架设置8种评价指标，计算待分类字段加入中心字段和未加入中心字段的熵，信息增益，基尼增益，类内间距，类间间距，计算待分类和中心字段之间的皮尔逊相关系数，欧式距离，均值，方差，判断是否符合同一混合高斯分布等指标。相对于传统的字段关联算法，我们综合8个指标，来训练对于每一个字段，每一个表格指标的权重，根据字段的特征偏重于选择哪些指标来进行关联实现很好的效果，这不仅对特定的数据具有深攻性，也具有很好的鲁棒性。实现换一批数据，依然能够训练得出好的聚类关联推荐效果。

使用综合评判待分类字段是否应该加入到某一中心字段中，此处使用机器学习中常用的加权求和的综合评价指标方法。通过训练各个指标的权重参数获得最优K-means聚类模型。其中参数对应于每一个字段，每一个表都有相应的指标权重参数。相对于传统的一个或者两个指标来评价字段关联程度，此处结合了8种评价指标，对应于特定的字段，训练得出偏重的更适合的评价指标来进行关联，实现了字段匹配的自动化定制化挖掘。

后续选择包括PCA主成分分析，自编码等多个学习器来进行无监督集成学习，通过训练集成学习器权重，结合三个学习器的优点，得到优于K-means的聚类关联，实现智慧大数据碰撞的效果。相比于传统的一个或者两个算法的权衡，无法获知哪一个算法更适合每一个字段，此处采用集成学习的思想，来对每一个字段分别计算三个学习器的训练，得到分别的最优模型，再结合加权求和思想来实现对应于每个字段的关联，偏好选择哪个模型来进行关联，以8种评价指标的综合评价，判定最好的关联效果。后续延伸中，可以将三个算法拓展，实现更好的关联。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种用于智慧数据碰撞的机器学习方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种用于智慧数据碰撞的机器学习方法，其特征在于：步骤S1中对数据源每个表格的每个字段进行随机数据降采样前还包括对数据源的数据进行预处理。

3.根据权利要求2所述的一种用于智慧数据碰撞的机器学习方法，其特征在于：所述对数据源的数据进行预处理的方法包括自动化缺失值处理、异常值处理、度量指标归一化处理中的至少一个。

4.根据权利要求1所述的一种用于智慧数据碰撞的机器学习方法，其特征在于：步骤S4中K-means模型中的具体衡量指标包括以下指标中的至少一个：IV指标、Gini增益指标、熵指标、信息增益指标、pearson系数指标、距离相关系数指标和高斯混合模型指标。

5.根据权利要求4所述的一种用于智慧数据碰撞的机器学习方法，其特征在于：步骤S4中K-means模型的根据以下全部指标使用加权求和的综合评价指标方法进行训练：IV指标、Gini增益指标、熵指标、信息增益指标、pearson系数指标、距离相关系数指标和高斯混合模型指标。

6.根据权利要求1所述的一种用于智慧数据碰撞的机器学习方法，其特征在于：得到最优的K-means模型后，还包括：

7.根据权利要求6所述的一种用于智慧数据碰撞的机器学习方法，其特征在于：所述其他算法的包括PCA主成分分析算法、自编码算法中的至少一个。

8.一种用于智慧数据碰撞的机器学习装置，其特征在于：包括：

存储器，用于存储可执行指令；