CN112598340A

CN112598340A - 一种基于不确定性支持向量机的数据模型比较方法

Info

Publication number: CN112598340A
Application number: CN202110237422.0A
Authority: CN
Inventors: 余志强; 陈琛; 周群博; 王晨; 宋亮; 陈振宇
Original assignee: Chengdu Aircraft Industrial Group Co Ltd; Sichuan Energy Internet Research Institute EIRI Tsinghua University
Current assignee: Chengdu Aircraft Industrial Group Co Ltd; Sichuan Energy Internet Research Institute EIRI Tsinghua University
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-04-02
Anticipated expiration: 2041-03-04
Also published as: CN112598340B

Abstract

本发明公开了一种基于不确定性支持向量机的数据模型比较方法，通过构建高维度数据模型，将不确定性参数引入支持向量机分类模型的训练，从而提升对本体数据模型的辨识和比较效率及准确率，最终实现高效数据集成。本发明采用了支持向量机机器学习方法，开展数据本体模型的快速分类。通过引入不确定性参数，避免了数据模型由于不同部门、不同责任主体之间的管理差异和不确定因素产生噪音干扰分类模型的正常运行。本发明同时兼顾线性分类和基于核函数的非线性分类，对不同的应用场景有较强的适应性。

Description

一种基于不确定性支持向量机的数据模型比较方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于不确定性支持向量机的数据模型比较方法。

背景技术

许多大型企业由于信息化规划及建设的遗留问题，过去的系统都是完全依据各个业务板块的需求来设计建设的，整体的规划较弱，没有考虑是否与其它系统的功能或数据存在重复的问题，而且各个系统由不同的厂商和产品搭建，导致存在各业务部门数据模型不统一，部门之间数据定义矛盾或者相互混淆的情况，影响部门间及不同系统间数据交换，导致数据共享比较困难。在企业数据集成建设的工作中，传统上是基于人工对照的方式，对不同系统的数据模型进行比较判断，成本居高不下，无法应对越来越复杂的业务集成要求。因此，迫切需要一种更加快速高效的方式，对不同业务域的数据模型定义进行自动比较。

发明内容

为了解决上述问题，本发明提出一种基于不确定性支持向量机的数据模型比较方法，通过构建高维度数据模型，将不确定性参数引入支持向量机分类模型的训练，从而提升对本体数据模型的辨识和比较效率及准确率，最终实现高效数据集成。

本发明的一种基于不确定性支持向量机的数据模型比较方法，包括以下步骤：

S1. 收集流程数据，通过构建数据流图，以业务处理过程为中心，描述完整的业务和数据流程；所述数据流图能够根据需要进行分层绘制；

S2. 提取所述数据流图信息，获得包括数据来源、数据消费者、模型负责人、所属部门和/或考核绩效在内的业务信息；

S3. 构建包括多个特征值的高维度数据模型，所有特征值均伴随一个不确定性参数，用以表达可能存在的无法准确获取该特征值的情况；将特征值与其对应的不确定性参数组合，形成n维本体数据模型特征集；

S4. 进行本体数据模型识别，形成训练数据集标签；

S5. 基于本体数据模型识别结果，运用支撑向量机分类模型进行训练和验证；

S6. 运用训练完成的支持向量机分类模型进行本体数据模型分类，将划分为同类的结果进行确认，确认后对本体数据模型中的不同项目进行统一修改，为系统集成和逻辑模型关联提供支撑。

进一步的，步骤S1中，业务和数据流程的核心组成部分为业务活动和数据流向，包括：

数据输入，即为当前业务活动所需的、来源于上游业务活动的信息；

数据输出，即为当前业务活动产生的或改变的信息，供下游业务活动使用；

当前业务活动的所有者、责任人或部门信息；

当前业务活动的管理控制信息，包括当前业务活动所对应的绩效KPI。

进一步的，步骤S2中，所涉及的流程和相关部门设定有唯一的流程ID和部门ID，以确保沿所有数据流方向上，尽可能多的ID都是递增的；同时，参考数据定义、数据管理部门的相关数据信息，将流程与数据信息结合，协同构建高维度数据模型。

进一步的，步骤S3中，所述特征值包括数据存量、数据增量、更新频率、数据来源、数据流向、数据所有者、所属部门、绩效指标、命名、编码和/或数据类型。

进一步的，步骤S3中，不确定性参数的计算方法如下：

e = c∙d∙u∙f∙o

其中，e为不确定性参数，取值范围为[0,1]，数值越小代表不确定性越小，e = 0代表该特征值没有不确定性，e = 1代表该特征值具有最大的不确定性；c为数据模型所有者、定义部门从流程上与当前模型所在流程的距离；d为数据模型所属负责部门参数；u为数据模型更新方式；f为数据模型更新频率参数；o为不确定性参数覆盖值。

进一步的，不确定性参数的计算方法中：

距离c的计算公式如下：

其中，fid _o为数据模型所有者的流程ID，fid _c为数据模型目前引用者的流程ID；

数据模型所属负责部门参数d的计算公式如下：

其中，did _o为数据模型所有者的部门ID，did _c为数据模型目前引用者的部门ID，λ为常数参数；

数据模型更新频率参数f的计算公式如下：

其中，f _u是模型数据更新频率，α为基准更新频率。

进一步的，步骤S4中，本体数据模型识别方法为：将超过一半特征指标值相同的本体数据模型放入备选集合，确认本体数据模型对应的业务对象，若为同一业务对象，为其打上正标签。

进一步的，步骤S5中，针对输入特征集的不确定性参数，采用如下几何间隔定义：

其中，γ _i为样本点

到超平面的举例，w为法向量，||w||为w的二级范数，b 为超平面距离常量，

为该样本点的不确定性参数向量。

进一步的，步骤S5中：

对于线性分类，将标准分类函数替换为：

其中，

为样本

的拉格朗日乘子，

为样本

的分类结果，

为样本

的不确定性参数向量，e为待分类样本

的不确定性参数向量，

为待分类样本

的特征值向量，

为样本

的特征值向量，b为常数参数；

对于非线性分类，将基于核函数的分类函数替换为：

其中，

为样本

的拉格朗日乘子，

为样本

的分类结果，k[ ]为核函数，

为样本

的不确定性参数向量，e为待分类样本

的不确定性参数向量，

为待分类样本

的特征值向量，

为样本

的特征值向量，b为常数参数。

本发明的有益效果在于：

本发明采用了支持向量机机器学习方法，开展数据本体模型的快速分类。通过引入不确定性参数，避免了数据模型由于不同部门、不同责任主体之间的管理差异和不确定因素产生噪音干扰分类模型的正常运行。本发明同时兼顾线性分类和基于核函数的非线性分类，对不同的应用场景有较强的适应性。

附图说明

图1是本发明实施例1中基于不确定性支持向量机的数据模型比较方法的流程示意图；

图2是本发明实施例2中构建数据流图的流程图；

图3是本发明实施例2中通过t-SNE算法进行降维后的可视化结果示意图；

附图标记：1-业务流程；2-数据输入；3-负责人；4-绩效KPI；5-数据输出；6-数据模型；7-数据流图；8-机器学习环境；9-数据模型识别；10-支持向量机分类模型，其中x₁和x₂为降维至二维后的两个特征维度方向，○和×分别为模型识别出的两类不同的数据模型。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现说明本发明的具体实施方式。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例提供了一种基于不确定性支持向量机的数据模型比较方法，通过构建高维度数据模型，将不确定性参数引入支持向量机分类模型的训练，从而提升对本体数据模型的辨识和比较效率及准确率，最终实现高效数据集成。具体的，如图1所示，包括以下步骤：

S4. 进行本体数据模型识别，形成训练数据集标签；

优选的，步骤S1中，业务和数据流程的核心组成部分为业务活动和数据流向，包括：

当前业务活动的所有者、责任人或部门信息；

优选的，步骤S2中，所涉及的流程和相关部门设定有唯一的流程ID和部门ID，以确保沿所有数据流方向上，尽可能多的ID都是递增的；同时，参考数据定义、数据管理部门的相关数据信息，将流程与数据信息结合，协同构建高维度数据模型。

优选的，步骤S3中，所述特征值包括数据存量、数据增量、更新频率、数据来源、数据流向、数据所有者、所属部门、绩效指标、命名、编码和/或数据类型。

优选的，步骤S3中，不确定性参数的计算方法如下：

e = c∙d∙u∙f∙o

其中，e为不确定性参数，取值范围为[0,1]，数值越小代表不确定性越小，e = 0代表该特征值没有不确定性，例如该特征值为数据模型负责人直接负责制定；e = 1代表该特征值具有最大的不确定性，例如该特征值来源于较远的上游或下游业务，数据模型负责人无直接联系；c为数据模型所有者、定义部门从流程上与当前模型所在流程的距离；d为数据模型所属负责部门参数；u为数据模型更新方式；f为数据模型更新频率参数；o为不确定性参数覆盖值，若用于对确认无误的信息进行人工覆盖，则将不确定性参数o设置为0。

优选的，不确定性参数的计算方法中：

距离c的计算公式如下：

数据模型所属负责部门参数d的计算公式如下：

其中，did _o为数据模型所有者的部门ID，did _c为数据模型目前引用者的部门ID，λ为常数参数，默认取值为0.5；

数据模型更新频率参数f的计算公式如下：

其中，f _u是模型数据更新频率，α为基准更新频率。

此外，数据模型更新方式u的常见方式的取值定义如下：

REST方式时，u取值0.1；XML方式时，u取值0.2；ETL方式时，u取值0.4；csv/text/excel自动方式时，u取值0.6；手动方式时，u取值1。

优选的，步骤S4中，本体数据模型识别方法为：将超过一半特征指标值相同的本体数据模型放入备选集合，确认本体数据模型对应的业务对象，若为同一业务对象，为其打上正标签。

优选的，步骤S5中，针对输入特征集的不确定性参数，采用如下几何间隔定义：

其中，γ _i为样本点

到超平面的举例，w为法向量，||w||为w的二级范数，b为超平面距离常量，

为该样本点的不确定性参数向量。

优选的，步骤S5中：

对于线性分类，将标准分类函数替换为：

其中，

为样本

的拉格朗日乘子，

为样本

的分类结果，

为样本

的不确定性参数向量，e为待分类样本

的不确定性参数向量，

为待分类样本

的特征值向量，

为样本

的特征值向量，b为常数参数；

对于非线性分类，将基于核函数的分类函数替换为：

其中，

为样本

的拉格朗日乘子，

为样本

的分类结果，k[ ]为核函数，

为样本

的不确定性参数向量，e为待分类样本

的不确定性参数向量，

为待分类样本

的特征值向量，

为样本

的特征值向量，b为常数参数。

实施例2

本实施例在实施例1的基础上：

本实施例通过一个由三个流程及部门的场景，说明本方法的模型构建、信息提取、不确定性参数计算、分类打标签、模型训练的过程。

1.构建数据流图，如图2所示，该场景由3个业务流程构成，分别属于2个不同部门，每个业务流程都有一套专用信息系统，系统中分别有各业务负责人制定的数据模型。

2.提取流程与数据信息，依据沿所有数据流方向上，尽可能多的ID都是递增的原则，对流程和部门进行唯一性ID编号。示例中的流程和部门ID已经满足该要求。

3.形成高维数据模型。数据模型包括数据存量、数据增量、更新频率、数据来源、数据流向、数据所有者、所属部门、绩效指标、命名、编码、数据类型。数据模型的特征值向量可表示为：

4.计算不确定性参数：

5.开展数据模型识别。经确认，数据模型1、2为同一业务对象的模型化描述，为分类正样本；数据模型3相对数据模型1、2增加了大量来源于其它业务的数据，同时已不同的业务视角进行组织，因此不是同一个业务对象，为分类负样本。

6.训练支持向量机分类模型。采用与上述过程相同方法，获得至少100个正负样本后，即可开展模型训练。训练完成后的结果通过t-SNE算法进行降维后的可视化结果如图3所示。图3中将模型判定为不同分类的点通过不同数字（0和1）进行标记，进行类别区分。其中部分点在t-SNE算法降维后距离较近，因此数字也有部分重叠。

7.运用训练完成的模型开展自动分类判定。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。