CN112598340A - 一种基于不确定性支持向量机的数据模型比较方法 - Google Patents

一种基于不确定性支持向量机的数据模型比较方法 Download PDF

Info

Publication number
CN112598340A
CN112598340A CN202110237422.0A CN202110237422A CN112598340A CN 112598340 A CN112598340 A CN 112598340A CN 202110237422 A CN202110237422 A CN 202110237422A CN 112598340 A CN112598340 A CN 112598340A
Authority
CN
China
Prior art keywords
data
uncertainty
data model
model
vector machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110237422.0A
Other languages
English (en)
Other versions
CN112598340B (zh
Inventor
余志强
陈琛
周群博
王晨
宋亮
陈振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Aircraft Industrial Group Co Ltd
Sichuan Energy Internet Research Institute EIRI Tsinghua University
Original Assignee
Chengdu Aircraft Industrial Group Co Ltd
Sichuan Energy Internet Research Institute EIRI Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Aircraft Industrial Group Co Ltd, Sichuan Energy Internet Research Institute EIRI Tsinghua University filed Critical Chengdu Aircraft Industrial Group Co Ltd
Priority to CN202110237422.0A priority Critical patent/CN112598340B/zh
Publication of CN112598340A publication Critical patent/CN112598340A/zh
Application granted granted Critical
Publication of CN112598340B publication Critical patent/CN112598340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于不确定性支持向量机的数据模型比较方法,通过构建高维度数据模型,将不确定性参数引入支持向量机分类模型的训练,从而提升对本体数据模型的辨识和比较效率及准确率,最终实现高效数据集成。本发明采用了支持向量机机器学习方法,开展数据本体模型的快速分类。通过引入不确定性参数,避免了数据模型由于不同部门、不同责任主体之间的管理差异和不确定因素产生噪音干扰分类模型的正常运行。本发明同时兼顾线性分类和基于核函数的非线性分类,对不同的应用场景有较强的适应性。

Description

一种基于不确定性支持向量机的数据模型比较方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于不确定性支持向量机的数据模型比较方法。
背景技术
许多大型企业由于信息化规划及建设的遗留问题,过去的系统都是完全依据各个业务板块的需求来设计建设的,整体的规划较弱,没有考虑是否与其它系统的功能或数据存在重复的问题,而且各个系统由不同的厂商和产品搭建,导致存在各业务部门数据模型不统一,部门之间数据定义矛盾或者相互混淆的情况,影响部门间及不同系统间数据交换,导致数据共享比较困难。在企业数据集成建设的工作中,传统上是基于人工对照的方式,对不同系统的数据模型进行比较判断,成本居高不下,无法应对越来越复杂的业务集成要求。因此,迫切需要一种更加快速高效的方式,对不同业务域的数据模型定义进行自动比较。
发明内容
为了解决上述问题,本发明提出一种基于不确定性支持向量机的数据模型比较方法,通过构建高维度数据模型,将不确定性参数引入支持向量机分类模型的训练,从而提升对本体数据模型的辨识和比较效率及准确率,最终实现高效数据集成。
本发明的一种基于不确定性支持向量机的数据模型比较方法,包括以下步骤:
S1. 收集流程数据,通过构建数据流图,以业务处理过程为中心,描述完整的业务和数据流程;所述数据流图能够根据需要进行分层绘制;
S2. 提取所述数据流图信息,获得包括数据来源、数据消费者、模型负责人、所属部门和/或考核绩效在内的业务信息;
S3. 构建包括多个特征值的高维度数据模型,所有特征值均伴随一个不确定性参数,用以表达可能存在的无法准确获取该特征值的情况;将特征值与其对应的不确定性参数组合,形成n维本体数据模型特征集;
S4. 进行本体数据模型识别,形成训练数据集标签;
S5. 基于本体数据模型识别结果,运用支撑向量机分类模型进行训练和验证;
S6. 运用训练完成的支持向量机分类模型进行本体数据模型分类,将划分为同类的结果进行确认,确认后对本体数据模型中的不同项目进行统一修改,为系统集成和逻辑模型关联提供支撑。
进一步的,步骤S1中,业务和数据流程的核心组成部分为业务活动和数据流向,包括:
数据输入,即为当前业务活动所需的、来源于上游业务活动的信息;
数据输出,即为当前业务活动产生的或改变的信息,供下游业务活动使用;
当前业务活动的所有者、责任人或部门信息;
当前业务活动的管理控制信息,包括当前业务活动所对应的绩效KPI。
进一步的,步骤S2中,所涉及的流程和相关部门设定有唯一的流程ID和部门ID,以确保沿所有数据流方向上,尽可能多的ID都是递增的;同时,参考数据定义、数据管理部门的相关数据信息,将流程与数据信息结合,协同构建高维度数据模型。
进一步的,步骤S3中,所述特征值包括数据存量、数据增量、更新频率、数据来源、数据流向、数据所有者、所属部门、绩效指标、命名、编码和/或数据类型。
进一步的,步骤S3中,不确定性参数的计算方法如下:
e = cdufo
其中,e为不确定性参数,取值范围为[0,1],数值越小代表不确定性越小,e = 0代表该特征值没有不确定性,e = 1代表该特征值具有最大的不确定性;c为数据模型所有者、定义部门从流程上与当前模型所在流程的距离;d为数据模型所属负责部门参数;u为数据模型更新方式;f为数据模型更新频率参数;o为不确定性参数覆盖值。
进一步的,不确定性参数的计算方法中:
距离c的计算公式如下:
Figure DEST_PATH_IMAGE002AAA
其中,fid o 为数据模型所有者的流程ID,fid c 为数据模型目前引用者的流程ID;
数据模型所属负责部门参数d的计算公式如下:
Figure DEST_PATH_IMAGE004AAAA
其中,did o 为数据模型所有者的部门ID,did c 为数据模型目前引用者的部门ID,λ为常数参数;
数据模型更新频率参数f的计算公式如下:
Figure 100002_DEST_PATH_IMAGE006AAA
其中,f u 是模型数据更新频率,α为基准更新频率。
进一步的,步骤S4中,本体数据模型识别方法为:将超过一半特征指标值相同的本体数据模型放入备选集合,确认本体数据模型对应的业务对象,若为同一业务对象,为其打上正标签。
进一步的,步骤S5中,针对输入特征集的不确定性参数,采用如下几何间隔定义:
Figure DEST_PATH_IMAGE008AAAA
其中,γ i 为样本点
Figure DEST_PATH_IMAGE010AAAA
到超平面的举例,w为法向量,||w||w的二级范数,b 为超平面距离常量,
Figure DEST_PATH_IMAGE011
为该样本点的不确定性参数向量。
进一步的,步骤S5中:
对于线性分类,将标准分类函数替换为:
Figure DEST_PATH_IMAGE013A
其中,
Figure 611352DEST_PATH_IMAGE014
为样本
Figure DEST_PATH_IMAGE015
的拉格朗日乘子,
Figure 426118DEST_PATH_IMAGE016
为样本
Figure 33685DEST_PATH_IMAGE015
的分类结果,
Figure 693206DEST_PATH_IMAGE011
为样本
Figure 511382DEST_PATH_IMAGE015
的 不确定性参数向量,e为待分类样本
Figure DEST_PATH_IMAGE017
的不确定性参数向量,
Figure DEST_PATH_IMAGE019
为待分类样本
Figure 395DEST_PATH_IMAGE017
的特征 值向量,
Figure DEST_PATH_IMAGE021
为样本
Figure 613253DEST_PATH_IMAGE015
的特征值向量,b为常数参数;
对于非线性分类,将基于核函数的分类函数替换为:
Figure DEST_PATH_IMAGE023
其中,
Figure 458105DEST_PATH_IMAGE014
为样本
Figure 663828DEST_PATH_IMAGE015
的拉格朗日乘子,
Figure 935409DEST_PATH_IMAGE016
为样本
Figure 760145DEST_PATH_IMAGE015
的分类结果,k[ ]为核函数,
Figure 662767DEST_PATH_IMAGE011
为样本
Figure 977074DEST_PATH_IMAGE015
的不确定性参数向量,e为待分类样本
Figure 129094DEST_PATH_IMAGE017
的不确定性参数向量,
Figure DEST_PATH_IMAGE019A
为待分类 样本
Figure 184950DEST_PATH_IMAGE017
的特征值向量,
Figure DEST_PATH_IMAGE021A
为样本
Figure 657258DEST_PATH_IMAGE015
的特征值向量,b为常数参数。
本发明的有益效果在于:
本发明采用了支持向量机机器学习方法,开展数据本体模型的快速分类。通过引入不确定性参数,避免了数据模型由于不同部门、不同责任主体之间的管理差异和不确定因素产生噪音干扰分类模型的正常运行。本发明同时兼顾线性分类和基于核函数的非线性分类,对不同的应用场景有较强的适应性。
附图说明
图1是本发明实施例1中基于不确定性支持向量机的数据模型比较方法的流程示意图;
图2是本发明实施例2中构建数据流图的流程图;
图3是本发明实施例2中通过t-SNE算法进行降维后的可视化结果示意图;
附图标记:1-业务流程;2-数据输入;3-负责人;4-绩效KPI;5-数据输出;6-数据模型;7-数据流图;8-机器学习环境;9-数据模型识别;10-支持向量机分类模型,其中x1和x2为降维至二维后的两个特征维度方向,○和×分别为模型识别出的两类不同的数据模型。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现说明本发明的具体实施方式。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例提供了一种基于不确定性支持向量机的数据模型比较方法,通过构建高维度数据模型,将不确定性参数引入支持向量机分类模型的训练,从而提升对本体数据模型的辨识和比较效率及准确率,最终实现高效数据集成。具体的,如图1所示,包括以下步骤:
S1. 收集流程数据,通过构建数据流图,以业务处理过程为中心,描述完整的业务和数据流程;所述数据流图能够根据需要进行分层绘制;
S2. 提取所述数据流图信息,获得包括数据来源、数据消费者、模型负责人、所属部门和/或考核绩效在内的业务信息;
S3. 构建包括多个特征值的高维度数据模型,所有特征值均伴随一个不确定性参数,用以表达可能存在的无法准确获取该特征值的情况;将特征值与其对应的不确定性参数组合,形成n维本体数据模型特征集;
S4. 进行本体数据模型识别,形成训练数据集标签;
S5. 基于本体数据模型识别结果,运用支撑向量机分类模型进行训练和验证;
S6. 运用训练完成的支持向量机分类模型进行本体数据模型分类,将划分为同类的结果进行确认,确认后对本体数据模型中的不同项目进行统一修改,为系统集成和逻辑模型关联提供支撑。
优选的,步骤S1中,业务和数据流程的核心组成部分为业务活动和数据流向,包括:
数据输入,即为当前业务活动所需的、来源于上游业务活动的信息;
数据输出,即为当前业务活动产生的或改变的信息,供下游业务活动使用;
当前业务活动的所有者、责任人或部门信息;
当前业务活动的管理控制信息,包括当前业务活动所对应的绩效KPI。
优选的,步骤S2中,所涉及的流程和相关部门设定有唯一的流程ID和部门ID,以确保沿所有数据流方向上,尽可能多的ID都是递增的;同时,参考数据定义、数据管理部门的相关数据信息,将流程与数据信息结合,协同构建高维度数据模型。
优选的,步骤S3中,所述特征值包括数据存量、数据增量、更新频率、数据来源、数据流向、数据所有者、所属部门、绩效指标、命名、编码和/或数据类型。
优选的,步骤S3中,不确定性参数的计算方法如下:
e = cdufo
其中,e为不确定性参数,取值范围为[0,1],数值越小代表不确定性越小,e = 0代表该特征值没有不确定性,例如该特征值为数据模型负责人直接负责制定;e = 1代表该特征值具有最大的不确定性,例如该特征值来源于较远的上游或下游业务,数据模型负责人无直接联系;c为数据模型所有者、定义部门从流程上与当前模型所在流程的距离;d为数据模型所属负责部门参数;u为数据模型更新方式;f为数据模型更新频率参数;o为不确定性参数覆盖值,若用于对确认无误的信息进行人工覆盖,则将不确定性参数o设置为0。
优选的,不确定性参数的计算方法中:
距离c的计算公式如下:
Figure DEST_PATH_IMAGE002AAAA
其中,fid o 为数据模型所有者的流程ID,fid c 为数据模型目前引用者的流程ID;
数据模型所属负责部门参数d的计算公式如下:
Figure DEST_PATH_IMAGE004AAAAA
其中,did o 为数据模型所有者的部门ID,did c 为数据模型目前引用者的部门ID,λ为常数参数,默认取值为0.5;
数据模型更新频率参数f的计算公式如下:
Figure DEST_PATH_IMAGE006AAAA
其中,f u 是模型数据更新频率,α为基准更新频率。
此外,数据模型更新方式u的常见方式的取值定义如下:
REST方式时,u取值0.1;XML方式时,u取值0.2;ETL方式时,u取值0.4;csv/text/excel自动方式时,u取值0.6;手动方式时,u取值1。
优选的,步骤S4中,本体数据模型识别方法为:将超过一半特征指标值相同的本体数据模型放入备选集合,确认本体数据模型对应的业务对象,若为同一业务对象,为其打上正标签。
优选的,步骤S5中,针对输入特征集的不确定性参数,采用如下几何间隔定义:
Figure DEST_PATH_IMAGE024
其中,γ i 为样本点
Figure DEST_PATH_IMAGE010AAAAA
到超平面的举例,w为法向量,||w||w的二级范数,b为超平面距离常量,
Figure 194330DEST_PATH_IMAGE011
为该样本点的不确定性参数向量。
优选的,步骤S5中:
对于线性分类,将标准分类函数替换为:
Figure DEST_PATH_IMAGE025
其中,
Figure 297895DEST_PATH_IMAGE014
为样本
Figure 792331DEST_PATH_IMAGE015
的拉格朗日乘子,
Figure 810490DEST_PATH_IMAGE016
为样本
Figure 997757DEST_PATH_IMAGE015
的分类结果,
Figure 731227DEST_PATH_IMAGE011
为样本
Figure 29353DEST_PATH_IMAGE015
的 不确定性参数向量,e为待分类样本
Figure 902019DEST_PATH_IMAGE017
的不确定性参数向量,
Figure DEST_PATH_IMAGE019AA
为待分类样本
Figure 447138DEST_PATH_IMAGE017
的特征 值向量,
Figure DEST_PATH_IMAGE021AA
为样本
Figure 857785DEST_PATH_IMAGE015
的特征值向量,b为常数参数;
对于非线性分类,将基于核函数的分类函数替换为:
Figure DEST_PATH_IMAGE023A
其中,
Figure 872184DEST_PATH_IMAGE014
为样本
Figure 268530DEST_PATH_IMAGE015
的拉格朗日乘子,
Figure 532021DEST_PATH_IMAGE016
为样本
Figure 567979DEST_PATH_IMAGE015
的分类结果,k[ ]为核函数,
Figure 614433DEST_PATH_IMAGE011
为样本
Figure 461691DEST_PATH_IMAGE015
的不确定性参数向量,e为待分类样本
Figure 161662DEST_PATH_IMAGE017
的不确定性参数向量,
Figure DEST_PATH_IMAGE019AAA
为待分类 样本
Figure 546901DEST_PATH_IMAGE017
的特征值向量,
Figure DEST_PATH_IMAGE021AAA
为样本
Figure 505367DEST_PATH_IMAGE015
的特征值向量,b为常数参数。
实施例2
本实施例在实施例1的基础上:
本实施例通过一个由三个流程及部门的场景,说明本方法的模型构建、信息提取、不确定性参数计算、分类打标签、模型训练的过程。
1.构建数据流图,如图2所示,该场景由3个业务流程构成,分别属于2个不同部门,每个业务流程都有一套专用信息系统,系统中分别有各业务负责人制定的数据模型。
2.提取流程与数据信息,依据沿所有数据流方向上,尽可能多的ID都是递增的原则,对流程和部门进行唯一性ID编号。示例中的流程和部门ID已经满足该要求。
3.形成高维数据模型。数据模型包括数据存量、数据增量、更新频率、数据来源、数据流向、数据所有者、所属部门、绩效指标、命名、编码、数据类型。数据模型的特征值向量可表示为:
Figure DEST_PATH_IMAGE027
4.计算不确定性参数:
Figure DEST_PATH_IMAGE029
5.开展数据模型识别。经确认,数据模型1、2为同一业务对象的模型化描述,为分类正样本;数据模型3相对数据模型1、2增加了大量来源于其它业务的数据,同时已不同的业务视角进行组织,因此不是同一个业务对象,为分类负样本。
6.训练支持向量机分类模型。采用与上述过程相同方法,获得至少100个正负样本后,即可开展模型训练。训练完成后的结果通过t-SNE算法进行降维后的可视化结果如图3所示。图3中将模型判定为不同分类的点通过不同数字(0和1)进行标记,进行类别区分。其中部分点在t-SNE算法降维后距离较近,因此数字也有部分重叠。
7.运用训练完成的模型开展自动分类判定。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (9)

1.一种基于不确定性支持向量机的数据模型比较方法,其特征在于,通过构建高维度数据模型,将不确定性参数引入支持向量机分类模型的训练,从而提升对本体数据模型的辨识和比较效率及准确率,最终实现高效数据集成;所述数据模型比较方法包括以下步骤:
S1. 收集流程数据,通过构建数据流图,以业务处理过程为中心,描述完整的业务和数据流程;所述数据流图能够根据需要进行分层绘制;
S2. 提取所述数据流图信息,获得包括数据来源、数据消费者、模型负责人、所属部门和/或考核绩效在内的业务信息;
S3. 构建包括多个特征值的高维度数据模型,所有特征值均伴随一个不确定性参数,用以表达可能存在的无法准确获取该特征值的情况;将特征值与其对应的不确定性参数组合,形成n维本体数据模型特征集;
S4. 进行本体数据模型识别,形成训练数据集标签;
S5. 基于本体数据模型识别结果,运用支撑向量机分类模型进行训练和验证;
S6. 运用训练完成的支持向量机分类模型进行本体数据模型分类,将划分为同类的结果进行确认,确认后对本体数据模型中的不同项目进行统一修改,为系统集成和逻辑模型关联提供支撑。
2.根据权利要求1所述的一种基于不确定性支持向量机的数据模型比较方法,其特征在于,步骤S1中,业务和数据流程的核心组成部分为业务活动和数据流向,包括:
数据输入,即为当前业务活动所需的、来源于上游业务活动的信息;
数据输出,即为当前业务活动产生的或改变的信息,供下游业务活动使用;
当前业务活动的所有者、责任人或部门信息;
当前业务活动的管理控制信息,包括当前业务活动所对应的绩效KPI。
3.根据权利要求1所述的一种基于不确定性支持向量机的数据模型比较方法,其特征在于,步骤S2中,所涉及的流程和相关部门设定有唯一的流程ID和部门ID,以确保沿所有数据流方向上,尽可能多的ID都是递增的;同时,参考数据定义、数据管理部门的相关数据信息,将流程与数据信息结合,协同构建高维度数据模型。
4.根据权利要求1所述的一种基于不确定性支持向量机的数据模型比较方法,其特征在于,步骤S3中,所述特征值包括数据存量、数据增量、更新频率、数据来源、数据流向、数据所有者、所属部门、绩效指标、命名、编码和/或数据类型。
5.根据权利要求1~4任一项所述的一种基于不确定性支持向量机的数据模型比较方法,其特征在于,步骤S3中,不确定性参数的计算方法如下:
e = cdufo
其中,e为不确定性参数,取值范围为[0,1],数值越小代表不确定性越小,e = 0代表该特征值没有不确定性,e = 1代表该特征值具有最大的不确定性;c为数据模型所有者、定义部门从流程上与当前模型所在流程的距离;d为数据模型所属负责部门参数;u为数据模型更新方式;f为数据模型更新频率参数;o为不确定性参数覆盖值。
6.根据权利要求5所述的一种基于不确定性支持向量机的数据模型比较方法,其特征在于,不确定性参数的计算方法中:
距离c的计算公式如下:
Figure 856594DEST_PATH_IMAGE001
其中,fid o 为数据模型所有者的流程ID,fid c 为数据模型目前引用者的流程ID;
数据模型所属负责部门参数d的计算公式如下:
Figure 491844DEST_PATH_IMAGE002
其中,did o 为数据模型所有者的部门ID,did c 为数据模型目前引用者的部门ID,λ为常数参数;
数据模型更新频率参数f的计算公式如下:
Figure 927373DEST_PATH_IMAGE003
其中,f u 是模型数据更新频率,α为基准更新频率。
7.根据权利要求1~4任一项所述的一种基于不确定性支持向量机的数据模型比较方法,其特征在于,步骤S4中,本体数据模型识别方法为:将超过一半特征指标值相同的本体数据模型放入备选集合,确认本体数据模型对应的业务对象,若为同一业务对象,为其打上正标签。
8.根据权利要求1~4任一项所述的一种基于不确定性支持向量机的数据模型比较方法,其特征在于,步骤S5中,针对输入特征集的不确定性参数,采用如下几何间隔定义:
Figure 450146DEST_PATH_IMAGE004
其中,γ i 为样本点到超平面的举例,w为法向量,||w||w的二级范数,b为 超平面距离常量,
Figure 107261DEST_PATH_IMAGE007
为该样本点的不确定性参数向量。
9.根据权利要求8所述的一种基于不确定性支持向量机的数据模型比较方法,其特征在于,步骤S5中:
对于线性分类,将标准分类函数替换为:
Figure 588446DEST_PATH_IMAGE008
其中,
Figure 511271DEST_PATH_IMAGE009
为样本
Figure 834805DEST_PATH_IMAGE010
的拉格朗日乘子,
Figure 831580DEST_PATH_IMAGE011
为样本
Figure 229805DEST_PATH_IMAGE010
的分类结果,
Figure 639927DEST_PATH_IMAGE007
为样本
Figure 970414DEST_PATH_IMAGE010
的不确 定性参数向量,e为待分类样本
Figure 821695DEST_PATH_IMAGE012
的不确定性参数向量,为待分类样本
Figure 300475DEST_PATH_IMAGE012
的特征值向 量,为样本
Figure 981248DEST_PATH_IMAGE010
的特征值向量,b为常数参数;
对于非线性分类,将基于核函数的分类函数替换为:
Figure 646585DEST_PATH_IMAGE017
其中,
Figure 945848DEST_PATH_IMAGE009
为样本
Figure 470894DEST_PATH_IMAGE010
的拉格朗日乘子,
Figure 590029DEST_PATH_IMAGE011
为样本
Figure 996740DEST_PATH_IMAGE010
的分类结果,k[ ]为核函数,
Figure 407299DEST_PATH_IMAGE007
为样本
Figure 303580DEST_PATH_IMAGE010
的不确定性参数向量,e为待分类样本
Figure 582115DEST_PATH_IMAGE012
的不确定性参数向量,为待分类样本
Figure 44713DEST_PATH_IMAGE012
的特征值向量,为样本
Figure 380886DEST_PATH_IMAGE010
的特征值向量,b为常数参数。
CN202110237422.0A 2021-03-04 2021-03-04 一种基于不确定性支持向量机的数据模型比较方法 Active CN112598340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110237422.0A CN112598340B (zh) 2021-03-04 2021-03-04 一种基于不确定性支持向量机的数据模型比较方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110237422.0A CN112598340B (zh) 2021-03-04 2021-03-04 一种基于不确定性支持向量机的数据模型比较方法

Publications (2)

Publication Number Publication Date
CN112598340A true CN112598340A (zh) 2021-04-02
CN112598340B CN112598340B (zh) 2021-06-22

Family

ID=75210312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110237422.0A Active CN112598340B (zh) 2021-03-04 2021-03-04 一种基于不确定性支持向量机的数据模型比较方法

Country Status (1)

Country Link
CN (1) CN112598340B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117273549A (zh) * 2023-11-17 2023-12-22 南通东华软件有限公司 一种基于绩效考核指标体系的绩效考核方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778625A (zh) * 2014-01-13 2015-07-15 北京智慧农业有限公司 基于不确定性支持向量分类的智能营养配比方法和系统
CN105469122A (zh) * 2015-12-29 2016-04-06 郑州轻工业学院 一种基于非平衡样本的计算机数据挖掘方法
CN107194024A (zh) * 2017-04-12 2017-09-22 中国地质大学(武汉) 基于支持向量机的边坡可靠性参数获取方法及装置
CN107943818A (zh) * 2017-10-09 2018-04-20 中国电子科技集团公司第二十八研究所 一种基于多源信息融合的城市数据服务系统及方法
US20180150766A1 (en) * 2016-11-30 2018-05-31 Daegu Gyeongbuk Institute Of Science And Technology Classification method based on support vector machine
CN110197281A (zh) * 2019-05-17 2019-09-03 华南理工大学 一种基于本体模型和概率推理的复杂事件识别方法
CN110717301A (zh) * 2019-09-19 2020-01-21 中国石油大学(华东) 一种基于支持向量机算法的流动单元信息分类识别方法
CN111459788A (zh) * 2019-01-18 2020-07-28 南京大学 一种基于支持向量机的测试程序抄袭检测方法
CN111553888A (zh) * 2020-04-15 2020-08-18 成都飞机工业(集团)有限责任公司 一种基于机器学习的钛合金锻件显微组织图像识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778625A (zh) * 2014-01-13 2015-07-15 北京智慧农业有限公司 基于不确定性支持向量分类的智能营养配比方法和系统
CN105469122A (zh) * 2015-12-29 2016-04-06 郑州轻工业学院 一种基于非平衡样本的计算机数据挖掘方法
US20180150766A1 (en) * 2016-11-30 2018-05-31 Daegu Gyeongbuk Institute Of Science And Technology Classification method based on support vector machine
CN107194024A (zh) * 2017-04-12 2017-09-22 中国地质大学(武汉) 基于支持向量机的边坡可靠性参数获取方法及装置
CN107943818A (zh) * 2017-10-09 2018-04-20 中国电子科技集团公司第二十八研究所 一种基于多源信息融合的城市数据服务系统及方法
CN111459788A (zh) * 2019-01-18 2020-07-28 南京大学 一种基于支持向量机的测试程序抄袭检测方法
CN110197281A (zh) * 2019-05-17 2019-09-03 华南理工大学 一种基于本体模型和概率推理的复杂事件识别方法
CN110717301A (zh) * 2019-09-19 2020-01-21 中国石油大学(华东) 一种基于支持向量机算法的流动单元信息分类识别方法
CN111553888A (zh) * 2020-04-15 2020-08-18 成都飞机工业(集团)有限责任公司 一种基于机器学习的钛合金锻件显微组织图像识别方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
BIN WEI等: "USVM: Selection of SNPs in Diseases Association Study Using UMDA and SVM", 《2010 4TH INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICAL ENGINEERING (ICBBE 2010)》 *
ESKANDARPOUR, ROZHIN等: "Leveraging Accuracy-Uncertainty Tradeoff in SVM to Achieve Highly Accurate Outage Predictions", 《IEEE TRANSACTIONS ON POWER SYSTEMS》 *
MIN-KOOK CHOI等: "WEIGHTED SVM WITH CLASSIFICATION UNCERTAINTY FOR SMALL TRAINING SAMPLES", 《2016 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) BOOK SERIES: ‏ IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING ICIP 》 *
XIE, ZONGXIA等: "Uncertain data classification with additive kernel support vector machine", 《DATA & KNOWLEDGE ENGINEERING》 *
刘岩峰: "多重不确定性需求下装备制造企业多品种生产计划方法研究", 《中国博士学位论文全文数据库 工程科技Ⅱ辑 》 *
刘广利 等: "不确定性支持向量分类预警算法", 《中国管理科学》 *
刘成忠: "两种不确定支持向量机分类性能的对比研究", 《计算机技术与发展》 *
李文进: "面向不确定性数据的若干分类算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王晨 等: "利用LapSVM的快速显著性检测方法", 《中国图象图形学报》 *
王颖: "面向复杂不确定性的电力系统运行优化研究", 《中国博士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117273549A (zh) * 2023-11-17 2023-12-22 南通东华软件有限公司 一种基于绩效考核指标体系的绩效考核方法及系统
CN117273549B (zh) * 2023-11-17 2024-01-26 南通东华软件有限公司 一种基于绩效考核指标体系的绩效考核方法及系统

Also Published As

Publication number Publication date
CN112598340B (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
Simchi-Levi et al. Identifying risks and mitigating disruptions in the automotive supply chain
Ghosh et al. On convergence of differential evolution over a class of continuous functions with unique global optimum
CN111537945A (zh) 基于联邦学习的智能电表故障诊断方法及设备
CN113326028B (zh) 一种基于领域驱动设计与业务全景事件风暴的微服务化分解方法
CN112598340B (zh) 一种基于不确定性支持向量机的数据模型比较方法
CN111985815A (zh) 一种能源电力运营评价指标的筛选方法及装置
Mo et al. An interval efficiency measurement in DEA when considering undesirable outputs
CN115081613A (zh) 生成深度学习模型的方法、装置、电子设备及存储介质
CN112435068A (zh) 一种恶意订单识别方法、装置、电子设备及存储介质
CN114723554B (zh) 异常账户识别方法及装置
CN115796906A (zh) 软件造价估算系统
Mon et al. Evaluation of technological development for the definition of Industries 4.0
CN114358474A (zh) 一种典型多能用户模型建立方法
Zhang et al. Task-driven e-manufacturing resource configurable model
CN110569435B (zh) 智能双端推荐引擎系统和方法
CN113849464A (zh) 信息处理方法和设备
CN113657440A (zh) 一种基于用户特征聚类的拒绝样本推断方法和装置
CN113450142A (zh) 一种电力客户用电行为聚类分析方法及装置
CN110782123B (zh) 决策方案的匹配方法、装置、计算机设备及存储介质
CN115330559B (zh) 一种信息数据时空协同的配电网弹性评估方法和装置
CN110991595B (zh) 设备的编码处理方法、装置、编码管理系统和计算机设备
Pang et al. An Intelligent Evaluation Method of Supply-Demand Matching Degree Based on ELECTRE III and VIKOR in Cloud Manufacturing Platform
CN116797253B (zh) 一种基于客户资源的分类管理方法
Kim et al. Distinguishing Supportive Activities at Industry-Level Value Chain Analysis.
EP4216119A1 (en) Feature selection system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant