CN104598569B - 一种基于关联规则的mbd数据集完整性检查方法 - Google Patents
一种基于关联规则的mbd数据集完整性检查方法 Download PDFInfo
- Publication number
- CN104598569B CN104598569B CN201510015049.9A CN201510015049A CN104598569B CN 104598569 B CN104598569 B CN 104598569B CN 201510015049 A CN201510015049 A CN 201510015049A CN 104598569 B CN104598569 B CN 104598569B
- Authority
- CN
- China
- Prior art keywords
- item
- mbd
- rule
- correlation rule
- confidence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000007726 management method Methods 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 238000013461 design Methods 0.000 claims abstract description 10
- 238000004519 manufacturing process Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 230000008676 import Effects 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 6
- 241001269238 Data Species 0.000 claims description 3
- 238000013138 pruning Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 239000000047 product Substances 0.000 description 12
- 238000005065 mining Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000007689 inspection Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000012356 Product development Methods 0.000 description 2
- 239000006227 byproduct Substances 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011960 computer-aided design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Abstract
一种基于关联规则的MBD数据集完整性检查方法,步骤如下:一、将需要定义到MBD数据集中的设计、制造、检测、管理信息细化分解,将所有条目进行编码并由计算机管理和发布;二、记录MBD数据集定义历史记录;三、对历史记录中数据进行清洗;四、使用关联规则算法对MBD数据集构建历史记录进行关联规则挖掘;五、将获得所有频繁项集导入频繁集数据库中,将获得关联关系及其置信度值导入关系数据库中;六、获得需进行完整性检测MBD数据集所有标准工程注释,提取其中包含最多项的强关联项集Ck;七、查询该规则的置信度并排序;八、查询该规则的置信度并排序。本发明将非几何信息规范化,并进行统一编码管理,准确性高,有很好的适应性。
Description
技术领域
本发明涉及一种基于模型定义(MBD)数据集完整性检查方法,具体是一种基于关联规则的MBD数据集完整性检查方法,可以通过关联规则对MBD数据集中的非几何信息进行完整性检查,以满足设计定义要求,属于计算机辅助设计领域。
背景技术
近20年来,随着数字化技术水平的不断提高,以航空航天为代表的大型装备制造业逐渐采用了全三维数字量尺寸传递体系,波音公司在波音787新型客机研制过程中,全面采用MBD(Model Based Definition)技术,将三维产品设计信息与三维制造信息集成定义到产品三维模型中,取消二维图纸,实现了产品设计、工艺、工装、零件加工、部件装配、零部件检测检验信息的高度集成、协同和融合。
我国的基于MBD全三维数字化设计也是从波音公司的转包生产中开始逐步发展起来的。如今在我国航空航天工业中,通过部分高校及研究院所的不断努力,制定基于模型定义MBD定义规范及相关应用规范,MBD数据集逐渐成为产品研制过程中数据传递的唯一依据。因而,对MBD数据集定义完整性提出了更高要求,同时,在全面采用MBD技术之后,企业MBD数据集数量呈现爆炸式的增长,MBD数据集的规范性及完整性日益成为企业必须面临的挑战。目前,主要存在以下问题:
(1)MBD数据集非几何信息没有标准化
MBD数据集中非几何信息主要用于说明零部件设计、管理、制造及检验等描述信息,目前,国内企业主要采用类似二维工程图纸中技术要求和图框形式进行说明。对数据集中非几何信息没有进行规范化处理,对于同一工艺过程,不同的设计人员可能存在不同的表述形式,同时非标准化信息描述不利于计算机系统对数据集中信息进行提取和识别。
(2)MBD数据集检查主要采用设计人员复核复审
随着MBD技术推广,越来越多的产品信息被集成到三维模型中,MBD数据集作为产品数据传递的唯一依据,其规范性及完整性对于整个产品研制具有举足轻重的作用。虽然,目前存在一些通过和标准MBD数据集模板对比进行数据集完整性检查的方法,但由于模板本身缺少适应性,其作用非常有限,所以,目前MBD数据集检查依然主要采用人工形式进行,效率极低。
MBD作为一种全新产品数字化定义技术,不仅仅是传统二维图纸的映射,而是充分利用三维数据的关联性、数据的可复用性,将非几何信息规范化,并进行唯一编码,使设计人员在创建MBD数据集时由过去的个人经验的“输入”转变为标准工程注释的“选择”。每一个MBD数据的创建,都是设计人员的经验知识的表现,其历史记录包含设计人员对标准工程注释信息的选用,包含大量设计人员知识和经验。关联规则挖掘是一种应用广泛的机器学习技术,它运用统计原理,在海量的数据中发现数据项之间关系,1993年Agrawal等人首先提出了交易数据库中不同商品之间关联规则挖掘,并逐渐被改进优化。目前关联规则挖掘技术已经被广泛应用在金融行业的客户需求和销售领域的购物篮分析中。但把关联规则应用到MBD数据集完整性检查中还没有先例。
本发明通过关联规则分析大量模型对标准工程注释信息的选用的记录,发现标准注释信息之间关联,利用已获得标准注释信息之间的关联,对MBD数据集的完整性进行评估和检查。
发明内容
(一)本发明的目的在于提供一种基于关联规则的MBD数据集完整性检查方法,研究利用关联规则分析大量模型对标准工程注释内容的选用记录,获得标准工程注释间关联关系,用户可以通过输入关联强度值,获得数据集中标准工程注释低于关联强度的标准工程注释条目,以及标准库中关联强度高于设定关联强度的标准工程注释条目,从而采用交互的方式完成MBD数据集完整性检查。
(二)技术方案
在使用本发明之前需要对MBD数据集非几何信息需要进行标准化,并进行唯一编码,每一条包含唯一编码的非几何信息为一条标准工程注释。用户通过在三维模型加入标准工程注释信息创建MBD数据集。其中每一条标准工程注释都用一个项来进行表示,由标准工程注释构成的集称为项集。每一个MBD数据集构建记录称为一个事务,关联规则就是通过分析大量事务进而得出项之间关联关系。本发明正是通过记录大量MBD数据集创建历史记录信息,利用关联规则挖掘标准工程注释间的关联关系。用户使用通过设定关联强度,过滤出数据集中已经添加但低于设定关联强度阈值的标准工程注释条目,以及在标准库中高于设关联强度阈值却没有添加到MBD数据集中的标准工程注释条目。
本发明一种基于关联规则的MBD数据集完整性检查方法,该方法的具体步骤如下:
步骤一:将企业中需要定义到MBD数据集中的设计、制造、检测、管理等信息细化分解,并将所有条目进行编码并由计算机管理和发布。其中每一条目都称为一条标准工程注释信息,也构成关联规则中的每一项;
步骤二:记录MBD数据集定义历史记录,将MBD数据集中产品代号,标准注释编码,保存在历史记录数据库中,每一条历史记录都构成关联规则中的一个事务数据;
步骤三:对历史记录中数据进行清洗,去除一些无意义和噪声数据;
步骤四:使用关联规则算法对MBD数据集构建历史记录进行关联规则挖掘,其详细过程如下:
1)提取频繁项集
对于关联规则:X→Y,其支持度是指事务中含X∪Y项事务的百分比,计算公式为(X∪Y)count/N,其中(X∪Y)count为事务集中出现X∪Y项的数量;对于支持度大于及等于给定最小支持度的项集称为频繁项集;利用重复迭代的方法,从1-项集开始,根据给定支持度阈值获得频繁1-项集L1;由频繁1-项集组合生成2-项集,根据给定的支持度阈值对候选的2-项集进行剪枝,获得频繁2-项集,依次类推,直到产生最多项的频繁集Ls为止;
2)计算关联规则置信度
对于关联规则中,置信度是指事物集中出现X∪Y数量占X项数量的百分比,计算公式为(X∪Y)count/(X)count,其中(X)count为事务集中出现X项的次数;对于频繁项集Lk,其中对于任意项I,计算关联规则(Lk-I)→I置信度;对于置信度大于及等于给定最小置信度的关联规则,称为强关联规则,否则为弱关联规则,采用不断迭代的方法计算频繁项集中关联规则的置信度值,并由置信度值对规则进行排序;
步骤五:将获得所有频繁项集导入频繁集数据库中,将获得关联关系及其置信度值导入关系数据库中,便于后续数据集完整性检查调用;
步骤六:获得需进行完整性检测MBD数据集所有标准工程注释,提取其中包含最多项的强关联项集Ck,即提取待检测MBD数据集中任意两项标准工程注释均为强关联规则的最长的频繁项集;
步骤七:以待检测MBD数据集中最长频繁项集为规则头,分别以数据集其他项为规则尾,查询该规则的置信度并排序,设定关联强度值,给出低于设定关联强度值项,即MBD数据集中包含冗余项;
步骤八:以待检测MBD数据集中最长频繁项集为规则头,以不包含在MBD数据集中标准库其他项为规则尾,查询该规则的置信度并排序,设定关联强度值,给出低于设定关联强度值项,即MBD数据集中缺失项。
其中,在步骤二中所述的“产品代号”,是指MBD数据集所对应产品零件或组件的编号,其方式依据企业具体标准,具有唯一性。
其中,在步骤三中所述的“无意义和噪声数据”,是指历史记录数据中MBD数据集中仅包含标准工程注释的条目低于或高于一定数量,且这种事务的数量在总体事务所占比例很少,为了提高算法效率,将这些数据剔除。
其中,在步骤四中所述的“关联规则算法”,是指寻找描述数据库中数据项之间潜在的关联关系算法,从而找出工程注释项之间的未知依赖关系。
其中,在步骤四中所述“频繁集”,是指支持度大于最小支持度阈值的项集。
其中,在步骤四中所述的“最小支持度”,是指由候选集生成频繁项集的阈值,一般是由人工指定的一个常量。
其中,在步骤四中所述的“最小置信度”,是指由判断该规则是否为强规则的阈值,一般是由人工指定的一个常量。
其中,在步骤六中所述的“强关联项集”是指任意两项间关联规则为强关联规则频繁项集,主要用于作为一个MBD数据集的核心,并作为MBD数据集完整性判断的规则头,进而判断其他项与“强关联项集”关联关系来判断MBD数据集的完整性。
其中,在步骤七中所述的“规则头”是指对于关联规则X→Y的规则前部,即X所表示的内容。
其中,在步骤七中所述的“规则尾”是指对于关联规则X→Y的规则前部,即Y所表示的内容。
其中,在步骤七中所述的“关联强度”,是指中用户输入的0-1的值,cof=a*(max_cof–min_cof)+min_cof,其中cof是当前置信度阈值,max_cof是当前所有关联规则中最大置信度,min_cof是当前所有关联规则中最小置信度,a是用户输入的关联强度值;用户可通过输入一个0-1的量,转换为关联规则置信度阈值,进而显示出在当前置信度阈值条件下,MBD数据集已包含的项中中哪些是“不可信”,主要用于检查数据集中冗余项。
其中,在步骤八中所述的“关联强度”是指中用户输入的0-1的值,cof=a*(max_cof–min_cof)+min_cof,其中cof是当前置信度阈值,max_cof是当前关联规则中最大置信度,min_cof是当前关联规则中最小置信度,a是用户输入的关联强度值;用户可通过输入一个0-1的量,转换为关联规则置信度阈值,进而显示出在当前置信度阈值条件下,集成产品标准管理平台中哪些项是“可信任”却没有加入数据集中的,主要用于检查数据集中缺失项。
(三)优点及有益效果
本发明提出了一种新颖的基于关联规则MBD数据集完整性检查方法,充分利用全三维模式下数据的关联性和可复用性,将非几何信息规范化,并进行统一编码管理,利用关联规则挖掘MBD数据集创建历史记录,创建标准工程注释间关联关系,进而进行MBD数据集完整性检查。能够提高MBD数据集完整项检查的准确性,缩短数据集复核复审的时间,大大提高MBD数据集的效率。同时,随着MBD数据集历史记录数据量的积累,检查的准确性随之提高,具有很好的适应性。
附图说明
图1基于关联规则MBD数据集完整性检查系统示意图
图2频繁项集挖掘算法流程图
图3关系数据库及频繁项集数据库创建示意图
图4获取待检查MBD数据集中强关联模型算法流程图
图5MBD数据集完整性检查示意图
图6本发明所述方法流程图
具体实施方式
本发明一种基于关联规则的MBD数据集完整性检查方法,如图6所示,该方法的具体步骤如下:
步骤一:如图1所示,将企业中需要定义到MBD数据集中的设计、制造、检测、管理等信息细化分解,并将所有条目进行唯一编码并由计算机管理和发布。其中每一条目都称为一条标准工程注释信息,也构成关联规则中的每一项。每一条标准工程注释由“编码”+“标注内容”+“URL”,其中,URL是标准工程注释详细说明文档,如“5SN00796|提供随炉试件的拉伸模量及拉伸强度数据|http://standards.web.CASC.com/hlgw.cgi?app=BAC&spec.”
步骤二:记录MBD数据集构建历史记录,将MBD数据集中产品代号,标准注释编码,保存在历史记录数据库中,每一条历史记录都构成关联规则中的一个事务。如{FDHZ1008-4B_5-11;5SN00796,5SN01287,5PN01367,5SN00365,5DN00216}是一个事务,其中“FDHZ1008-4B_5-11”产品代码,也作为关联规则中的事务唯一事务码,“5SN00796,5SN01287,5PN01367,5SN00365,5DN00216”是该事务的所有项。
步骤三:对历史记录中数据进行清洗,去除一些无意义和噪声数据。为了提高算法运行效率,需对历史记录数据进行清洗,去除一些包含过长或过短项事务,如{FDHZ1008-4B_7-12;5SN02345}仅包含一个项,对于关联规则挖掘没有任何意义,对于包含项过长的事务,在总体事务中所占比例不大,而在频繁集的生成过程需耗费大量计算量。
步骤四:使用关联规则算法对MBD数据集构建历史记录进行关联规则挖掘,如表1,以一个简单事务库关联规则挖掘为例进行说明。
表1,MBD数据集构建历史记录
产品代号 | 标准工程注释编码项集合 |
FDHZ1008-4B_5-13 | {5SN00791,5SN01282,5PN01365} |
FDHZ1008-4B_6-14 | {5SN01282,5DN00214} |
FDHZ1008-4B_3-11 | {5SN01282,5SN00323} |
FDHZ1008-5E_5-07 | {5SN00791,5SN01282,5DN00214} |
FDHZ1008-5E_5-03 | {5SN00791,5SN00323} |
FDHZ1008-4B_7-13 | {5SN01282,5SN00323} |
FDHZ1008-4D_6-14 | {5SN00791,5SN00323} |
FDHZ1008-5E_6-11 | {5SN00791,5SN01282,5SN00323,5PN01365} |
FDHZ1008-4B_5-13 | {5SN00791,5SN01282,5SN00323} |
1)提取频繁项集
如图2所示,首先扫描历史记录数据库,对每个候选项生成1-项候选集,设定支持度计数为2,由支持度计算公式(X∪Y)count/N获得1-项频繁集,1-项频繁集如表2所示。
表2 1-项频繁集
标准工程注释编码项集合 | 支持度计数 |
{5SN00791} | 6 |
{5SN01282} | 7 |
{5SN00323} | 6 |
{5DN00214} | 2 |
{5PN01365} | 2 |
由1-项频繁集产生2-项候选集,对每个候选集计数产生2-项频繁集,如表3所示。
表3 2-项频繁集
标准工程注释编码项集合 | 支持度计数 |
{5SN00791,5SN01282} | 4 |
{5SN00791,5SN00323} | 4 |
{5SN00791,5PN01365} | 2 |
{5SN01282,5SN00323} | 4 |
{5SN01282,5DN00214} | 2 |
{5SN01282,5PN01365} | 2 |
对2-项频集进行连接产生3-项候选集,进而产生3项频集,算法结束,如表4所示。
表4 3-项频集
标准工程注释编码项集合 | 支持度计数 |
{5SN00791,5SN01282,5SN00323} | 2 |
{5SN00791,5SN01282,5PN01365} | 2 |
2)计算关联规则置信度
由置信度计算公式为(X∪Y)count/(X)count,对于频繁项集Lk,计算其中任意项I,关联规则I→(Lk-I)置信度。设定置信度为0.4如关联规则{5SN00791,5SN01282}→{5SN00323},置信度cof=0.5,{5SN01282}→{5PN01365},置信度cof=0.286。采用不断迭代的方法计算频繁项集中规则尾为单项的关联规则的置信度值,并由置信度值对规则进行排序。
步骤五:如图3所示,将获得所有频繁项集导入频繁集数据库中,将获得关联关系及其置信度值导入关系数据库中,便于后续数据集完整性检查调用。此步骤主要完成关联规则算法对MBD创建历史记录所挖掘的数据的保存,用于后续对MBD数据集完整性检查时进行调用,频繁集数据保存主要用于待检测MBD数据集中最长的强关联项集,关联关系及置信度值用于MBD数据集中冗余和缺失元素判断依据。
步骤六:获得需进行完整性检测MBD数据集所有标准工程注释,如图4,提取其中包含最多项的项集Ck,且该项集为一频繁项集。即提取待检测MBD数据集中标准工程注释集中最长的频繁项集。如待检测MBD数据集为{FDHZ1008-4B_5-14;5SN00796,5SN01287,5PN01367,5SN00365,5DN00216,5DN00345,5SN01104},首先判断C7项即{5SN00796,5SN01287,5PN01367,5SN00365,5DN00216,5DN00345,5SN01104}是否为频繁项集,且任意两项件关联规则为强关联规则,若不是则判断所有C6项是否存在任意两项关联关系均为强关联规则的频繁项集,依次类推,直到找到最长项集Ck,且Ck为频繁项集,且其中任意两项关联关系均为强关联规则为止。
步骤七:如图5所示,以一待检测MBD数据集完整性检测为例,如{FDHZ1008-4B_5-14;5SN00796,5SN01287,5PN01367,5SN00365,5DN00216,5DN00345,5SN01104},通过第六步获取数据集中最长项频繁项集为{5SN00796,5DN00216,5SN01104},且5SN00796→5DN00216,5SN00796→5SN01104,5DN00216→5SN01104,5DN00216→5SN00796,5SN01104→5SN00796,5SN01104→5DN00216均为强关联规则,通过查询关系数据库获取置信度排序如表5所示。
表5置信度排序
关联规则 | 置信度 |
{5SN00796,5DN00216,5SN01104}→{5SN01287} | 0.62 |
{5SN00796,5DN00216,5SN01104}→{5PN01367} | 0.43 |
{5SN00796,5DN00216,5SN01104}→{5SN00365} | 0.21 |
{5SN00796,5DN00216,5SN01104}→{5DN00345} | 0 |
其中,{5SN00796,5DN00216,5SN01104}→{5DN00345}之间关系数据库中没有关联关系,则置信度为0。此时用户输入关联强度为0.4,则根据cof=a*(max_cof–min_cof)+min_cof,当前置信度阈值为0.284,则系统显示编号为5DN00345,5SN00365标准工程注释为冗余项。
步骤八:同样如图5,以{FDHZ1008-4B_5-14;5SN00796,5SN01287,5PN01367,5SN00365,5DN00216,5DN00345,5SN01104}MBD数据集为检测对象进行说明,项集为{5SN00796,5DN00216,5SN01104}关联规则头,集成产品标准管理平台中其他项为规则尾,查询关系数据库中置信度最大的top-N项,系统中N取10。置信度排序如表6所示
表6 top-N项置信度排序
关联规则 | 置信度 |
{5SN00796,5DN00216,5SN01104}→{5DN00009} | 0.92 |
{5SN00796,5DN00216,5SN01104}→{5SN00034} | 0.87 |
{5SN00796,5DN00216,5SN01104}→{5SN00123} | 0.82 |
{5SN00796,5DN00216,5SN01104}→{5PN00087} | 0.74 |
{5SN00796,5DN00216,5SN01104}→{5PN17834} | 0.74 |
{5SN00796,5DN00216,5SN01104}→{5SN00067} | 0.72 |
{5SN00796,5DN00216,5SN01104}→{5DN00198} | 0.69 |
{5SN00796,5DN00216,5SN01104}→{5SN04897} | 0.67 |
{5SN00796,5DN00216,5SN01104}→{5DN00784} | 0.64 |
{5SN00796,5DN00216,5SN01104}→{5PN00059} | 0.63 |
如果集成产品标准管理平台对应关联规则小于10,则top-N中,N取最大值。此时用户输入关联强度为0.7,根据cof=a*(max_cof–min_cof)+min_cof,当前置信度阈值为0.833。则系统显示编号为5DN00009,5SN00034标准工程注释为缺失项。
Claims (9)
1.一种基于关联规则的MBD数据集完整性检查方法,其特征在于:该方法的具体步骤如下:
步骤一:将企业中需要定义到一种基于模型定义即MBD数据集中的设计、制造、检测、管理信息细化分解,并将所有条目进行编码并由计算机管理和发布,其中每一条目都称为一条标准工程注释信息,也构成关联规则中的每一项;
步骤二:记录MBD数据集定义历史记录,将MBD数据集中产品代号,标准注释编码,保存在历史记录数据库中,每一条历史记录都构成关联规则中的一个事务数据;
步骤三:对历史记录中数据进行清洗,去除一些无意义和噪声数据;
步骤四:使用关联规则算法对MBD数据集构建历史记录进行关联规则挖掘,其详细过程如下:
1)提取频繁项集
对于关联规则:X→Y,其支持度是指事务中含X∪Y项事务的百分比,计算公式为(X∪Y)count/N,其中(X∪Y)count为事务集中出现X∪Y项的数量;对于支持度大于及等于给定最小支持度的项集称为频繁项集;利用重复迭代的方法,从1-项集开始,根据给定支持度阈值获得频繁1-项集L1;由频繁1-项集组合生成2-项集,根据给定的支持度阈值对候选的2-项集进行剪枝,获得频繁2-项集,依次类推,直到产生最多项的频繁项集Ls为止;
2)计算关联规则置信度
对于关联规则中,置信度是指事物集中出现X∪Y数量占X项数量的百分比,计算公式为(X∪Y)count/(X)count,其中(X)count为事务集中出现X项的次数;对于频繁项集Lk,其中对于任意项I,计算关联规则(Lk-I)→I置信度;对于置信度大于及等于给定最小置信度的关联规则,称为强关联规则,否则为弱关联规则,采用不断迭代的方法计算频繁项集中关联规则的置信度值,并由置信度值对规则进行排序;
步骤五:将获得所有频繁项集导入频繁项集数据库中,将获得关联关系及其置信度值导入关系数据库中,便于后续数据集完整性检查调用;
步骤六:获得需进行完整性检测MBD数据集所有标准工程注释,提取其中包含最多项的强关联项集Ck,即提取待检测MBD数据集中任意两项标准工程注释均为强关联规则的最长的频繁项集;
步骤七:以待检测MBD数据集中最长频繁项集为规则头,分别以数据集其他项为规则尾,查询该规则的置信度并排序,设定关联强度值,给出低于设定关联强度值项,即MBD数据集中包含冗余项;
步骤八:以待检测MBD数据集中最长频繁项集为规则头,以不包含在MBD数据集中标准库其他项为规则尾,查询该规则的置信度并排序,设定关联强度值,给出低于设定关联强度值项,即MBD数据集中缺失项。
2.根据权利要求1所述的一种基于关联规则的MBD数据集完整性检查方法,其特征在于:在步骤二中所述的“产品代号”,是指MBD数据集所对应产品零件及组件的编号,其方式依据企业具体标准,具有唯一性。
3.根据权利要求1所述的一种基于关联规则的MBD数据集完整性检查方法,其特征在于:在步骤三中所述的“无意义和噪声数据”,是指历史记录数据中MBD数据集中仅包含标准工程注释的条目低于及高于事务的数量,且这种事务的数量在总体事务所占比例少,为了提高算法效率,将这些数据剔除。
4.根据权利要求1所述的一种基于关联规则的MBD数据集完整性检查方法,其特征在于:在步骤四中所述的“关联规则算法”,是指寻找描述数据库中数据项之间潜在的关联关系算法,从而找出工程注释项之间的未知依赖关系。
5.根据权利要求1所述的一种基于关联规则的MBD数据集完整性检查方法,其特征在于:在步骤四中所述“频繁项集”,是指支持度大于最小支持度阈值的项集;所述的“最小支持度”,是指由候选集生成频繁项集的阈值,是由人工指定的一个常量;所述的“最小置信度”,是指由判断该规则是否为强规则的阈值,是由人工指定的一个常量。
6.根据权利要求1所述的一种基于关联规则的MBD数据集完整性检查方法,其特征在于:在步骤六中所述的“强关联项集”,是指任意两项间关联规则为强关联规则频繁项集,用于作为一个MBD数据集的核心,并作为MBD数据集完整性判断的规则头,进而判断其他项与“强关联项集”关联关系来判断MBD数据集的完整性。
7.根据权利要求1所述的一种基于关联规则的MBD数据集完整性检查方法,其特征在于:在步骤七中所述的“规则头”是指对于关联规则X→Y的规则前部,即X所表示的内容;所述的“规则尾”是指对于关联规则X→Y的规则前部,即Y所表示的内容。
8.根据权利要求1所述的一种基于关联规则的MBD数据集完整性检查方法,其特征在于:在步骤七中所述的“关联强度”,是指中用户输入的0-1的值,cof=a*(max_cof–min_cof)+min_cof,其中cof是当前置信度阈值,max_cof是当前所有关联规则中最大置信度,min_cof是当前所有关联规则中最小置信度,a是用户输入的关联强度值;用户通过输入一个0-1的量,转换为关联规则置信度阈值,进而显示出在当前置信度阈值条件下,MBD数据集已包含的项中中哪些是“不可信”,主要用于检查数据集中冗余项。
9.根据权利要求1所述的一种基于关联规则的MBD数据集完整性检查方法,其特征在于:在步骤八中所述的“关联强度”是指中用户输入的0-1的值,cof=a*(max_cof–min_cof)+min_cof,其中cof是当前置信度阈值,max_cof是当前关联规则中最大置信度,min_cof是当前关联规则中最小置信度,a是用户输入的关联强度值;用户通过输入一个0-1的量,转换为关联规则置信度阈值,进而显示出在当前置信度阈值条件下,集成产品标准管理平台中哪些项是“可信任”却没有加入数据集中的,用于检查数据集中缺失项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510015049.9A CN104598569B (zh) | 2015-01-12 | 2015-01-12 | 一种基于关联规则的mbd数据集完整性检查方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510015049.9A CN104598569B (zh) | 2015-01-12 | 2015-01-12 | 一种基于关联规则的mbd数据集完整性检查方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104598569A CN104598569A (zh) | 2015-05-06 |
CN104598569B true CN104598569B (zh) | 2017-12-29 |
Family
ID=53124354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510015049.9A Expired - Fee Related CN104598569B (zh) | 2015-01-12 | 2015-01-12 | 一种基于关联规则的mbd数据集完整性检查方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104598569B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718653B (zh) * | 2016-01-20 | 2019-02-12 | 西北工业大学 | 一种用于mbd工艺模型的标注信息完备性自动检查方法 |
CN107291716B (zh) * | 2016-03-30 | 2020-07-21 | 阿里巴巴集团控股有限公司 | 一种链路数据校验方法及装置 |
CN106599264B (zh) * | 2016-12-22 | 2019-07-19 | 国家行政学院 | 一种基于大数据的突发事件演化推理方法及系统 |
CN107357902B (zh) * | 2017-07-14 | 2021-05-28 | 电子科技大学 | 一种基于关联规则的数据表分类系统与方法 |
CN109557894A (zh) * | 2017-09-26 | 2019-04-02 | 同济大学 | 航天大型薄壁件产品加工质量诊断监测系统 |
CN107590621B (zh) * | 2017-10-10 | 2020-08-21 | 清华大学 | 基于自适应频繁集挖掘法的缺陷亲和性分析方法及装置 |
CN107944171A (zh) * | 2017-12-03 | 2018-04-20 | 中国直升机设计研究所 | 一种基于mbd机械接口控制模型生成方法 |
CN107977687A (zh) * | 2017-12-28 | 2018-05-01 | 重庆理工大学 | 一种基于关联规则算法及朴素贝叶斯法的葡萄酒分类方法 |
CN108345732A (zh) * | 2018-01-30 | 2018-07-31 | 武汉征原电气有限公司 | 一种工业现场工程质量智能检测方法 |
CN108121887A (zh) * | 2018-02-05 | 2018-06-05 | 艾凯克斯(嘉兴)信息科技有限公司 | 一种通过机器学习处理企业标准化的方法 |
CN108710760A (zh) * | 2018-05-21 | 2018-10-26 | 北京航空航天大学 | 一种船舶mbd完整性定义方法 |
CN108875056B (zh) * | 2018-06-28 | 2021-08-13 | 中国建设银行股份有限公司 | 数据检核方法、装置、电子设备及可读存储介质 |
CN110210254B (zh) * | 2019-06-13 | 2023-06-02 | 东华大学 | 一种多数据完整性验证中重复数据的优化验证方法 |
CN110264158A (zh) * | 2019-06-19 | 2019-09-20 | 国网上海市电力公司 | 一种输变电工程数字化审查系统及实现方法 |
CN110688375B (zh) * | 2019-09-26 | 2022-09-27 | 招商局金融科技有限公司 | 客户渗透分析的方法、装置及计算机可读存储介质 |
CN110826149A (zh) * | 2019-10-30 | 2020-02-21 | 中国舰船研究设计中心 | 一种船舶舱室设备完整性定义质检系统和方法 |
CN111125830B (zh) * | 2019-12-11 | 2021-08-20 | 中国航空综合技术研究所 | 基于模型定义的长周期数据存储检验方法 |
CN111666300A (zh) * | 2020-04-16 | 2020-09-15 | 广西电网有限责任公司 | 继电保护定值审核处理方法 |
CN112487717B (zh) * | 2020-11-27 | 2024-03-29 | 江苏科技大学 | 一种船用柴油机关键件的可制造性智能评价方法 |
CN115905319B (zh) * | 2022-11-16 | 2024-04-19 | 国网山东省电力公司营销服务中心(计量中心) | 一种海量用户电费异常的自动识别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007081433A2 (en) * | 2006-01-09 | 2007-07-19 | Radiant Logic Inc. | System and method for providing access to databases via directories and other hierarchical structures and interfaces |
CN102043851A (zh) * | 2010-12-22 | 2011-05-04 | 四川大学 | 一种基于频繁项集的多文档自动摘要方法 |
CN103440351A (zh) * | 2013-09-22 | 2013-12-11 | 广州中国科学院软件应用技术研究所 | 一种关联规则数据挖掘算法的并行计算方法及装置 |
CN104217013A (zh) * | 2014-09-22 | 2014-12-17 | 广西教育学院 | 基于项加权和项集关联度的课程正负模式挖掘方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19506775C2 (de) * | 1995-02-27 | 1997-09-25 | Agie Ag Ind Elektronik | Vorrichtung zum Führen einer Bearbeitungselektrode an einer Funkenerosionsmaschine |
-
2015
- 2015-01-12 CN CN201510015049.9A patent/CN104598569B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007081433A2 (en) * | 2006-01-09 | 2007-07-19 | Radiant Logic Inc. | System and method for providing access to databases via directories and other hierarchical structures and interfaces |
CN102043851A (zh) * | 2010-12-22 | 2011-05-04 | 四川大学 | 一种基于频繁项集的多文档自动摘要方法 |
CN103440351A (zh) * | 2013-09-22 | 2013-12-11 | 广州中国科学院软件应用技术研究所 | 一种关联规则数据挖掘算法的并行计算方法及装置 |
CN104217013A (zh) * | 2014-09-22 | 2014-12-17 | 广西教育学院 | 基于项加权和项集关联度的课程正负模式挖掘方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104598569A (zh) | 2015-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104598569B (zh) | 一种基于关联规则的mbd数据集完整性检查方法 | |
CN105335496B (zh) | 基于余弦相似度文本挖掘算法的客服重复来电处理方法 | |
CN105975604B (zh) | 一种分布迭代式数据处理程序异常检测与诊断方法 | |
CN103226743B (zh) | 基于trl的航空装备技术成熟度评估信息处理方法 | |
CN107133257A (zh) | 一种基于中心连通子图的相似实体识别方法及系统 | |
CN104700190B (zh) | 一种用于项目与专业人员匹配的方法和装置 | |
CN104268160A (zh) | 一种基于领域词典和语义角色的评价对象抽取方法 | |
CN106126577A (zh) | 一种基于数据源划分矩阵的加权关联规则挖掘方法 | |
CN103678620A (zh) | 一种基于用户历史行为特征的知识文档推荐方法 | |
CN104268648B (zh) | 融合用户多种交互信息和用户主题信息的用户排名系统 | |
CN107193883B (zh) | 一种数据处理方法和系统 | |
CN103593336A (zh) | 一种基于语义分析的知识推送系统及方法 | |
CN107943514A (zh) | 一种软件文档中核心代码元素的挖掘方法及系统 | |
CN107357970A (zh) | 基于数据挖掘的建筑信息模型异常元素检测装置和方法 | |
CN110389950A (zh) | 一种快速运行的大数据清洗方法 | |
WO2023130774A1 (zh) | 一种基于学科发展的科研能力评估用数据采集系统 | |
Hayes et al. | A framework for comparing requirements tracing experiments | |
CN112396479A (zh) | 一种基于知识图谱的服饰搭配推荐方法及系统 | |
CN111125221B (zh) | 基于Excel格式的数据提取系统及配置方法 | |
McClosky et al. | Learning constraints for consistent timeline extraction | |
JP2018037069A (ja) | レポートの重要度を分析するメタデータ基盤のオンライン分析処理システム | |
CN110196849A (zh) | 基于大数据治理技术实现用户画像构建处理的系统及其方法 | |
Chen et al. | Data analysis and knowledge discovery in web recruitment—based on big data related jobs | |
CN111124489B (zh) | 一种基于bp神经网络的软件功能点数估算方法 | |
CN104133808A (zh) | 基于复杂对应系统的用户行为一致性度测量方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171229 |