CN105844398A

CN105844398A - 一种基于plm数据库面向dpipp产品族的挖掘算法

Info

Publication number: CN105844398A
Application number: CN201610164258.4A
Authority: CN
Inventors: 彭卫平; 雷金; 蒋瑞; 胡向阳; 窦俊豪; 雷佻钰; 张秋华
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2016-03-22
Filing date: 2016-03-22
Publication date: 2016-08-10

Abstract

本发明公开了一种基于PLM（产品生命周期管理）多空间数据的产品族挖掘方法。所述的方法以PLM数据库中产品结构树（Product Structure Tree，PST）或物料清单（Bill of Material，BOM）为数据源，利用产品数据物理空间、逻辑空间和属性空间的信息比对，实现了产品族的分析和提取，其特征在于利用基于产品主特征向量比对的算法和对算法输出结果进行聚类分析，通过对聚类结果设定阈值得到最终产品族划分方案。本发明具有计算方便、可操作性强、适用范围广、能够较为准确快速地划分出产品族等特点；本发明能够在DPIPP（分布式参数化智能产品平台）的建立上提出一种较为科学的方法；本发明能够减少MC（大批量定制）实施过程中的成本，对MC有着重要意义。

Description

一种基于PLM数据库面向DPIPP产品族的挖掘算法

技术领域

本发明属于构建产品平台技术领域，特别是涉及一种基于PLM(生命周期管理)数据库面向DPIPP(分布式参数化智能产品平台)产品族挖掘算法。

背景技术

随着产品全生命周期管理(Product Life-cycle Management，PLM)技术的逐渐普及，企业的产品数据呈高级数的增长。这些产品数据存在数据库中，包含了先进的管理思想，蕴含着大量的产品和过程知识。如何科学地管理、利用这些产品数据，是降低企业成本的关键。在大批量定制环境下，为满足客户的多样性需求，需要不断增加系列产品的品种。在这些系列产品中不同产品的BOM(物料清单Bill of Material，BOM)结构存在相似性，且包含大量的相同零件。产品系列的增加将导致BOM产生冗余，产品数据的高级数增长将导致管理效率的降低及管理成本的增加。同时，客户个性化需求的增加对产品的设计提出更高的要求。因此，提出通过构建一种产品族模型，以有限数量的数据描述大量的产品品种。产品族(Product Family，PF)是共享通用技术、组件且满足一定范围相互关联市场需求的一组产品。它们是由一些功能相同、结构相似产品组成的产品模型。而如何从现有的产品数据及设计经验中总结和开发出产品族等资源，构建面向大批量定制设计的产品平台，是企业实现大批量定制产品策略的关键。

国内外关于产品族获取方法的研究主要采用的是主动规划的产品战略，即从产品源头规划和设计产品族，从PLM数据库中挖掘产品族的做法还很少。产品族的划分是是一个复杂的多准则决策问题。大多数学者主要采用描述性方法、数学规划方法和人工智能方法，以功能相关和结构相关的模块划分准则的基础，以产品间零件的相似性、通用性、可重用性为判断标准，通过聚类处理，以概率为衡量标准，研究了某一产品族的划分。这些方法对少量的数据处理有很大的优势，然而对于企业PLM中的产品数据，其计算量是惊人的。由于挖掘的产品对象包含的零部件众多，且存在层次结构关系，同时，零部件之间也存在结构相同的同构类和结构不同的非同构类。同构类的功能可能不同，如其尺寸参数的变异对产品生命周期的其他阶段(功能、性能、工艺等)存在着影响；而非同构类在许多参数域范围内，它们的功能、工艺也可能一致，如同一种功能可由不同结构模块来实现。因此上述方法也很难实现产品族的准确划分。

基于以上产品族划分方法的局限性，本发明利用产品数据物理空间、逻辑空间和属性空间，即产品零部件的存储关系、逻辑关系及其功能信息，借鉴生物信息学中DNA分子序列比对技术，提出了一种基于产品多空间数据的产品族挖掘方法。该方法包括基于产品主特征向量比对的算法和对算法输出结果进行聚类分析。通过对聚类结果设定阈值得到最终产品族划分方案。通过对产品族的挖掘，提高产品数据的管理效率，并为产品平台的构建奠定了基础。

发明内容

针对以上问题，本发明的目的是提供一种科学地管理、利用产品数据，降低企业成本的，增加系列产品的品种，满足客户的多样性需求的基于PLM数据库面向DPIPP产品族挖掘算法。

本发明所采用的技术方案是：

一种基于PLM数据库面向DPIPP产品族的挖掘算法，其特征在于，

步骤1，产品信息初选步骤：通过查询物理空间来实现，物理空间是用来存储逻辑空间与属性空间的元数据，元数据是用来描述数据的数据，指示存储位置、资源查找、文件记录等信息。逻辑空间指的是产品零部件间的逻辑关系；属性空间指的是产品及零部件的属性信息，包括结构属性、功能属性、工艺属性、管理属性。具体是：零部件编码、零部件名称、结构参数等，它们都存储于属性表中。物理空间存储了逻辑空间及属性空间的数据的物理地址，获取物理地址之后，可以通过SQL SELLECT以及WHERE语句可以查询到所有相关数据，即可以对相关数据进行筛选以及对不必要的数据进行剔除；

步骤2，对产品进行数据清洗与规范化处理步骤哦，过程包括数据规范化处理与结构逻辑检查两个子步骤；。

数据规范化处理子步骤包括：产品编码一致化处理、二义性处理和属性数据缺失或错误的规范化处理。

与结构逻辑检查子步骤包括：结构完整性检查和关联关系正确性检查。结构完整性检查是指要遍历到产品的每一个零部件，即产品零部件组成是否完整。关联关系正确性检查是指产品的零部件逻辑连接关系是否正确。下面以产品p具体说明：

结构完整性检查即对产品p组成结构的完整性进行检查，若能从PLM数据库中搜索到产品p BOM表中所有零部件，即说明该产品组成结构完整，否则不完整。

步骤3，将树形结构转换成一种适合比对的数据格式，以避免复杂空间结构的直接比较。本发明采用正则化，即利用一个简单的字符串来表达一个复杂的数据结构。包括对逻辑空间以及属性空间正则化；

步骤4，产品属性空间包括功能，工艺，结构，管理等属性信息，这里选用功能属性进行产品族划分。PLM数据库中产品零件功能属性存储在属性表中。对于某一项特定功能如驱动、传动、执行、连接支承等，如果某一零件具有该功能在比对中记为数字1，否则记为0，并分别根据产品逻辑空间或属性空间中产品零部件序列顺序构成向量进行比对。基于：

X＝|S_i,j-MAX(S_i,j)|,

Similarity＝1-D

具体包括：

步骤4.1，将第1个产品逻辑空间主特征向量依次与剩下的n-1个产品逻辑空间向量进行比对，并分别求得分，定义为S′_ij；

步骤4.2，将第1个产品属性空间主特征向量依次与剩下的n-1个产品属性空间向量进行比对，并分别求得分，定义为S″_ij；

步骤4.3，将上述两两比对得分求和，存在预先定义的数组中，定义为S_ij＝S′_ij+S″_ij；

步骤4.4，然后再将第2(3,4，……，n-1)个产品主向量依次与其后的n-2(n-3,n-4,……，1)个向量进行比对，直到所有向量分别比对完成。重复第三步，并输出得分，算法结束。

步骤4.5，基于公式一得到相应的个Similarity值，设置相似度阈值进行聚类分析就能得到产品族挖掘结果。

所述步骤4.1和步骤4.2中S′_ij，S″_ij的获取过程相同，具体如下：

经过以上的正则化处理之后，用字符分别代替了产品的组成零部件，将比对的两个产品逻辑空间主特征向量或属性空间主特征向量，即A＝(a1，a2…，a_m)，B＝(b1，b2，…，b_n)排列成二维表，计算得分矩阵：使用迭代方法计算出两个序列的相似分值，存于一个矩阵中，即计算上表中M_k,l。

在计算每个M_k,l时，不仅计算其得分值，还要用一个指针记录下该最佳得分值的路径，即是从三种情形中的哪种情形得到的。

M_0,0＝0 式二

式中，k代表序列A的长度，其中k∈{1,2,…,n}；l是序列B的长度，其中1∈{1,2,…,n}。M_k,l表示当前元素，M_k,l-1表示与当前元素水平方向相邻的元素，M_k-1,l表示与当前元素垂直方向相邻的元素。D_a(k),b(l)表示序列A的第k个元素与序列B的第l个元素比对的分值；D_a(k),0表示A的第k个元素与空位比对的分值；D_0,b(l)表示空位与B的第l个元素比对的分值。其中打分模板，即D_a(k),b(l)、D_a(k),0、D_0,b(l)的分值采用固定空位罚分模型，或根据产品属性的重要程度确定。本发明采用的固定空位罚分模型为：D_(0,a)＝D_(a,0)＝-2。

得到的M_m,n为S′_ij或S″_ij。

在上述的一种基于PLM数据库面向DPIPP产品族的挖掘算法，数据规范化处理子步骤的具体步骤包括：

处理步骤一,产品编码一致化处理:根据产品结构树的逻辑关系从01开始排序。排序标准参照产品模型的不同功能模块；模块内零件顺序按照重要性程度编成先后顺序。

处理步骤二,二义性处理:检查出存在二义性问题的产品数据对象。检测方法采用改进的临近排序算法。具体分为以下四步：

第一步：在PLM数据库中选取需要检测的产品数据对象，一个对象就是一条记录，字段包括产品名称、结构、功能、工艺等属性。

第二步：选取排序关键字，例如在阀门PLM数据库中，关键字段为结构、功能、工艺等主属性。

第三步：记录排序，选择上一步选取的排序关键字对整个数据集执行多趟排序，使二义性记录在物理位置上尽量相近。

第四步：将检测出存在二义性问题的产品数据对象与数据字典进行比对并更正。

二义性记录检测方法是，选择一个大小为w的固定窗口，并将它在数据集上从上往下滑动，窗口内的第一条记录与窗口中剩余的所有记录逐一进行比对。在相似度计算过程中，首先使用算法计算每对字段的相似度，再根据每个字段的权重计算出两条记录之间的相似度。然后设定一个阈值，如果两条记录的相似值大于给定的阈值，即认为这两条记录是对同一个对象的描述，即存在二义性，阈值的大小一般根据经验设定。随着窗口的不断滑动，直到数据集中所有二义性记录都被检测出来，算法结束。

处理步骤三,属性数据缺失或错误的规范化处理:

步骤3.1,随机选择一个分析方法:

选择一,统计分析的方法：利用切比雪夫定理，计算属性值的期望、标准差取值范围，并考察每一个属性取值区间，来判断该属性是否是异常或错误的。

选择二,分箱方法：属性值被分布到一些等高或等宽的“箱”中，然后计算箱中元素的平均值，以此值来代替缺失属性或异常属性。

选择三,使用行业标准或属性间约束关系对属性值进行分析:属性A的取值是属性B取值的M倍，若在实际检测中不满足该约束规则，则说明该属性取值存在问题。

步骤3.2,产品的结构逻辑检查,具体包括：结构完整性检查和关联关系正确性检查。结构完整性检查是指要遍历到产品的每一个零部件，即产品零部件组成是否完整。关联关系正确性检查是指产品的零部件逻辑连接关系是否正确,具体是:

关联关系正确性检查即对产品p零部件之间的关联关系进行检查。

在上述的一种基于PLM数据库面向DPIPP产品族的挖掘算法，逻辑空间以及属性空间正则化的具体方法为：

正则化步骤一,产品逻辑空间正则化:正则化分为如下两步进行,对产品p按层级关系进行广度优先遍历,然后对产品p零部件进行一致性处理：在进行序列比对时，若序列由复杂字符组成，不适合使用计算机语言进行处理，则需先进行一致化处理；

正则化步骤二,产品属性空间正则化:产品属性空间包括功能，工艺，结构，管理属性信息，这里选用功能属性进行产品族划分。PLM数据库中产品零件功能属性存储在属性表中。对于某一项特定功能，如果某一零件具有该功能在比对中记为数字1，否则记为0，并根据产品逻辑空间中产品零部件序列顺序构成向量进行比对。

本发明利用产品数据物理空间、逻辑空间和属性空间，即产品零部件的存储关系、逻辑关系及其功能信息，借鉴生物信息学中DNA分子序列比对技术，包括基于产品主特征向量比对的算法和对算法输出结果进行聚类分析，通过对聚类结果设定阈值得到最终产品族划分方案。

产品数据物理空间、逻辑空间和属性空间用于来表达存储在数据库中产品信息，产品所有相关信息的存储及其之间的关联关系构成了产品的物理空间，节点(零部件)及其连接关系构成了产品的逻辑空间，节点的定义及描述构成了产品的属性空间；

生物信息学中DNA分子序列比对技术用于将树形结构转换成一种适合比对的数据格式，以避免复杂空间结构的直接比较；

产品主特征向量比对的算法用于对产品族进行挖掘，将产品资源进一步整合，判断出尽可能相似的一族产品，差异较大不同族之间产品；

对算法输出结果进行聚类分析用于做出动态聚类图，将分析出来相似的产品族聚集起来与所设置的阈值进行比较；阈值用于设置相似度阈值就可以得到产品族的划分结果，相似度阈值大小不同就能得到不同的划分结果,可以根据实际生产需求选择最恰当的划分结果。运用该方法划分的结果，有利于下一步进行产品族体系构建和可配置模型的建立，具有一定的实用性和有效性。

因此,本发明具有计算方便、可操作性强、适用范围广、能够较为准确快速地划分出产品族等特点；本发明能够在DPIPP(分布式参数化智能产品平台)的建立上提出一种较为科学的方法；本发明能够减少MC(大批量定制)实施过程中的成本，对MC有着重要意义。

附图说明

图1是本发明中记录检测中的窗口移动示意图.

图2是本发明中产品p主结构树示意图.

图3是本发明中实施例的产品族挖掘方法流程示意图.

图4是本发明中实施例的产品族结构分类算法流程示意图.

图5是本发明中主特征向量二维表.

图6是本发明中得分矩阵中元素Mk,l计算方法示意图.

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。其中,图3中,1为物理空间初选,2为逻辑空间比对,3为属性空间比对.

本发明的产品信息初选通过查询物理空间来实现，物理空间是用来存储逻辑空间与属性空间的元数据，元数据是用来描述数据的数据，指示存储位置、资源查找、文件记录等信息。逻辑空间指的是产品零部件间的逻辑关系。属性空间指的是产品及零部件的属性信息，包括结构属性、功能属性、工艺属性、管理属性等。如零部件编码、零部件名称、结构参数等，它们都存储于属性表中。物理空间存储了逻辑空间及属性空间的数据的物理地址，获取物理地址之后，可以通过SQL SELLECT以及WHERE语句可以查询到所有相关数据，即可以对相关数据进行筛选以及对不必要的数据进行剔除。

本发明基于产品多空间数据序列比对的产品族挖掘算法流程图如图4所示，该算法分别输入n个产品逻辑空间、属性空间主特征向量。算法输出的得分值不能直接用于聚类处理，需要将S_i,j归一化。

X＝|S_i,j-MAX(S_i,j)|,

\begin{matrix} Y = M A X (S_{i, j}) - M I N (S_{i, j}), \\ D = X / Y \end{matrix} - - - (3)

Similarity＝1-D

其中，MAX|S_i,j|为理论最大值，即产品自己的比较得分，MIN|S_i,j|为理论最小值。

具体步骤如下：

第一，将第1个产品逻辑空间主特征向量依次与剩下的n-1个产品逻辑空间向量进行比对，并分别求得分,定义为S′_ij；

第二，将第1个产品属性空间主特征向量依次与剩下的n-1个产品属性空间向量进行比对，并分别求得分,定义为S″_ij；

第三，将上述两两比对得分求和，存在预先定义的数组中，定义为S_ij＝S′_ij+S″_ij；

第四，然后再将第2(3,4，……，n-1)个产品主向量依次与其后的n-2(n-3,n-4,……，1)个向量进行比对，直到所有向量分别比对完成。重复第三步，并输出得分，算法结束。

第五，基于公式(3)可得到相应的个Similarity值，设置相似度阈值进行聚类分析就能得到产品族挖掘结果。

本发明为了处理PLM数据库中产品数据类型多、提取量大、关联复杂，甚至可能存在缺失、噪声和二义性等问题。首先进行数据清洗与规范化处理，其过程主要包括数据规范化处理与结构逻辑检查两个方面。

数据规范化处理包括：产品编码一致化处理、二义性处理和属性数据缺失或错误的规范化处理。下面对三种处理方式做简要说明。

(1)产品编码一致化处理

编码需遵循唯一性、完整性、简洁性、易处理性和继承性的原则。在PLM数据库中，每一个数据对象都有自己的编码，并遵循相应的编码规则。但是由于设计人员或部门不同，他们的编码规则可能不一致。为方便挖掘，本节对产品编码方案进行了详细的设计。例如零部件编码，利用数据字典中编码规则，即制造件在产品编码后加上两位数字表示，并根据产品结构树的逻辑关系从01开始排序。排序标准参照产品模型的不同功能模块，如依次为支承连接模块、驱动模块、传动模块、执行模块等；模块内零件顺序按照重要性程度编成先后顺序。

(2)二义性处理

二义性是指产品数据对象在命名时存在不规范性，首要的任务就是要检查出存在二义性问题的产品数据对象。检测方法采用改进的临近排序算法。具体分为以下四步：

二义性记录检测方法如图1所示，选择一个大小为w的固定窗口，并将它在数据集上从上往下滑动，窗口内的第一条记录与窗口中剩余的所有记录逐一进行比对。在相似度计算过程中，首先使用算法计算每对字段的相似度，再根据每个字段的权重计算出两条记录之间的相似度。然后设定一个阈值，如果两条记录的相似值大于给定的阈值，即认为这两条记录是对同一个对象的描述，即存在二义性，阈值的大小一般根据经验设定。随着窗口的不断滑动，直到数据集中所有二义性记录都被检测出来，算法结束。

(3)属性数据缺失或错误的规范化处理

统计分析的方法：利用切比雪夫定理，计算属性值的期望、标准差取值范围，并考察每一个属性取值区间，来判断该属性是否是异常或错误的。

分箱(binning)：属性值被分布到一些等高或等宽的“箱”中，然后计算箱中元素的平均值，以此值来代替缺失属性或异常属性。

使用行业标准或属性间约束关系对属性值进行分析，例如属性1的取值是属性2取值的两倍，若在实际检测中不满足该约束规则，则说明该属性取值存在问题。

产品的结构逻辑检查包括：结构完整性检查和关联关系正确性检查。结构完整性检查是指要遍历到产品的每一个零部件，即产品零部件组成是否完整。关联关系正确性检查是指产品的零部件逻辑连接关系是否正确。下面以产品p具体说明：

关联关系正确性检查即对产品p零部件之间的关联关系进行检查。例如，若发现图2中零件3-1、零件3-2、零件3-3的父节点为部件1，说明产品p零部件连接关系不正确，需要更正。只有产品p中所有零部件之间的连接关系与图2符合，才能说明该产品逻辑连接关系正确。

为便于序列比对，要将树形结构转换成一种适合比对的数据格式，以避免复杂空间结构的直接比较。本发明采用正则化，即利用一个简单的字符串来表达一个复杂的数据结构。下面将对逻辑空间以及属性空间正则化做简要说明：

(a)产品逻辑空间正则化

以产品p为例说明如何实现其逻辑空间的正则化，产品p主结构如图2所示。

正则化分为如下两步进行：

对产品p按层级关系进行广度优先遍历：顺序为部件1、零件2、部件3、零件4、零件1-1、零件1-2、零件3-1、零件3-2、零件3-3。

对产品p零部件进行一致性处理：在进行序列比对时，若序列由复杂字符组成，不适合使用计算机语言进行处理，则需先进行一致化处理。例如使用字母a代表部件1，b代表零件1-1，c代表零件1-2，d代表零件2，e代表部件3，f代表零件3-1，g代表零件3-2，h代表零件3-3，i代表零件4，依照支承连接模块、驱动模块、传动模块、执行模块等模块顺序，则产品p正则化表达式为向量(a，d，e，i，b，c，f，g，h)

(b)产品属性空间正则化

产品属性空间包括功能，工艺，结构，管理等属性信息，这里选用功能属性进行产品族划分。PLM数据库中产品零件功能属性存储在属性表中。对于某一项特定功能如驱动、传动、执行、连接支承等，如果某一零件具有该功能在比对中记为数字1，否则记为0，并根据产品逻辑空间中产品零部件序列顺序构成向量进行比对。

本发明经过以上的正则化处理之后，用字符分别代替了产品的组成零部件，将比对的两个产品逻辑空间主特征向量，即A＝(a1，a2…，a_m)，B＝(b1，b2，…，b_n)排列成二维表(如图5)，计算得分矩阵：使用迭代方法计算出两个序列的相似分值，存于一个矩阵中，即计算上表中M_k,l，计算方法如图6。

M_0,0＝0 (1)

M_{k, l} = m a x \{\begin{matrix} M_{k - 1, l} + D_{a (k), b (l)} \\ M_{k - 1, l} + D_{a (k), 0} \\ M_{k, l - 1} + D_{0, b (l)} \end{matrix} - - - (2)

式中，k代表序列A的长度，其中k∈{1,2,…,m}；l是序列B的长度，其中1∈{1,2,…,n}。M_k,l表示当前元素，M_k,l-1表示与当前元素水平方向相邻的元素，M_k-1,l表示与当前元素垂直方向相邻的元素。D_a(k),b(l)表示序列A的第k个元素与序列B的第l个元素比对的分值；D_a(k), ₀表示A的第k个元素与空位比对的分值；D_0,b(l)表示空位与B的第l个元素比对的分值。其中打分模板，即D_a(k),b(l)、D_a(k),0、D_0,b(l)的分值采用固定空位罚分模型，或根据产品属性的重要程度确定。本发明采用的固定空位罚分模型为：D_(a,a)＝1，D_(a,b)＝-1(a≠b)，D_(0，a)＝D_(a，0)＝-2。

由于同一功能可由不同结构模块来实现，例如驱动方式分为手动和电动。因此通过上述产品主结构逻辑空间的序列比对不能完全确定产品族的划分是否合理。对此，本发明提出从功能方面入手，通过零部件模块功能的比对来进一步确认产品族划分的可靠性。产品零件功能向量的排列顺序与产品逻辑空间中产品零部件序列顺序相同。具体比对方法如逻辑空间向量比对，打分模型采用功能相同即为数字1与1的比较，得分记为1，否则记为0。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于PLM数据库面向DPIPP产品族的挖掘算法，其特征在于，

步骤1，产品信息初选步骤：通过查询物理空间来实现，物理空间是用来存储逻辑空间与属性空间的元数据，元数据是用来描述数据的数据，指示存储位置、资源查找、文件记录等信息；逻辑空间指的是产品零部件间的逻辑关系；属性空间指的是产品及零部件的属性信息，包括结构属性、功能属性、工艺属性、管理属性；具体是：零部件编码、零部件名称、结构参数等，它们都存储于属性表中；物理空间存储了逻辑空间及属性空间的数据的物理地址，获取物理地址之后，可以通过SQL SELLECT以及WHERE语句可以查询到所有相关数据，即可以对相关数据进行筛选以及对不必要的数据进行剔除；

步骤2，对产品进行数据清洗与规范化处理步骤哦，过程包括数据规范化处理与结构逻辑检查两个子步骤；；

数据规范化处理子步骤包括：产品编码一致化处理、二义性处理和属性数据缺失或错误的规范化处理；

与结构逻辑检查子步骤包括：结构完整性检查和关联关系正确性检查；结构完整性检查是指要遍历到产品的每一个零部件，即产品零部件组成是否完整；关联关系正确性检查是指产品的零部件逻辑连接关系是否正确；下面以产品p具体说明：

结构完整性检查即对产品p组成结构的完整性进行检查，若能从PLM数据库中搜索到产品p BOM表中所有零部件，即说明该产品组成结构完整，否则不完整；

步骤3，将树形结构转换成一种适合比对的数据格式，以避免复杂空间结构的直接比较；本发明采用正则化，即利用一个简单的字符串来表达一个复杂的数据结构；包括对逻辑空间以及属性空间正则化；

步骤4，产品属性空间包括功能，工艺，结构，管理等属性信息，这里选用功能属性进行产品族划分；PLM数据库中产品零件功能属性存储在属性表中；对于某一项特定功能如驱动、传动、执行、连接支承等，如果某一零件具有该功能在比对中记为数字1，否则记为0，并分别根据产品逻辑空间或属性空间中产品零部件序列顺序构成向量进行比对；基于：

具体包括：

步骤4.4，然后再将第2(3,4，……，n-1)个产品主向量依次与其后的n-2(n-3,n-4,……，1)个向量进行比对，直到所有向量分别比对完成；重复第三步，并输出得分，算法结束；

步骤4.5，基于公式一得到相应的个Similarity值，设置相似度阈值进行聚类分析就能得到产品族挖掘结果；

经过以上的正则化处理之后，用字符分别代替了产品的组成零部件，将比对的两个产品逻辑空间主特征向量或属性空间主特征向量，即A＝(a1，a2…，a_m)，B＝(b1，b2，…，b_n)排列成二维表，计算得分矩阵：使用迭代方法计算出两个序列的相似分值，存于一个矩阵中，即计算上表中M_k,l；

在计算每个M_k,l时，不仅计算其得分值，还要用一个指针记录下该最佳得分值的路径，即是从三种情形中的哪种情形得到的；

M_0,0＝0 式二

式中，k代表序列A的长度，其中k∈{1,2,…,n}；l是序列B的长度，其中l∈{1,2,…,n}；M_k,l表示当前元素，M_k,l-1表示与当前元素水平方向相邻的元素，M_k-1,l表示与当前元素垂直方向相邻的元素；D_a(k),b(l)表示序列A的第k个元素与序列B的第l个元素比对的分值；D_a(k),0表示A的第k个元素与空位比对的分值；D_0,b(l)表示空位与B的第l个元素比对的分值；其中打分模板，即D_a(k),b(l)、D_a(k),0、D_0,b(l)的分值采用固定空位罚分模型，或根据产品属性的重要程度确定；本发明采用的固定空位罚分模型为：D_(0,a)＝D_(a,0)＝-2；

得到的M_m,n为S′_ij或S″_ij。

2.根据权利要求1所述的一种基于PLM数据库面向DPIPP产品族的挖掘算法，其特征在于，数据规范化处理子步骤的具体步骤包括：

处理步骤一,产品编码一致化处理:根据产品结构树的逻辑关系从01开始排序；排序标准参照产品模型的不同功能模块；模块内零件顺序按照重要性程度编成先后顺序；

处理步骤二,二义性处理:检查出存在二义性问题的产品数据对象；检测方法采用改进的临近排序算法；具体分为以下四步：

第一步：在PLM数据库中选取需要检测的产品数据对象，一个对象就是一条记录，字段包括产品名称、结构、功能、工艺等属性；

第二步：选取排序关键字，例如在阀门PLM数据库中，关键字段为结构、功能、工艺等主属性；

第三步：记录排序，选择上一步选取的排序关键字对整个数据集执行多趟排序，使二义性记录在物理位置上尽量相近；

第四步：将检测出存在二义性问题的产品数据对象与数据字典进行比对并更正；

二义性记录检测方法是，选择一个大小为w的固定窗口，并将它在数据集上从上往下滑动，窗口内的第一条记录与窗口中剩余的所有记录逐一进行比对；在相似度计算过程中，首先使用算法计算每对字段的相似度，再根据每个字段的权重计算出两条记录之间的相似度；然后设定一个阈值，如果两条记录的相似值大于给定的阈值，即认为这两条记录是对同一个对象的描述，即存在二义性，阈值的大小一般根据经验设定；随着窗口的不断滑动，直到数据集中所有二义性记录都被检测出来，算法结束；

处理步骤三,属性数据缺失或错误的规范化处理:

步骤3.1,随机选择一个分析方法:

选择一,统计分析的方法：利用切比雪夫定理，计算属性值的期望、标准差取值范围，并考察每一个属性取值区间，来判断该属性是否是异常或错误的；

选择二,分箱方法：属性值被分布到一些等高或等宽的“箱”中，然后计算箱中元素的平均值，以此值来代替缺失属性或异常属性；

选择三,使用行业标准或属性间约束关系对属性值进行分析:属性A的取值是属性B取值的M倍，若在实际检测中不满足该约束规则，则说明该属性取值存在问题；

步骤3.2,产品的结构逻辑检查,具体包括：结构完整性检查和关联关系正确性检查；结构完整性检查是指要遍历到产品的每一个零部件，即产品零部件组成是否完整；关联关系正确性检查是指产品的零部件逻辑连接关系是否正确,具体是:

3.根据权利要求1所述的一种基于PLM数据库面向DPIPP产品族的挖掘算法，其特征在于，逻辑空间以及属性空间正则化的具体方法为：

正则化步骤二,产品属性空间正则化:产品属性空间包括功能，工艺，结构，管理属性信息，这里选用功能属性进行产品族划分；PLM数据库中产品零件功能属性存储在属性表中；对于某一项特定功能，如果某一零件具有该功能在比对中记为数字1，否则记为0，并根据产品逻辑空间中产品零部件序列顺序构成向量进行比对。