CN102136007B

CN102136007B - 基于小世界特性的工程信息组织方法

Info

Publication number: CN102136007B
Application number: CN 201110080080
Authority: CN
Inventors: 赵正旭; 綦朝晖; 封筠; 刘展威
Original assignee: Shijiazhuang Tiedao University
Current assignee: Shijiazhuang Tiedao University
Priority date: 2011-03-31
Filing date: 2011-03-31
Publication date: 2013-07-10
Anticipated expiration: 2031-03-31
Also published as: CN102136007A

Abstract

本发明公开了一种基于小世界特性的工程信息组织方法，首先对工程信息文件进行特征数据描述，形成特征向量；然后建立具有小世界特性的网络拓扑结构；然后在此基础上对新增工程信息文件进行保存、检索及维护。本发明为实现信息长期保存、信息扩展以及后期维护提供有效支持，为计算不同工程信息节点之间的相似度提供细粒度比较，提高信息查询的精度和准确度。

Description

基于小世界特性的工程信息组织方法

技术领域

本发明涉及计算机网络智能信息检索技术领域，尤其是一种基于小世界特性的工程信息组织方法。

背景技术

随着计算机和网络技术的飞速发展，信息量的增长远远超出了人们对信息获取能力的增长。原始和无序的信息不但不产生价值，还会加剧信息增长和利用之间的矛盾，造成信息超载而知识缺乏的社会困境。因此，海量信息资源的有序存储和利用越来越受到世界各国的关注。对于工程信息的存储和利用，特别是对生产制造领域的工程信息的保存和利用，仍然是一个颇具挑战性的问题。

小世界现象存在于社会关系网络中，即世界上任何人之间都可以通过很短的社会关系联系起来。社会关系链的长度一般不超过六，被称之为“六度分隔理论”。六度分隔理论的提出，极大地激发了人们对于小世界现象的全面研究，人们发现类似的小世界现象广泛存在于电力网、计算机互联网、食物链网、演员关系网、科学家合作网等实际网络中。最近几年，小世界现象在销售业、人力资源管理、传播学、传染疾病预防、网络安全等领域得到了广泛的应用。

人们对工程信息的保存和利用主要是针对国防工程、军事科技、航空、汽车、造船等领域中的设计与制造，研究如何长期保存产品的原始设计数据和生产过程中的工程信息，以满足产品的维修、故障排除、改型等需求。目前，工程信息的保存和利用主要基于以下方法：（1）基于传统图纸形式的电子文档、微缩胶片、穿孔卡片等，这种方法所保留的信息资源容易老化或损坏，不便于在网络上调用和传输，无法记录和保留后续对产品的改进等信息；（2）基于STEP ISO 10303 标准的融入设计和制造信息的三维CAD 模型，由于生成这些信息的CAD系统寿命比多数产品的寿命要短得多，在今后利用时将会产生数据和系统之间的兼容问题。另外，研究工程信息的生成方法以及对数字化工程信息实行长期保存并保证数据的可靠性，以满足今后不同时期和不同用户的多方面需求，然而要确保其长期的安全保存和数据可靠性，就必须对这些信息资源进行定期检查、移存和转化，这些定期的处理过程不但有前面提及的兼容问题，还将遇到信息处理的时间和效率问题。

发明内容

本发明要解决的技术问题是提供一种基于小世界特性的工程信息组织方法，该方法能够以灵活的方式组织工程信息，提供快速的工程信息检索、有效地信息扩展及便利的信息维护。

为解决上述技术问题，本发明所采取的技术方案是：一种基于小世界特性的工程信息组织方法，其方法步骤如下：

（1）工程信息文件的特征数据描述，其步骤包括：

（1.1）确定需要长期保存和利用的工程信息文件，并将其数字化；

（1.2）选择统一的元数据标准对所述工程信息文件进行特征描述，形成特征向量，该特征向量的维数就是所述工程信息文件的信息特征数；

（2）建立具有小世界特性的网络拓扑结构，其步骤包括：

（2.1）采用一维聚类方法对每个工程信息文件所对应特征向量的同一分量进行聚类分析，获取聚类模型；

（2.2）记录上述分量的数值化分类信息，该分类信息标志该分量归属于不同类别的相似程度；

（2.3）所述每个工程信息文件作为一个节点，所述每个节点在上述步骤的基础上获得其自身特征描述的数值化分类信息，同时设定一个隶属于该节点的用于描述其特征向量各个分量重要程度的权值向量；

（2.4）以所述权值向量为依据，两两比较计算出每个节点与其他所有节点之间的相似度；

（2.5）计算每个节点与其他所有节点之间的相似度期望值，并将该节点与相似度不小于所述期望值的所有其他节点进行链接，对于相似度小于期望值的所有其他节点，将该节点以一定概率与其相链接；

（3）在建立具有小世界特性的网络拓扑结构的基础上，对新增工程信息文件进行保存，其步骤包括：

（3.1）获取新增工程信息文件的特征向量；

（3.2）比较新增工程信息文件特征向量中各个分量与已有工程信息文件特征向量各个分量之间的关系，当新增工程信息文件特征向量中存在新的特征维时，全局性特征向量的维数也做出相应增加，当新增工程信息文件特征向量在新增维数上与已有工程信息文件特征向量不存在隶属关系时，对这些新增维数不进行任何信息记录；

（3.3）比较新增工程信息文件特征向量中各个分量与该分量现有分类之间的关系，当新增工程信息文件特征向量中某个分量与现有分类之间的相似度为0或较低时，将该分量独立出来成为新增分量类型，同时该分量的分类个数做出相应增加；

（3.4）设定用于描述新增工程信息文件特征向量中各个分量重要程度的权值向量；

（3.5）每个新增工程信息文件作为一个节点，计算所述新增节点与其他所有节点之间的相似度期望值，并将该新增节点与相似度不小于所述期望值的所有其他节点进行链接，对于相似度小于期望值的所有其他节点，将该节点以一定概率与其相链接；

（4）在建立具有小世界特征的网络拓扑结构基础上，进行工程信息文件检索，其步骤包括：

（4.1）依据现有工程信息文件特征向量中的各个分量特性，确定检索目标节点特征向量的分量，并给出这些分量隶属于其现有分量类型的相似度及权值；

（4.2）随机选择未被访问过的节点，发出查询请求，当不存在未被访问过的节点时，执行步骤（4.5）；

（4.3）计算检索目标节点与被访问节点之间的相似度，当相似度超过给定阈值时，进一步计算出检索目标节点与被访问节点的每个短链接节点之间的相似度，返回被访问节点及其短链接节点中相似度最大的节点，执行步骤（4.5）；否则，将被访问节点标记为已访问，执行步骤（4.4）；

（4.4）将查询请求发送给被访问节点的未被访问过的长链接节点，执行步骤（4.3），当被访问节点的每一长链接节点都被访问过时，执行步骤（4.2）；

（4.5）结束查询；

（5）在建立具有小世界特性的网络拓扑结构基础上，进行工程信息文件的维护，其步骤包括：

（5.1）依据步骤（4）查询得到需要维护的工程信息文件；

（5.2）保持原有节点及其网络拓扑关系不变，构建一个新的原有节点的复制节点，并对该复制节点进行维护工作；

（5.3）抽取所述复制节点在进行维护工作之后的特征向量的分量，计算出这些分量隶属于其现有分量类型的相似度及权值；

（5.4）计算出进行维护工作之后的复制节点与其他所有节点之间的相似度期望值，并将该复制节点与相似度不小于所述期望值的所有其他节点进行链接，对于相似度小于所述期望值的所有其他节点，将该复制节点以一定概率与其相链接。

针对工程信息文件的组织方法以及数字化工程信息实行长期保存、保证数据可靠性、检索效率及后期维护，本发明结合元数据描述、一维聚类以及小世界网络拓扑结构特性，提供了一种适用于工程信息文件的存储、检索以及后期维护的方法。该方法将数字化的工程信息文件进行统一描述，并利用小世界网络的拓扑特性，在减少信息传递的前提下，提高信息查全率和查询效率，实现数字化工程信息文件的长久保存和后期维护过程中的兼容性；该方法能够快速路由到目标，而不是传统的盲目路由，从而提高信息查询效率；该方法充分利用小世界网络中的长链接，使得查询过程能够被很快地传递到网络中其他部分，根据小世界网络具有较短的网络平均距离可知这一查询过程能够在较少的长链转移之后找到目标所在网络范围，从而提高信息查询的查全率及后期维护效率。

本发明的有益效果如下：

（1）采用统一的元数据标准对数字化的工程信息文件进行特征描述，为实现信息长期保存、信息扩展及后期维护提供有效支持；

（2）利用一维聚类方法进行工程信息文件的聚类分析，为计算不同工程信息文件之间的相似度提供细粒度比较，提高了信息查询的精度和准确度；

（3）将相似度高于期望值的工程信息文件之间进行互连，其余采用长链接方式形成小世界拓扑结构，使得查询信息能够很快到达相关节点，提高查询速度，根据需要将相似度高于给定阈值的节点输出，进一步提高信息查询和维护的准确性及灵活性。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是工程信息文件特征数据描述流程图；

图2是建立具有小世界特性的网络拓扑结构流程图；

图3是对新增工程信息文件进行保存的流程图；

图4是对工程信息文件进行检索的流程图；

图5是对工程信息文件进行维护的流程图。

具体实施方式

由图1-图5所示的实施例可知，本发明包括五个主要步骤，即工程信息文件特征数据描述；建立具有小世界特性的网络拓扑结构；在建立具有小世界特性的网络拓扑结构基础上，对新增工程信息进行保存；在建立具有小世界特性的网络拓扑结构基础上，进行工程信息文件检索；在建立具有小世界特性的网络拓扑结构基础上，进行工程信息文件维护。具体方法如下：

（1）工程信息文件的特征数据描述，如图1所示，其包括如下步骤：

（1.1）确定需要长期保存和利用的工程信息文件，并将其数字化，其中工程信息文件由具体应用决定，如机械制造行业某产品的生产过程，其工程信息文件包括生产线上的所有信息记录、制造机械、生产日期、检验员等生产过程相关的重要信息；再如软件工程领域某软件项目开发过程，其工程信息文件包括开发过程中的开发环境版本、硬件条件、日期、开发团队、测试、兼容性等相关信息；

（1.2）为确保工程信息文件特征描述的统一性和兼容性，选择统一的元数据标准对其进行特征描述，形成特征向量，对于给定的工程信息文件i，其特征向量T_i为，其中m为向量T_i的维数，每一工程信息文件特征向量中各个分量的确定由具体情况决定，不同工程信息文件特征向量既有共同分量，也有不同分量，不同的分量分别对应不同的向量维数，当工程信息文件特征向量不存在某一分量时，为节省数据存储空间，对这些特征向量上不存在隶属关系的分量将不进行任何信息记录，在后续的相似度计算中处理为0值。

（2）建立具有小世界特性的网络拓扑结构，如图2所示，其步骤包括：

（2.1）以步骤（1）中所确定的工程信息文件i的特征向量T_i的第j个分量t_ij为进一步分析的基础，采用一维聚类方法对每个工程信息文件所对应特征向量的第j个分量进行聚类分析，获取第j个分量的聚类模型。具体过程如下：

将工程信息文件特征向量中同一分量存在明显差异的划分为不同的类型，并依据专业的经验知识确定每一类型中的代表性工程信息文件作为初始聚类中心，而对于所有剩下的其它工程信息文件，则根据它们与这些聚类中心的相似度大小，分别将它们分配给与其最相似的聚类；然后再计算每个所获新聚类的聚类中心；不断重复这一过程直到均方差值开始收敛为止。最终的聚类结果特征显著，即各聚类本身尽可能地紧凑，而各聚类之间则尽可能地分开。

（2.2）对所有工程信息文件特征向量的同一分量获得以上聚类模型后，记录该分量的数值化分类信息，该分类信息标志该分量归属于不同类别的相似程度，其中分类信息的定义如下：

设定所有工程信息文件特征向量的第j个分量被分为s_j种不同的类型，用分类向量V^ij表示工程信息文件i的特征向量T_i的第j个分量t_ij隶属于不同类别的相似程度，其中

，0表示分量t_ij与第r种类型没有相关性，1表示完全相同，而介于0和1之间的值越大表示分量t_ij隶属于第r种类型的相似度越高。

（2.3）所述每个工程信息文件作为一个节点，所述每个节点在上述步骤的基础上获得其自身特征描述的数值化分类信息，同时设定一个隶属于该节点的权值向量P_i，用于描述工程信息文件i的特征向量T_i各个分量的重要程度，其中

。当计算节点i与其他节点间的相似度时，所有节点特征向量的分量的重要性程度都以节点i的权值向量p_i为依据；

（2.4）以所述权值向量为依据，两两比较计算出每个节点与其他所有节点之间的相似度,不失一般性，设定两两比较的两个节点分别为a和b，用S(a,b)表示它们之间的相似度，S(a,b)的定义过程如下：

依据步骤（2.2）中关于分类信息的定义，节点a上包含分类信息的特征向量所对应的相似度描述为

，节点b上包含分类信息的特征向量T_b所对应的相似度描述为

，其中s₁，s₂，s_m分别表示特征向量各分量在一维聚类模型下的分类数，节点a、b之间相似度S(a,b)的计算表达式为：

。

（2.5）计算每个节点与其他所有节点之间的相似度期望值，并将该节点与相似度不小于所述期望值的所有其他节点进行链接，对于相似度大于零小于期望值的所有其他节点，将该节点以概率p与其相链接，其中

。

完成上述步骤后，所有节点都具有直接相连的与其相似度不低于该节点相似度期望值的短链接节点，同时具有极少的与其不一定相似的长链接节点，从而形成具有小世界特性的网络拓扑结构。

（3）在建立具有小世界特性的网络拓扑结构的基础上，对新增工程信息文件进行保存，如图3所示，其步骤包括：

（3.1）获取新增工程信息文件的特征向量。

（3.2）比较新增工程信息文件特征向量中各个分量与已有工程信息文件特征向量各个分量之间的关系，当新增工程信息文件特征向量中存在新的特征维时，全局性特征向量的维数也做出相应增加，当新增工程信息文件特征向量在新增维数上与已有工程信息文件特征向量不存在隶属关系时，对这些新增维数不进行任何信息记录。设定新增特征维数为M，对于给定的工程信息文件i，其特征向量T_i则为

，当工程信息文件i的特征向量不具备某新增分量时，所对应的特征维

就不存在，在后续的相似度计算公式中处理为0值。

（3.3）比较新增工程信息文件特征向量中各个分量与该分量现有分类之间的关系，当新增工程信息文件特征向量中某个分量与现有分类之间的相似度为0或较低时，将该分量独立出来成为新增分量类型，同时该分量的分类个数做出相应增加，原有工程信息文件特征向量的分量在新增分量类型上的相似度为0或较低。设定工程信息文件i特征向量的第j个分量类型增加数量为N_j，则第j个分量共有s_j+N_j种不同的类型,用分类向量V^ij表示工程信息文件i的特征向量T_i的第j个分量t_ij隶属于不同类别的相似程度，则有

,0表示分量t_ij与第r种类型没有相关性，1表示完全相同，而介于0和1之间的值越大表示分量t_ij隶属于第r种类型的相似度越高；

（3.4）设定用于描述新增工程信息文件特征向量中各个分量重要程度的权值向量,设定在包括新增节点在内的网络拓扑结构中，一个隶属于节点i的权值向量P_i，用于描述工程信息文件i的特征向量T_i中各个分量的重要程度，

；然后计算新增节点与所有其他节点之间的相似度值，不失一般性，设定新增节点为w，其他与之比较的几点为b，设定

分别表示新增节点之后的各特征向量分量在一维聚类模型下的分类数，则节点w与节点b之间的相似度s(w,b)的计算公式为：

（3.5）每个新增工程信息文件作为一个节点，计算所述新增节点与其他所有节点之间的相似度期望值，并将该新增节点与相似度不小于所述期望值的所有其他节点进行链接，对于相似度小于期望值的所有其他节点，将该节点以一定概率与其相链接。

在完成上述步骤后，新增工程信息文件节点完全整合到原有信息网络中，这些新增节点具有直接相连的与其相似度不低于该节点相似度期望值的短链接节点，同时还具有极少的与其不一定相似的长链接节点，从而形成具有小世界特性的网络拓扑结构。

（4）在建立具有小世界特征的网络拓扑结构基础上，进行工程信息文件检索，如图4所示，其步骤包括：

（4.1）依据现有工程信息文件特征向量中各分量以及检索者已有的经验知识，确定好检索目标特征分量的兴趣点，并给出这些兴趣点分量隶属于该分量现有类型的相似度值，以及相应的分量权重；现设定检索目标上已确定的兴趣点特征分量有k个，不失一般性，将这k个分量按照从1到k的顺序重新编排，它们隶属于各分量现有类型的相似度分别为

,其中

表示检索目标，s₁，s₂,…,s_k分别表示特征向量各分量在一维聚类模型下的分类数，并设定这些分类数所对应的权重比值为

，其中

。

（4.2）随机选择未被访问过的节点，发出查询请求，当不存在未被访问过的节点时，执行步骤（4.5）。每个查询语句包括已确定的特征分量和对应的各分量权重，其中查询语句为Query={T,P}，T表示已确定的特征分量，P表示这些分量的权重比值。

（4.3）依据步骤(4.1)得到检索目标

的k个分量隶属于相应分量现有类型的相似度值，并设定各分量权重比值。现设定用于计算相似度S的另一选定节点d上所对应的k个分量隶属于相应分量现有类型的相似度描述为

。在相似度S的计算公式中，只需要考虑这

个特征分量，其计算表达式为基于相似度S的计算公式，计算出检索目标与选定节点d之间的相似度S，如果S超过给定阈值，则进一步计算出检索目标与该节点的每个短链接节点之间的相似度S，返回选定节点及其短链接节点中相似度S取值最大的节点，跳入步骤(4.5)；否则，将该节点标记为已访问，跳入步骤(4.4)。

（4.4）如果S小于给定阈值，将该查询请求Query发送给该节点中未被访问过的长链接节点，跳入步骤(4.3)；如果没有未访问过的长链接节点，则跳入(4.2)；

（4.5）结束查询；

根据以上方法，可以将查询请求Query发送到最有可能返回有效查询结果的节点，而不是传统的盲目随机选择，从而提高查询效率；同时，充分利用小世界网络拓扑结构中的长链接，使得查询请求Query能够快速地传递到网络中的其他部分，从而提高信息检索速度和查全率。

（5）在建立具有小世界特性的网络拓扑结构基础上，进行工程信息文件的维护，如图5所示，其步骤包括：

（5.1）依据步骤（4）查询得到需要维护的工程信息文件；

（5.2）保持原有节点及其网络拓扑关系不变，构建一个新的原有节点的复制节点，并对复制节点进行修改、删除、添加等维护工作；为了保持信息网络系统原有节点的完整性和兼容性，在进行工程信息维护时，需要将维护前的原始信息保留，对原有工程信息需要进行的所有操作如修改、删除、添加等维护性工作都必须在原有文件的复制版本上进行；

在完成上述步骤后，经过维护后的工程信息文件节点被完全整合到原有信息网络中，这些新增的维护节点具有直接相连的与其相似度不低于该节点相似度期望值的短链接节点，同时还具有极少的与其不一定相似的长链接，从而形成具有小世界特性的网络拓扑。

Claims

1.一种基于小世界特性的工程信息组织方法，其特征在于其方法步骤如下：

（1）工程信息文件的特征数据描述，其步骤包括：

（2）建立具有小世界特性的网络拓扑结构，其步骤包括：

（2.3）所述每个工程信息文件作为一个节点，每个节点在上述步骤的基础上获得其自身特征描述的数值化分类信息，同时设定一个隶属于该节点的用于描述其特征向量各个分量重要程度的权值向量；

（3.1）获取新增工程信息文件的特征向量；

（4.5）结束查询；

（5.1）依据步骤（4）查询得到需要维护的工程信息文件；