CN116304726A

CN116304726A - 一种基于语义库和知识图谱的物资相似性分析方法

Info

Publication number: CN116304726A
Application number: CN202211092796.9A
Authority: CN
Inventors: 吴勤浩; 朱智强; 刘旭嘉; 叶林林; 李清; 陈雨; 沈炫辰; 陈苒君; 高作银; 秦博杰; 许涛; 徐文网
Original assignee: CNNC Nuclear Power Operation Management Co Ltd
Current assignee: CNNC Nuclear Power Operation Management Co Ltd
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2023-06-23

Abstract

本发明提供了一种基于语义库和知识图谱的物资相似性分析方法，包括以下步骤：S1：判断两个物资的决定性属性是否相似，若其中任一个决定性属性不相似，则两个物资为非重码物资，否则进入S2；S2：根据非决定性属性权重及每个字段的距离计算字段部分的相似度；S3：结合所有知识图谱路径和权重值计算图谱部分的相似度；S4：将字段部分的相似度和图谱部分的相似度相加获得最终物资相似度，通过最终物资相似度判断两个物资是否为高相似度。本发明提供的物资相似性分析方法优化相似度算法的准确性。

Description

一种基于语义库和知识图谱的物资相似性分析方法

技术领域

本发明涉及相似性算法分析技术领域，尤其涉及一种基于语义库和知识图谱的物资相似性分析方法。

背景技术

物资主数据作为供应链领域的基础数据之一，发挥了越来越大的影响力，低质量的数据基础逐渐成为了阻碍工作顺利推进的制约因素。解决重码问题，主要通过对不同物资数据的检索对比完成，当前依靠电厂专业人员或外部厂商的方式费时费力。同时人员因素在重码识别过程中也存在较大阻碍。

现在市场上的相似性算法包括余弦相似性分析，随着大数据技术的发展，语义库和知识图谱的成熟。语义库是一种重要的基础性语言资源，可以为自然语言处理任务提供丰富的语料知识，常被广泛应用于词义消歧、机器翻译、信息检索以及自动问答等任务，是智能知识管理体系的重要组成部分。知识图谱就是把所有不同种类的信息(HeterogeneousInformation)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

发明内容

本发明的目的在于提供一种基于语义库和知识图谱的物资相似性分析方法，能够解决编码或物理属性差异小，但是实际应用差异很大的问题。

为了实现上述目的，本发明提供如下技术方案：

一种基于语义库和知识图谱的物资相似性分析方法，包括以下步骤：

S1：判断两个物资的决定性属性是否相似，若其中任一个决定性属性不相似，则两个物资为非重码物资，否则进入S2；

S2：根据非决定性属性权重及每个字段的距离计算字段部分的相似度；

S3：结合所有知识图谱路径和权重值计算图谱部分的相似度；

S4：将字段部分的相似度和图谱部分的相似度相加获得最终物资相似度，通过最终物资相似度判断两个物资是否为高相似度。

S1中，决定性属性为危险品号属性、是否工器具属性。

S2中，非决定性属性包括物资描述属性、物资名称属性、基本物料属性、制造商零件编号属性、制造商名称属性。

进一步地，物资描述属性通过余弦相似度算法计算相似度。

余弦相似度算法计算步骤包括：

S21：字符串预处理，将物资名称中英文部分进行大小写字母转化，将物资描述进行特殊符号的删除处理；

S22：分词处理，根据词典对字符串预处理后的文本内容进行分词处理

S23：近义词替换，利用同义词词典对词语进行同义词搜索和替换；

S24：余弦相似度计算，将所切分的词语进行去重排序，用排序后的下标对原有词语位置进行替换，统计下标数量，并使用onehot编码，将其转为相对应向量，通过向量的内积去除以各自的模，获得最终余弦相似度。

进一步地，辑距离算法分别计算的物资名称属性、基本物料属性、制造商零件编号属性、制造商名称属性的相似度。

S3中，知识图谱路径为5条，通过借助AHP方法对5条知识图谱路径的重要性做初步评估，并分配两个物资的连通路径权重。

知识图谱路径的计算方法如下：

S31：每条路径通过知识图谱得出最终BOM节点清单，每个物资的BOM节点清单有0-5个；

S32：统计并记录清单中连通每个BOM节点的路径数量；

S33：对每条路径的BOM节点路径数量设置域值M，当某个BOM节点的路径数量大于M时，判定该BOM节点为有效节点，当路径数量小于等于M时，判定该BOM节点为无效节点；

S34：两个物资的BOM节点清单相互之间做交叉对比计算，取BOM节点的交集，产生若干个对比结果集合；

S35：当两条路径所得的BOM节点清单存在有效节点的交集时，则判定其为有效连通；若交集中都是无效节点时，则判定其为无效连通；若无任何节点交集，则判定其为不连通；每种路径连通方式的三种连通结果，分别对应三种权重；

S36：结合所有知识图谱路径的权重值计算图谱部分的相似度。

S31中，BOM节点清单中包含BOM号及路径数量。

S35中，每种路径连通方式均有三种连通结果，分别为有效连通、无效连通、不连通。

与现有技术相比，本发明提供的基于语义库和知识图谱的物资相似性分析方法具有以下有益效果：

本发明通过算法优化，打破传统相似性分析算法，解决了无法识别物理属性偏小差但造成实际很大差异的问题。通过借助语义库，优化相似度算法的准确性。

进一步地，本发明借助物资使用历史和物资使用位置，加强识别的准确性和可靠性。

进一步地，通过将历史数据使用情况的引入相似性分析，大大提升前期编码数据质量差、标准化程度低，造成从物资本身属性进行相似性可靠性不足，借助历史数据，提升相似性结果的说服力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所提供的总相似度的计算流程图。

具体实施方式

下面通过具体实施方式进一步详细说明。

如图1所示，本发明提供了一种基于语义库和知识图谱的物资相似性分析方法，包括以下步骤：

S2：根据非决定性属性的权重计算字段部分的相似度；

本发明能够解决编码或物理属性差异小，但是实际应用差异很大的问题。如物资编码为P1101的压力变送器和物资编码为T1101的温度变送器。二者编码的编辑距离很小，但代表的设备是完全不同的。在本发明分析结果中，能有效区分二者。

具体地，基于物资属性语义库和相似算法计算如下所示：

基于物资属性的重码分析涉及7个属性，且根据数据类型不同，使用不同的相似性对比方法；并根据业务数据统计分析获得不同的属性不同的权重，最终两个物资的相似度为各属性相似度乘以其权重之后的和，如下式所示：

总属性相似度＝∑属性i权重×属性i相似度

其中，i为表1中属性序号。

计算获得的7个属性对应的权重如表1所示。

表1物资属性

序号	属性名称	数据类型	权重
				1	物资描述	中英文、特殊符号	24％
2	物资名称	中英文、其他文字	18％
				3	基本物料	中英文、特殊符号	16％
4	危险品号	英文、数字编码	13％
				5	制造商零件编号	英文、数字编码	13％
6	制造商名称	中英文	10％
				7	是否工器具	英文编码	6％

“危险品号”、“是否工器具”是决定性属性，是判断两个物资是否为重码的先决条件，即如果这两个属性中任何一个属性不相似，则认为两个物资为非重码物资。采用全匹配方式判断两个物资是否相同。

非决定性属性包括物资描述属性、物资名称属性、基本物料属性、制造商零件编号属性、制造商名称属性。

“物资名称”、“基本物料”、“制造商零件编号”、“制造商名称”这类属性涉及中英文、数字、或其他文字，通过最短编辑距离算法计算相似度。最短编辑距离(编辑距离，EditDistance)又称Levenshtein Distance，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个字符串的相似度越大。

“物资描述”属性是由描述物资的多个属性拼接而成，涉及表达方式多样、且语义丰富，因此对该属性则先通过分词的方法、词语向量化之后，再使用余弦相似度算法计算其相似度。主要处理步骤如下：

S21：字符串预处理

将物资名称中英文部分进行大小写字母转化，将物资描述进行特殊符号的删除处理。

S22：分词处理

使用结巴分词工具中自带词典以及整理的核电领域专业词典，对字符串预处理后的文本内容进行分词处理。

S23：近义词替换

利用整理的核电领域同义词词典，对结巴分词后的词语进行同义词搜索和替换，这样能排出余弦相似度计算时，利用词袋词语去重，因词语不同而带来的影响。

S24：余弦相似度计算

物资描述进行结巴分词以后，将所切分的词语进行去重排序，用排序后的下标对原有词语位置进行替换，统计下标数量，并使用onehot编码，将其转为相对应向量，通过向量的内积去除以各自的模，获得最终余弦相似度。

基于知识图谱的重码分析如下所示：

从物资的使用场景对比分析是否为重码物资，这个维度的重码分析是对基于物资属性的重码分析结果的补充和支持。如果两个物资能通过不同或者相同的场景，使用在同一类设备上，则这两个物资具有一定的重码可能性，尤其当两物资具有较高的属性相似度时。这一方法的实现借助知识图谱中的路径探索等方法，帮助物资搜索符合使用场景的路径，并完成图谱相似的计算。相似性图谱路径如表2所示。

表2相似性图谱路径

序号	图谱路径
		路径一	物资——QDR——设备——BOM
路径二	物资——工单的备件消耗——工单任务——设备——BOM
		路径三	物资——MR——工单任务——设备——BOM
路径四	物资——MR——工单任务——工作项——设备——BOM
		路径五	物资——BOM

其中，QDR为质量缺陷报告，MR为工单物资需求申请，BOM为物料清单。

核心权重思路为：各条路径在总权重占比并非线性下降，通常前N条的路径的重要程度要更高，重要性差异也更明显，因此使用分层决策方法，将目标路径进行分层，不同层级权重按几何对数下降。

涉及的图谱路径有五条，借助AHP(Analytic Hierarchy Process)的方法对五条路径的重要性做初步评估，并分配两个物资的连通路径权重，如表3所示。AHP(AnalyticHierarchy Process)层次分析法是种多方案或多目标的决策方法，是一种定性与定量相结合的决策分析方法，常被运用于多目标、多准则、多要素、多层次的非结构化的复杂决策和权限赋值问题。将决策的目标、考虑的因素(决策准则)和决策对象按它们之间的相互关系分层，确定某层所有因素对于总目标相对重要性的排序权值。

表3物资连通路径权重分配

知识图谱路径计算方法如下(以五条指向BOM路径为例)：

(1)每条路径通过知识图谱得出最终BOM节点清单(清单中包含BOM号及路径数量)，每个物资的BOM节点清单有0-5个(无路径连通则为0，每条路径都连通则为5)。

(2)统计并记录清单中连通每个BOM节点的路径数量(例如物资A通过路径一得出的BOM节点清单结果为BOM A，路径数量20，则代表有20条通过路径一模式连通物资A和BOMA的路径)。

(3)对每条路径的BOM节点路径数量设置域值M(阈值M通过对数据进行抽样试验，运用统计学方法进行调整，M可为0)，当某个BOM节点的路径数量大于M时，判定该BOM节点为有效节点，当路径数量小于等于M时，判定该BOM节点为无效节点。

(4)两个物资的BOM节点清单相互之间做交叉对比计算，取BOM节点的交集，产生若干个对比结果集合。

(5)每种路径连通方式均有三种连通结果，分别为有效连通、无效连通、不连通，当两条路径所得的BOM节点清单存在有效节点的交集时，则判定其为有效连通；若交集中都是无效节点时，则判定其为无效连通；若无任何节点交集，则判定其为不连通。每种路径连通方式的三种连通结果，分别对应三种权重，在两个物资计算分析过程中，每种路径连通方式，只会产生一个权重。

(6)结合所有路径的权重值得出图谱部分的相似度。

因此，将字段部分的相似度和图谱部分的相似度相加获得最终物资相似度，通过最终物资相似度判断两个物资是否为高相似度。

收集1000条已知的包含不同、相似的物资，计算彼此间物资相似度，根据相似度结果排序，根据物资实际是否相似和计算所得相似度，分析得出大于0.6的数据多为疑似重码的物资清单，大于0.8的数据，其相似度为高相似度。因此，物资相似度大于0.6的数据，进入疑似重码的物资清单，物资相似度大于0.8的数据，认为其相似度为高相似度。

本发明结合物资的物理属性以及物资的使用场景，对物资重码做多维度的分析。其中，基于物资物理属性的重码分析是指通过对描述物资的各字段做对比来判断物资是否重码；基于物资使用场景的重码分析是指通过追溯，分析物资的历史使用场景，即物资是否使用在同一设备上来判断是否重码。最终，综合考虑两个维度的重码分析结果决定物资是否重码。最终结果为两者的加权求和，权重例如根据已知样本和计算结果获得。

即两个物料的重码分析，需要结合重码识别字段相似性计算以及知识图谱路径计算。物料重码分析涉及实体包括物料、人员、设备、制造商、工单任务、MR、BOM、QDR、工作项、工单的备件消耗。

本方法在物资属性相似性分析时借助语义库同一指代词形成归一，并使用余弦相似性算法进行相似度分析，使用KL散度算法通过该算法的思想对比不同权重占比时kl散度的变化，从而获得一个较优的初始权重占比，再结合专业人员的建议对权重占比进行细微调整，得出最终各个属性的权重占比。知识图谱路径相似性分析中，使用AHP层次分析法，对路径权重进行占比，再集合业务实际，得出最终各个路径的权重占比。

本发明基于知识图谱技术的重码分析不仅仅是对物资主数据本身的分析，更是引入了相关联的业务数据和其他主数据作为数据分析的数据基础，将业务数据和主数据各个数据对象关联，并赋予重码分析权重。

以上所述仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于语义库和知识图谱的物资相似性分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于语义库和知识图谱的物资相似性分析方法，其特征在于，S1中，决定性属性为危险品号属性、是否工器具属性。

3.根据权利要求1所述的基于语义库和知识图谱的物资相似性分析方法，其特征在于，S2中，非决定性属性包括物资描述属性、物资名称属性、基本物料属性、制造商零件编号属性、制造商名称属性。

4.根据权利要求3所述的基于语义库和知识图谱的物资相似性分析方法，其特征在于，物资描述属性通过余弦相似度算法计算相似度。

5.根据权利要求4所述的基于语义库和知识图谱的物资相似性分析方法，其特征在于，余弦相似度算法计算步骤包括：

6.根据权利要求3所述的基于语义库和知识图谱的物资相似性分析方法，其特征在于，通过最短编辑距离算法分别计算的物资名称属性、基本物料属性、制造商零件编号属性、制造商名称属性的相似度。

7.根据权利要求1所述的基于语义库和知识图谱的物资相似性分析方法，其特征在于，S3中，知识图谱路径为5条，通过借助AHP方法对5条知识图谱路径的重要性做初步评估，并分配两个物资的连通路径权重。

8.根据权利要求7所述的基于语义库和知识图谱的物资相似性分析方法，其特征在于，知识图谱路径的计算方法如下：

S32：统计并记录清单中连通每个BOM节点的路径数量；

9.根据权利要求1所述的基于语义库和知识图谱的物资相似性分析方法，其特征在于，S31中，BOM节点清单中包含BOM号及路径数量。

10.根据权利要求1所述的基于语义库和知识图谱的物资相似性分析方法，其特征在于，S35中，每种路径连通方式均有三种连通结果，分别为有效连通、无效连通、不连通。