CN115080587B

CN115080587B - 一种基于知识图谱的电子元器件替代方法、装置及介质

Info

Publication number: CN115080587B
Application number: CN202210544755.2A
Authority: CN
Inventors: 庄子聪; 张平健
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2024-04-16
Anticipated expiration: 2042-05-19
Also published as: CN115080587A

Abstract

本发明公开了一种基于知识图谱的电子元器件替代方法、装置及介质，其中方法包括：知识获取部分：获取电子元器件数据，对电子元器件数据进行数据清洗以及关系抽取，获得数据集；知识建模部分：对电子元器件进行知识建模，设计电子元器件替代知识结构，构建电子元器件替代优选矩阵，对电子元器件进行本体建模，获得知识图谱；知识存储部分，将数据存储到数据库中；链接预测部分：基于知识图谱，利用链接预测实现电子元器件替代。本发明通过构建知识图谱，并将电子元器件替代视为知识图谱中的链接预测任务，有助于电子元器件设计师从庞大的电子元器件库中找到合适的替代电子元器件，成功匹配更多合适的替代电子元器件，可广泛应用于电子元器件领域。

Description

一种基于知识图谱的电子元器件替代方法、装置及介质

技术领域

本发明涉及电子元器件领域，尤其涉及一种基于知识图谱的电子元器件替代方法、装置及介质。

背景技术

电子信息企业产品研发、生产所需物料中，电子元器件占相当比重，而当前我国企业使用的电子元器件中有部分为进口电子元器件，其一般通过国内代理采购或市购，其技术支持、供货周期、产品动态难以保障。考虑到国际形势变化引起的部分禁运、贸易壁垒、实体清单等采购风险，部分企业开始在国内寻找进口电子元器件的替代产品。因此，考虑到电子元器件的生命周期更替以及降低采购风险的主动计划，在产品的研发及生产过程中，电子元器件替代都是必不可少的。

虽然加大研发投入、发展科技并自主研发出关键电子元器件能从根本解决上述问题，但为了在短期内尽快恢复正常生产秩序，应考虑选用合适的替代电子元器件。知识图谱善于梳理复杂知识结构、挖掘潜在关联知识、推理关联知识对象，构建物料替代知识图谱，是匹配和推荐替代电子元器件的一个有效途径和尝试，有助于电子元器件设计师从庞大的电子元器件库中找到合适的替代电子元器件，成功匹配更多合适的替代电子元器件。

寻找替代电子元器件时，需遵循“不更改电路设计、不影响PCB板状态”的原则，以降低后续环节的风险，从而节省整体成本，一般可从功能、性能、工艺三个方面考虑。设计师一般从现有的物料系统或互联网上搜索跟被替代电子元器件分类相同的电子元器件，然后打开对应的技术手册，逐项比对被替代电子元器件的功能、性能、工艺等关键参数，记录下不同的参数，根据各电子元器件间的属性相似度来寻找合适的替代电子元器件，通过理论计算和仿真分析评估能否进行替代，然后进行板上全功能验证。为节省验证成本，一般会加强理论计算和仿真分析的把控。现有的做法会让设计师耗费大量时间寻找电子元器件、翻阅资料、比对不同关键参数，而目前大多数物料系统虽有部分物料信息，但信息相对简单且缺乏对替代场景的知识设计，不能很好地满足替代场景的需求。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种基于知识图谱的电子元器件替代方法、装置及介质。

本发明所采用的技术方案是：

一种基于知识图谱的电子元器件替代方法，包括以下步骤：

知识获取部分：获取电子元器件数据，对电子元器件数据进行数据清洗以及关系抽取，获得数据集；

知识建模部分：对电子元器件进行知识建模，设计电子元器件替代知识结构，构建电子元器件替代优选矩阵，对电子元器件进行本体建模；

知识存储部分：将电子元器件信息存储到数据库中；这里的电子元器件信息包括功能参数(电子元器件主要功能、各引脚功能等)，性能参数(各类电气性能、热性能等)，工艺参数等；

链接预测部分，利用链接预测实现电子元器件替代。

进一步地，所述知识获取部分，包括：

获取电子元器件数据，从数据的唯一性及一致性两个维度对电子元器件数据进行清洗；

对清洗后的数据进行分析，再进行关系抽取，获得数据集；

将数据集划分获得训练集、验证集及测试集。

进一步地，所述知识存储部分，包括：

利用MySQL、Neo4j及Apache Jena对电子元器件信息进行知识存储。

进一步地，所述链接预测部分，包括：

利用链接预测实现电子元器件替代，将电子元器件替代视为知识图谱的链接预测任务，采用三个链接预测模型实现电子元器件替代关系的预测；

三个链接预测模型为：CoPER-ConvE模型、COMPGCN模型以及AcrE模型，其中AcrE模型包括串行AcrE模型和并行AcrE模型。并根据评价指标Mean Reciprocal Rank、Mean Rank及Hits@k比较三个模型的预测效果。

进一步地，利用CoPER-ConvE模型进行链接预测，包括：

在CoPER-ConvE模型中，第一个预处理步骤仅应用于实体嵌入，而关系用于生成投影层的参数，如下式所示：

z＝Conv 2D(Reshape(e_s))

θ＝g(r)

其中，z是对嵌入的合并表示，Conv 2D(Reshape(e_s))表示对嵌入进行整形后二维卷积，g(r)表示生成的参数，表示预测的答案，/>表示第二个到最后一个参数，θ＝[θ₁；θ₂]是参数向量；

在解码过程中，获取预测结果中最可能的标签序列，以实现实体识别。

进一步地，利用COMPGCN模型进行链接预测，包括：

COMPGCN模型的更新方程如下式所示：

其中，x_u,z_r分别表示节点和关系的初始特征，h表示节点的更新表示，表示节点u和边r属于v的出边邻居集合；COMPGCN模型使用权重λ(r)＝dir(r)，如下式所示：

转换关系表示如下：

h_r＝W_relz_r

其中，是一个可学习的变换矩阵；COMPGCN模型用一组基向量的线性组合表示关系，设/>是一组可学习的基向量，初始关系表示如下式所示：

其中，是特定于关系的可学习标量权重，/>是向量的个数。

进一步地，利用串行AcrE模型进行链接预测，包括：

串行AcrE模型中使用二维卷积，标准卷积运算如下式所示：

其中，★表示卷积运算，是第i个滤波器，/>是第i个偏置向量，τ是二维整形函数；

滤波器的输出被堆叠以形成标准卷积学习的输出，将这个标准卷积学习的最终输出表示为C₀，记为F是所用滤波器的数量；

在深层网络中存在固有的消失/爆炸梯度问题，这里用残差学习法将原始输入信息添加回来，以解决这些问题，将残差学习的结果展平为特征向量，整个过程由下式定义：

o＝Flatten(ReLU(C_T+τ([e；r])))

其中，Flatten表示将嵌入展平为特征向量，C_T表示上一空洞卷积的输出，τ([e；r])表示对串联的e和r进行二维整形。

进一步地，利用并行AcrE模型进行链接预测，包括：

在并行AcrE模型下，将不同卷积运算产生的多个结果整合起来，整合过程如下式所示：

其中，C₀是标准卷积的结果，C_i是第i次空洞卷积的结果，表示结果积分运算；

整个卷积学习的最终输出之后是一个变换操作，将结果展平到特征向量中，如下式所示：

c＝Flatten(W₁Relu(C+τ([e；r])))

其中，W₁是变换矩阵，Flatten表示将嵌入展平为特征向量，C表示将不同卷积运算产生的多个结果整合，τ([e；r])表示对串联的e和r进行二维整形；

在并行AcrE模型中，定义的损失函数，如下式所示：

其中，t是一个标签向量，其元素对于存在的关系为1，否则为零，N是知识图谱中的实体数；p(t_i|h,r)表示预测结果为t_i的概率。该损失函数取一个(h,r)对，同时对所有实体进行评分。因此，AcrE模型能较快地进行训练和推理。

本发明所采用的另一技术方案是：

一种基于知识图谱的电子元器件替代装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明通过构建知识图谱，并将电子元器件替代视为知识图谱中的链接预测任务，有助于电子元器件设计师从庞大的电子元器件库中找到合适的替代电子元器件，成功匹配更多合适的替代电子元器件。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中原始数据电阻散点图；

图2是本发明实施例中原始数据工作电压散点图；

图3是本发明实施例中Z-Score标准化后电阻散点图；

图4是本发明实施例中Z-Score标准化后工作电压散点图；

图5是本发明实施例中Min-Max标准化后电阻散点图；

图6是本发明实施例中Min-Max标准化后工作电压散点图；

图7是本发明实施例中电阻器类别的示意图；

图8是本发明实施例中电子元器件替代知识结构的示意图；

图9是本发明实施例中电子元器件替代优选矩阵的示意图；

图10是本发明实施例中电子元器件替代本体层的示意图；

图11是本发明实施例中MySQL数据库设计的示意图；

图12是本发明实施例中MySQL数据库数据的示意图；

图13是本发明实施例中利用Cypher查询元器件相关属性的示意图；

图14是本发明实施例中Jena架构图的示意图；

图15是本发明实施例中Fuseki界面的示意图；

图16是本发明实施例中利用SPARQL查询三元组信息的示意图；

图17是本发明实施例中电子元器件替代关系预测示例的示意图；

图18是本发明实施例中CoPER与以往模型的对比示意图；

图19是本发明实施例中COMPGCN模型概览的的示意图；

图20是本发明实施例中串行AcrE的示意图；

图21是本发明实施例中并行AcrE的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

本发明实施例提供了一种基于知识图谱的电子元器件替代方法，具体包括以下步骤：

步骤S1、知识获取。

获取电子元器件数据，对电子元器件数据进行数据清洗以及关系抽取，获得数据集。其中步骤S1具体包括步骤S11-S17：

步骤S11、资源整合。电子元器件替代所需信息一般来源于官方网站、电子元器件技术手册、第三方数据库，以及ERP/PDM/PLM等业务系统，主要涉及数据载体为网页数据、文本文档、pdf或word文档、关系型数据库等，电子元器件资源整合情况如表2-1所示。

表2-1电子元器件资源整合情况

以上网站中，Datasheet5网站提供了详尽的替代信息，故电子元器件替代实验主要围绕此网站提供的数据展开。

步骤S12、数据爬取。网页切换页面时，链接的变化存在一定规律，如电阻器类别下的固定电阻器的第二页数据对应链接为：www.datasheet5.com/parametric/Resistors/Fixed％20Resistors？page＝2，只需修改不同的page值，即可实现网页的切换。此外，在相应位置填入不同电子元器件的类别名称，即可获取不同类别下的链接。

分析网页源代码，编写对应爬虫程序，访问每一个电子元器件的链接，其中含有该电子元器件的参数及替代电子元器件链接，访问该替代电子元器件链接，再爬取其参数，即可爬取完当前页的所有本料及替代料信息，遍历不同page值，即可爬取完所有数据。

为了便于实验开展，爬取的电子元器件数据集中于一个电子元器件分类下，最终爬取固定电阻器本料1000条及替代料13208条，含有39个参数，包含功能参数、性能参数以及工艺参数等。

步骤S13、数据清洗。虽然电子元器件数据相较于文本数据较为规整，但是数据质量仍然能够从数据唯一性及数据一致性两个维度进行提高。

电子元器件的替代料可能相同，在这种情况下，会导致数据重复的问题，而去重不能简单依靠型号是否重复进行，因为同一型号的电子元器件若是由不同厂家生产的，其电子元器件信息将会存在差异，所以应当将整条记录进行比对，筛选后替代料信息由13567条变为9522条。

由于不同厂家之间没有达成统一的协议，也没有遵循统一的标准规范，且电子元器件参数值的实际大小不一，所以不同电子元器件参数的度量单位不尽相同。为了方便后续实验的开展，我们需要对度量单位进行统一，如将所有额定电压的单位统一为V。

步骤S14、数据分析。为了更好地对电子元器件数据有个全面的了解，需要对数据进行分析，如下选取了电阻和工作电压参数进行分析，计算数据的均值、方差等统计量。

如表2-2所示，电阻的取值范围较广，说明电阻值是区分固定电阻器的一个重要参数，替代电子元器件主要依据电阻来寻找。

表2-2电阻、工作电压数据分析

为了对数据的分布有直观的理解，需要对数据进行散点图的绘制，电阻散点图如图1所示，工作电压散点图如图2所示。

Z-Score标准化。为了便于比较不同参数间的数值，对数据进行Z-Score标准化：

其中，x_i为第i个样本的数值，

对电阻、工作电压进行Z-Score标准化后，数据分析如表2-3所示：

表2-3 Z-Score标准化-电阻、工作电压数据分析

对电阻进行Z-Score标准化后，其散点图如图3所示。

对工作电压进行Z-Score标准化后，其散点如图4所示。

Min-Max标准化。对数据进行Min-Max标准化以消除量纲的影响，标准化后的数据落于[0,1]之间：

其中，x_i为第i个样本的数值，max为样本中的最大值，min为样本中的最小值。

对电阻、工作电压进行Min-Max标准化后，数据分析如表2-4所示：

表2-4 Min-Max标准化-电阻、工作电压数据分析

由上表，可以发现，在对数据进行标准化后，电阻的方差及标准差都比工作电压的小，而原始数据下由于量纲的影响，电阻数值上较大，导致了原始数据下电阻的方差及标准差比工作电压的大。

对电阻进行Min-Max标准化后，其散点图如图5所示。

对工作电压进行Min-Max标准化后，其散点图如图6示。

步骤S15、关系抽取。在构建知识图谱和进行链接预测时，数据格式要求为三元组，在爬取电子元器件替代关系时，已按照三元组形式进行关系抽取，而电子元器件信息是以csv方式存储的，所以需要编写Python程序，将每一条属性抽取出来，形成“电子元器件型号-属性-属性值”的三元组，中间以制表符分隔，保存为txt文件，最终形成340887条三元组。

步骤S16、制作数据集。将电子元器件数据划分为训练集、验证集和测试集。由于本实验目标仅为预测替代关系，所以需要先将本料及替代料信息三元组全部导入训练集，再将替代关系三元组按照8：1：1的比例随机划分至训练集、测试集及验证集。

步骤S17、知识存储。随着知识图谱应用的推广，其规模也在逐渐扩大，这就需要以更高效的方式对其进行管理。为了满足用户查询等应用需求，无法以文件的形式对知识进行存储，而传统关系数据库难以有效的管理并表示图模型。在这样的背景之下，图数据库如Neo4j等成为知识存储的重要存储方式之一。此外，在语义万维网领域中，也发展出了能高效存储RDF数据的三元组库。

步骤S2、知识建模。针对替代场景中电子元器件各参数的业务用途进行初步梳理和分类并应用于电子元器件知识图谱中，构建电子元器件替代优选矩阵，进行本体建模；对电子元器件进行知识建模，设计电子元器件替代知识结构，构建电子元器件替代优选矩阵，并利用Protégé对电子元器件进行本体建模。其中步骤S2具体包括步骤S21-S24：

步骤S21：知识建模。知识建模是建立关于某种知识的计算机可解释模型的过程，生成的知识模型可以通过某种知识表示语言被计算机解释。知识表示语言使知识可以由软件解释并存储在数据库中。

步骤S22：梳理电子元器件知识图谱关系。本发明针对替代场景中电子元器件各参数的业务用途进行初步梳理和分类并应用于电子元器件知识图谱中。电子元器件知识图谱主要包括三种关系：从属关系、属性关系、替代关系。

从属关系主要有电子元器件类别和使用环境，通过利用电子元器件-类别-电子元器件和电子元器件-使用环境-电子元器件的从属关系，对设计师需要查找的替代电子元器件进行更加快捷、精准和清晰的定位。如下图所示，电子元器件类别为综合电子元器件功能、工艺等因素的多层级上下位分类，如电阻器-可变电阻器-滑线电阻器等，如图7所示。使用环境为电子元器件能够正常工作的环境指标的集合体，比如温度、湿度等。

属性关系主要有功能参数、性能参数和工艺参数，综合电子元器件-功能参数/性能参数/工艺参数-电子元器件的属性关系，对不同类别电子元器件的不同关键参数指标进行标注和训练，优先显示参数相似或更优的电子元器件。功能参数主要包括电子元器件主要功能、各引脚功能等，性能参数主要包括各类电气性能、热性能等，工艺参数主要包括封装、材料、尺寸等。

替代关系主要包括直接替代、基本替代、功能替代、降级替代四种替代关系，综合考虑电子元器件使用环境、历史替代库等因素，标注电子元器件-替代关系-电子元器件应用案例，并构建使用环境-替代关系-使用环境的替代权重矩阵，从而扩展应用案例并建立电子元器件替代目录。

在爬取数据的过程中，发现在同一个一级分类下的不同器件，一般都会有共同的参数信息。如对电容而言，所有器件基本都有尺寸、标称容量、额定电压、包装方式等参数，将这些参数分为功能参数(电子元器件主要功能、各引脚功能等)，性能参数(各类电气性能、热性能等)，工艺参数(封装、材料、尺寸等)，便可以根据所需实现替代，原则如下：

a)直接替代：功能参数、性能参数、工艺参数相近。

b)基本替代：性能参数、工艺参数相近。

c)功能替代：功能参数、工艺参数相近。

d)降级替代：各参数均允许一定程度的偏离，具体偏离程度应根据各项参数重要程度进行分配，如功能、性能参数应尽量接近，工艺参数则允许更大的偏差。

电子元器件替代知识结构如图8所示。

步骤S23：构建电子元器件替代优选矩阵。

通过构建电子元器件替代优选矩阵，能更精确地识别不同使用环境下的替代电子元器件，进一步辅助设计师进行电子元器件替代工作。如图9所示，较高使用环境下的电子元器件能够直接替代同是较高使用环境下参数匹配的电子元器件，其在高使用环境下只能作为降级替代，需作更加充分的评估，慎用限用，但在较低使用环境下可以作为基本替代或功能替代，但需考虑参数溢出和成本问题。

步骤S24：本体建模。利用Protégé进行本体建模，如图10所示。

步骤S3、知识存储。将数据存储到数据库中。

随着知识图谱应用的推广，其规模也在逐渐扩大，这就需要以更高效的方式对其进行管理。为了满足用户查询等应用需求，无法以文件的形式对知识进行存储，而传统关系数据库难以有效的管理并表示图模型。在这样的背景之下，图数据库如Neo4j等成为知识存储的重要存储方式之一。此外，在语义万维网领域中，也发展出了能高效存储RDF数据的三元组库。

设计MySQL数据库并存储电子元器件信息，如图11所示。部分数据库数据如图12所示。

Neo4j是高度可扩展的本机图数据库，旨在优化节点和关系的快速管理、存储和遍历，提供恒定的实时性能，使用户能应对当今不断发展的数据挑战。在Neo4j中，关系是在两个节点间的数据连接，属性是可以附加到节点和关系的标签。

利用Neo4j实现数据可视化并提升查询效率，利用Cypher查询元器件相关属性，如图13所示。Apache Jena提供了将数据从RDF图中提取出的接口，架构图如图14所示。Fuseki界面如图15所示。利用SPARQL查询三元组信息，如图16所示。

步骤S4、链接预测。利用链接预测实现电子元器件替代。

链接预测是预测网络中两个实体之间链接的问题，基于当前观测到的部分网络来推断丢失的链路或预测未来的链路，具有巨大的现实应用价值。许多真实世界的数据自然地以成对关系的形式出现，如人体细胞中的蛋白质-蛋白质相互作用、科学研究中的论文引用等，这些关系包含了丰富的节点属性和网。预测关系的存在是网络科学的一项基本任务，具有重要的实践意义。对于食物网等生物学网络而言，发现和验证联系需要大量的实验工作。而不是盲目地检查所有可能的链接，链接预测可以帮助科学家专注于最有可能的链接，从而大幅降低实验成本。对于社交网络和引文网络，链接预测可以帮助推荐相关页面或发现新引文。

链接预测的研究在过去的几年中受到了广泛的关注，研究人员提出了许多方法来解决它。MultiHop KG将知识图谱与神经网络的表达能力相结合时，可以观察到性能的显著提升，这些方法学习知识图谱中实体和关系的有限维连续向量表示(即嵌入)，然后对它们进行处理(如通过神经网络)以推断知识图谱中的缺失链接，不同的模型通过不同的体系结构(如卷积网络或递归神经网络)处理这些嵌入。

基于链接预测实现电子元器件替代示例如图17所示，如器件1、2、3均为A/D转换器，已有器件1和器件3的直接替代历史库。现发现器件3已经停产，亟需寻找可替代的电子元器件。设计师可通过物料替代辅助功能，直接搜索器件3的型号规格，由图谱的替代关系可知道器件1可直接替代器件。此外，A/D转换器的关键性能参数为电源电压、分辨率、信噪比和采样率，通过参数相似度匹配可发现器件2的工艺参数和功能参数与器件1一致，性能参数上电源电压、分辨率、信噪比也与器件1相同，而采样率2.0GSPS要优于器件1的1.5GSPS，符合基本替代关系，器件2在性能、功能、工艺上可基本替代器件1。由于器件1可直接替代器件3，可以推理出器件2也可基本替代器件3。因此，会优先推荐器件1，并标明为直接替代，其次推荐器件2，并标明为基本替代，差异的参数为性能参数中的采样率。电子元器件设计师可视设计产品的应用指标要求选择合适的器件，通过理论计算和仿真分析评估其替代的可行性。

具体地，采用三个链接预测模型实现电子元器件替代关系的预测，具体步骤包括：

步骤S41、搭建CoPER-ConvE模型。学习实体和关系嵌入可以解决链接预测问题，但是有些方法将这些嵌入之间的关系约束为相加的，这极大地限制了表征能力，不能处理源实体的不同投影用于不同关系的情况。使用上下文参数生成可以解决这个问题，它允许模型表示实体和关系之间更复杂的交互。

CoPER(Context Parameters from Embedded Relations)通过学习实体和关系之间更具表现力的关系来增强现有的多种可加性链接预测方法，核心思想是关系定义了如何处理源实体以产生目标实体，具体来说，CoPER可以通过对源实体的变换来获得目标实体，并且该变换的参数由关系确定，如图18所示。

在基线模型中，和的嵌入通过加法运算(如先串联后卷积)进行合并，然后使用f(如一个神经网络)进行变换。在CoPER中，操作h只应用于e_s，而r用于生成f的参数。因此，参数不再是直接学习得到的，而是一个新的模型组件，即上下文参数生成器(CPG)的输出。

上下文参数生成(CPG)模块是一个函数，它将一个关系r作为输入，并输出其他函数f的参数θ，设为参数生成函数，其中N_r是知识图谱中的关系数，且以下是三种简单的函数形式。

学习嵌入，而不是对关系使用独热表示，如下式所示：

g_linear(r)＝W_linearRr+b#(3)

其中，偏置项/>D_r是关系嵌入大小，W_linear和R都是可训练的模型参数。学习的关系嵌入表示的D_r个不同θ值的线性组合，允许关系之间共享信息。

使用多层感知器的发电机网络的第三种变式，如下式所示：

g_MLP(r)＝MLP(Rr)#(4)

这可以认为是对g_linear的低阶近似。

通过参数生成组件，CoPER使链接预测方法能够直接建模实体和关系嵌入之间更复杂的交互。

在CoPER-ConvE中，第一个预处理步骤仅应用于实体嵌入，而关系用于生成投影层的参数，如下式所示：

z＝Conv 2D(Reshape(e_s))#(5)

θ＝g(r)#(6)

其中，θ＝[θ₁；θ₂]是参数向量。

步骤S42、搭建COMPGCN模型。图是最具表现力的数据结构之一，被用来模拟各种各样的问题。传统的神经网络结构，如CNN和递归神经网络被限制为仅处理欧几里德数据。为了解决这个缺点，GCN被提出并已成功地应用于几个领域，如社交网络、自然语言处理、药物发现、晶体性质预测和自然科学等。

然而，现有的大部分关于GCN的研究着重于学习简单无向图中节点的表示，而多关系图是一种更普遍的图。仅学习节点嵌入并过度参数化是目前大多数现有处理关系图的基于GCN的方法的问题。因此，这种方法不适合直接应用于需要关系嵌入向量的任务，如链接预测。如图19所示，COMPGCN(Compsition-Based Graph Convolutional Network)联合嵌入节点和关系并使用了实体-关系组合操作

过度参数化的问题，可以通过将关系表示为向量来缓解。此外，COMPGCN对实体和关系进行了组合，如下式所示：

e_o＝φ(e_s,e_r)#(8)

其中，是一个复合算子，s,r,o表示知识图谱中的头实体、关系、尾实体，/>表示它们相应的嵌入。COMPGCN可以使用非参数化操作，如减法、乘法和循环相关也可以扩展到参数化操作，如神经张量网络和ConvE。

为了在线性特征维数下能感知关系，需要执行节点合成，GCN更新方程如下式所示

其中，N(v)是v指向外的边的一组直接邻域，x_u表示节点的初始特征，W_r表示关系特定参数，f为激活函数。为了对不同边进行不同的处理，每个边都定义了单独的过滤器，

COMPGCN的更新方程如下式所示：

其中，x_u,z_r分别表示节点和关系的初始特征，h表示节点的更新表示，COMPGCN使用权重λ(r)＝dir(r)，如下式所示：

转换关系表示如下：

h_r＝W_relz_r#(11)

其中，是一个可学习的变换矩阵。COMPGCN用一组基向量的线性组合表示关系，设/>是一组可学习的基向量，初始关系表示如下式所示：

其中，是特定于关系的可学习标量权重。

步骤S43、搭建AcrE模型。大多数现有的基于DNN或基于GNN的知识图谱嵌入方法非常复杂且耗时，这使得它们无法用于某些在线或实时应用场景，需要大量的时间进行训练和推理。为了解决这个问题，一种简单而有效的基于空洞卷积的知识图谱嵌入方法AcrE(Atrous Convolution and Residual Embedding)被提出，它通过使用空洞卷积有效地增加了特征交互。其次，为了解决原始信息遗忘问题和消失/爆炸梯度问题，AcrE采用了残差学习法。它结构简单，但参数效率高。

AcrE设计了两种结构来整合标准卷积和空洞卷积。一种是串行结构，如图20所示，另一种是并行结构，如图21所示。

在串行AcrE模型中，标准卷积和空洞卷积是以串行方式组织的，一个卷积的输出将作为其后续相邻卷积的输入。该模型首先将实体及其关系的嵌入重构为二维表示，然后依次进行一次标准卷积和若干次空洞卷积。接下来，最后一次空洞卷积的输出嵌入和初始嵌入通过基于残差学习的方法进行组合，将组合嵌入展平为向量，然后将该向量作为特征，得到候选实体的概率分布。

对于三元组，将头实体，关系和尾实体表示为它们相应的嵌入表示。ConvE指出，二维卷积运算比一维卷积运算更好，因为二维卷积通过嵌入之间的额外交互点增加了CNN模型的表现力。因此，AcrE模型中也使用二维卷积，标准卷积运算如下式所示：

其中，★表示卷积运算，是第i个滤波器，/>是第i个偏置向量。然后，这些滤波器的输出被堆叠以形成标准卷积学习的输出。将这个标准卷积学习的最终输出表示为C₀，它可以简单地写成/>F是所用滤波器的数量。

在串行AcrE模型中，不同种类的卷积被一个个地执行，每个卷积从其先前卷积的输出中提取一些交互特征。因此，随着卷积的执行，挖掘的特征将失去越来越多的原始输入信息。然而，原始信息是所有挖掘出的特征的基础，因此失去它们会增加挖掘出的特征与所需无关的风险，这种现象为原始信息遗忘问题。此外，在深层网络中存在固有的消失/爆炸梯度问题，这里用残差学习法将原始输入信息添加回来，以解决这些问题，然后将残差学习的结果展平为特征向量，整个过程由下式定义：

o＝Flatten(ReLU(C_T+τ([e；r])))#(14)

此外，在深层网络中存在固有的消失/爆炸梯度问题，这里用残差学习法将原始输入信息添加回来，以解决这些问题，然后将残差学习的结果展平为特征向量，整个过程由下式定义：利用生成的特征向量o，定义以下函数来计算得分，以测量候选实体t可以与输入<h，r>形成正确三元组的程度，如下式所示：

ψ(h,r,t)＝(oW+b)t^T#(15)

其中，W是变换矩阵，b是偏置向量。然后使用sigmoid函数得到所有候选实体的概率分布，如下式所示：

p(t|h,r)＝sigmoid(ψ(h,r,t))#(16)

在并行AcrE模型中，标准卷积和空洞卷积是以并行方式组织的，不同种类的卷积被同时执行，然后它们的结果被合并、展平成一个向量。类似于串行AcrE模型，这个向量被用作特征来获得候选实体的概率分布。

除了结果集成和特征向量生成之外，并行AcrE模型中的大多数组件都与串行AcrE模型有相同的定义。

不同于串行结构，并行模型下，需要将这些不同卷积运算产生的多个结果整合起来，这个过程如下式所示：

其中，C₀是标准卷积的结果，C_i是第i次空洞卷积的结果，表示结果积分运算。

整个卷积学习的最终输出之后是一个变换操作，然后结果展平到特征向量中，如下式所示：

c＝Flatten(W₁Relu(C+τ([e；r])))#(18)

其中，W₁是变换矩阵，与其他通常使用最大间隔损失函数进行训练的知识图谱嵌入方法不同，大多数基于神经网络的知识图谱嵌入方法(如ProjE、ConvE等)经常使用以下两种排名损失函数，一种是独立计算排序分数的二元交叉熵损失，另一种是综合考虑排序分数的软最大回归损失。ProjE和ConvE均表明后者取得了较好的实验结果。在AcrE中，定义了与ConvE相同的损失函数，如下式所示：

其中，t是一个标签向量，其元素对于存在的关系为1，否则为零，N是知识图谱中的实体数。该损失函数取一个(h,r)对，同时对所有实体进行评分。因此，AcrE模型能较快地进行训练和推理。

步骤5：结果分析。Mean Reciprocal Rank为每个被预测三元组对应正确答案在预测结果中的排名倒数的平均值，是对模型链接预测效果的整体评价，其值越大说明链接预测效果越好，定义如下：

其中，Q为测试集或验证集，|Q|表示Q的大小，即被预测三元组的个数，rank_i表示第i条样本的正确答案在预测结果中的排名。

在此基础上，可以定义MRR-Head及MRR-Tail，分别为预测头实体、预测尾实体时的MRR，MRR-Avg则为二者的平均数。

Mean Rank定义为每个被预测三元组在预测结果中的排名均值，定义如下：

其中，Q为测试集或验证集，|Q|表示Q的大小，即被预测三元组个数，rank_i表示第i条预测样本对应正确答案在预测结果中的排名。

在此基础上，可以定义MR-Head及MR-Tail，分别为预测头实体、预测尾实体时的MR，MR-Avg则为二者的平均数。

Hits@k为每个被预测三元组对应正确答案在预测结果中排前k的个数占总预测三元组数的比例，其值越大说明链接预测效果越好，定义如下：

A＝{ω|ω≤k,ω∈N^*}#(23)

其中，Q为测试集或验证集，|Q|表示Q的大小，即被预测三元组个数，rank_i表示第i条预测样本对应正确答案在预测结果中的排名，A为小于等于k的正整数集，I为示性函数，若rank_i∈A，则I_A(rank_i)＝1，反之，I_A(rank_i)＝0。

在此基础上，可以定义Hits@k-Head及Hits@k-Tail，分别为预测头实体、预测尾实体时的Hits@k，Hits@k-Avg则为二者的平均数。

实验环境如表4-1和表4-2所示：

表4-1电子元器件替代关系预测实验环境

表4-2电子元器件替代关系预测实验超参数设置

为了确保实验效果的可比性，下述三个实验Epoch数均取500，批大小均取128。

其中，步骤S5具体包括步骤S51-S5：

步骤S51、利用CoPER-ConvE进行链接预测。CoPER-ConvE模型超参数设置如下表4-3所示：

表4-3 CoPER-ConvE模型电子元器件替代关系预测实验超参数设置

CoPER-ConvE模型实验结果如下表4-4所示，其中各指标下最优结果已由下划线标出：

表4-4 CoPER-ConvE模型电子元器件替代关系预测实验结果

上表4-4中，CPG为使用了参数生成器模块的模型CoPER-ConvE，Plain为未使用参数生成器模块的对比模型ConvE，分析实验结果可知，在使用了参数生成器模块后，模型实验效果在某些指标上有了一定提升，如当特征图Dropout均取0.3时，模型链接预测效果的Hits@1由0.268提升到了0.320，说明正确答案排在预测结果第一位的比例增加了，但同时也观察到，平均排名MR从184下降到325，说明从整体来看，上下文信息可能不够充分，使得预测较不准确，被预测三元组在预测结果中的排名均值下降。当特征图Dropout均取0.5时，Hits@1由0.270提升到了0.321，模型链接预测效果的平均排名MR从169下降到303，链接预测效果在不同指标下的变化趋势与当特征图Dropout均取0.3时一致。

此外，还对超参数进行了调整，观察实验效果是否会有变化。对于使用了参数生成器模块的模型CoPER-ConvE，发现当特征图Dropout从0.3调整为0.5时，链接预测效果在所有评价指标下都有一定提升。对于没有使用参数生成器模块的模型ConvE，观察到当特征图Dropout从0.3调整为0.5时，链接预测效果在除Hits@3的评价指标下都有一定提升，考虑是因为训练集样本中替代关系三元组不足，且模型参数过多，增加随机丢弃神经网络单元的概率，可以有效地防止过拟合。

同时，从整体实验效果看，无论是否使用参数生成器进行优化，或是否调整了特征图Dropout，电子元器件替代关系的预测效果也不够令人满意，无法在实际生产环境下使用。

步骤S52、利用COMPGCN进行链接预测。COMPGCN模型超参数设置如下表4-5所示：

表4-5 COMPGCN模型电子元器件替代关系预测实验超参数设置

COMPGCN模型实验结果如下表4-6所示：

表4-6 COMPGCN模型电子元器件替代关系预测实验结果

由实验结果，可以分析得出，相比于特征图Dropout为0.5的CoPER-ConvE模型，COMPGCN模型的链接预测效果在全部指标下皆有了显著的提升，如平均排名MR从303提升到了1.573，Hits@10从0.608提升到了0.984，Hits@1从0.321提升到了0.876，COMPGCN模型能准确预测电子元器件替代关系，但是该模型仍然有其不足之处，即显存占用较大且训练时间过长，需要上百小时才能跑完500个Epoch。

此外，还可以发现MRR-Head效果优于MRR-Tail，考虑是因为本料数量小于替代料数量，三元组中头实体重复率较高，所以当进行链接预测时，本料比替代料更容易预测。

步骤S53：利用AcrE进行链接预测。AcrE模型超参数设置如下表4-7所示：

表4-7 AcrE模型电子元器件替代关系预测实验超参数设置

/>

AcrE模型实验结果如下表4-8所示，Atrous1为第一层膨胀系数，Atrous2为第二层膨胀系数，Atrous3为第三层膨胀系数，其中各指标下最优结果已由下划线标出：

表4-8 AcrE模型电子元器件替代关系预测实验结果

由实验结果可以分析得出，当Atrous1取2，Atrous2取5，Atrous3取10时，无论是串行AcrE模型还是并行AcrE模型，效果皆不佳，考虑是因为卷积核过于稀疏，局部信息丢失过多，导致模型训练效果不佳。

当Atrous1取1，Atrous2取2，Atrous3取5时，串行AcrE模型和并行AcrE模型预测效果皆有显著的提升。相比于并行AcrE模型，串行AcrE模型进行链接的效果更佳，在全部评价指标下都有了显著的提升，如平均排名MR从2.195提升到了1.721，Hits@10从0.957提升到了0.980，Hits@1从0.884提升到了0.926，在实验过程中，还发现AcrE训练所需时间及显存占用皆小于COMPGCN。

步骤S54：实验对比。

模型实验对比效果如下表4-9所示，如AcrE-serial-2表示Atrous1取2的串行AcrE模型，其中各指标下最优结果已由下划线标出：

表4-9实验结果对比

/>

对比实验结果，可以发现CoPER-ConvE模型效果一般，而AcrE和COMPGCN模型在电子元器件领域数据集上都能较准确的预测出替代关系，考虑到AcrE在更多的指标下达到最优效果，同时该模型训练速度较快且显存占用较小，故整体表现上，AcrE模型更适合进行电子元器件替代关系预测。

综上所述，本发明实施例提供一种基于知识图谱的电子元器件替代方法，主要是利用知识获取、知识建模、知识存储构建知识图谱，并将电子元器件替代视为知识图谱中的链接预测任务，有助于电子元器件设计师从庞大的电子元器件库中找到合适的替代电子元器件，成功匹配更多合适的替代电子元器件。

本实施例还提供一种基于知识图谱的电子元器件替代装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

本实施例的一种基于知识图谱的电子元器件替代装置，可执行本发明方法实施例所提供的一种基于知识图谱的电子元器件替代方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种基于知识图谱的电子元器件替代方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于知识图谱的电子元器件替代方法，其特征在于，包括以下步骤：

知识建模部分：对电子元器件进行知识建模，设计电子元器件替代知识结构，构建电子元器件替代优选矩阵，对电子元器件进行本体建模，获得知识图谱；

知识存储部分：将电子元器件信息存储到数据库中；

链接预测部分：基于知识图谱，利用链接预测实现电子元器件替代；

所述知识获取部分，包括：

对清洗后的数据进行分析，再进行关系抽取，获得数据集；

将数据集划分获得训练集、验证集及测试集；

所述知识建模部分，包括：

针对替代场景中电子元器件各参数的业务用途进行初步梳理和分类并应用于电子元器件知识图谱中，构建电子元器件替代优选矩阵，进行本体建模；对电子元器件进行知识建模，设计电子元器件替代知识结构，构建电子元器件替代优选矩阵，并利用Protégé对电子元器件进行本体建模；其中，通过构建电子元器件替代优选矩阵，能更精确地识别不同使用环境下的替代电子元器件；

电子元器件知识图谱包括三种关系：从属关系、属性关系、替代关系；

从属关系有电子元器件类别和使用环境，即电子元器件-类别-电子元器件和电子元器件-使用环境-电子元器件；

属性关系有功能参数、性能参数和工艺参数，综合电子元器件-功能参数/性能参数/工艺参数-电子元器件的属性关系，对不同类别电子元器件的不同关键参数指标进行标注和训练，优先显示参数相似或更优的电子元器件；

替代关系包括直接替代、基本替代、功能替代、降级替代四种替代关系；a)直接替代：功能参数、性能参数、工艺参数相近；b)基本替代：性能参数、工艺参数相近；c)功能替代：功能参数、工艺参数相近；d)降级替代：各参数均允许一定程度的偏离，具体偏离程度应根据各项参数重要程度进行分配，如功能、性能参数应尽量接近，工艺参数则允许更大的偏差；

所述知识存储部分，包括：

利用MySQL、Neo4j及Apache Jena对电子元器件信息进行知识存储；

所述链接预测部分，包括：

利用链接预测实现电子元器件替代，将电子元器件替代为知识图谱的链接预测任务，采用三个链接预测模型实现电子元器件替代关系的预测；

三个链接预测模型为：CoPER-ConvE模型、COMPGCN模型以及AcrE模型，其中AcrE模型包括串行AcrE模型和并行AcrE模型；

利用CoPER-ConvE模型进行链接预测，包括：

z＝Conv2D(Reshape(e_s))

θ＝g(r)

其中，z是对嵌入的合并表示，Conv2D(Reshape(e_s))表示对嵌入进行整形后二维卷积，g(r)表示生成的参数，表示预测的答案，/>表示第二个到最后一个参数，θ＝[θ₁；θ₂]是参数向量；

在解码过程中，获取预测结果中最可能的标签序列，以实现实体识别；

利用COMPGCN模型进行链接预测，包括：

COMPGCN模型的更新方程如下式所示：

转换关系表示如下：

h_r＝W_relz_r

其中，是特定于关系的可学习标量权重，/>是向量的个数；

利用串行AcrE模型进行链接预测，包括：

串行AcrE模型中使用二维卷积，标准卷积运算如下式所示：

o＝Flatten(ReLU(C_T+τ([e；r])))

其中，Flatten表示将嵌入展平为特征向量，C_T表示上一空洞卷积的输出，τ([e；r])表示对串联的e和r进行二维整形；

利用并行AcrE模型进行链接预测，包括：

c＝Flatten(W₁Relu(C+τ([e；r])))

在并行AcrE模型中，定义的损失函数，如下式所示：

其中，t是一个标签向量，其元素对于存在的关系为1，否则为零，N是知识图谱中的实体数；p(t_i∣h,r)表示预测结果为t_i的概率。

2.一种基于知识图谱的电子元器件替代装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1所述方法。

3.一种计算机代码自动生成装置，其特征在于，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行权利要求1所述方法。