CN113468882A

CN113468882A - 一种识别相似备件的方法

Info

Publication number: CN113468882A
Application number: CN202110841055.5A
Authority: CN
Inventors: 周自强; 张静宇; 郭晓娇; 张天元
Original assignee: Liaoning Hongyanhe Nuclear Power Co Ltd
Current assignee: Liaoning Hongyanhe Nuclear Power Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-10-01

Abstract

本发明提供一种识别相似备件的方法，包括，步骤S1，获取待识别备件信息、库存备件信息并过滤处理；步骤S2，输入预设的词向量计算模型转化为对应的向量值；步骤S3，计算待识别备件与库存备件的相似度并与预设的第一判断阈值比较确定是否列入疑似清单；步骤S4，对疑似清单中备件信息进行补充并输入预设的词向量计算模型，获得对应的向量值；计算待识别备件与疑似清单的相似度；步骤S5，计算疑似清单中待识别备件与疑似清单的相似判断系数并与预设的第二判断阈值比较确定该待识别备件是否为相似备件。本发明降低在海量库存备件中进行相似识别的成本，提高了相似备件识别的快速性、准确性。

Description

一种识别相似备件的方法

技术领域

本发明涉及电力系统自动化技术领域，特别是涉及一种识别相似备件的方法。

背景技术

目前相似备品备件的识别主要是依靠技术人员在维修活动中或仓库管理员盘点库存时凭借经验来完成的，这种传统方法受到人员技术水平、工作经验、工作态度等因素的影响，难以对仓库中的大量备件进行快速、准确判断。

发明内容

本发明的目的在于，提出一种识别相似备件的方法，解决现有工矿企业备品备件管理中相似备件的识别速度慢且准确度低的技术问题。

一方面，提供一种识别相似备件的方法，包括以下步骤：

步骤S1，获取待识别备件信息、库存备件信息，并分别对待识别备件信息、库存备件信息进行过滤处理；

步骤S2，将过滤后的待识别备件信息、库存备件信息作为输入量输入预设的词向量计算模型，获得待识别备件向量值、库存备件向量值；

步骤S3，根据待识别备件向量值、库存备件向量值计算待识别备件与库存备件的相似度；并将待识别备件与库存备件的相似度与预设的第一判断阈值比较，根据比较结果确定该待识别备件是否列入疑似清单；

步骤S4，对疑似清单中备件信息进行补充，并将补充后的备件信息作为输入量输入预设的词向量计算模型，获得补充后的待识别备件向量值、疑似清单向量值；根据补充后的待识别备件向量值、疑似清单向量计算待识别备件与疑似清单的相似度；

步骤S5，确定疑似库存清单中某一词语出现的频率、某个特定参数逆向词汇频率；并根据某一词语出现的频率、某个特定参数逆向词汇频及待识别备件与疑似清单的相似度计算疑似清单中待识别备件与疑似清单的相似判断系数；将疑似清单中待识别备件与疑似清单的相似判断系数与预设的第二判断阈值比较，根据比较结果确定该待识别备件是否为相似备件。

优选地，在步骤S1中，所述对待识别备件信息、库存备件的信息进行过滤处理，具体包括：

将待识别备件信息、库存备件信息译成中文，将待识别备件信息、库存备件信息拆分成词语并过滤掉词语中的停用词、同义词；其中，所述待识别备件信息或所述库存备件信息至少包括名称信息、规格信息；

根据过滤后的待识别备件信息确定待识别备件特征词集合，根据过滤后的库存备件信息确定库存备件特征词集合，并确定待识别备件特征词集合与库存备件特征词集合之间的共用特征词集合。

优选地，所述步骤S2包括：

将待识别备件特征词集合、库存备件特征词集合及共用特征词集合作为输入项输入预设的词向量计算模型，输出转化成空间向量的待识别备件向量值、库存备件向量值。

优选地，在步骤S3中，根据以下公式计算待识别备件与库存备件的相似度：

其中，CosSim(s₀，s_i)为待识别备件与库存备件的相似度；s₀＝{v₁，v₂，......，v_z}为待识别备件的集合，z为待识别备件序列数；s_n＝{v_n，1，v_n，2，......，v_n，z}为库存备件的集合，n为库存备件序列数，z为共用特征词序列数；A_i、D_i分别表示文本s₀，s_i中第i个特征词的权重。

优选地，所述步骤S3包括：

当待识别备件与库存备件的相似度大于等于预设的第一判断阈值时，判定待识别备件与库存备件相似，将待识别备件列入疑似清单；

当待识别备件与库存备件的相似度小于预设的第一判断阈值时，判定待识别备件与库存备件不相似，将待识别备件标记为不同备件。

优选地，在步骤S4中，所述对疑似清单中备件信息进行补充包括：

将备件的设备材质信息、外观尺寸信息、接口规格信息、制造厂信息、安全及鉴定等级信息补充到疑似清单的备件信息中。

优选地，所述步骤S4，所述计算待识别备件与疑似清单的相似度，具体包括：

其中，CosSim(s’₀，s’_i)为待识别备件与疑似清单的相似度；s’₀为疑似清单中待识别备件；s’_i为疑似清单中库存备件的集合；A’表示文本s’₀中第i个特征词的权重；B’表示文本s’_i中第i个特征词的权重。

优选地，所述步骤S5包括：

根据以下公式确定疑似库存清单S′_m中词语word_i出现的频率：

其中，n_i,表示词语word_i在S′_m中出现的次数，∑_kn_k,表示S′_m中所有词语出现的总次数。

根据以下公式确定疑似清单中某个特定参数逆向词汇频率IDF：

其中，m表示备件清单S′_m中包的备件数，1+∑_kw为含某个特定参数描述词的备件数。

优选地，在步骤S5中，根据以下公式计算疑似清单中待识别备件与疑似清单的相似判断系数：

Similarity(s′₀，s′_i)＝α·CosSim(s′₀，s′_i)+β·TF-IDF(s′₀，s′_i)

其中，Similarity(s′₀，s′_i)为疑似清单中待识别备件与疑似清单的相似判断系数；α、β为相似度计算系数，α+β＝1且α＜β；CosSim(s′₀，s′_i)为疑似清单中识别备件与疑似清单的相似度；IDF(s′₀，s′_i)为疑似清单中识别备件与疑似清单的逆向词汇频率。

优选地，所述步骤S5还包括：

当疑似清单中待识别备件与疑似清单的相似判断系数大于等于预设的第二判断阈值时，判定待识别备件为相似备件；

当疑似清单中待识别备件与疑似清单的相似判断系数小于预设的第二判断阈值时，判定待识别备件为不相似备件。

综上，实施本发明的实施例，具有如下的有益效果：

本发明提供的识别相似备件的方法，通过将库中的备件信息和待识别备件信息拆分为词语，并对词语进行剔除停用词、过滤同义词等预处理，之后计算库存备件清单与待识别备件清单的余弦相似度，通过余弦相似度初步确认疑似清单。之后对缩小范围的库存清单补充物料信息，再次进行相似度计算，在进一步的相似度计算时，充分考虑了备件参数对备件识别的作用，引入TF-IDF相似度方法并增加了其在最终相似度计算时的比重，从而确定待识别备件是否为相似备件。这种方法能够降低在海量库存备件中进行相似识别的成本，提高了相似备件识别的快速性、准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例中一种识别相似备件的方法的主流程示意图。

图2为本发明实施例中一种识别相似备件的方法的逻辑示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1和图2所示，为本发明提供的一种识别相似备件的方法的一个实施例的示意图。在该实施例中，所述方法包括以下步骤：

步骤S1，获取待识别备件信息、库存备件信息，并分别对待识别备件信息、库存备件信息进行过滤处理；可以理解的是，将待识别备件和库存备件的名称、规格信息由英文或其他外文统一翻译成中文，将待识别备件和库存备件的中文名称、规格信息均拆分为词语；待识别备件和库存备件的中文名称、规格信息拆分后的词语进行停用词、同义词过滤处理。

具体实施例中，将待识别备件信息、库存备件信息译成中文，将待识别备件信息、库存备件信息拆分成词语并过滤掉词语中的停用词、同义词；其中，所述待识别备件信息或所述库存备件信息至少包括名称信息、规格信息；

根据过滤后的待识别备件信息确定待识别备件特征词集合，根据过滤后的库存备件信息确定库存备件特征词集合，并确定待识别备件特征词集合与库存备件特征词集合之间的共用特征词集合。具体地，确认待识别备件特征词集合{word₁，word₂，......，word_x}和库存备件特征词集合{word₁，word₂，......，word_y}，确认共用特征词集合{word₁，word₂，......，word_z}＝{word₁，word₂，......，word_x}∪{word₁，word₂，......，word_y}，其中，x＜y＜z，。

步骤S2，将过滤后的待识别备件信息、库存备件信息作为输入量输入预设的词向量计算模型，获得待识别备件向量值、库存备件向量值；可以理解的是，将待识别备件和库存备件通过word2vec词向量计算模型分别表示成空间向量。

具体实施例中，将待识别备件特征词集合、库存备件特征词集合及共用特征词集合作为输入项输入预设的词向量计算模型，输出转化成空间向量的待识别备件向量值、库存备件向量值，具体地，空间向量可以表示成,待识别备件为s₀＝{v₁，v₂，......，v_z}，库存备件的集合Sn＝{s₁，s₂，......，s_n}，其中，s₁＝{v_1，1，v_1，2，……，v_1，z},s₂＝{v_2，1，v_2，2，……，v_2，z},……,sn＝{v_n，1，v_n，2，......，v_n，z}。

步骤S3，根据待识别备件向量值、库存备件向量值计算待识别备件与库存备件的相似度；并将待识别备件与库存备件的相似度与预设的第一判断阈值比较，根据比较结果确定该待识别备件是否列入疑似清单；可以理解的是，计算待识别备件s₀与库存备件S_n中每一项备件的余弦值相似度CosSim(s₀，s_i)其中i为1到n。将待识别备件s₀与库存备件S_n中每一项的相似度按从大到小依次排列，如果相似度未达到第一阈值，则待识别备件与库存备件不相似，否则将库存备件S_n中与待识别备件s₀相似度达到阈值的备件作为疑似清单S_m。

具体实施例中，根据以下公式计算待识别备件与库存备件的相似度：

其中，CosSim(s₀，s_i)为待识别备件与库存备件的相似度；s₀＝{v₁，v₂，......，v_z}为待识别备件的集合，z为待识别备件序列数；s_n＝{v_n，1，v_n，2，......，v_n，z}为库存备件的集合，n为库存备件序列数，z为共用特征词序列数；A_i、B_i分别表示文本s₀，s₁中第i个特征词的权重。

具体地，进行判断时，当待识别备件与库存备件的相似度大于等于预设的第一判断阈值时，判定待识别备件与库存备件相似，将待识别备件列入疑似清单；

步骤S4，对疑似清单中备件信息进行补充，并将补充后的备件信息作为输入量输入预设的词向量计算模型，获得补充后的待识别备件向量值、疑似清单向量值；根据补充后的待识别备件向量值、疑似清单向量计算待识别备件与疑似清单的相似度；可以理解的是，将待识别备件用新的空间向量进行表示为s′₀，疑似清单表示为S′_m，计算待识别备件与疑似清单中每一项备件的余弦值相似度CosSim(s′₀，s′₁)。

具体实施例中，对疑似清单中备件信息进行补充时，将备件的设备材质信息、外观尺寸信息、接口规格信息、制造厂信息、安全及鉴定等级信息补充到疑似清单的备件信息中。

具体地，所述计算待识别备件与疑似清单的相似度，具体包括：

步骤S5，确定疑似库存清单中某一词语出现的频率、某个特定参数逆向词汇频率；并根据某一词语出现的频率、某个特定参数逆向词汇频及待识别备件与疑似清单的相似度计算疑似清单中待识别备件与疑似清单的相似判断系数；将疑似清单中待识别备件与疑似清单的相似判断系数与预设的第二判断阈值比较，根据比较结果确定该待识别备件是否为相似备件。可以理解的是，由于备件的参数对甄别备件至关重要，可通过计算TF-IDF相似度来综合判断；TF-IDF相似度具体指词频和逆向文档频率，TF-IDF＝TF*IDF。在对待识别备件s′₀与疑似清单S′_m进行精确识别时，采用余弦相似度与TF-IDF相似度相结合的方式进行计算，计算结果达到第二阈值的备件确认为相似备件。

具体实施例中，根据以下公式确定疑似库存清单S′_m中词语word_i出现的频率：

逆向词汇频率IDF(Inverse Document Frequency)指的是在疑似清单中，包含某个特定参数描述词的备件越少，则该参数对区别备件的作用越大。在备件描述清单中，包含某个参数描述的备件越少，则IDF值越大。根据以下公式确定疑似清单中某个特定参数逆向词汇频率IDF：

具体地，根据以下公式计算疑似清单中待识别备件与疑似清单的相似判断系数：

其中，Similarity(s′₀，s′₁)为疑似清单中待识别备件与疑似清单的相似判断系数；α、β为相似度计算系数，α+β＝1且α＜β；CosSim(s′₀，s′₁)为疑似清单中识别备件与疑似清单的相似度；IDF(s′₀，s′_i)为疑似清单中识别备件与疑似清单的逆向词汇频率。

再具体地，进行判断时，当疑似清单中待识别备件与疑似清单的相似判断系数大于等于预设的第二判断阈值时，判定待识别备件为相似备件；

综上，实施本发明的实施例，具有如下的有益效果：

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种识别相似备件的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，在步骤S1中，所述对待识别备件信息、库存备件的信息进行过滤处理，具体包括：

3.如权利要求2所述的方法，其特征在于，所述步骤S2包括：

4.如权利要求3所述的方法，其特征在于，在步骤S3中，根据以下公式计算待识别备件与库存备件的相似度：

其中，CosSim(s₀，s_i)为待识别备件与库存备件的相似度；s₀＝{v₁，v₂，......，v_z}为待识别备件的集合，z为待识别备件序列数；s_n＝{v_n，1，v_n，2，......，v_n，z}为库存备件的集合，n为库存备件序列数，z为共用特征词序列数；A_i、B_i分别表示文本s₀，s_i中第i个特征词的权重。

5.如权利要求4所述的方法，其特征在于，所述步骤S3包括：

6.如权利要求5所述的方法，其特征在于，在步骤S4中，所述对疑似清单中备件信息进行补充包括：

7.如权利要求6所述的方法，其特征在于，所述步骤S4，所述计算待识别备件与疑似清单的相似度，具体包括：

8.如权利要求7所述的方法，其特征在于，所述步骤S5包括：

其中，n_i,m表示词语word_i在S′_m中出现的次数，∑_kn_k,m表示S′_m中所有词语出现的总次数。

9.如权利要求8所述的方法，其特征在于，在步骤S5中，根据以下公式计算疑似清单中待识别备件与疑似清单的相似判断系数：

10.如权利要求9所述的方法，其特征在于，所述步骤S5还包括：