CN116304115B

CN116304115B - 一种基于知识图谱的物资匹配替换方法和装置

Info

Publication number: CN116304115B
Application number: CN202310564671.XA
Authority: CN
Inventors: 郑重; 葛毅; 李咸宁; 王俪璇; 郭大方
Original assignee: Information Center Of Logistics Support Department Of Central Military Commission
Current assignee: Information Center Of Logistics Support Department Of Central Military Commission
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-08-11
Anticipated expiration: 2043-05-19
Also published as: CN116304115A

Abstract

本发明属于大数据领域，提供一种基于知识图谱的物资匹配替换方法和装置，解决后勤物资匹配耗时费力、误差大的问题。该方法包括：对不同来源的各种物资的异构数据进行抽取和分析，确定关键信息，得到物资样本数据，构建数据集以构建物资信息抽取模型来自动抽取关键信息；根据预构建的命名实体识别模型，识别当前任务中的各实体，以确定原物资的特征参数；根据所构建的物资知识图谱，使用所确定的原物资的特征参数，确定物资子集；确定物资子集中的替换物资与原物资的特征参数的相似度以及与当前任务的匹配度，以确定物资子集中最合适的替换物资。本发明能够基于知识图谱实现更高效的物资匹配替换过程，能够实现替换物资的智能化匹配。

Description

一种基于知识图谱的物资匹配替换方法和装置

技术领域

本发明属于大数据领域，具体涉及一种基于知识图谱的物资匹配替换方法和装置。

背景技术

随着大数据、人工智能等技术的发展，对于特定行业或用户群的后勤物资开始数字化、智能化转型。后勤物资品类繁多、战术技术指标描述复杂，在调拨动用后勤物资时，当某一类物资数量不够时，可以通过其他的一种或多种相关属性的物资进行替换，来达到或部分达到所需的效能。但是事实上目前现有的方法仅是将物资数据数字化存储，主要是基于关系型数据库和文本描述为主，使得在进行物资匹配时匹配费力耗时，对于替换成品的确定，也存在人工匹配慢且误差多等问题。此外，现有方法无法进行智能化匹配和替换建议。

因此，有必要提供一种新的物资匹配替换方法，以解决上述技术问题或者至少部分技术问题。

发明内容

（一）要解决的技术问题

本发明旨在解决现有技术中特定行业中后勤物资在物资匹配时人工匹配费时费力，且误差大，无法实现智能化匹配，也无法提供物资替换建议等的技术问题。

（二）技术方案

为解决上述技术问题，本发明的一方面提出一种基于知识图谱的物资匹配替换方法，所述物资匹配替换方法包括：对不同来源的各种物资的异构数据进行抽取和分析，确定关键信息，得到物资样本数据，所述物资样本数据包含物资实体、实体属性和实体关系；对所得到的物资样本数据进行多种文本标注，以构建数据集；在预训练网络的基础上，使用所构建的数据集进行增强训练，得到物资信息抽取模型，以用于自动抽取关键信息；使用所述物资信息抽取模型对物资各种多源异构数据的抽取和分析，根据分析结果的属性值构建物资的概念实体、物资实体关系，以构建物资知识图谱；

根据预构建的命名实体识别模型，识别当前任务中的各实体，以确定原物资的特征参数；根据所构建的物资知识图谱，使用所确定的原物资的特征参数，确定物资子集；确定物资子集中的替换物资与原物资的特征参数的相似度以及与所述当前任务的匹配度，以确定所述物资子集中最合适的替换物资。

根据本发明的可选实施方式，所述对不同来源的各种物资的异构数据进行抽取和分析，确定关键信息，得到物资样本数据，包括：经过多次抽取以抽取共性信息，并从中选取关键信息，所述关键信息包括任务类型、物资种类、物资名称、存放地点、使用时间、所属单位；使用所选取的关键信息生成物资样本数据。

根据本发明的可选实施方式，所述对所得到的物资样本数据进行文本标注，以构建数据集，包括：根据不同物资任务，设置多种基础标签，并使用所述多种基础标签对所得到的物资样本数据进行多种文本标注，所述多种文本标注包括物资实体标注、关系标注、事件抽取标注、文本类别标注。

根据本发明的可选实施方式，所述在预训练网络的基础上，使用所构建的数据集进行增强训练，得到物资信息抽取模型，以用于自动抽取关键信息，包括：通过特征提取算法，在预训练网络的基础上，使用所构建的数据集进行增强训练，得到物资信息抽取模型；将包含物资任务的一段文本段输入训练好的物资信息抽取模型，则自动进行关键信息抽取，并输出与所述当前任务相对应的各实体、实体关系、事件的关键信息。

根据本发明的可选实施方式，包括：构建多种可扩展的规则库，所述多种可扩展的规则库包括种类库、名称库、任务库、组织库；通过所构建的规则库，进行实体标注和权重赋值，以构建命名实体识别模型来识别当前任务的文本段中的实体。

根据本发明的可选实施方式，包括：按照指定检索表达式在物资库中进行检索，确定符合当前任务的物资子集。

根据本发明的可选实施方式，进一步包括：根据与原物资的特征参数的相似度、与当前任务的匹配度，对所确定的物资子集中替换物资进行排序以进一步筛选出最优匹配的替换物资。

根据本发明的可选实施方式，所述对所确定的物资子集中替换物资进行排序包括以下步骤：输入当前任务所对应的文本段和所筛选得到的物资子集中所对应的替换物资的特征参数信息片段；调用开源的向量转化模型，进行向量转换，得到当前任务的文本段所对应的第一向量和物资子集中替换物资的替换物资向量；利用余弦相似度算法计算第一向量和各替换物资向量之间的相似度，以所计算的相似度作为当前任务和各替换物资之间的匹配度得分；按照各物资子集中的替换物资与当前任务的匹配度得分，对所有替换物资进行降序排序，得到排序列表，以使用所述排序列表找到最合适的替换物资。

本发明第二方面提出一种基于知识图谱的物资匹配替换装置，包括：抽取分析模块，用于对不同来源的各种物资的异构数据进行抽取和分析，确定关键信息，得到物资样本数据，所述物资样本数据包含物资实体、实体属性和实体关系；数据集构建模块，用于对所得到的物资样本数据进行多种文本标注，以构建数据集；自动抽取模块，在预训练网络的基础上，使用所构建的数据集进行增强训练，得到物资信息抽取模型，以用于自动抽取关键信息；构建模块，使用所述物资信息抽取模型对物资各种多源异构数据的抽取和分析，根据分析结果的属性值构建物资的概念实体、物资实体关系，以构建物资知识图谱；识别确定模块，根据预构建的命名实体识别模型，识别当前任务中的各实体，以确定原物资的特征参数；第一确定模块，根据所构建的物资知识图谱，使用所确定的原物资的特征参数，确定物资子集；第二确定模块，确定物资子集中的替换物资与原物资的特征参数的相似度以及与所述当前任务的匹配度，以确定所述物资子集中最合适的替换物资。

根据本发明的可选实施方式，还包括排序处理模块，所述排序处理模块用于确定排序列表，以使用所述排序列表找到最合适的替换物资；输入当前任务所对应的文本段和所筛选得到的物资子集中所对应的替换物资的特征参数信息片段；调用开源的向量转化模型，进行向量转换，得到当前任务的文本段所对应的第一向量和物资子集中替换物资的替换物资向量；利用余弦相似度算法计算第一向量和各替换物资向量之间的相似度，以所计算的相似度作为当前任务和各替换物资之间的匹配度得分；按照各物资子集中的替换物资与当前任务的匹配度得分，对所有替换物资进行降序排序，得到排序列表，以使用所述排序列表找到最合适的替换物资。

本发明第三方面提出一种计算机设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行如本发明第一方面所述的方法。

本发明第四方面提出一种计算机程序产品，存储有计算机可执行程序，所述计算机可执行程序被执行时，实现如本发明第一方面所述的方法。

（三）有益效果

与现有技术相比，本发明通过对不同来源的各种物资的异构数据进行抽取和分析，确定关键信息，得到物资样本数据，并进行多种文本标注，构建数据集来训练物资信息抽取模型，以自动抽取关键信息；构建物资知识图谱，识别当前任务中的各实体，确定原物资的特征参数，以确定物资子集，进一步根据所述当前任务与替换物资的特征参数的匹配度，确定最合适的替换物资，使得在面向后勤物资缺乏时，能够智能选择一种或多种相关属性的其他物资替换原物资，通过知识融合的相似度算法能够实现替换物资的智能匹配，能够通过可视化的方式展示不同产品间的替代关系，能够有效辅助用户了解复杂的物资分类关系。

附图说明

图1是本发明的实施例1的基于知识图谱的物资匹配替换方法的一示例的流程图；

图2是本发明的实施例1的基于知识图谱的物资匹配替换方法中数据抽取的一示例的示意框图；

图3是本发明的实施例1的基于知识图谱的物资匹配替换方法中数据标注的一示例的示意框图；

图4是本发明的实施例1的基于知识图谱的物资匹配替换方法中进行文本标注的一示例的流程示意图；

图5是本发明的实施例1的基于知识图谱的物资匹配替换方法中构建物资信息抽取模型的一示例的流程示意图；

图6是本发明的实施例1的基于知识图谱的物资匹配替换方法中识别当前任务中各实体的一示例的框架示意图；

图7是本发明的实施例1的基于知识图谱的物资匹配替换方法中排序过程的一示例的流程示意图；

图8是本发明的实施例2的基于知识图谱的物资匹配替换装置的一示例的框架示意图；

图9是本发明的一个实施例的计算机设备的结构示意图；

图10是本发明的一个实施例的计算机程序产品的示意图。

具体实施方式

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

鉴于上述问题，本发明提供了一种基于知识图谱的物资匹配替换方法。在面向后勤物资缺乏时，能够智能选择一种或多种相关属性的其他物资替换原物资，通过对物资各种多源异构数据的抽取与分析，根据分析结果的属性值构建物资的概念实体，然后通过知识融合的相似度算法实现物资概念实体间的匹配，并制定同品种物资不同产品之间的等效替代方案，还可通过可视化的方式展示不同产品间的替代关系，能够有效辅助用户了解复杂的物资分类关系。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图1是本发明的实施例1的基于知识图谱的物资匹配替换方法的一示例的流程图。

如图1所示，本发明提供了一种基于知识图谱的物资匹配替换方法，具体包括以下步骤。

步骤S101，对不同来源的各种物资的异构数据进行抽取和分析，确定关键信息，得到物资样本数据，所述物资样本数据包含物资实体、实体属性和实体关系。

步骤S102，对所得到的物资样本数据进行多种文本标注，以构建数据集。

步骤S103，在预训练网络的基础上，使用所构建的数据集进行增强训练，得到物资信息抽取模型，以用于自动抽取关键信息。

步骤S104，使用所述物资信息抽取模型对物资各种多源异构数据的抽取和分析，根据分析结果的属性值构建物资的概念实体、物资实体关系，以构建物资知识图谱。

步骤S105，根据预构建的命名实体识别模型，识别当前任务中的各实体，以确定原物资的特征参数。

步骤S106，根据所构建的物资知识图谱，使用所确定的原物资的特征参数，确定物资子集。

步骤S107，确定物资子集中的替换物资与原物资的特征参数的相似度以及与所述当前任务的匹配度，以确定所述物资子集中最合适的替换物资。

首先，在步骤S101中，对不同来源的各种物资的异构数据进行抽取和分析，确定关键信息，得到物资样本数据，所述物资样本数据包含物资实体、实体属性和实体关系。

具体地，所述物资各种多源异构数据包括来自不同数据源或不同数据渠道的物资数据。物资数据包含大量的特征信息，并以文本的形式进行存储。具体对物资数据的文档中（或文本中）的各类特征进行提取。

由于不同物资数据要素种类繁杂、设备名称规范化程度低、语义环境复杂，难以实现数据要素的自动化定义和抽取，需要消耗大量时间开展人工整编工作。为了解决上述问题，本发明通过多次抽取的方式，先抽取共性信息，再选取关键信息，来生成物资样本数据，具体参见图2。

具体地，经过多次抽取以抽取共性信息，并从中选取关键信息，所述共性信息包括各物资数据中都包括的信息项目，所述关键信息包括共性信息中用户所关注的信息或与任务的执行有关的信息，例如任务类型、物资种类、物资名称、存放地点、使用时间、所属单位，等等。

接着，使用所选取的关键信息生成物资样本数据。

在一具体实施方式中，例如通过确定的关键信息初步生成的物资样本数据如下：“任务名称：XX指挥系统研制，所需物资种类：装备类、运输类、人员类；物资名称：XX雷达、XX运输车、XX试验人员，使用时间:2023年3月13日至2023年3月14日，使用地点：XX空域，所属单位:XX单位。

在一优选实施方式中，通过对物资数据进行预处理，筛选出经费保障、物资保障、卫生保障、交通保障、工程建设与营房保障六大类别，形成具有结构性的样本数据类别，以用于抽取关键信息来形成物资样本数据。

通过对物资各种多源异构数据的抽取与分析，并通过多次抽取的方式，先抽取共性信息，再选取关键信息，来生成物资样本数据，能够有效抽取物资数据中的共性信息和关键信息，并能够生成更有效的物资样本数据。

接下来，在步骤S102中，对所得到的物资样本数据进行多种文本标注，以构建数据集。

在模型构建之前，需对所得到的物资样本数据进行标注，以在模型训练过程中帮助模型获取先验知识。

需要说明的是，一个标注良好的数据集对模型的准确度非常重要，精确的标注是项目成功的基础。

在一实施方式中，如图3所示，对所得到的物资样本数据进行多种文本标注，以构建数据集。

具体地，根据不同物资任务，设置多种基础标签，并使用所述多种基础标签对所得到的物资样本数据进行多种文本标注，所述多种文本标注包括物资实体标注、关系标注、事件抽取标注、文本类别标注。

需要说明的是，对于多种文本标注，在本实施方式中，包括实体标注、关系标注、事件抽取、文本分类等基础标注，但是不限于此，不同标注所需的标注细节存在差异，但大致流程是相同的，上述仅作为可选示例进行说明，不能理解成对本发明的限制。此外，由于物资样本数据包含若干关键（或要素）信息，但机器并不知道哪些文字能和这些关键信息（或要素信息）对应上，所以需要人工在物资样本数据上做多种文本标注，以用于辅助机器进行学习。

具体通过Doccano（documment anotation）文本注释工具，为物资样本数据进行文本打标签。

例如，物资样本数据：“任务名称：XX指挥系统研制，所需物资种类：装备类、运输类、人员类，物资名称：XX雷达、XX运输车、XX试验人员，使用时间：2023年3月13日至2023年3月14日，使用地点：XX空域，所属单位：XX单位。”。上述物资样本数据包含任务类型、物资种类、物资名称、使用时间、使用地点、所属单位等关键信息，则需要对这些关键信息进行文本标注，通过Doccano文本注释工具选中物资样本数据中的“XX指挥系统研制”并为其标注为“任务类型”，将“XX雷达”标注为物资名称等，选中文本内容并为该文本内容赋予合适的文本标签，即进行文本标注。对所有文本内容完成标注操作后，即完成了按文本标签标注物资样本数据的相关操作。

在一可选实施方式中，如图4所示，在进行文本标注时，执行以下步骤。

步骤S401，设置多种基础标签，以用于对物资样本数据进行文本标注。

步骤S402，根据标注规则与形式要求，确定标注的对象，标记，输入与输出格式是否一致。

例如分类任务中的标签名称，实体标注中的实体类型以及实体名称，关系标注中的关系类型与标识等。除了这些原始信息，还需要根据专门的标注依据进行确定操作，所述专门的标注依据例如如实体颗粒度的把控，分类类型的判定依据等。

步骤S403，在文本标注完成后，确定是否已提交，并及时查看质检进度。

例如，对已提交的标注结果进行收集，判断是否有漏标注、错误标注等的情况。例如出现漏标注、错误标注，需及时完成返工后再次提交，由此能够实现更有效的文本标注。

需要说明的是，Doccano是面向机器学习专业人员的开源文本注释工具。它为序列标签，文本分类和序列任务设置注释功能。它具有多种应用程序，例如创建用于情感分析的标记数据，命名实体识别，文本摘要等。Doccano可支持三种NLP任务的文本标注，分别是文本分类、序列标注和序列到序列（例如文本翻译）。由于本发明分析的文本对象较多，通过采用Doccano的项目功能，并配合多人协同的方式进行文本标注，能够实现更有效的文本标注。

进一步地，使用完成文本标注的物资样本数据（即标注有多种基础标签的物资样本数据）构建数据集，以用作训练数据来训练物资信息抽取模型。

接下来，在步骤S103中，在预训练网络的基础上，使用所构建的数据集进行增强训练，得到物资信息抽取模型，以用于自动抽取关键信息。

在一具体实施方式中，构建物资信息抽取模型具体包括以下步骤。

步骤S501：使用通用信息预训练物资信息抽取模型。

具体使用现有通用信息预训练物资信息抽取模型，得到预训练网络。所述通用信息例如包括任务类型、物资种类、物资名称、存放地点、使用时间、所属单位六类。

需要说明的是，所述预训练网络（pretrained network）是一个保存好的网络，之前已在大型数据集上训练好的网络。

步骤S502：使用物资样本数据所构建的数据集，对物资信息抽取模型进行增强训练，以得到最终的物资信息抽取模型。

需要说明的是，本发明通过采用特征提取（feature extraction）的方法训练得到预训练网络。所述特征提取是使用之前网络学到的表示来从新样本（在本发明中是指物资样本数据）中提取出相似的特征，然后将这些相似的特征输入一个新的分类器，从头开始训练。其中，卷积神经网络包含两部分：首先是一系列池化层和卷积层，最后是一个密集连接分类器。对于卷积神经网络而言，特征提取就是取出之前训练好的网络的卷积基（convolutional base），在上面运行新数据（在本发明中是指物资样本数据，具体为使用物资样本数据进行增强训练），然后在输出上面训练一个新的分类器，再使用这个新的分类器来进行模型输出。

具体将包含物资任务的一段文本段输入训练好的物资信息抽取模型，则自动进行关键信息抽取，并输出与所述当前任务相对应的各实体、实体关系、事件的关键信息。

例如，输入的文本段为“2023年1月1日至2023年1月3日，于XX海域开展XX装备试验训练，参试装备：XX雷达，配试装备：XX导弹，需两辆XX运输车从XX部队仓库运至XX试训场地”，则物资信息抽取模型对所述文本段的关键信息进行抽取后将得到以下关键信息：任务类型：XX装备试验训练；物资种类：装备类、运输类；物资名称：XX雷达、XX导弹、XX运输车；存放地点：XX部队仓库、XX试训场地；使用时间：2023年1月1日至2023年1月3日；所属单位：XX部队。

接下来，在步骤S104中，使用所述物资信息抽取模型对物资各种多源异构数据的抽取和分析，根据分析结果的属性值构建物资的概念实体（即物资概念实体）、物资实体关系，以构建物资知识图谱。

在一具体实施方式中，使用训练好的物资信息抽取模型对物资各种多源异构数据的抽取和分析，得到抽取分析结果，并使用步骤S101所得到的分析结果，构建物资的概念实体。例如根据分析结果的属性值构建物资的概念实体（即物资概念实体）、物资实体关系和物资实体属性。例如采用LSTM-CRF模型进行实体识别，得到物资实体，能够进一步提高实体识别准确率，得到更精确的物资实体和物资实体关系。

具体地，根据物资概念实体、物资实体关系和物资实体属性值，形成物资实体知识三元组，以构建物资知识图谱。换言之，所构建的物资知识图谱包括物资实体、物资实体关系（例如物资实体与物资实体之间的边关系表示）、物资实体属性值。

例如，以后勤物资仓库信息为例，物资实体可包括油料物资、武器弹药、装备器材、生活物资等。实体属性值包括与物资名称、物资品牌、物资单位、物资所需数量等相关的属性值，物资实体关系例如为1:1、1: n或m: n，其中，n、m为正整数。通过使这些数据经过预处理后，最终构建出了一个专业知识图谱，即物资知识图谱。

可选地，采用 Neo4j图数据库对物资知识图谱的相关数据进行存储，并且还可以使用 Neo4j图数据库进行数据查询。

所构建的物资知识图谱还包括根据后勤物资之间的相似度建立映射关系。所述相似度包括以下方面的相似度：物资种类、产品型号和适用的任务类型。

需要说明的是，在实际业务中，通常会给出所需物资的性能要求及数量，具体包含相关物资的所属单位等信息。

接着，通过知识融合的相似度算法实现物资概念实体间的匹配，替代物资本体模型构建、物资品种实体关系抽取、制定不同品种物资的不同产品之间的等效替代方案等。

需要说明的是，对于替换物资本体模型构建，具体从业务专家的需求出发，针对本领域的知识进行梳理和抽象，构建替换物资本体模型，包括概念、概念属性、概念关系和概念分类体系。本体建模有两种方式，一种是半自动方式，即通过引导性流程页面，引接数据库、数据服务或者结构化文本，快速完成概念和概念关系的构建；另一种是手动方式，即通过表单或者图形化界面完成概念和概念关系的构建。

在本实施方式中，例如通过半自动方式构建替换物资本体模型。

具体地，基于所构建好的物资本体模型，通过创建结构化抽取任务或者自由文本抽取任务，完成知识抽取（实体、实体属性和实体关系）。其中，结构化抽取主要面向结构化数据源（数据库、数据服务或者结构化文本），通过引导性流程页面依次完成数据源选择、抽取规则配置、知识映射和融合策略设置，完成结构化抽取任务创建，并运行此任务，以完成知识抽取过程。自由文本抽取主要面向的是非结构化文本，通过提供的文本语料进行标注和模型训练，最终，通过训练好的物资信息抽取模型完成知识的自动抽取。

需要说明的是，在其他实施方式中，还可以使用Bert算法为预训练语言模型。例如基于Bert（Bidirectional Encoder Representation from Transformers）+LSTM-CRF（Long short-term memory-Conditional random field）算法构建知识抽取模型、即物资信息抽取模型。上述仅作为可选示例进行说明，不能理解成对本发明限制。

对于所述物资模型相似匹配，具体对使用知识抽取模型抽取出来的相关物品的实体，将所抽取的实体属性转化成特征向量，通过例如夹角余弦计算来衡量两个向量方向的差异，夹角余弦越大则表示两个向量的夹角越小，夹角余弦越小则表示两向量的夹角越大。当两个向量的方向重合时，夹角余弦取最大值1，此时表明这两种属性最为相似，当两个向量的方向完全相反时，夹角余弦取最小值−1，此时表明这两种属性最为不相似。

接着，通过对所有物资实体的属性特征向量与目标实体的属性特征向量之间的夹角余弦进行计算，再对所有属性值进行加权计算，得到所有物资实体与目标物资的相似度匹配值，最终根据业务的实际需求提前设定匹配值的达标阈值以用于筛选出符合需求的物资实体。

优选地，还通过可视化的方式展示不同产品间的替代关系和物资模型相似匹配，能够辅助用户了解复杂的物资分类关系，物资品种实体关系、以及物资替代关系等。

对于所述物资替代关系可视化，例如对所抽取的物资实体进行模式对齐操作。具体包括实体对齐、实体消歧、抽样验证和知识更新。其中，实体对齐是判断两个或者多个不同信息来源的物资实体是否为指向真实世界中的同一个对象。如果多个物资实体表征同一个对象，则在这些物资实体之间构建对齐关系，同时对物资实体包含的信息进行融合和聚集；实体消歧主要用于解决同名实体产生歧义问题的技术，主要是根据上下文信息实现消除一词多义的现象；抽样验证主要是从已经完成的知识抽取任务中随机抽样若干条知识数据，用于检验抽取准确性；知识更新主要是基于预先配置好的知识融合策略，完成最终的知识融合操作，将新抽取到的新知识更新到图谱数据库中。

需要说明的是，上述仅作为可选示例进行说明，不能理解成对本发明的限制。

接下来，在步骤S105中，根据预构建的命名实体识别模型，识别当前任务中的各实体，以确定原物资的特征参数。

具体地，根据预构建的命名实体识别模型从标注的后勤物资信息中自动识别并抽取出相应的产品型号、产品性能、适用任务等的信息作为特征参数。

需要说明的是，现有技术中的命名实体识别方法在很多领域都取得了很好的效果，最常见的有两大类方法。第一类是基于条件随机场（CRF）的命名实体识别方法，第二类是基于预训练语言模型和深度学习的 Bi-LSTM-CRF 命名实体识别方法。上述2类方法有一个共同点，即只适用于已知命名实体类别，且命名实体列表无法穷举的情况，但是本发明所述的后勤物资中所涉及的命名实体比较特殊，它属于既知道命名实体类型又可以穷举实体列表的情况，因此，上述两类方法都不适用。为解决这个问题，本发明采用基于规则库的命名实体识别方法，用于完成物资要求中的命名实体识别任务。

具体地，构建规则库，进行实体标注和权重赋值，以构建命名实体识别模型来识别当前任务的文本段中的实体。

更具体地，构建多种可扩展的规则库，所述多种可扩展的规则库包括种类库、名称库、任务库、组织库。所述种类库、名称库、任务库、组织库与待识别任务中的物资种类、物资名称、适用任务、所属单位四类命名实体相对应。

通过对上述四个规则库进行实体标注和权重赋值，并以自定义方式集成到 HanLP自然语言处理工具包中，可构建一个简单高效的命名实体识别模型。接着，使用该方法对当前任务（即当前待识别任务）的文本段的文本内容进行分词和命名实体识别来建模求解，抽取出与当前任务（即当前待识别任务）的文本段相对应的实体。

根据所识别的实体，确定原物资的特征参数，例如确定原物资的产品性能、物资种类、所属单位、运输车类、适用任务、物资所需数量、物资所需时间等特征参数，具体可参见图6。

接下来，在步骤S106中，根据所构建的物资知识图谱，使用所确定的原物资的特征参数，确定物资子集。

在一具体实施方式中，利用步骤S105所识别的当前任务中的各实体，确定原物资的特征参数，得到当前任务（即当前待识别任务）中对应的物资种类、物资名称、适用任务、所属单位四种实体列表。

具体将得到的物资种类与适用任务列表中的所有实体在所构建的物资知识图谱中进行查询，得到对应的物资名称，将其与物资种类列表中的物资种类实体名称进行融合并去重，仅保留物资名称和适用任务两个列表。

进一步地，按照指定检索表达式在物资库（例如后勤物资库）中进行检索，确定符合当前任务的物资子集。例如，采用“与或”相结合的方式对上述两个列表中的实体构造统一检索表达式，以找出符合当前任务（即当前待识别任务）的物资子集。

接下来，在步骤S107中，确定物资子集中的替换物资与原物资的特征参数的相似度以及与所述当前任务的匹配度，以确定所述物资子集中最合适的替换物资。

具体地，所得的物资子集包含的物资虽然都符合当前任务（即当前待识别任务）所要求的条件，但还需要进一步确定与原物资的特征参数的相似度以及与任务匹配度。

接着，根据与原物资的特征参数的相似度、与当前任务的匹配度，对所确定的物资子集中替换物资进行排序以进一步筛选出最优匹配的替换物资。

采用基于BERT向量表示的语义相似度排序算法对对所得到的物资子集中替换物资进行排序，为当前任务（即当前待识别任务）自动匹配最相关且符合任务要求的替换物资。

对于排序过程具体包括以下步骤。

步骤S701，输入当前任务所对应的文本段和所筛选得到的物资子集中所对应的替换物资的特征参数信息片段。

步骤S702，调用开源的向量转化模型，进行向量转换，得到当前任务的文本段所对应的第一向量和物资子集中替换物资的替换物资向量。

例如，使用BERT向量转化模型将当前任务所对应的文本段转换为第一向量，将所筛选得到的物资子集中替换物资的特征参数信息片段转换为替换物资向量。

步骤S703，利用余弦相似度算法计算第一向量和各替换物资向量之间的相似度，以所计算的相似度作为当前任务和各替换物资之间的匹配度得分。

在得到当前任务和各替换物资之间的匹配度得分时，进入下一处理步骤。

步骤S704，按照各物资子集中的替换物资与当前任务的匹配度得分，对所有替换物资进行降序排序，得到排序列表，以使用所述排序列表找到最合适的替换物资。

根据本公开的实施例，可以计算替换物资的特征参数与原物资的特征参数的相似度，例如针对每项特征参数，计算替换物资的特征参数值与原物资的特征参数值的相似度得分，相似度得分越高，表明二者的相似度越高。

在得到替换物资与当前任务的匹配度得分和替换物资的特征参数与原物资的特征参数的相似度得分之后，可以综合考虑两者的得分来确定最合适的替换物资。例如，可以在匹配度得分高于预设阈值的替换物资中选择相似度总得分最高的替换物资，或者在相似度总得分高于预设阈值的替换物资中选择匹配度得分最高的替换物资。

具体地，所述排序列表即为当前任务与待选替换物资的最优匹配结果。例如执行当前任务的任务执行单位可根据该排序列表找到最合适的替换物资。

与现有技术相比，本发明通过对不同来源的各种物资的异构数据进行抽取和分析，确定关键信息，得到物资样本数据，并进行多种文本标注，构建数据集来训练物资信息抽取模型，以自动抽取关键信息；构建物资知识图谱，识别当前任务中的各实体，确定原物资的特征参数，以确定物资子集，进一步根据所述当前任务与替换物资的特征参数的匹配度和替换物资与原物资的特征参数的相似度，确定最合适的替换物资，使得在面临后勤物资缺乏问题时，能够智能选择一种或多种相关属性的其他物资替换原物资，通过知识融合的相似度算法能够实现替换物资的智能匹配，能够通过可视化的方式展示不同产品间的替代关系，能够有效辅助用户了解复杂的物资分类关系。

实施例2

下面描述本发明的装置实施例，该装置可以用于执行本发明的方法实施例。对于本发明装置实施例中描述的细节，应视为对于上述方法实施例的补充；对于在本发明装置实施例中未披露的细节，可以参照上述方法实施例来实现。

参照图8，将说明本发明的实施例2的基于知识图谱的物资匹配替换装置。

如图8所示，所述物资匹配替换装置800包括抽取分析模块810、数据集构建模块820、自动抽取模块830、构建模块840、识别确定模块850、第一确定模块860和第二确定模块870。

抽取分析模块810用于对不同来源的各种物资的异构数据进行抽取和分析，确定关键信息，得到物资样本数据，所述物资样本数据包含物资实体、实体属性和实体关系。数据集构建模块820用于对所得到的物资样本数据进行多种文本标注，以构建数据集。

具体地，经过多次抽取以抽取共性信息，并从中选取关键信息，所述关键信息包括任务类型、物资种类、物资名称、存放地点、使用时间、所属单位；使用所选取的关键信息生成物资样本数据。

接着，根据不同物资任务，设置多种基础标签，并使用所述多种基础标签对所得到的物资样本数据进行多种文本标注，所述多种文本标注包括物资实体标注、关系标注、事件抽取标注、文本类别标注。

自动抽取模块830在预训练网络的基础上，使用所构建的数据集进行增强训练，得到物资信息抽取模型，以用于自动抽取关键信息。

具体通过特征提取算法，在预训练网络的基础上，使用所构建的数据集进行增强训练，得到物资信息抽取模型。

将包含物资任务的一段文本段输入训练好的物资信息抽取模型，则自动进行关键信息抽取，并输出与所述当前任务相对应的各实体、实体关系、事件的关键信息。

具体地，构建模块840使用所述物资信息抽取模型对物资各种多源异构数据的抽取和分析，根据分析结果的属性值构建物资的概念实体、物资实体关系，以构建物资知识图谱。

接着，识别确定模块850根据预构建的命名实体识别模型，识别当前任务中的各实体，以确定原物资的特征参数。第一确定模块860根据所构建的物资知识图谱，使用所确定的原物资的特征参数，确定物资子集。第二确定模块870确定物资子集中的替换物资与原物资的特征参数的相似度以及与所述当前任务的匹配度，以确定所述物资子集中最合适的替换物资。

构建多种可扩展的规则库，所述多种可扩展的规则库包括种类库、名称库、任务库、组织库；通过所构建的规则库，进行实体标注和权重赋值，以构建命名实体识别模型来识别当前任务的文本段中的实体。

按照指定检索表达式在物资库中进行检索，确定符合当前任务的物资子集。

根据与原物资的特征参数的相似度、与当前任务的匹配度，对所确定的物资子集中替换物资进行排序以进一步筛选出最优匹配的替换物资。

在一可选实施方式中，物资匹配替换装置800还包括排序处理模块，所述排序处理模块用于确定排序列表，以使用所述排序列表找到最合适的替换物资。

所述排序处理模块执行以下步骤。

需要说明的是，在实施例2中，省略了与实施例1相同的部分的说明。

本领域技术人员可以理解，上述装置实施例中的各模块可以按照描述分布于装置中，也可以进行相应变化，分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

与现有技术相比，本发明通过对不同来源的各种物资的异构数据进行抽取和分析，确定关键信息，得到物资样本数据，并进行多种文本标注，构建数据集来训练物资信息抽取模型，以自动抽取关键信息；构建物资知识图谱，识别当前任务中的各实体，确定原物资的特征参数，以确定物资子集，进一步根据所述当前任务与原物资的特征参数的匹配度，确定最合适的替换物资，使得在面向后勤物资缺乏时，能够智能选择一种或多种相关属性的其他物资替换原物资，通过知识融合的相似度算法能够实现替换物资的智能匹配，能够通过可视化的方式展示不同产品间的替代关系，能够有效辅助用户了解复杂的物资分类关系。

实施例3

下面描述本发明的计算机设备实施例，该计算机设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明计算机设备实施例中描述的细节，应视为对于上述方法或装置实施例的补充；对于在本发明计算机设备实施例中未披露的细节，可以参照上述方法或装置实施例来实现。

图9是本发明的一个实施例的计算机设备的结构示意图，该计算机设备包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行图1的方法。

如图9所示，计算机设备以通用计算设备的形式表现。其中处理器可以是一个，也可以是多个并且协同工作。本发明也不排除进行分布式处理，即处理器可以分散在不同的实体设备中。本发明的计算机设备并不限于单一实体，也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序，通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行，以使得计算机设备能够执行本发明的方法，或者方法中的至少部分步骤。

所述存储器包括易失性存储器，例如随机存取存储单元（RAM）和/或高速缓存存储单元，还可以是非易失性存储器，如只读存储单元（ROM）。

可选的，该实施例中，计算机设备还包括有I/O接口，其用于计算机设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

应当理解，图9显示的计算机设备仅仅是本发明的一个示例，本发明的计算机设备中还可以包括上述示例中未示出的元件或组件。例如，有些计算机设备中还包括有显示屏等显示单元，有些计算机设备还包括人机交互元件，例如按钮、键盘等。只要该计算机设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤，均可认为是本发明所涵盖的计算机设备。

图10是本发明的一个实施例的计算机程序产品的示意图。如图10所示，计算机程序产品中存储有计算机可执行程序，所述计算机可执行程序被执行时，实现本发明上述方法。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

通过以上对实施方式的描述，本领域的技术人员易于理解，本发明可以由能够执行特定计算机程序的硬件来实现，例如本发明的系统，以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等。本发明也可以由执行本发明的方法的计算机软件来实现，例如由微处理器、电子控制单元，客户端、服务器端等执行的控制软件来实现。但需要说明的是，执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行，其也可以是由不特定具体硬件的以分布式的方式来实现。对于计算机软件，软件产品可以存储在一个计算机可读的存储介质（可以是CD-ROM，U盘，移动硬盘等）中，也可以分布式存储于网络上，只要其能使得计算机设备执行根据本发明的方法。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者计算机设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱的物资匹配替换方法，其特征在于，所述物资匹配替换方法包括：

对不同来源的各种物资的异构数据进行抽取和分析，确定关键信息，得到物资样本数据，所述物资样本数据包含物资实体、实体属性和实体关系；

对所得到的物资样本数据进行多种文本标注，以构建数据集；

在预训练网络的基础上，使用所构建的数据集进行增强训练，得到物资信息抽取模型，以用于自动抽取关键信息；

使用所述物资信息抽取模型对物资各种多源异构数据的抽取和分析，根据分析结果的属性值构建物资的概念实体、物资实体关系，以构建物资知识图谱；

根据预构建的命名实体识别模型，识别当前物资任务中的各实体，以确定原物资的特征参数；

根据所构建的物资知识图谱，使用所确定的原物资的特征参数，确定物资子集；

确定物资子集中的替换物资与原物资的特征参数的相似度以及与所述当前物资任务的匹配度，以确定所述物资子集中最合适的替换物资，其中，所述确定物资子集中的替换物资与所述当前物资任务的匹配度，包括：

输入当前物资任务所对应的文本段和所述物资子集中的替换物资的特征参数信息片段；

调用开源的向量转化模型，进行向量转换，将当前物资任务所对应的文本段转换为第一向量，将物资子集中替换物资的特征参数信息片段转换为替换物资向量；

利用余弦相似度算法计算第一向量和各替换物资向量之间的相似度，以所计算的相似度作为当前物资任务和各替换物资之间的匹配度得分。

2.根据权利要求1所述的物资匹配替换方法，其特征在于，所述对不同来源的各种物资的异构数据进行抽取和分析，确定关键信息，得到物资样本数据，包括：

经过多次抽取以抽取共性信息，并从中选取关键信息，所述关键信息包括任务类型、物资种类、物资名称、存放地点、使用时间、所属单位；

使用所选取的关键信息生成物资样本数据。

3.根据权利要求1所述的物资匹配替换方法，其特征在于，所述对所得到的物资样本数据进行文本标注，以构建数据集，包括：

根据不同物资任务，设置多种基础标签，并使用所述多种基础标签对所得到的物资样本数据进行多种文本标注，所述多种文本标注包括物资实体标注、关系标注、事件抽取标注、文本类别标注。

4.根据权利要求1所述的物资匹配替换方法，其特征在于，所述在预训练网络的基础上，使用所构建的数据集进行增强训练，得到物资信息抽取模型，以用于自动抽取关键信息，包括：

通过特征提取算法，在预训练网络的基础上，使用所构建的数据集进行增强训练，得到物资信息抽取模型；

将包含物资任务的一段文本段输入训练好的物资信息抽取模型，则自动进行关键信息抽取，并输出与所述当前物资任务相对应的各实体、实体关系、事件的关键信息。

5.根据权利要求3所述的物资匹配替换方法，其特征在于，包括：

构建多种可扩展的规则库，所述多种可扩展的规则库包括种类库、名称库、任务库、组织库；

通过所构建的规则库，进行实体标注和权重赋值，以构建命名实体识别模型来识别当前物资任务的文本段中的实体。

6.根据权利要求1所述的物资匹配替换方法，其特征在于，包括：

按照指定检索表达式在物资库中进行检索，确定符合当前物资任务的物资子集。

7.根据权利要求6所述的物资匹配替换方法，其特征在于，进一步包括：

根据与原物资的特征参数的相似度、与当前物资任务的匹配度，对所确定的物资子集中替换物资进行排序以进一步筛选出最优匹配的替换物资。

8.一种基于知识图谱的物资匹配替换装置，其特征在于，包括：

抽取分析模块，用于对不同来源的各种物资的异构数据进行抽取和分析，确定关键信息，得到物资样本数据，所述物资样本数据包含物资实体、实体属性和实体关系；

数据集构建模块，用于对所得到的物资样本数据进行多种文本标注，以构建数据集；

自动抽取模块，在预训练网络的基础上，使用所构建的数据集进行增强训练，得到物资信息抽取模型，以用于自动抽取关键信息；

构建模块，使用所述物资信息抽取模型对物资各种多源异构数据的抽取和分析，根据分析结果的属性值构建物资的概念实体、物资实体关系，以构建物资知识图谱；

识别确定模块，根据预构建的命名实体识别模型，识别当前物资任务中的各实体，以确定原物资的特征参数；

第一确定模块，根据所构建的物资知识图谱，使用所确定的原物资的特征参数，确定物资子集；

第二确定模块，确定物资子集中的替换物资与原物资的特征参数的相似度以及与所述当前物资任务的匹配度，以确定所述物资子集中最合适的替换物资，其中，所述确定物资子集中的替换物资与所述当前物资任务的匹配度，包括：