CN114817576B

CN114817576B - 模型训练及专利知识图谱补全方法、装置及存储介质

Info

Publication number: CN114817576B
Application number: CN202210738354.0A
Authority: CN
Inventors: 杜军平; 王宇晖; 邵蓥侠; 薛哲; 李昂
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-11-18
Anticipated expiration: 2042-06-28
Also published as: CN114817576A

Abstract

本发明提供一种模型训练及专利知识图谱补全方法、装置及存储介质，该方法包括：获取包含目标补全类型实体的训练专利文本集合；识别并抽取每个训练专利文本中的所有实体，筛选出词频超过阈值的识别并抽取到的实体构成候选实体集合；将所述训练专利文本集合作为实体训练数据集，将所述候选实体集合中的每个实体作为一个分类标签；若专利文本与实体为一一对应关系，则使用Sigmoid函数来归一化分类标签，使用二元交叉熵作为损失函数，进行多分类任务训练以获得专利知识图谱补全模型；若非一一对应关系，则使用Softmax函数来归一化分类标签，交叉熵作为损失函数，进行多标签分类任务训练以获得专利知识图谱补全模型。本发明能够准确、高效的专利知识图谱补全。

Description

模型训练及专利知识图谱补全方法、装置及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种模型训练及专利知识图谱补全方法、装置及存储介质。

背景技术

专利作为研究成果与技术创新的最主要的信息载体与知识来源，是知识产权分析的主要对象。随着科学技术的快速发展与技术迭代速度的加快，专利的数量也爆炸性增长。对以专利为主的知识产权资源进行分析和挖掘，从大量专利数据中挖掘到技术概念、技术的应用领域等信息，进而掌握技术的发展状况与趋势，有助于企业识别技术机会、抢占市场先机、调整权利要求提高授权机会，提升企业核心竞争力。

专利知识图谱，是基于专利资源库将非结构化的专利文本数据转化为 “头实体-关系-尾实体”或“实体-关系-实体”的三元组形式的结构化表达方式，有效组织专利中的高密度技术信息，增强对专利间深层语义关系的挖掘，寻找专利的技术特征及发展规律。

专利知识图谱包括申请人信息、科技概念、应用方向等实体以及实体间的相互关联关系。实体间的相互关联关系通常包括申请人实体间的关系，科技概念实体间的关系，应用方向实体间的关系等。

但由于专利写作格式和申请人撰写思路的差异，并非所有专利都会明确表明领域、应用方向等实体，导致专利知识图谱中关键实体的缺失。现有技术利用专利知识图谱的图结构信息，生成三元组的特征表示，将所有可能的“头实体-关系-尾实体”组合形成候选三元组几何，计算每个三元组的得分，根据得分获得补全的实体，但此方法未利用到专利文本包含的语义信息，可能导致错误的实体或实体关系带来的异常信息在补全过程中扩散。

为此，如何提供一种准确、高效的专利知识图谱补全方法或装置，是一个亟待解决的问题。

发明内容

鉴于此，本发明实施例提供了一种模型训练及专利知识图谱补全方法、装置及存储介质，以消除或改善现有技术中存在的一个或更多个缺陷。

本发明的一个方面提供了一种专利知识图谱补全模型训练方法，该方法包括以下步骤：

获取包含目标补全类型实体的训练专利文本集合；

依据专利文本与目标补全类型的实体的对应关系，识别并抽取每个训练专利文本中的所有目标补全类型的实体，筛选出词频超过阈值的识别并抽取到的实体构成候选实体集合；

将所述训练专利文本集合作为实体训练数据集，将所述候选实体集合中的每个实体作为一个分类标签；

若专利文本与目标补全类型的实体为一一对应关系，则使用Sigmoid函数来归一化分类标签，使用二元交叉熵作为损失函数，进行多分类任务训练以获得专利知识图谱补全模型；

若专利文本与目标补全类型的实体非一一对应关系，则使用Softmax函数来归一化分类标签，使用交叉熵作为损失函数，进行多标签分类任务训练以获得专利知识图谱补全模型。

在本发明的一些实施例中，所述专利文本与目标补全类型的实体为一一对应关系的情况下，所述实体的类型包括应用方向实体；所述专利文本与目标补全类型的实体非一一对应关系的情况下，所述实体的类型包括领域实体。

在本发明的一些实施例中，在所述专利文本与目标补全类型的实体非一一对应关系的情况下，该方法还包括使用正则表达式和同义词词表进行同义词融合。

在本发明的一些实施例中，该方法还包括使用BERT语言模型对目标补全类型的实体进行向量化处理，对向量化处理后的目标补全类型的实体使用近邻传播聚类方法将相近的实体聚合为一个聚类实体，所述聚类实体构成候选实体集合，使用所述候选实体集合中的每个聚类实体作为一个分类标签，进行多标签分类任务训练。

在本发明的一些实施例中，使用二元交叉熵的损失函数用公式表示为：

；

其中，

表示训练专利文本集合中训练专利文本的数量，

是候选实体集合中实体类别的数量，

为专利i对于实体类别j的真值，如果实体类别

与专利

的类别标签相同，则值为1，否则值为0，

表示专利

被模型预测属于类别

的概率。

在本发明的一些实施例中，使用交叉熵的损失函数用公式表示为：

；

其中，

表示训练专利文本集合中训练专利文本的数量，

是候选实体集合中实体类别的数量，

为专利i对于实体类别j的真值，如果实体类别

与专利

的类别标签相同，则值为1，否则值为0，

表示专利

被模型预测属于类别

的概率。

本发明的另一方面提供了一种专利知识图谱补全方法，该方法包括以下步骤；

将待补全知识图谱的专利文本输入到专利知识图谱补全模型中作为测试数据；

基于专利知识图谱补全模型中的所有分类标签，若专利文本与目标补全类型的实体为一一对应关系，则使用Sigmoid函数来归一化分类标签，使用二元交叉熵作为损失函数，进行多分类任务以输出专利知识图谱的补全实体；

基于专利知识图谱补全模型中的所有分类标签，若专利文本与目标补全类型的实体非一一对应关系，则使用Softmax函数来归一化分类标签，使用交叉熵作为损失函数，进行多标签分类任务以输出专利知识图谱的补全实体。

本发明的另一方面提供了一种专利知识图谱补全装置，该装置包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现上述任一项方法的步骤。

本发明的另一方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现上述任一项方法的步骤。

本发明的模型训练及专利知识图谱补全方法，能够，准确、高效的针对性补全专利知识图谱中所缺失的部分。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例中专利知识图谱示意图。

图2为本发明一实施例中专利知识图谱补全模型训练方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

专利知识图谱，是基于专利资源库将非结构化的专利文本数据转化为 “头实体-关系-尾实体”三元组形式的结构化表达方式，有效组织专利中的高密度技术信息，增强对专利间深层语义关系的挖掘，寻找专利的技术特征及发展规律。图1为本发明一实施例中专利知识图谱示意图。图中方框中内容为实体，箭头为关系，箭头起始端方框为头实体，箭头末端方框为尾实体，箭头为头实体和尾实体的关系，专利知识图谱就是基于“头实体-关系-尾实体”三元组的方式来描述知识产权领域内的知识结构及之间的关系。在对专利文本进行实体抽取后，可以得到由大量的实体和关系构成的知识，但是由于专利写作格式和申请人撰写思路的差异导致部分关键实体的缺失，因而相对应的专利知识图谱的完成度较低，例如在专利文本的摘要信息中，有超过一般的专利在摘要中未明确指出所涉及的领域。通常三元组中的头实体和尾实体可统称为实体，图1中示出了通常的专利知识图谱中的实体，列举如下：①专利元数据，如标题、摘要和申请日期等；②应用方向，如故障诊断、标识识别等；③所属领域，如人工智能、图像处理和模式识别等；④申请人，如高校、企业和事业单位等；⑤材料，如氧气、氦和浓硫酸等；⑥技术术语，如卷积神经网络、永磁同步电机和激活函数等；⑦数据源，如图像数据、音频数据；⑧功效词，如准确率、鲁棒性和可靠性等；⑨专题，如汽车工业、公路与水路运输等。图1中同时列举出了专利知识图谱中的实体之间的关系，即三元组“头实体-关系-尾实体”中的关系，例如，专利元数据与材料的使用关系，专利元数据与数据源的采集关系，专利元数据与应用方向的应用关系等，专利元数据与申请人的属于关系。

本发明的目的是为了补全专利知识图谱中的实体，为此，本发明提供了一种专利知识图谱补全模型训练方法，图2为本发明一实施例中专利知识图谱补全模型训练方法流程图，该方法包括以下步骤：

S100：获取包含目标补全类型实体的训练专利文本集合。

S200：依据专利文本与目标补全类型的实体的对应关系，识别并抽取每个训练专利文本中的所有目标补全类型的实体，筛选出词频超过阈值的识别并抽取到的实体构成候选实体集合。

在本发明一实施例中，使用BiLSTM-CRF（Bidirectional Long Short-TermMemory with a Conditional Random Field）方法来识别并抽取每个训练专利文本中的所有目标补全类型的实体。

对于识别并抽取每个训练专利文本中的所有目标补全类型的实体步骤，可以从专利文本的标题可以得到一个比较明确的应用方向实体，从专利的说明书摘要中可以抽取出一组专利涉及的领域实体、一组描述其技术实现的技术术语实体和一组功效实体描述专利应用后带来的有益效果。

S300：将所述训练专利文本集合作为实体训练数据集，将所述候选实体集合中的每个实体作为一个分类标签。需要说明的是，在步骤S410和S420中，分类标签和实体训练数据集为多分类任务或多标签分类任务中必要的输入数据，其中分类标签需要经过归一化。

S410：若专利文本与目标补全类型的实体为一一对应关系，则使用Sigmoid函数来归一化分类标签，使用二元交叉熵作为损失函数，进行多分类任务训练以获得专利知识图谱补全模型。基于Sigmoid函数来归一化分类标签，将所有标签的概率映射到[0，1]之间，各个分类标签的概率之间没有影响。

在本发明一实施例中，专利文本与目标补全类型的实体为一一对应关系的情况下，所述实体的类型包括应用方向实体。该实体的类型仅为示例，本发明不局限于此，还可以是专题实体等。

在本发明一实施例中，使用二元交叉熵的损失函数用公式表示为：

；

其中，

表示训练专利文本集合中训练专利文本的数量，

是候选实体集合中实体类别的数量，

为专利i对于实体类别j的真值，如果实体类别

与专利

的类别标签相同，则值为1，否则值为0。

表示专利

被模型预测属于类别

的概率。

S420：若专利文本与目标补全类型的实体非一一对应关系，则使用Softmax函数来归一化分类标签，使用交叉熵作为损失函数，进行多标签分类任务训练以获得专利知识图谱补全模型。使用Softmax函数来归一化分类标签概率，所有分类标签的输出概率的总和为1，形成互斥的分类标签的输出概率分布。

在本发明一实施例中，专利文本与目标补全类型的实体非一一对应关系的情况下，所述实体的类型包括领域实体。该实体的类型仅为示例，本发明不局限于此，还可以是材料实体、技术术语实体等。

在本发明一实施例中，使用交叉熵的损失函数用公式表示为：

；

其中，

表示训练专利文本集合中训练专利文本的数量，

是候选实体集合中实体类别的数量，

为专利i对于实体类别j的真值，如果实体类别

与专利

的类别标签相同，则值为1，否则值为0。

表示专利

被模型预测属于类别

的概率。

本发明提供的专利知识图谱补全模型，基于大量完好的专利文本，即具有目标补全实体类型的专利文本作为训练数据，通过深度学习模型的搭建，对缺失实体的文本进行实体补全。基于文本语义中的专利文本和关系类型预测实体，通过三元组“头实体-关系-尾实体”的结构，推测其中缺失的头实体或尾实体，例如，将给出的专利和关系类型分类到具有相同尾实体的头实体关系集合中便可以确定预测实体类型。基于本发明提供的方法，能够最大程度上利用到专利文本的语义信息，避免错误识别的实体关系三元组带来的异常信息在实体不去哪过程中扩散。

在本发明一实施例中，在所述专利文本与目标补全类型的实体非一一对应关系的情况下，该方法还包括使用正则表达式和同义词词表进行同义词融合。对实体使用正则表达式进行同义词融合以融合文本语义相近的同义词，例如“自动辅助驾驶”和“汽车自动驾驶辅助”，两个词在语义上非常接近，因此可以融合为“自动辅助驾驶”一个词。使用同义词词表进行同义词融合以融合文本差异较大的同义词，例如“轨迹规划”和“参考路线生成”两个词语义上差距较大，使用同义词词表来将两个词融合为“轨迹规划”一个词。需要说明的是，在特定场景下，选择正则表达式和同义词词表中的一种或多种进行同义词融合，本领域技术人员可依据具体场景来选择。

在本发明一实施例中，该专利知识图谱补全模型训练方法还包括使用BERT语言模型对目标类型的实体进行向量化处理，对向量化处理后的目标补全类型的实体使用近邻传播聚类方法（ Affinity Propagation Clustering，AP聚类）将相近的实体聚合为一个聚类实体，所述聚类实体构成候选实体集合，使用所述候选实体集合中的每个聚类实体作为一个分类标签，进行多标签分类任务训练。例如，对于应用方向实体，在BERT语言模型中词语形式的专利知识图谱实体被向量化，使用AP聚类方法将多个相似的应用方向实体向量化，以聚类后的聚类中心词为标签，进行多分类任务训练以获得专利知识图谱补全模型。

本发明提供的专利知识图谱补全模型训练方法，能够基于完整的专利文本进行训练，训练完成的专利知识图谱补全模型能够对于缺少关键实体的专利文本进行专利知识图谱的补全。

本发明还提供了一种专利知识图谱补全方法，基于上述任一项实施例中的专利知识图谱补全模型训练方法，进行专利知识图谱的补全，该方法包括以下步骤：

将待补全知识图谱的专利文本输入到专利知识图谱补全模型中作为测试数据。

基于专利知识图谱补全模型中的所有分类标签，若专利文本与目标补全类型的实体为一一对应关系，则使用Sigmoid函数来归一化分类标签，使用二元交叉熵作为损失函数，进行多分类任务以输出专利知识图谱的补全实体。

在本发明一实施例中，所述专利文本与目标补全类型的实体为一一对应关系的情况下，所述实体的类型包括应用方向实体；专利文本与目标补全类型的实体非一一对应关系的情况下，所述实体的类型包括领域实体。但上述实体仅为示例，本发明并不局限于此，例如非一一对应关系还可以是申请人实体、技术术语实体等。

在本发明提供的方法中，由于具有相同实体的专利，其专利摘要文本内容应比较相似，因此采用基于专利文本分类的方法，即对专利文本进行多分类任务或多标签分类任务，以实体作为标签，以具有相同实体关系的专利训练专利知识图谱补全模型，实现专利知识图谱的补全。资源画像中的实体与关系均来自于与专利文本中抽取的知识产权实体，同时保留下最完整的语义信息，避免错误识别的实体关系三元组带来的异常信息在实体补全过程中扩散。

下面，通过两个具体的实施例来阐述专利知识图谱补全模型的训练以及基于此模型的专利知识图谱补全过程。

具体实施例1：对于专利知识图谱应用方向实体的补全，专利文本与应用方向实体为一一对应关系。

1）输入专利文本集合

，本发明实施例中，输入14198条自动驾驶相关的专利标题和摘要。

需要说明的是，输入的专利文本的内容不局限于此，例如还可以涵盖说明书，但会提高复杂度，对于模型训练造成困难。

2）基于知识产权实体识别方法，识别并抽取每个专利文本中的应用方向实体，基于现有的实体识别方法加入专利的数据进行训练即可得到知识产权实体识别方法，本发明实施例中使用的是BiLSTM-CRF（Bidirectional Long Short-Term Memory with aConditional Random Field），筛选词频超过10的实体，得到候选实体集合，包含288个应用方向实体。

在实体识别过程中必然会出现错误识别的异常实体，这些异常实体通常不会以相同的形式多次出现，通过筛选词频即可过滤掉少次出现的错误识别的异常实体，避免异常实体通过补全在数据集中扩散。

3）将专利文本集合P作为实体训练数据集，将候选实体集合中的每个应用方向实体作为一个分类标签。

4）使用Sigmoid函数来归一化分类标签，将所有标签的概率映射到[0，1]之间，各个分类标签的概率之间没有影响。使用二元交叉熵作为损失函数，其公式表示为：

；

其中，

表示训练专利文本集合中训练专利文本的数量，

是候选实体集合中实体类别的数量，

为专利i对于实体类别j的真值，如果实体类别

与专利

的类别标签相同，则值为1，否则值为0，

表示专利

被模型预测属于类别

的概率。

基于实体训练数据集和归一化之后的分类标签，进行多分类任务训练以获得专利知识图谱补全模型。

5）将待补全的专利文本输入到训练好的专利知识图谱补全模型中，该模型基于所有的分类标签，及内部的“实体-关系-实体”三元组知识图谱结构，使用Sigmoid函数来归一化分类标签，使用二元交叉熵作为损失函数，进行多分类任务以输出分类标签，输出的分类标签即为补全的专利知识图谱实体。

具体实施例2：对于专利图谱领域实体的补全，专利文本与领域实体非一一对应关系，即一个专利文本对应着一个或多个领域实体。

1）输入专利文本集合

2）基于知识产权实体识别方法，识别并抽取每个专利文本中的领域实体，基于现有的实体识别方法加入专利的数据进行训练即可得到知识产权实体识别方法，本发明实施例中使用的是BiLSTM-CRF（Bidirectional Long Short-Term Memory with aConditional Random Field），筛选词频超过10的实体，得到候选实体集合，包含40个领域实体。

3）将专利文本集合P作为实体训练数据集，将候选实体集合中的每个领域实体作为一个分类标签。

4）使用Softmax函数来归一化分类标签，所有分类标签的输出概率的总和为1，形成互斥的分类标签的输出概率分布。使用交叉熵作为损失函数，其公式表示为：

；

其中，

表示训练专利文本集合中训练专利文本的数量，

是候选实体集合中实体类别的数量，

为专利i对于实体类别j的真值，如果实体类别

与专利

的类别标签相同，则值为1，否则值为0，

表示专利

被模型预测属于类别

的概率。

基于实体训练数据集和归一化之后的分类标签，进行多标签分类任务训练以获得专利知识图谱补全模型。

可选的多标签分类算法有ML-KNN（Multi-label K-Nearest Neighbor）、ML-DT（Machine Learning- Digital Twins）、CML（Chronic myelogenous leukemia）等。

5）将待补全的专利文本输入到训练好的专利知识图谱补全模型中，该模型基于所有的分类标签，及内部的“实体-关系-实体”三元组知识图谱结构，使用Softmax函数来归一化分类标签，使用交叉熵作为损失函数，进行多分类任务以输出分类标签，输出的分类标签即为补全的专利知识图谱实体。

本发明提供的专利知识图谱补全模型训练方法和专利知识图谱补全方法，能够实现专利知识图谱的高效、精准的补全，节省了专利知识图谱生成过程中的人工投入。

与上述方法相应地，本发明还提供了一种专利知识图谱补全装置，该装置包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路（ASIC）、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种专利知识图谱补全模型训练方法，其特征在于，该方法包括以下步骤：

获取包含目标补全类型实体的训练专利文本集合；

2.根据权利要求1所述的方法，其特征在于，所述专利文本与目标补全类型的实体为一一对应关系的情况下，所述实体的类型包括应用方向实体；

所述专利文本与目标补全类型的实体非一一对应关系的情况下，所述实体的类型包括领域实体。

3.根据权利要求1所述的方法，其特征在于，在所述专利文本与目标补全类型的实体非一一对应关系的情况下，该方法还包括使用正则表达式和同义词词表进行同义词融合。

4.根据权利要求1所述的方法，其特征在于，该方法还包括使用BERT语言模型对目标补全类型的实体进行向量化处理，对向量化处理后的目标补全类型的实体使用近邻传播聚类方法将相近的实体聚合为一个聚类实体，所述聚类实体构成候选实体集合，使用所述候选实体集合中的每个聚类实体作为一个分类标签，进行多标签分类任务训练。

5.根据权利要求1所述的方法，其特征在于，使用二元交叉熵的损失函数用公式表示为：