CN117172323B

CN117172323B - 一种基于特征对齐的专利多领域知识抽取方法及系统

Info

Publication number: CN117172323B
Application number: CN202311445583.4A
Authority: CN
Inventors: 徐青伟; 谢鑫; 严长春; 裴非; 范娥媚
Original assignee: Zhiguagua Tianjin Big Data Technology Co ltd
Current assignee: Beijing Xinghe Zhiyuan Technology Co ltd
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-01-23
Anticipated expiration: 2043-11-02
Also published as: CN117172323A

Abstract

本申请公开了一种基于特征对齐的专利多领域知识抽取方法及系统，方法包括模型训练以及模型应用两个部分，其中模型训练部分具体包括领域及任务配置、模型设计、执行训练、特征映射四个过程。方法具体以专利IPC分类为基础划分领域，有针对性的选择源领域、目标领域及其对应的源任务、目标任务，设计基于深度学习的特征表示任务模型结合特征对齐、特征映射机制，结合辅助微调下游任务强化各任务间的特征表示，将源域上的标注数据特征迁移到目标域上的目标任务特征，以无监督的方式实现了目标域上无需标注数据的专利知识的精准高效抽取。

Description

一种基于特征对齐的专利多领域知识抽取方法及系统

技术领域

本申请涉及计算机技术领域，具体涉及自然语言处理和深度学习领域，尤其涉及一种基于特征对齐的专利多领域知识抽取方法及系统。

背景技术

随着我国科学技术的持续进步，我国专利申请受理量已经多年位居世界第一。国际专利分类法(International Patent Classification，IPC) 是目前惟一国际通用的专利文献分类和检索工具，其分类的主要依据是专利所属的技术领域主题，包括部、大类、小类、大组和小组共5个层级的分类。专利文档中记录的不同领域中的各种问题存在相似性，它们最终的解决方式也往往是相通的，即在面临一个特定领域的新问题时，设计人员可通过从其他领域中寻找利用相同的原理方法来解决类似问题的案例，从而激发创新灵感。然而传统的基于技术领域的知识抽取方式限制了跨学科、跨领域专利知识的获取。现有的专利领域的知识抽取一般通过无监督的领域词表、通用命名实体识别的方式实现，普遍存在新词和专业术语识别能力不足、领域知识抽取不准的缺陷。有监督的模型需要各领域的大量标记数据进行训练，而专利涵盖的领域众多，人工标注费事费力，导致经济成本和时间成本的现实可行性困难。因此，如何针对专利多领域的特定文本特点，融合深度学习的自然语言处理能力，面对专利领域无监督知识抽取效果欠佳和有监督模型对标注数据的需求之间的矛盾，如何实现精准高效的专利知识抽取已经成为目前的一项重要研究内容。

目前常见的知识抽取模型一般针对通用领域设计，应用于专利领域时，由于专业术语、应用领域、语用场景的不同，以专利为代表的专业文本中蕴含了大量的字面、语法和语义信息，如专业词汇、语义相似度、篇章结构关系等，同时专利领域的多样性问题引起的文本特征分布差异性大，导致通用知识抽取模型存在多领域适配性差的问题，目前尚缺少有效的针对专利多领域的自动知识抽取模型。

发明内容

本申请提供一种基于特征对齐的专利多领域知识抽取方法及系统，旨在解决现有技术知识抽取模型多领域适配性差的问题。

第一方面，一种基于特征对齐的专利多领域知识抽取方法，所述方法包括模型训练阶段以及模型应用阶段；

在所述模型训练阶段中包括S1领域及任务配置、S2模型设计、S3执行训练、S4特征映射四个步骤，其具体包括：

S1领域及任务配置，获取进行专利多领域知识抽取的全部专利文本，以全部专利文本为基础，通过IPC分类对应的领域进行划分，根据专利数据选择源域和目标域，并设计源任务和辅助任务；保存并生成领域信息以及任务配置信息，作为后继模型训练输入；

S2模型设计，基于生成的领域及任务配置信息，分别设计源任务和目标任务的模型架构、辅助任务模型输出层结构以及源任务到目标任务模型特征的特征映射神经网络结构；

S3执行训练，分别针对选定的源任务和目标任务准备源域和目标域上的训练数据，对源域上的源任务和目标任务、目标域上的源任务执行模型训练，在训练过程中加入了特征对齐和辅助任务微调；

S4特征映射，利用源域上的训练数据对源任务模型特征到目标任务模型特征的特征映射神经网络执行有监督的训练；

在所述模型应用阶段中，具体包括通过特征映射生成目标域上目标任务的模型特征，进而通过目标任务模型实现知识推理，将输出的知识存储到知识库。

可选地，所述S1领域及任务配置包括：

S11，获取进行专利多领域知识抽取的全部专利文本，以全部专利文本为基础，将专利按照IPC分类体系中的技术领域进行划分，选择具有标注数据的领域作为源域，在目标任务下无标注数据的待抽取知识所属的领域作为目标域；其中，将A、B分别表示选取的源域和目标域；源域和目标域下的专利文本将作为后续模型训练过程的输入数据，用X^A、X^B分别表示源域中的专利文本和目标域中的专利文本，分别表征源域上的输入数据和目标域上的输入数据；

S12，选择与目标任务相近的任务作为源任务，其中，目标任务至少包括专利知识抽取任务；用T₁和T₂分别表示源任务和目标任务，表示源域输入数据X^A在源任务上的真实结果，/>表示目标域输入数据X^B在源任务上的真实结果，/>表示源域输入数据X^A在目标任务上的真实结果；

S13，选择与源任务和目标任务共同关联的任务作为辅助任务，并利用T_aux表示辅助任务，、/>分别表示辅助任务在源域和目标域输入数据下的真实结果。

可选地，所述S2模型设计具体包括：

S21，根据源任务的配置信息设计源任务的模型架构；对于源任务IPC分类，选用BERT+Softmax模型架构，BERT模型作为编码层用于实现文本编码，Softmax分类器作为输出层，根据BERT模型输出的CLS编码向量实现专利分类；其中，利用E₁表示源任务的编码层，D₁表示源任务的输出层；

S22，根据目标任务的配置信息设计目标任务的模型架构；对于目标任务知识抽取，选用BERT+CRF模型架构，BERT模型作为编码层，以序列标注的方式输出编码结果，CRF模型作为输出层，通过概率无向图结构对BERT输出的编码向量进行综合计算，输出知识标记结果；其中，利用E₂表示目标任务的编码层，D₂表示目标任务的输出层；

S23，根据辅助任务的配置信息设计辅助任务的模型输出层结构；对于辅助任务摘要生成，选用Transformer的Decoder部分作为辅助任务模型的输出层，根据源任务和目标任务中BERT编码层的输出特征生成专利摘要；其中，利用D_aux表示辅助任务的输出层；

S24，根据源任务和目标任务模型编码层的输出特征形式确定特征映射神经网络的结构；通过使用双向LSTM神经网络实现源任务编码层输出特征到目标任务编码层输出特征的映射；其中，利用G_1→2表示源任务到目标任务的特征映射神经网络。

可选地，所述S3执行训练具体包括：

S31根据源任务及其模型结构确定源任务模型训练的损失函数L_T1；具体选取多分类交叉熵损失函数作为源任务IPC分类的损失函数；

对于源任务，使用源任务在源域上的标注数据和源任务在目标域上的标注数据/>共同对源任务模型进行有监督的训练；在执行源任务时，先计算源任务在源域中编码层的输出特征/>和源任务在目标域中编码层的输出特征/>，然后计算源任务在源域中的预测结果/>和源任务在目标域中的预测结果，最后通过预测结果和真实结果对第一损失函数Loss₁进行计算，具体计算方式为：

；

S32，根据目标任务及其模型结构确定目标任务模型训练的损失函数L_T2；具体选取负对数似然作为目标任务知识抽取的损失函数；

对于目标任务，使用目标任务在源域上的标注数据执行目标任务模型的有监督训练，先计算目标任务在源域中编码层的输出特征/>，然后计算目标任务在源域中的预测结果/>，最后通过预测结果和真实结果对第二损失函数Loss₂进行计算，具体计算方式为：

；

S33，通过最小化范数差异比对损失函数L_NDA来对不同域下的特征加以约束；其中，当BERT编码器E₁、E₂输出的特征序列长度为n，将源任务在源域和目标域中的输出特征分别表示为和/>，其中/>、/>分别为输出特征序列中第i时刻的特征，i=1，...，n；通过NDA损失函数计算源任务在源域和目标域中输出特征的差异，作为第三损失函数Loss₃，具体计算方式为：

；

S34，在模型训练中引入辅助任务T_aux，在训练时对输出层D₁、D₂、D_aux共同执行训练；根据辅助任务及其模型结构确定辅助任务输出层训练的损失函数L_aux，选取交叉熵损失函数作为辅助任务摘要生成的损失函数；通过

，/>，/>计算得到辅助任务基于特征/>的预测结果/> ，根据预测结果和真实结果计算辅助任务微调过程的损失函数，作为第四损失函数Loss₄，具体计算方式为：

；

S35将所得到的四部分损失函数的计算结果相加，得到模型训练过程的整体损失函数Loss=Loss₁+Loss₂+Loss₃+Loss₄；并以损失函数Loss作为优化目标执行模型训练，通过随机梯度下降法最小化损失函数，得到模型训练结果。

可选地，所述S4特征映射具体包括：

使用源域上的输入数据X^A以及上述执行训练步骤训练好的模型计算源任务在源域中的输出特征和目标任务在源域中的输出特征/>，/>，/>；然后通过特征映射网络计算映射得到的目标任务模型特征/>，/>；利用二范数损失函数L₂-Loss计算映射得到的特征与实际目标任务输出特征之间的差异，具体计算方式为/>；最后，执行有监督的特征映射神经网络训练，通过随机梯度下降法最小化二范数损失函数，得到训练好的特征映射神经网络。

可选地，所述模型应用阶段具体包括：

特征生成，通过特征映射将目标域上源任务的输出特征转化为目标任务的模型特征，该特征用于目标域上目标任务的求解；

使用目标域上的标注样本X^B以及执行训练步骤得到的源任务编码层计算源任务在目标域中的输出特征，/>，然后利用特征映射步骤训练得到的特征映射神经网络G_1→2生成目标域上目标任务的模型特征/>，/>；

知识推理，利用目标任务模型特征和目标任务模型的输出层对目标任务执行推理过程，得到知识抽取结果。

可选地，所述知识推理具体过程包括使用特征生成操作得到的目标域上目标任务的模型特征，通过执行训练步骤得到的目标任务输出层计算目标域上目标任务的输出结果/>，/>，/>即为目标域中专利文本的知识抽取结果。

第二方面，一种基于特征对齐的专利多领域知识抽取系统，所述系统包括模型训练模块以及模型应用模块；

在所述模型训练模块中包括领域及任务配置子模块、模型设计子模块、执行训练子模块、特征映射子模块，其具体包括：

任务配置子模块，用于获取进行专利多领域知识抽取的全部专利文本，以全部专利文本为基础，通过IPC分类对应的领域进行划分，根据专利数据选择源域和目标域，并设计源任务和辅助任务；保存并生成领域信息以及任务配置信息，作为后继模型训练输入；

模型设计子模块，用于基于生成的领域及任务配置信息，分别设计源任务和目标任务的模型架构、辅助任务模型输出层结构以及源任务到目标任务模型特征的特征映射神经网络结构；

执行训练子模块，用于分别针对选定的源任务和目标任务准备源域和目标域上的训练数据，对源域上的源任务和目标任务、目标域上的源任务执行模型训练，在训练过程中加入了特征对齐和辅助任务微调；

特征映射子模块，用于利用源域上的训练数据对源任务模型特征到目标任务模型特征的特征映射神经网络执行有监督的训练；

在所述模型应用模块中，具体包括通过特征映射生成目标域上目标任务的模型特征，进而通过目标任务模型实现知识推理，将输出的知识存储到知识库。

第三方面，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述第一方面任一所述的基于特征对齐的专利多领域知识抽取方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任一所述的基于特征对齐的专利多领域知识抽取方法。

相比现有技术，本申请至少具有以下有益效果：

本申请通过源领域、目标领域上源任务、目标任务特征间的映射和对齐，实现了目标域上无需标注数据的专利知识抽取，有效解决了现有的无监督模型准确率低和有监督模型缺乏标注数据的难题，实现了精准高效的多领域专利知识自动抽取。该方法只需要源域上有限的标注数据，无需众多目标域上的标注数据，在保证现有模型准确率的情况下，有效减少了大量标注数据的经济成本和时间成本。

附图说明

图1为本申请实施例提供的整体流程图；

图2为本申请实施例提供的特征迁移框架；

图3为本申请实施例提供的整体模型训练框架；

图4为本申请实施例提供的特征映射模型训练框架；

图5为本申请实施例提供的模型应用框架；

图6为本申请一个实施例提供的基于特征对齐的专利多领域知识抽取系统的模块架构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请的描述中：术语“包括”、“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包括了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已明确列出的那些步骤或单元，而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元，或者基于本发明构思进一步的优化方案所增加的步骤或单元。

针对专利多领域的精准高效的自动知识问题，本发明提供了一种基于特征对齐的专利多领域知识抽取方法，以IPC分类划分的领域专利文本为基础构建多领域训练语料，设计基于深度学习的命名实体识别（NER）模型实现专利知识抽取任务，通过专利辅助任务（摘要生成），通过领域间特征对齐、任务间辅助训练的方式训练目标领域中目标任务的模式，实现专利多领域知识抽取。其中，源领域为的知识抽取任务通过有标注的监督模型实现，目标领域的知识抽取为无监督的模式实现。源领域中源任务和目标任务在有标签数据集上执行有监督的模型训练。目标领域中的源任务在有标签数据集上执行有监督的模型训练，目标领域中的目标任务在无标签的数据集上执行无监督的模型训练。

在一个实施例中，如图1所示，提供了一种基于特征对齐的专利多领域知识抽取方法，该方法可以应用于服务器中，方法包括模型训练阶段以及模型应用阶段；在所述模型训练阶段中包括S1领域及任务配置、S2模型设计、S3执行训练、S4特征映射四个步骤，其具体包括：

S1领域及任务配置，获取进行专利多领域知识抽取的全部专利文本，以全部专利文本为基础，通过IPC分类对应的领域进行划分，根据专利数据选择源域和目标域，并设计源任务和辅助任务；保存并生成领域信息以及任务配置信息，作为后继模型训练输入。

在本申请实施例中，领域及任务配置包括S11源域和目标域选取、S12源任务和目标任务设计以及S13辅助任务设计这三部分操作。源域和目标域选取阶段输出源域和目标域的领域配置信息，源任务设计阶段输出源任务的配置信息和目标任务的配置信息，辅助任务设计阶段输出辅助任务的配置信息。

S11源域和目标域选取，以全部专利文本为基础，将专利按照IPC分类体系中的技术领域进行划分，选择具有标注数据的领域作为源域，在目标任务下无标注数据的待抽取知识所属的领域作为目标域，用A、B分别表示选取的源域和目标域。源域和目标域下的专利文本将作为后续模型训练过程的输入数据，用X^A、X^B分别表示源域中的专利文本和目标域中的专利文本，后面将X^A和X^B分别称作源域上的输入数据和目标域上的输入数据。

S12源任务和目标任务设计，选择与目标任务（专利知识抽取）相近的任务作为源任务，这里源任务的选择需要确保在源域和目标域上执行源任务时无需人工标注数据。用T₁和T₂分别表示源任务和目标任务，表示源域输入数据X^A在源任务上的真实结果，/>表示目标域输入数据X^B在源任务上的真实结果，/>表示源域输入数据X^A在目标任务上的真实结果；

S13辅助任务设计，选择与源任务和目标任务共同关联的任务作为辅助任务，这里辅助任务的设置是为了对源任务所生成的特征加以扩充，使提取出的特征更加丰富，有助于实现不同任务下的特征对齐。用T_aux表示辅助任务，、/>分别表示辅助任务在源域和目标域输入数据下的真实结果。

本申请选取中医药领域和化学领域分别作为源域和目标域，选取IPC分类任务作为源任务，由于每个专利都有对应的分类号，源任务在源域和目标域上可视为有标注数据。考虑到摘要生成任务无需人工标注数据，且该任务与IPC分类任务和知识抽取任务均存在一定的关联性，本申请将摘要生成作为辅助任务参与模型训练。

S2模型设计，基于生成的领域及任务配置信息，分别设计源任务和目标任务的模型架构、辅助任务模型输出层结构以及源任务到目标任务模型特征的特征映射神经网络结构。

在本申请实施例中，模型设计包括S21源任务模型架构设计、S22目标任务模型架构设计、S13辅助任务模型输出层设计和S24特征映射神经网络结构设计这四部分操作，这里的模型架构包含编码层和输出层。源任务模型架构设计阶段的输入为源任务的配置信息，输出源任务模型架构。目标任务模型架构设计阶段的输入为目标任务的配置信息，输出目标任务模型架构。辅助任务模型输出层设计阶段的输入为辅助任务的配置信息，输出辅助任务模型输出层结构。特征映射神经网络结构设计阶段的输入为源任务和目标任务的模型架构，输出特征映射神经网络的结构。

S21源任务模型架构设计，根据源任务的配置信息设计源任务的模型架构。对于源任务IPC分类，选用BERT+Softmax模型架构，BERT模型作为编码层用于实现文本编码，Softmax分类器作为输出层，根据BERT模型输出的CLS编码向量实现专利分类。利用E₁表示源任务的编码层，D₁表示源任务的输出层。

S22目标任务模型架构设计，根据目标任务的配置信息设计目标任务的模型架构。对于目标任务知识抽取，选用BERT+CRF模型架构，BERT模型作为编码层，以序列标注的方式输出编码结果，CRF模型作为输出层，通过概率无向图结构对BERT输出的编码向量进行综合计算，输出知识标记结果。利用E₂表示目标任务的编码层，D₂表示目标任务的输出层。

S23辅助任务模型输出层设计，根据辅助任务的配置信息设计辅助任务的模型输出层结构。对于辅助任务摘要生成，选用Transformer的Decoder部分作为辅助任务模型的输出层，根据源任务和目标任务中BERT编码层的输出特征生成专利摘要。利用D_aux表示辅助任务的输出层。

S24特征映射神经网络结构设计，特征映射是指将源域上源任务的输出特征通过某种关系函数映射到目标任务对应的特征，该映射关系通常通过神经网络结构实现，因此需要根据源任务和目标任务模型编码层的输出特征形式设计特征映射神经网络的具体结构。考虑到原始专利文本具有语序特征，BERT模型的输出特征存在顺序关系，本发明选择长短期记忆网络（LSTM）实现源任务编码层输出特征到目标任务编码层输出特征的映射。为了更加完整地捕获源任务特征向量间的位置关系，本发明使用双向LSTM神经网络，将源任务中编码层输出的特征序列映射到目标任务中对应的特征序列，以实现不同任务之间的特征转换。用G_1→2表示源任务到目标任务的特征映射神经网络。如图2给出了本申请中的特征迁移框架。

S3执行训练，分别针对选定的源任务和目标任务准备源域和目标域上的训练数据，对源域上的源任务和目标任务、目标域上的源任务执行模型训练，在训练过程中加入了特征对齐和辅助任务微调。

在本申请实施例中，执行训练是指基于标注数据对上述源任务模型和目标任务模型执行有监督的模型训练，具体包括S31源任务执行、S32目标任务执行、S33特征对齐、S34辅助任务微调以及S35损失函数优化这五部分操作。源任务执行阶段的输入为源任务在源域上的标注数据、源任务在目标域上的标注数据/>，输出第一损失函数的计算结果。目标任务执行阶段的输入为目标任务在源域上的标注数据/>，输出第二损失函数的计算结果。特征对齐阶段的输入为源任务在源域中的输出特征/>和源任务在目标域中的输出特征/>输出第三损失函数的计算结果。辅助任务微调阶段的输入为源任务在源域中的输出特征/>、源任务在目标域中的输出特征/>、目标任务在源域中的输出特征/>，以及辅助任务在源域输入数据下的真实结果/>和辅助任务在目标域输入数据下的真实结果/>，输出第四损失函数的计算结果。损失函数优化阶段的输入为第一至第四损失函数的计算结果，输出训练好的模型。

S31源任务执行，首先根据源任务及其模型结构确定源任务模型训练的损失函数L_T1，在本发明中，选取多分类交叉熵损失函数作为源任务IPC分类的损失函数。由于源任务在源域和目标域上都具有标注数据，可以使用源任务在源域上的标注数据和源任务在目标域上的标注数据/>共同对源任务模型进行有监督的训练。执行源任务时，先计算源任务在源域中编码层的输出特征/>和源任务在目标域中编码层的输出特征/>，然后计算源任务在源域中的预测结果/>和源任务在目标域中的预测结果/>，最后通过预测结果和真实结果对第一损失函数Loss₁进行计算，。

S32目标任务执行，首先根据目标任务及其模型结构确定目标任务模型训练的损失函数L_T2，在本发明中，选取负对数似然作为目标任务知识抽取的损失函数。对于目标任务，仅仅在源域上存在标注数据，因此使用目标任务在源域上的标注数据执行目标任务模型的有监督训练。先计算目标任务在源域中编码层的输出特征/>，然后计算目标任务在源域中的预测结果/>，最后通过预测结果和真实结果对第二损失函数Loss₂进行计算，/>。

S33特征对齐，为了使源任务模型在源域和目标域上计算出的特征尽可能相似，使用范数差异比对（Norm Discrepancy Alignment，NDA）损失函数L_NDA，该损失函数使用二范数差异来刻画向量之间的差异，通过最小化该损失函数来对不同域下的特征加以约束，可以使得不同域下同一位置的特征更加接近，从而实现不同域之间的特征对齐。设BERT编码器E₁、E₂输出的特征序列长度为n，将源任务在源域和目标域中的输出特征分别表示为和/>，其中/>、/>分别为输出特征序列中第i时刻的特征，i=1，...，n。通过NDA损失函数计算源任务在源域和目标域中输出特征的差异，作为第三损失函数Loss₃，具体计算方式为：

。

S34辅助任务微调，为了实现不同任务之间的特征对齐，在模型训练中引入辅助任务T_aux，辅助任务的引入旨在通过模型训练对源任务的输出特征加以扩充，使得源任务的输出特征包含更丰富的信息，这样将源任务输出特征进行映射，得到的目标任务特征往往也包含更多的信息，有利于目标任务的完成。将辅助任务和源任务共同训练，相当于在源任务的输出特征中加入了额外的信息，为了确保目标任务的输出层能够对这部分额外的信息进行有效的利用，在训练时对输出层D₁、D₂、D_aux共同执行训练。根据辅助任务及其模型结构确定辅助任务输出层训练的损失函数L_aux，在本发明中，选取交叉熵损失函数作为辅助任务摘要生成的损失函数。通过，，计算得到辅助任务基于特征的预测结果，根据预测结果和真实结果计算辅助任务微调过程的损失函数，作为第四损失函数，计算方式为：。

S35损失函数优化，将上述四部分损失函数的计算结果相加，得到模型训练过程的整体损失函数Loss=Loss₁+Loss₂+Loss₃+Loss₄。以损失函数Loss作为优化目标执行模型训练，通过随机梯度下降法最小化损失函数，得到模型训练结果。

S4特征映射，利用源域上的训练数据对源任务模型特征到目标任务模型特征的特征映射神经网络执行有监督的训练。

在本申请实施例中，特征映射是源任务到目标任务特征映射神经网络G_1→2的训练，如模型设计步骤所述，本发明选择双向LSTM实现源任务到目标任务模型特征的映射。使用源域上的输入数据X^A以及上述执行训练步骤训练好的模型计算源任务在源域中的输出特征和目标任务在源域中的输出特征/>，/>，/>。然后通过特征映射网络计算映射得到的目标任务模型特征/>，/>。利用二范数损失函数L₂-Loss计算映射得到的特征与实际目标任务输出特征之间的差异，具体计算方式为。最后，执行有监督的特征映射神经网络训练，通过随机梯度下降法最小化二范数损失函数，得到训练好的特征映射神经网络。综上，特征映射阶段的输入为源域上的输入数据X^A以及模型训练结果，输出训练好的特征映射神经网络。

在模型应用阶段中，具体包括通过特征映射生成目标域上目标任务的模型特征，进而通过目标任务模型实现知识推理，将输出的知识存储到知识库。

具体地，模型应用是对目标域中的原始专利文本实现知识抽取，并将结果保存到知识库，其中知识抽取包含特征生成和知识推理两个操作。特征生成阶段的输入为目标域上的标注样本、执行训练步骤得到的源任务编码层以及训练好的特征映射神经网络，输出生成的目标域上目标任务的模型特征。知识推理阶段的输入为生成的目标域上目标任务的模型特征和执行训练步骤得到的目标任务输出层，输出知识抽取结果。

特征生成，在目标域上生成目标任务模型的特征，具体通过特征映射将目标域上源任务的输出特征转化为目标任务的模型特征，该特征用于目标域上目标任务的求解。使用目标域上的标注样本X^B以及上述执行训练步骤得到的源任务编码层计算源任务在目标域中的输出特征，/>，然后利用特征映射步骤训练得到的特征映射神经网络G_1→2生成目标域上目标任务的模型特征/>，/>。

知识推理，利用目标任务模型特征和目标任务模型的输出层对目标任务执行推理过程，得到知识抽取结果。具体知识推理过程为使用上述特征生成操作得到的目标域上目标任务的模型特征，通过执行训练步骤得到的目标任务输出层计算目标域上目标任务的输出结果/>，/>，/>即为目标域中专利文本的知识抽取结果。

针对于上述关于源域和目标域，源任务、目标任务和辅助任务对于专利多领域知识抽取的具体过程，以下给出另一个实施例：

在本实施例中，源域是中医药领域，目标域是化学领域，需要收集中医药领域和化学领域的专利文本，对应到本申请中，X^A就是中医药领域的专利文本，X^B就是化学领域的专利文本。

在本实施例中，源任务是专利IPC分类，辅助任务是专利摘要生成，目标任务在专利中已经设定为知识抽取任务，不同的任务自然对应着不同的任务结果，比如IPC分类任务的输出结果应该是专利分类号，知识抽取任务的输出结果应该是包含关键信息的专利文本片段（简称知识片段），摘要生成任务的输出结果应该是专利的摘要。

其中已知数据是源域上源任务的真实结果、目标域上源任务的真实结果、源域上目标任务的真实结果、源域上辅助任务的真实结果、目标域上辅助任务的真实结果，本实施例目标是预测目标域上目标任务的结果。具体地：

现在已知的数据是中医药领域的专利文本X^A对应的专利分类号，化学领域的专利文本X^B对应的专利分类号/>，中医药领域的专利文本X^A对应的知识片段/>，中医药领域的专利文本X^A对应的专利摘要/>，化学领域的专利文本X^B对应的专利摘要/>，即目标是通过一系列操作得到化学领域的专利文本X^B对应的知识片段/>。

执行训练步骤的目标是训练E₁、D₁、E₂、D₂、D_aux这5个模型，具体的使用方法是将数据输入到模型当中，模型会输出结果。本申请中，将专利文本X^A输入到模型E₁中，模型E₁输出“输出特征”，后续将“输入特征”输入到模型D₁中，模型D₁输出的结果就是专利分类号。上述过程描述的是在源域上执行源任务的过程，对于在源域上执行目标任务、在目标域上执行源任务都是类似的过程。如图3，给出了本申请实施例提供的整体模型训练框架。其中、、/>就是上面的“输出特征”，“输出特征”就如同X^A与X^B一样，它们都是数据，都可以作为模型的输入。

在模型训练部分的特征映射过程具体如图4所示，特征映射中的“映射”也可以视为一个模型，这个模型和之前执行训练步骤所训练的模型是不同的，它也有它的输入和输出，它也需要训练数据来进行模型训练，而特征映射这一步，所要做的就是训练这个“映射”。在本申请中将这个“映射”记为G_1→2。

本申请“映射”的训练需要数据，而数据需要通过之前训练的模型计算得到。

“映射”的输入和输出都是前面提到的“输出特征”，所以这一步称为特征映射。具体来说，它所输入的“输出特征”就是，/>是通过之前执行训练步骤所得到的E₁计算得到的，它的输出也是一个特征，在本申请中将它的输出记为/>，而对这个映射进行训练的目的是，使/>尽可能地与/>接近。/>

特征映射的目的是因为需要通过D₂和计算/>，需要一个从源任务输出特征到目标任务输出特征的映射，之前的映射G_1→2正好符合要求。

如图5，给出了模型应用框架，其过程具体包括了：

首先，把化学领域的专利文本X^B输入到模型E₁当中，这里的E₁就是通过前述执行训练步骤得到的，E₁会输出一个“输出特征”；

然后，把输入到特征映射模型G_1→2当中，这里的G_1→2就是通过前述特征映射步骤得到的，G_1→2会输出一个“特征”，把这个“特征”记为/>；

最后，把输入到模型D₂当中，这里的D₂就是通过前述执行训练步骤得到的，D₂会输出目标任务的最终结果，即知识片段。

综上可以看出，本发明提供了一种基于特征对齐的专利多领域知识抽取方法，以专利IPC分类为基础划分领域，有针对性的选择源领域、目标领域及其对应的源任务、目标任务，设计基于深度学习的特征表示任务模型结合特征对齐、特征映射机制，结合辅助微调下游任务强化各任务间的特征表示，将源域上的标注数据特征迁移到目标域上的目标任务特征，以无监督的方式实现了目标域上无需标注数据的专利知识的精准高效抽取。

在一个实施例中，如图6所示，提供了一种基于特征对齐的专利多领域知识抽取系统，系统包括模型训练模块以及模型应用模块；

其中各模块具体实现内容可以参见上文中对于基于特征对齐的专利多领域知识抽取系统方法的限定，在此不再赘述。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力，网络接口用于与外部的终端通过网络连接通信，该计算机设备通过加载运行计算机程序以实现上述一种专利多领域知识抽取方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种基于特征对齐的专利多领域知识抽取方法，其特征在于，所述方法包括模型训练阶段以及模型应用阶段；

在所述模型应用阶段中，具体包括通过特征映射生成目标域上目标任务的模型特征，进而通过目标任务模型实现知识推理，将输出的知识存储到知识库；

所述S1领域及任务配置包括：

S12，选择在源域和目标域上执行时无需人工标注数据的任务作为源任务；其中，目标任务至少包括专利知识抽取任务；用T₁和T₂分别表示源任务和目标任务，表示源域输入数据X^A在源任务上的真实结果，/>表示目标域输入数据X^B在源任务上的真实结果，/>表示源域输入数据X^A在目标任务上的真实结果；

S13，选择与源任务和目标任务共同关联的任务作为辅助任务，并利用T_aux表示辅助任务，分别表示辅助任务在源域和目标域输入数据下的真实结果。

2.根据权利要求1所述的方法，其特征在于，所述S2模型设计具体包括：

3.根据权利要求1所述的方法，其特征在于，所述S3执行训练具体包括：

对于源任务，使用源任务在源域上的标注数据和源任务在目标域上的标注数据/>共同对源任务模型进行有监督的训练；在执行源任务时，先计算源任务在源域中编码层的输出特征/>和源任务在目标域中编码层的输出特征/>然后计算源任务在源域中的预测结果/>和源任务在目标域中的预测结果最后通过预测结果和真实结果对第一损失函数Loss₁进行计算，具体计算方式为：

对于目标任务，使用目标任务在源域上的标注数据执行目标任务模型的有监督训练，先计算目标任务在源域中编码层的输出特征/>然后计算目标任务在源域中的预测结果/>最后通过预测结果和真实结果对第二损失函数Loss₂进行计算，具体计算方式为：/>

S33，通过最小化范数差异比对损失函数L_NDA来对不同域下的特征加以约束；其中，当BERT编码器E₁、E₂输出的特征序列长度为n，将源任务在源域和目标域中的输出特征分别表示为和/>其中/>分别为输出特征序列中第i时刻的特征，i＝1，...，n；通过NDA损失函数计算源任务在源域和目标域中输出特征的差异，作为第三损失函数Loss₃，具体计算方式为：

计算得到辅助任务基于特征的预测结果/>根据预测结果和真实结果计算辅助任务微调过程的损失函数，作为第四损失函数Loss₄，具体计算方式为：

S35将所得到的四部分损失函数的计算结果相加，得到模型训练过程的整体损失函数Loss＝Loss₁+Loss₂+Loss₃+Loss₄；并以损失函数Loss作为优化目标执行模型训练，通过随机梯度下降法最小化损失函数，得到模型训练结果。

4.根据权利要求1所述的方法，其特征在于，所述S4特征映射具体包括：

使用源域上的输入数据X^A以及上述执行训练步骤训练好的模型计算源任务在源域中的输出特征和目标任务在源域中的输出特征/> 然后通过特征映射网络计算映射得到的目标任务模型特征/>利用二范数损失函数L₂-Loss计算映射得到的特征与实际目标任务输出特征之间的差异，具体计算方式为/>最后，执行有监督的特征映射神经网络训练，通过随机梯度下降法最小化二范数损失函数，得到训练好的特征映射神经网络。

5.根据权利要求1所述的方法，其特征在于，所述模型应用阶段具体包括：

使用目标域上的标注样本X^B以及执行训练步骤得到的源任务编码层计算源任务在目标域中的输出特征然后利用特征映射步骤训练得到的特征映射神经网络G_1→2生成目标域上目标任务的模型特征/>

6.根据权利要求5所述的方法，其特征在于，所述知识推理具体过程包括使用特征生成操作得到的目标域上目标任务的模型特征通过执行训练步骤得到的目标任务输出层计算目标域上目标任务的输出结果/> 即为目标域中专利文本的知识抽取结果。

7.一种基于特征对齐的专利多领域知识抽取系统，其特征在于，系统包括模型训练模块以及模型应用模块；

在所述模型应用模块中，具体包括通过特征映射生成目标域上目标任务的模型特征，进而通过目标任务模型实现知识推理，将输出的知识存储到知识库；

领域及任务配置包括：

获取进行专利多领域知识抽取的全部专利文本，以全部专利文本为基础，将专利按照IPC分类体系中的技术领域进行划分，选择具有标注数据的领域作为源域，在目标任务下无标注数据的待抽取知识所属的领域作为目标域；其中，将A、B分别表示选取的源域和目标域；源域和目标域下的专利文本将作为后续模型训练过程的输入数据，用X^A、X^B分别表示源域中的专利文本和目标域中的专利文本，分别表征源域上的输入数据和目标域上的输入数据；

选择在源域和目标域上执行时无需人工标注数据的任务作为源任务；

其中，目标任务至少包括专利知识抽取任务；用T₁和T₂分别表示源任务和目标任务，表示源域输入数据X^A在源任务上的真实结果，/>表示目标域输入数据X^B在源任务上的真实结果，/>表示源域输入数据X^A在目标任务上的真实结果；

选择与源任务和目标任务共同关联的任务作为辅助任务，并利用T_aux表示辅助任务，分别表示辅助任务在源域和目标域输入数据下的真实结果。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。