CN112528034B

CN112528034B - 一种基于知识蒸馏的实体关系抽取方法

Info

Publication number: CN112528034B
Application number: CN202011279537.8A
Authority: CN
Inventors: 赵笑艳; 杨敏; 曲强
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2022-06-10
Anticipated expiration: 2040-11-16
Also published as: CN112528034A

Abstract

本发明公开了一种基于知识蒸馏的实体关系抽取方法。该方法包括：构建包含实体教师模型、关系教师模型和学生模型的深度生成模型；以设定的蒸馏损失函数最小化为优化目标训练所述深度生成模型，其中，训练过程中，实体教师模型以句子文本信息与特权实体特征作为输入；关系教师模型以句子文本信息和特权关系特征作为输入，学生模型以句子文本信息作为输入并在训练过程融合实体教师模型的输出和关系教师模型输出；利用经训练的学生模型对输入句子进行实体关系抽取，获得对应的目标序列。利用本发明，学生模型能够充分探索实体识别和关系分类之间的显式和必要的相互支持，进而提升了联合提取实体和关系的效果。

Description

一种基于知识蒸馏的实体关系抽取方法

技术领域

本发明涉及计算机技术领域，更具体地，涉及一种基于知识蒸馏的实体关系抽取方法。

背景技术

随着互联网的不断发展，大数据时代已经到来。大量用户在互联网上不断产生着新内容，这些文本数据丰富多样，如博客、社交媒体评论、文献资料等。网络信息正呈现着爆炸式增长的趋势，依靠人工筛选编辑知识的方式已无法满足处理海量文本数据的需求。现如今，如何有效地从海量文本数据中自动提取结构化信息，来提升人们筛选和获取信息的效率并为用户提供更好的信息服务是当前急需解决的问题。信息抽取技术是解决这一问题的有效方案。信息抽取的目的是从文本中抽取出特定的、有价值的结构化信息，它包括联合实体关系抽取和事件抽取。

实体关系抽取是从文本中提取实体关系三元组的过程，是自然语言处理(NLP)的关键任务，目标是自动地抽取文本中实体和实体间的语义关系，其在海量数据的筛选处理、大规模知识图谱的自动构建等领域显示出广阔的应用价值。例如，通过关系抽取技术构建出大规模的知识库系统，可以将其应用于优化信息检索和搜索引擎。实体关系抽取任务也可以辅助提升自然语言处理领域中的其他文本理解任务，通过分析以自然语言形式描述的文本中的实体关系语义，为情感分析、自动摘要、实体链接等任务提供更准确的信息定位。

实体关系抽取包含两个子任务，分别是实体抽取和关系识别。现有方法在进行实体关系抽取任务时仅利用单一文本输入信息，不能充分建模句子中实体和关系等特征信息。针对这一问题，一个自然地想法是通过添加额外的实体、关系特征信息来辅助模型更好地处理实体关系三元组的联合提取问题。但是，由于自然语言处理(NLP)工具缺乏有关实体和关系的背景知识，自动提取特征时会不可避免的引入错误信息。另一种解决方法是通过知识库添加辅助信息，这种方式得到的数据同样也存在着大量噪声难以消除。例如，知识库中存在着("巴黎"，"法国")这两个实体对应的关系"位于"，但是文本中同时出现"巴黎"和"法国"这一实体对的句子并不一定都表达的是"位于"的关系。因此，如何更准确且有效地利用辅助特征以提升模型处理实体识别和关系提取的效果具有十分重要的现实意义，也越来越受到人们的关注。

常规的流水线实体关系抽取方法将实体识别和关系分类视为两个单独的任务。例如，首先提取文本中的字符跨度以检测实体提及，然后预测实体之间的关系类型。然而，这些流水线方法存在着错误传播，导致关系分类模块很大程度上受到实体识别模块引入的错误的影响。因此，实体关系抽取问题仍是一个挑战，吸引了许多研究者的关注，一些相关的研究成果也不断被发表出来。

在一项研究成果中，提出了表格填充方法来减轻流水线实体关系抽取方法的局限性，将联合提取任务形式化为一个表格，该表格由输入句子自身的笛卡尔积计算得到，其中除表格对角线上的空白外，表格上其他空白将作为关系进行预测。但是，表填充方法枚举了所有可能的实体对，这导致了沉重的计算负担。

在另一项研究成果中，提出了采用序列标记方法，通过该方法可以预测每个单词的单个标记，这种标记方式能同时预测实体和关系。但是，标记方法无法处理重叠关系，存在着无法为一个标记分配多个标签的局限性。

在最新的研究成果中，提出了在解码器中扩展了具有复制机制的序列到序列学习模型，该模型将非结构化文本作为输入，并通过解码器顺序输出实体关系三元组，这种方式一定程度上缓解了未登录词(OOV)问题。

此外，目前最先进的系统主要是采用序列到序列模型联合提取实体关系，能够在一定程度上缓解实体模型和关系模型之间的错误传播问题，促进实体、关系信息融合。但是，现有的联合建模方法仅从输入语句生成实体关系三元组，这一信息不足以有效地生成准确的实体关系三元组。因为在某种程度上，序列到序列学习模型丢失了一部分先前其它模型可以充分利用实体特征和关系特征的优势，使用简单方式联合地对实体识别和关系提取进行建模，而忽略了实体与关系子任务信息的建模。因此，现有的序列到序列模型还不能为这两个子任务之间提供明确和必要的相互支持。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于知识蒸馏的实体关系抽取方法，通过设计新颖的知识蒸馏框架，鼓励学生模型融合来自两个专家教师模型的增强特征。

根据本发明的一个方面，提供一种基于知识蒸馏的实体关系抽取方法，该方法包括以下步骤：

构建包含实体教师模型、关系教师模型和学生模型的深度生成模型，其中实体教师模型用于识别句子中的实体；关系教师模型用于识别实体之间的关系，学生模型用于融合实体教师模型和关系教师模型中学习到的知识；

以设定的蒸馏损失函数最小化为优化目标训练所述深度生成模型，其中，训练过程中，实体教师模型以句子文本信息与特权实体特征作为输入；关系教师模型以句子文本信息和特权关系特征作为输入，学生模型以句子文本信息作为输入并在训练过程融合实体教师模型的输出和关系教师模型输出；

利用经训练的学生模型对输入句子进行实体关系抽取，获得对应的目标序列。

与现有技术相比，本发明的优点在于，提供全新的知识蒸馏方式来构建融合特权信息(如预测阶段无法处理的特征)的关系抽取框架，这有助于实体识别和关系分类子任务间提供明确的相互支持，此外，添加更多特权特征也会产生更准确的预测，实现了在海量文本中自动提取结构化的实体关系信息，进而提升了筛选和获取信息的效率。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的基于知识蒸馏的实体关系抽取的深度生成框架；

图2是根据本发明一个实施例的基于知识蒸馏的实体关系抽取方法的流程图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明提出了一种基于知识蒸馏的实体关系抽取方法，通过设计新颖的深度生成框架(也称为STER或深度生成模型)，实现了高效且准确地处理联合实体关系抽取任务。简言之，框架整体包含关系教师网络，实体教师网络和学生网络，其中，关系教师网络旨在通过访问基本事实关系和输入序列来从句子中识别相应的命名实体；实体教师网络，通过访问真实实体和输入序列来预测实体之间的匹配精确关系；学生网络被鼓励融合来自关系教师网络和实体教师网络的知识，进而在这两个专家教师网络的指导下，获得高质量的实体关系模型。

参见图1所示的基于知识蒸馏的实体关系抽取框架，其中，最左侧是实体教师网络(TeaE)，中间是学生网络(Stu)，右侧是关系教师网络(TeaR)。对于给定的一个含有n个字的输入句子s＝(x₁,x₂,…,x_n)，联合实体关系抽取的任务目标是从句子s中预测得到一个对应的目标序列y。其中，每一个目标输出序列由从输入句子中抽取得到的三元组集合组成，其中，一个实体关系三元组可表示为<头实体，关系，尾实体>。

以下将分别介绍学生网络、特权特征获取、实体教师网络和关系教师网络的具体实施例。

1)、学生网络结构

本发明提出了一个通用的新型知识蒸馏范式框架，其目的是在关系提取中引入特权特征，以增强模型效果，在本文中，特权特征或特权信息是指预测阶段无法处理的特征。考虑到序列到序列方法是当前关系提取任务中处理重叠关系的最先进方法，因此，在一个实施例中，采用了最新方法的网络体系结构，基本模型架构如图1所示，包括编码层(Encoder)、解码层(Decoder)和投影层(如采用全连接层FC)。

该模型是具有复制机制的序列到序列模型，通过定义两个特殊标记，自然地将句子中包含的目标三元组表示为序列y。如表1所示，实体关系三元组被视为形式为头部实体；尾部实体；令牌的序列，′；′用于区分三元组中的不同部分，而′|′令牌分割一句话中的不同三元组边界。接下来，具体介绍基于复制机制的序列到序列模型结构。

首先是编码层。编码层采用双向长短时记忆网络(BiLSTM)以更好地建模句子的语义。输入的嵌入由编码器顺序编码，在时间步t(1≤t≤n)通过以下方式生成隐藏表示

然后是解码器层。采用注意力机制(Attention)来帮助模型从上下文中提取更多关键信息。该模型使用长短时记忆网络作为解码器(LSTM)，并在时间步t(1≤t≤m)通过将先前的目标嵌入g_t-1和注意获得的上下文编码c_t作为输入，生成解码器隐藏状态

其中g_t是目标序列y＝{g₁,g₂,…,g_m}中第t个向量表示。

最后是投影层。具有复制机制的解码器从当前源句子复制得到预测标记，避免解码器将预测结果映射到整个词汇表。通过这种复制机制，缩小了所需预测令牌的候选范围，使得预测结果更加准确。例如，经过softmax 层来获得输出概率：

其中W是权重矩阵，b是待学习的偏置向量，H_i代表当前输入句子s_i的隐藏表示

需要说明的是，也可采用其他的时间序列模型来实现深度生成框架，如GRU等。

2)、关于特权特征的获取

设e_i∈E,r_i∈R为输入序列s_i中的实体集和关系集，其中R为关系集，E 为数据集中的实体集。因为在模型预测阶段真实的实体和关系信息是不可达的，本发明将实体信息和关系信息定义为关系抽取任务中的特权信息，与特权特征相对应的是如输入句子s_i这样的普通特征，在有监督实验中用作输入特征。

为了建立准确的实体特权特征和关系特权特征，在关系抽取任务中，本发明实施例提出了一种从已有标注数据集中构造特权特征的方法，无需额外计算即可获得。具体地，将目标标签y_i分成两部分，提取当前样本的特权实体特征e_i和特权关系特征r_i，其中e_i∪r_i＝y_i。表1是从目标序列获得的特权特征的示例。

表1：特权特征获取示例

实体特征和关系特征是不可达信息的具体形式，本发明提出的生成特权信息的方式具有简单和准确的特点，这使得特权特征的使用具有普遍性。

3)、实体教师网络

实体教师网络使用

作为输入特征，其中

包含源句文本信息s_i与特权实体信息e_i。y_i为对应的目标序列，优化实体教师模型f_teaE∈F_teaE。

表示TeaE模型的学习参数，L_teaE是训练实体教师网络的交叉熵损失函数。

在训练过程中，对于任何给定的输入句子序列s_i，输出概率可以通过以下方式获得：

其中，P^teaE(·|·)是TeaE模型的概率输出，

用作软标签，将知识传递给学生模型。

4)、关系教师网络:

相应地，利用包含特权关系信息的输入

来增强关系教师，

包含原始输入句子s_i与特权关系信息r_i。与TeaE模型相同，关系教师f_teaR∈F_teaR通过下述公式进行优化：

其中

为TeaR模型的训练参数。同样，在训练过程中，关系教师模型产生概率输出P^teaR(·|·)作为软标签

用来训练学生模型：

5)、关于知识蒸馏过程

如图1描述的STER框架，与两位教师网络不同，学生模型只使用源句子序列s_i作为输入。实体特征首先被包含在实体教师模型中，实体教师模型通过添加特定的实体属性来区分不同的实体边界，从而增强模型的表达力。学生模型被鼓励模仿实体教师模型的输出，学生模型的预测和TeaE模型预测之间的偏差定义为实体信息蒸馏损失(ED)，表示为：

其中θ是学生模型的参数，c表示当前目标标记，C是目标序列集。

同样，通过关系信息蒸馏损失(RD)，学生模型被鼓励模仿具有更丰富关系信息的关系教师模型TeaR的输出，关系信息蒸馏损失表示为：

此外，除了用软标签指导学生模型外，学生模型Stu的学习过程还采用硬标签y_i作为交叉熵损失的参数，表示为：

STER框架用于优化学生模型最终目标函数，可表述为：

L_stu＝L_CE+λ₁L_ED+λ₂L_RD (11)

其中λ₁,λ₂∈[0,1]是平衡软标签和硬标签学习程度的参数。

综上，在本发明提供的STER中，专家教师(即关系教师模型和实体教师模型)被纳入到学习中，并在每个训练时间步中从教师模型向学生模型蒸馏特权知识，通过教师模型的指导，学生模型将有更多的训练数据和多样化的特征，这使得学生模型更具表现力。这种新颖的知识蒸馏框架鼓励学生模型融合来自两个专家教师模型的知识，获得生成特定的实体关系三元组所需的丰富信息，使得学生模型充分探索实体识别和关系分类之间的显式和必要的相互支持，进而提升了联合提取实体和关系的效果。

为进一步理解本发明，结合图1和图2所示，在执行联合实体关系抽取任务过程中，本发明提供的基于知识蒸馏的实体关系抽取方法包括以下步骤：

步骤S210，构建包含关系教师模型、实体教师模型和学生模型的深度生成模型。

本发明设计了两个拥有特权知识的教师模型，分别是实体教师模型和关系教师模型，两个专家模型有效地利用辅助特征以分别提升处理实体识别和关系提取的效果。

例如，采用注意力机制的长短时记忆网络来设计深度生成模型，进行捕获动态网络的全局特征和短期时间依赖性，建模实体子任务与关系子任务之间的综合网络特征，以基于先前时间戳学习到的网络特征来预测下一个时间戳的结果。

步骤S220，获取特权关系特征和特权实体特征，其中实体教师模型以句子文本信息与特权实体特征作为输入，关系教师模型以句子文本信息和特权关系特征作为输入，学生模型以句子文本信息作为输入。

对于特征信息筛选处理，将获取的高质量特权特征作为教师模型的增强信息。具体地，关系教师模型使用句子和特权关系特征作为输入，实体教师模型使用句子和特权实体特征作为输入，而学生模型仅使用句子特征作为输入。

步骤S230，以设定的蒸馏损失函数最小化为目标训练深度生成模型，以对学生模型进行“二对一”的指导。

具体地，在每次迭代过程中，首先训练两个教师模型，然后使用教师模型的输出和数据的真实标签去训练学生模型。通过知识蒸馏的方式将两个专家模型“蒸馏”得到学生网络，并使学生模型能够不断接近专家模型的预测能力。具体训练过程和损失函数设置可参见上文，在此不再赘述。

综上，本发明提出的实体关系抽取任务中特权信息的获取方式，能获得该任务中所需的两种准确的实体特权信息和关系特权信息。此外，这种“二对一”的教师学生学习模式，率先在实体关系抽取任务中采用知识蒸馏方式来指导学生模型学习隐含的专家知识，在实体和关系的联合提取方面实现效果的全面提升。

为了进一步验证本发明的有效性和先进性，采用Python编程语言，基于开源机器学习软件库Pytorch对所提出的STER框架进行实现，并在 NYT24和NYT29这两个广泛使用的大型基准数据集上进行了大量实验，对句子中所包含的实体关系三元组进行抽取。采用准确度、召回率、F1值三个方面的评价指标对模型效果进行评估。实验结果一致表明，利用本发明所提出的基于知识蒸馏的实体关系抽取方法能够有效增强模型的抽取能力，本方法始终优于目前最先进的方法，可以被广泛的应用于文本的实体关系信息抽取，具有十分广阔的应用前景。

综上所述，相对于现有技术，本发明提出的技术方案至少具有以下两方面的优势：

1)、目前最先进的技术是采用复制机制的序列到序列模型联合提取实体关系，但是该方法仅从输入语句生成实体关系三元组，这一信息不足以有效地生成准确的实体关系三元组。因为模型丢失了一部分先前分阶段提取模型可明确利用实体特征和关系特征的优势，忽略了实体与关系子任务信息的建模，不能为这两个子任务之间提供明确和必要的相互支持。而本发明提出的新颖的教师学生学习框架，鼓励学生模型融合来自两个专家教师模型的知识，从而获得生成特定的实体关系三元组所需的丰富信息。此外，利用增添特权特征输入获得了强大的教师模型，进而对学生模型进行知识蒸馏，使得学生模型充分探索实体识别和关系分类之间的显式和必要的相互支持，并且添加更多特权特征也会产生更准确的预测，从而实现在海量文本中自动提取高质量结构化的实体关系信息，提升了人们筛选和获取信息的效率。

2)、近年来，尽管学生-教师学习模式受到了广泛的关注，其典型应用是将知识从大规模的教师模型蒸馏到规模较小的学生模型，并鼓励学生模型模仿教师模型的预测或特征表示。然而，很少有工作注意到知识蒸馏知识转移的功能在模型训练阶段和预测阶段的桥梁作用。特别是对于一些预测阶段无法处理的特征(即特权特征)，如何将其以更合适的方式融合到目标任务中仍是一个亟需解决的问题。本发明针对这一问题，首次提出了上述技术方案，为基于知识蒸馏进行实体关系抽取提供了新方向。

需说明的是，在本文描述中，模型、网络、框架、网络模型等具有相同的含义，除非根据上下文另有所指，例如，学生模型和学生网络含义相同，深度生成模型和深度生成框架含义相同。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/ 或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构 (ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于知识蒸馏的实体关系抽取方法，包括以下步骤：

利用经训练的学生模型对输入句子进行实体关系抽取，获得对应的目标序列；

其中，所述蒸馏损失函数设置为：

L_stu＝L_CE+λ₁L_ED+λ₂L_RD

其中λ₁,λ₂∈[0,1]是设定的超参数，L_ED是实体教师模型和学生模型之间的实体信息蒸馏损失，L_RD是关系教师模型和学生模型之间的关系信息蒸馏损失，L_CE是学生模型学习过程中的交叉熵损失；

其中，所述实体教师模型和学生模型之间的实体信息蒸馏损失表示为：

其中θ是学生模型的参数，c表示当前目标标记，C是目标序列集，

表示实体教师模型的学习参数，y_i是对应的目标序列，

表示实体教师模型的输入特征，T是输入特征的数量，s_i是输入的句子序列，P^teaE(·|·)是实体教师模型的输出概率，P^stu(·|·)是学生模型的输出概率。

2.根据权利要求1所述的方法，其中，根据以下步骤获取所述特权实体特征和特权关系特权特征：

对于已标注数据集，设e_i∈E,r_i∈R分别是句子序列s_i中的实体集和关系集，其中R为关系集，E为实体集，i是数据集中各样本数据的索引；

针对所述已标注数据集的目标标签y_i，提取对应的特权实体特征e_i和特权关系特征r_i，其中e_i∪r_i＝y_i。

3.根据权利要求1所述的方法，其中，所述关系教师模型和学生模型之间的关系信息蒸馏损失表示为：

表示关系教师模型的学习参数，y_i是对应的目标序列，

表示关系教师模型的输入特征，T是输入特征的数量，s_i是输入的句子序列，P^stu(·|·)是学生模型的输出概率，P^teaR(·|·)是关系教师模型的输出概率。

4.根据权利要求1所述的方法，其中，所述学生模型学习过程中的交叉熵损失表示为：

其中θ是学生模型的参数，c表示当前目标标记，C是目标序列集，y_i是对应的目标序列，T是输入特征的数量，s_i是输入的句子序列，P^stu(·|·)是学生模型的输出概率。

5.根据权利要求1所述的方法，其中，所述深度生成模型是基于注意力机制的长短时记忆网络，用于捕获动态的全局特征和短时依赖性，并基于先前时间戳学习到的特征来预测下一个时间戳的结果。

6.根据权利要求5所述的方法，其中，所述学生模型以句子文本信息作为输入并在训练过程融合实体教师模型的输出和关系教师模型输出包括：

对于给定的输入句子序列s_i，实体教师模型将输出概率用作软标签传递给学生模型，该软标签表示为：

对于给定的输入句子序列s_i，关系教师模型输出概率作为软标签传递给学生模型，该软标签表示为：

其中，P^teaE(·|·)是实体教师模型的输出概率，P^teaR(·|·)是关系教师模型的输出概率，W是权重矩阵，b是偏置向量，H_i是当前输入句子序列s_i的隐藏表示，y_i是对应的目标序列，

表示关系教师模型的输入特征，

表示实体教师模型的输入特征。

7.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至6中任一项所述方法的步骤。

8.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6中任一项所述的方法的步骤。