CN113486665B

CN113486665B - 隐私保护文本命名实体识别方法、装置、设备及存储介质

Info

Publication number: CN113486665B
Application number: CN202110757350.2A
Authority: CN
Inventors: 徐睿峰; 殷轶平; 罗璇; 杜嘉晨; 刘洋; 廖清
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2023-06-20
Anticipated expiration: 2041-07-05
Also published as: CN113486665A

Abstract

本发明公开了一种隐私保护文本命名实体识别方法、装置、计算机设备及存储介质，方法包括：接收多个数据持有方发送的多个训练好的教师模型，所述教师模型通过使用源数据进行训练，包括第一预训练网络和第一序列标注层，所述源数据为标注文本数据；根据多个训练好的教师模型，利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型，所述学生模型包括第二预训练网络和第二序列标注层；利用训练好的学生模型对无标签文本数据的命名实体进行预测。本发明将知识蒸馏应用于数据分散的真实场景，在数据可用不可见的前提下，通过无标签的迁移集合，训练出强大的学生模型，从而在隐私保护的前提下，保证学生模型在命名实体识别任务上的泛化性和准确性。

Description

隐私保护文本命名实体识别方法、装置、设备及存储介质

技术领域

本发明涉及一种隐私保护文本命名实体识别方法、装置、计算机设备及存储介质，属于数据隐私保护领域。

背景技术

隐私保护领域，深度学习和机器学习的隐私保护方法可分为五类：基于安全多方计算的方法、基于同态加密的方法、基于随机梯度下降的方法、基于差分隐私的方法和基于知识蒸馏的方法。

原始的知识蒸馏框架(Hinton et al，2015)通常包含一个或多个大型的预训练教师模型和一个小型的学生模型，教师模型通常比学生模型大得多。主要思想是在教师模型的指导下训练高效的学生模型以获得具有竞争力的性能。而来自教师模型的监督信号(通常称为教师模型学到的“知识”)可以帮助学生模型模仿教师模型的行为。

教师-学生蒸馏框架可以保证学生模型在不直接使用教师模型的训练数据的情况下完成模型训练，从而实现学生模型和训练数据的隔离。

目前此领域的方法适用于单数据源场景，但实际应用中多为多数据源训练数据的隐私保护需求，即数据来自不同机构且不能相互公开。此外，多数据源之间存在异构性，即类别不同。目前此类技术不能直接蒸馏异构的知识。

发明内容

有鉴于此，本发明提供了一种隐私保护文本命名实体识别方法、装置、计算机设备及存储介质，其将知识蒸馏应用于数据分散的真实场景，在数据可用不可见的前提下，通过无标签的迁移集合，训练出强大的学生模型，从而在隐私保护的前提下，保证学生模型在命名实体识别任务上的泛化性和准确性。

本发明的第一个目的在于提供一种隐私保护文本命名实体识别方法。

本发明的第二个目的在于提供一种隐私保护文本命名实体识别装置。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

一种隐私保护文本命名实体识别方法，所述方法包括：

接收多个数据持有方发送的多个训练好的教师模型，所述教师模型通过使用源数据进行训练，包括第一预训练网络和第一序列标注层，所述源数据为标注文本数据；

根据训练好的教师模型，利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型，得到训练好的学生模型，所述学生模型包括第二预训练网络和第二序列标注层；

利用训练好的学生模型对无标签文本数据的命名实体进行预测。

进一步的，所述教师模型通过使用源数据进行训练，具体包括：

通过第一预训练网络编码源数据的上下文信息，获得发射概率矩阵迁移集合；

将发射概率矩阵迁移集合作为第一序列标注层的输入，微调第一预训练网络和第一序列标注层，得到训练好的教师模型。

进一步的，所述根据训练好的教师模型，利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型，得到训练好的学生模型，具体包括：

利用训练好的教师模型对无标签的迁移集合进行预测，通过第一预训练网络计算得到第一发射概率矩阵，以及通过前后向算法计算第一序列标注层得到第一后验概率矩阵；

将无标签的迁移集合输入学生模型，通过第二预训练网络计算得到第二发射概率矩阵，以及通过前后向算法计算第二序列标注层得到第二后验概率矩阵；

通过第一蒸馏模块对第一发射概率矩阵进行蒸馏，通过优化教师模型与学生模型预测结果的误差，将教师模型学习到的知识迁移到学生模型中，以最小化发射损失；

通过第二蒸馏模块对第一后验概率矩阵进行蒸馏，通过优化教师模型与学生模型预测结果的误差，将教师模型学习到的知识迁移到学生模型中，以最小化后验损失；

对于异构的教师模型，分别对第二发射概率矩阵和第二后验概率矩阵进行局部归一化处理，实现异构教师模型的整合；

通过最小化发射损失与后验损失之和构成的损失函数，训练学生模型，得到训练好的学生模型。

进一步的，所述发射损失如下式：

其中，P_t是第一发射概率矩阵，P_s是第二发射概率矩阵，y_i是序列中第i个词的向量，x是数据样本，V是类别集合，|V|是类别集合的大小。

进一步的，所述后验损失如下式：

其中，Q_t是第一后验概率矩阵，Q_s是第二后验概率矩阵，y_i是序列中第i个词的向量，x是数据样本，V是类别集合，|V|是类别集合的大小。

进一步的，所述对于异构的教师模型，分别对第二发射概率矩阵和第二后验概率矩阵进行局部归一化处理，实现异构教师模型的整合，具体包括：

利用下式的概率关系，分别对第二发射概率矩阵和第二后验概率矩阵进行局部归一化处理，将概率值映射到[0,1]之间变成相对值关系，实现异构教师模型的整合：

其中，P_s是第二发射概率矩阵，Q_s是第二后验概率矩阵，k∈L_i表示类别k在教师i训练数据的标签集合内。

进一步的，所述利用训练好的学生模型对无标签文本数据的命名实体进行预测，具体包括：

将无标签文本数据作为一个序列输入训练好的学生模型，通过第二预训练网络编码输入序列的上下文信息，得到对应的第二发射概率矩阵；

使用第二序列标注层接收第二发射概率矩阵，从所有可能的标签序列中选取使得概率最大的标签序列，实现对无标签文本数据的命名实体预测。

本发明的第二个目的可以通过采取如下技术方案达到：

一种隐私保护文本命名实体识别装置，所述装置包括：

接收单元，用于接收多个数据持有方发送的多个训练好的教师模型，所述教师模型通过使用源数据进行训练，包括第一预训练网络和第一序列标注层，所述源数据为标注文本数据；

训练单元，用于根据训练好的教师模型，利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型，得到训练好的学生模型，所述学生模型包括第二预训练网络和第二序列标注层；

预测单元，用于利用训练好的学生模型对无标签文本数据的命名实体进行预测。

本发明的第三个目的可以通过采取如下技术方案达到：

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的隐私保护文本命名实体识别方法。

本发明的第四个目的可以通过采取如下技术方案达到：

一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的隐私保护文本命名实体识别方法。

本发明相对于现有技术具有如下的有益效果：

1、本发明通过接收多个数据持有方发送的多个训练好的教师模型，通过无标签的迁移集合进行多教师知识蒸馏，训练出强大的学生模型，以此实现准确的命名实体识别，减小数据依赖的同时提供数据安全保障进而提升用户体验。

2、本发明对于异构的教师模型，分别对教师模型得到的发射概率矩阵和后验概率矩阵进行局部归一化处理，实现异构教师模型的整合，因此在多个数据持有方数据参与模型训练情况下，各数据持有方可以通过扩展可识别命名实体类型范围的同时保护文本数据隐私。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1的隐私保护文本命名实体识别任务框架的示意图。

图2为本发明实施例1的隐私保护文本命名实体识别方法的流程图。

图3为本发明实施例1的序列标注示意图。

图4为本发明实施例1的异构教师模型整合的示意图。

图5为本发明实施例2的隐私保护文本命名实体识别装置的结构框图。

图6为本发明实施例3的计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1所示，本实施例提供了一种基于知识蒸馏的隐私保护文本命名实体识别任务框架，该框架可应用于数据安全产品中，其主要应用场景包括安全的多源数据使用，通过引入本该框架，可以实现多个数据持有方的共赢，训练出多样性和准确性更高的公开的学习器，在考虑数据安全的命名实体识别任务上，该框架能够仅通过无标签的迁移集合来实现准确的命名实体识别，减小数据依赖的同时提供数据安全保障进而提升产品体验。

如图1和图2所示，本实施例提供了一种隐私保护文本命名实体识别方法，该方法基于上述的隐私保护文本命名实体识别任务框架实现，包括以下步骤：

S201、接收多个数据持有方发送的多个训练好的教师模型。

本实施例的教师模型包括第一预训练网络和第一序列标注层，本实施例的预训练网络即为预训练模型(Pre_trained Model，简称PM)，具体可以采用单项模型、BERT系列模型、XLNet；序列标注层可以采用条件随机场(Conditional Random Field，简称CRF)模型，也可以采用其他序列标注模型。

本实施例的序列标注任务是指给定一个序列，对序列中的每一个元素做一个标记，或者说给每一个元素打一个标签，例如图3，采用BMES标注体系，其中，B表示一个多字实体的首字，M表示该实体中间字，E表示该实体的末字，S表示单字实体；本实施例将数据持有方的本地文本数据作为一个序列，并进行标注得到源数据(X,Y)，源数据的数据格式是文本，文本数据在用于模型训练前不必进行脱敏处理；再利用一个公开数据集作为迁移集用于学生模型的训练。在学生模型公布后，攻击者无法从学生模型中还原出教师模型的训练数据的分布和隐私信息；本实施例采取对机构或个人的敏感数据进行保护的措施，使得攻击者无法直接或间接地从模型中获得用于训练的隐私数据，实现数据隐私保护。

本实施例的条件随机场是一种机器学习模型，在序列标注任务中用于学习标签的上下文约束。给定一个序列X＝{x₁,x₂,…,x_T}和对应的真实标签序列Y^*＝{y₁,y₂,…,y_T}，获得输入序列的上下文表示r＝{r₁,r₂,…,r_T}，条件随机场输出的条件概率为：

其中，Y(x)是所有可能的标签序列集合，Ψ是势函数

本实施例中，通过使用源数据对教师模型进行训练，具体包括：

1)通过第一预训练网络编码源数据的上下文信息，获得发射概率矩阵迁移集合E。

2)将发射概率矩阵迁移集合E作为第一序列标注层的输入，微调第一预训练网络和第一序列标注层，得到训练好的教师模型。

S202、根据训练好的教师模型，利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型，得到训练好的学生模型。

本实施例的学生模型包括第二预训练网络和第二序列标注层，第二预训练网络和第二序列标注层的说明同步骤S201，在此不再赘述。

本实施例的知识蒸馏是指将潜在表示从教师模型传递给学生模型，使得参数量较少的学生模型具备和参数量较多的教师模型相近的表示能力，或使得单个学生模型模拟多个教师模型的表示能力。

本实施例的知识迁移是指将教师模型的神经网络最后一个全连接层的输出向量z(称为logits)，通过softmax输出层将每个类别对应的logit值z_i转换成类别概率q_i输出，用于监督学生模型的训练，q_i公式为：

其中，T是温度因子，用来控制每一个z_j的重要性。

进一步地，该步骤S202具体包括：

S2021、利用训练好的教师模型对无标签的迁移集合u进行预测，通过第一预训练网络计算得到第一发射概率矩阵P_t，以及通过前后向算法计算第一序列标注层得到第一后验概率矩阵Q_t。

本实施例的发射概率：在条件随机场中，发射概率是不考虑标签之间的约束，直接在序列的每个位置上进行标签多分类获得的概率。

本实施例的后验概率：在条件随机场中，将后验概率定义为给定输入序列x，序列位置i标记为y_i的条件概率p(y_i|x)，可以通过前向后向算法计算得到，如下式：

其中，α_i(y_i|x)＝α_i-1(y_i-1|x)M_i(y_i，y_i-1|x)表示序列位置i标记为y_i时，在位置i之前的部分标记序列的非规范化的条件概率；

β_i(y_i|x)＝M_i(y_i，y_i+1|x)β_i+1(y_i+1|x)表示序列位置i标记为y_i时，在位置i之后的部分标记序列的非规范化的条件概率；

Z(x)表示规范化因子，

m是标签类别总数。

式(4)定义了给定y_i-1时，从y_i-1转移到y_i的非规范化概率，f_k是定义的特征函数，w_k是特征函数的权重，即CRF要学习的参数。

S2022、将无标签的迁移集合输入学生模型，通过第二预训练网络计算得到第二发射概率矩阵P_s，以及通过前后向算法计算第二序列标注层得到第二后验概率矩阵Q_s。

第二发射概率矩阵P_s和第二后验概率矩阵Q_s的计算同步骤S2021，在此不再赘述。

S2023、通过第一蒸馏模块对第一发射概率矩阵进行蒸馏，通过优化教师模型与学生模型预测结果的误差，将教师模型学习到的知识迁移到学生模型中，以最小化发射损失。

S2024、通过第二蒸馏模块对第一后验概率矩阵进行蒸馏，通过优化教师模型与学生模型预测结果的误差，将教师模型学习到的知识迁移到学生模型中，以最小化后验损失。

在步骤S2023和S2034中，通过两个模块实现蒸馏方案，分别为第一蒸馏模块和第二蒸馏模块，其中第一蒸馏模块为word级别的蒸馏模块，第二蒸馏模块为structure级别的蒸馏模块；步骤S2023的目标是最小化发射损失，步骤S2024的目标最小化后验损失；通过步骤S2021～S2024，实现了向学生模型传递教师模型的潜在表示；

进一步地，发射损失如下式：

进一步地，后验损失如下式：

其中，y_i是序列中第i个词的向量，x是数据样本，V是类别集合，|V|是类别集合的大小。

S2025、对于异构的教师模型，分别对第二发射概率矩阵和第二后验概率矩阵进行局部归一化处理，实现异构教师模型的整合。

进一步地，该步骤S2025具体包括：

如图4所示，利用下式的概率关系，分别对第二发射概率矩阵和第二后验概率矩阵进行局部归一化处理，将概率值映射到[0,1]之间变成相对值关系，实现异构教师模型的整合：

其中，k∈L_i表示类别k在教师i训练数据的标签集合内。

S2026、通过最小化发射损失与后验损失之和构成的损失函数，训练学生模型，得到训练好的学生模型。

本实施例中，发射损失与后验损失之和构成的损失函数，如下式：

S203、利用训练好的学生模型对无标签文本数据的命名实体进行预测。

进一步地，该步骤S203具体包括：

S2031、将无标签文本数据作为一个序列x输入训练好的学生模型，通过第二预训练网络编码输入序列的上下文信息，得到对应的第二发射概率矩阵P_s。

S2032、使用第二序列标注层接收第二发射概率矩阵P_s，根据条件随机场模型从所有可能的标签序列中选取使得概率最大的标签序列，实现对无标签文本数据的命名实体预测。

本领域技术人员可以理解，实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，相应的程序可以存储于计算机可读存储介质中。

应当注意，尽管在附图中以特定顺序描述了上述实施例的方法操作，但是这并非必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

实施例2：

如图5所示，本实施例提供了一种隐私保护文本命名实体识别装置，该装置包括接收单元501、训练单元502和预测单元503，各个单元的具体功能如下：

接收单元501，用于接收多个数据持有方发送的多个训练好的教师模型，所述教师模型通过使用源数据进行训练，包括第一预训练网络和第一序列标注层，所述源数据为标注文本数据。

训练单元502，用于根据训练好的教师模型，利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型，得到训练好的学生模型，所述学生模型包括第二预训练网络和第二序列标注层。

预测单元503，用于利用训练好的学生模型对无标签文本数据的命名实体进行预测。

本实施例中各个单元的具体实现可以参见上述实施例1，在此不再一一赘述；需要说明的是，本实施例提供的装置仅以上述各功能单元的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。

实施例3：

本实施例提供了一种计算机设备，该计算机设备可以为计算机，如图6所示，其通过系统总线601连接的处理器602、存储器、输入装置603、显示装置604和网络接口605，该处理器用于提供计算和控制能力，该存储器包括非易失性存储介质606和内存储器607，该非易失性存储介质706存储有操作系统、计算机程序和数据库，该内存储器607为非易失性存储介质中的操作系统和计算机程序的运行提供环境，处理器602执行存储器存储的计算机程序时，实现上述实施例1的隐私保护文本命名实体识别方法，如下：

实施例4：

本实施例提供了一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时，实现上述实施例1的隐私保护文本命名实体识别方法，如下：

需要说明的是，本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

综上所述，本发明通过接收多个数据持有方发送的多个训练好的教师模型，通过无标签的迁移集合进行多教师知识蒸馏，训练出强大的学生模型，以此实现准确的命名实体识别，减小数据依赖的同时提供数据安全保障进而提升用户体验。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。