CN113486665B - 隐私保护文本命名实体识别方法、装置、设备及存储介质 - Google Patents

隐私保护文本命名实体识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113486665B
CN113486665B CN202110757350.2A CN202110757350A CN113486665B CN 113486665 B CN113486665 B CN 113486665B CN 202110757350 A CN202110757350 A CN 202110757350A CN 113486665 B CN113486665 B CN 113486665B
Authority
CN
China
Prior art keywords
teacher
model
probability matrix
trained
student model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110757350.2A
Other languages
English (en)
Other versions
CN113486665A (zh
Inventor
徐睿峰
殷轶平
罗璇
杜嘉晨
刘洋
廖清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202110757350.2A priority Critical patent/CN113486665B/zh
Publication of CN113486665A publication Critical patent/CN113486665A/zh
Application granted granted Critical
Publication of CN113486665B publication Critical patent/CN113486665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种隐私保护文本命名实体识别方法、装置、计算机设备及存储介质,方法包括:接收多个数据持有方发送的多个训练好的教师模型,所述教师模型通过使用源数据进行训练,包括第一预训练网络和第一序列标注层,所述源数据为标注文本数据;根据多个训练好的教师模型,利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型,所述学生模型包括第二预训练网络和第二序列标注层;利用训练好的学生模型对无标签文本数据的命名实体进行预测。本发明将知识蒸馏应用于数据分散的真实场景,在数据可用不可见的前提下,通过无标签的迁移集合,训练出强大的学生模型,从而在隐私保护的前提下,保证学生模型在命名实体识别任务上的泛化性和准确性。

Description

隐私保护文本命名实体识别方法、装置、设备及存储介质
技术领域
本发明涉及一种隐私保护文本命名实体识别方法、装置、计算机设备及存储介质,属于数据隐私保护领域。
背景技术
隐私保护领域,深度学习和机器学习的隐私保护方法可分为五类:基于安全多方计算的方法、基于同态加密的方法、基于随机梯度下降的方法、基于差分隐私的方法和基于知识蒸馏的方法。
原始的知识蒸馏框架(Hinton et al,2015)通常包含一个或多个大型的预训练教师模型和一个小型的学生模型,教师模型通常比学生模型大得多。主要思想是在教师模型的指导下训练高效的学生模型以获得具有竞争力的性能。而来自教师模型的监督信号(通常称为教师模型学到的“知识”)可以帮助学生模型模仿教师模型的行为。
教师-学生蒸馏框架可以保证学生模型在不直接使用教师模型的训练数据的情况下完成模型训练,从而实现学生模型和训练数据的隔离。
目前此领域的方法适用于单数据源场景,但实际应用中多为多数据源训练数据的隐私保护需求,即数据来自不同机构且不能相互公开。此外,多数据源之间存在异构性,即类别不同。目前此类技术不能直接蒸馏异构的知识。
发明内容
有鉴于此,本发明提供了一种隐私保护文本命名实体识别方法、装置、计算机设备及存储介质,其将知识蒸馏应用于数据分散的真实场景,在数据可用不可见的前提下,通过无标签的迁移集合,训练出强大的学生模型,从而在隐私保护的前提下,保证学生模型在命名实体识别任务上的泛化性和准确性。
本发明的第一个目的在于提供一种隐私保护文本命名实体识别方法。
本发明的第二个目的在于提供一种隐私保护文本命名实体识别装置。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种隐私保护文本命名实体识别方法,所述方法包括:
接收多个数据持有方发送的多个训练好的教师模型,所述教师模型通过使用源数据进行训练,包括第一预训练网络和第一序列标注层,所述源数据为标注文本数据;
根据训练好的教师模型,利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型,得到训练好的学生模型,所述学生模型包括第二预训练网络和第二序列标注层;
利用训练好的学生模型对无标签文本数据的命名实体进行预测。
进一步的,所述教师模型通过使用源数据进行训练,具体包括:
通过第一预训练网络编码源数据的上下文信息,获得发射概率矩阵迁移集合;
将发射概率矩阵迁移集合作为第一序列标注层的输入,微调第一预训练网络和第一序列标注层,得到训练好的教师模型。
进一步的,所述根据训练好的教师模型,利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型,得到训练好的学生模型,具体包括:
利用训练好的教师模型对无标签的迁移集合进行预测,通过第一预训练网络计算得到第一发射概率矩阵,以及通过前后向算法计算第一序列标注层得到第一后验概率矩阵;
将无标签的迁移集合输入学生模型,通过第二预训练网络计算得到第二发射概率矩阵,以及通过前后向算法计算第二序列标注层得到第二后验概率矩阵;
通过第一蒸馏模块对第一发射概率矩阵进行蒸馏,通过优化教师模型与学生模型预测结果的误差,将教师模型学习到的知识迁移到学生模型中,以最小化发射损失;
通过第二蒸馏模块对第一后验概率矩阵进行蒸馏,通过优化教师模型与学生模型预测结果的误差,将教师模型学习到的知识迁移到学生模型中,以最小化后验损失;
对于异构的教师模型,分别对第二发射概率矩阵和第二后验概率矩阵进行局部归一化处理,实现异构教师模型的整合;
通过最小化发射损失与后验损失之和构成的损失函数,训练学生模型,得到训练好的学生模型。
进一步的,所述发射损失如下式:
Figure BDA0003147652750000021
其中,Pt是第一发射概率矩阵,Ps是第二发射概率矩阵,yi是序列中第i个词的向量,x是数据样本,V是类别集合,|V|是类别集合的大小。
进一步的,所述后验损失如下式:
Figure BDA0003147652750000031
其中,Qt是第一后验概率矩阵,Qs是第二后验概率矩阵,yi是序列中第i个词的向量,x是数据样本,V是类别集合,|V|是类别集合的大小。
进一步的,所述对于异构的教师模型,分别对第二发射概率矩阵和第二后验概率矩阵进行局部归一化处理,实现异构教师模型的整合,具体包括:
利用下式的概率关系,分别对第二发射概率矩阵和第二后验概率矩阵进行局部归一化处理,将概率值映射到[0,1]之间变成相对值关系,实现异构教师模型的整合:
Figure BDA0003147652750000032
Figure BDA0003147652750000033
其中,Ps是第二发射概率矩阵,Qs是第二后验概率矩阵,k∈Li表示类别k在教师i训练数据的标签集合内。
进一步的,所述利用训练好的学生模型对无标签文本数据的命名实体进行预测,具体包括:
将无标签文本数据作为一个序列输入训练好的学生模型,通过第二预训练网络编码输入序列的上下文信息,得到对应的第二发射概率矩阵;
使用第二序列标注层接收第二发射概率矩阵,从所有可能的标签序列中选取使得概率最大的标签序列,实现对无标签文本数据的命名实体预测。
本发明的第二个目的可以通过采取如下技术方案达到:
一种隐私保护文本命名实体识别装置,所述装置包括:
接收单元,用于接收多个数据持有方发送的多个训练好的教师模型,所述教师模型通过使用源数据进行训练,包括第一预训练网络和第一序列标注层,所述源数据为标注文本数据;
训练单元,用于根据训练好的教师模型,利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型,得到训练好的学生模型,所述学生模型包括第二预训练网络和第二序列标注层;
预测单元,用于利用训练好的学生模型对无标签文本数据的命名实体进行预测。
本发明的第三个目的可以通过采取如下技术方案达到:
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的隐私保护文本命名实体识别方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的隐私保护文本命名实体识别方法。
本发明相对于现有技术具有如下的有益效果:
1、本发明通过接收多个数据持有方发送的多个训练好的教师模型,通过无标签的迁移集合进行多教师知识蒸馏,训练出强大的学生模型,以此实现准确的命名实体识别,减小数据依赖的同时提供数据安全保障进而提升用户体验。
2、本发明对于异构的教师模型,分别对教师模型得到的发射概率矩阵和后验概率矩阵进行局部归一化处理,实现异构教师模型的整合,因此在多个数据持有方数据参与模型训练情况下,各数据持有方可以通过扩展可识别命名实体类型范围的同时保护文本数据隐私。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例1的隐私保护文本命名实体识别任务框架的示意图。
图2为本发明实施例1的隐私保护文本命名实体识别方法的流程图。
图3为本发明实施例1的序列标注示意图。
图4为本发明实施例1的异构教师模型整合的示意图。
图5为本发明实施例2的隐私保护文本命名实体识别装置的结构框图。
图6为本发明实施例3的计算机设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1所示,本实施例提供了一种基于知识蒸馏的隐私保护文本命名实体识别任务框架,该框架可应用于数据安全产品中,其主要应用场景包括安全的多源数据使用,通过引入本该框架,可以实现多个数据持有方的共赢,训练出多样性和准确性更高的公开的学习器,在考虑数据安全的命名实体识别任务上,该框架能够仅通过无标签的迁移集合来实现准确的命名实体识别,减小数据依赖的同时提供数据安全保障进而提升产品体验。
如图1和图2所示,本实施例提供了一种隐私保护文本命名实体识别方法,该方法基于上述的隐私保护文本命名实体识别任务框架实现,包括以下步骤:
S201、接收多个数据持有方发送的多个训练好的教师模型。
本实施例的教师模型包括第一预训练网络和第一序列标注层,本实施例的预训练网络即为预训练模型(Pre_trained Model,简称PM),具体可以采用单项模型、BERT系列模型、XLNet;序列标注层可以采用条件随机场(Conditional Random Field,简称CRF)模型,也可以采用其他序列标注模型。
本实施例的序列标注任务是指给定一个序列,对序列中的每一个元素做一个标记,或者说给每一个元素打一个标签,例如图3,采用BMES标注体系,其中,B表示一个多字实体的首字,M表示该实体中间字,E表示该实体的末字,S表示单字实体;本实施例将数据持有方的本地文本数据作为一个序列,并进行标注得到源数据(X,Y),源数据的数据格式是文本,文本数据在用于模型训练前不必进行脱敏处理;再利用一个公开数据集作为迁移集用于学生模型的训练。在学生模型公布后,攻击者无法从学生模型中还原出教师模型的训练数据的分布和隐私信息;本实施例采取对机构或个人的敏感数据进行保护的措施,使得攻击者无法直接或间接地从模型中获得用于训练的隐私数据,实现数据隐私保护。
本实施例的条件随机场是一种机器学习模型,在序列标注任务中用于学习标签的上下文约束。给定一个序列X={x1,x2,…,xT}和对应的真实标签序列Y*={y1,y2,…,yT},获得输入序列的上下文表示r={r1,r2,…,rT},条件随机场输出的条件概率为:
Figure BDA0003147652750000051
其中,Y(x)是所有可能的标签序列集合,Ψ是势函数
Figure BDA0003147652750000061
Figure BDA0003147652750000062
本实施例中,通过使用源数据对教师模型进行训练,具体包括:
1)通过第一预训练网络编码源数据的上下文信息,获得发射概率矩阵迁移集合E。
2)将发射概率矩阵迁移集合E作为第一序列标注层的输入,微调第一预训练网络和第一序列标注层,得到训练好的教师模型。
S202、根据训练好的教师模型,利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型,得到训练好的学生模型。
本实施例的学生模型包括第二预训练网络和第二序列标注层,第二预训练网络和第二序列标注层的说明同步骤S201,在此不再赘述。
本实施例的知识蒸馏是指将潜在表示从教师模型传递给学生模型,使得参数量较少的学生模型具备和参数量较多的教师模型相近的表示能力,或使得单个学生模型模拟多个教师模型的表示能力。
本实施例的知识迁移是指将教师模型的神经网络最后一个全连接层的输出向量z(称为logits),通过softmax输出层将每个类别对应的logit值zi转换成类别概率qi输出,用于监督学生模型的训练,qi公式为:
Figure BDA0003147652750000063
其中,T是温度因子,用来控制每一个zj的重要性。
进一步地,该步骤S202具体包括:
S2021、利用训练好的教师模型对无标签的迁移集合u进行预测,通过第一预训练网络计算得到第一发射概率矩阵Pt,以及通过前后向算法计算第一序列标注层得到第一后验概率矩阵Qt
本实施例的发射概率:在条件随机场中,发射概率是不考虑标签之间的约束,直接在序列的每个位置上进行标签多分类获得的概率。
本实施例的后验概率:在条件随机场中,将后验概率定义为给定输入序列x,序列位置i标记为yi的条件概率p(yi|x),可以通过前向后向算法计算得到,如下式:
Figure BDA0003147652750000071
其中,αi(yi|x)=αi-1(yi-1|x)Mi(yi,yi-1|x)表示序列位置i标记为yi时,在位置i之前的部分标记序列的非规范化的条件概率;
βi(yi|x)=Mi(yi,yi+1|x)βi+1(yi+1|x)表示序列位置i标记为yi时,在位置i之后的部分标记序列的非规范化的条件概率;
Z(x)表示规范化因子,
Figure BDA0003147652750000072
m是标签类别总数。
Figure BDA0003147652750000073
式(4)定义了给定yi-1时,从yi-1转移到yi的非规范化概率,fk是定义的特征函数,wk是特征函数的权重,即CRF要学习的参数。
S2022、将无标签的迁移集合输入学生模型,通过第二预训练网络计算得到第二发射概率矩阵Ps,以及通过前后向算法计算第二序列标注层得到第二后验概率矩阵Qs
第二发射概率矩阵Ps和第二后验概率矩阵Qs的计算同步骤S2021,在此不再赘述。
S2023、通过第一蒸馏模块对第一发射概率矩阵进行蒸馏,通过优化教师模型与学生模型预测结果的误差,将教师模型学习到的知识迁移到学生模型中,以最小化发射损失。
S2024、通过第二蒸馏模块对第一后验概率矩阵进行蒸馏,通过优化教师模型与学生模型预测结果的误差,将教师模型学习到的知识迁移到学生模型中,以最小化后验损失。
在步骤S2023和S2034中,通过两个模块实现蒸馏方案,分别为第一蒸馏模块和第二蒸馏模块,其中第一蒸馏模块为word级别的蒸馏模块,第二蒸馏模块为structure级别的蒸馏模块;步骤S2023的目标是最小化发射损失,步骤S2024的目标最小化后验损失;通过步骤S2021~S2024,实现了向学生模型传递教师模型的潜在表示;
进一步地,发射损失如下式:
Figure BDA0003147652750000081
进一步地,后验损失如下式:
Figure BDA0003147652750000082
其中,yi是序列中第i个词的向量,x是数据样本,V是类别集合,|V|是类别集合的大小。
S2025、对于异构的教师模型,分别对第二发射概率矩阵和第二后验概率矩阵进行局部归一化处理,实现异构教师模型的整合。
进一步地,该步骤S2025具体包括:
如图4所示,利用下式的概率关系,分别对第二发射概率矩阵和第二后验概率矩阵进行局部归一化处理,将概率值映射到[0,1]之间变成相对值关系,实现异构教师模型的整合:
Figure BDA0003147652750000083
Figure BDA0003147652750000084
其中,k∈Li表示类别k在教师i训练数据的标签集合内。
S2026、通过最小化发射损失与后验损失之和构成的损失函数,训练学生模型,得到训练好的学生模型。
本实施例中,发射损失与后验损失之和构成的损失函数,如下式:
Figure BDA0003147652750000085
S203、利用训练好的学生模型对无标签文本数据的命名实体进行预测。
进一步地,该步骤S203具体包括:
S2031、将无标签文本数据作为一个序列x输入训练好的学生模型,通过第二预训练网络编码输入序列的上下文信息,得到对应的第二发射概率矩阵Ps
S2032、使用第二序列标注层接收第二发射概率矩阵Ps,根据条件随机场模型从所有可能的标签序列中选取使得概率最大的标签序列,实现对无标签文本数据的命名实体预测。
本领域技术人员可以理解,实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读存储介质中。
应当注意,尽管在附图中以特定顺序描述了上述实施例的方法操作,但是这并非必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2:
如图5所示,本实施例提供了一种隐私保护文本命名实体识别装置,该装置包括接收单元501、训练单元502和预测单元503,各个单元的具体功能如下:
接收单元501,用于接收多个数据持有方发送的多个训练好的教师模型,所述教师模型通过使用源数据进行训练,包括第一预训练网络和第一序列标注层,所述源数据为标注文本数据。
训练单元502,用于根据训练好的教师模型,利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型,得到训练好的学生模型,所述学生模型包括第二预训练网络和第二序列标注层。
预测单元503,用于利用训练好的学生模型对无标签文本数据的命名实体进行预测。
本实施例中各个单元的具体实现可以参见上述实施例1,在此不再一一赘述;需要说明的是,本实施例提供的装置仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。
实施例3:
本实施例提供了一种计算机设备,该计算机设备可以为计算机,如图6所示,其通过系统总线601连接的处理器602、存储器、输入装置603、显示装置604和网络接口605,该处理器用于提供计算和控制能力,该存储器包括非易失性存储介质606和内存储器607,该非易失性存储介质706存储有操作系统、计算机程序和数据库,该内存储器607为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器602执行存储器存储的计算机程序时,实现上述实施例1的隐私保护文本命名实体识别方法,如下:
接收多个数据持有方发送的多个训练好的教师模型,所述教师模型通过使用源数据进行训练,包括第一预训练网络和第一序列标注层,所述源数据为标注文本数据;
根据训练好的教师模型,利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型,得到训练好的学生模型,所述学生模型包括第二预训练网络和第二序列标注层;
利用训练好的学生模型对无标签文本数据的命名实体进行预测。
实施例4:
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例1的隐私保护文本命名实体识别方法,如下:
接收多个数据持有方发送的多个训练好的教师模型,所述教师模型通过使用源数据进行训练,包括第一预训练网络和第一序列标注层,所述源数据为标注文本数据;
根据训练好的教师模型,利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型,得到训练好的学生模型,所述学生模型包括第二预训练网络和第二序列标注层;
利用训练好的学生模型对无标签文本数据的命名实体进行预测。
需要说明的是,本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
综上所述,本发明通过接收多个数据持有方发送的多个训练好的教师模型,通过无标签的迁移集合进行多教师知识蒸馏,训练出强大的学生模型,以此实现准确的命名实体识别,减小数据依赖的同时提供数据安全保障进而提升用户体验。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (8)

1.一种隐私保护文本命名实体识别方法,其特征在于,所述方法包括:
接收多个数据持有方发送的多个训练好的教师模型,所述教师模型通过使用源数据进行训练,包括第一预训练网络和第一序列标注层,所述源数据为标注文本数据;
根据训练好的教师模型,利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型,得到训练好的学生模型,所述学生模型包括第二预训练网络和第二序列标注层;
利用训练好的学生模型对无标签文本数据的命名实体进行预测;
所述根据训练好的教师模型,利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型,得到训练好的学生模型,具体包括:
利用训练好的教师模型对无标签的迁移集合进行预测,通过第一预训练网络计算得到第一发射概率矩阵,以及通过前后向算法计算第一序列标注层得到第一后验概率矩阵;
将无标签的迁移集合输入学生模型,通过第二预训练网络计算得到第二发射概率矩阵,以及通过前后向算法计算第二序列标注层得到第二后验概率矩阵;
通过第一蒸馏模块对第一发射概率矩阵进行蒸馏,通过优化教师模型与学生模型预测结果的误差,将教师模型学习到的知识迁移到学生模型中,以最小化发射损失;
通过第二蒸馏模块对第一后验概率矩阵进行蒸馏,通过优化教师模型与学生模型预测结果的误差,将教师模型学习到的知识迁移到学生模型中,以最小化后验损失;
对于异构的教师模型,分别对第二发射概率矩阵和第二后验概率矩阵进行局部归一化处理,实现异构教师模型的整合;
通过最小化发射损失与后验损失之和构成的损失函数,训练学生模型,得到训练好的学生模型;
所述对于异构的教师模型,分别对第二发射概率矩阵和第二后验概率矩阵进行局部归一化处理,实现异构教师模型的整合,具体包括:
利用下式的概率关系,分别对第二发射概率矩阵和第二后验概率矩阵进行局部归一化处理,将概率值映射到[0,1]之间变成相对值关系,实现异构教师模型的整合:
Figure FDA0004202542160000011
Figure FDA0004202542160000021
其中,Ps是第二发射概率矩阵,Qs是第二后验概率矩阵,k∈Li′表示类别k在教师i′训练数据的标签集合内。
2.根据权利要求1所述的隐私保护文本命名实体识别方法,其特征在于,所述教师模型通过使用源数据进行训练,具体包括:
通过第一预训练网络编码源数据的上下文信息,获得发射概率矩阵迁移集合;
将发射概率矩阵迁移集合作为第一序列标注层的输入,微调第一预训练网络和第一序列标注层,得到训练好的教师模型。
3.根据权利要求1所述的隐私保护文本命名实体识别方法,其特征在于,所述发射损失如下式:
Figure FDA0004202542160000022
其中,Pt是第一发射概率矩阵,Ps是第二发射概率矩阵,yi是序列中第i个词的向量,x是数据样本,V是类别集合,|V|是类别集合的大小。
4.根据权利要求1所述的隐私保护文本命名实体识别方法,其特征在于,所述后验损失如下式:
Figure FDA0004202542160000023
其中,Qt是第一后验概率矩阵,Qs是第二后验概率矩阵,yi是序列中第i个词的向量,x是数据样本,V是类别集合,|V|是类别集合的大小。
5.根据权利要求1-4任一项所述的隐私保护文本命名实体识别方法,其特征在于,所述利用训练好的学生模型对无标签文本数据的命名实体进行预测,具体包括:
将无标签文本数据作为一个序列输入训练好的学生模型,通过第二预训练网络编码输入序列的上下文信息,得到对应的第二发射概率矩阵;
使用第二序列标注层接收第二发射概率矩阵,从所有可能的标签序列中选取使得概率最大的标签序列,实现对无标签文本数据的命名实体预测。
6.一种隐私保护文本命名实体识别装置,其特征在于,所述装置包括:
接收单元,用于接收多个数据持有方发送的多个训练好的教师模型,所述教师模型通过使用源数据进行训练,包括第一预训练网络和第一序列标注层,所述源数据为标注文本数据;
训练单元,用于根据训练好的教师模型,利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型,得到训练好的学生模型,所述学生模型包括第二预训练网络和第二序列标注层;
预测单元,用于利用训练好的学生模型对无标签文本数据的命名实体进行预测;
所述根据训练好的教师模型,利用无标签的迁移集合进行多教师知识蒸馏从而训练学生模型,得到训练好的学生模型,具体包括:
利用训练好的教师模型对无标签的迁移集合进行预测,通过第一预训练网络计算得到第一发射概率矩阵,以及通过前后向算法计算第一序列标注层得到第一后验概率矩阵;
将无标签的迁移集合输入学生模型,通过第二预训练网络计算得到第二发射概率矩阵,以及通过前后向算法计算第二序列标注层得到第二后验概率矩阵;
通过第一蒸馏模块对第一发射概率矩阵进行蒸馏,通过优化教师模型与学生模型预测结果的误差,将教师模型学习到的知识迁移到学生模型中,以最小化发射损失;
通过第二蒸馏模块对第一后验概率矩阵进行蒸馏,通过优化教师模型与学生模型预测结果的误差,将教师模型学习到的知识迁移到学生模型中,以最小化后验损失;
对于异构的教师模型,分别对第二发射概率矩阵和第二后验概率矩阵进行局部归一化处理,实现异构教师模型的整合;
通过最小化发射损失与后验损失之和构成的损失函数,训练学生模型,得到训练好的学生模型;
所述对于异构的教师模型,分别对第二发射概率矩阵和第二后验概率矩阵进行局部归一化处理,实现异构教师模型的整合,具体包括:
利用下式的概率关系,分别对第二发射概率矩阵和第二后验概率矩阵进行局部归一化处理,将概率值映射到[0,1]之间变成相对值关系,实现异构教师模型的整合:
Figure FDA0004202542160000031
Figure FDA0004202542160000032
其中,Ps是第二发射概率矩阵,Qs是第二后验概率矩阵,k∈Li′表示类别k在教师i′训练数据的标签集合内。
7.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-5任一项所述的隐私保护文本命名实体识别方法。
8.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-5任一项所述的隐私保护文本命名实体识别方法。
CN202110757350.2A 2021-07-05 2021-07-05 隐私保护文本命名实体识别方法、装置、设备及存储介质 Active CN113486665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110757350.2A CN113486665B (zh) 2021-07-05 2021-07-05 隐私保护文本命名实体识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110757350.2A CN113486665B (zh) 2021-07-05 2021-07-05 隐私保护文本命名实体识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113486665A CN113486665A (zh) 2021-10-08
CN113486665B true CN113486665B (zh) 2023-06-20

Family

ID=77940822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110757350.2A Active CN113486665B (zh) 2021-07-05 2021-07-05 隐私保护文本命名实体识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113486665B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901224A (zh) * 2021-11-22 2022-01-07 国家电网有限公司信息通信分公司 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
CN114330346A (zh) * 2021-12-28 2022-04-12 广州华多网络科技有限公司 文本实体识别方法及其装置、设备、介质、产品
CN114580415B (zh) * 2022-02-25 2024-03-22 华南理工大学 一种面向教育考试的跨域图匹配实体识别方法
CN114743243B (zh) * 2022-04-06 2024-05-31 平安科技(深圳)有限公司 基于人工智能的人脸识别方法、装置、设备及存储介质
CN115019183B (zh) * 2022-07-28 2023-01-20 北京卫星信息工程研究所 基于知识蒸馏和图像重构的遥感影像模型迁移方法
CN116401359A (zh) * 2023-06-09 2023-07-07 深圳前海环融联易信息科技服务有限公司 文档抽取方法及装置、介质、设备
CN117473561A (zh) * 2023-12-28 2024-01-30 天津光电聚能通信股份有限公司 基于人工智能的隐私信息识别系统、方法、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647765A (zh) * 2019-09-19 2020-01-03 济南大学 协同学习框架下基于知识迁移的隐私保护方法及系统
CN112885468A (zh) * 2021-01-26 2021-06-01 深圳大学 一种基于随机响应差分隐私技术的教师共识聚集学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210134387A1 (en) * 2018-09-11 2021-05-06 Ancestry.Com Dna, Llc Ancestry inference based on convolutional neural network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647765A (zh) * 2019-09-19 2020-01-03 济南大学 协同学习框架下基于知识迁移的隐私保护方法及系统
CN112885468A (zh) * 2021-01-26 2021-06-01 深圳大学 一种基于随机响应差分隐私技术的教师共识聚集学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Amalgamating Knowledge from Two Teachers for Task-oriented Dialogue System with Adversarial Training;Wanwei He et al.;《Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing》;第3498–3507页 *
基于知识蒸馏的自适应多领域情感分析;杨修远 等;《山东大学学报( 工学版)》;第51卷(第3期);第15-29页 *

Also Published As

Publication number Publication date
CN113486665A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN113486665B (zh) 隐私保护文本命名实体识别方法、装置、设备及存储介质
CN112163426B (zh) 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法
CN111078836B (zh) 基于外部知识增强的机器阅读理解方法、系统、装置
US11631338B2 (en) Deep knowledge tracing with transformers
US11487944B1 (en) System, method, and computer program for obtaining a unified named entity recognition model with the collective predictive capabilities of teacher models with different tag sets using marginal distillation
US11663406B2 (en) Methods and systems for automated detection of personal information using neural networks
CN112765370B (zh) 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN111695335A (zh) 一种智能面试方法、装置及终端设备
Ji et al. Image-attribute reciprocally guided attention network for pedestrian attribute recognition
KR102139272B1 (ko) 생의학적 개체명 인식 시스템
CN113807973B (zh) 文本纠错方法、装置、电子设备及计算机可读存储介质
CN113836866B (zh) 文本编码方法、装置、计算机可读介质及电子设备
CN113779225B (zh) 实体链接模型的训练方法、实体链接方法及装置
CN112269875B (zh) 文本分类方法、装置、电子设备及存储介质
CN117236335B (zh) 基于提示学习的两阶段命名实体识别方法
CN116385937B (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN116136870A (zh) 基于增强实体表示的智能社交对话方法、对话系统
Jin et al. Dual low-rank multimodal fusion
CN112463956A (zh) 基于对抗学习和分层神经网络的文本摘要生成系统和方法
CN115423105A (zh) 一种预训练语言模型构建方法、系统及装置
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
Ranjan et al. A sub-sequence based approach to protein function prediction via multi-attention based multi-aspect network
Hakimov et al. Evaluating architectural choices for deep learning approaches for question answering over knowledge bases
Su et al. Low‐Rank Deep Convolutional Neural Network for Multitask Learning
CN116882403A (zh) 一种地理命名实体多目标匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant