CN115409124B - 基于微调原型网络的小样本敏感信息识别方法 - Google Patents

基于微调原型网络的小样本敏感信息识别方法 Download PDF

Info

Publication number
CN115409124B
CN115409124B CN202211139369.1A CN202211139369A CN115409124B CN 115409124 B CN115409124 B CN 115409124B CN 202211139369 A CN202211139369 A CN 202211139369A CN 115409124 B CN115409124 B CN 115409124B
Authority
CN
China
Prior art keywords
sample
sensitive
text
fine tuning
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211139369.1A
Other languages
English (en)
Other versions
CN115409124A (zh
Inventor
黄于欣
毛存礼
张思琦
张勇丙
宋燃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaoyu Intelligent Information Technology Yunnan Co ltd
Original Assignee
Xiaoyu Intelligent Information Technology Yunnan Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaoyu Intelligent Information Technology Yunnan Co ltd filed Critical Xiaoyu Intelligent Information Technology Yunnan Co ltd
Priority to CN202211139369.1A priority Critical patent/CN115409124B/zh
Publication of CN115409124A publication Critical patent/CN115409124A/zh
Application granted granted Critical
Publication of CN115409124B publication Critical patent/CN115409124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于微调原型网络的小样本敏感信息识别方法,属于自然语言处理技术领域。本发明首先构造敏感文本数据集;其次,在元训练阶段通用新闻领域的分类任务上训练模型来学习通用知识,同时在训练过程中经过两阶段梯度更新,得到一组对新任务敏感的快速适应初始参数;在元测试阶段敏感文本数据集的新任务上,冻结模型部分参数并使用支持集进一步微调,使模型更好地泛化到敏感识别领域上。本发明能够实现在少量敏感样本支撑的条件下对敏感分类进行识别,显著提升了敏感信息识别任务的分类效果。

Description

基于微调原型网络的小样本敏感信息识别方法
技术领域
本发明涉及基于微调原型网络的小样本敏感信息识别方法,属于自然语言处理技术领域。
背景技术
敏感信息识别主要是指从互联网上识别各种类型的敏感信息,现有的敏感信息识别通常将其看作文本分类任务,目前国内外主要的研究方法有两类:基于敏感词典的研究方法和基于深度学习的研究方法。基于敏感词典的方法通过制定规则与匹配算法利用敏感词表中关键词对文本进行过滤。但是敏感词表需要人工维护,由于网络新词、术语、敏感词变形体更新迭代速度快,构建维护敏感词表不仅易错漏,而且耗费较大。基于深度学习模型自动提取语义特征对文本进行分类,但深度学习方法依赖于大量数据和计算能力,对于敏感信息识别任务,目前没有公开的敏感文本数据集,而人工收集和标注数据集困难,构建敏感文本数据集中敏感信息类别样本数较小,不足以支持深度学习大规模参数的训练。
因此本发明通过小样本学习框架解决敏感文本数据类别样本不足的问题,并提出了快速适应的微调方法,缓解了元训练阶段通用领域数据集和元测试阶段敏感文本数据集领域分布差异大、跨域不适应的问题。
发明内容
本发明提供了基于微调原型网络的小样本敏感信息识别方法,以用于解决敏感文本数据类别样本不足、小样本学习跨域不适应的问题。
本发明的技术方案是:基于微调原型网络的小样本敏感信息识别方法,所述基于微调原型网络的小样本敏感信息识别方法的具体步骤如下:
Step1、从互联网上爬取数据,对数据进行处理,构建敏感文本数据集;
Step2、元训练阶段,使用通用新闻领域分类任务训练模型,拆分支持集分批次微调模型后,使用查询集在微调模型上的损失梯度对初始模型二次梯度更新;
Step3、元测试阶段,使用敏感领域数据集测试模型,拆分支持集分批次微调模型后,使用文本特征提取器和度量模块获取查询集的敏感分类。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、使用爬虫技术从新浪微博采集数据;
Step1.2、对数据进行清洗,去除微博文本中带有的链接、特殊符号等干扰文本;
Step1.3、对文本数据进行人工标注,构造含有色情、毒品、邪教、暴力、正常五种分类类型的敏感文本数据集。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、将小样本学习每次训练任务称作一个episode,从新闻标题数据集中抽取n个类,每个类抽取k个样本作为支持集,表示为
Figure BDA0003853222560000021
从与支持集相同的类抽取样本作为查询集,表示为Q={Xq,Yq};/>
Step2.2、在步骤2.1的基础上,将支持集S拆分为小批次s1,s2,…,sb,其中
Figure BDA0003853222560000022
使用小批次对模型文本特征提取器E进行多次微调迭代,得到新的文本特征提取器/>
Figure BDA0003853222560000023
Step2.3、使用
Figure BDA0003853222560000024
获得支持集S中样本Xs和查询集Q中样本Xq的特征表示,通过度量学习方法M获得查询集中样本的预测值/>
Figure BDA0003853222560000025
Step2.4、在步骤Step 2.3的基础上,采用交叉熵损失函数
Figure BDA0003853222560000026
衡量微调后预测值/>
Figure BDA0003853222560000027
与对应真实标签Yq之间的差距Loss_ft,通过Loss_ft计算特征提取器所有层参数梯度
Figure BDA0003853222560000028
使用/>
Figure BDA0003853222560000029
更新episode初始时的文本编码器E,结合/>
Figure BDA00038532225600000210
与/>
Figure BDA00038532225600000211
得到/>
Figure BDA00038532225600000212
作为下一个episode的初始特征提取器。
作为本发明的优选方案,所述步骤Step2.2的具体步骤为:
Step2.2.1、微调过程中,将文本特征提取器E参数划分为前L层与后l层两部分,分别表示为θE(L)与θE(l),冻结θE(L),微调过程中不对其进行更新;
Step2.2.2、在每个小批次si中,使用E对si中样本Xsi进行特征提取得到文本特征向量Vsi
Vsi=E(L+l)(Xsi)
Step2.2.3、使用线性分类器C对Vsi进行预测并计算这一批次的损失Loss_si
Figure BDA00038532225600000213
其中
Figure BDA00038532225600000214
为定义的交叉熵损失函数;
Step2.2.4、使用Loss_si通过反向传播算法仅对后l层参数θE(l)进行更新,用
Figure BDA00038532225600000215
表示更新后得到的参数,并结合θE(L)与/>
Figure BDA0003853222560000031
得到新的文本特征提取器/>
Figure BDA0003853222560000032
参与下一个小批次的微调过程。
作为本发明的优选方案,所述步骤Step2.3的具体步骤为:
Step2.3.1、在步骤2.2的基础上,使用
Figure BDA0003853222560000033
对支持集S中样本Xs和查询集Q中样本Xq进行特征提取得到文本特征向量VS和VQ
Figure BDA0003853222560000034
Step2.3.2、支持集样本Xs特征表示Vs中,对每个相同类中样本的特征向量{vn,1,vn,2,…,vn,k}做平均作为该类的原型;
Figure BDA0003853222560000035
其中n表示支持集中的第n个类,K表示支持集中每个类中包含K个样本;
Step2.3.3、得到支持集中各类原型向量
Figure BDA0003853222560000036
后,计算查询集中样本Xq的特征向量Vq与PN的欧式距离,并作为预测评分,样本特征与各原型间的欧式距离和评分应成负相关:/>
Figure BDA0003853222560000037
其中scorei,n表示查询集中第i个样本与第n个类原型之间的评分。
作为本发明的优选方案,所述步骤Step2.4的具体步骤为:
Step2.4.1、通过scorei,n得到查询集样本Xq的预测值
Figure BDA0003853222560000038
采用交叉熵损失函数/>
Figure BDA0003853222560000039
衡量微调后预测值/>
Figure BDA00038532225600000310
与对应真实标签Yq之间的损失;
Figure BDA00038532225600000311
Step2.4.2、使用Loss_ft计算
Figure BDA00038532225600000312
所有层参数梯度/>
Figure BDA00038532225600000313
Step2.4.3、使用
Figure BDA00038532225600000314
更新episode初始的文本编码器E:
Figure BDA00038532225600000315
Figure BDA00038532225600000316
其中lr为学习率,结合
Figure BDA0003853222560000041
与/>
Figure BDA0003853222560000042
得到/>
Figure BDA0003853222560000043
作为下一个episode的初始特征提取器。
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、从敏感文本数据集中抽取n个类,每个类抽取k个样本作为支持集,表示为
Figure BDA0003853222560000044
从与支持集相同的类抽取样本作为查询集,表示为Q={Xq,Yq};
Step3.2、在步骤Step 3.1的基础上,将支持集S拆分为小批次s1,s2,…,sb,其中
Figure BDA0003853222560000045
使用小批次对模型文本特征提取器E进行多次微调迭代,得到新的文本特征提取器/>
Figure BDA0003853222560000046
具体操作步骤同步骤Step 2.2中所详述;
Step3.3、使用
Figure BDA0003853222560000047
获得支持集S中样本Xs和查询集Q中样本Xq的特征表示,通过度量学习方法M获得查询集中样本的预测值/>
Figure BDA0003853222560000048
即获得查询集中样本的敏感分类,具体操作步骤同步骤Step 2.3所详述。
本发明的有益效果是:
本文提出了基于微调原型网络的小样本敏感信息识别方法,通过小样本学习框架解决敏感文本数据类别样本不足的问题,并提出了快速适应的微调方法,在元训练阶段获得易于调整的初始参数,在元测试阶段对特征提取器冻结一部分参数并进行微调,来解决元训练阶段通用领域数据集和元测试阶段敏感文本数据集领域分布差异大、跨域不适应的问题。
附图说明
图1是本发明中的总的流程图;
图2是本发明的模型结构图;
图3是本发明的微调过程图;
具体实施方式
实施例1:如图1-图3所示,基于微调原型网络的小样本敏感信息识别方法,其具体步骤如下:
Step1、从互联网上爬取数据,对数据进行处理,构建敏感文本数据集;所构建敏感文本数据集具体类别对应数据量如表1所示:
表1敏感文本数据集分布
Figure BDA0003853222560000049
Figure BDA0003853222560000051
Step2、元训练阶段,使用通用新闻领域分类任务训练模型,拆分支持集分批次微调模型后,使用查询集在微调模型上的损失梯度对初始模型二次梯度更新;
Step3、元测试阶段,使用敏感领域数据集测试模型,拆分支持集分批次微调模型后,使用文本特征提取器和度量模块获取查询集的敏感分类。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、使用爬虫技术从新浪微博采集数据;
Step1.2、对数据进行清洗,去除微博文本中带有的链接、特殊符号等干扰文本;
Step1.3、对文本数据进行人工标注,构造含有色情、毒品、邪教、暴力、正常五种分类类型的敏感文本数据集。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、将小样本学习每次训练任务称作一个episode,从新闻标题数据集中抽取n个类,每个类抽取k个样本作为支持集,表示为
Figure BDA0003853222560000052
从与支持集相同的类抽取样本作为查询集,表示为Q={Xq,Yq};
Step2.2、在步骤Step 2.1的基础上,将支持集S拆分为小批次s1,s2,…,sb,其中
Figure BDA0003853222560000053
使用小批次对模型文本特征提取器E进行多次微调迭代,得到新的文本特征提取器/>
Figure BDA0003853222560000054
Step2.3、使用
Figure BDA0003853222560000055
获得支持集S中样本Xs和查询集Q中样本Xq的特征表示,通过度量学习方法M获得查询集中样本的预测值/>
Figure BDA0003853222560000056
Step2.4、在步骤Step 2.3的基础上,采用交叉熵损失函数
Figure BDA00038532225600000513
衡量微调后预测值/>
Figure BDA0003853222560000057
与对应真实标签Yq之间的差距Loss_ft,通过Loss_ft计算特征提取器所有层参数梯度
Figure BDA0003853222560000058
使用/>
Figure BDA0003853222560000059
更新episode初始时的文本编码器E,结合/>
Figure BDA00038532225600000510
与/>
Figure BDA00038532225600000511
得到/>
Figure BDA00038532225600000512
作为下一个episode的初始特征提取器。/>
作为本发明的优选方案,所述步骤Step2.2的具体步骤为:
Step2.2.1、微调过程中,将文本特征提取器E参数划分为前L层与后l层两部分,分别表示为θE(L)与θE(l),冻结θE(L),微调过程中不对其进行更新;
Step2.2.2、在每个小批次si中,使用E对si中样本Xsi进行特征提取得到文本特征向量Vsi
Vsi=E(L+l)(Xsi)
Step2.2.3、使用线性分类器C对Vsi进行预测并计算这一批次的损失Loss_si
Figure BDA0003853222560000061
其中
Figure BDA0003853222560000062
为定义的交叉熵损失函数;
Step2.2.4、使用Loss_si通过反向传播算法仅对后l层参数θE(l)进行更新,用
Figure BDA0003853222560000063
表示更新后得到的参数,并结合θE(L)与/>
Figure BDA0003853222560000064
得到新的文本特征提取器/>
Figure BDA0003853222560000065
参与下一个小批次的微调过程。
作为本发明的优选方案,所述步骤Step2.3的具体步骤为:
Step2.3.1、在步骤Step 2.2的基础上,使用
Figure BDA0003853222560000066
对支持集S中样本Xs和查询集Q中样本Xq进行特征提取得到文本特征向量VS和VQ
Figure BDA0003853222560000067
Step2.3.2、支持集样本Xs特征表示Vs中,对每个相同类中样本的特征向量{vn,1,vn,2,…,vn,k}做平均作为该类的原型;
Figure BDA0003853222560000068
其中n表示支持集中的第n个类,K表示支持集中每个类中包含K个样本;
Step2.3.3、得到支持集中各类原型向量
Figure BDA0003853222560000069
后,计算查询集中样本Xq的特征向量Vq与PN的欧式距离,并作为预测评分,样本特征与各原型间的欧式距离和评分应成负相关:
Figure BDA00038532225600000610
其中scorei,n表示查询集中第i个样本与第n个类原型之间的评分。
作为本发明的优选方案,所述步骤Step2.4的具体步骤为:
Step2.4.1、通过scorei,n得到查询集样本Xq的预测值
Figure BDA00038532225600000611
采用交叉熵损失函数/>
Figure BDA00038532225600000612
衡量微调后预测值/>
Figure BDA0003853222560000071
与对应真实标签Yq之间的损失;
Figure BDA0003853222560000072
Step2.4.2、使用Loss_ft计算
Figure BDA0003853222560000073
所有层参数梯度/>
Figure BDA0003853222560000074
Step2.4.3、使用
Figure BDA0003853222560000075
更新episode初始的文本编码器E:
Figure BDA0003853222560000076
/>
Figure BDA0003853222560000077
其中lr为学习率,结合
Figure BDA0003853222560000078
与/>
Figure BDA0003853222560000079
得到/>
Figure BDA00038532225600000710
作为下一个episode的初始特征提取器。
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、从敏感文本数据集中抽取n个类,每个类抽取k个样本作为支持集,表示为
Figure BDA00038532225600000711
从与支持集相同的类抽取样本作为查询集,表示为Q={Xq,Yq};
Step3.2、在步骤Step 3.1的基础上,将支持集S拆分为小批次s1,s2,…,sb,其中
Figure BDA00038532225600000712
使用小批次对模型文本特征提取器E进行多次微调迭代,得到新的文本特征提取器/>
Figure BDA00038532225600000713
具体操作步骤同步骤Step 2.2中所详述;
Step3.3、使用
Figure BDA00038532225600000714
获得支持集S中样本Xs和查询集Q中样本Xq的特征表示,通过度量学习方法M获得查询集中样本的预测值/>
Figure BDA00038532225600000715
即获得查询集中样本的敏感分类,具体操作步骤同步骤Step 2.3所详述。
为了说明本发明的翻译效果,采用基线系统和本发明进行对比,表2展示了与基线模型的性能对比实验结果。
表2基线模型对比实验
Figure BDA00038532225600000716
从表2可以看出,基线模型中原型网络取得了最好的效果,同时,微调原型网络相比所有基线模型都有了很大的提升,实验证明了本发明提出的快速适应的微调原型网络在敏感信息识别任务的有效性。首先,由于实验中在元训练阶段使用通用的新闻标题数据集,元测试阶段使用敏感文本数据集,在面临巨大领域差异的情况下,简单的原型网络即本文的基础模型,相比较于其他基线模型取得了较好的效果,而本发明提出的快速适应微调策略的原型网络则具有更进一步的提升。相比之下,较为先进的归纳网络在亚马逊评论情绪分类(ARSC)数据集与对话系统的开放域意图分类(ODIC)数据集上相比其他基线模型具有优越的性能,但在面对巨大领域差异的敏感信息识别任务时无法取得预期的效果。另外可以看出,随着支持集规模扩大,小样本模型的效果基本都有所提升,相比之下微调原型网络效果的提升最为明显,证明了快速适应微调策略的有效性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.基于微调原型网络的小样本敏感信息识别方法,其特征在于:所述基于微调原型网络的小样本敏感信息识别方法的具体步骤如下:
Step1、从互联网上爬取数据,对数据进行处理,构建敏感文本数据集;
Step2、元训练阶段,使用通用新闻领域分类任务训练模型,拆分支持集分批次微调模型后,使用查询集在微调模型上的损失梯度对初始模型二次梯度更新;
Step3、元测试阶段,使用敏感领域数据集测试模型,拆分支持集分批次微调模型后,使用文本特征提取器和度量模块获取查询集的敏感分类;
所述Step2的具体步骤为:
Step2.1、将小样本学习每次训练任务称作一个episode,从新闻标题数据集中抽取n个类,每个类抽取k个样本作为支持集,表示为
Figure FDA0004173500150000011
从与支持集相同的类抽取样本作为查询集,表示为Q={Xq,Yq};
Step2.2、在步骤Step2.1的基础上,将支持集S拆分为小批次s1,s2,...,sb,其中
Figure FDA0004173500150000012
使用小批次对模型文本特征提取器E进行多次微调迭代,得到新的文本特征提取器/>
Figure FDA0004173500150000013
Step2.3、使用
Figure FDA0004173500150000014
获得支持集S中样本Xs和查询集Q中样本Xq的特征表示,获取支持集中各类原型,通过度量学习方法M获得查询集中样本的预测值/>
Figure FDA0004173500150000015
Step2.4、在步骤Step2.3的基础上,采用交叉熵损失函数
Figure FDA00041735001500000112
衡量微调后预测值/>
Figure FDA0004173500150000016
与对应真实标签Yq之间的差距Loss_ft,通过Loss_ft计算特征提取器所有层参数梯度
Figure FDA0004173500150000017
使用/>
Figure FDA0004173500150000018
更新episode初始时的文本编码器E,结合/>
Figure FDA0004173500150000019
Figure FDA00041735001500000110
得到/>
Figure FDA00041735001500000111
作为下一个episode的初始特征提取器;
所述Step2.2的具体步骤如下:
Step2.2.1、微调过程中,将文本特征提取器E参数划分为前L层与后l层两部分,分别表示为θE(L)与θE(l),冻结θE(L),微调过程中不对其进行更新;
Step2.2.2、在每个小批次si中,使用E对si中样本Xsi进行特征提取得到文本特征向量Vsi
Vsi=E(L+l)(Xsi)
Step2.2.3、使用线性分类器C对Vsi进行预测并计算这一批次的损失Loss_si
Figure FDA0004173500150000021
其中
Figure FDA0004173500150000022
为定义的交叉熵损失函数;
Step2.2.4、使用Loss_si通过反向传播算法仅对后l层参数θE(l)进行更新,用
Figure FDA0004173500150000023
表示更新后得到的参数,并结合θE(L)与/>
Figure FDA0004173500150000024
得到新的文本特征提取器/>
Figure FDA0004173500150000025
参与下一个批次的微调过程。
2.根据权利要求1所述的基于微调原型网络的小样本敏感信息识别方法,其特征在于:所述Step1的具体步骤为:
Step1.1、使用爬虫技术从新浪微博采集数据;
Step1.2、对数据进行清洗,去除微博文本中带有的干扰文本;
Step1.3、对文本数据进行人工标注,构造含有若干种分类类型的敏感文本数据集。
3.根据权利要求1所述的基于微调原型网络的小样本敏感信息识别方法,其特征在于:所述Step2.3的具体步骤如下:
Step2.3.1、在步骤Step2.2的基础上,使用
Figure FDA0004173500150000026
对支持集S中样本Xs和查询集Q中样本Xq进行特征提取得到文本特征向量VS和VQ
Figure FDA0004173500150000027
Step2.3.2、支持集样本Xs特征表示Vs中,对每个相同类中样本的特征向量{vn,1,vn,2,...,vn,k}做平均作为该类的原型;
Figure FDA0004173500150000028
其中n表示支持集中的第n个类,K表示支持集中每个类中包含K个样本;
Step2.3.3、得到支持集中各类原型向量
Figure FDA0004173500150000029
后,计算查询集中样本Xq的特征向量Vq与PN的欧式距离,并作为预测评分,样本特征与各原型间的欧式距离和评分成负相关:
Figure FDA00041735001500000210
其中scorei,n表示查询集中第i个样本与第n个类原型之间的评分。
4.根据权利要求1所述的基于微调原型网络的小样本敏感信息识别方法,其特征在于:所述Step2.4的具体步骤如下:
Step2.4.1、通过查询集中第i个样本与第n个类原型之间的评分scorei,n得到查询集样本Xq的预测值
Figure FDA0004173500150000031
采用交叉熵损失函数/>
Figure FDA0004173500150000032
衡量微调后预测值/>
Figure FDA0004173500150000033
与对应真实标签Yq之间的损失;
Figure FDA0004173500150000034
Step2.4.2、使用Loss_ft计算
Figure FDA0004173500150000035
所有层参数梯度/>
Figure FDA0004173500150000036
Step2.4.3、使用
Figure FDA0004173500150000037
更新episode初始的文本编码器E:
Figure FDA0004173500150000038
Figure FDA0004173500150000039
其中lr为学习率,结合
Figure FDA00041735001500000310
与/>
Figure FDA00041735001500000311
得到/>
Figure FDA00041735001500000312
作为下一个episode的初始特征提取器。
5.根据权利要求1所述的基于微调原型网络的小样本敏感信息识别方法,其特征在于:所述Step3的具体步骤如下:
Step3.1、从敏感文本数据集中抽取n个类,每个类抽取k个样本作为支持集,表示为
Figure FDA00041735001500000313
从与支持集相同的类抽取样本作为查询集,表示为Q={Xq,Yq};
Step3.2、在步骤Step3.1的基础上,将支持集S拆分为小批次s1,s2,...,sb,其中
Figure FDA00041735001500000314
使用小批次对模型文本特征提取器E进行多次微调迭代,得到新的文本特征提取器/>
Figure FDA00041735001500000315
Step3.3、使用
Figure FDA00041735001500000316
获得支持集S中样本Xs和查询集Q中样本Xq的特征表示,通过度量学习方法M获得查询集中样本的预测值/>
Figure FDA00041735001500000317
即获得查询集中样本的敏感分类。/>
CN202211139369.1A 2022-09-19 2022-09-19 基于微调原型网络的小样本敏感信息识别方法 Active CN115409124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211139369.1A CN115409124B (zh) 2022-09-19 2022-09-19 基于微调原型网络的小样本敏感信息识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211139369.1A CN115409124B (zh) 2022-09-19 2022-09-19 基于微调原型网络的小样本敏感信息识别方法

Publications (2)

Publication Number Publication Date
CN115409124A CN115409124A (zh) 2022-11-29
CN115409124B true CN115409124B (zh) 2023-05-23

Family

ID=84165489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211139369.1A Active CN115409124B (zh) 2022-09-19 2022-09-19 基于微调原型网络的小样本敏感信息识别方法

Country Status (1)

Country Link
CN (1) CN115409124B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593596B (zh) * 2024-01-19 2024-04-16 四川封面传媒科技有限责任公司 一种敏感信息检测方法、系统、电子设备及介质
CN117648633B (zh) * 2024-01-29 2024-04-19 西南石油大学 一种基于增强图注意力网络的敏感信息识别方法及系统
CN117668563B (zh) * 2024-01-31 2024-04-30 苏州元脑智能科技有限公司 文本识别方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110533070A (zh) * 2019-07-26 2019-12-03 西安交通大学 一种小样本下基于迁移原形网络的机械故障智能诊断方法
WO2022069884A1 (en) * 2020-10-02 2022-04-07 Oxford University Innovation Limited Clinical prototypes
CN114529767A (zh) * 2022-02-18 2022-05-24 厦门大学 基于双阶段对比学习框架的小样本sar目标识别方法
CN115047423A (zh) * 2022-04-14 2022-09-13 杭州电子科技大学 基于对比学习无监督预训练-微调式的雷达目标识别方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210287096A1 (en) * 2020-03-13 2021-09-16 Nvidia Corporation Microtraining for iterative few-shot refinement of a neural network
US20210409445A1 (en) * 2020-06-26 2021-12-30 Zoho Corporation Private Limited Machine learning-based sensitive resource collection agent detection
CN111931175B (zh) * 2020-09-23 2020-12-25 四川大学 一种基于小样本学习的工业控制系统入侵检测方法
CN112149755B (zh) * 2020-10-12 2022-07-05 自然资源部第二海洋研究所 基于深度学习的小样本海底水声图像底质分类方法
JP7283836B2 (ja) * 2020-11-02 2023-05-30 之江実験室 マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム
CN113133762B (zh) * 2021-03-03 2022-09-30 刘欣刚 一种无创血糖预测方法及装置
CN113935398A (zh) * 2021-08-29 2022-01-14 北京工业大学 一种物联网环境下基于小样本学习的网络流量分类方法及系统
CN114119966A (zh) * 2021-12-01 2022-03-01 中山大学 基于多视角学习与元学习的小样本目标检测方法
CN114511739A (zh) * 2022-01-25 2022-05-17 哈尔滨工程大学 一种基于元迁移学习的任务自适应的小样本图像分类方法
CN114548268A (zh) * 2022-02-16 2022-05-27 南通大学 基于原型网络的小样本垃圾图像分类方法
CN115034514A (zh) * 2022-07-06 2022-09-09 吉林大学 一种基于元学习的小样本时序预测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110533070A (zh) * 2019-07-26 2019-12-03 西安交通大学 一种小样本下基于迁移原形网络的机械故障智能诊断方法
WO2022069884A1 (en) * 2020-10-02 2022-04-07 Oxford University Innovation Limited Clinical prototypes
CN114529767A (zh) * 2022-02-18 2022-05-24 厦门大学 基于双阶段对比学习框架的小样本sar目标识别方法
CN115047423A (zh) * 2022-04-14 2022-09-13 杭州电子科技大学 基于对比学习无监督预训练-微调式的雷达目标识别方法

Also Published As

Publication number Publication date
CN115409124A (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN115409124B (zh) 基于微调原型网络的小样本敏感信息识别方法
Koto et al. Inset lexicon: Evaluation of a word list for Indonesian sentiment analysis in microblogs
CN106528642B (zh) 一种基于tf-idf特征提取的短文本分类方法
CN111079419B (zh) 一种基于大数据的国防科技热词发现方法及系统
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN115495555A (zh) 一种基于深度学习的文献检索方法和系统
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN111191031A (zh) 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
CN112860889A (zh) 一种基于bert的多标签分类方法
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN114580566A (zh) 一种基于间隔监督对比损失的小样本图像分类方法
CN112434164A (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN112686043A (zh) 一种基于词向量的企业所属新兴产业分类方法
CN113672718A (zh) 基于特征匹配和领域自适应的对话意图识别方法及系统
CN114970523B (zh) 一种基于文本语义增强的主题提示式关键词提取方法
CN115587207A (zh) 一种基于分类标签的深度哈希检索方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN116152554A (zh) 基于知识引导的小样本图像识别系统
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN109614493B (zh) 一种基于监督词向量的文本缩写识别方法及系统
CN111460097A (zh) 一种基于tpn的小样本文本分类方法
CN108334573B (zh) 基于聚类信息的高相关微博检索方法
CN108694176B (zh) 文档情感分析的方法、装置、电子设备和可读存储介质
CN113377953A (zh) 一种基于palc-dca模型的实体融合及分类方法
CN116050419B (zh) 一种面向科学文献知识实体的无监督识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant