CN115409124B

CN115409124B - 基于微调原型网络的小样本敏感信息识别方法

Info

Publication number: CN115409124B
Application number: CN202211139369.1A
Authority: CN
Inventors: 黄于欣; 毛存礼; 张思琦; 张勇丙; 宋燃
Original assignee: Xiaoyu Intelligent Information Technology Yunnan Co ltd
Current assignee: Xiaoyu Intelligent Information Technology Yunnan Co ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2023-05-23
Anticipated expiration: 2042-09-19
Also published as: CN115409124A

Abstract

本发明涉及基于微调原型网络的小样本敏感信息识别方法，属于自然语言处理技术领域。本发明首先构造敏感文本数据集；其次，在元训练阶段通用新闻领域的分类任务上训练模型来学习通用知识，同时在训练过程中经过两阶段梯度更新，得到一组对新任务敏感的快速适应初始参数；在元测试阶段敏感文本数据集的新任务上，冻结模型部分参数并使用支持集进一步微调，使模型更好地泛化到敏感识别领域上。本发明能够实现在少量敏感样本支撑的条件下对敏感分类进行识别，显著提升了敏感信息识别任务的分类效果。

Description

基于微调原型网络的小样本敏感信息识别方法

技术领域

本发明涉及基于微调原型网络的小样本敏感信息识别方法，属于自然语言处理技术领域。

背景技术

敏感信息识别主要是指从互联网上识别各种类型的敏感信息，现有的敏感信息识别通常将其看作文本分类任务，目前国内外主要的研究方法有两类：基于敏感词典的研究方法和基于深度学习的研究方法。基于敏感词典的方法通过制定规则与匹配算法利用敏感词表中关键词对文本进行过滤。但是敏感词表需要人工维护，由于网络新词、术语、敏感词变形体更新迭代速度快，构建维护敏感词表不仅易错漏，而且耗费较大。基于深度学习模型自动提取语义特征对文本进行分类，但深度学习方法依赖于大量数据和计算能力，对于敏感信息识别任务，目前没有公开的敏感文本数据集，而人工收集和标注数据集困难，构建敏感文本数据集中敏感信息类别样本数较小，不足以支持深度学习大规模参数的训练。

因此本发明通过小样本学习框架解决敏感文本数据类别样本不足的问题，并提出了快速适应的微调方法，缓解了元训练阶段通用领域数据集和元测试阶段敏感文本数据集领域分布差异大、跨域不适应的问题。

发明内容

本发明提供了基于微调原型网络的小样本敏感信息识别方法，以用于解决敏感文本数据类别样本不足、小样本学习跨域不适应的问题。

本发明的技术方案是：基于微调原型网络的小样本敏感信息识别方法，所述基于微调原型网络的小样本敏感信息识别方法的具体步骤如下：

Step1、从互联网上爬取数据，对数据进行处理，构建敏感文本数据集；

Step2、元训练阶段，使用通用新闻领域分类任务训练模型，拆分支持集分批次微调模型后，使用查询集在微调模型上的损失梯度对初始模型二次梯度更新；

Step3、元测试阶段，使用敏感领域数据集测试模型，拆分支持集分批次微调模型后，使用文本特征提取器和度量模块获取查询集的敏感分类。

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、使用爬虫技术从新浪微博采集数据；

Step1.2、对数据进行清洗，去除微博文本中带有的链接、特殊符号等干扰文本；

Step1.3、对文本数据进行人工标注，构造含有色情、毒品、邪教、暴力、正常五种分类类型的敏感文本数据集。

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、将小样本学习每次训练任务称作一个episode，从新闻标题数据集中抽取n个类，每个类抽取k个样本作为支持集，表示为

从与支持集相同的类抽取样本作为查询集，表示为Q＝{X_q,Y_q}；/>

Step2.2、在步骤2.1的基础上，将支持集S拆分为小批次s₁,s₂,…,s_b，其中

使用小批次对模型文本特征提取器E进行多次微调迭代，得到新的文本特征提取器/>

Step2.3、使用

获得支持集S中样本X_s和查询集Q中样本X_q的特征表示，通过度量学习方法M获得查询集中样本的预测值/>

Step2.4、在步骤Step 2.3的基础上，采用交叉熵损失函数

衡量微调后预测值/>

与对应真实标签Y_q之间的差距Loss_ft，通过Loss_ft计算特征提取器所有层参数梯度

使用/>

更新episode初始时的文本编码器E，结合/>

与/>

得到/>

作为下一个episode的初始特征提取器。

作为本发明的优选方案，所述步骤Step2.2的具体步骤为：

Step2.2.1、微调过程中，将文本特征提取器E参数划分为前L层与后l层两部分，分别表示为θ_E(L)与θ_E(l)，冻结θ_E(L)，微调过程中不对其进行更新；

Step2.2.2、在每个小批次s_i中，使用E对s_i中样本X_si进行特征提取得到文本特征向量V_si；

V_si＝E_(L+l)(X_si)

Step2.2.3、使用线性分类器C对V_si进行预测并计算这一批次的损失Loss_s_i：

其中

为定义的交叉熵损失函数；

Step2.2.4、使用Loss_s_i通过反向传播算法仅对后l层参数θ_E(l)进行更新，用

表示更新后得到的参数，并结合θ_E(L)与/>

得到新的文本特征提取器/>

参与下一个小批次的微调过程。

作为本发明的优选方案，所述步骤Step2.3的具体步骤为：

Step2.3.1、在步骤2.2的基础上，使用

对支持集S中样本X_s和查询集Q中样本X_q进行特征提取得到文本特征向量V_S和V_Q；

Step2.3.2、支持集样本X_s特征表示V_s中，对每个相同类中样本的特征向量{v_n,1,v_n,2,…,v_n,k}做平均作为该类的原型；

其中n表示支持集中的第n个类，K表示支持集中每个类中包含K个样本；

Step2.3.3、得到支持集中各类原型向量

后，计算查询集中样本X_q的特征向量V_q与P_N的欧式距离，并作为预测评分，样本特征与各原型间的欧式距离和评分应成负相关：/>

其中score_i,n表示查询集中第i个样本与第n个类原型之间的评分。

作为本发明的优选方案，所述步骤Step2.4的具体步骤为：

Step2.4.1、通过score_i,n得到查询集样本X_q的预测值

采用交叉熵损失函数/>

衡量微调后预测值/>

与对应真实标签Y_q之间的损失；

Step2.4.2、使用Loss_ft计算

所有层参数梯度/>

Step2.4.3、使用

更新episode初始的文本编码器E：

其中lr为学习率，结合

与/>

得到/>

作为下一个episode的初始特征提取器。

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、从敏感文本数据集中抽取n个类，每个类抽取k个样本作为支持集，表示为

从与支持集相同的类抽取样本作为查询集，表示为Q＝{X_q,Y_q}；

Step3.2、在步骤Step 3.1的基础上，将支持集S拆分为小批次s₁,s₂,…,s_b，其中

具体操作步骤同步骤Step 2.2中所详述；

Step3.3、使用

即获得查询集中样本的敏感分类，具体操作步骤同步骤Step 2.3所详述。

本发明的有益效果是：

本文提出了基于微调原型网络的小样本敏感信息识别方法，通过小样本学习框架解决敏感文本数据类别样本不足的问题，并提出了快速适应的微调方法，在元训练阶段获得易于调整的初始参数，在元测试阶段对特征提取器冻结一部分参数并进行微调，来解决元训练阶段通用领域数据集和元测试阶段敏感文本数据集领域分布差异大、跨域不适应的问题。

附图说明

图1是本发明中的总的流程图；

图2是本发明的模型结构图；

图3是本发明的微调过程图；

具体实施方式

实施例1：如图1-图3所示，基于微调原型网络的小样本敏感信息识别方法，其具体步骤如下：

Step1、从互联网上爬取数据，对数据进行处理，构建敏感文本数据集；所构建敏感文本数据集具体类别对应数据量如表1所示：

表1敏感文本数据集分布

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、使用爬虫技术从新浪微博采集数据；

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.2、在步骤Step 2.1的基础上，将支持集S拆分为小批次s₁,s₂,…,s_b，其中

Step2.3、使用

Step2.4、在步骤Step 2.3的基础上，采用交叉熵损失函数

衡量微调后预测值/>

使用/>

更新episode初始时的文本编码器E，结合/>

与/>

得到/>

作为下一个episode的初始特征提取器。/>

作为本发明的优选方案，所述步骤Step2.2的具体步骤为：

V_si＝E_(L+l)(X_si)

其中

为定义的交叉熵损失函数；

表示更新后得到的参数，并结合θ_E(L)与/>

得到新的文本特征提取器/>

参与下一个小批次的微调过程。

作为本发明的优选方案，所述步骤Step2.3的具体步骤为：

Step2.3.1、在步骤Step 2.2的基础上，使用

Step2.3.3、得到支持集中各类原型向量

后，计算查询集中样本X_q的特征向量V_q与P_N的欧式距离，并作为预测评分，样本特征与各原型间的欧式距离和评分应成负相关：

作为本发明的优选方案，所述步骤Step2.4的具体步骤为：

Step2.4.1、通过score_i,n得到查询集样本X_q的预测值

采用交叉熵损失函数/>

衡量微调后预测值/>

与对应真实标签Y_q之间的损失；

Step2.4.2、使用Loss_ft计算

所有层参数梯度/>

Step2.4.3、使用

更新episode初始的文本编码器E：

/>

其中lr为学习率，结合

与/>

得到/>

作为下一个episode的初始特征提取器。

作为本发明的优选方案，所述步骤Step3的具体步骤为：

具体操作步骤同步骤Step 2.2中所详述；

Step3.3、使用

为了说明本发明的翻译效果，采用基线系统和本发明进行对比，表2展示了与基线模型的性能对比实验结果。

表2基线模型对比实验

从表2可以看出，基线模型中原型网络取得了最好的效果，同时，微调原型网络相比所有基线模型都有了很大的提升，实验证明了本发明提出的快速适应的微调原型网络在敏感信息识别任务的有效性。首先，由于实验中在元训练阶段使用通用的新闻标题数据集，元测试阶段使用敏感文本数据集，在面临巨大领域差异的情况下，简单的原型网络即本文的基础模型，相比较于其他基线模型取得了较好的效果，而本发明提出的快速适应微调策略的原型网络则具有更进一步的提升。相比之下，较为先进的归纳网络在亚马逊评论情绪分类(ARSC)数据集与对话系统的开放域意图分类(ODIC)数据集上相比其他基线模型具有优越的性能，但在面对巨大领域差异的敏感信息识别任务时无法取得预期的效果。另外可以看出，随着支持集规模扩大，小样本模型的效果基本都有所提升，相比之下微调原型网络效果的提升最为明显，证明了快速适应微调策略的有效性。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。