CN115409124B - 基于微调原型网络的小样本敏感信息识别方法 - Google Patents
基于微调原型网络的小样本敏感信息识别方法 Download PDFInfo
- Publication number
- CN115409124B CN115409124B CN202211139369.1A CN202211139369A CN115409124B CN 115409124 B CN115409124 B CN 115409124B CN 202211139369 A CN202211139369 A CN 202211139369A CN 115409124 B CN115409124 B CN 115409124B
- Authority
- CN
- China
- Prior art keywords
- sample
- sensitive
- text
- fine tuning
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于微调原型网络的小样本敏感信息识别方法,属于自然语言处理技术领域。本发明首先构造敏感文本数据集;其次,在元训练阶段通用新闻领域的分类任务上训练模型来学习通用知识,同时在训练过程中经过两阶段梯度更新,得到一组对新任务敏感的快速适应初始参数;在元测试阶段敏感文本数据集的新任务上,冻结模型部分参数并使用支持集进一步微调,使模型更好地泛化到敏感识别领域上。本发明能够实现在少量敏感样本支撑的条件下对敏感分类进行识别,显著提升了敏感信息识别任务的分类效果。
Description
技术领域
本发明涉及基于微调原型网络的小样本敏感信息识别方法,属于自然语言处理技术领域。
背景技术
敏感信息识别主要是指从互联网上识别各种类型的敏感信息,现有的敏感信息识别通常将其看作文本分类任务,目前国内外主要的研究方法有两类:基于敏感词典的研究方法和基于深度学习的研究方法。基于敏感词典的方法通过制定规则与匹配算法利用敏感词表中关键词对文本进行过滤。但是敏感词表需要人工维护,由于网络新词、术语、敏感词变形体更新迭代速度快,构建维护敏感词表不仅易错漏,而且耗费较大。基于深度学习模型自动提取语义特征对文本进行分类,但深度学习方法依赖于大量数据和计算能力,对于敏感信息识别任务,目前没有公开的敏感文本数据集,而人工收集和标注数据集困难,构建敏感文本数据集中敏感信息类别样本数较小,不足以支持深度学习大规模参数的训练。
因此本发明通过小样本学习框架解决敏感文本数据类别样本不足的问题,并提出了快速适应的微调方法,缓解了元训练阶段通用领域数据集和元测试阶段敏感文本数据集领域分布差异大、跨域不适应的问题。
发明内容
本发明提供了基于微调原型网络的小样本敏感信息识别方法,以用于解决敏感文本数据类别样本不足、小样本学习跨域不适应的问题。
本发明的技术方案是:基于微调原型网络的小样本敏感信息识别方法,所述基于微调原型网络的小样本敏感信息识别方法的具体步骤如下:
Step1、从互联网上爬取数据,对数据进行处理,构建敏感文本数据集;
Step2、元训练阶段,使用通用新闻领域分类任务训练模型,拆分支持集分批次微调模型后,使用查询集在微调模型上的损失梯度对初始模型二次梯度更新;
Step3、元测试阶段,使用敏感领域数据集测试模型,拆分支持集分批次微调模型后,使用文本特征提取器和度量模块获取查询集的敏感分类。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、使用爬虫技术从新浪微博采集数据;
Step1.2、对数据进行清洗,去除微博文本中带有的链接、特殊符号等干扰文本;
Step1.3、对文本数据进行人工标注,构造含有色情、毒品、邪教、暴力、正常五种分类类型的敏感文本数据集。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.4、在步骤Step 2.3的基础上,采用交叉熵损失函数衡量微调后预测值/>与对应真实标签Yq之间的差距Loss_ft,通过Loss_ft计算特征提取器所有层参数梯度使用/>更新episode初始时的文本编码器E,结合/>与/>得到/>作为下一个episode的初始特征提取器。
作为本发明的优选方案,所述步骤Step2.2的具体步骤为:
Step2.2.1、微调过程中,将文本特征提取器E参数划分为前L层与后l层两部分,分别表示为θE(L)与θE(l),冻结θE(L),微调过程中不对其进行更新;
Step2.2.2、在每个小批次si中,使用E对si中样本Xsi进行特征提取得到文本特征向量Vsi;
Vsi=E(L+l)(Xsi)
Step2.2.3、使用线性分类器C对Vsi进行预测并计算这一批次的损失Loss_si:
作为本发明的优选方案,所述步骤Step2.3的具体步骤为:
Step2.3.2、支持集样本Xs特征表示Vs中,对每个相同类中样本的特征向量{vn,1,vn,2,…,vn,k}做平均作为该类的原型;
其中n表示支持集中的第n个类,K表示支持集中每个类中包含K个样本;
其中scorei,n表示查询集中第i个样本与第n个类原型之间的评分。
作为本发明的优选方案,所述步骤Step2.4的具体步骤为:
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.2、在步骤Step 3.1的基础上,将支持集S拆分为小批次s1,s2,…,sb,其中使用小批次对模型文本特征提取器E进行多次微调迭代,得到新的文本特征提取器/>具体操作步骤同步骤Step 2.2中所详述;
本发明的有益效果是:
本文提出了基于微调原型网络的小样本敏感信息识别方法,通过小样本学习框架解决敏感文本数据类别样本不足的问题,并提出了快速适应的微调方法,在元训练阶段获得易于调整的初始参数,在元测试阶段对特征提取器冻结一部分参数并进行微调,来解决元训练阶段通用领域数据集和元测试阶段敏感文本数据集领域分布差异大、跨域不适应的问题。
附图说明
图1是本发明中的总的流程图;
图2是本发明的模型结构图;
图3是本发明的微调过程图;
具体实施方式
实施例1:如图1-图3所示,基于微调原型网络的小样本敏感信息识别方法,其具体步骤如下:
Step1、从互联网上爬取数据,对数据进行处理,构建敏感文本数据集;所构建敏感文本数据集具体类别对应数据量如表1所示:
表1敏感文本数据集分布
Step2、元训练阶段,使用通用新闻领域分类任务训练模型,拆分支持集分批次微调模型后,使用查询集在微调模型上的损失梯度对初始模型二次梯度更新;
Step3、元测试阶段,使用敏感领域数据集测试模型,拆分支持集分批次微调模型后,使用文本特征提取器和度量模块获取查询集的敏感分类。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、使用爬虫技术从新浪微博采集数据;
Step1.2、对数据进行清洗,去除微博文本中带有的链接、特殊符号等干扰文本;
Step1.3、对文本数据进行人工标注,构造含有色情、毒品、邪教、暴力、正常五种分类类型的敏感文本数据集。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.4、在步骤Step 2.3的基础上,采用交叉熵损失函数衡量微调后预测值/>与对应真实标签Yq之间的差距Loss_ft,通过Loss_ft计算特征提取器所有层参数梯度使用/>更新episode初始时的文本编码器E,结合/>与/>得到/>作为下一个episode的初始特征提取器。/>
作为本发明的优选方案,所述步骤Step2.2的具体步骤为:
Step2.2.1、微调过程中,将文本特征提取器E参数划分为前L层与后l层两部分,分别表示为θE(L)与θE(l),冻结θE(L),微调过程中不对其进行更新;
Step2.2.2、在每个小批次si中,使用E对si中样本Xsi进行特征提取得到文本特征向量Vsi;
Vsi=E(L+l)(Xsi)
Step2.2.3、使用线性分类器C对Vsi进行预测并计算这一批次的损失Loss_si:
作为本发明的优选方案,所述步骤Step2.3的具体步骤为:
Step2.3.2、支持集样本Xs特征表示Vs中,对每个相同类中样本的特征向量{vn,1,vn,2,…,vn,k}做平均作为该类的原型;
其中n表示支持集中的第n个类,K表示支持集中每个类中包含K个样本;
其中scorei,n表示查询集中第i个样本与第n个类原型之间的评分。
作为本发明的优选方案,所述步骤Step2.4的具体步骤为:
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.2、在步骤Step 3.1的基础上,将支持集S拆分为小批次s1,s2,…,sb,其中使用小批次对模型文本特征提取器E进行多次微调迭代,得到新的文本特征提取器/>具体操作步骤同步骤Step 2.2中所详述;
为了说明本发明的翻译效果,采用基线系统和本发明进行对比,表2展示了与基线模型的性能对比实验结果。
表2基线模型对比实验
从表2可以看出,基线模型中原型网络取得了最好的效果,同时,微调原型网络相比所有基线模型都有了很大的提升,实验证明了本发明提出的快速适应的微调原型网络在敏感信息识别任务的有效性。首先,由于实验中在元训练阶段使用通用的新闻标题数据集,元测试阶段使用敏感文本数据集,在面临巨大领域差异的情况下,简单的原型网络即本文的基础模型,相比较于其他基线模型取得了较好的效果,而本发明提出的快速适应微调策略的原型网络则具有更进一步的提升。相比之下,较为先进的归纳网络在亚马逊评论情绪分类(ARSC)数据集与对话系统的开放域意图分类(ODIC)数据集上相比其他基线模型具有优越的性能,但在面对巨大领域差异的敏感信息识别任务时无法取得预期的效果。另外可以看出,随着支持集规模扩大,小样本模型的效果基本都有所提升,相比之下微调原型网络效果的提升最为明显,证明了快速适应微调策略的有效性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (5)
1.基于微调原型网络的小样本敏感信息识别方法,其特征在于:所述基于微调原型网络的小样本敏感信息识别方法的具体步骤如下:
Step1、从互联网上爬取数据,对数据进行处理,构建敏感文本数据集;
Step2、元训练阶段,使用通用新闻领域分类任务训练模型,拆分支持集分批次微调模型后,使用查询集在微调模型上的损失梯度对初始模型二次梯度更新;
Step3、元测试阶段,使用敏感领域数据集测试模型,拆分支持集分批次微调模型后,使用文本特征提取器和度量模块获取查询集的敏感分类;
所述Step2的具体步骤为:
Step2.4、在步骤Step2.3的基础上,采用交叉熵损失函数衡量微调后预测值/>与对应真实标签Yq之间的差距Loss_ft,通过Loss_ft计算特征提取器所有层参数梯度使用/>更新episode初始时的文本编码器E,结合/>与得到/>作为下一个episode的初始特征提取器;
所述Step2.2的具体步骤如下:
Step2.2.1、微调过程中,将文本特征提取器E参数划分为前L层与后l层两部分,分别表示为θE(L)与θE(l),冻结θE(L),微调过程中不对其进行更新;
Step2.2.2、在每个小批次si中,使用E对si中样本Xsi进行特征提取得到文本特征向量Vsi;
Vsi=E(L+l)(Xsi)
Step2.2.3、使用线性分类器C对Vsi进行预测并计算这一批次的损失Loss_si:
2.根据权利要求1所述的基于微调原型网络的小样本敏感信息识别方法,其特征在于:所述Step1的具体步骤为:
Step1.1、使用爬虫技术从新浪微博采集数据;
Step1.2、对数据进行清洗,去除微博文本中带有的干扰文本;
Step1.3、对文本数据进行人工标注,构造含有若干种分类类型的敏感文本数据集。
3.根据权利要求1所述的基于微调原型网络的小样本敏感信息识别方法,其特征在于:所述Step2.3的具体步骤如下:
Step2.3.2、支持集样本Xs特征表示Vs中,对每个相同类中样本的特征向量{vn,1,vn,2,...,vn,k}做平均作为该类的原型;
其中n表示支持集中的第n个类,K表示支持集中每个类中包含K个样本;
其中scorei,n表示查询集中第i个样本与第n个类原型之间的评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211139369.1A CN115409124B (zh) | 2022-09-19 | 2022-09-19 | 基于微调原型网络的小样本敏感信息识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211139369.1A CN115409124B (zh) | 2022-09-19 | 2022-09-19 | 基于微调原型网络的小样本敏感信息识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115409124A CN115409124A (zh) | 2022-11-29 |
CN115409124B true CN115409124B (zh) | 2023-05-23 |
Family
ID=84165489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211139369.1A Active CN115409124B (zh) | 2022-09-19 | 2022-09-19 | 基于微调原型网络的小样本敏感信息识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115409124B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593596B (zh) * | 2024-01-19 | 2024-04-16 | 四川封面传媒科技有限责任公司 | 一种敏感信息检测方法、系统、电子设备及介质 |
CN117648633B (zh) * | 2024-01-29 | 2024-04-19 | 西南石油大学 | 一种基于增强图注意力网络的敏感信息识别方法及系统 |
CN117668563B (zh) * | 2024-01-31 | 2024-04-30 | 苏州元脑智能科技有限公司 | 文本识别方法、装置、电子设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533070A (zh) * | 2019-07-26 | 2019-12-03 | 西安交通大学 | 一种小样本下基于迁移原形网络的机械故障智能诊断方法 |
WO2022069884A1 (en) * | 2020-10-02 | 2022-04-07 | Oxford University Innovation Limited | Clinical prototypes |
CN114529767A (zh) * | 2022-02-18 | 2022-05-24 | 厦门大学 | 基于双阶段对比学习框架的小样本sar目标识别方法 |
CN115047423A (zh) * | 2022-04-14 | 2022-09-13 | 杭州电子科技大学 | 基于对比学习无监督预训练-微调式的雷达目标识别方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210287096A1 (en) * | 2020-03-13 | 2021-09-16 | Nvidia Corporation | Microtraining for iterative few-shot refinement of a neural network |
US20210409445A1 (en) * | 2020-06-26 | 2021-12-30 | Zoho Corporation Private Limited | Machine learning-based sensitive resource collection agent detection |
CN111931175B (zh) * | 2020-09-23 | 2020-12-25 | 四川大学 | 一种基于小样本学习的工业控制系统入侵检测方法 |
CN112149755B (zh) * | 2020-10-12 | 2022-07-05 | 自然资源部第二海洋研究所 | 基于深度学习的小样本海底水声图像底质分类方法 |
JP7283836B2 (ja) * | 2020-11-02 | 2023-05-30 | 之江実験室 | マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム |
CN113133762B (zh) * | 2021-03-03 | 2022-09-30 | 刘欣刚 | 一种无创血糖预测方法及装置 |
CN113935398A (zh) * | 2021-08-29 | 2022-01-14 | 北京工业大学 | 一种物联网环境下基于小样本学习的网络流量分类方法及系统 |
CN114119966A (zh) * | 2021-12-01 | 2022-03-01 | 中山大学 | 基于多视角学习与元学习的小样本目标检测方法 |
CN114511739A (zh) * | 2022-01-25 | 2022-05-17 | 哈尔滨工程大学 | 一种基于元迁移学习的任务自适应的小样本图像分类方法 |
CN114548268A (zh) * | 2022-02-16 | 2022-05-27 | 南通大学 | 基于原型网络的小样本垃圾图像分类方法 |
CN115034514A (zh) * | 2022-07-06 | 2022-09-09 | 吉林大学 | 一种基于元学习的小样本时序预测方法及系统 |
-
2022
- 2022-09-19 CN CN202211139369.1A patent/CN115409124B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533070A (zh) * | 2019-07-26 | 2019-12-03 | 西安交通大学 | 一种小样本下基于迁移原形网络的机械故障智能诊断方法 |
WO2022069884A1 (en) * | 2020-10-02 | 2022-04-07 | Oxford University Innovation Limited | Clinical prototypes |
CN114529767A (zh) * | 2022-02-18 | 2022-05-24 | 厦门大学 | 基于双阶段对比学习框架的小样本sar目标识别方法 |
CN115047423A (zh) * | 2022-04-14 | 2022-09-13 | 杭州电子科技大学 | 基于对比学习无监督预训练-微调式的雷达目标识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115409124A (zh) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115409124B (zh) | 基于微调原型网络的小样本敏感信息识别方法 | |
Koto et al. | Inset lexicon: Evaluation of a word list for Indonesian sentiment analysis in microblogs | |
CN106528642B (zh) | 一种基于tf-idf特征提取的短文本分类方法 | |
CN111079419B (zh) | 一种基于大数据的国防科技热词发现方法及系统 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN115495555A (zh) | 一种基于深度学习的文献检索方法和系统 | |
CN110928981A (zh) | 一种文本标签体系搭建及完善迭代的方法、系统及存储介质 | |
CN111191031A (zh) | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 | |
CN112860889A (zh) | 一种基于bert的多标签分类方法 | |
CN105912525A (zh) | 基于主题特征的半监督学习情感分类方法 | |
CN114580566A (zh) | 一种基于间隔监督对比损失的小样本图像分类方法 | |
CN112434164A (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN112686043A (zh) | 一种基于词向量的企业所属新兴产业分类方法 | |
CN113672718A (zh) | 基于特征匹配和领域自适应的对话意图识别方法及系统 | |
CN114970523B (zh) | 一种基于文本语义增强的主题提示式关键词提取方法 | |
CN115587207A (zh) | 一种基于分类标签的深度哈希检索方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN116152554A (zh) | 基于知识引导的小样本图像识别系统 | |
CN113392191B (zh) | 一种基于多维度语义联合学习的文本匹配方法和装置 | |
CN109614493B (zh) | 一种基于监督词向量的文本缩写识别方法及系统 | |
CN111460097A (zh) | 一种基于tpn的小样本文本分类方法 | |
CN108334573B (zh) | 基于聚类信息的高相关微博检索方法 | |
CN108694176B (zh) | 文档情感分析的方法、装置、电子设备和可读存储介质 | |
CN113377953A (zh) | 一种基于palc-dca模型的实体融合及分类方法 | |
CN116050419B (zh) | 一种面向科学文献知识实体的无监督识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |