CN114385805A - 一种提高深度文本匹配模型适应性的小样本学习方法 - Google Patents
一种提高深度文本匹配模型适应性的小样本学习方法 Download PDFInfo
- Publication number
- CN114385805A CN114385805A CN202111534340.9A CN202111534340A CN114385805A CN 114385805 A CN114385805 A CN 114385805A CN 202111534340 A CN202111534340 A CN 202111534340A CN 114385805 A CN114385805 A CN 114385805A
- Authority
- CN
- China
- Prior art keywords
- source domain
- model
- sample
- representing
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 239000004576 sand Substances 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims description 2
- 230000004580 weight loss Effects 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000009467 reduction Effects 0.000 abstract description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 101100455978 Arabidopsis thaliana MAM1 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种提高深度文本匹配模型适应性的小样本学习方法,属于自然语言处理中的文本匹配技术领域。本方法综合了应用于文本匹配模型的小样本学习与跨领域适应性方法,沿最小化目标域小样本数据集损失的方向,对源域数据的权重进行梯度下降,解决了传统的跨领域文本匹配方法在小样本学习设置下表现不足的问题,增强了文本匹配模型在少样本学习环境中的适应性。本方法与基础模型无关,可应用于各种基于深度学习的文本匹配模型。
Description
技术领域
本发明涉及一种小样本学习方法,具体涉及一种提高深度文本匹配模型适应性的小样本学习方法,属于自然语言处理中的文本匹配技术领域。
背景技术
文本匹配,旨在识别两个文本片段之间的关系,一直以来都是自然语言处理和信息检索中的一个关键研究问题。许多具体的任务都可被视为特定形式的文本匹配,例如问答系统、自然语言推理以及同义识别等。
随着深度学习的快速发展,近年来,许多神经网络模型被应用于文本匹配领域。由于其强大的学习文本表示的能力与建模文本对之间交互的能力,深度文本匹配方法在各项基准任务上都取得了令人印象深刻的表现。然而,一些工作表明,基于深度学习的方法通常需要大量标签数据进行训练,即,对有标签数据的规模有很强的依赖性。当可用的标签数据有限时,往往会导致模型的性能不佳,阻碍了深度文本匹配模型的泛化性和适应性。因此,如何有效地解决该问题,是进一步提升深度学习实际应用能力的关键。
对于小样本学习文本匹配的场景,目前,经典的解决方案是投入大量资源,以获取或标注相关的训练数据,从而使可用的有标签数据规模足以达到常规深度学习模型训练的需要。例如,产品搜索系统的语义匹配功能需要处理一些生活常识文本与产品信息文本之间的匹配,如果这方面的有标签数据不是很充足的话,产品方就要耗费大量的人力与时间成本进行数据的收集与标记。相比来讲,另外一种被认为更加有效的方案是,借助其它相似的数据集进行模型训练,同时提高模型在不同领域数据上的适应性,从而解决当前数据集上的小样本学习问题。因此,小样本学习问题,可以结合模型的适应性方法来进行解决。
与训练数据的领域不同的数据,被称为域外数据。在实际应用中,经常会有深度文本匹配模型预测域外数据的情况,此时模型的性能会有所降低,所以,需要模型适应性的方法来减轻模型在域外数据上的性能损失。目前,现有的模型适应性技术,大都基于“目标领域与源领域在数据规模上是相当的”的前提。然而,这种前提条件在许多情况下是不切实际的,因为在实际应用中,很难为所有域外数据都收集一个相应的大规模有标签数据集。因此,如何解决深度文本匹配模型的小样本学习与模型适应性问题,显得至关重要。
发明内容
本发明针对现有技术存在的缺陷,面向如何提高小样本学习深度文本匹配模型的跨领域适应性这一问题,创新性地提出一种提高深度文本匹配模型适应性的小样本学习方法。
本方法的创新点在于:综合了应用于文本匹配模型的小样本学习与跨领域适应性方法,沿最小化目标域小样本数据集损失的方向,对源域数据的权重进行梯度下降。
本发明采用以下技术方案实现。
一种提高深度文本匹配模型适应性的小样本学习方法,包括以下步骤:
步骤1:建立样本权重与模型参数的计算图关系。
具体地,步骤1包括以下步骤:
步骤1.1:在一批次源域训练集数据上前向传播文本匹配模型,并计算相应的损失值:
Costs(yi,li)=CEs(yi,li) (1)
其中,Costs表示模型在源域上的损失值;CEs代表交叉熵损失函数;li表示第i个样本的标签值;yi是模型对第i个样本的预测值:
yi=TMMs(ai,bi,θ) (2)
其中,TMMs表示在源域的任务或数据集上训练的文本匹配模型;ai、bi分别表示输入到模型进行文本匹配的两条句子;θ表示深度文本匹配模型的参数。
步骤1.2:为损失值对应的每个样本,赋予一个初始化权重。考虑到源域和目标域之间的数据分布差异较大,本发明将样本权重初始值设为0。然后,计算源域数据上的加权损失值之和,作为源域损失值:
步骤1.3:为将样本权重与源域损失值之间的计算图连接,用源域损失值Losss对模型参数θ进行梯度下降更新:
从而使样本权重与模型参数之间建立起计算图关系。至此,在不改变模型参数值的情况下,建立了计算图连接。
步骤2:通过元梯度下降调节样本的权重。
具体地,步骤2包括以下步骤:
步骤2.1:为了比较源域分布与目标域分布上模型梯度下降方向的异同,在目标小样本集上训练当前模型,并计算训练损失:
其中,Losst表示目标域损失值;TMMt表示在目标域上训练时的深度文本匹配模型;M表示目标域样本的数目。
目标域样本的权重设置为常数1。这是因为与源域样本相比,目标域样本数据之间的分布没有差异。
步骤2.2:由于Losst(y,l)形式化为当根据目标域损失值Losst(y,l)计算对于源域样本权重ws的二阶导数时,梯度自然能够流过因此,梯度携带的比较信息在源域样本的权重梯度上累积。源域样本的权重调节过程如下:
步骤2.3:受模型无关元学习算法的启发,采用二阶导数来比较梯度下降的方向,并根据比较结果更新权重。
元权重调节首先消除调整后的权重的负值,然后对它们进行批量归一化,以使性能更加稳定:
步骤3:在加权源域样本上,训练文本匹配模型。
具体地,通过元权重调节将计算得到的样本权重分配给源域样本,以便在源域样本上训练文本匹配模型后获得加权损失:
其中,Losss表示模型在源域样本上的最终加权损失值,i∈{1,2,...,N}。
由此,使在源域数据中与目标域数据更相似的数据能够获得更大的权重分配,促进它们在更大程度上决定基础模型参数更新的走势,最终提高了基础模型在问答匹配数据上的表现。
有益效果
本发明,与现有技术相比,具有如下优点:
本发明采用元权重调节方式,解决了传统的跨领域文本匹配方法在小样本学习设置下表现不足的问题,增强了文本匹配模型在少样本学习环境中的适应性。本方法与基础模型无关,可应用于各种基于深度学习的文本匹配模型。
通过在一系列文本匹配数据集上进行全面的比较实验,以检验本方法在小样本学习设置上对于不同数据集与任务适应性提升的效果。实验结果表明,本方法明显优于现有方法,有效提高了深度文本匹配模型对少样本目标任务或数据集的适应性。
附图说明
图1是本发明方法的流程图。
具体实施方式
下面结合附图对本发明方法做进一步详细说明。
实施例
一种提高深度文本匹配模型适应性的小样本学习方法,如图1所示,包括以下步骤:
步骤1:建立自然语言推理源域数据样本权重与BERT模型参数的计算图关系。
具体地,步骤1包括以下步骤:
步骤1.1:以自然语言推理训练集作为源域,利用文本匹配模型BERT在源域的一个批次数据上进行前向传播,以计算相应的源域损失值:
Costs(yi,li)=CEs(yi,li)
其中,Costs表示模型在源域上的损失值;CEs代表交叉熵损失函数;li表示第i个样本的标签值;yi是模型对第i个样本的预测值:
yi=BERTs(ai,bi,θ)
其中,BERTs表示在自然语言推理源域任务上训练的文本匹配模型BERT;ai、bi分别表示输入到模型进行文本匹配的两条句子;θ表示深度文本匹配模型的参数。
步骤1.2:为损失值对应的每个样本,赋予一个初始化权重。考虑到源域和目标域之间的数据分布差异较大,本发明将样本权重初始值设为0。然后,计算源域数据上的加权损失值之和,作为源域损失值:
步骤1.3:为将样本权重与源域损失值之间的计算图连接,用源域损失值Losss对模型参数θ进行梯度下降更新:
从而使自然语言推理句子对权重与模型参数之间建立起计算图关系。至此,在不改变BERT模型参数值的情况下,建立了计算图连接。
步骤2:通过元梯度下降调节样本的权重。
步骤2.1:为了比较自然语言推理的分布与问答匹配的分布上BERT模型梯度下降方向的异同,在问答匹配小样本集上训练当前BERT模型并计算训练损失:
其中,Losst表示目标域损失值;BERTt表示在目标域上训练时的深度文本匹配模型BERT;M表示目标域样本的数目。
目标域样本的权重设置为常数1。这是因为与源域样本相比,目标域样本数据之间的分布没有差异。
步骤2.2:由于Losst(y,l)形式化为当根据目标域损失值Losst(y,l)计算对于源域样本权重ws的二阶导数时,梯度自然能够流过因此,梯度携带的比较信息在源域样本的权重梯度上累积。源域样本的权重调节过程如下:
步骤2.3:受模型无关元学习MAML算法的启发,采用二阶导数来比较梯度下降的方向,并根据比较结果更新权重。
元权重调节首先消除调整后的权重的负值,然后对它们进行批量归一化,以使性能更加稳定:
步骤3:在加权源域样本上,训练文本匹配BERT模型。
具体地,通过元权重调节将计算得到的样本权重分配给源域样本,以便在源域样本上训练文本匹配BERT模型后获得加权损失:
其中,Losss表示模型在源域样本上的最终加权损失值,i∈{1,2,...,N}。由此使得在自然语言推理数据中,与问答匹配数据更相似的数据获得更大的权重分配,从而更大程度上决定BERT模型参数更新的走势,最终提高BERT模型在问答匹配数据上的表现。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
Claims (3)
1.一种提高深度文本匹配模型适应性的小样本学习方法,其特征在于,包括以下步骤:
步骤1:建立样本权重与模型参数的计算图关系,包括以下步骤:
步骤1.1:在一批次源域训练集数据上前向传播文本匹配模型,并计算相应的损失值:
Costs(yi,li)=CEs(yi,li) (1)
其中,Costs表示模型在源域上的损失值;CEs代表交叉熵损失函数;li表示第i个样本的标签值;yi是模型对第i个样本的预测值:
yi=TMMs(ai,bi,θ) (2)
其中,TMMs表示在源域的任务或数据集上训练的文本匹配模型;ai、bi分别表示输入到模型进行文本匹配的两条句子;θ表示深度文本匹配模型的参数;
步骤1.2:为损失值对应的每个样本,赋予一个初始化权重,将样本权重初始值设为0;
然后,计算源域数据上的加权损失值之和,作为源域损失值:
步骤1.3:用源域损失值Losss对模型参数θ进行梯度下降更新:
步骤2:通过元梯度下降调节样本的权重,包括以下步骤:
步骤2.1:在目标小样本集上训练当前模型,并计算训练损失:
其中,Losst表示目标域损失值;TMMt表示在目标域上训练时的深度文本匹配模型;M表示目标域样本的数目;
步骤2.2:梯度携带的比较信息在源域样本的权重梯度上累积,源域样本的权重调节过程如下:
步骤2.3:采用二阶导数比较梯度下降的方向,并根据比较结果更新权重;
元权重调节首先消除调整后的权重的负值,然后对它们进行批量归一化:
步骤3:在加权源域样本上,训练文本匹配模型。
2.如权利要求1所述的一种提高深度文本匹配模型适应性的小样本学习方法,其特征在于,步骤2中,目标域样本的权重设置为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111534340.9A CN114385805B (zh) | 2021-12-15 | 2021-12-15 | 一种提高深度文本匹配模型适应性的小样本学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111534340.9A CN114385805B (zh) | 2021-12-15 | 2021-12-15 | 一种提高深度文本匹配模型适应性的小样本学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114385805A true CN114385805A (zh) | 2022-04-22 |
CN114385805B CN114385805B (zh) | 2024-05-10 |
Family
ID=81197910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111534340.9A Active CN114385805B (zh) | 2021-12-15 | 2021-12-15 | 一种提高深度文本匹配模型适应性的小样本学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114385805B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015184335A1 (en) * | 2014-05-30 | 2015-12-03 | Tootitaki Holdings Pte Ltd | Real-time audience segment behavior prediction |
CN111401928A (zh) * | 2020-04-01 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 基于图数据确定文本的语义相似度的方法及装置 |
CN112699966A (zh) * | 2021-01-14 | 2021-04-23 | 中国人民解放军海军航空大学 | 基于深度迁移学习的雷达hrrp小样本目标识别预训练及微调方法 |
CN112925888A (zh) * | 2019-12-06 | 2021-06-08 | 上海大岂网络科技有限公司 | 一种问答响应及小样本文本匹配模型的训练方法和装置 |
CN112926547A (zh) * | 2021-04-13 | 2021-06-08 | 北京航空航天大学 | 飞行器电信号分类和识别的小样本迁移学习方法 |
CN113705215A (zh) * | 2021-08-27 | 2021-11-26 | 南京大学 | 一种基于元学习的大规模多标签文本分类方法 |
-
2021
- 2021-12-15 CN CN202111534340.9A patent/CN114385805B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015184335A1 (en) * | 2014-05-30 | 2015-12-03 | Tootitaki Holdings Pte Ltd | Real-time audience segment behavior prediction |
CN112925888A (zh) * | 2019-12-06 | 2021-06-08 | 上海大岂网络科技有限公司 | 一种问答响应及小样本文本匹配模型的训练方法和装置 |
CN111401928A (zh) * | 2020-04-01 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 基于图数据确定文本的语义相似度的方法及装置 |
CN112699966A (zh) * | 2021-01-14 | 2021-04-23 | 中国人民解放军海军航空大学 | 基于深度迁移学习的雷达hrrp小样本目标识别预训练及微调方法 |
CN112926547A (zh) * | 2021-04-13 | 2021-06-08 | 北京航空航天大学 | 飞行器电信号分类和识别的小样本迁移学习方法 |
CN113705215A (zh) * | 2021-08-27 | 2021-11-26 | 南京大学 | 一种基于元学习的大规模多标签文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114385805B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108038234B (zh) | 一种问句模板自动生成方法及装置 | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN110110062B (zh) | 机器智能问答方法、装置与电子设备 | |
CN107944559B (zh) | 一种实体关系自动识别方法及系统 | |
CN112069310A (zh) | 基于主动学习策略的文本分类方法及系统 | |
CN112735383A (zh) | 语音信号的处理方法、装置、设备及存储介质 | |
CN111563143B (zh) | 一种新词的确定方法及装置 | |
CN113887643B (zh) | 一种基于伪标签自训练和源域再训练的新对话意图识别方法 | |
CN110362814B (zh) | 一种基于改进损失函数的命名实体识别方法及装置 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
CN106156805A (zh) | 一种样本标签缺失数据的分类器训练方法 | |
CN115409124B (zh) | 基于微调原型网络的小样本敏感信息识别方法 | |
CN110853630A (zh) | 面向边缘计算的轻量级语音识别方法 | |
CN113505225A (zh) | 一种基于多层注意力机制的小样本医疗关系分类方法 | |
CN115270797A (zh) | 一种基于自训练半监督学习的文本实体抽取方法及系统 | |
CN112328748A (zh) | 一种用于保险配置意图识别的方法 | |
Cao et al. | Speaker-independent speech emotion recognition based on random forest feature selection algorithm | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
Lee et al. | NAS-TasNet: Neural architecture search for time-domain speech separation | |
CN110765758A (zh) | 一种同义句生成模型的生成方法、装置及介质 | |
Fonseca et al. | Model-agnostic approaches to handling noisy labels when training sound event classifiers | |
CN115905187B (zh) | 一种面向云计算工程技术人员认证的智能化命题系统 | |
CN116050419B (zh) | 一种面向科学文献知识实体的无监督识别方法及系统 | |
CN111026908A (zh) | 歌曲标签确定方法、装置、计算机设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |