CN114385805A - 一种提高深度文本匹配模型适应性的小样本学习方法 - Google Patents

一种提高深度文本匹配模型适应性的小样本学习方法 Download PDF

Info

Publication number
CN114385805A
CN114385805A CN202111534340.9A CN202111534340A CN114385805A CN 114385805 A CN114385805 A CN 114385805A CN 202111534340 A CN202111534340 A CN 202111534340A CN 114385805 A CN114385805 A CN 114385805A
Authority
CN
China
Prior art keywords
source domain
model
sample
representing
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111534340.9A
Other languages
English (en)
Other versions
CN114385805B (zh
Inventor
宋大为
张博
张辰
马放
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202111534340.9A priority Critical patent/CN114385805B/zh
Publication of CN114385805A publication Critical patent/CN114385805A/zh
Application granted granted Critical
Publication of CN114385805B publication Critical patent/CN114385805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种提高深度文本匹配模型适应性的小样本学习方法,属于自然语言处理中的文本匹配技术领域。本方法综合了应用于文本匹配模型的小样本学习与跨领域适应性方法,沿最小化目标域小样本数据集损失的方向,对源域数据的权重进行梯度下降,解决了传统的跨领域文本匹配方法在小样本学习设置下表现不足的问题,增强了文本匹配模型在少样本学习环境中的适应性。本方法与基础模型无关,可应用于各种基于深度学习的文本匹配模型。

Description

一种提高深度文本匹配模型适应性的小样本学习方法
技术领域
本发明涉及一种小样本学习方法,具体涉及一种提高深度文本匹配模型适应性的小样本学习方法,属于自然语言处理中的文本匹配技术领域。
背景技术
文本匹配,旨在识别两个文本片段之间的关系,一直以来都是自然语言处理和信息检索中的一个关键研究问题。许多具体的任务都可被视为特定形式的文本匹配,例如问答系统、自然语言推理以及同义识别等。
随着深度学习的快速发展,近年来,许多神经网络模型被应用于文本匹配领域。由于其强大的学习文本表示的能力与建模文本对之间交互的能力,深度文本匹配方法在各项基准任务上都取得了令人印象深刻的表现。然而,一些工作表明,基于深度学习的方法通常需要大量标签数据进行训练,即,对有标签数据的规模有很强的依赖性。当可用的标签数据有限时,往往会导致模型的性能不佳,阻碍了深度文本匹配模型的泛化性和适应性。因此,如何有效地解决该问题,是进一步提升深度学习实际应用能力的关键。
对于小样本学习文本匹配的场景,目前,经典的解决方案是投入大量资源,以获取或标注相关的训练数据,从而使可用的有标签数据规模足以达到常规深度学习模型训练的需要。例如,产品搜索系统的语义匹配功能需要处理一些生活常识文本与产品信息文本之间的匹配,如果这方面的有标签数据不是很充足的话,产品方就要耗费大量的人力与时间成本进行数据的收集与标记。相比来讲,另外一种被认为更加有效的方案是,借助其它相似的数据集进行模型训练,同时提高模型在不同领域数据上的适应性,从而解决当前数据集上的小样本学习问题。因此,小样本学习问题,可以结合模型的适应性方法来进行解决。
与训练数据的领域不同的数据,被称为域外数据。在实际应用中,经常会有深度文本匹配模型预测域外数据的情况,此时模型的性能会有所降低,所以,需要模型适应性的方法来减轻模型在域外数据上的性能损失。目前,现有的模型适应性技术,大都基于“目标领域与源领域在数据规模上是相当的”的前提。然而,这种前提条件在许多情况下是不切实际的,因为在实际应用中,很难为所有域外数据都收集一个相应的大规模有标签数据集。因此,如何解决深度文本匹配模型的小样本学习与模型适应性问题,显得至关重要。
发明内容
本发明针对现有技术存在的缺陷,面向如何提高小样本学习深度文本匹配模型的跨领域适应性这一问题,创新性地提出一种提高深度文本匹配模型适应性的小样本学习方法。
本方法的创新点在于:综合了应用于文本匹配模型的小样本学习与跨领域适应性方法,沿最小化目标域小样本数据集损失的方向,对源域数据的权重进行梯度下降。
本发明采用以下技术方案实现。
一种提高深度文本匹配模型适应性的小样本学习方法,包括以下步骤:
步骤1:建立样本权重与模型参数的计算图关系。
具体地,步骤1包括以下步骤:
步骤1.1:在一批次源域训练集数据上前向传播文本匹配模型,并计算相应的损失值:
Costs(yi,li)=CEs(yi,li) (1)
其中,Costs表示模型在源域上的损失值;CEs代表交叉熵损失函数;li表示第i个样本的标签值;yi是模型对第i个样本的预测值:
yi=TMMs(ai,bi,θ) (2)
其中,TMMs表示在源域的任务或数据集上训练的文本匹配模型;ai、bi分别表示输入到模型进行文本匹配的两条句子;θ表示深度文本匹配模型的参数。
步骤1.2:为损失值对应的每个样本,赋予一个初始化权重。考虑到源域和目标域之间的数据分布差异较大,本发明将样本权重初始值设为0。然后,计算源域数据上的加权损失值之和,作为源域损失值:
Figure BDA0003412055190000021
其中,Losss表示源域损失值,y表示模型对源域样本的预测值,l表示源域样本的标签值;
Figure BDA0003412055190000022
为源域中第i个样本的权重值,其初始化为0,i∈{1,2,…,N}。
步骤1.3:为将样本权重与源域损失值之间的计算图连接,用源域损失值Losss对模型参数θ进行梯度下降更新:
Figure BDA0003412055190000031
其中,
Figure BDA0003412055190000032
表示在源域样本上更新一步后的模型参数;α表示学习率;
Figure BDA0003412055190000033
表示源域损失值对模型参数的偏导数;ws表示源域样本的权重。
Figure BDA0003412055190000034
为偏导数的运算符。
从而使样本权重与模型参数之间建立起计算图关系。至此,在不改变模型参数值的情况下,建立了计算图连接。
步骤2:通过元梯度下降调节样本的权重。
具体地,步骤2包括以下步骤:
步骤2.1:为了比较源域分布与目标域分布上模型梯度下降方向的异同,在目标小样本集上训练当前模型,并计算训练损失:
Figure BDA0003412055190000035
其中,Losst表示目标域损失值;TMMt表示在目标域上训练时的深度文本匹配模型;M表示目标域样本的数目。
目标域样本的权重设置为常数1。这是因为与源域样本相比,目标域样本数据之间的分布没有差异。
步骤2.2:由于Losst(y,l)形式化为
Figure BDA0003412055190000036
当根据目标域损失值Losst(y,l)计算对于源域样本权重ws的二阶导数时,梯度自然能够流过
Figure BDA0003412055190000037
因此,梯度携带的比较信息在源域样本的权重梯度上累积。源域样本的权重调节过程如下:
Figure BDA0003412055190000038
其中,
Figure BDA0003412055190000039
表示更新后的源域样本权重,α表示学习率,
Figure BDA00034120551900000310
表示模型在目标域小样本集上损失值对源域样本权重的二阶偏导数。
步骤2.3:受模型无关元学习算法的启发,采用二阶导数来比较梯度下降的方向,并根据比较结果更新权重。
元权重调节首先消除调整后的权重的负值,然后对它们进行批量归一化,以使性能更加稳定:
Figure BDA0003412055190000041
Figure BDA0003412055190000042
其中,
Figure BDA0003412055190000043
表示当前要进行归一化处理的源域样本权重,
Figure BDA0003412055190000044
表示批次数据内其它源域样本的权重,m是目标域训练集的数据批次大小,k表示源域批次数据中第k个样本的序号。
步骤3:在加权源域样本上,训练文本匹配模型。
具体地,通过元权重调节将计算得到的样本权重分配给源域样本,以便在源域样本上训练文本匹配模型后获得加权损失:
Figure BDA0003412055190000045
其中,Losss表示模型在源域样本上的最终加权损失值,i∈{1,2,...,N}。
由此,使在源域数据中与目标域数据更相似的数据能够获得更大的权重分配,促进它们在更大程度上决定基础模型参数更新的走势,最终提高了基础模型在问答匹配数据上的表现。
有益效果
本发明,与现有技术相比,具有如下优点:
本发明采用元权重调节方式,解决了传统的跨领域文本匹配方法在小样本学习设置下表现不足的问题,增强了文本匹配模型在少样本学习环境中的适应性。本方法与基础模型无关,可应用于各种基于深度学习的文本匹配模型。
通过在一系列文本匹配数据集上进行全面的比较实验,以检验本方法在小样本学习设置上对于不同数据集与任务适应性提升的效果。实验结果表明,本方法明显优于现有方法,有效提高了深度文本匹配模型对少样本目标任务或数据集的适应性。
附图说明
图1是本发明方法的流程图。
具体实施方式
下面结合附图对本发明方法做进一步详细说明。
实施例
一种提高深度文本匹配模型适应性的小样本学习方法,如图1所示,包括以下步骤:
步骤1:建立自然语言推理源域数据样本权重与BERT模型参数的计算图关系。
具体地,步骤1包括以下步骤:
步骤1.1:以自然语言推理训练集作为源域,利用文本匹配模型BERT在源域的一个批次数据上进行前向传播,以计算相应的源域损失值:
Costs(yi,li)=CEs(yi,li)
其中,Costs表示模型在源域上的损失值;CEs代表交叉熵损失函数;li表示第i个样本的标签值;yi是模型对第i个样本的预测值:
yi=BERTs(ai,bi,θ)
其中,BERTs表示在自然语言推理源域任务上训练的文本匹配模型BERT;ai、bi分别表示输入到模型进行文本匹配的两条句子;θ表示深度文本匹配模型的参数。
步骤1.2:为损失值对应的每个样本,赋予一个初始化权重。考虑到源域和目标域之间的数据分布差异较大,本发明将样本权重初始值设为0。然后,计算源域数据上的加权损失值之和,作为源域损失值:
Figure BDA0003412055190000051
其中,Losss表示源域损失值,y表示模型对源域样本的预测值,l表示源域样本的标签值;
Figure BDA0003412055190000052
为源域中第i个样本的权重值,初始化为0,i∈{1,2,…,N}。
步骤1.3:为将样本权重与源域损失值之间的计算图连接,用源域损失值Losss对模型参数θ进行梯度下降更新:
Figure BDA0003412055190000053
其中,
Figure BDA0003412055190000054
表示在源域样本上更新一步后的模型参数;α表示学习率;
Figure BDA0003412055190000055
表示源域损失值对模型参数的偏导数;ws表示源域样本的权重。
从而使自然语言推理句子对权重与模型参数之间建立起计算图关系。至此,在不改变BERT模型参数值的情况下,建立了计算图连接。
步骤2:通过元梯度下降调节样本的权重。
步骤2.1:为了比较自然语言推理的分布与问答匹配的分布上BERT模型梯度下降方向的异同,在问答匹配小样本集上训练当前BERT模型并计算训练损失:
Figure BDA0003412055190000061
其中,Losst表示目标域损失值;BERTt表示在目标域上训练时的深度文本匹配模型BERT;M表示目标域样本的数目。
目标域样本的权重设置为常数1。这是因为与源域样本相比,目标域样本数据之间的分布没有差异。
步骤2.2:由于Losst(y,l)形式化为
Figure BDA0003412055190000062
当根据目标域损失值Losst(y,l)计算对于源域样本权重ws的二阶导数时,梯度自然能够流过
Figure BDA0003412055190000063
因此,梯度携带的比较信息在源域样本的权重梯度上累积。源域样本的权重调节过程如下:
Figure BDA0003412055190000064
其中,
Figure BDA0003412055190000065
表示更新后的源域样本权重,α表示学习率,
Figure BDA0003412055190000066
表示模型在目标域小样本集上损失值对源域样本权重的二阶偏导数。
步骤2.3:受模型无关元学习MAML算法的启发,采用二阶导数来比较梯度下降的方向,并根据比较结果更新权重。
元权重调节首先消除调整后的权重的负值,然后对它们进行批量归一化,以使性能更加稳定:
Figure BDA0003412055190000067
Figure BDA0003412055190000068
其中,
Figure BDA0003412055190000069
表示当前需要进行归一化处理的源域样本权重,
Figure BDA00034120551900000610
表示批次数据内其它源域样本的权重,m是目标域训练集的数据批次大小,k表示源域批次数据中第k个样本的序号。
步骤3:在加权源域样本上,训练文本匹配BERT模型。
具体地,通过元权重调节将计算得到的样本权重分配给源域样本,以便在源域样本上训练文本匹配BERT模型后获得加权损失:
Figure BDA0003412055190000071
其中,Losss表示模型在源域样本上的最终加权损失值,i∈{1,2,...,N}。由此使得在自然语言推理数据中,与问答匹配数据更相似的数据获得更大的权重分配,从而更大程度上决定BERT模型参数更新的走势,最终提高BERT模型在问答匹配数据上的表现。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (3)

1.一种提高深度文本匹配模型适应性的小样本学习方法,其特征在于,包括以下步骤:
步骤1:建立样本权重与模型参数的计算图关系,包括以下步骤:
步骤1.1:在一批次源域训练集数据上前向传播文本匹配模型,并计算相应的损失值:
Costs(yi,li)=CEs(yi,li) (1)
其中,Costs表示模型在源域上的损失值;CEs代表交叉熵损失函数;li表示第i个样本的标签值;yi是模型对第i个样本的预测值:
yi=TMMs(ai,bi,θ) (2)
其中,TMMs表示在源域的任务或数据集上训练的文本匹配模型;ai、bi分别表示输入到模型进行文本匹配的两条句子;θ表示深度文本匹配模型的参数;
步骤1.2:为损失值对应的每个样本,赋予一个初始化权重,将样本权重初始值设为0;
然后,计算源域数据上的加权损失值之和,作为源域损失值:
Figure FDA0003412055180000011
其中,Losss表示源域损失值,y表示模型对源域样本的预测值,l表示源域样本的标签值;
Figure FDA0003412055180000012
为源域中第i个样本的权重值,其初始化为0,i∈{1,2,…,N};
步骤1.3:用源域损失值Losss对模型参数θ进行梯度下降更新:
Figure FDA0003412055180000013
其中,
Figure FDA0003412055180000014
表示在源域样本上更新一步后的模型参数;α表示学习率;
Figure FDA0003412055180000015
表示源域损失值对模型参数的偏导数;ws表示源域样本的权重;
Figure FDA0003412055180000016
为偏导数的运算符;
步骤2:通过元梯度下降调节样本的权重,包括以下步骤:
步骤2.1:在目标小样本集上训练当前模型,并计算训练损失:
Figure FDA0003412055180000017
其中,Losst表示目标域损失值;TMMt表示在目标域上训练时的深度文本匹配模型;M表示目标域样本的数目;
步骤2.2:梯度携带的比较信息在源域样本的权重梯度上累积,源域样本的权重调节过程如下:
Figure FDA0003412055180000021
其中,
Figure FDA0003412055180000022
表示更新后的源域样本权重,α表示学习率,
Figure FDA0003412055180000023
表示模型在目标域小样本集上损失值对源域样本权重的二阶偏导数;
步骤2.3:采用二阶导数比较梯度下降的方向,并根据比较结果更新权重;
元权重调节首先消除调整后的权重的负值,然后对它们进行批量归一化:
Figure FDA0003412055180000024
Figure FDA0003412055180000025
其中,
Figure FDA0003412055180000026
表示当前要进行归一化处理的源域样本权重,
Figure FDA0003412055180000027
表示批次数据内其它源域样本的权重,m是目标域训练集的数据批次大小,k表示源域批次数据中第k个样本的序号;
步骤3:在加权源域样本上,训练文本匹配模型。
2.如权利要求1所述的一种提高深度文本匹配模型适应性的小样本学习方法,其特征在于,步骤2中,目标域样本的权重设置为1。
3.如权利要求1所述的一种提高深度文本匹配模型适应性的小样本学习方法,其特征在于,步骤3中,通过元权重调节将计算得到的样本权重分配给源域样本,在源域样本上训练文本匹配模型后获得加权损失:
Figure FDA0003412055180000028
其中,Losss表示模型在源域样本上的最终加权损失值,i∈{1,2,...,N}。
CN202111534340.9A 2021-12-15 2021-12-15 一种提高深度文本匹配模型适应性的小样本学习方法 Active CN114385805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111534340.9A CN114385805B (zh) 2021-12-15 2021-12-15 一种提高深度文本匹配模型适应性的小样本学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111534340.9A CN114385805B (zh) 2021-12-15 2021-12-15 一种提高深度文本匹配模型适应性的小样本学习方法

Publications (2)

Publication Number Publication Date
CN114385805A true CN114385805A (zh) 2022-04-22
CN114385805B CN114385805B (zh) 2024-05-10

Family

ID=81197910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111534340.9A Active CN114385805B (zh) 2021-12-15 2021-12-15 一种提高深度文本匹配模型适应性的小样本学习方法

Country Status (1)

Country Link
CN (1) CN114385805B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015184335A1 (en) * 2014-05-30 2015-12-03 Tootitaki Holdings Pte Ltd Real-time audience segment behavior prediction
CN111401928A (zh) * 2020-04-01 2020-07-10 支付宝(杭州)信息技术有限公司 基于图数据确定文本的语义相似度的方法及装置
CN112699966A (zh) * 2021-01-14 2021-04-23 中国人民解放军海军航空大学 基于深度迁移学习的雷达hrrp小样本目标识别预训练及微调方法
CN112925888A (zh) * 2019-12-06 2021-06-08 上海大岂网络科技有限公司 一种问答响应及小样本文本匹配模型的训练方法和装置
CN112926547A (zh) * 2021-04-13 2021-06-08 北京航空航天大学 飞行器电信号分类和识别的小样本迁移学习方法
CN113705215A (zh) * 2021-08-27 2021-11-26 南京大学 一种基于元学习的大规模多标签文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015184335A1 (en) * 2014-05-30 2015-12-03 Tootitaki Holdings Pte Ltd Real-time audience segment behavior prediction
CN112925888A (zh) * 2019-12-06 2021-06-08 上海大岂网络科技有限公司 一种问答响应及小样本文本匹配模型的训练方法和装置
CN111401928A (zh) * 2020-04-01 2020-07-10 支付宝(杭州)信息技术有限公司 基于图数据确定文本的语义相似度的方法及装置
CN112699966A (zh) * 2021-01-14 2021-04-23 中国人民解放军海军航空大学 基于深度迁移学习的雷达hrrp小样本目标识别预训练及微调方法
CN112926547A (zh) * 2021-04-13 2021-06-08 北京航空航天大学 飞行器电信号分类和识别的小样本迁移学习方法
CN113705215A (zh) * 2021-08-27 2021-11-26 南京大学 一种基于元学习的大规模多标签文本分类方法

Also Published As

Publication number Publication date
CN114385805B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
CN108038234B (zh) 一种问句模板自动生成方法及装置
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN110110062B (zh) 机器智能问答方法、装置与电子设备
CN107944559B (zh) 一种实体关系自动识别方法及系统
CN112069310A (zh) 基于主动学习策略的文本分类方法及系统
CN112735383A (zh) 语音信号的处理方法、装置、设备及存储介质
CN111563143B (zh) 一种新词的确定方法及装置
CN113887643B (zh) 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN110362814B (zh) 一种基于改进损失函数的命名实体识别方法及装置
CN113010683B (zh) 基于改进图注意力网络的实体关系识别方法及系统
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN106156805A (zh) 一种样本标签缺失数据的分类器训练方法
CN115409124B (zh) 基于微调原型网络的小样本敏感信息识别方法
CN110853630A (zh) 面向边缘计算的轻量级语音识别方法
CN113505225A (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
CN115270797A (zh) 一种基于自训练半监督学习的文本实体抽取方法及系统
CN112328748A (zh) 一种用于保险配置意图识别的方法
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
CN115062123A (zh) 一种对话生成系统的知识库问答对生成方法
Lee et al. NAS-TasNet: Neural architecture search for time-domain speech separation
CN110765758A (zh) 一种同义句生成模型的生成方法、装置及介质
Fonseca et al. Model-agnostic approaches to handling noisy labels when training sound event classifiers
CN115905187B (zh) 一种面向云计算工程技术人员认证的智能化命题系统
CN116050419B (zh) 一种面向科学文献知识实体的无监督识别方法及系统
CN111026908A (zh) 歌曲标签确定方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant