CN114385805B - 一种提高深度文本匹配模型适应性的小样本学习方法 - Google Patents

一种提高深度文本匹配模型适应性的小样本学习方法 Download PDF

Info

Publication number
CN114385805B
CN114385805B CN202111534340.9A CN202111534340A CN114385805B CN 114385805 B CN114385805 B CN 114385805B CN 202111534340 A CN202111534340 A CN 202111534340A CN 114385805 B CN114385805 B CN 114385805B
Authority
CN
China
Prior art keywords
source domain
sample
model
text matching
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111534340.9A
Other languages
English (en)
Other versions
CN114385805A (zh
Inventor
宋大为
张博
张辰
马放
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202111534340.9A priority Critical patent/CN114385805B/zh
Publication of CN114385805A publication Critical patent/CN114385805A/zh
Application granted granted Critical
Publication of CN114385805B publication Critical patent/CN114385805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种提高深度文本匹配模型适应性的小样本学习方法,属于自然语言处理中的文本匹配技术领域。本方法综合了应用于文本匹配模型的小样本学习与跨领域适应性方法,沿最小化目标域小样本数据集损失的方向,对源域数据的权重进行梯度下降,解决了传统的跨领域文本匹配方法在小样本学习设置下表现不足的问题,增强了文本匹配模型在少样本学习环境中的适应性。本方法与基础模型无关,可应用于各种基于深度学习的文本匹配模型。

Description

一种提高深度文本匹配模型适应性的小样本学习方法
技术领域
本发明涉及一种小样本学习方法,具体涉及一种提高深度文本匹配模型适应性的小样本学习方法,属于自然语言处理中的文本匹配技术领域。
背景技术
文本匹配,旨在识别两个文本片段之间的关系,一直以来都是自然语言处理和信息检索中的一个关键研究问题。许多具体的任务都可被视为特定形式的文本匹配,例如问答系统、自然语言推理以及同义识别等。
随着深度学习的快速发展,近年来,许多神经网络模型被应用于文本匹配领域。由于其强大的学习文本表示的能力与建模文本对之间交互的能力,深度文本匹配方法在各项基准任务上都取得了令人印象深刻的表现。然而,一些工作表明,基于深度学习的方法通常需要大量标签数据进行训练,即,对有标签数据的规模有很强的依赖性。当可用的标签数据有限时,往往会导致模型的性能不佳,阻碍了深度文本匹配模型的泛化性和适应性。因此,如何有效地解决该问题,是进一步提升深度学习实际应用能力的关键。
对于小样本学习文本匹配的场景,目前,经典的解决方案是投入大量资源,以获取或标注相关的训练数据,从而使可用的有标签数据规模足以达到常规深度学习模型训练的需要。例如,产品搜索系统的语义匹配功能需要处理一些生活常识文本与产品信息文本之间的匹配,如果这方面的有标签数据不是很充足的话,产品方就要耗费大量的人力与时间成本进行数据的收集与标记。相比来讲,另外一种被认为更加有效的方案是,借助其它相似的数据集进行模型训练,同时提高模型在不同领域数据上的适应性,从而解决当前数据集上的小样本学习问题。因此,小样本学习问题,可以结合模型的适应性方法来进行解决。
与训练数据的领域不同的数据,被称为域外数据。在实际应用中,经常会有深度文本匹配模型预测域外数据的情况,此时模型的性能会有所降低,所以,需要模型适应性的方法来减轻模型在域外数据上的性能损失。目前,现有的模型适应性技术,大都基于“目标领域与源领域在数据规模上是相当的”的前提。然而,这种前提条件在许多情况下是不切实际的,因为在实际应用中,很难为所有域外数据都收集一个相应的大规模有标签数据集。因此,如何解决深度文本匹配模型的小样本学习与模型适应性问题,显得至关重要。
发明内容
本发明针对现有技术存在的缺陷,面向如何提高小样本学习深度文本匹配模型的跨领域适应性这一问题,创新性地提出一种提高深度文本匹配模型适应性的小样本学习方法。
本方法的创新点在于:综合了应用于文本匹配模型的小样本学习与跨领域适应性方法,沿最小化目标域小样本数据集损失的方向,对源域数据的权重进行梯度下降。
本发明采用以下技术方案实现。
一种提高深度文本匹配模型适应性的小样本学习方法,包括以下步骤:
步骤1:建立样本权重与模型参数的计算图关系。
具体地,步骤1包括以下步骤:
步骤1.1:在一批次源域训练集数据上前向传播文本匹配模型,并计算相应的损失值:
Costs(yi,li)=CEs(yi,li) (1)
其中,Costs表示模型在源域上的损失值;CEs代表交叉熵损失函数;li表示第i个样本的标签值;yi是模型对第i个样本的预测值:
yi=TMMs(ai,bi,θ) (2)
其中,TMMs表示在源域的任务或数据集上训练的文本匹配模型;ai、bi分别表示输入到模型进行文本匹配的两条句子;θ表示深度文本匹配模型的参数。
步骤1.2:为损失值对应的每个样本,赋予一个初始化权重。考虑到源域和目标域之间的数据分布差异较大,本发明将样本权重初始值设为0。然后,计算源域数据上的加权损失值之和,作为源域损失值:
其中,Losss表示源域损失值,y表示模型对源域样本的预测值,l表示源域样本的标签值;为源域中第i个样本的权重值,其初始化为0,i∈{1,2,…,N}。
步骤1.3:为将样本权重与源域损失值之间的计算图连接,用源域损失值Losss对模型参数θ进行梯度下降更新:
其中,表示在源域样本上更新一步后的模型参数;α表示学习率;/>表示源域损失值对模型参数的偏导数;ws表示源域样本的权重。/>为偏导数的运算符。
从而使样本权重与模型参数之间建立起计算图关系。至此,在不改变模型参数值的情况下,建立了计算图连接。
步骤2:通过元梯度下降调节样本的权重。
具体地,步骤2包括以下步骤:
步骤2.1:为了比较源域分布与目标域分布上模型梯度下降方向的异同,在目标小样本集上训练当前模型,并计算训练损失:
其中,Losst表示目标域损失值;TMMt表示在目标域上训练时的深度文本匹配模型;M表示目标域样本的数目。
目标域样本的权重设置为常数1。这是因为与源域样本相比,目标域样本数据之间的分布没有差异。
步骤2.2:由于Losst(y,l)形式化为当根据目标域损失值Losst(y,l)计算对于源域样本权重ws的二阶导数时,梯度自然能够流过/>因此,梯度携带的比较信息在源域样本的权重梯度上累积。源域样本的权重调节过程如下:
其中,表示更新后的源域样本权重,α表示学习率,/>表示模型在目标域小样本集上损失值对源域样本权重的二阶偏导数。
步骤2.3:受模型无关元学习算法的启发,采用二阶导数来比较梯度下降的方向,并根据比较结果更新权重。
元权重调节首先消除调整后的权重的负值,然后对它们进行批量归一化,以使性能更加稳定:
其中,表示当前要进行归一化处理的源域样本权重,/>表示批次数据内其它源域样本的权重,m是目标域训练集的数据批次大小,k表示源域批次数据中第k个样本的序号。
步骤3:在加权源域样本上,训练文本匹配模型。
具体地,通过元权重调节将计算得到的样本权重分配给源域样本,以便在源域样本上训练文本匹配模型后获得加权损失:
其中,Losss表示模型在源域样本上的最终加权损失值,i∈{1,2,...,N}。
由此,使在源域数据中与目标域数据更相似的数据能够获得更大的权重分配,促进它们在更大程度上决定基础模型参数更新的走势,最终提高了基础模型在问答匹配数据上的表现。
有益效果
本发明,与现有技术相比,具有如下优点:
本发明采用元权重调节方式,解决了传统的跨领域文本匹配方法在小样本学习设置下表现不足的问题,增强了文本匹配模型在少样本学习环境中的适应性。本方法与基础模型无关,可应用于各种基于深度学习的文本匹配模型。
通过在一系列文本匹配数据集上进行全面的比较实验,以检验本方法在小样本学习设置上对于不同数据集与任务适应性提升的效果。实验结果表明,本方法明显优于现有方法,有效提高了深度文本匹配模型对少样本目标任务或数据集的适应性。
附图说明
图1是本发明方法的流程图。
具体实施方式
下面结合附图对本发明方法做进一步详细说明。
实施例
一种提高深度文本匹配模型适应性的小样本学习方法,如图1所示,包括以下步骤:
步骤1:建立自然语言推理源域数据样本权重与BERT模型参数的计算图关系。
具体地,步骤1包括以下步骤:
步骤1.1:以自然语言推理训练集作为源域,利用文本匹配模型BERT在源域的一个批次数据上进行前向传播,以计算相应的源域损失值:
Costs(yi,li)=CEs(yi,li)
其中,Costs表示模型在源域上的损失值;CEs代表交叉熵损失函数;li表示第i个样本的标签值;yi是模型对第i个样本的预测值:
yi=BERTs(ai,bi,θ)
其中,BERTs表示在自然语言推理源域任务上训练的文本匹配模型BERT;ai、bi分别表示输入到模型进行文本匹配的两条句子;θ表示深度文本匹配模型的参数。
步骤1.2:为损失值对应的每个样本,赋予一个初始化权重。考虑到源域和目标域之间的数据分布差异较大,本发明将样本权重初始值设为0。然后,计算源域数据上的加权损失值之和,作为源域损失值:
其中,Losss表示源域损失值,y表示模型对源域样本的预测值,l表示源域样本的标签值;为源域中第i个样本的权重值,初始化为0,i∈{1,2,…,N}。
步骤1.3:为将样本权重与源域损失值之间的计算图连接,用源域损失值Losss对模型参数θ进行梯度下降更新:
其中,表示在源域样本上更新一步后的模型参数;α表示学习率;/>表示源域损失值对模型参数的偏导数;ws表示源域样本的权重。
从而使自然语言推理句子对权重与模型参数之间建立起计算图关系。至此,在不改变BERT模型参数值的情况下,建立了计算图连接。
步骤2:通过元梯度下降调节样本的权重。
步骤2.1:为了比较自然语言推理的分布与问答匹配的分布上BERT模型梯度下降方向的异同,在问答匹配小样本集上训练当前BERT模型并计算训练损失:
其中,Losst表示目标域损失值;BERTt表示在目标域上训练时的深度文本匹配模型BERT;M表示目标域样本的数目。
目标域样本的权重设置为常数1。这是因为与源域样本相比,目标域样本数据之间的分布没有差异。
步骤2.2:由于Losst(y,l)形式化为当根据目标域损失值Losst(y,l)计算对于源域样本权重ws的二阶导数时,梯度自然能够流过/>因此,梯度携带的比较信息在源域样本的权重梯度上累积。源域样本的权重调节过程如下:
其中,表示更新后的源域样本权重,α表示学习率,/>表示模型在目标域小样本集上损失值对源域样本权重的二阶偏导数。
步骤2.3:受模型无关元学习MAML算法的启发,采用二阶导数来比较梯度下降的方向,并根据比较结果更新权重。
元权重调节首先消除调整后的权重的负值,然后对它们进行批量归一化,以使性能更加稳定:
其中,表示当前需要进行归一化处理的源域样本权重,/>表示批次数据内其它源域样本的权重,m是目标域训练集的数据批次大小,k表示源域批次数据中第k个样本的序号。
步骤3:在加权源域样本上,训练文本匹配BERT模型。
具体地,通过元权重调节将计算得到的样本权重分配给源域样本,以便在源域样本上训练文本匹配BERT模型后获得加权损失:
其中,Losss表示模型在源域样本上的最终加权损失值,i∈{1,2,...,N}。由此使得在自然语言推理数据中,与问答匹配数据更相似的数据获得更大的权重分配,从而更大程度上决定BERT模型参数更新的走势,最终提高BERT模型在问答匹配数据上的表现。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (3)

1.一种提高深度文本匹配模型适应性的小样本学习方法,其特征在于,包括以下步骤:
步骤1:建立样本权重与模型参数的计算图关系,包括以下步骤:
步骤1.1:在一批次源域训练集数据上前向传播文本匹配模型,并计算相应的损失值:
Costs(yi,li)=CEs(yi,li) (1)
其中,Costs表示模型在源域上的损失值;CEs代表交叉熵损失函数;li表示第i个样本的标签值;yi是模型对第i个样本的预测值:
yi=TMMs(ai,bi,θ) (2)
其中,TMMs表示在源域的任务或数据集上训练的文本匹配模型;ai、bi分别表示输入到模型进行文本匹配的两条句子;θ表示深度文本匹配模型的参数;
步骤1.2:为损失值对应的每个样本,赋予一个初始化权重,将样本权重初始值设为0;
然后,计算源域数据上的加权损失值之和,作为源域损失值:
其中,Losss表示源域损失值,y表示模型对源域样本的预测值,l表示源域样本的标签值;为源域中第i个样本的权重值,其初始化为0,i∈{1,2,…,N};
步骤1.3:用源域损失值Losss对模型参数θ进行梯度下降更新:
其中,表示在源域样本上更新一步后的模型参数;α表示学习率;/>表示源域损失值对模型参数的偏导数;ws表示源域样本的权重;/>为偏导数的运算符;
步骤2:通过元梯度下降调节样本的权重,包括以下步骤:
步骤2.1:在目标小样本集上训练当前模型,并计算训练损失:
其中,Losst表示目标域损失值;TMMt表示在目标域上训练时的深度文本匹配模型;M表示目标域样本的数目;
步骤2.2:梯度携带的比较信息在源域样本的权重梯度上累积,源域样本的权重调节过程如下:
其中,表示更新后的源域样本权重,α表示学习率,/>表示模型在目标域小样本集上损失值对源域样本权重的二阶偏导数;
步骤2.3:采用二阶导数比较梯度下降的方向,并根据比较结果更新权重;
元权重调节首先消除调整后的权重的负值,然后对它们进行批量归一化:
其中,表示当前要进行归一化处理的源域样本权重,/>表示批次数据内其它源域样本的权重,n是目标域训练集的数据批次大小,k表示源域批次数据中第k个样本的序号;
步骤3:在加权源域样本上,训练文本匹配模型。
2.如权利要求1所述的一种提高深度文本匹配模型适应性的小样本学习方法,其特征在于,步骤2中,目标域样本的权重设置为1。
3.如权利要求1所述的一种提高深度文本匹配模型适应性的小样本学习方法,其特征在于,步骤3中,通过元权重调节将计算得到的样本权重分配给源域样本,在源域样本上训练文本匹配模型后获得加权损失:
其中,Losss表示模型在源域样本上的最终加权损失值,i∈{1,2,...,N}。
CN202111534340.9A 2021-12-15 2021-12-15 一种提高深度文本匹配模型适应性的小样本学习方法 Active CN114385805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111534340.9A CN114385805B (zh) 2021-12-15 2021-12-15 一种提高深度文本匹配模型适应性的小样本学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111534340.9A CN114385805B (zh) 2021-12-15 2021-12-15 一种提高深度文本匹配模型适应性的小样本学习方法

Publications (2)

Publication Number Publication Date
CN114385805A CN114385805A (zh) 2022-04-22
CN114385805B true CN114385805B (zh) 2024-05-10

Family

ID=81197910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111534340.9A Active CN114385805B (zh) 2021-12-15 2021-12-15 一种提高深度文本匹配模型适应性的小样本学习方法

Country Status (1)

Country Link
CN (1) CN114385805B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015184335A1 (en) * 2014-05-30 2015-12-03 Tootitaki Holdings Pte Ltd Real-time audience segment behavior prediction
CN111401928A (zh) * 2020-04-01 2020-07-10 支付宝(杭州)信息技术有限公司 基于图数据确定文本的语义相似度的方法及装置
CN112699966A (zh) * 2021-01-14 2021-04-23 中国人民解放军海军航空大学 基于深度迁移学习的雷达hrrp小样本目标识别预训练及微调方法
CN112926547A (zh) * 2021-04-13 2021-06-08 北京航空航天大学 飞行器电信号分类和识别的小样本迁移学习方法
CN112925888A (zh) * 2019-12-06 2021-06-08 上海大岂网络科技有限公司 一种问答响应及小样本文本匹配模型的训练方法和装置
CN113705215A (zh) * 2021-08-27 2021-11-26 南京大学 一种基于元学习的大规模多标签文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015184335A1 (en) * 2014-05-30 2015-12-03 Tootitaki Holdings Pte Ltd Real-time audience segment behavior prediction
CN112925888A (zh) * 2019-12-06 2021-06-08 上海大岂网络科技有限公司 一种问答响应及小样本文本匹配模型的训练方法和装置
CN111401928A (zh) * 2020-04-01 2020-07-10 支付宝(杭州)信息技术有限公司 基于图数据确定文本的语义相似度的方法及装置
CN112699966A (zh) * 2021-01-14 2021-04-23 中国人民解放军海军航空大学 基于深度迁移学习的雷达hrrp小样本目标识别预训练及微调方法
CN112926547A (zh) * 2021-04-13 2021-06-08 北京航空航天大学 飞行器电信号分类和识别的小样本迁移学习方法
CN113705215A (zh) * 2021-08-27 2021-11-26 南京大学 一种基于元学习的大规模多标签文本分类方法

Also Published As

Publication number Publication date
CN114385805A (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN108334891B (zh) 一种任务型意图分类方法及装置
CN110737758A (zh) 用于生成模型的方法和装置
CN110674323B (zh) 基于虚拟标签回归的无监督跨模态哈希检索方法及系统
CN106844349B (zh) 基于协同训练的垃圾评论识别方法
CN111127246A (zh) 一种输电线路工程造价的智能预测方法
CN110362814B (zh) 一种基于改进损失函数的命名实体识别方法及装置
CN113887643B (zh) 一种基于伪标签自训练和源域再训练的新对话意图识别方法
Xue et al. Generative adversarial learning for optimizing ontology alignment
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN114490991A (zh) 基于细粒度局部信息增强的对话结构感知对话方法及系统
Zhang et al. Multifeature named entity recognition in information security based on adversarial learning
CN109741824A (zh) 一种基于机器学习的医疗问诊方法
CN114462409A (zh) 一种基于对抗训练的审计领域命名实体识别方法
CN112328748A (zh) 一种用于保险配置意图识别的方法
CN113010683A (zh) 基于改进图注意力网络的实体关系识别方法及系统
CN115203419A (zh) 语言模型的训练方法、装置及电子设备
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN112905750A (zh) 一种优化模型的生成方法和设备
CN114385805B (zh) 一种提高深度文本匹配模型适应性的小样本学习方法
CN109189915B (zh) 一种基于深度相关匹配模型的信息检索方法
CN114357166B (zh) 一种基于深度学习的文本分类方法
Li et al. Dual pseudo supervision for semi-supervised text classification with a reliable teacher
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN114372138A (zh) 一种基于最短依存路径和bert的电力领域关系抽取的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant