CN115270752A - 一种基于多层次对比学习的模板句评估方法 - Google Patents

一种基于多层次对比学习的模板句评估方法 Download PDF

Info

Publication number
CN115270752A
CN115270752A CN202210892831.9A CN202210892831A CN115270752A CN 115270752 A CN115270752 A CN 115270752A CN 202210892831 A CN202210892831 A CN 202210892831A CN 115270752 A CN115270752 A CN 115270752A
Authority
CN
China
Prior art keywords
learning
sentence
level
semantic
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210892831.9A
Other languages
English (en)
Inventor
陈�光
李婧蕾
李思
徐雅静
徐蔚然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210892831.9A priority Critical patent/CN115270752A/zh
Publication of CN115270752A publication Critical patent/CN115270752A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多层次对比学习的模板句评估方法,首先基于样本层次和类别层次的对比学习,在少样本的场景下,利用数据增强技术构建对应的数据集,利用对比学习自动训练学习数据特性,获得具有一定表征能力的语义编码器,然后将少量的原始样本输入编码器获得特征向量,考虑代表性、区分度和句长三个维度的特征,在语义空间中将代表性建模为平均类内距、将区分度建模为平均类间距进行量化,最终使用加权量化值之和作为评估分数。该方法能够将样本间的数据特征纳入考虑,从训练集中选出最适合作为模板句的样本,最终减少由于随机选取模板句带来的不稳定性,有效提升以模板句作为组件的应用模型效果,语义编码器的可解释性和表征能力可通过可视化进行验证。

Description

一种基于多层次对比学习的模板句评估方法
技术领域
本发明涉及互联网语言处理技术领域,尤其涉及一种基于多层次对比学习的模板句评估方法。
背景技术
随着互联网和计算机的迅速发展,硬件技术的不断提升,计算机的速度和存储量大幅增加,机器学习和深度学习等技术受到越来越多的关注,自然语言处理的物质基础和理论基础都得到了大幅度改善,并逐步被应用到各个场景之中,如智能问答、用户画像构建等领域。由于互联网的不断普及,网民数量不断增多,人们通过网络获得的信息数量呈指数型爆炸增长。其中,文本以包含信息量大且资源消耗少的优点,成为主要的信息形式之一。面对海量数据,自然语言处理技术能够快速、准确地帮助人们找到真正需要的信息,因此成为研究的热门之一。
在自然语言处理领域,模板句作为一个常见的组件出现于各个领域当中。事件抽取任务旨在从非结构化文本中抽取事件信息,并将其以结构化形式呈现出来,通常包含事件类型识别和事件元素填充两个子任务。事件类型识别这一步骤经常根据模板句来制定模板,从而用来代表事件的特定类型,不同类型的事件具有不同的模板。事件元素填充的目标为抽取相应的元素,并根据所属的事件模板进行填充。在这一过程中,模板句选取的质量将很大的影响模型的最终效果。近些年来,随着预训练任务和自监督任务学习模式的兴起,模板句还常常被用在提示学习(Prompt Learning)中来激发语言模型的潜能。提示学习的关键在于改造下游任务、增加提示知识,使任务输入和输出适合原始语言模型,从而在零样本或少样本的场景中获得良好的任务效果。其中提示知识的一种常见方法是根据任务目标构建模板句,不同的类型对应着不同的模板句,因此模板句的构建质量往往影响着模型的最终效果。
对于文档、段落和句子等级别的文本句传统质量评估方法通常使用各种回归算法例如支持向量机(Support Vector Machines,SVM))、多层感知器(MultilayerPerceptron,MLP)、条件随机场(Conditional Random Field,CRF)等机器学习方法进行训练。随着深度学习技术的逐渐成熟,基于神经网络的方法已被成功地利用来改善质量评估性能。现有方法主要基于编码器-解码器框架(Encoder-Decoder)解决序列间预测问题,常使用的编码器语言表示模型包括循环神经网络(Recurrent Neural Network,RNN)、Transformer等。
在研究的过程中发现,对于上述现有技术中,存在以下缺点:
文本质量评估的方法大多是针对文本生成问题对生成的文本进行打分,角度多聚焦于文本本身的流畅度,没有考虑文本与同类型其他样本,以及不同类型样本之间的关系,因此无法利用低资源场景下的有限样本信息进行特征学习与评估,难适用于模板句选取的目标场景。
发明内容
本发明为解决现有文本质量评估方法中只考虑文本本身,而没有考虑该文本与同类型样本之间和不同类型样本之间的关系,难适用于模板句选取应用场景的问题,提供一种基于多层次对比学习的模板句评估方法。
为了实现上述目的,本发明提供如下技术方案:
一种基于多层次对比学习的模板句评估方法,采用基于样本层次学习的语义编码器、基于类别层次学习的语义编码器和三维度量化评估方法,所述样本层次学习的语义编码器是基于对比学习的聚类框架学习训练获得的,样本层次学习的语义编码器将聚类作为任务目标,采用预训练语言模型BERT来对原始输入文本提取特征向量Z,并将提取的特征向量Z输入至聚类损失和实例对比损失中,用来学习同一类别样本之间的数据特征;所述类别层次学习的语义编码器是基于对比学习的孪生网络框架学习训练练获得的,类别层次学习的语义编码器将文本分类作为任务目标,采用预训练语言模型BERT来对原始输入文本提取特征向量对(u,v),并将提取的特征向量对(u,v)进行简单拼接后通过softmax函数,计算每个类别的概率,用来学习不同类别样本之间的数据特征;所述的三维度量化评估方法考虑代表性、区分度和句长三个维度的特征,在语义空间中将代表性建模为平均类内距、将区分度建模为平均类间距,计算平均类内距、平均类间距、句长的倒数,最终使用加权量化值之和作为评估分数。
进一步地,将原始输入文本映射为向量形式表示,即将文本数值化为每个字符向量列连接成的数值矩阵。
进一步地,属于同一类别文本的所述数值矩阵,通过两两点乘再求平均的方式得到平均类内距作为代表性量化值。
进一步地,属于不同类别文本的所述数值矩阵,通过两两点乘再求平均的方式得到平均类间距作为区分度量化值。
进一步地,上述的基于多层次对比学习的模板句评估方法,包括以下步骤:
S1、构建样本层次对比学习数据集,作为训练样本层次语义编码器的训练集;
S2、基于对比学习的聚类框架学习训练样本层次对比学习数据特性,获得样本层次的语义编码器;
S3、构建类别层次对比学习数据集,相同类别的样本两两组成句子对并设为正样本,将不同类别样本两两组成的句子对作为负样本;
S4、基于对比学习的孪生网络框架学习训练类别层次对比学习数据特性,获得类别层次的语义编码器;
S5、将需要评估的模板句分别输入步骤S2学习所得的样本层次的语义编码器和步骤S4学习所得的类别层次的语义编码器,获得两种语义向量;
S6、计算两两语义向量之间的距离,先对样本的语义向量进行归一化,之后进行点积操作,以此作为向量之间的距离;
S7、计算待评估句子与同类别样本间的平均类内距作为代表性维度量化值,计算待评估句子与不同类别样本间的平均类间距作为区分度维度量化值,计算待评估句子句长的倒数作为句长量化值;
S8、计算代表性、区分度和句长三个维度的加权和作为最终评估分数。
进一步地,步骤S1包括:
S11、利用数据增强技术,为每一个实例构建增强数据;
S12、构建对比学习样本对,将来源于同一实例的句子两两组成对设置为正样本,来源于不同实例的句子两两组成对设置为负样本。
进一步地,步骤S2包括:
S21、预训练语言模型BERT作为文本特征提取器,将步骤S1中样本层次对比学习数据集的句子对作为输入,提取句子对特征向量(zi,zj);
S22、通过句子对的特征向量(zi,zj)计算实例对比损失LInstance-CL,将正样本对和负样本对分离开,实例对比损失计算方法如下式所示:
Figure BDA0003768265280000041
其中,M表示数据集的样本数量,i和j表示样本序号,
Figure BDA0003768265280000042
Figure BDA0003768265280000043
表示来自于同一源样本的正样本对特征向量,
Figure BDA0003768265280000044
Figure BDA0003768265280000045
表示来自不同源样本的负样本对特征向量,τ表示温度系数,来控制损失的影响大小;
S23、通过句子对的特征向量(zi,zj)计算聚类对比损失LCluster,将来源于相同类别的实例聚集在一起,聚类对比损失计算方法如下式所示:
Figure BDA0003768265280000046
Figure BDA0003768265280000047
Figure BDA0003768265280000048
Figure BDA0003768265280000049
其中μk表示每个类别在语义空间中的质心,α表示Student's t-分布的自由度;qjk表示样本xj分配到第k个簇的概率,K表示语义类别数目,k∈{1,…,K}表示类别序号,pjk表示辅助概率;fk是计算pjk的中间步骤,k′是
Figure BDA00037682652800000410
里面求和计算的辅助序号,μk′、fk′包含同样辅助求和序号的含义;
S24、利用实例对比损失LInstance-CL和聚类对比损失LCluster联合训练基于样本层次的语义编码器。
进一步地,步骤S4包括:
S41、预训练语言模型SBERT作为文本特征提取器,将步骤S3中样本层次对比学习数据集的句子对作为输入,提取特征向量c;
S42、首先将SBERT模型提取到的特征向量(ci,cj)分别输入到mean-pooling层中得到向量(μ,v),再将μ、v、|u-v|三个向量拼接起来放入softmax函数,计算二分类中每个类别的概率P,如下式所示:
P=softmax(mean_pooling(concat(μ、v,、|u-v|))
其中,concat表示拼接操作。
进一步地,步骤S7中,将所述待评估文本映射为向量形式表示,即:将文本数值化为每个字符向量列连接成的数值矩阵;属于同一类别文本的所述数值矩阵,通过两两点乘再求平均的方式得到平均类内距作为代表性量化值;属于不同类别文本的所述数值矩阵,通过两两点乘再求平均的方式得到平均类间距作为区分度量化值。
进一步地,步骤S8最终评估分数的计算方法如下式所示:
score=ρδ+βε+γl
其中,δ为代表性维度量化值,ε为区分度维度量化值,l为句长量化值,通过ρ、β、γ三个参数控制三个评估维度在最终结果中的占比。
与现有技术相比,本发明的有益效果为:
本发明提供的基于多层次对比学习的模板句评估方法,首先基于样本层次和类别层次的对比学习,在少样本(低资源)的场景下,构建对应的数据集,利用对比学习自动训练学习数据特性,获得具有一定表征能力的语义编码器,然后将少量的原始样本输入语义编码器获得特征向量,考虑代表性、区分度和句长三个维度的特征,在语义空间中将代表性建模为平均类内距、将区分度建模为平均类间距进行量化,最终使用加权量化值之和作为评估分数,该方法能够将样本间的数据特征纳入考虑,从训练集中选出最适合作为模板句的样本,最终减少由于随机选取模板句带来的不稳定性,有效提升以模板句作为组件的应用模型效果。同时,语义编码器的可解释性和表征能力可通过可视化进行验证,评估方法各个维度量化值的分布特征也可进行可视化和分析证明本发明的合理性和有效性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于多层次对比学习的模板句评估方法的流程图。
图2为本发明实施例提供的基于样本层次对比学习的聚类方法框架(SCCL)的示意图。
图3为本发明实施例提供的基于类别层次对比学习的孪生网络框架(SBERT)的示意图。
具体实施方式
本发明提供了一种基于多层次对比学习的模板句评估方法,该方法包括基于样本层次学习的语义编码器、基于类别层次学习的语义编码器和三维度量化评估方法;
所述样本层次学习的语义编码器是基于对比学习的聚类框架(SCCL)学习训练,采用预训练语言模型BERT来对原始输入文提取特征向量Z,并将提取的特征向量Z输入至聚类损失和实例对比损失中,用来学习同一类别样本之间的数据特征;
所述类别层次学习的语义编码器是基于对比学习的孪生网络框架(SBERT)学习训练,采用预训练语言模型BERT来对原始输入文提取特征向量对(u,v),并将提取的特征向量对(u,v)进行简答拼接后通过softmax函数,计算每个类别的概率,用来学习不同类别样本之间的数据特征;
所述三维度量化评估方法从代表性、区分度和句长三维度考虑,基于语义编码器采用类内距、类间距、句长的倒数进行量化,并将量化值进行加权作为最终评估分数。
将所述待评估文本映射为向量形式表示,即:将文本数值化为每个字符向量列连接成的数值矩阵。
属于同一类别文本的所述数值矩阵,通过两两点乘再求平均的方式得到平均类内距作为代表性量化值;
属于不同类别文本的所述数值矩阵,通过两两点乘再求平均的方式得到平均类间距作为区分度量化值。
为了更好地理解本技术方案,下面结合附图对本发明的方法做详细的说明。
实施例1
本发明提供的基于多层次对比学习的模板句评估方法,如图1所示,本实施方式中利用基准关系分类数据集NYT11上进行实现,包括如下步骤:
S1、构建样本层次对比学习数据集,作为训练样本层次语义编码器的训练集;
具体地,步骤S1包括:
S11、利用数据增强技术,为每一个实例构建增强数据;本实例中采用的数据增强技术为反译,利用机器翻译模型将原始文本翻译为其他语言再翻译回源语言;
S12、构建对比学习样本对,将来源于同一实例的句子两两组成对设置为正样本,来源于不同实例的句子两两组成对,设置为负样本。本实例中将原始文本和反译后的文本两两组成对设置为正样本,原始文本与其他原始文本两两组成对,设置为负样本。
S2、学习训练基于样本层次的语义编码器,所述样本层次学习的语义编码器,基于对比学习的聚类框架(Supporting Clustering with Contrastive Learning,SCCL)学习训练;
具体地,如图2所示,步骤S2包括:
S21、预训练语言模型BERT模型作为文本特征提取器,将步骤一中样本层次对比学习数据集的句子对作为输入,提取特征向量(zi,zj);具体而言,本实施例采用的BERT模型是BERT-Base-cased模型,该模型由12层transformer组成,隐藏向量维度为768,cased是指输入文本不区分大小写,训练参数batch size设置为100,学习率为1e-5;
S22、通过句子对的特征向量对(zi,zj)计算实例对比损失LInstance-CL,将正样本对和其他负样本对分离开,损失计算方法是如下式所示:
Figure BDA0003768265280000081
在本实施方法中τ=1。
S23、通过句子对的特征向量对(zi,zj)计算聚类对比损失LCluster,将来源于相同类别的实例聚集在一起,损失计算方法是如下式所示:
Figure BDA0003768265280000082
Figure BDA0003768265280000083
Figure BDA0003768265280000084
Figure BDA0003768265280000085
其中μk表示每个类别在语义空间中的质心,α表示Student's t-分布的自由度;在本实施方法中α=1;
S24、利用实例对比损失LInstance-CL和聚类对比损失LCluster联合训练基于样本层次的语义编码器。
S3、构建类别层次对比学习数据集,相同类别的样本两两组成句子对并设为正样本,将不同类别样本两两组成的句子对作为负样本;在本实施例中数据集中共有11个样本类别,每个类别选取50个样本句。
S4、学习训练基于类别层次的语义编码器,所述类别层次学习的语义编码器,基于对比学习的孪生网络框架(Sentence-BERT,SBERT)学习训练;
具体地,如图3所示,步骤S4包括:
S41、预训练语言模型SBERT模型作为文本特征提取器,将步骤三中样本层次对比学习数据集的句子对作为输入,提取特征向量c;本实施例采用BERT模型作为基础模型,具体而言,选用BERT-Base-cased模型,该模型由12层transformer组成,隐藏向量维度为768,cased是指输入文本区分大小写,训练参数batch size设置为24,学习率为1e-5;
S42、首先将SBERT模型提取到的特征向量(ci,cj)分别输入到mean-pooling层中得到向量(μ,v),再将μ、v、|u-v|三个向量拼接起来放入softmax函数,计算二分类中每个类别的概率P,如下式所示:
P=softmax(mean_pooling(concat(μ、v,、|u-v|))。
S5、将需要评估的模板句放入步骤S2和步骤S4学习所得的语义编码器,获得两种语义向量;
S6、计算两两语义向量之间的距离,先对样本的语义向量进行归一化,之后进行点积操作,以此作为向量之间的距离;
S7、计算待评估句子与同类别样本间的平均类内距作为代表性维度量化值,计算待评估句子与不同类别样本间的平均类间距作为区分度维度量化值,计算待评估句子句长的倒数作为句长量化值;
具体地,步骤S7中,将所述待评估文本映射为向量形式表示,即:将文本数值化为每个字符向量列连接成的数值矩阵;属于同一类别文本的所述数值矩阵,通过两两点乘再求平均的方式得到平均类内距作为代表性量化值;属于不同类别文本的所述数值矩阵,通过两两点乘再求平均的方式得到平均类间距作为区分度量化值。
S8、计算代表性、区分度和句长三个维度的加权和作为最终评估分数。具体地,步骤S8最终评估分数的计算方法如下式所示:
score=ρδ+βε+γl
其中,δ为代表性维度量化值,ε为区分度维度量化值,l为句长量化值,在本实施方法中ρ=0.3、β=0.6、γ=0.1。
后续对两种语义编码器的表征能力进行了可视化和分析,首先进行了PCA降维操作,将文本特征向量映射到三维向量之上,然后使用MATLAB函数展示在三维坐标系之中,展示了语义编码器表征能力的有效性,进一步证明了评估方案的合理性。
本实施方式中,针对关系分类数据集NYT11构建对比学习数据集,并通过代表性、区分度和句长维度量化评估文本,挑选更优模板句作为其对应关系类别的代表,展现了评估方法的可解释性,减小了以模板句作为组件的模型的不确定性,并提高了模板句的质量,有利于进一步提升模型性能。
实施例2
本发明提供的基于多层次对比学习的模板句评估方法,如图1所示,本实施方式中利用基准关系分类数据集SemEval-2010 Task 8上进行实现,该方法由以下步骤实现:
步骤S1、构建样本层次对比学习数据集,作为训练样本层次语义编码器的训练集;
步骤S11、利用数据增强技术,为每一个实例构建增强数据,本实例中采用的数据增强技术为同义词替换,利用WordNet同义词网络将原始文本中的词语使用同义词替换;
步骤S12、构建对比学习样本对,将原始文本和同义词替换后的文本两两组成对设置为正样本,原始文本与其他原始文本两两组成对,设置为负样本;
步骤S2、学习训练基于样本层次的语义编码器,所述语义编码器主要基于样本层次对比学习的聚类框架(Supporting Clustering with Contrastive Learning,SCCL),如图2所示;
步骤S21、预训练语言模型BERT模型作为文本特征提取器,将步骤一中样本层次对比学习数据集的句子对作为输入,提取特征向量(zi,zj),具体而言,本文采用的BERT模型是roberta-base-nli-stsb-mean-tokens模型,该模型由12层transformer组成,隐藏向量维度为768,训练参数batch size设置为100,学习率为1e-5;
步骤S22、通过句子对的特征向量对(zi,zj)计算实例对比损失LInstance-CL,将正样本对和其他负样本对分离开,损失计算方法是如下式所示,在本实施方法中τ=1:
Figure BDA0003768265280000111
步骤S23、通过句子对的特征向量对(zi,zj)计算聚类对比损失LCluster,将来源于相同类别的实例聚集在一起,损失计算方法是如下式所示,其中μ表示每个类别在语义空间中的质心,α表示Student's t-分布的自由度,在本实施方法中α=1:
Figure BDA0003768265280000112
Figure BDA0003768265280000113
Figure BDA0003768265280000114
Figure BDA0003768265280000115
步骤S24、利用实例对比损失LInstanCe-CL和聚类对比损失LCluster联合训练基于样本层次的语义编码器;
步骤S3、构建类别层次对比学习数据集,本数据集中共有9个样本类别,每个类别选取50个样本句,将相同类别的样本两两组成句子对并设为正样本,将不同类别样本两两组成的句子对作为负样本。
步骤S4、学习训练基于类别层次的语义编码器,选择二分类作为微调任务。所述语义编码器主要基于类别层次对比学习的孪生网络框架(Sentence-BERT,SBERT),如图3所示;
步骤S41、预训练语言模型SBERT模型作为文本特征提取器,将步骤三中样本层次对比学习数据集的句子对作为输入,提取特征向量c,本文采用BERT模型作为基础模型,具体而言,选用
roberta-base-nli-stsb-mean-tokens模型,该模型由12层transformer组成,隐藏向量维度为768,训练参数batch size设置为24,学习率为1e-5;
步骤S42、首先将SBERT模型提取到的特征向量(ci,cj)分别输入到mean-pooling层中得到向量(μ,v),再将μ、v、|u-v|三个向量拼接起来放入softmax函数,计算二分类中每个类别的概率P,如下式所示:
P=softmax(mean_pooling(concat(μ、v,、|u-v|))
步骤S5、将需要评估的模板句放入步骤二和步骤四学习所得的语义编码器,获得两种语义向量;
步骤S6、计算两两语义向量之间的距离,先对样本的语义向量进行归一化,之后进行点积操作,以此作为向量之间的距离;
步骤S7、通过计算待评估句子与同类别样本间的平均类内距作为代表性维度量化值δ,计算待评估句子与不同类别样本间的平均类间距作为区分度维度量化值ε,计算待评估句子句长的倒数作为句长量化值l;
步骤S8、计算代表性、区分度和句长三个维度的加权和作为最终评估分数,如下式所示,在本实施方法中ρ=0.3、β=0.6、γ=0.1:
score=ρδ+βε+γl
后续对样本在两个语义空间中的平均类内距和平均类间距的分布进行了可视化和分析,使用MATLAB函数展示在二维直方图中,展现了进评估方案的可解释性和合理性。
本实施方式中,针对关系分类数据集SemEval-2010 Task 8构建对比学习数据集,首先学习训练了两种层次的语义编码器,之后基于语义编码器从代表性、区分度和句长维度量化评估文本,挑选更优模板句作为其对应关系类别的代表,展现了评估方法的可解释性,减小了以模板句作为组件的模型的不确定性,并提高了模板句的质量,有利于进一步提升模型性能。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,但这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于多层次对比学习的模板句评估方法,其特征在于,采用基于样本层次学习的语义编码器、基于类别层次学习的语义编码器和三维度量化评估方法;所述样本层次学习的语义编码器是基于对比学习的聚类框架学习训练获得的,样本层次学习的语义编码器将聚类作为任务目标,采用预训练语言模型BERT来对原始输入文本提取特征向量Z,并将提取的特征向量Z输入至聚类损失和实例对比损失中,用来学习同一类别样本之间的数据特征;所述类别层次学习的语义编码器是基于对比学习的孪生网络框架学习训练练获得的,类别层次学习的语义编码器将文本分类作为任务目标,采用预训练语言模型BERT来对原始输入文本提取特征向量对(u,v),并将提取的特征向量对(u,v)进行简单拼接后通过softmax函数,计算每个类别的概率,用来学习不同类别样本之间的数据特征;所述的三维度量化评估方法考虑代表性、区分度和句长三个维度的特征,在语义空间中将代表性建模为平均类内距、将区分度建模为平均类间距,计算平均类内距、平均类间距、句长的倒数,最终使用加权量化值之和作为评估分数。
2.根据权利要求1所述的基于多层次对比学习的模板句评估方法,其特征在于,将原始输入文本映射为向量形式表示,即将文本数值化为每个字符向量列连接成的数值矩阵。
3.根据权利要求1所述的基于多层次对比学习的模板句评估方法,其特征在于,属于同一类别文本的所述数值矩阵,通过两两点乘再求平均的方式得到平均类内距作为代表性量化值。
4.根据权利要求1所述的基于多层次对比学习的模板句评估方法,其特征在于,属于不同类别文本的所述数值矩阵,通过两两点乘再求平均的方式得到平均类间距作为区分度量化值。
5.根据权利要求1所述的基于多层次对比学习的模板句评估方法,其特征在于,包括以下步骤:
S1、构建样本层次对比学习数据集,作为训练样本层次语义编码器的训练集;
S2、基于对比学习的聚类框架学习训练样本层次对比学习数据特性,获得样本层次的语义编码器;
S3、构建类别层次对比学习数据集,相同类别的样本两两组成句子对并设为正样本,将不同类别样本两两组成的句子对作为负样本;
S4、基于对比学习的孪生网络框架学习训练类别层次对比学习数据特性,获得类别层次的语义编码器;
S5、将需要评估的模板句分别输入步骤S2学习所得的样本层次的语义编码器和步骤S4学习所得的类别层次的语义编码器,获得两种语义向量;
S6、计算两两语义向量之间的距离,先对样本的语义向量进行归一化,之后进行点积操作,以此作为向量之间的距离;
S7、计算待评估句子与同类别样本间的平均类内距作为代表性维度量化值,计算待评估句子与不同类别样本间的平均类间距作为区分度维度量化值,计算待评估句子句长的倒数作为句长量化值;
S8、计算代表性、区分度和句长三个维度的加权和作为最终评估分数。
6.根据权利要求1所述的基于多层次对比学习的模板句评估方法,其特征在于,步骤S1包括:
S11、利用数据增强技术,为每一个实例构建增强数据;
S12、构建对比学习样本对,将来源于同一实例的句子两两组成对设置为正样本,来源于不同实例的句子两两组成对设置为负样本。
7.根据权利要求1所述的基于多层次对比学习的模板句评估方法,其特征在于,步骤S2包括:
S21、预训练语言模型BERT作为文本特征提取器,将步骤S1中样本层次对比学习数据集的句子对作为输入,提取特征向量对(zi,zj);
S22、通过句子对的特征向量对(zi,zj)计算实例对比损失LInstance-CL,将正样本对和负样本对分离开,实例对比损失计算方法如下式所示:
Figure FDA0003768265270000021
其中,M表示数据集的样本数量,i和j表示样本序号,
Figure FDA0003768265270000022
Figure FDA0003768265270000023
表示来自于同一源样本的正样本对特征向量,
Figure FDA0003768265270000024
Figure FDA0003768265270000025
表示来自不同源样本的负样本对特征向量,τ表示温度系数;
S23、通过句子对的特征向量对(zi,zj)计算聚类对比损失LCluster,将来源于相同类别的实例聚集在一起,聚类对比损失计算方法如下式所示:
Figure FDA0003768265270000031
Figure FDA0003768265270000032
Figure FDA0003768265270000033
Figure FDA0003768265270000034
其中μk表示每个类别在语义空间中的质心,α表示Student's t-分布的自由度;qjk表示样本xj分配到第k个簇的概率,K表示语义类别数目,k∈{1,…,K}表示类别序号,pjk表示辅助概率;
S24、利用实例对比损失LInstanceI-CL和聚类对比损失LCluster联合训练基于样本层次的语义编码器。
8.根据权利要求1所述的基于多层次对比学习的模板句评估方法,其特征在于,步骤S4包括:
S41、预训练语言模型SBERT作为文本特征提取器,将步骤S3中样本层次对比学习数据集的句子对作为输入,提取特征向量c;
S42、首先将SBERT模型提取到的特征向量(ci,cj)分别输入到mean-pooling层中得到向量(μ,v),再将μ、v两个向量进行相减与求模操作得到|u-v|,最后将μ、v、|u-v|三个向量拼接起来放入softmax函数,计算二分类中每个类别的概率P,如下式所示:
P=softmax(mean_pooling(concat(μ、v、|u-v|))
其中,concat表示拼接操作。
9.根据权利要求1所述的基于多层次对比学习的模板句评估方法,其特征在于,步骤S7中,将所述待评估文本映射为向量形式表示,即:将文本数值化为每个字符向量列连接成的数值矩阵;属于同一类别文本的所述数值矩阵,通过两两点乘再求平均的方式得到平均类内距作为代表性量化值;属于不同类别文本的所述数值矩阵,通过两两点乘再求平均的方式得到平均类间距作为区分度量化值。
10.根据权利要求1所述的基于多层次对比学习的模板句评估方法,其特征在于,步骤S8最终评估分数的计算方法如下式所示:
score=ρδ+βε+γl
其中,δ为代表性维度量化值,ε为区分度维度量化值,l为句长量化值。
CN202210892831.9A 2022-07-27 2022-07-27 一种基于多层次对比学习的模板句评估方法 Pending CN115270752A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210892831.9A CN115270752A (zh) 2022-07-27 2022-07-27 一种基于多层次对比学习的模板句评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210892831.9A CN115270752A (zh) 2022-07-27 2022-07-27 一种基于多层次对比学习的模板句评估方法

Publications (1)

Publication Number Publication Date
CN115270752A true CN115270752A (zh) 2022-11-01

Family

ID=83771115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210892831.9A Pending CN115270752A (zh) 2022-07-27 2022-07-27 一种基于多层次对比学习的模板句评估方法

Country Status (1)

Country Link
CN (1) CN115270752A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822495A (zh) * 2023-08-31 2023-09-29 小语智能信息科技(云南)有限公司 基于对比学习的汉-老、泰平行句对抽取方法及装置
CN117272123A (zh) * 2023-11-22 2023-12-22 中电科大数据研究院有限公司 一种基于大模型的敏感数据处理方法、装置及存储介质
CN117893743A (zh) * 2024-03-18 2024-04-16 山东军地信息技术集团有限公司 一种基于通道加权和双对比学习的零样本目标检测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822495A (zh) * 2023-08-31 2023-09-29 小语智能信息科技(云南)有限公司 基于对比学习的汉-老、泰平行句对抽取方法及装置
CN116822495B (zh) * 2023-08-31 2023-11-03 小语智能信息科技(云南)有限公司 基于对比学习的汉-老、泰平行句对抽取方法及装置
CN117272123A (zh) * 2023-11-22 2023-12-22 中电科大数据研究院有限公司 一种基于大模型的敏感数据处理方法、装置及存储介质
CN117272123B (zh) * 2023-11-22 2024-02-27 中电科大数据研究院有限公司 一种基于大模型的敏感数据处理方法、装置及存储介质
CN117893743A (zh) * 2024-03-18 2024-04-16 山东军地信息技术集团有限公司 一种基于通道加权和双对比学习的零样本目标检测方法
CN117893743B (zh) * 2024-03-18 2024-05-31 山东军地信息技术集团有限公司 一种基于通道加权和双对比学习的零样本目标检测方法

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN110188358B (zh) 自然语言处理模型的训练方法及装置
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN109919252B (zh) 利用少数标注图像生成分类器的方法
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN109858015A (zh) 一种基于ctw和km算法的语义相似度计算方法及装置
CN110110610B (zh) 一种用于短视频的事件检测方法
CN113886626B (zh) 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN111598153B (zh) 数据聚类的处理方法、装置、计算机设备和存储介质
CN114722805B (zh) 基于大小导师知识蒸馏的少样本情感分类方法
CN116450796A (zh) 一种智能问答模型构建方法及设备
CN111563373A (zh) 聚焦属性相关文本的属性级情感分类方法
CN114186063A (zh) 跨域文本情绪分类模型的训练方法和分类方法
CN111353040A (zh) 基于gru的属性级别情感分析方法
CN112527993A (zh) 一种跨媒体层次化深度视频问答推理框架
CN113127737A (zh) 融合注意力机制的个性化搜索方法和搜索系统
CN114781503A (zh) 一种基于深度特征融合的点击率预估方法
CN105678340B (zh) 一种基于增强型栈式自动编码器的自动图像标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination