CN116596031A - 一种去负样本的无监督句子表征学习方法 - Google Patents
一种去负样本的无监督句子表征学习方法 Download PDFInfo
- Publication number
- CN116596031A CN116596031A CN202310581403.9A CN202310581403A CN116596031A CN 116596031 A CN116596031 A CN 116596031A CN 202310581403 A CN202310581403 A CN 202310581403A CN 116596031 A CN116596031 A CN 116596031A
- Authority
- CN
- China
- Prior art keywords
- model
- sentence
- negative
- objective function
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012512 characterization method Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000006870 function Effects 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000013507 mapping Methods 0.000 claims abstract description 17
- 238000001914 filtration Methods 0.000 claims abstract 2
- 238000013459 approach Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 5
- 230000007547 defect Effects 0.000 abstract description 4
- 230000000452 restraining effect Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000004445 quantitative analysis Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种去负样本的无监督句子表征学习方法,其特点是采用预测任务过滤预训练数据集中的冗余信息的方法,提升SiamCSE模型性能,将句子中随机挑选的单词进行重复,然后将其传入编码器,得到既不损失句子中的语义信息,同时在长度上也不尽相同的正样本,实现去负样本的句子表征学习,具体包括:设置多层感知机的映射层、目标函数约束中间隐藏向量的相似性、预测任务去除冗余信息、互相关矩阵及去相关矩阵的生成和模型训练等步骤。本发明与现有技术相比具有在句子表征学习任务上表现性能优异,填补了目前句子表征模型的不足,完善了去负样本句子表征学习模型的评估方案,帮助推动去负样本句子表征学习模型在现实中的普适性应用。
Description
技术领域
本发明涉及基于对比学习的无监督句子表征学习技术领域,尤其是一种去负样本的无监督句子表征学习方法。
背景技术
近年来,对比学习因其通俗易懂的思维方式、相对广泛的应用场景以及出乎意料的优秀效果,在表征学习领域大放光彩。这些研究工作从最开始的视觉表征学习,逐渐拓展到后来的文本表征学习。纵览这些工作,能够发现,绝大部分工作都是通过使用正负两种样本训练来达到预期的效果。然而,在现实中,负样本的使用会带来一系列问题。例如,SimCSE模型粗略地将同一个训练小批量中其它句子作为负样本,这就很容易导致假负样本问题(即那些与输入样本的语义相似度很高的负样本)的出现。
从另一个角度看,对比学习方法想要达到一个理想的效果,通常情况下使用一定数量的负样本与正样本作对比是不可避免的,并且一般而言,负样本的数量越大越好。然而,增大的负样本数量会使得通常的对比学习模型训练阶段的计算量也相应增大,模型规模也比较庞大,难以在诸如手机等小型终端设备上发挥作用。负样本使用会带来假负样本问题,大大影响了模型的精度,同时,负样本也会使得模型更加臃肿和复杂,增加计算量,进而影响研究技术的落地。
因此,研究如何在不使用负样本的情况下提升句子表征学习模型的性能,使其达到甚至超过使用负样本时模型的性能,是十分值得关注的问题。目前,不使用负样本的句子表征学习模型相对较少,还没有形成一个较为完整的体系。具体来说,有少量研究工作在内容上相互独立,分别对于模型架构和数据增强方法做了简单地探究,但没有讲两者之间的关系衔接起;在效果上,这些研究提出的模型性能不但与当前使用负样本的模型性能相差甚远,也缺乏不同模型之间公平有效、直观地比较。
现有技术的去负样本的句子表征学习模型普遍忽略预训练语料的冗余信息的现状,模型性能差,应用场景的广泛使用受到大大限制。
发明内容
本发明的目的是针对现有技术的不足而提供的一种去负样本的无监督句子表征学习方法,采用从预训练语料去噪、模型架构,以及正样本构造等角度进行设计,实现去负样本的句子表征学习,预训练语料去噪使用预测任务去过滤预训练数据集中的冗余信息;正样本构造将句子中随机挑选的单词进行重复后将其传入编码器,这样得到的正样本既不会损失句子中的语义信息,同时在长度上也不尽相同,从而使得模型不会将长度作为正样本的特征,并对于模型中的重要组件进行定量分析,完善了去负样本句子表征学习模型的评估方案,大大提升了去负样本句子表征学习模型的性能,方法简便,使用效果好,有效解决了去负样本的句子表征学习模型普遍忽略预训练语料的冗余信息问题,对提升模型性能有极大的帮助,模型性能不但与当前使用负样本的模型性能媲美,还可以帮助推动去负样本句子表征学习模型在现实中的普适性,应用具有良好应用前景。
本发明的目的是这样实现的:一种去负样本的无监督句子表征学习方法,其特点是采用去负样本的无监督句子表征学习模型SiamCSE,从预训练语料冗余信息过滤预训练数据集中的冗余信息,以提升模型性能,将句子中随机挑选的单词进行重复,然后将其传入编码器,得到的正样本既不会损失句子中的语义信息,同时在长度上也不尽相同,从而使得模型不会将长度作为正样本的特征,对于模型中的重要组件进行定量分析,整合模型评估方案。
所述SiamCSE模型的主要内容包括以下:
(1)设置多层感知机为映射层
在编码器输出添加多层感知机有助于提升输入表征的质量,受此启发,SiamCSE模型将同一个输入x以不同的暂退值plarge和psmall输入编码器,编码器的输出经过多层感知机的映射,得到上、下分支的中间隐藏向量z1和z2。
(2)使用目标函数LC来约束上下分支隐藏向量之间的相似性
SiamCSE模型设计目标函数LC来约束上、下分支的隐藏向量z1和z2之间的相似性,所述z1和z2之间的负cosine相似性由下述(b)式定义为:
其中,||·||2表示L2范数;D为z1和z2之间的负cosine相似性。
所述目标函数LC由下述(a)式定义为:
该目标函数LC是针对每一条输入而计算的,一个小批量的损失值取所有的输入损失值的平均值。
(3)基于上、下分支的隐藏向量预测任务去除冗余信息
尽管已有诸如BSL和SCD这样的工作对去负样本句子表征学习做了研究,但它们缺乏对于预训练数据本身包含的冗余信息的考虑,而这些包含的冗余信息不利于句子表示在下游任务上的效果。为此,本发明提出了基于上、下分支的隐藏向量预测任务,来过滤冗余信息。
SiamCSE模型使用上分支的中间隐藏向量z1去预测下分支的中间隐藏向量z2,这一步通过下述(c)式表示的优化目标函数LP来实现:
(4)基于映射函数的互相关矩阵生成
为了避免学习到的句子表示坍塌,SiamCSE模型把多层感知机的输出向量由下述(d)式映射到更高维度的空间P:
p=H(z) (d)。
其中,p代表将z映射到空间P之后得到的向量;H为映射函数。
本发明使用的映射函数由三层线性层所组成,每层包含4096个神经元,ReLU作为激活函数,并在每层之间使用BatchNorm。在空间P上,SiamCSE模型将左右分支的隐藏表示表达成为互相关矩阵,并用元素Cij表示,其计算由下述(e)式表示为:
其中,b为样本的索引号;i、j分别为神经网络输出向量的不同维度;C是一个元素值介于-1与1之间的方阵。
(5)生成去相关矩阵
使用“在相同维度尽可能相似,在不同维度尽可能不同”的优化策略优化相关矩阵,以去除输入的表示中包含的噪声和冗余信息,确保学习到的句子表示不会坍塌。
本发明使用下述(f)式表示的优化互相关矩阵目标函数LD:
将优化之后的矩阵称之为去相关矩阵,该矩阵对角元素趋近于1,而非对角元素则趋近于零。
(6)基于目标函数Ltotal的SiamCSE模型训练
将上述LC、LP和LD三个目标函数结合在一起作为作为总的目标函数Ltotal,基于该目标函数Ltotal训练SiamCSE模型,获取有效的句子表示,实现去负样本的句子表征学习,所述总的训练目标函数Ltotal由下述(g)式表示为:
Ltotal=LC+αLP+βLD (g)。
其中,α和β为超参数。
本发明与现有技术相比具有方法简便,大大提升了模型的性能,有效解决了去负样本的句子表征学习模型普遍忽略预训练语料的冗余信息问题,立足于现有句子表征学习模型的缺点以及在现实小型设备中难以落地的局面,打破了现有去负样本句子表征学习研究工作相互独立,不全面的尴尬现状,从冗余信息、模型架构和数据增强等各个角度做出了较为细致的分析,为去负样本句子表征学习模型的研究提供了参考,帮助推动去负样本句子表征学习模型在现实中的普适性,应用具有良好应用前景。
附图说明
图1为SiamCSE模型结构示意图。
具体实施方式
本发明让SiamCS模型在不使用负样本的情况下,也能够学习到高质量的句子表示,该模型从预训练语料去噪、模型架构改进、正样本构造等角度进行了方法设计,实现去负样本的句子表征学习。本发明的创新之处在于:1)针对当前去负样本的句子表征学习模型普遍忽略预训练语料的冗余信息的现状,采用了预测任务去过滤预训练数据集中的冗余信息,从而提升模型性能;2)针对当前正样本的构造方法使得模型偏向于将长度相同的句子视作为一对正样本的缺点,本发明将句子中随机挑选的单词进行重复然后将其传入编码器,这样得到的正样本既不会损失句子中的语义信息,同时在长度上也不尽相同,从而使得模型不会将长度作为正样本的特征;3)对于模型中的重要组件进行定量分析,整合模型评估方案。
参阅图1,本发明的具体实现步骤如下:
(1)设置多层感知机为映射层
将同一个输入x以不同的暂退值plarge和psmall输入编码器,编码器的输出经过多层感知机的映射,得到上、下分支的中间隐藏向量z1和z2。
(2)使用目标函数LC来约束上下分支隐藏向量之间的相似性
设计目标函数LC来约束上下分支的隐藏向量z1和z2之间的相似性,所述z1和z2之间的负cosine相似性由下述(b)式定义为:
其中,||·||2表示L2范数;D为z1和z2之间的负cosine相似性。
所述目标函数LC由下述(a)式定义为:
该目标函数LC是针对每一条输入而计算的,一个小批量的损失值取所有的输入损失值的平均值。
(3)基于上下分支的隐藏向量预测任务去除冗余信息
使用上分支的中间隐藏向量z1去预测下分支的中间隐藏向量z2,所采用的优化目标函数LP由下述(c)式定义为:
(4)基于映射函数的互相关矩阵生成
为了避免学习到的句子表示坍塌,SiamCSE模型把多层感知机的输出向量由下述(d)式映射到更高维度的空间P:
p=H(z) (d)。
其中,p代表将z映射到空间P之后得到的向量;H为映射函数。
本发明使用的映射函数由三层线性层所组成,每层包含4096个神经元,ReLU作为激活函数,并在每层之间使用BatchNorm。在空间P上,模型将左右分支的隐藏表示表达成为互相关矩阵,用元素Cij表示,其计算由下述(e)式表示为:
其中,b为样本的索引号;i、j分别为神经网络输出向量的不同维度;C是一个元素值介于-1与1之间的方阵。
(5)生成去相关矩阵
使用“在相同维度尽可能相似,在不同维度尽可能不同”的优化策略优化相关矩阵,以去除输入的表示中包含的噪声和冗余信息,确保学习到的句子表示不会坍塌。
本发明使用下述(f)式表示的优化互相关矩阵目标函数LD:
将优化之后的矩阵称之为去相关矩阵,该矩阵对角元素趋近于1,而非对角元素则趋近于零。
(6)基于目标函数Ltotal的模型训练
将上述LC、LP和LD三个目标函数结合在一起作为作为总的目标函数Ltotal,基于该目标函数Ltotal训练SiamCSE模型,获取有效的句子表示,实现去负样本的句子表征学习,所述总的训练目标函数Ltotal由下述(g)式表示为:
Ltotal=LC+αLP+βLD (g)。
其中,α和β为超参数。
经实验分析,本发明所设计的方法在句子表征学习任务上表现性能优异,填补了目前句子表征模型的不足,完善了去负样本句子表征学习模型的评估方案,本发明可以帮助推动去负样本句子表征学习模型在现实中的普适性应用。以上实施例只是对本发明做进一步说明,并非用以限制本发明专利,凡为本发明等效实施,均应包含于本发明专利的权利要求范围之内。
Claims (1)
1.一种去负样本的无监督句子表征学习方法,包括SiamCSE模型,其特征在于,采用预测任务过滤预训练数据集中的冗余信息的方法,提升SiamCSE模型性能,将句子中随机挑选的单词进行重复,然后将其传入编码器,得到既不损失句子中的语义信息,同时在长度上也不尽相同的正样本,实现去负样本的句子表征学习,具体包括以下步骤:
(1)设置基于多层感知机的映射层
将同一个输入x以不同的暂退值plarge和psmall输入编码器,其输出经多层感知机的映射,得到上、下分支的中间隐藏向量z1和z2;
(2)使用目标函数LC约束中间隐藏向量z1和z2之间的相似性
使用下述(a)式定义的目标函数LC约束中间隐藏向量z1和z2之间的相似性:
其中,D为下述(b)式定义的的负cosine相似性:
其中,||·||2为L2范数;
(3)基于中间隐藏向量z1和z2预测任务去除冗余信息
使用隐藏向量z1预测下分支的中间隐藏向量z2,其优化的目标函数LP由下述(c)式表示为:
(4)基于映射函数的互相关矩阵生成
使用SiamCSE将多层感知机的输出向量由下述(d)式映射到更高维度的空间P:
p=H(z) (d);
其中,p代表将z映射到空间P之后得到的向量;H为映射函数;
所述映射函数H由三层线性层所组成,每层包含4096个神经元,以ReLU作为激活函数,并在每层之间使用BatchNorm;
所述空间P上模型将上、下分支的中间隐藏向量z1和z2由下述(e)式表示的元素Cij为互相关矩阵:
其中,b为样本的索引号;i、j分别为神经网络输出向量的不同维度;C是一个元素值介于-1与1之间的方阵;
(5)生成去相关矩阵
使用下述(f)式表示的目标函数LD优化互相关矩阵为去相关矩阵:
所述去相关矩阵对角元素趋近于1,而非对角元素则趋近于零;
(6)基于目标函数Ltotal的模型训练
将LC、LP和LD三个目标函数结合在一起,作为总的目标函数Ltotal训练SiamCSE模型,获取有效的句子表示,实现去负样本的句子表征学习,所述总的目标函数Ltotal由下述(g)式表示为:
Ltotal=LC+αLP+βLD (g);
其中,α和β为超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310581403.9A CN116596031A (zh) | 2023-05-23 | 2023-05-23 | 一种去负样本的无监督句子表征学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310581403.9A CN116596031A (zh) | 2023-05-23 | 2023-05-23 | 一种去负样本的无监督句子表征学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116596031A true CN116596031A (zh) | 2023-08-15 |
Family
ID=87595222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310581403.9A Pending CN116596031A (zh) | 2023-05-23 | 2023-05-23 | 一种去负样本的无监督句子表征学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116596031A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117272979A (zh) * | 2023-11-23 | 2023-12-22 | 合肥工业大学 | 一种无监督句子表示方法、装置、计算机设备及存储介质 |
-
2023
- 2023-05-23 CN CN202310581403.9A patent/CN116596031A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117272979A (zh) * | 2023-11-23 | 2023-12-22 | 合肥工业大学 | 一种无监督句子表示方法、装置、计算机设备及存储介质 |
CN117272979B (zh) * | 2023-11-23 | 2024-02-09 | 合肥工业大学 | 一种无监督句子表示方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Deep sentiment representation based on CNN and LSTM | |
CN109992779B (zh) | 一种基于cnn的情感分析方法、装置、设备及存储介质 | |
CN108549658B (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN109284506A (zh) | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 | |
CN110782008B (zh) | 深度学习模型的训练方法、预测方法和装置 | |
CN109767759A (zh) | 基于改进型cldnn结构的端到端语音识别方法 | |
CN109410917A (zh) | 基于改进型胶囊网络的语音数据分类方法 | |
CN110297887B (zh) | 基于云平台的服务机器人个性化对话系统及方法 | |
CN113204674B (zh) | 基于局部-整体图推理网络的视频-段落检索方法及系统 | |
CN110060657B (zh) | 基于sn的多对多说话人转换方法 | |
CN115269847A (zh) | 基于知识增强句法异构图的方面级情感分类方法 | |
CN116596031A (zh) | 一种去负样本的无监督句子表征学习方法 | |
CN107665356A (zh) | 一种图像标注方法 | |
CN115495552A (zh) | 基于双通道语义增强的多轮对话回复生成方法及终端设备 | |
CN111666752A (zh) | 一种基于关键词注意力机制的电路教材实体关系抽取方法 | |
CN113380237A (zh) | 增强局部依赖关系无监督预训练语音识别模型及训练方法 | |
CN117475038A (zh) | 一种图像生成方法、装置、设备及计算机可读存储介质 | |
CN110245292B (zh) | 一种基于神经网络过滤噪声特征的自然语言关系抽取方法 | |
Li et al. | Multimodal fusion with co-attention mechanism | |
CN113850373A (zh) | 一种基于类别的滤波器剪枝方法 | |
CN113869005A (zh) | 一种基于语句相似度的预训练模型方法和系统 | |
CN112668481A (zh) | 一种遥感图像语义抽取方法 | |
Zhang et al. | Deep neural networks with pre-train model BERT for aspect-level sentiments classification | |
Yang et al. | Multi-intent text classification using dual channel convolutional neural network | |
CN115374251A (zh) | 一种基于句法对比学习的稠密检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |