CN117574258A - 一种基于文本噪声标签和协同训练策略的文本分类方法 - Google Patents
一种基于文本噪声标签和协同训练策略的文本分类方法 Download PDFInfo
- Publication number
- CN117574258A CN117574258A CN202410055683.4A CN202410055683A CN117574258A CN 117574258 A CN117574258 A CN 117574258A CN 202410055683 A CN202410055683 A CN 202410055683A CN 117574258 A CN117574258 A CN 117574258A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- training
- subset
- text classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000006870 function Effects 0.000 claims abstract description 3
- 238000013145 classification model Methods 0.000 claims description 77
- 238000012935 Averaging Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 3
- 238000009418 renovation Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 238000009419 refurbishment Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及带噪学习技术领域,公开了一种基于文本噪声标签和协同训练策略的文本分类方法,将文本输入到完成训练的语言模型中,预测得到文本对应的标签;语言模型的训练方法包括:划分子集;对原始标签进行翻新;隐空间的文本插值;构建损失函数并训练;本发明采用协同语言模型的训练策略,同时将一个语言模型的子集划分结果线性组合作为同伴语言模型的训练样本。这种策略可以防止模型过度拟合到有噪声的样本,并确保模型从不同范围的数据中学习到全面的信息。
Description
技术领域
本发明涉及带噪学习技术领域,具体涉及一种基于文本噪声标签和协同训练策略的文本分类方法。
背景技术
在自然语言处理领域,句子结构和语法规则的复杂性及多样性是显而易见的。首先,自然语言中的句子结构有许多不同的形式,包括简单句、复合句、并列句等等,而且每种句子类型都有其独特的语法规则和表达方式。此外,自然语言还具有模糊性和多义性,这使得对语言的理解和注释变得更加困难。不同的注释者可能会对相同的句子产生不同的理解,甚至可能会产生完全相反的解释。
另外,注释者对上下文的误解以及个体解释的差异也可能导致对注释的分歧。例如,一个词或短语在一个上下文中的含义可能与另一个上下文中的含义完全不同。因此,注释者必须仔细考虑上下文,以确定每个词或短语的最佳含义。然而,由于语言的灵活性、上下文的影响以及人们对于同一句话可能产生的不同理解和解释,使得即使是最仔细的注释者也可能会对某些词或短语产生误解,或者在注释过程中出现分歧。
除此之外,模型的训练过程中还可能遇到过拟合问题。过拟合是指模型在训练数据上表现良好,但在测试数据上表现不佳的现象。这是因为在训练数据中,模型可能会学习到一些噪音或者无关紧要的信息,而在测试数据中,这些信息可能并不存在,导致模型的表现不佳。因此,在训练模型时,必须采取一些措施来避免过拟合问题。
发明内容
为解决上述技术问题,本发明提供一种基于文本噪声标签和协同训练策略的文本分类方法。
为解决上述技术问题,本发明采用如下技术方案:
一种基于文本噪声标签和协同训练策略的文本分类方法,将文本输入到完成训练的文本分类模型中,预测得到文本对应的标签;通过协同训练策略对文本分类模型进行训练,文本分类模型的训练方法具体包括:
步骤一,划分子集:
将样本集的文本样本/>输入到两个文本分类模型中,如果文本分类模型预测的标签与文本样本/>的原始标签/>一致,则将文本样本/>和对应的原始标签/>划为标记子集/>;如果文本分类模型预测的标签与文本样本/>的原始标签/>不一致,则将文本样本/>和对应的原始标签/>划为未标记子集/>;两个文本分类模型分别记为模型一和模型二,通过模型一划分出的标记子集和未标记子集作为模型二的训练数据集,记为训练数据集二;通过模型二划分出的标记子集和未标记子集作为模型一的训练数据集,记为训练数据集一;其中,两个文本分类模型均由类型相同但参数不同的预训练语言模型和线性全连接层组成;
步骤二,对原始标签进行翻新:
通过回译在训练数据集一和训练数据集二中的未标记子集的文本样本基础上得到增强文本,将训练数据集一的文本样本和对应的增强文本输入到模型一和模型二中,将训练数据集二的文本样本和对应的增强文本输入到模型一和模型二中,对模型一和模型二的输出进行平均和锐化,得到翻新标签;未标记子集的文本样本和翻新标签,组成未标记子集;
步骤三,隐空间的文本插值:
通过Tmix方法在预训练语言模型的隐藏空间内对标记子集和未标记子集/>中的文本样本进行文本插值操作,来创建增强后的文本样本/>,得到标记子集/>和未标记子集/>;
步骤四,构建损失函数并训练:
模型一和模型二的训练损失包括标记子集上的损失/>、未标记子集上的损失和正则化参数/>:/>;
其中,表示权重参数;
标记子集上的损失;/>表示标记子集/>中文本样本/>的概率标签,/>表示概率标签的类别序号,/>表示第c类概率标签;为文本样本/>输入文本分类模型后,文本分类模型线性全连接层的softmax层关于第c类概率标签的输出,/>是预训练模型的总参数表示,/>表示全连接层的参数;
未标记子集上的损失;/>表示未标记子集/>中文本样本/>的概率标签;/>为文本样本/>输入文本分类模型后,文本分类模型线性全连接层的softmax层的输出;
正则化参数;/>是一个常数;
通过训练损失以及经过步骤二和步骤三处理过的训练数据集一对模型一进行训练,通过反向传播更新模型一的参数,直至模型一收敛;通过训练损失/>以及经过步骤二和步骤三处理过的训练数据集二对模型二进行训练,通过反向传播更新模型二的参数,直至模型二收敛。
进一步地,步骤二对原始标签进行翻新时,将未标记子集的文本样本称为未标记样本;步骤二具体包括:
;
;
表示文本分类模型的总数,/>,k表示第k个文本分类模型的序号;表示未标记样本/>输入文本分类模型后,文本分类模型线性全连接层的softmax层的输出;/>表示所述增强文本/>输入文本分类模型后,文本分类模型线性全连接层的softmax层的输出;/>是第k个文本分类模型的预训练模型的总参数表示,/>表示第k个文本分类模型的全连接层的参数;/>为对文本分类模型的输出进行平均后得到的输出概率;/>经过以温度/>为参数的锐化操作/>得到所述翻新标签/>。
进一步地,所述通过Tmix方法在预训练语言模型的隐藏空间内对标记子集和未标记子集/>中的文本样本进行文本插值操作来创建增强后的文本样本,具体包括:
在预训练语言模型的层中前向执行编码操作/>,得到预训练语言模型第/>层的隐层特征:
;
;
分别为第/>个文本样本和第/>个文本样本,/>为与/>对应的预训练语言模型第/>层的隐层特征,/>与/>对应的预训练语言模型第/>层的隐层特征;
在预训练语言模型的第层中执行隐空间插值操作,得到线性组合的插值向量:
;
为服从Beta分布的参数;
在预训练语言模型剩余的/>层中继续执行预训练语言模型的编码操作,最终得到线性组合的增强后的文本样本/>:
;
为预训练语言模型的总层数。
本发明训练得到两个文本分类模型,在推理阶段,将文本输入到完成训练的任意一个文本分类模型中,可以预测得到文本对应的标签,实现文本分类。
与现有技术相比,本发明的有益技术效果是:
本发明采用协同训练策略,利用半监督学习的方法赋予未标记子集文本的分类标签,将一个文本分类模型的子集划分结果进行线性组合作为同伴语言模型的训练样本。这种策略可以防止模型过度拟合到有噪声的样本,并确保模型从不同范围的数据中学习到全面的信息。
附图说明
图1为本发明对文本分类模型进行协同训练的流程示意图;
图2为本发明实施例中进行标签翻新的流程示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
如图1所示,本发明提出的文本分类方法的训练过程主要由两个步骤组成:使用协同训练方式划分子集和半监督学习。其中半监督学习的部分主要包括标签翻新和隐空间的文本插值。
1.划分子集
在划分子集阶段,原始的文本样本被输入到文本分类模型中,根据文本分类模型预测的标签与原始标签的一致性将输入的文本样本划分为两个子集。具体来说,本发明设定一个具体的规则作为划分的依据,该规则如下:如果文本分类模型预测的标签与原始标签一致,则认为该文本样本归属于标记子集。相反,如果预测的标签与原始标签不一致,本发明将文本样本归为未标记子集。规则设定的依据为:假定原始文本样本以一定概率被错误标记。
由于依赖单一语言模型可能导致文本分类模型的预测结果积累确认偏差,本发明采用协同训练策略,将一个文本分类模型的子集划分结果线性组合为同伴文本分类模型的训练样本。这种协同训练策略可以防止模型过度拟合到有噪声的样本,并确保文本分类模型从不同范围的数据中学习到全面的信息。
2.半监督学习
(1)标签翻新
标签翻新,指的是在未标记子集上对文本样本的原始标签进行翻新。通过回译在原始的文本样本的基础上得到增强文本,分别输入到两个文本分类模型中,对文本分类模型的预测概率进行平均和锐化,即可得到翻新标签:
;
;
表示文本分类模型的总数,/>,k表示第k个文本分类模型的序号;表示未标记样本/>输入文本分类模型后,文本分类模型线性全连接层的softmax层的输出;/>表示增强文本/>输入文本分类模型后,文本分类模型线性全连接层的softmax层的输出;/>是第k个文本分类模型的预训练模型的总参数表示,表示第k个文本分类模型的全连接层的参数;/>为对文本分类模型的输出进行平均后得到的输出概率;/>经过以温度/>为参数的锐化操作/>得到翻新标签/>。
标签翻新流程的实施例如图2所示,在该实施例中,通过回译设置俄语为中间语言来增强所有未标记样本。将未标记样本/>和增强文本/>,分别输入到模型一和模型二中,对文本分类模型的预测结果概率进行平均和锐化,即可得到翻新标签。
图2中,表示未标记样本/>输入到模型一后得到的输出,/>表示增强文本输入到模型一后得到的输出,/>表示未标记样本/>输入到模型二后得到的输出,表示增强文本/>输入到模型二后得到的输出。
(2)隐空间的文本插值
通过Tmix方法在预训练语言模型的隐藏空间内对标记子集和未标记子集/>中的文本样本进行文本插值操作,来创建增强后的文本样本/>,具体包括:
在预训练语言模型的层中前向执行编码操作/>,得到预训练语言模型第/>层的隐层特征:
;
;
分别为第/>个文本样本和第/>个文本样本,/>为与/>对应的预训练语言模型第/>层的隐层特征,/>与/>对应的预训练语言模型第/>层的隐层特征;
在预训练语言模型的第层中执行隐空间插值操作,得到线性组合的插值向量:
;
为服从Beta分布的参数;
在预训练语言模型剩余的/>层中继续执行Encoder的编码操作,最终得到线性组合的增强后的文本样本/>:
;
为预训练语言模型的总层数。
3.模型训练
文本分类模型的训练损失包括标记子集上的损失/> 、未标记子集上的损失/>和正则化参数/>:
;
其中,标记子集上的损失为:/>。
表示标记子集/>中文本样本/>的概率标签,/>表示概率标签的类别序号,/>表示第c类概率标签;/>为文本样本/>输入文本分类模型后,文本分类模型线性全连接层的softmax层关于第c类概率标签的输出,/>是预训练模型的总参数表示,/>表示全连接层的参数。
未标记子集上的损失为:/>;/>表示未标记子集/>中文本样本/>的概率标签;/>为文本样本/>输入文本分类模型后,文本分类模型线性全连接层的softmax层的输出。
正则化参数;/>是一个常数。
在本发明的测试数据集中,人为地将10%、20%、30%噪声比的对称噪声注入到原始训练数据集的标签中,选择测试数据集上的准确度作为评价指标。
表1 对称噪声在IMDB集上的实验结果
表2 对称噪声在Trec集上的实验结果
表3 对称噪声在AG_News集上的实验结果
对称噪声:表1、表2、表3给出了在IMDB、Trec、AG_News三个数据集上的对称噪声上的实验结果。在每个数据集中,随着训练过程中标签噪声比的增加,预测准确度明显降低。然而,本发明提出的方法在大多数情况下仍然优于其他基准方法(Bert、SelfMix),证明了本发明抗噪声策略的有效性。值得注意的是,在高噪声比的情况下,越来越多来自噪声标签的干扰信息被带入训练阶段,这对本发明中的文本分类方法提出了很大的挑战。但实验结果表明,随着噪声率的增加,本发明的文本分类方法与基准方法之间的差异也会增加,这表明即使在更高的噪声水平下,本发明抵抗对称噪声的能力也更强。
表4 非对称噪声实验结果
非对称噪声:表4给出了在三个数据集上的非对称噪声实验结果。根据不对称过渡矩阵翻转标签使数据集具有不同程度的不对称噪声,具体来说,本发明评估了三种数据集在20%和40%噪声比下的预测精度。本发明的文本分类方法即使在所有三个数据集的40%不对称噪声下也能达到最佳效果。实验表明,本发明的训练策略对提高模型对非对称噪声的鲁棒性也有积极的作用,尤其是在高噪声比下。
实施例
将AG_News数据集中的数据输入到两个文本分类模型中,在子集划分阶段,根据文本分类模型的预测标签与原始标签的一致性将AG_News数据集划分为两个子集:标记子集和未标记子集。在未标记子集上对文本样本进行回译操作来实施标签翻新。回译的例子如下表5所示。
表5
对划分好的标记子集和带有翻新标签的未标记子集,通过在预训练语言模型的隐藏空间内随机采样并进行文本插值操作来创建大量的训练样本,计算得到训练数据集上的损失值,通过反向传播更新文本分类模型的参数。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (3)
1.一种基于文本噪声标签和协同训练策略的文本分类方法,将文本输入到完成训练的文本分类模型中,预测得到文本对应的标签;通过协同训练策略对文本分类模型进行训练,文本分类模型的训练方法具体包括:
步骤一,划分子集:
将样本集的文本样本/>输入到两个文本分类模型中,如果文本分类模型预测的标签与文本样本/>的原始标签/>一致,则将文本样本/>和对应的原始标签/>划为标记子集/>;如果文本分类模型预测的标签与文本样本/>的原始标签/>不一致,则将文本样本/>和对应的原始标签/>划为未标记子集/>;两个文本分类模型分别记为模型一和模型二,通过模型一划分出的标记子集和未标记子集作为模型二的训练数据集,记为训练数据集二;通过模型二划分出的标记子集和未标记子集作为模型一的训练数据集,记为训练数据集一;其中,两个文本分类模型均由类型相同但参数不同的预训练语言模型和线性全连接层组成;
步骤二,对原始标签进行翻新:
通过回译在训练数据集一和训练数据集二中的未标记子集的文本样本基础上得到增强文本,将训练数据集一的文本样本和对应的增强文本输入到模型一和模型二中,将训练数据集二的文本样本和对应的增强文本输入到模型一和模型二中,对模型一和模型二的输出进行平均和锐化,得到翻新标签;未标记子集的文本样本和翻新标签,组成未标记子集;
步骤三,隐空间的文本插值:
通过Tmix方法在预训练语言模型的隐藏空间内对标记子集和未标记子集/>中的文本样本进行文本插值操作,来创建增强后的文本样本/>,得到标记子集/>和未标记子集/>;
步骤四,构建损失函数并训练:
模型一和模型二的训练损失包括标记子集上的损失/>、未标记子集上的损失/>和正则化参数/>:/>;
其中,表示权重参数;
标记子集上的损失;/>表示标记子集中文本样本/>的概率标签,/>表示概率标签的类别序号,/>表示第c类概率标签;为文本样本/>输入文本分类模型后,文本分类模型线性全连接层的softmax层关于第c类概率标签的输出,/>是预训练模型的总参数表示,/>表示全连接层的参数;
未标记子集上的损失;/>表示未标记子集中文本样本/>的概率标签;/>为文本样本/>输入文本分类模型后,文本分类模型线性全连接层的softmax层的输出;
正则化参数;/>是一个常数;
通过训练损失以及经过步骤二和步骤三处理过的训练数据集一对模型一进行训练,通过反向传播更新模型一的参数,直至模型一收敛;通过训练损失/>以及经过步骤二和步骤三处理过的训练数据集二对模型二进行训练,通过反向传播更新模型二的参数,直至模型二收敛。
2.根据权利要求1所述的基于文本噪声标签和协同训练策略的文本分类方法,其特征在于:步骤二对原始标签进行翻新时,将未标记子集的文本样本称为未标记样本;步骤二具体包括:
;
;
表示文本分类模型的总数,/>,k表示第k个文本分类模型的序号;/>表示未标记样本/>输入文本分类模型后,文本分类模型线性全连接层的softmax层的输出;表示所述增强文本/>输入文本分类模型后,文本分类模型线性全连接层的softmax层的输出;/>是第k个文本分类模型的预训练模型的总参数表示,/>表示第k个文本分类模型的全连接层的参数;/>为对文本分类模型的输出进行平均后得到的输出概率;经过以温度/>为参数的锐化操作/>得到所述翻新标签/>。
3.根据权利要求1所述的基于文本噪声标签和协同训练策略的文本分类方法,其特征在于:所述通过Tmix方法在预训练语言模型的隐藏空间内对标记子集和未标记子集/>中的文本样本进行文本插值操作来创建增强后的文本样本,具体包括:
在预训练语言模型的层中前向执行编码操作/>,得到预训练语言模型第/>层的隐层特征:
;
;
分别为第/>个文本样本和第/>个文本样本,/>为与/>对应的预训练语言模型第/>层的隐层特征,/>与/>对应的预训练语言模型第/>层的隐层特征;
在预训练语言模型的第层中执行隐空间插值操作,得到线性组合的插值向量/>:
;
为服从Beta分布的参数;
在预训练语言模型剩余的/>层中继续执行预训练语言模型的编码操作,最终得到线性组合的增强后的文本样本/>:
;
为预训练语言模型的总层数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410055683.4A CN117574258B (zh) | 2024-01-15 | 2024-01-15 | 一种基于文本噪声标签和协同训练策略的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410055683.4A CN117574258B (zh) | 2024-01-15 | 2024-01-15 | 一种基于文本噪声标签和协同训练策略的文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117574258A true CN117574258A (zh) | 2024-02-20 |
CN117574258B CN117574258B (zh) | 2024-04-26 |
Family
ID=89862676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410055683.4A Active CN117574258B (zh) | 2024-01-15 | 2024-01-15 | 一种基于文本噪声标签和协同训练策略的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117574258B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN110334687A (zh) * | 2019-07-16 | 2019-10-15 | 合肥工业大学 | 一种基于行人检测、属性学习和行人识别的行人检索增强方法 |
US20210089883A1 (en) * | 2019-09-24 | 2021-03-25 | Salesforce.Com, Inc. | System and Method for Learning with Noisy Labels as Semi-Supervised Learning |
CN112836802A (zh) * | 2021-02-03 | 2021-05-25 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种半监督学习方法、岩性预测方法及存储介质 |
US20210201159A1 (en) * | 2019-12-31 | 2021-07-01 | Robert Bosch Gmbh | System and Method for Unsupervised Domain Adaptation with Mixup Training |
CN113254599A (zh) * | 2021-06-28 | 2021-08-13 | 浙江大学 | 一种基于半监督学习的多标签微博文本分类方法 |
CN113268740A (zh) * | 2021-05-27 | 2021-08-17 | 四川大学 | 一种网站系统的输入约束完备性检测方法 |
CN113785314A (zh) * | 2019-05-06 | 2021-12-10 | 谷歌有限责任公司 | 使用标签猜测对机器学习模型进行半监督训练 |
CN113807171A (zh) * | 2021-08-10 | 2021-12-17 | 三峡大学 | 一种基于半监督迁移学习的文本分类方法 |
CN114372571A (zh) * | 2022-01-07 | 2022-04-19 | 中国人民解放军国防科技大学 | 少标记半监督学习中的插值对比学习方法 |
CN114417975A (zh) * | 2021-12-23 | 2022-04-29 | 中国科学院计算技术研究所 | 基于深度pu学习与类别先验估计的数据分类方法及系统 |
US20220156591A1 (en) * | 2020-11-13 | 2022-05-19 | Salesforce.Com, Inc. | Systems and methods for semi-supervised learning with contrastive graph regularization |
US20220229984A1 (en) * | 2021-01-15 | 2022-07-21 | Recruit Co., Ltd., | Systems and methods for semi-supervised extraction of text classification information |
CN115393925A (zh) * | 2022-08-03 | 2022-11-25 | 五邑大学 | 一种人脸吸引力分类方法、系统、设备及介质 |
US20230031738A1 (en) * | 2021-02-23 | 2023-02-02 | Xi'an Jiaotong University | Taxpayer industry classification method based on label-noise learning |
CN116451150A (zh) * | 2023-04-04 | 2023-07-18 | 河北工业大学 | 一种基于半监督小样本的设备故障诊断方法 |
CN116521863A (zh) * | 2022-12-27 | 2023-08-01 | 浙江工业大学 | 一种基于半监督学习的标签抗噪文本分类方法 |
US20230351212A1 (en) * | 2022-04-27 | 2023-11-02 | Zhejiang Lab | Semi-supervised method and apparatus for public opinion text analysis |
-
2024
- 2024-01-15 CN CN202410055683.4A patent/CN117574258B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN113785314A (zh) * | 2019-05-06 | 2021-12-10 | 谷歌有限责任公司 | 使用标签猜测对机器学习模型进行半监督训练 |
US20220230065A1 (en) * | 2019-05-06 | 2022-07-21 | Google Llc | Semi-supervised training of machine learning models using label guessing |
CN110334687A (zh) * | 2019-07-16 | 2019-10-15 | 合肥工业大学 | 一种基于行人检测、属性学习和行人识别的行人检索增强方法 |
US20210089883A1 (en) * | 2019-09-24 | 2021-03-25 | Salesforce.Com, Inc. | System and Method for Learning with Noisy Labels as Semi-Supervised Learning |
US20210201159A1 (en) * | 2019-12-31 | 2021-07-01 | Robert Bosch Gmbh | System and Method for Unsupervised Domain Adaptation with Mixup Training |
US20220156591A1 (en) * | 2020-11-13 | 2022-05-19 | Salesforce.Com, Inc. | Systems and methods for semi-supervised learning with contrastive graph regularization |
US20220229984A1 (en) * | 2021-01-15 | 2022-07-21 | Recruit Co., Ltd., | Systems and methods for semi-supervised extraction of text classification information |
CN112836802A (zh) * | 2021-02-03 | 2021-05-25 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种半监督学习方法、岩性预测方法及存储介质 |
US20230031738A1 (en) * | 2021-02-23 | 2023-02-02 | Xi'an Jiaotong University | Taxpayer industry classification method based on label-noise learning |
CN113268740A (zh) * | 2021-05-27 | 2021-08-17 | 四川大学 | 一种网站系统的输入约束完备性检测方法 |
CN113254599A (zh) * | 2021-06-28 | 2021-08-13 | 浙江大学 | 一种基于半监督学习的多标签微博文本分类方法 |
CN113807171A (zh) * | 2021-08-10 | 2021-12-17 | 三峡大学 | 一种基于半监督迁移学习的文本分类方法 |
CN114417975A (zh) * | 2021-12-23 | 2022-04-29 | 中国科学院计算技术研究所 | 基于深度pu学习与类别先验估计的数据分类方法及系统 |
CN114372571A (zh) * | 2022-01-07 | 2022-04-19 | 中国人民解放军国防科技大学 | 少标记半监督学习中的插值对比学习方法 |
US20230351212A1 (en) * | 2022-04-27 | 2023-11-02 | Zhejiang Lab | Semi-supervised method and apparatus for public opinion text analysis |
CN115393925A (zh) * | 2022-08-03 | 2022-11-25 | 五邑大学 | 一种人脸吸引力分类方法、系统、设备及介质 |
CN116521863A (zh) * | 2022-12-27 | 2023-08-01 | 浙江工业大学 | 一种基于半监督学习的标签抗噪文本分类方法 |
CN116451150A (zh) * | 2023-04-04 | 2023-07-18 | 河北工业大学 | 一种基于半监督小样本的设备故障诊断方法 |
Non-Patent Citations (11)
Title |
---|
MENG WANG等: "Scalable Semi-Supervised Learning by Efficient Anchor Graph Regularization", IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, vol. 28, no. 7, 31 July 2016 (2016-07-31), pages 1864 - 1877, XP011613217, DOI: 10.1109/TKDE.2016.2535367 * |
MINGYANG LIU等: "CCAT-NET: A Novel Transformer Based Semi-Supervised Framework For Covid-19 Lung Lesion Segmentation", 2022 IEEE 19TH INTERNATIONAL SYMPOSIUM ON BIOMEDICAL IMAGING (ISBI), 26 April 2022 (2022-04-26), pages 1 - 5 * |
SOUMYADEEP GHOSH等: "A Closer look at Consistency Regularization for Semi-Supervised Learning", CODS-COMAD\'24, 4 January 2024 (2024-01-04), pages 10 - 17 * |
YINGHAO XU等: "Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition", 2022 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR), 27 September 2022 (2022-09-27), pages 2959 - 2968 * |
佘朝阳等: "融合数据增强与半监督学习的药物不良反应检测", 计算机工程, vol. 48, no. 6, 30 June 2022 (2022-06-30), pages 314 - 320 * |
刘小兰等: "基于最小熵正则化的半监督分类", 华南理工大学学报(自然科学版), vol. 38, no. 01, 15 January 2010 (2010-01-15), pages 87 - 91 * |
卫星等: "基于混合生成对抗网络的多视角图像生成算法", 自动化学报, vol. 47, no. 11, 29 February 2020 (2020-02-29), pages 2623 - 2636 * |
叶华鑫: "基于半监督学习的台风灾害舆情地理加权时空分析", 中国优秀硕士学位论文全文数据库 基础科学辑, no. 03, 15 March 2022 (2022-03-15), pages 009 - 226 * |
孙晓燕等: "基于半监督学习的变种群规模区间适应值交互式遗传算法", 控制理论与应用, vol. 28, no. 05, 15 May 2011 (2011-05-15), pages 610 - 618 * |
朱松豪;赵云斌;: "基于半监督生成式对抗网络的异常行为检测", 南京邮电大学学报(自然科学版), vol. 40, no. 04, 2 September 2020 (2020-09-02), pages 50 - 56 * |
汪萌: "基于机器学习方法的视频标注研究", 中国博士学位论文全文数据库 (信息科技辑), no. 06, 15 June 2009 (2009-06-15), pages 138 - 25 * |
Also Published As
Publication number | Publication date |
---|---|
CN117574258B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112214995B (zh) | 用于同义词预测的分层多任务术语嵌入学习 | |
CN110717334B (zh) | 基于bert模型和双通道注意力的文本情感分析方法 | |
CN111310471B (zh) | 一种基于bblc模型的旅游命名实体识别方法 | |
CN113128229B (zh) | 一种中文实体关系联合抽取方法 | |
CN109359294B (zh) | 一种基于神经机器翻译的古汉语翻译方法 | |
CN109492202B (zh) | 一种基于拼音的编码与解码模型的中文纠错方法 | |
CN111160037B (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
CN103154936B (zh) | 用于自动化文本校正的方法和系统 | |
CN111444305A (zh) | 一种基于知识图谱嵌入的多三元组联合抽取方法 | |
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN112163091B (zh) | 基于cnn的方面级跨领域情感分析方法 | |
Ren | The use of machine translation algorithm based on residual and LSTM neural network in translation teaching | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN114238636A (zh) | 一种基于翻译匹配的跨语言属性级情感分类方法 | |
CN116910272B (zh) | 基于预训练模型t5的学术知识图谱补全方法 | |
CN117574258B (zh) | 一种基于文本噪声标签和协同训练策略的文本分类方法 | |
US20230289528A1 (en) | Method for constructing sentiment classification model based on metaphor identification | |
CN114548090B (zh) | 基于卷积神经网络和改进级联标注的快速关系抽取方法 | |
CN113343648B (zh) | 基于潜在空间编辑的文本风格转换方法 | |
CN111708896B (zh) | 一种应用于生物医学文献的实体关系抽取方法 | |
CN115310433A (zh) | 一种针对中文文本校对的数据增强方法 | |
CN114692615A (zh) | 一种针对小语种的小样本意图识别方法 | |
CN113743095A (zh) | 基于词格和相对位置嵌入的中文问题生成统一预训练方法 | |
CN112784576B (zh) | 一种文本依存句法分析方法 | |
CN116681087B (zh) | 一种基于多阶段时序和语义信息增强的自动问题生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |