CN114036947B - 一种半监督学习的小样本文本分类方法和系统 - Google Patents

一种半监督学习的小样本文本分类方法和系统 Download PDF

Info

Publication number
CN114036947B
CN114036947B CN202111503834.0A CN202111503834A CN114036947B CN 114036947 B CN114036947 B CN 114036947B CN 202111503834 A CN202111503834 A CN 202111503834A CN 114036947 B CN114036947 B CN 114036947B
Authority
CN
China
Prior art keywords
text
lookup table
encoder
layer
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111503834.0A
Other languages
English (en)
Other versions
CN114036947A (zh
Inventor
张伟文
翁茂彬
叶海明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202111503834.0A priority Critical patent/CN114036947B/zh
Publication of CN114036947A publication Critical patent/CN114036947A/zh
Application granted granted Critical
Publication of CN114036947B publication Critical patent/CN114036947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种半监督学习的小样本文本分类方法和系统,涉及半监督文本分类领域,包括步骤:S1、获取待分类文本;S2、将待分类文本输入预先训练完成的查找表,查找表将待分类文本映射为文本表征;S3、将文本表征输入多层感知器得到文本标签,文本标签作为文本分类结果。本发明通过查找表获取待分类文本的文本表征,之后多层感知器根据文本表征得到文本标签作为文本分类结果,针对数据量小、数据标签不全的文本数据进行文本分类的情况也能取得较好的分类效果,不需要对大量的文本数据进行人工标注,节约人工标记成本,能够在各类数据数量和数据标签标注情况的不同场景下灵活应用。

Description

一种半监督学习的小样本文本分类方法和系统
技术领域
本发明涉及半监督文本分类领域,更具体地,涉及一种半监督学习的小样本文本分类方法和系统。
背景技术
随着科技的发展,互联网中的数据量有着指数级的增长。面对其中的海量文本,智能处理技术可以节约计算资源,提升处理效率。文本分类是信息检索和挖掘的基础技术,在管理文本数据中起着至关重要的作用。
近年来,文本分类已逐渐从浅层学习模型变为深层的深度学习模型。与基于浅层学习的方法相比,深度学习方法避免了人工设计规则和特征,并自动为文本挖掘提供了语义上有意义的表示形式。因此,大多数文本分类研究工作都基于深度神经网络(DNN)。
然而,现有的基于深度学习的文本分类方法需要收集足够的训练数据并人工标记标签,耗时耗力。而且,对于一些领域的文本数据进行文本分类,需要收集专门的数据集,难以使所有数据都带有标签。
现有技术公开的文本分类模型的训练方法和文本分类方法,通过将多个任务中每个任务下的文本样本输入其对应的私有特征提取器和公有特征提取器,对多个不同任务下的私有特征提取器和分类器进行同时训练,得到训练后的文本分类模型;但该方法在数据量小、数据标签不全的条件下无法进行训练,需要收集大量的训练数据并人工标记标签,训练成本高。
发明内容
本发明为克服上述技术问题,提供一种针对数据量小、数据标签不全的文本数据进行文本分类的半监督学习的小样本文本分类方法和系统。
本发明技术方案如下:
一种半监督学习的小样本文本分类方法,包括以下步骤:
S1、获取待分类文本;
S2、将待分类文本输入预先训练完成的查找表,通过查找表将待分类文本映射为文本表征;
S3、将文本表征输入多层感知器得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类。
本技术方案提出了一种半监督学习的小样本文本分类方法,利用查找表获取待分类文本的文本表征,之后多层感知器根据文本表征得到文本标签作为文本分类结果,针对数据量小、数据标签不全的文本数据进行文本分类的情况也能取得较好的分类效果,不需要对大量的文本数据进行人工标注,节约人工标记成本,能够在各类数据数量和数据标签标注情况的不同场景下灵活应用。
进一步地,所述变分自编码器包括:编码器、批归一化层、标量层、解码器;
编码器、批归一化层、标量层、解码器依次连接;所述编码器和解码器均采用门控卷积神经网络。
进一步地,训练查找表包括步骤:
S21、将文本数据集输入到初始的查找表,通过初始的查找表将文本映射为矩阵,所述矩阵为初始的文本表征;
S22、将初始的文本表征输入到变分自编码器的编码器中进行学习,输出编码器学习到的平均数和标准差;
S23、将平均数和标准差分别输入批归一化层,对其进行归一化,然后输入到标量层;
S24、使用经过批归一化层和标量层处理的平均数和标准差,按照以下公式计算隐码z;
其中,xi是变分自编码器的输入,fμ'和fσ'是分别计算并进行归一化和缩放平均数和标准差的函数,ε(s)~N(0,I),即ε(s)参数是按照独立高斯分布进行采样得到,s为隐码z的维度;
S25、隐码输入到变分自编码器的解码器中,输出重构文本;
S26、使用损失函数计算步骤S25的重构文本和步骤S21输入查找表的文本数据之间的重构损失,利用目标函数判断是否达到训练目标,目标函数公式为:
其中,xi是变分自编码器的输入,zi是隐变量,q(z)是变分自编码器的先验分布,p(zi|xi)是变分自编码器的后验分布,B是变分自编码器的下限,是重构损失,表明生成的单词和输入文本的相似度;KL[p(zi|xi)||q(z)]是测量两个概率分布差异的指标;
S27、若达到训练目标,查找表训练完成,保存完成训练的查找表;若未达到训练目标,则重复执行训练过程,并利用反向传播算法根据目标函数调整查找表和变分编码器的参数,直到达到训练目标。
进一步地,步骤S3多层感知器利用文本表征得到文本标签过程包括:
S31、将文本表征输入多层感知器的第一全连接层提取特征,得到第一全连接层的输出数据;
S32、将第一全连接层的输出数据输入第一激活函数进行处理,得到第一激活函数的输出数据;
S33、将第一激活函数的输出数据输入多层感知器的第二全连接层提取特征,得到第二全连接层的输出数据;
S34、将第二全连接层的输出数据输入第二激活函数进行处理,得到文本标签作为文本分类结果。
进一步地,步骤S32所述第一激活函数为relu激活函数,处理公式为其中,x是输入函数的数据。
进一步地,步骤S34所述第二激活函数为sigmoid激活函数,处理公式为其中,x是输入函数的数据。
一种半监督学习的小样本文本分类系统,分类文本获取模块、查找表执行模块、多层感知器执行模块;
分类文本获取模块获取待分类文本,并将待分类文本输入预先训练完成的查找表执行模块;查找表执行模块利用查找表将待分类文本映射为文本表征,并将文本表征输入多层感知器执行模块,多层感知器执行模块利用多层感知器通过文本表征得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类。
进一步地,还包括查找表生成模块,所述查找表生成模块构建初始的查找表,通过变分自编码器对初始的查找表进行训练,保存训练完成的查找表到查找表执行模块。
进一步地,所述变分自编码器包括:编码器、批归一化层、标量层、解码器;
编码器、批归一化层、标量层、解码器依次连接;所述编码器和解码器均采用门控卷积神经网络。
本技术方案提出了一种半监督学习的小样本文本分类方法和系统,与现有技术相比,本发明技术方案的有益效果是:本发明利用查找表获取待分类文本的文本表征,然后多层感知器根据文本表征得到文本标签作为文本分类结果,针对数据量小、数据标签不全的文本数据进行文本分类的情况也能取得较好的分类效果,不需要对大量的文本数据进行标注,节约人工标记成本,能够在各类数据数量和数据标签标注情况的不同场景下灵活应用。
附图说明
图1为文本分类过程步骤示意图;
图2为变分自编码器结构示意图;
图3为小样本文本分类系统示意图。
具体实施方式
为清楚地说明本发明一种半监督学习的小样本文本分类方法和系统,结合实施例和附图对本发明作进一步说明,但不应以此限制本发明的保护范围。
实施例1
一种半监督学习的小样本文本分类方法,如图1所示,包括步骤:
S1、获取待分类文本;
S2、将待分类文本输入预先训练完成的查找表,通过查找表将待分类文本映射为文本表征;
S3、将文本表征输入多层感知器得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类。
本实施例利用查找表获取待分类文本的文本表征,然后多层感知器根据文本表征得到文本标签作为文本分类结果,本发明用于对数据量小、数据标签不全的文本数据进行文本分类,不需要对大量的文本数据进行标注,节约人工标记成本,能够在各类数据数量和数据标签标注情况的不同场景下灵活应用。
实施例2
一种半监督学习的小样本文本分类方法,如图1所示,包括步骤:
S1、获取待分类文本;
S2、将待分类文本输入预先训练完成的查找表,通过查找表将待分类文本映射为文本表征;
S3、将文本表征输入多层感知器得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类。
步骤S2所述查找表为完成训练的查找表,通过对初始的查找表训练得到,获取完成训练的查找表的方法为:构建初始的查找表,通过变分自编码器对初始的查找表进行训练,保存完成训练的查找表。
所述变分自编码器包括:编码器、批归一化层、标量层、解码器;
编码器、批归一化层、标量层、解码器依次连接;所述编码器和解码器均采用门控卷积神经网络。
训练查找表包括步骤:
S21、将文本数据集输入到初始的查找表,通过初始的查找表将文本映射为矩阵,所述矩阵为初始的文本表征;
S22、将初始的文本表征输入到变分自编码器的编码器中进行学习,输出编码器学习到的平均数和标准差;
S23、将平均数和标准差分别输入批归一化层,对其进行归一化,然后输入到标量层;
S24、使用经过批归一化层和标量层处理的平均数和标准差,按照以下公式计算隐码z;
其中,xi是变分自编码器的输入,fμ'和fσ'是分别计算并进行归一化和缩放平均数和标准差的函数,ε(s)~N(0,I),即ε(s)参数是按照独立高斯分布进行采样得到,s为隐码z的维度;
S25、隐码输入到变分自编码器的解码器中,输出重构文本;
S26、使用损失函数计算步骤S25的重构文本和步骤S21输入查找表的文本数据之间的重构损失,利用目标函数判断是否达到训练目标,目标函数公式为:
其中,xi是变分自编码器的输入,zi是隐变量,q(z)是变分自编码器的先验分布,p(zi|xi)是变分自编码器的后验分布,B是变分自编码器的下限,是重构损失,表明生成的单词和输入文本的相似度;KL[p(zi|xi)||q(z)]是测量两个概率分布差异的指标;
本实施例中,所述损失函数为均方误差(MSE)损失函数。
S27、若达到训练目标,查找表训练完成,保存完成训练的查找表;若未达到训练目标,则重复执行训练过程,并利用反向传播算法根据目标函数调整查找表和变分编码器的参数,直到达到训练目标。
步骤S3多层感知器利用文本表征得到文本标签过程包括:
S31、将文本表征输入多层感知器的第一全连接层提取特征,得到第一全连接层的输出数据;
S32、将第一全连接层的输出数据,输入第一激活函数进行处理,得到第一激活函数的输出数据;
所述第一激活函数为relu激活函数,处理公式为其中,x是输入函数的数据。
S33、将第一激活函数的输出数据,输入多层感知器的第二全连接层提取特征,得到第二全连接层的输出数据;
S34、将第二全连接层的输出数据,输入第二激活函数进行处理,得到文本标签作为文本分类结果。
所述第二激活函数为sigmoid激活函数,处理公式为其中,x是输入函数的数据。
实施例3
一种半监督学习的小样本文本分类系统,如图3所示,包括:分类文本获取模块、查找表执行模块、多层感知器执行模块;
分类文本获取模块获取待分类文本,并将待分类文本输入预先训练完成的查找表执行模块;查找表执行模块利用查找表将待分类文本映射为文本表征,并将文本表征输入多层感知器执行模块,多层感知器执行模块利用多层感知器通过文本表征得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类。
还包括查找表生成模块,所述查找表生成模块构建初始的查找表,通过变分自编码器对初始的查找表进行训练,保存训练完成的查找表到查找表执行模块。
所述变分自编码器包括:编码器、批归一化层、标量层、解码器;
编码器、批归一化层、标量层、解码器依次连接;所述编码器和解码器均采用门控卷积神经网络。
实施例4
CNN在特征提取和并行计算方面具有优势,得到了广泛应用。对于长序列,RNN在上下文表示方面比CNN具有更好的表现。作为CNN的一种变体,门控卷积神经网络不存在梯度消失问题。门控卷积神经网络融合门机制,包含如LSTM的一些特性。门控卷积神经网络拥有单独的输出门,能够控制哪些信息通过网络传递。这有利于语言建模,使模型能够选择有用的单词或特征来预测后续单词。变分自编码器是一种结合变分推理的生成模型。使用批归一化层(BN)和标量层(Scalar)解决KL散度消失问题。综上,门控卷积神经网络包含CNN和RNN的优点,加入BN和Scalar的变分自编码器是一个优质的生成模型。因此,本发明提出一种基于半监督变分自编码器的分类预测模型,使用以门控卷积神经网络为编码器和解码器的变分自编码器,加入BN和Scalar,大幅度提高了预测的应用场景,同时提高了预测的准确性。
在具体实施过程中,所述一种半监督的小样本文本分类方法,具体包括以下步骤:
S1、获取待分类文本;
S2、将待分类文本输入预先训练完成的查找表,通过查找表将待分类文本映射为文本表征;
S3、将文本表征输入多层感知器得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类。
步骤S2所述查找表为完成训练的查找表,通过对初始的查找表训练得到,获取完成训练的查找表的方法为:构建初始的查找表,通过变分自编码器对初始的查找表进行训练,保存完成训练的查找表。所述变分自编码器包括:编码器、批归一化层、标量层、解码器;
编码器、批归一化层、标量层、解码器依次连接;所述编码器和解码器均采用门控卷积神经网络。
训练查找表包括步骤:
S21、构建初始的查找表,将文本数据集输入到初始的查找表,通过初始的查找表将文本映射为矩阵,所述矩阵为初始的文本表征;
S22、将初始的文本表征输入到变分自编码器的编码器中进行学习,输出编码器学习到的平均数和标准差;
S23、将平均数和标准差分别输入批归一化层,对其进行归一化,然后输入到标量层;
S24、使用经过批归一化层和标量层处理的平均数和标准差,按照以下公式计算隐码z;
其中,xi是变分自编码器的输入,fμ'和fσ'是分别计算并进行归一化和缩放平均数和标准差的函数,ε(s)~N(0,I),即ε(s)参数是按照独立高斯分布进行采样得到,s为隐码z的维度;
S25、隐码输入到变分自编码器的解码器中,输出重构文本;
S26、使用损失函数计算步骤S25的重构文本和步骤S21输入查找表的文本数据之间的重构损失,利用目标函数判断是否达到训练目标,目标函数公式为:
其中,xi是变分自编码器的输入,zi是隐变量,q(z)是变分自编码器的先验分布,p(zi|xi)是变分自编码器的后验分布,B是变分自编码器的下限,是重构损失,表明生成的单词和输入文本的相似度;KL[p(zi|xi)||q(z)]是测量两个概率分布差异的指标;
S27、若达到训练目标,查找表训练完成,保存完成训练的查找表;若未达到训练目标,则重复执行训练过程,并利用反向传播算法根据目标函数调整查找表和变分编码器的参数,直到达到训练目标。
具体地,在查找表训练过程中,给定数据集包含标签已知标签y∈Y。同时,有大量来自相同分布的无标签文本U,例如/>
具体地,采用变分自编码器学习表征,具体过程包括:
S201、变分自编码器用编码器fe和解码器fd生成文本。编码器负责将输入文本匹配到后验分布p(z|x)。解码器用潜在表征z依照后验分布q(x|z)重构给定文本;
S202、在生成过程中,对于文本i,变分后验p(z|x)近似为一个带有对角协方差结构的多维高斯分布,依照公式(1):
logp(zi|xi)=logN(zi|fμ(xi),diag(fσ(xi))),(1)
其中,xi是变分自编码器的输入,fμ和fσ是分别计算平均数和标准差的函数,依照公式(2):
xi~q(xi|fd(zi)),(2)
其中,xi表示解码器样本在潜在空间z对相应的文本i的重构,μ和σ分别是平均数和标准差;
S203、优化边缘概率。将q(z)设为高斯分布,变分下限作为优化目标:
其中,B是变分自编码器的下限。式(3)的第一项定义为一个编码器的重构损失,表明生成的单词和输入文本的相似度;第二项是测量两个概率分布差异的指标。
变分自编码器中设定q(z)服从正态分布。在训练过程中,变分自编码器的编码器会最小化KL[p(z|x)||q(z)],,使得q(z|x)服从正态分布,从而使KL项为0。
变分自编码器的解码器会在训练过程中最大化q(x|z),让解码器最大概率地从z中重构出x。这会使B(xi)增大,同时KL项随之增大。
重构损失和KL散度项是对立的,内部包含对抗的过程。因此,在变分自编码器在训练过程中协同影响编码器和解码器,使得目标函数最大化。同时,在训练过程中,编码器和解码器不是分开进行调整的,而是结合起来同时训练。
设定q(z)是标准正态分布,p(z|x)是各分量独立的正态分布。
其中,d是隐变量z的维度,σi是第j维度近似后验的标准差和平均数。
根据KL散度的计算公式,来计算损失函数中的KL散度项,得到公式(4):
其中,d代表隐变量z的维度。σi和μi分别是第j维度近似后验的标准差和平均数。它能让变分近似靠近设定的先验。每个先验成为一个多变量正态分布;
S204、训练阶段,使用重参数技巧,以此解决变分目标梯度随机逼近的难解性问题。因此,变分自编码器的变分下限可以近似为:
其中,ε(s)~N(0,I)从独立高斯分布采样。
优选地,变分自编码器采用门控卷积神经网络作为编码器和解码器,具体过程包括:
S211、自然语言模型将文本的每个单词w0,w1,...,wN表征为H=[h0,h1,...,hN],通过H预测接下来的单词P(wl|hl)。传统LSTM语言模型是时间序列模型,不能并行计算,效率较低。而CNN语言模型能够实现计算的并行性。和CNN一样,门控卷积神经网络(GCNN)具备计算的并行性。本专利中,变分自编码器的编码器和解码器使用门控卷积神经网络,模型的效果和速度都有提高,它可以运用卷积函数fe获取H=fc*w。
S212、每个单词可以被表示为一个查找表D|V|×e中的一个向量,e是嵌入大小,V是词汇表的单词数目。通过查找表,序列中的单词可以通过词向量表示;
S213、隐藏层h计算依照公式(7):
其中,X∈RN×m是层h的输入。W和V是卷积函数。W∈Rk×m×n,b∈Rn,V∈Rk×m×n,c∈Rn是可学习的参数,k是核的大小,τ是sigmoid函数,是内积。h的输出为线性函数(X*W+b),通过门机制τ归一化。之后放缩输出τ(X*V+c)通过点乘映射到(X*W+b);
S214、利用全局最大池化层进一步抽取门控卷积神经网络输出的最显著的特征。
具体地,采用批归一化层和标量层改良变分自编码器,具体过程包括:
S221、批归一化层在fμ函数后来归一化后验参数,确保KL散度的均值为正下限。KL散度项在A个样本计算依照公式(4):
因为ex-x-1是0,等于0或大于0,将公式(8)转换为公式(9)。
S222、固定均值和方差,并在fμ后在使用批归一化层(BN),可以将公式(9)转化为:
其中,μ的均值为βμ,方差为和/>分别是批归一化层的转换和缩放参数。Ε[KL]的下限通过修改/>可以确保为正数,从而KL散度项大于0,解决KL散度消失现象,/>是一个可学习的参数,使分布更具备可调整性;
S223、由设定q(z)是标准正态分布,p(z|x)是各分量独立的正态分布的条件可得,先验q(z)=N(z;0,1)和后验q(z|x)=N(z;μ(x),σ(x))。变分自编码器希望训练好后的模型的隐变量分布为先验分布q(z),可以得出公式(11),
其中,是训练数据的分布;
S224、通过用z和z2分别乘以公式(11),然后分别对z积分:
S225、本实施例中,学习平均数后添加批归一化层的方法,解决KL散度消失问题,更进一步,对μ和σ都通过批归一化层进行处理,运用正态分布的一阶矩和二阶矩的计算公式,和公式(12)的条件,可得公式(13)
0=E[μ(x)]=βμ
其中,μ的均值为βμ,方差为σ的均值为βσ,方差为/>
进一步设置βμ=0,从而可以达到一个限制关系
最后,得出一个改良的变分自编码器:
其中,是常数,本专利中设置为0.5。θ是可训练参数。
结合式(4)可以知道,保证KL散度不消失的关键是确保将平均值归一化后,就可以让KL散度项有个正的下界,这样就不会出现KL散度消失现象了。因此,通过增加批归一化层和标量层后,解决KL散度消失问题。
具体地,建立包含门控卷积神经网络、批归一化层、标量层的变分自编码器。首先需要确定卷积滤波器大小和数量。将卷积滤波器的大小设置为3,滤波器的数量设置为512。
具体地,在查找表实际训练过程中,设定实验批量(batch size)大小分别为256,潜在维度分别为128。使用10k的词汇量,并将词嵌入(word embedding)维度设置为256。使用Adam优化算法进行学习。学习率设为0.001,β1和β2分别设为0.9和0.999。为了更好地监控学习过程,若损失在4个轮次内没有减少,模型将提前停止。用10个随机种子(Random Seed)运行训练模型,测试语言建模。
进一步地,使用10个随机种子运行,测试半监督学习,将标记数据量从100到2000个实例进行变化。结果通过给定数据的平均性能确定。将变分自编码器训练后的表征用于多层感知器来进行文本分类。
表1对比了半监督变分自编码器-卷积神经网络(SVAE-CNN)、半监督变分自编码器-长短时记忆网络(SVAE-LSTM)和本发明提出的半监督变分自编码器(SVAE)负对数似然、复杂度和KL散度对比。
模型 NLL PPL KL
SVAE-CNN 379.68 24.22 51.29
SVAE-LSTM 644.61 229.37 40.04
SVAE 402.23 29.09 51.44
从表1可以看出本发明的半监督变分自编码器生成的文本相较于其他模型,有更好的表现。因此,SAVE是具备一定竞争力的语言模型。
表2对比了半监督变分自编码器-卷积神经网络(SVAE-CNN)、半监督变分自编码器-长短时记忆网络(SVAE-LSTM)、有监督的模型(supervised)和本发明提出的半监督变分自编码器(SVAE)在使用不同样本训练模型的情况下,标签预测的准确度对比。
模型\样本量 100 200 500 1000 2000
SVAE 86.40 89.75 91.57 93.05 94.52
SVAE-CNN 83.93 87.06 90.05 91.92 93.98
SVAE-LSTM 85.67 87.90 89.33 90.24 91.81
supervised 70.00 78.75 90.08 93.42 94.14
从表2可以看出,本发明的SVAE模型在小样本情况下相较于其他方法,都具备优势,同时在数据量增加的场景,也保持不错的表现。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (2)

1.一种半监督学习的小样本文本分类方法,其特征在于,包括以下步骤:
S1、获取待分类文本;
S2、将待分类文本输入预先训练完成的查找表,通过查找表将待分类文本映射为文本表征;
所述查找表为完成训练的查找表,通过对初始的查找表训练得到,获取完成训练的查找表的方法为:构建初始的查找表,通过变分自编码器对初始的查找表进行训练,保存完成训练的查找表;
所述变分自编码器包括:编码器、批归一化层、标量层、解码器;
编码器、批归一化层、标量层、解码器依次连接;所述编码器和解码器均采用门控卷积神经网络;
训练查找表包括步骤:
S21、构建初始的查找表,将文本数据集输入到初始的查找表,通过初始的查找表将文本映射为矩阵,所述矩阵为初始的文本表征;
S22、将初始的文本表征输入到变分自编码器的编码器中进行学习,输出编码器学习到的平均数和标准差;
S23、将平均数和标准差分别输入批归一化层,对其进行归一化,然后输入到标量层;
S24、使用经过批归一化层和标量层处理的平均数和标准差,按照以下公式计算隐码;
其中,xi是变分自编码器的输入,fμ'和fσ'是分别计算并进行归一化和缩放平均数和标准差的函数,ε(s)~N(0,1),即ε(s)参数是按照独立高斯分布进行采样得到,s为隐码zi的维度;
S25、隐码输入到变分自编码器的解码器中,输出重构文本;
S26、使用损失函数计算步骤S25的重构文本和步骤S21输入查找表的文本数据之间的重构损失,利用目标函数判断是否达到训练目标,目标函数公式为:
其中,xi是变分自编码器的输入,zi是隐码,q(z)是变分自编码器的先验分布,p(zi|xi)是变分自编码器的后验分布,B是变分自编码器的下限,是重构损失,表明生成的单词和输入文本的相似度;KL[p(zi|xi)||q(z)]是测量两个概率分布差异的指标;
S27、若达到训练目标,查找表训练完成,保存完成训练的查找表;若未达到训练目标,则重复执行训练过程,并利用反向传播算法根据目标函数调整查找表和变分编码器的参数,直到达到训练目标;
S3、将文本表征输入多层感知器得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类;
多层感知器利用文本表征得到文本标签过程包括:
S31、将文本表征输入多层感知器的第一全连接层提取特征,得到第一全连接层的输出数据;
S32、将第一全连接层的输出数据输入第一激活函数进行处理,得到第一激活函数的输出数据;
所述第一激活函数为relu激活函数,处理公式为其中,x是输入函数的数据;
S33、将第一激活函数的输出数据输入多层感知器的第二全连接层提取特征,得到第二全连接层的输出数据;
S34、将第二全连接层的输出数据输入第二激活函数进行处理,得到文本标签作为文本分类结果;
所述第二激活函数为sigmoid激活函数,处理公式为其中,x是输入函数的数据。
2.一种半监督学习的小样本文本分类系统,其特征在于,包括:分类文本获取模块、查找表执行模块、多层感知器执行模块;
分类文本获取模块获取待分类文本,并将待分类文本输入预先训练完成的查找表执行模块;查找表执行模块利用查找表将待分类文本映射为文本表征,并将文本表征输入多层感知器执行模块,多层感知器执行模块利用多层感知器通过文本表征得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类;
还包括查找表生成模块,所述查找表生成模块构建初始的查找表,通过变分自编码器对初始的查找表进行训练,保存训练完成的查找表到查找表执行模块;
所述变分自编码器包括:编码器、批归一化层、标量层、解码器;
编码器、批归一化层、标量层、解码器依次连接;所述编码器和解码器均采用门控卷积神经网络;
训练查找表包括步骤:
构建初始的查找表,将文本数据集输入到初始的查找表,通过初始的查找表将文本映射为矩阵,所述矩阵为初始的文本表征;
将初始的文本表征输入到变分自编码器的编码器中进行学习,输出编码器学习到的平均数和标准差;
将平均数和标准差分别输入批归一化层,对其进行归一化,然后输入到标量层;
使用经过批归一化层和标量层处理的平均数和标准差,按照以下公式计算隐码;
其中,xi是变分自编码器的输入,fμ'和fσ'是分别计算并进行归一化和缩放平均数和标准差的函数,ε(s)~N(0,1),即ε(s)参数是按照独立高斯分布进行采样得到,s为隐码zi的维度;
隐码输入到变分自编码器的解码器中,输出重构文本;
使用损失函数计算的重构文本和输入查找表的文本数据之间的重构损失,利用目标函数判断是否达到训练目标,目标函数公式为:
其中,xi是变分自编码器的输入,zi是隐码,q(z)是变分自编码器的先验分布,p(zi|xi)是变分自编码器的后验分布,B是变分自编码器的下限,是重构损失,表明生成的单词和输入文本的相似度;KL[p(zi|xi)||q(z)]是测量两个概率分布差异的指标;
若达到训练目标,查找表训练完成,保存完成训练的查找表;若未达到训练目标,则重复执行训练过程,并利用反向传播算法根据目标函数调整查找表和变分编码器的参数,直到达到训练目标;
多层感知器利用文本表征得到文本标签过程包括:
将文本表征输入多层感知器的第一全连接层提取特征,得到第一全连接层的输出数据;
将第一全连接层的输出数据输入第一激活函数进行处理,得到第一激活函数的输出数据;
所述第一激活函数为relu激活函数,处理公式为其中,x是输入函数的数据;
将第一激活函数的输出数据输入多层感知器的第二全连接层提取特征,得到第二全连接层的输出数据;
将第二全连接层的输出数据输入第二激活函数进行处理,得到文本标签作为文本分类结果;
所述第二激活函数为sigmoid激活函数,处理公式为其中,x是输入函数的数据。
CN202111503834.0A 2021-12-09 2021-12-09 一种半监督学习的小样本文本分类方法和系统 Active CN114036947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111503834.0A CN114036947B (zh) 2021-12-09 2021-12-09 一种半监督学习的小样本文本分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111503834.0A CN114036947B (zh) 2021-12-09 2021-12-09 一种半监督学习的小样本文本分类方法和系统

Publications (2)

Publication Number Publication Date
CN114036947A CN114036947A (zh) 2022-02-11
CN114036947B true CN114036947B (zh) 2023-11-14

Family

ID=80146573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111503834.0A Active CN114036947B (zh) 2021-12-09 2021-12-09 一种半监督学习的小样本文本分类方法和系统

Country Status (1)

Country Link
CN (1) CN114036947B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737671B (zh) * 2023-08-14 2023-10-31 云南喜岁科技有限公司 用于电力工程项目全过程管理的数据文件分析处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783645A (zh) * 2019-01-23 2019-05-21 福州大学 一种基于变分自编码的文本分类方法
CN110427978A (zh) * 2019-07-10 2019-11-08 清华大学 面向小样本学习的变分自编码器网络模型和装置
CN110580501A (zh) * 2019-08-20 2019-12-17 天津大学 一种基于变分自编码对抗网络的零样本图像分类方法
CN112990385A (zh) * 2021-05-17 2021-06-18 南京航空航天大学 一种基于半监督变分自编码器的主动众包图像学习方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783645A (zh) * 2019-01-23 2019-05-21 福州大学 一种基于变分自编码的文本分类方法
CN110427978A (zh) * 2019-07-10 2019-11-08 清华大学 面向小样本学习的变分自编码器网络模型和装置
CN110580501A (zh) * 2019-08-20 2019-12-17 天津大学 一种基于变分自编码对抗网络的零样本图像分类方法
CN112990385A (zh) * 2021-05-17 2021-06-18 南京航空航天大学 一种基于半监督变分自编码器的主动众包图像学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于自编码器的零样本学习方法研究进展;杨晨曦;左劼;孙频捷;;现代计算机(第01期);49-53 *
曹真等.基于改进变分自编码器的零样本图像分类.《太原理工大学学报》.2021,第52卷(第2期),300-306. *

Also Published As

Publication number Publication date
CN114036947A (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN107122809B (zh) 基于图像自编码的神经网络特征学习方法
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN112765352A (zh) 基于具有自注意力机制的图卷积神经网络文本分类方法
CN110674323A (zh) 基于虚拟标签回归的无监督跨模态哈希检索方法及系统
Wu et al. Optimized deep learning framework for water distribution data-driven modeling
CN114022311A (zh) 基于时序条件生成对抗网络的综合能源系统数据补偿方法
Dai et al. Hybrid deep model for human behavior understanding on industrial internet of video things
CN114036947B (zh) 一种半监督学习的小样本文本分类方法和系统
CN115062727A (zh) 一种基于多阶超图卷积网络的图节点分类方法及系统
CN114757169A (zh) 基于albert模型自适应小样本学习智能纠错方法
CN113204640B (zh) 一种基于注意力机制的文本分类方法
CN108388918B (zh) 具有结构保持特性的数据特征选择方法
Gao et al. REPRESENTATION LEARNING OF KNOWLEDGE GRAPHS USING CONVOLUTIONAL NEURAL NETWORKS.
CN116680575B (zh) 模型处理方法、装置、设备及存储介质
CN112132096B (zh) 动态更新输出权值的随机配置网络的行为模态识别方法
CN116561314B (zh) 基于自适应阈值选择自注意力的文本分类方法
Song et al. A study on the application and the advancement of deep neural network algorithm
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
Wang et al. A convolutional neural network image classification based on extreme learning machine
CN114757310B (zh) 情感识别模型及其训练方法、装置、设备及可读存储介质
Ye et al. TS2V: A transformer-based Siamese network for representation learning of univariate time-series data
CN116543289A (zh) 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法
CN115577111A (zh) 基于自注意力机制的文本分类方法
Xia et al. Efficient synthesis of compact deep neural networks
CN111626376A (zh) 一种基于判别联合概率的域适配方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant