CN113837309A - 一种基于变分自编码器的文本分类方法 - Google Patents
一种基于变分自编码器的文本分类方法 Download PDFInfo
- Publication number
- CN113837309A CN113837309A CN202111155521.0A CN202111155521A CN113837309A CN 113837309 A CN113837309 A CN 113837309A CN 202111155521 A CN202111155521 A CN 202111155521A CN 113837309 A CN113837309 A CN 113837309A
- Authority
- CN
- China
- Prior art keywords
- text
- encoder
- model
- training
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于变分自编码器的文本分类方法,其包括以下步骤:S1、选定编码器和解码器组成模型;S2、对模型进行预训练;S3、分类器训练;S4、使用训练好的分类器对文本进行分类。步骤S2具体为,先收集一个没有人工标注对的文本数据集,然后通过损失函数对于模型进行训练。通过加入新的增强损失函数,来解决后验坍塌的难题,提高VAE针对文本数据的分类性能。
Description
技术领域
本发明涉及文本分类领域,尤其是涉及一种基于变分自编码器的文本分类方法。
背景技术
变分自编码器(VAE)是机器学习和大数据分析中一种非常重要的模型,在文本生成、图片生成、自动分类等领域扮演者极其重要的角色。但是在将VAE应用文本分类的任务中时,标准VAE汇面临后验坍塌的问题,从而无法正常工作。
发明内容
本发明主要是解决现有技术容易出现后验坍塌问题的缺陷,提供一种基于变分自编码器的文本分类方法,解决了后验坍塌。
本发明针对上述技术问题主要是通过下述技术方案得以解决的:一种基于变分自编码器的文本分类方法,包括以下步骤:
S1、选定编码器和解码器组成模型;
S2、对模型进行预训练;
S3、分类器训练:利用预训练得到的模型中的文本编码器提取已经采集到的分类标注数据的特征向量,在此基础上利用分类标注数据训练文本分类器;分类标注数据的采集一般由外部完成;
S4、使用训练好的文本分类器对文本进行分类。
作为优选,所述步骤S2具体为,先收集一个没有人工标注对的文本数据集,然后通过损失函数对于模型进行训练。
作为优选,所述损失函数为:
式中,θ和Ф为编码器参数,τ为解码器参数,λ为常数,qФ(z|x)为编码器模型的输出概率,pτ(x|z)为解码器模型的输出概率;
损失函数由文本选择函数和普通VAE结合得到,普通VAE为:
式中,q(x|z)为编码器模型的输出概率,p(x,z)为联合概率,E为求期望值操作,DKL为K-L散度,p(z)为z的边际概率;
文本选择函数为:
x为文本,T为文本x的长度,z为空间向量(隐变量),p(x|z)为条件分布,e为自然常数,gτ为文本编码器,将文本xi映射到向量空间fτ是第二编码器,将向量空间z投射到同样的向量空间A为选择样本的范围数量,i为文字数据序号,k为当前选中的文本。第二编码器是一个单独的模型,主要目的是将对向量空间z进行转换,向量大小和编码器维度一样。
作为优选,步骤S2中,训练方法为SGD优化算法。
本发明带来的实质性效果是,通过加入新的增强损失函数,来解决后验坍塌的难题,提高VAE针对文本数据的分类性能。
附图说明
图1是本发明的一种流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:普通VAE的实现方法通过优化如下ELBO损失函数实现:
标准VAE在编码文本数据时,会出现著名的后验坍塌现象,导致VAE编码无法包含有意义的文本内容信息。为了解决这个问题,我们提出了一种新颖的辅助函数:“文本选择辅助函数”来解决上述问题,获得包含丰富语义信息。通过文本选择辅助函数,从而让隐变量z包含更多的语义信息。正常情况下,一个自回归解码器将条件分布p(x|c,z)分解为一连串的下一个词的乘积:
其中T是文字x的长度。这样的链式结构让解码器很容易的忽略掉隐变量z的信息,这是因为自然语言中强烈的顺序关系会减弱全局隐变量中信息的重要。与此相反的是,假如任务是要从多个文本中干扰项中选择正确的文本,那隐变量就必须包含全局的语义信息。文本选择函数可以被表达为:
但是,由于自然语言的广阔空间,我们无法枚举出分母中所有可能的文本,因为A有无穷的可能性。因此,我们通过负采样对其进行近似。也就是说,我们从训练数据中的所有话语中随机抽取K分散注意力的响应,并将训练目标修改为:
同样的,将我们提出的文本选择函数和普通VAE损失结合之后,我们可以得到一个新的损失函数:
针对本发明提出的两个新颖损失函数,我们使用如下流程实现对于文本的分类和理解。
1.选定编码器和解码器:VAE架构对于具体编码器或者解码器的选择非常灵活,针对文本数据选择包括LSTM(Long-short Term Memory)或者Transformer。
2.模型预训练:选定模型后,首先我们要对其进行训练。具体来说,我们先收集一个没有人工标注对的文本数据集,里面包含着大量和业务相关的文本数据,例如新闻、聊天等等。然后给定训练数据后,我们通过损失函数对于模型进行训练。训练方式一般采用SGD优化算法。
3.分类数据采集:首先制定要分类的标签集,并且对于一个数据集进行人工标注,注意此处标注的数据量可以远远小于上一步的预训练数据量,此步骤可由外部完成,直接采用现成的分类标注数据。
4.分类器训练:我们现在可以抛弃解码器,利用预训练得到的文本编码器作为文本的特征向量,在此基础上利用上一步获得的分类标注数据训练文本分类器,分类器的选择可以采用SVM(Support Vector Machine),LR(Logistic Regression)等常见分类模型。
5.其他应用:此外,本方面得到的文本向量z,除了可以支持文本分类之外,还可以被用于文本聚类和数据可视化等其他应用场景,对于城市驾驶舱,商业智能等场景有着巨大意义。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了编码器、预训练、损失函数等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。
Claims (4)
1.一种基于变分自编码器的文本分类方法,其特征在于,包括以下步骤:
S1、选定编码器和解码器组成模型;
S2、对模型进行预训练;
S3、分类器训练:利用预训练得到的模型中的文本编码器提取已经采集到的分类标注数据的特征向量,在此基础上利用分类标注数据训练文本分类器;
S4、使用训练好的文本分类器对文本进行分类。
2.根据权利要求1所述的一种基于变分自编码器的文本分类方法,其特征在于,所述步骤S2具体为,先收集一个没有人工标注对的文本数据集,然后通过损失函数对模型进行训练。
3.根据权利要求2所述的一种基于变分自编码器的文本分类方法,其特征在于,所述损失函数为:
式中,θ和Ф为编码器参数,τ为解码器参数,λ为常数,qФ(z|x)为编码器模型的输出概率,pτ(x|z)为解码器模型的输出概率;
损失函数由文本选择函数和普通VAE结合得到,普通VAE为:
式中,q(x|z)为编码器模型的输出概率,p(x,z)为联合概率,E为求期望值操作,DKL为K-L散度,p(z)为z的边际概率;
文本选择函数为:
4.根据权利要求3所述的一种基于变分自编码器的文本分类方法,其特征在于,步骤S2中,训练方法为SGD优化算法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110173102 | 2021-02-08 | ||
CN2021101731023 | 2021-02-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113837309A true CN113837309A (zh) | 2021-12-24 |
Family
ID=78967696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111155521.0A Pending CN113837309A (zh) | 2021-02-08 | 2021-09-30 | 一种基于变分自编码器的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113837309A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114090780A (zh) * | 2022-01-20 | 2022-02-25 | 宏龙科技(杭州)有限公司 | 一种基于提示学习的快速图片分类方法 |
-
2021
- 2021-09-30 CN CN202111155521.0A patent/CN113837309A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114090780A (zh) * | 2022-01-20 | 2022-02-25 | 宏龙科技(杭州)有限公司 | 一种基于提示学习的快速图片分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106257440B (zh) | 语义信息生成方法和语义信息生成装置 | |
CN111414479B (zh) | 基于短文本聚类技术的标签抽取方法 | |
CN100595760C (zh) | 一种获取口语词条的方法、装置以及一种输入法系统 | |
WO2018000272A1 (zh) | 一种语料生成装置和方法 | |
CN110597961B (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN109325109B (zh) | 基于注意力编码器的抽取式新闻摘要生成装置 | |
CN110597997B (zh) | 一种军事想定文本事件抽取语料库迭代式构建方法及装置 | |
CN110879834B (zh) | 一种基于循环卷积网络的观点检索系统及其观点检索方法 | |
CN102708164B (zh) | 电影期望值的计算方法及系统 | |
CN100405362C (zh) | 一种汉语口语解析方法及装置 | |
CN112541337A (zh) | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 | |
CN101556596A (zh) | 一种输入法系统及智能组词的方法 | |
CN116010553A (zh) | 一种基于双路编码和精确匹配信号的观点检索系统 | |
CN113837309A (zh) | 一种基于变分自编码器的文本分类方法 | |
Van Enschot et al. | Taming our wild data: On intercoder reliability in discourse research | |
CN110472032A (zh) | 医疗自定义实体词词性标签的多分类智能问答检索方法 | |
CN111192667A (zh) | 基于智能手术操作编码提示的方法 | |
CN114091469B (zh) | 基于样本扩充的网络舆情分析方法 | |
CN111968624B (zh) | 数据构建方法、装置、电子设备及存储介质 | |
CN114925206A (zh) | 人工智能体、语音信息识别方法、存储介质和程序产品 | |
CN114372128A (zh) | 一种旋转对称型几何体体积题目的自动求解方法及系统 | |
CN114153951A (zh) | 用于实现金融领域实体识别和情感分析的方法、装置、处理器及其计算机可读存储介质 | |
CN112765359A (zh) | 一种基于少样本的文本分类方法 | |
CN113919355B (zh) | 一种适用于少训练语料场景的半监督命名实体识别方法 | |
CN1570921A (zh) | 基于统计模型的口语解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20221021 Address after: 310000 Room 303, building 3, No. 399, Qiuyi Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: Honglong Technology (Hangzhou) Co.,Ltd. Applicant after: HANGZHOU LINKER TECHNOLOGY CO.,LTD. Address before: 310000 room 31191, 3 / F, building 1, No. 88, Puyan Road, Puyan street, Binjiang District, Hangzhou City, Zhejiang Province Applicant before: Honglong Technology (Hangzhou) Co.,Ltd. |