CN114238627A - 一种基于albert和lda的跨域情感分类方法 - Google Patents

一种基于albert和lda的跨域情感分类方法 Download PDF

Info

Publication number
CN114238627A
CN114238627A CN202111382116.2A CN202111382116A CN114238627A CN 114238627 A CN114238627 A CN 114238627A CN 202111382116 A CN202111382116 A CN 202111382116A CN 114238627 A CN114238627 A CN 114238627A
Authority
CN
China
Prior art keywords
model
albert
lda
emotion classification
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111382116.2A
Other languages
English (en)
Other versions
CN114238627B (zh
Inventor
郑江滨
曹宏业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202111382116.2A priority Critical patent/CN114238627B/zh
Publication of CN114238627A publication Critical patent/CN114238627A/zh
Application granted granted Critical
Publication of CN114238627B publication Critical patent/CN114238627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于ALBERT和LDA的跨域情感分类方法,首先进行模型训练与数据的预处理,使用训练数据集对ALBERT模型进行训练,得到用于对目标领域数据检测的ALBERT模型,同时,使用目标领域的数据集进行主题模型训练,得到用于文本主题信息提取的LDA模型;随后针对输入的文本信息进行处理,使用ALBERT对该数据进行处理,得到处理后的向量,同时将该文本输入至LDA模型进行主题信息检测,得到文本主题信息,将处理后的向量与文本主题信息进行结合,输入到一个自适应分类器之中进行情感分类,最终输出情感分类标签。本发明实现了多领域文本的分类,避免了扩充目标领域训练数据集的问题,提升了模型的训练时间,减少了空间复杂度。

Description

一种基于ALBERT和LDA的跨域情感分类方法
技术领域
本发明属于自然语言技术领域,具体涉及一种跨域情感分类方法。
背景技术
大规模语言模型已广泛应用于自然语言处理的多类应用之中,语言模型在语义分析,情感分类、问答系统以及机器翻译等领域展现了强大的性能,但是,当目标领域数据与模型的训练数据存在差异时,大规模语言模型的检测效果将会下降,增加目标领域训练数据是一种改进方式,但是手动标记目标领域数据,需要消耗大量的人力成本,并且随着训练数据集的增加,模型的训练参数将会迅速增加,模型训练将会需要更长的时间、更大的内存空间。
随着深度学习的发展,更多的深度学习方法应用在跨域的数据情感分类任务上,在深度神经语言模型BERT的基础上,将文本表示的元数据与知识图进行嵌入结合,联合训练的方法使得该模型在多标签数据集上取得了较好的检测效果。通过对目标领域以及源域的数据进行分析,构建出数据之间的对应关系,从而实现跨域的情感分类。但是当目标域与源域数据差异较大时,对两个领域的数据进行关联关系的建立较为困难,如何将目标域的信息与源域数据进行结合是一个关键问题。
发明内容
为了克服现有技术的不足,本发明提供了一种基于ALBERT和LDA的跨域情感分类方法,首先进行模型训练与数据的预处理,使用训练数据集对ALBERT模型进行训练,得到用于对目标领域数据检测的ALBERT模型,同时,使用目标领域的数据集进行主题模型训练,得到用于文本主题信息提取的LDA模型;随后针对输入的文本信息进行处理,使用ALBERT对该数据进行处理,得到处理后的向量,同时将该文本输入至LDA模型进行主题信息检测,得到文本主题信息,将处理后的向量与文本主题信息进行结合,输入到一个自适应分类器之中进行情感分类,最终输出情感分类标签。本发明实现了多领域文本的分类,避免了扩充目标领域训练数据集的问题,提升了模型的训练时间,减少了空间复杂度。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:模型训练与数据预处理;
处理训练数据集,对训练数据集中的数据进行分词和去除停用词操作;
将处理后的训练数据集用于ALBERT模型的训练,得到用于对目标领域数据检测的ALBERT模型;
使用Amazon提供的无标记训练数据集,进行主题模型训练,训练得到用于文本主题信息提取的LDA模型;
步骤2:对待检测的输入文本,首先进行分词处理,处理后同时输入ALBERT模型进行目标领域数据检测和LDA模型进行主题信息提取;
步骤2-1:ALBERT模型将[SEP]作为分隔符,对输入的分词后的输入文本进分隔处理,特殊字符[CLS]用于下游的分类任务,使用ALBERT最后一层输入的C向量作为句子对的表示:
C=ALBERT(In)∈Rd (1)
其中,In表示输入文本,d表示d维向量;
步骤2-2:使用LDA模型对输入文本进行主题信息提取;
将输入文本数据按词划分成式(2)所示形式:
In=[t1,...,tN] (2)
式中,t1,...,tN分别表示输入文本划分后的各项;
将划分后的数据项,分别输入至LDA模型之中,计算得到输入文本的主题信息,如式(3)所示:
T=LDA(t1,...,tN)∈Rt (3)
其中,t表示t维向量;
步骤2-3:将ALBERT模型的输出向量C与主题信息T进行组合,得到组合后的数据项F,如式(4)所示;
F=[C;T]∈Rd+t (4)
步骤3:情感分类;
步骤3-1:自适应分类器构建;
采用自适应目标函数学习权重,其目标函数表示为式(5):
Figure BDA0003365973130000021
式中,λi表示平衡因子,Ti表示情感分类子任务,i表示第i个子任务;
通过自适应动态调节,对权重值λ进行调节,定义fλ(x,y)为样本对(x,y)在情感分类输出,定义概率向量为:
P(y|fλ(x))=soft max(fλ(x)) (6)
其中,fλ(x)表示情感分类函数,softmax(.)表示归一化函数;
目标函数的似然定义如下:
P(y1,…,yn|fλ(x))=P(y1|fλ(x))...P(yn|fλ(x)) (7)
其中,y1,...,yn分别表示子任务;
步骤3-2:通过多目标似然函数计算得到自适应的权重值λ,将组合数据项F输入至softmax归一化函数之中,得到:
P=soft max(Fλ) (8)
通过计算情感分类标签的概率,将概率最大的标签作为目标数据标签,从而实现跨域的情感分类。
优选地,所述ALBERT模型的参数定义如表1:
表1 ALBERT模型参数定义:
Figure BDA0003365973130000031
本发明的有益效果如下:
本发明提出了一种基于ALBERT和LDA的跨域情感分类方法,对目标领域数据进行主题信息提取,并将主题信息与ALBERT模型进行结合,能有效平衡目标领域数据的不确定性,实现数据情感分类。本发明提出的模型通过目标领域主题信息提取与源域训练的ALBERT结合,实现了多领域文本的分类,避免了扩充目标领域训练数据集的问题,提升了模型的训练时间,减少了空间复杂度。
附图说明
图1为本发明方法的框架图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提出将LDA主题模型引入轻量化的ALBERT模型之中,针对目标领域数据,进行主题建模,实现文本主题信息的提取,同时将主题信息与语言模型ALBERT输出的文本向量信息进行结合,将组合后的数据进行领域自适应微调,从而构建出一个主题ALBERT跨域情感分类模型,计算得到目标领域文本的情感分类结果。
一种基于ALBERT和LDA的跨域情感分类方法,包括如下步骤:
步骤1:模型训练与数据预处理;
处理训练数据集,对训练数据集中的数据进行分词和去除停用词操作;
将处理后的训练数据集用于ALBERT模型的训练,得到用于对目标领域数据检测的ALBERT模型;
使用Amazon提供的无标记训练数据集,进行主题模型训练,训练得到用于文本主题信息提取的LDA模型;
步骤2:对待检测的输入文本,首先进行分词处理,处理后同时输入ALBERT模型进行目标领域数据检测和LDA模型进行主题信息提取;
步骤2-1:ALBERT模型将[SEP]作为分隔符,对输入的分词后的输入文本进分隔处理,特殊字符[CLS]用于下游的分类任务,使用ALBERT最后一层输入的C向量作为句子对的表示:
C=ALBERT(In)∈Rd (1)
步骤2-2:使用LDA模型对输入文本进行主题信息提取;
将输入文本数据按词划分成式(2)所示形式:
In=[t1,...,tN] (2)
将划分后的数据项,分别输入至LDA模型之中,计算得到输入文本的主题信息,如式(3)所示:
T=LDA(t1,...,tN)∈Rt (3)
步骤2-3:将ALBERT模型的输出向量C与主题信息T进行组合,得到组合后的数据项F,如式(4)所示;
F=[C;T]∈Rd+t (4)
步骤3:情感分类;
步骤3-1:自适应分类器构建;
模型构建的权重因子随着标注样本检测的过程,自适应地调节,受多任务学习权重优化的启发,采用自适应目标函数学习权重,其目标函数表示为式(5):
Figure BDA0003365973130000051
对于该目标函数,权重值λ的选择至关重要,通过自适应动态调节,对权重值λ进行调节,定义fλ(x,y)为样本对(x,y)在神经网络的输出,定义概率向量为:
P(y|fλ(x))=soft max(fλ(x)) (6)
其多目标的似然定义如下:
P(y1,...,yn|fλ(x))=P(y1|fλ(x))...P(yn|fλ(x)) (7)
步骤3-2:通过多目标似然函数计算得到自适应的权重值λ,将组合数据项F输入至softmax归一化函数之中,得到:
P=soft max(Fλ) (8)
通过计算情感分类标签的概率,将概率最大的标签作为目标数据标签,从而实现跨域的情感分类。

Claims (2)

1.一种基于ALBERT和LDA的跨域情感分类方法,其特征在于,包括如下步骤:
步骤1:模型训练与数据预处理;
处理训练数据集,对训练数据集中的数据进行分词和去除停用词操作;
将处理后的训练数据集用于ALBERT模型的训练,得到用于对目标领域数据检测的ALBERT模型;
使用Amazon提供的无标记训练数据集,进行主题模型训练,训练得到用于文本主题信息提取的LDA模型;
步骤2:对待检测的输入文本,首先进行分词处理,处理后同时输入ALBERT模型进行目标领域数据检测和LDA模型进行主题信息提取;
步骤2-1:ALBERT模型将[SEP]作为分隔符,对输入的分词后的输入文本进分隔处理,特殊字符[CLS]用于下游的分类任务,使用ALBERT最后一层输入的C向量作为句子对的表示:
C=ALBERT(In)∈Rd (1)
其中,In表示输入文本,d表示d维向量;
步骤2-2:使用LDA模型对输入文本进行主题信息提取;
将输入文本数据按词划分成式(2)所示形式:
In=[t1,...,tN] (2)
式中,t1,...,tN分别表示输入文本划分后的各项;
将划分后的数据项,分别输入至LDA模型之中,计算得到输入文本的主题信息,如式(3)所示:
T=LDA(t1,...,tN)∈Rt (3)
其中,t表示t维向量;
步骤2-3:将ALBERT模型的输出向量C与主题信息T进行组合,得到组合后的数据项F,如式(4)所示;
F=[C;T]∈Rd+t (4)
步骤3:情感分类;
步骤3-1:自适应分类器构建;
采用自适应目标函数学习权重,其目标函数表示为式(5):
Figure FDA0003365973120000021
式中,λi表示平衡因子,Ti表示情感分类子任务,i表示第i个子任务;
通过自适应动态调节,对权重值λ进行调节,定义fλ(x,y)为样本对(x,y)在情感分类输出,定义概率向量为:
P(y|fλ(x))=soft max(fλ(x)) (6)
其中,fλ(x)表示情感分类函数,softmax(.)表示归一化函数;
目标函数的似然定义如下:
P(y1,...,yn|fλ(x))=P(y1|fλ(x))...P(yn|fλ(x)) (7)
其中,y1,...,yn分别表示子任务;
步骤3-2:通过多目标似然函数计算得到自适应的权重值λ,将组合数据项F输入至softmax归一化函数之中,得到:
P=soft max(Fλ) (8)
通过计算情感分类标签的概率,将概率最大的标签作为目标数据标签,从而实现跨域的情感分类。
2.根据权利要求1所述的一种基于ALBERT和LDA的跨域情感分类方法,其特征在于,所述ALBERT模型的参数定义如表1:
表1 ALBERT模型参数定义:
Figure FDA0003365973120000022
CN202111382116.2A 2021-11-22 2021-11-22 一种基于albert和lda的跨域情感分类方法 Active CN114238627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111382116.2A CN114238627B (zh) 2021-11-22 2021-11-22 一种基于albert和lda的跨域情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111382116.2A CN114238627B (zh) 2021-11-22 2021-11-22 一种基于albert和lda的跨域情感分类方法

Publications (2)

Publication Number Publication Date
CN114238627A true CN114238627A (zh) 2022-03-25
CN114238627B CN114238627B (zh) 2024-04-12

Family

ID=80750211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111382116.2A Active CN114238627B (zh) 2021-11-22 2021-11-22 一种基于albert和lda的跨域情感分类方法

Country Status (1)

Country Link
CN (1) CN114238627B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912525A (zh) * 2016-04-11 2016-08-31 天津大学 基于主题特征的半监督学习情感分类方法
CN106202053A (zh) * 2016-07-22 2016-12-07 福建师范大学 一种社交关系驱动的微博主题情感分析方法
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
RU2719463C1 (ru) * 2018-12-07 2020-04-17 Самсунг Электроникс Ко., Лтд. Тематические модели с априорными параметрами тональности на основе распределенных представлений
CN112699240A (zh) * 2020-12-31 2021-04-23 荆门汇易佳信息科技有限公司 中文情感特征词智能动态发掘和归类方法
WO2021109671A1 (zh) * 2019-12-02 2021-06-10 广州大学 一种支持跨语言迁移的细粒度情感分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912525A (zh) * 2016-04-11 2016-08-31 天津大学 基于主题特征的半监督学习情感分类方法
CN106202053A (zh) * 2016-07-22 2016-12-07 福建师范大学 一种社交关系驱动的微博主题情感分析方法
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
RU2719463C1 (ru) * 2018-12-07 2020-04-17 Самсунг Электроникс Ко., Лтд. Тематические модели с априорными параметрами тональности на основе распределенных представлений
WO2021109671A1 (zh) * 2019-12-02 2021-06-10 广州大学 一种支持跨语言迁移的细粒度情感分析方法
CN112699240A (zh) * 2020-12-31 2021-04-23 荆门汇易佳信息科技有限公司 中文情感特征词智能动态发掘和归类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李扬;孔雯婧;谢邦昌;: "基于主题模型的半监督网络文本情感分类研究", 数理统计与管理, no. 06, 22 November 2016 (2016-11-22) *

Also Published As

Publication number Publication date
CN114238627B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN108763326B (zh) 一种基于特征多样化的卷积神经网络的情感分析模型构建方法
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN111160037A (zh) 一种支持跨语言迁移的细粒度情感分析方法
CN111522908A (zh) 一种基于BiGRU和注意力机制的多标签文本分类方法
CN111460157A (zh) 用于多领域文本分类的循环卷积多任务学习方法
CN110851594A (zh) 一种基于多通道深度学习模型的文本分类方法及其装置
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN107967337B (zh) 一种基于情感极性增强语义的跨领域情感分析方法
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN112925904A (zh) 一种基于Tucker分解的轻量级文本分类方法
CN113688621B (zh) 一种长短不一的文本在不同粒度下的文本匹配方法及装置
CN111813939A (zh) 一种基于表征增强与融合的文本分类方法
CN109670169B (zh) 一种基于特征提取的深度学习情感分类方法
CN112199505B (zh) 一种基于特征表示学习的跨领域情感分类方法及系统
CN110795410A (zh) 一种多领域文本分类方法
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
CN111368524A (zh) 一种基于自注意力双向gru和svm的微博观点句识别方法
CN114238627B (zh) 一种基于albert和lda的跨域情感分类方法
CN116561639A (zh) 一种面向开源情报的多模态数据情感分析方法
CN113722439B (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及系统
CN114912446A (zh) 一种关键词抽取方法、装置及储存介质
Soujanya et al. A CNN based approach for handwritten character identification of Telugu guninthalu using various optimizers
CN114357166A (zh) 一种基于深度学习的文本分类方法
CN113435190A (zh) 一种融合多层次信息抽取和降噪的篇章关系抽取方法
Zhao et al. An universal perturbation generator for black-box attacks against object detectors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant