CN114238627B - 一种基于albert和lda的跨域情感分类方法 - Google Patents

一种基于albert和lda的跨域情感分类方法 Download PDF

Info

Publication number
CN114238627B
CN114238627B CN202111382116.2A CN202111382116A CN114238627B CN 114238627 B CN114238627 B CN 114238627B CN 202111382116 A CN202111382116 A CN 202111382116A CN 114238627 B CN114238627 B CN 114238627B
Authority
CN
China
Prior art keywords
model
albert
training
lda
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111382116.2A
Other languages
English (en)
Other versions
CN114238627A (zh
Inventor
郑江滨
曹宏业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202111382116.2A priority Critical patent/CN114238627B/zh
Publication of CN114238627A publication Critical patent/CN114238627A/zh
Application granted granted Critical
Publication of CN114238627B publication Critical patent/CN114238627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于ALBERT和LDA的跨域情感分类方法,首先进行模型训练与数据的预处理,使用训练数据集对ALBERT模型进行训练,得到用于对目标领域数据检测的ALBERT模型,同时,使用目标领域的数据集进行主题模型训练,得到用于文本主题信息提取的LDA模型;随后针对输入的文本信息进行处理,使用ALBERT对该数据进行处理,得到处理后的向量,同时将该文本输入至LDA模型进行主题信息检测,得到文本主题信息,将处理后的向量与文本主题信息进行结合,输入到一个自适应分类器之中进行情感分类,最终输出情感分类标签。本发明实现了多领域文本的分类,避免了扩充目标领域训练数据集的问题,提升了模型的训练时间,减少了空间复杂度。

Description

一种基于ALBERT和LDA的跨域情感分类方法
技术领域
本发明属于自然语言技术领域,具体涉及一种跨域情感分类方法。
背景技术
大规模语言模型已广泛应用于自然语言处理的多类应用之中,语言模型在语义分析,情感分类、问答系统以及机器翻译等领域展现了强大的性能,但是,当目标领域数据与模型的训练数据存在差异时,大规模语言模型的检测效果将会下降,增加目标领域训练数据是一种改进方式,但是手动标记目标领域数据,需要消耗大量的人力成本,并且随着训练数据集的增加,模型的训练参数将会迅速增加,模型训练将会需要更长的时间、更大的内存空间。
随着深度学习的发展,更多的深度学习方法应用在跨域的数据情感分类任务上,在深度神经语言模型BERT的基础上,将文本表示的元数据与知识图进行嵌入结合,联合训练的方法使得该模型在多标签数据集上取得了较好的检测效果。通过对目标领域以及源域的数据进行分析,构建出数据之间的对应关系,从而实现跨域的情感分类。但是当目标域与源域数据差异较大时,对两个领域的数据进行关联关系的建立较为困难,如何将目标域的信息与源域数据进行结合是一个关键问题。
发明内容
为了克服现有技术的不足,本发明提供了一种基于ALBERT和LDA的跨域情感分类方法,首先进行模型训练与数据的预处理,使用训练数据集对ALBERT模型进行训练,得到用于对目标领域数据检测的ALBERT模型,同时,使用目标领域的数据集进行主题模型训练,得到用于文本主题信息提取的LDA模型;随后针对输入的文本信息进行处理,使用ALBERT对该数据进行处理,得到处理后的向量,同时将该文本输入至LDA模型进行主题信息检测,得到文本主题信息,将处理后的向量与文本主题信息进行结合,输入到一个自适应分类器之中进行情感分类,最终输出情感分类标签。本发明实现了多领域文本的分类,避免了扩充目标领域训练数据集的问题,提升了模型的训练时间,减少了空间复杂度。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:模型训练与数据预处理;
处理训练数据集,对训练数据集中的数据进行分词和去除停用词操作;
将处理后的训练数据集用于ALBERT模型的训练,得到用于对目标领域数据检测的ALBERT模型;
使用Amazon提供的无标记训练数据集,进行主题模型训练,训练得到用于文本主题信息提取的LDA模型;
步骤2:对待检测的输入文本,首先进行分词处理,处理后同时输入ALBERT模型进行目标领域数据检测和LDA模型进行主题信息提取;
步骤2-1:ALBERT模型将[SEP]作为分隔符,对输入的分词后的输入文本进分隔处理,特殊字符[CLS]用于下游的分类任务,使用ALBERT最后一层输入的C向量作为句子对的表示:
C=ALBERT(In)∈Rd (1)
其中,In表示输入文本,d表示d维向量;
步骤2-2:使用LDA模型对输入文本进行主题信息提取;
将输入文本数据按词划分成式(2)所示形式:
In=[t1,...,tN] (2)
式中,t1,...,tN分别表示输入文本划分后的各项;
将划分后的数据项,分别输入至LDA模型之中,计算得到输入文本的主题信息,如式(3)所示:
T=LDA(t1,...,tN)∈Rt (3)
其中,t表示t维向量;
步骤2-3:将ALBERT模型的输出向量C与主题信息T进行组合,得到组合后的数据项F,如式(4)所示;
F=[C;T]∈Rd+t (4)
步骤3:情感分类;
步骤3-1:自适应分类器构建;
采用自适应目标函数学习权重,其目标函数表示为式(5):
式中,λi表示平衡因子,Ti表示情感分类子任务,i表示第i个子任务;
通过自适应动态调节,对权重值λ进行调节,定义fλ(x,y)为样本对(x,y)在情感分类输出,定义概率向量为:
P(y|fλ(x))=soft max(fλ(x)) (6)
其中,fλ(x)表示情感分类函数,softmax(.)表示归一化函数;
目标函数的似然定义如下:
P(y1,…,yn|fλ(x))=P(y1|fλ(x))...P(yn|fλ(x)) (7)
其中,y1,...,yn分别表示子任务;
步骤3-2:通过多目标似然函数计算得到自适应的权重值λ,将组合数据项F输入至softmax归一化函数之中,得到:
P=soft max(Fλ) (8)
通过计算情感分类标签的概率,将概率最大的标签作为目标数据标签,从而实现跨域的情感分类。
优选地,所述ALBERT模型的参数定义如表1:
表1 ALBERT模型参数定义:
本发明的有益效果如下:
本发明提出了一种基于ALBERT和LDA的跨域情感分类方法,对目标领域数据进行主题信息提取,并将主题信息与ALBERT模型进行结合,能有效平衡目标领域数据的不确定性,实现数据情感分类。本发明提出的模型通过目标领域主题信息提取与源域训练的ALBERT结合,实现了多领域文本的分类,避免了扩充目标领域训练数据集的问题,提升了模型的训练时间,减少了空间复杂度。
附图说明
图1为本发明方法的框架图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提出将LDA主题模型引入轻量化的ALBERT模型之中,针对目标领域数据,进行主题建模,实现文本主题信息的提取,同时将主题信息与语言模型ALBERT输出的文本向量信息进行结合,将组合后的数据进行领域自适应微调,从而构建出一个主题ALBERT跨域情感分类模型,计算得到目标领域文本的情感分类结果。
一种基于ALBERT和LDA的跨域情感分类方法,包括如下步骤:
步骤1:模型训练与数据预处理;
处理训练数据集,对训练数据集中的数据进行分词和去除停用词操作;
将处理后的训练数据集用于ALBERT模型的训练,得到用于对目标领域数据检测的ALBERT模型;
使用Amazon提供的无标记训练数据集,进行主题模型训练,训练得到用于文本主题信息提取的LDA模型;
步骤2:对待检测的输入文本,首先进行分词处理,处理后同时输入ALBERT模型进行目标领域数据检测和LDA模型进行主题信息提取;
步骤2-1:ALBERT模型将[SEP]作为分隔符,对输入的分词后的输入文本进分隔处理,特殊字符[CLS]用于下游的分类任务,使用ALBERT最后一层输入的C向量作为句子对的表示:
C=ALBERT(In)∈Rd (1)
步骤2-2:使用LDA模型对输入文本进行主题信息提取;
将输入文本数据按词划分成式(2)所示形式:
In=[t1,...,tN] (2)
将划分后的数据项,分别输入至LDA模型之中,计算得到输入文本的主题信息,如式(3)所示:
T=LDA(t1,...,tN)∈Rt (3)
步骤2-3:将ALBERT模型的输出向量C与主题信息T进行组合,得到组合后的数据项F,如式(4)所示;
F=[C;T]∈Rd+t (4)
步骤3:情感分类;
步骤3-1:自适应分类器构建;
模型构建的权重因子随着标注样本检测的过程,自适应地调节,受多任务学习权重优化的启发,采用自适应目标函数学习权重,其目标函数表示为式(5):
对于该目标函数,权重值λ的选择至关重要,通过自适应动态调节,对权重值λ进行调节,定义fλ(x,y)为样本对(x,y)在神经网络的输出,定义概率向量为:
P(y|fλ(x))=soft max(fλ(x)) (6)
其多目标的似然定义如下:
P(y1,...,yn|fλ(x))=P(y1|fλ(x))...P(yn|fλ(x)) (7)
步骤3-2:通过多目标似然函数计算得到自适应的权重值λ,将组合数据项F输入至softmax归一化函数之中,得到:
P=soft max(Fλ) (8)
通过计算情感分类标签的概率,将概率最大的标签作为目标数据标签,从而实现跨域的情感分类。

Claims (2)

1.一种基于ALBERT和LDA的跨域情感分类方法,其特征在于,包括如下步骤:
步骤1:模型训练与数据预处理;
处理训练数据集,对训练数据集中的数据进行分词和去除停用词操作;
将处理后的训练数据集用于ALBERT模型的训练,得到用于对目标领域数据检测的ALBERT模型;
使用Amazon提供的无标记训练数据集,进行主题模型训练,训练得到用于文本主题信息提取的LDA模型;
步骤2:对待检测的输入文本,首先进行分词处理,处理后同时输入ALBERT模型进行目标领域数据检测和LDA模型进行主题信息提取;
步骤2-1:ALBERT模型将[SEP]作为分隔符,对输入的分词后的输入文本进分隔处理,特殊字符[CLS]用于下游的分类任务,使用ALBERT最后一层输入的C向量作为句子对的表示:
C=ALBERT(In)∈Rd (1)
其中,In表示输入文本,d表示d维向量;
步骤2-2:使用LDA模型对输入文本进行主题信息提取;
将输入文本数据按词划分成式(2)所示形式:
In=[t1,...,tN] (2)
式中,t1,...,tN分别表示输入文本划分后的各项;
将划分后的数据项,分别输入至LDA模型之中,计算得到输入文本的主题信息,如式(3)所示:
T=LDA(t1,...,tN)∈Rt (3)
其中,t表示t维向量;
步骤2-3:将ALBERT模型的输出向量C与主题信息T进行组合,得到组合后的数据项F,如式(4)所示;
F=[C;T]∈Rd+t (4)
步骤3:情感分类;
步骤3-1:自适应分类器构建;
采用自适应目标函数学习权重,其目标函数表示为式(5):
式中,λi表示平衡因子,Ti表示情感分类子任务,i表示第i个子任务;
通过自适应动态调节,对权重值λ进行调节,定义fλ(x,y)为样本对(x,y)在情感分类输出,定义概率向量为:
P(y|fλ(x))=soft max(fλ(x)) (6)
其中,fλ(x)表示情感分类函数,softmax(.)表示归一化函数;
目标函数的似然定义如下:
P(y1,...,yn|fλ(x))=P(y1|fλ(x))...P(yn|fλ(x)) (7)
其中,y1,...,yn分别表示子任务;
步骤3-2:通过多目标似然函数计算得到自适应的权重值λ,将组合数据项F输入至softmax归一化函数之中,得到:
P=soft max(Fλ) (8)
通过计算情感分类标签的概率,将概率最大的标签作为目标数据标签,从而实现跨域的情感分类。
2.根据权利要求1所述的一种基于ALBERT和LDA的跨域情感分类方法,其特征在于,所述ALBERT模型的参数定义如表1:
表1 ALBERT模型参数定义:
CN202111382116.2A 2021-11-22 2021-11-22 一种基于albert和lda的跨域情感分类方法 Active CN114238627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111382116.2A CN114238627B (zh) 2021-11-22 2021-11-22 一种基于albert和lda的跨域情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111382116.2A CN114238627B (zh) 2021-11-22 2021-11-22 一种基于albert和lda的跨域情感分类方法

Publications (2)

Publication Number Publication Date
CN114238627A CN114238627A (zh) 2022-03-25
CN114238627B true CN114238627B (zh) 2024-04-12

Family

ID=80750211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111382116.2A Active CN114238627B (zh) 2021-11-22 2021-11-22 一种基于albert和lda的跨域情感分类方法

Country Status (1)

Country Link
CN (1) CN114238627B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912525A (zh) * 2016-04-11 2016-08-31 天津大学 基于主题特征的半监督学习情感分类方法
CN106202053A (zh) * 2016-07-22 2016-12-07 福建师范大学 一种社交关系驱动的微博主题情感分析方法
RU2719463C1 (ru) * 2018-12-07 2020-04-17 Самсунг Электроникс Ко., Лтд. Тематические модели с априорными параметрами тональности на основе распределенных представлений
CN112699240A (zh) * 2020-12-31 2021-04-23 荆门汇易佳信息科技有限公司 中文情感特征词智能动态发掘和归类方法
WO2021109671A1 (zh) * 2019-12-02 2021-06-10 广州大学 一种支持跨语言迁移的细粒度情感分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912525A (zh) * 2016-04-11 2016-08-31 天津大学 基于主题特征的半监督学习情感分类方法
CN106202053A (zh) * 2016-07-22 2016-12-07 福建师范大学 一种社交关系驱动的微博主题情感分析方法
RU2719463C1 (ru) * 2018-12-07 2020-04-17 Самсунг Электроникс Ко., Лтд. Тематические модели с априорными параметрами тональности на основе распределенных представлений
WO2021109671A1 (zh) * 2019-12-02 2021-06-10 广州大学 一种支持跨语言迁移的细粒度情感分析方法
CN112699240A (zh) * 2020-12-31 2021-04-23 荆门汇易佳信息科技有限公司 中文情感特征词智能动态发掘和归类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于主题模型的半监督网络文本情感分类研究;李扬;孔雯婧;谢邦昌;;数理统计与管理;20161122(06);全文 *
尹春勇 ; 章荪 ; .面向短文本情感分类的端到端对抗变分贝叶斯方法.计算机应用.(09),全文. *

Also Published As

Publication number Publication date
CN114238627A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN108763326B (zh) 一种基于特征多样化的卷积神经网络的情感分析模型构建方法
CN102314614B (zh) 一种基于类共享多核学习的图像语义分类方法
CN107122375A (zh) 基于图像特征的图像主体的识别方法
CN112199505B (zh) 一种基于特征表示学习的跨领域情感分类方法及系统
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN111460157A (zh) 用于多领域文本分类的循环卷积多任务学习方法
CN113722439B (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及系统
CN106339718A (zh) 一种基于神经网络的分类方法及装置
CN110210027A (zh) 基于集成学习的细粒度情感分析方法、装置、设备及介质
CN105678340B (zh) 一种基于增强型栈式自动编码器的自动图像标注方法
CN113688621B (zh) 一种长短不一的文本在不同粒度下的文本匹配方法及装置
CN109670169B (zh) 一种基于特征提取的深度学习情感分类方法
CN110795410A (zh) 一种多领域文本分类方法
US20240320493A1 (en) Improved Two-Stage Machine Learning for Imbalanced Datasets
Chen et al. Data augmentation for environmental sound classification using diffusion probabilistic model with top-k selection discriminator
CN108268461A (zh) 一种基于混合分类器的文本分类装置
CN114238627B (zh) 一种基于albert和lda的跨域情感分类方法
Li A deep learning-based text detection and recognition approach for natural scenes
CN114912446A (zh) 一种关键词抽取方法、装置及储存介质
US11328179B2 (en) Information processing apparatus and information processing method
Zhao et al. An universal perturbation generator for black-box attacks against object detectors
CN114202013B (zh) 一种基于自适应半监督的语义相似度计算方法
TWI779810B (zh) 文本評論資料分析系統、方法及電腦可讀媒介
Li et al. One-shot chinese character recognition based on deep siamese networks
CN118378029B (zh) 一种基于机器翻译的多模态数据预处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant