CN114238627B - 一种基于albert和lda的跨域情感分类方法 - Google Patents
一种基于albert和lda的跨域情感分类方法 Download PDFInfo
- Publication number
- CN114238627B CN114238627B CN202111382116.2A CN202111382116A CN114238627B CN 114238627 B CN114238627 B CN 114238627B CN 202111382116 A CN202111382116 A CN 202111382116A CN 114238627 B CN114238627 B CN 114238627B
- Authority
- CN
- China
- Prior art keywords
- model
- albert
- training
- lda
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000003044 adaptive effect Effects 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于ALBERT和LDA的跨域情感分类方法,首先进行模型训练与数据的预处理,使用训练数据集对ALBERT模型进行训练,得到用于对目标领域数据检测的ALBERT模型,同时,使用目标领域的数据集进行主题模型训练,得到用于文本主题信息提取的LDA模型;随后针对输入的文本信息进行处理,使用ALBERT对该数据进行处理,得到处理后的向量,同时将该文本输入至LDA模型进行主题信息检测,得到文本主题信息,将处理后的向量与文本主题信息进行结合,输入到一个自适应分类器之中进行情感分类,最终输出情感分类标签。本发明实现了多领域文本的分类,避免了扩充目标领域训练数据集的问题,提升了模型的训练时间,减少了空间复杂度。
Description
技术领域
本发明属于自然语言技术领域,具体涉及一种跨域情感分类方法。
背景技术
大规模语言模型已广泛应用于自然语言处理的多类应用之中,语言模型在语义分析,情感分类、问答系统以及机器翻译等领域展现了强大的性能,但是,当目标领域数据与模型的训练数据存在差异时,大规模语言模型的检测效果将会下降,增加目标领域训练数据是一种改进方式,但是手动标记目标领域数据,需要消耗大量的人力成本,并且随着训练数据集的增加,模型的训练参数将会迅速增加,模型训练将会需要更长的时间、更大的内存空间。
随着深度学习的发展,更多的深度学习方法应用在跨域的数据情感分类任务上,在深度神经语言模型BERT的基础上,将文本表示的元数据与知识图进行嵌入结合,联合训练的方法使得该模型在多标签数据集上取得了较好的检测效果。通过对目标领域以及源域的数据进行分析,构建出数据之间的对应关系,从而实现跨域的情感分类。但是当目标域与源域数据差异较大时,对两个领域的数据进行关联关系的建立较为困难,如何将目标域的信息与源域数据进行结合是一个关键问题。
发明内容
为了克服现有技术的不足,本发明提供了一种基于ALBERT和LDA的跨域情感分类方法,首先进行模型训练与数据的预处理,使用训练数据集对ALBERT模型进行训练,得到用于对目标领域数据检测的ALBERT模型,同时,使用目标领域的数据集进行主题模型训练,得到用于文本主题信息提取的LDA模型;随后针对输入的文本信息进行处理,使用ALBERT对该数据进行处理,得到处理后的向量,同时将该文本输入至LDA模型进行主题信息检测,得到文本主题信息,将处理后的向量与文本主题信息进行结合,输入到一个自适应分类器之中进行情感分类,最终输出情感分类标签。本发明实现了多领域文本的分类,避免了扩充目标领域训练数据集的问题,提升了模型的训练时间,减少了空间复杂度。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:模型训练与数据预处理;
处理训练数据集,对训练数据集中的数据进行分词和去除停用词操作;
将处理后的训练数据集用于ALBERT模型的训练,得到用于对目标领域数据检测的ALBERT模型;
使用Amazon提供的无标记训练数据集,进行主题模型训练,训练得到用于文本主题信息提取的LDA模型;
步骤2:对待检测的输入文本,首先进行分词处理,处理后同时输入ALBERT模型进行目标领域数据检测和LDA模型进行主题信息提取;
步骤2-1:ALBERT模型将[SEP]作为分隔符,对输入的分词后的输入文本进分隔处理,特殊字符[CLS]用于下游的分类任务,使用ALBERT最后一层输入的C向量作为句子对的表示:
C=ALBERT(In)∈Rd (1)
其中,In表示输入文本,d表示d维向量;
步骤2-2:使用LDA模型对输入文本进行主题信息提取;
将输入文本数据按词划分成式(2)所示形式:
In=[t1,...,tN] (2)
式中,t1,...,tN分别表示输入文本划分后的各项;
将划分后的数据项,分别输入至LDA模型之中,计算得到输入文本的主题信息,如式(3)所示:
T=LDA(t1,...,tN)∈Rt (3)
其中,t表示t维向量;
步骤2-3:将ALBERT模型的输出向量C与主题信息T进行组合,得到组合后的数据项F,如式(4)所示;
F=[C;T]∈Rd+t (4)
步骤3:情感分类;
步骤3-1:自适应分类器构建;
采用自适应目标函数学习权重,其目标函数表示为式(5):
式中,λi表示平衡因子,Ti表示情感分类子任务,i表示第i个子任务;
通过自适应动态调节,对权重值λ进行调节,定义fλ(x,y)为样本对(x,y)在情感分类输出,定义概率向量为:
P(y|fλ(x))=soft max(fλ(x)) (6)
其中,fλ(x)表示情感分类函数,softmax(.)表示归一化函数;
目标函数的似然定义如下:
P(y1,…,yn|fλ(x))=P(y1|fλ(x))...P(yn|fλ(x)) (7)
其中,y1,...,yn分别表示子任务;
步骤3-2:通过多目标似然函数计算得到自适应的权重值λ,将组合数据项F输入至softmax归一化函数之中,得到:
P=soft max(Fλ) (8)
通过计算情感分类标签的概率,将概率最大的标签作为目标数据标签,从而实现跨域的情感分类。
优选地,所述ALBERT模型的参数定义如表1:
表1 ALBERT模型参数定义:
本发明的有益效果如下:
本发明提出了一种基于ALBERT和LDA的跨域情感分类方法,对目标领域数据进行主题信息提取,并将主题信息与ALBERT模型进行结合,能有效平衡目标领域数据的不确定性,实现数据情感分类。本发明提出的模型通过目标领域主题信息提取与源域训练的ALBERT结合,实现了多领域文本的分类,避免了扩充目标领域训练数据集的问题,提升了模型的训练时间,减少了空间复杂度。
附图说明
图1为本发明方法的框架图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提出将LDA主题模型引入轻量化的ALBERT模型之中,针对目标领域数据,进行主题建模,实现文本主题信息的提取,同时将主题信息与语言模型ALBERT输出的文本向量信息进行结合,将组合后的数据进行领域自适应微调,从而构建出一个主题ALBERT跨域情感分类模型,计算得到目标领域文本的情感分类结果。
一种基于ALBERT和LDA的跨域情感分类方法,包括如下步骤:
步骤1:模型训练与数据预处理;
处理训练数据集,对训练数据集中的数据进行分词和去除停用词操作;
将处理后的训练数据集用于ALBERT模型的训练,得到用于对目标领域数据检测的ALBERT模型;
使用Amazon提供的无标记训练数据集,进行主题模型训练,训练得到用于文本主题信息提取的LDA模型;
步骤2:对待检测的输入文本,首先进行分词处理,处理后同时输入ALBERT模型进行目标领域数据检测和LDA模型进行主题信息提取;
步骤2-1:ALBERT模型将[SEP]作为分隔符,对输入的分词后的输入文本进分隔处理,特殊字符[CLS]用于下游的分类任务,使用ALBERT最后一层输入的C向量作为句子对的表示:
C=ALBERT(In)∈Rd (1)
步骤2-2:使用LDA模型对输入文本进行主题信息提取;
将输入文本数据按词划分成式(2)所示形式:
In=[t1,...,tN] (2)
将划分后的数据项,分别输入至LDA模型之中,计算得到输入文本的主题信息,如式(3)所示:
T=LDA(t1,...,tN)∈Rt (3)
步骤2-3:将ALBERT模型的输出向量C与主题信息T进行组合,得到组合后的数据项F,如式(4)所示;
F=[C;T]∈Rd+t (4)
步骤3:情感分类;
步骤3-1:自适应分类器构建;
模型构建的权重因子随着标注样本检测的过程,自适应地调节,受多任务学习权重优化的启发,采用自适应目标函数学习权重,其目标函数表示为式(5):
对于该目标函数,权重值λ的选择至关重要,通过自适应动态调节,对权重值λ进行调节,定义fλ(x,y)为样本对(x,y)在神经网络的输出,定义概率向量为:
P(y|fλ(x))=soft max(fλ(x)) (6)
其多目标的似然定义如下:
P(y1,...,yn|fλ(x))=P(y1|fλ(x))...P(yn|fλ(x)) (7)
步骤3-2:通过多目标似然函数计算得到自适应的权重值λ,将组合数据项F输入至softmax归一化函数之中,得到:
P=soft max(Fλ) (8)
通过计算情感分类标签的概率,将概率最大的标签作为目标数据标签,从而实现跨域的情感分类。
Claims (2)
1.一种基于ALBERT和LDA的跨域情感分类方法,其特征在于,包括如下步骤:
步骤1:模型训练与数据预处理;
处理训练数据集,对训练数据集中的数据进行分词和去除停用词操作;
将处理后的训练数据集用于ALBERT模型的训练,得到用于对目标领域数据检测的ALBERT模型;
使用Amazon提供的无标记训练数据集,进行主题模型训练,训练得到用于文本主题信息提取的LDA模型;
步骤2:对待检测的输入文本,首先进行分词处理,处理后同时输入ALBERT模型进行目标领域数据检测和LDA模型进行主题信息提取;
步骤2-1:ALBERT模型将[SEP]作为分隔符,对输入的分词后的输入文本进分隔处理,特殊字符[CLS]用于下游的分类任务,使用ALBERT最后一层输入的C向量作为句子对的表示:
C=ALBERT(In)∈Rd (1)
其中,In表示输入文本,d表示d维向量;
步骤2-2:使用LDA模型对输入文本进行主题信息提取;
将输入文本数据按词划分成式(2)所示形式:
In=[t1,...,tN] (2)
式中,t1,...,tN分别表示输入文本划分后的各项;
将划分后的数据项,分别输入至LDA模型之中,计算得到输入文本的主题信息,如式(3)所示:
T=LDA(t1,...,tN)∈Rt (3)
其中,t表示t维向量;
步骤2-3:将ALBERT模型的输出向量C与主题信息T进行组合,得到组合后的数据项F,如式(4)所示;
F=[C;T]∈Rd+t (4)
步骤3:情感分类;
步骤3-1:自适应分类器构建;
采用自适应目标函数学习权重,其目标函数表示为式(5):
式中,λi表示平衡因子,Ti表示情感分类子任务,i表示第i个子任务;
通过自适应动态调节,对权重值λ进行调节,定义fλ(x,y)为样本对(x,y)在情感分类输出,定义概率向量为:
P(y|fλ(x))=soft max(fλ(x)) (6)
其中,fλ(x)表示情感分类函数,softmax(.)表示归一化函数;
目标函数的似然定义如下:
P(y1,...,yn|fλ(x))=P(y1|fλ(x))...P(yn|fλ(x)) (7)
其中,y1,...,yn分别表示子任务;
步骤3-2:通过多目标似然函数计算得到自适应的权重值λ,将组合数据项F输入至softmax归一化函数之中,得到:
P=soft max(Fλ) (8)
通过计算情感分类标签的概率,将概率最大的标签作为目标数据标签,从而实现跨域的情感分类。
2.根据权利要求1所述的一种基于ALBERT和LDA的跨域情感分类方法,其特征在于,所述ALBERT模型的参数定义如表1:
表1 ALBERT模型参数定义:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111382116.2A CN114238627B (zh) | 2021-11-22 | 2021-11-22 | 一种基于albert和lda的跨域情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111382116.2A CN114238627B (zh) | 2021-11-22 | 2021-11-22 | 一种基于albert和lda的跨域情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114238627A CN114238627A (zh) | 2022-03-25 |
CN114238627B true CN114238627B (zh) | 2024-04-12 |
Family
ID=80750211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111382116.2A Active CN114238627B (zh) | 2021-11-22 | 2021-11-22 | 一种基于albert和lda的跨域情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114238627B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912525A (zh) * | 2016-04-11 | 2016-08-31 | 天津大学 | 基于主题特征的半监督学习情感分类方法 |
CN106202053A (zh) * | 2016-07-22 | 2016-12-07 | 福建师范大学 | 一种社交关系驱动的微博主题情感分析方法 |
RU2719463C1 (ru) * | 2018-12-07 | 2020-04-17 | Самсунг Электроникс Ко., Лтд. | Тематические модели с априорными параметрами тональности на основе распределенных представлений |
CN112699240A (zh) * | 2020-12-31 | 2021-04-23 | 荆门汇易佳信息科技有限公司 | 中文情感特征词智能动态发掘和归类方法 |
WO2021109671A1 (zh) * | 2019-12-02 | 2021-06-10 | 广州大学 | 一种支持跨语言迁移的细粒度情感分析方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11205103B2 (en) * | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
-
2021
- 2021-11-22 CN CN202111382116.2A patent/CN114238627B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912525A (zh) * | 2016-04-11 | 2016-08-31 | 天津大学 | 基于主题特征的半监督学习情感分类方法 |
CN106202053A (zh) * | 2016-07-22 | 2016-12-07 | 福建师范大学 | 一种社交关系驱动的微博主题情感分析方法 |
RU2719463C1 (ru) * | 2018-12-07 | 2020-04-17 | Самсунг Электроникс Ко., Лтд. | Тематические модели с априорными параметрами тональности на основе распределенных представлений |
WO2021109671A1 (zh) * | 2019-12-02 | 2021-06-10 | 广州大学 | 一种支持跨语言迁移的细粒度情感分析方法 |
CN112699240A (zh) * | 2020-12-31 | 2021-04-23 | 荆门汇易佳信息科技有限公司 | 中文情感特征词智能动态发掘和归类方法 |
Non-Patent Citations (2)
Title |
---|
基于主题模型的半监督网络文本情感分类研究;李扬;孔雯婧;谢邦昌;;数理统计与管理;20161122(06);全文 * |
尹春勇 ; 章荪 ; .面向短文本情感分类的端到端对抗变分贝叶斯方法.计算机应用.(09),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN114238627A (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763326B (zh) | 一种基于特征多样化的卷积神经网络的情感分析模型构建方法 | |
CN102314614B (zh) | 一种基于类共享多核学习的图像语义分类方法 | |
CN107122375A (zh) | 基于图像特征的图像主体的识别方法 | |
CN112199505B (zh) | 一种基于特征表示学习的跨领域情感分类方法及系统 | |
CN110825850B (zh) | 一种自然语言主题分类方法及装置 | |
CN111460157A (zh) | 用于多领域文本分类的循环卷积多任务学习方法 | |
CN113722439B (zh) | 基于对抗性类别对齐网络的跨领域情感分类方法及系统 | |
CN106339718A (zh) | 一种基于神经网络的分类方法及装置 | |
CN110210027A (zh) | 基于集成学习的细粒度情感分析方法、装置、设备及介质 | |
CN105678340B (zh) | 一种基于增强型栈式自动编码器的自动图像标注方法 | |
CN113688621B (zh) | 一种长短不一的文本在不同粒度下的文本匹配方法及装置 | |
CN109670169B (zh) | 一种基于特征提取的深度学习情感分类方法 | |
CN110795410A (zh) | 一种多领域文本分类方法 | |
US20240320493A1 (en) | Improved Two-Stage Machine Learning for Imbalanced Datasets | |
Chen et al. | Data augmentation for environmental sound classification using diffusion probabilistic model with top-k selection discriminator | |
CN108268461A (zh) | 一种基于混合分类器的文本分类装置 | |
CN114238627B (zh) | 一种基于albert和lda的跨域情感分类方法 | |
Li | A deep learning-based text detection and recognition approach for natural scenes | |
CN114912446A (zh) | 一种关键词抽取方法、装置及储存介质 | |
US11328179B2 (en) | Information processing apparatus and information processing method | |
Zhao et al. | An universal perturbation generator for black-box attacks against object detectors | |
CN114202013B (zh) | 一种基于自适应半监督的语义相似度计算方法 | |
TWI779810B (zh) | 文本評論資料分析系統、方法及電腦可讀媒介 | |
Li et al. | One-shot chinese character recognition based on deep siamese networks | |
CN118378029B (zh) | 一种基于机器翻译的多模态数据预处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |