CN114238627B

CN114238627B - 一种基于albert和lda的跨域情感分类方法

Info

Publication number: CN114238627B
Application number: CN202111382116.2A
Authority: CN
Inventors: 郑江滨; 曹宏业
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2024-04-12
Anticipated expiration: 2041-11-22
Also published as: CN114238627A

Abstract

本发明公开了一种基于ALBERT和LDA的跨域情感分类方法，首先进行模型训练与数据的预处理，使用训练数据集对ALBERT模型进行训练，得到用于对目标领域数据检测的ALBERT模型，同时，使用目标领域的数据集进行主题模型训练，得到用于文本主题信息提取的LDA模型；随后针对输入的文本信息进行处理，使用ALBERT对该数据进行处理，得到处理后的向量，同时将该文本输入至LDA模型进行主题信息检测，得到文本主题信息，将处理后的向量与文本主题信息进行结合，输入到一个自适应分类器之中进行情感分类，最终输出情感分类标签。本发明实现了多领域文本的分类，避免了扩充目标领域训练数据集的问题，提升了模型的训练时间，减少了空间复杂度。

Description

一种基于ALBERT和LDA的跨域情感分类方法

技术领域

本发明属于自然语言技术领域，具体涉及一种跨域情感分类方法。

背景技术

大规模语言模型已广泛应用于自然语言处理的多类应用之中，语言模型在语义分析，情感分类、问答系统以及机器翻译等领域展现了强大的性能，但是，当目标领域数据与模型的训练数据存在差异时，大规模语言模型的检测效果将会下降，增加目标领域训练数据是一种改进方式，但是手动标记目标领域数据，需要消耗大量的人力成本，并且随着训练数据集的增加，模型的训练参数将会迅速增加，模型训练将会需要更长的时间、更大的内存空间。

随着深度学习的发展，更多的深度学习方法应用在跨域的数据情感分类任务上，在深度神经语言模型BERT的基础上，将文本表示的元数据与知识图进行嵌入结合，联合训练的方法使得该模型在多标签数据集上取得了较好的检测效果。通过对目标领域以及源域的数据进行分析，构建出数据之间的对应关系，从而实现跨域的情感分类。但是当目标域与源域数据差异较大时，对两个领域的数据进行关联关系的建立较为困难，如何将目标域的信息与源域数据进行结合是一个关键问题。

发明内容

为了克服现有技术的不足，本发明提供了一种基于ALBERT和LDA的跨域情感分类方法，首先进行模型训练与数据的预处理，使用训练数据集对ALBERT模型进行训练，得到用于对目标领域数据检测的ALBERT模型，同时，使用目标领域的数据集进行主题模型训练，得到用于文本主题信息提取的LDA模型；随后针对输入的文本信息进行处理，使用ALBERT对该数据进行处理，得到处理后的向量，同时将该文本输入至LDA模型进行主题信息检测，得到文本主题信息，将处理后的向量与文本主题信息进行结合，输入到一个自适应分类器之中进行情感分类，最终输出情感分类标签。本发明实现了多领域文本的分类，避免了扩充目标领域训练数据集的问题，提升了模型的训练时间，减少了空间复杂度。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：模型训练与数据预处理；

处理训练数据集，对训练数据集中的数据进行分词和去除停用词操作；

将处理后的训练数据集用于ALBERT模型的训练，得到用于对目标领域数据检测的ALBERT模型；

使用Amazon提供的无标记训练数据集，进行主题模型训练，训练得到用于文本主题信息提取的LDA模型；

步骤2：对待检测的输入文本，首先进行分词处理，处理后同时输入ALBERT模型进行目标领域数据检测和LDA模型进行主题信息提取；

步骤2-1：ALBERT模型将[SEP]作为分隔符，对输入的分词后的输入文本进分隔处理，特殊字符[CLS]用于下游的分类任务，使用ALBERT最后一层输入的C向量作为句子对的表示：

C＝ALBERT(In)∈R^d (1)

其中，In表示输入文本，d表示d维向量；

步骤2-2：使用LDA模型对输入文本进行主题信息提取；

将输入文本数据按词划分成式(2)所示形式：

In＝[t₁,...,t_N] (2)

式中，t₁,...,t_N分别表示输入文本划分后的各项；

将划分后的数据项，分别输入至LDA模型之中，计算得到输入文本的主题信息，如式(3)所示：

T＝LDA(t₁,...,t_N)∈R^t (3)

其中，t表示t维向量；

步骤2-3：将ALBERT模型的输出向量C与主题信息T进行组合，得到组合后的数据项F，如式(4)所示；

F＝[C；T]∈R^d+t (4)

步骤3：情感分类；

步骤3-1：自适应分类器构建；

采用自适应目标函数学习权重，其目标函数表示为式(5)：

式中，λ_i表示平衡因子，T_i表示情感分类子任务，i表示第i个子任务；

通过自适应动态调节，对权重值λ进行调节，定义f^λ(x，y)为样本对(x，y)在情感分类输出，定义概率向量为：

P(y|f^λ(x))＝soft max(f^λ(x)) (6)

其中，f^λ(x)表示情感分类函数，softmax(.)表示归一化函数；

目标函数的似然定义如下：

P(y₁，…，y_n|f^λ(x))＝P(y₁|f^λ(x))...P(y_n|f^λ(x)) (7)

其中，y₁，...，y_n分别表示子任务；

步骤3-2：通过多目标似然函数计算得到自适应的权重值λ，将组合数据项F输入至softmax归一化函数之中，得到：

P＝soft max(Fλ) (8)

通过计算情感分类标签的概率，将概率最大的标签作为目标数据标签，从而实现跨域的情感分类。

优选地，所述ALBERT模型的参数定义如表1：

表1 ALBERT模型参数定义：

本发明的有益效果如下：

本发明提出了一种基于ALBERT和LDA的跨域情感分类方法，对目标领域数据进行主题信息提取，并将主题信息与ALBERT模型进行结合，能有效平衡目标领域数据的不确定性，实现数据情感分类。本发明提出的模型通过目标领域主题信息提取与源域训练的ALBERT结合，实现了多领域文本的分类，避免了扩充目标领域训练数据集的问题，提升了模型的训练时间，减少了空间复杂度。

附图说明

图1为本发明方法的框架图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提出将LDA主题模型引入轻量化的ALBERT模型之中，针对目标领域数据，进行主题建模，实现文本主题信息的提取，同时将主题信息与语言模型ALBERT输出的文本向量信息进行结合，将组合后的数据进行领域自适应微调，从而构建出一个主题ALBERT跨域情感分类模型，计算得到目标领域文本的情感分类结果。

一种基于ALBERT和LDA的跨域情感分类方法，包括如下步骤：

步骤1：模型训练与数据预处理；

C＝ALBERT(In)∈R^d (1)

步骤2-2：使用LDA模型对输入文本进行主题信息提取；

将输入文本数据按词划分成式(2)所示形式：

In＝[t₁,...,t_N] (2)

T＝LDA(t₁,...,t_N)∈R^t (3)

F＝[C；T]∈R^d+t (4)

步骤3：情感分类；

步骤3-1：自适应分类器构建；

模型构建的权重因子随着标注样本检测的过程，自适应地调节，受多任务学习权重优化的启发，采用自适应目标函数学习权重，其目标函数表示为式(5)：

对于该目标函数，权重值λ的选择至关重要，通过自适应动态调节，对权重值λ进行调节，定义f^λ(x,y)为样本对(x,y)在神经网络的输出，定义概率向量为：

P(y|f^λ(x))＝soft max(f^λ(x)) (6)

其多目标的似然定义如下：

P(y₁,...,y_n|f^λ(x))＝P(y₁|f^λ(x))...P(y_n|f^λ(x)) (7)

P＝soft max(Fλ) (8)

Claims

1.一种基于ALBERT和LDA的跨域情感分类方法，其特征在于，包括如下步骤：

步骤1：模型训练与数据预处理；

C＝ALBERT(In)∈R^d (1)

其中，In表示输入文本，d表示d维向量；

步骤2-2：使用LDA模型对输入文本进行主题信息提取；

将输入文本数据按词划分成式(2)所示形式：

In＝[t₁,...,t_N] (2)

式中，t₁,...,t_N分别表示输入文本划分后的各项；

T＝LDA(t₁,...,t_N)∈R^t (3)

其中，t表示t维向量；

F＝[C；T]∈R^d+t (4)

步骤3：情感分类；

步骤3-1：自适应分类器构建；

采用自适应目标函数学习权重，其目标函数表示为式(5)：

通过自适应动态调节，对权重值λ进行调节，定义f^λ(x,y)为样本对(x,y)在情感分类输出，定义概率向量为：

P(y|f^λ(x))＝soft max(f^λ(x)) (6)

其中，f^λ(x)表示情感分类函数，softmax(.)表示归一化函数；

目标函数的似然定义如下：

P(y₁,...,y_n|f^λ(x))＝P(y₁|f^λ(x))...P(y_n|f^λ(x)) (7)

其中，y₁,...,y_n分别表示子任务；

P＝soft max(Fλ) (8)

2.根据权利要求1所述的一种基于ALBERT和LDA的跨域情感分类方法，其特征在于，所述ALBERT模型的参数定义如表1：

表1 ALBERT模型参数定义：