CN113688241B

CN113688241B - 一种基于融合多级别主题情感模型的文本分类方法及装置

Info

Publication number: CN113688241B
Application number: CN202111009968.7A
Authority: CN
Inventors: 黎荆妗; 杜小东; 朱征宇; 赵福强; 韩萍
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2023-08-29
Anticipated expiration: 2041-08-31
Also published as: CN113688241A

Abstract

本发明公开了一种基于融合多级别主题情感模型的文本分类方法及装置。所述基于融合多级别主题情感模型的文本分类方法，包括以下步骤：S1，对文本进行预处理；S2，预处理后的文本输入单词级主题情感模型JST、语块级主题情感模型CTSM和句子级主题情感模型SJTSM中，分别提取文本的单词级、语块级和句子级主题情感概率分布；S3，提取的单词级、语块级和句子级主题情感概率分布进行拼接，得到多级别主题情感概率分布；S4，多级别主题情感概率分布作为文本的特征向量输入到分类器中进行文本分类，得到分类结果。

Description

一种基于融合多级别主题情感模型的文本分类方法及装置

技术领域

本发明涉及文本分类领域，具体涉及一种基于融合多级别主题情感模型的文本分类方法及装置。

背景技术

主题模型是以非监督学习的方式对文集的隐含语义结构进行聚类的统计模型，主要被用于自然语言处理中的语义分析和文本挖掘问题，例如按主题对文本进行收集、分类和降维。现有的主题模型主要分为两类，参数方法和非参数方法。经典的主题模型是LDA(隐含狄利克雷分布，Latent Dirichlet Allocation)模型。以PLSA(概率潜在语义分析，Probablistic Latent SemanticAnalysis)模型为基础，加上了贝叶斯先验，可得到LDA模型。LDA模型得到了广泛使用，并衍生出了很多改进版本。

例如在LDA的基础上以文章中的句子为单位，提出的SenLDA模型；该模型假设了句子之间的词对文章潜在主题有很强的依赖性，使主题模型从词的维度扩展到了句的维度。

模型粒度介于单词级主题模型LDA和句子级主题模型SenLDA之间的语块级主题模型CopLDA(CopulaLDA)模型。语块由一个或多个单词组成。该模型假设“一个语块中的每个单词表示同一个主题”，此假设较SenLDA模型中的“一个句子中的每个单词表示同一个主题”更严格。

上述模型中，单词级主题模型LDA和句子级主题模型SenLDA无法提取名词短语类(由多个单词构成的词组)的主题。比如专有名词等名词短语类主题，当主题词为苹果公司“Apple Inc.”时，LDA模型和SenLDA模型都只能提取单个单词“Apple”或者“Inc.”作为主题；当结果为“Apple”时，则可能被误理解为水果相关，而不是指公司。除此之外，LDA模型、CopLDA模型和SenLDA模型均只考虑了文本的结构信息，忽略了文本的情感信息；使得上述模型应用于一些包含语义、结构和情感等信息特征的文本分类时，不能有效利用文本的全部特征进行分类，导致准确率可能不够高；例如虚假评论信息的检测。

除此之外，文本向量表示的准确与否在很大程度上决定文本分类的准确性，现有的文本分类方法大多只从单词级、或句子级等某一个单一的层级进行文本向量的提取表示，因此文本向量表示的准确性不够高。

发明内容

本发明的目的在于克服现有技术中所存在的未有效多方面的提取文本特征和单一层级提取文本向量准确性不高的不足，提供一种基于融合多级别主题情感模型的文本分类方法及装置。

为了实现上述发明目的，本发明提供了以下技术方案：

一种基于融合多级别主题情感模型的文本分类方法，包括以下步骤：

S1，对文本进行预处理；

S2，预处理后的文本输入单词级主题情感模型JST、语块级主题情感模型CTSM和句子级主题情感模型SJTSM中，分别提取文本的单词级、语块级和句子级主题情感概率分布；

S3，提取的单词级、语块级和句子级主题情感概率分布进行拼接，得到多级别主题情感概率分布；

S4，多级别主题情感概率分布作为文本的特征向量输入到分类器中进行文本分类，得到分类结果。

通过主题情感模型对文本的结构和情感特征进行提取，以更全面更有效的利用文本的特征。并且将不同粒度方法提取的主题情感概率分布进行拼接组合；将组合后的概率分布作为文本的特征向量进行分类，丰富了文本的特征向量表示，可以提高分类准确度。

优选地，所述所述步骤S1中的预处理包括第一预处理和第二预处理；所述第一预处理包括句法结构分析以及删除停用词；所述第二预处理包括词干化、移除非法字符、移除数字、移除停用词以及移除标点符号；所述第一预处理后的文本用于输入语块级主题情感模型CTSM；所述第二预处理后的文本用于输入单词级主题情感模型JST和句子级主题情感模型SJTSM。对文本进行预处理便于进行特征提取。

优选地，所述CTSM模型的构建，包括以下步骤：

A1，建立语块、主题和情感标签的联合概率表达式；

将语块、主题和情感标签的联合概率p(c,l,z|α,β,γ)分解为如式(1)所示的三部分：

p(c,l,z|α,β,γ)＝p(c|l,z,β)p(z|l,α)p(l|γ) (1)

其中p(l|γ)，p(z|l,α)和p(c|l,z,β)分别表示情感标签l的概率，情感标签l下主题z的概率以及情感标签l和主题z下语块c的概率，α、β和γ为超参数；

A2，基于Gibbs sampling估算后验分布，求解参数，计算语块级主题情感概率分布。

构建语块级主题情感模型CTSM，提取语块级主题情感概率分布。

优选地，所述步骤A2具体包括以下步骤：

A21，输入迭代次数，主题个数，语料库，情感词典以及超参数α、β和γ；

A22，经过多次迭代，对语料库中的每篇训练文本的每个语块根据式(2)采样新的主题和情感标签；

其中，i为句子标号，即第i个句子；j、j′为主题标号，即第j个主题、第j′个主题；k、k′为情感标签标号，即第k个情感标签、第k′个情感标签；d为文本标号，即第d个文本；i表示统计数据时不统计第i个句子上的数据；L为情感标签总数；C为语块总数；T为主题总数；N为语块出现次数；m_i表示第i个句子上的所有语块的总数，m_i,c表示语块c在第i个句子中的次数；

A23，根据统计得到的主题和情感标签信息求解参数，计算主题情感语块分布文本情感主题分布θ_d,k,j、文本情感分布π_d,k。

基于Gibbs sampling估算后验分布，求解参数，计算语块级主题情感概率分布。

优选地，所述主题情感语块分布文本情感分布π_d,k和文本情感主题分布θ_d,k,j的计算公式分别如式(3)至式(5)所示：

文本情感主题分布θ_d,k,j用来表示文本，作为CTSM模型处理文本提取的语块级主题情感概率分布。

优选地，步骤S4所述的分类器为多分类器。

优选地，所述多分类器包括SVM分类器、Logistics Regression分类器和DecisionTree分类器。

多分类器表现更稳定、泛化能力更强。

一种基于融合多级别主题情感模型的文本分类装置，包括顺次连接的预处理模块、主题情感模型模块以及分类器模块；

所述预处理模块包括第一预处理模块和第二预处理模块；所述主题情感模型模块包括单词级主题情感模型模块、语块级主题情感模型模块和句子级主题情感模型模块；第一预处理模块的输出端与语块级主题情感模型模块的输入端连接；第二预处理模块的输出端与单词级主题情感模型模块和句子级主题情感模型模块的输入端连接。

优选地，所述分类器模块包括SVM分类器单元、Logistics Regression分类器单元和Decision Tree分类器单元。多分类器表现更稳定、泛化能力更强。

与现有技术相比，本发明的有益效果：

1、通过主题情感模型对文本的结构和情感特征进行提取，以更全面更有效的利用文本的特征。

2、将不同粒度方法提取的主题情感概率分布进行拼接组合；将组合后的概率分布作为文本的特征向量进行分类，丰富了文本的特征向量表示，可以提高分类准确度。

3、采用语块级主题情感模型CTSM，将语块作为模型的基本处理单位，解决了句子级主题情感模型SJTSM等模型无法提取名词短语类主题的问题。

附图说明：

图1为本发明示例性实施例1的基于融合多级别主题情感模型的文本分类方法的流程图；

图2为本发明示例性实施例1的基于融合多级别主题情感模型的文本分类方法的处理示意图；

图3为本发明示例性实施例1的语块级主题情感模型的构建原理图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

实施例1

如图1或图2所示，本实施例提供一种基于融合多级别主题情感模型的文本分类方法，包括以下步骤：

S1，对文本进行预处理；

所述的基于融合多级别主题情感模型的文本分类方法通过主题情感模型对文本的结构和情感特征进行提取，以更全面更有效的利用文本的特征。并且将不同粒度方法提取的主题情感概率分布进行拼接组合；将组合后的概率分布作为文本的特征向量进行分类，丰富了文本的特征向量表示，可以提高分类准确度。特别的，多级别的模型中包括语块级主题情感模型CTSM，语块级主题情感模型CTSM将预处理中通过句法结构分析划分得到的语块作为模型的基本处理单位，将每个语块特殊处理成单个单词，此时，语块变为“单词”(由多个词构成的特殊单词)而不再是多个词，解决了句子级主题情感模型SJTSM等模型无法提取名词短语类主题的问题。

所述步骤S1中的预处理包括第一预处理和第二预处理；所述第一预处理包括句法结构分析以及删除停用词等操作；所述第二预处理包括词干化、移除非法字符、移除数字、移除停用词以及移除标点符号等操作。第一预处理中，由于句法结构分析需要用到标点符号和部分停用词，因此，标点符号和停用词的移除需在句法结构分析之后。第一预处理后的文本输入语块级主题情感模型CTSM进行数据分析处理；第二预处理后的文本分别输入单词级主题情感模型JST和句子级主题情感模型SJTSM中进行数据分析处理。

以第一预处理为例，通过句法结构分析工具Stanford Parser来对句子进行句法结构分析，对句子进行分析并解析出所包含的各个语块。比如，有如下完整的句子：Example＝"Deceptive reviews on Web are a common phenomenon and how to detect themhas a very important impact on products,services,and even business policies."经过句法结构分析、除去停用词后，即获得该句子包含的多个语块，其结果为：Result＝["Deceptive reviews","Web","common phenomenon","detect","important impact","products","services","business policies"]。

本申请步骤S2所述的单词级主题情感模型JST、语块级主题情感模型CTSM和句子级主题情感模型SJTSM可按照现有的主题情感模型搭建步骤构建模型。其中，语块级主题情感模型CTSM的输入数据的基本单位为语块，语块的提取生成方式可根据CopLDA模型的语块提取方式得到。

SJTSM模型假设“一个句子表示一个主题和一种情感，句子中的所有单词属于同一主题和同一种情感”；CTSM模型假设“句子中的语块都属于同一种情感和同一个主题”；JST模型生成中为每个单词随机分配一个主题。

语块级模型可以一定程度上消除传统主题模型的主题表达具有歧义的不足。文本分类中准确表示文本向量，合理的表达主题，可以提高文本分类的准确性。例如在虚假评论检测任务中，文本向量表示的准确与否在很大程度上决定了虚假评论检测能力的高低。除此之外，将不同粒度方法提取的特征向量组合后，能够进一步丰富文本的向量表示，提升文本分类的效果。因此融合多级别的主题情感模型可以获得更加丰富的基于主题情感概率分布的文本特征向量表示。

其中，CTSM模型中，将通过第一预处理得到的每个语块中的各单词用连接符拼接为一个新单词，例如将语块“Deceptive reviews”拼接为“Deceptive-reviews”，通过这样处理后的每个语块在CTSM模型生成过程中始终被作为基本处理单位(该基本处理单位可以是原句子中的单个单词也可以是多个单词，如短语)，而不再是以单个单词作为固定基本处理单位。

JST模型、CTSM模型和SJTSM模型，三种模型的构建框架一致，区别是模型输入分析的基本单位不同，分别是单词，语块和句子。如图3所示，以CTSM模型的推导过程简述主题情感模型的构建，包括以下步骤：

A1，建立语块、主题和情感标签的联合概率表达式；

p(c,l,z|α,β,γ)＝p(c|l,z,β)p(z|l,α)p(l|γ) (1)

其中p(l|γ)，p(z|l,α)和p(c|l,z,β)分别表示情感标签l的概率，情感标签l下主题z的概率以及情感标签l和主题z下语块c的概率，α、β和γ为超参数。

A2，基于Gibbs sampling估算后验分布，求解参数，计算语块级主题情感概率分布；

步骤A2具体包括以下步骤：

其中，i为句子标号，即第i个句子；j、j′为主题标号，即第j个主题、第j′个主题；k、k′为情感标签标号，即第k个情感标签、第k′个情感标签；d为文本标号，即第d个文本；i表示统计数据时不统计第i个句子上的数据；L为情感标签总数；C为语块总数；T为主题总数；N为语块出现次数；m_i表示第i个句子上的所有语块的总数，m_i,c表示语块c在第i个句子中的次数。

具体的，z_i表示第i个句子的主题；l_i表示第i个句子的情感标签；表示排除第i个句子时第d个文本中第k个情感标签的出现次数；/>表示排除第i个句子时第d个文本中第k′个情感标签的出现次数；/>表示排除第i个句子时语块c在第k个情感标签下第j个主题中的出现次数；/>表示排除第i个句子时第d个文本中第k′个情感标签下第j个主题的出现次数；/>表示排除第i个句子时第d个文本中第k′个情感标签下第j′个主题的出现次数；γ_k和γ_k'分别表示第k个情感标签和第k′个情感标签对应的超参数；β_j,c表示语块c第j个主题对应的超参数；α_j和α_j'分别表示第j个主题和第j′个主题对应的超参数。

A23，根据统计得到的主题和情感标签信息求解参数，计算主题情感语块分布文本情感主题分布θ_d,k,j、文本情感分布π_d,k；

主题情感语块分布文本情感分布π_d,k和文本情感主题分布θ_d,k,j的计算公式分别如式(3)至式(5)所示：

单词级主题情感模型JST和句子级主题情感模型SJTSM的构建方式与语块级主题情感模型CTSM类似；参照上述步骤构建模型，提取的文本情感主题发布分别记作单词级、语块级和句子级主题情感概率分布。

已有研究表明，在主题情感模型的参数设置中，非对称参数相比于对称参数有一定的优势。因此，本章实验对部分参数采用非对称参数进行实验。其中，超参数α和γ设置为对称参数，分别为0.01和1；超参数β为非对称参数，其值和单词的情感信息有关。比如，当单词属于情感词典中的词时，其值设置为0.1，将出现相反情感极性中的情感词设置为0.001，其他情况设置为0。使用的情感词典如表1所示。数据集在实验中分为训练集和测试集(3:1)，本文所有实验结果值都是运行10次后的均值。迭代次数设置为500。

表1英文情感词典

步骤S3中，DRDF对每篇文本将同时用上述三种主题情感模型分别提取文本的主题情感概率分布，然后将三种已提取的主题情感概率分布拼接起来，作为该文本最终的特征向量表示。

步骤S4所述的分类器为多分类器。由于多分类器较单分类器而言，在一定程度上其表现更稳定、泛化能力更强，诸多学者因此常利用多分类器学习方法来成文本分类任务。

本申请中多分类器由SVM分类器、Logistics Regression分类器和Decision Tree分类器组合而成。

该多分类器需进行训练学习，是基于反复实验、比较分析和探索调整中得以最终形成。最后在结果决策阶段，分别用硬投票和软投票决策，最终选择二者中表现更优的结果。

实施例2

本实施例以虚假评论信息的检测为例简述实施例1所述的一种基于融合多级别主题情感模型的文本分类方法。

互联网时代，在线评论逐渐成为人们交流、分享的主要方式，同时也是了解信息的主要渠道之一。互联网的高效性和便捷性，极大地加速了在线评论的传播速度，但在为人们提供便利的同时，也会导致虚假评论信息在互联网上肆意传播，损害用户和商家的利益，破坏市场规则，甚至影响社会秩序。本实施例结合实验仿真数据来展示基于融合多级别主题情感模型的文本分类方法的效果。本实施例根据实施例1所述的基于融合多级别主题情感模型的文本分类方法进行虚假评论检测，简称DRDF(Deceptive Review DetectionFramework)。

实验使用的四类虚假评论数据集均为公开数据集，分别是Information Securityand Object Technology(ISOT)Fake News数据集、Buzzfeed Political News数据集，Hotel数据集和Restaurant数据集。四类数据集均为带标签的英文评论数据集，分为真实和虚假两类。其中，Hotel数据集和Restaurant数据集为不平衡数据集，本实施例采用综合少数过采样技术(Synthetic Minority Over-Sampling Technique，简称SMOTE算法)将数据集构造为平衡数据集。ISOT数据集和Buzzfeed Political News数据集为平衡数据集。处理后实验所使用数据集的统计信息如表2所示。

表2数据集统计信息

数据集名	虚假	真实	合计
				Buzzfeed	48	53	101
ISOT	1000	1000	2000
				Hotel	5078	5078	10156
Restaurant	12000	12000	24000

表3实验结果对比

分别采用现有的比较常见的几种方法与本申请所述的基于融合多级别主题情感模型的文本分类方法(DRDF)进行虚假评论检测，对比实验效果。现有的常见方法包括基于单词级主题模型和支持向量机的方法(LDA+SVM)、基于句子级主题模型的方法(SenLDA)、基于关键词和上下文的主题模型的方法(TKM)、基于无监督主题-情感联合概率模型的方法(UTSJ)以及基于句子级主题情感模型的方法(SJTSM)。

从表3中，我们可以看到本申请的基于融合多级别主题情感模型的文本分类方法(DRDF)在ISOT数据集中在所有评估中均显著优于其他模型。在Restaurant和Hotel数据集中，虽然精度指标不如TKM和SJTSM模型，但差别不大，且召回指标和整体性能指标都是所有模型中最好的。在Buzzfeed数据集中，虽然我们框架的召回指标是小于SenLDA和SJTSM，但整体性能第二与第一差别较小，同时精度优于所有其他模型。可见本申请所述的基于融合多级别主题情感模型的文本分类方法在不同数据集中的适应能力较好，且分类性能也较为优异。

实施例3

本实施例提供一种基于融合多级别主题情感模型的文本分类装置，包括顺次连接的预处理模块、主题情感模型模块以及分类器模块；

所述第一预处理模块用于执行句法结构分析以及删除停用词等操作；所述第二预处理模块用于执行词干化、移除非法字符、移除数字、移除停用词以及移除标点符号等操作。

所述单词级主题情感模型模块用于提取单词级主题情感概率分布；所述语块级主题情感模型模块用于提取语块级主题情感概率分布；所述句子级主题情感模型模块用于提取句子级主题情感概率分布。

所述的基于融合多级别主题情感模型的文本分类装置通过主题情感模型模块对文本的结构和情感特征进行提取，以更全面更有效的利用文本的特征。并且主题情感模型模块包括多级别的模型，可以依据不同粒度方法提取的主题情感概率分布；将不同粒度方法提取的主题情感概率分布组合后的概率分布作为文本的特征向量进行分类，丰富了文本的特征向量表示，可以提高分类准确度。特别的，主题情感模型模块包括语块级主题情感模型模块，语块级主题情感模型模块将经第一预处理模块句法结构分析划分得到的语块作为模型的基本处理单位，将每个语块特殊处理成单个单词，此时，语块变为“单词”(由多个词构成的特殊单词)而不再是多个词，解决了句子级主题情感模型模块等模型无法提取名词短语类主题的问题。

示例性的，所述分类器模块包括SVM分类器单元、Logistics Regression分类器单元和Decision Tree分类器单元。

采用多分类器的机制设计分类器模块，可以提高装置的稳定性和泛化能力。

以上所述，仅为本发明具体实施方式的详细说明，而非对本发明的限制。相关技术领域的技术人员在不脱离本发明的原则和范围的情况下，做出的各种替换、变型以及改进均应包含在本发明的保护范围之内。

Claims

1.一种基于融合多级别主题情感模型的文本分类方法，其特征在于，包括以下步骤：

S1，对文本进行预处理；

预处理包括第一预处理和第二预处理；所述第一预处理包括句法结构分析以及删除停用词；所述第二预处理包括词干化、移除非法字符、移除数字、移除停用词以及移除标点符号；所述第一预处理后的文本用于输入语块级主题情感模型CTSM；所述第二预处理后的文本用于输入单词级主题情感模型JST和句子级主题情感模型SJTSM；

所述CTSM模型的构建，包括以下步骤：

A1，建立语块、主题和情感标签的联合概率表达式；

p(c,l,z|α,β,γ)＝p(c|l,z,β)p(z|l,α)p(l|γ) (1)

所述JST、SJTSM和CTSM的构建框架相同，JST的输入为单词，SJTSM的输入为句子；

2.根据权利要求1所述的基于融合多级别主题情感模型的文本分类方法，其特征在于，所述步骤A2具体包括以下步骤：

其中，i为句子标号，即第i个句子；j、j′为主题标号，即第j个主题、第j′个主题；k、k′为情感标签标号，即第k个情感标签、第k′个情感标签；d为文本标号，即第d个文本；表示统计数据时不统计第i个句子上的数据；L为情感标签总数；C为语块总数；T为主题总数；N为语块出现次数；m_i表示第i个句子上的所有语块的总数，m_i,c表示语块c在第i个句子中的次数；

3.根据权利要求2所述的基于融合多级别主题情感模型的文本分类方法，其特征在于，所述主题情感语块分布文本情感分布π_d,k和文本情感主题分布θ_d,k,j的计算公式分别如式(3)至式(5)所示：

4.根据权利要求1所述的基于融合多级别主题情感模型的文本分类方法，其特征在于，步骤S4所述的分类器为多分类器。

5.根据权利要求4所述的基于融合多级别主题情感模型的文本分类方法，其特征在于，所述多分类器包括SVM分类器、Logistics Regression分类器和Decision Tree分类器。

6.一种基于融合多级别主题情感模型的文本分类装置，用于执行权利要求1-5任一项所述的方法，其特征在于，包括顺次连接的预处理模块、主题情感模型模块以及分类器模块；

7.根据权利要求6所述的基于融合多级别主题情感模型的文本分类装置，其特征在于，所述分类器模块包括SVM分类器单元、Logistics Regression分类器单元和Decision Tree分类器单元。