CN117390131A - 一种用于多领域的文本情感分类方法 - Google Patents

一种用于多领域的文本情感分类方法 Download PDF

Info

Publication number
CN117390131A
CN117390131A CN202310815104.7A CN202310815104A CN117390131A CN 117390131 A CN117390131 A CN 117390131A CN 202310815104 A CN202310815104 A CN 202310815104A CN 117390131 A CN117390131 A CN 117390131A
Authority
CN
China
Prior art keywords
vector
word
text
model
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310815104.7A
Other languages
English (en)
Inventor
宋�莹
杨俊哲
陈逸菲
孙宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi University
Original Assignee
Wuxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi University filed Critical Wuxi University
Priority to CN202310815104.7A priority Critical patent/CN117390131A/zh
Publication of CN117390131A publication Critical patent/CN117390131A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种用于多领域的文本情感分类方法,包括:获取目标领域带标签的文本数据并进行预处理,对词嵌入层进行训练,在ALBERT模型中嵌入用于文本主题信息提取的LDA模型,在LDA模型中融合K‑means聚类算法;将词向量序列输入至LDA模型中进行无监督训练,提取文本主题信息,得到“文档‑主题”分布的主题特征向量;将主题特征向量输入到K‑means聚类算法进行二次聚类后,使用余弦相似度输出最优的主题特征向量;通过吉布斯采样方法迭代抽样,LDA模型收敛后得到“主题‑词”分布和“评论‑主题”分布;对文本情感分类模型训练,将通过训练后的文本情感分类模型计算情感分类标签的情感概率,将情感概率最大的标签作为目标数据标签,从而实现跨领域的文本情感分类。

Description

一种用于多领域的文本情感分类方法
技术领域
本发明涉及情感分类技术领域,特别是涉及一种用于多领域的文本情感分类方法。
背景技术
文档级情感分析能够提供的信息相对有限,现有文本的情感极性进行分类方法所识别出的文本标签准确性低,导致分类出的标签无法精准的表达文本含义,不利于对文本进行情感分析。
发明内容
本发明提供一种用于多领域的文本情感分类方法,用于对文本的情感极性进行分类,提升情感分析结果的准确性。
为实现上述效果,本发明的技术方案如下:
一种用于多领域的文本情感分类方法,包括以下步骤:
S1:获取目标领域带标签的文本数据并进行预处理,对将预处理后的文本数据输入到文本情感分类模型预设的词嵌入层,利用词嵌入、段嵌入和位置嵌入将文本数据进行向量化处理,得到词向量序列,所述词向量序列为词向量、段向量、位置向量;
所述文本情感分类模型由依次连接的词嵌入层、ALBERT模型、多任务层和分类器组成;
S2:对词嵌入层进行训练,在ALBERT模型中嵌入用于文本主题信息提取的LDA模型,在LDA模型中融合K-means聚类算法;
S3:将词向量序列输入至LDA模型中进行无监督训练,提取文本主题信息,得到“文档-主题”分布的主题特征向量;
S4:将主题特征向量输入到K-means聚类算法进行二次聚类后,使用余弦相似度输出最优的主题特征向量;通过吉布斯采样方法迭代抽样,LDA模型收敛后得到“主题-词”分布和“评论-主题”分布;
S5:对文本情感分类模型训练,将通过训练后的文本情感分类模型计算情感分类标签的情感概率,将情感概率最大的标签作为目标数据标签,从而实现跨领域的文本情感分类。
实现同时从多个领域中学习跨域知识并迁移到目标域的深度学习方法,使模型在目标领域快速、准确的获得情感标签。
进一步的,步骤S1之后还包括:构建词典:将token序列、训练使用的特殊字符作为词典;预留99个未使用的占位符,即[unused1]到[unused99]。
进一步的,步骤S1中预处理具体为:
对文本数据进行规范化处理,并移除URL链接、移除停用词、将表情符号替换为其原始文本形式。
进一步的,所述规范化处理为:从网络中获取文本数据,对文本数据进行情感极性标注后进行删除空数据、删除重复数据、删除非文本数据、删除无意义符号数据操作。
进一步的,步骤S1中利用词嵌入、段嵌入和位置嵌入将文本数据进行向量化处理,得到词向量序列,具体为:
将文本数据作为输入向量输入到词嵌入层,输出特征向量Wij;特征向量Wij输入到ALBERT模型提取上下文特征,输出每个输入向量对应的表征特征向量,所述表征特征向量/>为词向量序列。
进一步的,所述文本情感分类模型由依次连接的词嵌入层、ALBERT模型、多任务层和分类器组成;具体为:
词嵌入层:作为输入,实现文本向量化;预处理后的文本数据经过词嵌入、段嵌入、位置嵌入和主题嵌入后,每个词被映射成4个输出的特征向量;特征向量为:词向量、段向量、位置向量、主题特征向量;
ALBERT模型:由双向Transformer网络结构组成;将词嵌入层输出的特征向量作为ALBERT模型的输入,词嵌入层输出的特征向量经过ALBERT模型提取上下文特征,用于对目标领域数据检测,输出每个输入向量对应的表征特征向量;使用LDA模型对输入文本进行主题信息提取;
多任务层:ALBERT模型通过句子顺序预测SOP和掩码语言模型任务在大量无标签数据上学习参数;保留了句子顺序预测SOP任务和掩码语言模型任务,添加了情感分类任务;掩码语言模型(MLM)任务是指ALBERT模型将输入文本随机抽取15%的词进行掩蔽(Mask),被掩蔽掉的词有80%概率用[MASK]符号替换,有10%的概率被替换成数据集中任意词汇,有10%概率不做任何改变,掩码语言模型(MLM)任务是为解决语义单项的问题;ALBERT模型输出的[CLS]作为情感分类(SC)任务的输入;通过Dropout,随机丢弃一部分ALBERT模型中的隐含节点,减少特征的数量,防止过拟合;
Softmax分类器:Softmax分类器将权重概率设置在[0,1]区间;向量表征经过Transformer网络的自注意力机制映射至情感分类空间,得到情感概率的分布。
进一步的,步骤S2所述对词嵌入层进行训练,具体包括以下步骤:
S21:获取无标签文本数据,使用jieba分词,将无标签文本数据中的每个句子切分成单个的词序列;
S22:使用WordPiece模型将词序列转化成WordPiece向量序列;
S23:判断是否有新的句子输入,如果有新的句子输入,则使用WordPiece模型将新的句子转化成WordPiece向量序列;如果没有新的句子输入,则终止;
S24:判断无标签文本数据中每个句子的序列长度是否超过最大序列长度的值,若长度超过最大序列长度,则将句子截断为前序列和后序列,保留前序列;对于句子长度小于最大序列长度的句子进行补齐操作;
S25:对标签文本数据中的每个句子对进行编码,遍历WordPiece向量序列,在每个句子的句首和句尾分别加入[CLS]、[SEP]字符;
S26:输出带有[CLS]和[SEP]字符的token序列,把每个词的位置向量与词向量叠加,根据句子长度,按照顺序对每个词进行位置编码,获得位置编码的输出结果;将词向量、段向量、位置向量求和,得到了一个包含位置信息的词向量求和结果,得到训练好的词嵌入层。
进一步的,步骤S4具体为:
将词向量序列输入至LDA模型中进行无监督训练,利用潜在迪利克雷分布提取样本向量的共同特征,得到中间变量,将LDA模型产生的中间变量输入到K-means聚类算法,给每组词向量分配一个可表示整组向量特征的主题特征向量;将主题特征向量与词嵌入层输出的词向量、段向量和位置向量融合,得到融合向量,将融合向量输入到ALBERT模型,输出余弦相似度,余弦相似度通过计算两个向量的夹角余弦值来评估相似度;余弦相似度将融合向量根据坐标值,绘制到向量二维空间;
文本数据用表示,/>是评论的数量,/>是评论向量,符合“评论-主题”分布;每条评论分配给词的隐含主题份额为/>,每条评论含有/>个句子、/>个词语,每一个词都有一个潜在主题;/>是评论文本的词向量形式;/>是“主题-词”分布,K是主题的数量;和/>分别代表“评论-主题”和“主题-词”服从先验Dirichlet分布的超参数;“评论-主题”分布公式P为:
进一步的,步骤S5具体为:
将词向量、段向量、位置向量以及LDA模型输出的主题特征向量输入ALBERT模型,构建Softmax分类器,将权重概率化在[0,1]区间,实现情感极性的分类;向量表征经过Transformer网络的自注意力机制映射至情感分类空间,得到情感概率分布;取句子的第一个词元[CLS]利用Softmax分类器做分类任务;训练后的文本情感分类模型通过计算情感分类标签的情感概率,将情感概率最大的标签作为目标数据标签,从而实现跨领域的文本情感分类。
进一步的,所述向量表征经过Transformer网络的自注意力机制映射至情感分类空间,得到情感概率分布,具体为:
向量表征T经过Transformer网络的自注意力机制映射至情感分类空间,得到情感概率P的分布:/>
式中,和/>为要学习的参数向量和偏置;取概率最大的情感极性为预测结果;Softmax分类器Pi计算公式为:/>
式中,是向量,/>和/>是向量矩阵中的一个元素,/>为矩阵的维度。
与现有技术相比,本发明技术方案的有益效果是:
实现同时从多个领域中学习跨域知识并迁移到目标域的深度学习方法,使模型在目标领域快速、准确的获得情感标签。
本发明用于对文本的情感极性进行分类,提升情感分析结果的准确性;将ALBERT预训练模型学习到的文本向量作为LDA模型的输入,解决了传统LDA模型无法结合上下文抽取情感特征的问题。将LDA模型与K-means聚类算法结合,改善了LDA模型在小样本中准确率较低的问题。同时,将LDA模型输出的主题特征向量与ALBERT模型的词向量融合,极大的提升了文本情感分类模型性能。
附图说明
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
图1为本发明实施例提供的文本情感分类方法的示意图;
图2是本发明文本词嵌入层训练方法流程图;
图3是本发明文本情感分类模型的训练方法的实现流程图;
图4是本发明实施例文本情感分类模型总体架构示意图;
图5是本发明文本情感分类模型的LDA模型+K-means聚类算法的结构示意图;
图6是本发明Transformer网络的结构示意图;
图7是本发明实施例ALBERT模型架构示意图;
图8是本发明实施例不同训练集占比下的模型效果折线图;
图9是本发明实施例不同epoch下不同模型精确率变化折线图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都是本发明保护的范围。
实施例
为了便于理解,请参阅图1,本发明提供的一种用于多领域的文本情感分类方法的一个实施例,包括以下步骤:
S1:获取目标领域带标签的文本数据并进行预处理,对将预处理后的文本数据输入到文本情感分类模型预设的词嵌入层,利用词嵌入、段嵌入和位置嵌入将文本数据进行向量化处理,得到词向量序列(即词嵌入层输出的特征向量),所述词向量序列为词向量、段向量、位置向量;
所述文本情感分类模型由依次连接的词嵌入层、ALBERT模型、多任务层和分类器组成;
S2:对词嵌入层进行训练,在ALBERT模型中嵌入用于文本主题信息提取的LDA模型,在LDA模型中融合K-means聚类算法;
S3:将词向量序列输入至LDA模型中进行无监督训练,提取文本主题信息,得到“文档-主题”分布的主题特征向量;即LDA模型使用每个主题的高频词分布与评论之间的余弦相似度(余弦距离)计算主题特征向量;
S4:将主题特征向量输入到K-means聚类算法进行二次聚类后,使用余弦相似度输出最优的主题特征向量,得到更加准确的主题情感信息;通过吉布斯采样方法迭代抽样,LDA模型收敛后得到“主题-词”分布和“评论-主题”分布;
S5:对文本情感分类模型训练,将通过训练后的文本情感分类模型计算情感分类标签的情感概率,将情感概率最大的标签作为目标数据标签,从而实现跨领域的文本情感分类。
基于预训练模型降低训练时间和算力成本;用户的情感复杂,评论文本中包含众多诸如暗讽等隐含情感,传统机器学习无法分辨;而深度学习需要海量的样本、对算力要求高等原因,导致训练成本居高不下。本发明方法可以适用于等文本的情感分类,有助于相关部门更加准确地掌握公共事件的舆论倾向。
可以理解的是,ALBERT模型是基于BERT模型改进而来,通过参数缩减来减小模型的大小。ALBERT模型的词嵌入层是一个矩阵,输入是字典的大小,即30K,输出等于隐藏层单元的个数即H;因此,词嵌入层一共可学个参数;ALBERT的输入包含了词向量信息,段落信息(段向量),位置向量,此外分别在文本输入的开头和结尾加入了CLS和SEP标记。
本发明通过在ALBERT模型中嵌入LDA模型实现文本二次聚类,极大提高了模型的分类效果;LDA模型的具体结构如下图5所示;为了提高LDA模型提取主题信息的利用率,本发明在LDA模型中融合K-means聚类算法,将LDA模型提取的“文档-主题”分布作为K-means聚类算法的输入;将LDA模型中“文档-主题”分布的潜在主题信息经过K-means聚类算法二次聚类后,使用余弦相似度输出最优的主题特征向量;因为LDA模型自身的局限性,导致输出主题特征向量与文本语句以及词的顺序无关,而ALBERT模型有位置嵌入等模块可充分考虑上下文的总体语义信息、词语位置顺序的关系以及文本中的词语出现的次数,所以本发明将ALBERT模型的词嵌入层降维生成的矩阵作为LDA模型的输入,以提高LDA模型的情感主题提取能力。
需要说明的是,LDA模型是以概率分布的形式给出文本数据中每个文档分配一个主题词的一种贝叶斯模型,经过不断迭代更新每个主题词,根据“评论-主题”分布进行文本分类以及主题聚类;LDA模型是一种具有清晰层次结构的概率图模型,最外层是文档集合层、文档层和词层。
需要说明的是,K-means聚类算法的基本逻辑是先定义质心个数,然后对象经过不断循环分配到最近的质心;在每一步中,都需要重新计算个新的质心,然后重新分配对象,直到不再进行任何更改;为了提高LDA提取主题信息的利用率,本发明在LDA模型中融合K-means聚类算法,将LDA提取的“文档-主题”分布作为K-means聚类算法的输入。
作为优选的技术方案,本实施例中,步骤S1之后还包括:构建词典:将token序列、训练使用的特殊字符作为词典;预留99个未使用的占位符,即[unused1]到[unused99],新增词使用99个占位符,不破坏文本情感分类模型的embedding,如使用[unused1]代表空格;其中,特殊字符为[PAD]、[CLS]、[SEP]、[MASK]、[UNK]等。
作为优选的技术方案,本实施例中,步骤S1中预处理具体为:对文本数据进行规范化处理,并移除URL链接、移除停用词、将表情符号替换为其原始文本形式。其中,对文本数据划分训练集和测试集,其中训练集从正负情感文本数据中各随机抽取90%,测试集为剩下的10%,保证数据不重复更加准确地反应分类效果。
作为优选的技术方案,本实施例中,所述规范化处理为:从网络中获取文本数据,对文本数据利用人工进行情感极性标注后进行删除空数据、删除重复数据、删除非文本数据、删除无意义符号数据操作。
作为优选的技术方案,本实施例中,步骤S1中利用词嵌入、段嵌入和位置嵌入将文本数据进行向量化处理,得到词向量序列,具体为:
将文本数据作为输入向量输入到词嵌入层,输出特征向量Wij;特征向量Wij输入到ALBERT模型提取上下文特征,输出每个输入向量对应的表征特征向量,所述表征特征向量/>为词向量序列。
作为优选的技术方案,本实施例中,如图4,所述文本情感分类模型由依次连接的词嵌入层、ALBERT模型、多任务层和分类器组成;具体为:
词嵌入层:作为输入,实现文本向量化;预处理后的文本数据经过词嵌入(wordembedding)、段嵌入(positionembedding)、位置嵌入(segmentembedding)和主题嵌入后,每个词被映射成4个输出的特征向量;特征向量为:词向量、段向量、位置向量、主题特征向量;
ALBERT模型:由双向Transformer网络结构组成;将词嵌入层输出的特征向量作为ALBERT模型的输入,词嵌入层输出的特征向量经过ALBERT模型提取上下文特征,用于对目标领域数据检测,输出每个输入向量对应的表征特征向量;使用LDA模型对输入文本进行主题信息提取;
多任务层:ALBERT模型通过句子顺序预测SOP和掩码语言模型(MLM)任务在大量无标签数据上学习参数;保留了原ALBERT模型的句子顺序预测SOP任务和掩码语言模型(MLM)任务,添加了情感分类(SC)任务;掩码语言模型(MLM)任务是指ALBERT模型将输入文本随机抽取15%的词进行掩蔽(Mask),被掩蔽掉的词有80%概率用[MASK]符号替换,有10%的概率被替换成数据集中任意词汇,有10%概率不做任何改变,掩码语言模型(MLM)任务是为解决语义单项的问题;ALBERT模型输出的[CLS]作为情感分类(SC)任务的输入;通过Dropout,随机丢弃一部分ALBERT模型中的隐含节点,减少特征的数量,防止过拟合;本发明使用ALBERT与LDA和K-means模型结合形成ALBERT-LDA-K-means(文本分类)模型,用于对评论的情感极性进行分类。
Softmax分类器:Softmax分类器将权重概率设置在[0,1]区间;向量表征经过Transformer网络的自注意力机制映射至情感分类空间,得到情感概率的分布。
需要说明的是,ALBERT模型结构如图7所示,Trm表示ALBERT模型的Transformer网络,E表示特征向量,T表示向量表征;ALBERT模型由双向Transformer网络的编码器结构组成,其中Transformer网络结构如图6所示;ALBERT可在大规模数据集进行无监督的预训练以获得大量先验参数,随后在某一领域有标签数据集上进一步训练;大量实验表明,当数据量不足时,微调预训练好的模型将预训练学习到的情感参数迁移到小样本数据集中,获得更好的分类效果。ALBERT是由12个Transformer网络的编码器模块堆叠在一起组成模型;每个编码器的输入token embedding、segment embedding和position embedding;将Transformer网络模型中的input embedding拆分为token embedding、segmentembedding;将Transformer网络中的position Encoding修改为Position embedding。
作为优选的技术方案,本实施例中,如图2,步骤S2所述对词嵌入层进行训练,具体包括以下步骤:
S21:通过爬虫及开源库获取大量无标签文本数据,使用jieba分词,将无标签文本数据中的每个句子切分成单个的词序列;
S22:使用WordPiece模型将词序列转化成WordPiece向量序列;
S23:判断是否有新的句子输入,如果有新的句子输入,则使用WordPiece模型将新的句子转化成WordPiece向量序列;如果没有新的句子输入,则终止;
S24:判断无标签文本数据中每个句子的序列长度是否超过最大序列长度(max_seq_length)的值,若长度超过最大序列长度(max_seq_length),则将句子截断为前序列和后序列,保留前序列;对于句子长度小于最大序列长度(max_seq_length)的句子进行补齐操作;
S25:对标签文本数据中的每个句子对进行编码,遍历WordPiece向量序列,在每个句子的句首和句尾分别加入[CLS]、[SEP]字符;
S26:输出带有[CLS]和[SEP]字符的token序列,把每个词的位置向量与词向量叠加,根据句子长度,按照顺序对每个词进行位置编码,获得位置编码的输出结果;将词向量、段向量、位置向量求和,得到了一个包含位置信息的词向量求和结果,得到训练好的词嵌入层。
需要说明的是,得到了一个包含位置信息的词向量求和结果后,完成文本情感分类模型的输入词嵌入,对词向量进行深入的操作,学习数据集的文本序列参数信息。Token在词法分析中是标记的意思,自然语言处理中,一般来说,Token代表“词”;自然语言预处理中,一个很重要的步骤就是将收集的句子进行分词,将一个句子分解成“词”的列表。
其中,位置编码仅包含词语的位置信息,和句子的上下文语义无关,对于不同的输入序列来说,虽然输入序列的内容各不相同,但是它们的位置编码却是相同的,所以位置编码的结果向量和实际句子中传的什么词无关,无论传的数据内容是什么,它们的位置编码均是一样的。
作为优选的技术方案,本实施例中,步骤S4具体为:将词嵌入层输出的向量数据集输入至LDA模型+K-means聚类算法中;本发明通过在ALBERT模型中嵌入LDA模型+K-means聚类算法实现文本二次聚类,极大提高了模型的分类效果。将词向量序列输入至LDA模型中进行无监督训练,利用潜在迪利克雷分布提取样本向量的共同特征,得到中间变量,将LDA模型产生的中间变量输入到K-means聚类算法,给每组词向量分配一个可表示整组向量特征的主题特征向量;将主题特征向量与词嵌入层输出的词向量、段向量和位置向量融合,得到融合向量,将融合向量输入到ALBERT模型,输出余弦相似度(又称为余弦相似性),余弦相似度通过计算两个向量的夹角余弦值来评估相似度;余弦相似度将融合向量根据坐标值,绘制到向量二维空间;
以评论为例,如图5,LDA模型结构中的单个圆圈代表潜在变量,双圆表示可观测变量,矩形表示重复采样(右下角字母为重复采样的次数),箭头表示两个变量之间的依赖关系。文本数据(即评论向量集)用表示,/>是评论的数量,/>是评论向量,符合“评论-主题”分布;每条评论分配给词的隐含主题份额为/>,每条评论含有/>个句子、/>个词语,每一个词都有一个潜在主题;/>是评论文本的词向量形式;/>是“主题-词”分布,K是主题的数量;/>和/>分别代表“评论-主题”和“主题-词”服从先验Dirichlet分布的超参数;“评论-主题”分布公式P为:
作为优选的技术方案,本实施例中,步骤S5具体为:将词向量、段向量、位置向量以及LDA模型输出的主题特征向量输入ALBERT模型,构建Softmax分类器,将权重概率化在[0,1]区间,实现情感极性的分类;向量表征经过Transformer网络的自注意力机制映射至情感分类空间,得到情感概率分布;取句子的第一个词元[CLS]利用Softmax分类器做分类任务;训练后的文本情感分类模型通过计算情感分类标签的情感概率,将情感概率最大的标签作为目标数据标签,从而实现跨领域的文本情感分类。
作为优选的技术方案,本实施例中,所述向量表征经过Transformer网络的自注意力机制映射至情感分类空间,得到情感概率分布,具体为:
向量表征T经过Transformer网络的自注意力机制映射至情感分类空间,得到情感概率P的分布:/>
式中,和/>为要学习的参数向量和偏置;取概率最大的情感极性为预测结果;Softmax分类器Pi计算公式为:/>
式中,是向量,/>和/>是向量矩阵中的一个元素,/>为矩阵的维度。
作为优选的技术方案,本实施例中,ALBERT模型的编码器选用Transformer网络,如图6,文本数据经过词嵌入层转化为词向量序列作为ALBERT模型中Transformer网络的输入;因为Transformer网络的自注意力机制无法对输入的文本数据的位置信息进行建模,所以将文本数据作为输入编码在输入后经过位置编码(Positional Encoding)添加文本位置信息;随后,为解决信息传递过程中记忆偏差问题,输入的词向量序列作为残差连接输入残差连接&归一化层;为降低训练难度,使文本情感分类模型更加关注差异性信息,Transformer网络将文本情感分类模型的输入与上一层的输出进行加和,随后进行层归一处理;同时输入序列分别作为keys、value、query输入到Transformer网络的多头注意力机制(Multi-HeadAttention)中,公式如下所示:
式中,K、V和Q分别指代键矩阵(keys)、值矩阵(value)和查询矩阵(query),三者都是相同的输入词向量矩阵;每个Transformer网络中的多头注意力机制数量为,文本情感分类模型中含有12个编码器,每个编码器含有12个多头注意力机制块;是权重矩阵;Softmax分类器计算出一个词对其他词的权重系数,利用Transformer网络学习到的语法结构和语义信息对文本情感进行分类;在文本情感分类模型中,Transformer网络的自注意力机制的输出公式如下所示:
式中,是用于稳定模块训练梯度的调和因子;如图6,第一个残差连接&归一化层的输出作为前馈神经网络的输入,前馈神经网络的输出再经过下一个残差连接&归一化层后输出;/>是叠加的层数,ALBERT模型总共使用了12层;Transformer网络可并行抽取文本特征,然后将文本特征通过全连接层映射到样本标记空间。
词向量矩阵输入Transformer网络,其Transformer网络的自注意力机制科学系的参数为4H;首先经过多头Transformer网络的自注意力机制,将Q(query)、K(key)、V(value)分别做一次投影,每次投影的维度为64,用头的个数A乘维度64得到H;将Q、K、V的三个投影矩阵的头合并,得到一个H×H的矩阵,得到输出后在做一次投影,得到一个H×H的矩阵;随后通过多层感知机(MLP)部分,MLP中含有两个全连接层,第一层输入H输出4H,第二层输入4H输出H,即每个矩阵的大小为H×4H,两个即为8H2;这些为一个Transformer网络块的参数,乘编码器个数L后得到总参数量为词嵌入层参数量加双向Transformer网络参数量,为
利用Transformer网络输出的表征项链做训练任务;词语预测任务,随机掩盖语句中15%的token,被掩盖的token中有10%的概率替换为其他token,有10%的概率不做任何改变,有80%的概率使用[MASK]字符替换;然后将被掩盖token位置输出的最终隐层向量经过Softmax分类器,来预测被掩盖的token;句子连贯性预测任务,具体来说,其正例与NSP相同,但负例通过选择一篇文档中的两个连续的句子并将它们的顺序交换构造的;这样两个句子就会有相同的话题,文本情感分类模型学习到的就更多是句子间的连贯性;用于句子级别的预测(SOP);SOP聚焦于句间连贯,用于解决下一个词句预测NSP损失低效的问题。
可以理解的是,ALBERT与BERT的模型结构都是由多个Transformer网络层叠加构成;ALBERT在BERT模型的基础上增加了分解嵌入参数化和跨层参数共享两个机制;分解嵌入参数化:添加参数中介,将原BERT中隐藏层和词汇词嵌入层的大小解绑,其方法就是将体积较大的嵌入矩阵分解为两个小型矩阵,将BERT中隐藏层和词嵌入层同为768,修改为隐藏层768,词嵌入层128;跨层参数共享:隐藏层中每一层的参数都保持一致,本发明使用的方法是跨层共享所有参数;
ALBERT模型参数量的计算公式为:
式中,H代表隐藏层维度,E代表词向量维度,V代表词表大小;在BERT模型中,隐藏层维度和词嵌入维度都是768;在ALBERT模型中,词嵌入维度降低为128;所以词嵌入因式分解机制的加入,极大降低BERT模型的参数量。
在Token Embedding部分,在每个句子句首添加[CLS]符号,在每个句子句末添加[SEP]符号;其中,[CLS]向量后期作为二分类任务的输入,但是[CLS]并不代表整个句子的语义信息;在Segment Embedding部分,使用Token Embedding部分添加的[SEP]符号分隔两个句子,[SEP]符号前的词语用“0”表示,[SEP]符号后的词语用“1”表示;用于学习句子顺序的参数;在Position Embedding部分,给句子的每个词语从“0”至“511”编号;用于学习词语位置的参数;
因为文本情感分类模型预训练使用的是大量无标签的数据集,所以使用无监督的方法进行训练;本发明提出的训练方法使用无监督目标函数进行训练,即自编码模型;将原始文本数据集进行损坏,随后参考上下文信息预测并还原文本。
使用Transformer网络做编码器相比Bi-LSTM,叠加更深的层数、更好的并行处理;并且线性的Transformer网络比LSTM更不容易收到掩盖标记的影响,只需要通过Transformer网络的自注意力机制来减小掩盖标记的权重即可,而LSTM类似黑盒模型,很难确定其内部对于掩盖标记的处理方式;只使用Transformer网络学习大量token级别的特征参数是不足以构建一个迁移性足够强的文本情感分类模型;因此,增加学习一些句子级的模式;文本情感分类模型初次训练,将大量无标签样本对预先构建的文本情感分类模型进行初次训练,所述数据集输入词嵌入层网络进行无监督训练;将少量目标领域目标任务的带标签样本输入文本情感分类模型,其中,文本情感分类模型识别样本属于哪个领域,并利用样本中的标签,学习目标领域和目标任务的相关特征,得到训练好的情感分类模型;
作为优选的技术方案,本实施例中,为验证ALBERT模型+LDA模型+K-means聚类算法的效果,本发明在相同的文本数据上分别对5个对比模型迭代训练10次,记录每次迭代的测试集准确率、召回率以及F1值,能够直观反映模型的优劣。选取的对比模型分别为:
1) CNN:卷积神经网络是一种特殊的前向神经网络,模型使用基于文字的word2vec表示,使用两个串行卷积层捕捉局部语义特征。在最后一个卷积层的顶部放置一个随时间变化的最大池层,以选择全局语义特征。使用带脱落的完全连接层来总结特征。
2) LSTM:长短期记忆,使用Word2vec训练词向量,利用长短期记忆网络提取文本语义信息,随后采用Softmax分类器对情感极性进行分类。
3) BERT-base:使用双向Transformer网络结构提取文本特征,实现情感分类。模型参数使用Google发布的bert-base-chinsese原始参数。
4) BERT-LDA:将BERT输出的特征向量作为LDA模型的输入,随后将LDA模型输出的主题特征向量与BERT词嵌入的输出的特征向量融合,经过迭代训练后进行情感分类。
5) ALBERT-base:通过层参数共享、句子连贯以及降低嵌入维度等机制优化后的一种BERT模型,将词嵌入层提取的文本特征信息输入全连接层后,经过Softmax分类器实现分类。
作为优选的技术方案,本实施例中,训练集占总文本数据的比例与模型效果的关系如图8,可以看出,在训练集较少的情况下,该模型仍能取得较好的训练效果,其原因是ALBERT在预训练阶段就学习了大量有用的参数。随着训练训练集的增加,准确率和召回率模型效果显著提升,因此本发明按照9:1的比例划分训练集和测试集。五组对比试验在相同实验环境下产生的实验结果,如表1所示:
表1不同模型下的实验结果
从表1可以看出,本发明提出的文本情感分类模型在评论文本数据中的三个参数均优于CNN、LSTM、BERT-base、BERT-LDA和ALBERT-base模型。LSTM在一定层度上解决了传统深度学习针对长文本训练时产生的梯度消失以及梯度爆炸问题,所以LSTM算法在长文本情感分类任务上的准确率略高于CNN。由于BERT模型使用全新的双向Transformer网络结构,且经过海量中外文文本数据的预训练,从根本上解决了传统深度学习算法参数遗忘的问题,学习到了大量文本语法结构的参数信息,因此带有BERT结构的模型分类效果优于传统卷积神经网络(CNN)和基于词嵌入的长短期记忆神经网络(LSTM)模型。本发明提出的文本情感分类模型是在ALBERT模型的基础上融合了LDA-K-means聚类算法输出的文本主题特征向量,增强了文本情感分类模型的情感信息获取能力,所以在情感分类任务上的精确率高于ALBERT模型。融合了主题特征向量的新算法与BERT模型相比,准确率提高了3.85%,召回率提高了5.92%,F1值提高了6.36%。本发明通过实验分析了迭代次数从0至10期间,该文本情感分类模型和五组对比模型的准确率变化趋势。实验迭代次数与准确率的关系如图9所示:
从图9可以看出,该方法相比其他模型损失收敛快,在训练集和测试集上都取得了不错的效果,特别是迭代次数少的情况下,该文本情感分类模型就能获得较好的分类效果,这点传统深度学习所不具备的。相较其他模型,随着迭代次数不断增加,文本情感分类模型的准确率收敛快且平稳。文本情感分类模型在第8次迭代时便已经学到最优参数。综上所述,本发明提出的ALBERT模型+LDA模型+K-means聚类算法在情感分析领域相比其他模型在精确率和召回率等评价指标上均有较大的提升。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种用于多领域的文本情感分类方法,其特征在于,包括以下步骤:
S1:获取目标领域带标签的文本数据并进行预处理,对将预处理后的文本数据输入到文本情感分类模型预设的词嵌入层,利用词嵌入、段嵌入和位置嵌入将文本数据进行向量化处理,得到词向量序列,所述词向量序列为词向量、段向量、位置向量;
所述文本情感分类模型由依次连接的词嵌入层、ALBERT模型、多任务层和分类器组成;
S2:对词嵌入层进行训练,在ALBERT模型中嵌入用于文本主题信息提取的LDA模型,在LDA模型中融合K-means聚类算法;
S3:将词向量序列输入至LDA模型中进行无监督训练,提取文本主题信息,得到“文档-主题”分布的主题特征向量;
S4:将主题特征向量输入到K-means聚类算法进行二次聚类后,使用余弦相似度输出最优的主题特征向量;通过吉布斯采样方法迭代抽样,LDA模型收敛后得到“主题-词”分布和“评论-主题”分布;
S5:对文本情感分类模型训练,将通过训练后的文本情感分类模型计算情感分类标签的情感概率,将情感概率最大的标签作为目标数据标签,从而实现跨领域的文本情感分类。
2.根据权利要求1所述一种用于多领域的文本情感分类方法,其特征在于,步骤S1之后还包括:构建词典:将token序列、训练使用的特殊字符作为词典;预留99个未使用的占位符,即[unused1]到[unused99]。
3.根据权利要求1所述一种用于多领域的文本情感分类方法,其特征在于,步骤S1中预处理具体为:
对文本数据进行规范化处理,并移除URL链接、移除停用词、将表情符号替换为其原始文本形式。
4.根据权利要求3所述一种用于多领域的文本情感分类方法,其特征在于,所述规范化处理为:从网络中获取文本数据,对文本数据进行情感极性标注后进行删除空数据、删除重复数据、删除非文本数据、删除无意义符号数据操作。
5.根据权利要求1所述一种用于多领域的文本情感分类方法,其特征在于,步骤S1中利用词嵌入、段嵌入和位置嵌入将文本数据进行向量化处理,得到词向量序列,具体为:
将文本数据作为输入向量输入到词嵌入层,输出特征向量Wij;特征向量Wij输入到ALBERT模型提取上下文特征,输出每个输入向量对应的表征特征向量E(ω+δ+ρ),所述表征特征向量E(ω+δ+ρ)为词向量序列。
6.根据权利要求1所述一种用于多领域的文本情感分类方法,其特征在于,所述文本情感分类模型由依次连接的词嵌入层、ALBERT模型、多任务层和分类器组成;具体为:
词嵌入层:作为输入,实现文本向量化;预处理后的文本数据经过词嵌入、段嵌入、位置嵌入和主题嵌入后,每个词被映射成4个输出的特征向量;特征向量为:词向量、段向量、位置向量、主题特征向量;
ALBERT模型:由双向Transformer网络结构组成;将词嵌入层输出的特征向量作为ALBERT模型的输入,词嵌入层输出的特征向量经过ALBERT模型提取上下文特征,用于对目标领域数据检测,输出每个输入向量对应的表征特征向量;使用LDA模型对输入文本进行主题信息提取;
多任务层:ALBERT模型通过句子顺序预测SOP和掩码语言模型任务在大量无标签数据上学习参数;保留了句子顺序预测SOP任务和掩码语言模型任务,添加了情感分类任务;掩码语言模型任务是指ALBERT模型将输入文本随机抽取15%的词进行掩蔽,被掩蔽掉的词有80%概率用[MASK]符号替换,有10%的概率被替换成数据集中任意词汇,有10%概率不做任何改变;ALBERT模型输出的[CLS]作为情感分类任务的输入;通过Dropout,随机丢弃一部分ALBERT模型中的隐含节点,减少特征的数量,防止过拟合;
Softmax分类器:Softmax分类器将权重概率设置在[0,1]区间;向量表征经过Transformer网络的自注意力机制映射至情感分类空间,得到情感概率的分布。
7.根据权利要求1所述一种用于多领域的文本情感分类方法,其特征在于,步骤S2所述对词嵌入层进行训练,具体包括以下步骤:
S21:获取无标签文本数据,使用jieba分词,将无标签文本数据中的每个句子切分成单个的词序列;
S22:使用WordPiece模型将词序列转化成WordPiece向量序列;
S23:判断是否有新的句子输入,如果有新的句子输入,则使用WordPiece模型将新的句子转化成WordPiece向量序列;如果没有新的句子输入,则终止;
S24:判断无标签文本数据中每个句子的序列长度是否超过最大序列长度的值,若长度超过最大序列长度,则将句子截断为前序列和后序列,保留前序列;对于句子长度小于最大序列长度的句子进行补齐操作;
S25:对标签文本数据中的每个句子对进行编码,遍历WordPiece向量序列,在每个句子的句首和句尾分别加入[CLS]、[SEP]字符;
S26:输出带有[CLS]和[SEP]字符的token序列,把每个词的位置向量与词向量叠加,根据句子长度,按照顺序对每个词进行位置编码,获得位置编码的输出结果;将词向量、段向量、位置向量求和,得到了一个包含位置信息的词向量求和结果,得到训练好的词嵌入层。
8.根据权利要求1所述一种用于多领域的文本情感分类方法,其特征在于,步骤S4具体为:
将词向量序列输入至LDA模型中进行无监督训练,利用潜在迪利克雷分布提取样本向量的共同特征,得到中间变量,将LDA模型产生的中间变量输入到K-means聚类算法,给每组词向量分配一个可表示整组向量特征的主题特征向量;将主题特征向量与词嵌入层输出的词向量、段向量和位置向量融合,得到融合向量,将融合向量输入到ALBERT模型,输出余弦相似度,余弦相似度通过计算两个向量的夹角余弦值来评估相似度;余弦相似度将融合向量根据坐标值,绘制到向量二维空间;
文本数据用D={di|i∈{1,2,...,M}}表示,d是评论的数量,θ是评论向量,符合“评论-主题”分布;每条评论分配给词的隐含主题份额为z,每条评论含有S个句子、N个词语,每一个词都有一个潜在主题;w是评论文本的词向量形式;是“主题-词”分布,K是主题的数量;α和β分别代表“评论-主题”和“主题-词”服从先验Dirichlet分布的超参数;“评论-主题”分布公式P为:
9.根据权利要求1所述一种用于多领域的文本情感分类方法,其特征在于,步骤S5具体为:
将词向量、段向量、位置向量以及LDA模型输出的主题特征向量输入ALBERT模型,构建Softmax分类器,将权重概率化在[0,1]区间,实现情感极性的分类;向量表征经过Transformer网络的自注意力机制映射至情感分类空间,得到情感概率分布;取句子的第一个词元[CLS]利用Softmax分类器做分类任务;训练后的文本情感分类模型通过计算情感分类标签的情感概率,将情感概率最大的标签作为目标数据标签,从而实现跨领域的文本情感分类。
10.根据权利要求9所述一种用于多领域的文本情感分类方法,其特征在于,所述向量表征经过Transformer网络的自注意力机制映射至情感分类空间,得到情感概率分布,具体为:
向量表征T经过Transformer网络的自注意力机制映射至情感分类空间S,得到情感概率P的分布:
P=Softmax(WST+bs)
式中,WS和bS为要学习的参数向量和偏置;取概率最大的情感极性为预测结果;Softmax分类器Pi计算公式为:
式中,x是向量,xi和xj是向量矩阵中的一个元素,k为矩阵的维度。
CN202310815104.7A 2023-07-04 2023-07-04 一种用于多领域的文本情感分类方法 Pending CN117390131A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310815104.7A CN117390131A (zh) 2023-07-04 2023-07-04 一种用于多领域的文本情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310815104.7A CN117390131A (zh) 2023-07-04 2023-07-04 一种用于多领域的文本情感分类方法

Publications (1)

Publication Number Publication Date
CN117390131A true CN117390131A (zh) 2024-01-12

Family

ID=89465486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310815104.7A Pending CN117390131A (zh) 2023-07-04 2023-07-04 一种用于多领域的文本情感分类方法

Country Status (1)

Country Link
CN (1) CN117390131A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117807603A (zh) * 2024-02-29 2024-04-02 浙江鹏信信息科技股份有限公司 软件供应链审计方法、系统及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117807603A (zh) * 2024-02-29 2024-04-02 浙江鹏信信息科技股份有限公司 软件供应链审计方法、系统及计算机可读存储介质
CN117807603B (zh) * 2024-02-29 2024-04-30 浙江鹏信信息科技股份有限公司 软件供应链审计方法、系统及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN112800776B (zh) 双向gru关系抽取数据处理方法、系统、终端、介质
CN113010693A (zh) 融合指针生成网络的知识图谱智能问答方法
CN113312912B (zh) 一种用于交通基础设施检测文本的机器阅读理解方法
CN114358007A (zh) 多标签识别方法、装置、电子设备及存储介质
Sadr et al. Convolutional neural network equipped with attention mechanism and transfer learning for enhancing performance of sentiment analysis
Jiang et al. Impact of OCR quality on BERT embeddings in the domain classification of book excerpts
CN113705238A (zh) 基于bert和方面特征定位模型的方面级情感分析方法及模型
CN114821271A (zh) 模型训练方法、图像描述生成方法、装置及存储介质
CN117390131A (zh) 一种用于多领域的文本情感分类方法
Poomka et al. Machine learning versus deep learning performances on the sentiment analysis of product reviews
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
CN114154504A (zh) 一种基于多信息增强的中文命名实体识别算法
CN116629361A (zh) 基于本体学习和注意力机制的知识推理方法
CN113312903B (zh) 一种5g移动业务产品词库的构建方法及系统
Kai et al. Research on Text Summary Generation Based on Bidirectional Encoder Representation from Transformers
Sharma et al. Emotion quantification and classification using the neutrosophic approach to deep learning
Tho N/A Modern Approaches in Natural Language Processing
Domazetoski et al. Using natural language processing to extract plant functional traits from unstructured text
Bensghaier et al. Investigating the Use of Different Recurrent Neural Networks for Natural Language Inference in Arabic
Wang An unsupervised approach to relatedness analysis of legal language
Shivashankar et al. Reaching out for the Answer: Answer Type Prediction.
Dossou et al. AfriVEC: Word embedding models for African languages. case study of Fon and Nobiin
Yelisetti et al. Aspect-based Text Classification for Sentimental Analysis using Attention mechanism with RU-BiLSTM
Sun et al. Text sentiment polarity classification method based on word embedding
Larsson et al. Manifold traversal for reversing the sentiment of text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination