CN116089605A - 基于迁移学习和改进词袋模型的文本情感分析方法 - Google Patents
基于迁移学习和改进词袋模型的文本情感分析方法 Download PDFInfo
- Publication number
- CN116089605A CN116089605A CN202211490263.6A CN202211490263A CN116089605A CN 116089605 A CN116089605 A CN 116089605A CN 202211490263 A CN202211490263 A CN 202211490263A CN 116089605 A CN116089605 A CN 116089605A
- Authority
- CN
- China
- Prior art keywords
- data set
- comment data
- model
- emotion analysis
- text emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本方案涉及一种基于迁移学习和改进词袋模型的文本情感分析方法、系统、计算机设备及存储介质。所述方法包括:采集不同种类商品的各个评论数据进行预处理后得到综合评论数据集;采用MLM根据综合评论数据集预训练特征提取器bertbasechinese模型;构建特定商品评论数据集,将特定商品评论数据集输入至bertbasechinese模型中提取出特征向量;将特征向量输入至改进Bagof visualwords中,通过K‑means聚类算法对特征向量聚类后根据模糊理论进行编码,得到输出向量,并对输出向量进行归一化处理,得到文本情感分析模型;通过文本情感分析模型进行文本情感分析。通过迁移学习和Bagofvisualwords方法,能够很好的处理不断涌现的新类别商品的评论,降低文本情感分析的成本。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种基于迁移学习和改进词袋模型的文本情感分析方法、系统、计算机设备及存储介质。
背景技术
随着互联网技术的发展,网络购物群体数量在逐渐上升,截至2022年6月,网络购物用户规模达8.41亿,占网民整体的80%。面对如此之大的网络购物群体,在电商平台上每天都会产生数以亿计的评论,这些评论对于商家和消费者来说,都具有很高的参考价值。正确处理好这些宝贵的评论,对于营造一个良好的购物环境,具有重要作用。随着近年来自然语言理解领域突破性技术的涌现,学界对于文本情感分析的研究也越发的广泛而深入。传统的文本情感分析方式均是在一类商品的评论数据下训练好一个情感分析模型,从而得到该类商品评论的情感分析结果。
然而,在一类商品的评论数据下训练好一个情感分析模型时,再想把这个模型应用到其他类型的商品,由于评论数据的分布存在差异,会导致模型的效果变差。同时由于深度模型需要训练的参数很多,所以要想重新训练一个模型,又需要花费极大的成本。因此,针对不同类型商品进行分析时需要训练对应的分析模型,存在成本较高的问题。
发明内容
基于此,为了解决上述技术问题,提供一种基于迁移学习和改进词袋模型的文本情感分析方法,可以对不同类别商品的评论进行情感分析,降低了情感分析的成本。
一种基于迁移学习和改进词袋模型的文本情感分析方法,所述方法包括:
采集不同种类商品的各个评论数据,并将各个所述评论数据构建为数据集;
对所述数据集进行预处理,得到处理后的综合评论数据集;
根据所述综合评论数据集预训练特征提取器,其中,将bertbase chinese模型作为特征提取器,采用MLM在所述综合评论数据集上进行预训练;
构建特定商品评论数据集,将所述特定商品评论数据集输入至所述bert basechinese模型中,提取出特征向量;
将所述特征向量输入至改进Bag ofvisual words中,所述改进Bag ofvisualwords通过K-means聚类算法对所述特征向量聚类后根据模糊理论进行编码,得到输出向量,并对所述输出向量进行归一化处理,得到文本情感分析模型;
通过所述文本情感分析模型进行文本情感分析。
在其中一个实施例中,所述将各个所述评论数据构建为数据集,包括:
将各个所述评论数据以csv的形式保存,且每条数据包含有类别、正负标签、评论。
在其中一个实施例中,所述对所述数据集进行预处理,得到处理后的综合评论数据集,包括:
从所述数据集中取出各个所述评论数据的评论部分;
使用正则表达式的方式去掉各个所述评论部分中的无意义符号以及非中文内容,得到综合评论数据集。
在其中一个实施例中,所述将所述特定商品评论数据集输入至所述bert basechinese模型中,提取出特征向量,包括:
通过Tokenizer工具对输入的所述特定商品评论数据集中的数据进行分词,并在分词后的样本上加上Token;
获取所述bert base chinese模型在预训练时的字典,并根据所述字典将各个所述Token映射为对应的ID;
通过所述bertbase chinese模型将所述特定商品评论数据集中映射为ID的等长样本转化为数值矩阵,并提取所述特定商品评论数据集中句子的语义特征和Token的上下文信息,经过输出层输出。
在其中一个实施例中,所述采用MLM在所述综合评论数据集上进行预训练,包括:
从加上所述Token的样本中选取目标占比的目标Token;
选取第一阈值数量的所述目标Token替换为mask,选取第二阈值数量的所述目标Token替换为随机Token,选取第三阈值数量的所述目标Token保留。
在其中一个实施例中,所述构建特定商品评论数据集,包括:
获取特定商品的评论数据并构建初步特定商品评论数据集;
对所述初步特定商品评论数据集中的评论数据用正则表达式的方式进行预处理,得到处理后的特定商品评论数据集;
对所述特定商品评论数据集进行划分,构建训练集、验证集、测试集。
在其中一个实施例中,所述改进Bag ofvisual words通过K-means聚类算法对所述特征向量聚类后根据模糊理论进行编码,得到输出向量,并对所述输出向量进行归一化处理,得到文本情感分析模型,包括:
从所述训练集中抽取训练样本,通过所述bert base chinese模型进行语义特征提取,对提取出的特征使用K-means聚类的方法,得到聚类中心列表;
对提取出的特征使用所述改进Bag ofvisual words进行编码,每个样本被编码为数值向量;
将所述特征向量转化为概率值。
一种基于迁移学习和改进词袋模型的文本情感分析系统,所述系统包括:
数据采集模块,用于采集不同种类商品的各个评论数据,并将各个所述评论数据构建为数据集;
预处理模块,用于对所述数据集进行预处理,得到处理后的综合评论数据集;
预训练模块,用于根据所述综合评论数据集预训练特征提取器,其中,将bertbasechinese模型作为特征提取器,采用MLM在所述综合评论数据集上进行预训练;
特征提取模块,用于构建特定商品评论数据集,将所述特定商品评论数据集输入至所述bert base chinese模型中,提取出特征向量;
模型训练模块,用于将所述特征向量输入至改进Bag ofvisual words中,所述改进Bag ofvisual words通过K-means聚类算法对所述特征向量聚类后根据模糊理论进行编码,得到输出向量,并对所述输出向量进行归一化处理,得到文本情感分析模型;
情感分析模块,用于通过所述文本情感分析模型进行文本情感分析。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
采集不同种类商品的各个评论数据,并将各个所述评论数据构建为数据集;
对所述数据集进行预处理,得到处理后的综合评论数据集;
根据所述综合评论数据集预训练特征提取器,其中,将bert base chinese模型作为特征提取器,采用MLM在所述综合评论数据集上进行预训练;
构建特定商品评论数据集,将所述特定商品评论数据集输入至所述bert basechinese模型中,提取出特征向量;
将所述特征向量输入至改进Bag ofvisual words中,所述改进Bag ofvisualwords通过K-means聚类算法对所述特征向量聚类后根据模糊理论进行编码,得到输出向量,并对所述输出向量进行归一化处理,得到文本情感分析模型;
通过所述文本情感分析模型进行文本情感分析。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
采集不同种类商品的各个评论数据,并将各个所述评论数据构建为数据集;
对所述数据集进行预处理,得到处理后的综合评论数据集;
根据所述综合评论数据集预训练特征提取器,其中,将bert base chinese模型作为特征提取器,采用MLM在所述综合评论数据集上进行预训练;
构建特定商品评论数据集,将所述特定商品评论数据集输入至所述bert basechinese模型中,提取出特征向量;
将所述特征向量输入至改进Bag ofvisual words中,所述改进Bag ofvisualwords通过K-means聚类算法对所述特征向量聚类后根据模糊理论进行编码,得到输出向量,并对所述输出向量进行归一化处理,得到文本情感分析模型;
通过所述文本情感分析模型进行文本情感分析。
上述基于迁移学习和改进词袋模型的文本情感分析方法、系统、计算机设备及存储介质,通过采集不同种类商品的各个评论数据,并将各个所述评论数据构建为数据集;对所述数据集进行预处理,得到处理后的综合评论数据集;根据所述综合评论数据集预训练特征提取器,其中,将bert base chinese模型作为特征提取器,采用MLM在所述综合评论数据集上进行预训练;构建特定商品评论数据集,将所述特定商品评论数据集输入至所述bert base chinese模型中,提取出特征向量;将所述特征向量输入至改进Bag ofvisualwords中,所述改进Bag of visual words通过K-means聚类算法对所述特征向量聚类后根据模糊理论进行编码,得到输出向量,并对所述输出向量进行归一化处理,得到文本情感分析模型;通过所述文本情感分析模型进行文本情感分析。通过迁移学习和Bag ofvisualwords方法,能够很好的处理不断涌现的新类别商品的评论,同时在重新训练模型时,由于需要学习的参数较少,所以不仅能够减小计算的成本,而且也能成功克服小数据集的限制;此外,不需要再对特征提取器进行微调,只需要根据训练数据更新聚类中心即可,这种训练策略,在学习新知识的同时很好的保留模型以前学过的知识,减少“灾难性遗忘”问题,降低文本情感分析的成本。
附图说明
图1为一个实施例中基于迁移学习和改进词袋模型的文本情感分析方法的应用环境图;
图2为一个实施例中基于迁移学习和改进词袋模型的文本情感分析方法的流程示意图;
图3为一个实施例中训练文本情感分析器的过程示意图;
图4为一个实施例中搭建文本情感分析模型的过程示意图;
图5为一个实施例中基于迁移学习和改进词袋模型的文本情感分析系统的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述阈值数量,但这些阈值数量不受这些术语限制。这些术语仅用于将第一个阈值数量与另一个阈值数量区分。举例来说,在不脱离本申请的范围的情况下,可以将第一阈值数量称为第二阈值数量,且类似地,可将第二阈值数量称为第一阈值数量。第一阈值数量和第二阈值数量两者都是阈值数量,但其不是同一阈值数量。
本申请实施例提供的基于迁移学习和改进词袋模型的文本情感分析方法,可以应用于如图1所示的应用环境中。如图1所示,该应用环境包括计算机设备110。计算机设备110可以采集不同种类商品的各个评论数据,并将各个评论数据构建为数据集;计算机设备110可以对数据集进行预处理,得到处理后的综合评论数据集;计算机设备110可以根据综合评论数据集预训练特征提取器,其中,将bert base chinese模型作为特征提取器,采用MLM在综合评论数据集上进行预训练;计算机设备110可以构建特定商品评论数据集,将特定商品评论数据集输入至bert base chinese模型中,提取出特征向量;计算机设备110可以将特征向量输入至改进Bag ofvisual words中,改进Bag ofvisual words通过K-means聚类算法对特征向量聚类后根据模糊理论进行编码,得到输出向量,并对输出向量进行归一化处理,得到文本情感分析模型;计算机设备110可以通过文本情感分析模型进行文本情感分析。其中,计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、机器人、无人飞行器、平板电脑等设备。
在一个实施例中,如图2所示,提供了一种基于迁移学习和改进词袋模型的文本情感分析方法,包括以下步骤:
步骤202,采集不同种类商品的各个评论数据,并将各个评论数据构建为数据集。
计算机设备可以采集不同种类商品的各个评论数据,在本实施例中,采集的各个评论数据可以包含有10种类别的商品评论数据,商品评论数据可以有6万多条,包含有正向评论和负向评论各3万条左右。举例说明,采集的商品评论数据可以分别包括书籍(3851条)、平板(10000条)、手机(2323条)、水果(10000条)、洗发水(10000条)、热水器(575条)、蒙牛(2033条)、衣服(10000条)、计算机(3992条)、酒店(10000条)。计算机设备采集到各个评论数据后,可以构建数据集。
步骤204,对数据集进行预处理,得到处理后的综合评论数据集。
其中,预处理可以是针对预训练特征提取器做的操作。预训练特征提取器至需要用到数据集中的评论部分,因此处理后的综合评论数据集中仅包含有评论部分。
步骤206,根据综合评论数据集预训练特征提取器,其中,将bert base chinese模型作为特征提取器,采用MLM在综合评论数据集上进行预训练。
计算机设备可以使用由Hugging Face提供的bert base chinese模型作为特征提取器,其中,bert base chinese模型已在大型的中文语料库中进行预训练,其中大约有1.1亿个参数需要学习,所以可想而知,如果不使用迁移学习的方法,那每次重新训练一个中文情感分析模型,需要花费的计算成本是巨大的。具体的,bertbase chinese特征提取器已在大型通用语料库中预训练过了,此处为了提高特征提取器的效果,所以进一步在综合评论数据集上预训练,采用的预训练方法是MLM。
步骤208,构建特定商品评论数据集,将特定商品评论数据集输入至bert basechinese模型中,提取出特征向量。
特征提取器进一步预训练成功后,计算机设备中可以再构造特定商品评论数据集。其中,特定商品评论数据集与综合评论数据集是不一样的,特定商品评论数据集可以用来提取特征向量。在本实施例中,在训练特定商品评论的情感分析模型时,把特定商品评论数据集输入到进一步预训练的bert base chinese模型中提取特征,在训练过程中bertbase chinese模型的参数不需要再学习,即迁移学习。
步骤210,将特征向量输入至改进Bag ofvisual words中,改进Bag ofvisualwords通过K-means聚类算法对特征向量聚类后根据模糊理论进行编码,得到输出向量,并对输出向量进行归一化处理,得到文本情感分析模型。
传统的词袋模型Bag ofvisual words包含有特征提取、k-means聚类获得聚类中心、编码、归一化。而改进词袋模型即改进Bag ofvisual words在编码时,根据模糊理论进行编码。
步骤212,通过文本情感分析模型进行文本情感分析。
在本实施例中,通过迁移学习和Bag ofvisual words方法,能够很好的处理不断涌现的新类别商品的评论,同时在重新训练模型时,由于需要学习的参数较少,所以不仅能够减小计算的成本,而且也能成功克服小数据集的限制;此外,不需要再对特征提取器进行微调,只需要根据训练数据更新聚类中心即可,这种训练策略,在学习新知识的同时很好的保留模型以前学过的知识,减少“灾难性遗忘”问题,降低文本情感分析的成本。
在一个实施例中,提供一种基于迁移学习和改进词袋模型的文本情感分析方法还可以包括构建数据集的过程,具体过程包括:将各个评论数据以csv的形式保存,且每条数据包含有类别、正负标签、评论。
其中,csv的形式保存的评论数据中每一行是一条商品评论数据,每条数据包含三部分内容,分别是类别、正负标签、评论。
在一个实施例中,提供一种基于迁移学习和改进词袋模型的文本情感分析方法还可以包括数据预处理的过程,具体过程包括:从数据集中取出各个评论数据的评论部分;使用正则表达式的方式去掉各个评论部分中的无意义符号以及非中文内容,得到综合评论数据集。
在一个实施例中,提供一种基于迁移学习和改进词袋模型的文本情感分析方法还可以包括预训练特征提取器的过程,具体过程包括:通过Tokenizer工具对输入的特定商品评论数据集数据集中的数据进行分词,并在分词后的样本上加上Token;获取bert basechinese模型在预训练时的字典,并根据字典将各个Token映射为对应的ID;通过bertbasechinese模型将特定商品评论数据集中映射为ID的等长样本转化为数值矩阵,并提取特定商品评论数据集中句子的语义特征和Token的上下文信息,经过输出层输出。
Hugging Face提供了一个名为Tokenizer的工具,可以对输入的中文评论数据按字为单位进行分词,并在分词后的样本上加上特殊的token,再根据bert base chinese模型在预训练时获得的字典把每个token映射为对应的id。其中,token是指文本进行分割后的最小单元,在本实施例中可以为字。
其中,[CLS]放在句子的首位,经过特征提取器得到的表征向量C可以用于后续的分类任务;[SEP]标志放在句子的结尾;[UNK]指的是未知字符;[MASK]用于遮盖句子中的一些单词,将单词用[MASK]遮盖之后,再利用bert base chinese模型输出的[MASK]向量预测单词是什么,这也正是模型预训练的任务之一;[PAD]用来填充小于最大长度的句子,使得数据等长输入模型。
在本实施例中,bert base chinese模型由三部分组成:嵌入层(EmbeddingLayer)、Transformer的编码器和输出层。其中,嵌入层用于把映射为id的等长样本转化为[512,768]维度的数值矩阵表示;Transformer的编码器用于提取输入句子的语义特征和token的上下文信息,是一个动态的编码器;输出层对编码器的输出进行处理,以完成不同的下游任务。
在一个实施例中,提供一种基于迁移学习和改进词袋模型的文本情感分析方法还可以包括使用MLM任务进行预训练的过程,具体过程包括:从加上Token的样本中选取目标占比的目标Token;选取第一阈值数量的目标Token替换为mask,选取第二阈值数量的目标Token替换为随机Token,选取第三阈值数量的目标Token保留。
在对bert base chinese模型进一步预训练时,由于对中文文本情感分析并没有处理句子对的情况,所以只需要使用MLM任务进一步预训练模型的语义理解能力。其中,目标占比可以是15%;第一阈值数量可以是80%;第二阈值数量可以是10%;第三阈值数量可以是10%。
具体的,从加上Token的样本中选取15%的token之后,并不是所有的都替换成[mask]标记符。实际操作是:从这选出的15%部分中,将其中的80%替换成[mask];10%替换成一个随机的token;剩下的10%保留原来的token。其中,用mask_token_list列表来保存被[mask]替换掉的原token,用mask_position_list列表来保存被[mask]替换掉的原token在样本中的位置。
在一个实施例中,提供一种基于迁移学习和改进词袋模型的文本情感分析方法还可以包括特定商品评论数据集进行处理的过程,具体过程包括:获取特定商品的评论数据并构建初步特定商品评论数据集;对初步特定商品评论数据集中的评论数据用正则表达式的方式进行预处理,得到处理后的特定商品评论数据集;对特定商品评论数据集进行划分,构建训练集、验证集、测试集。
在本实施例中,特定商品可以是数码类和零食类两类,数码类商品的评论数据集有4000条评论,正、负向评论各约2000条,零食商品的评论数据集有5000条评论,正、负向评论各约2500条。对两个数据集中的评论数据用正则表达式的方法去除无意义符号和非中文内容,再分别按照80%、10%、10%的比例,对两个数据集进行划分,构建训练集、验证集和测试集。
在一个实施例中,提供的一种基于迁移学习和改进词袋模型的文本情感分析方法还可以包括改进Bag ofvisual words的处理过程,具体过程包括:从训练集中抽取训练样本,通过bert base chinese模型进行语义特征提取,对提取出的特征使用K-means聚类的方法,得到聚类中心列表;对提取出的特征使用改进Bag ofvisual words进行编码,每个样本被编码为数值向量;将特征向量转化为概率值。
其中,在训练一类商品评论的情感分析器时,从该类商品的评论数据集的训练集中,随机选择50%的样本,由进一步预训练的bertbase chinese模型对这些样本进行语义特征提取。
提取完特征后,采取K-means聚类算法对这些特征向量进行聚类。聚类完成后,得到K个聚类中心,把这些聚类中心向量保存在Centre_List列表中,这里的K等于300,Centre_List列表的长度也为300。
编码时,根据模糊理论,局部特征在与各个聚类中心计算完欧式距离后,不再只取0和1进行编码,而是根据公式m(Di,Cj)=exp(-(D(i,j)-min(D))2/σ),使用(0,1]之间的数编码。这也正是对传统Bag ofvisual words方法改进的核心和该方法能应用于自然语言处理并取得良好效果的关键。公式m(Di,Cj)=exp(-(D(i,j)-min(D))2/σ)中,m(Di,Cj)表示样本的第i个局部特征和在第j个位置的编码;D(i,j)表示样本的第i个局部特征与第j个聚类中心欧式距离;σ为超参数,可以根据模型的效果调整;min(D)表示样本的第i个局部特征与所有聚类中心的最短欧式距离。
得到样本第i个局部特征的所有位置的编码,就可以把该局部特征表示为300维的数值向量,用A(Di,Ck)表示,即样本的第i个局部特征和在第k个位置的数值向量。
编码完成后,一个样本得到300维的向量表示,用softmax函数对输出值进行归一化操作,把向量中所有与的值都转化为概率(0~1之间)值,所有概率值加起来等于1。
在一个实施例中,训练文本情感分析器的过程如图3所示,通过构建电商平台综合中文评论数据集,接着进行数据预处理,再进一步预训练特征提取器;接着,可以进行特定商品评论数据集构建、预处理、划分,构成训练集、验证集、测试集;其中,训练集可以用于后续文本情感分析过程中的特征提取,以及改进Bag ofvisual words编码;初始化模型中需要训练的参数后,可以根据训练集、验证集中的数据训练模型,并进行模型验证后保存最优参数模型,然后通过测试集中的数据测试模型,最终得到文本情感分析器。
在一个实施例中,提供的一种基于迁移学习和改进词袋模型的文本情感分析方法还可以包括搭建文本情感分析模型的过程,如图4所示,训练集中随机抽取50%的样本,用bert base chinese模型进行语义特征提取,对提取出的特征用K-means聚类的方法,得到聚类中心列表;
接着,对训练集中的所有样本用bert base chinese模型进行语义特征提取,对提取出的特征用改进Bag ofvisual words方法进行编码,每个样本被编码为一个300维的数值向量;
接着,全连接层把输入的包含所有特征信息的数值向量,转化为最终分类成各个类别的概率,此处是一个二分类任务,使用softmax函数作为激活函数,全连接层的输出包含两个神经元。在训练一个新模型时,只有此处全连接层的参数需要学习。
其中,要控制参数不学习,pytorch中关于网络的反向传播操作是基于Variable对象,Variable中有一个参数requires_grad,将requires_grad=False,网络就不会对该层计算梯度。验证模型和测试模型时,直接使用训练时产生的聚类中心,不用再K-means聚类。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种基于迁移学习和改进词袋模型的文本情感分析系统,包括:数据采集模块510、预处理模块520、预训练模块530、特征提取模块540、模型训练模块550和情感分析模块560,其中:
数据采集模块510,用于采集不同种类商品的各个评论数据,并将各个评论数据构建为数据集;
预处理模块520,用于对数据集进行预处理,得到处理后的综合评论数据集;
预训练模块530,用于根据综合评论数据集预训练特征提取器,其中,将bert basechinese模型作为特征提取器,采用MLM在综合评论数据集上进行预训练;
特征提取模块540,用于构建特定商品评论数据集,将特定商品评论数据集输入至bert base chinese模型中,提取出特征向量;
模型训练模块550,用于将特征向量输入至改进Bag ofvisual words中,改进Bagofvisual words通过K-means聚类算法对特征向量聚类后根据模糊理论进行编码,得到输出向量,并对输出向量进行归一化处理,得到文本情感分析模型;
情感分析模块560,用于通过文本情感分析模型进行文本情感分析。
在一个实施例中,数据采集模块510还用于将各个评论数据以csv的形式保存,且每条数据包含有类别、正负标签、评论。
在一个实施例中,预处理模块520还用于从数据集中取出各个评论数据的评论部分;使用正则表达式的方式去掉各个评论部分中的无意义符号以及非中文内容,得到综合评论数据集。
在一个实施例中,特征提取模块540还用于通过Tokenizer工具对输入的目标数据集中的数据进行分词,并在分词后的样本上加上Token;获取bert base chinese模型在预训练时的字典,并根据字典将各个Token映射为对应的ID;通过bertbase chinese模型将特定商品评论数据集中映射为ID的等长样本转化为数值矩阵,并提取特定商品评论数据集中句子的语义特征和Token的上下文信息,经过输出层输出。
在一个实施例中,模型训练模块550还用于使用MLM任务对bert base chinese模型进行预训练;从加上Token的样本中选取目标占比的目标Token;选取第一阈值数量的目标Token替换为mask,选取第二阈值数量的目标Token替换为随机Token,选取第三阈值数量的目标Token保留。
在一个实施例中,数据采集模块510还用于获取特定商品的评论数据并构建初步特定商品评论数据集;对初步特定商品评论数据集中的评论数据用正则表达式的方式进行预处理,得到处理后的特定商品评论数据集;对特定商品评论数据集进行划分,构建训练集、验证集、测试集。
在一个实施例中,模型训练模块550还用于从训练集中抽取训练样本,通过bertbase chinese模型进行语义特征提取,对提取出的特征使用K-means聚类的方法,得到聚类中心列表;对提取出的特征使用改进Bag ofvisual words进行编码,每个样本被编码为数值向量;将特征向量转化为概率值。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于迁移学习和改进词袋模型的文本情感分析方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
采集不同种类商品的各个评论数据,并将各个评论数据构建为数据集;
对数据集进行预处理,得到处理后的综合评论数据集;
根据综合评论数据集预训练特征提取器,其中,将bert base chinese模型作为特征提取器,采用MLM在综合评论数据集上进行预训练;
构建特定商品评论数据集,将特定商品评论数据集输入至bert base chinese模型中,提取出特征向量;
将特征向量输入至改进Bag ofvisual words中,改进Bag ofvisual words通过K-means聚类算法对特征向量聚类后根据模糊理论进行编码,得到输出向量,并对输出向量进行归一化处理,得到文本情感分析模型;
通过文本情感分析模型进行文本情感分析。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将各个评论数据以csv的形式保存,且每条数据包含有类别、正负标签、评论。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从数据集中取出各个评论数据的评论部分;使用正则表达式的方式去掉各个评论部分中的无意义符号以及非中文内容,得到综合评论数据集。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过Tokenizer工具对输入的特定商品评论数据集中的数据进行分词,并在分词后的样本上加上Token;获取bert base chinese模型在预训练时的字典,并根据字典将各个Token映射为对应的ID;通过bertbase chinese模型将特定商品评论数据集中映射为ID的等长样本转化为数值矩阵,并提取特定商品评论数据集中句子的语义特征和Token的上下文信息,经过输出层输出。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从加上Token的样本中选取目标占比的目标Token;选取第一阈值数量的目标Token替换为mask,选取第二阈值数量的目标Token替换为随机Token,选取第三阈值数量的目标Token保留。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取特定商品的评论数据并构建初步特定商品评论数据集;对初步特定商品评论数据集中的评论数据用正则表达式的方式进行预处理,得到处理后的特定商品评论数据集;对特定商品评论数据集进行划分,构建训练集、验证集、测试集。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从训练集中抽取训练样本,通过bert base chinese模型进行语义特征提取,对提取出的特征使用K-means聚类的方法,得到聚类中心列表;对提取出的特征使用改进Bag of visual words进行编码,每个样本被编码为数值向量;将特征向量转化为概率值。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
采集不同种类商品的各个评论数据,并将各个评论数据构建为数据集;
对数据集进行预处理,得到处理后的综合评论数据集;
根据综合评论数据集预训练特征提取器,其中,将bert base chinese模型作为特征提取器,采用MLM在综合评论数据集上进行预训练;
构建特定商品评论数据集,将特定商品评论数据集输入至bert base chinese模型中,提取出特征向量;
将特征向量输入至改进Bag ofvisual words中,改进Bag ofvisual words通过K-means聚类算法对特征向量聚类后根据模糊理论进行编码,得到输出向量,并对输出向量进行归一化处理,得到文本情感分析模型;
通过文本情感分析模型进行文本情感分析。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将各个评论数据以csv的形式保存,且每条数据包含有类别、正负标签、评论。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从数据集中取出各个评论数据的评论部分;使用正则表达式的方式去掉各个评论部分中的无意义符号以及非中文内容,得到综合评论数据集。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过Tokenizer工具对输入的特定商品评论数据集中的数据进行分词,并在分词后的样本上加上Token;获取bert base chinese模型在预训练时的字典,并根据字典将各个Token映射为对应的ID;通过bert base chinese模型将特定商品评论数据集中映射为ID的等长样本转化为数值矩阵,并提取特定商品评论数据集中句子的语义特征和Token的上下文信息,经过输出层输出。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从加上Token的样本中选取目标占比的目标Token;选取第一阈值数量的目标Token替换为mask,选取第二阈值数量的目标Token替换为随机Token,选取第三阈值数量的目标Token保留。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取特定商品的评论数据并构建初步特定商品评论数据集;对初步特定商品评论数据集中的评论数据用正则表达式的方式进行预处理,得到处理后的特定商品评论数据集;对特定商品评论数据集进行划分,构建训练集、验证集、测试集。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从训练集中抽取训练样本,通过bert base chinese模型进行语义特征提取,对提取出的特征使用K-means聚类的方法,得到聚类中心列表;对提取出的特征使用改进Bag of visual words进行编码,每个样本被编码为数值向量;将特征向量转化为概率值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于迁移学习和改进词袋模型的文本情感分析方法,其特征在于,所述方法包括:
采集不同种类商品的各个评论数据,并将各个所述评论数据构建为数据集;
对所述数据集进行预处理,得到处理后的综合评论数据集;
根据所述综合评论数据集预训练特征提取器,其中,将bert base chinese模型作为特征提取器,采用MLM在所述综合评论数据集上进行预训练;
构建特定商品评论数据集,将所述特定商品评论数据集输入至所述bert basechinese模型中,提取出特征向量;
将所述特征向量输入至改进Bag ofvisual words中,所述改进Bag ofvisual words通过K-means聚类算法对所述特征向量聚类后根据模糊理论进行编码,得到输出向量,并对所述输出向量进行归一化处理,得到文本情感分析模型;
通过所述文本情感分析模型进行文本情感分析。
2.根据权利要求1所述的基于迁移学习和改进词袋模型的文本情感分析方法,其特征在于,所述将各个所述评论数据构建为数据集,包括:
将各个所述评论数据以csv的形式保存,且每条数据包含有类别、正负标签、评论。
3.根据权利要求1所述的基于迁移学习和改进词袋模型的文本情感分析方法,其特征在于,所述对所述数据集进行预处理,得到处理后的综合评论数据集,包括:
从所述数据集中取出各个所述评论数据的评论部分;
使用正则表达式的方式去掉各个所述评论部分中的无意义符号以及非中文内容,得到综合评论数据集。
4.根据权利要求1所述的基于迁移学习和改进词袋模型的文本情感分析方法,其特征在于,所述将所述特定商品评论数据集输入至所述bert base chinese模型中,提取出特征向量,包括:
通过Tokenizer工具对输入的所述特定商品评论数据集中的数据进行分词,并在分词后的样本上加上Token;
获取所述bert base chinese模型在预训练时的字典,并根据所述字典将各个所述Token映射为对应的ID;
通过所述bertbase chinese模型将所述特定商品评论数据集中映射为ID的等长样本转化为数值矩阵,并提取所述特定商品评论数据集中句子的语义特征和Token的上下文信息,经过输出层输出。
5.根据权利要求4所述的基于迁移学习和改进词袋模型的文本情感分析方法,其特征在于,所述采用MLM在所述综合评论数据集上进行预训练,包括:
从加上所述Token的样本中选取目标占比的目标Token;
选取第一阈值数量的所述目标Token替换为mask,选取第二阈值数量的所述目标Token替换为随机Token,选取第三阈值数量的所述目标Token保留。
6.根据权利要求1所述的基于迁移学习和改进词袋模型的文本情感分析方法,其特征在于,所述构建特定商品评论数据集,包括:
获取特定商品的评论数据并构建初步特定商品评论数据集;
对所述初步特定商品评论数据集中的评论数据用正则表达式的方式进行预处理,得到处理后的特定商品评论数据集;
对所述特定商品评论数据集进行划分,构建训练集、验证集、测试集。
7.根据权利要求6所述的基于迁移学习和改进词袋模型的文本情感分析方法,其特征在于,所述改进Bag ofvisual words通过K-means聚类算法对所述特征向量聚类后根据模糊理论进行编码,得到输出向量,并对所述输出向量进行归一化处理,得到文本情感分析模型,包括:
从所述训练集中抽取训练样本,通过所述bert base chinese模型进行语义特征提取,对提取出的特征使用K-means聚类的方法,得到聚类中心列表;
对提取出的特征使用所述改进Bag ofvisual words进行编码,每个样本被编码为数值向量;
将所述特征向量转化为概率值。
8.一种基于迁移学习和改进词袋模型的文本情感分析系统,其特征在于,所述系统包括:
数据采集模块,用于采集不同种类商品的各个评论数据,并将各个所述评论数据构建为数据集;
预处理模块,用于对所述数据集进行预处理,得到处理后的综合评论数据集;
预训练模块,用于根据所述综合评论数据集预训练特征提取器,其中,将bertbasechinese模型作为特征提取器,采用MLM在所述综合评论数据集上进行预训练;
特征提取模块,用于构建特定商品评论数据集,将所述特定商品评论数据集输入至所述bert base chinese模型中,提取出特征向量;
模型训练模块,用于将所述特征向量输入至改进Bag ofvisual words中,所述改进Bagofvisual words通过K-means聚类算法对所述特征向量聚类后根据模糊理论进行编码,得到输出向量,并对所述输出向量进行归一化处理,得到文本情感分析模型;
情感分析模块,用于通过所述文本情感分析模型进行文本情感分析。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211490263.6A CN116089605A (zh) | 2022-11-25 | 2022-11-25 | 基于迁移学习和改进词袋模型的文本情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211490263.6A CN116089605A (zh) | 2022-11-25 | 2022-11-25 | 基于迁移学习和改进词袋模型的文本情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116089605A true CN116089605A (zh) | 2023-05-09 |
Family
ID=86207075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211490263.6A Pending CN116089605A (zh) | 2022-11-25 | 2022-11-25 | 基于迁移学习和改进词袋模型的文本情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116089605A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116644754A (zh) * | 2023-05-31 | 2023-08-25 | 重庆邮电大学 | 一种基于大数据的互联网金融产品评论观点提取方法 |
-
2022
- 2022-11-25 CN CN202211490263.6A patent/CN116089605A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116644754A (zh) * | 2023-05-31 | 2023-08-25 | 重庆邮电大学 | 一种基于大数据的互联网金融产品评论观点提取方法 |
CN116644754B (zh) * | 2023-05-31 | 2024-04-16 | 金智东博(北京)教育科技股份有限公司 | 一种基于大数据的互联网金融产品评论观点提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dahouda et al. | A deep-learned embedding technique for categorical features encoding | |
CN110196982B (zh) | 上下位关系抽取方法、装置及计算机设备 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN113688631B (zh) | 一种嵌套命名实体识别方法、系统、计算机和存储介质 | |
CN112711953A (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN113987187A (zh) | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN115935991A (zh) | 多任务模型生成方法、装置、计算机设备和存储介质 | |
CN115309864A (zh) | 评论文本的情感智能分类方法、装置、电子设备及介质 | |
CN114841161A (zh) | 事件要素抽取方法、装置、设备、存储介质和程序产品 | |
CN108875024B (zh) | 文本分类方法、系统、可读存储介质及电子设备 | |
CN116089605A (zh) | 基于迁移学习和改进词袋模型的文本情感分析方法 | |
CN111723572A (zh) | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 | |
CN115238645A (zh) | 资产数据识别方法、装置、电子设备和计算机存储介质 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN111476035B (zh) | 中文开放关系预测方法、装置、计算机设备和存储介质 | |
CN113807920A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 | |
CN113779994A (zh) | 一种要素抽取方法、装置、计算机设备和存储介质 | |
CN113869068A (zh) | 场景服务推荐方法、装置、设备及存储介质 | |
CN113821571A (zh) | 基于bert和改进pcnn的食品安全关系抽取方法 | |
CN115840817A (zh) | 基于对比学习的信息聚类处理方法、装置和计算机设备 | |
CN114595324A (zh) | 电网业务数据分域的方法、装置、终端和非暂时性存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |