CN116011447B

CN116011447B - 电商评论分析方法、系统及计算机可读存储介质

Info

Publication number: CN116011447B
Application number: CN202310310331.4A
Authority: CN
Inventors: 倪进鑫
Original assignee: Hangzhou Real Intelligence Technology Co ltd
Current assignee: Hangzhou Real Intelligence Technology Co ltd
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-06-30
Anticipated expiration: 2043-03-28
Also published as: CN116011447A

Abstract

本发明涉及电商评论分析方法、系统及计算机可读存储介质，其电商评论分析方法包括：抓取电商平台的商品评论数据；对商品评论数据进行清洗，得到目标商品评论数据；利用电商评论观点分析模型对目标商品评论数据进行观点分析，得到每条评论文本的四元组信息，四元组信息包括属性词及其对应的属性类别、观点词、情感极性；具体利用BERT模型和BiLSTM模型进行编码，之后获取四元组信息。本发明采用基于BERT和BiLSTM编码相结合，先抽取属性词，然后基于属性词信息抽取观点词，并进行属性类别和情感极性的判别，实现了更细粒度的四元组（属性、观点、属性类别、情感极性）抽取，能更好地分析消费者对商品的观点和看法。

Description

电商评论分析方法、系统及计算机可读存储介质

技术领域

本发明属于数据分析技术领域，具体涉及电商评论分析方法、系统及计算机可读存储介质。

背景技术

随着互联网电商的发展和普及，越来越多的消费者开始在电商平台上购物。在购物过程中，消费者往往会通过发表评论来描述对商品的使用体验，商家端会积累大量的商品评论数据。对商家来说，从大量的商品评论数据中挖掘出消费者的观点和情感倾向，对于把握消费者需求和喜好，同时将其用于竞品分析、产品迭代、体验优化等有着很现实的意义。现有技术中，按照情感倾向的不同判别粒度，可以将评论观点分析分为句子粒度情感分析和细粒度情感分析（Aspect-based Sentiment Analysis，简称ABSA）。

句子粒度情感分析一般就是判别某个用户的一条评论的整体情感，常见的分类为“好评”、“中评”、“差评”；如果一条评论中只存在一种情感极性，如“快递很给力，第二天就到了”，句子粒度情感分析可以将其分类到“好评”标签中；如果一条评论中存在多种情感极性，如“快递很给力，第二天就到了，就是味道不太好闻”中有正负两种情感极性，句子粒度情感分析就很难进行分类。句子粒度情感分析由于其粒度较大，导致分析结果很多时候是没有太大的参考价值。句子粒度情感分析属于文本分类任务，常见的算法模型有长短期记忆网络（Long short term memory，简称LSTM）文本分类模型、双向编码表征转换算法（Bidirectional Encoder Representation from Transformers，简称BERT）文本分类模型等。

细粒度情感分析一般是针对一条文本里面的多个属性，识别每个属性对应的观点和情感极性（又称观点极性）。常见的细粒度情感分析主要是抽取（属性词、观点、观点极性）三元组，如图1所示，对于“快递很给力，第二天就到了，就是味道不太好闻。”，可以从其中抽取出（快递、给力、正面）和（气味、不太好闻、负面）两个三元组信息。

目前常见的电商评论观点分析方案，在抽取粒度上基本为（属性、观点、情感极性）的三元组抽取，根据不同的应用场景，如美妆、家电等场景，建立相应的标签体系，再标注一定量的数据用于训练模型，模型训练完成后就可以部署使用；整个方案在流程上需要用户参与的地方很多，如预测数据抓取、后续的数据分析等，主要存在以下缺点和不足：

一、分析粒度不够细致。目前市场上常见的电商评论观点分析主要分为粗粒度情感分析和细粒度情感分析，粗粒度情感分析主要是识别评论文本的正负向的情感极性，对一条评论文本包含多个情感极性的情况不能很好的区分。细粒度情感分析主要是抽取（属性、观点、情感极性）三元组，如申请号为CN201910571890.4的专利文献公开的基于个人计算机电商评论的多粒度观点挖掘方法，公开了基于（属性、观点、情感极性）三元组的电商评论的多粒度观点挖掘方法，然而抽取（属性、观点、情感极性）三元组只能判断属性与观点的正负向情感，无法明确属性与观点具体描述的问题点，如物流、服务等。对于商家来说，获取属性分类对于准确快速地判别消费者关注的问题点是至关重要的。

二、无法处理属性缺失的情况。目前常用的细粒度情感分析是抽取（属性、观点、情感极性）三元组，如“快递很给力”这句话抽取结果为（快递、给力、正面）三元组，是对快递的正面观点。但是现实中还存在很多属性词缺失的情况，如“不太好闻”这句话是描述味道不太好闻，但是只有观点词“不太好闻”，而缺失了属性词“味道”，目前很多常见的细粒度情感分析模型只能够识别带有属性词的观点，不能很好的处理属性词缺失的情况。

三、缺乏完善的电商评论分析监控系统，用户使用成本高。目前常见的细粒度电商评论分析的解决方案，需要用户参与的地方较多，如前期的数据导入和后续的数据分析显示等，一方面增加了用户的使用成本和难度，对用户来说体验不好，另一方面也增加了系统部署使用所需要的时间。实际上可以实现端到端的解决方案，用户只需要在系统的商品链接框内输入商品链接的网址，系统就能自动抓取该商品的所有评论，然后输出评论观点分析的结果，这样对用户来说只需要输入商品链接即可，可以大大提升效率和体验。

发明内容

基于现有技术中存在的上述缺点和不足，本发明的目的之一是至少解决现有技术中存在的上述问题之一或多个，换言之，本发明的目的之一是提供满足前述需求之一或多个的电商评论分析方法、系统及计算机可读存储介质。

为了达到上述发明目的，本发明采用以下技术方案：

一种电商评论分析方法，包括以下步骤：

S1、抓取电商平台的商品评论数据；

S2、对商品评论数据进行清洗，得到目标商品评论数据；

S3、利用电商评论观点分析模型对目标商品评论数据进行观点分析，得到每条评论文本的四元组信息，四元组信息包括属性词及其对应的属性类别、观点词、情感极性；其中，观点分析的过程，包括以下步骤：

S31、将目标商品评论数据输入BERT模型进行编码，取BERT模型的后四层向量的平均值作为BERT编码向量；

将目标商品评论数据转换为腾讯词向量，之后输入第一BiLSTM模型进行编码，得到BiLSTM编码向量；

将BERT编码向量和BiLSTM编码向量拼接，得到句子编码向量；

S32、基于句子编码向量进行属性词抽取，得到属性词；

S33、基于属性词进行观点词的抽取以及属性类别和情感极性的预测。

作为优选方案，所述步骤S32具体包括：

句子编码向量分别经过第一全连接网络和第二全连接网络分别得到Start和End序列，两个序列组合以抽取属性词；

其中，Start和End序列分别用于标记每个属性词的开始和结束位置，序列长度和评论文本的字符个数相等；对于Start序列，在属性词开始的位置为1，其它位置为0；对于End序列，在属性词结束的位置为1，其它位置为0。

作为优选方案，所述步骤S33具体包括以下步骤：

S331、对句子编码向量中的属性词进行显式标注，并进行向量转换得到第一目标句向量；

将属性词对应的词向量拼接在第一目标句向量中的每个字向量之后，得到第二目标句向量；

以属性词的开始位置作为初始零位，基于第一目标句向量往两边扩充，每移动一个字，就在上一个字的位置基础上加1，以得到每个字的相对位置并进行向量编码，得到相对位置编码；将相对位置编码拼接在第二目标句向量中的每个字向量之后，得到第三目标句向量；

S332、将第一目标句向量、第二目标句向量和第三目标句向量输入第二BiLSTM模型，以输出BiLSTM特征向量；

S333、BiLSTM特征向量输入第三全连接网络，以进行观点词的抽取；

BiLSTM特征向量输入第四全连接网络，以进行属性类别和情感极性的预测。

作为优选方案，所述步骤S331中，对句子编码向量中的属性词进行显式标注的过程包括：

在属性词的前后添加标识符以标注属性词的位置，之后进行向量转换，得到第一目标句向量。

作为优选方案，若属性词缺失，则第一目标句向量、第二目标句向量和第三目标句向量中对应属性词的部分采用零向量替代，并结合观点词进行属性类别和情感极性的预测。

作为优选方案，电商评论分析方法，还包括以下步骤：

S4、对评论文本的四元组信息进行统计分析，并进行可视化展示。

作为优选方案，所述可视化展示的格式包括柱状图、折线图、饼图、词云图。

作为优选方案，所述步骤S1中，采用RPA数据抓取技术自动抓取电商平台的商品评论数据。

本发明还提供一种电商评论分析系统，应用如上任一项方案所述的电商评论分析方法，所述电商评论分析系统包括：

数据抓取模块，用于抓取电商平台的商品评论数据；

数据清洗模块，用于对商品评论数据进行清洗，得到目标商品评论数据；

数据分析模块，用于利用电商评论观点分析模型对目标商品评论数据进行观点分析，得到每条评论文本的四元组信息，四元组信息包括属性词及其对应的属性类别、观点词、情感极性；其中，观点分析的过程包括：

（1）将目标商品评论数据输入BERT模型进行编码，取BERT模型的后四层向量的平均值作为BERT编码向量；

（2）将BERT编码向量和BiLSTM编码向量拼接，得到句子编码向量；

（3）基于句子编码向量进行属性词抽取，得到属性词；

（4）基于属性词进行观点词的抽取以及属性类别和情感极性的预测。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行如上任一项方案所述的电商评论分析方法。

本发明与现有技术相比，有益效果是：

（1）本发明采用基于BERT和BiLSTM编码相结合，先抽取属性词，然后基于属性词信息抽取观点词，并进行属性类别和情感极性的判别，实现了更细粒度的四元组（属性、观点、属性类别、情感极性）抽取，能更好地分析消费者对商品的观点和看法；

（2）本发明在属性词缺失时，引入零向量作为属性词信息去抽取观点词，并结合观点词进行属性分类和情感极性判别，能够很好的处理属性词缺失的情况，从而更精确的识别消费者的观点和情感倾向；

（3）本发明利用RPA数据抓取技术，实现数据抓取的智能化；只需手动输入商品链接，即可自动抓取商品的所有评论数据；

（4）本发明对电商评论分析结果进行可视化展示，提升用户体验，减少用户使用成本。

附图说明

图1是现有技术中的三元组信息的组成示意图；

图2是本发明实施例1的电商评论分析方法的流程图；

图3是本发明实施例1的电商评论观点分析模型的网络构架图；

图4是本发明实施例1的观点分析的流程图；

图5是本发明实施例1的四元组信息的组成示意图；

图6是本发明实施例1的电商评论分析系统的模块构架图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例1：

如图2所示，本实施例的电商评论分析方法，包括以下步骤：

S1、抓取电商平台的商品评论数据。

具体地，采用RPA数据抓取技术自动抓取电商平台的商品评论数据，具体过程包括：先通过模拟登录访问到具体的商品详情页，然后通过页面元素拾取技术将商品评论页中所有的评论内容和评论时间等字段信息拾取出来，字段间通过事先设定好的字段分隔符进行分隔。

机器人流程自动化技术（Robotic Process Automation，简称RPA）是通过软件自动化技术，模拟用户在计算机软件、系统等对象上的操作，实现无人化操作。RPA可以自动获取业务信息、执行业务动作，最终实现流程自动化处理、处理效率提升和人力成本节约。RPA的核心功能之一就是自动获取业务数据。传统的业务数据获取技术一般通过API接口来实现，往往要求业务应用系统提供API接口以及接口文档，包括传入的参数、输出的结果、接口异常信息定义等，然而在多数业务应用系统中，出于安全和数据管控的要求，通常不会提供核心数据的数据接口。而对RPA来说，当需要在页面上进行表单数据查询动作时，只要给RPA设置相关数据的查询条件，然后点击查询按钮就可以模拟用户的操作来获取到相关业务数据。

S2、对商品评论数据进行清洗，得到目标商品评论数据。

其中，对商品评论数据进行清洗可参考现有常用的数据清洗技术，在此不赘述。另外，清洗之后可按照数据来源进行归类。具体地，先遍历每一条评论文本，去除评论文本中的乱码和空格等，统一中英文标点等一系列操作；然后根据数据来源不同（如京东评论数据和淘宝评论数据等）对商品评论数据进行分类。

S3、利用电商评论观点分析模型对目标商品评论数据进行观点分析，得到每条评论文本的四元组信息，四元组信息包括属性词及其对应的属性类别、观点词、情感极性。

如图3和图4所示，电商评论观点分析模型包括第一BiLSTM模型、BERT模型、拼接层、第一全连接网络、第二全连接网络、目标句向量构建层、第二BiLSTM模型、第三全连接网络、第四全连接网络，第一BiLSTM模型输出的BiLSTM编码向量与BERT模型输出的BERT编码向量通过拼接层进行拼接得到句子编码向量，句子编码向量分别输入第一全连接网络、第二全连接网络，以分别得到Start和End序列，两个序列组合进行属性抽取，得到属性抽取结果，即属性词；属性词与句子编码向量输入目标句向量构建层，以构建第一目标句向量、第二目标句向量和第三目标句向量并输入第二BiLSTM模型；第二BiLSTM模型输出的BiLSTM特征向量输入第三全连接网络，以得到观点抽取结果，即观点词；第二BiLSTM模型输出的BiLSTM特征向量输入第四全连接网络，以进行类别和极性分类，即属性类别和情感极性的预测。其中，第一BiLSTM模型、BERT模型、拼接层构成编码层。

在进行观点分析之前，需要对电商评论观点分析模型进行训练，根据具体应用场景，例如美妆场景，首先收集部分历史评论数据，然后根据自身需求建立相应的标签体系，常见的标签有使用体验、物流、包装、服务、成分等；标签体系完善后，对数据进行打标，然后训练美妆场景下的电商评论观点分析模型，模型训练完成后，部署上线即可进行观点分析。

具体地，如图4所示，本实施例对目标商品评论数据进行观点分析的过程，包括以下步骤：

将BERT编码向量和BiLSTM编码向量拼接，得到句子编码向量；

S32、基于句子编码向量进行属性词抽取，得到属性词；

具体地，属性词抽取采用指针标注的方法，对每个属性词的开始和结束位置分别用Start和End序列来标记，Start和End序列都是0，1序列，序列长度和评论文本的字符个数相等；对于Start序列，在属性词开始的位置为1，其它位置为0；对于End序列，在属性词结束的位置为1，其它位置为0。

上述得到的句子编码向量经过两个独立的全连接层分别得到Start和End序列，两个序列组合以识别属性词的位置并进行抽取，具体的抽取技术可参考现有技术，在此不赘述。

上述步骤S33具体包括以下步骤：

S331、首先，对句子编码向量中的属性词进行显式标注，并进行向量转换得到第一目标句向量。本实施例的显式标注是指在属性词前后添加标识符来标识属性词位置，进一步突出属性词的重要性。具体的显式标注的过程包括：在属性词的前后添加标识符以标注属性词的位置，之后进行向量转换，得到第一目标句向量。

例如，评论文本为“商家快递速度很快，很满意。”中的属性词是“快递”，属性词的前后添加标识符<s>和<e>，每个标识符均对应有各自的向量表示；由此得到显式标注后的文本为“商家<s>快递<e>速度很快，很满意。”。

假设文本中每个字对应的向量表示如下：

商：w1；家：w2；<s>：w3；快：w4；递：w5；<e>：w6；速：w7；度：w8；很：w9；快：w10；，：w11；很：w12；满：w13；意：w14；。：w15。

则第一目标句向量表示为(w1，w2，…，w15)。

其次，将属性词对应的词向量拼接在第一目标句向量中的每个字向量之后，得到第二目标句向量。例如，若以属性词“快递”对应的词向量w_s拼接在第一目标句向量中的每个字向量之后，则第二目标句向量表示为((w1, w_s)，(w2, w_s)，…，(w15, w_s))。

最后，以属性词的开始位置作为初始零位，基于第一目标句向量往两边扩充，每移动一个字，就在上一个字的位置基础上加1，以得到每个字的相对位置并进行向量编码，得到相对位置编码；将相对位置编码拼接在第二目标句向量中的每个字向量之后，得到第三目标句向量。

其中，每个字的相对位置示例如下：

商：3；家：2；<s>：1；快：0；递：1；<e>：2；速：3；度：4；很：5；快：6；，：7；很：8；满：9；意：10；。：11。

每个字的位置都有一个向量表示，依次表示为p1至p15；则第三目标句向量表示为((w1, w_s, p1)，(w2, w_s, p2)，…，(w15, w_s, p15))。

本实施例为了增强属性词的信息，采用三种属性词信息（即第一目标句向量、第二目标句向量和第三目标句向量）相结合，有效提升后续观点词抽取的精度以及属性类别和情感极性的预测精度。

S333、基于BiLSTM特征向量进行观点词的抽取以及属性类别和情感极性的预测。

如图5所示，评论文本为“快递很给力，第二天就到了，就是味道不太好闻。”，经过本实施例的电商评论分析，可得到“快递、给力、物流、正面”和“味道、不太好闻、气味、负面”两个更细粒度的四元组信息。

S4、对评论文本的四元组信息进行统计分析，并进行可视化展示；其中，可视化展示的格式包括柱状图、折线图、饼图、词云图。

数据可视化技术（Data visualization）与信息图形、信息可视化、科学可视化以及统计图形密切相关，主要是通过图形化技术来清晰高效地展示和传递信息，方便用户分析和推理数据。为了方便在视觉上传达定量信息，可视化技术一般使用点、线或条对数字数据进行编码，使用统计图形、图表、信息图表或者其他工具来进行展示。

本实施例可通过多种图表展示电商评论分析结果，如柱状图、折线图、饼图、词云图等图表模板组件，结合处理完成的评论观点数据，从而实现图表的数据动态填充和更新。数据展示仪表盘上提供了多种图表模版，用户可以通过拖拽不同的图表模版来组合自己需要的数据展示界面，提升用户体验。

本实施例将RPA数据抓取、细粒度电商评论观点分析技术与交互式数据可视化技术进行结合；首先对于多个电商平台数据难以打通聚合的场景，采用RPA数据抓取技术对多电商平台的数据进行自动采集汇总，然后经过数据清洗、数据落地等保存原始数据；接着对评论数据进行观点抽取，抽取结果结合交互式数据可视化技术进行分析结果的展示。对于用户来说，只需要输入商品的链接网址，整套流程就可以自动完成数据抓取、数据分析和数据展示，可以实现全平台下的高效、精准、低成本的多源数据分析。

另外，如图6所示，本实施例还提供应用上述电商评论分析方法的电商评论分析系统，包括数据抓取模块、数据清洗模块、数据分析模块、数据可视化模块和数据存储模块。

本实施例的数据抓取模块，用于抓取电商平台的商品评论数据。

本实施例的数据清洗模块用于对商品评论数据进行清洗，得到目标商品评论数据。

本实施例的数据分析模块用于利用电商评论观点分析模型对目标商品评论数据进行观点分析，得到每条评论文本的四元组信息，四元组信息包括属性词及其对应的属性类别、观点词、情感极性。

本实施例的数据可视化模块用于对评论文本的四元组信息进行统计分析，并进行可视化展示；其中，可视化展示的格式包括柱状图、折线图、饼图、词云图。

本实施例的数据存储模块用于存储在电商评论分析过程中产生的所有数据信息。

本实施例还提供计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行上述的电商评论分析方法，实现电商评论分析的智能化。

实施例2：

本实施例的电商评论分析方法与实施例1的不同之处在于：

若属性词缺失，即属性抽取结果为空时，则第一目标句向量、第二目标句向量和第三目标句向量中对应属性词的部分采用零向量替代，并结合第三全连接网络输出的观点词输入第四全连接网络进行属性类别和情感极性的预测；

其他步骤可参考实施例1。

相应地，本实施例的电商评论分析系统与实施例1的不同之处在于：

还包括判断模块，用于判断属性抽取结果是否为空；若是，则通过数据分析模块在具体处理过程中第一目标句向量、第二目标句向量和第三目标句向量中对应属性词的部分采用零向量替代，并结合第三全连接网络输出的观点词输入第四全连接网络进行属性类别和情感极性的预测；

其他构成可参考实施例1。

本实施例还提供计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行上述的电商评论分析方法，不仅实现电商评论分析的智能化，还能对属性词缺失情况下的观点词抽取以及属性类别和情感极性的预测。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.一种电商评论分析方法，其特征在于，包括以下步骤：

S1、抓取电商平台的商品评论数据；

S2、对商品评论数据进行清洗，得到目标商品评论数据；

将BERT编码向量和BiLSTM编码向量拼接，得到句子编码向量；

S32、基于句子编码向量进行属性词抽取，得到属性词；

S33、基于属性词进行观点词的抽取以及属性类别和情感极性的预测；

所述步骤S33具体包括以下步骤：

2.根据权利要求1所述的一种电商评论分析方法，其特征在于，所述步骤S32具体包括：

3.根据权利要求1所述的一种电商评论分析方法，其特征在于，所述步骤S331中，对句子编码向量中的属性词进行显式标注的过程包括：

4.根据权利要求1所述的一种电商评论分析方法，其特征在于，若属性词缺失，则第一目标句向量、第二目标句向量和第三目标句向量中对应属性词的部分采用零向量替代，并结合观点词进行属性类别和情感极性的预测。

5.根据权利要求1-4任一项所述的一种电商评论分析方法，其特征在于，还包括以下步骤：

6.根据权利要求5所述的一种电商评论分析方法，其特征在于，所述可视化展示的格式包括柱状图、折线图、饼图、词云图。

7.根据权利要求1-4任一项所述的一种电商评论分析方法，其特征在于，所述步骤S1中，采用RPA数据抓取技术自动抓取电商平台的商品评论数据。

8.一种电商评论分析系统，应用如权利要求1-7任一项所述的电商评论分析方法，其特征在于，所述电商评论分析系统包括：

数据抓取模块，用于抓取电商平台的商品评论数据；

（3）基于句子编码向量进行属性词抽取，得到属性词；

9.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当指令在计算机上运行时，使得计算机执行如权利要求1-7任一项所述的电商评论分析方法。