CN113627969A - 一种基于电商平台用户评论的产品问题分析方法和系统 - Google Patents
一种基于电商平台用户评论的产品问题分析方法和系统 Download PDFInfo
- Publication number
- CN113627969A CN113627969A CN202110684591.9A CN202110684591A CN113627969A CN 113627969 A CN113627969 A CN 113627969A CN 202110684591 A CN202110684591 A CN 202110684591A CN 113627969 A CN113627969 A CN 113627969A
- Authority
- CN
- China
- Prior art keywords
- dimension
- module
- emotion
- word
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 95
- 230000008451 emotion Effects 0.000 claims abstract description 105
- 238000012549 training Methods 0.000 claims description 85
- 239000000047 product Substances 0.000 claims description 66
- 238000002372 labelling Methods 0.000 claims description 45
- 230000011218 segmentation Effects 0.000 claims description 38
- 238000000034 method Methods 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 20
- 238000013145 classification model Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 14
- 238000012552 review Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 239000013589 supplement Substances 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 6
- 230000002860 competitive effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000002360 preparation method Methods 0.000 description 12
- 239000000463 material Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000007405 data analysis Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 239000007779 soft material Substances 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005057 refrigeration Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 229920000742 Cotton Polymers 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Entrepreneurship & Innovation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于电商平台用户评论的产品问题分析方法和系统,基于自然语言处理、深度学习,能够通过对海量评论利用文本分类和情感分析算法快速分析出用户提及的产品问题。
Description
技术领域
本发明涉及电商/互联网技术领域,涉及对自然语言处理技术,尤其涉及基于电商平台用户评论的产品问题分析。
背景技术
电商行业的发展非常迅速,现在的规模已经非常庞大,每天产生的评论数以亿计。不管是对电商平台的用户查看商品口碑,还是对电商商家自己收集产品问题,人工很难看完所有的评论内容。对此,如果能通过计算机自动处理这些评论,并提取出用户对于商品提及的主要问题(如质量、材质、物流等),通过数据分析的方法把结果转为数据表,就可以在统计意义上观察产品的主要问题。目前电商平台也有自己的大词统计,但是只能看到词频,并不能看到历史的变化和图表来帮助商家和用户更快速直观地发现产品问题。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何帮助商家和用户从产品评论中更快速直观地发现产品问题。
为实现上述目的,本发明首先提供了一种基于电商平台用户评论的产品问题分析方法,包括步骤:
(1)构建特征维度:根据行业和\或产品属性构建用于产品问题分析的特征维度;
(2)标注训练样本:通过爬虫获取足够数量的同一行业或同一类型产品的用户评论数据作为样本,根据中英文断句的标点符号对样本进行分句处理;根据(1)中构建的特征维度进行标注,得到带有维度标签和各维度情感标签的训练样本;
(3)训练模型:搭建包括至少一个Embedding层和两个Dense层的神经网络模型,使用(2)中标注后的训练样本按照7比3或8比2的比例拆分为训练样本和测试样本,对训练样本进行分词处理得到分词模型,并构建索引词表,然后将分词后的文本训练向量化模型,向量化后的样本训练得到多维度分类模型和各维度情感分析模型;
(4)提取候选关键词:循环筛选包括各个维度分类下的各情感分的训练样本,利用词频统计提取出排在前N位的分词结果,纳入候选关键词库;
(5)配置大小词映射表:对候选关键词库中涉及相同问题的关键词进行分类合并,设置可统领涉及同类问题的小词的大词,得到大小词映射表;
(6)用户评论预处理:根据中英文断句的标点符号对评论进行分句处理;对评论分句使用(3)中得到的分词模型、索引词表和向量化模型进行向量化处理转为向量矩阵;
(7)特征维度分类:将分句向量矩阵导入多特征维度分类模型中,得到维度分类结果;
(8)情感分析:得到分句的维度分类结果后,加载对应维度的情感分析模型,得到所有分句的情感分;
(9)提取关键大词:通过得到的维度分类和情感分,根据大小词映射表,通过匹配小词来得到对应的大词;
(10)根据得到的关键大词和情感分,按月显示产品的各关键大词的情感分均值历史走势或者获取一个或多个竞品的用户评论的关键大词和情感分与产品进行比对分析;
(11)结果评估:对(3)中得到的测试样本,使用(3)中得到的多维度分类模型和各维度情感分析模型,得到每一条样本的维度结果和各维度情感分,和测试样本自带的标注结果对比,得到维度分类准确率和各维度情感分析准确率,对未达到90%准确率的维度,重复步骤(2)和(3),进行样本补充。同理,步骤(9)之后可以得到每一条用户评论对应的维度和各维度情感分,对结果进行校验得到维度分类准确率和各维度情感分析准确率,对未达到90%准确率的维度,重复步骤(2)和(3),进行样本补充。
进一步地,用户评论数据通过爬虫选择多个同类产品的评论获取。
进一步地,采用人工标注或者开源工具对训练样本进行标注。
进一步地,利用词频统计提取出排在前50位的分词结果,纳入候选关键词库。
进一步地,情感分包括1、-1和0,分别对应好评、差评、中评。
本发明在第二方面提供了一种基于电商平台用户评论的产品问题分析系统,包括特征维度构建模块、训练样本标注模块、模型训练模块、候选关键词提取模块,大小词映射表配置模块,用户评论预处理模块,特征维度分类模块,情感分析模块和关键大词提取模块、产品问题分析显示模块以及结果校验模块;其中:
特征维度构建模块用于根据行业和\或产品属性构建用于产品问题分析的特征维度;
训练样本标注模块用于通过爬虫获取足够数量的同一行业或同一类型产品的用户评论数据作为样本,根据中英文断句的标点符号对样本进行分句处理;根据(1)中构建的特征维度进行标注,得到带有维度标签和各维度情感标签的训练样本;
模型训练模块用于搭建包括至少一个Embedding层和两个Dense层的神经网络模型,使用训练样本标注模块中标注后的训练样本按照7比3或8比2的比例拆分为训练样本和测试样本,对训练样本进行分词处理得到分词模型,并构建索引词表,然后将分词后的文本训练向量化模型,向量化后的样本训练得到多维度分类模型和各维度情感分析模型;
候选关键词提取模块用于循环筛选包括各个维度分类下的各情感分的训练样本,利用词频统计提取出排在前N位的分词结果,纳入候选关键词库;
大小词映射表配置模块用于对候选关键词库中涉及相同问题的关键词进行分类合并,设置可统领涉及同类问题的小词的大词,得到大小词映射表;
用户评论预处理模块用于根据中英文断句的标点符号对评论进行分句处理;对评论分句使用模型训练模块中得到的分词模型、索引词表和向量化模型进行向量化处理转为向量矩阵;
特征维度分类模块用于将分句向量矩阵导入多特征维度分类模型中,得到维度分类结果;
情感分析模块用于得到分句的维度分类结果后,加载对应维度的情感分析模型,得到所有分句的情感分;
关键大词提取模块用于通过得到的维度分类和情感分,根据大小词映射表,通过匹配小词来得到对应的大词;
产品问题分析显示模块用于根据得到的关键大词和情感分,按月显示产品的各关键大词的情感分均值历史走势或者获取一个或多个竞品的用户评论的关键大词和情感分与产品进行比对分析;
结果校验模块用于对模型训练模块中得到的测试样本,使用模型训练模块中得到的多维度分类模型和各维度情感分析模型,得到每一条样本的维度结果和各维度情感分,和测试样本自带的标注结果对比,得到维度分类准确率和各维度情感分析准确率,对未达到90%准确率的维度,重复训练样本标注模块和模型训练模块,进行样本补充。同理,关键大词提取模块之后可以得到每一条用户评论对应的维度和各维度情感分,对结果进行校验得到维度分类准确率和各维度情感分析准确率,对未达到90%准确率的维度,重复训练样本标注模块和模型训练模块,进行样本补充。
进一步地,用户评论数据通过爬虫选择多个同类产品的评论获取。
进一步地,训练样本标注模块中用人工标注或者开源工具对训练样本进行标注。
进一步地,候选关键词提取模块中利用词频统计提取出排在前50位的分词结果,纳入候选关键词库。
进一步地,情感分析模块中情感分包括1、-1和0,分别对应好评、差评、中评。
本方法目的是提出一种可以实现对任意行业的电商宝贝进行自动的产品问题分析的解决方案,任意行业的电商商品,都可以通过这种方式进行海量评论的具体问题分析。完成准备阶段和应用阶段后,还可以进行优化工作,具有较高的可维护、可优化和可扩展性。针对电商网站的评论数量大,关键词提取分析效果有限等问题,本发明提出结合数据分析的方法和系统,基于自然语言处理、深度学习,能够通过对海量评论利用文本分类和情感分析算法快速分析出用户提及的产品问题的功能。本发明的方法从以下几个方面进行了优化:1.构建分析维度,从特定的几个维度进行细化分析,能够更快定位产品问题;2.不仅用关键词提取算法,结合了神经网络深度学习的文本分类和情感分析方法,对评论进行更加智能准确的分析;3.分析结果进行了数据分析,通过图表可以清楚地看到产品的问题变化;4.可以快速处理海量评论;5.通过样本重复积累,可以使行业维度分析越来越准确。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例中的基于文本分类的电商评论中的产品问题分析方法的流程图;
图2是本发明的一个较佳实施例中的行业维度建模模块工作流程图;
图3是本发明的一个较佳实施例中的维度标注模块工作流程图;
图4是本发明的一个较佳实施例中的模型训练模块工作流程图;
图5是本发明的一个较佳实施例中的关键词提取模块工作流程图;
图6是本发明的一个较佳实施例中的大小词表配置模块工作流程图;
图7是本发明的一个较佳实施例中的评论处理模块工作流程图;
图8是本发明的一个较佳实施例中的维度情感分析模块工作流程图;
图9是本发明的一个较佳实施例中的关键大词提取模块工作流程图;
图10是本发明的一个较佳实施例中的按月份显示的各关键大词的情感分均值走势示意图;
图11是本发明的一个较佳实施例中的产品和竞品的各关键大词的情感分的比对图;
图12是本发明的一个较佳实施例中的结果评估模块工作流程图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
发明提出的具体技术方案是:一种基于文本分类的电商评论中的产品问题分析方法。主要分为两个阶段的工作,两个部分是有先后顺序的。第一个部分是准备阶段,第二部分是正式应用阶段。
准备阶段的主要工作有:1.确定要分析的商品行业,如毛巾、棉柔巾、风扇等;2.根据行业确定这个行业下需要分析的商品维度,不同的行业不一样,比如毛巾在意材质、吸水性等问题,风扇就在意制冷、风力等问题;3.确定要分析的行业和维度后,参考维度的个数,从该行业下的商品评论中随机抽取一定数量的评论进行标注工作,具体标注方法是给每一条评论中提到对应维度的内容打上对应维度和好差评标签。比如“宝贝质量非常好”的标签就是“质量——好评”,标注工作完成后需要做标注质量的评估;4.拥有一定数量的标注样本后,开始搭建文本分类和情感分析模型并训练,主要有维度分类和对应维度的情感分析两层;5.对每个维度下标注的评论样本使用词频统计进行关键词提取;6.观察每个维度词频数排名靠前的关键词,归类合并出一些主要问题,如柔软、很软都可以归为材质柔软,“材质柔软”和“柔软”我们称之为大小词(即一级词汇和二级词汇,一级词汇在概念和外延上可以包括二级词汇)然后把整理的大小词设计成一个大小词表存入mysql数据库中。至此,准备阶段工作结束。
正式应用阶段主要工作有:1.获取指定行业下的商品原始评论,并进行分句处理;2.分句通过之前训练好的模型进行维度分类,维度分类后进行对应维度下的情感分类,最后会得到每个分句的维度和对应的好中差评;3.读取大小词表,通过行业、维度、情感分等字段可以确定几个大词,然后逐一匹配每个大词下面的小词,如果这个小词存在与句子中,则给这个分句标上对应大词的内容,这样我们就可以找到每个分句提及的具体产品问题了。
在根据本发明的一个具体实施例中,准备阶段分为五个模块:行业维度建模模块、维度标注模块、模型训练模块、关键词提取模块、大小词表配置模块;正式应用阶段分为三个模块:评论处理模块、维度情感分析模块、关键大词提取模块。
行业维度建模模块,通过分析某个行业的宝贝参数(尺寸、材质、功能等)结合一些该行业下的宝贝评论内容提到的主要问题,还有商家自己在意的问题来建模。就是确定一个行业下的商品,有哪些重要的维度,即可以确定一个商品好坏、用户满意度、销量、价格等指标的重要特征。当需要分析一个新的行业的评论时,需要进行产品调研。可以通过数据挖掘、BI工具等手段,找到产品的主要特征。比如通过LightGBM算法搭建预测宝贝销量销售额的模型,在这个过程中会进行特征工程,特征工程的过程中往往能够发现一些重要特征。把这些特征作为维度看看客户对这些问题的反馈,无疑是挖掘产品问题有效的方法。
维度标注模块,通过对某个行业确定好的特征维度进行人工标注的方式,对该行业下的宝贝评论进行类似BIO序列标注的方法对评论内容进行标注。获取评论数据可以通过爬虫到网页获取,采用对每个宝贝随机抽样的方式抽取标注样本,通过字符长度等限定条件,尽量获取有效干净的客户评论内容进行标注工作。
模型训练模块,使用keras搭建神经网络模型,一层Embedding和两层Dense,结合sklearn中的OneVsRestClassifier模型(支持多标签分类,因为一个评论可能会提到多个维度),使用标注的数据作为训练样本来训练维度分类模型和维度情感分析模型。
把评论标注样本读取到Pandas的Dataframe中,对标注样本的评论使用jieba工具进行分词,然后使用keras_one_hot方法将评论内容包含的词构建为向量索引,并通过padded将所有样本的向量转变为等长的向量,保存这些构建词表和生成向量的模型。
完成训练向量的构建后,将向量矩阵作为输入,维度标注作为标签传入神经网络进行训练。通过EarlyStopping控制训练过程中的迭代次数,避免过拟合,保证模型的泛化能力。训练完后,保存分类模型到对应的行业下。
维度分类模型训练完后,通过Dataframe的map函数,筛选对应维度的标注数据。训练过程和维度分类基本相同,唯一的区别是这次使用对应维度下的情感标注结果作为标签,好评、差评、中评分别对应1、-1、0。训练完成后将模型保存到对应行业的对应维度的路径下。
关键词提取模块,通过jieba.analyse中的TF-IDF方法,循环筛选不同维度和情感下的评论样本,提取出对应的前50名的分词结果作为候选关键词库。
大小词表配置模块,通过上一模块中提取的候选关键词库进行整理,把提到相同问题的关键词分类合并,设置一个便于理解反应这一类问题的词作为这一类小词的大词。
整理工作先在json文件中完成,通过json字典来配置维度、情感下的大小词。然后解析为Dataframe格式,并且给每个词设置一个唯一id,表里除了词内容字段外,还有行业、维度、维度情感、状态等字段,然后导入mysql数据库中,方便维护和管理。
正式应用阶段需要在准备阶段结束后才能进行,是对之前的准备工作得到的模型和表的落地应用方案,包括评论处理模块、维度情感分析模块和关键大词提取模块。
评论处理模块,先根据中英文断句的标点符号对评论进行分句处理。分句结果作为多条记录存入Dataframe中,利用模型训练模块中训练好的索引词表和向量生成模型对分句内容进行向量化和padded处理。
维度情感分析模块,通过使用处理后的评论分句内容,预测每一个分句可能提及的维度和情感分。在将分句后的内容处理为训练样本一样的向量格式后,根据评论所属的宝贝所属行业,筛选对应的维度分类模型,将分句向量矩阵传入模型中,得到维度预测结果。得到每个分句的预测结果后,循环筛选所有维度的分句,加载对应维度的情感分析模型,对所有分句预测情感分。
关键大词提取模块,通过得到的维度和情感分,可以从大小词配置表里获取到对应的一些大小词,然后通过匹配小词来得到对应的大词。
在根据本发明的一个具体实施例中,本发明的产品问题分析方法只需要一个python3的环境,使用4核CPU和16GB内存就可以支持整套流程的实现。如果有更多的CPU和内存训练速度和分析速度可以有很大的提升。
本方法主要包括行业维度建模模块、维度标注模块、模型训练模块、关键词提取模块、大小词表配置模块五个准备模块和评论处理模块、维度情感分析模块、关键大词提取模块三个应用模块,准备模块产出的结果会被用在应用模块中实现评论中的问题提取,如图1所示。下面分别对这些模块工作流程结合附图作出详细说明。
参照图2,所述行业维度建模包括人为分析、特征工程、数据建模、数据分析四个主要步骤。
人为分析:对于一个行业的电商宝贝(毛巾、风扇、沙发等),我们可以筛选几个卖的好的宝贝和几个卖的不好的宝贝,观察其中的规律。根据行业确定这个行业下需要分析的商品维度,不同的行业不一样,比如毛巾在意材质、吸水性等问题,风扇就在意制冷、风力等问题。电商平台的宝贝页面都有一些宝贝的详细介绍,我们需要找到里面这个行业特有的宝贝属性,和容易对宝贝的销量产生影响的特征,可以结合一部分宝贝评论来观察客户在意的问题点。这里我们可以不用吝啬地把所有可能的特征都纳入备选特征中。
特征工程:需要通过爬虫获取一部分这个行业下的商品数据,历史的销量等数据,把宝贝页面上的一些参数转化为标准化的特征列,然后对字段的内容做单位的统一和清洗工作。
数据建模:构建好特征后,选择一些字段作为预测值,比如销量、价格、日销量、月销量等。选择模型对样本进行训练,比如LightGBM、XGBoost等算法,这些方法训练过程中可以得到特征的重要性排序,对后面的数据分析工作很有帮助。
数据分析:经过以上几个步骤,我们已经能摸索到一些重要的商品特征,接下来需要对这些结果进行进一步的分析。可以通过jupyter工具使用matplotlib、seaborn等可视化python工具包对一些特征进行可视化分析,还有交叉特征分析、结合标签分析等方法,找到数据中的规律,最终确定一些重要性较高的特征作为之后的产品分析维度。
参照图3,维度标注模块包括标注样本准备、具体标注方法、标注结果评估三个步骤。
标注样本准备:确定要分析的行业的维度后,需要获取一部分该行业的宝贝评论作为标注样本,可以通过爬虫的方式爬取一些宝贝的评论。注意不要都爬同一个宝贝的评论,可以适当随机分布一些样本数量,比如需要1万条评论作为样本,可以选择100个宝贝每个宝贝抽取100条评论作为标注样本。注意太短的或者太长的评论可能会对标注效果有影响,所以最好限制评论内容的长度,一般会获得质量比较高的评价内容。
具体标注方法:可以使用一些开源的标注工具,比如百度提供的的标注平台,或者直接进行人工标注。具体要求是,标注出每一条评论中提及到的所有维度结果,比如“宝贝收到了,物流非常快,质量很好,很满意。”这条评论中,“物流非常快”和“质量很好”都需要标注出来分别打上“物流——好评”和“质量——好评”的标签。
标注结果评估:经过上述的具体标注方法得到标注结果后,可以抽样检查一部分标注内容,比如上述的例子如果维度标注错误、情感标注错误、漏标等问题,都需要严格检查,否则我们的模型会产生比较大的误差或者漏判断,错误较多的部分需要重新标注,直到达到预期的准确率。
参照图4,模型训练模块包括文本预处理、模型搭建、模型训练、模型保存四个步骤。
文本预处理:得到标注样本后,需要把文本转变为计算机能够“看懂”的语言,即文本向量化过程。先对文本进行分句,然后分词,然后构建索引词表,然后把分词评论转为索引,然后进行padding统一向量长度。
模型搭建:本方法没有使用Bert等自然语言处理领域复杂模型,因为模型参数太多所需要的计算资源会成倍增加。而且评论分句后的评论内容特别短,如果设计到维度和情感也会比较简单,拐弯抹角的表达比较少出现,所以放弃了Bert强大的上下文推理能力,而是采用了一层Embedding和两层Dense的神经网络模型。优势是训练速度很快,而且不需要很高的成本,已经可以满足大部分的评论内容分析,并且可以通过完善样本快速迭代优化,适合线上环境使用。
模型训练:把处理好的向量化文本作为输入传入搭建好的模型中,这里需要注意的是维度模型要使用sklearn中集成的KerasClassifier模型结合OneVsRestClassifier进行训练,因为要利用OneVsRestClassifier的多标签分类功能。训练好维度模型后,维度模型下面的情感分析模型可以直接用KerasClassifier进行训练,因为情感分析只需要单标签分类。
模型保存:最后保存分词模型、索引词表、向量化模型、多维度分类模型、各维度情感分析模型。
参照图5,关键词提取模块包括词频统计提取关键词、生成候选关键词表两个步骤。
词频统计提取关键词:标注后的评论样本读取到Dataframe中,循环筛选各个维度下的好中差评论样本,使用jieba中的分词方法提取出这些评论中的关键词,然后分别统计数量,然后按照数量从大到小排序。
生成候选关键词:将提取出的关键词存放到对应的维度和评分路径下作为候选关键词库。
参照图6,大小词表配置模块包括大小词整理、大小词表生成两个步骤。
大小词表整理:从关键词候选词库中,整理出每个维度每个情感分下的大小词。比如毛巾行业的材质维度的好评候选词库中有“舒适”和“舒服”两个同义词,可以都放到“材质舒适”这个大词下,写在json中,格式为{"material":{"1":{"材质舒适":["舒服","舒适"]}}}。“material”代表材质,“1”代表好评。
大小词表生成:解析整理的大小词json文件,根据行业和大小词顺序自动生成唯一的id存入Dataframe中,然后通过to_csv函数存为本地csv文件,最后导入到mysql数据库中方便维护和管理。
参照图7,评论处理模块包括文本标准化处理、评论分句、导入模型、文本向量化四个步骤。
文本标准化处理:使用re模块编写正则表达式,之保留评论中的标点、中英文、数字等符号。
评论分句:使用re模块的正则表达式,以中英文逗号、句号等标点为标志对评论进行分句处理,也就是把一条评论拆为多条存入Dataframe中,并生成分句在原句中的索引方便找到原始评论。
导入模型:导入准备阶段中保存的分词模型、索引词表、向量化模型。
文本向量化:使用上述模型对评论分句进行向量化处理转为向量矩阵。
参照图8,维度情感分析模块包括维度分类、维度情感分析两个步骤。
维度分类:导入准备阶段中保存的对应行业多维度分类模型,将向量化后的评论传入模型中,得到预测的维度结果。
维度情感分析:筛选上个步骤中各个维度的评论,对每个维度的评论加载对应维度的情感分析模型,将向量化的评论传入模型中,得到每个维度的评论的情感分。
参照图9,关键大词提取模块包括大小词配置表转为字典格式、根据对应维度和情感分获取大小词、匹配小词得到大词三个步骤。
大小词配置表转为字典格式:导入准备阶段得到的大小词表存入Dataframe中,通过groupby函数将维度、情感分、行业等字段作为条件得到groupby之后的表,直接通过list和dict两次强制类型转换转为字典,方便快速匹配和查找。
根据对应维度和情感分获取大小词:通过维度、情感分和行业等字典的key字段可以筛选出一批大小词。
匹配小词得到大词:匹配定位到的每一个小词,如果小词存在于评论内容中,就把这个大词添加到这条评论后面的关键词字段中,所有评论匹配结束后就得到了所有评论的分析结果。
根据得到的关键大词和情感分,利用数据可视化工具,根据用户评论的时间按月显示各关键大词的情感分走势,如图10所示。也可以通过本发明的方法获取多个竞品的用户评论的关键大词和情感分与产品进行比对分析,如图11所示。
参照图12,结果评估模块包括错误样本统计、维度分类和维度情感重新标注、重新执行模型训练模块三个步骤。
错误样本统计:1、模型训练模块会把标注样本分为训练样本和测试样本,训练样本直接用于训练模型,训练之后的模型可以传入测试样本得到维度分类和维度情感分析结果,比较标注的测试样本和模型预测的结果,统计各维度分类准确率和各维度情感分析准确率;2、关键大词提取模块之后会得到带有维度分类和维度情感结果的评论,可以抽样一部分,如平均抽样各维度结果500条,人工校验后统计各维度分类准确率和各维度情感分析准确率。
维度分类和维度情感重新标注:根据统计结果采取不同的方式调整或者补充样本,如果维度分类错误率高,就补充该维度样本,增加该维度在样本中的权重。如果维度情感分析错误率高,就调整该维度各情感分样本比例,使该维度情感样本更均衡。
重新执行模型训练模块:将补充调整后的样本,放入模型训练模块重新训练,更新维度分类模型和对应的维度情感分析模型。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于电商平台用户评论的产品问题分析方法,其特征在于,包括步骤:
(1)构建特征维度:根据行业和\或产品属性构建用于产品问题分析的特征维度;
(2)标注训练样本:通过爬虫获取足够数量的同一行业或同一类型产品的用户评论数据作为样本,根据中英文断句的标点符号对样本进行分句处理;根据(1)中构建的特征维度进行标注,得到带有维度标签和各维度情感标签的训练样本;
(3)训练模型:搭建包括至少一个Embedding层和两个Dense层的神经网络模型,使用(2)中标注后的训练样本按照7比3或8比2的比例拆分为训练样本和测试样本,对训练样本进行分词处理得到分词模型,并构建索引词表,然后将分词后的文本训练向量化模型,向量化后的样本训练得到多维度分类模型和各维度情感分析模型;
(4)提取候选关键词:循环筛选包括各个维度分类下的各情感分的训练样本,利用词频统计提取出排在前N位的分词结果,纳入候选关键词库;
(5)配置大小词映射表:对候选关键词库中涉及相同问题的关键词进行分类合并,设置可统领涉及同类问题的小词的大词,得到大小词映射表;
(6)用户评论预处理:根据中英文断句的标点符号对评论进行分句处理;对评论分句使用(3)中得到的分词模型、索引词表和向量化模型进行向量化处理转为向量矩阵;
(7)特征维度分类:将分句向量矩阵导入多特征维度分类模型中,得到维度分类结果;
(8)情感分析:得到分句的维度分类结果后,加载对应维度的情感分析模型,得到所有分句的情感分;
(9)提取关键大词:通过得到的维度分类和情感分,根据大小词映射表,通过匹配小词来得到对应的大词;
(10)根据得到的关键大词和情感分,按月显示产品的各关键大词的情感分均值历史走势或者获取一个或多个竞品的用户评论的关键大词和情感分与产品进行比对分析;
(11)校验、评估:对(3)中得到的测试样本,使用(3)中得到的多维度分类模型和各维度情感分析模型,得到每一条样本的维度结果和各维度情感分,和测试样本自带的标注结果对比,得到维度分类准确率和各维度情感分析准确率,对未达到90%准确率的维度,重复步骤(2)和(3),进行样本补充;步骤(9)之后得到每一条用户评论对应的维度和各维度情感分,对结果进行校验得到维度分类准确率和各维度情感分析准确率,对未达到90%准确率的维度,重复步骤(2)和(3),进行样本补充。
2.如权利要求1所述的基于电商平台用户评论的产品问题分析方法,其中,用户评论数据通过爬虫选择多个同类产品的评论获取。
3.如权利要求2所述的基于电商平台用户评论的产品问题分析方法,其中,采用人工标注或者开源工具对训练样本进行标注。
4.如权利要求3所述的基于电商平台用户评论的产品问题分析方法,其中,利用词频统计提取出排在前50位的分词结果,纳入候选关键词库。
5.如权利要求4所述的基于电商平台用户评论的产品问题分析方法,其中,情感分包括1、-1和0,分别对应好评、差评、中评。
6.一种用于权利要求1所述分析方法的产品问题分析系统,其特征在于,包括特征维度构建模块、训练样本标注模块、模型训练模块、候选关键词提取模块,大小词映射表配置模块,用户评论预处理模块,特征维度分类模块,情感分析模块和关键大词提取模块、产品问题分析显示模块以及结果评估模块;其中:
特征维度构建模块用于根据行业和\或产品属性构建用于产品问题分析的特征维度;
训练样本标注模块用于获取足够数量的同一行业或同一类型产品的用户评论数据作为样本,根据中英文断句的标点符号对样本进行分句处理;根据(1)中构建的特征维度进行标注,得到带有维度标签和各维度情感标签的训练样本;
模型训练模块用于搭建包括至少一个Embedding层和两个Dense层的神经网络模型,使用训练样本标注模块中标注后的训练样本按照7比3或8比2的比例拆分为训练样本和测试样本,对训练样本进行分词处理得到分词模型,并构建索引词表,然后将分词后的文本训练向量化模型,向量化后的样本训练得到多维度分类模型和各维度情感分析模型;
候选关键词提取模块用于循环筛选包括各个维度分类下的各情感分的训练样本,利用词频统计提取出排在前N位的分词结果,纳入候选关键词库;
大小词映射表配置模块用于对候选关键词库中涉及相同问题的关键词进行分类合并,设置可统领涉及同类问题的小词的大词,得到大小词映射表;
用户评论预处理模块用于根据中英文断句的标点符号对评论进行分句处理;对评论分句使用模型训练模块中得到的分词模型、索引词表和向量化模型进行向量化处理转为向量矩阵;
特征维度分类模块用于将分句向量矩阵导入多特征维度分类模型中,得到维度分类结果;
情感分析模块用于得到分句的维度分类结果后,加载对应维度的情感分析模型,得到所有分句的情感分;
关键大词提取模块用于通过得到的维度分类和情感分,根据大小词映射表,通过匹配小词来得到对应的大词;
产品问题分析显示模块用于根据得到的关键大词和情感分,按月显示产品的各关键大词的情感分均值历史走势或者获取一个或多个竞品的用户评论的关键大词和情感分与产品进行比对分析;
结果评估模块用于对模型训练模块中得到的测试样本,使用模型训练模块中得到的多维度分类模型和各维度情感分析模型,得到每一条样本的维度结果和各维度情感分,和测试样本自带的标注结果对比,得到维度分类准确率和各维度情感分析准确率,对未达到90%准确率的维度,重复样本标注模块和模型训练模块,进行样本补充;步骤关键大词提取模块之后得到每一条用户评论对应的维度和各维度情感分,对结果进行校验得到维度分类准确率和各维度情感分析准确率,对未达到90%准确率的维度,重复执行样本标注模块和模型训练模块,进行样本补充。
7.如权利要求6所述的基于电商平台用户评论的产品问题分析系统,其中,用户评论数据通过爬虫选择多个同类产品的评论获取。
8.如权利要求7所述的基于电商平台用户评论的产品问题分析系统,其中,训练样本标注模块中用人工标注或者开源工具对训练样本进行标注。
9.如权利要求8所述的基于电商平台用户评论的产品问题分析系统,其中,候选关键词提取模块中利用词频统计提取出排在前50位的分词结果,纳入候选关键词库。
10.如权利要求9所述的基于电商平台用户评论的产品问题分析系统,其中,情感分析模块中情感分包括1、-1和0,分别对应好评、差评、中评;所述结果评估模块中评价标准包括,维度分类准确率和维度情感分析准确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110684591.9A CN113627969A (zh) | 2021-06-21 | 2021-06-21 | 一种基于电商平台用户评论的产品问题分析方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110684591.9A CN113627969A (zh) | 2021-06-21 | 2021-06-21 | 一种基于电商平台用户评论的产品问题分析方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113627969A true CN113627969A (zh) | 2021-11-09 |
Family
ID=78378180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110684591.9A Pending CN113627969A (zh) | 2021-06-21 | 2021-06-21 | 一种基于电商平台用户评论的产品问题分析方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627969A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114169926A (zh) * | 2021-12-06 | 2022-03-11 | 广东好太太智能家居有限公司 | 基于用户评论的商品数据分析方法、系统、设备和介质 |
CN114429384A (zh) * | 2021-12-30 | 2022-05-03 | 杭州盟码科技有限公司 | 基于电商平台的产品智能推荐方法及系统 |
CN115098650A (zh) * | 2022-08-25 | 2022-09-23 | 华扬联众数字技术股份有限公司 | 基于历史数据模型的评论信息分析方法及相关装置 |
CN117114807A (zh) * | 2023-08-24 | 2023-11-24 | 众合九通(北京)电子科技有限公司 | 一种基于用户关系的商品推荐方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207855A (zh) * | 2013-04-12 | 2013-07-17 | 广东工业大学 | 针对产品评论信息的细粒度情感分析系统及方法 |
CN108038725A (zh) * | 2017-12-04 | 2018-05-15 | 中国计量大学 | 一种基于机器学习的电商产品客户满意度分析方法 |
CN108062304A (zh) * | 2017-12-19 | 2018-05-22 | 北京工业大学 | 一种基于机器学习的商品评论数据的情感分析方法 |
US20180260860A1 (en) * | 2015-09-23 | 2018-09-13 | Giridhari Devanathan | A computer-implemented method and system for analyzing and evaluating user reviews |
CN109255027A (zh) * | 2018-08-27 | 2019-01-22 | 上海宝尊电子商务有限公司 | 一种电商评论情感分析降噪的方法和装置 |
-
2021
- 2021-06-21 CN CN202110684591.9A patent/CN113627969A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207855A (zh) * | 2013-04-12 | 2013-07-17 | 广东工业大学 | 针对产品评论信息的细粒度情感分析系统及方法 |
US20180260860A1 (en) * | 2015-09-23 | 2018-09-13 | Giridhari Devanathan | A computer-implemented method and system for analyzing and evaluating user reviews |
CN108038725A (zh) * | 2017-12-04 | 2018-05-15 | 中国计量大学 | 一种基于机器学习的电商产品客户满意度分析方法 |
CN108062304A (zh) * | 2017-12-19 | 2018-05-22 | 北京工业大学 | 一种基于机器学习的商品评论数据的情感分析方法 |
CN109255027A (zh) * | 2018-08-27 | 2019-01-22 | 上海宝尊电子商务有限公司 | 一种电商评论情感分析降噪的方法和装置 |
Non-Patent Citations (1)
Title |
---|
苏兵杰等: "基于XGBoost算法的电商评论文本情感识别模型", 《物联网技术》, no. 01, 20 January 2018 (2018-01-20) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114169926A (zh) * | 2021-12-06 | 2022-03-11 | 广东好太太智能家居有限公司 | 基于用户评论的商品数据分析方法、系统、设备和介质 |
CN114429384A (zh) * | 2021-12-30 | 2022-05-03 | 杭州盟码科技有限公司 | 基于电商平台的产品智能推荐方法及系统 |
CN114429384B (zh) * | 2021-12-30 | 2022-12-09 | 杭州盟码科技有限公司 | 基于电商平台的产品智能推荐方法及系统 |
CN115098650A (zh) * | 2022-08-25 | 2022-09-23 | 华扬联众数字技术股份有限公司 | 基于历史数据模型的评论信息分析方法及相关装置 |
CN117114807A (zh) * | 2023-08-24 | 2023-11-24 | 众合九通(北京)电子科技有限公司 | 一种基于用户关系的商品推荐方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107491531B (zh) | 基于集成学习框架的中文网络评论情感分类方法 | |
CN107633007B (zh) | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 | |
CN113627969A (zh) | 一种基于电商平台用户评论的产品问题分析方法和系统 | |
CN112862569B (zh) | 基于图像和文本多模态数据的产品外观风格评价方法和系统 | |
CN112905739A (zh) | 虚假评论检测模型训练方法、检测方法及电子设备 | |
Haque et al. | Opinion mining from bangla and phonetic bangla reviews using vectorization methods | |
Samah et al. | The best malaysian airline companies visualization through bilingual twitter sentiment analysis: a machine learning classification | |
Jagadeesan et al. | Twitter Sentiment Analysis with Machine Learning | |
Kumari et al. | Extracting feature requests from online reviews of travel industry. | |
Yarkareddy et al. | Sentiment analysis of amazon fine food reviews | |
Matrutty et al. | Sentiment analysis of visitor reviews on star hotels in manado city | |
Skondras et al. | Efficient Resume Classification through Rapid Dataset Creation Using ChatGPT | |
Anggara et al. | Analysis of Netizen Comments Sentiment on Public Official Statements on Instagram Social Media Accounts | |
CN117235253A (zh) | 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法 | |
Riesener et al. | Concept for the identification of product innovation potentials by the application of text mining | |
Urkude et al. | Comparative analysis on machine learning techniques: a case study on Amazon product | |
Goumy et al. | Ecommerce Product Title Classification. | |
Anastasopoulos et al. | Computational text analysis for public management research: An annotated application to county budgets | |
Datta et al. | FERVENCY: A Squashy Intrigue to Ascertain Emotions using Textual Categorization | |
Ikhsanti et al. | Implementation of the c4. 5 decision tree learning algorithm for sentiment analysis in e-commerce application reviews on google play store | |
Zare et al. | The Investigation of Multiple Product Rating Based on Data Mining Approaches | |
Yadav | Sentiment Analysis of Customer Reviews on Amazon Electronics Product: Natural Language Processing Approach and Machine Learning | |
Alam et al. | BRevML: classifying Bangla reviews for e-commerce using machine learning | |
CN114493760A (zh) | 电商云数据分析方法及系统 | |
Anastasopoulos et al. | Computational text analysis for public management research |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211109 |