CN111914086A - 一种基于lstm神经网络的手机评论分析方法及系统 - Google Patents

一种基于lstm神经网络的手机评论分析方法及系统 Download PDF

Info

Publication number
CN111914086A
CN111914086A CN202010643350.5A CN202010643350A CN111914086A CN 111914086 A CN111914086 A CN 111914086A CN 202010643350 A CN202010643350 A CN 202010643350A CN 111914086 A CN111914086 A CN 111914086A
Authority
CN
China
Prior art keywords
text
neural network
mobile phone
theme
lstm neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010643350.5A
Other languages
English (en)
Inventor
王智文
庚佳颖
王宇航
李秋玲
安晓宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University of Science and Technology
Original Assignee
Guangxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Science and Technology filed Critical Guangxi University of Science and Technology
Priority to CN202010643350.5A priority Critical patent/CN111914086A/zh
Publication of CN111914086A publication Critical patent/CN111914086A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Computing Systems (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于LSTM神经网络的手机评论分析方法及系统,包括,采集各大网络平台中的文本评论原始数据进行预处理,形成样本数据集;将样本数据集输入基于LSTM神经网络构建的文本情感分析模型中,获得正负情感倾向文本分类的文本语料;利用语义网络主题聚类策略构建LDA主题模型,从文本语料中找到正负情感倾向文本的关键需求主题;文本情感分析模型提取关键需求主题分析消费者的需求并生成评价分析报告,为运营商制定营销策略提供依据。本发明为后续LDA主题提取研究提供基础,使运营商和生产商能够在第一时间在宏观上了解客户的需求,从需求上改变产品迎合市场,达到双赢局面,具有一定的实时性、准确性、适用性、经济发展推动性。

Description

一种基于LSTM神经网络的手机评论分析方法及系统
技术领域
本发明涉及文本数据挖掘技术领域,尤其涉及一种基于LSTM神经网络的手机评论分析方法及系统。
背景技术
当今社会是一个飞速发展的社会,无论是信息的流通还是科技的发展都有质的飞跃,大数据伴随着时代科技的发展应运而生,随之而来的还有人与人之间越来越密切的交流,日常生活的方方面面也有着许多的便利。科技的发展为我们提供便利的同时也产生了大量的数据,例如我们日常生活中打开电脑浏览网页就产生了浏览记录,我们网上购物会产生购物记录、物流记录当我们对所购买的产品进行评论的时候就有产生了网络评论数据。消费者购买商品时很大一部分看重的就是商品的评论,研究商品评论对于消费者行为的判断有重要意义,同时也为商家提供了有效的建议使其在产品自身的改良、销售量的预测、确定目标销售网络以及物流管理得到更加全面的改善和优化使其能够更加贴合市场满足消费者需求从而得到更好的回报。当打开一个商品的评论时我们发现仅仅单件产品的评论就可以成千上万,且仅仅一个购物平台上的同类型产品就不下几十种。当然市面上存在着各式各样的购物平台,最为大众熟知的就是阿里巴巴旗下的淘宝、天猫、还有唯品会、小红书、别样、亚马逊、京东、苏宁易购等等……在世界经济全球化的大环境下互联网购物的范围也不再仅仅局限于国内了越来越多的互联网公司把目光投向了海外市场,也就出现了更多的海外购物平台,各个电商平台在海外市场的销售额不断地增长甚至直逼国内的销售额,这就意味着在商品的评论中可能会出现不同的语言和不同环境下的评论,这使网络评论的分析显得尤为重要。
与此同时云时代催生的另一产物就是数据挖掘技术。随着大数据时代的到来文本数据挖掘也得到了越来越多的重视,近几年来我们可以看到的事实是全世界的购物平台和社交网络平台如雨后春笋般拔地而起。这就意味着,全世界的人们每天通过语音通话、电子邮件、网络聊天软件和信息等各种通信所创造的全部信息,这些信息中存在着大量的文本信息,网络评论就是一个很好的例子,并且随着时间的推移数据量只会越来越大,这样的趋势会一直持续下去。无疑在这样的机遇和挑战下,数据挖掘技术是急需研究发展和完善的技术。而在日益增加的海量文本的研究方面文本数据挖掘有着重要的作用。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明提供了一种基于LSTM神经网络的手机评论分析方法及系统,能够解决运营商和生产商无法及时准确的了解消费者需求而产生运营亏损的问题。
为解决上述技术问题,本发明提供如下技术方案:包括,采集各大网络平台中的文本评论原始数据进行预处理,形成样本数据集;将所述样本数据集输入基于LSTM神经网络构建的文本情感分析模型中,获得正负情感倾向文本分类的文本语料;利用语义网络主题聚类策略构建LDA主题模型,从所述文本语料中找到所述正负情感倾向文本的关键需求主题;所述文本情感分析模型提取所述关键需求主题分析消费者的需求并生成评价分析报告,为运营商制定营销策略提供依据。
作为本发明所述的一种基于LSTM神经网络的手机评论分析方法的一种优选方案,其中:所述预处理包括,采集所述文本评论原始数据进行统计分析,汇总整理成待预处理的语料;利用Word2vec训练所述语料,得到词向量;对所述词向量进行中文分词、数据清洗和机械压缩去重处理,取其求和的平均值并设置情感极性标签,形成所述样本数据集。
作为本发明所述的一种基于LSTM神经网络的手机评论分析方法的一种优选方案,其中:构建所述文本情感分析模型包括,句子特征提取和深度神经网络分类;所述句子特征提取包括,所述语料的输入、所述词向量的转化和句子向量特征提取;所述深度神经网络分类包括,输入节点、隐藏节点和输出节点。
作为本发明所述的一种基于LSTM神经网络的手机评论分析方法的一种优选方案,其中:所述文本情感分析模型需进行训练,包括,确定所述文本情感分析模型待训练的训练集是已标定好的、大量的、与测试集相关的语料集;提前进行预实验以确定所述训练集与所述测试集在所述样本数据中的占比,根据预实验结果定义所述训练集与所述测试集的比例为7:3;利用句子向量化和单词向量化将所述训练集中的所述语料转换成计算机能够识别的计算机语言并输入所述文本情感分析模型中进行训练;不断调整训练的所述文本情感分析模型,直至输出的调试结果在正负情感倾向判定的阈值内时结束训练;将所述测试集输入到训练好的所述文本情感分析模型中进行测试,得到测试集语料的正负情感倾向。
作为本发明所述的一种基于LSTM神经网络的手机评论分析方法的一种优选方案,其中:所述判定包括,若输出结果位于阈值区间的左侧,则判断输入的所述语料的情感倾向为负向;若输出结果位于阈值区间的右侧,则判断输入的所述语料的情感倾向为正向。
作为本发明所述的一种基于LSTM神经网络的手机评论分析方法的一种优选方案,其中:构建所述LDA主题模型包括,词、主题、文档,如下,
p(词语|文档)=p(主题|文档)×p(词语|主题)
其中,p(词语|文档)是从给定的文档中计算得到,p(主题|文档)和p(词语|主题)进行拟合以调整其分布,直至符合单词文档的实际分布。
作为本发明所述的一种基于LSTM神经网络的手机评论分析方法的一种优选方案,其中:所述LDA主题模型还包括,所述p(词语|文档)是每个单词在各个文档中的词出现的概率;所述p(主题|文档)是每个主题在各个所述文档中出现的概率;所述p(词语|主题)是每个所述单词在各个所述主题中的概率。
作为本发明所述的一种基于LSTM神经网络的手机评论分析方法的一种优选方案,其中:包括,所述LDA主题模型从所述文本语料中的每篇文档的主题分布中抽取出一个所述主题;对抽取的所述主题中所对应的单词分布中再抽取出一个单词,依次重复循环,直至遍历所述文档中的全部词汇;最终找到所述正负情感倾向文本的所述关键需求主题。
作为本发明所述的一种基于LSTM神经网络的手机评论分析方法的一种优选方案,其中:提取所述关键需求主题包括,正向情感主题提取和负向情感主题提取。
作为本发明所述的一种基于LSTM神经网络的手机评论分析系统的一种优选方案,其中:包括,采集模块,用于采集所述各大网络平台中的所述文本评论原始数据和消费数据;分析模块连接于所述采集模块,其用于接收所述采集模块的采集数据信息进行预处理和学习分类处理,获得正负情感倾向文本分类的所述文本语料,根据提取的所述关键需求主题分析消费者的需求并生成所述评价分析报告,为卖家制定营销策略提供依据;提取模块与所述分析模块相连接,其用于提取所述文本语料中对应的所述正负情感倾向文本的所述关键需求主题并反馈给所述分析模块进行分析;输入输出管理模块与各模块相连接,其用于为各模块提供传输通信服务。
本发明的有益效果:本发明通过获取的文本数据进行清洗、分词和去词处理,基于python中数据分析库构建长短记忆神经网络模型,得到文本语料的情感倾向性并生成2个正负情感倾向的语料文档,为后续LDA主题提取研究提供基础,同时,本发明为消费者消费决策给出合理的建议,且运营商和生产商能够在第一时间在宏观上了解客户的需求,从需求上改变产品迎合市场,达到双赢局面,具有一定的实时性、准确性、适用性、经济发展推动性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一个实施例所述的一种基于LSTM神经网络的手机评论分析方法的流程示意图;
图2为本发明第一个实施例所述的一种基于LSTM神经网络的手机评论分析方法的数据处理流程示意图;
图3为本发明第一个实施例所述的一种基于LSTM神经网络的手机评论分析方法的LSTM模型结构示意图;
图4为本发明第一个实施例所述的一种基于LSTM神经网络的手机评论分析方法的LDA主题模型结构关系示意图;
图5为本发明第一个实施例所述的一种基于LSTM神经网络的手机评论分析方法的两种方法对比测试输出曲线示意图;
图6为本发明第二个实施例所述的一种基于LSTM神经网络的手机评论分析系统的模块结构分布示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
文本数据挖掘是数据挖掘的一个分支,数据挖掘的过程就是在大量的有噪声的不完全的随机数据中提取出需要的有价值信息,针对大数据如何高效的找出人们在互联网上真正需要信息成为了现在急需解决的问题,而本发明方法旨在利用统计学原理结合计算机运算来提取搜索文本数据中的有价值信息。
参照图1,为本发明的第一个实施例,该实施例提供了一种基于LSTM神经网络的手机评论分析方法,包括:
S1:采集各大网络平台中的文本评论原始数据进行预处理,形成样本数据集。参照图2,其中需要说明的是,预处理包括:
采集文本评论原始数据进行统计分析,汇总整理成待预处理的语料;
利用Word2vec训练语料,得到词向量;
对词向量进行中文分词、数据清洗和机械压缩去重处理,取其求和的平均值并设置情感极性标签,形成样本数据集。
具体的,还包括:
利用Simhash策略比较多个文档中simhash值的海明距离,获取样本数据集中文档的相似度;
清洗评论文本数据以删除重复文本和无意义文本并进行机械压缩去词;
分别利用统计角度、规则角度、语义角度以及理解角度进行分词处理,得到最终的样本数据集。
S2:将所述样本数据集输入基于LSTM神经网络构建的文本情感分析模型中,获得正负情感倾向文本分类的文本语料。参照图3,本步骤需要说明的是,构建文本情感分析模型包括:
句子特征提取和深度神经网络分类;
句子特征提取包括,语料的输入、词向量的转化和句子向量特征提取;
深度神经网络分类包括,输入节点、隐藏节点和输出节点。
进一步的,文本情感分析模型需进行训练,包括:
确定文本情感分析模型待训练的训练集是已标定好的、大量的、与测试集相关的语料集;
提前进行预实验以确定训练集与测试集在样本数据中的占比,根据预实验结果定义训练集与测试集的比例为7:3;
利用句子向量化和单词向量化将训练集中的语料转换成计算机能够识别的计算机语言并输入文本情感分析模型中进行训练;
不断调整训练的文本情感分析模型,直至输出的调试结果在正负情感倾向判定的阈值内时结束训练;
将测试集输入到训练好的文本情感分析模型中进行测试,得到测试集语料的正负情感倾向。
具体的,判定包括:
若输出结果位于阈值区间的左侧,则判断输入的语料的情感倾向为负向;
若输出结果位于阈值区间的右侧,则判断输入的语料的情感倾向为正向。
S3:利用语义网络主题聚类策略构建LDA主题模型,从所述文本语料中找到所述正负情感倾向文本的关键需求主题。参照图4,其中还需要说明的是,构建LDA主题模型包括:
词、主题、文档,如下,
p(词语|文档)=p(主题|文档)×p(词语|主题)
其中,p(词语|文档)是从给定的文档中计算得到,p(主题|文档)和p(词语|主题)进行拟合以调整其分布,直至符合单词文档的实际分布。
进一步的,LDA主题模型还包括,
p(词语|文档)是每个单词在各个文档中的词出现的概率;
p(主题|文档)是每个主题在各个文档中出现的概率;
p(词语|主题)是每个单词在各个主题中的概率。
具体的,LDA模型对LSTM模型分离出的带有正负情感标签的文档进行主题提取包括:
(1)正向情感主题提取
将带有正向情感标记的文档代入到建立好的LDA模型中,输出结果如下表所示:
表1:正向情感主题提取结果数据表。
0 1 2 3 4 5 6 7 8 9
主题1 质量 做工 喜欢 不错 满意 收到 手表 物流 很快 宝贝
主题2 孩子 喜欢 手表 功能 电话 不错 特别 华为
主题3 功能 外观 不错 清晰 定位 做工 通话 手表 续航 程度
参照表1,能够看出带有正向情感标记的评论经过模型训练提取出三个主题,每个主题各提取出十个关键词,主题1中“质量”、“做工”和“物流”是主要高频词,对于电话手表的消费者而言,作为一个电子产品的质量做工是主要的关注点,其次就是高效率时代物流的快慢也是消费者对产品评价的一部分,虽然物流一般是与物流公司相关,但在消费者眼里在电商平台购买的商品物流的快慢与商品的满意度是有一定关系的,从主题1可以发现对于一个电商产品,商家的竞争力不仅仅存在于产品自身的质量做工,合作物流也是很大加分项或者扣分项。
主题2中“孩子”、“特别”和“华为”是主要的高频词,电话手表的目标消费人群是有经济购买能力的家长或长辈,但电话手表的使用者不但包括消费者还要包括佩戴手表的小孩子,所以主题2中孩子的喜好也是很重要的关注点,从关键词中可以看出对电话手表衡量的重点首先是孩子的喜好,其次就是通话的质量,从主题2可以发现对于消费者而言,产品的具体使用者的喜好和最基本的通话功能是主要的关注点。
主题3中“功能”、“外观”和“续航”是主要高频词,作为长辈为孩子选择电话手表的主要原因还是希望能与孩子取得联系,那么续航能力还有功能则是消费者自己最主要的侧重点,外观则是迎合小孩子的喜好,从主题2可以发现对于消费者而言,产品的续航能力是对电话手表的硬性要求。
(2)负向情感主题提取
将带有负向情感标记的文档代入到建立好的LDA模型中,输出结果如下表所示:
表2:负向情感主题提取结果数据表。
0 1 2 3 4 5 6 7 8 9
主题1 手表 电话 操作 喜欢 收到 孩子 功能 质量 简单
主题2 灵敏度 手表 客服 东西 不错 赠品 垃圾
主题3 评价 好评 客服 用户 填写 手表 收到 系统 默认 方位
参照表2,能够看出带有负向情感标记的评论经过模型训练提取出了三个主题,每个主题各提取出十个关键词,从图中可以看出主题1中“操作”、“功能”和“简单”是主要高频词,对于电话手表的消费者而言,消费者对一个电子产品的不满意主要来自产品的质量以及操作功能方面,没有足够的功能或者消费者最想要的功能不存在,从主题1可以发现,消费者对电话手表的功能要求更广泛,由于使用者都是年龄偏小的孩子所以操作要求更简洁。
主题2中“灵敏度”和“赠品”是两个比较有价值的高频词汇,对于电话手表的使用者来说,小孩子耐心较少当产品出现卡顿或者响应较慢时可能会不知所措,所以电话手表的灵敏度是必须要过关的,消费者在电子产品的灵敏度上给出差评也符合实际情况,其关注于赠品的负面情感,好的赠品可以锦上添花但如果赠品不满意结果适得其反,从主题2中可以发现消费者对于电子产品的灵敏度是十分看重的,对于商家而言,没有赠品活或者赠品过于廉价都可能为产品减分,合适的赠品和优秀的产品才是如虎添翼。
S4:所述文本情感分析模型提取所述关键需求主题分析消费者的需求并生成评价分析报告,为运营商制定营销策略提供依据。本步骤还需要说明的是:
LDA主题模型从文本语料中的每篇文档的主题分布中抽取出一个主题;
对抽取的主题中所对应的单词分布中再抽取出一个单词,依次重复循环,直至遍历文档中的全部词汇;
最终找到正负情感倾向文本的关键需求主题。
具体的,提取关键需求主题包括:
正向情感主题提取和负向情感主题提取。
进一步的是,分析正向情感主题提取的关键词:
由于家长都有自己的工作,孩子也要上学或者玩耍,家长无法时时刻刻都陪在孩子身边,但作为家长对子女的安全总是不放心,因此越来越多的家长选择电话手表或其他相近产品与孩子进行实时互动,对于家长来说,可以借助电话手表的远程定位等功能实时了解孩子的安全状况。
分析负向情感主题提取的关键词:
由于电子手表的是有小孩子佩戴所以在操作上消费者主要会有操作简单、灵敏度高、功能齐全能要求,再者从消费者的角度来说更希望商家可以赠送一些合适的赠品,因此符合这些条件的电话手表更泥鞥让家长倾心。
优选的,本实施例还需要说明的是,现有的一种基于注意力卷积神经网络的用户评论情感分析方法利用用户评论文本数据导入嵌入模块输出评论的向量表达,结合卷积神经网络提取特征,得到序列特征向量和评论的局部特征向量并进行注意力权重运算,获得评论的最终特征表达以输入分类器进行分类,根据模型的预测结果和真实数据标签计算误差,采用梯度下降策略训练模型,将待情感分类的新数据输入训练好的模型中进行情感分析预测,该方法主要解决的技术问题是如何克服传统神经网络模型特征提取的不足,其仅针对特征提取进行改进,提高情感分类的准确率,但是在面对单个句或短语效果较好,面对较长的用户评论时会降低情感分析的准确性;而本发明方法利用文本情感分析模型和LDA主题模型进行文本语料的分类和分析,针对筛选出的关键主题做进一步的消费需求分析生成分析报告,为运营商制定营销策略提供依据,本发明方法主要解决的技术问题是如何解决运营商和生产商无法及时准确的了解消费者需求而产生运营亏损的问题,重点不再是关注于特征选择而是如何训练更好的单词向量的问题。
优选的是,为了对本发明方法中采用的技术效果加以验证说明,本实施例选择传统的注意力卷积神经网络的用户评论情感分析方法与本发明方法进行对比测试,以科学论证的手段对比试验结果,以验证本发明方法所具有的真实效果;传统的注意力卷积神经网络的用户评论情感分析方法不具有适用性、分类性具有局限性、用户评论较长时则分析准确度较低,为验证本发明方法相较于传统方法具有较高的分析准确度、较全面的适用性,本实施例中将采用传统方法与本发明方法分别对电商平台中的43家销售儿童电子手表店铺的评论文本进行测量对比。
测试条件:(1)利用八爪鱼数据爬虫软件和捷豹数据采集软件采集淘宝、天猫、京东三个电商平台中的43家销售儿童电子手表店铺评论文本,其中,品牌授权店17家、旗舰店15家、电商直营店11家;
(2)以7:3比例划分训练集和测试集共100000条,利用python软件中的gensim库和tensorflow库调取LSTM神经网络情感倾向性分类;
(3)传统方法与本发明方法在SimuWorks中进行建模和仿真运行,输出相应的数据曲线。
参照图6,实线为本发明方法对应输出的曲线,虚线为传统方法对应输出的曲线,根据图6的示意,能够直观地看出实线的走势较为平缓,虚线的走势较为陡峭,且随着样本数据数量的增加,虚线呈直线下降趋势,实线虽有下降,但是下降趋势较小,不明显,实线相较于虚线而言,其走势是较稳定的,由此可见,本发明方法的分析准确度高于传统方法的分析准确度,即使面对大量数据也能很好的应用,验证了本发明方法具有的适用性。
实施例2
参照图6,为本发明的第二个实施例,该实施例不同于第一个实施例的是,提供了一种基于LSTM神经网络的手机评论分析系统,包括:
采集模块100,用于采集各大网络平台中的文本评论原始数据和消费数据。
分析模块200连接于采集模块100,其用于接收采集模块100的采集数据信息进行预处理和学习分类处理,获得正负情感倾向文本分类的文本语料,根据提取的关键需求主题分析消费者的需求并生成评价分析报告,为卖家制定营销策略提供依据。
提取模块300与分析模块200相连接,其用于提取文本语料中对应的正负情感倾向文本的关键需求主题并反馈给分析模块200进行分析。
输入输出管理模块400与各模块相连接,其用于为各模块提供传输通信服务。
优选的,本实施例还需要说明的是,分析模块200首先分析两个模型的触发场景、输入参数,通过分析触发场景了解系统是主动还是被动的发起方,例如,对交付器而言,其调用方是总控,那交付器的触发就是被动调用,输入参数就是文件的文件夹、单位及四属性,分析模块200具有独立性,接收数据参数进行内部运作,其基本思路是低耦合、高内聚,对于外部依赖越小越好,以较好的输出反馈;分析模块200在进行内部处理时需要分析流程的步骤和数据,数据用于驱动支持流程进展,流程用于分析清楚步骤以及每个步骤所需要的数据;而提取模块300根据分析模块200的分析行为组织逻辑运算,对分析任务进行对象抽取和归类,例如,一个业务任务对象是在程序运行过程中很多业务任务对象之一,对其进行抽取才能得到文本业务任务类,但是各个业务任务对象之间有所区别,提取模块300需要权衡各个业务任务对象之间是否需要进行剥离处理,通过选择字段做以区别,减少IF分支,准确的提取到所需的关键主题。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于LSTM神经网络的手机评论分析方法,其特征在于:包括,
采集各大网络平台中的文本评论原始数据进行预处理,形成样本数据集;
将所述样本数据集输入基于LSTM神经网络构建的文本情感分析模型中,获得正负情感倾向文本分类的文本语料;
利用语义网络主题聚类策略构建LDA主题模型,从所述文本语料中找到所述正负情感倾向文本的关键需求主题;
所述文本情感分析模型提取所述关键需求主题分析消费者的需求并生成评价分析报告,为运营商制定营销策略提供依据。
2.根据权利要求1所述的基于LSTM神经网络的手机评论分析方法,其特征在于:所述预处理包括,
采集所述文本评论原始数据进行统计分析,汇总整理成待预处理的语料;
利用Word2vec训练所述语料,得到词向量;
对所述词向量进行中文分词、数据清洗和机械压缩去重处理,取其求和的平均值并设置情感极性标签,形成所述样本数据集。
3.根据权利要求1或2所述的基于LSTM神经网络的手机评论分析方法,其特征在于:构建所述文本情感分析模型包括,句子特征提取和深度神经网络分类;
所述句子特征提取包括,所述语料的输入、所述词向量的转化和句子向量特征提取;
所述深度神经网络分类包括,输入节点、隐藏节点和输出节点。
4.根据权利要求3所述的基于LSTM神经网络的手机评论分析方法,其特征在于:所述文本情感分析模型需进行训练,包括,
确定所述文本情感分析模型待训练的训练集是已标定好的、大量的、与测试集相关的语料集;
提前进行预实验以确定所述训练集与所述测试集在所述样本数据中的占比,根据预实验结果定义所述训练集与所述测试集的比例为7:3;
利用句子向量化和单词向量化将所述训练集中的所述语料转换成计算机能够识别的计算机语言并输入所述文本情感分析模型中进行训练;
不断调整训练的所述文本情感分析模型,直至输出的调试结果在正负情感倾向判定的阈值内时结束训练;
将所述测试集输入到训练好的所述文本情感分析模型中进行测试,得到测试集语料的正负情感倾向。
5.根据权利要求4所述的基于LSTM神经网络的手机评论分析方法,其特征在于:所述判定包括,
若输出结果位于阈值区间的左侧,则判断输入的所述语料的情感倾向为负向;
若输出结果位于阈值区间的右侧,则判断输入的所述语料的情感倾向为正向。
6.根据权利要求1或5所述的基于LSTM神经网络的手机评论分析方法,其特征在于:构建所述LDA主题模型包括,
词、主题、文档,如下,
p(词语|文档)=p(主题|文档)×p(词语|主题)
其中,p(词语|文档)是从给定的文档中计算得到,p(主题|文档)和p(词语|主题)进行拟合以调整其分布,直至符合单词文档的实际分布。
7.根据权利要求6所述的基于LSTM神经网络的手机评论分析方法,其特征在于:所述LDA主题模型还包括,
所述p(词语|文档)是每个单词在各个文档中的词出现的概率;
所述p(主题|文档)是每个主题在各个所述文档中出现的概率;
所述p(词语|主题)是每个所述单词在各个所述主题中的概率。
8.根据权利要求7所述的基于LSTM神经网络的手机评论分析方法,其特征在于:包括,
所述LDA主题模型从所述文本语料中的每篇文档的主题分布中抽取出一个所述主题;
对抽取的所述主题中所对应的单词分布中再抽取出一个单词,依次重复循环,直至遍历所述文档中的全部词汇;
最终找到所述正负情感倾向文本的所述关键需求主题。
9.根据权利要求8所述的基于LSTM神经网络的手机评论分析方法,其特征在于:提取所述关键需求主题包括,正向情感主题提取和负向情感主题提取。
10.一种基于LSTM神经网络的手机评论分析系统,其特征在于:包括,
采集模块(100),用于采集所述各大网络平台中的所述文本评论原始数据和消费数据;
分析模块(200)连接于所述采集模块(100),其用于接收所述采集模块(100)的采集数据信息进行预处理和学习分类处理,获得正负情感倾向文本分类的所述文本语料,根据提取的所述关键需求主题分析消费者的需求并生成所述评价分析报告,为卖家制定营销策略提供依据;
提取模块(300)与所述分析模块(200)相连接,其用于提取所述文本语料中对应的所述正负情感倾向文本的所述关键需求主题并反馈给所述分析模块(200)进行分析;
输入输出管理模块(400)与各模块相连接,其用于为各模块提供传输通信服务。
CN202010643350.5A 2020-07-07 2020-07-07 一种基于lstm神经网络的手机评论分析方法及系统 Pending CN111914086A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010643350.5A CN111914086A (zh) 2020-07-07 2020-07-07 一种基于lstm神经网络的手机评论分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010643350.5A CN111914086A (zh) 2020-07-07 2020-07-07 一种基于lstm神经网络的手机评论分析方法及系统

Publications (1)

Publication Number Publication Date
CN111914086A true CN111914086A (zh) 2020-11-10

Family

ID=73227455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010643350.5A Pending CN111914086A (zh) 2020-07-07 2020-07-07 一种基于lstm神经网络的手机评论分析方法及系统

Country Status (1)

Country Link
CN (1) CN111914086A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434516A (zh) * 2020-12-18 2021-03-02 安徽商信政通信息技术股份有限公司 一种融合正文文本信息的自适应评论情感分析系统及方法
CN112738156A (zh) * 2020-12-11 2021-04-30 广东电力通信科技有限公司 一种适用于智能网关的独立镜像管理方法
CN112766769A (zh) * 2021-01-26 2021-05-07 南京利特嘉软件科技有限公司 一种基于大数据的客户评估方法及系统
CN113139060A (zh) * 2021-05-13 2021-07-20 杭州网易再顾科技有限公司 文本分析模型训练及文本分析方法、介质、装置及设备
CN113282704A (zh) * 2021-05-07 2021-08-20 天津科技大学 一种对评论有用性进行判断和筛选的方法与装置
CN113505581A (zh) * 2021-07-27 2021-10-15 北京工商大学 基于apso-lstm网络的教育大数据文本分析方法
CN114153952A (zh) * 2021-12-22 2022-03-08 南京智浩软件科技有限公司 一种面试考官管理系统及评分质量监测分析方法
CN115713085A (zh) * 2022-10-31 2023-02-24 北京市农林科学院 文献主题内容分析方法及装置
CN115757793A (zh) * 2022-11-29 2023-03-07 石家庄赞润信息技术有限公司 基于人工智能的话题分析预警方法、系统及云平台
CN116911280A (zh) * 2023-09-12 2023-10-20 深圳联友科技有限公司 一种基于自然语言处理的评论分析报告生成方法
CN117788036A (zh) * 2023-12-29 2024-03-29 广州伯威逊科技有限公司 一种基于营销反馈的生产计划管理方法及系统
CN117852507A (zh) * 2024-03-07 2024-04-09 南京信息工程大学 一种餐馆回头客预测模型、方法、系统及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446813A (zh) * 2017-12-19 2018-08-24 清华大学 一种电商服务质量综合评价的方法
CN111143549A (zh) * 2019-06-20 2020-05-12 东华大学 一种基于主题的舆情情感演化的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446813A (zh) * 2017-12-19 2018-08-24 清华大学 一种电商服务质量综合评价的方法
CN111143549A (zh) * 2019-06-20 2020-05-12 东华大学 一种基于主题的舆情情感演化的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋含平: "《交往、媒介、互联:新改革时代的新闻和转播,安徽省第八届新闻传播学科研究生论坛论文集》", 30 September 2017 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112738156A (zh) * 2020-12-11 2021-04-30 广东电力通信科技有限公司 一种适用于智能网关的独立镜像管理方法
CN112738156B (zh) * 2020-12-11 2023-05-26 广东电力通信科技有限公司 一种适用于智能网关的独立镜像管理方法
CN112434516A (zh) * 2020-12-18 2021-03-02 安徽商信政通信息技术股份有限公司 一种融合正文文本信息的自适应评论情感分析系统及方法
CN112434516B (zh) * 2020-12-18 2024-04-26 安徽商信政通信息技术股份有限公司 一种融合正文文本信息的自适应评论情感分析系统及方法
CN112766769A (zh) * 2021-01-26 2021-05-07 南京利特嘉软件科技有限公司 一种基于大数据的客户评估方法及系统
CN112766769B (zh) * 2021-01-26 2023-11-21 南京利特嘉软件科技有限公司 一种基于大数据的客户评估方法及系统
CN113282704A (zh) * 2021-05-07 2021-08-20 天津科技大学 一种对评论有用性进行判断和筛选的方法与装置
CN113139060A (zh) * 2021-05-13 2021-07-20 杭州网易再顾科技有限公司 文本分析模型训练及文本分析方法、介质、装置及设备
CN113505581A (zh) * 2021-07-27 2021-10-15 北京工商大学 基于apso-lstm网络的教育大数据文本分析方法
CN114153952A (zh) * 2021-12-22 2022-03-08 南京智浩软件科技有限公司 一种面试考官管理系统及评分质量监测分析方法
CN115713085B (zh) * 2022-10-31 2023-11-07 北京市农林科学院 文献主题内容分析方法及装置
CN115713085A (zh) * 2022-10-31 2023-02-24 北京市农林科学院 文献主题内容分析方法及装置
CN115757793B (zh) * 2022-11-29 2023-09-05 海南达润丰企业管理合伙企业(有限合伙) 基于人工智能的话题分析预警方法、系统及云平台
CN115757793A (zh) * 2022-11-29 2023-03-07 石家庄赞润信息技术有限公司 基于人工智能的话题分析预警方法、系统及云平台
CN116911280A (zh) * 2023-09-12 2023-10-20 深圳联友科技有限公司 一种基于自然语言处理的评论分析报告生成方法
CN116911280B (zh) * 2023-09-12 2023-12-29 深圳联友科技有限公司 一种基于自然语言处理的评论分析报告生成方法
CN117788036A (zh) * 2023-12-29 2024-03-29 广州伯威逊科技有限公司 一种基于营销反馈的生产计划管理方法及系统
CN117852507A (zh) * 2024-03-07 2024-04-09 南京信息工程大学 一种餐馆回头客预测模型、方法、系统及设备
CN117852507B (zh) * 2024-03-07 2024-05-17 南京信息工程大学 一种餐馆回头客预测模型、方法、系统及设备

Similar Documents

Publication Publication Date Title
CN111914086A (zh) 一种基于lstm神经网络的手机评论分析方法及系统
Bell Machine learning: hands-on for developers and technical professionals
US11204972B2 (en) Comprehensive search engine scoring and modeling of user relevance
US20220301024A1 (en) Sequential recommendation method based on long-term and short-term interests
CN110648163A (zh) 一种基于用户评论的推荐算法
US20180053234A1 (en) Description information generation and presentation systems, methods, and devices
Khan Development of an e-commerce sales Chatbot
CN109460508B (zh) 一种高效的垃圾评论用户群组检测方法
CN109902229B (zh) 一种基于评论的可解释推荐方法
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN115147130A (zh) 问题预测方法、设备、存储介质及程序产品
Lim et al. Mitigating online product rating biases through the discovery of optimistic, pessimistic, and realistic reviewers
CN111666757A (zh) 商品评论情感倾向分析方法、装置、设备和可读存储介质
CN101937432A (zh) 一种按照供需信息进行两方撮合的系统与方法
Abdullah et al. Evaluating E-commerce website content management system in assisting usability issues
CN110362662A (zh) 数据处理方法、装置以及计算机可读存储介质
Shokouhyar et al. Toward customer-centric mobile phone reverse logistics: using the DEMATEL approach and social media data
Tiwary Learning apache mahout
CN111177581A (zh) 一种基于多平台的社交电商网站商品推荐方法及装置
CN117151826B (zh) 多模态电商商品对齐方法、装置、电子设备及存储介质
CN113495987A (zh) 数据搜索方法、装置、设备和存储介质
Kathiravan et al. Sentiment analysis and text mining of online customer reviews for digital wallet apps of Fintech industry
Sagarino et al. Sentiment analysis of product reviews as customer recommendations in shopee philippines using hybrid approach
Kaur et al. Multi-layered sentiment analytical model for product review mining
Gupta et al. Twitter sentiment analysis using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination