CN113010639A - 一种基于电商平台的商品分析方法及装置 - Google Patents
一种基于电商平台的商品分析方法及装置 Download PDFInfo
- Publication number
- CN113010639A CN113010639A CN202110218489.XA CN202110218489A CN113010639A CN 113010639 A CN113010639 A CN 113010639A CN 202110218489 A CN202110218489 A CN 202110218489A CN 113010639 A CN113010639 A CN 113010639A
- Authority
- CN
- China
- Prior art keywords
- commodity
- information
- detected
- similar
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 103
- 230000011218 segmentation Effects 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000008451 emotion Effects 0.000 claims description 93
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 2
- 230000008569 process Effects 0.000 description 12
- 230000002996 emotional effect Effects 0.000 description 8
- 230000009193 crawling Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000008260 defense mechanism Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 241000411851 herbal medicine Species 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 229910052711 selenium Inorganic materials 0.000 description 1
- 239000011669 selenium Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种基于电商平台的商品分析方法及装置,用以解决用户很难在短时间内正确判断商品的优劣信息的问题。分析系统的爬虫模块根据用户的输入信息,确定出待检商品链接,并根据待检商品链接,爬取到待检商品的信息,其中,待检商品的信息包括待检商品的所属类别与评论信息;分析系统的爬虫模块根据待检商品的信息,在预先存储的数据库中确定出同类商品的信息,同类商品的信息包括同类商品的所属类别、所属电商平台与评论信息;分析系统的分析模块对待检商品的信息与同类商品的信息进行分词处理,并根据处理结果确定出待检商品与同类商品分别对应的分析结果。本申请通过上述方法,提高对商品优劣信息判断的速度。
Description
技术领域
本申请涉及计算机领域,尤其涉及一种基于电商平台的商品分析方法及装置。
背景技术
随着自然语言处理领域逐渐取得突破性发展,通过情感分析以及文本分析的方式,能够对电商平台方与商家提供购物人群评论数据参考信息。
电子商务应用的发展,越来越多的人群选择在电商网站进行购物。而利用自然语言处理对评论信息进行分析的方式并未惠及普通用户。因此,网购人群在选购商品时,只能自主浏览电商网站中商品的评论内容,通过其他网购人群的反馈信息,获取商品的优劣信息。而大众评论的繁杂和不一致,导致人为辨识的难度增加,很难在短时间内做出正确的判断。
发明内容
本申请实施例提供了一种基于电商平台的商品分析方法及装置,用以解决如下技术问题:用户很难在短时间内正确判断商品的优劣信息。
本申请实施例采用下述技术方案:分析系统的爬虫模块根据用户的输入信息,确定出待检商品链接,并根据待检商品链接,爬取到所述待检商品的信息,其中,待检商品的信息包括待检商品的所属类别与评论信息;分析系统的爬虫模块根据待检商品的信息,在预先存储的数据库中确定出同类商品的信息,同类商品的信息包括同类商品的所属类别、所属电商平台与评论信息;分析系统的分析模块对待检商品的信息与同类商品的信息进行分词处理,并根据处理结果确定出待检商品与同类商品分别对应的分析结果。
本申请实施例根据商品的链接爬取到该商品的信息,并对信息进行统计分析,能使用户快速获取到不同电商购物用户对该商品的评论统计。解决用户因大众评论的繁杂和不一致,导致辨识难度增加,很难在短时间内做出正确的判断的问题。并且,本申请实施例还对待测商品的同类商品进行信息分析,通过同类商品之间的评论对比,得出某一类商品在不同电商平台之间大众口碑的差异,使得用户在较短时间内对商品的优劣做出判定。
在本申请的一种实现方式中,分析系统的分析模块对待检商品的信息与同类商品的信息进行分词处理,并根据处理结果确定出待检商品与所述同类商品分别对应的分析结果,具体包括:分析模块对所述待检商品的信息与同类商品的评论信息,进行分词处理,获取对应的分词结果集,并在分词结果集中确定若干个关键字词;其中,分词结果集为对评论信息进行分词处理后的字词集合。
本申请实施例通过对评论信息进行分词处理,能够将评论信息中对语句情感无关的介词、人称代词、标点等信息过滤掉。通过这种方式不仅可以提高对评论信息情感分析的准确率,也缩短对情感得分的计算时间。
在本申请的一种实现方式中,分析模块对待检商品的信息与同类商品的评论信息,进行分词处理,获取对应的分词结果集,并在分词结果集中确定若干个关键字词,具体包括:通过双向最大匹配算法与Jieba分词,分别对评论信息进行分词处理;将处理结果进行交运算,得到分词结果集;统计所述分词结果集中的若干字词分别出现的次数;其中,关键字词用于计算情感得分。
本申请实施例通过双向最大匹配算法与Jieba分词两种方式,分别对评论信息进行分词处理,然后再取二者的交集。从而最大限度的将与情感无关的词语去除,从而使得到的分词结果集更加精确。
在本申请的一种实现方式中,根据关键字词,以及关键字词在预置词典库中的分数,对待检商品与所述同类商品分别对应的信息进行分析,具体包括:根据评论信息、关键字词,以及关键字词在预置词典库中的分数,分别对待检商品与所述同类商品的情感得分、好评率、差评率中的一项或多项进行分析。
在本申请的一种实现方式中,情感得分的分析,具体包括:根据评论信息的语序,确定语句中的若干个情感组;其中,情感组至少包括关键字词、关键字词的副词、关键字词的否定词中的一项或多项;根据预置词典库中分数,对情感组内的字词分别进行情感分数赋值,确定每个情感组的情感得分;将每个情感组的情感得分进行相加计算,得到评论信息的情感得分。
在本申请的一种实现方式中,根据处理结果确定出待检商品与所述同类商品分别对应的分析结果之后,方法还包括:将待检商品的情感得分与同类商品的情感得分进行偏差计算,得到偏差值;在偏差值处于预设第一阈值区间的情况下,将同类商品的情感得分作为评论信息的情感得分;在偏差值不处于所述预设第一阈值区间的情况下,对样本评论的情感得分与评论信息的情感得分进行均值计算,将计算后的均值作为评论信息的情感得分。
在本申请的一种实现方式中,根据待检商品链接,爬取到所述待检商品的信息之后,还包括:分析系统的爬虫模块根据待检商品的信息,在预先存储的数据库中,确定出与待检商品类型不同的若干商品信息;分析系统的分析模块对类型不同的若干商品信息,进行分词处理,并根据处理结果确定出所述类型不同的若干商品信息分别对应的分析结果。
本申请实施例将与待测商品类型不同的商品进行信息分析,从而统计电商平台整体的口碑情况。通过多种类型商品的评论信息分析结果,能够使用户对该电商品台整体商品信息进行了解。用户全方面了解电商平台的商品优劣信息,帮助用户判定出该电商平台下哪一类商品较好或者有所欠缺。
在本申请的一种实现方式中,确定出待检商品链接之前,方法还包括:将待用户的输入信息与预置的模板集合进行匹配;根据匹配结果确定出用户的输入信息为正确的商品链接。
在本申请的一种实现方式中,评论信息包括评论总数、好评数量、差评数量、与评论文本中的一项或多项。
本申请实施例提供一种基于电商平台的商品分析装置,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:分析系统的爬虫模块根据用户的输入信息,确定出待检商品链接,并根据待检商品链接,爬取到待检商品的信息,其中,待检商品的信息包括待检商品的所属类别与评论信息;分析系统的爬虫模块根据待检商品的信息,在预先存储的数据库中确定出同类商品的信息,同类商品的信息包括同类商品的所属类别、所属电商平台与评论信息;分析系统的分析模块对待检商品的信息与同类商品的信息进行分词处理,并根据处理结果确定出待检商品与同类商品分别对应的分析结果。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请实施例根据商品的链接爬取到该商品的信息,并对信息进行统计分析,能使用户快速获取到不同用户对该商品的评论统计。解决用户因大众评论的繁杂和不一致,导致辨识难度增加,很难在短时间内做出正确的判断的问题。并且,本申请实施例还对待测商品的同类商品也进行信息分析,通过同类商品之间的评论对比,得出某一类商品在不同电商平台之间大众口碑的差异,使得用户在较短时间内对商品的优劣做出判定。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本申请实施例提供的一种基于电商平台的商品分析方法流程图;
图2为本申请实施例提供的一种对待测商品评论信息爬取的流程框图;
图3为本申请实施例提供的一种对评论信息进行情感分析的流程框图;
图4为本申请实施例提供的一种基于电商平台的商品分析装置的结构示意图;
图5为本申请实施例提供的一种基于电商平台的商品分析装置内部结构示意图。
具体实施方式
本申请实施例提供一种基于电商平台的商品分析方法及装置。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
现有的利用自然语言对评论信息进行分析的方式,大多停留在给平台方以及商家提供数据参考信息,而未惠及普通用户群体。因此,网购人群在选购商品时,只能自主浏览电商网站中商品的评论内容,通过其他网购人群的反馈信息,获取商品的优劣信息。在信息较多的情况下,不能全面的了解信息,以致对商品的优劣评判不准确。
同时,大众评论繁杂且不一致,导致人为辨识的难度增加,用户很难在短时间内做出正确的判断。
为了解决上述问题,本申请实施例提供了一种基于电商平台的商品分析方法及装置。通过商品的链接,对商品的好评率、差评率,评论信息进行爬取。并且,对爬取到的评论信息进行情感分析,并将分析结果反馈给用户。使得用户快速获取大众对待检商品的评论统计。并且,本申请实施例还会对待检商品在不同电商平台的评论信息分别进行统计,使得用户全面了解商品在不同电商品台的优劣评论信息。从而使用户可以在短时间内快速对待测商品做出正确的优劣评判。
下面通过附图对本申请实施例提出的技术方案进行详细的说明。
图1为本说明书实施例提供的一种基于电商平台的商品分析方法流程图。如图1所示,电商平台的商品分析方法包括以下步骤:
S101、分析系统的爬虫模块根据用户的输入信息,确定出待检商品链接,并根据待检商品链接,爬取到待检商品的信息。
在本申请的一个实施例中,将用户提供的待检商品的商品链接,即待检商品的URL,与预置模板集合中的模板链接进行模糊匹配。在匹配成功的情况下,将商品链接中的商品ID参数与电商平台中的产品ID参数进行匹配,由此确定待检商品的链接是否为合法商品链接。
具体的,商品链接通常是由电商平台的地址与商品的ID参数组成。本申请实施例使用正则表达式,先对待检商品链接中的电商平台地址进行匹配。在匹配成功的情况下,进一步通过正则表达式,根据URL+ID+.html的格式构造出对应电商网站中商品正确地址。
在本申请的一个实施例中,根据商品地址,对待检商品所对应的电商平台进行定位,同时,根据电商网站中待检商品对应的商品详情页面,确定当前待检商品的类别。
在本申请的一个实施例中,在商品数据库中,对待检商品的信息进行更新。
具体的,可以查看预置商品数据库中是否对当前待检商品的所属电商平台进行了记录,或者待检商品的类别划分与电商平台中的类别是否一致。进而在商品数据库中对待检商品的所属平台信息,以及类别划分进行补充或者更新。
在本申请的一个实施例中,根据当前待检商品所对应的商品地址,与电商品台建立稳定会话。按时间顺序,对待检商品的评论信息,如官方评论总数、好评数量、差评数量以及好评率、差评率、评论文本进行爬取。由于电商网站都具有反爬机制,因此需要在遵守网络协议与爬虫规则的前提下,稳定安全的获取一定数量的商品信息。
具体的,在对商品信息进行爬取的过程中引入休眠机制,从而对抓取商品信息的间隔时间进行控制。例如,本申请实施例优选将间隔时间控制在0.5s-1s的范围内。并且,本申请实施例中的时间间隔会随着抓取的商品信息的页数动态变化。在商品信息的页数较多的情况下,会适当将间隔时间延长,以避免触发商品平台网站的安全防御机制,造成系统崩溃。在商品信息的页数较少的情况下,则会适当缩短间隔时间,以保障抓取信息的速度。
需要说明的是,本申请实施例优选将间隔时间控制在0.5s-1s的范围内,但并不仅仅限制于0.5s-1s的范围内。可以根据实际应用需求进行调整。
在本申请的一个实施例中,由于Python语言无法实现真正的多进程,因此,本申请实施例采用多线程对请求队列中待检商品的地址进行合理调度。对请求队列中的URL并行执行抓取任务。
在本申请的一个实施例中,使用用于Web应用程序测试的工具Selenium的webdriver.PhantomJS方法,手动创建针对PhantomJS浏览器的Web驱动,记为dirver。该驱动可以捕获脚本并模拟真实的浏览器行为,同时监听待抓取的页面是否存在有效的下一页地址链接。若存在,则使用driver.get请求下一页的响应,对响应内容使用driver.switch_to_frame方法定位到页面相应部分,对该部分进行解析,获取目标信息。
S102、爬虫模块根据待检商品的信息,在预先存储的数据库中确定出同类商品的信息。
在本申请的一个实施例中,在预先存储的商品数据库中,查找不同电商平台对当前待检商品的记录信息。其中,数据库中的记录信息包括该类别商品所属的电商平台、所属电商平台对该商品的好评数量、差评数量、好评率、差评率、评论文本中的一项或多项。
例如,当前待检商品为京东电商平台中的一款手机,那么,可以在数据库中,查找淘宝电商平台或者其它电商平台对该手机相应的信息记录。
在本申请的另一个实施例中,爬虫模块根据待检商品的信息,在预先存储的数据库中,确定出与待检商品类型不同的若干商品信息。
具体的,根据当前待检商品的所属电商平台,确定数据库中对该电商平台的其它类别商品的评论信息。从而使用户能够全方面的了解电商平台中商品的优劣信息。例如,待检商品为京东平台中的一款手机,那么可以在数据库中查找已存储的京东平台中的食品类的评论信息,或者生活用品类的评论信息等。
S103、分析系统的分析模块对待检商品的信息与同类商品的信息进行分词处理,并根据处理结果确定出待检商品与同类商品分别对应的分析结果。
在本申请的一个实施例中,分析模块对待检商品的信息与同类商品的评论信息,进行分词处理,以获取对应的分词结果集。其中,分词结果集为对评论信息进行分词处理后的字词集合。
具体的,本申请实施例在中文分词的过程中,采用双向最大匹配算法进行中文分词。为了保证系统的分词效率和准确性,在使用双向最大匹配算法进行分词处理的过程中,会去除一部分停用词,比如语句中与情感无关的介词、人称代词、标点等。同时,本申请实施例也会使用Jieba分词的处理方法对评论信息进行分词处理。并将通过双向最大匹配算法与Jieba分词处理分别得到的结果进行交运算,得到分词结果集,以作为当前评论文本的最终分词结果集。
在本申请的一个实施例中,统计分词结果集中的若干字词分别出现的次数,在分词结果集中确定若干个关键字词。其中,关键字词用于计算情感得分。
具体的,计算TF词频的函数:
以及计算IDF逆文本频率指数的函数:
因为含有词条w的文本数可能为0,因此分母加1。
计算TF_IDF值得函数:
TF_IDF(w)=TF(w)×IDF(w) (3)
具体的,TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。本申请实施例在每一条评论文本中统计词条w的出现次数,根据公式(1)(2)分别计算词频TF值、与逆文本频率指数IDF值。将得出的词频TF值、与逆文本频率指数IDF值相乘,即可选取TF_IDF值较高的几个关键字作为最终的结果。
在本申请的一个实施例中,根据SnowNLP的模型训练词典、百度停用词表、知网情感分析词典,构成本申请实施例的基础词典。其中,上述来源的词典包含了停用词表、贬义情感词典、褒义情感词典、否定词词典、程度副词词典中的内容。并且,本申请实施例同时以Jieba分词语料库为基础语料库,构建消极、积极语料训练库。在基础词典上进行拓展,增加一些特定的语料成分,如当前流行语、热词等,将拓展后的词典作为本申请实施例情感分析的预置词典库。
在本申请的一个实施例中,拓展后的预置词典库仍具有局限性,对于不包含在词典中的词具有很弱的分析辨识能力。而新词并不能完全舍弃,新词也有可能在句子的情感成分中占有较大权值。针对此点问题,本申请实施例采用点互信息算法(Pointwise MutualInformation),以及情感倾向点互信息算法(Semantic Orientation Pointwise MutualInformation)进行词语的情感极性判断,同时处理未收录进预置词典库的新词,进一步提高系统情感极性分析的准确率。
在本申请的一个实施例中,根据关键字词,以及关键字词在预置词典库中的分数,对待检商品与同类商品分别对应的信息进行分析。
具体的,根据待检商品的评论信息、关键字词,以及关键字词在预置词典库中的分数,分别对待检商品与同类商品的情感得分、好评率、差评率中的一项或多项进行分析。
在本申请的一个实施例中,在对情感得分进行分析时,需要根据评论信息的语序,确定语句中的若干个情感组。其中,情感组至少包括关键字词、关键字词的副词、关键字词的否定词中的一项或多项。根据预置词典库中分数,对情感组内的字词分别进行情感分数赋值,确定每个情感组的情感得分。将每个情感组的情感得分进行相加计算,得到评论信息的情感得分。
具体的,按照句子语序,顺序提取出句子关键字词,记录第一个程度副词或否定词及其在相应词典中的权值。对于情感词,根据关键字的极性,定位关键字到对应的情感词典,从情感词典中获取该词的情感分数。第一个情感词的前继副词权值记为1,该词的情感分数与程度副词或否定词的权值成绩记为情感组分数。从该词继续往后扫描,重复此过程,直到句子结束,句子所有情感组分数之和为该句子的情感得分。
例如,待检商品为手机,以爬取到的评论文本信息“这手机的画面极好,操作也比较流畅。”为例,确定其情感得分。先确定句子中的情感词,积极的情感词有:好,顺畅。出现一个积极词就+1,出现一个消极词就-1。其次,确定程度修饰词,设定“极”情感分值为4,“比较”情感分值为2。之后,确定是否有否定词,比如“不”,“不能”这些词。而且还要数这些否定词出现的次数,如果是单数,情感分值就为-1,但如果是偶数,那情感就没有反转,还是1。在这句话里面,可以看出“好”前面没有“不”字。因此,该句话的最终情感得分为:1×4+1×2=6。因此,这是一个积极情感得分。
在本申请的一个实施例中,将得到的所有句子的情感得分统一化,压缩为0~1之间的分数。
在本申请的一个实施例中,将待检商品的情感得分与同类商品的情感得分进行偏差计算,得到偏差值。在偏差值处于预设第一阈值区间的情况下,将同类商品的情感得分作为评论信息的情感得分。在偏差值不处于预设第一阈值区间的情况下,对同类商品评论的情感得分与待检商品的情感得分进行均值计算,将计算后的均值作为评论信息的情感得分。
具体的,在偏差值处于第一阈值区间,如0.3-0.6(包含0.3与0.6)之间的情况下,将同类商品的情感得分作为评论信息的情感得分。在偏差值不处于0.3-0.6之间的情况下,对同类商品评论的情感得分与待检商品的情感得分进行均值计算。
需要说明的是,本申请实施例优选将偏差值区间设定为0.3-0.6,但并不仅仅限于0.3-0.6,可以根据实际应用进行调整。
在本申请的另一个实施例中,分析系统的分析模块对类型不同的若干商品信息,进行分词处理。并根据处理结果确定出类型不同的若干商品信息分别对应的分析结果。其中,类型不同的若干商品信息为预先存储在商品数据库中,且属于当前电商平台的商品信息。
需要说明的是,对类型不同的若干商品信息,进行分词处理,并根据处理结果确定出类型不同的若干商品信息分别对应的分析结果。其过程与对同类商品信息进行分析相同,在此不再赘述。
S104、分析系统的统计模块对分析结果进行统计,并将统计结果以图表的形式展示给用户。
在本申请的另一个实施例中,可以按商品数据库中的类别进行分类统计,统计得出该类商品在不同电商平台下用户评论情况。另一方面按电商平台分类,统计得出电商平台整体的口碑情况。
例如,以手机为例,表1为手机-分组统计表
平台 | 好评率 | 差评率 | 情感得分 | 部分关键字 |
京东 | 98.81% | 1.51% | 0.96 | 质量/耐用/正品 |
淘宝 | 97.32% | 2.13% | 0.92 | 电池/售后/颜值 |
表1
如表1所示,假设当前待检商品为手机,且当前是在京东电商平台中对手机信息进行爬取。可以统计出京东平台中手机的好评率、差评率、计算出的情感得分、以及部分关键字。同时,将数据库中预置的淘宝平台中对手机的好评率、差评率、情感得分、部分关键字也统计出来。
再如,表2为京东-分组统计表。
商品类型 | 好评率 | 差评率 | 情感得分 | 部分关键字 |
电脑 | 99.2% | 0.12% | 0.98 | 性能/美观/价格 |
食品 | 98.12% | 0.33% | 0.97 | 营养/价格/品牌 |
家居 | 98.76% | 0.28% | 0.90 | 舒适/质量/售后 |
表2
如表2所示,假设当前待检商品所属电商平台是京东,那么,需要对数据库预置的京东平台的其它类型的商品进行好评率、差评率、情感得分、部分关键字的统计。
在本申请的另一个实施例中,利用Python的绘图库(Matplotlib),将关键字的直方图,以及分组统计结果分别展示给用户。
图2为本说明书实施例提供的一种对待测商品评论信息爬取的流程框图。如图2所示,对待测商品评论信息爬取流程如下:
在本申请的另一个实施例中,根据初始URL,即待检商品的商品链接,进行URL验证。在验证不正确的情况下,需要回到初始URL,重新进行校验。在校验正确的情况下,根据发出的Get请求,获取商品链接所对应的网页内容,并对获取的网页内容进行解析。此外,在获取到网页内容后,还需要验证是否已经完成商品信息的获取,在没有完成的情况下,重新发送Get请求,以再次获取商品信息。
图3为本说明书实施例提供的一种对评论信息进行情感分析的流程框图。如图3所示,对评论信息进行情感分析的流程如下:
在本申请的另一个实施例中,将爬虫模块抓取的评论信息进行数据清洗,将获取的不完整或者存在错误的信息去除。再通过中文分词的方式对评论信息进行分词处理,其中,中文分词包括停用词表以及双向最大匹配的方式。其次,使用TF_IDF算法在分词处理的结果中抽取关键字词。
在本申请的另一个实施例中,在出现预置词典库中没有存储的新词的情况下,使用PMI算法与SO-PMI算法对新词的情感极性进行分析。最后将评论信息的情感得分进行计算,以及情感极性定位,并将确定出的情感极性保存至语料库中,以完善语料库中的信息。
图4为本说明书实施例提供的一种基于电商平台的商品分析装置的结构示意图,装置包括:爬虫模块401、分析模块402、统计模块403。
爬虫模块401,根据用户的输入信息,确定出待检商品链接,并根据待检商品链接,爬取到待检商品的信息。以及根据待检商品的信息,在预先存储的数据库中确定出同类商品的信息。爬虫模块401还用于,根据待检商品的信息,在预先存储的数据库中,确定出与待检商品类型不同的若干商品信息。以及将用户输入信息与预置的模板集合进行匹配。根据匹配结果确定出用户的输入信息为正确的商品链接。
分析模块402,对待检商品的信息与同类商品的信息进行分词处理,并根据处理结果确定出待检商品与同类商品分别对应的分析结果。分析模块还用于对待检商品的信息与同类商品的评论信息,进行分词处理,以获取对应的分词结果集。并在分词结果集中确定若干个关键字词根据关键字词,以及关键字词在预置词典库中的分数,对待检商品与同类商品分别对应的信息进行分析。还用于通过双向最大匹配算法与Jieba分词,分别对评论信息进行分词处理。将处理结果进行交运算,得到分词结果集。统计分词结果集中的若干字词分别出现的次数,确定出评论信息中的若干个关键字词。
分析模块402还用于,根据评论信息的语序,确定语句中的若干个情感组。其中,情感组至少包括关键字词、关键字词的副词、关键字词的否定词中的一项或多项。根据预置词典库中分数,对情感组内的字词分别进行情感分数赋值,确定每个情感组的情感得分。将每个情感组的情感得分进行相加计算,得到所述评论信息的情感得分。以及,将待检商品的情感得分与同类商品的情感得分进行偏差计算,得到偏差值。在偏差值处于预设第一阈值区间的情况下,将同类商品的情感得分作为评论信息的情感得分。在偏差值不处于预设第一阈值区间的情况下,对同类商品的情感得分与待检商品的情感得分进行均值计算,将计算后的均值作为评论信息的情感得分。
分析模块402还用于对类型不同的若干商品信息,进行分词处理,并根据处理结果确定出同一电商平台中,类型不同的若干商品信息分别对应的分析结果。
统计模块403,对分析结果进行统计,并将统计结果以图表的形式展示给用户。
图5为本说明书实施例提供的一种基于电商平台的商品分析装置内部结构示意图。
本申请实施例提供的一种基于电商平台的商品分析装置,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
分析系统的爬虫模块根据用户的输入信息,确定出待检商品链接,并根据所述待检商品链接,爬取到所述待检商品的信息,其中,所述待检商品的信息包括所述待检商品的所属类别与评论信息;
所述分析系统的爬虫模块根据所述待检商品的信息,在预先存储的数据库中确定出同类商品的信息,所述同类商品的信息包括所述同类商品的所属类别、所属电商平台与评论信息;
所述分析系统的分析模块对所述待检商品的信息与所述同类商品的信息进行分词处理,并根据处理结果确定出所述待检商品与所述同类商品分别对应的分析结果。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请实施例可以有各种更改和变化。凡在本申请实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种基于电商平台的商品分析方法,其特征在于,所述方法由分析系统执行,包括:
所述分析系统的爬虫模块根据用户的输入信息,确定出待检商品链接,并根据所述待检商品链接,爬取到所述待检商品的信息,其中,所述待检商品的信息包括所述待检商品的所属类别与评论信息;
所述分析系统的爬虫模块根据所述待检商品的信息,在预先存储的数据库中确定出同类商品的信息,所述同类商品的信息包括所述同类商品的所属类别、所属电商平台与评论信息;
所述分析系统的分析模块对所述待检商品的信息与所述同类商品的信息进行分词处理,并根据处理结果确定出所述待检商品与所述同类商品分别对应的分析结果。
2.根据权利要求1所述的一种基于电商平台的商品分析方法,其特征在于,所述分析系统的分析模块对所述待检商品的信息与所述同类商品的信息进行分词处理,具体包括:
所述分析模块对所述待检商品的信息与所述同类商品的评论信息,进行分词处理,以获取对应的分词结果集,并在所述分词结果集中确定若干个关键字词;其中,所述分词结果集为对所述评论信息进行分词处理后的字词集合;
根据所述关键字词,以及所述关键字词在预置词典库中的分数,对所述待检商品与所述同类商品分别对应的信息进行分析。
3.根据权利要求2所述的一种基于电商平台的商品分析方法,其特征在于,所述分析模块对所述待检商品的信息与所述同类商品的评论信息,进行分词处理,获取对应的分词结果集,并在所述分词结果集中确定若干个关键字词,具体包括:
通过双向最大匹配算法与Jieba分词,分别对所述评论信息进行分词处理;将处理结果进行交运算,得到所述分词结果集;
统计所述分词结果集中的若干字词分别出现的次数,确定出所述评论信息中的若干个关键字词;其中,所述关键字词用于计算情感得分。
4.根据权利要求2所述的一种基于电商平台的商品分析方法,其特征在于,所述根据所述关键字词,以及所述关键字词在预置词典库中的分数,对所述待检商品与所述同类商品分别对应的信息进行分析,具体包括:
根据所述评论信息、所述关键字词,以及所述关键字词在预置词典库中的分数,分别对所述待检商品与所述同类商品的情感得分、好评率、差评率中的一项或多项进行分析。
5.根据权利要求4所述的一种基于电商平台的商品分析方法,其特征在于,所述情感得分的分析,具体包括:
根据所述评论信息的语序,确定语句中的若干个情感组;其中,所述情感组至少包括所述关键字词、所述关键字词的副词、所述关键字词的否定词中的一项或多项;
根据所述预置词典库中的分数,对所述情感组内的字词分别进行情感分数赋值,确定每个情感组的情感得分;
将每个情感组的情感得分进行相加计算,得到所述评论信息的情感得分。
6.根据权利要求1所述的一种基于电商平台的商品分析方法,其特征在于,所述根据处理结果确定出所述待检商品与所述同类商品分别对应的分析结果之后,所述方法还包括:
将所述待检商品的情感得分与所述同类商品的情感得分进行偏差计算,得到偏差值;
在所述偏差值处于预设阈值区间的情况下,将所述同类商品的情感得分作为所述评论信息的情感得分;
在所述偏差值不处于所述预设阈值区间的情况下,对所述同类商品的情感得分与所述待检商品的情感得分进行均值计算,将计算后的均值作为所述评论信息的情感得分。
7.根据权利要求1所述的一种基于电商平台的商品分析方法,其特征在于,所述根据所述待检商品链接,爬取到所述待检商品的信息之后,所述方法还包括:
所述分析系统的爬虫模块根据所述待检商品的信息,在预先存储的数据库中,确定出与所述待检商品类型不同的若干商品信息;
所述分析系统的分析模块对所述类型不同的若干商品信息,进行分词处理,并根据处理结果确定出所述类型不同的若干商品信息分别对应的分析结果。
8.根据权利要求1所述的一种基于电商平台的商品分析方法,其特征在于,所述确定出待检商品链接之前,所述方法还包括:
将用户输入信息与预置的模板集合进行匹配;
根据匹配结果确定出所述用户的输入信息为正确的商品链接。
9.根据权利要求1所述的一种基于电商平台的商品分析方法,其特征在于,所述评论信息包括评论总数、好评数量、差评数量、好评率、差评率与评论文本中的一项或多项。
10.一种基于电商平台的商品分析装置,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
分析系统的爬虫模块根据用户的输入信息,确定出待检商品链接,并根据所述待检商品链接,爬取到所述待检商品的信息,其中,所述待检商品的信息包括所述待检商品的所属类别与评论信息;
所述分析系统的爬虫模块根据所述待检商品的信息,在预先存储的数据库中确定出同类商品的信息,所述同类商品的信息包括所述同类商品的所属类别、所属电商平台与评论信息;
所述分析系统的分析模块对所述待检商品的信息与所述同类商品的信息进行分词处理,并根据处理结果确定出所述待检商品与所述同类商品分别对应的分析结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110218489.XA CN113010639A (zh) | 2021-02-26 | 2021-02-26 | 一种基于电商平台的商品分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110218489.XA CN113010639A (zh) | 2021-02-26 | 2021-02-26 | 一种基于电商平台的商品分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113010639A true CN113010639A (zh) | 2021-06-22 |
Family
ID=76386471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110218489.XA Pending CN113010639A (zh) | 2021-02-26 | 2021-02-26 | 一种基于电商平台的商品分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113010639A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113793169A (zh) * | 2021-08-12 | 2021-12-14 | 惠州Tcl云创科技有限公司 | 基于用户评论数据处理方法、装置、设备及存储介质 |
CN114880333A (zh) * | 2022-07-12 | 2022-08-09 | 创颖峻网络科技(深圳)有限公司 | 产品数据分析方法、装置、存储介质及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867053A (zh) * | 2012-09-12 | 2013-01-09 | 北京奇虎科技有限公司 | 收集网站信息中有效信息网页的方法、装置及系统 |
US20140172642A1 (en) * | 2012-12-13 | 2014-06-19 | Alibaba Group Holding Limited | Analyzing commodity evaluations |
CN105469274A (zh) * | 2015-11-13 | 2016-04-06 | 上海斐讯数据通信技术有限公司 | 一种对多网站商品信息进行对比的方法及系统 |
CN106126648A (zh) * | 2016-06-23 | 2016-11-16 | 华南理工大学 | 一种基于重做日志的分布式商品信息爬虫方法 |
CN106202467A (zh) * | 2016-07-18 | 2016-12-07 | 浪潮集团有限公司 | 一种面向对等网络的可定义搜索重点的网络爬虫方法 |
CN110827049A (zh) * | 2018-08-09 | 2020-02-21 | 珠海格力电器股份有限公司 | 一种数据推送方法及装置 |
CN111292167A (zh) * | 2020-02-03 | 2020-06-16 | 山东爱城市网信息技术有限公司 | 基于大数据的竞品分析方法、系统、存储介质及电子设备 |
CN112381603A (zh) * | 2020-11-05 | 2021-02-19 | 深圳创维-Rgb电子有限公司 | 一种电视购物比价处理方法、装置、智能终端及存储介质 |
-
2021
- 2021-02-26 CN CN202110218489.XA patent/CN113010639A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867053A (zh) * | 2012-09-12 | 2013-01-09 | 北京奇虎科技有限公司 | 收集网站信息中有效信息网页的方法、装置及系统 |
US20140172642A1 (en) * | 2012-12-13 | 2014-06-19 | Alibaba Group Holding Limited | Analyzing commodity evaluations |
CN105469274A (zh) * | 2015-11-13 | 2016-04-06 | 上海斐讯数据通信技术有限公司 | 一种对多网站商品信息进行对比的方法及系统 |
CN106126648A (zh) * | 2016-06-23 | 2016-11-16 | 华南理工大学 | 一种基于重做日志的分布式商品信息爬虫方法 |
CN106202467A (zh) * | 2016-07-18 | 2016-12-07 | 浪潮集团有限公司 | 一种面向对等网络的可定义搜索重点的网络爬虫方法 |
CN110827049A (zh) * | 2018-08-09 | 2020-02-21 | 珠海格力电器股份有限公司 | 一种数据推送方法及装置 |
CN111292167A (zh) * | 2020-02-03 | 2020-06-16 | 山东爱城市网信息技术有限公司 | 基于大数据的竞品分析方法、系统、存储介质及电子设备 |
CN112381603A (zh) * | 2020-11-05 | 2021-02-19 | 深圳创维-Rgb电子有限公司 | 一种电视购物比价处理方法、装置、智能终端及存储介质 |
Non-Patent Citations (1)
Title |
---|
梅雪琦: "面向商品评论的情感分析分类研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113793169A (zh) * | 2021-08-12 | 2021-12-14 | 惠州Tcl云创科技有限公司 | 基于用户评论数据处理方法、装置、设备及存储介质 |
WO2023015715A1 (zh) * | 2021-08-12 | 2023-02-16 | 惠州Tcl云创科技有限公司 | 基于用户评论数据处理方法、装置、设备及存储介质 |
CN114880333A (zh) * | 2022-07-12 | 2022-08-09 | 创颖峻网络科技(深圳)有限公司 | 产品数据分析方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106503055B (zh) | 一种从结构化文本到图像描述的生成方法 | |
US9165254B2 (en) | Method and system to predict the likelihood of topics | |
US8781989B2 (en) | Method and system to predict a data value | |
Bao et al. | Competitor mining with the web | |
CN103207913B (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN108364199B (zh) | 一种基于互联网用户评论的数据分析方法及系统 | |
US20070100779A1 (en) | Method and system for extracting web data | |
US11238225B2 (en) | Reading difficulty level based resource recommendation | |
Abdul-Kader et al. | Question answer system for online feedable new born Chatbot | |
CN110706028A (zh) | 基于属性特征的商品评价情感分析系统 | |
CN107193883B (zh) | 一种数据处理方法和系统 | |
Yang et al. | A decision method for online purchases considering dynamic information preference based on sentiment orientation classification and discrete DIFWA operators | |
CN113010639A (zh) | 一种基于电商平台的商品分析方法及装置 | |
CN104572877A (zh) | 游戏舆情的检测方法及系统 | |
CN113282704A (zh) | 一种对评论有用性进行判断和筛选的方法与装置 | |
US20210073237A1 (en) | System and method for automatic difficulty level estimation | |
Hasanati et al. | Implementation of support vector machine with lexicon based for sentimenT ANALYSIS ON TWITter | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
KR102126911B1 (ko) | KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법 | |
CN112084376A (zh) | 基于图谱知识的推荐方法、推荐系统及电子装置 | |
CN104933097B (zh) | 一种用于检索的数据处理方法和装置 | |
CN115794898B (zh) | 一种金融资讯推荐方法、装置、电子设备及存储介质 | |
CN109408808B (zh) | 一种文艺作品的评估方法及评估系统 | |
CN113722487A (zh) | 用户情感分析方法、装置、设备及存储介质 | |
Turdjai et al. | Simulation of marketplace customer satisfaction analysis based on machine learning algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210622 |