CN107220239A - 一种基于大数据处理的电子商务中有效评论的特征提取方法 - Google Patents
一种基于大数据处理的电子商务中有效评论的特征提取方法 Download PDFInfo
- Publication number
- CN107220239A CN107220239A CN201710395981.8A CN201710395981A CN107220239A CN 107220239 A CN107220239 A CN 107220239A CN 201710395981 A CN201710395981 A CN 201710395981A CN 107220239 A CN107220239 A CN 107220239A
- Authority
- CN
- China
- Prior art keywords
- comment information
- feature
- product
- comment
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明涉及一种基于大数据处理的电子商务中有效评论的特征提取方法,主要是针对电子商务网站提供给用户对于所购买的商品发表自己的评论,根据量化评价的思想,剔除掉无关的无效的评论信息,对有效的评论信息分词分句聚类得到特征集合,特征集合能够很好地从产品的评论中看到当前产品所处的情况,优点或缺点,进而不仅可以为用户购买商品提供参考意见,还可以通过结果反馈给商家使产品的某些性能得到优化。本系统提出的特征提取方法基于大数据处理,改善了分类器的性能,提高了分类精度,从一个新的角度看待评论信息所反馈的和内容,帮助用户做出购买或决策,帮助商家对产品进行调整。
Description
技术领域
本发明涉及一种基于大数据处理的电子商务中有效评论的特征提取方法,主要是针对电子商务网站提供给用户对于所购买的商品发表自己的评论,根据量化评价的思想,剔除掉无关的无效的评论信息,对有效的评论信息分词分句聚类得到特征集合,特征集合能够很好地从产品的评论中看到当前产品所处的情况,优点或缺点,进而不仅可以为用户购买商品提供参考意见,还可以通过结果反馈给商家使产品的某些性能得到优化。
背景技术
电子商务的快速发展,使用户在购买和使用商品后发表的产品评论数量急剧增加。因缺乏对用户评价的有效激励机制,导致用户对评价内容的表述较简单,亦存在较多相同或相似的评论,甚至是广告或和主题无关的内容。虽多数电子商务网站对用户的评价内容设置了是否“有帮助”或“有用”的投票机制,但实际有投票记录的却很少。因消费者在网上购物时信息不对称情况相对严重及羊群效应的存在,故网民的网购行为受用户评价因素的影响最大。网络评论形成速度快、语言随意和多变,一些热门产品可能会出现成千上万条质量参差不齐的评论。如何从大量的产品评论中提取有价值的信息,成为意见挖掘领域近年来广受关注的一个研究热点。
为减少用户对评价内容的参考成本,帮助用户快速进行购物决策,多数电子商务平台提供评论信息的不同排序方式如天猫的“按信用”和“按推荐”。而该排序方式中,仍存在较多和评论主题无关的广告等垃圾评论信息。要区分垃圾评论与正常评论,特征选择的好坏直接影响着分类器的分类精度和泛化性能。由于产品评论具有句子较短、断句随意、用词口语化和语法标点符号使用不规范等特点,因此从内容和形式自由度髙、垃圾数据噪声大的评论信息中,提取正常评论的特征比较困难。垃圾邮件、博客中存在大量无意义的富含关键字的复制博客或链接,及含广告的图片或文本,目的是欺骗搜索引擎或欺骗用户点击广告来牟利。主垃圾邮件、博客和短信可通过发送行为的特征检测如黑白名单过滤、基于社会网络特征和位置特征等,而产品评论主要通过分析文本内容进行识别。用于邮件的文本分类算法,虽可用于产品评论,但分词后特征向量偏小,影响分类结果,而关键字过滤方法则不利于泛化。
发明内容
基于上述问题,本发明目的在于提供一种基于大数据处理的电子商务中有效评论的特征提取方法,主要是针对电子商务网站提供给用户对于所购买的商品发表自己的评论,根据量化评价的思想,剔除掉无关的无效的评论信息,对有效的评论信息分词分句聚类得到特征集合,特征集合能够很好地从产品的评论中看到当前产品所处的情况,优点或缺点,进而不仅可以为用户购买商品提供参考意见,还可以通过结果反馈给商家使产品的某些性能得到优化。
针对以上问题,提供了如下技术方案:一种基于大数据处理的电子商务中有效评论的特征提取方法,其特征在于该检测提取方法包括以下步骤:
步骤1) 输入产品评论信息;
步骤2) 预处理产品评论信息;
步骤2.1) 判断该条评论信息是否与本产品有关,如果有关,转步骤2.4),否则,转步骤2.3);
步骤2.2) 判断该条评论信息是否含广告信息,如果不含,转步骤2.4),否则,转步骤2.3);
步骤2.3) 删除该条评论信息,转步骤2.7) ;
步骤2.4) 切分产品评论信息,获取评论信息子句;
步骤2.5) 利用分词工具对评论信息子句进行分词处理;
步骤2.6) 识别并删除分词中的同义词和近义词,得到特征词集合;
步骤2.7) 输入产品评论信息库中的下一条评论信息,转步骤2.1);
步骤3) 识别特征词集合中每个特征词的词性并进行词性标注,将每一类词性打上不同的标签;
步骤4) 通过矩阵算法来计算特征词字符串之间的距离;
步骤4.1) 计算特征词字符串之间的相似度,得到初始聚类集合;
步骤4.2) 利用k-means算法对初始聚类集合进行多次迭代聚类,得到最优的聚类结果;
步骤5) 得到特征集合并反馈结果。
本发明进一步设置为:步骤2.5)中采用的分词工具为ICTCLAS汉语分词系统。
本发明进一步设置为:所述步骤4.1)中特征词字符串之间的相似度计算采用矩阵算法,具体计算方法包括以下步骤:
1)计算重叠率L:重叠特征词字符串的个数与特征词字符串的长度的比率即为重叠率L=r/n;
2)计算匹配率M:2个长度相等的特征词字符串在特征词字符串移动匹配的过程中,对应位置字符相同的个数与特征词字符串长度的比率即为匹配率M=m/n;
3)计算相似度Q:匹配率的平方与重叠率的乘积即为相似度Q=M2L=(m2/n2)・(r/n)。
本发明进一步设置为:步骤4.2)中k-means算法包括两大基本步骤:(1)取得多个聚簇中心并将文档聚类;(2)重新计算聚簇中心,通过多次迭代,重复(1)、(2)的方法,得到最优的聚簇。
本发明的有益效果:本发明提供的特征提取方法是对产品的评论信息进行合理处理后得到一个大的信息框以了解当前产品的信息点。首先对评论信息进行预处理,去除掉一些广告的、无关的噪声信息,然后对每一条评论信息进行切分、分词,剔除掉同义词或近义词后标注词性,最后进行特征词聚类处理得到最终的特征集合及反馈结果。通过本方法对产品评论信息进行特征分析,得到用户对产品的语义倾向,进而为用户提供购买决策,同时,及时了解用户对产品的评论倾向,可使商家对产品进行适当调整,保留优点改善缺点等,或根据当前反馈结果适当调整产品的预期规划等。
附图说明
图1 :垃圾评论检测提取系统流程图。
具体实施方式
下面详细的实施步骤,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明是一种基于大数据处理的电子商务中有效评论的特征提取方法,从开始输入产品评论信息到最终输出评论检测结果的实现步骤为:
步骤1) 我们可从某一的电子商务平台上选择一款商品对其进行有效评论的特征提取,以分析用户对该电子商务客户端上在线交易产品所持有的态度,从而为消费者的购买决策和商家产品规划提供积极有效的作用;
步骤2) 对获得的产品评论信息进行预处理,目的是去除掉噪声,有利于有效评论的特征提取,如图1 所示;
步骤2.1)判断该条评论信息是否与本产品有关,如果有关,进行下一步,否则,删除这条评论信息;
步骤2.2) 接着,判断该条评论信息是否含广告信息,如果包含广告信息,删除该条评论信息,否则,这条评论信息是干净的。经过这样的循环判断得到干净的评论信息集合;
步骤2.3) 一条评论中,可能包含很多的子句,如果把分析窗口大小设为整条评论,有点浪费,而且不好分析,因此我们切分评论信息,将一条评论切分成若干子句。
步骤2.4) 利用分词工具对评论信息子句进行分词处理。我们的分词工具可采用中科院的ICTCLAS汉语分词系统,对每一条评论子句进行分词;
步骤2.5) 分词中可能会存在很多语义相近或相同的词语,相同或相近的词所传达的语义是相同的,为了避免后续流程中计算的繁琐,此时可识别并删除分词中的同义词和近义词,以得到完整、简明的特征词集合;
步骤3) 识别特征词集合中每个特征词的词性并进行词性标注,词性标注采用中科院汉语词性标记集(共计99个)包含名词,动词,形容词,区别词,状态词,副词等;然后将每一类词性打上不同的标签,比如名词标注为a,形容词标注为b等;
步骤4) 通过矩阵算法来计算特征词字符串之间的距离;
步骤4.1) 计算特征词字符串之间的相似度,得到初始聚类集合;
上述特征词字符串之间的相似度计算采用矩阵算法,具体计算方法包括以下步骤:
①计算重叠率L:重叠特征词字符串的个数与特征词字符串的长度的比率即为重叠率L=r/n;
②计算匹配率M:2个长度相等的特征词字符串在特征词字符串移动匹配的过程中,对应位置字符相同的个数与特征词字符串长度的比率即为匹配率M=m/n;
③计算相似度Q:匹配率的平方与重叠率的乘积即为相似度Q=M2L=(m2/n2)・(r/n)。
步骤4.2) 利用k-means算法对初始聚类集合进行多次迭代聚类,得到最优的聚类结果;
k-means算法包括两大基本步骤:(1)取得多个聚簇中心并将文档聚类;(2)重新计算聚簇中心,通过多次迭代,重复(1)、(2)的方法,得到最优的聚簇。
步骤5) 得到特征集合并反馈结果。
通过采用上述方法对产品的评论信息进行合理处理后得到一个大的信息框以了解当前产品的信息点。通过本方法对产品评论信息进行特征分析,得到用户对产品的语义倾向,进而为用户提供购买决策,同时,及时了解用户对产品的评论倾向,可使商家对产品进行适当调整,保留优点改善缺点等,或根据当前反馈结果适当调整产品的预期规划等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,上述假设的这些改进和变型也应视为本发明的保护范围。
Claims (4)
1.一种基于大数据处理的电子商务中有效评论的特征提取方法,其特征在于该检测提取方法包括以下步骤:
步骤1) 输入产品评论信息;
步骤2) 预处理产品评论信息;
步骤2.1) 判断该条评论信息是否与本产品有关,如果有关,转步骤2.4),否则,转步骤2.3);
步骤2.2) 判断该条评论信息是否含广告信息,如果不含,转步骤2.4),否则,转步骤
2.3);
步骤2.3) 删除该条评论信息,转步骤2.7) ;
步骤2.4) 切分产品评论信息,获取评论信息子句;
步骤2.5) 利用分词工具对评论信息子句进行分词处理;
步骤2.6) 识别并删除分词中的同义词和近义词,得到特征词集合;
步骤2.7) 输入产品评论信息库中的下一条评论信息,转步骤2.1);
步骤3) 识别特征词集合中每个特征词的词性并进行词性标注,将每一类词性打上不同的标签;
步骤4) 通过矩阵算法来计算特征词字符串之间的距离;
步骤4.1) 计算特征词字符串之间的相似度,得到初始聚类集合;
步骤4.2) 利用k-means算法对初始聚类集合进行多次迭代聚类,得到最优的聚类结果;
步骤5) 得到特征集合并反馈结果。
2.根据权利要求1所述的一种基于大数据处理的电子商务中有效评论的特征提取方法,其特征在于:步骤2.5)中采用的分词工具为ICTCLAS汉语分词系统。
3.根据权利要求1所述的一种基于大数据处理的电子商务中有效评论的特征提取方法,其特征在于:所述步骤4.1)中特征词字符串之间的相似度计算采用矩阵算法,具体计算方法包括以下步骤:
1)计算重叠率L:重叠特征词字符串的个数与特征词字符串的长度的比率即为重叠率L=r/n;
2)计算匹配率M:2个长度相等的特征词字符串在特征词字符串移动匹配的过程中,对应位置字符相同的个数与特征词字符串长度的比率即为匹配率M=m/n;
3)计算相似度Q:匹配率的平方与重叠率的乘积即为相似度Q=M2L=(m2/n2)・(r/n)。
4.根据权利要求1所述的一种基于大数据处理的电子商务中有效评论的特征提取方法,其特征在于:步骤4.2)中k-means算法包括两大基本步骤:(1)取得多个聚簇中心并将文档聚类;(2)重新计算聚簇中心,通过多次迭代,重复(1)、(2)的方法,得到最优的聚簇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710395981.8A CN107220239A (zh) | 2017-05-31 | 2017-05-31 | 一种基于大数据处理的电子商务中有效评论的特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710395981.8A CN107220239A (zh) | 2017-05-31 | 2017-05-31 | 一种基于大数据处理的电子商务中有效评论的特征提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107220239A true CN107220239A (zh) | 2017-09-29 |
Family
ID=59947622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710395981.8A Pending CN107220239A (zh) | 2017-05-31 | 2017-05-31 | 一种基于大数据处理的电子商务中有效评论的特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107220239A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038725A (zh) * | 2017-12-04 | 2018-05-15 | 中国计量大学 | 一种基于机器学习的电商产品客户满意度分析方法 |
CN108109009A (zh) * | 2017-12-22 | 2018-06-01 | 罗华文 | 一种基于大数据分析的商品商场陈列方法 |
CN108230085A (zh) * | 2017-11-27 | 2018-06-29 | 重庆邮电大学 | 一种基于用户评论的商品评价系统及方法 |
CN110738056A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
US20220229854A1 (en) * | 2017-10-11 | 2022-07-21 | Amperity, Inc. | Constructing ground truth when classifying data |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222187A (zh) * | 2011-06-02 | 2011-10-19 | 国家计算机病毒应急处理中心 | 基于域名构造特征的挂马网页检测方法 |
CN102801709A (zh) * | 2012-06-28 | 2012-11-28 | 北京奇虎科技有限公司 | 一种钓鱼网站识别系统及方法 |
CN103064971A (zh) * | 2013-01-05 | 2013-04-24 | 南京邮电大学 | 一种基于评分和中文情感分析的垃圾评论检测方法 |
CN106708966A (zh) * | 2016-11-29 | 2017-05-24 | 中国计量大学 | 基于相似度计算的垃圾评论检测方法 |
-
2017
- 2017-05-31 CN CN201710395981.8A patent/CN107220239A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222187A (zh) * | 2011-06-02 | 2011-10-19 | 国家计算机病毒应急处理中心 | 基于域名构造特征的挂马网页检测方法 |
CN102801709A (zh) * | 2012-06-28 | 2012-11-28 | 北京奇虎科技有限公司 | 一种钓鱼网站识别系统及方法 |
CN103064971A (zh) * | 2013-01-05 | 2013-04-24 | 南京邮电大学 | 一种基于评分和中文情感分析的垃圾评论检测方法 |
CN106708966A (zh) * | 2016-11-29 | 2017-05-24 | 中国计量大学 | 基于相似度计算的垃圾评论检测方法 |
Non-Patent Citations (2)
Title |
---|
薛苏琴等: "基于向量空间模型的中文文本相似度的研究", 《电子设计工程》 * |
谭文斌: "基于电商平台的产品评论大数据获取及应用", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220229854A1 (en) * | 2017-10-11 | 2022-07-21 | Amperity, Inc. | Constructing ground truth when classifying data |
CN108230085A (zh) * | 2017-11-27 | 2018-06-29 | 重庆邮电大学 | 一种基于用户评论的商品评价系统及方法 |
CN108038725A (zh) * | 2017-12-04 | 2018-05-15 | 中国计量大学 | 一种基于机器学习的电商产品客户满意度分析方法 |
CN108109009A (zh) * | 2017-12-22 | 2018-06-01 | 罗华文 | 一种基于大数据分析的商品商场陈列方法 |
CN110738056A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN110738056B (zh) * | 2018-07-03 | 2023-12-19 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220239A (zh) | 一种基于大数据处理的电子商务中有效评论的特征提取方法 | |
US10579646B2 (en) | Systems and methods for classifying electronic documents | |
Lai et al. | Toward a language modeling approach for consumer review spam detection | |
US8190621B2 (en) | Method, system, and computer readable recording medium for filtering obscene contents | |
CN102662950B (zh) | 基于互联网图片的主动式广告的生成方法 | |
Jadhav et al. | A New approach for identifying manipulated online reviews using decision tree | |
CN105069654A (zh) | 一种基于用户识别的网站实时/非实时营销投放方法及系统 | |
WO2015165408A1 (zh) | 一种商品评价信息过滤方法及系统 | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
CN105824959A (zh) | 舆情监控方法及系统 | |
Fayaz et al. | Ensemble machine learning model for classification of spam product reviews | |
Liu et al. | Identifying indicators of fake reviews based on spammer's behavior features | |
CN103177384A (zh) | 基于用户兴趣图谱的网络广告投放方法 | |
CN103177036A (zh) | 一种标签自动提取方法和系统 | |
Tran et al. | Spam detection in online classified advertisements | |
CN106530017A (zh) | 一种网店优惠券自动获取和购物组合推荐的方法 | |
TWI645348B (zh) | 商品相關網路文章之自動圖文摘要方法及系統 | |
CN107590558A (zh) | 一种基于多层集成学习的微博转发预测方法 | |
Hoang et al. | Crowdsensing and analyzing micro-event tweets for public transportation insights | |
Kim et al. | Text mining for the evaluation of public services: the case of a public bike-sharing system | |
CN114915468B (zh) | 基于知识图谱的网络犯罪智能分析检测方法 | |
Sihombing et al. | Fake review detection on yelp dataset using classification techniques in machine learning | |
CN114430503A (zh) | 一种基于短视频大数据叠加推荐方法 | |
WO2017107010A1 (zh) | 基于事件回测的信息分析系统及方法 | |
Thorleuchter et al. | Companies website optimising concerning consumer's searching for new products |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170929 |