CN103996130B - 一种商品评价信息过滤方法及系统 - Google Patents

一种商品评价信息过滤方法及系统 Download PDF

Info

Publication number
CN103996130B
CN103996130B CN201410178839.4A CN201410178839A CN103996130B CN 103996130 B CN103996130 B CN 103996130B CN 201410178839 A CN201410178839 A CN 201410178839A CN 103996130 B CN103996130 B CN 103996130B
Authority
CN
China
Prior art keywords
advertisement
text
evaluation
rubbish
new appraisement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410178839.4A
Other languages
English (en)
Other versions
CN103996130A (zh
Inventor
周东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201410178839.4A priority Critical patent/CN103996130B/zh
Publication of CN103996130A publication Critical patent/CN103996130A/zh
Priority to PCT/CN2015/077848 priority patent/WO2015165408A1/zh
Priority to US15/307,430 priority patent/US10963912B2/en
Priority to AU2015252513A priority patent/AU2015252513B2/en
Application granted granted Critical
Publication of CN103996130B publication Critical patent/CN103996130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0248Avoiding fraud
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种商品评价信息过滤方法及系统,方法包括:获取多个预先确定的广告垃圾样本,所述广告垃圾样本包括评价文本和用户标识;建立包括多个所述广告垃圾样本的用户标识的广告垃圾用户标识库;获取包含用户标识和评价文本的新评价,如果所述新评价的用户标识包含在所述广告垃圾用户标识库中,则确定所述新评价为广告垃圾评价。本发明利用发表评价的用户标识,来识别广告垃圾评价。为广告垃圾评价识别的技术领域,提供了一个全新的方法,解决了杂乱无章的垃圾评价难以识别的问题。

Description

一种商品评价信息过滤方法及系统
技术领域
本发明涉及商品评价相关技术领域,特别是一种商品评价信息过滤方法及系统。
背景技术
随着电子商务的高速发展,越来越多的人选择在网上购买商品,然后进行评价,产生大量的商品评价信息。一个商品的全部评价信息会展示出来,供其他用户购买前参考,而有一些评价信息是用户基于其他目的或者随意评价而生成的,主要表现为广告评价和杂乱无章的垃圾评价,举例如下:
一、广告类评价,例如:
样例1:宝贝不错,描述一致,质量上乘,性价比很高的一款宝贝,物超所值了!很喜欢,是我想要的!买完后才知道,原来这款产品有内部秒杀地址,秒杀的价格要便宜好多好多哦,还是这家店,这款产品(复制下面的链接在浏览器中打开,时间有限)url.cn/XXXXX。
样例2:转让一双全新匡威,尺码38码,有需要请联系QQXXXXXXXXX。
样例3:帮忙宣传一下,在这个群买可以打折,电商优惠群:XXXXXXXX,各种200-10100-5优惠免费得,网购达人可以关注一下,蚊子腿也是肉啊。
二、垃圾类评价,例如:
样例1:我吐兔兔继续找我下咯我。
样例2:啊啊啊啊啊啊啊啊啊轻轻轻轻轻轻轻轻啊啊啊啊啊啊啊轻轻啊啊啊啊啊啊企鹅啊啊啊啊啊瓦啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊娿啊去啊啊。
样例3:佛书店就是了空间的快速拉低斯卡拉迪欧但是的角度讲哦回看守所看看四i类到拉萨卡死哦奇偶的几岁偶加快速度拉萨的空间爱哦老大色欧赔抖擞说了宽度搜谱搜批评交付是滴哦开了德律风收到了渐叟的开发恐怕死艘平底那死都及深咖啡搜哎哈维企鹅王王企鹅我去额健康王企鹅逻辑气温死啊对期望企鹅啊风路记录卡附属的方式来开到付搜带我那看来是数量大赛。
上述这二类评价,都不是对一个商品自身相关的评价,并且,这些评价对其他购买该商品的用户起着噪音的作用,所以这类的评价展示是没有意义的,需要做识别过滤。
现有的广告与垃圾识别技术方案,主要有两种,分别为基于人工建立词典的识别过滤方法和基于统计的机器学习分类识别过滤方法,这两种方法如下:
(1)基于人工建立词典的识别方法:先抽取一部分样本评价数据,然后通过人工查看判断,总结提炼出一系列的具有广告评价代表性的关键词,组成词典。然后利用这些词典,对新的评价文本进行布尔型包含检查,如果一个评价同时包含字典中的一个或者多个关键词,就断定这个评价为广告评价。如上述示例中,可以提炼出关键词为:秒杀地址、QQ、请联系、优惠群,由这些关键词组成词典。这种方法主要用于广告评价的识别过滤。
(2)基于统计的机器学习分类识别方法:同样先由人工抽取一部分评价样本数据,并以这些样本数据为语料进行标注,如果一条评价信息属于广告或者垃圾评价,就标记为1,否则标记为0。待这些样本全部标记完成之后,将这些数据用作文本分类的训练集,然后选择一个文本分类算法,如朴素贝叶斯分类算法、Libsvm分类算法等,构造分类器,然后对一个新的评价文本进行自动分类,如果分到1这一类,就代表这条评价属于广告或者垃圾,反之,属于正常评价。这种方法的过滤准确率是和样本标注量成正比的,也就是样本集的标注量越大越好。
现有的二种技术方案,虽然对广告或者垃圾类评价识别过滤有较为明显的效果,但是都存在一定的缺陷。
对于第一种基于人工建立词典的过滤方法,该方法对广告类评价识别效果较好,但是主要存在如下缺陷:1)词典的建立完全依赖人工,需要人工观察到大量的广告评价,并且提取代表性广告关键词具有较强的主观性,这就会导致词典的建立不准确、不完整、不科学,从而导致准确率与召回率不可控。如果建立的词典包含了一些不够具有广告代表性的关键词,将会导致识别的准确率较低;如果建立的词典包含的代表性关键词数量不足,那将会导致召回率较低,也就是本来有很多新的广告评价,却识别出来的数量较少。2)无法对垃圾评价识别过滤,因为垃圾评价表现形式主要为变化多端的无语言规律文本,如上述垃圾评价的三个样例,代表性特征关键词不明显,所以很难建立一套词典专门用于识别垃圾评价。
对于第二种基于统计的机器学习分类过滤方法,该方法将广告与垃圾评价的识别过滤转为一个二类分类的问题,相比第一种方法,该方法不仅对广告类评价识别有较明显的效果,而且对垃圾类评价识别也有一定的效果,但是该方法主要存在如下缺陷:1)用作训练集的样本语料标注要足够多,需要大量的人力。2)对于垃圾类评价的识别,虽然有一定的效果,但是准确率较低。因为垃圾类评价,不仅文本语言本身没有规律,而且在预处理阶段,分词之后的词语特征比较常规,不具有代表性,同时这些词语的产生都是随机的,本身语言也没有明确的含义。所以,垃圾类评价识别率比较低。
发明内容
基于此,有必要针对现有技术对广告和垃圾评价的分类不准确的技术问题,提供一种商品评价信息过滤方法及系统。
一种商品评价信息过滤方法,包括:
获取多个预先确定的广告垃圾样本,所述广告垃圾样本包括评价文本和用户标识;
建立包括多个所述广告垃圾样本的用户标识的广告垃圾用户标识库;
获取包含用户标识和评价文本的新评价,如果所述新评价的用户标识包含在所述广告垃圾用户标识库中,则确定所述新评价为广告垃圾评价。
一种商品评价信息过滤系统,包括:
样本获取模块,用于获取多个预先确定的广告垃圾样本,所述广告垃圾样本包括评价文本和用户标识;
标识库建立模块,用于建立包括多个所述广告垃圾样本的用户标识的广告垃圾用户标识库;
新评价判断模块,用于获取包含用户标识和评价文本的新评价,如果所述新评价的用户标识包含在所述广告垃圾用户标识库中,则确定所述新评价为广告垃圾评价。
本发明利用发表评价的用户标识,来识别广告垃圾评价。为广告垃圾评价识别的技术领域,提供了一个全新的方法,解决了杂乱无章的垃圾评价难以识别的问题,并且,使得广告垃圾识别的准确率与召回率明显提高。这些对电子商务领域的广告与垃圾商品评价的准确有效的识别、过滤,起着关键的促进作用。
附图说明
图1为本发明一种商品评价信息过滤方法的工作流程图;
图2为本发明一个例子的工作流程图;
图3为本发明一种商品评价信息过滤系统的结构模块图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
如图1所示为本发明一种商品评价信息过滤方法的工作流程图,包括:
步骤S101,获取多个预先确定的广告垃圾样本,所述广告垃圾样本包括评价文本和用户标识;
步骤S102,建立包括多个所述广告垃圾样本的用户标识的广告垃圾用户标识库;
步骤S103,获取包含用户标识和评价文本的新评价,如果所述新评价的用户标识包含在所述广告垃圾用户标识库中,则确定所述新评价为广告垃圾评价。
本发明利用用户与评价的关系识别广告评价与垃圾评价。一个商品评价的出现,一定属于一个用户,通过用户标识就可以识别不同的用户。一个用户如果曾经发过广告评价或垃圾评价,则其再次发广告评价或垃圾评价的可能性会比未发过广告评价或垃圾评价的用户的可能性要大。因此,本发明在步骤S101中,将广告垃圾样本的用户标识组成一个广告垃圾用户标识库,从而使得当该库中的用户标识再次发表评价时,能迅速将其确定为广告垃圾评价。
在其中一个实施例中,还包括:
建立包括多个所述广告垃圾样本的评价文本的广告垃圾评价集合,将所述广告垃圾评价集合作为文本分类器的训练集对文本分类器进行训练,所述文本分类器对输入的评价文本进行分类确定为广告垃圾评价文本或者非广告垃圾评价文本;
获取到新评价后,如果所述新评价的用户标识不包含在所述广告垃圾用户标识库中,则文本分类器对所述新评价的评价文本进行分类,如果文本分类器将所述新评价的评价文本分类为广告垃圾评价文本,则所述新评价为广告垃圾评价,将所述新评价的用户标识加入所述广告垃圾用户标识库,将所述新评价的评价文本加入所述广告垃圾评价集合,并对所述文本分类器重新训练。
本实施例增加文本分类器,将广告垃圾样本的评价文本,作为文本分类器的训练集,则当新评价的用户标识不包含在所述广告垃圾用户标识库中,采用文本分类器进行分类判断,以避免漏检。
在其中一个实施例中,还包括:
从所述广告垃圾评价集合中抽取广告关键词组成广告词典;
如果文本分类器将所述新评价分类为非广告垃圾评价文本,则通过所述广告词典对所述新评价的评价文本进行过滤,如果所述新评价的评价文本包含所述广告词典中的广告关键词的数量大于或等于预设广告阈值,则判断所述新评价为广告垃圾评价,将所述新评价的用户标识加入所述广告垃圾用户标识库,将所述新评价的评价文本加入所述广告垃圾评价集合,并对所述文本分类器重新训练。
本实施例增加从所述广告垃圾评价集合中抽取广告关键词组成广告词典,如果文本分类器将所述新评价分类为非广告垃圾评价文本,则通过所述广告词典对所述新评价的评价文本进行过滤,以避免漏检。
在其中一个实施例中,还包括:
如果所述新评价的评价文本包含所述广告词典中的广告关键词的数量小于预设广告阈值,则对所述评价文本进行垃圾评价文本分析,如果所述评价文本进行垃圾评价文本分析的结果为垃圾评价文本,则判断所述新评价为广告垃圾评价,将所述新评价的用户标识加入所述广告垃圾用户标识库,将所述新评价的评价文本加入所述广告垃圾评价集合,并对所述文本分类器重新训练。
本实施例增加对垃圾评价文本的进一步分析。
优选地,所述垃圾评价文本分析包括:
计算所述评价文本分词后的单字占比率,如果所述单字占比率大于或等于预设的占比率阈值,则判断所述评价文本为垃圾评价文本。
如图2所示为本发明一个例子的工作流程图,包括:
步骤S201,从数据库中获取一部分商品评价作为样本,该样本数据由用户ID与评价文本两列组成;
步骤S202,对样本数据进行人工标注,属于广告垃圾评价标记为1,否则标记为0,同时建立广告词典;
步骤S203,将评价文本这一列用作文本分类器的训练集;
步骤S204,将标记为1的全部样本用户ID保存下来形成一个ID库作为广告垃圾用户标识库;
步骤205,对于一个新的评价,如果广告垃圾用户标识库包含这个评价的用户ID,将这个评价作为广告垃圾评价的候选集,并初步判断,这个评价属于广告垃圾评价,交付人工处理,执行步骤S209;
步骤S206,利用步骤S203标注的语料用作训练集,通过文件分类器进行文本分类识别,如果属于1类,将这个评价作为广告垃圾评价的候选集,并初步判断,这个评价属于广告垃圾评价,交付人工处理,执行标准S209,如果属于0类,执行步骤S207;
步骤S207,利用建立的词典进行识别。对于识别为广告垃圾评价,将这个评价作为广告垃圾评价的候选集,交付人工处理,执行步骤S209,否则,执行步骤S208;
步骤S208,执行垃圾评价文本分析,如果识别为广告垃圾评价,将这个评价作为广告垃圾评价的候选集,交付人工处理;
步骤S209,将候选集加入样本,转到步骤S204进行标识。
其中,垃圾评价文本分析具体如下:
利用计算评价文本分词后单字占比率,来识别垃圾评价。一个垃圾评价通常是用户随意敲击键盘乱写的评价,如前文提到的垃圾类评价示例“我吐兔兔继续找我下咯我”。可以发现,组成这种评价文本的词多数是单字词,例如示例分词之后为“我\吐\兔\兔\继续\找我\下\咯\我”,一共有9个词,其中单字词有7个,计算出占比为77.78%。假设一个评价文本分词之后,总词数数学描述为n,单字词数为m,那么单字词占比率为f,计算公式如下:
f=m/n(m≤n),
假定满足垃圾评价的条件阈值为t(0≤t≤1),如果f≥t,系统将判定该条评价为垃圾评价,其中t的值可以由人工做实验并灵活设定。
如图3所示为本发明一种商品评价信息过滤系统的结构模块图,包括:
样本获取模块301,用于获取多个预先确定的广告垃圾样本,所述广告垃圾样本包括评价文本和用户标识;
标识库建立模块302,用于建立包括多个所述广告垃圾样本的用户标识的广告垃圾用户标识库;
新评价判断模块303,用于获取包含用户标识和评价文本的新评价,如果所述新评价的用户标识包含在所述广告垃圾用户标识库中,则确定所述新评价为广告垃圾评价。
在其中一个实施例中,还包括:
建立包括多个所述广告垃圾样本的评价文本的广告垃圾评价集合,将所述广告垃圾评价集合作为文本分类器的训练集对文本分类器进行训练,所述文本分类器对输入的评价文本进行分类确定为广告垃圾评价文本或者非广告垃圾评价文本;
获取到新评价后,如果所述新评价的用户标识不包含在所述广告垃圾用户标识库中,则文本分类器对所述新评价的评价文本进行分类,如果文本分类器将所述新评价的评价文本分类为广告垃圾评价文本,则所述新评价为广告垃圾评价,将所述新评价的用户标识加入所述广告垃圾用户标识库,将所述新评价的评价文本加入所述广告垃圾评价集合,并对所述文本分类器重新训练。
在其中一个实施例中,还包括:
从所述广告垃圾评价集合中抽取广告关键词组成广告词典;
如果文本分类器将所述新评价分类为非广告垃圾评价文本,则通过所述广告词典对所述新评价的评价文本进行过滤,如果所述新评价的评价文本包含所述广告词典中的广告关键词的数量大于或等于预设广告阈值,则判断所述新评价为广告垃圾评价,将所述新评价的用户标识加入所述广告垃圾用户标识库,将所述新评价的评价文本加入所述广告垃圾评价集合,并对所述文本分类器重新训练。
在其中一个实施例中,还包括:
如果所述新评价的评价文本包含所述广告词典中的广告关键词的数量小于预设广告阈值,则对所述评价文本进行垃圾评价文本分析,如果所述评价文本进行垃圾评价文本分析的结果为垃圾评价文本,则判断所述新评价为广告垃圾评价,将所述新评价的用户标识加入所述广告垃圾用户标识库,将所述新评价的评价文本加入所述广告垃圾评价集合,并对所述文本分类器重新训练。
在其中一个实施例中,所述垃圾评价文本分析包括:
计算所述评价文本分词后的单字占比率,如果所述单字占比率大于或等于预设的占比率阈值,则判断所述评价文本为垃圾评价文本。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种商品评价信息过滤方法,其特征在于,包括:
获取多个预先确定的广告垃圾样本,所述广告垃圾样本包括评价文本和用户标识;
建立包括多个所述广告垃圾样本的用户标识的广告垃圾用户标识库;
获取包含用户标识和评价文本的新评价,如果所述新评价的用户标识包含在所述广告垃圾用户标识库中,则确定所述新评价为广告垃圾评价;
建立包括多个所述广告垃圾样本的评价文本的广告垃圾评价集合,将所述广告垃圾评价集合作为文本分类器的训练集对文本分类器进行训练,所述文本分类器对输入的评价文本进行分类确定为广告垃圾评价文本或者非广告垃圾评价文本;
获取到新评价后,如果所述新评价的用户标识不包含在所述广告垃圾用户标识库中,则文本分类器对所述新评价的评价文本进行分类,如果文本分类器将所述新评价的评价文本分类为广告垃圾评价文本,则所述新评价为广告垃圾评价,将所述新评价的用户标识加入所述广告垃圾用户标识库,将所述新评价的评价文本加入所述广告垃圾评价集合,并对所述文本分类器重新训练;
从所述广告垃圾评价集合中抽取广告关键词组成广告词典;
如果文本分类器将所述新评价分类为非广告垃圾评价文本,则通过所述广告词典对所述新评价的评价文本进行过滤,如果所述新评价的评价文本包含所述广告词典中的广告关键词的数量大于或等于预设广告阈值,则判断所述新评价为广告垃圾评价,将所述新评价的用户标识加入所述广告垃圾用户标识库,将所述新评价的评价文本加入所述广告垃圾评价集合,并对所述文本分类器重新训练。
2.根据权利要求1所述的商品评价信息过滤方法,其特征在于,还包括:
如果所述新评价的评价文本包含所述广告词典中的广告关键词的数量小于预设广告阈值,则对所述评价文本进行垃圾评价文本分析,如果所述评价文本进行垃圾评价文本分析的结果为垃圾评价文本,则判断所述新评价为广告垃圾评价,将所述新评价的用户标识加入所述广告垃圾用户标识库,将所述新评价的评价文本加入所述广告垃圾评价集合,并对所述文本分类器重新训练。
3.根据权利要求2所述的商品评价信息过滤方法,其特征在于,所述垃圾评价文本分析包括:
计算所述评价文本分词后的单字占比率,如果所述单字占比率大于或等于预设的占比率阈值,则判断所述评价文本为垃圾评价文本。
4.一种商品评价信息过滤系统,其特征在于,包括:
样本获取模块,用于获取多个预先确定的广告垃圾样本,所述广告垃圾样本包括评价文本和用户标识;
标识库建立模块,用于建立包括多个所述广告垃圾样本的用户标识的广告垃圾用户标识库;
新评价判断模块,用于获取包含用户标识和评价文本的新评价,如果所述新评价的用户标识包含在所述广告垃圾用户标识库中,则确定所述新评价为广告垃圾评价;
建立包括多个所述广告垃圾样本的评价文本的广告垃圾评价集合,将所述广告垃圾评价集合作为文本分类器的训练集对文本分类器进行训练,所述文本分类器对输入的评价文本进行分类确定为广告垃圾评价文本或者非广告垃圾评价文本;
获取到新评价后,如果所述新评价的用户标识不包含在所述广告垃圾用户标识库中,则文本分类器对所述新评价的评价文本进行分类,如果文本分类器将所述新评价的评价文本分类为广告垃圾评价文本,则所述新评价为广告垃圾评价,将所述新评价的用户标识加入所述广告垃圾用户标识库,将所述新评价的评价文本加入所述广告垃圾评价集合,并对所述文本分类器重新训练;
从所述广告垃圾评价集合中抽取广告关键词组成广告词典;
如果文本分类器将所述新评价分类为非广告垃圾评价文本,则通过所述广告词典对所述新评价的评价文本进行过滤,如果所述新评价的评价文本包含所述广告词典中的广告关键词的数量大于或等于预设广告阈值,则判断所述新评价为广告垃圾评价,将所述新评价的用户标识加入所述广告垃圾用户标识库,将所述新评价的评价文本加入所述广告垃圾评价集合,并对所述文本分类器重新训练。
5.根据权利要求4所述的商品评价信息过滤系统,其特征在于,还包括:
如果所述新评价的评价文本包含所述广告词典中的广告关键词的数量小于预设广告阈值,则对所述评价文本进行垃圾评价文本分析,如果所述评价文本进行垃圾评价文本分析的结果为垃圾评价文本,则判断所述新评价为广告垃圾评价,将所述新评价的用户标识加入所述广告垃圾用户标识库,将所述新评价的评价文本加入所述广告垃圾评价集合,并对所述文本分类器重新训练。
6.根据权利要求5所述的商品评价信息过滤系统,其特征在于,所述垃圾评价文本分析包括:
计算所述评价文本分词后的单字占比率,如果所述单字占比率大于或等于预设的占比率阈值,则判断所述评价文本为垃圾评价文本。
CN201410178839.4A 2014-04-29 2014-04-29 一种商品评价信息过滤方法及系统 Active CN103996130B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201410178839.4A CN103996130B (zh) 2014-04-29 2014-04-29 一种商品评价信息过滤方法及系统
PCT/CN2015/077848 WO2015165408A1 (zh) 2014-04-29 2015-04-29 一种商品评价信息过滤方法及系统
US15/307,430 US10963912B2 (en) 2014-04-29 2015-04-29 Method and system for filtering goods review information
AU2015252513A AU2015252513B2 (en) 2014-04-29 2015-04-29 Method and system for filtering goods evaluation information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410178839.4A CN103996130B (zh) 2014-04-29 2014-04-29 一种商品评价信息过滤方法及系统

Publications (2)

Publication Number Publication Date
CN103996130A CN103996130A (zh) 2014-08-20
CN103996130B true CN103996130B (zh) 2016-04-27

Family

ID=51310287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410178839.4A Active CN103996130B (zh) 2014-04-29 2014-04-29 一种商品评价信息过滤方法及系统

Country Status (4)

Country Link
US (1) US10963912B2 (zh)
CN (1) CN103996130B (zh)
AU (1) AU2015252513B2 (zh)
WO (1) WO2015165408A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103996130B (zh) * 2014-04-29 2016-04-27 北京京东尚科信息技术有限公司 一种商品评价信息过滤方法及系统
CN104281665B (zh) * 2014-09-25 2018-05-25 北京百度网讯科技有限公司 一种用于确定评论的有效性的方法与装置
CN105894315A (zh) * 2015-01-09 2016-08-24 南京美淘网络有限公司 一种评价过滤的方法
CN104750674B (zh) * 2015-02-17 2018-12-21 北京京东尚科信息技术有限公司 一种人机会话满意度预测方法及系统
CN106204132A (zh) * 2016-07-08 2016-12-07 孙东耀 基于互联网的对象评量方法及系统
CN107741933A (zh) * 2016-08-08 2018-02-27 北京京东尚科信息技术有限公司 用于检测文本的方法和装置
CN110020147A (zh) * 2017-11-29 2019-07-16 北京京东尚科信息技术有限公司 模型生成、评论识别的方法、系统、设备及存储介质
CN108874852A (zh) * 2018-03-20 2018-11-23 中国科学院信息工程研究所 一种舆情信息中的个性化垃圾信息过滤方法及系统
CN109145151B (zh) * 2018-06-20 2021-05-18 北京达佳互联信息技术有限公司 一种视频的情感分类获取方法及装置
CN109493845A (zh) * 2019-01-02 2019-03-19 百度在线网络技术(北京)有限公司 用于生成音频的方法及装置
CN110704615B (zh) * 2019-09-04 2021-01-26 北京航空航天大学 互联网金融非显性广告识别方法及装置
CN111046174A (zh) * 2019-11-08 2020-04-21 广州坚和网络科技有限公司 适用于新闻资讯软件的一种评论防灌水的方法
CN111737455A (zh) * 2019-12-02 2020-10-02 北京京东尚科信息技术有限公司 文本识别方法、装置、电子设备和介质
CN113127640B (zh) * 2021-03-12 2022-11-29 嘉兴职业技术学院 一种基于自然语言处理的恶意垃圾评论攻击识别方法
US11281858B1 (en) * 2021-07-13 2022-03-22 Exceed AI Ltd Systems and methods for data classification
CN115062223B (zh) * 2022-06-24 2024-02-13 摘星社信息科技(浙江)股份有限公司 社交大数据平台垃圾广告用户精准识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159704A (zh) * 2007-10-23 2008-04-09 浙江大学 基于微内容相似度的反垃圾方法
CN101909261A (zh) * 2010-08-10 2010-12-08 中兴通讯股份有限公司 一种垃圾短信监控的方法和系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US8046832B2 (en) * 2002-06-26 2011-10-25 Microsoft Corporation Spam detector with challenges
US7257564B2 (en) * 2003-10-03 2007-08-14 Tumbleweed Communications Corp. Dynamic message filtering
US20060149821A1 (en) * 2005-01-04 2006-07-06 International Business Machines Corporation Detecting spam email using multiple spam classifiers
CN100539749C (zh) 2007-01-16 2009-09-09 华为技术有限公司 短消息业务中心及发送短消息的方法
CN101132590A (zh) * 2007-07-27 2008-02-27 中国移动通信集团江苏有限公司 基于客户感知的通信网络软质量提升方法
CN101815262A (zh) * 2010-04-13 2010-08-25 深圳市五巨科技有限公司 一种移动终端垃圾短信息屏蔽方法和装置
WO2013059487A1 (en) * 2011-10-19 2013-04-25 Cornell University System and methods for automatically detecting deceptive content
CN103996130B (zh) 2014-04-29 2016-04-27 北京京东尚科信息技术有限公司 一种商品评价信息过滤方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159704A (zh) * 2007-10-23 2008-04-09 浙江大学 基于微内容相似度的反垃圾方法
CN101909261A (zh) * 2010-08-10 2010-12-08 中兴通讯股份有限公司 一种垃圾短信监控的方法和系统

Also Published As

Publication number Publication date
US20170053213A1 (en) 2017-02-23
AU2015252513B2 (en) 2018-11-29
CN103996130A (zh) 2014-08-20
AU2015252513A1 (en) 2016-12-08
WO2015165408A1 (zh) 2015-11-05
US10963912B2 (en) 2021-03-30

Similar Documents

Publication Publication Date Title
CN103996130B (zh) 一种商品评价信息过滤方法及系统
CN111444334B (zh) 数据处理方法、文本识别方法、装置及计算机设备
CN102279851B (zh) 一种智能导航方法、装置和系统
CN103778214A (zh) 一种基于用户评论的商品属性聚类方法
CN103177129B (zh) 互联网实时信息推荐预测系统
CN103544188A (zh) 移动互联网内容的用户偏好推送方法与装置
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN103092975A (zh) 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法
CN102385727A (zh) Id价值评价设备,id价值评价系统和id价值评价方法
Shojaee et al. A framework for fake review annotation
CN107133315A (zh) 一种基于语义分析的智能媒介推荐方法
CN104111939A (zh) 一种图书推荐方法和装置
CN102880631A (zh) 一种基于双层分类模型的中文作者识别方法及其装置
Kim et al. Text mining for the evaluation of public services: the case of a public bike-sharing system
Miller et al. A psychological based analysis of marketing email subject lines
CN105787744A (zh) 一种基于购物需求的抗攻击信誉评价计算方法
Chinomona et al. When global expansion meets local realities in retailing: Carrefour's glocal strategies in Taiwan
CN107220239A (zh) 一种基于大数据处理的电子商务中有效评论的特征提取方法
Aslam et al. A survey on opinion spam detection methods
Yu et al. Graph learning for fake review detection
Wang et al. Fake review identification methods based on multidimensional feature engineering
CN104751234B (zh) 一种用户资产的预测方法及装置
KR20110114071A (ko) 상품 관련 인터넷 게시물에 기반한 광고 방법 및 광고 시스템
CN105138572A (zh) 获取用户标签的关联度权值的方法和装置
Jiang et al. Detecting product review spammers using activity model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant