CN107133835A - 一种分析商品质量的方法及装置 - Google Patents

一种分析商品质量的方法及装置 Download PDF

Info

Publication number
CN107133835A
CN107133835A CN201610113221.9A CN201610113221A CN107133835A CN 107133835 A CN107133835 A CN 107133835A CN 201610113221 A CN201610113221 A CN 201610113221A CN 107133835 A CN107133835 A CN 107133835A
Authority
CN
China
Prior art keywords
comment information
information
similarity
comment
commodity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610113221.9A
Other languages
English (en)
Inventor
王炀
操颖平
盛子夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610113221.9A priority Critical patent/CN107133835A/zh
Publication of CN107133835A publication Critical patent/CN107133835A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本申请实施例公开了一种分析商品质量的方法及装置。该方法包括:获取用户对商品的评论信息;计算所述评论信息与预设的好评信息之间的第一相似度,并计算所述评论信息与预设的差评信息之间的第二相似度;根据所述第一相似度和第二相似度分析所述商品的质量。应用本申请实施例提供的分析商品质量的方法,根据用户对于某商品的评论信息分析获得该商品的质量信息,该商品的质量信息更加真实的反映出该商品的质量。

Description

一种分析商品质量的方法及装置
技术领域
本申请涉及信息处理技术领域,尤其涉及一种分析商品质量的方法及装置。
背景技术
随着互联网的蓬勃发展,网上的各大平台为用户提供了多样的消费渠道,方便了用户的衣食住行。通常用户在相关平台消费时,会先通过该平台上其他用户对于某商品的评论,分析获得有关该商品质量的信息,然后根据该商品质量信息决定是否要对该商品进行消费。
通常对于一件商品的评论信息有很多,而且对于同一件商品不同用户的评论也不相同,因此用户有时根据商品的评论信息很难在短时间内对该商品的质量作出判断。目前很多消费平台为解决该问题,会在用户对某商品评论时提供打分功能,即用户根据自己对该商品的体验直接对该商品的质量进行打分。打分功能的一种表现形式是给商品质量设置星级,例如,通常五星级表示用户对该商品的质量非常满意,一星级表示用户对该商品的质量不满意。其他用户可以根据商品质量所对应的星级直接对该商品的质量作出判断,节约了用户时间。
在上述的现有技术中,用户根据某商品的质量所对应的星级的确可以对该商品的质量快速的作出判断,但是有时当用户给某商品的质量差评打低星级时,出售该商品的商户怕影响销售额,会让该用户修改星级,因此许多用户为了避免麻烦,会给出不符合该商品真实质量的星级,只是在对该商品进行评论时说明该商品存在的具体问题或者对于该商品的真实体验。而用户在消费时,为了方便通常只是关注该商品质量所对应的星级,这样可能导致用户对该商品的质量作出错误的判断。
发明内容
本申请实施例提供一种分析商品质量的方法,用于解决用户根据商品的质量所对应的星级可能对该商品的质量作出错误判断的问题。
本申请实施例提供了一种分析商品质量的方法,该方法包括:获取用户对商品的评论信息;计算所述评论信息与预设的好评信息之间的第一相似度,并计算所述评论信息与预设的差评信息之间的第二相似度;根据所述第一相似度和第二相似度分析所述商品的质量。
优选地,所述方法还包括:当所述第一相似度和第二相似度均小于预设阈值时,则所述评论信息与所述商品的质量无关。
优选地,所述计算所述评论信息与预设的好评信息之间的第一相似度和计算所述评论信息与预设的差评信息之间的第二相似度具体包括:
确定所述评论信息对应的语义向量,并确定所述预设的好评信息和差评信息对应的词向量;
计算所述评论信息对应的语义向量与所述好评信息对应的词向量之间夹角的第一余弦值,并计算所述评论信息对应的语义向量与所述差评信息对应的词向量之间夹角的第二余弦值,所述第一余弦值表示所述评论信息与所述好评信息之间的第一相似度,所述第二余弦值表示所述评论信息与所述差评信息之间的第二相似度。
优选地,所述计算所述评论信息与预设的好评信息之间的第一相似度和计算所述评论信息与预设的差评信息之间的第二相似度具体包括:
确定所述评论信息对应的语义向量,并确定所述预设的好评信息和差评信息对应的词向量;
计算所述评论信息对应的语义向量与所述好评信息对应的词向量之间的第一欧氏距离,并计算所述评论信息对应的语义向量与所述差评信息对应的词向量之间的第二欧氏距离;
根据所述第一欧氏距离获取所述评论信息与所述好评信息之间的第一相似度,并根据所述第二欧氏距离获取所述评论信息与所述差评信息之间的第二相似度。
优选地,所述确定所述评论信息对应的语义向量包括:
对所述评论信息进行切词处理,获得所述评论信息中的词组;
根据预设规则将所述评论信息中的词组均转换成词向量;
将所述评论信息中词组对应的词向量进行加权求和,确定所述评论信息的语义向量。
优选地,所述根据所述第一相似度和第二相似度分析所述商品的质量具体包括:
根据所述第一相似度和第二相似度确定所述评论信息的分类,所述分类是指好评信息或者差评信息;
根据所述评论信息的分类分析所述商品的质量。
优选地,所述根据所述第一相似度和第二相似度确定所述评论信息的分类具体包括:
比较所述第一相似度和第二相似度,如果所述第一相似度大于所述第二相似度,则所述评论信息的分类属于好评信息;如果所述第一相似度小于所述第二相似度,则所述评论信息的分类属于差评信息。
优选地,所述根据所述评论信息的分类分析所述商品的质量包括:
根据所述评论信息中的分类,获取所述评论信息中好评信息占所述评论信息的第一比例,并获取所述评论信息中差评信息占所述评论信息的第二比例;
通过所述第一比例和第二比例分析所述商品的质量。
本申请实施例还提供了一种分析商品质量的装置,该装置包括获取单元、计算单元和分析单元,其中:
所述获取单元,用于获取用户对于商品的评论信息;
所述计算单元,用于计算所述评论信息与预设的好评信息之间的第一相似度,并计算所述评论信息与预设的差评信息之间的第二相似度;
所述分析单元,用于根据所述第一相似度和第二相似度分析所述商品的质量。
优选地,所述计算单元包括第一确定子单元和计算子单元,其中:
所述第一确定子单元,用于确定所述评论信息对应的语义向量,并确定所述预设的好评信息和差评信息对应的词向量;
所述计算子单元,用于计算所述评论信息对应的语义向量与所述好评信息对应的词向量之间夹角的第一余弦值,并计算所述评论信息对应的语义向量与所述差评信息对应的词向量之间夹角的第二余弦值,所述第一余弦值表示所述评论信息与所述好评信息之间的第一相似度,所述第二余弦值表示所述评论信息与所述差评信息之间的第二相似度。
优选地,所述计算子单元还用于:
计算所述评论信息对应的语义向量与所述好评信息对应的词向量之间的第一欧氏距离,并计算所述评论信息对应的语义向量与所述差评信息对应的词向量之间的第二欧氏距离;
根据所述第一欧氏距离获取所述评论信息与所述好评信息之间的第一相似度,并根据所述第二欧氏距离获取所述评论信息与所述差评信息之间的第二相似度。
优选地,所述第一确定子单元用于获取所述评论信息对应的语义向量具体包括:
对所述评论信息进行切词处理,获得所述评论信息中的词组;
根据预设规则将所述评论信息中的词组均转换成词向量;
对所述评论信息中词组对应的词向量进行加权求和,确定所述评论信息的语义向量。
优选地,所述分析单元包括第二确定子单元和分析子单元,其中:
所述第二确定单元,用于根据所述第一相似度和第二相似度确定所述评论信息的分类,所述分类是指好评信息或者差评信息;
所述分析子单元,用于根据所述评论信息的分类分析所述商品的质量。
优选地,所述第二确定子单元用于根据所述第一相似度和第二相似度确定所述评论信息的分类具体包括:
比较所述第一相似度和第二相似度,如果所述第一相似度大于所述第二相似度,则所述评论信息的分类属于好评信息;如果所述第一相似度小于所述第二相似度,则所述评论信息的分类属于差评信息。
优选地,所述分析子单元用于根据所述评论信息的分类分析所述商品的质量具体包括:
根据所述评论信息中的分类,获取所述评论信息中好评信息占所述评论信息的第一比例,并获取所述评论信息中差评信息占所述评论信息的第二比例;
通过所述第一比例和第二比例分析所述商品的质量。
应用本申请实施例提供的分析商品的质量的方法,在获取用户对于某商品的评论信息后,首先分别计算该评论信息与预设的好评信息和差评信息之间的相似度,然后根据这两相似度确定该评论信息的分类,即判断该评论信息属于好评信息或者差评信息,最后用户根据该评论信息的分类分析出该商品的质量。由于用户对于某商品的评论信息通常比较真实的反应出用户对于该商品的体验,同时也间接地反映了该商品的质量,因此本申请实施例根据用户对于该商品的评论信息,获取该商品的质量信息,该商品信息更加真实的反映了该商品的质量。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种分析商品质量的方法的具体流程示意图;
图2为本申请实施例提供的一种根据两词向量之间的欧式距离获取这两词向量对应词组之间相似度的示意图;
图3为本申请实施例提供的一种根据两词向量之间的夹角余弦值获取这两词向量对应词组之间相似度的示意图;
图4为本申请实施例提供的一种分析商品质量的方法的具体流程示意图;
图5为本申请实施例提供的一种分析商品质量的装置的具体结构示意图。
具体实施方式
在背景技术中已经提到,有时用户根据某商品质量对应的星级数分析该商品的质量时,有时会使用户对该商品的质量作出错误的判断,例如,有时候用户虽然感觉某商品的质量不好,也不习惯给该商品打低星级;或者有时用户在给某商品打星级时,因为手误点错了星级数;再或者有时用户给某商品的星级数处于中间等级,这种情况下其他用户不能从中间等级具体的分析出该商品质量。这些情况都导致商品质量对应的星级数不能真实的反应出商品的质量。针对该问题,本方案提供了一种分析商品质量的方法,用于解决现有技术中根据商品质量对应的星级数使得用户不能对该商品的质量作出正确判断的问题。
需要说明的是:上述商品的质量可以是具体物品的质量,还可以是用户针对某项服务进行消费时对于这项服务的满意程度,例如,用户在住酒店时,可以对该酒店的环境和服务进行评论,这时商品的质量就是用户对于该酒店的入住体验。
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种分析商品质量的方法,该方法的具体流程示意图如图1所示,包括下述步骤:
步骤101:获取用户对商品的评论信息。
目前,各消费平台在用户消费后为用户提供对于消费商品的评论功能,用户可以将对该商品的真实体验展示出来,这样其他用户可以根据该商品的评论对该商品的质量作出大致的判断。
本步骤中,首先获取用户对于某商品的评论信息,在获取评论信息后,需要将获取的评论中对于分析该商品质量没有贡献的评论信息剔除掉,即获得有效的评论信息,这里没有贡献的评论消息包括:空评论、系统自动评论、错误评论和广告等,这里的错误评论是指乱码字符等。
步骤102:计算所述评论信息与预设的好评信息之间的第一相似度,并计算所述评论信息与预设的差评信息之间的第二相似度。
分析商品质量的方式有很多种,本申请实施例重点采用根据某商品的评论信息与预设好评信息和差评信息之间的相似度,对该商品的质量进行分析。同样,获取评论信息与预设好评信息和差评信息之间相似度的方法也有很多种,下面重点对其中一种方法进行说明。
在说明计算上述相似度的方法之前,先对获取预设的好评信息和差评信息的方法进行说明,通常获取预设的好评信息和差评信息的方法是:通过对有关商品评论的语料进行切词,获取属于好评信息和差评信息的关键词;对预料进行切词的方法可以是通过CRF切词等方式,这里有关商品评论的关键词是指上述预设的好评信息或差评信息,例如:预设的好评信息可以是:“好”、“喜欢”、“正品”等;预设的差评信息可以是:“不好”、“山寨”、“假冒”等。
在获得预设的好评信息和差评信息之后,将该好评信息和差评信息通过词向量模型,通过将这些好评信息和差评信息进行处理,获得该好评信息和差评信息对应的词向量,具体的,可以使用深度神经网络模型获取预设的好评信息和差评信息的词向量,即将该好评信息和差评信息作为初始参数输入该模型中,然后该模型将好评信息和差评信息中的每个词组映射成一个固定长度的向量,并将这些向量放在一起形成一个词向量空间,每个向量对应为该空间的一个点,如图3所示为简单的二维词向量空间,其中,A、B和C三点表示三个不同词组对应的词向量。
同理,采用同样的方法获取某商品的评论信息的语义向量,具体的步骤是:首先将有关某商品的评论信息进行切词,这里同样也可以采用CRF切词等方式,获取该评论信息中的词组,然后将获得这些词组转换成词向量;在获得该评论信息中个词组的词向量后,需要获得该评论信息对应的语义向量;且获得语义向量的方法有很多种,例如,可以将某商品评论信息中各个词组对应的词向量进行加权求和,从而获得该评论信息的语义向量。
上述将评论信息中各个词组对应的词向量进行加权求和,具体的,首先确定每个词组对应的权重,然后根据评论信息中每个词组对应的向量和权重进行加权求和,从而获得该评论信息的语义向量。这里在确定每个词组对应的权重时,可以将与质量无关的词组的权重设置的比与商品质量相关的词组的权重小,例如,某商品的其中一条评论为“我感觉这件衣服质量太差”,其中,将该评论进行切词可能获得的词组是:“我”“感觉”“这件”“衣服”“质量”“太差”,其中,“我”“感觉”“这件”“衣服”“质量”这些词组与该商品的质量没有直接关系,而与该商品质量有直接关系的词组是“太差”,那么在是使用加权求和的方法获取这句评论信息的语义向量时,可以将“我”“感觉”“这件”“衣服”“质量”这些词组的权重设置成较小值,这里较小值的意思是通过该权重作用后的数值对于分析该商品的质量几乎没有影响,而可以将“太差”的权重设置的相对较大些,也即:对于分析该商品质量时,“太差”这个词组占主导作用。这里获取评论信息中每个词组对应的权重,可以通过用户自行设定获取,也可以通过模型计算获取每个词组对应的权重等,在此不作具体限定。
在获得预设的好评信息和差评信息对应的词向量以及某商品的评论信息所对应的语义向量后,需要根据该商品的评论信息所对应的语义向量与预设的好评信息对应词向量,计算获得该商品的评论信息与预设好评信息之间的相似度,即第一相似度,并根据该商品的评论信息所对应的语义向量与预设的差评信息对应词向量,计算获得该商品的评论信息与预设差评信息之间的相似度,即第二相似度。
根据两词组对应的词向量计算这两词组之间相似度的方法通常有两种,第一种方法是:通过计算两词向量在词向量空间对应的两点之间的欧式距离,再通过欧氏距离获取这两词向量对应词组之间的相似度。如图2所示为简单的二维词向量空间,其中,A、B两点对应为两词向量在词向量空间的位置,假如A点在词向量空间中的位置坐标为(x1,y1),B点在词向量空间中的位置坐标为(x2,y2),则A、B两点对应的词向量之间的欧式距离为:
相应的,如果两个n维词向量P和Q对应的坐标为(x11,x12,x13,…,x1n)和(x21,x22,x23,…,x2n),这两词向量对应的欧式距离为:
则这两n维词向量对应两词组之间的相似度通常为:
由上述公式可得:如果两词向量之间的欧式距离越大,则这两词向量所对应的词组之间的相似度越小,反之,如果两词向量之间的欧式距离越小,则这两词向量所对应的词组之间的相似度越大。上述公式只是示例性的说明,并没有对根据欧式距离计算两词组之间的相似度的方法构成限定。
第二种根据两词组对应的词向量计算这两词组之间相似度的方法是:计算这两词组对应的词向量之间的夹角余弦值,这里这两向量之间的夹角余弦值表示这两词向量对应的词组之间的相似度。如图4所示:P、Q向量对应的是两词组对应的词向量,则P和Q两向量之间的夹角余弦值为:
即这P、Q向量对应两词组之间的相似度为
需要说明的是:以上两种方法计算两词组之间相似度的方法只是示例性的说明,在实际应用中,可能还会有其他计算方法,在此不作具体限定。另外,上述根据两词组对应的词向量获取这两词组之间的相似度,其中,两词组对应的词向量中其中的一个词向量表示某商品的语义向量,另一个词向量表示的预设的好评信息或差评信息对应的词向量。
步骤103:根据所述第一相似度和第二相似度分析所述商品的质量。
在步骤102中,分别获取了第一相似度和第二相似度,这里第一相似度表示商品评论信息与预设的好评信息之间的相似度,第二相似度表示该商品评论信息与预设的差评信息之间的相似度;在步骤中,需要根据获取的第一相似度和第二相似度对该商品的质量进行分析,具体的实施方式有很多种。
这里重点对其中一种实施方式进行说明:首先根据第一相似度和第二相似度确定该商品对应的评论信息的分类,即确定该商品评论信息属于好评信息或者差评信息,再根据该评论信息的分类分析该商品的质量。
确定商品分类的方法可以是:通过比较第一相似度和第二相似度的大小,从而判断该商品的评论信息的所属分类。例如,在通过计算两词向量之间的欧氏距离确定该商品信息的所属分类时,如果获得的第一相似度大于第二相似度时,则该商品的评论信息属于好评信息,反之,则该商品的评论信息属于差评信息。例如,图2所示:假如A点表示是某商品的评论信息对应在词向量空间中的位置,B点和C点分别表示预设的好评信息和差评信息在词向量空间的位置,通过计算发现A点与B点之间的欧式距离要比A点与C点之间的欧式距离小,根据公式可得:该商品评论信息与预设的好评信息更为相似,即该商品信息属于好评信息。
相同的,在通过词向量之间的夹角余弦值确定该商品评论信息的所述分类时,如果获得的第一相似度大于第二相似度,则该商品的评论信息属于好评信息,反之,该商品的评论信息属于差评信息。例如,表1所示为:计算获得的某商品评论信息对应的语义向量与预设好评信息和差评信息之间的夹角余弦值,即获得该评论信息与预设的好评信息和差评信息之间的相似度,具体的,评论信息“就是一堆垃圾,坑人的玩意儿”与预设的好评信息之间的第一相似度为0.0356,且与预设的差评信息之间的第二相似度为0.8923,通过比较发现,第一相似度小于第二相似度,即该评论信息属于差评信息;同样的方法获得评论“宝贝非常好,有正品标签,是正品”与预设好评信息之间的第一相似度,且获得该评论信息与预设的差评信息之间的第二相似度,结果发现第一相似度大于第二相似度,即该评论信息属于好评信息。
表1
上述是通过比较第一相似度和第二相似度对该商品的评论信息进行分类,在实际应用中,对商品信息的分类有很多种,例如,可以通过设定阈值,来对商品的评论信息进行分类;具体的,可以预先设定好评信阈值和差评信息阈值,如果计算获得的某商品评论信息与预设好评信息之间的相似度大于该好评信息阈值,则直接确定该商品评论信息属于好评信息;如果计算获得的某商品评论信息与预设的差评信息之间的相似度大于该差评信息阈值时,则该商品评论信息可能属于差评信息。
还有一种情形需要考虑,当用户对于某商品的评论与该商品的质量无关时,例如,用户在对某商品进行差评时,针对邮寄该商品的快递或者商家的服务态度进行差评,显然这些评论与该商品本身的质量无关,通常这种情形下,计算获得的第一相似度和第二相似度都比较小,这时可以判定该商品的评论信息与该商品的质量无关。具体的,可以通过将获取的第一相似度和第二相似度与预设阈值进行比较,即如果获得的第一相似度和第二相似度均比预设阈值小,则确定该商品信息与该商品的质量无关,那么在分析该商品质量时,可以将与该商品质量无关的评论剔除。
上述两种确定商品信息分类的方法只是示例性的说明,并没有对确定商品信息的方法构成限定。
在对有效的商品评论信息进行分类后,再根据该有效评论信息的所属分类对该商品的质量进行分析,分析的方法有很多种,例如,可以提取固定数量的有效评论信息,计算该固定有效评论信息中好评信息和差评信息所占的比例,根据获得的两个比例,确定该商品的质量;具体的,如果好评信息占得比例较多,则确定该商品的质量为“好质量”,反之,则确定该商品的质量为“差质量”,假如选取1000条某商品的有效评论信息,如果这1000条评论信息中好评信息所占的比例为85%,差评信息所占的比例为15%,这时可以确定该商品的质量为“好质量”。或者选取100条某商品的有效评论,并将这100条评论分成10组,则每一组中的有效评论的数量为10条,分别计算每一组中这10条评论信息中好评信息和差评信息所占的比例,综合分析这10组有效评论,最终获得该商品的质量,例如,10组评论信息中好评信息所占的比例大于差评信息所占的比例的有8组,这时也可以确定该商品的质量为“好质量”。
需要说明的是:对于某商品的评论的数量有很多,在本步骤中,需要对选取的有效评论进行逐一分类,最终获得该商品的有效评论的所属分类。
为了很清楚的说明本申请实施例提供的分析商品质量的方法,下面完整的对该分析商品质量的方法进行说明,该方法具体的步骤如下:
步骤S401:获取某商品的评论信息。
步骤S402:获取有效的评论信息;具体是指剔除对分析该商品质量没有贡献的评论信息。
步骤S403:分别计算有效评论信息与预设的好评信息和差评信息之间的相似度;具体是指:首先获得该有效评论信息的语义向量,并获得预设的好评信息和差评信息对应的词向量,根据获得语义向量、预设的好评向量和差评向量,获取该有效评论信息与预设好评信息和差评信息之间的相似度。
步骤S404:将每条有效信息进行分类;根据步骤S402获得的每条有效评论与预设好评信息和差评信息之间的相似度,确定每条有效信息与的所属分类。
步骤S405:综合分析该商品的评论信息的所属分类;根据步骤S403获取的每条有效评论信息的所述分类,综合分析选取的所有有效信息的分类。
步骤S406:获取该商品的质量信息;根据获得所有有效评论信息的分类,分析该商品的质量是好还是差。
同样的,上述根据有效信息的分类分析该商品的质量的方法只是示例性的说明,在实际应用中,还有很多种分析方法,在此不作具体限定。
相应的,本申请实施例还提供了一种分析商品质量的装置,用于更加的真实反映商品的质量。该装置的具体结构如图5所示,具体包括:获取单元501、计算单元502和分析单元503,其中:
所述获取单元501,可以用于获取用户对于商品的评论信息;
所述计算单元502,可以用于计算所述评论信息与预设的好评信息之间的第一相似度,并计算所述评论信息与预设的差评信息之间的第二相似度;
所述分析单元503,可以用于根据所述第一相似度和第二相似度分析所述商品的质量。
上述装置实施例的具体工作流程是:首先,获取单元501获取用户的评论信息,在获得该评论信息后,将无效的评论信息剔除,获得有效的评论信息,这里无效的评论信息是指对于分析该商品质量没有贡献的评论,目的是减少机器的计算强度,然后计算单元502计算该有效的商品评论信息与预设的好评信息之间的第一相似度,并计算该有效的评论信息与预设的差评信息之间的第二相似度,最后分析单元503根据该第一相似度和第二相似度分析出该商品的质量。
上述装置实施例分析商品的质量的实施方法有很多种,在一种实施方式中,所述计算单元502包括第一确定子单元和计算子单元,其中:
所述第一确定子单元,可以用于确定所述评论信息对应的语义向量,并确定所述预设的好评信息和差评信息对应的词向量;
所述计算子单元,可以用于计算所述评论信息对应的语义向量与所述好评信息对应的词向量之间夹角的第一余弦值,并计算所述评论信息对应的语义向量与所述差评信息对应的词向量之间夹角的第二余弦值,所述第一余弦值表示所述评论信息与所述好评信息之间的第一相似度,所述第二余弦值表示所述评论信息与所述差评信息之间的第二相似度。
上述所述第一确定子单元用于获取所述评论信息对应的语义向量具体可以包括:
对所述评论信息进行切词处理,获得所述评论信息中的词组;
根据预设规则将所述评论信息中的词组均转换成词向量;
对所述评论信息中词组对应的词向量进行加权求和,确定所述评论信息的语义向量。
另一种实施方式中,所述计算子单元还可以用于:
计算所述评论信息对应的语义向量与所述好评信息对应的词向量之间的第一欧氏距离,并计算所述评论信息对应的语义向量与所述差评信息对应的词向量之间的第二欧氏距离;
根据所述第一欧氏距离获取所述评论信息与所述好评信息之间的第一相似度,并根据所述第二欧氏距离获取所述评论信息与所述差评信息之间的第二相似度。
又一种实施方式中,所述分析单元包括第二确定子单元和分析子单元,其中:
所述第二确定单元,可以用于根据所述第一相似度和第二相似度确定所述评论信息的分类,所述分类是指好评信息或者差评信息;
所述分析子单元,可以用于根据所述评论信息的分类分析所述商品的质量。
上述第二确定单元用于确定所述评论信息的分类具体可以包括:
比较所述第一相似度和第二相似度,如果所述第一相似度大于所述第二相似度,则所述评论信息的分类属于好评信息;如果所述第一相似度小于所述第二相似度,则所述评论信息的分类属于差评信息。
上述分析子单元用于根据所述评论信息的分类分析所述商品的质量具体可以包括:
根据所述评论信息中的分类,获取所述评论信息中好评信息占所述评论信息的第一比例,并获取所述评论信息中差评信息占所述评论信息的第二比例;
通过所述第一比例和第二比例分析所述商品的质量。
应用本申请实施例提供的分析商品的质量的方法及装置,在获取用户对于商品的评论信息后,首先分别计算该评论信息与预设的好评信息和差评信息之间的相似度,然后根据这两相似度确定该评论信息的分类,即该评论信息属于好评信息或者差评信息,最后用户根据该评论信息的分类分析出该商品的质量。由于用户对于某商品的评论信息通常比较真实的反应出用户对于该商品的体验,同时也间接地反映了该商品的质量,因此本申请实施例根据用户对于该商品的评论信息,获取该商品的质量信息,该质量信息更加真实的反映了该商品的质量。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (15)

1.一种分析商品质量的方法,其特征在于,该方法包括:
获取用户对商品的评论信息;
计算所述评论信息与预设的好评信息之间的第一相似度,并计算所述评论信息与预设的差评信息之间的第二相似度;
根据所述第一相似度和第二相似度分析所述商品的质量。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述第一相似度和第二相似度均小于预设阈值时,则所述评论信息与所述商品的质量无关。
3.根据权利要求1所述的方法,其特征在于,所述计算所述评论信息与预设的好评信息之间的第一相似度和计算所述评论信息与预设的差评信息之间的第二相似度具体包括:
确定所述评论信息对应的语义向量,并确定所述预设的好评信息和差评信息对应的词向量;
计算所述评论信息对应的语义向量与所述好评信息对应的词向量之间夹角的第一余弦值,并计算所述评论信息对应的语义向量与所述差评信息对应的词向量之间夹角的第二余弦值,所述第一余弦值表示所述评论信息与所述好评信息之间的第一相似度,所述第二余弦值表示所述评论信息与所述差评信息之间的第二相似度。
4.根据权利要求1所述的方法,其特征在于,所述计算所述评论信息与预设的好评信息之间的第一相似度和计算所述评论信息与预设的差评信息之间的第二相似度具体包括:
确定所述评论信息对应的语义向量,并确定所述预设的好评信息和差评信息对应的词向量;
计算所述评论信息对应的语义向量与所述好评信息对应的词向量之间的第一欧氏距离,并计算所述评论信息对应的语义向量与所述差评信息对应的词向量之间的第二欧氏距离;
根据所述第一欧氏距离获取所述评论信息与所述好评信息之间的第一相似度,并根据所述第二欧氏距离获取所述评论信息与所述差评信息之间的第二相似度。
5.根据权利要求3或4所述的方法,其特征在于,所述确定所述评论信息对应的语义向量包括:
对所述评论信息进行切词处理,获得所述评论信息中的词组;
根据预设规则将所述评论信息中的词组均转换成词向量;
将所述评论信息中词组对应的词向量进行加权求和,确定所述评论信息的语义向量。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一相似度和第二相似度分析所述商品的质量具体包括:
根据所述第一相似度和第二相似度确定所述评论信息的分类,所述分类是指好评信息或者差评信息;
根据所述评论信息的分类分析所述商品的质量。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一相似度和第二相似度确定所述评论信息的分类具体包括:
比较所述第一相似度和第二相似度,如果所述第一相似度大于所述第二相似度,则所述评论信息的分类属于好评信息;如果所述第一相似度小于所述第二相似度,则所述评论信息的分类属于差评信息。
8.根据权利要求6所述的方法,其特征在于,所述根据所述评论信息的分类分析所述商品的质量包括:
根据所述评论信息中的分类,获取所述评论信息中好评信息占所述评论信息的第一比例,并获取所述评论信息中差评信息占所述评论信息的第二比例;
通过所述第一比例和第二比例分析所述商品的质量。
9.一种分析商品质量的装置,其特征在于,该装置包括获取单元、计算单元和分析单元,其中:
所述获取单元,用于获取用户对于商品的评论信息;
所述计算单元,用于计算所述评论信息与预设的好评信息之间的第一相似度,并计算所述评论信息与预设的差评信息之间的第二相似度;
所述分析单元,用于根据所述第一相似度和第二相似度分析所述商品的质量。
10.根据权利要求9所述的装置,其特征在于,所述计算单元包括第一确定子单元和计算子单元,其中:
所述第一确定子单元,用于确定所述评论信息对应的语义向量,并确定所述预设的好评信息和差评信息对应的词向量;
所述计算子单元,用于计算所述评论信息对应的语义向量与所述好评信息对应的词向量之间夹角的第一余弦值,并计算所述评论信息对应的语义向量与所述差评信息对应的词向量之间夹角的第二余弦值,所述第一余弦值表示所述评论信息与所述好评信息之间的第一相似度,所述第二余弦值表示所述评论信息与所述差评信息之间的第二相似度。
11.根据权利要求10所述的装置,其特征在于,所述计算子单元还用于:
计算所述评论信息对应的语义向量与所述好评信息对应的词向量之间的第一欧氏距离,并计算所述评论信息对应的语义向量与所述差评信息对应的词向量之间的第二欧氏距离;
根据所述第一欧氏距离获取所述评论信息与所述好评信息之间的第一相似度,并根据所述第二欧氏距离获取所述评论信息与所述差评信息之间的第二相似度。
12.根据权利要求10所述的装置,其特征在于,所述第一确定子单元用于获取所述评论信息对应的语义向量具体包括:
对所述评论信息进行切词处理,获得所述评论信息中的词组;
根据预设规则将所述评论信息中的词组均转换成词向量;
对所述评论信息中词组对应的词向量进行加权求和,确定所述评论信息的语义向量。
13.根据权利要求9所述的装置,其特征在于,所述分析单元包括第二确定子单元和分析子单元,其中:
所述第二确定单元,用于根据所述第一相似度和第二相似度确定所述评论信息的分类,所述分类是指好评信息或者差评信息;
所述分析子单元,用于根据所述评论信息的分类分析所述商品的质量。
14.根据权利要求13所述的装置,其特征在于,所述第二确定子单元用于根据所述第一相似度和第二相似度确定所述评论信息的分类具体包括:
比较所述第一相似度和第二相似度,如果所述第一相似度大于所述第二相似度,则所述评论信息的分类属于好评信息;如果所述第一相似度小于所述第二相似度,则所述评论信息的分类属于差评信息。
15.根据权利要求13所述的装置,其特征在于,所述分析子单元用于根据所述评论信息的分类分析所述商品的质量具体包括:
根据所述评论信息中的分类,获取所述评论信息中好评信息占所述评论信息的第一比例,并获取所述评论信息中差评信息占所述评论信息的第二比例;
通过所述第一比例和第二比例分析所述商品的质量。
CN201610113221.9A 2016-02-29 2016-02-29 一种分析商品质量的方法及装置 Pending CN107133835A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610113221.9A CN107133835A (zh) 2016-02-29 2016-02-29 一种分析商品质量的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610113221.9A CN107133835A (zh) 2016-02-29 2016-02-29 一种分析商品质量的方法及装置

Publications (1)

Publication Number Publication Date
CN107133835A true CN107133835A (zh) 2017-09-05

Family

ID=59721410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610113221.9A Pending CN107133835A (zh) 2016-02-29 2016-02-29 一种分析商品质量的方法及装置

Country Status (1)

Country Link
CN (1) CN107133835A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416375A (zh) * 2018-02-13 2018-08-17 中国联合网络通信集团有限公司 工单分类方法及装置
CN108733748A (zh) * 2018-04-04 2018-11-02 浙江大学城市学院 一种基于商品评论舆情的跨境产品质量风险模糊预测方法
CN109615153A (zh) * 2017-09-26 2019-04-12 阿里巴巴集团控股有限公司 商家风险评估方法、装置、设备及存储介质
CN116308466A (zh) * 2023-05-16 2023-06-23 北京奥维云网大数据科技股份有限公司 数据信息采集与智能分析方法、系统、设备和存储介质
CN116664169A (zh) * 2023-08-01 2023-08-29 贵州中昂科技有限公司 一种农产品线上销售方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090271417A1 (en) * 2008-04-25 2009-10-29 John Toebes Identifying User Relationships from Situational Analysis of User Comments Made on Media Content
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
CN103778214A (zh) * 2014-01-16 2014-05-07 北京理工大学 一种基于用户评论的商品属性聚类方法
CN104102626A (zh) * 2014-07-07 2014-10-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090271417A1 (en) * 2008-04-25 2009-10-29 John Toebes Identifying User Relationships from Situational Analysis of User Comments Made on Media Content
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
CN103778214A (zh) * 2014-01-16 2014-05-07 北京理工大学 一种基于用户评论的商品属性聚类方法
CN104102626A (zh) * 2014-07-07 2014-10-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
霍宗凡: ""基于语义的文本倾向性分析与研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109615153A (zh) * 2017-09-26 2019-04-12 阿里巴巴集团控股有限公司 商家风险评估方法、装置、设备及存储介质
CN109615153B (zh) * 2017-09-26 2023-06-16 阿里巴巴集团控股有限公司 商家风险评估方法、装置、设备及存储介质
CN108416375A (zh) * 2018-02-13 2018-08-17 中国联合网络通信集团有限公司 工单分类方法及装置
CN108416375B (zh) * 2018-02-13 2020-07-07 中国联合网络通信集团有限公司 工单分类方法及装置
CN108733748A (zh) * 2018-04-04 2018-11-02 浙江大学城市学院 一种基于商品评论舆情的跨境产品质量风险模糊预测方法
CN108733748B (zh) * 2018-04-04 2022-01-14 浙江大学城市学院 一种基于商品评论舆情的跨境产品质量风险模糊预测方法
CN116308466A (zh) * 2023-05-16 2023-06-23 北京奥维云网大数据科技股份有限公司 数据信息采集与智能分析方法、系统、设备和存储介质
CN116308466B (zh) * 2023-05-16 2023-07-21 北京奥维云网大数据科技股份有限公司 数据信息采集与智能分析方法、系统、设备和存储介质
CN116664169A (zh) * 2023-08-01 2023-08-29 贵州中昂科技有限公司 一种农产品线上销售方法及系统

Similar Documents

Publication Publication Date Title
CN107133835A (zh) 一种分析商品质量的方法及装置
CN103778214B (zh) 一种基于用户评论的商品属性聚类方法
WO2020048084A1 (zh) 资源推荐方法、装置、计算机设备及计算机可读存储介质
CN104239331B (zh) 一种用于实现评论搜索引擎排序的方法和装置
CN104778186B (zh) 将商品对象挂载到标准产品单元的方法及系统
CN111260437B (zh) 一种基于商品方面级情感挖掘和模糊决策的产品推荐方法
CN109559208A (zh) 一种信息推荐方法、服务器及计算机可读介质
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和系统
WO2018035164A1 (en) Description information generation and presentation systems, methods, and devices
CN108269125A (zh) 评论信息质量评估方法及系统、评论信息处理方法及系统
JP2010079657A (ja) 情報処理装置、情報処理方法およびプログラム
CN106708868B (zh) 一种互联网数据分析方法及系统
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
CN107093081A (zh) 服务策略制定方法和装置
CN110413961A (zh) 基于分类模型进行文本评分的方法、装置和计算机设备
CN108648005A (zh) 数据处理方法及系统
CN104102662B (zh) 一种用户兴趣偏好相似度确定方法及装置
CN107103028A (zh) 一种信息处理方法及装置
CN104572932B (zh) 一种兴趣标签的确定方法及装置
CN110223095A (zh) 确定商品属性的方法、装置、设备和存储介质
CN107133811A (zh) 一种目标用户的识别方法和装置
Saranya et al. A Machine Learning-Based Technique with IntelligentWordNet Lemmatize for Twitter Sentiment Analysis.
CN109885745A (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN103886869B (zh) 一种基于语音情感识别的信息反馈方法和系统
JP2020057206A (ja) 情報処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200921

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200921

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170905