CN111080395A - 一种电商平台的商品评价排序方法 - Google Patents
一种电商平台的商品评价排序方法 Download PDFInfo
- Publication number
- CN111080395A CN111080395A CN201911120958.3A CN201911120958A CN111080395A CN 111080395 A CN111080395 A CN 111080395A CN 201911120958 A CN201911120958 A CN 201911120958A CN 111080395 A CN111080395 A CN 111080395A
- Authority
- CN
- China
- Prior art keywords
- evaluation
- information
- commodity
- commodity evaluation
- commerce platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种电商平台的商品评价排序方法,更具体是涉及一种基于信息熵的商品评价排序策略。本发明提供的基于信息熵的商品评价排序策略,计算每条评价文本中的信息量,计算出的信息量经过归一化后可以与评价的发布日期、用户满意度、敏感信息降权等其它维度共同使用,提升用户的体验。
Description
技术领域
本发明涉及一种电商平台的商品评价排序方法,更具体是涉及一种基于信息熵的商品评价排序策略。
背景技术
商品的评价数据做为电商网站的重要产品信息之一对用户是否购买的决策起着非常重要的引导作用。热销商品的评价往往成千上万,评论质量良莠不齐,消费者往往需要花费较大的时间成本在评价中获取信息。因此,通过建立一套能够将相对优质的评价优先排序的排序策略,能够大大降低用户的决策时间,提升用户体验。
电商网站普遍采用的评价排序方式是按评价发表的时间由新到旧进行排序,再按人工置顶干预的方式来优化评价的排名,主观性较强难以体现用户的真实意图而且效率较为低下。如果采用其它的统计方法对商品评价进行排序时,也容易出现计算量大、统计复杂、排序效果不好等诸多问题。
商品评价的本质是信息,信息的作用是用来消除不确定性。评价内容的优劣应当体现在其能够帮助消费者消除对商品认知的不确定性的能力上。根据香农《信息论》的理论,这种消除不确定性的能力可以通过计算信息熵的方式计算得出。经过实践,评价内容的信息熵用于参与商品评价的排序得出的效果要远远好过仅使用评价日期加人工干预的方式。
发明内容
本发明的目的是:提供了一种简便、高效的商品评价排序方法,能够有效地在较小的统计计算量的情况下,获得语义更丰富的评价排序,更方便用户使用时参考商品评价。另外,本发明提供的基于信息熵的商品评价排序策略,计算每条评价文本中的信息量,计算出的信息量经过归一化后可以与评价的发布日期、用户满意度、敏感信息降权等其它维度共同使用,提升用户的体验。
技术方案是:
一种电商平台的商品评价排序方法,包括如下步骤:
第1步,对每一条商品评价的文本进行拆分处理,获得拆分后的语义单元,全部的商品评价得到的语义单元构成集合V;
第2步,计算各个语义单元在V集合中出现的概率;
第3步,对于每一条评论,统计出这条评论中含有的语义单元的种类数,并计算信息增益;
第4步,具有较高的信息增益的评论位置靠前。
在一个实施方式中,所述的拆分处理是指将文本分词处理。
在一个实施方式中,分词处理后,还包括:筛选或者指代消解等处理步骤。
在一个实施方式中,所述的拆分处理是LDA抽取主题处理。
在一个实施方式中,信息增益通过以下公式计算得到:
有益效果
1、算法易于实现,便于落地,用途广泛。得出的结果既可以单独使用,也可以归一化后与作为一个维度数据与其它算法联合使用。2、能够大幅度提升商品评价的排序效果,提升用户体验。
具体实施方式
本发明的详细实现内容,包括以下步骤:
1、对商品的每一条评价文本内容进行处理,拆分成小的单元,将这些单元组成文本集合V=(v1,v2,v3…vn)。
假设某商品有3条评价分别为:
A、质量不错,大小非常合适。
B、质量一般,比较实用。
C、很好,很喜欢,很实用。
根据算法使用者的对于商品评价内容掌握的经验程度由低到高,有两种方式可选;
a)先将文本分词,再去除停用词,然后进行指代消解,得到关键词集合;
首先将上述三条评价拆分成小的语法单元。对于分词的方式,去除停用词并进行指代消解后,应处理为:
A、[质量,不错,大小,合适]
B、[质量,一般,实用]
C、[很好,喜欢,实用]
b)指定主题数量,指定使用LDA抽取主题,得到主题集合;
对于抽取主题的方式,处理结果可能为:
A、[质量好,没有色差,尺寸合适]
B、[质量一般,实用]
C、[实用]
2、根据商品的全部评价文本计算信息熵,以使用分词方式的处理方法为例:
a)统计所有评价内容的文本集合V中的每一个元素的出现的概率;
那么Entropy=-(P(质量)logP(质量)+P(不错)log P(不错)+…+P(实用)log P(实用))
评价A的信息熵为:
Entropya=-(P(一般)log P(一般)+P(很好)log P(很好)+P(喜欢)log P(喜欢))+P(实用)log P(实用))
评价B和C的信息熵类似。
3、计算每一条商品评价文本的计算信息增益:
a)使用第二步的信息熵公式中,移除本条文本集合中出现的维度后计算出本条文本合集的信息熵;
b)使用第一步中使用的全部评价计算出来的信息熵减去本条文本集合的信息熵得到本条评价的信息增益;
评价A的信息增益为:
Entropy-Entropya=-(P(质量)log P(质量)+P(不错)log P(不错)+P(大小)logP(大小))+P(合适)log P(合适))
由此可见,全部评价的信息熵可以不必求出,信息增益可以通过评价的词的集合计算得出。
因此,对于评价A信息增益
信息增益=-(P(质量)log P(质量)+P(不错)log P(不错)+P(大小)log P(大小))+P(合适)log P(合适)
同理,
对于评价B
信息增益=-(P(质量)log P(质量)+P(一般)log P(一般)+P(实用)log P(实用))
对于评价C
信息增益=-(P(很好)log P(很好)+P(喜欢)log P(喜欢)+P(实用)log P(实用))
其中,各个单元的概率在本实施例中是:
4、使用信息增益做为该条评价信息量的度量。
将上面的词概率带入到信息增益的算式中,即可求得每条评价的信息增益,增益量较大的评价可以认定为内容相对丰富,可考虑优先排序。
A/B/C评论的信息增益分别是:0.489173743、0.413916244、0.376287495;
由此可以看出,对于每一条评价信息,只需要计算该条评论的信息增益,就可以获得这条商品评价的内容丰富程度,将其排序靠前之后,更可以让用户获得更多的信息。
Claims (5)
1.一种电商平台的商品评价排序方法,其特征在于,包括如下步骤:
第1步,对每一条商品评价的文本进行拆分处理,获得拆分后的语义单元,全部的商品评价得到的语义单元构成集合V;
第2步,计算各个语义单元在V集合中出现的概率;
第3步,对于每一条评论,统计出这条评论中含有的语义单元的种类数,并计算信息增益;
第4步,具有较高的信息增益的评论位置靠前。
2.根据权利要求1所述的电商平台的商品评价排序方法,其特征在于,在一个实施方式中,所述的拆分处理是指将文本分词处理。
3.根据权利要求1所述的电商平台的商品评价排序方法,其特征在于,在一个实施方式中,分词处理后,还包括:筛选或者指代消解等处理步骤。
4.根据权利要求1所述的电商平台的商品评价排序方法,其特征在于,在一个实施方式中,所述的拆分处理是LDA抽取主题处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911120958.3A CN111080395A (zh) | 2019-11-15 | 2019-11-15 | 一种电商平台的商品评价排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911120958.3A CN111080395A (zh) | 2019-11-15 | 2019-11-15 | 一种电商平台的商品评价排序方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111080395A true CN111080395A (zh) | 2020-04-28 |
Family
ID=70311078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911120958.3A Withdrawn CN111080395A (zh) | 2019-11-15 | 2019-11-15 | 一种电商平台的商品评价排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111080395A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100317A (zh) * | 2020-09-24 | 2020-12-18 | 南京邮电大学 | 一种基于主题语义感知的特征关键词提取方法 |
-
2019
- 2019-11-15 CN CN201911120958.3A patent/CN111080395A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100317A (zh) * | 2020-09-24 | 2020-12-18 | 南京邮电大学 | 一种基于主题语义感知的特征关键词提取方法 |
CN112100317B (zh) * | 2020-09-24 | 2022-10-14 | 南京邮电大学 | 一种基于主题语义感知的特征关键词提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101700585B1 (ko) | 온라인 제품 검색 방법 및 시스템 | |
CN103914492B (zh) | 查询词融合方法、商品信息发布方法和搜索方法及系统 | |
CN108694647B (zh) | 一种商户推荐理由的挖掘方法及装置,电子设备 | |
WO2020048084A1 (zh) | 资源推荐方法、装置、计算机设备及计算机可读存储介质 | |
CN110147483B (zh) | 一种标题重建方法及装置 | |
WO2016192465A1 (zh) | 基于商品图像特征的个性化搜索装置及方法 | |
CN102542474A (zh) | 查询结果排序方法及装置 | |
CN105975472A (zh) | 一种推荐方法和装置 | |
CN105740268A (zh) | 一种信息推送方法和装置 | |
CN105809464A (zh) | 信息投放方法和装置 | |
CN104731809B (zh) | 对象的属性信息的处理方法及装置 | |
CN113159892B (zh) | 一种基于多模态商品特征融合的商品推荐方法 | |
CN110738553A (zh) | 一种将不同商城的商品链接进行相互映射的方法及系统 | |
CN110309410B (zh) | 一种资讯推荐方法、平台及计算机可读存储介质 | |
CN106959949B (zh) | 一种用于推荐系统的数据结构化处理方法 | |
CN111080395A (zh) | 一种电商平台的商品评价排序方法 | |
CN105005555A (zh) | 基于聊天时间的关键词提取方法及装置 | |
CN111062785A (zh) | 智能选择产品来推荐给相匹配用户的方法与系统 | |
KR20170087423A (ko) | 개인화 도서추천을 위한 도서 추천 방법, 및 그 시스템 | |
CN107944946B (zh) | 商品标签生成方法及装置 | |
CN113449200B (zh) | 物品推荐方法、装置及计算机存储介质 | |
WO2018049908A1 (zh) | 网页生成方法和装置 | |
Kumar et al. | Cuisine prediction based on ingredients using tree boosting algorithms | |
CN108694171B (zh) | 信息推送的方法及装置 | |
KR102170535B1 (ko) | 감성 분석을 통한 사용자 선호 기반의 검색 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200428 |