CN107704941B

CN107704941B - 一种显示物品评论的方法及装置

Info

Publication number: CN107704941B
Application number: CN201610644095.XA
Authority: CN
Inventors: 翟志源
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-08-08
Filing date: 2016-08-08
Publication date: 2021-06-29
Anticipated expiration: 2036-08-08
Also published as: CN107704941A

Abstract

本申请实施例提供一种显示物品评论的方法及装置，涉及电子商务领域，实现提高显示的评论信息的准确度及真实度，便于用户查看物品评论时，物品评价信息准确指导用户，提高用户的使用体验。具体方案包括：获取物品的内容数据、该物品的评论数据；计算内容数据与评论数据中每条有效评论信息的相关度；选取与内容数据的相关度大于或等于预设相关阈值的有效评论信息作为样本数据，构建训练数据，训练获取该物品评论的预测评分模型；计算生成评论数据中每条待显示评论信息的预测评分；根据待显示评论信息的预测评分，将待显示评论信息中的评论信息按序显示。本申请用于显示物品评论。

Description

一种显示物品评论的方法及装置

技术领域

本申请涉及电子商务领域，尤其涉及一种显示物品评论的方法及装置。

背景技术

近年来，电子商务发展迅速，出现了很多的电子商务平台。基于电子商务平台，卖家上架销售各种各样的物品，包括实体物品或者虚拟服务等。越来越多的用户喜欢在电子商务平台上购买物品，电子商务平台为人们的生活提供了诸多便利。

用户在电子商务平台购买物品时，通常会参考以往购买用户对于物品的评论，而在电子商务平台上的卖家，为了促进物品的销售，提高销售量以及物品在电商平台上的排名，会通过刷单、刷好评等制造一些虚假的好评和虚假的交易信息。为了节约刷单时间提高效率，虚假的评论通常内容简单、简单复制粘贴对所有物品发布相同的评论内容、评论内容与物品无关等。对于有经验的消费者来说，可能会忽略这些没意义的评论，但是对于大多数的消费者来说，虚假的评论信息则会误导消费者，伤害消费者的利益。

目前，对于电子商务平台中物品的评论信息，通常根据评论信息中的评论内容、发布身份标识(英文全称：Identity，ID)及发布时间，甄别评论信息是否为虚假评论。若判断相似评论内容的发布ID相似，且这些相似ID的评论频率高于预设的门限，则认为这些相似ID作弊，其评论信息则判定为虚假评论。然后通过显示顺序或者其他方式提醒消费者。

上述处理评论信息的方案，对于使用不同的ID刷评论的卖家所发布的评论信息，将会判定为真实评论，使得评论信息的甄别不够准确，显示的评论信息不够准确真实，在用户购物参考评价信息时误导消费者，伤害消费者的利益的问题，很大程度的降低了用户的使用体验。

发明内容

本申请实施例提供一种显示物品评论的方法及装置，实现提高显示的评论信息的准确度及真实度，便于用户查看物品评价信息时，给与用户准确指导，提高用户的使用体验。

为达到上述目的，本申请采用如下技术方案：

第一方面，提供一种显示物品评论的方法，该方法应用于显示物品评论的装置，在电子商务平台中对物品的评论信息进行处理并显示。该装置可以为终端的部分或全部。具体的，提供的显示物品评论的方法对电子商务平台上的每一件物品的评论进行相同的处理，本申请实施例以对一件物品的评论的处理过程为例描述方案，“物品”即平台中的任一件物品。提供的显示物品评论的方法具体可以包括：先获取物品的内容数据、该物品的评论数据，评论数据中包括至少一条评论信息及每条评论信息的评分值；然后计算内容数据与评论数据中每条有效评论信息的相关度；再选取与内容数据的相关度大于或等于预设相关阈值的有效评论信息作为样本数据，样本数据中正负样本平衡；根据选取的样本数据及样本数据中评论信息的评分值，构建训练数据，训练获取该物品评论的预测评分模型；之后按照预测评分模型，计算生成评论数据中每条待显示评论信息的预测评分；最后根据待显示评论信息的预测评分，将待显示评论信息中的评论信息按序显示。

本发明提供的显示物品评论的方法，在方案过程中，根据评论信息与物品内容数据的相关度选择样本数据训练预测评分模型，再利用训练得到的预测评分模型，得到的每条待显示评论信息的预测评分与物品的内容数据相关，预测评分可以准确的区分出评论信息与物品本身的相关程度，并且可以过滤到评分很高但是却无参考意义的虚假评论。这样一来，按照待显示评论信息的预测评分显示的评论信息，使得用户优先查看准确度及真实度高的评论信息，可以让消费者全面的认识物品，以及在购买物品时参考真实的评论，得到准确的指导，避免虚假评论给消费者购物造成的误导。

结合第一方面，在一种可能的实现方式中，计算内容数据与评论数据中的有效评论信息的相关度，具体可以实现为：先生成内容数据的主题模型及每条有效评论信息的主题模型，主题模型包括至少一个特征；然后分别生成内容数据的主题模型及每条有效评论信息的主题模型相对于特征合集的特征向量，所述特征合集包括内容数据的主题模型与每条有效评论信息的主题模型包括的特征的合集；最后根据生成的特征向量，分别计算内容数据的主题模型与每条有效评论信息的主题模型的相关度，作为内容数据与评论数据中的有效评论信息的相关度。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，为了便于计算，提高计算的速度，简化计算过程，降低计算复杂度及节约计算资源，对于分别生成内容数据的主题模型及每条有效评论信息的主题模型相对于特征合集的特征向量，具体可以实现为：若第一主题模型中包括特征合集中的第一特征，则第一主题模型相对于特征合集中第一特征的特征向量为1，若第二主题模型中不包括特征合集中的第一特征，则第二主题模型相对于特征合集中第一特征的特征向量为0。其中，第一特征为特征合集中的任一特征，第一主题模型或第二主题模型为内容数据的主题模型及每条有效评论信息的主题模型中的任一主题模型。

需要说明的是，在分别生成内容数据的主题模型及每条有效评论信息的主题模型相对于特征合集的特征向量的过程中，特征向量的具体取值，可以根据实际需求设定，本发明对此不进行具体限定。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，为了提高方案的可实现性，相关度可以包括相似度，或者，相关系数。在本发明方案的实现过程中，若相关度为相似度，凡是用来计算相似度的算法，均可以用来计算相关度；若相关度为相关系数，凡是用来计算相关系数的算法，均可以用来计算相关度。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，相关度为余弦相似度，计算余弦相似度获取相关度。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，根据样本数据及样本数据中评论信息的评分值，构建训练数据，训练获取预测评分模型，具体可以实现为：分别获取样本数据中每条评论信息相对于扩展特征合集的特征向量，扩展特征合集包括样本数据中所有评论信息的主题模型中，每个特征的至少两个方面描述的特征的合集；将样本数据中评论信息的评分值及样本数据中每条评论信息相对于扩展特征合集的特征向量作为训练数据，训练获取预测评分模型。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，为了便于计算，提高计算的速度，简化计算过程，降低计算复杂度及节约计算资源，对于分别获取样本数据中每条评论信息相对于扩展特征合集的特征向量，具体可以实现为：若第一评论信息的主题模型中包括扩展特征合集中的第二特征，则第一评论信息相对于扩展特征合集中第二特征的特征向量为1，若第二评论信息的主题模型中不包括扩展特征合集中的第二特征，则第二评论信息相对于扩展特征合集中第二特征的特征向量为0。其中，第二特征为扩展特征合集中的任一特征，第一评论信息或第二评论信息为样本数据中的任一条评论信息。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，采用多元线性回归训练模型及Lasso方法进行变量选择，训练预测评分模型。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，为了选取的样本数据有意义，以训练获取到准确的预测评分模型，可以预先设定有效的评论信息，将虚假评论信息隔离在有效评论信息之外。具体的，有效评论信息可以包括：评论数据中，除发布时间间隔小于或等于间隔门限的评论信息之外其余的评论信息。这样一来，评论时间间隔小于或等于间隔门限的评论信息，被判定为无效评论信息。对于商家集中时间刷的虚假评论可以被排除在有效的评论信息之外，避免虚假评论信息对样本数据的干扰，造成后面预测的评分模型不准确。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，为了使得选取的样本数据涵盖面广泛，有效评论信息可以包括评论数据中所有评论信息。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，为了更好的通过评论数据指导用户购物，在按照预测评分模型，计算生成评论数据中每条待显示评论信息的预测评分之后，所述方法还可以包括：计算物品的真实好评率并显示，物品的真实好评率为预测评分大于或等于好评门限的评论信息数量除以待显示评论信息中包括的评论信息的数量。物品的真实好评率是按照每条评论信息的预测评分获取，因此，物品的真实好评率可以更好的指导用户，使得用户准确的参考，避免虚假好评带来的误导。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，为了实现按照评论的真实程度从高到底对评论信息进行显示，根据待显示评论信息的预测评分，将待显示评论信息中的评论信息按序显示，具体可以实现为：将待显示评论信息中的评论信息，按照评分偏差从小到大的顺序进行显示，评分偏差为预测评分与所述评分值之差的绝对值。具体的，评分偏差越小，说明评论信息越真实，评分偏差越大，说明评论信息的虚假程度越高。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，为了实现按照真实的评分从高到底对评论信息进行显示，根据待显示评论信息的预测评分，将待显示评论信息中的评论信息按序显示，具体可以实现为：将待显示评论信息中的评论信息，按照预测评分从大到小的顺序进行显示。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，根据实际需求的不同，对于待显示评论信息可以有不同的定义。若物品的评论信息只显示有意义的评论，待显示评论信息可以包括有效评论信息中的所有评论信息。若物品的评论信息需显示所有的评论，待显示评论信息可以包括评论数据中的所有评论信息。

第二方面，本发明实施例提供了一种显示物品评论的装置，该装置可以实现上述方法示例的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个上述功能相应的模块。

结合第二方面，在一种可能的实现方式中，该显示物品评论的装置的结构中包括处理器和收发器，该处理器被配置为支持该装置执行上述方法中相应的功能。该收发器用于支持该装置与其他网元之间的通信。该装置还可以包括存储器，该存储器用于与处理器耦合，其保存该装置必要的程序指令和数据。

第三方面，本发明实施例提供了一种计算机存储介质，用于储存为上述方法示例的功能所用的计算机软件指令，其包含用于执行上述方面所设计的程序。

上述第二方面至第三方面提供的方案，用于实现上述第一方面提供的方法，因此可以与第一方面达到相同的有益效果，此处不再进行赘述。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种互联网架构的结构示意图；

图2为本申请实施例提供的一种显示物品评论的装置20的结构示意图；

图3为本申请实施例提供的一种显示物品评论的方法的流程示意图；

图4为本申请实施例提供的一种获取相关度的方法的流程示意图；

图5为本申请实施例提供的另一种显示物品评论的装置20的结构示意图；

图6为本申请实施例提供的再一种显示物品评论的装置20的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。

本发明的基本原理是：根据评论数据中每条评论信息与物品本身的内容数据的相关度，选取样本数据训练预测评分模型，再根据训练的模型计算得到每条待显示评论信息的预测得分，根据预测得分按序显示待显示评论信息。由于预测评分模型的样本数据是按照评论信息与物品本身的内容数据的相关度选取，保证了样本数据的准确且可参考性高，训练得到的预测评分模型也具有高的参考性及准确度，根据预测得分按序显示待显示评论信息对于消费者的指导也将准确且具有高的可参考性。

需要说明的是，本发明实施例中所述的“物品”，可以为真实存在的实体物品，也可以为虚拟的物品。虚拟的物品可以为服务等。本发明的实施例对于物品的类型不进行具体限定。

本发明实施例提供的显示物品评论的方法，应用于如图1所示的互联网架构中。该互联网架构中包括服务器101及至少一个终端102。

其中，服务器101可以为电子商务平台的网络服务器，或者互联网服务器。可选的，所述终端102可以为手机、平板电脑、笔记本电脑、个人计算机(英文全称：personalcomputer，PC)、超级移动个人计算机(英文全称：Ultra-mobile Personal Computer，UMPC)、上网本、个人数字助理(英文全称：Personal Digital Assistant，PDA)等终端设备。

在图1所示的架构中，本发明实施例提供的显示物品评论的方法具体应用于终端102上。服务器101中存储了电子商务平台中物品的相关数据，包括但不限于物品内容数据、评论数据等。终端102通过互联网与服务器101交互，获取到服务器101中存储的商品物品的相关数据以执行本发明的方案。

本发明实施例提供的显示物品评论的方法，由本发明实施例提供的显示物品评论的装置20实现，本发明实施例提供的显示物品评论的装置20可以为图1所示的架构中终端102的部分或全部。

可选的，本发明实施例提供的显示物品评论的装置20实现显示物品评论的方法时，可以嵌入电子商务平台的应用程序(英文全称：Application，APP)中实现，也可以作为第三方APP实现，本发明实施例对此不进行具体限定。

图2示出的是与本发明各实施例相关的一种显示物品评论的装置20的结构示意图。

如图2所示，显示物品评论的装置20可以包括：处理器201、存储器202、通信总线203、显示屏204及网络接口205。

存储器202，用于存储程序代码，并将该程序代码传输给该处理器201，以便处理器201执行程序代码实现显示物品评论的装置20的各种功能。存储器202可以是易失性存储器(volatile memory)，例如随机存取存储器(英文全称：random-access memory，RAM)；或者非易失性存储器(英文全称：non-volatile memory)，例如只读存储器(英文全称：read-only memory，ROM)，快闪存储器(英文全称：flash memory)，硬盘(英文全称：hard diskdrive，HDD)或固态硬盘(英文全称：solid-state drive，SSD)；或者上述种类的存储器的组合。

处理器201是显示物品评论的装置20的控制中心，可以是一个中央处理器(英文全称：central processing unit，CPU)，也可以是特定集成电路(英文全称：ApplicationSpecific Integrated Circuit，ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路，例如：一个或多个微处理器(英文全称：digital singnal processor，DSP)，或，一个或者多个现场可编程门阵列(英文全称：Field Programmable Gate Array，FPGA)。处理器201可以通过运行或执行存储在存储器202内的程序代码，以及调用存储在存储器202内的数据，实现显示物品评论的装置20的各种功能。

其中，通信总线203可以是工业标准体系结构(英文全称：Industry StandardArchitecture，ISA)总线、外部设备互连(英文全称：Peripheral Component，PCI)总线或扩展工业标准体系结构(英文全称：Extended Industry Standard Architecture，EISA)总线等。该总线203可以分为地址总线、数据总线、控制总线等。为便于表示，图2中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

下面结合附图，对本发明的实施例进行具体阐述。

一方面，本发明实施例提供一种显示物品评论的方法。本发明实施例提供的显示物品评论的方法，对于电子商务平台中的每件物品的处理方法相同，本发明实施例仅描述该方法对于一件物品评论的处理过程，其他不再进行赘述。本发明所有实施例中的“物品”，即指电子商务平台中的任一件物品。

如图3所示，本发明实施例提供的显示物品评论的方法可以包括：

S301、获取物品的内容数据及物品的评论数据。

其中，评论数据包括至少一条评论信息，及每条评论信息的评分值。

进一步的，评论数据还可以包括评论时间、评论类型等。

如前所述，本发明实施例提供的显示物品评论的方法，可以嵌入电子商务平台的APP中实现，也可以嵌入电子商务平台的web页面中实现，也可以作为第三方APP实现，当实现方法不同时，在S301中获取数据的方法也不同。具体可以包括但不限于如下两种方式：

方式1、

显示物品评论的方法作为第三方APP实现，利用网络爬虫的方式获取物品的内容数据及物品的评论数据。

进一步的，在方式1中，可以使用任一开源爬虫工具获取物品的内容数据及物品的评论数据。例如，开源爬虫工具可以为pyspider。当然，开源爬虫工具种类很多，本发明实施例对于开源爬虫工具的类别不进行具体限定。

方式2、

显示物品评论的方法嵌入电子商务平台的APP中实现，在电子商务平台上直接获取物品的内容数据及物品的评论数据。

具体的，在方式2中，可以通过与电子商务平台的服务器进行交互，请求获取物品的内容数据及物品的评论数据。

示例性的，电子商务平台中一款手机的内容数据为：“双镜头高像素的拍照设计，让手机能快速拍出不一样的好照片，你会惊喜的发现，拿起手机，可以快速拍出一张好照片。两颗镜头同时工作，将照片宽容度提升数倍，让照片细节更丰富，表现更出色。配合魅我功能，自拍时可自动进行美肤，拍出让自己惊艳的好照片。大容量电池，长久续航。手机散热均匀，散热效果出色。大屏幕高分辨率、显示效果出色，带来细腻的画面显示效果。一个可编程虚拟现实(英文全称：Virtual Reality，VR)眼镜的包装盒，VR全民化。”。

同时也获取到该款手机的评论数据如表1所示。

表1

需要说明的是，上述示例只是以举例的形式，说明物品的内容数据及评论数据，并不是对物品的内容数据及评论数据的限定。表1只是以表格的形式举例说明物品的评论数据，并不是对物品的评论数据的内容及形式的具体限定。

进一步的，若获取的物品的评论数据中不包括评论类型，可以设定好差评门限，根据评分值与好差评门限的大小关系，确定每条评论信息的评论类型。

进一步的，若获取的物品的评论数据中评分值，可以设定评论类型对应的评分值，根据评论类型确定每条评论信息的评分值。

S302、计算内容数据与评论数据中每条有效评论信息的相关度。

其中，有效评论信息是根据设定的原则筛选出来的，具有参考意义的评论信息。有效评论信息可以为评论数据中包括的评论信息的部分或全部。相关度用于反映内容数据与评论数据中每条有效评论信息的语义关联度，作为判断评论信息是否有效的依据。

可选的，有效评论信息可以包括：评论数据中，除发布时间间隔小于或等于间隔门限的评论信息之外其余的评论信息。

示例性的，假设间隔门限为1小时，对于表1所示的物品的评论数据中的有效评论信息，则为除用户11和用户13的评论信息之外其余的评论信息。

需要说明的是，对于间隔门限的具体取值，可以根据实际需求设定，本发明实施例对此不进行具体限定。

可选的，有效评论信息可以包括：评论数据中所有评论信息。

进一步的，两段文字是否相关，往往不只取决于字面上的词语重复，还取决于文字背后的语义关联。对语义关联的挖掘，可以让我们的计算更加智能化。主题模型是对文字隐含主题进行建模的方法，本发明实施例中执行S302时，可以通过主题模型获取内容数据与评论数据中的有效评论信息的相关度。

具体的，在S302中，计算内容数据与评论数据中的有效评论信息的相关度的具体过程，如图4所示，具体可以包括S3021至S3023这三个步骤：

S3021、生成内容数据的主题模型及每条有效评论信息的主题模型。

其中，主题模型包括至少一个特征。

具体的，生成主题模型的开源程度有很多，均可以用来执行S3021。本发明实施例对于生成主题模型的具体方式不进行限定。

示例性的，可以使用开源程序MEDLDA生成主题模型。当然，也可以使用其他开源程序。

示例性的，对于S301中的示例的手机物品内容数据，生成物品的主题模型为：

双镜头，快速拍照，自拍惊艳，长久续航，散热均匀，屏显示效果出色，分辨率，VR。

示例性的，假设评论数据中的有效评论信息为除用户11和用户13的评论信息之外其余的评论信息，生成的每条有效评论信息的主题模型如表2所示：

表2

用户标识	评论信息主题模型
		用户1	屏幕合适，质量好，拍照给力，双摄像头快，指纹识别无延迟
用户2	贵，没好用
		用户3	外观大气，握持舒适，系统流畅
用户4	VR眼镜棒，性价比高
		用户5	运行流畅，续航时间长，拍照清晰，VR眼镜有创意
用户6	屏碎了，换外屏720
		用户7	屏幕碎了
用户8	卡槽紧，后置双摄像头偏，系统不稳定
		用户9	屏幕垃圾
用户10	手机不错
		用户12	好用

S3022、分别生成内容数据的主题模型及每条有效评论信息的主题模型相对于特征合集的特征向量。

其中，特征合集包括内容数据的主题模型与每条有效评论信息的主题模型包括的特征的合集。

示例性的，对S3021中示例的手机物品的内容数据的主题模型及每条有效评论信息主题模型，其特征合集可以包括如下特征：

双镜头、拍照、自拍、长久续航、散热、屏幕、分辨率、指纹识别、质量、贵、没好用、系统、外观、VR、性价比、卡槽。

具体的，一个主题模型相对于特征合集的特征向量，是通过具体的取值体现主题模型是否包含特征合集中的每一特征。

需要说明的是，对于特征向量中用于体现是否包含某个特征的值，可以根据实际需求确定，本发明实施例对此不进行具体限定。

优选的，在特征向量中，可以用1表示主题模型包含某个特征，用0表示主题模型不包含某个特征。

具体的，若在特征向量中，用1表示主题模型包含某个特征，用0表示主题模型不包含某个特征，对于分别生成内容数据的主题模型及每条有效评论信息的主题模型相对于特征合集的特征向量，具体可以包括：

若第一主题模型中包括特征合集中的第一特征，则第一主题模型相对于特征合集中第一特征的特征向量为1，若第二主题模型中不包括特征合集中的第一特征，则第二主题模型相对于特征合集中第一特征的特征向量为0。其中，第一特征为特征合集中的任一特征，第一主题模型或第二主题模型为内容数据的主题模型及每条有效评论信息的主题模型中的任一主题模型。

示例性的，按照在特征向量中，用1表示主题模型包含某个特征，用0表示主题模型不包含某个特征，对S3021中示例的手机物品的内容数据的主题模型及每条有效评论信息主题模型，生成相对于特征合集的特征向量如表3所示。

表3

需要说明的是，表3只是以表格的形式为特征向量进行示例说明，并不是对特征向量的形式和内容的具体限定。

S3023、根据生成的特征向量，分别计算内容数据的主题模型与每条有效评论信息的主题模型的相关度，作为内容数据与评论数据中的有效评论信息的相关度。

其中，在具体的计算过程中，计算相关度的方法有多种，计算相关度的方法包括但不限于：相似度，相关系数等。

进一步的，假设用相似度来表示相关度，相似度越大，相关度则越大。

需要说明的是，本发明实施例中下文以计算相关度的方法为相似度，来对计算相关度的过程进行详细说明，对于通过计算相关系数计算相关度的方法的过程，不再进行赘述。

具体的，计算相似度的方法也可以有很多种。示例性的，计算相似度的方法可以包括余弦相似度，或者Jaccard相似度，或者其他计算相似度的方法等。

示例性的，下面以余弦相似度为例来说明计算相似度的过程:

如果有两个变量X＝(x1，x2，x3，……，xn)，Y＝(y1，y2，y3，……，yn)，那么计算两个变量的余弦相似度的公式为：

具体的，根据余弦相似度的公式可知，如果某一条的评论信息的对于特征合计中的所有特征全为0，则其与物品内容数据的主题模型的相似度则为0。

示例性的，以计算余弦相似度为相关度，根据表3所示的特征向量，按照公式1，计算物品与每条有效评论信息的相关度，最后得到的物品与每条有效评论信息的相关度如表4所示。

表4

	物品
		用户1的评论信息	0.474
用户2的评论信息	0
		用户3的评论信息	0
用户4的评论信息	0.204
		用户5的评论信息	0.53
用户6的评论信息	0.25
		用户7的评论信息	0.354
用户8的评论信息	0.204
		用户9的评论信息	0.354
用户10的评论信息	0
		用户12的评论信息	0

S303、选取与内容数据的相关度大于或等于预设相关阈值的有效评论信息作为样本数据。

其中，所述样本数据中正负样本平衡。

具体的，样本数据中正负样本平衡，是指样本数据中的好评评论信息与差评评论信息的数量满足平衡关系，以保证样本数据的合理性及准确性。

进一步的，平衡关系可以包括：好评评论信息与差评评论信息的数量的比值满足预设关系，或者，好评评论信息与差评评论信息的数量的差值绝对值小于或等于预设门限值。

当然，可以根据实际需求设定平衡关系的具体内容，本发明实施例对此不进行具体限定。

需要说明的是，对于预设相关阈值的具体取值，可以根据实际需求设定，本发明实施例对此不进行具体限定。

示例性的，以表4所示的相关度数据，假设预设相关阈值设定为0，与物品相关度大于0的评论信息选取为样本数据。因此，选取相关度大于0的评论信息：用户5的评论信息，用户1的评论信息，用户7的评论信息，用户9的评论信息，用户6的评论信息，用户4的评论信息，用户8的评论信息作为样本数据。

其中，在选取的样本数据中，用户5的评论信息，用户1的评论信息,用户4的评论信息是好评数据，用户7的评论信息，用户9的评论信息，用户6的评论信息，用户8的评论信息是差评数据，因此，好评评论信息与差评评论信息的数量接近1:1，正负样本平衡。

S304、根据所述样本数据及所述样本数据中评论信息的评分值，构建训练数据，训练获取预测评分模型。

在S304中，根据样本数据及样本数据中评论信息的评分值，构建训练数据，训练获取预测评分模型，具体可以包括下述两个步骤：

S3041、分别获取样本数据中每条评论信息相对于扩展特征合集的特征向量。

其中，扩展特征合集包括样本数据中所有评论信息的主题模型中，每个特征的至少两个方面描述的特征的合集。

进一步的，用户扩展特征的方面的数量，可以根据实际需求设定，本发明对此不进行具体限定。

优选的，扩展特征合集包括了样本数据中所有评论信息的主题模型中，每个特征的两个方面描述的特征(肯定描述特征和否定描述特征)的合集。

示例性的，对于S303中选取的样本数据，其对应的扩展特征集合可以包括：双镜头好、双镜头不好、拍照好、拍照不好、续航长久、续航不长久、散热好、散热不好、屏幕好、屏幕不好、分辨率高、分辨率低、指纹识别好、指纹识别不好、质量好、质量不好、贵、不贵、没还用、好用、系统好、系统不好、外观好、外观不好、VR好、VR不好、性价比高、性价比不高、卡槽紧、卡槽不紧。

具体的，一条评论信息相对于扩展特征合集的特征向量，是通过具体的取值体现评论信息的主题模型是否包含扩展特征合集中的每一个特征。

优选的，在特征向量中，可以用1表示一个评论信息的主题模型包含某个特征，用0表示一个评论信息的主题模型不包含某个特征。

示例性的，若在特征向量中，用1表示主题模型包含某个特征，用0表示主题模型不包含某个特征，对于分别获取样本数据中每条评论信息相对于扩展特征合集的特征向量，具体可以实现为：若第一评论信息的主题模型中包括扩展特征合集中的第二特征，则第一评论信息相对于扩展特征合集中第二特征的特征向量为1，若第二评论信息的主题模型中不包括扩展特征合集中的第二特征，则第二评论信息相对于扩展特征合集中第二特征的特征向量为0。其中，第二特征为扩展特征合集中的任一特征，第一评论信息或第二评论信息为样本数据中的任一条评论信息。

示例性的，按照在特征向量中，用1表示一个评论信息的主题模型包含扩展特征集合中的某个特征，用0表示一个评论信息的主题模型不包含扩展特征集合中的某个特征，对S303中示例选取的样本数据，获取样本数据中每条评论信息相对于其对应的扩展特征合集的特征向量如表5所示。

表5

S3042、将样本数据中评论信息的评分值及样本数据中每条评论信息相对于扩展特征合集的特征向量作为训练数据，训练获取预测评分模型。

示例性的，根据表5所示的样本数据中每条评论信息相对于扩展特征合集的特征向量及样本数据中评论信息的评分值，构建的训练数据可以入表6所示。

表6

接下来则利用训练数据，训练预测评分模型。

具体的，训练预测评分模型的方法有很多种，例如多元线性回归，随机森林等等。本发明实施例对于训练预测评分模型的方法不进行具体限定。

优选的，由于在发明实施例中的示例数据比较稀疏，这里描述利用多元线性回归训练预测评分模型，并用Lasso方法进行变量选择。

Lasso进行变量选择的原理如下公式：

其中，N表示数据的个数。

示例性的，以本发明实施例中的示例为例，N＝7，表示在表6中有7个用户的评论信息作为训练数据。

其中，y_i表示第i个用户的评论信息的评分值。

示例性的，以本发明实施例中的示例为例，y₁＝5，y₂＝4，y₃＝5，y₄＝1，y₅＝1，y₆＝1，y₇＝2。

其中，x_i,j表示第i个用户的评论信息对第j个特征的特征向量的取值。

示例性的，以本发明实施例中的示例为例，用户1的评论信息的主题模型对于扩展特征集合中的第一特征“双镜头好”这一特征的特征向量的取值为1，则x_1,1＝1，用户1的主题模型对于扩展特征集合中的第二个特征“双镜头不好”的取值为0，则x_1,2＝0，以此类推，共有30个特征，则有x_1,30。

其中，w_j表示扩展特征集合中第j个特征的系数的取值。a是一个常数，表示截距，需要求解公式2获取。b是一个超参，需要人工根据经验给出。

进一步的，公式2的目的就是寻找使得公式右边取值最小的那些w_j。而在求解公式(1)的过程中，总是会使得某些w_j的取值为0，从而达到变量选择的目的。在变量选择之后，则训练得到了预测评分模型。

示例性的，利用S3042中构建的训练数据，通过公式2进行变量选择和模型训练，最后得到的预测评分模型的系数如表7所示，在这个表格中，“双镜头好(w₁)”表示结果中选取了“双镜头好”这个特征，这个特征对应的系数为w₁，w₁的取值为0.993789748123321。其他行的含义相同。

表7

在表6中包含而未在表7中包含的特征，为结果中未选取的特征。具体的，结果中选取特征的规则可以预先设定。表7所示的预测评分模型的系数结果中选取的特征，为系数非0的特征。

S305、按照预测评分模型，计算生成评论数据中每条待显示评论信息的预测评分。

其中，待显示评论信息包括评论数据中部分或全部评论信息。

可选的，待显示评论信息可以包括：有效评论信息中的所有评论信息；或者，评论数据中的所有评论信息。

在S305中，将S3042中得到的预测评分模型应用到每条待显示评论信息上，计算得到每条待显示评论信息的预测得分。

具体的，在S3042中得到了每个特征的系数的取值，也就是w的取值，在S305中，利用w的取值对每条待显示评论信息的评分进行预测，具体通过如下公式实现：

示例性的，以本发明实施例中的示例为例，用户1评论信息的主题模型对应扩展特征集合的特征中，“双镜头好”的取值为x_1,1＝1，“双镜头不好”的取值为x_1,2＝0，“拍照好”的取值为x_1，3＝1，“屏幕好”的取值为x_1,9＝1，“质量好”的取值为x_1,15＝1，“贵”的取值为x_1,17＝0，“系统不好”的取值为x_1,22＝0，“外观好”的取值为x_1,23＝0，“VR好”的取值为x_1,25＝0，“性价比高”的取值为x_1,27＝0，“卡槽不紧”的取值为x_1,30＝0，根据此，计算用户1的评论信息的预测评分为：

y1＝a+x_1,1*w₁+x_1,2*w₂+x_1,3*w₃+x_1,9*w₉+x_1,15*w₁₅+x_1,17*w₁₇

+x_1,22*w₂₂+x_1,23*w₂₃+x_1,25*w₂₅+x_1,27*w₂₇+x_1,30*w₃₀

＝1.50505405064973+0.993789748123321+2.34254810227062

+0.000624433974396911+0.122646190008627

＝4.964663。

同理，得到其他待显示评论信息的预测评分。假设待显示评论信息为评论数据中所有的评论信息，得到的所有预测得分如下表8所示。

表8

	预测评分
		User1	4.964663
User4	3.964598
		User5	4.989749
User6	1.035472
		User7	1.505054
User8	1.035410
		User9	1.505054
User2	1.035472
		User3	2.821462
User10	1.505054
		User12	1.505054
User11	1.505054
		User13	1.505054

S306、根据待显示评论信息的预测评分，将待显示评论信息中的评论信息按序显示。

可选的，在S306中，根据待显示评论信息的预测评分，将待显示评论信息中的评论信息按序显示，可以通过下述两种方式中任一种方式实现：

第一方式、

将待显示评论信息中的评论信息，按照评分偏差从小到大的顺序进行显示。

其中，评分偏差为预测评分与评分值之差的绝对值。

示例性的，以本发明实施例中的示例为例，假设待显示评论信息为评论数据中所有的评论信息，对于用户1的评论信息来说，真实评分为5，预测评分为4.9647，则评分偏差为：|4.964663–5|＝0.034337。其他待显示评论信息的评分偏差也可以如此得到，最后得到的评分偏差按照从小到大的顺序如表9所示。

表9

	评分值	预测评分	评分偏差
				用户5的评论信息	5	4.989749	0.010251
用户1的评论信息	5	4.964663	0.035337
				用户4的评论信息	4	3.964598	0.035402
用户8的评论信息	1	1.035410	0.03541
				用户6的评论信息	1	1.035472	0.035472
用户9的评论信息	2	1.505054	0.494946
				用户7的评论信息	1	1.505054	0.505054
用户3的评论信息	5	2.821462	2.178538
				用户10的评论信息	5	1.505054	3.494946
用户12的评论信息	5	1.505054	3.494946
				用户11的评论信息	5	1.505054	3.494946
用户13的评论信息	5	1.505054	3.494946
				用户2的评论信息	5	1.035472	3.964528

然后可以将表9中的顺序，将待显示评论信息排序后展示给用户。

进一步的，在显示待显示评论信息时，用户的评论信息的评分可以显示用户评论信息的预测评分。

进一步的，根据评论信息的预测得分与好评门限值的大小关系，预测评论信息的评论类型，在显示待显示评论信息时，还可以将预测的好评和差评以不同的颜色显示。

需要说明的是，对于好评门限值的取值，可以根据实际需求设定，本发明实施例对此不进行具体限定。

第二方式、

将待显示评论信息中的评论信息，按照预测评分从大到小的顺序进行显示。

进一步的，在S305之后，所述方法还可以包括：

计算物品的真实好评率，并在S306中显示待显示评论信息时显示计算的真实好评率。

其中，物品的真实好评率为预测评分大于或等于好评门限的评论信息数量，除以待显示评论信息中包括的评论信息的数量。

上述主要从显示物品评论的装置的工作过程的角度对本发明实施例提供的方案进行了介绍。可以理解的是，显示物品评论的装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本发明实施例可以根据上述方法示例对显示物品评论的装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图5示出了上述实施例中所涉及的显示物品评论的装置20的一种可能的结构示意图，显示物品评论的装置20包括：获取单元501，计算单元502，选取单元503，训练单元504，显示单元505。获取单元501用于支持显示物品评论的装置20执行图3中的过程S301，计算单元502用于支持显示物品评论的装置20执行图3中的过程S302、S305；选取单元503用于支持显示物品评论的装置20执行图3中的过程S303；训练单元504用于支持显示物品评论的装置20执行图3中的过程S304；显示单元505用于支持显示物品评论的装置20执行图3中的过程S306。其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

在采用集成的单元的情况下，图6示出了上述实施例中所涉及的显示物品评论的装置20的一种可能的结构示意图。显示物品评论的装置20可以包括：处理模块601、通信模块602和显示模块603。处理模块601用于对显示物品评论的装置20的动作进行控制管理，例如，处理模块601用于支持显示物品评论的装置20执行图3中的过程S301至S305，和/或用于本文所描述的技术的其它过程。通信模块602用于支持显示物品评论的装置20与其他网络实体的通信。显示模块603用于支持显示物品评论的装置20执行图3中的过程S306。显示物品评论的装置20还可以包括存储模块604，用于存储显示物品评论的装置20的程序代码和数据。

其中，处理模块601可以为图2所示的显示物品评论的装置20的实体结构中的处理器201，可以是处理器或控制器，例如可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信模块602可以是图2所示的显示物品评论的装置20的实体结构中的网络接口205。通信模块602可以是通信端口，或者可以是收发器、收发电路或通信接口等。显示模块603可以是图2所示的显示物品评论的装置20的实体结构中的显示屏204。存储模块604可以是图2所示的显示物品评论的装置20的实体结构中的存储器202。

当处理模块601为处理器，存储模块604为存储器，显示模块603为显示屏，通信模块602为网络接口时，本发明实施例图6所涉及的显示物品评论的装置20可以为图2所示的显示物品评论的装置20。

结合本发明公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM、闪存、ROM、可擦除可编程只读存储器(Erasable Programmable ROM，EPROM)、电可擦可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于核心网接口设备中。当然，处理器和存储介质也可以作为分立组件存在于核心网接口设备中。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种显示物品评论的方法，其特征在于，包括：

获取物品的内容数据及所述物品的评论数据；其中，所述评论数据包括至少一条评论信息，及每条评论信息的评分值；

计算所述内容数据与所述评论数据中每条有效评论信息的相关度；

选取与所述内容数据的相关度大于或等于预设相关阈值的有效评论信息作为样本数据；其中，所述样本数据中正负样本平衡；

根据所述样本数据及所述样本数据中评论信息的评分值，构建训练数据，训练获取预测评分模型；

按照所述预测评分模型，计算生成所述评论数据中每条待显示评论信息的预测评分；其中，所述待显示评论信息包括所述评论数据中部分或全部评论信息；

根据所述待显示评论信息的预测评分，将所述待显示评论信息中的评论信息按序显示；

所述计算所述内容数据与所述评论数据中的有效评论信息的相关度，包括：

生成所述内容数据的主题模型及每条所述有效评论信息的主题模型；其中，主题模型包括至少一个特征；

分别生成所述内容数据的主题模型及每条所述有效评论信息的主题模型相对于特征合集的特征向量；其中，所述特征合集包括所述内容数据的主题模型与每条所述有效评论信息的主题模型包括的特征的合集；

根据生成的特征向量，分别计算所述内容数据的主题模型与每条所述有效评论信息的主题模型的相关度，作为所述内容数据与所述评论数据中的有效评论信息的相关度。

2.根据权利要求1所述的方法，其特征在于，所述根据所述样本数据及所述样本数据中评论信息的评分值，构建训练数据，训练获取预测评分模型，包括：

分别获取所述样本数据中每条评论信息相对于扩展特征合集的特征向量；其中，所述扩展特征合集包括所述样本数据中所有评论信息的主题模型中，每个特征的至少两个方面描述的特征的合集；

将所述样本数据中评论信息的评分值及所述样本数据中每条评论信息相对于扩展特征合集的特征向量作为训练数据，训练获取所述预测评分模型。

3.根据权利要求1-2任一项所述的方法，其特征在于，所述有效评论信息包括：

所述评论数据中，除发布时间间隔小于或等于间隔门限的评论信息之外其余的评论信息；

或者，

所述评论数据中所有评论信息。

4.根据权利要求1-3任一项所述的方法，其特征在于，在所述按照所述预测评分模型，计算生成所述评论数据中每条待显示评论信息的预测评分之后，所述方法还包括：

计算所述物品的真实好评率并显示；其中，所述物品的真实好评率为预测评分大于或等于好评门限的评论信息数量除以所述待显示评论信息中包括的评论信息的数量。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述待显示评论信息的预测评分，将所述待显示评论信息中的评论信息按序显示，包括：

将所述待显示评论信息中的评论信息，按照评分偏差从小到大的顺序进行显示；其中，所述评分偏差为所述预测评分与所述评分值之差的绝对值；

或者，

将所述待显示评论信息中的评论信息，按照预测评分从大到小的顺序进行显示。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述待显示评论信息包括：

所述有效评论信息中的所有评论信息；或者，所述评论数据中的所有评论信息。

7.一种显示物品评论的装置，其特征在于，包括：

获取单元，用于获取物品的内容数据及所述物品的评论数据；其中，所述评论数据包括至少一条评论信息，及每条评论信息的评分值；

计算单元，用于计算所述获取单元获取的所述内容数据与所述评论数据中每条有效评论信息的相关度；

选取单元，用于选取与所述内容数据的相关度大于或等于预设相关阈值的有效评论信息作为样本数据；其中，所述样本数据中正负样本平衡；

训练单元，用于根据所述选取单元选取的样本数据及所述样本数据中评论信息的评分值，构建训练数据，训练获取预测评分模型；

所述计算单元还用于，按照所述预测评分模型，计算生成所述评论数据中每条待显示评论信息的预测评分；其中，所述待显示评论信息包括所述评论数据中部分或全部评论信息；

显示单元，用于根据所述计算单元计算生成的所述待显示评论信息的预测评分，将所述待显示评论信息中的评论信息按序显示；

所述计算单元具体用于：

8.根据权利要求7所述的装置，其特征在于，所述训练单元具体用于：

9.根据权利要求7-8任一项所述的装置，其特征在于，所述有效评论信息包括：

或者，

所述评论数据中所有评论信息。

10.根据权利要求7-9任一项所述的装置，其特征在于，所述计算单元还用于：

在按照所述预测评分模型，计算生成所述评论数据中每条待显示评论信息的预测评分之后，计算所述物品的真实好评率并显示；

其中，所述物品的真实好评率为预测评分大于或等于好评门限的评论信息数量除以所述待显示评论信息中包括的评论信息的数量。

11.根据权利要求7-10任一项所述的装置，其特征在于，所述显示单元具体用于：

或者，

12.根据权利要求7-11任一项所述的装置，其特征在于，所述待显示评论信息包括：