CN110399602A

CN110399602A - 一种评测文本可靠性的方法和装置

Info

Publication number: CN110399602A
Application number: CN201810377742.4A
Authority: CN
Inventors: 刘凌含
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2019-11-01

Abstract

本发明公开了一种评测文本可靠性的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：获取待评测文本的评测特征标识；根据所述评测特征标识获取所述待评测文本的评测数据；基于所述待评测文本以及所述评测数据，确定出所述待评测文本的可靠性。本发明实施例能够通过评测特征标识获取到评测文本的评测数据，进而可基于获取的评测数据以及待评测文本，确定出该待评测文本的可靠性，提升了现有技术中仅从文本内容及语法结构评测文本可靠性的准确度。

Description

一种评测文本可靠性的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种评测文本可靠性的方法和装置。

背景技术

在电子商品平台，用户无法直接触及商品以体验商品的功能和优劣，用户只能通过商品介绍以及商品评论了解商品的信息、功能、体验等。其中，商品评论不同于商家对商品的单向描述，用户可通过查看其他已购买该商品的用户对商品的评价，了解到更加真实、可信、丰富的商品信息。因此评论的可靠性对于用户、商家乃至电商平台都至关重要。但是，不同的用户对商品通常有不同的评判标准，进而影响了每个评论的可靠性。现有技术中，对于评论可靠性的评测，是基于自然语言理解技术NLP完成评论内容本身进行评估。该方式仅能从文本内容及语法结构评测文本的可靠性，评测的结果不能很准确体现出待评测文本的可靠性。

发明内容

有鉴于此，本发明实施例提供一种评测文本可靠性的方法和装置，能够通过评测特征标识获取到评测文本的评测数据，进而可基于获取的评测数据以及待评测文本，确定出该待评测文本的可靠性。

为实现上述目的，根据本发明实施例的一个方面，提供了一种评测文本可靠性的方法。

本发明实施例的评测文本可靠性的方法包括：获取待评测文本的评测特征标识；根据所述评测特征标识获取所述待评测文本的评测数据；基于所述待评测文本以及所述评测数据，确定出所述待评测文本的可靠性。

可选地，所述评测特征标识包括发布者标识和产品标识；根据所述评测特征标识获取所述待评测文本的评测数据的步骤包括：根据发布者标识从定时更新的用户历史行为数据集中，获取发布者画像数据；根据产品标识从产品数据集中获取产品数据。

可选地，所述发布者画像数据至少包括以下一种：发布者性别、发布者年龄、发布者购买力、发布者所属地域、发布者是否有小孩、历史发布文本数量、发布违规文本的数量、发布文本偏差度、平台活跃度、产品偏好度以及对产品复购的次数；

所述产品数据至少包括以下一种：产品所属类目、产品复购周期、产品热门程度、产品所属品牌质量、产品所述店铺质量、产品客单价以及产品所属价格段。

可选地，基于所述待评测文本以及所述评测数据，确定出所述待评测文本的可靠性之前，还包括：获取训练集，并根据所述训练集以及梯度提升决策树算法、Logisticregression回归得到评测模型；则

基于所述待评测文本以及所述评测数据，确定出所述待评测文本的可靠性的步骤包括：基于所述待评测文本以及所述评测数据，通过所述评测模型确定出所述待评测文本的可靠性。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种评测文本可靠性的装置。

本发明实施例的评测文本可靠性的装置包括：特征标识获取模块，用于获取待评测文本的评测特征标识；

评测数据获取模块，用于根据所述评测特征标识获取所述待评测文本的评测数据；

可靠性确定模块，用于基于所述待评测文本以及所述评测数据，确定出所述待评测文本的可靠性。

可选地，所述评测数据获取模块还用于，根据发布者标识从定时更新的用户历史行为数据集中，获取发布者画像数据；以及，根据产品标识从产品数据集中获取产品数据；其中，所述评测特征标识包括发布者标识和产品标识。

可选地，所述发布者画像数据至少包括以下一种：发布者性别、发布者年龄、发布者购买力、发布者所属地域、发布者是否有小孩、历史发布文本数量、发布违规文本的数量、发布文本偏差度、平台活跃度、产品偏好度以及对产品复购的次数；所述产品数据至少包括以下一种：产品所属类目、产品复购周期、产品热门程度、产品所属品牌质量、产品所述店铺质量、产品客单价以及产品所属价格段。

可选地，本发明实施例的评测文本可靠性的装置还包括模型训练模块，用于获取训练集，并根据所述训练集以及梯度提升决策树算法、Logistic regression回归得到评测模型；

所述可靠性确定模块还用于，基于所述待评测文本以及所述评测数据，通过所述评测模型确定出所述待评测文本的可靠性。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种评测文本可靠性的电子设备。

本发明实施例的评测文本可靠性的电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一项的评测文本可靠性的方法。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现上述任一项的评测文本可靠性的方法。

上述发明中的一个实施例具有如下优点或有益效果：在文本内容的基础上，又通过评测特征标识获取到待评测文本的评测数据，进而基于该待评测文本的具体内容以及评测数据，评测出文本的可靠性。并且评测数据中包括发布者画像数据和产品数据，使得评测结果更加准确，解决了现有技术中仅从文本内容及语法结构评测文本的可靠性导致的可靠性不准确的问题。以及，采用线性统计模型对文本的可靠性进行评测，其复杂度低、可解释性强，可以大大提升可靠性评测的准确性，以及减少评测运算的时间。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的评测文本可靠性的方法的主要流程的示意图；

图2是根据本发明实施例的评测文本可靠性的评测数据的示意图；

图3是基于梯度提升决策树生成新特征的示意图；

图4是AUC值的示意图；

图5是根据本发明实施例评测文本可靠性的装置的主要模块的示意图；

图6是本发明实施例可以应用于其中的示例性系统架构图；

图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的评测文本可靠性的方法的主要流程的示意图，如图1所示，本发明实施例的评测文本可靠性的方法主要包括：

步骤S101：获取待评测文本的评测特征标识。其中，该评测特征标识包括发布者标识和产品标识，在本发明实施例中，评测特征标识不局限于这两个。其中，发布者是指发布该待评测文本的用户，产品是指该待评测文本所对应的产品。例如，用户A对产品B发布了评论C，如果要评测该评论C的可靠性，则评论C为待评测文本，该待评测文本的发布者为A，该待评测文本所对应的产品为B。

步骤S102：根据评测特征标识获取待评测文本的评测数据。在本发明实施例中，评测特征标识包括发布者标识和产品标识。则在本步骤中，根据发布者标识从定时更新的用户历史行为数据集中，获取发布者画像数据；根据产品标识从产品数据集中获取产品数据。

如图2所示，发布者画像数据至少包括以下一种：发布者性别、发布者年龄、发布者购买力、发布者所属地域、发布者是否有小孩、历史发布文本数量、发布违规文本的数量、发布文本偏差度、平台活跃度、产品偏好度以及对产品复购的次数。如图2中所示，由于用户的发布者性别、发布者年龄、发布者购买力、发布者所属地域、发布者是否有小孩的信息变动性比较小，在本发明实施例中，可将这些信息存储在用户数据集中。但是，这些信息也都可以存储在用户历史行为数据集中。其中，发布者性别包括三种情况，分别是男、女和无法确定，例如，1代表男性，0代理女性，-1代理无法确定。发布者年龄可根据预设的年龄区间，根据发布者历史购物记录和浏览记录确定发布者所属的年龄段，也可根据用户填写的用户信息准确的确定出发布者的年龄。发布者在某个或某些电商平台的历史行为(包括点击、搜索、购买等)表现出来的价格段偏好，作为用户购买力的体现。例如，将用户的购买力从低到高分别通过0-7代表，通过对该发布者的历史行为数据的分析，确定出该发布者的发布者购买力为4。发布者所属地域是指发布者所在的地区，其可通过发布者常用收货地址或者登录IP所在区域确定出。发布者是否有小孩分为三种情况，分别有小孩、没有小孩和无法确定，例如，1代表有小孩，0代表没有小孩，-1代表无法确定。对于该评测数据的获取，可基于用户在某个或某些电商平台的历史行为(包括点击、搜索、购买等)中挖掘用户是否有对母婴类产品、儿童类产品有长期兴趣偏好判断。历史发布文本数量是指发布者在预设的一段时间内在某个或某些电商平台发布文本的数量，例如，该发布者在过去1年内在京东电商平台上发布的评论数量。发布违规文本的数量，是指发布的不符合电商平台的规定的文本数量，例如，在电商平台中发布的文本涉及黄违禁内容，或者发布的文本的内容为垃圾内容，则该文本为违规文本。在获取发布违规文本的数量时，也可通过判断发布者是否发布过违规文本，如果发布过，则通过1代表该发布者发布违规文本的数量；如果没有发布过，则通过0代表该发布者发布违规文本的数量。发布文本偏差度，可根据用户历史发布的所有文本的可靠性分值的平均值、最大值、最小值或者方差获取。平台活跃度，是指用户在平台上的活跃程度，可通过用户在平台上的连续登录天数、浏览产品数量或者浏览产品类目数量获取，或者，通过用户在平台上成交订单的数量获取。例如，最近3个月内(1个月内或者7天内)用户在电商平台的连续登录天数、浏览产品数量或者浏览产品类目数量的平均数，为该用户的平台活跃度。又或者，最近6个月内(3个月内或者1个月内)用户在电商平台产生成功下单的天数、购买产品的数量或者购买产品类目数量的平均值，作为该用户的平台活跃度。产品偏好度，是指用户对产品类目的偏好程度，可通过用户在不同时间区间的(1天、7天、30天、90天)，对各个产品类目下产品的浏览、搜索、关注、加入购物车、订单等行为数据进行加权计算得到。对产品复购的次数，是指发布者重复购买该待评测文本所对应的产品的次数。在确定该评测数据时，可通过判断该发布者在预设时间段内是否重复购买过该产品，例如，如果确定出在过去1年内，发布者重复购买过该待评测文本所对应的产品(订单个数大于或等于2次)，则通过1代表该发布者对产品复购的次数，否则，通过0代表该发布者对产品复购的次数。通过以上可知发布者的评测数据是会变化的，所以为保证评测结果的准确性，对包括所有用户评测数据的历史行为数据集进行定时更新。

如图2所示，产品数据至少包括以下一种：产品所属类目、产品复购周期、产品热门程度、产品所属品牌质量、产品店铺质量、产品客单价以及产品所属价格段。其中，产品所属类目，是指文本所对应的产品所属的类目，其中类目的分类可根据需求或经验进行设置。产品复购周期，是根据该电商平台中用户复购该产品的天数确定，例如，对该电商平台上的活跃用户(可定义平台会员中等级为银牌及以上的用户为活跃用户)一年内的订单数量进行统计，活跃用户复购该产品的间隔天数的50％分位数，可作为此产品的产品复购周期。产品热门程度，是指产品在该电商平台被搜索、购买的热度或者新闻热度、热门话题度等，例如，统计该产品在最近30天(7天或者1天等)中，该产品的成交的订单数量、下单的用户数量、浏览数量或者订单转化率等，然后对该统计结果进行加权计算，确定出该产品的产品热门程度。产品所属品牌质量，是指该产品的品牌的质量，例如，统计该产品所属品牌的搜索次数、品牌下所有产品订单数量或者品牌下所有产品浏览数量等，然后对该统计结果进行加权计算，确定出该产品的产品所属品牌质量。产品店铺质量，是指发布者购买该产品所在店铺的质量。例如，统计该店铺关注数量、店铺类型、店铺评分、店铺页面流量、店铺下所有产品订单数量或者店铺下所有产品浏览数量等，然后对该统计结果进行加权计算，确定出该产品的产品店铺质量。产品客单价，是指预设时间段内该产品在电商平台上的销售金额除以该产品订单数量的商，例如，一天内该产品在电商平台上的销售金额为100000，一天内该产品在电商平台上的订单数量为1000，100000/1000＝100，则该产品客单价为100。产品所属价格段，可根据发布者在购买该产品时的价格以及预设的价格段进行确定，该预设的价格段可根据经验以及数据分析确定出。例如，通过对该产品所属类目下所有产品的价格通过k-means进行聚类，如果将该类目下的产品分为7个价格段，则价格段从低到高分别可用1-7代表。再比如，手机0-999元为价格段1，1000-1599为价格段2，1600-2499为价格段3等，如果发布者购买的产品的价格为1200，则该产品所属价格段为2。

如图2所示，对于文本内容的维度特征，至少包括：文本标签、文本情感倾向、是否是黄违禁、是否是垃圾文本以及文本质量分。其中，文本标签，是指待评测文本所指向的特征的标签，例如，该待评测文本为产品评论时，其对应的物流标签、产品价格标签以及产品质量标签等。文本情感倾向，是指文本中表现情感的正负向情感分数，可分为1-5分，5分为情感非常正向，如表扬、称赞内容，1分为情感非常负向，如生气、辱骂类内容。是否是黄违禁，是指待评测的文本是否属于预设的黄违禁范围，可通过二分类变量进行确定，若文本内容属于黄违禁范围则为1，否则为0。是否是垃圾文本，是指待评测的文本是否属于预设的垃圾范围，同样可通过二分类变量进行确定，若文本内容属于垃圾文本范围为1，否则为0。文本质量分，可通过文本的文字个数、文本标签个数或者文本所包含的图片的个数确定出。

现有技术中，仅基于文本内容评测该文本的可靠性，在该过程中，需要大量的标注工作，词库建设工作、文本训练，语义情感标记，标签词提取，句子分析，垃圾内容识别等一系列内容。属于耗时、耗力、耗心的一种方式，另外由于它的计算复杂度高，步骤多，导致任务完成的依赖线条长，对团队技术和计算服务能力有非常高要求。而且，现有技术中仅能从文本内容及语法结构进行分析并评估评价质量，还是忽略了不同评论发布者的身份、习惯、评论发布时间以及商品使用用途、使用经验等对一条评论信息量价值差异的影响。例如，一个送礼者对商品的评价与一个使用者对商品的评价相比，其评价的标准是不一样的，则其评价的可靠性肯定不同；或者，一个挑剔购买者对低单价商品的评论也是容易有偏差的，一个用户在家电在刚刚到货后的评价和使用几个月之后的用户评价对用户的参考意义也是不同的。另外，朋友的评论、购物达人的评论也会比普通消费者的评论的可靠度更高，其评论的说服力更强。用户维度的特征对于商品评价是不可或缺而且重要非凡的，而这些都是基于内容文本分析很难达到的。

本发明实施例的评测文本可靠性的方法，通过评测特征标识在用户历史行为数据集和产品数据集中获取发布者画像数据、产品数据，则可基于文本内容的基础上，增加用户画像评论发布者的身份信息(发布者性别、发布者年龄、发布者购买力、发布者所属地域、发布者是否有小孩等)、历史购物行为(平台活跃度、产品偏好度以及对产品复购的次数等)、历史评论可靠性(历史发布文本数量、发布违规文本的数量、发布文本偏差度等)，以及当前商品信息(产品所属类目、产品复购周期、产品热门程度、产品所属品牌质量、产品所述店铺质量、产品客单价以及产品所属价格段等)等不同维度，对待评测文本进行综合可靠度评测。尤其是针对大量的用户信息获取到的用户画像内容，不仅丰富了评估的维度，还可以丰富用户查看评论时对不同内容的筛选和数据指标，更全面的展示商品信息。

步骤S103：基于待评测文本以及评测数据，确定出待评测文本的可靠性。在该过程之前，获取训练集，并根据所述训练集以及梯度提升决策树算法、Logistic regression回归得到评测模型。则在步骤S103中，基于待评测文本以及评测数据，通过评测模型确定出待评测文本的可靠性。其中，训练模型的目标是对文本的可靠分进行评测，即在未知文本可靠性的前提下，基于已有特征对文本可靠性进行预测，可通过输出可靠性分数或者可靠性级别获知文本的可靠性。模型的训练数据中分为自变量(已经获取的数据)和因变量(需要预测的数据)两部分，模型的自变量是全部可获取的特征，如文本内容、发布者画像数据和产品数据。模型的因变量即预测目标，是文本的可靠性。

以及，获取训练集之后，训练模型的过程主要包括：数据获取、数据预处理、模型学习和效果评估。其中，该处的数据为训练集中的数据。在数据获取的过程中，可通过人工标注的方式对数据可靠性进行打分，例如，选用多人标注的方式，如3个人同时对相同的评论文本进行评分，可靠性评分范围可设定为1到10分。标注人员基于评论的完整信息(如文本内容，图片，评论的产品等)以评论文本的内容是否可信、是否有信息量、是否让人感到有用等(通过这方面的评分可知文本的可靠性)进行评分，最终将多人对同一评论文本的评分结果取平均值，作为评论文本的可靠性分数。其中，如果多人对同一评论文本的评分结果差距较大，如一人给10分，一人给1分，则差距较大的评分无效，重新加入待标注数据，直到多人结果比较接近，且该接近的程度可根据实际需求设定。

在数据预处理的过程中，通常要解决正负样本失衡、确失值和归一化的问题。在构建正负样本数据集的过程中，一般根据评论文本可靠性分进行正负样本二分变量处理。例如，对于可靠性分数在0-10之间的，可靠性分数大于等于5分的为可靠性高的评论，该数据标记为1，所有可靠性标记为1的数据集为正样本；可靠性小于5分的为可靠性低的评论，该数据标记为0，所有可靠性标记为0的数据集为负样本。但是，经过正负样本二分处理构建所得的正负样本数据集比例很可能失衡，例如为1：1200，此时即出现数据严重失衡的问题，该情况容易导致模型训练失效。在本发明实施例中，可通过下采样来解决上述问题。即，对训练集中的负样本进行下采样以减少负样本的数量。为避免随机采样的特征空间覆盖性不足，先对负样本进行k-means聚类，然后在每个聚类上采用subsample来获得全面的负样本采样，最后与正样本组成较为平衡的训练集，如1:5或1:2。在构建的评测特征的过程中，一些特征可能存在缺失值(如空值)，在本发明实施例中，可采用移除缺失值特征的数据集进行LR模型的训练，采用将缺失值赋值为-1的训练集进行RF/GBDT模型的训练。在进行k-means聚类和LR回归时，需要对不同度量尺度的特征进行归一化处理，在本发明实施例中，可通过一下归一化方法：

在模型学习的过程中，可采用多元线回归、GBDT、或者GBDT结合LR等方式进行分类预测。在本发明实施例中，通过GBDT结合LR的方式得得到文本可靠性的评测模型。

梯度提升决策树算法GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法，并且是一种常用的非线性模型。与普通的决策树不同，该算法由多棵决策树组成，所有树的结论累加起来做最终答案，也就是说提升树的“提升”点，在于它是迭代多棵回归树来共同决策，是整个迭代过程生成的回归树的累加。每一棵回归树学习的是之前所有树的结论和残差，拟合得到一个当前的残差回归树。则每一次结果都是“集体智慧”或者说“站在巨人的肩膀”，会比单一决策树效果更佳。决策树的目标是使残差最小，当采用平方误差损失函数时，残差的意义如公式：残差＝真实值-预测值。Logistic regression(LR)逻辑斯特回归是一种广义线性回归(generalized linear model)，因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同，都具有w‘x+b，其中w和b是待求参数，其区别在于他们的因变量不同，多重线性回归直接将w‘x+b作为因变量，即y＝w‘x+b，而logistic回归则通过函数L将w‘x+b对应一个隐状态p，p＝L(w‘x+b)，然后根据p与1-p的大小决定因变量的值。如果L是logistic函数，就是logistic回归，如果L是多项式函数就是多项式回归。logistic回归的因变量可以是二分类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释，多类可以使用softmax方法进行处理。

具体的，可通过已有特征训练GBDT模型，利用GBDT模型学习到的树来构造新特征。构造的新特征向量是取值0/1的，即需要对进入模型的特征数据根据路径树结果进行ont-hot编码，且特征的每个元素对应于GBDT模型中树的叶子结点。当一个样本点通过某棵树最终落在这棵树的一个叶子结点上，那么在新特征向量中这个叶子结点对应的元素值为1，而这棵树的其他叶子结点对应的元素值为0。新特征向量的长度等于GBDT模型里所有树包含的叶子结点数之和。例如图3所示的两棵树tree1和tree2，左树tree1有三个叶子节点，右树tree2有两个叶子节点，最终的特征即为五维的向量。对于输入x，假设其落在左树第一个节点，编码[1,0,0]，落在右树第三个节点则编码[0,1]，所以整体的编码为[1,0,0,0,1]，这类编码作为特征，输入到线性分类模型(LR)中进行分类。

GBDT在训练时需要进行大量的参数调节工作，以期获得适合于当前数据任务的模型。GBDT的参数分为过程参数和基学习器参数两类，在调参的过程中，首先调节过程参数(学习率、基学习器个数等)，然后调节基学习器参数(树深度、叶子分裂样本数等)，通过启发贪心式的参数调节方法，反复调节以期得到较好的参数组合。GBDT具体的调参对象简单介绍如下：

learning_rate(学习率)/n_estimators(基学习器数目)：learning_rate和n_estimators分别控制迭代的步长和最大迭代次数，所以，这两个参数应当一起调试，寻找最优的组合。GBDT设置大量基学习器的目的是为了集成来降低偏差，所以n_estimators一般会设置得大一些；

max_depth(树深度)：对于GBDT模型来说，其每个基学习器是一个弱学习器，决策树的深度一般设置得比较小，以此来降低方差，之后在经过残差逼近迭代来降低偏差，从而形成强学习器。所以不同于随机森林模型，这里的max_depth参数值应设置得比较小；

min_samples_split(划分样本数)/min_samples_leaf(叶最小样本数)：在GBDT中，单个基学习器侧重于降低方差，其叶节点粒度应该比较粗，所以这两个参数应设置得较大，但同时要考虑到数据失衡的情况，所以又不能设置得过大；

cut_off(预测概率阈值)：cut_off控制着对结果的置信程度。

除了上述参数之外，在一般调参的过程中还需要考虑的参数有：引入特征随机性的参数max_features，控制叶节点分裂粒度的参数min_samples_split、min_samples_leaf等。

上述过程之后，将GBDT模型结果产生的新特征和原有特征一起加入LR训练模型，即可得到各个特征的线性回归训练系数。

在模型效果评估的过程中，主要使用AUC来对装置的检测效果进行评估。在二分类问题中，一个样本的类别只有两种：0,1，但是预测结果有四种可能性：一个样本标签是1被预测成1，记成TP(True Positive)，样本标签是1被预测为0，记成FP(False Positive),样本标签是0也被预测成0，记成TN(True Negative)，样本标签是0被预测为1，记成FN(FalseNegative)。如下表：

训练集	预测1	预测0
			实际1	TP(True Positive)	FN(False Negative)
实际0	FP(False Positive)	TN(True Negative)

AUC(Area under curve)值的大小等于ROC曲线下面区域的面积，是一个0-1之间是数字。ROC曲线是基于样本的真实类别和预测概率来画的。如图4所示，ROC曲线的横轴是负正类率(false positive rate)，纵轴是真正类率(true positive rate)。真正类率(true postive rate TPR)灵敏度，代表分类器预测的正类中实际正实例占所有正实例的比例。TPR＝TP/(TP+FN)，Sensitivity(正类覆盖率)。负正类率(false postive rate FPR)特异度，代表分类器预测的正类中实际负实例占所有负实例的比例。FPR＝FP/(FP+TN)，划分实例中所有负例占所有负例的比例；(1-Specificity)。AUC越大，说明模型训练效果越好。通过对模型AUC指标的评估，可以有效衡量本发明实施例得出的评测模型的效果，并且通过调整模型的参数，增加特征个数和范围进行优化结果，完成对评测模型的不断优化。

上述过程为将特征数据加入模型进行回归分类预测，即利用样本(已知数据)，产生拟合方程的过程。而通过以上预测结果生成的拟合方程，具有对未知数据进行预测的作用，并且基于获取的训练集以及GBDT、Logistic regression回归得到评测模型，进而更精确的评测出待测文本的可靠性。

与现有技术中通过自然语言理解技术NLP对文本内容进行评测不同，在本发明实施例中，获取到训练集后，通过GBDT和LR的结合，即使用GBDT进行特征选取、特征离散和特征组合，再将决策树的路径直接作为LR的输入特征，则省去了人工寻找特征、特征组合的步骤。将决策树离散化的结果放入线性统计模型逻辑回归模型(LR模型)中，完成模型训练进而得到评测模型。其中，NLP是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言处理包括的范畴包括文本朗读(Text to speech)/语音合成(Speech synthesis)，语音识别(Speechrecognition)，中文自动分词(Chinese word segmentation)，词性标注(Part-of-speechtagging)，句法分析(Parsing)，自然语言生成(Natural language generation)，文本分类(Text categorization)，信息检索(Information retrieval)，信息抽取(Informationextraction)，文字校对(Text-proofing)，问答系统(Question answering)，机器翻译(Machine translation)，自动摘要(Automatic summarization)，文字蕴涵(Textualentailment)。通过NLP对文本内容进行评测的过程主要包括：

1、实体提取：通过对文本抽样和获取产品词典、词库，完成样本评论的文本内容分词、词性标注(动词、名词、属性词)、属性词情感标注(正面、负面、中性)、特征识别和特征提取，具体方法主要包括word2vec、LSA、TF-IDF、LDA、LSTM等，进而完成评论文本的实体识别和提取；

2.句子分析：完成基础内容的词语提取后，需要将每个短句的实体聚合，形成句子主题内容，需要使用到的方法包括近义词/同义词替换、句法结构分析(问句、陈述句等)、词重要性分析、语义网分析、句意分析、情感聚合、主题模型分析和敏感词库匹配等；

3.应用输出：基于上述的实体提取和句子分析，可以输出评论文本不同的应用内容，基于句子主题和句意，可以进行文本分类和标签的归类，如一个句子属于物流评价还是服务评价还是产品质量评价，一个评论标签是材质还是尺码。另外还可以输出评论的情感倾向，如是极端正向还是极端负向、还是中性评价。更多的应用，可以识别句子是否属于色情、违禁类内容，以及垃圾无效内容。

本发明实施例主要是将从评论文本的内容、用户画像、商品三个不同维度汇总来的特征进行统一整合。通过简单的数据清洗/均匀抽样，获取足够的样本训练数据。并通过GBDT模型(Gradient Boosting Decision Tree)对特征进行离散化，离散化的结果放入线性统计模型逻辑回归模型(LR模型)中，完成模型训练。模型训练结果输出的可靠度预测分数即作为最终的评论可靠度分数输出。

本发明实施例在已有文本内容的基础上，又通过评测特征标识获取到更丰富的待评测文本的评测数据，进而基于该待评测文本的具体内容以及评测数据，评测出文本的可靠性。并且评测数据中包括发布者画像数据和产品数据，使得评测结果更加准确，解决了现有技术中仅从文本内容及语法结构评测文本的可靠性导致的可靠性不准确的问题。以及，采用线性统计模型对文本的可靠性进行评测，其复杂度低、可解释性强，可以大大提升可靠性评测的准确性，以及减少评测运算的时间。

图5是根据本发明实施例评测文本可靠性的装置的主要模块的示意图，如图5所示，本发明实施例评测文本可靠性的装置500包括特征标识获取模块501、评测数据获取模块502和可靠性确定模块503。

特征标识获取模块501用于，获取待评测文本的评测特征标识。

评测数据获取模块502用于，根据评测特征标识获取待评测文本的评测数据。评测数据获取模块还用于，根据发布者标识从定时更新的用户历史行为数据集中，获取发布者画像数据；以及，根据产品标识从产品数据集中获取产品数据；其中，评测特征标识包括发布者标识和产品标识。

发布者画像数据至少包括以下一种：发布者性别、发布者年龄、发布者购买力、发布者所属地域、发布者是否有小孩、历史发布文本数量、发布违规文本的数量、发布文本偏差度、平台活跃度、产品偏好度以及对产品复购的次数。其中，发布者性别包括三种情况，分别是男、女和无法确定，例如，1代表男性，0代理女性，-1代理无法确定。发布者年龄可根据预设的年龄区间，根据发布者历史购物记录和浏览记录确定发布者所属的年龄段，也可根据用户填写的用户信息准确的确定出发布者的年龄。发布者在某个或某些电商平台的历史行为(包括点击、搜索、购买等)表现出来的价格段偏好，作为用户购买力的体现。例如，将用户的购买力从低到高分别通过0-7代表，通过对该发布者的历史行为数据的分析，确定出该发布者的发布者购买力为4。发布者所属地域是指发布者所在的地区，其可通过发布者常用收货地址或者登录IP所在区域确定出。发布者是否有小孩分为三种情况，分别有小孩、没有小孩和无法确定，例如，1代表有小孩，0代表没有小孩，-1代表无法确定。对于该评测数据的获取，可基于用户在某个或某些电商平台的历史行为(包括点击、搜索、购买等)中挖掘用户是否有对母婴类产品、儿童类产品有长期兴趣偏好判断。历史发布文本数量是指发布者在预设的一段时间内在某个或某些电商平台发布文本的数量，例如，该发布者在过去1年内在京东电商平台上发布的评论数量。发布违规文本的数量，是指发布的不符合电商平台的规定的文本数量，例如，在电商平台中发布的文本涉及黄违禁内容，或者发布的文本的内容为垃圾内容，则该文本为违规文本。在获取发布违规文本的数量时，也可通过判断发布者是否发布过违规文本，如果发布过，则通过1代表该发布者发布违规文本的数量；如果没有发布过，则通过0代表该发布者发布违规文本的数量。发布文本偏差度，可根据用户历史发布的所有文本的可靠性分值的平均值、最大值、最小值或者方差获取。平台活跃度，是指用户在平台上的活跃程度，可通过用户在平台上的连续登录天数、浏览产品数量或者浏览产品类目数量获取，或者，通过用户在平台上成交订单的数量获取。例如，最近3个月内(1个月内或者7天内)用户在电商平台的连续登录天数、浏览产品数量或者浏览产品类目数量的平均数，为该用户的平台活跃度。又或者，最近6个月内(3个月内或者1个月内)用户在电商平台产生成功下单的天数、购买产品的数量或者购买产品类目数量的平均值，作为该用户的平台活跃度。产品偏好度，是指用户对产品类目的偏好程度，可通过用户在不同时间区间的(1天、7天、30天、90天)，对各个产品类目下产品的浏览、搜索、关注、加入购物车、订单等行为数据进行加权计算得到。对产品复购的次数，是指发布者重复购买该待评测文本所对应的产品的次数。在确定该评测数据时，可通过判断该发布者在预设时间段内是否重复购买过该产品，例如，如果确定出在过去1年内，发布者重复购买过该待评测文本所对应的产品(订单个数大于或等于2次)，则通过1代表该发布者对产品复购的次数，否则，通过0代表该发布者对产品复购的次数。通过以上可知发布者的评测数据是会变化的，所以为保证评测结果的准确性，对包括所有用户评测数据的历史行为数据集进行定时更新。

产品数据至少包括以下一种：产品所属类目、产品复购周期、产品热门程度、产品所属品牌质量、产品店铺质量、产品客单价以及产品所属价格段。其中，产品所属类目，是指文本所对应的产品所属的类目，其中类目的分类可根据需求或经验进行设置。产品复购周期，是根据该电商平台中用户复购该产品的天数确定，例如，对该电商平台上的活跃用户(可定义平台会员中等级为银牌及以上的用户为活跃用户)一年内的订单数量进行统计，活跃用户复购该产品的间隔天数的50％分位数，可作为此产品的产品复购周期。产品热门程度，是指产品在该电商平台被搜索、购买的热度或者新闻热度、热门话题度等，例如，统计该产品在最近30天(7天或者1天等)中，该产品的成交的订单数量、下单的用户数量、浏览数量或者订单转化率等，然后对该统计结果进行加权计算，确定出该产品的产品热门程度。产品所属品牌质量，是指该产品的品牌的质量，例如，统计该产品所属品牌的搜索次数、品牌下所有产品订单数量或者品牌下所有产品浏览数量等，然后对该统计结果进行加权计算，确定出该产品的产品所属品牌质量。产品店铺质量，是指发布者购买该产品所在店铺的质量。例如，统计该店铺关注数量、店铺类型、店铺评分、店铺页面流量、店铺下所有产品订单数量或者店铺下所有产品浏览数量等，然后对该统计结果进行加权计算，确定出该产品的产品店铺质量。产品客单价，是指预设时间段内该产品在电商平台上的销售金额除以该产品订单数量的商，例如，一天内该产品在电商平台上的销售金额为100000，一天内该产品在电商平台上的订单数量为1000，100000/1000＝100，则该产品客单价为100。产品所属价格段，可根据发布者在购买该产品时的价格以及预设的价格段进行确定，该预设的价格段可根据经验以及数据分析确定出。例如，通过对该产品所属类目下所有产品的价格通过k-means进行聚类，如果将该类目下的产品分为7个价格段，则价格段从低到高分别可用1-7代表。再比如，手机0-999元为价格段1，1000-1599为价格段2，1600-2499为价格段3等，如果发布者购买的产品的价格为1200，则该产品所属价格段为2。

对于文本内容的维度特征，至少包括：文本标签、文本情感倾向、是否是黄违禁、是否是垃圾文本以及文本质量分。其中，文本标签，是指待评测文本所指向的特征的标签，例如，该待评测文本为产品评论时，其对应的物流标签、产品价格标签以及产品质量标签等。文本情感倾向，是指文本中表现情感的正负向情感分数，可分为1-5分，5分为情感非常正向，如表扬、称赞内容，1分为情感非常负向，如生气、辱骂类内容。是否是黄违禁，是指待评测的文本是否属于预设的黄违禁范围，可通过二分类变量进行确定，若文本内容属于黄违禁范围则为1，否则为0。是否是垃圾文本，是指待评测的文本是否属于预设的垃圾范围，同样可通过二分类变量进行确定，若文本内容属于垃圾文本范围为1，否则为0。文本质量分，可通过文本的文字个数、文本标签个数或者文本所包含的图片的个数确定出。

可靠性确定模块503用于，基于待评测文本以及评测数据，确定出待评测文本的可靠性。本发明实施例评测文本可靠性的装置还包括模型训练模块，用于获取训练集，并根据训练集以及梯度提升决策树算法、Logistic regression回归得到评测模型。可靠性确定模块还用于，基于待评测文本以及评测数据，通过评测模型确定出待评测文本的可靠性。

本发明实施例在已有文本内容的基础上，又通过评测特征标识获取到待评测文本的评测数据，进而基于该待评测文本的具体内容以及评测数据，评测出文本的可靠性。并且评测数据中包括发布者画像数据和产品数据，使得评测结果更加准确，解决了现有技术中仅从文本内容及语法结构评测文本的可靠性导致的可靠性不准确的问题。以及，采用线性统计模型对文本的可靠性进行评测，其复杂度低、可解释性强，可以大大提升可靠性评测的准确性，以及减少评测运算的时间。

图6示出了可以应用本发明实施例的评测文本可靠性的方法或评测文本可靠性的装置的示例性系统架构600。

如图6所示，系统架构600可以包括终端设备601、602、603，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备601、602、603通过网络604与服务器605交互，以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器605可以是提供各种服务的服务器，例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果反馈给终端设备。

需要说明的是，本发明实施例所提供的评测文本可靠性的方法一般由服务器605执行，相应地，评测文本可靠性的装置一般设置于服务器605中。

应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图7，其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括特征标识获取模块、评测数据获取模块和可靠性确定模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，特征标识获取模块还可以被描述为“获取待评测文本的评测特征标识的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取待评测文本的评测特征标识；根据评测特征标识获取待评测文本的评测数据；基于待评测文本以及评测数据，确定出待评测文本的可靠性。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种评测文本可靠性的方法，其特征在于，包括：

获取待评测文本的评测特征标识；

根据所述评测特征标识获取所述待评测文本的评测数据；

基于所述待评测文本以及所述评测数据，确定出所述待评测文本的可靠性。

2.根据权利要求1所述的方法，其特征在于，所述评测特征标识包括发布者标识和产品标识；

根据所述评测特征标识获取所述待评测文本的评测数据的步骤包括：根据发布者标识从定时更新的用户历史行为数据集中，获取发布者画像数据；根据产品标识从产品数据集中获取产品数据。

3.根据权利要求2所述的方法，其特征在于，所述发布者画像数据至少包括以下一种：发布者性别、发布者年龄、发布者购买力、发布者所属地域、发布者是否有小孩、历史发布文本数量、发布违规文本的数量、发布文本偏差度、平台活跃度、产品偏好度以及对产品复购的次数；

4.根据权利要求1所述的方法，其特征在于，基于所述待评测文本以及所述评测数据，确定出所述待评测文本的可靠性之前，还包括：获取训练集，并根据所述训练集以及梯度提升决策树算法、Logisticregression回归得到评测模型；则

5.一种评测文本可靠性的装置，其特征在于，包括：

特征标识获取模块，用于获取待评测文本的评测特征标识；

6.根据权利要求5所述的装置，其特征在于，所述评测数据获取模块还用于，根据发布者标识从定时更新的用户历史行为数据集中，获取发布者画像数据；以及，根据产品标识从产品数据集中获取产品数据；其中，所述评测特征标识包括发布者标识和产品标识。

7.根据权利要求6所述的装置，其特征在于，所述发布者画像数据至少包括以下一种：发布者性别、发布者年龄、发布者购买力、发布者所属地域、发布者是否有小孩、历史发布文本数量、发布违规文本的数量、发布文本偏差度、平台活跃度、产品偏好度以及对产品复购的次数；所述产品数据至少包括以下一种：产品所属类目、产品复购周期、产品热门程度、产品所属品牌质量、产品所述店铺质量、产品客单价以及产品所属价格段。

8.根据权利要求5所述的装置，其特征在于，还包括模型训练模块，用于获取训练集，并根据所述训练集以及梯度提升决策树算法、Logistic regression回归得到评测模型；

9.一种评测文本可靠性的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。