CN108269125B

CN108269125B - 评论信息质量评估方法及系统、评论信息处理方法及系统

Info

Publication number: CN108269125B
Application number: CN201810033607.8A
Authority: CN
Inventors: 邓哲宇
Original assignee: Koubei Shanghai Information Technology Co Ltd
Current assignee: Koubei Shanghai Information Technology Co Ltd
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2020-08-21
Anticipated expiration: 2038-01-15
Also published as: CN108269125A

Abstract

本发明公开了一种评论信息质量评估方法及系统，该方法包括：获取整段评论文本；对所述整段评论文本进行等信息量短句切分，得到各短句单元；确定各短句单元基于信息熵的信息值；基于行业信息对各短句单元的信息值进行权重调整；根据各短句单元的信息值，确定所述整段评论文本的质量。本发明还公开一种评论信息处理方法及系统。利用本发明，可以实现对评论信息客观、准确的质量评估，进而可以为用户交易提供更加有效的参考信息。

Description

评论信息质量评估方法及系统、评论信息处理方法及系统

技术领域

本发明涉及信息处理技术领域，具体涉及一种评论信息质量评估方法及系统，还涉及一种评论信息处理方法及系统。

背景技术

O2O(Online To Offline，在线离线/线上到线下)，是指将线下的商务机会与互联网结合，让互联网成为线下交易的平台。与传统的消费者在商家直接消费的模式不同，在O2O平台商业模式中，整个消费过程由线上和线下两部分构成。线上平台为消费者提供消费指南、优惠信息、便利服务(预订、在线支付、地图等)和分享平台，而线下商户则专注于提供服务。

在O2O模式中，消费者会将自己的消费体验反馈到线上平台，即用户会对店铺发表评论内容，平台通常会将这些评论展示在相应的界面或显示区，以助于其他消费者根据这些反馈信息做出消费决策。比如，评论内容本身包含了对用户对本次交易、店铺、菜品和服务的描述，这些评论对后面潜在交易的用户有很好的引导和参考价值，其中具有丰富参考信息的评论还会引导用户立即点击或下单，提升平台的订单量和转化率。线上平台也可以通过梳理和分析消费者的反馈，形成更加完整的本地商铺信息库，可以吸引更多的消费者使用在线平台。

但在实际中，一方面，由于用户的评论所涵盖的信息量及内容不同，因此，评论信息的质量也会参差不齐，甚至有些评论不仅没有参考价值，还会影响后续消费者的体验；另一方面，由于评论信息数量大，而评论展示界面的局限性，使用户在海量评论中找到有用信息愈加困难。尽管许多平台会以最近评论或有用投票展示评论信息，但这两种方式都无法保证展示给用户的新评论信息质量的稳定性。因此，对在线商品评论信息进行有效的质量评估，将有助于解决评论的分类、排序、显示等问题，而如何对这些质量参差不齐的评论信息进行客观、准确的质量评估，成为了业界探讨的一个重要课题。

发明内容

本发明一方面提供一种评论信息质量评估方法及系统，以实现对评论信息客观、准确的质量评估。

本发明另一方面还提供一种评论信息处理方法及系统，可以为用户更多展示信息量丰富、更具参考价值的评论，进而为用户交易提供更加有效的参考信息。

为此，本发明实施例提供如下技术方案：

一种评论信息质量评估方法，包括：

获取整段评论文本；

对所述整段评论文本进行等信息量短句切分，得到各短句单元；

确定各短句单元基于信息熵的信息值；

基于行业信息对各短句单元的信息值进行权重调整；

根据各短句单元的信息值，确定所述整段评论文本的质量。

可选地，所述对所述整段评论文本进行等信息量短句切分，得到各短句单元包括：

根据标点符号对所述整段评论文本进行切分，得到切分子句；

对所述切分子句进行语义去重；

根据语义去重后的各切分子句的主题及长度进行短句融合，得到各短句单元。

可选地，所述对所述切分子句进行语义去重包括：

根据历史评论数据训练得到所有词的词向量；

基于所述词向量计算不同切分子句之间的相似度；

对相似度大于设定阈值的切分子句进行语义去重。

可选地，所述根据语义去重后的各切分子句的主题及长度进行短句融合，得到各短句单元包括：

依次检测各切分子句，如果当前切分子句的长度小于所述长度阈值、并且后一切分子句与当前切分子句主题相同，则将后一切分子句与当前切分子句合并。

可选地，所述根据语义去重后的各切分子句的主题及长度进行短句融合，得到各短句单元还包括：

预先构建主题关键词表，所述主题关键词表中包括主题及与所述主题对应的关键词，每个主题对应一个或多个关键词；

如果后一切分子句未含有与当前切分子句不同主题的关键词，则确定所述后一切分子句与当前切分子句主题相同；否则确定所述后一切分子句与当前切分子句主题不同。

可选地，所述确定各短句单元基于信息熵的信息值包括：

设置各短句单元具有相同的初始信息值；

根据各短句单元的实际信息熵和理想信息熵对其初始信息值进行调整，得到所述短句单元基于信息熵的信息值。

可选地，所述基于行业信息对各短句单元的信息值进行权重调整包括：

根据历史评论数据抽取所述行业下每个类目中的关键词；

根据所述整段评论文本所属类目中的关键词对各短句单元的信息值进行加权和/或降权。

可选地，所述根据所述整段评论文本所属类目中的关键词对各短句单元的信息值进行加权包括：

计算所述短句单元中包含所述整段评论文本所属类目中的关键词的数量，并根据所述数量设定加权权值；

利用所述加权权值对所述短句单元的信息值进行加权；

所述根据所述整段评论文本所属类目中的关键词对各短句单元的信息值进行降权包括：

根据所述整段评论文本所属类目中的关键词计算所述短句单元与所述类目的距离，并根据所述距离设定降权权值；

利用所述降权权值对所述短句单元的信息值进行降权。

可选地，所述根据所述整段评论文本所属类目中的关键词计算所述短句单元与所述类目的距离包括：

根据所述整段评论文本所属类目中的关键词计算所述类目的平均词向量；

对所述短句单元去停留词后计算所述短句单元的平均词向量；

根据所述短句单元的平均词向量及所述类目的平均词向量，计算所述短句单元与所述类目的距离。

可选地，所述方法还包括：

确定所述整段评论文本包含的主题数，并根据所述主题数对所述整段评论文本的质量进行主题归一化处理。

可选地，所述确定所述整段评论文本包含的主题数包括：

对各短句单元进行主题预测，得到各短句单元对应的主题；

根据各短句单元对应的主题得到所述整段评论文本包含的主题数。

可选地，所述方法还包括：

基于信息熵对归一化处理后的整段评论文本的质量进行修正。

一种评论信息处理方法，包括：

获取当前待处理的各段评论文本；

采用如前面所述的评论信息质量评估方法对各段评论文本进行质量评估，得到评估得分；

根据所述评估得分、或者根据所述评估得分及各段评论文本的生成时间对所述评论文本进行排序；

按照排序结果展现所述评论文本。

可选地，所述获取当前待处理的各段评论文本包括：

按照设定时间间隔获取当前待处理的各段评论文本；或者

在当前待处理的评论文本达到设定数量后，获取当前待处理的各段评论文本。

可选地，所述方法还包括：

记录历史评论文本的评估得分及生成时间；

所述对所述评论文本进行排序包括：

将历史记录文本及当前各段评论文本一起进行排序。

一种评论信息质量评估系统，包括：

文本获取模块，用于获取整段评论文本；

短句切分模块，用于对所述整段评论文本进行等信息量短句切分，得到各短句单元；

信息值计算模块，用于确定各短句单元基于信息熵的信息值；

权重调整模块，用于基于行业信息对各短句单元的信息值进行权重调整；

评估模块，用于根据各短句单元的信息值，确定所述整段评论文本的质量。

可选地，所述短句切分模块包括：

切分单元，用于根据标点符号对所述整段评论文本进行切分，得到切分子句；

语义去重单元，用于对所述切分子句进行语义去重；

融合单元，用于根据语义去重后的各切分子句的主题及长度进行短句融合，得到各短句单元。

可选地，所述语义去重单元包括：

词向量训练子单元，用于根据历史评论数据训练得到所有词的词向量；

相似度计算子单元，用于基于所述词向量计算不同切分子句之间的相似度；

去重子单元，用于对相似度大于设定阈值的切分子句进行语义去重。

可选地，所述融合单元，具体用于依次检测各切分子句，如果当前切分子句的长度小于所述长度阈值、并且后一切分子句与当前切分子句主题相同，则将后一切分子句与当前切分子句合并。

可选地，所述系统还包括：

主题关键词表构建模块，用于预先构建主题关键词表，所述主题关键词表中包括主题及与所述主题对应的关键词，每个主题对应一个或多个关键词；

所述融合单元，还用于在后一切分子句未含有与当前切分子句不同主题的关键词时，确定所述后一切分子句与当前切分子句主题相同；否则确定所述后一切分子句与当前切分子句主题不同。

可选地，所述信息值计算模块，具体用于设置各短句单元具有相同的初始信息值，并根据各短句单元的实际信息熵和理想信息熵对其初始信息值进行调整，得到所述短句单元基于信息熵的信息值。

可选地，所述系统还包括：

关键词抽取模块，用于根据历史评论数据抽取所述行业下每个类目中的关键词；

所述权重调整模块，具体用于根据所述整段评论文本所属类目中的关键词对各短句单元的信息值进行加权和/或降权。

可选地，所述权重调整模块包括：加权模块和/或降权模块；

所述加权模块包括：

第一计算单元，用于计算所述短句单元中包含所述整段评论文本所属类目中的关键词的数量；

第一权值设定单元，用于根据所述数量设定加权权值；

加权处理单元，用于利用所述加权权值对所述短句单元的信息值进行加权；

所述降权模块包括：

第二计算单元，用于根据所述整段评论文本所属类目中的关键词计算所述短句单元与所述类目的距离；

第二权值设定单元，用于根据所述距离设定降权权值；

降权处理单元，用于利用所述降权权值对所述短句单元的信息值进行降权。

可选地，所述第二计算单元包括：

词向量计算子单元，用于根据所述整段评论文本所属类目中的关键词计算所述类目的平均词向量；并对所述短句单元去停留词后计算所述短句单元的平均词向量；

距离计算子单元，用于根据所述短句单元的平均词向量及所述类目的平均词向量，计算所述短句单元与所述类目的距离。

可选地，所述系统还包括：

归一化处理模块，用于确定所述整段评论文本包含的主题数，并根据所述主题数对所述整段评论文本的质量进行主题归一化处理。

可选地，所述归一化处理模块对各短句单元进行主题预测，得到各短句单元对应的主题；根据各短句单元对应的主题得到所述整段评论文本包含的主题数。

可选地，所述系统还包括：

修正模块，用于基于信息熵对归一化处理后的整段评论文本的质量进行修正。

一种评论信息处理系统，包括：

评论信息提取模块，用于获取当前待处理的各段评论文本；

质量评估模块，用于调用前面所述的评论信息质量评估系统对各段评论文本进行质量评估，得到评估得分；

排序模块，用于根据所述评估得分、或者根据所述评估得分及各段评论文本的生成时间对所述评论文本进行排序；

展现模块，用于按照排序结果展现所述评论文本。

可选地，所述评论信息提取模块，具体用于按照设定时间间隔获取当前待处理的各段评论文本；或者在当前待处理的评论文本达到设定数量后，获取当前待处理的各段评论文本。

可选地，所述系统还包括：

存储模块，用于记录历史评论文本的评估得分及生成时间；

所述排序模块将历史记录文本及当前各段评论文本一起进行排序。

一种可读存储介质，其上存储有指令，所述指令被执行以用于：

获取整段评论文本；

确定各短句单元基于信息熵的信息值；

基于行业信息对各短句单元的信息值进行权重调整；

根据各短句单元的信息值，确定所述整段评论文本的质量。

与现有技术相比，本发明具有以下优点：

本发明提供的评论信息质量评估方法及系统，通过对整段评论文本进行短句切分，基于切分后得到的各短句单元对其进行信息分析，并基于行业信息对各短句单元的信息值进行权重调整，从而使各短句单元的信息值更符合所属行业的实际情况，最后根据各短句单元的信息值，确定整段评论文本的质量，保证了质量评估结果的客观性及准确性。

进一步地，对各短句单元进行主题预测，并对整段评论文本进行主题归一化处理，体现了包含不同主题数量的评论文本信息的差异性，进一步提高了评估结果的准确性。

进一步地，通过基于信息熵对整段评论信息进行校准，从整体信息的角度提高了评估结果的准确性。

本发明提供的评论信息处理方法及系统，基于评论信息质量评估结果，对不同评论进行排序，从而可以将质量高的评论更多、更好地展现给用户，为用户更多展示信息量丰富、更具参考价值的评论，进而为用户交易提供有效的参考信息。

附图说明

图1是本发明评论信息质量评估方法的一种流程图；

图2是本发明评论信息质量评估方法中对整段评论文本进行等信息量短句切分的流程图；

图3是本发明评论信息质量评估方法的另一种流程图；

图4是基于评论文本包含的主题对其质量进行主题归一化处理的效果图；

图5是本发明评论信息处理方法的一种流程图；

图6是本发明评论信息质量评估系统的一种结构示意图；

图7是本发明评论信息质量评估系统短句切分模块的一种结构示意图；

图8是本发明评论信息质量评估系统的另一种结构示意图；

图9是本发明评论信息质量评估系统的另一种结构示意图；

图10是本发明评论信息处理系统的一种结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施的限制。

本发明实施例提供一种评论信息质量评估方法，从字符和短句上对评论文本包含的信息量进行挖掘，并结合相应行业的一些重点信息：比如类目关键词、评论主题，对评论信息进行增益，上浮在相应行业更有价值的评论。

如图1所示，是本发明评论信息质量评估方法的一种流程图，包括以下步骤：

步骤101，获取整段评论文本。

步骤102，对所述整段评论文本进行等信息量短句切分，得到各短句单元。

通常，一段信息量丰富的O2O店铺评论包含若干句描述店铺口味、服务、环境等主题的短句，整体上难以对长篇语句进行信息度量，因此，在本发明实施例中，首先对文本进行近似等信息量的短句切分。考虑字符是最基本的信息载体，因此，在进行短句切分时，主要考虑标点符号、主题、评论长度等因素将整段评论文本切分为多个近似等信息量的短句单元。具体的切分过程将在后面结合附图2详细说明。

步骤103，确定各短句单元基于信息熵的信息值。

对于各短句单元，长度限定在一定范围内并具有相同的主题，认为具有相同的信息量，这里初始赋值信息量1。字符是语言信息承载的最小单元，往往不同字符越多，所包含的信息量越丰富，相反，重复的字符就没有提供更多的信息，而在O2O店铺评论中会频繁出现一些叠字凑字数的情况，于是在此引入信息熵的概念，对各短句单元的初始信息量进行调整。

一般可用概率的倒数的对数函数来表示某一符号出现所带来的信息量，信息熵用来表示信源的平均信息量，信息熵的计算公式为：

对于一个短句单元，当短句单元中所有字符均不一样时，信息含量最大，定义为短句单元的理想信息熵H_ideal，此时对于每个字符，其概率为

其中n为短句单元中不同字符的个数。对于短句单元包含重复字符的情况，此时对于每个字符，其概率为

其中k为第i个字符的重复次数，n'为短句单元中不同字符的个数，定义短句单元的实际信息熵H_real。

在本发明实施例中，根据上述实际信息熵H_real和理想信息熵H_ideal两者的比值，调整短句单元初始赋值的信息值，即：

info＝H_real/H_ideal(2)

例如，有两个短句单元，“菜品非常麻辣，口味不错”和“菜品非常不错。

对于第一个短句单元，其中每个字符都不一样，所以第一个短句单元的信息量为1。

对于第二个短句单元，“不”、“错”两个字都出现了两次，这两个字符的概率为：p_不＝p_错＝2/10＝0.2，则第二个短句单元的理想信息熵H_ideal＝10+0.1*log₂0.1，其实际信息熵H_real＝6*0.1*log₂0.1+2*0.2*log₂0.2，其信息量为：info＝H_real/H_ideal＝0.88。

显然，第二个短句单元的信息量相对第一个短句单元要少些，因此赋值0.88更为准确。通过此方式对初始信息量做了更细的初始化，使其信息值更准确。

需要说明的是，上述信息熵的计算是以单个字符为计算单元进行说明的，在实际应用中，信息熵的计算也可以以词为计算单元，具体计算过程与上述类似，在此不再赘述。

步骤104，基于行业信息对各短句单元的信息值进行权重调整。

由于不同词在不同行业中的信息量和重要程度不同，例如“麻辣”相对“电脑”在美食行业更具信息量。因此，在本发明实施例中，在得到各短句单元的信息值后，基于行业信息对其信息值进行权重调整，比如加权和/或降权，可以使其信息值相对于评论文本所属行业更准确。

具体地，可以利用历史评论数据，对相应行业下的每个类目根据TF-IDF(TermFrequency–Inverse Document Frequency)抽取关键词。TF表示词条在文档d中出现的频率，其主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。IDF表示逆向文件频率，其主要思想是：如果包含词条t的文档越少，也就是文档数n越小，IDF越大，则说明词条t具有很好的类别区分能力。

在本发明实施例中，根据各短句单元中包含所述整段评论文本所属类目中的关键词，对所述短句单元的信息量进行加权。具体地，可以计算所述短句单元中包含所述整段评论文本所属类目中的关键词的数量，并根据所述数量设定加权权值，比如可以设定加权权值＝所述关键词的数量；利用所述加权权值对所述短句单元的信息值进行加权，具体加权公式如下：

info⁺＝W*info

其中，info⁺为加权后的短句单元的信息值，W为加权权值，W≥1，info为加权前的短句单元的信息值。

在本发明实施例中，根据各短句单元与所述整段评论文本所属类目的距离，对所述短句单元的信息量进行降权。具体地，根据所述整段评论文本所属类目中的关键词计算所述短句单元与所述类目的距离，并根据所述距离设定降权权值，比如，设定不同的距离范围对应不同的降权权值，距离越远，降权权值越小；利用所述降权权值对所述短句单元的信息值进行降权。

在计算所述短句单元与所述类目的距离时，首先，根据所述整段评论文本所属类目中的关键词计算所述类目的平均词向量，对所述短句单元去停留词后计算所述短句单元的平均词向量；然后，根据所述短句单元的平均词向量及所述类目的平均词向量，计算所述短句单元与所述类目的距离，具体可以是余弦距离或欧氏距离。

例如“刘德华很帅”这句话虽然有一定的信息量，但在O2O类目中，不包含相关类目中的关键词，通过上述加权、降权处理，最终可以将其过滤掉。

步骤105，根据各短句单元的信息值，确定所述整段评论文本的质量。

在本发明实施例中，可以将所述整段评论文本包含的各短句单元的信息值相加，得到所述整段评论文本的信息值，以该信息值作为所述整段评论文本质量的评价参数，也就是说，将评论文本的信息值作为评论信息质量评估结果。

由于该信息值不仅考虑了相应评论文本包含的信息量，而且结合了所属行业信息，对其

如图2所示，是本发明评论信息质量评估方法中对整段评论文本进行等信息量短句切分的流程图，包括以下步骤：

步骤201，根据标点符号对整段评论文本进行切分，得到切分子句。

具体地，根据句号，感叹号，分号等标点符号对整段评论文本进行切分，为了描述方便，将切分后得到的短句称为切分子句。

步骤202，对所述切分子句进行语义去重。

具体地，首先根据历史评论数据用word2vec模型训练得到所有词语的词向量，然后基于所述词向量可以得到不同切分子句之间的相似度，比如利用WMD算法、余弦距离等，最后对相似度大于设定阈值的切分子句进行语义去重。

word2vec模型通过一种神经网络语言模型对语料中的所有词汇进行训练并生成相应的词向量(Word Embedding)，通过对词向量的距离(如余弦值或者欧氏距离)的计算即可得出两个词的相似度。word2vec使用的Skip-Gram模型是利用词语来预测其上下文。通过将一个个的词语当做特征，将特征映射到K维向量空间中去，来获得文本数据更精确的特征显示。具体词向量的训练过程与现有技术相同，在此不再赘述。WMD模型是基于EMD(EarthMover Distance)模型，EMD和欧式距离一样，它们都是一种距离度量的定义、可以用来测量某两个分布之间的距离。其主要应用在图像处理和语音信号处理领域，WMD的模型正是基于EMD，将该模型的适用范围延伸到了自然语言处理领域。在本发明实施例中，基于训练得到的各词向量，利用WMD模型即可计算不同切分子句之间的相似度，模型的输入是切分子句和切分子句中包含的词向量，输出是两两切分子句的语义距离值。具体计算过程与现有技术相同，在此不再赘述。

例如，对于语义非常相近的切分子句，“非常好吃”和“很好吃”进行语句去重，因为这些语义非常相近的语句并不能给整段评论带来更多的信息量。

步骤203，根据语义去重后的各切分子句的主题及长度进行短句融合，得到各短句单元。

具体地，可以根据预先构建的主题关键词表及预先设定的长度阈值对语义去重后的切分子句进行短句融合，得到各短句单元。

所述主题关键词表可以通过人工来构建，也可以由程序自动构建，比如，对历史评论数据进行关键词抽取，关键词抽取可采用现有TF-IDF技术，然后对抽取得到的关键词进行近义词扩展，然后基于语义信息对这些关键词进行聚类，每个类别的关键词组对应一个主题，从而得到主题关键词表，所述主题关键词表中包括主题及与所述主题对应的关键词，每个主题对应一个或多个关键词，比如：

麻辣，好吃->口味；

热情->服务。

在对切分子句进行短句融合时，依次检测各切分子句，如果当前切分子句的长度小于所述长度阈值、并且后一切分子句未含有与当前切分子句不同主题的关键词，则将后一切分子句与当前切分子句合并。也就是说，将在一定长度内并且主题相同的相邻切分子句进行合并，得到各短句单元。例如，“菜品非常麻辣，服务很热情”将被分为两个短句单元，而“菜品非常麻辣，口味不错”将被融合为一个短句单元。

通过上述语义去重及短句融合处理，使最终得到的各短句单元避免了语义重复，并保证了长度统一，使得各短句单元近似等信息量。

本发明实施例提供的评论信息质量评估方法，通过对整段评论文本进行短句切分，基于切分后得到的各短句单元对其进行信息分析，并基于行业信息对各短句单元的信息值进行权重调整，从而使各短句单元的信息值更符合所属行业的实际情况，最后根据各短句单元的信息值，确定整段评论文本的质量，保证了质量评估结果的客观性及准确性。

如图3所示，是本发明评论信息质量评估方法的另一种流程图，包括以下步骤：

步骤301，获取整段评论文本。

步骤302，对所述整段评论文本进行等信息量短句切分，得到各短句单元。

步骤303，确定各短句单元基于信息熵的信息值。

步骤304，基于行业信息对各短句单元的信息值进行权重调整。

步骤305，根据各短句单元的信息值，确定所述整段评论文本的质量。

步骤306，确定所述整段评论文本包含的主题数，并根据所述主题数对所述整段评论文本的质量进行主题归一化处理。

在上述步骤302对所述整段评论文本进行等信息量短句切分后，每个短句单元只包含一个主题，因此可以首先对各短句单元进行主题预测，比如采用textCNN、FastText分类模型、最大熵Maxent分类，朴素贝叶斯模型等方法，得到各短句单元对应的主题；然后根据各短句单元对应的主题得到所述整段评论文本包含的主题数。

通常，一段评论的主题越多，可以认为其参考信息量更丰富，因此，具体可以采用以下归一化计算公式：

其中，∑info是所述整段评论文本的质量，score是归一化处理后的所述整段评论文本的质量；z是所述整段评论文本包含的主题个数，w1、w2、w3是可调权重值，可根据所有评论的具体信息分布，即∑info的分布进行调节。核心思想是多个主题相对一个主题需要相对更少的信息就可得到一个高的分数，而只包含一个主题的评论同样可以达到一个很高的分数，只不过需要的信息量更多。

基于上述公式(3)对评论文本质量进行主题归一化处理的效果如图4所示。

如图4的虚竖线，同样的∑info值，z＝2比z＝1归一的分数要高，不同主题数的归一曲线越凸，说明主题数带来的分数差别就越大。调整凸度可以调整主题数给归一分数的影响。

由于所述整段评论文本中的多个短句单元中，可能会出现不同短句单元含义类似的情况，这样，在计算整段评论文本的信息量时，会造成重复信息的累加，因此，在本发明评论信息质量评估方法的另一实施例中，还可在上述步骤306之后，基于信息熵对归一化处理后的整段评论文本的质量进行修正，以消除重复信息累加造成的信息量的偏差，使最终得到的整段评论文本的质量的准确性得到了进一步的提升。

具体地，采用前面的公式(1)计算信息熵，修正公式如下：

其中，score'为修正后的所述整段评论文本的质量，S_ideal为整段评论文本中所有短句单元含义均不相同时的理想信息熵，此时，对于每个字符，其概率为

其中n为整段评论文本中不同字符的个数。S_real为整段评论文本的实际信息熵，此时，对于字符，其概率为

其中k为整段评论文本中第i个字符的重复次数，n'为整段评论文本中不同字符的个数。

本发明实施例提供的评论信息质量评估方法，通过对整段评论文本进行短句切分，基于切分后得到的各短句单元对其进行信息分析，实现了从字符、短句和整句评论的多维度信息度量方式，融入了信息熵及行业知识，对评论信息的挖掘更为深入渗透，从而使得到的质量评估结果更能准确反映相应评论文本的参考价值。进一步地，通过基于主题数的归一化处理，在能让具有多主题的评论很好地浮现出来的情况下，也能让只有一个主题却描述详实的评论得到较高的得分。

本发明还提供一种可读存储介质，其上存储有指令，所述指令被执行以用于执行上述评论信息质量评估方法各实施例中的步骤。

进一步地，基于上述本发明评论信息质量评估方法得到的评估结果，本发明还提供一种评论信息处理方法，依据各段评论文本的评估得分、或者根据所述评估得分及各段评论文本的生成时间对所述评论文本进行排序，按照排序结果展现所述评论文本，从而为用户更多展示信息量丰富的评论，引导用户点击和交易。

如图5所示，是本发明评论信息处理方法的一种流程图，包括以下步骤：

步骤501，获取当前待处理的各段评论文本。

具体地，可以按照设定时间间隔获取当前待处理的各段评论文本，或者在当前待处理的评论文本达到设定数量后，获取当前待处理的各段评论文本。当然，也可以在有新的评论文本生成后，即对其进行处理，对此本发明不做限定。

步骤502，对各段评论文本进行质量评估，得到评估得分。

各段评论文本的评估得分为所述评论文本的最终质量得分，具体评估方法在前面已有详细说明，在此不再赘述。

步骤503，根据所述评估得分、或者根据所述评估得分及各段评论文本的生成时间对所述评论文本进行排序。

由于每段评论文本生成的时间可能不同，因此，在保存每段评文体内容时，可以同时记录其生成时间。另外，由于评论文本是随着时间逐渐增加的，在每次对当前评论文本进行质量评估时，已经有一些历史评论文本经过了质量评估及排序，因此，在实际应用中，还可以记录历史评论文本的评估得分，这样，在排序时，可以同时考虑记录的历史评论文本，即将历史记录文本及当前各段评论文本一起进行排序，在排序时，可以仅考虑各段评论文本的评估得分，将得分较高的评论文本排在前面，或者综合考虑各段评论文本的评估得分及生成时间，将得分较高且生成时间靠后的评论文本排在前面。当然，在排序时，也可以不考虑历史评论文本，将当前评论文本排序在历史评论文本之前，对此本发明实施例不做限定。

步骤504，按照排序结果展现所述评论文本。

在展现所述评论文本时，可以将所有评论文本全部展现，也可以过滤掉一部分信息量低，不具有参考价值的评论文本，比如设定得分阈值，将评估得分小于该阈值的评论文本隐藏或删除。

另外，也可以设置不同的排序规则，并在显示界面提供相应的选项，比如时间、信息量等选项，由用户来选择，根据用户选择的排序规则对相应评论文本排序并展现。

本发明提供的评论信息处理方法，基于评论信息质量评估结果，对不同评论进行排序，从而可以将质量高的评论更多、更好地展现给用户，为用户更多展示信息量丰富、更具参考价值的评论，进而为用户交易提供有效的参考信息。

本发明还提供一种可读存储介质，其上存储有指令，所述指令被执行以用于执行上述评论信息处理方法实施例中的步骤。

相应地，本发明还提供一种评论信息质量评估系统，如图6所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

文本获取模块601，用于获取整段评论文本；

短句切分模块602，用于对所述整段评论文本进行等信息量短句切分，得到各短句单元；

信息值计算模块603，用于确定各短句单元基于信息熵的信息值，比如，设置各短句单元具有相同的初始信息值，并根据各短句单元的实际信息熵和理想信息熵对其初始信息值进行调整，得到所述短句单元基于信息熵的信息值，具体计算过程在前面本发明方法实施例中已做详细说明，在此不再赘述；

权重调整模块604，用于基于行业信息对各短句单元的信息值进行权重调整；

评估模块605，用于根据各短句单元的信息值，确定所述整段评论文本的质量。

上述短句切分模块602在进行短句切分时，主要考虑标点符号、主题、评论长度等因素将整段评论文本切分为多个近似等信息量的短句单元。该短句切分模块602的一种具体结构如图7所示，包括以下各单元：

切分单元71，用于根据标点符号对所述整段评论文本进行切分，得到切分子句；

语义去重单元72，用于对所述切分子句进行语义去重；

融合单元73，用于根据语义去重后的各切分子句的主题及长度进行短句融合，得到各短句单元。

所述语义去重单元72具体可以包括以下各子单元：

词向量训练子单元，用于根据历史评论数据训练得到所有词的词向量，比如，可以采用word2vec模型训练得到所有词语的词向量；

相似度计算子单元，用于基于所述词向量计算不同切分子句之间的相似度，具体地，可以通过计算不同切分子句之间的距离来确定其相似度，距离值越小，说明两个切分子句越相似；

上述融合单元73可以根据预先构建的主题关键词表及预先设定的长度阈值对语义去重后的切分子句进行短句融合，得到各短句单元。具体地，依次检测各切分子句，如果当前切分子句的长度小于所述长度阈值、并且后一切分子句与当前切分子句主题相同，则将后一切分子句与当前切分子句合并。

所述主题关键词表可以通过人工来构建，也可以由相应的主题关键词表构建模块(未图示)自动构建，比如，对历史评论数据进行关键词抽取，关键词抽取可采用现有TF-IDF技术，然后对抽取得到的关键词进行近义词扩展，然后基于语义信息对这些关键词进行聚类，每个类别的关键词组对应一个主题，从而得到主题关键词表，所述主题关键词表中包括主题及与所述主题对应的关键词，每个主题对应一个或多个关键词。所述主题关键词表构建模块可以作为本发明系统的一部分，也可以独立于本发明系统，对此不做限定。

相应地，图7中的融合单元73在后一切分子句未含有与当前切分子句不同主题的关键词时，确定所述后一切分子句与当前切分子句主题相同；否则确定所述后一切分子句与当前切分子句主题不同。

继续参见图6，其中权重调整模块604具体用于根据所述整段评论文本所属类目中的关键词对各短句单元的信息值进行加权和/或降权，所述关键词可以由相应的关键词抽取模块(未图示)根据历史评论数据抽取所述行业下每个类目中的关键词而得到，所述关键词抽取模块可以作为本发明系统的一部分，也可以独立于本发明系统，对此本发明实施例不做限定。

所述权重调整模块604的一种具体结构可以包括：加权模块和/或降权模块，其中：

所述加权模块包括以下各单元：

第一权值设定单元，用于根据所述数量设定加权权值；

所述降权模块包括以下各单元：

第二权值设定单元，用于根据所述距离设定降权权值；

所述第二计算单元可以包括以下各子单元：

本发明实施例提供的评论信息质量评估系统，通过对整段评论文本进行短句切分，基于切分后得到的各短句单元对其进行信息分析，并基于行业信息对各短句单元的信息值进行权重调整，从而使各短句单元的信息值更符合所属行业的实际情况，最后根据各短句单元的信息值，确定整段评论文本的质量，保证了质量评估结果的客观性及准确性。

如图8所示，是本发明评论信息质量评估系统的另一种结构示意图。

通常，一段评论的主题越多，可以认为其参考信息量更丰富，因此，与图6所示的实施例区别在于，在该实施例中，所述系统还包括：

归一化处理模块606，用于确定所述整段评论文本包含的主题数，并根据所述主题数对所述整段评论文本的质量进行主题归一化处理。在确定所述整段评论文本包含的主题数时，可以对各短句单元进行主题预测，比如采用textCNN、FastText分类模型、最大熵Maxent分类，朴素贝叶斯模型等方法，得到各短句单元对应的主题；然后根据各短句单元对应的主题得到所述整段评论文本包含的主题数。

如图9所示，是本发明评论信息质量评估系统的另一种结构示意图。

与图8所示的实施例区别在于，在该实施例中，所述系统还包括：

修正模块607，用于基于信息熵对归一化处理后的整段评论文本的质量进行修正。

本发明实施例提供的评论信息质量评估系统，通过对整段评论文本进行短句切分，基于切分后得到的各短句单元对其进行信息分析，实现了从字符、短句和整句评论的多维度信息度量方式，融入了信息熵及行业知识，对评论信息的挖掘更为深入渗透，从而使得到的质量评估结果更能准确反映相应评论文本的参考价值。进一步地，通过基于主题数的归一化处理，在能让具有多主题的评论很好地浮现出来的情况下，也能让只有一个主题却描述详实的评论得到较高的得分。

进一步地，基于上述本发明评论信息质量评估系统得到的评估结果，本发明还提供一种评论信息处理系统，如图10所示，是该系统的结构示意图。

在该实施例中，所述系统包括：

评论信息提取模块801，用于获取当前待处理的各段评论文本，比如，可以按照设定时间间隔获取当前待处理的各段评论文本，或者在当前待处理的评论文本达到设定数量后，获取当前待处理的各段评论文本；

质量评估模块802，用于调用如权利要求16至27任一项所述的系统对各段评论文本进行质量评估，得到评估得分；

排序模块803，用于根据所述评估得分、或者根据所述评估得分及各段评论文本的生成时间对所述评论文本进行排序；

展现模块804，用于按照排序结果展现所述评论文本。

进一步地，在本发明评论信息处理系统，还可包括：存储模块(未图示)，用于记录历史评论文本的评估得分及生成时间。相应地，所述排序模块803可以将历史记录文本及当前各段评论文本一起进行排序，也可以不考虑历史评论文本，将当前评论文本排序在历史评论文本之前，对此本发明实施例不做限定。。

本发明提供的评论信息处理系统，基于评论信息质量评估结果，对不同评论进行排序，从而可以将质量高的评论更多、更好地展现给用户，为用户更多展示信息量丰富、更具参考价值的评论，进而为用户交易提供有效的参考信息。

本发明虽然以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以做出可能的变动和修改，因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可利用存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种评论信息质量评估方法，其特征在于，包括：

获取整段评论文本；

确定各短句单元基于信息熵的信息值；

基于行业信息对各短句单元的信息值进行权重调整；

根据各短句单元的信息值，确定所述整段评论文本的质量。

2.根据权利要求1所述的方法，其特征在于，所述对所述整段评论文本进行等信息量短句切分，得到各短句单元包括：

对所述切分子句进行语义去重；

3.根据权利要求2所述的方法，其特征在于，所述对所述切分子句进行语义去重包括：

根据历史评论数据训练得到所有词的词向量；

基于所述词向量计算不同切分子句之间的相似度；

对相似度大于设定阈值的切分子句进行语义去重。

4.根据权利要求2所述的方法，其特征在于，所述根据语义去重后的各切分子句的主题及长度进行短句融合，得到各短句单元包括：

5.根据权利要求4所述的方法，其特征在于，所述根据语义去重后的各切分子句的主题及长度进行短句融合，得到各短句单元还包括：

6.根据权利要求1所述的方法，其特征在于，所述确定各短句单元基于信息熵的信息值包括：

设置各短句单元具有相同的初始信息值；

7.根据权利要求1所述的方法，其特征在于，所述基于行业信息对各短句单元的信息值进行权重调整包括：

根据历史评论数据抽取所述行业下每个类目中的关键词；

8.根据权利要求7所述的方法，其特征在于，

所述根据所述整段评论文本所属类目中的关键词对各短句单元的信息值进行加权包括：

利用所述加权权值对所述短句单元的信息值进行加权；

利用所述降权权值对所述短句单元的信息值进行降权。

9.根据权利要求8所述的方法，其特征在于，所述根据所述整段评论文本所属类目中的关键词计算所述短句单元与所述类目的距离包括：

10.根据权利要求1至9任一项所述的方法，其特征在于，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，所述确定所述整段评论文本包含的主题数包括：

对各短句单元进行主题预测，得到各短句单元对应的主题；

12.根据权利要求10所述的方法，其特征在于，所述方法还包括：

13.一种评论信息处理方法，其特征在于，包括：

获取当前待处理的各段评论文本；

采用如权利要求1至12任一项所述的方法对各段评论文本进行质量评估，得到评估得分；

按照排序结果展现所述评论文本。

14.根据权利要求13所述的方法，其特征在于，所述获取当前待处理的各段评论文本包括：

按照设定时间间隔获取当前待处理的各段评论文本；或者

15.根据权利要求13或14所述的方法，其特征在于，所述方法还包括：

记录历史评论文本的评估得分及生成时间；

所述对所述评论文本进行排序包括：

将历史记录文本及当前各段评论文本一起进行排序。

16.一种评论信息质量评估系统，其特征在于，包括：

文本获取模块，用于获取整段评论文本；

17.根据权利要求16所述的系统，其特征在于，所述短句切分模块包括：

语义去重单元，用于对所述切分子句进行语义去重；

18.根据权利要求17所述的系统，其特征在于，所述语义去重单元包括：

19.根据权利要求17所述的系统，其特征在于，

所述融合单元，具体用于依次检测各切分子句，如果当前切分子句的长度小于所述长度阈值、并且后一切分子句与当前切分子句主题相同，则将后一切分子句与当前切分子句合并。

20.根据权利要求19所述的系统，其特征在于，所述系统还包括：

21.根据权利要求16所述的系统，其特征在于，

所述信息值计算模块，具体用于设置各短句单元具有相同的初始信息值，并根据各短句单元的实际信息熵和理想信息熵对其初始信息值进行调整，得到所述短句单元基于信息熵的信息值。

22.根据权利要求16所述的系统，其特征在于，所述系统还包括：

23.根据权利要求22所述的系统，其特征在于，所述权重调整模块包括：加权模块和/或降权模块；

所述加权模块包括：

第一权值设定单元，用于根据所述数量设定加权权值；

所述降权模块包括：

第二权值设定单元，用于根据所述距离设定降权权值；

24.根据权利要求23所述的系统，其特征在于，所述第二计算单元包括：

25.根据权利要求16至24任一项所述的系统，其特征在于，所述系统还包括：

26.根据权利要求25所述的系统，其特征在于，

所述归一化处理模块对各短句单元进行主题预测，得到各短句单元对应的主题；根据各短句单元对应的主题得到所述整段评论文本包含的主题数。

27.根据权利要求25所述的系统，其特征在于，所述系统还包括：

28.一种评论信息处理系统，其特征在于，包括：

评论信息提取模块，用于获取当前待处理的各段评论文本；

质量评估模块，用于调用如权利要求16至27任一项所述的系统对各段评论文本进行质量评估，得到评估得分；

展现模块，用于按照排序结果展现所述评论文本。

29.根据权利要求28所述的系统，其特征在于，

所述评论信息提取模块，具体用于按照设定时间间隔获取当前待处理的各段评论文本；或者在当前待处理的评论文本达到设定数量后，获取当前待处理的各段评论文本。

30.根据权利要求28或29所述的系统，其特征在于，所述系统还包括：

存储模块，用于记录历史评论文本的评估得分及生成时间；

31.一种可读存储介质，其特征在于，其上存储有指令，所述指令被执行以用于：

获取整段评论文本；

确定各短句单元基于信息熵的信息值；

基于行业信息对各短句单元的信息值进行权重调整；

根据各短句单元的信息值，确定所述整段评论文本的质量。