CN110502635B

CN110502635B - 信息质量评价方法及装置

Info

Publication number: CN110502635B
Application number: CN201910745873.8A
Authority: CN
Inventors: 贺夏龙
Original assignee: Beijing Chuangxin Journey Network Technology Co ltd
Current assignee: Beijing Chuangxin Journey Network Technology Co ltd
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2022-07-15
Anticipated expiration: 2039-08-13
Also published as: CN110502635A

Abstract

本发明实施例涉及信息质量评价方法及装置，信息质量评价方法包括：获取待进行质量评价的信息，并获取信息的动态反馈指标和累积反馈指标；基于语义对信息的质量进行预测，得到信息的语义质量分布概率，依据语义质量分布概率，确定信息的静态特征权重值；对信息的动态反馈指标和累积反馈指标分别进行数值化处理，得到信息的综合动态反馈权重值和综合累积反馈权重值；根据信息的静态特征权重值、综合动态反馈权重值和综合累积反馈权重值，对信息进行质量预测，得到信息的质量评价。通过本发明实施例，可以对多种形式的信息实现统一、综合地进行质量评价，让真正优质的信息得到更多的曝光，提高优质信息的流动性。

Description

信息质量评价方法及装置

技术领域

本发明实施例一般地涉及互联网技术领域，特别地是涉及一种信息质量评价方法及装置。

背景技术

随着移动互联网的发展，用户可以在网络上发表多种形式的信息，例如文本信息，包括文章、问答、帖子等，或者文本和图片相结合的信息，包括游记、笔记、攻略等等。

由于用户在网络上发表信息的质量参差不齐，网站往往需要对发表的信息进行质量评价，进而让优质的信息流动起来。

目前，对信息的质量评价比较片面，不能全面、综合地衡量多种形式信息的质量，例如：对信息的质量评价主要通过提取信息中的特征，以静态的方式对信息质量进行评价时，不能充分体现短期热点信息或者具有短期引爆点信息的价值。或者单纯的通过用户的反馈，例如点赞量、收藏量、分享量、点击人量、评论量等对信息的质量进行评价时，会出现头部的信息得到大量的曝光，而长尾的信息，仍然存在很多优质价值的信息得不到有效的曝光而被隐没的情况，不利于优质的信息流动起来。

发明内容

为了解决现有技术中存在的上述问题，本发明实施例提供了信息质量评价方法及装置。

第一方面，本发明实施例提供一种信息质量评价方法，其中，所述方法包括：获取待进行质量评价的信息，并获取所述信息的动态反馈指标和累积反馈指标；基于语义对所述信息的质量进行预测，得到所述信息的语义质量分布概率，依据所述语义质量分布概率，确定所述信息的静态特征权重值；对所述信息的动态反馈指标和累积反馈指标分别进行数值化处理，得到所述信息的综合动态反馈权重值和综合累积反馈权重值；根据所述信息的静态特征权重值、综合动态反馈权重值和综合累积反馈权重值，对所述信息进行质量预测，得到所述信息的质量评价。

在一实施例中，所述基于语义对所述信息的质量进行预测，得到所述信息的语义质量分布概率，包括：调用预设的语义判定模型，所述语义判定模型根据输入的分词后的文本，输出所述文本的特征向量；将分词后的信息作为所述语义判定模型的输入参数，依据所述语义判定模型输出所述信息的特征向量；调用预先训练的分类模型，所述分类模型根据输入的特征向量输出所述特征向量对应的语义质量分布概率；将所述特征向量作为输入参数输入所述分类模型中，并依据所述分类模型的输出，确定所述信息的语义质量分布概率。

在一实施例中，所述方法还包括：获取所述信息的内容特征指标和/或获取所述信息的图像属性特征指标；依据所述语义质量分布概率，确定所述信息的静态特征权重值包括：依据所述语义质量分布概率和/或所述内容特征指标和/或所述图像属性特征指标，确定所述信息的静态特征权重值。

在一实施例中，所述内容特征指标包括兴趣点、信息长度、信息关键词和用户填写完整度中的至少一种；所述图像属性特征指标包括图像数量、像素数和图像的质量中的至少一种。

在一实施例中，所述依据所述语义质量分布概率和/或所述内容特征指标和/或所述图像属性特征指标，确定所述信息的静态特征权重值，包括：

调用预先训练的模型，所述模型根据输入的所述语义质量分布概率和/ 或所述内容特征指标和/或所述图像属性特征指标，输出所述信息的质量分布概率；将所述语义质量分布概率和/或所述内容特征指标和/或所述图像属性特征指标作为输入参数，输入所述模型中，并依据所述模型输出所述信息的质量分布概率；对所述质量分布概率进行归一化处理，得到所述信息的静态特征权重值。

在一实施例中，所述信息的动态反馈指标包括曝光量和点击量和/或收藏量和/或评论量和/或转发量和/或点赞量中的至少一种。

在一实施例中，对所述信息的动态反馈指标进行数值化处理，包括：基于预设的第一设定时间，分别获取每一第一设定时间内信息的动态反馈指标，并基于预设的动态反馈指标系数，分别确定各第一设定时间的综合动态反馈指标；基于每两个相邻所述第一设定时间的综合动态反馈指标，确定所述综合动态反馈指标的变化率；对所述综合动态反馈指标变化值的变化率进行归一化处理，得到所述信息的综合动态反馈权重值。

在一实施例中，所述信息的累积反馈指标包括点击量和/或收藏量和/ 或评论量和/或转发量和/或点赞量中的至少一种。

在一实施例中，对所述信息的累积反馈指标进行数值化处理包括：

以第二设定时间为累积时间段，分别获取每个第二设定时间的单位时间内信息的累积反馈指标，并基于预设的累积反馈指标系数，分别确定各第二设定时间的各单位时间的综合累积反馈指标；基于各第二设定时间的各单位时间的所述综合累积反馈指标、第二设定时间的总数量以及衰减系数，确定所述信息的综合累积反馈权重值，所述衰减系数依据经验系数与当前第二设定时间的数量和第二设定时间总数量确定。

在一实施例中，所述基于各第二设定时间的各单位时间的所述综合累积反馈指标、第二设定时间的总数量以及衰减系数，确定所述信息的综合累积反馈权重值，包括：利用公式

确定所述信息的综合累积反馈权重值；其中，n表示第二设定时间的总数量，i表示当前第二设定时间之前的第i个第二设定时间，D_i表示当前第二设定时间之前的第i个第二设定时间的综合累积反馈指标，i＜n，

为衰减系数，θ和η为大于0的预设系数。

在一实施例中，基于所述信息的静态特征权重值、综合动态反馈权重值和综合累积反馈权重值，对所述信息进行质量预测，包括：根据获取的所述静态特征权重值、所述综合动态反馈权重值和所述综合累积反馈权重值，与预设的静态特征权重系数、综合动态反馈权重系数和综合累积反馈权重系数，确定所述信息质量评价的总权重。

第二方面，本发明实施例提供一种信息质量评价装置，其中，所述装置包括：获取单元，用于获取待进行质量评价的信息，并获取所述信息的动态反馈指标和累积反馈指标；确定单元，用于基于语义对所述信息的质量进行预测，得到所述信息的语义质量分布概率，依据所述语义质量分布概率，确定所述信息的静态特征权重值；处理单元，用于对所述信息的动态反馈指标和累积反馈指标分别进行数值化处理，得到所述信息的综合动态反馈权重值和综合累积反馈权重值；评价单元，用于根据所述信息的静态特征权重值、综合动态反馈权重值和综合累积反馈权重值，对所述信息进行质量预测，得到所述信息的质量评价。

在一实施例中，所述确定单元采用如下方式得到所述信息的语义质量分布概率：

基于语义对所述信息的质量进行预测，调用预设的语义判定模型，所述语义判定模型根据输入的分词后的文本，输出所述文本的特征向量；将分词后的信息作为所述语义判定模型的输入参数，依据所述语义判定模型输出所述信息的特征向量；调用预先训练的分类模型，所述分类模型根据输入的特征向量输出所述特征向量对应的语义质量分布概率；将所述特征向量作为输入参数输入所述分类模型中，并依据所述分类模型的输出，确定所述信息的语义质量分布概率。

在一实施例中，所述获取单元还用于：获取所述信息的内容特征指标和/或获取所述信息的图像属性特征指标；所述确定单元采用如下方式确定所述信息的静态特征权重值：依据所述语义质量分布概率和/或所述内容特征指标和/或所述图像属性特征指标，确定所述信息的静态特征权重值。

在一实施例中，所述内容特征指标包括兴趣点、信息长度、信息关键词和用户填写完整度中的至少一种，所述图像属性特征指标包括图像数量、像素数和图像的质量中的至少一种。

在一实施例中，所述确定单元采用如下方式确定所述信息的静态特征权重值：

依据所述语义质量分布概率和/或所述内容特征指标和/或所述图像属性特征指标，调用预先训练的模型，所述模型根据输入的所述语义质量分布概率和/或所述内容特征指标和/或所述图像属性特征指标，输出所述信息的质量分布概率；将所述语义质量分布概率和/或所述内容特征指标和/ 或所述图像属性特征指标作为输入参数，输入所述模型中，并依据所述模型输出所述信息的质量分布概率；对所述质量分布概率进行归一化处理，得到所述信息的静态特征权重值。

在一实施例中，所述处理单元采用如下方式对所述信息的动态反馈指标进行数值化处理：基于预设的第一设定时间，分别获取每一第一设定时间内信息的动态反馈指标，并基于预设的动态反馈指标系数，分别确定各第一设定时间的综合动态反馈指标；基于每两个相邻所述第一设定时间的综合动态反馈指标，确定所述综合动态反馈指标的变化率；对所述综合动态反馈指标变化值的变化率进行归一化处理，得到所述信息的综合动态反馈权重值。

在一实施例中，所述处理单元采用如下方式对所述信息的累积反馈指标进行数值化处理：以第二设定时间为累积时间段，分别获取每个第二设定时间的单位时间内信息的累积反馈指标，并基于预设的累积反馈指标系数，分别确定各第二设定时间的各单位时间的综合累积反馈指标；基于各第二设定时间的各单位时间的所述综合累积反馈指标、第二设定时间的总数量以及衰减系数，确定所述信息的综合累积反馈权重值，所述衰减系数依据经验系数与当前第二设定时间的数量和第二设定时间总数量确定。

在一实施例中，所述处理单元采用如下方式确定所述信息的综合累积反馈权重值：

基于各第二设定时间的各单位时间的所述综合累积反馈指标、第二设定时间的总数量以及衰减系数，利用公式

为衰减系数，θ和η为大于0 的预设系数。

在一实施例中，所述评价单元采用如下方式对所述信息进行质量预测：

基于所述信息的静态特征权重值、综合动态反馈权重值和综合累积反馈权重值，根据获取的所述静态特征权重值、所述综合动态反馈权重值和所述综合累积反馈权重值，与预设的静态特征权重系数、综合动态反馈权重系数和综合累积反馈权重系数，确定所述信息质量评价的总权重。

第三方面，本发明实施例提供一种电子设备，电子设备包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行上述任何方法。

第四方面，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在计算机上运行时，执行上述任何方法。

本发明实施例提供的信息质量评价方法及装置，通过获取待进行质量评价的信息，基于信息的静态特征权重值、综合动态反馈权重值和综合累积反馈权重值，对该信息进行质量评价，可以对多种形式的信息实现统一、综合地进行质量评价，让真正优质的信息得到更多的曝光，提高优质信息的流动性。

附图说明

通过参考附图阅读下文的详细描述，本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1是本发明实施例提供的信息质量评价方法实施流程图；

图2是本发明实施例提供的信息质量评价方法另一实施流程图；

图3是本发明实施例提供的信息质量评价方法另一实施流程图；

图4是本发明实施例提供的信息质量评价方法另一实施流程图；

图5是本发明实施例提供的信息质量评价装置示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

需要注意，虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等，但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分，而并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。

本发明实施例提供的信息质量评价方法及装置，可以应用于对网络上用户发表的信息进行质量评价的应用场景。在该场景下，信息质量评价方法的执行主体可以是信息质量评价装置，该信息质量评价装置可以是计算机，移动终端等终端，本发明实施例不做限定。

图1为本发明实施例提供的缓存的测试方法实施流程图。如图1所示，该方法包括：

S101：获取待进行质量评价的信息，并获取信息的动态反馈指标和累积反馈指标。

本发明实施例中的信息可以是文本的信息，也可以是文本和图像相结合的信息。例如用户在网络上发表的文章、问答、帖子、游记、攻略、或者通过用户生成内容(UserGenerated Content，UGC)的内容社区创作的笔记。

本发明实施例中涉及的动态反馈指标可以包括曝光量(EV)和点击量 (UV)、收藏量(collect)、评论量(reply)、转发量(share)、点赞量(favorite) 中的至少一种。

本发明实施例中涉及的累积反馈指标可以包括点击量(UV)、收藏量 (collect)、评论量(reply)、转发量(share)、点赞量(favorite)中的至少一种。

S102：基于语义对信息的质量进行预测，得到信息的语义质量分布概率，依据语义质量分布概率，确定信息的静态特征权重值。

本发明实施例中，基于语义对信息的质量进行预测，例如可采用如下方式进行：

调用预设的语义判定模型，该语义判定模型例如可以是文本分类模型 fasttext模型，该fasttext模型可根据输入分词后的文本，对文本中语义相关联的分词片段的向量相叠加并平均后，输出该文本的特征向量。

调用预先训练的分类模型，该分类模型例如可以是基于概率的分类模型。

经过预先训练的语义判定模型可以利用预先准备的多个训练文本，根据人工印象对预先准备的训练文本分为好或者不好两种，并标记，将标记后的训练文本进行分词，并将分词后的训练文本输入到语义判定模型中，通过该语义判定模型输出该训练文本的特征向量，并将输出的特征向量作为分类模型的输入参数输入到分类模型中，使得分类模型根据输入的特征向量输出的该文本质量好和/或不好的概率与预先分类的好的或者不好的文本一致，则该语义判定模型为训练好的模型。

本发明实施例中，利用预先训练的语义判定模型和分类模型对文本信息进行语义判定，得到文本信息的静态特征权重值，例如可采用如下方式进行：

将信息进行切分得到分词后的信息，将分词后的信息输入到预先训练的语义判定模型中，该语义判定模型可根据输入的分词后的信息，输出该信息的特征向量，该特征向量是基于对信息进行语义判定后得到的该文本信息的语义特征。将输出的该文本的特征向量作为输入参数输入到预先训练的分类模型中，该分类模型根据输入的特征向量，对该文本信息进行质量预测，输出该特征向量对应的质量分布概率。质量分布概率包括质量好或者质量不好的概率，由于两个概率值互补，可取其中一个概率值，例如取该信息质量好的概率，作为该信息的质量分布概率。对该文本信息质量好的概率进行归一化处理到指定区间0-10内，得到的数值确定为该文本信息的静态特征权重值。

可能的实施方式中，质量分布概率亦可以是质量分布好的概率和质量分布不好的概率结合后的概率，例如对质量分布好的概率和质量分布不好的概率进行差值运算而结合得到。本发明实施例在此不做限定。

例如可以对该文本信息质量好的概率进行归一化到指定区间，使得到的数值分布区间在0-10分的区间内，作为该文本信息的静态特征权重值。

S103：对信息的动态反馈指标进行数值化处理，得到信息的综合动态反馈权重值。

本发明实施例中，根据网站中的用户反馈行为，可基于动态反馈维度实时的对信息中的动态反馈指标进行日志收集。以预设的设定时间，分别获取每一设定时间内信息的动态反馈指标，例如信息的曝光量、点击量、收藏量、评论量、转发量、点赞量。

其中，设定时间可理解为时间周期，例如可以是一天，两天，也可以是一小时还可以是一秒的时间周期等。并基于预设的动态反馈指标系数，分别确定各设定时间的综合动态反馈指标。本发明实施例中将获取动态反馈指标的设定时间称为第一设定时间。

下面以第一设定时间一天，获取的动态反馈指标包括曝光量(EV)和点击量(UV)、收藏量(collect)、评论量(reply)、转发量(share)、点赞量(favorite)为例进行说明：

获取每天的曝光量(EV)、点击量(UV)、收藏量(collect)、评论量(reply)、转发量(share)、点赞量(favorite)，通过如下公式确定一天的综合动态反馈指标：

其中，S_day表示以一天为周期，一天的综合动态反馈指标，α，β，γ，δ，ε为预设的动态反馈指标系数，其中，α，β，γ，δ，ε分别为预设的点击量(UV)、收藏量(collect)、评论量(reply)、转发量(share)、点赞量(favorite) 的动态反馈指标系数。该动态反馈指标系数根据经验预先设定。

根据第一设定时间(一天)的综合动态反馈指标，可确定出该信息每一个第一设定时间(一天)的动态反馈指标变化值的变化率，该信息的综合动态反馈指标变化值的变化率例如可采用如下公式确定：

(S_day-1-S_day-2)/(S_day-2-S_day-3) 公式2

其中，S_day-1表示当前第一设定时间获取的最近一天的该信息的动态反馈指标，S_day-2表示与S_day-1相邻的前一天的该信息的动态反馈指标， S_day-1-S_day-2表示获取的最近一次的动态反馈指标变化值，同理， S_day-2-S_day-3表示与最近一次相邻的动态反馈指标变化值，由此可得到该信息在当前第一设定时间(一天)的动态反馈指标变化率，(S_day-1-S_day-2)/(S_day-2-S_day-3)，将得到的该变化率的值归一化到指定区间，得到的数值确定为该信息在当前第一设定时间的综合动态反馈权重值。例如可以将得到的数值区间映射标准在0-10分的区间内，作为该信息的综合动态反馈权重值。

通过对信息的综合动态反馈进行评价，可以使短时间被用户反馈的信息迅速被发现，例如在一个突发事件发生后一段时间，历史上的表现和静态质量并不那么优秀的与突发事件相关的其他信息被大量的用户搜索查看，这些信息的综合动态反馈权重值就会迅速升高，从而可以被很好的发现，而当这个事件逐渐平息，与突发事件相关的其他信息的综合动态反馈权重值重新变小，并随着与突发事件相关的其他信息的综合动态反馈权重值逐渐趋于0值，使得与突发事件相关的其他信息又自然的沉淀下去。

S104：对信息的累积反馈指标进行数值化处理，得到信息的综合累积反馈权重值。

本发明实施例中，可以依据信息自发布以来或者从指定时间以来累积反馈指标的累积变化情况，对信息的质量进行评价。通过信息自发布以来，或者从指定时间以来网站中的用户反馈行为，基于累积反馈维度实时的对信息进行日志收集。以设定时间为累积时间段，分别获取每个设定时间的单位时间内信息的累积反馈指标，信息的累积反馈指标例如包括信息的点击量、收藏量、评论量、转发量、点赞量，设定时间可以是一天，两天，也可以是一小时还可以是一秒等。本发明实施例为区别获取动态反馈指标的第一设定时间，将获取累积反馈指标的设定时间单位称为第二设定时间。

基于各第二设定时间的综合累积反馈指标、第二设定时间的总数量以及衰减系数，确定信息的综合累积反馈权重值，下面以信息自发布以来，第二设定时间为一天，涉及的累积反馈指标可以包括点击量(UV)、收藏量(collect)、评论量(reply)、转发量(share)、点赞量(favorite)为例进行说明：

确定信息自发布以来用户反馈的累积反馈权重值，例如可通过如下两个公式确定：

D_dayi＝αUV+βcollect+γreply+δshare+εfavorite，公式3

其中，D_dayi表示以天为周期，第i天的综合累积反馈指标，α，β，γ，δ，ε为预设的累积反馈指标系数，其中，α，β，γ，δ，ε分别为点击量(UV)、收藏量(collect)、评论量(reply)、转发量(share)和点赞量(favorite) 的累积反馈指标系数。该累积反馈指标系数根据经验预先设定。

其中，n表示该信息从发布到当前日期第二设定时间的总数量，i＝0表示假设当前日期为day0，i＜n，dayi表示以天为周期，在当前日期之前的第 i天，D_dayi表示以天为周期，当前日期之前的第i天的综合累积反馈指标，

为衰减系数，θ，η为两个经验系数。

利用公式4可得到该信息从发布到当前日期day0共n天的累计反馈权重概率，将得到的该信息自发布以来累计反馈权重概率进行归一化处理到指定区间，得到的数值确定为该信息的综合累积反馈权重值。例如可以对综合累积反馈概率进行归一化处理到指定的0-10分的区间，作为该信息的综合累积反馈权重值。

从公式4中可以看到，对于越早获得用户反馈的信息，随着时间的流逝，离当前设定时间越远，该信息的综合累积反馈指标所占的比重会越小，符合信息累积反馈随着时间逐渐衰减的实际情况，但是仍然可以发挥价值。

通过对信息的累积反馈维度进行评价，可以使长期持续的对用户产生价值的信息能够很好的体现。比如一些针对小众景点旅游的攻略信息，这类信息因为有较强的专业性，所以受众较小，但是信息内容确实可以对用户产生价值，所以用户动态反馈在一个低位水平，但是随着时间流逝，用户持续不断的对这类信息进行反馈，使得这类专业性强的信息在综合累积反馈的权重值维持在一个较高的水平。而对于一些猎奇或者热点的信息在爆点过去之后就很难再得到用户关注，使得这类猎奇或者热点的信息在综合累积反馈的权重值平均在一个较低的水平。

S105：基于信息的静态特征权重值、信息的综合动态反馈权重值和信息的综合累积反馈权重值，对该信息进行质量评价。

本发明实施例中，可以根据信息的静态特征权重值、信息的综合动态反馈权重值和信息的综合累积反馈权重值，对该信息进行质量综合评价。对信息基于静态特征权重值、综合动态反馈权重值和综合累积反馈权重值进行综合评价，例如可采用如下公式确定：

SCORE＝A*SCORE_static+B*SCORE_dynamic+Γ*SCORE_history 公式5

其中，SCORE_static代表信息的静态特征权重值，SCORE_dynamic代表信息的综合动态反馈权重值，SCORE_history代表信息的综合累积反馈权重值， A，B，Γ分别为SCORE_static、SCORE_dynamic和SCORE_history的经验系数，具体预设的值可以根据各业务的不同需求进行动态调整，从而影响其中某一项所占的权重。

图1中示出步骤S104在步骤S103之后执行，但是需要注意的是，步骤 S104和S103的顺序不限于此。作为另一实施方式，步骤S104可以在步骤 S103之后执行。作为又一实施方式，步骤S102和步骤S103可以同时执行。本发明在此方面不做限制。

图2为本发明实施例提供的信息质量评价方法的另一实施流程图。如图 2所示，该信息质量评价方法中，包括步骤S201-S206，其中，步骤S201， S204-S206分别与图1中的步骤S101，S103-S105执行步骤相类似，在此不再赘述。该方法包括：

S202：获取信息的内容特征指标，内容特征指标包括兴趣点、信息长度、信息关键词和用户填写完整度中的至少一种。

本发明实施例中，信息的内容特征可以包括文本长度、文本关键词数量、兴趣点(Point of Interest，poi)、内容填写的完整度中的至少一个。

在一实施例中，文本关键词数量例如可基于预先训练的概率模型确定。该训练模型可以是CRF模型，基于通用语料库训练得到。

Poi信息为(0，1)的布尔值，即有poi或者没有poi。

内容填写的完整度例如可通过如下方式确定：f＝用户填写的项目数/总共可填写的项目数。其中项目可能包括用户标签，用户关联目的地等等内容，其中，f表示内容填写的完整度，项目可以包括用户标签、用户关联目的地等内容。

S203：依据语义质量分布概率和内容特征指标，确定信息的静态特征权重值。

本发明实施例中，依据语义质量分布概率和内容特征指标，确定信息的静态特征权重值，例如可采用如下方式进行：

调用预先训练的模型，该预先训练的模型例如可以是xgboost模型。将参数输入到该xgboost模型中，该模型可利用xgboost模型中多个回归决策 (cart)树，对输入的参数进行预测，并将多个回归决策(cart)树的预测值进行累加，作为最终的预测值输出。

对信息基于语义判定模型进行语义判定后，将得到的信息的语义质量分布概率、文本信息内容特征作为输入参数，输入到xgboost模型中，该模型可根据输入的语义质量分布概率和内容特征指标，利用xgboost模型中多个回归决策(cart)树，对信息进行质量预测，并将多个回归决策(cart)树的预测值进行累加，输出该信息的质量分布概率。

质量分布概率包括质量好或者质量不好的概率，可取其中一个概率值，例如取该信息质量好的概率，对该信息质量好的概率进行归一化和区间变换，得到的数值确定为该信息的静态特征权重值。例如可以对该信息质量好的概率进行归一化处理到指定区间0-10内，作为该信息的静态特征权重值。

预先训练的模型例如可以通过如下方式进行确定：

预先准备包含文本的训练样本，根据人工印象对该训练样本进行好或者不好的质量评价，并做出标记，将标记后的训练样本输入到模型中，该模型利用xgboost算法对训练样本进行质量好或者不好的预测并输出，直到该模型输出的训练样本的质量好或者不好的与标记的质量评价一致。通过实际训练好的模型，预测信息好或者不好的概率，准确率约为88％，AUC指标为93％。

对经过预先训练的模型输出的信息质量好的概率或者质量不好的概率进行归一化和区间变换，得到的数值确定为该信息的静态特征权重值。例如可以对该信息质量好的概率进行归一化和区间变换，使得到的数值分布区间在 0-10分的区间内，作为该信息的静态特征权重值。

图3为本发明实施例提供的信息质量评价方法的另一实施流程图。如图 3所示，该信息质量评价方法中，包括步骤S301-S307，其中，步骤S301， S302，S305-S307分别与图2中的步骤S201，S202，S203-S205执行步骤相类似，在此不再赘述。该方法包括：

S303：获取信息的图像属性特征指标，图像属性特征指标包括图像数量、平均像素数和图像的质量中的至少一种。

目前，随着互联网的发展，依赖用户生成内容(User Generated Content， UGC)的内容社区逐渐向简短化发展。而UGC内容以及类似UGC内容中，文字的质量和图像的质量同样关键，故，对UGC内容以及类似UGC内容的质量评价中，增加对图像的质量评价尤为重要。

对图像进行质量评价，可基于获取的图像属性特征指标，该图像属性特征指标可以包括图像的数量、图像的像素数和图像的质量中的至少一个。

S304：依据语义质量分布概率、内容特征指标和图像属性特征指标，确定信息的静态特征权重值。

本发明实施例中，通过图像像素数确定信息的平均像素数，例如可通过如下公式确定：

利用公式：

其中，pix为信息的平均像素，N为该信息中图片的数量，i_l，i_w代表该信息中其中一张图片的尺寸，长为i_l，宽为i_w，i_l*i_w为该图像的像素数。

图像的质量例如可采用如下方式确定：依据图像质量评估(Image QualityAssessment，IQA)相关的方法，将图像的明度、色彩饱和度、曝光、和模糊程度等信息，采用NR-IQA算法训练预测图像质量的模型或者采用FR-IQA算法训练预测图像质量的模型，评估图像的质量，也可以基于传统算法和/或CNN深度学习算法训练的预测图像质量模型对图像的质量进行预测，得到图像质量好或者不好的概率。

经过预先训练的预测图像质量的模型可以利用预先准备的多张图像例如 100张图像，根据人工印象对预先准备的图像分为好或者不好两种，将预先准备的图像输入到预测图像质量的模型中，训练该预测图像质量的模型，使得经过该模型输出的图像的好或者不好的概率，与预先分类的好的图像或者预先分类的不好的图像一致，则该预测图像质量的模型为训练好的模型。本发明实施例中，基于文本信息的语义判定静态特征和内容静态特征以及图像信息的图像属性静态特征，对信息进行质量预测，得到信息的质量分布概率，例如可通过预先训练的模型确定。

预先训练的该模型例如可以是xgboost模型。将参数输入到该xgboost 模型中，该模型可利用xgboost模型中多个回归决策(cart)树，对输入的参数进行预测，并将多个回归决策(cart)树的预测值进行累加，作为最终的预测值输出。

依据语义质量分布概率、内容特征指标和图像属性特征指标，确定信息的静态特征权重值，例如可通过如下方式进行：

对文本信息基于语义判定静态特征进行语义判定后，将得到的文本信息的质量分布概率、文本信息内容特征以及图像属性特征作为输入参数，输入到xgboost模型中，该模型可根据输入的语义质量分布概率、内容特征指标和图像属性特征指标，对信息进行质量预测，利用xgboost模型中多个回归决策 (cart)树，对信息进行质量预测，并将多个回归决策(cart)树的预测值进行累加，输出信息的质量分布概率。

质量分布概率包括质量好或者质量不好的概率，可取其中一个概率值，例如取该信息质量好的概率，对该信息质量好的概率进行归一化和区间变换，得到的数值确定为该信息的静态特征权重值。例如可以对该信息质量好的概率进行归一化和区间变换，使得到的数值分布区间在0-10分的区间内，作为该信息的静态特征权重值。

本发明实施例中，通过对信息中的文本信息进行语义判定和对信息中的图像信息进行质量评估，可以很好的预测信息质量的优劣，比如第一个信息包括500字和10张图像，第二个信息是随便输入500字的得分，或者图片随便拍摄的，最终经过预先训练的模型的输出，第一个信息质量好的概率比第二个信息高很多。

图3中示出步骤S303在步骤S302之后执行，但是需要注意的是，步骤 S303和S302的顺序不限于此。作为另一实施方式，步骤S302可以在步骤 S303之后执行。作为又一实施方式，步骤S302和步骤S303可以同时执行。本发明在此方面不做限制。

图4为本发明实施例提供的信息质量评价方法的另一实施流程图。如图 4所示，该信息质量评价方法中，包括步骤S401-S406，其中，步骤S401， S404-S406分别与图2中的步骤S201，S204–S206执行步骤相类似，在此不再赘述。该方法包括：

S402：获取信息的图像属性特征指标，图像属性特征指标包括图像数量、平均像素数和图像的质量中的至少一种。

S403：依据语义质量分布概率和图像属性特征指标，确定信息的静态特征权重值。

本发明实施例中，依据语义质量分布概率和图像属性特征指标，确定信息的静态特征权重值，例如可通过如下方式进行：

对文本信息基于语义判定静态特征进行语义判定后，将得到的文本信息的质量分布概率和图像属性特征作为输入参数，输入到预先训练的xgboost 模型中，该模型可根据输入的语义质量分布概率和图像属性特征指标，对信息进行质量预测，利用xgboost模型中多个回归决策(cart)树，对信息进行质量预测，并将多个回归决策(cart)树的预测值进行累加，输出信息的质量分布概率。

本发明实施例提供的信息质量评价方法，对待进行质量评价的信息通过融合了静态特征、综合动态反馈和累积反馈维度进行评价，并针对不同类型的信息，对信息的静态特征系数、综合动态反馈系数和累积反馈维度系数进行动态调整，可对多种形式的信息实现统一、综合地进行质量评价，改进了只针对静态特征考量信息，不能体现短期热点类信息的价值，以及改进了只针对用户累积的反馈，而没有考虑信息随着时间推移，信息的累积反馈维度逐渐衰减的情况。通过对信息进行综合的评价，得优质的内容得到更多的曝光，给用户提供更多的价值，并且可将人工从复审信息的质量评价中解放出来，提高信息评价的效率。

基于相同的发明构思，本发明实施例还提供了信息质量评价装置。

如图5所示，本发明实施例提供的信息质量评价装置500，该装置500 包括获取单元501，用于获取待进行质量评价的信息，并获取信息的动态反馈指标和累积反馈指标；确定单元502，用于基于语义对信息的质量进行预测，得到信息的语义质量分布概率，依据语义质量分布概率，确定信息的静态特征权重值；处理单元503，用于对信息的动态反馈指标和累积反馈指标分别进行数值化处理，得到信息的综合动态反馈权重值和综合累积反馈权重值；评价单元504，用于根据信息的静态特征权重值、综合动态反馈权重值和综合累积反馈权重值，对信息进行质量预测，得到信息的质量评价。

在一实施例中，确定单元502采用如下方式得到信息的语义质量分布概率：基于语义对信息的质量进行预测，调用预设的语义判定模型，语义判定模型根据输入的分词后的文本，输出文本的特征向量；将分词后的信息作为语义判定模型的输入参数，依据语义判定模型输出信息的特征向量；调用预先训练的分类模型，分类模型根据输入的特征向量输出特征向量对应的语义质量分布概率；将特征向量作为输入参数输入分类模型中，并依据分类模型的输出，确定信息的语义质量分布概率。

在一实施例中，获取单元501还用于：获取信息的内容特征指标和/或获取信息的图像属性特征指标；确定单元502采用如下方式确定信息的静态特征权重值：依据语义质量分布概率和/或内容特征指标和/或图像属性特征指标，确定信息的静态特征权重值。

在一实施例中，内容特征指标包括兴趣点、信息长度、信息关键词和用户填写完整度中的至少一种，图像属性特征指标包括图像数量、像素数和图像的质量中的至少一种。

在一实施例中，确定单元502采用如下方式确定信息的静态特征权重值：依据语义质量分布概率和/或内容特征指标和/或图像属性特征指标，调用预先训练的模型，模型根据输入的语义质量分布概率和/或内容特征指标和/或图像属性特征指标，输出信息的质量分布概率；将语义质量分布概率和/或内容特征指标和/或图像属性特征指标作为输入参数，输入模型中，并依据模型输出信息的质量分布概率；对质量分布概率进行归一化处理，得到信息的静态特征权重值。

在一实施例中，信息的动态反馈指标包括曝光量和点击量和/或收藏量和 /或评论量和/或转发量和/或点赞量中的至少一种。

在一实施例中，处理单元503采用如下方式对信息的动态反馈指标进行数值化处理：基于预设的第一设定时间，分别获取每一第一设定时间内信息的动态反馈指标，并基于预设的动态反馈指标系数，分别确定各第一设定时间的综合动态反馈指标；基于每两个相邻第一设定时间的综合动态反馈指标，确定综合动态反馈指标的变化率；对综合动态反馈指标变化值的变化率进行归一化处理，得到信息的综合动态反馈权重值。

在一实施例中，信息的累积反馈指标包括点击量和/或收藏量和/或评论量和/或转发量和/或点赞量中的至少一种。

在一实施例中，处理单元503采用如下方式对信息的累积反馈指标进行数值化处理：以第二设定时间为累积时间段，分别获取每个第二设定时间的单位时间内信息的累积反馈指标，并基于预设的累积反馈指标系数，分别确定各第二设定时间的各单位时间的综合累积反馈指标；基于各第二设定时间的各单位时间的综合累积反馈指标、第二设定时间的总数量以及衰减系数，确定信息的综合累积反馈权重值，衰减系数依据经验系数与当前第二设定时间的数量和第二设定时间总数量确定。

在一实施例中，处理单元503采用如下方式确定信息的综合累积反馈权重值：基于各第二设定时间的各单位时间的综合累积反馈指标、第二设定时间的总数量以及衰减系数，利用公式

确定信息的综合累积反馈权重值；其中，n表示第二设定时间的总数量，i表示当前第二设定时间之前的第 i个第二设定时间，D_i表示当前第二设定时间之前的第i个第二设定时间的综合累积反馈指标，i＜n，

为衰减系数，θ和η为大于0的预设系数。

在一实施例中，评价单元504采用如下方式对信息进行质量预测：基于信息的静态特征权重值、综合动态反馈权重值和综合累积反馈权重值，根据获取的静态特征权重值、综合动态反馈权重值和综合累积反馈权重值，与预设的静态特征权重系数、综合动态反馈权重系数和综合累积反馈权重系数，确定信息质量评价的总权重。

本发明实施例还提供一种电子设备，电子设备包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行上述可能的实施方式中任一所述的方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行上述可能的实施方式中任一所述的方法。

本发明实施例涉及的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的，已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。

Claims

1.一种信息质量评价方法，其中，所述方法包括：

获取待进行质量评价的信息，获取所述信息的动态反馈指标和累积反馈指标，以及获取所述信息的内容特征指标和/或获取所述信息的图像属性特征指标；

基于语义对所述信息的质量进行预测，得到所述信息的语义质量分布概率；

依据所述语义质量分布概率和所述内容特征指标和/或所述图像属性特征指标，确定所述信息的静态特征权重值；

对所述信息的动态反馈指标和累积反馈指标分别进行数值化处理，得到所述信息的综合动态反馈权重值和综合累积反馈权重值；

根据所述信息的静态特征权重值、综合动态反馈权重值和综合累积反馈权重值，对所述信息进行质量预测，得到所述信息的质量评价。

2.根据权利要求1所述的方法，其中，所述基于语义对所述信息的质量进行预测，得到所述信息的语义质量分布概率，包括：

调用预设的语义判定模型，所述语义判定模型根据输入的分词后的文本，输出所述文本的特征向量；

将分词后的信息作为所述语义判定模型的输入参数，依据所述语义判定模型输出所述信息的特征向量；

调用预先训练的分类模型，所述分类模型根据输入的特征向量输出所述特征向量对应的语义质量分布概率；

将所述特征向量作为输入参数输入所述分类模型中，并依据所述分类模型的输出，确定所述信息的语义质量分布概率。

3.根据权利要求1所述的方法，其中，所述内容特征指标包括兴趣点、信息长度、信息关键词和用户填写完整度中的至少一种；

所述图像属性特征指标包括图像数量、像素数和图像的质量中的至少一种。

4.根据权利要求1所述的方法，其中，所述依据所述语义质量分布概率和所述内容特征指标和/或所述图像属性特征指标，确定所述信息的静态特征权重值，包括：

调用预先训练的模型，所述模型根据输入的所述语义质量分布概率和/或所述内容特征指标和/或所述图像属性特征指标，输出所述信息的质量分布概率；

将所述语义质量分布概率和/或所述内容特征指标和/或所述图像属性特征指标作为输入参数，输入所述模型中，并依据所述模型输出所述信息的质量分布概率；

对所述质量分布概率进行归一化处理，得到所述信息的静态特征权重值。

5.根据权利要求1所述的方法，其中，所述信息的动态反馈指标包括曝光量和点击量和/或收藏量和/或评论量和/或转发量和/或点赞量。

6.根据权利要求1或者5所述的方法，其中，对所述信息的动态反馈指标进行数值化处理，包括：

基于预设的第一设定时间，分别获取每一第一设定时间内信息的动态反馈指标，并基于预设的动态反馈指标系数，分别确定各第一设定时间的综合动态反馈指标；

基于每两个相邻所述第一设定时间的综合动态反馈指标，确定所述综合动态反馈指标的变化率；

对所述综合动态反馈指标变化值的变化率进行归一化处理，得到所述信息的综合动态反馈权重值。

7.根据权利要求1所述的方法，其中，所述信息的累积反馈指标包括点击量和/或收藏量和/或评论量和/或转发量和/或点赞量。

8.根据权利要求1或者7所述的方法，其中，对所述信息的累积反馈指标进行数值化处理包括：

以第二设定时间为累积时间段，分别获取每个第二设定时间的单位时间内信息的累积反馈指标，并基于预设的累积反馈指标系数，分别确定各第二设定时间的各单位时间的综合累积反馈指标；

基于各第二设定时间的各单位时间的所述综合累积反馈指标、第二设定时间的总数量以及衰减系数，确定所述衰减系数依据经验系数与当前第二设定时间的数量和第二设定时间总数量确定。

9.根据权利要求8所述的方法，其中，所述基于各第二设定时间的各单位时间的所述综合累积反馈指标、第二设定时间的总数量以及衰减系数，确定所述信息的综合累积反馈权重值，包括：

利用公式

确定所述信息的综合累积反馈权重值；

其中，n表示第二设定时间的总数量，i表示当前第二设定时间之前的第i个第二设定时间，D_dayi表示当前第二设定时间之前的第i个第二设定时间的综合累积反馈指标，i＜n，

为衰减系数，θ和η为大于0的预设系数。

10.根据权利要求1所述的方法，其中，基于所述信息的静态特征权重值、综合动态反馈权重值和综合累积反馈权重值，对所述信息进行质量预测，包括：

根据获取的所述静态特征权重值、所述综合动态反馈权重值和所述综合累积反馈权重值，与预设的静态特征权重系数、综合动态反馈权重系数和综合累积反馈权重系数，确定所述信息质量评价的总权重。

11.一种信息质量评价装置，其中，所述装置包括：

获取单元，用于获取待进行质量评价的信息，获取所述信息的动态反馈指标和累积反馈指标，以及获取所述信息的内容特征指标和/或获取所述信息的图像属性特征指标；

确定单元，用于基于语义对所述信息的质量进行预测，得到所述信息的语义质量分布概率；以及依据所述语义质量分布概率和所述内容特征指标和/或所述图像属性特征指标，确定所述信息的静态特征权重值；

处理单元，用于对所述信息的动态反馈指标和累积反馈指标分别进行数值化处理，得到所述信息的综合动态反馈权重值和综合累积反馈权重值；

评价单元，用于根据所述信息的静态特征权重值、综合动态反馈权重值和综合累积反馈权重值，对所述信息进行质量预测，得到所述信息的质量评价。

12.一种电子设备，其中，所述电子设备包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行权利要求1至10中任一项所述的信息质量评价方法。

13.一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在计算机上运行时，执行权利要求1至10中任一项所述的信息质量评价方法。