CN115774816B

CN115774816B - 基于用户价值的内容淘汰方法、系统、设备及存储介质

Info

Publication number: CN115774816B
Application number: CN202310094594.6A
Authority: CN
Inventors: 李培真; 罗新旺; 曾舒煜; 陈爱民
Original assignee: Chengdu Mengxiang Technology Co ltd
Current assignee: Chengdu Mengxiang Technology Co ltd
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-04-11
Anticipated expiration: 2043-02-10
Also published as: CN115774816A

Abstract

本发明公开了基于用户价值的内容淘汰方法、系统、设备及存储介质，通过采集目标发布内容相关执行用户的历史行为数据来计算各执行用户的活跃熵和行为评分，再基于活跃熵和行为评分确定各执行用户的价值评分，然后根据目标发布内容各被执行行为的被执行次数、执行用户的价值评分以及执行用户的评分权重，计算各被执行行为的分项得分，再确定目标发布内容的内容评分，就可以依据内容评分对目标发布内容进行有效的淘汰判定。本发明充分考虑了内容执行用户的价值，用活跃熵和行为评分表征内容执行用户的价值，使得用户的价值评估更加合理，最终通过执行用户价值评分的加权，使得基于用户价值的内容评分更加高效、合理。

Description

基于用户价值的内容淘汰方法、系统、设备及存储介质

技术领域

本发明属于信息筛选技术领域，具体涉及基于用户价值的内容淘汰方法、系统、设备及存储介质。

背景技术

随着计算机网络技术和信息技术的发展，用户每日接收到的信息也爆发式的增加。如何在前端淘汰掉一些劣质的内容，让更多的用户接收到优质的内容，是当前行业亟待解决的问题。目前，内容的淘汰主要有三种方式，一种是人工审核的方式，通过对内容的人工审核过滤掉劣质的内容；一种是基于规则的过滤，包括内容关键词、内容长度、发布内容的作者信息等，基于设定的规则，过滤掉劣质内容；一种是基于内容的统计指标，如内容的浏览次数，浏览时长等，淘汰掉指标较低的内容。基于人工审核的方法需要大量的人力，成本较高；基于规则的过滤方法相对比较死板，容易误杀，将优质内容淘汰，或者将劣质内容当作优质内容，误差难以控制；基于内容统计指标的淘汰方法相对合理，但没有充分考虑到用户行为价值的重要程度，即没有考虑受众用户的行为价值对内容的决定性影响，不同价值用户的行为，对内容优劣评定的影响是不同的。

发明内容

本发明的目的是提供基于用户价值的内容淘汰方法、系统、设备及存储介质，用以解决现有技术中存在的上述问题。

为了实现上述目的，本发明采用以下技术方案：

第一方面，提供基于用户价值的内容淘汰方法，包括：

采集目标发布内容的被执行数据，所述被执行数据包括各被执行行为的被执行次数以及各被执行行为的执行用户；

获取各执行用户在应用端上的历史行为数据，组成历史行为数据集；

根据历史行为数据集确定各执行用户在各时段内发生的行为数、所有执行用户在各时段内发生的行为总数、各执行用户的日活跃次数、各执行用户的日活跃时长、各执行用户的发布内容数量、各执行用户发布内容的浏览时长、各执行用户发布内容的曝光/点击转换率以及各执行用户发布内容的点击/互动转换率；

根据各执行用户在各时段内发生的行为数以及所有执行用户在各时段内发生的行为总数，采用预置的活跃熵计算模型计算得到各执行用户的活跃熵；

根据各执行用户的日活跃次数、各执行用户的日活跃时长、各执行用户的发布内容数量、各执行用户发布内容的浏览时长、各执行用户发布内容的曝光/点击转换率以及各执行用户发布内容的点击/互动转换率，采用预置的行为评分计算模型计算得到各执行用户的行为评分；

根据各执行用户的活跃熵和行为评分计算得到各执行用户的价值评分；

根据相应被执行行为对应各执行用户的价值评分确定该被执行行为对应各执行用户的评分权重，根据各被执行行为的被执行次数、各被执行行为对应执行用户的价值评分以及各被执行行为对应执行用户的评分权重，计算得到各被执行行为的分项得分，根据各被执行行为的分项得分确定目标发布内容的内容评分；

根据目标发布内容的内容评分判定目标发布内容是否被淘汰，得到判定结果。

在一个可能的设计中，所述各被执行行为包括被查看、被收藏、被点赞以及被回复，所述根据各被执行行为的分项得分确定目标发布内容的内容评分，包括：将被查看、被收藏、被点赞以及被回复分别对应的分项得分相加，得到目标发布内容的内容评分。

在一个可能的设计中，所述根据各被执行行为的被执行次数、各被执行行为对应执行用户的价值评分以及各被执行行为对应执行用户的评分权重，计算得到各被执行行为的分项得分，包括：将相应被执行行为的被执行次数分别与对应各执行用户的价值评分相乘，再分别乘以对应各执行用户的评分权重，最后将各项相乘得到的结果相加，得到该被执行行为的分项得分。

在一个可能的设计中，所述活跃熵计算模型为

其中，S表征活跃熵，

表征执行用户在设定时段内发生的行为数，

表征所有执行用户在设定时段内发生的行为总数，

表征设定时段内的行为数参量，E表征所有执行用户的行为集合，t表征时段参量；

所述行为评分计算模型为

其中，P表征行为评分，n表征执行用户的发布内容数量，u表征执行用户发布内容的编号，B表征执行用户发布内容的浏览时长，R表征执行用户发布内容的曝光/点击转换率，I表征执行用户发布内容的点击/互动转换率，T表征执行用户的日活跃时长，a表征执行用户的日活跃次数。

在一个可能的设计中，所述根据各执行用户的活跃熵和行为评分计算得到各执行用户的价值评分，包括：将对应执行用户的活跃熵与行为评分相乘，得到该执行用户的价值评分。

在一个可能的设计中，所述根据目标发布内容的内容评分判定目标发布内容是否被淘汰，包括：在目标发布内容的内容评分低于设定淘汰阈值时，判定目标发布内容被淘汰。

在一个可能的设计中，所述根据目标发布内容的内容评分判定目标发布内容是否被淘汰，包括：获取多个目标发布内容的内容评分，判定内容评分最低的若干个目标发布内容被淘汰。

第二方面，提供基于用户价值的内容淘汰系统，包括采集单元、获取单元、确定单元、第一计算单元、第二计算单元、第三计算单元、第四计算单元和判定单元，其中：

采集单元，用于采集目标发布内容的被执行数据，所述被执行数据包括各被执行行为的被执行次数以及各被执行行为的执行用户；

获取单元，用于获取各执行用户在应用端上的历史行为数据，组成历史行为数据集；

确定单元，用于根据历史行为数据集确定各执行用户在各时段内发生的行为数、所有执行用户在各时段内发生的行为总数、各执行用户的日活跃次数、各执行用户的日活跃时长、各执行用户的发布内容数量、各执行用户发布内容的浏览时长、各执行用户发布内容的曝光/点击转换率以及各执行用户发布内容的点击/互动转换率；

第一计算单元，用于根据各执行用户在各时段内发生的行为数以及所有执行用户在各时段内发生的行为总数，采用预置的活跃熵计算模型计算得到各执行用户的活跃熵；

第二计算单元，用于根据各执行用户的日活跃次数、各执行用户的日活跃时长、各执行用户的发布内容数量、各执行用户发布内容的浏览时长、各执行用户发布内容的曝光/点击转换率以及各执行用户发布内容的点击/互动转换率，采用预置的行为评分计算模型计算得到各执行用户的行为评分；

第三计算单元，用于根据各执行用户的活跃熵和行为评分计算得到各执行用户的价值评分；

第四计算单元，用于根据相应被执行行为对应各执行用户的价值评分确定该被执行行为对应各执行用户的评分权重，根据各被执行行为的被执行次数、各被执行行为对应执行用户的价值评分以及各被执行行为对应执行用户的评分权重，计算得到各被执行行为的分项得分，根据各被执行行为的分项得分确定目标发布内容的内容评分；

判定单元，用于根据目标发布内容的内容评分判定目标发布内容是否被淘汰，得到判定结果。

第三方面，提供基于用户价值的内容淘汰设备，包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行上述第一方面中任意一种所述的方法。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行第一方面中任意一种所述的方法。同时，还提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行第一方面中任意一种所述的方法。

有益效果：本发明通过采集目标发布内容相关执行用户的历史行为数据来计算各执行用户的活跃熵和行为评分，再基于活跃熵和行为评分确定各执行用户的价值评分，然后根据目标发布内容各被执行行为的被执行次数、各被执行行为对应执行用户的价值评分以及各被执行行为对应执行用户的评分权重，计算各被执行行为的分项得分，再根据各分项得分确定目标发布内容的内容评分，就可以依据内容评分对目标发布内容进行有效的淘汰判定。本发明充分考虑了内容执行用户的价值，用活跃熵和行为评分表征内容执行用户的价值，使得用户的价值评估更加合理，最终通过执行用户价值评分的加权，使得基于用户价值的内容评分更加高效、合理，以准确淘汰劣质内容，保留优质内容。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中方法的步骤示意图；

图2为本发明实施例中系统的构成示意图；

图3为本发明实施例中设备的构成示意图。

具体实施方式

在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，除非另有明确的规定和限定，术语“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在实施例中的具体含义。

在下面的描述中提供了特定的细节，以便于对示例实施例的完全理解。然而，本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实施例中，可以不以非必要的细节来示出众所周知的过程、结构和技术，以避免使得实施例不清楚。

实施例1：

本实施例提供基于用户价值的内容淘汰方法，可应用于相应的内容传播平台，如图1所示，方法包括以下步骤：

S1.采集目标发布内容的被执行数据，所述被执行数据包括各被执行行为的被执行次数以及各被执行行为的执行用户。

具体实施时，先确定要进行淘汰判定的目标发布内容，然后采集目标发布内容的被执行数据，所述被执行数据包括各被执行行为的被执行次数以及各被执行行为的执行用户，各被执行行为包括被查看、被收藏、被点赞以及被回复，各被执行行为的执行用户包括查看用户、收藏用户、点赞用户以及回复用户。

S2.获取各执行用户在应用端上的历史行为数据，组成历史行为数据集。

具体实施时，在确定各被执行行为的执行用户后，获取各执行用户在应用端上的历史行为数据，组成历史行为数据集。

S3.根据历史行为数据集确定各执行用户在各时段内发生的行为数、所有执行用户在各时段内发生的行为总数、各执行用户的日活跃次数、各执行用户的日活跃时长、各执行用户的发布内容数量、各执行用户发布内容的浏览时长、各执行用户发布内容的曝光/点击转换率以及各执行用户发布内容的点击/互动转换率。

具体实施时，可根据历史行为数据集确定各执行用户在各时段内发生的行为数（包括查看、收藏、点赞和回复各内容的次数）、所有执行用户在各时段内发生的行为总数（包括查看、收藏、点赞和回复各内容的次数）、各执行用户的日活跃次数（可以为平均日活跃次数或者指定日期的日活跃次数）、各执行用户的日活跃时长（可以为平均日活跃时长或者指定日期的日活跃时长）、各执行用户的发布内容数量、各执行用户发布内容的浏览时长、各执行用户发布内容的曝光/点击转换率以及各执行用户发布内容的点击/互动转换率。

S4.根据各执行用户在各时段内发生的行为数以及所有执行用户在各时段内发生的行为总数，采用预置的活跃熵计算模型计算得到各执行用户的活跃熵。

具体实施时，熵是随机变量不确定性的度量，活跃熵是把用户一天中各个时间段对应的熵值聚合累加起来而得到的体现用户一整天用户行为不确定性的度量。把用户在应用端一天的行为数据以一个离散时间序列来建模，用户在某一个时间段内的行为就是序列中对应时间点的随机变量。所述活跃熵计算模型为：

其中，S表征活跃熵，

表征执行用户在设定时段内发生的行为数，

表征所有执行用户在设定时段内发生的行为总数，

表征设定时段内的行为数参量，t表征时段参量，E表征所有执行用户的行为集合，执行用户发生行为的概率为。将各执行用户在各时段内发生的行为数以及所有执行用户在各时段内发生的行为总数代入活跃熵计算模型进行计算，就可以得到各执行用户的活跃熵，活跃熵较大的执行用户在应用端上的行为比较混乱多样，活跃熵较小的执行用户在应用端上的行为比较规律和固定，可认为行为多样的用户要比行为单一的用户更优质。

S5.根据各执行用户的日活跃次数、各执行用户的日活跃时长、各执行用户的发布内容数量、各执行用户发布内容的浏览时长、各执行用户发布内容的曝光/点击转换率以及各执行用户发布内容的点击/互动转换率，采用预置的行为评分计算模型计算得到各执行用户的行为评分。

具体实施时，行为评分是统计用户对于各内容的行为指标，所述行为评分计算模型为：

其中，P表征行为评分，n表征执行用户的发布内容数量，u表征执行用户发布内容的编号，B表征执行用户发布内容的浏览时长，R表征执行用户发布内容的曝光/点击转换率，I表征执行用户发布内容的点击/互动转换率，T表征执行用户的日活跃时长，a表征执行用户的日活跃次数。将各执行用户的日活跃次数、各执行用户的日活跃时长、各执行用户的发布内容数量、各执行用户发布内容的浏览时长、各执行用户发布内容的曝光/点击转换率以及各执行用户发布内容的点击/互动转换率代入行为评分计算模型进行计算，就可以得到各执行用户的行为评分。

S6.根据各执行用户的活跃熵和行为评分计算得到各执行用户的价值评分。

具体实施时，在得到各执行用户的活跃熵和行为评分后，将对应执行用户的活跃熵与行为评分相乘，即可得到该执行用户的价值评分，执行用户的价值评分即反映该执行用户对于目标发布内容的淘汰评定价值。

S7.根据相应被执行行为对应各执行用户的价值评分确定该被执行行为对应各执行用户的评分权重，根据各被执行行为的被执行次数、各被执行行为对应执行用户的价值评分以及各被执行行为对应执行用户的评分权重，计算得到各被执行行为的分项得分，根据各被执行行为的分项得分确定目标发布内容的内容评分。

具体实施时，在得到各执行用户的价值评分后，先根据相应被执行行为对应各执行用户的价值评分确定该被执行行为对应各执行用户的评分权重，价值评分越高的执行用户其评分权重越大，具体权值可根据对应执行用户的价值评分在相应被执行行为所有执行用户价值评分总和中所占比例确定。然后根据各被执行行为的被执行次数、各被执行行为对应执行用户的价值评分以及各被执行行为对应执行用户的评分权重，计算得到各被执行行为的分项得分，具体包括：将相应被执行行为的被执行次数分别与对应各执行用户的价值评分相乘，再分别乘以对应各执行用户的评分权重，然后将各项相乘得到的结果相加，得到该被执行行为的分项得分。最后将各被执行行为的分项得分相加，即可得到目标发布内容的内容评分。

S8.根据目标发布内容的内容评分判定目标发布内容是否被淘汰，得到判定结果。

具体实施时，可采用阈值淘汰或者末尾淘汰的方式来根据目标发布内容的内容评分判定目标发布内容是否被淘汰。其中，阈值淘汰方式具体包括：在目标发布内容的内容评分低于设定淘汰阈值时，判定目标发布内容被淘汰，否则保留。末尾淘汰方式具体包括：获取多个目标发布内容的内容评分，判定内容评分最低的N个目标发布内容被淘汰，其余保留。两种方式可以切换应用，当内容的整体质量较高时可选择阈值淘汰方式，否则可选择末尾淘汰方式。

本实施例方法在进行内容淘汰判定的时候，不是直接计算目标发布内容的质量，而是通过相应用户的价值加权来确定内容评分；并且，统计用户价值评分时，提出了活跃熵和行为评分的概念，用活跃熵和行为评分来表征用户的价值，使得用户的价值评估更加合理，进而使内容的评分更加准确，内容的淘汰更加合理。

实施例2：

本实施例提供基于用户价值的内容淘汰系统，如图2所示，包括采集单元、获取单元、确定单元、第一计算单元、第二计算单元、第三计算单元、第四计算单元和判定单元，其中：

实施例3：

本实施例提供基于用户价值的内容淘汰设备，如图3所示，在硬件层面，包括：

数据接口，用于建立处理器与数据采集组件的数据对接，以采集目标发布内容的被执行数据，获取各执行用户在应用端上的历史行为数据；

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行实施例1中基于用户价值的内容淘汰方法。

可选地，该设备还包括内部总线。处理器与存储器和数据接口可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构）总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended IndustryStandard Architecture，扩展工业标准结构）总线等。所述总线可以分为地址总线、数据总线、控制总线等。

所述存储器可以但不限于包括随机存取存储器（Random Access Memory，RAM）、只读存储器（Read Only Memory，ROM）、闪存（FlashMemory）、先进先出存储器（FirstInputFirst Output，FIFO）和/或先进后出存储器（First In Last Out，FILO）等。所述处理器可以是通用处理器，包括中央处理器（CentralProcessing Unit，CPU）、网络处理器（NetworkProcessor，NP）等；还可以是数字信号处理器（Digital SignalProcessor，DSP）、专用集成电路（Application SpecificIntegrated Circuit，ASIC）、现场可编程门阵列（Field－Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

实施例4：

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行实施例1中基于用户价值的内容淘汰方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒（MemoryStick）等，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程系统。

本实施例还提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行实施例1中的基于用户价值的内容淘汰方法。其中，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程系统。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于用户价值的内容淘汰方法，其特征在于，包括：

2.根据权利要求1所述的基于用户价值的内容淘汰方法，其特征在于，所述各被执行行为包括被查看、被收藏、被点赞以及被回复，所述根据各被执行行为的分项得分确定目标发布内容的内容评分，包括：将被查看、被收藏、被点赞以及被回复分别对应的分项得分相加，得到目标发布内容的内容评分。

3.根据权利要求1所述的基于用户价值的内容淘汰方法，其特征在于，所述根据各被执行行为的被执行次数、各被执行行为对应执行用户的价值评分以及各被执行行为对应执行用户的评分权重，计算得到各被执行行为的分项得分，包括：将相应被执行行为的被执行次数分别与对应各执行用户的价值评分相乘，再分别乘以对应各执行用户的评分权重，最后将各项相乘得到的结果相加，得到该被执行行为的分项得分。

4.根据权利要求1所述的基于用户价值的内容淘汰方法，其特征在于，所述活跃熵计算模型为

其中，S表征活跃熵，

表征执行用户在设定时段内发生的行为数，

表征所有执行用户在设定时段内发生的行为总数，

所述行为评分计算模型为

5.根据权利要求1所述的基于用户价值的内容淘汰方法，其特征在于，所述根据各执行用户的活跃熵和行为评分计算得到各执行用户的价值评分，包括：将对应执行用户的活跃熵与行为评分相乘，得到该执行用户的价值评分。

6.根据权利要求1所述的基于用户价值的内容淘汰方法，其特征在于，所述根据目标发布内容的内容评分判定目标发布内容是否被淘汰，包括：在目标发布内容的内容评分低于设定淘汰阈值时，判定目标发布内容被淘汰。

7.根据权利要求1所述的基于用户价值的内容淘汰方法，其特征在于，所述根据目标发布内容的内容评分判定目标发布内容是否被淘汰，包括：获取多个目标发布内容的内容评分，判定内容评分最低的若干个目标发布内容被淘汰。

8.基于用户价值的内容淘汰系统，其特征在于，包括采集单元、获取单元、确定单元、第一计算单元、第二计算单元、第三计算单元、第四计算单元和判定单元，其中：

9.基于用户价值的内容淘汰设备，其特征在于，包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行权利要求1-7任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行权利要求1-7任意一项所述的方法。