CN116091135A

CN116091135A - 信息筛选方法及其装置

Info

Publication number: CN116091135A
Application number: CN202310031381.9A
Authority: CN
Inventors: 苏培煌; 蔡科; 吕书径
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-05-09

Abstract

本公开提出了信息筛选方法及其装置，涉及人工智能技术领域，尤其涉及计算机技术领域和数据处理技术领域，包括：获取样本用户和样本用户的样本历史推送信息，对信息过滤模型进行训练，得到第一信息筛选模型，其中，信息筛选模型包括多层串联的信息筛选网络；获取目标用户的目标特征信息，并将目标特征信息输入第一信息筛选模型中，由第一信息筛选模型基于目标特征信息对候选推送信息进行逐层筛选，输出目标用户的第一推送信息；按照推送修正策略对第一推送信息进行修正，得到目标用户的第二推送信息。本公开将多层信息筛选网络互相修正，有效避免了误差引入，可以提高信息筛选的有效性和稳定性，为信息筛选结果提供了更准确的依据。

Description

信息筛选方法及其装置

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机技术领域和数据处理技术领域。

背景技术

随着信息技术和互联网的发展，人们逐渐从信息匮乏的时代走入了信息过载的时代。随着电子商务规模的不断扩大，信息量快速增长，用户陷入海量信息中，需要花费大量的时间才能找到自己需要的信息。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的用户不断流失。

因此，如何提高信息筛选的有效性和稳定性，已经成为重要的研究方向之一。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本公开的一个目的在于提出一种信息筛选方法。

本公开的第二个目的在于提出一种信息筛选装置。

本公开的第三个目的在于提出一种电子设备。

本公开的第四个目的在于提出一种非瞬时计算机可读存储介质。

本公开的第五个目的在于提出一种计算机程序产品。

为达上述目的，本公开第一方面实施例提出了一种信息筛选方法，包括：

获取样本用户和样本用户的样本历史推送信息，以得到训练样本；

基于训练样本对信息过滤模型进行训练，得到第一信息筛选模型，其中，信息筛选模型包括多层串联的信息筛选网络，第i+1层信息筛选网络基于样本用户的用户特征和/或样本历史推送信息的信息特征，对第i层信息筛选网络输出的预测推送信息i进行筛选，并由最后一层信息筛选网络输出样本用户的预测推送信息，i的取值为大于或者等于1的整数；

获取目标用户的目标特征信息，并将目标特征信息输入第一信息筛选模型中，由第一信息筛选模型基于目标特征信息对候选推送信息进行逐层筛选，输出目标用户的第一推送信息；

按照推送修正策略对第一推送信息进行修正，得到目标用户的第二推送信息。

在一些实现中，按照推送修正策略对第一推送信息进行修正，得到目标用户的第二推送信息，包括：获取目标用户的历史推送信息；基于目标用户的历史推送信息和目标征信息中的至少一个，对第一推送信息进行修正，得到目标用户的第二推送信息。

在一些实现中，基于目标用户的历史推送信息和目标征信息中的至少一个，对第一推送信息进行修正，得到目标用户的第二推送信息，包括：获取目标用户对任一历史推送信息的浏览时长；根据浏览时长和目标用户的年龄，判断是否删除任一历史推送信息；在判定任一历史推送信息被保留时，根据浏览时长和目标用户的年龄和性别，确定目标用户对任一历史推送信息的偏好值；根据历史推送信息的偏好值，调整第一推送信息的推送信息中的推送顺序，并将调整推送顺序的第一推送信息，确定为第二推送信息。

在一些实现中，基于目标用户的历史推送信息和目标征信息中的至少一个，对第一推送信息进行修正，得到目标用户的第二推送信息，包括：获取第一推送信息中任一推送信息的历史推送记录，并基于历史推送记录确定任一推送信息的历史用户集；基于历史用户集中历史用户的特征信息，确定任一推送信息对应的身份标签；根据目标特征信息和任一推送信息的身份标签，判定目标用户是否为任一推送信息的潜在客户；从第一推送信息中确定目标用户为潜在用户的推送信息，作为第二推送信息。

在一些实现中，按照推送修正策略对第一推送信息进行修正，得到目标用户的第二推送信息，包括：获取候选推送信息的历史推送量和候选推送信息的资源占用量；根据历史推送量和资源占用量，从候选推送信息中确定部分推送信息，构成推送信息池；从推送信息池中筛选一个或多个第三推送信息；基于第三推送信息对第一推送信息进行修正，得到第二推送信息。

在一些实现中，获取样本用户和样本用户的样本历史推送信息，以得到训练样本，包括：获取样本用户的样本特征信息和样本历史推送信息的信息特征；对特征项的特征值进行缺失识别，并对缺失的特征值进行补充，以得到训练样本。

在一些实现中，对特征项的特征值进行缺失识别，并对缺失的特征值进行补充，以得到训练样本，包括：采用贝叶斯统计方法获取缺失特征值的特征项的分布类型；基于分布类型产生随机数作为补充特征值；基于补充特征值作为缺失特征值对特征项进行补充，得到训练样本。

在一些实现中，该方法还包括：基于训练样本对信息过滤模型进行分批次训练；获取当次训练后的预测推荐信息与当次的样本历史推送信息的差异满足设定条件；对训练样本进行二次穿插排序，得到调整后的训练样本，并基于调整后的训练样本继续训练信息过滤模型。

在一些实现中，该方法还包括：基于第i层信息筛选网络的筛选概率阈值，对第i层信息筛选网络的输出的预测推送信息i进行截断；将剩余的预测推送信息i，确定为第i层信息筛选网络的候选推送信息。

为达上述目的，本公开第二方面实施例提出了一种信息筛选装置，包括：

获取模块，用于获取样本用户和样本用户的样本历史推送信息，以得到训练样本；

训练模块，用于基于训练样本对信息过滤模型进行训练，得到第一信息筛选模型，其中，信息筛选模型包括多层串联的信息筛选网络，第i+1层信息筛选网络基于样本用户的用户特征和/或样本历史推送信息的信息特征，对第i层信息筛选网络输出的预测推送信息i进行筛选，并由最后一层信息筛选网络输出样本用户的预测推送信息，i的取值为大于或者等于1的整数；

筛选模块，用于获取目标用户的目标特征信息，并将目标特征信息输入第一信息筛选模型中，由第一信息筛选模型基于目标特征信息对候选推送信息进行逐层筛选，输出目标用户的第一推送信息；

修正模块，用于按照推送修正策略对第一推送信息进行修正，得到目标用户的第二推送信息。

在一些实现中，修正模块，还用于：获取目标用户的历史推送信息；基于目标用户的历史推送信息和目标征信息中的至少一个，对第一推送信息进行修正，得到目标用户的第二推送信息。

在一些实现中，修正模块，还用于：获取目标用户对任一历史推送信息的浏览时长；根据浏览时长和目标用户的年龄，判断是否删除任一历史推送信息；在判定任一历史推送信息被保留时，根据浏览时长和目标用户的年龄和性别，确定目标用户对任一历史推送信息的偏好值；根据历史推送信息的偏好值，调整第一推送信息的推送信息中的推送顺序，并将调整推送顺序的第一推送信息，确定为第二推送信息。

在一些实现中，修正模块，还用于：获取第一推送信息中任一推送信息的历史推送记录，并基于历史推送记录确定任一推送信息的历史用户集；

基于历史用户集中历史用户的特征信息，确定任一推送信息对应的身份标签；根据目标特征信息和任一推送信息的身份标签，判定目标用户是否为任一推送信息的潜在客户；从第一推送信息中确定目标用户为潜在用户的推送信息，作为第二推送信息。

在一些实现中，修正模块，还用于：获取候选推送信息的历史推送量和候选推送信息的资源占用量；根据历史推送量和资源占用量，从候选推送信息中确定部分推送信息，构成推送信息池；从推送信息池中筛选一个或多个第三推送信息；基于第三推送信息对第一推送信息进行修正，得到第二推送信息。

在一些实现中，获取模块，还用于：获取样本用户的样本特征信息和样本历史推送信息的信息特征；对特征项的特征值进行缺失识别，并对缺失的特征值进行补充，以得到训练样本。

在一些实现中，获取模块，还用于：采用贝叶斯统计装置获取缺失特征值的特征项的分布类型；基于分布类型产生随机数作为补充特征值；基于补充特征值作为缺失特征值对特征项进行补充，得到训练样本。

在一些实现中，训练模块，还用于：基于训练样本对信息过滤模型进行分批次训练；获取当次训练后的预测推荐信息与当次的样本历史推送信息的差异满足设定条件；对训练样本进行二次穿插排序，得到调整后的训练样本，并基于调整后的训练样本继续训练信息过滤模型。

在一些实现中，筛选模块，还用于：基于第i层信息筛选网络的筛选概率阈值，对第i层信息筛选网络的输出的预测推送信息i进行截断；将剩余的预测推送信息i，确定为第i层信息筛选网络的候选推送信息。

为达上述目的，本公开第三方面实施例提出了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开第一方面实施例中提供的信息筛选方法。

为达上述目的，本公开第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机指令，其中，计算机指令用于使计算机执行根据本公开第一方面实施例中提供的信息筛选方法。

为达上述目的，本公开第五方面实施例提出了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本公开第一方面实施例中提供的信息筛选方法。

本公开将多层信息筛选网络互相修正，并基于阈值评判机制对候选推送信息实现过滤，有效避免了误差引入，可以提高信息筛选的有效性和稳定性，为信息筛选结果提供了更准确的依据。

附图说明

图1是本公开第一实施例的信息筛选方法的流程示意图；

图2是本公开第二实施例的信息筛选方法的流程示意图；

图3是本公开第三实施例的信息筛选方法的流程示意图；

图4是本公开第四实施例的信息筛选方法的流程示意图；

图5是本公开第五实施例的信息筛选方法的流程示意图；

图6是本公开第一实施例的信息筛选装置的结构框图；

图7是本公开第一实施例的电子设备的结构示意图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

下面结合附图来描述本公开实施例的信息筛选方法及其装置。

图1是本公开第一实施例的信息筛选方法的流程示意图，如图1所示，该方法包括以下步骤：

在步骤S101中，获取样本用户和样本用户的样本历史推送信息，以得到训练样本。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在一些实现中，样本用户可以是多个用户，样本用户的样本历史推送信息可以包括样本用户个人信息、历史推送给样本用户的产品信息和/或用户购买过的产品信息等。

可选地，样本用户信息包括但不限于年龄、性别、学历、从事行业类型、子女数量、个人征信等。

记样本用户个人信息维度特征数量为n，产品数量为m。为了方便建模需要，这里将数据收集整理以矩阵形式展示，矩阵的每一行对应每一个样本用户，矩阵的列数为m+n，分为两部分，前n列对应各个特征维度，后m列对应m个产品，如果样本用户购买/被推送过哪一类产品，则对应产品的列的数值为1，否则为0。以样本用户为用户A、用户B、用户C、用户D......为例，训练样本可以如图2所示。

在一些实现中，训练样本的特征数据可能会发生缺失，还需要要对缺失数据进行补充。在一些实现中，训练样本的某几个维度的特征上高度重合，就容易产生过拟合的问题，还可以对训练数据进行打散和/或穿插排序处理。

在步骤S102中，基于训练样本对信息过滤模型进行训练，得到第一信息筛选模型，其中，信息筛选模型包括多层串联的信息筛选网络，第i+1层信息筛选网络基于样本用户的用户特征和/或样本历史推送信息的信息特征，对第i层信息筛选网络输出的预测推送信息i进行筛选，并由最后一层信息筛选网络输出样本用户的预测推送信息，i的取值为大于或者等于1的整数。

依靠单一模型计算的模式很容易引入误差，如果能将多个模型互相修正、误差抵消，将大大提高模型预测的有效性。本公开实施例中，信息筛选模型包括多层串联的信息筛选网络，如基于决策树算法的分布式梯度提升网络(Light Gradient Boosting Machine，lightGBM)、深度神经网络、协同过滤从算法模型等。

在一些实现中，基于第i层信息筛选网络的筛选概率阈值，对第i层信息筛选网络的输出的预测推送信息i进行截断。将剩余的预测推送信息i，确定为第i层信息筛选网络的候选推送信息。

可选地，以信息筛选模型包括三层串联的信息筛选网络，三层串联的信息筛选网络分别为lightGBM网络、深度神经网络、协同过滤从算法模型为例进行说明，第一层模型采用lightGBM模型，采用多分类模式，分类个数与待推荐产品数m一致。输入训练样本进行模型拟合，拟合完毕后，在此集成算法分类预测模式下，拟合好的模型在预测中会返回一个m维的向量{p₁,p₂,…,p_m}，其每个分量与产品相对应，数值为该产品被选择的概率，各分量累加为

对各个分量采用阈值截断法，即设定一个阈值T，例如可以为

即超过平均水平就考虑被采纳，当p_i>T,i＝1,…,m时，就将对应的产品作为第一层信息筛选网络初步筛选的待推荐产品。假设第一层信息筛选网络筛选出的待推荐产品数为m_i，则可以开始第二层信息筛选网络的筛选。

将第一层信息筛选网络未被筛选出的产品对应的列从训练样本中删除，对训练样本进行更新，获取第二层信息筛选网络的候选推送信息，然后输入第二层信息筛选网络进行拟合训练，第二层信息筛选网络为深度神经网络模型，在多分类模式，拟合完毕的模型在预测中会同样会返回一个m维的向量

并且

同样对各个分量采用阈值截断法，即设定阈值T₁，例如可以为

即超过平均水平就考虑被采纳，当

时，就将对应的产品作为第二层信息筛选网络初步筛选的待推荐产品。假设第二层信息筛选网络筛选出的待推荐产品数为m₂，则可以开始第三层信息筛选网络的筛选。

将第二层信息筛选网络未被筛选出的产品对应的列从训练样本中删除，再次对训练样本进行更新，获取第三层信息筛选网络的候选推送信息，然后输入第三层信息筛选网络进行拟合训练，第三层信息筛选网络为协同过滤从算法模型，这种模型不需要样本用户个人信息，只需要样本历史推送信息，因此直接将训练样本中样本历史推送信息对应的列提取出来输入第三层信息筛选网络进行拟合训练即可，信息过滤模型训练完成后，得到第一信息筛选模型。

本公开实施例对信息筛选网络的层级关系不做限制。也就是说，在其他实现中，三层串联的信息筛选网络分别为深度神经网络、协同过滤从算法模型、lightGBM网络等。

在步骤S103中，获取目标用户的目标特征信息，并将目标特征信息输入第一信息筛选模型中，由第一信息筛选模型基于目标特征信息对候选推送信息进行逐层筛选，输出目标用户的第一推送信息。

本公开实施例中，得到第一信息筛选模型后，可用于信息筛选，首先获取目标用户的目标特征信息，可选地，目标特征信息可以包括目标用户的个人信息，将目标特征信息输入第一信息筛选模型中，由第一信息筛选模型中的多层信息筛选网络基于目标特征信息对候选推送信息进行逐层筛选，输出目标用户的第一推送信息。

可选地，候选推送信息包括多个待推荐的产品信息。

在步骤S104中，按照推送修正策略对第一推送信息进行修正，得到目标用户的第二推送信息。

在一些实现中，为进一步提升信息筛选的精度，还可以通过推送修正策略对第一推送信息进行修正，例如，可以获取目标用户的历史推送信息，如目标用户对每个产品的浏览阅读时长信息、目标用户的历史购买记录等。通过目标用户对每个产品的浏览阅读时长信息，对第一推送信息中的产品进行统计，将浏览阅读时长较长的产品优先推荐。再例如，可以根据目标用户的目标特征信息获取目标用户的工作类型，进而将该工作类型关联的产品优先推荐。

对第一推送信息进行修正后，得到信息筛选后的第二推送信息。

本公开实施例中，获取样本用户和样本用户的样本历史推送信息，以得到训练样本，基于训练样本对信息过滤模型进行训练，得到第一信息筛选模型，获取目标用户的目标特征信息，并将目标特征信息输入第一信息筛选模型中，由第一信息筛选模型基于目标特征信息对候选推送信息进行逐层筛选，输出目标用户的第一推送信息，按照推送修正策略对第一推送信息进行修正，得到目标用户的第二推送信息。本公开将多层信息筛选网络互相修正，并基于阈值评判机制对候选推送信息实现过滤，有效避免了误差引入，可以提高信息筛选的有效性和稳定性，为信息筛选结果提供了更准确的依据。

图3是本公开第一实施例的信息筛选方法的流程示意图，如图3所示，该方法包括以下步骤：

在步骤S301中，获取样本用户和样本用户的样本历史推送信息，以得到训练样本。

在步骤S302中，基于训练样本对信息过滤模型进行训练，得到第一信息筛选模型，其中，信息筛选模型包括多层串联的信息筛选网络，第i+1层信息筛选网络基于样本用户的用户特征和/或样本历史推送信息的信息特征，对第i层信息筛选网络输出的预测推送信息i进行筛选，并由最后一层信息筛选网络输出样本用户的预测推送信息，i的取值为大于或者等于1的整数。

在步骤S303中，获取目标用户的目标特征信息，并将目标特征信息输入第一信息筛选模型中，由第一信息筛选模型基于目标特征信息对候选推送信息进行逐层筛选，输出目标用户的第一推送信息。

关于步骤S301～步骤S303的介绍可以参见上述实施例中的内容，此处不再赘述。

在步骤S304中，获取目标用户的历史推送信息。

目标用户的历史推送信息可以是目标用户对每个产品的浏览阅读时长信息、目标用户的历史购买记录等。

在步骤S305中，基于目标用户的历史推送信息和目标征信息中的至少一个，对第一推送信息进行修正，得到目标用户的第二推送信息。

在一些实现中，获取目标用户对任一历史推送信息的浏览时长。根据浏览时长和目标用户的年龄，判断是否删除任一历史推送信息。在判定任一历史推送信息被保留时，根据浏览时长和目标用户的年龄和性别，确定目标用户对任一历史推送信息的偏好值。根据历史推送信息的偏好值，调整第一推送信息的推送信息中的推送顺序，并将调整推送顺序的第一推送信息，确定为第二推送信息。

以推送信息为产品进行说明，本公开实施例中，主要依据目标用户对每个产品的浏览阅读时长信息，记目标用户阅读时间为t，目标用户年龄为y，性别为M，例如，可以当t小于30秒时，或者目标用户年龄小于15，该推荐产品直接剔除，当t大于15秒时，可以采用如下公式计算其兴趣值Inte：

I_M为示性函数，当性别为男和女时分别赋予不同数值，数值具体大小可以自行设定，为的是区分不同性别带来的产品兴趣影响。上面公式之所以有两个产品剔除的条件设定，是因为产品阅读时间太短可以侧面说明目标用户的偏好因素，产品阅读时间较短的推荐价值较低，年龄较小的推荐价值较低，这两种情况的直接剔除可以更好地匹配现实业务逻辑。公式中[ln(t-29)]²的结构设计保证数值一定为正，且数值增长曲线符合对数函数特性，而非线性或指数级增高，与兴趣曲线符合边际效应递减的特性是对应的。ln(y-13)作为的设计也是出于同样考虑，人的年龄增长对阅读时长会有提升效应，所以需要用其作为除数修正阅读时间对兴趣提升的影响，同时这种影响修正也是应当符合边际效应递减特性的，符合现实中年龄的边际效益递减比阅读时间衰减慢。获取兴趣值后可对模型推荐产品结果进行重新排序，兴趣值高的优先推荐，兴趣值低的后推荐或者不推荐。由此，可以调整推送顺序的第一推送信息，获取第二推送信息。

在一些实现中，获取第一推送信息中任一推送信息的历史推送记录，并基于历史推送记录确定任一推送信息的历史用户集。基于历史用户集中历史用户的特征信息，确定任一推送信息对应的身份标签。根据目标特征信息和任一推送信息的身份标签，判定目标用户是否为任一推送信息的潜在客户。从第一推送信息中确定目标用户为潜在用户的推送信息，作为第二推送信息。也就是说，通过历史数据中不同产品被不同身份标签的客户购买的记录分析每一种产品适用的客群对象，这里身份标签可以包括年龄、学历、从事行业类型三种，通过分析这三中身份标签信息和推送信息之间的关联度来判断推送信息的潜在客群，关联度的衡量方法可以采用非参数分析中的秩相关系数，可以基于客户的身份标签信息，计算秩相关系数，在第一推送信息中重新择优再推荐。

在一些实现中，获取候选推送信息的历史推送量和候选推送信息的资源占用量。根据历史推送量和资源占用量，从候选推送信息中确定部分推送信息，构成推送信息池。从推送信息池中筛选一个或多个第三推送信息。基于第三推送信息对第一推送信息进行修正，得到第二推送信息。在一些实现中，基于第三推送信息对第一推送信息进行替换，在一些实现中，基于第三推送信息对第一推送信息中排序靠后的部分进行替换。本公开对此不做限制。举例说明，将各种产品的销售记录调取出来，对其销售量或者销售金额直接排序，选取前1％作为精品入选精品池，可直接从精品池中获取一定数量的精品产品直接推荐给目标用户，或从精品池中获取一定数量的精品产品对第一推送信息中排序靠后的部分进行替换。

图4是本公开第一实施例的信息筛选方法的流程示意图，如图4所示，该方法包括以下步骤：

在步骤S401中，获取样本用户的样本特征信息和样本历史推送信息的信息特征。

在步骤S402中，对特征项的特征值进行缺失识别，并对缺失的特征值进行补充，以得到训练样本。

在一些实现中，采用贝叶斯统计方法获取缺失特征值的特征项的分布类型。基于分布类型产生随机数作为补充特征值。基于补充特征值作为缺失特征值对特征项进行补充，得到训练样本。

举例说明，对于训练样本的矩阵中具有缺失值的一整列数据，将该列对应特征的非缺失数值收集起来作为缺失样本，构建缺失样本的经验分布函数柱状图，通过柱状图分布构型近似判断属于哪一种分布类型，可选地，分布类型可以包括正态分布、t分布、卡方分布、f分布等，然后基于该分布类型产生随机数作为补充数据。如果柱状图分布特性杂乱难以判断分布函数，则直接产生0-1范围内随机数，然后作为分位点从非缺失数值的总体样本中寻找相应的分位数作为填充值。

在步骤S403中，基于训练样本对信息过滤模型进行训练，得到第一信息筛选模型，其中，信息筛选模型包括多层串联的信息筛选网络，第i+1层信息筛选网络基于样本用户的用户特征和/或样本历史推送信息的信息特征，对第i层信息筛选网络输出的预测推送信息i进行筛选，并由最后一层信息筛选网络输出样本用户的预测推送信息，i的取值为大于或者等于1的整数。

需要说明的是，在一些实现中，基于训练样本对信息过滤模型进行分批次训练。获取当次训练后的预测推荐信息与当次的样本历史推送信息的差异满足设定条件。对训练样本进行二次穿插排序，得到调整后的训练样本，并基于调整后的训练样本继续训练信息过滤模型。

本公开实施例中，可以随机抽取百分比的训练样本对信息过滤模型进行训练，例如，可以抽取80％训练样本作为模型拟合的训练集，剩余20％数据作为模型预测检验的测试集。或者可以抽取70％训练样本作为模型拟合的训练集，剩余30％训练样本作为模型预测检验的测试集。

为了对数据的细节信息进行充分提取，提升信息筛选效果的精准性，本公开实施例中，可以对模型拟合的训练集数据打散化。数据打散化的核心目标在于增大数据的代表性、多样性。对于模型而言，如果输入的数据在某几个维度的特征上高度重合，就容易产生过拟合的问题，模型所需的数据并不是越多越好的，如果单一类型数据过量就会让模型在拟合中过度偏向于这一类型数据所反映的信息或者模式，导致在后续的预测中不能适应其它类型的数据。举一个例子：假如现在训练集的数据因为事先数据划分不合理，导致其95％的样本用户购买了产品x，但实际上产品x在总体样本中的平均购买率只有70％，这个时候的训练集样本一定是不均衡的，这就需要采用重新抽样或者与测试集进行样本置换的方式，让训练集中的各特征所占比例能够大致与总体样本差不多，这样的数据才会有代表性，具体实现方式主要是对原样本进行二次穿插排序，如果实在难以穿插，也可考虑删除一部分数据，使得样本更加平衡。

在步骤S404中，获取目标用户的目标特征信息，并将目标特征信息输入第一信息筛选模型中，由第一信息筛选模型基于目标特征信息对候选推送信息进行逐层筛选，输出目标用户的第一推送信息。

在步骤S405中，按照推送修正策略对第一推送信息进行修正，得到目标用户的第二推送信息。

关于步骤S403～步骤S405的介绍可以参见上述实施例中的内容，此处不再赘述。

本公开实施例中，获取样本用户的样本特征信息和样本历史推送信息的信息特征，对特征项的特征值进行缺失识别，并对缺失的特征值进行补充，以得到训练样本。本公开可以对数据的细节信息进行充分提取，提升信息筛选效果的精准性，有效避免了误差引入，可以提高信息筛选的有效性和稳定性，为信息筛选结果提供了更准确的依据。

图5是本公开第一实施例的信息筛选方法的流程示意图，如图5所示，获取目标用户的目标特征信息，对特征项的特征值进行缺失识别，并对缺失的特征值进行补充，并将目标特征信息输入第一信息筛选模型中，由第一信息筛选模型中的多层信息筛选网络基于目标特征信息对候选推送信息进行逐层筛选，输出目标用户的第一推送信息；按照推送修正策略对第一推送信息进行修正，得到目标用户的第二推送信息。

本公开可以对数据的细节信息进行充分提取，提升信息筛选效果的精准性，有效避免了误差引入，可以提高信息筛选的有效性和稳定性，为信息筛选结果提供了更准确的依据。

图6为根据本公开第一实施例的信息筛选装置的框图。

如图6所示，本公开实施例的信息筛选装置600，包括：

获取模块610，用于获取样本用户和样本用户的样本历史推送信息，以得到训练样本；

训练模块620，用于基于训练样本对信息过滤模型进行训练，得到第一信息筛选模型，其中，信息筛选模型包括多层串联的信息筛选网络，第i+1层信息筛选网络基于样本用户的用户特征和/或样本历史推送信息的信息特征，对第i层信息筛选网络输出的预测推送信息i进行筛选，并由最后一层信息筛选网络输出样本用户的预测推送信息，i的取值为大于或者等于1的整数；

筛选模块630，用于获取目标用户的目标特征信息，并将目标特征信息输入第一信息筛选模型中，由第一信息筛选模型基于目标特征信息对候选推送信息进行逐层筛选，输出目标用户的第一推送信息；

修正模块640，用于按照推送修正策略对第一推送信息进行修正，得到目标用户的第二推送信息。

在一些实现中，修正模块640，还用于：获取目标用户的历史推送信息；基于目标用户的历史推送信息和目标征信息中的至少一个，对第一推送信息进行修正，得到目标用户的第二推送信息。

在一些实现中，修正模块640，还用于：获取目标用户对任一历史推送信息的浏览时长；根据浏览时长和目标用户的年龄，判断是否删除任一历史推送信息；在判定任一历史推送信息被保留时，根据浏览时长和目标用户的年龄和性别，确定目标用户对任一历史推送信息的偏好值；根据历史推送信息的偏好值，调整第一推送信息的推送信息中的推送顺序，并将调整推送顺序的第一推送信息，确定为第二推送信息。

在一些实现中，修正模块640，还用于：获取第一推送信息中任一推送信息的历史推送记录，并基于历史推送记录确定任一推送信息的历史用户集；

在一些实现中，修正模块640，还用于：获取候选推送信息的历史推送量和候选推送信息的资源占用量；根据历史推送量和资源占用量，从候选推送信息中确定部分推送信息，构成推送信息池；从推送信息池中筛选一个或多个第三推送信息；基于第三推送信息对第一推送信息进行修正，得到第二推送信息。

在一些实现中，获取模块610，还用于：获取样本用户的样本特征信息和样本历史推送信息的信息特征；对特征项的特征值进行缺失识别，并对缺失的特征值进行补充，以得到训练样本。

在一些实现中，获取模块610，还用于：采用贝叶斯统计装置获取缺失特征值的特征项的分布类型；基于分布类型产生随机数作为补充特征值；基于补充特征值作为缺失特征值对特征项进行补充，得到训练样本。

在一些实现中，训练模块620，还用于：基于训练样本对信息过滤模型进行分批次训练；获取当次训练后的预测推荐信息与当次的样本历史推送信息的差异满足设定条件；对训练样本进行二次穿插排序，得到调整后的训练样本，并基于调整后的训练样本继续训练信息过滤模型。

在一些实现中，筛选模块630，还用于：基于第i层信息筛选网络的筛选概率阈值，对第i层信息筛选网络的输出的预测推送信息i进行截断；将剩余的预测推送信息i，确定为第i层信息筛选网络的候选推送信息。

图7是根据一示例性实施例示出的一种电子设备的框图。应说明的是，电子设备可为客户端、银行系统、卡组织系统中的任一种电子设备。

如图7所示，上述电子设备700包括：

存储器710及处理器720，连接不同组件(包括存储器710和处理器720)的总线730，存储器710存储有计算机程序，当处理器720执行所述程序时实现本公开实施例所述的信息筛选方法。

总线730表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备700典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备700访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器710还可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)740和/或高速缓存存储器750。电子设备700可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统760可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线730相连。存储器710可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块770的程序/实用工具780，可以存储在例如存储器710中，这样的程序模块770包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块770通常执行本公开所描述的实施例中的功能和/或方法。

电子设备700也可以与一个或多个外部设备790(例如键盘、指向设备、显示器791等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口792进行。并且，电子设备700还可以通过网络适配器793与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图7所示，网络适配器793通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器720通过运行存储在存储器710中的程序，从而执行各种功能应用以及数据处理。

需要说明的是，本实施例的电子设备的实施过程和技术原理参见前述对本公开实施例的信息筛选方法的解释说明，此处不再赘述。

为了实现上述实施例，本公开还提出一种计算机可读存储介质。

其中，该计算机可读存储介质中的指令由业务服务器的处理器执行时，使得业务服务器能够执行如前所述的信息筛选方法。可选的，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

为了实现上述实施例，本公开还提供一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如前所述的信息筛选方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种信息筛选方法，其特征在于，所述方法包括：

获取样本用户和所述样本用户的样本历史推送信息，以得到训练样本；

基于所述训练样本对信息过滤模型进行训练，得到第一信息筛选模型，其中，所述信息筛选模型包括多层串联的信息筛选网络，第i+1层信息筛选网络基于所述样本用户的用户特征和/或所述样本历史推送信息的信息特征，对第i层信息筛选网络输出的预测推送信息i进行筛选，并由最后一层信息筛选网络输出所述样本用户的预测推送信息，所述i的取值为大于或者等于1的整数；

获取目标用户的目标特征信息，并将所述目标特征信息输入所述第一信息筛选模型中，由所述第一信息筛选模型基于所述目标特征信息对候选推送信息进行逐层筛选，输出所述目标用户的第一推送信息；

按照推送修正策略对所述第一推送信息进行修正，得到所述目标用户的第二推送信息。

2.根据权利要求1所述的方法，其特征在于，所述按照推送修正策略对所述第一推送信息进行修正，得到所述目标用户的第二推送信息，包括：

获取所述目标用户的历史推送信息；

基于所述目标用户的历史推送信息和所述目标征信息中的至少一个，对所述第一推送信息进行修正，得到所述目标用户的第二推送信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标用户的历史推送信息和所述目标征信息中的至少一个，对所述第一推送信息进行修正，得到所述目标用户的第二推送信息，包括：

获取所述目标用户对所述任一历史推送信息的浏览时长；

根据所述浏览时长和所述目标用户的年龄，判断是否删除所述任一历史推送信息；

在判定所述任一历史推送信息被保留时，根据所述浏览时长和所述目标用户的年龄和性别，确定所述目标用户对所述任一历史推送信息的偏好值；

根据所述历史推送信息的偏好值，调整所述第一推送信息的推送信息中的推送顺序，并将调整推送顺序的所述第一推送信息，确定为所述第二推送信息。

4.根据权利要求2所述的方法，其特征在于，所述基于所述目标用户的历史推送信息和所述目标征信息中的至少一个，对所述第一推送信息进行修正，得到所述目标用户的第二推送信息，包括：

获取所述第一推送信息中任一推送信息的历史推送记录，并基于所述历史推送记录确定所述任一推送信息的历史用户集；

基于所述历史用户集中历史用户的特征信息，确定所述任一推送信息对应的身份标签；

根据所述目标特征信息和所述任一推送信息的身份标签，判定所述目标用户是否为所述任一推送信息的潜在客户；

从所述第一推送信息中确定所述目标用户为潜在用户的推送信息，作为所述第二推送信息。

5.根据权利要求1所述的方法，其特征在于，所述按照推送修正策略对所述第一推送信息进行修正，得到所述目标用户的第二推送信息，包括：

获取所述候选推送信息的历史推送量和所述候选推送信息的资源占用量；

根据所述历史推送量和所述资源占用量，从所述候选推送信息中确定部分推送信息，构成推送信息池；

从所述推送信息池中筛选一个或多个第三推送信息；

基于所述第三推送信息对所述第一推送信息进行修正，得到所述第二推送信息。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述获取样本用户和所述样本用户的样本历史推送信息，以得到训练样本，包括：

获取所述样本用户的样本特征信息和所述样本历史推送信息的信息特征；

对特征项的特征值进行缺失识别，并对缺失的特征值进行补充，以得到所述训练样本。

7.根据权利要求6所述的方法，其特征在于，所述对特征项的特征值进行缺失识别，并对缺失的特征值进行补充，以得到所述训练样本，包括：

采用贝叶斯统计方法获取缺失特征值的特征项的分布类型；

基于所述分布类型产生随机数作为补充特征值；

基于所述补充特征值作为所述缺失特征值对所述特征项进行补充，得到所述训练样本。

8.根据权利要求1-5中任一项所述的方法，其特征在于，所述方法还包括：

基于所述训练样本对所述信息过滤模型进行分批次训练；

获取当次训练后的预测推荐信息与当次的样本历史推送信息的差异满足设定条件；

对所述训练样本进行二次穿插排序，得到调整后的训练样本，并基于调整后的训练样本继续训练所述信息过滤模型。

9.根据权利要求1-5中任一项所述的方法，其特征在于，所述方法还包括：

基于所述第i层信息筛选网络的筛选概率阈值，对所述第i层信息筛选网络的输出的预测推送信息i进行截断；

将剩余的预测推送信息i，确定为所述第i层信息筛选网络的候选推送信息。

10.一种信息筛选装置，其特征在于，所述装置包括：

获取模块，用于获取样本用户和所述样本用户的样本历史推送信息，以得到训练样本；

训练模块，用于基于所述训练样本对信息过滤模型进行训练，得到第一信息筛选模型，其中，所述信息筛选模型包括多层串联的信息筛选网络，第i+1层信息筛选网络基于所述样本用户的用户特征和/或所述样本历史推送信息的信息特征，对第i层信息筛选网络输出的预测推送信息i进行筛选，并由最后一层信息筛选网络输出所述样本用户的预测推送信息，所述i的取值为大于或者等于1的整数；

筛选模块，用于获取目标用户的目标特征信息，并将所述目标特征信息输入所述第一信息筛选模型中，由所述第一信息筛选模型基于所述目标特征信息对候选推送信息进行逐层筛选，输出所述目标用户的第一推送信息；

修正模块，用于按照推送修正策略对所述第一推送信息进行修正，得到所述目标用户的第二推送信息。

11.根据权利要求10所述的装置，其特征在于，所述修正模块，还用于：

获取所述目标用户的历史推送信息；

12.根据权利要求11所述的装置，其特征在于，所述修正模块，还用于：

获取所述目标用户对所述任一历史推送信息的浏览时长；

13.根据权利要求11所述的装置，其特征在于，所述修正模块，还用于：

14.根据权利要求10所述的装置，其特征在于，所述修正模块，还用于：

从所述推送信息池中筛选一个或多个第三推送信息；

15.根据权利要求10-14中任一项所述的装置，其特征在于，所述获取模块，还用于：

16.根据权利要求15所述的装置，其特征在于，所述获取模块，还用于：

采用贝叶斯统计装置获取缺失特征值的特征项的分布类型；

基于所述分布类型产生随机数作为补充特征值；

17.根据权利要求10-14中任一项所述的装置，其特征在于，所述训练模块，还用于：

基于所述训练样本对所述信息过滤模型进行分批次训练；

18.根据权利要求10-14中任一项所述的装置，其特征在于，所述筛选模块，还用于：

19.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-9中任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-9中任一项所述的方法。