CN111242310B

CN111242310B - 特征有效性评估方法、装置、电子设备及存储介质

Info

Publication number: CN111242310B
Application number: CN202010007053.1A
Authority: CN
Inventors: 陈晓爽; 于春功
Original assignee: Shenzhen Yayue Technology Co ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2023-04-18
Anticipated expiration: 2040-01-03
Also published as: CN111242310A; US20220215296A1; WO2021135562A1

Abstract

本发明提供了一种特征有效性评估方法、装置、电子设备及存储介质，涉及人工智能技术；方法包括：构建包括多个特征组合方式的特征组合方式集合，特征组合方式为针对待推荐内容的原始特征的组合方式；获取各特征组合方式对应的特征值集合，特征值集合包括各组合特征的特征取值，组合特征基于相应的特征组合方式对原始特征进行特征组合得到；基于各组合特征的特征取值，确定相应的组合特征的权重值；基于各组合特征的权重值，构建相应的特征组合方式的权重值集合；基于各特征组合方式的权重值集合，分别确定各特征组合方式的有效性。通过本发明，能够提高对大量的特征组合方式的有效性进行评估的效率。

Description

特征有效性评估方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能(AI，Artificial Intelligence)领域中的机器学习技术，尤其涉及一种特征有效性评估方法、装置、电子设备及存储介质。

背景技术

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。

内容推荐是人工智能的一个应用方向，具体研究向客户端推荐感兴趣的内容，从而实现内容推广的目的。客户端对内容的点击率，是决定向客户端推荐内容的重要指标。不同特征的组合可能对点击率预估提供有效的信息，因此，选择合适的特征组合方式对特征进行组合在内容推荐中具有重要意义，而评估特征组合方式的有效性是关键环节。

在相关技术中，主要采用实验方法或模型训练方法评估特征组合方式的有效性，然而，相关技术的这些评估方法均无法对大量的特征组合方式的有效性进行快速评估。

发明内容

本发明实施例提供一种特征有效性评估方法、装置、电子设备及存储介质，能够提高对大量的特征组合方式的有效性进行评估的效率。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种特征有效性评估方法，所述方法包括：

构建包括多个特征组合方式的特征组合方式集合，所述特征组合方式为针对待推荐内容的原始特征的组合方式；

获取各所述特征组合方式对应的特征值集合，所述特征值集合包括各组合特征的特征取值，所述组合特征基于相应的特征组合方式对所述原始特征进行特征组合得到；

基于各所述组合特征的特征取值，确定相应的组合特征的权重值；

基于各所述组合特征的权重值，构建相应的特征组合方式的权重值集合；

基于各所述特征组合方式的权重值集合，分别确定各所述特征组合方式的有效性，所述有效性，用于表征基于相应的特征组合方式组合得到的特征进行内容推荐的准确度。

上述方案中，所述正样本，表征在所述待推荐内容的展示过程中，所展示的多个待推荐内容中被点击的内容对应的样本数据；

所述负样本，表征在所述待推荐内容的展示过程中，所展示的多个待推荐内容中未被点击的内容对应的样本数据。

上述方案中，所述基于各所述组合特征的特征取值，确定相应的组合特征的权重值，包括：

将各所述组合特征的特征取值输入至权重计算模型中，得到所述权重计算模型输出的各所述组合特征的权重值。

上述方案中，所述方法还包括：

基于各所述特征组合方式的有效性的排序，从所述特征组合方式集合中筛选得到目标数量的特征组合方式作为第一候选特征组合方式；

基于所述第一候选特征组合方式及所述原始特征，生成多个第二候选特征组合方式；

从所述多个第二候选特征组合方式中，选取符合筛选条件的特征组合方式作为目标特征组合方式；

基于所述目标特征组合方式，对所述原始特征进行特征组合，得到目标组合特征，以基于所述目标组合特征进行内容推荐。

上述方案中，所述基于所述目标组合特征进行内容推荐，包括：

将所述目标组合特征作为输入特征，输入至点击率预估模型中，得到目标用户对所述待推荐内容的点击率；

基于所述点击率，从所述待推荐内容中选取目标数量的内容作为目标推荐内容；

将所述目标推荐内容返回至所述目标用户。

本发明实施例还提供一种特征有效性评估装置，所述装置包括：

第一构建单元，用于构建包括多个特征组合方式的特征组合方式集合，所述特征组合方式为针对待推荐内容的原始特征的组合方式；

获取单元，用于获取各所述特征组合方式对应的特征值集合，所述特征值集合包括各组合特征的特征取值，所述组合特征基于相应的特征组合方式对所述原始特征进行特征组合得到；

第一确定单元，用于基于各所述组合特征的特征取值，确定相应的组合特征的权重值；

第二构建单元，用于基于各所述组合特征的权重值，构建相应的特征组合方式的权重值集合；

第二确定单元，用于基于各所述特征组合方式的权重值集合，分别确定各所述特征组合方式的有效性，所述有效性，用于表征基于相应的特征组合方式组合得到的特征进行内容推荐的准确度。

上述方案中，所述第一确定单元包括：

第一确定子单元，用于确定所述组合特征的各特征取值对应的正样本统计量，以及所述组合特征的各特征取值对应的负样本统计量；

第二确定子单元，用于基于所述各特征取值对应的正样本统计量与负样本统计量，得到相应的所述组合特征的权重值。

上述方案中，所述第一确定子单元，还用于：

当所述组合特征的特征取值为一个时，确定包括所述特征取值的正样本统计量，为所述特征取值对应的正样本统计量，以及

确定包括所述特征取值的负样本统计量，为所述特征取值对应的负样本统计量。

上述方案中，所述第一确定子单元，还用于：

确定包括所述特征取值的正样本中组合特征的特征取值统计量，以及包括所述特征取值的负样本中组合特征的特征取值统计量；

基于包括所述特征取值的正样本中组合特征的特征取值统计量，确定所述特征取值对应的正样本统计量；

基于包括所述特征取值的负样本中组合特征的特征取值统计量，确定所述特征取值对应的负样本统计量。

上述方案中，所述第一确定子单元，还用于：

确定包括所述特征取值的正样本为训练样本时对应的第一预测精度，以及包括所述特征取值的负样本为训练样本时对应的第二预测精度；

基于所述第一预测精度，确定所述特征取值对应的正样本统计量；

基于所述第二预测精度，确定所述特征取值对应的负样本统计量；

其中，所述第一预测精度表征基于所述特征取值的正样本进行推荐的准确度；所述第二预测精度表征基于所述特征取值的负样本进行推荐的准确度。

上述方案中，所述第一确定子单元，还用于：

确定第一采样样本的权重值及第二采样样本的权重值；

其中，所述第一采样样本，表征从包括所述特征取值的正样本中抽取的第一比例的样本；所述第二采样样本，表征从包括所述特征取值的负样本中抽取的第二比例的样本；

基于所述第一采样样本的权重值，确定所述特征取值对应的正样本统计量；

基于所述第二采样样本的权重值，确定所述特征取值对应的负样本统计量。

上述方案中，所述第一确定子单元，还用于：

确定第一部分样本中包括所述特征取值的正样本的权重值，以及第二部分样本中第一采样样本的权重值，所述第一采样样本，表征从归属于所述第二部分样本且包括所述特征取值的正样本中抽取的第一比例的样本；

确定所述第一部分样本中包括所述特征取值的负样本的权重值，以及所述第二部分样本中第二采样样本的权重值，所述第二采样样本，表征从归属于所述第二部分样本且包括所述特征取值的负样本中抽取的第二比例的样本；

基于所述第一部分样本中包括所述特征取值的正样本的权重值，以及第二部分样本中第一采样样本的权重值，确定所述特征取值对应的正样本统计量；

基于所述第一部分样本中包括所述特征取值的负样本的权重值，以及所述第二部分样本中第二采样样本的权重值，确定所述特征取值对应的负样本统计量。

上述方案中，所述第二确定子单元，还用于：

基于各所述特征取值对应的正样本统计量与负样本统计量，采用如下公式，得到相应的所述组合特征的权重值：

其中，w_F,j为组合特征的权重值；F为特征组合方式；j为该特征组合方式F下所对应的各组合特征的特征取值；

为特征取值j对应的正样本统计量；

为特征取值j对应的负样本统计量。

上述方案中，所述第二确定子单元，还用于：

当

小于λ₁时，所述组合特征的权重值为零；

当

大于λ₁时，所述组合特征的权重值为差值与第一和值的比值，所述差值为

与λ₁的差值，所述第一和值为N′与λ₂的和值；

当

小于-λ₁时，所述组合特征的权重值为第二和值与所述第一和值的比值，所述第二和值为

与λ₁的和值；

其中，λ₁和λ₂均为非负实数；N′根据乘积值与第三和值的比值得到；所述乘积值为所述特征取值对应的正样本统计量，与所述特征取值对应的负样本统计量的乘积值；所述第三和值为所述特征取值对应的正样本统计量，与所述特征取值对应的负样本统计量的和值；

根据所述特征取值对应的正样本统计量，与所述特征取值对应的负样本统计量的比值得到。

上述方案中，所述第一确定单元，还用于：

上述方案中，所述第二确定单元，还用于：

将所述权重值集合中的所有所述组合特征的权重值进行加权，得到对应所述特征组合方式的评分；

基于各所述特征组合方式的评分，分别确定各所述特征组合方式的有效性。

上述方案中，所述第二确定单元，还用于：

将各所述特征组合方式的评分与目标评分进行比较，得到对应各所述特征组合方式的比较结果；

基于所述比较结果，确定对应各所述特征组合方式的有效性。

上述方案中，所述装置还包括：

第一筛选单元，用于基于各所述特征组合方式的有效性的排序，从所述特征组合方式集合中筛选得到目标数量的特征组合方式作为目标特征组合方式；

特征组合单元，用于基于所述目标特征组合方式，对所述原始特征进行特征组合，得到目标组合特征；

内容推荐单元，用于基于所述目标组合特征进行内容推荐。

上述方案中，所述装置还包括：

第二筛选单元，用于基于各所述特征组合方式的有效性的排序，从所述特征组合方式集合中筛选得到目标数量的特征组合方式作为第一候选特征组合方式；

生成单元，用于基于所述第一候选特征组合方式及所述原始特征，生成多个第二候选特征组合方式；

第三筛选单元，用于从所述多个第二候选特征组合方式中，选取符合筛选条件的特征组合方式作为目标特征组合方式；

内容推荐单元，用于基于所述目标组合特征进行内容推荐。

上述方案中，所述内容推荐单元，还用于：

将所述目标推荐内容返回至所述目标用户。

本发明实施例还提供一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的特征有效性评估方法。

本发明实施例还提供一种存储介质，存储有可执行指令，所述可执行指令被处理器执行时，用于实现本发明实施例提供的特征有效性评估方法。

应用本发明上述实施例具有以下有益效果：

应用本发明实施例提供的特征有效性评估方法、装置、电子设备及存储介质，对于给定的包括多个特征组合方式的特征组合方式集合，通过获取各特征组合方式对应的特征值集合，这里特征值集合包括各组合特征的特征取值，基于各组合特征的特征取值，确定相应的组合特征的权重值，从而基于各组合特征的权重值，构建相应的特征组合方式的权重值集合，如此，基于各特征组合方式的权重值集合，就可以确定各特征组合方式的有效性，无需进行耗时的实验和模型训练，能够实现在短时间内评估大量的特征组合方式的有效性，提高对大量的特征组合方式的有效性进行评估的效率，进而提升推荐系统的推荐效果。

附图说明

图1为本发明实施例提供的特征有效性评估系统10的一个可选的架构示意图；

图2为本发明实施例提供的电子设备20的一个可选的硬件结构示意图；

图3为本发明实施例提供的特征有效性评估装置255的一个可选的组成结构示意图；

图4为本发明实施例提供的推荐系统的一个可选的结构示意图；

图5为本发明实施例提供的特征有效性评估方法的一个可选的流程示意图；

图6为本发明实施例提供的特征有效性评估方法的另一个可选的流程示意图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一”、“第二”等仅仅是用于区别类似的对象，不代表针对对象的特定的顺序或先后次序，可以理解地，“第一”、“第二”等在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本发明实施例所使用的所有的技术和科学术语与属于本发明实施例的技术领域的技术人员通常理解的含义相同。本发明中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本发明。

在对本发明实施例进行进一步详细说明之前，先对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)推荐系统，内容推荐是推荐系统的一个重要应用，其中，内容推荐是一种根据用户的需求，在大量的待推荐内容中选取用户感兴趣的内容，并将所选取的内容推荐给用户的过程。其中，待推荐内容可以是媒体文件，也可以是物品等，这里的物品可以是某个产品或者商品。

2)媒体文件，在互联网中可获取的各种形式(比如视频、音频、图文等媒体形式)的媒体，例如客户端中呈现的视频文件、包括图文形式的文章(比如网络文章或新媒体文章)、新闻、广告等。

3)点击率(CTR，Click-Through Rate)，是指客户端中的某一待推荐内容被用户点击的次数与被显示的次数的比值，也就是说，点击率是指该待推荐内容被用户点击的概率。在推荐系统中，用户的点击率是一个非常重要的指标，尤其是在在线推荐系统中，对于用户对某个待推荐内容的点击率进行预测，从而决定是否向用户推荐该待推荐内容，是提高用户体验的重要方式。

4)点击率预估，是对点击率进行预测的方法，也可称为点击率预估算法，该类算法是根据用户和待推荐内容的相关信息，以及其它的背景数据(比如点击行为发生的时间、用户所处的网络环境、使用的终端设备如是使用手机还是电脑)等，预测用户在某一背景下点击某个待推荐内容的概率的算法。

其中，点击率预估算法通常可基于一定的数学模型(如点击率预估模型)实现，该模型的输入特征可以是原始特征，也可以是组合特征，以对点击率预估提供有效的信息。

5)原始特征，是指从样本中直接得到的特征，原始特征可以包括用户特征、内容特征、背景环境特征。其中，用户特征例如可以是用户标识(用户ID)、用户的兴趣爱好、用户性别、用户年龄等；内容特征例如可以是内容标识(内容ID)、内容分类、内容标签等；背景环境特征例如可以是用户访问时间、用户访问时所处的网络环境(比如WiFi或者蜂窝移动网络)等。

6)组合特征，是指通过对一个或多个原始特征进行特征组合所得到的特征，其取值应遍历原始特征的所有可能的取值组合。

举例来说，如果有两个原始特征，分别为特征1和特征2，特征1的取值范围为A和B，特征2的取值范围为C、D和E，那么，通过对特征1和特征2进行特征组合，可以得到多个组合特征，组合特征的取值范围为AC、AD、AE、BC、BD和BE；如果两个原始特征为“特征1：A，特征2：C”，那么对应得到的组合特征为AC。以上是通过对两个原始特征(特征1和特征2)进行特征组合得到组合特征的示例性说明，基于上述类似的方法，可以实现对多个原始特征(比如两个以上的原始特征)进行特征组合，以得到相应的多个组合特征。

7)特征组合方式，是指将原始特征进行特征组合得到组合特征的方式，而组合特征，是指在该特征组合方式下所对应的具体特征值。例如，“用户ID-内容标签”为一种特征组合方式，而“张三-篮球”则是该特征组合方式下所对应的一个组合特征的特征取值。

8)特征工程，是指一种选择合适的原始特征和特征组合方式的过程。在推荐系统中，由于特征工程的效率直接影响到推荐系统的推荐效果，因此，特征工程是推荐系统中极其重要的处理环节。

9)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

本发明实施例提供的特征有效性评估方法可应用于推荐系统中，涉及人工智能领域，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

机器学习技术是人工智能的重要应用分支，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习技术是人工智能的核心，是使计算机具有智能的根本途径，机器学习技术的应用遍及人工智能的各个领域。本发明实施例通过机器学习技术实现对大量的特征组合方式的有效性进行评估，而无需进行耗时的实验和模型训练，可以在短时间内评估大量的特征组合方式的有效性，能够提高对特征组合方式的有效性进行评估的效率，进而提升推荐系统的推荐效果。

在特征工程中，通常面临的问题是如何评估特征组合方式的有效性，以便根据评估结果确定基于该特征组合方式进行组合的组合特征，是否可以新增至点击率预估模型中，以对点击率预估提供有效的信息。为解决该技术问题，相关技术提供了评估特征组合方式的有效性的方案。

在相关技术的一些方案中，主要依赖大量实验的实验结果评估特征组合方式的有效性，通常需要从业人员根据经验筛选出基于该特征组合方式组合得到的一些备选的特征，这就要求从业人员对产品具有较高的熟悉度，以及对数据具有较好的敏感度，才能筛选合适的特征，但由于不同的从业人员的经验并不相同，因此，人工特征选择的方法需要大量的试错环节，其质量和速度均难以得到有效的保证，且实验非常耗时，当存在大量的特征组合方式时，通过实验方法评估每个特征组合方式的有效性的速度会很慢，消耗计算资源多，在有限时间内能够评估的特征组合方式的数量是极其有限的，导致对大量的特征组合方式的有效性进行评估的效率大大降低。

在相关技术的另一些方案中，可通过全量训练方法实现特征组合方式的有效性的评估，具体地，首先，基于待评估的特征组合方式对原始特征进行组合得到不同的特征，其次，全量训练方法在加入每个特征之后，通过一次全量的模型训练，得到含有该特征的模型，并评估该模型的预估效果，作为评估特征组合方式的有效性的依据。其中，模型训练通常采用随机梯度下降法(SGD，Stochastic Gradient Descent)或其变形方法。然而，全量训练方法的主要问题在于其计算速度较慢，通常需要大量的时间来训练，因此，制约了从业人员尝试更多特征的能力，进而影响了特征工程的效率。

下面以全量训练方法为梯度提升决策树(Gradient Boosting Decision Tree)方法(简称决策树方法)为例进行说明。决策树方法根据多个判断条件将原始特征映射到一个新的特征，例如，决策树方法将所有样本分为10组：满足性别男、年龄在20-25岁之间样本，作为第1组；满足性别女、年龄在20-25岁之间的样本，作为第2组；等等，在判断某个候选特征组合方式的有效性时，决策树方法采用信息增益、信息增益比、基尼系数等参数进行评估。

然而，决策树方法主要适用于连续特征和只有少量取值的离散特征(例如性别)的特征工程。这在早期的推荐系统中较为有效，但目前的推荐系统具有大量被称为ID类特征的离散特征，例如用户ID、内容ID等，这些特征具有大量可能的取值，而决策树方法对特征的取值数量非常敏感，因此，在判断有效性时面临着模型复杂度极高，以至于无法应用于在线推荐系统，还会面临着判断不准确等问题，使得决策树方法难以应用于工业化的推荐系统中。

由此可见，相关技术的方案均无法对大量的特征组合方式的有效性进行快速评估。为至少解决相关技术的上述技术问题，本发明实施例提供了一种特征有效性评估方法，通过获取各特征组合方式对应的特征值集合，这里特征值集合包括各组合特征的特征取值，基于各组合特征的特征取值，确定相应的组合特征的权重值，从而基于各组合特征的权重值，构建相应的特征组合方式的权重值集合，如此，基于各特征组合方式的权重值集合，就可以确定各特征组合方式的有效性，提高了对大量的特征组合方式的有效性进行评估的效率；还可以基于特征组合方式的有效性筛选出合适的目标特征组合方式，基于目标特征组合方式得到目标组合特征，以用于推荐系统进行内容推荐，显著提高特征工程的效率，实现更准确的点击率预估，为推荐系统提供强有力的技术支持，提升推荐系统的推荐效果。

下面说明实施本发明实施例的特征有效性评估方法的电子设备的示例性应用，本发明实施例提供的电子设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如移动电话、便携式音乐播放器、个人数字助理、专用消息设备、便携式游戏设备)等各种类型的终端设备，也可以实施为服务器，当然，也可以为终端设备和服务器协同实施。这里，服务器可以为云端服务器，但本发明实施例中并不仅限于云端服务器。

下面以终端设备和服务器协同实施为例，参考附图对本发明实施例的特征有效性评估系统的示例性应用进行说明。参见图1，图1为本发明实施例提供的特征有效性评估系统10的一个可选的架构示意图，为实现支撑的一个示例性应用，终端100(示例性示出了终端100-1和终端100-2)通过网络200连接服务器300，其中，网络200可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

在一些实施例中，终端100(如终端100-1)，用于基于内容获取指令触发向服务器300发送内容获取请求，以请求获取自身感兴趣的内容。

服务器300，用于响应于终端100发送的内容获取请求，构建包括多个特征组合方式的特征组合方式集合；获取各特征组合方式对应的特征值集合；基于各组合特征的特征取值，确定相应的组合特征的权重值；基于各组合特征的权重值，构建相应的特征组合方式的权重值集合；基于各特征组合方式的权重值集合，分别确定各特征组合方式的有效性。

接下来，服务器300还用于基于各特征组合方式的有效性确定目标特征组合方式，以基于目标特征组合方式确定目标推荐内容，具体地，可以对各特征组合方式的有效性进行排序，得到相应的排序结果，进而基于排序结果从特征组合方式集合中筛选目标数量的特征组合方式，将筛选得到的特征组合方式作为目标特征组合方式，基于目标特征组合方式对待推荐内容的原始特征进行特征组合，得到目标组合特征，以基于目标组合特征确定目标用户对待推荐内容的点击率，进而基于点击率确定目标推荐内容，并将目标推荐内容推送至终端100。

这里，在实际应用中，服务器300既可以为单独配置的支持各种业务的一个服务器，亦可以配置为一个服务器集群。

终端100接收到目标推荐内容后，可以在图形界面110(例如终端100-1的图形界面110-1和终端100-2的图形界面110-2)中对上述目标推荐内容进行呈现。

接下来继续对实施本发明实施例的特征有效性评估方法的电子设备的硬件结构进行说明。电子设备可以实施为终端设备，也可以实施为服务器，还可以为上述图1示出的终端设备和服务器的协同实施。

参见图2，图2为本发明实施例提供的电子设备20的一个可选的硬件结构示意图，可以理解，图2仅仅示出了电子设备的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。本发明实施例提供的电子设备20可以包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。电子设备20中的各个组件通过总线系统240耦合在一起。可以理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的特征有效性评估装置可以采用软件方式实现，图2示出了存储在存储器250中的特征有效性评估装置255，其可以是程序和插件等形式的软件，包括一系列的软件模块。参见图3，图3为本发明实施例提供的特征有效性评估装置255的一个可选的组成结构示意图，例如，特征有效性评估装置255可以包括第一构建单元2551、获取单元2552、第一确定单元2553、第二构建单元2554和第二确定单元2555，这些单元的功能是逻辑上的，因此，根据各软件模块所实现的功能可以进行任意的组合或进一步的拆分。这里，需要说明的是，对于图3所示的本发明实施例提供的特征有效性评估装置255中的各个单元的具体功能，将在下文进行说明。

在另一些实施例中，本发明实施例提供的特征有效性评估装置255可以采用硬件方式实现，作为示例，本发明实施例提供的特征有效性评估装置255可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的特征有效性评估方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable LogicDevice)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

结合上述对本发明实施例的特征有效性评估系统及电子设备的说明，在对本发明实施例提供的特征有效性评估方法进行说明之前，先对特征有效性评估方法应用的推荐系统的结构进行说明。

参见图4，图4为本发明实施例提供的推荐系统的一个可选的结构示意图，推荐系统可实施为服务器，服务器接收终端发送的用户请求，根据用户请求(用户请求中可包括用户ID、当前时刻等信息)，从内容数据库中提取出待推荐内容，将用户请求和待推荐内容共同传递至特征中心；特征中心将用户请求及待推荐内容的相关信息整理成结构化的形式(比如字符串列表，或者键值对等形式)，从而得到待推荐内容的原始特征(比如用户ID、用户年龄、内容ID、内容标签等)，并将原始特征传递至特征组合模块。

在本发明实施例中，在推荐系统中增加了特征选择模块，通过特征选择模块实现特征组合方式的筛选，以寻找有效的特征组合方式，比如有效的特征组合方式为“用户ID-内容标签”，而特征组合模块则可基于特征选择模块提供的有效的特征组合方式，对一个或多个原始特征进行特征组合，得到多个组合特征(比如基于该有效的特征组合方式“用户ID-内容标签”组合得到的一个组合特征为“张三-篮球”)；接下来，将组合特征作为输入特征输入至点击率预估模块，以预估用户对待推荐内容的点击率；接下来，重排序模块根据得到的点击率，对待推荐内容进行排序，从待推荐内容中选取目标数量的内容作为目标推荐内容；再接下来，推荐系统将目标推荐内容返回给用户。

这里，在实际实施时，特征选择模块根据特征中心记录的离线日志数据，选择有效的特征组合方式(如用户ID-内容标签)，并由此更新特征组合模块中的特征组合方式，使特征组合模块输出有效的组合特征，以基于该组合特征进行内容推荐模型的训练或线上点击率预估。

需要说明的是，在实现线上内容推荐的同时，推荐系统会将每次推荐过程所用到的原始特征、推荐结果、用户的点击情况存储成日志，这些日志可用于得到各个组合特征的每种取值(比如特征组合方式为“用户ID-内容标签”，该有效的特征组合方式所对应的某个组合特征的特征取值为“张三-篮球”)的权重值，以便快速估计出多个特征组合方式的有效性，以便基于多个特征组合方式的有效性确定目标特征组合方式，指导后续推荐操作。

下面对日志及点击率预估模型进行说明。日志系统提取一定时间范围内的用户点击数据(即样本)，并将每条样本整理为如下格式：

其中，i表示第i条日志；y⁽ⁱ⁾表示用户是否点击的点击结果；

是预估得到的该样本的点击率，是一个0至1之间的数值；x⁽ⁱ⁾为特征中心整理出的原始特征，可以记录为键-值对的形式，如“用户ID：张三；内容ID：内容A；用户的关注媒体：媒体A、媒体B；内容标签：篮球”等。需要说明的是，原始特征可以是单个值(如用户ID)，也可以是多个值(如用户关注的媒体，通常不止一个)。

点击率预估模型通常根据输入特征(如用户特征、内容特征、背景环境特征等)，通过一定的算法预测出用户在当前环境下点击内容的概率，即点击率，为0至1之间的实数。点击率预估模型通常被建模为如下形式：

常见的点击率预估模型的种类很多，例如，逻辑斯蒂回归模型(LR，Logistic Regression)、深度神经网络模型(DNN，DeepNeural Network)等。需要说明的是，本发明实施例对点击率预估模型的类型没有任何限制。

下面将结合本发明实施例提供的特征有效性评估系统、电子设备的示例性应用以及推荐系统的说明，对本发明实施例提供的特征有效性评估方法的实现进行说明。

参见图5，图5为本发明实施例提供的特征有效性评估方法的一个可选的流程示意图，在一些实施例中，该特征有效性评估方法可由终端实施，也可由服务器实施，当然也可由服务器及终端协同实施。下面以服务器实施为例，如通过图1中的服务器300实施，结合图5示出的步骤进行说明。

在步骤501中，服务器构建包括多个特征组合方式的特征组合方式集合。

在本发明实施例中，特征组合方式为针对待推荐内容的原始特征的组合方式。在实际应用中，当服务器采用上述推荐系统进行内容推荐时，需要提取待推荐内容的相关特征，比如用户特征和内容特征，以对用户特征和内容特征等进行组合得到相关组合特征以提高内容推荐的精确度。

在一些实施例中，服务器可通过如下方式构建特征组合方式集合：获取多个原始特征；确定在多个原始特征中将至少两个原始特征进行组合所得到的多个特征组合方式；基于多个原始特征及多个特征组合方式，构建特征组合方式集合。

这里，多个原始特征即为包括用户特征和内容特征的原始特征，比如，该多个原始特征可以是用户特征“用户标识”、“用户关注的媒体”，内容特征“发文媒体”、“内容标签”等。

具体来说，在构建特征组合方式集合时，首先要获取多个原始特征，然后多次从多个原始特征中选择至少两个特征并进行组合，以得到多个特征组合方式。示例性地，比如多个原始特征包括“用户标识、用户关注的媒体、发文媒体、内容标签”，任意选择两个原始特征进行组合，可以得到“用户标识-用户关注的媒体”、“用户标识-发文媒体”、“用户关注的媒体-内容标签”等多个特征组合方式。在实际实施时，除了可以任意选择两个原始特征之外，还可以任意选择三个原始特征进行组合，这里不作限定。在得到多个特征组合方式后，基于该多个特征组合方式与多个原始特征，构建特征组合方式集合。由于该多个原始特征可以被看作一种特殊的特征组合方式，那么可以将所得到多个特征组合方式、与多个原始特征均作为特征组合方式集合中的各特征组合方式，以此构建特征组合方式集合。

示例性的，可采用如下方式构建特征组合方式集合：首先，将获取的所有的原始特征进行组合得到D1，D₁＝{特征1,特征2,…,特征n}；其次，将多个原始特征中的任意两个特征进行两两组合，构造多个特征组合方式，用D2表示：D₂＝{(特征1,特征1),…(特征1,特征n),…,(特征n,特征n)}；最后，构造集合D＝D₁∪D₂，即为包括多个特征组合方式的特征组合方式集合。

需要说明的是，在构建对原始特征进行两两组合得到D₂时，可以根据先验知识，例如仅将用户特征与内容特征进行组合、将用户特征与背景环境特征进行组合等，从而遍历较少的特征，降低处理器的计算量。然而，在实际应用中，如果处理器的计算能力很强，则可以进一步构建两个以上的简单特征组合得到的特征作为候选特征，直至遍历所有的候选特征构造多个特征组合方式，进而形成特征组合方式集合。

在步骤502中，获取各特征组合方式对应的特征值集合，特征值集合包括各组合特征的特征取值。

在本发明实施例中，组合特征是基于相应的特征组合方式对原始特征进行特征组合得到的。这里，组合特征的特征取值可以是基于历史日志数据提取得到的，也可以是对历史日志数据进行采样得到的部分历史日志数据。

在实际应用中，组合特征有时会比单个原始特征更加重要，例如，内容标签作为一个独立的原始特征，并不是一个重要特征，因为每个标签对应的内容都可能有大量用户愿意观看，但是具体到某个用户而言，则可能出现该用户只对含有某几个关键词的内容感兴趣。因此，用户ID和内容标签组合得到的组合特征就是一个很重要的特征。例如，用户张三喜欢看篮球类的内容，那么，利用特征组合方式“用户ID-内容标签”得到的组合特征的值为“张三-篮球”的样本进行点击率预估的准确度，显然就比仅利用单个原始特征“篮球”的样本进行点击率预估的准确度要大大提高。

需要指出的是，一般来说，各个原始特征不会与自身进行组合，但如果一个原始特征包括多个值时，则该原始特征可以与自身进行组合，因此，单个原始特征(即未与其他的原始特征进行组合的特征)也可视为一种特殊的组合特征(即只有一个原始特征“组合”得到的特征)。例如，原始特征为“用户关注的媒体”，则可以构造组合特征“用户关注的媒体-用户关注的媒体”，如果在某个样本中，用户关注的媒体为媒体A、媒体B，则按前述方式构造该样本的组合特征的特征取值可以为“媒体A-媒体A”、“媒体A-媒体B”和“媒体B-媒体B”。

在步骤503中，基于各组合特征的特征取值，确定相应的组合特征的权重值。

在一些实施例中，服务器可通过如下方式确定各组合特征的权重值：将各组合特征的特征取值输入至权重计算模型中，得到权重计算模型输出的对应各组合特征的权重值。也就是说，本发明实施例可通过预先训练的权重计算模型，将各组合特征的特征取值分别输入到权重计算模型中，从而得到各组合特征对应的权重值。

在一些实施例中，服务器可通过如下方式训练得到权重计算模型：将标注有目标权重值的特征取值样本，输入至权重计算模型，得到权重计算模型输出的对应特征取值样本的权重值；基于输出的权重值及目标权重值，确定权重计算模型的损失函数的值；基于损失函数的值，更新权重计算模型的模型参数。

在实际应用中，可基于深度学习方法预先构建权重计算模型，比如用于计算权重值的卷积神经网络模型，包括输入层、隐藏层及输出层，用于计算各组合特征的权重值，以得到权重计算模型，在权重计算模型构建完成后，基于采集的特征取值样本对该权重计算模型进行训练，以得到优化的权重计算模型参数。在实际实施时，在进行权重计算模型训练时，输入的特征取值样本可以是仅针对某个特征组合方式的样本，还可以是所有特征组合方式的样本，通常为加快模型训练的速度，可以仅针对某个特征组合方式的样本进行训练。

具体地，服务器可通过如下方式得到对应特征取值样本的权重值：首先获取大量的特征取值样本，比如可以是对某些待推荐内容的相关历史日志数据进行采样得到的，这些特征取值样本分别标注有对应的目标权重值；在进行训练之前，可以将采集的大量样本按照一定的比例划分为训练集和测试集，将训练集中标注有目标权重值的特征取值样本输入到权重计算模型中，以得到权重计算模型输出对应特征取值样本的权重值。进一步地，模型训练的过程即是对模型中各参数的更新调整过程，将训练样本数据输入到权重计算模型的输入层，经过隐藏层，最后达到输出层并输出结果，由于权重计算模型的输出结果与实际结果可能有误差，则需要计算输出结果与实际值之间的误差，并将误差从输出层向隐藏层进行反向传播，直至传播到输入层，进而在反向传播的过程中，根据误差调整模型参数的值；整个训练过程不断迭代上述步骤，直至收敛，以减小模型输出的误差。

基于此，在本发明实施例中，为了降低权重计算模型输出的权重值与目标权重值之间可能存在的误差，引入了损失函数，基于权重计算模型输出的特征取值样本的权重值及目标权重值，确定损失函数的值；基于损失函数的值，运用反向传播算法逐层更新权重计算模型的参数，直至损失函数收敛，以实现对权重计算模型的参数的约束和调整，从而得到计算精度高的权重计算模型，以基于该权重计算模型确定各组合特征的权重值。

在实际应用中，在基于权重计算模型确定各组合特征的权重值时，可通过优化如下函数得到各组合特征的权重值：

其中，

表示基于各组合特征的权重值预测的点击率(0至1之间的实数)，y⁽ⁱ⁾表示用户是否点击的点击结果(点击时为1，未点击时为0)，loss为目标函数。在实际应用中，在将训练集中标注有目标权重值的特征取值样本输入到权重计算模型中，以得到权重计算模型输出对应特征取值样本的权重值后，在测试集数据的每个样本中，将每个样本在特征组合方式比如F下的所有组合特征的特征取值对应的权重值进行相加，得到预测的样本得分，即得到预测的特征组合方式的评分，示例性的，可通过如下方式预测对应特征组合方式的评分：

其中，w_F,j表示组合特征的权重值；F表示特征组合方式；j表示该特征组合方式F下所对应的各组合特征的特征取值；

表示第i个样本在该特征组合方式F下的取值包含组合特征j；

表示预测的特征组合方式的评分。接下来，可通过如下方式

计算预测的点击率。

这里，常见的目标函数包括平方误差函数(square loss)、对数误差函数(Logloss)等。在点击率预估过程中，最常用的目标函数为对数误差函数，其形式如下：

实际应用中，由于对于所有的正样本而言，均有y⁽ⁱ⁾＝1；对于所有的负样本而言，均有y⁽ⁱ⁾＝0，因此，上述公式(2)可变换成如下形式：

上述公式(3)的目标函数的最优解一般无法用解析表达式表示，因此，其求解通常采用迭代的方法，如随机梯度下降法来获取各组合特征的权重值，导致模型训练消耗大量的时间，而在特征工程中，需要对大量的特征组合方式的有效性进行评估，采用模型训练的方法的计算成本高，速度慢。

为避免采用耗时的模型训练，本发明实施例还提供了采用统计的方式确定各组合特征的权重值，从而加快权重值的计算，保证针对大量的特征组合方式的有效性进行评估的效率得以提升。下面对采用统计的方式确定各组合特征的权重值进行说明。

在一些实施例中，服务器可通过如下方式确定各组合特征的权重值：确定组合特征的各特征取值对应的正样本统计量，以及组合特征的各特征取值对应的负样本统计量；基于各特征取值对应的正样本统计量与负样本统计量，得到相应的组合特征的权重值。

在本发明实施例中，正样本，表征在待推荐内容的展示过程中，所展示的多个待推荐内容中被点击的内容对应的样本数据；负样本，表征在待推荐内容的展示过程中，所展示的多个待推荐内容中未被点击的内容对应的样本数据。

也就是说，本发明实施例根据待推荐内容的点击状态，将采集到的特征值集合对应的所有样本划分为正样本和负样本。示例性的，当特征组合方式为“用户标识-商品类型”时，该特征组合方式“用户标识-商品类型”下所对应的各组合特征的特征取值可包括“张三-化妆品、张三-零食、张三-服饰、张三-运动鞋”，基于每个特征取值进行内容推荐时，即向“张三”分别推荐“化妆品、零食、服饰和运动鞋”，如果“张三”分别点击了“化妆品、零食”，其他并未点击，那么，“张三-化妆品、张三-零食”即为正样本，“张三-服饰、张三-运动鞋”即为负样本。

在实际应用中，确定组合特征的权重值时，只需要考虑组合特征的特征取值样本的一些统计量即可。因此，公式(3)的目标函数可变换成如下形式：

该目标函数的解析解即为组合特征的权重值。

在一些实施例中，考虑一种最简单的情况，即组合特征的特征取值仅有一个，此时，服务器可确定包括特征取值的正样本统计量，为特征取值对应的正样本统计量，以及确定包括特征取值的负样本统计量，为特征取值对应的负样本统计量。

在确定特征取值对应的正样本统计量，以及特征取值对应的负样本统计量之后，基于该正样本统计量及负样本统计量，确定相应的组合特征的权重值。在实际实施时，基于各特征取值对应的正样本统计量与负样本统计量，可采用如下公式计算相应的组合特征的权重值：

为特征取值j对应的正样本统计量；

为特征取值j对应的负样本统计量。

在实际应用中，针对这种组合特征的特征取值仅有一个的情况，可采用如下公式计算特征取值对应的正样本统计量，以及特征取值对应的负样本统计量：

结合公式(5)至(7)可知，如果含有特征取值j的正样本的数量越多，那么组合特征的权重值越大；反之，如果含有该特征取值j的负样本的数量越多，那么组合特征的权重值越小。进一步的，如果含有特征取值j的正样本统计量大于含有特征取值j的负样本统计量，则w_F,j＞0，表示该组合特征对点击率预估的贡献是正向的，反之则是负向的。

根据上述方法，只需要统计出每个特征取值对应的

即可根据公式(5)计算出相应的组合特征的权重值，较为简单便捷，这也是统计的方式相对于权重计算模型训练方法的优势。

上述实施例考虑的仅是最简单的情况，然而，在工程应用时，还可能面对其他不同的情况，因此，需要针对具体情况对上述实施例进行改进。下面针对不同的场景对统计量的改进计算方法进行说明。

在一些实施例中，针对某个特征组合方式，在一个样本中出现多个组合特征的特征取值时，服务器可通过如下方式确定组合特征的各特征取值对应的正样本统计量，以及组合特征的各特征取值对应的负样本统计量：确定包括特征取值的正样本中组合特征的特征取值统计量，以及包括特征取值的负样本中组合特征的特征取值统计量；基于包括特征取值的正样本中组合特征的特征取值统计量，确定特征取值对应的正样本统计量；基于包括特征取值的负样本中组合特征的特征取值统计量，确定特征取值对应的负样本统计量。

在实际应用中，针对某种特征组合方式(如“用户ID-内容标签”)，在一个样本中可能出现多个组合特征的特征取值。例如，张三观看了一部有某球星参与的某综艺节目，那么该样本的内容标签包括“某球星”和“某综艺节目”。同时，该样本“用户ID-内容标签”所对应的组合特征的特征取值可包括“张三-某球星”和“张三-某综艺节目”，其点击行为也可能来源于这两个特征取值中的某一个。因此，该样本对“张三-某球星”的贡献，应该小于一个只包含“张三-某球星”特征取值的样本(例如，在另一个样本中，张三观看了该球星的一次个人采访)。

为了解决该问题，在本发明实施例中，可通过如下公式计算

和

然后，通过上述公式(5)计算相应的组合特征的权重值w_F,j，在该实施例中，一个样本的特征取值越多，那么它对其中的某个特征取值j的权重的贡献就越小，因为该样本为正样本或负样本，有可能是因为其他特征取值决定的，而并非是由特征取值j决定的。在实际应用中，由于推荐系统中的特征大多数是稀疏的，因此可能出现某个特征在训练样本中只出现了极少次数的情况。例如，“内容ID”在训练样本的某个内容中只出现了一次，并且被点击，可视为正样本。在该情况下，按照公式(5)计算得到的相应的组合特征的权重值w_F,j为正无穷(这意味着推荐系统确定该内容的点击率为100％)，这是一个不合理的结果。

为了解决该问题，可以将公式(4)变换为如下形式：

其中，λ₁和λ₂是非负实数，相较于公式(4)，该公式(10)新增了两项，即

和

被称为正则项，当样本数量较少时，新增的这两项会起到主导作用，使得组合特征的权重值趋向于0；而当样本数量较多时，原有的目标函数项会起到主导作用，使得组合特征的权重值趋于公式(5)计算得到的权重值。

由于上述公式(10)没有解析解，因此，在一些实施例中，针对取值过少的样本，服务器可通过如下方式基于各特征取值对应的正样本统计量与负样本统计量，得到相应的组合特征的权重值：当

小于λ₁时，组合特征的权重值为零；当

大于λ₁时，组合特征的权重值为差值与第一和值的比值，差值为

与λ₁的差值，第一和值为N′与λ₂的和值；当

小于-λ₁时，组合特征的权重值为第二和值与第一和值的比值，第二和值为

与λ₁的和值。

其中，λ₁和λ₂均为非负实数；N′根据乘积值与第三和值的比值得到；乘积值为特征取值对应的正样本统计量，与特征取值对应的负样本统计量的乘积值；第三和值为特征取值对应的正样本统计量，与特征取值对应的负样本统计量的和值；

根据特征取值对应的正样本统计量，与特征取值对应的负样本统计量的比值得到。

示例性的，本发明实施例可采用如下方法替代公式(5)，近似计算相应的组合特征的权重值w_F,j：

其中，

F为特征组合方式；j为该特征组合方式F下所对应的各组合特征的特征取值；

为特征取值j对应的正样本统计量；

为特征取值j对应的负样本统计量。

这里，当正样本的数量或者负样本的数量较少时，使得N′也较小，那么

则w_F,j被强制限制为0；而随着样本数量不断增多，w_F,j会变成非零值，但λ₁和λ₂的存在会降低w_F,j的绝对值，也即降低w_F,j对特征组合方式的有效性评估的影响，只有当样本数量充分多时，w_F,j才会不断接近

表明此时可以充分相信样本所得到的统计数据。

在一些实施例中，针对某特征对点击率预估模型的预测精度不准确的情形，服务器可通过如下方式确定组合特征的各特征取值对应的正样本统计量，以及组合特征的各特征取值对应的负样本统计量：确定包括特征取值的正样本为训练样本时对应的第一预测精度，以及包括特征取值的负样本为训练样本时对应的第二预测精度；基于第一预测精度，确定特征取值对应的正样本统计量；基于第二预测精度，确定特征取值对应的负样本统计量。

这里，第一预测精度表征基于特征取值的正样本进行推荐的准确度；第二预测精度表征基于特征取值的负样本进行推荐的准确度。

在实际应用中，评估基于特征组合方式组合得到的某个组合特征的重要性，要建立在已有点击率预估模型的基础上，即所增加的组合特征对点击率预估模型能起到多大的补充作用。如果按照前述实施例确定组合特征的特征取值对应的正样本统计量和负样本统计量，可能存在如下情况：计算得到的特征有效性较高，但点击率预估模型中已有其他特征能起到类似的效果，因此将这个特征输入至点击率预估模型中，并不会显著提升点击率预估模型的预测精度。

例如，如果已知点击率预估模型针对每个样本所预估出的点击率，可将公式(4)所示的目标函数调整为如下形式，以考虑点击率预估模型的影响：

(12)，其中，

满足

用于表示基于点击率预估模型得到的该样本的评分，如果

表明点击率预估模型输出的该用户的点击概率大于50％，反之，则表明点击率预估模型输出的该用户的点击概率小于50％。

上述目标函数(12)也不存在解析解，本发明实施例采用如下公式修正特征取值对应的正样本统计量和负样本统计量：

然后，可通过公式(5)计算相应的组合特征的权重值w_F,j，在该实施例中，对于一个正样本来说，点击率预估模型预测得越不准确，那么该样本就更应该被予以考虑；对于一个负样本来说，点击率预估模型预测得越不准确，那么该样本也更应该被予以考虑。

在一些实施例中，在工程应用中，针对训练集合过大的样本情形，服务器可通过如下方式确定组合特征的各特征取值对应的正样本统计量，以及组合特征的各特征取值对应的负样本统计量：确定第一采样样本的权重值及第二采样样本的权重值；基于第一采样样本的权重值，确定特征取值对应的正样本统计量；基于第二采样样本的权重值，确定特征取值对应的负样本统计量。

这里，第一采样样本，表征从包括特征取值的正样本中抽取的第一比例的样本；第二采样样本，表征从包括特征取值的负样本中抽取的第二比例的样本。

在实际应用中，工程应用中的数据通常可达到TB甚至PB量级，尽管通过上述实施例进行简单的统计量即可进行特征组合方式的有效性评估，但如果特征组合方式的数据量过大，这种评估仍然是不现实的。因此，在训练集样本较大时，本发明实施例提出了通过采样方法确定特征取值对应的正样本统计量和负样本统计量，此时，

和

的计算公式为：

然后，可通过公式(5)计算相应的组合特征的权重值w_F,j，这里，在训练集样本较大时，可以从含有特征j的正样本中随机抽取α％的样本，从含有特征j的负样本中随机抽取β％的样本，进而按照上述公式(15)和(16)计算

和

这里，α％和β％可根据实际需要进行设定，在此不做限定。样本权重在上述不同的解决方案中是不相同的。在公式(6)(7)中，样本的权重为1；在公式(8)(9)(13)(14)中，样本的权重则是求和号内部的对应式子的值。

在另一些情形下，服务器还可通过以下方式确定组合特征的各特征取值对应的正样本统计量，以及组合特征的各特征取值对应的负样本统计量：确定第一部分样本中包括特征取值的正样本的权重值，以及第二部分样本中第一采样样本的权重值；确定第一部分样本中包括特征取值的负样本的权重值，以及第二部分样本中第二采样样本的权重值；基于第一部分样本中包括特征取值的正样本的权重值，以及第二部分样本中第一采样样本的权重值，确定特征取值对应的正样本统计量；基于第一部分样本中包括特征取值的负样本的权重值，以及第二部分样本中第二采样样本的权重值，确定特征取值对应的负样本统计量。

这里，第一采样样本，表征从归属于第二部分样本且包括特征取值的正样本中抽取的第一比例的样本；第二采样样本，表征从归属于第二部分样本且包括特征取值的负样本中抽取的第二比例的样本。

具体来说，在实际应用中，还可以通过部分采样的方法进行估计。所谓部分采样，是将整体样本分为两部分，即为A部分和B部分，A部分的所有样本均参与统计，而对B部分的样本进行采样处理。这样就可以将重要程度较高的样本(例如点击率预估模型预测偏差非常大的部分)放入A部分，保证这部分样本被充分考虑，而将重要程度较低的样本放入B部分进行采样处理，以减小计算量。此时，

和

可通过如下方式计算得到：

然后，可通过公式(5)计算相应的组合特征的权重值w_F,j。

需要说明的是，上述实施例给出了四个不同方向上的优化方案，来确定组合特征的各特征取值对应的正样本统计量，以及组合特征的各特征取值对应的负样本统计量，各个方案互相之间没有矛盾，可以彼此进行组合。

示例性的，以针对每个样本中各组合特征对应多个特征取值，以及针对某特征对点击率预估模型的预测精度不准确的改进方案进行组合为例进行说明。

上述针对每个样本中各组合特征对应多个特征取值的改进方案，以及针对某特征对点击率预估模型的预测精度不准确的改进方案均为调整

和

即调整求和号中每个样本的权重，在两者进行组合时，相应的样本权重相乘即可，即可通过如下公式进行计算：

在步骤504中，基于各组合特征的权重值，构建相应的特征组合方式的权重值集合。

这里，特征组合方式的权重值集合中包括对应各组合特征的权重值，该组合特征可基于相应的特征组合方式对原始特征进行组合得到。

在步骤505中，基于各特征组合方式的权重值集合，分别确定各特征组合方式的有效性。

在本发明实施例中，特征组合方式的有效性，用于表征基于相应的特征组合方式组合得到的特征进行内容推荐的准确度。

在一些实施例中，服务器可通过如下方式确定各特征组合方式的有效性：将权重值集合中的所有组合特征的权重值进行加权，得到对应特征组合方式的评分；基于各特征组合方式的评分，分别确定各特征组合方式的有效性。

这里，服务器可通过如下方式基于各特征组合方式的评分，分别确定各特征组合方式的有效性：将各特征组合方式的评分与目标评分进行比较，得到对应各特征组合方式的比较结果；基于比较结果，确定对应各特征组合方式的有效性。

具体来说，在确定了每个特征组合方式对应的权重值集合后，进一步计算相应的特征组合方式的有效性，在实际应用中，可将权重值集合中的每个权重值进行加权，从而得到相应的特征组合方式的评分；将各特征组合方式的评分与对应的目标评分进行比较，得到比较结果，从而基于该比较结果，确定相应的特征组合方式的有效性。可见，应用上述实施例，实现了对各特征组合方式的有效性的计算，从而实现根据各特征组合方式的有效性对目标特征组合方式的筛选。

在实际实施时，可通过ROC曲线下与坐标轴围成的面积(AUC，Area Under Curve)、Logloss等精度指标，计算各特征组合方式的评分与目标评分的比较结果，从而确定各特征组合方式的有效性。这里，特征组合方式的评分，用于表征基于相应的特征组合方式得到的组合特征进行推荐时，待推荐内容被用户点击的可能性大小。

在一些实施例中，特征有效性评估方法还包括：在确定各特征组合方式的有效性后，基于各特征组合方式的有效性的排序，从特征组合方式集合中筛选得到目标数量的特征组合方式作为目标特征组合方式；基于目标特征组合方式，对原始特征进行特征组合，得到目标组合特征，以基于目标组合特征进行内容推荐。

也就是说，本发明实施例在确定了每个特征组合方式的有效性后，根据每个特征组合方式的有效性的大小，将各特征组合方式按照有效性从大到小进行排序，对特征组合方式集合中的多个特征组合方式进行筛选，以得到有效性高的目标数量的特征组合方式，作为目标特征组合方式，以基于确定的目标特征组合方式进行特征组合，得到用于内容推荐的目标组合特征。

在实际实施时，可以预先设置目标数量，将排序靠前的目标数量的特征组合方式，作为目标特征组合方式，示例性的，目标数量设定为30，则将排序靠前的前30个特征组合方式确定为目标特征组合方式。当然，还可以预先设置有效性阈值，将每个特征组合方式的有效性与有效性阈值进行比较，确定有效性达到该有效性阈值的每个特征组合方式作为目标特征组合方式。

在另一些实施例中，特征有效性评估方法还包括：在确定各特征组合方式的有效性后，基于各特征组合方式的有效性的排序，从特征组合方式集合中筛选得到目标数量的特征组合方式作为第一候选特征组合方式；基于第一候选特征组合方式及原始特征，生成多个第二候选特征组合方式；从多个第二候选特征组合方式中，选取符合筛选条件的特征组合方式作为目标特征组合方式；基于目标特征组合方式，对原始特征进行特征组合，得到目标组合特征，以基于目标组合特征进行内容推荐。

这里，为了进一步筛选出更加有效的特征组合方式，本发明实施例在筛选得到第一候选特征组合方式后，对第一候选特征组合方式进行扩增，以得到更多的特征组合方式作为第二候选特征组合方式。

在一些实施例中，服务器可通过如下方式生成多个第二候选特征组合方式：基于第一候选特征组合方式，对原始特征进行组合得到组合特征；确定组合特征与至少一个原始特征进行组合所得到的多个特征组合方式；基于多个特征组合方式及第一候选特征组合方式，生成多个第二候选特征组合方式。可见，本发明实施例基于第一候选特征组合方式及原始特征，生成了更多的第二候选特征组合方式，从而增加了特征组合方式的多样性，以得到更多有效的特征组合方式，提供内容推荐的准确性。

这里，在得到目标特征组合方式后，即可基于该目标特征组合方式，对获取的多个原始特征进行特征组合，得到目标组合特征。其中，目标特征组合方式可以是多个，可以基于每个目标特征组合方式对上述原始特征进行特征组合，也可以基于有效性最高的目标特征组合方式对上述原始特征进行特征组合，从而得到目标组合特征，以基于该目标组合特征对上述待推荐内容进行推荐。

在一些实施例中，服务器可通过如下方式基于目标组合特征进行内容推荐：将目标组合特征作为输入特征，输入至点击率预估模型中，得到目标用户对待推荐内容的点击率；基于点击率，从待推荐内容中选取目标数量的内容作为目标推荐内容；将目标推荐内容返回至目标用户。

采用本发明实施例提供的技术方案，对于给定的包括多个特征组合方式的特征组合方式集合，通过获取各特征组合方式对应的特征值集合，这里特征值集合包括各组合特征的特征取值，基于各组合特征的特征取值，确定相应的组合特征的权重值，从而基于各组合特征的权重值，构建相应的特征组合方式的权重值集合，如此，基于各特征组合方式的权重值集合，就可以确定各特征组合方式的有效性，无需进行耗时的实验和模型训练，能够实现在短时间内评估大量的特征组合方式的有效性，提高对大量的特征组合方式的有效性进行评估的效率，进而提升推荐系统的推荐效果。

接下来将说明本发明实施例在一个实际的应用场景中的示例性应用，参见图6，图6为本发明实施例提供的特征有效性评估方法的另一个可选的流程示意图，在一些实施例中，该特征有效性评估方法可由终端实施，也可由服务器实施，还可由服务器及终端协同实施。

下面以服务器及终端协同实施为例，如通过图1中的终端100-1及服务器300协同实施，结合图6示出的步骤，对本发明实施例提供的特征有效性评估方法的实现进行说明。对于下文各步骤的说明中未尽的细节，可以参考上文而理解。本发明实施例提供的特征有效性评估方法可包括以下步骤：

在步骤601中，终端向服务器发起内容获取请求。

这里，终端对应的用户通过终端的界面触发内容获取指令，终端响应于内容获取指令，生成内容获取请求，并向服务器发送内容获取请求。

在步骤602中，服务器接收到内容获取请求后，构建包括多个特征组合方式的特征组合方式集合。

这里，特征组合方式为针对待推荐内容的原始特征的组合方式。在构建特征组合方式集合时，可以获取多个原始特征，即为用户或者待推荐内容的相关原始特征，比如“用户标识、内容标签”等，将获取的多个原始特征进行两两组合，以形成多个特征组合方式，从而根据所获取的多个原始特征及多个特征组合方式，构建特征组合方式集合。

在实际实施时，也可以选取两个以上的原始特征进行组合，以形成多个特征组合方式。

在步骤603中，服务器获取各特征组合方式对应的特征值集合。

这里，特征值集合包括各组合特征的特征取值，该组合特征可基于相应的特征组合方式对原始特征进行特征组合得到。其中，组合特征的特征取值可以是基于历史日志数据提取得到的，也可以是对历史日志数据进行采样得到的部分历史日志数据。

在步骤604中，服务器确定组合特征的各特征取值对应的正样本统计量，以及组合特征的各特征取值对应的负样本统计量。

这里，正样本，表征在待推荐内容的展示过程中，所展示的多个待推荐内容中被点击的内容对应的样本数据；负样本，表征在待推荐内容的展示过程中，所展示的多个待推荐内容中未被点击的内容对应的样本数据。

在步骤605中，服务器基于各特征取值对应的正样本统计量与负样本统计量，得到相应的组合特征的权重值。

在一些实施例中，服务器还可以采用权重计算模型的方式确定各组合特征的权重值，具体地，将各组合特征的特征取值输入至权重计算模型中，得到权重计算模型输出的对应各组合特征的权重值。

在步骤606中，服务器基于各组合特征的权重值，构建相应的特征组合方式的权重值集合。

在步骤607中，服务器将权重值集合中的所有组合特征的权重值进行加权，得到对应特征组合方式的评分。

这里，特征组合方式的评分，用于表征基于相应的特征组合方式得到的组合特征进行内容推荐时，待推荐内容被用户点击的可能性大小。

在步骤608中，服务器将各特征组合方式的评分与目标评分进行比较，得到对应各特征组合方式的比较结果。

这里，可通过AUC、Logloss等精度指标，计算各特征组合方式的评分与目标评分的比较结果。

在步骤609中，服务器基于比较结果，确定对应各特征组合方式的有效性。

这里，特征组合方式的有效性，用于表征基于相应的特征组合方式组合得到的特征进行内容推荐的准确度。

在步骤610中，服务器基于各特征组合方式的有效性的排序，从特征组合方式集合中筛选得到目标数量的特征组合方式作为目标特征组合方式。

这里，服务器在确定了各特征组合方式的有效性后，还可基于各特征组合方式的有效性的排序，从特征组合方式集合中筛选得到目标数量的特征组合方式作为第一候选特征组合方式；基于第一候选特征组合方式及原始特征，生成多个第二候选特征组合方式；从多个第二候选特征组合方式中，选取符合筛选条件的特征组合方式作为目标特征组合方式。

在步骤611中，服务器基于目标特征组合方式，对原始特征进行特征组合，得到目标组合特征。

在步骤612中，服务器基于目标组合特征确定目标推荐内容，并将目标推荐内容返回至终端。

这里，服务器可通过如下方式基于目标组合特征确定目标推荐内容：将目标组合特征作为输入特征，输入至点击率预估模型中，得到目标用户对待推荐内容的点击率；基于点击率，从待推荐内容中选取目标数量的内容作为目标推荐内容。

在步骤613中，终端将目标推荐内容进行呈现。

应用本发明实施例的技术方案，对于给定的包括多个特征组合方式的特征组合方式集合，通过获取各特征组合方式对应的特征值集合，这里特征值集合包括各组合特征的特征取值，基于各组合特征的特征取值，确定相应的组合特征的权重值，从而基于各组合特征的权重值，构建相应的特征组合方式的权重值集合，如此，基于各特征组合方式的权重值集合，就可以确定各特征组合方式的有效性，无需进行耗时的实验和模型训练，能够实现在短时间内评估大量的特征组合方式的有效性，提高对大量的特征组合方式的有效性进行评估的效率，进而提升推荐系统的推荐效果。

本发明实施例提供的特征有效性评估方法可应用在以下场景：

一种使用场景如下：某APP从零搭建推荐系统，以所用的输入特征(待推荐内容的原始特征)为用户ID、内容ID、内容标签、用户所在城市，以此预测目标用户的点击率。通常每个原始特征本身都难以单独预测点击率，但由各个原始特征进行组合得到的组合特征有可能对点击率提供有效信息。可通过本发明实施例提出的特征有效性评估方法，对所有可能的特征组合方式(也可以根据从业人员经验，预先挑选出一些可能有效的特征组合方式，如“用户ID-内容标签”，“用户所在城市-内容ID”等)进行有效性评估，并最终确定用于预测点击率的最有效的特征组合方式(即目标特征组合方式，例如“用户ID-内容标签”)。

另一种使用场景如下：在某新闻类APP的推荐系统中，已经存在的原始特征包括用户ID、内容ID、内容标签、用户所在城市，目前新增了一个原始特征“发文媒体”，对于该新增的原始特征与之前存在的原始特征如何组合能够更有效地反映用户的兴趣是至关重要的。可能的特征组合方式包括“发文媒体-用户ID”，“发文媒体-内容ID”，“发文媒体-内容标签”，“发文媒体-用户所在城市”，“发文媒体-用户ID-内容标签”，“发文媒体-用户所在城市-内容标签”等，可通过本发明实施例提出的特征有效性评估方法，确定上述这些特征组合方式的评分，基于确定的各特征组合方式的评分与目标评分的比较结果，选择最有效的若干个目标特征组合方式(例如，“发文媒体-用户所在城市”)，以用于该新闻类APP的点击率预估。

另一种使用场景如下：某APP的推荐系统具有一个特征自动化筛选的工具，可以从待推荐内容的一些原始特征，比如用户ID、内容ID、内容标签、用户所在城市等中挑选出可能有效的特征组合方式，针对这些特征组合方式，可通过本发明实施例提出的特征有效性评估方法，进一步评估各特征组合方式的有效性，并筛选出目标数量的最有效的目标特征组合方式，以用于该APP的点击率预估。

接下来继续对本发明实施例提供的特征有效性评估装置255的软件实现进行说明。以上述实施本发明实施例的特征有效性评估方法的电子设备20中的存储器250所包括的软件模块为例进行说明，对于下文关于模块的功能说明中未尽的细节，可以参考上文本发明方法实施例的描述而理解。如图3所示，本发明实施例提供的特征有效性评估装置255可以包括：

第一构建单元2551，用于构建包括多个特征组合方式的特征组合方式集合，所述特征组合方式为针对待推荐内容的原始特征的组合方式；获取单元2552，用于获取各所述特征组合方式对应的特征值集合，所述特征值集合包括各组合特征的特征取值，所述组合特征基于相应的特征组合方式对所述原始特征进行特征组合得到；第一确定单元2553，用于基于各所述组合特征的特征取值，确定相应的组合特征的权重值；第二构建单元2554，用于基于各所述组合特征的权重值，构建相应的特征组合方式的权重值集合；第二确定单元2555，用于基于各所述特征组合方式的权重值集合，分别确定各所述特征组合方式的有效性，所述有效性，用于表征基于相应的特征组合方式组合得到的特征进行内容推荐的准确度。

在一些实施例中，第一确定单元包括：

在一些实施例中，就第一确定子单元确定所述组合特征的各特征取值对应的正样本统计量，以及所述组合特征的各特征取值对应的负样本统计量来说，可以采用以下方式实现：

在另一些实施例中，就第一确定子单元确定所述组合特征的各特征取值对应的正样本统计量，以及所述组合特征的各特征取值对应的负样本统计量来说，可以采用以下方式实现：

确定第一采样样本的权重值及第二采样样本的权重值；

在一些实施例中，就第二确定子单元基于所述各特征取值对应的正样本统计量与负样本统计量，得到相应的所述组合特征的权重值来说，可以采用以下方式实现：

为特征取值j对应的正样本统计量；

为特征取值j对应的负样本统计量。

在另一些实施例中，就第二确定子单元基于所述各特征取值对应的正样本统计量与负样本统计量，得到相应的所述组合特征的权重值来说，可以采用以下方式实现：

当

小于λ₁时，所述组合特征的权重值为零；

当

与λ₁的差值，所述第一和值为N′与λ₂的和值；

当

与λ₁的和值；

这里，正样本表征在所述待推荐内容的展示过程中，所展示的多个待推荐内容中被点击的内容对应的样本数据；负样本表征在所述待推荐内容的展示过程中，所展示的多个待推荐内容中未被点击的内容对应的样本数据。

在一些实施例中，就第一确定单元基于各所述组合特征的特征取值，确定相应的组合特征的权重值来说，可以采用以下方式实现：

在一些实施例中，就第二确定单元基于各所述特征组合方式的权重值集合，分别确定各所述特征组合方式的有效性来说，可以采用以下方式实现：

在一些实施例中，就第二确定单元基于各所述特征组合方式的评分，分别确定各所述特征组合方式的有效性来说，可以采用以下方式实现：

在一些实施例中，特征有效性评估装置还包括：

内容推荐单元，用于基于所述目标组合特征进行内容推荐。

在另一些实施例中，特征有效性评估装置还包括：

内容推荐单元，用于基于所述目标组合特征进行内容推荐。

在一些实施例中，就内容推荐单元基于所述目标组合特征进行内容推荐来说，可以采用以下方式实现：

将所述目标推荐内容返回至所述目标用户。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行存储器中存储的可执行指令时，实现本发明实施例提供的上述特征有效性评估方法。

本发明实施例还提供了一种存储介质，存储有可执行指令，可执行指令被处理器执行时，用于实现本发明实施例提供的上述特征有效性评估方法。

在一些实施例中，存储介质具体可为计算机可读存储介质，例如可以是铁电随机存取存储器(FRAM，Ferromagnetic Random Access Memory)、ROM、PROM、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘或只读光盘(CD-ROM，Compact Disc Read-Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，本发明实施例的技术方案具有以下有益效果：

1)无需进行耗时的实验和模型训练，能够在短时间内快速评估出大量的特征组合方式的有效性，提高对大量的特征组合方式的有效性进行评估的效率。

2)由于基于各特征组合方式的权重值集合确定各特征组合方式的有效性的计算速度快，因此，从业人员可以尝试尽可能多的特征组合方式，进而提升推荐系统的性能。

3)能够帮助开发人员快速持续向推荐系统中加入有效的组合特征，该组合特征可为基于各特征组合方式的有效性确定的目标特征组合方式，进行组合得到的目标组合特征，基于目标组合特征进行内容推荐，能够提升推荐系统的推荐效果。

4)本发明实施例的方案的原理简明且易实现，具有较强的工程价值，提高特征工程的效率。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。