CN112200215A

CN112200215A - 标签特征提取方法、装置、存储介质与电子设备

Info

Publication number: CN112200215A
Application number: CN202010857428.3A
Authority: CN
Inventors: 黄崇远
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd; Shenzhen Huantai Technology Co Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd; Shenzhen Huantai Technology Co Ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2021-01-08
Anticipated expiration: 2040-08-24
Also published as: CN112200215B

Abstract

本公开提供了一种标签特征提取方法、装置、计算机可读存储介质与电子设备，涉及数据处理技术领域。所述方法包括：获取根据用户属性确定的标签；根据所述标签、目标类信息的关联用户集合确定所述目标类信息的特征编码；利用所述目标类信息的特征编码、所述目标类信息的投放效果数据，训练所述目标类信息的FM模型；通过所述FM模型提取任意所述标签在所述目标类信息下的特征数据。本公开能够提高标签特征提取的准确度，有利于根据标签之间的关联实现信息投放群体的扩展。

Description

标签特征提取方法、装置、存储介质与电子设备

技术领域

本公开涉及数据处理技术领域，尤其涉及一种标签特征提取方法、标签特征提取装置、计算机可读存储介质与电子设备。

背景技术

随着互联网与移动互联网的普及，以互联网与移动互联网为载体的信息投放，已成为一种主流的宣传与推广方式。例如，将广告、新闻、自媒体文章等信息，投放至App(Application，应用程序)页面、网页，或者以短信、桌面弹窗、App消息等方式推送给用户。

相关技术中，为了提高信息投放的精准度，通常采用标签进行定向投放，例如将体育新闻投放给具有“体育”标签的用户，使得所投放的信息有较高的概率引起用户的兴趣，实现较好的投放效果。

然而，上述方法存在以下缺陷：容易发生标签使用不当的情况，如所投放的信息不具有代表性的标签，或者信息标签与用户标签不匹配，导致投放效果下降；投放的用户群体较为固定，不利于扩展出新的受众。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供了一种标签特征提取方法、标签特征提取装置、计算机可读存储介质与电子设备，进而至少在一定程度上改善相关技术中标签使用不当、以及信息投放的用户群体较为固定的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种标签特征提取方法，包括：获取根据用户属性确定的标签；根据所述标签、目标类信息的关联用户集合确定所述目标类信息的特征编码；利用所述目标类信息的特征编码、所述目标类信息的投放效果数据，训练所述目标类信息的FM(Factorization Machine，因子分解机)模型；通过所述FM模型提取任意所述标签在所述目标类信息下的特征数据。

根据本公开的第二方面，提供一种标签特征提取装置，包括：标签获取模块，用于获取根据用户属性确定的标签；特征编码模块，用于根据所述标签、目标类信息的关联用户集合确定所述目标类信息的特征编码；模型训练模块，用于利用所述目标类信息的特征编码、所述目标类信息的投放效果数据，训练所述目标类信息的FM模型；特征提取模块，用于通过所述FM模型提取任意所述标签在所述目标类信息下的特征数据。

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面的标签特征提取方法及其可能的实施方式。

根据本公开的第四方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令。其中，所述处理器配置为经由执行所述可执行指令来执行上述第一方面的标签特征提取方法及其可能的实施方式。

本公开的技术方案具有以下有益效果：

一方面，提供了一种提取标签特征的方案，利用FM模型对标签、信息进行拟合，以得到标签的稠密化特征数据，该特征数据能否反映标签与信息、用户相关联的抽象化特征，准确度较高。另一方面，采用投放效果数据作为FM模型训练的监督，所得到的FM模型与投放效果具有强相关性，因此所提取的标签特征是基于实际投放情况的，具有较高的实用性。再一方面，本方案基于信息历史投放数据即可实现，可以部署在离线阶段，降低线上实际应用中的数据处理量，提高信息投放的处理效率。

进一步的，利用本方案得到的标签特征数据，可以确定不同标签之间的深度关联，进而通过关联标签之间的组合实现信息投放群体的扩展，使得投放群体不再局限于固定群体，同时避免人为选择标签可能导致的标签使用不当的情况，有利于实现全局最优的投放推荐方案；并且确定推荐标签时无需进行实际投放的试验，因此降低了试错成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施方式，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本示例性实施方式中一种标签特征提取方法的流程图；

图2示出本示例性实施方式中生成特征编码的流程图；

图3示出本示例性实施方式中配置行为信息画像库的流程图；

图4示出本示例性实施方式中信息与标签拟合的示意图；

图5示出本示例性实施方式中生成个人信息画像的流程图；

图6示出本示例性实施方式中确定目标信息的流程图；

图7示出本示例性实施方式中一种标签特征提取装置的结构图；

图8示出本示例性实施方式中一种电子设备的结构图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

附图仅为本公开的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

相关技术的一种方案中，提出了对广告投放进行扩展的方法：首先获取当前投放广告的历史相关广告，包括同类型的广告，以及同一广告主所投放的历史广告；然后进行相关广告定向使用情况的分析，通常使用转化率等指标进行定向条件的效果判断；再筛选出效果好的定向条件作为已有定向条件的扩展定向；最终进行投放。然而，该方案中，获取相关广告的方式较为局限，如果同类型的广告、同一广告主的广告数量较少，会导致所扩展得到的定向条件有限，且准确度较低；并且定向条件的效果判断较为片面，会导致筛选出的定向条件脱离实际情况(如竞价过高)。

相关技术的另一种方案中，提出了通过评估两轮投放效果的方法：首先通过人工组合标签，进行第一轮的信息投放，并回收投放的效果数据；再对第一轮的人工组合标签进行重新组合，进行第二轮的信息投放；对比第一轮和第二轮的投放效果，选择效果好的标签组合作为最终的标签组合。然而，该方案中，第一轮的组合标签是人工确定的，存在局限性，即使第二轮对组合标签进行了优化，也无法脱离第一轮组合标签的基础，难以得到全局的最优方案；并且，该方案是通过实际投放进行效果评估，无法在事前进行预测，在第一轮和第二轮投放中，具有很大概率无法准确投放到感兴趣的群体，从而增加了试错成本。

鉴于上述一个或多个问题，本公开的示例性实施方式提供一种标签特征提取方法，可用于提取标签的特征数据，以便于通过标签的特征数据确定不同标签之间的关联，进而实现信息投放群体的扩展。该标签特征提取方法可以由相关信息平台(如电商平台、新闻平台、社交平台等) 的后台系统执行，为有信息投放需求的商户(如广告主、网店主、自媒体等，下文统称为商户)提供信息投放指导。

图1示出了标签特征提取方法的示例性流程，可以包括以下步骤S110 至S140：

步骤S110，获取根据用户属性确定的标签；

步骤S120，根据上述标签、目标类信息的关联用户集合确定目标类信息的特征编码；

步骤S130，利用目标类信息的特征编码、目标类信息的投放效果数据，训练目标类信息的FM模型；

步骤S140，通过FM模型提取任意标签在目标类信息下的特征数据。

基于上述方法，一方面，提供了一种提取标签特征的方案，利用FM 模型对标签、信息进行拟合，以得到标签的稠密化特征数据，该特征数据能否反映标签与信息、用户相关联的抽象化特征，准确度较高。另一方面，采用投放效果数据作为FM模型训练的监督，所得到的FM模型与投放效果具有强相关性，因此所提取的标签特征是基于实际投放情况的，具有较高的实用性。再一方面，本方案基于信息历史投放数据即可实现，可以部署在离线阶段，降低线上实际应用中的数据处理量，提高信息投放的处理效率。

下面分别对图1中的每个步骤做具体说明。

在步骤S110中，获取根据用户属性确定的标签。

其中，用户属性可以包括用户的基本属性，如性别、年龄、职业、居住地等，也可以包括用户的行为属性，如收藏了某个信息版块、经常浏览某一类信息等。需要说明的是，每个标签可以反映用户在某一方面的特点，例如“体育”标签反映用户对体育方面的信息有偏好，“22～30岁”标签反映用户处于该年龄段以内。因此，每个用户可以具有不止一个标签。

步骤S110所获取的标签可以是信息平台方预先配置的，例如信息平台方根据平台上所有用户的属性建立并不断更新用户标签库，从用户标签库中可以直接获取上述标签。也可以是在执行标签特征提取方法时所确定的标签。本公开对此不做限定。

在一种可选的实施方式中，步骤S110可以包括：

根据信息历史投放数据中全部信息的历史曝光数据确定总用户集合；

通过总用户集合中的用户属性确定标签。

其中，信息历史投放数据可以是全部范围内的历史投放数据，也可以是通过一定条件筛选后的历史投放数据，如筛选出近一周的信息历史投放数据、筛选出某一版块的信息历史投放数据等。

信息历史投放数据包括但不限于历史曝光数据、历史转化数据、成本数据、竞价数据。下面对每种数据进行说明：

历史曝光数据主要指信息投放给了哪些用户、曝光时间等，因此从全部信息的历史曝光数据中提取相应的用户，可以形成总用户集合，即接收过至少一次信息曝光的用户。

历史转化数据是指用户通过所投放的信息进行的后续行为数据，如点击数据(点击一般指通过点击信息跳转到另一相关页面)、浏览数据(浏览一般指跳转到另一相关页面后停留超过一定时间)、购买数据(购买一般指跳转到另一相关页面后实施了购买行为)等。本示例性实施方式中，可以通过对信息相关的页面进行埋点而采集上述行为数据，如用户点击信息页面时，系统将用户的身份信息上报到平台，平台将其与存储的用户信息进行对比，可以确定哪个或哪些用户点击了信息，从而记录相应的点击数据。

成本数据是指商户为投放信息所投入的金额，以及不同时间段实际消耗的金额等。

竞价数据可以是商户设置的单位展示次数的价格，即单位展示次数所需的金额，如eCPM(effective Cost Per Mile，千次展示成本)等指标，用于衡量信息平台的流量价值，通常竞价越高，所投放的信息越容易得到优先展示。

在确定总用户集合后，对其中每个用户的用户属性进行统计，可以确定对应的标签。在一种可选的实施方式中，可以从总用户集合中提取用户属性。然后对每一个用户属性的值进行离散化处理，以确定对应的一个或多个标签。例如将年龄属性划分多个数值区间，每个区间对应一个标签，得到如“18～22岁”、“22～30岁”、“30岁～40岁”等年龄标签；又例如将“购买过数码产品”属性划分为“是”或“否”，“是”对应“数码产品”的标签。

在一种可选的实施方式中，可以对用户属性进行筛选，例如某些用户属性的值无法进行离散化处理，或者具有某些用户属性的用户数量过少，这些用户属性可不用于确定标签。

继续参考图1所示，在步骤S120中，根据上述标签、目标类信息的关联用户集合确定目标类信息的特征编码。

本示例性实施方式中，将信息按照领域、行业、内容等划分为不同的类别。以广告为例，可以将广告划分为10个一级类目，包括教育学习、医疗健康、汽车、商务服务、旅游出行、生活服务、文娱休闲、网上购物、游戏、金融服务；每个一级类目下又包括多个二级类目，如金融服务下包括信用卡、记账、理财、贷款、保险、支付工具、彩票等二级类目。10个一级类目共包括283个二级类目。本示例性实施方式可以以广告的每个二级类目为一个类别，将所有广告分为283类。

在划分信息类别的基础上，可以以信息类别为粒度进行相关数据的处理，后续提取标签在某一类信息下的特征。例如，步骤S120可以以当前处理的信息类别为目标类，也可以在投放待投放信息时，以待投放信息的类别为目标类。需要说明的是，本示例性实施方式中对目标类信息的处理过程，可以应用于任一类信息。

目标类信息的关联用户集合是指与目标类信息存在特定交互行为的用户集合，通常是总用户集合的子集。在一种可选的实施方式中，目标类信息的关联用户集合可以通过以下方式确定：根据信息历史投放数据中目标类信息的历史曝光数据和/或历史转化数据确定目标类信息的关联用户集合，由此得到的关联用户集合即为接收过目标类信息的用户集合，或者对目标类信息进行过点击、浏览、购买行为的用户集合。具体采用哪一类用户集合作为关联用户集合，视实际需求而定，本公开对此不做限定。特别的，还可以为目标类信息确定多个关联用户集合，如通过历史曝光数据确定目标类信息的第一关联用户集合，通过历史点击数据确定目标类信息的第二关联用户集合，通过历史浏览数据确定目标类信息的第三关联用户集合等。

将步骤S110中获取的每个标签作为一个特征维度，通过统计目标类信息的关联用户集合中，具有每个标签的用户数量或者用户比例等指标，可以得到目标类信息与每个特征维度的相关程度，进而对目标类信息实现特征编码。本示例性实施方式可以对目标类信息统一进行特征编码，即目标类信息对应一个特征编码；也可以对目标类信息中的每一条信息分别进行特征编码，即每一条信息均对应一个特征编码。

在一种可选的实施方式中，参考图2所示，对每一条信息进行特征编码的过程可以包括以下步骤S210至S230：

步骤S210，在目标类信息的关联用户集合中确定每一条信息的关联用户集合。

其中，上述每一条信息的关联用户集合是指与该条信息存在特定交互行为的用户集合，通常是目标类信息的关联用户集合的子集。以目标类信息中的信息i为例，可以根据信息i的历史曝光数据和/历史转化数据确定信息i的关联用户集合。这与确定目标类信息的关联用户集合的方式相同，可以根据实际需求，采用与信息i具有曝光交互行为的用户集合、点击交互行为的用户集合、浏览交互行为的用户集合、购买交互行为用户集合中的一个或多个作为信息i的关联用户集合。

步骤S220，分别根据上述每一条信息的关联用户集合中携带各标签的用户比例，以及预设用户集合中携带各标签的用户比例，确定每一条信息对应的各标签的目标群体指数。

TGI(Target Group Index，目标群体指数)用于反映某一种特征在指定群体上相比于全局群体的倾向程度。本示例性实施方式中，指定群体即每一条信息的关联用户集合；全局群体即预设用户集合，预设用户集合是指全局用户中满足一定条件的用户集合，可以是上述总用户集合，也可以是总用户集合中对任意信息具有点击、浏览或购买行为的用户子集。因此，以信息i为例，信息i的关联用户集合(记为Ui)中，携带标签T1的用户比例，反映了标签T1的特征在Ui上的倾向程度；预设用户集合(记为 U0)中携带标签T1的用户比例反映了标签T1的特征在全局上的倾向程度；两者相比可以得到T1在Ui上的相对倾向程度。TGI可以参考以下公式(1) 计算：

Q表示用户数量，Q(Ui_T1)表示Ui中具有标签T1的用户数量，Q(Ui) 表示Ui的用户总数；Ui例如可以是点击过信息i的用户集合，则Q(Ui_T1) 为点击过信息i、且具有标签T1的用户数量。Q(U0_T1)表示U0中具有标签T1的用户数量，Q(U0)表示U0的用户总数。100为放大系数。一般的， TGI大于100表示T1在Ui中具有高于普遍水平的倾向程度或偏好度，反之则具有低于普遍水平的倾向程度或偏好度。

步骤S230，通过上述每一条信息对应的各标签的目标群体指数生成每一条信息的特征编码。

对于每一条信息，可以分别计算每个标签的目标群体指数。举例来说，假设在步骤S110中获取300个标签，为T1～T300，对于信息i，分别计算 TGI(Ui_T1)、TGI(Ui_T2)、…、TGI(Ui_T300)，以这300个数值形成一个特征编码，即信息i的特征编码。或者，在进行编码时，对TGI数值进行归一化、离散化等处理，所得到的结果数值形成特征编码。

继续参考图1所示，在步骤S130中，利用目标类信息的特征编码、目标类信息的投放效果数据，训练目标类信息的FM模型。

其中，投放效果数据用于反映信息的投放效果，可以包括预设投放指标数据，或者对多种指标数据进行综合打分得到投放效果分值。预设投放指标数据包括以下任意一种或多种：

投入产出比，是指产出(回报)相对于投入的数据，如可以采用ROI (Return OnInvestment，投资回报率)；

CTR(Click-Through-Rate，点击率)，一般指信息的点击次数与曝光次数的比例；

成本，是指商户为投放信息所投入的金额，以及不同时间段实际消耗的金额等；

单位展示次数的价格，如eCPM等，体现了商户对于信息投放的竞价。

上述预设投放指标中，投入产出比、CTR代表了商户的利益，成本与单位展示次数的价格代表了信息平台方的利益。在一种可选的实施方式中，可以综合上述四种预设投放指标，得到投放效果数据，同时包含了商户与信息平台方的利益，因此较为全面地体现了实际投放效果。

本示例性实施方式可以对目标类信息统一计算投放效果数据，也可以对目标类信息中的每一条信息分别计算投放效果数据。

在一种可选的实施方式中，参考图3所示，目标类信息中每一条信息的投放效果数据，可以通过以下步骤S310和S320获取：

步骤S310，根据信息历史投放数据确定目标类信息中每一条信息的预设投放指标数据；

步骤S320，通过上述每一条信息的预设投放指标数据得到每一条信息的投放效果数据。

其中，信息历史投放数据可以包括成本数据与单位展示次数的价格，而投入产出比、CTR等可以通过统计信息历史投放数据中特定信息的曝光数据、点击数据、购买数据等得到。将不同预设投放指标数据按照预定的规则进行综合，最终得到投放效果数据。

进一步的，步骤S320可以包括：当预设投放指标数据包括至少两种指标时，对每一条信息的预设投放指标数据进行归一化与加权，得到每一条信息的投放效果数据。归一化用于将不同预设投放指标数据量化到相同的0～1数值区间内，以便于进行计算，可以参考以下公式(2)：

其中，Score_index表示不同指标的归一化数值，Score_c表示进行归一化之前的原始数值，Score_max和Score_min分别表示该指标下的最大值与最小值 (例如可以是历史统计数据中的最大值与最小值)。

对不同的预设投放指标数据进行加权，可以参考以下公式(3)：

Score_i＝w_r·ROI+w_c1·CTR+w_c2·Cost+w_e·eCPM (3)

其中，Score_i表示信息i的投放效果分值(即投放效果数据)，Cost表示成本。w_r、w_c1、w_c2、w_e分别为四个指标的权重，可以根据实际情况设定数值，例如按照经验设为w_r＝0.3，w_c1＝0.2，w_c2＝0.2，w_e＝0.3。

在得到目标类信息的投放效果数据后，可以以目标类信息的特征编码与投放效果数据形成样本数据，训练FM模型。需要说明的是，本示例性实施方式可以对每一类信息均训练对应的FM模型，即不同类信息采用不同的FM模型。下面对于FM模型的原理进行说明。

FM模型可以学习信息与标签之间的关联。参考图4所示，一条信息与标签之间的概率矩阵可以分解为一个标签矩阵(图4中的2*n矩阵)与一个信息矩阵(图4中的m*2矩阵)，每条信息与每个标签都可以采用一个隐向量来表示。把每条信息与每个标签均表示为一个二维向量，两个向量的点积就是右侧矩阵中标签对于信息的打分(打分即表示关联度)。结合FM模型的常见二阶表达，见公式(4)：

公式(4)的右侧，前两项是逻辑回归的算法公式，额外增加的第三项

部分，是特征i和j之间的关联项。二次项参数w_ij可以组成一个对称矩阵W，这个矩阵可以分解为W＝V^TV，V的第j列是第j维特征的隐向量，即标签的特征。公式(4)可以转化为公式(5)：

其中，v_i、v_j分别是第i维、第j维特征的隐向量，<>代表向量点积。架设隐向量的长度为k(k<<n)，包含k个描述特征的因子。根据公式(5)，二次项的参数数量减少为kn个，远少于多项式模型的参数数量。另外，参数因子化使得的x_hx_i参数和x_ix_j的参数不再是相互独立的。具体地，x_hx_i和x_ix_j的系数分别为<v_h,v₆>和<v_i,v₆>，它们之间有共同项v_i。由此，所有包含x_i的非零组合特征的样本都可以用来学习隐向量v_i，这很大程度上避免了数据稀疏性造成的影响。而在多项式模型中，w_hi和w_ij是相互独立的。

对公式(5)的二次项做进一步的多项式推导，如以下公式(6)所示：

由上面的推导可知，FM模型在拟合的过程中着重参考了特征之间的关系，并且是以因子分解的方式来进行实际的计算，而二阶的FM模型则对两两特征之间的关系进行了分解计算，最终把特征之间的关系量化到x 与y的拟合中。并且在FM模型中，最终隐向量会反应在特征的向量中，每个特征的向量是FM模型训练的中间产物，因此可以得到标签的特征数据。

在一种可选的实施方式中，参考图5所示，步骤S130可以通过以下步骤S510至S530实现：

步骤S510，以上述每一条信息的特征编码为样本，输入目标类信息的 FM模型中，得到对应的投放效果预测数据；

步骤S520，根据投放效果数据与投放效果预测数据，更新FM模型的参数，并确定ROC(Receiver Operating Characteristic，受试者工作特征) 曲线；

步骤S530，当ROC曲线的AUC(Area Under Curve，曲线下面积，指曲线与坐标轴围成的面积)收敛时，确定训练结束，得到FM模型。

其中，投放效果数据表示实际投放效果，可以作为训练FM模型的监督数据。这样，每一条信息的特征编码与投放效果数据形成一组样本数据。一般的，可以将样本数据划分为训练集与验证集，例如通过6:4的比例划分。训练集中的特征编码输入待训练的FM模型中，输出对应的投放效果预测数据，根据投放效果预测数据与投放效果数据之间的偏差，建立损失函数，并通过损失函数更新FM模型的参数。在每次更新FM模型的同时，绘制对应的ROC曲线，具体可以在验证集上进行验证，得到TPR(True Positive Rate，真阳率)和FPR(False Positive Rate，假阳率)，以TPR为纵坐标、FPR为横坐标，绘制ROC曲线。然后计算ROC曲线的AUC。通常上述迭代过程，不断更新FM模型的参数，直到AUC收敛，即更新 FM模型的参数后，AUC的变化量小于一定的阈值，则确定训练结束，将当前的FM模型确定为最终的FM模型。

实际应用中，可以采用Xlearn(一种机器学习框架)机器学习库进行 FM模型的训练。Xlearn支持分类或者回归类型的FM模型的训练。本示例性实施方式中，模型输出的投放效果预测数据(Score_i)是连续值，所因此Xlearn可以实现FM模型的回归训练。对于283个类别的广告，分别训练对应的283个FM模型。

在一种可选的实施方式中，上述FM模型也可以包括FFM(Field-awareFactorization Machine，场感知因子分解机)模型。FFM模型为FM模型的衍生模型。在FM模型的基础上，FFM模型可以先对特征进行Field(场) 处理，即在具体的场景中，特征本身是有类别归属的。将一个类别作为一个Field，这样每个特征不再对应于一个隐向量，而是每个Field的特征对应于一个独立的隐向量，可以防止不同Field之间相互影响。例如，在广告的场景中，“贷款”、“股票”、“保险”、“基金”等标签特征都归属于“金融”这个类别里，由此可以提前进行特征的Field划分，将有助于标签与广告的拟合，增加标签特征对于广告投放效果数据的学习能力，提高FFM 模型的准确度。

继续参考图1所示，在步骤S140中，通过FM模型提取任意标签在目标类信息下的特征数据。

假设在步骤S110中获取300个标签，则通过FM模型可以提取300*k 的中间矩阵，该矩阵可以分割为300个k维的特征向量，分别对应于300 个标签。由此可以得到每个标签的特征数据。一般的，从FM模型中提取的特征数据为向量的形式，但本示例性实施方式也可以将其转换为其他形式(如数组、列表等)的特征数据，本公开对此不做限定。

在一种可选的实施方式中，步骤S140可以包括：根据待处理标签的序数，从FM模型的参数中提取预设维数的向量，以作为待处理标签在目标类信息下的特征数据。其中，预设维数即上述k，可以根据实际需求而实现设定，例如可以设为8。在FM模型的参数中，各标签的特征向量一般按顺序排列，例如以T1～T300表示300个标签，其对应的8维特征向量可以如下所示：

T1：[0.122345,0.003451,0.131376,0.000015,0.983123,0.033876, 0.438194,0.090131]；

T2：[0.918311,0.103813,0.115568,0.060135,0.816359,0.004060, 0.613488,0.110159]；

T3：……

当提取至少两个标签在目标类信息下的特征数据时，根据特征数据计算这些标签在目标类信息下的关联度。例如，提取标签T1和T2的特征向量后，可以计算两特征向量的內积，如可以使用Python(一种计算机程序设计语言)数学函数库中的numpy.dot进行计算，得到float(浮点)类型的值，可以作为标签T1与T2的关联度，数值越大表示两标签越相关。

在一种可选的实施方式中，可以在离线阶段实施图1的过程。具体地，可以分别以每一类信息作为目标类信息，提取每一个标签在每一类信息下的特征数据，形成标签特征库。这样便于在线上阶段通过查库进行使用。

需要说明的是，同一个标签在不同类信息下可以具有不同的特征数据，例如标签T1在283类广告下分别具有对应的特征数据，即标签T1共具有 283组特征数据。

图6示出了线上阶段确定推荐标签的过程，包括以下步骤S610和S620：

步骤S610，根据待投放信息的类别，在标签特征库中获取标签在待投放信息的类别下的特征数据；

步骤S620，基于上述标签在待投放信息的类别下的特征数据，为待投放信息确定推荐标签。

例如如果待投放信息属于类别F，在标签特征库中查找类别F下所有标签的特征数据，并基于这些特征数据确定推荐标签。确定推荐标签包括但不限于以下两种方式：

方式一、基于上述标签在待投放信息的类别下的特征数据，为待投放信息的定向标签查找关联标签，以作为待投放信息的推荐标签。其中，定向标签可以是人为选择的标签，也可以是历史投放所采用的标签。举例来说，某广告主需要投放篮球鞋的广告，广告主选择“篮球”作为定向标签，篮球鞋的广告属于“体育”类别，系统通过查找标签特征库，获取“体育”类别下各标签的特征数据，分别与“篮球”标签的特征数据计算关联度，选取关联度最高的一个或多个其他标签作为推荐标签，即可以将投放群体从“篮球”标签用户扩展到推荐标签用户，从而实现了投放群体的准确扩展。

方式二、基于上述标签在待投放信息的类别下的特征数据，查找关联度最高的至少两个标签，以作为待投放信息的推荐标签。该方式应用于无定向标签的情况，在待投放信息的类别下，查找关联度最高的两个或两个以上标签，形成推荐标签，将待投放信息投放给推荐标签用户。由此实现了缺乏定向标签的情况下，信息投放群体的冷启动。

需要说明的是，实际投放中，可以选择具有所有定向标签与推荐标签的用户，也可以选择具有其中至少一个标签的用户，作为投放群体。

本公开的示例性实施方式还提供一种标签特征提取装置。如图7所示，该标签特征提取装置700可以包括：

标签获取模块710，用于获取根据用户属性确定的标签；

特征编码模块720，用于根据上述标签、目标类信息的关联用户集合确定目标类信息的特征编码；

模型训练模块730，用于利用目标类信息的特征编码、目标类信息的投放效果数据，训练目标类信息的FM模型；

特征提取模块740，用于通过FM模型提取任意标签在目标类信息下的特征数据。

在一种可选的实施方式中，标签获取模块710，被配置为：

通过总用户集合中的用户属性确定标签。

在一种可选的实施方式中，特征编码模块720，还用于通过以下方式确定目标类信息的关联用户集合：

根据信息历史投放数据中目标类信息的历史曝光数据和/或历史转化数据确定目标类信息的关联用户集合。

在一种可选的实施方式中，目标类信息的特征编码包括目标类信息中每一条信息的特征编码。特征编码模块720，被配置为：

在目标类信息的关联用户集合中确定每一条信息的关联用户集合；

分别根据每一条信息的关联用户集合中携带各标签的用户比例，以及总用户集合中携带各标签的用户比例，确定每一条信息对应的各标签的目标群体指数；

通过每一条信息对应的各标签的目标群体指数生成每一条信息的特征编码。

在一种可选的实施方式中，目标类信息的投放效果数据包括目标类信息中每一条信息的投放效果数据。模型训练模块730，还用于通过以下方式获取上述每一条信息的投放效果数据：

根据信息历史投放数据确定目标类信息中每一条信息的预设投放指标数据；

通过上述每一条信息的预设投放指标数据得到每一条信息的投放效果数据。

在一种可选的实施方式中，模型训练模块730，被配置为：

当预设投放指标数据包括至少两种指标时，对每一条信息的预设投放指标数据进行归一化与加权，得到每一条信息的投放效果数据。

在一种可选的实施方式中，预设投放指标数据包括以下至少一种：投入产出比，点击率，成本，单位展示次数的价格。

在一种可选的实施方式中，模型训练模块730，被配置为：

以每一条信息的特征编码为样本，输入目标类信息的FM模型中，得到对应的投放效果预测数据；

根据投放效果数据与投放效果预测数据，更新FM模型的参数，并确定受试者工作特征ROC曲线；

当ROC曲线的曲线下面积AUC收敛时，确定训练结束，得到FM模型。

在一种可选的实施方式中，特征提取模块740，被配置为：

根据待处理标签的序数，从FM模型的参数中提取预设维数的向量，以作为待处理标签在目标类信息下的特征数据。

在一种可选的实施方式中，特征提取模块740，还用于：

当提取至少两个标签在目标类信息下的特征数据时，根据特征数据计算至少两个标签在目标类信息下的关联度。

在一种可选的实施方式中，特征提取模块740，还用于：

分别以每一类信息作为目标类信息，提取每一个标签在每一类信息下的特征数据，形成标签特征库。

在一种可选的实施方式中，特征提取模块740，还用于：

根据待投放信息的类别，在标签特征库中获取标签在待投放信息的类别下的特征数据；

基于标签在待投放信息的类别下的特征数据，为待投放信息确定推荐标签。

在一种可选的实施方式中，特征提取模块740，被配置为：

基于标签在待投放信息的类别下的特征数据，为待投放信息的定向标签查找关联标签，以作为待投放信息的推荐标签；和/或

基于标签在待投放信息的类别下的特征数据，查找关联度最高的至少两个标签，以作为待投放信息的推荐标签。

在一种可选的实施方式中，上述FM模型包括FFM模型。

上述装置中各部分的具体细节在方法部分实施方式中已经详细说明，因而不再赘述。

本公开的示例性实施方式还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤，例如可以执行图1中任意一个或多个步骤。

该程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本公开的示例性实施方式还提供了一种电子设备，可以是信息平台的后台服务器。下面参考图8对该电子设备进行说明。应当理解，图8显示的电子设备800仅仅是一个示例，不应对本本公开实施方式的功能和使用范围带来任何限制。

如图8所示，电子设备800以通用计算设备的形式表现。电子设备800 的组件可以包括但不限于：至少一个处理单元810、至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。

其中，存储单元存储有程序代码，程序代码可以被处理单元810执行，使得处理单元810执行本说明书上述"示例性方法"部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元810可以执行如图1所示的方法步骤等。

存储单元820可以包括易失性存储单元，例如随机存取存储单元 (RAM)821和/或高速缓存存储单元822，还可以进一步包括只读存储单元(ROM)823。

存储单元820还可以包括具有一组(至少一个)程序模块825的程序 /实用工具824，这样的程序模块825包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线830可以包括数据总线、地址总线和控制总线。

电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口840进行。电子设备800还可以通过网络适配器850与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器850通过总线830与电子设备800的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方式。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

Claims

1.一种标签特征提取方法，其特征在于，包括：

获取根据用户属性确定的标签；

根据所述标签、目标类信息的关联用户集合确定所述目标类信息的特征编码；

利用所述目标类信息的特征编码、所述目标类信息的投放效果数据，训练所述目标类信息的因子分解机FM模型；

通过所述FM模型提取任意所述标签在所述目标类信息下的特征数据。

2.根据权利要求1所述的方法，其特征在于，所述获取根据用户属性确定的标签，包括：

通过所述总用户集合中的用户属性确定标签。

3.根据权利要求1所述的方法，其特征在于，所述目标类信息的关联用户集合，通过以下方式确定：

根据信息历史投放数据中所述目标类信息的历史曝光数据和/或历史转化数据确定所述目标类信息的关联用户集合。

4.根据权利要求1所述的方法，其特征在于，所述目标类信息的特征编码包括所述目标类信息中每一条信息的特征编码；

所述根据所述标签、目标类信息的关联用户集合确定所述目标类信息的特征编码，包括：

在所述目标类信息的关联用户集合中确定所述每一条信息的关联用户集合；

分别根据所述每一条信息的关联用户集合中携带各所述标签的用户比例，以及总用户集合中携带各所述标签的用户比例，确定所述每一条信息对应的各所述标签的目标群体指数；

通过所述每一条信息对应的各所述标签的目标群体指数生成所述每一条信息的特征编码。

5.根据权利要求4所述的方法，其特征在于，所述目标类信息的投放效果数据包括所述目标类信息中每一条信息的投放效果数据，其通过以下方式获取：

根据信息历史投放数据确定所述目标类信息中每一条信息的预设投放指标数据；

通过所述每一条信息的预设投放指标数据得到所述每一条信息的投放效果数据。

6.根据权利要求5所述的方法，其特征在于，所述通过所述每一条信息的预设投放指标数据得到所述每一条信息的投放效果数据，包括：

当所述预设投放指标数据包括至少两种指标时，对所述每一条信息的预设投放指标数据进行归一化与加权，得到所述每一条信息的投放效果数据。

7.根据权利要求5所述的方法，其特征在于，所述预设投放指标数据包括以下至少一种：投入产出比，点击率，成本，单位展示次数的价格。

8.根据权利要求1所述的方法，其特征在于，所述利用所述目标类信息的特征编码、所述目标类信息的投放效果数据，训练所述目标类信息的因子分解机FM模型，包括：

以所述每一条信息的特征编码为样本，输入所述目标类信息的FM模型中，得到对应的投放效果预测数据；

根据所述投放效果数据与所述投放效果预测数据，更新所述FM模型的参数，并确定受试者工作特征ROC曲线；

当所述ROC曲线的曲线下面积AUC收敛时，确定训练结束，得到所述FM模型。

9.根据权利要求1所述的方法，其特征在于，所述通过所述FM模型提取任意所述标签在所述目标类信息下的特征数据，包括：

根据待处理标签的序数，从所述FM模型的参数中提取预设维数的向量，以作为所述待处理标签在所述目标类信息下的特征数据。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当提取至少两个所述标签在所述目标类信息下的特征数据时，根据所述特征数据计算所述至少两个标签在所述目标类信息下的关联度。

11.根据权利要求1所述的方法，其特征在于，分别以每一类信息作为所述目标类信息，提取每一个标签在每一类信息下的特征数据，形成标签特征库。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

根据待投放信息的类别，在所述标签特征库中获取标签在所述待投放信息的类别下的特征数据；

基于所述标签在所述待投放信息的类别下的特征数据，为所述待投放信息确定推荐标签。

13.根据权利要求12所述的方法，其特征在于，所述基于所述标签在所述待投放信息的类别下的特征数据，为所述待投放信息确定推荐标签，包括：

基于所述标签在所述待投放信息的类别下的特征数据，为所述待投放信息的定向标签查找关联标签，以作为所述待投放信息的推荐标签；和/或

基于所述标签在所述待投放信息的类别下的特征数据，查找关联度最高的至少两个标签，以作为所述待投放信息的推荐标签。

14.根据权利要求1至13任一项所述的方法，其特征在于，所述FM模型包括场感知因子分解机FFM模型。

15.一种标签特征提取装置，其特征在于，包括：

标签获取模块，用于获取根据用户属性确定的标签；

特征编码模块，用于根据所述标签、目标类信息的关联用户集合确定所述目标类信息的特征编码；

模型训练模块，用于利用所述目标类信息的特征编码、所述目标类信息的投放效果数据，训练所述目标类信息的FM模型；

特征提取模块，用于通过所述FM模型提取任意所述标签在所述目标类信息下的特征数据。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至14任一项所述的方法。

17.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至14任一项所述的方法。