CN114048294B

CN114048294B - 相似人群扩展模型训练方法、相似人群扩展方法和装置

Info

Publication number: CN114048294B
Application number: CN202210024222.1A
Authority: CN
Inventors: 刘鹏鹤; 刘欣益; 薛娇
Original assignee: Zhizhe Sihai Beijing Technology Co ltd
Current assignee: Zhizhe Sihai Beijing Technology Co ltd
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-04-08
Anticipated expiration: 2042-01-11
Also published as: CN114048294A

Abstract

本发明提供一种相似人群扩展模型训练方法、相似人群扩展方法和装置，其中相似人群扩展模型训练方法包括：获取样本用户的样本历史行为信息和样本用户属性信息，以及目标人群对应的样本内容；利用相似人群扩展模型的用户分类分支，基于样本用户的感兴趣话题表示和用户属性表示对样本用户进行人群分类，得到样本用户的人群预测结果；利用相似人群扩展模型的用户内容匹配分支，基于内容表示和样本用户的感兴趣话题表示进行用户内容匹配，得到样本用户的匹配结果；基于样本用户的人群预测结果、匹配结果和人群标签，对相似人群扩展模型进行参数更新。本发明提高了相似人群扩展模型的用户分类准确性。

Description

相似人群扩展模型训练方法、相似人群扩展方法和装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种相似人群扩展模型训练方法、相似人群扩展方法和装置。

背景技术

在搜索、推荐、广告场景下，往往都有人群扩展的需求。如在推荐场景上，运营人员往往希望某些活动只针对特定的人群进行展示；在互联网商业广告中，许多广告主在搜索潜在客户时都会遇到难以识别高潜人群、难以平衡成本与规模的问题。相似人群扩展（lookalike）技术则是根据少量的种子用户，通过大数据分析以及机器学习扩展出和种子用户相似的人群，也就是根据种子人群的共有属性进行自动化扩展，以扩大潜在用户覆盖面，提升营销/广告效果。

然而，面对频繁的人群 lookalike 需求，如果每次都对特定人群进行单独业务分析建模则需要耗费较多的人力和时间，效率不高。同时，后续的众多不同的人群包扩展模型维护也会异常困难。更重要的是，尽管种子用户大多数是运营人员根据用户在该部分内容上的行为而设置的一些业务规则筛选而来，而模型则主要是根据用户在历史一段时间的行为统计进行建模，也就是说模型主要是学习用户和种子用户的之间的行为相似度来判断用户是否是目标人群。当用户的行为比较多样化或者兴趣比较多样化时，这种相似度有时并不置信，导致相似人群扩展的准确性欠佳。例如，如果一个『高考』人群标签的种子用户，他的兴趣里有「高考」相关的话题，但如果他的兴趣比较广泛，也有相当多的「游戏」、「电影」、「小说」相关的兴趣，当模型学习了该用户的特征后，当待分类用户也具有相当多的「游戏」、「电影」、「小说」相关兴趣但没有「高考」兴趣时，模型很可能也会给该用户预估一个较高的分数，从而将其错误地划分到「高考」人群中。

发明内容

本发明提供一种相似人群扩展模型训练方法、相似人群扩展方法和装置，用以解决现有技术中相似人群扩展效果欠佳的缺陷。

本发明提供一种相似人群扩展模型训练方法，包括：

获取样本用户的样本历史行为信息和样本用户属性信息，以及目标人群对应的样本内容；其中，样本用户包括正样本用户，所述正样本用户的人群标签是所述目标人群；

基于相似人群扩展模型的用户分类分支分别对所述样本用户的样本历史行为信息涉及的话题和所述样本用户的样本用户属性信息进行语义抽取，得到所述样本用户的感兴趣话题表示和用户属性表示，并基于所述感兴趣话题表示和用户属性表示对所述样本用户进行人群分类，得到所述样本用户的人群预测结果；

基于所述相似人群扩展模型的用户内容匹配分支对所述样本内容进行语义抽取，得到所述样本内容的内容表示，并基于所述内容表示和所述样本用户的感兴趣话题表示进行用户内容匹配，得到所述样本用户的匹配结果；

基于所述样本用户的人群预测结果、匹配结果和人群标签，对所述相似人群扩展模型进行参数更新。

根据本发明提供的一种相似人群扩展模型训练方法，对所述样本用户的样本历史行为信息涉及的话题进行语义抽取，得到所述样本用户的感兴趣话题表示，具体包括：

基于所述样本用户的样本历史行为信息对应的行为类型，对所述样本历史行为信息涉及的话题进行划分，得到不同行为类型涉及的话题；

对不同行为类型涉及的话题分别进行语义抽取，得到每个行为类型涉及的话题的话题表示；

基于自注意力机制，对每个行为类型涉及的话题的话题表示进行自注意力计算，得到每个行为类型涉及的话题的自注意力权重；

基于每个行为类型涉及的话题的自注意力权重，对每个行为类型涉及的话题的话题表示进行加权融合，得到所述样本用户的感兴趣话题表示。

根据本发明提供的一种相似人群扩展模型训练方法，对任一行为类型涉及的话题进行语义抽取，具体包括：

基于所述任一行为类型涉及的各个话题的嵌入表示，以及与所述目标人群相关的各个目标话题的嵌入表示，确定所述任一行为类型涉及的各个话题和所述各个目标话题的相关性；

基于所述任一行为类型涉及的各个话题和所述各个目标话题的相关性，确定所述任一行为类型涉及的各个话题的融合权重；

基于所述任一行为类型涉及的各个话题的融合权重，对所述任一行为类型涉及的各个话题的嵌入表示进行加权融合，得到所述任一行为类型涉及的话题的话题表示。

根据本发明提供的一种相似人群扩展模型训练方法，所述基于所述任一行为类型涉及的各个话题和所述各个目标话题的相关性，确定所述任一行为类型涉及的各个话题的融合权重，具体包括：

基于所述任一行为类型涉及的各个话题和所述各个目标话题的相关性，以及所述任一行为类型涉及的各个话题的点击量和/或点击率，确定所述任一行为类型涉及的各个话题的融合权重。

根据本发明提供的一种相似人群扩展模型训练方法，所述对所述样本内容进行语义抽取，得到所述样本内容的内容表示，具体包括：

获取所述样本内容的文本内容向量；

获取所述样本内容涉及的话题的话题融合向量；其中，所述话题融合向量是基于所述样本内容涉及的各个话题的嵌入表示融合得到的；

基于所述文本内容向量和所述话题融合向量，确定所述样本内容的内容表示。

本发明还提供一种相似人群扩展方法，包括：

确定待分类用户的历史行为信息和用户属性信息；

利用相似人群扩展模型，基于所述待分类用户的历史行为信息和用户属性信息，对所述待分类用户进行人群分类，得到所述待分类用户的人群类型；所述人群类型用于指示所述待分类用户是否为目标人群；

其中，所述相似人群扩展模型是基于如上述任一种所述的相似人群扩展模型训练方法训练得到的。

根据本发明提供的一种相似人群扩展方法，所述利用相似人群扩展模型，基于所述待分类用户的历史行为信息和用户属性信息，对所述待分类用户进行人群分类，得到所述待分类用户的人群类型，具体包括：

将所述待分类用户的历史行为信息和用户属性信息输入至所述相似人群扩展模型，得到所述相似人群扩展模型输出的所述待分类用户属于目标人群的第一得分；

获取与所述待分类用户相关的多个相关内容；

基于所述多个相关内容和所述目标人群对应的目标内容的重合情况，确定所述待分类用户属于所述目标人群的第二得分；

基于所述待分类用户属于目标人群的第一得分和第二得分，确定所述待分类用户的人群类型。

本发明还提供一种相似人群扩展模型训练装置，包括：

训练样本获取单元，用于获取样本用户的样本历史行为信息和样本用户属性信息，以及目标人群对应的样本内容；其中，样本用户包括正样本用户，所述正样本用户的人群标签是所述目标人群；

人群分类单元，用于基于相似人群扩展模型的用户分类分支分别对所述样本用户的样本历史行为信息涉及的话题和所述样本用户的样本用户属性信息进行语义抽取，得到所述样本用户的感兴趣话题表示和用户属性表示，并基于所述感兴趣话题表示和用户属性表示对所述样本用户进行人群分类，得到所述样本用户的人群预测结果；

用户内容匹配单元，用于基于所述相似人群扩展模型的用户内容匹配分支对所述样本内容进行语义抽取，得到所述样本内容的内容表示，并基于所述内容表示和所述样本用户的感兴趣话题表示进行用户内容匹配，得到所述样本用户的匹配结果；

模型参数更新单元，用于基于所述样本用户的人群预测结果、匹配结果和人群标签，对所述相似人群扩展模型进行参数更新。

本发明还提供一种相似人群扩展装置，包括：

用户信息确定单元，用于确定待分类用户的历史行为信息和用户属性信息；

人群扩展单元，用于利用相似人群扩展模型，基于所述待分类用户的历史行为信息和用户属性信息，对所述待分类用户进行人群分类，得到所述待分类用户的人群类型；所述人群类型用于指示所述待分类用户是否为目标人群；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述相似人群扩展模型训练方法或相似人群扩展方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述相似人群扩展模型训练方法或相似人群扩展方法的步骤。

本发明提供的相似人群扩展模型训练方法、相似人群扩展方法和装置，在训练相似人群扩展模型时，通过在相似人群扩展模型中增加用户内容匹配分支，其中用户分类分支和用户内容匹配分支共享样本用户的感兴趣话题表示，利用用户内容匹配任务提升感兴趣话题表示对与目标人群相关的兴趣的表达能力，使得根据感兴趣话题表示进行用户分类时，越能够准确判定输入到模型中的待分类用户是否存在与目标人群相关的兴趣，从而更准确地判断该待分类用户是否属于目标人群，提高了相似人群扩展模型的用户分类准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的相似人群扩展模型训练方法的流程示意图；

图2是本发明提供的相似人群扩展模型的结构示意图；

图3是本发明提供的相似人群扩展模型中话题表示层的结构示意图；

图4是本发明提供的相似人群扩展方法的流程示意图；

图5是本发明提供的相似人群扩展模型训练装置的结构示意图；

图6是本发明提供的相似人群扩展装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的相似人群扩展模型训练方法的流程示意图，如图1所示，该方法包括：

步骤110，获取样本用户的样本历史行为信息和样本用户属性信息，以及目标人群对应的样本内容；其中，样本用户包括正样本用户，所述正样本用户的人群标签是所述目标人群；

步骤120，基于相似人群扩展模型的用户分类分支分别对所述样本用户的样本历史行为信息涉及的话题和所述样本用户的样本用户属性信息进行语义抽取，得到所述样本用户的感兴趣话题表示和用户属性表示，并基于所述感兴趣话题表示和用户属性表示对所述样本用户进行人群分类，得到所述样本用户的人群预测结果；

步骤130，基于所述相似人群扩展模型的用户内容匹配分支对所述样本内容进行语义抽取，得到所述样本内容的内容表示，并基于所述内容表示和所述样本用户的感兴趣话题表示进行用户内容匹配，得到所述样本用户的匹配结果；

步骤140，基于所述样本用户的人群预测结果、匹配结果和人群标签，对所述相似人群扩展模型进行参数更新。

具体地，在模型训练前，首先收集大量的训练样本。其中，训练样本包括样本用户的样本历史行为信息和样本用户属性信息，以及目标人群对应的样本内容。样本用户包括人群标签为上述目标人群的正样本用户，还可以包括人群标签不为上述目标人群的正样本用户，目标人群对应的样本内容为目标人群内的用户感兴趣的内容文本。此处，可以直接将目标人群内的种子用户作为正样本用户，对于负样本用户，可以在除种子用户外的全量用户中随机抽取2倍正样本用户数量的用户作为负样本用户，或者，可以在被推送过目标人群对应内容却未点击的用户池中抽取负样本用户，从而提高模型的区分能力。另外，对于后续步骤提到的用户内容匹配分支，可以分别为每个正负样本用户随机抽取若干篇样本内容构建 user-doc pair 作为正负例。

相似人群扩展模型包含有两个任务分支：用户分类分支和用户内容匹配分支。其中，用户分类分支用于对输入到模型的样本用户进行分类，判断样本用户是否为目标人群；用户内容匹配分支用于判断输入到模型的样本用户与目标人群对应的样本内容是否匹配。

此处，用户分类分支对样本用户的样本历史行为信息涉及的话题和该样本用户的样本用户属性信息进行语义抽取，得到该样本用户的感兴趣话题表示和用户属性表示，并基于感兴趣话题表示和用户属性表示对该样本用户进行人群分类，得到该样本用户的人群预测结果。其中，可以获取该样本用户的样本历史行为信息（例如浏览、搜索、关注、收藏等多种行为）涉及的内容对应的话题文本，对该话题文本进行语义抽取，得到感兴趣话题表示。感兴趣话题表示中包含有该样本用户感兴趣的话题的语义信息。其中，样本用户的每一种行为，可以统计其在预设时间段内的 top 100 的话题文本。获取该样本用户的样本用户属性信息，例如性别、年龄等，并对该样本用户属性信息进行语义抽取，得到用户属性表示。用户属性表示中包含有该样本用户的个人信息。结合样本用户的感兴趣话题表示和用户属性表示进行用户分类，得到能够指示该样本用户是否为目标人群的人群预测结果。

用户内容匹配分支对上述样本内容进行语义抽取，得到上述样本内容的内容表示，并基于上述内容表示和用户分类分支中得到的样本用户的感兴趣话题表示进行用户内容匹配，得到上述样本用户的匹配结果。其中，内容表示中包含有上述样本内容的语义信息。样本用户的匹配结果可以指示该样本用户是否与样本内容相匹配，并且由于样本内容与目标人群相对应，若对大多数目标人群的样本内容不感兴趣，则可以认为该样本用户不属于目标人群，因此该匹配结果还可以一定程度上表明该样本用户是否为目标人群。

正由于用户内容匹配分支输出的结果可以一定程度上表明该样本用户是否为目标人群，因此通过在相似人群扩展模型中增加用户内容匹配分支，可以参考样本用户与目标人群对应的样本内容之间的匹配结果，辅助更新用户分类分支中各层模型的参数，提高用户分类分支的分类准确性。具体而言，用户分类分支和用户内容匹配分支由样本用户的感兴趣话题表示这一特征关联起来，因此可以利用用户分类和用户内容匹配两个任务相互促进，通过用户内容匹配任务提升感兴趣话题表示对与目标人群相关的兴趣的表达能力，从而提升用户分类分支的准确性。其中，感兴趣话题表示对与目标人群相关的兴趣的表达能力越强，越能够避免由于样本用户兴趣广泛从而提取过多与目标人群无关的兴趣信息，根据感兴趣话题表示进行用户分类时，越能够准确判定输入到模型中的待分类用户是否存在与目标人群相关的兴趣，从而更准确地判断该待分类用户是否属于目标人群。

需要说明的是，在相似人群扩展模型训练完成后，可以仅使用用户分类分支进行相似人群扩展。

基于上述样本用户的人群预测结果、匹配结果和人群标签，可以对相似人群扩展模型进行一轮参数更新，经过一轮轮迭代更新得到训练好的相似人群扩展模型。其中，相似人群扩展模型在训练过程中的损失函数L_multi-task如下：

其中，L_cls是用户分类损失，L_match是用户内容匹配损失，α为用户内容匹配损失的权重，u为样本用户，c为样本内容，p_u是用户分类分支输出的人群预测结果，y_u是样本用户的人群标签，p_uc是用户内容匹配分支输出的匹配结果，y_uc是样本用户与样本内容的真实匹配结果，其可以根据样本用户的人群标签确定。

本发明实施例提供的方法，在训练相似人群扩展模型时，通过在相似人群扩展模型中增加用户内容匹配分支，其中用户分类分支和用户内容匹配分支共享样本用户的感兴趣话题表示，利用用户内容匹配任务提升感兴趣话题表示对与目标人群相关的兴趣的表达能力，使得根据感兴趣话题表示进行用户分类时，越能够准确判定输入到模型中的待分类用户是否存在与目标人群相关的兴趣，从而更准确地判断该待分类用户是否属于目标人群，提高了相似人群扩展模型的用户分类准确性。

基于上述实施例，对所述样本用户的样本历史行为信息涉及的话题进行语义抽取，得到所述样本用户的感兴趣话题表示，具体包括：

具体地，如图2右侧的用户分类分支所示，可以基于样本用户的样本历史行为信息对应的行为类型，对样本历史行为信息涉及的话题进行划分，得到不同行为类型涉及的话题，例如浏览行为、搜索行为和关注行为等各自涉及的话题view topics、search topics和follow topics等。

然后，对不同行为类型涉及的话题分别进行语义抽取，得到每个行为类型涉及的话题的话题表示。其中，任一行为类型涉及的话题的话题表示，例如，对于任一行为类型涉及的多个话题，可以将上述多个话题输入至嵌入层（Embedding Layer），获取上述多个话题的嵌入表示，该嵌入表示中包含有对应话题的基本语义信息。然后将上述多个话题的嵌入表示输入至话题表示层进行语义抽取，得到该行为类型涉及的话题的话题表示，如图2中的view vector、search vector和follow vector。

随后，将各个行为类型涉及的话题的话题表示输入至自注意力层（Self-Attention Layer），以抽象出该样本用户不同行为在用户分类任务中的重要程度。在自注意力层中，基于自注意力机制，对每个行为类型涉及的话题的话题表示进行自注意力计算，得到每个行为类型涉及的话题的自注意力权重，然后基于每个行为类型涉及的话题的自注意力权重，对每个行为类型涉及的话题的话题表示进行加权融合，得到上述样本用户的感兴趣话题表示。其中，任一行为类型涉及的话题的自注意力权重越大，表明该行为类型涉及的话题在该样本用户的兴趣中占比越大，在判断该样本用户的兴趣时的重要性越高。通过突出重要性较高的行为类型涉及的话题的语义信息，可以提高感兴趣话题表示对样本用户兴趣的表达能力，有助于提高用户分类准确性。

基于上述任一实施例，对任一行为类型涉及的话题进行语义抽取，具体包括：

具体地，由于样本用户可能兴趣广泛，为了提高用户分类的准确性，希望模型能够自动学习出哪些话题对当前任务是有效的，即哪些话题是与目标人群相关、更有利于判断样本用户是否属于目标人群的。例如，目标人群为「大学新生」人群时，希望模型能重点关注「大学军训」、「社团」、「宿舍关系」这些符合「大学新生」特征的话题，而对于「数码」人群，则希望模型能重点关注「手机」、「iPhone」、「相机」等符合「数码」人群特征的话题。因此，本发明实施例在话题表示层引入了Task Aware Attention 机制。

如图3所示，在话题表示层中，基于任一行为类型涉及的各个话题的嵌入表示（如图3右侧矩阵所示），以及与目标人群相关的各个目标话题的嵌入表示（如图3左侧矩阵所示），确定该行为类型涉及的各个话题和上述各个目标话题之间的相关性。此处，可以利用向量点乘的方式计算上述相关性。

得到该行为类型涉及的各个话题和上述各个目标话题的相关性之后，可以利用神经网络模型（例如DNN（Deep Neural Networks，深度神经网络）模块，如图3中的NN module）计算该行为类型涉及的各个话题的融合权重。其中，任一话题与目标话题的相关性越高，该话题的融合权重越大。随后，基于该行为类型涉及的各个话题的融合权重，对该行为类型涉及的各个话题的嵌入表示进行加权融合，得到该行为类型涉及的话题的话题表示。此处，通过加大话题表示中与目标话题相关的话题的占比，有助于提高用户分类的准确性。

其中，目标话题可以通过先验指示人为指定。例如，对于目标人群「时尚人群」，可以人为的指定「美妆」、「穿搭」等一些和时尚有较强相关性的话题。当没办法人为指定目标话题时，也可以仅设置目标话题的数量作为超参数，在相似人群扩展模型的训练过程中自主学习各个目标话题的嵌入表示。在模型训练完成后，还可以通过与预设话题的嵌入表示计算相似度的方式，确定自主学习的话题的嵌入表示对应何种话题，有利于提升模型的可解释性。

基于上述任一实施例，所述基于所述任一行为类型涉及的各个话题和所述各个目标话题的相关性，确定所述任一行为类型涉及的各个话题的融合权重，具体包括：

具体地，在确定任一行为类型涉及的各个话题的融合权重时，还可以引入上述各个话题本身的统计类特征，例如各个话题的点击量和/或点击率，调节各个话题的融合权重。如图3所示，可以将任一行为类型涉及的各个话题的点击量（如图3中的count）和/或点击率（如图3中的cr）组合成向量后与上述各个话题和各个目标话题的相关性矩阵共同输入至神经网络模型中，得到神经网络模型输出的上述各个话题的融合权重。

基于上述任一实施例，所述对所述样本内容进行语义抽取，得到所述样本内容的内容表示，具体包括：

获取所述样本内容的文本内容向量；

具体地，如图2所示，在用户内容匹配分支中，可以利用文本语义提取模型（例如文本语义提取能力较强的bert模型，如图2中的Bert Layer）提取样本内容的文本语义信息，得到对应的文本内容向量（如图2中所示的content vector）。此外，获取该样本内容涉及的话题的话题融合向量。其中，可以利用嵌入层（与用户分类分支中的嵌入层相同）获取该样本内容涉及的各个话题的嵌入表示利用向量融合方法（例如图2中所示的mean pooling方式）进行融合，得到话题融合向量（如图2中所示的topic vector）

随后，基于上述文本内容向量和话题融合向量，可以确定上述样本内容的内容表示。例如，可以将上述两个向量拼接，得到上述内容表示。

基于上述任一实施例，图4为本发明实施例提供的相似人群扩展方法的流程示意图，如图4所示，该方法包括：

步骤410，确定待分类用户的历史行为信息和用户属性信息；

步骤420，利用相似人群扩展模型，基于所述待分类用户的历史行为信息和用户属性信息，对所述待分类用户进行人群分类，得到所述待分类用户的人群类型；所述人群类型用于指示所述待分类用户是否为目标人群；

其中，所述相似人群扩展模型是基于如上述任一实施例提供的相似人群扩展模型训练方法训练得到的。

具体地，利用上述任一实施例提供的训练方法训练相似人群扩展模型后，可以将待分类用户的历史行为信息和用户属性信息输入至训练好的相似人群扩展模型的用户分类分支中，利用用户分类分支分别对历史行为信息涉及的话题和用户属性信息分别进行语义抽取，得到该待分类用户的感兴趣话题表示和用户属性表示，然后将待分类用户的感兴趣话题表示和用户属性表示拼接后利用多层感知机等模型进行人群分类，得到能够指示待分类用户是否为目标人群的人群类型。此处，待分类用户的感兴趣话题表示和用户属性表示可以采用上述任一实施例中给出的样本用户的感兴趣话题表示和用户属性表示的获取方式获取得到，在此不再赘述。

本发明实施例提供的方法，利用训练好的相似人群扩展模型的用户分类分支对待分类用户的历史行为信息和用户属性信息进行语义抽取，得到待分类用户的感兴趣话题表示和用户属性表示，再基于待分类用户的感兴趣话题表示和用户属性表示进行人群分类，提高了用户分类的准确性。

基于上述任一实施例，步骤420具体包括：

获取与所述待分类用户相关的多个相关内容；

具体地，将待分类用户的历史行为信息和用户属性信息输入至训练好的相似人群扩展模型后，可以得到相似人群扩展模型输出的待分类用户属于目标人群的第一得分。其中，第一得分越高，该待分类用户属于目标人群的可能性越大。为了进一步提高用户分类的准确性，还可以利用目标人群对应的目标内容进行用户召回，其中目标内容为目标人群感兴趣的内容。具体而言，可以获取与该待分类用户相关的TopN个相关内容，然后判断上述TopN个相关内容与目标人群对应的目标内容的重合情况。基于上述TopN个相关内容与目标人群对应的目标内容的重合情况，确定待分类用户属于所述目标人群的第二得分。其中，第二得分也可以反映待分类用户属于目标人群的可能性。TopN个相关内容与目标人群对应的目标内容的重合数越多，即TopN个相关内容中有越多内容为目标内容，则该待分类用户的兴趣与目标人群越一致，其对应的第二得分越高。

综合待分类用户属于目标人群的第一得分和第二得分，确定该待分类用户的人群类型。此处，可以为第一得分和第二得分分别设置对应的权值，然后对第一得分和第二得分加权求和，根据加权求和的结果判断该待分类用户是否为目标人群。

下面对本发明提供的相似人群扩展模型训练装置进行描述，下文描述的相似人群扩展模型训练装置与上文描述的相似人群扩展模型训练方法可相互对应参照。

图5为本发明实施例提供的相似人群扩展模型训练装置的结构示意图，如图5所示，该装置包括：训练样本获取单元510、人群分类单元520、用户内容匹配单元530和模型参数更新单元540。

其中，训练样本获取单元510用于获取样本用户的样本历史行为信息和样本用户属性信息，以及目标人群对应的样本内容；其中，样本用户包括正样本用户，所述正样本用户的人群标签是所述目标人群；

人群分类单元520用于基于相似人群扩展模型的用户分类分支分别对所述样本用户的样本历史行为信息涉及的话题和所述样本用户的样本用户属性信息进行语义抽取，得到所述样本用户的感兴趣话题表示和用户属性表示，并基于所述感兴趣话题表示和用户属性表示对所述样本用户进行人群分类，得到所述样本用户的人群预测结果；

用户内容匹配单元530用于基于所述相似人群扩展模型的用户内容匹配分支对所述样本内容进行语义抽取，得到所述样本内容的内容表示，并基于所述内容表示和所述样本用户的感兴趣话题表示进行用户内容匹配，得到所述样本用户的匹配结果；

模型参数更新单元540用于基于所述样本用户的人群预测结果、匹配结果和人群标签，对所述相似人群扩展模型进行参数更新。

本发明实施例提供的装置，在训练相似人群扩展模型时，通过在相似人群扩展模型中增加用户内容匹配分支，其中用户分类分支和用户内容匹配分支共享样本用户的感兴趣话题表示，利用用户内容匹配任务提升感兴趣话题表示对与目标人群相关的兴趣的表达能力，使得根据感兴趣话题表示进行用户分类时，越能够准确判定输入到模型中的待分类用户是否存在与目标人群相关的兴趣，从而更准确地判断该待分类用户是否属于目标人群，提高了相似人群扩展模型的用户分类准确性。

基于上述任一实施例，对所述样本用户的样本历史行为信息涉及的话题进行语义抽取，得到所述样本用户的感兴趣话题表示，具体包括：

获取所述样本内容的文本内容向量；

下面对本发明提供的相似人群扩展装置进行描述，下文描述的相似人群扩展装置与上文描述的相似人群扩展方法可相互对应参照。

基于上述任一实施例，图6为本发明实施例提供的相似人群扩展装置的结构示意图，如图6所示，该装置包括：用户信息确定单元610和人群扩展单元620。

其中，用户信息确定单元610用于确定待分类用户的历史行为信息和用户属性信息；

人群扩展单元620用于利用相似人群扩展模型，基于所述待分类用户的历史行为信息和用户属性信息，对所述待分类用户进行人群分类，得到所述待分类用户的人群类型；所述人群类型用于指示所述待分类用户是否为目标人群；

本发明实施例提供的装置，利用训练好的相似人群扩展模型的用户分类分支对待分类用户的历史行为信息和用户属性信息进行语义抽取，得到待分类用户的感兴趣话题表示和用户属性表示，再基于待分类用户的感兴趣话题表示和用户属性表示进行人群分类，提高了用户分类的准确性。

基于上述任一实施例，人群扩展单元620具体用于：

获取与所述待分类用户相关的多个相关内容；

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行相似人群扩展模型训练方法，该方法包括：获取样本用户的样本历史行为信息和样本用户属性信息，以及目标人群对应的样本内容；其中，样本用户包括正样本用户，所述正样本用户的人群标签是所述目标人群；基于相似人群扩展模型的用户分类分支分别对所述样本用户的样本历史行为信息涉及的话题和所述样本用户的样本用户属性信息进行语义抽取，得到所述样本用户的感兴趣话题表示和用户属性表示，并基于所述感兴趣话题表示和用户属性表示对所述样本用户进行人群分类，得到所述样本用户的人群预测结果；基于所述相似人群扩展模型的用户内容匹配分支对所述样本内容进行语义抽取，得到所述样本内容的内容表示，并基于所述内容表示和所述样本用户的感兴趣话题表示进行用户内容匹配，得到所述样本用户的匹配结果；基于所述样本用户的人群预测结果、匹配结果和人群标签，对所述相似人群扩展模型进行参数更新。

处理器710还可以调用存储器730中的逻辑指令，以执行相似人群扩展方法，该方法包括：确定待分类用户的历史行为信息和用户属性信息；利用相似人群扩展模型，基于所述待分类用户的历史行为信息和用户属性信息，对所述待分类用户进行人群分类，得到所述待分类用户的人群类型；所述人群类型用于指示所述待分类用户是否为目标人群；其中，所述相似人群扩展模型是基于如上述任一实施例提供的相似人群扩展模型训练方法训练得到的。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的相似人群扩展模型训练方法，该方法包括：获取样本用户的样本历史行为信息和样本用户属性信息，以及目标人群对应的样本内容；其中，样本用户包括正样本用户，所述正样本用户的人群标签是所述目标人群；基于相似人群扩展模型的用户分类分支分别对所述样本用户的样本历史行为信息涉及的话题和所述样本用户的样本用户属性信息进行语义抽取，得到所述样本用户的感兴趣话题表示和用户属性表示，并基于所述感兴趣话题表示和用户属性表示对所述样本用户进行人群分类，得到所述样本用户的人群预测结果；基于所述相似人群扩展模型的用户内容匹配分支对所述样本内容进行语义抽取，得到所述样本内容的内容表示，并基于所述内容表示和所述样本用户的感兴趣话题表示进行用户内容匹配，得到所述样本用户的匹配结果；基于所述样本用户的人群预测结果、匹配结果和人群标签，对所述相似人群扩展模型进行参数更新。

所述计算机程序被处理器执行时，计算机还能够执行上述各方法所提供的相似人群扩展方法，该方法包括：确定待分类用户的历史行为信息和用户属性信息；利用相似人群扩展模型，基于所述待分类用户的历史行为信息和用户属性信息，对所述待分类用户进行人群分类，得到所述待分类用户的人群类型；所述人群类型用于指示所述待分类用户是否为目标人群；其中，所述相似人群扩展模型是基于如上述任一实施例提供的相似人群扩展模型训练方法训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的相似人群扩展模型训练方法，该方法包括：获取样本用户的样本历史行为信息和样本用户属性信息，以及目标人群对应的样本内容；其中，样本用户包括正样本用户，所述正样本用户的人群标签是所述目标人群；基于相似人群扩展模型的用户分类分支分别对所述样本用户的样本历史行为信息涉及的话题和所述样本用户的样本用户属性信息进行语义抽取，得到所述样本用户的感兴趣话题表示和用户属性表示，并基于所述感兴趣话题表示和用户属性表示对所述样本用户进行人群分类，得到所述样本用户的人群预测结果；基于所述相似人群扩展模型的用户内容匹配分支对所述样本内容进行语义抽取，得到所述样本内容的内容表示，并基于所述内容表示和所述样本用户的感兴趣话题表示进行用户内容匹配，得到所述样本用户的匹配结果；基于所述样本用户的人群预测结果、匹配结果和人群标签，对所述相似人群扩展模型进行参数更新。

该计算机程序被处理器执行时还能够执行上述各方法提供的相似人群扩展方法，该方法包括：确定待分类用户的历史行为信息和用户属性信息；利用相似人群扩展模型，基于所述待分类用户的历史行为信息和用户属性信息，对所述待分类用户进行人群分类，得到所述待分类用户的人群类型；所述人群类型用于指示所述待分类用户是否为目标人群；其中，所述相似人群扩展模型是基于如上述任一实施例提供的相似人群扩展模型训练方法训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种相似人群扩展模型训练方法，其特征在于，包括：

基于所述样本用户的人群预测结果、匹配结果和人群标签，对所述相似人群扩展模型进行参数更新；

对所述样本用户的样本历史行为信息涉及的话题进行语义抽取，得到所述样本用户的感兴趣话题表示，具体包括：

基于每个行为类型涉及的话题的自注意力权重，对每个行为类型涉及的话题的话题表示进行加权融合，得到所述样本用户的感兴趣话题表示；

所述对所述样本内容进行语义抽取，得到所述样本内容的内容表示，具体包括：

获取所述样本内容的文本内容向量；

2.根据权利要求1所述的相似人群扩展模型训练方法，其特征在于，对任一行为类型涉及的话题进行语义抽取，具体包括：

3.根据权利要求2所述的相似人群扩展模型训练方法，其特征在于，所述基于所述任一行为类型涉及的各个话题和所述各个目标话题的相关性，确定所述任一行为类型涉及的各个话题的融合权重，具体包括：

4.一种相似人群扩展方法，其特征在于，包括：

确定待分类用户的历史行为信息和用户属性信息；

其中，所述相似人群扩展模型是基于如权利要求1至3任一项所述的相似人群扩展模型训练方法训练得到的。

5.根据权利要求4所述的相似人群扩展方法，其特征在于，所述利用相似人群扩展模型，基于所述待分类用户的历史行为信息和用户属性信息，对所述待分类用户进行人群分类，得到所述待分类用户的人群类型，具体包括：

获取与所述待分类用户相关的多个相关内容；

6.一种相似人群扩展模型训练装置，其特征在于，包括：

模型参数更新单元，用于基于所述样本用户的人群预测结果、匹配结果和人群标签，对所述相似人群扩展模型进行参数更新；

获取所述样本内容的文本内容向量；

7.一种相似人群扩展装置，其特征在于，包括：

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述相似人群扩展模型训练方法的步骤，或实现如权利要求4或5所述相似人群扩展方法的步骤。