CN112052397B

CN112052397B - 用户特征生成方法、装置、电子设备及存储介质

Info

Publication number: CN112052397B
Application number: CN202011057509.1A
Authority: CN
Inventors: 文灿; 周俊; 张英; 欧阳利萍
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2024-05-03
Anticipated expiration: 2040-09-29
Also published as: CN112052397A

Abstract

本公开提供了用户特征生成方法、装置、电子设备及存储介质，涉及大数据处理等领域。具体实现方案为：获取目标用户在第一预设时长内的N个历史行为数据；其中，N为大于等于1的整数；基于M个候选簇的主题词确定所述N个历史行为数据分别对应的主题，基于所述N个历史行为数据分别对应的主题进行聚合得到K个历史行为数据集合及其主题；其中，M和K为大于等于1的整数；基于所述K个历史行为数据集合分别对应的候选簇的中心向量，确定所述K个历史行为数据集合分别对应的目标行为数据；将所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征。

Description

用户特征生成方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域。本公开尤其涉及大数据处理领域。

背景技术

现有技术中，为了综合考虑线上性能和模型效果，对用户长周期行为数据的应用具有很大程度的截断，比如只对用户短期的行为进行挖掘和应用或者是对基于长周期挖掘结果进行一些随机选取，并没有将用户长期的行为进行全面充分挖掘和应用。

然而，如何对用户的历史行为数据进行更加全面的理解，就成为需要解决的问题。

发明内容

本公开提供了一种用户特征生成方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种用户特征生成方法，包括：

获取目标用户在第一预设时长内的N个历史行为数据；其中，N为大于等于1的整数；

基于M个候选簇的主题词确定所述N个历史行为数据分别对应的主题，基于所述N个历史行为数据分别对应的主题进行聚合得到K个历史行为数据集合及其主题；其中，M和K为大于等于1的整数；

基于所述K个历史行为数据集合分别对应的候选簇的中心向量，确定所述K个历史行为数据集合分别对应的目标行为数据；

将所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征。

根据本公开的另一方面，提供了一种用户特征生成装置，包括：

获取模块，用于获取目标用户在第一预设时长内的N个历史行为数据；其中，N为大于等于1的整数；

聚合模块，用于基于M个候选簇的主题词确定所述N个历史行为数据分别对应的主题，基于所述N个历史行为数据分别对应的主题进行聚合得到K个历史行为数据集合及其主题；其中，M和K为大于等于1的整数；

提取模块，用于基于所述K个历史行为数据集合分别对应的候选簇的中心向量，确定所述K个历史行为数据集合分别对应的目标行为数据；

特征生成模块，用于将所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征。

根据本公开的一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述方法。

根据本公开的一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行前述方法。

根据本公开的一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的用户特征生成方法流程示意图一；

图2是根据本公开实施例的确定候选簇的方法流程示意图；

图3是根据本公开实施例的用户特征生成方法流程示意图二；

图4是根据本公开实施例的用户特征生成装置组成结构示意图一；

图5是根据本公开实施例的用户特征生成装置组成结构示意图二；

图6是用来实现本公开实施例的用户特征生成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例提供了一种用户特征生成方法，如图1所示，包括：

S101：获取目标用户在第一预设时长内的N个历史行为数据；其中，N为大于等于1的整数；

S102：基于M个候选簇的主题词确定所述N个历史行为数据分别对应的主题，基于所述N个历史行为数据分别对应的主题进行聚合得到K个历史行为数据集合及其主题；其中，M和K为大于等于1的整数；

S103：基于所述K个历史行为数据集合分别对应的候选簇的中心向量，确定所述K个历史行为数据集合分别对应的目标行为数据；

S104：将所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征。

本实施例可以应用于服务器。

所述目标用户可以是服务器中保存有历史行为数据的全部用户中任意之一。

所述N个历史行为数据中，每一个历史行为数据可以为以下之一：搜索记录、浏览主题信息、互动行为的文本信息。

其中，搜索记录，或可以称搜索词信息，可以是用户在搜索引擎中输入的信息。

所述浏览主题信息可以是用户历史浏览的网页的主题或标题信息。

所述互动行为的文本信息可以是所述目标用户与其他用户产生互动行为的时候的相关文本信息；比如，目标用户转发或评论用户A发表的信息可以是一次互动行为，互动行为的文本信息可以是目标用户如果转发用户A的信息，那么用户A的信息可以是目标用户的互动行为的文本信息，如果目标用户评论用户A的信息，那么目标用户的评论可以是目标用户的互动行为的文本信息。

所述第一预设时长可以根据实际情况进行预设，比如可以是1年，或者可以是2年，这里不做穷举。

所述目标用户在第一预设时长内的N个历史行为数据，可以是目标用户在第一预设时长内的全部历史行为数据。

所述M个候选簇可以是预先构建的候选簇，又或者，可以是预先构建的簇中的一部分。若所述M个候选簇是预先构建的全部簇(或全量簇)中的一部分，则可以是基于当前场景相关的主题从预先构建的簇中筛选出的M个候选簇。

在本实施例中，仅需要使用到上述预先构建的所述M个候选簇的相关信息，具体来说，所述M个候选簇中每一个候选簇的相关信息可以包括：候选簇的标识、候选簇的主题词、候选簇的中心向量。

所述基于M个候选簇的主题词确定所述N个历史行为数据分别对应的主题，基于所述N个历史行为数据分别对应的主题进行聚合得到K个历史行为数据集合及其主题，可以是：将所述N个历史行为数据中各个历史行为数据分别与所述M个候选簇的主题词进行比对，得到所述各个历史行为数据的主题；基于所述各个历史行为数据的主题，将所述N个历史行为数据中主题相同的历史行为数据进行聚合，得到K个历史行为数据集合，并确定各个历史行为数据集合的主题。

基于上述处理可以将所述目标用户的N个历史行为数据划分至K个历史行为数据集合。其中，不同的历史行为数据集合中包含的历史行为数据不同。另外，不同的历史行为数据集合中包含的历史行为数据的数量可以相同也可以不同，本实施例不做限定。

基于所述K个历史行为数据集合分别对应的候选簇的中心向量，确定所述K个历史行为数据集合分别对应的目标行为数据，可以为：将所述K个历史行为数据集合中每一个历史行为数据集合中的各个历史行为数据、与每一个历史行为数据集合所对应的候选簇的中心向量进行比对，选取每一个历史行为数据集合的各个历史行为数据中距离所述中心向量最近的一个作为对应的目标行为数据。如此，可以确定每一个历史行为数据集合所对应的一个目标行为数据。

将所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征，可以是将每一个历史行为数据集合的主题以及目标行为数据输出，最终得到K个主题以及每一个主题所对应的目标行为数据作为目标用户的特征。

如此，通过上述方案，获取目标用户的长期历史行为数据，通过主题聚合的方式得到目标用户的历史行为数据集合，基于目标用户的历史行为数据集合筛选得到目标用户的主题以及目标行为数据作为目标用户的特征；从而可以有效的利用目标用户的长期历史行为数据对所述目标用户进行全面的理解，并且由于最终得到的目标用户的特征仅需要通过至少一个主题以及至少一个目标行为数据就可以表征，如此可以节省线上存储目标用户的特征所占用的数据量，并且还可以满足丰富并且个性化表达目标用户的特征的需求。

本公开的另一实施例中，所述基于M个候选簇的主题词确定所述N个历史行为数据分别对应的主题，包括：

将所述目标用户的所述N个历史行为数据中的第i个历史行为数据与所述M个候选簇的主题词分别进行匹配，将所述第i个历史行为数据所匹配的候选簇的主题词作为所述第i个历史行为数据对应的主题；其中，所述i为大于等于1且小于等于N的整数。

其中，所述第i个历史行为数据可以为所述目标用户的所述N个历史行为数据中的任意一个，即针对所述N个历史行为数据中的任意一个历史行为数据都可以采用以上处理来确定其对应的主题，只是不再一一赘述。

进一步地，针对所述第i个历史行为数据可以进行分词得到所述第i个历史行为数据的分词结果，基于所述分词结果与M个候选簇的主题词中每一个候选簇的主题词进行匹配，将匹配到的候选簇的主题词作为所述第i个历史行为数据的主题词。

又或者，针对所述第i个历史行为数据可以进行分词得到所述第i个历史行为数据的分词结果，基于所述第i个历史行为数据的分词结果确定所述第i个历史行为数据的核心词，基于所述核心词与M个候选簇的主题词中每一个候选簇的主题词进行匹配，将匹配到的候选簇的主题词作为所述第i个历史行为数据的主题词。

基于所述N个历史行为数据分别对应的主题进行聚合得到K个历史行为数据集合及其主题，具体可以是：

对所述N个历史行为数据中任意两个历史行为数据的主题进行比对，将主题相同的全部历史行为数据聚合至同一个历史行为数据集合中，最终得到K个历史行为数据集合，并且将每一个历史行为数据集合中历史行为数据的主题作为该历史行为数据集合的主题。

如此，通过结合M个候选簇的主题词对所述目标用户的N个历史行为数据分别确定相应的主题，根据主题对所述N个历史行为数据进行聚合得到K个历史行为数据集合及其对应的主题；从而，可以更准确的对目标用户的历史行为数据进行丰富的类别划分，能够为后续进行目标用户的特征的确定提供分类更加清晰且准确的信息，也能够提升确定目标用户的特征的准确性以及全面性。

基于前述历史行为数据集合，可以进一步从每一个历史行为数据集合中提取对应的目标行为数据，具体来说，所述基于所述K个历史行为数据集合分别对应的候选簇的中心向量，确定所述K个历史行为数据集合分别对应的目标行为数据，包括：

将所述K个历史行为数据集合中的第j个历史行为数据集合中包含的历史行为数据，与所述第j个历史行为数据集合对应的候选簇的中心向量进行比对，确定与所述第j个历史行为数据集合对应的所述候选簇的所述中心向量距离最近的历史行为数据作为所述第j个历史行为数据集合所对应的目标行为数据；其中，所述j为大于等于1且小于等于K的整数。

其中，所述第j个历史行为数据集合可以为所述目标用户的所述K个历史行为数据集合中的任意一个，即针对所述K个历史行为数据集合中的任意一个历史行为数据集合都可以采用以上处理来确定其对应的目标行为数据，只是不再一一赘述。

在将所述K个历史行为数据集合中的第j个历史行为数据集合中包含的历史行为数据，与所述K个历史行为数据集合对应的候选簇的中心向量进行比对之前，还可以包括：

将所述K个历史行为数据集合中的第j个历史行为数据集合中包含的各个历史行为数据进行向量化处理，得到各个历史行为数据的句向量。

相应的，所述将所述K个历史行为数据集合中的第j个历史行为数据集合中包含各个历史行为数据，与所述K个历史行为数据集合对应的候选簇的中心向量进行比对，可以包括：

将所述K个历史行为数据集合中的第j个历史行为数据集合中包含的各个历史行为数据的句向量，与所述K个历史行为数据对应的候选簇的中心向量进行比对。

其中，比对的处理具体可以是比对各个历史行为数据的句向量与中心向量之间的距离。

所述第j个历史行为数据集合对应的所述候选簇的所述中心向量，具体可以是，基于前述处理可以得到每一个历史行为数据集合的主题，根据所述第j个历史行为数据集合的主题确定其对应的所述候选簇的所述中心向量。

前面已经描述在处理中，仅需要使用到M个候选簇的相关信息，该候选簇的相关信息中包括有：候选簇的标识、候选簇的主题词以及候选簇的中心向量，可以看出候选簇的主题词以及候选簇的中心向量之间具备关联性。因此，基于所述第j个历史行为数据集合的主题，可以确定对应的候选簇的主题词，进而可以确定该主题词所关联的所述候选簇的中心向量。

如此，可以从历史行为数据集合中包含的历史行为数据中，查找到与该历史行为数据集合对应的候选簇的中心向量距离最近的一个历史行为数据作为该历史行为数据的目标行为数据；从而可以进一步为选取目标用户自己的历史行为数据作为目标行为数据，将该目标行为数据作为目标用户的特征，可以保证了能够更加个性化的表达目标用户的特征。

本实施例提供的方案中，可以将所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征，并输出所述目标用户的特征。

这里，可以基于随机顺序，逐个输出K个历史行为数据集合所分别对应的主题以及目标行为数据作为目标用户的特征。

举例来说，假设K为3，则目标用户的特征可以包括：主题1、目标行为数据1、主题2、目标行为数据2、主题3以及目标行为数据3。

又或者，所述将所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征，可以包括：

基于所述K个历史行为数据集合分别对应的所述目标行为数据的时间信息和/或频次信息，对所述K个历史行为数据集合进行排序；

基于所述K个历史行为数据集合的排序确定所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据的排序，将排序后的所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征。

需要指出的是，基于所述K个历史行为数据集合分别对应的所述目标行为数据的时间信息和/或频次信息，对所述K个历史行为数据集合进行排序之前，还可以包括：

在获取所述目标用户的所述N个历史行为数据后，对所述N个历史行为数据基于时间进行序列化，得到基于时间排序的N个历史行为数据，并且统计所述N个历史行为数据中每一个历史行为数据的频次。

即在获取所述目标用户的所述N个历史行为数据的时候，还可以进一步统计每一个历史行为数据的出现频次，并且将各个历史行为数据按照时间的先后顺序进行排序。具体的排序可以是将时间最近和/或频次最大的排在最前面，时间最远和/或频次最小的排在最后面；或者，可以相反，本实施例不做穷举。

在将所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征，并输出所述目标用户的特征的时候，可以基于所述K个历史行为数据集合分别对应的目标行为数据的时间信息和/或频次信息，对所述K个历史行为数据集合分别对应的目标行为数据进行排序打分，得到所述K个历史行为数据集合打分结果。

基于所述K个历史行为数据集合的打分结果进行排序，按照排序逐个输出所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征。

需要说明的是，输出目标用户的特征的时候可以存在预设的格式，也就是可以对目标用户的特征进行格式化输出。该预设的格式可以包括依次输出：用户ID、目标行为数据、时间、主题、打分结果；或者，预设的格式可以包括依次输出：用户ID、主题、目标行为数据；又或者，预设的格式可以包括依次输出：用户ID、主题、目标行为数据以及打分。也就是，预设的格式根据实际需要来确定，但是必然需要输出的信息可以包括有该目标用户的标识(即用户ID)、主题、目标行为数据。

举例来说，假设K为3，排序为历史行为数据集合2、历史行为数据集合3、历史行为数据集合1；则目标用户的特征的输出可以包括：主题2、目标行为数据2、打分结果2；主题3、目标行为数据3、打分结果3；主题1、目标行为数据1、打分结果1。

如此，可以在输出目标用户的特征的时候，基于目标行为数据的时间信息和/或频次信息来确定K个历史行为数据集合的排序，进而将目标用户的主题以及目标行为数据按照排序进行排列输出；如此可以更加准确的表达目标用户的特征中多个主题以及目标行为数据的频次以及时间相关特征。

本申请的又一实施例中，如图2所示，还可以包括：

S201：获取L个用户在第二预设时长内的历史行为数据，生成所述历史行为数据的句向量；其中，所述L为大于等于1的整数；

S202：基于所述L个用户的所述历史行为数据的句向量，确定M个候选簇；

S203：提取所述M个候选簇的主题词以及所述M个候选簇的中心向量。

这里，所述第二预设时长与所述第一预设时长可以相同也可以不同。所述第二预设时长可以是根据实际情况选取的时长，比如可以是1年，或2年，还可以为更长或更短，本实施例不做穷举。

其中，L个用户可以是在第二预设时长内全部发生过网络操作历史行为的用户；又或者，是可以从全部发生或网络操作的历史行为数据的用户中抽取的一部分用户，该一部分用户即作为所述L个用户。

进一步地，抽取的一部分用户的抽取原则可以是选取历史行为数据较多的用户，比如可以是历史行为数据超过预设数量门限值的用户；和/或，历史行为数据的时间较近的用户，比如可以是最后一条历史行为数据的结束时间与当前处理的时刻之间的时间差小于预设时间门限值的所述L个用户。

对上述L个用户中各个用户的各个历史行为数据进行向量化处理，生成所述各个历史行为数据的句向量。

具体的，可以通过采用ERNIE(知识增强语义表示模型,Enhanced Representationfrom kNowledge IntEgration)的双塔文本匹配模型获取各个历史行为数据的通用的文本语义表示-稠密句向量，将各个历史行为数据的通用的文本语义表示-稠密句向量作为所述各个历史行为数据的句向量。该文本语义表示-稠密句向量可以是256维的向量。

进而可以基于各个历史行为数据的句向量确定M个候选簇，具体可以是：先基于各个历史行为数据的句向量进行聚类得到至少一个簇，再从所述至少一个簇中筛选得到M个候选簇。

其中，基于各个历史行为数据的句向量进行聚类得到至少一个簇的处理中，可以得到聚类过程中的中间参数，其中包括每一个簇的中心向量。

另外，在基于各个历史行为数据的句向量进行聚类得到至少一个簇之后，还可以确定每一个簇的主题词。比如，可以包括：

对每一个簇进行核心词提取；

结合所述每一个簇的核心词以及预设的业务场景相关的主题核心词，确定每一个簇的主题词。

其中，对每一个簇进行核心词提取；比如可以提取每一个簇中的各个历史行为数据的子核心词，基于各个历史行为数据的子核心词确定每一个簇的核心词。可以是将其中出现频次最高的一个或多个核心词作为该簇的核心词。

结合所述每一个簇的核心词以及预设的业务场景相关的主题核心词，确定每一个簇的主题词，可以是基于相似度进行匹配，假设一个簇存在一个或多个核心词，可以将该簇的每一个核心词与预设的业务场景相关的主题核心词(可以是一个或多个)进行相似度匹配，确定相似度最高的一个核心词作为该簇的主题词。

最终提取所述M个候选簇的主题词以及所述M个候选簇的中心向量，可以是在确定M个候选簇之后，可以直接提取每一个候选簇所对应的主题词以及所述中心向量。需要理解的是，在后续使用的时候，仅需要使用候选簇的中心向量以及主题词(还可以包括候选簇的标识)进行目标用户的历史行为数据的理解或处理，即前述S101-S104的处理，不做赘述。

可见，通过上述方案可以基于大量用户的长期的历史行为数据的分析，得到大量的候选簇，最终提取候选簇的主题词以及中心向量进行使用。如此，可以保证候选簇可以尽可能多的保留大量用户的长期历史行为习惯或兴趣，从而保证了后续进行目标用户行为数据的理解以及分析的全面性以及准确性，并且，由于通过上述处理不需要使用候选簇中的全部历史数据与目标用户的历史行为数据进行理解以及处理，可以节省候选簇占用的存储空间。

所述基于所述L个用户的所述历史行为数据的句向量，确定M个候选簇，具体可以是：

基于所述L个用户的所述历史行为数据的句向量进行聚簇，得到至少一个簇；

确定所述至少一个簇分别对应的主题词；

基于当前场景相关的主题以及所述至少一个簇分别对应的主题词，筛选得到所述M个候选簇。

其中，至少一个簇中，不同的簇中包含的历史行为数据不同。

所述基于所述L个用户的所述历史行为数据的句向量进行聚簇的处理，可以包括：将句向量的相似度在预设相似度门限值以内的至少一个历史行为数据作为同一个簇中的历史行为数据。其中，相似度门限值可以根据时间情况进行设置，比如可以是0.8或0.9。

确定所述至少一个簇分别对应的主题词，可以包括：获取所述一个或多个簇中每一个簇的核心词；基于每一个簇的核心词以及预设的业务场景相关的主题核心词，确定每一个簇的主题词。

其中，获取每一个簇的核心词的方式可以是，获取每一个簇中每一个历史行为数据的子核心词，将候选簇中出现频次最高的一个或多个子核心词作为该簇的核心词。

预设的业务场景相关的主题核心词可以是一个也可以是多个，其中不同的业务场景可以对应不同的主题核心词。其中，所述主题核心词可以包括有：主题名称以及核心词两部分；或者，可以仅包括主题名称；又或者，可以仅包括核心词。

其中，所述基于每一个簇的核心词以及预设的业务场景相关的主题核心词，确定每一个簇的主题词，具体可以包括：

将每一个簇的核心词与预设的主题核心词进行比对，将相似度最高的主题核心词作为每一个簇所对应的主题词。每一个簇的主题词可以用于标记该候选簇。

基于以上处理可以得到全部用户的全部历史数据的全量簇。

进一步地，基于当前场景相关的主题，从一个或多个簇中筛选出后续需要使用的M个候选簇。

具体来说，基于簇的主题词与当前场景相关的主题进行匹配，将与当前场景相关的主题相互匹配的候选簇作为后续需要使用的所述M个候选簇。

这里，与当前场景相关的主题相互匹配的候选簇可以是，候选簇的主题词与所述当前场景相关的主题进行相似度计算，将相似度大于预设门限值的主题词作为与所述当前场景相关的主题匹配的主题词；其中，所述预设门限值可以根据实际情况设置，比如可以是0.9。

举例来说，当前场景相关的主题可以是主题1，与该主题1匹配的主题词可以包括：主题词1、主题词2、主题词3；则主题词1、主题词2以及主题词3分别对应的候选簇1、候选簇2以及候选簇3则可以为筛选出来的M个候选簇(即M等于3)。

提取筛选出的所述M个候选簇的相关信息，即所述候选簇的标识、主题词、中心向量；进而可以执行前述S101-S104的处理，这里不再重复说明。

可见，通过上述方案可以基于大量用户的长期的历史行为数据的分析，得到大量的簇，在根据当前场景相关的主题进行筛选得到需要使用的M个候选簇，最终提取候选簇的主题词以及中心向量。如此，可以保证候选簇可以尽可能多的保留大量用户的长期历史行为习惯或兴趣，从而保证了后续进行目标用户行为数据的理解以及分析的全面性以及准确性，并且，由于通过上述处理可以进一步筛选与当前场景相关的主题的候选簇，可以保证不需要使用全量簇对当前场景进行分词，并且仅使用筛选出来的M个候选簇的主题词以及中心向量与目标用户的历史行为数据进行理解以及处理，可以节省候选簇占用的存储空间。

为了充分挖掘用户长周期搜索行为数据，本公开提出将大量用户的历史行为数据理解和目标用户历史行为数据理解结合的方式，具体的：利用对历史行为数据进行聚簇的方式得到至少一个候选簇，仅根据至少一个候选簇的主题词以及中心向量进行用户的大量历史行为数据的理解，最终输出的也仅需要输出用户对应的主题以及目标行为数据用于表示用户的特征，这样，可以使得用户的特征同时满足用户个性化和场景应用个性化的需求。总结来说，本公开提供的方案主要有：

历史行为数据的多样性：将大量用户的对相同主题和语义的历史行为数据进行聚合和分组，达到抽象化又不损失语义信息的目的，同时大大减少存储。比如，平均每个主题的簇有1000个历史行为数据。

目标用户个性化历史行为数据的处理：每个目标用户的历史行为数据集合中的历史行为数据的选取是个性化的。比如从目标用户当前从属于候选簇的历史行为数据集合中选取离候选簇的中心向量最接近的一个历史行为数据作为该历史行为数据集合的目标用户的特征。

场景个性化：在业务应用上不同业务场景关注的相关主题是不一样的，比如用户产品场景(更关注兴趣)和商业场景(更关注意图)；本实施例会对预先构建的多个簇进行语义化筛选，结合业务关注的主题集合分场景进行标注和输出候选簇，进而可以再次减少线上应用的存储和检索成本。

结合图3，以前述历史行为数据为搜索记录为例，提供一种示例性说明，包括：

S31：搜索记录理解：

S311：数据抽取：获取L个用户一年的搜索记录。比如，可以从大量的用户中进行抽取和统计(比如可以是搜索用户的个数)，对部分用户的搜索记录进行截断，可以保留部分用户的一年内的搜索记录，将该保留部分用户称为L个用户，本步骤完成可以得到数据量亿级别的搜索记录。

S312：句向量表示：基于ERNIE的双塔文本匹配模型技术获取通用的文本语义表示-稠密句向量(256维)作为每一个搜索记录的句向量。

S313：聚簇：基于每一个搜索记录的句向量表示对搜索记录进行聚簇，得到至少一个簇；本步骤中聚簇大小为万级别的。本步骤可以是采用无监督聚类或聚簇的方式进行处理。

S314：核心词提取以及聚簇语义化：对每一个簇进行核心词提取，基于簇内核心词结合业务场景相关的主题核心词进行标记，也就是得到每一个簇的主题词，对簇进行语义化标记。

S315：筛选：基于业务场景提供的主题从全量簇中筛选出与当前场景相关的主题的候选簇。其中，筛选方法可以是关键词匹配或是人工标注，最终得到M个候选簇的标识、主题词、中心向量。

S32：目标用户行为理解：

S321：目标用户的搜索记录序列化：可以是，按时间进行排序并统计搜索记录的频次。

S322：结合M个候选簇的主题词，关联当前目标用户的每一个搜索记录所属的主题。

关于搜索记录及其所对应的主题可以如下表1所示：

表1

比如，搜索记录中包括“07款二手XX车多少钱”，相应的该核心词可以是XX车，其所属主题可以是购车。上表的其他示例不做一一赘述。

S323：确定目标搜索记录：根据目标用户的每一个历史搜索记录所属的主题进行聚合，得到目标用户的K个历史搜索记录集合；分别查找所述K个历史搜索记录集合中距离与对应的候选簇的中心向量最近邻的搜索记录，分别作为K个历史搜索记录集合下目标用户粒度的目标搜索记录。

S324：结合时间信息、频次信息，对所述目标用户的所述K个历史搜索记录集合进行打分排序，基于打分排序后的所述K个历史搜索记录集合所对应的主题及其主题下个性化的目标搜索记录进行输出。这里输出可以是根据预设的格式进行格式化输出。

针对上述示例，

本申请再一实施例，还提供一种用户特征生成装置，如图4所示，包括：

获取模块41，用于获取目标用户在第一预设时长内的N个历史行为数据；其中，N为大于等于1的整数；

聚合模块42，用于基于M个候选簇的主题词确定所述N个历史行为数据分别对应的主题，基于所述N个历史行为数据分别对应的主题进行聚合得到K个历史行为数据集合及其主题；其中，M和K为大于等于1的整数；

提取模块43，用于基于所述K个历史行为数据集合分别对应的候选簇的中心向量，确定所述K个历史行为数据集合分别对应的目标行为数据；

特征生成模块44，用于将所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征。

所述聚合模块42，用于将所述目标用户的所述N个历史行为数据中的第i个历史行为数据与所述M个候选簇的主题词分别进行匹配，将所述第i个历史行为数据所匹配的候选簇的主题词作为所述第i个历史行为数据对应的主题；其中，所述i为大于等于1且小于等于N的整数。

所述提取模块43，用于将所述K个历史行为数据集合中的第j个历史行为数据集合中包含的历史行为数据，与所述第j个历史行为数据集合对应的候选簇的中心向量进行比对，确定与所述第j个历史行为数据集合对应的所述候选簇的所述中心向量距离最近的历史行为数据作为所述第j个历史行为数据集合所对应的目标行为数据；其中，所述j为大于等于1且小于等于K的整数。

所述特征生成模块44，用于基于所述K个历史行为数据集合分别对应的所述目标行为数据的时间信息和/或频次信息，对所述K个历史行为数据集合进行排序；

如图5所示，所述装置还包括：

向量生成模块45，用于获取L个用户在第二预设时长内的历史行为数据，生成所述历史行为数据的句向量；其中，所述L为大于等于1的整数；

候选簇生成模块46，用于基于所述L个用户的所述历史行为数据的句向量，确定M个候选簇；

信息提取模块47，用于提取所述M个候选簇的主题词以及所述M个候选簇的中心向量。

所述候选簇生成模块46，用于基于所述L个用户的所述历史行为数据的句向量进行聚簇，得到至少一个簇；确定所述至少一个簇分别对应的主题词；基于当前场景相关的主题以及所述至少一个簇分别对应的主题词，筛选得到所述M个候选簇。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图6所示，是根据本申请实施例的用户特征生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器701、存储器702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的用户特征生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的用户特征生成方法。

存储器702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的用户特征生成方法对应的程序指令/模块。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的用户特征生成方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用户特征生成方法的电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至用户特征生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用户特征生成方法的电子设备还可以包括：输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息，以及产生与XXX的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS)服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本申请实施例的技术方案，获取目标用户的长期历史行为数据，通过主题聚合的方式得到目标用户的历史行为数据集合，基于目标用户的历史行为数据集合筛选得到目标用户的主题以及目标行为数据作为目标用户的特征；从而可以有效的利用目标用户的长期历史行为数据对所述目标用户进行全面的理解，并且由于最终得到的目标用户的特征仅需要通过至少一个主题以及至少一个目标行为数据就可以表征，如此可以节省线上存储目标用户的特征所占用的数据量，并且还可以满足丰富并且个性化表达目标用户的特征的需求。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种用户特征生成方法，包括：

将所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征；

其中，所述基于所述K个历史行为数据集合分别对应的候选簇的中心向量，确定所述K个历史行为数据集合分别对应的目标行为数据，包括：

2.根据权利要求1所述的方法，其中，所述基于M个候选簇的主题词确定所述N个历史行为数据分别对应的主题，包括：

3.根据权利要求1所述的方法，其中，所述将所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征，包括：

4.根据权利要求1-3任一项所述的方法，其中，所述方法还包括：

获取L个用户在第二预设时长内的历史行为数据，生成所述历史行为数据的句向量；其中，所述L为大于等于1的整数；

基于所述L个用户的所述历史行为数据的句向量，确定M个候选簇；

提取所述M个候选簇的主题词以及所述M个候选簇的中心向量。

5.根据权利要求4所述的方法，其中，所述基于所述L个用户的所述历史行为数据的句向量，确定M个候选簇，包括：

确定所述至少一个簇分别对应的主题词；

6.一种用户特征生成装置，包括：

特征生成模块，用于将所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征；

其中，所述提取模块，用于将所述K个历史行为数据集合中的第j个历史行为数据集合中包含各个历史行为数据，与所述第j个历史行为数据集合对应的候选簇的中心向量进行比对，确定与所述第j个历史行为数据集合对应的所述候选簇的所述中心向量距离最近的历史行为数据作为所述第j个历史行为数据集合所对应的目标行为数据；其中，所述j为大于等于1且小于等于K的整数。

7.根据权利要求6所述的装置，其中，所述聚合模块，用于将所述目标用户的所述N个历史行为数据中的第i个历史行为数据与所述M个候选簇的主题词分别进行匹配，将所述第i个历史行为数据所匹配的候选簇的主题词作为所述第i个历史行为数据对应的主题；其中，所述i为大于等于1且小于等于N的整数。

8.根据权利要求7所述的装置，其中，所述特征生成模块，用于基于所述K个历史行为数据集合分别对应的所述目标行为数据的时间信息和/或频次信息，对所述K个历史行为数据集合进行排序；

9.根据权利要求6-8任一项所述的装置，其中，所述装置还包括：

向量生成模块，用于获取L个用户在第二预设时长内的历史行为数据，生成所述历史行为数据的句向量；其中，所述L为大于等于1的整数；

候选簇生成模块，用于基于所述L个用户的所述历史行为数据的句向量，确定M个候选簇；

信息提取模块，用于提取所述M个候选簇的主题词以及所述M个候选簇的中心向量。

10.根据权利要求9所述的装置，其中，所述候选簇生成模块，用于基于所述L个用户的所述历史行为数据的句向量进行聚簇，得到至少一个簇；确定所述至少一个簇分别对应的主题词；基于当前场景相关的主题以及所述至少一个簇分别对应的主题词，筛选得到所述M个候选簇。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。