CN106503044A

CN106503044A - 兴趣特征分布获取方法及装置

Info

Publication number: CN106503044A
Application number: CN201610837106.6A
Authority: CN
Inventors: 闫铭; 吴宏刚; 张岳欢
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2016-09-21
Filing date: 2016-09-21
Publication date: 2017-03-15
Anticipated expiration: 2036-09-21
Also published as: CN106503044B

Abstract

本公开揭示了一种兴趣特征分布获取方法及装置，属于计算机技术领域。该方法包括：对于获取的每个用户行为日志，确定该用户行为日志所对应的兴趣；获取上述各个用户行为日志对应的第i+1兴趣特征分布；当第i+1兴趣特征分布与第i兴趣特征分布的相似度小于第一预定阈值时，令i＝i+1，重复执行对于获取的每个用户行为日志，利用第i兴趣特征分布对该用户行为日志进行分析的步骤；当第i+1兴趣特征分布与第i兴趣特征分布的相似度大于第一预定阈值时，将第i+1兴趣特征分布作为结果兴趣特征分布。本公开解决了相关技术中样本的存储需要百万级别的特征空间的技术问题，达到了减小样本特征空间的效果。

Description

兴趣特征分布获取方法及装置

技术领域

本公开涉及计算机技术领域，特别涉及一种兴趣特征分布获取方法及装置。

背景技术

在移动互联网内利用大数据分析或大规模机器学习进行数据挖掘的过程中，通常需要收集用户对网络媒体的使用情况作为样本数据。

相关技术中，利用用户对每个网络媒体的使用频率或者使用时长生成一个样本。比如，用户A使用网络媒体X的累计时长达到10小时，使用网络媒体Y的累计时长达到3小时，使用网络媒体Z的累计时长为0小时，则与用户A对应的样本可以为(10,3,0)。

然而，移动互联网所涉及的网络媒体的数量庞大，在实际实现过程中可统计到较为活跃的网络媒体的数量就具备百万的级别，导致样本的存储需要百万级别的特征空间。

发明内容

本公开提供一种兴趣特征分布获取方法及装置。所述技术方案如下：

根据本公开实施例的第一方面，提供一种兴趣特征分布获取方法，所述方法包括：对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对所述用户行为日志进行分析，得到所述用户行为日志所对应的兴趣；根据各个用户行为日志的兴趣，获取所述各个用户行为日志对应的第i+1兴趣特征分布；当所述第i+1兴趣特征分布与所述第i兴趣特征分布的相似度小于第一预定阈值时，令i＝i+1，重复执行所述对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对所述用户行为日志进行分析的步骤；当所述第i+1兴趣特征分布与所述第i兴趣特征分布的相似度大于所述第一预定阈值时，将所述第i+1兴趣特征分布作为结果兴趣特征分布。

通过利用用户行为日志确定出结果兴趣特征分布，由于兴趣特征分布的维度的数量由兴趣总数量决定，且兴趣的总数量的数量级小于网络媒体的数量级，可将确定出的结果兴趣特征分布作为一个样本，解决了相关技术中样本的存储需要百万级别的特征空间的技术问题，达到了减小样本特征空间的效果。

可选的，当所述用户行为日志为用户帐号访问各个网络媒体时产生的行为日志时，所述结果兴趣特征分布为所述用户帐号属于各个兴趣的第一类兴趣特征分布；当所述用户行为日志为网络媒体被各个用户帐号访问时产生的行为日志时，所述结果兴趣特征分布为访问所述网络媒体的用户属于各个兴趣的第二类兴趣特征分布。

可选的，所述方法还包括：对于任一网络媒体，计算访问所述网络媒体的第一用户帐号的第一类兴趣特征分布与未访问所述网络媒体的第二用户帐号的第一类兴趣特征分布的相似度；当所述相似度大于第二预定阈值时，向所述第二用户帐号推荐所述网络媒体。通过对于待推广的网络媒体，计算使用过该网络媒体的第一用户帐号的第一类兴趣特征分布与未访问该网络媒体的第二用户帐号的第一类兴趣特征分布的相似度，确定出与该第一用户帐号对应用户具备相似兴趣的第二用户帐号，并将该网络媒体推荐给第二用户帐号，实现了网络媒体的推广。

可选的，所述方法还包括：当所述第一网络媒体的访问量大于第一访问量阈值，且所述第二网络媒体的访问量小于第二访问量阈值时，计算第一网络媒体的第二类兴趣特征分布与第二网络媒体的第二类兴趣特征分布的相似度，所述第一访问量阈值大于所述第二访问量阈值；当所述相似度大于第三预定阈值时，向访问所述第一网络媒体的访问用户帐号推荐所述第二网络媒体，或，向各个用户帐号推荐所述第二网络媒体。通过对于使用范围较小的第二网络媒体，当计算出第二网络媒体的第二类兴趣特征分布与使用范围较广的第一网络媒体的第二类兴趣特征分布之间的相似度大于第三预定阈值时，认为第二网络媒体值得被推广，认为第二网络媒体被推荐给用户后能够提高该第二网络媒体的访问量。

可选的，所述方法还包括：对于任一网络媒体，根据所述网络媒体的所述第二类兴趣特征分布中各个维度的取值，由高到低对各个维度对应的兴趣进行排序，将排序在前的预定个兴趣作为所述网络媒体的标签。通过根据网络媒体的第二类兴趣特征分布中各个维度的取值，由高到低对各个维度对应的兴趣进行排序，将排序在前的预定个兴趣作为所述网络媒体的标签，实现了自动化生成网络媒体的标签，可根据标签对网络媒体进行分类。

可选的，所述根据各个用户行为日志的兴趣，获取所述各个用户行为日志对应的第i+1兴趣特征分布，包括：对各个用户行为日志的兴趣进行统计；对于统计出的任一兴趣，将所述兴趣的数量除以各个兴趣的总数量，得到所述兴趣的概率，所述兴趣的概率用于指示所述用户行为日志属于所述兴趣的概率；将得到的各个兴趣的概率组合得到所述第i+1兴趣特征分布。

根据本公开实施例的第二方面，提供一种兴趣特征分布获取装置，所述装置包括：分析模块，被配置为对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对所述用户行为日志进行分析，得到所述用户行为日志所对应的兴趣；获取模块，被配置为根据所述分析模块得到的各个用户行为日志的兴趣，获取所述各个用户行为日志对应的第i+1兴趣特征分布；执行模块，被配置为当所述获取模块获取到的第i+1兴趣特征分布与所述第i兴趣特征分布的相似度小于第一预定阈值时，令i＝i+1，重复执行所述对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对所述用户行为日志进行分析的步骤；第一确定模块，被配置为当所述获取模块获取到的第i+1兴趣特征分布与所述第i兴趣特征分布的相似度大于所述第一预定阈值时，将所述第i+1兴趣特征分布作为结果兴趣特征分布。

可选的，所述装置还包括：第一计算模块，被配置为对于任一网络媒体，计算访问所述网络媒体的第一用户帐号的第一类兴趣特征分布与未访问所述网络媒体的第二用户帐号的第一类兴趣特征分布的相似度；第一推荐模块，被配置为当所述第一计算模块计算出的相似度大于第二预定阈值时，向所述第二用户帐号推荐所述网络媒体。

可选的，所述装置还包括：第二计算模块，被配置为当所述第一网络媒体的访问量大于第一访问量阈值，且所述第二网络媒体的访问量小于第二访问量阈值时，计算第一网络媒体的第二类兴趣特征分布与第二网络媒体的第二类兴趣特征分布的相似度，所述第一访问量阈值大于所述第二访问量阈值；第二推荐模块，被配置为当所述第二计算模块计算出的相似度大于第三预定阈值时，向访问所述第一网络媒体的访问用户帐号推荐所述第二网络媒体，或，向各个用户帐号推荐所述第二网络媒体。

可选的，所述装置还包括：第二确定模块，被配置为对于任一网络媒体，根据所述网络媒体的所述第二类兴趣特征分布中各个维度的取值，由高到低对各个维度对应的兴趣进行排序，将排序在前的预定个兴趣作为所述网络媒体的标签。

可选的，所述获取模块，包括：统计子模块，被配置为对各个用户行为日志的兴趣进行统计；计算子模块，被配置为对于统计出的任一兴趣，将所述兴趣的数量除以各个兴趣的总数量，得到所述兴趣的概率，所述兴趣的概率用于指示所述用户行为日志属于所述兴趣的概率；确定子模块，被配置为将得到的各个兴趣的概率组合得到所述第i+1兴趣特征分布。

根据本公开实施例的第三方面，提供一种兴趣特征分布获取装置，所述装置包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为：对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对所述用户行为日志进行分析，得到所述用户行为日志所对应的兴趣；根据各个用户行为日志的兴趣，获取所述各个用户行为日志对应的第i+1兴趣特征分布；当所述第i+1兴趣特征分布与所述第i兴趣特征分布的相似度小于第一预定阈值时，令i＝i+1，重复执行所述对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对所述用户行为日志进行分析的步骤；当所述第i+1兴趣特征分布与所述第i兴趣特征分布的相似度大于所述第一预定阈值时，将所述第i+1兴趣特征分布作为结果兴趣特征分布。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并于说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种兴趣特征分布获取方法的流程图；

图2A是根据另一示例性实施例示出的一种兴趣特征分布获取方法的流程图；

图2B是根据一示例性实施例示出的将一网络媒体推荐给未使用过该网络媒体的用户的流程图；

图2C是根据一示例性实施例示出的推广网络媒体的流程图；

图3A是根据一示例性实施例示出的一种兴趣特征分布获取装置的框图；

图3B是根据另一示例性实施例示出的一种兴趣特征分布获取装置的框图；

图4是根据一示例性实施例示出的一种用于获取兴趣特征分布的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种兴趣特征分布获取方法的流程图。如图1所示，该兴趣特征分布获取方法可以包括如下几个步骤。

在步骤101中，对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对该用户行为日志进行分析，得到该用户行为日志所对应的兴趣。

在步骤102中，根据各个用户行为日志的兴趣，获取上述各个用户行为日志对应的第i+1兴趣特征分布。

在步骤103中，当第i+1兴趣特征分布与第i兴趣特征分布的相似度小于第一预定阈值时，令i＝i+1，重复执行上述对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对该用户行为日志进行分析的步骤。

在步骤104中，当第i+1兴趣特征分布与第i兴趣特征分布的相似度大于第一预定阈值时，将第i+1兴趣特征分布作为结果兴趣特征分布。

其中，当上述用户行为日志为用户帐号访问各个网络媒体时产生的行为日志时，结果兴趣特征分布为该用户帐号属于各个兴趣的第一类兴趣特征分布，该第一类兴趣特征分布用于指示该用户帐号对应用户对各个兴趣的感兴趣程度；当上述用户行为日志为网络媒体被各个用户帐号访问时产生的行为日志时，结果兴趣特征分布为访问该网络媒体的用户属于各个兴趣的第二类兴趣特征分布，该第二类兴趣特征分布用于指示该网络媒体一次访问的访问内容属于各个兴趣的概率。

需要说明的一点是，本文中在计算兴趣特征分布之间的相似度时，可将各个兴趣特征分布转换成具备相同数量的维度且每个维度对应兴趣相同的向量，计算转换后的向量之间的相似度。向量之间的相似度计算可通过计算向量之间的余弦相似度或皮尔逊相关性系数(英文：pearson product-moment correlation coefficient，PPMCC)实现，均为本领域普通技术人员所能实现的，此处不再一一赘述。

综上所述，本公开实施例中提供的兴趣特征分布获取方法，通过利用用户行为日志确定出结果兴趣特征分布，由于兴趣特征分布的维度的数量由兴趣总数量决定，且兴趣的总数量的数量级小于网络媒体的数量级，可将结果兴趣特征分布作为一个样本，解决了相关技术中样本的存储需要百万级别的特征空间的技术问题，达到了减小样本的特征空间的效果。

图2A是根据另一示例性实施例示出的一种兴趣特征分布获取方法的流程图。如图2A所示，该兴趣特征分布获取方法可以包括如下几个步骤。

在步骤201中，对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对该用户行为日志进行分析，得到该用户行为日志所对应的兴趣。

在需要获取一网络媒体的兴趣特征分布时，获取该网络媒体被各个用户帐号访问时产生的用户行为日志，该网络媒体的一个用户行为日志通常记录了该网络媒体一次被访问的内容。

举例来讲，网络媒体X被用户A访问了30次，网络媒体X被用户B访问了30次，网络媒体X还被用户C访问了40次，则可获取到网络媒体X的用户行为日志的数量为100。

在需要获取一用户帐号的兴趣特征分布时，获取该用户帐号访问各个网络媒体时产生的用户行为日志，该用户帐号的行为日志通常记录了该用户帐号访问一次网络媒体时所访问的内容。

举例来讲，用户利用用户帐号A访问网络媒体X 30次，访问网络媒体Y 30次，则可获取到用户帐号A的用户行为日志的数量为60。

一般来讲，在获取到用户行为日志后，通常需要对用户行为日志进行文档预处理，这里所讲的文档预处理包括去除停用词、去除低频词语等等。进一步的，对于获取到的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对该用户行为日志进行分析，得到该用户行为日志中的剩余词语是该用户行为日志的主题的概率。

其中，第1兴趣特征分布可由开发人员设定；开发人员也可只设定兴趣特征分布的维度数量，由计算机设备随机生成每个维度对应的数值。

在实际实现时，可将第i兴趣特征分布以及经过预处理的用户行为日志输入吉布斯采样(英文：gibbs sampling)的文档主题生成模型(英文：latent dirichletallocation，LDA)，该LDA利用第i兴趣特征分布以及其他剩余的用户行为日志计算出该用户行为日志中的剩余词语是该用户行为日志的主题的概率。

进一步的，根据分析得到剩余词语是用户行为日志的主题的概率确定出该用户行为日志对应的兴趣，可通过以下两种可能的实施方式实现：

在一种可能的实施方式中，根据剩余词语是主题的概率按照由高到低的顺序对剩余词语进行排序，从中确定出排序在前的预定个词语作为用户行为日志的关键词；获取每个兴趣的关键词，计算兴趣的关键词中被用户行为日志的关键词被命中的数量占兴趣的关键词总数量的比例；当计算出的比例大于预定比例阈值时，将该兴趣确定为与该用户行为日志对应的兴趣。

举例来讲，根据剩余词语是主题的概率按照由高到低的顺序对剩余词语进行排序，从中确定出排序在前的3个词语为“团购”、“折扣”、“套餐”、“代金券”。若兴趣“团购”的关键词为团购、折扣以及代金券且预定比例阈值为80％，则兴趣的关键词中被用户行为日志的关键词被命中的数量占兴趣的关键词总数量的比例为100％，将团购确定为用户行为记录对应的兴趣。

其中，预定比例阈值由系统开发人员设定。当存在两个兴趣的关键词中被用户行为日志的关键词被命中的数量占兴趣的关键词总数量的比例达到预定比例阈值时，将较高比例所对应的兴趣确定为与该用户行为日志对应的兴趣。

举例来讲，预定比例阈值为40％，当兴趣“团购”的关键词中被用户行为日志的关键词被命中的数量占兴趣“团购”的关键词总数量的比例为50％，兴趣“代金券”的关键词中被用户行为日志的关键词被命中的数量占兴趣“代金券”的关键词总数量的比例为45％，则将团购确定为用户行为记录对应的兴趣。

在一种可能的实施方式中，将剩余词语是主题的概率最高的词语确定为用户行为日志对应的兴趣。

举例来讲，根据剩余词语是主题的概率按照由高到低的顺序对剩余词语进行排序，排序结果为“团购”、“折扣”、“套餐”、“代金券”，将排序在第一位的词语“团购”确定为用户行为日志对应的兴趣。

在步骤202中，对各个用户行为日志的兴趣进行统计，对于统计出的任一兴趣，将该兴趣的数量除以各个兴趣的总数量，得到该兴趣的概率，该兴趣的概率用于指示该用户行为日志属于该兴趣的概率。

以用户行为日志为网络媒体被各个用户帐号访问时产生的行为日志来举例说明，对网络媒体A的100个用户行为日志进行分析，确定出兴趣为“团购”的用户行为日志的数量为80，则兴趣“团购”的概率为0.8。也就是说，该网络媒体A被访问时产生的行为日志属于兴趣“团购”的概率为0.8。

在步骤203中，将得到的各个兴趣的概率组合得到第i+1兴趣特征分布。

举例来讲，兴趣“团购”的概率为0.8，兴趣“折扣”的概率为0.15，兴趣“代金券”的概率为0.02，兴趣“套餐”的概率为0.03，则利用各个兴趣的概率组合得到第i+1兴趣特征分布可以为(0.8,0.15,0.02,0.03)。

步骤204中，当第i+1兴趣特征分布与第i兴趣特征分布的相似度小于第一预定阈值时，令i＝i+1，重复执行上述对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对该用户行为日志进行分析的步骤。

其中，第一预定阈值由开发人员设定。当第i+1兴趣特征分布与第i兴趣特征分布的相似度小于第一预定阈值时，认为第i+1兴趣特征分布与实际兴趣特征分布相似度较小。此时，令i＝i+1，重复执行对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对该用户行为日志进行分析的步骤，使得后续得到的第i+1兴趣特征分布不断接近实际兴趣概率分布。

在步骤205中，当第i+1兴趣特征分布与第i兴趣特征分布的相似度大于第一预定阈值时，将第i+1兴趣特征分布作为结果兴趣特征分布。

当第i+1兴趣特征分布与第i兴趣特征分布的相似度大于第一预定阈值时，认为第i+1兴趣特征分布与实际兴趣特征分布比较相似，可将第i+1兴趣特征分布确定为结果兴趣特征分布。

在上述获取到的用户行为日志为用户帐号访问各个网络媒体时产生的行为日志时，步骤205确定出结果兴趣特征分布为用户帐号的第一类兴趣特征分布。其中，第一类兴趣特征分布用于指示用户帐号访问各个网络媒体时产生的行为日志属于各个兴趣的概率。

在上述获取到的用户行为日志为网络媒体被各个用户帐号访问时产生的行为日志时，步骤205确定出结果兴趣特征分布为网络媒体的第二类兴趣特征分布，第二类兴趣特征分布用于指示网络媒体被各个用户帐号访问时产生的行为日志属于各个兴趣的概率。

综上所述，本公开实施例中提供的兴趣特征分布获取方法，通过利用用户行为日志确定出结果兴趣特征分布，由于兴趣特征分布的维度的数量由兴趣总数量决定，且兴趣的总数量的数量级小于网络媒体的数量级，可将确定出的结果兴趣特征分布作为一个样本，解决了相关技术中样本的存储需要百万级别的特征空间的技术问题，达到了减小样本特征空间的效果。

可选的，将一网络媒体推荐给未使用过该网络媒体的用户可通过如图2B所示的几个步骤实现。

在步骤206a中，对于任一网络媒体，计算访问该网络媒体的第一用户帐号的第一类兴趣特征分布与未访问该网络媒体的第二用户帐号的第一类兴趣特征分布的相似度。

当需要对任一网络媒体进行推广时，获取该访问过该网络媒体的第一用户帐号，确定出与该第一用户帐号对应用户具备相似兴趣的用户帐号。

具体的，获取未访问该网络媒体的第二用户帐号的第一类兴趣特征分布，计算第一用户帐号的第一类兴趣特征分布与第二用户帐号的第一类兴趣特征分布的相似度；当计算出的相似度大于第二预定阈值时，认为第一用户帐号与第二用户帐号具备相似的兴趣。

在步骤206b中，当相似度大于第二预定阈值时，向第二用户帐号推荐该网络媒体。

其中，第二预定阈值由开发人员设定。

通过对于待推广的网络媒体，计算使用过该网络媒体的第一用户帐号的第一类兴趣特征分布与未访问该网络媒体的第二用户帐号的第一类兴趣特征分布的相似度，确定出与该第一用户帐号对应用户具备相似兴趣的第二用户帐号，并将该网络媒体推荐给第二用户帐号，实现了网络媒体的推广。

可选的，利用第二类兴趣特征分布可挖掘一些功能相似的网络媒体，对与使用范围广的网络媒体相似的网络媒体进行推广，具体可通过如图2C所示的几个步骤实现。

在步骤207a中，当第一网络媒体的访问量大于第一访问量阈值，且第二网络媒体的访问量小于第二访问量阈值时，计算第一网络媒体的第二类兴趣特征分布与第二网络媒体的第二类兴趣特征分布的相似度。

其中，第一访问量阈值大于第二访问量阈值，第一访问量阈值和第二访问量阈值均由开发人员设定。

计算第一网络媒体的第二类兴趣特征分布与第二网络媒体的第二类兴趣特征分布的相似度，当计算出的相似度大于第三预定阈值时，认为第二网络媒体值得被推广，认为第二网络媒体被推荐给用户后能够提高其访问量。

在步骤207b中，当相似度大于第三预定阈值时，向访问第一网络媒体的访问用户帐号推荐第二网络媒体，或，向各个用户帐号推荐第二网络媒体。

通过对于使用范围较小的第二网络媒体，当计算出第二网络媒体的第二类兴趣特征分布与使用范围较广的第一网络媒体的第二类兴趣特征分布之间的相似度大于第三预定阈值时，认为第二网络媒体值得被推广，认为第二网络媒体被推荐给用户后能够提高该第二网络媒体的访问量。

可选的，还可根据网络媒体的第二类兴趣特征分布设置网络媒体的标签。具体的，对于任一网络媒体，根据网络媒体的第二类兴趣特征分布中各个维度的取值，由高到低对各个维度对应的兴趣进行排序，将排序在前的预定个兴趣作为所述网络媒体的标签。其中，预定个的数量由系统开发人员设定。

举例来讲，网络媒体X的“团购”对应维度的取值为0.8，“购物”对应维度的取值为0.1，“消费”对应维度的取值为0.1，可将排序在第一位的兴趣作为网络媒体X的标签。

通过根据网络媒体的第二类兴趣特征分布中各个维度的取值，由高到低对各个维度对应的兴趣进行排序，将排序在前的预定个兴趣作为所述网络媒体的标签，实现了自动化生成网络媒体的标签，可根据标签对网络媒体进行分类。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图3A是根据一示例性实施例示出的一种兴趣特征分布获取装置的框图。如图3A所示，该兴趣特征分布获取装置可以包括：分析模块301、获取模块302、执行模块303和第一确定模块304。

分析模块301，被配置为对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对该用户行为日志进行分析，得到该用户行为日志所对应的兴趣。

一般来讲，在获取到用户行为日志后，通常需要对用户行为日志进行文档预处理，这里所讲的文档预处理包括去除停用词、去除低频词语等等。进一步的，对于获取到的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对该用户行为日志进行分析，得到该用户行为日志中的剩余词语是该用户行为日志的主题的概率

在实际实现时，可将第i兴趣特征分布以及经过预处理的用户行为日志输入吉布斯采样的LDA，该LDA利用第i兴趣特征分布以及其他剩余的用户行为日志计算出该用户行为日志中的剩余词语是该用户行为日志的主题的概率。

获取模块302，被配置为根据分析模块301得到的各个用户行为日志的兴趣，获取各个用户行为日志对应的第i+1兴趣特征分布。

执行模块303，被配置为当获取模块302获取到的第i+1兴趣特征分布与第i兴趣特征分布的相似度小于第一预定阈值时，令i＝i+1，重复执行上述对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对用户行为日志进行分析的步骤。

第一确定模块304，被配置为当获取模块302获取到的第i+1兴趣特征分布与第i兴趣特征分布的相似度大于第一预定阈值时，将第i+1兴趣特征分布作为结果兴趣特征分布。

在一种可能的实施方式中，当上述用户行为日志为用户帐号访问各个网络媒体时产生的行为日志时，上述结果兴趣特征分布为该用户帐号属于各个兴趣的第一类兴趣特征分布；当上述用户行为日志为网络媒体被各个用户帐号访问时产生的行为日志时，该结果兴趣特征分布为访问该网络媒体的用户属于各个兴趣的第二类兴趣特征分布。

在一种可能的实施方式中，图3B是根据另一示例性实施例示出的一种兴趣特征分布获取装置的框图，如图3B所示，该兴趣特征分布获取装置，还包括：第一计算模块305和第一推荐模块306。

第一计算模块305，被配置为对于任一网络媒体，计算访问该网络媒体的第一用户帐号的第一类兴趣特征分布与未访问该网络媒体的第二用户帐号的第一类兴趣特征分布的相似度。

第一推荐模块306，被配置为当第一计算模块305计算出的相似度大于第二预定阈值时，向第二用户帐号推荐该网络媒体。

在一种可能的实施方式中，如图3B所示，该兴趣特征分布获取装置，还包括：第二计算模块307和第二推荐模块308。

第二计算模块307，被配置为当第一网络媒体的访问量大于第一访问量阈值，且第二网络媒体的访问量小于第二访问量阈值时，计算第一网络媒体的第二类兴趣特征分布与第二网络媒体的第二类兴趣特征分布的相似度，第一访问量阈值大于第二访问量阈值。

第二推荐模块308，被配置为当第二计算模块307计算出的相似度大于第三预定阈值时，向访问第一网络媒体的访问用户帐号推荐第二网络媒体，或，向各个用户帐号推荐第二网络媒体。

在一种可能的实施方式中，如图3B所示，该兴趣特征分布获取装置，还包括：第二确定模块309。

第二确定模块309，被配置为对于任一网络媒体，根据该网络媒体的第二类兴趣特征分布中各个维度的取值，由高到低对各个维度对应的兴趣进行排序，将排序在前的预定个兴趣作为该网络媒体的标签。

在一种可能的实施方式中，如图3B所示，获取模块302，包括：统计子模块302a、计算子模块302b和确定子模块302c。

统计子模块302a，被配置为对各个用户行为日志的兴趣进行统计。

计算子模块302b，被配置为对于统计出的任一兴趣，将该兴趣的数量除以各个兴趣的总数量，得到该兴趣的概率，该兴趣的概率用于指示用户行为日志属于该兴趣的概率。

确定子模块302c，被配置为将得到的各个兴趣的概率组合得到第i+1兴趣特征分布。

综上所述，本公开实施例中提供的兴趣特征分布获取装置，通过利用用户行为日志确定出结果兴趣特征分布，由于兴趣特征分布的维度的数量由兴趣总数量决定，且兴趣的总数量的数量级小于网络媒体的数量级，可将确定出的结果兴趣特征分布作为一个样本，解决了相关技术中样本的存储需要百万级别的特征空间的技术问题，达到了减小样本特征空间的效果。

本公开一示例性实施例提供了一种兴趣特征分布获取装置，能够实现本公开提供的兴趣特征分布获取方法，该兴趣特征分布获取装置包括：处理器、用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对该用户行为日志进行分析，得到该用户行为日志所对应的兴趣；

根据各个用户行为日志的兴趣，获取上述各个用户行为日志对应的第i+1兴趣特征分布；

当第i+1兴趣特征分布与第i兴趣特征分布的相似度小于第一预定阈值时，令i＝i+1，重复执行上述对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对该用户行为日志进行分析的步骤；

当第i+1兴趣特征分布与第i兴趣特征分布的相似度大于第一预定阈值时，将第i+1兴趣特征分布作为结果兴趣特征分布。

需要说明的一点是，上述实施例提供的装置在实现其获取兴趣特征分布的功能时，仅以上述各个功能模块的划分进行举例说明，实际应用中，可以根据实际需要而将上述功能分配由不同的功能模块完成，即将服务器的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种用于获取兴趣特征分布的装置400的框图。例如，装置400可以被提供为一服务器。参照图4，装置400包括处理组件422，其进一步包括一个或多个处理器，以及由存储器432所代表的存储器资源，用于存储可由处理部件422执行的指令，例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件422被配置为执行指令，以执行上述兴趣特征分布获取方法。

装置400还可以包括一个电源组件426被配置为执行装置400的电源管理，一个有线或无线网络接口450被配置为将装置400连接到网络，和一个输入输出(I/O)接口458。装置400可以操作基于存储在存储器432的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种兴趣特征分布获取方法，其特征在于，所述方法包括：

对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对所述用户行为日志进行分析，得到所述用户行为日志所对应的兴趣；

根据各个用户行为日志的兴趣，获取所述各个用户行为日志对应的第i+1兴趣特征分布；

当所述第i+1兴趣特征分布与所述第i兴趣特征分布的相似度小于第一预定阈值时，令i＝i+1，重复执行所述对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对所述用户行为日志进行分析的步骤；

当所述第i+1兴趣特征分布与所述第i兴趣特征分布的相似度大于所述第一预定阈值时，将所述第i+1兴趣特征分布作为结果兴趣特征分布。

2.根据权利要求1所述的方法，其特征在于，

当所述用户行为日志为用户帐号访问各个网络媒体时产生的行为日志时，所述结果兴趣特征分布为所述用户帐号属于各个兴趣的第一类兴趣特征分布；

当所述用户行为日志为网络媒体被各个用户帐号访问时产生的行为日志时，所述结果兴趣特征分布为访问所述网络媒体的用户属于各个兴趣的第二类兴趣特征分布。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对于任一网络媒体，计算访问所述网络媒体的第一用户帐号的第一类兴趣特征分布与未访问所述网络媒体的第二用户帐号的第一类兴趣特征分布的相似度；

当所述相似度大于第二预定阈值时，向所述第二用户帐号推荐所述网络媒体。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

当所述第一网络媒体的访问量大于第一访问量阈值，且所述第二网络媒体的访问量小于第二访问量阈值时，计算第一网络媒体的第二类兴趣特征分布与第二网络媒体的第二类兴趣特征分布的相似度，所述第一访问量阈值大于所述第二访问量阈值；

当所述相似度大于第三预定阈值时，向访问所述第一网络媒体的访问用户帐号推荐所述第二网络媒体，或，向各个用户帐号推荐所述第二网络媒体。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对于任一网络媒体，根据所述网络媒体的所述第二类兴趣特征分布中各个维度的取值，由高到低对各个维度对应的兴趣进行排序，将排序在前的预定个兴趣作为所述网络媒体的标签。

6.根据权利要求1至5中任一所述的方法，其特征在于，所述根据各个用户行为日志的兴趣，获取所述各个用户行为日志对应的第i+1兴趣特征分布，包括：

对各个用户行为日志的兴趣进行统计；

对于统计出的任一兴趣，将所述兴趣的数量除以各个兴趣的总数量，得到所述兴趣的概率，所述兴趣的概率用于指示所述用户行为日志属于所述兴趣的概率；

将得到的各个兴趣的概率组合得到所述第i+1兴趣特征分布。

7.一种兴趣特征分布获取装置，其特征在于，所述装置包括：

分析模块，被配置为对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对所述用户行为日志进行分析，得到所述用户行为日志所对应的兴趣；

获取模块，被配置为根据所述分析模块得到的各个用户行为日志的兴趣，获取所述各个用户行为日志对应的第i+1兴趣特征分布；

执行模块，被配置为当所述获取模块获取到的第i+1兴趣特征分布与所述第i兴趣特征分布的相似度小于第一预定阈值时，令i＝i+1，重复执行所述对于获取的每个用户行为日志，利用第i兴趣特征分布以及其他剩余的用户行为日志对所述用户行为日志进行分析的步骤；

第一确定模块，被配置为当所述获取模块获取到的第i+1兴趣特征分布与所述第i兴趣特征分布的相似度大于所述第一预定阈值时，将所述第i+1兴趣特征分布作为结果兴趣特征分布。

8.根据权利要求7所述的装置，其特征在于，

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第一计算模块，被配置为对于任一网络媒体，计算访问所述网络媒体的第一用户帐号的第一类兴趣特征分布与未访问所述网络媒体的第二用户帐号的第一类兴趣特征分布的相似度；

第一推荐模块，被配置为当所述第一计算模块计算出的相似度大于第二预定阈值时，向所述第二用户帐号推荐所述网络媒体。

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第二计算模块，被配置为当所述第一网络媒体的访问量大于第一访问量阈值，且所述第二网络媒体的访问量小于第二访问量阈值时，计算第一网络媒体的第二类兴趣特征分布与第二网络媒体的第二类兴趣特征分布的相似度，所述第一访问量阈值大于所述第二访问量阈值；

第二推荐模块，被配置为当所述第二计算模块计算出的相似度大于第三预定阈值时，向访问所述第一网络媒体的访问用户帐号推荐所述第二网络媒体，或，向各个用户帐号推荐所述第二网络媒体。

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第二确定模块，被配置为对于任一网络媒体，根据所述网络媒体的所述第二类兴趣特征分布中各个维度的取值，由高到低对各个维度对应的兴趣进行排序，将排序在前的预定个兴趣作为所述网络媒体的标签。

12.根据权利要求7至11中任一所述的装置，其特征在于，所述获取模块，包括：

统计子模块，被配置为对各个用户行为日志的兴趣进行统计；

计算子模块，被配置为对于统计出的任一兴趣，将所述兴趣的数量除以各个兴趣的总数量，得到所述兴趣的概率，所述兴趣的概率用于指示所述用户行为日志属于所述兴趣的概率；

确定子模块，被配置为将得到的各个兴趣的概率组合得到所述第i+1兴趣特征分布。

13.一种兴趣特征分布获取装置，其特征在于，所述装置包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：