CN108804454B

CN108804454B - 一种群画像方法、群画像装置及服务器

Info

Publication number: CN108804454B
Application number: CN201710296753.5A
Authority: CN
Inventors: 罗奎
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-04-28
Filing date: 2017-04-28
Publication date: 2021-12-10
Anticipated expiration: 2037-04-28
Also published as: CN108804454A

Abstract

本申请提供了一种群画像方法、群画像装置及服务器，用于提高给定群的群画像的准确性。本申请实施例方法包括：获取给定群的用户特征信息及对比数据，对比数据为非给定群的用户特征信息，给定群的用户特征信息包括给定群特征；根据频繁模式算法对给定群的用户特征信息进行处理，得到至少一个频繁项集，每个频繁项集都包括给定群特征及特征集；根据至少一个频繁项集生成至少一个关联推导式，一个关联推导式对应一个频繁项集，关联推导式包括后置项及前置项；根据对比数据及至少一个频繁项集计算出每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息；根据置信度信息及支持度信息得到给定群的群画像。

Description

一种群画像方法、群画像装置及服务器

技术领域

本申请涉及计算机领域，尤其涉及一种群画像方法、群画像装置及服务器。

背景技术

群画像方法是指对给定群的关键特征的提取，关键特征描述了这个给定群有别于其他群的特质。例如，在视频内容分发网络(Content Delivery Network，CDN)内容预推场景下，希望能够分析出每个CDN小区覆盖的用户群的观看特点，找出每一个用户群的关键特征，根据关键特征了解到每一个用户群的观看视频的偏好，做出个性化的内容预推，从而提高预推命中率。

目前的一种群画像方法是，基于隐含狄利克雷分布(Latent DirichletAllocation，LDA)算法完成群画像的挖掘，具体为：输入全网用户及对应特征，设置主题个数K，利用LDA算法，得到各主题的排序靠前的TopN特征以及每个用户属于某主题的概率。对于每个用户取概率最大的主题作为所属主题。对于给定群，可以统计群中每个用户的主题分布，选取用户比例最大的主题作为给定群的主题，则对应主题画像即给定群的群画像。

但是，利用LDA算法，不是直接针对给定群做分析，而是预先对给定群的超集(即全网用户)进行主题划分，然后在根据给定群用户所属主题分布来确认给定群画像。假如，全网用户的主题包括第一类、第二类和第三类，第一类主题的Top3特征为a、b和c，第二类主题的Top3特征为d、e和f，第三类主题的Top3特征为h，g和i，给定群的用户比例最大的主题是第三类，但是给定群的Top3特征实际是a，d和h。因此在给定群和主题重合度较低时，导致群画像结果不准确。

发明内容

本申请提供了一种群画像方法、群画像装置及服务器，通过频繁模式算法计算得到给定群的关联推导式，并在计算关联推导式置信度时添加对比数据，从而提高群画像结果的准确性。

本申请的第一方面提供一种群画像方法，包括：

获取给定群的用户特征信息及对比数据，所述对比数据为非给定群的用户特征信息，所述给定群的用户特征信息包括给定群特征；

根据频繁模式算法对所述给定群的用户特征信息进行处理，得到至少一个频繁项集，每个频繁项集都包括给定群特征及特征集；

根据所述至少一个频繁项集生成至少一个关联推导式，一个关联推导式对应一个频繁项集，关联推导式包括后置项及前置项，所述后置项为所述关联推导式对应的频繁项集中的给定群特征，所述前置项为所述关联推导式对应的频繁项集中的特征集；

根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息，所述支持度信息为所述前置项在所述给定群的用户特征信息及所述对比数据中出现的次数；

根据所述置信度信息及所述支持度信息得到所述给定群的群画像，所述给定群的群画像为一个关联推导式的前置项。

运营商或者开发商等具有大量用户的情况下，针对不同业务需要从大量的用户中划分出特定的用户群，特定的用户群称为给定群，例如，在视频CDN内容预推场景下，每个CDN小区覆盖的用户群就是一个给定群，而这个给定群的给定群特征是“给定CDN小区”，不是该CDN小区的用户就划分到非给定群中。要得到给定群的群画像，就要先获取给定群的用户特征信息及对比数据，对比数据为非给定群的用户特征信息，给定群和非给定群的用户特征信息是预先规定的，或是从给定群用户的用户数据中分析得到的，并且给定群的用户特征信息包括给定群特征，根据频繁模式算法对给定群的用户特征信息进行处理，得到至少一个频繁项集，而且得到的至少一个频繁项集中每个频繁项集都包括给定群特征及特征集，即过滤掉了没有给定群特征的频繁项集，根据得到的至少一个频繁项集生成至少一个关联推导式，其中，一个关联推导式对应一个频繁项集，关联推导式包括后置项及前置项，后置项为关联推导式对应的频繁项集中的给定群特征，前置项为关联推导式对应的频繁项集中的特征集，根据对比数据及至少一个频繁项集计算出至少一个关联推导式中每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息，支持度信息为前置项在给定群的用户特征信息及对比数据中出现的次数，根据置信度信息及支持度信息从至少一个关联推导式中选择一个关联推导式对应的频繁项集的前置项，将该前置项作为给定群的群画像，前置项也是关联推导式对应的频繁项集中的特征集。由于得到的至少一个频繁项集是过滤掉了非给定群特征的，不存在群画像的特征不是给定群的用户特征信息的情况。而且给定群的群画像是根据每一个关联推导式的置信度信息和每一个关联推导式中的前置项的对比度信息选择出的，而置信度信息和对比度信息在计算过程中增加了对比数据，而对比数据是非给定群的用户特征信息，如果群画像的特征是普适性特征，在非给定群的用户特征信息中也存在，那么计算得到置信度信息和对比度信息的值必然会降低，因此，可以过滤掉群画像的特征是普适性特征的情况，从而提高了群画像结果的准确性。

结合本申请的第一方面，本申请第一方面第一实施方式中，所述根据频繁模式算法对所述给定群的用户特征信息进行处理，得到至少一个频繁项集，包括：

获取所述给定群的用户特征信息中所有用户特征的支持度值，所述支持度值为对应的用户特征的出现次数，所述用户特征包括给定群特征；

获取支持度值大于或等于预置最小支持度阈值的用户特征；

根据支持度降序排序规则生成频繁项列表，所述频繁项列表包括至少一个用户特征及每一个用户特征对应的支持度值；

根据所述频繁项列表构建频繁模式树，所述频繁模式树的包括根节点及分支节点，所述根节点为无效值，所述分支节点对应一个用户特征及其支持度值；

选取一个分支节点作为后缀节点，查询所述频繁模式树中包含所述后缀节点的至少一个树分支路径；

获取所述至少一个树分支路径中每一条树分支路径的所有分支节点对应的用户特征及其支持度值，递归获取至少一个频繁项集，每个频繁项集包括给定群特征及特征集，所述特征集包括所述后缀节点对应的用户特征。

按照频繁模式算法的规则，先获取给定群的用户特征信息中所有用户特征的支持度值，支持度值为对应的用户特征的出现次数，用户特征包括给定群特征，预设了预置最小支持度阈值删除出现次数较小的用户特征，因为出现次数较小的用户特征必然是不满足群画像所需的关键特征，获取支持度值大于或等于预置最小支持度阈值的用户特征，根据支持度降序排序规则生成频繁项列表，频繁项列表包括至少一个用户特征及每一个用户特征对应的支持度值，频繁项列表具体的形式可以是每一个频繁项对应一个用户，多个用户特征以支持度值排序，而且频繁项列表中一个频繁项可以理解为频繁模式树的树分支，那么就能实现根据频繁项列表构建频繁模式树，频繁模式树的包括根节点及分支节点，根节点为无效值，分支节点对应一个用户特征及其支持度值，选取一个分支节点作为后缀节点，查询频繁模式树中包含后缀节点的至少一个树分支路径，获取至少一个树分支路径中每一条树分支路径的所有分支节点对应的用户特征及其支持度值，递归获取至少一个频繁项集，每个频繁项集包括给定群特征及特征集，特征集包括后缀节点对应的用户特征，除此之外，特征集还可以包括其他的用户特征。由于得到的频繁项集都是包括给定群特征的，因此对比数据是不需要进行计算，而目前利用LDA算法的群画像方法中，是需要对给定群的超集进行计算的，超集就是所有的用户，即包括给定群也包括非给定群，因此，本申请还可以减少计算复杂度。

结合本申请第一方面第一实施方法中，本申请第一方面第二实施方式中，所述根据所述至少一个频繁项集生成至少一个关联推导式，包括：

将所述至少一个频繁项集中每个频繁项集的特征集设置为前置项，及每个频繁项集的给定群特征设置为后置项；

根据所述至少一个频繁项集中每个频繁项集对应的前置项和后置项生成至少一个关联推导式，一个关联推导式对应一个频繁项集。

上述本申请第一方面第一实施方法中，特征集包括后缀节点对应的用户特征，还可以包括其他的用户特征，将至少一个频繁项集中每个频繁项集的特征集设置为前置项，及每个频繁项集的给定群特征设置为后置项，例如频繁项集为{给定CDN小区、青年、电影}，其中，“给定CDN小区”为给定群特征，特征集包括“青年”和“电影”，那么前置项为“青年、电影”，后置项为“给定CDN小区”，生成的关联推导式的表达式为“前置项→后置项”，具体为“青年、电影→给定CDN小区”，之所以将给定群特征作为后置项，是因为给定群特征是给定群的所有用户所特有的，对比数据的非给定群的用户特征信息不可能包含给定群特征，那么生成的关联推导式也避免了对比数据的干扰，对于最终得到群画像的准确性有益，而且进一步的减少了计算复杂度。

结合本申请第一方面，本申请第一方面第三实施方式中，所述根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息，包括：

获取所述至少一个关联推导式中每一个关联推导式的前置项在所述对比数据和所述至少一个频繁项集中出现的次数，得到所述每一个关联推导式中前置项的支持度值；

根据所述每一个关联推导式中前置项的支持度值得到所有关联推导式中前置项的支持度信息；

获取所述至少一个关联推导式中每一个关联推导式的前置项和后置项都在所述对比数据和所述至少一个频繁项集中出现的次数，得到所述每一个关联推导式中前置项和后置项的支持度值；

将所述至少一个关联推导式中关联推导式Y的前置项的支持度值及对应的前置项和后置项的支持度值带入X＝A/B，所述B表示所述关联推导式Y中前置项的支持度值，所述A表示所述关联推导式Y中前置项和后置项同时出现的支持度值，所述X表示所述关联推导式Y的置信度值；

计算得到所述关联推导式Y的置信度值X，并根据所有关联关系推导式的置信度值生成置信度信息。

在得到生成的至少一个关联推导式后，获取至少一个关联推导式中每一个关联推导式的前置项在对比数据和至少一个频繁项集中出现的次数，得到每一个关联推导式中前置项的支持度值，对比数据与给定群的用户特征信息最大的区别是给定群特征，但是其他的用户特征信息与给定群的用户特征信息可能存在相同的地方，例如，给定群中一个用户的用户特征信息为“给定CDN小区、免费4K试用用户、观看时间-午夜、青年、电影”，对比数据中一个用户的用户特征信息为“非给定CDN小区、免费4K试用用户、观看时间-午夜、青年、会员”，如果关联推导式Y中前置项为“青年”，那么前置项中的“青年”在对比数据中也是存在的，那么根据关联推导式Y的置信度计算公式X＝A/B，其中，B表示关联推导式Y中前置项的支持度值，A表示关联推导式Y中前置项和后置项的支持度值，X表示关联推导式Y的置信度值，在对比数据加入的情况下，B的取值必然会增大，而A的支持度值必然不变，从而可知，如果前置项包括的用户特征是普适性特征，对比数据的用户特征信息中也具有的情况下，降低了该前置项对应的关联推导式Y的置信度值就会降低，可知对于群画像的准确性提升有益。具体的，获取至少一个关联推导式中每一个关联推导式的前置项在对比数据和至少一个频繁项集中出现的次数，得到每一个关联推导式中前置项的支持度值，根据每一个关联推导式中前置项的支持度值得到所有关联推导式中前置项的支持度信息，获取至少一个关联推导式中每一个关联推导式的前置项和后置项都在对比数据和至少一个频繁项集中出现的次数，得到每一个关联推导式中前置项和后置项的支持度值，将至少一个关联推导式中关联推导式Y的前置项的支持度值及对应的前置项和后置项的支持度值带入X＝A/B，计算得到关联推导式Y的置信度值X，并根据所有关联关系推导式的置信度值生成置信度信息。

结合本申请第一方面、第一方面第一实施方式、第一方面第二实施方式或第一方面第三实施方式，本申请第一方面第四实施方式中，所述根据所述置信度信息及所述支持度信息得到所述给定群的群画像，包括：

根据所述支持度信息确定每一个关联推导式的前置项的支持度值；

根据所述置信度信息确定每一个关联推导式的置信度值；

根据预置支持度值优先规则，选择支持度值最高的关联推导式的前置项作为所述给定群的群画像；

或，

根据预置置信度值优先规则，选择置信度值最高的关联推导式的前置项作为所述给定群的群画像。

为了方便于群画像的选择，可以根据支持度信息确定每一个关联推导式的前置项的支持度值，根据置信度信息确定每一个关联推导式的置信度值，生成一个具有前置项、支持度和置信度的表格，将支持度值和置信度值填入表格中，在具体选择群画像时，可以根据预置支持度值优先规则，选择支持度值最高的关联推导式的前置项作为给定群的群画像；或，根据预置置信度值优先规则，选择置信度值最高的关联推导式的前置项作为给定群的群画像。除此之外，还可以综合考虑支持度值和置信度值来选择一个关联推导式的前置项作为给定群的群画像。

本申请的第二方面提供一种群画像装置，包括：

获取模块，用于获取给定群的用户特征信息及对比数据，所述对比数据为非给定群的用户特征信息，所述给定群的用户特征信息包括给定群特征；

处理模块，用于根据频繁模式算法对所述给定群的用户特征信息进行处理，得到至少一个频繁项集，每个频繁项集都包括给定群特征及特征集；

所述处理模块，还用于根据所述至少一个频繁项集生成至少一个关联推导式，一个关联推导式对应一个频繁项集，关联推导式包括后置项及前置项，所述后置项为所述关联推导式对应的频繁项集中的给定群特征，所述前置项为所述关联推导式对应的频繁项集中的特征集；

所述处理模块，还用于根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息，所述支持度信息为所述前置项在所述给定群的用户特征信息及所述对比数据中出现的次数；

选择模块，用于根据所述置信度信息及所述支持度信息得到所述给定群的群画像，所述给定群的群画像为一个关联推导式的前置项。

运营商或者开发商等具有大量用户的情况下，针对不同业务需要从大量的用户中划分出特定的用户群，特定的用户群称为给定群，例如，在视频CDN内容预推场景下，每个CDN小区覆盖的用户群就是一个给定群，而这个给定群的给定群特征是“给定CDN小区”，不是该CDN小区的用户就划分到非给定群中。要得到给定群的群画像，获取模块先获取给定群的用户特征信息及对比数据，对比数据为非给定群的用户特征信息，给定群和非给定群的用户特征信息是预先规定的，或是从给定群用户的用户数据中分析得到的，并且给定群的用户特征信息包括给定群特征，处理模块根据频繁模式算法对所述给定群的用户特征信息进行处理，得到至少一个频繁项集，而且得到的至少一个频繁项集中每个频繁项集都包括给定群特征及特征集，即过滤掉了没有给定群特征的频繁项集，处理模块根据得到的至少一个频繁项集生成至少一个关联推导式，其中，一个关联推导式对应一个频繁项集，关联推导式包括后置项及前置项，后置项为关联推导式对应的频繁项集中的给定群特征，前置项为关联推导式对应的频繁项集中的特征集，处理模块根据对比数据及至少一个频繁项集计算出至少一个关联推导式中每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息，支持度信息为前置项在给定群的用户特征信息及对比数据中出现的次数，选择模块根据置信度信息及支持度信息从至少一个关联推导式中选择一个关联推导式对应的频繁项集的前置项，将该前置项作为给定群的群画像，前置项也是关联推导式对应的频繁项集中的特征集。由于得到的至少一个频繁项集是过滤掉了非给定群特征的，不存在群画像的特征不是给定群的用户特征信息的情况。而且给定群的群画像是根据每一个关联推导式的置信度信息和每一个关联推导式中的前置项的对比度信息选择出的，而置信度信息和对比度信息在计算过程中增加了对比数据，而对比数据是非给定群的用户特征信息，如果群画像的特征是普适性特征，在非给定群的用户特征信息中也存在，那么计算得到置信度信息和对比度信息的值必然会降低，因此，可以过滤掉群画像的特征是普适性特征的情况，从而提高了群画像结果的准确性。

结合本申请第二方面，本申请第二方面第一实施方式中，

所述处理模块，具体用于获取所述给定群的用户特征信息中所有用户特征的支持度值，所述支持度值为对应的用户特征的出现次数，所述用户特征包括给定群特征；

所述处理模块，还用于获取支持度值大于或等于预置最小支持度阈值的用户特征；

所述处理模块，还用于根据支持度降序排序规则生成频繁项列表，所述频繁项列表包括至少一个用户特征及每一个用户特征对应的支持度值；

所述处理模块，还用于根据所述频繁项列表构建频繁模式树，所述频繁模式树的包括根节点及分支节点，所述根节点为无效值，所述分支节点对应一个用户特征及其支持度值；

所述处理模块，还用于选取一个分支节点作为后缀节点，查询所述频繁模式树中包含所述后缀节点的至少一个树分支路径；

所述处理模块，还用于获取所述至少一个树分支路径中每一条树分支路径的所有分支节点对应的用户特征及其支持度值，递归获取至少一个频繁项集，每个频繁项集包括给定群特征及特征集，所述特征集包括所述后缀节点对应的用户特征。

按照频繁模式算法的规则，处理模块先获取给定群的用户特征信息中所有用户特征的支持度值，支持度值为对应的用户特征的出现次数，用户特征包括给定群特征，预设了预置最小支持度阈值删除出现次数较小的用户特征，因为出现次数较小的用户特征必然是不满足群画像所需的关键特征，处理模块获取支持度值大于或等于预置最小支持度阈值的用户特征，处理模块根据支持度降序排序规则生成频繁项列表，频繁项列表包括至少一个用户特征及每一个用户特征对应的支持度值，频繁项列表具体的形式可以是每一个频繁项对应一个用户，多个用户特征以支持度值排序，而且频繁项列表中一个频繁项可以理解为频繁模式树的树分支，那么就能实现根据频繁项列表构建频繁模式树，频繁模式树的包括根节点及分支节点，根节点为无效值，分支节点对应一个用户特征及其支持度值，处理模块选取一个分支节点作为后缀节点，查询频繁模式树中包含后缀节点的至少一个树分支路径，处理模块获取至少一个树分支路径中每一条树分支路径的所有分支节点对应的用户特征及其支持度值，递归获取至少一个频繁项集，每个频繁项集包括给定群特征及特征集，特征集包括后缀节点对应的用户特征，除此之外，特征集还可以包括其他的用户特征。由于得到的频繁项集都是包括给定群特征的，因此对比数据是不需要进行计算，而目前利用LDA算法的群画像方法中，是需要对给定群的超集进行计算的，超集就是所有的用户，即包括给定群也包括非给定群，因此，本申请还可以减少计算复杂度。

结合本申请第二方面第一实施方法中，本申请第二方面第二实施方式中，

所述处理模块，还用于将所述至少一个频繁项集中每个频繁项集的特征集设置为前置项，及每个频繁项集的给定群特征设置为后置项；

所述处理模块，还用于根据所述至少一个频繁项集中每个频繁项集对应的前置项和后置项生成至少一个关联推导式，一个关联推导式对应一个频繁项集。

上述本申请第二方面第一实施方法中，特征集包括后缀节点对应的用户特征，还可以包括其他的用户特征，将至少一个频繁项集中每个频繁项集的特征集设置为前置项，及每个频繁项集的给定群特征设置为后置项，例如频繁项集为{给定CDN小区、青年、电影}，其中，“给定CDN小区”为给定群特征，特征集包括“青年”和“电影”，那么前置项为“青年、电影”，后置项为“给定CDN小区”，处理模块生成的关联推导式的表达式为“前置项→后置项”，具体为“青年、电影→给定CDN小区”，之所以将给定群特征作为后置项，是因为给定群特征是给定群的所有用户所特有的，对比数据的非给定群的用户特征信息不可能包含给定群特征，那么生成的关联推导式也避免了对比数据的干扰，对于最终得到群画像的准确性有益，而且进一步的减少了计算复杂度。

结合本申请第二方面，本申请第二方面第三实施方式中，

所述处理模块，还用于获取所述至少一个关联推导式中每一个关联推导式的前置项在所述对比数据和所述至少一个频繁项集中出现的次数，得到所述每一个关联推导式中前置项的支持度值；

所述处理模块，还用于根据所述每一个关联推导式中前置项的支持度值得到所有关联推导式中前置项的支持度信息；

所述处理模块，还用于获取所述至少一个关联推导式中每一个关联推导式的前置项和后置项都在所述对比数据和所述至少一个频繁项集中出现的次数，得到所述每一个关联推导式中前置项和后置项的支持度值；

所述处理模块，还用于将所述至少一个关联推导式中关联推导式Y的前置项的支持度值及对应的前置项和后置项的支持度值带入X＝A/B，所述B表示所述关联推导式Y中前置项的支持度值，所述A表示所述关联推导式Y中前置项和后置项同时出现的支持度值，所述X表示所述关联推导式Y的置信度值；

所述处理模块，还用于计算得到所述关联推导式Y的置信度值X，并根据所有关联关系推导式的置信度值生成置信度信息。

在得到生成的至少一个关联推导式后，处理模块获取至少一个关联推导式中每一个关联推导式的前置项在对比数据和至少一个频繁项集中出现的次数，得到每一个关联推导式中前置项的支持度值，对比数据与给定群的用户特征信息最大的区别是给定群特征，但是其他的用户特征信息与给定群的用户特征信息可能存在相同的地方，例如，给定群中一个用户的用户特征信息为“给定CDN小区、免费4K试用用户、观看时间-午夜、青年、电影”，对比数据中一个用户的用户特征信息为“非给定CDN小区、免费4K试用用户、观看时间-午夜、青年、会员”，如果关联推导式Y中前置项为“青年”，那么前置项中的“青年”在对比数据中也是存在的，那么根据关联推导式Y的置信度计算公式X＝A/B，其中，B表示关联推导式Y中前置项的支持度值，A表示关联推导式Y中前置项和后置项的支持度值，X表示关联推导式Y的置信度值，在对比数据加入的情况下，B的取值必然会增大，而A的支持度值必然不变，从而可知，如果前置项包括的用户特征是普适性特征，对比数据的用户特征信息中也具有的情况下，降低了该前置项对应的关联推导式Y的置信度值就会降低，可知对于群画像的准确性提升有益。具体的，获取至少一个关联推导式中每一个关联推导式的前置项在对比数据和至少一个频繁项集中出现的次数，得到每一个关联推导式中前置项的支持度值，根据每一个关联推导式中前置项的支持度值得到所有关联推导式中前置项的支持度信息，获取至少一个关联推导式中每一个关联推导式的前置项和后置项都在对比数据和至少一个频繁项集中出现的次数，得到每一个关联推导式中前置项和后置项的支持度值，将至少一个关联推导式中关联推导式Y的前置项的支持度值及对应的前置项和后置项同时出现的支持度值带入X＝A/B，计算得到关联推导式Y的置信度值X，并根据所有关联关系推导式的置信度值生成置信度信息。

结合本申请第二方面、第二方面第一实施方式、第二方面第二实施方式或第二方面第三实施方式，本申请第二方面第四实施方式中，

所述选择模块，具体用于根据所述支持度信息确定每一个关联推导式的前置项的支持度值；

所述选择模块，还用于根据所述置信度信息确定每一个关联推导式的置信度值；

所述选择模块，还用于根据预置支持度值优先规则，选择支持度值最高的关联推导式的前置项作为所述给定群的群画像；

或，

所述选择模块，还用于根据预置置信度值优先规则，选择置信度值最高的关联推导式的前置项作为所述给定群的群画像。

为了方便于群画像的选择，选择模块可以根据支持度信息确定每一个关联推导式的前置项的支持度值，根据置信度信息确定每一个关联推导式的置信度值，生成一个具有前置项、支持度和置信度的表格，将支持度值和置信度值填入表格中，在具体选择群画像时，选择模块可以根据预置支持度值优先规则，选择支持度值最高的关联推导式的前置项作为给定群的群画像；或，根据预置置信度值优先规则，选择置信度值最高的关联推导式的前置项作为给定群的群画像。除此之外，还可以综合考虑支持度值和置信度值来选择一个关联推导式的前置项作为给定群的群画像。

本申请第三方面提供一种服务器，包括：

处理器、收发器及存储器，其中，所述存储器可以用于存储所述处理器执行的代码；

所述处理器、所述收发器及所述存储器通过总线系统连接；

所述收发器，用于获取给定群的用户特征信息及对比数据，所述对比数据为非给定群的用户特征信息，所述给定群的用户特征信息包括给定群特征；

所述处理器，用于根据频繁模式算法对所述给定群的用户特征信息进行处理，得到至少一个频繁项集，每个频繁项集都包括给定群特征及特征集；

所述处理器，还用于根据所述至少一个频繁项集生成至少一个关联推导式，一个关联推导式对应一个频繁项集，关联推导式包括后置项及前置项，所述后置项为所述关联推导式对应的频繁项集中的给定群特征，所述前置项为所述关联推导式对应的频繁项集中的特征集；

所述处理器，还用于根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息，所述支持度信息为所述前置项在所述给定群的用户特征信息及所述对比数据中出现的次数；

所述处理器，还用于根据所述置信度信息及所述支持度信息得到所述给定群的群画像，所述给定群的群画像为一个关联推导式的前置项。

运营商或者开发商等具有大量用户的情况下，针对不同业务需要从大量的用户中划分出特定的用户群，特定的用户群称为给定群，例如，在视频CDN内容预推场景下，每个CDN小区覆盖的用户群就是一个给定群，而这个给定群的给定群特征是“给定CDN小区”，不是该CDN小区的用户就划分到非给定群中。要得到给定群的群画像，收发器先获取给定群的用户特征信息及对比数据，对比数据为非给定群的用户特征信息，给定群和非给定群的用户特征信息是预先规定的，或是从给定群用户的用户数据中分析得到的，并且给定群的用户特征信息包括给定群特征，处理器根据频繁模式算法对所述给定群的用户特征信息进行处理，得到至少一个频繁项集，而且得到的至少一个频繁项集中每个频繁项集都包括给定群特征及特征集，即过滤掉了没有给定群特征的频繁项集，处理器根据得到的至少一个频繁项集生成至少一个关联推导式，其中，一个关联推导式对应一个频繁项集，关联推导式包括后置项及前置项，后置项为关联推导式对应的频繁项集中的给定群特征，前置项为关联推导式对应的频繁项集中的特征集，处理器根据对比数据及至少一个频繁项集计算出至少一个关联推导式中每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息，支持度信息为前置项在给定群的用户特征信息及对比数据中出现的次数，处理器根据置信度信息及支持度信息从至少一个关联推导式中选择一个关联推导式对应的频繁项集的前置项，将该前置项作为给定群的群画像，前置项也是关联推导式对应的频繁项集中的特征集。由于得到的至少一个频繁项集是过滤掉了非给定群特征的，不存在群画像的特征不是给定群的用户特征信息的情况。而且给定群的群画像是根据每一个关联推导式的置信度信息和每一个关联推导式中的前置项的对比度信息选择出的，而置信度信息和对比度信息在计算过程中增加了对比数据，而对比数据是非给定群的用户特征信息，如果群画像的特征是普适性特征，在非给定群的用户特征信息中也存在，那么计算得到置信度信息和对比度信息的值必然会降低，因此，可以过滤掉群画像的特征是普适性特征的情况，从而提高了群画像结果的准确性。

本申请的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本申请的第五方面提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍。

图1为本申请提供的服务器的一个实施例结构示意图；

图2为本申请提供的群画像方法的一个实施例流程示意图；

图3为本申请提供的获取频繁项集的流程示意图；

图4为本申请提供的给定群的用户a的分支路径图；

图5为本申请提供的给定群的所有用户的频繁模式树的示意图；

图6为本申请提供的获取置信度信息及支持度信息的流程示意图；

图7为本申请提供的群画像装置的一个实施例结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述。

首先简单介绍本申请应用的系统构架或场景。

本申请主要应用于运营商或者开发商等具有大量用户的情况下，针对不同业务需要从大量的用户中划分出特定的用户群，特定的用户群称为给定群。以视频CDN内容预推场景为例进行说明，每个CDN小区覆盖的用户群就是一个给定群，而这个给定群的给定群特征是“给定CDN小区”，不是该CDN小区的用户就划分到非给定群中，给定群的用户特征信息就是给定群中每一个用户的所有用户特征，对于用户特征的设置，一般是结合视频CDN内容预推场景进行的，例如供应商在给定群的用户使用CDN过程中，记录每一个用户的用户信息，将每一个用户的“是否给定CDN小区、年龄、观看时间、免费4K试用用户、视频类型偏好、是否会员”等信息提取出作为用户特征。具体如下表1所示。

表1

以上表1中，给定群中每一个用户的用户特征信息都按照视频CDN内容预推场景进行了统计。而对比数据(即非给定群的用户特征信息)也按照视频CDN内容预推场景进行了统计，具体如下表2所示。

表2

请参阅图1，本申请提供一种服务器，包括：

处理器101、收发器102及存储器103，其中，存储器103可以用于存储处理器101执行的代码；

处理器101、收发器102及存储器103通过总线系统104连接；

收发器102，用于获取给定群的用户特征信息及对比数据，对比数据为非给定群的用户特征信息，给定群的用户特征信息包括给定群特征；

处理器101，用于根据频繁模式算法对给定群的用户特征信息进行处理，得到至少一个频繁项集，每个频繁项集都包括给定群特征及特征集；

处理器101，还用于根据至少一个频繁项集生成至少一个关联推导式，一个关联推导式对应一个频繁项集，关联推导式包括后置项及前置项，后置项为关联推导式对应的频繁项集中的给定群特征，前置项为关联推导式对应的频繁项集中的特征集；

处理器101，还用于根据对比数据及至少一个频繁项集计算出至少一个关联推导式中每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息，支持度信息为前置项在给定群的用户特征信息及对比数据中出现的次数；

处理器101，还用于根据置信度信息及支持度信息得到给定群的群画像，给定群的群画像为一个关联推导式的前置项。

本申请实施例中，服务器要得到给定群的群画像，收发器102先获取给定群的用户特征信息及对比数据，对比数据为非给定群的用户特征信息，给定群和非给定群的用户特征信息是预先规定的，或是从给定群用户的用户数据中分析得到的，并且给定群的用户特征信息包括给定群特征，处理器101根据频繁模式算法对所述给定群的用户特征信息进行处理，得到至少一个频繁项集，而且得到的至少一个频繁项集中每个频繁项集都包括给定群特征及特征集，即过滤掉了没有给定群特征的频繁项集，处理器101根据得到的至少一个频繁项集生成至少一个关联推导式，其中，一个关联推导式对应一个频繁项集，关联推导式包括后置项及前置项，后置项为关联推导式对应的频繁项集中的给定群特征，前置项为关联推导式对应的频繁项集中的特征集，处理器101根据对比数据及至少一个频繁项集计算出至少一个关联推导式中每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息，支持度信息为前置项在给定群的用户特征信息及对比数据中出现的次数，处理器根据置信度信息及支持度信息从至少一个关联推导式中选择一个关联推导式对应的频繁项集的前置项，将该前置项作为给定群的群画像，前置项也是关联推导式对应的频繁项集中的特征集。由于得到的至少一个频繁项集是过滤掉了非给定群特征的，不存在群画像的特征不是给定群的用户特征信息的情况。而且给定群的群画像是根据每一个关联推导式的置信度信息和每一个关联推导式中的前置项的对比度信息选择出的，而置信度信息和对比度信息在计算过程中增加了对比数据，而对比数据是非给定群的用户特征信息，如果群画像的特征是普适性特征，在非给定群的用户特征信息中也存在，那么计算得到置信度信息和对比度信息的值必然会降低，因此，可以过滤掉群画像的特征是普适性特征的情况，从而提高了群画像结果的准确性。

以上图1所示的实施例以服务器作为实体装置为例对群画像的过程进行说明，下面通过流程实施例对群画像方法进行说明。

请参阅图2，本申请实施例提供一种群画像方法，包括：

201、获取给定群的用户特征信息及对比数据，对比数据为非给定群的用户特征信息，给定群的用户特征信息包括给定群特征；

本实施例中，以视频CDN内容预推场景为例，每个CDN小区覆盖的用户群就是一个给定群，而这个给定群的给定群特征是“给定CDN小区”，不是该CDN小区的用户就划分到非给定群中。要得到给定群的群画像，就要先获取给定群的用户特征信息及对比数据，对比数据为非给定群的用户特征信息，给定群和非给定群的用户特征信息是预先规定的，或是从给定群用户的用户数据中分析得到的，并且给定群的用户特征信息包括给定群特征，具体的给定群的用户特征信息可以是上表1所示，具体的对比数据可以是上表2所示。

202、根据频繁模式算法对给定群的用户特征信息进行处理，得到至少一个频繁项集；

本实施例中，获取到给定群的用户特征信息之后，根据频繁模式算法(Fp-growth)对给定群的用户特征信息进行处理，得到至少一个频繁项集，而且得到的至少一个频繁项集中每个频繁项集都包括给定群特征及特征集，即过滤掉了没有给定群特征的频繁项集。

203、根据至少一个频繁项集生成至少一个关联推导式；

本实施例中，得到至少一个频繁项集之后，根据至少一个频繁项集生成至少一个关联推导式，其中，一个关联推导式对应一个频繁项集，关联推导式包括后置项及前置项，后置项为关联推导式对应的频繁项集中的给定群特征，前置项为关联推导式对应的频繁项集中的特征集，关联推导式的具体形式为“前置项→后置项”。

204、根据对比数据及至少一个频繁项集计算出至少一个关联推导式中每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息；

本实施例中，根据对比数据及至少一个频繁项集计算出至少一个关联推导式中每一个关联推导式的置信度信息，置信度计算公式具体可以是“关联推导式的置信度＝前置项∪后置项的支持度/前置项的支持度”，前置项的支持度表示的是一个关联推导式的前置项在给定群的用户特征信息及对比数据中出现的次数，前置项∪后置项的支持度表示的是前置项和后置项在至少一个频繁项集及对比数据中一起出现的次数，关联推导式的置信度的具体取值就是置信度信息，前置项的支持度的具体取值就是支持度信息，对至少一个关联推导式中所有的关联推导式都是如此计算，每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息。

205、根据置信度信息及支持度信息得到给定群的群画像。

本实施例中，根据置信度信息及支持度信息从至少一个关联推导式中选择一个关联推导式对应的频繁项集的前置项，将该前置项作为给定群的群画像，前置项也是关联推导式对应的频繁项集中的特征集。

本申请实施例中，由于得到的至少一个频繁项集是过滤掉了非给定群特征的，不存在群画像的特征不是给定群的用户特征信息的情况。而且给定群的群画像是根据每一个关联推导式的置信度信息和每一个关联推导式中的前置项的对比度信息选择出的，而置信度信息和对比度信息在计算过程中增加了对比数据，而对比数据是非给定群的用户特征信息，如果群画像的特征是普适性特征，在非给定群的用户特征信息中也存在，那么计算得到置信度信息和对比度信息的值必然会降低，因此，可以过滤掉群画像的特征是普适性特征的情况，从而提高了群画像结果的准确性。

上述图2所示的实施例中，步骤202具体得到频繁项集是利用了Fp-growth，下面将通过实施例结合Fp-growth的算法原理对步骤202进行详细说明。

可选的，请参阅图3，本申请的一些实施例中，根据频繁模式算法对给定群的用户特征信息进行处理，得到至少一个频繁项集，包括：

301、获取给定群的用户特征信息中所有用户特征的支持度值，支持度值为对应的用户特征的出现次数，用户特征包括给定群特征；

本实施例中，对上述表1中的给定群的用户特征信息中所有用户特征进行统计之后，得到所有用户特征的支持度值，例如，给定群特征“给定CDN小区”的支持度值为5，“免费4K试用用户”的支持度值为4，“观看时间-午夜”的支持度值为4，“青年”的支持度值为4，“会员”的支持度值为3，“电影偏好”的支持度值为3，“综艺偏好”的支持度值为1，等等。

302、获取支持度值大于或等于预置最小支持度阈值的用户特征；

本实施例中，预设了预置最小支持度阈值删除出现次数较小的用户特征，因为出现次数较小的用户特征必然是不满足群画像所需的关键特征，获取支持度值大于或等于预置最小支持度阈值的用户特征，假设预置最小支持度阈值为3，那么获取到的用户特征包括“给定CDN小区”、“免费4K试用用户”、“观看时间-午夜”、“青年”、“会员”和“电影偏好”。

303、根据支持度降序排序规则生成频繁项列表，频繁项列表包括至少一个用户特征及每一个用户特征对应的支持度值；

本实施例中，根据支持度降序排序规则生成频繁项列表，即按照每个用户特征的支持度值的大小进行降序排列，得到频繁项列表，具体如下表3所示，

表3

从上表可以直观的看出满足最小支持度阈值为3的所有用户特征，并且按照支持度值的大小进行了降序排列。

需要说明的是，在已知频繁项列表的情况下，可以按照每一个用户对应的方式，按照频繁项列表排列出用户特征，具体如下表4所示。

表4

用户	用户特征排序
		a	给定CDN小区、免费4K试用用户、观看时间-午夜、青年、电影偏好
b	给定CDN小区、观看时间-午夜、青年、会员、电影偏好
		c	给定CDN小区、免费4K试用用户
d	给定CDN小区、免费4K试用用户、观看时间-午夜、青年、会员
		e	给定CDN小区、免费4K试用用户、观看时间-午夜、青年、会员、电影偏好

304、根据频繁项列表构建频繁模式树，频繁模式树的包括根节点及分支节点，根节点为无效值，分支节点对应一个用户特征及其支持度值；

本实施例中，根据频繁项列表构建频繁模式树(Fp-Tree)时，每一个用户的用户特征排序可以当做是Fp-Tree的一个树分支，如图4所示，为表4中对应于用户a的一个树分支，每一个分支节点对应一个用户特征及其支持度值。表4中所有用户构成的Fp-Tree如图5所示，其中根据节点为无效值，根节点的内容为Null。

305、选取一个分支节点作为后缀节点，查询频繁模式树中包含后缀节点的至少一个树分支路径；

本实施例中，一般选择最低频繁项作为后缀，也可以选择Fp-Tree中最低层的节点作为后缀节点，例如选择“电影偏好”作为后缀为例，根据“电影偏好”对应的后缀节点可以查询到后缀节点的所有树分支路径，即父分支，包括{给定CDN小区、免费4K试用用户、观看时间-午夜、青年、会员：1}，{给定CDN小区、观看时间-午夜、青年、会员：1}和{给定CDN小区、免费4K试用用户、观看时间-午夜、青年：1}三个树分支路径。

306、获取至少一个树分支路径中每一条树分支路径的所有分支节点对应的用户特征及其支持度值，递归获取至少一个频繁项集。

本实施例中，获取步骤305中三个树分支路径中所有分支节点对应的用户特征及其支持度值，{给定CDN小区、免费4K试用用户、观看时间-午夜、青年、会员：1}，{给定CDN小区、观看时间-午夜、青年、会员：1}和{给定CDN小区、免费4K试用用户、观看时间-午夜、青年：1}，将三个父分支进行合并，需要考虑到的是，在合并时，可以过滤掉不满足最小支持度阈值的路径，得到1个子分支{给定CDN小区、观看时间-午夜、青年：3}，这里称作第一子Fp-Tree，在第一子Fp-Tree中包含三个特征，还可以进行递归，以排最后的“青年”作为后缀继续进行递归，得到第二子FP-Tree{给定CDN小区、观看时间-午夜：3}，然后选择第二子FP-Tree中的“观看时间-午夜”作为后缀再次递归，得到最终的第三子FP-Tree{给定CDN小区：3}。将所有的子Fp-Tree与后缀“电影偏好”进行关联后，得到一个频繁项集；而且采用相同的方式，除“电影偏好”之外，频繁项列表中其他的用户特征都要分别作为后缀，并得到对应的频繁项集。如下表5所示，分别包括以后缀为“电影偏好”“会员”“青年”“午夜”“免费4K试用用户”所对应的频繁项集，表1中将后缀对应的父分支相应的例举出来了，而且根据父分支合并得到的第一子FP-Tree也例举出来了，再根据第一子FP-Tree进行递归得到第二、第三和第N子FP-Tree没有体现在表5中，但是计算过程与上述的一致。后缀“电影偏好”的频繁项集具体有四个，分别为“{给定CDN小区、电影偏好：3}，{给定CDN小区、青年、电影偏好：3}，{给定CDN小区、观看时间-午夜、电影偏好：3}，{给定CDN小区、观看时间-午夜、青年、电影偏好：3}”；后缀“会员”的频繁项集具体有四个，分别为“{给定CDN小区、会员：3}，{给定CDN小区、观看时间-午夜、会员：3}，{给定CDN小区、青年、会员：3}，{给定CDN小区、观看时间-午夜、青年、会员：3}”；后缀“青年”的频繁项集具体有四个，分别为“{给定CDN小区、青年：4}，{给定CDN小区、免费4K试用用户、青年：3}，{给定CDN小区、观看时间-午夜、青年：4}，{给定CDN小区、免费4K试用用户、观看时间-午夜、青年：3}”；后缀“观看时间-午夜”的频繁项集具体有两个，分别为“给定CDN小区、观看时间-午夜：4}，{给定CDN小区、免费4K试用用户、观看时间-午夜：3}”；后缀“免费4K试用用户”的频繁项集为“{给定CDN小区、免费4K试用用户：4}”。在每一个频繁项集中，除了给定群特征“给定CDN小区”外，其他的用户特征都作为一个特征集。例如频繁项集为{给定CDN小区、青年、电影偏好：3}的特征集为“青年、电影偏好”。

表5

上述实施例中，详细的介绍了频繁项集是如何计算得到的，下面通过实施例对图2所示实施例步骤203中如何根据频繁项集生成对应的关联推导式进行详细说明。

可选的，本申请的一些实施例中，根据至少一个频繁项集生成至少一个关联推导式，包括：

将至少一个频繁项集中每个频繁项集的特征集设置为前置项，及每个频繁项集的给定群特征设置为后置项；

根据至少一个频繁项集中每个频繁项集对应的前置项和后置项生成至少一个关联推导式，一个关联推导式对应一个频繁项集。

本申请实施例中，将图3所示的实施例中步骤306中得到的表5的频繁项集中每个频繁项集的特征集设置为前置项，及每个频繁项集的给定群特征设置为后置项，关联推导式的表达式为“前置项→后置项”，那么表5中所有频繁项集所对应的关联推导式都在下表6中记录了。之所以将给定群特征作为后置项，是因为给定群特征是给定群的所有用户所特有的，对比数据的非给定群的用户特征信息不可能包含给定群特征，那么生成的关联推导式也避免了对比数据的干扰，对于最终得到群画像的准确性有益，而且进一步的减少了计算复杂度。

表6

上述实施例中，详细的说明了是如何根据频繁项集得到对应的关联推导式的，下面将通过实施例对图2所示的步骤204中加入对比数据情况下如何计算置信度信息和前置项的支持度信息进行详细说明，具体如下：

请参阅图6所示，本申请的一些实施例中，根据对比数据及至少一个频繁项集计算出至少一个关联推导式中每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息，包括：

601、获取至少一个关联推导式中每一个关联推导式的前置项在对比数据和至少一个频繁项集中出现的次数，得到每一个关联推导式中前置项的支持度值；

本实施例中，以至少一个关联推导式中一个关联推导式为例进行具体说明，以表6中的第一行关联推导式“电影偏好→给定CDN小区”为例，对应的频繁项集为{给定CDN小区、电影偏好：3}，可以知道前置项“电影偏好”在频繁项集中出现的次数为3次，而根据表2所示的对比数据，前置项“电影偏好”在对比数据中出现了1次，那么关联推导式“电影偏好→给定CDN小区”中前置项的支持度值为4。并且所有的关联推导式中前置项的支持度值都可以根据相同的方式计算得到。

602、根据每一个关联推导式中前置项的支持度值得到所有关联推导式中前置项的支持度信息；

本实施例中，按照步骤601中计算得到的每一个关联推导式中前置项的支持度值，进行归总后，得到所有关联推导式中前置项的支持度信息。如下表7所示为支持度信息表。

表7

前置项	支持度值
		电影偏好	4
青年、电影偏好	4
		观看时间-午夜、电影偏好	4
观看时间-午夜、青年、电影偏好	4
		会员	4
观看时间-午夜、会员	3
		青年、会员	4
观看时间-午夜、青年、会员	4
		青年→给定CDN小区	5
免费4K试用用户、青年	4
		观看时间-午夜、青年	5
免费4K试用用户、观看时间-午夜、青年	4
		观看时间-午夜	5
免费4K试用用户、观看时间-午夜	4
		免费4K试用用户	6

603、获取至少一个关联推导式中每一个关联推导式的前置项和后置项都在对比数据和至少一个频繁项集中出现的次数，得到每一个关联推导式中前置项和后置项同时出现的支持度值；

本实施例中，依旧以步骤601中的关联推导式“电影偏好→给定CDN小区”为例，后置项为“给定CDN小区”，前置项和后置项一起在频繁项集中出现的次数是3次，前置项和后置项一起在对比数据出现的次数是0次，那么关联推导式“电影偏好→给定CDN小区”中前置项和后置项的支持度值为3。并且每一个关联推导式中前置项和后置度的支持度值都可以根据相同的方式计算得到。

604、将至少一个关联推导式中关联推导式Y的前置项的支持度值及对应的前置项和后置项同时出现的支持度值带入X＝A/B；

本实施例中，关联推导式的置信度计算公式为X＝A/B，B表示关联推导式Y中前置项的支持度值，A表示关联推导式Y中前置项和后置项同时出现的支持度值，X表示关联推导式Y的置信度值，按照以上步骤的描述，关联推导式Y具体为“电影偏好→给定CDN小区”，A的值为3，B的值为4。

605、计算得到关联推导式Y的置信度值X，并根据所有关联关系推导式的置信度值生成置信度信息。

本实施例中，计算得到关联推导式Y“电影偏好→给定CDN小区”的置信度值X＝3/4＝75％,根据相同的方式，可以计算得到每一个关联推导式的置信度值，并归总为置信度信息。如下表8所示为置信度信息表。

表8

上述图6所示的实施例中详细的说明了如何得到置信度信息及支持度信息，下面通过实施例对图2所示的实施例中步骤205根据置信度信息及支持度信息得到给定群的群画像进行具体的说明。

可选的，本申请的一些实施例中，根据置信度信息及支持度信息得到给定群的群画像，包括：

根据支持度信息确定每一个关联推导式的前置项的支持度值；

根据置信度信息确定每一个关联推导式的置信度值；

根据预置支持度值优先规则，选择支持度值最高的关联推导式的前置项作为给定群的群画像；

或，

根据预置置信度值优先规则，选择置信度值最高的关联推导式的前置项作为给定群的群画像。

本申请实施例中，根据支持度信息确定每一个关联推导式的前置项的支持度值，根据置信度信息确定每一个关联推导式的置信度值，具体的过程可以是综合上述表7和表8得到，但是在具体实施过程中，考虑到预置支持度阈值为3，而且为了保证群画像结果的准确，置信度值也需要设置一个置信度阈值，置信度阈值以80％为例，通过预置支持度阈值和置信度阈值的过滤，最后得到的待选择群画像表如下表9所示。

表9

如果待选择群画像的选择规则是预置支持度值优先规则，那么选择支持度值最高的关联推导式的前置项作为给定群的群画像，如表9中“青年”和“观看时间-午夜、电影偏好”的支持度值都是为4，那么群画像是从这两个中选择出，需要说明的是，在两个前置项的支持度值相同的情况下，可以考虑前置项中用户特征的个数，用户特征个数多的“观看时间-午夜、电影偏好”作为群画像，如果前置项的支持度值和用户特征的个数都相同，那么可以根据表中从上往下顺序选择。

如果待选择群画像的选择规则是预置置信度值优先规则，选择置信度值最高的关联推导式的前置项作为给定群的群画像，如表9中“观看时间-午夜、会员”所对应的置信度值为100％，那么群画像就是“观看时间-午夜、会员”。

需要说明的是，除了预置支持度值优先规则和预置置信度值优先规则之外，还可以综合考虑支持度值和置信度值，来选择出群画像，具体的选择方式不做限定。

以上实施例描述是群画像方法，下面通过实施例对群画像装置进行说明。

请参阅图7，本申请实施例提供一种群画像装置，包括：

获取模块701，用于获取给定群的用户特征信息及对比数据，对比数据为非给定群的用户特征信息，给定群的用户特征信息包括给定群特征；

处理模块702，用于根据频繁模式算法对给定群的用户特征信息进行处理，得到至少一个频繁项集，每个频繁项集都包括给定群特征及特征集；

处理模块702，还用于根据至少一个频繁项集生成至少一个关联推导式，一个关联推导式对应一个频繁项集，关联推导式包括后置项及前置项，后置项为关联推导式对应的频繁项集中的给定群特征，前置项为关联推导式对应的频繁项集中的特征集；

处理模块702，还用于根据对比数据及至少一个频繁项集计算出至少一个关联推导式中每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息，支持度信息为前置项在给定群的用户特征信息及对比数据中出现的次数；

选择模块703，用于根据置信度信息及支持度信息得到给定群的群画像，给定群的群画像为一个关联推导式的前置项。

本申请实施例中，获取模块701先获取给定群的用户特征信息及对比数据，对比数据为非给定群的用户特征信息，给定群和非给定群的用户特征信息是预先规定的，或是从给定群用户的用户数据中分析得到的，并且给定群的用户特征信息包括给定群特征，处理模块702根据频繁模式算法对给定群的用户特征信息进行处理，得到至少一个频繁项集，而且得到的至少一个频繁项集中每个频繁项集都包括给定群特征及特征集，即过滤掉了没有给定群特征的频繁项集，处理模块702还根据得到的至少一个频繁项集生成至少一个关联推导式，其中，一个关联推导式对应一个频繁项集，关联推导式包括后置项及前置项，后置项为关联推导式对应的频繁项集中的给定群特征，前置项为关联推导式对应的频繁项集中的特征集，处理模块702还根据对比数据及至少一个频繁项集计算出至少一个关联推导式中每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息，支持度信息为前置项在给定群的用户特征信息及对比数据中出现的次数，选择模块703根据置信度信息及支持度信息从至少一个关联推导式中选择一个关联推导式对应的频繁项集的前置项，将该前置项作为给定群的群画像，前置项也是关联推导式对应的频繁项集中的特征集。由于得到的至少一个频繁项集是过滤掉了非给定群特征的，不存在群画像的特征不是给定群的用户特征信息的情况。而且给定群的群画像是根据每一个关联推导式的置信度信息和每一个关联推导式中的前置项的对比度信息选择出的，而置信度信息和对比度信息在计算过程中增加了对比数据，而对比数据是非给定群的用户特征信息，如果群画像的特征是普适性特征，在非给定群的用户特征信息中也存在，那么计算得到置信度信息和对比度信息的值必然会降低，因此，可以过滤掉群画像的特征是普适性特征的情况，从而提高了群画像结果的准确性。

可选的，本申请的一些实施例中，

处理模块702，具体用于获取给定群的用户特征信息中所有用户特征的支持度值，支持度值为对应的用户特征的出现次数，用户特征包括给定群特征；

处理模块702，还用于获取支持度值大于或等于预置最小支持度阈值的用户特征；

处理模块702，还用于根据支持度降序排序规则生成频繁项列表，频繁项列表包括至少一个用户特征及每一个用户特征对应的支持度值；

处理模块702，还用于根据频繁项列表构建频繁模式树，频繁模式树的包括根节点及分支节点，根节点为无效值，分支节点对应一个用户特征及其支持度值；

处理模块702，还用于选取一个分支节点作为后缀节点，查询频繁模式树中包含后缀节点的至少一个树分支路径；

处理模块702，还用于获取至少一个树分支路径中每一条树分支路径的所有分支节点对应的用户特征及其支持度值，递归获取至少一个频繁项集，每个频繁项集包括给定群特征及特征集，特征集包括后缀节点对应的用户特征。

本申请实施例中，按照频繁模式算法的规则，处理模块702先获取给定群的用户特征信息中所有用户特征的支持度值，支持度值为对应的用户特征的出现次数，用户特征包括给定群特征，预设了预置最小支持度阈值删除出现次数较小的用户特征，因为出现次数较小的用户特征必然是不满足群画像所需的关键特征，处理模块702获取支持度值大于或等于预置最小支持度阈值的用户特征，处理模块702根据支持度降序排序规则生成频繁项列表，频繁项列表包括至少一个用户特征及每一个用户特征对应的支持度值，频繁项列表具体的形式可以是每一个频繁项对应一个用户，多个用户特征以支持度值排序，而且频繁项列表中一个频繁项可以理解为频繁模式树的树分支，那么就能实现根据频繁项列表构建频繁模式树，频繁模式树的包括根节点及分支节点，根节点为无效值，分支节点对应一个用户特征及其支持度值，处理模块选取一个分支节点作为后缀节点，查询频繁模式树中包含后缀节点的至少一个树分支路径，处理模块获取至少一个树分支路径中每一条树分支路径的所有分支节点对应的用户特征及其支持度值，递归获取至少一个频繁项集，每个频繁项集包括给定群特征及特征集，特征集包括后缀节点对应的用户特征，除此之外，特征集还可以包括其他的用户特征。由于得到的频繁项集都是包括给定群特征的，因此对比数据是不需要进行计算，而目前利用LDA算法的群画像方法中，是需要对给定群的超集进行计算的，超集就是所有的用户，即包括给定群也包括非给定群，因此，本申请还可以减少计算复杂度。

可选的，本申请的一些实施例中，

处理模块702，还用于将至少一个频繁项集中每个频繁项集的特征集设置为前置项，及每个频繁项集的给定群特征设置为后置项；

处理模块702，还用于根据至少一个频繁项集中每个频繁项集对应的前置项和后置项生成至少一个关联推导式，一个关联推导式对应一个频繁项集。

本申请实施例中，特征集包括后缀节点对应的用户特征，还可以包括其他的用户特征，将至少一个频繁项集中每个频繁项集的特征集设置为前置项，及每个频繁项集的给定群特征设置为后置项，例如频繁项集为{给定CDN小区、青年、电影}，其中，“给定CDN小区”为给定群特征，特征集包括“青年”和“电影”，那么前置项为“青年、电影”，后置项为“给定CDN小区”，处理模块生成的关联推导式的表达式为“前置项→后置项”，具体为“青年、电影→给定CDN小区”，之所以将给定群特征作为后置项，是因为给定群特征是给定群的所有用户所特有的，对比数据的非给定群的用户特征信息不可能包含给定群特征，那么生成的关联推导式也避免了对比数据的干扰，对于最终得到群画像的准确性有益，而且进一步的减少了计算复杂度。

可选的，本申请的一些实施例中，

处理模块702，还用于获取至少一个关联推导式中每一个关联推导式的前置项在对比数据和至少一个频繁项集中出现的次数，得到每一个关联推导式中前置项的支持度值；

处理模块702，还用于根据每一个关联推导式中前置项的支持度值得到所有关联推导式中前置项的支持度信息；

处理模块702，还用于获取至少一个关联推导式中每一个关联推导式的前置项和后置项都在对比数据和至少一个频繁项集中出现的次数，得到每一个关联推导式中前置项和后置项同时出现的支持度值；

处理模块702，还用于将至少一个关联推导式中关联推导式Y的前置项的支持度值及对应的前置项和后置项的支持度值带入X＝A/B，B表示关联推导式Y中前置项的支持度值，A表示关联推导式Y中前置项和后置项同时出现的支持度值，X表示关联推导式Y的置信度值；

处理模块702，还用于计算得到关联推导式Y的置信度值X，并根据所有关联关系推导式的置信度值生成置信度信息。

本申请实施例中，在处理模块702得到生成的至少一个关联推导式后，处理模块702获取至少一个关联推导式中每一个关联推导式的前置项在对比数据和至少一个频繁项集中出现的次数，得到每一个关联推导式中前置项的支持度值，对比数据与给定群的用户特征信息最大的区别是给定群特征，但是其他的用户特征信息与给定群的用户特征信息可能存在相同的地方，例如，给定群中一个用户的用户特征信息为“给定CDN小区、免费4K试用用户、观看时间-午夜、青年、电影”，对比数据中一个用户的用户特征信息为“非给定CDN小区、免费4K试用用户、观看时间-午夜、青年、会员”，如果关联推导式Y中前置项为“青年”，那么前置项中的“青年”在对比数据中也是存在的，那么根据关联推导式Y的置信度计算公式X＝A/B，其中，B表示关联推导式Y中前置项的支持度值，A表示关联推导式Y中前置项和后置项的支持度值，X表示关联推导式Y的置信度值，在对比数据加入的情况下，B的取值必然会增大，而A的支持度值必然不变，从而可知，如果前置项包括的用户特征是普适性特征，对比数据的用户特征信息中也具有的情况下，降低了该前置项对应的关联推导式Y的置信度值就会降低，可知对于群画像的准确性提升有益。具体的，获取至少一个关联推导式中每一个关联推导式的前置项在对比数据和至少一个频繁项集中出现的次数，得到每一个关联推导式中前置项的支持度值，根据每一个关联推导式中前置项的支持度值得到所有关联推导式中前置项的支持度信息，获取至少一个关联推导式中每一个关联推导式的前置项和后置项都在对比数据和至少一个频繁项集中出现的次数，得到每一个关联推导式中前置项和后置项的支持度值，将至少一个关联推导式中关联推导式Y的前置项的支持度值及对应的前置项和后置项的支持度值带入X＝A/B，计算得到关联推导式Y的置信度值X，并根据所有关联关系推导式的置信度值生成置信度信息。

可选的，本申请的一些实施例中，

选择模块703，具体用于根据支持度信息确定每一个关联推导式的前置项的支持度值；

选择模块703，还用于根据置信度信息确定每一个关联推导式的置信度值；

选择模块703，还用于根据预置支持度值优先规则，选择支持度值最高的关联推导式的前置项作为给定群的群画像；

或，

选择模块703，还用于根据预置置信度值优先规则，选择置信度值最高的关联推导式的前置项作为给定群的群画像。

本申请实施例中，为了方便于群画像的选择，选择模块703可以根据支持度信息确定每一个关联推导式的前置项的支持度值，根据置信度信息确定每一个关联推导式的置信度值，生成一个具有前置项、支持度和置信度的表格，将支持度值和置信度值填入表格中，在具体选择群画像时，选择模块703可以根据预置支持度值优先规则，选择支持度值最高的关联推导式的前置项作为给定群的群画像；或，根据预置置信度值优先规则，选择置信度值最高的关联推导式的前置项作为给定群的群画像。除此之外，还可以综合考虑支持度值和置信度值来选择一个关联推导式的前置项作为给定群的群画像。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行以上实施例所描述的群画像方法。

本申请还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行以上实施例所描述的即席查询的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种群画像方法，其特征在于，包括：

根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息，所述支持度信息为所述前置项在所述给定群的用户特征信息及所述对比数据中出现的次数，所述关联推导式的置信度信息为所述至少一个关联推导式中关联推导式的前置项的支持度值及对应的前置项和后置项同时出现的支持度值的比值；

根据所述置信度信息及所述支持度信息得到所述给定群的群画像，所述给定群的群画像为一个关联推导式的前置项，所述前置项为从至少一个关联推导式中选择一个关联推导式对应的频繁项集中的特征集。

2.根据权利要求1所述的群画像方法，其特征在于，所述根据频繁模式算法对所述给定群的用户特征信息进行处理，得到至少一个频繁项集，包括：

获取支持度值大于或等于预置最小支持度阈值的用户特征；

3.根据权利要求2所述的群画像方法，其特征在于，所述根据所述至少一个频繁项集生成至少一个关联推导式，包括：

4.根据权利要求1所述的群画像方法，其特征在于，所述根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息，包括：

获取所述至少一个关联推导式中每一个关联推导式的前置项和后置项都在所述对比数据和所述至少一个频繁项集中出现的次数，得到所述每一个关联推导式中前置项和后置项同时出现的支持度值；

将所述至少一个关联推导式中关联推导式Y的前置项的支持度值及对应的前置项和后置项同时出现的支持度值带入X＝A/B，所述B表示所述关联推导式Y中前置项的支持度值，所述A表示所述关联推导式Y中前置项和后置项同时出现的支持度值，所述X表示所述关联推导式Y的置信度值；

5.根据权利要求1至4中任一项所述的群画像方法，其特征在于，所述根据所述置信度信息及所述支持度信息得到所述给定群的群画像，包括：

根据所述置信度信息确定每一个关联推导式的置信度值；

或，

6.一种群画像装置，其特征在于，包括：

所述处理模块，还用于根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息，所述支持度信息为所述前置项在所述给定群的用户特征信息及所述对比数据中出现的次数，所述关联推导式的置信度信息为所述至少一个关联推导式中关联推导式的前置项的支持度值及对应的前置项和后置项同时出现的支持度值的比值；

选择模块，用于根据所述置信度信息及所述支持度信息得到所述给定群的群画像，所述给定群的群画像为一个关联推导式的前置项，所述前置项为从至少一个关联推导式中选择一个关联推导式对应的频繁项集中的特征集。

7.根据权利要求6所述的群画像装置，其特征在于，

8.根据权利要求7所述的群画像装置，其特征在于，

9.根据权利要求6所述的群画像装置，其特征在于，

10.根据权利要求6至9中任一项所述的群画像装置，其特征在于，

或，

11.一种服务器，其特征在于，包括：

所述处理器、所述收发器及所述存储器通过总线系统连接；

所述处理器，还用于根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度信息，及所有关联推导式中前置项的支持度信息，所述支持度信息为所述前置项在所述给定群的用户特征信息及所述对比数据中出现的次数，所述关联推导式的置信度信息为所述至少一个关联推导式中关联推导式的前置项的支持度值及对应的前置项和后置项同时出现的支持度值的比值；

所述处理器，还用于根据所述置信度信息及所述支持度信息得到所述给定群的群画像，所述给定群的群画像为一个关联推导式的前置项，所述前置项为从至少一个关联推导式中选择一个关联推导式对应的频繁项集中的特征集。

12.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至4任意一项所述的方法。

13.一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如权利要求1至4任意一项所述的方法。