CN111291795A

CN111291795A - 人群特征分析方法、装置、存储介质和计算机设备

Info

Publication number: CN111291795A
Application number: CN202010069592.8A
Authority: CN
Inventors: 曾武雄; 曾令英; 刘洪�
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2020-06-16

Abstract

本申请涉及一种人群特征分析方法、装置、存储介质和计算机设备，所述方法包括：获取至少两个人群的人群特征；从所述人群特征中确定所述至少两个人群之间的差异特征以及所述差异特征的重要程度值；在所述差异特征中选取所述重要程度值达到重要条件的关键差异特征；计算各所述关键差异特征之间的差异值；所述关键差异特征和所述差异值的组合，用于确定目标产品的受众人群和/或优化所述目标产品。本申请提供的方案可以提高人群分析的分析效率。

Description

人群特征分析方法、装置、存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种人群特征分析方法、装置、存储介质和计算机设备。

背景技术

在日常的运营工作中，为更好的了解用户与优化产品，因此通常会分析不同人群之间差异，例如对比两家品牌商户中活跃用户的差异情况。传统的人群差异分析方法，通常是由各分析人员凭借个人的经验和对业务理解逐步探索完成的，然而，对于海量的人群特征，采用传统的方案将大大降低了人群分析效率。

发明内容

基于此，有必要针对人群分析的效率低的技术问题，提供一种人群特征分析方法、装置、存储介质和计算机设备。

一种人群特征分析方法，包括：

获取至少两个人群的人群特征；

从所述人群特征中确定所述至少两个人群之间的差异特征以及所述差异特征的重要程度值；

在所述差异特征中选取所述重要程度值达到重要条件的关键差异特征；

计算各所述关键差异特征之间的差异值；所述关键差异特征和所述差异值的组合，用于确定目标产品的受众人群和/或优化所述目标产品。

一种人群特征分析装置，所述装置包括：

获取模块，用于获取至少两个人群的人群特征；

确定模块，用于从所述人群特征中确定所述至少两个人群之间的差异特征以及所述差异特征的重要程度值；

选取模块，用于在所述差异特征中选取所述重要程度值达到重要条件的关键差异特征；

计算模块，用于计算各所述关键差异特征之间的差异值；所述关键差异特征和所述差异值的组合，用于确定目标产品的受众人群和/或优化所述目标产品。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述人群特征分析方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述人群特征分析方法的步骤。

上述人群特征分析方法、装置、计算机可读存储介质和计算机设备，只需要获取至少两个人群的人群特征，便可自动识别出至少两个人群之间的差异特征以及对应的重要程度值，对重要的差异特征(即关键差异特征)进行差异值计算，从而可以快速准确地分析出该至少两个人群的差异，提高了人群分析的分析效率。此外，利用差异特征和差异值来确定目标产品的受众人群，可以有效地向该受众人群推荐该目标产品；以及，利用差异特征和差异值来优化目标产品，可以提高该目标产品的质量或曝光率。

附图说明

图1为一个实施例中人群特征分析方法的应用环境图；

图2为一个实施例中人群特征分析方法的流程示意图；

图3为一个实施例中确定人群之间的差异特征和重要程度值步骤的流程示意图；

图4为另一个实施例中人群特征分析方法的流程示意图；

图5为一个实施例中通过特征差异查找模块查找差异特征步骤的流程示意图；

图6为一个实施例中差异特征分段的界面示意图；

图7为一个实施例中通过特征差异量化模块对差异特征进行量化步骤的流程示意图；

图8为一个实施例中人群重合度和相似度的界面示意图；

图9为一个实施例中人群特征分析装置的结构框图；

图10为另一个实施例中人群特征分析装置的结构框图；

图11为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的人群分析等技术，具体通过如下实施例进行说明：

图1为一个实施例中人群特征分析方法的应用环境图。参照图1，该人群特征分析方法应用于人群特征分析系统。该人群特征分析系统包括终端110和服务器120。终端110和服务器120通过网络连接。人群特征分析方法可应用于终端110，也可应用于服务器120。以人群特征分析方法应用于服务器120为例，服务器120获取从终端110输入的至少两个人群的人群特征，或从特征库中获取至少两个人群的人群特征；从人群特征中确定至少两个人群之间的差异特征以及差异特征的重要程度值；在差异特征中选取重要程度值达到重要条件的关键差异特征；计算各关键差异特征之间的差异值；关键差异特征和差异值的组合，用于确定目标产品的受众人群和/或优化目标产品。

其中，终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种人群特征分析方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图2，该人群特征分析方法具体包括如下步骤：

S202，获取至少两个人群的人群特征。

其中，人群可以是执行特定行为的人群，包括办理业务、购买数字产品或购买实体产品的人群。例如，可以是订阅4G或5G网络业务，又或者购买电子书籍，亦或者是购买某个品牌的衣物等产品的人群。人群特征包括分类特征和数值特征，可以是人群中各成员用户的个人信息集合。其中，数值特征包括但不限于成员用户的年龄和收入等。分类特征包括但不限于各成员用户的姓名、地址(如常住地址)、学历、工作、婚姻情况和兴趣爱好等个人信息集合。

在一个实施例中，服务器接收特征选择指令，当特征选择指令为指定特征选择指令时，根据指定特征选择指令获取目标产品对应的至少两个人群的指定人群特征。

在一个实施例中，服务器首先确定所要分析的至少两个目标业务，根据指定特征选择指令获取关于该目标业务对应的至少两个人群的指定人群特征，该指定人群特征可以是由用户指定并上传的人群特征，如用户分析订阅4G和5G网络业务的两个人群中的年龄特征和地址特征，那么用户可以在相应的操作页面上选择年龄特征和地址特征这两种特征选项，然后上传这两种人群特征。

在一个实施例中，S202之前，服务器对保存人群特征的特征库进行特征更新，如按照目标周期(如每n天，n为大于0的数)对保存人群特征的特征库进行一次特征更新。

在一个实施例中，服务器可以从更新后的特征库中，获取目标产品对应的至少两个人群的人群特征。

在一个实施例中，服务器接收特征选择指令，当接收到全量特征选择指令时，从更新后的特征库中获取目标产品对应的至少两个人群的全量人群特征。

在一个实施例中，服务器首先确定所要分析的至少两个目标业务，根据全量特征选择指令从更新后的特征库中获取目标产品对应的至少两个人群的全量人群特征。例如，如用户分析订阅4G和5G网络业务的两个人群时，可以获取特征库中所有类型的人群特征，如姓名、年龄、地址(如常住地址)、学历、工作、收入、婚姻情况和兴趣爱好等人群特征，那么用户可以在相应的操作页面上选择所有特征选项，然后服务器从更新后的特征库中获取目标产品对应的至少两个人群的全量人群特征。

S204，从人群特征中确定至少两个人群之间的差异特征以及差异特征的重要程度值。

其中，差异特征可以是不同人群之间存在差异的特征。例如，分析产品A和产品B的销售情况，产品A对应的人群a1主要是a2区域、a3年龄段的人群，产品B对应的人群b1主要是b2区域、b3年龄段的人群，其中，人群a1与人群b1是不同的两个人群，a2区域和b2区域是相同的两个区域，a3年龄段和b3年龄段是不同的年龄段，那么，b3年龄段即为两个人群a1和b1的差异特征。

重要程度值为不同人群特征对目标业务的信息增益(或提升率)，如不同年龄对目标业务的提升率，或者相对负样本特征而言正样本特征对目标业务的提升率，其中，正样本特征为本次所要分析的人群特征，负样本特征则不是本次所要分析的人群特征。举例来说，对于面向年轻化的消费产品A，那么，年龄段18-25的人群对消费产品A的提升率大于年龄段38-45的人群对消费产品A的提升率。

在一个实施例中，差异特征包括分类特征的候选特征值和数值特征的数值分段特征；S204具体可以包括：服务器计算人群特征的重要程度值；从人群特征中选取至少两个人群之间存在差异的分类特征和数值特征；计算分类特征的候选特征值；以及，将数值特征分段为至少两段数值分段特征。

其中，候选特征值可以是分类特征中同一类特征的特征数量，例如，对于人群的民族特征，那么该民族特征中属于汉族或其它族的人数。

在一个实施例中，服务器通过分类模型计算人群特征的重要程度值，并利用分类模型的分类能力对分类特征进行分类处理，得到至少两个人群之间存在差异的分类特征；利用分类模型的分段能力对数值特征进行分段，得到至少两段数值分段特征，并计算分类特征的候选特征值。

例如，对于消费产品B的消费人群，若分析该消费人群的年龄特征、性别特征和工作特征，其中年龄特征为数值特征，性别特征和工作特征为分类特征。那么，服务器通过分类模型分别计算年龄特征、性别特征和工作特征对消费产品B的重要程度值。假设年龄特征的年龄区间为21-40，服务器可以对该年龄特征进行分段，得到21-25、26-30、31-35和35-40等四个分段的年龄分段特征。服务器对人群特征中的分类特征进行分类，得到性别特征和工作特征。

S206，在差异特征中选取重要程度值达到重要条件的关键差异特征。

其中，关键差异特征可以是人群特征中重要的、且为至少两个人群中存在差异的人群特征。

在一个实施例中，重要条件可以是预设的程度阈值，服务器在差异特征中选取重要程度值大于或等于程度阈值的关键差异特征。

S208，计算各关键差异特征之间的差异值；关键差异特征和差异值的组合，用于确定目标产品的受众人群和/或优化目标产品。

其中，该差异值可以是TGI(Target Group Index，目标群体指数)、熵以及其它可以衡量各关键差异特征之间差异的指标。

在一个实施例中，当差异值为TGI时，S208具体可以包括：服务器计算候选特征值占对应分类特征的总特征值的比重，得到第一比重；计算数值分段特征占数值特征的比重，得到第二比重；将第一比重与第二比重之间的比值作为对应关键差异特征之间的差异值。

例如，对于某地区的两个不同人群，人群a中有8.9％的人去电影网站A观看电影，而该地区总体人群中有8.9％的人去电影网站A观看电影，则去电影网站A观看电影的差异值为8.9％/6.6％＝1.349。

在一个实施例中，服务器通过关键差异特征和对应的差异值确定目标产品的受众人群，并且向该受众人群的终端推荐该目标产品。以及，服务器通过关键差异特征和差异值的组合来优化目标产品。

例如，当关键差异特征为不同区域的人群观影特征(即观看电影的人群特征)，根据该人群观影特征和不同区域人群观影特征的差异值可确定哪个区域的人群对电影比较感兴趣，从而可以向该人群推荐新上映电影的观看信息。

在一个实施例中，服务器在计算各关键差异特征之间的差异值之后，还会确定各关键差异特征的分布情况。例如，对于多个人群，服务器还会确定关键差异特征在该多个人群中的分布。

在一个实施例中，服务器利用利用计算引擎快速返回关键差异特征之间的差异值，以及两个人群之间的重合度、号码包的相似度和重要差异特征的分布情况。

上述实施例中，只需要获取至少两个人群的人群特征，便可自动识别出至少两个人群之间的差异特征以及对应的重要程度值，对重要的差异特征(即关键差异特征)进行差异值计算，从而可以快速准确地分析出该至少两个人群的差异，提高了人群分析的分析效率。此外，利用差异特征和差异值来确定目标产品的受众人群，可以有效地向该受众人群推荐该目标产品；以及，利用差异特征和差异值来优化目标产品，可以提高该目标产品的质量或曝光率。

在一个实施例中，如图3所示，该方法还包括：

S302，获取至少两个人群的号码包。

其中，该号码包可以是携带用户标识的人群包。

在一个实施例中，S302之前，当不同用户在执行目标产品的交易操作时，服务器采集该不同用户的用户标识以及对应的用户信息，将执行该目标产品的交易操作的所有用户标识分组在同一集合中，得到号码包。其中，该用户信息可以属于人群特征。

例如，用户A₁-A₁₀中，用户A₁-A₅购买目标产品a，则服务器获取该用户A₁-A₅的用户标识和其它用户信息，将用户A₁-A₅的用户标识组合为人群a₁的号码包；用户A₆-A₁₀购买目标产品b，则服务器获取该用户A₆-A₁₀的用户标识和其它用户信息，将用户A₆-A₁₀的用户标识组合为人群a₂的号码包。

S304，将号码包与人群特征进行关联。

具体地，服务器将人群特征进行向量化，得到向量化的人群特征，然后将该号码包与向量化的人群特征建立关联关系或映射关系。

S204具体可以包括：S306，从关联了号码包的人群特征中，确定至少两个人群之间的差异特征以及差异特征的重要程度值。

在一个实施例中，服务器计算关联了号码包的人群特征的重要程度值；从该人群特征中选取至少两个人群之间存在差异的分类特征和数值特征；计算分类特征的候选特征值；以及，将数值特征分段为至少两段数值分段特征。

在一个实施例中，服务器通过分类模型计算关联了号码包的人群特征的重要程度值，并利用分类模型的分类能力对分类特征进行分类处理，得到至少两个人群之间存在差异的分类特征；利用分类模型的分段能力对数值特征进行分段，得到至少两段数值分段特征，并计算分类特征的候选特征值。

例如，对于消费产品B的消费人群，若分析该消费人群的年龄特征、性别特征和工作特征，将消费人群的年龄特征、性别特征和工作特征与对应的号码包进行关联，其中年龄特征为数值特征，性别特征和工作特征为分类特征。那么，服务器通过分类模型分别计算年龄特征、性别特征和工作特征对消费产品B的重要程度值。假设年龄特征的年龄区间为21-40，服务器可以对该年龄特征进行分段，得到21-25、26-30、31-35和35-40等四个分段的年龄分段特征。服务器对人群特征中的分类特征进行分类，得到性别特征和工作特征。

在一个实施例中，服务器将关联号码包的人群特征划分为人群特征训练集和人群特征测试集；利用人群特征训练集构建分类模型；S306具体可以包括：服务器通过分类模型，从关联了号码包的人群特征测试集中确定至少两个人群之间的差异特征以及差异特征的重要程度值。

其中，分类模型可以指将输入的人群特征基于一定规则进行分类的机器学习模型，常用的分类模型可以包括决策树、XGBoost等。

在一个实施例中，服务器对用于构建分类模型的人群特征训练集进行优化，在优化结束时得到优化人群特征训练集，判断优化人群特征训练集是否满足预设的收敛条件，若满足预设的收敛条件，则基于优化人群特征训练集进行分类模型的构建；若不满足预设的收敛条件，则对该优化人群特征训练集再次执行优化过程。

在一个实施例中，服务器计算分类模型的评估指标值；计算各关键差异特征之间的差异值包括：根据评估指标值和设定的指标阈值计算号码包的相似度；根据相似度确定各关键差异特征之间的第一差异值。

其中，上述评估指标值可以是AUC(Area Under Curve，ROC曲线下的面积)值、F1值和KS值。其中，F1值为综合考虑精确率(precision)和召回率(recall)的指标值(metric)，即等于2precision×recall/(precision+recall)。KS值是KS曲线图中两条线之间最大的距离，能反映出分类模型的划分能力。

在一个实施例中，服务器利用相似度计算公式计算号码包的相似度，相似度计算公式如下所示：

其中，metric为评估指标值，threshold为设定的指标阈值，当metric小于threshold时，将metric与threshold之间的比值作为号码包的相似度。当metric大于或等于threshold时，将1-metric与threshold之间的比值作为号码包的相似度。

在一个实施例中，号码包中携带用户标识；该方法还包括：服务器确定各号码包中用户标识的标识数量；根据标识数量计算至少两个人群之间的重合度；以及，依据重合度确定各关键差异特征之间的第二差异值。

在一个实施例中，服务器利用重合度计算公式计算至少两个人群之间的重合度，其中，重合度计算公式如下所示：

overlap＝(A人群∪B人群)/(A人群∪B人群)

上述实施例中，通过建立分类模型，利用分类模型查找人群特征中的差异特征，并计算各差异特征的重要程度值，对重要的差异特征(即关键差异特征)进行差异值计算，从而可以快速准确地分析出该至少两个人群的差异，提高了人群分析的分析效率。

作为一个示例，在本发明实施例中，构建分类模型，通过分类模型从海量人群特征中查找两类人群之间的差异特征，结合计算引擎的实时查询能力量化人群在这些特征上的差异值，如图4所示，详细的过程如下所述：

(1)人群号码包输入：需要分析人员确定待分析的人群号码包，号码包的数量是没有限制的，最少不低于2个。

(2)待分析的人群特征输入：需要分析人员选择待比较的人群特征。

本发明实施例中，支持全量人群特征和指定人群特征两种模式。分析人员可以通过在相应的操作页面选择全量特征项，从而服务器在特征库中获取两个或多个人群的全量人群特征。或者，分析人员可以通过在相应的操作页面选择指定特征项，通过操作页面选择指定人群特征并上传，或从而服务器在特征库中获取两个或多个人群的指定人群特征。

上述这两步完成后，通过特征差异查找模块和特征差异量化模块输出包括差异值的分析结果。其中，特征差异查找模块和特征差异量化模块的执行是自动化完成的，无需人工参与。

(3)特征差异查找：搜索人群的差异特征，输出分类特征差异的候选特征值和数值特征差异的数值差异分段，如图5所示，特征差异查找的过程如下：

a)特征关联，将输入的号码包和人群特征进行关联。

b)划分数据集，将关联的人群特征按一定的比例随机划分成人群特征训练集和人群特征测试集。

c)构建模型，利用人群特征训练集构建分类模型，通过该分类模型计算特征的重要性，并利用分类模型的自动分段能力输出重要程度值达到重要条件的关键差异特征。

其中，该关键差异特征包括候选特征值和数值分段特征，数值分段特征是数值特征分段的结果，如图6所示。

d)输出结果，特征重要程度值、重要程度值达到重要条件的关键差异特征和模型在人群特征测试集上的评估指标。

(4)特征差异量化：评估不同的人群在每个候选特征值或数值分段特征内的差异值，并根据分类模型在人群特征测试集上的评估指标值来评估不同人群之间整体的差异情况。其中，特征差异量化过程，可参考图7所示，具体如下所述：

特征差异量化模块通过计算两个人群在每个关键差异特征内的差异值(包括但不限于TGI、熵等指标)，从而得到各个关键差异特征的量化评估结果(即各个关键差异特征的差异值)。

其中，数值特征的数值分段特征由差异特征查模块中分类模型的自动分段给出，而分类特征的候选特征值由该特征的取值所决定。最后，利用利用计算引擎快速返回关键差异特征之间的差异值，以及两个人群之间的重合度、号码包的相似度(如图8所示)，以及重要差异特征的分布情况，相关指标的计算公式如下所示：

包重合度计算公式：overlap＝(A人群∪B人群)/(A人群∪B人群)

包相似度计算公式：

为了具体说明该算法在人群对比中的应用，以品牌商的消费人群对比的案例为例，介绍本发明的具体应用。

传统方法主要从用户基础属性(年龄、性别、学历、居住城市等)维度分析两个人群的差异情况(号码包重合度和特征差异度)，传统的人群差异分析方法，通常是由各分析人员凭借个人的经验和对业务理解逐步探索完成的，然而，对于海量的人群特征，采用传统的方案将大大降低了人群分析效率。

本发明基于分类模型的方法，整个流程只需要提供两个人群号码包即可完成工作。与现有的方法相比，效率维度上耗时减少了90％；分析维度上，该方法的分析结果中的差异特征不仅包括性别标签和年龄标签等基础属性特征，还包括了消费偏好-家具及床上用品消费笔数和日用品零售偏好等潜在属性特征。此外，该方案还能基于大数据分析，科学地度量两个人群的相似情况(号码包的相似度)。

传统方法和本发明方法的对比结果如表1所示：

表1传统方案与本文方案对比结果

本发明实施例的有益效果在于：

1)自动化：本发明通过构建分类模型，提出了一套自动识别的人群特征差异的方法。该方法简化了前期的特征筛选步骤和后期的人工判定与数据更新步骤，业务人员只需输入要进行比较的两个人群包即可获得详细的人群对比分析结果，大大简化业务流程。

2)人群数不限制：本发明既可以对比两个人群之间的差异，也可以对比多个人群之间的差异情况。

3)人群差异：本发明通过分类模型的评估指标(包括但不限于AUC、F1值、KS值等)标示两类人群是否有差异。

4)人群差异特征：本发明通过分类模型的特征重要性自动筛选两类人群的差异特征。

5)人群差异特征自动分段：本发明通过分类模型的自动分段能力，对数值特征自动分段，并计算人群数值特征在每个分段和分类特征的差异值(包括但不限于TGI、熵等指标)

6)自动化和人工经验结合：本发明支持在全量的特征中自动发现差异，也支持只在分析人员提供的特征中发现差异特征。

7)实时返回结果：本发明采用分类机器学习模型和计算引擎有机结合的方法，做到案例分析流程通用化、即时化、自助化，减轻分析人员工作负担，且提高分析结果输出效率。

图2、3为一个实施例中人群特征分析方法的流程示意图。应该理解的是，虽然图2、3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图9所示，在一个实施例中，提供了一种人群特征分析装置，该人群特征分析装置具体包括：获取模块902、确定模块904、选取模块906和计算模块908；其中：

获取模块902，用于获取至少两个人群的人群特征；

确定模块904，用于从人群特征中确定至少两个人群之间的差异特征以及差异特征的重要程度值；

选取模块906，用于在差异特征中选取重要程度值达到重要条件的关键差异特征；

计算模块908，用于计算各关键差异特征之间的差异值；关键差异特征和差异值的组合，用于确定目标产品的受众人群和/或优化目标产品。

在一个实施例中，人群特征包括分类特征和数值特征；差异特征包括分类特征的候选特征值和数值特征的数值分段特征；确定模块904，还用于：

计算人群特征的重要程度值；

从人群特征中选取至少两个人群之间存在差异的分类特征和数值特征；

计算分类特征的候选特征值；以及，

将数值特征分段为至少两段数值分段特征。

在一个实施例中，确定模块904，还用于：

计算候选特征值占对应分类特征的总特征值的比重，得到第一比重；

计算数值分段特征占数值特征的比重，得到第二比重；

将第一比重与第二比重之间的比值作为对应关键差异特征之间的差异值。

在一个实施例中，如图10所示，该装置还包括：更新模块910；其中：

更新模块910，用于对保存人群特征的特征库进行特征更新；

获取模块902，还用于：确定目标产品；从更新后的特征库中，获取目标产品对应的至少两个人群的人群特征。

在一个实施例中，获取模块902，还用于：

当接收到全量特征选择指令时，从更新后的特征库中，获取目标产品对应的至少两个人群的全量人群特征；

当接收到指定特征选择指令时，根据指定特征选择指令获取目标产品对应的至少两个人群的指定人群特征。

在一个实施例中，如图10所示，该装置还包括：关联模块912；其中：

关联模块912，用于获取至少两个人群的号码包；将号码包与人群特征进行关联；

确定模块904，还用于从关联了号码包的人群特征中，确定至少两个人群之间的差异特征以及差异特征的重要程度值。

在一个实施例中，如图10所示，该装置还包括：划分模块914和构建模块916；其中：

划分模块914，用于将关联号码包的人群特征划分为人群特征训练集和人群特征测试集；

构建模块916，用于利用人群特征训练集构建分类模型；

确定模块904，还用于通过分类模型，从关联了号码包的人群特征测试集中确定至少两个人群之间的差异特征以及差异特征的重要程度值。

在一个实施例中，计算模块908，还用于计算分类模型的评估指标值；根据评估指标值和设定的指标阈值计算号码包的相似度；根据相似度确定各关键差异特征之间的第一差异值。

在一个实施例中，号码包中携带用户标识；确定模块904，还用于确定各号码包中用户标识的标识数量；

计算模块908，还用于根据标识数量计算至少两个人群之间的重合度；以及，

确定模块904，还用于依据重合度确定各关键差异特征之间的第二差异值。

图11示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图11所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现人群特征分析方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行人群特征分析方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的人群特征分析装置可以实现为一种计算机程序的形式，计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该人群特征分析装置的各个程序模块，比如，图9所示的获取模块902、确定模块904、选取模块906和计算模块908。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的人群特征分析方法中的步骤。

例如，图11所示的计算机设备可以通过如图9所示的人群特征分析装置中的获取模块902执行S202。计算机设备可通过确定模块904执行S204。计算机设备可通过选取模块906执行S206。计算机设备可通过计算模块908执行S208。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行：获取至少两个人群的人群特征；从人群特征中确定至少两个人群之间的差异特征以及差异特征的重要程度值；在差异特征中选取重要程度值达到重要条件的关键差异特征；计算各关键差异特征之间的差异值；关键差异特征和差异值的组合，用于确定目标产品的受众人群和/或优化目标产品。

在一个实施例中，人群特征包括分类特征和数值特征；差异特征包括分类特征的候选特征值和数值特征的数值分段特征；计算机程序被处理器执行从人群特征中确定至少两个人群之间的差异特征以及差异特征的重要程度值的步骤时，使得处理器具体执行以下步骤：计算人群特征的重要程度值；从人群特征中选取至少两个人群之间存在差异的分类特征和数值特征；计算分类特征的候选特征值；以及，将数值特征分段为至少两段数值分段特征。

在一个实施例中，计算机程序被处理器执行计算各关键差异特征之间的差异值的步骤时，使得处理器具体执行以下步骤：计算候选特征值占对应分类特征的总特征值的比重，得到第一比重；计算数值分段特征占数值特征的比重，得到第二比重；将第一比重与第二比重之间的比值作为对应关键差异特征之间的差异值。

在一个实施例中，计算机程序被处理器执行时，使得处理器还执行以下步骤：对保存人群特征的特征库进行特征更新；确定目标产品；从更新后的特征库中，获取目标产品对应的至少两个人群的人群特征。

在一个实施例中，计算机程序被处理器执行从更新后的特征库中，获取目标产品对应的至少两个人群的人群特征的步骤时，使得处理器具体执行以下步骤：当接收到全量特征选择指令时，从更新后的特征库中，获取目标产品对应的至少两个人群的全量人群特征；当接收到指定特征选择指令时，根据指定特征选择指令获取目标产品对应的至少两个人群的指定人群特征。

在一个实施例中，计算机程序被处理器执行时，使得处理器还执行以下步骤：获取至少两个人群的号码包；将号码包与人群特征进行关联；从人群特征中确定至少两个人群之间的差异特征以及差异特征的重要程度值包括：从关联了号码包的人群特征中，确定至少两个人群之间的差异特征以及差异特征的重要程度值。

在一个实施例中，计算机程序被处理器执行时，使得处理器还执行以下步骤：将关联号码包的人群特征划分为人群特征训练集和人群特征测试集；利用人群特征训练集构建分类模型；通过分类模型，从关联了号码包的人群特征测试集中确定至少两个人群之间的差异特征以及差异特征的重要程度值。

在一个实施例中，计算机程序被处理器执行时，使得处理器还执行以下步骤：计算分类模型的评估指标值；根据评估指标值和设定的指标阈值计算号码包的相似度；根据相似度确定各关键差异特征之间的第一差异值。

在一个实施例中，号码包中携带用户标识；号码包中携带用户标识；计算机程序被处理器执行时，使得处理器还执行以下步骤：确定各号码包中用户标识的标识数量；根据标识数量计算至少两个人群之间的重合度；以及，依据重合度确定各关键差异特征之间的第二差异值。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：获取至少两个人群的人群特征；从人群特征中确定至少两个人群之间的差异特征以及差异特征的重要程度值；在差异特征中选取重要程度值达到重要条件的关键差异特征；计算各关键差异特征之间的差异值；关键差异特征和差异值的组合，用于确定目标产品的受众人群和/或优化目标产品。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种人群特征分析方法，包括：

获取至少两个人群的人群特征；

2.根据权利要求1所述的方法，其特征在于，所述人群特征包括分类特征和数值特征；所述差异特征包括所述分类特征的候选特征值和所述数值特征的数值分段特征；所述从所述人群特征中确定所述至少两个人群之间的差异特征以及所述差异特征的重要程度值包括：

计算所述人群特征的重要程度值；

从所述人群特征中选取所述至少两个人群之间存在差异的所述分类特征和所述数值特征；

计算所述分类特征的候选特征值；以及，

将所述数值特征分段为至少两段数值分段特征。

3.根据权利要求2所述的方法，其特征在于，所述计算各所述关键差异特征之间的差异值包括：

计算所述候选特征值占对应分类特征的总特征值的比重，得到第一比重；

计算所述数值分段特征占所述数值特征的比重，得到第二比重；

将所述第一比重与所述第二比重之间的比值作为对应所述关键差异特征之间的差异值。

4.根据权利要求1所述的方法，其特征在于，所述获取至少两个人群的人群特征之前，所述方法还包括：

对保存所述人群特征的特征库进行特征更新；

所述获取至少两个人群的人群特征包括：

确定目标产品；

从更新后的特征库中，获取所述目标产品对应的至少两个人群的人群特征。

5.根据权利要求4所述的方法，其特征在于，所述从更新后的特征库中，获取所述目标产品对应的至少两个人群的人群特征包括：

当接收到全量特征选择指令时，从更新后的特征库中，获取所述目标产品对应的至少两个人群的全量人群特征；

所述方法还包括：当接收到指定特征选择指令时，根据所述指定特征选择指令获取所述目标产品对应的至少两个人群的指定人群特征。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述至少两个人群的号码包；

将所述号码包与所述人群特征进行关联；

所述从所述人群特征中确定所述至少两个人群之间的差异特征以及所述差异特征的重要程度值包括：

从关联了所述号码包的人群特征中，确定所述至少两个人群之间的差异特征以及所述差异特征的重要程度值。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将关联所述号码包的人群特征划分为人群特征训练集和人群特征测试集；

利用所述人群特征训练集构建分类模型；

所述从关联了所述号码包的人群特征中，确定所述至少两个人群之间的差异特征以及所述差异特征的重要程度值包括：

通过所述分类模型，从关联了所述号码包的人群特征测试集中确定所述至少两个人群之间的差异特征以及所述差异特征的重要程度值。

8.根据权利要求6或7所述的方法，其特征在于，所述方法还包括：

计算所述分类模型的评估指标值；

所述计算各所述关键差异特征之间的差异值包括：

根据所述评估指标值和设定的指标阈值计算所述号码包的相似度；

根据所述相似度确定各所述关键差异特征之间的第一差异值。

9.根据权利要求8所述的方法，其特征在于，所述号码包中携带用户标识；所述方法还包括：

确定各所述号码包中用户标识的标识数量；

根据所述标识数量计算所述至少两个人群之间的重合度；以及，

依据所述重合度确定各所述关键差异特征之间的第二差异值。

10.一种人群特征分析装置，其特征在于，所述装置包括：

获取模块，用于获取至少两个人群的人群特征；

11.根据权利要求10所述的装置，其特征在于，所述人群特征包括分类特征和数值特征；所述差异特征包括所述分类特征的候选特征值和所述数值特征的数值分段特征；所述确定模块，还用于：

计算所述人群特征的重要程度值；

从所述人群特征中，依据所述重要程度值的大小选取所述至少两个人群之间存在差异的所述分类特征和所述数值特征；

计算所述分类特征的候选特征值；以及，

将所述数值特征分段为至少两段数值分段特征。

12.根据权利要求11所述的装置，其特征在于，所述计算模块，还用于：

13.根据权利要求10所述的装置，其特征在于，所述装置还包括：

更新模块，用于对保存所述人群特征的特征库进行特征更新；

所述获取模块，用于确定目标产品；从更新后的特征库中，获取所述目标产品对应的至少两个人群的人群特征。

14.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。