CN110751516A - 人群特点的确定方法及装置、计算机可读存储介质 - Google Patents
人群特点的确定方法及装置、计算机可读存储介质 Download PDFInfo
- Publication number
- CN110751516A CN110751516A CN201910984590.9A CN201910984590A CN110751516A CN 110751516 A CN110751516 A CN 110751516A CN 201910984590 A CN201910984590 A CN 201910984590A CN 110751516 A CN110751516 A CN 110751516A
- Authority
- CN
- China
- Prior art keywords
- crowd
- category
- behavior
- dimension
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种人群特点的确定方法及装置、计算机可读存储介质,所述人群特点的确定方法,包括:获取人群行为特征数据;按照预设的类别维度对所述人群行为特征数据进行行为特征分类;对行为特征分类后的人群行为特征数据进行聚类,得到目标聚类结果;基于所述目标聚类结果,确定人群的类别;计算每类人群的各类别维度的行为特征的覆盖度以及显著指标;基于所述每类人群的各类别维度的行为特征的覆盖度以及显著指标,确定所述每类人群的人群特点。上述方案,能够提高所确定的人群特点的可解释性及分析精度。
Description
技术领域
本发明实施例涉及数据处理及机器学习技术领域,尤其涉及一种人群特点的确定方法及装置、计算机可读存储介质。
背景技术
在大数据时代,可以基于不同业务场景,获取业务场景中与用户相关的用户数据,并基于获取的用户数据进行人群特点分析,根据人群特点分析结果可以进行产品研发或者精准营销等。
目前,通常采用对用户数据进行聚类的方式得到人群特点。然而,仅根据聚类得到的人群特点的可解释较差,且人群特点的分析精度较低。
发明内容
本发明实施例解决的技术问题是仅根据聚类得到的人群特点的可解释性较差及分析精度较低。
为解决上述技术问题,本发明实施例提供一种人群特点的确定方法,包括:获取人群行为特征数据;按照预设的类别维度对所述人群行为特征数据进行行为特征分类;对行为特征分类后的人群行为特征数据进行聚类,得到目标聚类结果;基于所述目标聚类结果,确定人群的类别;计算每类人群的各类别维度的行为特征的覆盖度以及显著指标;基于所述每类人群的各类别维度的行为特征的覆盖度以及显著指标,确定所述每类人群的人群特点。
可选的,所述对行为特征分类后的人群行为特征数据进行聚类,得到目标聚类结果,包括:计算每次聚类对应的Calinski-Harabasz分数和轮廓系数;若所有聚类对应的Calinski-Harabasz分数和轮廓系数中的最大值远大于其他值,选择Calinski-Harabasz分数和轮廓系数取最大值时对应的聚类数目作为目标聚类结果;若所有聚类对应的Calinski-Harabasz分数和轮廓系数的最大值不显著大于其他值,选择第a+1次对应的Calinski-Harabasz分数和轮廓系数较第a次显著变小的第a次聚类结果对应的聚类数目作为目标聚类结果。
可选的,所述显著指标包括如下任一种:显著性指数及关联指数。
可选的,所述显著指标包括显著性指数,所述基于所述每类人群的各类别的行为特征的覆盖度以及显著指标,确定各类别人群的人群特点,包括:筛选出每类人群的各类别维度的行为特征的覆盖度以及显著性指数满足设定条件的行为特征;将覆盖度以及显著性指数满足设定条件的行为特征作为所述各类人群的人群特点。
可选的,所述显著指标包括显著性指数,所述基于所述每类人群的各类别的行为特征的覆盖度以及显著指标,确定所述每类人群的人群特点,包括:基于每类人群的各类别维度的行为特征的覆盖度以及显著性指数,计算每类人群对各类别维度的偏好程度;根据每类人群对各类别维度的偏好程度确定每类人群的人群特点。
可选的,采用如下公式计算每类人群对各类别维度的偏好程度:其中,Qk,i为第k类人群对第i类别维度的偏好程度;J为显著性指数满足预设条件的行为特征的总数目;j为显著性指数满足预设条件的行为特征的编号;Mk,j为第k类人群对行为特征j的覆盖度;Nk,j为第k类人群对行为特征j的显著性指数。
可选的,所述根据每类人群对各类别维度的偏好程度确定每类人群的人群特点,包括:获取所有类人群分别对每个类别维度的偏好程度的最大值及最小值;根据每个类别维度的偏好程度的最大值及最小值,对每类人群分别对每个类别维度的偏好程度进行归一化,得到每类人群分别对每个类别维度的归一化的偏好程度;根据每类人群分别对每个类别维度的归一化的偏好程度,确定每类人群的人群特点。
可选的,采用如下公式对每类人群分别对每个类别维度的偏好程度进行归一化:其中,为第k类人群对第i类别维度的归一化的偏好程度;Qk,i为第k类人群对第i类别维度的偏好程度;minQi为第i类别维度的偏好程度的最小值;maxQi为第i类别维度的偏好程度的最大值。
可选的,所述显著指标包括关联指数,所述基于所述每类人群的各类别的行为特征的覆盖度以及显著指标,确定每类人群的人群特点,包括:分别计算每类人群的各个类别维度的行为特征之间的关联指数,其中,关联指数包括:每类人群的各个类别维度的行为特征之间的支持度、置信度以及提升度;根据每类人群的各个类别维度的行为特征之间关联指数,对每类人群的各个类别维度的行为特征进行关联规则分析;根据每类人群的各个类别维度的行为特征之间的进行关联规则分析结果,将覆盖度满足预设覆盖度阈值、置信度不等于支持度、置信度不等于0或1,提升度满足预设提升度阈值的行为特征,作为每类人群的人群特点。
可选的,,所述类别维度属于活动类别和属性类别中的任一种,其中:所述活动类别包括以下至少一种类别维度:运动健身、影音游戏、美食健康、线上社交、拍摄美颜、金融理财、新闻阅读、工作学习、购物偏好、度假出行及汽车偏好;所述属性类别包括以下至少一种类别维度:家庭生命周期、居住地、性别、收入水平及消费能力、教育、职业。
可选的,所述对行为特征分类后的人群行为特征数据进行聚类,包括:采用K-Means聚类算法对行为特征分类后的人群行为特征数据进行聚类。
本发明实施例还提供一种人群特点的确定装置,包括:获取单元,适于获取人群行为特征数据;第一分类单元,适于按照预设的类别维度对所述人群行为特征数据进行行为特征分类;聚类单元,适于对行为特征分类后的人群行为特征数据进行聚类,得到目标聚类结果;第二分类单元,适于基于所述目标聚类结果,确定人群的类别;计算单元,适于计算每类人群的各类别维度的行为特征的覆盖度以及显著指标;确定单元,适于基于所述每类人群的各类别维度的行为特征的覆盖度以及显著指标,确定所述每类人群的人群特点。
可选的,所述聚类单元,适于计算每次聚类对应的Calinski-Harabasz分数和轮廓系数;若所有聚类对应的Calinski-Harabasz分数和轮廓系数中的最大值远大于其他值,选择Calinski-Harabasz分数和轮廓系数取最大值时对应的聚类数目作为目标聚类结果;若所有聚类对应的Calinski-Harabasz分数和轮廓系数的最大值不显著大于其他值,选择第a+1次对应的Calinski-Harabasz分数和轮廓系数较第a次显著变小的第a次聚类结果对应的聚类数目作为目标聚类结果。
可选的,所述显著指标包括如下任一种:显著性指数及关联指数。
可选的,所述显著指标包括显著性指数,所述确定单元,适于筛选出每类人群的各类别维度的行为特征的覆盖度以及显著性指数满足设定条件的行为特征;将覆盖度以及显著性指数满足设定条件的行为特征作为所述各类人群的人群特点。
可选的,所述显著指标包括显著性指数,所述确定单元,适于基于每类人群的各类别维度的行为特征的覆盖度以及显著性指数,计算每类人群对各类别维度的偏好程度;根据每类人群对各类别维度的偏好程度确定每类人群的人群特点。
可选的,所述确定单元,适于采用如下公式计算每类人群对各类别维度的偏好程度:其中,Qk,i为第k类人群对第i类别维度的偏好程度;J为显著性指数满足预设条件的行为特征的总数目;j为显著性指数满足预设条件的行为特征的编号。
可选的,所述确定单元,适于获取所有类人群分别对每个类别维度的偏好程度的最大值及最小值;根据每个类别维度的偏好程度的最大值及最小值,对每类人群分别对每个类别维度的偏好程度进行归一化,得到每类人群分别对每个类别维度的归一化的偏好程度;根据每类人群分别对每个类别维度的归一化的偏好程度,确定每类人群的人群特点。
可选的,所述确定单元,适于采用如下公式计算每类人群对各类别维度的偏好程度:其中,为第k类人群对第i类别维度的归一化的偏好程度;Qk,i为第k类人群对第i类别维度的偏好程度;minQi为第i类别维度的偏好程度的最小值;maxQi为第i类别维度的偏好程度的最大值。
可选的,所述显著指标包括关联指数,所述确定单元,适于分别计算每类人群的各个类别维度的行为特征之间的关联指数,其中,关联指数包括:每类人群的各个类别维度的行为特征之间的支持度、置信度以及提升度;根据每类人群的各个类别维度的行为特征之间关联指数,对每类人群的各个类别维度的行为特征进行关联规则分析;根据每类人群的各个类别维度的行为特征之间的进行关联规则分析结果,将覆盖度满足预设覆盖度阈值、置信度不等于支持度、置信度不等于0或1,提升度满足预设提升度阈值的行为特征,作为每类人群的人群特点。
可选的,所述类别维度属于活动类别和属性类别中的任一种,其中:所述活动类别包括以下至少一种类别维度:运动健身、影音游戏、美食健康、线上社交、拍摄美颜、金融理财、新闻阅读、工作学习、购物偏好、度假出行及汽车偏好;所述属性类别包括以下至少一种类别维度:家庭生命周期、居住地、性别、收入水平及消费能力、教育、职业。
可选的,所述聚类单元,适于采用K-Means聚类算法对行为特征分类后的人群行为特征数据进行聚类。
本发明实施例还提供另一种人群特点的确定装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行本发明实施例提供的上述任一种人群特点的确定方法的步骤。
本发明实施例提供一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,所述计算机指令运行时执行本发明实施例提供的上述任一种人群特点的确定方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
按照预定的类别维度对人群行为数据进行行为特征分类,基于行为特征分类后的人群行为特征数据进行聚类,以对人群进行分类。根据每类人群的各类别维度的行为特征的覆盖度以及显著指标,确定每类人群的人群特点,由于采用定量的方式,并根据每类人群的各类别维度的行为特征的覆盖度以及显著指标,确定各类人群的人群特点,从而可以提高所确定的人群特点的可解释性及分析精度。
附图说明
图1是本发明实施例中的一种人群特点的确定方法的流程图;
图2是本发明实施例中的一种人群特点的确定装置的结构示意图。
具体实施方式
如上所述,目前,通常采用对用户数据进行聚类的方式得到人群特点。然而,仅根据聚类得到的人群特点的可解释较差,且人群特点的分析精度较低。
在本发明实施例中,按照预定的类别维度对人群行为数据进行行为特征分类,基于行为特征分类后的人群行为特征数据进行聚类,以对人群进行分类。根据每类人群的各类别维度的行为特征的覆盖度以及显著性指数,确定每类人群的人群特点,由于采用定量的方式,并根据每类人群的各类别维度的行为特征的覆盖度以及显著性指数,确定各类人群的人群特点,从而可以提高所确定的人群特点的可解释性及分析精度。
为使本发明实施例的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
参照图1,给出了本发明实施例中的一种人群特点确定方法的流程图。具体可以包括如下步骤:
步骤11,获取人群行为特征数据。
在具体实施中,所获取的人群行为特征数据可以来自于手机、平板电脑、笔记本电脑等终端设备上安装的应用软件。当用户操作应用软件或者浏览一些网站时,均会产生对应的操作数据,在得到用户授权的情况下,可以获取上述操作数据作为人群行为数据。
步骤12,按照预设的类别维度对所述人群行为特征数据进行行为特征分类。
在具体实施中,在获取到人群行为特征数据之后,可以按照预设的类别维度对人群行为特征数据进行行为特征划分。
在具体实施中,类别维度可以基于AIO框架得到,其中AIO是一种普遍的生活形态测量方式,用以测量、还原消费者生活方式的全貌,A表示活动,I表示兴趣,O表示意见。A包括工作、爱好、社交、社区、社团等维度;I包括家庭、职务、食物、媒体等维度;O包括社会问题、经济、教育等子维度。
在本发明实施例中,类别维度属于活动类别和属性类别中的任一种,也即可以将人群行为特征划分为活动类别和属性类别。活动类别可以包括以下至少一种类别维度:运动健身、影音游戏、美食健康、线上社交、拍摄美颜、金融理财、新闻阅读、工作学习、购物偏好、度假出行及汽车偏好。属性类别包括以下至少一种类别维度:家庭生命周期、居住地、性别、收入水平及消费能力、教育、职业。可以理解的是,根据实际应用场景需求,还可以包括其他类别维度,此处不再一一举例说明。
因此,基于AIO确定类别维度可以提高对人群行为特征数据进行行为特征分类时的理论框架支撑。
在具体实施中,当类别维度的总数目为17个时,也即分别为运动健身、影音游戏、美食健康、线上社交、拍摄美颜、金融理财、新闻阅读、工作学习、购物偏好、度假出行、汽车偏好、家庭生命周期、居住地、性别、收入水平及消费能力、教育、职业。在对人群行为特征进行行为特征分类时,可以将人群行为特征数据划分到上述17个类别维度。
在本发明实施例中,在对人群行为特征数据进行行为特征分类时,为了便于分类,每个类别维度可以对应有相应的行为特征,各类别维度对应的行为特征的数量之间的差异应当控制在较小的范围,且每个行为特征的细分层级应当保持一致。例如,爱看电影和爱唱歌属于同一细分层级,爱看电影和爱看某部电影属于不同的细分层级。可以根据每个类别维度对应的行为特征对人群行为特征数据进行分类。
步骤13,对行为特征分类后的人群行为特征数据进行聚类,得到目标聚类结果。
在具体实施中,可以采用多种方式对行为特征分类后的人群行为特征数据进行聚类,得到目标聚类结果。
在本发明实施例中,可以采用K-Means聚类算法对行为特征分类后的人群行为特征数据进行聚类。
在具体实施中,设定聚类个数上限M,利用K-Means进行聚类个数为2~M的M-1次聚类,计算每次聚类结果的Calinski-Harabasz分数和轮廓系数。根据每次聚类结果的Calinski-Harabasz分数和轮廓系数可以确定最优聚类结果,也即确定目标聚类结果。
在本发明一实施例中,若所有聚类对应的Calinski-Harabasz分数和轮廓系数中的最大值远大于其他值,选择Calinski-Harabasz分数和轮廓系数取最大值时对应的聚类数目作为目标聚类结果。
在本发明另一实施例中,若所有聚类对应的Calinski-Harabasz分数和轮廓系数的最大值不显著大于其他值,选择第a+1次对应的Calinski-Harabasz分数和轮廓系数较第a次显著变小的第a次聚类结果对应的聚类数目作为目标聚类结果,也即选择相邻两次聚类对应的Calinski-Harabasz分数的差值、以及轮廓系数的差值均最大的两次聚类中Calinski-Harabasz分数和轮廓系数均较大的聚类最为目标聚类结果。
例如,在10次聚类中,最大的Calinski-Harabasz分数和轮廓系数并没有显著大于其他值,而第6次和第5次分别对应的Calinski-Harabasz分数和轮廓系数的差值最大,且第6次对应的Calinski-Harabasz分数和轮廓系数显著小于第5次对应的Calinski-Harabasz分数和轮廓系数,取第5次聚类对应的聚类结果作为目标聚类结果。
Calinski Harabasz分数和轮廓系数是衡量聚类效果好坏的两种方法。CalinskiHarabasz分数和轮廓系数的值越大,表示聚类效果越好,其中轮廓系数的取值范围为[-1,1]。
在本发明实施例中,CalinskiHarabasz分数可以采用如下公式(1)确定:
其中,C(l)为第l次聚类对应的CalinskiHarabasz分数,m人群行为特征数据总数目,l为聚类个数,Bl为不同类别之间的协方差矩阵,Wl为类别内部的协方差矩阵,tr为矩阵的迹。
轮廓系数可以采用如下公式(2)确定:
其中,s(l)为第l次聚类对应的轮廓系数;αj为行为特征j与所属类的人群的所有的行为特征的平均距离;βj为行为特征j与距其最近的其他类的人群的所有行为特征的平均距离。
步骤14,基于所述目标聚类结果,确定人群的类别。
在具体实施中,可以根据目标聚类结果,确定分类的数目,从而确定人群的类别。
例如,第5次聚类为最优聚类,将第5次聚类的聚类结果作为目标聚类结果,第5次聚类的得到的聚类数目3作为对人群分类的数目,也即确定人群的类别为3类。
步骤15,计算每类人群的各类别维度的行为特征的覆盖度以及显著指标。
在具体实施中,在对人群进行分类后,可以根据人群的类别分类结果,计算每类人群的各类别维度的行为特征的覆盖度以及显著指标。
在本发明实施例中,显著指标可以包括显著性指数以及关联指数中的任一种。
在具体实施中,可以根据每类人群中具有某一行为特征的人数与该类人群的总数,计算得到每类人群的各类别维度的行为特征的覆盖度。可以根据每类人群中某一特征的覆盖度与总人群下该特征的覆盖度,计算得到每类人群的各类别维度的行为特征的显著性指数。
在本发明实施例中,可以采用如下公式(3)计算每类人群的各类别维度的行为特征的覆盖度,采用如下公式(4)计算每类人群的各类别维度的行为特征的显著性指数:
其中,Mk,j为第k类人群第j行为特征的覆盖度;ej为第k类人群具有第j行为特征的数目;Ej为第k类人群的总数目;Nk,j为第k类人群第j行为特征的显著性;Mj为总人群下第j行为特征的覆盖度。
例如,覆盖度取值范围为[0,1],定义[0.2,0.5)为低覆盖度,[0.5,1]为高覆盖度,[0,0.2)为不显著特征。可以理解的是,根据实际应用场景需求设定相应的阈值对覆盖度进行高覆盖度、低覆盖度的划分。
又如,显著性指数取值范围为[-1,1],定义[-1,-0.5]及[0.5,1]为高显著性特征。可以理解的是,可根据实际应用场景需求设定相应的阈值对高显著性特征、低显著性特征和不显著特征进行划分。
步骤16,基于所述每类人群的各类别维度的行为特征的覆盖度以及显著指标,确定所述每类人群的人群特点。
在具体实施中,基于每类人群的各类别维度的行为特征的覆盖度以及显著指标,确定所述每类人群的人群特点时,可以采用多种方式,以下进行举例说明:
在本发明一实施例中,显著指标包括显著性指数,筛选出每类人群的各类别维度的行为特征的覆盖度以及显著性指数满足设定条件的行为特征;将覆盖度以及显著性指数满足设定条件的行为特征作为所述各类人群的人群特点。
例如,可以筛选出同时满足高覆盖度、高显著性的行为特征作为该人群的显著特点,也可以筛选出满足低覆盖度、高显著性的行为特征作为该人群的次显著特点。
在本发明另一实施例中,显著指标包括显著性指数,基于每类人群的各类别维度的行为特征的覆盖度以及显著性指数,计算每类人群对各类别维度的偏好程度;根据每类人群对各类别维度的偏好程度确定每类人群的人群特点。
在具体实施中,采用如下公式(5)计算每类人群对各类别维度的偏好程度:
其中,Qk,i为第k类人群对第i类别维度的偏好程度;J为显著性指数满足预设条件的行为特征的总数目;j为显著性指数满足预设条件的行为特征的编号;Mk,j为第k类人群对行为特征j的覆盖度;Nk,j为第k类人群对行为特征j的显著性指数。
在具体实施中,根据每类人群对各类别维度的偏好程度确定每类人群的人群特点时,为了提高可比性,在本发明实施例中,获取所有类人群分别对每个类别维度的偏好程度的最大值及最小值;根据每个类别维度的偏好程度的最大值及最小值,对每类人群分别对每个类别维度的偏好程度进行归一化,得到每类人群分别对每个类别维度的归一化的偏好程度;根据每类人群分别对每个类别维度的归一化的偏好程度,确定每类人群的人群特点。
在本发明实施例中,在每类人群中,可以将偏好程度最高的类别维度或者将偏好程度排行前几名的类别维度作为这类人群的人群特点。例如,在确定第二类人群的偏好程度时,可以将偏好程度排行第一的汽车偏好以及排行第二的度假出行作为第二类人群的人群特点。
在具体实施中,采用如下公式(6)对每类人群分别对每个类别维度的偏好程度进行归一化:
在本发明另一实施例中,显著指标包括关联指数,分别计算每类人群的各个类别维度的行为特征之间的关联指数,其中,关联指数包括:每类人群的各个类别维度的行为特征之间的支持度、置信度以及提升度;根据每类人群的各个类别维度的行为特征之间关联指数,对每类人群的各个类别维度的行为特征进行关联规则分析;根据每类人群的各个类别维度的行为特征之间的进行关联规则分析结果,将覆盖度满足预设覆盖度阈值、置信度不等于支持度、置信度不等于0或1,提升度满足预设提升度阈值的行为特征,作为每类人群的人群特点。
在具体实施中,关联规则是挖掘项目之间关联关系的一种方法,具有方向性。例如,以行为特征A和行为特征B为例,通常表示为A→B,其含义为包含A则会包含B。关联规则挖掘的第一阶段是从原始记录集合中,找出所有高频项目组。项目组出现的频率称为支持度,以一个包含A与B两个项目的2项目组为例,若支持度大于等于预设阈值时,则{A,B}称为高频2项目组。算法从k项目组中再产生k+1项目组,直到无法再找到更长的高频项目组为止。关联规则挖掘的第二阶段是产生关联规则,利用前一步骤的高频k项目组来产生规则,在最小置信度的条件下,若一规则所求得的置信度满足最小置信度,称此规则为关联规则。例如,经由高频2项目组{A,B}所产生的规则A→B,其置信度为所有记录中包含A的情况下包含B的百分比。若置信度大于等于最小置信度阈值,则称A→B为关联规则。
在具体实施中,可以采用如下公式(6)计算支持度,采用如下公式(7)计算置信度,采用如下公式(8)计算提升度:
confidence(A→B)=P(B|A); (7)
其中,support(A→B)为行为特征A对行为特征B的支持度;P(A,B)为同时包括行为特征A和行为特征B的概率;I指所有行为特征的集合,P(I)=1;confidence(A→B)为行为特征A对行为特征B的置信度,P(B|A)为在行为特征A存在的情况下行为特征B存在的概率;lift(A,B)为行为特征A对行为特征B的提升度;P(B)为行为特征B发生的概率。
由上述方案可知,按照预定的类别维度对人群行为数据进行行为特征分类,基于行为特征分类后的人群行为特征数据进行聚类,以对人群进行分类。根据每类人群的各类别维度的行为特征的覆盖度以及显著指标,确定每类人群的人群特点,由于采用定量的方式,并根据每类人群的各类别维度的行为特征的覆盖度以及显著指标,确定各类人群的人群特点,从而可以提高所确定的人群特点的可解释性及分析精度。
在具体实施时,基于本发明上述实施例提供的人群特点的确定方法所确定的人群特点,进行产品设计以及商品营销等业务,可以使得所设计的产品可以更加符合一些类型人群的需求,还可以根据人群特点进行有针对性的进行商品营销,提高营销效果。
为了便于本领域技术人员更好的理解和实现本发明实施例,本发明实施例还提供一种人群特点的确定装置。
参照图2,给出了本发明实施例中的一种人群特点的确定装置的结构示意图。人群特点的确定装置20可以包括:获取单元21、第一分类单元22、聚类单元23、第二分类单元24、计算单元25及确定单元26,其中:
获取单元21,适于获取人群行为特征数据;
第一分类单元22,适于按照预设的类别维度对所述人群行为特征数据进行行为特征分类;
聚类单元23,适于对行为特征分类后的人群行为特征数据进行聚类,得到目标聚类结果;
第二分类单元24,适于基于所述目标聚类结果,确定人群的类别;
计算单元25,适于计算每类人群的各类别维度的行为特征的覆盖度以及显著指标;
确定单元26,适于基于所述每类人群的各类别维度的行为特征的覆盖度以及显著指标,确定所述每类人群的人群特点。
在具体实施中,所述聚类单元23,适于计算每次聚类对应的Calinski-Harabasz分数和轮廓系数;若所有聚类对应的Calinski-Harabasz分数和轮廓系数中的最大值远大于其他值,选择Calinski-Harabasz分数和轮廓系数取最大值时对应的聚类数目作为目标聚类结果;若所有聚类对应的Calinski-Harabasz分数和轮廓系数的最大值不显著大于其他值,选择第a+1次对应的Calinski-Harabasz分数和轮廓系数较第a次显著变小的第a次聚类结果对应的聚类数目作为目标聚类结果。
所述显著指标包括如下任一种:显著性指数及关联指数。
在具体实施中,所述显著指标包括显著性指数,所述确定单元26,适于筛选出每类人群的各类别维度的行为特征的覆盖度以及显著性指数满足设定条件的行为特征;将覆盖度以及显著性指数满足设定条件的行为特征作为所述各类人群的人群特点。
在具体实施中,所述显著指标包括显著性指数,所述确定单元26,适于基于每类人群的各类别维度的行为特征的覆盖度以及显著性指数,计算每类人群对各类别维度的偏好程度;根据每类人群对各类别维度的偏好程度确定每类人群的人群特点。
在具体实施中,所述确定单元26,适于采用如下公式计算每类人群对各类别维度的偏好程度:其中,Qk,i为第k类人群对第i类别维度的偏好程度;J为显著性指数满足预设条件的行为特征的总数目;j为显著性指数满足预设条件的行为特征的编号。
在具体实施中,所述确定单元26,适于获取所有类人群分别对每个类别维度的偏好程度的最大值及最小值;根据每个类别维度的偏好程度的最大值及最小值,对每类人群分别对每个类别维度的偏好程度进行归一化,得到每类人群分别对每个类别维度的归一化的偏好程度;根据每类人群分别对每个类别维度的归一化的偏好程度,确定每类人群的人群特点。
在具体实施中,所述确定单元26,适于采用如下公式计算每类人群对各类别维度的偏好程度:其中,为第k类人群对第i类别维度的归一化的偏好程度;Qk,i为第k类人群对第i类别维度的偏好程度;minQi为第i类别维度的偏好程度的最小值;maxQi为第i类别维度的偏好程度的最大值。
在具体实施中,所述显著指标包括关联指数,所述确定单元26,适于分别计算每类人群的各个类别维度的行为特征之间的关联指数,其中,关联指数包括:每类人群的各个类别维度的行为特征之间的支持度、置信度以及提升度;根据每类人群的各个类别维度的行为特征之间关联指数,对每类人群的各个类别维度的行为特征进行关联规则分析;根据每类人群的各个类别维度的行为特征之间的进行关联规则分析结果,将覆盖度满足预设覆盖度阈值、置信度不等于支持度、置信度不等于0或1,提升度满足预设提升度阈值的行为特征,作为每类人群的人群特点。
在具体实施中,所述类别维度属于活动类别和属性类别中的任一种,其中:所述活动类别包括以下至少一种类别维度:运动健身、影音游戏、美食健康、线上社交、拍摄美颜、金融理财、新闻阅读、工作学习、购物偏好、度假出行及汽车偏好;所述属性类别包括以下至少一种类别维度:家庭生命周期、居住地、性别、收入水平及消费能力、教育、职业。
在具体实施中,所述聚类单元23,适于采用K-Means聚类算法对行为特征分类后的人群行为特征数据进行聚类。
在具体实施中,人群特点的确定装置20的工作原理及工作流程可以参考本发明上述实施例提供的人群特点的确定方法中的描述,此处不再赘述。
本发明实施例还提供另一种人群特点的确定装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行本发明上述任一实施例提供的人群特点的确定方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,所述计算机指令运行时执行本发明上述任一实施例提供的人群特点的确定方法的步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于任一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (24)
1.一种人群特点的确定方法,其特征在于,包括:
获取人群行为特征数据;
按照预设的类别维度对所述人群行为特征数据进行行为特征分类;
对行为特征分类后的人群行为特征数据进行聚类,得到目标聚类结果;
基于所述目标聚类结果,确定人群的类别;
计算每类人群的各类别维度的行为特征的覆盖度以及显著指标;
基于所述每类人群的各类别维度的行为特征的覆盖度以及显著指标,确定所述每类人群的人群特点。
2.根据权利要求1所述的人群特点的确定方法,其特征在于,所述对行为特征分类后的人群行为特征数据进行聚类,得到目标聚类结果,包括:
计算每次聚类对应的Calinski-Harabasz分数和轮廓系数;
若所有聚类对应的Calinski-Harabasz分数和轮廓系数中的最大值远大于其他值,选择Calinski-Harabasz分数和轮廓系数取最大值时对应的聚类数目作为目标聚类结果;
若所有聚类对应的Calinski-Harabasz分数和轮廓系数的最大值不显著大于其他值,选择第a+1次对应的Calinski-Harabasz分数和轮廓系数较第a次显著变小的第a次聚类结果对应的聚类数目作为目标聚类结果。
3.根据权利要求2所述的人群特点的确定方法,其特征在于,所述显著指标包括如下任一种:显著性指数及关联指数。
4.根据权利要求3所述的人群特点的确定方法,其特征在于,所述显著指标包括显著性指数,所述基于所述每类人群的各类别的行为特征的覆盖度以及显著指标,确定各类别人群的人群特点,包括:
筛选出每类人群的各类别维度的行为特征的覆盖度以及显著性指数满足设定条件的行为特征;
将覆盖度以及显著性指数满足设定条件的行为特征作为所述各类人群的人群特点。
5.根据权利要求3所述的人群特点的确定方法,其特征在于,所述显著指标包括显著性指数,所述基于所述每类人群的各类别的行为特征的覆盖度以及显著指标,确定所述每类人群的人群特点,包括:
基于每类人群的各类别维度的行为特征的覆盖度以及显著性指数,计算每类人群对各类别维度的偏好程度;
根据每类人群对各类别维度的偏好程度确定每类人群的人群特点。
7.根据权利要求5所述的人群特点的确定方法,其特征在于,所述根据每类人群对各类别维度的偏好程度确定每类人群的人群特点,包括:
获取所有类人群分别对每个类别维度的偏好程度的最大值及最小值;
根据每个类别维度的偏好程度的最大值及最小值,对每类人群分别对每个类别维度的偏好程度进行归一化,得到每类人群分别对每个类别维度的归一化的偏好程度;
根据每类人群分别对每个类别维度的归一化的偏好程度,确定每类人群的人群特点。
9.根据权利要求3所述的人群特点的确定方法,其特征在于,所述显著指标包括关联指数,所述基于所述每类人群的各类别的行为特征的覆盖度以及显著指标,确定每类人群的人群特点,包括:
分别计算每类人群的各个类别维度的行为特征之间的关联指数,其中,关联指数包括:每类人群的各个类别维度的行为特征之间的支持度、置信度以及提升度;
根据每类人群的各个类别维度的行为特征之间关联指数,对每类人群的各个类别维度的行为特征进行关联规则分析;
根据每类人群的各个类别维度的行为特征之间的进行关联规则分析结果,将覆盖度满足预设覆盖度阈值、置信度不等于支持度、置信度不等于0或1,提升度满足预设提升度阈值的行为特征,作为每类人群的人群特点。
10.根据权利要求1~9任一项所述的人群特点的确定方法,其特征在于,所述类别维度属于活动类别和属性类别中的任一种,其中:
所述活动类别包括以下至少一种类别维度:运动健身、影音游戏、美食健康、线上社交、拍摄美颜、金融理财、新闻阅读、工作学习、购物偏好、度假出行及汽车偏好;
所述属性类别包括以下至少一种类别维度:家庭生命周期、居住地、性别、收入水平及消费能力、教育、职业。
11.根据权利要求1~9任一项所述的人群特点的确定方法,其特征在于,所述对行为特征分类后的人群行为特征数据进行聚类,包括:采用K-Means聚类算法对行为特征分类后的人群行为特征数据进行聚类。
12.一种人群特点的确定装置,其特征在于,包括:
获取单元,适于获取人群行为特征数据;
第一分类单元,适于按照预设的类别维度对所述人群行为特征数据进行行为特征分类;
聚类单元,适于对行为特征分类后的人群行为特征数据进行聚类,得到目标聚类结果;
第二分类单元,适于基于所述目标聚类结果,确定人群的类别;
计算单元,适于计算每类人群的各类别维度的行为特征的覆盖度以及显著指标;
确定单元,适于基于所述每类人群的各类别维度的行为特征的覆盖度以及显著指标,确定所述每类人群的人群特点。
13.根据权利要求12所述的人群特点的确定装置,其特征在于,所述聚类单元,适于计算每次聚类对应的Calinski-Harabasz分数和轮廓系数;若所有聚类对应的Calinski-Harabasz分数和轮廓系数中的最大值远大于其他值,选择Calinski-Harabasz分数和轮廓系数取最大值时对应的聚类数目作为目标聚类结果;若所有聚类对应的Calinski-Harabasz分数和轮廓系数的最大值不显著大于其他值,选择第a+1次对应的Calinski-Harabasz分数和轮廓系数较第a次显著变小的第a次聚类结果对应的聚类数目作为目标聚类结果。
14.根据权利要求13所述的人群特点的确定装置,其特征在于,所述显著指标包括如下任一种:显著性指数及关联指数。
15.根据权利要求14所述的人群特点的确定装置,其特征在于,所述显著指标包括显著性指数,所述确定单元,适于筛选出每类人群的各类别维度的行为特征的覆盖度以及显著性指数满足设定条件的行为特征;将覆盖度以及显著性指数满足设定条件的行为特征作为所述各类人群的人群特点。
16.根据权利要求14所述的人群特点的确定装置,其特征在于,所述显著指标包括显著性指数,所述确定单元,适于基于每类人群的各类别维度的行为特征的覆盖度以及显著性指数,计算每类人群对各类别维度的偏好程度;根据每类人群对各类别维度的偏好程度确定每类人群的人群特点。
18.根据权利要求16所述的人群特点的确定装置,其特征在于,所述确定单元,适于获取所有类人群分别对每个类别维度的偏好程度的最大值及最小值;根据每个类别维度的偏好程度的最大值及最小值,对每类人群分别对每个类别维度的偏好程度进行归一化,得到每类人群分别对每个类别维度的归一化的偏好程度;根据每类人群分别对每个类别维度的归一化的偏好程度,确定每类人群的人群特点。
20.根据权利要求14所述的人群特点的确定装置,其特征在于,所述显著指标包括关联指数,所述确定单元,适于分别计算每类人群的各个类别维度的行为特征之间的关联指数,其中,关联指数包括:每类人群的各个类别维度的行为特征之间的支持度、置信度以及提升度;根据每类人群的各个类别维度的行为特征之间关联指数,对每类人群的各个类别维度的行为特征进行关联规则分析;根据每类人群的各个类别维度的行为特征之间的进行关联规则分析结果,将覆盖度满足预设覆盖度阈值、置信度不等于支持度、置信度不等于0或1,提升度满足预设提升度阈值的行为特征,作为每类人群的人群特点。
21.根据权利要求12~20任一项所述的人群特点的确定装置,其特征在于,所述类别维度属于活动类别和属性类别中的任一种,其中:所述活动类别包括以下至少一种类别维度:运动健身、影音游戏、美食健康、线上社交、拍摄美颜、金融理财、新闻阅读、工作学习、购物偏好、度假出行及汽车偏好;所述属性类别包括以下至少一种类别维度:家庭生命周期、居住地、性别、收入水平及消费能力、教育、职业。
22.根据权利要求12~20任一项所述的人群特点的确定装置,其特征在于,所述聚类单元,适于采用K-Means聚类算法对行为特征分类后的人群行为特征数据进行聚类。
23.一种人群特点的确定装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至11任一项所述的人群特点的确定方法的步骤。
24.一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至11任一项所述的人群特点的确定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910984590.9A CN110751516A (zh) | 2019-10-16 | 2019-10-16 | 人群特点的确定方法及装置、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910984590.9A CN110751516A (zh) | 2019-10-16 | 2019-10-16 | 人群特点的确定方法及装置、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110751516A true CN110751516A (zh) | 2020-02-04 |
Family
ID=69278561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910984590.9A Pending CN110751516A (zh) | 2019-10-16 | 2019-10-16 | 人群特点的确定方法及装置、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110751516A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818482A (zh) * | 2017-11-22 | 2018-03-20 | 用友金融信息技术股份有限公司 | 目标群体的显著特征的计算方法、系统及计算机设备 |
CN108109004A (zh) * | 2017-12-18 | 2018-06-01 | 北京三快在线科技有限公司 | 相似人群扩展方法、装置及电子设备 |
CN109272009A (zh) * | 2018-07-23 | 2019-01-25 | 武汉普利商用机器有限公司 | 一种基于大数据分析的人群画像提取方法及装置 |
CN109711459A (zh) * | 2018-12-24 | 2019-05-03 | 广东德诚科教有限公司 | 用户个性化行为评测方法、装置、计算机设备和存储介质 |
-
2019
- 2019-10-16 CN CN201910984590.9A patent/CN110751516A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818482A (zh) * | 2017-11-22 | 2018-03-20 | 用友金融信息技术股份有限公司 | 目标群体的显著特征的计算方法、系统及计算机设备 |
CN108109004A (zh) * | 2017-12-18 | 2018-06-01 | 北京三快在线科技有限公司 | 相似人群扩展方法、装置及电子设备 |
CN109272009A (zh) * | 2018-07-23 | 2019-01-25 | 武汉普利商用机器有限公司 | 一种基于大数据分析的人群画像提取方法及装置 |
CN109711459A (zh) * | 2018-12-24 | 2019-05-03 | 广东德诚科教有限公司 | 用户个性化行为评测方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9665824B2 (en) | Rapid image annotation via brain state decoding and visual pattern mining | |
WO2018166288A1 (zh) | 信息呈现方法和装置 | |
KR102251302B1 (ko) | 시간 인자와 결합한 협업 필터링 방법, 장치, 서버 및 저장 매체 | |
CN112163165A (zh) | 信息推荐方法、装置、设备及计算机可读存储介质 | |
CN112487199B (zh) | 一种基于用户购买行为的用户特征预测方法 | |
Zheng et al. | Using machine learning to predict obesity in high school students | |
Lin et al. | Automatic age estimation system for face images | |
Wu et al. | Classification of corn kernels grades using image analysis and support vector machine | |
CN114741603A (zh) | 基于用户聚类和商品聚类的混合协同过滤推荐算法 | |
Li et al. | A machine learning–based framework for analyzing car brand styling | |
Yang et al. | Semi-supervised feature selection for audio classification based on constraint compensated Laplacian score | |
Siddalingappa et al. | Anomaly detection on medical images using autoencoder and convolutional neural network | |
Li et al. | Histogram of maximal optical flow projection for abnormal events detection in crowded scenes | |
CN110704738A (zh) | 基于法官画像的服务信息推送方法、装置、终端及存储介质 | |
CN113934937A (zh) | 一种内容智能推荐方法、装置、终端和存储介质 | |
CN115730125A (zh) | 对象识别方法、装置、计算机设备和存储介质 | |
CN111325705A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112131477A (zh) | 一种基于用户画像的图书馆图书推荐系统及方法 | |
Kanan | Recognizing sights, smells, and sounds with gnostic fields | |
Zhang et al. | Research on hierarchical pedestrian detection based on SVM classifier with improved kernel function | |
CN110751516A (zh) | 人群特点的确定方法及装置、计算机可读存储介质 | |
You et al. | A Picture Tells a Thousand Words--About You! User Interest Profiling from User Generated Visual Content | |
Kundu et al. | Interactive image retrieval using M-band wavelet, earth mover’s distance and fuzzy relevance feedback | |
CN113177603B (zh) | 分类模型的训练方法、视频分类方法及相关设备 | |
CN112927719B (zh) | 风险信息评估方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200204 |