CN107818482A - 目标群体的显著特征的计算方法、系统及计算机设备 - Google Patents
目标群体的显著特征的计算方法、系统及计算机设备 Download PDFInfo
- Publication number
- CN107818482A CN107818482A CN201711175498.5A CN201711175498A CN107818482A CN 107818482 A CN107818482 A CN 107818482A CN 201711175498 A CN201711175498 A CN 201711175498A CN 107818482 A CN107818482 A CN 107818482A
- Authority
- CN
- China
- Prior art keywords
- dimensional characteristics
- target group
- feature
- colony
- threshold value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本发明提出了一种目标群体的显著特征的计算方法、系统、计算机设备及计算机可读存储介质,其中目标群体的显著特征的计算方法包括:获取目标群体的多个维度特征,其中每个维度特征包括多个类别特征;计算目标群体与每个维度特征之间的相关性,获取多个相关性系数;根据相关性系数对多个维度特征进行筛选,获取多个第一类维度特征;计算第一类维度特征的每个类别特征的群体偏好度指数;比较群体偏好度指数与第一预设阈值的大小关系,将大于第一预设阈值的群体偏好度指数对应的类别特征作为目标群体的显著特征。本发明可以大大缩短TGI指数的计算时间并且不需要人工的干预,极大的提升了效率,降低了业务门槛。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种目标群体的显著特征的计算方法、系统、计算机设备及计算机可读存储介质。
背景技术
TGI(Target Group Index,目标群体指数/群体偏好度指数)可反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势,TGI指数=[目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]×标准数100。通过这个指数可以挖掘出目标群体的显著特征,利用这些显著特征将用户分群,找到精准营销群体,提升用户满意度,降低营销成本。例如,将某酒店的男性的会员作为目标群体,将在该酒店的消费作为他们的相同特征。若酒店的会员中男性的比例为40%,酒店消费的男性顾客比例为20%,那么该酒店的男性会员的TGI指数=40%/20%×100=200,大于100则表明这一特征是显著特征,即数值越大表明这一特性越明显。在这个例子中则表明酒店的会员中大部分为男性顾客,基于此如果我们对来酒店的男性顾客推销会员卡成功的概率更大。
相关技术中,计算TGI的方式有两种:一种是通过人工的方式,根据以往的经验进行筛选,但是这种方式对业务人员的专业性要求很高,很有可能遗漏掉重要的特征点。而且不同的业务人员根据经验判断的结果也不都相同,无法对结果的准确率进行衡量。另一种方式是通过大数据算法进行全维度的遍历。这种方式在现实中的大数据维度的数据下,计算效率无法保证。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个方面在于提出了一种目标群体的显著特征的计算方法。
本发明的另一个方面在于提出了一种目标群体的显著特征的计算系统。
本发明的再一个方面在于提出了一种计算机设备。
本发明的又一个方面在于提出了一种计算机可读存储介质。
有鉴于此,根据本发明的一个方面,提出了一种目标群体的显著特征的计算方法,包括:获取目标群体的多个维度特征,其中每个维度特征包括多个类别特征;计算目标群体与每个维度特征之间的相关性,获取多个相关性系数;根据相关性系数对多个维度特征进行筛选,获取多个第一类维度特征;计算第一类维度特征的每个类别特征的群体偏好度指数;比较群体偏好度指数与第一预设阈值的大小关系,将大于第一预设阈值的群体偏好度指数对应的类别特征作为目标群体的显著特征。
本发明提供的目标群体的显著特征的计算方法,首先通过相关系数对所有的维度特征进行初步筛选,即通过比较目标群体与每个维度特征之间的相关性,筛选出与目标群体有关联的维度特征作为第一类维度特征,计算第一类维度特征的每个类别特征的群体偏好度指数,将大于第一预设阈值的群体偏好度指数对应的类别特征作为目标群体的显著特征。本发明可以大大缩短TGI指数的计算时间并且不需要人工的干预,极大的提升了效率,降低了业务门槛。
根据本发明的上述目标群体的显著特征的计算方法,还可以具有以下技术特征:
在上述技术方案中,优选地,计算目标群体与每个维度特征之间的相关性,获取多个相关性系数,具体包括:根据第一公式计算目标群体与每个维度特征之间的相关性,获取多个相关性系数;第一公式为其中,R为相关性系数,X为目标群体数量,Y为具有维度特征目标群体的数量,Cov(X,Y)为目标群体数量与维度特征目标群体的数量的协方差,Var[X]为目标群体数量的方差,Var[Y]为具有维度特征目标群体的数量的方差。
在该技术方案中,相关性系数R是一个处于[-1,1]之间的数值,越接近于1,说明两个变量线性正相关,即随着X的增大,Y也有明显的增大趋势。而越接近-1,说明两个变量线性负相关,即随着X增大,Y有明显的减小的趋势。在0附近则说明两个变量X,Y没有明显的线性关系。
在上述任一技术方案中,优选地,根据多个相关性系数对多个维度特征进行筛选,获取第一类维度特征的步骤,具体包括:分别比较多个相关性系数与第二预设阈值的大小关系;将大于第二预设阈值的相关性系数对应的维度特征作为第一类维度特征,以及将小于或者等于第二预设阈值的相关性系数对应的维度特征作为第二类维度特征。
在该技术方案中,比较多个相关性系数与第二预设阈值的大小关系,关系数大于第二预设阈值时表明二者之间关联性较显著,相关系数低于或者等于第二预设阈值时表明二者之间没有显著的关联性,即第二类维度特征中不会出现目标全体的显著特征,后续不会再对第二类维度特征进行计算,减少了计算资源的浪费,提高了计算效率,并且避免了人工筛选所可能产生的遗漏。
在上述任一技术方案中,优选地,在计算第一类维度特征的每个类别特征的群体偏好度指数之前,还包括:对多个第一类维度特征按照相关性系数的大小顺序进行排序。
在该技术方案中,由于相关性系数是一个定量的指标,所以可以按照相关性系数大小,在计算第一类维度特征的每个类别特征的TGI指数之前,对第一类维度特征的进行排序,进而按照这一顺序计算TGI指数。
在上述任一技术方案中,优选地,计算第一类维度特征的每个类别特征的群体偏好度指数,具体包括:按照相关性系数的由大到小的顺序计算相关性系数对应的第一类维度特征的每个类别特征的群体偏好度指数。
在该技术方案中,先计算相关性系数最大的第一类维度特征的每个类别特征的TGI指数,再按照相关性系数由大到小的顺序依次计算后续第一类维度特征。因为如果某一个较大的相关系数的维度特征的TGI指数都不能通过阈值验证,那么相关性系数比其小的维度特征就更不可能通过TGI阈值的验证,由此减小大数据维度,保证计算效率。
在上述任一技术方案中,优选地,还包括:删除小于或者等于第一预设阈值的群体偏好度指数对应的类别特征,不再计算与剔除后的类别特征相关的群体偏好度指数。
在该技术方案中,在计算得到目标群体的显著特征后,将小于或者等于第一预设阈值的群体偏好度指数对应的类别特征进行剔除,那么在后续的计算组合中,与剔除的类别特征相关的组合都可以不予考虑,减少了计算资源的浪费,提高了计算效率。
根据本发明的另一个方面,提出了一种目标群体的显著特征的计算系统,包括:特征获取单元,用于获取目标群体的多个维度特征,其中每个维度特征包括多个类别特征;第一计算单元,用于计算目标群体与每个维度特征之间的相关性,获取多个相关性系数;筛选单元,用于根据相关性系数对多个维度特征进行筛选,获取多个第一类维度特征;第二计算单元,用于计算第一类维度特征的每个类别特征的群体偏好度指数;比较单元,用于比较群体偏好度指数与第一预设阈值的大小关系,将大于第一预设阈值的群体偏好度指数对应的类别特征作为目标群体的显著特征。
本发明提供的目标群体的显著特征的计算系统,首先通过相关系数对所有的维度特征进行初步筛选,即通过比较目标群体与每个维度特征之间的相关性,筛选出与目标群体有关联的维度特征作为第一类维度特征,计算第一类维度特征的每个类别特征的群体偏好度指数,将大于第一预设阈值的群体偏好度指数对应的类别特征作为目标群体的显著特征。本发明可以大大缩短TGI指数的计算时间并且不需要人工的干预,极大的提升了效率,降低了业务门槛。
根据本发明的上述目标群体的显著特征的计算系统,还可以具有以下技术特征:在上述技术方案中,优选地,第一计算单元,具体用于根据第一公式计算所述目标群体与每个维度特征之间的相关性,获取多个相关性系数;第一公式为其中,R为相关性系数,X为目标群体数量,Y为具有维度特征目标群体的数量,Cov(X,Y)为目标群体数量与维度特征目标群体的数量的协方差,Var[X]为目标群体数量的方差,Var[Y]为具有维度特征目标群体的数量的方差。
在该技术方案中,相关性系数R是一个处于[-1,1]之间的数值,越接近于1,说明两个变量线性正相关,即随着X的增大,Y也有明显的增大趋势。而越接近-1,说明两个变量线性负相关,即随着X增大,Y有明显的减小的趋势。在0附近则说明两个变量X,Y没有明显的线性关系。
在上述任一技术方案中,优选地,筛选单元,具体用于分别比较多个相关性系数与第二预设阈值的大小关系;以及将大于第二预设阈值的相关性系数对应的维度特征作为第一类维度特征,以及将小于或者等于第二预设阈值的相关性系数对应的维度特征作为第二类维度特征。
在该技术方案中,比较多个相关性系数与第二预设阈值的大小关系,关系数大于第二预设阈值时表明二者之间关联性较显著,相关系数低于或者等于第二预设阈值时表明二者之间没有显著的关联性,即第二类维度特征中不会出现目标全体的显著特征,后续不会再对第二类维度特征进行计算,减少了计算资源的浪费,提高了计算效率,并且避免了人工筛选所可能产生的遗漏。
在上述任一技术方案中,优选地,还包括:排序单元,用于在计算第一类维度特征的每个类别特征的群体偏好度指数之前,对多个第一类维度特征按照相关性系数的大小顺序进行排序。
在该技术方案中,由于相关性系数是一个定量的指标,所以可以按照相关性系数大小,在计算第一类维度特征的每个类别特征的TGI指数之前,对第一类维度特征的进行排序,进而按照这一顺序计算TGI指数。
在上述任一技术方案中,优选地,第二计算单元,具体用于按照相关性系数的由大到小的顺序计算相关性系数对应的第一类维度特征的每个类别特征的群体偏好度指数。
在该技术方案中,先计算相关性系数最大的第一类维度特征的每个类别特征的TGI指数,再按照相关性系数由大到小的顺序依次计算后续第一类维度特征。因为如果某一个较大的相关系数的维度特征的TGI指数都不能通过阈值验证,那么相关性系数比其小的维度特征就更不可能通过TGI阈值的验证,由此减小大数据维度,保证计算效率。
在上述任一技术方案中,优选地,还包括:删除单元,用于删除小于或者等于第一预设阈值的群体偏好度指数对应的类别特征,不再计算与剔除后的类别特征相关的群体偏好度指数。
在该技术方案中,在计算得到目标群体的显著特征后,将小于或者等于第一预设阈值的群体偏好度指数对应的类别特征进行剔除,那么在后续的计算组合中,与剔除的类别特征相关的组合都可以不予考虑,减少了计算资源的浪费,提高了计算效率。
根据本发明的再一个方面,提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述任一项的目标群体的显著特征的计算方法的步骤。
本发明提供的计算机设备,处理器执行计算机程序时实现通过相关系数对所有的维度特征进行初步筛选,即通过比较目标群体与每个维度特征之间的相关性,筛选出与目标群体有关联的维度特征作为第一类维度特征,计算第一类维度特征的每个类别特征的群体偏好度指数,将大于第一预设阈值的群体偏好度指数对应的类别特征作为目标群体的显著特征。本发明可以大大缩短TGI指数的计算时间并且不需要人工的干预,极大的提升了效率,降低了业务门槛。
根据本发明的又一个方面,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项的目标群体的显著特征的计算方法的步骤。
本发明提供的计算机可读存储介质,计算机程序被处理器执行时实现通过相关系数对所有的维度特征进行初步筛选,即通过比较目标群体与每个维度特征之间的相关性,筛选出与目标群体有关联的维度特征作为第一类维度特征,计算第一类维度特征的每个类别特征的群体偏好度指数,将大于第一预设阈值的群体偏好度指数对应的类别特征作为目标群体的显著特征。本发明可以大大缩短TGI指数的计算时间并且不需要人工的干预,极大的提升了效率,降低了业务门槛。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明的一个实施例的目标群体的显著特征的计算方法的流程示意图;
图2示出了本发明的另一个实施例的目标群体的显著特征的计算方法的流程示意图;
图3示出了本发明的再一个实施例的目标群体的显著特征的计算方法的流程示意图;
图4示出了本发明的一个具体实施例的目标群体的显著特征的计算方式的示意图;
图5示出了本发明的一个实施例的目标群体的显著特征的计算系统的示意框图;
图6示出了本发明的另一个实施例的目标群体的显著特征的计算系统的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。
本发明第一方面的实施例,提出一种目标群体的显著特征的计算方法,图1示出了本发明的一个实施例的目标群体的显著特征的计算方法的流程示意图。其中,该方法包括:
步骤102,获取目标群体的多个维度特征,其中每个维度特征包括多个类别特征;
步骤104,计算目标群体与每个维度特征之间的相关性,获取多个相关性系数;
步骤106,根据相关性系数对多个维度特征进行筛选,获取多个第一类维度特征;
步骤108,计算第一类维度特征的每个类别特征的群体偏好度指数;
步骤110,比较群体偏好度指数与第一预设阈值的大小关系,将大于第一预设阈值的群体偏好度指数对应的类别特征作为目标群体的显著特征。
本发明提供的目标群体的显著特征的计算方法,首先通过相关系数对所有的维度特征进行初步筛选,即通过比较目标群体与每个维度特征之间的相关性,筛选出与目标群体有关联的维度特征作为第一类维度特征,计算第一类维度特征的每个类别特征的群体偏好度指数,将大于第一预设阈值的群体偏好度指数对应的类别特征作为目标群体的显著特征。本发明可以大大缩短TGI指数的计算时间并且不需要人工的干预,极大的提升了效率,降低了业务门槛。
图2示出了本发明的另一个实施例的目标群体的显著特征的计算方法的流程示意图。其中,该方法包括:
步骤202,获取目标群体的多个维度特征,其中每个维度特征包括多个类别特征;
步骤204,根据第一公式计算目标群体与每个维度特征之间的相关性,获取多个相关性系数;
步骤206,分别比较多个相关性系数与第二预设阈值的大小关系;将大于第二预设阈值的相关性系数对应的维度特征作为第一类维度特征,以及将小于或者等于第二预设阈值的相关性系数对应的维度特征作为第二类维度特征;
步骤208,计算第一类维度特征的每个类别特征的群体偏好度指数;
步骤210,比较群体偏好度指数与第一预设阈值的大小关系,将大于第一预设阈值的群体偏好度指数对应的类别特征作为目标群体的显著特征。
其中,第一公式为R为相关性系数,X为目标群体数量,Y为具有维度特征目标群体的数量,Cov(X,Y)为目标群体数量与维度特征目标群体的数量的协方差,Var[X]为目标群体数量的方差,Var[Y]为具有维度特征目标群体的数量的方差。
在该实施例中,获取目标群体的多个维度特征,计算目标群体与每个维度特征之间的相关性,相关性系数R是一个处于[-1,1]之间的数值,越接近于1,说明两个变量线性正相关,即随着X的增大,Y也有明显的增大趋势。而越接近-1,说明两个变量线性负相关,即随着X增大,Y有明显的减小的趋势。在0附近则说明两个变量X,Y没有明显的线性关系。
比较多个相关性系数与第二预设阈值的大小关系,关系数大于第二预设阈值时表明二者之间关联性较显著,相关系数低于或者等于第二预设阈值时表明二者之间没有显著的关联性,即第二类维度特征中不会出现目标全体的显著特征,后续不会再对第二类维度特征进行计算,减少了计算资源的浪费,提高了计算效率,并且避免了人工筛选所可能产生的遗漏。计算第一类维度特征的每个类别特征的群体偏好度指数,将大于第一预设阈值的群体偏好度指数对应的类别特征作为目标群体的显著特征。
图3示出了本发明的再一个实施例的目标群体的显著特征的计算方法的流程示意图。其中,该方法包括:
步骤302,获取目标群体的多个维度特征,其中每个维度特征包括多个类别特征;
步骤304,根据第一公式计算目标群体与每个维度特征之间的相关性,获取多个相关性系数;
步骤306,分别比较多个相关性系数与第二预设阈值的大小关系;将大于第二预设阈值的相关性系数对应的维度特征作为第一类维度特征,以及将小于或者等于第二预设阈值的相关性系数对应的维度特征作为第二类维度特征;
步骤308,对多个第一类维度特征按照相关性系数的大小顺序进行排序;
步骤310,按照相关性系数的由大到小的顺序计算相关性系数对应的第一类维度特征的每个类别特征的群体偏好度指数;
步骤312,比较群体偏好度指数与第一预设阈值的大小关系,将大于第一预设阈值的群体偏好度指数对应的类别特征作为目标群体的显著特征;
步骤314,删除小于或者等于第一预设阈值的群体偏好度指数对应的类别特征,不再计算与剔除后的类别特征相关的群体偏好度指数。
在该实施例中,由于相关性系数是一个定量的指标,所以可以按照相关性系数大小,在计算第一类维度特征的每个类别特征的TGI指数之前,对第一类维度特征的进行排序,进而按照这一顺序计算TGI指数。
先计算相关性系数最大的第一类维度特征的每个类别特征的TGI指数,再按照相关性系数由大到小的顺序依次计算后续第一类维度特征。因为如果某一个较大的相关系数的维度特征的TGI指数都不能通过阈值验证,那么相关性系数比其小的维度特征就更不可能通过TGI阈值的验证,由此减小大数据维度,保证计算效率。
在计算得到目标群体的显著特征后,将小于或者等于第一预设阈值的群体偏好度指数对应的类别特征进行剔除,那么在后续的计算组合中,与剔除的类别特征相关的组合都可以不予考虑,减少了计算资源的浪费,提高了计算效率。
具体实施例中如图4所示,在客户管理系统中可以获取到会员(目标群体)的4个维度特征(性别、年龄、收入、星座)的21种类别特征,而需要计算会员这一目标群体的显著特性,则有的几种方式:
1.采取人工的方式:对业务人员的专业性要求很高,很大程度上影响了结果的客观性。并且人工的方式需要耗费大量的时间进行手工测试以及很有可能产生遗漏的情况。
2.采取遍历的方式:遍历这些维度会有779种组合方式,也就是需要计算779次。并且在现实中,这一维度往往至少是几十甚至复杂到上百的,那么无论是时间还是成本来说,都是不可行的。
3.本发明的具体实施例的基于相关性系数的目标群体的显著特征的计算方式,具体步骤包括:
(1)判定参与计算的维度
利用相关性系数,首先对所有的维度特征进行初步的筛选。如果目标群体与某一维度特征之间的相关性系数低于一个最小的阈值,那么说明二者之间没有显著的关联关系,也就不会出现目标群体的显著特性。只需要计算(会员)与(性别A、年龄B、收入C、星座D)的相关系数,即表1中的rA、rB、rC、rD。设置一个相关系数最低阈值,对于不能满足这个阈值的维度特征,直接跳过不考虑。假如rA=0.8、rB=0.95、rC=0.7、rD=0.4。我们能容忍的最低的阈值为0.6,那么只有维度A、B、C这三个可以作为计算会员这一群体的TGI的维度。
表1
(2)确定计算的顺序
由于相关性系数是一个定量的指标,所以可以按照相关性系数大小,对维度的进行排序,按照这一顺序计算TGI指数。因为如果某一个较大的相关系数的维度特征的TGI指数都不能通过验证,那么相关性系数比其小的维度特征,就更不可能通过TGI阈值的验证。
(3)计算TGI筛选分类
首先计算维度特征B(年龄:未成年、青年、中年、老年)在会员这一目标群体的TGI指数,得到了“中年”这一个显著特征。那么在后续的计算组合中,与剔除的三个维度特征(未成年、青年、老年)相关的组合,都可以不予考虑。
(4)循环迭代的条件
如果一个维度特征的全部分类TGI指数都不能满足TGI的最低阈值(TGI的最小阈值为100),那么循环将被终止。因为计算顺序是按照一定的顺序进行,越靠前的维度,成为目标群体显著特征的可能性越大。
可以将大部分无效的组合方式在一开始就过滤掉,减少了计算资源的浪费,提高了计算效率,并且避免了人工筛选所可能产生的遗漏。只需要计算年龄4次、性别2次、年龄和性别部分组合(中年人和{男、女})2次、年龄和收入部分组合(中年人和{低、中、高})3次,就可以得到最终的“中年人”会员这一显著目标群体(计算11种组合)。
本发明第二方面的实施例,提出一种目标群体的显著特征的计算系统,图5示出了本发明的一个实施例的目标群体的显著特征的计算系统500的示意框图。其中,该系统500包括:
特征获取单元502,用于获取目标群体的多个维度特征,其中每个维度特征包括多个类别特征;
第一计算单元504,用于计算目标群体与每个维度特征之间的相关性,获取多个相关性系数;
筛选单元506,用于根据相关性系数对多个维度特征进行筛选,获取多个第一类维度特征;
第二计算单元508,用于计算第一类维度特征的每个类别特征的群体偏好度指数;
比较单元510,用于比较群体偏好度指数与第一预设阈值的大小关系,将大于第一预设阈值的群体偏好度指数对应的类别特征作为目标群体的显著特征。
本发明提供的目标群体的显著特征的计算系统500,首先通过相关系数对所有的维度特征进行初步筛选,即通过比较目标群体与每个维度特征之间的相关性,筛选出与目标群体有关联的维度特征作为第一类维度特征,计算第一类维度特征的每个类别特征的群体偏好度指数,将大于第一预设阈值的群体偏好度指数对应的类别特征作为目标群体的显著特征。本发明可以大大缩短TGI指数的计算时间并且不需要人工的干预,极大的提升了效率,降低了业务门槛。
在本发明的一个实施例中,优选地,第一计算单元504,具体用于根据第一公式计算所述目标群体与每个维度特征之间的相关性,获取多个相关性系数;第一公式为其中,R为相关性系数,X为目标群体数量,Y为具有维度特征目标群体的数量,Cov(X,Y)为目标群体数量与维度特征目标群体的数量的协方差,Var[X]为目标群体数量的方差,Var[Y]为具有维度特征目标群体的数量的方差。
在该实施例中,相关性系数R是一个处于[-1,1]之间的数值,越接近于1,说明两个变量线性正相关,即随着X的增大,Y也有明显的增大趋势。而越接近-1,说明两个变量线性负相关,即随着X增大,Y有明显的减小的趋势。在0附近则说明两个变量X,Y没有明显的线性关系。
在本发明的一个实施例中,优选地,筛选单元506,具体用于分别比较多个相关性系数与第二预设阈值的大小关系;以及将大于第二预设阈值的相关性系数对应的维度特征作为第一类维度特征,以及将小于或者等于第二预设阈值的相关性系数对应的维度特征作为第二类维度特征。
在该实施例中,比较多个相关性系数与第二预设阈值的大小关系,关系数大于第二预设阈值时表明二者之间关联性较显著,相关系数低于或者等于第二预设阈值时表明二者之间没有显著的关联性,即第二类维度特征中不会出现目标全体的显著特征,后续不会再对第二类维度特征进行计算,减少了计算资源的浪费,提高了计算效率,并且避免了人工筛选所可能产生的遗漏。
图6示出了本发明的另一个实施例的目标群体的显著特征的计算系统600的示意框图。其中,该系统600包括:
特征获取单元602,用于获取目标群体的多个维度特征,其中每个维度特征包括多个类别特征;
第一计算单元604,用于计算目标群体与每个维度特征之间的相关性,获取多个相关性系数;
筛选单元606,用于根据相关性系数对多个维度特征进行筛选,获取多个第一类维度特征;
排序单元608,用于在计算第一类维度特征的每个类别特征的群体偏好度指数之前,对多个第一类维度特征按照相关性系数的大小顺序进行排序;
第二计算单元610,用于按照相关性系数的由大到小的顺序计算相关性系数对应的第一类维度特征的每个类别特征的群体偏好度指数;
比较单元612,用于比较群体偏好度指数与第一预设阈值的大小关系,将大于第一预设阈值的群体偏好度指数对应的类别特征作为目标群体的显著特征。
在该实施例中,由于相关性系数是一个定量的指标,所以可以按照相关性系数大小,在计算第一类维度特征的每个类别特征的TGI指数之前,对第一类维度特征的进行排序,进而按照这一顺序计算TGI指数。
先计算相关性系数最大的第一类维度特征的每个类别特征的TGI指数,再按照相关性系数由大到小的顺序依次计算后续第一类维度特征。因为如果某一个较大的相关系数的维度特征的TGI指数都不能通过阈值验证,那么相关性系数比其小的维度特征就更不可能通过TGI阈值的验证,由此减小大数据维度,保证计算效率。
在本发明的一个实施例中,优选地,还包括:删除单元614,用于删除小于或者等于第一预设阈值的群体偏好度指数对应的类别特征,不再计算与剔除后的类别特征相关的群体偏好度指数。
在该实施例中,在计算得到目标群体的显著特征后,将小于或者等于第一预设阈值的群体偏好度指数对应的类别特征进行剔除,那么在后续的计算组合中,与剔除的类别特征相关的组合都可以不予考虑,减少了计算资源的浪费,提高了计算效率。
本发明第三方面的实施例,提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述任一项的目标群体的显著特征的计算方法的步骤。
本发明提供的计算机设备,处理器执行计算机程序时实现通过相关系数对所有的维度特征进行初步筛选,即通过比较目标群体与每个维度特征之间的相关性,筛选出与目标群体有关联的维度特征作为第一类维度特征,计算第一类维度特征的每个类别特征的群体偏好度指数,将大于第一预设阈值的群体偏好度指数对应的类别特征作为目标群体的显著特征。本发明可以大大缩短TGI指数的计算时间并且不需要人工的干预,极大的提升了效率,降低了业务门槛。
本发明第四方面的实施例,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项的目标群体的显著特征的计算方法的步骤。
本发明提供的计算机可读存储介质,计算机程序被处理器执行时实现通过相关系数对所有的维度特征进行初步筛选,即通过比较目标群体与每个维度特征之间的相关性,筛选出与目标群体有关联的维度特征作为第一类维度特征,计算第一类维度特征的每个类别特征的群体偏好度指数,将大于第一预设阈值的群体偏好度指数对应的类别特征作为目标群体的显著特征。本发明可以大大缩短TGI指数的计算时间并且不需要人工的干预,极大的提升了效率,降低了业务门槛。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种目标群体的显著特征的计算方法,其特征在于,包括:
获取目标群体的多个维度特征,其中每个所述维度特征包括多个类别特征;
计算所述目标群体与每个所述维度特征之间的相关性,获取多个相关性系数;
根据所述相关性系数对多个所述维度特征进行筛选,获取多个第一类维度特征;
计算所述第一类维度特征的每个所述类别特征的群体偏好度指数;
比较所述群体偏好度指数与第一预设阈值的大小关系,将大于所述第一预设阈值的所述群体偏好度指数对应的类别特征作为所述目标群体的显著特征。
2.根据权利要求1所述的目标群体的显著特征的计算方法,其特征在于,所述计算所述目标群体与每个所述维度特征之间的相关性,获取多个所述相关性系数,具体包括:
根据第一公式计算所述目标群体与每个所述维度特征之间的相关性,获取多个所述相关性系数;
所述第一公式为
其中,R为所述相关性系数,X为目标群体数量,Y为具有所述维度特征目标群体的数量,Cov(X,Y)为所述目标群体数量与所述维度特征目标群体的数量的协方差,Var[X]为所述目标群体数量的方差,Var[Y]为具有所述维度特征目标群体的数量的方差。
3.根据权利要求1所述的目标群体的显著特征的计算方法,其特征在于,所述根据多个所述相关性系数对多个所述维度特征进行筛选,获取所述第一类维度特征的步骤,具体包括:
分别比较多个所述相关性系数与第二预设阈值的大小关系;
将大于所述第二预设阈值的所述相关性系数对应的维度特征作为所述第一类维度特征,以及将小于或者等于所述第二预设阈值的所述相关性系数对应的维度特征作为所述第二类维度特征。
4.根据权利要求1所述的目标群体的显著特征的计算方法,其特征在于,在计算所述第一类维度特征的每个所述类别特征的群体偏好度指数之前,还包括:
对多个所述第一类维度特征按照所述相关性系数的大小顺序进行排序。
5.根据权利要求4所述的目标群体的显著特征的计算方法,其特征在于,所述计算所述第一类维度特征的每个所述类别特征的群体偏好度指数,具体包括:
按照所述相关性系数的由大到小的顺序计算所述相关性系数对应的所述第一类维度特征的每个所述类别特征的群体偏好度指数。
6.根据权利要求1至5中任一项所述的目标群体的显著特征的计算方法,其特征在于,还包括:
删除小于或者等于所述第一预设阈值的所述群体偏好度指数对应的类别特征,不再计算与剔除后的类别特征相关的群体偏好度指数。
7.一种目标群体的显著特征的计算系统,其特征在于,包括:
特征获取单元,用于获取目标群体的多个维度特征,其中每个所述维度特征包括多个类别特征;
第一计算单元,用于计算所述目标群体与每个所述维度特征之间的相关性,获取多个相关性系数;
筛选单元,用于根据所述相关性系数对多个所述维度特征进行筛选,获取多个第一类维度特征;
第二计算单元,用于计算所述第一类维度特征的每个所述类别特征的群体偏好度指数;
比较单元,用于比较所述群体偏好度指数与第一预设阈值的大小关系,将大于所述第一预设阈值的所述群体偏好度指数对应的类别特征作为所述目标群体的显著特征。
8.根据权利要求7所述的目标群体的显著特征的计算系统,其特征在于,
所述第一计算单元,具体用于根据第一公式计算所述目标群体与每个所述维度特征之间的相关性,获取多个所述相关性系数;
所述第一公式为
其中,R为所述相关性系数,X为目标群体数量,Y为具有所述维度特征目标群体的数量,Cov(X,Y)为所述目标群体数量与所述维度特征目标群体的数量的协方差,Var[X]为所述目标群体数量的方差,Var[Y]为具有所述维度特征目标群体的数量的方差。
9.根据权利要求7所述的目标群体的显著特征的计算系统,其特征在于,
所述筛选单元,具体用于分别比较多个所述相关性系数与第二预设阈值的大小关系;以及
将大于所述第二预设阈值的所述相关性系数对应的维度特征作为所述第一类维度特征,以及将小于或者等于所述第二预设阈值的所述相关性系数对应的维度特征作为所述第二类维度特征。
10.根据权利要求7所述的目标群体的显著特征的计算系统,其特征在于,还包括:排序单元,用于在计算所述第一类维度特征的每个所述类别特征的群体偏好度指数之前,对多个所述第一类维度特征按照所述相关性系数的大小顺序进行排序。
11.根据权利要求10所述的目标群体的显著特征的计算系统,其特征在于,所述第二计算单元,具体用于按照所述相关性系数的由大到小的顺序计算所述相关性系数对应的所述第一类维度特征的每个所述类别特征的群体偏好度指数。
12.根据权利要求7至11中任一项所述的目标群体的显著特征的计算系统,其特征在于,还包括:
删除单元,用于删除小于或者等于所述第一预设阈值的所述群体偏好度指数对应的类别特征,不再计算与剔除后的类别特征相关的群体偏好度指数。
13.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的目标群体的显著特征的计算方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的目标群体的显著特征的计算方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711175498.5A CN107818482A (zh) | 2017-11-22 | 2017-11-22 | 目标群体的显著特征的计算方法、系统及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711175498.5A CN107818482A (zh) | 2017-11-22 | 2017-11-22 | 目标群体的显著特征的计算方法、系统及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107818482A true CN107818482A (zh) | 2018-03-20 |
Family
ID=61609700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711175498.5A Pending CN107818482A (zh) | 2017-11-22 | 2017-11-22 | 目标群体的显著特征的计算方法、系统及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107818482A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101562A (zh) * | 2018-07-13 | 2018-12-28 | 中国平安人寿保险股份有限公司 | 寻找目标群体的方法、装置、计算机设备及存储介质 |
CN110751516A (zh) * | 2019-10-16 | 2020-02-04 | 上海汽车集团股份有限公司 | 人群特点的确定方法及装置、计算机可读存储介质 |
-
2017
- 2017-11-22 CN CN201711175498.5A patent/CN107818482A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101562A (zh) * | 2018-07-13 | 2018-12-28 | 中国平安人寿保险股份有限公司 | 寻找目标群体的方法、装置、计算机设备及存储介质 |
CN109101562B (zh) * | 2018-07-13 | 2023-07-21 | 中国平安人寿保险股份有限公司 | 寻找目标群体的方法、装置、计算机设备及存储介质 |
CN110751516A (zh) * | 2019-10-16 | 2020-02-04 | 上海汽车集团股份有限公司 | 人群特点的确定方法及装置、计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Learning pooling for convolutional neural network | |
Kuck et al. | Learning about individuals from group statistics | |
CN103262118B (zh) | 属性值估计装置和属性值估计方法 | |
Costello | Alcoholism treatment and evaluation: In search of methods. II. Collation of two-year follow-up studies | |
CN112102073A (zh) | 信贷风险控制方法及系统、电子设备及可读存储介质 | |
CN106228554B (zh) | 基于多属性约简的模糊粗糙集煤粉尘图像分割方法 | |
CN110689523A (zh) | 基于元学习个性化图像信息评价方法、信息数据处理终端 | |
WO2021174699A1 (zh) | 用户筛选方法、装置、设备及存储介质 | |
JP2006048633A (ja) | 画像検索システム、画像検索プログラムおよび記憶媒体、並びに画像検索方法 | |
CN109409432A (zh) | 一种图像处理方法、装置和存储介质 | |
CN107818482A (zh) | 目标群体的显著特征的计算方法、系统及计算机设备 | |
CN104598648A (zh) | 一种微博用户交互式性别识别方法及装置 | |
Augustin et al. | Bayesian aggregation of categorical distributions with applications in crowdsourcing | |
Tuyet et al. | A Deep Bottleneck U-Net Combined with Saliency Map for Classifying Diabetic Retinopathy in Fundus Images. | |
CN106447385A (zh) | 数据处理方法和装置 | |
CN113934937A (zh) | 一种内容智能推荐方法、装置、终端和存储介质 | |
CN113449819A (zh) | 一种基于胶囊网络的信用评估模型方法及其存储介质 | |
CN113486202A (zh) | 小样本图像分类的方法 | |
CN108537177A (zh) | 一种基于深度卷积神经网络的菜谱识别方法 | |
Vogt et al. | Independent retrieval of source dimensions: an extension of results by Starns and Hicks (2005) and a comment on the ACSIM measure. | |
CN110866146B (zh) | 视频推荐方法、装置、计算机设备和存储介质 | |
CN108073567A (zh) | 一种特征词提取处理方法、系统及服务器 | |
CN115691820A (zh) | 病种多分型标准诊疗方案自动构建系统 | |
CN113139423B (zh) | 一种用于场景图检测的关系图学习方法 | |
JP2000048041A (ja) | データ検索システム及びこれに用いる装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180320 |