CN110765351A - 目标用户识别方法、装置、计算机设备和存储介质 - Google Patents

目标用户识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110765351A
CN110765351A CN201910964239.3A CN201910964239A CN110765351A CN 110765351 A CN110765351 A CN 110765351A CN 201910964239 A CN201910964239 A CN 201910964239A CN 110765351 A CN110765351 A CN 110765351A
Authority
CN
China
Prior art keywords
candidate
matrix
user
feature
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910964239.3A
Other languages
English (en)
Inventor
张晨静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Original Assignee
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuo Erzhi Lian Wuhan Research Institute Co Ltd filed Critical Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority to CN201910964239.3A priority Critical patent/CN110765351A/zh
Publication of CN110765351A publication Critical patent/CN110765351A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种目标用户识别方法、系统、计算机设备和存储介质。所述方法包括:通过获取待识别用户的对应手机使用行为数据,获取用户对应的手机使用候选特征数据,将获取到的候选特征数据构建特征矩阵,通过熵权法客观地计算出各个候选特征的综合权重值,通过熵权法得到的综合权重值结合TOPSIS理想解法,然后计算出每个用户与理想特征数据的接近程度评分值,该评分值反映了待识别用户与目标用户身份的匹配程度,分值越高说明用户越匹配目标身份,然后通过K‑Means类聚算法,对所有的用户评分值进行收敛分组,评选出用户评分值最高所在的分组,采用本方法能够可以高效且准确筛选出目标群体的用户。

Description

目标用户识别方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据分析技术领域,特别是涉及一种目标用户识别方法、装置、计算机设备和存储介质。
背景技术
随着社会的发展,社会集群中人们的社会身份也越来越多,在很多方面需要了解到人的社会身份。
比如在政府层面,相关政府部门需要通过走访调查的方式获取人员的社会属性,比如调查空巢老人,留守儿童,常流动性务工人员等,通过社会身份的调查,来为采取保障措施提供依据;在商业层面,商家可以通过问卷调查客户的消费水平,判断出是高收入人员、中等收入人员、低收入人员,确定客户的消费潜力,推送符合相关消费水平的商品。
虽然采用一般的走访调查或者问卷的方式可以得到人们的社会身份,但是由于需要人为调查,存在效率低下、耗费人力以及调查困难等问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够高效准确的目标用户识别方法、装置、计算机设备和存储介质。
一种目标用户方法,所述方法包括:
根据待识别用户对应的手机使用行为数据,获取待识别用户对应的候选特征数据;
根据所述待识别用户对应的候选特征数据,构建特征矩阵;
根据熵权法获取所述特征矩阵中各候选特征的综合权重;
根据所述综合权重以及所述特征矩阵,通过理想解法TOPSIS综合评价,得到所述待识别用户的评分值;
根据K-Means类聚算法,对所述评分值进行类聚,选取评分值最高的组为目标用户所处分组。
在其中一个实施例中,还包括:
对所述特征矩阵中各候选特征进行数据标准化处理;
计算每一候选特征下的各个待识别用户的比重值,比重值为相同类型候选特征下单个用户对应的候选特征标准化数据与所有用户对应的候选特征标准化数据比值;
根据所述比重值计算各候选特征的信息熵,得到各个候选特征的熵权;
根据各候选特征对用户身份识别的影响程度,通过专家评估出各候选特征的人为评估权重;
根据所述熵权与人为评估权重计算得出各候选特征的综合权重。
在其中一个实施例中,还包括:
根据各候选特征的熵权与人为评估权重,得出各候选特征的复合熵权,复合熵权为各候选特征的熵权与对应人为评估权重乘积的开方值;
根据各候选特征的复合熵权,得出各候选特征的综合权重,综合权重为候选特征的复合熵权与所有候选特征的复合熵权的比值。
在其中一个实施例中,还包括:
数据标准化处理有min-max标准化处理、log函数转换法处理、atan函数转换法处理或标准差标准化处理。
在其中一个实施例中,还包括:
对所述特征矩阵进行规范化处理,得到规范矩阵;
根据所述熵权法得到综合权重与规范矩阵得出加权特征矩阵;
计算出加权特征矩阵中各候选特征的正理想解和负理想解;
根据所述正理想解和负理想解计算出加权特征矩阵中待识别用户候选特征与正负理想解之间的距离;
根据所述待识别用户候选特征与正负理想解之间的距离计算出评分值。
在其中一个实施例中,还包括:
遍历所述特征矩阵中的矩阵元素,获取所述特征矩阵中处于相同列的矩阵元素;
计算所述特征矩阵中各矩阵元素与相同列的矩阵元素之间平方和开根比值;
根据计算得到的比值,构建规范矩阵。
在其中一个实施例中,还包括:
选特征数据有月平均消费金额、月平均短信费、月平均上网费用、月平均增值费、用户等级、月平均通话时间、月平均通信人数、月平均市话费、月平均长途费、月平均漫游费、年平均停机次数以及年平均变更套餐次数。
一种目标用户识别装置,所述装置包括:
特征矩阵获取模块,用于获取待识别人员的候选特征矩阵;
候选矩阵标准化处理模块,用于对候选特征矩阵元素进行标准化处理;
综合权重计算模块,用于通过熵权法计算获取候选特征的综合权重;
候选矩阵规范化处理模块,用于对候选特征矩阵元素进行规范化处理;
规范矩阵加权处理模块,用于对规范矩阵处理得到加权特征矩阵;
候选特征分值计算模块,用于通过TOPSIS法计算待识别用户的候选特征的评分值;
候选特征类聚模块,通过K-Means类聚算法用于对各个待识别用户的候选特征的评分值进行类聚,分类出目标用户的分组。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
根据待识别用户对应的手机使用行为数据,获取待识别用户对应的候选特征数据;
根据所述待识别用户对应的候选特征数据,构建特征矩阵;
根据熵权法获取所述特征矩阵中各候选特征的综合权重;
根据所述综合权重以及所述特征矩阵,通过理想解法TOPSIS综合评价,得到所述待识别用户的评分值;
根据K-Means类聚算法,对所述评分值进行类聚,选取最高评分值所在的组为目标用户所处分组。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
根据待识别用户对应的手机使用行为数据,获取待识别用户对应的候选特征数据;
根据所述待识别用户对应的候选特征数据,构建特征矩阵;
根据熵权法获取所述特征矩阵中各候选特征的综合权重;
根据所述综合权重以及所述特征矩阵,通过理想解法TOPSIS综合评价,得到所述待识别用户的评分值;
根据K-Means类聚算法,对所述评分值进行类聚,选取最高评分值所在的组为目标用户所处分组。
上述目标用户识别方法、装置、计算机设备和存储介质,通过获取待识别用户的对应手机使用行为数据,获取用户对应的手机使用候选特征数据,将获取到的候选特征数据构建特征矩阵,通过熵权法客观地计算出各个候选特征的综合权重值,通过熵权法得到的综合权重值结合TOPSIS理想解法,然后计算出每个用户与理想特征数据的接近程度评分值,该评分值反映了待识别用户与目标用户身份的匹配程度,分值越高说明用户越匹配目标身份,然后通过K-Means类聚算法,对所有的用户评分值进行收敛分组,评选出用户评分值最高所在的分组,可以高效且准确筛选出目标群体的用户。
附图说明
图1为一个实施例中目标用户识别方法的应用场景图;
图2为一个实施例中目标用户识别方法的流程示意图;
图3为一个实施例中计算综合权重步骤的流程示意图;
图4为另一个实施例中评分值计算方法的流程示意图;
图5为一个实施例中目标用户识别装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的目标用户识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。其中,服务器104通过网络与运营商服务器106通过网络进行通信。服务器104根据待识别用户的手机使用行为数据,获取待识别用户对应的候选特征数据,将获取到的候选特征数据构建特征矩阵,通过熵权法算法计算出各候选特征的综合权重,随后通过计算得出的综合权重与特征矩阵结合运算,采用理想解法TOPSIS算法计算得出待识别用户的评分值,最后通过K-Means类聚算法,对评分值进行类聚,选取最高评分值所在的组为目标用户所处分组。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现,运营商服务器106是电信运营商负责存储与推送用户手机通话相关信息。
运营商服务器106中存储用户手机相关信息,通过网络连接推送数据到服务器104,服务器104对数据进行分析,通过网络连接发送分析结果到终端102呈现给操作人员。
在一个实施例中,如图2所示,提供了一种目标用户识别方法,以该方法应用于图1中的服务器104中举例进行说明,包括以下步骤:
步骤S202,根据待识别用户对应的手机使用行为数据,获取待识别用户对应的候选特征数据。
手机使用行为数据是指用户在使用手机的过程中产生的行为动作数据,具体包括消费、通话、上网以及业务变更等方面动作的数据,每一个用户只要使用手机产生了业务,那么手机使用行为数据会通过运营商网络上传并存储在运营商服务器当中,运营商服务器可以提供接口发送用户的手机使用行为数据,服务器通过对接获取,或者运营商服务器直接导出手机使用行为数据报表提供给服务器使用。
候选特征是指用户在使用手机过程中和消费、通话、上网以及业务变更相关的具体项目对应的特征,比如消费的候选特征有:月账单费用、手机上网费用、短信费用等,通话的候选特征有:市话通话时间、长途通话时间、通话时间段等,上网的候选特征有:上网流量,业务变更的候选特征有:月固定费用变更,流量套餐变更,短信套餐变更等。
步骤S204,根据所述待识别用户对应的候选特征数据,构建特征矩阵;
其中,矩阵是一个按照长方阵列排列的复数或实数集合,本实施例中的矩阵是实矩阵,通过获取的候选特征数据构建m×n规模的特征矩阵:
Figure BDA0002229960520000061
具体的是指m行n列的矩阵,其中m为待识别的用户数,n是选取的候选特征数,其中任意一个矩阵元素可以用Sij表示,Sij代表第i个用户的第j个候选特征值。
步骤S206,根据熵权法获取所述特征矩阵中各候选特征的综合权重。
其中,熵权法是一种客观赋权方法,按照信息论基本原理的解释,信息熵是系统有序程度的一个度量,熵是系统无序程度的一个度量;如果指标的信息熵越小,该指标提供的信息量越大,在综合评价中所起作用理当越大,权重就应该越高,在具体使用过程中,熵权法根据各指标变异的程度,利用信息熵计算出个指标的熵权,再通过熵权对各指标的权重进行修正,从而得出客观的指标权重。
步骤S208,根据所述综合权重以及所述特征矩阵,通过理想解法TOPSIS综合评价,得到所述待识别用户的评分值。
其中TOPSIS法根据有限个评价对象与理想化目标的接近程度进行排序的方法,是在现有的对象中进行相对优劣的评价。评分值贴近度取值在0~1之间,该值愈接近1,表示相应的评价目标越接近最优水平,反之,该值愈接近0,表示评价目标越接近最劣水平。
步骤S210,根据K-Means类聚算法,对所述评分值进行类聚,选取评分值最高的组为目标用户所处分组。
其中K-Means类聚算法是将各个聚集子集内的所有数据样本的均值作为该类聚的代表点,通过迭代过程把数据集划分为不同的类别,多次迭代之后同一类别中的数据样本均收敛于该类别的代表点,也就是说同一类别中的所有数据样本与自己类别的代表点的距离是最近的;最匹配目标用户的是最高评分值的用户,所以和最高评分值用户在同一组的用户都收敛于同一个代表点,故整个分组可以判断为是目标用户分组。
上述目标用户识别方法中,通过获取待识别用户的手机使用数据,获取到待识别用户对应的候选特征数据,上述特征数据作为识别用户的基础,随后将候选特征数据构建特征矩阵,通过熵权法客观计算出各个候选特征的综合权重值,对应每一个候选特征对识别结果的影响程度;通过熵权法得到的综合权重值结合TOPSIS理想解法,对特征矩阵变换计算,计算出每一个用户与理想特征数据的接近程度评分值,该评分值反映了待识别用户与目标用户身份的匹配程度,分值越高说明用户越匹配目标身份,此时默认获取最高评分值的用户即为目标用户;再通过K-Means类聚算法,对所有用户评分值进行收敛分组,评选出评分值最高的用户所在组,该组的所有用户评分值都与最高评分值都收敛于同一个代表分值,故可以高效并且准确识别筛选出目标群体用户。
在一个实施例中,候选特征数据包括:月平均消费金额、月平均短信费、月平均上网费用、月平均增值费、用户等级、月平均通话时间、月平均通信人数、月平均市话费、月平均长途费、月平均漫游费、年平均停机次数以及年平均变更套餐次数。
在一个实施例中,根据熵权法获取所述特征矩阵中各候选特征的综合权重包括:
对所述特征矩阵中各候选特征进行数据标准化处理,标准化处理能够减少不同指标之间由于不同的量纲和数量级导致的数据误差,保证数据的可靠性。
数据标准化以后计算每一候选特征下的各个待识别用户的比重值,比重值为相同类型候选特征下单个用户对应的候选特征标准化数据与所有用户对应的候选特征标准化数据比值,用户的比重值是熵权法计算熵权的前提。
根据所述比重值计算各候选特征的信息熵,得到各个候选特征的熵权。
根据各候选特征对用户身份识别的影响程度,通过专家评估出各候选特征的人为评估权重,每项候选特征对于识别结果的影响程度是不一致的,通过专家的评估经验,对每一个候选特征进行人为的评估权重,与熵权法计算的熵权进行结合,能够更加准确客观地评判候选特征对识别结果的影响程度。
根据所述熵权与人为评估权重计算得出各候选特征的综合权重。
此实施例通过数据标准化,人为评估权重与熵权结合的方法,能够更加客户准确地计算出候选特征的综合权重,使目标用户识别的结果更加准确客观。
如图3所示,在其中一个实施例中,步骤通过综合权重与特征矩阵计算出候选特征综合权包括:
步骤S302,对所述特征矩阵中各候选特征进行数据标准化处理,可以理解,由于各个候选特征数据的量度都不一致,需要对特征数据进行标准化,数据的标准化是指将数据按比例缩放,使之落入一个小的特定区间,在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。在这个实施例中采用min-max标准化,此标准化是对原始数据进行线性变换,使得结果落到[0,1]区间,转换函数如下:
Figure BDA0002229960520000081
其中Sj(min)是指同一候选特征下,待识别用户中此候选特征的最小数值,Sj(max)是指指同一候选特征下,待识别用户中此候选特征的最大数值。
此时特征矩阵经过标准化处理变成:
Figure BDA0002229960520000082
在其他实施例中,也可以采用其他的标准化处理方法,比如log函数转换法、atan函数转换法,标准差标准化法等。
可以理解的是,此处的标准化处理方法没有限定只能单独使用,针对不同类型的数据可以依据数据的特征选择适合的标准化处理进行数据处理。
步骤S304计算每一候选特征下的各个待识别用户的比重值。将所有候选特征数据标准化处理之后,计算每一候选特征下的各个待识别用户的比重值,比重值为相同类型候选特征下单个用户对应的候选特征标准化数据与所有用户对应的候选特征标准化数据比值,计算比重值函数如下:
Figure BDA0002229960520000091
步骤306根据计算出的各用户的候选特征比重值,根据熵权法计算各候选特征的信息熵。计算公式如下:
其中ej是指第j个候选特征的信息熵。
步骤308根据的候选特征的信息熵计算出候选特征的熵权。计算公示如下:
Figure BDA0002229960520000093
其中wj是第j个候选特征的熵权。
步骤310评估各候选特征的人为评估权重。根据各候选特征对用户身份识别的影响程度,通过相关专家对各候选特征评估权重值,此评估权重值为人为评估权重,例如如果识别的目标是学生群体,那么移动数据流量相关候选特征的人为评估权重就要高于与长途通话有关的候选特征的人为评估权重;如果是识别的目标是外出务工人员,那么移动数据流量相关候选特征的人为评估权重就要低于与长途通话有关的候选特征的人为评估权重。专家需要要根据实际情况进行评估。
步骤312根据各候选特征的熵权与人为评估权重计算出综合权重。根据各候选特征的熵权与人为评估权重,得出各候选特征的复合熵权,复合熵权为各候选特征的熵权与对应人为评估权重乘积的开方值,随后根据各候选特征的复合熵权,得出各候选特征的综合权重,综合权重为候选特征的复合熵权与所有候选特征的复合熵权的比值,公式表示如下:
其中,βj为第j个候选特征的综合权重值,αj为第j个候选特征的人为评估权重,wj为第j个候选特征的熵权。
在一个实施例中,根据所述综合权重以及所述特征矩阵,通过理想解法TOPSIS综合评价,得到所述待识别用户的评分值包括:
对特征矩阵进行规范化处理,得到规范矩阵,随后根据得到综合权重与规范矩阵计算得出加权特征矩阵。
根据理想解法TOPSIS计算出加权特征矩阵中各候选特征的正理想解和负理想解。
正理想解和负理想解计算出加权特征矩阵中待识别用户候选特征与正负理想解之间的距离;根据所述待识别用户候选特征与正负理想解之间的距离计算出评分值。
通过TOPSIS理想解法,得到待识别用户所有的候选特征与目标身份接近程度的综合评分值,评分值与1越接近代表待识别用户与目标身份越契合,让抽象的身份识别转换为具象可以对比的形式,便于运算以及判别。
如图4所示,在一个实施例中,步骤根据理想解法TOPSIS综合评价得到待识别用户包括:
步骤402对特征矩阵进行规范化处理,得到规范矩阵。特征矩阵的数值是通过运营商服务器拉取的原始数据,不同的候选特征数值量度不一致,为了统一标准,需要对特征矩阵数据进行数据规范化,具体的规范化处理是,对于同一候选特征单个用户的候选特征数值与所有用户的该候选特征数值的平方和开根值的比值,公式表达如下:
Figure BDA0002229960520000101
其中Xij是指第i个用户的第j个候选特征的规范值,Sij是指特征矩阵中第i个用户的第j个候选特征的值。
通过计算得出的规范值,构建规范矩阵如下:
Figure BDA0002229960520000102
步骤404根据通过熵权法得到的综合权重和规范矩阵计算得出加权特征矩阵.
具体的,通过步骤206得到的候选特征综合权重与规范化处理之后的规范矩阵值,得到加权特征值,处理方法是对于同一候选特征的规范矩阵数值与对应的候选特征综合权重进行乘法运算,表达公式如下:
Yij=βj·Xij(i=1,2,…m;j=1,2…n)
其中Yij是中第i个用户的第j个候选特征的加权规范值,βj是第j个候选特征的综合权重值,Xij是第i个用户的第j个候选特征的规范值。
通过计算得出的加权规范特征值,构建加权规范特征矩阵如下:
步骤S406计算出加权特征矩阵中各候选特征的正理想解与负理想解,具体的候选特征的正理想解是对于同一候选特征,如果该候选特征为效益型指标,选取所有用户加权规范特征值中最大的值为正理想解,如果该候选特征为成本型指标,选取所有用户加权规范特征值中最小的值为正理想解;候选特征的负理想解是对于同一候选特征,如果该候选特征为效益型指标,选取所有用户加权规范特征值中最小的值为负理想解,如果该候选特征为成本型指标,选取所有用户加权规范特征值中最大的值为负理想解;效益型指标是指评价对象在某一指标中数值越大表现越好,反正成本性指标是指评价对象在某一指标中数值越大表现越差。
为便于理解正负理想解,如下进行举例说明:
假设现存在有一加权特征矩阵:
当候选特征为效益型指标,根据正负理想解的计算方法,可以得到:
第1候选特征的正理想解A1 +=0.8,负理想解A1 -=0.25;
第2候选特征的正理想解A2 +=0.78,负理想解A2 -=0.45;
第3候选特征的正理想解A3 +=0.95,负理想解A3 -=0.5;
第4候选特征的正理想解A4 +=0.58,负理想解A4 -=0.11;
当候选特征为成本型指标,根据正负理想解的计算方法,可以得到:
第1候选特征的正理想解A1 +=0.25,负理想解A1 -=0.8;
第2候选特征的正理想解A2 +=0.45,负理想解A2 -=0.78;
第3候选特征的正理想解A3 +=0.5,负理想解A3 -=0.95;
第4候选特征的正理想解A4 +=0.11,负理想解A4 -=0.58;
用公式表达如下:
Figure BDA0002229960520000121
Figure BDA0002229960520000122
其中为J1效益型指标集合(该集合中指标值越大,表明评价对象在该项指标上的表现越好),J2为成本型指标集合(该集合中指标值越小,表明评价对象在该项指标上的表现越好)。
步骤S408计算加权特征矩阵中待识别用户的候选特征与正负理想解之间的距离,此处的距离是代表用户所有的候选特征与正负理想解之间的偏离程度,计算方法如下:
Figure BDA0002229960520000123
Figure BDA0002229960520000124
其中
Figure BDA0002229960520000125
是指第i个用户的候选特征与正理想解之间的距离,Yj +是指第j个候选特征的正理想解,
Figure BDA0002229960520000126
指第i个用户的候选特征与负理想解之间的距离,Yj -是指第j个候选特征的负理想解。
步骤S410计算出待识别用户的评分值。评分值代表了该待识别用户与目标用户身份的贴合度,依据计算出的各个待识别用户与正负理想解的距离,用户的评分值是指待识别用户候选特征负理想解的距离与待识别用户候选特征正负理想解和的比值,可以公式表达如下:
Figure BDA0002229960520000131
其中Ci是第i个用户的评分值,
Figure BDA0002229960520000132
指第i个用户的候选特征与负理想解之间的距离,
Figure BDA0002229960520000133
是指第i个用户的候选特征与正理想解之间的距离。
评分值Ci介于0到1之间,在极限情况下,当Ci=0的时候,可以知道
Figure BDA0002229960520000135
也是等于0的,表示该用户的候选特征与负理想解是全部贴合的,每一个候选特征都不符合目标用户身份;当Ci=1的时候,可以知道
Figure BDA0002229960520000134
是等于0的,表示该用户的候选特征与正理想解是全部贴合的,每一个候选特征都符合目标用户身份。所以Ci的值越接近于1,代表越符合目标用户身份。
在一个实施例中,将所有待识别用户的评分值组成一个评分值集合,通过K-Means类聚算法,对该集合中的评分值进行类聚,类聚完成后,选取最高评分值所在的组为目标用户所处分组。
K-Means类聚算法是一种迭代的分类算法,通过接受一个聚类数K,以空间中K个点为中心进行聚类,对最靠近中心的对象归类,通过迭代的方法,逐次更新各类聚中心的值,直到达到所有对象不再移动到其他类中的聚类结果。在此实施例中,聚类数K的选择可以通过普查样本指标来确定,例如,我们需要识别高中在校学生人群,从运营商拉取的原始数据是某一个市的手机用户数据,那么类聚数K就可以通过教育局给出市所有高中的学生数与全市人口普查数来确认,具体的,假如市所有高中学生人数是10000,全市人口是500000,可以算得高中生占全省人口的1/50,那么类聚数K值就是50,通过K-Means类聚算法可以分出50个收敛的类别,选取最高评分值所在的组为目标用户所处分组。
在另一实施例中,也可以直接通过普查样本比例直接划分出目标用户所处分组,例如,我们需要识别高中在校学生人群,从运营商拉取的原始数据是某一个市的手机用户数据,那么通过计算市高中生人数与全市人数的比值得出待识别的高中在校人数,具体的,假如市所有高中学生人数是10000,全市人口是500000,可以算得高中生占全省人口的1/50,那么用户按照评分值由高到低排序,选取评分值前2%的用户即为目标用户。
通过以上实施例可以高效且准确筛选出目标群体的用户。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种目标用户识别装置500,该装置500包括:特征矩阵获取模块502、候选矩阵规范化处理模块504、规范矩阵加权处理模块506、候选矩阵标准化处理模块508、综合权重计算模块510、候选特征分值计算模块512、和候选特征类聚模块514,其中:
特征矩阵获取模块502,用于获取待识别人员的候选特征矩阵。
候选矩阵标准化处理模块508,用于对候选特征矩阵元素进行标准化处理。
综合权重计算模块510,用于通过熵权法计算获取候选特征的综合权重。
候选矩阵规范化处理模块504,用于对候选特征矩阵元素进行规范化处理。
规范矩阵加权处理模块506,用于对规范矩阵处理得到加权特征矩阵。
候选特征分值计算模块512,用于通过TOPSIS法计算待识别用户的候选特征的评分值。
候选特征类聚模块514,通过K-Means类聚算法用于对各个待识别用户的候选特征的评分值进行类聚,分类出目标用户的分组。
在一个实施例中,特征矩阵获取模块502通过获取运营商推送的相关信息,提取用户信息与手机使用信息组成候选特征矩阵。
在一个实施例中,候选矩阵标准化处理模块508可以采取多种数据标准法方法对候选特征矩阵进行标准化处理,其处理方法有:min-max标准化、log函数转换法、atan函数转换法或标准差标准化。
在一个实施例中,综合权重计算模块510还包括获取专家评估出各候选特征的人为评估权重。
关于目标用户识别装置的具体限定可以参见上文中对于目标用户识别方法的限定,在此不再赘述。上述目标用户识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户手机使用信息数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标用户识别方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
根据待识别用户对应的手机使用行为数据,获取待识别用户对应的候选特征数据
根据所述待识别用户对应的候选特征数据,构建特征矩阵;
根据熵权法获取所述特征矩阵中各候选特征的综合权重;
根据所述综合权重以及所述特征矩阵,通过理想解法TOPSIS综合评价,得到所述待识别用户的评分值;
根据K-Means类聚算法,对所述评分值进行类聚,选取最高评分值所在的组为目标用户所处分组。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对特征矩阵中各候选特征值进行数据标准化处理;计算每一候选特征下的各个待识别用户的标准化数据的比重值,比重值为相同类型候选特征下单个用户对应的候选特征标准化数据与所有用户对应的候选特征标准化数据比值;;通过比重值计算各候选特征的信息熵和熵权;计算出熵权与人为评价权重结合的综合权重。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在min-max标准化处理、log函数转换法处理、atan函数转换法处理或标准差标准化处理中选择数据标准化处理方式。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述根据熵权与人为评估权重计算得出各候选特征的综合权重包括,根据各候选特征的熵权与人为评估权重,得出各候选特征的复合熵权,复合熵权为各候选特征的熵权与对应人为评估权重乘积的开方值;根据各候选特征的复合熵权,得出各候选特征的综合权重,综合权重为候选特征的复合熵权与所有候选特征的复合熵权的比值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对所述特征矩阵进行规范化处理,得到规范矩阵包括,遍历所述特征矩阵中的矩阵元素,获取所述特征矩阵中处于相同列的矩阵元素;计算所述特征矩阵中各矩阵元素与相同列的矩阵元素之间平方和开根比值;根据计算得到的比值,构建规范矩阵。
在一个实施例中,所述候选特征数据包括:月平均消费金额、月平均短信费、月平均上网费用、月平均增值费、用户等级、月平均通话时间、月平均通信人数、月平均市话费、月平均长途费、月平均漫游费、年平均停机次数以及年平均变更套餐次数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对特征矩阵中各候选特征值进行数据规范化处理,得到规范矩阵包括,遍历所述特征矩阵中的矩阵元素,获取所述特征矩阵中处于相同列的矩阵元素;计算所述特征矩阵中各矩阵元素与相同列的矩阵元素之间平方和开根比值;根据计算得到的比值,构建规范矩阵。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
根据待识别用户对应的手机使用行为数据,获取待识别用户对应的候选特征数据
根据所述待识别用户对应的候选特征数据,构建特征矩阵;
根据熵权法获取所述特征矩阵中各候选特征的综合权重;
根据所述综合权重以及所述特征矩阵,通过理想解法TOPSIS综合评价,得到所述待识别用户的评分值;
根据K-Means类聚算法,对所述评分值进行类聚,选取最高评分值所在的组为目标用户所处分组。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对特征矩阵中各候选特征值进行数据标准化处理;计算每一候选特征下的各个待识别用户的标准化数据的比重值,比重值为相同类型候选特征下单个用户对应的候选特征标准化数据与所有用户对应的候选特征标准化数据比值;;通过比重值计算各候选特征的信息熵和熵权;计算出熵权与人为评价权重结合的综合权重。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在min-max标准化处理、log函数转换法处理、atan函数转换法处理或标准差标准化处理中选择数据标准化处理方式。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述根据熵权与人为评估权重计算得出各候选特征的综合权重包括,根据各候选特征的熵权与人为评估权重,得出各候选特征的复合熵权,复合熵权为各候选特征的熵权与对应人为评估权重乘积的开方值;根据各候选特征的复合熵权,得出各候选特征的综合权重,综合权重为候选特征的复合熵权与所有候选特征的复合熵权的比值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对所述特征矩阵进行规范化处理,得到规范矩阵包括,遍历所述特征矩阵中的矩阵元素,获取所述特征矩阵中处于相同列的矩阵元素;计算所述特征矩阵中各矩阵元素与相同列的矩阵元素之间平方和开根比值;根据计算得到的比值,构建规范矩阵。
在一个实施例中,所述候选特征数据包括:月平均消费金额、月平均短信费、月平均上网费用、月平均增值费、用户等级、月平均通话时间、月平均通信人数、月平均市话费、月平均长途费、月平均漫游费、年平均停机次数以及年平均变更套餐次数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对特征矩阵中各候选特征值进行数据规范化处理,得到规范矩阵包括,遍历所述特征矩阵中的矩阵元素,获取所述特征矩阵中处于相同列的矩阵元素;计算所述特征矩阵中各矩阵元素与相同列的矩阵元素之间平方和开根比值;根据计算得到的比值,构建规范矩阵。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种目标用户识别方法,所述方法包括:
根据待识别用户对应的手机使用行为数据,获取待识别用户对应的候选特征数据;
根据所述待识别用户对应的候选特征数据,构建特征矩阵;
根据熵权法获取所述特征矩阵中各候选特征的综合权重;
根据所述综合权重以及所述特征矩阵,通过理想解法TOPSIS综合评价,得到所述待识别用户的评分值;
根据K-Means类聚算法,对所述评分值进行类聚,选取最高评分值所在的组为目标用户所处分组。
2.根据权利要求1所述的方法,其特征在于,所述步骤根据熵权法获取所述各候选特征的综合权重包括:
对所述特征矩阵中各候选特征值进行数据标准化处理;
计算每一候选特征下的各个待识别用户的比重值,比重值为相同类型候选特征下单个用户对应的候选特征标准化数据与所有用户对应的候选特征标准化数据比值;
根据所述比重值计算各候选特征的信息熵,得到各个候选特征的熵权;
根据各候选特征对用户身份识别的影响程度,通过专家评估出各候选特征的人为评估权重;
根据所述熵权与人为评估权重计算得出各候选特征的综合权重。
3.根据权利要求2所述的方法,其特征在于,所述根据熵权与人为评估权重计算得出各候选特征的综合权重包括:
根据各候选特征的熵权与人为评估权重,得出各候选特征的复合熵权,复合熵权为各候选特征的熵权与对应人为评估权重乘积的开方值;
根据各候选特征的复合熵权,得出各候选特征的综合权重,综合权重为候选特征的复合熵权与所有候选特征的复合熵权的比值。
4.根据权利要求2所述的方法,其特征在于,所述数据标准化处理包括:min-max标准化处理、log函数转换法处理、atan函数转换法处理或标准差标准化处理。
5.根据权利要求1所述的方法,其特征在于,所述步骤根据理想解法TOPSIS综合评价得到待识别用户的候选特征的评分值包括:
对所述特征矩阵进行规范化处理,得到规范矩阵;
根据所述熵权法得到综合权重与规范矩阵得出加权特征矩阵;
计算出加权特征矩阵中各候选特征的正理想解和负理想解;
根据所述正理想解和负理想解计算出加权特征矩阵中待识别用户候选特征与正负理想解之间的距离;
根据所述待识别用户候选特征与正负理想解之间的距离计算出评分值。
6.根据权利要求5所述的方法,其特征在于,对所述特征矩阵进行规范化处理,得到规范矩阵包括:
遍历所述特征矩阵中的矩阵元素,获取所述特征矩阵中处于相同列的矩阵元素;
计算所述特征矩阵中各矩阵元素与相同列的矩阵元素之间平方和开根比值;
根据计算得到的比值,构建规范矩阵。
7.根据权利要求1所述的方法,其特征在于,所述候选特征数据包括:月平均消费金额、月平均短信费、月平均上网费用、月平均增值费、用户等级、月平均通话时间、月平均通信人数、月平均市话费、月平均长途费、月平均漫游费、年平均停机次数以及年平均变更套餐次数。
8.一种目标用户识别装置,其特征在于,所述装置包括:
特征矩阵获取模块,用于获取待识别人员的候选特征矩阵;
候选矩阵标准化处理模块,用于对候选特征矩阵元素进行标准化处理;
综合权重计算模块,用于通过熵权法计算获取候选特征的综合权重;
候选矩阵规范化处理模块,用于对候选特征矩阵元素进行规范化处理;
规范矩阵加权处理模块,用于对规范矩阵处理得到加权特征矩阵;
候选特征分值计算模块,用于通过TOPSIS法计算待识别用户的候选特征的评分值;
候选特征类聚模块,通过K-Means类聚算法用于对各个待识别用户的候选特征的评分值进行类聚,分类出目标用户的分组。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201910964239.3A 2019-10-11 2019-10-11 目标用户识别方法、装置、计算机设备和存储介质 Pending CN110765351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910964239.3A CN110765351A (zh) 2019-10-11 2019-10-11 目标用户识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910964239.3A CN110765351A (zh) 2019-10-11 2019-10-11 目标用户识别方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN110765351A true CN110765351A (zh) 2020-02-07

Family

ID=69331872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910964239.3A Pending CN110765351A (zh) 2019-10-11 2019-10-11 目标用户识别方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110765351A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488766A (zh) * 2020-12-09 2021-03-12 广州品唯软件有限公司 页面展示图设置方法、装置、计算机设备和存储介质
CN112822653A (zh) * 2020-12-30 2021-05-18 国网甘肃省电力公司信息通信公司 一种无线传感器网络中的分簇路由方法
CN117311244A (zh) * 2023-11-28 2023-12-29 广州宝云信息科技有限公司 基于设备工况预测的节能调控方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948723A (zh) * 2019-03-28 2019-06-28 北京交通发展研究院 一种手机用户中通勤人口的识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948723A (zh) * 2019-03-28 2019-06-28 北京交通发展研究院 一种手机用户中通勤人口的识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄毅,王一鸣: "《金融科技研究与评估2018 全球系统重要性银行金融科技指数》", 31 December 2018, 中国发展出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488766A (zh) * 2020-12-09 2021-03-12 广州品唯软件有限公司 页面展示图设置方法、装置、计算机设备和存储介质
CN112822653A (zh) * 2020-12-30 2021-05-18 国网甘肃省电力公司信息通信公司 一种无线传感器网络中的分簇路由方法
CN117311244A (zh) * 2023-11-28 2023-12-29 广州宝云信息科技有限公司 基于设备工况预测的节能调控方法及系统
CN117311244B (zh) * 2023-11-28 2024-02-13 广州宝云信息科技有限公司 基于设备工况预测的节能调控方法及系统

Similar Documents

Publication Publication Date Title
CN110363387B (zh) 基于大数据的画像分析方法、装置、计算机设备及存储介质
CN109165840B (zh) 风险预测处理方法、装置、计算机设备和介质
CN109829020B (zh) 地点资源数据推送方法、装置、计算机设备和存储介质
CN110765351A (zh) 目标用户识别方法、装置、计算机设备和存储介质
Casati et al. Synthetic population generation by combining a hierarchical, simulation-based approach with reweighting by generalized raking
CN109063921B (zh) 客户风险预警的优化处理方法、装置、计算机设备和介质
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
CN111176990A (zh) 基于数据决策的测试数据生成方法、装置、计算机设备
CN110674636B (zh) 一种用电行为分析方法
CN108182633B (zh) 贷款数据处理方法、装置、计算机设备和存储介质
CN111597348A (zh) 用户画像方法、装置、计算机设备和存储介质
CN111639690A (zh) 基于关系图谱学习的欺诈分析方法、系统、介质及设备
CN114742520A (zh) 岗位匹配方法、装置、设备及存储介质
CN113537697A (zh) 一种城市管理中监督员绩效评价的方法及系统
CN111538909A (zh) 一种信息推荐方法及装置
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN111291795A (zh) 人群特征分析方法、装置、存储介质和计算机设备
CN110598772A (zh) 运营数据检测方法、装置、计算机设备和存储介质
CN114372835B (zh) 综合能源服务潜力客户识别方法、系统及计算机设备
CN113837319B (zh) 基于聚类的客户分类方法、装置、设备及存储介质
CN114091908A (zh) 计及多模式储能站的配电网综合评价方法、装置和设备
CN114548620A (zh) 物流准时保业务推荐方法、装置、计算机设备和存储介质
CN115409226A (zh) 一种数据处理方法和数据处理系统
CN112348226A (zh) 预测数据生成方法、系统、计算机设备及存储介质
CN112948512A (zh) 位置数据划分方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200207