CN113536848A - 一种数据处理方法、装置及电子设备 - Google Patents
一种数据处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113536848A CN113536848A CN202010306695.1A CN202010306695A CN113536848A CN 113536848 A CN113536848 A CN 113536848A CN 202010306695 A CN202010306695 A CN 202010306695A CN 113536848 A CN113536848 A CN 113536848A
- Authority
- CN
- China
- Prior art keywords
- group
- user
- target
- feature
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000004891 communication Methods 0.000 claims abstract description 114
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 80
- 238000012545 processing Methods 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000001514 detection method Methods 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 22
- 238000003860 storage Methods 0.000 claims description 22
- 230000009467 reduction Effects 0.000 claims description 19
- 238000007635 classification algorithm Methods 0.000 claims description 16
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种数据处理方法、装置及电子设备,所述方法包括:获取种子用户群的目标群体特征,所述种子用户群为目标通信业务的使用群体;获取所述种子用户群的特征值中与所述目标群体特征对应的第一特征值,以及候选用户群的特征值中与所述目标群体特征对应的第二特征值;基于所述第一特征值、所述第二特征值,以及预设能量传播算法,确定所述候选用户群中每个所述候选用户的能量值;基于所述候选用户的能量值,确定针对所述目标通信业务的所述候选用户群中的潜在用户。通过本方法,可以准确的从候选用户群中,确定目标通信业务的潜在用户。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法、装置及电子设备。
背景技术
随着信息技术的快速发展,移动通信用户的数量日益增长,如何挖掘潜在客户,提高通信业务的使用率,已经成为运营商关注的焦点。
目前,运营商可以根据用户的基本属性,对用户进行分类并进行贴标签处理,然后可以根据用户的标签,找到通信业务的潜在用户,并将该通信业务推荐给潜在用户,以提高该通信业务的使用率。例如,用户A和用户B都带有“学生”这一标签,如果用户B订购了通信业务1、通信业务2和通信业务3,用户A只订购了通信业务1,那么,用户A就是通信业务2和通信业务3的潜在用户,可以将通信业务2和通信业务3推荐为用户A。
但是,通过对用户的基本属性进行贴标签处理,以确定通信业务的潜在用户的方法,存在以下问题:由于不同的通信业务与用户的基本属性之间联系较少,而通信业务不断的发展,业务场景也不断的变化,通过标签来确定潜在用户,存在潜在用户确定准确性差的问题。
发明内容
本发明实施例的目的是提供一种数据处理方法、装置及电子设备,以解决现有技术中由于通过对用户的通信行为数据的分析处理,以确定用户对应的处理策略的方式,存在的策略确定的准确性较差的问题。
为解决上述技术问题,本发明实施例是这样实现的:
第一方面,本发明实施例提供的一种数据处理方法,所述方法包括:
获取种子用户群的目标群体特征,所述种子用户群为目标通信业务的使用群体;
获取所述种子用户群的特征值中与所述目标群体特征对应的第一特征值,以及候选用户群的特征值中与所述目标群体特征对应的第二特征值;
基于所述第一特征值、所述第二特征值,以及预设能量传播算法,确定所述候选用户群中每个所述候选用户的能量值;
基于所述候选用户的能量值,确定针对所述目标通信业务的所述候选用户群中的潜在用户。
可选地,所述获取种子用户群的目标群体特征,包括:
获取预设时间段内,使用所述目标通信业务的第一用户信息,以及未使用所述目标通信业务的第二用户信息;
针对所述目标通信业务,预设多个不同的群体特征集,所述群体特征集中包括一个或多个预设群体特征;
基于所述第一用户信息、第二用户信息、所述群体特征集以及预设分类算法,确定与每个所述群体特征集对应的群体分类预测概率;
基于所述群体分类预测概率,确定所述多个不同的群体特征集中的目标群体特征集;
将所述目标群体特征集中的群体特征,作为所述种子用户群的目标群体特征。
可选地,所述基于所述第一特征值、所述第二特征值,以及预设能量传播算法,确定所述候选用户群中每个所述候选用户的能量值,包括:
基于所述目标群体特征、所述第一特征值和所述第二特征值,构建目标关系图;
基于预设的所述每个所述种子用户的初始能量值、预设的每个所述候选用户的初始能量值,以及每个所述候选用户在所述目标关系图中,与其他用户之间的位置关系,确定每个所述候选用户的能量值。
可选地,所述基于预设的所述每个所述种子用户的初始能量值、预设的每个所述候选用户的初始能量值,以及每个所述候选用户在所述目标关系图中,与其他用户之间的位置关系,确定每个所述候选用户的能量值,包括:
在所述目标关系图中,基于每个所述种子用户的初始能量值以及与每个种子用户处于预设距离范围内的所述目标用户的初始能量值,确定每个所述种子用户的目标能量值,所述目标用户包括所述种子用户和/或所述候选用户;
获取与每个所述候选用户处于所述预设距离范围内的所述种子用户的目标能量值;
基于每个所述候选用户的初始能量值,以及与每个所述候选用户处于所述预设距离范围内的所述种子用户的目标能量值,确定每个所述候选用户的第一能量值;
获取每个候选用户的第一能量值,以及与每个所述候选用户处于所述预设距离范围内的所述种子用户的目标能量值,确定每个所述候选用户的能量值。
可选地,在所述基于所述第一特征值、所述第二特征值,以及预设能量传播算法,确定所述候选用户群中每个所述候选用户的能量值之前,还包括:
对所述第一特征值和所述第二特征值进行异常数据的检测和处理,所述异常数据的检测和处理包括但不限于:缺失值的检测和处理、异常值的检测和处理以及数据分布情况的检测和处理。
可选地,所述针对所述目标通信业务,预设多个不同的群体特征集,包括:
获取针对所述目标通信业务的群体特征;
基于预设特征选择算法,从所述目标通信业务的群体特征中选取出第一群体特征,所述特征选择算法包括信息熵特征选择算法、卡方校验特征选择算法;
基于所述第一群体特征,预设所述多个不同的群体特征集。
可选地,所述基于所述第一群体特征,预设所述多个不同的群体特征集,包括:
在所述第一群体特征的维度大于预设维度阈值的情况下,将所述第一群体特征输入预先训练的降维模型,得到第二群体特征,所述降维模型为基于限制波尔兹曼机算法和历史特征确定的,用于对群体特征进行降维处理的模型;
基于所述第二群体特征,预设所述多个不同的群体特征集。
第二方面,本发明实施例提供了一种数据处理装置,所述装置包括:
第一获取模块,用于获取种子用户群的目标群体特征,所述种子用户群为目标通信业务的使用群体;
第二获取模块,用于获取所述种子用户群的特征值中与所述目标群体特征对应的第一特征值,以及候选用户群的特征值中与所述目标群体特征对应的第二特征值;
能量值确定模块,用于基于所述第一特征值、所述第二特征值,以及预设能量传播算法,确定所述候选用户群中每个所述候选用户的能量值;
用户确定模块,用于基于所述候选用户的能量值,确定针对所述目标通信业务的所述候选用户群中的潜在用户。
可选地,所述第一获取模块,用于:
获取预设时间段内,使用所述目标通信业务的第一用户信息,以及未使用所述目标通信业务的第二用户信息;
针对所述目标通信业务,预设多个不同的群体特征集,所述群体特征集中包括一个或多个预设群体特征;
基于所述第一用户信息、第二用户信息、所述群体特征集以及预设分类算法,确定与每个所述群体特征集对应的群体分类预测概率;
基于所述群体分类预测概率,确定所述多个不同的群体特征集中的目标群体特征集;
将所述目标群体特征集中的群体特征,作为所述种子用户群的目标群体特征。
可选地,所述能量值确定模块,用于:
基于所述目标群体特征、所述第一特征值和所述第二特征值,构建目标关系图;
基于预设的所述每个所述种子用户的初始能量值、预设的每个所述候选用户的初始能量值,以及每个所述候选用户在所述目标关系图中,与其他用户之间的位置关系,确定每个所述候选用户的能量值。
可选地,所述能量值确定模块,用于:
在所述目标关系图中,基于每个所述种子用户的初始能量值以及与每个种子用户处于预设距离范围内的所述目标用户的初始能量值,确定每个所述种子用户的目标能量值,所述目标用户包括所述种子用户和/或所述候选用户;
获取与每个所述候选用户处于所述预设距离范围内的所述种子用户的目标能量值;
基于每个所述候选用户的初始能量值,以及与每个所述候选用户处于所述预设距离范围内的所述种子用户的目标能量值,确定每个所述候选用户的第一能量值;
获取每个候选用户的第一能量值,以及与每个所述候选用户处于所述预设距离范围内的所述种子用户的目标能量值,确定每个所述候选用户的能量值。
可选地,所述装置,还包括:
预处理模块,用于对所述第一特征值和所述第二特征值进行异常数据的检测和处理,所述异常数据的检测和处理包括但不限于:缺失值的检测和处理、异常值的检测和处理以及数据分布情况的检测和处理。
可选地,所述第一获取模块,用于:
获取针对所述目标通信业务的群体特征;
基于预设特征选择算法,从所述目标通信业务的群体特征中选取出第一群体特征,所述特征选择算法包括信息熵特征选择算法、卡方校验特征选择算法;
基于所述第一群体特征,预设所述多个不同的群体特征集。
可选地,所述第一获取模块,用于:
在所述第一群体特征的维度大于预设维度阈值的情况下,将所述第一群体特征输入预先训练的降维模型,得到第二群体特征,所述降维模型为基于限制波尔兹曼机算法和历史特征确定的,用于对群体特征进行降维处理的模型;
基于所述第二群体特征,预设所述多个不同的群体特征集。
第三方面,本发明实施例提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述实施例提供的数据处理方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述实施例提供的数据处理方法的步骤。
由以上本发明实施例提供的技术方案可见,本发明实施例通过获取种子用户群的目标群体特征,种子用户群为目标通信业务的使用群体,获取种子用户群的特征值中与目标群体特征对应的第一特征值,以及候选用户群的特征值中与目标群体特征对应的第二特征值,基于第一特征值、所述第二特征值,以及预设能量传播算法,确定候选用户群中每个候选用户的能量值,基于候选用户的能量值,确定针对目标通信业务的候选用户群中的潜在用户。这样,由于通过获取种子用户群的目标群体特征,来获取第一特征值、第二特征值,所以,对于不同的业务场景,也可以准确的根据种子用户群的目标群体特征来确定潜在用户,同时,通过预设能量传播算法来确定潜在用户,可以抑制种子用户群中噪声的影响,提高潜在用户确定的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一种数据处理方法的流程示意图;
图2为本发明一种目标关系图的示意图;
图3为本发明另一种数据处理方法的流程示意图;
图4为本发明一种预设分类算法的示意图;
图5为本发明另一种目标关系的示意图;
图6为本发明又一种目标关系的示意图;
图7为本发明一种潜在用户查找服务的示意图;
图8为本发明一种数据处理装置的结构示意图;
图9为本发明一种电子设备的结构示意图。
具体实施方式
本发明实施例提供一种数据处理方法、装置及电子设备。
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都应当属于本发明保护的范围。
实施例一
如图1所示,本发明实施例提供一种数据处理方法,该方法的执行主体可以为服务器,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:
在S102中,获取种子用户群的目标群体特征。
其中,种子用户群为目标通信业务的使用群体,目标通信业务可以是任意通信业务,例如目标通信业务可以是4G套餐业务,种子用户群可以是当前已订购4G套餐业务的用户群,此外,目标通信业务可以包括一个或多个通信业务,种子用户群可以包括一个或多个目标通信业务的使用用户,目标群体特征可以是根据种子用户的属性信息确定的一个或多个群体特征,例如,种子用户群包括4个学生用户和1个非学生用户,则目标群体特征可以为“学生”。
在实施中,随着信息技术的快速发展,移动通信用户的数量日益增长,如何挖掘潜在客户,提高通信业务的使用率,已经成为运营商关注的焦点。目前,运营商可以根据用户的基本属性,对用户进行分类并进行贴标签处理,然后可以根据用户的标签,找到通信业务的潜在用户,并将该通信业务推荐给潜在用户,以提高该通信业务的使用率。例如,用户A和用户B都带有“学生”这一标签,如果用户B订购了通信业务1、通信业务2和通信业务3,用户A只订购了通信业务1,那么,用户A就是通信业务2和通信业务3的潜在用户,可以将通信业务2和通信业务3推荐为用户A。
但是,通过对用户的基本属性进行贴标签处理,以确定通信业务的潜在用户的方法,存在以下问题:由于不同的通信业务与用户的基本属性之间联系较少,而通信业务不断的发展,业务场景也不断的变化,通过标签来确定潜在用户,存在潜在用户确定准确性差的问题。
此外,除上述方法外,还可以通过算法模型,基于用户数据挖掘潜在用户,例如,可以根据逻辑回归算法、贝叶斯算法、支持向量机算法、随机森林算法等算法来构建算法模型,通过已订购某通信业务的用户数据和未订购该通信业务的用户数据对构建的算法模型进行训练,然后可以将候选用户的用户数据输入该已训练的算法模型,确定该候选用户是否为该通信业务的潜在用户。
但是,由于负反馈数据(即未订购某通信业务的用户数据)的获取方式较为困难,所以,无法准确的进行算法模型的训练,同时,由于通信业务场景是不断变化的,所以,在每次进行潜在用户挖掘时,都需要更新算法模型的训练数据,并重新对算法模型进行训练,这就导致潜在用户的挖掘过程较为繁琐,潜在用户的确定效率较低。
为此,本发明实施例提供另一种实现方案,具体可以包括以下内容:
以目标通信业务为4G套餐业务,可以从数据库系统中获取当前正在使用该目标通信业务的用户,这些用户即可以构成种子用户群。然后根据用户的信息,确定对应的种子用户群的目标群体特征。
目标群体特征的确定方法可以有多种,例如,可以通过聚类算法、层次分析算法等算法,对种子用户群中的用户的属性信息进行聚类分析,以得到可以表征种子用户群的群体特征的目标群体特征,本发明实施例对种子用户群的目标群体特征的确定方法不作具体限定。
在S104中,获取种子用户群的特征值中与目标群体特征对应的第一特征值,以及候选用户群的特征值中与目标群体特征对应的第二特征值。
在实施中,例如,目标通信业务为4G套餐业务,种子用户群为正在使用该目标通信业务的用户群,候选用户可以为学生群体,即在学生群体中挖掘出针对4G套餐业务的潜在用户。
可以根据目标群体特征,分别获取种子用户群的特征值中的第一特征值,以及候选用户群的特征值中的第二特征值。
在S106中,基于第一特征值、第二特征值,以及预设能量传播算法,确定候选用户群中每个候选用户的能量值。
在实施中,可以为种子用户群中的每个种子用户预设初始能量值(如可以为0.8),为候选用户群中的每个候选用户预设初始能量值(如可以为0.2),并根据第一特征值、第二特征值,以及预设能力传播算法,计算每个候选用户的能量值。
如图2所示,可以根据目标群体特征、第一特征值和第二特征值,构建对应的目标关系图,从图2可以看出,每个用户(包括种子用户和候选用户)周围存在的用户数量不同,周围存在的用户(包括种子用户和候选用户)的能量值也不同。所以,可以根据每个候选用户周围存在的用户的类型和初始能量值,计算每个候选用户的能量值。局部密度高的候选用户的能量值要比局部密度低的候选用户的能量值要高,可以通过多次迭代(即密度传播)的方式,来计算候选用户的能量值群基于预设能量传播算法,
在S108中,基于候选用户的能量值,确定针对目标通信业务的候选用户群中的潜在用户。
在实施中,可以根据候选用户的能量值,对候选用户进行排序,并根据排序结果,确定针对目标通信业务的候选用户群中的潜在用户,例如,可以将能量值排在前20的候选用户,作为潜在用户。
或者,还可以根据能量值阈值,确定潜在用户,例如,可以将能量值大于50的候选用户,作为潜在用户。
上述潜在用户的确定方法是一种可选地、可实现的确定方法,在实际应用场景中,还可以有多种确定方法,可以根据实际应用场景的不同而有所不同,本发明实施例对此不作具体限定。
本发明实施例提供一种数据处理方法,通过获取种子用户群的目标群体特征,种子用户群为目标通信业务的使用群体,获取种子用户群的特征值中与目标群体特征对应的第一特征值,以及候选用户群的特征值中与目标群体特征对应的第二特征值,基于第一特征值、所述第二特征值,以及预设能量传播算法,确定候选用户群中每个候选用户的能量值,基于候选用户的能量值,确定针对目标通信业务的候选用户群中的潜在用户。这样,由于通过获取种子用户群的目标群体特征,来获取第一特征值、第二特征值,所以,对于不同的业务场景,也可以准确的根据种子用户群的目标群体特征来确定潜在用户,同时,通过预设能量传播算法来确定潜在用户,可以抑制种子用户群中噪声的影响,提高潜在用户确定的准确性。
实施例二
如图3所示,本发明实施例提供一种数据处理方法,该方法的执行主体可以为服务器,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:
在S302中,获取预设时间段内,使用目标通信业务的第一用户信息,以及未使用目标通信业务的第二用户信息。
其中,预设时间段可以是任意时间段,例如,预设时间段可以是近三个月、近半年等。
在实施中,例如,可以获取近三个月内,订购4G套餐的第一用户信息,以及未订购4G套餐的第二用户信息。
在S304中,针对目标通信业务,预设多个不同的群体特征集。
其中,群体特征集中可以包括一个或多个预设群体特征。
在实际应用中,上述S304的处理方式可以多种多样,以下提供一种可选的实现方式,具体可以参见下述步骤一~步骤三处理。
步骤一,获取针对目标通信业务的群体特征。
在实施中,可以根据目标通信业务的业务属性,预设群体特征,或者,还可以根据使用目标通信业务的历史用户信息,确定目标通信业务的群体特征,目标通信业务的群体特征的确定方法可以有多种多样,可以根据实际应用场景的不同而有所不同,本发明实施例对此不做具体限定。
步骤二,基于预设特征选择算法,从目标通信业务的群体特征中选取出第一群体特征。
其中,特征选择算法可以包括信息熵特征选择算法、卡方校验特征选择算法。
在实施中,可以通过特征选择算法,从群体特征中选取出第一群体特征,例如,可以对群体特征进行打分,然后基于群体特征获取历史数据进行统计分析,计算出目标通信业务的使用概率熵,从而得到历史数据的平均信息量,在分别计算每个群体特征的属性上,得出信息增益值,可以将信息增益值较大的群体特征,作为第一群体特征,即通过信息熵特征选择算法,从目标通信业务的群体特征中选取出第一群体特征。
或者,还可以通过卡方校验特征选择算法,选取第一群体特征。其中,卡方校验特征选择算法主要是比较两个及两个以上群体特征样本率以及两个分类变量(即第一用户和第二用户)的关联性分析。
步骤三,基于第一群体特征,预设多个不同的群体特征集。
在实施中,在第一群体特征为多个群体特征的情况下,可以将这多个群体特征进行排列组合,并将组合后的特征集,作为预设的多个群体特征集。例如,第一群体特征包括特征1、特征2和特征3,则群体特征集可以包括群体特征集1(即包括特征1)、群体特征集2(即包括特征2)、群体特征集3(即包括特征3)、群体特征集4(即包括特征1和特征2)、群体特征集5(即包括特征2和特征3)等多个不同的群体特征集。
群体特征集的预设方法可以有多个,可以根据实际应用场景的不同而有所不同,本发明实施例对此不作具体限定。
此外,除上述步骤一~步骤四外,在实际应用场景中,上述S304的处理方式还可以包括下述实现方式:
在第一群体特征的维度大于预设维度阈值的情况下,将第一群体特征输入预先训练的降维模型,得到第二群体特征。
其中,降维模型为基于限制波尔兹曼机算法和历史特征确定的,用于对群体特征进行降维处理的模型。
基于第二群体特征,预设多个不同的群体特征集。
此外,在预设不同的群体特征集前,还可以对第一群体特征进行预处理,例如,对第一群体特征的预处理可以包括:将类别型字段进行索引映射编码处理、将类别型字段进行一维有效编码处理、将数值型字段进行归一化处理(如将数值型字段合并为向量,在进行归一化处理,针对每个向量的每个维度进行归一化处理)、将数值型合并的向量字段即所有类型字段合并为一个向量字段的处理等。
在S306中,基于第一用户信息、第二用户信息、群体特征集以及预设分类算法,确定与每个群体特征集对应的群体分类预测概率。
其中,预设分类算法可以是K-means分类算法、Knn分类算法等任意分类算法。
在实施中,如图4所示,可以将第一用户信息随机划分为两部分,一部分作为种子信息,一部分作*种子信息(或者也可以称为待评估种子信息),同样的,也可以将第二用户信息随机划分为非种子信息和*非种子信息(或者也可以成为待评估非种子信息),可以将种子信息和非种子信息输入预设分类算法进行算法的训练,然后将第一用户信息和第二用户信息(即包括种子信息、*种子信息、非种子信息和*非种子信息)在输入训练后的预设分类算法进行预测,并通过*种子信息和*非种子信息对预设分类算法的结果进行评估。
可以基于不同的群体特征集,分别通过预设分类算法、种子信息以及非种子信息,计算群体分类预测概率,并通过*种子信息和*非种子信息对预设分类算法进行评估。
在S308中,基于群体分类预测概率,确定多个不同的群体特征集中的目标群体特征集。
在实施中,可以将群体分类预测概率最高的群体分类预测概率对应的群体特征集,作为目标群体特征集。
在S310中,将目标群体特征集中的群体特征,作为种子用户群的目标群体特征。
在S312中,获取种子用户群的特征值中与目标群体特征对应的第一特征值,以及候选用户群的特征值中与目标群体特征对应的第二特征值。
在S314中,对第一特征值和第二特征值进行异常数据的检测和处理。
其中,异常数据的检测和处理包括但不限于:缺失值的检测和处理、异常值的检测和处理以及数据分布情况的检测和处理。
在实施中,可以对第一特征值和第二特征值进行异常数据的检测和处理,例如,可以对第一特征值和第二特征值进行数据信息扫描、系数类别修改、行过滤、列过滤、添加缺失标识以及填充等处理。其中,在进行行过滤、列过滤时,可以确定第一特征值和第二特征值中,是否存在缺失值,如果存在缺失值,可以进行填充处理,即对第一特征值和第二特征值进行缺失值的检测和处理。
在S316中,基于第一特征值、第二特征值,以及预设能量传播算法,确定候选用户群中每个候选用户的能量值。
在实际应用中,上述S316的处理方式可以多种多样,以下提供一种可选的实现方式,具体可以参见下述步骤一~步骤三处理。
步骤一,基于目标群体特征、第一特征值和第二特征值,构建目标关系图。
步骤二,基于预设的每个所述种子用户的初始能量值、预设的每个候选用户的初始能量值,以及每个候选用户在所述目标关系图中,与其他用户之间的位置关系,确定每个候选用户的能量值。
在实施中,在目标关系图中,基于每个种子用户的初始能量值以及与每个种子用户处于预设距离范围内的目标用户的初始能量值,确定每个种子用户的目标能量值。其中,目标用户包括种子用户和/或候选用户。
假设,构建的目标关系图如图2所示,那么如图5所示,针对种子用户1,可以将跟种子用户1处于预设距离范围内的目标用户及其初始能量值,确定该种子用户1的目标能量值。
获取与每个候选用户处于预设距离范围内的种子用户的目标能量值。
对于候选用户1,可以根据与该候选用户1处于预设距离范围内的种子用户的目标能量值,计算该候选用户1的目标能量值。
基于每个候选用户的初始能量值,以及与每个候选用户处于预设距离范围内的种子用户的目标能量值,确定每个候选用户的第一能量值。
获取每个候选用户的第一能量值,以及与每个候选用户处于预设距离范围内的种子用户的目标能量值,确定每个候选用户的能量值。
例如,可以假设种子用户的初始能量值为0.8,候选用户的初始能量值为0.2。假设a1、a2、a3为种子用户,a4、a5、a6、a7为候选用户,这7个用户的目标关系图可以如图6所示,基于图6中的位置关系,以及每个用户的初始能量,通过上述步骤,可以分别计算出每个用户(即种子用户或候选用户)到最终的能量值。
在S318中,基于候选用户的能量值,确定针对目标通信业务的候选用户群中的潜在用户。
上述S318的具体处理过程可以参见上述实施例一中S108的相关内容,在此不再赘述。
此外,可以基于公式
获取得到潜在用户的时间。其中,T为潜在用户的获取时间,t0~t6为预设经验参数,featureCount为目标群体特征的数量,allCount为候选用户的数量,executors为线程数,cores为核心数。即,潜在用户的获取时间可以为数据预处理的时间、第一特征的降维时间,以及预设传播算法的计算时间的总和。
此外,如图7所示,可以将上述执行步骤封装为API服务,并基于API服务和应用系统,为业务人员提供潜在用户查找服务。即,业务人员可以在应用系统中选择种子用户群,应用系统可以提取种子用户群中每个种子用户的号码、标签等信息,应用系统在接收到种子用户群的典型客户群特征的查询指令的情况下,可以通过算法服务API,获取种子用户群的目标群体特征(即执行上述S302~S310),作为种子用户群的典型客户群特征反馈给业务人员。当应用系统接收到业务人员的针对候选用户群的潜在用户的识别指令的情况下,可以提取候选用户群的用户信息,并通过算法服务API,获取潜在用户(即执行上述S312~S318),并返回给业务人员。
本发明实施例提供一种数据处理方法,通过获取种子用户群的目标群体特征,种子用户群为目标通信业务的使用群体,获取种子用户群的特征值中与目标群体特征对应的第一特征值,以及候选用户群的特征值中与目标群体特征对应的第二特征值,基于第一特征值、所述第二特征值,以及预设能量传播算法,确定候选用户群中每个候选用户的能量值,基于候选用户的能量值,确定针对目标通信业务的候选用户群中的潜在用户。这样,由于通过获取种子用户群的目标群体特征,来获取第一特征值、第二特征值,所以,对于不同的业务场景,也可以准确的根据种子用户群的目标群体特征来确定潜在用户,同时,通过预设能量传播算法来确定潜在用户,可以抑制种子用户群中噪声的影响,提高潜在用户确定的准确性。
实施例三
以上为本发明实施例提供的数据处理方法,基于同样的思路,本发明实施例还提供一种数据处理装置,如图8所示。
该数据处理装置包括:第一获取模块801、第二获取模块802、能量值确定模块803和用户确定模块804,其中:
第一获取模块801,用于获取种子用户群的目标群体特征,所述种子用户群为目标通信业务的使用群体;
第二获取模块802,用于获取所述种子用户群的特征值中与所述目标群体特征对应的第一特征值,以及候选用户群的特征值中与所述目标群体特征对应的第二特征值;
能量值确定模块803,用于基于所述第一特征值、所述第二特征值,以及预设能量传播算法,确定所述候选用户群中每个所述候选用户的能量值;
用户确定模块804,用于基于所述候选用户的能量值,确定针对所述目标通信业务的所述候选用户群中的潜在用户。
在本发明实施例中,所述第一获取模块801,用于:
获取预设时间段内,使用所述目标通信业务的第一用户信息,以及未使用所述目标通信业务的第二用户信息;
针对所述目标通信业务,预设多个不同的群体特征集,所述群体特征集中包括一个或多个预设群体特征;
基于所述第一用户信息、第二用户信息、所述群体特征集以及预设分类算法,确定与每个所述群体特征集对应的群体分类预测概率;
基于所述群体分类预测概率,确定所述多个不同的群体特征集中的目标群体特征集;
将所述目标群体特征集中的群体特征,作为所述种子用户群的目标群体特征。
在本发明实施例中,所述能量值确定模块803,用于:
基于所述目标群体特征、所述第一特征值和所述第二特征值,构建目标关系图;
基于预设的所述每个所述种子用户的初始能量值、预设的每个所述候选用户的初始能量值,以及每个所述候选用户在所述目标关系图中,与其他用户之间的位置关系,确定每个所述候选用户的能量值。
在本发明实施例中,所述能量值确定模块803,用于:
在所述目标关系图中,基于每个所述种子用户的初始能量值以及与每个种子用户处于预设距离范围内的所述目标用户的初始能量值,确定每个所述种子用户的目标能量值,所述目标用户包括所述种子用户和/或所述候选用户;
获取与每个所述候选用户处于所述预设距离范围内的所述种子用户的目标能量值;
基于每个所述候选用户的初始能量值,以及与每个所述候选用户处于所述预设距离范围内的所述种子用户的目标能量值,确定每个所述候选用户的第一能量值;
获取每个候选用户的第一能量值,以及与每个所述候选用户处于所述预设距离范围内的所述种子用户的目标能量值,确定每个所述候选用户的能量值。
在本发明实施例中,所述装置,还包括:
预处理模块,用于对所述第一特征值和所述第二特征值进行异常数据的检测和处理,所述异常数据的检测和处理包括但不限于:缺失值的检测和处理、异常值的检测和处理以及数据分布情况的检测和处理。
在本发明实施例中,所述第一获取模块801,用于:
获取针对所述目标通信业务的群体特征;
基于预设特征选择算法,从所述目标通信业务的群体特征中选取出第一群体特征,所述特征选择算法包括信息熵特征选择算法、卡方校验特征选择算法;
基于所述第一群体特征,预设所述多个不同的群体特征集。
在本发明实施例中,所述第一获取模块801,用于:
在所述第一群体特征的维度大于预设维度阈值的情况下,将所述第一群体特征输入预先训练的降维模型,得到第二群体特征,所述降维模型为基于限制波尔兹曼机算法和历史特征确定的,用于对群体特征进行降维处理的模型;
基于所述第二群体特征,预设所述多个不同的群体特征集。
本发明实施例提供一种数据处理装置,通过获取种子用户群的目标群体特征,种子用户群为目标通信业务的使用群体,获取种子用户群的特征值中与目标群体特征对应的第一特征值,以及候选用户群的特征值中与目标群体特征对应的第二特征值,基于第一特征值、所述第二特征值,以及预设能量传播算法,确定候选用户群中每个候选用户的能量值,基于候选用户的能量值,确定针对目标通信业务的候选用户群中的潜在用户。这样,由于通过获取种子用户群的目标群体特征,来获取第一特征值、第二特征值,所以,对于不同的业务场景,也可以准确的根据种子用户群的目标群体特征来确定潜在用户,同时,通过预设能量传播算法来确定潜在用户,可以抑制种子用户群中噪声的影响,提高潜在用户确定的准确性。
实施例四
图9为实现本发明各个实施例的一种电子设备的硬件结构示意图,该电子设备可以如上述实施例提供的服务器等。
该电子设备900包括但不限于:射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、处理器910、以及电源911等部件。本领域技术人员可以理解,图9中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,处理器910,用于:获取种子用户群的目标群体特征,所述种子用户群为目标通信业务的使用群体;获取所述种子用户群的特征值中与所述目标群体特征对应的第一特征值,以及候选用户群的特征值中与所述目标群体特征对应的第二特征值;基于所述第一特征值、所述第二特征值,以及预设能量传播算法,确定所述候选用户群中每个所述候选用户的能量值;基于所述候选用户的能量值,确定针对所述目标通信业务的所述候选用户群中的潜在用户。。
此外,所述处理器910,还用于:获取预设时间段内,使用所述目标通信业务的第一用户信息,以及未使用所述目标通信业务的第二用户信息;针对所述目标通信业务,预设多个不同的群体特征集,所述群体特征集中包括一个或多个预设群体特征;基于所述第一用户信息、第二用户信息、所述群体特征集以及预设分类算法,确定与每个所述群体特征集对应的群体分类预测概率;基于所述群体分类预测概率,确定所述多个不同的群体特征集中的目标群体特征集;将所述目标群体特征集中的群体特征,作为所述种子用户群的目标群体特征。
另外,所述处理器910,还用于:基于所述目标群体特征、所述第一特征值和所述第二特征值,构建目标关系图;基于预设的所述每个所述种子用户的初始能量值、预设的每个所述候选用户的初始能量值,以及每个所述候选用户在所述目标关系图中,与其他用户之间的位置关系,确定每个所述候选用户的能量值。
此外,所述处理器910,还用于:在所述目标关系图中,基于每个所述种子用户的初始能量值以及与每个种子用户处于预设距离范围内的所述目标用户的初始能量值,确定每个所述种子用户的目标能量值,所述目标用户包括所述种子用户和/或所述候选用户;获取与每个所述候选用户处于所述预设距离范围内的所述种子用户的目标能量值;基于每个所述候选用户的初始能量值,以及与每个所述候选用户处于所述预设距离范围内的所述种子用户的目标能量值,确定每个所述候选用户的第一能量值;获取每个候选用户的第一能量值,以及与每个所述候选用户处于所述预设距离范围内的所述种子用户的目标能量值,确定每个所述候选用户的能量值。
另外,所述处理器910,还用于:对所述第一特征值和所述第二特征值进行异常数据的检测和处理,所述异常数据的检测和处理包括但不限于:缺失值的检测和处理、异常值的检测和处理以及数据分布情况的检测和处理。
此外,所述处理器910,还用于:获取针对所述目标通信业务的群体特征;
基于预设特征选择算法,从所述目标通信业务的群体特征中选取出第一群体特征,所述特征选择算法包括信息熵特征选择算法、卡方校验特征选择算法;基于所述第一群体特征,预设所述多个不同的群体特征集。
另外,所述处理器910,还用于:在所述第一群体特征的维度大于预设维度阈值的情况下,将所述第一群体特征输入预先训练的降维模型,得到第二群体特征,所述降维模型为基于限制波尔兹曼机算法和历史特征确定的,用于对群体特征进行降维处理的模型;基于所述第二群体特征,预设所述多个不同的群体特征集。
本发明实施例提供一种电子设备,通过获取种子用户群的目标群体特征,种子用户群为目标通信业务的使用群体,获取种子用户群的特征值中与目标群体特征对应的第一特征值,以及候选用户群的特征值中与目标群体特征对应的第二特征值,基于第一特征值、所述第二特征值,以及预设能量传播算法,确定候选用户群中每个候选用户的能量值,基于候选用户的能量值,确定针对目标通信业务的候选用户群中的潜在用户。这样,由于通过获取种子用户群的目标群体特征,来获取第一特征值、第二特征值,所以,对于不同的业务场景,也可以准确的根据种子用户群的目标群体特征来确定潜在用户,同时,通过预设能量传播算法来确定潜在用户,可以抑制种子用户群中噪声的影响,提高潜在用户确定的准确性。
应理解的是,本发明实施例中,射频单元901可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器910处理;另外,将上行的数据发送给基站。通常,射频单元901包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元901还可以通过无线通信系统与网络和其它电子设备通信。
电子设备通过网络模块902为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
输入单元904用于接收音频或视频信号。输入单元904可以包括图形处理器(Graphics Processing Unit,GPU)9041和麦克风9042。处理后的图像帧可以显示在显示单元906上。经图形处理器9041处理后的图像帧可以存储在存储器909(或其它存储介质)中或者经由射频单元901或网络模块902进行发送。麦克风9042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元901发送到移动通信基站的格式输出。
显示单元906用于显示由用户输入的信息或提供给用户的信息。显示单元906可包括显示面板9061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板9061。
用户输入单元907可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元907包括触控面板9071以及其它输入设备9072。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器910,接收处理器910发来的命令并加以执行。进一步的,触控面板9071可覆盖在显示面板9061上,当触控面板9071检测到在其上或附近的触摸操作后,传送给处理器910以确定触摸事件的类型,随后处理器910根据触摸事件的类型在显示面板9061上提供相应的视觉输出。虽然在图9中,触控面板9071与显示面板9061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板9071与显示面板9061集成而实现电子设备的输入和输出功能,具体此处不做限定。
接口单元908为外部装置与电子设备900连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元908可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备900内的一个或多个元件或者可以用于在电子设备900和外部装置之间传输数据。
存储器909可用于存储软件程序以及各种数据。存储器909可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器909可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其它易失性固态存储器件。
处理器910是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器909内的软件程序和/或模块,以及调用存储在存储器909内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器910可包括一个或多个处理单元;优选的,处理器910可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器910中。
电子设备900还可以包括给各个部件供电的电源911(比如电池),优选的,电源911可以通过电源管理系统与处理器910逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
优选的,本发明实施例还提供一种电子设备,包括处理器910,存储器909,存储在存储器909上并可在所述处理器910上运行的计算机程序,该计算机程序被处理器910执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
实施例五
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本发明实施例提供一种计算机可读存储介质,通过获取种子用户群的目标群体特征,种子用户群为目标通信业务的使用群体,获取种子用户群的特征值中与目标群体特征对应的第一特征值,以及候选用户群的特征值中与目标群体特征对应的第二特征值,基于第一特征值、所述第二特征值,以及预设能量传播算法,确定候选用户群中每个候选用户的能量值,基于候选用户的能量值,确定针对目标通信业务的候选用户群中的潜在用户。这样,由于通过获取种子用户群的目标群体特征,来获取第一特征值、第二特征值,所以,对于不同的业务场景,也可以准确的根据种子用户群的目标群体特征来确定潜在用户,同时,通过预设能量传播算法来确定潜在用户,可以抑制种子用户群中噪声的影响,提高潜在用户确定的准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其它数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其它内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其它光学存储、磁盒式磁带,磁带磁磁盘存储或其它磁性存储设备或任何其它非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取种子用户群的目标群体特征,所述种子用户群为目标通信业务的使用群体;
获取所述种子用户群的特征值中与所述目标群体特征对应的第一特征值,以及候选用户群的特征值中与所述目标群体特征对应的第二特征值;
基于所述第一特征值、所述第二特征值,以及预设能量传播算法,确定所述候选用户群中每个所述候选用户的能量值;
基于所述候选用户的能量值,确定针对所述目标通信业务的所述候选用户群中的潜在用户。
2.根据权利要求1所的方法,其特征在于,所述获取种子用户群的目标群体特征,包括:
获取预设时间段内,使用所述目标通信业务的第一用户信息,以及未使用所述目标通信业务的第二用户信息;
针对所述目标通信业务,预设多个不同的群体特征集,所述群体特征集中包括一个或多个预设群体特征;
基于所述第一用户信息、第二用户信息、所述群体特征集以及预设分类算法,确定与每个所述群体特征集对应的群体分类预测概率;
基于所述群体分类预测概率,确定所述多个不同的群体特征集中的目标群体特征集;
将所述目标群体特征集中的群体特征,作为所述种子用户群的目标群体特征。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一特征值、所述第二特征值,以及预设能量传播算法,确定所述候选用户群中每个所述候选用户的能量值,包括:
基于所述目标群体特征、所述第一特征值和所述第二特征值,构建目标关系图;
基于预设的所述每个所述种子用户的初始能量值、预设的每个所述候选用户的初始能量值,以及每个所述候选用户在所述目标关系图中,与其他用户之间的位置关系,确定每个所述候选用户的能量值。
4.根据权利要求3所述的方法,其特征在于,所述基于预设的所述每个所述种子用户的初始能量值、预设的每个所述候选用户的初始能量值,以及每个所述候选用户在所述目标关系图中,与其他用户之间的位置关系,确定每个所述候选用户的能量值,包括:
在所述目标关系图中,基于每个所述种子用户的初始能量值以及与每个种子用户处于预设距离范围内的所述目标用户的初始能量值,确定每个所述种子用户的目标能量值,所述目标用户包括所述种子用户和/或所述候选用户;
获取与每个所述候选用户处于所述预设距离范围内的所述种子用户的目标能量值;
基于每个所述候选用户的初始能量值,以及与每个所述候选用户处于所述预设距离范围内的所述种子用户的目标能量值,确定每个所述候选用户的第一能量值;
获取每个候选用户的第一能量值,以及与每个所述候选用户处于所述预设距离范围内的所述种子用户的目标能量值,确定每个所述候选用户的能量值。
5.根据权利要求4所述的方法,其特征在于,在所述基于所述第一特征值、所述第二特征值,以及预设能量传播算法,确定所述候选用户群中每个所述候选用户的能量值之前,还包括:
对所述第一特征值和所述第二特征值进行异常数据的检测和处理,所述异常数据的检测和处理包括但不限于:缺失值的检测和处理、异常值的检测和处理以及数据分布情况的检测和处理。
6.根据权利要求2所述的方法,其特征在于,所述针对所述目标通信业务,预设多个不同的群体特征集,包括:
获取针对所述目标通信业务的群体特征;
基于预设特征选择算法,从所述目标通信业务的群体特征中选取出第一群体特征,所述特征选择算法包括信息熵特征选择算法、卡方校验特征选择算法;
基于所述第一群体特征,预设所述多个不同的群体特征集。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一群体特征,预设所述多个不同的群体特征集,包括:
在所述第一群体特征的维度大于预设维度阈值的情况下,将所述第一群体特征输入预先训练的降维模型,得到第二群体特征,所述降维模型为基于限制波尔兹曼机算法和历史特征确定的,用于对群体特征进行降维处理的模型;
基于所述第二群体特征,预设所述多个不同的群体特征集。
8.一种数据处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取种子用户群的目标群体特征,所述种子用户群为目标通信业务的使用群体;
第二获取模块,用于获取所述种子用户群的特征值中与所述目标群体特征对应的第一特征值,以及候选用户群的特征值中与所述目标群体特征对应的第二特征值;
能量值确定模块,用于基于所述第一特征值、所述第二特征值,以及预设能量传播算法,确定所述候选用户群中每个所述候选用户的能量值;
用户确定模块,用于基于所述候选用户的能量值,确定针对所述目标通信业务的所述候选用户群中的潜在用户。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010306695.1A CN113536848B (zh) | 2020-04-17 | 2020-04-17 | 一种数据处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010306695.1A CN113536848B (zh) | 2020-04-17 | 2020-04-17 | 一种数据处理方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113536848A true CN113536848A (zh) | 2021-10-22 |
CN113536848B CN113536848B (zh) | 2024-03-19 |
Family
ID=78093520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010306695.1A Active CN113536848B (zh) | 2020-04-17 | 2020-04-17 | 一种数据处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536848B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012098950A (ja) * | 2010-11-02 | 2012-05-24 | Nippon Telegr & Teleph Corp <Ntt> | 類似ユーザ抽出方法、類似ユーザ抽出装置、類似ユーザ抽出プログラム |
CN105005918A (zh) * | 2015-07-24 | 2015-10-28 | 金鹃传媒科技股份有限公司 | 一种基于用户行为数据和潜在用户影响力分析的在线广告推送方法及其推送评估方法 |
CN105447730A (zh) * | 2015-12-25 | 2016-03-30 | 腾讯科技(深圳)有限公司 | 目标用户定向方法及装置 |
CN105554140A (zh) * | 2015-12-24 | 2016-05-04 | 腾讯科技(深圳)有限公司 | 一种用户群体定位方法及服务器 |
CN105931079A (zh) * | 2016-04-29 | 2016-09-07 | 合网络技术(北京)有限公司 | 一种扩散种子用户的方法及装置 |
CN106204103A (zh) * | 2016-06-24 | 2016-12-07 | 有米科技股份有限公司 | 一种移动广告平台寻找相似用户的方法 |
CN108109004A (zh) * | 2017-12-18 | 2018-06-01 | 北京三快在线科技有限公司 | 相似人群扩展方法、装置及电子设备 |
CN108122123A (zh) * | 2016-11-29 | 2018-06-05 | 华为技术有限公司 | 一种扩展潜在用户的方法及装置 |
US20180293609A1 (en) * | 2016-05-05 | 2018-10-11 | Tencent Technology (Shenzhen) Company Limited | Target user directing method and apparatus and computer storage medium |
CN109034853A (zh) * | 2017-06-09 | 2018-12-18 | 北京京东尚科信息技术有限公司 | 基于种子用户寻找相似用户方法、装置、介质和电子设备 |
CN109903086A (zh) * | 2019-02-14 | 2019-06-18 | 北京奇艺世纪科技有限公司 | 一种相似人群扩展方法、装置及电子设备 |
US20190266624A1 (en) * | 2017-01-06 | 2019-08-29 | Tencent Technology (Shenzhen) Company Limited | Seed population diffusion method, device, information delivery system and storage medium |
CN110533447A (zh) * | 2019-06-06 | 2019-12-03 | 浙江口碑网络技术有限公司 | 数据筛选方法及装置、存储介质、电子装置 |
CN110610373A (zh) * | 2018-06-15 | 2019-12-24 | 中国移动通信集团有限公司 | 一种潜在客户挖掘处理方法及装置 |
CN110704612A (zh) * | 2019-08-09 | 2020-01-17 | 国家计算机网络与信息安全管理中心 | 一种社交群体发现方法、装置和存储介质 |
CN110839242A (zh) * | 2018-08-17 | 2020-02-25 | 中国移动通信集团广东有限公司 | 异常号码识别方法及装置 |
-
2020
- 2020-04-17 CN CN202010306695.1A patent/CN113536848B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012098950A (ja) * | 2010-11-02 | 2012-05-24 | Nippon Telegr & Teleph Corp <Ntt> | 類似ユーザ抽出方法、類似ユーザ抽出装置、類似ユーザ抽出プログラム |
CN105005918A (zh) * | 2015-07-24 | 2015-10-28 | 金鹃传媒科技股份有限公司 | 一种基于用户行为数据和潜在用户影响力分析的在线广告推送方法及其推送评估方法 |
CN105554140A (zh) * | 2015-12-24 | 2016-05-04 | 腾讯科技(深圳)有限公司 | 一种用户群体定位方法及服务器 |
CN105447730A (zh) * | 2015-12-25 | 2016-03-30 | 腾讯科技(深圳)有限公司 | 目标用户定向方法及装置 |
CN105931079A (zh) * | 2016-04-29 | 2016-09-07 | 合网络技术(北京)有限公司 | 一种扩散种子用户的方法及装置 |
US20180293609A1 (en) * | 2016-05-05 | 2018-10-11 | Tencent Technology (Shenzhen) Company Limited | Target user directing method and apparatus and computer storage medium |
CN106204103A (zh) * | 2016-06-24 | 2016-12-07 | 有米科技股份有限公司 | 一种移动广告平台寻找相似用户的方法 |
WO2018099177A1 (zh) * | 2016-11-29 | 2018-06-07 | 华为技术有限公司 | 一种扩展潜在用户的方法及装置 |
CN108122123A (zh) * | 2016-11-29 | 2018-06-05 | 华为技术有限公司 | 一种扩展潜在用户的方法及装置 |
US20190266624A1 (en) * | 2017-01-06 | 2019-08-29 | Tencent Technology (Shenzhen) Company Limited | Seed population diffusion method, device, information delivery system and storage medium |
CN109034853A (zh) * | 2017-06-09 | 2018-12-18 | 北京京东尚科信息技术有限公司 | 基于种子用户寻找相似用户方法、装置、介质和电子设备 |
CN108109004A (zh) * | 2017-12-18 | 2018-06-01 | 北京三快在线科技有限公司 | 相似人群扩展方法、装置及电子设备 |
CN110610373A (zh) * | 2018-06-15 | 2019-12-24 | 中国移动通信集团有限公司 | 一种潜在客户挖掘处理方法及装置 |
CN110839242A (zh) * | 2018-08-17 | 2020-02-25 | 中国移动通信集团广东有限公司 | 异常号码识别方法及装置 |
CN109903086A (zh) * | 2019-02-14 | 2019-06-18 | 北京奇艺世纪科技有限公司 | 一种相似人群扩展方法、装置及电子设备 |
CN110533447A (zh) * | 2019-06-06 | 2019-12-03 | 浙江口碑网络技术有限公司 | 数据筛选方法及装置、存储介质、电子装置 |
CN110704612A (zh) * | 2019-08-09 | 2020-01-17 | 国家计算机网络与信息安全管理中心 | 一种社交群体发现方法、装置和存储介质 |
Non-Patent Citations (4)
Title |
---|
YANG LI ET AL: "Data Stream Clustering Algorithm Based on Affinity Propagation and Density", 《ADVANCED MATERIALS RESEARCH》, vol. 267, pages 444 - 449 * |
廖锋: "一种基于密度传播理论的相似用户群识别方法研究与实现", 《数据通信》, no. 5, pages 31 - 34 * |
张旭等: "电信行业基于种子用户群扩展技术的定向营销研究与应用", 《电信科学》, vol. 34, no. 1, pages 166 - 173 * |
马莉婷: "数据挖掘技术在客户精细营销预测模型中的应用--以移动通信业务为例", 《闽江学院学报》, vol. 34, no. 5, pages 88 - 94 * |
Also Published As
Publication number | Publication date |
---|---|
CN113536848B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11074623B2 (en) | Method and device for pushing information | |
CN111709398B (zh) | 一种图像识别的方法、图像识别模型的训练方法及装置 | |
CN111310079A (zh) | 评论信息排序方法、装置、存储介质及服务器 | |
CN103248705B (zh) | 服务器、客户端及视频处理方法 | |
CN109993627B (zh) | 推荐方法、推荐模型的训练方法、装置和存储介质 | |
US11269966B2 (en) | Multi-classifier-based recommendation method and device, and electronic device | |
US11748452B2 (en) | Method for data processing by performing different non-linear combination processing | |
US20090063372A1 (en) | Context inference system and method thereof | |
CN107491985A (zh) | 电商平台的用户评分方法及装置、电子设备、存储介质 | |
CN112685578B (zh) | 一种多媒体信息内容提供方法及装置 | |
CN105022760A (zh) | 一种新闻推荐方法及装置 | |
CN113079123A (zh) | 一种恶意网站的检测方法、装置及电子设备 | |
CN111666485B (zh) | 一种信息推荐方法、装置及终端 | |
CN110196833A (zh) | 应用程序的搜索方法、装置、终端及存储介质 | |
CN109993562B (zh) | 一种满意度仿真方法、装置及终端设备 | |
CN102067566B (zh) | 用于位于分布式系统中的服务对象的用户接口 | |
CN113536848B (zh) | 一种数据处理方法、装置及电子设备 | |
CN116094907B (zh) | 投诉信息的处理方法、装置及存储介质 | |
CN114398993B (zh) | 基于标签数据的搜索信息召回方法、系统、装置和介质 | |
CN114268625B (zh) | 特征选择方法、装置、设备及存储介质 | |
CN115114106B (zh) | 一种出账任务处理方法、装置及设备 | |
CN111639260B (zh) | 内容推荐方法及其装置、存储介质 | |
CN111818548B (zh) | 一种数据的处理方法、装置及设备 | |
CN112561412B (zh) | 目标对象标识的确定方法、装置、服务器及存储介质 | |
CN111860655B (zh) | 用户的处理方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |