CN113946720A - 一种识别群组中用户的方法、装置及电子设备 - Google Patents
一种识别群组中用户的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113946720A CN113946720A CN202010694009.2A CN202010694009A CN113946720A CN 113946720 A CN113946720 A CN 113946720A CN 202010694009 A CN202010694009 A CN 202010694009A CN 113946720 A CN113946720 A CN 113946720A
- Authority
- CN
- China
- Prior art keywords
- information
- feature information
- feature
- communication number
- random forest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Abstract
本发明实施例提供了一种识别群组中用户的方法、装置及电子设备,包括:获取待识别的通信号码信息;从通信号码信息中提取出与通信号码相关联的特征信息,并将特征信息输入预先构建的随机森林识别模型,然后,通过随机森林识别模型识别通信号码信息对应的用户是否属于预设群组中的用户,其中,随机森林识别模型是根据CART算法生成的决策树生成的,在根据CART算法生成决策树的过程中,所采用的基尼系数为添加了目标特征信息的惩罚项的基尼系数,其中,目标特征信息包括:用户身份属性信息、终端标识信息、基站信息、地理位置信息中的一个或多个。通过本发明实施例,提高了对预设群组中的用户的识别效率且识别过程占用系统资源低、识别准确度高。
Description
技术领域
本发明涉及移动通信技术领域,尤其涉及一种识别群组中用户的方法、装置及电子设备。
背景技术
目前,随着移动通信技术的快速发展,移动终端(如智能手机等)已成为人们日常生活中必不可少的电子消费品,人们经常在各种场合各种地点使用智能手机,而用户在使用智能手机的过程中对数据流量的需求也日益增多。为了实现精准营销的目的,运营商们往往需要对用户的通信号码进行识别。现有的识别方法,往往采用的是建立预设通信行为数据库,然后将待识别用户的通讯行为数据与该数据库中的数据进行匹配,根据匹配程度来确定上述待识别的用户是否属于预设群组。
然而,上述方法中由于在进行数据匹配的过程中需要对数据库中的全部数据进行遍历,较为耗时且占用较多的系统资源,此外,根据用户之间的通信行为数据来确定用户是否属于预设群组(如某集团)的方法,受通信特征相似的通信号码影响干扰较大,导致识别结果的准确性较低。
发明内容
本发明实施例的目的是提供一种识别群组中用户的方法、装置及电子设备,以解决相关技术中识别过程较为耗时、占用较多的系统资源且识别准确度低的技术问题。
为了解决上述技术问题,本发明实施例是这样实现的:
第一方面,本发明实施例提供了一种识别群组中用户的方法,包括:
获取待识别的通信号码信息;
从所述通信号码信息中提取出与所述通信号码相关联的特征信息,其中,所述特征信息包括以下中的一项或多项:用户身份属性信息、终端标识信息、基站信息、地理位置信息;
将所述特征信息输入预先构建的随机森林识别模型,通过所述随机森林识别模型识别所述通信号码信息对应的用户是否属于预设群组中的用户;
其中,所述随机森林识别模型是根据CART算法生成的决策树生成的,在根据所述CART算法生成决策树的过程中,所采用的基尼系数为添加了目标特征信息的惩罚项的基尼系数,其中,所述目标特征信息包括:用户身份属性信息、终端标识信息、基站信息、地理位置信息中的一个或多个。
可选地,所述方法还包括:
获取第一特征信息集,所述第一特征信息集包括与多个通信号码相关联的特征信息,所述特征信息包括以下中的一项或多项:用户身份属性信息、终端标识信息、基站信息、地理位置信息;
对所述第一特征信息集中的特征信息进行可放回抽样,得到多个第二特征信息集;
计算所述第二特征信息集中各特征信息的基尼系数,其中,所述基尼系数为添加了目标特征信息的惩罚项的基尼系数,其中,所述目标特征信息包括:用户身份属性信息、终端标识信息、基站信息、地理位置信息中的一个或多个;
根据所述基尼系数,采用CART算法生成决策树;
根据所述决策树,生成随机森林识别模型。
可选地,在所述获取第一特征信息集之后,所述方法还包括:
对所述第一特征信息集中的特征信息进行筛选,将任意两个不同特征信息之间的相关系数大于第一预设阈值,且所述不同特征信息中重要度低的特征信息进行筛除,得到筛选后的第一特征信息集。
可选地,所述对所述第一特征信息集中的特征信息进行筛选,将任意两个不同特征信息之间的相关系数大于第一预设阈值,且所述不同特征信息中重要度低的特征信息进行筛除,得到筛选后的第一特征信息集,包括:
采用相关分析法计算所述第一特征信息集中任意两个不同特征信息之间的相关系数;
采用递归特征消除法确定各特征信息的重要性;
针对所述特征信息,将任意两个不同特征信息之间的相关系数大于第一预设阈值,且所述不同特征信息中重要度低的特征信息进行筛除,得到筛选后的第一特征信息集。
可选地,所述采用相关分析法计算所述第一特征信息集中两两特征信息之间的相关系数,包括:
采用斯皮尔曼等级相关系数方法计算所述第一特征信息集中任意两个不同特征信息之间的相关系数。
可选地,所述采用递归特征消除法确定各特征信息的重要性,包括:
将所述第一特征信息集中的任意两个不同特征信息进行组合;
将组合后的任意两个不同特征信息输入至SVM二分类模型中,得到特征信息的组合分值;
根据包含所述特征信息的多个所述组合分值,计算所述特征信息的重要性分值。
第二方面,本发明实施例提供了一种识别装置,包括:
第一获取模块,用于获取待识别的通信号码信息;
提取模块,用于从所述通信号码信息中提取出与所述通信号码相关联的特征信息,其中,所述特征信息包括以下中的一项或多项:用户身份属性信息、终端标识信息、基站信息、地理位置信息;
识别模块,用于将所述特征信息输入预先构建的随机森林识别模型,通过所述随机森林识别模型识别所述通信号码信息对应的用户是否属于预设群组中的用户;
其中,所述随机森林识别模型是根据CART算法生成的决策树生成的,在根据所述CART算法生成决策树的过程中,所采用的基尼系数为添加了目标特征信息的惩罚项的基尼系数,其中,所述目标特征信息包括:用户身份属性信息、终端标识信息、基站信息、地理位置信息中的一个或多个。
可选地,所述装置还包括:
第二获取模块,用于获取第一特征信息集,所述第一特征信息集包括与多个通信号码相关联的特征信息,所述特征信息包括以下中的一项或多项:用户身份属性信息、终端标识信息、基站信息、地理位置信息;
抽样模块,用于对所述第一特征信息集中的特征信息进行可放回抽样,得到多个第二特征信息集;
计算模块,用于计算所述第二特征信息集中各特征信息的基尼系数,其中,所述基尼系数为添加了目标特征信息的惩罚项的基尼系数,其中,所述目标特征信息包括:用户身份属性信息、终端标识信息、基站信息、地理位置信息中的一个或多个;
第一生成模块,用于根据所述基尼系数,采用CART算法生成决策树;
第二生成模块,用于根据所述决策树,生成随机森林识别模型。
可选地,所述装置还包括:
筛选模块,用于在所述获取第一特征信息集之后,对所述第一特征信息集中的特征信息进行筛选,将任意两个不同特征信息之间的相关系数大于第一预设阈值,且所述不同特征信息中重要度低的特征信息进行筛除,得到筛选后的第一特征信息集。
可选地,所述筛选模块,包括:
计算单元,用于采用相关分析法计算所述第一特征信息集中任意两个不同特征信息之间的相关系数;
确定单元,用于采用递归特征消除法确定各特征信息的重要性;
筛选单元,用于针对所述特征信息,将任意两个不同特征信息之间的相关系数大于第一预设阈值,且所述不同特征信息中重要度低的特征信息进行筛除,得到筛选后的第一特征信息集。
可选地,所述计算单元,用于:
采用斯皮尔曼等级相关系数装置计算所述第一特征信息集中任意两个不同特征信息之间的相关系数。
可选地,所述确定单元,用于:
将所述第一特征信息集中的任意两个不同特征信息进行组合;
将组合后的任意两个不同特征信息输入至SVM二分类模型中,得到特征信息的组合分值;
根据包含所述特征信息的多个所述组合分值,计算所述特征信息的重要性分值。
第三方面,本发明实施例提供了一种移动终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的识别群组中用户的方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的识别群组中用户的方法的步骤。
本发明实施例中的识别群组中用户的方法、装置及电子设备,通过获取待识别的通信号码信息;从通信号码信息中提取出与通信号码相关联的特征信息,并将特征信息输入预先构建的随机森林识别模型,然后,通过随机森林识别模型识别通信号码信息对应的用户是否属于预设群组中的用户,其中,随机森林识别模型是根据CART算法生成的决策树生成的,在根据CART算法生成决策树的过程中,所采用的基尼系数为添加了目标特征信息的惩罚项的基尼系数,其中,目标特征信息包括:用户身份属性信息、终端标识信息、基站信息、地理位置信息中的一个或多个。通过本发明实施例,提高了对预设群组中的用户的识别效率且识别过程占用系统资源低、识别准确度高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的识别群组中用户的方法的第一种流程示意图;
图2为本发明实施例提供的识别群组中用户的方法的第二种流程示意图;
图3为本发明实施例提供的识别群组中用户的方法的第三种流程示意图;
图4为本发明实施例提供的识别群组中用户的方法的第四种流程示意图;
图5为本发明实施例提供的识别群组中用户的方法的第五种流程示意图;
图6为本发明实施例提供的识别群组中用户的装置的第一种模块组成示意图;
图7为本发明实施例提供的识别群组中用户的装置的第二种模块组成示意图;
图8为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为了实现本发明的目的,本发明实施例提供了一种识别群组中用户的方法、装置及电子设备,通过获取待识别的通信号码信息,从通信号码信息中提取出与通信号码相关联的特征信息,并将特征信息输入预先构建的随机森林识别模型,然后,通过随机森林识别模型识别通信号码信息对应的用户是否属于预设群组中的用户,这样,通过使用预先构建的随机森林识别模型对群组中的用户进行识别,提高了对用户识别的识别效率且识别过程中占用系统资源低。由于在构建该随机森林识别模型时采用的基尼系数为添加了目标特征信息的惩罚项的基尼系数,提高了对群组中用户识别的准确率。
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图1所示,本发明实施例提供了一种识别群组中用户的方法,该方法的执行主体可以为服务器,其中,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群,而且,该服务器可以是能够识别群组中用户的服务器。该方法通过使用预先构建的随机森林识别模型对群组中的用户进行识别,提高了对用户识别的识别效率且识别过程中占用系统资源低。由于在构建该随机森林识别模型时采用的基尼系数为添加了目标特征信息的惩罚项的基尼系数,提高了对群组中用户识别的准确率。该方法具体可以包括以下步骤:
在S101中,获取待识别的通信号码信息。
其中,上述通信号码信息可以包括通信号码的属性信息,与通信号码相关联的用户的属性信息、与通信号码相关联的用户的通信行为信息等。上述通信号码的属性信息可以包括归属地信息、通信号码所属的运营商信息、通信号码所享有的流量套餐信息、通信套餐信息、短信套餐信息等。上述用户的属性信息可以包括用户在申请注册该通信号码时所提供的用户身份信息、家庭住址信息等。上述通信行为信息可以包括用户在使用数据流量上网时所产生的上网数据、用户通话过程中产生的信令数据等。
在实施中,目前,随着移动通信技术的快速发展,移动终端(如智能手机等)已成为人们日常生活中必不可少的电子消费品,人们经常在各种场合各种地点使用智能,而用户在使用智能手机的过程中对数据流量的需求也日益增多。为了实现精准营销的目的,运营商们往往需要对用户的通信号码进行识别。现有的识别用户是否属于预设群组(如某集团)中的用户的识别方法中,往往采用的是建立预设通信行为数据库,然后将待识别用户的通讯行为数据与该数据库中的数据进行匹配,根据匹配程度来确定上述待识别的用户是否属于预设群组(如某集团)中的用户。然而,上述方法中由于在匹配的过程中需要对数据库中的全部数据进行遍历,较为耗时且占用较多的系统资源,另外,通过数据库匹配的方式难免会产生遗漏,影响识别结果的准确性,此外,根据用户之间的通信行为数据来确定上述待识别的用户是否属于预设群组(如某集团)中的用户的方法,受通信特征相似的通信号码影响的干扰较大,导致识别结果的准确性较低。因此,需要提供一种能够提高识别效率且占用系统资源低、识别准确度高的技术方案,具体可以参见下述内容。
在实施中,服务器可以通过预设接口获取用户的通信信息,然后,从获取到的用户的通信信息中,获取待识别的通信号码信息。或者,服务器也可以通过预设接口直接获取待识别的通信号码信息。或者,服务器还可以通过预设接口获取预设时间段内的待识别的通信号码信息。
在S102中,从通信号码信息中提取出与通信号码相关联的特征信息,其中,特征信息包括以下中的一项或多项:用户身份属性信息、终端标识信息、基站信息、地理位置信息。
其中,上述用户身份属性信息可以包括:用户姓名、年龄、身份证号码等信息。上述终端标识信息可以包括:IMEI(International Mobile Equipment Identity,国际移动设备识别码)、IMSI(International Mobile Subscriber Identifier,国际移动用户识别码)等。基站信息可以包括用户通信行为所在位置的基站信息。地理位置信息可以包括:用户进行通信行为所在的地理位置或者用户发生通信行为所在的基站的位置信息。
在实施中,服务器通过上述S101的处理获取到待识别的通信号码信息后,可以通过预先构建的特征信息提取模型,对上述获取到待识别的通信号码信息进行特征提取,从而提取出与通信号码相关联的上述特征信息。
在S103中,将特征信息输入预先构建的随机森林识别模型,通过随机森林识别模型识别通信号码信息对应的用户是否属于预设群组中的用户。
其中,上述预先构建的随机森林识别模型可以是根据CART算法生成的多个决策树生成的,为了提高模型识别的准确性,在根据上述CART算法生成决策树的过程中,可以在计算基尼系数的过程中,将对识别模型影响度较高的特征信息(如用户通话过程中所在的位置信息等)作为目标特征信息的惩罚项添加到算法中,从而计算出添加了目标特征信息的惩罚项的基尼系数,然后,基于该添加了目标特征信息的惩罚项的基尼系数采用CART算法生成决策树,最终,由生成的多个决策树生成上述随机森林识别模型。上述目标特征信息包括:用户身份属性信息、终端标识信息、基站信息、地理位置信息中的一个或多个。
在实施中,服务器通过上述S102的处理将从通信号码信息中提取出与通信号码相关联的特征信息,将上述特征信息输入至预先构建的随机森林识别模型中,上述随机森林识别模型可以基于输入的特征信息对该用户是否属于预设群组中的用户进行分类判断,具体的,上述预先构建的随机森林模型中的每一棵CART决策树都可以对上述特征信息所对应的用户是否属于预设群组中的用户给出分类选择结果(如结果:是或否),然后,随机森林识别模型对上述多个CART决策树所作出的分类选择结果进行统计,例如,可以对各分类选择结果进行“投票”,将得到的票数最高的分类选择结果作为输出结果进行输出。
由以上本发明实施例提供的技术方案可见,本发明实施例通过获取待识别的通信号码信息,从通信号码信息中提取出与通信号码相关联的特征信息,并将特征信息输入预先构建的随机森林识别模型,然后,通过随机森林识别模型识别通信号码信息对应的用户是否属于预设群组中的用户的方法,这样,通过使用预先构建的随机森林识别模型对群组中的用户进行识别,提高了对用户识别的识别效率且识别过程中占用系统资源低。由于在构建该随机森林识别模型时采用的基尼系数为添加了目标特征信息的惩罚项的基尼系数,提高了对群组中用户识别的准确率。
进一步的,如图2所示,上述随机森林识别模型的构建方法可以多种多样,以下再提供一种可选的处理方式,具体可以参见下述S201-S205的处理过程。
在S201中,获取第一特征信息集,第一特征信息集包括与多个通信号码相关联的特征信息,特征信息包括以下中的一项或多项:用户身份属性信息、终端标识信息、基站信息、地理位置信息。
其中,上述第一特征信息集中的特征可以是从预先选取的预设数量的通信号码信息中提取出的特征信息,上述预先选取的预设数量的通信号码信息可以是按照一定的比例选取的正样本通信号码信息和负样本通信号码信息,例如,若构建用于识别某集团成员通信号码的随机森林识别模型,可以预先按照一定的比例(如1:2的比例)从获取到的通信号码信息中选取上述比例的集团成员的通信号码信息以及非集团成员的通信号码信息,然后,从上述获取到的通讯号码信息中提取特征信息,从而可以获得上述第一特征信息集。上述用户身份属性信息、终端标识信息、基站信息、地理位置信息中包含的信息可以与上述在S102中用户身份属性信息、终端标识信息、基站信息、地理位置信息中包含的信息相同也可以不同。
在S202中,对第一特征信息集中的特征信息进行可放回抽样,得到多个第二特征信息集。
具体的,例如若上述第一特征信息集中特征的个数为100个,则可以对上述第一特征集中的特征信息进行预设次数的有放回的抽样,例如,可以对上述第一特征集中的特征信息进行100次有放回的抽样,则可以得到100个第二特征信息集。
在S203中,计算第二特征信息集中各特征信息的基尼系数,其中,基尼系数为添加了目标特征信息的惩罚项的基尼系数,其中,目标特征信息包括:用户身份属性信息、终端标识信息、基站信息、地理位置信息中的一个或多个。
在实施中,对于本实施例中的任意一个上述第二特征信息集,假设该第二特征信息集为D,需要计算该第二特征信息集D中的各特征信息的基尼系数,针对第二特征信息集中的某个特征信息(如A),设该特征信息A有K种类别,第K个类别的概率为时,对于该第二特征信息集D该特征信息A的基尼系数(Gini,Gini coefficient/index)为:
如果根据特征信息A将第二特征信息集D切割为两部分D1和D2,对于在特征信息A确定的情况下第二特征信息集D的Gini系数为:
为了提高待构建的随机森林识别模型识别预设群组(如某组织或集团)中的用户的准确性,本实施例在上述公式(1)计算各特征信息的基尼系数过程中添加了目标特征信息的惩罚项,其中,该目标特征信息可以包括用户身份属性信息、终端标识信息、基站信息、地理位置信息中的一个或多个,这样,可以通过在计算各特征信息基尼系数中添加目标特征信息的惩罚项,可以自适应地加强目标特征信息在决策树分支中的决策作用,使得在后续切分第二特征信息集的时候,能在切分后的第二特征信息集中体现出信令位置数据的差异,进而提高了随机森林识别模型识别预设群组(如某集团)中的用户的准确性。
上述目标特征信息的惩罚项可以为:其中,M为该目标特征信息所包含的的总类别数,为第m个类别的概率,为惩罚系数,一般为常数。本申请实施例中所采用的添加了目标特征信息惩罚项的基尼系数,如下述公式(3)所示:
在S204中,根据基尼系数,采用CART算法生成决策树。
在实施中,以第二特征信息集D为例,设第二特征信息集D中的特征信息的样本数阈值为δ,Gini系数阈值∈;根据上述第二特征信息集D,可以从根结点开始,按照递归的方式对每个子结点进行以下操作,构建CART决策树:
步骤一,服务器通过上述S203的处理计算出上述第二特征信息集中各特征信息的基尼系数后,可以从上述计算出的基尼系数中选取Gini系数最小的特征信息(如Am),计算该特征信息的所有可能切分点的基尼系数Gini(D,A),选取基尼系数最小值时切分点a进行切分,得到两个子集D1、D2,记为两个子节点。
步骤二:判断上述子节点中包含的特征信息的样本数是否小于样本数阈值δ,上述计算出的基尼系数Gini(D1)是否小于Gini系数阈值∈。
步骤三:在上述子节点中包含的特征信息的样本数小于样本数阈值δ,或,上述计算出的基尼系数Gini(D1)是否小于Gini系数阈值∈的情况下,结束该分支的递归。
步骤四:在上述子节点中包含的特征信息的样本数大于样本数阈值δ,且,上述计算出的基尼系数Gini(D1)大于Gini系数阈值∈的情况下,令D=D1,重复执行上述步骤一至步骤四的过程,直到结束分支的递归。
在S205中,根据决策树,生成随机森林识别模型。
在实施中,服务器通过上述S204的处理,通过CART算法生成多个决策树后,可以根据生成的多个决策树生成随机森林识别模型。
进一步的,考虑到上述获取到的特征信息集中的特征信息中可能存在相似度高的特征信息,从而会导致过拟合的问题,影响随机森林识别模型识别的准确性,因此,本申请实施例为了提高待生成的随机森林识别模型的准确性,如图3所示,在上述获取第一特征信息集之后,还可以包括下述S206的处理过程。
在S206中,对第一特征信息集中的特征信息进行筛选,将任意两个不同特征信息之间的相关系数大于第一预设阈值,且不同特征信息中重要度低的特征信息进行筛除,得到筛选后的第一特征信息集。
具体的,例如,第一预设阈值为75%,第一特征信息集中包括A、B、C三个特征信息,其中,特征信息A与特征信息B之间的相关系数为90%,特征A与特征信息C之间的相关系数为70%,特征信息B与特征信息C之间的相关系数为60%,特征信息A的重要度为93%,特征信息B的重要度为89%,特征信息C的重要度为69%,由于上述特征信息A与特征信息B之间的相关系数为90%大于第一预设阈值,特征信息B的重要度小于特征信息A的重要度,则将特征信息B筛除,得到筛选后的第一特征信息集,此时,该第一特征信息集中包括特征信息A和特征信息C这两个特征信息。
其中,如图4所示,上述S206的具体处理过程可以多种多样,以下再提供一种可选的处理过程,具体可以参见下述S2061-S2063的处理过程。
在S2061中,采用相关分析法计算第一特征信息集中任意两个不同特征信息之间的相关系数。
在实施中,本申请实施例中可以采用的相关分析法可以包括:图表相关分析法、协方差及协方差矩阵相关分析法、相关系数分析法、一元回归及多元回归相关分析法、信息熵及互信息分析法等。
为了使所采用的相关分析算法能够更好的适用于分类型变量和连续性变量,如图5所示,上述S2061的处理过程可以多种多样,以下再提供一种可选的处理方法,具体可以参见下述S20611的具体处理过程。
在S20611中,采用斯皮尔曼等级相关系数方法计算第一特征信息集中任意两个不同特征信息之间的相关系数。
具体的,假设上述第一特征信息集中包括的特征信息的样本数量为n,将上述第一特征信息集中的各个特征信息按照预设规则转化成等级数据,例如,对于特征信息A和特征信息B,将特征信息A和特征信息B分别转化成包含多个元素的集合进行排序(同时按照升序排序或同时按照降序排序),得到特征信息A的元素排行集合X和得到特征信息B的元素排行集合Y,其中,元素xi、yi分别为元素xi在集合X中的排行以及yi在集合Y中的排行。然后,将集合X、Y中的元素对应相减得到一个排行差分集合d,其中:
di=xi-yi,1≤i≤n (4)
这样,通过上述公式(4)可以得到排行差分集合d中的元素di,根据得到的di可以通过下述公式(5),计算出特征信息A与特征信息B之间的斯皮尔曼等级相关系数ρ,特征信息A与特征信息B之间的斯皮尔曼等级相关系数ρ为:
在S2062中,采用递归特征消除法确定各特征信息的重要性。
在实施中,服务器通过上述处理获取到第一特征信息集中的特征信息后,可以采用递归特征消除法确定各个特征信息的重要性,并可以对确定的各个特征信息的重要性进行排序。
在S2063中,针对特征信息,将任意两个不同特征信息之间的相关系数大于第一预设阈值,且不同特征信息中重要度低的特征信息进行筛除,得到筛选后的第一特征信息集。
进一步的,上述递归特征消除法(Recursive Feature Elimination,RFE)是一种基于支持向量机(Support Vector Machine,SVM)二分类模型的特征选择方法。服务器在获取到上述第一特征信息集中的特征信息后,可以调用SVM二分类模型来确定各特征信息的重要性,上述S2062的处理方法可以多种多样,以下再提供一种可选的处理方式,具体可以参见下述处理过程。
步骤一,将第一特征信息集中的任意两个不同特征信息进行组合。
在实施中,服务器在获取到上述第一特征信息集中的特征信息后,可以对上述第一特征信息集中的特征信息进行初始化,得到初始化的第一特征信息集合S,如下述公式(6)所示为经过初始化的第一特征信息集合,其中,xi标识通信号码,yj标识该通信号码所对应的特征信息,l表示特征信息的数量,N表示初始化的第一特征信息集合S中的样本数量。
步骤二,将组合后的任意两个不同特征信息输入至SVM二分类模型中,得到特征信息的组合分值。
步骤三,根据包含特征信息的多个组合分值,计算特征信息的重要性分值。
在实施中,服务器可以通过下述公式(7),计算出各个特征信息的分值cj,其中,cj的计算公式如下述所示:
通过上述公式(7)得到各个特征信息的分值后,可以从上述得到的各个特征信息对应的分值中,筛选出分值最小的特征信息,并对该筛选出的特征信息进行标记。然后,服务器重复执行上述步骤一至步骤三的处理过程,直到晒到最后一个特征信息为止,根据筛选出的特征信息的顺序即可得到特征信息的重要性分值。
由以上本发明实施例提供的技术方案可见,本发明实施例通过获取待识别的通信号码信息,从通信号码信息中提取出与通信号码相关联的特征信息,并将特征信息输入预先构建的随机森林识别模型,然后,通过随机森林识别模型识别通信号码信息对应的用户是否属于预设群组中的用户的方法,这样,通过使用预先构建的随机森林识别模型对群组中的用户进行识别,提高了对用户识别的识别效率且识别过程中占用系统资源低。由于在构建该随机森林识别模型时采用的基尼系数为添加了目标特征信息的惩罚项的基尼系数,提高了对群组中用户识别的准确率。
对应上述实施例提供的识别群组中用户的方法,基于相同的技术构思,本发明实施例还提供了一种识别群组中用户的装置,图6为本发明实施例提供的识别群组中用户的装置的第一种模块组成示意图,该识别群组中用户的装置用于执行图1至图5描述的识别群组中用户的方法,如图6所示,该识别群组中用户的装置包括:
第一获取模块601,用于获取待识别的通信号码信息;
提取模块,用于从所述通信号码信息中提取出与所述通信号码相关联的特征信息,其中,所述特征信息包括以下中的一项或多项:用户身份属性信息、终端标识信息、基站信息、地理位置信息;
识别模块602,用于将所述特征信息输入预先构建的随机森林识别模型,通过所述随机森林识别模型识别所述通信号码信息对应的用户是否属于预设群组中的用户;
其中,所述随机森林识别模型是根据CART算法生成的决策树生成的,在根据所述CART算法生成决策树的过程中,所采用的基尼系数为添加了目标特征信息的惩罚项的基尼系数,其中,所述目标特征信息包括:用户身份属性信息、终端标识信息、基站信息、地理位置信息中的一个或多个。
可选地,如图7所示,所述装置还包括:
第二获取模块701,用于获取第一特征信息集,所述第一特征信息集包括与多个通信号码相关联的特征信息,所述特征信息包括以下中的一项或多项:用户身份属性信息、终端标识信息、基站信息、地理位置信息;
抽样模块702,用于对所述第一特征信息集中的特征信息进行可放回抽样,得到多个第二特征信息集;
计算模块703,用于计算所述第二特征信息集中各特征信息的基尼系数,其中,所述基尼系数为添加了目标特征信息的惩罚项的基尼系数,其中,所述目标特征信息包括:用户身份属性信息、终端标识信息、基站信息、地理位置信息中的一个或多个;
第一生成模块704,用于根据所述基尼系数,采用CART算法生成决策树;
第二生成模块705,用于根据所述决策树,生成随机森林识别模型。
可选地,所述装置还包括:
筛选模块,用于在所述获取第一特征信息集之后,对所述第一特征信息集中的特征信息进行筛选,将任意两个不同特征信息之间的相关系数大于第一预设阈值,且所述不同特征信息中重要度低的特征信息进行筛除,得到筛选后的第一特征信息集。
可选地,所述筛选模块,包括:
计算单元,用于采用相关分析法计算所述第一特征信息集中任意两个不同特征信息之间的相关系数;
确定单元,用于采用递归特征消除法确定各特征信息的重要性;
筛选单元,用于针对所述特征信息,将任意两个不同特征信息之间的相关系数大于第一预设阈值,且所述不同特征信息中重要度低的特征信息进行筛除,得到筛选后的第一特征信息集。
可选地,所述计算单元,用于:
采用斯皮尔曼等级相关系数装置计算所述第一特征信息集中任意两个不同特征信息之间的相关系数。
可选地,所述确定单元,用于:
将所述第一特征信息集中的任意两个不同特征信息进行组合;
将组合后的任意两个不同特征信息输入至SVM二分类模型中,得到特征信息的组合分值;
根据包含所述特征信息的多个所述组合分值,计算所述特征信息的重要性分值。
由以上本发明实施例提供的技术方案可见,本发明实施例通过获取待识别的通信号码信息,从通信号码信息中提取出与通信号码相关联的特征信息,并将特征信息输入预先构建的随机森林识别模型,然后,通过随机森林识别模型识别通信号码信息对应的用户是否属于预设群组中的用户的方法,这样,通过使用预先构建的随机森林识别模型对群组中的用户进行识别,提高了对用户识别的识别效率且识别过程中占用系统资源低。由于在构建该随机森林识别模型时采用的基尼系数为添加了目标特征信息的惩罚项的基尼系数,提高了对群组中用户识别的准确率。
本发明实施例提供的识别群组中用户的装置能够实现上述识别群组中用户的方法对应的实施例中的各个过程,为避免重复,这里不再赘述。
需要说明的是,本发明实施例提供的识别群组中用户的装置与本发明实施例提供的识别群组中用户的方法基于同一发明构思,因此该实施例的具体实施可以参见前述识别群组中用户的方法的实施,重复之处不再赘述。
对应上述实施例提供的识别群组中用户的方法,基于相同的技术构思,本发明实施例还提供了一种电子设备,该设备用于执行上述的识别群组中用户的方法,图8为实现本发明各个实施例的一种电子设备的结构示意图,如图8所示,电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器801和存储器802,存储器802中可以存储有一个或一个以上存储应用程序或数据。其中,存储器802可以是短暂存储或持久存储。存储在存储器802的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对电子设备中的一系列计算机可执行指令。更进一步地,处理器801可以设置为与存储器802通信,在电子设备上执行存储器802中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源803,一个或一个以上有线或无线网络接口804,一个或一个以上输入输出接口805,一个或一个以上键盘806。
具体在本实施例中,电子设备包括有处理器、通信接口、存储器和通信总线;其中,所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序,实现以下方法步骤:
获取待识别的通信号码信息;
从所述通信号码信息中提取出与所述通信号码相关联的特征信息,其中,所述特征信息包括以下中的一项或多项:用户身份属性信息、终端标识信息、基站信息、地理位置信息;
将所述特征信息输入预先构建的随机森林识别模型,通过所述随机森林识别模型识别所述通信号码信息对应的用户是否属于预设群组中的用户;
其中,所述随机森林识别模型是根据CART算法生成的决策树生成的,在根据所述CART算法生成决策树的过程中,所采用的基尼系数为添加了目标特征信息的惩罚项的基尼系数,其中,所述目标特征信息包括:用户身份属性信息、终端标识信息、基站信息、地理位置信息中的一个或多个。
本申请实施例还提供一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现以下方法步骤:
获取待识别的通信号码信息;
从所述通信号码信息中提取出与所述通信号码相关联的特征信息,其中,所述特征信息包括以下中的一项或多项:用户身份属性信息、终端标识信息、基站信息、地理位置信息;
将所述特征信息输入预先构建的随机森林识别模型,通过所述随机森林识别模型识别所述通信号码信息对应的用户是否属于预设群组中的用户;
其中,所述随机森林识别模型是根据CART算法生成的决策树生成的,在根据所述CART算法生成决策树的过程中,所采用的基尼系数为添加了目标特征信息的惩罚项的基尼系数,其中,所述目标特征信息包括:用户身份属性信息、终端标识信息、基站信息、地理位置信息中的一个或多个。
由以上本发明实施例提供的技术方案可见,本发明实施例通过获取待识别的通信号码信息,从通信号码信息中提取出与通信号码相关联的特征信息,并将特征信息输入预先构建的随机森林识别模型,然后,通过随机森林识别模型识别通信号码信息对应的用户是否属于预设群组中的用户的方法,这样,通过使用预先构建的随机森林识别模型对群组中的用户进行识别,提高了对用户识别的识别效率且识别过程中占用系统资源低。由于在构建该随机森林识别模型时采用的基尼系数为添加了目标特征信息的惩罚项的基尼系数,提高了对群组中用户识别的准确率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,电子设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、装置或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种识别群组中用户的方法,其特征在于,所述方法包括:
获取待识别的通信号码信息;
从所述通信号码信息中提取出与所述通信号码相关联的特征信息,其中,所述特征信息包括以下中的一项或多项:用户身份属性信息、终端标识信息、基站信息、地理位置信息;
将所述特征信息输入预先构建的随机森林识别模型,通过所述随机森林识别模型识别所述通信号码信息对应的用户是否属于预设群组中的用户;
其中,所述随机森林识别模型是根据CART算法生成的决策树生成的,在根据所述CART算法生成决策树的过程中,所采用的基尼系数为添加了目标特征信息的惩罚项的基尼系数,其中,所述目标特征信息包括:用户身份属性信息、终端标识信息、基站信息、地理位置信息中的一个或多个。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第一特征信息集,所述第一特征信息集包括与多个通信号码相关联的特征信息,所述特征信息包括以下中的一项或多项:用户身份属性信息、终端标识信息、基站信息、地理位置信息;
对所述第一特征信息集中的特征信息进行可放回抽样,得到多个第二特征信息集;
计算所述第二特征信息集中各特征信息的基尼系数,其中,所述基尼系数为添加了目标特征信息的惩罚项的基尼系数,其中,所述目标特征信息包括:用户身份属性信息、终端标识信息、基站信息、地理位置信息中的一个或多个;
根据所述基尼系数,采用CART算法生成决策树;
根据所述决策树,生成随机森林识别模型。
3.根据权利要求2所述的方法,其特征在于,在所述获取第一特征信息集之后,所述方法还包括:
对所述第一特征信息集中的特征信息进行筛选,将任意两个不同特征信息之间的相关系数大于第一预设阈值,且所述不同特征信息中重要度低的特征信息进行筛除,得到筛选后的第一特征信息集。
4.根据权利要求3所述的方法,其特征在于,所述对所述第一特征信息集中的特征信息进行筛选,将任意两个不同特征信息之间的相关系数大于第一预设阈值,且所述不同特征信息中重要度低的特征信息进行筛除,得到筛选后的第一特征信息集,包括:
采用相关分析法计算所述第一特征信息集中任意两个不同特征信息之间的相关系数;
采用递归特征消除法确定各特征信息的重要性;
针对所述特征信息,将任意两个不同特征信息之间的相关系数大于第一预设阈值,且所述不同特征信息中重要度低的特征信息进行筛除,得到筛选后的第一特征信息集。
5.根据权利要求4所述的方法,其特征在于,所述采用相关分析法计算所述第一特征信息集中两两特征信息之间的相关系数,包括:
采用斯皮尔曼等级相关系数方法计算所述第一特征信息集中任意两个不同特征信息之间的相关系数。
6.根据权利要求4所述的方法,其特征在于,所述采用递归特征消除法确定各特征信息的重要性,包括:
将所述第一特征信息集中的任意两个不同特征信息进行组合;
将组合后的任意两个不同特征信息输入至SVM二分类模型中,得到特征信息的组合分值;
根据包含所述特征信息的多个所述组合分值,计算所述特征信息的重要性分值。
7.一种识别群组中用户的装置,其特征在于,所述装置包括:
第一获取模块,用于获取待识别的通信号码信息;
提取模块,用于从所述通信号码信息中提取出与所述通信号码相关联的特征信息,其中,所述特征信息包括以下中的一项或多项:用户身份属性信息、终端标识信息、基站信息、地理位置信息;
识别模块,用于将所述特征信息输入预先构建的随机森林识别模型,通过所述随机森林识别模型识别所述通信号码信息对应的用户是否属于预设群组中的用户;
其中,所述随机森林识别模型是根据CART算法生成的决策树生成的,在根据所述CART算法生成决策树的过程中,所采用的基尼系数为添加了目标特征信息的惩罚项的基尼系数,其中,所述目标特征信息包括:用户身份属性信息、终端标识信息、基站信息、地理位置信息中的一个或多个。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取第一特征信息集,所述第一特征信息集包括与多个通信号码相关联的特征信息,所述特征信息包括以下中的一项或多项:用户身份属性信息、终端标识信息、基站信息、地理位置信息;
抽样模块,用于对所述第一特征信息集中的特征信息进行可放回抽样,得到多个第二特征信息集;
计算模块,用于计算所述第二特征信息集中各特征信息的基尼系数,其中,所述基尼系数为添加了目标特征信息的惩罚项的基尼系数,其中,所述目标特征信息包括:用户身份属性信息、终端标识信息、基站信息、地理位置信息中的一个或多个;
第一生成模块,用于根据所述基尼系数,采用CART算法生成决策树;
第二生成模块,用于根据所述决策树,生成随机森林识别模型。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线;其中,所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序,实现如权利要求1-6任一项所述的识别群组中用户的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的识别群组中用户的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010694009.2A CN113946720A (zh) | 2020-07-17 | 2020-07-17 | 一种识别群组中用户的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010694009.2A CN113946720A (zh) | 2020-07-17 | 2020-07-17 | 一种识别群组中用户的方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113946720A true CN113946720A (zh) | 2022-01-18 |
Family
ID=79326992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010694009.2A Pending CN113946720A (zh) | 2020-07-17 | 2020-07-17 | 一种识别群组中用户的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113946720A (zh) |
-
2020
- 2020-07-17 CN CN202010694009.2A patent/CN113946720A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112464084B (zh) | 基于大数据定位和人工智能的业务优化方法及云计算中心 | |
CN107563429B (zh) | 一种网络用户群体的分类方法及装置 | |
CN112950231A (zh) | 一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质 | |
CN112464105B (zh) | 基于大数据定位的互联网平台信息推送方法及云计算中心 | |
CN111309614B (zh) | A/b测试方法、装置及电子设备 | |
CN111080304A (zh) | 一种可信关系识别方法、装置及设备 | |
CN111078876A (zh) | 一种基于多模型集成的短文本分类方法和系统 | |
CN111090807A (zh) | 一种基于知识图谱的用户识别方法及装置 | |
CN111008620A (zh) | 目标用户识别方法、装置及存储介质、电子设备 | |
CN115830649A (zh) | 一种网络资产指纹特征的识别方法、装置及电子设备 | |
CN108509545B (zh) | 一种文章的评论处理方法及系统 | |
CN110866249A (zh) | 一种动态检测恶意代码的方法、装置及电子设备 | |
CN112784008B (zh) | 案件相似度确定方法及装置、存储介质、终端 | |
CN110532773B (zh) | 恶意访问行为识别方法、数据处理方法、装置和设备 | |
CN112199388A (zh) | 陌电识别方法、装置、电子设备及存储介质 | |
CN113946720A (zh) | 一种识别群组中用户的方法、装置及电子设备 | |
CN107766373B (zh) | 图片所属类目的确定方法及其系统 | |
CN116303379A (zh) | 一种数据处理方法、系统及计算机储存介质 | |
CN111539576B (zh) | 一种风险识别模型的优化方法及装置 | |
CN112650931B (zh) | 一种内容推荐方法 | |
CN112488140A (zh) | 一种数据关联方法及装置 | |
CN109359462B (zh) | 虚假设备识别方法、设备、存储介质及装置 | |
Katarya et al. | Analyzing customer sentiments using machine learning techniques to improve business performance | |
CN112464970A (zh) | 区域价值评估模型处理方法、装置及计算设备 | |
CN114339859B (zh) | 识别全屋无线网络WiFi潜在用户的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |