CN109639478A - 识别存在家庭关系客户的方法、装置、设备及介质 - Google Patents
识别存在家庭关系客户的方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN109639478A CN109639478A CN201811493732.3A CN201811493732A CN109639478A CN 109639478 A CN109639478 A CN 109639478A CN 201811493732 A CN201811493732 A CN 201811493732A CN 109639478 A CN109639478 A CN 109639478A
- Authority
- CN
- China
- Prior art keywords
- user
- relationship
- sample set
- identification
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/50—Network service management, e.g. ensuring proper service fulfilment according to agreements
- H04L41/5061—Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the interaction between service providers and their network customers, e.g. customer relationship management
- H04L41/5064—Customer relationship management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种识别存在家庭关系客户的方法、装置、设备及介质。该方法包括:获取目标位置的真实家庭用户;筛选目标位置处预设时间段中闲时通话天数所占比例大于第一预设比例的交往圈用户;将真实家庭用户和交往圈用户进行混合,得到基础用户;从基础用户中选取第二预设比例的用户作为训练样本集用户;基于已知家庭关系样本集用户的多个输入变量,剔除与用于识别家庭关系无关的输入变量,获取多个重要输入变量;对训练样本集用户的多个重要输入变量进行建模,获得模型输出规则,用于识别存在家庭关系的客户。根据本发明提供的技术方案,利用真实家庭用户和交往圈用户数据训练模型,并附加多个与识别家庭关系有关的变量,大幅提升预测准确度。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种识别存在家庭关系客户的方法、装置、设备及介质。
背景技术
现有的判断客户家庭关系的方法主要包括以下几种:
1、通过用户在CRM(客户关系管理)系统中订购家庭网产品的记录及订购的家庭成员关系进行判断家庭关系。
2、通过家庭微蜂窝型基站(FEMTO,Femtocell)进行家庭成员信息收集,定位服务管理模块,管理物理家庭信息及家庭成员,处理家庭基站信令数据和家庭区域内的用户定位分析。
3、通过用户在特定时间内的通话时间段数据进行检测和关联,将满足关联阈值的用户设为家庭成员。
综上所述,现有方法分别存在以下缺陷:
1、现有技术1中的设定条件中用户必须办理家庭网或类似产品,未办理用户及无法进行判断;且用户在办理过程中存在非家庭成员办理情况,对后续营销存在影响。
2、现有技术2中家庭基站FEMTO作为基本淘汰的产品已经基本没有业务办理量,存量用户保有量低,适用场景少。对整体用户分析无法提供有效支撑。
3、现有技术3中仅考虑用户的语音通话行为,未考虑位置、交往圈、特殊组合等关键影响因子,准确度有限。
发明内容
本发明实施例提供了一种识别存在家庭关系客户的方法、装置、设备及介质,利用真实家庭用户和交往圈用户数据训练模型,并附加多个与识别家庭关系有关的变量,大幅提升预测准确度。
第一方面,本发明实施例提供了一种识别存在家庭关系客户的方法,方法包括:
获取目标位置的真实家庭用户;
筛选所述目标位置处预设时间段中闲时通话天数所占比例大于第一预设比例的交往圈用户;
将所述真实家庭用户和所述交往圈用户进行混合,得到基础用户;
从所述基础用户中选取第二预设比例的用户作为训练样本集用户;
基于已知家庭关系样本集用户的多个输入变量,从所述多个输入变量中剔除与用于识别家庭关系无关的输入变量,获取多个重要输入变量;
对所述训练样本集用户的多个重要输入变量进行建模,获得存在家庭关系客户的模型输出规则;
根据所述模型输出规则,识别存在家庭关系的客户。
根据本发明所述的识别存在家庭关系客户的方法,所述基于已知家庭关系样本集用户的多个输入变量,从所述多个输入变量中剔除与用于识别家庭关系无关的输入变量,获取多个重要输入变量,包括:
获取所述基于已知家庭关系样本集用户的多个输入变量;
基于所述多个输入变量,通过数据审核和/或特征选择,从所述多个输入变量中获取多个重要输入变量。
根据本发明所述的识别存在家庭关系客户的方法,
所述多个输入变量包括如下项中的至少一种年龄差、夜间常驻小区是否重合、身份证是否相同、互相通话次数、交往圈重合数、是否同姓、是否属于同一集团网、互相通话天数、互相通话时长、忙时小区重合数、闲时小区重合数、使用相同国际移动设备识别码IMEI次数。
根据本发明所述的识别存在家庭关系客户的方法,
所述多个重要输入变量包括如下项中的至少一种年龄差、夜间常驻小区是否重合、身份证是否相同、互相通话次数、交往圈重合数、以及是否同姓。
根据本发明所述的识别存在家庭关系客户的方法,所述对所述训练样本集用户的多个重要输入变量进行建模,包括:
利用决策树算法C5.0,对所述训练样本集用户的多个重要输入变量进行建模,得到决策树模型。
根据本发明所述的识别存在家庭关系客户的方法,所述对所述训练样本集用户的多个重要输入变量进行建模,得到决策树模型,包括:
基于所述训练样本集用户的多个重要输入变量,得到所述多个重要输入变量中每一个变量的信息增益率;
根据所述多个重要输入变量中每一个变量的信息增益率,确定所述决策树模型的最佳分组变量和分割点;
根据所述最佳分组变量和分割点,得到决策树模型。
根据本发明所述的识别存在家庭关系客户的方法,所述方法还包括:
对所述决策树模型进行建模分析,得到所述多个重要输入变量中每一个变量所占的权重。
根据本发明所述的识别存在家庭关系客户的方法,所述方法还包括:
根据所述多个重要输入变量中每一个变量所占的权重,获得存在家庭关系客户的模型输出规则。
根据本发明所述的识别存在家庭关系客户的方法,所述方法还包括:
将所述基础用户中除所述训练样本集用户之外的用户作为验证样本集用户;
利用所述验证样本集用户,对所述模型输出规则进行评估。
根据本发明所述的识别存在家庭关系客户的方法,所述将所述真实家庭用户和所述交往圈用户进行混合,包括:
基于所述真实家庭用户,以家庭为单位,将属于同一家庭的用户进行两两组合,形成家庭关系对;
将所述家庭关系对和所述交往圈用户混合,得到基础用户。
第二方面,本发明实施例提供了一种识别存在家庭关系客户的装置,装置包括:
第一获取模块,用于获取目标位置的真实家庭用户;
筛选模块,用于筛选所述目标位置处预设时间段中闲时通话天数所占比例大于第一预设比例的交往圈用户;
混合模块,用于将所述真实家庭用户和所述交往圈用户进行混合,得到基础用户;
选取模块,用于从所述基础用户中选取第二预设比例的用户作为训练样本集用户;
剔除模块,用于基于已知家庭关系样本集用户的多个输入变量,从所述多个输入变量中剔除与用于识别家庭关系无关的输入变量,获取多个重要输入变量;
建模模块,用于对所述训练样本集用户的多个重要输入变量进行建模,获得存在家庭关系客户的模型输出规则;
识别模块,用于根据所述模型输出规则,识别存在家庭关系的客户。
根据本发明所述的识别存在家庭关系客户的装置,剔除模块具体用于:
获取所述基于已知家庭关系样本集用户的多个输入变量;
基于所述多个输入变量,通过数据审核和/或特征选择,从所述多个输入变量中获取多个重要输入变量。
根据本发明所述的识别存在家庭关系客户的装置,
所述多个输入变量包括如下项中的至少一种年龄差、夜间常驻小区是否重合、身份证是否相同、互相通话次数、交往圈重合数、是否同姓、是否属于同一集团网、互相通话天数、互相通话时长、忙时小区重合数、闲时小区重合数、使用相同国际移动设备识别码IMEI次数。
根据本发明所述的识别存在家庭关系客户的装置,
所述多个重要输入变量包括如下项中的至少一种年龄差、夜间常驻小区是否重合、身份证是否相同、互相通话次数、交往圈重合数、以及是否同姓。
根据本发明所述的识别存在家庭关系客户的装置,建模模块具体用于:
利用决策树算法C5.0,对所述训练样本集用户的多个重要输入变量进行建模,得到决策树模型。
根据本发明所述的识别存在家庭关系客户的装置,建模模块具体用于:
基于所述训练样本集用户的多个重要输入变量,得到所述多个重要输入变量中每一个变量的信息增益率;
根据所述多个重要输入变量中每一个变量的信息增益率,确定所述决策树模型的最佳分组变量和分割点;
根据所述最佳分组变量和分割点,得到决策树模型。
根据本发明所述的识别存在家庭关系客户的装置,装置还包括:
建模分析模块,用于对所述决策树模型进行建模分析,得到所述多个重要输入变量中每一个变量所占的权重。
根据本发明所述的识别存在家庭关系客户的装置,装置还包括:
模型输出规则获取模块,用于根据所述多个重要输入变量中每一个变量所占的权重,获得存在家庭关系客户的模型输出规则。
根据本发明所述的识别存在家庭关系客户的装置,装置还包括:
评估模块,用于将所述基础用户中除所述训练样本集用户之外的用户作为验证样本集用户;
利用所述验证样本集用户,对所述模型输出规则进行评估。
根据本发明所述的识别存在家庭关系客户的装置,混合模块具体用于:
基于所述真实家庭用户,以家庭为单位,将属于同一家庭的用户进行两两组合,形成家庭关系对;
将所述家庭关系对和所述交往圈用户混合,得到基础用户。
本发明实施例提供了一种识别存在家庭关系客户的设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
本发明实施例提供的识别存在家庭关系客户的方法、装置、设备及介质,利用真实家庭用户和交往圈用户数据训练模型,并附加多个与识别家庭关系有关的变量,大幅提升预测准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例的识别存在家庭关系客户的方法的流程示意图;
图2示出了本发明实施例的识别存在家庭关系客户的装置的结构示意图;
图3示出了本发明实施例的建模过程示意图;
图4示出了本发明实施例的数据处理流程示意图;
图5示出了本发明实施例的身份证是否相同是否属于重要变量的判断过程示意图;
图6示出了本发明实施例的夜间常驻小区是否重合是否属于重要变量的判断过程示意图;
图7示出了本发明实施例的C5.0决策树模型的示意图;
图8示出了本发明实施例的各个重要变量所占权重排名示意图;
图9示出了本发明实施例的各个重要变量所占权重大小示意图;
图10示出了本发明实施例的模型准确率评估示意图;
图11示出了本发明实施例的模型响应率评估示意图;
图12示出了本发明实施例提供的识别存在家庭关系客户的设备的硬件结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例可提供一种识别存在家庭关系客户的方法,参考图1,图1示出了本发明实施例的识别存在家庭关系客户的方法100的流程示意图,该方法包括:
S110,获取目标位置的真实家庭用户;
S120,筛选目标位置处预设时间段中闲时通话天数所占比例大于第一预设比例的交往圈用户;
S130,将真实家庭用户和交往圈用户进行混合,得到基础用户;
S140,从基础用户中选取第二预设比例的用户作为训练样本集用户;
S150,基于已知家庭关系样本集用户的多个输入变量,从多个输入变量中剔除与用于识别家庭关系无关的输入变量,获取多个重要输入变量;
S160,对训练样本集用户的多个重要输入变量进行建模,获得存在家庭关系客户的模型输出规则;
S170,根据模型输出规则,识别存在家庭关系的客户。
利用本发明提供的上述方案,通过利用真实家庭用户和交往圈用户数据训练模型,并附加多个与识别家庭关系有关的变量,大幅提升预测准确度。
本发明实施例可提供一种识别存在家庭关系客户的装置,参考图2,图2示出了本发明实施例的识别存在家庭关系客户的装置200的结构示意图,该装置包括:
第一获取模块210,用于获取目标位置的真实家庭用户;
筛选模块220,用于筛选目标位置处预设时间段中闲时通话天数所占比例大于第一预设比例的交往圈用户;
混合模块230,用于将真实家庭用户和交往圈用户进行混合,得到基础用户;
选取模块240,用于从基础用户中选取第二预设比例的用户作为训练样本集用户;
剔除模块250,用于基于已知家庭关系样本集用户的多个输入变量,从多个输入变量中剔除与用于识别家庭关系无关的输入变量,获取多个重要输入变量;
建模模块260,用于对训练样本集用户的多个重要输入变量进行建模,获得存在家庭关系客户的模型输出规则;
识别模块270,用于根据模型输出规则,识别存在家庭关系的客户。
利用本发明提供的上述方案,通过利用真实家庭用户和交往圈用户数据训练模型,并附加多个与识别家庭关系有关的变量,大幅提升预测准确度。
以下通过具体的实例,描述本发明实施例的可选的具体处理过程。需要说明的是,本发明的方案并不依赖于具体的算法,在实际应用中,可选用任何已知或未知的硬件、软件、算法、程序或其任意组合等来实现本发明的方案,只要是采用了本发明方案的实质思想,均落入本发明的保护范围。
参考图3,图3示出了本发明实施例的建模过程示意图,该过程包括如下几个步骤:
第一步,获取目标位置的真实家庭用户;筛选目标位置处一个月中闲时通话天数所占比例大于第一预设比例的交往圈用户;将真实家庭用户和交往圈用户进行混合,得到基础用户;从基础用户中选取第二预设比例的用户作为训练样本集用户。
作为一个示例,根据苏州分公司提供的真实家庭用户,形成家庭关系对,作为目标组;
随机选择苏州本地的三月份的闲时通话天数大于等于预设天数(例如三天)的本地交往圈作为对照组(并从对照组中剔除真实家庭关系对)。
将目标组用户和对照组用户随机混合在一起,得到基础用户,从基础用户中抽取诸如70%的样本作为模型训练集,剩余的30%的样本可以作为模型验证集。
第二步,基于多个输入变量,从多个输入变量中剔除与用于识别家庭关系无关的输入变量,获取多个重要输入变量。
作为一个示例,分析探索变量与目标(是否属于家庭关系)间的关联,主要包括基础属性、通信行为、夜间小区是否重合、交往圈重合数,可衍生新变量,通过数据审核、特征选择等,最终确定模型输入变量。
第三步:对训练样本集用户的多个重要输入变量进行建模,获得存在家庭关系客户的模型输出规则。
作为一个示例,利用训练样本,采用分类预测模型中的决策树模型构建数据挖掘模型,输出家庭关系客户明细特征,模型输出家庭关系可能性打分值。
第四步,利用验证样本集用户,对模型输出规则进行评估。
作为一个示例,通过验证样本对模型结果进行评估,其中验证样本为基础用户中除训练样本集用户之外的用户。
以下通过具体实例对样本数据的准备进行详细介绍,具体如下:
基础数据包括训练集和测试集,并且在一个实施例中,训练集和测试集分别占基础数据的70%和30%。在其他实施例中,可以调整训练集和测试集所占的比例。
用户群范围:苏州分公司提供的753个真实家庭组合,以家庭单位,两两组合,形成1662条家庭关系对,作为目标组;
此外,选取2018年3月份闲时通话天数大于等于3的交往圈用户作为对照组。
数据周期:2018年3月月末客户资料作为静态属性,3月本地号码与对端号间的通信行为作为动态属性。
目标用户:苏州分公司提供的753个真实家庭组合。
对照用户:2018年3月份闲时通话天数大于等于3的交往圈用户。
其中,在上述实施例中,关于训练集和测试集的详细介绍如下:
基础用户群共599975万,其中目标组用户299975个(由于目标用户数量过少,模型中使用分布节点平衡推进,复制180倍左右的目标用户),对照组用户300000个。
随机抽样其中70%作为训练集,用于模型构建;其余30%用户数据作为验证集,用于模型评估,保证2个样本集独立。
以下通过具体实例对变量筛选和数据处理进行详细介绍,具体如下:
基于多个输入变量,从多个输入变量中剔除与用于识别家庭关系无关的输入变量,获取多个重要输入变量。在本发明一实施例中,具有如下表所示的多个输入变量:
表1
参考图4,图4示出了本发明实施例的数据处理流程示意图。
作为一个示例,对上述输入变量进行数据处理,剔除部分与目标变量(是否属于家庭客户关系)无关的变量;并对数据(是否包含空值、无效值)进行审核并进行相应的处理,以保证数据质量。
以下通过具体实例介绍数据理解过程,具体如下:
作为一个示例,关于身份证是否相同。
参考图5,图5示出了本发明实施例的身份证是否相同是否属于重要变量的判断过程示意图;
如图5所示,在身份证相同的关系对中,98%是家庭关系,身份证不同的关系对中,约45%为家庭关系,因此身份证可作为重要变量。
其中,1表示身份证相同;0表示身份证不同;-1表示身份证未知。
作为一个示例,关于夜间常驻小区是否重合。
如图6所示,图6示出了本发明实施例的夜间常驻小区是否重合是否属于重要变量的判断过程示意图。其中,1代表夜间常驻小区重合,0代表夜间常驻小区不重合。
作为一个示例,如图6所示,在夜间常驻小区重合的关系对中,98%是家庭关系,夜间常驻小区非重合的关系对中,约40%为家庭关系,因此夜间常驻小区是否重合可以作为重要变量。
判断如表1所示的其余变量是否为重要变量的方法与上述方法类似,在此不再一一列举。
最终可得模型输入变量,如表2所示:
表2
序号 | 变量 | 备注 |
1 | 用户标识1 | 不作为输入变量 |
2 | 用户标识2 | 不作为输入变量 |
3 | 年龄差_TILE5 | 输入变量 |
4 | 夜间常驻小区是否重合 | 输入变量 |
5 | 身份证是否相同 | 输入变量 |
6 | 当月互相通话次数_TILE5 | 输入变量 |
7 | 共同交往圈数_TILE5 | 输入变量 |
8 | 是否同姓 | 输入变量 |
9 | 是否家庭 | 输入变量,目标字段 |
以下通过具体实例对模型构建进行详细介绍,具体如下:
基于训练样本集用户的多个重要输入变量,得到多个重要输入变量中每一个变量的信息增益率;根据多个重要输入变量中每一个变量的信息增益率,确定决策树模型的最佳分组变量和分割点;根据最佳分组变量和分割点,得到决策树模型。
作为一个示例,决策树C5.0算法的工作原理是根据提供最大信息增益的字段分割样本。然后通常会根据不同的字段再次分割由第一次分割定义的每个子样本,且此过程会重复下去直到无法继续分割子样本。最后,将重新检查最底层分割,并删除或修剪对模型值没有显著贡献的分割。
首先,通过决策树算法C5.0建模分类预测用户是否为潜在家庭关系客户,图7示出了本发明实施例的C5.0决策树模型的示意图。
参考图7,第一步,计算两个用户的年龄差;第二步,分箱操作,对互相通话次数和共同交往圈数进行分箱操作;第三步,过滤操作,对年龄差、互相通话次数和共同交往圈数进行过滤操作;第四步,特征选择:选择重要字段;第五步,过滤不重要字段;第六步,对70%的模型训练集和30%的模型验证集进行分区操作;最后生成模型输出规则。
其次,通过决策树算法C5.0建模分析,形成深度为6的树结构各个输入模型因素权重如图8所示。
参考图8,各个输入因素所占权重从高至低排名如下:互相通话次数、夜间常驻小区是否重合、年龄差、交往圈重合数、身份证是否相同、是否同姓。
其中,各个输入因素所占的权重大小参考图9。
如图9所示,互相通话次数、夜间常驻小区是否重合、年龄差、交往圈重合数、身份证是否相同、是否同姓所占权重大小依次为0.66、0.16、0.1、0.04、0.02、0.01。
以下对模型评估进行详细介绍,具体如下:
首先,进行模型准确率评估:
规则用于1-包含5个规则
规则1用于1.0(54922;0.99)
如果夜间常驻小区是否重合=1.000
并且(互相通话次数为0或(互相通话次数>=14,互相通话次数<=422))
则1.000
规则2用于1.0(11,597;0.965)
如果夜间常驻小区是否重合=1.000
并且(互相通话次数>=3,互相通话次数<14)
并且((年龄差>=0,年龄差<1.375)或(年龄差>=24,年龄差<=74)
则1.000
规则3用于1.0(6,768;0.9)
如果夜间常驻小区是否重合=0.000
并且(互相通话次数>=3,互相通话次数<14)
并且是否同姓=1.000
并且身份证是否相同=1
则1.000
规则4用于1.0(6,542;0.792)
如果夜间常驻小区是否重合=0.000
并且(互相通话次数>=14,互相通话次数<=422)
并且是否同姓=0.000
并且(年龄差>=0,年龄差<1.375)
并且身份证是否相同=0
则1.000
规则5用于1.0(5,905;1.0)
如果夜间常驻小区是否重合=0.000
并且(互相通话次数>=14,互相通话次数<=422)
并且是否同姓=1.000
并且身份证是否相同=1
并且(年龄差>=1.375,年龄差<=74)
则1.000
默认:0
下面以规则1为例介绍其具体含义,参见规则1,54922表示是家庭用户中有54922个用户满足如下特征:夜间常驻小区是否重合=1.000并且(互相通话次数为0或(互相通话次数>=14,互相通话次数<=422))。并且0.99表示规则1的可信度为0.99。
其中,互相通话次数为0或(互相通话次数>=14,互相通话次数<=422)代表对互相通话次数进行两次分箱操作。应该注意的是,其他规则所代表的具体含义与规则1相似,在此不再详述。
模型准确性分析给出模型总体准确率及预测差错矩阵。由于本模型旨在精确营销,因此主要关注模型的命中率(响应率)。
如图10所示,计算得出训练集中潜在家庭关系客户识别的整体准确率为90.99%,如公式(1)所示:
整体准确率:(189173+192887)/(189173+20882+16929+192887)*100%=90.99%(1)
计算得到命中率为91.19%,如公式(2)所示:
整体命中率:192887/(16929+192887)*100%=91.19% (2)
其次,进行模型响应率评估:
参考图11,图11a示出了本发明实施例的训练集模型响应率评估示意图,图11b示出了本发明实施例的测试集模型响应率评估示意图,
参见图11a,曲线1代表没有模型情况下命中率约为50%,曲线2代表有模型情况下命中率约为100%。
参见图11b,曲线1代表没有模型情况下命中率约为50%,曲线2代表有模型情况下命中率约为100%。
综上可见,潜在家庭关系客户识别的模型命中率较没有模型的情况下均提升2倍多。
另外,结合图1描述的本发明实施例的识别存在家庭关系客户的方法可以由识别存在家庭关系客户的设备来实现。图12示出了本发明实施例提供的识别存在家庭关系客户的设备的硬件结构示意图。
识别存在家庭关系客户的设备可以包括处理器1003以及存储有计算机程序指令的存储器1004。
图12是示出能够实现根据本发明实施例的通信方法和网络服务器的计算设备的示例性硬件架构的结构图。如图12所示,计算设备1000包括输入设备1001、输入接口1002、处理器1003、存储器1004、输出接口1005、以及输出设备1006。
其中,输入接口1002、处理器1003、存储器1004、以及输出接口1005通过总线1010相互连接,输入设备1001和输出设备1006分别通过输入接口1002和输出接口1005与总线1010连接,进而与计算设备1000的其他组件连接。
具体地,输入设备1001接收来自外部的输入信息,并通过输入接口1002将输入信息传送到处理器1003;处理器1003基于存储器1004中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器1004中,然后通过输出接口1005将输出信息传送到输出设备1006;输出设备1006将输出信息输出到计算设备1000的外部供用户使用。
计算设备1000可以执行本申请上述的通信方法中的各步骤。
处理器1003可以是一个或多个中央处理器(英文:Central Processing Unit,CPU)。在处理器1003是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
存储器1004可以是但不限于随机存储存储器(RAM)、只读存储器(ROM),可擦除可编程只读存储器(EPROM)、光盘只读存储器(CD-ROM)、硬盘等中的一种或多种。存储器1004用于存储程序代码。
可以理解的是,在本申请实施例中,图2提供的第一获取模块至识别模块中任一模块或全部模块的功能可以用图12所示的中央处理器1003实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
本说明书的各个部分均采用递进的方式进行描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点介绍的都是与其他实施例不同之处。尤其,对于装置和系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例部分的说明即可。
Claims (13)
1.一种识别存在家庭关系客户的方法,包括:
获取目标位置的真实家庭用户;
筛选所述目标位置处预设时间段中闲时通话天数所占比例大于第一预设比例的交往圈用户;
将所述真实家庭用户和所述交往圈用户进行混合,得到基础用户;
从所述基础用户中选取第二预设比例的用户作为训练样本集用户;
基于已知家庭关系样本集用户的多个输入变量,从所述多个输入变量中剔除与用于识别家庭关系无关的输入变量,获取多个重要输入变量;
对所述训练样本集用户的多个重要输入变量进行建模,获得存在家庭关系客户的模型输出规则;
根据所述模型输出规则,识别存在家庭关系的客户。
2.根据权利要求1所述的方法,其特征在于,所述基于已知家庭关系样本集用户的多个输入变量,从所述多个输入变量中剔除与用于识别家庭关系无关的输入变量,获取多个重要输入变量,包括:
获取所述基于已知家庭关系样本集用户的多个输入变量;
基于所述多个输入变量,通过数据审核和/或特征选择,从所述多个输入变量中获取多个重要输入变量。
3.根据权利要求1所述的方法,其特征在于,
所述多个输入变量包括如下项中的至少一种年龄差、夜间常驻小区是否重合、身份证是否相同、互相通话次数、交往圈重合数、是否同姓、是否属于同一集团网、互相通话天数、互相通话时长、忙时小区重合数、闲时小区重合数、使用相同国际移动设备识别码IMEI次数。
4.根据权利要求1所述的方法,其特征在于,
所述多个重要输入变量包括如下项中的至少一种年龄差、夜间常驻小区是否重合、身份证是否相同、互相通话次数、交往圈重合数、以及是否同姓。
5.根据权利要求1所述的方法,其特征在于,所述对所述训练样本集用户的多个重要输入变量进行建模,包括:
利用决策树算法C5.0,对所述训练样本集用户的多个重要输入变量进行建模,得到决策树模型。
6.根据权利要求5所述的方法,其特征在于,所述对所述训练样本集用户的多个重要输入变量进行建模,得到决策树模型,包括:
基于所述训练样本集用户的多个重要输入变量,得到所述多个重要输入变量中每一个变量的信息增益率;
根据所述多个重要输入变量中每一个变量的信息增益率,确定所述决策树模型的最佳分组变量和分割点;
根据所述最佳分组变量和分割点,得到决策树模型。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
对所述决策树模型进行建模分析,得到所述多个重要输入变量中每一个变量所占的权重。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
根据所述多个重要输入变量中每一个变量所占的权重,获得存在家庭关系客户的模型输出规则。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述基础用户中除所述训练样本集用户之外的用户作为验证样本集用户;
利用所述验证样本集用户,对所述模型输出规则进行评估。
10.根据权利要求1所述的方法,其特征在于,所述将所述真实家庭用户和所述交往圈用户进行混合,包括:
基于所述真实家庭用户,以家庭为单位,将属于同一家庭的用户进行两两组合,形成家庭关系对;
将所述家庭关系对和所述交往圈用户混合,得到基础用户。
11.一种识别存在家庭关系客户的装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标位置的真实家庭用户;
筛选模块,用于筛选所述目标位置处预设时间段中闲时通话天数所占比例大于第一预设比例的交往圈用户;
混合模块,用于将所述真实家庭用户和所述交往圈用户进行混合,得到基础用户;
选取模块,用于从所述基础用户中选取第二预设比例的用户作为训练样本集用户;
剔除模块,用于基于已知家庭关系样本集用户的多个输入变量,从所述多个输入变量中剔除与用于识别家庭关系无关的输入变量,获取多个重要输入变量;
建模模块,用于对所述训练样本集用户的多个重要输入变量进行建模,获得存在家庭关系客户的模型输出规则;
识别模块,用于根据所述模型输出规则,识别存在家庭关系的客户。
12.一种识别存在家庭关系客户的设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-10中任一项所述的方法。
13.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811493732.3A CN109639478A (zh) | 2018-12-07 | 2018-12-07 | 识别存在家庭关系客户的方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811493732.3A CN109639478A (zh) | 2018-12-07 | 2018-12-07 | 识别存在家庭关系客户的方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109639478A true CN109639478A (zh) | 2019-04-16 |
Family
ID=66071723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811493732.3A Pending CN109639478A (zh) | 2018-12-07 | 2018-12-07 | 识别存在家庭关系客户的方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109639478A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111866146A (zh) * | 2020-07-22 | 2020-10-30 | 中国联合网络通信集团有限公司 | 一种家庭用户的识别方法和装置 |
CN113163324A (zh) * | 2020-01-03 | 2021-07-23 | 中国移动通信集团江西有限公司 | 家庭用户识别方法及模块 |
CN115379051A (zh) * | 2021-05-17 | 2022-11-22 | 中国联合网络通信集团有限公司 | 家庭用户的识别方法、装置及设备 |
WO2024001102A1 (zh) * | 2022-06-30 | 2024-01-04 | 广东亿迅科技有限公司 | 一种通信行业家庭圈智能识别的方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101841607A (zh) * | 2010-04-28 | 2010-09-22 | 深圳天源迪科信息技术股份有限公司 | 获取固话与手机间家庭关联关系的方法 |
CN102693359A (zh) * | 2012-04-24 | 2012-09-26 | Tcl集团股份有限公司 | 一种建立家庭成员社交关系模型的方法及装置 |
CN106658564A (zh) * | 2016-11-17 | 2017-05-10 | 广州杰赛科技股份有限公司 | 一种家庭用户的识别方法及装置 |
US20180336488A1 (en) * | 2017-05-17 | 2018-11-22 | Microsoft Technology Licensing, Llc | Machine Learning Based Family Relationship Inference |
-
2018
- 2018-12-07 CN CN201811493732.3A patent/CN109639478A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101841607A (zh) * | 2010-04-28 | 2010-09-22 | 深圳天源迪科信息技术股份有限公司 | 获取固话与手机间家庭关联关系的方法 |
CN102693359A (zh) * | 2012-04-24 | 2012-09-26 | Tcl集团股份有限公司 | 一种建立家庭成员社交关系模型的方法及装置 |
CN106658564A (zh) * | 2016-11-17 | 2017-05-10 | 广州杰赛科技股份有限公司 | 一种家庭用户的识别方法及装置 |
US20180336488A1 (en) * | 2017-05-17 | 2018-11-22 | Microsoft Technology Licensing, Llc | Machine Learning Based Family Relationship Inference |
Non-Patent Citations (1)
Title |
---|
刘荣辉 等: "复杂电信社交网络中家庭群体的识别与应用", 《工业工程与管理》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113163324A (zh) * | 2020-01-03 | 2021-07-23 | 中国移动通信集团江西有限公司 | 家庭用户识别方法及模块 |
CN113163324B (zh) * | 2020-01-03 | 2022-11-29 | 中国移动通信集团江西有限公司 | 家庭用户识别方法及模块 |
CN111866146A (zh) * | 2020-07-22 | 2020-10-30 | 中国联合网络通信集团有限公司 | 一种家庭用户的识别方法和装置 |
CN111866146B (zh) * | 2020-07-22 | 2022-02-11 | 中国联合网络通信集团有限公司 | 一种家庭用户的识别方法和装置 |
CN115379051A (zh) * | 2021-05-17 | 2022-11-22 | 中国联合网络通信集团有限公司 | 家庭用户的识别方法、装置及设备 |
WO2024001102A1 (zh) * | 2022-06-30 | 2024-01-04 | 广东亿迅科技有限公司 | 一种通信行业家庭圈智能识别的方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109639478A (zh) | 识别存在家庭关系客户的方法、装置、设备及介质 | |
CN106792514B (zh) | 基于信令数据的用户职住地分析方法 | |
CN105824813B (zh) | 一种挖掘核心用户的方法及装置 | |
CN109784636A (zh) | 欺诈用户识别方法、装置、计算机设备及存储介质 | |
CN110298176A (zh) | 智能终端App权限隐私风险监测与评估系统及方法 | |
CN105721629A (zh) | 用户标识匹配方法和装置 | |
CN102083010A (zh) | 一种用户信息筛选方法和设备 | |
CN110298687B (zh) | 一种区域吸引力评估方法及设备 | |
CN109885474A (zh) | 测试用例编辑方法及装置、终端和计算机可读存储介质 | |
CN107357790A (zh) | 一种异常消息检测方法、装置及系统 | |
CN104504264A (zh) | 虚拟人建立方法及装置 | |
CN104965846B (zh) | MapReduce平台上的虚拟人建立方法 | |
CN110019996A (zh) | 一种家庭关系识别方法和系统 | |
CN112750030A (zh) | 风险模式识别方法、装置、设备及计算机可读存储介质 | |
CN110675069B (zh) | 地产行业客户签约风险预警方法、服务器及存储介质 | |
US11425635B2 (en) | Small cell identification using machine learning | |
CN114661463A (zh) | 基于bp神经网络的系统资源预测方法及系统 | |
CN113850669A (zh) | 用户分群方法、装置、计算机设备及计算机可读存储介质 | |
CN107659982B (zh) | 一种无线网络接入点的分类方法及装置 | |
CN112907308B (zh) | 数据检测方法和装置、计算机可读存储介质 | |
CN103425579A (zh) | 基于势函数的移动终端系统安全测评方法 | |
CN113377683B (zh) | 软件测试用例的生成方法、系统、设备、终端、介质及应用 | |
CN109992614A (zh) | 数据获取方法、装置和服务器 | |
Delavar et al. | ERPASD: A novel algorithm for integrated distributed reliable systems using data mining mechanisms | |
CN115967906A (zh) | 用户常驻位置识别方法、终端、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190416 |
|
RJ01 | Rejection of invention patent application after publication |