CN110677446A - 一种家庭群组用户的识别方法及装置 - Google Patents

一种家庭群组用户的识别方法及装置 Download PDF

Info

Publication number
CN110677446A
CN110677446A CN201810717669.0A CN201810717669A CN110677446A CN 110677446 A CN110677446 A CN 110677446A CN 201810717669 A CN201810717669 A CN 201810717669A CN 110677446 A CN110677446 A CN 110677446A
Authority
CN
China
Prior art keywords
user
family
intimacy
call
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810717669.0A
Other languages
English (en)
Inventor
梅铮
吴洁璇
郭欣
包芊颖
郭建军
柯于皇
徐海勇
刘虹
陶涛
黄岩
江勇
张媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongchang (hangzhou) Information Technology Co Ltd
China Mobile Communications Group Co Ltd
Original Assignee
Zhongchang (hangzhou) Information Technology Co Ltd
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongchang (hangzhou) Information Technology Co Ltd, China Mobile Communications Group Co Ltd filed Critical Zhongchang (hangzhou) Information Technology Co Ltd
Priority to CN201810717669.0A priority Critical patent/CN110677446A/zh
Publication of CN110677446A publication Critical patent/CN110677446A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/52Network services specially adapted for the location of the user terminal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5061Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the interaction between service providers and their network customers, e.g. customer relationship management
    • H04L41/5064Customer relationship management

Landscapes

  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开一种家庭群组用户的识别方法及装置,属于通信技术领域,该方法包括:针对指定区域内的每一用户终端,将该用户终端和其通话记录中的用户终端组成两两一组的用户对,之后,利用预先训练的决策树对每个用户对中两个用户终端之间的通话记录和这两个用户终端上报的位置信息进行挖掘,确定该用户对是否属于家庭用户对,根据用户的消费能力确定挖掘出的家庭用户对中两个用户终端中的主用户终端,进而将主用户终端相同的用户对确定为一个家庭群组用户,这样,可以挖掘出更多的家庭用户对,方便电信运营商推广家庭业务。

Description

一种家庭群组用户的识别方法及装置
技术领域
本申请涉及通信技术领域,尤其涉及一种家庭群组用户的识别方法及装置。
背景技术
目前,国内电信业务在各方面的竞争都日益剧烈,电信运营商除了要在传统业务继续保持高竞争优势外,还要不断拓展新兴业务市场,其中,家庭群组用户市场成为各大电信运营商新的重要的业务增长点,如何从海量用户中识别出家庭群组用户成为当前亟待解决的问题。
现有技术中,根据用户预留的家庭住址和办理家庭业务的情况来识别家庭群组用户,可识别出的家庭群组用户的数量非常很小,以亲情网业务为例,从当前办理亲情网业务的用户情况来看,每月仅百万用户处于亲情网业务范畴,仅占全部用户的8%左右,这样,非常不利于电信运营商推广家庭业务。
发明内容
本申请实施例提供一种家庭群组用户的识别方法及装置,用以从现网用户中尽可能多的识别出家庭群组用户。
第一方面,本申请实施例提供的一种家庭群组用户的识别方法,包括:
获取指定区域内的用户终端在预设时间段内产生的通话记录和上报的位置信息;
将每一用户终端和该用户终端通话记录中的用户终端组成两两一组的用户对;
将每个用户对中两个用户终端之间的通话记录和所述两个用户终端上报的位置信息输入到预先训练的决策树中,根据决策树的输出确定该用户对是否属于家庭用户对,所述决策树是根据用于衡量家庭用户对中两个用户终端之间亲密度的亲密度指标构建的;
针对属于家庭用户对的每个用户对,将该用户对中消费能力较强的用户终端确定为主用户终端,将主用户终端相同的用户对确定为一个家庭群组用户。
本申请实施例中,针对指定区域内的每一用户终端,将该用户终端和其通话记录中的用户终端组成两两一组的用户对,之后,利用预先训练的决策树对每个用户对中两个用户终端之间的通话记录和这两个用户终端上报的位置信息进行分析,确定该用户对是否属于家庭用户对,对确定的每一家庭用户对,可将该用户对中消费能力较强的用户终端确定为主用户终端,进而将主用户终端相同的用户对确定为一个家庭群组用户,相比于现有技术中仅凭用户预留的家庭住址和办理家庭业务的情况来识别家庭群组用户的方法,可挖掘出更多的家庭用户对,方便电信运营商推广家庭业务。
第二方面,本申请实施例提供的一种家庭群组用户的识别装置,包括:
获取模块,用于获取指定区域内的用户终端在预设时间段内产生的通话记录和上报的位置信息;
组对模块,用于将每一用户终端和该用户终端通话记录中的用户终端组成两两一组的用户对;
家庭用户对确定模块,用于将每个用户对中两个用户终端之间的通话记录和所述两个用户终端上报的位置信息输入到预先训练的决策树中,根据决策树的输出确定该用户对是否属于家庭用户对,所述决策树是根据用于衡量家庭用户对中两个用户终端之间亲密度的亲密度指标构建的;
家庭群组用户确定模块,用于针对属于家庭用户对的每个用户对,将该用户对中消费能力较强的用户终端确定为主用户终端,将主用户终端相同的用户对确定为一个家庭群组用户。
第三方面,本申请实施例提供的一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中:
存储器存储有可被至少一个处理器执行的指令,该指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述家庭群组用户的识别方法。
第四方面,本申请实施例提供的一种计算机可读介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述家庭群组用户的识别方法。
另外,第二方面至第四方面中任一种设计方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果,此处不再赘述。
本申请的这些方面或其它方面在以下实施例的描述中会更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的家庭群组用户的识别方法的流程示意图;
图2为本申请实施例提供的识别家庭群组用户的流程示意图;
图3为本申请实施例提供的家庭群组用户的识别方法的流程图;
图4为本申请实施例提供的用于实现家庭群组用户的识别方法的终端的结构图;
图5为本申请实施例提供的一种家庭群组用户的识别装置的结构示意图。
具体实施方式
为了从现网用户中尽可能多的识别出家庭群组用户,本申请实施例提供了一种家庭群组用户的识别方法及装置。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
为了便于理解本申请,本申请涉及的技术术语中:
家庭群组用户,并非指传统意义上有血缘关系或者法律上认定的家庭关系成员,而是指连续若干个月使用过移动业务,存在某种非工作方面密切联系的小团体,例如情侣、兄弟姐妹、父母与子女、闺蜜之间都可以形成家庭群组用户。
有效交往用户终端,与某用户终端发生通信行为且具有相对稳定性和紧密程度的用户终端。
参见图1,图1示出了本申请实施例提供的家庭群组用户的识别方法的流程示意图,在具体实施时,可以先获取指定区域内各用户终端在预设时间段内产生的通话记录和上报的位置信息,然后针对每一用户终端,将该用户终端和其通话记录中的用户终端组成两两一组的用户对,再将每个用户对中两个用户终端之间的通话记录和这两个用户终端上报的位置信息输入到预先训练的决策树中,根据决策树的输出确定该用户对是否属于家庭用户对,比如决策树的输出0代表非家庭用户对,决策树的输出1代表家庭用户对,针对确定出的每个家庭用户对,可将该用户对中消费能力较强的用户终端确定为主用户终端,进而将主用户终端相同的用户对确定为一个家庭群组用户。
其中,决策树是根据用于衡量家庭用户对中两个用户终端之间亲密度的亲密度指标构建的,且是利用用户对样本中两个用户终端之间的通话记录和这两个用户终端上报的位置信息进行训练的,这里,每一用户对样本是否属于家庭用户对的属性已知,比如,属于家庭用户对的属性为1;属于非家庭用户对的属性为0。
具体地,如图2所示,为识别家庭群组用户的流程示意图,包括以下几个阶段:
第一阶段:模型输入数据预处理。
第一步:数据准备。
这里,准备的数据有每一用户的通话记录、用户基础信息、用户位置信息、用户家庭业务信息以及一些其他信息,其中,用户基础信息如用户的手机号码,用户的位置信息如用户所使用的终端所上报的位置更新信令,其他信息如用户的代缴费信息等。
第二步:用户有效交往圈生成,并组成用户对。
具体实施时,可预设一些有效用户终端筛选规则,如剔除工作时间内的通话号码,剔除服务号码和公共号码,剔除广告诈骗类、快递类号码等,之后,利用这些筛选规则对每一用户终端通话记录中的用户终端进行筛选,从而得到该用户终端的有效交往圈,进而可将该用户终端和有效交往圈中的每一用户终端进行两两组合,得到多个用户对。
第三步:确定用于衡量亲密度的指标。
这里,用于衡量一个用户对中两个用户终端之间亲密度的指标可分为两类,一类为通话亲密度指标,如总通话次数;主叫通话次数;总通话时长;主叫通话时长;工作日夜间通话次数;工作日夜间主叫通话次数;工作日午间通话次数;工作日午间主叫通话次数;工作日夜间通话时长;工作日夜间主叫通话时长;工作午间通话时长;工作日午间主叫通话时长;周末通话次数;周末主叫通话次数;周末通话时长;周末主叫通话时长;一类为位置亲密度指标,如位置轨迹排名大于预设值的基站的重合度;工作日午间位置轨迹排名大于预设值的基站的重合度;工作日夜间位置轨迹排名大于预设值的基站的重合度;周末位置轨迹排名大于预设值的基站的重合度,这里,工作日夜间和工作日午间为泛指概念,具体的时间段可由技术人员指定,比如,工作日夜间指周一到周五每天19:00~00:00的时间段,工作日午间指周一到周五每天12:00~13:00的时间段。
其中,对位置亲密度指标而言,位置轨迹排名大于预设值的基站的重合度可反映出一个用户对中两个用户同时出现在一个基站覆盖区域内的频度,即可反映出这两个用户终端之间地理位置的接近程度,比如,用户对(A,B),T1时刻A用户所使用终端上报的位置更新信令中的基站为B1,T1时刻B用户使用的终端上报的位置更新信令中的基站也为B1,则对用户对(A,B)而言,基站B1的重合度加1;T2时刻A用户所使用终端上报的位置更新信令中的基站为B2,T2时刻B用户使用的终端上报的位置更新信令中的基站也为B2,则对用户对(A,B)而言,基站B2的重合度加1……分析完获取到的A、B用户分别所使用终端上报的位置更新信令以后,可对各基站的重合度进行排名,选出重合度排名大于预设值的基站,将这些基站的重合度之和确定为用户对(A,B)位置轨迹排名大于预设值的基站的重合度。而不同时间段内同一个用户对中两个用户的位置轨迹排名大于预设值的基站的重合度可更好地反应出这两个用户是否属于家庭用户,因此,还可结合时间段再对位置亲密度指标进行划分。
在具体实施时,各省市可以根据实际情况来选择自己所用的通话亲密度指标和位置亲密度指标,在此不再赘述。
第四步:计算每个用户对中两个用户终端之间的亲密度。
针对每个用户对,可分析该用户对中两个用户终端之间的通话记录确定每项通话亲密度指标的取值,进而根据每项通话亲密度指标的取值和该项通话亲密度指标的权重确定这两个用户终端之间的通话亲密度;类似地,可分析这两个用户所用终端上报的位置信息确定每项位置亲密度指标的取值,根据每项位置亲密度指标的取值和该项位置亲密度指标的权重确定这两个用户终端之间的位置亲密度,最后,根据这两个用户终端之间的通话亲密度和位置亲密度确定这两个用户终端之间的亲密度,比如,两个用户终端之间的亲密度可等于这两个用户终端之间的通话亲密度和位置亲密度之和。
在具体实施时,用于确定用户对中两个用户终端之间的亲密度的各项指标的权重可以由技术人员根据经验指定,也可利用熵权法对每个用户对样本中两个用户终端的之间的通话记录和这两个用户终端上报的位置信息进行分析确定。
具体地,利用熵权法时,可以根据以下步骤确定各项亲密度指标的权重:
Step1:n个用户对样本,m个用于确定亲密度的指标,则m为第i个用户对样本的第j个指标的取值(i=1,2,...,n;j=1,2,...,m),n和m均为整数。
Step2:指标的归一化处理——异质指标同质化。
由于各项指标的计量单位并不统一,因此可对先指标进行标准化处理,即将指标绝对值转化为相对值,从而解决各项不同质指标值的同质化问题。
具体地,归一化的公式为:
Figure BDA0001717863740000071
Step3:计算第j项指标下第i个用户对样本占该指标的比重。
Figure BDA0001717863740000072
Step4:计算第j项指标的熵值。
Figure BDA0001717863740000073
其中,k=1/ln(n)>0,满足ej≥0;
Step5:计算第j项指标的信息熵冗余度(差异)。
dj=1-ej>0;
Step6:计算第j项指标的权重。
Figure BDA0001717863740000074
具体实施时,可利用以下公式计算第i个用户对样本中两个用户终端之间的亲密度:
Figure BDA0001717863740000075
之后,可挑选亲密度大于预设阈值、且办理过家庭业务的用户对作为是家庭关系的正样本用户对(即家庭用户对样本);挑选亲密度不大于预设阈值、且未办理过家庭业务的用户对作为非家庭关系的负样本用户对(即非家庭用户对样本)。
第二阶段:家庭群组识别模型实施。
第一步:确定训练样本集和测试样本集。
这里,可以从正样本用户对和负样本用户对中随机挑选出预设数量的样本用户对,并可将这些样本划分为训练样本集和测试样本集。
比如,确定的正样本用户对为60万和负样本用户对为40万,则可从100万个用户对中随机挑选10万个用户对,进而将7万个用户对作为训练样本集,其余3万个用户对作为测试样本集。
这样,挑选出的正样本用户对一定是家庭用户对,挑选出的负样本用户对一定是非家庭用户对,可保证训练决策树时所使用数据的准确性,进而保证训练得到的决策树的精准性。
第二步:利用训练样本集训练以亲密度指标构建的决策树。
其中,决策树各节点上的编号1、2……11代表亲密度指标的编号,这里,只是为了示意决策树,并不代表仅使用了11项亲密度指标来训练决策树。
具体地,以每一训练样本中两个用户终端之间的通话记录和这两个用户终端上报的位置信息为输入、该样本是否为家庭用户对的属性为输出,对以亲密度指标构建的决策树进行训练。
第三步:利用测试样本集测试得到的决策树在识别家庭用户对时的准确率。
具体地,将每个测试样本中两个用户终端之间的通话记录和这两个用户终端上报的位置信息输入到决策树中,判断决策树的输出的家庭用户关系是否正确。
第四步:若确定决策树的准确率低于预设的准确率,则返回第一步,重新确定训练样本集和测试样本集,直至确定得到的决策树的准确率不低于该预设的准确率时,结束对决策树的训练。
第五步:决策树应用至全网用户交往对。
将从现网中挖掘的每个用户对中两个用户终端之间的通话记录和这两个用户终端上报的位置信息输入到决策树中,根据决策树的输出判断该用户对是否属于家庭用户对。
第六步:家庭交往对识别及有序化,构建家庭群组用户。
针对每个家庭用户对,将该用户对中消费能力较强的用户终端确定为主用户终端,进一步地,将主用户终端相同的用户对确定为一个家庭群组用户。
比如:属于家庭用户对的用户对为:AB,BA,AC,AD,DA,CB,BE,并且用户终端的消费能力A>B>C>D>E,则有序化后变成AB,AB,AC,AD,AD,BC,BE,则ABCD可构成一个家庭群组用户,主用户终端为A,BCE构成一个家庭群组用户,主用户终端为B。
之后,还可向每一家庭群组用户中的主用户终端推送家庭业务。
如图3所示,为本申请实施例提供的家庭群组用户的识别方法的流程图,包括以下步骤:
S301:选择用于衡量家庭用户对中两个用户终端之间亲密度的各项亲密度指标。
这里,亲密度指标可分为通话亲密度指标和位置亲密度指标,其中,通话亲密度指标如总通话次数、主叫通话次数、总通话时长、主叫通话时长、工作日夜间通话次数、工作日夜间主叫通话次数、工作日午间通话次数、工作日午间主叫通话次数、工作日夜间通话时长、工作日夜间主叫通话时长、工作午间通话时长、工作日午间主叫通话时长、周末通话次数、周末主叫通话次数、周末通话时长、周末主叫通话时长;位置亲密度指标如位置轨迹排名大于预设值的基站的重合度、工作日午间位置轨迹排名大于预设值的基站的重合度、工作日夜间位置轨迹排名大于预设值的基站的重合度、周末位置轨迹排名大于预设值的基站的重合度。
S302:利用熵权法确定各项亲密度指标的权重。
确定各项亲密度指标权重的方法与前述相同,在此不再赘述。
S303:针对获取到的每个用户对样本,分析该用户对样本中两个用户终端之间的通话记录和这两个用户终端上报的位置信息确定各项亲密度指标的取值,根据每项亲密度指标的取值和该项亲密度指标的权重确定这两个用户终端之间的亲密度。
具体地,可分析每个用户对样本中两个用户终端之间的通话记录确定各项通话亲密度指标的取值,根据每项通话亲密度指标的取值和该项通话亲密度指标的权重确定这两个用户终端之间的通话亲密度;分析这两个用户终端上报的位置信息确定各项位置亲密度指标的取值,根据每项位置亲密度指标的取值和该项位置亲密度指标的权重确定这两个用户终端之间的位置亲密度,进而可将这两个用户终端之间的通话亲密度和位置亲密度的和确定为这两个用户终端之间的亲密度。
S304:将亲密度大于设定值且办理过家庭业务的用户对样本作为家庭用户对样本,将亲密度不大于设定值且未办理过家庭业务的用户对样本作为非家庭用户对样本。
S305:从家庭用户对样本和非家庭用户对样本中随机选择训练样本和测试样本。
S306:以每一训练样本中两个用户终端之间的通话记录和这两个用户终端上报的位置信息为输入、该样本是否为家庭用户对的属性为输出,对以亲密度指标构建的决策树进行训练。
S307:利用每一测试样本中两个用户终端之间的通话记录和这两个用户终端上报的位置信息为训练得到的决策树的输入,根据决策树的输出和该测试样本的家庭用户对属性确定决策树的准确率。
S308:判断决策树的准确率是否低于预设的准确率,若是,则返回S305;否则,进入S309。
S309:获取指定区域内用户终端在预设时间段内产生的通话记录和上报的位置信息。
比如,可以获取北京区用户终端在过去一个月内每一用户终端产生的通话记录和其上报的位置信息,如用户终端在过去一个月内上报的位置更新信令。
S310:将每一用户终端和其通话记录中的用户终端组成两两一组的用户对。
为了减少数据处理量,可预设一些有效交往用户终端筛选规则,进而根据这些规则对该用户终端通话记录中的用户终端进行筛选,得到该用户终端的有效交往用户终端,进而将该用户终端和每一有效交往用户终端组成一个用户对。
S311:将每个用户对中两个用户终端之间的通话记录和这两个用户终端上报的位置信息输入到训练的决策树中,根据决策树的输出确定该用户对是否属于家庭用户对。
S312:针对每个家庭用户对,将该用户对中消费能力较强的用户终端确定为主用户终端,将主用户终端相同的用户对确定为一个家庭群组用户。
S313:向每个家庭群组用户中的主用户终端推送家庭业务。
参见图4,图4为本申请实施例提供的一种电子设备的结构示意图,该电子设备包括收发器401以及处理器402等物理器件,其中,处理器402可以是一个中央处理单元(central processing unit,CPU)、微处理器、专用集成电路、可编程逻辑电路、大规模集成电路、或者为数字处理单元等等。收发器401用于电子设备和其他设备进行数据收发。
该电子设备还可以包括存储器403用于存储处理器402执行的软件指令,当然还可以存储电子设备需要的一些其他数据,如电子设备的标识信息、电子设备的加密信息、用户数据等。存储器403可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器403也可以是非易失性存储器(non-volatilememory),例如只读存储器(read-only memory,ROM),快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器403是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器403可以是上述存储器的组合。
本申请实施例中不限定上述处理器402、存储器403以及收发器401之间的具体连接介质。本申请实施例在图4中仅以存储器403、处理器402以及收发器401之间通过总线404连接为例进行说明,总线在图4中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器402可以是专用硬件或运行软件的处理器,当处理器502可以运行软件时,处理器402读取存储器403存储的软件指令,并在所述软件指令的驱动下,执行前述实施例中涉及的方法。
当本申请实施例中提供的方法以软件或硬件或软硬件结合实现的时候,电子设备中可以包括多个功能模块,每个功能模块可以包括软件、硬件或其结合。具体的,参见图5所示,为本申请实施例提供的家庭群组用户的识别装置的结构示意图,该装置包括获取模块501、组对模块502、家庭用户对确定模块503、家庭群组用户确定模块504。
获取模块501,用于获取指定区域内的用户终端在预设时间段内产生的通话记录和上报的位置信息;
组对模块502,用于将每一用户终端和该用户终端通话记录中的用户终端组成两两一组的用户对;
家庭用户对确定模块503,用于将每个用户对中两个用户终端之间的通话记录和所述两个用户终端上报的位置信息输入到预先训练的决策树中,根据决策树的输出确定该用户对是否属于家庭用户对,所述决策树是根据用于衡量家庭用户对中两个用户终端之间亲密度的亲密度指标构建的;
家庭群组用户确定模块504,用于针对属于家庭用户对的每个用户对,将该用户对中消费能力较强的用户终端确定为主用户终端,将主用户终端相同的用户对确定为一个家庭群组用户。
在一种可能的实施方式下,组对模块502具体用于,
根据预设的有效交往用户终端筛选规则对每一用户终端通话记录中的用户终端进行筛选;
将该用户终端和筛选出的每一有效交往用户终端组成一个用户对。
在一种可能的实施方式下,还包括,
选择模块505,用于从用户对样本中选择亲密度大于设定值且办理过家庭业务的用户对样本作为家庭用户对样本,选择亲密度不大于设定值且未办理过家庭业务的用户对样本作为非家庭用户对样本,并从家庭用户对样本和非家庭用户对样本中随机选择训练样本和测试样本;
训练模块506,用于以每一训练样本中两个用户终端之间的通话记录和所述两个用户终端上报的位置信息为输入、该样本是否为家庭用户对的属性为输出,对以亲密度指标构建的决策树进行训练;
测试模块507,用于利用每一测试样本对训练得到的决策树进行测试,根据测试结果确定所述决策树的准确率,若确定所述决策树的准确率低于预设的准确率,则返回从家庭用户对样本和非家庭用户对样本中随机选择训练样本和测试样本的步骤。
在一种可能的实施方式下,还包括,
亲密度确定模块508,用于针对每一用户对样本,分析该用户对样本中两个用户终端之间的通话记录,确定所述两个用户终端之间的通话亲密度;分析所述两个用户分别使用的终端上报的位置信息,确定所述两个用户终端之间的位置亲密度;根据所述两个用户终端之间的通话亲密度和位置亲密度确定所述两个用户终端之间的亲密度。
在一种可能的实施方式下,亲密度确定模块508具体用于:
分析所述两个用户终端之间的通话记录确定每项通话亲密度指标的取值,根据每项通话亲密度指标的取值和该项通话亲密度指标的权重确定所述两个用户终端之间的通话亲密度;
分析所述两个终端上报的位置信息确定每项位置亲密度指标的取值,根据每项位置亲密度指标的取值和该项位置亲密度指标的权重确定所述两个用户终端之间的位置亲密度。
在一种可能的实施方式下,通话亲密度指标为以下指标的任意组合:总通话次数;主叫通话次数;总通话时长;主叫通话时长;工作日夜间通话次数;工作日夜间主叫通话次数;工作日午间通话次数;工作日午间主叫通话次数;工作日夜间通话时长;工作日夜间主叫通话时长;工作午间通话时长;工作日午间主叫通话时长;周末通话次数;周末主叫通话次数;周末通话时长;周末主叫通话时长;
位置亲密度指标为以下指标的任意组合:位置轨迹排名大于预设值的基站的重合度;工作日午间位置轨迹排名大于预设值的基站的重合度;工作日夜间位置轨迹排名大于预设值的基站的重合度;周末位置轨迹排名大于预设值的基站的重合度。
在一种可能的实施方式下,每项通话亲密度指标和每项位置亲密度指标的权重均是,利用熵权法对用户对样本中两个用户终端的之间的通话记录和所述两个用户终端上报的位置信息进行分析确定的。
在一种可能的实施方式下,还包括,
推送模块509,用于在将主用户终端相同的用户对确定为一个家庭群组用户之后,向每个家庭群组用户中的主用户终端推送家庭业务。
本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本申请各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。各个模块相互之间的耦合可以是通过一些接口实现,这些接口通常是电性通信接口,但是也不排除可能是机械接口或其它的形式接口。因此,作为分离部件说明的模块可以是或者也可以不是物理上分开的,既可以位于一个地方,也可以分布到同一个或不同设备的不同位置上。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
本申请实施例还提供了一种计算机可读存储介质,存储为执行上述处理器所需执行的计算机可执行指令,其包含用于执行上述处理器所需执行的程序。
在一些可能的实施方式中,本申请提供的家庭群组用户的识别方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的家庭群组用户的识别方法中的步骤。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于家庭群组用户的识别的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (18)

1.一种家庭群组用户的识别方法,其特征在于,包括:
获取指定区域内的用户终端在预设时间段内产生的通话记录和上报的位置信息;
将每一用户终端和该用户终端通话记录中的用户终端组成两两一组的用户对;
将每个用户对中两个用户终端之间的通话记录和所述两个用户终端上报的位置信息输入到预先训练的决策树中,根据决策树的输出确定该用户对是否属于家庭用户对,所述决策树是根据用于衡量家庭用户对中两个用户终端之间亲密度的亲密度指标构建的;
针对属于家庭用户对的每个用户对,将该用户对中消费能力较强的用户终端确定为主用户终端,将主用户终端相同的用户对确定为一个家庭群组用户。
2.如权利要求1所述的方法,其特征在于,将每一用户终端和该用户终端通话记录中的用户终端组成两两一组的用户对,包括:
根据预设的有效交往用户终端筛选规则对每一用户终端通话记录中的用户终端进行筛选;
将该用户终端和筛选出的每一有效交往用户终端组成一个用户对。
3.如权利要求2所述的方法,其特征在于,根据以下步骤训练所述决策树:
从用户对样本中选择亲密度大于设定值且办理过家庭业务的用户对样本作为家庭用户对样本,选择亲密度不大于设定值且未办理过家庭业务的用户对样本作为非家庭用户对样本;
从家庭用户对样本和非家庭用户对样本中随机选择训练样本和测试样本;
以每一训练样本中两个用户终端之间的通话记录和所述两个用户终端上报的位置信息为输入、该样本是否为家庭用户对的属性为输出,对以亲密度指标构建的决策树进行训练;
利用每一测试样本对训练得到的决策树进行测试,根据测试结果确定所述决策树的准确率,若确定所述决策树的准确率低于预设的准确率,则返回从家庭用户对样本和非家庭用户对样本中随机选择训练样本和测试样本的步骤。
4.如权利要求3所述的方法,其特征在于,针对每一用户对样本,根据以下步骤确定该用户对样本中两个用户终端之间的亲密度:
分析所述两个用户终端之间的通话记录,确定所述两个用户终端之间的通话亲密度;
分析所述两个用户终端上报的位置信息,确定所述两个用户终端之间的位置亲密度;
根据所述两个用户终端之间的通话亲密度和位置亲密度确定所述两个用户终端之间的亲密度。
5.如权利要求4所述的方法,其特征在于,
分析所述两个用户终端之间的通话记录,确定所述两个用户终端之间的通话亲密度,包括:
分析所述两个用户终端之间的通话记录确定每项通话亲密度指标的取值,根据每项通话亲密度指标的取值和该项通话亲密度指标的权重确定所述两个用户终端之间的通话亲密度;以及
分析所述两个终端上报的位置信息,确定所述两个用户终端之间的位置亲密度,包括:
分析所述两个终端上报的位置信息确定每项位置亲密度指标的取值,根据每项位置亲密度指标的取值和该项位置亲密度指标的权重确定所述两个用户终端之间的位置亲密度。
6.如权利要求5所述的方法,其特征在于,
通话亲密度指标为以下指标的任意组合:总通话次数;主叫通话次数;总通话时长;主叫通话时长;工作日夜间通话次数;工作日夜间主叫通话次数;工作日午间通话次数;工作日午间主叫通话次数;工作日夜间通话时长;工作日夜间主叫通话时长;工作午间通话时长;工作日午间主叫通话时长;周末通话次数;周末主叫通话次数;周末通话时长;周末主叫通话时长;
位置亲密度指标为以下指标的任意组合:位置轨迹排名大于预设值的基站的重合度;工作日午间位置轨迹排名大于预设值的基站的重合度;工作日夜间位置轨迹排名大于预设值的基站的重合度;周末位置轨迹排名大于预设值的基站的重合度。
7.如权利要求6所述的方法,其特征在于,每项通话亲密度指标和每项位置亲密度指标的权重均是,利用熵权法对用户对样本中两个用户终端的之间的通话记录和所述两个用户终端上报的位置信息进行分析确定的。
8.如权利要求1~7任一所述的方法,其特征在于,将主用户终端相同的用户对确定为一个家庭群组用户之后,还包括:
向每个家庭群组用户中的主用户终端推送家庭业务。
9.一种家庭群组用户的识别装置,其特征在于,包括:
获取模块,用于获取指定区域内的用户终端在预设时间段内产生的通话记录和上报的位置信息;
组对模块,用于将每一用户终端和该用户终端通话记录中的用户终端组成两两一组的用户对;
家庭用户对确定模块,用于将每个用户对中两个用户终端之间的通话记录和所述两个用户终端上报的位置信息输入到预先训练的决策树中,根据决策树的输出确定该用户对是否属于家庭用户对,所述决策树是根据用于衡量家庭用户对中两个用户终端之间亲密度的亲密度指标构建的;
家庭群组用户确定模块,用于针对属于家庭用户对的每个用户对,将该用户对中消费能力较强的用户终端确定为主用户终端,将主用户终端相同的用户对确定为一个家庭群组用户。
10.如权利要求9所述的装置,其特征在于,所述组对模块具体用于,
根据预设的有效交往用户终端筛选规则对每一用户终端通话记录中的用户终端进行筛选;
将该用户终端和筛选出的每一有效交往用户终端组成一个用户对。
11.如权利要求10所述的装置,其特征在于,还包括,
选择模块,用于从用户对样本中选择亲密度大于设定值且办理过家庭业务的用户对样本作为家庭用户对样本,选择亲密度不大于设定值且未办理过家庭业务的用户对样本作为非家庭用户对样本,并从家庭用户对样本和非家庭用户对样本中随机选择训练样本和测试样本;
训练模块,用于以每一训练样本中两个用户终端之间的通话记录和所述两个用户终端上报的位置信息为输入、该样本是否为家庭用户对的属性为输出,对以亲密度指标构建的决策树进行训练;
测试模块,用于利用每一测试样本对训练得到的决策树进行测试,根据测试结果确定所述决策树的准确率,若确定所述决策树的准确率低于预设的准确率,则返回从家庭用户对样本和非家庭用户对样本中随机选择训练样本和测试样本的步骤。
12.如权利要求11所述的装置,其特征在于,还包括,
亲密度确定模块,用于针对每一用户对样本,分析该用户对样本中两个用户终端之间的通话记录,确定所述两个用户终端之间的通话亲密度;分析所述两个用户分别使用的终端上报的位置信息,确定所述两个用户终端之间的位置亲密度;根据所述两个用户终端之间的通话亲密度和位置亲密度确定所述两个用户终端之间的亲密度。
13.如权利要求12所述的装置,其特征在于,所述亲密度确定模块具体用于:
分析所述两个用户终端之间的通话记录确定每项通话亲密度指标的取值,根据每项通话亲密度指标的取值和该项通话亲密度指标的权重确定所述两个用户终端之间的通话亲密度;
分析所述两个终端上报的位置信息确定每项位置亲密度指标的取值,根据每项位置亲密度指标的取值和该项位置亲密度指标的权重确定所述两个用户终端之间的位置亲密度。
14.如权利要求13所述的装置,其特征在于,
通话亲密度指标为以下指标的任意组合:总通话次数;主叫通话次数;总通话时长;主叫通话时长;工作日夜间通话次数;工作日夜间主叫通话次数;工作日午间通话次数;工作日午间主叫通话次数;工作日夜间通话时长;工作日夜间主叫通话时长;工作午间通话时长;工作日午间主叫通话时长;周末通话次数;周末主叫通话次数;周末通话时长;周末主叫通话时长;
位置亲密度指标为以下指标的任意组合:位置轨迹排名大于预设值的基站的重合度;工作日午间位置轨迹排名大于预设值的基站的重合度;工作日夜间位置轨迹排名大于预设值的基站的重合度;周末位置轨迹排名大于预设值的基站的重合度。
15.如权利要求14所述的装置,其特征在于,每项通话亲密度指标和每项位置亲密度指标的权重均是,利用熵权法对用户对样本中两个用户终端的之间的通话记录和所述两个用户终端上报的位置信息进行分析确定的。
16.如权利要求9~15任一所述的装置,其特征在于,还包括,
推送模块,用于在将主用户终端相同的用户对确定为一个家庭群组用户之后,向每个家庭群组用户中的主用户终端推送家庭业务。
17.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中:
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8任一权利要求所述的方法。
18.一种计算机可读介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如权利要求1至8任一权利要求所述的方法。
CN201810717669.0A 2018-07-03 2018-07-03 一种家庭群组用户的识别方法及装置 Pending CN110677446A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810717669.0A CN110677446A (zh) 2018-07-03 2018-07-03 一种家庭群组用户的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810717669.0A CN110677446A (zh) 2018-07-03 2018-07-03 一种家庭群组用户的识别方法及装置

Publications (1)

Publication Number Publication Date
CN110677446A true CN110677446A (zh) 2020-01-10

Family

ID=69065378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810717669.0A Pending CN110677446A (zh) 2018-07-03 2018-07-03 一种家庭群组用户的识别方法及装置

Country Status (1)

Country Link
CN (1) CN110677446A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113971038A (zh) * 2020-07-22 2022-01-25 北京达佳互联信息技术有限公司 应用程序账户的异常识别方法、装置、服务器及存储介质
CN115379051A (zh) * 2021-05-17 2022-11-22 中国联合网络通信集团有限公司 家庭用户的识别方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2784733A1 (en) * 2013-03-29 2014-10-01 Orange A method for tracking a person
CN105824813A (zh) * 2015-01-05 2016-08-03 中国移动通信集团江苏有限公司 一种挖掘核心用户的方法及装置
CN106372072A (zh) * 2015-07-20 2017-02-01 北京大学 一种基于位置的移动社会网络用户关系的识别方法
CN106557942A (zh) * 2015-09-30 2017-04-05 百度在线网络技术(北京)有限公司 一种用户关系的识别方法和装置
CN106658564A (zh) * 2016-11-17 2017-05-10 广州杰赛科技股份有限公司 一种家庭用户的识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2784733A1 (en) * 2013-03-29 2014-10-01 Orange A method for tracking a person
CN105824813A (zh) * 2015-01-05 2016-08-03 中国移动通信集团江苏有限公司 一种挖掘核心用户的方法及装置
CN106372072A (zh) * 2015-07-20 2017-02-01 北京大学 一种基于位置的移动社会网络用户关系的识别方法
CN106557942A (zh) * 2015-09-30 2017-04-05 百度在线网络技术(北京)有限公司 一种用户关系的识别方法和装置
CN106658564A (zh) * 2016-11-17 2017-05-10 广州杰赛科技股份有限公司 一种家庭用户的识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
崔旺来,刘超: "《海岛评价理论与方法》", 30 September 2017, 海洋出版社 *
陆菁: ""基于移动通信交往圈的家庭用户识别研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113971038A (zh) * 2020-07-22 2022-01-25 北京达佳互联信息技术有限公司 应用程序账户的异常识别方法、装置、服务器及存储介质
CN115379051A (zh) * 2021-05-17 2022-11-22 中国联合网络通信集团有限公司 家庭用户的识别方法、装置及设备

Similar Documents

Publication Publication Date Title
CN110337059B (zh) 一种用户家庭关系的分析算法、服务器及网络系统
CN107066478A (zh) 一种虚假地址信息识别的方法及装置
CN109309596B (zh) 一种压力测试方法、装置及服务器
CN103150696A (zh) 选择目标增值业务潜在客户的方法及装置
CN109327627A (zh) 基于区块链的电话号码识别方法、装置及存储介质
CN109982367A (zh) 移动终端上网用户投诉预测方法、装置、设备及存储介质
CN111294730B (zh) 一种网络问题投诉信息处理的方法及装置
CN110348471B (zh) 异常对象识别方法、装置、介质及电子设备
CN110677446A (zh) 一种家庭群组用户的识别方法及装置
CN113806634A (zh) 业务套餐的推荐方法、装置及服务器
CN109240899A (zh) 信息获取方法和装置
CN108629699A (zh) 数据上传方法、数据上传设备、存储介质及装置
CN114625407A (zh) 一种ab实验的实现方法、系统、设备及存储介质
CN110210884B (zh) 确定用户特征数据的方法、装置、计算机设备及存储介质
CN116308535A (zh) 归因分析的方法、装置、电子设备及存储介质
CN109121137B (zh) 双卡终端的用户号码使用类型识别方法及装置
CN110166964A (zh) 一种待扩容基站的确定方法及装置
CN111951011B (zh) 监控系统阈值确定方法及装置
CN115130577A (zh) 一种欺诈号码识别方法、装置及电子设备
CN114490402A (zh) 一种报文字段合法性检查方法及装置
CN113076451B (zh) 异常行为识别和风险模型库的建立方法、装置及电子设备
CN110708414B (zh) 一种电话号码的排序方法、装置及电子设备
CN104299141B (zh) 数据处理方法及装置
CN104378329A (zh) 安全验证的方法、装置及系统
CN113592557A (zh) 广告投放结果的归因方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200110

RJ01 Rejection of invention patent application after publication