CN110337059B - 一种用户家庭关系的分析算法、服务器及网络系统 - Google Patents

一种用户家庭关系的分析算法、服务器及网络系统 Download PDF

Info

Publication number
CN110337059B
CN110337059B CN201810276260.XA CN201810276260A CN110337059B CN 110337059 B CN110337059 B CN 110337059B CN 201810276260 A CN201810276260 A CN 201810276260A CN 110337059 B CN110337059 B CN 110337059B
Authority
CN
China
Prior art keywords
user
family
called number
data
calling number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810276260.XA
Other languages
English (en)
Other versions
CN110337059A (zh
Inventor
宋阳
苏飞
王振亚
杨杉
李珂
吴洋
陆昕
徐争莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201810276260.XA priority Critical patent/CN110337059B/zh
Publication of CN110337059A publication Critical patent/CN110337059A/zh
Application granted granted Critical
Publication of CN110337059B publication Critical patent/CN110337059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • G06F30/36Circuit design at the analogue level
    • G06F30/367Design verification, e.g. using simulation, simulation program with integrated circuit emphasis [SPICE], direct methods or relaxation methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2218Call detail recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42348Location-based services which utilize the location information of a target
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/025Services making use of location information using location based information parameters

Abstract

本发明的实施例提供了一种用户家庭关系的分析算法、服务器及网络系统,涉及网络技术领域,解决了现有技术在分析用户的家庭关系时存在无法准确反映多个用户间的社会关系,分析结果存在一定的局限性的问题。该方法包括,获取第一用户的通信数据;根据通信数据,生成第一用户的家庭关系识别数据宽表;根据家庭关系识别模型和家庭关系识别数据宽表,确定主叫号码和至少一个被叫号码的家庭关系的评价结果;根据主叫号码和至少一个被叫号码的家庭关系的评价结果,生成第一用户的家庭关系的分析结果。本发明实施例用于用户家庭关系的分析。

Description

一种用户家庭关系的分析算法、服务器及网络系统
技术领域
本发明涉及通信技术领域,尤其涉及一种用户家庭关系的分析算法、服务器及网络系统。
背景技术
大数据时代,多用户间的交际关系是很多场景下进行数据分析的重要内容。而家庭关系又是用户交际关系中最重要的一个部分,也是分析识别的难点所在。
现有的电信用户家庭关系识别方法主要采用用户的语音通话和短信记录数据进行分析,如用户通话或短信业务的联系次数、联系时长、联系频率、联系集中度,以及用户进行业务的时段等。仅仅使用用户的通话和短信业务数据进行分析存在以下弊端:
1、如今的通信方式越来越多种多样,如很多关系亲密的用户都是用微信等工具进行联络。仅使用语音通话和短信业务进行分析会丢失很多有价值的数据,分析的范围相对较窄。
2、现有分析方法采用传统的数据分析方式,人为制定识别算法,算法存在一定的局限性和主观臆断性,真正家庭用户之间的行为模式可能并未被算法充分地识别和分析。
由上述可知,现有技术在分析用户的家庭关系时存在无法准确反映多个用户间的社会关系,分析结果存在一定的局限性的问题。
发明内容
本发明的实施例提供一种用户家庭关系的分析算法、服务器及网络系统,解决了现有技术在分析用户的家庭关系时存在无法准确反映多个用户间的社会关系,分析结果存在一定的局限性的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面、本发明的实施例提供一种用户家庭关系的分析算法,包括:获取第一用户的通信数据;其中,通信数据包括:通话详单、上网日志以及核心网控制信令,上网日志包括:移动通信网上网记录和家庭宽带上网记录,核心网控制信令包括:用户标识和通信小区标识;根据通信数据,生成第一用户的家庭关系识别数据宽表;家庭关系识别数据宽表包括:主叫号码和至少一个被叫号码之间的第一业务信息、主叫号码和至少一个被叫号码之间的第二业务信息以及主叫号码和至少一个被叫号码之间的位置信息,主叫号码为第一用户的终端设备使用的手机号码,至少一个被叫号码为至少一个第二用户的终端设备使用的手机号码,第一业务信息包括:通话次数、通话时长、最后一次通话间隔、工作时段的通话次数、工作时段的通话时长以及工作时段的最后一次通话间隔,第二业务信息包括:上网关联次数、上网关联频度以及最后一次上网关联间隔,位置信息包括:基站重合天数和基站重合度;根据家庭关系识别模型和家庭关系识别数据宽表,确定主叫号码和至少一个被叫号码的家庭关系的评价结果;其中,评价结果包括:主叫号码与至少一个被叫号码存在家庭关系;根据主叫号码和至少一个被叫号码的家庭关系的评价结果,生成第一用户的家庭关系的分析结果。
可选的,根据通信数据,生成第一用户的家庭关系识别数据宽表,包括:根据通话详单,计算主叫号码和至少一个被叫号码的第一业务信息;根据上网日志,计算主叫号码和至少一个被叫号码的第二业务信息;根据核心网控制信令,计算主叫号码和至少一个被叫号码的位置信息;将主叫号码、至少一个被叫号码、第一业务信息、第二业务信息以及位置信息,添加至第一用户的家庭关系识别数据宽表。
可选的,根据通话详单,计算主叫号码和至少一个被叫号码的第一业务信息,包括:根据第一用户的通话详单,确定在预设时间段内主叫号码与至少一个被叫号码的通话次数;根据第一用户的通话详单,确定在预设时间段内主叫号码与至少一个被叫号码的通话时长;根据第一用户的通话详单,确定预设时间段内主叫号码与至少一个被叫号码的最近一次通话间隔;其中,最近一次通话间隔包括:当前时间与预设时间段内距离当前时间最近的一次通话结束时间的差值。
可选的,预设时间段包括:工作时段。
可选的,根据上网日志,计算主叫号码和至少一个被叫号码的第二业务信息,包括:根据第一用户的上网日志,确定主叫号码与至少一个被叫号码的上网关联次数;其中,上网关联次数包括:在预设时间段内提取到至少一个被叫号码的总次数;根据第一用户的上网日志,确定主叫号码与至少一个被叫号码的上网关联频度;其中,上网关联次数包括:在预设时间段内提取到至少一个被叫号码的总天数;根据第一用户的上网日志,确定主叫号码与至少一个被叫号码的最后一次上网关联间隔;其中,最后一次上网关联间隔包括:当前时间与预设时间段内距离当前时间最近的提取到至少一个被叫号码的时间的差值。
可选的,根据核心网控制信令,计算主叫号码和至少一个被叫号码的位置信息,包括:根据核心网控制信令,确定主叫号码与至少一个被叫号码的基站重合天数;其中,基站重合天数包括:在预设时间段内主叫号码与至少一个被叫号码停留在同一个基站的时间大于或等于预设时长的总天数;根据核心网控制信令,确定主叫号码与至少一个被叫的基站重合度;其中,
Figure BDA0001613712840000031
A表示基站重合度,B表示在预设时间段内主叫号码与至少一个被叫号码访问同一个基站的总个数,C表示在预设时间段内主叫号码访问的基站的总个数,D在预设时间段内至少一个被叫号码访问的基站的总个数。
可选的,该方法还包括:获取至少一组家庭套餐用户数据;根据至少一组家庭套餐用户数据,确定至少一组训练样本;其中,每组训练样本包括:采样手机号码、以及与采样手机号码存在家庭关系的目标手机号码;根据至少一组训练样本进行模型训练,生成家庭关系识别模型。
可选的,根据通信数据,生成第一用户的家庭关系识别数据宽表后,还包括:对家庭关系识别数据宽表进行数据质量核查,生成数据质量核查后的家庭关系识别数据宽表;其中,数据质量核查包括缺失值填充、异常值处理中的一项或者多项;对数据质量核查后的家庭关系识别数据宽表进行等频分箱处理,生成分箱处理后的家庭关系识别数据宽表;根据家庭关系识别模型和家庭关系识别数据宽表,确定主叫号码和至少一个被叫号码的家庭关系的评价结果,包括:根据家庭关系识别模型和分箱处理后的家庭关系识别数据宽表,确定主叫号码和至少一个被叫号码的家庭关系的评价结果。
可选的,评价结果还包括:主叫号码与至少一个被叫号码不存在家庭关系以及置信度,其中置信度用于标识主叫号码与至少一个被叫号码存在家庭关系为真的概率;置信度还用于标识主叫号码与至少一个被叫号码不存在家庭关系为真的概率。
第二方面、本发明的实施例提供一种服务器,包括:数据获取单元,用于获取第一用户的通信数据;其中,通信数据包括:通话详单、上网日志以及核心网控制信令,上网日志包括:移动通信网上网记录和家庭宽带上网记录,核心网控制信令包括:用户标识和通信小区标识;数据处理单元,用于根据数据获取单元获取的通信数据,生成第一用户的家庭关系识别数据宽表;家庭关系识别数据宽表包括:主叫号码和至少一个被叫号码之间的第一业务信息、主叫号码和至少一个被叫号码之间的第二业务信息以及主叫号码和至少一个被叫号码之间的位置信息,主叫号码为第一用户的终端设备使用的手机号码,至少一个被叫号码为至少一个第二用户的终端设备使用的手机号码,第一业务信息包括:通话次数、通话时长、最后一次通话间隔、工作时段的通话次数、工作时段的通话时长以及工作时段的最后一次通话间隔,第二业务信息包括:上网关联次数、上网关联频度以及最后一次上网关联间隔,位置信息包括:基站重合天数和基站重合度;数据处理单元,还用于根据家庭关系识别模型和家庭关系识别数据宽表,确定主叫号码和至少一个被叫号码的家庭关系的评价结果;其中,评价结果包括:主叫号码与至少一个被叫号码存在家庭关系;数据处理单元,还用于根据主叫号码和至少一个被叫号码的家庭关系的评价结果,生成第一用户的家庭关系的分析结果。
可选的,数据处理单元,具体用于根据数据获取单元获取的通话详单,计算主叫号码和至少一个被叫号码的第一业务信息;数据处理单元,具体用于根据数据获取单元获取的上网日志,计算主叫号码和至少一个被叫号码的第二业务信息;数据处理单元,具体用于根据数据获取单元获取的核心网控制信令,计算主叫号码和至少一个被叫号码的位置信息;数据处理单元,还用于将主叫号码、至少一个被叫号码、第一业务信息、第二业务信息以及位置信息,添加至第一用户的家庭关系识别数据宽表。
可选的,数据处理单元,具体用于根据数据获取单元获取的第一用户的通话详单,确定在预设时间段内主叫号码与至少一个被叫号码的通话次数;数据处理单元,具体用于根据数据获取单元获取的第一用户的通话详单,确定在预设时间段内主叫号码与至少一个被叫号码的通话时长;数据处理单元,具体用于根据数据获取单元获取的第一用户的通话详单,确定预设时间段内主叫号码与至少一个被叫号码的最近一次通话间隔;其中,最近一次通话间隔包括:当前时间与预设时间段内距离当前时间最近的一次通话结束时间的差值。
可选的,数据处理单元,具体用于根据数据获取单元获取的第一用户的上网日志,确定主叫号码与至少一个被叫号码的上网关联次数;其中,上网关联次数包括:在预设时间段内提取到至少一个被叫号码的总次数;数据处理单元,具体用于根据数据获取单元获取的第一用户的上网日志,确定主叫号码与至少一个被叫号码的上网关联频度;其中,上网关联次数包括:在预设时间段内提取到至少一个被叫号码的总天数;数据处理单元,具体用于根据数据获取单元获取的第一用户的上网日志,确定主叫号码与至少一个被叫号码的最后一次上网关联间隔;其中,最后一次上网关联间隔包括:当前时间与预设时间段内距离当前时间最近的提取到至少一个被叫号码的时间的差值。
可选的,数据处理单元,具体用于根据数据获取单元获取的核心网控制信令,确定主叫号码与至少一个被叫号码的基站重合天数;其中,基站重合天数包括:在预设时间段内主叫号码与至少一个被叫号码停留在同一个基站的时间大于或等于预设时长的总天数;数据处理单元,具体用于根据数据获取单元获取的核心网控制信令,确定主叫号码与至少一个被叫的基站重合度;其中,
Figure BDA0001613712840000051
A表示基站重合度,B表示在预设时间段内主叫号码与至少一个被叫号码访问同一个基站的总个数,C表示在预设时间段内主叫号码访问的基站的总个数,D在预设时间段内至少一个被叫号码访问的基站的总个数。
可选的,数据获取单元,还用于获取至少一组家庭套餐用户数据;数据处理单元,还用于根据至少一组家庭套餐用户数据,确定至少一组训练样本;其中,每组训练样本包括:采样手机号码、以及与采样手机号码存在家庭关系的目标手机号码;数据处理单元,还用于根据至少一组训练样本进行模型训练,生成家庭关系识别模型。
可选的,数据处理单元,还用于对家庭关系识别数据宽表进行数据质量核查,生成数据质量核查后的家庭关系识别数据宽表;其中,数据质量核查包括缺失值填充、异常值处理中的一项或者多项;数据处理单元,还用于对数据质量核查后的家庭关系识别数据宽表进行等频分箱处理,生成分箱处理后的家庭关系识别数据宽表;数据处理单元,具体用于根据家庭关系识别模型和分箱处理后的家庭关系识别数据宽表,确定主叫号码和至少一个被叫号码的家庭关系的评价结果。
第三方面、本发明的实施例提一种网络系统,包括如第二方面提供的任一项服务器。
本发明实施例提供的用户家庭关系的分析算法、服务器及网络系统,无需像现有技术只根据用户的通话和短信业务数据分析用户的家庭关系,本发明的实施例提供的用户家庭关系的分析算法根据获取第一用户的通话详单、上网日志以及核心网控制信令,生成该第一用户的家庭关系识别数据宽表,通过家庭关系识别模型和家庭关系识别数据宽表,确定第一用户与至少一个第二用户的家庭关系的评价结果,然后根据评价结果生成第一用户的家庭关系的分析结果;因此,通过本发明的实施例提供的用户家庭关系的分析算法给出的分析结果,可以更加准确的确定与第一用户存在家庭关系的至少一个第二用户;解决了现有技术在分析用户的家庭关系时存在无法准确反映多个用户间的社会关系,分析结果存在一定的局限性的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的实施例提供的一种用户家庭关系的分析算法的流程示意图;
图2为本发明的实施例提供的一种用户家庭关系的分析算法的另一种流程示意图;
图3为本发明的实施例提供的一种用户家庭关系的分析算法在实际应用中的流程示意图;
图4为本发明的实施例提供的一种用户家庭关系的分析算法在实际应用中的另一种流程示意图;
图5为本发明的实施例提供的一种用户家庭关系的分析算法在实际应用中分析结果中用户家庭关系的拓扑结构示意图;
图6为本发明的实施例提供的一种服务器的结构示意图。
附图标记:
服务器-10;
数据获取单元-101;数据处理单元-102。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一、本发明的实施例提供一种用户家庭关系的分析算法,如图1所示包括:
S10、获取第一用户的通信数据;其中,通信数据包括:通话详单、上网日志以及核心网控制信令,上网日志包括:移动通信网上网记录和家庭宽带上网记录,核心网控制信令包括:用户标识和通信小区标识。
需要说明的是,在实际的应用中对通信数据的处理可以通过用户上网记录解析技术和用户定位技术;其中,用户上网记录解析技术包括:电信用户接入互联网主要通过两种方式:一是使用移动终端通过移动通信网络接入互联网,用户的上网记录可以在核心网设备GGSN/P-GW的接口进行抓取;另一种方式是使用无线保真(英文全称:WIreless-Fidelity,简称:WIFI)或光纤等方式通过家庭宽带接入互联网,用户的上网记录可以在宽带的出口进行抓取。
用户的上网记录中含有很多关键信息,如登录账号、手机充值、网站认证等输入的手机号码,这些手机号码在很多网站或应用程序(英文全称:Application,简称:APP)中都是通过明文传送的。通过提取这些上网记录,结合深度报文检测(英文全称:Deep PacketInspection,简称:DPI)技术对这些记录进行分析解析,即可以获得与很多关键信息用于进行用户家庭关系的分析。
用户定位技术包括:电信运营商对移动用户进行定位主要采取小区定位的方式,即通过信令或业务话单中的相关字段获取用户所在小区,再从该小区的覆盖区域得到用户所处的位置。本发明主要采用核心网控制面信令数据进行用户定位。其优势是覆盖范围最广,只要用户在有无线信号覆盖的地方手机保持畅通即可获得用户所在位置。本发明主要提取跟踪区更新信令和切换信令,获得用户空闲态下移动到新的跟踪区或长时间静止时所处小区,以及业务状态下与其连接过的小区。根据信令中的用户标识和小区标识获得用户的位置信息,再利用用户位置信息分析用户关系。
因此,通过通话详单可以获取第一用户的通话次数、通话时长、最后一次通话间隔、工作时段的通话次数、工作时段的通话时长以及工作时段的最后一次通话间隔;通过移动通信网上网记录和家庭宽带上网记录可以获取第一用户的上网关联次数、上网关联频度以及最后一次上网关联间隔;通过用户标识和通信小区标识可以获取第一用户的基站重合天数和基站重合度,从而可以分析出第一用户与每个第二用户之间存在的联系,进而为确定与该第一用户存在家庭关系的至少一个第二用户提供更加详细的资料。
S11、根据通信数据,生成第一用户的家庭关系识别数据宽表;家庭关系识别数据宽表包括:主叫号码和至少一个被叫号码之间的第一业务信息、主叫号码和至少一个被叫号码之间的第二业务信息以及主叫号码和至少一个被叫号码之间的位置信息,主叫号码为第一用户的终端设备使用的手机号码,至少一个被叫号码为至少一个第二用户的终端设备使用的手机号码,第一业务信息包括:通话次数、通话时长、最后一次通话间隔、工作时段的通话次数、工作时段的通话时长以及工作时段的最后一次通话间隔,第二业务信息包括:上网关联次数、上网关联频度以及最后一次上网关联间隔,位置信息包括:基站重合天数和基站重合度。
需要说明的是,如图2所示本发明的实施例提供的一种用户家庭关系的分析算法中根据通信数据,生成第一用户的家庭关系识别数据宽表,包括:根据通话详单,计算主叫号码和至少一个被叫号码的第一业务信息;根据上网日志,计算主叫号码和至少一个被叫号码的第二业务信息;根据核心网控制信令,计算主叫号码和至少一个被叫号码的位置信息;将主叫号码、至少一个被叫号码、第一业务信息、第二业务信息以及位置信息,添加至第一用户的家庭关系识别数据宽表。
可选的,如图2所示本发明的实施例提供的一种用户家庭关系的分析算法中根据通话详单,计算主叫号码和至少一个被叫号码的第一业务信息,包括:根据第一用户的通话详单,确定在预设时间段内主叫号码与至少一个被叫号码的通话次数;根据第一用户的通话详单,确定在预设时间段内主叫号码与至少一个被叫号码的通话时长;根据第一用户的通话详单,确定预设时间段内主叫号码与至少一个被叫号码的最近一次通话间隔;其中,最近一次通话间隔包括:当前时间与预设时间段内距离当前时间最近的一次通话结束时间的差值。
可选的,如图2所示本发明的实施例提供的一种用户家庭关系的分析算法中预设时间段包括:工作时段。
具体的,根据第一用户的通话详单,确定在工作时段内主叫号码与至少一个被叫号码的通话次数;根据第一用户的通话详单,确定在工作时段内主叫号码与至少一个被叫号码的通话时长;根据第一用户的通话详单,确定工作时段内主叫号码与至少一个被叫号码的最近一次通话间隔。
可选的,如图2所示本发明的实施例提供的一种用户家庭关系的分析算法中根据上网日志,计算主叫号码和至少一个被叫号码的第二业务信息,包括:根据第一用户的上网日志,确定主叫号码与至少一个被叫号码的上网关联次数;其中,上网关联次数包括:在预设时间段内提取到至少一个被叫号码的总次数;根据第一用户的上网日志,确定主叫号码与至少一个被叫号码的上网关联频度;其中,上网关联次数包括:在预设时间段内提取到至少一个被叫号码的总天数;根据第一用户的上网日志,确定主叫号码与至少一个被叫号码的最后一次上网关联间隔;其中,最后一次上网关联间隔包括:当前时间与预设时间段内距离当前时间最近的提取到至少一个被叫号码的时间的差值。
可选的,如图2所示本发明的实施例提供的一种用户家庭关系的分析算法中根据核心网控制信令,计算主叫号码和至少一个被叫号码的位置信息,包括:根据核心网控制信令,确定主叫号码与至少一个被叫号码的基站重合天数;其中,基站重合天数包括:在预设时间段内主叫号码与至少一个被叫号码停留在同一个基站的时间大于或等于预设时长的总天数;根据核心网控制信令,确定主叫号码与至少一个被叫的基站重合度;其中,
Figure BDA0001613712840000101
A表示基站重合度,B表示在预设时间段内主叫号码与至少一个被叫号码访问同一个基站的总个数,C表示在预设时间段内主叫号码访问的基站的总个数,D在预设时间段内至少一个被叫号码访问的基站的总个数。
具体的,将主叫号码、至少一个被叫号码、第一业务信息、第二业务信息以及位置信息,添加至第一用户的家庭关系识别数据宽表包括:将主叫号码、至少一个被叫号码、通话次数、通话时长、最后一次通话间隔、工作时段的通话次数、工作时段的通话时长以及工作时段的最后一次通话间隔、上网关联次数、上网关联频度、最后一次上网关联间隔、基站重合天数以及基站重合度,添加至第一用户的家庭关系识别数据宽表。
需要说明的是,为了后期的数据整理需要对收集到的通信数据进行存储,因此需要单独的存储单元存储该通信数据。
在实际的应用中,如图3和图4所示通话详单包括:固定电话及移动电话的通话详单;当获取到第一用户的通话详单后,需要对该通话详单进行解析入库后,以主叫号码和被叫号码作为号码对,汇总分析各个号码对的如下指标:
通话次数:预设时间段内的通话总次数;其中,预设时间段内包括:全部分析时段。
通话时长:预设时间段内全部通话的时长之和;其中,预设时间段内包括:全部分析时段。
最近一次通话间隔:预设时间段内最近一次通话结束时间距离当前时间的时间间隔;
工作时段通话次数:预设时间段内的通话总次数;其中,预设时间段内包括:周一的9:00时至19:00时、周二的9:00时至19:00时、周三9:00时至19:00时、周四9:00时至19:00时和周五9:00时至19:00时。
工作时段通话时长:预设时间段内全部通话时长之和;其中,预设时间段内包括:周一的9:00时至19:00时、周二的9:00时至19:00时、周三9:00时至19:00时、周四9:00时至19:00时和周五9:00时至19:00时。
工作时段最近一次通话间隔:预设时间段内最近一次通话结束时间距离当前时间的时间间隔;其中,预设时间段内包括:周一的9:00时至19:00时、周二的9:00时至19:00时、周三9:00时至19:00时、周四9:00时至19:00时和周五9:00时至19:00时。
具体的,在实际的应用中上网日志包括:移动通信网和家庭宽带的上网数据;当获取到对第一用户的上网日志后需要对该上网日志进行深度解析并入库,提取用户在账户登录、号码充值、网站认证等场景下输入的手机号码(被叫号码)。
以移动终端使用的手机号码或家庭宽带对应的固定电话号码作为主叫号码,以用户上网记录中提取的号码作为被叫号码,汇总分析各个号码对的如下指标(主叫号码与被叫号码不同)。
上网关联次数:预设时间段内提取到被叫号码的总次数;其中,预设时间段内包括:全部分析时段内。
上网关联频度:预设时间段内提取到被叫号码的总天数;其中,预设时间段内包括:全部分析时段内。
最近一次上网关联间隔:在预设时间段内最后一次提取到被叫号码的时间距离当前时间的时间间隔;其中,预设时间段内包括:全部分析时段内。
具体的,在核心网采集跟踪区更新信令(包括周期性跟踪区更新和事件性跟踪区更新)和切换信令并解析入库。提取公共字段并合并后,按照基站、用户、天进行汇总,计算特定时段内每个用户每天在某基站上的信令次数,以用户为基础提取以下信息:
居住基站:该用户每天在23:00至次日6:00时段内信令次数最多的基站。
周末访问基站组:该用户在每个周六和周日访问过的基站列表。
筛选并汇总在通话详单和上网记录中出现过的全部号码对,计算如下指标:
基站重合天数:在预设时间段内主叫号码与至少一个被叫号码停留在同一个基站的时间大于或等于预设时长的总天数;示例性的,预设时间段包括:每天在23:00至次日6:00时段,将第一用户该用户每天在23:00至次日6:00时段内信令次数最多的基站,和第二用户该用户每天在23:00至次日6:00时段内信令次数最多的基站进行对比,找出在每天在23:00至次日6:00时段一直处于访问同一基站的天数;具体的,由于每天在23:00至次日6:00时段第一用户或者第二用户一般处于休息的状态,因此也可以将每天在23:00至次日6:00时段用户第一用户或者第二用户访问的基站作为第一用户或者第二用户的居住基站。
基站重合度:主叫号码和被叫号码在预设时间段内访问的基站组中都出现过的基站数占主叫号码和被叫号码在预设时间段内访问基站组总数比例的平均值,即((重合基站数/主叫号码基站组总数)+(重合基站数/被叫号码基站组总数))/2;具体的,预设时间段内包括:周六和周天。
以号码对为索引,整合全部计算得到的指标,形成如表1所示的用户家庭关系识别数据宽表。
Figure BDA0001613712840000121
Figure BDA0001613712840000131
表1
S12、根据家庭关系识别模型和家庭关系识别数据宽表,确定主叫号码和至少一个被叫号码的家庭关系的评价结果;其中,评价结果包括:主叫号码与至少一个被叫号码存在家庭关系。
需要说明的是,在实际的应用中,如图2所示本发明的实施例提供的一种用户家庭关系的分析算法还包括:获取至少一组家庭套餐用户数据;根据至少一组家庭套餐用户数据,确定至少一组训练样本;其中,每组训练样本包括:采样手机号码、以及与采样手机号码存在家庭关系的目标手机号码;根据至少一组训练样本进行模型训练,生成家庭关系识别模型。
具体的,根据已知的至少一组家庭套餐用户数据(办理了家庭套餐的用户,其家庭套餐内包含多个手机号码,因此家庭套餐内的每个手机具有家庭关系),从全部数据中筛选出属于每组家庭套餐的手机号码组(包含家庭套餐内的每个手机号码)作为正样本训练集(家庭关系)。再对这些号码对拆散后进行重新配对,构建负样本训练集(非家庭关系)。
将正负样本训练集输入逻辑回归模型,进行模型训练,得到用户家庭关系识别模型。
S13、根据主叫号码和至少一个被叫号码的家庭关系的评价结果,生成第一用户的家庭关系的分析结果。
需要说明的是,如图2所示本发明的实施例提供的一种用户家庭关系的分析算法中根据通信数据,生成第一用户的家庭关系识别数据宽表后,还包括:对家庭关系识别数据宽表进行数据质量核查,生成数据质量核查后的家庭关系识别数据宽表;其中,数据质量核查包括缺失值填充、异常值处理中的一项或者多项;对数据质量核查后的家庭关系识别数据宽表进行等频分箱处理,生成分箱处理后的家庭关系识别数据宽表;根据家庭关系识别模型和家庭关系识别数据宽表,确定主叫号码和至少一个被叫号码的家庭关系的评价结果,包括:根据家庭关系识别模型和分箱处理后的家庭关系识别数据宽表,确定主叫号码和至少一个被叫号码的家庭关系的评价结果。
可选的,如图2所示本发明的实施例提供的一种用户家庭关系的分析算法中评价结果还包括:主叫号码与至少一个被叫号码不存在家庭关系以及置信度,其中置信度用于标识主叫号码与至少一个被叫号码存在家庭关系为真的概率;置信度还用于标识主叫号码与至少一个被叫号码不存在家庭关系为真的概率。
具体的,对整合好的数据宽表进行数据质量核查,包括缺失值填充、异常值处理等。再对每个指标进行等频分箱处理,即把指标值按照从小到大的顺序排列,根据观测的个数等分为10部分,每部分当作一个分箱,将原有的连续指标转化为1-10的枚举值,得到最终的建模输入数据。
将全部未知关系的号码对(步骤S10和步骤S11获取的主叫号码和至少一个被叫号码)输入构建好的模型进行分析,识别各个号码对是否为家庭关系,得到每个号码对的判断结果(是否为家庭关系)以及置信度(该结果为真的概率)。
具体的,根据主叫号码和至少一个被叫号码的家庭关系的评价结果,生成第一用户的家庭关系的分析结果包括:根据识别出的家庭关系号码对,分别确定是否为2人家庭、是否为3人家庭、是否为4人家庭或者是否为5人家庭等等,其拓扑结构如图5所示(若一组号码出现在5人家庭中,则这组号码以及它的子集从2-4人家庭中剔除,以此类推)。
若多个不同的家庭包含相同的号码,则计算每组家庭各个号码对的置信度之和∑置信度,仅保留∑置信度最高的那组家庭。
本发明实施例提供的用户家庭关系的分析算法,无需像现有技术只根据用户的通话和短信业务数据分析用户的家庭关系,本发明的实施例提供的用户家庭关系的分析算法根据获取第一用户的通话详单、上网日志以及核心网控制信令,生成该第一用户的家庭关系识别数据宽表,通过家庭关系识别模型和家庭关系识别数据宽表,确定第一用户与至少一个第二用户的家庭关系的评价结果,然后根据评价结果生成第一用户的家庭关系的分析结果;因此,通过本发明的实施例提供的用户家庭关系的分析算法给出的分析结果,可以更加准确的确定与第一用户存在家庭关系的至少一个第二用户;解决了现有技术在分析用户的家庭关系时存在无法准确反映多个用户间的社会关系,分析结果存在一定的局限性的问题。
实施例二、本发明的实施例提供一种服务器10,如图6所示包括:
数据获取单元101,用于获取第一用户的通信数据;其中,通信数据包括:通话详单、上网日志以及核心网控制信令,上网日志包括:移动通信网上网记录和家庭宽带上网记录,核心网控制信令包括:用户标识和通信小区标识。
数据处理单元102,用于根据数据获取单元101获取的通信数据,生成第一用户的家庭关系识别数据宽表;家庭关系识别数据宽表包括:主叫号码和至少一个被叫号码之间的第一业务信息、主叫号码和至少一个被叫号码之间的第二业务信息以及主叫号码和至少一个被叫号码之间的位置信息,主叫号码为第一用户的终端设备使用的手机号码,至少一个被叫号码为至少一个第二用户的终端设备使用的手机号码,第一业务信息包括:通话次数、通话时长、最后一次通话间隔、工作时段的通话次数、工作时段的通话时长以及工作时段的最后一次通话间隔,第二业务信息包括:上网关联次数、上网关联频度以及最后一次上网关联间隔,位置信息包括:基站重合天数和基站重合度。
数据处理单元102,还用于根据家庭关系识别模型和家庭关系识别数据宽表,确定主叫号码和至少一个被叫号码的家庭关系的评价结果;其中,评价结果包括:主叫号码与至少一个被叫号码存在家庭关系。
数据处理单元102,还用于根据主叫号码和至少一个被叫号码的家庭关系的评价结果,生成第一用户的家庭关系的分析结果。
可选的,数据处理单元102,具体用于根据数据获取单元101获取的通话详单,计算主叫号码和至少一个被叫号码的第一业务信息;数据处理单元102,具体用于根据数据获取单元101获取的上网日志,计算主叫号码和至少一个被叫号码的第二业务信息;数据处理单元102,具体用于根据数据获取单元101获取的核心网控制信令,计算主叫号码和至少一个被叫号码的位置信息;数据处理单元102,还用于将主叫号码、至少一个被叫号码、第一业务信息、第二业务信息以及位置信息,添加至第一用户的家庭关系识别数据宽表。
可选的,数据处理单元102,具体用于根据数据获取单元101获取的第一用户的通话详单,确定在预设时间段内主叫号码与至少一个被叫号码的通话次数;数据处理单元102,具体用于根据数据获取单元101获取的第一用户的通话详单,确定在预设时间段内主叫号码与至少一个被叫号码的通话时长;数据处理单元102,具体用于根据数据获取单元101获取的第一用户的通话详单,确定预设时间段内主叫号码与至少一个被叫号码的最近一次通话间隔;其中,最近一次通话间隔包括:当前时间与预设时间段内距离当前时间最近的一次通话结束时间的差值。
可选的,数据处理单元102,具体用于根据数据获取单元101获取的第一用户的上网日志,确定主叫号码与至少一个被叫号码的上网关联次数;其中,上网关联次数包括:在预设时间段内提取到至少一个被叫号码的总次数;数据处理单元102,具体用于根据数据获取单元101获取的第一用户的上网日志,确定主叫号码与至少一个被叫号码的上网关联频度;其中,上网关联次数包括:在预设时间段内提取到至少一个被叫号码的总天数;数据处理单元102,具体用于根据数据获取单元101获取的第一用户的上网日志,确定主叫号码与至少一个被叫号码的最后一次上网关联间隔;其中,最后一次上网关联间隔包括:当前时间与预设时间段内距离当前时间最近的提取到至少一个被叫号码的时间的差值。
可选的,数据处理单元102,具体用于根据数据获取单元101获取的核心网控制信令,确定主叫号码与至少一个被叫号码的基站重合天数;其中,基站重合天数包括:在预设时间段内主叫号码与至少一个被叫号码停留在同一个基站的时间大于或等于预设时长的总天数;数据处理单元102,具体用于根据数据获取单元101获取的核心网控制信令,确定主叫号码与至少一个被叫的基站重合度;其中,
Figure BDA0001613712840000161
A表示基站重合度,B表示在预设时间段内主叫号码与至少一个被叫号码访问同一个基站的总个数,C表示在预设时间段内主叫号码访问的基站的总个数,D在预设时间段内至少一个被叫号码访问的基站的总个数。
可选的,数据获取单元101,还用于获取至少一组家庭套餐用户数据;数据处理单元102,还用于根据至少一组家庭套餐用户数据,确定至少一组训练样本;其中,每组训练样本包括:采样手机号码、以及与采样手机号码存在家庭关系的目标手机号码;数据处理单元102,还用于根据至少一组训练样本进行模型训练,生成家庭关系识别模型。
可选的,数据处理单元102,还用于对家庭关系识别数据宽表进行数据质量核查,生成数据质量核查后的家庭关系识别数据宽表;其中,数据质量核查包括缺失值填充、异常值处理中的一项或者多项;数据处理单元102,还用于对数据质量核查后的家庭关系识别数据宽表进行等频分箱处理,生成分箱处理后的家庭关系识别数据宽表;数据处理单元102,具体用于根据家庭关系识别模型和分箱处理后的家庭关系识别数据宽表,确定主叫号码和至少一个被叫号码的家庭关系的评价结果。
本发明实施例提供的服务器,无需像现有技术只根据用户的通话和短信业务数据分析用户的家庭关系,本发明的实施例提供的服务器通过获取第一用户的通话详单、上网日志以及核心网控制信令,生成该第一用户的家庭关系识别数据宽表,通过家庭关系识别模型和家庭关系识别数据宽表,确定第一用户与至少一个第二用户的家庭关系的评价结果,然后根据评价结果生成第一用户的家庭关系的分析结果;因此,通过本发明的实施例提供的服务器给出的分析结果,可以更加准确的确定与第一用户存在家庭关系的至少一个第二用户;解决了现有技术在分析用户的家庭关系时存在无法准确反映多个用户间的社会关系,分析结果存在一定的局限性的问题。
实施例三、本发明的实施例提一种网络系统,包括如第二方面提供的任一项服务器10。具体的服务器可以参见上述装置实施例二中的相关描述,此处不再赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (17)

1.一种用户家庭关系的分析方法,其特征在于,包括:获取第一用户的通信数据;其中,所述通信数据包括:通话详单、上网日志以及核心网控制信令,所述上网日志包括:移动通信网上网记录和家庭宽带上网记录,所述核心网控制信令包括:用户标识和通信小区标识;
根据所述通信数据,生成所述第一用户的家庭关系识别数据宽表;所述家庭关系识别数据宽表包括:主叫号码和至少一个被叫号码之间的第一业务信息、主叫号码和至少一个被叫号码之间的第二业务信息以及主叫号码和至少一个被叫号码之间的位置信息,所述主叫号码为第一用户的终端设备使用的手机号码,所述至少一个被叫号码为至少一个第二用户的终端设备使用的手机号码,所述第一业务信息包括:通话次数、通话时长、最后一次通话间隔、工作时段的通话次数、工作时段的通话时长以及工作时段的最后一次通话间隔,所述第二业务信息包括:上网关联次数、上网关联频度以及最后一次上网关联间隔,所述位置信息包括:基站重合天数和基站重合度;
根据家庭关系识别模型和所述家庭关系识别数据宽表,确定所述主叫号码和至少一个被叫号码的家庭关系的评价结果;其中,所述评价结果包括:所述主叫号码与至少一个被叫号码存在家庭关系;
根据所述主叫号码和至少一个被叫号码的家庭关系的评价结果,生成所述第一用户的家庭关系的分析结果。
2.根据权利要求1所述的用户家庭关系的分析方法,其特征在于,根据所述通信数据,生成所述第一用户的家庭关系识别数据宽表,包括:
根据所述通话详单,计算所述主叫号码和至少一个被叫号码的第一业务信息;
根据所述上网日志,计算所述主叫号码和至少一个被叫号码的第二业务信息;
根据所述核心网控制信令,计算所述主叫号码和至少一个被叫号码的位置信息;
将所述主叫号码、所述至少一个被叫号码、所述第一业务信息、所述第二业务信息以及所述位置信息,添加至所述第一用户的家庭关系识别数据宽表。
3.根据权利要求2所述的用户家庭关系的分析方法,其特征在于,所述根据所述通话详单,计算所述主叫号码和至少一个被叫号码的第一业务信息,包括:
根据所述第一用户的通话详单,确定在预设时间段内所述主叫号码与至少一个被叫号码的通话次数;
根据所述第一用户的通话详单,确定在预设时间段内所述主叫号码与至少一个被叫号码的通话时长;
根据所述第一用户的通话详单,确定预设时间段内所述主叫号码与至少一个被叫号码的最近一次通话间隔;其中,所述最近一次通话间隔包括:当前时间与所述预设时间段内距离当前时间最近的一次通话结束时间的差值。
4.根据权利要求3所述的用户家庭关系的分析方法,其特征在于,所述预设时间段包括:工作时段。
5.根据权利要求2所述的用户家庭关系的分析方法,其特征在于,所述根据所述上网日志,计算所述主叫号码和至少一个被叫号码的第二业务信息,包括:
根据所述第一用户的上网日志,确定所述主叫号码与至少一个被叫号码的上网关联次数;其中,所述上网关联次数包括:在预设时间段内提取到所述至少一个被叫号码的总次数;
根据所述第一用户的上网日志,确定所述主叫号码与至少一个被叫号码的上网关联频度;其中,所述上网关联次数包括:在预设时间段内提取到所述至少一个被叫号码的总天数;
根据所述第一用户的上网日志,确定所述主叫号码与至少一个被叫号码的最后一次上网关联间隔;其中,所述最后一次上网关联间隔包括:当前时间与预设时间段内距离所述当前时间最近的提取到所述至少一个被叫号码的时间的差值。
6.根据权利要求2所述的用户家庭关系的分析方法,其特征在于,所述根据所述核心网控制信令,计算所述主叫号码和至少一个被叫号码的位置信息,包括:
根据所述核心网控制信令,确定所述主叫号码与至少一个被叫号码的基站重合天数;其中,所述基站重合天数包括:在预设时间段内所述主叫号码与所述至少一个被叫号码停留在同一个基站的时间大于或等于预设时长的总天数;
根据所述核心网控制信令,确定所述主叫号码与至少一个被叫的基站重合度;其中,
Figure FDA0002729820630000031
A表示基站重合度,B表示在预设时间段内所述主叫号码与至少一个被叫号码访问同一个基站的总个数,C表示在所述预设时间段内所述主叫号码访问的基站的总个数,D在所述预设时间段内所述至少一个被叫号码访问的基站的总个数。
7.根据权利要求1所述的用户家庭关系的分析方法,其特征在于,所述方法还包括:
获取至少一组家庭套餐用户数据;
根据所述至少一组家庭套餐用户数据,确定至少一组训练样本;其中,每组所述训练样本包括:采样手机号码、以及与所述采样手机号码存在家庭关系的目标手机号码;
根据所述至少一组训练样本进行模型训练,生成所述家庭关系识别模型。
8.根据权利要求1所述的用户家庭关系的分析方法,其特征在于,所述根据所述通信数据,生成所述第一用户的家庭关系识别数据宽表后,还包括:
对所述家庭关系识别数据宽表进行数据质量核查,生成数据质量核查后的家庭关系识别数据宽表;其中,所述数据质量核查包括缺失值填充、异常值处理中的一项或者多项;
对所述数据质量核查后的家庭关系识别数据宽表进行等频分箱处理,生成分箱处理后的家庭关系识别数据宽表;
所述根据家庭关系识别模型和所述家庭关系识别数据宽表,确定所述主叫号码和至少一个被叫号码的家庭关系的评价结果,包括:
根据家庭关系识别模型和所述分箱处理后的家庭关系识别数据宽表,确定所述主叫号码和至少一个被叫号码的家庭关系的评价结果。
9.根据权利要求1所述的用户家庭关系的分析方法,其特征在于,所述评价结果还包括:所述主叫号码与至少一个被叫号码不存在家庭关系以及置信度,其中所述置信度用于标识主叫号码与至少一个被叫号码存在家庭关系为真的概率;所述置信度还用于标识主叫号码与至少一个被叫号码不存在家庭关系为真的概率。
10.一种服务器,其特征在于,包括:数据获取单元,用于获取第一用户的通信数据;其中,所述通信数据包括:通话详单、上网日志以及核心网控制信令,所述上网日志包括:移动通信网上网记录和家庭宽带上网记录,所述核心网控制信令包括:用户标识和通信小区标识;
数据处理单元,用于根据所述数据获取单元获取的所述通信数据,生成所述第一用户的家庭关系识别数据宽表;所述家庭关系识别数据宽表包括:主叫号码和至少一个被叫号码之间的第一业务信息、主叫号码和至少一个被叫号码之间的第二业务信息以及主叫号码和至少一个被叫号码之间的位置信息,所述主叫号码为第一用户的终端设备使用的手机号码,所述至少一个被叫号码为至少一个第二用户的终端设备使用的手机号码,所述第一业务信息包括:通话次数、通话时长、最后一次通话间隔、工作时段的通话次数、工作时段的通话时长以及工作时段的最后一次通话间隔,所述第二业务信息包括:上网关联次数、上网关联频度以及最后一次上网关联间隔,所述位置信息包括:基站重合天数和基站重合度;
所述数据处理单元,还用于根据家庭关系识别模型和所述家庭关系识别数据宽表,确定所述主叫号码和至少一个被叫号码的家庭关系的评价结果;其中,所述评价结果包括:所述主叫号码与至少一个被叫号码存在家庭关系;
所述数据处理单元,还用于根据所述主叫号码和至少一个被叫号码的家庭关系的评价结果,生成所述第一用户的家庭关系的分析结果。
11.根据权利要求10所述的服务器,其特征在于,所述数据处理单元,具体用于根据所述数据获取单元获取的所述通话详单,计算所述主叫号码和至少一个被叫号码的第一业务信息;
所述数据处理单元,具体用于根据所述数据获取单元获取的所述上网日志,计算所述主叫号码和至少一个被叫号码的第二业务信息;
所述数据处理单元,具体用于根据所述数据获取单元获取的所述核心网控制信令,计算所述主叫号码和至少一个被叫号码的位置信息;
所述数据处理单元,还用于将所述主叫号码、所述至少一个被叫号码、所述第一业务信息、所述第二业务信息以及所述位置信息,添加至所述第一用户的家庭关系识别数据宽表。
12.根据权利要求11所述的服务器,其特征在于,所述数据处理单元,具体用于根据所述数据获取单元获取的所述第一用户的通话详单,确定在预设时间段内所述主叫号码与至少一个被叫号码的通话次数;
所述数据处理单元,具体用于根据所述数据获取单元获取的所述第一用户的通话详单,确定在预设时间段内所述主叫号码与至少一个被叫号码的通话时长;
所述数据处理单元,具体用于根据所述数据获取单元获取的所述第一用户的通话详单,确定预设时间段内所述主叫号码与至少一个被叫号码的最近一次通话间隔;其中,所述最近一次通话间隔包括:当前时间与所述预设时间段内距离当前时间最近的一次通话结束时间的差值。
13.根据权利要求11所述的服务器,其特征在于,所述数据处理单元,具体用于根据所述数据获取单元获取的所述第一用户的上网日志,确定所述主叫号码与至少一个被叫号码的上网关联次数;其中,所述上网关联次数包括:在预设时间段内提取到所述至少一个被叫号码的总次数;
所述数据处理单元,具体用于根据所述数据获取单元获取的所述第一用户的上网日志,确定所述主叫号码与至少一个被叫号码的上网关联频度;其中,所述上网关联次数包括:在预设时间段内提取到所述至少一个被叫号码的总天数;
所述数据处理单元,具体用于根据所述数据获取单元获取的所述第一用户的上网日志,确定所述主叫号码与至少一个被叫号码的最后一次上网关联间隔;其中,所述最后一次上网关联间隔包括:当前时间与预设时间段内距离所述当前时间最近的提取到所述至少一个被叫号码的时间的差值。
14.根据权利要求11所述的服务器,其特征在于,所述数据处理单元,具体用于根据所述数据获取单元获取的所述核心网控制信令,确定所述主叫号码与至少一个被叫号码的基站重合天数;其中,所述基站重合天数包括:在预设时间段内所述主叫号码与所述至少一个被叫号码停留在同一个基站的时间大于或等于预设时长的总天数;
所述数据处理单元,具体用于根据所述数据获取单元获取的所述核心网控制信令,确定所述主叫号码与至少一个被叫的基站重合度;其中,
Figure FDA0002729820630000061
A表示基站重合度,B表示在预设时间段内所述主叫号码与至少一个被叫号码访问同一个基站的总个数,C表示在所述预设时间段内所述主叫号码访问的基站的总个数,D在所述预设时间段内所述至少一个被叫号码访问的基站的总个数。
15.根据权利要求10所述的服务器,其特征在于,所述数据获取单元,还用于获取至少一组家庭套餐用户数据;
所述数据处理单元,还用于根据所述至少一组家庭套餐用户数据,确定至少一组训练样本;其中,每组所述训练样本包括:采样手机号码、以及与所述采样手机号码存在家庭关系的目标手机号码;
所述数据处理单元,还用于根据所述至少一组训练样本进行模型训练,生成所述家庭关系识别模型。
16.根据权利要求10所述的服务器,其特征在于,所述数据处理单元,还用于对所述家庭关系识别数据宽表进行数据质量核查,生成数据质量核查后的家庭关系识别数据宽表;其中,所述数据质量核查包括缺失值填充、异常值处理中的一项或者多项;
所述数据处理单元,还用于对所述数据质量核查后的家庭关系识别数据宽表进行等频分箱处理,生成分箱处理后的家庭关系识别数据宽表;
所述数据处理单元,具体用于根据家庭关系识别模型和所述分箱处理后的家庭关系识别数据宽表,确定所述主叫号码和至少一个被叫号码的家庭关系的评价结果。
17.一种网络系统,其特征在于,包括如权利要求10-16任一项所述的服务器。
CN201810276260.XA 2018-03-30 2018-03-30 一种用户家庭关系的分析算法、服务器及网络系统 Active CN110337059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810276260.XA CN110337059B (zh) 2018-03-30 2018-03-30 一种用户家庭关系的分析算法、服务器及网络系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810276260.XA CN110337059B (zh) 2018-03-30 2018-03-30 一种用户家庭关系的分析算法、服务器及网络系统

Publications (2)

Publication Number Publication Date
CN110337059A CN110337059A (zh) 2019-10-15
CN110337059B true CN110337059B (zh) 2021-03-12

Family

ID=68138891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810276260.XA Active CN110337059B (zh) 2018-03-30 2018-03-30 一种用户家庭关系的分析算法、服务器及网络系统

Country Status (1)

Country Link
CN (1) CN110337059B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113115200B (zh) * 2019-12-24 2023-04-18 中国移动通信集团浙江有限公司 用户关系识别方法、装置及计算设备
CN113065058A (zh) * 2020-01-02 2021-07-02 中国移动通信集团广东有限公司 家庭成员识别的方法及装置、电子设备和可读存储介质
CN113163324B (zh) * 2020-01-03 2022-11-29 中国移动通信集团江西有限公司 家庭用户识别方法及模块
CN113225218A (zh) * 2020-02-06 2021-08-06 中国移动通信集团贵州有限公司 一种话单质量的核查方法和装置
CN113378073B (zh) * 2020-03-10 2023-04-07 中国移动通信集团湖南有限公司 用户关系的识别方法及装置
CN113938344A (zh) * 2020-07-14 2022-01-14 中国移动通信有限公司研究院 家庭宽带业务家庭群组满意度确定方法及系统
CN112506063B (zh) * 2020-11-25 2024-05-07 中移(杭州)信息技术有限公司 数据分析方法、系统、电子设备和存储介质
CN112907385A (zh) * 2021-02-23 2021-06-04 深圳市广信安科技股份有限公司 社会关系分析方法、终端设备及存储介质
CN115379051A (zh) * 2021-05-17 2022-11-22 中国联合网络通信集团有限公司 家庭用户的识别方法、装置及设备
CN114501420A (zh) * 2022-03-06 2022-05-13 北京工业大学 一种利用手机信令数据识别家庭关系的方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102347917A (zh) * 2011-11-04 2012-02-08 西安电子科技大学 用于网络消息通信的联系人语义分组方法
US9035763B2 (en) * 2013-03-14 2015-05-19 Comcast Cable Communications, Llc Processing alarm signals
CN104636439A (zh) * 2015-01-04 2015-05-20 中国联合网络通信集团有限公司 一种分析用户社会关系的方法及装置
CN106127503A (zh) * 2016-06-06 2016-11-16 广州市邦富软件有限公司 一种基于真实社会关系和大数据的网络信息分析方法
CN106228371A (zh) * 2016-07-18 2016-12-14 南京坦道信息科技有限公司 一种基于交往频度和交往指数的超大规模用户的社交网络分析及家庭关系识别算法
CN106372072A (zh) * 2015-07-20 2017-02-01 北京大学 一种基于位置的移动社会网络用户关系的识别方法
CN206272854U (zh) * 2016-11-14 2017-06-20 成都信息工程大学 一种基于WiFi网络连接记录的社交关系构建装置
CN107220901A (zh) * 2017-06-02 2017-09-29 湖北文理学院 一种家庭成员关系亲密度计算方法
CN107423434A (zh) * 2017-08-03 2017-12-01 航天科工智慧产业发展有限公司 一种基于话单数据的潜在社会关系网络的挖掘方法
CN107729940A (zh) * 2017-10-20 2018-02-23 北京工业大学 一种用户话单大数据基站连接信息用户关系推定方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102347917A (zh) * 2011-11-04 2012-02-08 西安电子科技大学 用于网络消息通信的联系人语义分组方法
US9035763B2 (en) * 2013-03-14 2015-05-19 Comcast Cable Communications, Llc Processing alarm signals
CN104636439A (zh) * 2015-01-04 2015-05-20 中国联合网络通信集团有限公司 一种分析用户社会关系的方法及装置
CN106372072A (zh) * 2015-07-20 2017-02-01 北京大学 一种基于位置的移动社会网络用户关系的识别方法
CN106127503A (zh) * 2016-06-06 2016-11-16 广州市邦富软件有限公司 一种基于真实社会关系和大数据的网络信息分析方法
CN106228371A (zh) * 2016-07-18 2016-12-14 南京坦道信息科技有限公司 一种基于交往频度和交往指数的超大规模用户的社交网络分析及家庭关系识别算法
CN107392627A (zh) * 2016-07-18 2017-11-24 南京坦道信息科技有限公司 一种基于交往频度和交往指数的用户交往圈关系识别方法
CN206272854U (zh) * 2016-11-14 2017-06-20 成都信息工程大学 一种基于WiFi网络连接记录的社交关系构建装置
CN107220901A (zh) * 2017-06-02 2017-09-29 湖北文理学院 一种家庭成员关系亲密度计算方法
CN107423434A (zh) * 2017-08-03 2017-12-01 航天科工智慧产业发展有限公司 一种基于话单数据的潜在社会关系网络的挖掘方法
CN107729940A (zh) * 2017-10-20 2018-02-23 北京工业大学 一种用户话单大数据基站连接信息用户关系推定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于 TFIDF 算法的家庭关系识别模型构建及其应用;徐忠健等;《井冈山大学学报(自然科学版)》;20121031;全文 *

Also Published As

Publication number Publication date
CN110337059A (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
CN110337059B (zh) 一种用户家庭关系的分析算法、服务器及网络系统
CN108924333B (zh) 诈骗电话识别方法、装置和系统
US9305110B2 (en) Method and arrangement for supporting analysis of social networks in a communication network
EP2698967A1 (en) Social network data mining method for terminal user, and relevant method, device and system
US20130311283A1 (en) Data mining method for social network of terminal user and related methods, apparatuses and systems
CN105898085B (zh) 骚扰通信账号的识别方法及装置
CN110019382B (zh) 用户亲密度指数确定方法、装置、存储介质及电子设备
CN106171019B (zh) 确定终端漫游状态的方法、装置、终端及服务器
CN109982257B (zh) 确定移动用户归属区域的方法、装置、系统
CN111131493B (zh) 一种数据获取、用户画像生成方法、装置
CN111148018B (zh) 基于通信数据识别定位区域价值的方法和装置
CN114169438A (zh) 一种电信网络诈骗识别方法、装置、设备及存储介质
CN110611689B (zh) 一种信息识别方法、设备及计算机可读存储介质
CN106817710A (zh) 一种网络问题的定位方法及装置
CN110677269B (zh) 通信用户关系的确定方法、装置和计算机可读存储介质
CN107155214B (zh) 一种号码确定方法和装置
CN112307075A (zh) 用户关系识别方法及装置
CN105426978B (zh) 一种业务并发性预测方法与预测系统
CN107770734B (zh) 移动用户常驻地识别方法及装置
CN113378073B (zh) 用户关系的识别方法及装置
CN117793252A (zh) 通话方法、装置及可读存储介质
CN106162617B (zh) 确定终端sim卡归属地的方法及装置
CN115529581A (zh) 一种离网用户识别方法及装置
CN117241275A (zh) 一种对象识别方法、装置及电子设备
CN116016769A (zh) 一种欺诈团伙的识别方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant