CN113516562B

CN113516562B - 家庭社交网络构建方法、装置、设备及存储介质

Info

Publication number: CN113516562B
Application number: CN202110854629.2A
Authority: CN
Inventors: 罗博文; 梅铮; 徐恒; 柯于皇; 卓亚丽
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2023-09-19
Anticipated expiration: 2041-07-28
Also published as: CN113516562A

Abstract

本发明公开了一种家庭社交网络构建方法、装置、设备及存储介质，涉及大数据挖掘技术领域，方法包括：获取初始社区网络图；针对初始社区网络图中的每个第一节点，判断将任一第一节点加入任一第一节点的邻居社区后，邻居社区中节点数量是否大于预设节点数量；若是，则对任一第一节点进行剪枝，获得剪枝社区网络图；针对剪枝社区网络图中的每个第二节点，根据最大模块度非重叠社区发现算法，对剪枝社区网络图进行重构，获得重构社区网络图；根据重构社区网络图，获得包括多个目标用户的社区集合。本发明解决了现有技术中用户的家庭关系识别存在准确率较低的问题，实现了控制社区划分的大小，减少计算量，准确构建家庭社交网络的效果。

Description

家庭社交网络构建方法、装置、设备及存储介质

技术领域

本发明涉及大数据挖掘技术领域，尤其涉及一种家庭社交网络构建方法、装置、设备及存储介质。

背景技术

随着通信行业的发展，人与人之间沟通交流变得越来越便捷、越来越密切，这些交流便刻画出了现实社会的人际网络结构。从不同角度识别不同的社会关系是近年来相关领域研究者最热衷的课题，这些不同的社会关系彼此交织，构建了一个复杂的社交网络。在社交网络中，识别家庭社交网络对电信行业的客户留存及未来发展起着重要作用。

目前也提出了一些家庭社交网络的识别方法，但这些方法存在无法控制识别的社交网络的大小，导致无法提升家庭关系识别准确度的问题。

发明内容

本发明的主要目的在于：提供一种家庭社交网络构建方法、装置、设备及存储介质，旨在解决现有技术中用户的家庭关系识别存在准确率较低的技术问题。

为实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供了一种家庭社交网络构建方法，所述方法包括：

获取初始社区网络图，所述初始社区网络图的节点为目标用户，边为关联的用户对，边权重为所述用户对存在家庭关系的概率；

针对所述初始社区网络图中的每个第一节点，判断将任一第一节点加入所述任一第一节点的邻居社区后，所述邻居社区中节点数量是否大于预设节点数量；

若将所述任一第一节点加入所述邻居社区后，所述邻居社区中节点数量大于预设节点数量，则对所述任一第一节点进行剪枝，获得剪枝社区网络图；

针对所述剪枝社区网络图中的每个第二节点，根据最大模块度非重叠社区发现算法，对所述剪枝社区网络图进行重构，获得重构社区网络图；

根据所述重构社区网络图，获得包括多个所述目标用户的社区集合。

可选地，上述家庭社交网络构建方法中，所述判断将任一第一节点加入所述任一第一节点的邻居社区后，所述邻居社区中节点数量是否大于预设节点数量的步骤之后，所述方法还包括：

若将所述任一第一节点加入所述邻居社区后，所述邻居社区中节点数量不大于预设节点数量，则判断任一第一节点与所述邻居社区内各个节点建立的边的数量是否小于预设边数量，所述预设边数量为所述预设节点数量的预设比例；

若所述任一第一节点与所述邻居社区内各个节点建立的边的数量小于所述预设边数量，则对所述任一第一节点进行剪枝，获得第一剪枝社区网络图；

若所述任一第一节点与所述邻居社区内各个节点建立的边的数量不小于所述预设边数量，则将所述任一第一节点保留在所述任一第一节点当前所属的社区内，获得第二剪枝社区网络图。

可选地，上述家庭社交网络构建方法中，所述针对所述剪枝社区网络图中的每个第二节点，根据最大模块度非重叠社区发现算法，对所述剪枝社区网络图进行重构，获得重构社区网络图的步骤，具体包括：

针对所述剪枝社区网络图中的每个第二节点，根据所述最大模块度非重叠社区发现算法，获得将所述第二节点加入邻居社区的模块度增益；

根据所述模块度增益的最大值，对所述剪枝社区网络图进行重构，获得重构社区网络图；

根据所述重构社区网络图，返回执行所述针对所述初始社区网络图中的每个第一节点，判断将任一第一节点加入所述任一第一节点的邻居社区后，所述邻居社区中节点数量是否大于预设节点数量的步骤，循环直到所有节点不再变化，获得最终的重构社区网络图。

可选地，上述家庭社交网络构建方法中，所述根据所述模块度增益的最大值，对所述剪枝社区网络图进行重构，获得重构社区网络图的步骤，具体包括：

对比所述模块度增益，获得所述模块度增益的最大值；

判断所述模块度增益的最大值是否大于零；

若所述模块度增益的最大值大于零，则将所述第二节点加入所述模块度增益的最大值对应的邻居社区；

若所述模块度增益的最大值不大于零，则将所述第二节点保留在所述第二节点当前所属的社区内；

获得重构社区网络图。

可选地，上述家庭社交网络构建方法中，所述获取初始社区网络图的步骤之前，所述方法还包括：

获取用户大数据，所述用户大数据包括用户的业务数据、通话数据和位置数据；

根据所述用户大数据确定目标用户，获得所述目标用户的用户数据；

根据所述用户数据和训练获得的家庭关系判别模型，获得用户对及其存在家庭关系的概率；

所述获取初始社区网络图的步骤，具体包括：

根据所述用户对及其存在家庭关系的概率，构建用户网络图；

对所述用户网络图进行初始化社区划分，获得初始社区网络图。

可选地，上述家庭社交网络构建方法中，所述根据所述用户大数据确定目标用户，获得所述目标用户的用户数据的步骤之后，所述方法还包括：

对所述用户数据进行特征提取，获得特征数据；

对所述特征数据进行预处理，获得预处理后的特征数据，所述预处理包括缺失值填充和数据归一化；

根据各个特征的IV值和相关系数，对所述预处理后的特征数据进行特征筛选，获得有效特征数据；

所述根据所述用户数据和训练获得的家庭关系判别模型，获得用户对及其存在家庭关系的概率的步骤，具体包括：

将所述有效特征数据输入训练获得的家庭关系判别模型，获得用户对及其存在家庭关系的概率。

可选地，上述家庭社交网络构建方法中，所述根据所述用户数据和训练获得的家庭关系判别模型，获得用户对及其存在家庭关系的概率的步骤之前，所述方法还包括：

根据预设划分规则对所述用户数据进行筛选，获得包括正样本训练数据和负样本训练数据的训练数据集；

根据所述训练数据集，对初始判别模型进行训练，获得家庭关系判别模型，所述初始判别模型基于线性回归算法和套索算法建立，并根据牛顿迭代法进行优化。

第二方面，本发明提供了一种家庭社交网络构建装置，所述装置包括：

数据获取模块，用于获取初始社区网络图，所述初始社区网络图的节点为目标用户，边为关联的用户对，边权重为所述用户对存在家庭关系的概率；

第一策略模块，用于针对所述初始社区网络图中的每个第一节点，判断将任一第一节点加入所述任一第一节点的邻居社区后，所述邻居社区中节点数量是否大于预设节点数量；

第一剪枝模块，用于若将所述任一第一节点加入所述邻居社区后，所述邻居社区中节点数量大于预设节点数量，则对所述任一第一节点进行剪枝，获得剪枝社区网络图；

网络重构模块，用于针对所述剪枝社区网络图中的每个第二节点，根据最大模块度非重叠社区发现算法，对所述剪枝社区网络图进行重构，获得重构社区网络图；

结果输出模块，用于根据所述重构社区网络图，获得包括多个所述目标用户的社区集合。

第三方面，本发明提供了一种家庭社交网络构建设备，所述设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如上述的家庭社交网络构建方法。

第四方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序可被一个或多个处理器执行，以实现如上述的家庭社交网络构建方法。

本发明提供的上述一个或多个技术方案，可以具有如下优点或至少实现了如下技术效果：

本发明提出的一种家庭社交网络构建方法、装置、设备及存储介质，通过获取初始社区网络图后，针对初始社区网络图中的每个第一节点，若将所述第一节点加入所述任一第一节点的邻居社区后，所述邻居社区中节点数量将大于预设节点数量，则对所述任一第一节点进行剪枝，获得剪枝社区网络图，再针对剪枝社区网络图中的每个第二节点，根据最大模块度非重叠社区发现算法，对所述剪枝社区网络图进行重构，获得重构社区网络图，从而获得包括多个所述目标用户的社区集合；本发明对现有的社区发现算法进行了改进，得到了基于预剪枝的最大模块度非重叠社区发现算法，并利用该算法实现控制社区划分的大小，优化了算法性能，实现了提高构建家庭社交网络准确性的效果，还一定程度上减少了超大规模用户条件下的计算量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的这些附图获得其他的附图。

图1为本发明家庭社交网络构建方法第一实施例的流程示意图；

图2为本发明涉及的家庭社交网络构建设备的硬件结构示意图；

图3为本发明家庭社交网络构建方法第二实施例的流程示意图；

图4为本发明家庭社交网络构建装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，在本发明中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

另外，在本发明中，若有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

在本发明中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。另外，各个实施例的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

对现有技术的分析发现，随着通信行业的发展，人与人之间沟通交流变得越来越便捷、越来越密切，这些交流便刻画出了现实社会的人际网络结构。从不同角度识别不同的社会关系是近年来相关领域研究者最热衷的课题，这些不同的社会关系彼此交织，构建了一个复杂的社交网络。不同的社会关系比如有，同事关系、朋友关系、家庭关系等。在社交网络中，识别家庭社交网络对电信行业的客户留存及未来发展起着重要作用。

目前也提出了一些家庭社交网络的识别方法，但这些方法存在无法控制识别的社交网络的大小，导致无法提升家庭关系识别准确度的问题，比如：

1.基于位置信令指标及表征两个号码间关联性的指标，通过逻辑回归模型识别家庭关系的方法；该方法中，位置信令指标主要为位置相同的小区个数、常驻位置相同的小区个数、周末常驻位置相同的小区个数，表征两个号码间关联性的指标主要为存在通话记录的两个用户；这种方法存在特征维度较单一、无法多方面地刻画用户间的家庭关系，无法提升模型识别准确率的问题；

2.基于交往频度和交往指数的超大规模用户社交网络分析及家庭关系识别的方法；该方法通过用户语音通话信息和短彩信信息，计算交往指数，并通过交往指数结合交往时段偏好构建交往圈，再划分用户群体，并基于用户的家庭套餐信息构建家庭骨干模型，识别家庭关系网络；这种方法存在无法识别出未办理家庭套餐的家庭用户，导致识别准确率低，以及无法控制识别出的家庭关系网络的大小，导致具有一定局限性的问题。

3.基于多标签传播发现重叠社区的方法；该方法通过读取社交网络数据，采用综合考虑节点中心度以及标签度分布约束的标签传播方法进行社区发现，获得非重叠社区结构，再通过计算标签传播增益，并利用多标签传播进行重叠节点挖掘，得到社交网络的重叠社区结构；这种方法针对全网用户进行广义的重叠社团划分，没有细分家庭场景，无法挖掘家庭用户关系或构建家庭用户的非重叠社交网络，就算用到家庭社交网络构建上，也存在无法控制识别出来的家庭社交网络大小，导致家庭关系识别准确度较低的问题。

鉴于现有技术中用户的家庭关系识别存在准确率较低的技术问题，本发明提供了一种家庭社交网络构建方法，总体思路如下：

通过上述技术方案，获取初始社区网络图后，针对初始社区网络图中的每个第一节点，若将所述第一节点加入所述任一第一节点的邻居社区后，所述邻居社区中节点数量将大于预设节点数量，则对所述任一第一节点进行剪枝，获得剪枝社区网络图，再针对剪枝社区网络图中的每个第二节点，根据最大模块度非重叠社区发现算法，对所述剪枝社区网络图进行重构，获得重构社区网络图，从而获得包括多个所述目标用户的社区集合；本发明对现有的社区发现算法进行了改进，得到了基于预剪枝的最大模块度非重叠社区发现算法，并利用该算法实现控制社区划分的大小，优化了算法性能，实现了提高构建家庭社交网络准确性的效果，还一定程度上减少了超大规模用户条件下的计算量。

实施例一

参照图1的流程示意图，提出本发明家庭社交网络构建方法的第一实施例，该家庭社交网络构建方法应用于家庭社交网络构建设备。

所述家庭社交网络构建设备是指能够实现网络连接的终端设备或网络设备，所述设备可以是手机、电脑、平板电脑、嵌入式工控机等终端设备，也可以是服务器、云平台等网络设备。

如图2所示，为家庭社交网络构建设备的硬件结构示意图。所述设备可以包括：处理器1001，例如CPU(Central Processing Unit，中央处理器)，通信总线1002，用户接口1003，网络接口1004，存储器1005。

本领域技术人员可以理解，图2中示出的硬件结构并不构成对本发明家庭社交网络构建设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

具体的，通信总线1002用于实现这些组件之间的连接通信；

用户接口1003用于连接客户端，与客户端进行数据通信，用户接口1003可以包括输出单元，如显示屏、输入单元，如键盘，可选的，用户接口1003还可以包括其他输入/输出接口，比如标准的有线接口、无线接口；

网络接口1004用于连接后台服务器，与后台服务器进行数据通信，网络接口1004可以包括输入/输出接口，比如标准的有线接口、无线接口，如Wi-Fi接口；

存储器1005用于存储各种类型的数据，这些数据例如可以包括该家庭社交网络构建设备中任何应用程序或方法的指令，以及应用程序相关的数据，存储器1005可以是高速RAM存储器，也可以是稳定的存储器，例如磁盘存储器，可选的，存储器1005还可以是独立于所述处理器1001的存储装置；

具体的，继续参照图2，存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序，其中，网络通信模块主要用于连接服务器，与服务器进行数据通信；

处理器1001用于调用存储器1005中存储的计算机程序，并执行以下操作：

基于上述的家庭社交网络构建设备，下面结合图1所示的流程示意图，对本实施例的家庭社交网络构建方法进行详细描述。

所述方法可以包括以下步骤：

步骤S110：获取初始社区网络图，所述初始社区网络图的节点为目标用户，边为关联的用户对，边权重为所述用户对存在家庭关系的概率。

具体的，通过获取运营商的用户大数据，进行剔除后，获取有用的用户数据，将这些用户数据对应用户视为目标用户，再根据目标用户的业务、套餐、位置等数据，以及目标用户之间的通话数据等等，获得存在关联的用户对，以及该用户对存在家庭关系的概率，将获得用户对对应的目标用户作为节点，关联的目标用户即用户对之间连接为边，该用户对存在家庭关系的概率作为该边的权重值，以此建立一个网络图。再任意划分社区或者根据设定的规则划分社区，比如，将任意三个目标用户划分为一个社区，或者任意将四个目标用户划分为一个社区，社区与社区之间不重叠，具体可以根据实际情况设定，实现初始社区划分，获得初始社区网络图。

步骤S130：针对所述初始社区网络图中的每个第一节点，判断将任一第一节点加入所述任一第一节点的邻居社区后，所述邻居社区中节点数量是否大于预设节点数量。

具体的，由于构建家庭社交网络的特殊性，需要控制家庭大小。原有的最大模块度非重叠社区发现算法不能实现对社区大小的控制，有可能造成划分的家庭社区人数过多的情况，而且，在大规模用户量的情况下，社区间模块度增益计算的时间复杂度也成为了该算法的性能瓶颈，存在时间开销较大，即计算量较大，耗费时间长的问题。鉴于此，本实施例在利用最大模块度非重叠社区发现算法计算模块度增益前增加了预剪枝的步骤，对初始社区网络图中的节点进行剪枝，不仅可以实现控制划分社区的大小，还可以减少计算量，优化算法性能。具体针对初始社区网络图中的每个第一节点，判断将任意一个第一节点加入该第一节点的邻居社区后，该邻居社区中节点数量是否会大于预设节点数量，实现剪枝策略判断。预设节点数量为人为设定的，因此，实现了人为控制划分的社区大小。

步骤S150：若将所述任一第一节点加入所述邻居社区后，所述邻居社区中节点数量大于预设节点数量，则对所述任一第一节点进行剪枝，获得剪枝社区网络图。

具体的，步骤S30进行判断，若判断为是的情况，即将任意一个第一节点加入该第一节点的邻居社区后，该邻居社区中节点数量将会大于预设节点数量，则对该第一节点进行剪枝，后续将不会计算该第一节点的模块度增益，此时，社区划分不会改变，只是社区中节点数量会改变，以此获得剪枝后的划分了社区的网络图，即剪枝社区网络图。

步骤S170：针对所述剪枝社区网络图中的每个第二节点，根据最大模块度非重叠社区发现算法，对所述剪枝社区网络图进行重构，获得重构社区网络图。

具体的，最大模块度非重叠社区发现算法(Fast Unfolding算法)，是一种基于模块度的社区发现算法，其基本思想是网络中节点尝试遍历所有邻居的社区标签，并选择最大化模块度增益的社区标签，在最大化模块度之后，每个社区看成一个新的节点，重复直到模块度不再增大。针对获得的剪枝社区网络图中的每个节点即每个第二节点，利用FastUnfolding算法，对剪枝社区网络图进行重构，当网络图中的节点不再变化时，获得重构后的网络图，此时，将包括多个目标用户的同一社区作为超级节点，更新网络图，得到重构社区网络图，完成第一次迭代。然后，针对重构社区网络图，返回步骤S130，继续对该重构社区网络图进行剪枝策略判断，以及再利用最大模块度非重叠社区发现算法，进行网络图再重构，获得进一步的重构社区网络图，完成第二次迭代，以此循环，直到社区不再发生变化，获得最终的重构社区网络图，进入下一步骤。

步骤S190：根据所述重构社区网络图，获得包括多个所述目标用户的社区集合。

具体的，步骤S70获得的重构社区网络图中，节点为社区，边为关联的两个社区，边权重为两个社区中所有用户对的边权重之和。此时，将该重构社区网络图中的社区作为一个集合，即社区集合，一个社区集合即为一个家庭社交网络，集合中的元素为目标用户，进行列表统计并输出展示，即可知晓哪些目标用户是一个家庭社交网络，运营商即可针对一个家庭社交网络对应进行营销推广、网络提醒等业务。

本实施例提供的家庭社交网络构建方法，通过获取初始社区网络图后，针对初始社区网络图中的每个第一节点，若将所述第一节点加入所述任一第一节点的邻居社区后，所述邻居社区中节点数量将大于预设节点数量，则对所述任一第一节点进行剪枝，获得剪枝社区网络图，再针对剪枝社区网络图中的每个第二节点，根据最大模块度非重叠社区发现算法，对所述剪枝社区网络图进行重构，获得重构社区网络图，从而获得包括多个所述目标用户的社区集合；本发明对现有的社区发现算法进行了改进，得到了基于预剪枝的最大模块度非重叠社区发现算法，并利用该算法实现控制社区划分的大小，优化了算法性能，实现了提高构建家庭社交网络准确性的效果，还一定程度上减少了超大规模用户条件下的计算量。

实施例二

基于同一发明构思，参照图3，提出本发明家庭社交网络构建方法的第二实施例，该家庭社交网络构建方法应用于家庭社交网络构建设备。

下面结合图3所示的流程示意图，对本实施例的家庭社交网络构建方法进行详细描述。

所述方法可以包括以下步骤：

步骤S201：获取用户大数据，所述用户大数据包括用户的业务数据、通话数据和位置数据。

具体的，用户大数据为通信运营商的业务信息、用户通话数据、用户位置数据等等。

步骤S202：根据所述用户大数据确定目标用户，获得所述目标用户的用户数据。

具体的，实际中有很多卡号存在未正常使用的情况，针对这些异常用户，没有必要进行业务推广或营销，因此，也就没有必要对这些用户进行家庭关系的识别，所以，可以先将这些异常用户过滤掉，将过滤异常用户后剩下的用户确定为目标用户。比如，异常用户可以包括下表1所示的用户类别，并且，可以按照下表1的过滤规则进行过滤：

表1

表1中，ARPU(AverageRevenuePerUser，每用户平均收入)，指的是一个时期内电信运营企业平均每个用户贡献的通信业务收入，其单位为元/户，过滤到上述异常用户后的剩余用户，即为目标用户，也叫拍照用户。

步骤S203：对所述用户数据进行特征提取，获得特征数据。

具体的，考虑到属于一个家庭的用户具有以下特点：语音通话频率高、稳定性高；非工作时间段高频通话圈的用户具有相似性；夜间、周末、节假日位置基站重合度高；会办理家庭相关的业务、所处的位置和用户信息相似度高等特点。可以针对目标用户近一个月的语音通话、家庭业务办理情况和位置基站等数据，基于任意一个目标用户的用户数据，以及与该目标用户通话过的所有其他目标用户的用户数据，提取对应的目标用户的多个特征指标，获得特征数据，特征指标具体可以包括如表2所示的特征指标：

表2

按照表2的特征指标提取特征数据，提取特征时，若目标用户没有相关数据，则跳过该指标，进行下一指标的特征提取。

步骤S204：对所述特征数据进行预处理，获得预处理后的特征数据，所述预处理包括缺失值填充和数据归一化。

具体的，通话过的两个目标用户可能存在某些特征缺失的情况，说明这两个目标用户在此特征口径下无通话行为，比如，在工作日白天工作时段无通话行为，对应的获取工作日白天工作时段通话次数、通话时长、通话天数等特征可能缺失，此时，可以将缺失的特征对应的特征值填充为0。

使用min-max归一化，将数值型特征映射至[0，1]区间，具体可以采用如下公式：

其中，x*为归一化后的特征值，x为任意特征值，x_max为最大特征值，x_min为最小特征值。从而使得所有特征对应的特征值均位于[0，1]区间。

步骤S205：根据各个特征的IV值和相关系数，对所述预处理后的特征数据进行特征筛选，获得有效特征数据。

IV(Infromation Value，信息价值)值，一般用来表示特征对目标预测的贡献程度，即特征的预测能力，一般来说，IV值越高，该特征的预测能力越强，信息贡献程度越高。相关系数为Spearman相关系数(斯皮尔曼等级相关系数)，该相关系数利用单调方程评价两个统计变量的相关性。

具体的，先计算各个特征的IV值，将满足预设IV值的特征作为待选特征，进行第一次筛选，然后计算这些待选特征两两之间的Spearman相关系数，再对满足预设相关系数阈值对应的两个特征，随机剔除一个特征，将剩下的另一个特征作为最终选定的特征，实现特征筛选，获得有效特征数据。

比如，将IV值位于0.1-0.5的特征作为待选特征，再进一步计算各个特征变量间的Spearman相关系数，对于Spearman相关系数大于0.8的两个特征变量，随机剔除其中一个特征变量，最终筛选出的特征变量即为有效特征变量。

步骤S206：根据所述用户数据和训练获得的家庭关系判别模型，获得用户对及其存在家庭关系的概率。

具体的，将所述有效特征数据输入训练获得的家庭关系判别模型，获得用户对及其存在家庭关系的概率。家庭关系判别模型基于线性回归算法和套索算法建立的模型训练获得，该模型还利用牛顿迭代法进行优化求解。

有效特征数据作为模型输入，模型输出为用户对以及用户对存在家庭关系的概率。比如，模型的输出结果可以以“用户A-用户B-是否存在家庭关系-存在家庭关系的概率P”的列表形式展示，例如表3所示：

表3

表3中，存在家庭关系的概率P的计算式如下：

其中，y_i为本端用户的特征值，x_i为对端用户的特征值，e为自然指数。

基于用户对存在家庭关系的概率，利用预设的判断阈值，判断该用户对是否存在家庭关系，若存在家庭关系，则可以作为后续用户网络图构建的边，若不存在家庭关系，则在用户网络图中不会连接，即不存在边。

以可能存在家庭关系的两个关联的目标用户作为用户对，准确地识别出了存在家庭关系的目标用户，为后续进行家庭社交网络构建提供基础。

进一步地，所述步骤S206之前，所述方法还包括：

步骤A1：根据预设划分规则对所述用户数据进行筛选，获得包括正样本训练数据和负样本训练数据的训练数据集。

具体的，在步骤S202确定目标用户，获得目标用户的用户数据之后，可以先获得一个目标用户表，以备使用。再结合运营商具体的家庭业务，比如亲情网业务、主副号业务等，将办理该业务的满足预设人数且业务ID一致的通话用户作为正样本，将办理该业务的满足预设人数但业务ID不一致的通话用户作为负样本。比如，可以筛选出亲情网用户数在2-3人的目标用户，并结合目标用户表关联到本网间用户通话信息表，生成全量目标用户通话数据表，然后，在全量目标用户通话数据表中，根据表4的规则划分正样本训练数据和负样本训练数据，以获得两个训练数据集：

表4

表4中，亲情网ID一致，说明已经可以从用户业务数据知晓通话的两个目标用户属于同一个家庭社区，亲情网ID不一致，说明通话的两个目标用户各自已经有各自的家庭社区，但不属于同一个家庭社区。

步骤A2：根据所述训练数据集，对初始判别模型进行训练，获得家庭关系判别模型，所述初始判别模型基于线性回归算法和套索算法建立，并根据牛顿迭代法进行优化。

具体的，对用户数据筛选后得到的两个训练数据集，即获得的正样本训练数据和负样本训练数据，可以分别按照步骤S203～S205进行特征提取和特征筛选，获得有效训练特征，即正样本的有效训练特征和负样本的有效训练特征。再将有效训练特征输入初始判别模型，进行模型训练，即基于正样本有效训练特征和负样本有效训练特征训练模型，获得训练好的家庭关系判别模型，以待实际应用时直接使用。需要说明，基于正样本和负样本进行模型训练已经是较成熟的现有技术，此处不再赘述。

在步骤S206之后，可以按顺序执行如下步骤S210～S280，从而实现基于识别到的家庭关系用户对进一步确定家庭社区的目的；也可以步骤S201～S206为独立执行的步骤分支，从而实现识别家庭关系用户对的目的；或者步骤S210～S280为独立执行的步骤分支，从而实现家庭社交网络图构建的目的。

所述方法还可以包括以下步骤：

步骤S210：获取初始社区网络图，所述初始社区网络图的节点为目标用户，边为关联的用户对，边权重为所述用户对存在家庭关系的概率；

具体的，所述步骤S210可以包括：

步骤S211：根据所述用户对及其存在家庭关系的概率，构建用户网络图；

步骤S212：对所述用户网络图进行初始化社区划分，获得初始社区网络图。

在步骤S206获得用户对及其存在家庭关系的概率后，构建用户网络图，以输出结果中的目标用户作为网络图的节点；节点与节点之间是否连接，取决于步骤S206输出的结果，即判断存在家庭关系为是的用户对对应的两个节点，则连接作为用户网络图的边，或者将具有通信关系的用户对的关联关系看作节点之间的边；对于连接有边的两个节点对应的用户对，其存在家庭关系的概率即作为该边的权重，如此，构建得到用户网络图。

再随机在用户网络图中划分社区，或根据预设规则划分社区，实现社区初始化，获得初始社区网络图。

步骤S220：针对所述初始社区网络图中的每个第一节点，判断将任一第一节点加入所述任一第一节点的邻居社区后，所述邻居社区中节点数量是否大于预设节点数量。

具体的，常规的家庭中，一般包括夫妻二人，小孩一人，公婆四人，所以可以设定预设节点数量为6人，该数量可根据具体的实际情况做出调整，即实现了人为调整家庭网络的大小。

步骤S230：若将所述任一第一节点加入所述邻居社区后，所述邻居社区中节点数量大于预设节点数量，则对所述任一第一节点进行剪枝，获得剪枝社区网络图。

步骤S240：若将所述任一第一节点加入所述邻居社区后，所述邻居社区中节点数量不大于预设节点数量，则判断任一第一节点与所述邻居社区内各个节点建立的边的数量是否小于预设边数量，所述预设边数量为所述预设节点数量的预设比例。

具体的，预设比例比如1/2、1/3等，针对预设节点数量对应设置，该比例也可根据具体的实际情况做出调整，进一步实现人为调节网络大小。

步骤S250：若所述任一第一节点与所述邻居社区内各个节点建立的边的数量小于所述预设边数量，则对所述任一第一节点进行剪枝，获得第一剪枝社区网络图。

步骤S260：若所述任一第一节点与所述邻居社区内各个节点建立的边的数量不小于所述预设边数量，则将所述任一第一节点保留在所述任一第一节点当前所属的社区内，获得第二剪枝社区网络图。

具体的，在步骤S210获得初始社区网络图之后，进行预剪枝策略判断，对满足剪枝策略的第一节点进行剪枝，获得剪枝社区网络图。其中，剪枝策略包括：策略一、判断将任一第一节点加入所述任一第一节点的邻居社区后，所述邻居社区中节点数量大于预设节点数量；策略二、对不满足策略一的情况，判断任一第一节点与所述邻居社区内各个节点建立的边的数量是否小于预设边数量。通过这两个剪枝策略判断，对满足策略一的第一节点，不满足策略一但满足策略二的第一节点进行剪枝，对不满足策略一也不满足策略二的第一节点保留该第一节点在当前所属的社区内，不做剪枝处理，如此，获得了剪枝社区网络图。剪枝策略的判断，可以将一些不必要的第一节点过滤掉，避免后续重构网络图时出现不必要的搜索路径，增大计算量。

比如，首先，针对步骤S210获得的初始社区网络图中的每个第一节点，判断是否满足策略一，即第一节点加入该第一节点的邻居社区后，该邻居社区中节点的数量是否会超过预设节点数量，比如6人，若会超过6人，则对该第一节点剪枝，该第一节点将不会加入这个邻居社区，后续也不会计算该第一节点的模块度增益，若不会超过6人，则进一步判断是否满足策略二，即第一节点与邻居社区内各个节点建立的边的数量是否小于预设边数量，此处预设边数量可以是邻居社区中节点数量的预设比例，例如1/2，即邻居社区中预设节点数量为6，则预设边数量可以为3。则策略二的判断为判断该第一节点与邻居社区内各个节点建立的边的数量是否小于3，对小于3的第一节点进行剪枝，后续也不会计算该第一节点的模块度增益，若大于或等于3，则说明该节点与邻居社区关联性较大，极有可能是邻居社区对应的家庭关系中的成员，所以，需要进一步计算该第一节点的模块度增益，可一定程度上保证加入邻居社区中节点关系的准确性。

需要说明，上述步骤S220～S260中涉及的预设数值，都是预先存储在社区的顶点类中，因此，执行上述剪枝策略的判断步骤时，不会额外增加后续算法的复杂度，也不会增加后续重构网络图的时间。基于现有最大模块度非重叠社区发现算法增加的上述预剪枝的步骤，只有在节点不满足预剪枝的策略时，才会执行后续计算模块度增益的步骤，这样不仅实现了人为控制社区划分的大小，而且一定程度上减少了计算量，优化了现有算法的性能。

步骤S270：针对所述剪枝社区网络图中的每个第二节点，根据最大模块度非重叠社区发现算法，对所述剪枝社区网络图进行重构，获得重构社区网络图；

具体的，所述步骤S270可以包括：

步骤S271：针对所述剪枝社区网络图中的每个第二节点，根据所述最大模块度非重叠社区发现算法，获得将所述第二节点加入邻居社区的模块度增益；

步骤S272：根据所述模块度增益的最大值，对所述剪枝社区网络图进行重构，获得重构社区网络图；

具体的，所述步骤S272可以包括：

步骤S272.1：对比所述模块度增益，获得所述模块度增益的最大值；

步骤S272.2：判断所述模块度增益的最大值是否大于零；

步骤S272.3：若所述模块度增益的最大值大于零，则将所述第二节点加入所述模块度增益的最大值对应的邻居社区；

步骤S272.4：若所述模块度增益的最大值不大于零，则将所述第二节点保留在所述第二节点当前所属的社区内；

步骤S272.5：获得重构社区网络图。

具体的，最大模块度非重叠社区发现算法(Fast Unfolding算法)中，核心概念为模块度，用于刻画发现的社区的紧密程度。模块度增益ΔQ的计算式为：

其中，i表示任意一个第二节点，in表示节点i的邻居社区中的节点，∑in表示邻居社区内边的权重总和，∑tot表示节点i关联到邻居社区中的节点in的边的权重总和，k_i表示关联到节点i的边的权重之和，k_i,in表示节点i和节点in之间的边的权重之和，m表示网络中所有边的权重总和。

模块度是度量社区划分优劣的重要标准，划分后的网络模块度值越大，说明社区划分的效果越好。模块度增益是模块度的变化值，若该变化值为正，则将该第二节点移动到指定的邻居社区中，若该变化值为负，则保持节点不动，按照这个方法对剪枝社区网络图中的每个第二节点进行判断，对应进行第二节点移动或保持第二节点不动，从而实现网络图重构，此为第一阶段。第二阶段还需要将划分出来的社区聚合成为一个节点，可以称其为超级节点，从而获得重构社区网络图。

步骤S273：根据所述重构社区网络图，返回执行所述针对所述初始社区网络图中的每个第一节点，判断将任一第一节点加入所述任一第一节点的邻居社区后，所述邻居社区中节点数量是否大于预设节点数量的步骤，循环直到所有节点不再变化，获得最终的重构社区网络图。

具体的，针对重构社区网络图，随机划分社区后，返回步骤S220，针对该重构社区网络图中的每个节点，判断将该节点加入该节点的邻居社区后，所述邻居社区中节点数量是否大于预设节点数量，若是，则进行剪枝，若否，则进一步判断该节点与邻居社区内各个节点建立的边的数量是否小于预设边数量，若是，则进行剪枝，若否，则计算该节点的模块度增益，若该节点的的最大模块度增益大于0，则将它划分到对应的邻居社区；否则，保持归属于原社区，实现社区再划分，即网络图再重构，获得又一重构社区网络图，以此循环直到网络中的结构不再改变为止，获得最终的重构社区网络图。

步骤S280：根据所述重构社区网络图，获得包括多个所述目标用户的社区集合。

具体的，基于步骤S273获得的最终的重构社区网络图，将该图中超级节点视为一个社区集合，也就是一个家庭社交网络，并以列表的形式输出社区集合涉及的用户，具体可以以“家庭ID-用户手机号”的形式输出，如表5所示：

表5

序号	家庭ID	家庭成员
			1	eb153b89-3474-4e2d	135********
2	eb153b89-3474-4e2d	188********
			3	…	…

需要说明，上述方法步骤的具体实施方式中更多实施细节还可以参见实施例一中对应步骤的具体实施方式的描述，为了说明书的简洁，此处不再重复赘述。本发明的方法还可应用于精准营销、数据挖掘、智能推荐系统等营销场景中。

本实施例提供的家庭社交网络构建方法，通过对获取的用户大数据进行处理，并提取多维度的特征数据，结合Lasso回归算法识别用户间的家庭关系，准确地识别出家庭关系用户对；同时，使用基于预剪枝的最大模块度非重叠社区发现算法确定家庭社区，对传统Fast Unfolding算法进行改进，在计算模块度增益前新增预剪枝的步骤，不仅实现了人为控制社区划分的大小，而且减少了超大规模用户条件下的计算量，优化了算法性能，能够快速准确地构建家庭社交网络。解决了电信行业家庭社交网络构建中无法控制网络大小以及在大规模用户量下社区发现算法性能不足的问题，提高了用户间家庭关系识别的准确率。

实施例三

基于同一发明构思，参照图4，提出本发明家庭社交网络构建装置的第一实施例，该家庭社交网络构建装置可以为虚拟装置，应用于家庭社交网络构建设备。

下面结合图4所示的功能模块示意图，对本实施例提供的家庭社交网络构建装置进行详细描述，所述装置可以包括：

进一步地，所述装置还可以包括：

第二策略模块，用于若将所述任一第一节点加入所述邻居社区后，所述邻居社区中节点数量不大于预设节点数量，则判断任一第一节点与所述邻居社区内各个节点建立的边的数量是否小于预设边数量，所述预设边数量为所述预设节点数量的预设比例；

第二剪枝模块，用于若所述任一第一节点与所述邻居社区内各个节点建立的边的数量小于所述预设边数量，则对所述任一第一节点进行剪枝，获得第一剪枝社区网络图；

节点保留模块，用于若所述任一第一节点与所述邻居社区内各个节点建立的边的数量不小于所述预设边数量，则将所述任一第一节点保留在所述任一第一节点当前所属的社区内，获得第二剪枝社区网络图。

进一步地，所述网络重构模块包括：

模块度增益获取单元，用于针对所述剪枝社区网络图中的每个第二节点，根据所述最大模块度非重叠社区发现算法，获得将所述第二节点加入邻居社区的模块度增益；

网络重构单元，用于根据所述模块度增益的最大值，对所述剪枝社区网络图进行重构，获得重构社区网络图；

循环单元，用于根据所述重构社区网络图，返回执行所述针对所述初始社区网络图中的每个第一节点，判断将任一第一节点加入所述任一第一节点的邻居社区后，所述邻居社区中节点数量是否大于预设节点数量的步骤，循环直到所有节点不再变化，获得最终的重构社区网络图。

更进一步地，所述网络重构单元具体用于：

对比所述模块度增益，获得所述模块度增益的最大值；

判断所述模块度增益的最大值是否大于零；

获得重构社区网络图。

进一步地，所述装置还包括：

大数据获取模块，用于获取用户大数据，所述用户大数据包括用户的业务数据、通话数据和位置数据；

数据筛选模块，用于根据所述用户大数据确定目标用户，获得所述目标用户的用户数据；

家庭关系判别模块，用于根据所述用户数据和训练获得的家庭关系判别模型，获得用户对及其存在家庭关系的概率；

所述数据获取模块，具体包括：

网络图构建单元，用于根据所述用户对及其存在家庭关系的概率，构建用户网络图；

社区初始化单元，用于对所述用户网络图进行初始化社区划分，获得初始社区网络图。

更进一步地，所述装置还包括：

特征提取模块，用于对所述用户数据进行特征提取，获得特征数据；

预处理模块，用于对所述特征数据进行预处理，获得预处理后的特征数据，所述预处理包括缺失值填充和数据归一化；

特征筛选模块，用于根据各个特征的IV值和相关系数，对所述预处理后的特征数据进行特征筛选，获得有效特征数据；

所述家庭关系判别模块，具体用于将所述有效特征数据输入训练获得的家庭关系判别模型，获得用户对及其存在家庭关系的概率。

更进一步地，所述装置还包括：

训练数据获取模块，用于根据预设划分规则对所述用户数据进行筛选，获得包括正样本训练数据和负样本训练数据的训练数据集；

模型训练模块，用于根据所述训练数据集，对初始判别模型进行训练，获得家庭关系判别模型，所述初始判别模型基于线性回归算法和套索算法建立，并根据牛顿迭代法进行优化。

需要说明，本实施例提供的家庭社交网络构建装置中各个模块可实现的功能和对应达到的技术效果可以参照本发明家庭社交网络构建方法各个实施例中具体实施方式的描述，为了说明书的简洁，此处不再赘述。

实施例四

基于同一发明构思，参照图2，为本发明各实施例涉及的家庭社交网络构建设备的硬件结构示意图。本实施例提供了一种家庭社交网络构建设备，所述设备可以包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现本发明家庭社交网络构建方法各个实施例的全部或部分步骤。

具体的，所述家庭社交网络构建设备是指能够实现网络连接的终端设备或网络设备，可以是手机、电脑、平板电脑、便携计算机等终端设备，也可以是服务器、云平台等网络设备。

可以理解，所述设备还可以包括通信总线，用户接口和网络接口。

其中，通信总线用于实现这些组件之间的连接通信。

用户接口用于连接客户端，与客户端进行数据通信，用户接口可以包括输出单元，如显示屏、输入单元，如键盘，可选的，用户接口还可以包括其他输入/输出接口，比如标准的有线接口、无线接口。

网络接口用于连接后台服务器，与后台服务器进行数据通信，网络接口可以包括输入/输出接口，比如标准的有线接口、无线接口，如Wi-Fi接口。

存储器用于存储各种类型的数据，这些数据例如可以包括该家庭社交网络构建设备中任何应用程序或方法的指令，以及应用程序相关的数据。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static RandomAccess Memory，简称SRAM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘，可选的，存储器还可以是独立于所述处理器的存储装置。

处理器用于调用存储器中存储的计算机程序，并执行如上述的家庭社交网络构建方法，处理器可以是专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable LogicDevice，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件，用于执行如上述家庭社交网络构建方法各个实施例的全部或部分步骤。

实施例五

基于同一发明构思，本实施例提供了一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，所述存储介质上存储有计算机程序，所述计算机程序可被一个或多个处理器执行，所述计算机程序被处理器执行时可以实现本发明家庭社交网络构建方法各个实施例的全部或部分步骤。

需要说明，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的可选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均包括在本发明的专利保护范围内。

Claims

1.一种家庭社交网络构建方法，其特征在于，所述方法包括：

根据所述重构社区网络图，获得包括多个所述目标用户的社区集合；所述判断将任一第一节点加入所述任一第一节点的邻居社区后，所述邻居社区中节点数量是否大于预设节点数量的步骤之后，所述方法还包括：

若所述任一第一节点与所述邻居社区内各个节点建立的边的数量不小于所述预设边数量，则将所述任一第一节点保留在所述任一第一节点当前所属的社区内，获得第二剪枝社区网络图；

所述针对所述剪枝社区网络图中的每个第二节点，根据最大模块度非重叠社区发现算法，对所述剪枝社区网络图进行重构，获得重构社区网络图的步骤，具体包括：

2.如权利要求1所述的家庭社交网络构建方法，其特征在于，所述根据所述模块度增益的最大值，对所述剪枝社区网络图进行重构，获得重构社区网络图的步骤，具体包括：

对比所述模块度增益，获得所述模块度增益的最大值；

判断所述模块度增益的最大值是否大于零；

获得重构社区网络图。

3.如权利要求1所述的家庭社交网络构建方法，其特征在于，所述获取初始社区网络图的步骤之前，所述方法还包括：

所述获取初始社区网络图的步骤，具体包括：

4.如权利要求3所述的家庭社交网络构建方法，其特征在于，所述根据所述用户大数据确定目标用户，获得所述目标用户的用户数据的步骤之后，所述方法还包括：

对所述用户数据进行特征提取，获得特征数据；

5.如权利要求3或4所述的家庭社交网络构建方法，其特征在于，所述根据所述用户数据和训练获得的家庭关系判别模型，获得用户对及其存在家庭关系的概率的步骤之前，所述方法还包括：

6.一种家庭社交网络构建装置，其特征在于，所述装置包括：

结果输出模块，用于根据所述重构社区网络图，获得包括多个所述目标用户的社区集合；

节点保留模块，用于若所述任一第一节点与所述邻居社区内各个节点建立的边的数量不小于所述预设边数量，则将所述任一第一节点保留在所述任一第一节点当前所属的社区内，获得第二剪枝社区网络图；

其中，所述网络重构模块包括：

7.一种家庭社交网络构建设备，其特征在于，所述设备包括存储器和处理器，所述存储器上存储有计算机程序，该计算机程序被所述处理器执行时，实现如权利要求1至5中任一项所述的家庭社交网络构建方法。

8.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序可被一个或多个处理器执行，以实现如权利要求1至5中任一项所述的家庭社交网络构建方法。