CN113554049A

CN113554049A - 异网宽带用户识别的方法、装置、设备及存储介质

Info

Publication number: CN113554049A
Application number: CN202010336551.0A
Authority: CN
Inventors: 栗红果; 余凤丽; 张玉; 余韦; 杨猛; 梁恩磊; 马可珍
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2021-10-26

Abstract

本发明公开了一种异网宽带用户识别的方法、装置、设备及存储介质。具体包括：获取本网用户对应的用户对数据集合和用户数据集合，所述用户对为具有业务关联关系的用户；利用家庭群组识别模型，对用户对数据集合对应的用户对进行识别，得到家庭群组用户信息，所述家庭群组识别模型是由用户对数据集合样本确定；利用宽带用户识别模型，对用户数据集合对应的用户进行识别，得到宽带用户信息，所述宽带用户识别模型是由用户数据集合样本确定；结合所述家庭群组用户信息，对宽带用户信息进行筛选，以将满足预设异网条件的宽带用户信息作为异网宽带用户信息。根据本发明实施例，可以提高异网宽带用户识别准确性和效率。

Description

异网宽带用户识别的方法、装置、设备及存储介质

技术领域

本发明属于计算机技术领域，尤其涉及一种异网宽带用户识别的方法、装置、设备及计算机存储介质。

背景技术

随着电信市场竞争日益激烈，传统电信业务日渐饱和，流量市场成为三大运营商的重点竞争方向，其中，家用宽带市场是流量市场的重点组成部分。

为了拓展家用宽带市场，运营商在不断挖掘本网潜在宽带用户的同时，也希望可以发展一些使用异网家用宽带用户，这就需要对该类型用户进行相应地识别分析。因此，如何有效地识别异网家用宽带用户是亟待解决的问题。

发明内容

本发明实施例提供一种异网宽带用户识别的方法、装置、设备及计算机存储介质，能够利用多种用户识别模型对本网用户的相关业务数据进行分析预测，可以实现对可能存在的异网宽带用户快速准确地识别，提高了异网宽带用户识别准确性和效率。

第一方面，本发明实施例提供一种异网宽带用户识别的方法，该包括：

获取本网用户对应的用户对数据集合和用户数据集合，所述用户对为具有业务关联关系的用户；

利用家庭群组识别模型，对所述用户对数据集合对应的用户对进行识别，得到家庭群组用户信息，所述家庭群组识别模型是由用户对数据集合样本确定；

利用宽带用户识别模型，对所述用户数据集合对应的用户进行识别，得到宽带用户信息，所述宽带用户识别模型是由用户数据集合样本确定；

结合所述家庭群组用户信息，对所述宽带用户信息进行筛选，以将满足预设异网条件的宽带用户信息作为异网宽带用户信息。

可选地，所述利用家庭群组识别模型，对所述用户对数据集合对应的用户对进行识别，得到家庭群组用户信息，包括：

对所述用户对数据集合进行特征提取，得到用户对特征信息集合；

将所述用户对特征信息集合输入所述家庭群组识别模型进行识别，得到对应的第一识别概率；

当第一识别概率大于预设第一识别概率阈值时，确定所述用户对特征信息集合对应的用户对为家庭群组用户，以得到家庭群组用户对集合；

根据所述家庭群组用户对集合，确定所述家庭群组用户信息。

可选地，所述根据家庭群组用户对集合，确定所述家庭群组用户信息，包括：

分别将所述家庭群组用户对集合的每个用户对的第一识别概率，与预设用户对相关度阈值进行匹配；

当第一识别概率大于预设用户对相关度阈值时，得到第一关系用户对集合；

当第一识别概率小于预设用户对相关度阈值时，得到第二关系用户对集合；

利用剪枝算法，对所述第一关系用户对集合和所述第二关系用户对集合进行剪枝，得到至少一个家庭群组；

根据至少一个所述家庭群组，得到家庭群组用户信息。

可选地，在所述获取本网用户对应的用户对数据集合和用户数据集合之前，所述方法还包括：

获取用户对数据集合样本；

对所述用户对数据集合样本进行特征提取，得到多个第一训练样本，所述第一训练样本包括用户对特征信息；

将满足预设第一关联条件的多个第一训练样本，确定为第一正样本，所述第一正样本表示用户对为家庭群组用户对；

将满足预设第二关联条件的多个第一训练样本，确定为第一负样本，所述第一负样本表示用户对为非家庭群组用户对；

将多个所述第一正样本和所述第一负样本输入待训练的家庭群组识别模型，以对所述待训练的家庭群组识别模型进行迭代训练，得到目标家庭群组识别模型。

可选地，所述用户对特征信息包括：通话次数、发短信次数、身份证号码、身份证地址、家庭业务关系以及特定时段位置信息中的一项或者多项。

可选地，所述预设第一关联条件包括如下所述的任意一种或者多种：

用户对存在家庭业务关联、用户对的用户身份证信息相同、用户对的相同夜间常驻地驻留时间达到预设时间条件、用户对通话频次达到预设通话条件和用户对短信发送频次达到预设短信发送条件。

可选地，所述预设第二关联条件包括如下所述的任意一种或者多种：

用户对无家庭业务关联、用户对的用户身份证信息不同、用户对的夜间常驻地信息不同、用户对通话频次低于预设通话频次阈值和用户对短信频次低于预设短信频次阈值。

可选地，所述利用宽带用户识别模型，对所述用户数据集合对应的用户进行识别，得到宽带用户信息，包括：

对所述用户数据集合进行特征提取，得到用户特征信息集合；

将所述用户特征信息集合输入所述宽带用户识别模型进行识别，得到对应的第二识别概率；

当第二识别概率大于预设第二识别概率阈值时，确定所述用户特征信息集合对应的用户为宽带用户，以得到宽带用户信息。

获取用户数据集合样本；

对所述用户数据集合样本进行特征提取，得到多个第二训练样本，所述第二训练样本包括用户特征信息；

将多个所述第二训练样本中的第一用户作为第二正样本，以得到多个所述第二正样本，所述第一用户包括宽带状态正常的宽带用户；

利用聚类算法，根据多个所述第二训练样本的用户特征信息，对多个所述第二训练样本的用户进行聚类，得到多个第二负样本；

将多个所述第二正样本和多个所述第二负样本输入待训练的宽带用户识别模型，以对所述待训练的宽带用户识别模型进行迭代训练，得到目标宽带用户识别模型。

可选地，所述利用聚类算法，根据多个所述第二训练样本的用户特征信息，对多个所述第二训练样本的用户进行聚类，得到多个第二负样本，包括：

随机选取K个所述用户特征信息作为聚类质心点，K为大于1的自然数；

将与聚类质心点类别相同的用户特征信息划分为一个用户聚类；

计算所述用户聚类的平均值作为新聚类质心点；

将与新聚类质心点类别相同的用户特征信息重新划分为一个用户聚类；

将聚类质心点不再变化或划分次数达到预设值的用户聚类作为聚类结果；

将所述聚类结果满足预设筛选条件的多个第二用户作为所述第二负样本。

可选地，所述家庭群组识别模型为逻辑回归模型。

可选地，所述宽带用户识别模型为随机森林分类模型。

第二方面，本发明实施例提供了一种异网宽带用户识别的装置，所述装置包括：

获取模块，用于获取本网用户对应的用户对数据集合和用户数据集合，所述用户对为具有业务关联关系的用户；

第一识别模块，用于利用家庭群组识别模型，对所述用户对数据集合对应的用户对进行识别，得到家庭群组用户信息，所述家庭群组识别模型是由用户对数据集合样本确定；

第二识别模块，用于利用宽带用户识别模型，对所述用户数据集合对应的用户进行识别，得到宽带用户信息，所述宽带用户识别模型是由用户数据集合样本确定；

筛选模块，用于结合所述家庭群组用户信息，对所述宽带用户信息进行筛选，以将满足预设异网条件的宽带用户信息作为异网宽带用户信息。

第三方面，本发明实施例提供了一种异网宽带用户识别的设备，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如第一方面以及第一方面可选任一所述的异网宽带用户识别的方法。

第四方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如第一方面以及第一方面可选任一所述的异网宽带用户识别的方法。

本发明实施例的异网宽带用户识别的方法、装置、设备及计算机存储介质，能够通过家庭群组识别模型识别出本网用户中具有家庭群组关系的用户信息，同时，通过宽带用户识别模型识别出本网用户中的宽带用户信息，将家庭群组用户信息和宽带用户信息结合，根据预设异网条件筛选出相应的异网宽带用户信息。即基于对本网用户间关联关系信息和本网用户本身信息的识别分析，得到可能存在的异网宽带用户信息，确定可能异网宽带用户。在本发明的技术方案中，本网用户相关业务数据的获取较为方便快捷，基于历史用户数据样本训练确定的多个用户识别模型，识别出的用户信息较为可靠准确，在上述用户信息的基础上对用户进行筛选，可以快速准确地确定可能存在的异网宽带用户信息。进而，可以根据这些异网宽带用户信息，有效地去挖掘潜在的宽带用户，较精准地定位用户，优化用户推广工作。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的异网宽带用户识别的方法的流程示意图；

图2是本发明一个实施例提供的确定家庭群组识别模型的流程示意图；

图3是本发明一个实施例提供的确定宽带用户识别模型的流程示意图；

图4是本发明另一个实施例提供的异网宽带用户识别的方法的应用场景架构的示意图；

图5是本发明一个实施例提供的家庭群组合并剪枝的流程示意图；

图6是本发明另一个实施例提供的异网宽带用户识别装置的结构示意图；

图7是本发明实施例提供的异网宽带用户识别的设备的硬件结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

随着电信市场竞争日益激烈，为了拓展家用宽带市场，运营商在不断挖掘本网潜在宽带用户的同时，也希望可以发展一些使用异网家用宽带用户，这就需要对该类型用户进行相应地识别分析。因此，如何有效地识别异网家用宽带用户是亟待解决的问题。

为了解决现有技术问题，本发明实施例提供了一种异网宽带用户识别的方法、装置、设备及计算机存储介质，能够在电信用户常规数据的基础上，通过家庭群组识别模型预测用户的真实家庭群组关系，同时并通过宽带用户识别模型识别出本网用户中的宽带用户信息，继而将家庭群组用户信息和宽带用户信息结合，基于预设的异网条件，筛选出相应的异网宽带用户信息。由此，本发明技术方案，可以实现快速准确地获得异网家宽用户的用户清单，进而，可以根据这些异网宽带用户清单，有效地去挖掘潜在的宽带用户，较精准地定位用户，优化用户推广工作，提升电信企业在家宽市场的竞争优势。

下面结合附图，描述根据本发明实施例提供的异网宽带用户识别的方法、装置、设备和计算机存储介质。应注意，这些实施例并不是用来限制本发明公开的范围。

下面首先对本发明实施例所提供的异网宽带用户识别的方法进行介绍。

图1是本发明一个实施例提供的异网宽带用户识别的方法的流程示意图。如图1所示，在本发明实施例中，该异网宽带用户识别的方法可以具体实施为如下步骤：

S101：获取本网用户对应的用户对数据集合和用户数据集合。

这里，用户对可以为具有业务关联关系的用户。用户对数据集合可以包括但不限于用户对之间的通信类数据、常驻地类数据和业务类数据中的一项或者多项。

具体地，用户数据可以为单一用户的相关数据，用户数据集合可以包括但不限于单一用户的通信类数据、流量类数据、消费类数据中的一项或者多项。

S102：利用家庭群组识别模型，对所述用户对数据集合对应的用户对进行识别，得到家庭群组用户信息。

这里，首先，可以提取用户对数据集合的用户对特征信息，形成用户对特征信息集合。然后，将用户对特征信息集合输入家庭群组识别模型进行识别，以确定用户对是否为存在家庭群组关系的用户对。由此，可以获得具有家庭群组关系的用户信息。具体可以实施为如下步骤：

S1021，对用户对数据集合进行特征提取，得到用户对特征信息集合

S1022，将用户对特征信息集合输入所述家庭群组识别模型进行识别，得到对应的第一识别概率；

S1023，当第一识别概率大于预设第一识别概率阈值时，确定用户对特征信息集合对应的用户对为家庭群组用户，以得到家庭群组用户对集合。

这里，该第一识别概率阈值一般可以设定为0.5，可以理解的是，该第一识别概率阈值可根据实际识别需求进行设定。

S1024，根据家庭群组用户对集合，确定家庭群组用户信息。

具体地，根据家庭群组用户对集合中的用户对，便可以得到对应的具有家庭群组关系的用户信息。

这里，还可以对家庭群组用户对集合进一步地限定筛选，可以对家庭群组用户对集合中所有的用户对进行合并剪枝生成家庭群组，并限定每个家庭群组的最大人数，具体操作如下：

首先，可以分别将家庭群组用户对集合的每个用户对的第一识别概率，与预设用户对相关度阈值进行匹配。

其次，当第一识别概率大于预设用户对相关度阈值时，得到第一关系用户对集合；当第一识别概率小于预设用户对相关度阈值时，得到第二关系用户对集合。或者，当第一识别概率在预设第一识别概率阈值与预设用户对相关度阈值之间时，得到第二关系用户对集合。

示例性的，第i个用户对第一识别概率为y_i，预设第一识别概率阈值为p，预设用户对相关度阈值为p′。若y_i>p′，则定义第i个用户对为第一关系用户对，将该用户对归入第一关系用户对集合C₁。若y_i≤p′，或p<y_i≤p′，则定义第i个用户对为第二关系用户对，将该用户对归入第二关系用户对集合C₂。

具体地，该预设用户对相关度阈值一般可以设定为0.99，可以理解的是，该用户对相关度阈值可根据实际识别需求进行设定。

具体地，第一关系可以表示强关联关系，第二关系可以表示弱关联关系，即第一关系用户对集合表示具有强关联关系的用户对的集合；第二关系用户对集合表示具有弱关联关系的用户对的集合。

再次，利用剪枝算法，对第一关系用户对集合和第二关系用户对集合进行剪枝，得到至少一个家庭群组。通过剪枝算法可以对强关联关系的用户对的集合和弱关联关系的用户对的集合进行分析，得到更加准确的具有家庭群组关系的用户对，以提升用户识别分析的精准性。

这里，利用剪枝算法可以进一步限定每个家庭群组的最大人数。

最后，根据至少一个家庭群组，便可以确定对应的家庭群组用户信息，即具有家庭群组关系的用户信息。

此外，具体地，家庭群组识别模型可以是由用户对数据集合样本确定的。

S103：利用宽带用户识别模型，对所述用户数据集合对应的用户进行识别，得到宽带用户信息。

这里，首先，可以提取用户数据集合的用户特征信息，形成用户特征信息集合。然后，将用户特征信息集合输入宽带用户识别模型进行识别，以确定用户是否为宽带用户。由此，可以获得宽带用户的用户信息。具体可以是实施为如下步骤：

S1031，对用户数据集合进行特征提取，得到用户特征信息集合。

S1032，将用户特征信息集合输入宽带用户识别模型进行识别，得到对应的第二识别概率。

S1033，当第二识别概率大于预设第二识别概率阈值时，确定用户特征信息集合对应的用户为宽带用户，以得到宽带用户信息。

这里，该第二识别概率阈值一般可以设定为0.5，可以理解的是，该第二识别概率阈值可根据实际识别需求进行设定，在此不再赘述。

此外，具体地，宽带用户识别模型可以是由用户数据集合样本确定。

S104：结合所述家庭群组用户信息，对所述宽带用户信息进行筛选，以将满足预设异网条件的宽带用户信息作为异网宽带用户信息。

这里，合并家庭群组用户信息和宽带用户信息，得到总的用户识别信息，即用户的家庭群组数据和疑似宽带用户数据。

根据该总的用户识别信息，可以分别剔除宽带用户信息中的本网宽带用户和宽带用户信息中本网宽带用户对应的家庭群组用户，最后，将剩余的宽带用户信息作为异网宽带用户信息，即剩余的疑似宽带用户可以看作异网宽带用户。

此外，对于剩余的宽带用户信息对应的家庭群组用户，可以将家庭群组中宽带用户概率值最大的用户为对应家庭群组的“家长”，便于后续进行业务推广信息的精准推送。

综上，本发明实施例的异网宽带用户识别的方法，能够通过家庭群组识别模型与宽带用户识别模型分别对本网用户间关联关系信息和本网用户本身信息的预测分析，得到可能存在的异网宽带用户信息，确定可能异网宽带用户。由此，可以实现对异网宽带用户信息的快速准确识别，并可以根据识别出的异网宽带用户信息，有效地去挖掘潜在的宽带用户，较精准地定位用户，优化用户推广工作。

在本发明一实施例中，如图2所示，图2是本发明一个实施例提供的确定家庭群组识别模型的流程示意图。家庭群组识别模型可以是由用户对数据集合样本确定，具体可以实施为如下步骤：

S201：获取用户对数据集合样本。

S202：对用户对数据集合样本进行特征提取，得到多个第一训练样本。

这里，该第一训练样本包括用户对特征信息。具体地，用户对特征信息可以包括：通话次数、发短信次数、身份证号码、身份证地址、家庭业务关系以及特定时段位置信息中的一项或者多项。

例如，多个第一训练样本可以看作第一训练样本集合，该集合表示为

其中m为第一训练样本数量，X_i为第一训练样本的用户对特征信息。

S203：将满足预设第一关联条件的多个第一训练样本，确定为第一正样本。

这里，该预设第一关联条件包括如下所述的任意一种或者多种：

示例性的，用户对的相同夜间常驻地驻留时间达到预设时间条件可以包括：夜间常驻地相同的月数大于等于居住地相同月数，且满足，每月电话联系次数天数大于等于每月通话次数减去2天对应的月数大于通话月数；

示例性的，用户对通话频次达到预设通话条件可以包括：满足每月电话联系次数大于等于每月通话次数对应的月数大于通话月数，且身份证登记地址相同。

示例性的，用户对短信发送频次达到预设短信发送条件可以包括：满足每月短信联系次数大于等于每月发短信次数对应的月数大于发短信的月数，且身份证登记地址相同。

可以理解的是，上述预设第一关联条件可根据实际业务情况设定，在此不再赘述。

具体地，该第一正样本可以表示用户对为家庭群组用户对

S204：将满足预设第二关联条件的多个第一训练样本，确定为第一负样本。

这里，该预设第二关联条件包括如下所述的任意一种或者多种：用户对无家庭业务关联、用户对的用户身份证信息不同、用户对的夜间常驻地信息不同、用户对通话频次低于预设通话频次阈值和用户对短信频次低于预设短信频次阈值。

示例性的，用户对通话频次低于预设通话频次阈值可以为：所有月份电话联系天数小于等于1天；

示例性的，用户对短信频次低于预设短信频次阈值可以为：所有月份短信联系天数小于等于1天。

具体地，该第一负样本可以表示用户对为非家庭群组用户对。

此外，执行完上述S201至S204后，多个第一训练样本中可能存在多个未知样本，即第一训练样本的用户对特征信息既不满足预设第一关联条件，也不满足预设第二关联条件，这些用户对可以看作多个未知样本，可以归入未知样本集合。具体地，在确定家庭群组识别模型后，可以用该家庭群组识别模型对未知样本集合中的用户对进行识别，未知样本集合中的用户对的家庭关系概率，确定具有家庭群组关系的用户对。

S205：将多个第一正样本和第一负样本输入待训练的家庭群组识别模型，以对所述待训练的家庭群组识别模型进行迭代训练，得到目标家庭群组识别模型。

这里，该家庭群组识别模型可以为逻辑回归模型。具体地，基于多个第一正样本和第一负样本，运用逻辑回归二分类算法训练家庭群组识别模型，输出模型结果，即具有家庭群组关系的用户对。目标家庭群组识别模型即为上述实施例中用于识别的家庭群组识别模型。

综上，在本发明实施例中，基于本网用户的历史用户对数据样本，即本网用户间关联关系信息，运用逻辑回归二分类算法训练确定了家庭群组识别模型。与现有利用业务相关规则识别家庭群组用户对的方式相比，利用该家庭群组识别模型可以更加准确高效地对可能存在家庭群组关系的用户对进行识别，提高了识别结果的准确性。

在本发明一实施例中，如图3所示，图3是本发明一个实施例提供的确定宽带用户识别模型的流程示意图。宽带用户识别模型可以是由用户数据集合样本确定，具体可以实施为如下步骤：

S301：获取用户数据集合样本；

S302：对用户数据集合样本进行特征提取，得到多个第二训练样本。

这里，用户数据集合样本的数据涵盖用户的通信类数据、流量类数据、消费类数据等。该第二训练样本包括用户特征信息。具体地，用户特征信息可以包括但不限于通话次数、通话时长、流量使用信息、套餐费用信息、流量包订购信息等中的一项或者多项。

S303：将多个第二训练样本中的第一用户作为第二正样本，以得到多个第二正样本。

具体地，该第一用户可以包括宽带状态正常的宽带用户，即已办理宽带且状态正常的用户。第二训练样本可以包括多个第一用户，可以将多个第一用户的用户特征信息作为第二正样本，得到多个第二正样本。

S304：利用聚类算法，根据多个所述第二训练样本的用户特征信息，对多个第二训练样本的用户进行聚类，得到多个第二负样本。

具体地，随机选取K个用户特征信息作为聚类质心点，其中，K为大于1的自然数。

将与聚类质心点类别相同的用户特征信息划分为一个用户聚类。

计算用户聚类的平均值作为新聚类质心点。

将与新聚类质心点类别相同的用户特征信息重新划分为一个用户聚类。

将聚类质心点不再变化或划分次数达到预设值的用户聚类作为聚类结果。

将聚类结果满足预设筛选条件的多个第二用户作为所述第二负样本。

具体地，首先，可以将聚类结果中作为第二正样本的第一用户剔除，剩下的多个第二用户，可以作为第二负样本。

进一步地，聚类结果可以包括多个用户聚类，可以选取聚类效果最好的一类用户聚类，即第二正样本占比最少且符合无宽带用户的业务特征一类用户聚类。其中，无宽带用户的业务特征，例如，无宽带用户的夜间流量占比较高。

具体地，该聚类算法可以包括但不限于K均值算法、K中心点算法、基于密度的聚类算法或高斯混合模型等中的任一种。

S305：将多个第二正样本和第二负样本输入待训练的宽带用户识别模型，以对待训练的宽带用户识别模型进行迭代训练，得到目标宽带用户识别模型。

这里，该宽带用户识别模型可以包括但不限于随机森林分类模型、逻辑回归模型、梯度提升迭代决策树(Gradient Boosting Decision Tree，GBDT)模型、决策树模型、邻近分类算法(K-Nearest Neighbor，KNN)模型等二分类算法模型中的任一种。目标宽带用户识别模型即为上述实施例中用于识别的宽带用户识别模型。

综上，在本发明实施例中，基于本网用户的历史用户数据样本，即本网单一用户的用户信息，运用随机森林分类算法训练确定了宽带用户识别模型。利用该宽带用户识别模型可以更加准确高效地识别出疑似的宽带用户，提高了识别结果的准确性。

为了更好的理解本发明实施的方案，现结合运营商网络应用场景，详细说明该异网宽带用户识别的方法。

在本发明另一个实施例中，如图4所示，图4是本发明另一个实施例提供的异网宽带用户识别的方法的应用场景架构的示意图。

具体地，异网宽带用户识别的方法的应用场景架构主要由三部分组成，包括Web服务层、公用存储层Storage Layer以及计算层Conputing Layer。

具体地，公用存储层负责存储数据模型以及用户上传的数据，用户也可以从公用存储层下载所需数据，数据模型或数据集可以实现持久化；

具体地，Web服务层负责规范化建模调用流程、提供用户交互界面以及展示操作的结果，用户可以访问或配置任务；Web服务层负责中包括了任务队列服务(Task Queue)，可以根据处理能力从计算层拉取计算任务，或者计算层向Web服务层推送任务处理结果。

具体地，计算层可以从公用存储层获取计算所需数据源。计算层负责对数据进行预处理、生成样本文件、结合相应算法生成模型文件等计算相关的工作。

具体地，在实际应用中，该异网宽带用户识别的方法整体上可分为三个部分，第一，家庭群组识别，使用逻辑回归等二分类算法对用户对之间的强弱关系进行判断，最后选取一定阈值范围的用户对进行合并剪枝形成家庭群组；第二，疑似宽带识别，使用随机森林等二分类算法对全量用户进行疑似宽带用户识别，判断用户是宽带用户的概率；第三，为异网家宽识别部分，组合家庭群组识别结果和疑似家宽识别结果，确定异网宽带用户。

这里，家庭群组识别，首先是确定家庭群组识别模型。

具体地，可以使用具有业务联系的用户对的数据识别用户的家庭群组关系，数据涵盖用户对之间的通信类数据、常驻地类数据和业务类数据，具体包含通话次数，发短信次数，身份证号码，身份证地址，家庭业务关系，特定时段位置信息等。输入用户对数据集

即多个第一训练样本，其中m为用户对样本数量，即第一训练样本数量，X_i为用户对样本特征，即第一训练样本的用户对特征信息，用户对样本特征的数量可以为n。m和n可以为大于1的自然数。

基于预设关联条件判断确认数据集S中的家庭群组用户对和非家庭群组用户对。设y_i为第i个用户对样本的判断结果，根据如下具体处理如下：

基于第i个用户对的样本特征，若其满足以下任意一条家庭群组用户对条件，即第一关联条件，则y_i＝1，该用户对样本定义为正样本，归入正样本集合A₁：

(1)夜间常驻地相同的月数大于等于居住地相同月数，且满足每月电话联系次数天数大于等于每月通话次数-2天对应的月数大于通话月数；

(2)满足存在家庭业务关系；

(3)满足每月电话联系次数大于等于每月通话次数对应的月数大于通话月数，且身份证登记地址相同；

(4)满足每月短信联系次数大于等于每月发短信次数对应的月数大于发短信的月数，且身份证登记地址相同；

(5)满足身份证号码相同。

可以理解的是，以上规则参数可根据实际业务情况设定，在此不再赘述。

基于第i个用户对的样本特征，若其满足以下任意一条非家庭群组用户对条件，即第二关联条件，则y_i＝0,该用户对样本定义为负样本，归入负样本集合A₂：

(1)所有月份夜间常驻地不同；

(2)不存在家庭业务关系；

(3)身份证号码或身份证登记地址不同；

(4)所有月份电话联系天数≤1；

(5)所有月份短信联系天数≤1。

若第i个用户对的样本特征不满足以上任意一条家庭群组、非家庭群组用户对的业务规则，则y_i＝2,并归入未知样本集合A₃：

对数据集S中所有用户对样本进行规则判断，得到正样本数据集

即为第一正样本集、负样本数据集

未知样本数据集

其中，k₁、k₂和k₃分别为数据集A₁、A₂和A₃的用户对样本数量，样本特征数量皆为n。k和n可以为大于1的自然数。

基于正负样本数据集A₁、A₂，运用逻辑回归二分类算法搭建家庭群组识别模型，确定模型参数，即特征权重向量θ＝(θ₀,θ₁,θ₂,…,θ_n)^T，可使用查准率、查全率、F1值等指标来评判模型效果。最终，形成该家庭群组识别模型。

具体地，利用该家庭群组识别模型，可以对A₃中所有用户对进行家庭关系识别，对于其中第i个用户对，使用公式(1)对y_i值进行如下更新：

y_i＝θ₀+θ₁x₁+θ₂x₂+…+θ_nx_n (1)

此时y_i值即A₃中第i个用户对存在家庭关系的概率值。

具体地，定义存在家庭群组关系的阈值p，一般可以默认p为0.5，可根据实际情况设定。将A₃中用户对的家庭关系概率与阈值p进行比对，输出概率值大于阈值p的用户对数据集

其中，k₄为数据集A₄用户对样本量，k₄≤k₃。将数据集A₄与A₁进行合并，生成所有的可能存在家庭群组关系的用户对数据集

具体地，进一步地，还可以对C中所有的用户对进行合并剪枝生成家庭群组，并限定每个家庭群组的最大人数。该过程可以具体实施为如下操作：

首先，定义家庭群组用户对关系的强弱，将界定强弱的阈值设定为p′，一般p′设定为0.99，也可以根据实际情况设定p′值。对于C中第i个用户对进行如下处理：

若p′<y_i≤1，则定义第i个用户对为强关系对，将该用户对归入强关系对集合C₁。强关系对的两个用户互为对方的强邻居，他们之间的连接称为强连接；

若p<y_i≤p′，则定义第i个用户对为弱关系对，将该用户对归入弱关系对集合C₂。弱关系对的两个用户互为对方的弱邻居，他们之间的连接称为弱连接；

其次，计算强关系对集合C₁涉及到的每个用户的强关系度数，即用户的强邻居的个数。

最后，对强关系对集合C₁和弱关系对集合C₂进行合并剪枝处理，生成家庭群组。如图5所示，图5是本发明一个实施例提供的家庭群组合并剪枝的流程示意图，该家庭群组合并剪枝可以具体实施为如下过程：

S501，选取强关系对集合C₁中强关系度数最大的用户，将该用户标记为a。

S502，遍历用户a的强邻居，选取用户a的强关系度数最大的强邻居，标记为b。

S503，将a和b组成初始家庭A。

S504，遍历家庭A的所有强邻居。

S505，判断强邻居c与家庭A成员强连接边数是否大于等于≥2。

具体地，判断家庭A的所有强邻居集合，即a的所有强邻居和b的所有强邻居，中成员c与家庭A成员的强连接边数是否大于等于2，即判断是否与家庭A中2个以上的成员存在强连接。

S506，若与A中2个以上成员存在强连接，则该成员c进入家庭A并更新家庭A。

若与A中成员强连接边数小于2，则该成员c不进入家庭A。

S507，遍历完家庭A的所有强邻居之后，开始遍历家庭A的所有弱邻居。

S508，判断家庭A的所有弱邻居集合中成员d与家庭A成员弱连接边数是否大于等于3，即判断是否与家庭A中3个以上的成员存在弱连接。

S509，若判断结果为是，则该成员d进入家庭A并更新家庭A。

若判断结果为否，则不做处理，或进入步骤S510。

S510，判断经过上述强弱关系判断处理之后A的成员数量是否没有发生变化或者是否达到了上限8。

S511，若家庭A的成员数量没有发生变化或者达到了上限8，则存储家庭A数据，把家庭A所有成员从强关系对集合中删除；并执行步骤S512。

若A的成员数量发生了变化，且没有达到上限8，则更新A的数据，返回执行步骤S504。

S512，判断强关系对集合C₁是否为空.

若为空，则保存家庭群组数据，结束程序；

若不为空，则返回再次执行步骤S501。

由此，在进行家庭群组识别过程中，通过建立家庭群组识别模型，可以对本网用户对数据集合进行识别，生成可能存在家庭群组关系的用户对数据集合。结合剪枝算法，可以对可能存在家庭群组关系的用户对数据集合进行剪枝，以得到更加准确的存在家庭群组关系的用户对数据。由此，便可以对应得到更加准确的家庭群组用户信息。

接下来，进行宽带用户识别，识别疑似宽带用户。

具体地，使用单一用户数据识别疑似宽带用户，数据涵盖用户的通信类数据、流量类数据、消费类数据，具体包含通话次数、通话时长、流量使用、套餐费用、流量包订购等。

首先，定义正样本为已办理家宽且状态正常的用户，即第二正样本。

然后，使用K均值算法聚类，对全量用户信息进行聚类分析，确定无宽带用户作为负样本，即第二负样本。具体聚类过程为：

选取数据字段特征进入聚类分析模型当中，不同的数据字段进入聚类模型会影响聚类的效果；

计算每个聚类对象到聚类质心的距离(欧几里德距离)，并按照距离来归类；

所有样本归类后重新计算每个聚类质心，确定新的聚类质心；

迭代计算直到达到函数收敛，则停止；

选取聚类效果最好，剔除正样本，定义该类为负样本。具体地聚类效果最好是指正样本占比最少且符合业务理解的一类用户聚类。其中，无宽带用户的业务特征，例如，无宽带用户的夜间流量占比较高。

最后，基于上述正负样本数据，采用随机森林等二分类算法构建宽带用户识别模型，即计算用户使用家庭宽带的概率，使用查准率、查全率、F1值等指标来评判宽带用户模型效果。

最后，执行异网宽带识别。

具体地，整合家庭群组识别和疑似宽带用户识别的结果数据，即用户的家庭群组数据和疑似宽带用户数据。分别剔除疑似宽带用户数据中的本网宽带用户和疑似宽带用户数据中本网宽带用户的家庭群组数据；最后，将剩余疑似宽带用户作为异网宽带用户。

基于上述实施例提供的异网宽带用户识别的方法，相应地，本申请还提供了异网宽带用户识别的装置的具体实现方式。请参见以下实施例。

在本发明实施例中，如图6所示，图6是本发明另一个实施例提供的异网宽带用户识别装置的结构示意图。该异网宽带用户识别的装置，具体包括：

获取模块601，用于获取本网用户对应的用户对数据集合和用户数据集合，所述用户对为具有业务关联关系的用户；

第一识别模块602，用于利用家庭群组识别模型，对所述用户对数据集合对应的用户对进行识别，得到家庭群组用户信息，所述家庭群组识别模型是由用户对数据集合样本确定；

第二识别模块603，用于利用宽带用户识别模型，对所述用户数据集合对应的用户进行识别，得到宽带用户信息，所述宽带用户识别模型是由用户数据集合样本确定；

筛选模块604，用于结合所述家庭群组用户信息，对所述宽带用户信息进行筛选，以将满足预设异网条件的宽带用户信息作为异网宽带用户信息。

综上，本发明实施例的异网宽带用户识别的装置可以用于执行异网宽带用户识别的方法，该技术方案能够通过家庭群组识别模型识别出本网用户中具有家庭群组关系的用户信息，同时，通过宽带用户识别模型识别出本网用户中的宽带用户信息，将家庭群组用户信息和宽带用户信息结合，根据预设异网条件筛选出相应的异网宽带用户信息。即基于对本网用户间关联关系信息和本网用户本身信息的识别分析，得到可能存在的异网宽带用户信息，确定可能异网宽带用户。在本发明的技术方案中，本网用户相关业务数据的获取较为方便快捷，基于历史用户数据样本训练确定的多个用户识别模型，识别出的用户信息较为可靠准确，在上述用户信息的基础上对用户进行筛选，可以快速准确地确定可能存在的异网宽带用户信息。进而，可以根据这些异网宽带用户信息，有效地去挖掘潜在的宽带用户，较精准地定位用户，优化用户推广工作。

可选地，第一识别模块602，还用于对所述用户对数据集合进行特征提取，得到用户对特征信息集合；将所述用户对特征信息集合输入所述家庭群组识别模型进行识别，得到对应的第一识别概率；当第一识别概率大于预设第一识别概率阈值时，确定所述用户对特征信息集合对应的用户对为家庭群组用户，以得到家庭群组用户对集合；根据所述家庭群组用户对集合，确定所述家庭群组用户信息。

可选地，第一识别模块602，还用于分别将所述家庭群组用户对集合的每个用户对的第一识别概率，与预设用户对相关度阈值进行匹配；当第一识别概率大于预设用户对相关度阈值时，得到第一关系用户对集合；当第一识别概率小于预设用户对相关度阈值时，得到第二关系用户对集合；利用剪枝算法，对所述第一关系用户对集合和所述第二关系用户对集合进行剪枝，得到至少一个家庭群组；根据至少一个所述家庭群组，得到家庭群组用户信息。

可选地，该装置还包括第一训练模块，用于获取用户对数据集合样本；对所述用户对数据集合样本进行特征提取，得到多个第一训练样本，所述第一训练样本包括用户对特征信息；将满足预设第一关联条件的多个第一训练样本，确定为第一正样本，所述第一正样本表示用户对为家庭群组用户对；将满足预设第二关联条件的多个第一训练样本，确定为第一负样本，所述第一负样本表示用户对为非家庭群组用户对；将多个所述第一正样本和所述第一负样本输入待训练的家庭群组识别模型，以对所述待训练的家庭群组识别模型进行迭代训练，得到目标家庭群组识别模型。

可选地，所述家庭群组识别模型为逻辑回归模型。

可选地，第二识别模块603，还用于对所述用户数据集合进行特征提取，得到用户特征信息集合；

可选地，该装置还包括第二训练模块，用于获取用户数据集合样本；

将多个所述第二训练样本中第一用户为第二正样本，以得到多个所述第二正样本，所述第一用户包括宽带状态正常的宽带用户；

可选地，该第二训练模块，还用于随机选取K个所述用户特征信息作为聚类质心点，K为大于1的自然数；

计算所述用户聚类的平均值作为新聚类质心点；

可选地，所述宽带用户识别模型为随机森林分类模型。

基于上述实施例提供的异网宽带用户识别的方法，相应地，本申请还提供了异网宽带用户识别的设备的具体硬件结构说明。请参见以下实施例。

异网宽带用户识别的设备可以包括处理器701以及存储有计算机程序指令的存储器702。

具体地，上述处理器701可以包括中央处理器(CPU)，或者特定集合成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集合成电路。

存储器702可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器702可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器702可在综合网关容灾设备的内部或外部。在特定实施例中，存储器702是非易失性固态存储器。在特定实施例中，存储器702包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器701通过读取并执行存储器702中存储的计算机程序指令，以实现上述实施例中的任意一种异网宽带用户识别方法。

在一个示例中，异网宽带用户识别的设备还可包括通信接口703和总线710。其中，如图7所示，处理器701、存储器702、通信接口703通过总线710连接并完成相互间的通信。

通信接口703，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线710包括硬件、软件或两者，将异网宽带用户识别的设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线710可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

该异网宽带用户识别的设备可以执行本发明实施例中的异网宽带用户识别的方法，从而实现结合图1至图3描述的异网宽带用户识别的方法。

另外，结合上述实施例中的异网宽带用户识别的方法，本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种异网宽带用户识别的方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集合成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种异网宽带用户识别的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用家庭群组识别模型，对所述用户对数据集合对应的用户对进行识别，得到家庭群组用户信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据家庭群组用户对集合，确定所述家庭群组用户信息，包括：

根据至少一个所述家庭群组，得到家庭群组用户信息。

4.根据权利要求1至3任一项所述的方法，其特征在于，在所述获取本网用户对应的用户对数据集合和用户数据集合之前，所述方法还包括：

获取用户对数据集合样本；

5.根据权利要求4所述的方法，其特征在于，所述用户对特征信息包括：通话次数、发短信次数、身份证号码、身份证地址、家庭业务关系以及特定时段位置信息中的一种或者多种。

6.根据权利要求4所述的方法，其特征在于，所述预设第一关联条件包括如下所述的任意一种或者多种：

7.根据权利要求4所述的方法，其特征在于，所述预设第二关联条件包括如下所述的任意一种或者多种：

8.根据权利要求1所述的方法，其特征在于，所述利用宽带用户识别模型，对所述用户数据集合对应的用户进行识别，得到宽带用户信息，包括：

9.根据权利要求1或者8所述的方法，其特征在于，在所述获取本网用户对应的用户对数据集合和用户数据集合之前，所述方法还包括：

获取用户数据集合样本；

将多个所述第二正样本和所述第二负样本输入待训练的宽带用户识别模型，以对所述待训练的宽带用户识别模型进行迭代训练，得到目标宽带用户识别模型。

10.根据权利要求9所述的方法，其特征在于，所述利用聚类算法，根据多个所述第二训练样本的用户特征信息，对多个所述第二训练样本的用户进行聚类，得到多个第二负样本，包括：

计算所述用户聚类的平均值作为新聚类质心点；

11.根据权利要求1所述的方法，其特征在于，所述家庭群组识别模型为逻辑回归模型。

12.根据权利要求1所述的方法，其特征在于，所述宽带用户识别模型为随机森林分类模型。

13.一种异网宽带用户识别的装置，其特征在于，所述装置包括：

14.一种异网宽带用户识别的设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1至12任意一项所述的异网宽带用户识别的方法。

15.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1至12任意一项所述的异网宽带用户识别的方法。