CN111510368B

CN111510368B - 家庭群组识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111510368B
Application number: CN201910100241.6A
Authority: CN
Inventors: 毕菁佩; 郭叶
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2023-01-03
Anticipated expiration: 2039-01-31
Also published as: CN111510368A

Abstract

本发明提供了一种家庭群组识别方法、装置、设备及计算机可读存储介质，其中，家庭群组识别方法包括：根据训练数据，得到训练特征信息；根据所述训练特征信息，利用机器学习算法得到识别模型；利用所述识别模型，进行家庭群组识别。本方案通过根据训练数据，得到训练特征信息；根据所述训练特征信息，利用机器学习算法得到识别模型；利用所述识别模型，进行家庭群组识别；能够实现通过机器学习算法建立用于家庭群组识别的识别模型，以预测用户之间的家庭关系；该方式对各特征权重的赋值更加智能、科学，使得识别模型的识别准确率更高，很好的解决了现有技术中家庭群组识别方案的准确率低的问题。

Description

家庭群组识别方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及数据处理技术领域，特别是指一种家庭群组识别方法、装置、设备及计算机可读存储介质。

背景技术

随着互联网业务的快速发展和宽带接入的竞争加剧，家庭用户市场是近几年出现的一个新兴的市场，家庭用户是对集团客户市场、个人客户市场的一个很好补充。在这种竞争形势下，如何更好的发展家庭业务成为各大运营商竞争的焦点。精确的识别家庭用户可以更好的推送家庭相关业务，提高用户粘性，为运营商带来更多商机。但是，现有的群组识别方法大都是对网络群组、社交群组进行识别，对家庭群组的识别较少。

目前，家庭群组识别的方案主要有以下两种：

第一种方案，首先提取目标用户与所述目标用户在预设时间段内通话的每个移动用户的通话时间和基站识别码，将目标用户与每个移动用户组成一组用户对；然后获取用户间通话频率、通话次数得分、通话时长得分，当根据这三者得到的交往指数满足预设的家庭通话规则时，将所述用户对中的用户作为所述目标用户的家庭候选用户；最后对所述目标用户及其家庭候选用户之间的通话关系进行关联规则处理，将满足关联阈值的家庭候选用户作为所述目标用户的家庭用户。

第二种方案，首先提取每个移动用户和预设的目标用户在预设时间段内的轨迹数据；然后根据所述轨迹数据，分别计算每个移动用户与所述目标用户在地理位置上的位置相似度；分别计算每个移动用户与所述目标用户在社交网络上的社交相似度；最后，根据所述位置相似度和所述社交相似度，根据预先设定的判定规则，分别预测每个移动用户与所述目标用户的用户关系。

由上可知，第一种方案主要是根据用户间的通话频率、通话次数得分、通话时长得分获取交往指数，当交往指数满足预设的家庭通话规则时，将所述用户对中的用户作为所述目标用户的家庭候选用户，然后再获取所述目标用户的家庭用户。第二种方案主要是计算了用户之间的社交网络相似度和位置相似度，并通过预先设定的规则判断用户关系。这两种方案都是根据预设的规则进行用户关系的判断，判断的准确率与预设规则的科学性、合理性密切相关，如果预设规则不够科学、合理，判断的准确率将无法保证。

发明内容

本发明的目的在于提供一种家庭群组识别方法、装置、设备及计算机可读存储介质，解决现有技术中家庭群组识别方案的准确率低的问题。

为了解决上述技术问题，本发明实施例提供一种家庭群组识别方法，包括：

根据训练数据，得到训练特征信息；

根据所述训练特征信息，利用机器学习算法得到识别模型；

利用所述识别模型，进行家庭群组识别。

可选的，所述根据训练数据，得到训练特征信息，包括：

获取原始数据，并对所述原始数据进行预处理；

将预处理后的原始数据划分为所述训练数据和测试数据；

利用预设特征选择算法，根据所述训练数据，得到训练特征信息；

其中，所述训练数据包含多对用户群组数据以及每一用户群组数据所对应的家庭群组标识信息，所述测试数据中包含至少一对用户群组数据，且不包含用户群组数据所对应的家庭群组标识信息。

可选的，所述利用预设特征选择算法，根据所述训练数据，得到训练特征信息，包括：

从训练数据中提取用户的属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息；

利用预设特征选择算法，从所述属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息中获取训练特征信息。

可选的，所述利用预设特征选择算法，从所述属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息中获取训练特征信息，包括：

利用预设特征选择算法，对所述属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息进行排序；

从排序后的属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息中获取训练特征信息。

可选的，所述预设特征选择算法为随机森林算法。

可选的，所述根据所述训练特征信息，利用机器学习算法得到识别模型，包括：

根据所述训练特征信息，获取至少两种机器学习算法各自对应的初始模型以及所述初始模型的评价指标信息；

根据各个初始模型的评价指标信息，从得到的初始模型中获取所述识别模型；

其中，所述评价指标信息为准确率或召回率。

可选的，所述根据所述训练特征信息，获取至少两种机器学习算法各自对应的初始模型以及所述初始模型的评价指标信息，包括：

将所述训练特征信息按照用户群组划分为N个部分信息；

根据所述N个部分信息，针对每种机器学习算法进行N折交叉验证，得到对应于每种机器学习算法的初始模型；其中，针对每种机器学习算法的每一次验证，得到一个初始评价指标信息；

根据针对每种机器学习算法的N个初始评价指标信息，得到针对每种机器学习算法所对应的初始模型的评价指标信息；

其中，N大于或等于2。

可选的，所述至少两种机器学习算法包括逻辑回归算法、随机森林算法和梯度提升算法中的至少一种。

可选的，在利用所述识别模型，进行家庭群组识别之前，还包括：

利用所述测试数据，对所述识别模型进行识别预测、识别验证以及效果评估，得到处理结果信息；

根据所述处理结果信息，对所述识别模型进行更新。

可选的，所述利用所述识别模型，进行家庭群组识别，包括：

获取待识别的用户关系所对应的用户数据；

根据所述用户数据，得到特征信息；

根据所述特征信息，利用所述识别模型，对所述待识别的用户关系进行家庭群组识别。

可选的，所述训练特征信息包括以下信息中的至少一种：

用户年龄信息，用户性别信息，用户群组中的每两个用户之间的工作日工作时段通话次数信息、工作日通勤时段通话次数信息、工作日夜间时段通话次数信息、非工作日白天时段通话次数信息、非工作日夜间时段通话次数信息、工作日白天时段稳定点距离相似度信息、工作日夜间时段稳定点距离相似度信息、非工作日白天时段稳定点距离相似度信息以及非工作日夜间时段稳定点距离相似度信息；

其中，稳定点是指在工作时段、通勤时段、白天时段或夜间时段内用户停留时长最长的位置点。

本发明实施例还提供了一种家庭群组识别装置，包括：

第一处理模块，用于根据训练数据，得到训练特征信息；

第二处理模块，用于根据所述训练特征信息，利用机器学习算法得到识别模型；

第三处理模块，用于利用所述识别模型，进行家庭群组识别。

可选的，所述第一处理模块，包括：

第一处理子模块，用于获取原始数据，并对所述原始数据进行预处理；

第一划分子模块，用于将预处理后的原始数据划分为所述训练数据和测试数据；

第二处理子模块，用于利用预设特征选择算法，根据所述训练数据，得到训练特征信息；

可选的，所述第二处理子模块，包括：

第一提取单元，用于从训练数据中提取用户的属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息；

第一获取单元，用于利用预设特征选择算法，从所述属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息中获取训练特征信息。

可选的，所述第一获取单元，包括：

第一排序子单元，用于利用预设特征选择算法，对所述属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息进行排序；

第一获取子单元，用于从排序后的属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息中获取训练特征信息。

可选的，所述预设特征选择算法为随机森林算法。

可选的，所述第二处理模块，包括：

第一获取子模块，用于根据所述训练特征信息，获取至少两种机器学习算法各自对应的初始模型以及所述初始模型的评价指标信息；

第二获取子模块，用于根据各个初始模型的评价指标信息，从得到的初始模型中获取所述识别模型；

其中，所述评价指标信息为准确率或召回率。

可选的，所述第一获取子模块，包括：

第一划分单元，用于将所述训练特征信息按照用户群组划分为N个部分信息；

第一处理单元，用于根据所述N个部分信息，针对每种机器学习算法进行N折交叉验证，得到对应于每种机器学习算法的初始模型；其中，针对每种机器学习算法的每一次验证，得到一个初始评价指标信息；

第二处理单元，用于根据针对每种机器学习算法的N个初始评价指标信息，得到针对每种机器学习算法所对应的初始模型的评价指标信息；

其中，N大于或等于2。

可选的，还包括：

第四处理模块，用于在利用所述识别模型，进行家庭群组识别之前，利用所述测试数据，对所述识别模型进行识别预测、识别验证以及效果评估，得到处理结果信息；

第一更新模块，用于根据所述处理结果信息，对所述识别模型进行更新。

可选的，所述第三处理模块，包括：

第三获取子模块，用于获取待识别的用户关系所对应的用户数据；

第三处理子模块，用于根据所述用户数据，得到特征信息；

第一识别子模块，用于根据所述特征信息，利用所述识别模型，对所述待识别的用户关系进行家庭群组识别。

可选的，所述训练特征信息包括以下信息中的至少一种：

本发明实施例还提供了一种家庭群组识别设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述程序时实现上述的家庭群组识别方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的家庭群组识别方法中的步骤。

本发明的上述技术方案的有益效果如下：

上述方案中，所述家庭群组识别方法通过根据训练数据，得到训练特征信息；根据所述训练特征信息，利用机器学习算法得到识别模型；利用所述识别模型，进行家庭群组识别；能够实现通过机器学习算法建立用于家庭群组识别的识别模型，以预测用户之间的家庭关系；该方式对各特征权重的赋值更加智能、科学，使得识别模型的识别准确率更高，很好的解决了现有技术中家庭群组识别方案的准确率低的问题。

附图说明

图1为本发明实施例的家庭群组识别方法流程示意图；

图2为本发明实施例的家庭群组识别方法具体实现流程示意图；

图3为本发明实施例的交叉验证示意图；

图4为本发明实施例的家庭群组识别装置结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的技术中家庭群组识别方案的准确率低的问题，提供一种家庭群组识别方法，如图1所示，包括：

步骤11：根据训练数据，得到训练特征信息；

步骤12：根据所述训练特征信息，利用机器学习算法得到识别模型；

步骤13：利用所述识别模型，进行家庭群组识别。

本发明实施例提供的所述家庭群组识别方法通过根据训练数据，得到训练特征信息；根据所述训练特征信息，利用机器学习算法得到识别模型；利用所述识别模型，进行家庭群组识别；能够实现通过机器学习算法建立用于家庭群组识别的识别模型，以预测用户之间的家庭关系；该方式对各特征权重的赋值更加智能、科学，使得识别模型的识别准确率更高，很好的解决了现有技术中家庭群组识别方案的准确率低的问题。

其中，所述根据训练数据，得到训练特征信息，包括：获取原始数据，并对所述原始数据进行预处理；将预处理后的原始数据划分为所述训练数据和测试数据；利用预设特征选择算法，根据所述训练数据，得到训练特征信息；其中，所述训练数据包含多对用户群组数据以及每一用户群组数据所对应的家庭群组标识信息，所述测试数据中包含至少一对用户群组数据，且不包含用户群组数据所对应的家庭群组标识信息。

具体的，所述利用预设特征选择算法，根据所述训练数据，得到训练特征信息，包括：从训练数据中提取用户的属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息；利用预设特征选择算法，从所述属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息中获取训练特征信息。

更具体的，所述利用预设特征选择算法，从所述属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息中获取训练特征信息，包括：利用预设特征选择算法，对所述属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息进行排序；从排序后的属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息中获取训练特征信息。

本发明实施例中，所述预设特征选择算法可为随机森林算法。

其中，所述对所述原始数据进行预处理，包括：删除所述原始数据中的噪声数据以及针对同一特征的、数据缺失率大于或等于预设阈值的特征数据。

本发明实施例中，所述根据所述训练特征信息，利用机器学习算法得到识别模型，包括：根据所述训练特征信息，获取至少两种机器学习算法各自对应的初始模型以及所述初始模型的评价指标信息；根据各个初始模型的评价指标信息，从得到的初始模型中获取所述识别模型；其中，所述评价指标信息为准确率或召回率。

具体的，所述根据所述训练特征信息，获取至少两种机器学习算法各自对应的初始模型以及所述初始模型的评价指标信息，包括：将所述训练特征信息按照用户群组划分为N个部分信息；根据所述N个部分信息，针对每种机器学习算法进行N折交叉验证，得到对应于每种机器学习算法的初始模型；其中，针对每种机器学习算法的每一次验证，得到一个初始评价指标信息；根据针对每种机器学习算法的N个初始评价指标信息，得到针对每种机器学习算法所对应的初始模型的评价指标信息；其中，N大于或等于2。

更具体的，所述至少两种机器学习算法包括逻辑回归算法、随机森林算法和梯度提升算法中的至少一种。

进一步的，在利用所述识别模型，进行家庭群组识别之前，还包括：利用所述测试数据，对所述识别模型进行识别预测、识别验证以及效果评估，得到处理结果信息；根据所述处理结果信息，对所述识别模型进行更新。

具体的，所述利用所述识别模型，进行家庭群组识别，包括：获取待识别的用户关系所对应的用户数据；根据所述用户数据，得到特征信息；根据所述特征信息，利用所述识别模型，对所述待识别的用户关系进行家庭群组识别。

本发明实施例中，所述训练特征信息可包括以下信息中的至少一种：用户年龄信息，用户性别信息，用户群组中的每两个用户之间的工作日工作时段通话次数信息、工作日通勤时段通话次数信息、工作日夜间时段通话次数信息、非工作日白天时段通话次数信息、非工作日夜间时段通话次数信息、工作日白天时段稳定点距离相似度信息、工作日夜间时段稳定点距离相似度信息、非工作日白天时段稳定点距离相似度信息以及非工作日夜间时段稳定点距离相似度信息；其中，稳定点是指在工作时段、通勤时段、白天时段或夜间时段内用户停留时长最长的位置点。

下面对本发明实施例提供的所述家庭群组识别方法进行进一步说明。

针对上述技术问题，本发明实施例提供了一种家庭群组识别方法，可具体为一种基于机器学习算法的家庭群组识别方法：首先获取用户的基本属性数据(即上述属性特征信息)、通信消费数据(即上述通信消费特征信息)、通信社交数据(即上述通信社交特征信息)、基站经纬度数据(即上述位置特征信息)，然后对通信社交数据和基站经纬度数据进行分日期(工作日和非工作日，非工作日以周六日为例)、分时段(工作时段、通勤时段、夜间时段)统计分析，最后，结合用户的属性特征、通信消费特征、通信社交特征、位置特征综合对比家庭群组与非家庭群组之间的特征差异，这样可以更好的刻画家庭群组用户之间的特征。本方案采用有监督的机器学习算法(如下采用携带家庭群组标识信息的训练用户群组数据，即上述训练数据)进行模型训练，随后通过训练模型对未确定家庭关系的用户进行预测，该方法与预设规则判断方法相比，对特征权重的赋值更加智能、科学，准确率更高。

本方案的整体实现流程具体可如图2所示，主要包括以下四个部分：

第一部分，数据获取与预处理：比如获取用户基本属性数据、通信消费数据、通信社交数据、基站经纬度数据四个方面的用户数据并进行数据预处理，形成训练用户群组数据和测试用户群组数据；

第二部分，特征工程：对应的提取训练用户群组数据中用户的基本属性特征、通信消费特征、通信社交特征、位置特征等四方面的特征并进行特征选择；

第三部分，训练过程：比如通过机器学习算法进行模型训练，并根据准确率或召回率选择最优模型；

第四部分，预测过程：利用测试用户群组数据进行模型预测，并对预测结果进行验证，评估模型效果，从而可进一步对模型进行更新。

具体的，关于第一部分，数据获取与预处理：

1.数据获取

获取用户的原始数据，具体可包括以下四部分数据：

(1)基本属性数据：比如用户的年龄、性别、所使用的手机卡的号码归属地。

(2)通信消费数据：比如用户的网龄、所使用终端的类型、用户近3个月每用户平均收入ARPU值。

(3)通信社交数据：比如用户近3个月的通话时间、通话时长。

(4)基站经纬度信息：比如用户所使用的基站的经度、用户所使用的基站的纬度以及用户使用基站时的时间。

2.数据预处理

第一，删除原始数据中的噪声数据和大规模缺失的数据(比如某一特征的数据缺失率大于或等于阈值)。

第二，将原始数据分成两部分，训练用户群组数据与测试用户群组数据(关于每一部分的数量不作限定)。训练用户群组数据是指通过调研确定是一个家庭群组的用户的数据，将用户两两形成一对目标用户群组对。测试用户群组是指不确定家庭关系的用户的数据，两两组成待预测用户群组对。

进一步的，关于第二部分，特征工程：

1、特征提取(针对预处理后的训练用户群组数据)

可根据用户四部分的数据，提取四大类用户特征：

(1)基本属性特征(即上述属性特征)：可提取用户的年龄、性别特征。

(2)通信消费特征：可提取用户的网龄、所使用的终端的类型、近三月平均ARPU值特征。

(3)通信社交特征：可对用户群组对之间的社交通话数据，比如用户通话时间和通话时长进行预处理，主要是统计工作日工作时段通话次数、工作日通勤时段(上班路上的时间，可于定义)通话次数、工作日夜间时段通话次数、周六日白天时段通话次数、周六日夜间时段通话次数。

(4)位置特征：可对用户所使用的基站的经纬度信息进行预处理，主要是统计工作日白天时段稳定点距离相似度、工作日夜间时段稳定点距离相似度、周六日白天时段稳定点距离相似度、周六日夜间时段稳定点距离相似度。

其中，白天时段稳定点的统计原则可为：统计在6:00至20:00，用户在不同经纬度下的停留时长，以停留时长最长的作为白天时段稳定点的经纬度。

夜间时段稳定点的统计原则可为：统计在22:00至次日6:00，用户在不同经纬度下的停留时长，以停留时长最长的作为夜间时段稳定点的经纬度。

关于距离相似度，具体可采用如下计算公式获得：

假设一个用户对中a用户的白天时段稳定点为A,A点的经度为WA、纬度为JA；b用户的白天时段稳定点为B,B点的经度为WB、纬度为JB；地球半径为R；

则A点与B点之间的距离相似度L为：

2、特征选择

利用特征选择算法(比如下面的随机森林算法)对特征提取后的训练用户群组数据进行特征选择，将无效特征去除，得到训练用户群组数据的最佳特征特表，并将经过特征选择之后的训练用户群组数据重新保存为新的标准数据集，存储在文本文件中。

具体比如：将特征提取后的训练用户群组数据输入随机森林算法的特征重要性算法中，去除无效特征，并对现有数据进行特征重要性排序、选择(算法可直接完成特征排序，排序后选择预设个数的特征，关于个数可以预定义)。选取出的重要特征比如为：用户年龄，用户性别，用户群组中的每两个用户之间的工作日工作时段通话次数、工作日通勤时段通话次数、工作日夜间时段通话次数、周六日白天时段通话次数、周六日夜间时段通话次数、工作日白天时段稳定点距离相似度、工作日夜间时段稳定点距离相似度、周六日白天时段稳定点距离相似度和/或周六日夜间时段稳定点距离相似度。

进一步的，关于第三部分，训练过程：

具体可利用机器学习模型建立家庭群组识别模型。比如：如图3所示，将特征选择后的训练用户群组数据作为训练数据，进行五折交叉验证(关于具体为几折交叉验证可根据实际使用情况确定，此处五折交叉验证只是示例)，将训练数据按照用户群组分成五个部分，每次选取4个部分作为训练集，1个部分作为测试集(关于测试集在使用时只是将测试集中每一用户群组的家庭群组标识信息和该用户群组所对应数据中除家庭群组标识信息外的其他信息分离使用)。具体采用逻辑回归、随机森林、梯度提升算法Xgboost等不同的机器学习算法对训练集数据进行训练(本示例中对训练数据进行训练，每个算法做5次)，得到模型(确定模型的各个参数)，并用测试集判断模型的可靠性(具体可将上述其他信息输入模型，判断模型输入的结果与其他信息所对应的家庭群组标识信息是否一致，从而确定根据模型得到的家庭群组标识信息的评价指标信息，根据评价指标信息对模型进行可靠性判断；关于评价指标信息可为准确率或召回率)。

也就是，本发明实施例中可通过评价指标从利用上述多个机器学习算法得到的多个模型中选择最优的模型。

其中，关于准确率和召回率可采用如下计算公式获得：

Accuracy＝(TP+TN)/(TP+TN+FP+FN)；

Recall＝TP/(TP+FN)；

其中，Accuracy表示准确率，TP表示真实类别(具体比如通过调研确定的实际情况)为正例，预测类别为正例(具体比如通过上述模型预测得到的情况)；FP表示真实类别为负例，预测类别为正例；FN表示真实类别为正例，预测类别为负例；TN表示真实类别为负例，预测类别为负例。Recall表示召回率。

具体的，正例对应于“是”的情况，负例对应于否的情况，比如TP表示用户群组通过调研确定是家庭群组，通过上述得到的模型对用户群组进行预测得到的结果也是家庭群组；FP表示用户群组通过调研确定不是家庭群组，通过上述得到的模型对用户群组进行预测得到的结果是家庭群组；FN表示用户群组通过调研确定是家庭群组，通过上述得到的模型对用户群组进行预测得到的结果不是家庭群组；TN表示用户群组通过调研确定不是家庭群组，通过上述得到的模型对用户群组进行预测得到的结果也不是家庭群组。

本发明实施例中可根据以上任一个指标(准确率或召回率)评判得到的模型的性能，具体的，一般准确率越高越好，而召回率视实际情况而定，比如针对医疗方面，可能越高越好，而针对推销，可能越低越好，但并不以此为限。

进一步的，关于第四部分，预测过程：

(1)模型预测：可根据选出的最优模型，将上述测试用户群组数据(未知家庭群组标识信息)输入该模型，得到的模型输出的最终预测结果作为判断上述测试用户群组数据所对应的用户群组是否为家庭群组的结果。

在此说明，上述关于训练用户群组数据是先进行提取，再进行选择；而此处测试用户群组数据则可以是直接根据训练用户群组数据中被选择的特征进行特征选择，再进行家庭群组预测，可参见图2。

其中，关于模型输出的最终预测结果可直接指示是否为家庭群组，或者为家庭群组的概率为多少，在此不作限定。

(2)效果评估：对最终预测结果进行验证(具体可为根据得到的结果，进行后续操作，比如推销，进行验证，看效果是否好，推销的成功率是否高等)，以评估模型效果(如果效果不好，可对模型进行优化)。

由上可知，本发明实施例提供的基于机器学习的家庭群组识别方法，主要包括：获取用户基本属性数据、通信消费数据、通信社交数据、基站经纬度数据四个方面的用户数据并进行数据预处理，形成训练用户群组数据和测试用户群组数据；提取用户的基本属性特征、通信消费特征、通信社交特征、位置特征等四方面的特征并进行特征选择；通过机器学习算法进行模型训练，利用效果准确率或召回率从得到的模型中选择最优模型；将测试用户群组数据进行模型预测，并对预测结果进行验证，评估模型效果。

其中，在特征工程的特征提取过程中对用户间的通信社交数据和基站数据进行统计时区分了工作日和周六日，区分了工作时段、通勤时段和夜间时段。

在特征工程的特征选择过程中，选出判断家庭群组的重要特征可为：用户年龄，用户性别，用户群组中的每两个用户之间的工作日工作时段通话次数、工作日通勤时段通话次数、工作日夜间时段通话次数、周六日白天时段通话次数、周六日夜间时段通话次数、工作日白天时段稳定点距离相似度、工作日夜间时段稳定点距离相似度、周六日白天时段稳定点距离相似度和/或周六日夜间时段稳定点距离相似度。

本发明实施例提供的方案：

(1)相比于传统基于预设规则来判断群组，本方案采用有监督的机器学习算法，对各特征权重的设置更加智能、科学，模型准确度更高(具体的，关于训练得到模型，是采用机器学习算法完成的，因此权重赋值比较准确)。

(2)相比于传统家庭群组识别只关注用户通信社交数据、位置数据，本方案不仅使用了用户的通信社交数据与位置数据，还结合用户基本属性数据，共同作为识别用户家庭群组的特征。

(3)相比于传统家庭群组识别中通信社交数据只关注用户间的通话次数和时间相比，本方案对用户间的通话日期进行工作日和周六日的划分，同时对通话时间进行了工作时段、通勤时段、夜间时段的划分，可以更加准确的刻画家庭用户之间的通话特征，因为用户在工作日工作时段经常通话的人可能只是工作关系，并非家庭关系。

(4)相比于传统家庭群组识别中位置数据只关注用户间的位置相似度相比，本方案对用户间的位置数据划分了工作日白天时段稳定点距离相似度、工作日夜间时段稳定点距离相似度、周六日白天时段稳定点距离相似度、周六日夜间时段稳定点距离相似度，可以更加准确的刻画家庭用户之间的位置特征，因为工作日白天稳定点距离相近的用户可能是同事关系，并非家庭关系。

也就是，本方案与现有方案的区别主要在于，利用用户属性信息、通信消费数据、通信社交数据、基站经纬度数据等多维度数据对家庭群组用户进行刻画，并通过机器学习进行建模、预测。

具体的，本方案提供了一种基于机器学习的家庭群组识别模型，利用用户属性数据、通信消费数据、通信社交数据和位置数据，通过机器学习算法建立家庭群组识别模型，预测用户之间的家庭关系，大大提升了家庭群组识别的准确率，很好的解决了现有技术中家庭群组识别方案的准确率低的问题。

本发明实施例还提供了一种家庭群组识别装置，如图4所示，包括：

第一处理模块41，用于根据训练数据，得到训练特征信息；

第二处理模块42，用于根据所述训练特征信息，利用机器学习算法得到识别模型；

第三处理模块43，用于利用所述识别模型，进行家庭群组识别。

本发明实施例提供的所述家庭群组识别装置通过根据训练数据，得到训练特征信息；根据所述训练特征信息，利用机器学习算法得到识别模型；利用所述识别模型，进行家庭群组识别；能够实现通过机器学习算法建立用于家庭群组识别的识别模型，以预测用户之间的家庭关系；该方式对各特征权重的赋值更加智能、科学，使得识别模型的识别准确率更高，很好的解决了现有技术中家庭群组识别方案的准确率低的问题。

其中，所述第一处理模块，包括：第一处理子模块，用于获取原始数据，并对所述原始数据进行预处理；第一划分子模块，用于将预处理后的原始数据划分为所述训练数据和测试数据；第二处理子模块，用于利用预设特征选择算法，根据所述训练数据，得到训练特征信息；其中，所述训练数据包含多对用户群组数据以及每一用户群组数据所对应的家庭群组标识信息，所述测试数据中包含至少一对用户群组数据，且不包含用户群组数据所对应的家庭群组标识信息。

具体的，所述第二处理子模块，包括：第一提取单元，用于从训练数据中提取用户的属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息；第一获取单元，用于利用预设特征选择算法，从所述属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息中获取训练特征信息。

更具体的，所述第一获取单元，包括：第一排序子单元，用于利用预设特征选择算法，对所述属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息进行排序；第一获取子单元，用于从排序后的属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息中获取训练特征信息。

其中，所述第二处理模块，包括：第一获取子模块，用于根据所述训练特征信息，获取至少两种机器学习算法各自对应的初始模型以及所述初始模型的评价指标信息；第二获取子模块，用于根据各个初始模型的评价指标信息，从得到的初始模型中获取所述识别模型；其中，所述评价指标信息为准确率或召回率。

具体的，所述第一获取子模块，包括：第一划分单元，用于将所述训练特征信息按照用户群组划分为N个部分信息；第一处理单元，用于根据所述N个部分信息，针对每种机器学习算法进行N折交叉验证，得到对应于每种机器学习算法的初始模型；其中，针对每种机器学习算法的每一次验证，得到一个初始评价指标信息；第二处理单元，用于根据针对每种机器学习算法的N个初始评价指标信息，得到针对每种机器学习算法所对应的初始模型的评价指标信息；其中，N大于或等于2。

进一步的，所述家庭群组识别装置还包括：第四处理模块，用于在利用所述识别模型，进行家庭群组识别之前，利用所述测试数据，对所述识别模型进行识别预测、识别验证以及效果评估，得到处理结果信息；第一更新模块，用于根据所述处理结果信息，对所述识别模型进行更新。

具体的，所述第三处理模块，包括：第三获取子模块，用于获取待识别的用户关系所对应的用户数据；第三处理子模块，用于根据所述用户数据，得到特征信息；第一识别子模块，用于根据所述特征信息，利用所述识别模型，对所述待识别的用户关系进行家庭群组识别。

其中，上述家庭群组识别方法的所述实现实施例均适用于该家庭群组识别装置的实施例中，也能达到相同的技术效果。

其中，上述家庭群组识别方法的所述实现实施例均适用于该家庭群组识别设备的实施例中，也能达到相同的技术效果。

其中，上述家庭群组识别方法的所述实现实施例均适用于该计算机可读存储介质的实施例中，也能达到相同的技术效果。

需要说明的是，此说明书中所描述的许多功能部件都被称为模块/子模块/单元/子单元，以便更加特别地强调其实现方式的独立性。

本发明实施例中，模块/子模块/单元/子单元可以用软件实现，以便由各种类型的处理器执行。举例来说，一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块，举例来说，其可以被构建为对象、过程或函数。尽管如此，所标识模块的可执行代码无需物理地位于一起，而是可以包括存储在不同位里上的不同的指令，当这些指令逻辑上结合在一起时，其构成模块并且实现该模块的规定目的。

实际上，可执行代码模块可以是单条指令或者是许多条指令，并且甚至可以分布在多个不同的代码段上，分布在不同程序当中，以及跨越多个存储器设备分布。同样地，操作数据可以在模块内被识别，并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集，或者可以分布在不同位置上(包括在不同存储设备上)，并且至少部分地可以仅作为电子信号存在于系统或网络上。

在模块可以利用软件实现时，考虑到现有硬件工艺的水平，所以可以以软件实现的模块，在不考虑成本的情况下，本领域技术人员都可以搭建对应的硬件电路来实现对应的功能，所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述原理前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种家庭群组识别方法，其特征在于，包括：

根据训练数据，得到训练特征信息；

根据所述训练特征信息，利用机器学习算法得到识别模型；

利用所述识别模型，进行家庭群组识别；

其中，所述根据训练数据，得到训练特征信息，包括：

获取原始数据，并对所述原始数据进行预处理；

将预处理后的原始数据划分为所述训练数据和测试数据；

其中，所述训练数据包含多对用户群组数据以及每一用户群组数据所对应的家庭群组标识信息；所述测试数据中包含至少一对用户群组数据，且不包含用户群组数据所对应的家庭群组标识信息；

所述对所述原始数据进行预处理，包括：

删除所述原始数据中的噪声数据以及针对同一特征的、数据缺失率大于或等于预设阈值的特征数据。

2.根据权利要求1所述的家庭群组识别方法，其特征在于，所述利用预设特征选择算法，根据所述训练数据，得到训练特征信息，包括：

3.根据权利要求2所述的家庭群组识别方法，其特征在于，所述利用预设特征选择算法，从所述属性特征信息、通信消费特征信息、通信社交特征信息和位置特征信息中获取训练特征信息，包括：

4.根据权利要求1至3任一项所述的家庭群组识别方法，其特征在于，所述预设特征选择算法为随机森林算法。

5.根据权利要求1所述的家庭群组识别方法，其特征在于，所述根据所述训练特征信息，利用机器学习算法得到识别模型，包括：

其中，所述评价指标信息为准确率或召回率。

6.根据权利要求5所述的家庭群组识别方法，其特征在于，所述根据所述训练特征信息，获取至少两种机器学习算法各自对应的初始模型以及所述初始模型的评价指标信息，包括：

将所述训练特征信息按照用户群组划分为N个部分信息；

其中，N大于或等于2。

7.根据权利要求5或6所述的家庭群组识别方法，其特征在于，所述至少两种机器学习算法包括逻辑回归算法、随机森林算法和梯度提升算法中的至少一种。

8.根据权利要求1所述的家庭群组识别方法，其特征在于，在利用所述识别模型，进行家庭群组识别之前，还包括：

根据所述处理结果信息，对所述识别模型进行更新。

9.根据权利要求1所述的家庭群组识别方法，其特征在于，所述利用所述识别模型，进行家庭群组识别，包括：

获取待识别的用户关系所对应的用户数据；

根据所述用户数据，得到特征信息；

10.根据权利要求1至3以及5、6、8和9中任一项所述的家庭群组识别方法，其特征在于，所述训练特征信息包括以下信息中的至少一种：

11.一种家庭群组识别装置，其特征在于，包括：

第一处理模块，用于根据训练数据，得到训练特征信息；

第三处理模块，用于利用所述识别模型，进行家庭群组识别；

其中，所述第一处理模块，包括：

所述对所述原始数据进行预处理，包括：

12.根据权利要求11所述的家庭群组识别装置，其特征在于，所述第二处理子模块，包括：

13.根据权利要求12所述的家庭群组识别装置，其特征在于，所述第一获取单元，包括：

14.根据权利要求11至13任一项所述的家庭群组识别装置，其特征在于，所述预设特征选择算法为随机森林算法。

15.根据权利要求11所述的家庭群组识别装置，其特征在于，所述第二处理模块，包括：

其中，所述评价指标信息为准确率或召回率。

16.根据权利要求15所述的家庭群组识别装置，其特征在于，所述第一获取子模块，包括：

其中，N大于或等于2。

17.根据权利要求15或16所述的家庭群组识别装置，其特征在于，所述至少两种机器学习算法包括逻辑回归算法、随机森林算法和梯度提升算法中的至少一种。

18.根据权利要求11所述的家庭群组识别装置，其特征在于，还包括：

19.根据权利要求11所述的家庭群组识别装置，其特征在于，所述第三处理模块，包括：

第三处理子模块，用于根据所述用户数据，得到特征信息；

20.根据权利要求11至13以及15、16、18和19中任一项所述的家庭群组识别装置，其特征在于，所述训练特征信息包括以下信息中的至少一种：

21.一种家庭群组识别设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器执行所述程序时实现如权利要求1至10中任一项所述的家庭群组识别方法。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至10中任一项所述的家庭群组识别方法中的步骤。