CN108280458A

CN108280458A - 群体关系类型识别方法及装置

Info

Publication number: CN108280458A
Application number: CN201710007933.7A
Authority: CN
Inventors: 张宗; 张宗一; 张功源; 张晓敏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-01-05
Filing date: 2017-01-05
Publication date: 2018-07-13
Anticipated expiration: 2037-01-05
Also published as: CN108280458B

Abstract

本发明公开了一种群体关系类型识别方法及装置，属于数据挖掘分析领域。所述群体关系类型识别方法包括：接收群体关系类型识别请求；获取与请求相对应的群体信息；根据预定义的目标数据字段，从所述群体信息中提取群体中每个成员对应的目标数据，组成个人数据集；将所述个人数据集输入群体分类深度神经网络模型，所述群体分类深度神经网络模型根据所述预定义的目标数据字段训练得到；根据群体分类深度神经网络模型的输出结果，确定群体的关系类型。本发明的技术方案结合了数据挖掘分析技术，通过简单预处理操作及群体分类深度神经网络模型即可识别群体的关系类型，减少了前期特征获取所需的人力成本，模型的部署构建复杂度低，模型的通用性强。

Description

群体关系类型识别方法及装置

技术领域

本发明涉及数据挖掘分析领域，特别涉及一种群体关系类型识别方法及装置。

背景技术

社交网络中存在着各种社交圈子，每个社交圈子集中有具有一定关联的用户成员，比如家人，公司同事，学校同学等等。在大数据时代背景下，识别社交圈子的关系类型是一个非常重要的问题，并且识别结果具有广泛的实际应用，比如大数据分析、广告投放等等。

现有的技术方案或采用人工识别分类，或采用传统机器学习分类模型，需要大量的社团层面上的特征工程工作，所需要的特征包括社交圈子的成员、成员的年龄性别分布、地域分布等等。对现有技术方案的改进也局限于圈子特征提取明细的创新。现有技术至少存在以下不足：

1>特征工程的完成需要大量的人力投入，且开发周期长；

2>不同的圈子分类场景需要不同的特征工程工作，通用性差；

3>由于涉及到大量特征处理，模型部署复杂性高；

4>圈子的特征来自于对个人特征的统计，丢失了大量对提高准确率有帮助的信息。

发明内容

为了解决现有技术的问题，本发明提供了一种群体关系类型识别方法及装置，根据简单预处理操作及群体分类深度神经网络模型即可识别群体的关系类型。所述技术方案如下：

一方面，本发明提供了一种群体关系类型识别方法，所述方法包括：

接收群体关系类型识别请求；

获取与所述群体关系类型识别请求相对应的群体信息，所述群体信息包括群体成员信息；

根据预定义的目标数据字段，从所述群体成员信息中提取群体中每个成员对应的目标数据，组成个人数据集；

将所述个人数据集输入群体分类深度神经网络模型，所述群体分类深度神经网络模型根据所述预定义的目标数据字段训练得到；

根据所述群体分类深度神经网络模型的输出结果，确定所述群体的关系类型。

另一方面，本发明提供了一种群体关系类型识别装置，所述装置包括：

请求接收模块，用于接收群体关系类型识别请求；

信息获取模块，用于获取与所述群体关系类型识别请求相对应的群体信息，所述群体信息包括群体成员信息；

提取模块，用于根据预定义的目标数据字段，从所述群体成员信息中提取群体中每个成员对应的目标数据，组成个人数据集；

数据输入模块，用于将所述个人数据集输入群体分类深度神经网络模型，所述群体分类深度神经网络模型根据所述预定义的目标数据字段训练得到；

关系识别模块，用于根据所述群体分类深度神经网络模型的输出结果，确定所述群体的关系类型。

除此，本发明还提供了一种消息推送方法，包括：

接收群体关系类型识别请求；

根据所述群体分类深度神经网络模型的输出结果，确定所述群体的关系类型；

根据群体的关系类型，向所述群体推送消息。

本发明提供的技术方案带来的有益效果如下：

1)仅需对个人数据进行简单的预处理，大幅减少数据准备时间；

2)数据处理过程简单，模型相关部署复杂度低；

3)对于很多不同场景下的圈子分类问题都能使用相同的数据和模型，通用性强，模型的重复使用能力强。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的群体关系类型识别方法的流程图；

图2是本发明实施例提供的网络群的类型识别方法的流程图；

图3是本发明实施例提供的群体分类深度神经网络的训练方法流程图；

图4是本发明实施例提供的模型损失函数最小化方法流程图；

图5是本发明实施例提供的获取模型样本的方法流程图；

图6是本发明实施例提供的群体关系类型识别装置的模块框图；

图7是本发明实施例提供的利用群体关系类型识别方法进行消息推送的方法流程图；

图8是本发明实施例提供的群体关系类型识别装置的计算机终端的硬件结构框图；

图9是本发明实施例提供的基于CNN的群体分类深度神经网络的模型架构图；

图10是本发明实施例提供的基于RNN的群体分类深度神经网络的模型架构图；

图11是本发明实施例提供的CNN网络模型中神经元的结构示意图；

图12是本发明实施例提供的RNN网络模型中LSTM记忆单元的结构图；

图13是本发明实施例提供的利用群体分类结果进行消息推送的方法流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本发明的一个实施例中，提供了一种群体关系类型识别方法，参见图1，方法流程包括：

S101、接收群体关系类型识别请求。

具体地，所述识别请求是针对某一个群体发起的，该请求的目的是识别得到该群体内成员的关系类型，即该群体的关系类型，发起请求需要触发动作，在本申请中，触发动作可能为创建该群体成立，或者是群体成员数量达到触发阈值，又或者是群体成员在群体内交流热度达到触发热度值，也可以由前端管理人员进行手工触发，本发明对触发发起请求的方式不作具体限定。

S102、获取对应的群体信息。

具体地，获取与所述群体关系类型识别请求相对应的群体信息，请求信息中会附带待识别的群体的id，根据id找到相应群体，所述群体信息包括群体成员信息。

S103、提取每个成员对应的目标数据。

具体地，所述群体成员信息包括但不限定于姓名、性别、城市、签名、阅读记录等等，其中，有些信息是无益于识别群体关系类型的，对于这些信息，不包括在预定义的特征字段范围内，并且，非数值特征无法直接被模型使用，需要通过转码的方式把他们变成数值特征。比如：用00001来表示这个群内出现频率最高的姓，00010表示这个群内出现频率第二高的姓，对城市的转码方式也是类似。预定义一些能够为识别群体类型的特征字段，比如姓名、性别、所在城市、阅读兴趣、个人签名等等，根据预定义的特征字段，从所述群体成员信息中获取每个成员的如上特征字段，组成个人数据集。

S104、将所述个人数据集输入群体分类深度神经网络模型。

具体地，所述群体分类深度神经网络模型根据所述预定义的目标数据字段训练得到，将所述个人数据集输入该模型。

S105、群体分类深度神经网络模型输出分类结果。

具体地，按照训练结果，所述模型输出分类结果，本实施例中，所述群体分类深度神经网络模型为多分类神经网络模型，输出的分类结果的数量为多种。

S106、确定群体的关系类型。

具体地，在训练该模型前，首先设定模型输出结果与群体的关系类型的对应规则，按照规则，将模型输出的分类结果对应得到群体的关系类型。

在本发明的一个实施例中，提供了一种网络群的类型识别方法，参见图2，方法流程包括：

S21、训练群体分类神经网络。

具体的训练群体分类神经网络的方法流程如图3所示，所述方法流程包括：

S211、获取待训练的关系类型样本数据；

S212、获取样本数据中用户的目标数据字段，关系类型样本数据为标注有关系类型的群体样本，每一个群体样本包括有群体成员信息，从所述群体成员信息中可以获取每个用户的目标数据字段，所述目标数据字段即为预定义的特征字段，训练的目的为试群体分类神经网络模型通过群体成员的目标数据字段判别出该群体成员间的关系类型，即该群体的关系类型；

S213、对神经网络的损失函数的梯度进行学习，以最小化损失函数；

S214、完成最小化损失函数后，对所述关系类型样本数据进行训练网络，最终得到群体分类神经网络模型。

所述S211的关系类型样本数据标注有关系类型，所述样本数据的关系类型标注方法及样本数据的获取方法如图5所示，所述标注关系类型的方法流程包括：

S2111、在网络群建立时，会有网络群成员之间备注标签，备注标签的方式有很多，比如：以某一用户为群主，群主为每一个群成员备注标签以显示他们两者的关系，或者群成员之间互相备注标签，这个可以通过查询成员的通讯录获取第一成员对其他成员的备注标签，备注标签为自由定义，形式有多种多样，比如“xx同事”、“公司1”、“同学”、“高中同学”、“大学舍友”、“家人”、“亲人”、“老乡”等等；

S2112、遍历备注标签，将获取的备注标签形成一个集合，对集合内的备注标签进行遍历，所谓遍历，即以任意一种次序，对集合中的备注标签进行仅且一次的访问，每个访问的备注标签都进行如下S2113和S2114的操作；

S2113、将备注标签与关系标签进行匹配，所述关系标签为预设的特定的标签，本实施例中，所述关系标签分为四类：同学、同事、亲人及其他，具体的匹配方法包括但不限定于：针对每一个关系标签建立关键词词库，比如，针对同学关系标签，关键词可以为“小学”“舍友”“班”及各种学习专业名称，针对同事关系标签，关键词可以为“公司”“同事”“总监”“项目组”及各种公司名称，针对亲人关系标签，关键词可以为各种亲人称谓，对所述备注标签进行分词，将分词结果与词库中的关键词进行比对，若分词结果与关键词匹配，则所述备注标签与该关键词所在词库所对应的关系标签匹配，若不与同学、同事、亲人匹配，则判定与“其他”关系标签匹配；

S2114、进行打标，即将上述匹配的关系标签作为两用户之间的打标标签；

S2115、判断遍历是否完成，若遍历完成，执行S2116，若否，返回S2112；

S2116、对备注标签遍历完成后，对打标标签进行分类并统计数量，所谓分类，即为将打标标签集中归类，并统计“同学”“同事”“亲人”“其他”四种关系的标签数量；

S2117、将统计数量最大的打标标签作为目标标签，所述目标标签映射网络群的关系类型，比如，以上四种关系标签中，打标为“同事”的标签数量最多，则判定当前这个网络群的关系类型为同事群。

至此，可以直接将该网络群标注为同事群，并纳入训练样本，除此，也可以对其进行筛选，根据筛选结果，决定纳入样本还是抛弃该网络群数据，具体方法流程参见图5，包括：

S2118、判断网络群是否通过筛选，若通过，执行S2119，否则，抛弃该网络群，该网络群不纳入训练样本。筛选条件如下举例：若一个群体中数量最多的打标标签数量超过打标标签总数的一半，且具有目标标签的用户数量超过预设数量阈值，则将该群体纳入关系类型样本，否则，抛弃该群体数据，具体比如：打标标签的数量一共为10000，打标标签“同学”的数量为4500，打标标签“同事”的数量为4000，打标标签“亲人”的数量为1000，打标标签“其他”的数量为500，由于不满足数量最多的“同学”打标标签超过总数量的一半这一条件，因此抛弃该群体数据，这样的目的是，提高样本关系类型的准确性和样本数据的可识别性，使得对该样本学习时，能够有效地抓取特征，提高训练模型的识别精准度。

S2119、对通过筛选的网络群纳入关系类型样本数据集。

S2111-S2119操作为吸纳一个群体样本，不断地执行以上S2111-S2119操作即可扩大样本范围。

所述S213中的损失函数为深度神经网络的损失函数，损失函数与神经网络模型分类结果的准确性有着密切关系，为了提高群体分类深度神经网络模型的识别精准度，需要极小化损失函数，具体方法如图4所示，所述极小化损失函数的方法流程包括：

S2131、采用反向传播法得到损失函数的梯度：反向传播法(Backpropagation,BP)是一种与最优化方法结合使用的算法，反向传播法对网络中所有权重计算损失函数的梯度，在向量微积分中，标量场中某一点的梯度指向在这点标量场增长最快的方向，是方向导数参量。

S2132、将梯度反馈给随机梯度下降法：上述的最优化方法不限定于随机梯度下降法，也可以为梯度下降法，或者随机并行梯度下降法；

S2133、所述随机梯度下降法根据反馈的梯度更新深度神经网络的权重；

S2134、判断是否达到设定的迭代次数，若达到设定的迭代次数，则执行S2135，否则，将更新的权重迭代到反向传播法，即以更新的权重继续执行S2131-S2134；S2135、若达到设定的迭代次数，则完成损失函数的最小化，人工指定的迭代次数是通过多次的试验和经验得出的，比如测试的时候设置迭代次数为1000次，测试中发现迭代到200次以后损失函数的值就不再下降了，则下一次测试时可将迭代次数设定为300次，以节约测试时间。

S22、建立网络群，并触发识别请求。

具体地，本实施例中，识别请求的触发时机为网络群的建立时机，一旦网络群建立成功，就向后台服务器发送对该网络群的关系类型进行识别的请求。

S23、根据请求，获取网络群的信息。

具体地，后台根据请求，找到网络群的ip，相应地获取该网络群的信息，包括网络群的群号、群名称、群签名、群成员及各种成员详细信息(姓名、性别等等)。

S24、提取网络群成员的预定义字段信息。

所述预定义的字段信息，即为上述S212中的预定义的特征字段，是一些可以为模型提供识别群体关系类型的有用信息字段，比如性别(购物群的成员以女性为主，游戏群的成员以男性为主)、居住城市(同事群的成员居住城市大致相同，大学同学群的居住城市相同率较低)、阅读兴趣(即为成员在与论坛中点击阅读记录、关注公众号的习惯)等等，将以上字段的信息提取出来，每个成员的以上字段信息组成个人信息，网络群中所有成员的个人信息组成个人信息集。

S25、提取的特征字段信息组成的个人信息集输入到训练好的群体分类深度神经网络模型中去。

S26、所述群体分类深度神经网络模型输出分类结果。

S27、根据分类结果，确定网络群的关系类型。

具体地，模型的输出结果可以为一个数字标量，输出数字标量与网络群的关系类型之间预设有配对规则，比如，输出0001代表同学关系类型，输出0010为同事关系类型，输出0100代表亲人关系类型，输出1000代表其他关系类型，这种编码方式叫做one-hotencoding，是模型实际的输出方式。

在本发明的一个实施例中，使用CNN(卷积神经网络)模型架构得到群体分类深度神经网络模型，CNN模型的输入数据处理流程包括：

第一、定义要提取的个人数据字段，如年龄、所在城市和阅读兴趣等等；

第二、对于每个群体内的用户提取上述的个人数据字段；

第三、对于每个待识别的群体，将其成员按圈子归属度降序排列，所述圈子归属度定义为：

节点的圈子归属度＝(节点圈子内的度/节点在原图中的度)*(节点圈子内的度/圈子子图最大度)。

节点圈子内的度表示该节点在该圈子中的连接数，比如某个用户在一个群中的好友数，节点在原图中的度表示该节点在全局网络中的连接数，比如某个用户在全局网络中的好友数，即某个用户的好友总数，圈子子图最大度表示该圈子中圈内连接最多的节点的圈内连接数。

将样本数据拼接成四维数组，四个维度从外到内分别为圈子、成员、成员个人数据和数据通道，这个四维数组中每个圈子的成员数量必须相等，将此数量定为K，成员数量超过K的圈子截取排名最前的K名成员的成员数据，数量不足K的圈子用0补足。

所述CNN模型的架构设计如图9所示，包含两个2D卷积层(convolution2d_1、convolution2d_2)，两个全连接层(dense_1、dense_2)，图9中右侧数值为每层输入和输出的张量(tensor)形状，利用convolution2d_input对神经网络进行输入，convolution2d_input_1(InputLayer)是神经网络的输入层，在这一层中无任何运算，仅仅定义了输入数据的大小和类型，因此，output输出量不发生变化。

Convolution2D是2维的卷积层，卷积层通过参数共享，来简少模型参数和数据运算，卷积层的主要参数包括：a.卷积核数量，每个卷积核对应一个feature map，卷积核的数量可以通过feature map的数量来显示，本实施例中feature map的数量为64；b.卷积核长、宽，所述卷积核是一个长方形，需要指定长宽，本实施例中卷积核的体积为3x3；c.步长，指卷积核在平移时的步长，因为卷积核是2维数据，所以相应地，步长是一个长度为2的数组，比如(1，1)，卷积层的神经元使用权重(weights)共享，每个神经元weights数量＝卷积核长x卷积核宽。

Activation为神经元的激活函数，在神经网络中，除了最后一层output外，其余任何一个神经元都有激活函数，每一层所有的神经元的激活函数相同，不同层的神经元会有不同的激活函数。神经元的每个输入边都有一个weight，每个神经元都有一个偏置(bias)，本实施例中，使用激活函数ReLu，函数定义为g(z)＝max{0,z}。

MaxPooling2D是一个二维数据的操作，具体为取一个长方形内的最大数值输出，所述MaxPooling2D的主要参数包括：a.Pool大小，指一个长方形，比如3x3；b.步长，指每次移动的长度，比如(3，3)。

Dropout的目的是为了防止过拟合，过拟合是机器学习最常见的问题之一，用来描述模型在训练集上的表现远远好于在测试集上的表现。也就是说，如果一个模型过拟合，那么它在训练时表现不错，但用新的数据做实际预测时效果差得多，所述Dropout的主要参数包括：参数p：一个0到1之间的值，表示概率，在训练模型的时候，随机将该层的输入(也就是前面一层的输出)按照p概率设成0，比如p＝0.2，那就随机将20％的输入节点数据设成0，但在预测阶段时，该层不做任何操作。

Flatten作用于将二维数组展平成一维，比如将[[1,2],[3,4]]转变为[1,2,3,4]。

Dense为全连接层，若神经元如图11所示，运算公式如下：

Output＝g(z)，其中，所述g(z)为激活函数，具体定义如上，在此不再赘述；

z＝∑_jw_jx_j+b，其中，x_i为第i个输入，w_i为第i个输入的权重，b为偏置阈值。

因为是多分类问题，每个群体圈子属于一个类别，输出层为softmax，损失函数(Loss function)选用类别交叉熵(categorical cross entropy)，并使用随机梯度下降法(SGD)学习模型参数，学习过程如上训练群体分类神经网络的步骤所述。

在本发明的一个实施例中，使用RNN(循环神经网络)模型架构得到群体分类深度神经网络模型，与CNN相同的是，同样根据圈子归属度对每个圈子的成员进行降序排列，与CNN不同的是，RNN中，排列得到关于成员数据的一个序列，序列中每个项对应于一个用户的个人数据，每个圈子对应的序列允许有不同的长度，也就是说，圈子成员的数量可以不一致。

所述RNN模型的架构设计如图10所示，包含三个LSTM层(lstm_1、lstm_2、lstm_3)和两个全连接层(dense_1、dense_2)，图10中右侧数值为每层输入和输出的tensor形状。

RNN神经网络利用lstm_input对神经网络进行输入，lstm_input_1(InputLayer)是RNN神经网络的输入层，在这一层中无任何运算，仅仅定义了输入数据的大小和类型，因此，output输出量不发生变化，图12中示出了LSTM记忆单元的结构。

RNN神经网络中的全连接层和防止过拟合层分别与CNN神经网络的全连接层和防止过拟合层定义相同，在此不再赘述。

在本发明的一个实施例中，提供了一种群体关系类型识别装置，所述装置的模块架构参见图6，所述装置包括以下模块：

请求接收模块610，用于接收群体关系类型识别请求；

信息获取模块620，用于获取与所述群体关系类型识别请求相对应的群体信息，所述群体信息包括群体成员信息；

提取模块630，用于根据预定义的目标数据字段，从所述群体成员信息中提取群体中每个成员对应的目标数据，组成个人数据集；

数据输入模块640，用于将所述个人数据集输入群体分类深度神经网络模型，所述群体分类深度神经网络模型根据所述预定义的目标数据字段训练得到；

关系识别模块650，用于根据所述群体分类深度神经网络模型的输出结果，确定所述群体的关系类型。

进一步地，所述装置还包括训练模块660，用于训练群体分类深度神经网络模型，所述训练模块660包括：

样本获取子模块661，用于获取待训练的关系类型样本数据；

最小化子模块662，用于对神经网络的损失函数的梯度进行学习，以最小化损失函数；

模型子模块663，用于通过获取关系类型样本数据中用户的目标数据字段，并根据损失函数，对所述群体分类深度神经网络进行训练，得到群体分类深度神经网络模型。

具体地，所述最小化子模块662包括：

反向传播算法单元6621，用于根据神经网络的所有权重和损失函数，采用反向传播法得到损失函数的梯度；

梯度下降算法单元6622，用于根据所述梯度，采用随机梯度下降法，更新神经网络的权重；

迭代单元6623，用于将更新的权重进行预设次数的迭代，以最小化损失函数。

具体地，所述样本获取子模块661包括：

打标单元6611，用于获取同一个群体内一个用户对另一用户的备注标签；

遍历匹配单元6612，用于遍历所有备注标签，将所述备注标签与预设的关系标签进行匹配，将匹配结果作为两个用户之间的打标标签，所述预设的关系标签数量为多个；具体地，所述遍历匹配单元6612包括：词库子单元6615，用于针对每一个关系标签建立关键词词库；分词子单元6616，用于对所述备注标签进行分词；比对子单元6617，用于将分词结果与词库中的关键词进行比对，若分词结果与关键词匹配，则所述备注标签与该关键词所在词库所对应的关系标签匹配；

映射单元6613，用于对打标标签进行分类，并统计数量最多的打标标签作为目标标签，所述目标标签映射该群体的关系类型。

筛选单元6614，用于筛选群体：若一个群体中数量最多的打标标签数量超过打标标签总数的一半，且具有目标标签的用户数量超过预设数量阈值，则将该群体纳入关系类型样本，否则，抛弃该群体数据。

进一步地，所述装置还包括触发模块670，用于触发群体关系类型识别请求，触发条件包括以下条件的一个或多个：

所述群体创建成功；

所述群体成员数量达到触发阈值；

所述群体内成员交流热度达到触发热度值；

启动人工触发。

需要说明的是：上述实施例提供的群体关系类型识别装置在进行群体关系类型识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将群体关系类型识别装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，本实施例提供的群体关系类型识别装置实施例与上述实施例提供群体关系类型识别方法属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在本发明的一个实施例中，提供了一种消息推送方法，参见图13，方法流程包括：

S901、接收群体关系类型识别请求。

S902、获取对应的群体信息。

S903、提取每个成员对应的目标数据。

S904、将所述个人数据集输入群体分类深度神经网络模型。

S905、群体分类深度神经网络模型输出分类结果。

S906、确定群体的关系类型。

S907、根据群体的关系类型，推送消息。

其中，S901-S906的步骤如上述实施例所述，在此不再赘述。

S907是利用群体类型的识别结果，对所述群体推送消息，具体的推送方法形式有很多，比如，识别出该群体为妈妈群，可以向该群体成员发送育儿消息，或者反之，先确定待推送的消息类型为路况信息，指定为推送给类型为车友的群体，当若干个群体的关系类型识别出来以后，若识别结果中存在车友的群体，则将路况信息发送给车友群体，若识别结果中不存在车友群体，则不推送该消息。本发明对于推送的消息类型和将消息推送到的群体类型，以及推送消息的方式不作具体限定，所有利用本发明群体关系类型识别方法进行消息推送的技术方案都属于本发明的保护范围。

本发明实施例提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行，在本发明的一个实施例中，以运行在计算机终端上为例，图8是本发明实施例的群体关系类型识别装置的计算机终端的硬件结构框图。如图8所示，终端800可以包括RF(Radio Frequency，射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(wireless fidelity，无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解，图8中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器180处理；另外，将涉及上行的数据发送给基站。通常，RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System ofMobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(Wideband Code Division MultipleAccess，宽带码分多址)、LTE(Long Term Evolution，长期演进)、电子邮件、SMS(ShortMessaging Service，短消息服务)等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端800的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180和输入单元130对存储器120的访问。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端800的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode，有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图8中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

终端800还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在终端800移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端800还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与终端800之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与终端800的通信。

WiFi属于短距离无线传输技术，终端800通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块170，但是可以理解的是，其并不属于终端800的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是终端800的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行终端800的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器180可包括一个或多个处理核心；优选地，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

终端800还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端800还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端的显示单元是触摸屏显示器，终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于进行以下操作的指令：

接收群体关系类型识别请求；

具体地，终端的处理器还用于执行以下操作的指令：根据群体的关系类型，向所述群体推送消息。

具体地，终端的处理器还用于执行以下操作的指令：训练群体分类深度神经网络，包括：

获取待训练的关系类型样本数据；

对神经网络的损失函数的梯度进行学习，以最小化损失函数；

通过获取关系类型样本数据中用户的目标数据字段，并根据损失函数，对所述群体分类深度神经网络进行训练，得到群体分类深度神经网络模型。

具体地，终端的处理器还用于执行以下操作的指令：

根据神经网络的所有权重和损失函数，采用反向传播法得到损失函数的梯度；

根据所述梯度，采用随机梯度下降法，更新神经网络的权重；

将更新的权重进行预设次数的迭代，以最小化损失函数。

具体地，终端的处理器还用于执行以下操作的指令：

获取同一个群体内一个用户对另一用户的备注标签，遍历所有备注标签，将所述备注标签与预设的关系标签进行匹配，将匹配结果作为两个用户之间的打标标签；

对打标标签进行分类，并统计数量最多的打标标签作为目标标签，所述目标标签映射该群体的关系类型。

具体地，终端的处理器还用于执行以下操作的指令：若一个群体中数量最多的打标标签数量超过打标标签总数的一半，且具有目标标签的用户数量超过预设数量阈值，则将该群体纳入关系类型样本，否则，抛弃该群体数据。

具体地，终端的处理器还用于执行以下操作的指令：针对每一个关系标签建立关键词词库，对所述备注标签进行分词，将分词结果与词库中的关键词进行比对，若分词结果与关键词匹配，则所述备注标签与该关键词所在词库所对应的关系标签匹配。

在本发明的一个实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，一个或者一个以上程序被一个或者一个以上的处理器用来执行群体关系类型识别方法的指令，所述方法指令包括：

接收群体关系类型识别请求；

进一步地，在将所述个人数据集输入群体分类深度神经网络模型之前还包括训练群体分类深度神经网络，包括：

获取待训练的关系类型样本数据；

进一步地，所述对神经网络的损失函数的梯度进行学习，以最小化损失函数包括：

将更新的权重进行预设次数的迭代，以最小化损失函数。

进一步地，所述获取待训练的关系类型样本数据包括：

进一步地，所述群体关系类型识别请求的触发条件包括以下条件的一个或多个：

所述群体创建成功；

所述群体成员数量达到触发阈值；

所述群体内成员交流热度达到触发热度值；

启动人工触发。

进一步地，所述获取待训练的关系类型样本数据还包括筛选群体：若一个群体中数量最多的打标标签数量超过打标标签总数的一半，且具有目标标签的用户数量超过预设数量阈值，则将该群体纳入关系类型样本，否则，抛弃该群体数据。

进一步地，所述预设的关系标签数量为多个，将所述备注标签与预设的关系标签进行匹配包括：

针对每一个关系标签建立关键词词库，对所述备注标签进行分词，将分词结果与词库中的关键词进行比对，若分词结果与关键词匹配，则所述备注标签与该关键词所在词库所对应的关系标签匹配。

进一步地，还包括在识别得到群体的关系类型后，向所述群体推送消息。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种群体关系类型识别方法，其特征在于，所述方法包括：

接收群体关系类型识别请求；

2.根据权利要求1所述的方法，其特征在于，在将所述个人数据集输入群体分类深度神经网络模型之前还包括训练群体分类深度神经网络，包括：

获取待训练的关系类型样本数据；

3.根据权利要求2所述的方法，其特征在于，所述对神经网络的损失函数的梯度进行学习，以最小化损失函数包括：

将更新的权重进行预设次数的迭代，以最小化损失函数。

4.根据权利要求2所述的方法，其特征在于，所述获取待训练的关系类型样本数据包括：

5.根据权利要求1-4中任意一项所述的方法，其特征在于，所述群体关系类型识别请求的触发条件包括以下条件的一个或多个：

所述群体创建成功；

所述群体成员数量达到触发阈值；

所述群体内成员交流热度达到触发热度值；

启动人工触发。

6.根据权利要求4所述的方法，其特征在于，所述获取待训练的关系类型样本数据还包括筛选群体：若一个群体中数量最多的打标标签数量超过打标标签总数的一半，且具有目标标签的用户数量超过预设数量阈值，则将该群体纳入关系类型样本，否则，抛弃该群体数据。

7.根据权利要求4所述的方法，其特征在于，所述预设的关系标签数量为多个，将所述备注标签与预设的关系标签进行匹配包括：

8.一种群体关系类型识别装置，其特征在于，所述装置包括：

请求接收模块，用于接收群体关系类型识别请求；

9.根据权利要求8所述的装置，其特征在于，还包括训练模块，用于训练群体分类深度神经网络模型，所述训练模块包括：

样本获取子模块，用于获取待训练的关系类型样本数据；

最小化子模块，用于对神经网络的损失函数的梯度进行学习，以最小化损失函数；

模型子模块，用于通过获取关系类型样本数据中用户的目标数据字段，并根据损失函数，对所述群体分类深度神经网络进行训练，得到群体分类深度神经网络模型。

10.根据权利要求9所述的装置，其特征在于，所述最小化子模块包括：

反向传播算法单元，用于根据神经网络的所有权重和损失函数，采用反向传播法得到损失函数的梯度；

梯度下降算法单元，用于根据所述梯度，采用随机梯度下降法，更新神经网络的权重；

迭代单元，用于将更新的权重进行预设次数的迭代，以最小化损失函数。

11.根据权利要求9所述的装置，其特征在于，所述样本获取子模块包括：

打标单元，用于获取同一个群体内一个用户对另一用户的备注标签；

遍历匹配单元，用于遍历所有备注标签，将所述备注标签与预设的关系标签进行匹配，将匹配结果作为两个用户之间的打标标签；

映射单元，用于对打标标签进行分类，并统计数量最多的打标标签作为目标标签，所述目标标签映射该群体的关系类型。

12.根据权利要求8-11中任意一项所述的装置，其特征在于，还包括触发模块，用于触发群体关系类型识别请求，触发条件包括以下条件的一个或多个：

所述群体创建成功；

所述群体成员数量达到触发阈值；

所述群体内成员交流热度达到触发热度值；

启动人工触发。

13.根据权利要求11所述的装置，其特征在于，所述样本获取子模块还包括筛选单元，用于筛选群体：若一个群体中数量最多的打标标签数量超过打标标签总数的一半，且具有目标标签的用户数量超过预设数量阈值，则将该群体纳入关系类型样本，否则，抛弃该群体数据。

14.根据权利要求11所述的装置，其特征在于，所述预设的关系标签数量为多个，所述遍历匹配单元包括：

词库子单元，用于针对每一个关系标签建立关键词词库；

分词子单元，用于对所述备注标签进行分词；

比对子单元，用于将分词结果与词库中的关键词进行比对，若分词结果与关键词匹配，则所述备注标签与该关键词所在词库所对应的关系标签匹配。

15.一种消息推送方法，其特征在于，包括：

接收群体关系类型识别请求；

根据群体的关系类型，向所述群体推送消息。