CN109783805A

CN109783805A - 一种网络社区用户识别方法及装置

Info

Publication number: CN109783805A
Application number: CN201811544400.3A
Authority: CN
Inventors: 吴旭; 许晋; 颉夏青; 戴雨伦
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2019-05-21
Anticipated expiration: 2038-12-17
Also published as: CN109783805B

Abstract

本申请公开一种网络社区用户识别方法及装置，涉及机器学习及用户识别技术领域。所述方法包括：提取预先收集的网络社区文本数据的第一N‑gram特征并生成第一词向量；以交叉熵为代价函数，采用深度神经网络对第一词向量进行训练，得到文本内容分析模型；使用文本内容分析模型分析待识别用户的文本数据，得到内容属性；使用预设行为分析模型分析待识别用户的行为数据，得到行为属性；根据内容属性和行为属性识别待识别用户。本申请中，引入N‑gram特征，并结合用户内容以及用户行为两个维度的数据进行目标用户的识别，相较于现有的单一维度数据的用户识别，大大提升了识别性能及准确度。

Description

一种网络社区用户识别方法及装置

技术领域

本申请涉及机器学习及用户识别技术领域，尤其涉及一种网络社区用户识别方法及装置。

背景技术

随着社交网络的不断发展，人们更愿意通过网络社区，微博等公共社交平台来表达自己的观点，发表对热点事件的评论。这种公共平台的影响力和传播能力日益提升，使得个人的影响力也随之提升，因此在众多的情况下，根据用户在社交网络中发布数据、发布行为等来准确识别用户越来越受到人们的关注。

当前，目标用户识别的方法主要通过传统统计模型或者通过基于机器学习的数据挖掘算法，其中，基于机器学习的数据挖掘算法，多以特征选择的方式进行。例如，H Gao等人基于社交网络中目标用户的分布和爆发两方面，利用数据统计分析设计了一种方法来识别社交网络中的目标用户；Gyongyi Z基于PageRank提出TrustRank的概念，以己知的正常用户作为起点，以偏移率进行分数传播从而确定所有用户的分数，最后依靠各用户的分数来区分目标用户。然而上述方法均为单一维度特征数据的统计和挖掘，识别性能及准确率均有待于提高；并且在机器学习过程中，随着目标越来越复杂，有些重要的特征难以量化，需要付出很的高代价来选取合适的特征。可见，适应于当前社交网络的快速发展，能够综合多维度的数据进行有效的目标用户识别是有必要的。

发明内容

为解决现有技术的不足，本申请提出一种网络社区用户识别方法及装置。

第一方面，本申请提出一种网络社区用户识别方法，包括：

提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量；

以交叉熵为代价函数，采用深度神经网络对所述第一词向量进行训练，得到文本内容分析模型；

使用所述文本内容分析模型分析待识别用户的文本数据，得到内容属性；

使用预设行为分析模型分析所述待识别用户的行为数据，得到行为属性；

根据所述内容属性和所述行为属性识别所述待识别用户。

可选的，所述提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量，包括：

对预先收集的网络社区文本数据进行分词；

在分词结果中提取第一N-gram特征；

生成所述第一N-gram特征对应词的第一词向量；

对所述第一词向量进行one-hot编码，得到one-hot形式的第一词向量。

可选的，所述以交叉熵为代价函数，采用深度神经网络对所述第一词向量进行训练，得到文本内容分析模型，包括：

将所述one-hot形式的第一词向量输入至深度神经网络，构建第一向量矩阵；

对所述第一词向量矩阵进行预设运算，形成第二词向量矩阵；

根据预设的分类类别，以交叉熵为代价函数，采用反向传播、梯度下降的形式迭代更新所述第一向量矩阵和第二向量矩阵，得到多分类的文本内容分析模型。

可选的，所述使用所述文本内容分析模型分析待识别用户的文本数据，得到内容属性，包括：

提取待识别用户的文本数据的第二N-gram特征并生成第二词向量；

使用所述文本内容分析模型对所述第二词向量进行分析，得到所述待识别用户的文本数据在各类别上的内容属性。

可选的，所述使用预设行为分析模型分析所述待识别用户的行为数据，得到行为属性，包括：

采用EM算法迭代计算所述内容属性与所述待识别用户的行为数据的近似分布，并将各近似分布作为所述待识别用户的行为属性。

可选的，所述采用EM迭代算法计算所述内容属性与所述待识别用户的行为数据的近似分布，包括：

假设所述待识别用户属于所述分类类别中的某个类别，读取该类别对应的内容属性，将读取的内容属性与所述行为数据作为数据集合，并设定所述数据集合的联合概率密度由估计参数所确定，交替执行E步和M步；

E步：根据第t次迭代后的估计参数，计算所述数据集合的对数似然函数的期望；

M步：最大化所述数据集合的对数似然函数的期望得到新的估计参数；

当得到所述数据集合的最大对数似然函数的期望时，迭代结束，并将迭代得到的各估计参数作为待识别用户的行为属性。

可选的，所述根据所述内容分析结果和所述行为属性识别所述待识别用户，包括：

对所述待识别用户的文本数据在各类别上的内容属性、所述读取的内容属性、所述待识别用户在所述该类别上的各行为属性、所述数据集合的最大对数似然函数的期望对应的行为属性进行标准化处理，得到处理结果；

根据所述处理结果，确定所述待识别用户是否属于所述该类别。

可选的，所述根据所述处理结果，确定所述待识别用户是否属于所述该类别，包括：

当所述处理结果大于所述该类别的标准阈值时，判定所述待识别用户属于该类别；否则判定待识别用户不属于该类别。

第二方面，本申请提出一种网络社区用户识别装置，包括：

提取生成模块，用于提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量；

训练模块，用于基于深度神经网络和交叉熵代价函数对所述第一词向量训练得到文本内容分析模型；

第一分析模块，用于使用所述文本内容分析模型分析待识别用户的文本数据，得到内容属性；

第二分析模块，用于使用预设行为分析模型分析所述待识别用户的行为数据，得到行为属性；

识别模块，用于根据所述内容分析结果和所述行为属性识别所述待识别用户。

第三方面，本申请提出一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现如本申请第一方面所述的方法。

本申请的优点在于：

本申请中，一方面，结合用户内容以及用户行为两个维度的数据进行目标用户的识别，相较于现有的单一维度数据的用户识别，大大提升了识别性能及准确度；另一方面，在用户内容分析中，引入N-gram特征，加强了词语位置关系的区分以及上下文之间的联系，提升了识别性能；再一方面，在内容分析模型的训练中，不仅替换了原有深度神经网络的代价损失函数，而且无需人工标注样本特征，极大的降低了时间成本，提升了训练速度。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

附图1为根据本申请实施方式的一种网络社区用户识别方法流程图；

附图2为根据本申请实施方式的一种网络社区用户识别装置框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本申请的实施方式，提出一种网络社区用户识别方法，如图1所示，包括：

步骤101：提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量；

本申请中，预先收集网络社区用户在网络社区中发布的文本数据，优选的，采用半人工标注的方式将收集的文本数据划分为训练集和验证集，并提取各文本数据的第一N-gram特征并生成第一词向量。

根据本申请的实施方式，步骤101包括：

步骤101-1：对预先收集的网络社区文本数据进行分词；

具体的，将预先收集的网络社区文本数据切分为多个字词，例如将文本数据“我喜欢你”，切分为我、喜、欢、你。

步骤101-2：在分词结果中提取第一N-gram特征；

本实施例中，为增强后续模型训练过程中对词语先后顺序的特征分析，提高准确率，加入N-gram特征。

具体的，对于一个字符串S，该字符串S的N-gram特征标识按照长度N切分原词得到的词段。例如“我喜欢你”切分为“我喜欢”和“喜欢你”，“你喜欢我”切分为“你喜欢”和“喜欢你”。

步骤101-3：生成第一N-gram特征对应词的第一词向量；

其中，生成词的词向量的方法，可以采用现有的生成词向量的方法中的任意一种，对此本申请中不做限定，例如，通过word2vec算法生成各第一N-gram特征对应词的第一词向量。

步骤101-4：对第一词向量进行one-hot编码，得到one-hot形式的第一词向量。

其中，one-hot编码又称独热编码，主要采用位状态寄存器对每个状态进行编码，每个状态都有独立的寄存器位，并且任意时候只有一位有效，因此，采用one-hot编码后的数据非常的稀疏，提升了识别效率。

步骤102：以交叉熵为代价函数，采用深度神经网络对第一词向量进行训练，得到文本内容分析模型；

根据本申请的实施方式，步骤102包括：将one-hot形式的第一词向量输入至深度神经网络，构建第一向量矩阵；对第一词向量矩阵进行预设运算，形成第二词向量矩阵；根据预设的分类类别，以交叉熵为代价函数，采用反向传播、梯度下降的形式迭代更新所述第一向量矩阵和第二向量矩阵，得到多分类的文本内容分析模型。

更加具体的，将one-hot形式的第一词向量输入至深度神经网络的输入层，构建第一向量矩阵；在隐含层对第一向量矩阵中的各第一词向量进行加和求平均，得到第二词向量矩阵；并在softmax层根据预设的分类类别，以交叉熵为代价函数，采用反向传播、梯度下降的形式迭代更新所述第一向量矩阵和第二向量矩阵，直至得到最小损失代价，得到多分类的文本内容分析模型。

优选的，对训练集中的各one-hot形式的第一词向量进行训练，并采用验证集中的各one-hot形式的第一词向量进行验证。

本申请中，将现有的深度神经网络中softmax层采用的损失函数，替换为交叉熵代价函数，不仅能够能够加快模型的收敛，提升训练的速度，而且具有高的准确性。

进一步的，当通过该多分类的文本内容分析模型分析文本数据时，通过输出层输出文本数据的内容属性具体为一个包括K个元素的K维向量，其中K为预设的分类类别的数量，每一个元素即为文本数据的内容在相应分类类别上的内容属性，也称为文本数据属于相应类别用户的发布内容的概率。

本申请中以正常网络社区用户和预定义(例如散播恶意消息)的网络社区用户两类为例进行说明，则在通过文本内容分析模型分析文本数据时，输出含有两个元素的二维向量，其中第一个元素为文本数据的内容属于正常网络社区用户所发布内容的概率，第二个元素为文本数据的内容属于预定义的网络社区用户所发布内容的概率。

步骤103：使用得到的文本内容分析模型分析待识别用户的文本数据，得到内容属性；

具体的，提取待识别用户的文本数据的第二N-gram特征并生成第二词向量；使用得到的文本内容分析模型对所述第二词向量进行分析，得到待识别用户的文本数据在各类别上的内容属性。

其中，提取第二N-gram特征并生成第二词向量的过程与步骤101中提取第一N-gram特征并生成第一词向量的过程相同，在此不再详述。

步骤104：使用预设行为分析模型分析待识别用户的行为数据，得到行为属性；

其中，行为数据包括待识别用户的文本数据的发布时间、发布板块、回复对象等数据。

具体的，采用EM算法迭代计算所述内容属性与待识别用户的行为数据的近似分布，并将各近似分布作为待识别用户的行为属性。

更加具体的，假设待识别用户属于预设的分类类别中的某个类别，读取该类别对应的内容属性记为X，将待识别用户的行为数据记为Y，将读取的内容属性与所述行为数据作为数据集合Z＝(X，Y)，并设定数据集合Z的联合概率密度由估计参数θ所确定，交替执行以下E步和M步：

E步：根据第t次迭代后的估计参数，计算数据集合的对数似然函数的期望；

其中，将第t次迭代后的估计参数记为θ^t，则在t+1次迭代时，计算数据集合Z的对数似然函数的期望表示为：Q(θ|θ^t)＝E[logP(Y，X|θ)|Y，θ^t]，其中，E表示期望。

具体的，求使得Q(θ|θ^t)最大化时的θ，并将得到的θ作为新的估计参数，再次执行E步。当得到最大的数据集合的对数似然函数的期望时，迭代结束，并将迭代得到的各估计参数作为待识别用户的行为属性。

步骤105：根据得到的内容属性和行为属性识别所述待识别用户。

具体的，对待识别用户的文本数据在各类别上的内容属性、读取的内容属性、得到的待识别用户的各行为属性、数据集合的最大对数似然函数的期望对应的行为属性进行标准化处理，得到处理结果；并根据处理结果，确定待识别用户是否属于读取的内容属性对应的类别。

其中，标准化处理具体为根据对待识别用户的文本数据在各类别上的内容属性、读取的内容属性、得到的待识别用户的各行为属性、数据集合的最大对数似然函数的期望对应的行为属性计算标准欧式距离；标准欧式距离的计算公式为：其中，D为标准欧式距离，X为读取的内容属性，为待识别用户的文本数据在各类别上的内容属性的平均数，S_x为待识别用户的文本数据在各类别上的内容属性的平方差；θ为数据集合的最大对数似然函数的期望对应的行为属性，为得到的待识别用户的各行为属性的平均数，S_θ为得到的待识别用户的各行为属性的平方差。

进一步的，当处理结果大于读取的内容属性对应的类别的标准阈值时，判定待识别用户属于该类别；否则判定待识别用户不属于该类别。

为体现本申请中将用户内容及用户行为相结合的模型的性能，以下给出与现有的未将用户内容及用户行为相结合的模型的对比结果，如表1所示：

模型	准确率	召回率	F-score	模型构建速度
					现有模型	0.81	0.84	0.82	10min
本申请中的模型	0.91	0.88	0.89	>1min

可见，本申请中将用户内容及用户行为相结合的模型，在准确率、召回率、F值及模型构建速度上，相较于未将用户内容及用户行为相结合的模型均有显著提升。

由此，通过提取文本数据的N-gram特征，基于N-gram特征并结合对深度神经网络中损失函数的改进，将用户发布内容的内容属性及用户的行为属性相结合，实现了用户所属类别的有效识别。

实施例二

根据本申请的实施方式，还提出一种网络社区用户识别装置，如图2所示，包括：

提取生成模块201，用于提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量；

训练模块202，用于基于深度神经网络和交叉熵代价函数对所述第一词向量训练得到文本内容分析模型；

第一分析模块203，用于使用所述文本内容分析模型分析待识别用户的文本数据，得到内容属性；

第二分析模块204，用于使用预设行为分析模型分析所述待识别用户的行为数据，得到行为属性；

识别模块205，用于根据所述内容属性和所述行为属性识别待识别用户。

根据本申请的实施方式，提取生成模块201具体用于：

对预先收集的网络社区文本数据进行分词；

在分词结果中提取第一N-gram特征；

生成所述第一N-gram特征对应词的第一词向量；

根据本申请的实施方式，训练模块202具体用于：

根据本申请的实施方式，第一分析模块203具体用于：

根据本申请的实施方式，第二分析模块204具体用于：采用EM算法迭代计算所述内容属性与所述待识别用户的行为数据的近似分布，并将各近似分布作为所述待识别用户的行为属性。

更加具体的，第二分析模块204用于：假设子模块、计算子模块和最大化子模块，其中：

假设子模块，用于假设所述待识别用户属于所述分类类别中的某个类别，读取该类别对应的内容属性，将读取的内容属性与所述行为数据作为数据集合，并设定所述数据集合的联合概率密度由估计参数所确定；

计算子模块，用于与最大化子模块交替运行，根据第t次迭代后的估计参数，计算所述数据集合的对数似然函数的期望；

最大化子模块，用于与计算子模块交替运行，最大化所述数据集合的对数似然函数的期望得到新的估计参数；当得到最大的数据集合的对数似然函数的期望时，迭代结束，并将迭代得到的各估计参数作为待识别用户的行为属性。

根据本申请的实施方式，识别模块206包括：标准化子模块和识别子模块，其中：

标准化子模块，用于对第一分析模块203得到的待识别用户的文本数据在各类别上的内容属性、假设子模块读取的内容属性、第二分析模块204得到的待识别用户的各行为属性、最大化子模块得到的数据集合的最大对数似然函数的期望对应的行为属性进行标准化处理，得到处理结果；

识别子模块，用于根据所述处理结果，确定待识别用户是否属于假设子模块读取的内容属性对应的类别。

进一步的，识别子模块具体用于：当所述处理结果大于所述该类别的标准阈值时，判定所述待识别用户属于该类别；否则判定待识别用户不属于该类别。

根据本申请的实施方式，还提出一种网络社区用户识别设备，包括：一个或多个处理器、存储一个或多个程序的存储装置；当所述程序被所述处理器执行时，实现如实施例一所述的网络社区用户识别方法。

进一步的，所述存储装置可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)和/或高速缓存存储单元，还可以进一步包括只读存储单元(ROM)。

根据本申请的实施方式，还提出一种计算机可读存储介质，其上存储有计算机程序(即程序产品)，当该计算机程序被处理器执行时，实现如实施例一所述的网络社区用户识别方法。

进一步的，所述计算机可读存储介质包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施例的方法。

需要说明的，本说明书中的各实施例采用相关的方式描述，各实施例之间相同相似的部分互相参考即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种网络社区用户识别方法，其特征在于，包括：

根据所述内容属性和所述行为属性识别所述待识别用户。

2.根据权利要求1所述的方法，其特征在于，所述提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量，包括：

对预先收集的网络社区文本数据进行分词；

在分词结果中提取第一N-gram特征；

生成所述第一N-gram特征对应词的第一词向量；

3.根据权利要求2所述的方法，其特征在于，所述以交叉熵为代价函数，采用深度神经网络对所述第一词向量进行训练，得到文本内容分析模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述使用所述文本内容分析模型分析待识别用户的文本数据，得到内容属性，包括：

5.根据权利要求4所述的方法，其特征在，所述使用预设行为分析模型分析所述待识别用户的行为数据，得到行为属性，包括：

6.根据权利要求5所述的方法，其特征在于，所述采用EM迭代算法计算所述内容属性与所述待识别用户的行为数据的近似分布，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述内容分析结果和所述行为属性识别所述待识别用户，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述处理结果，确定所述待识别用户是否属于所述该类别，包括：

9.一种网络社区用户识别装置，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时，实现如权利要求1-8任一所述的方法。