CN110196945A

CN110196945A - 一种基于LSTM与LeNet融合的微博用户年龄预测方法

Info

Publication number: CN110196945A
Application number: CN201910447984.0A
Authority: CN
Inventors: 彭成; 梁宏健; 宋彦晶; 康权威; 张佳籴
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-09-03
Anticipated expiration: 2039-05-27
Also published as: CN110196945B

Abstract

本发明涉及一种基于LSTM与LeNet融合的微博用户年龄预测方法，属于信息预测技术领域，包括以下步骤：爬取数据：爬取微博用户的信息，并保存到本地计算机；微博文本分词：文本内容分词、停用词过滤后，分词结果向量化；搭建LSTM：对向量采用长短期记忆模型LSTM建模，并预测用户年龄；图片预处理：将图片统一成相同大小；搭建LeNet：搭建LeNet模型，将数据集图片数据增强并转为张量，并测试选出最高命中率的模型；结果整合：将训练好的文本处理模块模型与图片处理模块模型整合处理。对比现有技术，本发明解决了以往模型难以跟上潮流的问题，提高了识别准确度，在未来的用户运营、精准广告营销、用户分析、数据分析和推荐系统等领域具有广泛的应用前景。

Description

一种基于LSTM与LeNet融合的微博用户年龄预测方法

技术领域

本发明涉及一种基于LSTM与LeNet融合的微博用户年龄预测方法，属于信息预测技术领域，适用于用户运营、精准广告营销、用户倾向性分析、网络内容监控等。

背景技术

用户年龄预测是构建用户画像的子问题，用户画像其实就是将微博用户的个人信息进行标签化处理。构建用户画像有两点好处。第一，能结构化的存储微博用户信息，方便计算机对其进行识别与计算。第二，标签有着准确性与非二义性，能对人工处理与理解提供帮助。用户画像在用户运营、精准广告营销、用户分析、数据分析和推荐系统等领域有着不同程度的应用。

微博已经成为了当今社会最受欢迎的社交媒体之一，我们可以深入挖掘微博的内容，以获得巨大的资源。但是，大多数微博用户没有年龄信息。因此通过微博用户所发内容推测微博用户的年龄信息是一项必须且困难的工作。

目前，用户年龄预测主要包括基于机器学习的年龄预测方法、基于统计学的年龄预测方法以及基于深度学习的年龄预测方法。

基于机器学习的方法是指采用支持向量机和贝叶斯等分类器进行年龄预测。2009年，Tam和Martel在文献《Age detection in chat》(IEEE International Conferenceon.IEEE,2009)中采用了支持向量机的方法来构建模型，为了从人群当中识别出青少年。2011年，Rosenthal和Mckeown在文献《Classifying latent user attributes intwitter》(Proceedings of the 2nd international workshop on Search and mininguser-generated contents.ACM,2010)中预测了用户出生于社交媒体时代分界线前还是之后。

基于统计学的方法指通过统计词频、逆文本频率指数等进行年龄预测。清华大学的Zheng L在论文《Predicting Age Range of Users over Microblog Dataset》(International Journal of Database Theory and Application, 2013)中使用微博用户标签、微博内容等特征来预测用户的年龄段。

基于深度学习的年龄预测方法指利用循环神经网络或其他深度学习方法进行年龄预测。陈敬等在文献《基于双通道LSTM的用户年龄识别方法》(山东大学学报(理学版),2017)中使用了一种基于LSTM的年龄回归方法，采用了即文本特征和社交特征进行集成学习。

本文会使用到的LSTM(long-short term memory，长短期记忆模型)是一种特殊的RNN模型，是为了解决RNN模型梯度弥散的问题而提出的。卷积神经网络是现在深度学习中经常被使用的一种网络框架，在计算机视觉领域更是有着广泛的应用，本文使用的LeNet出自论文《Gradient-Based Learning Applied to Document Recognition》(Proceedingsof the IEEE 86:2278–2324，1998)，是一种非常高效的卷积神经网络。OpenCV有开源的函数库，可以满足用户在不同领域的图像处理需求，可以直接使用函数调用的方式，也可以直接在其开源的软件上进行代码改进，这对于图像处理有着很大便利。

现有的对于微博用户年龄信息的预测主要存在如下问题：主要运用单独的文本分析，包括语句、表情符和标点符号，而忽略了微博动态中与年龄信息关系较大的图片的影响；大部分研究使用的是机器学习来做的，我们使用深度学习模型以求获得更高的准确率。

发明内容

本文发明的目的在于提出一种基于LSTM与LeNet融合的微博用户年龄预测方法。将微博的文本数据与图片数据有机的结合，构建完整的模型来预测微博用户所在的年龄段。该方法的特点是，其一，使用包含文本和图片两种模态的多模态模型来分别处理文本与图片，将更多的用户信息放入到预测过程中来，解决单个用户的信息较少或利用不充分的问题。其二，处理新数据具有较强的鲁棒性，能有效地预测相似的模型信息，更换数据集与语料库的情况下，也能在微博用户的情感或性别等方面进行预测。

一种基于LSTM与LeNet融合的微博用户年龄预测方法，包含以下步骤：

步骤1、对用户动态微博信息按年龄段进行采集；

作为优选，所述年龄段为“0-17”，“18-28”，“29-44”，“45+”四个年龄段，其中45+表示45岁以上。

作为优选，所述采集通过以下过程进行：首先筛选符合各年龄段的用户，在这一步初步去除各种企业号、广告号和空号；然后按照初步筛选出来的用户的id，使用手机版微博访问他们的用户主页，爬取前n条微博的内容，包括文本和图片，n为自然数；接下来对用户进行再一次筛选，在爬取下来的用户中，再次去除虚假用户，保证数据集的可靠性。

步骤2、对步骤1采集的微博信息进行预处理使相同年龄段的所有用户的文本放入一个文件夹中，相同年龄段的所有用户的图片放入一个文件夹中；

步骤3、对步骤2预处理后的微博文本数据进行分词、过滤停用词的操作，再将分词结果向量化为用张量表示的词向量；

作为优选，所述步骤3通过以下过程实现：

首先，创建微博词语字典，在创建微博词语字典时采用最新的微博词语语料库，并提供可随时更新语料库的接口，提高分词准确程度；然后，利用数据集输入用户年龄及其微博内容，对微博内容采用jieba分词方法，把用户所在年龄段作为其标签，并过滤停用词；接下来，采用Word2vec模型将分词得到的结果向量化，输出一个100维的词向量；最后，再将分词结果向量转换成用张量表示的词向量。

步骤4、对微博文本内容搭建长短期记忆(LSTM，long-short term memory) 模型网络，即文本分类器；

作为优选，所述步骤4通过以下过程实现：

首先将步骤3得到的词向量输入长短期记忆模型，使用“Sigmoid”作为其激活函数；接着，设置一个全连接层，在全连接层中对长短期记忆模型最后一层的神经元全部连接，实现特征的非线性组合，使用“Tanh”作为其激活函数；再加入一个全连接层，使用“softmax”作为其激活函数，并输出softmax向量结果，最终得到的softmax向量为4维张量，每个维度表示其属于该年龄段的概率大小，取值在(0,1)区间；最后，在两个全连接层中应用Dropout来防止数据过拟合。

作为优选，所述dropout比率选择0.2。

步骤5、使用步骤3得到的词向量，对步骤4搭建的文本分类器进行训练。

作为优选，所述步骤5训练文本分类器时采用Adam算法自动修正参数，可以基于训练数据迭代地更新神经网络权重；并且，对于按年龄段分类后的微博数据，进行十折交叉验证。

步骤6、对步骤2预处理后的微博图片进行图像处理使其大小一致；

作为优选，所述步骤6通过以下过程完成：对各年龄段的图片文件，调用 openCV的图片读取方法，将可以读取的图片转换成256*256像素的格式，并保留RGB三通道，使其适应最新png图片标准；对于按年龄段分类后的图片数据，抽取10％的图片作为图片测试数据集，剩余90％作为图片训练数据集保存至对应分类的测试目录和训练目录下。

步骤7、对微博图片内容搭建LeNet模型网络，即图片分类器。

其基本过程为：首先将输入图片在输入层中转换为张量表示；其次将张量表示作为卷积层的输入，使用卷积核在张量上滑动；接着在池化层中进行特征选择和信息过滤；然后在整个神经网络中重复多个卷积层和池化层；最后，将最后一层池化层连接到全连接层中，输出softmax向量结果，最终得到的softmax 向量为4维张量，每个维度表示其属于该年龄段的概率大小，取值在(0,1)区间。

步骤8、使用步骤6处理后的图片数据，对步骤7搭建的图片分类器进行训练；

作为优选，在步骤8所述对步骤7搭建的图片分类器进行训练之前对所述图片数据进行数据增强操作。

步骤9：对每个用户的微博信息，其中的文本数据通过步骤3处理后输入通过步骤5训练好的文本分类器得到softmax输出，图片数据通过步骤6、7处理后输入通过步骤8训练好的图片分类器得到softmax输出；然后将文本分类器的输出结果连接上图片分类器的输出结果作为机器学习分类器(SVM分类器、朴素贝叶斯分类器、随机森林分类器、逻辑回归分类器)的输入，用户年龄段作为标签，对机器学习分类器进行训练，选择准确率最高的机器学习分类器；

步骤10，将待预测年龄段用户的微博信息通过步骤3处理后输入通过步骤 5训练好的文本分类器得到softmax输出，通过步骤6、7处理后输入通过步骤 8训练好的图片分类器得到softmax输出，然后将文本分类器的输出结果连接上图片分类器的输出结果输入步骤9经训练的机器学习分类器进行分类得到用户所属年龄段预测结果。

至此，就完成了本方法的全部过程。

有益效果

本发明的方法针对微博数据，采用一种基于LSTM与LeNet融合的微博用户年龄预测方法，能够准确的预测微博用户的年龄区间；与现有技术相比，该方法有以下特点：(1)针对微博的信息新词、人造词较多的特点，本发明采用最新的微博词语语料库，并提供可随时更新语料库的接口，解决以往微博模型难以跟上时代潮流的问题。(2)本发明采用文本与图片多模态的方法，从文本与图片两个方面来考虑，可以更准确的识别微博用户的年龄区间，解决单个微博用户的信息过少或利用不充分的问题。(3)通过将LSTM与LeNet的输出作为最终预测微博用户年龄机器学习分类器的输入，再对机器学习分类器进行训练的方法，能选取较好的参数来平衡文本与图片的权重，从而更准确的识别微博用户的年龄区间。

附图说明

图1为本发明实施例一种基于LSTM与LeNet融合的微博用户年龄预测方法的流程示意图；

具体实施方式

下面结合实施例对本发明方法的优选实施方式进行详细说明。

实施例

一种基于LSTM与LeNet融合的微博用户年龄预测方法，如图1所示，包括如下步骤：

步骤1：利用编写的网页爬虫采集个人发布的微博信息，将其保存到本地计算机，作为数据集。

在网络爬虫中，设定“0-17”，“18-28”，“29-44”，“45+”四个年龄段来分别进行爬取。“0-17”代表着未成年人的上网习惯；“18-28”代表大学生、研究生、刚步入社会工作的成年人的上网习惯；“29-44”代表着有一定社会经历，较为成熟的青壮年的上网习惯；“45+”，新规定45岁是青年和中年的分界线，这部分数据集表示着中年及以上的上网习惯。本实施例中，针对新浪微博用户爬取微博信息。

具体操作为：(1)首先根据既有的用户信息表筛选出用户信息表中符合各年龄段的用户。该用户信息表是由北京理工大学网络搜索挖掘与安全实验室的张华平博士网上分享的微博用户语料库中的用户信息，筛选出的用户基本资料中有出生年月日的用户而产生的。在这一步初步去除各种企业号、广告号和空号。(2)其次，按照初步筛选出来的用户的id，使用手机版微博访问他们的用户主页，爬取最新50条微博的内容，包括文本和图片。由于0-17这一阶段的用户在用户信息表中的数量在经过筛选后过于稀少，我们选择爬取他们的前150 条微博内容，若该用户没有这么多内容则爬取其最大数量的微博内容(3)然后，对用户进行再一次筛选，在爬取下来的用户微博信息中，再次去除明显的虚假用户，保证信息的可靠性。

步骤2：对数据集进行预处理。

由于我们爬虫的时候是按照用户来进行存储的，不便于对数据进行批处理，因此需要编写python程序将相同年龄区间所有的图片重命名并放入到一个文件夹中，将相同年龄区间的所有用户文本放到一个文件夹中，以便后续模块进行训练。

对数据集中的图片，使用的方法是遍历对应年龄段下的所有用户存储的文件夹，将文件夹下的所有图片重命名时加上用户的id，最终得到的图片名形式为“xxxxxxxxxx-id.jpg”，使用shutil库将图片重命名并复制到指定文件夹下。文本则直接存放至指定文件夹下即可。

对数据集中的文本，直接保存在对应用户存储的文件夹下即可。

步骤3：文本数据预处理。对信息采集步骤中获取的数据集的文本部分内容，进行分词、过滤停用词的操作，再将分词结果向量化。

具体地说，(1)创建微博词语字典，在创建微博词语字典时采用最新的微博词语语料库，加入网上热词、新词，例如“十动然拒”、“人艰不拆”等词，并提供可随时更新语料库的接口，提高分词准确程度；(2)输入用户年龄及其微博文本内容，对微博文本内容采用jieba分词，该分词工具允许加入自定义词典，将(1)创建的词典中的词语添加到该分词工具的词典中；(3)把用户年龄所在年龄段作为微博文本内容的标签，并去掉换行符，过滤一些无用的停用词，包括一些常用的词语、没有单独意义的词语和一些标点符号，例如“我们”、“是”、“的”、“。”、“，”，但是保留“～”等组成表情符号的标点符号；(3)采用word2vec模型将微博文本内容分词得到的结果向量化，输出一个100维的词向量；(4)将分词结果向量转换成用张量表示的词向量。

步骤4：对微博文本内容搭建长短期记忆(LSTM，long-short term memory) 模型网络，即文本分类器。

因为长短期记忆模型能够分析和预测序列数据，适合处理自然语言，所以我们采用长短期记忆模型作为文本分类器，利用数据集中的文本部分信息进行文本分类器的搭建。输入微博文本内容经步骤3处理后获得的对应的词向量。

具体地说，长短期记忆模型的模块中包含四层交互神经网络层，第一层网络由遗忘门f_t的Sigmoid层实现，输入当前输入X_t和上一时刻t-1的隐藏状态 h_t-1(也是前一个细胞状态的输出)，它来决定是否保留上一个细胞状态中的信息，具体公式为f_t＝σ(W_f·[h_t-1,x_t]+b_f)，其中W_f是遗忘门的权重矩阵，b_f是遗忘门的偏置项；第二层由输入门i_t的Sigmoid层和tanh层实现，其中，Sigmoid层来决定需要更新哪些信息，公式为i_t＝σ(W_i·[h_t-1,x_t]+b_i)，其中W_i是输入门的权重矩阵， b_i是输入门的偏置项，tanh层生成一个新的向量，这个新向量是用来候选更新的，公式为其中W_c是输入门的权重矩阵，b_c是输入门的偏置项；第三层网络来对信息进行更新，丢弃不需要的信息，添加新的有用信息，根据第一层网络的结果与第二层网络的结果生成当前的细胞状态C_t，具体公式为其中i_t是输入门的Sigmoid层结果；第四层网络由输出门o_t的Sigmoid层和tanh层来实现，Sigmoid层处理当前输入X_t和上一时刻 t-1的隐藏状态h_t-1，公式为o_t＝σ(W_o·[h_t-1,x_t]+b_o)，其中W_o是输出门的权重矩阵， b_o是输出门的偏置项，tanh层处理细胞状态，把两部分结果相乘，确定输出的是当前细胞状态C_t的哪个部分，具体公式为h_t＝o_t*tanh(C_t)。

本发明所使用的基于长短期记忆网络的文本分类模型的基本过程为：首先输入步骤3生成的用张量表示的词向量；再将张量输入长短期记忆模型，使用“Sigmoid”作为其激活函数；接着，设置一个全连接层，在全连接层中对长短期记忆模型的最后一层的神经元全部连接，实现特征的非线性组合，使用“Tanh”作为其激活函数；再加入一个全连接层，使用“softmax”作为其激活函数，并输出softmax向量结果，最终得到的softmax向量为4维张量，每个维度表示其属于该年龄段的概率大小，取值在(0,1)区间；最后，在两个全连接层中应用 Dropout来防止数据过拟合，dropout比率选择0.2。

步骤5：文本分类器的训练。

使用文本训练数据集对搭建的模型进行训练，以“categorical_crossentropy”作为损失函数的类型指导模型进行训练，训练过程中设置批次大小为32次，设置轮次为100次；在训练过程中，模型采用Adam 算法自动修正参数，能基于训练数据迭代地更新神经网络权重；并且，对于按年龄段分类后的微博数据，进行十折交叉验证。

步骤6：图片数据预处理

对步骤2预处理后的按年龄段分类存放的图片数据集调用openCV的图片读取方法，遍历所有的图片信息，将无法读取的图片舍弃，将可以读取的图片转换成256*256像素的格式，并保留RGB三通道，使其适应最新png图片标准。

将分好类的文件利用python脚本，随机抽取10％的图片作为图片测试数据集，剩余90％作为图片训练数据集保存至对应分类的测试目录和训练目录下。

步骤7：对微博文本篇内容搭建LeNet模型网络，即图片分类器。

卷积神经网络在解决计算机视觉方面问题时，有仿造生物的视知觉构筑的特点，使用卷积核对图片操作后，将凸显图片中的轮廓特征，与生物获取视觉特征的过程有近似处。本发明所使用的图片分类器是一种基于卷积神经网络的图像分类模型。其基本过程为，首先将输入图片在输入层中转换为张量表示；其次将张量表示作为卷积层的输入，使用卷积核在张量上滑动；接着在池化层中进行特征选择和信息过滤；然后整个神经网络重复多个卷积层和池化层；最后，将最后一层池化层连接到全连接层中，输出softmax向量结果。最终得到的softmax向量为4维张量，每个维度表示其属于该年龄段的概率大小，取值在(0,1)区间。本实施例中，图片分类模型按如下方式使用keras内置顺序结构模式进行搭建。

首先，搭建卷积层作为目标图片分类器的第一层。将卷积核个数设置为20，使用5*5的卷积核，使用“same”模式作为滑动步长所使用的模式，使用“relu”模式作为激活函数，对输入的张量表示进行卷积操作。该层输入为模型的输入图像的张量表示，输出为第一次卷积的输出特征图的张量表示。

其次，搭建空间数据最大池化层作为目标图片分类器的第二层。使用(2， 2)元组作为规格参数，使用(2，2)元组作为步长参数，在输出特征图的张量上滑动，对于每个滑动矩形框的数取最大值作为输出。该层输入为特征图的张量表示，输出为新的特征图的张量表示。

然后，继续搭建卷积层作为目标图片分类器的第三层。将卷积核个数设置为50，使用5*5的卷积核，使用“same”模式作为滑动步长所使用的模式，使用“relu”模式作为激活函数，对输入的张量表示进行卷积操作。该层输入为特征图的张量表示，输出为新的特征图的张量表示。

进一步，继续搭建空间数据最大池化层作为目标图片分类器的第四层。使用(2，2)元组作为规格参数，使用(2，2)元组作为步长参数，在输出特征图的张量上滑动，对于每个滑动矩形框的数取最大值作为输出层。该层输入为特征图的张量表示，输出为新的特征图的张量表示。

接着，搭建展开层作为目标图片分类器的第五层。该层主要将空间数据特征展开表示，输入为特征图的张量表示，输出为特征图的一维展开向量表示。

再有，搭建全连接层作为目标图片分类器的第六层。使用“relu”作为按逐个元素计算的激活函数，对输入的向量的逐个元素进行激活。该层输入为特征图的一维展开向量表示，输出为新的特征图的一维展开向量表示。

最后，再搭建一个全连接层作为目标图片分类器的第七层。使用“softmax”作为按逐个元素计算的激活函数，对输入的向量的逐个元素逐个进行激活。该层输入为一维展开向量，输出为softmax向量，即本图片分类器所判断的、本图片分类器所接受的图片在各个目标分类标签上的归属的概率值，为4维张量，每个维度取值在(0,1)区间。

步骤8：图片分类器的训练和使用。

首先，将准备好的数据集文件顺序随机打乱。

其次，使用ImageDataGenerator类构造方法对图片数据集文件进行数据增强操作，并生成迭代器。该操作将旋转角度参数设置为30度，水平平移和垂直平移均平移0.1个单位，错切边换和放大变化均0.2个单位，允许随机水平翻转，允许放缩操作，并且仅能使用邻近填充。

然后，准备好的数据集文件用numpy数组存储图片每一个像素点的像素值，转为张量表示。针对同一图片文件格式内容，此操作将会把图片RGB三通道的数值、图片矩阵位点的信息全部转为规则化为0～255的浮点数值存储到张量表示中，并利用one-hot方法标注图片所属类别的标签。

接着，使用图片训练数据集，对搭建的图片分类器进行训练。此时使用的模型为步骤7搭建的图片分类器，输入为数据集中训练集的所有图片经过本步骤上述过程处理后的张量表示，输出为经由所构筑的图片分类器分类后、该次输入图片归属概率最高的分类标签。本步骤以“categorical_crossentropy”作为损失函数的类型指导模型进行训练。训练过程中将批次大小设置为数值32，轮次设置为数值1000，并将模型保存为h5格式。对比输出的分类标签和该图片对应的真实标签，若一致则为命中，若不一致则不命中。最后统计命中的图片占参与训练的总图片的比例，称为训练命中率。训练过程中，图片分类器将自动化地修正参数，使得训练命中率有递增趋势。

进一步，将保存好的模型予以调用，使用图片测试数据集对模型进行命中测试，筛选对测试集有最高命中率的模型。同样的，步骤7搭建的图片分类器，输入为数据集中测试集的所有图片经过上述过程处理后的张量表示，输出为经由所构筑的图片分类器分类后、该次输入图片归属概率最高的分类标签。对比输出的分类标签和该图片对应的真实标签，若一致则为命中，若不一致则不命中。最后统计命中的图片占参与训练的总图片的比例，称为测试命中率。若新批次训练的模型的测试命中率比之前任意批次模型的最高测试命中率高，则旧模型会被取代，拥有最高测试命中率的新批次的模型将会保留。多次训练迭代后，将仅保留拥有最高测试命中率的模型。

步骤9：结果整合，将训练好的文本分类器与图片分类器的输出记录到用户数据表中。用户数据表储存用户id。用户年龄区间、该用户的文本信息经由搭建的文本分类器处理后所获得的softmax结果(称为文本softmax结果)、该用户的图片信息经由搭建的图片分类器处理后所获得的softmax结果(称为图片 softmax结果)的数据。

将用户数据表的数据使用机器学习分类器(SVM分类器、朴素贝叶斯分类器、随机森林分类器、逻辑回归分类器)进行多分类问题处理。在训练过程中，输入为用户文本softmax结果与用户图片softmax结果的拼接向量，label为用户所处在的年龄段。在测试过程中，输入为用户文本softmax结果与用户图片 softmax结果的拼接向量，输出为该用户具体的所属年龄段分类，选择准确率最高的机器学习分类器。

步骤10：将待预测年龄段用户的微博信息通过步骤3处理后输入通过步骤 5训练好的文本分类器得到softmax输出，通过步骤6、7处理后输入通过步骤 8训练好的图片分类器得到softmax输出，然后将文本分类器的输出结果连接上图片分类器的输出结果输入步骤9得到的机器学习分类器进行分类得到用户所属年龄段预测结果。

至此，就完成了本方法的全部过程。

本发明的LSTM与LeNet融合的微博用户年龄预测方法中，最终的用户年龄分类准确率为95.33％；本发明使用单个LSTM的微博用户文本年龄预测方法的用户年龄分类准确率为71.06％；本发明使用单个LeNet的微博用户图片年龄预测方法的用户单个图片年龄分类准确率为38.72％；本发明使用单个LeNet的微博用户图片年龄预测方法的用户所有图片年龄分类准确率为87.66％。现有的基于朴素贝叶斯微博用户文本年龄预测方法的用户年龄分类准确率为66.33％；现有的基于随机森林微博用户文本年龄预测方法的用户年龄分类准确率为 49.00％；现有的基于逻辑回归微博用户文本年龄预测方法的用户年龄分类准确率为60.33％。

为了说明本发明的内容及实施方法，本说明书给出了上述具体实施例。但是，本领域技术人员应理解，本发明不局限于上述最佳实施方式，任何人在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是具有与本申请相同或相近似的技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于LSTM与LeNet融合的微博用户年龄预测方法，其特征在于：包括以下步骤：

步骤1，对用户动态微博信息按年龄段进行采集；

步骤2，对步骤1采集的微博信息进行预处理使相同年龄段的所有用户的文本放入一个文件夹中，相同年龄段的所有用户的图片放入一个文件夹中；

步骤3，对步骤2预处理后的微博文本数据进行分词、过滤停用词的操作，再将分词结果向量化为用张量表示的词向量；

步骤4，对微博文本内容搭建长短期记忆模型网络LSTM，即文本分类器；

步骤5，使用步骤3得到的词向量，对步骤4搭建的文本分类器进行训练；

步骤6，对步骤2预处理后的微博图片进行图像处理使其大小一致；

步骤7，搭建LeNet的图片分类器；

步骤8，使用步骤6处理后的图片数据，对步骤7搭建的图片分类器进行训练；

步骤9，对每个用户的微博信息，其中的文本数据通过步骤3处理后输入通过步骤5训练好的文本分类器得到softmax输出，图片数据通过步骤6、7处理后输入通过步骤8训练好的图片分类器得到softmax输出；然后将文本分类器的输出结果连接上图片分类器的输出结果作为机器学习分类器(SVM分类器、朴素贝叶斯分类器、随机森林分类器、逻辑回归分类器)的输入，用户年龄段作为标签，对机器学习分类器进行训练，选择准确率最高的机器学习分类器；

步骤10，将待预测年龄段用户的微博信息通过步骤3处理后输入通过步骤5训练好的文本分类器得到softmax输出，通过步骤6、7处理后输入通过步骤8训练好的图片分类器得到softmax输出，然后将文本分类器的输出结果连接上图片分类器的输出结果输入步骤9得到的机器学习分类器进行分类得到用户所属年龄段预测结果。

2.根据权利要求1所述的一种基于LSTM与LeNet融合的微博用户年龄预测方法，其特征在于：步骤1所述年龄段为“0-17”、“18-28”、“29-44”和“45+”四个年龄段，其中45+表示45岁以上；

所述采集通过以下过程进行：

首先筛选符合各年龄段的用户，在这一步初步去除各种企业号、广告号和空号；然后按照初步筛选出来的用户的id，使用手机版微博访问他们的用户主页，爬取前n条微博的内容，包括文本和图片，n为自然数；接下来对用户进行再一次筛选，在爬取下来的用户中，再次去除虚假用户，保证数据集的可靠性。

3.根据权利要求1所述的一种基于LSTM与LeNet融合的微博用户年龄预测方法，其特征在于：所述步骤3通过以下过程实现：

首先，创建微博词语字典，在创建微博词语字典时采用最新的微博词语语料库，并提供可随时更新语料库的接口，提高分词准确程度；然后，输入用户年龄及其微博内容，对微博内容采用jieba分词，把用户所在年龄段作为其标签，并过滤停用词；最后，采用Word2vec模型将分词得到的结果向量化；最后，再将分词结果向量转换成用张量表示的词向量。

4.根据权利要求1所述的一种基于LSTM与LeNet融合的微博用户年龄预测方法，其特征在于：所述步骤4通过以下过程实现：

首先输入步骤3生成的用张量表示的词向量；再将张量输入长短期记忆模型，使用“Sigmoid”作为其激活函数；接着，设置一个全连接层，在全连接层中对长短期记忆模型上一层的神经元全部连接，实现特征的非线性组合，使用“Tanh”作为其激活函数；再加入一个全连接层，使用“softmax”作为其激活函数，并输出softmax向量结果，最终得到的softmax向量为4维张量，每个维度表示其属于该年龄段的概率大小，取值在(0,1)区间；最后，在两个全连接层中应用Dropout来防止数据过拟合。

5.根据权利要求4所述的一种基于LSTM与LeNet融合的微博用户年龄预测方法，其特征在于：所述dropout比率为0.2。

6.根据权利要求1所述的一种基于LSTM与LeNet融合的微博用户年龄预测方法，其特征在于：所述步骤5训练文本分类器时采用Adam算法自动修正参数，基于训练数据迭代地更新神经网络权重；最后，对于按年龄段分类后的微博数据，进行十折交叉验证。

7.根据权利要求1所述的一种基于LSTM与LeNet融合的微博用户年龄预测方法，其特征在于：所述步骤6通过以下过程完成：对各年龄段的图片文件，调用openCV的图片读取方法，将可以读取的图片转换成256*256像素的格式，并保留RGB三通道，使其适应最新png图片标准；对于按年龄段分类后的图片数据，抽取10％作为测试数据集，剩余90％作为训练数据集。

8.根据权利要求1所述的一种基于LSTM与LeNet融合的微博用户年龄预测方法，其特征在于：所述步骤7通过以下过程完成：

首先将输入图像在输入层中转换为张量表示；其次将张量表示作为卷积层的输入，使用卷积核在张量上滑动；接着在池化层中进行特征选择和信息过滤；然后在整个神经网络中重复多个卷积层和池化层；最后，将最后一层池化层连接到全连接层中，输出softmax向量结果，最终得到的softmax向量为4维张量，每个维度表示其属于该年龄段的概率大小，取值在(0,1)区间。

9.根据权利要求1-8任一所述的一种基于LSTM与LeNet融合的微博用户年龄预测方法，其特征在于：在步骤8所述对步骤7搭建的图片分类器进行训练之前对所述图片数据进行数据增强操作。