CN107633036A

CN107633036A - 一种微博用户画像方法、电子设备、存储介质、系统

Info

Publication number: CN107633036A
Application number: CN201710807779.1A
Authority: CN
Inventors: 蔡毅
Original assignee: Guangzhou Wangwang Information Technology Co Ltd
Current assignee: Guangzhou Wangwang Information Technology Co Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2018-01-26

Abstract

本发明公开了一种微博用户画像方法，该方法包括：获取用户基础数据；将用户基础数据进行数据处理；对已处理过的用户基础数据进行标注处理；创建强分类器，将标注后的用户基础数据作为强分类器的输入进行训练生成分类模型；将待判定用户数据输入到分类模型中，得到用户画像。本申请中的一种微博用户画像方法，通过获取用户基础数据，对用户基础数据进行标注处理，将SVM分类器、K‑NN分类器以及GBDT分类器进行融合生成强分类器，将标注后的用户基础数据放入强分类器进行训练，得到分类模型，将待判定的用户数据输入到分类模型中，得到更加精准的用户画像，减少了用户画像的偏差。

Description

一种微博用户画像方法、电子设备、存储介质、系统

技术领域

本发明涉及数据处理分析领域，尤其涉及一种微博用户画像方法电子设备、存储介质、系统。

背景技术

微博平台是人们记录日常生活，表达情感和观点的重要平台，基于情感分类技术对微博用户进行用户画像具有很大的意义，例如分析用户对一种商品的情感，可以辅助该商品营销方案的制定。情感分类问题本质上是一个分类问题，通过标记好的训练数据训练分类器，得到评估模型。情感分类问题本质上是一个分类问题，但传统的文本分类问题是根据文本的话题进行分类，例如判断一篇文档是关于政治的还是关于体育的，而文本情感分类是对文本表达的情感进行极性的判断，例如判断一条电影评论表达的观点是积极的还是消极的。相对于传统的基于主题的分类，情感分类更具挑战性的一个方面表现在主题可以单独根据关键词来进行判别，例如，例如一篇文档出现了“足球”、“进球”等词语，则有很大的可能是属于体育类的。而情感的表达方式更微妙，例如，“这场电影大家怎么能够坚持坐着看完的？”这个句子没有包含一个明显具有消极情感倾向的词语，但整个句子表达的是情感倾向是消极的。可见，情感分类对于通常的基于话题的分类需要更深层次的理解。微博文本与普通文本具有很多的区别，例如微博数据集主题不统一、微博用语不规范、微博文本形式复杂，噪音多。目前的对于微博的情感分类只是简单的基于话题的分类，因此目前得到的用户画像不够准确，具有很大偏差。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种微博用户画像方法，其能解决目前得到的用户画像不够准确，具有很大偏差的问题。

本发明的目的之二在于提供一种电子设备，其能解决目前得到的用户画像不够准确，具有很大偏差的问题。

本发明的目的之三在于提供一种计算机可读存储介质，其能解决目前得到的用户画像不够准确，具有很大偏差的问题。

本发明的目的之四在于提供一种微博用户画像系统，其能解决目前得到的用户画像不够准确，具有很大偏差的问题。

本发明的目的之一采用以下技术方案实现：

一种微博用户画像方法，该方法包括：

数据获取，获取微博平台上的用户基础数据；

标注数据，对所述用户基础数据进行标注处理，得到标注用户基础数据；

生成分类模型，创建强分类器，所述强分类器用于训练所述用户基础数据；将所述标注用户基础数据作为所述强分类器的输入进行训练生成分类模型；

生成用户画像，将待判定用户数据输入到所述分类模型中，得到用户画像。

进一步地，还包括数据处理，将所述用户基础数据进行数据清理、预处理以及特征选择，所述数据清理包括对所述用户基础数据进行去噪处理；所述预处理包括对所述用户基础数据进行分词处理、取出停止词处理、向量化处理；所述特征选择包括使用信息增益的特征选择方法选择所述用户基础数据中特征用于控制特征空间的维度。

进一步地，在所述将待判定用户数据输入到所述分类模型中之前，还包括验证所述分类模型，输入用于验证的验证数据至所述分类模型，得到验证结果，并对所述验证结果进行评估。

进一步地，所述创建强分类器具体为：

根据Bagging算法、Stacking算法对SVM分类器、K-NN分类器以及GBDT分类器进行融合，得Bagging算法融合模型和Stacking算法融合模型；

根据Boosting算法将所述Bagging算法融合模型和所述Stacking算法融合模型融为一体，得到强分类器。

进一步地，所述根据Bagging算法对所述SVM分类器、K-NN分类器以及GBDT分类器进行融合具体为：在原始训练集中每次有放回地选出子训练集，得到新训练集，根据所述SVM分类器、K-NN分类器以及GBDT分类器分别对所述新训练集进行训练，得到Bagging算法融合模型。

进一步地，所述根据Stacking算法对所述SVM分类器、K-NN分类器以及GBDT分类器进行融合具体为：分别将原始训练集输入到所述SVM分类器、K-NN分类器以及GBDT分类器中进行训练，得到训练结果，将所述训练结果输入到所述SVM分类器中，得到Stacking算法融合模型。

进一步地，所述根据Boosting算法将所述Bagging算法融合模型和所述Stacking算法融合模型融为一体具体为通过将所述Bagging算法融合模型和所述Stacking算法融合模型迭代产生新的强分类器。

本发明的目的之二采用以下技术方案实现：

一种电子设备，该设备包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行本申请中的一种微博用户画像方法。

本发明的目的之三采用以下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行本申请中的一种微博用户画像方法。

本发明的目的之四采用以下技术方案实现：

数据获取模块：用于获取微博平台上的用户基础数据；

标注数据模块：用于对所述已处理用户数据进行标注处理，得到标注用户基础数据；

分类模型生成模块：创建强分类器，所述强分类器用于训练所述用户基础数据；将所述标注用户基础数据作为所述强分类器的输入进行训练生成分类模型；

用户画像生成模块：用于将待判定用户数据输入到所述分类模型生成模块中的所述分类模型中，得到用户画像；

数据处理模块，所述数据处理模块用于将所述用户基础数据进行数据清理、预处理以及特征选择；所述数据处理模块包括数据清理单元、预处理单元以及特征选择单元，所述数据清理单元用于将所述用户基础数据进行去噪处理，所述预处理单元用于将所述用户基础数据进行分词处理、取出停止词处理、向量化处理，所述特征选取单元用于使用信息增益的特征选择方法选择所述用户基础数据中特征用于控制特征空间的维度。

验证模块，所述验证模块用于验证所述分类模型，输入用于验证的验证数据至所述分类模型，得到验证结果，并对所述验证结果进行评估。

相比现有技术，本发明的有益效果在于：本申请中的一种微博用户画像方法，通过获取微博平台上的用户基础数据，并对用户基础数据进行标注处理，得到标注用户基础数据，将SVM分类器、K-NN分类器以及GBDT分类器进行融合生成强分类器，并将标注用户基础数据作为强分类器的输入进行训练，得到分类模型，将待判定的用户数据输入到分类模型中，得到更加精准的用户画像，减少了用户画像的偏差。

附图说明

图1为本发明中一种微博用户画像方法的流程图；

图2为本发明中一种微博用户画像系统的模块框图；

图3为本发明中一种微博用户画像方法中的Bagging算法融合过程示意图；

图4为本发明中一种微博用户画像方法中的Stacking算法融合过程示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例：

如图1所示的一种微博用户画像方法，该方法包括以下步骤：

步骤S10：数据获取，获取微博平台上的用户基础数据；使用网络爬虫工具抓取微博平台上的网页，再根据提取算法将抓取的网页中的用户基础数据信息提取出来，从而获取微博平台上的用户基础数据。

步骤S20：数据处理，将用户基础数据进行数据清理、预处理以及特征选择。对用户基础数据进行数据清理处理，因为用户基础数据存在噪音，数据处理包括对用户基础数据进行去噪处理，提升用户基础数据的质量；进而继续对用户基础数据进行预处理，预处理具体包括对用户基础数据进行分词处理、取出停止词处理、向量化处理，经过预处理的用户基础数据中的文本被转化为分类器输入的向量表示，最后对用户基础数据进行特征处理，预处理包括使用基于卡方验证或信息增益等特征选择方法选择用户基础数据中重要的特征，控制特征空间的维度，避免维度灾难。

步骤S30：标注数据，对用户基础数据进行标注处理，得到标注用户基础数据；此处即可直接对用户基础数据进行标注处理，也可对经过数据清理、预处理以及特征选择处理后的用户基础数据进行标记，本申请中是对经过步骤S20中数据处理过的用户基础数据进行标注；将用户基础数据标注为积极情感数据和消极情感数据，本申请中使用基于表情符号和关键词的远程监督方法来自动标注数据，以人工标记作为辅助，减少了人力成本。

步骤S40：创建强分类器，强分类器用于训练用户基础数据，对SVM分类器、k-NN分类器以及GBDT分类器进行融合生成强分类器，强分类器用于训练用户基础数据。具体为：

根据Bagging算法对SVM分类器、k-NN分类器以及GBDT分类器进行融合，得到Bagging算法融合模型；即在原始训练集中每次有放回地随机抽样的选出子训练集，将子训练集作为新训练集，根据SVM分类器、k-NN分类器以及GBDT分类器分别对新训练集进行训练，得到Bagging算法融合模型。如图3所示，Bagging算法为将原始训练集有放回的随机抽样的选出子训练集1、子训练集2、子训练集3、……、子训练集m，将上述子训练集再次作为新的训练集，在将新训练集输入到分类器1、分类器2、分类器3、……、分类器m中训练，最后得到汇集结果，图1中的分类器1、分类器2、等即代表本申请中SVM分类器、k-NN分类器以及GBDT分类器，最终得到Bagging算法融合模型；

根据Stacking算法对SVM分类器、k-NN分类器以及GBDT分类器进行融合，得到Stacking算法融合模型，分别将原始训练集输入到SVM分类器、K-NN分类器以及GBDT分类器中进行训练，得到训练结果，将训练结果输入到SVM分类器中，得到Stacking算法融合模型。如图4所示，Stacking算法融合过程为将原始训练集分别输入SVM分类器、K-NN分类器以及GBDT分类器中进行训练，将训练得到的训练结果输出，并将输出值作为输入值再次输入到SVM分类器进行训练，得到Stacking算法融合模型；

通过将Bagging算法融合模型和Stacking算法融合模型迭代产生新的强分类器，每次迭代更新样本权重，增大错误分类的数据权重并降低正确分类的数据权重。

步骤S50：将标注用户基础数据作为强分类器的输入进行训练生成分类模型。

步骤S60：验证分类模型，输入用于验证的验证数据至分类模型，得到验证结果，根据验证结果验证分类模型的准确性；使用步骤S50得到的分类模型对验证数据进行分类，验证数据为收集到的用于验证模型的数据，得到验证结果后，对验证结果评估，通过分析该模型的准确性、偏差/方差情况、学习曲线等数据，判断是否有过拟合等情况，进行如调节参数、更改算法、调整训练数据等操作，再次训练并优化模型。

步骤S70：生成用户画像，将待判定用户数据输入到分类模型中，得到用户画像；将待判定的用户数据输入到分类模型中，得到用户化像。

本申请中还包括一种电子设备，该设备包括：处理器；

存储器；以及程序，其中程序被存储在存储器中，并且被配置成由处理器执行，程序包括用于执行本申请中的一种微博用户画像方法。

本申请中还包括一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行本申请中的一种微博用户画像方法。

如图2所示为本申请的一种微博用户画像系统，该系统包括：数据获取模块：用于获取微博平台上的用户基础数据；标注数据模块：用于对用户基础数据进行标注处理，得到标注用户基础数据；分类模型生成模块：创建强分类器，强分类器用于训练用户基础数据；将标注用户基础数据作为强分类器的输入进行训练生成分类模型；用户画像生成模块：用于将待判定用户数据输入到分类模型生成模块中的分类模型中，得到用户画像。

还包括数据处理模块，数据处理模块用于将用户基础数据进行数据清理、预处理以及特征选择；数据处理模块包括数据清理单元、预处理单元以及特征选择单元，数据清理单元用于将用户基础数据进行去噪处理，预处理单元用于将用户基础数据进行分词处理、取出停止词处理、向量化处理，特征选取单元用于使用信息增益的特征选择方法选择用户基础数据中特征用于控制特征空间的维度。

还包括验证模块，验证模块用于验证分类模型，输入用于验证的验证数据至分类模型得到验证结果，并对验证结果进行评估。

本申请中的一种微博用户画像方法，通过获取微博平台上的用户基础数据，并对用户基础数据进行数据处理、预处理以及特征提取得到已经经过数据处理过的用户基础数据，继续对已经处理过的用户基础数据进行标注处理，得到标注用户基础数据，将SVM分类器、K-NN分类器以及GBDT分类器进行融合生成强分类器，并将标注用户基础数据作为强分类器的输入进行训练，得到分类模型，将待判定的用户数据输入到分类模型中，得到更加精准的用户画像，减少了用户画像的偏差。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种微博用户画像方法，其特征在于包括：

数据获取，获取微博平台上的用户基础数据；

生成分类模型，创建强分类器，所述强分类器用于训练所述用户基础数据，将所述标注用户基础数据作为所述强分类器的输入进行训练生成分类模型；

2.根据权利要求1所述的一种微博用户画像方法，其特征在于：还包括数据处理，将所述用户基础数据进行数据清理、预处理以及特征选择，所述数据清理包括对所述用户基础数据进行去噪处理；所述预处理包括对所述用户基础数据进行分词处理、取出停止词处理、向量化处理；所述特征选择包括使用信息增益的特征选择方法选择所述用户基础数据中特征用于控制特征空间的维度。

3.根据权利要求1所述的一种微博用户画像方法，其特征在于：在所述将待判定用户数据输入到所述分类模型中之前，还包括验证所述分类模型，输入用于验证的验证数据至所述分类模型，得到验证结果，并对所述验证结果进行评估。

4.根据权利要求1所述的一种微博用户画像方法，其特征在于：所述创建强分类器具体为：

5.根据权利要求4所述的一种微博用户画像方法，其特征在于：所述根据Bagging算法对所述SVM分类器、K-NN分类器以及GBDT分类器进行融合具体为：在原始训练集中每次有放回地选出子训练集，得到新训练集，根据所述SVM分类器、K-NN分类器以及GBDT分类器分别对所述新训练集进行训练，得到Bagging算法融合模型。

6.根据权利要求4所述的一种微博用户画像方法，其特征在于：所述根据Stacking算法对所述SVM分类器、K-NN分类器以及GBDT分类器进行融合具体为：分别将原始训练集输入到所述SVM分类器、K-NN分类器以及GBDT分类器中进行训练，得到训练结果，将所述训练结果输入到所述SVM分类器中，得到Stacking算法融合模型。

7.根据权利要求4所述的一种微博用户画像方法，其特征在于：所述根据Boosting算法将所述Bagging算法融合模型和所述Stacking算法融合模型融为一体具体为通过将所述Bagging算法融合模型和所述Stacking算法融合模型迭代产生新的强分类器。

8.一种电子设备，其特征在于包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行权利要求1-7任意一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行如权利要求1-7任意一项所述的方法。

10.一种微博用户画像系统，其特征在于包括：

数据获取模块：用于获取微博平台上的用户基础数据；

标注数据模块：用于对所述用户基础数据进行标注处理，得到标注用户基础数据；

数据处理模块，所述数据处理模块用于将所述用户基础数据进行数据清理、预处理以及特征选择；所述数据处理模块包括数据清理单元、预处理单元以及特征选择单元，所述数据清理单元用于将所述用户基础数据进行去噪处理，所述预处理单元用于将所述用户基础数据进行分词处理、取出停止词处理、向量化处理，所述特征选取单元用于使用信息增益的特征选择方法选择所述用户基础数据中特征用于控制特征空间的维度；