CN111625718A

CN111625718A - 一种基于用户搜索关键词数据的用户画像构建方法

Info

Publication number: CN111625718A
Application number: CN202010427140.2A
Authority: CN
Inventors: 邱云飞; 王思瑶
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-09-04

Abstract

本发明公开了一种基于用户搜索关键词数据的用户画像构建方法，步骤为：在doc2vec训练搜索内容分词结果的同时，融合堆积模型的第二层对向量维度进行提高；在词频‑逆文档频率的基础上引入归一化方差的方法进行加权，并运用k‑means聚类算法以提高用户画像构件精度；使用stacking模型融合SVM分类算法对聚类结果进行最终的用户画像构建。本发明在支持向量机分类的基础上，通过将doc2vec的文本向量处理和改进后的TF‑IDF权重计算的结合，对搜狗用户搜索数据进行stacking建模。在权重处理基础上，引入k‑means聚类算法，使关键词分类更加快速便捷，在内容准确度上更加精确，以实现较为理想的用户画像构建方法。

Description

一种基于用户搜索关键词数据的用户画像构建方法

技术领域

本发明属于用户画像构建的技术领域，尤其涉及一种基于用户搜索关键词数据的用户画像构建方法。

背景技术

近年来互联网的发展速度越来越快这给人们的生活提供了很大的方便，让人们可以通过互联网在生活和学习中得到日常所需的知识、数据以及多样化的服务。用户画像一般被应用到以下几类研究当中。用户研究，利用数据挖掘、关联分析、推荐系统等技术分析用户商品之间的关联度，比如平常喜欢化妆的人都喜欢什么香水品牌；精准营销，利用用户行为数据分析用户画像，并根据分析出的用户画像对特定的用户群体进行短信、微信、APP、广告推送等精准的营销方式以达到提高产品服务效率的作用；用户统计，比如中国青少年最喜欢的服装品牌top20，全国各个城市病毒感染的人数分布；个性服务，个性化推荐，使用户可以得到私人定制版的服务内容或商品定制，对有特征性的一个工作群体或者范围性的社区和个人提供针对性的服务。

用户画像的应用方面，近几年，国内外学者渐渐将研究方向转移到了个性化推荐和用户画像提取的相关工作上。单晓红(单晓红，张晓月，刘晓燕.基于在线评论的用户画像研究.情报理论与实践，2018，41(4):99-104，149.)等以携程酒店为例，利用在线评论数据构建用户画像概念模型对酒店用户特征进行刻画。郑宝鑫(郑宝鑫，周雪松，李斌，唐宇.基于用户画像、信令挖掘技术的手机游戏产品推广.广东通信2010青年论坛，2010，133-146)等通过对用户进行分类，然后针对不同的用户群体，对手机套餐进行分类，将用户画像应用到手机游戏领域，并进行有针对性的营销推广。陈慧香(陈慧香邵波.国外图书馆领域用户画像的研究现状及启示.图书馆学研究，2017，(20)，16-20)等利用用户画像帮助图书馆员更好的了解用户，为用户提供了精准推荐。刘速(刘速.浅议数字图书馆知识发现系统中的用户画像——以天津图书馆为例.图书馆理论与实践，2017，(06)，103-106)以天津图书馆为例，将用户画像模型应用到了图书馆的知识发现系统中，解决了用户快速查找书籍的问题。赵刚(赵刚姚兴仁.基于用户画像的异常行为检测模型.信息网络安全，2017，(07)，18-24)将用户画像应用到入侵检测模型中，通过实验结果证明，引入用户画像后的方法能够提高整个模型的评价效果。W.X.Zhao等根据用户在微博上发布的内容，检测的用户的购买需求或情感意向，分别构建了社交媒体和网络电商平台的用户画像，并将两种画像整合到一起以实现对用户的推荐服务。

要对数据进行生成用户画像，那么在短文本处理的步骤必不可少，Mikolov提出了Doc2vec文档向量，他可以获得句子或文档的向量表示，是word2vec的扩展。施维(施维王兴华万巍薛均潘璀然程显毅董建成王理.基于竞争学习的大规模微博文本聚类.江苏科技大学学报(自然科学版)，2017，(06)，768-773)等基于深度学习的文本特征表示方法，对特定主题的微博文本进行聚类，并运用分布式计算平台提高了就算的效率。甘如饴等利用Doc2vec模型提取文本特征向量，选择支持向量机作为分类器，研究和设计了舆情情感分析系统，并取得了不错的效果。潘博等用文本深度表示Doc2vec模型，计算文本的特征向量，证明了该方法能更深入地表示出文本的语义特征，最终将其应用到了薪水预测中。冯勇(冯勇屈渤浩徐红艳王嵘冰张永刚.融合TF-IDF和LDA的中文FastText短文本分类方法.应用科学学报，2019，(03)，378-388)等在FastText文本分类模型的输入阶段，先用TF-IDF对n元语法模型处理后的词典进行筛选，随后使用LDA模型进行语料库主题分析，使其更适用于短文本的分类环境当中。

构建用户画像多采用统计、贝叶斯网络、神经网络、主题模型、聚类分析等方法。Haibo Ding等人结合多种外部字典对词语进行分类标注，基于人类需求类别对人类情感进行分类(Haibo Ding，Ellen Riloff.Human Needs Categorization of Affective EventsUsing Labeled and Unlabeled Data/Proceedings of Conference of the NorthAmerican Chapter of the Association for Computational Linguistics:HumanLanguage Technologies(NAACL HLT)，2018.)。许甜华(许甜华吴明礼.一种基于TF-IDF的朴素贝叶斯算法改进.计算机技术与发展，2020，(02))等基于TF-IDF-DL的朴素贝叶斯改进算法，从特征词词频以及特征词位置与类别之间的关系出发从而得到真实、准确的标签对用户的影响力大小。崔亚奇(崔亚奇.客户画像体系的统计方法应用研究--以X银行客户管理为例.兰州财经大学.2019)等采用主成分降维和不平衡样本的人造合成法对数据进行预处理，然后运用SOM聚类和基于决策树、KNN算法和SVM算法的组合预测模型建立了客户细分画像和客户流失画像。

发明内容

基于以上现有技术的不足，本发明所解决的技术问题在于提供一种基于用户搜索关键词数据的用户画像构建方法，在内容准确度上更加精确，以实现较为理想的用户画像构建。

为了解决上述技术问题，本发明通过以下技术方案来实现：

本发明提供一种基于用户搜索关键词数据的用户画像构建方法，包括以下步骤：

步骤1：在doc2vec训练搜索内容分词结果的同时，融合堆积模型的第二层对向量维度进行提高；

步骤2：在词频-逆文档频率的基础上引入归一化方差的方法进行加权，并运用k-means聚类算法以提高用户画像构件精度；

步骤3：使用stacking模型融合SVM分类算法对聚类结果进行最终的用户画像构建。

优选的，步骤2中的k-means聚类算法的步骤如下：

S21、随机选择k个聚类中心；

S22、计算每个聚类中心与数据点之间的距离，离哪个质心近，就划分到那个质心所属的集合；

S23、将数据点分配给距群集中心的距离最小的群集；

S24、重新计算聚类中心；

S25、重新计算距离；

S26、如果没有新的分配，则停止，否则从步骤S23开始重复。

进一步的，步骤1中的融合堆积模型的第二层放入一个svm分类器，利用融合堆积模型第一层产生的T组与原数据集规模相同且维度为1的结果，将这T组结果拼在一起可组成新的数据集，用以构成SVM的输入数据，再利用SVM中的SVC算法对这些数据进行具体分类。

由上，本发明的基于用户搜索关键词数据的用户画像构建方法在支持向量机分类的基础上，通过将doc2vec的文本向量处理和改进后的TF-IDF权重计算的结合，对搜狗用户搜索数据进行stacking建模。在权重处理基础上，引入k-means聚类算法，使关键词分类更加快速便捷，在内容准确度上更加精确，以实现较为理想的用户画像构建方法。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下结合优选实施例，并配合附图，详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍。

图1为本发明的基于用户搜索关键词数据的用户画像构建方法的流程图；

图2为k-means聚类后部分数据分配情况图。

具体实施方式

下面结合附图详细说明本发明的具体实施方式，其作为本说明书的一部分，通过实施例来说明本发明的原理，本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中，不同的图中相同或相似的部件使用相同的附图标号来表示。

针对用户搜索关键词数据内容涉及范围广难以准确进行用户属性分析，词向量维度低，关键词在不同语料出现的次数多少不能完全代表其重要性的问题，本发明提出基于短文本搜索内容的用户画像构建方法。

首先对于词向量维度低的问题，在doc2vec训练搜索内容分词结果的同时，融合堆积模型(Stacking)的第二层对向量维度进行提高。其次针对关键词出现次数不能完全代表其重要性的问题，在词频-逆文档频率(Term Frequency-Inverse Document Frequency，TF-IDF)基础上引入归一化方差的方法进行加权，并运用k-means聚类算法以提高用户画像构件精度，随后使用stacking模型融合SVM分类算法对聚类结果进行最终的用户画像构建研究。最后本发明采用20W条搜狗用户搜索数据进行实例分析。实验结果表明，该方法的用户属性判断准确率提高了1.81％，时间上缩短了0.54h。进一步说明该方法的训练效果更优。

由于本发明的数据量过多，在doc2vec的300维度上会表现能力有限，本发明考虑到了stack模型可以在第一层选择几个不同的分类器，然后在第二层还可以根据具体问题添加特征的强大功能，将doc2vec产生后的词向量拼接到了stack模型的第二层中，让doc2vec的维度在经历stack模型第一层的运行后得到提升，如stack第一层有10个分类器，doc2vec的维度为K那么在doc2vec与stack第二层融合之后，doc2vec的维度就变成了K+10。这样一来就提高生成词向量的效率，确保能够更好地与改进的TF-IDF加权算法结合。具体融合效果见表1所示。

表1.doc2vec改进前后表达

K均值算法是数据挖掘中最流行的技术之一，该概念旨在将n个对象划分为K个簇，它基于对象之间的距离并进行搜索以将其最小化，从而确定每个对象属于每个群集。每个聚类都有一个质心，该质心由聚类对象的平均值计算得出。随后计算每个待分配对象与每个质心的距离，并将待分配对象分配给距离他最近的簇。质心以及属于他们的对象就形成了一个簇。没分配一次对象就会将簇的质心重新计算，得到一个新的质心。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。

k-means聚类算法的流程如下：

1)随机选择k个聚类中心。

2)计算每个聚类中心与数据点之间的距离，离哪个质心近，就划分到那个质心所属的集合。

3)将数据点分配给距群集中心的距离最小的群集。

4)重新计算聚类中心。

5)重新计算距离。

6)如果没有新的分配，则停止，否则从步骤3)开始重复。

具体对分词结果进行聚类算法过程详见算法1：

经典的Stacking框架分为2层，第一层含有T个分类器，产生T组与原数据集规模相同且维度为1的结果，将这T组结果拼在一起可组成新的数据集，用以构成第二层的输入。本发明的stacking第一层包含了25个分类器对于这25个分类器中的每一个分类器，本发明把训练数据分割为N份，利用其中的N-1份做训练，剩下的那一份做预测(类似N折交叉验证，这里N一般为5)，这样对训练集重复N次，就可以得到在一个分类器下对原始训练数据的一个完整预测结果(可以称为新表达)，于是一个分类器可以得到N*1的新表达，那么T个分类器就可以得到N*T的新表达，而这就是用于下一层的输入。需要注意的一点是：需要保证第二层的训练集与测试集具有相同的模式，因此对原始测试集的处理略有不同：第一层的每一个分类器的每折训练都要对整体原始测试集进行预测，于是一个分类器会得到N个测试集的预测结果，而本发明的目的是一个分类器获得一份测试集的预测结果，本发明采用的是对N个结果求平均的方法。而stacking的第二层本发明只放了一个svm分类器。利用stacking第一层产生的T组与原数据集规模相同且维度为1的结果，将这T组结果拼在一起可组成新的数据集，用以构成SVM的输入数据。再利用SVM中的SVC算法对这些数据进行具体分类。stacking框架强大的地方在于我们可以在第一层中选择许多不同的分类器，而且在第二层中还可以根据具体问题添加特征(doc2vec特征就是在这里融合的，使得doc2vec的维度提升到325维)

从2008年之后慢慢出现利用网络的搜索数据对用户进行行为的预测，目前行为预测普遍使用在用户购买力推测、衣食住行的选择喜好上，以便能让商家更好的对用户进行针对性服务。而搜索数据是指用户在上网浏览页面时在类似百度、搜狗、谷歌、360等浏览器上输入的数据，以通过这些输入数据来获得自己想要探寻的结果。随着时代的发展互联网用户慢慢觉得以往的搜索标准不再能够很好的为其服务，而是慢慢的开始希望互联网能够通过自身的性别、年龄、学历等信息提供更好的信息服务。本发明中所采用的数据来源于CCF竞赛平台，搜狗公司提供的用户搜索数据，其中用户的ID经过加密算法加密。其中每条数据包含用户的ID、Age(年龄)、Gender(性别)、Education(教育程度)。数据说明如表2。

表2.每个数字在相关类别中的数据说明

用户在网上探寻自己的未知领域时就会产生搜索数据，而搜索数据一般代表了用户的未知领域或者用户的需求领域。而百度等搜索企业不同于银行、电话运营商等企业可以直接获取到用户的信息，比如年龄、性别、教育信息等。但是这些属性却在很大程度上决定了该用户对搜索内容以及搜索企业的满意程度。所以搜索企业只能从用户的搜索数据中获取用户的个人属性信息，搜索企业通过用户的搜索数据，判断出用户的行为特点，从而进一步分析出用户的潜在需求，以达到更好为用户服务的目的。用户的搜索数据具有非结构化、长度短、样本特征稀疏、样本量大等特点，即具有短文本的特点，因此，在对用户搜索数据进行处理时，可以借鉴短文分析的处理思路。

停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的。

因为该数据集为搜狗提供的用户搜索数据，所以一般为一句话或者一段话。这时分词就显得极为重要。在样本分词过程中，本发明对比了JIEBA、THULC、NLPIR三种分词工具，分词结果如表所示，以“百合网首页”和“周公解梦大全查询”为例进行评估，评估效果如表3、表4所示。

表3.JIEBA、THULC、NLPIR三种分词工具对同样两句话的分词结果

表4.JIEBA、THULC、NLPIR三种分词工具在三种属性上的准确率对比

中文中停用词一般为冠词、介词、助词、连词等。这些在连接中文语义中有着至关重要的地位，所以他们经常出现在人们日常使用的每一句话中，然而这些词由于只包含少量的分类信息所以对分类效果没有太大的作用。储存他们只会对内存造成不必要的浪费，所以这类词汇也作为了JIEBA分词中重点被删除的一部分。JIEBA分词效果符合基本预期。整理后的原始搜索数据与JIEBA分词工具的分词后效果见表5所示。

表5.用户搜索词和对应jieba分词后的效果

本发明在改进的权重算法S-TFIWF基础上引入了k-means聚类算法，目的让大批量的数据在经历过数据预处理之后先进性聚类将相似的词语放在一起，之后再通过SVM分类算法对聚类后的k组数据进行分类。以求提高准确度和节省时间的双重提高。两种词向量的构建结果在精度和时间上的对比见表6所示。

表6.两种词向量的精度时间对比

在词向量生成后，使用k-means聚类算法将类似的词归为一簇，压缩待分配的数据个数，聚类后生成簇内数据如图2所示。

结合三种改进算法后，实验的精度和时间都有所提升。具体的提升程度见表7所示。

表7.实验结果精度时间提升对比

经过实验结果可以看出，在文件的数据预处理方面，doc2vec比word2vec在精度和时间上都有很大的提高，另外，在使用分类聚类算法问题上，svm被广泛使用，而对比来看doc2vec明显比word2vec与svm更为贴合，而在分类算法一致的前提下，本发明加入k-menas聚类算法、doc2vec以及改进后的权重算法S-TFIWF使得实验数据的精度提高了1.81％，时间缩短了0.54h。本发明统计了10w条实验数据的统计结果，对比原始数据中带标签的10w条用户的基本属性情况，两者用户属性基本一致，说明了该实验数据的有效性和科学性。

本发明根据现实网络中用户之间的复杂关系，采用doc2vec的方法对网络用户进行空间向量表示，将doc2vec、S-TFIWF、k-means、svm四个算法结合完成了特征模型的构建工作。为了实现提高精确度和缩短时间的目的，本发明选取了三种分词算法进行对比，结果表明jieba分词在性别，年龄，学历等三个方向上的综合精度更为准确。在进行svm分类算法之前，本发明还引入了k-means的聚类算法，目的在于将S-TFIWF算出来的权重在进行分类之前优先进行聚类，将相似的文本关键词优先分为一组，该算法有效的将10W条数据成功的分为了25组，随后在使用svm算法对聚类后的数据进行分类，以提高分类结果的精度问题。实验分析表明，用户画像对产品推荐，行为预测，购买倾向，喜好推测，个性化服务等都有重大的实用意义。

以上所述是本发明的优选实施方式而已，当然不能以此来限定本发明之权利范围，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和变动，这些改进和变动也视为本发明的保护范围。

Claims

1.一种基于用户搜索关键词数据的用户画像构建方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于用户搜索关键词数据的用户画像构建方法，其特征在于，步骤2中的k-means聚类算法的步骤如下：

S21、随机选择k个聚类中心；

S23、将数据点分配给距群集中心的距离最小的群集；

S24、重新计算聚类中心；

S25、重新计算距离；

S26、如果没有新的分配，则停止，否则从步骤S23开始重复。

3.如权利要求1所述的基于用户搜索关键词数据的用户画像构建方法，其特征在于，步骤1中的融合堆积模型的第二层放入一个svm分类器，利用融合堆积模型第一层产生的T组与原数据集规模相同且维度为1的结果，将这T组结果拼在一起可组成新的数据集，用以构成SVM的输入数据，再利用SVM中的SVC算法对这些数据进行具体分类。