CN113297482A

CN113297482A - 基于多模型的搜索引擎数据的用户画像刻画方法及系统

Info

Publication number: CN113297482A
Application number: CN202110530160.7A
Authority: CN
Inventors: 何泾沙; 陈燕博; 朱娜斐; 魏巍; 于聪; 洪睿
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-08-24
Anticipated expiration: 2041-05-14
Also published as: CN113297482B

Abstract

本发明公开了一种基于多模型的搜索引擎数据的用户画像刻画方法及系统，方法包括：采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练，并对比不同组合的训练结果，确定针对不同属性分类的最佳模型组合；获取所要刻画画像用户的搜索引擎数据，并通过自然语言处理技术进行特征提取及文本表示；将搜索引擎数据分别输入针对不同属性分类的最佳模型组合；将针对不同属性分类的预测结果作为二阶XGBOOST模型的输入，通过网格搜索方法确定最优参数组合，作为对所要刻画用户的画像。通过本发明的技术方案，合理且高效地挖掘搜索引擎数据中的用户数据，精准地对用户在不同属性分类上实现画像刻画，提高了用户画像刻画的准确率。

Description

基于多模型的搜索引擎数据的用户画像刻画方法及系统

技术领域

本发明涉及用户画像刻画技术领域，尤其涉及一种基于多模型的搜索引擎数据的用户画像刻画方法和一种基于多模型的搜索引擎数据的用户画像刻画系统。

背景技术

目前，随着信息量呈指数增长，用户可以获得的信息越来越多。“信息超载”越来越严重。我们面对这巨大的数据，怎么才能找到自己需要的，自己感兴趣的数据成为一件急需解决的问题。即我们需要更多的个性化的推荐方法。

但是个性化推荐的基础便是这个人的属性兴趣等等基本了解，这就是用户画像。用户画像是基于某些用户信息(例如人口属性，点击行为，消费行为等等)的带标签的用户模型或者用户信息，从而帮助我们快速了解和理解用户并帮助我们对用户进行分类，从而实现用户的个性化。作为个性化推荐系统的基础，用户画像已经成为大数据的流行应用。

随着用户画像的不断发展，不管是在工业还是现在正当流行的网络购物方面，都起着很大的推动作用，随着用户画像的刻画越来越精准，人物的各种属性、兴趣、喜好等也会越来清晰，对于用户的相关的推荐也会越来越精准，以此便会提高用户的体验感甚至是粘合度，甚至非常有可能会开启一个新的领域。

但是，现有的文本属性特征提取技术效率较低，单一模型的容错率较高，搜索引擎数据中的数据种类繁多、数据量大、无用数据较多，干扰性较强，使得刻画得到用户画像准确率较低。

发明内容

针对上述问题，本发明提供了一种基于多模型的搜索引擎数据的用户画像刻画方法及系统，通过多个模型分别对搜索引擎数据进行不同属性分类的特征提取，并将不同属性分类下的结果相融合作为二阶XGBOOST模型的输入，最终得到所要刻画用户的用户画像，从不同属性分类上将无用数据进行筛除，解决了数据的高消耗性和低效性问题，合理且高效地挖掘搜索引擎数据中的用户数据，精准地对用户在不同属性分类上实现画像刻画，提高了用户画像刻画的准确率。

为实现上述目的，本发明提供了一种基于多模型的搜索引擎数据的用户画像刻画方法，包括：采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练，并对比不同组合的训练结果，确定针对不同属性分类的最佳模型组合；获取所要刻画画像用户的搜索引擎数据，并通过自然语言处理技术进行特征提取及文本表示；将特征提取及文本表示后的所述搜索引擎数据分别输入针对不同属性分类的最佳模型组合；将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入，通过网格搜索方法确定最优参数组合，作为对所要刻画用户的画像。

在上述技术方案中，优选地，所述采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练，并对比不同组合的训练结果，确定针对不同属性分类的最佳模型组合的具体过程包括：获取搜索引擎历史数据集，利用停用词对所述搜索引擎历史数据集进行数据预处理；对所述搜索引擎历史数据集添加基于真实属性分类的标签标注；通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示；将所述搜索引擎历史数据集划分为训练集和测试集，并根据标注的标签基于机器学习分类器和深度学习模型进行训练；对比不同模型组合的训练结果，分别针对不同属性分类确定相应的最佳模型组合。

在上述技术方案中，优选地，所述搜索引擎数据的不同属性分类包括性别属性、年龄属性和教育属性，针对性别属性分类的最佳模型组合为TF-IDF+SVM分类器，针对年龄属性的最佳模型组合为DM+BPNN分类器，针对教育属性的最佳模型组合为DBOW+BPNN分类器。

在上述技术方案中，优选地，所述自然语言处理技术包括基于TF-IDF的词向量模型、基于Doc2Vec的词向量模型和基于Word2Vec的词向量模型，通过所述自然语言处理技术将所述搜索引擎数据进行向量化表示。

在上述技术方案中，优选地，所述通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示具体包括：将所述搜索引擎历史数据集进行数据切分；通过自然语言处理技术分别将低于不同属性分类相关度的分词进行过滤；将过滤后的数据进行重新拼接，作为处理后的数据集。

本发明还提出一种基于多模型的搜索引擎数据的用户画像刻画系统，包括：模型训练模块，用于采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练，并对比不同组合的训练结果，确定针对不同属性分类的最佳模型组合；数据处理模块，用于获取所要刻画画像用户的搜索引擎数据，并通过自然语言处理技术进行特征提取及文本表示；一阶预测模块，用于将特征提取及文本表示后的所述搜索引擎数据分别输入针对不同属性分类的最佳模型组合；二阶预测模块，用于将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入，通过网格搜索方法确定最优参数组合，作为对所要刻画用户的画像。

在上述技术方案中，优选地，所述模型训练模块具体用于：获取搜索引擎历史数据集，利用停用词对所述搜索引擎历史数据集进行数据预处理；对所述搜索引擎历史数据集添加基于真实属性分类的标签标注；通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示；将所述搜索引擎历史数据集划分为训练集和测试集，并根据标注的标签基于机器学习分类器和深度学习模型进行训练；对比不同模型组合的训练结果，分别针对不同属性分类确定相应的最佳模型组合。

在上述技术方案中，优选地，所述模型训练模块通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示具体包括：将所述搜索引擎历史数据集进行数据切分；通过自然语言处理技术分别将低于不同属性分类相关度的分词进行过滤；将过滤后的数据进行重新拼接，作为处理后的数据集。

与现有技术相比，本发明的有益效果为：通过多个模型分别对搜索引擎数据进行不同属性分类的特征提取，并将不同属性分类下的结果相融合作为二阶XGBOOST模型的输入，最终得到所要刻画用户的用户画像，从不同属性分类上将无用数据进行筛除，解决了数据的高消耗性和低效性问题，合理且高效地挖掘搜索引擎数据中的用户数据，精准地对用户在不同属性分类上实现画像刻画，提高了用户画像刻画的准确率。

附图说明

图1为本发明一种实施例公开的基于多模型的搜索引擎数据的用户画像刻画方法的流程示意图；

图2为本发明一种实施例公开的基于多模型的搜索引擎数据的用户画像刻画系统的模块示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

如图1所示，根据本发明提供的一种基于多模型的搜索引擎数据的用户画像刻画方法，包括：采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练，并对比不同组合的训练结果，确定针对不同属性分类的最佳模型组合；获取所要刻画画像用户的搜索引擎数据，并通过自然语言处理技术进行特征提取及文本表示；将特征提取及文本表示后的搜索引擎数据分别输入针对不同属性分类的最佳模型组合；将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入，通过网格搜索方法确定最优参数组合，作为对所要刻画用户的画像。

在该实施例中，通过多个模型分别对搜索引擎数据进行不同属性分类的特征提取，并将不同属性分类下的结果相融合作为二阶XGBOOST模型的输入，最终得到所要刻画用户的用户画像，从不同属性分类上将无用数据进行筛除，解决了数据的高消耗性和低效性问题，合理且高效地挖掘搜索引擎数据中的用户数据，精准地对用户在不同属性分类上实现画像刻画，提高了用户画像刻画的准确率。

具体地，通过不同单一模型在不同属性的数据上表现的特性，利用多种不同模型的特性对用户搜索引擎数据中的不同搜索词数据进行属性特征的提取，然后通过不同模型组合得到结果，基于模型融合的方法进行画像的刻画，最后通过网格搜索的方法得到最优的XGBOOST模型来提高最终融合模型的精准度。这样的设计可以合理且高效地挖掘用户在搜索引擎中的数据的价值，实现了在大数据背景下基于用户在搜索引擎中留下的搜索记录精准地对用户在性别、年龄和受教育程度的画像刻画，从而实现搜索引擎或者其它平台对用户对个性化推荐的功能，为用户带来较好的体验。

在上述实施例中，优选地，采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练，并对比不同组合的训练结果，确定针对不同属性分类的最佳模型组合的具体过程包括：获取搜索引擎历史数据集，利用停用词对搜索引擎历史数据集进行数据预处理；对搜索引擎历史数据集添加基于真实属性分类的标签标注；通过自然语言处理技术对搜索引擎历史数据集进行特征提取和文本表示；将搜索引擎历史数据集划分为训练集和测试集，并根据标注的标签基于机器学习分类器和深度学习模型进行训练；对比不同模型组合的训练结果，分别针对不同属性分类确定相应的最佳模型组合。

具体地，分别通过TF-IDF、Word2vec和Doc2vec将搜索词数据进行向量化表示，通过8:2的比例切分数据集，获得训练集和测试集，并将训练集通过5折交叉验证的方法，4折作为训练集输入各个基分类器中，1折作为验证集获得结果。将测试集通过模型预测后的结果取均值保留，最后将各自分类器的预测结果和各模型表现情况进行对比并记录。

其中，优选地，搜索引擎数据的不同属性分类包括性别属性、年龄属性和教育属性，针对性别属性分类的最佳模型组合为TF-IDF+SVM分类器，针对年龄属性的最佳模型组合为DM+BPNN分类器，针对教育属性的最佳模型组合为DBOW+BPNN分类器。

其中，对搜索引擎中用户在一个月内的搜索记录数据集进行加载查看，首先通过对训练数据进行细致的分析，结合人们进行日常检索的先验知识，发现“空格”、“标点”及很多停用词均有助于判别用户的基本属性，因此，通过Bigrams过滤掉文档频率低于5的词后，语料具有很好预测效力的低频词特别多，所以采用切词较为精准的结巴分词方法进行分词，再根据停用词依据对数据集进行数据预处理。

在上述实施例中，优选地，自然语言处理技术包括基于TF-IDF的词向量模型、基于Doc2Vec的词向量模型和基于Word2Vec的词向量模型，通过自然语言处理技术将搜索引擎数据进行向量化表示。

其中，基于TF-IDF的词向量模型训练步骤为：首先根据搜索记录中\t制表符将用户的每个搜索词记录进行第一步的数据预处理，再统计one-gram及two-gram特征(可以有效体现出不同类别用户的用词习惯)，用基于TF-IDF的模型训练得到搜索词向量化的形式，再将数据集中不同属性标签的空值通过逻辑回归的预测方法来填补空值。

基于Doc2Vec模型的词向量训练步骤为：读取上一步中空值处理后的数据集，遍历每个用户的搜索词记录，将每条记录通过数据第一步的数据预处理后，与对应的文档编号进行拼接成字符串，将处理好的数据集作为Doc2Vec的语料库，训练句向量。

基于Word2Vec模型的词向量训练步骤为：直接使用在搜狗引擎语料上训练得到的常用词的词向量模型。

在上述实施例中，优选地，通过自然语言处理技术对搜索引擎历史数据集进行特征提取和文本表示具体包括：将搜索引擎历史数据集进行数据切分；通过自然语言处理技术分别将低于不同属性分类相关度的分词进行过滤；将过滤后的数据进行重新拼接，作为处理后的数据集。

如图2所示，本发明还提出一种基于多模型的搜索引擎数据的用户画像刻画系统，包括：模型训练模块，用于采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练，并对比不同组合的训练结果，确定针对不同属性分类的最佳模型组合；数据处理模块，用于获取所要刻画画像用户的搜索引擎数据，并通过自然语言处理技术进行特征提取及文本表示；一阶预测模块，用于将特征提取及文本表示后的搜索引擎数据分别输入针对不同属性分类的最佳模型组合；二阶预测模块，用于将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入，通过网格搜索方法确定最优参数组合，作为对所要刻画用户的画像。

在上述实施例中，优选地，模型训练模块具体用于：获取搜索引擎历史数据集，利用停用词对搜索引擎历史数据集进行数据预处理；对搜索引擎历史数据集添加基于真实属性分类的标签标注；通过自然语言处理技术对搜索引擎历史数据集进行特征提取和文本表示；将搜索引擎历史数据集划分为训练集和测试集，并根据标注的标签基于机器学习分类器和深度学习模型进行训练；对比不同模型组合的训练结果，分别针对不同属性分类确定相应的最佳模型组合。

在上述实施例中，优选地，搜索引擎数据的不同属性分类包括性别属性、年龄属性和教育属性，针对性别属性分类的最佳模型组合为TF-IDF+SVM分类器，针对年龄属性的最佳模型组合为DM+BPNN分类器，针对教育属性的最佳模型组合为DBOW+BPNN分类器。

在上述实施例中，优选地，模型训练模块通过自然语言处理技术对搜索引擎历史数据集进行特征提取和文本表示具体包括：将搜索引擎历史数据集进行数据切分；通过自然语言处理技术分别将低于不同属性分类相关度的分词进行过滤；将过滤后的数据进行重新拼接，作为处理后的数据集。

根据上述实施例提出的基于多模型的搜索引擎数据的用户画像刻画系统，各模块分别对应应用上述实施例提出的基于多模型的搜索引擎数据的用户画像刻画方法中的各步骤，具体实施细节如上述实施例所述，在此不再赘述。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模型的搜索引擎数据的用户画像刻画方法，其特征在于，包括：

采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练，并对比不同组合的训练结果，确定针对不同属性分类的最佳模型组合；

获取所要刻画画像用户的搜索引擎数据，并通过自然语言处理技术进行特征提取及文本表示；

将特征提取及文本表示后的所述搜索引擎数据分别输入针对不同属性分类的最佳模型组合；

将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入，通过网格搜索方法确定最优参数组合，作为对所要刻画用户的画像。

2.根据权利要求1所述的基于多模型的搜索引擎数据的用户画像刻画方法，其特征在于，所述采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练，并对比不同组合的训练结果，确定针对不同属性分类的最佳模型组合的具体过程包括：

获取搜索引擎历史数据集，利用停用词对所述搜索引擎历史数据集进行数据预处理；

对所述搜索引擎历史数据集添加基于真实属性分类的标签标注；

通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示；

将所述搜索引擎历史数据集划分为训练集和测试集，并根据标注的标签基于机器学习分类器和深度学习模型进行训练；

对比不同模型组合的训练结果，分别针对不同属性分类确定相应的最佳模型组合。

3.根据权利要求1或2所述的基于多模型的搜索引擎数据的用户画像刻画方法，其特征在于，所述搜索引擎数据的不同属性分类包括性别属性、年龄属性和教育属性，针对性别属性分类的最佳模型组合为TF-IDF+SVM分类器，针对年龄属性的最佳模型组合为DM+BPNN分类器，针对教育属性的最佳模型组合为DBOW+BPNN分类器。

4.根据权利要求2所述的基于多模型的搜索引擎数据的用户画像刻画方法，其特征在于，所述自然语言处理技术包括基于TF-IDF的词向量模型、基于Doc2Vec的词向量模型和基于Word2Vec的词向量模型，通过所述自然语言处理技术将所述搜索引擎数据进行向量化表示。

5.根据权利要求4所述的基于多模型的搜索引擎数据的用户画像刻画方法，其特征在于，所述通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示具体包括：

将所述搜索引擎历史数据集进行数据切分；

通过自然语言处理技术分别将低于不同属性分类相关度的分词进行过滤；

将过滤后的数据进行重新拼接，作为处理后的数据集。

6.一种基于多模型的搜索引擎数据的用户画像刻画系统，其特征在于，包括：

模型训练模块，用于采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练，并对比不同组合的训练结果，确定针对不同属性分类的最佳模型组合；

数据处理模块，用于获取所要刻画画像用户的搜索引擎数据，并通过自然语言处理技术进行特征提取及文本表示；

一阶预测模块，用于将特征提取及文本表示后的所述搜索引擎数据分别输入针对不同属性分类的最佳模型组合；

二阶预测模块，用于将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入，通过网格搜索方法确定最优参数组合，作为对所要刻画用户的画像。

7.根据权利要求6所述的基于多模型的搜索引擎数据的用户画像刻画系统，其特征在于，所述模型训练模块具体用于：

8.根据权利要求6或7所述的基于多模型的搜索引擎数据的用户画像刻画系统，其特征在于，所述搜索引擎数据的不同属性分类包括性别属性、年龄属性和教育属性，针对性别属性分类的最佳模型组合为TF-IDF+SVM分类器，针对年龄属性的最佳模型组合为DM+BPNN分类器，针对教育属性的最佳模型组合为DBOW+BPNN分类器。

9.根据权利要求7所述的基于多模型的搜索引擎数据的用户画像刻画系统，其特征在于，所述自然语言处理技术包括基于TF-IDF的词向量模型、基于Doc2Vec的词向量模型和基于Word2Vec的词向量模型，通过所述自然语言处理技术将所述搜索引擎数据进行向量化表示。

10.根据权利要求9所述的基于多模型的搜索引擎数据的用户画像刻画系统，其特征在于，所述模型训练模块通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示具体包括：

将所述搜索引擎历史数据集进行数据切分；

将过滤后的数据进行重新拼接，作为处理后的数据集。