CN113297482A - 基于多模型的搜索引擎数据的用户画像刻画方法及系统 - Google Patents

基于多模型的搜索引擎数据的用户画像刻画方法及系统 Download PDF

Info

Publication number
CN113297482A
CN113297482A CN202110530160.7A CN202110530160A CN113297482A CN 113297482 A CN113297482 A CN 113297482A CN 202110530160 A CN202110530160 A CN 202110530160A CN 113297482 A CN113297482 A CN 113297482A
Authority
CN
China
Prior art keywords
search engine
model
data
training
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110530160.7A
Other languages
English (en)
Other versions
CN113297482B (zh
Inventor
何泾沙
陈燕博
朱娜斐
魏巍
于聪
洪睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110530160.7A priority Critical patent/CN113297482B/zh
Publication of CN113297482A publication Critical patent/CN113297482A/zh
Application granted granted Critical
Publication of CN113297482B publication Critical patent/CN113297482B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多模型的搜索引擎数据的用户画像刻画方法及系统,方法包括:采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合;获取所要刻画画像用户的搜索引擎数据,并通过自然语言处理技术进行特征提取及文本表示;将搜索引擎数据分别输入针对不同属性分类的最佳模型组合;将针对不同属性分类的预测结果作为二阶XGBOOST模型的输入,通过网格搜索方法确定最优参数组合,作为对所要刻画用户的画像。通过本发明的技术方案,合理且高效地挖掘搜索引擎数据中的用户数据,精准地对用户在不同属性分类上实现画像刻画,提高了用户画像刻画的准确率。

Description

基于多模型的搜索引擎数据的用户画像刻画方法及系统
技术领域
本发明涉及用户画像刻画技术领域,尤其涉及一种基于多模型的搜索引擎数据的用户画像刻画方法和一种基于多模型的搜索引擎数据的用户画像刻画系统。
背景技术
目前,随着信息量呈指数增长,用户可以获得的信息越来越多。“信息超载”越来越严重。我们面对这巨大的数据,怎么才能找到自己需要的,自己感兴趣的数据成为一件急需解决的问题。即我们需要更多的个性化的推荐方法。
但是个性化推荐的基础便是这个人的属性兴趣等等基本了解,这就是用户画像。用户画像是基于某些用户信息(例如人口属性,点击行为,消费行为等等)的带标签的用户模型或者用户信息,从而帮助我们快速了解和理解用户并帮助我们对用户进行分类,从而实现用户的个性化。作为个性化推荐系统的基础,用户画像已经成为大数据的流行应用。
随着用户画像的不断发展,不管是在工业还是现在正当流行的网络购物方面,都起着很大的推动作用,随着用户画像的刻画越来越精准,人物的各种属性、兴趣、喜好等也会越来清晰,对于用户的相关的推荐也会越来越精准,以此便会提高用户的体验感甚至是粘合度,甚至非常有可能会开启一个新的领域。
但是,现有的文本属性特征提取技术效率较低,单一模型的容错率较高,搜索引擎数据中的数据种类繁多、数据量大、无用数据较多,干扰性较强,使得刻画得到用户画像准确率较低。
发明内容
针对上述问题,本发明提供了一种基于多模型的搜索引擎数据的用户画像刻画方法及系统,通过多个模型分别对搜索引擎数据进行不同属性分类的特征提取,并将不同属性分类下的结果相融合作为二阶XGBOOST模型的输入,最终得到所要刻画用户的用户画像,从不同属性分类上将无用数据进行筛除,解决了数据的高消耗性和低效性问题,合理且高效地挖掘搜索引擎数据中的用户数据,精准地对用户在不同属性分类上实现画像刻画,提高了用户画像刻画的准确率。
为实现上述目的,本发明提供了一种基于多模型的搜索引擎数据的用户画像刻画方法,包括:采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合;获取所要刻画画像用户的搜索引擎数据,并通过自然语言处理技术进行特征提取及文本表示;将特征提取及文本表示后的所述搜索引擎数据分别输入针对不同属性分类的最佳模型组合;将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入,通过网格搜索方法确定最优参数组合,作为对所要刻画用户的画像。
在上述技术方案中,优选地,所述采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合的具体过程包括:获取搜索引擎历史数据集,利用停用词对所述搜索引擎历史数据集进行数据预处理;对所述搜索引擎历史数据集添加基于真实属性分类的标签标注;通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示;将所述搜索引擎历史数据集划分为训练集和测试集,并根据标注的标签基于机器学习分类器和深度学习模型进行训练;对比不同模型组合的训练结果,分别针对不同属性分类确定相应的最佳模型组合。
在上述技术方案中,优选地,所述搜索引擎数据的不同属性分类包括性别属性、年龄属性和教育属性,针对性别属性分类的最佳模型组合为TF-IDF+SVM分类器,针对年龄属性的最佳模型组合为DM+BPNN分类器,针对教育属性的最佳模型组合为DBOW+BPNN分类器。
在上述技术方案中,优选地,所述自然语言处理技术包括基于TF-IDF的词向量模型、基于Doc2Vec的词向量模型和基于Word2Vec的词向量模型,通过所述自然语言处理技术将所述搜索引擎数据进行向量化表示。
在上述技术方案中,优选地,所述通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示具体包括:将所述搜索引擎历史数据集进行数据切分;通过自然语言处理技术分别将低于不同属性分类相关度的分词进行过滤;将过滤后的数据进行重新拼接,作为处理后的数据集。
本发明还提出一种基于多模型的搜索引擎数据的用户画像刻画系统,包括:模型训练模块,用于采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合;数据处理模块,用于获取所要刻画画像用户的搜索引擎数据,并通过自然语言处理技术进行特征提取及文本表示;一阶预测模块,用于将特征提取及文本表示后的所述搜索引擎数据分别输入针对不同属性分类的最佳模型组合;二阶预测模块,用于将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入,通过网格搜索方法确定最优参数组合,作为对所要刻画用户的画像。
在上述技术方案中,优选地,所述模型训练模块具体用于:获取搜索引擎历史数据集,利用停用词对所述搜索引擎历史数据集进行数据预处理;对所述搜索引擎历史数据集添加基于真实属性分类的标签标注;通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示;将所述搜索引擎历史数据集划分为训练集和测试集,并根据标注的标签基于机器学习分类器和深度学习模型进行训练;对比不同模型组合的训练结果,分别针对不同属性分类确定相应的最佳模型组合。
在上述技术方案中,优选地,所述搜索引擎数据的不同属性分类包括性别属性、年龄属性和教育属性,针对性别属性分类的最佳模型组合为TF-IDF+SVM分类器,针对年龄属性的最佳模型组合为DM+BPNN分类器,针对教育属性的最佳模型组合为DBOW+BPNN分类器。
在上述技术方案中,优选地,所述自然语言处理技术包括基于TF-IDF的词向量模型、基于Doc2Vec的词向量模型和基于Word2Vec的词向量模型,通过所述自然语言处理技术将所述搜索引擎数据进行向量化表示。
在上述技术方案中,优选地,所述模型训练模块通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示具体包括:将所述搜索引擎历史数据集进行数据切分;通过自然语言处理技术分别将低于不同属性分类相关度的分词进行过滤;将过滤后的数据进行重新拼接,作为处理后的数据集。
与现有技术相比,本发明的有益效果为:通过多个模型分别对搜索引擎数据进行不同属性分类的特征提取,并将不同属性分类下的结果相融合作为二阶XGBOOST模型的输入,最终得到所要刻画用户的用户画像,从不同属性分类上将无用数据进行筛除,解决了数据的高消耗性和低效性问题,合理且高效地挖掘搜索引擎数据中的用户数据,精准地对用户在不同属性分类上实现画像刻画,提高了用户画像刻画的准确率。
附图说明
图1为本发明一种实施例公开的基于多模型的搜索引擎数据的用户画像刻画方法的流程示意图;
图2为本发明一种实施例公开的基于多模型的搜索引擎数据的用户画像刻画系统的模块示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,根据本发明提供的一种基于多模型的搜索引擎数据的用户画像刻画方法,包括:采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合;获取所要刻画画像用户的搜索引擎数据,并通过自然语言处理技术进行特征提取及文本表示;将特征提取及文本表示后的搜索引擎数据分别输入针对不同属性分类的最佳模型组合;将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入,通过网格搜索方法确定最优参数组合,作为对所要刻画用户的画像。
在该实施例中,通过多个模型分别对搜索引擎数据进行不同属性分类的特征提取,并将不同属性分类下的结果相融合作为二阶XGBOOST模型的输入,最终得到所要刻画用户的用户画像,从不同属性分类上将无用数据进行筛除,解决了数据的高消耗性和低效性问题,合理且高效地挖掘搜索引擎数据中的用户数据,精准地对用户在不同属性分类上实现画像刻画,提高了用户画像刻画的准确率。
具体地,通过不同单一模型在不同属性的数据上表现的特性,利用多种不同模型的特性对用户搜索引擎数据中的不同搜索词数据进行属性特征的提取,然后通过不同模型组合得到结果,基于模型融合的方法进行画像的刻画,最后通过网格搜索的方法得到最优的XGBOOST模型来提高最终融合模型的精准度。这样的设计可以合理且高效地挖掘用户在搜索引擎中的数据的价值,实现了在大数据背景下基于用户在搜索引擎中留下的搜索记录精准地对用户在性别、年龄和受教育程度的画像刻画,从而实现搜索引擎或者其它平台对用户对个性化推荐的功能,为用户带来较好的体验。
在上述实施例中,优选地,采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合的具体过程包括:获取搜索引擎历史数据集,利用停用词对搜索引擎历史数据集进行数据预处理;对搜索引擎历史数据集添加基于真实属性分类的标签标注;通过自然语言处理技术对搜索引擎历史数据集进行特征提取和文本表示;将搜索引擎历史数据集划分为训练集和测试集,并根据标注的标签基于机器学习分类器和深度学习模型进行训练;对比不同模型组合的训练结果,分别针对不同属性分类确定相应的最佳模型组合。
具体地,分别通过TF-IDF、Word2vec和Doc2vec将搜索词数据进行向量化表示,通过8:2的比例切分数据集,获得训练集和测试集,并将训练集通过5折交叉验证的方法,4折作为训练集输入各个基分类器中,1折作为验证集获得结果。将测试集通过模型预测后的结果取均值保留,最后将各自分类器的预测结果和各模型表现情况进行对比并记录。
其中,优选地,搜索引擎数据的不同属性分类包括性别属性、年龄属性和教育属性,针对性别属性分类的最佳模型组合为TF-IDF+SVM分类器,针对年龄属性的最佳模型组合为DM+BPNN分类器,针对教育属性的最佳模型组合为DBOW+BPNN分类器。
其中,对搜索引擎中用户在一个月内的搜索记录数据集进行加载查看,首先通过对训练数据进行细致的分析,结合人们进行日常检索的先验知识,发现“空格”、“标点”及很多停用词均有助于判别用户的基本属性,因此,通过Bigrams过滤掉文档频率低于5的词后,语料具有很好预测效力的低频词特别多,所以采用切词较为精准的结巴分词方法进行分词,再根据停用词依据对数据集进行数据预处理。
在上述实施例中,优选地,自然语言处理技术包括基于TF-IDF的词向量模型、基于Doc2Vec的词向量模型和基于Word2Vec的词向量模型,通过自然语言处理技术将搜索引擎数据进行向量化表示。
其中,基于TF-IDF的词向量模型训练步骤为:首先根据搜索记录中\t制表符将用户的每个搜索词记录进行第一步的数据预处理,再统计one-gram及two-gram特征(可以有效体现出不同类别用户的用词习惯),用基于TF-IDF的模型训练得到搜索词向量化的形式,再将数据集中不同属性标签的空值通过逻辑回归的预测方法来填补空值。
基于Doc2Vec模型的词向量训练步骤为:读取上一步中空值处理后的数据集,遍历每个用户的搜索词记录,将每条记录通过数据第一步的数据预处理后,与对应的文档编号进行拼接成字符串,将处理好的数据集作为Doc2Vec的语料库,训练句向量。
基于Word2Vec模型的词向量训练步骤为:直接使用在搜狗引擎语料上训练得到的常用词的词向量模型。
在上述实施例中,优选地,通过自然语言处理技术对搜索引擎历史数据集进行特征提取和文本表示具体包括:将搜索引擎历史数据集进行数据切分;通过自然语言处理技术分别将低于不同属性分类相关度的分词进行过滤;将过滤后的数据进行重新拼接,作为处理后的数据集。
如图2所示,本发明还提出一种基于多模型的搜索引擎数据的用户画像刻画系统,包括:模型训练模块,用于采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合;数据处理模块,用于获取所要刻画画像用户的搜索引擎数据,并通过自然语言处理技术进行特征提取及文本表示;一阶预测模块,用于将特征提取及文本表示后的搜索引擎数据分别输入针对不同属性分类的最佳模型组合;二阶预测模块,用于将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入,通过网格搜索方法确定最优参数组合,作为对所要刻画用户的画像。
在上述实施例中,优选地,模型训练模块具体用于:获取搜索引擎历史数据集,利用停用词对搜索引擎历史数据集进行数据预处理;对搜索引擎历史数据集添加基于真实属性分类的标签标注;通过自然语言处理技术对搜索引擎历史数据集进行特征提取和文本表示;将搜索引擎历史数据集划分为训练集和测试集,并根据标注的标签基于机器学习分类器和深度学习模型进行训练;对比不同模型组合的训练结果,分别针对不同属性分类确定相应的最佳模型组合。
在上述实施例中,优选地,搜索引擎数据的不同属性分类包括性别属性、年龄属性和教育属性,针对性别属性分类的最佳模型组合为TF-IDF+SVM分类器,针对年龄属性的最佳模型组合为DM+BPNN分类器,针对教育属性的最佳模型组合为DBOW+BPNN分类器。
在上述实施例中,优选地,自然语言处理技术包括基于TF-IDF的词向量模型、基于Doc2Vec的词向量模型和基于Word2Vec的词向量模型,通过自然语言处理技术将搜索引擎数据进行向量化表示。
在上述实施例中,优选地,模型训练模块通过自然语言处理技术对搜索引擎历史数据集进行特征提取和文本表示具体包括:将搜索引擎历史数据集进行数据切分;通过自然语言处理技术分别将低于不同属性分类相关度的分词进行过滤;将过滤后的数据进行重新拼接,作为处理后的数据集。
根据上述实施例提出的基于多模型的搜索引擎数据的用户画像刻画系统,各模块分别对应应用上述实施例提出的基于多模型的搜索引擎数据的用户画像刻画方法中的各步骤,具体实施细节如上述实施例所述,在此不再赘述。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多模型的搜索引擎数据的用户画像刻画方法,其特征在于,包括:
采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合;
获取所要刻画画像用户的搜索引擎数据,并通过自然语言处理技术进行特征提取及文本表示;
将特征提取及文本表示后的所述搜索引擎数据分别输入针对不同属性分类的最佳模型组合;
将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入,通过网格搜索方法确定最优参数组合,作为对所要刻画用户的画像。
2.根据权利要求1所述的基于多模型的搜索引擎数据的用户画像刻画方法,其特征在于,所述采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合的具体过程包括:
获取搜索引擎历史数据集,利用停用词对所述搜索引擎历史数据集进行数据预处理;
对所述搜索引擎历史数据集添加基于真实属性分类的标签标注;
通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示;
将所述搜索引擎历史数据集划分为训练集和测试集,并根据标注的标签基于机器学习分类器和深度学习模型进行训练;
对比不同模型组合的训练结果,分别针对不同属性分类确定相应的最佳模型组合。
3.根据权利要求1或2所述的基于多模型的搜索引擎数据的用户画像刻画方法,其特征在于,所述搜索引擎数据的不同属性分类包括性别属性、年龄属性和教育属性,针对性别属性分类的最佳模型组合为TF-IDF+SVM分类器,针对年龄属性的最佳模型组合为DM+BPNN分类器,针对教育属性的最佳模型组合为DBOW+BPNN分类器。
4.根据权利要求2所述的基于多模型的搜索引擎数据的用户画像刻画方法,其特征在于,所述自然语言处理技术包括基于TF-IDF的词向量模型、基于Doc2Vec的词向量模型和基于Word2Vec的词向量模型,通过所述自然语言处理技术将所述搜索引擎数据进行向量化表示。
5.根据权利要求4所述的基于多模型的搜索引擎数据的用户画像刻画方法,其特征在于,所述通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示具体包括:
将所述搜索引擎历史数据集进行数据切分;
通过自然语言处理技术分别将低于不同属性分类相关度的分词进行过滤;
将过滤后的数据进行重新拼接,作为处理后的数据集。
6.一种基于多模型的搜索引擎数据的用户画像刻画系统,其特征在于,包括:
模型训练模块,用于采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合;
数据处理模块,用于获取所要刻画画像用户的搜索引擎数据,并通过自然语言处理技术进行特征提取及文本表示;
一阶预测模块,用于将特征提取及文本表示后的所述搜索引擎数据分别输入针对不同属性分类的最佳模型组合;
二阶预测模块,用于将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入,通过网格搜索方法确定最优参数组合,作为对所要刻画用户的画像。
7.根据权利要求6所述的基于多模型的搜索引擎数据的用户画像刻画系统,其特征在于,所述模型训练模块具体用于:
获取搜索引擎历史数据集,利用停用词对所述搜索引擎历史数据集进行数据预处理;
对所述搜索引擎历史数据集添加基于真实属性分类的标签标注;
通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示;
将所述搜索引擎历史数据集划分为训练集和测试集,并根据标注的标签基于机器学习分类器和深度学习模型进行训练;
对比不同模型组合的训练结果,分别针对不同属性分类确定相应的最佳模型组合。
8.根据权利要求6或7所述的基于多模型的搜索引擎数据的用户画像刻画系统,其特征在于,所述搜索引擎数据的不同属性分类包括性别属性、年龄属性和教育属性,针对性别属性分类的最佳模型组合为TF-IDF+SVM分类器,针对年龄属性的最佳模型组合为DM+BPNN分类器,针对教育属性的最佳模型组合为DBOW+BPNN分类器。
9.根据权利要求7所述的基于多模型的搜索引擎数据的用户画像刻画系统,其特征在于,所述自然语言处理技术包括基于TF-IDF的词向量模型、基于Doc2Vec的词向量模型和基于Word2Vec的词向量模型,通过所述自然语言处理技术将所述搜索引擎数据进行向量化表示。
10.根据权利要求9所述的基于多模型的搜索引擎数据的用户画像刻画系统,其特征在于,所述模型训练模块通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示具体包括:
将所述搜索引擎历史数据集进行数据切分;
通过自然语言处理技术分别将低于不同属性分类相关度的分词进行过滤;
将过滤后的数据进行重新拼接,作为处理后的数据集。
CN202110530160.7A 2021-05-14 2021-05-14 基于多模型的搜索引擎数据的用户画像刻画方法及系统 Active CN113297482B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110530160.7A CN113297482B (zh) 2021-05-14 2021-05-14 基于多模型的搜索引擎数据的用户画像刻画方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110530160.7A CN113297482B (zh) 2021-05-14 2021-05-14 基于多模型的搜索引擎数据的用户画像刻画方法及系统

Publications (2)

Publication Number Publication Date
CN113297482A true CN113297482A (zh) 2021-08-24
CN113297482B CN113297482B (zh) 2024-03-15

Family

ID=77322144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110530160.7A Active CN113297482B (zh) 2021-05-14 2021-05-14 基于多模型的搜索引擎数据的用户画像刻画方法及系统

Country Status (1)

Country Link
CN (1) CN113297482B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408735A (zh) * 2023-12-15 2024-01-16 广东云百科技有限公司 一种基于物联网的客户管理方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625718A (zh) * 2020-05-19 2020-09-04 辽宁工程技术大学 一种基于用户搜索关键词数据的用户画像构建方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625718A (zh) * 2020-05-19 2020-09-04 辽宁工程技术大学 一种基于用户搜索关键词数据的用户画像构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于聪: "基于个人数据的用户画像的算法研究与实现", 硕士电子期刊, pages 1 - 67 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408735A (zh) * 2023-12-15 2024-01-16 广东云百科技有限公司 一种基于物联网的客户管理方法及系统

Also Published As

Publication number Publication date
CN113297482B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN107992531A (zh) 基于深度学习的新闻个性化智能推荐方法与系统
Watrianthos Sentiment analysis of traveloka app using naïve bayes classifier method
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN108536868B (zh) 社交网络上短文本数据的数据处理方法及装置
CN113961685A (zh) 信息抽取方法及装置
CN114648392B (zh) 基于用户画像的产品推荐方法、装置、电子设备及介质
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN112188312A (zh) 用于确定新闻的视频素材的方法和装置
CN112667815A (zh) 文本处理方法、装置、计算机可读存储介质及处理器
CN114119136A (zh) 一种产品推荐方法、装置、电子设备和介质
CN115203338A (zh) 一种标签及标签实例推荐方法
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN114912011A (zh) 一种基于内容提取与评分预测的视频推荐方法
CN113297482B (zh) 基于多模型的搜索引擎数据的用户画像刻画方法及系统
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN111736804A (zh) 一种基于用户评论识别App关键功能的方法及装置
CN110765872A (zh) 一种基于视觉特征的在线数学教育资源分类方法
Karim et al. Classification of Google Play Store Application Reviews Using Machine Learning
Arsarinia et al. Public Sentiment Analysis of Online Transportation in Indonesia through Social Media Using Google Machine Learning
CN111611394A (zh) 一种文本分类方法、装置、电子设备及可读存储介质
Rahman et al. ChartSumm: A large scale benchmark for Chart to Text Summarization
Agarwal et al. Sentiment Analysis Dashboard for Socia Media comments using BERT
CN112287184B (zh) 基于神经网络的迁移标注方法、装置、设备及存储介质
Garg et al. Is sentiment analysis an art or a science? Impact of lexical richness in training corpus on machine learning
CN110969011B (zh) 文本情感分析方法、装置、存储介质及处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant