CN113297482B - 基于多模型的搜索引擎数据的用户画像刻画方法及系统 - Google Patents
基于多模型的搜索引擎数据的用户画像刻画方法及系统 Download PDFInfo
- Publication number
- CN113297482B CN113297482B CN202110530160.7A CN202110530160A CN113297482B CN 113297482 B CN113297482 B CN 113297482B CN 202110530160 A CN202110530160 A CN 202110530160A CN 113297482 B CN113297482 B CN 113297482B
- Authority
- CN
- China
- Prior art keywords
- search engine
- model
- data
- user
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000003058 natural language processing Methods 0.000 claims abstract description 36
- 238000005516 engineering process Methods 0.000 claims abstract description 30
- 238000013136 deep learning model Methods 0.000 claims abstract description 16
- 238000010801 machine learning Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000012512 characterization method Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 102100031554 Double C2-like domain-containing protein alpha Human genes 0.000 description 2
- 101000866272 Homo sapiens Double C2-like domain-containing protein alpha Proteins 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多模型的搜索引擎数据的用户画像刻画方法及系统,方法包括:采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合;获取所要刻画画像用户的搜索引擎数据,并通过自然语言处理技术进行特征提取及文本表示;将搜索引擎数据分别输入针对不同属性分类的最佳模型组合;将针对不同属性分类的预测结果作为二阶XGBOOST模型的输入,通过网格搜索方法确定最优参数组合,作为对所要刻画用户的画像。通过本发明的技术方案,合理且高效地挖掘搜索引擎数据中的用户数据,精准地对用户在不同属性分类上实现画像刻画,提高了用户画像刻画的准确率。
Description
技术领域
本发明涉及用户画像刻画技术领域,尤其涉及一种基于多模型的搜索引擎数据的用户画像刻画方法和一种基于多模型的搜索引擎数据的用户画像刻画系统。
背景技术
目前,随着信息量呈指数增长,用户可以获得的信息越来越多。“信息超载”越来越严重。我们面对这巨大的数据,怎么才能找到自己需要的,自己感兴趣的数据成为一件急需解决的问题。即我们需要更多的个性化的推荐方法。
但是个性化推荐的基础便是这个人的属性兴趣等等基本了解,这就是用户画像。用户画像是基于某些用户信息(例如人口属性,点击行为,消费行为等等)的带标签的用户模型或者用户信息,从而帮助我们快速了解和理解用户并帮助我们对用户进行分类,从而实现用户的个性化。作为个性化推荐系统的基础,用户画像已经成为大数据的流行应用。
随着用户画像的不断发展,不管是在工业还是现在正当流行的网络购物方面,都起着很大的推动作用,随着用户画像的刻画越来越精准,人物的各种属性、兴趣、喜好等也会越来清晰,对于用户的相关的推荐也会越来越精准,以此便会提高用户的体验感甚至是粘合度,甚至非常有可能会开启一个新的领域。
但是,现有的文本属性特征提取技术效率较低,单一模型的容错率较高,搜索引擎数据中的数据种类繁多、数据量大、无用数据较多,干扰性较强,使得刻画得到用户画像准确率较低。
发明内容
针对上述问题,本发明提供了一种基于多模型的搜索引擎数据的用户画像刻画方法及系统,通过多个模型分别对搜索引擎数据进行不同属性分类的特征提取,并将不同属性分类下的结果相融合作为二阶XGBOOST模型的输入,最终得到所要刻画用户的用户画像,从不同属性分类上将无用数据进行筛除,解决了数据的高消耗性和低效性问题,合理且高效地挖掘搜索引擎数据中的用户数据,精准地对用户在不同属性分类上实现画像刻画,提高了用户画像刻画的准确率。
为实现上述目的,本发明提供了一种基于多模型的搜索引擎数据的用户画像刻画方法,包括:采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合;获取所要刻画画像用户的搜索引擎数据,并通过自然语言处理技术进行特征提取及文本表示;将特征提取及文本表示后的所述搜索引擎数据分别输入针对不同属性分类的最佳模型组合;将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入,通过网格搜索方法确定最优参数组合,作为对所要刻画用户的画像。
在上述技术方案中,优选地,所述采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合的具体过程包括:获取搜索引擎历史数据集,利用停用词对所述搜索引擎历史数据集进行数据预处理;对所述搜索引擎历史数据集添加基于真实属性分类的标签标注;通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示;将所述搜索引擎历史数据集划分为训练集和测试集,并根据标注的标签基于机器学习分类器和深度学习模型进行训练;对比不同模型组合的训练结果,分别针对不同属性分类确定相应的最佳模型组合。
在上述技术方案中,优选地,所述搜索引擎数据的不同属性分类包括性别属性、年龄属性和教育属性,针对性别属性分类的最佳模型组合为TF-IDF+SVM分类器,针对年龄属性的最佳模型组合为DM+BPNN分类器,针对教育属性的最佳模型组合为DBOW+BPNN分类器。
在上述技术方案中,优选地,所述自然语言处理技术包括基于TF-IDF的词向量模型、基于Doc2Vec的词向量模型和基于Word2Vec的词向量模型,通过所述自然语言处理技术将所述搜索引擎数据进行向量化表示。
在上述技术方案中,优选地,所述通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示具体包括:将所述搜索引擎历史数据集进行数据切分;通过自然语言处理技术分别将低于不同属性分类相关度的分词进行过滤;将过滤后的数据进行重新拼接,作为处理后的数据集。
本发明还提出一种基于多模型的搜索引擎数据的用户画像刻画系统,包括:模型训练模块,用于采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合;数据处理模块,用于获取所要刻画画像用户的搜索引擎数据,并通过自然语言处理技术进行特征提取及文本表示;一阶预测模块,用于将特征提取及文本表示后的所述搜索引擎数据分别输入针对不同属性分类的最佳模型组合;二阶预测模块,用于将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入,通过网格搜索方法确定最优参数组合,作为对所要刻画用户的画像。
在上述技术方案中,优选地,所述模型训练模块具体用于:获取搜索引擎历史数据集,利用停用词对所述搜索引擎历史数据集进行数据预处理;对所述搜索引擎历史数据集添加基于真实属性分类的标签标注;通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示;将所述搜索引擎历史数据集划分为训练集和测试集,并根据标注的标签基于机器学习分类器和深度学习模型进行训练;对比不同模型组合的训练结果,分别针对不同属性分类确定相应的最佳模型组合。
在上述技术方案中,优选地,所述搜索引擎数据的不同属性分类包括性别属性、年龄属性和教育属性,针对性别属性分类的最佳模型组合为TF-IDF+SVM分类器,针对年龄属性的最佳模型组合为DM+BPNN分类器,针对教育属性的最佳模型组合为DBOW+BPNN分类器。
在上述技术方案中,优选地,所述自然语言处理技术包括基于TF-IDF的词向量模型、基于Doc2Vec的词向量模型和基于Word2Vec的词向量模型,通过所述自然语言处理技术将所述搜索引擎数据进行向量化表示。
在上述技术方案中,优选地,所述模型训练模块通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示具体包括:将所述搜索引擎历史数据集进行数据切分;通过自然语言处理技术分别将低于不同属性分类相关度的分词进行过滤;将过滤后的数据进行重新拼接,作为处理后的数据集。
与现有技术相比,本发明的有益效果为:通过多个模型分别对搜索引擎数据进行不同属性分类的特征提取,并将不同属性分类下的结果相融合作为二阶XGBOOST模型的输入,最终得到所要刻画用户的用户画像,从不同属性分类上将无用数据进行筛除,解决了数据的高消耗性和低效性问题,合理且高效地挖掘搜索引擎数据中的用户数据,精准地对用户在不同属性分类上实现画像刻画,提高了用户画像刻画的准确率。
附图说明
图1为本发明一种实施例公开的基于多模型的搜索引擎数据的用户画像刻画方法的流程示意图;
图2为本发明一种实施例公开的基于多模型的搜索引擎数据的用户画像刻画系统的模块示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,根据本发明提供的一种基于多模型的搜索引擎数据的用户画像刻画方法,包括:采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合;获取所要刻画画像用户的搜索引擎数据,并通过自然语言处理技术进行特征提取及文本表示;将特征提取及文本表示后的搜索引擎数据分别输入针对不同属性分类的最佳模型组合;将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入,通过网格搜索方法确定最优参数组合,作为对所要刻画用户的画像。
在该实施例中,通过多个模型分别对搜索引擎数据进行不同属性分类的特征提取,并将不同属性分类下的结果相融合作为二阶XGBOOST模型的输入,最终得到所要刻画用户的用户画像,从不同属性分类上将无用数据进行筛除,解决了数据的高消耗性和低效性问题,合理且高效地挖掘搜索引擎数据中的用户数据,精准地对用户在不同属性分类上实现画像刻画,提高了用户画像刻画的准确率。
具体地,通过不同单一模型在不同属性的数据上表现的特性,利用多种不同模型的特性对用户搜索引擎数据中的不同搜索词数据进行属性特征的提取,然后通过不同模型组合得到结果,基于模型融合的方法进行画像的刻画,最后通过网格搜索的方法得到最优的XGBOOST模型来提高最终融合模型的精准度。这样的设计可以合理且高效地挖掘用户在搜索引擎中的数据的价值,实现了在大数据背景下基于用户在搜索引擎中留下的搜索记录精准地对用户在性别、年龄和受教育程度的画像刻画,从而实现搜索引擎或者其它平台对用户对个性化推荐的功能,为用户带来较好的体验。
在上述实施例中,优选地,采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合的具体过程包括:获取搜索引擎历史数据集,利用停用词对搜索引擎历史数据集进行数据预处理;对搜索引擎历史数据集添加基于真实属性分类的标签标注;通过自然语言处理技术对搜索引擎历史数据集进行特征提取和文本表示;将搜索引擎历史数据集划分为训练集和测试集,并根据标注的标签基于机器学习分类器和深度学习模型进行训练;对比不同模型组合的训练结果,分别针对不同属性分类确定相应的最佳模型组合。
具体地,分别通过TF-IDF、Word2vec和Doc2vec将搜索词数据进行向量化表示,通过8:2的比例切分数据集,获得训练集和测试集,并将训练集通过5折交叉验证的方法,4折作为训练集输入各个基分类器中,1折作为验证集获得结果。将测试集通过模型预测后的结果取均值保留,最后将各自分类器的预测结果和各模型表现情况进行对比并记录。
其中,优选地,搜索引擎数据的不同属性分类包括性别属性、年龄属性和教育属性,针对性别属性分类的最佳模型组合为TF-IDF+SVM分类器,针对年龄属性的最佳模型组合为DM+BPNN分类器,针对教育属性的最佳模型组合为DBOW+BPNN分类器。
其中,对搜索引擎中用户在一个月内的搜索记录数据集进行加载查看,首先通过对训练数据进行细致的分析,结合人们进行日常检索的先验知识,发现“空格”、“标点”及很多停用词均有助于判别用户的基本属性,因此,通过Bigrams过滤掉文档频率低于5的词后,语料具有很好预测效力的低频词特别多,所以采用切词较为精准的结巴分词方法进行分词,再根据停用词依据对数据集进行数据预处理。
在上述实施例中,优选地,自然语言处理技术包括基于TF-IDF的词向量模型、基于Doc2Vec的词向量模型和基于Word2Vec的词向量模型,通过自然语言处理技术将搜索引擎数据进行向量化表示。
其中,基于TF-IDF的词向量模型训练步骤为:首先根据搜索记录中\t制表符将用户的每个搜索词记录进行第一步的数据预处理,再统计one-gram及two-gram特征(可以有效体现出不同类别用户的用词习惯),用基于TF-IDF的模型训练得到搜索词向量化的形式,再将数据集中不同属性标签的空值通过逻辑回归的预测方法来填补空值。
基于Doc2Vec模型的词向量训练步骤为:读取上一步中空值处理后的数据集,遍历每个用户的搜索词记录,将每条记录通过数据第一步的数据预处理后,与对应的文档编号进行拼接成字符串,将处理好的数据集作为Doc2Vec的语料库,训练句向量。
基于Word2Vec模型的词向量训练步骤为:直接使用在搜狗引擎语料上训练得到的常用词的词向量模型。
在上述实施例中,优选地,通过自然语言处理技术对搜索引擎历史数据集进行特征提取和文本表示具体包括:将搜索引擎历史数据集进行数据切分;通过自然语言处理技术分别将低于不同属性分类相关度的分词进行过滤;将过滤后的数据进行重新拼接,作为处理后的数据集。
如图2所示,本发明还提出一种基于多模型的搜索引擎数据的用户画像刻画系统,包括:模型训练模块,用于采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合;数据处理模块,用于获取所要刻画画像用户的搜索引擎数据,并通过自然语言处理技术进行特征提取及文本表示;一阶预测模块,用于将特征提取及文本表示后的搜索引擎数据分别输入针对不同属性分类的最佳模型组合;二阶预测模块,用于将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入,通过网格搜索方法确定最优参数组合,作为对所要刻画用户的画像。
在上述实施例中,优选地,模型训练模块具体用于:获取搜索引擎历史数据集,利用停用词对搜索引擎历史数据集进行数据预处理;对搜索引擎历史数据集添加基于真实属性分类的标签标注;通过自然语言处理技术对搜索引擎历史数据集进行特征提取和文本表示;将搜索引擎历史数据集划分为训练集和测试集,并根据标注的标签基于机器学习分类器和深度学习模型进行训练;对比不同模型组合的训练结果,分别针对不同属性分类确定相应的最佳模型组合。
在上述实施例中,优选地,搜索引擎数据的不同属性分类包括性别属性、年龄属性和教育属性,针对性别属性分类的最佳模型组合为TF-IDF+SVM分类器,针对年龄属性的最佳模型组合为DM+BPNN分类器,针对教育属性的最佳模型组合为DBOW+BPNN分类器。
在上述实施例中,优选地,自然语言处理技术包括基于TF-IDF的词向量模型、基于Doc2Vec的词向量模型和基于Word2Vec的词向量模型,通过自然语言处理技术将搜索引擎数据进行向量化表示。
在上述实施例中,优选地,模型训练模块通过自然语言处理技术对搜索引擎历史数据集进行特征提取和文本表示具体包括:将搜索引擎历史数据集进行数据切分;通过自然语言处理技术分别将低于不同属性分类相关度的分词进行过滤;将过滤后的数据进行重新拼接,作为处理后的数据集。
根据上述实施例提出的基于多模型的搜索引擎数据的用户画像刻画系统,各模块分别对应应用上述实施例提出的基于多模型的搜索引擎数据的用户画像刻画方法中的各步骤,具体实施细节如上述实施例所述,在此不再赘述。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于多模型的搜索引擎数据的用户画像刻画方法,其特征在于,包括:
采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合;
获取所要刻画画像用户的搜索引擎数据,并通过自然语言处理技术进行特征提取及文本表示;
将特征提取及文本表示后的所述搜索引擎数据分别输入针对不同属性分类的最佳模型组合;
将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入,通过网格搜索方法确定最优参数组合,作为对所要刻画用户的画像;
其中,所述搜索引擎数据的不同属性分类包括性别属性、年龄属性和教育属性,针对性别属性分类的最佳模型组合为TF-IDF+SVM分类器,针对年龄属性的最佳模型组合为DM+BPNN分类器,针对教育属性的最佳模型组合为DBOW+BPNN分类器。
2.根据权利要求1所述的基于多模型的搜索引擎数据的用户画像刻画方法,其特征在于,所述采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合的具体过程包括:
获取搜索引擎历史数据集,利用停用词对所述搜索引擎历史数据集进行数据预处理;
对所述搜索引擎历史数据集添加基于真实属性分类的标签标注;
通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示;
将所述搜索引擎历史数据集划分为训练集和测试集,并根据标注的标签基于机器学习分类器和深度学习模型进行训练;
对比不同模型组合的训练结果,分别针对不同属性分类确定相应的最佳模型组合。
3.根据权利要求2所述的基于多模型的搜索引擎数据的用户画像刻画方法,其特征在于,所述自然语言处理技术包括基于TF-IDF的词向量模型、基于Doc2Vec的词向量模型和基于Word2Vec的词向量模型,通过所述自然语言处理技术将所述搜索引擎数据进行向量化表示。
4.根据权利要求3所述的基于多模型的搜索引擎数据的用户画像刻画方法,其特征在于,所述通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示具体包括:
将所述搜索引擎历史数据集进行数据切分;
通过自然语言处理技术分别将低于不同属性分类相关度的分词进行过滤;
将过滤后的数据进行重新拼接,作为处理后的数据集。
5.一种基于多模型的搜索引擎数据的用户画像刻画系统,其特征在于,应用如权利要求1至4中任一项所述的基于多模型的搜索引擎数据的用户画像刻画方法,包括:
模型训练模块,用于采用标注的训练样本数据对机器学习分类器和深度学习模型进行训练,并对比不同组合的训练结果,确定针对不同属性分类的最佳模型组合;
数据处理模块,用于获取所要刻画画像用户的搜索引擎数据,并通过自然语言处理技术进行特征提取及文本表示;
一阶预测模块,用于将特征提取及文本表示后的所述搜索引擎数据分别输入针对不同属性分类的最佳模型组合;
二阶预测模块,用于将针对不同属性分类的最佳模型组合的预测结果作为二阶XGBOOST模型的输入,通过网格搜索方法确定最优参数组合,作为对所要刻画用户的画像;
其中,所述搜索引擎数据的不同属性分类包括性别属性、年龄属性和教育属性,针对性别属性分类的最佳模型组合为TF-IDF+SVM分类器,针对年龄属性的最佳模型组合为DM+BPNN分类器,针对教育属性的最佳模型组合为DBOW+BPNN分类器。
6.根据权利要求5所述的基于多模型的搜索引擎数据的用户画像刻画系统,其特征在于,所述模型训练模块具体用于:
获取搜索引擎历史数据集,利用停用词对所述搜索引擎历史数据集进行数据预处理;
对所述搜索引擎历史数据集添加基于真实属性分类的标签标注;
通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示;
将所述搜索引擎历史数据集划分为训练集和测试集,并根据标注的标签基于机器学习分类器和深度学习模型进行训练;
对比不同模型组合的训练结果,分别针对不同属性分类确定相应的最佳模型组合。
7.根据权利要求6所述的基于多模型的搜索引擎数据的用户画像刻画系统,其特征在于,所述自然语言处理技术包括基于TF-IDF的词向量模型、基于Doc2Vec的词向量模型和基于Word2Vec的词向量模型,通过所述自然语言处理技术将所述搜索引擎数据进行向量化表示。
8.根据权利要求7所述的基于多模型的搜索引擎数据的用户画像刻画系统,其特征在于,所述模型训练模块通过自然语言处理技术对所述搜索引擎历史数据集进行特征提取和文本表示具体包括:
将所述搜索引擎历史数据集进行数据切分;
通过自然语言处理技术分别将低于不同属性分类相关度的分词进行过滤;
将过滤后的数据进行重新拼接,作为处理后的数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110530160.7A CN113297482B (zh) | 2021-05-14 | 2021-05-14 | 基于多模型的搜索引擎数据的用户画像刻画方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110530160.7A CN113297482B (zh) | 2021-05-14 | 2021-05-14 | 基于多模型的搜索引擎数据的用户画像刻画方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113297482A CN113297482A (zh) | 2021-08-24 |
CN113297482B true CN113297482B (zh) | 2024-03-15 |
Family
ID=77322144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110530160.7A Active CN113297482B (zh) | 2021-05-14 | 2021-05-14 | 基于多模型的搜索引擎数据的用户画像刻画方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113297482B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117408735A (zh) * | 2023-12-15 | 2024-01-16 | 广东云百科技有限公司 | 一种基于物联网的客户管理方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625718A (zh) * | 2020-05-19 | 2020-09-04 | 辽宁工程技术大学 | 一种基于用户搜索关键词数据的用户画像构建方法 |
-
2021
- 2021-05-14 CN CN202110530160.7A patent/CN113297482B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625718A (zh) * | 2020-05-19 | 2020-09-04 | 辽宁工程技术大学 | 一种基于用户搜索关键词数据的用户画像构建方法 |
Non-Patent Citations (1)
Title |
---|
基于个人数据的用户画像的算法研究与实现;于聪;硕士电子期刊;1-67 * |
Also Published As
Publication number | Publication date |
---|---|
CN113297482A (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021203581A1 (zh) | 基于精标注文本的关键信息抽取方法、装置及存储介质 | |
CN106447066A (zh) | 一种大数据的特征提取方法和装置 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN106445988A (zh) | 一种大数据的智能处理方法和系统 | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN110516074B (zh) | 一种基于深度学习的网站主题分类方法及装置 | |
KR101561464B1 (ko) | 수집 데이터 감성분석 방법 및 장치 | |
CN103593431A (zh) | 网络舆情分析方法和装置 | |
CN110750635A (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN114648392B (zh) | 基于用户画像的产品推荐方法、装置、电子设备及介质 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN112905739A (zh) | 虚假评论检测模型训练方法、检测方法及电子设备 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN110990563A (zh) | 一种基于人工智能的传统文化素材库构建方法及系统 | |
CN112667815A (zh) | 文本处理方法、装置、计算机可读存储介质及处理器 | |
CN111709225A (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN113297482B (zh) | 基于多模型的搜索引擎数据的用户画像刻画方法及系统 | |
CN114722198A (zh) | 产品分类编码确定方法、系统及相关装置 | |
CN111126038B (zh) | 信息获取模型生成方法、装置及信息获取方法、装置 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN110765872A (zh) | 一种基于视觉特征的在线数学教育资源分类方法 | |
CN115238645A (zh) | 资产数据识别方法、装置、电子设备和计算机存储介质 | |
Karim et al. | Classification of Google Play Store Application Reviews Using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |