CN109635118A - 一种基于大数据的用户搜索匹配方法 - Google Patents

一种基于大数据的用户搜索匹配方法 Download PDF

Info

Publication number
CN109635118A
CN109635118A CN201910021431.9A CN201910021431A CN109635118A CN 109635118 A CN109635118 A CN 109635118A CN 201910021431 A CN201910021431 A CN 201910021431A CN 109635118 A CN109635118 A CN 109635118A
Authority
CN
China
Prior art keywords
feature
attr
user
tag
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910021431.9A
Other languages
English (en)
Inventor
童毅
周波依
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bola Network Co Ltd
Original Assignee
Bola Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bola Network Co Ltd filed Critical Bola Network Co Ltd
Priority to CN201910021431.9A priority Critical patent/CN109635118A/zh
Publication of CN109635118A publication Critical patent/CN109635118A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于大数据、人工智能、机器学习领域,具体涉及一种基于大数据的用户搜索匹配方法;所述方法对数据进行预处理操作,包括填充缺失值以及去除重复值;对预处理后的数据集进行特征工程构建操作,提取基础统计特征、转换率特征、相似度特征、位置特征这四大类特征;将特征工程构建后的数据集转换为多标签数据集并训练多个机器学习模型,包括以多个模型作为基模型调用的多标签分类算法模型,并预测结果;对多个机器学习模型进行stacking模型融合操作;本发明为搜索引擎联想条目的排序提供参考,发掘出用户点击联想条目的潜在偏好。

Description

一种基于大数据的用户搜索匹配方法
技术领域
本发明涉及大数据、人工智能、机器学习领域,具体而言,涉及一种基于大数据的用户搜索匹配方法。
背景技术
随着互联网应用的普及推广以及对人们生活的渗透,越来越多的用户习惯于从互联网获取其所需的信息,例如通过互联网关注某热点问题等;因而需要大量的使用到搜索相关的引擎;在搜索业务下有一个场景被称作实时搜索(Instance Search),即在用户不断输入过程中,实时返回查询结果。用户在实时搜索时,搜索引擎会根据用户的输入自动联想,例如用户输入“大数据”,搜索引擎会联想到“大数据分析”、“大数据预测”、“大数据概念”等条目,搜索匹配方法就是正确匹配到用户将要点击的条目;即搜索匹配方法是指将用户输入的条目与搜索引擎联想的条目进行正确匹配,意在解决搜索输入与联想条目的语义匹配问题。搜索匹配方法可以为搜索引擎联想条目的排序提供参考,可以发掘出用户点击联想条目的潜在偏好。
令用户的输入为prefix,联想的条目为query_prediction,将要点击的条目为title,搜索匹配方法就是意在解决prefix-title语义匹配的问题。
传统的技术有基于关键字匹配、基于点击量匹配等。基于关键字匹配比较简便,首先提取出输入prefix的关键字,直接与联想条目query_prediction进行字符串匹配。该方法未用到大数据相关的知识,效果较差。基于点击量匹配是统计历史点击量进行语义匹配,且该方法基于传统的机器学习,只能匹配到一个联想条目。
发明内容
基于现有技术存在的问题,本发明提出一种能够较为全面的使用各类特征,且用到了机器学习较前沿的多标签分类算法,从而能更精确地匹配到多个联想条目。本发明提出了一种基于大数据的用户搜索匹配方法,所述方法包括以下步骤:
S1、对数据进行预处理操作,包括填充缺失值和去除重复值;
S2、对预处理后的数据集进行特征工程构建操作,提取各类单标签数据集特征包括基础统计特征、转换率特征、相似度特征以及位置特征;
其特征在于,
S3、将特征工程构建后的数据集转换为多标签数据集并训练多个机器学习模型;转换为多标签数据集后其特征定义为多标签数据集特征;包括以逻辑回归LR、支持向量机SVM、随机森林RandomForest、梯度提升决策树GBDT、极限梯度提升树XGBoost、轻量级GBM梯度提升机LightGBM、具有分类特征支持的梯度增强CatBoost作为基模型分别调用多标签分类算法模型,并预测结果;
S4、对多个机器学习模型进行stacking模型融合操作,确定出用户搜索匹配的最终概率;其中,多标签分类模型包括二元关联模型BR、分类器链模型CC以及基于标签特定特征的多标签模型LIFT。
进一步的,所述填充缺失值包括对数值型属性的缺失值使用中位数填充;对非数值型属性的缺失值使用众数填充;所述重复值处理包括记录样本的重复次数作为特征,删除重复的样本;具体包括:
将缺失值的数值型属性的列按照从小到大排序后依次为:
attr1、attr2、attr3、…、attrl,则缺失值attr_null填充为:
将缺失值的非数值属性的列取值的个数依次为:
attr1_ns、attr2_ns、attr3_ns、…、attrl_ns,则缺失值attr_null填充为:
attr_null=argmax(attr1_ns,attr2_ns,…,attrl_ns);
其中,l表示属性列的长度或个数。
进一步的,对预处理后的数据集进行特征工程构建操作包括构建基础统计特征、转换率特征、相似度特征以及位置特征这些单标签数据集特征;具体包括:
基础统计特征:分别统计各个用户点击的各类统计参数;统计各种联想的所有条目query_prediction被点击的各类参数;统计各个用户点击各种query_prediction的各类参数;其中,所述各类参数包括总次数、均值、方差、标准差、众数、中位数、最大值、最小值、偏度以及峰度;
转换率特征:计算各个用户点击的转换率;计算各种联想的所有条目被点击的转换率;计算各个用户点击各种query_prediction的转换率;
相似度特征:计算各个用户输入prefix和当前条目title的1-2gram的余弦相似度;计算prefix针对于title的召回率、准确率以及精度;
位置特征:输入prefix判断其是否出现在query_prediction中,并定位其出现的位置。
进一步的,所述步骤S3包括将用户搜索的点击的多个联想条目转换为机器学习的多标签问题,转换为多标签数据集后其特征定义为多标签数据集特征,以LR、SVM、RandomForest、GBDT、XGBoost、LightGBM、CatBoost作为基模型调用多标签分类算法BR、CC、LIFT,训练得到多个机器学习模型。
进一步的,所述步骤S4包括对步骤S3得到的多个机器学习模型进行stacking模型融合,分别用线性回归以三折交叉训练子模型,拟合每一折后得到三个系数,以这三个系数的均值作为该子模型的融合系数作为stacking的第一层,再以这多个子模型进行训练,得到每个子模型的预测结果,将预测结果乘上各自的融合系数,求和得到最终概率。
进一步的,分别对每个模型调用线性回归得到每一折的预测结果包括:
将多个模型的预测值作为x,训练集每一折的真实值作为y,再次调用线性回归模型,:
则多个模型最终的融合系数为:
其中Mo表示第o个模型,yo_mpred表示第o个模型第m折的预测值,m∈{1,2,3};wo_m_n表示第o个模型的第m折的第n个系数,n∈{1,2,...,k};k表示提取的多标签数据集特征个数;xz表示第z个多标签数据集特征;ymf表示第m折的真实标签,wm_n表示第m折的第n个线性回归系数。
本发明的有益效果:
本发明通过采用对数据进行预处理操作,包括填充缺失值与去除重复值;对预处理后的数据集进行特征工程构建操作,提取基础统计特征、转换率特征、相似度特征、位置特征这四大类特征;将特征工程构建后的数据集转换为多标签数据集并训练多个机器学习模型,包括以LR、SVM、RandomForest、GBDT、XGBoost、LightGBM、CatBoost作为基模型调用的多标签分类算法模型BR、CC、LIFT,并预测结果;对多个机器学习模型进行stacking模型融合操作,从而得出搜索匹配的概率。与基于关键词匹配的方法相比,本方法用到了大数据相关的技术,其性能远远优于未使用到大数据相关技术的基于关键词匹配;与基于点击量匹配的方法相比,本方法使用的特征比较全面,且用到了机器学习较前沿的多标签分类算法,能更精确地匹配到多个联想条目。
附图说明
图1是本发明提供整个方法的流程图;
图2是本发明实施例提供BR模型的图形说明图;
图3是本发明实施例根据CC模型的图形说明图;
图4是本发明实施例提供LIFT模型的图形说明图;
图5表示发明实施例提供转换为多标签数据集的图形说明图;
图6表示发明实施例提供stacking模型融合图形说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明的目的是提供一种基于大数据的用户搜索匹配方法,为搜索引擎联想条目的排序提供参考,发掘出用户点击联想条目的潜在偏好。本发明提出的一种基于大数据的用户搜索匹配方法,如图1所示,本发明主要包括四个部分数据预处理、特征工程、构建模型以及模型融合;具体步骤参考以下步骤:
S1、对数据进行预处理操作:
(1)缺失值处理:
①对数值型属性的缺失值使用中位数填充。
假设含有缺失值的属性列从小到大排序后依次为attr1、attr2、attr3、…、attrl,则缺失值attr_null填充为:
②对非数值型属性的缺失值使用众数填充。
假设含缺失值的属性列取值的个数依次为attr1_ns、attr2_ns、attr3_ns、…、attrl_ns,则缺失值attr_null填充为:
attr_null=argmax(attr1_ns,attr2_ns,…,attrl_ns)
(2)重复值处理:
先记录样本的重复次数作为特征,然后删除重复的样本。
S2.对预处理后的数据集进行特征工程构建操作:
(1)基础统计特征
统计各个用户点击的总次数、均值、方差、标准差、众数、中位数、最大值、最小值、偏度、峰度;统计各种query_prediction被点击的总次数、均值、方差、标准差、众数、中位数、最大值、最小值、偏度、峰度;统计各个用户点击各种query_prediction的总次数、均值、方差、标准差、众数、中位数、最大值、最小值、偏度、峰度。
(2)转换率特征
计算各个用户点击的转换率;计算各种query_prediction被点击的转换率;计算各个用户点击各种query_prediction的转换率。
(3)相似度特征
计算各个prefix和title的1-2gram的余弦相似度等;计算prefix针对于title的召回率、准确率、精度等。
(4)位置特征
输入prefix是否出现在query_prediction中,并定位其出现的位置(前、中、后)
S3.将特征工程构建后的数据集转换为多标签数据集,训练多个机器学习模型并预测结果:
(1)多标签处理:
数据来源于日常搜索真实用户点击数据,数据集内同一搜索词对应多个点击是真实存在的,即用户对于某个搜索词可能会点击多个联想的条目。将其转换为机器学习中的多标签问题。转换为多标签数据集后其特征定义为多标签数据集特征。
作为一种可选方式,本发明采用以下三种标签分类算法:
(2)BR模型:
如图2所示,二元关联(Binary Relevance,BR)是最基本的多标签分类算法,它假设标签之间相互独立,直接把m个多标签转换为m个二分类问题,其中X表示训练集的特征,Yi表示训练集的第i个标签,hi表示训练得到的第i个基模型(LR、SVM、RandomForest、GBDT、XGBoost、LightGBM、CatBoost),xq表示测试集的第q个样本的特征,表示测试集的第q个样本的第i个标签的预测值。BR模型未考虑到标签特定特征和标签间的关联性。
(3)CC模型:
如图3所示,分类器链(Classifier Chain,CC)首先确定一条标签链,依次预测链上的标签。对于链上的第一个标签,训练预测时只使用到原始的特征;对于链上的第二个标签,训练预测时使用到了原始的特征和链上第一个标签的预测值;其中X表示训练集的特征,Yi表示训练集的第i个标签,hi表示训练得到的第i个基模型(LR、SVM、RandomForest、GBDT、XGBoost、LightGBM、CatBoost),xq表示测试集的第q个样本的特征,表示测试集的第q个样本的第i个标签的预测值;以此类推,对于链上的最后一个标签,训练预测时使用到了原始的特征和链上其余所有标签的预测值。CC模型考虑到了标签间的关联性。
(4)LIFT模型:
如图4所示,LIFT在训练预测时,对每个标签分正负样本分别聚类,以样本与各个聚类中心点的距离作为新特征代替原始特征训练模型,其中X表示训练集的特征,Yi表示训练集的第i个标签,Di+(X)表示第i个标签为正的样本,Di-(X)表示第i个标签为负的样本,Ci表示第i个标签的聚类中心点(总共有2×k个,其中k=min(||p+||×ratio,||p-||×ratio),ratio∈(0,1],ratio是输入的控制特定特征规模的参数,||p+||表示该目标下正样本的个数,||p-||表示该目标下负样本的个数),dist表示求欧式距离,Xis表示第i个标签的特定特征,hi表示训练得到的第i个基模型(LR、SVM、RandomForest、GBDT、XGBoost、LightGBM、CatBoost),xq表示测试集的第q个样本的特征,表示测试集的第q个样本的第i个标签的预测值。LIFT算法考虑到了标签特定特征。
对转换为多标签的数据集,以LR、SVM、RandomForest、GBDT、XGBoost、LightGBM、CatBoost作为基模型调用多标签分类算法BR、CC、LIFT,训练得到多个机器学习模型。
S4.对多个机器学习模型进行模型融合操作:
对第3步得到的多个机器学习模型进行stacking模型融合,用线性回归以3折交叉训练子模型拟合每一折得到3个系数,以这3个系数的均值作为该子模型的融合系数作为stacking的第一层,再以这多个子模型进行训练,得到每个子模型的预测结果,将预测结果乘上各自的融合系数,求和得到最终概率。过程如下:
(1)分别对每个模型调用线性回归得到每一折的预测结果。其中Mo表示第o个模型,yo_mpred表示第o个模型第m折的预测值,m∈{1,2,3};wo_m_n表示第o个模型的第m折的第n个系数,xz表示第z个特征:
(2)将多个模型的预测值作为x,训练集每一折的真实值作为y,再次调用线性回归模型,其中ymf表示第m折的真实标签,wm_n表示第m折的第n个线性回归系数:
(3)wo表示第o个模型的融合系数,则多个模型最终的融合系数为:
实施例2
在实施例1的基础上,本实施例结合具体数据,对本发明的实施方案进行进一步的阐述,本实施例给定用户输入prefix(用户输入,查询词前缀)以及文章标题、文章类型等数据,预测用户是否点击。数据来源于日常搜索真实用户点击数据,数据集内存在重复、同一搜索词对应多个点击的样本。
训练数据有5个属性,包括user_id(用户ID)、prefix(用户输入)、query_prediction(联想的所有条目)、title(当前条目)、label(是否点击)。测试数据只有4个属性,包括user_id、prefix、query_prediction和title,不含label。本发明需要对训练数据进行训练得到模型预测测试集的label。
训练数据的格式具体如表1:
表2实施例1采用的训练数据的格式
训练集的样本数据如表2:
表2实施例2采用的训练集样本数据
本发明提出的一种基于大数据的用户搜索匹配方法,包括以下步骤:
1.对数据进行预处理操作:
(1)缺失值处理:
①对数值型属性的缺失值使用中位数填充。
对于query_prediction属性中统计概率的缺失值,将该prefix下query_prediction的统计概率从小到大排序,依次为attr1、attr2、attr3、…、attrl,则缺失值attr_null填充为:
②对非数值型属性的缺失值使用众数填充。
对于title属性中的缺失值,若该prefix下title各个取值的个数依次为attr1_ns、attr2_ns、attr3_ns、…、attrl_ns,则缺失值attr_null填充为:
attr_null=arg max(attr1_ns,attr2_ns,…,attrl_ns)
(2)重复值处理:
先记录样本的重复次数作为特征,然后删除重复的样本。
2.对预处理后的数据集进行特征工程构建操作:
以user_id、prefix、query_prediction、title及其部分两两组合作为主键,提取基础统计特征(总次数、均值、方差、标准差、众数、中位数、最大值、最小值、偏度、峰度)、转换率特征(点击转换率、被点击转换率)、相似度特征(余弦相似度、召回率、准确率、精度)、位置特征(前、中、后)。
3.将特征工程构建后的数据集转换为多标签数据集,训练多个机器学习模型并预测结果:
首先按照query_prediction的统计概率大小顺序(总共10个),将特征工程构建后的数据集转换为多标签数据集(10个标签),如图5所示,假设有k个子模型,子模型也即多个机器模型中每一个模型;对每个子模型分别进行三折交叉后进行线性回归处理,最后得到每个子模型的融合系数;其中1Fold w1表示w1_1,其余参数同理;转换为多标签数据集后其特征定义为多标签数据集特征;再以LR、SVM、RandomForest、GBDT、XGBoost、LightGBM、CatBoost作为基模型调用多标签分类算法BR、CC、LIFT,训练得到多个机器学习模型。
4.对多个机器学习模型进行模型融合操作:
对第3步得到的多个机器学习模型进行stacking模型融合,用线性回归以3折交叉训练子模型拟合每一折得到3个系数,以这3个系数的均值作为该子模型的融合系数作为stacking的第一层,再以这多个子模型进行训练,得到每个子模型的预测结果,将预测结果乘上各自的融合系数,求和得到最终概率,如图6所示。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于大数据的用户搜索匹配方法,所述方法包括以下步骤:
S1、对数据进行预处理操作,包括填充缺失值和去除重复值;
S2、对预处理后的数据集进行特征工程构建操作,提取各类单标签数据集特征包括基础统计特征、转换率特征、相似度特征以及位置特征;
其特征在于,
S3、将特征工程构建后的数据集转换为多标签数据集并训练多个机器学习模型;转换为多标签数据集后其特征定义为多标签数据集特征;包括以逻辑回归LR、支持向量机SVM、随机森林RandomForest、梯度提升决策树GBDT、极限梯度提升树XGBoost、轻量级GBM梯度提升机LightGBM、具有分类特征支持的梯度增强CatBoost作为基模型分别调用多标签分类算法模型,并预测结果;
S4、对多个机器学习模型进行stacking模型融合操作,确定出用户搜索匹配的最终概率;其中,多标签分类模型包括二元关联模型BR、分类器链模型CC以及基于标签特定特征的多标签模型LIFT。
2.根据权利要求1所述的一种基于大数据的用户搜索匹配方法,其特征在于,所述填充缺失值包括对数值型属性的缺失值使用中位数填充;对非数值型属性的缺失值使用众数填充;所述重复值处理包括记录样本的重复次数作为特征,删除重复的样本;具体包括:
将缺失值的数值型属性的列按照从小到大排序后依次为:attr1、attr2、attr3、…、attrl,则缺失值attr_null填充为:
将缺失值的非数值属性的列取值的个数依次为:attr1_ns、attr2_ns、attr3_ns、…、attrl_ns,则缺失值attr_null填充为:
attr_null=arg max(attr1_ns,attr2_ns,…,attrl_ns);
其中,l表示属性列的长度或个数。
3.根据权利要求1所述的一种基于大数据的用户搜索匹配方法,其特征在于,所述单标签数据集特征具体包括:
基础统计特征:分别统计各个用户点击的各类统计参数;统计各种联想的所有条目query_prediction被点击的各类参数;统计各个用户点击各种query_prediction的各类参数;其中,所述各类参数包括总次数、均值、方差、标准差、众数、中位数、最大值、最小值、偏度以及峰度;
转换率特征:计算各个用户点击的转换率;计算各种联想的所有条目被点击的转换率;计算各个用户点击各种query_prediction的转换率;
相似度特征:计算各个用户输入prefix和当前条目title的1-2gram的余弦相似度;计算prefix针对于title的召回率、准确率以及精度;
位置特征:输入prefix判断其是否出现在query_prediction中,并定位其出现的位置。
4.根据权利要求1所述的一种基于大数据的用户搜索匹配方法,其特征在于,所述步骤S3包括将用户搜索点击的多个联想条目转换为机器学习的多标签问题,转换为多标签数据集后其特征定义为多标签数据集特征;以LR、SVM、RandomForest、GBDT、XGBoost、LightGBM以及CatBoost作为基模型调用多标签分类算法BR、CC、LIFT,训练得到多个机器学习模型。
5.根据权利要求1所述的一种基于大数据的用户搜索匹配方法,其特征在于,所述步骤S4包括对步骤S3得到的多个机器学习模型进行stacking模型融合,分别用线性回归以三折交叉训练子模型,拟合每一折后得到三个系数,以这三个系数的均值作为该子模型的融合系数,并作为stacking的第一层,再以这多个子模型进行训练,得到每个子模型的预测结果,将预测结果乘上各自的融合系数,求和得到最终概率。
6.根据权利要求1所述的一种基于大数据的用户搜索匹配方法,其特征在于,分别对每个模型调用线性回归得到每一折的预测结果包括:
将多个模型的预测值作为x,训练集每一折的真实值作为y,再次调用线性回归模型,:
则多个模型最终的融合系数为:
其中Mo表示第o个模型,yo_m pred表示第o个模型第m折的预测值,m∈{1,2,3};wo_m_n表示第o个模型的第m折的第n个系数,n∈{1,2,...,k};k表示提取的多标签数据集特征个数;xz表示第z个多标签数据集特征;ymf表示第m折的真实标签,wm_n表示第m折的第n个线性回归系数;wo表示第o个模型的融合系数。
CN201910021431.9A 2019-01-10 2019-01-10 一种基于大数据的用户搜索匹配方法 Pending CN109635118A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910021431.9A CN109635118A (zh) 2019-01-10 2019-01-10 一种基于大数据的用户搜索匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910021431.9A CN109635118A (zh) 2019-01-10 2019-01-10 一种基于大数据的用户搜索匹配方法

Publications (1)

Publication Number Publication Date
CN109635118A true CN109635118A (zh) 2019-04-16

Family

ID=66061582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910021431.9A Pending CN109635118A (zh) 2019-01-10 2019-01-10 一种基于大数据的用户搜索匹配方法

Country Status (1)

Country Link
CN (1) CN109635118A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427992A (zh) * 2019-07-23 2019-11-08 杭州城市大数据运营有限公司 数据匹配方法、装置、计算机设备及存储介质
CN110727743A (zh) * 2019-10-12 2020-01-24 杭州城市大数据运营有限公司 数据识别方法、装置、计算机设备及存储介质
CN110874373A (zh) * 2019-12-10 2020-03-10 杭州岑石能源科技有限公司 一种基于机器学习stacking模型的线变关系判定方法
CN110955814A (zh) * 2019-10-29 2020-04-03 哈尔滨师范大学 一种大数据智能搜索方法
CN110969304A (zh) * 2019-12-04 2020-04-07 汇鼎数据科技(上海)有限公司 数字工厂生产产能预测方法、系统、装置
CN111145912A (zh) * 2019-12-23 2020-05-12 浙江大学 一种基于机器学习的个性化超促排卵方案的预测装置
CN111291798A (zh) * 2020-01-21 2020-06-16 北京工商大学 一种基于集成学习的用户基础属性预测方法
CN111538873A (zh) * 2019-12-23 2020-08-14 浙江大学 一种基于端对端模型的电信客户流失概率预测方法及系统
CN111614520A (zh) * 2020-05-25 2020-09-01 杭州东方通信软件技术有限公司 一种基于机器学习算法的idc流量数据预测方法及装置
CN112035614A (zh) * 2020-08-31 2020-12-04 康键信息技术(深圳)有限公司 测试集生成方法、装置、计算机设备和存储介质
CN112101420A (zh) * 2020-08-17 2020-12-18 广东工业大学 一种相异模型下Stacking集成算法的异常用电用户识别方法
CN112506906A (zh) * 2020-12-04 2021-03-16 北京三维天地科技股份有限公司 一种基于人工智能技术的数据治理平台
CN112541076A (zh) * 2020-11-09 2021-03-23 北京百度网讯科技有限公司 目标领域的扩充语料生成方法、装置和电子设备
CN112801357A (zh) * 2021-01-21 2021-05-14 长江慧控科技(武汉)有限公司 日照辐射量预测方法、装置、设备及存储介质
CN115001763A (zh) * 2022-05-20 2022-09-02 北京天融信网络安全技术有限公司 钓鱼网站攻击检测方法、装置、电子设备及存储介质
CN117391836A (zh) * 2023-07-26 2024-01-12 人上融融(江苏)科技有限公司 一种基于不同标签的异质集成进行逾期概率建模的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845731A (zh) * 2017-02-20 2017-06-13 重庆邮电大学 一种基于多模型融合的潜在换机用户发现方法
CN107944913A (zh) * 2017-11-21 2018-04-20 重庆邮电大学 基于大数据用户行为分析的高潜在用户购买意向预测方法
US20180314735A1 (en) * 2017-05-01 2018-11-01 Futurewei Technologies, Inc. Using Machine Learning to Estimate Query Resource Consumption in MPPDB
CN109034658A (zh) * 2018-08-22 2018-12-18 重庆邮电大学 一种基于大数据金融的违约用户风险预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845731A (zh) * 2017-02-20 2017-06-13 重庆邮电大学 一种基于多模型融合的潜在换机用户发现方法
US20180314735A1 (en) * 2017-05-01 2018-11-01 Futurewei Technologies, Inc. Using Machine Learning to Estimate Query Resource Consumption in MPPDB
CN107944913A (zh) * 2017-11-21 2018-04-20 重庆邮电大学 基于大数据用户行为分析的高潜在用户购买意向预测方法
CN109034658A (zh) * 2018-08-22 2018-12-18 重庆邮电大学 一种基于大数据金融的违约用户风险预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANSHUAI_AW1: ""模型融合之stacking&blending原理及代码"", 《CSDN—HTTPS://BLOG.CSDN.NET/ANSHUAI_AW1/ARTICLE/DETAILS/82498557》 *
数据分析入门与实战: "数据分析入门与实战", 《搜狐—WWW.SOHU.COM/A/256808658_787107》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427992A (zh) * 2019-07-23 2019-11-08 杭州城市大数据运营有限公司 数据匹配方法、装置、计算机设备及存储介质
CN110727743A (zh) * 2019-10-12 2020-01-24 杭州城市大数据运营有限公司 数据识别方法、装置、计算机设备及存储介质
CN110955814A (zh) * 2019-10-29 2020-04-03 哈尔滨师范大学 一种大数据智能搜索方法
CN110969304A (zh) * 2019-12-04 2020-04-07 汇鼎数据科技(上海)有限公司 数字工厂生产产能预测方法、系统、装置
CN110874373A (zh) * 2019-12-10 2020-03-10 杭州岑石能源科技有限公司 一种基于机器学习stacking模型的线变关系判定方法
CN111145912A (zh) * 2019-12-23 2020-05-12 浙江大学 一种基于机器学习的个性化超促排卵方案的预测装置
CN111538873A (zh) * 2019-12-23 2020-08-14 浙江大学 一种基于端对端模型的电信客户流失概率预测方法及系统
CN111145912B (zh) * 2019-12-23 2023-04-18 浙江大学 一种基于机器学习的个性化超促排卵方案的预测装置
CN111291798A (zh) * 2020-01-21 2020-06-16 北京工商大学 一种基于集成学习的用户基础属性预测方法
CN111614520B (zh) * 2020-05-25 2021-12-14 杭州东方通信软件技术有限公司 一种基于机器学习算法的idc流量数据预测方法及装置
CN111614520A (zh) * 2020-05-25 2020-09-01 杭州东方通信软件技术有限公司 一种基于机器学习算法的idc流量数据预测方法及装置
CN112101420A (zh) * 2020-08-17 2020-12-18 广东工业大学 一种相异模型下Stacking集成算法的异常用电用户识别方法
CN112035614A (zh) * 2020-08-31 2020-12-04 康键信息技术(深圳)有限公司 测试集生成方法、装置、计算机设备和存储介质
CN112035614B (zh) * 2020-08-31 2023-11-10 康键信息技术(深圳)有限公司 测试集生成方法、装置、计算机设备和存储介质
CN112541076A (zh) * 2020-11-09 2021-03-23 北京百度网讯科技有限公司 目标领域的扩充语料生成方法、装置和电子设备
CN112541076B (zh) * 2020-11-09 2024-03-29 北京百度网讯科技有限公司 目标领域的扩充语料生成方法、装置和电子设备
CN112506906A (zh) * 2020-12-04 2021-03-16 北京三维天地科技股份有限公司 一种基于人工智能技术的数据治理平台
CN112801357A (zh) * 2021-01-21 2021-05-14 长江慧控科技(武汉)有限公司 日照辐射量预测方法、装置、设备及存储介质
CN112801357B (zh) * 2021-01-21 2024-04-02 长江慧控科技(武汉)有限公司 日照辐射量预测方法、装置、设备及存储介质
CN115001763A (zh) * 2022-05-20 2022-09-02 北京天融信网络安全技术有限公司 钓鱼网站攻击检测方法、装置、电子设备及存储介质
CN115001763B (zh) * 2022-05-20 2024-03-19 北京天融信网络安全技术有限公司 钓鱼网站攻击检测方法、装置、电子设备及存储介质
CN117391836A (zh) * 2023-07-26 2024-01-12 人上融融(江苏)科技有限公司 一种基于不同标签的异质集成进行逾期概率建模的方法

Similar Documents

Publication Publication Date Title
CN109635118A (zh) 一种基于大数据的用户搜索匹配方法
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN101305366B (zh) 从非结构化文本提取和显现图表结构化关系的方法和系统
CN105095195B (zh) 基于知识图谱的人机问答方法和系统
US8190556B2 (en) Intellegent data search engine
CN107609052A (zh) 一种基于语义三角的领域知识图谱的生成方法及装置
WO2016161976A1 (zh) 选择数据内容向终端推送的方法和装置
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
CN105045875B (zh) 个性化信息检索方法及装置
CN107256267A (zh) 查询方法和装置
CN102866990A (zh) 一种主题对话方法和装置
CN106796600A (zh) 相关项目的计算机实现的标识
CN110633366A (zh) 一种短文本分类方法、装置和存储介质
CN110489578A (zh) 图片处理方法、装置及计算机设备
CN109416695A (zh) 在自动聊天中提供本地服务信息
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
US11321580B1 (en) Item type discovery and classification using machine learning
WO2023155508A1 (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
US11645095B2 (en) Generating and utilizing a digital knowledge graph to provide contextual recommendations in digital content editing applications
CN115840812A (zh) 一种根据政策文本智能匹配企业的方法及系统
CN109584006A (zh) 一种基于深度匹配模型的跨平台商品匹配方法
CN112749330A (zh) 信息推送方法、装置、计算机设备和存储介质
CN115545832A (zh) 商品搜索推荐方法及其装置、设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190416

RJ01 Rejection of invention patent application after publication