CN116776131A - 基于图的特征降维方法、意向评级方法及相关设备 - Google Patents
基于图的特征降维方法、意向评级方法及相关设备 Download PDFInfo
- Publication number
- CN116776131A CN116776131A CN202311065130.9A CN202311065130A CN116776131A CN 116776131 A CN116776131 A CN 116776131A CN 202311065130 A CN202311065130 A CN 202311065130A CN 116776131 A CN116776131 A CN 116776131A
- Authority
- CN
- China
- Prior art keywords
- rating
- feature
- features
- correlation
- weight matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 99
- 239000011159 matrix material Substances 0.000 claims abstract description 119
- 238000012549 training Methods 0.000 claims description 87
- 238000012545 processing Methods 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 14
- 230000001960 triggered effect Effects 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 abstract description 14
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 230000008569 process Effects 0.000 description 10
- 230000006399 behavior Effects 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000005520 cutting process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 230000006854 communication Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
Abstract
本申请实施例提供了一种基于图的特征降维方法、意向评级方法及相关设备,涉及人工智能技术领域,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。特征降维方法包括:对第一样本信息包括的各特征分别建立节点,基于特征之间的第一相关性、特征和预设标签之间的第二相关性确定连接在两个节点之间的边的权重值,得到图;针对与所有边的权重值对应的第一权重矩阵进行聚类,得到第二权重矩阵,以使第二权重矩阵的维度低于第一权重矩阵的维度;所述第二权重矩阵用于数据特征降维。本申请的实施可以基于所构建的图进行特征降维,以提升模型效果。
Description
技术领域
本申请涉及人工智能技术领域,具体而言,本申请涉及一种基于图的特征降维方法、意向评级方法及相关设备。
背景技术
在机器学习应用中,特征维度的增加,可能导致模型过拟合,同时增加模型运行的时间和复杂度。
为提高模型运行的效率,现有技术中提供了特征降维方法,但通用的特征降维算法一般属于无监督的算法,基于特征考虑对高维特征进行降维。然而,现有的特征降维方法无法保证降维后的模型效果。
发明内容
本申请实施例为解决上述至少一项技术问题,提供了一种基于图的特征降维方法、意向评级方法及相关设备。所述技术方案如下:
第一方面,本申请实施例提供了一种基于图的特征降维方法,包括:
针对第一样本信息中包括的各个特征分别建立节点,并基于特征之间的第一相关性以及特征和预设标签之间的第二相关性确定连接在两个节点之间的边的权重值,得到与所述第一样本信息相应的图;
针对与所有所述边的权重值对应的第一权重矩阵进行聚类处理,得到第二权重矩阵,以使所述第二权重矩阵的维度低于所述第一权重矩阵的维度;所述第二权重矩阵用于数据特征降维。
在一可行的实施例中,所述基于特征之间的第一相关性以及特征和预设标签之间的第二相关性确定连接在两个节点之间的边的权重值,包括:
针对任意两个特征,基于特征之间交集的大小与特征之间并集的大小的比值确定该两个特征之间的第一相关性,直至确定所有特征之间的第一相关性;
针对任意一个特征,基于该特征对应于正样本时与预设标签的相关性和该特征对应于负样本时与预设标签的相关性,确定该特征与预设标签之间的第二相关性,直至确定所有特征与预设标签的第二相关性;
基于所述第一相关性和所述第二相关性确定所有连接在两个节点之间的边的权重值。
在一可行的实施例中,所述基于所述第一相关性和所述第二相关性确定所有连接在两个节点之间的边的权重值,包括:
针对任意两个特征执行下述操作,直至确定所有边的权重值,并得到由所有边的权重值组成的第一权重矩阵:
基于所述第二相关性确定将该两个特征聚合后的增益;
基于所述增益和负的所述第一相关性确定该两个特征之间边的权重值。
在一可行的实施例中,所述基于所述第二相关性确定将该两个特征聚合后的增益,包括:
将该两个特征进行特征组合处理,得到第一组合特征;
确定所述第一组合特征与预设标签之间的第二相关性,并将该第二相关性与该两个特征中较大的第二相关性的差值确定为该两个特征聚合后的增益;
其中,所述特征组合处理包括针对待组合的两个特征分别对应的每个样本进行组合。
在一可行的实施例中,所述方法还包括:
基于所述第二权重矩阵对所述第一样本信息进行特征组合处理,得到第二样本信息;所述第二样本信息中包括的特征数量小于所述第一样本信息中包括的特征数量。
在一可行的实施例中,所述基于所述第二权重矩阵对所述第一样本信息进行特征组合处理,得到第二样本信息,包括:
针对所述第二权重矩阵进行聚类处理,得到第三权重矩阵;所述第三权重矩阵中一个特征对应一个类别;
基于所述第三权重矩阵所指示的特征与类别之间的对应关系,将所属类别相同的特征进行特征组合处理,得到第二组合特征;
基于所述第二组合特征和未进行特征组合的其他特征,确定第二样本信息;
其中,所述特征组合处理包括针对待组合的各个特征分别对应的每个样本进行组合。
在一可行的实施例中,所述基于与所有所述边的权重值对应的第一权重矩阵进行谱聚类处理,得到第二权重矩阵,包括:
基于与所有所述边的权重值对应的第一权重矩阵,对与所述第一样本信息相应的图进行重建,得到重建后的图与由该图中边的权重值组成的第二权重矩阵,以使重建后的图中距离较远的两个节点之间边的权重值较小,距离较近的两个节点之间边的权重值较大。
第二方面,本申请提供一种意向评级方法,包括:
响应于在意向评级页面针对评级对象信息触发的评级操作,发送评级请求,所述评级请求携带有所述评级对象信息;
在所述意向评级页面显示接收到的基于所述评级请求反馈的意向度信息;所述意向度信息包括对应于所述评级对象信息中的各个评级对象的意向度和该意向度排序结果中的至少一项;所述意向度为通过预训练的评级模型基于第一评级特征确定的;所述第一评级特征包括基于评级对象信息获取的用于意向评级的特征;
其中,所述评级模型通过下述操作训练而得:
获取与意向评级相关的第一训练数据;
采用第一方面所述基于图的特征降维方法对所述第一训练数据进行特征降维,得到第二训练数据;
基于所述第二训练数据进行模型训练,得到评级模型。
第三方面,本申请提供一种意向评级方法,包括:
接收到评级请求,基于该评级请求携带的评级对象信息获取相应的第一评级特征;
通过预训练的评级模型,基于所述第一评级特征确定所述评级对象信息中各评级对象的意向度;
基于所述评级请求反馈意向度信息,所述意向度信息包括所述意向度和该意向度排序结果中的至少一项;
其中,所述评级模型通过下述操作训练而得:
获取与意向评级相关的第一训练数据;
采用第一方面所述基于图的特征降维方法对所述第一训练数据进行特征降维,得到第二训练数据;
基于所述第二训练数据进行模型训练,得到评级模型。
在一可行的实施例中,所述第一评级特征包括与评级对象相关的对象特征和与意向评级相关的线索特征;
所述通过预训练的评级模型,基于所述第一评级特征确定所述评级对象信息中各评级对象的意向度,包括:
采用所述基于图的特征降维方法对所述第一评级特征中的所述对象特征和所述线索特征中的至少一项进行特征降维,得到第二评级特征;
通过预训练的评级模型,基于所述第二评级特征确定所述评级对象信息中各评级对象的意向度。
第四方面,本申请提供一种基于图的特征降维装置,包括:
图构建模块,用于针对第一样本信息中包括的各个特征分别建立节点,并基于特征之间的第一相关性以及特征和预设标签之间的第二相关性确定连接在两个节点之间的边的权重值,得到与所述第一样本信息相应的图;
图聚类模块,用于针对与所有所述边的权重值对应的第一权重矩阵进行聚类处理,得到第二权重矩阵,以使所述第二权重矩阵的维度低于所述第一权重矩阵的维度;所述第二权重矩阵用于数据特征降维。
第五方面,本申请实施例提供一种意向评级装置,包括:
发送模块,用于响应于在意向评级页面针对评级对象信息触发的评级操作,发送评级请求,所述评级请求携带有所述评级对象信息;
显示模块,用于在所述意向评级页面显示接收到的基于所述评级请求反馈的意向度信息;所述意向度信息包括对应于所述评级对象信息中的各个评级对象的意向度和该意向度排序结果中的至少一项;所述意向度为通过预训练的评级模型基于第一评级特征确定的;所述第一评级特征包括基于评级对象信息获取的用于意向评级的特征;
其中,所述评级模型通过下述操作训练而得:
获取与意向评级相关的第一训练数据;
采用第一方面所述基于图的特征降维方法对所述第一训练数据进行特征降维,得到第二训练数据;
基于所述第二训练数据进行模型训练,得到评级模型。
第六方面,本申请实施例提供一种意向评级装置,包括:
获取模块,用于接收到客户端发送的评级请求,基于该评级请求携带的评级对象信息获取相应的第一评级特征;
评级模块,用于通过预训练的评级模型,基于所述第一评级特征确定所述评级对象信息中各评级对象的意向度;
反馈模块,用于向所述客户端反馈所述意向度;
其中,所述装置还包括训练模块,用于执行下述操作以训练得到所述评级模型:
获取与意向评级相关的第一训练数据;
采用第一方面所述基于图的特征降维方法对所述第一训练数据进行特征降维,得到第二训练数据;
基于所述第二训练数据进行模型训练,得到评级模型。
第七方面,本申请实施例提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现上述第一方面或第二方面提供的方法的步骤。
第八方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面或第二方面提供的方法的步骤。
第九方面,本申请实施例提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述第一方面或第二方面提供的方法的步骤。
本申请实施例提供的技术方案带来的有益效果是:
第一方面,本申请实施例提供一种基于图的特征降维方法,具体地,针对用于建模的第一样本信息,可以首先构建与第一样本信息相应的无向图,该图中对应于第一样本信息包括的各个特征均建立有相应的节点,而连接在两个节点之间的边设有相应的权重值,该权重值可以基于特征之间的第一相关性以及特征和预设标签之间的第二相关性确定,所有边的权重值可以组成第一权重矩阵;在构建有图的基础上,可以针对第一权重矩阵进行聚类处理,得到第二权重矩阵,以使第二权重矩阵的维度低于第一权重矩阵的维度;在此基础上,得到的第二权重矩阵可以用于数据特征降维。本申请的实施针对样本信息进行基于图的特征降维处理,过程中同时考虑了特征之间的相关性以及特征和标签之间的相关性,达到特征降维的同时,可有效保证模型的效果。
第二方面,本申请实施例提供一种意向评级方法,具体地,适应于意向评级场景,在线下操作中,可以在获取到与意向评级相关的第一训练数据时,调用第一方面提供的基于图的特征降维方法对第一训练数据进行特征降维,得到第二训练数据,并采用第二训练数据进行模型训练,得到评级模型;该线下操作可以有效提高模型建模的效率。在线上操作中,响应于在意向评级页面针对评级对象信息触发的评级操作,可以将评级对象信息携带于评级请求中发送,继而在接收到基于评级请求反馈的意向度时,在意向评级页面显示意向度;其中,意向度是通过训练所得的评级模型基于第一评级特征确定的对应于评级对象信息中各个评级对象的意向度,且第一评级特征包括基于评级对象信息获取的用于意向评级的特征。本申请的实施应用线下训练而得评级模型预测各评级对象的意向度,可以在保证意向度准确性的同时有效提高意向评级的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种基于图的特征降维方法的流程图;
图2a为本申请实施例提供的一种应用于终端的意向评级方法的流程图;
图2b为本申请实施例提供的一种应用于服务器的意向评级方法的流程图;
图2c为本申请实施例提供的一种评级模型的训练方法的流程图;
图3为本申请实施例提供的一种无向图的示意图;
图4为本申请实施例提供的另一种无向图的示意图;
图5为本申请实施例提供的一种意向评级的整理流程图;
图6为本申请实施例提供的一种意向评级的界面示意图;
图7为本申请实施例提供的一种意向评级的界面示意图;
图8为本申请实施例提供的一种基于图的特征降维装置的示意图;
图9a为本申请实施例提供的一种应用于终端的意向评级装置的示意图;
图9b为本申请实施例提供的一种应用于服务器的意向评级装置的示意图;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式 “一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或 “耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例涉及人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
具体地,本申请实施例涉及机器学习(Machine Learning,ML)技术。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
下面针对本申请实施例中的基于图的特征降维方法进行说明。
具体地,本申请实施例提供的方法的执行主体可以是终端或服务器;终端(也可以称为设备),可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备(例如智能音箱)、可穿戴电子设备(例如智能手表)、车载终端、智能家电(例如智能电视)、AR/VR设备等,但并不局限于此。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统(如分布式云存储系统),还可以是提供云计算、云存储服务的云服务器。
其中,本申请实施例中降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。
具体地,如图1所示,该基于图的特征降维方法包括步骤S101-步骤S102:
步骤S101:针对第一样本信息中包括的各个特征分别建立节点,并基于特征之间的第一相关性以及特征和预设标签之间的第二相关性确定连接在两个节点之间的边的权重值,得到与所述第一样本信息相应的图。
其中,第一样本信息可以是用于建模的样本信息、也可以是模型的输入信息;如适应于建模场景,第一样本信息可以是获取到用于进行模型训练的信息;适应于采用模型进行数据处理的场景,第一样本信息可以是输入模型的信息。其中,第一样本信息可以包括多个样本,每个样本可以包括多个特征,各个特征具有其与各个样本的对应关系,而样本具有其对应的标签;在此基础上,针对某一特征可以表示出其与各个样本之间的对应关系。示例性的,第一样本信息中第i个特征可以表示为,第j个特征可以表示为/>,其中,n为样本总量,/>为对应于第k个样本的第i个特征值,/>为对应于第k个样本的第j个特征值;对应的标签/>,其中/>为第k个样本的标签,取值0或者1。
其中,在本申请实施例构建的图中,定义节点为各个特征,如第一样本信息中包括10000个特征时,图的节点总数为10000个,也即在步骤S101构建的无向图中节点与特征具有一一对应的关系。为实现最终降维后的特征具有特征冗余性小,特征和标签的相关性高的目的,定义图中连接两个节点的边的权重与特征之间的第一相关性以及特征和标签之间的第二相关性有关。
步骤S102:基于与所有所述边的权重值对应的第一权重矩阵进行聚类处理,得到第二权重矩阵,以使所述第二权重矩阵的维度低于所述第一权重矩阵的维度;所述第二权重矩阵用于数据特征降维。
其中,在得到所有边的权重值时,可以相应得到第一权重矩阵,若第一样本信息中包括m个特征,则可以得到一个m*m的第一权重矩阵W;该矩阵中表达有m*(m-1)个边的权重值,也即每一节点与其他节点之间边的权重值。
其中,聚类处理是基于所构建的图进行,如结合图中所示的节点以及节点之间边的权重值进行图的重建(如切图),使聚类处理所得的图中距离较远的两个节点之间的边的权重值较低,距离较近的两个节点之间的边的权重值较高,以在该图的基础上实现降维,得到相应的第二权重矩阵。继而,本申请实施例在得到第二权重矩阵后,可以基于第二权重矩阵进行特征降维,以减少第一样本信息中的特征数量。
可选地,可以采用谱聚类的方式进行聚类处理。谱聚类可以是基于图演化而得的算法,具体是把所有的数据看做空间中的节点,这些节点之间可以用边连接起来。距离较远的两个节点之间的边的权重值较低,而距离较近的两个节点之间的边的权重值较高,通过对所有数据相应的节点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的,以实现对特征的降维。
可选地,步骤S102中针对与所有所述边的权重值对应的第一权重矩阵进行聚类处理,得到第二权重矩阵,可以包括:基于与所有所述边的权重值对应的第一权重矩阵,对与所述第一样本信息相应的图进行重建,得到重建后的图与由该图中边的权重值组成的第二权重矩阵,以使重建后的图中距离较远的两个节点之间边的权重值较小,距离较近的两个节点之间边的权重值较大。
其中,由于谱聚类实现的是聚类,相应的,基于m*m的第一权重矩阵进行谱聚类后得到的m*d的第二权重矩阵中,d小于或等于m。可以理解的是,第二权重矩阵的维度低于第一权重矩阵的维度。
可选地,上述谱聚类可以理解为图聚类操作,可以采用谱聚类中的Ncut切图算法或RadioCut切图算法实现上述步骤S102的处理。
下面针对本申请实施例中构建与第一样本信息相应的图的具体内容进行说明。
在一可行的实施例中,步骤S101中基于特征之间的第一相关性以及特征和预设标签之间的第二相关性确定连接在两个节点之间的边的权重值,包括步骤A1-步骤A3:
步骤A1:针对任意两个特征,基于特征之间交集的大小与特征之间并集的大小的比值确定该两个特征之间的第一相关性,直至确定所有特征之间的第一相关性。
其中,考虑特征之间的相关性时,以两两特征为单位计算一次相关性,直至完成所有特征之间的相关性计算。
可选地,特征之间交集的大小可以取两个特征分别在各个样本中所指示元素的交集确定,特征之间并集的大小可以取两个特征分别在各个样本中所指示元素的交集确定。其中,特征之间交集的大小与特征之间并集的大小的比值可以采用交并比函数(Intersection over Union,IoU)进行计算,两个特征之间的iou值越小,指示特征更多样(相关性不高)。在一示例中,特征之间的相关性定义如下公式(1)所示:
......公式(1)
其中,为第一样本信息中的第i个特征,/>为第一样本信息中的第j个特征,/>指示第i个特征和第j个特征之间的第一相关性,该值表示两个特征之间交集的大小与并集的大小的比值。如公式(1)所示,/>越大,表示两个特征之间越相关;/>越小,表示两个特征之间越不相关。
步骤A2:针对任意一个特征,基于该特征对应于正样本时与预设标签的相关性和该特征对应于负样本时与预设标签的相关性,确定该特征与预设标签之间的第二相关性,直至确定所有特征与预设标签的第二相关性。
其中,考虑特征与标签之间的相关性时,以一个特征为单位计算一次相关性,直至完成所有特征和标签的相关性计算。可选地,特征和标签之间的相关性定义如公式(2)所示:
......公式(2)
其中,a表示正样本,b表示负样本,为第i个特征对应于正样本时与标签对应的概率;/>为第i个特征对应于负样本时与标签对应的概率。可以理解的是,如公式(2)所示,IV值越大,表示第i个特征和标签Y的相关性越大。
可选地,还可以采用其他方式衡量特征和标签的相关性,以及特征之间的相关性;如计算相关系数等方式。
步骤A3:基于所述第一相关性和所述第二相关性确定所有连接在两个节点之间的边的权重值。
其中,连接在两个节点之间的一条边所对应的权重值基于相应两个特征之间的第一相关性和该两个特征分别对应的第二相关性确定。通过步骤A3的执行可以确定出图中各条边的权重值。
可选地,步骤A3中基于所述第一相关性和所述第二相关性确定所有连接在两个节点之间的边的权重值,包括针对任意两个特征执行下述操作,直至确定所有边的权重值,并得到由所有边的权重值组成的第一权重矩阵:
步骤A31:基于所述第二相关性确定将该两个特征聚合后的增益。
考虑到同一条边连接的两个节点所对应的两个特征可以聚合,为使得两个特征聚合后可以和标签的相关性变大,同时两个特征的相关性尽可能小,达到两个特征互补同时带来效果增益的目的,首先确定出两个特征合并所带来的增益。
其中,步骤A31中基于所述第二相关性确定将该两个特征聚合后的增益,包括步骤A311-步骤A312:
步骤A311:将该两个特征进行特征组合处理,得到第一组合特征。
可选地,特征组合处理包括针对待组合的两个特征分别对应的每个样本进行组合。其中,组合的方式可以是取交、取并、求和、求平均值、取最大值、取最小值等。
步骤A312:确定所述第一组合特征与预设标签之间的第二相关性,并将该第二相关性与该两个特征中较大的第二相关性的差值确定为该两个特征聚合后的增益。
可选地,聚合后的增益可以定义如下公式(3)所示:
......公式(3)
其中,Merge表示两个特征合并,可以通过上述步骤A311实现;如公式(3)所示,当两个特征相连时,两个特征合并后的IV值与该两个特征中最大的IV值的差值,即两个特征合并带来的增益。
步骤A32:基于所述增益和负的所述第一相关性确定该两个特征之间边的权重值。
可选地,图的边的权重值w定义如下公式(4)所示:
......公式(4)
其中,如公式(4)所示,当两个特征越不相关,两个特征组合带来的增益越大,相应地,两个特征之间边的权重值越大。
可选地,在得到图中所有边的权重值时,可以相应得到如下公式(5)所示的矩阵图:
......公式(5)
其中,公式(5)所示的矩阵为m*m的矩阵,m为特征数量;为对应特征i和特征1的边的权重值。其中,i和j的取值为[1,m]。
结合图3进行示例说明:当第一样本信息中包括5个特征(x1、x2、x3、x4和x5)时,可以构建得到图3所示的无向图。从图3可见,与第一样本信息相应的图中,一特征对应一个节点,每一节点均与其他节点建立有连接,也即针对每一特征均考虑其与所有其他特征之间的关系。基于图3示例的无向图,可以得到一个5*5的矩阵W。
下面针对本申请实施例中进行特征降维的具体内容进行说明。
在一可行的实施例中,本申请实施例提供的方法还包括步骤S103:
步骤S103:基于所述第二权重矩阵对所述第一样本信息进行特征组合处理,得到第二样本信息,所述第二样本信息中包括的特征数量小于所述第一样本信息中包括的特征数量。
其中,步骤S102中基于第二权重矩阵进行特征组合处理包括对权重矩阵所指示相同类别下的特征进行组合,从而得到降维后的特征。采用降维后的特征进行建模或将其作为模型的输入,可以达到不降低模型性能同时提高模型效率的效果。
在一可行的实施例中,步骤S103中基于所述第二权重矩阵对所述第一样本信息进行特征组合处理,得到第二样本信息,包括步骤B1-步骤B3:
步骤B1:针对所述第二权重矩阵进行聚类处理,得到第三权重矩阵;所述第三权重矩阵中一个特征对应一个类别。
可选地,在基于m*m的矩阵W(第一权重矩阵)进行谱聚类,得到m*d的矩阵P(第二权重矩阵)后,可以采用聚类算法(如K-Means聚类算法)进一步聚类,得到m*z维度的矩阵Q(第三权重矩阵)。其中,m为特征的个数,z为通过K-Means聚类所得到的个数。
可选地,m*z的矩阵Q为每一行只有一个1值的矩阵,其表示每个特征所属的类别。
步骤B2:基于所述第三权重矩阵所指示的特征与类别之间的对应关系,将所属类别相同的特征进行特征组合处理,得到第二组合特征。
可选地,可以将属于同一类别的特征进行组合,得到组合特征。其中,特征组合处理包括针对待组合的各个特征分别对应的每个样本进行组合。可以理解的是,同一类别中需要进行组合的特征包括至少两个。特征组合的处理可以参考上述实施例的步骤A311中的示例方式进行;如针对待组合的两个特征的每个样本进行交或者并的计算,两个特征的每个样本进行求和、求均值、求取最大值或者求取最小值。
步骤B3:基于所述第二组合特征和未进行特征组合的其他特征,确定第二样本信息。
可选地,在m*z矩阵Q的基础上针对同一类别的特征进行组合后,最终得到z个特征,也即第二样本信息包括z个特征。可以理解的是,第二样本信息是经过降维操作得到的,也即z小于m。
为更好地说明本申请实施例中提供的基于图的特征降维方法,下面结合图4所示的例子进行示例说明。
如图4所示,有三个特征x1、x2和x3,其中x1由三个样本构成,每个样本对应的x1特征值为0,1,0;x2由三个样本构成,每个样本对应的x2特征值为1,1,0;x1和x2的权重通过公式(4)计算得到w=0.1;x2和x3的权重通过公式(4)计算得到w=0.2;x1和x3的权重通过公式(4)计算得到w=0.3;则对应的第一权重矩阵W(3*3)可以表示为
基于第一权重矩阵W进行谱聚类得到的第二权重矩阵P(3*2)可以表示为
基于第二权重矩阵P聚类成2类后的第三权重矩阵Q(3*2)可以表示为
在第三权重矩阵Q的基础上进行特征组合时,x1作为一个特征,x2和x3由于属于一个类别对其进行合并得到一个第二组合特征,如果采用求平均的方式,最终3个特征聚合成2个特征,且可以表示为:x1=[0,1,0],x2=[1.5,1,0]。
下面针对本申请实施例中应用于终端的意向评级方法进行说明。
具体地,本申请实施例提供的方法的执行主体可以是终端;终端(也可以称为设备),可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备(例如智能音箱)、可穿戴电子设备(例如智能手表)、车载终端、智能家电(例如智能电视)、AR/VR设备等,但并不局限于此。
在一示例中,如图5所示,终端可以与服务器双向通信,在意向评级场景中,意向评级可以是指连续的意向度,由高至低,意向度越来越低,如图7所示。其中,方案实施时由终端运行的客户端与操作对象交互,获取操作对象提供的评级对象信息向服务器发送,继而通过服务器基于评级对象信息确定各个评级对象的意向度并向终端反馈意向度信息。可选地,图5中虚线框示例的操作流程可以由服务器执行,可以由独立于服务器的其他电子设备(如云平台)执行。
如图2a所示,该方法包括S201-步骤S202:
步骤S201:响应于在意向评级页面针对评级对象信息触发的评级操作,发送评级请求,所述评级请求携带有所述评级对象信息。
其中,如图6所示,操作对象可以通过客户端上显示的意向评级页面输入与待评级的评级对象相关的评级对象信息,并通过触发页面上布局的控件“输入完成”向服务器发送评级请求。
可选地,评级对象信息可以采用列表形式表现,如操作对象可以直接输入一份带有评级对象列表信息的文档,该文档中所涉及的各个评级对象将显示在意向评级页面上,如图6所示的对象1、对象2......对象n-1。可以理解的是,图6所示页面上的对象排序可以与操作对象输入的信息有关,也可以是随机的显示排序。
其中,评级对象信息可以是对应于各个评级对象的手机号、唯一识别的标识ID等。为更好地确保数据安全,在通信过程中传输的评级对象信息可以是密文信息,如终端将评级对象信息进行加密后传输至服务器,由服务器对密文信息进行解密后获得相应的明文信息。
可选地,评级对象信息中包括的评级对象可以是操作对象选取的,如当前运行的为属于某一品牌店铺的线上购物程序时,操作对象可以从注册有该店铺会员账号的对象中选择至少两个对象进行意向评级。如可以筛选近半年曾有购买记录的对象作为评级对象,以基于预测出的意向度为该类型的对象推送与店铺相关的信息;还可以筛选出近一年内无购买记录的对象作为评级对象,以基于预测出的意向度考虑是否退出对该类型对象的管理,避免所需管理的对象群体过大等。
步骤S202:在所述意向评级页面显示接收到的基于所述评级请求反馈的意向度信息;所述意向度信息包括对应于所述评级对象信息中的各个评级对象的意向度和该意向度排序结果中的至少一项;所述意向度为通过预训练的评级模型基于第一评级特征确定的;所述第一评级特征包括基于评级对象信息获取的用于意向评级的特征。
其中,如图7所示,在接收到反馈的意向度时,可以在意向评级页面显示意向度排序结果,如将预测的意向度最高的评级对象3排序在最前,将预测的意向度最低的评级对象8排序在最后。
可选地,服务器也可以直接向终端反馈意向度的排序结果,如排序列表(意向度从高至低排序),而不直接推送与各个评级对象分别对应的意向度数据,以降低推送的数据量,减少终端所需处理的数据量,提高整体响应的效率。
可选地,可以通过本申请实施例提供的基于图的特征降维方法针对训练数据降维后,采用降维后的训练数据进行模型训练,得到评级模型。其中,模型的训练可以实施在终端或服务器,或独立于上述各个执行主体的电子设备中。
如图2c所示,模型训练的操作包括步骤C1-步骤C3:
步骤C1:获取与意向评级相关的第一训练数据。
其中,第一训练数据可以是对意向评级的应用场景所涉及的历史数据进行标记得到的。第一训练数据中可以包括正样本和负样本中的至少一项,且每一样本具有与其对应的标签,取值为0或1;第一训练数据中包括的特征可以是对样本进行特征提取处理得到的,任意一个特征的表达与每一样本的表达均具有相关性(该相关性可以是不相关、相关性低、相关性高等的情况),如特征,其中,n为样本总量,/>为对应于第k个样本的第i个特征值。
可选地,如图5所示,第一训练数据中的特征信息还可以是直接从特征库获取得到的,无需针对样本数据进行额外的特征提取操作。
步骤C2:采用上述实施例提供的基于图的特征降维方法对所述第一训练数据进行特征降维,得到第二训练数据。
其中,如图5所示,在模型训练阶段,可以将第一训练数据先输入至执行基于图的特征降维方法的模块进行特征降维,得到第二训练数据,以通过对训练数据的降维在保证模型效果的基础上提高建模的效率。
具体地,可以基于图的特征降维方法得到第二权重矩阵,然后利用第二权重矩阵对第一训练数据进行特征降维,得到第二训练数据,其中,利用第二权重矩阵对第一训练数据进行特征降维的过程,可参考利用第二权重矩阵进行特征降维得到第二样本信息的过程。
步骤C3:基于所述第二训练数据进行模型训练,得到评级模型。
可选地,第二训练数据为降维后的训练数据,通过第二训练数据进行模型训练,可以有效提高建模阶段的效率。考虑到所适应应用场景更新爹迭代情况较快的问题,采用降维后的训练数据还可以更快地完成模型的更新,提高整体的响应速度和与应用场景的适配度。
下面针对本申请实施例中应用于服务器的意向评级方法进行说明。
具体地,本申请实施例提供的方法的执行主体可以服务器;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统(如分布式云存储系统),还可以是提供云计算、云存储服务的云服务器。
如图2b所示,该方法包括步骤S301-步骤S303:
步骤S301:接收到评级请求,基于该评级请求携带的评级对象信息获取相应的第一评级特征。
其中,如图5所示,服务器可以从终端侧获取评级对象信息,继而在相应的特征库中获取相应的第一评级特征。可选地,特征库中存储有与评级对象相关的特征信息和与场景相应的特征信息。
可选地,评级对象信息可以是终端将其携带于评级请求中一并向服务器发送的,也可以是服务器在接收到评级请求时主动向终端获取的。
步骤S302:通过预训练的评级模型,基于所述第一评级特征确定所述评级对象信息中各评级对象的意向度。
可选地,评级模型可以是分类模型,用于预估评级对象与设定行为的对应概率,或预估评级对象可能实施行为的概率分布。其中,意向度可以表征评级对象实施指定行为的可能性。如商城上新一款物品,预估评级对象购买该物品的意向度。
步骤S303:基于所述评级请求反馈意向度信息,所述意向度信息包括所述意向度和该意向度排序结果中的至少一项。
其中,如图5所示,服务器在获取到评级模型输出的意向度后,可以直接将意向度反馈至终端,也可以基于该意向度对各评级对象进行排序并向终端反馈排序结果(如基于意向度从高至低对评级对象进行排序)。
其中,所述第一评级特征包括与评级对象相关的对象特征和与意向评级相关的线索特征。可选地,对象特征包括所有与评级对象相关的特征信息,线索特征包括与设定行为相关的特征信息。
示例性的,假设应用场景为针对某一线下实体店,预估近半年曾在该实体店购买商品的顾客(评级对象),在未来一个月内再次到店购买商品的意向。在该场景下,对象特征可以是与评级对象相关的特征信息,如评级对象的身高、体型、性别、在近半年曾到店的次数、在近半年曾购买商品的次数、在近半年购买商品的类型、近半年到店的时间等等。线索特征可以是与设定行为相关的特征信息,如未来一个月店铺出售的商品类型、商品数量、营业时间等。
在步骤S302中通过预训练的评级模型,基于所述第一评级特征确定所述评级对象信息中各评级对象的意向度,包括步骤S302a-步骤S302b:
步骤S302a:针对所述第一评级特征中的对象特征和线索特征中的至少一项进行特征降维,得到第二评级特征。
具体地,可以基于图的特征降维方法得到第二权重矩阵,然后利用第二权重矩阵对第一评级特征进行特征降维,得到第二评级特征,其中,利用第二权重矩阵对第一评级特征进行特征降维的过程,可参考利用第二权重矩阵进行特征降维得到第二样本信息的过程。
在针对待输入评级模型的第一评级特征进行特征降维时,可以存在下述三种情况:
情况1:一方面,考虑到线索特征对意向评级的影响是非常大的,且线索特征与所需预测的设定行为密切相关,其特征维度相对于对象特征的特征维度而言较低,为保证意向评级的准确度,可以仅对对象特征进行降维处理。另一方面,考虑到对象特征涉及的范围非常广,特征维度相对于线索特征的特征维度而言较高,且可能存在大部分与意向评级无关或影响非常小的特征,因此,为提高意向评级的效率,可以针对对象特征进行特征降维处理。
情况2:在一些对象行为对所预测意向影响非常大的场景中,对象特征对意向评级的影响是非常大的,在保证意向评级有效性的基础上为提高评级模型的处理效率,可以考虑针对线索特征进行降维。
情况3:为提高评级模型的处理效率,降低计算的复杂度,可以针对对象特征和线索特征进行降维,以更大程度地降低输入评级模型的特征维度。可选地,在情况3的特征降维操作中,可以将对象特征和线索特征分开独立进行降维处理,以保证这两项特征之间互不影响,有效保证模型所预测意向度的准确性;另外,还可以选择将对象特征和线索特征作为一个整体进行降维处理,以更大程度地减少特征数量,提高模型运行的效率。
可选地,如图5所示,用于执行基于图的特征降维方法的模块还可以是一个神经网络,如训练得到的模型,该模型可以针对输入的特征(第一评级特征)进行降维处理,如组合其中的某一些特征,降低输入特征的特征维度,得到特征数量少于第一评级特征的第二评级特征。
可选地,在一示例中,如图5所示,可以将从特征库中获取到的第一评级特征输入执行基于图的特征降维方法的模块(该模块可以为执行设定程序的数学模块),得到降维后的第二评级特征;由于线上运行过程中,不涉及特征与标签的第二相关性,因此在线上运行过程中,图中边的权重值考虑两两特征之间的第一相关性。
可选地,特征降维可以包括合并相似度大于预设相似阈值的特征、滤除对意向评级的影响最小的预设位数的特征中的至少一项操作。其中,特征合并的相似度可以采用上述实施例定义的公式(1)计算得到,也可以采用其他相关性计算的方法,如通过皮尔逊相关系数衡量特征之间相关关系的密切程度。其中,滤除对意向评级影响较小的特征时,可以结合对象特征和线索特征进行,由于线索特征对意向评级结果的影响较大,则对象特征和线索特征的相关性越小,对象特征对意向评级的影响越小。可选地,可以获取当前用于意向评级的设定行为,作为考虑对象特征对意向评级影响程度的基准信息。
步骤S302b:通过预训练的评级模型,基于所述第二评级特征确定所述评级对象信息中各评级对象的意向度。
其中,如图5所示,评级模型可以针对降维后得到的第二评级特征进行意向评级,并输出与各评级对象对应的意向度。
下面结合应用例针对本申请实施例所提供的意向评级方法进行示例说明。
应用例一
场景:某一导航应用,配置有多种语音包,操作对象在应用驾车导航功能时,可以基于个人需求选择使用不同的语音包。配置的语音包中部分是免费向操作对象提供的,部分是付费的。为实现更好的营收,需要针对性开发或上线操作对象愿意付费使用的语音包,并有针对性地向操作对象推荐。为提高语音包推荐的有效性(可以通过推荐数量和购买数量进行衡量),需要预先评估各个操作对象购买语音包的意向度,以优选向意向度高的操作对象进行付费语音包的推荐。
运营对象可以将近半年曾使用驾车导航功能的操作对象确定为评级对象,如图6所示,运营对象可以在意向评级页面导入待评级的对象列表,导入列表的信息可以显示图6下方区域所示的内容。在确认信息导入成功后,运营对象可以通过触发“输入完成”控件发起评级请求。其中,对象列表中可以包括用于唯一标识对象身份的信息(如ID、手机号等)。
如图5所示,终端可以将相应的评级对象信息携带于评级请求中向服务器发送,服务器在接收到评级请求时,可以基于评级对象信息从特征库中获取第一评级特征;第一评级特征可以包括对象特征和线索特征,其中对象特征可以包括表达有以下内容的特征信息:正在使用的语音包、更换语音包的频率、曾付费购买语音包的次数、购买语音包的付费金额、性别、年龄、身高、体重、家庭情况、户籍、居住地等。线索特征可以包括针对所推荐的付费语音包表达有以下内容的特征信息:语音包所属对象、语音包所采用的语言、语音包表达的情绪、语音包的购买价格等。在获取到第一评级特征后,可以将其中的对象特征输入至执行基于图的特征降维方法的模块,以针对对象特征进行降维,继而将线索特征和降维后的对象特征输入评级模型,通过评级模型预估各个评级对象购买所推荐的付费语音包的意向度。
其中,针对对象特征进行降维时,可以将仅表达对象个人信息的特征归为一类进行合并,也可以将所表达内容非常近似的特征归为一类进行合并。如将上述特征信息中的性别、年龄、身高、体重、家庭情况、户籍和居住地等聚类为同一类别,并针对各项信息进行组合,最终以一项特征的形式表征对象的个人特征。
服务器在获取到评级模型反馈的意向度后,可以基于意向度对评级对象进行排序,并将意向度和排序结果一并打包反馈至终端。如图7所示,终端可以在意向评级页面显示排序结果,运营对象在浏览该排序结果时,点击某一对象时可以查看该对象相应的意向度。
应用例二
场景:某一实体店,需要预估曾到店购买商品的对象群体再次到店购买商品的意向度。
其中,可以采用该实体店的历史购物数据构建用于训练模型的样本数据;如对历史购物数据打标签,构造出包括正样本和负样本的训练数据。考虑到该实体店经营时间较长,若采用全部的训练数据对模型进行训练,建模的效率非常低,因此可以先通过本申请实施例提供的基于图的特征降维方法对训练数据进行降维,继而采用降维后的训练数据进行模型训练,得到用于预估对象再次到店购买商品的意向度的评级模型。
在应用阶段,实体店的运营者可以将需要评级的对象通过意向评级页面输入并发起评级请求。继而,终端可以向服务器发送评级请求,由服务器基于评级对象信息从特征库中获取第一评级特征。
其中,特征库可以是独立于服务器存在的数据库,也可以是服务器内部用于存储特征的库。特征库可以是线下建立的,通过将到该实体店访问或购物的所有对象的信息输入,通过特征提取操作,提取得到多项特征存储在特征库中。
其中,第一评级特征可以包括对象特征和线索特征。对象特征可以包括所有与该对象相关的特征;线索特征可以包括与再次到店购物的行为相关的特征。
在得到第一评级特征后,可以直接采用评级模型进行意向预估,得到与各评级对象对应的意向度。可选地,考虑到与对象相关的特征维度较高,为提高模型效率,可以先针对对象特征进行特征降维操作,继而将线索特征和降维后的对象特征输入评级模型,得到意向度。
服务器在得到评级模型输出的意向度时,可以基于意向度对评级对象进行级别排序,如意向度大于第一阈值或意向度最高的预设位数的对象,可以划入高意向级别,意向度小于第二阈值或意向度最低的预设位数的对象,可以划入无意向级别,其他的可以划入低意向级别,继而针对意向级别对评级对象排序(属于同一意向级别内的无需排序),并将排序结果反馈至终端。在终端的意向评级页面上通过不同的区域显示不同意向级别的评级对象信息。
为更好地说明本申请实施例所能达到的效果,结合表1所示的数据进行分析:
表1
示例性的,采用意向评级场景下的数据作为训练数据,该数据包括100万样本,20000维特征。分别对机器学习xgboost(eXtreme Gradient Boosting,极度梯度提升树网络)建模和深度网络DeepFM(Deep Factorization Machines,深度特征交叉网络)建模,进行标签0和1的拟合。本申请将特征从20000维降维到100维。对比降维前后的模型效果,采用ACU(Area Under Curve,被定义为ROC曲线下的面积)进行效果指标计算。如表1所示的结果可知,特征降维后的意向评级效果较降维前效果没有下降,且略有提升,同时提高了模型建模效率。
需要说明的是,在本申请的可选实施例中,所涉及到的数据(如第一样本信息、评级对象信息、第一评级特征等相关的数据),当本申请以上实施例运用到具体产品或技术中时,需要获得使用对象许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。也就是说,本申请实施例中如果涉及到与对象有关的数据,这些数据需要经由对象授权同意、且符合国家和地区的相关法律法规和标准的情况下获取的。
本申请实施例提供了一种基于图的特征降维装置,如图8所示,该基于图的特征降维装置100可以包括:图构建模块101、图聚类模块102。
其中,图构建模块101,用于针对第一样本信息中包括的各个特征分别建立节点,并基于特征之间的第一相关性以及特征和预设标签之间的第二相关性确定连接在两个节点之间的边的权重值,得到与所述第一样本信息相应的图;图聚类模块102,用于针对与所有所述边的权重值对应的第一权重矩阵进行聚类处理,得到第二权重矩阵,以使所述第二权重矩阵的维度低于所述第一权重矩阵的维度;所述第二权重矩阵用于数据特征降维。
本申请实施例提供了一种意向评级装置,如图9a所示,该应用于终端的意向评级装置200可以包括:发送模块201和显示模块202。
其中,发送模块201,用于响应于在意向评级页面针对评级对象信息触发的评级操作,发送评级请求,所述评级请求携带有所述评级对象信息;显示模块202,用于在所述意向评级页面显示接收到的基于所述评级请求反馈的意向度信息;所述意向度信息包括对应于所述评级对象信息中的各个评级对象的意向度和该意向度排序结果中的至少一项;所述意向度为通过预训练的评级模型基于第一评级特征确定的;所述第一评级特征包括基于评级对象信息获取的用于意向评级的特征。
本申请实施例提供了一种意向评级装置,如图9b所示,该应用于服务器的意向评级装置300可以包括:获取模块301、评级模块302、反馈模块303。
其中,获取模块301,用于接收到客户端发送的评级请求,基于该评级请求携带的评级对象信息获取相应的第一评级特征;评级模块302,用于通过预训练的评级模型,基于所述第一评级特征确定所述评级对象信息中各评级对象的意向度;反馈模块303,用于向所述客户端反馈所述意向度。
可选地,上述意向评级装置还可以包括训练模块,用于执行下述操作训练得到评级模型:
获取与意向评级相关的第一训练数据;
采用上述实施例提供的所述基于图的特征降维方法对所述第一训练数据进行特征降维,得到第二训练数据;
基于所述第二训练数据进行模型训练,得到评级模型。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
描述于本申请实施例中所涉及到的模块可以通过软件实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,图构建模块还可以被描述为“针对第一样本信息中包括的各个特征分别建立节点,并基于特征之间的第一相关性以及特征和预设标签之间的第二相关性确定连接在两个节点之间的边的权重值,得到与所述第一样本信息相应的图的模块”、“第一模块”等。
本申请实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现基于图的特征降维方法的步骤,与相关技术相比可实现:第一方面,本申请实施例提供一种基于图的特征降维方法,具体地,针对用于建模的第一样本信息,可以首先构建与第一样本信息相应的无向图,该图中对应于第一样本信息包括的各个特征均建立有相应的节点,而连接在两个节点之间的边设有相应的权重值,该权重值可以基于特征之间的第一相关性以及特征和预设标签之间的第二相关性确定,所有边的权重值可以组成第一权重矩阵;在构建有图的基础上,可以针对第一权重矩阵进行聚类处理,得到第二权重矩阵,以使第二权重矩阵的维度低于第一权重矩阵的维度;在此基础上,得到的第二权重矩阵可以用于数据特征降维。本申请的实施针对样本信息进行基于图的特征降维处理,过程中同时考虑了特征之间的相关性以及特征和标签之间的相关性,达到特征降维的同时,可有效保证模型的效果。
第二方面,本申请实施例提供一种意向评级方法,具体地,适应于意向评级场景,在线下操作中,可以在获取到与意向评级相关的第一训练数据时,调用第一方面提供的基于图的特征降维方法对第一训练数据进行特征降维,得到第二训练数据,并采用第二训练数据进行模型训练,得到评级模型;该线下操作可以有效提高模型建模的效率。在线上操作中,响应于在意向评级页面针对评级对象信息触发的评级操作,可以将评级对象信息携带于评级请求中发送,继而在接收到基于评级请求反馈的意向度时,在意向评级页面显示意向度;其中,意向度是通过训练所得的评级模型基于第一评级特征确定的对应于评级对象信息中各个评级对象的意向度,且第一评级特征包括基于评级对象信息获取的用于意向评级的特征。本申请的实施应用线下训练而得评级模型预测各评级对象的意向度,可以在保证意向度准确性的同时有效提高意向评级的效率。
在一个可选实施例中提供了一种电子设备,如图10所示,图10所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器4003用于存储执行本申请实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
其中,电子设备包括但不限于:终端、服务器。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。
Claims (13)
1.一种基于图的特征降维方法,其特征在于,包括:
针对第一样本信息中包括的各个特征分别建立节点,并基于特征之间的第一相关性以及特征和预设标签之间的第二相关性确定连接在两个节点之间的边的权重值,得到与所述第一样本信息相应的图;
针对与所有所述边的权重值对应的第一权重矩阵进行聚类处理,得到第二权重矩阵,以使所述第二权重矩阵的维度低于所述第一权重矩阵的维度;所述第二权重矩阵用于数据特征降维。
2.根据权利要求1所述的方法,其特征在于,所述基于特征之间的第一相关性以及特征和预设标签之间的第二相关性确定连接在两个节点之间的边的权重值,包括:
针对任意两个特征,基于特征之间交集的大小与特征之间并集的大小的比值确定该两个特征之间的第一相关性,直至确定所有特征之间的第一相关性;
针对任意一个特征,基于该特征对应于正样本时与预设标签的相关性和该特征对应于负样本时与预设标签的相关性,确定该特征与预设标签之间的第二相关性,直至确定所有特征与预设标签的第二相关性;
基于所述第一相关性和所述第二相关性确定所有连接在两个节点之间的边的权重值。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一相关性和所述第二相关性确定所有连接在两个节点之间的边的权重值,包括:
针对任意两个特征执行下述操作,直至确定所有边的权重值,并得到由所有边的权重值组成的第一权重矩阵:
基于所述第二相关性确定将该两个特征聚合后的增益;
基于所述增益和负的所述第一相关性确定该两个特征之间边的权重值。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第二相关性确定将该两个特征聚合后的增益,包括:
将该两个特征进行特征组合处理,得到第一组合特征;
确定所述第一组合特征与预设标签之间的第二相关性,并将该第二相关性与该两个特征中较大的第二相关性的差值确定为该两个特征聚合后的增益;
其中,所述特征组合处理包括针对待组合的两个特征分别对应的每个样本进行组合。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述第二权重矩阵对所述第一样本信息进行特征组合处理,得到第二样本信息;所述第二样本信息中包括的特征数量小于所述第一样本信息中包括的特征数量。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第二权重矩阵对所述第一样本信息进行特征组合处理,得到第二样本信息,包括:
针对所述第二权重矩阵进行聚类处理,得到第三权重矩阵;所述第三权重矩阵中一个特征对应一个类别;
基于所述第三权重矩阵所指示的特征与类别之间的对应关系,将所属类别相同的特征进行特征组合处理,得到第二组合特征;
基于所述第二组合特征和未进行特征组合的其他特征,确定第二样本信息;
其中,所述特征组合处理包括针对待组合的各个特征分别对应的每个样本进行组合。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述针对与所有所述边的权重值对应的第一权重矩阵进行聚类处理,得到第二权重矩阵,包括:
基于与所有所述边的权重值对应的第一权重矩阵,对与所述第一样本信息相应的图进行重建,得到重建后的图与由该图中边的权重值组成的第二权重矩阵,以使重建后的图中距离较远的两个节点之间边的权重值较小,距离较近的两个节点之间边的权重值较大。
8.一种意向评级方法,其特征在于,包括:
响应于在意向评级页面针对评级对象信息触发的评级操作,发送评级请求,所述评级请求携带有所述评级对象信息;
在所述意向评级页面显示接收到的基于所述评级请求反馈的意向度信息;所述意向度信息包括对应于所述评级对象信息中的各个评级对象的意向度和该意向度排序结果中的至少一项;所述意向度为通过预训练的评级模型基于第一评级特征确定的;所述第一评级特征包括基于评级对象信息获取的用于意向评级的特征;
其中,所述评级模型通过下述操作训练而得:
获取与意向评级相关的第一训练数据;
采用权利要求1-7中任一项所述基于图的特征降维方法对所述第一训练数据进行特征降维,得到第二训练数据;
基于所述第二训练数据进行模型训练,得到评级模型。
9.根据权利要求8所述的方法,其特征在于,所述第一评级特征包括与评级对象相关的对象特征和与意向评级相关的线索特征;
通过预训练的评级模型,基于所述第一评级特征确定所述评级对象信息中各评级对象的意向度,包括:
采用所述基于图的特征降维方法针对所述第一评级特征中的所述对象特征和所述线索特征中的至少一项进行特征降维,得到第二评级特征;
通过预训练的评级模型,基于所述第二评级特征确定所述评级对象信息中各评级对象的意向度。
10.一种基于图的特征降维装置,其特征在于,包括:
图构建模块,用于针对第一样本信息中包括的各个特征分别建立节点,并基于特征之间的第一相关性以及特征和预设标签之间的第二相关性确定连接在两个节点之间的边的权重值,得到与所述第一样本信息相应的图;
图聚类模块,用于针对与所有所述边的权重值对应的第一权重矩阵进行聚类处理,得到第二权重矩阵,以使所述第二权重矩阵的维度低于所述第一权重矩阵的维度;所述第二权重矩阵用于数据特征降维。
11.一种意向评级装置,其特征在于,包括:
发送模块,用于响应于在意向评级页面针对评级对象信息触发的评级操作,发送评级请求,所述评级请求携带有所述评级对象信息;
显示模块,用于在所述意向评级页面显示接收到的基于所述评级请求反馈的意向度信息;所述意向度信息包括对应于所述评级对象信息中的各个评级对象的意向度和该意向度排序结果中的至少一项;所述意向度为通过预训练的评级模型基于第一评级特征确定的;所述第一评级特征包括基于评级对象信息获取的用于意向评级的特征;
其中,所述评级模型通过下述操作训练而得:
获取与意向评级相关的第一训练数据;
采用权利要求1-7中任一项所述基于图的特征降维方法对所述第一训练数据进行特征降维,得到第二训练数据;
基于所述第二训练数据进行模型训练,得到评级模型。
12.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-9中任一项所述方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311065130.9A CN116776131A (zh) | 2023-08-23 | 2023-08-23 | 基于图的特征降维方法、意向评级方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311065130.9A CN116776131A (zh) | 2023-08-23 | 2023-08-23 | 基于图的特征降维方法、意向评级方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116776131A true CN116776131A (zh) | 2023-09-19 |
Family
ID=87991706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311065130.9A Pending CN116776131A (zh) | 2023-08-23 | 2023-08-23 | 基于图的特征降维方法、意向评级方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116776131A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644042A (zh) * | 2016-07-22 | 2018-01-30 | 平安科技(深圳)有限公司 | 软件程序点击率预估排序方法及服务器 |
JP2018180928A (ja) * | 2017-04-13 | 2018-11-15 | ムーヴ株式会社 | 購入意向評価システム及び広告出稿方法 |
CN109656433A (zh) * | 2017-10-11 | 2019-04-19 | 腾讯科技(深圳)有限公司 | 类目信息处理方法、装置、计算机设备和存储介质 |
CN109992663A (zh) * | 2019-03-11 | 2019-07-09 | 出门问问信息科技有限公司 | 意向评级模型及其构建方法、计算机设备及存储介质 |
CN110727872A (zh) * | 2019-10-21 | 2020-01-24 | 深圳微品致远信息科技有限公司 | 基于隐式反馈进行不明确选择行为挖掘的方法及装置 |
CN114049155A (zh) * | 2021-11-17 | 2022-02-15 | 浙江华坤道威数据科技有限公司 | 基于大数据分析的营销运营方法、系统 |
CN114119044A (zh) * | 2021-11-11 | 2022-03-01 | 浙江工业大学 | 一种基于信息增益的宽带电视用户推荐方法及装置 |
CN115423514A (zh) * | 2022-08-31 | 2022-12-02 | 睿驰达新能源汽车科技(沈阳)有限公司 | 一种基于mlp的车企用户综合线索的评级方法 |
CN115693785A (zh) * | 2022-11-21 | 2023-02-03 | 中国南方电网有限责任公司 | 一种电力系统暂态功角稳定性判别方法及其相关装置 |
CN116109373A (zh) * | 2022-12-05 | 2023-05-12 | 中国工商银行股份有限公司 | 金融产品的推荐方法、装置、电子设备和介质 |
CN116433310A (zh) * | 2021-12-31 | 2023-07-14 | 北京有竹居网络技术有限公司 | 商品推荐方法、装置、电子设备及存储介质 |
US20230230126A1 (en) * | 2022-01-19 | 2023-07-20 | Intuit Inc. | Methods and systems for training and using predictive risk models in software applications |
-
2023
- 2023-08-23 CN CN202311065130.9A patent/CN116776131A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644042A (zh) * | 2016-07-22 | 2018-01-30 | 平安科技(深圳)有限公司 | 软件程序点击率预估排序方法及服务器 |
JP2018180928A (ja) * | 2017-04-13 | 2018-11-15 | ムーヴ株式会社 | 購入意向評価システム及び広告出稿方法 |
CN109656433A (zh) * | 2017-10-11 | 2019-04-19 | 腾讯科技(深圳)有限公司 | 类目信息处理方法、装置、计算机设备和存储介质 |
CN109992663A (zh) * | 2019-03-11 | 2019-07-09 | 出门问问信息科技有限公司 | 意向评级模型及其构建方法、计算机设备及存储介质 |
CN110727872A (zh) * | 2019-10-21 | 2020-01-24 | 深圳微品致远信息科技有限公司 | 基于隐式反馈进行不明确选择行为挖掘的方法及装置 |
CN114119044A (zh) * | 2021-11-11 | 2022-03-01 | 浙江工业大学 | 一种基于信息增益的宽带电视用户推荐方法及装置 |
CN114049155A (zh) * | 2021-11-17 | 2022-02-15 | 浙江华坤道威数据科技有限公司 | 基于大数据分析的营销运营方法、系统 |
CN116433310A (zh) * | 2021-12-31 | 2023-07-14 | 北京有竹居网络技术有限公司 | 商品推荐方法、装置、电子设备及存储介质 |
US20230230126A1 (en) * | 2022-01-19 | 2023-07-20 | Intuit Inc. | Methods and systems for training and using predictive risk models in software applications |
CN115423514A (zh) * | 2022-08-31 | 2022-12-02 | 睿驰达新能源汽车科技(沈阳)有限公司 | 一种基于mlp的车企用户综合线索的评级方法 |
CN115693785A (zh) * | 2022-11-21 | 2023-02-03 | 中国南方电网有限责任公司 | 一种电力系统暂态功角稳定性判别方法及其相关装置 |
CN116109373A (zh) * | 2022-12-05 | 2023-05-12 | 中国工商银行股份有限公司 | 金融产品的推荐方法、装置、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3862893A1 (en) | Recommendation model training method, recommendation method, device, and computer-readable medium | |
CN111626832B (zh) | 产品推荐方法、装置及计算机设备 | |
CN110969516A (zh) | 一种商品推荐方法及装置 | |
CN106570718B (zh) | 信息的投放方法及投放系统 | |
EP4181026A1 (en) | Recommendation model training method and apparatus, recommendation method and apparatus, and computer-readable medium | |
CN110008397B (zh) | 一种推荐模型训练方法及装置 | |
EP4242955A1 (en) | User profile-based object recommendation method and device | |
CN112163963B (zh) | 业务推荐方法、装置、计算机设备和存储介质 | |
CN109785064A (zh) | 一种基于多源信息融合的移动电子商务推荐方法和系统 | |
CN111008335B (zh) | 一种信息处理方法、装置、设备及存储介质 | |
CN110135976A (zh) | 用户画像生成方法、装置、电子设备和计算机可读介质 | |
CN109087138A (zh) | 数据处理方法及系统、计算机系统和可读存储介质 | |
CN113781139A (zh) | 物品推荐方法、物品推荐装置、设备和介质 | |
CN115186192A (zh) | 信息处理方法、装置、存储介质及设备 | |
CN112989182B (zh) | 信息处理方法、装置、信息处理设备及存储介质 | |
CN111768218A (zh) | 用于处理用户交互信息的方法和装置 | |
WO2017095371A1 (en) | Product recommendations based on selected user and product attributes | |
CN116776131A (zh) | 基于图的特征降维方法、意向评级方法及相关设备 | |
CN114943563A (zh) | 一种权益推送方法、装置、计算机设备及存储介质 | |
Johannes et al. | Sales Prediction Model Using Classification Decision Tree Approach For Small Medium Enterprise Based on Indonesian E-Commerce Data | |
Tran et al. | Combining social relations and interaction data in Recommender System with Graph Convolution Collaborative Filtering | |
CN111460300A (zh) | 网络内容推送方法、装置及存储介质 | |
Guo et al. | Explainable recommendation systems by generalized additive models with manifest and latent interactions | |
Thakur et al. | A novel approach: using Bayesian belief networks in product recommendation | |
US11238468B1 (en) | Semantic graph database capture of industrial organization and market structure |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |