CN116976491A

CN116976491A - 一种信息预测方法、装置、设备、存储介质及程序产品

Info

Publication number: CN116976491A
Application number: CN202310557197.8A
Authority: CN
Inventors: 林岳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-10-31

Abstract

本申请提供了一种信息预测方法、装置、设备、存储介质及程序产品；本申请实施例可以应用于虚拟资源处理、信息推荐等的信息预测场景中；该方法包括：针对待预测业务的业务数据进行特征提取，得到多个候选特征，并解析得到每个候选特征的重要性指标；依据多个候选特征分别对应的多个重要性指标，对多个候选特征进行特征子集的确定，得到至少两个特征子集；针对每个特征子集，在待预测业务下进行性能评估，得到评估结果；依据每个特征子集的评估结果，从至少两个特征子集中筛选得到最优特征子集；基于最优特征子集和目标对象所对应的对象数据，预测得到目标对象在待预测业务下的业务信息。通过本申请，能够提升业务场景的信息预测的准确度。

Description

一种信息预测方法、装置、设备、存储介质及程序产品

技术领域

本申请涉及人工智能技术，尤其涉及一种信息预测方法、装置、设备、存储介质及程序产品。

背景技术

借助于人工智能对业务场景的数据进行分析，以对业务场景进行信息预测，是人工智能技术的一个常见应用。为了提升信息预测的准确度，减少所占用的计算资源，需要对针对业务场景的数据进行特征选择，以得到最优特征子集，然后将最优特征子集应用于业务场景的信息预测过程中。然而，相关技术中的特征选择方法针对高维数据、复杂数据的表现欠佳，从而使得相关技术中对于不同的业务场景选择出的最优特征子集的准确度较低，进而对业务场景的信息预测的准确度造成影响。

发明内容

本申请实施例提供一种信息预测方法、装置、设备、计算机可读存储介质及计算机程序产品，能够提升业务场景的信息预测的准确度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种信息预测方法，包括：

针对待预测业务的业务数据进行特征提取，得到多个候选特征，并对多个所述候选特征分别进行重要性解析，得到每个所述候选特征的重要性指标；

依据多个所述候选特征分别对应的多个所述重要性指标，对多个所述候选特征进行特征子集的确定，得到至少两个所述特征子集；

针对每个所述特征子集，在所述待预测业务下进行性能评估，得到每个所述特征子集的评估结果；

依据每个所述特征子集的所述评估结果，从至少两个所述特征子集中筛选得到所述待预测业务的最优特征子集；

基于所述最优特征子集和目标对象所对应的对象数据，预测得到目标对象在所述待预测业务下的业务信息。

本申请实施例提供一种信息预测装置，包括：

特征处理模块，用于针对待预测业务的业务数据进行特征提取，得到多个候选特征；对多个所述候选特征分别进行重要性解析，得到每个所述候选特征的重要性指标；

子集生成模块，用于依据多个所述候选特征分别对应的多个所述重要性指标，对多个所述候选特征进行特征子集的确定，得到至少两个所述特征子集；

性能评估模块，用于针对每个所述特征子集，在所述待预测业务下进行性能评估，得到每个所述特征子集的评估结果；

子集筛选模块，用于依据每个所述特征子集的所述评估结果，从至少两个所述特征子集中筛选得到所述待预测业务的最优特征子集；

信息生成模块，用于基于所述最优特征子集和目标对象所对应的对象数据，预测得到目标对象在所述待预测业务下的业务信息。

在本申请的一些实施例中，所述特征处理模块，还用于按照随机森林模型的控制参数，为多个所述候选特征构建对应的随机森林模型；其中，所述随机森林模型包括至少两个决策树；计算得到每个所述候选特征在每个所述决策树中所对应的增益提升值；将每个所述候选特征在至少两个所述决策树中的增益提升值进行累加，并对累加增益值与所述决策树的数量进行比例运算，完成对每个所述候选特征的重要性解析，得到每个所述候选特征的所述重要性指标。

在本申请的一些实施例中，所述子集生成模块，还用于依据多个所述重要性指标之间的大小关系，对多个所述候选特征进行排序，得到特征序列；采用至少两种子序列提取方式，对所述特征序列进行子序列的提取，并将提取得到的至少两个子序列确定为至少两个所述特征子集。

在本申请的一些实施例中，所述性能评估模块，还用于从所述待预测业务的所述业务数据中，针对每个所述特征子集提取得到对应的训练数据，并利用每个所述特征子集对应的训练数据训练得到每个所述特征子集所对应的任务模型；确定每个所述特征子集所对应的任务模型针对所述待预测业务的验证数据的预测准确度，并将所述预测准确度确定为每个所述特征子集的评估结果，完成针对每个所述特征子集在所述待预测业务下的性能评估。

在本申请的一些实施例中，所述信息生成模块，还用于基于所述最优特征子集，确定所述待预测业务的信息预测模型；从所述目标对象的对象数据中，提取得到与所述最优特征子集相对应的特征数据集合；通过所述信息预测模型，从所述特征数据集合中预测得到所述目标对象在所述待预测业务下的所述业务信息。

在本申请的一些实施例中，所述特征处理模块，还用于依据所述业务数据的类型，从多个特征提取模型中针对所述业务数据选择对应的匹配提取模型；通过所述匹配提取模型对所述业务数据进行特征提取，得到多个所述候选特征。

在本申请的一些实施例中，所述信息预测装置还包括：数据预处理模块，用于对所述待预测业务的原始数据进行数据清洗，得到清洗数据；针对所述清洗数据中的缺失值进行补全处理，得到补全数据；将所述补全数据进行标准化处理，得到标准数据，并将所述标准数据进行归一化处理，得到归一化数据；从所述归一化数据中，提取得到待预测业务的所述业务数据。

在本申请的一些实施例中，所述数据预处理模块，还用于依据所述清洗数据的数据特点，针对所述缺失值确定匹配填充方式；按照所述匹配填充方式，对所述清洗数据中的所述缺失值进行补全，得到所述补全数据。

在本申请的一些实施例中，所述特征处理模块，还用于结合所述待预测业务的业务复杂度以及所述业务数据的数据复杂度中的至少一个，针对所述随机森林模型的初始参数进行调整，得到所述控制参数。

在本申请的一些实施例中，所述特征处理模块，还用于结合所述待预测业务的业务复杂度以及所述业务数据的数据复杂度中的至少一个，针对多个模型类型分别所对应的多组模型参数；依据多组所述模型参数，构建得到多个模型类型各自的初始提取模型，并利用训练样本对多个所述初始提取模型进行训练，得到多个所述特征提取模型。

本申请实施例提供一种电子设备，包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令时，实现本申请实施例提供的信息预测方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令，用于引起处理器执行时，实现本申请实施例提供的信息预测方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时实现本申请实施例提供的信息预测方法。

本申请实施例具有以下有益效果：电子设备针对任意类型的业务数据，均能够先进行特征提取，得到多个候选特征，并针对每个候选特征确定对应的重要性指标，然后结合重要性指标，用多个候选构建得到至少两个特征子集，根据每个特征子集在待预测业务下评估结果，为待预测业务准确地选择出性能最好的最优特征子集，最后基于最优特征子集进行信息预测，如此，能够更加准确的实现对业务场景的信息预测，从而提升了业务场景的信息预测的准确度。

附图说明

图1是本申请实施例提供的信息预测系统的架构示意图；

图2是本申请实施例提供的图1中的服务器的结构示意图；

图3是本申请实施例提供的信息预测方法的流程示意图一；

图4是本申请实施例提供的信息预测方法的流程示意图二；

图5是本申请实施例提供的信息预测方法的流程示意图三；

图6是本申请实施例提供的信息预测方法的流程示意图四；

图7是本申请实施例提供的信息预测方法的流程示意图五；

图8是本申请实施例提供的虚拟资源的处理风险进行预测时的过程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

2)机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。

3)深度学习(Deep Learning，DL)是机器学习领域中的一个研究方向，其试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象。深度学习大多基于人工神经网络实现，这些人工神经网络由多个输入层、输出层和隐藏层构成，每层包含的单元可将输入数据转换为信息，以供下一层在预测时使用。

4)人工神经网络(Artificial Neural Network，ANN)是一种由大量的处理单元互联组成的非线性、自适应信息处理系统，可以看作是模仿生物神经网络的结构和功能的数学模型。常用的人工神经网络有卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、长短期记忆网络(Long Short-TermMemory，LSTM)等。

5)随机森林(Random Forest)是一种利用多颗决策树对样本进行训练并预测的分类器，其输出的类别由多个决策树输出的类别的众数决定。

6)特征选择(Feature Selection)，也称为特征子集选择(Feature SubsetSelection，FSS)或者属性选择(Attribute Selection)，是指从原始特征中选择出一些最有效的特征以降低数据维度的过程。

借助于人工智能对业务场景的数据进行分析，以对业务场景进行信息预测，是人工智能技术的一个常见应用。例如，可以借助于人工智能技术对目标对象属性信息进行分析，以预测目标对象在未来针对虚拟资源的处理情况等等。

然而，在业务场景的数据中往往蕴含有多种不同的特征，且并不是所有的特征针对信息预测都是有用的，即多种不同的特征中可能会存在冗余特征，这些冗余特征不仅可能会对信息预测的准确度造成影响，还会额外占用信息预测时的计算资源。因此，为了提升信息预测的准确度，减少所占用的计算资源，需要对针对业务场景的数据进行特征选择，以得到最优特征子集，然后将最优特征子集应用于业务场景的信息预测过程中。

相关技术中，针对多种不同的特征进行特征选择可以通过以下三类方法实现：第一类为基于过滤方法进行特征选择，即通过计算特征与目标变量之间的相关性、互信息等指标，并对与目标变量(即标签变量，所要预测的目标)具有较高相关性的特征进行选择；第二类为基于包装方法进行特征选择，即通过逐步添加或删除特征，结合特定的机器学习模型评估特征子集的性能，从而选择最优特征子集；第三类为基于嵌入式方法进行特征选择，即在机器学习模型的训练过程中，直接学习特征的重要性，从而得到最优特征子集。

然而，上述的三类方法均具有一定的缺陷。例如，基于过滤方法进行特征选择时，会假设特征之间是相互独立的，而实际的业务场景中，高维数据、复杂数据的特征之间存在复杂的相互关系，基于过滤的方法会忽视该相互关系，从而导致所确定的最优特征子集并不准确；基于包装方法进行特征选择的计算复杂度较高，且会过于依赖特定的机器学习模型，使得其在面对高维数据或者较为复杂的非线性数据时，容易发生过拟合现象，从而无法准确地选择最优特征子集；基于嵌入式方法进行特征选择同样会受到所使用的机器学习模型的影响，并且嵌入式方法会假设数据满足线性模型，如此，针对高维数据、非线性数据等数据则难以进行处理，从而无法准确地选择最优特征子集。

由此可见，相关技术所提供的特征选择方法针对高维数据、复杂数据的表现欠佳，而使用高维数据、复杂数据的业务场景并不在少数，从而使得相关技术中无法针对不同的业务场景均准确地选择最优特征子集，进而对业务场景的信息预测的准确度造成影响。

另外，相关技术在进行特征选择时，往往需要经过复杂的计算，从而会导致最优特征子集的选择时间较长，进而会对业务场景的信息预测的预测效率产生影响。

本申请实施例提供一种信息预测方法、装置、设备、计算机可读存储介质及计算机程序产品，能够提升业务场景的信息预测的准确度。下面说明本申请实施例提供的用于信息预测的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的终端，也可以实施为服务器。下面，将说明电子设备实施为服务器时的示例性应用。

参见图1，图1是本申请实施例提供的信息预测系统的架构示意图。为实现支撑一个信息预测应用，在信息预测系统100中，终端(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。在信息预测系统100中，还设置有数据库500，用以向服务器200提供数据支持。其中，数据库500可以独立于服务器200，也可以集成在服务器200中。图1示出的是数据库500独立于服务器200的情况。

终端400-1和终端400-2分别用于响应在图形界面410-1和图形界面410-2上所显示的业务界面上的各类操作，生成目标对象的对象数据，并通过网络将对象数据上传至服务器200。

服务器200用于针对待预测业务的业务数据进行特征提取，得到多个候选特征，并对多个候选特征分别进行重要性解析，得到每个候选特征的重要性指标；依据多个候选特征分别对应的多个重要性指标，对多个候选特征进行特征子集的确定，得到至少两个特征子集；针对每个特征子集，在待预测业务下进行性能评估，得到每个特征子集的评估结果；依据每个特征子集的评估结果，从至少两个特征子集中筛选得到待预测业务的最优特征子集；基于最优特征子集，以及接收自终端400-1和终端400-2的对象数据，预测得到目标对象在待预测业务下的业务信息。

本申请实施例可以借助于云技术(Cloud Technology)实现，云技术是指在广域网内或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、存储、处理和共享的一种托管技术。

云计算是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台、以及应用技术等的总称，可以组成资源池、按需所用，灵活便利。云计算技术将变成重要支撑。技术网络的系统后台服务需要大量的计算和存储资源，需要通过云计算实现。

示例性的，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400-1和终端400-2可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

参见图2，图2是本申请实施例提供的图1中的服务器(电子设备的一种实施)的结构示意图，图2所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的信息预测装置可以采用软件方式实现，图2示出了存储在存储器250中的信息预测装置255，其可以是程序和插件等形式的软件，包括以下软件模块：特征处理模块2551、子集生成模块2552、性能评估模块2553、子集筛选模块2554、信息生成模块2555和数据预处理模块2556，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的信息预测装置可以采用硬件方式实现，作为示例，本申请实施例提供的信息预测装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的信息预测方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Progra mmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmabl e Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在一些实施例中，终端或服务器(均为电子设备可能的实施)可以通过运行计算机程序来实现本申请实施例提供的信息预测方法。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，如虚拟资源发放APP；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

本申请实施例可以应用于虚拟资源处理、信息推荐等的信息预测场景中。下面，将结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的信息预测方法。

参见图3，图3是本申请实施例提供的信息预测方法的流程示意图一，将结合图3示出的步骤进行说明。

S101、针对待预测业务的业务数据进行特征提取，得到多个候选特征，并对多个候选特征分别进行重要性解析，得到每个候选特征的重要性指标。

本申请实施例是在对待预测业务确定合理的特征子集，即最优特征子集，并利用最优特征子集为待预测业务实现信息预测的场景下实现的。例如，针对信息推荐确定最优特征子集，并利用最优特征子集对目标对象在信息推荐下的信息进行预测，或者是对虚拟资源处理确定最优特征子集，并基于虚最优特征子集对目标对象在虚拟资源处理场景下的信息进行预测。

电子设备会先获取待预测业务的业务数据，该业务数据包括用于对待预测业务进行支持的各类数据，具体所包含的数据类型可以根据待预测业务的实际情况进行决定。例如，当待预测业务为信息推荐时，业务数据可以为目标对象自身的属性、历史浏览信息的特征等等。当待预测业务为虚拟资源处理时，业务数据可以为目标对象的历史虚拟资源的数量、针对虚拟资源的处理情况等等。接着，电子设备可以对业务数据从多个维度进行特征提取，例如从时间维度上进行特征提取，从操作维度上进行特征提取(提取对信息的操作次数、操作类型等)，从而得到多个维度的特征，并将这些特征均确定为候选特征，如此电子设备可以得到多个候选特征。

在本申请的一些实施例中，图1的S101中针对待预测业务的业务数据进行特征提取，得到多个候选特征，可以通过以下处理实现：依据业务数据的类型，从多个特征提取模型中针对业务数据选择对应的匹配提取模型；通过匹配提取模型对业务数据进行特征提取，得到多个候选特征。

也即，电子设备在对业务数据进行特征提取时，会针对业务数据进行类型分析，例如确定业务数据为图像类型、文本类型还是序列类型，然后再基于所确定出的类型，从不同的特征提取模型中为业务数据选择合适的匹配提取模型，以进行特征提取。例如，当业务数据为图像类型时，电子设备可以从CNN、RNN和LSTM模型中，选择CNN作为对应的匹配提取模型，当业务数据为文本类型或者序列模型时，电子设备可以选择RNN或者LSTM作为对应的匹配提取模型。如此，能够使得匹配提取模型与业务数据的类型相适配，从而能够更好地进行特征提取，使得候选特征的性能更好。

当然，在本申请的另一些实施例中，图1的S101中针对待预测业务的业务数据进行特征提取，得到多个候选特征，还可以通过以下处理实现：从多种不同的特征提取模型中，任选一种特征提取模型，对业务数据进行特征提取，得到多个候选特征。

电子设备在得到多个候选特征之后，会通过每个候选特征进行重要性解析，以确定每个候选特征对于待预测业务的重要程度，从而得到每个候选特征的重要性指标。也就是说，候选特征的重要性指标越高，该候选特征对于待预测业务而言就更为重要，具有更高的贡献，反之，候选特征的重要性指标越低，该候选特征对于待预测业务而言就更不重要，具有的贡献更低。

电子设备可以通过多种方式完成对候选特征的重要性解析。

图4是本申请实施例提供的信息预测方法的流程示意图二。参见图4，在本申请的一些实施例中，图3的S101中对多个候选特征分别进行重要性解析，得到每个候选特征的重要性指标，可以通过以下步骤实现：S1011-S1013，如下：

S1011、按照随机森林模型的控制参数，为多个候选特征构建对应的随机森林模型。

电子设备随机森林模型的控制参数，该控制参数用于对随机森林模型的构建进行控制，例如控制随机森林模型中的决策树的数量、决策树的深度以及参与每个决策树构建的候选特征的数量。接着，电子设备基于随机森林模型的控制参数，为多个候选特征构建对应的随机森林模型。需要说明的是，所构建得到的随机森林模型包括至少两个决策树。

电子设备可以通过已有任意随机森林模型构建方式，构建本申请实施例中的随机森林模型。例如，电子设备可以先基于多个候选特征所构成的特征集合进行m次随机采样，得到m个特征集合，并针对每个特征集合构建对应的决策树，从而得到m个决策树(m≥1)。在针对每个特征集合构建对应的决策树时，根据特征集合中的每个候选特征在节点划分时所造成的信息增益(信息增益可以根据划分前后的基尼系数之差或信息熵之差)，在决策树的每次划分时，选择信息增益最大候选特征的作为本次的划分属性。如此，特征集合中的每个候选特征，都能够在其所对应的决策树中找到至少一个对应的划分节点。

S1012、计算得到每个候选特征在每个决策树中所对应的增益提升值。

候选特征在决策树中可能对应一个或者更多的划分节点，每个划分节点都具有其信息增益。电子设备针对某个候选特征，确定出其在每个决策树中的全部划分节点，并对这些划分节点的信息增益直接进行累加，以得到该候选特征在每个决策树中的增益提升值，或者是对这些划分节点的信息增益进行加权平均，以得到该候选特征在每个决策树中的增益提升值。

需要说明的是，若针对某个候选特征，其在任意一个决策树中均没有对应的划分节点时，那么，该候选特征的增益提升值即为0。

S1013、将每个候选特征在至少两个决策树中的增益提升值进行累加，并对累加增益值与决策树的数量进行比例运算，完成对每个候选特征的重要性解析，得到每个候选特征的重要性指标。

电子设备针对每个候选特征，共能得到至少两个增益提升值。电子设备将至少两个增益提升值进行累加，就能够得到每个候选特征所对应的累加增益值。然后，电子设备会针对随机森林模型中的决策树的数量进行统计，并针对累加增益值和决策树的数量进行比例运算(可以将累加增益值作为分子，决策树的数量作为分母，也可以将决策树的数量作为分子，累加增益值作为分母)，并将比例运算的结果确定为每个候选特征的重要性指标，以完成针对每个候选特征的重要性解析。

可以理解的是，相较于相关技术，随机森林模型的构建以及累加增益值的计算过程更为简单易行，因此，本申请实施例中，针对每个候选特征进行重要性指标计算时所需要的计算时间更少，有助于减少特征选择所需要消耗的时间，进而帮助提升业务场景的信息预测的预测效率。

在本申请的另一些实施例中，图3的S101中对多个候选特征分别进行重要性解析，得到每个候选特征的重要性指标，还可以通过以下处理实现：按照随机森林模型的控制参数，为多个候选特征构建对应的随机森林模型；针对每个候选特征，在随机森林模型所包含的所有决策树中统计与其相对应的划分节点的数量；从多个预设重要性所对应的多个预设数量中，筛选得到与每个候选特征所对应的划分节点的数量差值最小的目标预设数量，并将目标预设数量所对应的预设重要性，作为每个候选特征的重要性指标。

S102、依据多个候选特征分别对应的多个重要性指标，对多个候选特征进行特征子集的确定，得到至少两个特征子集。

电子设备在得到每个候选特征的重要性指标之后，就会结合每个候选特征的重要性指标，采用多个候选特征进行特征子集的构建，并且至少构建两个特征子集。需要说明的是，至少两个特征子集可以包含相同的候选特征，但是所包含的候选特征不能完全相同；至少两个特征子集所包含的候选特征的数量可以相同，也可以不同；在多个候选特征中，允许存在未被包含进任意一个特征子集的候选特征。

图5是本申请实施例提供的信息预测方法的流程示意图三。参见图5，在本申请的一些实施例中，图1中的S102，即依据多个候选特征分别对应的多个重要性指标，对多个候选特征进行特征子集的确定，得到至少两个特征子集，可以通过S1021-S1022实现，如下：

S1021、依据多个重要性指标之间的大小关系，对多个候选特征进行排序，得到特征序列。

电子设备可以按照重要性指标从大到小的关系，对多个候选特征进行排序，将所得到的序列作为特征序列，也可以按照重要性指标从小到大的关系，对多个候选特征进行排序，将所得到的序列作为特征序列。

S1022、采用至少两种子序列提取方式，对特征序列进行子序列的提取，并将提取得到的至少两个子序列确定为至少两个特征子集。

电子设备在得到特征序列之后，会通过至少两种子序列提取方式，从特征序列中提取得到至少两个子序列，每个子序列都可以看作一个由不同的候选特征所组成的子集，因此，电子设备会将提取得到子序列直接确定为特征子集，从而得到至少两个特征子集。

需要说明的是，电子设备所使用的至少两种子序列提取方式，可以在特征提取数量，以及特征提取位置中的至少一个上存在不同。例如，一种子序列提取方式为提取特征序列头部的50个特征，另一种子序列提取方式为提取特征序列头部的65个特征，从而所得到的至少两个特征子集分别为包含50个特征的特征子集，以及包含65个特征的特征子集。又例如，一种子序列提取方式为提取奇数位的特征，另一种提取方式为提取偶数位的特征，从而，所得到的至少两个特征子集分别为特征序列的第1、3、5……位的特征所组成的特征子集，以及由特征序列的第2、4、6……位的特征所组成的特征子集。

可以理解的是，本申请实施例中，电子设备所提取得到的特征子集是基于候选特征的重要性指标构建得到的，从而所得到的特征子集在与候选特征在待预测业务中所起的作用相关。

在本申请的另一些实施例中，图1中的S102，即依据多个候选特征分别对应的多个重要性指标，对多个候选特征进行特征子集的确定，得到至少两个特征子集，还可以通过以下处理实现：获取第一重要性阈值和第二重要性阈值，并利用多个候选特征中，对应的重要性指标大于第一重要性阈值的候选特征，组成第一特征子集，将对于的重要性指标大于第二重要性阈值的候选特征，组成第二特征子集，完成特征子集的确定，得到至少两个特征子集。

S103、针对每个特征子集，在待预测业务下进行性能评估，得到每个特征子集的评估结果。

电子设备在得到至少两个候选特征子集之后，会针对每个特征子集评估其在待预测业务下的表现性能，例如，是否使得待预测业务所对应的预测信息的准确度得到提升，是否使得待预测业务在信息预测时的预测效率得到提升等等。具体需要评估的表现性能与待预测业务在信息预测时的具体要求相对应。换句话说，每个特征子集的评估结果用于说明每个特征子集中所包含的候选特征针对待预测业务是否能够起到正向效果。

在本申请的一些实施例中，图1中S103，即针对每个特征子集，在待预测业务下进行性能评估，得到每个特征子集的评估结果，可以通过以下处理实现：从待预测业务的业务数据中，针对每个特征子集提取得到对应的训练数据，并利用每个特征子集对应的训练数据训练得到每个特征子集所对应的任务模型；确定每个特征子集所对应的任务模型针对待预测业务的验证数据的预测准确度，并将预测准确度确定为每个特征子集的评估结果，完成针对每个特征子集在待预测业务下的性能评估。

也就是说，电子设备会先从业务数据中，针对每个特征子集所包含的候选特征进行数据提取，例如，当特征子集中包含颜色这一特征时，电子设备会对业务数据中该特征的数据，例如红色、绿色、黑色等数据进行提取，当特征子集中包含时长这一特征时，电子设备会对业务数据中该特征的数据，例如10分钟、20分钟等数据进行提取。电子设备在完成数据提取之后，会将这些特征所对应的数据进行整合，从而得到每个特征子集所对应的训练数据，然后利用每个特征子集所对应的训练数据，针对参数随机初始化所得到的初始模型进行训练，直至达到训练结束条件时，将利用每个特征子集的训练数据所训练得到的模型，作为每个特征子集所对应的任务模型。

接着，电子设备会获取待预测业务的验证数据，并通过任务模型读入验证数据，以基于验证数据进行信息预测，通过将预测结果与验证数据的标注信息进行比较，或者是计算相似度，就能够得到每个特征子集的任务模型的预测准确度。最后，电子设备将所得到的预测准确度确定为每个特征子集在待预测业务下的表现性能，即作为每个特征子集的评估结果。

需要说明的是，待预测业务的验证数据是经过标注的数据，其的标签信息真实可靠。当然，在一些实施例中，在待预测业务的验证数据中，除了包含与每个特征子集所包含的候选特征相对应的特征数据之外，还可能包含以下冗余数据，电子设备可以先将验证数据中的冗余数据进行去除，然后通过任务模型读入去除冗余之后的验证数据，以进行信息预测。

在本申请的另一些实施例中，图1中S103，即针对每个特征子集，在待预测业务下进行性能评估，得到每个特征子集的评估结果，还可以通过以下处理实现：从特征数据库中，获取待预测业务所对应的典型特征集合；针对每个特征子集和典型特征集合进行相似度计算，并将计算得到的集合相似度确定为每个特征子集的评估结果。

需要说明的是，特征数据库中的典型特征集合，可以是由人工针对待预测业务所设置的。特征子集和典型特征集合之间的相似度，可以由特征子集和典型特征集合之间的交并比计算得到，也可以由特征子集中的候选特征与典型特征集合中的典型特征之间的语义相似度计算得到，本申请实施例在此不做限定。

S104、依据每个特征子集的评估结果，从至少两个特征子集中筛选得到待预测业务的最优特征子集。

电子设备依据与多个特征子集一一对应的多个评估结果，针对至少两个特征子集中表现性能最优的特征子集进行筛选，也即先从每个特征子集的评估结果中，提取得到最优的评估结果，并将最优的评估结果所对应的特征子集，确定为待预测业务所对应的最优特征子集，也即针对待预测业务具有最好的表现性能的特征子集。如此，电子设备就完成了针对待预测业务进行最优特征子集的确定，以便于后续电子设备将最优特征子集应用在待预测业务的实际信息预测过程中。

S105、基于最优特征子集和目标对象的对象数据，预测得到目标对象在待预测业务下的业务信息。

电子设备在得到最优特征子集之后，就会将最优特征子集应用于待预测业务的实际信息预测场景中，基于最优特征子集和目标对象自身的对象数据，针对目标对象预测其在待预测业务下的业务信息。如此，就完成了信息预测过程。

需要说明的是，目标对象在待预测业务下的业务信息，与待预测业务的具体内容相关联。当待预测业务为虚拟资源处理时，业务信息可以是指目标对象在未来时间内针对其虚拟资源的处理情况，当待预测业务为信息推荐时，业务信息也可时目标对象在未来时间内所感兴趣的信息的类别等等。

图6是本申请实施例提供的信息预测方法的流程示意图四。参见图6，在本申请的一些实施例中，图3中的S105，即基于最优特征子集和目标对象所对应的对象数据，预测得到目标对象在待预测业务下的业务信息，可以通过S1051-S1053的处理实现，如下：

S1051、基于最优特征子集，确定待预测业务的信息预测模型。

由于最优特征子集可以是通过验证数据在每个特征子集所对应的任务模型上的表现性能所确定的，因此，在一些实施例中，电子设备可以直接从每个特征子集的任务模型中，筛选最优特征子集所对应的任务模型，作为待预测业务的信息预测模型。当然，在另一些实施例中，电子设备还可以从业务数据中，重新选取与最优特征子集所包含的特征相对应的特征数据，利用这些数据构成训练数据集，重新进行模型训练(此时的模型可以与任务模型不同，例如此时的模型可以为支持向量机、逻辑回归等模型，而任务模型可以为卷积神经网络等模型)，并将训练得到的模型确定为信息预测模型。

S1052、从目标对象的对象数据中，提取得到与最优特征子集相对应的特征数据集合。

电子设备从目标对象的对象数据中，将与最优特征子集所包含的特征相对应的数据进行提取，并将提取得到的数据组成的集合，确定为最优特征子集的特征数据集合。

S1053、通过信息预测模型，从特征数据集合中预测得到目标对象在待预测业务下的业务信息。

电子设备通过信息预测模型读入特征数据集合，以进行信息预测，并将信息预测模型所输出的结果，确定为目标对象在待预测业务下的业务信息，以完成信息预测过程。

在本申请的另一些实施例中，图3中的105，即基于最优特征子集和目标对象所对应的对象数据，预测得到目标对象在待预测业务下的业务信息，还可以通过以下处理实现：计算最优特征子集所包含的特征的历史数据，在对象数据中的命中率，当命中率大于预设阈值时，将历史数据所对应的历史信息，确定为目标对象在待预测业务下的业务信息。

也即，电子设备会先计算最优特征子集所包含的特征的历史数据中，有多少命中了对象数据，即有多少特征的历史数据与对象数据相同或者接近(差距小于对应的阈值)，并将命中率与预设阈值进行比较，当命中率大于预设阈值时，说明目标对象几乎重现了历史数据的情况，因此电子设备会将历史数据所对应的历史信息，例如历史时间对于虚拟资源的处理情况，或者是历史时间所感兴趣的信息类别，确定为目标对象在未来的业务信息，以完成信息预测。

可以理解的是，相比于相关技术中，在特征选择时针对高维数据、复杂数据的表现欠佳，致使无法针对所有类型的数据均准确地选择最优特征子集，进而对业务场景的信息预测的准确度造成影响的问题，本申请实施例中，电子设备针对任意类型的业务数据，均能够先进行特征提取，得到多个候选特征，并针对每个候选特征确定对应的重要性指标，然后结合重要性指标，用多个候选构建得到至少两个特征子集，根据每个特征子集在待预测业务下评估结果，为待预测业务准确地选择出性能最好的最优特征子集，最后基于最优特征子集进行信息预测，如此，能够更加准确的实现对业务场景的信息预测，从而提升了业务场景的信息预测的准确度。

基于图3，参见图7，图7是本申请实施例提供的信息预测方法的流程示意图五。在本申请的一些实施例中，针对待预测业务的业务数据进行特征提取，得到多个候选特征之前，即在S101之前，该方法还可以包括：S106-S109，如下：

S106、对待预测业务的原始数据进行数据清洗，得到清洗数据。

电子设备首先会获取待预测业务的原始数据，并对原始数据进行数据清洗，以识别并去除原始数据中的异常值、重复记录以及与待预测业务不相关的数据，得到清洗数据。其中，待预测业务的原始数据可以包括目标对象所生成的使用数据，以及目标对象自身的属性数据等等，本申请实施例在此不做限定。

电子设备可以通过箱线图识别原始数据中的异常值，也可以通过DBScan集群识别异常值，本申请实施例在此不做限定。电子设备可以通过相关性分析，或者是主成分分析，从原始数据中筛选得到与相关数据，然后将剩余的数据确定为不相关数据，本申请实施例在此不做限定。

S107、针对清洗数据中的缺失值进行补全处理，得到补全数据。

待预测业务的原始数据中可能存在一些缺失值，例如，针对某些特征，其所对应的具体数据并未被统计，从而出现缺失现象，而清洗数据并不一定能消除该缺失现象，因此，电子设备在得到清洗数据之后，需要对清洗数据中发生缺失的数据进行补全，以得到补全数据。

在本申请的一些实施例中，图7中的S107，即针对清洗数据中的缺失值进行补全处理，得到补全数据，可以通过以下处理实现：依据清洗数据的数据特点，针对缺失值确定匹配填充方式；按照匹配填充方式，对清洗数据中的缺失值进行补全，得到补全数据。

也即，电子设备先需要按照清洗数据的数据特点，针对缺失值确定合适的匹配填充方式，然后利用合适的匹配填充对缺失值进行填充，以使得补全数据更加合理。

示例性的，当清洗数据的数据特点为分布均匀且连续型，或者是呈正态分布时，电子设备可以将均值填充作为缺失值的匹配填充方式；当清洗数据的数据特点为分布不均匀且连续型，或者是呈偏态分布时，电子设备可以将中位数填充作为匹配填充方式；当清洗数据的数据特点为分布不均匀的类别型时，电子设备可以将众数填充作为匹配填充方式；当清洗数据的数据特点为有序数值时，则电子设备可以将插值填充作为匹配填充方式等等。

S108、将补全数据进行标准化处理，得到标准数据，并将标准数据进行归一化处理，得到归一化数据。

电子设备在得到补全数据之后，会对补全数据进行标准化处理，也即将补全数据转换为均值为0，标准差为1的分布(其可以通过Z-score标准化、最小最大标准化等方法实现)，所得到的数据即为标准数据。接着，电子设备会对得到的标准数据进行归一化处理，即将标准数据缩放到一个特定范围，得到归一化数据(可以通过Min-Max归一化。区间缩放法实现)。

S109、从归一化数据中，提取得到待预测业务的业务数据。

电子设备可以将所得到的归一化数据中的一部分，例如4/5，作为待预测业务的业务数据，将剩余的部分作为待预测业务的验证数据；电子设备也可以将归一化数据中的所有数据进行提取，作为待预测业务的业务数据，本申请实施例在此不做限定。

可以理解的是，电子设备通过对待预测业务的原始数据进行清洗、补全、标准化和归一化等预处理之后，再提取得到待预测业务的业务数据，能够使得业务数据更加合理、标准，以便于后续的特征提取。

在本申请的一些实施例中，在按照随机森林模型的控制参数，为多个候选特征构建对应的随机森林模型之前，该方法还可以包括以下处理：结合待预测业务的业务复杂度以及业务数据的数据复杂度中的至少一个，针对初始控制参数进行调整，得到控制参数。

其中，待预测业务的业务复杂度，用于说明待预测业务在信息预测时的难度，例如是否更难进行信息预测，或者时待预测业务所关联的特征是否较多等等。而业务数据的数据复杂度，则用于说明业务数据本身的维度情况和复杂情况，例如是否为高维数据，是否更加多变、没有规律等等。为了能够针对多个候选特征构建更加合适的随机森林模型，电子设备可以结合业务复杂度和数据复杂度中的任意一个，或者是同时结合业务复杂度和数据复杂度，对随机森林模型的初始参数(例如初始设定的决策树的数量、决策树的深度等等，可由人工设定)进行调整，以得到能够与待预测业务和业务数据相适配的控制参数。

例如，当待预测业务的业务复杂度和业务数据的数据复杂度中的任意一个较高时，电子设备会将初始参数中例如决策树的数量、决策树的深度等参数进行相应的提升，得到控制参数；而当待预测业务的业务复杂度和业务数据的复杂度均较低时，电子设备会将初始参数中例如决策树的数量、决策树的深度等参数进行相应的缩减，得到控制参数。如此，能够使得随机森林模型的控制参与待预测业务及其业务数据更加适配。

当然，在一些实施例中，随机森林模型的控制参数也可以进行适应性的优化。例如，电子设备可以根据所筛选得到的最优特征子集所对应的特征(如特征数量、信息量等)，对控制参数进行优化，以实现对随机森林模型的动态调整，以使得后续的随机森林模型能够更好地适应选择出的特征和数据，提高后续的随机森林模型的预测性能和稳定性。

在另一些实施例中，电子设备还可以不断收集随机森林模型可用的标注训练样本，以对特征提取模型进行在线更新。

在本申请的一些实施例中，依据业务数据的类型，从多个特征提取模型中针对业务数据选择对应的匹配提取模型之前，该方法还可以包括以下处理：结合待预测业务的业务复杂度以及业务数据的数据复杂度中的至少一个，针对多个模型类型分别所对应的多组模型参数；依据多组模型参数，构建得到多个模型类型各自的初始提取模型，并利用训练样本对多个初始提取模型进行训练，得到多个特征提取模型。

电子设备可以通过将业务复杂度和数据复杂度与不同模型类型的预设模型参数所对应的预设复杂度进行匹配，将匹配上的预设复杂度所对应的多个不同类型的预设模型参数，确定为多个模型类型的多组模型参数。其中，多个模型类型中至少包括卷积神经网络、循环神经网络和长短期记忆网络。也即，电子设备针对卷积神经网络、循环神经网络和长短期记忆网络分别生成了对应的模型参数，然后利用这些模型参数进行模型初始化，得到初始化的卷积神经网络模型、循环神经网络模型和长短期记忆网络模型，将这些网络模型作为初始提取模型。然后，电子设备针对这些所得到的初始提取模型，利用训练样本进行模型训练，并在训练结束时，得到多个不同类型的特征提取模型，以便结合业务类型进行选择。

当然，在一些实施例中，模型参数也可以进行适应性的优化。例如，电子设备可以根据所筛选得到的最优特征子集所对应的特征(如特征数量、信息量等)，对控制参数进行优化，以实现对模型参数的动态调整，以使得后续的特征提取模型能够更好地适应选择出的特征和数据，提高后续的特征提取模型的预测性能和稳定性。在另一些实施例中，电子设备还可以不断收集特征提取模型可用的标注训练样本，以对特征提取模型进行在线更新。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例是在服务器(称为电子设备)对使用者(称为目标对象)的虚拟资源的处理风险(称为待预测业务)进行预测的场景下实现的。

图8是本申请实施例提供的虚拟资源的处理风险进行预测时的过程示意图。参见图8，该方法包括：

S201、针对虚拟资源处理数据集(称为业务数据)进行预处理。

针对虚拟资源处理数据集(已经经过标注)的预处理可以包括数据清洗、缺失值处理、标准化和归一化等步骤。

其中，数据清洗用于处理异常值，去除重负记录和不相干特征。这里，可以采用箱线图等方法识别异常值，使用相关性分析、主成分分析等方法筛选相关特征，然后将异常值和不相关特征进行剔除(完成处理的数据称为清洗数据)。

在缺失值的处理过程中，服务器会针对不同类型的数据采用相应的方法进行缺失值填充。例如，针对分布均匀的连续型数据、呈正太分布的数据，可以采用均值进行填充；针对分布不均匀的连续型数据、呈偏态分布的数据，可以利用中位数进行填充；针对分布不均匀的分类特征、类别型数据，可以利用众数进行填充；基于预测值进行填充，此时，对于有序的数值型数据(如时间序列等)，可以采用插值法进行填充，也即根据相邻的值预测缺失值，从而保持数据的连续性，对于数值型的数据，可以使用回归模型(例如线性回归、决策树)等预测缺失值，对于类别型的数据，可以使用分类模型(例如逻辑回归、决策树)预测缺失值；对于一些特殊情况，例如需要针对所在领域具有较高的理解的，可以通过人工进行缺失值进行填充等等。

标准化是指将完成缺失值填充之后的数据(称为补全数据)转换为均值为0，标准差为1的分布，该过程可以通过Z-score标准化、最小最大标准化等方法实现。

归一化是指将标准化后的数据(称为标准数据)缩放到一个特定范围，例如[0,1]。该过程可以采用Min-Max归一化、区间缩放法实现等等。

S202、采用深度学习网络模型(称为匹配提取模型)对预处理后的数据进行特征提取。

在该步骤中，服务器首先需要根据数据类型(称为业务数据的类型)，例如图像、文本、序列等，选择相应的深度学习网络进行处理，例如选择CNN、RNN或者LSTM等。

接着，服务器针对所选择出的深度学习网络设计相应的网络结构，例如确定深度学习网络的层数、节点数、激活函数等参数(称为模型参数)。其中，网络结构可以结合虚拟资源处理数据集的特点，例如数据量的多少来进行设置，也可以参考常见的网络结构，例如VGG、ResNet的结构等。之后，服务器会设定适当的损失函数、优化器和学习策略，以使用训练数据集进行模型训练。在训练完成之后，使用所选择出的深度学习模型对虚拟资源处理数据集进行特征提取，得到抽象的高层特征。当然，服务器也可以先结合虚拟资源处理数据集的特点针对不同类型(称为模型类型)的深度学习模型分别设计相应的网络结构，并使用训练数据集进行训练，得到不同的深度学习模型，然后再从不同的深度学习模型(称为多个特征提取模型)中筛选最终使用的深度学习模型。

下面，以CNN模型为例，对特征提取过程进行说明。

CNN模型在提取特征时，会先通过输入层读入原始图像，并通过一些了的卷积操作和激活函数的计算，得到一系列的卷积特征图，然后通过池化层对卷积特征图进行下采样操作，以减小特征图的尺寸，提升计算效率。最后，将池化层的输出作为全连接层的输入，以进行分类或回归等任务。

卷积操作可以表示为式(1)：

其中，I表示原始图像，K表示卷积核，S表示卷积结果。

激活函数可以表示为式(2)：

其中，w_ij表示第i个神经元和第j个神经元之间的权重，x_j表示第j个神经元的输入，b_i表示第i个神经元的偏执，z_i表示第i个神经元的输入，f表示激活函数。

池化操作可以表示为式(3)：

其中，x_p，q表示输入特征图上的一个像素点，R(i，j)表示像素点(i，j)的感受野，y_i，j表示池化结果。

S203、通过随机森林模型对深度学习网络模型所提取到的特征进行筛选，得到重要性较高的特征子集。需要说明的是，这里的特征子集不止一个。

服务器将通过深度学习模型提取得到的特征输入到随机森林模型中，以进行筛选，从而既可以利用深度学习强大的特征提取能力，又可以通过随机森林模型进行有效的特征筛选，以实现对高维数据和复杂数据的处理。

更详细的，服务器会树的数量、树的深度、划分特征的数量等参数(称为控制参数)，构建随机森林模型，然后使用训练数据集进行随机森林模型的训练，以得到多个决策树。接着，服务器通过随机森林模型中的每个决策树的划分过程，计算深度学习模型所提取的特征(称为候选特征)的重要性指标，例如基尼系数(Gini Index)或者信息增益(Information Gain)。示例性的，信息增益可以通过式(4)至式(5)计算得到：

Entropy(t)＝-∑P(i|t)*log₂(P(i|t)) (4)

其中，式(4)中的t表示决策树中的节点，i表示类别索引，P(i|t)表示在节点t的条件下，样本属于类别i的概率。式(5)中的m是样本数据，n是类别数量，child_j为第j个子节点，parent为父节点。

服务器在完成重要性指标的计算之后，就会根据重要性指标对特征进行排序，并从序列中选择重要性较高的特征组成特征子集。更详细的，服务器会针对每颗决策树，找到每个特征在决策树中的所有划分节点，并计算每个划分节点的纯度提升(称为增益提升值，基于Gini指数或者信息增益)，纯度提升可以表示为划分前后的Gini指数或信息熵之差；对于每个特征，将其在所有决策树中纯度提升进行累加，得到特征的总纯度提升(称为累加增益值)；对于每个特征，将其总纯度提升除以随机森林模型中的决策树的数量，得到特征的平均纯度提升，以作为重要性指标。

最后，服务器根据重要性指标对特征进行排序，选择具有较高重要性的特征组成特征子集，例如选择前50个特征组成特征子集，或者选择前65个特征组成子集(即两种不同的子序列提取方式)，从而得到多个特征子集。

S204、针对所得到的特征子集进行验证和评估。

基于不同的特征子集的数据，针对同一分类或回归任务的模型进行训练，然后利用验证数据集(经过标注的小规模虚拟资源处理数据集)对不同特征子集所对应的模型的预测性能进行验证，得到验证结果，也即模型的预测性能。

S205、根据验证和评估的结果确定最优特征子集。

服务器将验证结构最好的，也即预测性能最好的模型所对应的特征子集，确定为最优特征子集。

S206、将最优特征子集应用到虚拟资源的处理风险的预测过程中，以得到使用者所对应的预测结果(称为业务信息)。

服务器利用选择出的最优特征子集构建最终的分类或回归模型(称为信息预测模型)，例如支持向量机、逻辑回归模型，并通过最终的分类或回归模型读入使用者的数据(称为对象数据)，以得到使用者的预测结果。

S207、对深度学习模型和随机森林模型进行优化。

服务器可以通过在线学习的方式，不断更新深度学习模型和随机森林模型的参数，以适应数据分布的变化，并可以定期重新评估最优特征子集的有效性。

在一些实施例中，服务器还可以在基于深度学习模型和随机森林模型进行最优特征子集的确定之后，动态地对深度学习模型的参数(例如学习率、batch大小、优化器的类型、损失函数的类型、正则化参数以及网络结构参数)和随机森林模型的参数(例如决策树的数量、每颗树的深度、每个节点划分所需要的最小样本数量等)进行调整。此时，当最优特征子集中的特征多且复杂时，可以增加深度学习模型的层数或神经元的数量，或者是增加随机森林模型中的决策树的数量，以得到更加适配于虚拟资源的处理风险预测场景的深度学习模型和随机森林模型。

服务器可以使用网格搜索(即遍历预定义的参数范围，寻找深度学习模型和随机森林模型的最优参数组合)、贝叶斯优化(即采用贝叶斯优化算法在参数空间中搜索最优参数组合)、遗传算法(即利用遗传算法进行参数优化，模拟自然选择和基因遗传过程以寻找最优参数组合)或者是交叉验证(即在参数优化过程中，采用K折较差验证评估模型性能，以降低过拟合风险)的方式，得到深度学习模型和随机森林模型的最优参数组合。接着，服务器基于最优参数组合训练深度学习模型和随机森林模型，并基于此时训练得到的深度学习模型重新进行特征提取，以及重新进行最优特征子集的选择。

可以理解的是，在本申请实施例中，涉及到用户信息，例如目标对象自身的属性、历史浏览信息的特征、虚拟资源的数量、针对虚拟资源的处理特征等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面继续说明本申请实施例提供的信息预测装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器250的信息预测装置255中的软件模块可以包括：

特征处理模块2551，用于针对待预测业务的业务数据进行特征提取，得到多个候选特征；对多个所述候选特征分别进行重要性解析，得到每个所述候选特征的重要性指标；

子集生成模块2552，用于依据多个所述候选特征分别对应的多个所述重要性指标，对多个所述候选特征进行特征子集的确定，得到至少两个所述特征子集；

性能评估模块2553，用于针对每个所述特征子集，在所述待预测业务下进行性能评估，得到每个所述特征子集的评估结果；

子集筛选模块2554，用于依据每个所述特征子集的所述评估结果，从至少两个所述特征子集中筛选得到所述待预测业务的最优特征子集；

信息生成模块2555，用于基于所述最优特征子集和目标对象所对应的对象数据，预测得到目标对象在所述待预测业务下的业务信息。

在本申请的一些实施例中，所述特征处理模块2551，还用于按照随机森林模型的控制参数，为多个所述候选特征构建对应的随机森林模型；其中，所述随机森林模型包括至少两个决策树；计算得到每个所述候选特征在每个所述决策树中所对应的增益提升值；将每个所述候选特征在至少两个所述决策树中的增益提升值进行累加，并对累加增益值与所述决策树的数量进行比例运算，完成对每个所述候选特征的重要性解析，得到每个所述候选特征的所述重要性指标。

在本申请的一些实施例中，所述子集生成模块2552，还用于依据多个所述重要性指标之间的大小关系，对多个所述候选特征进行排序，得到特征序列；采用至少两种子序列提取方式，对所述特征序列进行子序列的提取，并将提取得到的至少两个子序列确定为至少两个所述特征子集。

在本申请的一些实施例中，所述性能评估模块2553，还用于从所述待预测业务的所述业务数据中，针对每个所述特征子集提取得到对应的训练数据，并利用每个所述特征子集对应的训练数据训练得到每个所述特征子集所对应的任务模型；确定每个所述特征子集所对应的任务模型针对所述待预测业务的验证数据的预测准确度，并将所述预测准确度确定为每个所述特征子集的评估结果，完成针对每个所述特征子集在所述待预测业务下的性能评估。

在本申请的一些实施例中，所述信息生成模块2555，还用于基于所述最优特征子集，确定所述待预测业务的信息预测模型；从所述目标对象的对象数据中，提取得到与所述最优特征子集相对应的特征数据集合；通过所述信息预测模型，从所述特征数据集合中预测得到所述目标对象在所述待预测业务下的所述业务信息。

在本申请的一些实施例中，所述特征处理模块2551，还用于依据所述业务数据的类型，从多个特征提取模型中针对所述业务数据选择对应的匹配提取模型；通过所述匹配提取模型对所述业务数据进行特征提取，得到多个所述候选特征。

在本申请的一些实施例中，所述信息预测装置255还包括：数据预处理模块2556，用于对所述待预测业务的原始数据进行数据清洗，得到清洗数据；针对所述清洗数据中的缺失值进行补全处理，得到补全数据；将所述补全数据进行标准化处理，得到标准数据，并将所述标准数据进行归一化处理，得到归一化数据；从所述归一化数据中，提取得到待预测业务的所述业务数据。

在本申请的一些实施例中，所述数据预处理模块2556，还用于依据所述清洗数据的数据特点，针对所述缺失值确定匹配填充方式；按照所述匹配填充方式，对所述清洗数据中的所述缺失值进行补全，得到所述补全数据。

在本申请的一些实施例中，所述特征处理模块2551，还用于结合所述待预测业务的业务复杂度以及所述业务数据的数据复杂度中的至少一个，针对所述随机森林模型的初始参数进行调整，得到所述控制参数。

在本申请的一些实施例中，所述特征处理模块2551，还用于结合所述待预测业务的业务复杂度以及所述业务数据的数据复杂度中的至少一个，针对多个模型类型分别所对应的多组模型参数；依据多组所述模型参数，构建得到多个模型类型各自的初始提取模型，并利用训练样本对多个所述初始提取模型进行训练，得到多个所述特征提取模型。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机可执行指令，该计算机程序或计算机可执行指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机可执行指令，处理器执行该计算机可执行指令，使得该电子设备执行本申请实施例上述的信息预测方法。

本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质，其中存储有计算机可执行指令，当计算机可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的信息预测方法，例如，如图3示出的信息预测方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，计算机可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，HyperText Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，计算机可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上所述，通过本申请实施例，电子设备针对任意类型的业务数据，均能够先进行特征提取，得到多个候选特征，并针对每个候选特征确定对应的重要性指标，然后结合重要性指标，用多个候选构建得到至少两个特征子集，根据每个特征子集在待预测业务下评估结果，为待预测业务准确地选择出性能最好的最优特征子集，最后基于最优特征子集进行信息预测，如此，能够更加准确的实现对业务场景的信息预测，从而提升了业务场景的信息预测的准确度。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种信息预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对多个所述候选特征分别进行重要性解析，得到每个所述候选特征的重要性指标，包括：

按照随机森林模型的控制参数，为多个所述候选特征构建对应的随机森林模型；其中，所述随机森林模型包括至少两个决策树；

计算得到每个所述候选特征在每个所述决策树中所对应的增益提升值；

将每个所述候选特征在至少两个所述决策树中的增益提升值进行累加，并对累加增益值与所述决策树的数量进行比例运算，完成对每个所述候选特征的重要性解析，得到每个所述候选特征的所述重要性指标。

3.根据权利要求1所述的方法，其特征在于，所述依据多个所述候选特征分别对应的多个所述重要性指标，对多个所述候选特征进行特征子集的确定，得到至少两个所述特征子集，包括：

依据多个所述重要性指标之间的大小关系，对多个所述候选特征进行排序，得到特征序列；

采用至少两种子序列提取方式，对所述特征序列进行子序列的提取，并将提取得到的至少两个子序列确定为至少两个所述特征子集。

4.根据权利要求1所述的方法，其特征在于，所述针对每个所述特征子集，在所述待预测业务下进行性能评估，得到每个所述特征子集的评估结果，包括：

从所述待预测业务的所述业务数据中，针对每个所述特征子集提取得到对应的训练数据，并利用每个所述特征子集对应的训练数据训练得到每个所述特征子集所对应的任务模型；

确定每个所述特征子集所对应的任务模型针对所述待预测业务的验证数据的预测准确度，并将所述预测准确度确定为每个所述特征子集的评估结果，完成针对每个所述特征子集在所述待预测业务下的性能评估。

5.根据权利要求1所述的方法，其特征在于，所述基于所述最优特征子集和目标对象所对应的对象数据，预测得到目标对象在所述待预测业务下的业务信息，包括：

基于所述最优特征子集，确定所述待预测业务的信息预测模型；

从所述目标对象的对象数据中，提取得到与所述最优特征子集相对应的特征数据集合；

通过所述信息预测模型，从所述特征数据集合中预测得到所述目标对象在所述待预测业务下的所述业务信息。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述针对待预测业务的业务数据进行特征提取，得到多个候选特征，包括：

依据所述业务数据的类型，从多个特征提取模型中针对所述业务数据选择对应的匹配提取模型；

通过所述匹配提取模型对所述业务数据进行特征提取，得到多个所述候选特征。

7.根据权利要求1至5任一项所述的方法，其特征在于，所述针对待预测业务的业务数据进行特征提取，得到多个候选特征之前，所述方法还包括：

对所述待预测业务的原始数据进行数据清洗，得到清洗数据；

针对所述清洗数据中的缺失值进行补全处理，得到补全数据；

将所述补全数据进行标准化处理，得到标准数据，并将所述标准数据进行归一化处理，得到归一化数据；

从所述归一化数据中，提取得到待预测业务的所述业务数据。

8.根据权利要求7所述的方法，其特征在于，所述针对所述清洗数据中的缺失值进行补全处理，得到补全数据，包括：

依据所述清洗数据的数据特点，针对所述缺失值确定匹配填充方式；

按照所述匹配填充方式，对所述清洗数据中的所述缺失值进行补全，得到所述补全数据。

9.根据权利要求2所述的方法，其特征在于，所述按照随机森林模型的控制参数，为多个所述候选特征构建对应的随机森林模型之前，所述方法还包括：

结合所述待预测业务的业务复杂度以及所述业务数据的数据复杂度中的至少一个，针对所述随机森林模型的初始参数进行调整，得到所述控制参数。

10.根据权利要求6所述的方法，其特征在于，所述依据所述业务数据的类型，从多个特征提取模型中针对所述业务数据选择对应的匹配提取模型之前，所述方法还包括：

结合所述待预测业务的业务复杂度以及所述业务数据的数据复杂度中的至少一个，针对多个模型类型分别所对应的多组模型参数；

依据多组所述模型参数，构建得到多个模型类型各自的初始提取模型，并利用训练样本对多个所述初始提取模型进行训练，得到多个所述特征提取模型。

11.一种信息预测装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令时，实现权利要求1至10任一项所述的信息预测方法。

13.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行时实现权利要求1至10任一项所述的信息预测方法。

14.一种计算机程序产品，包括计算机程序或计算机可执行指令，其特征在于，所述计算机程序或计算机可执行指令被处理器执行时实现权利要求1至10任一项所述的信息预测方法。