CN111444956B

CN111444956B - 低负载信息预测方法、装置、计算机系统及可读存储介质

Info

Publication number: CN111444956B
Application number: CN202010217534.5A
Authority: CN
Inventors: 王开益; 詹天钰; 徐佳; 罗力力; 孙海容; 罗水权
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2023-10-31
Anticipated expiration: 2040-03-25
Also published as: WO2021189769A9; WO2021189769A1; CN111444956A

Abstract

本发明公开了低负载信息预测方法、装置、计算机系统及可读存储介质，包括：接收待测信息，从储存有成熟提升树模型的模型数据库中，获取与待测信息匹配的模型并将其设为目标提升树模型；获取目标提升树模型，并识别其中残差比低于预设残差阈值的分类回归树，提取分类回归树的决策属性；根据决策属性构建目标线性回归函数，并从储存有样本信息的样本数据库中，获取与待测信息匹配的样本信息并将其设为目标样本；通过目标线性回归函数计算目标样本获得线性参数，并通过线性参数构建预测模型；通过预测模型运算待测信息形成预测信息。本发明解决了目前的服务器会因其消耗大量运算能力的技术瓶颈，导致无法快速准确的对待预测信息进行预测的问题。

Description

低负载信息预测方法、装置、计算机系统及可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种低负载信息预测方法、装置、计算机系统及可读存储介质。

背景技术

预测模型是指以历史数据为依据，基于数学语言或公式所描述的事物间的数量关系，对当前数据进行运算以预测该数据主体的性质或特征的计算机程序，目前的预测模型主要是通过的构建方法主要是采用预设的目标函数，再利用大数据对该预测模型进行训练所获得的线性回归模型，以及基于二叉树建立的随机森林或提升树模型建立的模型；但是在现实情况中，线性回归模型只能处理特征信息维度较小的待预测信息，而对于特征信息的维度可达到成百上千个，现有的线性回归模型将无法准确计算该数据获得预测结果。

因此，目前通常采用构建有随机森林或提升树模型的服务器对接收到的待预测信息进行预测，然而随机森林或提升树模型，会因待预测信息中的维度过多，导致服务器需要耗费很强的运算能力对其进行预测；因此，一旦需要处理的待预测信息数量十分庞大（如成百上千万个待遇测数据）时，目前的服务器会因其消耗大量运算能力的技术瓶颈，导致无法快速准确的对待预测信息进行预测。

发明内容

本发明的目的是提供一种低负载信息预测方法、装置、计算机系统及可读存储介质，用于解决现有技术存在的当前线性回归模型将无法准确计算具有大量特征信息维度的数据获得预测结果，以及目前随机森林或提升树模型在处理庞大数量待预测信息时，会因其消耗大量运算能力的技术瓶颈，导致无法快速准确的对待预测信息进行预测的问题。

为实现上述目的，本发明提供一种基于人工智能的低负载信息预测方法，包括：

第一服务器接收客户端发送的待测信息，并从预设的储存有成熟提升树模型的模型数据库中，获取与所述待测信息匹配的模型并将其设为目标提升树模型；

第二服务器获取所述第一服务器中的目标提升树模型，并识别其中残差比低于预设残差阈值的分类回归树，提取所述分类回归树的决策属性；其中，所述目标提升树模型至少具有一个用于对信息进行分类的分类回归树；

第三服务器根据所述决策属性构建目标线性回归函数，并从预设的储存有样本信息的样本数据库中，获取与所述待测信息匹配的样本信息并将其设为目标样本；通过所述目标线性回归函数计算所述目标样本获得线性参数，并通过所述线性参数构建预测模型；通过所述预测模型运算所述第一服务器的待测信息形成预测信息并将其发送所述客户端。

上述方案中，所述成熟提升树模型通过以下步骤获得：

从储存有样本信息的样本数据库中获取第一样本信息，并通过所述第一样本信息的目标数据和特征数据构建分类回归树以获得初始梯度提升树模型；

从所述样本数据库中获取第二样本信息，并通过所述第二样本信息训练所述初始梯度提升树模型获得成熟提升树模型。

上述方案中，通过所述第一样本信息的目标数据和特征数据构建分类回归树以获得初始梯度提升树模型的步骤，包括：

第一服务器的分类模块提取所述样本信息中的目标数据和特征数据，并按照特征数据的属性对所述特征数据进行区分，以获得分类特征数据和连续特征数据；

第一服务器的基尼模块具有基尼目标函数，所述基尼模块通过基尼目标函数根据特征数据计算所述目标数据的目标基尼指数，并分别计算所述分类特征数据和连续特征数据的基尼系数增益，以获得属性分类信息和连续分类信息；

第一服务器的创建模块根据所述属性分类信息和连续分类信息构建分类回归树以获得初始梯度提升树模型。

上述方案中，所述根据特征数据计算所述目标数据的目标基尼指数，并分别计算所述分类特征数据和连续特征数据的基尼系数增益，以获得属性分类信息和连续分类信息的步骤，包括：

通过基尼目标函数计算所述目标数据以获得目标基尼指数；

按照分类特征数据的属性对所述分类特征数据进行分类获得分类方案，通过基尼特征函数根据所述目标基尼指数计算所述分类方案的基尼系数增益，将基尼系数增益最高的分类方案设为属性分类信息；

按照预设的区间分割所述连续特征数据获得区间特征数据，通过基尼目标函数根据所述目标基尼指数计算所述区间特征数据的基尼系数增益，根据各区间特征数据的基尼系数增益获得连续分类信息；

低负载信息预测所述根据所述属性分类信息和连续分类信息构建分类回归树以获得初始梯度提升树模型的步骤，包括：

分别将所述属性分类信息和连续分类信息作为初始分类回归树的决策属性，以获得目标分类回归树；

按照所述属性分类信息和连续分类信息的基尼系数增益确定各所述分类回归树的顺序，根据该顺序将所述分类回归树依次加入到预设的初始化模型以获得初始梯度提升树模型。

上述方案中，从所述样本数据库中获取第二样本信息，并通过所述第二样本信息训练所述初始梯度提升树模型获得成熟提升树模型并将其发送第二服务器的步骤，包括：

第一服务器的采集模块从所述样本数据库中获取第二样本信息，第一服务器的训练模块通过所述初始梯度提升树模型计算第二样本信息的特征数据获得预测数据，及将所述预测数据与所述第二样本信息的目标数据进行比对以获得差异数据；

第一服务器的差异判断模块判断所述差异数据是否小于预设的差异阈值；若小于所述差异阈值，则将所述初始梯度提升树模型设为目标梯度提升模型；若不小于所述差异阈值，消除所述初始梯度提升树模型并结束。

上述方案中，识别其中残差比低于预设残差阈值的分类回归树，提取所述分类回归树的决策属性的步骤，包括：

第二服务器的抓取模块提取所述目标提升树模型中各分类回归树的输入残差和输出残差；

第二服务器的残差比模块具有残差比函数，所述残差比模块通过残差比函数根据所述输入残差和输出残差计算所述分类回归树的残差比；

第二服务器的残差判断模块获取残差比低于预设残差阈值的分类回归树。

上述方案中，根据所述决策属性构建目标线性回归函数包括：

第三服务器的自变量模块具有线性回归函数，所述自变量模块将决策属性设置为所述线性回归函数的自变量获得目标线性回归函数；

通过所述目标线性回归函数计算所述目标样本获得线性参数包括：

第三服务器的计算模块将所述样本信息中的目标数据作为所述目标线性回归函数的自变量，将所述样本信息中与所述决策属性对应的特征数据作为所述目标线性回归函数的因变量，运算所述线性回归函数计算所述自变量和因变量获得线性参数。

为实现上述目的，本发明还提供一种基于人工智能的低负载信息预测装置，其特征在于，包括：

第一服务器，用于接收客户端发送的待测信息，并从预设的储存有成熟提升树模型的模型数据库中，获取与所述待测信息匹配的模型并将其设为目标提升树模型；

第二服务器，用于获取所述第一服务器中的目标提升树模型，并识别其中残差比低于预设残差阈值的分类回归树，提取所述分类回归树的决策属性；其中，所述目标提升树模型至少具有一个用于对信息进行分类的分类回归树；

第三服务器，用于根据所述决策属性构建目标线性回归函数，并从预设的储存有样本信息的样本数据库中，获取与所述待测信息匹配的样本信息并将其设为目标样本；通过所述目标线性回归函数计算所述目标样本获得线性参数，并通过所述线性参数构建预测模型；通过所述预测模型运算所述第一服务器的待测信息形成预测信息并将其发送所述客户端。

为实现上述目的，本发明还提供一种计算机系统，其包括多个计算机设备，各计算机设备包括存储器. 处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述多个计算机设备的处理器执行所述计算机程序时共同实现上述低负载信息预测方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，其包括多个存储介质，各存储介质上存储有计算机程序，所述多个存储介质存储的所述计算机程序被处理器执行时共同实现上述低负载信息预测方法的步骤。

本发明提供的低负载信息预测方法、装置、计算机系统及可读存储介质，

第一服务器接收客户端发送的待测信息，并从预设的储存有成熟提升树模型的模型数据库中，获取与所述待测信息匹配的模型并将其设为目标提升树模型；故，获得的目标提升树模型与待测信息最为匹配，因此基于所述目标提升树对待测信息进行预测分类的准确度最高；

第二服务器获取所述第一服务器中的目标提升树模型，并识别其中残差比低于预设残差阈值的分类回归树，提取所述分类回归树的决策属性；其中，所述目标提升树模型至少具有一个用于对信息进行分类的分类回归树；因此，通过目标提升树模型的残差比，获得目标提升树模型中与最终的预测信息之间线性关系较强的分类回归树，并提取该分类回归树的决策属性，为获得预测准确度高的预测模型提供了有力的数据支撑；

通过样本信息并根据决策属性构建预测模型，再通过预测模型计算待测信息获得预测信息，使得预测模型能够以有限维度下的线性回归的运算方式对待测信息进行预测，提高了预测速度，降低了对计算机运算能力的消耗；又由于线性参数是依据目标提升树模型的决策属性所获得的，因此消除了线性回归模型无法处理特征信息维度过大的待预测信息的缺陷，最终解决了当前服务器因其消耗大量运算能力的技术瓶颈，导致无法快速准确的对待预测信息进行预测的问题。

附图说明

图1为本发明低负载信息预测方法实施例一的流程图；

图2为本发明低负载信息预测方法实施例一的S1中的通过所述第一样本信息的目标数据和特征数据构建分类回归树以获得初始梯度提升树模型的流程图；

图3为本发明低负载信息预测方法实施例一的所述S102中根据特征数据计算所述目标数据的目标基尼指数，并分别计算所述分类特征数据和连续特征数据的基尼系数增益，以获得属性分类信息和连续分类信息的流程图；

图4为本发明低负载信息预测方法实施例一的所述S103中根据所述属性分类信息和连续分类信息构建分类回归树以获得初始梯度提升树模型的流程图；

图5为本发明低负载信息预测方法实施例一的S1中第一服务器从所述样本数据库中获取第二样本信息，并通过所述第二样本信息训练所述初始梯度提升树模型获得成熟提升树模型并将其发送第二服务器的流程图；

图6为本发明低负载信息预测方法实施例一的S2中第二服务器识别所述目标提升树模型中残差比低于预设残差阈值的分类回归树的流程图；

图7为本发明低负载信息预测方法实施例一的S3中第三服务器根据所述决策属性构建目标线性回归函数，并通过所述目标线性回归函数计算所述样本信息获得线性参数的流程图；

图8为本发明低负载信息预测装置实施例二的程序模块示意图；

图9为本发明计算机系统实施例三中计算机设备的硬件结构示意图。

附图标记：

1、低负载信息预测装置2、计算机设备11、第一服务器

12、第二服务器13、第三服务器21、存储器22、处理器

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的低负载信息预测方法、装置、计算机系统及可读存储介质，适用于计算机领域，为提供一种基于第一服务器、第二服务器、第三服务器和模型数据库的低负载信息预测方法。本发明通过从储存有样本信息的样本数据库中获取第一样本信息，并通过所述第一样本信息的目标数据和特征数据构建分类回归树以获得初始梯度提升树模型，从所述样本数据库中获取第二样本信息，并通过所述第二样本信息训练所述初始梯度提升树模型获得成熟提升树模型；识别所述目标提升树模型中残差比低于预设残差阈值的分类回归树，及提取所述分类回归树的决策属性；根据所述决策属性构建目标线性回归函数，并通过所述目标线性回归函数计算所述样本信息获得线性参数，及通过所述线性参数构建预测模型。

实施例一

请参阅图1，本实施例的一种基于梯度提升的低负载信息预测方法，包括：

S1：第一服务器接收客户端发送的待测信息，并从预设的储存有成熟提升树模型的模型数据库中，获取与所述待测信息匹配的模型并将其设为目标提升树模型；

本步骤中，所述待测信息中具有维度标签，所述模型数据库中的成熟提升树模型具有模型标签，将所述维度标签和模型标签一一对比，获得与所述维度标签匹配度最高的模型标签，并将该模型标签所对应的成熟提升树模型设为目标提升树模型；其中，所述维度标签包含了反映待测信息属性的信息，例如：姓名、性别、登陆操作数量等；所述模型标签包含了反映成熟提升树模型中各分类回归树的决策属性，所述决策属性是分类回归树对信息进行分类的判断信息，例如：通过姓氏、性别、登陆操作数量的阈值对待测信息的姓名、性别、登陆操作数量进行判断，以区分待测信息所属的类别。

需要说明的是，将所述维度标签和模型标签一一对比，为将待测信息的属性信息与成熟提升树模型的判断信息进行对比，以获得匹配度最高的判断信息；

例如：将维度标签A的姓名与模型标签A的姓氏进行对比，因姓名与姓氏是相互匹配的，即可通过对姓名中的姓氏对待测信息进行分类，因此判定维度标签A的姓名与模型标签A的姓氏匹配；依次类推，将维度标签A的性别和模型标签A的性别进行对比，将维度标签A的登陆操作数量和模型标签A的登陆操作数量阈值进行对比，最终获得模型标签A与维度标签A的匹配度为3，即两个标签有三个维度是相互匹配的。

S2：第二服务器获取所述第一服务器中的目标提升树模型，并识别其中残差比低于预设残差阈值的分类回归树，提取所述分类回归树的决策属性；其中，所述目标提升树模型至少具有一个用于对信息进行分类的分类回归树。

S3：第三服务器根据所述决策属性构建目标线性回归函数，并从预设的储存有样本信息的样本数据库中，获取与所述待测信息匹配的样本信息并将其设为目标样本；通过所述目标线性回归函数计算所述目标样本获得线性参数，并通过所述线性参数构建预测模型；通过所述预测模型运算所述第一服务器的待测信息形成预测信息并将其发送所述客户端。

于本实施例中，所述第一服务器、第二服务器和第三服务器通过网络相互连接，实现所述第一服务器、第二服务器和第三服务器三者之间的通信交互。

在示例性的实施例中，在第一服务器接收客户端发送的待测信息之前，包括：创建储存有样本信息的样本数据库，所述样本信息是表达用户的基本信息及其特征的数据，其包括目标数据和特征数据，其中，所述目标数据是指描述样本信息类型的属性信息，所述特征数据是指描述样本信息特征的标签信息。

进一步地，所述成熟提升树模型通过以下步骤获得：

从所述样本数据库中获取第二样本信息，并通过所述第二样本信息训练所述初始梯度提升树模型获得成熟提升树模型。第一服务器的采集模块从样本数据库中获取第一样本信息，通过所述第一样本信息的目标数据和特征数据构建分类回归树以获得初始梯度提升树模型，第一服务器再次从样本数据库中获取第二样本信息对所述初始梯度提升树模型进行训练以获得目标提升树模型，并将所述目标提升树模型发送第二服务器；

第二服务器识别所述目标提升树模型中残差比低于预设残差阈值的分类回归树，及提取所述分类回归树的决策属性并将其发送第三服务器；其中，所述残差比是指分类回归树的输出残差与输入残差的比值，所述输入残差是指分类回归树中根节点获得的分值，所述输出残差是指特征数据在分类回归树中子节点获得的分值，所述决策属性是指分类回归树对特征数据进行区分的判断信息；

第三服务器根据所述决策属性构建目标线性回归函数，并通过所述目标线性回归函数计算所述样本信息获得线性参数，及通过所述线性参数构建预测模型并将其发送模型数据库；

所述模型数据库用于保存预测模型。

在一个优选的实施例中，请参阅图2，S1中的通过所述第一样本信息的目标数据和特征数据构建分类回归树以获得初始梯度提升树模型的步骤包括：

S101：第一服务器的分类模块提取所述样本信息中的目标数据和特征数据，并按照特征数据的属性对所述特征数据进行区分，以获得分类特征数据和连续特征数据。

本步骤中，所述特征数据的属性是指数据的反映形式，例如，数字信息、文字信息；所述分类特征数据是指按照现象的某种属性对其进行分类而得到的反映事物类型的信息，例如：文字信息；所述连续特征数据是指在一定区间内可以任意取值、数值是连续不断的、相邻两个数值可作无限分割的信息，例如：数字信息。

需要说明的是，所述分类模块是具有“ISTEXT”及“ISNUMBER”函数的计算机程序，用来区分特征数据中的文字信息和数字信息。

S102：第一服务器的基尼模块具有基尼目标函数，所述基尼模块通过基尼目标函数根据特征数据计算所述目标数据的目标基尼指数，并分别计算所述分类特征数据和连续特征数据的基尼系数增益，以获得属性分类信息和连续分类信息；

本步骤中，通过获得分类特征数据和连续特征数据的基尼系数增益，以获得各特征数据在样本信息中与目标数据之间的线性关系强弱，有助于构建梯度提升模型。

需要说明的是，所述基尼模块是由用于计算基尼指数的基尼目标函数编写而成的计算机代码构成。

S103：第一服务器的创建模块根据所述属性分类信息和连续分类信息构建分类回归树以获得初始梯度提升树模型。

需要说明的是，可采用关系型数据库管理系统（如sql server）作为所述创建模块，用于根据属性分类信息和连续分类信息构建分类回归树创建初始梯度提升树模型。

在一个优选的实施例中，请参阅图3，所述S102中根据特征数据计算所述目标数据的目标基尼指数，并分别计算所述分类特征数据和连续特征数据的基尼系数增益，以获得属性分类信息和连续分类信息包括：

S102-01：通过基尼目标函数计算所述目标数据以获得目标基尼指数。

本步骤中，所述基尼目标函数如下所示：

Gini（p）=1-

其中，pk是指样本信息属于第k个类的概率，Gini（p）是指目标基尼系数

示例性的，假设所有的样本信息的目标数据的种类为D1和D2，其中，D1为左子节点属性，D2为右子节点属性，那么，任一样本信息的目标数据属于D1的概率p1=D1/（D1+D2）,该样本信息的目标数据属于D2的概率p2=D2/（D1+D2）。

例如：样本信息具有10个，其中，3个人拖欠贷款，7个人未拖欠贷款，那么通过上述公式可计算获得目标基尼指数是Gini(是否拖欠贷款)=1−(3/10)^2−(7/10)^2=0.42。

S102-02：按照分类特征数据的属性对所述分类特征数据进行分类获得分类方案，通过基尼特征函数根据所述目标基尼指数计算所述分类方案的基尼系数增益，将基尼系数增益最高的分类方案设为属性分类信息。

本步骤中，所述基尼特征函数如下所示：

△（pt）=Gini（p）-Gini（pl）-/>Gini（pr）

Gini（pl）=1-

Gini（pr）=1-

其中，△（pt）是指第t个分类特征数据的基尼系数增益，

Gini（p）是指目标基尼指数，Gini（pl）是指分类回归树左子节点的特征基尼指数，pl是指样本信息属于第l个类的概率，Gini（pr）是指分类回归树右子节点的特征基尼指数，pr是指样本信息属于第r个类的概率。

基于上述举例：样本信息具有10个，其中，已婚4个，未婚4个，离异2个，其中，已婚的全部未拖欠贷款，未婚的由2个拖欠贷款，离异的有1个拖欠贷款；本分类回归树的目标是识别出拖欠贷款的人，因此将左子节点表示婚姻状况取值为已婚的分组，右子节点表示婚姻状况取值为未婚或者离异的分组，则则如下所示：

当分类方案为{已婚} | {未婚,离异}时：

Δ{婚姻状况}=0.42−4/10×0−6/10×[1−(3/6)^2−(3/6)^2]=0.12

当分类方案为{未婚} | {已婚,离异}时：

Δ{婚姻状况}=0.42−4/10×0.5−6/10×[1−(1/6^)2−(5/6)^2]=0.053

当分类方案为{离异} | {未婚,已婚}时：

Δ{婚姻状况}=0.42−2/10×0.5−8/10×[1−(2/8)^2−(6/8)^2]=0.02

可知，当分类方案为{已婚} | {未婚,离异}是基尼系数增益是最高的，因此应将其设为属性分类信息。

S102-03：按照预设的区间分割所述连续特征数据获得区间特征数据，通过基尼目标函数根据所述目标基尼指数计算所述区间特征数据的基尼系数增益，根据各区间特征数据的基尼系数增益获得连续分类信息。

本步骤中，通过预设的区间分割连续特征数据获得区间特征数据，例如：获得【0,100】，【100,200】，【200,300】；分别将区间特征数据的中点值作为分割点，并分别将连续特征数据小于分割点的样本信息设为左子节点，及将连续特征数据大于或等于分割点的样本信息设为右子节点，例如：依次获得分割点50,150,250；因此，分别将连续特征数据小于50的样本信息设为左子节点，将连续特征数据大于或等于50的样本信息设为右子节点；将连续特征数据小于150的样本信息设为左子节点，将连续特征数据大于或等于150的样本信息设为右子节点；将连续特征数据小于250的样本信息设为左子节点，将连续特征数据大于或等于250的样本信息设为右子节点。

通过所述基尼特征函数计算上述各分割点的基尼系数增益：

△（pt）=Gini（p）-Gini（pl）-/>Gini（pr）

Gini（pl）=1-

Gini（pr）=1-

其中，△（pt）是指第t个分类特征数据的基尼系数增益，

将基尼系数增益最大的分割点设为连续分类信息；示例性地，如果分割点50、150、250的基尼系数增益分别为0.12，0.02和0.25,那么则说明以分割点250对连续特征数据进行区分，以实现对样本信息的区分是最有效的，其区分度是最高的，故将分割点设为连续分类信息，其表达的是，若连续特征数据小于250则判断其为左子节点，若连续特征数据大于或等于250则判断其为右子节点。

在一个优选的实施例中，请参阅图4，所述S103中根据所述属性分类信息和连续分类信息构建分类回归树以获得初始梯度提升树模型包括：

S103-01：分别将所述属性分类信息和连续分类信息作为初始分类回归树的决策属性，以获得目标分类回归树。

示例性地，提取预设的初始分类回归树，将所述属性分类信息设置于所述初始分类回归树中，获得用于区分分类特征数据的目标分类回归树，使所述目标分类回归树根据属性分类信息中左标号属性，将分类特征数据判别为左子节点，以及使所述分类回归树根据属性分类信息中右标号属性，将分类特征数据判别为右子节点。

提取预设的初始分类回归树；将所述连续分类信息设置于所述初始分类回归树中，获得用于区分分类特征数据的目标分类回归树，使所述目标分类回归树根据连续分类信息中左标号连续，将连续特征数据判别为左子节点，以及使所述分类回归树根据连续分类信息中右标号连续，将连续特征数据判别为右子节点。

S103-02：按照所述属性分类信息和连续分类信息的基尼系数增益确定各所述分类回归树的顺序，根据该顺序将所述分类回归树依次加入到预设的初始化模型以获得初始梯度提升树模型。

本步骤中，对所述基尼系数增益进行升序排列，并按照该排列的顺序依次将所述基尼系数增益所对应的属性分类信息和连续分类信息加入到预设的初始化模型中，并按照加法策略将所述初始化模型中的分类回归树构建成初始化梯度提升模型；

其中，所述加法策略如下所示：

建立初始化模型，并使其预测结果为0：

往初始化模型中加入第一棵树：

往初始化模型中加入第二棵树：

…

往初始化模型中加入第t棵树：，其中/>表示第/>棵树的预测结果，/>表示组合/>棵树模型对样本/>的预测结果。

由于基尼系数增益较低的属性分类信息和连续分类信息，

需要说明的是，分类回归树是在已知各种情况发生概率的基础上，通过构建决策树来求取输入样本分属类别的决策分析方法，是直观运用概率分析的一种图解法；于本申请中所述分类回归树为CART树。梯度提升模型是基于集成学习法将多个分类回归树进行组合，所获得的具有更强泛化能力的计算机模型，其中，梯度提升模型的相邻两个分类回归树中，位于前一位的分类回归树的输出残值作为位于后一位分类回归树的输入残值；于本申请中，所述梯度提升模型为XGBoost模型。本申请所解决的技术问题是如何提高梯度提升模型对样本信息进行分类的准确度的技术问题，所采用的技术手段是通过确定梯度提升模型中分类回归树的顺序以提升，而通过分类回归树建立梯度提升模型是本领域技术人员的公知常识，因此分类回归树及梯度提升模型的构建过程和运行原理将不做赘述。

在一个优选的实施例中，请参阅图5，S1中从所述样本数据库中获取第二样本信息，并通过所述第二样本信息训练所述初始梯度提升树模型获得成熟提升树模型并将其发送第二服务器的步骤，包括：

S111：第一服务器的采集模块从所述样本数据库中获取第二样本信息，第一服务器的训练模块通过所述初始梯度提升树模型计算第二样本信息的特征数据获得预测数据，及将所述预测数据与所述第二样本信息的目标数据进行比对以获得差异数据；

示例性地，通过初始梯度提升树模型对样本信息中的特征数据进行分类并获得预测数据，通过所述预测数据和目标数据之间的差异数据，来验证获得的梯度提升模型是否符合要求。

需要说明的是，可采用Python的Pandas模块作为第一服务器从样本数据库中抓取数据的采集模块。

S112：第一服务器的差异判断模块判断所述差异数据是否小于预设的差异阈值；

若小于所述差异阈值，则将所述初始梯度提升树模型设为目标梯度提升模型；

若不小于所述差异阈值，消除所述初始梯度提升树模型并结束。

本步骤中，所述差异阈值可根据用户需要自行设置，由于差异阈值是自行设置的，因此工作人员可根据自身经验避免梯度提升模型出过拟合或欠拟合的情况发生。

需要说明的是，可采用具有“IF”函数的计算机代码编写的计算机模块作为差异判断模块，以判断差异数据是否小于预设的差异阈值。

在一个优选的实施例中，请参阅图6，S2中第二服务器识别所述目标提升树模型中残差比低于预设残差阈值的分类回归树的步骤，包括：

S201：第二服务器的抓取模块提取所述目标提升树模型中各分类回归树的输入残差和输出残差。

本步骤中，由构建梯度提升模型的加法策略可知，目标提升树模型中某一分类回归树的根节点分值，即输入残差是该分类回归树之前所有分类回归树对样本信息进行分类预测所得到的分值总和，与该样本信息的目标数据之间的差值，而某一分类回归树根据输入残差对样本信息的特征数据进行分类预测，该预测所对应的子节点所获得的分值，在本申请中我们称之为输出残差。

S202：第二服务器的残差比模块具有残差比函数，所述残差比模块通过残差比函数根据所述输入残差和输出残差计算所述分类回归树的残差比；

本步骤中，通过所述残差比定量且直观的表达了，分类回归树对特征数据进行分类时所起到的重要程度，以加法策略中的往初始化模型中加入第t棵树公式举例：

该公式中，第t棵分类回归树的输入残差Sr（xi）=（t）—/>（t-1），而第t棵分类回归树的输出残差为Sc（xi）=/>（t+1）—/>（t），因此

获得的残差比Mt（xi）是用公式表达为

Mt（xi）=

其表达的是该分类回归树对样本信息分类的重要程度，其中，残差比越小，则说明该分类回归树根据某一特征数据对样本信息分类的越彻底，也就说明该特征数据与目标数据之间的线性关系越强。

S203：第二服务器的残差判断模块获取残差比低于预设残差阈值的分类回归树。

本步骤中，根据使用者需要设置残差阈值，并获取残差比低于该残差阈值的分类回归树，以将最具有线性特征的决策属性从梯度提升模型中提取出来。可选的，还可通过预设的数量提取分类回归树，将残差比最低的一些分类回归树提取出来，这种方式适用于具有线性关系过强的决策属性过多，需要对其进行选择提取，或者具有线性关系太弱的决策属性过多，而需要提取具有线性关系的决策属性以进行线性回归。

需要说明的是，可采用具有“IF”函数的计算机代码编写的计算机模块作为残差判断模块，以判断残差比是否低于预设的残差阈值，并获得残差比低于预设残差阈值的分类回归树。

在一个优选的实施例中，请参阅图7，S3中根据所述决策属性构建目标线性回归函数包括：

S301：第三服务器的自变量模块具有线性回归函数，所述自变量模块将决策属性设置为所述线性回归函数的自变量获得目标线性回归函数。

示例性地，本步骤中所述目标线性回归函数是：

hθ_n(x) = θ₀+ θ₁x₁+θ₂x₂……θ_nx_n

其中，hθ_n(x)是指因变量，X是指自变量，θ₀是自变量偏置值，θ₁是第一自变量权重系数，θ₂是第二自变量权重系数，θ_n是第n自变量权重系数，自变量及其自变量权重系数的数量根据决策属性的数量设定。

需要说明的是，可采用由线性回归函数所编写的计算机代码作为自变量模块，如numpy.linalg模块。

S302：第三服务器的计算模块将所述样本信息中的目标数据作为所述目标线性回归函数的自变量，将所述样本信息中与所述决策属性对应的特征数据作为所述目标线性回归函数的因变量，运算所述线性回归函数计算所述自变量和因变量获得线性参数。

本步骤中，计算各样本信息中与决策属性对应的特征数据的均值，并将其设为特征平均值，计算各样本信息中的目标数据并将其设为目标平均值/>。

将特征平均值和目标平均值，录入所述目标函数，以获得自变量偏置值θ₀，第一自变量权重系数θ₁，第二自变量权重系数θ₂，直至第n自变量权重系数θ_n；其中，自变量偏置值θ₀，第一自变量权重系数θ₁，第二自变量权重系数θ₂……第n自变量权重系数θ_n为所述线性参数。

于本实施例中，所述通过所述线性参数构建预测模型包括：

将所述线性参数录入预设的线性回归函数中获得线性目标函数，将所述线性目标函数写入预设的模型程序中以获得预测模型。

本步骤中，根据所述线性参数中的自变量偏置值θ₀，第一自变量权重系数θ₁，第二自变量权重系数θ₂……第n自变量权重系数θ_n。

创建线性目标函数：

hθ_n(x) = θ₀+ θ₁x₁+θ₂x₂……θ_nx_n

其中，x为指标数据，hθ_n(x)为预测数据。

通过将所述线性目标函数设为可接收数据并自动运行的模型程序的运行函数，以获得预测模型。

需要说明的是，接收数据并对其进行运算的计算机程序是本领域技术人员的公知常识，而本申请所解决的技术问题是，如何获得较高的预测准确度的预测模型，故该计算机程序的运行原理在本申请中不做赘述。

实施例二

请参阅图8，本实施例的一种基于梯度提升的低负载信息预测装置1，包括：

第一服务器11，用于接收客户端发送的待测信息，并从预设的储存有成熟提升树模型的模型数据库中，获取与所述待测信息匹配的模型并将其设为目标提升树模型；

第二服务器12，用于获取所述第一服务器11中的目标提升树模型，并识别其中残差比低于预设残差阈值的分类回归树，提取所述分类回归树的决策属性；其中，所述目标提升树模型至少具有一个用于对信息进行分类的分类回归树；

第三服务器13，用于根据所述决策属性构建目标线性回归函数，并从预设的储存有样本信息的样本数据库中，获取与所述待测信息匹配的样本信息并将其设为目标样本；通过所述目标线性回归函数计算所述目标样本获得线性参数，并通过所述线性参数构建预测模型；通过所述预测模型运算所述第一服务器11的待测信息形成预测信息并将其发送所述客户端。

本技术方案基于人工智能的智能决策技术，从储存有样本信息的样本数据库中获取第一样本信息，并通过所述第一样本信息的目标数据和特征数据构建分类回归树以获得初始梯度提升树模型，从所述样本数据库中获取第二样本信息，并通过所述第二样本信息训练所述初始梯度提升树模型获得成熟提升树模型；识别所述目标提升树模型中残差比低于预设残差阈值的分类回归树，及提取所述分类回归树的决策属性；根据所述决策属性构建目标线性回归函数，并通过所述目标线性回归函数计算所述样本信息获得线性参数，及通过所述线性参数构建预测模型。

实施例三：

为实现上述目的，本发明还提供一种计算机系统，该计算机系统包括多个计算机设备2，实施例二的低负载信息预测装置1的组成部分可分散于不同的计算机设备中，计算机设备可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器（包括独立的服务器，或者多个服务器所组成的服务器集群）等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器21、处理器22，如图9所示。需要指出的是，图9仅示出了具有组件-的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器21（即可读存储介质）包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。当然，存储器21还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例一的低负载信息预测装置的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行低负载信息预测装置，以实现实施例一的低负载信息预测方法。

实施例四：

为实现上述目的，本发明还提供一种计算机可读存储系统，其包括多个存储介质，如闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器22执行时实现相应功能。本实施例的计算机可读存储介质用于存储低负载信息预测装置，被处理器22执行时实现实施例一的低负载信息预测方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于人工智能的低负载信息预测方法，其特征在于，包括：

2.根据权利要求1所述的低负载信息预测方法，其特征在于，所述成熟提升树模型通过以下步骤获得：

3.根据权利要求2所述的低负载信息预测方法，其特征在于，通过所述第一样本信息的目标数据和特征数据构建分类回归树以获得初始梯度提升树模型的步骤，包括：

4.根据权利要求3所述的低负载信息预测方法，其特征在于，所述根据特征数据计算所述目标数据的目标基尼指数，并分别计算所述分类特征数据和连续特征数据的基尼系数增益，以获得属性分类信息和连续分类信息的步骤，包括：

通过基尼目标函数计算所述目标数据以获得目标基尼指数；

5.根据权利要求2所述的低负载信息预测方法，其特征在于，从所述样本数据库中获取第二样本信息，并通过所述第二样本信息训练所述初始梯度提升树模型获得成熟提升树模型并将其发送第二服务器的步骤，包括：

6.根据权利要求1所述的低负载信息预测方法，其特征在于，识别其中残差比低于预设残差阈值的分类回归树，提取所述分类回归树的决策属性目标提升树的步骤，包括：

7.根据权利要求1所述的低负载信息预测方法，其特征在于，根据所述决策属性构建目标线性回归函数包括：

8.一种基于人工智能的低负载信息预测装置，其特征在于，包括：

9.一种计算机系统，其包括多个计算机设备，各计算机设备包括存储器. 处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述多个计算机设备的处理器执行所述计算机程序时共同实现权利要求1至7任一项所述低负载信息预测方法的步骤。

10.一种计算机可读存储介质，其包括多个存储介质，各存储介质上存储有计算机程序，其特征在于，所述多个存储介质存储的所述计算机程序被处理器执行时共同实现权利要求1至7任一项所述低负载信息预测方法的步骤。