CN109192264A

CN109192264A - 构造产率预测模型的方法、系统及产率预测方法和系统

Info

Publication number: CN109192264A
Application number: CN201810946541.1A
Authority: CN
Inventors: 杨帆; 金继民; 金宝宝; 张成松
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2018-08-17
Filing date: 2018-08-17
Publication date: 2019-01-11

Abstract

本公开提供了一种构造产率预测模型的方法，包括获得训练数据，所述训练数据包括可能影响产率的多个因素的数据以及产率的数据，获得多个因素集以及与所述因素集对应的权重，基于因素与产率的相互关系，将所述多个因素映射到所述多个因素集中，以及基于处理后的训练数据和所述权重构造用于产率预测的随机森林模型，其中，所述权重与生成节点时，作为选择对应的因素集的因素的概率相关。本公开还提供了一种产率预测方法、一种构造产率预测模型的系统以及产率预测系统。

Description

构造产率预测模型的方法、系统及产率预测方法和系统

技术领域

本公开涉及一种构造产率预测模型的方法、系统及产率预测方法和系统。

背景技术

很多化学加工过程，例如催化裂化，其产率与各种因素之间往往是高度非线性和相互强关联的。催化裂化的工艺过程和产品收率优化的建模分析一直是石油加工领域研究的热点和难点，原料油性质，反应再生催化剂性质，以及反应操作工况条件等因素都会影响到反应过程和产物收率，传统的机理模型很难描述。

发明内容

本公开的个方面提供了一种构造产率预测模型的方法，包括获得训练数据，所述训练数据包括可能影响产率的多个因素的数据以及产率的数据，获得多个因素集以及与所述因素集对应的权重，基于因素与产率的相互关系，将所述多个因素映射到所述多个因素集中，以及基于处理后的训练数据和所述权重构造用于产率预测的随机森林模型，其中，所述权重与生成节点时，作为选择对应的因素集的因素的概率相关。

可选地，所述基于因素与产率的相互关系，将所述多个因素映射到所述多个因素集中包括，确定用于表征各个因素与产率的相关性的第一参数值，和/或确定用于表征各个因素与产率的因果性的第二参数值，基于所述第一参数值和/或第二参数值，将所述多个因素映射到所述多个因素集中，其中，所述多个因素集至少包括第一因素集和第二因素集。

可选地，所述方法还包括将指定因素映射到第三因素集中，其中，所述指定因素基于输入操作确定。

可选地，所述基于所述第一参数值和/或第二参数值，将所述多个因素映射到所述多个因素集中包括，将所述第一参数值大于第一阈值或第二参数值大于第二阈值的因素映射到第一参数集，将所述第一参数值不大于第一阈值且第二参数值不大于第二阈值的因素映射到第二参数集。

可选地，所述方法还包括，基于用于表征指定因素与产率的相关性的第三参数值，确定所述第一阈值，并且/或者基于用于表征指定因素与产率的因果性的第四参数值，确定所述第二阈值，其中，所述指定因素基于输入操作确定。

可选地，所述基于所述训练数据和所述权重构造用于产率预测的随机森林模型包括，对于树的每一个节点的生成，基于所述权重，随机确定一个因素集，以及基于所述训练数据，从所述因素集中确定一个因素，用于生成该节点，其中，所述基于所述训练数据，从所述因素集中确定一个因素包括，基于所述训练数据，从所述因素集中确定一个能够使分类后的训练数据的不确定性降低最多的因素。

可选地，所述方法还包括对齐训练数据的时间间隔，所述对齐训练数据的时间间隔包括以下至少一种，通过插值的方式缩小时间间隔，或者通过采样的方式增大时间间隔。

本公开的另一个方面提供了一种产率预测方法，包括获得可能影响产率的多个因素，以及将所述多个因素输入如上所述的随机森林模型，获得产率预测结果。

本公开的另一个方面提供了一种构造产率预测模型的系统，包括训练数据获得模块、因素集获得模块、因素映射模块以及模型构造模块。训练数据获得模块，用于获得训练数据，所述训练数据包括可能影响产率的多个因素的数据以及产率的数据。因素集获得模块，用于获得多个因素集以及与所述因素集对应的权重。因素映射模块，用于基于因素与产率的相互关系，将所述多个因素映射到所述多个因素集中。模型构造模块，用于基于处理后的训练数据和所述权重构造用于产率预测的随机森林模型，其中，所述权重与生成节点时，作为选择对应的因素集的因素的概率相关。

可选地，所述因素映射模块用于，确定用于表征各个因素与产率的相关性的第一参数值，和/或确定用于表征各个因素与产率的因果性的第二参数值，基于所述第一参数值和/或第二参数值，将所述多个因素映射到所述多个因素集中，其中，所述多个因素集至少包括第一因素集和第二因素集。

可选地，所述因素映射模块还用于将指定因素映射到第三因素集中，其中，所述指定因素基于输入操作确定。

可选地，所述系统还包括第一确定模块和/或第二确定模块。第一确定模块，用于基于用于表征指定因素与产率的相关性的第三参数值，确定所述第一阈值。第二确定模块，用于基于用于表征指定因素与产率的因果性的第四参数值，确定所述第二阈值，其中，所述指定因素基于输入操作确定。

可选地，所述模型构造模块包括，因素集确定子模块，用于基于所述权重，随机确定一个因素集，以及因素确定子模块，用于基于所述训练数据，从所述因素集中确定一个因素，用于生成该节点，其中，所述因素确定子模块包括，因素确定单元，用于基于所述训练数据，从所述因素集中确定一个能够使分类后的训练数据的不确定性降低最多的因素。

可选地，所述系统还包括时间间隔对其模块，用于对齐训练数据的时间间隔，所述对齐训练数据的时间间隔包括以下至少一种，通过插值的方式缩小时间间隔，或者通过采样的方式增大时间间隔。

本公开的另一个方面提供了一种产率预测系统，包括，因素获得模块，用于获得可能影响产率的多个因素，以及产率预测模块，用于将所述多个因素输入如上所述的随机森林模型，获得产率预测结果。

本公开的另一个方面提供了一种电子设备，包括，至少一个处理器以及至少一个存储器，用于存储一个或多个计算机可读指令，其中，当所述一个或多个计算机可读指令被所述至少一个处理器执行时，使得所述处理器执行如上所述的方法。

本公开的另一方面提供了一种非易失性存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了根据本公开实施例的产率预测的应用场景；

图2示意性示出了根据本公开实施例的构造产率预测模型的方法的流程图；

图3示意性示出了根据本公开实施例的产率预测方法的流程图；

图4示意性示出了根据本公开实施例的构造产率预测模型的系统的框图；

图5示意性示出了根据本公开实施例的产率预测系统的框图；以及

图6示意性示出了根据本公开实施例的电子设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解，实质上任意表示两个或更多可选项目的转折连词和/或短语，无论是在说明书、权利要求书还是附图中，都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如，短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。

因此，本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中，计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

本公开的实施例提供了一种构造产率预测模型的方法，包括获得训练数据，所述训练数据包括可能影响产率的多个因素的数据以及产率的数据，获得多个因素集以及与所述因素集对应的权重，基于因素与产率的相互关系，将所述多个因素映射到所述多个因素集中，以及基于处理后的训练数据和所述权重构造用于产率预测的随机森林模型，其中，所述权重与生成节点时，作为选择对应的因素集的因素的概率相关。

图1示意性示出了根据本公开实施例的产率预测的应用场景。需要注意的是，图1所示仅为可以应用本公开实施例的场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，通常情况下，化学合成的产率是由很多因素共同决定的，包括但不限于原料配比、原料的投放顺序和时机、反应的各种条件、环境条件等，该些因素与产率的关系通常是十分复杂的，尤其是在一些特别类型的反应中，例如催化裂化反应，很难解释各个因素与产品产率的关系。

本发明实施例的方法通过训练随机森林模型，使用随机森林模型的方法预测产品的产率，其结果的可解释强于使用神经网络的方法。下面结合图2对本公开实施例的构造产率预测模型的方法进行说明。

图2示意性示出了根据本公开实施例的构造产率预测模型的方法的流程图。

如图2所示，该方法包括操作S210～S240。

在操作S210，获得训练数据，所述训练数据包括可能影响产率的多个因素的数据以及产率的数据。

根据本公开实施例，训练数据例如可以被整理为时间序列的形式，如表1所示。

时间	因素的数值表示
		2017/10/21 0：00	163.9425
2017/10/21 0：10	163.9083
		2017/10/21 0：20	163.8642
2017/10/21 0：30	163.8123
		2017/10/21 0：40	163.8324
2017/10/21 0：50	163.9713
		2017/10/21 1：00	164.0689
2017/10/21 1：10	164.1149
		2017/10/21 1：20	164.0097
2017/10/21 1：30	163.8776

表1

根据本公开实施例，可以对训练数据进行预处理，包括处理异常数据和重复数据等。

例如，可以计算该因素在一段时间内的均值和标准差，将超出n倍标准差的数据定义为异常数据，其中，n为正数，例如可以取2或3等。对于异常数据，可以使用时间临近的数据的平均值或加权平均值代替。

对于重复数据，例如，对于同一因素，在同一时间戳下具有多条数据的情况定义为重复数据，对于重复数据，可以采用取平均值或中位数的方式确定一个数值，作为该时间戳下的数据。

表2

如表2所示，在“2017/10/23”有多个取值，分别为“18.22”、“17.52”和“18.96”，可以通过求均值的方法确定“2017/10/23”的取值是(18.22+17.52+18.96)/3＝18.23，或者可以按照中位数的处理方式确定其取值为18.22。

根据本公开实施例，所述方法还包括对齐训练数据的时间间隔，所述对齐训练数据的时间间隔包括以下至少一种，通过插值的方式缩小时间间隔，或者通过采样的方式增大时间间隔。

例如，对于不同的因素，其监控采集频率可能不同。本公开实施例的方法可以将时间间隔对齐，即对所有因素使用统一的时间间隔，例如60分钟。

对于采集时间间隔小于统一的时间间隔的数据，可以采用采样的方式进行处理，例如，可以通过将每个60分钟内的数据取平均值，作为该60分钟内的数据，当然也可以是中位数或其他能够起代表作用的数值。

对于采集时间间隔大于统一的时间间隔的数据，可以采用插值的方式进行处理，例如，可以使用前向填充、线性插值、二阶B样条插值等策略进行插值处理，亦可以使用多种插值技术的均值作填充值，这里不局限于特定的策略。

在操作S220，获得多个因素集以及与所述因素集对应的权重。

例如，可以获得强相关因素集和弱相关因素集，或者经验因素集合非经验因素集等，或者其各种组合方式。例如，本公开实施例获得的因素集可以包括非经验相关因素集、经验相关因素集以及其他因素集，同时，获得与各个因素集对应的权重，在后续构建随机森林时使用。

在操作S230，基于因素与产率的相互关系，将所述多个因素映射到所述多个因素集中。根据本公开实施例，可以根据预定的规则，判断每个因素属于哪个因素集，将该些因素映射到已获取的因素集中。

根据本公开实施例，所述基于因素与产率的相互关系，将所述多个因素映射到所述多个因素集中包括，确定用于表征各个因素与产率的相关性的第一参数值，和/或确定用于表征各个因素与产率的因果性的第二参数值，基于所述第一参数值和/或第二参数值，将所述多个因素映射到所述多个因素集中，其中，所述多个因素集至少包括第一因素集和第二因素集。

例如，在确定用于表征各个因素与产率的相关性时，可以采用皮尔逊相关系数等参数作为第一参数，计算不同因素与产率的皮尔逊相关系数，作为该些因素的第一参数值。

又如，在确定用于表征各个因素与产率的因果性时，可以采用传递熵等参数作为第二参数，计算不同因素与产率的传递熵，作为该些因素的第二参数值。传递熵考虑的是变量间的信息量传递，变量X到变量Y的传递熵实质为变量X的信息对于变量Y不确定性大小的改变，即X传递给Y的信息量的大小，因此，传递熵可以作为衡量因果性的指标。

根据本公开实施例，所述基于所述第一参数值和/或第二参数值，将所述多个因素映射到所述多个因素集中包括，将所述第一参数值大于第一阈值或第二参数值大于第二阈值的因素映射到第一参数集，例如本公开实施例的非经验相关因素集，将所述第一参数值不大于第一阈值且第二参数值不大于第二阈值的因素映射到第二参数集，例如本公开实施例的其他因素集。由于某些因素可能对产率产生负相关，此处的参数值与阈值的比较亦可以是参数值的绝对值与阈值的比较。例如第一阈值为0.2的情况下，第一参数值为0.3或-0.3均视为大于第一阈值。

根据本公开实施例，所述方法包括将指定因素映射到第三因素集中，其中，所述指定因素基于输入操作确定。例如可以通过业务经验，挖掘一些对收率有影响的因素。对于石油加工的催化裂化反应来说，这些指标可能包括提升管反应器出口温度、原料中饱和烃与胶质含量、汽提蒸汽流量、催化剂活性指数等。将该些因素映射到第三因素集，例如本公开实施例的经验相关因素集。

根据本公开实施例，所述方法还包括，基于用于表征指定因素与产率的相关性的第三参数值，确定所述第一阈值，并且/或者基于用于表征指定因素与产率的因果性的第四参数值，确定所述第二阈值，其中，所述指定因素基于输入操作确定。由于第三因素集中因素已经经过经验证实确定对产率有一定影响，因此，在确定相关性和/或因果性的因素时，可以参照第三因素集中的因素，将第三因素集中的因素的相关性和/或因果性作为阈值，以此衡量其他因素是否对产率有相关性和/或因果性。例如，可以取第三因素集中的因素的相关性的平均值作为第一阈值，或者取第三因素集中的因素的因果性的平均值作为第二阈值等。

在操作S240，基于处理后的训练数据和所述权重构造用于产率预测的随机森林模型，其中，所述权重与生成节点时，作为选择对应的因素集的因素的概率相关。

由于本公开实施例要解决的是一个高度非线性和相互强关联的系统，包括原料性质，催化剂性质，以及反应操作工况条件等因素都会影响到反应过程和产物的产率。本公开实施例采用随机森林模型，可以很好的处理非线性关系。在此基础上，引入因素集及其权重，对生成随机森林的过程进行优化。

根据本公开实施例，所述基于所述训练数据和所述权重构造用于产率预测的随机森林模型包括，对于树的每一个节点的生成，基于所述权重，随机确定一个因素集，以及基于所述训练数据，从所述因素集中确定一个因素，用于生成该节点。

例如，根据前面的操作确定了三个因素集A、B、C，该三个因素集的权重分别为5、3、2，那么，对于每一个节点的生成，首先基于该权重从该三个因素集中随机选择一个因素集，例如A因素集被选择的概率为5/(5+3+2)＝0.5，B因素集被选择的概率为3/(5+3+2)＝0.3，C因素集被选择的概率为2/(5+3+2)＝0.2。

根据本公开实施例，所述基于所述训练数据，从所述因素集中确定一个因素包括，基于所述训练数据，从所述因素集中确定一个能够使分类后的训练数据的不确定性降低最多的因素。在因素集确定后，可以在该因素集中选择一个因素生成该节点，例如，可以根据训练数据的情况，选择使基尼系统最大的因素或者产生最大信息增益的因素等。

这样，对于生成的每一棵树，重要的特征会优先被选择，从树的根节点至树的叶节点，重要的特征会占据较大的比重，并且有更大的概率出现在树底部，完成了树对不同因素集的偏好。

该方法通过基于多个因素与产率的相关性对因素分类，并构建随机森林模型的方式，能够较好地反映各个因素与产率的关系，从而能够更准确地预测产率，相对于神经网络算法模型，其训练容易，具有更好的可解释性。

图3示意性示出了根据本公开实施例的产率预测方法的流程图。

如图3所示，该方法包括操作S310和S320。

在操作S310，获得可能影响产率的多个因素。

在操作S320，将所述多个因素输入如上文所述的随机森林模型，获得产率预测结果。

图4示意性示出了根据本公开实施例的构造产率预测模型的系统400的框图。

如图4所示，该构造产率预测模型的系统400包括训练数据获得模块410、因素集获得模块420、因素映射模块430以及模型构造模块440。该系统400可以执行上面参考图2描述的方法，以构造产率预测模型。

训练数据获得模块410，例如执行参考上文描述的操作S210，用于获得训练数据，所述训练数据包括可能影响产率的多个因素的数据以及产率的数据。

因素集获得模块420，例如执行参考上文描述的操作S220，用于获得多个因素集以及与所述因素集对应的权重。

因素映射模块430，例如执行参考上文描述的操作S230，用于基于因素与产率的相互关系，将所述多个因素映射到所述多个因素集中。

模型构造模块440，例如执行参考上文描述的操作S240，用于基于处理后的训练数据和所述权重构造用于产率预测的随机森林模型，其中，所述权重与生成节点时，作为选择对应的因素集的因素的概率相关。

根据本公开实施例，所述因素映射模块430用于，确定用于表征各个因素与产率的相关性的第一参数值，和/或确定用于表征各个因素与产率的因果性的第二参数值，基于所述第一参数值和/或第二参数值，将所述多个因素映射到所述多个因素集中，其中，所述多个因素集至少包括第一因素集和第二因素集。

根据本公开实施例，所述因素映射模块430还用于将指定因素映射到第三因素集中，其中，所述指定因素基于输入操作确定。

根据本公开实施例，所述基于所述第一参数值和/或第二参数值，将所述多个因素映射到所述多个因素集中包括，将所述第一参数值大于第一阈值或第二参数值大于第二阈值的因素映射到第一参数集，将所述第一参数值不大于第一阈值且第二参数值不大于第二阈值的因素映射到第二参数集。

根据本公开实施例，所述系统还包括第一确定模块和/或第二确定模块。第一确定模块，用于基于用于表征指定因素与产率的相关性的第三参数值，确定所述第一阈值。第二确定模块，用于基于用于表征指定因素与产率的因果性的第四参数值，确定所述第二阈值，其中，所述指定因素基于输入操作确定。

根据本公开实施例，所述模型构造模块440包括，因素集确定子模块，用于基于所述权重，随机确定一个因素集，以及因素确定子模块，用于基于所述训练数据，从所述因素集中确定一个因素，用于生成该节点，其中，所述因素确定子模块包括，因素确定单元，用于基于所述训练数据，从所述因素集中确定一个能够使分类后的训练数据的不确定性降低最多的因素。

根据本公开实施例，所述系统还包括时间间隔对其模块，用于对齐训练数据的时间间隔，所述对齐训练数据的时间间隔包括以下至少一种，通过插值的方式缩小时间间隔，或者通过采样的方式增大时间间隔。

图5示意性示出了根据本公开实施例的产率预测系统500的框图。

如图5所示，该产率预测系统500包括因素获得模块510和产率预测模块520。该系统500可以执行上面参考图3描述的方法，以实现产率的预测。

因素获得模块510，例如执行参考上文描述的操作S310，用于获得可能影响产率的多个因素。

产率预测模块520，例如执行参考上文描述的操作S320，用于将所述多个因素输入如上所述的随机森林模型，获得产率预测结果。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，训练数据获得模块410、因素集获得模块420、因素映射模块430、模型构造模块440、第一确定模块、第二确定模块、因素集确定子模块、因素确定子模块、因素确定单元以及时间间隔对其模块中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，训练数据获得模块410、因素集获得模块420、因素映射模块430、模型构造模块440、第一确定模块、第二确定模块、因素集确定子模块、因素确定子模块、因素确定单元以及时间间隔对其模块中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，训练数据获得模块410、因素集获得模块420、因素映射模块430、模型构造模块440、第一确定模块、第二确定模块、因素集确定子模块、因素确定子模块、因素确定单元以及时间间隔对其模块中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

又如，因素获得模块510和产率预测模块520中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，因素获得模块510和产率预测模块520中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，因素获得模块510和产率预测模块520中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图6示意性示出了根据本公开实施例的电子设备600的框图。图6示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600包括处理器610以及计算机可读存储介质620。该电子设备600可以执行根据本公开实施例的方法。

具体地，处理器610例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器610还可以包括用于缓存用途的板载存储器。处理器610可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质620，例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

计算机可读存储介质620可以包括计算机程序621，该计算机程序621可以包括代码/计算机可执行指令，其在由处理器610执行时使得处理器610执行根据本公开实施例的方法或其任何变形。

计算机程序621可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序621中的代码可以包括一个或多个程序模块，例如包括621A、模块621B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器610执行时，使得处理器610可以执行根据本公开实施例的方法或其任何变形。

根据本公开实施例，训练数据获得模块410、因素集获得模块420、因素映射模块430、模型构造模块440、第一确定模块、第二确定模块、因素集确定子模块、因素确定子模块、因素确定单元以及时间间隔对其模块中的至少一个可以实现为参考图6描述的计算机程序模块，或者，因素获得模块510和产率预测模块520中的至少一个可以实现为参考图6描述的计算机程序模块，其在被处理器610执行时，可以实现上面描述的相应操作。

本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现执行根据本公开实施例的方法或其任何变形。

根据本公开的实施例，计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、射频信号等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种构造产率预测模型的方法，包括：

获得训练数据，所述训练数据包括可能影响产率的多个因素的数据以及产率的数据；

获得多个因素集以及与所述因素集对应的权重；

基于因素与产率的相互关系，将所述多个因素映射到所述多个因素集中；以及

基于处理后的训练数据和所述权重构造用于产率预测的随机森林模型，其中，所述权重与生成节点时，作为选择对应的因素集的因素的概率相关。

2.根据权利要求1所述的方法，其中，所述基于因素与产率的相互关系，将所述多个因素映射到所述多个因素集中包括：

确定用于表征各个因素与产率的相关性的第一参数值，和/或

确定用于表征各个因素与产率的因果性的第二参数值；

基于所述第一参数值和/或第二参数值，将所述多个因素映射到所述多个因素集中，其中，所述所述多个因素集至少包括第一因素集和第二因素集。

3.根据权利要求2所述的方法，还包括：

将指定因素映射到第三因素集中，其中，所述指定因素基于输入操作确定。

4.根据权利要求2所述的方法，其中，所述基于所述第一参数值和/或第二参数值，将所述多个因素映射到所述多个因素集中包括：

将所述第一参数值大于第一阈值或第二参数值大于第二阈值的因素映射到第一参数集；

将所述第一参数值不大于第一阈值且第二参数值不大于第二阈值的因素映射到第二参数集。

5.根据权利要求4所述的方法，还包括：

基于用于表征指定因素与产率的相关性的第三参数值，确定所述第一阈值；并且/或者

基于用于表征指定因素与产率的因果性的第四参数值，确定所述第二阈值，

其中，所述指定因素基于输入操作确定。

6.根据权利要求1所述的方法，其中，所述基于所述训练数据和所述权重构造用于产率预测的随机森林模型包括，对于树的每一个节点的生成：

基于所述权重，随机确定一个因素集；以及

基于所述训练数据，从所述因素集中确定一个因素，用于生成该节点，

其中，所述基于所述训练数据，从所述因素集中确定一个因素包括，

基于所述训练数据，从所述因素集中确定一个能够使分类后的训练数据的不确定性降低最多的因素。

7.根据权利要求1所述的方法，还包括对齐训练数据的时间间隔，所述对齐训练数据的时间间隔包括以下至少一种：

通过插值的方式缩小时间间隔；或者

通过采样的方式增大时间间隔。

8.一种产率预测方法，包括：

获得可能影响产率的多个因素；以及

将所述多个因素输入如权利要求1～7中任意一项所述的随机森林模型，获得产率预测结果。

9.一种构造产率预测模型的系统，包括：

训练数据获得模块，用于获得训练数据，所述训练数据包括可能影响产率的多个因素的数据以及产率的数据；

因素集获得模块，用于获得多个因素集以及与所述因素集对应的权重；

因素映射模块，用于基于因素与产率的相互关系，将所述多个因素映射到所述多个因素集中；以及

模型构造模块，用于基于处理后的训练数据和所述权重构造用于产率预测的随机森林模型，其中，所述权重与生成节点时，作为选择对应的因素集的因素的概率相关。

10.一种产率预测系统，包括：

因素获得模块，用于获得可能影响产率的多个因素；以及

产率预测模块，用于将所述多个因素输入如权利要求1～7中任意一项所述的随机森林模型，获得产率预测结果。