CN108431835B

CN108431835B - 确定相关历史的长度的设备和方法

Info

Publication number: CN108431835B
Application number: CN201680075900.XA
Authority: CN
Inventors: I·C·M·福林森伯格; M·奥恩
Original assignee: Koninklijke Philips NV
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2015-12-24
Filing date: 2016-12-15
Publication date: 2021-12-10
Anticipated expiration: 2036-12-15
Also published as: US10922289B2; CN108431835A; WO2017108550A1; EP3394800A1; JP6890593B2; JP2019508775A; US20190026323A1

Abstract

提供了一种用于确定第一类型的数据的实例的历史的长度的设备(100)和方法。所述设备包括第二数据集单元(104)、第一数据集单元(102)、第一条件熵单元(106)、阈值单元(108)以及长度确定单元(114)。所述第一数据集单元、所述第二数据集单元以及所述阈值单元获得输入数据。第一条件熵单元在给定第一数据集的情况下确定针对第二数据集的第一条件熵。所述确定单元通过确定针对缩减的第一数据集的序列的最小长度来搜索相关历史的长度，对于所述最小长度，在给定缩减的第一数据集的情况下，针对第二数据集的第二条件熵相距于第一条件熵处在最大熵增大阈值之内。

Description

确定相关历史的长度的设备和方法

技术领域

本发明涉及用于确定第一类型的数据的实例的相关历史的长度的设备。

本发明还涉及确定第一类型的数据的实例的相关历史的长度的方法。

本发明还涉及对数据集进行缩减的方法、基于第一类型的数据的实例的历史预测第二类型的数据的实例的方法、以及用于确定第一类型的数据的实例的相关历史的长度的计算机程序产品。

背景技术

在机器学习技术中，常常使用历史数据对机器进行训练，从而使得机器能够基于新近的数据集来预测事件。在许多情况下，使用非常长的历史数据对机器进行尽可能好的训练。然而，可能需要相当大量的数据存储和处理能力以使用这样的长历史。同样地，当训练必须基于的新数据抵达时，必须再次对包括所述新数据在内的所有历史数据进行处理。同样地，某些其他预测技术直接使用所确定的事件和所测量的值的数据历史。然后，常常使用可用的全部所存储的数据历史，并且在必须基于新近的数据集做出预测时，要对全部数据历史进行处理，以找到新近数据与数据历史之间的相似性——这需要相当大量的处理能力。需要缩减要存储的历史数据的量。

常常咨询专家以获得专家关于要预测的数据与测得(传感器)的数据之间的关系的意见。情况可能是，正在被用于预测事件的数据是从多个传感器获得的数据。在常规方法中，确定针对所有不同传感器的数据的单个历史长度。然而，具体传感器的历史的长度可能被缩减更多，因为仅这些具体传感器的相对较短的历史包括关于所要预测的事件的最多信息。因此，缩减在预测技术中所使用的历史的长度的常规方法要么导致存储过多的数据，要么由于丢弃太多数据而导致不准确的预测。

上文已经提到了预测技术适于预测“事件”。必须指出，术语“事件”必须从广义上来读。“事件”可以表示物理实体的特征，例如，“机器的部件将被毁坏或者不被毁坏”或者“工厂的能耗将过高或者不过高”。这些范例涉及二元预测：“某事为真或非真”。然而，上文所讨论的预测技术不限于二元特征，并且这些预测技术可以预测具有较高基础数系中的值的特征，“本市的能耗将处在低水平、中等水平或高水平”。上文所讨论的预测技术还可以应用于以历史数据为基础获得标量值的回归使用情形。这种解释也适用于本文中的其余部分。

发明内容

本发明的目的在于提供一种能够确定第一类型的数据的实例的相关历史的长度的系统和方法，当必须基于所述第一类型的数据的(更为新近的)实例来预测第二类型的数据的实例时必须保持或使用所述第一类型的数据的实例。在该语境下，术语相关意指：在所述第一类型的(更为新近的)实例的基础上以及在包括具有关于所述第一类型的数据的实例的历史信息的有限长度的序列的历史数据的基础上能够对所述第二类型的数据的实例做出可靠的预测。

出于该目的，根据本发明的一方面，提供了一种如在权利要求1中所限定的用于缩减包括第一类型的数据的实例的数据集的数据缩减系统。

出于该目的，根据本发明的另一方面，提供了一种如在权利要求2中所限定的用于缩减包括第一类型的数据的实例的数据集的方法。

出于该目的，根据本发明的另外的方面，提供了一种对数据集进行缩减的方法、一种基于第一类型的数据的实例的历史来预测第二类型的数据的实例的方法、以及一种计算机程序产品。

所述系统和所述方法的特征和措施的效果在于：获得了要在所述第一数据集中保持足够的历史信息以可靠地预测所述第二类型的数据的实例所必须保持的所述第一类型的数据的实例的序列的长度的数值。

所述条件熵是在假定知道包括所述第一类型的数据的(历史)实例的序列的数据集的情况下定义第二数据类型的(当前和未来)实例的其余不确定性的量度。如果条件熵相对低，则包括所述第一类型的数据的(历史)实例的序列的数据集包括关于所述第二类型的数据的(当前和未来)实例的大量信息，并且因此，可用于当已知所述第一类型的数据的实例的(更为新近的)序列时预测所述第二类型的数据的实例。

在信息理论的领域中，已知并且已经证明，在给定实例x₁..x_n的序列的情况下，如果移除序列x₁..x_n的实例中的一个实例，则针对例如变量y的条件熵增大或保持相等。在上文所描述的设备和方法的语境下，能够将序列x₁..x_n视为所述第一类型的数据的实例的历史。因此，如果希望缩减要保持的历史数据的量，则必须接受条件熵可能增大，并且在给定较少历史数据的情况下关于变量y的不确定性可能增大。借助于上文所描述的设备或者通过应用上文所描述的方法，发现直到可以将具有第一类型的数据的实例的序列的长度缩减至哪一长度才能使得条件熵不增大太多。因此，使数据缩减的要求与不确定性的增大保持平衡。已经通过最大熵增大因子定义了所述条件熵可以增大多少，并且因此，所述最大熵增大因子确定数据缩减与不确定性的增大之间的平衡。如果不想接受不确定性的大的增大，则必须使用低的最大熵增大阈值因子。如果想要更多的数据缩减，则必须使用更高的最大熵增大阈值因子。在给定所定义的最大熵增大阈值的情况下，所述设备或所述方法找到可以将具有第一数据类型的(历史)实例的序列的实例的长度缩减至哪一数值。

所述第一类型的数据的实例以测得的传感器数据为基础。这意指所述第一类型的数据可以是具体传感器的测量结果，但是也可以是由两个具体传感器的测量值被组合、“融合”成单个值的具体组合。例如，由感测具体物理实体的温度的传感器感测到的若干个温度测量结果可以被平均化为表示所述具体物理实体的温度的单个温度值。

应当指出，所确定的相关历史的长度涉及第一类型的数据和第二类型的数据的一种特定组合。例如，所述第一类型的数据是从装置中具有特定功能的一种特定类型的传感器获得的数据。所述第一类型的数据不涉及所述装置的其他传感器或者所述设备中的相同类型但是具有不同功能的传感器。还可能的是，所述第一类型的数据也可以来自相同类型的不同装置中具有所述特定功能的特定类型的传感器。例如，所述第一类型的数据可以是所述装置中的特定电机的温度。在范例中，所述装置可以具有测量其他部件的温度的更多温度传感器，但是这些其他传感器的测量值是具有不同类型的数据。其还适用于当不同传感器的值被组合成一个具体值时的情况：这时，所述第一类型的数据的实例总是涉及具有相同功能的相同类型的传感器的相同组合。同样的内容适用于所述第二类型的数据：其为物理实体的特定类型的特定特征。例如，装置的部件是否故障。在范例中，其他部件的故障状态是另一类型的数据。第二集合的一个实例对应于第一集合中的序列——这意指在特定机器处确定第二集合的实例的时刻处，所述特定机器的特定传感器在所述时刻之前的一时间间隔内测得了对应序列的实例。还可能的是，所述序列包括在确定第二集合的特定(对应)实例的时刻处获得的所述传感器的实例。

由于所确定的相关历史的长度涉及第一类型的数据和第二类型的数据的一种特定组合，因而可以使用所述设备或方法针对不同的组合做出确定，以获得相关历史的不同长度。如果有(例如)不同传感器的数据可用于预测物理实体的特征，则这种情况是特别有利的。通过将所述设备或方法用于若干种组合，可以针对每个传感器找到最佳历史长度，并且由此可以创建更进一步缩减的传感器数据集，以供在预测或机器学习技术中使用，而不损失太多的预测准确性。

任选地，对相关历史的长度的所述确定包括：i)从数据的第一数据集获得暂时的缩减的第一数据集，与第一数据集的序列相比，在所述暂时的缩减的第一数据集中，针对每个序列已经移除了最老的实例，ii)在给定暂时的缩减的集合的情况下获得针对第二数据集的第二条件熵，iii)将所述第二条件熵与所述第一条件熵进行比较，以确定所述第二条件熵相距于所述第一条件熵是否处在最大熵增大阈值之内，并且a)如果所述第二条件熵相距于所述第一条件熵处在最大熵增大阈值之内，那么从所述暂时的缩减的第一数据集的序列中移除最老的实例，并且再次执行所述第二条件熵的获得以及所述第二条件熵与所述第一条件熵的比较，或者b)如果所述第二条件熵相距于所述第一条件熵未处在最大熵增大阈值之内，那么所确定的相关历史的长度是所述暂时的缩减的第一数据集的序列的长度加一。

该任选实施例提供了用于确定相关历史的长度的有效实施例。根据所述实施例，通过以相对较大的缩减的第一数据集开始搜索，并且接下来以小步长降低缩减的第一集合的尺寸，并且确定该集合是否仍然处在由所述第一条件熵和最大熵增大阈值定义的边界之内而开始对相关历史的长度的搜索。

应当指出，确定所述相关历史的长度的实施例并不限于上文讨论的搜索算法。确定所述相关历史的长度也能够基于二分搜索算法：首先针对具有仅包括第一集合的序列的最新近的一半的序列的暂时的缩减的第一集合来确定第二条件熵，并且确定在哪一方向上能够找到所述相关历史的长度。如果已知相关历史的长度是处在所述历史的最新近的一半中，还是处在较老的一半中，那么分别针对所述历史的最新近的一半或较老的一半的中间的点获得暂时的缩减的第一集合，并且确定是否能够在该点之前或之后找到相关历史的长度，等等。对所述相关历史的长度的确定也能够以适合于分类的列表的其他搜索算法为基础：当暂时的缩减的第一集合中的序列的长度被缩减时，所述第二条件熵的值增大或保持相等。

在实施例中，所述第一条件熵的获得包括通过以下操作来估计第一条件熵：i)对第二集合和第一集合应用上下文树加权法，以获得第一上下文树，并且ii)使用所述第一上下文树的根部的加权概率来计算第一条件熵的估计。所述第一集合中的每个独有的序列由第一上下文树中的路径表示，并且存储在所述第一上下文树的节点内的计数以第二集合的对应元素为基础。所述上下文树加权法是文本压缩领域中的公知方法。如果在本发明的语境下假设第一集合的数据是通过树源生成的，那么上下文树加权法是生成针对该树源的估计的树的有效率并且有效用的方法——所述估计的树是上文所讨论的语境下的所述第一上下文树。所述上下文树加权法提供了计算针对上下文树的节点的加权概率的有效率并且有效用的手段，并且在给定(一个或多个)以上假设的情况下，能够估计所述第一上下文树的根部的加权概率来获得所述第一条件熵的估计。因此，所述上下文树加权法提供了估计所述第一条件熵的有效用并且有效率的手段。

在实施例中，获得所述第二条件熵包括通过以下操作来估计所述第二条件熵：i)对第二集合以及缩减的第一集合或暂时的缩减的第一集合应用所述上下文树加权法，以获得第二上下文树，并且ii)使用所述第二上下文树的根部的加权概率来计算估计的第二条件熵。所述缩减的第一集合或者暂时的缩减的第一集合中的每个独有的序列由第二上下文树中的路径表示，并且存储在所述第二上下文树的节点内的计数以第二数据集的对应元素为基础。与上文的论述一致，所述上下文树加权法是一种获得第二条件熵的估计的有效率并且有效用的方法。

在实施例中，作为对第二集合以及缩减的第一集合或暂时的缩减的第一集合完整应用上下文树加权法的替代，通过从所述第一上下文树移除从根部来看具有大于缩减的第一集合或暂时的缩减的第一集合的序列的长度的深度的叶子(leaf)来获得第二上下文树。如先前所论述的，可以通过构建新的第二上下文树来估计第二条件熵。本发明人注意到，所述第二上下文树是为了估计第一条件熵而构建的第一上下文树的子树。本发明人已经发现，如果从第一集合的每个序列移除最老的实例，则第二上下文树的深度减少一，亦即，所述第二上下文树不包含该树的叶子以及终止于叶子节点中的边缘。通过推论可以断定，当缩减的第一集合的序列具有给定长度时，那么所述第一上下文树中的具有大于该给定长度的深度的所有叶子和节点(加上对应的边缘)必须被移除，以获得所述第二上下文树。该实施例实现了对第二条件熵的更有效率的估计。

在实施例中，所述第一类型的数据的实例是离散值。使用这样的连续数据导致计算或估计第一和/或第二条件熵的更复杂方式。如果第一类型的实例的离散值的数量是有限的，那么就存储器使用和计算能力而言，所述上下文树加权法是最有效率的。在实施例中，确定相关历史的长度的方法还包括对连续数据的实例进行量化，以获得所述第一类型的数据的实例的离散值，其中，执行所述量化使得第二类型的数据与第一类型的数据之间的互信息的损失处在最大信息损失阈值之内。量化导致互信息的损失，但是如果使该损失保持在可接受的最大信息损失阈值之内，那么所述方法的效率的提高将胜过互信息的损失。这样的量化的实施例是在第一类型的数据的连续数据的最小值与最大值之间创建一定数量的大小相等的分箱(bin)，并且将分箱的编号分配给落在所述分箱的边界之内的连续数据。通过增加分箱的数量，可以降低互信息的损失。也可以使用更加高级的方法来减少互信息的损失。

根据另一方面，提供了一种对数据集进行缩减的方法。对数据集进行缩减的所述方法包括：确定相关历史的长度的方法，其根据该方法的上文所论述的实施例中的任何实施例，并且对数据集进行缩减的所述方法还包括：通过从第一数据集的每个序列中删除第一类型的数据的最老的实例来缩减所述第一数据集，直到所述序列具有所确定的相关历史的长度为止。由此，获得了显著缩减的第一数据集，如果具有第一类型的数据的实例的(更为新近的)序列，那么所述缩减的第一数据集仍然对于预测第二类型的数据的实例的预测非常有用。

根据另外的方面，提供了一种基于第一类型的数据的实例的历史来预测第二类型的数据的实例的方法。所述方法包括上文所论述的对数据集进行缩减的方法，并且包括：i)接收第一类型的数据的实例的新近历史，并且ii)采用缩减的第一数据集和第二数据集来预测训练预测模型的第二类型的数据的实例。借助于该方法，在显著缩减所存储的历史数据的量的同时，相对准确地预测了第二类型的数据的实例。由此获得了预测第二类型的数据的实例的更加有效率的方式。在本文的语境下预测第二类型的实例的确切方式是不相关的——在该实施例中，相关的仅是预测的所述方法使用具有第一类型的数据的实例和第二类型的数据的实例的形式的历史数据。

根据本发明的一方面，提供了一种用于确定第一类型的数据的实例的相关历史的长度的计算机程序产品。所述程序能操作用于使处理器执行上文所论述的方法中的任一种方法。

在从属权利要求中给出了根据本发明的设备和方法的其他优选实施例，通过引用将其公开内容并入本文。

附图说明

通过进一步参考在下述说明中参考附图以举例方式描述的实施例，本发明的这些和其他方面将变得显而易见，并且将得到进一步阐释，在附图中：

图1示意性示出了用于确定第一类型的数据的实例的相关历史的长度的设备。

图2示意性示出了用于确定第一类型的数据的实例的相关历史的长度的方法。

图3示意性示出了可以生成第一类型的数据的实例和第二类型的数据的实例的相同类型的两台机器。

图4示意性示出了计算机程序产品的实施例。

附图完全是示意性的，而非按比例绘制的。在附图中，对应于已经描述的要素的要素可以具有相同的附图标记。

具体实施方式

图3示意性示出了可以生成第一类型的数据的实例和第二类型的数据的实例的相同类型的两台机器300、350。图3是其中能够应用用于确定第一类型的数据的实例的相关历史的长度的设备和方法的领域的范例。该图被用在对图1的论述中。应当指出，这两台机器300、350是相同类型的，这意指其具有相同的设计，执行相同的功能，等等。这两台机器300、350包括生成第一类型的数据的实例的传感器302、352。这意指传感器302、352相互类似，并且在这两台机器300、350中具有相同的功能。例如，传感器302、352测量机器的电机的温度。这两台机器300、350均具有要确定和/或要预测其特征的物理实体304、354。所述特征是第二类型的数据的实例。例如，物理实体304、354是机器的电机并且，所述特征是“电机304或354正在运行或故障”。

图1示意性示出了用于确定第一类型的数据的实例的相关历史的长度的设备100。所述第一类型的数据的实例包括有用的并且能够被用于预测第二类型的数据的实例的信息。所述设备包括第一数据集单元102、第二数据集单元104、第一条件熵单元106、阈值单元108、长度确定单元114以及输出单元116。

第二数据集单元104被布置用于获得包括第二类型的数据的实例的第二数据集。所述第二类型的数据的实例包括物理实体的特征。例如，所述第二集合由Y指示。集合Y包括若干实例y_i，其是所述物理实体在不同时刻处的特征。例如，实例y_i是特征“电机304或354运行良好或故障”。例如，所述集合的第一元素是：如果机器1在时刻15处运行良好，则y_{1(机器1，t＝15)}＝1，所述集合的第二元素是：如果机器2的电机在时刻25处发生故障，则y_{2(机器，t＝25)}＝0。

第一数据集单元102被布置用于获得包括第一类型的数据的实例的序列的第一数据集。每个序列提供针对第二集合的对应元素的第一类型的数据的实例的历史。每个序列包括确定第二集合的对应元素的时刻之前的实例以及任选的该时刻处的实例。第一类型的数据的实例是根据序列中的时间来排序的。第一类型的数据的实例包括测得的传感器数据。例如，第一集合利用X指示，并且包括若干序列x₁、x₂……序列x₁涉及第二集合Y的实例y₁，并且因此包括获得电机304的特征y₁＝1的时刻之前(并且任选包括该时刻)的时间间隔内的传感器302的数据的实例。例如，序列x₁＝(xi_{(电机传感器302，t＝15)}xi_{(电机传感器302，t＝14)}xi_{(电机传感器302，t＝13)}xi_{(电机传感器302，t＝12)}....)，其中，xi指代第一类型的数据的实例。序列x₂涉及第二集合Y的实例y₂，并且包括获得电机354的特征的时刻之前(并且任选包括该时刻)的时间间隔内的传感器352的实例。例如，序列x₂＝(xi_{(电机传感器352，t＝25)}xi_{(电机传感器352，t＝24)}xi_{(电机传感器352，t＝23)}xi_{(电机传感器}352_，t＝22)....)。序列x₁和x₂包括相同数量的第一类型的数据的实例，——因此，换言之，序列x₁和x₂所包括的第一类型的实例所处的时间间隔具有相同的长度。

第一条件熵单元106被布置用于在给定第一数据集的情况下获得针对第二数据集的第一条件熵。在机器300和350的数据的范例中，由H₁(Y|X)指示所述第一条件熵。在信息论领域中明确定义了条件熵。稍后在本文中提供计算或者估计第一条件熵的实施例。第一条件熵单元106可以被耦合至第一数据集单元102，并且第二数据集单元104可以被布置用于接收第一数据集和第二数据集。

阈值单元108被布置用于获得最大熵增大阈值，其指示当缩减第一数据集中的序列的长度时第一条件熵可以以之增大的因子。例如，在实际实施例中，最大熵增大阈值由α指示，α的值是零与一之间的数字。1意指第一条件熵可以增大100％，0.5意指第一条件熵可以增大50％等。假设第一集合被缩减至X_r，那么最大熵增大阈值定义H(Y|X_r)≤(1+α)H₁(Y|X)(其中，缩减的第一集合X_r的序列的长度短于X的序列)。

长度确定单元114被布置用于通过确定针对缩减的第一数据集的序列的最小长度而确定相关历史的长度，针对所述最小长度，在给定缩减的第一数据集的情况下，针对第二数据集的第二条件熵相距于第一条件熵处置所述最大熵增大阈值之内。缩减的第一数据集包括最小长度的序列，并且缩减的数据集的序列包括第一数据集中其对应的序列的第一类型的数据的最新近的实例。长度确定单元114可以被耦合至第一数据集单元102、第二数据集单元104、阈值单元108以及第一条件熵单元106，以分别接收第一数据集、第二数据集、最大熵增大阈值以及第一条件熵。

阈值单元108不确定缩减的第一集合X_r中的序列可以被缩减至何种长度，而是提供这样的值，所述值是用于确定相关历史的长度的条件的部分。长度确定单元114确定缩减的第一数据集中的序列的最小长度，使得条件H₂(Y|X_r)<＝(1+α)H₁(Y|X)为真。H₂(Y|X_r)是在给定缩减的第一数据集的情况下针对第二集合的第二条件熵。因此，长度确定单元114通过执行搜索以寻找该最小长度。这样的搜索可以是以不同的方式执行的。稍后将在本文中对实施例进行论述。还应当注意，缩减的序列仍然包括第一类型的数据的最新近的实例。例如，如果上文论述的序列x₁被缩减为仅3个元素，那么缩减的序列为：x_1r＝(xi_{(电机传感器302，t＝15)}xi_{(电机传感器302，t＝14)}xi_{(电机传感器302，t＝13)})。

长度确定单元114可以包括缩减单元110，缩减单元110通过从第一数据集的序列中移除特定数量的最老的实例而基于所述第一数据集创建缩减的第一集合X_r。长度确定单元114可以包括第二条件熵单元，所述第二条件熵单元用于在给定缩减的第一数据集的情况下计算针对第二集合的第二条件熵：H₂(Y|X_r)。

输出单元116被布置用于将序列的最小长度作为相关历史的长度提供给例如数据缩减布置，以缩减针对第一类型的数据所存储的历史的量。所述输出单元被耦合至长度确定单元，以接收针对序列的最小长度。如果该值被提供给例如必须缩减第一数据集X的尺寸的数据缩减布置，则将最老的实例从X中的所有序列中移除，直到所述序列具有由所述值指示的长度为止。

第一数据集单元102、第二数据集单元104以及阈值单元108可以包括第一数据集、第二数据集以及最大熵增大阈值分别被存储于其中的数据存储器。这些单元也可以共享在其中存储该数据的公共存储器。另外地或备选地，第一数据集单元102、第二数据集单元104以及阈值单元108可以包括输入部，所述第一数据集、所述第二数据集以及所述最大熵增大阈值分别是在所述输入部处接收到的。这些单元也可以共享公共输入部。这样的输入部还可以包括用户接口，诸如图形用户接口，用户能够在所述接口处提供针对第一数据集、第二数据集或者最大熵增大阈值的至少其中之一的输入。

第一数据集单元102、第二数据集单元104以及阈值单元108可以全部包括专用硬件，在所述专用硬件处分别生成所述第一数据集、第二数据集以及最大熵增大阈值，或者第一数据集单元102、第二数据集单元104以及阈值单元108可以实施在通用处理器上，所述通用处理器运行包括分别生成第一数据集、第二数据集以及最大熵增大阈值的指令的计算机程序。第一条件熵单元106和长度确定单元114可以包括被配置为执行各自单元的任务的专用硬件。第一条件熵单元106和长度确定单元114也可以包括运行包括用于执行各自单元的任务的指令的计算机程序的通用处理器。同样地，在另一实施例中，用于确定相关历史的长度的设备100可以包括计算机，所述计算机包括存储器或数据存储装置、任选的输入部、输出部以及用户接口，并且包括运行包括用于执行设备100的单元之一的任务的至少其中之一的指令的计算机程序的通用处理器，运行所述指令是为了确定第一类型的数据的实例的相关历史的长度。

图1还示出了数据缩减系统150。数据缩减系统150包括用于确定第一类型的数据的实例的历史的长度以缩减包括第一类型的数据的实例的第一数据集的设备100。数据缩减系统150还包括数据缩减单元152，数据缩减单元152基于第一数据集获得缩减的数据集，并且所述缩减的数据集包括第一类型的数据的实例的序列。缩减集合中的序列的长度以用于确定第一类型的数据的实例的历史的长度的设备提供的所确定的长度为基础。

图2示意性示出了确定第一类型的数据的实例的相关历史的长度的方法200。第一类型的数据的实例包括用于预测第二类型的数据的实例的信息。所述方法200包括：

获得202包括第二类型的数据的实例的第二数据集，所述第二类型的数据的实例包括物理实体的特征，

获得204包括第一类型的数据的实例的序列的第一数据集，每个序列提供针对第二集合的对应元素的第一类型的数据的实例的历史，每个序列包括确定第二集合的对应元素的时刻之前的并且任选包括该时刻的实例，所述第一类型的数据的实例包括测得的传感器数据，

在给定第一数据集的情况下获得206针对第二数据集的第一条件熵，

获得208最大熵增大阈值，所述最大熵增大阈值指示当缩减第一数据集中的序列的长度时，第一条件熵可以以之增大的因子，

通过确定针对缩减的第一数据集的序列的最小长度来确定210所述相关历史的长度，针对所述最小长度，在给定缩减的第一数据集的情况下，针对第二数据集的第二条件熵相距于第一条件熵处在所述最大熵增大阈值之内，所述缩减的第一数据集包括最小长度的序列，并且所述缩减的数据集的序列包括第一数据集中其对应的序列的第一类型的数据的最新近的实例，

将针对所述序列的最小长度作为相关历史的长度提供212给例如用于缩减针对第一类型的数据所存储的历史的量的数据缩减布置。

在下文中，通过将第一数据集定义为矩阵X，并且将第二数据集定义为向量Y，而更加详细地论述用于确定第一类型的数据的实例的相关历史的长度的设备以及用于确定第一类型的数据的实例的相关历史的长度的方法的操作。所述第一数据集的序列是矩阵X中的行r_i，而向量Y的第一元素y₁是属于矩阵X的第一行r₁的第二类型的数据的对应实例。此外，每行r_i的第一元素x_i1是该序列的最新近的实例，并且该行的每个接下来的实例是第一类型的数据的较老的实例。因此，矩阵的列表示时间，并且具有更高编号的列涉及更老的时刻。针对第一类型的数据使用矩阵，定义按照矩阵X的行提供序列，定义各行的第一元素是各行的最新近的元素，以及通过向量Y表示第二数据集仅仅是实施细节。本发明的实施例并不限于这些细节。本领域技术人员将直接理解，矩阵的列也可以包括序列，并且序列中的各实例的时间序列也可以是不同的。

因此，所述第一数据集是矩阵

其中，行r_i包括具有第一类型的数据的实例的序列，并且x_ij是第一类型的数据的实例。矩阵X包括具有第一类型的数据的实例的m个序列，并且因此，所述矩阵具有m行。每个序列具有长度n，并且因此，该矩阵包括n列。应当指出，列的数量n是可以取决于可用历史数据的量以及设备100或方法200的处理能力的系统变量。应当指出，行的数量m也是可以取决于可用历史数据的量以及设备100或方法200的处理能力的系统变量。如果具有既定的历史数据集，那么n的增大将导致m的减小，并且反之亦然。

因而，所述第二数据集是

其中，y_i是与行r_i的序列有关的第二类型的数据的实例。

在实施例中，存在第一测试机器，诸如，例如图3的机器300。在各个规律的时刻上收集来自传感器302以及来自物理实体304的数据。如果假定传感器302收集来自作为电机的物理实体304的温度数据，并且在规律的时刻处收集电机的工作状态，例如，1000次，那么我们最后将得到具有数据的实例的两个序列：

温度序列＝(T_t＝1，T_t＝2，T_t＝3，...，T_t＝1000)

电机序列＝(M_t＝1，M_t＝2，M_t＝3，...，M_t＝1000)

如果我们假设矩阵X中的各行的最大长度为100，那么我们能够通过下式根据这些序列生成上文所论述的矩阵X和向量Y：

以及

因此，矩阵X的每行r_i包括紧接在确定电机的特征的时刻之前的时间间隔内的传感器302的历史。注意，如果增大了序列(行r_i)的长度，那么矩阵X中的行的数量以及Y中的元素的数量将增大。

在另一实施例中，存在两台测试机器，在所述测试机器收集第一数据类型的实例和第二数据类型的实例。例如，图3的机器300和350被用于收集数据，并且收集传感器302、352的数据，并且收集电机304、354的数据。如果按照规律的时刻收集数据，例如，在这两台机器500上收集500个相继时刻上的数据，那么我们最后将得到具有数据的实例的四个序列。

机器1：

温度序列：机器1＝(T1_t＝1，TI_t＝2，T1_t＝3，...，T1_t＝500)

电机序列：机器1＝(M1_t＝1，M1_t＝2，MI_t＝3，...，M1_t＝500)

机器2：

温度序列：机器2＝(T2_t＝1，T2_t＝2，T2_t＝3，...，T2_t＝500)

电机序列：机器2＝(M2_t＝1，M2_t＝2，M2_t＝3，...，M2_t＝500)

并且如果我们假设矩阵X中的各行的长度为200，那么我们能够通过下式根据这些序列生成上文所论述的矩阵X和向量Y：

以及

请注意，上文所论述的根据从一个或多个机器获得的数据获得矩阵X和Y的实施例仅是范例。可以使用来自相同类型的更多机器的数据。可以使用来自不同时刻(例如，不同的日、周或月)的数据，等等。

在实施例中，第一类型的数据的实例是离散值，并且在实施例中，第一类型的数据的实例的值仅能够选自可能值的小的集合。如果传感器生成更多的值，那么可以对传感器数据进行量化，即，置于分箱中，并且每个分箱由离散值表示。为了避免过多的信息损失，在有利的实施例中，对数据进行量化，使得相对于Y的非量化数据之间的互信息与相对于Y的量化数据之间的互信息彼此不会有太大差别。因此，I(X，Y_未缩减的)≈I(X，Y_缩减的)。例如，Cardinal(“Quantization with anInformation-Theoretic Distortion Measure”)描述了一种使用Loyd量化器对数据进行量化以使得X与Y之间的互信息不会因量化而减少太多的方法。将“Université Libre de Bruxelles”在网址http://www.ulb.ac.be/di/ publications/RT_2002.html上发布的并且在网址http://citeseerx.ist.psu.edu/viewdoc/summary？doi＝10.1.1.20.3058上也进行了发布的Jean Cardinal，2002年10月23日的文章“Quantization with an Information-Theoretic Distortion Measure”并入本文以供参考。

为了确定能够将行r_i的哪一部分定义为“不相关”，换言之，为了确定不相关的列，初始确定第一条件熵H₁(Y|X)。如果个体实例的概率p(x)、p(y)是已知的，并且如果各实例的组合的互概率p(x，y)是已知的，那么能够通过

计算条件熵。可以通过基于可用数据估计这些概率来获得个体实例的概率p(x)、p(y)以及实例的组合的互概率p(x，y)：例如，可以对第一值在矩阵X内存在多少次进行计数，并且通过将该计数除以矩阵X中的元素的数量来估计该第一值的概率。

也能够通过利用所谓的上下文树加权法构建第一上下文树来估计第一条件熵H₁(Y|X)，并且使用第一上下文树的根部的加权概率来计算第一条件熵的估计。所述上下文树加权法是信息理论和(文本)压缩领域中公知的，例如，由Willems等人在文章i)“TheContext-Tree Weighting Method：Basic Properties”，Willems等人，IEEE Transactionson Information Theory，42卷，第3期，第653-664页；ii)“Reflections on‘The Context-Tree Weighting Method：Basic Properties’”，Willems等人，Newsletter of theIEEEInformation Theory Society，1997；以及iii)“1996 IT society Paper Award，Reflection on the Prize Paper：‘The Context-Tree Weighting Method：BasicProperties’”，Willems等人，IEEE Information Theory Society Newsletter，47卷，第1期，1997年3月，第19-27页中对所述方法做出了描述。通过引用将上文所提及的文章i)、ii)和iii)并入本文。

所述上下文树加权法是通过这样一种方式应用的：从而使得矩阵X中的独有的行r_i形成第一上下文树中的路径，并且所述第一上下文树的节点中的计数登记对应于Y的对应元素y_i的出现次数。初始地，针对二进制数据已经描述了所述上下文树加权法，但如何才能将其向文本数据扩展呢？当今，本领域技术人员有若干种任其使用的针对其他形式的非二进制数据的实施方式。因此，如果X或Y中的离散数据具有不止两个不同的可能值，那么必须使用这样的实施方式之一来构建第一上下文树。例如，Tjalkens等人在，ProceedingsFourteenth Symposium on Information Theory in the Benelux，Veldhoven，TheNether-lands，1993年5月17-18日，第128-135页上的文章“Context Tree Weighting：Multi-alphabet Sources”描述了可以如何将上下文树加权法应用于非二进制数据。将文献“Context Tree Weighting：Multi-alphabet Sources”并入本文以供参考。

所述上下文树加权法提供了针对每个节点计算加权概率P_w的手段，已经证明，可以通过公式

以所述加权概率P_w为基础来估计第一条件熵，其中，N是向量Y的元素的数量。

在针对每个节点的上下文树加权法中，基于存储在每个节点中的计数来计算针对每个节点的估计概率P_e。在上下文树加权法中，叶子节点的加权概率P_w等于该叶子节点的估计概率P_e。针对在上下文树中连接至更深等级的一个或多个节点的特定节点而言，通过取决于特定节点的估计概率P_e以及该节点被连接至的深一个等级的节点的加权概率P_e的公式来确定加权概率P_w。在先前引入的文献i)“The Context-Tree Weighting Method：BasicProperties”，Willems等人，IEEE Transactions on Information Theory，42卷，第3期，第653-664页；ii)“Reflections on‘The Context-Tree Weighting Method：BasicProperties’”，Willems等人，Newsletter of the IEEEInformation Theory Society，1997；以及iii)“1996 IT society Paper Award，Reflection on the Prize Paper：‘TheContext-Tree Weighting Method：Basic Properties’”，Willems等人，IEEE InformationTheory Society Newsletter，47卷，第1期，1997年3月，第19-27页中详尽地描述了这些计算。

最大熵增大阈值α定义了：如果缩减矩阵X中的数据的量，并且更具体而言，如果针对每行r_i而言移除了第一类型的数据的一个或多个最老的实例x_ij，那么第一条件熵H₁(Y|X)可以增大多少。该最大熵增大阈值α定义了缩减矩阵X_r的行r_i的最佳长度是满足条件H₂(Y|X_r)<＝(1+α)H₁(Y|X)的最小长度。其中，X_r是与矩阵X包括相同数量的行的矩阵X的子矩阵，并且矩阵X_r的每行具有缩减的长度，并且等于矩阵X的对应行的前面部分。换言之，缩减的矩阵X_r仅具有矩阵X的第一数量的列，并且更具体而言，列的数量等于最小长度。

提供了一种寻找最小长度的搜索算法。这种算法以来自信息理论的链式法则为基础，当转化为本文的具体问题时，所述算法为：

H(Y|X_n列)≤H(Y|X_r，n-1列)≤H(Y|X_r，n-2列)≤…≤H(Y|X_r，一列)

因此，可以开始于生成缩减的矩阵X_r，n-1列，以确定针对H₂(Y|X_r，n-1列)的第二条件熵，并且检查是否仍然满足H₂＜＝(1+α)H₁。如果是，则通过删除具有每个序列的最老的实例的最后一列而得到X_r，n-2列，由此对所述缩减矩阵进一步缩减，并且针对H₂(Y|X_r，n-2列)确定新的第二条件熵，并且检查是否仍然满足条件H₂＜＝(1+α)H₁。如果是，则通过删除最后一列并且确定第二条件熵来对所述缩减矩阵的尺寸进一步缩减。一旦不再满足条件H₂＜＝(1+α)H₁，则获知其不是最后的缩减矩阵，而先前的缩减矩阵X_r，i列包括第一类型的数据的最佳相关历史，并且先前的缩减矩阵X_r，i列的列i的数量就是第一类型的数据的实例的相关历史的长度。换言之，相关历史的长度是最后缩减的矩阵X_r的列的数量加一。

在该算法中，执行一种线性前向搜索：开始于最小条件熵，并且朝更大条件熵的方向搜索，以找到不再满足所述条件的点。应当指出，也可以应用针对数据的有序列表的其他检索算法。这样的另一检索算法的范例是二分搜索。

在上文描述的搜索算法中，在每个接下来的步骤中缩减矩阵X的尺寸，并且确定第二条件熵H₂(Y|X_r)。第二条件熵的确定也可以基于上下文树加权法(与上文所论述的类似)，以获得第二上下文树，并且使用第二上下文树的根部的加权概率P_w来估计第二条件熵

通过所述上下文树加权法构建的所述上下文树具有以下特定的特征：矩阵X(或缩减矩阵X_r)的每行的最新近的实例由从根部到第一深度级上的节点的边缘来表示。X的每行的次新近的实例由从第一深度级上的节点到第二深度级的节点的边缘表示，等等。从叶子节点到叶子节点之前的节点的边缘表示X的每行的最老的实例。因此，作为在每个步骤中缩减矩阵的尺寸并且重构第二上下文树的替代，第二上下文树可以由其前任上下文树导出(并且首次获得的第二上下文树可以由第一上下文树导出)。这种操作的完成遵循：在第一搜索步骤中，如果第一次必须获得第二上下文树，那么所述第二上下文树是第一上下文树的拷贝，只是其中移除了叶子节点和终止于叶子节点的边缘，并且其中，将根据新的情况更新各节点的加权概率P_w。所述上下文树加权法描述了如何基于存储在节点中的计数来计算各节点的加权概率P_w。在接下来的搜索步骤中，通过移除叶子节点和终止于叶子节点的边缘并且更新各节点的加权概率P_w，来缩减第二上下文树的尺寸。

能够如下地执行地(缩减的)第二上下文树的加权概率的更新：如前文所论述的，根据所述上下文树加权法，能够针对第二上下文树中的每个节点来计算仅取决于在各自节点中存储的计数的估计概率P_e。当缩减第二上下文树的深度时，节点中的计数不变，并且因此，当移除叶子节点以及其对应的边缘时，估计概率P_e也不变。加权概率P_w是所述节点的估计概率P_e以及该节点连接至的更大深度上的节点的加权概率P_w的函数。因此，当从第二上下文树上移除叶子节点以及其对应的边缘时，仅需通过开始计算叶子节点的加权概率P_w并朝向第二上下文树的根部移动来重新计算加权概率P_w。

图4示意性示出了一种计算机程序产品470的实施例。实施例还扩展至计算机程序产品470，特别是载体上或载体中的计算机程序470，其适于将本发明付诸实践。所述计算机程序产品可以包括计算机程序480。所述程序可以具有以下形式：源代码、目标代码、诸如部分编译形式的介于源代码与目标代码之间的代码、或者适用于上文所论述的方法之一的实施中使用的任何其他形式。还应当意识到，这样的程序可以具有许多种不同的架构设计。例如，可以将实施所述方法或设备的功能的程序代码细分成一个或多个子例程。对于本领域技术人员而言将明显的是，存在许多种不同的方式在这些子例程之间分配所述功能。可以将所述子例程与一个可执行文件存储在一起，以形成自包含程序。这样的可执行文件可以包括计算机可执行指令，例如，处理器指令和/或解读器指令(例如，Java解读器指令)。备选地，可以将所述子例程中的一个或多个子例程或所有子例程存储在至少一个外部库文件中，并且使其例如在运行时间内与主程序静态或动态地链接。所述主程序包含对子例程的至少其中之一的至少一次调用。同样地，子例程可以包括彼此的函数调用。与计算机程序产品470有关的实施例包括与所阐述的方法的至少其中之一的处理步骤的每个处理步骤相对应的计算机可执行指令480。可以将这些指令细分为子例程，和/或将这些指令存储到可以静态地或动态地链接的一个或多个文件中。与计算机程序产品470相关的另一实施例包括与所阐述的系统和/或产品的至少其中之一的模块的每个模块相对应的计算机可执行指令480。可以将这些指令细分为子例程，和/或将这些指令存储到可以静态地或动态地链接的一个或多个文件中。

计算机程序的载体可以是能够承载程序的任何实体或设备。例如，所述载体可以包括存储介质，诸如ROM，例如CDROM或半导体ROM，或者磁记录介质，例如软盘或硬盘。此外，所述载体可以是可以经由电缆或光缆或者通过无线电或其他手段传送的可传输载体，例如，电信号或光信号。当在这样的信号中体现所述程序时，所述载体可以由这样的线缆或者其他设备或器件构成。备选地，所述载体可以是嵌入了程序的集成电路，所述集成电路适于执行相关方法的施行或者适于在相关方法的施行中使用。

计算机程序480可以是用于分布式处理器系统的计算机程序，并且可以包括使第一处理器系统执行上文所论述的方法的步骤的子集、并且使第二处理器系统执行上文所论述的方法的步骤的另一子集的计算机代码。所述步骤的子集以及所述步骤的另一子集可以是互斥的。

概括而言，本文提供了用于确定第一类型的数据的实例的历史的长度的设备和方法。所述设备包括第二数据集单元、第一数据集单元、第一条件熵单元、阈值单元、长度确定单元。所述第一数据集单元、所述第二数据集单元以及所述阈值单元获得输入数据。所述第一条件熵单元确定在给定第一数据集的情况下针对第二数据集的第一条件熵。所述确定单元通过确定针对缩减的第一数据集的序列的最小长度来搜索相关历史的长度，针对所述最小长度，在给定所述缩减的第一数据集的情况下，针对第二数据集的第二条件熵相距于第一条件熵处在最大熵增大阈值之内。

应当指出，可以在使用可编程部件的情况下通过硬件和/或软件来实施本发明。一种用于实施本发明的方法具有对应于针对参考图1所描述的系统定义的功能的步骤。

应当意识到，尽管上文出于清楚的目的做出的描述已经参考不同的功能单元和处理器描述了本发明的实施例。但是显然，可以在不同的功能单元或处理器之间采用任何适当的功能分配，而不偏离本发明。例如，可以通过相同的处理器或控制器执行被示为通过单独的单元、处理器或控制器执行的功能。因此，对具体功能单元的引述仅应当被看作是对提供所描述的功能的适当措施的引述，而不是指示严格的逻辑或物理结构或组织。可以以任何适当的形式，包括硬件、软件、固件或者这些形式的任何组合来实施本发明。

应当指出，在本文中，“包括”一词不排除所列举的元件或步骤以外的其他元件或步骤的存在，元件前面的单数冠词“一”或“一个”不排除存在多个这样的元件，任何附图标记都不对权利要求构成限制，本发明既可以通过硬件实施，也可以通过软件实施，可以通过同一件硬件或软件表示几个“机构”或“单元”，处理器有可以履行一个或多个单元的功能，所述功能的履行可以是与硬件元件协作完成的。此外，本发明不限于所述实施例，本发明存在于上文描述的或者互不相同的从属权利要求中列举的每个新颖特征或特征组合中。

Claims

1.一种用于缩减包括第一类型的数据的实例的数据集的数据缩减系统(150)，所述第一类型的数据的所述实例包括用于预测第二类型的数据的至少一个实例的信息，所述系统包括：

第二数据集单元(104)，其用于获得包括所述第二类型的数据的实例的第二数据集，所述第二类型的数据的实例包括以物理实体(304、354)的关于事件的特征为基础的数据，

第一数据集单元(102)，其用于获得包括所述第一类型的数据的实例的序列的第一数据集，每个序列提供针对所述第二数据集的对应元素的所述第一类型的数据的实例的历史，每个序列包括处在确定所述第二数据集的所述对应元素的时刻之前的实例，所述第一类型的数据的所述实例在所述序列中根据时间来排序，所述第一类型的数据的实例包括以测得的传感器(302、352)数据为基础的数据，不同传感器的数据能用于预测所述物理实体的所述特征，并且每个特定历史涉及以所述不同传感器中的特定传感器为基础的所述第一类型的数据与所述第二类型的数据的一种特定组合，

第一条件熵单元(106)，其用于针对不同的组合中的每种特定组合在给定所述第一数据集的情况下获得针对所述第二数据集的第一条件熵，

阈值单元(108)，其用于获得最大熵增大阈值，所述最大熵增大阈值指示当缩减所述第一数据集中的所述序列的长度时所述第一条件熵能够以之增大的因子，

长度确定单元(114)，其用于通过以下操作来确定相关历史的长度，以在保持所述第一数据集中有足够的历史信息来可靠地预测所述第二类型的数据的实例的同时缩减历史的量：针对所述不同的组合中的每种特定组合来确定针对缩减的第一数据集的所述序列的特定最小长度，针对所述特定最小长度，在给定所述缩减的第一数据集的情况下，针对所述第二数据集的第二条件熵相距于所述第一条件熵处在所述最大熵增大阈值之内，所述缩减的第一数据集包括所述最小长度的序列，并且所述缩减的第一数据集的所述序列包括所述第一数据集中其对应的序列的所述第一类型的数据的最新近的实例，以及

输出单元(116)，其用于针对所述不同的组合中的每种特定组合将针对所述序列的所述最小长度提供为所述相关历史的所述长度，以缩减针对所述第一类型的数据而存储的历史的量，

数据缩减单元(152)，其用于针对所述不同的组合中的每种特定组合获得以所述第一数据集为基础的并且包括所述第一类型的数据的实例的序列的缩减的第一数据集，其中，所述缩减的第一数据集的所述序列的长度以所述最小长度为基础。

2.一种用于缩减包括第一类型的数据的实例的数据集的计算机实施的方法(200)，所述第一类型的数据的所述实例包括用于预测第二类型的数据的实例的信息，所述方法包括：

获得(202)包括所述第二类型的数据的实例的第二数据集，所述第二类型的数据的实例包括以物理实体(304、354)的关于事件的特征为基础的数据，

获得(204)包括所述第一类型的数据的实例的序列的第一数据集，每个序列提供针对所述第二数据集的对应元素的所述第一类型的数据的实例的历史，每个序列包括处在确定所述第二数据集的所述对应元素的时刻之前的实例，所述第一类型的数据的所述实例在所述序列中根据时间来排序，所述第一类型的数据的实例包括以测得的传感器(302、352)数据为基础的数据，不同传感器的数据能用于预测所述物理实体的所述特征，并且每个特定历史涉及以所述不同传感器中的特定传感器为基础的所述第一类型的数据与所述第二类型的数据的一种特定组合，

针对不同的组合中的每种特定组合在给定所述第一数据集的情况下获得(206)针对所述第二数据集的第一条件熵，

获得(208)最大熵增大阈值，所述最大熵增大阈值指示当缩减所述第一数据集中的所述序列的长度时所述第一条件熵能够以之增大的因子，

通过以下操作来确定(210)相关历史的长度：针对所述不同的组合中的每种特定组合来确定针对缩减的第一数据集的所述序列的特定最小长度，针对所述特定最小长度，在给定所述缩减的第一数据集的情况下，针对所述第二数据集的第二条件熵相距于所述第一条件熵处在所述最大熵增大阈值之内，所述缩减的第一数据集包括所述最小长度的序列，并且所述缩减的第一数据集的所述序列包括所述第一数据集中其对应的序列的所述第一类型的数据的最新近的实例，并且

针对所述不同的组合中的每种特定组合将针对所述序列的所述最小长度提供(212)为所述相关历史的所述长度，以缩减针对所述第一类型的数据而存储的历史的量。

3.根据权利要求2所述的方法(200)，其中，对所述相关历史的所述长度的确定包括：

从所述第一数据集获得暂时缩减的第一数据集，与所述第一数据集的所述序列相比，在所述暂时缩减的第一数据集中针对每个序列已经移除了最老的实例，

在给定所述暂时缩减的第一数据集的情况下获得针对所述第二数据集的所述第二条件熵，

将所述第二条件熵与所述第一条件熵进行比较，以确定所述第二条件熵相距于所述第一条件熵是否处在所述最大熵增大阈值之内，并且

a)如果所述第二条件熵相距于所述第一条件熵处在所述最大熵增大阈值之内，那么从所述暂时缩减的第一数据集的所述序列中移除所述最老的实例，并且再次执行所述第二条件熵的所述获得以及所述第二条件熵与所述第一条件熵的所述比较，或者

b)如果所述第二条件熵相距于所述第一条件熵未处在所述最大熵增大阈值之内，那么所确定的所述相关历史的长度是所述暂时缩减的第一数据集的所述序列的所述长度加一。

4.根据权利要求2或3所述的方法(200)，其中，所述第一条件熵的所述获得包括通过以下操作来估计所述第一条件熵：

对所述第二数据集和所述第一数据集应用上下文树加权法，以获得第一上下文树，并且

使用所述第一上下文树的根部的加权概率来计算第一条件熵的估计，

在所述上下文树加权法中，所述第一数据集的每个独有的序列由所述第一上下文树中的路径表示，并且存储在所述第一上下文树的节点中的计数以所述第二数据集的所述对应元素为基础。

5.根据权利要求4所述的方法(200)，其中，所述第二条件熵的所述获得包括通过以下操作来估计所述第二条件熵：

对所述第二数据集以及所述缩减的第一数据集或所述暂时缩减的第一数据集应用所述上下文树加权法，以获得第二上下文树，并且

使用所述第二上下文树的根部的加权概率来计算第二条件熵的估计，

在所述上下文树加权法中，所述缩减的第一数据集或者所述暂时缩减的第一数据集的每个独有的序列由所述第二上下文树中的路径表示，并且存储在所述第二上下文树的节点中的计数以所述第二数据集的所述对应元素为基础。

6.根据权利要求5所述的方法(200)，其中，作为对所述第二数据集以及所述缩减的第一数据集或所述暂时缩减的第一数据集完整应用所述上下文树加权法的替代，通过从所述第一上下文树移除从根部看深度大于所述缩减的第一数据集或者所述暂时缩减的第一数据集的所述序列的所述长度的叶子和节点来获得所述第二上下文树。

7.根据权利要求2或3所述的方法(200)，其中，所述第一类型的数据的所述实例是离散值。

8.根据权利要求7所述的方法(200)，还包括：

对连续数据的实例进行量化，以获得所述第一类型的数据的所述实例的所述离散值，其中，执行所述量化使得所述第二类型的数据与所述第一类型的数据之间的互信息的损失处在最大信息损失阈值之内。

9.根据权利要求2或3所述的方法(200)，还包括：

通过在所述第一数据集的每个序列中删除所述第一类型的数据的最老的实例而对所述第一数据集进行缩减，直到所述序列具有所确定的所述相关历史的长度为止。

10.根据权利要求9所述的方法(200)，还包括：

接收所述第一类型的数据的实例的新近的历史，并且

使用所述缩减的第一数据集以及所述第二数据集来预测所述第二类型的数据的实例或者训练预测模型。

11.一种存储有计算机程序的计算机可读介质，所述计算机程序包括用于执行根据权利要求2至10中的任一项所述的方法的计算机可执行指令。