CN113255772A

CN113255772A - 一种数据分析方法及装置

Info

Publication number: CN113255772A
Application number: CN202110581232.0A
Authority: CN
Inventors: 文凯; 马寅; 郭普拓
Original assignee: Beijing Bose Quantum Technology Co ltd
Current assignee: Beijing Bose Quantum Technology Co ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-08-13
Anticipated expiration: 2041-05-27
Also published as: CN113255772B

Abstract

本发明公开了一种数据分析方法及装置，包括;获取包含历史数据的训练集：对所述训练集进行训练，将所述训练集中的数据进行分类；对各个分类下的数据进行可逆变换，去除所述训练集中数据的非重要特征，以获取包含重要特征的数据；获取所述包含重要特征的数据中与特征向量相同的数据；对所述训练集训练完成后，通过输出的多个重要特征的数据，构成所述数据对应的特征树；将特征树每个节点的特征，通过与所述节点维度相同的向量进行描述，构建预测函数，使用所述预测函数对待识别的数据进行分析，解决了机器学习在数据因果分析中遇到的样本数量少、时变的数据分布和高复杂度的数据不能有效的分析的问题。

Description

一种数据分析方法及装置

技术领域

本申请涉及人工智能技术领域，具体涉及一种数据分析方法，同时涉及一种数据分析装置。

背景技术

已有的机器学习算法对样本数量少、时变的数据分布和高复杂度的问题并不能有效的解决。比如在论文NIPS2018《Idiosyncrasies and challenges of data drivenlearning in electronic trading》（数据驱动的学习在电子交易中的特质和难题）中讨论了随着复杂度的提升，学习空间会变得很大以致于难以识别。其次，机器学习对于小数据集进行预测十分困难，为了消除对模型质量的干扰，通常需要大量的监督学习。

发明内容

为解决上述问题，本申请提供一种数据分析方法，包括：

获取包含历史数据的训练集；

对所述训练集进行训练，将所述训练集中的数据进行分类；对各个分类下的数据进行可逆变换，去除所述训练集中数据的非重要特征，以获取包含重要特征的数据；获取所述包含重要特征的数据中与特征向量相同的数据；对所述训练集训练完成后，通过输出的多个重要特征的数据，构成所述数据对应的特征树；

将特征树每个节点的特征，通过与所述节点维度相同的向量进行描述，构建预测函数，使用所述预测函数对待识别的数据进行分析。

优选的，将所述训练集中的数据进行分类，包括：

计算所述训练集中数据的熵，将熵作为分类的标志，对数据进行分类。

优选的，对各个分类下的数据进行可逆变换，去除所述训练集中数据的非重要特征，以获取包含重要特征的数据，包括：

定义可逆变换的目标函数，将各个分类下的数据根据特征变换，在变换空间中搜索数据的可逆变换，以去除所述训练集中数据的非重要特征；

由可逆变换的数据构成可逆变换矩阵；所述可逆变换矩阵为包含重要特征的数据。

优选的，获取所述包含重要特征的数据中与特征向量相同的数据，包括：

获取包含重要特征的数据训练集中，各个分类下数据的特征向量；

去除所述包含重要特征的训练集中，各个分类下数据中包含无关特征向量的数据。

优选的，通过输出的包含各个重要特征的数据，构成所述数据对应的特征树，包括：

通过对训练集进行重复多次的训练，获得每个重要特征对应的数据；

将多个重要特征的数据，根据各个数据特征的关系，构建所述数据对应的特征树。

优选的，所述特征树的每个节点的特征用一个与向量x维度相同的向量描述。

优选的，将特征树每个节点的特征，通过与所述节点维度相同的向量进行描述，构建预测函数，使用所述预测函数对待识别的数据进行分析：包括：

将0特征树中不包含1的特征树的部分作为0的判别向量集，将1特征树中不包含0特征树的部分作为1的判别向量集，构建预测函数f(x)；

将输入向量x与向量集进行内积，如果内积为0，则f(x)=1。如果内积为1,则f(x)=0。

本申请同时提供一种数据分析装置，包括：

训练集获取单元，用于获取包含历史数据的训练集；

特征树构成单元，用于对所述训练集进行训练，将所述训练集中的数据进行分类；对各个分类下的数据进行可逆变换，去除所述训练集中数据的非重要特征，以获取包含重要特征的数据；获取所述包含重要特征的数据中与预设特征相同的数据；对所述训练集训练完成后，通过输出的多个重要特征的数据，构成所述数据对应的特征树；

数据分析单元，将特征树每个节点的特征，通过与所述节点维度相同的向量进行描述，构建预测函数，使用所述预测函数对待识别的数据进行分析。

优选的，特征树构成单元，包括：

非重要特征去除子单元，用于定义可逆变换的目标函数，将各个分类下的数据根据特征变换，在变换空间中搜索数据的可逆变换，以去除所述训练集中数据的非重要特征；

重要特征数据获取子单元，由可逆变换的数据构成可逆变换矩阵；所述可逆变换矩阵为包含重要特征的数据。

优选的，数据分析单元，包括：

预测函数构建子单元，用于将0特征树中不包含1的特征树的部分作为0的判别向量集，将1特征树中不包含0特征树的部分作为1的判别向量集，构建预测函数f(x)；

分析子单元，用于将输入向量x与向量集进行内积，如果内积为0，则f(x)=1,如果内积为1,则f(x)=0。

附图说明

图1是本申请实施例提供的一种数据分析方法的流程示意图；

图2是本申请实施例涉及的数据分析方法应用领域示例图；

图3是本申请实施例涉及的数据集构建的示意图；

图4是本申请实施例涉及的比特的叠加示意图；

图5是本申请实施例涉及的搜索可逆变换A去除位置信息的示意图；

图6是本申请实施例涉及的构造特征树示意图；

图7是本申请实施例提供的一种数据分析装置示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

本申请提供一种数据分析方法，方法流程图如图1所示。下面对本申请实施例提供的方法进行详细说明。

步骤S101，获取包含历史数据的训练集。

本申请提供的技术方案是由大的数据集来预测小的数据集合。这类预测问题在很多领域都会遇到，例如天气预报中可以根据一周内某地气压随时间变化来预测当天是否下雨（降水前后中通常气压会降低）。复杂的情况例如通过股票一周的变化判断买入还是卖出; 围棋的局部如何应对落子等等，如图2所示。

如图3所示，小的方块代表小数据集（时间宽度设为

），下面取为{0,1}。不同的小方块代表不同时刻。在小方块对应的大方块中，是以

为分界，时间上往前

的大数据集。大数据集就为训练集。如果

设为1天，那么在历史数据中每天都会对应一个

范围的数据

。

步骤S102，对所述训练集进行训练，将所述训练集中的数据进行分类；对各个分类下的数据进行可逆变换，去除所述训练集中数据的非重要特征，以获取包含重要特征的数据；获取所述包含重要特征的数据中与预设特征相同的数据；对所述训练集训练完成后，通过输出的多个重要特征的数据，构成所述数据对应的特征树。

对训练集进行训练，目的在于获取训练数据对应的特征树，特征树是由多个重要特征构成的，也可以是由单个特征组成的，其中单个特征的提取不需要对数据进行分类，而多个特征的提取需要先对数据进行分类，但在实际应用中，通常都是同时提取多个特征，所以，在本申请实施例中，以提取多个特征为例，具体提取流程如下：

首先，将训练集中的数据进行分类，计算所述训练集中数据的熵，将熵作为分类的标志，对数据进行分类。通过对数据进行分类，可以减少单次搜索的空间，由于在维度不变的线性变换下，熵几乎不变，所以取熵作为分类的标志。

在概率论中，如果事件A与事件B无关，那么

。对于任意特征C,设有二进制字符串

作为训练集合。在下面描述中，下角表i表示训练集中的第i个向量，括号(j)表示该向量中的第j个分量/比特。

分类先对

归一化处理，公式为：

再计算熵

最后把

中熵接近的归为一类即可。

获取所述包含重要特征的数据中与特征向量相同的数据，包括：获取包含重要特征的数据训练集中，各个分类下数据的特征向量；去除所述包含重要特征的训练集中，各个分类下数据中包含无关特征向量的数据。具体的，

对于

中的比特

，如果与特征C无关，则

如果

，那么该比特一定与特征C有关。基于这一点，我们只要统计训练集中每个比特是1的频率，就能判断该比特是否与特征C相关。先把训练集的二进制数放入可存储十进制的比特串中。把所有训练集中的向量按位累加，每位再除以训练集中向量的总数，即

这样

的比特一定和特征C相关，保留这部分比特，剔除

中对应

的比特，形成简化后的训练集

，其是N为训练集中的向量总数。

图4为比特的叠加示意图。左侧虚线区域为剔除的部分，右侧虚线区域为保留部分，并构成新的函数集，该过程与哈夫曼压缩的原理类似。

接下来，要搜索一个可逆变换，定义可逆变换的目标函数，将各个分类下的数据根据特征变换，在变换空间中搜索数据的可逆变换，以去除所述训练集中数据的非重要特征；由可逆变换的数据构成可逆变换矩阵；所述可逆变换矩阵为包含重要特征的数据。

定义的目标函数是

归一化后的熵：

寻找其最小值，再通过上个步骤剔除无关数据即变换后的

的比特。这个操作的物理意义是，可逆变换后都剔除了一个训练集中不重要的特征，保留剩下的特征。假设

由两个比特构成。那么

经过可逆变换A变换后

对于输入

，有4种可能的输出，其他的也是如此。变换

就一共有

种可能性。这是全部的变换空间，而我们要搜索的是其中的可逆变换。可逆变换的要求是一个元素唯一对应另一个元素而不能重复，一共有

种。这16种可能性被表示为一个

矩阵。

其中，矩阵元

。从

的任何可逆变换，都能表示成上述矩阵。

图5是搜索可逆变换A去除位置信息的示意图。图中左侧为原始图片，右侧为变换后的图片。可以看到，该变换把猫头所在位置用二进制进行了编码。经过变换后，目标函数会变小。

可逆变换的搜索过程具体可以使用退火算法，搜索过程如下：根据退火温度

随机翻转

的值，计算目标函数为训练集变换对应

的熵：

取最小的熵的状态，降低温度，继续翻转，最后得到熵最低的矩阵变换，这个算法对于算力的需求是

。

接着，获取所述包含重要特征的数据中与预设特征相同的数据，将预设特征设为C，将所述包含重要特征的数据与C进行比对，去除与C无关的数据，从而获取与C特征相同的数据。

通过去除无关数据、搜索可逆变换（熵最小）和多特征的分类（熵判据），利用这三个算法，就可以打印出整个数据的特征树。

通过对训练集进行重复多次的训练，获得每个重要特征对应的数据；将多个重要特征的数据，根据各个数据特征的关系，构建所述数据对应的特征树。

图6是构造特征树示意图，图中以10组数据为例展示了多特征情况下，利用三个算法逐步解析出各个特征的过程。这些特征可以构造出一棵分类树。越靠近根部的特征越抽象和概括，越靠近分支的则越具体。每个特征都由一组函数集来描述，而函数集来自变换后剔除无关数据的剩余集合。

特征树代表了训练集所包含各个特征有关系。从根部到分支，描述了从抽象到具体的特征。每个节点的特征用一个与x维度相同的向量描述。

与该向量乘积内积为1的数据具备该向量描述的特征。该向量通过图2中节点最终留下的向量经过对应一系列逆变换得到。

步骤S103，将特征树每个节点的特征，通过与所述节点维度相同的向量进行描述，构建预测函数，使用所述预测函数对待识别的数据进行分析。

将0特征树中不包含1的特征树的部分作为0的判别向量集，将1特征树中不包含0特征树的部分作为1的判别向量集，构建预测函数f(x)；将输入向量x与向量集进行内积，如果内积为0，则f(x)=1。如果内积为1,则f(x)=0。

基于同一发明构思，本申请同时提供一种数据分析装置700，如图7所示，包括：

训练集获取单元710，用于获取包含历史数据的训练集；

特征树构成单元720，用于对所述训练集进行训练，将所述训练集中的数据进行分类；对各个分类下的数据进行可逆变换，去除所述训练集中数据的非重要特征，以获取包含重要特征的数据；获取所述包含重要特征的数据中与预设特征相同的数据；对所述训练集训练完成后，通过输出的多个重要特征的数据，构成所述数据对应的特征树；

数据分析单元730，将特征树每个节点的特征，通过与所述节点维度相同的向量进行描述，构建预测函数，使用所述预测函数对待识别的数据进行分析。

优选的，特征树构成单元，包括：

优选的，数据分析单元，包括：

分析子单元，用于将输入向量x与向量集进行内积，如果内积为0，则f(x)=1。如果内积为1,则f(x)=0。

本申请提共的数据分析方法及装置，从数据本身所具有的特征出发，识别二者之间的对应关系，并利用量子计算加速高复杂情况下的特征提取，解决了机器学习在数据因果分析中遇到的样本数量少、时变的数据分布和高复杂度的数据不能有效的分析的问题。

最后应该说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种数据分析方法，其特征在于，包括：

获取包含历史数据的训练集；

2.根据权利要求1所述的方法，其特征在于，将所述训练集中的数据进行分类，包括：

3.根据权利要求1所述的方法，其特征在于，对各个分类下的数据进行可逆变换，去除所述训练集中数据的非重要特征，以获取包含重要特征的数据，包括：

4.根据权利要求1所述的方法，其特征在于，获取所述包含重要特征的数据中与特征向量相同的数据，包括：

5.根据权利要求1所述的方法，其特征在于，通过输出的包含各个重要特征的数据，构成所述数据对应的特征树，包括：

6.根据权利要求1或5所述的方法，其特征在于，所述特征树的每个节点的特征用一个与向量x维度相同的向量描述。

7.根据权利要求1所述的方法，其特征在于，将特征树每个节点的特征，通过与所述节点维度相同的向量进行描述，构建预测函数，使用所述预测函数对待识别的数据进行分析：包括：

将输入向量x与向量集进行内积，如果内积为0，则f(x)=1，如果内积为1,则f(x)=0。

8.一种数据分析装置，其特征在于，包括：

训练集获取单元，用于获取包含历史数据的训练集；

9.根据权利要求8所述的装置，其特征在于，特征树构成单元，包括：

10.根据权利要求8所述的装置，其特征在于，数据分析单元，包括：

分析子单元，用于将输入向量x与向量集进行内积，如果内积为0，则f(x)=1，如果内积为1,则f(x)=0。