CN113255772A - 一种数据分析方法及装置 - Google Patents
一种数据分析方法及装置 Download PDFInfo
- Publication number
- CN113255772A CN113255772A CN202110581232.0A CN202110581232A CN113255772A CN 113255772 A CN113255772 A CN 113255772A CN 202110581232 A CN202110581232 A CN 202110581232A CN 113255772 A CN113255772 A CN 113255772A
- Authority
- CN
- China
- Prior art keywords
- data
- training set
- feature
- vector
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据分析方法及装置,包括;获取包含历史数据的训练集:对所述训练集进行训练,将所述训练集中的数据进行分类;对各个分类下的数据进行可逆变换,去除所述训练集中数据的非重要特征,以获取包含重要特征的数据;获取所述包含重要特征的数据中与特征向量相同的数据;对所述训练集训练完成后,通过输出的多个重要特征的数据,构成所述数据对应的特征树;将特征树每个节点的特征,通过与所述节点维度相同的向量进行描述,构建预测函数,使用所述预测函数对待识别的数据进行分析,解决了机器学习在数据因果分析中遇到的样本数量少、时变的数据分布和高复杂度的数据不能有效的分析的问题。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种数据分析方法,同时涉及一种数据分析装置。
背景技术
已有的机器学习算法对样本数量少、时变的数据分布和高复杂度的问题并不能有效的解决。比如在论文NIPS2018《Idiosyncrasies and challenges of data drivenlearning in electronic trading》(数据驱动的学习在电子交易中的特质和难题)中讨论了随着复杂度的提升,学习空间会变得很大以致于难以识别。其次,机器学习对于小数据集进行预测十分困难,为了消除对模型质量的干扰,通常需要大量的监督学习。
发明内容
为解决上述问题,本申请提供一种数据分析方法,包括:
获取包含历史数据的训练集;
对所述训练集进行训练,将所述训练集中的数据进行分类;对各个分类下的数据进行可逆变换,去除所述训练集中数据的非重要特征,以获取包含重要特征的数据;获取所述包含重要特征的数据中与特征向量相同的数据;对所述训练集训练完成后,通过输出的多个重要特征的数据,构成所述数据对应的特征树;
将特征树每个节点的特征,通过与所述节点维度相同的向量进行描述,构建预测函数,使用所述预测函数对待识别的数据进行分析。
优选的,将所述训练集中的数据进行分类,包括:
计算所述训练集中数据的熵,将熵作为分类的标志,对数据进行分类。
优选的,对各个分类下的数据进行可逆变换,去除所述训练集中数据的非重要特征,以获取包含重要特征的数据,包括:
定义可逆变换的目标函数,将各个分类下的数据根据特征变换,在变换空间中搜索数据的可逆变换,以去除所述训练集中数据的非重要特征;
由可逆变换的数据构成可逆变换矩阵;所述可逆变换矩阵为包含重要特征的数据。
优选的,获取所述包含重要特征的数据中与特征向量相同的数据,包括:
获取包含重要特征的数据训练集中,各个分类下数据的特征向量;
去除所述包含重要特征的训练集中,各个分类下数据中包含无关特征向量的数据。
优选的,通过输出的包含各个重要特征的数据,构成所述数据对应的特征树,包括:
通过对训练集进行重复多次的训练,获得每个重要特征对应的数据;
将多个重要特征的数据,根据各个数据特征的关系,构建所述数据对应的特征树。
优选的,所述特征树的每个节点的特征用一个与向量x维度相同的向量描述。
优选的,将特征树每个节点的特征,通过与所述节点维度相同的向量进行描述,构建预测函数,使用所述预测函数对待识别的数据进行分析:包括:
将0特征树中不包含1的特征树的部分作为0的判别向量集,将1特征树中不包含0特征树的部分作为1的判别向量集,构建预测函数f(x);
将输入向量x与向量集进行内积,如果内积为0,则f(x)=1。如果内积为1,则f(x)=0。
本申请同时提供一种数据分析装置,包括:
训练集获取单元,用于获取包含历史数据的训练集;
特征树构成单元,用于对所述训练集进行训练,将所述训练集中的数据进行分类;对各个分类下的数据进行可逆变换,去除所述训练集中数据的非重要特征,以获取包含重要特征的数据;获取所述包含重要特征的数据中与预设特征相同的数据;对所述训练集训练完成后,通过输出的多个重要特征的数据,构成所述数据对应的特征树;
数据分析单元,将特征树每个节点的特征,通过与所述节点维度相同的向量进行描述,构建预测函数,使用所述预测函数对待识别的数据进行分析。
优选的,特征树构成单元,包括:
非重要特征去除子单元,用于定义可逆变换的目标函数,将各个分类下的数据根据特征变换,在变换空间中搜索数据的可逆变换,以去除所述训练集中数据的非重要特征;
重要特征数据获取子单元,由可逆变换的数据构成可逆变换矩阵;所述可逆变换矩阵为包含重要特征的数据。
优选的,数据分析单元,包括:
预测函数构建子单元,用于将0特征树中不包含1的特征树的部分作为0的判别向量集,将1特征树中不包含0特征树的部分作为1的判别向量集,构建预测函数f(x);
分析子单元,用于将输入向量x与向量集进行内积,如果内积为0,则f(x)=1,如果内积为1,则f(x)=0。
附图说明
图1是本申请实施例提供的一种数据分析方法的流程示意图;
图2是本申请实施例涉及的数据分析方法应用领域示例图;
图3是本申请实施例涉及的数据集构建的示意图;
图4是本申请实施例涉及的比特的叠加示意图;
图5是本申请实施例涉及的搜索可逆变换A去除位置信息的示意图;
图6是本申请实施例涉及的构造特征树示意图;
图7是本申请实施例提供的一种数据分析装置示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请提供一种数据分析方法,方法流程图如图1所示。下面对本申请实施例提供的方法进行详细说明。
步骤S101,获取包含历史数据的训练集。
本申请提供的技术方案是由大的数据集来预测小的数据集合。这类预测问题在很多领域都会遇到,例如天气预报中可以根据一周内某地气压随时间变化来预测当天是否下雨(降水前后中通常气压会降低)。复杂的情况例如通过股票一周的变化判断买入还是卖出; 围棋的局部如何应对落子等等,如图2所示。
如图3所示,小的方块代表小数据集(时间宽度设为),下面取为{0,1}。不同的小方块代表不同时刻。 在小方块对应的大方块中,是以为分界,时间上往前的大数据集。大数据集就为训练集。如果设为1天,那么在历史数据中每天都会对应一个范围的数据。
步骤S102,对所述训练集进行训练,将所述训练集中的数据进行分类;对各个分类下的数据进行可逆变换,去除所述训练集中数据的非重要特征,以获取包含重要特征的数据;获取所述包含重要特征的数据中与预设特征相同的数据;对所述训练集训练完成后,通过输出的多个重要特征的数据,构成所述数据对应的特征树。
对训练集进行训练,目的在于获取训练数据对应的特征树,特征树是由多个重要特征构成的,也可以是由单个特征组成的,其中单个特征的提取不需要对数据进行分类,而多个特征的提取需要先对数据进行分类,但在实际应用中,通常都是同时提取多个特征,所以,在本申请实施例中,以提取多个特征为例,具体提取流程如下:
首先,将训练集中的数据进行分类,计算所述训练集中数据的熵,将熵作为分类的标志,对数据进行分类。通过对数据进行分类,可以减少单次搜索的空间,由于在维度不变的线性变换下,熵几乎不变,所以取熵作为分类的标志。
再计算熵
获取所述包含重要特征的数据中与特征向量相同的数据,包括:获取包含重要特征的数据训练集中,各个分类下数据的特征向量;去除所述包含重要特征的训练集中,各个分类下数据中包含无关特征向量的数据。具体的,
如果,那么该比特一定与特征C有关。基于这一点,我们只要统计训练集中每个比特是1的频率,就能判断该比特是否与特征C相关。先把训练集的二进制数放入可存储十进制的比特串中。把所有训练集中的向量按位累加,每位再除以训练集中向量的总数,即
图4为比特的叠加示意图。左侧虚线区域为剔除的部分,右侧虚线区域为保留部分,并构成新的函数集,该过程与哈夫曼压缩的原理类似。
接下来,要搜索一个可逆变换,定义可逆变换的目标函数,将各个分类下的数据根据特征变换,在变换空间中搜索数据的可逆变换,以去除所述训练集中数据的非重要特征;由可逆变换的数据构成可逆变换矩阵;所述可逆变换矩阵为包含重要特征的数据。
经过可逆变换A变换后
对于输入,有4种可能的输出,其他的也是如此。变换就一共有种可能性。这是全部的变换空间,而我们要搜索的是其中的可逆变换。可逆变换的要求是一个元素唯一对应另一个元素而不能重复,一共有种。这16种可能性被表示为一个矩阵。
图5是搜索可逆变换A去除位置信息的示意图。图中左侧为原始图片,右侧为变换后的图片。可以看到,该变换把猫头所在位置用二进制进行了编码。经过变换后,目标函数会变小。
接着,获取所述包含重要特征的数据中与预设特征相同的数据,将预设特征设为C,将所述包含重要特征的数据与C进行比对,去除与C无关的数据,从而获取与C特征相同的数据。
通过去除无关数据、搜索可逆变换(熵最小)和多特征的分类(熵判据),利用这三个算法,就可以打印出整个数据的特征树。
通过对训练集进行重复多次的训练,获得每个重要特征对应的数据;将多个重要特征的数据,根据各个数据特征的关系,构建所述数据对应的特征树。
图6是构造特征树示意图,图中以10组数据为例展示了多特征情况下,利用三个算法逐步解析出各个特征的过程。这些特征可以构造出一棵分类树。越靠近根部的特征越抽象和概括,越靠近分支的则越具体。每个特征都由一组函数集来描述,而函数集来自变换后剔除无关数据的剩余集合。
特征树代表了训练集所包含各个特征有关系。从根部到分支,描述了从抽象到具体的特征。每个节点的特征用一个与x维度相同的向量描述。
与该向量乘积内积为1的数据具备该向量描述的特征。该向量通过图2中节点最终留下的向量经过对应一系列逆变换得到。
步骤S103,将特征树每个节点的特征,通过与所述节点维度相同的向量进行描述,构建预测函数,使用所述预测函数对待识别的数据进行分析。
将0特征树中不包含1的特征树的部分作为0的判别向量集,将1特征树中不包含0特征树的部分作为1的判别向量集,构建预测函数f(x);将输入向量x与向量集进行内积,如果内积为0,则f(x)=1。如果内积为1,则f(x)=0。
基于同一发明构思,本申请同时提供一种数据分析装置700,如图7所示,包括:
训练集获取单元710,用于获取包含历史数据的训练集;
特征树构成单元720,用于对所述训练集进行训练,将所述训练集中的数据进行分类;对各个分类下的数据进行可逆变换,去除所述训练集中数据的非重要特征,以获取包含重要特征的数据;获取所述包含重要特征的数据中与预设特征相同的数据;对所述训练集训练完成后,通过输出的多个重要特征的数据,构成所述数据对应的特征树;
数据分析单元730,将特征树每个节点的特征,通过与所述节点维度相同的向量进行描述,构建预测函数,使用所述预测函数对待识别的数据进行分析。
优选的,特征树构成单元,包括:
非重要特征去除子单元,用于定义可逆变换的目标函数,将各个分类下的数据根据特征变换,在变换空间中搜索数据的可逆变换,以去除所述训练集中数据的非重要特征;
重要特征数据获取子单元,由可逆变换的数据构成可逆变换矩阵;所述可逆变换矩阵为包含重要特征的数据。
优选的,数据分析单元,包括:
预测函数构建子单元,用于将0特征树中不包含1的特征树的部分作为0的判别向量集,将1特征树中不包含0特征树的部分作为1的判别向量集,构建预测函数f(x);
分析子单元,用于将输入向量x与向量集进行内积,如果内积为0,则f(x)=1。如果内积为1,则f(x)=0。
本申请提共的数据分析方法及装置,从数据本身所具有的特征出发,识别二者之间的对应关系,并利用量子计算加速高复杂情况下的特征提取,解决了机器学习在数据因果分析中遇到的样本数量少、时变的数据分布和高复杂度的数据不能有效的分析的问题。
最后应该说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种数据分析方法,其特征在于,包括:
获取包含历史数据的训练集;
对所述训练集进行训练,将所述训练集中的数据进行分类;对各个分类下的数据进行可逆变换,去除所述训练集中数据的非重要特征,以获取包含重要特征的数据;获取所述包含重要特征的数据中与特征向量相同的数据;对所述训练集训练完成后,通过输出的多个重要特征的数据,构成所述数据对应的特征树;
将特征树每个节点的特征,通过与所述节点维度相同的向量进行描述,构建预测函数,使用所述预测函数对待识别的数据进行分析。
2.根据权利要求1所述的方法,其特征在于,将所述训练集中的数据进行分类,包括:
计算所述训练集中数据的熵,将熵作为分类的标志,对数据进行分类。
3.根据权利要求1所述的方法,其特征在于,对各个分类下的数据进行可逆变换,去除所述训练集中数据的非重要特征,以获取包含重要特征的数据,包括:
定义可逆变换的目标函数,将各个分类下的数据根据特征变换,在变换空间中搜索数据的可逆变换,以去除所述训练集中数据的非重要特征;
由可逆变换的数据构成可逆变换矩阵;所述可逆变换矩阵为包含重要特征的数据。
4.根据权利要求1所述的方法,其特征在于,获取所述包含重要特征的数据中与特征向量相同的数据,包括:
获取包含重要特征的数据训练集中,各个分类下数据的特征向量;
去除所述包含重要特征的训练集中,各个分类下数据中包含无关特征向量的数据。
5.根据权利要求1所述的方法,其特征在于,通过输出的包含各个重要特征的数据,构成所述数据对应的特征树,包括:
通过对训练集进行重复多次的训练,获得每个重要特征对应的数据;
将多个重要特征的数据,根据各个数据特征的关系,构建所述数据对应的特征树。
6.根据权利要求1或5所述的方法,其特征在于,所述特征树的每个节点的特征用一个与向量x维度相同的向量描述。
7.根据权利要求1所述的方法,其特征在于,将特征树每个节点的特征,通过与所述节点维度相同的向量进行描述,构建预测函数,使用所述预测函数对待识别的数据进行分析:包括:
将0特征树中不包含1的特征树的部分作为0的判别向量集,将1特征树中不包含0特征树的部分作为1的判别向量集,构建预测函数f(x);
将输入向量x与向量集进行内积,如果内积为0,则f(x)=1,如果内积为1,则f(x)=0。
8.一种数据分析装置,其特征在于,包括:
训练集获取单元,用于获取包含历史数据的训练集;
特征树构成单元,用于对所述训练集进行训练,将所述训练集中的数据进行分类;对各个分类下的数据进行可逆变换,去除所述训练集中数据的非重要特征,以获取包含重要特征的数据;获取所述包含重要特征的数据中与预设特征相同的数据;对所述训练集训练完成后,通过输出的多个重要特征的数据,构成所述数据对应的特征树;
数据分析单元,将特征树每个节点的特征,通过与所述节点维度相同的向量进行描述,构建预测函数,使用所述预测函数对待识别的数据进行分析。
9.根据权利要求8所述的装置,其特征在于,特征树构成单元,包括:
非重要特征去除子单元,用于定义可逆变换的目标函数,将各个分类下的数据根据特征变换,在变换空间中搜索数据的可逆变换,以去除所述训练集中数据的非重要特征;
重要特征数据获取子单元,由可逆变换的数据构成可逆变换矩阵;所述可逆变换矩阵为包含重要特征的数据。
10.根据权利要求8所述的装置,其特征在于,数据分析单元,包括:
预测函数构建子单元,用于将0特征树中不包含1的特征树的部分作为0的判别向量集,将1特征树中不包含0特征树的部分作为1的判别向量集,构建预测函数f(x);
分析子单元,用于将输入向量x与向量集进行内积,如果内积为0,则f(x)=1,如果内积为1,则f(x)=0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110581232.0A CN113255772B (zh) | 2021-05-27 | 2021-05-27 | 一种数据分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110581232.0A CN113255772B (zh) | 2021-05-27 | 2021-05-27 | 一种数据分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255772A true CN113255772A (zh) | 2021-08-13 |
CN113255772B CN113255772B (zh) | 2021-12-14 |
Family
ID=77184821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110581232.0A Active CN113255772B (zh) | 2021-05-27 | 2021-05-27 | 一种数据分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255772B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220318A (zh) * | 2017-05-18 | 2017-09-29 | 重庆大学 | 一种确定特殊学生群体上网特征的方法 |
CN111325264A (zh) * | 2020-02-17 | 2020-06-23 | 武汉大学 | 一种基于熵的多标签数据分类方法 |
CN111624681A (zh) * | 2020-05-26 | 2020-09-04 | 杨祺铭 | 一种基于数据挖掘的飓风强度变化预测方法 |
US20200372400A1 (en) * | 2019-05-22 | 2020-11-26 | The Regents Of The University Of California | Tree alternating optimization for learning classification trees |
CN112016772A (zh) * | 2020-10-29 | 2020-12-01 | 成都中轨轨道设备有限公司 | 一种自然灾害预警系统及方法 |
CN112488011A (zh) * | 2020-12-04 | 2021-03-12 | 黄冈师范学院 | 一种模块化多电平换流器故障分类方法 |
-
2021
- 2021-05-27 CN CN202110581232.0A patent/CN113255772B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220318A (zh) * | 2017-05-18 | 2017-09-29 | 重庆大学 | 一种确定特殊学生群体上网特征的方法 |
US20200372400A1 (en) * | 2019-05-22 | 2020-11-26 | The Regents Of The University Of California | Tree alternating optimization for learning classification trees |
CN111325264A (zh) * | 2020-02-17 | 2020-06-23 | 武汉大学 | 一种基于熵的多标签数据分类方法 |
CN111624681A (zh) * | 2020-05-26 | 2020-09-04 | 杨祺铭 | 一种基于数据挖掘的飓风强度变化预测方法 |
CN112016772A (zh) * | 2020-10-29 | 2020-12-01 | 成都中轨轨道设备有限公司 | 一种自然灾害预警系统及方法 |
CN112488011A (zh) * | 2020-12-04 | 2021-03-12 | 黄冈师范学院 | 一种模块化多电平换流器故障分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113255772B (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10185893B2 (en) | Method and apparatus for generating time series data sets for predictive analysis | |
NL2015087B1 (en) | Deep receptive field networks. | |
CN111699494A (zh) | 使用通过主成分分析和重复频谱聚类进行训练的卷积神经网络的对象识别 | |
CN110516818A (zh) | 一种基于集成学习技术的高维度数据预测方法 | |
CN111126481A (zh) | 一种神经网络模型的训练方法及装置 | |
CN112785441B (zh) | 数据处理方法、装置、终端设备及存储介质 | |
Kumar et al. | Survey on techniques for plant leaf classification | |
CN116071600B (zh) | 一种基于多分类概率的农作物遥感识别方法及装置 | |
JP2022178892A (ja) | 機械学習システム | |
Varghese et al. | INFOPLANT: Plant recognition using convolutional neural networks | |
Bakr et al. | DenseNet based model for plant diseases diagnosis | |
Gamarra A et al. | Using genetic algorithm feature selection in neural classification systems for image pattern recognition | |
CN110738246A (zh) | 产品分类方法、装置、计算设备及计算机存储介质 | |
Dubey et al. | An efficient adaptive feature selection with deep learning model-based paddy plant leaf disease classification | |
CN113255772B (zh) | 一种数据分析方法及装置 | |
Cottrell et al. | Neural networks for complex data | |
Bakr et al. | Tomato disease detection model based on densenet and transfer learning | |
Ratakonda et al. | Seasonal trend analysis on multi-variate time series data | |
EP2383680A1 (en) | Classification of objects in harvesting applications | |
Bozkurt | A study on CNN based transfer learning for recognition of flower species | |
Jadhav et al. | Comprehensive review on machine learning for plant disease identification and classification with image processing | |
CN113420733B (zh) | 一种高效分布式大数据数据采集实现方法及系统 | |
Mitrović et al. | Flower classification with convolutional neural networks | |
CN115565115A (zh) | 一种舾装件智能识别方法、计算机设备 | |
EP4007173A1 (en) | Data storage method, and data acquisition method and apparatus therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |