CN108710600A

CN108710600A - 快速计算统计趋势特征值的方法及装置

Info

Publication number: CN108710600A
Application number: CN201810272763.XA
Authority: CN
Inventors: 马瑞
Original assignee: Zhejiang Changxin Descartes Technology Co Ltd
Current assignee: Ding Zhilu
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2018-10-26

Abstract

本发明公开了快速计算统计趋势特征值的方法及装置，该方法包括向量化步骤、分组求中位步骤、个数判断步骤、输出步骤，无需排序操作，仅通过少量循环即可找到统计趋势特征值作为序列的统计中值，比简单的数学中值更能够直观反映序列的变化趋势。本发明改进了包括机器学习在内的中值计算方法，适用于包括机器学习领域在内的统计操作中，在快速寻找中值的同时使得结果还能够反映序列的趋势；并且，与数据均值相比，本发明计算出的统计中值与数学中值在数学上误差较小，同时具备一定的趋势指示能力。

Description

快速计算统计趋势特征值的方法及装置

技术领域

本发明涉及数据统计的技术领域，尤其涉及快速计算统计趋势特征值的方法及装置。

背景技术

寻找序列的统计中值，即中位数，是包括机器学习在内需要统计操作领域非常频繁的操作，现有方法大多是基于排序的，先对序列排序而后从排序序列中直接找到中位数作为统计中值。

如图1所示，图中序列1、2和3显然具备不同的趋向性，而普通的数学中值(图中ME与1、2和3的交点)所得到的结果是完全一致的，在机器学习的诸多领域如LOSS计算时极有可能会导致方向性丢失。

发明内容

为了克服现有技术的不足，本发明的目的在于提供快速计算统计趋势特征值的方法及装置，旨在解决现有技术寻找序列的统计中值时无法体现数据趋向性的问题。

本发明的目的采用以下技术方案实现：

一种快速计算统计趋势特征值的方法，包括：

向量化步骤，将一维数据表示为行向量，称为序列A：

A＝[A₁ A₂ A₃ ... A_n-1 A_n]，n为正整数；

分组求中位步骤，将A中前3个元素取出组成序列A′，A′＝[A₁ A₂ A₃]，找到A′的中位数并存入一个初始为空的序列B中使得B＝[B₁]；

再将A中接下来3个元素取出组成序列A′，A′＝[A₄ A₅ A₆]，找到A′的中位数并存入B中使得B＝[B₁ B₂]；

依次类推直到A中全部元素被取出组成序列A′，找到A′的中位数并存入B中，进入个数判断步骤；或者A中剩余元素不足3个；

如果A中剩余元素为2个，A_n-1和A_n，则将A_n-1和A_n取出组成序列A′，A′＝[A_n-1 A_n]，用A′中较大的值代替B中的最大值，用A′中较小的值代替B中的最小值，进入个数判断步骤；

如果A中剩余元素为1个，A_n，则将A_n取出组成序列A′，A′＝[A_n]，判断A_n是否位于B中的最大值和最小值之间，如果是则进入个数判断步骤，否则分别计算A_n与B中的最大值之差的绝对值、A_n与B中的最小值之差的绝对值；如果A_n与B中的最大值之差的绝对值大于A_n与B中的最小值之差的绝对值，则用A_n代替B中的最小值，进入个数判断步骤；如果A_n与B中的最大值之差的绝对值小于A_n与B中的最小值之差的绝对值，则用A_n代替B中的最大值，进入个数判断步骤；如果A_n与B中的最大值之差的绝对值等于A_n与B中的最小值之差的绝对值，则用A_n代替B中的最大值，进入个数判断步骤；

个数判断步骤，判断B中元素的个数是否大于等于3，如果是则用B代替A进入分组求中位步骤，否则进入输出步骤；

输出步骤，如果B中有1个元素则输出该1个元素作为序列A的统计趋势特征值，如果B中有2个元素则输出该2个元素的平均数作为序列A的统计趋势特征值。

在上述实施例的基础上，优选的，所述向量化步骤前，还包括：

一维化步骤，将多维数据串接为一维数据。

一种快速计算统计趋势特征值的装置，包括：

向量化模块，用于将一维数据表示为行向量，称为序列A：

A＝[A₁ A₂ A₃ ... A_n-1 A_n]，n为正整数；

分组求中位模块，用于将A中前3个元素取出组成序列A′，A′＝[A₁ A₂ A₃]，找到A′的中位数并存入一个初始为空的序列B中使得B＝[B₁]；

依次类推直到A中全部元素被取出组成序列A′，找到A′的中位数并存入B中，调用个数判断模块；或者A中剩余元素不足3个；

如果A中剩余元素为2个，A_n-1和A_n，则将A_n-1和A_n取出组成序列A′，A′＝[A_n-1 A_n]，用A′中较大的值代替B中的最大值，用A′中较小的值代替B中的最小值，调用个数判断模块；

如果A中剩余元素为1个，A_n，则将A_n取出组成序列A′，A′＝[A_n]，判断A_n是否位于B中的最大值和最小值之间，如果是则调用个数判断模块，否则分别计算A_n与B中的最大值之差的绝对值、A_n与B中的最小值之差的绝对值；如果A_n与B中的最大值之差的绝对值大于A_n与B中的最小值之差的绝对值，则用A_n代替B中的最小值，调用个数判断模块；如果A_n与B中的最大值之差的绝对值小于A_n与B中的最小值之差的绝对值，则用A_n代替B中的最大值，调用个数判断模块；如果A_n与B中的最大值之差的绝对值等于A_n与B中的最小值之差的绝对值，则用A_n代替B中的最大值，调用个数判断模块；

个数判断模块，用于判断B中元素的个数是否大于等于3，如果是则用B代替A并调用分组求中位模块，否则调用输出模块；

输出模块，用于如果B中有1个元素则输出该1个元素作为序列A的统计趋势特征值，如果B中有2个元素则输出该2个元素的平均数作为序列A的统计趋势特征值。

在上述实施例的基础上，优选的，还包括：

一维化模块，用于将多维数据串接为一维数据。

相比现有技术，本发明的有益效果在于：

本发明公开了快速计算统计趋势特征值的方法及装置，无需排序操作，仅通过少量循环即可找到统计趋势特征值作为序列的统计中值，比简单的数学中值更能够直观反映序列的变化趋势。本发明改进了包括机器学习在内的中值计算方法，适用于包括机器学习领域在内的统计操作中，在快速寻找中值的同时使得结果还能够反映序列的趋势；并且，与数据均值相比，本发明计算出的统计中值与数学中值在数学上误差较小，同时具备一定的趋势指示能力。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1示出了序列1、2、3的数学中值、数据均值以及本发明实施例提供的统计趋势特征值的示意图；

图2示出了本发明实施例提供的一种快速计算统计趋势特征值的方法的流程示意图；

图3示出了本发明实施例提供的一种快速计算统计趋势特征值的装置的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

具体实施例一

如图2所示，本发明实施例提供了一种快速计算统计趋势特征值的方法，包括：

向量化步骤，将一维数据表示为行向量，称为序列A：

A＝[A₁ A₂ A₃ ... A_n-1 A_n]，n为正整数；

如图1所示，数学中值即图中ME线与序列1、2、3的交点，本发明实施例计算出的统计中值即图中M2线与序列1、2、3的交点，数据均值即AVG线与序列1、2、3的交点。从图中可以看出，相对于数据均值，本发明实施例计算出的统计中值，与数学中值在数学意义上误差较小，同时具备了一定的趋势指示能力。

本发明实施例无需排序操作，仅通过少量循环即可找到统计趋势特征值作为序列的统计中值，比简单的数学中值更能够直观反映序列的变化趋势。本发明实施例改进了包括机器学习在内的中值计算方法，适用于包括机器学习领域在内的统计操作中，在快速寻找中值的同时使得结果还能够反映序列的趋势；并且，与数据均值相比，本发明实施例计算出的统计中值与数学中值在数学上误差较小，同时具备一定的趋势指示能力。

本发明实施例并非只能用于一维数据，并且对需要计算统计中值的数据维数不做限定，对于多维数据只需要将多维数据串接为一维数据即可，其效果不变。优选的，在所述向量化步骤前，本发明实施例还可以包括：一维化步骤，将多维数据串接为一维数据。这样做的好处是，使得本发明实施例可以应用到任何维数数据的统计中值计算中。

本发明实施例中的串接，指的是将多维数据的所有元素从第一行开始，到最后一行结束，依次顺序连接，例如原三维数据为则串接后的一维数据为[1 2 3 4 56 7 8 9]。

在上述的具体实施例一中，提供了快速计算统计趋势特征值的方法，与之相对应的，本申请还提供快速计算统计趋势特征值的装置。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

具体实施例二

如图3所示，本发明实施例提供了一种快速计算统计趋势特征值的装置，包括：

向量化模块201，用于将一维数据表示为行向量，称为序列A：

A＝[A₁ A₂ A₃ ... A_n-1 A_n]，n为正整数；

分组求中位模块202，用于将A中前3个元素取出组成序列A′，A′＝[A₁ A₂ A₃]，找到A′的中位数并存入一个初始为空的序列B中使得B＝[B₁]；

依次类推直到A中全部元素被取出组成序列A′，找到A′的中位数并存入B中，调用个数判断模块203；或者A中剩余元素不足3个；

如果A中剩余元素为2个，A_n-1和A_n，则将A_n-1和A_n取出组成序列A′，A′＝[A_n-1 A_n]，用A′中较大的值代替B中的最大值，用A′中较小的值代替B中的最小值，调用个数判断模块203；

如果A中剩余元素为1个，A_n，则将A_n取出组成序列A′，A′＝[A_n]，判断A_n是否位于B中的最大值和最小值之间，如果是则调用个数判断模块203，否则分别计算A_n与B中的最大值之差的绝对值、A_n与B中的最小值之差的绝对值；如果A_n与B中的最大值之差的绝对值大于A_n与B中的最小值之差的绝对值，则用A代替B中的最小值，调用个数判断模块203；如果A_n与B中的最大值之差的绝对值小于A_n与B中的最小值之差的绝对值，则用A_n代替B中的最大值，调用个数判断模块203；如果A_n与B中的最大值之差的绝对值等于A_n与B中的最小值之差的绝对值，则用A_n代替B中的最大值，调用个数判断模块203；

个数判断模块203，用于判断B中元素的个数是否大于等于3，如果是则用B代替A并调用分组求中位模块202，否则调用输出模块204；

输出模块204，用于如果B中有1个元素则输出该1个元素作为序列A的统计趋势特征值，如果B中有2个元素则输出该2个元素的平均数作为序列A的统计趋势特征值。

优选的，本发明实施例还可以包括：一维化模块205，用于将多维数据串接为一维数据。

本发明从使用目的上，效能上，进步及新颖性等观点进行阐述，其具有的实用进步性，己符合专利法所强调的功能增进及使用要件，本发明以上的说明及附图，仅为本发明的较佳实施例而己，并非以此局限本发明，因此，凡一切与本发明构造，装置，待征等近似、雷同的，即凡依本发明专利申请范围所作的等同替换或修饰等，皆应属本发明的专利申请保护的范围之内。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。尽管本发明已进行了一定程度的描述，明显地，在不脱离本发明的精神和范围的条件下，可进行各个条件的适当变化。可以理解，本发明不限于所述实施方案，而归于权利要求的范围，其包括所述每个因素的等同替换。对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种快速计算统计趋势特征值的方法，其特征在于，包括：

向量化步骤，将一维数据表示为行向量，称为序列A：

A＝[A₁A₂A₃...A_n-1A_n]，n为正整数；

分组求中位步骤，将A中前3个元素取出组成序列A＇，A＇＝[A₁A₂A₃]，找到A′的中位数并存入一个初始为空的序列B中使得B＝[B₁]；

再将A中接下来3个元素取出组成序列A′，A′＝[A₄A₅A₆]，找到A＇的中位数并存入B中使得B＝[B₁B₂]；

如果A中剩余元素为2个，A_n-1和A_n，则将A_n-1和A_n取出组成序列A＇，A′＝[A_n-1A_n]，用A′中较大的值代替B中的最大值，用A′中较小的值代替B中的最小值，进入个数判断步骤；

2.根据权利要求1所述的快速计算统计趋势特征值的方法，其特征在于，所述向量化步骤前，还包括：

一维化步骤，将多维数据串接为一维数据。

3.一种快速计算统计趋势特征值的装置，其特征在于，包括：

向量化模块，用于将一维数据表示为行向量，称为序列A：

A＝[A₁A₂A₃...A_n-1A_n]，n为正整数；

分组求中位模块，用于将A中前3个元素取出组成序列A′，A′＝[A₁A₂A₃]，找到A′的中位数并存入一个初始为空的序列B中使得B＝[B₁]；

再将A中接下来3个元素取出组成序列A′，A′＝[A₄A₅A₆]，找到A′的中位数并存入B中使得B＝[B₁B₂]；

如果A中剩余元素为2个，A_n-1和A_n，则将A_n-1和A_n取出组成序列A′，A′＝[A_n-1A_n]，用A′中较大的值代替B中的最大值，用A′中较小的值代替B中的最小值，调用个数判断模块；

4.根据权利要求3所述的快速计算统计趋势特征值的装置，其特征在于，还包括：

一维化模块，用于将多维数据串接为一维数据。