CN112395330A

CN112395330A - 一种构建偏态分布特征数据集的方法、装置和计算机系统

Info

Publication number: CN112395330A
Application number: CN202011286144.XA
Authority: CN
Inventors: 柴建峰; 盛建勤; 鲍庆丰; 钟杨
Original assignee: Zhejiang Micro Energy Technology Co ltd
Current assignee: Zhejiang Micro Energy Technology Co ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-02-23

Abstract

本发明公开了一种构建偏态分布特征数据集的方法、装置、计算机系统，属于计算机信息技术领域。所述方法包括：S1获取参数；S2，建立正态分布数据集X，X～(μ,σ)；S3，将所有小于Min和大于max的随机数值的建立均值为μ、标准差为σ的包含随机数值的正态分布数据集，直至所有随机数值介于Min和Max之间，生成新的数据集X'，均值为μ'；S4，比较μ与μ'的差值Dist的绝对值是否大于预设阈值，如果大于预设阈值时，重复步骤S3至S4，且μ更新为μ+Dist；如果不大于预设阈值，则输出X'，即为具有截断偏态分布特征的数据集。利用本发明，可以生成具有截断偏态分布特征的数据集，其均值满足期望，具有广阔的应用前景和重要的经济价值。

Description

一种构建偏态分布特征数据集的方法、装置和计算机系统

技术领域

本发明属于计算机信息技术领域，具体地，涉及一种构建偏态分布特征数据集的方法、装置和计算机系统。

背景技术

正态分布(Normal distribution)，也称“常态分布”，又名高斯分布(Gaussiandistribution)，最早由棣莫弗(Abraham de Moivre)在求二项分布的渐近公式中得到。正态分布是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。

正态分布的曲线呈钟型，两头低，中间高，左右对称因其曲线呈钟形，因此人们又经常称之为钟形曲线。若随机变量X服从一个数学期望为μ、标准差为σ的正态分布，记为X～(μ,σ)。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ＝0，σ＝1时的正态分布是标准正态分布。

现在，商业活动在进行卡券营销等活动中，需要为订单产生指定均值及标准差，又呈现正态分布特征的随机优惠金额。但是，如果直接采用标准正态分布随机数，优惠金额会出现小于0或大于最大金额的情况，显然这不符合实际业务要求。而如果简单的对正态分布进行截断处理，又会导致实际随机金额均值不再等于指定均值。

发明内容

为了解决上述技术问题，本发明采用的技术方案如下：

本发明一方面提供了一种构建具有截断偏态分布特征的数据集的方法，包括以下步骤：

S1，获取待构建数据集的均值μ、标准差σ、最大值Max、最小值Min和总值Total；

S2，建立均值为μ、标准差为σ的包含随机数值的正态分布数据集X，满足X～(μ,σ)，包括介于Min和Max之间的随机数值的数据集X1，以及小于Min和大于max的随机数值的数据集X2；

S3，利用数据集X2中所有随机数值的合计值建立均值为μ、标准差为σ的包含随机数值的正态分布数据集，并不断利用新的数据集中所有小于Min和大于Max的随机数值的合计值建立均值为μ、标准差为σ的包含随机数值的正态分布数据集，直至所有随机数值介于Min和Max之间，合并所有随机数值得到数据集X2'，其中，均值μ的初始值为参数获取模块获取的均值μ；

S4，将S3得到的数据集X2'与S2得到的数据集X1合并得到数据集X'，X'的均值为μ'，μ-μ'得到的差值为Dist；

S5，当Dist的绝对值大于预设阈值时，重复步骤S3至S4，且μ更新为μ+Dist；当Dist的绝对值小于或等于预设阈值，输出X'，即为具有截断偏态分布特征的数据集。

在本发明的一些实施方案中，所述随机数值为货币金额，优选地单位为人民币元。在本发明的一些具体实施方案中，所述随机数值截止到小数点后2位。

在本发明的一些实施方案中，优选地，S2和S3中，利用正态分布数据集生成软件或算法建立正态分布数据集。其中，所述软件或算法可以是任意可以生成正态分布数据集的软件或算法。

在本发明的一些实施方案中，优选地，所述预设阈值为平均值μ的0.1％-1％。在本发明的一些实施方案中，更优选地，所述预设阈值为平均值μ的0.5％。

在本发明的一些实施方案中，具有截断偏态分布特征的数据集包含的数值不少于Total/μ个。

本发明的第二方面提供一种构建具有截断偏态分布特征的数据集的装置，包括：

参数获取模块，用于获取待构建数据集的参数，所述参数包括均值μ、标准差σ、最大值Max、最小值Min和总值Total；

数据集第一建立模块，用于利用参数获取模块获取的参数，建立包含随机数值的正态分布数据集X，满足X～(μ,σ)，包括介于Min和Max之间的随机数值的数据集X1，以及包括小于Min和大于max的随机数值的数据集X2；

截断数据处理模块，用于利用数据集X2中所有随机数值的总和合计值建立均值为μ、标准差为σ的正态分布数据集，并不断利用新的数据集中所有小于Min和大于Max的随机数值的合计值建立均值为μ、标准差为σ的正态分布数据集，直至所有随机数值介于Min和Max之间，合并所有随机数值得到数据集X2'，其中，均值μ来源于数据集输出检查模块，其初始值为参数获取模块获取的均值μ；

数据集第二建立模块，用于将数据集第一建立模块获得的数据集X1和截断数据处理模块获得的数据集X2'合并得到数据集X'；

数据集输出检查模块，用于计算数据集X'的均值μ'，及μ-μ'得到的差值Dist，并比较Dist的绝对值与预设阈值，

当Dist的绝对值大于预设阈值时，向截断数据处理模块发送指令，且将μ更新为μ+Dist，重新生成数据集X2'；

当Dist的绝对值小于或等于预设阈值，输出X'，即为具有截断偏态分布特征的数据集。

在本发明的一些实施方案中，所述随机数值为货币金额。在本发明的一些具体实施方案中，所述随机数值截止到小数点后2位。

本发明第三方面提供一种计算机系统，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本发明第一方面所述的方法。

本发明第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明第一方面任一所述的方法。

本发明的有益效果

相对于现有技术，本发明具有以下有益效果：

利用本发明，可以生成具有截断偏态分布特征的数据集，其均值满足期望，具有广阔的应用前景和重要的经济价值。

利用本发明生成具有截断偏态分布特征的随机优惠金额，解决了对正态分布随机优惠金额最大最小值截断，重新随机取值后均值改变的问题，确保活动预算可控。

附图说明

图1示出了本发明一个实施例用于构建具有截断偏态分布特征的数据集的装置的示意图。

图2示出了本发明建立具有截断偏态分布特征的数据集的流程图。

图3示出了均值为2、标准差为2的正态分布图。

图4示出了本发明一个实施例生成的均值为2、标准差为2、最大值为10、最小值为0.01的截断正态分布图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。

实施例

以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白，下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术，因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白，这里所公开的特定实施例可以做很多修改，仍然能得到相同的或者类似的结果，而非背离本发明的精神或范围。

除非另有定义，所有在此使用的技术和科学的术语，和本发明所属领域内的技术人员所通常理解的意思相同，在此公开引用及他们引用的材料都将以引用的方式被并入。

那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。

实施例1构建具有截断偏态分布特征的数据集的装置

结合图1，对本实施例中构建具有截断偏态分布特征的数据集的装置进行介绍：

该装置包括参数获取模块、数据集第一建立模块、截断数据处理模块、数据集第二建立模块和数据集输出检查模块。其中，

参数获取模块，用于获取待构建数据集的参数，参数包括均值μ、标准差σ、最大值Max、最小值Min和总值Total。

数据集第一建立模块，用于利用参数获取模块获取的参数，建立包含随机数值的正态分布数据集X，满足X～(μ,σ)，包括介于Min和Max之间的随机数值的数据集X₁，以及包括小于Min和大于max的随机数值的数据集X₂。

截断数据处理模块，用于利用数据集X₂中所有随机数值的合计值建立均值为μ、标准差为σ的正态分布数据集，并不断利用新的数据集中所有小于Min和大于Max的随机数值的合计值建立均值为μ、标准差为σ的正态分布数据集，直至所有随机数值介于Min和Max之间，合并所有随机数值得到数据集X₂'，其中，均值μ来源于数据集输出检查模块，其初始值为参数获取模块获取的均值μ。

数据集第二建立模块，用于将数据集第一建立模块获得的数据集X₁和截断数据处理模块获得的数据集X₂'合并得到数据集X'。

当Dist的绝对值大于预设阈值时，向截断数据处理模块发送指令，且将μ更新为μ+Dist，重新生成数据集X₂'；

其中截断数据处理模块、数据集第二建立模块和数据集输出检查模块逻辑，利用计算机语言描述如下：

设X～(μ,σ)为正态分布随机数，均值E(X)＝μ；

为满足min、max的截断正态分布随机数，均值＝float A；

float Dist＝0；

While(|E(X)'-A|>阈值)

当使用时，所述装置的流程图如图2所示。

首先，建立均值为μ、标准差为σ的包含随机数值的正态分布数据集X，满足X～(μ,σ)，包括介于Min和Max之间的随机数值的数据集X₁，以及小于Min和大于max的随机数值的数据集X₂。

其次，利用数据集X₂中所有随机数值的合计值建立均值为μ、标准差为σ的包含随机数值的正态分布数据集，并不断利用新的数据集中所有小于Min和大于Max的随机数值的合计值建立均值为μ、标准差为σ的包含随机数值的正态分布数据集，直至所有随机数值介于Min和Max之间，合并所有随机数值得到数据集X₂'，其中，均值μ的初始值为参数获取模块获取的均值μ；

然后，将S3得到的数据集X₂'与S2得到的数据集X₁合并得到数据集X'，X'的均值为μ'，μ-μ'得到的差值为Dist；

最后，判断Dist是否大于阈值：当Dist的绝对值大于预设阈值时，重复步骤S3至S4，且μ更新为μ+Dist；当Dist的绝对值小于或等于预设阈值，输出X'，即为具有截断偏态分布特征的数据集。

实施例2构建具有截断偏态分布特征的数据集

某数字卡券营销活动，指定每笔交易的随机优惠金额均值为2元(阈值0.01)，标准差为2，最大值为10元，最小值为0.01元，总额为10000元。

利用以下方法完成随机数(优惠金额)生成。

(1)首先建立总值为10000，均值为2，标准差为2的正态分布随机数(优惠金额)，如图3所示。

(2)将所有小于0.01元，大于10元的优惠金额的合计值不断重复建立均值为2，标准差为2的正态分布随机数，直至所有的优惠金额都在0.01元至10元之间。

(3)该截断正态随机数均值已从2改变为2.58，Dist差值为-0.58。重复步骤(2)，建立均值为1.42，标准差为2，最小值为0.01，最大值为10的截断正态分布随机数。新的均值为2.24，Dist＝0.24。

(4)继续不断4次重复步骤(2)-(3)，直至Dist<0.01(阈值)，当使用均值为0.96，标准差为2，上下线为0.01和10元的截断正态分布随机数时，Dist为0.009，小于阈值0.01，满足了随机优惠金额均值为2的要求。

最终，获得的具有截断偏态分布特征的曲线如图4所示。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种构建具有截断偏态分布特征的数据集的方法，其特征在于，包括以下步骤：

S2，建立均值为μ、标准差为σ的包含随机数值的正态分布数据集X，满足X～(μ,σ)，包括介于Min和Max之间的随机数值的数据集X₁，以及小于Min和大于max的随机数值的数据集X₂；

S3，利用数据集X₂中所有随机数值的合计值建立均值为μ、标准差为σ的包含随机数值的正态分布数据集，并不断利用新的数据集中所有小于Min和大于Max的随机数值的合计值建立均值为μ、标准差为σ的包含随机数值的正态分布数据集，直至所有随机数值介于Min和Max之间，合并所有随机数值得到数据集X₂'，其中，均值μ的初始值为参数获取模块获取的均值μ；

S4，将S3得到的数据集X₂'与S2得到的数据集X₁合并得到数据集X'，X'的均值为μ'，μ-μ'得到的差值为Dist；

2.根据权利要求1所述的方法，其特征在于，所述随机数值为货币金额。

3.根据权利要求2所述的方法，其特征在于，所述随机数值截止到小数点后2位。

4.根据权利要求1所述的方法，其特征在于，S2和S3中，利用正态分布数据集生成软件或算法建立正态分布数据集。

5.根据权利要求1所述的方法，其特征在于，所述预设阈值为平均值μ的0.1％-1％。

6.根据权利要求5所述的方法，其特征在于，所述预设阈值为平均值μ的0.5％。

7.根据权利要求1所述的方法，其特征在于，具有截断偏态分布特征的数据集包含的数值不少于Total/μ个。

8.一种构建具有截断偏态分布特征的数据集的装置，其特征在于，包括：

数据集第一建立模块，用于利用参数获取模块获取的参数，建立包含随机数值的正态分布数据集X，满足X～(μ,σ)，包括介于Min和Max之间的随机数值的数据集X₁，以及包括小于Min和大于max的随机数值的数据集X₂；

截断数据处理模块，用于利用数据集X₂中所有随机数值的合计值建立均值为μ、标准差为σ的正态分布数据集，并不断利用新的数据集中所有小于Min和大于Max的随机数值的合计值建立均值为μ、标准差为σ的正态分布数据集，直至所有随机数值介于Min和Max之间，合并所有随机数值得到数据集X₂'，其中，均值μ来源于数据集输出检查模块，其初始值为参数获取模块获取的均值μ；

数据集第二建立模块，用于将数据集第一建立模块获得的数据集X₁和截断数据处理模块获得的数据集X₂'合并得到数据集X'；

9.一种计算机系统，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1-6中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6中任一所述的方法。