CN111061999B

CN111061999B - 数据样本获取方法、装置及存储介质

Info

Publication number: CN111061999B
Application number: CN201911139154.8A
Authority: CN
Inventors: 周杰; 郑豪; 岑志松; 沈佳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2023-08-22
Anticipated expiration: 2039-11-19
Also published as: WO2021098214A1; CN111061999A

Abstract

本发明涉及数据处理技术领域，提供了一种数据样本获取方法、装置及计算机可读存储介质，将数据切分为数据块作为样本数据存储到数据库，在接收用户端输入的样本计算参数后从数据库中第一次抽取样本，得到第一样本集进行运算，筛选出各预设项目的缺额参数及达标率，再根据各未达标预设项目并运算挣值，筛选出数值最大的挣值对应的缺额数量作为各未达标预设项目的补抽基数进行第二次抽取样本得到第二样本集；最后，合并所述第一样本集和第二样本集得到目标样本集，生成数据分析报告。本发明在获取样本数据的过程中引入参数化设置及计算，根据计算结果自动从数据库中获取相应的样本数据，确保获取到的目标样本数据的有效性和可靠性。

Description

数据样本获取方法、装置及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据样本获取方法、装置及计算机可读存储介质。

背景技术

随着大数据越来越普及，企业根据业务需求会预先获取相关样本数据用于业务分析，根据分析结果进行业务开展。

在获取样本数据的过程中可能存在部分数据缺漏、数据倾斜或数据不合理的状况，影响数据获取的有效性和可靠性，进而导致数据分析结果的效性和可靠性。

发明内容

鉴于以上内容，本发明提供一种数据样本获取方法、装置及计算机可读存储介质，其主要目的在于在获取样本数据的过程中引入参数化设置及计算，根据计算结果自动从数据库中获取相应的样本数据，确保获取到的目标样本数据的有效性和可靠性。

为实现上述目的，本发明提供一种数据样本获取方法，该方法包括：

将待处理数据切分为若干个数据块，为每个数据块标注一个标识后作为样本数据存储到数据库；

接收用户端输入的样本计算参数从所述数据库中第一次抽取样本，得到包含各预设项目数据的第一样本集；

根据所述第一样本集中的各预设项目数据进行PostGreSQL运算，筛选出各预设项目的缺额参数及达标率，当预设项目的达标率低于预设阈值时，判断低于所述预设阈值的预设项目未达标，并确定出各未达标预设项目对应的缺额数量；

根据确定出的各缺额数量运算对应的未达标预设项目的挣值，筛选出数值最大的挣值对应的缺额数量作为各未达标预设项目的补抽基数，基于所述补抽基数从所述数据库中第二次抽取样本，得到第二样本集；及

合并所述第一样本集和第二样本集得到目标样本集，生成所述目标样本集的数据分析报告。

优选地，所述接收用户端输入的样本计算参数从所述数据库中第一次抽取样本的步骤包括：

将所述数据库中的样本数据进行随机排列，生成每个样本数据对应的序号；

根据所述样本计算参数按预设抽取规则从所述数据库中抽取对应序号，以获取所述序号对应的样本数据；

集合所述序号对应的样本数据，得到第一样本集。

优选地，所述达标率的计算公式为：

其中，K表示偏差因子，T表示所述样本抽取参数中的第一预设参数值，D_n表示所述缺额参数中的预设项目的获取率，L_n表示预设项目的缺额数量，n为正整数。

优选地，所述挣值的计算公式为:N_n＝C_nx{(∑D_n)-D_n}

其中，N_n表示未达标预设项目的挣值，C_n表示未达标预设项目的缺额数量,D_n表示所述缺额参数中的预设项目的获取率，n为正整数。

优选地，所述基于所述补抽基数从所述数据库中第二次抽取样本包括：

当所述第二次抽取样本中各未达标预设项目的样本抽取数量与对应的缺额数量的差值不为零时，重新计算所述差值不为零的各未达标预设项目的挣值，并再次抽取直到所述差值为零。

此外，为实现上述目的，本发明还提供一种数据样本获取装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的数据处理程序，所述数据处理程序被所述处理器执行时实现如下步骤：

处理步骤：将待处理数据切分为若干个数据块，为每个数据块标注一个标识后作为样本数据存储到数据库；

第一抽取步骤：接收用户端输入的样本计算参数从所述数据库中第一次抽取样本，得到包含各预设项目数据的第一样本集；

计算步骤：根据所述第一样本集中的各预设项目数据进行PostGreSQL运算，筛选出各预设项目的缺额参数及达标率，当预设项目的达标率低于预设阈值时，判断低于所述预设阈值的预设项目未达标，并确定出各未达标预设项目对应的缺额数量；

第二抽取步骤：根据确定出的各缺额数量运算对应的未达标预设项目的挣值，筛选出数值最大的挣值对应的缺额数量作为各未达标预设项目的补抽基数，基于所述补抽基数从所述数据库中第二次抽取样本，得到第二样本集；及

合并步骤：合并所述第一样本集和第二样本集得到目标样本集，生成所述目标样本集的数据分析报告。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括数据处理程序，所述数据处理程序被处理器执行时，可实现如上所述的数据样本获取方法中的任一步骤。

本发明提出的数据样本获取方法、装置及计算机可读存储介质，将数据切分为数据块作为样本数据存储到数据库，在接收用户端输入的样本计算参数后从所述数据库中第一次抽取样本，得到第一样本集进行PostGreSQL运算，并筛选出各预设项目的缺额参数及达标率，再根据确定出各未达标预设项目并运算挣值，筛选出数值最大的挣值对应的缺额数量作为各未达标预设项目的补抽基数，从所述数据库中第二次抽取样本得到第二样本集；最后，合并所述第一样本集和第二样本集得到目标样本集，生成数据分析报告。本发明在获取样本数据的过程中引入参数化设置及计算，根据计算结果自动从数据库中获取相应的样本数据，确保获取到的目标样本数据的有效性和可靠性。

附图说明

图1为本发明数据样本获取装置较佳实施例的示意图；

图2为图1中的数据处理程序较佳实施例的程序模块图；

图3为本发明数据样本获取方法较佳实施例的流程图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参照图1所示，图1为本发明数据样本获取装置较佳实施例的示意图；该装置1是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。所述数据样本获取装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云，其中云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

在本实施例中，所述数据样本获取装置1可包括，但不仅限于，可通过系统总线相互通信连接的存储器11、处理器12、显示器13，存储器11存储有可在处理器12上运行的数据处理程序10。需要指出的是，图1仅示出了具有组件11-13的该装置1，但是应当理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，存储器11包括内存及至少一种类型的可读存储介质。内存为数据样本获取装置1的运行提供缓存；可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中，可读存储介质可以是数据样本获取装置1的内部存储单元，例如该数据样本获取装置1的硬盘；在另一些实施例中，该非易失性存储介质也可以是数据样本获取装置1的外部存储设备，例如数据样本获取装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。本实施例中，存储器11的可读存储介质通常用于存储安装于数据样本获取装置1的操作系统和各类应用软件，例如存储本发明一实施例中的数据处理程序10等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述数据样本获取装置1的总体操作，例如执行与所述其他设备进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行数据处理程序10等。

所述数据处理程序10存储在存储器11中，包括存储在存储器11中的计算机可读指令，该计算机可读指令可被处理器12执行，以实现本申请各实施例的方法。

在一实施例中，上述数据处理程序10被所述处理器12执行时实现如下步骤：

处理步骤：将待处理数据切分为若干个数据块，为每个数据块标注一个标识后作为样本数据存储到数据库。

本实施例将待处理数据切分为n(n为正整数)个数据块，并对每个数据块标注一个标识序号，将带有序号的数据块作为一个样本数据存储到数据库。

第一抽取步骤：接收用户端输入的样本计算参数从所述数据库中第一次抽取样本，得到包含各预设项目数据的第一样本集。

所述样本计算参数包括预设目标总量、第一预设参数值及样本数据中各预设项目的数量阈值，所述预设目标总量和第一预设参数值用于参与计算各预设项目获取到的样本数量的比例状况，所述样本计算参数是根据业务数据及业务需求设置。

所述预设项目包括男性、女性、年龄区间(如18-25岁)、城市级别(一线城市)、产品满意度(优、良、差)、用户价值分层(高端、终端、底端)等等。

需要说明的是，所述第一抽取步骤中将抽取到的第一样本集区分存放，避免回放到所述数据库中，确保数据不混淆干扰，以免影响数据获取的可靠性。

例如，在一个实施例中，为调研某一新产品的大众喜好程度，获取到相应的样本数据存储在数据库，并设置本次调研的样本计算参数。为简要描述，仅列出部分样本计算参数，例如，设定预设目标总量：20000；第一预设参数值：5000；预设项目包括男性：5000份、女性：5000份、18-25岁：1500份、26-35岁：2500份、35岁以上：1000份、一线城市：4000份。

进一步地，所述接收用户端输入的样本计算参数从所述数据库中第一次抽取样本的步骤包括：

集合所述序号对应的样本数据，得到第一样本集。

本实施例中，通过将带有标识的数据块进行随机排列生成每个样本数据对应的序号，采用按顺序抽取或递次抽取的规则从所述数据库中抽取对应序号，并集合所述序号对应的样本数据。其中，顺序抽取可以是前200个序号，递次抽取可以是每隔一个预设数值(例如5)抽取一个序号对应的样本数据。

本实施例不再对所有样本数据进行重新处理，而是把所有样本数据以标识序号的数据块的方式进行预设抽样规则的抽取，对于大数据量下(例如，亿级数据)的抽样，该运算相较于传统方法，可大幅提升样本抽取速度，随机性更强，从而得到可靠的第一样本集。

计算步骤：根据所述第一样本集中的各预设项目数据进行PostGreSQL运算，筛选出各预设项目的缺额参数及达标率，当预设项目的达标率低于预设阈值时，判断低于所述预设阈值的预设项目未达标，并确定出各未达标预设项目对应的缺额数量。

所述PostgreSQL是一种数据的处理系统。支持SQL标准的数据类型、函数、聚集函数等运算，对大数据的处理运算效率高。

所述缺额参数包括各预设项目的缺额数量、缺额占比及获取率，所述获取率为所述预设项目的实际数量与所述预设目标总量的比值。

当预设项目的实际数量大于或等于对应的预设项目的数量阈值，则确定该预设项目对应的缺额数量为0；

当预设项目的实际数量小于对应的预设项目的数量阈值，则该预设项目与实际数量的差值为该预设项目的缺额数量。

所述缺额占比为缺额数量与预设项目数量的比值。

需要说明的是，本实施例中，所述预设目标总量大于所述第一预设参数值。

例如，如下的部分样本数据：

进一步地，基于所述第一预设参数值、各预设项目的获取率及缺额数量，计算各预设项目的达标率，所述达标率的计算公式为：

在一个实施例中，为评估所述第一样本集中各预设项目获取到的样本数据是否充足，采用预设项目的达标率进行判断。当预设项目的缺额数量为0时，则该预设项目的达标率不做计算，可直接排除；当预设项目的缺额数量为不为0时，则根据预设项目的达标率公式：计算出该预设项目的达标率。

当计算出的该预设项目的达标率未超过预设阈值(如100％)时，则判断该预设项目的缺额数量存在样本数据偏少或不足，需进一步获取相应数量的样本数据使该预设项目的样本数据相对于其它预设项目的样本数据不倾斜，确保各预设项目的样本数据可靠有效。例如，如下样本数据的18-25岁的预设项目达标率为25.0％，26-35岁的预设项目达标率为62.5％；

当预设项目的达标率超过预设阈值(如100％)时，则判断超过预设阈值所述预设项目获取到的样本数据充足，可不计入后续的样本数据获取环节，例如，如下样本数据的女性的预设项目达标率为112.5％，35岁以上的预设项目达标率为237.5％。

例如，如下的部分样本数据：

第二抽取步骤：根据确定出的各缺额数量运算对应的未达标预设项目的挣值，筛选出数值最大的挣值对应的缺额数量作为各未达标预设项目的补抽基数，基于所述补抽基数从所述数据库中第二次抽取样本，得到第二样本集。

所述挣值(EV，Earned Value)是指项目获取过程中某阶段实际完成的获取量，用以代表并衡量从所述数据库中能够获取到最多的各未达标的预设项目的样本数据。

由于随机抽取到的第一样本集并不能确保抽取到的样本数据不偏差或者不倾斜，为克服这一困难，使获取到的样本数据可靠、有效，本实施例进一步对确定出各未达标预设项目对应的缺额数量进行相应样本数据的补充抽取。

进一步地，当所述第二次抽取样本中各未达标预设项目的样本抽取数量与对应的缺额数量的差值不为零时，重新计算所述差值不为零的各未达标预设项目的挣值，并再次抽取直到所述差值为零。

其中，所述挣值的计算公式为:N_n＝C_nx{(∑D_n)-D_n}

在一个实施例中，根据所述补抽基数从所述数据库中第二次抽取样本，得到第二样本集。为简要描述，仅列出部分参数，例如，18-25岁的缺额数量C₁＝500，对应的预设项目的获取率D₁＝30％；26-35岁的缺额数量C₂＝250，对应的预设项目的获取率D₂＝10％；一线城市的缺额数量C₃＝800，对应的预设项目的获取率D₃＝11％；需要说明的是，未达标预设项目的获取率即该预设项目所在的获取率。

计算第一次挣值为：

N₁＝C₁ x(D₂+D₃)＝500x(10％+11％)＝105

N₂＝C₂ x(D₁+D₃)＝250x(30％+11％)＝102.5

N₃＝C₃ x(D₁+D₂)＝800x(30％+10％)＝320

其中N₁，N₂，N₃表示挣值，挣值由大到小顺序是N₃>N₁>N₂，以800为计算基数从所述数据库中获取出若干样本数据，得到的各未达标预设项目样本数据分别为：一线城市为：800份；18-25岁为：800x 30％＝240份；26-35岁为：800x 10％＝80份。

则获取后的各未达标预设项目的缺额数量为一线城市为：0份；18-25岁为：500-240＝260份；26-35岁为：250-80＝170份。

由此可判断出，存在多个未达标预设项目的样本抽取数量与对应的缺额数量的差值不为零，需重新计算挣值并再次抽取。

重新计算第二次挣值为：

N₁＝260x 10％＝26

N₂＝170x 30％＝51

挣值由大到小顺序是N₂>N₁，以170为计算基数再次从所述数据库中获取出若干样本数据，得到的各未达标预设项目样本数据分别为：26-35岁为：170份；18-25岁为：260x30％＝78份。

则获取后的各未达标预设项目的缺额数量为：一线城市为：0份；26-35岁为：0份；18-25岁为：260-78＝182份。

最后仅剩未达标预设项目为18-25岁的182份直接从所述数据库中获取，则获取后的各未达标预设项目的缺额数量为：一线城市为：0份；26-35岁为：0份；18-25岁为：0份。

需要说明的是，上述实施例仅描述样本数据获取过程的部分数据，以示意及便于理解所述第二获取步骤，包括但不限于上述实施例，对于其它样本数据的获取方式，本实施例也能涵盖并应用。

在一个实施例中，对得到的所述第一样本集和第二样本集进行合并处理，得到目标样本集，所述目标样本集为本次业务调研的最终数据。通过参数化设置计算获取的所述第一样本集中的样本数据是否存在缺额，并对确定出的缺额数量进行再次获取，得到所述第二样本集，避免获取到的样本数据存在的数据倾斜或数据缺少的问题，增强了数据的有效性，确保目标样本集生成的数据分析报告的可靠性，有助于更加准确的辅助业务判断及决策。该数据分析报告还可以包括各种数据对比图表，例如柱形图、饼图、折线图、条形图等。

参照图2所示，为图1中的数据处理程序10较佳实施例的程序模块图。

在一个实施例中，数据处理程序10包括：处理模块101、第一抽取模块102、计算模块103、第二抽取模块104、合并模块105。所述模块101-105所实现的功能或操作步骤均与下述数据样本获取方法类似，此处不再详述，示例性地，例如其中：

处理模块101，用于将待处理数据切分为若干个数据块，为每个数据块标注一个标识后作为样本数据存储到数据库；

第一抽取模块102，用于接收用户端输入的样本计算参数从所述数据库中第一次抽取样本，得到包含各预设项目数据的第一样本集；

计算模块103，用于根据所述第一样本集中的各预设项目数据进行PostGreSQL运算，筛选出各预设项目的缺额参数及达标率，当预设项目的达标率低于预设阈值时，判断低于所述预设阈值的预设项目未达标，并确定出各未达标预设项目对应的缺额数量；

第二抽取模块104，用于根据确定出的各缺额数量运算对应的未达标预设项目的挣值，筛选出数值最大的挣值对应的缺额数量作为各未达标预设项目的补抽基数，基于所述补抽基数从所述数据库中第二次抽取样本，得到第二样本集；及

合并模块105，用于合并所述第一样本集和第二样本集得到目标样本集，生成所述目标样本集的数据分析报告。

参照图3所示，为本发明数据样本获取方法较佳实施例的流程图。本发明揭露了一种数据样本获取方法，应用于上述的电子装置，该方法包括：

步骤S210，将待处理数据切分为若干个数据块，为每个数据块标注一个标识后作为样本数据存储到数据库。

步骤S220，接收用户端输入的样本计算参数从所述数据库中第一次抽取样本，得到包含各预设项目数据的第一样本集。

集合所述序号对应的样本数据，得到第一样本集。

步骤S230，根据所述第一样本集中的各预设项目数据进行PostGreSQL运算，筛选出各预设项目的缺额参数及达标率，当预设项目的达标率低于预设阈值时，判断低于所述预设阈值的预设项目未达标，并确定出各未达标预设项目对应的缺额数量。

所述缺额占比为缺额数量与预设项目数量的比值。

例如，如下的部分样本数据：

步骤S240，根据确定出的各缺额数量运算对应的未达标预设项目的挣值，筛选出数值最大的挣值对应的缺额数量作为各未达标预设项目的补抽基数，基于所述补抽基数从所述数据库中第二次抽取样本，得到第二样本集。

其中，所述挣值的计算公式为:N_n＝C_nx{(∑D_n)-D_n}

计算第一次挣值为：

N₁＝C₁ x(D₂+D₃)＝500x(10％+11％)＝105

N₂＝C₂ x(D₁+D₃)＝250x(30％+11％)＝102.5

N₃＝C₃ x(D₁+D₂)＝800x(30％+10％)＝320

重新计算第二次挣值为：

N₁＝260x 10％＝26

N₂＝170x 30％＝51

步骤S250，合并所述第一样本集和第二样本集得到目标样本集，生成所述目标样本集的数据分析报告。

此外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括数据处理程序，所述数据处理程序被处理器执行时，可实现如下操作：

本发明计算机可读存储介质具体实施方式与上述数据样本获取方法和数据样本获取装置各实施例基本相同，在此不作累述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据样本获取方法，其特征在于，该方法包括：

合并所述第一样本集和第二样本集得到目标样本集，生成所述目标样本集的数据分析报告；

其中，所述达标率的计算公式为：

其中，K表示偏差因子，T表示样本抽取参数中的第一预设参数值，D_n表示所述缺额参数中的预设项目的获取率，L_n表示预设项目的缺额数量，n为正整数；

所述挣值的计算公式为:N_n＝C_nx{(∑D_n)-D_n}

2.如权利要求1所述的数据样本获取方法，其特征在于，所述接收用户端输入的样本计算参数从所述数据库中第一次抽取样本的步骤包括：

集合所述序号对应的样本数据，得到第一样本集。

3.如权利要求1-2任意一项所述的数据样本获取方法，其特征在于，所述基于所述补抽基数从所述数据库中第二次抽取样本包括：

4.一种数据样本获取装置，其特征在于，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的数据处理程序，所述数据处理程序被所述处理器执行时实现如下步骤：

合并步骤：合并所述第一样本集和第二样本集得到目标样本集，生成所述目标样本集的数据分析报告；

其中，所述达标率的计算公式为：

所述挣值的计算公式为:N_n＝C_nx{(∑D_n)-D_n}

5.如权利要求4所述的数据样本获取装置，其特征在于，所述接收用户端输入的样本计算参数从所述数据库中第一次抽取样本的步骤包括：

集合所述序号对应的样本数据，得到第一样本集。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括数据处理程序，所述数据处理程序被处理器执行时，可实现如权利要求1至3中任意一项所述的数据样本获取方法的步骤。