CN111061999B - 数据样本获取方法、装置及存储介质 - Google Patents

数据样本获取方法、装置及存储介质 Download PDF

Info

Publication number
CN111061999B
CN111061999B CN201911139154.8A CN201911139154A CN111061999B CN 111061999 B CN111061999 B CN 111061999B CN 201911139154 A CN201911139154 A CN 201911139154A CN 111061999 B CN111061999 B CN 111061999B
Authority
CN
China
Prior art keywords
data
sample
preset
database
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911139154.8A
Other languages
English (en)
Other versions
CN111061999A (zh
Inventor
周杰
郑豪
岑志松
沈佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201911139154.8A priority Critical patent/CN111061999B/zh
Publication of CN111061999A publication Critical patent/CN111061999A/zh
Priority to PCT/CN2020/098953 priority patent/WO2021098214A1/zh
Application granted granted Critical
Publication of CN111061999B publication Critical patent/CN111061999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,提供了一种数据样本获取方法、装置及计算机可读存储介质,将数据切分为数据块作为样本数据存储到数据库,在接收用户端输入的样本计算参数后从数据库中第一次抽取样本,得到第一样本集进行运算,筛选出各预设项目的缺额参数及达标率,再根据各未达标预设项目并运算挣值,筛选出数值最大的挣值对应的缺额数量作为各未达标预设项目的补抽基数进行第二次抽取样本得到第二样本集;最后,合并所述第一样本集和第二样本集得到目标样本集,生成数据分析报告。本发明在获取样本数据的过程中引入参数化设置及计算,根据计算结果自动从数据库中获取相应的样本数据,确保获取到的目标样本数据的有效性和可靠性。

Description

数据样本获取方法、装置及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据样本获取方法、装置及计算机可读存储介质。
背景技术
随着大数据越来越普及,企业根据业务需求会预先获取相关样本数据用于业务分析,根据分析结果进行业务开展。
在获取样本数据的过程中可能存在部分数据缺漏、数据倾斜或数据不合理的状况,影响数据获取的有效性和可靠性,进而导致数据分析结果的效性和可靠性。
发明内容
鉴于以上内容,本发明提供一种数据样本获取方法、装置及计算机可读存储介质,其主要目的在于在获取样本数据的过程中引入参数化设置及计算,根据计算结果自动从数据库中获取相应的样本数据,确保获取到的目标样本数据的有效性和可靠性。
为实现上述目的,本发明提供一种数据样本获取方法,该方法包括:
将待处理数据切分为若干个数据块,为每个数据块标注一个标识后作为样本数据存储到数据库;
接收用户端输入的样本计算参数从所述数据库中第一次抽取样本,得到包含各预设项目数据的第一样本集;
根据所述第一样本集中的各预设项目数据进行PostGreSQL运算,筛选出各预设项目的缺额参数及达标率,当预设项目的达标率低于预设阈值时,判断低于所述预设阈值的预设项目未达标,并确定出各未达标预设项目对应的缺额数量;
根据确定出的各缺额数量运算对应的未达标预设项目的挣值,筛选出数值最大的挣值对应的缺额数量作为各未达标预设项目的补抽基数,基于所述补抽基数从所述数据库中第二次抽取样本,得到第二样本集;及
合并所述第一样本集和第二样本集得到目标样本集,生成所述目标样本集的数据分析报告。
优选地,所述接收用户端输入的样本计算参数从所述数据库中第一次抽取样本的步骤包括:
将所述数据库中的样本数据进行随机排列,生成每个样本数据对应的序号;
根据所述样本计算参数按预设抽取规则从所述数据库中抽取对应序号,以获取所述序号对应的样本数据;
集合所述序号对应的样本数据,得到第一样本集。
优选地,所述达标率的计算公式为:
其中,K表示偏差因子,T表示所述样本抽取参数中的第一预设参数值,Dn表示所述缺额参数中的预设项目的获取率,Ln表示预设项目的缺额数量,n为正整数。
优选地,所述挣值的计算公式为:Nn=Cnx{(∑Dn)-Dn}
其中,Nn表示未达标预设项目的挣值,Cn表示未达标预设项目的缺额数量,Dn表示所述缺额参数中的预设项目的获取率,n为正整数。
优选地,所述基于所述补抽基数从所述数据库中第二次抽取样本包括:
当所述第二次抽取样本中各未达标预设项目的样本抽取数量与对应的缺额数量的差值不为零时,重新计算所述差值不为零的各未达标预设项目的挣值,并再次抽取直到所述差值为零。
此外,为实现上述目的,本发明还提供一种数据样本获取装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如下步骤:
处理步骤:将待处理数据切分为若干个数据块,为每个数据块标注一个标识后作为样本数据存储到数据库;
第一抽取步骤:接收用户端输入的样本计算参数从所述数据库中第一次抽取样本,得到包含各预设项目数据的第一样本集;
计算步骤:根据所述第一样本集中的各预设项目数据进行PostGreSQL运算,筛选出各预设项目的缺额参数及达标率,当预设项目的达标率低于预设阈值时,判断低于所述预设阈值的预设项目未达标,并确定出各未达标预设项目对应的缺额数量;
第二抽取步骤:根据确定出的各缺额数量运算对应的未达标预设项目的挣值,筛选出数值最大的挣值对应的缺额数量作为各未达标预设项目的补抽基数,基于所述补抽基数从所述数据库中第二次抽取样本,得到第二样本集;及
合并步骤:合并所述第一样本集和第二样本集得到目标样本集,生成所述目标样本集的数据分析报告。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括数据处理程序,所述数据处理程序被处理器执行时,可实现如上所述的数据样本获取方法中的任一步骤。
本发明提出的数据样本获取方法、装置及计算机可读存储介质,将数据切分为数据块作为样本数据存储到数据库,在接收用户端输入的样本计算参数后从所述数据库中第一次抽取样本,得到第一样本集进行PostGreSQL运算,并筛选出各预设项目的缺额参数及达标率,再根据确定出各未达标预设项目并运算挣值,筛选出数值最大的挣值对应的缺额数量作为各未达标预设项目的补抽基数,从所述数据库中第二次抽取样本得到第二样本集;最后,合并所述第一样本集和第二样本集得到目标样本集,生成数据分析报告。本发明在获取样本数据的过程中引入参数化设置及计算,根据计算结果自动从数据库中获取相应的样本数据,确保获取到的目标样本数据的有效性和可靠性。
附图说明
图1为本发明数据样本获取装置较佳实施例的示意图;
图2为图1中的数据处理程序较佳实施例的程序模块图;
图3为本发明数据样本获取方法较佳实施例的流程图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参照图1所示,图1为本发明数据样本获取装置较佳实施例的示意图;该装置1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述数据样本获取装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,所述数据样本获取装置1可包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、显示器13,存储器11存储有可在处理器12上运行的数据处理程序10。需要指出的是,图1仅示出了具有组件11-13的该装置1,但是应当理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为数据样本获取装置1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是数据样本获取装置1的内部存储单元,例如该数据样本获取装置1的硬盘;在另一些实施例中,该非易失性存储介质也可以是数据样本获取装置1的外部存储设备,例如数据样本获取装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。本实施例中,存储器11的可读存储介质通常用于存储安装于数据样本获取装置1的操作系统和各类应用软件,例如存储本发明一实施例中的数据处理程序10等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述数据样本获取装置1的总体操作,例如执行与所述其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行数据处理程序10等。
所述数据处理程序10存储在存储器11中,包括存储在存储器11中的计算机可读指令,该计算机可读指令可被处理器12执行,以实现本申请各实施例的方法。
在一实施例中,上述数据处理程序10被所述处理器12执行时实现如下步骤:
处理步骤:将待处理数据切分为若干个数据块,为每个数据块标注一个标识后作为样本数据存储到数据库。
本实施例将待处理数据切分为n(n为正整数)个数据块,并对每个数据块标注一个标识序号,将带有序号的数据块作为一个样本数据存储到数据库。
第一抽取步骤:接收用户端输入的样本计算参数从所述数据库中第一次抽取样本,得到包含各预设项目数据的第一样本集。
所述样本计算参数包括预设目标总量、第一预设参数值及样本数据中各预设项目的数量阈值,所述预设目标总量和第一预设参数值用于参与计算各预设项目获取到的样本数量的比例状况,所述样本计算参数是根据业务数据及业务需求设置。
所述预设项目包括男性、女性、年龄区间(如18-25岁)、城市级别(一线城市)、产品满意度(优、良、差)、用户价值分层(高端、终端、底端)等等。
需要说明的是,所述第一抽取步骤中将抽取到的第一样本集区分存放,避免回放到所述数据库中,确保数据不混淆干扰,以免影响数据获取的可靠性。
例如,在一个实施例中,为调研某一新产品的大众喜好程度,获取到相应的样本数据存储在数据库,并设置本次调研的样本计算参数。为简要描述,仅列出部分样本计算参数,例如,设定预设目标总量:20000;第一预设参数值:5000;预设项目包括男性:5000份、女性:5000份、18-25岁:1500份、26-35岁:2500份、35岁以上:1000份、一线城市:4000份。
进一步地,所述接收用户端输入的样本计算参数从所述数据库中第一次抽取样本的步骤包括:
将所述数据库中的样本数据进行随机排列,生成每个样本数据对应的序号;
根据所述样本计算参数按预设抽取规则从所述数据库中抽取对应序号,以获取所述序号对应的样本数据;
集合所述序号对应的样本数据,得到第一样本集。
本实施例中,通过将带有标识的数据块进行随机排列生成每个样本数据对应的序号,采用按顺序抽取或递次抽取的规则从所述数据库中抽取对应序号,并集合所述序号对应的样本数据。其中,顺序抽取可以是前200个序号,递次抽取可以是每隔一个预设数值(例如5)抽取一个序号对应的样本数据。
本实施例不再对所有样本数据进行重新处理,而是把所有样本数据以标识序号的数据块的方式进行预设抽样规则的抽取,对于大数据量下(例如,亿级数据)的抽样,该运算相较于传统方法,可大幅提升样本抽取速度,随机性更强,从而得到可靠的第一样本集。
计算步骤:根据所述第一样本集中的各预设项目数据进行PostGreSQL运算,筛选出各预设项目的缺额参数及达标率,当预设项目的达标率低于预设阈值时,判断低于所述预设阈值的预设项目未达标,并确定出各未达标预设项目对应的缺额数量。
所述PostgreSQL是一种数据的处理系统。支持SQL标准的数据类型、函数、聚集函数等运算,对大数据的处理运算效率高。
所述缺额参数包括各预设项目的缺额数量、缺额占比及获取率,所述获取率为所述预设项目的实际数量与所述预设目标总量的比值。
当预设项目的实际数量大于或等于对应的预设项目的数量阈值,则确定该预设项目对应的缺额数量为0;
当预设项目的实际数量小于对应的预设项目的数量阈值,则该预设项目与实际数量的差值为该预设项目的缺额数量。
所述缺额占比为缺额数量与预设项目数量的比值。
需要说明的是,本实施例中,所述预设目标总量大于所述第一预设参数值。
例如,如下的部分样本数据:
进一步地,基于所述第一预设参数值、各预设项目的获取率及缺额数量,计算各预设项目的达标率,所述达标率的计算公式为:
其中,K表示偏差因子,T表示所述样本抽取参数中的第一预设参数值,Dn表示所述缺额参数中的预设项目的获取率,Ln表示预设项目的缺额数量,n为正整数。
在一个实施例中,为评估所述第一样本集中各预设项目获取到的样本数据是否充足,采用预设项目的达标率进行判断。当预设项目的缺额数量为0时,则该预设项目的达标率不做计算,可直接排除;当预设项目的缺额数量为不为0时,则根据预设项目的达标率公式:计算出该预设项目的达标率。
当计算出的该预设项目的达标率未超过预设阈值(如100%)时,则判断该预设项目的缺额数量存在样本数据偏少或不足,需进一步获取相应数量的样本数据使该预设项目的样本数据相对于其它预设项目的样本数据不倾斜,确保各预设项目的样本数据可靠有效。例如,如下样本数据的18-25岁的预设项目达标率为25.0%,26-35岁的预设项目达标率为62.5%;
当预设项目的达标率超过预设阈值(如100%)时,则判断超过预设阈值所述预设项目获取到的样本数据充足,可不计入后续的样本数据获取环节,例如,如下样本数据的女性的预设项目达标率为112.5%,35岁以上的预设项目达标率为237.5%。
例如,如下的部分样本数据:
第二抽取步骤:根据确定出的各缺额数量运算对应的未达标预设项目的挣值,筛选出数值最大的挣值对应的缺额数量作为各未达标预设项目的补抽基数,基于所述补抽基数从所述数据库中第二次抽取样本,得到第二样本集。
所述挣值(EV,Earned Value)是指项目获取过程中某阶段实际完成的获取量,用以代表并衡量从所述数据库中能够获取到最多的各未达标的预设项目的样本数据。
由于随机抽取到的第一样本集并不能确保抽取到的样本数据不偏差或者不倾斜,为克服这一困难,使获取到的样本数据可靠、有效,本实施例进一步对确定出各未达标预设项目对应的缺额数量进行相应样本数据的补充抽取。
进一步地,当所述第二次抽取样本中各未达标预设项目的样本抽取数量与对应的缺额数量的差值不为零时,重新计算所述差值不为零的各未达标预设项目的挣值,并再次抽取直到所述差值为零。
其中,所述挣值的计算公式为:Nn=Cnx{(∑Dn)-Dn}
其中,Nn表示未达标预设项目的挣值,Cn表示未达标预设项目的缺额数量,Dn表示所述缺额参数中的预设项目的获取率,n为正整数。
在一个实施例中,根据所述补抽基数从所述数据库中第二次抽取样本,得到第二样本集。为简要描述,仅列出部分参数,例如,18-25岁的缺额数量C1=500,对应的预设项目的获取率D1=30%;26-35岁的缺额数量C2=250,对应的预设项目的获取率D2=10%;一线城市的缺额数量C3=800,对应的预设项目的获取率D3=11%;需要说明的是,未达标预设项目的获取率即该预设项目所在的获取率。
计算第一次挣值为:
N1=C1 x(D2+D3)=500x(10%+11%)=105
N2=C2 x(D1+D3)=250x(30%+11%)=102.5
N3=C3 x(D1+D2)=800x(30%+10%)=320
其中N1,N2,N3表示挣值,挣值由大到小顺序是N3>N1>N2,以800为计算基数从所述数据库中获取出若干样本数据,得到的各未达标预设项目样本数据分别为:一线城市为:800份;18-25岁为:800x 30%=240份;26-35岁为:800x 10%=80份。
则获取后的各未达标预设项目的缺额数量为一线城市为:0份;18-25岁为:500-240=260份;26-35岁为:250-80=170份。
由此可判断出,存在多个未达标预设项目的样本抽取数量与对应的缺额数量的差值不为零,需重新计算挣值并再次抽取。
重新计算第二次挣值为:
N1=260x 10%=26
N2=170x 30%=51
挣值由大到小顺序是N2>N1,以170为计算基数再次从所述数据库中获取出若干样本数据,得到的各未达标预设项目样本数据分别为:26-35岁为:170份;18-25岁为:260x30%=78份。
则获取后的各未达标预设项目的缺额数量为:一线城市为:0份;26-35岁为:0份;18-25岁为:260-78=182份。
最后仅剩未达标预设项目为18-25岁的182份直接从所述数据库中获取,则获取后的各未达标预设项目的缺额数量为:一线城市为:0份;26-35岁为:0份;18-25岁为:0份。
需要说明的是,上述实施例仅描述样本数据获取过程的部分数据,以示意及便于理解所述第二获取步骤,包括但不限于上述实施例,对于其它样本数据的获取方式,本实施例也能涵盖并应用。
合并步骤:合并所述第一样本集和第二样本集得到目标样本集,生成所述目标样本集的数据分析报告。
在一个实施例中,对得到的所述第一样本集和第二样本集进行合并处理,得到目标样本集,所述目标样本集为本次业务调研的最终数据。通过参数化设置计算获取的所述第一样本集中的样本数据是否存在缺额,并对确定出的缺额数量进行再次获取,得到所述第二样本集,避免获取到的样本数据存在的数据倾斜或数据缺少的问题,增强了数据的有效性,确保目标样本集生成的数据分析报告的可靠性,有助于更加准确的辅助业务判断及决策。该数据分析报告还可以包括各种数据对比图表,例如柱形图、饼图、折线图、条形图等。
参照图2所示,为图1中的数据处理程序10较佳实施例的程序模块图。
在一个实施例中,数据处理程序10包括:处理模块101、第一抽取模块102、计算模块103、第二抽取模块104、合并模块105。所述模块101-105所实现的功能或操作步骤均与下述数据样本获取方法类似,此处不再详述,示例性地,例如其中:
处理模块101,用于将待处理数据切分为若干个数据块,为每个数据块标注一个标识后作为样本数据存储到数据库;
第一抽取模块102,用于接收用户端输入的样本计算参数从所述数据库中第一次抽取样本,得到包含各预设项目数据的第一样本集;
计算模块103,用于根据所述第一样本集中的各预设项目数据进行PostGreSQL运算,筛选出各预设项目的缺额参数及达标率,当预设项目的达标率低于预设阈值时,判断低于所述预设阈值的预设项目未达标,并确定出各未达标预设项目对应的缺额数量;
第二抽取模块104,用于根据确定出的各缺额数量运算对应的未达标预设项目的挣值,筛选出数值最大的挣值对应的缺额数量作为各未达标预设项目的补抽基数,基于所述补抽基数从所述数据库中第二次抽取样本,得到第二样本集;及
合并模块105,用于合并所述第一样本集和第二样本集得到目标样本集,生成所述目标样本集的数据分析报告。
参照图3所示,为本发明数据样本获取方法较佳实施例的流程图。本发明揭露了一种数据样本获取方法,应用于上述的电子装置,该方法包括:
步骤S210,将待处理数据切分为若干个数据块,为每个数据块标注一个标识后作为样本数据存储到数据库。
本实施例将待处理数据切分为n(n为正整数)个数据块,并对每个数据块标注一个标识序号,将带有序号的数据块作为一个样本数据存储到数据库。
步骤S220,接收用户端输入的样本计算参数从所述数据库中第一次抽取样本,得到包含各预设项目数据的第一样本集。
所述样本计算参数包括预设目标总量、第一预设参数值及样本数据中各预设项目的数量阈值,所述预设目标总量和第一预设参数值用于参与计算各预设项目获取到的样本数量的比例状况,所述样本计算参数是根据业务数据及业务需求设置。
所述预设项目包括男性、女性、年龄区间(如18-25岁)、城市级别(一线城市)、产品满意度(优、良、差)、用户价值分层(高端、终端、底端)等等。
需要说明的是,所述第一抽取步骤中将抽取到的第一样本集区分存放,避免回放到所述数据库中,确保数据不混淆干扰,以免影响数据获取的可靠性。
例如,在一个实施例中,为调研某一新产品的大众喜好程度,获取到相应的样本数据存储在数据库,并设置本次调研的样本计算参数。为简要描述,仅列出部分样本计算参数,例如,设定预设目标总量:20000;第一预设参数值:5000;预设项目包括男性:5000份、女性:5000份、18-25岁:1500份、26-35岁:2500份、35岁以上:1000份、一线城市:4000份。
进一步地,所述接收用户端输入的样本计算参数从所述数据库中第一次抽取样本的步骤包括:
将所述数据库中的样本数据进行随机排列,生成每个样本数据对应的序号;
根据所述样本计算参数按预设抽取规则从所述数据库中抽取对应序号,以获取所述序号对应的样本数据;
集合所述序号对应的样本数据,得到第一样本集。
本实施例中,通过将带有标识的数据块进行随机排列生成每个样本数据对应的序号,采用按顺序抽取或递次抽取的规则从所述数据库中抽取对应序号,并集合所述序号对应的样本数据。其中,顺序抽取可以是前200个序号,递次抽取可以是每隔一个预设数值(例如5)抽取一个序号对应的样本数据。
本实施例不再对所有样本数据进行重新处理,而是把所有样本数据以标识序号的数据块的方式进行预设抽样规则的抽取,对于大数据量下(例如,亿级数据)的抽样,该运算相较于传统方法,可大幅提升样本抽取速度,随机性更强,从而得到可靠的第一样本集。
步骤S230,根据所述第一样本集中的各预设项目数据进行PostGreSQL运算,筛选出各预设项目的缺额参数及达标率,当预设项目的达标率低于预设阈值时,判断低于所述预设阈值的预设项目未达标,并确定出各未达标预设项目对应的缺额数量。
所述PostgreSQL是一种数据的处理系统。支持SQL标准的数据类型、函数、聚集函数等运算,对大数据的处理运算效率高。
所述缺额参数包括各预设项目的缺额数量、缺额占比及获取率,所述获取率为所述预设项目的实际数量与所述预设目标总量的比值。
当预设项目的实际数量大于或等于对应的预设项目的数量阈值,则确定该预设项目对应的缺额数量为0;
当预设项目的实际数量小于对应的预设项目的数量阈值,则该预设项目与实际数量的差值为该预设项目的缺额数量。
所述缺额占比为缺额数量与预设项目数量的比值。
需要说明的是,本实施例中,所述预设目标总量大于所述第一预设参数值。
例如,如下的部分样本数据:
进一步地,基于所述第一预设参数值、各预设项目的获取率及缺额数量,计算各预设项目的达标率,所述达标率的计算公式为:
其中,K表示偏差因子,T表示所述样本抽取参数中的第一预设参数值,Dn表示所述缺额参数中的预设项目的获取率,Ln表示预设项目的缺额数量,n为正整数。
在一个实施例中,为评估所述第一样本集中各预设项目获取到的样本数据是否充足,采用预设项目的达标率进行判断。当预设项目的缺额数量为0时,则该预设项目的达标率不做计算,可直接排除;当预设项目的缺额数量为不为0时,则根据预设项目的达标率公式:计算出该预设项目的达标率。
当计算出的该预设项目的达标率未超过预设阈值(如100%)时,则判断该预设项目的缺额数量存在样本数据偏少或不足,需进一步获取相应数量的样本数据使该预设项目的样本数据相对于其它预设项目的样本数据不倾斜,确保各预设项目的样本数据可靠有效。例如,如下样本数据的18-25岁的预设项目达标率为25.0%,26-35岁的预设项目达标率为62.5%;
当预设项目的达标率超过预设阈值(如100%)时,则判断超过预设阈值所述预设项目获取到的样本数据充足,可不计入后续的样本数据获取环节,例如,如下样本数据的女性的预设项目达标率为112.5%,35岁以上的预设项目达标率为237.5%。
例如,如下的部分样本数据:
步骤S240,根据确定出的各缺额数量运算对应的未达标预设项目的挣值,筛选出数值最大的挣值对应的缺额数量作为各未达标预设项目的补抽基数,基于所述补抽基数从所述数据库中第二次抽取样本,得到第二样本集。
所述挣值(EV,Earned Value)是指项目获取过程中某阶段实际完成的获取量,用以代表并衡量从所述数据库中能够获取到最多的各未达标的预设项目的样本数据。
由于随机抽取到的第一样本集并不能确保抽取到的样本数据不偏差或者不倾斜,为克服这一困难,使获取到的样本数据可靠、有效,本实施例进一步对确定出各未达标预设项目对应的缺额数量进行相应样本数据的补充抽取。
进一步地,当所述第二次抽取样本中各未达标预设项目的样本抽取数量与对应的缺额数量的差值不为零时,重新计算所述差值不为零的各未达标预设项目的挣值,并再次抽取直到所述差值为零。
其中,所述挣值的计算公式为:Nn=Cnx{(∑Dn)-Dn}
其中,Nn表示未达标预设项目的挣值,Cn表示未达标预设项目的缺额数量,Dn表示所述缺额参数中的预设项目的获取率,n为正整数。
在一个实施例中,根据所述补抽基数从所述数据库中第二次抽取样本,得到第二样本集。为简要描述,仅列出部分参数,例如,18-25岁的缺额数量C1=500,对应的预设项目的获取率D1=30%;26-35岁的缺额数量C2=250,对应的预设项目的获取率D2=10%;一线城市的缺额数量C3=800,对应的预设项目的获取率D3=11%;需要说明的是,未达标预设项目的获取率即该预设项目所在的获取率。
计算第一次挣值为:
N1=C1 x(D2+D3)=500x(10%+11%)=105
N2=C2 x(D1+D3)=250x(30%+11%)=102.5
N3=C3 x(D1+D2)=800x(30%+10%)=320
其中N1,N2,N3表示挣值,挣值由大到小顺序是N3>N1>N2,以800为计算基数从所述数据库中获取出若干样本数据,得到的各未达标预设项目样本数据分别为:一线城市为:800份;18-25岁为:800x 30%=240份;26-35岁为:800x 10%=80份。
则获取后的各未达标预设项目的缺额数量为一线城市为:0份;18-25岁为:500-240=260份;26-35岁为:250-80=170份。
由此可判断出,存在多个未达标预设项目的样本抽取数量与对应的缺额数量的差值不为零,需重新计算挣值并再次抽取。
重新计算第二次挣值为:
N1=260x 10%=26
N2=170x 30%=51
挣值由大到小顺序是N2>N1,以170为计算基数再次从所述数据库中获取出若干样本数据,得到的各未达标预设项目样本数据分别为:26-35岁为:170份;18-25岁为:260x30%=78份。
则获取后的各未达标预设项目的缺额数量为:一线城市为:0份;26-35岁为:0份;18-25岁为:260-78=182份。
最后仅剩未达标预设项目为18-25岁的182份直接从所述数据库中获取,则获取后的各未达标预设项目的缺额数量为:一线城市为:0份;26-35岁为:0份;18-25岁为:0份。
需要说明的是,上述实施例仅描述样本数据获取过程的部分数据,以示意及便于理解所述第二获取步骤,包括但不限于上述实施例,对于其它样本数据的获取方式,本实施例也能涵盖并应用。
步骤S250,合并所述第一样本集和第二样本集得到目标样本集,生成所述目标样本集的数据分析报告。
在一个实施例中,对得到的所述第一样本集和第二样本集进行合并处理,得到目标样本集,所述目标样本集为本次业务调研的最终数据。通过参数化设置计算获取的所述第一样本集中的样本数据是否存在缺额,并对确定出的缺额数量进行再次获取,得到所述第二样本集,避免获取到的样本数据存在的数据倾斜或数据缺少的问题,增强了数据的有效性,确保目标样本集生成的数据分析报告的可靠性,有助于更加准确的辅助业务判断及决策。该数据分析报告还可以包括各种数据对比图表,例如柱形图、饼图、折线图、条形图等。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括数据处理程序,所述数据处理程序被处理器执行时,可实现如下操作:
将待处理数据切分为若干个数据块,为每个数据块标注一个标识后作为样本数据存储到数据库;
接收用户端输入的样本计算参数从所述数据库中第一次抽取样本,得到包含各预设项目数据的第一样本集;
根据所述第一样本集中的各预设项目数据进行PostGreSQL运算,筛选出各预设项目的缺额参数及达标率,当预设项目的达标率低于预设阈值时,判断低于所述预设阈值的预设项目未达标,并确定出各未达标预设项目对应的缺额数量;
根据确定出的各缺额数量运算对应的未达标预设项目的挣值,筛选出数值最大的挣值对应的缺额数量作为各未达标预设项目的补抽基数,基于所述补抽基数从所述数据库中第二次抽取样本,得到第二样本集;及
合并所述第一样本集和第二样本集得到目标样本集,生成所述目标样本集的数据分析报告。
本发明计算机可读存储介质具体实施方式与上述数据样本获取方法和数据样本获取装置各实施例基本相同,在此不作累述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种数据样本获取方法,其特征在于,该方法包括:
将待处理数据切分为若干个数据块,为每个数据块标注一个标识后作为样本数据存储到数据库;
接收用户端输入的样本计算参数从所述数据库中第一次抽取样本,得到包含各预设项目数据的第一样本集;
根据所述第一样本集中的各预设项目数据进行PostGreSQL运算,筛选出各预设项目的缺额参数及达标率,当预设项目的达标率低于预设阈值时,判断低于所述预设阈值的预设项目未达标,并确定出各未达标预设项目对应的缺额数量;
根据确定出的各缺额数量运算对应的未达标预设项目的挣值,筛选出数值最大的挣值对应的缺额数量作为各未达标预设项目的补抽基数,基于所述补抽基数从所述数据库中第二次抽取样本,得到第二样本集;及
合并所述第一样本集和第二样本集得到目标样本集,生成所述目标样本集的数据分析报告;
其中,所述达标率的计算公式为:
其中,K表示偏差因子,T表示样本抽取参数中的第一预设参数值,Dn表示所述缺额参数中的预设项目的获取率,Ln表示预设项目的缺额数量,n为正整数;
所述挣值的计算公式为:Nn=Cnx{(∑Dn)-Dn}
其中,Nn表示未达标预设项目的挣值,Cn表示未达标预设项目的缺额数量,Dn表示所述缺额参数中的预设项目的获取率,n为正整数。
2.如权利要求1所述的数据样本获取方法,其特征在于,所述接收用户端输入的样本计算参数从所述数据库中第一次抽取样本的步骤包括:
将所述数据库中的样本数据进行随机排列,生成每个样本数据对应的序号;
根据所述样本计算参数按预设抽取规则从所述数据库中抽取对应序号,以获取所述序号对应的样本数据;
集合所述序号对应的样本数据,得到第一样本集。
3.如权利要求1-2任意一项所述的数据样本获取方法,其特征在于,所述基于所述补抽基数从所述数据库中第二次抽取样本包括:
当所述第二次抽取样本中各未达标预设项目的样本抽取数量与对应的缺额数量的差值不为零时,重新计算所述差值不为零的各未达标预设项目的挣值,并再次抽取直到所述差值为零。
4.一种数据样本获取装置,其特征在于,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如下步骤:
处理步骤:将待处理数据切分为若干个数据块,为每个数据块标注一个标识后作为样本数据存储到数据库;
第一抽取步骤:接收用户端输入的样本计算参数从所述数据库中第一次抽取样本,得到包含各预设项目数据的第一样本集;
计算步骤:根据所述第一样本集中的各预设项目数据进行PostGreSQL运算,筛选出各预设项目的缺额参数及达标率,当预设项目的达标率低于预设阈值时,判断低于所述预设阈值的预设项目未达标,并确定出各未达标预设项目对应的缺额数量;
第二抽取步骤:根据确定出的各缺额数量运算对应的未达标预设项目的挣值,筛选出数值最大的挣值对应的缺额数量作为各未达标预设项目的补抽基数,基于所述补抽基数从所述数据库中第二次抽取样本,得到第二样本集;及
合并步骤:合并所述第一样本集和第二样本集得到目标样本集,生成所述目标样本集的数据分析报告;
其中,所述达标率的计算公式为:
其中,K表示偏差因子,T表示样本抽取参数中的第一预设参数值,Dn表示所述缺额参数中的预设项目的获取率,Ln表示预设项目的缺额数量,n为正整数;
所述挣值的计算公式为:Nn=Cnx{(∑Dn)-Dn}
其中,Nn表示未达标预设项目的挣值,Cn表示未达标预设项目的缺额数量,Dn表示所述缺额参数中的预设项目的获取率,n为正整数。
5.如权利要求4所述的数据样本获取装置,其特征在于,所述接收用户端输入的样本计算参数从所述数据库中第一次抽取样本的步骤包括:
将所述数据库中的样本数据进行随机排列,生成每个样本数据对应的序号;
根据所述样本计算参数按预设抽取规则从所述数据库中抽取对应序号,以获取所述序号对应的样本数据;
集合所述序号对应的样本数据,得到第一样本集。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括数据处理程序,所述数据处理程序被处理器执行时,可实现如权利要求1至3中任意一项所述的数据样本获取方法的步骤。
CN201911139154.8A 2019-11-19 2019-11-19 数据样本获取方法、装置及存储介质 Active CN111061999B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911139154.8A CN111061999B (zh) 2019-11-19 2019-11-19 数据样本获取方法、装置及存储介质
PCT/CN2020/098953 WO2021098214A1 (zh) 2019-11-19 2020-06-29 数据样本获取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911139154.8A CN111061999B (zh) 2019-11-19 2019-11-19 数据样本获取方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111061999A CN111061999A (zh) 2020-04-24
CN111061999B true CN111061999B (zh) 2023-08-22

Family

ID=70297973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911139154.8A Active CN111061999B (zh) 2019-11-19 2019-11-19 数据样本获取方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN111061999B (zh)
WO (1) WO2021098214A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061999B (zh) * 2019-11-19 2023-08-22 平安科技(深圳)有限公司 数据样本获取方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997420A (zh) * 2016-01-22 2017-08-01 北京四维图新科技股份有限公司 智能抽样检测地图数据的方法及装置
CN107704436A (zh) * 2017-10-30 2018-02-16 平安科技(深圳)有限公司 数据抽样方法、终端、设备以及计算机可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7543006B2 (en) * 2006-08-31 2009-06-02 International Business Machines Corporation Flexible, efficient and scalable sampling
CN105589683B (zh) * 2014-10-22 2020-08-11 腾讯科技(深圳)有限公司 样本抽取方法和装置
US9916358B2 (en) * 2016-06-21 2018-03-13 Erland Wittkotter Sample data extraction
CN107577649A (zh) * 2017-09-26 2018-01-12 广州供电局有限公司 缺失数据的插补处理方法及装置
WO2019075599A1 (zh) * 2017-10-16 2019-04-25 深圳乐信软件技术有限公司 数据填补方法和装置
CN109033236A (zh) * 2018-07-04 2018-12-18 中国农业银行股份有限公司 一种数据抽样方法及装置
CN109947752A (zh) * 2019-01-28 2019-06-28 西南民族大学 一种基于DeepDive的自动数据清洗方法
CN111061999B (zh) * 2019-11-19 2023-08-22 平安科技(深圳)有限公司 数据样本获取方法、装置及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997420A (zh) * 2016-01-22 2017-08-01 北京四维图新科技股份有限公司 智能抽样检测地图数据的方法及装置
CN107704436A (zh) * 2017-10-30 2018-02-16 平安科技(深圳)有限公司 数据抽样方法、终端、设备以及计算机可读存储介质

Also Published As

Publication number Publication date
WO2021098214A1 (zh) 2021-05-27
CN111061999A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN111401609A (zh) 车流量时间序列的预测方法及预测装置
CN110647913B (zh) 基于聚类算法的异常数据检测方法及装置
CN111353549B (zh) 图像标签的核验方法及装置、电子设备、存储介质
CN113608916B (zh) 故障诊断的方法、装置、电子设备及存储介质
CN110634021A (zh) 基于大数据的车辆估值方法、系统、设备及可读存储介质
CN111061999B (zh) 数据样本获取方法、装置及存储介质
CN112835682B (zh) 一种数据处理方法、装置、计算机设备和可读存储介质
CN113723467A (zh) 用于缺陷检测的样本收集方法、装置和设备
CN111754261B (zh) 一种车辆出租意愿的评估方法、装置及终端设备
CN111401438B (zh) 图像分拣方法、装置及系统
CN109491970B (zh) 面向云存储的不良图片检测方法、装置及存储介质
CN116137061A (zh) 数量统计模型的训练方法、装置、电子设备及存储介质
CN113434680A (zh) 基于坐席数据的用户意愿分析方法、装置、电子设备
CN114202250A (zh) 一种企业评估系统、方法及电子设备
CN114707029A (zh) 一种图谱数据的处理方法、装置及电子设备
CN114049686A (zh) 签名识别模型训练方法、装置及电子设备
CN112671756A (zh) 一种过滤异常流量的方法及装置
CN112950298A (zh) 一种恶意订单识别方法、装置及存储介质
CN116861101B (zh) 用于社交匹配的数据处理方法和装置
CN113254787B (zh) 事件分析方法、装置、计算机设备及存储介质
CN112464892B (zh) 票据区域识别方法、装置、电子设备及可读存储介质
CN115080746A (zh) 数据识别方法、系统和计算机设备
CN110647386B (zh) 数据处理方法、装置及计算机设备、存储介质
CN113672444A (zh) 一种芯片检测数据采集方法
CN118069884A (zh) 一种视频分析方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant