CN107704436A - 数据抽样方法、终端、设备以及计算机可读存储介质 - Google Patents

数据抽样方法、终端、设备以及计算机可读存储介质 Download PDF

Info

Publication number
CN107704436A
CN107704436A CN201711034799.6A CN201711034799A CN107704436A CN 107704436 A CN107704436 A CN 107704436A CN 201711034799 A CN201711034799 A CN 201711034799A CN 107704436 A CN107704436 A CN 107704436A
Authority
CN
China
Prior art keywords
sampling
data
sample
rule
samples number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711034799.6A
Other languages
English (en)
Inventor
胡超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201711034799.6A priority Critical patent/CN107704436A/zh
Priority to PCT/CN2018/074933 priority patent/WO2019085307A1/zh
Publication of CN107704436A publication Critical patent/CN107704436A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

本发明实施例公开了一种数据抽样方法、终端、设备以及计算机可读存储介质,其中,所述方法包括:预先定义针对数据抽样的样本抽取规则,若检测到用户进行数据采集,获取用户所采集的待抽样数据,读取并解析预先定义的样本抽取规则,根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数,从而解决了相关技术中质检抽样标准不统一的问题,提高了质检数据抽取的精确度。

Description

数据抽样方法、终端、设备以及计算机可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据抽样方法、终端、设备以及计算机可读存储介质。
背景技术
目前,存在有很多质检技术,但是由于质检工作的复杂性,产品的质检问题面临着更高的难度,现有的质检方式多为由质检人员进行人工抽取随机的产品进行质检,这种质检方式不能针对特定的业务类型和业务情况进行抽取,因此不具备科学性和代表性,并且其中的人为因素标准把握不一,不能针对团队侧重质检、质检抽样总量不能灵活调整以及特定场景的质检数据无法灵活调整,使得质检工作仍存在不标准不统一的问题。
发明内容
有鉴于此,本发明实施例提供一种数据抽样方法、终端、设备以及计算机可读存储介质,解决了相关技术中质检抽样标准不统一的问题,提高了质检数据抽取的精确度。
第一方面,本发明实施例提供了一种数据抽样方法,该方法包括:
预先定义针对数据抽样的样本抽取规则;
若检测到用户进行数据采集,获取用户所采集的待抽样数据;
读取并解析预先定义的样本抽取规则;
根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数。
进一步地,所述预先定义针对数据抽样的样本抽取规则,包括:
选择进行规则定义的程序源;
根据所述程序源创建所述样本抽取规则。
进一步地,所述样本抽取规则包括默认抽取规则和指定抽取规则,其中,所述默认抽取规则是选择需要抽取的样本总量,并根据样本总量按照一定的分配权重设置抽取比例;所述指定抽取规则是选择需要抽取的样本抽取分量,对所抽取的样本抽取分量设置优先级。
进一步地,所述根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数,包括:
利用所述指定抽取规则并按照第一预设执行逻辑对所述待抽样数据进行抽取以得到第一抽样样本数;
利用所述默认抽取规则并按照第二预设执行逻辑对剩余的待抽样数据进行抽取以得到第二抽样样本数;
统计所述第一抽样样本数和第二抽样样本数并得到所述抽样样本数;
将所述抽样样本数保存至预设的文档中。
进一步地,所述每个待抽样数据包括产品ID、产品名称、产品所在地以及产品保额;所述获取用户所采集的待抽样数据,包括:
获取所述产品ID、产品名称、产品所在地以及产品保额。
另一方面,本发明实施例提供了一种数据抽样终端,所述终端包括:
定义单元,用于预先定义针对数据抽样的样本抽取规则;
获取单元,用于若检测到用户进行数据采集,获取用户所采集的待抽样数据;
读取单元,用于读取并解析预先定义的样本抽取规则;
处理单元,用于根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数。
进一步地,所述定义单元,包括:
选择单元,用于选择进行规则定义的程序源;
创建单元,用于根据所述程序源创建所述样本抽取规则。
进一步地,所述样本抽取规则包括默认抽取规则和指定抽取规则,其中,所述默认抽取规则是选择需要抽取的样本总量,并根据样本总量按照一定的分配权重设置抽取比例;所述指定抽取规则是选择需要抽取的样本抽取分量,对所抽取的样本抽取分量设置优先级。
进一步地,所述处理单元,包括:
第一抽取单元,用于利用所述指定抽取规则并按照第一预设执行逻辑对所述待抽样数据进行抽取以得到第一抽样样本数;
第二抽取单元,用于利用所述默认抽取规则并按照第二预设执行逻辑对剩余的待抽样数据进行抽取以得到第二抽样样本数;
统计单元,用于统计所述第一抽样样本数和第二抽样样本数并得到所述抽样样本数;
保存单元,用于将所述抽样样本数保存至预设的文档中。
进一步地,所述每个待抽样数据包括产品ID、产品名称、产品所在地以及产品保额;所述获取单元具体用于:获取所述产品ID、产品名称、产品所在地以及产品保额。
又一方面,本发明实施例还提供了一种数据抽样设备,包括:
存储器,用于存储实现数据抽样方法的程序;以及
处理器,用于运行所述存储器中存储的实现数据抽样方法的程序,以执行如上所述方法。
再一方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行,以实现如上所述的方法。
本发明实施例通过预先定义针对数据抽样的样本抽取规则,若检测到用户进行数据采集,获取用户所采集的待抽样数据,读取并解析预先定义的样本抽取规则,根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数,从而解决了相关技术中质检抽样标准不统一的问题,提高了质检数据抽取的精确度。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据抽样方法的示意流程图;
图2是本发明实施例提供的一种数据抽样方法的示意流程图;
图3是本发明另一实施例提供的一种数据抽样方法的示意流程图;
图4是本发明实施例提供的一种数据抽样终端的示意性框图;
图5是本发明实施例提供的一种数据抽样终端的另一示意性框图;
图6是本发明实施例提供的一种数据抽样终端的另一示意性框图;
图7是本发明实施例提供的一种移数据抽样设备的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
请参阅图1,图1为本发明实施例提供的一种数据抽样方法的示意流程图。该方法可以运行在智能手机(如Android手机、IOS手机等)、平板电脑、笔记本电脑以及智能设备等终端中。本发明实施例所述的数据抽样方法可以通过预先定义的抽取规则对数据进行抽样,提高质检数据抽取的精确度。图1是本发明实施例提供的数据抽样方法的示意流程图。该方法包括步骤S101~S104。
S101,预先定义针对数据抽样的样本抽取规则。
在本发明实施例中,所述样本抽取规则可以由用户自行定义,用户可以根据业务需要制定样本抽取规则,在本实施例中,根据平安金融产品销售业务的情况制定所销售金融产品的样本抽取规则,所述样本抽取规则包括默认抽取规则和指定抽取规则,其中,所述默认抽取规则指的是选择需要抽取的样本总量,并根据样本总量按照一定的分配权重设置抽取比例,该样本总量即为用户所需要抽样的抽本总量,如金融产品的样本总量为2000,因为在平安金融产品销售业务中销售团队数量有多个,不同的销售团队销售业绩不同,表现为有的金融产品销售量很高,也有的销售量为0(在指定时间段内,如1个月),因此针对不同销售团队的销售情况按照一定的抽取比例去抽取样本以保证样本抽取的合理性;所述指定抽取规则指的是选择需要抽取的样本抽取分量,对所抽取的样本抽取分量设置优先级,例如,针对金融产品A,金融产品A产生的地域为上海、金融产品A的保额大于100000,便可以调金融产品A需要抽取的样本抽取分量为300,优先级为1(即等级最高);针对金融产品B,金融产品B产生的地域为四川、金融产品B的保额大于200000,便可以设置需要抽取的样本抽取分量为500,优先级为2(即等级列次)。
S102,若检测到用户进行数据采集,获取用户所采集的待抽样数据。
在本发明实施例中,用户进行数据采集指的是连接平安金融产品销售系统的数据库并对数据库中的数据进行采集,其中,用户可以通过JDBC方式连接数据库,并获取数据库中的数据表,以及读取数据表中的字段和字段属性等等,从而得到待抽样数据。
在一些实施例中,所述每个待抽样数据包括待抽样数据的ID、数据名、地域以及保额,所述获取用户所采集的待抽样数据,包括:获取所述待抽样数据的ID、数据名、地域以及保额。例如,在平安金融产品销售系统上,针对每种金融产品均包含以下产品信息,如产品ID、产品名称、产品所在地以及产品保额额度。
需要说明的是,在本实施例中,通过JDBC方式连接mysql数据库采集数据,其中,JDBC连接mysql数据库的执行逻辑如下:1、加载JDBC驱动程序,即在连接数据库之前,首先需要加载想要连接的数据库的驱动到JVM(Java虚拟机),这通过java.lang.Class类的静态方法forName(String className)实现;2、提供JDBC连接的URL,在连接URL中定义了连接数据库时的协议、子协议以及数据源标识;3、创建数据库的连接,在连接数据库时,需要向java.sql.DriverManager请求并获取Connection对象,该Connection对象代表一个数据库的连接,然后使用DriverManager的getConnectin(String url,String username,Stringpassword)方法传入指定的欲连接的数据库的路径、数据库的用户名和密码来获得;4、创建一个Statement,即要执行SQL语句,必须获取java.sql.Statement实例,其中该Statement实例分为以下几种类型:执行静态SQL语句、执行动态SQL语句、执行数据库存储过程;5、执行SQL语句,在Statement接口中提供了三种执行SQL语句的方法,分别是executeQuery、executeUpdate和execute,其中ResultSet executeQuery(String sqlString):执行查询数据库的SQL语句,返回一个结果集(ResultSet)对象;int executeUpdate(StringsqlString):用于执行INSERT、UPDATE或DELETE语句以及SQL DDL语句,如:CREATE TABLE和DROP TABLE等;execute(sqlString):用于执行返回多个结果集、多个更新计数或二者组合的语句;6、处理结果,分别为执行更新返回的是本次操作影响到的记录数、执行查询返回的结果为一个ResultSet对象,其中,ResultSet包含符合SQL语句中条件的所有行,并且它通过一套get方法提供了对这些行中数据的访问,使用结果集(ResultSet)对象的访问方法获取数据;7、关闭JDBC对象,操作完成以后要把所有使用的JDBC对象全都关闭,以释放JDBC资源,关闭顺序和声明顺序相反,分别为:关闭记录集、关闭声明、关闭连接对象。
S103,读取并解析预先定义的样本抽取规则。
在本发明实施例中,读取所有的样本抽取规则,并解析所读取的样本抽取规则得到所述样本抽取规则的类型,根据所解析的样本抽取规则的类型确定样本抽取规则所对应的执行逻辑,并根据相对应的程序源执行该规则,所述样本抽取规则便会按照程序源中所规定的规则对数据进行处理。例如,读取所有的样本抽取规则,并对该样本抽取规则进行解析得到的类型包括默认抽取规则和指定抽取规则,然后确定默认抽取规则和指定抽取规则的执行逻辑,其中,默认抽取规则的执行逻辑为:选择需要抽取的样本总量,然后样本总量按照一定的分配权重设置抽取比例;指定抽取规则的执行逻辑为:选择需要抽取的样本抽取分量,对所抽取的样本抽取分量设置优先级。最后,通过编写调用程序代码或者执行代码等相关程序源执行所述默认抽取规则和指定抽取规则。
需要说明的是,由于所述样本抽取规则由用户根据业务需要进行制定,在执行所述样本抽取规则时,用户可以选择所有的样本抽取规则对待抽样数据进行处理,也可以根据需要选择所述样本抽取规则中的一项或者多项规则对数据进行处理。
S104,根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数。
在本发明实施例中,根据所述样本抽取规则的执行逻辑对待抽样数据进行处理以得到抽样样本数,本实施例中,若用户选择所有的样本抽取规则对待抽样数据进行处理,所述样本抽取规则的执行逻辑为:先使用指定抽取规则并按照所述指定抽取规则的执行逻辑对所述待抽样数据进行抽取以得到第一抽样样本数,再使用默认抽取规则并按照所述默认抽取规则的执行逻辑对剩余的待抽样数据进行抽取以得到第二抽样样本数,其中,使用指定抽取规则并按照所述指定抽取规则的执行逻辑对所述待抽样数据进行抽取以得到第一抽样样本数,即,按照优先级的顺序先抽取指定抽取目标中的抽样样本数,并且在抽取过程中每抽取一项均需进行标记,以避免同一抽取目标多次被抽中,最后得到第一抽样样本数;使用默认抽取规则并按照所述默认抽取规则的执行逻辑对剩余的待抽样数据进行抽取以得到第二抽样样本数,即,使用默认抽取规则的执行逻辑对剩余的待抽样数据进行抽取,可以按照以下计算公式进行抽取:
a.计算计划抽取量PN=样本总量-指定抽取规则已抽取量;
b.计算团队平均抽取,计算每个团队的任务总量,并算出团队计划抽取量=任务总量*抽取比例,向下取整;
c.若团队计划抽取量>计划抽取量PN,按差额比例百分比降低团队计划抽取量;
d.调整后,若团队计划抽取量<=计划抽取量PN,按计划抽取量在每个团队随机抽取满足数量的任务,并标记已抽取;
e.余量抽取,随机在还有剩余未抽取任务的团队补足总量差额的任务,标记已抽取;
f.得到第二抽样样本数。
最后,将第一抽样样本数和第二抽样样本数进行求和得到本发明实施例所述的抽样样本数。
进一步地,如图2所示,步骤S104包括步骤S201~S204。
S201,利用所述指定抽取规则并按照第一预设执行逻辑对所述待抽样数据进行抽取以得到第一抽样样本数。
在本发明实施例中,所述第一预设执行逻辑即为所述指定抽取规则的执行逻辑,也就是说所述第一预设执行逻辑为按照优先级的顺序先抽取指定抽取目标中的抽样样本数,并且在抽取过程中每抽取一项均需进行标记,以避免同一抽取目标多次被抽中,最后得到第一抽样样本数。
S202,利用所述默认抽取规则并按照第二预设执行逻辑对剩余的待抽样数据进行抽取以得到第二抽样样本数。
在本发明实施例中,所述第二预设执行逻辑即为所述默认抽取规则的执行逻辑,也就是说所述第二预设执行逻辑为在剩余的待抽样数据中选择需要抽取的样本总量,并根据样本总量按照一定的分配权重设置抽取比例进行抽取,最后得到第二抽样样本数。
S203,统计所述第一抽样样本数和第二抽样样本数并得到所述抽样样本数。
在本发明实施例中,统计并得到所述抽样样本数的方法为将所述第一抽样样本数和第二抽样样本数进行加总得到,即将第一抽样样本数和第二抽样样本数进行求和得到本发明实施例所述的抽样样本数。
S204,将所述抽样样本数保存至预设的文档中。
在本发明实施例中,所述预设文档可以为word文档,也可以为excel文档,具体的文档格式在此不作限定,并且可以根据实际需要由用户自行定义,该预设文档保存着每次统计时所产生的抽样样本数。
由以上可见,本发明实施例通过预先定义针对数据抽样的样本抽取规则,若检测到用户进行数据采集,获取用户所采集的待抽样数据,读取并解析预先定义的样本抽取规则,根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数,从而解决了相关技术中质检抽样标准不统一的问题,提高了质检数据抽取的精确度。
请参阅图3,图3是本发明实施例提供的一种数据抽样方法的示意流程图。该方法可以运行在智能手机(如Android手机、IOS手机等)、平板电脑、笔记本电脑以及智能设备等终端中。如图3所示,该方法包括步骤S301~S305。
S301,选择进行规则定义的程序源。
在本发明实施例中,用户通过选择与样本抽取规则相对应的程序源来定义规则,即用户可以编写程序源代码,在创建样本抽取规则之前,用户可以选择与样本抽取规则相对应的程序源代码编写样本抽取规则。
S302,根据所述程序源创建所述样本抽取规则。
在本发明实施例中,程序源代码多种多样,不同的程序源代码可以用于创建同一种样本抽取规则,其中,一种样本抽取规则可以由一种程序源代码进行创建,也可以由多种程序源代码进行创建,具体的程序源代码的选择在此不作限定。
S303,若检测到用户进行数据采集,获取用户所采集的待抽样数据。
在本发明实施例中,用户进行数据采集指的是连接平安金融产品销售系统的数据库并对数据库中的数据进行采集,其中,用户可以通过JDBC方式连接数据库,并获取数据库中的数据表,以及读取数据表中的字段和字段属性等等,从而得到待抽样数据。
需要说明的是,在本实施例中,通过JDBC方式连接mysql数据库采集数据,其中,JDBC连接mysql数据库的执行逻辑如下:1、加载JDBC驱动程序,即在连接数据库之前,首先需要加载想要连接的数据库的驱动到JVM(Java虚拟机),这通过java.lang.Class类的静态方法forName(String className)实现;2、提供JDBC连接的URL,在连接URL中定义了连接数据库时的协议、子协议以及数据源标识;3、创建数据库的连接,在连接数据库时,需要向java.sql.DriverManager请求并获取Connection对象,该Connection对象代表一个数据库的连接,然后使用DriverManager的getConnectin(String url,String username,Stringpassword)方法传入指定的欲连接的数据库的路径、数据库的用户名和密码来获得;4、创建一个Statement,即要执行SQL语句,必须获取java.sql.Statement实例,其中该Statement实例分为以下几种类型:执行静态SQL语句、执行动态SQL语句、执行数据库存储过程;5、执行SQL语句,在Statement接口中提供了三种执行SQL语句的方法,分别是executeQuery、executeUpdate和execute,其中ResultSet executeQuery(String sqlString):执行查询数据库的SQL语句,返回一个结果集(ResultSet)对象;int executeUpdate(StringsqlString):用于执行INSERT、UPDATE或DELETE语句以及SQL DDL语句,如:CREATE TABLE和DROP TABLE等;execute(sqlString):用于执行返回多个结果集、多个更新计数或二者组合的语句;6、处理结果,分别为执行更新返回的是本次操作影响到的记录数、执行查询返回的结果为一个ResultSet对象,其中,ResultSet包含符合SQL语句中条件的所有行,并且它通过一套get方法提供了对这些行中数据的访问,使用结果集(ResultSet)对象的访问方法获取数据;7、关闭JDBC对象,操作完成以后要把所有使用的JDBC对象全都关闭,以释放JDBC资源,关闭顺序和声明顺序相反,分别为:关闭记录集、关闭声明、关闭连接对象。
S304,读取并解析预先定义的样本抽取规则。
在本发明实施例中,读取所有的样本抽取规则,并解析所读取的样本抽取规则得到所述样本抽取规则的类型,根据所解析的样本抽取规则的类型确定样本抽取规则所对应的执行逻辑,并根据相对应的程序源执行该规则,所述样本抽取规则便会按照程序源中所规定的规则对数据进行处理。例如,读取所有的样本抽取规则,并对该样本抽取规则进行解析得到的类型包括默认抽取规则和指定抽取规则,然后确定默认抽取规则和指定抽取规则的执行逻辑,其中,默认抽取规则的执行逻辑为:选择需要抽取的样本总量,然后样本总量按照一定的分配权重设置抽取比例;指定抽取规则的执行逻辑为:选择需要抽取的样本抽取分量,对所抽取的样本抽取分量设置优先级。最后,通过编写调用程序代码或者执行代码等相关程序源执行所述默认抽取规则和指定抽取规则。
需要说明的是,由于所述样本抽取规则由用户根据业务需要进行制定,在执行所述样本抽取规则时,用户可以选择所有的样本抽取规则对待抽样数据进行处理,也可以根据需要选择所述样本抽取规则中的一项或者多项规则对数据进行处理。
S305,根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数。
在本发明实施例中,根据所述样本抽取规则的执行逻辑对待抽样数据进行处理以得到抽样样本数,本实施例中,若用户选择所有的样本抽取规则对待抽样数据进行处理,所述样本抽取规则的执行逻辑为:先使用指定抽取规则并按照所述指定抽取规则的执行逻辑对所述待抽样数据进行抽取以得到第一抽样样本数,再使用默认抽取规则并按照所述默认抽取规则的执行逻辑对剩余的待抽样数据进行抽取以得到第二抽样样本数,其中,使用指定抽取规则并按照所述指定抽取规则的执行逻辑对所述待抽样数据进行抽取以得到第一抽样样本数,即,按照优先级的顺序先抽取指定抽取目标中的抽样样本数,并且在抽取过程中每抽取一项均需进行标记,以避免同一抽取目标多次被抽中,最后得到第一抽样样本数;使用默认抽取规则并按照所述默认抽取规则的执行逻辑对剩余的待抽样数据进行抽取以得到第二抽样样本数,即,使用默认抽取规则的执行逻辑对剩余的待抽样数据进行抽取,可以按照以下计算公式进行抽取:
a.计算计划抽取量PN=样本总量-指定抽取规则已抽取量;
b.计算团队平均抽取,计算每个团队的任务总量,并算出团队计划抽取量=任务总量*抽取比例,向下取整;
c.若团队计划抽取量>计划抽取量PN,按差额比例百分比降低团队计划抽取量;
d.调整后,若团队计划抽取量<=计划抽取量PN,按计划抽取量在每个团队随机抽取满足数量的任务,并标记已抽取;
e.余量抽取,随机在还有剩余未抽取任务的团队补足总量差额的任务,标记已抽取;
f.得到第二抽样样本数。
最后,将第一抽样样本数和第二抽样样本数进行求和得到本发明实施例所述的抽样样本数。
请参阅图4,对应上述一种数据抽样方法,本发明实施例还提出一种数据抽样终端,该终端100包括:定义单元101、获取单元102、读取单元103、处理单元104。
其中,所述定义单元101,用于预先定义针对数据抽样的样本抽取规则。在本发明实施例中,所述样本抽取规则可以由用户自行定义,用户可以根据业务需要制定样本抽取规则,在本实施例中,根据平安金融产品销售业务的情况制定所销售金融产品的样本抽取规则,所述样本抽取规则包括默认抽取规则和指定抽取规则,其中,所述默认抽取规则指的是选择需要抽取的样本总量,并根据样本总量按照一定的分配权重设置抽取比例,该样本总量即为用户所需要抽样的抽本总量,如金融产品的样本总量为2000,因为在平安金融产品销售业务中销售团队数量有多个,不同的销售团队销售业绩不同,表现为有的金融产品销售量很高,也有的销售量为0(在指定时间段内,如1个月),因此针对不同销售团队的销售情况按照一定的抽取比例去抽取样本以保证样本抽取的合理性;所述指定抽取规则指的是选择需要抽取的样本抽取分量,对所抽取的样本抽取分量设置优先级,例如,针对金融产品A,金融产品A产生的地域为上海、金融产品A的保额大于100000,便可以调金融产品A需要抽取的样本抽取分量为300,优先级为1(即等级最高);针对金融产品B,金融产品B产生的地域为四川、金融产品B的保额大于200000,便可以设置需要抽取的样本抽取分量为500,优先级为2(即等级列次)。
获取单元102,用于若检测到用户进行数据采集,获取用户所采集的待抽样数据。在本发明实施例中,用户进行数据采集指的是连接平安金融产品销售系统的数据库并对数据库中的数据进行采集,其中,用户可以通过JDBC方式连接数据库,并获取数据库中的数据表,以及读取数据表中的字段和字段属性等等,从而得到待抽样数据。
在一些实施例中,所述每个待抽样数据包括待抽样数据的ID、数据名、地域以及保额,所述获取用户所采集的待抽样数据,包括:获取所述待抽样数据的ID、数据名、地域以及保额。例如,在平安金融产品销售系统上,针对每种金融产品均包含以下产品信息,如产品ID、产品名称、产品所在地以及产品保额额度。
需要说明的是,在本实施例中,通过JDBC方式连接mysql数据库采集数据,其中,JDBC连接mysql数据库的执行逻辑如下:1、加载JDBC驱动程序,即在连接数据库之前,首先需要加载想要连接的数据库的驱动到JVM(Java虚拟机),这通过java.lang.Class类的静态方法forName(String className)实现;2、提供JDBC连接的URL,在连接URL中定义了连接数据库时的协议、子协议以及数据源标识;3、创建数据库的连接,在连接数据库时,需要向java.sql.DriverManager请求并获取Connection对象,该Connection对象代表一个数据库的连接,然后使用DriverManager的getConnectin(String url,String username,Stringpassword)方法传入指定的欲连接的数据库的路径、数据库的用户名和密码来获得;4、创建一个Statement,即要执行SQL语句,必须获取java.sql.Statement实例,其中该Statement实例分为以下几种类型:执行静态SQL语句、执行动态SQL语句、执行数据库存储过程;5、执行SQL语句,在Statement接口中提供了三种执行SQL语句的方法,分别是executeQuery、executeUpdate和execute,其中ResultSet executeQuery(String sqlString):执行查询数据库的SQL语句,返回一个结果集(ResultSet)对象;int executeUpdate(StringsqlString):用于执行INSERT、UPDATE或DELETE语句以及SQL DDL语句,如:CREATE TABLE和DROP TABLE等;execute(sqlString):用于执行返回多个结果集、多个更新计数或二者组合的语句;6、处理结果,分别为执行更新返回的是本次操作影响到的记录数、执行查询返回的结果为一个ResultSet对象,其中,ResultSet包含符合SQL语句中条件的所有行,并且它通过一套get方法提供了对这些行中数据的访问,使用结果集(ResultSet)对象的访问方法获取数据;7、关闭JDBC对象,操作完成以后要把所有使用的JDBC对象全都关闭,以释放JDBC资源,关闭顺序和声明顺序相反,分别为:关闭记录集、关闭声明、关闭连接对象。
读取单元103,用于读取并解析预先定义的样本抽取规则。在本发明实施例中,读取所有的样本抽取规则,并解析所读取的样本抽取规则得到所述样本抽取规则的类型,根据所解析的样本抽取规则的类型确定样本抽取规则所对应的执行逻辑,并根据相对应的程序源执行该规则,所述样本抽取规则便会按照程序源中所规定的规则对数据进行处理。例如,读取所有的样本抽取规则,并对该样本抽取规则进行解析得到的类型包括默认抽取规则和指定抽取规则,然后确定默认抽取规则和指定抽取规则的执行逻辑,其中,默认抽取规则的执行逻辑为:选择需要抽取的样本总量,然后样本总量按照一定的分配权重设置抽取比例;指定抽取规则的执行逻辑为:选择需要抽取的样本抽取分量,对所抽取的样本抽取分量设置优先级。最后,通过编写调用程序代码或者执行代码等相关程序源执行所述默认抽取规则和指定抽取规则。
需要说明的是,由于所述样本抽取规则由用户根据业务需要进行制定,在执行所述样本抽取规则时,用户可以选择所有的样本抽取规则对待抽样数据进行处理,也可以根据需要选择所述样本抽取规则中的一项或者多项规则对数据进行处理。
处理单元104,用于根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数。在本发明实施例中,根据所述样本抽取规则的执行逻辑对待抽样数据进行处理以得到抽样样本数,本实施例中,若用户选择所有的样本抽取规则对待抽样数据进行处理,所述样本抽取规则的执行逻辑为:先使用指定抽取规则并按照所述指定抽取规则的执行逻辑对所述待抽样数据进行抽取以得到第一抽样样本数,再使用默认抽取规则并按照所述默认抽取规则的执行逻辑对剩余的待抽样数据进行抽取以得到第二抽样样本数,其中,使用指定抽取规则并按照所述指定抽取规则的执行逻辑对所述待抽样数据进行抽取以得到第一抽样样本数,即,按照优先级的顺序先抽取指定抽取目标中的抽样样本数,并且在抽取过程中每抽取一项均需进行标记,以避免同一抽取目标多次被抽中,最后得到第一抽样样本数;使用默认抽取规则并按照所述默认抽取规则的执行逻辑对剩余的待抽样数据进行抽取以得到第二抽样样本数,即,使用默认抽取规则的执行逻辑对剩余的待抽样数据进行抽取,可以按照以下计算公式进行抽取:
a.计算计划抽取量PN=样本总量-指定抽取规则已抽取量;
b.计算团队平均抽取,计算每个团队的任务总量,并算出团队计划抽取量=任务总量*抽取比例,向下取整;
c.若团队计划抽取量>计划抽取量PN,按差额比例百分比降低团队计划抽取量;
d.调整后,若团队计划抽取量<=计划抽取量PN,按计划抽取量在每个团队随机抽取满足数量的任务,并标记已抽取;
e.余量抽取,随机在还有剩余未抽取任务的团队补足总量差额的任务,标记已抽取;
f.得到第二抽样样本数。
最后,将第一抽样样本数和第二抽样样本数进行求和得到本发明实施例所述的抽样样本数。
由以上可见,本发明实施例通过预先定义针对数据抽样的样本抽取规则,若检测到用户进行数据采集,获取用户所采集的待抽样数据,读取并解析预先定义的样本抽取规则,根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数,从而解决了相关技术中质检抽样标准不统一的问题,提高了质检数据抽取的精确度。
如图5所示,所述处理单元104,包括:
第一抽取单元1041,用于利用所述指定抽取规则并按照第一预设执行逻辑对所述待抽样数据进行抽取以得到第一抽样样本数。在本发明实施例中,所述第一预设执行逻辑即为所述指定抽取规则的执行逻辑,也就是说所述第一预设执行逻辑为按照优先级的顺序先抽取指定抽取目标中的抽样样本数,并且在抽取过程中每抽取一项均需进行标记,以避免同一抽取目标多次被抽中,最后得到第一抽样样本数。
第二抽取单元1042,用于利用所述默认抽取规则并按照第二预设执行逻辑对剩余的待抽样数据进行抽取以得到第二抽样样本数。在本发明实施例中,所述第二预设执行逻辑即为所述默认抽取规则的执行逻辑,也就是说所述第二预设执行逻辑为在剩余的待抽样数据中选择需要抽取的样本总量,并根据样本总量按照一定的分配权重设置抽取比例进行抽取,最后得到第二抽样样本数。
统计单元1043,用于统计所述第一抽样样本数和第二抽样样本数并得到所述抽样样本数。在本发明实施例中,统计并得到所述抽样样本数的方法为将所述第一抽样样本数和第二抽样样本数进行加总得到,即将第一抽样样本数和第二抽样样本数进行求和得到本发明实施例所述的抽样样本数。
保存单元1044,用于将所述抽样样本数保存至预设的文档中。在本发明实施例中,所述预设文档可以为word文档,也可以为excel文档,具体的文档格式在此不作限定,并且可以根据实际需要由用户自行定义,该预设文档保存着每次统计时所产生的抽样样本数。
请参阅图6,对应上述一种数据抽样方法,本发明实施例还提出一种数据抽样终端,该终端200包括:选择单元201、创建单元202、获取单元203、读取单元204、处理单元205。
其中,所述选择单元201,用于选择进行规则定义的程序源。在本发明实施例中,用户通过选择与样本抽取规则相对应的程序源来定义规则,即用户可以编写程序源代码,在创建样本抽取规则之前,用户可以选择与样本抽取规则相对应的程序源代码编写样本抽取规则。
创建单元202,用于根据所述程序源创建所述样本抽取规则。在本发明实施例中,程序源代码多种多样,不同的程序源代码可以用于创建同一种样本抽取规则,其中,一种样本抽取规则可以由一种程序源代码进行创建,也可以由多种程序源代码进行创建,具体的程序源代码的选择在此不作限定。
获取单元203,若检测到用户进行数据采集,获取用户所采集的待抽样数据。在本发明实施例中,用户进行数据采集指的是连接平安金融产品销售系统的数据库并对数据库中的数据进行采集,其中,用户可以通过JDBC方式连接数据库,并获取数据库中的数据表,以及读取数据表中的字段和字段属性等等,从而得到待抽样数据。
需要说明的是,在本实施例中,通过JDBC方式连接mysql数据库采集数据,其中,JDBC连接mysql数据库的执行逻辑如下:1、加载JDBC驱动程序,即在连接数据库之前,首先需要加载想要连接的数据库的驱动到JVM(Java虚拟机),这通过java.lang.Class类的静态方法forName(String className)实现;2、提供JDBC连接的URL,在连接URL中定义了连接数据库时的协议、子协议以及数据源标识;3、创建数据库的连接,在连接数据库时,需要向java.sql.DriverManager请求并获取Connection对象,该Connection对象代表一个数据库的连接,然后使用DriverManager的getConnectin(String url,String username,Stringpassword)方法传入指定的欲连接的数据库的路径、数据库的用户名和密码来获得;4、创建一个Statement,即要执行SQL语句,必须获取java.sql.Statement实例,其中该Statement实例分为以下几种类型:执行静态SQL语句、执行动态SQL语句、执行数据库存储过程;5、执行SQL语句,在Statement接口中提供了三种执行SQL语句的方法,分别是executeQuery、executeUpdate和execute,其中ResultSet executeQuery(String sqlString):执行查询数据库的SQL语句,返回一个结果集(ResultSet)对象;int executeUpdate(StringsqlString):用于执行INSERT、UPDATE或DELETE语句以及SQL DDL语句,如:CREATE TABLE和DROP TABLE等;execute(sqlString):用于执行返回多个结果集、多个更新计数或二者组合的语句;6、处理结果,分别为执行更新返回的是本次操作影响到的记录数、执行查询返回的结果为一个ResultSet对象,其中,ResultSet包含符合SQL语句中条件的所有行,并且它通过一套get方法提供了对这些行中数据的访问,使用结果集(ResultSet)对象的访问方法获取数据;7、关闭JDBC对象,操作完成以后要把所有使用的JDBC对象全都关闭,以释放JDBC资源,关闭顺序和声明顺序相反,分别为:关闭记录集、关闭声明、关闭连接对象。
读取单元204,用于读取并解析预先定义的样本抽取规则。在本发明实施例中,读取所有的样本抽取规则,并解析所读取的样本抽取规则得到所述样本抽取规则的类型,根据所解析的样本抽取规则的类型确定样本抽取规则所对应的执行逻辑,并根据相对应的程序源执行该规则,所述样本抽取规则便会按照程序源中所规定的规则对数据进行处理。例如,读取所有的样本抽取规则,并对该样本抽取规则进行解析得到的类型包括默认抽取规则和指定抽取规则,然后确定默认抽取规则和指定抽取规则的执行逻辑,其中,默认抽取规则的执行逻辑为:选择需要抽取的样本总量,然后样本总量按照一定的分配权重设置抽取比例;指定抽取规则的执行逻辑为:选择需要抽取的样本抽取分量,对所抽取的样本抽取分量设置优先级。最后,通过编写调用程序代码或者执行代码等相关程序源执行所述默认抽取规则和指定抽取规则。
需要说明的是,由于所述样本抽取规则由用户根据业务需要进行制定,在执行所述样本抽取规则时,用户可以选择所有的样本抽取规则对待抽样数据进行处理,也可以根据需要选择所述样本抽取规则中的一项或者多项规则对数据进行处理。
处理单元205,用于根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数。在本发明实施例中,根据所述样本抽取规则的执行逻辑对待抽样数据进行处理以得到抽样样本数,本实施例中,若用户选择所有的样本抽取规则对待抽样数据进行处理,所述样本抽取规则的执行逻辑为:先使用指定抽取规则并按照所述指定抽取规则的执行逻辑对所述待抽样数据进行抽取以得到第一抽样样本数,再使用默认抽取规则并按照所述默认抽取规则的执行逻辑对剩余的待抽样数据进行抽取以得到第二抽样样本数,其中,使用指定抽取规则并按照所述指定抽取规则的执行逻辑对所述待抽样数据进行抽取以得到第一抽样样本数,即,按照优先级的顺序先抽取指定抽取目标中的抽样样本数,并且在抽取过程中每抽取一项均需进行标记,以避免同一抽取目标多次被抽中,最后得到第一抽样样本数;使用默认抽取规则并按照所述默认抽取规则的执行逻辑对剩余的待抽样数据进行抽取以得到第二抽样样本数,即,使用默认抽取规则的执行逻辑对剩余的待抽样数据进行抽取,可以按照以下计算公式进行抽取:
a.计算计划抽取量PN=样本总量-指定抽取规则已抽取量;
b.计算团队平均抽取,计算每个团队的任务总量,并算出团队计划抽取量=任务总量*抽取比例,向下取整;
c.若团队计划抽取量>计划抽取量PN,按差额比例百分比降低团队计划抽取量;
d.调整后,若团队计划抽取量<=计划抽取量PN,按计划抽取量在每个团队随机抽取满足数量的任务,并标记已抽取;
e.余量抽取,随机在还有剩余未抽取任务的团队补足总量差额的任务,标记已抽取;
f.得到第二抽样样本数。
最后,将第一抽样样本数和第二抽样样本数进行求和得到本发明实施例所述的抽样样本数。
在硬件实现上,以上定义单元101、获取单元102、读取单元103、处理单元104等可以以硬件形式内嵌于或独立于数据处理的装置中,也可以以软件形式存储于数据处理装置的存储器中,以便处理器调用执行以上各个单元对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。
上述防盗装置可以实现为一种计算机程序的形式,计算机程序可以在如图7所示的计算机设备上运行。
图7为本发明一种数据抽样设备的结构组成示意图。该设备可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。参照图7,该计算机设备500包括通过系统总线501连接的处理器502、非易失性存储介质503、内存储器504和网络接口505。其中,该计算机设备500的非易失性存储介质503可存储操作系统5031和计算机程序5032,该计算机程序5032被执行时,可使得处理器502执行一种数据抽样方法。该计算机设备500的处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的操作系统5031及计算机程序5032提供高速缓存的运行环境。计算机设备500的网络接口505用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502执行如下操作:
预先定义针对数据抽样的样本抽取规则;
若检测到用户进行数据采集,获取用户所采集的待抽样数据;
读取并解析预先定义的样本抽取规则;
根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数。
在一个实施例中,所述预先定义针对数据抽样的样本抽取规则,包括:
选择进行规则定义的程序源;
根据所述程序源创建所述样本抽取规则。
在一个实施例中,所述样本抽取规则包括默认抽取规则和指定抽取规则,其中,所述默认抽取规则是选择需要抽取的样本总量,并根据样本总量按照一定的分配权重设置抽取比例;所述指定抽取规则是选择需要抽取的样本抽取分量,对所抽取的样本抽取分量设置优先级。
在一个实施例中,所述根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数,包括:
利用所述指定抽取规则并按照第一预设执行逻辑对所述待抽样数据进行抽取以得到第一抽样样本数;
利用所述默认抽取规则并按照第二预设执行逻辑对剩余的待抽样数据进行抽取以得到第二抽样样本数;
统计所述第一抽样样本数和第二抽样样本数并得到所述抽样样本数;
将所述抽样样本数保存至预设的文档中。
在一个实施例中,所述每个待抽样数据包括产品ID、产品名称、产品所在地以及产品保额;所述获取用户所采集的待抽样数据,包括:
获取所述产品ID、产品名称、产品所在地以及产品保额。
本领域技术人员可以理解,图7中示出的数据抽样设备的实施例并不构成对数据抽样设备具体构成的限定,在其他实施例中,数据抽样设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,数据抽样设备以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图7所示实施例一致,在此不再赘述。
本发明提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行,以实现以下步骤:
预先定义针对数据抽样的样本抽取规则;
若检测到用户进行数据采集,获取用户所采集的待抽样数据;
读取并解析预先定义的样本抽取规则;
根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数。
在一个实施例中,所述预先定义针对数据抽样的样本抽取规则,包括:
选择进行规则定义的程序源;
根据所述程序源创建所述样本抽取规则。
在一个实施例中,所述样本抽取规则包括默认抽取规则和指定抽取规则,其中,所述默认抽取规则是选择需要抽取的样本总量,并根据样本总量按照一定的分配权重设置抽取比例;所述指定抽取规则是选择需要抽取的样本抽取分量,对所抽取的样本抽取分量设置优先级。
在一个实施例中,所述根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数,包括:
利用所述指定抽取规则并按照第一预设执行逻辑对所述待抽样数据进行抽取以得到第一抽样样本数;
利用所述默认抽取规则并按照第二预设执行逻辑对剩余的待抽样数据进行抽取以得到第二抽样样本数;
统计所述第一抽样样本数和第二抽样样本数并得到所述抽样样本数;
将所述抽样样本数保存至预设的文档中。
在一个实施例中,所述每个待抽样数据包括产品ID、产品名称、产品所在地以及产品保额;所述获取用户所采集的待抽样数据,包括:
获取所述产品ID、产品名称、产品所在地以及产品保额。
本发明前述的存储介质包括:磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等各种可以存储程序代码的介质。
本发明所有实施例中的单元可以通过通用集成电路,例如CPU(CentralProcessing Unit,中央处理器),或通过ASIC(Application Specific IntegratedCircuit,专用集成电路)来实现。
本发明实施例数据抽样方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例数据抽样终端中的单元可以根据实际需要进行合并、划分和删减。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据抽样方法,其特征在于,所述方法包括:
预先定义针对数据抽样的样本抽取规则;
若检测到用户进行数据采集,获取用户所采集的待抽样数据;
读取并解析预先定义的样本抽取规则;
根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数。
2.如权利要求1所述的数据抽样方法,其特征在于,所述预先定义针对数据抽样的样本抽取规则,包括:
选择进行规则定义的程序源;
根据所述程序源创建所述样本抽取规则。
3.如权利要求1所述的数据抽样方法,其特征在于,所述样本抽取规则包括默认抽取规则和指定抽取规则,其中,所述默认抽取规则是选择需要抽取的样本总量,并根据样本总量按照一定的分配权重设置抽取比例;所述指定抽取规则是选择需要抽取的样本抽取分量,对所抽取的样本抽取分量设置优先级。
4.如权利要求3所述的数据抽样方法,其特征在于,所述根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数,包括:
利用所述指定抽取规则并按照第一预设执行逻辑对所述待抽样数据进行抽取以得到第一抽样样本数;
利用所述默认抽取规则并按照第二预设执行逻辑对剩余的待抽样数据进行抽取以得到第二抽样样本数;
统计所述第一抽样样本数和第二抽样样本数并得到所述抽样样本数;
将所述抽样样本数保存至预设的文档中。
5.如权利要求1所述的数据抽样方法,其特征在于,所述每个待抽样数据包括产品ID、产品名称、产品所在地以及产品保额;所述获取用户所采集的待抽样数据,包括:
获取所述产品ID、产品名称、产品所在地以及产品保额。
6.一种数据抽样终端,其特征在于,所述终端包括:
定义单元,用于预先定义针对数据抽样的样本抽取规则;
获取单元,用于若检测到用户进行数据采集,获取用户所采集的待抽样数据;
读取单元,用于读取并解析预先定义的样本抽取规则;
处理单元,用于根据所述样本抽取规则对所述待抽样数据进行处理以得到抽样样本数。
7.如权利要求6所述的数据抽样终端,其特征在于,所述定义单元,包括:
选择单元,用于选择进行规则定义的程序源;
创建单元,用于根据所述程序源创建所述样本抽取规则。
8.如权利要求6所述的数据抽样终端,其特征在于,所述样本抽取规则包括默认抽取规则和指定抽取规则,其中,所述默认抽取规则是选择需要抽取的样本总量,并根据样本总量按照一定的分配权重设置抽取比例;所述指定抽取规则是选择需要抽取的样本抽取分量,对所抽取的样本抽取分量设置优先级;
所述处理单元,包括:
第一抽取单元,用于利用所述指定抽取规则并按照第一预设执行逻辑对所述待抽样数据进行抽取以得到第一抽样样本数;
第二抽取单元,用于利用所述默认抽取规则并按照第二预设执行逻辑对剩余的待抽样数据进行抽取以得到第二抽样样本数;
统计单元,用于统计所述第一抽样样本数和第二抽样样本数并得到所述抽样样本数;
保存单元,用于将所述抽样样本数保存至预设的文档中;
所述每个待抽样数据包括产品ID、产品名称、产品所在地以及产品保额,所述获取单元具体用于:获取所述产品ID、产品名称、产品所在地以及产品保额。
9.一种数据抽样设备,其特征在于,包括:
存储器,用于存储实现数据抽样方法的程序;以及
处理器,用于运行所述存储器中存储的实现数据抽样方法的程序,以执行如权利要求1-5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行,以实现如权利要求1-5任一项所述的方法。
CN201711034799.6A 2017-10-30 2017-10-30 数据抽样方法、终端、设备以及计算机可读存储介质 Pending CN107704436A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711034799.6A CN107704436A (zh) 2017-10-30 2017-10-30 数据抽样方法、终端、设备以及计算机可读存储介质
PCT/CN2018/074933 WO2019085307A1 (zh) 2017-10-30 2018-02-01 数据抽样方法、终端、设备以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711034799.6A CN107704436A (zh) 2017-10-30 2017-10-30 数据抽样方法、终端、设备以及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN107704436A true CN107704436A (zh) 2018-02-16

Family

ID=61176954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711034799.6A Pending CN107704436A (zh) 2017-10-30 2017-10-30 数据抽样方法、终端、设备以及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN107704436A (zh)
WO (1) WO2019085307A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460161A (zh) * 2018-03-30 2018-08-28 腾讯科技(深圳)有限公司 分层抽样方法、装置和计算机设备
CN109471935A (zh) * 2018-10-10 2019-03-15 深圳市海云天教育测评有限公司 一种问卷调查对象确定方法、装置、电子设备和存储介质
CN109471862A (zh) * 2018-11-12 2019-03-15 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
CN109491989A (zh) * 2018-11-12 2019-03-19 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
CN110515982A (zh) * 2019-07-17 2019-11-29 金蝶软件(中国)有限公司 抽检方法、装置、计算机设备和存储介质
CN111061999A (zh) * 2019-11-19 2020-04-24 平安科技(深圳)有限公司 数据样本获取方法、装置及存储介质
CN114372700A (zh) * 2022-01-07 2022-04-19 京东科技信息技术有限公司 数据抽样检测方法及装置
WO2022151590A1 (zh) * 2021-01-18 2022-07-21 平安科技(深圳)有限公司 数据的抽样检测方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102455993A (zh) * 2010-10-19 2012-05-16 泓广信息有限公司 一种统计资料的分析方法
CN102629267A (zh) * 2012-03-08 2012-08-08 北京神州数码思特奇信息技术股份有限公司 数据处理方法和数据处理模块
CN103729796A (zh) * 2014-01-03 2014-04-16 深圳供电局有限公司 一种抽样调查的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170242854A1 (en) * 2016-02-23 2017-08-24 International Business Machines Corporation Dataset sampling that is independent of record order

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102455993A (zh) * 2010-10-19 2012-05-16 泓广信息有限公司 一种统计资料的分析方法
CN102629267A (zh) * 2012-03-08 2012-08-08 北京神州数码思特奇信息技术股份有限公司 数据处理方法和数据处理模块
CN103729796A (zh) * 2014-01-03 2014-04-16 深圳供电局有限公司 一种抽样调查的方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460161A (zh) * 2018-03-30 2018-08-28 腾讯科技(深圳)有限公司 分层抽样方法、装置和计算机设备
CN109471935A (zh) * 2018-10-10 2019-03-15 深圳市海云天教育测评有限公司 一种问卷调查对象确定方法、装置、电子设备和存储介质
CN109471862A (zh) * 2018-11-12 2019-03-15 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
CN109491989A (zh) * 2018-11-12 2019-03-19 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
CN109491989B (zh) * 2018-11-12 2021-08-31 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
CN110515982A (zh) * 2019-07-17 2019-11-29 金蝶软件(中国)有限公司 抽检方法、装置、计算机设备和存储介质
CN111061999A (zh) * 2019-11-19 2020-04-24 平安科技(深圳)有限公司 数据样本获取方法、装置及存储介质
CN111061999B (zh) * 2019-11-19 2023-08-22 平安科技(深圳)有限公司 数据样本获取方法、装置及存储介质
WO2022151590A1 (zh) * 2021-01-18 2022-07-21 平安科技(深圳)有限公司 数据的抽样检测方法、装置、设备及存储介质
CN114372700A (zh) * 2022-01-07 2022-04-19 京东科技信息技术有限公司 数据抽样检测方法及装置

Also Published As

Publication number Publication date
WO2019085307A1 (zh) 2019-05-09

Similar Documents

Publication Publication Date Title
CN107704436A (zh) 数据抽样方法、终端、设备以及计算机可读存储介质
US10504120B2 (en) Determining a temporary transaction limit
CN108536761A (zh) 报表数据查询方法及服务器
US9940581B2 (en) Ontology-aided business rule extraction using machine learning
CN107767021A (zh) 一种风险控制方法及设备
CN107729376B (zh) 保险数据审核方法、装置、计算机设备及存储介质
CN110096513A (zh) 一种数据查询、资金核对方法及装置
CN106649212A (zh) 一种业务数据处理的方法及装置
CN104732154A (zh) 将数据匿名化的方法和系统
CN111241389A (zh) 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN108536745A (zh) 基于Shell的数据表提取方法、终端、设备及存储介质
CN109492024A (zh) 数据处理方法、装置、计算机设备以及存储介质
CN109614599A (zh) 报表生成方法、装置、计算机设备及存储介质
CN107809762A (zh) 利用大数据与设备指纹的养卡识别的安全风险控制方法
CN106528840A (zh) 基于银行系统的业务数据的清理方法以及系统
CN109582537A (zh) 业务安全防护方法及其系统
CN107562429A (zh) 一种基于编译规则的Android系统静态划分方法
CN110837511B (zh) 一种数据处理方法、系统及相关设备
CN103455476A (zh) 网络信息的处理方法和抽象语法树的建立方法及其装置
CN110942312A (zh) 一种pos机套现识别方法、系统、设备及存储介质
CN110266555A (zh) 用于分析网站服务请求的方法
CN109727145A (zh) 保单理赔判断方法、设备、存储介质及装置
CN107368500A (zh) 数据抽取方法及系统
CN102707938A (zh) 表形式软件规格制作支援方法及装置
CN111221690A (zh) 针对集成电路设计的模型确定方法、装置及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180216