CN111651457B - 数据分组方法、装置、计算机设备及存储介质 - Google Patents

数据分组方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111651457B
CN111651457B CN202010471333.8A CN202010471333A CN111651457B CN 111651457 B CN111651457 B CN 111651457B CN 202010471333 A CN202010471333 A CN 202010471333A CN 111651457 B CN111651457 B CN 111651457B
Authority
CN
China
Prior art keywords
data
grouping
array
interval
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010471333.8A
Other languages
English (en)
Other versions
CN111651457A (zh
Inventor
刘广平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202010471333.8A priority Critical patent/CN111651457B/zh
Publication of CN111651457A publication Critical patent/CN111651457A/zh
Application granted granted Critical
Publication of CN111651457B publication Critical patent/CN111651457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据分组方法、装置、终端设备及存储介质,所述方法包括:从数据仓库的数据表中获取预设字段对应的记录作为样本数据集,构建每个所述样本数据的分组区间数组,所述分组区间数组为一维数组;根据所述分组区间数组中包含的元素的个数和所述样本数据,采用数据仓库工具对所述分组区间数组中的元素进行数据拆解,得到发散数组;根据每个所述发散数组,进行聚合计算,得到样本数据集的目标分组区间;获取与所述样本数据集同类型的待分组数据集,根据所述目标分组区间确定每个所述待分组数据对应的分组结果,该数组分组方法实现了对待分组数据集的快速分组,大大提高了数据分组效率。

Description

数据分组方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种数据分组方法、装置、计算机设备及存储介质。
背景技术
在Web技术的不断发展的背景下,互联网上的数据已经进入了爆炸式增长阶段,丰富数据具有较高的应用价值,如何将Web上的海量数据进行高效管理是学术界与工业界关注的热点问题,也面临着数据分组、数据查询优化等多方面挑战。数据分组(Datagrouping)是根据统计研究的需要,将原始数据按照某种标准划分成不同的组别,分组后的数据称为分组数据。当前,传统的集中式数据管理方案难以有效地管理大规模数据。
对于许多企业来说,随着用户量的增长,如何对用户进行准确、快速的分组,对于提高企业管理效率来说有着重要意义。现有技术中,多是采用多表关联的方式,通过SQL实现进行关联查询,过程复杂繁琐,并且引入多个映射表进行关联运算也降低了整体性能,难以高效地对用户进行更为准确的分组,降低了数据分组效率。
发明内容
本发明实施例提供一种数据分组方法、装置、计算机设备及存储介质,以解决数据分组效率较低的问题。
一种数据分组方法,包括:
从数据仓库的数据表中获取预设字段对应的记录作为样本数据集,所述样本数据集包括多个样本数据;
构建每个所述样本数据的分组区间数组,所述分组区间数组为一维数组;
根据所述分组区间数组中包含的元素的个数和所述样本数据,采用数据仓库工具对所述分组区间数组中的元素进行数据拆解,得到发散数组,所述发散数组为二维数组;
根据每个所述发散数组,进行聚合计算,得到样本数据集的目标分组区间;
获取与所述样本数据集同类型的待分组数据集,所述待分组数据集包括多个待分组数据;
根据所述目标分组区间确定每个所述待分组数据对应的分组结果。
一种数据分组装置,包括:
样本获取模块,用于从数据仓库的数据表中获取预设字段对应的记录作为样本数据集,所述样本数据集包括多个样本数据;
区间构建模块,用于构建每个所述样本数据的分组区间数组,所述分组区间数组为一维数组;
数据拆解模块,用于根据所述分组区间数组中包含的元素的个数和所述样本数据,采用数据仓库工具对所述分组区间数组中的元素进行数据拆解,得到发散数组,所述发散数组为二维数组;
数组聚合模块,用于根据每个所述发散数组,进行聚合计算,得到样本数据集的目标分组区间;
待分组数据获取模块,用于获取与所述样本数据集同类型的待分组数据集,所述待分组数据集包括多个待分组数据;
分组结果获取模块,用于根据所述目标分组区间确定每个所述待分组数据对应的分组结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据分组方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据分组方法的步骤。
上述数据分组方法、装置、计算机设备及存储介质,首先从数据仓库的数据表中获取预设字段对应的记录作为样本数据集;构建每个样本数据的分组区间数组,从而无需插入映射表,避免了对多个表的交互操作处理,提升了对样本数据的处理性能;然后,根据分组区间数组中包含的元素的个数和样本数据,采用数据仓库工具对分组区间数组中的元素进行数据拆解,得到发散数组;接着,根据每个发散数组,进行聚合计算,得到样本数据集的目标分组区间;获取与所述样本数据集同类型的待分组数据集;最后,根据目标分组区间确定每个待分组数据对应的分组结果。由于目标分组区间确定的准确性,通过将待分组数据与目标分组区间进行匹配,即可快速方便确定出待分组数据的分组结果,从而实现了对待分组数据集的快速分组,大大提高了数据分组效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的数据分组方法的应用环境示意图;
图2是本发明实施例提供的数据分组方法的流程图;
图3是本发明实施例提供的获取样本数据集方法的流程图;
图4是本发明实施例提供的分组区间数组构建方法的流程图;
图5是本发明实施例提供的聚合计算方法的流程图;
图6是本发明实施例提供的分组区间数组构建方法的另一流程图;
图7是本发明实施例提供的分组区间数组构建方法的又一流程图;
图8是本发明实施例提供的数据分组装置的结构框图;
图9是本发明实施例提供的计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的数据分组方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信,服务端接收客户端发送的样本数据,构建每个所述样本数据的分组区间数组,然后对分组区间数组进行数据拆解后进行聚合计算,继而确定样本数据的目标分组区间,进而根据目标分组区间对待分组数据进行分组,确定待分组数据的分组结果。其中,客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,以该方法应用于图1中的服务端为例进行说明,包括如下步骤:
S10:从数据仓库的数据表中获取预设字段对应的记录作为样本数据集,样本数据集包括多个样本数据。
其中,样本数据集是指用于作为数据分组依据的多个样本数据,且样本数据集由数据表中同一字段的记录组成,可以直接从数据仓库的数据表中根据预设字段的名称,采用结构查询语言(SQL)导出预设字段对应的记录,作为样本数据集。在一个实际应用场景中,企业为了预估潜在客户的商业价值,首先需要将潜在客户与存量客户进行匹配以确定潜在客户的所属组别,在确定了相应的组别的基础上,进行更为细致准确的商业价值预估。其中的用于作为数据分组依据的多个样本数据组成为样本数据集,示例性地,多个样本数据可以是城市,行业,类型,注册资本等预设字段对应的记录,需要说明的是,为了保证数据分组的准确性,本实施例中的样本数据集可以是多个预设字段对应的记录的组合,以保证用于作为数据分组依据的多个样本数据的全面完整性。
S20:构建每个样本数据的分组区间数组,分组区间数组为一维数组。
其中,分组区间数组是用于确定样本数据所属组别的区间范围内数据作为元素的数组,且分组区间数组为一维数组,即该数组为一行多列,例如,ΔP0为以预设区间长度,P0为任意常数,在实数轴上以P0为起点分别往正方向和负方向按ΔP0划分区间,形成分组区间数组I,I的表达式为:
I={arrayi=[Pi,Pi+1],ΔP0=Pi+1-Pi,i∈Z},
以步骤S10中的注册资本作为待分组数据为例,若每个样本数据为P0,若P0=5.0,ΔP0为1,且分组区间数组中的元素个数为7,则分组区间数组中包含的元素对应的数值为:arrayi(P0-3,P0-2,P0-1,P0,P0+1,P0+2,P0+3)。
如表1所示:P0为样本数据,product class为分组区间数组中元素的个数,array为分组区间序列中的各个元素。
表1分组区间数组的信息表
product_class P0 arrayi
7 5 2.0,3.0,4.0,5,6.0,7.0,8.0
具体地,分组区间数组的构建方法可以是HQL(Hibernate Query Language)方法,即直接采用面向对象查询语句,如hql="from XX where arrayi>=2and arrayi<=8",也可以是UDAF聚合函数的方法。可以理解地,本实施例中通过构建分组区间数组,从而无需插入映射表,避免了对多个表的交互操作处理,提升了对样本数据的处理性能。
S30:根据分组区间数组中包含的元素的个数和样本数据,采用数据仓库工具对分组区间数组中的元素进行数据拆解,得到发散数组,发散数组为二维数组。
其中,数据仓库工具是指Hive,是一种基于Hadoop构建的一套数据仓库分析系统,用于将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,即将SQL或者HQL转换为MapReduce程序,以便后续基于MapReduce程序进行分析统计等处理。数据拆解是指将分组区间数组中的元素通过与分组区间数组中包含的元素的个数和样本数据进行组合后,再分散到分组区间数组的其它行中的数据处理过程,用于实现对样本数据和分组区间数组的发散映射,避免通过导入映射表进行关联操作。可以理解地,分组区间数组为一行多列的一维数组,通过对分组区间数组中的元素进行数据拆解后,形成多行多列数组,因此,拆解后得到发散数组为二维数组,以便后续基于该发散数组进行聚合计算。进一步地,该发散数组的获取是直接通过数据拆解得到,从而避免了传统的多表关联的复杂操作,提高了获取发散数组的效率。
具体地,可以通过数据仓库工具Hive中的LATERAL VIEW函数并结合explode函数,实现将一行数据即分组区间数据中的元素拆解成多行数据,以便后续可以对拆分后的数据进行聚合。以表一中的分组区间数据为例,数据拆解过程为:将arrayi列值与其他列值(如product class的列值、P0的列值)组合排列,由于explode函数不能和数据表的其他字段连接,因此需要将arrayi对应的列值与分组区间数组中包含的元素的个数以及样本数据(如分组区间数据中的其他任意一类数据)关联到一起。从而实现与其他字段关联组合进行统计分析。并且LATERAL VIEW函数可以解除explode不能和数据表的其他字段连接的使用限制,LATERAL VIEW函数首先将UDTF应用于分组区间数据的一行元素,然后将结果输出行连接到输入行,以形成具有提供的表别名的临时表,且临时表只对当前session有效,session退出后,临时表自动删除,通过临时表的方式,将需要手动的数据表隐藏到SQL代码自动运算过程中,避免了手动连接,优化了代码运行效率,简化了逻辑,同时减少了对分组区间数据的的反复遍历。进一步地,对于本实施例中多个样本数据对应的多个区间分组,可以将多个LATERAL VIEW函数叠加使用,以便效减少代码量提升工作和计算效率。
进一步地,通过利用LATERAL VIEW explode()将数据发散的方式,克服了直接使用聚合语句分组,分组之间数据不能重合的问题,更进一步提高了数据分组的准确性。
值得说明的是,在进行数据拆解之前,为了保证分组区间数组的关联性,对分组区间序列进行行列转换,可以通过explode函数将arrayi行对应的元素转为列对应的元素,即将分组区间数组中的每个元素生成一行,从而保证了发散数组中包含分组区间序列数组的关联数据,以便后续进行聚合统计,实现对样本数据集的准确分组,提高数据分组效率。
S40:根据每个发散数组,进行聚合计算,得到样本数据集的目标分组区间。
其中,目标分组区间是指样本数据集中各个分组对应的区间。具体地,将每个发散数组合并,通过聚合条件对应的聚合语句对合并后的发散数组进行count(),sum()等统计聚合运算,得到样本数据集的目标分组区间,例如通过聚合语句over(order by salaryrange between 5preceding and 5following)表示为目标分组区间为当前行数据幅度减5加5后的范围内的聚合计算的结果。
S50:获取与样本数据集同类型的待分组数据集,待分组数据集包括多个待分组数据。
其中,与样本数据集同类型的待分组数据集是指与样本数据集的预设字段相同的记录且需要确定各个待分组数据所在组别的数据集,具体地,可以通过网络爬虫技术获取到该待分组数组集,也可以从系统后台数据库中查找到该待分组数据集。
S60:根据目标分组区间确定每个待分组数据对应的分组结果。
具体地,将待分组数据与目标分组区间进行匹配,判定待分组数据落入的目标分组区间,即为待分组数据对应的分组结果。需要说明的是,由于待分组数据集数据类型与样本数据集类型,且目标分组区间是通过对样本数据集进行发散聚合得到的,因此,步骤S40中得到的目标分组区间必然包含待分组数据,即待分组数据会落在其中的一个目标分组区间中,从而得到分组结果。在一具体实施方式中,目标分组区间为根据存量客户的企业注册资本通过步骤S10至步骤S40的方法得到,待分组数据为潜在客户的企业注册资本,例如,潜在客户的注册资本为5,则该潜在客户可以匹配目标分组区间为[0,10]这个区间的存量客户对应一个分组结果,也即存量客户注册资本的正负5区间。可以理解地,由于目标分组区间较高准确性,因此,通过将待分组数据与目标分组区间进行匹配,即可快速确定出待分组数据的分组结果,从而实现了对待分组数据集的快速分组,大大提高了数据分组效率。
本实施例中,首先从数据仓库的数据表中获取预设字段对应的记录作为样本数据集;构建每个样本数据的分组区间数组,从而无需插入映射表,避免了对多个表的交互操作处理,提升了对样本数据的处理性能;然后,根据分组区间数组中包含的元素的个数和样本数据,采用数据仓库工具对分组区间数组中的元素进行数据拆解,得到发散数组;接着,根据每个发散数组,进行聚合计算,得到样本数据集的目标分组区间;获取与所述样本数据集同类型的待分组数据集;最后,根据目标分组区间确定每个待分组数据对应的分组结果。由于目标分组区间确定的准确性,通过将待分组数据与目标分组区间进行匹配,即可快速确定出待分组数据的分组结果,从而实现了对待分组数据集的快速分组,大大提高了数据分组效率。
在一实施例中,如图3所示,步骤S10中,从数据仓库的数据表中获取预设字段对应的记录作为样本数据集,样本数据集包括多个样本数据,具体包括如下步骤:
S11:从大数据平台获取原始数据集,原始数据集包括多个原始数据;
S12:当任一原始数据大于预设阈值时,则将每个原始数据的对数确定为预设字段对应的记录,并保存在数据仓库中。
其中,原始数据集是指未经处理的数据,可以从大数据平台获取。可以理解地,由于原始数据集存在数值较大的情形,例如注册资本等,当原始数据大于预设阈值时,需要对原始数据进行取对数处理,由于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,还能够缩小数据的绝对数值,方便计算;可以将乘法计算转换成加法计算;取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,数据更加平稳,也消弱了模型的共线性、异方差性,可以理解地,通过将每个原始数据的对数确定为预设字段对应的记录,并保存在数据仓库中,从而得到了样本数据集,以便后续基于样本数据集进行进一步处理。
值得说明的是,步骤S50中待分组数据集也需要进行与样本数据集相同的处理,进而保证与样本数据集同类型,从而保证数据分组的准确性。
本实施例中,从大数据平台获取原始数据集,当任一原始数据大于预设阈值时,则将每个原始数据的对数确定为预设字段对应的记录,并保存在数据仓库中,使得样本数据更加平稳,也消弱了模型的共线性、异方差性。
在一实施例中,如图4所示,步骤S20中,构建每个样本数据的分组区间数组,具体包括如下步骤:
S21:根据样本数据确定对应的中心数据;
S22:基于中心数据和预设的浮动区间,构建分组区间数组。
其中,中心数据是指区间范围大小位于中心位置的数据,可以根据样本的数据大小确定中心数据,如将样本数据取整后作为中心数据,或者直接将样本数据作为中心数据。预设的浮动区间是指包含有样本数据的变化的区间范围,例如,预设的浮动区间为正负5范围内的整数值,因此,分组区间数据由中心数据和中心数据与浮动区间的和值以及差值组成。具体地,分组区间数组可以通过自定义UDF函数来构建,也可以通过结构查询语句构建。通过构建分组区间数组,从而避免对数据表的导入操作,提升了对样本数据处理的效率。
本实施例中,根据样本数据确定对应的中心数据;基于中心数据和预设的浮动区间,构建分组区间数组,避免对数据表的导入操作,提升了对样本数据处理的效率。
在一实施例中,步骤S30中,采用数据仓库工具对分组区间数组中的元素进行数据拆解,得到发散数组,具体为:
将分组区间数组中包含的元素的个数、样本数据和分组区间数组中的元素按照预设的方式进行排列组合,得到发散数组。
其中,预设的方式是指预先设定的元素合并方式,例如根据元素的映射关系进行数组合并。具体地,将分组区间数组中包含的元素个数作为一列元素,样本数据作为另一列元素,分组区间数组中的元素作为又一列元素,将该三列元素合并为一个数组,得到发散数组,通过排列组合的方式,避免了数据表的连接,优化了代码运行效率,简化了逻辑,同时减少了对分组区间数据的反复遍历,减少了代码量并且提升了计算效率。
本实施例中,将分组区间数组中包含的元素的个数、样本数据和分组区间数组中的元素按照预设的方式进行排列组合,减少了代码量并且提升了计算效率。
在一实施例中,如图5所示,步骤S40中,根据每个发散数组,进行聚合计算,得到样本数据集的目标分组区间,具体包括如下步骤:
S41:获取样本数据集的预设聚合条件;
S42:按照预设聚合条件对发散数组进行统计分析,得到样本数据集的目标分组区间。
其中,预设的聚合条件是指对数据进行聚合分析的规则,如统计相同数据的个数,取平均值,求和等运算规则,可以是其中的一种运算规则,也可以是几种运算规则的组合,具体可根据聚合需求设定。具体地,按照预设聚合条件对发散数组进行统计分析,例如对发散数组中的相同元素进行统计后,并进行排序,根据排序结果确定样本数据集的目标分组区间。可以理解地,根据聚合条件对发散数组进行聚合计算,避免了对数据的冗余分析,快速地确定了目标分组区间。
本实施例中,获取样本数据集的预设聚合条件,按照预设聚合条件对发散数组进行统计分析,避免了对数据的冗余分析,快速地确定了目标分组区间。
在一实施例中,如图6所示,步骤S22中,基于中心数据和预设的浮动区间,构建分组区间数组,具体包括如下步骤:
S221:将分中心数据和预设的浮动区间作为面向对象查询语句的参数,形成区间构建脚本;
S222:执行区间构建脚本,生成分组区间数组。
具体地,将分中心数据和预设的浮动区间作为面向对象查询语句(HibernateQuery Language,HQL)的参数,形成区间构建脚本,通过执行该区间构建脚本,生成分组区间数组。
在一实施例中,如图7所示,步骤S22中,基于中心数据和预设的浮动区间,构建分组区间数组,具体包括如下步骤:
S221’:将中心数据和预设的浮动区间的逻辑通过evaluate方法实现,得到区间构建函数;
S222’:调用区间构建函数,生成分组区间数组。
具体地,首先继承UDF类,将中心数据和预设的浮动区间的逻辑通过evaluate方法实现,例如计算输入值正负5范围内的整数值,并返回包含所有整数的数组;得到区间构建函数后,直接调用该区间构建函数,即可获取到分组区间数组。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种数据分组装置,该数据分组装置与上述实施例中数据分组方法一一对应。如图8所示,该数据分组装置包括样本获取模块10、区间构建模块20、数据拆解模块30、数组聚合模块40、待分组数据获取模块50和分组结果获取模块60。各功能模块详细说明如下:
样本获取模块10,用于从数据仓库的数据表中获取预设字段对应的记录作为样本数据集,所述样本数据集包括多个样本数据;
区间构建模块20,用于构建每个所述样本数据的分组区间数组,所述分组区间数组为一维数组;
数据拆解模块30,用于根据所述分组区间数组中包含的元素的个数和所述样本数据,采用数据仓库工具对所述分组区间数组中的元素进行数据拆解,得到发散数组,所述发散数组为二维数组;
数组聚合模块40,用于根据每个所述发散数组,进行聚合计算,得到样本数据集的目标分组区间;
待分组数据获取模块50,用于获取与所述样本数据集同类型的待分组数据集,所述待分组数据集包括多个待分组数据;
分组结果获取模块60,用于根据所述目标分组区间确定每个所述待分组数据对应的分组结果。
具体地,样本获取模块包括数据集获取单元和记录确定单元。
数据集获取单元,用于从大数据平台获取原始数据集,所述原始数据集包括多个原始数据;
记录确定单元,用于当任一原始数据大于预设阈值时,则将每个所述原始数据的对数确定为所述预设字段对应的记录,并保存在所述数据仓库中。
具体地,区间构建模块包括中心数据确定单元和数据构建单元。
中心数据确定单元,用于根据所述样本数据确定对应的中心数据;
数据构建单元,用于基于所述中心数据和预设的浮动区间,构建所述分组区间数组。
具体地,数据拆解模块包括元素组合单元,用于将所述分组区间数组中包含的元素的个数、所述样本数据和所述分组区间数组中的元素按照预设的方式进行排列组合,得到所述发散数组。
具体地,数据构建单元包括脚本构建子单元和第一数组获取子单元。
脚本构建子单元,用于将所述分中心数据和预设的浮动区间作为面向对象查询语句的参数,形成区间构建脚本;
第一数组获取子单元,用于执行所述区间构建脚本,生成所述分组区间数组。
具体地,数据构建单元还包括函数获取子单元和第一数组获取子单元。
函数获取子单元,用于将所述中心数据和预设的浮动区间的逻辑通过evaluate方法实现,得到区间构建函数;
第一数组获取子单元,用于调用所述区间构建函数,生成所述分组区间数组。
关于数据分组装置的具体限定可以参见上文中对于数据分组方法的限定,在此不再赘述。上述数据分组装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据集和待分组数据集。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据分组方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例数据分组方法的步骤,例如图2所示的步骤S10至步骤S60。或者,处理器执行计算机程序时实现上述实施例数据分组装置的各模块/单元的功能,例如图8所示的模块10至模块60。为避免重复,这里不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例数据分组方法的步骤,或者,计算机程序被处理器执行时实现上述实施例数据分组装置的各模块/单元的功能,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (6)

1.一种数据分组方法,其特征在于,所述数据分组方法包括:
从数据仓库的数据表中获取预设字段对应的记录作为样本数据集,所述样本数据集包括多个样本数据,包括:从大数据平台获取原始数据集,所述原始数据集包括多个原始数据,当任一原始数据大于预设阈值时,则将每个所述原始数据的对数确定为所述预设字段对应的记录,并保存在所述数据仓库中;
构建每个所述样本数据的分组区间数组,所述分组区间数组为一维数组,包括:根据所述样本数据确定对应的中心数据,基于所述中心数据和预设的浮动区间,构建所述分组区间数组;
根据所述分组区间数组中包含的元素的个数和所述样本数据,采用数据仓库工具对所述分组区间数组中的元素进行数据拆解,得到发散数组,所述发散数组为二维数组,包括:将所述分组区间数组中包含的元素的个数、所述样本数据和所述分组区间数组中的元素按照预设的方式进行排列组合,得到所述发散数组;
根据每个所述发散数组,进行聚合计算,得到样本数据集的目标分组区间,包括:获取所述样本数据集的预设聚合条件,按照所述预设聚合条件对所述发散数组进行统计分析,得到所述样本数据集的目标分组区间;
获取与所述样本数据集同类型的待分组数据集,所述待分组数据集包括多个待分组数据;
根据所述目标分组区间确定每个所述待分组数据对应的分组结果。
2.如权利要求1所述的数据分组方法,其特征在于,所述基于所述中心数据和预设的浮动区间,构建所述分组区间数组,包括:
将所述中心数据和预设的浮动区间作为面向对象查询语句的参数,形成区间构建脚本;
执行所述区间构建脚本,生成所述分组区间数组。
3.如权利要求1所述的数据分组方法,其特征在于,所述基于所述中心数据和预设的浮动区间,构建所述分组区间数组,包括:
将所述中心数据和预设的浮动区间的逻辑通过evaluate方法实现,得到区间构建函数;
调用所述区间构建函数,生成所述分组区间数组。
4.一种数据分组装置,所述数据分组装置用于执行如权利要求1-3任一项所述的数据分组方法,其特征在于,所述数据分组装置包括:
样本获取模块,用于从数据仓库的数据表中获取预设字段对应的记录作为样本数据集,所述样本数据集包括多个样本数据;
区间构建模块,用于构建每个所述样本数据的分组区间数组,所述分组区间数组为一维数组;
数据拆解模块,用于根据所述分组区间数组中包含的元素的个数和所述样本数据,采用数据仓库工具对所述分组区间数组中的元素进行数据拆解,得到发散数组,所述发散数组为二维数组;
数组聚合模块,用于根据每个所述发散数组,进行聚合计算,得到样本数据集的目标分组区间;
待分组数据获取模块,用于获取与所述样本数据集同类型的待分组数据集,所述待分组数据集包括多个待分组数据;
分组结果获取模块,用于根据所述目标分组区间确定每个所述待分组数据对应的分组结果。
5.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述数据分组方法。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述数据分组方法。
CN202010471333.8A 2020-05-29 2020-05-29 数据分组方法、装置、计算机设备及存储介质 Active CN111651457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010471333.8A CN111651457B (zh) 2020-05-29 2020-05-29 数据分组方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010471333.8A CN111651457B (zh) 2020-05-29 2020-05-29 数据分组方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111651457A CN111651457A (zh) 2020-09-11
CN111651457B true CN111651457B (zh) 2023-09-22

Family

ID=72344880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010471333.8A Active CN111651457B (zh) 2020-05-29 2020-05-29 数据分组方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111651457B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115061994A (zh) * 2022-05-27 2022-09-16 平安科技(深圳)有限公司 样本分组优化方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362607A (zh) * 2019-06-11 2019-10-22 中国平安财产保险股份有限公司 异常号码识别方法、装置、计算机设备及存储介质
CN110392876A (zh) * 2017-03-10 2019-10-29 净睿存储股份有限公司 将数据集和其他受管理对象同步地复制到基于云的存储系统
CN110781183A (zh) * 2019-09-10 2020-02-11 中国平安财产保险股份有限公司 Hive数据库中增量数据的处理方法、装置以及计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10585912B2 (en) * 2017-10-10 2020-03-10 Servicenow, Inc. Visualizing time metric database

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110392876A (zh) * 2017-03-10 2019-10-29 净睿存储股份有限公司 将数据集和其他受管理对象同步地复制到基于云的存储系统
CN110362607A (zh) * 2019-06-11 2019-10-22 中国平安财产保险股份有限公司 异常号码识别方法、装置、计算机设备及存储介质
CN110781183A (zh) * 2019-09-10 2020-02-11 中国平安财产保险股份有限公司 Hive数据库中增量数据的处理方法、装置以及计算机设备

Also Published As

Publication number Publication date
CN111651457A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
WO2019056681A1 (zh) 数据实时监控方法、装置、终端设备及存储介质
CN111190901B (zh) 业务数据存储方法、装置、计算机设备和存储介质
WO2021068549A1 (zh) 一种数据处理方法、平台及系统
CN109783687B (zh) 一种基于图结构的推荐方法、装置、设备及存储介质
CN107918618B (zh) 数据处理方法及装置
CN111512283B (zh) 数据库中的基数估算
Gupta et al. Faster as well as early measurements from big data predictive analytics model
US20190213007A1 (en) Method and device for executing the distributed computation task
CN112559567A (zh) 适用于olap查询引擎的查询方法及装置
WO2021012861A1 (zh) 数据查询耗时评估方法、装置、计算机设备和存储介质
CN111651457B (zh) 数据分组方法、装置、计算机设备及存储介质
CN112463868A (zh) 数据处理方法、数据处理系统及计算设备
WO2020232880A1 (zh) 数据处理方法、装置、存储介质及终端设备
US20220091818A1 (en) Data feature processing method and data feature processing apparatus
CN110737432A (zh) 一种基于词根表的脚本辅助设计方法及装置
CN115827922B (zh) 基于风电数据的可视化分析处理方法、系统和计算机设备
Bukhari et al. Hadoop based demography big data management system
CN115658680A (zh) 数据存储方法、数据查询方法和相关装置
CN116155597A (zh) 访问请求的处理方法、装置及计算机设备
CN111723129B (zh) 报表生成方法、报表生成装置和电子设备
CN115794806A (zh) 金融数据的网格化处理系统及方法、装置、计算设备
CN115936312A (zh) 电子元器件评估方法、装置、计算机设备和存储介质
CN116737753A (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN112286995B (zh) 一种数据分析方法、装置、服务器、系统及存储介质
CN115544096B (zh) 数据查询方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant