CN106777280B - 基于超大数据集的数据处理方法及装置 - Google Patents

基于超大数据集的数据处理方法及装置 Download PDF

Info

Publication number
CN106777280B
CN106777280B CN201611243826.6A CN201611243826A CN106777280B CN 106777280 B CN106777280 B CN 106777280B CN 201611243826 A CN201611243826 A CN 201611243826A CN 106777280 B CN106777280 B CN 106777280B
Authority
CN
China
Prior art keywords
data
value
array
checking
information group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611243826.6A
Other languages
English (en)
Other versions
CN106777280A (zh
Inventor
张军
贾西贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huaao Data Technology Co Ltd
Original Assignee
Shenzhen Huaao Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huaao Data Technology Co Ltd filed Critical Shenzhen Huaao Data Technology Co Ltd
Priority to CN201611243826.6A priority Critical patent/CN106777280B/zh
Publication of CN106777280A publication Critical patent/CN106777280A/zh
Application granted granted Critical
Publication of CN106777280B publication Critical patent/CN106777280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明属于数据处理技术领域,提供了一种基于超大数据集的数据处理方法及装置。该方法包括:构建数组,检验超大数据集的数据,若符合指定的特定特征,则将该数据对应第一数组中字段位置的数值设置为第一数据标记值,否则,设置为第二数据标记值,形成数据集检验信息,根据预设比例值,将数据集检验信息进行划分,依次形成多个信息组,根据第一数据标记值,检验每个信息组,形成每个组的标记值检验结果,根据每个信息组位置,将每个信息组的标记值检验结果更新至第二数组。本发明基于超大数据集的数据处理方法及装置,能够对超大数据集进行数据处理,以使特定特征数据进行清晰、简要地显示、快速切换区域和定位,且运算效率高、结果可靠。

Description

基于超大数据集的数据处理方法及装置
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于超大数据集的数据处理方法及装置。
背景技术
目前,信息化及大数据应用越来越深入,同时,也产生了越来越多的数据集,且数据集越来越大。而在实际业务应用中,用户需要快速浏览、查看和处理数据集中的特定特征数据,常见的特定特征的数据如:空值、数字型列中出现非数字型字符串、字符串中出现不应该出现的标点符号、长度过长的字符串等。数据集过大的情况下,用户对特定特征数据的掌控能力显著降低,且不能快速浏览特定特征数据,用户体验差。
如何对超大数据集进行数据处理,以使特定特征数据能够清晰、简要地显示、快速切换区域和定位,方便用户快速地浏览、查看和处理,提高业务处理效率,是本领域技术人员亟需解决的问题。
发明内容
针对现有技术中的缺陷,本发明提供基于超大数据集的数据处理方法及装置,能够对超大数据集进行数据处理,以使特定特征数据进行清晰、简要地显示、快速切换区域和定位,方便用户快速地浏览、查看和处理,提高业务处理效率。
第一方面,本发明提供一种基于超大数据集的数据处理方法,该方法包括第一数组构建步骤:根据预获取的字段数和第一设定值,构建第一数组,第一数组为二维数组;
数据集检验步骤:检验超大数据集的数据,若符合指定的特定特征,则将该数据对应第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应第一数组中字段位置的数值设置为第二数据标记值,形成数据集检验信息;
第二数组构建步骤:根据字段数和第二设定值,构建第二数组,第二设定值是根据预设比例值和第一设定值确定的数值,第二数组为二维数组;
信息组划分步骤:根据预设比例值,将数据集检验信息进行划分,依次形成多个信息组,并记录每个信息组的信息组位置;
第二数组更新步骤:检验每个信息组,若该信息组包含第一数据标记值,则设置该组的检验结果为第一标记值检验结果,若该信息组不包含第一数据标记值,则设置该组的检验结果为第二标记值检验结果;
根据每个信息组位置,确定该信息组在第二数组中的目标字段;
将每个信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段。
进一步地,在数据集检验步骤之后,本实施例基于超大数据集的数据处理方法还包括:采用可视化显示方式,将第一数据标记值和第二数据标记值进行显示;
在第二数组更新步骤之后,该方法还包括:采用可视化显示方式,将第一标记值检验结果和第二标记值检验结果进行显示。
进一步地,采用可视化显示方式,将第一数据标记值和第二数据标记值进行显示,具体包括:采用图片显示方式,将第一数据标记值和第二数据标记值形成第一图片,进行显示;
采用列表显示方式,将第一数据标记值和第二数据标记值形成第一列表,进行显示;
采用可视化显示方式,将第一标记值检验结果和第二标记值检验结果进行显示,具体包括:采用图片显示方式,将第一标记值检验结果和第二标记值检验结果形成第二图片,进行显示;
采用列表显示方式,将第一标记值检验结果和第二标记值检验结果形成第二列表,进行显示;可视化显示方式包括图片显示方式和列表显示方式。
进一步地,在显示第一图片之后,本实施例基于超大数据集的数据处理方法还包括:接收用户发送的第一指定区域的数据显示指令;
根据第一指定区域的数据显示指令,计算第一指定区域在超大数据集的坐标区间;
根据超大数据集的坐标区间,获取并显示该第一指定区域的数据;
在显示第二图片之后,该方法还包括:接收用户发送的第二指定区域的数据显示指令;
根据第二指定区域的数据显示指令,从第一图片中截取与第二指定区域相应的子图,进行显示。
基于上述任意基于超大数据集的数据处理方法实施例,进一步地,在数据集检验步骤之后,该方法还包括:根据第一数据标记值和该第一数据标记值的字段位置,获取对应于超大数据集的特定特征数据,进行显示;
在第二数组更新步骤之后,该方法还包括:根据第一标记值检验结果和该第一标记值检验结果的信息组位置,获取对应于超大数据集的指定数据区间;
根据特定特征,检验指定数据区间的数据,确定并显示特定特征数据。
进一步地,检验超大数据集的数据,若符合指定的特定特征,则将该数据对应第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应第一数组中字段位置的数值设置为第二数据标记值,形成数据集检验信息,具体包括:
检验第一数组的状态和超大数据集的数据是否全部检验:
若第一数组为非满数组状态,且超大数据集存在未检验的数据,则检验超大数据集的数据,若符合特定特征,则将该数据对应第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应第一数组中字段位置的数值设置为第二数据标记值;
若第一数组为满数组状态,且超大数据集存在未检验的数据,则:将第一数组中的第一数据标记值和第二数据标记值进行持久化处理,并清空第一数组;
继续检验超大数据集的数据,若符合特定特征,则将该数据对应第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应第一数组中字段位置的数值设置为第二数据标记值;
若超大数据集的数据全部检验,则将第一数据标记值和第二数据标记值保存为数据集检验信息。
进一步地,根据每个信息组位置,将每个信息组的标记值检验结果更新至第二数组,具体包括:
检验第二数组的状态和是否存在未更新标记值检验结果的信息组:
若第二数组为非满数组状态,且存在未更新标记值检验结果的信息组,则:根据未更新标记值检验结果信息组的信息组位置,确定该信息组在第二数组中的目标字段;
将该信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段;
若第二数组为满数组状态,且存在未更新标记值检验结果的信息组,则:将第二数组中的第一标记值检验结果和第二标记值检验结果进行持久化处理,并清空第二数组;
根据未更新标记值检验结果信息组的信息组位置,确定该信息组在清空后的第二数组中的目标字段;
将该信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段;
若标记值检验结果全部更新,则保存第一标记值检验结果和第二标记值检验结果。
第二方面,本发明提供一种基于超大数据集的数据处理装置,该装置包括第一数组构建模块、数据集检验模块、第二数组构建模块、信息组划分模块和第二数组更新模块,第一数组构建模块用于根据预获取的字段数和第一设定值,构建第一数组,第一数组为二维数组;数据集检验模块用于检验超大数据集的数据,若符合指定的特定特征,则将该数据对应第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应第一数组中字段位置的数值设置为第二数据标记值,形成数据集检验信息;第二数组构建模块用于根据字段数和第二设定值,构建第二数组,第二设定值是根据预设比例值和第一设定值确定的数值,第二数组为二维数组;信息组划分模块用于根据预设比例值,将数据集检验信息进行划分,依次形成多个信息组,并记录每个信息组的信息组位置;第二数组更新模块用于检验每个信息组,若该信息组包含第一数据标记值,则设置该组的检验结果为第一标记值检验结果,若该信息组不包含第一数据标记值,则设置该组的检验结果为第二标记值检验结果;根据每个信息组位置,确定该信息组在第二数组中的目标字段;将每个信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段。
进一步地,该装置还包括第一可视化显示模块,用于采用可视化显示方式,将第一数据标记值和第二数据标记值进行显示;
该装置还包括第二可视化显示模块,用于采用可视化显示方式,将第一标记值检验结果和第二标记值检验结果进行显示。
进一步地,第一可视化显示模块包括第一图片显示子模块和第一列表显示子模块,第一图片显示子模块用于采用图片显示方式,将第一数据标记值和第二数据标记值形成第一图片,进行显示;第一列表显示子模块用于采用列表显示方式,将第一数据标记值和第二数据标记值形成第一列表,进行显示;
第二可视化显示模块包括第二图片显示子模块和第二列表显示子模块,第二图片显示子模块用于采用图片显示方式,将第一标记值检验结果和第二标记值检验结果形成第二图片,进行显示;第二列表显示子模块,用于采用列表显示方式,将第一标记值检验结果和第二标记值检验结果形成第二列表,进行显示。
由上述技术方案可知,本实施例提供的基于超大数据集的数据处理方法及装置,通过检验超大数据集的数据中的特定特征数据,形成数据集检验信息,能够准确地获取特定特征数据的坐标位置,有助于进行快速定位。并且,该方法还能对数据集检验信息进行分组与检验,以便于清晰、简要地高度化显示特定特征数据,方便用户快速进行区域切换,使用户能够准确、高效地掌握超大数据集中的特定特征数据分布,提高业务处理效率。
因此,本实施例基于超大数据集的数据处理方法及装置,能够对超大数据集进行数据处理,以使特定特征数据进行清晰、简要地显示、快速切换区域和定位,方便用户快速地浏览、查看和处理,且运算效率高、结果可靠。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了本发明所提供的一种基于超大数据集的数据处理方法的流程图;
图2示出了本发明所提供的一种基于超大数据集的数据处理装置的结构框图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
第一方面,本发明实施例所提供的一种基于超大数据集的数据处理方法,结合图1,该方法包括:
第一数组构建步骤S1:根据预获取的字段数和第一设定值,构建第一数组,第一数组为二维数组,如将字段数设置为宽度,将第一设定值1024*1024设置为长度。
数据集检验步骤S2:检验超大数据集的数据,若符合指定的特定特征,则将该数据对应第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应第一数组中字段位置的数值设置为第二数据标记值,形成数据集检验信息,在此,遍历超大数据集中的数据,其中,第一数据标记值可以设为1,第二数据标记值可以设为0。
第二数组构建步骤S3:根据字段数和第二设定值,构建第二数组,第二设定值是根据预设比例值和第一设定值确定的数值,第二数组为二维数组,如将字段数设置为宽度,预设比例值为100,则第二设定值为第一设定值的1/100,将第二设定值设置为长度。其中,第一数组和第二数组均可采用int[][]、bit[][]或其他数据类型的二维数组,且优选为bit[][]数据类型。int[][]数据类型能够表征多种状态,以显示图片为例,可用红色表示男、用蓝色表示女、用白色表示未定义,方便用户进行后续处理,但是,int[][]数据类型内存占用量相对较大、且数据运算效率相对较低。bit[][]数据类型计算速度快,且能够满足对单特征数据处理的需求,因此,bit[][]为最优选的数据类型。在实际应用过程中,用户可以根据实际业务需求,设置二维数组的具体数据类型。
信息组划分步骤S4:根据预设比例值,将数据集检验信息进行划分,依次形成多个信息组,并记录每个信息组的信息组位置,在此,每组代表100行。
第二数组更新步骤S5:检验每个信息组,若该信息组包含第一数据标记值,则设置该组的检验结果为第一标记值检验结果,若该信息组不包含第一数据标记值,则设置该组的检验结果为第二标记值检验结果;若100行中至少有一行包含第一数据标记值,则该组的标记值检验结果设置为1,若100行中没有第一数据标记值,则该组的标记值检验结果设置为0。
根据每个信息组位置,确定该信息组在第二数组中的目标字段。
将每个信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段。在此,第二数组的第2382行等同于超大数据集的第238101行至238200行。
在实际应用过程中,用户可以根据实际需求,在构建第一数组时,将字段数设置为长度,将第一设定值1024*1024设置为宽度,相应的,在构建第二数组时,也将字段数设置为长度,将第二设定值设置为宽度。同样,采用上述处理步骤,以实现对列数据的缩减,满足用户的业务需求。
并且,若待处理的数据集庞大,则可以根据字段数和第三设定值,构建第三数组,第三设定值是根据预设比例值和第二设定值确定的数值,根据预设比例值,将第二数组中各目标字段的信息进行划分,依次形成多个再处理信息组,并记录每个再处理信息组的位置,检验每个再处理信息组,若该再处理信息组包含第一标记值检验结果,则设置该组的检验结果为第一再处理检验结果,若该信息组不包含第一标记值检验结果,则设置该组的检验结果为第二再处理检验结果,根据每个再处理信息组的位置,确定该再处理信息组在第三数组中的目标字段;将每个再处理信息组的第一再处理检验结果或第二再处理检验结果更新至该再处理信息组的目标字段,以缩短最终查询结果的长度,实现更高级的摘要显示,方便用户进行业务处理。
由上述技术方案可知,本实施例提供的基于超大数据集的数据处理方法,通过检验超大数据集的数据中的特定特征数据,形成数据集检验信息,能够准确地获取特定特征数据的坐标位置,有助于进行快速定位。并且,该方法还能对数据集检验信息进行分组与检验,以便于清晰、简要地高度化显示特定特征数据,方便用户快速进行区域切换,使用户能够准确、高效地掌握超大数据集中的特定特征数据分布,提高业务处理效率。
因此,本实施例基于超大数据集的数据处理方法,能够对超大数据集进行数据处理,以使特定特征数据进行清晰、简要地显示、快速切换区域和定位,方便用户快速地浏览、查看和处理,且运算效率高、结果可靠。
为了进一步方便用户应用本实施例基于超大数据集的数据处理方法,具体地,该方法能够进行大数据的摘要显示,在数据集检验步骤S2之后,该方法还能够采用可视化显示方式,将第一数据标记值和第二数据标记值进行显示。在第二数组更新步骤S5之后,该方法还能够采用可视化显示方式,将第一标记值检验结果和第二标记值检验结果进行显示。在此,可视化显示的方式可以有多种,如图片显示方式、列表显示方式等,以便于用户查看,满足实际应用业务需求。
例如,采用图片显示方式,将第一数据标记值和第二数据标记值形成第一图片,进行显示。在此,可将第一数据标记值设置为第一颜色,第二数据标记值设置为第二颜色。采用列表显示方式,将第一数据标记值和第二数据标记值形成第一列表,进行显示。
采用图片显示方式,将第一标记值检验结果和第二标记值检验结果形成第二图片,进行显示。第一标记值检验结果设置为第一颜色,第二标记值检验结果设置为第二颜色。采用列表显示方式,将第一标记值检验结果和第二标记值检验结果形成第二列表,进行显示。
在此,本实施例基于超大数据集的数据处理方法能够为不同的数值赋予不同的显示方式,以更直观展现不同特性。同时,针对大数据场景下,第一图片的数据量仍会很大,该方法还能够进行选择性的显示,即显示更为精简的第二图片或第二列表,以方便用户快速浏览特定特征数据,更直观的掌握特定特征数据的分布状况,满足业务需求。
具体地,本实施例基于超大数据集的数据处理方法能够快速切换区域,其实现过程如下:
在显示第一图片之后,该方法还能够接收用户发送的第一指定区域的数据显示指令,如加载第一图片之后,用户发现第一图片的某区域有较多黑点,则用户点击该区域,即可发送第一指定区域数据显示指令。
根据第一指定区域的数据显示指令,计算第一指定区域在超大数据集的坐标区间。
根据超大数据集的坐标区间,获取并显示该第一指定区域的数据。
在显示第二图片之后,该方法还能够接收用户发送的第二指定区域的数据显示指令。
根据第二指定区域的数据显示指令,从第一图片中截取与第二指定区域相应的子图,进行显示,以方便用户进行二次选择。
在此,该方法能够根据用户的需求,显示指定区域在超大数据集中的数据。同时,针对大数据场景下,第一图片的数据量仍会很大,该方法还能够进行选择性的显示,即采用“第二图片+子图”的符合模式,实现快速切换区域,以有助于用户进行后续处理,方便用户进行业务查询,满足多样化的业务需求,提高用户体验。
具体地,本实施例基于超大数据集的数据处理方法还能够快速定位特定特征数据,其实现过程如下:
在数据集检验步骤S2之后,该方法还能够根据第一数据标记值和该第一数据标记值的字段位置,获取对应于超大数据集的特定特征数据,进行显示。
在第二数组更新步骤S5之后,该方法还能够根据第一标记值检验结果和该第一标记值检验结果的信息组位置,获取对应于超大数据集的指定数据区间;根据特定特征,检验指定数据区间的数据,确定并显示特定特征数据。
在此,针对数据量较小的数据集,该方法能够快速获取特定特征数据的位置,即可直接显示特定特征数据,定位精确、显示特定特征数据的速度快。同时,针对数据量超大的数据集,该方法也能够快速地处理超大数据集的数据,且占用内存空间小,方便用户使用。
为了进一步提高本实施例基于超大数据集的数据处理方法的处理效率,具体地,针对不同数据量的数据集,该方法能够准确、快速地进行处理,运算效率高。在形成数据集检验信息时,该方法的实现过程如下:
检验第一数组的状态和超大数据集的数据是否全部检验:
若第一数组为非满数组状态,且超大数据集存在未检验的数据,则检验超大数据集的数据,若符合特定特征,则将该数据对应第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应第一数组中字段位置的数值设置为第二数据标记值,形成数据集检验信息。
若第一数组为满数组状态,且超大数据集存在未检验的数据,则将第一数组中的第一数据标记值和第二数据标记值进行持久化处理,如存储至硬盘中,并清空第一数组。继续检验超大数据集的数据,若符合特定特征,则将该数据对应第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应第一数组中字段位置的数值设置为第二数据标记值,并更新至数据集检验信息。在此,采用持久化处理数组中的数据,以保证内存中的数据不要太大。
若超大数据集的数据全部检验,则将第一数据标记值和第二数据标记值保存为数据集检验信息。
在第二数组信息更新时,该方法的实现过程如下:
检验第二数组的状态和是否存在未更新标记值检验结果的信息组:
若第二数组为非满数组状态,且存在未更新标记值检验结果的信息组,则根据未更新标记值检验结果信息组的信息组位置,确定该信息组在第二数组中的目标字段。将该信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段。
若第二数组为满数组状态,且存在未更新标记值检验结果的信息组,则将第二数组中的第一标记值检验结果和第二标记值检验结果进行持久化处理,并清空第二数组;根据未更新标记值检验结果信息组的信息组位置,确定该信息组在清空后的第二数组中的目标字段。将该信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段。
若标记值检验结果全部更新,则保存第一标记值检验结果和第二标记值检验结果。
在此,采用上述处理过程,使该方法能够处理不同数据量的数据集,以满足多样化业务需求,且数据处理结果准确、可靠。
第二方面,本发明实施例提供一种基于超大数据集的数据处理装置,结合图2,该装置包括第一数组构建模块1、数据集检验模块2、第二数组构建模块3、信息组划分模块4和第二数组更新模块5,第一数组构建模块1用于根据预获取的字段数和第一设定值,构建第一数组,第一数组为二维数组;数据集检验模块2用于检验超大数据集的数据,若符合指定的特定特征,则将该数据对应第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应第一数组中字段位置的数值设置为第二数据标记值,形成数据集检验信息;第二数组构建模块3用于根据字段数和第二设定值,构建第二数组,第二设定值是根据预设比例值和第一设定值确定的数值,第二数组为二维数组;信息组划分模块4用于根据预设比例值,将数据集检验信息进行划分,依次形成多个信息组,并记录每个信息组的信息组位置;第二数组更新模块5用于检验每个信息组,若该信息组包含第一数据标记值,则设置该组的检验结果为第一标记值检验结果,若该信息组不包含第一数据标记值,则设置该组的检验结果为第二标记值检验结果;根据每个信息组位置,确定该信息组在第二数组中的目标字段;将每个信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段。
由上述技术方案可知,本实施例提供的基于超大数据集的数据处理装置,通过检验超大数据集的数据中的特定特征数据,形成数据集检验信息,能够准确地获取特定特征数据的坐标位置,有助于进行快速定位。并且,该装置还能对数据集检验信息进行分组与检验,以便于清晰、简要地高度化显示特定特征数据,方便用户快速进行区域切换,使用户能够准确、高效地掌握超大数据集中的特定特征数据分布,提高业务处理效率。
因此,本实施例基于超大数据集的数据处理装置,能够对超大数据集进行数据处理,以使特定特征数据进行清晰、简要地显示、快速切换区域和定位,方便用户快速地浏览、查看和处理,且运算效率高、结果可靠。
具体地,本实施例基于超大数据集的数据处理装置还包括第一可视化显示模块,第一可视化显示模块用于采用可视化显示方式,将第一数据标记值和第二数据标记值进行显示。该装置还包括第二可视化显示模块,第二可视化显示模块用于采用可视化显示方式,将第一标记值检验结果和第二标记值检验结果进行显示。在此,该装置可以采用多种可视化显示方式,进行显示,如图片显示方式、列表显示方式等,以便于用户查看,满足实际应用业务需求。
例如,第一可视化显示模块包括第一图片显示子模块和第一列表显示子模块,第一图片显示子模块用于采用图片显示方式,将第一数据标记值和第二数据标记值形成第一图片,进行显示;第一列表显示子模块用于采用列表显示方式,将第一数据标记值和第二数据标记值形成第一列表,进行显示。
第二可视化显示模块包括第二图片显示子模块和第二列表显示子模块,第二图片显示子模块用于采用图片显示方式,将第一标记值检验结果和第二标记值检验结果形成第二图片,进行显示;第二列表显示子模块用于采用列表显示方式,将第一标记值检验结果和第二标记值检验结果形成第二列表,进行显示。
在此,第一可视化显示模块和第二可视化显示模块能够为不同的数值赋予不同的颜色或列表形式,以更直观展现不同特性。同时,针对大数据场景下,第一图片的数据量仍会很大,第二可视化显示模块还能够进行选择性的显示,即显示更为精简的第二图片或第二列表,以方便用户快速浏览特定特征数据,更直观的掌握特定特征数据的分布状况,满足业务需求。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种基于超大数据集的数据处理方法,其特征在于,包括:
第一数组构建步骤:根据预获取的字段数和第一设定值,构建第一数组,所述第一数组为二维数组;
数据集检验步骤:检验超大数据集的数据,若符合指定的特定特征,则将该数据对应所述第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应所述第一数组中字段位置的数值设置为第二数据标记值,形成数据集检验信息;
第二数组构建步骤:根据所述字段数和第二设定值,构建第二数组,所述第二设定值是根据预设比例值和所述第一设定值确定的数值,所述第二数组为二维数组;
信息组划分步骤:根据所述预设比例值,将所述数据集检验信息进行划分,依次形成多个信息组,并记录每个信息组的信息组位置;
第二数组更新步骤:检验每个信息组,若该信息组包含所述第一数据标记值,则设置该组的检验结果为第一标记值检验结果,若该信息组不包含所述第一数据标记值,则设置该组的检验结果为第二标记值检验结果;
根据每个信息组位置,确定该信息组在所述第二数组中的目标字段;
将每个信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段。
2.根据权利要求1所述基于超大数据集的数据处理方法,其特征在于,
在所述数据集检验步骤之后,该方法还包括:
采用可视化显示方式,将所述第一数据标记值和所述第二数据标记值进行显示;
在所述第二数组更新步骤之后,该方法还包括:
采用可视化显示方式,将所述第一标记值检验结果和所述第二标记值检验结果进行显示。
3.根据权利要求2所述基于超大数据集的数据处理方法,其特征在于,
所述采用可视化显示方式,将所述第一数据标记值和所述第二数据标记值进行显示,具体包括:
采用图片显示方式,将所述第一数据标记值和所述第二数据标记值形成第一图片,进行显示;
采用列表显示方式,将所述第一数据标记值和所述第二数据标记值形成第一列表,进行显示;
所述采用可视化显示方式,将所述第一标记值检验结果和所述第二标记值检验结果进行显示,具体包括:
采用图片显示方式,将所述第一标记值检验结果和所述第二标记值检验结果形成第二图片,进行显示;
采用列表显示方式,将所述第一标记值检验结果和所述第二标记值检验结果形成第二列表,进行显示。
4.根据权利要求3所述基于超大数据集的数据处理方法,其特征在于,
在显示所述第一图片之后,该方法还包括:
接收用户发送的第一指定区域的数据显示指令;
根据所述第一指定区域的数据显示指令,计算第一指定区域在所述超大数据集的坐标区间;
根据所述超大数据集的坐标区间,获取并显示该第一指定区域的数据;
在显示所述第二图片之后,该方法还包括:
接收用户发送的第二指定区域的数据显示指令;
根据所述第二指定区域的数据显示指令,从所述第一图片中截取与第二指定区域相应的子图,进行显示。
5.根据权利要求1所述基于超大数据集的数据处理方法,其特征在于,
在所述数据集检验步骤之后,该方法还包括:
根据所述第一数据标记值和该第一数据标记值的字段位置,获取对应于所述超大数据集的特定特征数据,进行显示;
在所述第二数组更新步骤之后,该方法还包括:
根据所述第一标记值检验结果和该第一标记值检验结果的信息组位置,获取对应于所述超大数据集的指定数据区间;
根据所述特定特征,检验所述指定数据区间的数据,确定并显示特定特征数据。
6.根据权利要求1所述基于超大数据集的数据处理方法,其特征在于,
检验超大数据集的数据,若符合指定的特定特征,则将该数据对应所述第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应所述第一数组中字段位置的数值设置为第二数据标记值,形成数据集检验信息,具体包括:
检验所述第一数组的状态和所述超大数据集的数据是否全部检验:
若所述第一数组为非满数组状态,且所述超大数据集存在未检验的数据,则检验所述超大数据集的数据,若符合所述特定特征,则将该数据对应所述第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应所述第一数组中字段位置的数值设置为第二数据标记值;
若所述第一数组为满数组状态,且所述超大数据集存在未检验的数据,则:将所述第一数组中的第一数据标记值和第二数据标记值进行持久化处理,并清空所述第一数组;
继续检验所述超大数据集的数据,若符合所述特定特征,则将该数据对应所述第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应所述第一数组中字段位置的数值设置为第二数据标记值;
若所述超大数据集的数据全部检验,则将所述第一数据标记值和所述第二数据标记值保存为数据集检验信息。
7.根据权利要求1所述基于超大数据集的数据处理方法,其特征在于,
根据每个信息组位置,将所述每个信息组的标记值检验结果更新至所述第二数组,具体包括:
检验所述第二数组的状态和是否存在未更新标记值检验结果的信息组:
若所述第二数组为非满数组状态,且存在未更新标记值检验结果的信息组,则:根据所述未更新标记值检验结果信息组的信息组位置,确定该信息组在所述第二数组中的目标字段;
将该信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段;
若所述第二数组为满数组状态,且存在未更新标记值检验结果的信息组,则:将所述第二数组中的第一标记值检验结果和第二标记值检验结果进行持久化处理,并清空所述第二数组;
根据所述未更新标记值检验结果信息组的信息组位置,确定该信息组在清空后的第二数组中的目标字段;
将该信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段;
若标记值检验结果全部更新,则保存所述第一标记值检验结果和所述第二标记值检验结果。
8.一种基于超大数据集的数据处理装置,其特征在于,包括:
第一数组构建模块:用于根据预获取的字段数和第一设定值,构建第一数组,所述第一数组为二维数组;
数据集检验模块:用于检验超大数据集的数据,若符合指定的特定特征,则将该数据对应所述第一数组中字段位置的数值设置为第一数据标记值,否则,将该数据对应所述第一数组中字段位置的数值设置为第二数据标记值,形成数据集检验信息;
第二数组构建模块:用于根据所述字段数和第二设定值,构建第二数组,所述第二设定值是根据预设比例值和所述第一设定值确定的数值,所述第二数组为二维数组;
信息组划分模块:用于根据所述预设比例值,将所述数据集检验信息进行划分,依次形成多个信息组,并记录每个信息组的信息组位置;
第二数组更新模块:用于检验每个信息组,若该信息组包含所述第一数据标记值,则设置该组的检验结果为第一标记值检验结果,若该信息组不包含所述第一数据标记值,则设置该组的检验结果为第二标记值检验结果;根据每个信息组位置,确定该信息组在所述第二数组中的目标字段;将每个信息组的第一标记值检验结果或第二标记值检验结果更新至该信息组的目标字段。
9.根据权利要求8所述基于超大数据集的数据处理装置,其特征在于,
该装置还包括第一可视化显示模块,用于采用可视化显示方式,将所述第一数据标记值和所述第二数据标记值进行显示;
该装置还包括第二可视化显示模块,用于采用可视化显示方式,将所述第一标记值检验结果和所述第二标记值检验结果进行显示。
10.根据权利要求9所述基于超大数据集的数据处理装置,其特征在于,所述第一可视化显示模块,具体包括:
第一图片显示子模块,用于采用图片显示方式,将所述第一数据标记值和所述第二数据标记值形成第一图片,进行显示;
第一列表显示子模块,用于采用列表显示方式,将所述第一数据标记值和所述第二数据标记值形成第一列表,进行显示;
所述第二可视化显示模块,具体包括:
第二图片显示子模块,用于采用图片显示方式,将所述第一标记值检验结果和所述第二标记值检验结果形成第二图片,进行显示;
第二列表显示子模块,用于采用列表显示方式,将所述第一标记值检验结果和所述第二标记值检验结果形成第二列表,进行显示。
CN201611243826.6A 2016-12-29 2016-12-29 基于超大数据集的数据处理方法及装置 Active CN106777280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611243826.6A CN106777280B (zh) 2016-12-29 2016-12-29 基于超大数据集的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611243826.6A CN106777280B (zh) 2016-12-29 2016-12-29 基于超大数据集的数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN106777280A CN106777280A (zh) 2017-05-31
CN106777280B true CN106777280B (zh) 2020-07-17

Family

ID=58928601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611243826.6A Active CN106777280B (zh) 2016-12-29 2016-12-29 基于超大数据集的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN106777280B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577576A (zh) * 2017-09-07 2018-01-12 苏州凯瑟兰特信息科技有限公司 一种基于大数据的计算机网络测试系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1360700A (zh) * 1999-05-31 2002-07-24 特博数据实验室公司 用于链接表格式数据的方法以及表现链接的表格式数据的方法
CN104268216A (zh) * 2014-09-24 2015-01-07 江苏名通信息科技有限公司 一种基于互联网信息的数据清洗系统
CN104636485A (zh) * 2015-02-16 2015-05-20 广东省公安厅 基于数据监控的多数据源数据关联方法和装置
CN106056427A (zh) * 2016-05-25 2016-10-26 中南大学 一种基于Spark的大数据混合模型的移动推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9218371B2 (en) * 2012-02-29 2015-12-22 International Business Machines Corporation Automatic table cleanup for relational databases

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1360700A (zh) * 1999-05-31 2002-07-24 特博数据实验室公司 用于链接表格式数据的方法以及表现链接的表格式数据的方法
CN104268216A (zh) * 2014-09-24 2015-01-07 江苏名通信息科技有限公司 一种基于互联网信息的数据清洗系统
CN104636485A (zh) * 2015-02-16 2015-05-20 广东省公安厅 基于数据监控的多数据源数据关联方法和装置
CN106056427A (zh) * 2016-05-25 2016-10-26 中南大学 一种基于Spark的大数据混合模型的移动推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数据挖掘中的数据质量检验;朱德志;《金融电子化 》;20080707;第55页-第56页 *

Also Published As

Publication number Publication date
CN106777280A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
WO2010147644A1 (en) Method and system for near-duplicate image searching
CN112100795A (zh) 一种计算机辅助设计图纸的对比方法及装置
CN114998097A (zh) 图像对齐方法、装置、计算机设备和存储介质
CN114003160B (zh) 数据可视化展示方法、装置、计算机设备和存储介质
US9035972B2 (en) Intelligent axis labels
CN106777280B (zh) 基于超大数据集的数据处理方法及装置
KR102282284B1 (ko) 오브젝트 집합의 시각적 표현을 제공하는 방법, 장치, 기기 및 저장 매체
CN111382223A (zh) 电子地图的展示方法、终端和电子设备
US9392293B2 (en) Accelerated image processing
US11568836B2 (en) Subpixel text rendering
CN105407338A (zh) 一种图像色彩填充方法和装置
CN112257134B (zh) 模型管理方法、装置及电子设备
CN105654457A (zh) 图像处理装置和方法
CN111028283B (zh) 图像检测方法、装置、设备及可读存储介质
CN106485767B (zh) 一种绘制符号的方法及装置
JP2015078964A (ja) 検査記録装置及び検査記録評価方法
CN113535174B (zh) 一种信息查找方法、装置、设备及存储介质
CN113760686B (zh) 用户界面的测试方法、装置、终端和存储介质
CN111127310B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN116452702A (zh) 信息图表快速设计方法、装置、计算机设备和存储介质
CN117788726A (zh) 一种地图数据的渲染方法、装置、电子设备及存储介质
CN114218903A (zh) 表格数据处理方法、装置、计算机设备及存储介质
CN114820547A (zh) 车道线检测方法、装置、计算机设备、存储介质
CN116664674A (zh) 遥感图像注记方法、装置、设备以及存储介质
CN115908841A (zh) 图像识别方法、装置、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 518000 2203/2204, Building 1, Huide Building, Beizhan Community, Minzhi Street, Longhua District, Shenzhen, Guangdong

Patentee after: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd.

Address before: 518000 units J and K, 12 / F, block B, building 7, Baoneng Science Park, Qinghu Industrial Zone, Qingxiang Road, Longhua New District, Shenzhen City, Guangdong Province

Patentee before: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd.