CN112131296A - 一种数据探查方法、装置、电子设备和存储介质 - Google Patents
一种数据探查方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112131296A CN112131296A CN202011036080.8A CN202011036080A CN112131296A CN 112131296 A CN112131296 A CN 112131296A CN 202011036080 A CN202011036080 A CN 202011036080A CN 112131296 A CN112131296 A CN 112131296A
- Authority
- CN
- China
- Prior art keywords
- data
- probing
- row
- rule
- column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000011218 segmentation Effects 0.000 claims abstract description 85
- 238000013075 data extraction Methods 0.000 claims abstract description 48
- 239000000523 sample Substances 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000000638 solvent extraction Methods 0.000 claims 3
- 238000001514 detection method Methods 0.000 abstract description 7
- 238000005192 partition Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 6
- 238000007405 data analysis Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004140 cleaning Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
Abstract
本发明实施例公开了一种数据探查方法、装置、电子设备和存储介质,该数据探查方法包括:获取与数据源对应的数据抽取规则、分割规则和探查需求,基于所述数据抽取规则和所述数据源,确定待处理数据,基于所述分割规则对所述待处理数据进行分割,得到分割数据,基于所述探查需求对所述分割数据进行探查,得到探查结果,能够对不同数据源的数据分别通过对应的分割规则进行分割,之后根据分割结果进行探查,解决了仅根据数据源数据的默认字段进行探查而无法获取有用的数据信息的问题,提高了数据的利用效率。
Description
技术领域
本发明实施例涉及大数据处理领域,尤其涉及一种数据探查方法、装置、电子设备和存储介质。
背景技术
随着万物互联的发展,我们已经进入了大数据时代,数据的存储结构也日新月异。数量庞大、增长迅猛、种类多样的数据已经成为企业在大数据时代发展不得不面临的现实境况,能够快速地,准确地掌握各种来源数据的数据结构信息,可以大量降低在数据分析上的投入成本,快速挖掘出数据的价值。数据探查是未来大数据处理领域的一大趋势。
现有的数据探查方法,通常是通过获取不同数据源的待处理数据,利用待处理数据的字段来进行数据探查。现有技术中至少存在以下缺点:现有技术只能根据数据本身默认的字段进行探查,对于有些数据源对默认的字段进行探查并不能获得有用的数据信息,降低了数据的利用效率。
发明内容
本发明实施例提供了一种数据探查方法、装置、电子设备和存储介质,以实现对不同数据源的数据进行探查,提高数据利用效率。
第一方面,本发明实施例提供了一种数据探查方法,包括:
获取与数据源对应的数据抽取规则、分割规则和探查需求;
基于所述数据抽取规则和所述数据源,确定待处理数据;
基于所述分割规则对所述待处理数据进行分割,得到分割数据;
基于所述探查需求对所述分割数据进行探查,得到探查结果。
第二方面,本发明实施例还提供了一种数据探查装置,该数据探查装置包括:
获取模块,用于获取与数据源对应的数据抽取规则、分割规则和探查需求;
待处理数据确定模块,用于基于所述数据抽取规则和所述数据源,确定待处理数据;
分割模块,用于基于所述分割规则对所述待处理数据进行分割,得到分割数据;
探查模块,用于基于所述探查需求对所述分割数据进行探查,得到探查结果。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本申请任一实施例所述的数据探查方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请任意实施例提供的数据探查方法。
本发明实施例通过获取与数据源对应的数据抽取规则、分割规则和探查需求,基于数据抽取规则和所述数据源,确定待处理数据,基于分割规则对待处理数据进行分割,得到分割数据,基于探查需求对分割数据进行探查,得到探查结果。可见,本案对于不同数据源的数据分别通过对应的分割规则进行分割,之后根据分割结果进行探查,解决了仅根据数据源数据的默认字段进行探查而无法获取有用的数据信息的问题,提高了数据的利用效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种数据探查方法的流程示意图;
图2是本发明实施例二提供的一种数据探查方法的流程示意图;
图3是本发明实施例三提供的一种多源异构数据的探查方法的示意图;
图4是本发明实施例四提供的一种数据探查装置的结构框图;
图5是本发明实施例五提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种数据探查方法的流程示意图,本实施例可适用于对不同数据源的不同结构的数据进行探查的情况。该方法可以由数据探查装置来执行,该装置可以由软件和/或硬件的方式来实现,集成于本发明实施例提供的电子设备中,例如可配置于电脑中,在此不作具体限制。
如图1所示,本实施例提供的数据探查方法具体包括以下步骤:
S110、获取与数据源对应的数据抽取规则、分割规则和探查需求。
不同数据源的数据对应的数据抽取规则不同,数据抽取规则可以包括不同数据源的数据抽取方法、抽取的数据数量等。
可选的,根据数据源的类型确定数据抽取规则。
不同类型的数据源的数据结构不同,根据不同的数据结构确定对应的数据抽取规则。
示例性的,当数据源的类型为数据库表时,此时的数据类型为结构数据,数据库的抽取规则可以是,利用join方法制定抽取待抽取数据库表的数据,和/或抽取数据库表中待抽取字段的数据,其中,待抽取数据库表和待抽取字段可以根据探查需求进行选择和设定;当数据源的类型为文件时,此时的数据类型为非结构数据,文件的抽取规则可以是,利用机器学习的抽取方法根据具体的数据文件制定读取的数据文件个数,可以是每个文件中的数据较少时,读取较多的数据文件,如果文件中数据量较大,则读取较少的数据文件,本发明实施例对数据抽取规则不作具体限制。
需要说明的是,数据抽取规则中可以设定数据源对应的数据抽取方法,以使对数据源的数据进行抽取时读取配置的抽取方法,可以在配置数据抽取方法时设定读取数据的数量。
根据数据源的类型确定数据抽取规则,可以实现对不同数据源的数据进行快速抽取。
分割规则是指对于抽取之后的数据如何进行行分割、列分割的规则,基于分割规则对抽取数据进行分割,能够方便后续进行数据探查。其中,分割规则例如可以是通过设置不同的分隔符对数据进行行分割和列分割,也可以是根据数据中包含的需求属性设置分割符,本发明实施例对分割规则不作具体限制。
探查需求是指对于不同数据源的数据,需要了解的数据属性信息,通过获取探查需求可以确定特定数据源的数据属性信息,示例性的,对于数据库表来说,探查需求可以是字段名、字段类型等信息,对于文件数据探查需求可以是字段长度、语义等,本发明实施例对探查需求不作具体限制。
数据抽取规则、分割规则和探查需求可以根据数据源的类型预先进行设定,且不同数据源的数据抽取规则、分割规则和探查需求可以不相同。
对数据抽取规则、分割规则和探查需求预设进行设定并配置在系统文件中,进行数据探查时可以从配置文件中直接读取。
S120、基于数据抽取规则和数据源,确定待处理数据。
基于不同数据源对应的数据抽取规则,可使用JAVA多线程对数据源的数据进行抽取,将抽取到的数据确定为待处理数据。其中,待处理数据用于进行数据探查。
示例性的,对不同系统的不同结构的数据利用对应的数据抽取方法进行数据抽取时,可以是全量抽取,即将数据源中的数据原封不动的从数据系统中抽取出来,还可以是基于增量抽取,即抽取自上次抽取以来数据系统中新增、修改、删除的数据,本发明实施例对数据抽取的方式不作具体限制。
S130、基于分割规则对待处理数据进行分割,得到分割数据。
从不同数据源抽取到的数据,数据结构可能不相同,需要对不同结构的待处理数据归一化成相同的结构形式。分割规则是指用于对待处理数据进行归一化的规则,利用分割规则将待处理数据分割成相同的形式,得到不同数据源对应的分割数据。
S140、基于探查需求对分割数据进行探查,得到探查结果。
探查需求中包含了关于不同数据源的数据属性信息,可以将不同的数据属性信息制定成探查项,并根据探查项对分割后的数据进行探查,对分割数据进行探查时,可以认为根据探查规则进行数据探查,其中,探查规则可以包括探查项和分割规则中包含的分割位置信息,示例性的,分割规则中根据分隔符进行分割,则探查规则中可以包含分割符的位置信息,根据分隔符的位置和探查项对数据进行探查,得到不同数据源的数据探查信息。
数据探查主要是实现对表数据、文件数据等进行探索、分析的功能,把与数据质量相关需求内置为探查项,探查数据是否满足用户的数据质量需求。
可选的,基于探查需求对分割数据进行探查,得到探查结果之后,还包括:
统计探查结果,得到统计结果,基于探查需求和统计结果,输出探查报告。
由于待处理数据按分割规则进行分割后,再按探查规则包含的分割位置信息进行探查,所以探查的信息是各个分隔符分割的字段信息,并不是整个抽取的数据的信息,还需要对探查后的数据信息进行统计,以得到对抽取数据的整体探查结果,然后基于整体探查结果和探查需求包含的探查项,输出探查报告。其中,探查报告可以包含对各字段的探查信息,也可以包含整个数据源探查的统计结果,还可以是数据探查项的分布图,本发明实施例对探查报告的内容不作具体限制。
本发明实施例提供的数据探查方法,可以针对各种数据库、数据文件等不同数据结构的数据,进行提取、探查、分析、加工。对探查结果进行统计、输出,以便快速掌握数据内容、数据质量和数据结构。为大数据的数据分析和数据清洗提供重要依据。支持数据探查结果预览、探查结果详情查看、数据分布图生成等功能。可以帮助数据分析师更快、更好的了解来源数据的内容、结构以及特性,快速发现来源数据中的异常数据,更好的进行数据分析以及数据清洗,可极大加快提取数据价值的速度。
本发明实施例提供的一种数据探查的方法,通过获取与数据源对应的数据抽取规则、分割规则和探查需求,基于数据抽取规则和数据源,确定待处理数据,基于分割规则对待处理数据进行分割,得到分割数据,基于探查需求对分割数据进行探查,得到探查结果,实现了对不同数据源的数据分别通过对应的分割规则进行分割,之后根据分割结果进行探查,解决了仅根据数据源数据的默认字段进行探查而无法获取有用的数据信息的问题,提高了数据的利用效率。
实施例二
图2是本发明实施例二提供的数据探查方法的流程示意图,本实施例在上述各实施例的基础上,将分割规则进一步细化为行分割规则和列分割规则,并对应的按行分割规则进行行探查,按列分割规则进行列探查,可以对不同数据源的数据根据探查需求,通过自定义确定字段进行探查。其中与上述各实施例相同或相应的术语的解释在此不再赘述。
参见图2,本实施例提供的数据探查方法,包括:
S210、获取与数据源对应的数据抽取规则、分割规则和探查需求。
S220、基于数据抽取规则和数据源,确定待处理数据。
S230、基于行分割规则,对待处理数据进行行分割,得到行分割数据。
行分割规则可以认为是,针对归一化成行列式的待处理数据进行行分割的规则。其中,行分割规则例如可以为,根据加载的行分割规则中的行分隔符,对待处理数据进行每行数据的分割,分割之后数据以一行一行的形式表示为行分割数据,可选的,行分割符默认可以是Tab键,此时将Tab键作为行分割规则。示例性的,对于文件数据,可以以句号作为分隔符,将每一句分割成一行;对于数据库表中的数据,可以以制表符作为分隔符进行数据分割,得到行分割数据,本发明实施例对于对待处理数据进行行分割的方式不作具体限制。
S240、基于列分割规则,对行分割数据进行列分割,得到行列分割数组。
对待处理数据基于行分割规则进行行分割,得到行分割数据后,可以基于列分割规则中的列分隔符,对每行数据进行列分割,最终得到了行列分割数组。因此,行列分割数组是由行分隔符和列分隔符对行列式形式的待处理数据进行分割得到的数组,其中,每个数组元素可以看成是一个字段,不同的字段长度可以不同。
S250、基于探查需求对行列分割数组进行行探查,得到行探查结果。
其中,可以根据探查需求中包含的行探查项,对行列分割数组的每行数据进行探查,得到每行数据关于行探查项的探查结果。
可选的,对行列分割数组进行下述至少一项行探查:异常数据筛选、数据排序、数据重复率以及统计数据记录数。
对行列分割数组的每行数据进行数据筛选、排序以及记录数据重复率,统计待处理数据的记录数等信息。其中,数据筛选可以是通过判断异常数据,对有问题的异常数据进行筛选,数据排序可以是对不同行的数据按每行的长短重新进行排序,数据重复率可以是确定不同行的数据重复的行数。可以根据总的数据行数,和重复的数据行数,确定数据重复率。其中,每一行数据为一条数据,同时也是一个记录,纪录数为各行数据的总数量,通过记录数可以确定从对应的数据源中共抽取了多少条数据,本发明实施例对于行探查项的内容不作具体限制。
对行列分割数组按行探查规则进行行探查,可以确定每行数据的信息,进而分析每行数据的质量。
S260、基于探查需求对行列分割数组进行列探查,得到列探查结果。
其中,可以根据探查需求包含的列探查项,对行列分割数组的每列数据分别进行探查,得到每列数据关于列探查项的探查结果。列探查实际上是基于列分隔符对每列数据进行关于列探查项的探查,其中,字段是上述步骤中根据列分隔符分割每行数据确定的。
可选的,对行列分割数组进行下述至少一项列探查:格式、类型、长度、数值、空值率、最大值、最小值、平均值以及值域分布。
对数据进行行探查之后,再根据列分隔符对每行数据的每列探查对应列的数据格式、数据类型、数据长度、数值、空值率、最大值、最小值、平均值以及值域分布等信息。
其中,空值率可以指该列对应的数据的值得未知的数据项占数据项总量的比值,值域分布可以是指每列数据的最大值和最小值包括的值域范围。
示例性的,数据格式可以是十进制的,也可以是二进制的等,数据类型可以是数值型数据,也可以是字符型数据,还可以是代码类型的数据。对于数值型的数据,可以探查具体数值、空值率和值域分布等探查项。本发明实施例对列探查项的内容不作具体限制。
对行列分割数据进行列探查,可以获取每列数据的信息,便于对每行数据的每列进行探查,进而分析按列分割规则分割的每列数据的质量。
S270、统计探查结果,得到统计结果,基于探查需求和所述统计结果,输出探查报告。
本发明提供的实施例针对各种数据库、数据文件等不同数据结构的数据,进行提取、探查、分析、加工。对探查结果进行统计、输出,以便快速掌握数据内容、数据质量和数据结构,为大数据的数据分析和数据清洗提供重要依据。
本实施例的技术方案,通过获取与数据源对应的数据抽取规则、分割规则和探查需求,基于数据抽取规则和数据源,确定待处理数据,基于行分割规则,对待处理数据进行行分割,得到行分割数据,基于列分割规则,对行分割数据进行列分割,得到行列分割数组,基于探查需求对行列分割数组进行行探查,得到行探查结果,统计探查结果,得到统计结果,基于探查需求和所述统计结果,输出探查报告,基于探查需求对行列分割数组进行列探查,得到列探查结果,实现了根据对不同数据源的数据根据探查需求,通过自定义确定字段进行数据探查,提高了数据的使用效率。
实施例三
图3为本发明实施例三提供的一种多源异构数据的探查方法示意图,其中与上述各实施例相同或相应的术语的解释在此不再赘述。
如图3所示,示例性的,多源异构数据的探查的过程为:
S310、数据抽取。对数据库、文件系统、文件传输协议(File Transfer Protocol,FTP)系统以及消息中间件系统的不同结构的数据,分别按对应的数据抽取规则进行数据抽取。
S320、读取探查规则。根据读取的探查规则中的行探查规则探查各行数据的重复率、记录数据的行数等,对应的根据探查规则中的字段探查规则,即列探查规则,进行字段探查,字段探查可以包括探查完整性、唯一性、正确性、一致性或者有效性,可选的,可以通过探查字段是否有空值确定字段的完整性,可以探查某字段值是否是唯一的,还可以探查字段的长度和类型等是否正确,字段长度是否和字段规则指定的字段长度一致等,还可以探查字段的值对于探查需求来说是否具有有效性。
S330、数据操作。对数据进行数据探查时,基于数据探查规则对数据进行分析、排序、数据结构探查和筛选等数据操作。
S340、质量统计。根据探查结果通过质量统计进行质量评估,质量统计可以是行统计和字段统计,行统计对重复率进行统计、对记录数进行统计,字段统计可以是字段类型统计、字段值数统计、字段长度统计、字段空值及占比、字段最大值统计、字段最小值统计、字段平均值统计、字段值重复率统计以及字段值域分析等。
S350、探查报告输出。最后根据实际数据探查的统计信息,以及探查需求输出最终数据探查报告,以供数据分析和数据清洗使用。
本实施例提供的数据探查方法能够根据行探查规则和字段探查规则对不同数据源的数据进行探查,并根据探查结果进行质量统计,提高了数据的利用效率。
需要说明的是,本公开任意一个实施例所描述的技术特征的实现方式,在与本实施例不矛盾的前提下,均可应用到本实施例中,具有与该技术特征相同或者相应的有益效果,在此不再赘述。
实施例四
图4是本发明实施例四提供的一种数据探查装置的结构框图,本实施例可适用于对不同数据源的不同结构的数据进行探查的情况。应用数据探查的装置可以实现本发明任一实施例所提供的数据探查方法。如图4所示,数据探查装置包括:
获取模块410,用于获取与数据源对应的数据抽取规则、分割规则和探查需求;
待处理数据确定模块420,用于基于所述数据抽取规则和所述数据源,确定待处理数据;
分割模块430,用于基于所述分割规则对所述待处理数据进行分割,得到分割数据;
探查模块440,用于基于所述探查需求对所述分割数据进行探查,得到探查结果。
可选的,获取与数据源对应的数据抽取规则,包括:
根据数据源的类型确定数据抽取规则。
具体的,分割规则包括行分割规则和列分割规则;
相应的,分割模块430包括:
行分割单元,用于基于行分割规则,对待处理数据进行行分割,得到行分割数据;
列分割单元,用于基于列分割规则,对行分割数据进行列分割,得到行列分割数组。
相应的,探查模块440包括:
行探查模块,用于基于探查需求对行列分割数组进行行探查,得到行探查结果;
列探查模块,用于基于探查需求对行列分割数组进行列探查,得到列探查结果。
具体的,对行列分割数组进行下述至少一项行探查:异常数据筛选、数据排序、数据重复率以及统计数据记录数;
对行列分割数组进行下述至少一项列探查:格式、类型、长度、数值、空值率、空值占比、最大值、最小值、平均值以及值域分布。
优选的,数据探查装置还包括:
统计模块,用于统计探查结果,得到统计结果;
输出模块,用于基于探查需求和统计结果,输出探查报告。
本发明实施例所提供的数据探查装置,获取模块,用于获取与数据源对应的数据抽取规则、分割规则和探查需求,待处理数据确定模块,用于基于数据抽取规则和所述数据源,确定待处理数据,分割模块,用于基于分割规则对待处理数据进行分割,得到分割数据,探查模块,用于基于探查需求对分割数据进行探查,得到探查结果。
本发明实施例所提供的数据探查装置,可执行本发明任一实施例所数据探查方法,具备执行方法相应的功能模块和有益效果。未详尽描述的技术细节,可参见本发明任一实施例所提供的数据探查方法。
实施例五
图5是本发明实施例五提供的一种电子设备的结构示意图。图5示出了适于用来实现本发明任一实施方式的示例性电子设备12的框图。图5显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,存储器28,连接不同组件(包括存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
电子设备12典型地包括多种计算机可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机装置可读介质,例如随机存取存储器(Random Access Memory,RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品40,该程序产品40具有一组程序模块42,这些程序模块被配置以执行本发明各实施例的功能。程序产品40,可以存储在例如存储器28中,这样的程序模块42包括但不限于一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、鼠标、摄像头等和显示器)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网WideArea Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图5中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)装置、磁带驱动器以及数据备份存储装置等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的数据探查方法,该方法包括:
获取与数据源对应的数据抽取规则、分割规则和探查需求;
基于数据抽取规则和所述数据源,确定待处理数据;
基于分割规则对所述待处理数据进行分割,得到分割数据;
基于探查需求对分割数据进行探查,得到探查结果。
当然,本领域技术人员可以理解,处理器还可以实现本发明任一实施例所提供的数据探查方法。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请任意实施例提供的数据探查方法,该方法包括:
获取与数据源对应的数据抽取规则、分割规则和探查需求;
基于数据抽取规则和所述数据源,确定待处理数据;
基于分割规则对待处理数据进行分割,得到分割数据;
基于探查需求对分割数据进行探查,得到探查结果。
当然,本发明实施例所提供的一种计算机可读存储介质,其上存储的计算机程序不限于如上的方法指令,还可以执行本发明任一实施例所提供的数据探查方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明指令的计算机程序代码,程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种数据探查方法,其特征在于,包括:
获取与数据源对应的数据抽取规则、分割规则和探查需求;
基于所述数据抽取规则和所述数据源,确定待处理数据;
基于所述分割规则对所述待处理数据进行分割,得到分割数据;
基于所述探查需求对所述分割数据进行探查,得到探查结果。
2.根据权利要求1所述方法,其特征在于,所述分割规则包括行分割规则和列分割规则;
相应的,所述基于所述分割规则对所述待处理数据进行分割,得到分割数据,包括:
基于所述行分割规则,对所述待处理数据进行行分割,得到行分割数据;
基于所述列分割规则,对所述行分割数据进行列分割,得到行列分割数组;
相应的,所述基于所述探查需求对所述分割数据进行探查,得到探查结果,包括:
基于所述探查需求对所述行列分割数组进行行探查,得到行探查结果;
基于所述探查需求对所述行列分割数组进行列探查,得到列探查结果。
3.根据权利要求2所述方法,其特征在于,还包括:
对所述行列分割数组进行下述至少一项行探查:异常数据筛选、数据排序、数据重复率以及统计数据记录数;
对所述行列分割数组进行下述至少一项列探查:格式、类型、长度、数值、空值率、最大值、最小值、平均值以及值域分布。
4.根据权利要求1所述的方法,其特征在于,所述获取与数据源对应的数据抽取规则,包括:
根据所述数据源的类型确定所述数据抽取规则。
5.根据权利要求1所述方法,其特征在于,所述基于所述探查需求对所述分割数据进行探查,得到探查结果之后,还包括:
统计所述探查结果,得到统计结果,基于所述探查需求和所述统计结果,输出探查报告。
6.一种数据探查装置,其特征在于,包括:
获取模块,用于获取与数据源对应的数据抽取规则、分割规则和探查需求;
待处理数据确定模块,用于基于所述数据抽取规则和所述数据源,确定待处理数据;
分割模块,用于基于所述分割规则对所述待处理数据进行分割,得到分割数据;
探查模块,用于基于所述探查需求对所述分割数据进行探查,得到探查结果。
7.根据权利要求6所述的装置,其特征在于,所述分割规则包括行分割规则和列分割规则;
相应的,所述分割模块,包括:
行分割单元,用于基于所述行分割规则,对所述待处理数据进行行分割,得到行分割数据;
列分割单元,用于基于所述列分割规则,对所述行分割数据进行列分割,得到行列分割数组;
相应的,所述探查模块,包括:
行探查单元,用于基于所述探查需求对所述行列分割数组进行行探查,得到行探查结果;
列探查单元,用于基于所述探查需求对所述行列分割数组进行列探查,得到列探查结果。
8.根据权利要求6所述的装置,其特征在于,还包括:
统计模块,用于统计所述探查结果,得到统计结果;
输出模块,用于基于所述探查需求和所述统计结果,输出探查报告。
9.一种电子设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的数据探查方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的数据探查方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011036080.8A CN112131296A (zh) | 2020-09-27 | 2020-09-27 | 一种数据探查方法、装置、电子设备和存储介质 |
PCT/CN2021/114969 WO2022062834A1 (zh) | 2020-09-27 | 2021-08-27 | 数据探查方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011036080.8A CN112131296A (zh) | 2020-09-27 | 2020-09-27 | 一种数据探查方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112131296A true CN112131296A (zh) | 2020-12-25 |
Family
ID=73840808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011036080.8A Pending CN112131296A (zh) | 2020-09-27 | 2020-09-27 | 一种数据探查方法、装置、电子设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112131296A (zh) |
WO (1) | WO2022062834A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022062834A1 (zh) * | 2020-09-27 | 2022-03-31 | 北京锐安科技有限公司 | 数据探查方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799574A (zh) * | 2012-06-29 | 2012-11-28 | 无锡永中软件有限公司 | 电子表格的数据分割和合并方法 |
CN107895013A (zh) * | 2017-11-13 | 2018-04-10 | 医渡云(北京)技术有限公司 | 数据质量规则控制方法及装置、存储介质、电子设备 |
CN110990447A (zh) * | 2019-12-19 | 2020-04-10 | 北京锐安科技有限公司 | 一种数据探查方法、装置、设备及存储介质 |
CN111581431A (zh) * | 2020-04-28 | 2020-08-25 | 厦门市美亚柏科信息股份有限公司 | 基于动态评估的数据探查方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7668807B2 (en) * | 2005-02-24 | 2010-02-23 | International Business Machines Corporation | Query rebinding for high-availability database systems |
CN109947429B (zh) * | 2019-03-13 | 2022-07-26 | 咪咕文化科技有限公司 | 数据处理方法及装置 |
CN111680092A (zh) * | 2020-06-05 | 2020-09-18 | 深圳市卡数科技有限公司 | 数据导入hive表的方法、系统、服务器和存储介质 |
CN112131296A (zh) * | 2020-09-27 | 2020-12-25 | 北京锐安科技有限公司 | 一种数据探查方法、装置、电子设备和存储介质 |
-
2020
- 2020-09-27 CN CN202011036080.8A patent/CN112131296A/zh active Pending
-
2021
- 2021-08-27 WO PCT/CN2021/114969 patent/WO2022062834A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799574A (zh) * | 2012-06-29 | 2012-11-28 | 无锡永中软件有限公司 | 电子表格的数据分割和合并方法 |
CN107895013A (zh) * | 2017-11-13 | 2018-04-10 | 医渡云(北京)技术有限公司 | 数据质量规则控制方法及装置、存储介质、电子设备 |
CN110990447A (zh) * | 2019-12-19 | 2020-04-10 | 北京锐安科技有限公司 | 一种数据探查方法、装置、设备及存储介质 |
CN111581431A (zh) * | 2020-04-28 | 2020-08-25 | 厦门市美亚柏科信息股份有限公司 | 基于动态评估的数据探查方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022062834A1 (zh) * | 2020-09-27 | 2022-03-31 | 北京锐安科技有限公司 | 数据探查方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022062834A1 (zh) | 2022-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815147B (zh) | 测试案例生成方法、装置、服务器和介质 | |
CN110826494A (zh) | 标注数据质量评价方法、装置、计算机设备及存储介质 | |
WO2022121337A1 (zh) | 数据探查方法、装置、电子设备以及存储介质 | |
CN112148766A (zh) | 利用人工神经网络模型进行数据抽样的方法和系统 | |
CN110990447A (zh) | 一种数据探查方法、装置、设备及存储介质 | |
CN110688111A (zh) | 业务流程的配置方法、装置、服务器和存储介质 | |
CN112181490A (zh) | 功能点评估法中功能类别的识别方法、装置、设备及介质 | |
WO2022062834A1 (zh) | 数据探查方法、装置、电子设备和存储介质 | |
CN111538903B (zh) | 搜索推荐词确定方法、装置、电子设备及计算机可读介质 | |
CN113760891A (zh) | 一种数据表的生成方法、装置、设备和存储介质 | |
CN113760894A (zh) | 数据调取方法、装置、电子设备及存储介质 | |
CN114116811B (zh) | 日志处理方法、装置、设备及存储介质 | |
US20210271720A1 (en) | Method and apparatus for sending information | |
CN114490390A (zh) | 测试数据生成方法、装置、设备及存储介质 | |
CN113553309A (zh) | 一种日志模板的确定方法、装置、电子设备及存储介质 | |
CN113673214A (zh) | 信息清单的对齐方法、装置、存储介质和电子设备 | |
CN112416727A (zh) | 批处理作业的检核方法、装置、设备及介质 | |
CN110750569A (zh) | 数据提取方法、装置、设备及存储介质 | |
CN111680083A (zh) | 智能化多级政府财政数据采集系统及数据采集方法 | |
CN114003630B (zh) | 一种数据搜索方法、装置、电子设备及存储介质 | |
CN117076515B (zh) | 医疗管理系统中元数据的溯源方法、装置、服务器及存储介质 | |
CN113792138B (zh) | 报表生成方法、装置、电子设备及存储介质 | |
CN112307050B (zh) | 一种重复关联计算的识别方法、装置及计算机系统 | |
Levi et al. | Emojis as indicators of spatial-temporal-thematic developments in geo-social media | |
CN109710651B (zh) | 数据类型识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |