CN112559523A - 数据探查方法、装置、电子设备以及存储介质 - Google Patents
数据探查方法、装置、电子设备以及存储介质 Download PDFInfo
- Publication number
- CN112559523A CN112559523A CN202011462110.1A CN202011462110A CN112559523A CN 112559523 A CN112559523 A CN 112559523A CN 202011462110 A CN202011462110 A CN 202011462110A CN 112559523 A CN112559523 A CN 112559523A
- Authority
- CN
- China
- Prior art keywords
- probing
- field
- probed
- data
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 42
- 239000000523 sample Substances 0.000 claims description 21
- 230000007717 exclusion Effects 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 abstract description 10
- 230000003287 optical effect Effects 0.000 description 6
- 238000007405 data analysis Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013515 script Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- PHIQHXFUZVPYII-UHFFFAOYSA-N carnitine Chemical compound C[N+](C)(C)CC(O)CC([O-])=O PHIQHXFUZVPYII-UHFFFAOYSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013522 software testing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种数据探查方法、装置、电子设备及存储介质。该方法包括:根据探查范围条件从连接的各数据库中匹配至少一个目标数据表;获取各所述目标数据表的数据结构,确定各所述目标数据表中的待探查字段;基于预先设置的探查规则,分别对各待探查字段进行探查,并确定探查结果,其中,所述探查规则包括字段填充探查规则、特征值探查规则、字段长度探查规则和字段字典码探查规则中的至少一项。通过本发明实施例提供的技术方案,实现了自动地完成不同数据库类型的数据表中数据质量的探查分析,操作方便,提高了数据探查的效率。
Description
技术领域
本发明实施例涉及数据分析技术领域,尤其涉及一种数据探查方法、装置、电子设备以及存储介质。
背景技术
随着大数据时代的到来,数据的应用也日趋重要,越来越多的应用和服务都基于数据而建立,数据的重要性不言而喻。而且,数据质量是数据分析和数据挖掘结论有效性和准确性的基础,也是这一切的数据驱动决策的前提。如何保障数据质量,确保数据可用性是每一位数据人都不可忽略的重要环节。
传统技术一般是通过手动编写各个独立的检测脚本去逐表探查分析原始数据质量;并直接使用各个独立的检测脚本执行对应的任务式查询。但是,若每次进行数据检测时,都需要通过手动编写重复的检测脚本,会耗费大量人力,从而降低了数据检测效率。
发明内容
本发明提供一种数据探查方法、装置、电子设备以及存储介质,以实现自动地完成不同数据库类型的数据表中数据质量的探查分析,操作方便,提高了数据探查的效率。
第一方面,本发明实施例提供了一种数据探查方法,应用于数据探查装置,该方法包括:
根据探查范围条件从连接的各数据库中匹配至少一个目标数据表;
获取各所述目标数据表的数据结构,确定各所述目标数据表中的待探查字段;
基于预先设置的探查规则,分别对各待探查字段进行探查,并确定探查结果,其中,所述探查规则包括字段填充探查规则、特征值探查规则、字段长度探查规则和字段字典码探查规则中的至少一项。
第二方面,本发明实施例还提供了一种数据表探查装置,该装置包括:
目标数据表确定模块,用于根据探查范围条件从连接的各数据库中匹配至少一个目标数据表;
待探查字段确定模块,用于获取各所述目标数据表的数据结构,确定各所述目标数据表中的待探查字段;
探查结果确定模块,用于基于预先设置的探查规则,分别对各待探查字段进行探查,并确定探查结果,其中,所述探查规则包括字段填充探查规则、特征值探查规则、字段长度探查规则和字段字典码探查规则中的至少一项。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例提供的数据探查方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的数据探查方法。
本发明通过根据探查范围条件从连接的各数据库中匹配至少一个目标数据表;获取各所述目标数据表的数据结构,确定各所述目标数据表中的待探查字段;基于预先设置的探查规则,分别对各待探查字段进行探查,并确定探查结果,根据探查结果中的字段填充探查结果、特征值探查结果、字段长度探查结果和字段字典码探查结果,确定待探查字段的数据质量。通过本发明实施例提供的技术方案,实现了自动地完成不同数据库类型的数据表中数据质量的探查分析,操作方便,提高了数据探查的效率。
附图说明
为了更加清楚地说明本发明示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
图1是本发明实施例一提供的数据探查方法的流程示意图;
图2是本发明实施例二提供的数据表探查装置的结构示意图;
图3为本发明实施例三提供的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种数据探查方法的流程图,本实施例可适用于在软件测试中进行性能测试的情况。该方法可以由数据表探查装置来执行,该装置可以由软件和/或硬件的方式来实现。如图1所示,该方法具体包括以下步骤:
在介绍本发明实施例提供的技术方案之前,先对本技术方案的应用场景进行介绍:在数据分析技术领域,在对数据进行分析之前需要确保数据质量的有效性和准确性。为了保证数据质量以及数据的可用性,现有技术中通常是通过技术人员编写对检测脚本去探查当前需要探查的数据库的原始数据质量,并且检测脚本不能通用与各个不同类别的数据库之间,耗费了大量的人力物力,使数据检测效率低下。本发明实施例提供的技术方案为了解决上述技术问题,本发明实施例提供的技术方案设置数据探查装置完成各类型数据库中数据的探查分析及统计,并将探查结束之后,整合探查结果,结合待探查的数据表生成探查报告,方便数据分析人员分析探查的数据的数据质量。首先,为了保证探查装置的通用性和灵活性,预先配置该数据探查装置的运行配置文件,以使数据探查方法执行该探查装置时可以直接读取配置文件中的配置参数,顺利执行数据探查方法。其中,运行配置文件包括源数据的数据类型、数据库实例名、数据库连接方式、数据库实例、数据库用户名和密码等配置参数。
可选的,读取运行配置文件,根据所述配置文件中各数据库的连接方式对各数据库进行连接。其中,数据库包括但不限于Oracle、mysql、mpp、hive、txt、excel、csv、word等数据库。具体的,可以采用ADO(Active Data Objects,活动数据对象)方式进行数据库连接,本实施例对连接方式不加以限制。
S110、根据探查范围条件从连接的各数据库中匹配至少一个目标数据表。
在本发明实施例中,探查范围条件可以是根据需求设定的获取至少一个目标数据库的探查条件,例如实现方式为查询all_tab_comments表获取库表清单时,增加table_name的表名过滤条件。目标数据表可以是根据数据库探查范围条件从连接的多个数据库中确定的待探查的数据库。至少一个目标数据表说明不止一个目标数据表,即数量可以是一个也可以是多个。
可选的,获取所述探查范围条件和匹配方式,基于所述探查范围条件和所述匹配方式生成匹配指令,执行所述匹配指令在各数据库中确定至少一个目标数据表,其中,所述匹配方式包括精确匹配参数、模糊匹配参数、精确排除参数和模糊排除参数中的任一项。其中,精确匹配参数为extract_match、模糊匹配参数为fuzzy_match、精确排除参数为exact_not_match、模糊排除参数为fuzzy_not_match。匹配指令时基于匹配方式和探查范围条件生成的数据库匹配指令,用于确定待探查的至少一个目标数据表。
具体的,当不需要对全部的数据库中的数据表进行探查分析时,基于匹配方式和探查范围条件生成的数据库匹配指令确定待探查的至少一个目标数据表。示例性的,当期望对Oracle库中T_开头和G_开头或名为PERSON_INFO的表进行探查,但是不包括表名中标识了_TMP的表,可以使用以下配置实现:extract_match=PERSON_INFO;fuzzy_match=T_,G_;exact_not_match=_TMP。
S120、获取各所述目标数据表的数据结构,确定各所述目标数据表中的待探查字段。
在本实施例中,数据结构可以是存储数据表中待探查数据的方式。待探查字段可以是目标数据表的数据结构中的各个字段,例如字段名、字段描述、字段类型、字段长度等字段。具体的,可以获取数据结构中的各个字段,可以获取预设探查字段作为待探查字段,也可以将所有的字段作为带探查字段,还可以根据实际情况具体设置待探查字段,本实施例对此不加以限制。
可选的,确定所述待探查字段的数据数量,当所述待探查字段的数据数量大于预设数量时,对所述待探查字段的数据进行抽样,确定所述待探查字段对应的进行探查的数据。具体的,当数据表中的待探查字段的数据数量超过预设数据数量,且该字段的数据中存在大量的重复数据时,对该字段中的数据进行随机抽样,并对抽样后的字段进行数据探查。采用随机抽样的方式可以保证探查结果的有效性,并且,当减少数据数量也可以使数据探查的计算量减少,提高探查效率。
S130、基于预先设置的探查规则,分别对各待探查字段进行探查,并确定探查结果,其中,所述探查规则包括字段填充探查规则、特征值探查规则、字段长度探查规则和字段字典码探查规则中的至少一项。
其中,探查规则是对各待探查字段进行探查分析的探查指标,探查规则包括字段填充探查规则、特征值探查规则、字段长度探查规则和字段字典码探查规则中的至少一项。具体的,在进行数据探查之前,预先设置探查规则。根据探查规则对待探查的字段进行探查分析,并确定各待探查字段的探查结果。其中探查结果包括探查填充率、特征值符合率、字段长度最值和待探查字段对应的字典码中至少一项。
可选的,探查所述待探查字段对应的数据是否被填充,确定填充字段数量,并确定所述待探查字段中填充字段数量占所述待探查字段的数据数量的百分比,确定所述探查填充率。
其中,填充字段数量可以是待探查字段中有填充值的字段的数量。可选的,将确定的探查填充率在探查报告中进行展示。具体的,计算探查填充率的公式可以是:
可选的,探查所述待探查字段对应的各特征值的有效性,确定所述待探查字段中所有特征值的字段数量占所述待探查字段的数据数量的百分比,确定所述特征值符合率。
在本发明实施例中,特征值的含义为能够标识现实世界实体信息的内容,每个特征值都有唯一对应的特征值类型。特征值符合率就是为了探查分析数据内容规范性的符合情况,当特征值符合规范时为有效特征值。具体的,在计算特征值符合率之前需要识别当前待探查字段中的特征值对应的特征类型确定当前待探查字段中的特征值。
示例性的,当通过待探查字段中的字段描述(例如旅馆位置、旅馆地址、旅馆详细地)确定当前待探查字段中的特征值对应的特征类型为旅馆地址,并通过旅馆地址确定当前待探查字段中的唯一特征值为旅馆。再例如,当通过待探查字段中的字段描述(车牌号码、车牌数字)确定当前待探查字段中的特征值对应的特征类型为车牌号,并通过旅馆地址确定当前待探查字段中的唯一特征值为车牌。
可选的,当确定所述待探查字段属于预设特征类型,获取所述待探查字段的特征值,并对所述特征值进行特征值校验。具体的,预先设置可以进行特征值校验的特征类型为预设特征类型,当确定当前特征值的特征类型属于预设特征类型时,对该特征值进行特征值校验。其中,预设特征值类型为符合正则表达式的特征值类型。当对特征值进行特征值校验时,需要定义当前特征值对应的校验方法,校验方法可以是预先进行定义,也可以是根据实际情况进行具体定义。
示例性的,当确定上述实施例中的车牌号为预设特征类型时,对该类型对应的待探查字段中的特征值按照预先定义的校验方法(例如check_carnum校验方法)对该特征值进行校验。
可选的,根据校验成功的有效特征值与所有参与校验的特征值计算当前待探查字段的特征值符合率。可选的,当得到的特征值符合率不满足预设阈值时,将特征值符合率在生成的探查报告中进行显示。其中,特征值符合率的计算公式可以是:
可选的,探查所述待探查字段对应的数据内容长度,确定所述待探查字段的字段长度最值。
其中,字段长度最值包括字段最长值和字段最短值。具体的,确定各个待探查字段对应的数据的内容长度,并对各个字段的内容长度进行对比,确定待探查字段的字段最长值或者字段最短值,并在之后生成的探测结构报告中进行展示。
可选的,探查所述待探查字段的描述信息,确定所述待探查字段对应的字典码。
其中,字典码可以是性别代码、证件种类代码等。具体的,采用预设识别方式识别待探查字段中的描述信息中的字典码,并将该识别结果在探查报告中进行展示。其中,预设识别代码可以是神经网络识别模型,也可以是根据输入的识别信息确定识别结果。可选的,可以将字典码以枚举方式在探查报告中进行展示。
为了方便探查分析人员更方便的获取所有的探查数据结果,在确定各带探查数据的探查结果之后,将所述探查结果进行整合,并基于所述探查结果和所述目标数据表生成探查报告。
其中,探查报告可以是以Excel表格的形式进行展示。具体的,探查报告中包括探查目录总表和探查明细表。其中,探查目录总表包括所述目标数据表、各目标数据表的数据数量、字段数量、特征类型数量以及特征类型信息。探查目录总表用来表示当前待探查的数据结果的整体统计信息,方便数据分析人员了解当前数据探查分析过程中的待探查数据表以及数据表中的各字段的基本信息。所述探查明细表包括:所述待探查字段的探查分析结果和所述探查分析结果的样例数据。探查明细表用来表示当前待探查字段的探查分析结果中各探查结果的详细信息,方便开放以及数据分析人员通过探查结果的详细信息有针对性的对各待探查字段进行分析,以对数据性能进一步的优化。
本发明通过根据探查范围条件从连接的各数据库中匹配至少一个目标数据表;获取各所述目标数据表的数据结构,确定各所述目标数据表中的待探查字段;基于预先设置的探查规则,分别对各待探查字段进行探查,并确定探查结果,根据探查结果中的字段填充探查结果、特征值探查结果、字段长度探查结果和字段字典码探查结果,确定待探查字段的数据质量。本发明实施例提供的技术方案通过设置探查装置,将该装置与各数据库连接,对各数据库中的数据表进行结构和数据内容的高效率探查,实现了自动地完成不同数据库类型的数据表中数据质量的探查分析,操作方便,提高了数据探查的效率。
以下是本发明实施例提供的数据表探查装置的实施例,该装置与上述各实施例的数据探查方法属于同一个发明构思,在数据表探查装置的实施例中未详尽描述的细节内容,可以参考上述数据探查方法的实施例。
实施例二
图2为本发明实施例二提供的数据表探查装置的结构示意图,本实施例可适用于在软件测试中进行性能测试的情况。该数据表探查装置的具体包括:目标数据表确定模块210、待探查字段确定模块220和探查结果确定模块230。其中:
目标数据表确定模块210根据探查范围条件从连接的各数据库中匹配至少一个目标数据表。
待探查字段确定模块220获取各所述目标数据表的数据结构,确定各所述目标数据表中的待探查字段。
探查结果确定模块230基于预先设置的探查规则,分别对各待探查字段进行探查,并确定探查结果,其中,所述探查规则包括字段填充探查规则、特征值探查规则、字段长度探查规则和字段字典码探查规则中的至少一项。
本发明通过根据探查范围条件从连接的各数据库中匹配至少一个目标数据表;获取各所述目标数据表的数据结构,确定各所述目标数据表中的待探查字段;基于预先设置的探查规则,分别对各待探查字段进行探查,并确定探查结果,根据探查结果中的字段填充探查结果、特征值探查结果、字段长度探查结果和字段字典码探查结果,确定待探查字段的数据质量。本发明实施例提供的技术方案通过设置探查装置,将该装置与各数据库连接,对各数据库中的数据表进行结构和数据内容的高效率探查,实现了自动地完成不同数据库类型的数据表中数据质量的探查分析,操作方便,提高了数据探查的效率。
在上述技术方案的基础上,目标数据表确定模块210之前,还包括:
数据库连接单元,用于读取运行配置文件,根据所述配置文件中各数据库的连接方式对各数据库进行连接。
在上述技术方案的基础上,目标数据表确定模块210,包括:
目标数据表确定单元,用于获取所述探查范围条件和匹配方式,基于所述探查范围条件和所述匹配方式生成匹配指令,执行所述匹配指令在各数据库中确定至少一个目标数据表,其中,所述匹配方式包括精确匹配参数、模糊匹配参数、精确排除参数和模糊排除参数中的任一项。
在上述技术方案的基础上,待探查字段确定模块220之后,还包括:
探查数据确定单元,用于确定所述待探查字段的数据数量,当所述待探查字段的数据数量大于预设数量时,对所述待探查字段的数据进行抽样,确定所述待探查字段对应的进行探查的数据。
在上述技术方案的基础上,探查结果确定模块230,包括:
第一探查结果确定单元,用于探查所述待探查字段对应的数据是否被填充,确定填充字段数量,并确定所述待探查字段中填充字段数量占所述待探查字段的数据数量的百分比,确定所述探查填充率。
第二探查结果确定单元,用于探查所述待探查字段对应的各特征值的有效性,确定所述待探查字段中所有特征值的字段数量占所述待探查字段的数据数量的百分比,确定所述特征值符合率。
第三探查结果确定单元,用于探查所述待探查字段对应的数据内容长度,确定所述待探查字段的字段长度最值。
第四探查结果确定单元,用于探查所述待探查字段的描述信息,确定所述待探查字段对应的字典码。
在上述技术方案的基础上,第二探查结果确定单元,包括:
特征值校验单元,用于当确定所述待探查字段属于预设特征类型,获取所述待探查字段的特征值,并对所述特征值进行特征值校验。
在上述技术方案的基础上,探查结果确定模块230之后,还包括:
将所述探查结果进行整合,并基于所述探查结果和所述目标数据表生成探查报告。
本发明实施例所提供的数据表探查装置可执行本发明任意实施例所提供的数据探查方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述数据表探查装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例三
图3为本发明实施例三提供的一种电子设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图3显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备12以通用计算电子设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图3中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及样本数据获取,例如实现本发实施例所提供的一种数据探查方法步骤,数据探查方法包括:
根据探查范围条件从连接的各数据库中匹配至少一个目标数据表;
获取各所述目标数据表的数据结构,确定各所述目标数据表中的待探查字段;
基于预先设置的探查规则,分别对各待探查字段进行探查,并确定探查结果,其中,所述探查规则包括字段填充探查规则、特征值探查规则、字段长度探查规则和字段字典码探查规则中的至少一项。
实施例四
本实施例四提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现例如实现本发实施例所提供的一种数据探查方法步骤,数据探查方法包括:
根据探查范围条件从连接的各数据库中匹配至少一个目标数据表;
获取各所述目标数据表的数据结构,确定各所述目标数据表中的待探查字段;
基于预先设置的探查规则,分别对各待探查字段进行探查,并确定探查结果,其中,所述探查规则包括字段填充探查规则、特征值探查规则、字段长度探查规则和字段字典码探查规则中的至少一项。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种数据探查方法,其特征在于,应用于数据探查装置,包括:
根据探查范围条件从连接的各数据库中匹配至少一个目标数据表;
获取各所述目标数据表的数据结构,确定各所述目标数据表中的待探查字段;
基于预先设置的探查规则,分别对各待探查字段进行探查,并确定探查结果,其中,所述探查规则包括字段填充探查规则、特征值探查规则、字段长度探查规则和字段字典码探查规则中的至少一项。
2.根据权利要求1所述的方法,其特征在于,在根据探查范围条件从连接的各数据库中匹配至少一个目标数据表之前,还包括:
读取运行配置文件,根据所述配置文件中各数据库的连接方式对各数据库进行连接。
3.根据权利要求1所述的方法,其特征在于,根据探查范围条件从连接的各数据库中匹配至少一个目标数据表,包括:
获取所述探查范围条件和匹配方式,基于所述探查范围条件和所述匹配方式生成匹配指令,执行所述匹配指令在各数据库中确定至少一个目标数据表,其中,所述匹配方式包括精确匹配参数、模糊匹配参数、精确排除参数和模糊排除参数中的任一项。
4.根据权利要求1所述的方法,其特征在于,在确定各所述目标数据表中的待探查字段之后,所述方法还包括:
确定所述待探查字段的数据数量,当所述待探查字段的数据数量大于预设数量时,对所述待探查字段的数据进行抽样,确定所述待探查字段对应的进行探查的数据。
5.根据权利要求4所述的方法,其特征在于,所述基于预先设置的探查规则,分别对各待探查字段进行探查,并确定探查结果,包括:
探查所述待探查字段对应的数据是否被填充,确定填充字段数量,并确定所述待探查字段中填充字段数量占所述待探查字段的数据数量的百分比,确定所述探查填充率;和/或,
探查所述待探查字段对应的各特征值的有效性,确定所述待探查字段中所有特征值的字段数量占所述待探查字段的数据数量的百分比,确定所述特征值符合率;和/或,
探查所述待探查字段对应的数据内容长度,确定所述待探查字段的字段长度最值;和/或,
探查所述待探查字段的描述信息,确定所述待探查字段对应的字典码。
6.根据权利要求5所述的方法,其特征在于,所述探查所述待探查字段对应的各特征值的有效性,包括:
当确定所述待探查字段属于预设特征类型,获取所述待探查字段的特征值,并对所述特征值进行特征值校验。
7.根据权利要求1所述的方法,其特征在于,在确定探查结果之后,所述方法还包括:
将所述探查结果进行整合,并基于所述探查结果和所述目标数据表生成探查报告。
8.一种数据表探查装置,其特征在于,包括:
目标数据表确定模块,用于根据探查范围条件从连接的各数据库中匹配至少一个目标数据表;
待探查字段确定模块,用于获取各所述目标数据表的数据结构,确定各所述目标数据表中的待探查字段;
探查结果确定模块,用于基于预先设置的探查规则,分别对各待探查字段进行探查,并确定探查结果,其中,所述探查规则包括字段填充探查规则、特征值探查规则、字段长度探查规则和字段字典码探查规则中的至少一项。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的数据探查方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的数据探查方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011462110.1A CN112559523A (zh) | 2020-12-11 | 2020-12-11 | 数据探查方法、装置、电子设备以及存储介质 |
PCT/CN2021/109589 WO2022121337A1 (zh) | 2020-12-11 | 2021-07-30 | 数据探查方法、装置、电子设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011462110.1A CN112559523A (zh) | 2020-12-11 | 2020-12-11 | 数据探查方法、装置、电子设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112559523A true CN112559523A (zh) | 2021-03-26 |
Family
ID=75062769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011462110.1A Pending CN112559523A (zh) | 2020-12-11 | 2020-12-11 | 数据探查方法、装置、电子设备以及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112559523A (zh) |
WO (1) | WO2022121337A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722325A (zh) * | 2021-08-31 | 2021-11-30 | 北京锐安科技有限公司 | 数据库中表信息检测方法、装置、计算机设备及存储介质 |
CN113961571A (zh) * | 2021-12-22 | 2022-01-21 | 太极计算机股份有限公司 | 一种基于数据探针的多模态数据感知方法及装置 |
WO2022121337A1 (zh) * | 2020-12-11 | 2022-06-16 | 北京锐安科技有限公司 | 数据探查方法、装置、电子设备以及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117200802A (zh) * | 2022-12-28 | 2023-12-08 | 山东华科信息技术有限公司 | 用于电网边缘计算层的数据压缩系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708909A (zh) * | 2015-11-18 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 数据质量的检测方法和装置 |
CN108389621A (zh) * | 2018-02-08 | 2018-08-10 | 山东康网网络科技有限公司 | 病案首页数据质量检测方法及系统 |
CN110737650A (zh) * | 2019-09-27 | 2020-01-31 | 北京明略软件系统有限公司 | 数据质量检测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559523A (zh) * | 2020-12-11 | 2021-03-26 | 北京锐安科技有限公司 | 数据探查方法、装置、电子设备以及存储介质 |
-
2020
- 2020-12-11 CN CN202011462110.1A patent/CN112559523A/zh active Pending
-
2021
- 2021-07-30 WO PCT/CN2021/109589 patent/WO2022121337A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708909A (zh) * | 2015-11-18 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 数据质量的检测方法和装置 |
CN108389621A (zh) * | 2018-02-08 | 2018-08-10 | 山东康网网络科技有限公司 | 病案首页数据质量检测方法及系统 |
CN110737650A (zh) * | 2019-09-27 | 2020-01-31 | 北京明略软件系统有限公司 | 数据质量检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
洪洲等: "C#.NET应用开发项目教程", 31 May 2012, 东软电子出版社, pages: 152 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022121337A1 (zh) * | 2020-12-11 | 2022-06-16 | 北京锐安科技有限公司 | 数据探查方法、装置、电子设备以及存储介质 |
CN113722325A (zh) * | 2021-08-31 | 2021-11-30 | 北京锐安科技有限公司 | 数据库中表信息检测方法、装置、计算机设备及存储介质 |
CN113961571A (zh) * | 2021-12-22 | 2022-01-21 | 太极计算机股份有限公司 | 一种基于数据探针的多模态数据感知方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2022121337A1 (zh) | 2022-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112559523A (zh) | 数据探查方法、装置、电子设备以及存储介质 | |
CN111343161B (zh) | 异常信息处理节点分析方法、装置、介质及电子设备 | |
CN109582906B (zh) | 数据可靠度的确定方法、装置、设备和存储介质 | |
CN111240961A (zh) | 一种基于电网大数据平台的数据库性能测试系统和方法 | |
CN115346686A (zh) | 关系图谱生成方法及装置、存储介质及电子设备 | |
CN110647523A (zh) | 数据质量的分析方法及装置、存储介质、电子设备 | |
CN113138906A (zh) | 一种调用链数据采集方法、装置、设备及存储介质 | |
CN112882956A (zh) | 一种通过数据组合计算自动生成全场景自动化测试案例的方法、装置、存储介质及电子设备 | |
CN112507075A (zh) | 一种病例数据搜索方法、系统、设备及存储介质 | |
CN115022201B (zh) | 一种数据处理功能测试方法、装置、设备及存储介质 | |
CN113792138B (zh) | 报表生成方法、装置、电子设备及存储介质 | |
CN113791980B (zh) | 测试用例的转化分析方法、装置、设备及存储介质 | |
CN116185393A (zh) | 接口文档的生成方法、装置、设备、介质及产品 | |
CN113626558B (zh) | 一种基于智能推荐的字段标准化的方法和系统 | |
CN110457705B (zh) | 一种兴趣点数据处理方法、装置、设备和存储介质 | |
CN111399843B (zh) | 将sql运行信息映射到sql文件的方法、系统及电子设备 | |
CN115168848A (zh) | 基于大数据分析拦截的拦截反馈处理方法 | |
CN113590495A (zh) | 一种测试覆盖率的确定方法、装置、设备及存储介质 | |
CN112214469A (zh) | 路测数据处理方法、装置、服务器及存储介质 | |
CN113656391A (zh) | 数据检测方法及装置、存储介质及电子设备 | |
CN112597041A (zh) | 代码覆盖率的跨分支合并方法、系统、设备及存储介质 | |
CN112416727A (zh) | 批处理作业的检核方法、装置、设备及介质 | |
CN113901094B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN110866557B (zh) | 数据评价方法及装置、存储介质及电子设备 | |
CN110399411B (zh) | 数据源切换方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |