CN111581431B - 基于动态评估的数据探查方法和装置 - Google Patents

基于动态评估的数据探查方法和装置 Download PDF

Info

Publication number
CN111581431B
CN111581431B CN202010351013.9A CN202010351013A CN111581431B CN 111581431 B CN111581431 B CN 111581431B CN 202010351013 A CN202010351013 A CN 202010351013A CN 111581431 B CN111581431 B CN 111581431B
Authority
CN
China
Prior art keywords
probing
result
data
exploration
data source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010351013.9A
Other languages
English (en)
Other versions
CN111581431A (zh
Inventor
周成祖
王国威
刘超
林文楷
魏超
齐战胜
吴朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN202010351013.9A priority Critical patent/CN111581431B/zh
Publication of CN111581431A publication Critical patent/CN111581431A/zh
Application granted granted Critical
Publication of CN111581431B publication Critical patent/CN111581431B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于动态评估的数据探查方法和装置,通过根据数据源的类型和探查维度调用探查引擎对数据源进行数据探查,得到第一探查结果;对第一探查结果进行评估,得到评估结果,根据评估结果对探查流程进行动态调整,获得动态匹配的探查规则,并通过探查规则获得第二探查结果;计算第二探查结果的有效探查项比例,根据有效探查比例判断探查规则的有效性,对第二探查结果进行确认以获得最终探查结果。通过动态调整数据探查的操作路径,实现不同类型数据的自动探查工作,提高数据探查的工作效率,结合不同的数据源和探查结果,智能推荐探查结果,实现所有接入数据源的自动探查工作,高效支撑各种不同数据源的探查,提升大数据智能化接入效率。

Description

基于动态评估的数据探查方法和装置
技术领域
本发明涉及视频结构化领域,具体涉及一种基于动态评估的数据探查方法和装置。
背景技术
随着社会进入大数据时代,各种大数据系统需要接入不同行业、多种多样的数据源的原始数据,只有探查清楚数据源的存储位置、提供方式、总量及更新情况、业务含义、数据结构、数据质量等信息,才能让大数据系统真正认识数据,更好地接入数据,所以如何快速准确地探查清楚各个数据源的详细信息,并基于探查结果自动调整数据接入策略,成为大数据建设成败和提高大数据利用价值的核心点。
由于大数据系统接入的原始数据的种类多、结构复杂等特点,目前市场上现有的数据探查方法,主要通过手工填写模板进行数据源信息的登记工作,这些技术存在以下不足:
1)数据探查的方式,通过手工配置的方式完成信息登记,工作量大,探查的时效性差,且由于需要探查的数据项多,经常存在少填、漏填或填写错误等问题。
2)数据探查的范围,只能针对有维护厂家支撑的数据源进行信息登记,无法全面覆盖所有接入数据源的探查工作。
有鉴于此,建立一种新型的数据探查方法和装置是非常具有意义的。
发明内容
针对上述提到的探查数据量大、效率低、工作量大、时效性差,并且无法全面覆盖等问题。本申请的实施例的目的在于提出了一种基于动态评估的数据探查方法和装置来解决以上背景技术部分提到的技术问题。
第一方面,本申请的实施例提供了一种基于动态评估的数据探查方法,包括以下步骤:
S1:根据数据源的类型和探查维度调用探查引擎对数据源进行数据探查,得到第一探查结果;
S2:对第一探查结果进行评估,得到评估结果,根据评估结果对探查流程进行动态调整,获得动态匹配的探查规则,并通过探查规则获得第二探查结果;以及
S3:计算第二探查结果的有效探查项比例,根据有效探查比例判断探查规则的有效性,对第二探查结果进行确认以获得最终探查结果。
通过动态调用不同数据源的探查引擎、动态调整数据源的探查路径,最后智能推荐探查结果,提升大数据智能化接入的工作效率。
在一些实施例中,步骤S1具体包括:
S11:建立类型规则库,分析数据源的特征并结合类型规则库的特征权重计算得到特征与类型规则库的相似度,得到数据源的类型;
S12:建立引擎资源目录和探查规则库,根据数据源的类型结合探查规则库得到探查关联引擎集合,基于引擎资源目录调取探查关联引擎集合中的探查引擎进行数据探查,得到第一探查结果;以及
S13:根据第一探查结果更新探查规则库。
针对不同类型的数据源及不同的维度建立探查规则库,通过引擎动态匹配算法分析不同数据源的特征自动匹配调动相应的探查引擎,根据第一探查结果更新探查规则库,循环提高不同场景下不同数据探查的动态匹配能力。
在一些实施例中,步骤S11具体包括:判断相似度是否超过第一阈值,若超过,则判定数据源为类型规则库中的已知类型,通过已知类型的连接测试方式对数据源进行连接测试验证,验证通过后则认定已知类型为数据源的类型。通过数据源的特征与类型规则库的相似度进行探查引擎动态匹配,选择合适的探查引擎进行数据探查,提高复杂场景下不同数据源的探查准确率。
在一些实施例中,引擎资源目录通过不同类型的数据源及其对应的不同维度的探查引擎注册形成。通过将不同数据类型的不同维度探查引擎注册成引擎资源目录,可形成全局性的引擎插件式服务,适用于各种不同的场景。
在一些实施例中,类型规则库通过获取不同类型的数据源及其对应的特征进行建立,探查规则库通过获取不同类型的数据源的特征及相匹配的探查引擎的信息进行建立。类型规则库和探查规则库可以建立在不同类型数据源的不同维度的基础上,高效探查不同类型数据源的详细信息,提升海量数据的介入和分析能力。
在一些实施例中,步骤S2具体包括:
S21:建立探查路径库,根据数据源的类型结合探查路径库得到数据源的探查操作数据集合;
S22:循环遍历探查操作数据集合,比对探查操作数据集合中的每个数据集合的探查引擎要素,调用对应的探查引擎得到第三探查结果;以及
S23:计算第三探查结果与第一探查结果的匹配度,若匹配度超过第二阈值,则结合探查规则库的调整规则和调整步骤动态调整数据源的探查流程,获得动态匹配的探查规则,通过探查规则获得第二探查结果。
根据每个探查结果的概率分布,动态调整不同场景下的探查流程,提高数据探查的效率和准确性。
在一些实施例中,探查路径库通过获取不同类型的数据源的探查引擎的操作路径信息进行建立。探查路径库的建立有利于对探查流程进行动态调整,提高数据探查的效率和准确性。
在一些实施例中,有效探查项比例为第二探查结果中有返回结果的探查项与所有探查项之比。根据有效探查项比例能够智能判断探查规则的有效性。
在一些实施例中,步骤S3具体包括:若有效探查项比例超过第三阈值,则将第二探查结果设定作为最终探查结果,若有效探查项比例低于第三阈值,则将第二探查结果推送到人工进行二次确认。通过有效探查项比例与第三阈值进行比较获取数据源的最终探查结果,完成数据的自动探查工作,提高探查效率。
第二方面,本申请的实施例还提出了一种基于动态评估的数据探查装置,包括:
探查引擎动态匹配模块,被配置为根据数据源的类型和探查维度调用探查引擎对数据源进行数据探查,得到第一探查结果;
探查流程动态调整模块,被配置为对第一探查结果进行评估,得到评估结果,根据评估结果对探查流程进行动态调整,获得动态匹配的探查规则,并通过探查规则获得第二探查结果;以及
探查结果确认模块,被配置为计算第二探查结果的有效探查项比例,根据有效探查比例判断探查规则的有效性,对第二探查结果进行确认以获得最终探查结果。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本申请的实施例公开了一种基于动态评估的数据探查方法和装置,通过根据数据源的类型和探查维度调用探查引擎对数据源进行数据探查,得到第一探查结果;对第一探查结果进行评估,得到评估结果,根据评估结果对探查流程进行动态调整,获得动态匹配的探查规则,并通过探查规则获得第二探查结果;计算第二探查结果的有效探查项比例,根据有效探查比例判断探查规则的有效性,对第二探查结果进行确认以获得最终探查结果。该基于动态评估的数据探查方法能够解决实战需求,实现基于全流程的动态评估,开展数据的自动探查工作,提升大数据智能化接入效率,动态调整数据探查的操作路径,实现不同类型数据的自动探查工作,提高数据探查的工作效率,结合不同的数据源和探查结果,智能推荐探查结果,实现所有接入数据源的自动探查工作,高效支撑各种不同数据源的自动探查,提升大数据智能化接入效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一个实施例可以应用于其中的示例性装置架构图;
图2为本发明的实施例的基于动态评估的数据探查方法的流程示意图;
图3为本发明的实施例的基于动态评估的数据探查方法的步骤S1的流程示意图;
图4为本发明的实施例的基于动态评估的数据探查方法的步骤S2的流程示意图;
图5为本发明的实施例的基于动态评估的数据探查装置的示意图;
图6是适于用来实现本申请实施例的电子设备的计算机装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示出了可以应用本申请实施例的基于动态评估的数据探查方法或基于动态评估的数据探查装置的示例性装置架构100。
如图1所示,装置架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种应用,例如数据处理类应用、文件处理类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理,生成处理结果。
需要说明的是,本申请实施例所提供的基于动态评估的数据探查方法可以由服务器105执行,也可以由终端设备101、102、103执行,相应地,基于动态评估的数据探查装置可以设置于服务器105中,也可以设置于终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下,上述装置架构可以不包括网络,而只需服务器或终端设备。
图2示出了本申请的实施例公开了一种基于动态评估的数据探查方法,包括以下步骤:
S1:根据数据源的类型和探查维度调用探查引擎对数据源进行数据探查,得到第一探查结果;
S2:对第一探查结果进行评估,得到评估结果,根据评估结果对探查流程进行动态调整,获得动态匹配的探查规则,并通过探查规则获得第二探查结果;以及
S3:计算第二探查结果的有效探查项比例,根据有效探查比例判断探查规则的有效性,对第二探查结果进行确认以获得最终探查结果。
通过动态调用不同数据源的探查引擎、动态调整数据源的探查路径,最后智能推荐探查结果,提升大数据智能化接入的工作效率。
数据源的探查包括接入方式探查、业务探查、字段探查、数据集探查、问题数据探查等多个维度,由于数据源类型多样,结构复杂,针对不同数据源的同一维度的探查方法差异很大,如EXCEL和MySql的问题数据探查方法就完全不同,需要根据不同数据源的特征调用不同的探查引擎。传统采用手工配置的探查方法,无法根据数据源的特征动态调用对应的探查引擎,会存在探查结果出错等问题,通过分析不同数据源的特征,结合探查规则库,自动匹配调用相应的探查引擎,提高复杂场景下不同数据源的探查准确率。
具体地来说,首先通过分析程序,自动匹配调用不同数据源特征的探查引擎,基于探查结果动态调整探查路径,结合探查结果推荐探查结果,高效探查不同类型数据源的详细信息,提升海量数据的接入和分析能力。因此该方法可以解决通过手工配置的方式完成信息登记,工作量大,探查的时效性差;且由于需要探查的数据项多,经常存在少填、漏填或填写错误等问题,还能够全面覆盖所有接入数据源的探查工作。
在具体的实施例中,如图3所示,步骤S1具体包括:
S11:建立类型规则库,分析数据源的特征并结合类型规则库的特征权重计算得到特征与类型规则库的相似度,得到数据源的类型;
S12:建立引擎资源目录和探查规则库,根据数据源的类型结合探查规则库得到探查关联引擎集合,基于引擎资源目录调取探查关联引擎集合中的探查引擎进行数据探查,得到第一探查结果;以及
S13:根据第一探查结果更新探查规则库。
在具体的实施例中,探查规则库通过获取不同类型的数据源的特征及相匹配的探查引擎的信息进行建立。获取不同类型数据源的特征及相匹配探查引擎信息定义如下表:
Figure BDA0002471936750000071
针对不同类型的数据源及不同的维度建立探查规则库,分析不同数据源的特征自动匹配调动相应的探查引擎,根据探第一探查结果更新探查规则库,循环提高不同场景下不同数据探查的动态匹配能力。
在具体的实施例中,步骤S11具体包括:判断相似度是否超过第一阈值,若超过,则判定数据源为类型规则库中的已知类型,通过已知类型的连接测试方式对数据源进行连接测试验证,验证通过后则认定已知类型为数据源的类型。通过数据源的特征与类型规则库的相似度进行探查引擎动态匹配,选择合适的探查引擎进行数据探查,提高复杂场景下不同数据源的探查准确率。在优选的实施例中,类型规则库通过获取不同类型的数据源及其对应的特征进行建立,
步骤S11首先分析数据源的真实后缀名、说明关键词、连接关键词等关键特征,结合类型规则库的特征权重,计算得到数据源特征与规则库的相似度,当相似度达到设置第一阈值,例如第一阈值设置为80%,则初步得到该数据源为类型规则库的已知类型,再通过已类型的连接测试方式对数据源进行连接验证测试,验证通过后即确认该数据源的类型P。
在具体的实施例中,引擎资源目录通过不同类型的数据源及其对应的不同维度的探查引擎注册形成,支持不同数据类型的不同维度探查引擎注册成引擎资源目录,并形成全局性的引擎插件式服务,适用于各种不同的场景。
根据数据源类型P,结合探查规则库,得到探查关联引擎集合Cm,基于引擎资源目录调取Cm进行数据探查。例如:将针对关系型数据库的问题数据探查集合Pn,具体子集包括代码字典表问题探查、数据类型问题探查、数据值逻辑问题探查、数据格式问题探查、必填项为空探查等,将该问题数据探查集合都注册到引擎资源目录,当判断接入数据源为MySql时,则自动调用Pn进行问题数据探查。最后根据探查处理引擎返回的操作结果,更新探查规则库,循环提高不同场景下不同数据探查的动态匹配能力。
数据探查的操作流程,传统的方式是将所有探查操作写到配置文件里,每个数据源探查时都按固定的顺序执行完所有探查动作,这会导致由于数据源的结构、数据项及数据项值的变化,很多探查操作无法正常进行,浪费大量的计算资源。因此本发明通过对探查流程进行动态评估,根据每个探查结果的概率分布,动态调整不同场景下的探查流程,提高数据探查的效率和准确性。
在具体的实施例中,如图4所示,步骤S2具体包括:
S21:建立探查路径库,根据数据源的类型结合探查路径库得到数据源的探查操作数据集合;
S22:循环遍历探查操作数据集合,比对探查操作数据集合中的每个数据集合的探查引擎要素,调用对应的探查引擎得到第三探查结果;以及
S23:计算第三探查结果与第一探查结果的匹配度,若匹配度超过第二阈值,则结合探查规则库的调整规则和调整步骤动态调整数据源的探查流程,获得动态匹配的探查规则,通过探查规则获得第二探查结果。
在具体的实施例中,探查路径库通过获取不同类型的数据源的探查引擎的操作路径信息进行建立。探查路径库的建立有利于对探查流程进行动态调整,提高数据探查的效率和准确性。获取每类数据源的探查引擎的操作路径信息定义如下表:
Figure BDA0002471936750000081
根据接入数据源的大类和小类,结合探查路径库,得到该数据源的探查操作数据集合S,数据集合S包含n个子集合{S1,S2,…,Sn},将探查引擎、顺序号和空探查结果集存储在数据块表里。循环遍历数据集合S,比对每个数据集合Sn的探查引擎要素,调用对应的探查引擎,返回探查引擎的结果集Mn,再根据相同的探查引擎得到之前已确认的数据源的结果集Pn,计算Mn和Pn的匹配度,当匹配度超过第二阈值时,即视为符合需要进行调整,例如:对某一数据源进进行业务探查时,探查得知该数据源的表结构包括40个字段,且这40个字段与已探查清楚的数据源“实名人口库”,在字段含义的匹配度超过匹配阈值设置的90%,则算法自动判断该数据源为实名人口库,并触发调整探查流程的动作。当探查节点满足调整探查流程的条件时,结合探查规则库的调整规则、调整步骤,动态调整数据源的探查顺序,如某数据源A的探查结果已确认为“已知对象B”,满足调整条件,且调整规则为中止,即中止后续所有的探查动作,并将“已知对象B”的探查信息作为该数据源A的第二探查结果Xn,保存数据源的第二探查结果Xn
在具体的实施例中,有效探查项比例为第二探查结果中有返回结果的探查项与所有探查项之比。根据有效探查项比例能够智能判断探查规则的有效性。
在具体的实施例中,步骤S3具体包括:若有效探查项比例超过第三阈值,则将第二探查结果设定作为最终探查结果,若有效探查项比例低于第三阈值,则将第二探查结果推送到人工进行二次确认。
在优选的实施例中,通过计算第二探查结果Xn的有返回结果的探查项与所有探查项的有效比例S,智能判断探查规则的有效性,当有效比例S少于第三阈值时,说明动态匹配的规则没有达到预期或数据源的数据质量存在问题,则将探查结果推送给用户进行二次确认;当有效比例S超过第三阈值时,则说明动态匹配的规则达到预期,则自动将探查结果保存为该数据源的最终探查结果,完成数据的自动探查工作。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种基于动态评估的数据探查装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的基于动态评估的数据探查装置,包括:
探查引擎动态匹配模块1,被配置为根据数据源的类型和探查维度调用探查引擎对数据源进行数据探查,得到第一探查结果;
探查流程动态调整模块2,被配置为对第一探查结果进行评估,得到评估结果,根据评估结果对探查流程进行动态调整,获得动态匹配的探查规则,并通过探查规则获得第二探查结果;以及
探查结果确认模块3,被配置为计算第二探查结果的有效探查项比例,根据有效探查比例判断探查规则的有效性,对第二探查结果进行确认以获得最终探查结果。
在具体的实施例中,探查引擎动态匹配模块1具体包括:
数据源类型确定模块,被配置为建立类型规则库,分析数据源的特征并结合类型规则库的特征权重计算得到特征与类型规则库的相似度,得到数据源的类型;
第一探查模块,被配置为建立引擎资源目录和探查规则库,根据数据源的类型结合探查规则库得到探查关联引擎集合,基于引擎资源目录调取探查关联引擎集合中的探查引擎进行数据探查,得到第一探查结果;以及
探查规则库更新模块,被配置为根据第一探查结果更新探查规则库。
在具体的实施例中,探查规则库通过不同类型的数据源的特征及相匹配的探查引擎的信息进行建立。获取不同类型数据源的特征及相匹配探查引擎信息定义如下表:
Figure BDA0002471936750000101
针对不同类型的数据源及不同的维度建立探查规则库,分析不同数据源的特征自动匹配调动相应的探查引擎,根据探第一探查结果更新探查规则库,循环提高不同场景下不同数据探查的动态匹配能力。
在具体的实施例中,数据源类型确定模块具体包括:判断相似度是否超过第一阈值,若超过,则判定数据源为类型规则库中的已知类型,通过已知类型的连接测试方式对数据源进行连接测试验证,验证通过后则认定已知类型为数据源的类型。通过数据源的特征与类型规则库的相似度进行探查引擎动态匹配,选择合适的探查引擎进行数据探查,提高复杂场景下不同数据源的探查准确率。在优选的实施例中,类型规则库通过不同类型的数据源及其对应的特征进行建立,
数据源类型确定模块首先分析数据源的真实后缀名、说明关键词、连接关键词等关键特征,结合类型规则库的特征权重,计算得到数据源特征与规则库的相似度,当相似度达到设置第一阈值,例如第一阈值设置为80%,则初步得到该数据源为类型规则库的已知类型,再通过已类型的连接测试方式对数据源进行连接验证测试,验证通过后即确认该数据源的类型P。
在具体的实施例中,引擎资源目录通过不同类型的数据源及其对应的不同维度的探查引擎注册形成,支持不同数据类型的不同维度探查引擎注册成引擎资源目录,并形成全局性的引擎插件式服务,适用于各种不同的场景。
根据数据源类型P,结合探查规则库,得到探查关联引擎集合Cm,基于引擎资源目录调取Cm进行数据探查。例如:将针对关系型数据库的问题数据探查集合Pn,具体子集包括代码字典表问题探查、数据类型问题探查、数据值逻辑问题探查、数据格式问题探查、必填项为空探查等都注册到引擎资源目录,当判断接入数据源为MySql时,则自动调用Pn进行问题数据探查。最后根据探查处理引擎返回的操作结果,更新探查规则库,循环提高不同场景下不同数据探查的动态匹配能力。
在具体的实施例中,探查流程动态调整模块2具体包括:
探查操作数据获取模块,被配置为建立探查路径库,根据数据源的类型结合探查路径库得到数据源的探查操作数据集合;
第三探查模块,被配置为循环遍历探查操作数据集合,比对探查操作数据集合中的每个数据集合的探查引擎要素,调用对应的探查引擎得到第三探查结果;以及
探查流程调整模块,被配置为计算第三探查结果与第一探查结果的匹配度,若匹配度超过第二阈值,则结合探查规则库的调整规则和调整步骤动态调整数据源的探查流程,获得动态匹配的探查规则,通过探查规则获得第二探查结果。
在具体的实施例中,探查路径库通过不同类型的数据源的探查引擎的操作路径信息进行建立。探查路径库的建立有利于对探查流程进行动态调整,提高数据探查的效率和准确性。获取每类数据源的探查引擎的操作路径信息定义如下表:
Figure BDA0002471936750000121
根据接入数据源的大类和小类,结合探查路径库,得到该数据源的探查操作数据集合S,数据集合S包含n个子集合{S1,S2,…,Sn},将探查引擎、顺序号和空探查结果集存储在数据块表里。循环遍历数据集合S,比对每个数据集合Sn的探查引擎要素,调用对应的探查引擎,返回探查引擎的结果集Mn,再根据相同的探查引擎得到之前已确认的数据源的结果集Pn,计算Mn和Pn的匹配度,当匹配度超过第二阈值时,即视为符合需要进行调整,例如:对某一数据源进进行业务探查时,探查得知该数据源的表结构包括40个字段,且这40个字段与已探查清楚的数据源“实名人口库”,在字段含义的匹配度超过匹配阈值设置的90%,则算法自动判断该数据源为实名人口库,并触发调整探查流程的动作。当探查节点满足调整探查流程的条件时,结合探查规则库的调整规则、调整步骤,动态调整数据源的探查顺序,如某数据源A的探查结果已确认为“已知对象B”,满足调整条件,且调整规则为中止,即中止后续所有的探查动作,并将“已知对象B”的探查信息作为该数据源A的第二探查结果Xn,保存数据源的第二探查结果Xn
在具体的实施例中,有效探查项比例为第二探查结果中有返回结果的探查项与所有探查项之比,根据有效探查项比例能够智能判断探查规则的有效性。
在具体的实施例中,探查结果确认模块3包括:若有效探查项比例超过第三阈值,则将第二探查结果设定作为最终探查结果,若有效探查项比例低于第三阈值,则将第二探查结果推送到人工进行二次确认。
在优选的实施例中,通过计算第二探查结果Xn的有返回结果的探查项与所有探查项的有效比例S,智能判断探查规则的有效性,当有效比例S少于第三阈值时,说明动态匹配的规则没有达到预期或数据源的数据质量存在问题,则将探查结果推送给用户进行二次确认;当有效比例S超过第三阈值时,则说明动态匹配的规则达到预期,则自动将探查结果保存为该数据源的最终探查结果,完成数据的自动探查工作。
本申请的实施例公开了一种基于动态评估的数据探查方法和装置,通过根据数据源的类型和探查维度调用探查引擎对数据源进行数据探查,得到第一探查结果;对第一探查结果进行评估,得到评估结果,根据评估结果对探查流程进行动态调整,获得动态匹配的探查规则,并通过探查规则获得第二探查结果;计算第二探查结果的有效探查项比例,根据有效探查比例判断探查规则的有效性,对第二探查结果进行确认以获得最终探查结果。该基于动态评估的数据探查方法和装置能够解决实战需求,实现基于全流程的动态评估,开展数据的自动探查工作,提升大数据智能化接入效率,动态调整数据探查的操作路径,实现不同类型数据的自动探查工作,提高数据探查的工作效率,结合不同的数据源和探查结果,智能推荐探查结果,实现所有接入数据源的自动探查工作,高效支撑各种不同数据源的自动探查,提升大数据智能化接入效率。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机装置600包括中央处理单元(CPU)601和图形处理器(GPU)602,其可以根据存储在只读存储器(ROM)603中的程序或者从存储部分609加载到随机访问存储器(RAM)604中的程序而执行各种适当的动作和处理。在RAM 604中,还存储有装置600操作所需的各种程序和数据。CPU 601、GPU602、ROM 603以及RAM604通过总线605彼此相连。输入/输出(I/O)接口606也连接至总线605。
以下部件连接至I/O接口606:包括键盘、鼠标等的输入部分607;包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分608;包括硬盘等的存储部分609;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分610。通信部分610经由诸如因特网的网络执行通信处理。驱动器611也可以根据需要连接至I/O接口606。可拆卸介质612,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器611上,以便于从其上读出的计算机程序根据需要被安装入存储部分609。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分610从网络上被下载和安装,和/或从可拆卸介质612被安装。在该计算机程序被中央处理单元(CPU)601和图形处理器(GPU)602执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:通过根据数据源的类型和探查维度调用探查引擎对数据源进行数据探查,得到第一探查结果;对第一探查结果进行评估,得到评估结果,根据评估结果对探查流程进行动态调整,获得动态匹配的探查规则,并通过探查规则获得第二探查结果;计算第二探查结果的有效探查项比例,根据有效探查比例判断探查规则的有效性,对第二探查结果进行确认以获得最终探查结果。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (9)

1.一种基于动态评估的数据探查方法,其特征在于,包括以下步骤:
S1:根据数据源的类型和探查维度调用探查引擎对所述数据源进行数据探查,得到第一探查结果;
所述S1具体包括:
S11:建立类型规则库,分析所述数据源的特征并结合所述类型规则库的特征权重计算得到所述特征与所述类型规则库的相似度,得到所述数据源的所述类型;所述类型规则库通过获取不同类型的所述数据源及其对应的所述特征进行建立,探查规则库通过获取不同类型的所述数据源的所述特征及相匹配的所述探查引擎的信息进行建立;
S12:建立引擎资源目录和探查规则库,根据所述数据源的所述类型结合所述探查规则库得到探查关联引擎集合,基于所述引擎资源目录调取所述探查关联引擎集合中的所述探查引擎进行数据探查,得到所述第一探查结果;
S13:根据所述第一探查结果更新所述探查规则库;
S2:对所述第一探查结果进行评估,得到评估结果,根据所述评估结果对探查流程进行动态调整,获得动态匹配的探查规则,并通过所述探查规则获得第二探查结果;
所述S2具体包括:
S21:建立探查路径库,根据所述数据源的类型结合所述探查路径库得到所述数据源的探查操作数据集合;
S22:循环遍历所述探查操作数据集合,比对所述探查操作数据集合中的每个数据集合的探查引擎要素,调用对应的所述探查引擎得到第三探查结果;
S23:计算所述第三探查结果与所述第一探查结果的匹配度,若所述匹配度超过第二阈值,则结合所述探查规则库的调整规则和调整步骤动态调整所述数据源的所述探查流程,获得动态匹配的探查规则,通过所述探查规则获得所述第二探查结果;
S3:计算所述第二探查结果的有效探查项比例,根据所述有效探查项比例判断所述探查规则的有效性,对所述第二探查结果进行确认以获得最终探查结果。
2.根据权利要求1所述的基于动态评估的数据探查方法,其特征在于,所述S11具体包括:判断所述相似度是否超过第一阈值,若超过,则判定所述数据源为所述类型规则库中的已知类型,通过所述已知类型的连接测试方式对所述数据源进行连接测试验证,验证通过后则认定所述已知类型为所述数据源的所述类型。
3.根据权利要求1所述的基于动态评估的数据探查方法,其特征在于,所述引擎资源目录通过不同类型的所述数据源及其对应的不同维度的所述探查引擎注册形成。
4.根据权利要求1所述的基于动态评估的数据探查方法,其特征在于,所述探查路径库通过获取不同类型的所述数据源的所述探查引擎的操作路径信息进行建立。
5.根据权利要求1所述的基于动态评估的数据探查方法,其特征在于,所述有效探查项比例为所述第二探查结果中有返回结果的探查项与所有探查项之比。
6.根据权利要求1所述的基于动态评估的数据探查方法,其特征在于,所述S3具体包括:若所述有效探查项比例超过第三阈值,则将所述第二探查结果设定作为所述最终探查结果,若所述有效探查项比例低于第三阈值,则将所述第二探查结果推送到人工进行二次确认。
7.一种基于动态评估的数据探查装置,其特征在于,包括:
探查引擎动态匹配模块,被配置为根据数据源的类型和探查维度调用探查引擎对所述数据源进行数据探查,得到第一探查结果;具体包括:
建立类型规则库,分析所述数据源的特征并结合所述类型规则库的特征权重计算得到所述特征与所述类型规则库的相似度,得到所述数据源的所述类型;所述类型规则库通过获取不同类型的所述数据源及其对应的所述特征进行建立,探查规则库通过获取不同类型的所述数据源的所述特征及相匹配的所述探查引擎的信息进行建立;
建立引擎资源目录和探查规则库,根据所述数据源的所述类型结合所述探查规则库得到探查关联引擎集合,基于所述引擎资源目录调取所述探查关联引擎集合中的所述探查引擎进行数据探查,得到所述第一探查结果;
根据所述第一探查结果更新所述探查规则库;
探查流程动态调整模块,被配置为对所述第一探查结果进行评估,得到评估结果,根据所述评估结果对探查流程进行动态调整,获得动态匹配的探查规则,并通过所述探查规则获得第二探查结果;具体包括:
建立探查路径库,根据所述数据源的类型结合所述探查路径库得到所述数据源的探查操作数据集合;
循环遍历所述探查操作数据集合,比对所述探查操作数据集合中的每个数据集合的探查引擎要素,调用对应的所述探查引擎得到第三探查结果;
计算所述第三探查结果与所述第一探查结果的匹配度,若所述匹配度超过第二阈值,则结合所述探查规则库的调整规则和调整步骤动态调整所述数据源的所述探查流程,获得动态匹配的探查规则,通过所述探查规则获得所述第二探查结果;
探查结果确认模块,被配置为计算所述第二探查结果的有效探查项比例,根据所述有效探查项比例判断所述探查规则的有效性,对所述第二探查结果进行确认以获得最终探查结果。
8.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
9.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机执行时实现权利要求1至6中任一项所述方法的步骤。
CN202010351013.9A 2020-04-28 2020-04-28 基于动态评估的数据探查方法和装置 Active CN111581431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010351013.9A CN111581431B (zh) 2020-04-28 2020-04-28 基于动态评估的数据探查方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010351013.9A CN111581431B (zh) 2020-04-28 2020-04-28 基于动态评估的数据探查方法和装置

Publications (2)

Publication Number Publication Date
CN111581431A CN111581431A (zh) 2020-08-25
CN111581431B true CN111581431B (zh) 2022-05-20

Family

ID=72111834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010351013.9A Active CN111581431B (zh) 2020-04-28 2020-04-28 基于动态评估的数据探查方法和装置

Country Status (1)

Country Link
CN (1) CN111581431B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131296A (zh) * 2020-09-27 2020-12-25 北京锐安科技有限公司 一种数据探查方法、装置、电子设备和存储介质
CN112463252A (zh) * 2020-12-08 2021-03-09 平安国际智慧城市科技股份有限公司 数据探查方法、装置和计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480553A (zh) * 2017-07-28 2017-12-15 北京明朝万达科技股份有限公司 一种数据探查系统、方法、设备及存储介质
CN107491553A (zh) * 2017-08-31 2017-12-19 武汉光谷信息技术股份有限公司 一种数据挖掘方法及系统
JP2018156237A (ja) * 2017-03-16 2018-10-04 ヤフー株式会社 データ管理システム、データ管理方法、およびプログラム
CN109446221A (zh) * 2018-10-29 2019-03-08 北京百分点信息科技有限公司 一种基于语义分析的交互式数据探查方法
CN109522312A (zh) * 2018-11-27 2019-03-26 北京锐安科技有限公司 一种数据处理方法、装置、服务器和存储介质
CN110990447A (zh) * 2019-12-19 2020-04-10 北京锐安科技有限公司 一种数据探查方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018156237A (ja) * 2017-03-16 2018-10-04 ヤフー株式会社 データ管理システム、データ管理方法、およびプログラム
CN107480553A (zh) * 2017-07-28 2017-12-15 北京明朝万达科技股份有限公司 一种数据探查系统、方法、设备及存储介质
CN107491553A (zh) * 2017-08-31 2017-12-19 武汉光谷信息技术股份有限公司 一种数据挖掘方法及系统
CN109446221A (zh) * 2018-10-29 2019-03-08 北京百分点信息科技有限公司 一种基于语义分析的交互式数据探查方法
CN109522312A (zh) * 2018-11-27 2019-03-26 北京锐安科技有限公司 一种数据处理方法、装置、服务器和存储介质
CN110990447A (zh) * 2019-12-19 2020-04-10 北京锐安科技有限公司 一种数据探查方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
存储系统"数据之眼"的设计--数据探查服务;Android路上的人;《https://blog.csdn.net/Androidlushangderen/article/details/88783397》;20190324;全文 *
数据治理技术;吴信东 等;《软件学报》;20190930;第30卷(第9期);全文 *

Also Published As

Publication number Publication date
CN111581431A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN110263938B (zh) 用于生成信息的方法和装置
CN111581291A (zh) 数据处理方法、装置、电子设备及可读介质
CN111581431B (zh) 基于动态评估的数据探查方法和装置
CN112597047A (zh) 测试方法、装置、电子设备和计算机可读介质
CN114579107A (zh) 数据的处理方法、装置、设备及介质
CN110188113B (zh) 一种利用复杂表达式进行数据比对的方法、装置及存储介质
CN111680799A (zh) 用于处理模型参数的方法和装置
CN114281663A (zh) 测试处理方法、装置、电子设备和存储介质
CN110866031B (zh) 数据库访问路径的优化方法、装置、计算设备以及介质
CN112559024A (zh) 一种生成交易码变更列表的方法和装置
CN111241137A (zh) 数据处理方法、装置、电子设备及存储介质
CN112131257B (zh) 数据查询方法和装置
CN111367500A (zh) 数据的处理方法和装置
CN116185806A (zh) 一种数字货币系统的测试方法和装置
CN113094415B (zh) 数据抽取方法、装置、计算机可读介质及电子设备
CN112115154A (zh) 数据处理和数据查询方法、装置、设备和计算机可读介质
CN112379967A (zh) 模拟器检测方法、装置、设备及介质
CN112579428A (zh) 接口测试的方法、装置、电子设备和存储介质
CN116108132B (zh) 短信文本的审核方法和装置
CN112507182A (zh) 应用程序的筛选方法和设备
CN117992425A (zh) 数据库操作执行方法、装置、电子设备、介质和程序产品
CN114936021A (zh) 数据处理方法、装置、设备及介质
CN114721967A (zh) 测试文件生成方法、装置、设备、存储介质和程序产品
CN115510283A (zh) 一种数据模型构建方法、装置、电子设备和存储介质
CN117785205A (zh) 一种数据评估方法、装置、电子设备及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200825

Assignee: CHINA ELECTRONICS ENGINEERING DESIGN INSTITUTE Co.,Ltd.

Assignor: XIAMEN MEIYA PICO INFORMATION Co.,Ltd.

Contract record no.: X2023350000321

Denomination of invention: Data exploration methods and devices based on dynamic evaluation

Granted publication date: 20220520

License type: Common license,Cross license

Record date: 20230809