CN112115124A - 一种数据影响度分析方法、装置、电子设备及存储介质 - Google Patents

一种数据影响度分析方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112115124A
CN112115124A CN202011026439.3A CN202011026439A CN112115124A CN 112115124 A CN112115124 A CN 112115124A CN 202011026439 A CN202011026439 A CN 202011026439A CN 112115124 A CN112115124 A CN 112115124A
Authority
CN
China
Prior art keywords
data
metadata
model structure
training
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011026439.3A
Other languages
English (en)
Inventor
韩小强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202011026439.3A priority Critical patent/CN112115124A/zh
Publication of CN112115124A publication Critical patent/CN112115124A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请属于人工智能技术领域,可应用于自然语言处理技术领域中,例如病历分析、医疗报告解读、电子病历自动生成等。本申请提供了一种数据影响度分析方法,包括:建立元数据对象之间的数据关系;获取当前元数据对象;查找与所述当前元数据对象相同的历史元数据对象;将所述数据关系中,所述历史元数据对象对应的数据关系,确定为所述当前元数据对象对应的当前数据关系;根据所述当前数据关系生成元数据影响度分析结果;所述元数据影响度分析结果包括但不限于元数据属性变化的业务影响、数据问题范围警告及业务数据错误源定位。本申请分析方法提高了数据影响度分析的准确性,降低了数据维护的成本,提高了用户使用的满意度。

Description

一种数据影响度分析方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术领域,特别是涉及一种数据影响度分析方法、装置、电子设备及存储介质。
背景技术
元数据管理包括业务词汇表的发展、数据元素和实体的定等。最基础的管理是管理业务元数据的收集、组织和维持。
目前,元数据管理系统的数据关系为大数据使用者提供可靠的数据识别和追溯,是数据仓库管理的关键的一环。然而,元数据的影响度度分析一般都是通过日志解析,或者数据库脚本等方式进行人工采集。但人工采集一般会涉及到文件梳理,内容格式化。
现在元数据影响度分析结果需要从数据源头一步一步的进行日志收集和加工文件收集等工作,完成之后才能进行数据影响度分析,过程繁琐且分析结果不准确,由于数据之间的加工关系繁琐而复杂,依靠人工的方式现在无法适应特定复杂领域数据影响度分析。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据影响度分析方法、装置、电子设备及存储介质。
为了解决上述问题,本发明实施例公开了一种数据影响度分析方法,包括:
建立元数据对象之间的数据关系;
获取当前元数据对象;
查找与所述当前元数据对象相同的历史元数据对象;
将所述数据关系中,所述历史元数据对象对应的数据关系,确定为所述当前元数据对象对应的当前数据关系;
根据所述当前数据关系生成元数据影响度分析结果;所述元数据影响度分析结果包括但不限于元数据属性变化的业务影响、数据问题范围警告及业务数据错误源定位。
进一步地,所述建立元数据对象之间的数据关系包括:
获取用于建立所述元数据对象之间的依赖性关系的样本数据,所述样本数据包括sql文件、加工文件、存储过程日志文件和hive的运行日志文件;
依据所述样本数据确定所述元数据对象之间依赖性的数据关系。
进一步地,所述利用人工智能模型的自学能力,建立元数据对象之间的数据关系包括:
获取用于建立所述元数据对象之间的数据关系的样本数据;
分析所述元数据对象的特性及其规律,根据所述特性及其规律,确定所述人工智能模型的模型结构及其模型参数;
使用所述样本数据,对所述模型结构和所述模型参数进行训练和测试,确定所述元数据对象之间的数据关系模型。
进一步地,所述获取用于建立所述元数据对象之间的数据关系的样本数据包括:
收集元数据的加工记录和元数据对象之间的原始数据关系;
对所述元数据的加工记录进行分析,选取与所述元数据对象之间的原始数据关系相关的数据作为所述元数据的加工记录数据;
将所述元数据对象之间的原始数据关系和所述元数据的加工记录数据构成数据对,作为样本数据。
进一步地,对所述模型结构和所述模型参数进行训练包括:
选取所述样本数据中的一部分数据作为训练样本,将所述训练样本中的所述元数据对象输入到所述模型结构,通过所述模型结构的损失函数、激活函数和所述模型参数进行训练,得到训练后的模型结构和模型参数;
确定所述训练后的模型结构和模型参数与所述训练样本中的相应元数据对象之间的数据关系的实际训练误差在预设训练误差范围内;
当所述实际训练误差在所述预设训练误差范围内,确定对所述模型结构和所述模型参数的所述训练完成。
进一步地,对所述模型结构和所述模型参数进行测试,包括:
选取所述样本数据中的另一部分数据作为测试样本,将所述测试样本中的所述元数据对象输入到所述训练完成的所述模型结构中,以所述损失函数、激活函数和所述训练完成的所述模型参数进行测试,得到测试后的模型结构和模型参数;
确定所述测试后的模型结构和模型参数与所述测试样本中的相应元数据对象之间的数据关系的实际测试误差是否在设定测试误差范围内;
当所述实际测试误差在所述设定测试误差范围内,确定对所述模型结构和所述模型参数的所述测试完成。
进一步地,对所述模型结构和所述模型参数进行训练还包括:
当所述实际训练误差不满足所述设定训练误差时,通过所述模型结构的误差损失函数更新所述模型参数;
通过所述模型结构的所述损失函数、激活函数和更新后的所述模型参数进行重新训练,直至所述重新训练后的实际训练误差满足所述设定训练误差;
和/或,
对所述模型结构和所述模型参数进行测试,还包括:
当所述实际测试误差不满足所述设定测试误差时,对所述模型结构和所述模型参数进行重新训练,直至所述重新训练后的实际测试误差满足所述设定测试误差。
本发明实施例还公开了一种数据影响度分析装置,包括:
建立模块,用于利用人工智能模型的自学能力,建立元数据对象之间的数据关系;
获取模块,用于获取当前元数据对象;
查找模块,用于查找与所述当前元数据对象相同的历史元数据对象;
匹配模块,用于将所述数据关系中,所述历史元数据对象对应的数据关系,确定为所述当前元数据对象对应的当前数据关系;
分析模块,用于根据所述当前数据关系生成元数据影响度分析结果;所述元数据影响度分析结果包括但不限于元数据属性变化的业务影响、数据问题范围警告及业务数据错误源定位。
本发明实施例公开了一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的数据影响度分析方法的步骤。
本发明实施例公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述的数据影响度分析方法的步骤。
本发明实施例包括以下优点:利用人工智能的手段,实现元数据对象之间的数据关系的自动识别及分析,提高了数据影响度分析的准确性,降低了数据维护的成本,提高了用户使用的满意度。本申请可用于数字医疗领域的病历分析、医疗报告解读、电子病历自动生成等场景。
附图说明
图1是本发明的一种数据影响度分析方法实施例的步骤流程图;
图2是本发明的一种数据影响度分析方法实施例的步骤流程图;
图3是本发明的一种数据影响度分析方法实施例的步骤流程图;
图4是本发明的一种数据影响度分析方法实施例的步骤流程图;
图5是本发明的一种数据影响度分析方法实施例的步骤流程图;
图6是本发明的一种数据影响度分析方法实施例的步骤流程图;
图7是本发明的一种数据影响度分析方法实施例的步骤流程图;
图8是本发明的一种数据影响度分析方法实施例的步骤流程图;
图9是本发明的一种数据影响度分析装置实施例的结构框图;
图10是本发明的一种数据影响度分析装置实施例的结构框图;
图11是本发明的一种数据影响度分析装置实施例的结构框图;
图12是本发明的一种数据影响度分析装置实施例的结构框图;
图13是本发明的一种数据影响度分析装置实施例的结构框图;
图14是本发明的一种数据影响度分析装置实施例的结构框图;
图15是本发明的一种数据影响度分析装置实施例的结构框图;
图16是本发明的一种数据影响度分析装置实施例的结构框图
图17是本发明的一种数据影响度分析方法的计算机设备。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种数据影响度分析方法实施例的步骤流程图,具体可以包括如下步骤:
S100,建立元数据对象之间的数据关系;
S200,获取当前元数据对象;
S300,查找与所述当前元数据对象相同的历史元数据对象;
S400,将所述数据关系中,所述历史元数据对象对应的数据关系,确定为所述当前元数据对象对应的当前数据关系;
S500,根据所述当前数据关系生成元数据影响度分析结果;所述元数据影响度分析结果包括但不限于元数据属性变化的业务影响、数据问题范围警告及业务数据错误源定位。
参照上述步骤S100所示,建立元数据对象之间的数据关系;通过人工智能,建立元数据对象之间的数据关系,通过上述数据关系,能够计算出元数据影响度分析结果。
参照上述步骤S300所示,查找与所述当前元数据对象相同的历史元数据对象;通过匹配与所述当前元数据对象特征相同或相似的历史元数据对象。
参照上述步骤S400所示,将所述数据关系中,所述历史元数据对象对应的数据关系,确定为所述当前元数据对象对应的当前数据关系;根据人工智能模型中的历史匹配结果,查找出所述历史元数据对象对应的历史数据关系。
参照上述步骤S500所示,根据所述当前数据关系生成元数据影响度分析结果;所述元数据影响度分析结果包括但不限于元数据属性变化的业务影响、数据问题范围警告及业务数据错误源定位。元数据影响度分析结果是通过选择一个元数据对象,可以看到这个元数据对象的所有后期数据的加工关系,也可以查看数据项界别的影响链路,描述都是起始元数据对象如果改变,后面的对象全部都会受影响。利用人工智能模型的自学能力,建立元数据对象之间的数据关系。获取当前元数据对象,通过所述数据关系,确定与所述当前元数据对象对应的当前数据关系;具体地,确定与所述当前元数据对象对应的当前数据关系,并根据当前数据关系生成元数据影响度分析结果,包括:将所述数据关系中与所述当前元数据对象相同的元数据对象所对应的数据关系,确定为与所述当前元数据对象对应的当前数据关系,并根据所述当前数据关系生成元数据影响度分析结果。能实现元数据解析的通用性,提高数据影响度自动分析的能力,提高数据解析的正确性。
进一步地,所述数据关系包括但不限于数据加工、数据清洗、数据转换等数据预处理操作。上述数据加工的步骤是ETL(Extract,transform,load),用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。当一个字段进行数据加工的时候,加工可能是被截取、替换、加密、算法计算变成一个新的值、数据拆分、加密、业务计算等等处理。具体地,身份证件号码这个字段也是数据,可以通过证件号码的加工得出所属省,年龄,出生日期等信息,可以将一个字段加工成3个新的字段,加工逻辑非常复杂且比较多样化。
参照图2,在本实施例中,所述利用人工智能模型的自学能力,建立元数据对象之间的数据关系S100包括:
S110,获取用于建立所述元数据对象之间的依赖性关系的样本数据,所述样本数据包括sql文件、加工文件、存储过程日志文件和hive的运行日志文件;
S120,依据所述样本数据确定所述元数据对象之间依赖性的数据关系。
参照上述步骤所示,利用人工智能模型算法来分析元数据对象之间的数据关系的规律,通过人工智能的自学能力、自适应特性找到元数据对象之间的映射规律。
例如:可以利用人工智能模型算法,通过对大量不同元数据对象的数据关系进行汇总收集,选取若干元数据对象的数据关系作为样本数据,对人工智能模型进行学习和训练,通过调整模型结构及模型节点件的权值,使人工智能模型拟合元数据对象的数据关系,最终使人工智能模型能够准确拟合出不同元数据对象的数据关系,从而得到元数据影响度分析结果。
具体地,当实际生产业务出现数据紊乱的时候,数据开发人员会第一时间进行问题节点进行定位,然后对实际数据问题进行向上逐一排查。利用影响度分析结果可以直接通过问题节点为起始点,进行可视化问题定位,在定位到数据载体的情况下,查询问题数据列,即可形成数据载体和数据列的问题直接定位。
通常数据载体元数据属性的变化也是形成数据紊乱的一个因素,影响度分析方案可以直观的告诉用户元数据属性的变化对实际业务的影响范围,形成数据问题范围告警及业务数据错误源定位等服务。
参照图3,在本实施例中,建立元数据对象之间的数据关系S100包括:
S130,获取用于建立所述元数据对象之间的数据关系的样本数据;
S140,分析所述元数据对象的特性及其规律,根据所述特性及其规律,确定所述人工智能模型的模型结构及其模型参数;
S150,使用所述样本数据,对所述模型结构和所述模型参数进行训练和测试,确定所述元数据对象之间的数据关系模型。
参照上述步骤所示,利用人工智能中NLP(自然语言处理)方式对数据加工过程中的关键步骤进行了自动识别解析,实现了元数据对象之间的关系输出,保证了数据关系的准确性。
参照图4,在本实施例中,所述获取用于建立所述元数据对象之间的数据关系的样本数据S130包括:
S131,收集元数据的加工记录和元数据对象之间的原始数据关系;
S132,对所述元数据的加工记录进行分析,选取与所述元数据对象之间的原始数据关系相关的数据作为所述元数据的加工记录数据;
S133,将所述元数据对象之间的原始数据关系和所述元数据的加工记录数据构成数据对,作为样本数据。
参照图5,在本实施例中,对所述模型结构和所述模型参数进行训练S150包括:
S151,选取所述样本数据中的一部分数据作为训练样本,将所述训练样本中的所述元数据对象输入到所述模型结构,通过所述模型结构的损失函数、激活函数和所述模型参数进行训练,得到训练后的模型结构和模型参数;
S152,确定所述训练后的模型结构和模型参数与所述训练样本中的相应元数据对象之间的数据关系的实际训练误差是否在预设训练误差范围内;
S153,当所述实际训练误差在预设训练误差范围内,确定对所述模型结构和所述模型参数的所述训练完成;
和/或,
参照图6,对所述模型结构和所述模型参数进行测试S150,包括:
S154,选取所述样本数据中的另一部分数据作为测试样本,将所述测试样本中的所述元数据对象输入到所述训练完成的所述模型结构中,以所述损失函数、激活函数和所述训练完成的所述模型参数进行测试,得到测试后的模型结构和模型参数;
S155,确定所述测试后的模型结构和模型参数与所述测试样本中的相应元数据对象之间的数据关系的实际测试误差是否在设定测试误差范围内;
S156,当所述实际测试误差在设定测试误差范围内,确定对所述模型结构和所述模型参数的所述测试完成。
参照图7,在本实施例中,对所述模型结构和所述模型参数进行训练S150还包括:
S157,当所述实际训练误差不满足所述设定训练误差时,通过所述模型结构的误差损失函数更新所述模型参数;
S158,通过所述模型结构的所述损失函数、激活函数和更新后的所述模型参数进行重新训练,直至所述重新训练后的实际训练误差满足所述设定训练误差;
和/或,
参照图8,对所述模型结构和所述模型参数进行测试S150,还包括:
S159,当所述实际测试误差不满足所述设定测试误差时,对所述模型结构和所述模型参数进行重新训练,直至所述重新训练后的实际测试误差满足所述设定测试误差。
本申请利用了自然语言处理和人工智能的手段,实现了数据关系全自动识别能力。自动分析数据参与对象,数据切分方式,结合数据参与对象智能化的将业务数据进行关系关联,应用关联,流程关联。摒弃人工介入的方式,相较于传统人工梳理及采集的方式,识别效率更快,准确率也更高。同时增加了字段级别数据项的智能分析能力,融合元数据影响度分析的能力,使影响度分析方案更加智能化,数据展示维度更加丰富。快速定位数据流,提高数据分析的准确性。不仅简化了数据问题定位流程,也大幅度降低了数据维护成本,提高用户满意度。本申请可用于数字医疗领域的病历分析、医疗报告解读、电子病历自动生成等场景。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图9,示出了本发明的一种数据影响度分析装置实施例的结构框图,具体可以包括如下模块:
建立模块100,用于建立元数据对象之间的数据关系;
获取模块200,用于获取当前元数据对象;
查找模块300,用于查找与所述当前元数据对象相同的历史元数据对象;
匹配模块400,用于将所述数据关系中,所述历史元数据对象对应的数据关系,确定为所述当前元数据对象对应的当前数据关系;
分析模块500,用于根据所述当前数据关系生成元数据影响度分析结果;所述元数据影响度分析结果包括但不限于元数据属性变化的业务影响、数据问题范围警告及业务数据错误源定位。
进一步,所述数据关系包括但不限于数据加工、数据清洗、数据转换及数据预处理。
参照图10,在本实施例中,所述建立模块100包括:
第一获取单元110,用于获取用于建立所述元数据对象之间的依赖性关系的样本数据,所述样本数据包括sql文件、加工文件、存储过程日志文件和hive的运行日志文件;
第一建立单元120,用于依据所述样本数据确定所述元数据对象之间依赖性的数据关系。
参照图11,在本实施例中,所述建立模块100包括:
第二获取单元130,用于获取用于建立所述元数据对象之间的数据关系的样本数据;
第二分析单元140,用于分析所述元数据对象的特性及其规律,根据所述特性及其规律,确定所述人工智能模型的模型结构及其模型参数;
第二建立单元150,用于使用所述样本数据,对所述模型结构和所述模型参数进行训练和测试,确定所述元数据对象之间的数据关系模型。
参照图12,在本实施例中,所述第二获取单元130包括:
第二获取子单元131,用于收集元数据的加工记录和元数据对象之间的原始数据关系;
第二分析子单元132,用于对所述元数据的加工记录进行分析,选取与所述元数据对象之间的原始数据关系相关的数据作为所述元数据的加工记录数据;
第二建立子单元133,用于将所述元数据对象之间的原始数据关系和所述元数据的加工记录数据构成数据对,作为样本数据。
参照图13,在本实施例中,所述第二建立单元150包括:
第一选取子单元151,用于选取所述样本数据中的一部分数据作为训练样本,将所述训练样本中的所述元数据对象输入到所述模型结构,通过所述模型结构的损失函数、激活函数和所述模型参数进行训练,得到训练后的模型结构和模型参数;
第一判断子单元152,用于确定所述训练后的模型结构和模型参数与所述训练样本中的相应元数据对象之间的数据关系的实际训练误差是否在预设训练误差范围内;
第一训练子单元153,用于当所述实际训练误差在预设训练误差范围内,确定对所述模型结构和所述模型参数的所述训练完成;
和/或,
参照图14,所述第二建立单元150包括:
第二选取子单元154,用于选取所述样本数据中的另一部分数据作为测试样本,将所述测试样本中的所述元数据对象输入到所述训练完成的所述模型结构中,以所述损失函数、激活函数和所述训练完成的所述模型参数进行测试,得到测试后的模型结构和模型参数;
第二判断子单元155,用于确定所述测试后的模型结构和模型参数与所述测试样本中的相应元数据对象之间的数据关系的实际测试误差是否在设定测试误差范围内;
第二训练子单元156,用于当所述实际测试误差在设定测试误差范围内时,确定对所述模型结构和所述模型参数的所述测试完成。
参照图15,在本实施例中,所述第二建立单元150还包括:
第三更新子单元157,用于当所述实际训练误差不满足所述设定训练误差时,通过所述模型结构的误差损失函数更新所述模型参数;
第三训练子单元158,用于通过所述模型结构的所述损失函数、激活函数和更新后的所述模型参数进行重新训练,直至所述重新训练后的实际训练误差满足所述设定训练误差;
和/或,
参照图16,所述第二建立单元150还包括:
第四训练子单元159,用于当所述实际测试误差不满足所述设定测试误差时,对所述模型结构和所述模型参数进行重新训练,直至所述重新训练后的实际测试误差满足所述设定测试误差。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
参照图17,示出了本发明的一种数据影响度分析方法的计算机设备,具体可以包括如下:
上述计算机设备12以通用计算设备的形式表现,计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线18结构中的一种或多种,包括存储器总线18或者存储器控制器,外围总线18,图形加速端口,处理器或者使用多种总线18结构中的任意总线18结构的局域总线18。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线18,微通道体系结构(MAC)总线18,增强型ISA总线18、音视频电子标准协会(VESA)局域总线18以及外围组件互连(PCI)总线18。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图17中未示出,可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块42,这些程序模块42被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)界面22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)),广域网(WAN)和/或公共网络(例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白,尽管图17中未示出,可以结合计算机设备12使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统34等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的数据影响度分析方法。
也即,上述处理单元16执行上述程序时实现:建立元数据对象之间的数据关系;获取当前元数据对象;查找与所述当前元数据对象相同的历史元数据对象;将所述数据关系中,所述历史元数据对象对应的数据关系,确定为所述当前元数据对象对应的当前数据关系;根据所述当前数据关系生成元数据影响度分析结果;所述元数据影响度分析结果包括但不限于元数据属性变化的业务影响、数据问题范围警告及业务数据错误源定位。
在本发明实施例中,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有实施例提供的数据影响度分析方法:
也即,给程序被处理器执行时实现:建立元数据对象之间的数据关系;获取当前元数据对象;查找与所述当前元数据对象相同的历史元数据对象;将所述数据关系中,所述历史元数据对象对应的数据关系,确定为所述当前元数据对象对应的当前数据关系;根据所述当前数据关系生成元数据影响度分析结果;所述元数据影响度分析结果包括但不限于元数据属性变化的业务影响、数据问题范围警告及业务数据错误源定位。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机克顿信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPOM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的数据影响度分析方法、装置、电子设备及存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种数据影响度分析方法,其特征在于,包括:
建立元数据对象之间的数据关系;
获取当前元数据对象;
查找与所述当前元数据对象相同的历史元数据对象;
将所述数据关系中,所述历史元数据对象对应的数据关系,确定为所述当前元数据对象对应的当前数据关系;
根据所述当前数据关系生成元数据影响度分析结果;所述元数据影响度分析结果包括但不限于元数据属性变化的业务影响、数据问题范围警告及业务数据错误源定位。
2.根据权利要求1所述的方法,其特征在于,所述建立元数据对象之间的数据关系包括:
获取用于建立所述元数据对象之间的依赖性关系的样本数据,所述样本数据包括sql文件、加工文件、存储过程日志文件和hive的运行日志文件;
依据所述样本数据确定所述元数据对象之间依赖性的数据关系。
3.根据权利要求2所述的方法,其特征在于,建立元数据对象之间的数据关系包括:
获取用于建立所述元数据对象之间的数据关系的样本数据;
分析所述元数据对象的特性及其规律,根据所述特性及其规律,确定所述人工智能模型的模型结构及其模型参数;
使用所述样本数据,对所述模型结构和所述模型参数进行训练和测试,确定所述元数据对象之间的数据关系模型。
4.根据权利要求3所述的方法,其特征在于,所述获取用于建立所述元数据对象之间的数据关系的样本数据包括:
收集元数据的加工记录和元数据对象之间的原始数据关系;
对所述元数据的加工记录进行分析,选取与所述元数据对象之间的原始数据关系相关的数据作为所述元数据的加工记录数据;
将所述元数据对象之间的原始数据关系和所述元数据的加工记录数据构成数据对,作为样本数据。
5.根据权利要求4所述的方法,其特征在于,对所述模型结构和所述模型参数进行训练包括:
选取所述样本数据中的一部分数据作为训练样本,将所述训练样本中的所述元数据对象输入到所述模型结构,通过所述模型结构的损失函数、激活函数和所述模型参数进行训练,得到训练后的模型结构和模型参数;
确定所述训练后的模型结构和模型参数与所述训练样本中的相应元数据对象之间的数据关系的实际训练误差在预设训练误差范围内;
当所述实际训练误差在所述预设训练误差范围内,确定对所述模型结构和所述模型参数的所述训练完成。
6.根据权利要求5所述的方法,其特征在于,对所述模型结构和所述模型参数进行测试,包括:
选取所述样本数据中的另一部分数据作为测试样本,将所述测试样本中的所述元数据对象输入到所述训练完成的所述模型结构中,以所述损失函数、激活函数和所述训练完成的所述模型参数进行测试,得到测试后的模型结构和模型参数;
确定所述测试后的模型结构和模型参数与所述测试样本中的相应元数据对象之间的数据关系的实际测试误差是否在设定测试误差范围内;
当所述实际测试误差在所述设定测试误差范围内,确定对所述模型结构和所述模型参数的所述测试完成。
7.根据权利要求6所述的方法,其特征在于,对所述模型结构和所述模型参数进行训练还包括:
当所述实际训练误差不满足所述设定训练误差时,通过所述模型结构的误差损失函数更新所述模型参数;
通过所述模型结构的所述损失函数、激活函数和更新后的所述模型参数进行重新训练,直至所述重新训练后的实际训练误差满足所述设定训练误差;
和/或,
对所述模型结构和所述模型参数进行测试,还包括:
当所述实际测试误差不满足所述设定测试误差时,对所述模型结构和所述模型参数进行重新训练,直至所述重新训练后的实际测试误差满足所述设定测试误差。
8.一种数据影响度分析装置,其特征在于,包括:
建立模块,用于利用人工智能模型的自学能力,建立元数据对象之间的数据关系;
获取模块,用于获取当前元数据对象;
查找模块,用于查找与所述当前元数据对象相同的历史元数据对象;
匹配模块,用于将所述数据关系中,所述历史元数据对象对应的数据关系,确定为所述当前元数据对象对应的当前数据关系;
分析模块,用于根据所述当前数据关系生成元数据影响度分析结果;所述元数据影响度分析结果包括但不限于元数据属性变化的业务影响、数据问题范围警告及业务数据错误源定位。
9.电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据影响度分析方法的步骤。
10.计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据影响度分析方法的步骤。
CN202011026439.3A 2020-09-25 2020-09-25 一种数据影响度分析方法、装置、电子设备及存储介质 Pending CN112115124A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011026439.3A CN112115124A (zh) 2020-09-25 2020-09-25 一种数据影响度分析方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011026439.3A CN112115124A (zh) 2020-09-25 2020-09-25 一种数据影响度分析方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112115124A true CN112115124A (zh) 2020-12-22

Family

ID=73797343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011026439.3A Pending CN112115124A (zh) 2020-09-25 2020-09-25 一种数据影响度分析方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112115124A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897224A (zh) * 2017-02-27 2017-06-27 济南浪潮高新科技投资发展有限公司 一种软件测试范围的确定方法及装置
US20190266279A1 (en) * 2018-02-28 2019-08-29 Acronis International Gmbh User clustering based on metadata analysis
CN110648055A (zh) * 2019-09-04 2020-01-03 广西电网有限责任公司南宁供电局 基于卷积神经网络的电力事故事件与诱因关系构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897224A (zh) * 2017-02-27 2017-06-27 济南浪潮高新科技投资发展有限公司 一种软件测试范围的确定方法及装置
US20190266279A1 (en) * 2018-02-28 2019-08-29 Acronis International Gmbh User clustering based on metadata analysis
CN110648055A (zh) * 2019-09-04 2020-01-03 广西电网有限责任公司南宁供电局 基于卷积神经网络的电力事故事件与诱因关系构建方法

Similar Documents

Publication Publication Date Title
US11500818B2 (en) Method and system for large scale data curation
CN111143226B (zh) 自动化测试方法及装置、计算机可读存储介质、电子设备
US9104709B2 (en) Cleansing a database system to improve data quality
KR101953190B1 (ko) 복잡한 양자 또는 다자 상대방 관계를 탐색하기 위해 이용되는 다차원 재귀적 학습 과정 및 시스템
US11620558B1 (en) Iterative machine learning based techniques for value-based defect analysis in large data sets
CN111125068A (zh) 一种元数据治理方法和系统
CN111427974A (zh) 数据质量评估管理方法和装置
CN110490304B (zh) 一种数据处理方法及设备
CN116861331A (zh) 一种融合专家模型决策的数据识别方法及系统
CN116383193A (zh) 一种数据管理方法、装置、电子设备和存储介质
US11816112B1 (en) Systems and methods for automated process discovery
CN115346686A (zh) 关系图谱生成方法及装置、存储介质及电子设备
CN117130938A (zh) 基于知识图谱的测试案例的生成方法和装置
CN114757097B (zh) 一种线路故障诊断方法及装置
CN110826616A (zh) 信息处理方法及装置、电子设备、存储介质
CN112115124A (zh) 一种数据影响度分析方法、装置、电子设备及存储介质
CN116432064A (zh) 一种数据预处理系统及方法
CN115587190A (zh) 一种电力领域知识图谱的构建方法、装置及电子设备
CN114547231A (zh) 一种数据溯源的方法和系统
CN117875706A (zh) 一种基于ai的评级工艺数字化管理方法
CN114238630A (zh) 一种不良事件影响因素分析系统及方法
CN116955186A (zh) 一种软件测试知识库构建方法、装置、电子设备及介质
CN117973901A (zh) 基于知识图谱的面向多协议碳计量核算方法
CN116664319A (zh) 一种基于大数据的金融保单分类系统
CN118427347A (zh) 审计问题数据归类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination