CN113434542B - 数据关系识别方法、装置、电子设备及存储介质 - Google Patents
数据关系识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113434542B CN113434542B CN202110702568.8A CN202110702568A CN113434542B CN 113434542 B CN113434542 B CN 113434542B CN 202110702568 A CN202110702568 A CN 202110702568A CN 113434542 B CN113434542 B CN 113434542B
- Authority
- CN
- China
- Prior art keywords
- metadata
- data
- report
- clustering
- differential analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004458 analytical method Methods 0.000 claims abstract description 63
- 238000012795 verification Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000013524 data verification Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及数据分析领域,揭露了一种数据关系识别方法,包括:从至少一个业务系统中获取元数据,对元数据进行差异性分析,得到元数据的差异性分析报告;根据差异性分析报告,对所述元数据进行层级拆分,并将层级拆分后的元数据中具有相同数据类型的元数据进行聚类,生成多个聚类元数据;对每个聚类元数据进行数据质量校验,得到数据质量校验报告;根据数据质量校验报告,构建每个聚类元数据的数据表,并识别数据表中任意两个元数据之间的关系,得到关系识别结果。另外,本发明还提供一种数据关系识别装置、电子设备以及计算机可读存储介质。此外,本发明还涉及区块链技术,所述聚类元数据可存储于区块链中。本发明可以提高数据关系识别的准确性。
Description
技术领域
本发明涉及数据分析领域,尤其涉及一种数据关系识别方法、装置、电子设备及计算机可读存储介质。
背景技术
随着信息技术的发展,信息数据呈现爆炸性增长,从而延伸出大量的数据建模、数据加载、数据标准、质量检测等数据处理流程,在数据处理流程中,从数据源头到最终的数据生成,每个环节都可能会导致出现数据质量的问题,因此数据关系识别显得尤为重要,通过数据之间的关系识别,可以实现最终的数据生成的可追溯,从而可以保障在最终生成的数据质量。
现有技术中,通常采用静态分析法实现数据关系的识别,即通过对元数据的编译环境中源代码进行扫描和语法识别,以及对元数据涉及的路径进行静态识别和罗列,实现元数据的关系识别,但是由于在实际业务场景中,元数据会存在实时变化的情况,如在第一时间端元数据为A、在第二时间段元数据变为B,这样容易影响数据关系识别的准确性。
发明内容
本发明提供一种数据关系识别方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高数据关系识别的准确率。
为实现上述目的,本发明提供的一种数据关系识别方法,包括:
从至少一个业务系统中获取元数据,对所述元数据进行差异性分析,得到所述元数据的差异性分析报告;
根据所述差异性分析报告,对所述元数据进行层级拆分,并将层级拆分后的元数据中具有相同数据类型的元数据进行聚类,生成多个聚类元数据;
对每个所述聚类元数据进行数据质量校验,得到数据质量校验报告;
根据所述数据质量校验报告,构建每个所述聚类元数据的数据表,并识别所述数据表中任意两个元数据之间的关系,得到关系识别结果。
可选地,所述对所述元数据进行差异分析,得到所述元数据的差异性分析报告,包括:
获取所述元数据的数据类型,查询所述数据类型对应的历史数据;
将所述元数据与所述历史数据进行差异对比,得到差异对比结果;
根据所述差异对比结果,生成所述元数据的差异性分析报告。
可选地,所述根据所述差异性分析报告,对所述元数据进行层级拆分,包括:
根据所述差异性分析报告,识别所述元数据中的历史元数据和增量元数据;
查询所述历史元数据的历史节点关系,根据所述历史节点关系,执行所述历史元数据的层级拆分;
配置所述增量元数据的实时节点关系,根据所述实时节点关系,执行所述增量元数据的层级拆分。
可选地,所述配置所述增量元数据的实时节点关系,包括:
获取所述增量元数据的数据标识字段,根据所述数据标识字段,定义所述增量元数据的节点层级位置;
根据所述节点层级位置,生成所述增量元数据的实时节点关系。
可选地,所述将层级拆分后的元数据中具有相同数据类型的元数据进行聚类,包括:
利用下述公式将层级拆分后的元数据中具有相同数据类型的元数据进行聚类:
其中,E表示聚类元数据的聚类中心点,K表示聚类中心点的数量,c表示层级拆分后的元数据的数量,xt表示第t个层级拆分后的元数据,μi表示第i个聚类中心点的簇心质量。
可选地,所述对每个所述聚类元数据进行数据质量校验,得到数据质量校验报告,包括:
利用预设的数据约束条件对每个所述聚类元数据中所有元数据进行合法校验,得到数据校验结果;
利用预设的字段约束条件对每个所述聚类元数据中所有元数据的数据字段进行留存校验,得到字段校验结果;
根据所述数据校验结果和字段校验结果,生成每个所述聚类元数据的数据质量校验报告。
可选地,所述根据所述数据质量校验报告,构建每个所述聚类元数据的数据表,包括:
根据所述数据质量校验报告,识别每个所述聚类元数据中非法元数据及非法标识字段;
对所述非法元数据及非法标识字段进行过滤,得到目标聚类元数据;
采用键值对的形式构建所述目标聚类元数据的数据表。
为了解决上述问题,本发明还提供一种数据关系识别装置,所述装置包括:
数据差异性分析模块,用于从至少一个业务系统中获取元数据,对所述元数据进行差异性分析,得到所述元数据的差异性分析报告;
数据层级拆分模块,用于根据所述差异性分析报告,对所述元数据进行层级拆分,并将层级拆分后的元数据中具有相同数据类型的元数据进行聚类,生成多个聚类元数据;
数据质量校验模块,用于对每个所述聚类元数据进行数据质量校验,得到数据质量校验报告;
数据关系识别模块,用于根据所述数据质量校验报告,构建每个所述聚类元数据的数据表,并识别所述数据表中任意两个元数据之间的关系,得到关系识别结果。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以实现上述所述的数据关系识别方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的数据关系识别方法。
本发明实施例首先获取的元数据进行差异性分析,得到差异性分析报告,可以识别出获取的元数据中存在变化的元数据和未存在变化的元数据,从而提高后续所述元数据的处理速度,并根据所述差异性分析报告,对所述元数据进行层级拆分及聚类,生成多个聚类元数据,以识别每个元数据的数据层级,保障后续元数据之间关系识别的前提;其次,本发明实施例对每个所述聚类元数据进行数据质量校验,得到数据质量校验报告,可以确保每个所述聚类元数据的合规性,保障后续元数据的关系识别准确率;进一步地,本发明实施例根据所述数据质量校验报告,构建每个所述聚类元数据的数据表,并识别所述数据表中任意两个元数据之间的关系,得到关系识别结果,可以确保构建的数据表的合规性,提高后续元数据之间关系的识别准确率。因此,本发明提出的一种数据关系识别方法、装置、电子设备以及计算机可读存储介质可以提高数据关系识别的准确性。
附图说明
图1为本发明一实施例提供的数据关系识别方法的流程示意图;
图2为本发明一实施例提供的数据关系识别装置的模块示意图;
图3为本发明一实施例提供的实现数据关系识别方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种数据关系识别方法。所述数据关系识别方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述数据关系识别方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示,为本发明一实施例提供的数据关系识别方法的流程示意图。在本发明实施例中,所述数据关系识别方法,包括:
S1、从至少一个业务系统中获取元数据,对所述元数据进行差异性分析,得到所述元数据的差异性分析报告。
本发明实施例中,所述业务系统是指产生元数据的前端系统,如订单页面系统,应该了解的是,在实际业务场景中,所述元数据可以基于不同的业务系统产生,因此,本发明实施例可以利用中台系统从至少一个业务系统中获取元数据,以确保获取的元数据的全面性。其中,所述中台系统可以理解为介于前端系统和后台系统的中间架构系统,用于将“后台”系统中针对技术、业务以及组织的通用“模块/服务”从原来固定的项目中抽离出来,并且使之能够成为一个自治的服务提供给更多的“前端”系统使用,以提高业务处理效率。进一步地,在本发明的一个可选实施例中,所述中台系统包括输入层、贴源层以及整合层等,所述输入层用于从业务系统中获取元数据,所述贴源层用于对获取的元数据进行汇聚拆分,所述整合层用于对汇聚拆分的元数据进行质量监控后分析元数据之间的血缘关系。
作为本发明的一个实施例,所述从至少一个业务系统中获取元数据,包括:采用数据库连接池的方式配置每个所述业务系统与所述中台系统中输入层的数据传输通道,根据所述数据传输通道,利用预先在所述中台系统中输入层构建的数据拉取脚本从每个所述业务系统中获取元数据。
其中,所述数据库连接池可以为Java数据库连接(Java Database Connectivity,简称JDBC),本发明实施例中,通过所述数据库连接池的方式,可以规范业务系统如何来访问中台系统的应用程序接口,使得在获取元数据的过程中可以有条不紊的进行。所述数据拉取脚本可以通过JavaScript脚本语言编译,用于自动化的实现元数据的获取,提高元数据获取的速度。
应该了解的是,在实际业务场景中,业务系统的元数据处于不断变化的情况,即所述元数据是动态变化的,因此从业务系统中获取的元数据也是动态变化的,如对于一个订单业务系统来说,其产生的业务订单处于实时动态变化中,于是,本发明实施例通过对所述元数据进行差异性分析,即将获取的元数据与存在中台系统中的历史数据进行一致性分析,以识别出获取的元数据中存在变化的元数据和未存在变化的元数据,从而提高后续所述元数据的处理速度。
作为本发明的一个实施例,所述对所述元数据进行差异分析,得到所述元数据的差异性分析报告,包括:获取所述元数据的数据类型,从所述中台系统中查询所述数据类型对应的历史数据,将所述元数据与所述历史数据进行差异对比,得到差异对比结果,根据所述差异对比结果,生成所述元数据的差异性分析报告。
其中,所述数据类型是指所述元数据的数据类别,用于表征所述元数据的数据信息,所述历史数据的查询可以通过查询语句实现,如select语句,所述差异对比是指识别所述元数据是否与所述历史数据一致。
示例性地,存在元数据为:用户名、密码、口令以及手势等,识别该元数据的数据类型为用户信息,则通过查询语句从中台系统中查询所述用户信息的历史数据为:用户名、密码以及口令,将元数据与历史数据进行差异对比后,得到元数据存在增量数据为手势的差异性分析报告。
S2、根据所述差异性分析报告,对所述元数据进行层级拆分,并将层级拆分后的元数据中具有相同数据类型的元数据进行聚类,生成多个聚类元数据.
应该了解,在上述S1中得到的差异性分析报告,是用于判断从业务系统中获取的元数据是否已经存在与中台系统中,并不能识别出元数据之间的数据层级关系(如用户名和用户信息),因此,本发明实施例根据所述差异分析报告,利用所述中台系统中的贴源层对所述元数据进行层级拆分,以识别每个元数据的数据层级,保障后续元数据之间关系识别的前提。
作为本发明的一个实施例,所述根据所述差异性分析报告,对所述元数据进行层级拆分,包括:根据所述差异性分析报告,识别所述元数据中的历史元数据和增量元数据,查询所述历史元数据的历史节点关系,根据所述历史节点关系,执行所述历史元数据的层级拆分,配置所述增量元数据的实时节点关系,根据所述实时节点关系,执行所述增量元数据的层级拆分。
其中,所述增量元数据是指所述元数据中在所述中台系统中不存在的元数据,所述历史元数据是指所述元数据中在所述中台系统中已存在的元数据,所述历史节点关系是指在所述中台系统中已构建过对应元数据之间的数据层级关系,如构建市区县三个历史元数据的节点关系为:市包含区,区包含县。
一个可选实施例中,所述配置所述增量元数据的实时节点关系,包括:获取所述增量元数据的数据标识字段,根据所述数据标识字段,定义所述增量元数据的节点层级位置,根据所述节点层级位置,生成所述增量元数据的实时节点关系。
进一步地,本发明实施例通过所述中台系统中的贴源层将层级拆分后的元数据中具有相同数据类型的元数据进行聚类,生成多个聚类元数据,以将具有相同数据类型的元数据进行归类,提高后续数据的处理速度。
本发明一可选实施例中,利用下述公式将层级拆分后的元数据中具有相同数据类型的元数据进行聚类:
其中,E表示聚类元数据的聚类中心点,K表示聚类中心点的数量,c表示层级拆分后的元数据的数量,xt表示第t个层级拆分后的元数据,μi表示第i个聚类中心点的簇心质量。
S3、对每个所述聚类元数据进行数据质量校验,得到数据质量校验报告。
本发明实施例通过所述中台系统中的整合层对每个所述聚类元数据进行数据质量校验,以确保每个所述聚类元数据的合规性,保障后续元数据的关系识别准确率。
作为本发明的一个实施例,所述对每个所述聚类元数据进行数据质量校验,得到数据质量校验报告,包括:利用预设的数据约束条件对每个所述聚类元数据中所有元数据进行合法校验,得到数据校验结果,利用预设的字段约束条件对每个所述聚类元数据中所有元数据的数据字段进行留存校验,得到字段校验结果,根据所述数据校验结果和字段校验结果,生成每个所述聚类元数据的数据质量校验报告。
其中,所述数据约束条件是指每个聚类元数据中的元数据在所述中台系统需要遵循的数据规则,如数据长度约束条件、数据排序条件、敏感数据过滤条件等,所述字段约束条件是指每个聚类元数据中元数据的数据字段在所述中台系统需要遵循的字段规则,如字段长度约束条件、字段存储条件、字段过滤条件,可选的,所述数据约束条件和字段约束条件可以通过正则表达式构建。
S4、根据所述数据质量校验报告,构建每个所述聚类元数据的数据表,并识别所述数据表中任意两个元数据之间的关系,得到关系识别结果。
应该了解,在所述数据质量校验报告中,存在每个聚类元数据的质量检验结果,即在每个聚类元数据中的元数据对应字段的是否合规,因此,本发明实施例,根据所述数据质量校验报告,构建每个所述聚类元数据的数据表,以确保构建的数据表的合规性,提高后续元数据之间关系的识别准确率。
作为本发明的一个实施例,所述根据所述数据质量校验报告,构建每个所述聚类元数据的数据表,包括:根据所述数据质量校验报告,识别每个所述聚类元数据中非法元数据及非法标识字段,对所述非法元数据及非法标识字段进行过滤,得到目标聚类元数据,采用键值对(key-value)的形式构建所述目标聚类元数据的数据表。
一个可选实施例中,所述目标聚类元数据的数据表构建是将所述目标聚类元数据中的标识字段作为key,及将所述目标聚类元数据中的元数据作为value,通过key-value的形式可以实现元数据的快速查询。
进一步地,所述识别所述数据表中任意两个元数据之间的关系,得到关系识别结果,包括:获取所述任意两个元数据在所述数据表中的标识字段,根据所述标识字段查询所述任意两个元数据的节点关系,根据所述节点关系,识别所述任意两个元数据的数据关系,得到所述任意两个元数据的关系识别结果。
本发明实施例首先获取的元数据进行差异性分析,得到差异性分析报告,可以识别出获取的元数据中存在变化的元数据和未存在变化的元数据,从而提高后续所述元数据的处理速度,并根据所述差异性分析报告,对所述元数据进行层级拆分及聚类,生成多个聚类元数据,以识别每个元数据的数据层级,保障后续元数据之间关系识别的前提;其次,本发明实施例对每个所述聚类元数据进行数据质量校验,得到数据质量校验报告,可以确保每个所述聚类元数据的合规性,保障后续元数据的关系识别准确率;进一步地,本发明实施例根据所述数据质量校验报告,构建每个所述聚类元数据的数据表,并识别所述数据表中任意两个元数据之间的关系,得到关系识别结果,可以确保构建的数据表的合规性,提高后续元数据之间关系的识别准确率。因此,本发明提出的一种数据关系识别方法可以提高数据关系识别的准确性。
如图2所示,是本发明数据关系识别装置的功能模块图。
本发明所述数据关系识别装置100可以安装于电子设备中。根据实现的功能,所述数据关系识别装置可以包括数据差异性分析模块101、数据层级拆分模块102、数据质量校验模块103以及数据关系识别模块104。本发所述模块也可以称之为单元,是指一种能够被电子设备1处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备1的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述数据差异性分析模块101,用于从至少一个业务系统中获取元数据,对所述元数据进行差异性分析,得到所述元数据的差异性分析报告;
所述数据层级拆分模块102,用于根据所述差异性分析报告,对所述元数据进行层级拆分,并将层级拆分后的元数据中具有相同数据类型的元数据进行聚类,生成多个聚类元数据;
所述数据质量校验模块103,用于对每个所述聚类元数据进行数据质量校验,得到数据质量校验报告;
所述数据关系识别模块104,用于根据所述数据质量校验报告,构建每个所述聚类元数据的数据表,并识别所述数据表中任意两个元数据之间的关系,得到关系识别结果。
详细地,本发明实施例中所述数据关系识别装置100中的所述各模块在使用时采用与上述的图1中所述的数据关系识别方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图3所示,是本发明实现数据关系识别方法的电子设备1的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如数据关系识别程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备1的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行数据关系识别程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如数据关系识别程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备1与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备1之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
图3仅示出了具有部件的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的数据关系识别程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
从至少一个业务系统中获取元数据,对所述元数据进行差异性分析,得到所述元数据的差异性分析报告;
根据所述差异性分析报告,对所述元数据进行层级拆分,并将层级拆分后的元数据中具有相同数据类型的元数据进行聚类,生成多个聚类元数据;
对每个所述聚类元数据进行数据质量校验,得到数据质量校验报告;
根据所述数据质量校验报告,构建每个所述聚类元数据的数据表,并识别所述数据表中任意两个元数据之间的关系,得到关系识别结果。
具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备1的处理器所执行时,可以实现:
从至少一个业务系统中获取元数据,对所述元数据进行差异性分析,得到所述元数据的差异性分析报告;
根据所述差异性分析报告,对所述元数据进行层级拆分,并将层级拆分后的元数据中具有相同数据类型的元数据进行聚类,生成多个聚类元数据;
对每个所述聚类元数据进行数据质量校验,得到数据质量校验报告;
根据所述数据质量校验报告,构建每个所述聚类元数据的数据表,并识别所述数据表中任意两个元数据之间的关系,得到关系识别结果。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (8)
1.一种数据关系识别方法,其特征在于,所述方法包括:
从至少一个业务系统中获取元数据,对所述元数据进行差异性分析,得到所述元数据的差异性分析报告;
根据所述差异性分析报告,对所述元数据进行层级拆分,并将层级拆分后的元数据中具有相同数据类型的元数据进行聚类,生成多个聚类元数据;
对每个所述聚类元数据进行数据质量校验,得到数据质量校验报告;
根据所述数据质量校验报告,构建每个所述聚类元数据的数据表,并识别所述数据表中任意两个元数据之间的关系,得到关系识别结果;
其中,所述对所述元数据进行差异分析,得到所述元数据的差异性分析报告,包括:获取所述元数据的数据类型,查询所述数据类型对应的历史数据;将所述元数据与所述历史数据进行差异对比,得到差异对比结果;根据所述差异对比结果,生成所述元数据的差异性分析报告;
所述根据所述差异性分析报告,对所述元数据进行层级拆分,包括:根据所述差异性分析报告,识别所述元数据中的历史元数据和增量元数据;查询所述历史元数据的历史节点关系,根据所述历史节点关系,执行所述历史元数据的层级拆分;配置所述增量元数据的实时节点关系,根据所述实时节点关系,执行所述增量元数据的层级拆分。
2.如权利要求1所述的数据关系识别方法,其特征在于,所述配置所述增量元数据的实时节点关系,包括:
获取所述增量元数据的数据标识字段,根据所述数据标识字段,定义所述增量元数据的节点层级位置;
根据所述节点层级位置,生成所述增量元数据的实时节点关系。
3.如权利要求1所述的数据关系识别方法,其特征在于,所述将层级拆分后的元数据中具有相同数据类型的元数据进行聚类,包括:
利用下述公式将层级拆分后的元数据中具有相同数据类型的元数据进行聚类:
其中,E表示聚类元数据的聚类中心点,K表示聚类中心点的数量,c表示层级拆分后的元数据的数量,表示第t个层级拆分后的元数据,/>表示第i个聚类中心点的簇心质量。
4.如权利要求1至3中任意一项所述的数据关系识别方法,其特征在于,所述对每个所述聚类元数据进行数据质量校验,得到数据质量校验报告,包括:
利用预设的数据约束条件对每个所述聚类元数据中所有元数据进行合法校验,得到数据校验结果;
利用预设的字段约束条件对每个所述聚类元数据中所有元数据的数据字段进行留存校验,得到字段校验结果;
根据所述数据校验结果和字段校验结果,生成每个所述聚类元数据的数据质量校验报告。
5.如权利要求1所述的数据关系识别方法,其特征在于,所述根据所述数据质量校验报告,构建每个所述聚类元数据的数据表,包括:
根据所述数据质量校验报告,识别每个所述聚类元数据中非法元数据及非法标识字段;
对所述非法元数据及非法标识字段进行过滤,得到目标聚类元数据;
采用键值对的形式构建所述目标聚类元数据的数据表。
6.一种数据关系识别装置,其特征在于,所述装置包括:
数据差异性分析模块,用于从至少一个业务系统中获取元数据,对所述元数据进行差异性分析,得到所述元数据的差异性分析报告;
数据层级拆分模块,用于根据所述差异性分析报告,对所述元数据进行层级拆分,并将层级拆分后的元数据中具有相同数据类型的元数据进行聚类,生成多个聚类元数据;
数据质量校验模块,用于对每个所述聚类元数据进行数据质量校验,得到数据质量校验报告;
数据关系识别模块,用于根据所述数据质量校验报告,构建每个所述聚类元数据的数据表,并识别所述数据表中任意两个元数据之间的关系,得到关系识别结果;
其中,所述对所述元数据进行差异分析,得到所述元数据的差异性分析报告,包括:获取所述元数据的数据类型,查询所述数据类型对应的历史数据;将所述元数据与所述历史数据进行差异对比,得到差异对比结果;根据所述差异对比结果,生成所述元数据的差异性分析报告;
所述根据所述差异性分析报告,对所述元数据进行层级拆分,包括:根据所述差异性分析报告,识别所述元数据中的历史元数据和增量元数据;查询所述历史元数据的历史节点关系,根据所述历史节点关系,执行所述历史元数据的层级拆分;配置所述增量元数据的实时节点关系,根据所述实时节点关系,执行所述增量元数据的层级拆分。
7.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5中任意一项所述的数据关系识别方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的数据关系识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110702568.8A CN113434542B (zh) | 2021-06-24 | 2021-06-24 | 数据关系识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110702568.8A CN113434542B (zh) | 2021-06-24 | 2021-06-24 | 数据关系识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113434542A CN113434542A (zh) | 2021-09-24 |
CN113434542B true CN113434542B (zh) | 2023-12-05 |
Family
ID=77753868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110702568.8A Active CN113434542B (zh) | 2021-06-24 | 2021-06-24 | 数据关系识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113434542B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115048430B (zh) * | 2022-06-28 | 2024-04-16 | 北京龙智数科科技服务有限公司 | 数据核验方法、系统、装置及存储介质 |
CN116467500B (zh) * | 2023-06-15 | 2023-11-03 | 阿里巴巴(中国)有限公司 | 数据关系识别、自动问答、查询语句生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021857A (zh) * | 2006-10-20 | 2007-08-22 | 鲍东山 | 基于内容分析的视频搜索系统 |
CN111897673A (zh) * | 2020-07-31 | 2020-11-06 | 平安科技(深圳)有限公司 | 运维故障根因识别方法、装置、计算机设备和存储介质 |
CN112445875A (zh) * | 2020-12-14 | 2021-03-05 | 招商局金融科技有限公司 | 数据关联及检验方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10565172B2 (en) * | 2017-02-24 | 2020-02-18 | International Business Machines Corporation | Adjusting application of a set of data quality rules based on data analysis |
-
2021
- 2021-06-24 CN CN202110702568.8A patent/CN113434542B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021857A (zh) * | 2006-10-20 | 2007-08-22 | 鲍东山 | 基于内容分析的视频搜索系统 |
CN111897673A (zh) * | 2020-07-31 | 2020-11-06 | 平安科技(深圳)有限公司 | 运维故障根因识别方法、装置、计算机设备和存储介质 |
CN112445875A (zh) * | 2020-12-14 | 2021-03-05 | 招商局金融科技有限公司 | 数据关联及检验方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
面向高校多源异构数据环境的元数据集成方法;冯勇;张丽颖;顾兆旭;马技;;辽宁大学学报(自然科学版)(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113434542A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113434542B (zh) | 数据关系识别方法、装置、电子设备及存储介质 | |
CN112528616B (zh) | 业务表单生成方法、装置、电子设备及计算机存储介质 | |
CN112418798A (zh) | 信息审核方法、装置、电子设备及存储介质 | |
CN113961473A (zh) | 数据测试方法、装置、电子设备及计算机可读存储介质 | |
CN112231417A (zh) | 数据分类方法、装置、电子设备及存储介质 | |
CN113806434A (zh) | 大数据处理方法、装置、设备及介质 | |
CN114881616A (zh) | 业务流程执行方法、装置、电子设备及存储介质 | |
CN113658002B (zh) | 基于决策树的交易结果生成方法、装置、电子设备及介质 | |
CN113591881B (zh) | 基于模型融合的意图识别方法、装置、电子设备及介质 | |
CN114896164A (zh) | 接口优化方法、装置、电子设备及存储介质 | |
CN111859985B (zh) | Ai客服模型测试方法、装置、电子设备及存储介质 | |
CN114780688A (zh) | 基于规则匹配的文本质检方法、装置、设备及存储介质 | |
CN114138243A (zh) | 基于开发平台的功能调用方法、装置、设备及存储介质 | |
CN114911479A (zh) | 基于配置化的界面生成方法、装置、设备及存储介质 | |
CN113822215A (zh) | 设备操作指引文件生成方法、装置、电子设备及存储介质 | |
CN113626605A (zh) | 信息分类方法、装置、电子设备及可读存储介质 | |
CN112686759A (zh) | 对账监测方法、装置、设备及介质 | |
CN113434365B (zh) | 数据特征监控方法、装置、电子设备及存储介质 | |
CN113704411B (zh) | 基于词向量的相似客群挖掘方法、装置、设备及存储介质 | |
CN113360505B (zh) | 基于时序数据的数据处理方法、装置、电子设备及可读存储介质 | |
CN115242638B (zh) | 可行触达的筛选方法、装置、电子设备及存储介质 | |
CN115098514A (zh) | 基于注解的场景识别方法、装置、电子设备及存储介质 | |
CN114625755A (zh) | 脚本校验方法、装置、电子设备及存储介质 | |
CN113434414A (zh) | 数据测试方法、装置、电子设备及存储介质 | |
CN116844178A (zh) | 医疗发票的漂移文本对接方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |