CN110765118B - 一种数据的修订方法、修订装置及可读存储介质 - Google Patents

一种数据的修订方法、修订装置及可读存储介质 Download PDF

Info

Publication number
CN110765118B
CN110765118B CN201911001127.4A CN201911001127A CN110765118B CN 110765118 B CN110765118 B CN 110765118B CN 201911001127 A CN201911001127 A CN 201911001127A CN 110765118 B CN110765118 B CN 110765118B
Authority
CN
China
Prior art keywords
data
standardized
field
revised
data table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911001127.4A
Other languages
English (en)
Other versions
CN110765118A (zh
Inventor
任建康
张峻源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911001127.4A priority Critical patent/CN110765118B/zh
Publication of CN110765118A publication Critical patent/CN110765118A/zh
Application granted granted Critical
Publication of CN110765118B publication Critical patent/CN110765118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据的修订方法、修订装置及可读存储介质,所述修订方法包括:根据待修订数据表的表名信息确定待修订数据表所属的数据表类型以及数据表类型对应的多条标准化数据;基于待修订数据表中每个字段对应的字段属性信息,从多条标准化数据中确定出与每个字段相似的至少一条标准化数据以及每一条标准化数据的多个权值;基于每一条标准化数据的多个权值,确定出每个字段对应的标准化目标数据,并按照标准化目标数据的标准化数据格式,对待修订数据表中每个字段对应的数据进行修订,这样,可以减少数据对标过程中的标准化数据的数量,同时有针对性的对数据进行修订,有助于提高数据修订的效率和准确性。

Description

一种数据的修订方法、修订装置及可读存储介质
技术领域
本申请涉及数据处理技术领域,尤其是涉及一种数据的修订方法、修订装置及可读存储介质。
背景技术
随着计算机技术的发展,在计算机上的业务也由简单的基于单机的数学计算、基于简单连接的内部网络的内部业务处理等发展到内部网、外部网、全球互联网之间的企业级计算机处理系统和全球范围内的信息共享和业务处理,大数据技术应运而生。在大数据背景下,由于企业内外网共享的数据种类繁多、数据量大、结构复杂、建设标准不统一,数据代码冲突,导致企业内外网之间共享数据效率低甚至数据不能共享。因此对数据进行标准化,将所有数据以标准化数据源为依据,使得数据库格式和数据项的命令一致,实现数据可实现可识读和可共享是非常必要的。
现阶段,对于数据标准化过程都是依据标准化数据库中的全部数据,针对每一个数据字段进行数据对标,需要将一个待对标数据与标准化数据库中的全部数据进行对比,由于标准化数据库中数据量大并且对比数据数量大容易遗漏数据,导致数据对标过程所需时间较长且数据对标不准确,数据对标效率和准确率低。
发明内容
有鉴于此,本申请的目的在于提供一种数据的修订方法、修订装置及可读存储介质,能够根据待修订数据表的表名信息和每个字段的字段属性信息,在标准化数据库中确定与待修订数据表对应的多条标准化数据,并在多条标准化数据中确定出每个字段对应的标准化数据格式,进而对待修订数据表每个字段进行修订,可以根据待修订数据表类型从标准化数据库中确定与待修订数据表对应的标准化数据,减少数据对标过程中的标准化数据的数量,同时有针对性的对数据进行修订,有助于提高数据修订的效率和准确性。
本申请实施例提供了一种数据的修订方法,所述修订方法包括:
获取待修订数据表的表名信息以及所述待修订数据表中多个字段;
基于所述表名信息确定所述待修订数据表所属的数据表类型,并确定所述数据表类型在标准化数据库中对应的多条标准化数据;
基于所述待修订数据表中每个字段对应的字段属性信息,从所述多条标准化数据中确定出与每个字段相似的至少一条标准化数据以及每一条标准化数据的多个权值和标准化数据格式;
基于每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据,并按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订。
进一步的,通过以下步骤确定所述待修订数据表所属的数据表类型:
基于所述表名信息指示的待修订数据表的表名,确定所述待修订数据表所属的数据表母分类;
检测所述数据表母分类是否包含子分类;
若所述数据表母分类包含子分类,将所述数据表母分类中最底层的子分类确定为所述待修订数据表所属的数据表类型。
进一步的,通过以下步骤从所述多条标准化数据中确定出与每个字段相似的至少一条标准化数据:
获取所述多条标准化数据所属的多个标准化数据类型;
并基于所述待修订数据表中每个字段对应的字段属性信息指示的每个字段的属性与所述多个标准化数据类型的匹配度,确定与每个字段相似的至少一条标准化数据。
进一步的,通过以下步骤基于每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据:
从每一条标准化数据的多个权值中获取每个字段与每一条标准化数据之间的第一权值;
针对同一字段,当该字段对应的每一条标准化数据中的每两条标准化数据之间存在第二权值时,将该两条标准化数据分别对应的第一权值与第二权值的和值分别确定为该两条标准化数据对应的第三权值;
基于每个字段与每一条标准化数据之间的第一权值和第三权值,确定每个字段与每一条标准化数据之间最小的权值对应的标准化数据为每个字段对应的标准化目标数据。
进一步的,通过以下步骤按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订:
针对同一字段,获取该字段对应的标准化数据格式指示的数据组成形式以及数据长度;
将该字段的数据根据所述数据组成形式以及数据长度进行修订。
本申请实施例还提供了一种数据的修订装置,所述修订装置包括:
获取模块,用于获取待修订数据表的表名信息以及所述待修订数据表中多个字段;
第一确定模块,用于基于所述获取模块获取的表名信息确定所述待修订数据表所属的数据表类型,并确定所述数据表类型在标准化数据库中对应的多条标准化数据;
第二确定模块,用于基于所述待修订数据表中每个字段对应的字段属性信息,从所述第一确定模块确定的多条标准化数据中确定出与每个字段相似的至少一条标准化数据以及每一条标准化数据的多个权值和标准化数据格式;
修订模块,用于基于所述第二确定模块确定的每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据,并按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订。
进一步的,所述第一确定模块在用于基于所述表名信息确定所述待修订数据表所属的数据表类型,并确定所述数据表类型在标准化数据库中对应的多条标准化数据时,通过以下步骤确定所述待修订数据表所属的数据表类型:
基于所述表名信息指示的待修订数据表的表名,确定所述待修订数据表所属的数据表母分类;
检测所述数据表母分类是否包含子分类;
若所述数据表母分类包含子分类,将所述数据表母分类中最底层的子分类确定为所述待修订数据表所属的数据表类型。
进一步的,所述第二确定模块在用于基于所述待修订数据表中每个字段对应的字段属性信息,从所述多条标准化数据中确定出与每个字段相似的至少一条标准化数据以及每一条标准化数据的多个权值和标准化数据格式时,通过以下步骤从所述多条标准化数据中确定出与每个字段相似的至少一条标准化数据:
获取所述多条标准化数据所属的多个标准化数据类型;
并基于所述待修订数据表中每个字段对应的字段属性信息指示的每个字段的属性与所述多个标准化数据类型的匹配度,确定与每个字段相似的至少一条标准化数据。
进一步的,所述修订模块在用于基于每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据,并按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订时,通过以下步骤基于每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据:
从每一条标准化数据的多个权值中获取每个字段与每一条标准化数据之间的第一权值;
针对同一字段,当该字段对应的每一条标准化数据中的每两条标准化数据之间存在第二权值时,将该两条标准化数据分别对应的第一权值与第二权值的和值分别确定为该两条标准化数据对应的第三权值;
基于每个字段与每一条标准化数据之间的第一权值和第三权值,确定每个字段与每一条标准化数据之间最小的权值对应的标准化数据为每个字段对应的标准化目标数据。
进一步的,所述修订模块在用于基于每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据,并按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订时,通过以下步骤按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订:
针对同一字段,获取该字段对应的标准化数据格式指示的数据组成形式以及数据长度;
将该字段的数据根据所述数据组成形式以及数据长度进行修订。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的数据的修订方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的数据的修订方法的步骤。
本申请实施例提供的数据的修订方法、修订装置及可读存储介质,获取待修订数据表的表名信息以及所述待修订数据表中多个字段;基于所述表名信息确定所述待修订数据表所属的数据表类型,并确定所述数据表类型在标准化数据库中对应的多条标准化数据;基于所述待修订数据表中每个字段对应的字段属性信息,从所述多条标准化数据中确定出与每个字段相似的至少一条标准化数据以及每一条标准化数据的多个权值和标准化数据格式;基于每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据,并按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订。
这样,根据待修订数据表的表名信息确定待修订数据表所属的数据表类型,根据该数据表类型从标准数据库中确定出与待修订数据表对应的多条标准化数据,并依据待修订数据表中每个字段的字段属性信息,确定出与每个字段对应的至少一条标准化数据,基于每一条标准化数据的多个权值确定每个字段对应的标准化目标数据,按照标准化目标数据的标准化数据格式对待修订数据表汇中的每一个字段进行修订,能够根据待修订数据表的表名信息和每个字段的字段属性信息,确定待修订数据表每个字段对应的标准化数据格式,进而对待修订数据表每个字段进行修订,可以根据待修订数据表类型从标准化数据库中确定与待修订数据表对应的标准化数据,减少数据对标过程中的标准化数据的数量,同时有针对性的对数据进行修订,有助于提高数据修订的效率和准确性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为一种可能的应用场景下的系统结构图;
图2为本申请实施例所提供的一种数据的修订方法的流程图;
图3为本申请实施例中的确定每个字段的标准化目标数据的流程图;
图4为本申请实施例所提供的一种数据的修订装置的结构示意图;
图5为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于数据处理技术领域,根据待修订数据表的表名信息确定待修订数据表所属的数据表类型以及所述数据表类型在标准化数据库中对应的多条标准化数据,根据每个字段对应的字段属性信息从多条标准化数据中确定与每个字段。请参阅图1,图1为一种可能的应用场景下的系统结构图,如图1中所示,所述系统包括数据表信息存储数据库和修订装置,所述数据表信息存储数据库中存储未修订的数据表达表名信息以及该为修订的数据表的多个字段,所述修订装置在获取到待修订数据表的表名信息后,根据表名信息确定与该待修订数据表中每一个字段对应的标准化目标数据,并按照每一个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订。
经研究发现,现阶段,对于数据标准化过程都是依据标准化数据库中的全部数据,针对每一个数据字段进行数据对标,需要将一个待对标数据与标准化数据库中的全部数据进行对比,由于标准化数据库中数据量大并且对比数据数量大容易遗漏数据,导致数据对标过程所需时间较长且数据对标不准确,数据对标效率和准确率低。
基于此,本申请实施例提供了一种数据的修订方法,能够根据待修订数据表的表名信息和每个字段的字段属性信息,确定待修订数据表每个字段对应的标准化数据格式,进而对待修订数据表每个字段进行修订,可以根据待修订数据表类型从标准化数据库中确定与待修订数据表对应的标准化数据,减少数据对标过程中的标准化数据的数量,同时有针对性的对数据进行修订,有助于提高数据修订的效率和准确性。
请参阅图2,图2为本申请实施例所提供的一种数据的修订方法的流程图。如图2中所示,本申请实施例提供的数据的修订方法,包括:
步骤201、获取待修订数据表的表名信息以及所述待修订数据表中多个字段。
该步骤中,获取待修订数据表的表名信息以及该待修订数据表中的多个字段。
这里,所述表名信息示出了该待修订数据表的名称,该名称可以较为直观地示出该待该待修订数据表中存储的数据的类型;该待修订表中的多个字段中标示出了每一个字段存储的数据的类型。
步骤202、基于所述表名信息确定所述待修订数据表所属的数据表类型,并确定所述数据表类型在标准化数据库中对应的多条标准化数据。
该步骤中,根据表名信息指示的该待修订数据表的表名,确定该待修订数据表所属的数据表类型,并根据所属的数据表类型在标准化数据库中确定出在该数据表类型下的多条标准化数据。
这里,根据表名信息指示的该待修订数据表的表名,确定待修订数据表属于的数据表类型,在本申请的一个实施例中,数据表分为多级分类,最基本的数据以及分类包括人员、组织、案事件、虚拟身份、地址和物品类别,在各一级分类中还包括二级、三级以及四级分类,通过多级分类确定待修订数据表所属的数据表类型。例如,待修订的数据表的表名信息指示所述待修订数据表的表名为“行政机关人员信息表”,可以初步确定所述待修订数据表所属的一级分类为“人员”。
步骤203、基于所述待修订数据表中每个字段对应的字段属性信息,从所述多条标准化数据中确定出与每个字段相似的至少一条标准化数据以及每一条标准化数据的多个权值和标准化数据格式。
该步骤中,在步骤202根据待修订数据表所属的数据表类型从标准化数据库中确定出多条标准化数据后,针对待修订的数据表中的每一个字段的字段属性信息,从所述多条标准化数据中确定出与每一个字段相似的至少一条标准化数据,并获取每一条标准化数据的多个权值和标准化数据的数据格式。
这里,针对同一字段的属性信息在标准化数据库中可能存在不止一种存储形式,所以待修订数据表的每一个字段对应的标准化数据可能有多条。例如,针对人员数据表中的民族信息中的字段存储可能有“汉”或是“汉族”等多种存储形式。
步骤204、基于每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据,并按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订。
该步骤中,针对同一字段的多个标准化数据,每一条标准化数据都可以获取相对应的至少一个权值,基于每一条标准化数据根据最短路径算法,从与每个字段相似的至少一条标准化数据中,确定出与每个字段最相似的标准化目标数据,并按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订。
这里,在进行标准化目标数据的确定的时候,由于最短路径算法的计算特性,标准化目标数据可能不止一个,当所述标准化目标数据为多个时,待修订数据表中每个字段对应的数据的修订也要分步骤进行;以所述标准化目标数据为两个为例,需要先将待修订数据表中每个字段对应的原始数据先修订至第一标准化目标数据的格式,在根据第一标准化目标数据的修订得到的结果数据修订至第二标准化目标数据的格式,从而完成数据的修订。
进一步的,通过以下步骤确定所述待修订数据表所属的数据表类型:基于所述表名信息指示的待修订数据表的表名,确定所述待修订数据表所属的数据表母分类;检测所述数据表母分类是否包含子分类;若所述数据表母分类包含子分类,将所述数据表母分类中最底层的子分类确定为所述待修订数据表所属的数据表类型。
该步骤中,根据待修订数据表名信息指示的表名,确定所述待修订数据表所属的数据表母分类,由于对于数据表的分类的界定,是在母分类(一级分类)下还可能存在子分类(二级分类、三级分类以及四级分类),将最细化的分类类型确定为待修订数据表所属的数据表类型。
例如,假设某一待修订数据表的表名属于某一级分类的四级分类,就确定待修订数据表属于对应的四级分类的数据表类型;另一修订数据表的表名属于某一级分类,在所述一级分类下不存在细化分类,那么确定待修订数据表属于对应的一级分类的数据表类型。
这里,本实施例中数据表的类型,一级分类包括人员、组织、案事件、虚拟身份、地址和物品类别,二级分类中对物品进行三级分类,包括基本信息、特征信息、活动信息、车辆、房屋、电话等类别;二级分类对人员进行三级分类,包括基本信息、活动信息、特征信息等,对人员类别中的活动信息进行四级分类,包括行政管理行为、社会服务行为、违法犯罪行为等。
进一步的,通过以下步骤从所述多条标准化数据中确定出与每个字段相似的至少一条标准化数据:获取所述多条标准化数据所属的多个标准化数据类型;并基于所述待修订数据表中每个字段对应的字段属性信息指示的每个字段的属性与所述多个标准化数据类型的匹配度,确定与每个字段相似的至少一条标准化数据。
该步骤中,获取待修订的标准化数据表对应的多个标准化数据类型,并获取待修订数据表中每个字段对应的字段属性信息指示的每个字段的属性和多个标准化数据类型的匹配度,确定与每个字段的属性最匹配的标准化数据类型中的标准数据为与每个字段相似的标准化数据。
这里,在确定待修订数据表的数据表类型后,针对该数据表类型可以在标准化数据库中找到该数据表类型对应的多个数据表,将多个数据表中的多条标准化数据按照数据属性,将多条标准化数据划分至所属的数据表类型中,根据待修订数据表的同一字段的字段属性,确定与该字段的属性相同(最相近)的数据表类型,将该数据表类型中的至少一条标准化数据确定为该字段相似的至少一条标准化数据。
对应于上述实施例,数据待修订数据表的表名为“行政机关人员信息表”所属的一级分类为“人员”,最细化分类为“基本信息”,该待修订数据表所述的数据表类型为“基本信息”,在标准化数据库中,“基本信息”包含有多条标准化数据,比如“姓名”、“性别”、“籍贯”以及“证件信息”等,若该“行政机关人员信息表”中的某一字段的属性显示该字段存储的数据为“身份证号“,那么与该字段最匹配的是“证件信息”这个标准化数据类型,那么“证件信息”中包含的至少一条标准化数据就是与该字段相似的标准化数据。
进一步的,通过以下步骤按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订:针对同一字段,获取该字段对应的标准化数据格式指示的数据组成形式以及数据长度;将该字段的数据根据所述数据组成形式以及数据长度进行修订。
该步骤中,针对同一字段,获取该字段对应的标准化目标数据的标准化数据格式指示的标准化数据的数据构成及数据长度,根据数据构成以及数据长度,将该字段的原始数据修订成标准的数据构成和数据长度,以此类推,对待修订数据表中每个字段的数据进行修订。
这里,字段数据的标准化格式可以包括以下标准,对于时间字段都是时间戳格式,所述时间戳格式就是用特定的Linux数据代码表示时间;身份证数据的长度为固定的18位,经纬度的同一存储格式可以为(x°N,y°E);对于字符串的存储要去掉不必要的空格;对于字段名也可以进行标准化,比如都用拼音缩写来进行存储,“公民身份证号”存储为“gmsfzh”等。
本申请实施例提供的数据的修订方法,获取待修订数据表的表名信息以及所述待修订数据表中多个字段;基于所述表名信息确定所述待修订数据表所属的数据表类型,并确定所述数据表类型在标准化数据库中对应的多条标准化数据;基于所述待修订数据表中每个字段对应的字段属性信息,从所述多条标准化数据中确定出与每个字段相似的至少一条标准化数据以及每一条标准化数据的多个权值和标准化数据格式;基于每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据,并按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订。
这样,根据待修订数据表的表名信息确定待修订数据表所属的数据表类型,根据该数据表类型从标准数据库中确定出与待修订数据表对应的多条标准化数据,并依据待修订数据表中每个字段的字段属性信息,确定出与每个字段对应的至少一条标准化数据,基于每一条标准化数据的多个权值确定每个字段对应的标准化目标数据,按照标准化目标数据的标准化数据格式对待修订数据表汇中的每一个字段进行修订,能够根据待修订数据表的表名信息和每个字段的字段属性信息,确定待修订数据表每个字段对应的标准化数据格式,进而对待修订数据表每个字段进行修订,可以根据待修订数据表类型从标准化数据库中确定与待修订数据表对应的标准化数据,减少数据对标过程中的标准化数据的数量,同时有针对性的对数据进行修订,有助于提高数据修订的效率和准确性。
请参阅图3,图3为本申请实施例中的确定每个字段的标准化目标数据的流程图。如图3中所示,通过以下步骤基于每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据:
步骤301、从每一条标准化数据的多个权值中获取每个字段与每一条标准化数据之间的第一权值。
该步骤中,对于每一条标准化数据,都会有该标准化数据与每个字段之间的权值,将标准化数据与每个字段之间的权值确定为第一权值。
其中,第一权值可以是根据历史数据表的修订过程中总结出来的。
步骤302、针对同一字段,当该字段对应的每一条标准化数据中的每两条标准化数据之间存在第二权值时,将该两条标准化数据分别对应的第一权值与第二权值的和值分别确定为该两条标准化数据对应的第三权值。
该步骤中,在实际统计修订过程中,每一条标准化数据不仅与字段之间存在第一权值,每两条标准化数据之间也可能存在第二权值,标示两条标准化数据之间的关联关系,针对一条标准化数据将其对应的第一权值与第二权值之间的和的值,确定为该标准化数据对应的第三权值。
步骤303、基于每个字段与每一条标准化数据之间的第一权值和第三权值,确定每个字段与每一条标准化数据之间最小的权值对应的标准化数据为每个字段对应的标准化目标数据。
该步骤中,针对同一字段,获取该字段与每一条标准化数据之间的第一权值以及第二权值,遍历全部第一权值和全部第三权值,确定最小的权值对应的标准化数据为每个字段对应的标准化目标数据。
这里,标准化目标数据可能不止一个,当所述标准化目标数据为多个时,待修订数据表中每个字段对应的数据的修订也要分步骤进行;以所述标准化目标数据为两个为例,需要先将待修订数据表中每个字段对应的原始数据先修订至第一标准化目标数据的格式,在根据第一标准化目标数据的修订得到的结果数据修订至第二标准化目标数据的格式,从而完成数据的修订。
本申请实施例提供的数据的修订方法,从每一条标准化数据的多个权值中获取每个字段与每一条标准化数据之间的第一权值;针对同一字段,当该字段对应的每一条标准化数据中的每两条标准化数据之间存在第二权值时,将该两条标准化数据分别对应的第一权值与第二权值的和值分别确定为该两条标准化数据对应的第三权值;基于每个字段与每一条标准化数据之间的第一权值和第三权值,确定每个字段与每一条标准化数据之间最小的权值对应的标准化数据为每个字段对应的标准化目标数据。
这样,针对同一字段,结合最短路径算法,即获取该字段和与之相似的待标准化数据之间的第一权值和第三权值,将权值数据值最小的标准化数据确定为该字段对应的标准化目标数据,减少了数据比对的计算量,有助于提高字段对应的标准化目标数据查找的效率。
请参阅图4,图4为本申请实施例所提供的一种数据的修订装置的结构示意图。如图4中所示,所述修订装置400包括:
获取模块410,用于获取待修订数据表的表名信息以及所述待修订数据表中多个字段。
第一确定模块420,用于基于所述获取模块410获取的表名信息确定所述待修订数据表所属的数据表类型,并确定所述数据表类型在标准化数据库中对应的多条标准化数据。
第二确定模块430,用于基于所述待修订数据表中每个字段对应的字段属性信息,从所述第一确定模块420确定的多条标准化数据中确定出与每个字段相似的至少一条标准化数据以及每一条标准化数据的多个权值和标准化数据格式。
修订模块440,用于基于所述第二确定模块430确定的每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据,并按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订。
进一步的,所述第一确定模块420在用于基于所述表名信息确定所述待修订数据表所属的数据表类型,并确定所述数据表类型在标准化数据库中对应的多条标准化数据时,通过以下步骤确定所述待修订数据表所属的数据表类型:
基于所述表名信息指示的待修订数据表的表名,确定所述待修订数据表所属的数据表母分类;
检测所述数据表母分类是否包含子分类;
若所述数据表母分类包含子分类,将所述数据表母分类中最底层的子分类确定为所述待修订数据表所属的数据表类型。
进一步的,所述第二确定模块430在用于基于所述待修订数据表中每个字段对应的字段属性信息,从所述多条标准化数据中确定出与每个字段相似的至少一条标准化数据以及每一条标准化数据的多个权值和标准化数据格式时,通过以下步骤从所述多条标准化数据中确定出与每个字段相似的至少一条标准化数据:
获取所述多条标准化数据所属的多个标准化数据类型;
并基于所述待修订数据表中每个字段对应的字段属性信息指示的每个字段的属性与所述多个标准化数据类型的匹配度,确定与每个字段相似的至少一条标准化数据。
进一步的,所述修订模块440在用于基于每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据,并按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订时,通过以下步骤基于每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据:
从每一条标准化数据的多个权值中获取每个字段与每一条标准化数据之间的第一权值;
针对同一字段,当该字段对应的每一条标准化数据中的每两条标准化数据之间存在第二权值时,将该两条标准化数据分别对应的第一权值与第二权值的和值分别确定为该两条标准化数据对应的第三权值;
基于每个字段与每一条标准化数据之间的第一权值和第三权值,确定每个字段与每一条标准化数据之间最小的权值对应的标准化数据为每个字段对应的标准化目标数据。
进一步的,所述修订模块440在用于基于每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据,并按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订时,通过以下步骤按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订:
针对同一字段,获取该字段对应的标准化数据格式指示的数据组成形式以及数据长度;
将该字段的数据根据所述数据组成形式以及数据长度进行修订。
本申请实施例提供的数据的修订装置,获取待修订数据表的表名信息以及所述待修订数据表中多个字段;基于所述表名信息确定所述待修订数据表所属的数据表类型,并确定所述数据表类型在标准化数据库中对应的多条标准化数据;基于所述待修订数据表中每个字段对应的字段属性信息,从所述多条标准化数据中确定出与每个字段相似的至少一条标准化数据以及每一条标准化数据的多个权值和标准化数据格式;基于每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据,并按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订。
这样,根据待修订数据表的表名信息确定待修订数据表所属的数据表类型,根据该数据表类型从标准数据库中确定出与待修订数据表对应的多条标准化数据,并依据待修订数据表中每个字段的字段属性信息,确定出与每个字段对应的至少一条标准化数据,基于每一条标准化数据的多个权值确定每个字段对应的标准化目标数据,按照标准化目标数据的标准化数据格式对待修订数据表汇中的每一个字段进行修订,能够根据待修订数据表的表名信息和每个字段的字段属性信息,确定待修订数据表每个字段对应的标准化数据格式,进而对待修订数据表每个字段进行修订,可以根据待修订数据表类型从标准化数据库中确定与待修订数据表对应的标准化数据,减少数据对标过程中的标准化数据的数量,同时有针对性的对数据进行修订,有助于提高数据修订的效率和准确性。
请参阅图5,图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示,所述电子设备500包括处理器510、存储器520和总线530。
所述存储器520存储有所述处理器510可执行的机器可读指令,当电子设备500运行时,所述处理器510与所述存储器520之间通过总线530通信,所述机器可读指令被所述处理器510执行时,可以执行如上述图2所示方法实施例中的数据的修订方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图2所示方法实施例中的数据的修订方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种数据的修订方法,其特征在于,所述修订方法包括:
获取待修订数据表的表名信息以及所述待修订数据表中多个字段;
基于所述表名信息确定所述待修订数据表所属的数据表类型,并确定所述数据表类型在标准化数据库中对应的多条标准化数据;
基于所述待修订数据表中每个字段对应的字段属性信息,从所述多条标准化数据中确定出与每个字段相似的至少一条标准化数据以及每一条标准化数据的多个权值和标准化数据格式;
基于每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据,并按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订;
通过以下步骤确定所述待修订数据表所属的数据表类型:
基于所述表名信息指示的待修订数据表的表名,确定所述待修订数据表所属的数据表母分类;
检测所述数据表母分类是否包含子分类;
若所述数据表母分类包含子分类,将所述数据表母分类中最底层的子分类确定为所述待修订数据表所属的数据表类型。
2.根据权利要求1所述的修订方法,其特征在于,通过以下步骤从所述多条标准化数据中确定出与每个字段相似的至少一条标准化数据:
获取所述多条标准化数据所属的多个标准化数据类型;
并基于所述待修订数据表中每个字段对应的字段属性信息指示的每个字段的属性与所述多个标准化数据类型的匹配度,确定与每个字段相似的至少一条标准化数据。
3.根据权利要求1所述的修订方法,其特征在于,通过以下步骤基于每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据:
从每一条标准化数据的多个权值中获取每个字段与每一条标准化数据之间的第一权值;
针对同一字段,当该字段对应的每一条标准化数据中的每两条标准化数据之间存在第二权值时,将该两条标准化数据分别对应的第一权值与第二权值的和值分别确定为该两条标准化数据对应的第三权值;
基于每个字段与每一条标准化数据之间的第一权值和第三权值,确定每个字段与每一条标准化数据之间最小的权值对应的标准化数据为每个字段对应的标准化目标数据。
4.根据权利要求1所述的修订方法,其特征在于,通过以下步骤按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订:
针对同一字段,获取该字段对应的标准化数据格式指示的数据组成形式以及数据长度;
将该字段的数据根据所述数据组成形式以及数据长度进行修订。
5.一种数据的修订装置,其特征在于,所述修订装置包括:
获取模块,用于获取待修订数据表的表名信息以及所述待修订数据表中多个字段;
第一确定模块,用于基于所述获取模块获取的表名信息确定所述待修订数据表所属的数据表类型,并确定所述数据表类型在标准化数据库中对应的多条标准化数据;
第二确定模块,用于基于所述待修订数据表中每个字段对应的字段属性信息,从所述第一确定模块确定的多条标准化数据中确定出与每个字段相似的至少一条标准化数据以及每一条标准化数据的多个权值和标准化数据格式;
修订模块,用于基于所述第二确定模块确定的每一条标准化数据的多个权值,从与每个字段相似的至少一条标准化数据中,确定出每个字段对应的标准化目标数据,并按照每个字段对应的标准化目标数据的标准化数据格式,对所述待修订数据表中每个字段对应的数据进行修订;
所述第一确定模块在用于基于所述表名信息确定所述待修订数据表所属的数据表类型,并确定所述数据表类型在标准化数据库中对应的多条标准化数据时,通过以下步骤确定所述待修订数据表所属的数据表类型:
基于所述表名信息指示的待修订数据表的表名,确定所述待修订数据表所属的数据表母分类;
检测所述数据表母分类是否包含子分类;
若所述数据表母分类包含子分类,将所述数据表母分类中最底层的子分类确定为所述待修订数据表所属的数据表类型。
6.根据权利要求5所述的修订装置,其特征在于,所述第二确定模块在用于基于所述待修订数据表中每个字段对应的字段属性信息,从所述多条标准化数据中确定出与每个字段相似的至少一条标准化数据以及每一条标准化数据的多个权值和标准化数据格式时,通过以下步骤从所述多条标准化数据中确定出与每个字段相似的至少一条标准化数据:
获取所述多条标准化数据所属的多个标准化数据类型;
并基于所述待修订数据表中每个字段对应的字段属性信息指示的每个字段的属性与所述多个标准化数据类型的匹配度,确定与每个字段相似的至少一条标准化数据。
7.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至4中任一项所述的数据的修订方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至4中任一项所述的数据的修订方法的步骤。
CN201911001127.4A 2019-10-21 2019-10-21 一种数据的修订方法、修订装置及可读存储介质 Active CN110765118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911001127.4A CN110765118B (zh) 2019-10-21 2019-10-21 一种数据的修订方法、修订装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911001127.4A CN110765118B (zh) 2019-10-21 2019-10-21 一种数据的修订方法、修订装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN110765118A CN110765118A (zh) 2020-02-07
CN110765118B true CN110765118B (zh) 2022-05-17

Family

ID=69331462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911001127.4A Active CN110765118B (zh) 2019-10-21 2019-10-21 一种数据的修订方法、修订装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN110765118B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1804827A (zh) * 2006-01-14 2006-07-19 中国海洋大学 海底热液活动探测数据处理和信息管理方法
US7761570B1 (en) * 2003-06-26 2010-07-20 Nominum, Inc. Extensible domain name service
CN106933972A (zh) * 2017-02-14 2017-07-07 杭州数梦工场科技有限公司 利用自然语言处理技术定义数据元素的方法以及装置
CN109002289A (zh) * 2017-06-07 2018-12-14 北京京东尚科信息技术有限公司 一种构建数据模型的方法和装置
CN109635017A (zh) * 2018-10-16 2019-04-16 深圳壹账通智能科技有限公司 业务数据导入方法、装置、设备及计算机可读存储介质
CN109783483A (zh) * 2018-12-29 2019-05-21 北京明略软件系统有限公司 一种数据整理的方法、装置、计算机存储介质及终端
CN109871382A (zh) * 2019-02-13 2019-06-11 北京明略软件系统有限公司 一种数据表接入标准库的实现方法和装置
CN110008193A (zh) * 2019-04-16 2019-07-12 成都四方伟业软件股份有限公司 数据标准化方法及装置
CN110275874A (zh) * 2019-02-25 2019-09-24 广州金越软件技术有限公司 一种大数据资源治理的智能化资源编目方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6725231B2 (en) * 2001-03-27 2004-04-20 Koninklijke Philips Electronics N.V. DICOM XML DTD/schema generator
WO2012057382A1 (ko) * 2010-10-29 2012-05-03 한국과학기술정보연구원 온톨로지 기반의 메타데이터 통합 관리 방법
CN109325041B (zh) * 2018-08-14 2023-11-21 中国平安人寿保险股份有限公司 业务数据处理方法、装置、计算机设备及存储介质
CN109325009B (zh) * 2018-09-19 2021-11-30 亚信科技(成都)有限公司 日志解析的方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7761570B1 (en) * 2003-06-26 2010-07-20 Nominum, Inc. Extensible domain name service
CN1804827A (zh) * 2006-01-14 2006-07-19 中国海洋大学 海底热液活动探测数据处理和信息管理方法
CN106933972A (zh) * 2017-02-14 2017-07-07 杭州数梦工场科技有限公司 利用自然语言处理技术定义数据元素的方法以及装置
CN109002289A (zh) * 2017-06-07 2018-12-14 北京京东尚科信息技术有限公司 一种构建数据模型的方法和装置
CN109635017A (zh) * 2018-10-16 2019-04-16 深圳壹账通智能科技有限公司 业务数据导入方法、装置、设备及计算机可读存储介质
CN109783483A (zh) * 2018-12-29 2019-05-21 北京明略软件系统有限公司 一种数据整理的方法、装置、计算机存储介质及终端
CN109871382A (zh) * 2019-02-13 2019-06-11 北京明略软件系统有限公司 一种数据表接入标准库的实现方法和装置
CN110275874A (zh) * 2019-02-25 2019-09-24 广州金越软件技术有限公司 一种大数据资源治理的智能化资源编目方法
CN110008193A (zh) * 2019-04-16 2019-07-12 成都四方伟业软件股份有限公司 数据标准化方法及装置

Also Published As

Publication number Publication date
CN110765118A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
WO2019085463A1 (zh) 部门需求的推荐方法、应用服务器及计算机可读存储介质
CN111026753A (zh) 基于树形结构的标签存储方法及装置
CN113393306A (zh) 产品推荐方法、装置、电子设备及计算机可读介质
CN110727857A (zh) 针对业务对象识别潜在用户的关键特征的方法及装置
CN112559524A (zh) 一种指标数据库建立方法、装置及存储介质
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN111159183B (zh) 报表生成方法、电子装置及计算机可读存储介质
US11308130B1 (en) Constructing ground truth when classifying data
CN109902129B (zh) 基于大数据分析的保险代理人归类方法及相关设备
CN110765118B (zh) 一种数据的修订方法、修订装置及可读存储介质
CN113535966A (zh) 知识图谱的创建方法、信息获取的方法、装置和设备
CN111222923A (zh) 一种判断潜在客户的方法及装置、电子设备和存储介质
CN110879808A (zh) 一种信息处理方法和装置
CN113705201B (zh) 基于文本的事件概率预测评估算法、电子设备及存储介质
CN114780688A (zh) 基于规则匹配的文本质检方法、装置、设备及存储介质
CN114202250A (zh) 一种企业评估系统、方法及电子设备
CN112346938B (zh) 操作审计方法、装置及服务器和计算机可读存储介质
CN113901046A (zh) 虚拟维度表构建方法及装置
CN109885710B (zh) 基于差分演化算法的用户画像刻画方法及服务器
CN113934729A (zh) 一种基于知识图谱的数据管理方法、相关设备及介质
JP6204923B2 (ja) アセスメント装置、アセスメントシステム、アセスメント方法、及びプログラム
CN109919811B (zh) 基于大数据的保险代理人培养方案生成方法及相关设备
CN115392206B (zh) 基于wps/excel快速查询数据方法、装置、设备及存储介质
US20230245235A1 (en) Cross-functional portfolio database management systems and methods
CN116304303B (zh) 一种基于知识图谱的资产推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant