CN114648010A - 数据表标准化方法、装置、设备及计算机存储介质 - Google Patents

数据表标准化方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN114648010A
CN114648010A CN202210320120.4A CN202210320120A CN114648010A CN 114648010 A CN114648010 A CN 114648010A CN 202210320120 A CN202210320120 A CN 202210320120A CN 114648010 A CN114648010 A CN 114648010A
Authority
CN
China
Prior art keywords
source data
information
data table
field
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210320120.4A
Other languages
English (en)
Inventor
陈银
吕晓
陈立力
周明伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202210320120.4A priority Critical patent/CN114648010A/zh
Publication of CN114648010A publication Critical patent/CN114648010A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种数据表标准化方法、装置、设备及计算机存储介质,涉及数据标准化技术领域,用于实现字段名和表名的标准化,且提升了数据标准化的效率,该方法包括:基于待标准化的源数据表的原始表格信息,以及源数据表的数据元对标结果,确定源数据表中包含的业务时间字段;基于原始表格信息进行表格信息识别,确定源数据表对应的表格类别;其中,表格类别包括主题域类别、业务类别以及分区方式类别;基于表格类别,生成源数据表对应的标准化表的标准表名称;基于数据元对标结果、原始表格信息以及业务时间字段,生成标准化表的各个标准数据项;基于标准表名称与各个标准数据项,获得标准化表。

Description

数据表标准化方法、装置、设备及计算机存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及数据标准化技术领域,提供一种数据表标准化方法、装置、设备及计算机存储介质。
背景技术
随着互联网技术的普及和发展,数据增长速度迅猛,数据种类也愈发繁多,大数据技术和人工智能技术的发展为海量数据的使用提供了基础条件和应用场景。由于各业务系统之间相对独立,并且可能存在录入标准不统一等问题,导致各业务系统内的数据表达方式杂乱不一,给后续的研究使用带来了困难。因此,为了能够更便利的将海量数据投入到研究过程中,挖掘数据价值,数据标准化是必不可少的。
但是,目前的标准化过程通常都是由人工进行调整,尤其是标准化表的字段名和表名称命名耗时耗力。因此,能够自动化实现字段名和表名标准化十分有必要。
发明内容
本申请实施例提供一种数据表标准化方法、装置、设备及计算机存储介质,用于实现字段名和表名的标准化。
一方面,提供一种数据表标准化方法,所述方法包括:
基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段;
基于所述原始表格信息进行表格信息识别,确定所述源数据表对应的表格类别;其中,所述表格类别包括主题域类别、业务类别以及分区方式类别;
基于所述表格类别,生成所述源数据表对应的标准化表的标准表名称;
基于所述数据元对标结果、所述原始表格信息以及业务时间字段,生成所述标准化表的各个标准数据项;
基于所述标准表名称与所述各个标准数据项,获得所述标准化表。
一方面,提供一种数据表标准化装置,所述装置包括:
业务字段识别单元,用于基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段;
表格信息识别单元,用于基于所述原始表格信息进行表格信息识别,确定所述源数据表对应的表格类别;其中,所述表格类别包括主题域类别、业务类别以及分区方式类别;
表命名单元,用于基于所述表格类别,生成所述源数据表对应的标准化表的标准表名称;
数据项命名单元,用于基于所述数据元对标结果、所述原始表格信息以及业务时间字段,生成所述标准化表的各个标准数据项;
标准表生成单元,用于基于所述标准表名称与所述各个标准数据项,获得所述标准化表。
可选的,所述装置还包括自动化对标单元,用于:
针对所述源数据表进行信息提取,获得所述原始表格信息;其中,所述原始表格信息包括所述源数据表的表名称以及字段信息;
针对获得的各所述字段信息分别进行对标处理,确定各所述字段信息各自对应的数据元对标结果,所述数据元对标结果包括各所述字段信息对应的数据元以及限定词。
可选的,所述业务字段识别单元,具体用于:
基于所述原始表格信息中的中文字段信息以及所述数据元对标结果,确定所述源数据表包含的时间字段;
基于设定的非业务时间字段集合,将所述源数据表包含的时间字段中非业务时间字段筛除;
将筛除后剩余的时间字段确定为业务时间字段。
可选的,所述业务字段识别单元,还用于:
针对确定的各个所述业务时间字段,若存在业务时间字段未对应有所有表示类型,则对缺失的表示类型进行补全处理;
针对各个所述非业务时间字段,若存在非业务时间字段包括除指定表示类型之外的其他表示类型,则将所述其他表示类型删除。
可选的,所述表格信息识别单元,具体用于:
基于所述表名称和所述字段信息进行主题域识别,确定所述源数据表所属的主题域类别;
基于所述表名称和所述字段信息进行分区方式识别,确定所述源数据表所属的分区方式类别;其中,所述分区方式类别包括增量分区类别和全量分区类别;
基于所述表名称,提取所述源数据表所属的业务类别。
可选的,所述表格信息识别单元,具体用于:
按照候选主题域集合中各个候选主题域的优先级从高到低的顺序,依次将所述表名称和所述字段信息与每个候选主题域关联的关键词进行匹配;
若所述表名称和所述字段信息与当前匹配的候选主题域之间的匹配度大于设定的匹配度阈值,且满足当前匹配的候选主题域的设定要求,则将当前匹配的候选主题域确定所述源数据表所属的主题域类别。
可选的,所述表格信息识别单元,具体用于:
对所述表名称和所述字段信息进行文本预处理,获得多个候选词;
对所述多个候选词分别进行词向量化,获得所述多个候选词各自对应的词向量;
基于所述多个候选词各自对应的词向量,从所述多个候选词中确定出至少一个关键词,并基于所述至少一个关键词确定所述源数据表的表向量;
基于所述源数据表的表向量与各个候选数据表各自对应的表向量之间的相似度,从所述各个候选数据表中,确定出至少一个候选数据表;
基于所述至少一个候选数据表各自对应的主题域类别,确定所述源数据表所属的主题域类别。
可选的,所述表格信息识别单元,具体用于:
从所述表名称中,提取初始业务系统名称以及初始业务名称;
对所述初始业务系统名称进行标准化处理,获得相应的标准业务系统名称;
对所述初始业务名称进行标准化处理,获得相应的标准业务名称。
可选的,所述数据项命名单元,具体用于:
针对各个字段信息,分别执行如下操作,生成各个字段信息各自在所述标准化表中的标准数据项:
针对一个字段信息,若所述一个字段信息对应的数据元对标结果为名称,则确定所述一个字段信息对应的标准数据项为源数据表中的相应源数据项;
若所述一个字段信息对应的数据元对标结果不是名称,则确定所述一个字段信息是否存在相应的限定词;
若存在限定词,则基于相应的限定词与数据元对标结果,确定所述一个字段信息对应的标准数据项;
若不存在限定词,则基于相应的数据元对标结果,确定所述一个字段信息对应的标准数据项。
可选的,所述数据项命名单元,还用于:
确定所述一个字段信息是否为业务时间字段;
若所述一个字段信息为业务时间字段,则基于所述一个字段信息的表示类型,为所述一个字段信息对应的标准数据项添加相应表示类型的类型标识;
若所述一个字段信息为非业务时间字段,则确定各标准数据项中是否存在重复,若存在重复,则对重复的标准数据项添加区别标识。
一方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种方法的步骤。
一方面,提供一种计算机存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种方法的步骤。
一方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一种方法的步骤。
本申请实施例中,一方面,基于原始表格信息进行表格信息识别,确定源数据表对应的表格类别,如主题域类别、业务类别以及分区方式类别,进而基于表格类别,来自动化生成源数据表对应的标准化表的标准表名称,另一方面,还可以通过待标准化的源数据表的原始表格信息,以及源数据表的数据元对标结果,确定源数据表中包含的业务时间字段,进而基于数据元对标结果、原始表格信息以及业务时间字段,来自动化生成标准化表的各个标准数据项,从而结合对源数据表的自动识别,实现了字段名和表名的自动标准化,避免人工标准化所带来的标准化表的字段名和表名称命名耗时耗力的问题,提升了数据表标准化的效率。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的应用场景示意图;
图2为本申请实施例提供的数据表标准化的流程示意图;
图3为本申请实施例提供的数据表标准化过程的流程示意图;
图4为本申请实施例提供的基于优先级排序的方式识别主题域的流程示意图;
图5为本申请实施例提供的采用分类模型实现源数据表的主题域分类的流程示意图;
图6为本申请实施例提供的生成标准数据项的流程示意图;
图7为本申请实施例提供的数据表标准化装置的一种结构示意图;
图8为本申请实施例提供的计算机设备的一种结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
可以理解的是,在本申请的具体实施方式中,涉及到待标准化的数据表等相关的数据,当本申请以上实施例运用到具体产品或技术中时,若涉及到用户的数据表,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
为便于理解本申请实施例提供的技术方案,这里先对本申请实施例使用的一些关键名词进行解释:
业务时间字段和非业务时间字段:业务时间字段是指与实际业务相关的字段,例如转账时间等,非业务时间字段则是指除业务时间字段之外的其他字段,非业务时间字段例如可以是对数据表进行操作相关的时间,例如入库时间、更新时间、修改时间、删除时间、创建时间、分区时间、采集时间、录入时间、导入时间以及添加时间等。在实际应用中,由于不同业务,其业务时间字段可能不同,因而可以采用非业务时间字段排除的方式来确定一个字段是否为业务时间字段。
主题域:主题域通常是指联系较为紧密的数据主题的集合,可以根据业务的关注点,将这些数据主题划分到不同的主题域,每个主题域下面可以有多个主题。例如,主题域可以为关系主题域、轨迹主题域、人主题域、地址主题域、物品主题域、事件主题域以及组织主题域等,以关系主题域为例,其主要涉及关系有关的主题集合,例如这些主题可以包括关系、关联、联系、通讯录、好友信息、群信息、转案、人案、产权、分支以及婚姻等能够表征一种关系的关键词。
分区方式:一般而言,分区方式可以包括增量分区或者全量分区,相对应的,数据表的类型包括增量表和全量表,增量表是在数据量过于庞大时,数据表可以采用增量存储或者下发方式,具体而言,在数据存储或者下发时只会涉及到增量数据,而不会涉及到整个数据表的数据,则全量表则不管数据无变化,都要再次存储或者下发,每次存储或者下发的数据都是所有的数据。例如,可以按照每天存放的数据以及是否按天分区可以分为增量表和全量表,那么全量表则会存储每天所有的数据,而增量表则会存储每天相较于前一天增加的数据。通常增量表和全量表在表格后缀上存在不同,例如可以以后缀_df标识全量表,可以以后缀_di表示增量表。
在实际应用中,则可以根据数据的类型俩选取所要使用的分区方式,例如对于登记类数据,由于需要保证数据的完整性,从而可以采用全量分区的方式,而轨迹类或者感知类数据,其更为关注的是当前的数据,从而可以采用增量分区的方式。
表示类型:是指时间字段的不同表达方式,通常而言,表示类型可以包括时间型、字符型以及整数型,这三种表示类型均为时间的不同表达形式,但其所表达的时间或者日期是一致的。
下面对本申请实施例的设计思想进行简要介绍。
目前,为了能够更便利的将海量数据投入到研究过程中,挖掘数据价值,数据标准化是必不可少的。
但是,目前的标准化过程通常都是由人工进行调整,尤其是标准化表的字段名和表名称命名耗时耗力,效率极低。因此,能够自动化实现字段名和表名标准化十分有必要。
鉴于此,本申请实施例提供一种基于数据表标准化方法,在该方法中,一方面,基于原始表格信息进行表格信息识别,确定源数据表对应的表格类别,如主题域类别、业务类别以及分区方式类别,进而基于表格类别,来自动化生成源数据表对应的标准化表的标准表名称,另一方面,还可以通过待标准化的源数据表的原始表格信息,以及源数据表的数据元对标结果,确定源数据表中包含的业务时间字段,进而基于数据元对标结果、原始表格信息以及业务时间字段,来自动化生成标准化表的各个标准数据项,从而结合对源数据表的自动识别,实现了字段名和表名的自动标准化,避免人工标准化所带来的标准化表的字段名和表名称命名耗时耗力的问题,提升了数据表标准化的效率,从而,在海量数据场景中,可以快速的完成标准化过程,更便利的将海量数据投入到研究过程中,挖掘数据价值。
此外,本申请实施例通过算法集成来实现自动化生成标准化表结构,涉及到的算法包括业务时间字段识别算法、数据主题域识别算法、分区方式识别算法、业务系统及业务名称提取算法、标准化表命名算法及数据项命名算法。通过自动化生成标准化表结构可实现对标准数据自动化建模,生成标准化表名称及数据项名称。
下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
本申请实施例提供的方案可以适用于大多数业务系统的数据标准化场景中,例如公安业务数据标准化、行政业务数据标准化以及办公业务数据标准化等。如图1所示,为本申请实施例提供的一种应用场景示意图,在该场景中,可以包括终端设备101、数据表标准化设备102和数据库103。
终端设备101例如可以为手机、平板电脑(PAD)、笔记本电脑、台式电脑、智能电视、智能车载设备以及智能可穿戴设备等。终端设备101可以安装有检索应用,本申请实施例涉及的应用可以是软件客户端,也可以是网页、小程序等客户端,服务器则是与软件或是网页、小程序等相对应的后台服务器,不限制客户端的具体类型。
数据表标准化设备102其可以执行本申请实施例所提供的数据表标准化方法的步骤,来实现数据表标准化功能。例如可以是具有一定计算能力的终端设备,也可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、即内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
数据表标准化设备102可以包括一个或多个处理器1021、存储器1022以及与终端设备交互的I/O接口1023等。其中,数据表标准化设备102的存储器1022中还可以存储本申请实施例提供的数据表标准化方法的程序指令,这些程序指令被处理器1021执行时能够用以实现本申请实施例提供的数据表标准化方法的步骤,以实现数据表标准化过程。
数据库103可以为采用任意结构的数据库,可用于存储待进行标准化的源数据表,以及标准化得到的标准化表。
具体的,用户可以终端设备101预先指定需要进行标准化的源数据表在数据库103中的存储位置,进而数据表标准化设备102可以从数据库103中进行源数据表的获取,进而针对该源数据表进行标准化,并将得到的标准化表存储至数据库103中。
在一种实施方式中,当用户想要检索数据时,则可以通过终端设备101中的检索应用输入检索关键字,进而数据库103可以基于该检索关键字在标准化表中进行相应的检索。
在一种实施方式中,还可以将得到的各个标准化表的数据作为训练文本,用于特定业务模型的训练,以用于实际的业务场景中。
在一种实施方式中,还可以基于得到的各个标准化表进行数据的统计,由于标准化之后,相近数据项已同一为同一数据项,从而统计的数据类似数据会计入同一项中,从而提升统计数据的准确性。
终端设备101、数据表标准化设备102和数据库103之间可以通过一个或者多个网络进行直接或间接的通信连接。该网络可以是有线网络,也可以是无线网络,例如无线网络可以是移动蜂窝网络,或者可以是无线保真(Wireless-Fidelity,WIFI)网络,当然还可以是其他可能的网络,本发明实施例对此不做限制。
需要说明的是,在本申请实施例中,终端设备101的数量可以为一个,也可以为多个,同样的,数据表标准化设备102的数量也可以为一个,也可以为多个,也就是说对于,终端设备101或者数据表标准化设备102的数量并不进行限制。
在一种可能的应用场景中,本申请实施例中涉及的相关数据(如数据表等)可以采用云存储(cloud storage)技术进行存储。云存储是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(或称存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
在一种可能的应用场景中,为了便于降低检索的通信时延,数据库103可以在各个地区部署相应的服务器,或为了负载均衡,可以由不同的服务器分别去服务不同地区的终端设备101,例如,终端设备101位于地点a,与服务地点a的服务器建立通信连接,终端设备101位于地点b,与服务地点b的服务器建立通信连接,多个服务器组成一数据共享系统,通过区块链实现数据的共享。
对于数据共享系统中的每个服务器,均具有与该服务器对应的节点标识,数据共享系统中的每个服务器均可以存储有数据共享系统中其他服务器的节点标识,以便后续根据其他服务器的节点标识,将生成的区块广播至数据共享系统中的其他服务器。每个服务器中可维护一个节点标识列表,将服务器名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为网络之间互联的协议(Internet Protocol,IP)地址以及其他任一种能够用于标识该节点的信息。
当然,本申请实施例提供的方法并不限用于图1所示的应用场景或者图2的架构中,还可以用于其他可能的应用场景,本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。
本申请各实施例中提供的方法流程,可以通过图1中的数据表标准化设备102或者终端设备101来执行,也可以由数据表标准化设备102和终端设备101共同执行,这里主要以数据表标准化设备102来执行为例进行介绍。
参见图2所示,为本申请实施例提供的数据表标准化方法的流程示意图。
步骤201:基于待标准化的源数据表的原始表格信息,以及源数据表的数据元对标结果,确定源数据表中包含的业务时间字段。
步骤202:基于原始表格信息进行表格信息识别,确定源数据表对应的表格类别;其中,表格类别包括主题域类别、业务类别以及分区方式类别。
步骤203:基于表格类别,生成源数据表对应的标准化表的标准表名称。
步骤204:基于数据元对标结果、原始表格信息以及业务时间字段,生成标准化表的各个标准数据项。
步骤205:基于标准表名称与各个标准数据项,获得标准化表。
本申请实施例中,一方面,基于原始表格信息进行表格信息识别,确定源数据表对应的表格类别,如主题域类别、业务类别以及分区方式类别,进而基于表格类别,来自动化生成源数据表对应的标准化表的标准表名称,另一方面,还可以通过待标准化的源数据表的原始表格信息,以及源数据表的数据元对标结果,确定源数据表中包含的业务时间字段,进而基于数据元对标结果、原始表格信息以及业务时间字段,来自动化生成标准化表的各个标准数据项,从而结合对源数据表的自动识别,实现了字段名和表名的自动标准化,避免人工标准化所带来的标准化表的字段名和表名称命名耗时耗力的问题,提升了数据表标准化的效率,从而,在海量数据场景中,可以快速的完成标准化过程,更便利的将海量数据投入到研究过程中,挖掘数据价值。
参见图3所示,为本申请实施例提供的数据表标准化过程的流程示意图。
步骤301:获取待标准化的源数据表。
本申请实施例中,可以预先指定需要标准化的源数据表的存储位置,例如,可以给定源数据表列表,以及该列表中各个源数据表的存储位置,进而在执行标准化过程之前,可以基于指定的存储位置获取相应的源数据表。
在一种实施方式中,可以将数据表标准化集成为标准化系统平台,进而在需要进行数据表的标准化时,可以将待进行标准化治理的源表数据接入系统平台,通过调用系统提供的接口进行表查询,例如,输入源表的表名称进行源表查询,从而得到待标准化的源数据表。
步骤302:通过自动化对标功能对源数据表进行自动化对标,获得源数据表的数据元对标结果。
本申请实施例中,标准化表中的表名称和各个数据项均应该是能够对应标准数据的,而源数据表中的数据可能无法对照标准数据,例如针对同一含义的数据采用了与标准不同的表达方式,例如针对标准中指定的“客户号”,其表达的就是客户的标识的含义,而在源数据表中可能采用其他表达方式,例如“客户统一编号”“客户编号”“客户ID”等方式,虽然其表达的含义均是相同的,但是这并利于后续的数据挖掘,可能对于计算机处理时带来一定的额识别障碍,因而需要对数据进行标准化,采用统一的表达。那么,在生成标准化表之前,需要对源数据表进行对标处理,以将源数据表包括的各个字段均映射成为标准表达方式。
具体的,可以针对源数据表进行信息提取,获得原始表格信息,例如,原始表格信息可以包括源数据表的表名称以及字段信息等,此外,还可以包括源数据表的表格属性信息,如表格的分区方式,或者,还可以包括源数据表中个字段信息对应的表示类型,例如针对时间字段而言,其可以包括时间型、字符型以及整数型等表示类型,当然,还可以提取其他可能的信息,本申请实施例对此不做限制。
针对获得的各字段信息,分别进行对标处理,以确定各字段信息各自对应的数据元对标结果,数据元对标结果是针对源表进行工具操作的结果,结果文件内是一种映射关系,数据元对标结果包括各字段信息对应的数据元以及限定词。其中,以上述将数据表标准化集成为标准化系统平台为例,对标功能也可以集成称为该标准化系统平台的一项自动化功能,进行在需要进行对标处理时,则可以调用该标准化系统平台的功能调用接口来执行。
本申请实施例中,在提取得到原始表格信息以及相应获得数据元对标结果后,则可以利用原始表格信息以及数据元对标结果自动化生成标准化表结构,具体介绍如下。
步骤303:基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段。
在具体实施时,可以将业务时间字段识别算法集成入标准化系统平台,从而在需要识别业务时间字段时,可以调用业务时间字段识别算法实现识别过程。
具体的,可以预先设定时间字段标识,从而可以根据原始表格信息中的中文字段信息、数据元对标结果以及设定的时间字段标识,确定源数据表包含的时间字段。其中,数据元的特性中包括了上述的时间字段标识,或称为表示词,从而可以从数据元的表示词为“时间”“日期”“日期时间”等时,则表明相应的字段为时间字段,那么可以基于此对整个源数据表进行查询,从而筛选出源数据表中所有的时间字段。
在具体实施过程中,基于实际的业务,时间字段可以划分为业务时间字段和非业务时间字段,业务时间字段是指与实际业务相关的字段,例如转账时间等,非业务时间字段则是指除业务时间字段之外的其他字段,非业务时间字段例如可以是对数据表进行操作相关的时间,而由于不同业务,其业务时间字段可能不同,因而直接设定规则确定业务时间字段的方式在业务更改时则可能不准确,但是非业务时间字段通常类型是较为固定的,因而预先设定非业务时间字段的检测规则,从而从找到的时间字段中检测出非业务时间字段,进而可以采用非业务时间字段排除的方式来确定一个字段是否为业务时间字段。
例如,设定非业务时间字段集合包括入库时间、更新时间、修改时间、删除时间、创建时间、分区时间、采集时间、录入时间、导入时间以及添加时间等时间字段,那么当上述筛选得到的时间字段中,包含设定的非业务时间字段集合中的词时,则将其从源数据表包含的时间字段中筛除,并将筛除后剩余的时间字段确定为业务时间字段。
本申请实施例中,针对确定的业务时间字段,对其进行标识,例如可以为其添加业务时间字段相应的属性或者添加标签,用于指示该字段为业务时间字段,同时,还可以对业务时间字段进行标准化处理,以便后续数据项命名操作。
具体的,考虑到业务时间字段通常表达的是业务相关时间,相对而言重要度更高,因而可以针对确定的各个业务时间字段,若存在业务时间字段未对应有所有表示类型,则对缺失的表示类型进行补全处理。也就是说,对业务时间字段进行自动化处理,当其存在表示类型缺失时,则将缺失的表示类型进行补全,例如当表示类型包括时间型、字符型、整数型三种类型时,则该业务时间字段只存在一种表示类型,则对其他两种类型进行补充,以方便后续可以采用任意方式进行检索。
而针对各个非业务时间字段,可以指定保留一种表示类型,因而若存在非业务时间字段包括除指定表示类型之外的其他表示类型,则将除指定表示类型之外其他表示类型删除。例如,当指定非业务时间字段采用时间型进行表示时,若非业务时间字段存在多种表示类型,则仅对时间型进行保留,删除其余表示类型。
本申请实施例中,基于原始表格信息进行表格信息识别获得源数据表对应的表格类别的过程具体可以包括如下步骤304~306,下面逐一进行介绍。
步骤304:基于原始表格信息中的表名称和字段信息进行主题域识别,确定源数据表所属的主题域类别。
本申请实施例中,可以将主题域识别算法集成入标准化系统平台,从而在需要识别主题域时,可以调用主题域识别算法实现识别过程,即根据表名称以及字段信息中涉及到的内容,可以反映出该源数据表所涉及的主题,因此可以基于表名称和字段信息识别源数据表所属的主题域。
在一种实施方式中,可以按照候选主题域集合中各个候选主题域的优先级从高到低的顺序,依次将表名称和字段信息与每个候选主题域关联的关键词进行匹配,若表名称和字段信息与当前匹配的候选主题域之间的匹配度大于设定的匹配度阈值,且满足当前匹配的候选主题域的设定要求时,则将当前匹配的候选主题域确定源数据表所属的主题域类别。
参见下表1所示,为主题域类别的一些示例。在表1中,优先级从高到低的依次为关系主题域、轨迹主题域、人主题域、地址主题域、物品主题域、事件主题域以及组织主题域,其中,针对轨迹主题域由于涉及到轨迹发生时间,要求必须在源数据表中必须包含业务时间字段,而地址主题域涉及到具体的位置,因而要求在源数据表中必须包含经纬度字段。
优先级 主题域类别 其他要求
1 关系主题域
2 轨迹主题域 表中所含字段需求:含业务时间字段
3 人主题域
4 地址主题域 表中所含字段需求:含经纬度字段
5 物品主题域
6 事件主题域
7 组织主题域
表1
结合上述表1中的优先级排序,参见图4所示,为基于优先级排序的方式识别主题域的流程示意图。
S401:判断源数据表是否属于关系主题域。
具体的,关系主题域主要涉及到表征一种相互关系的表格,例如在属于系主题域的数据表中可以包含关系、关联、联系、通讯录、好友信息、群信息、转案、人案、产权、分支以及婚姻等能够表征相互关系的关键词。
那么,针对源数据表,可以将源数据表中的名称和字段信息与关系主题域涉及到的关键词进行匹配,根据匹配度来确定源数据表是否属于关系主题域。
S402:若S401的判断结果为否,判断源数据表是否属于轨迹主题域。
当源数据表中的名称和字段信息与关系主题域之间的匹配度大于设定的匹配度阈值时,则认为该源数据表属于关系主题域。
若是源数据表中的名称和字段信息与关系主题域之间的匹配度不大于设定的匹配度阈值时,则认为该源数据表不属于关系主题域,则按照优先级排序,则继续确定源数据表是否属于轨迹主题域。
具体的,轨迹主题域主要涉及到表征一种反映历史轨迹的表格,例如在属于轨迹主题域的数据表中可以包含轨迹、记录、住宿、挂号、缴费、消费、租赁、抓拍、订票、进站、对讲机以及快递等能够表征历史轨迹的关键词。
那么同样的,针对源数据表,可以将源数据表中的名称和字段信息与轨迹主题域涉及到的关键词进行匹配,并且判断源数据表中的名称和字段信息是否满足轨迹主题域的要求,进而根据匹配度和是否满足要求来确定源数据表是否属于轨迹主题域。
S403:若S402的判断结果为否,判断源数据表是否属于人主题域。
当源数据表中的名称和字段信息与轨迹主题域之间的匹配度大于设定的匹配度阈值时,且满足轨迹主题域的要求,即源数据表中包含业务时间字段,则认为该源数据表属于轨迹主题域。
若是源数据表中的名称和字段信息与轨迹主题域之间的匹配度不大于设定的匹配度阈值,或者满足轨迹主题域的要求,即源数据表中不包含业务时间字段时,则认为该源数据表不属于轨迹主题域,则按照优先级排序,则继续确定源数据表是否属于人主题域。
具体的,人主题域主要涉及到表征一种反映与人相关信息的表格,例如在属于人主题域的数据表中可以包含人口、者、人员、人员基本信息、人信息、社保信息、残联信息、公积金信息、或者人员职称属性词等能够表征人员信息的关键词,例如人员职称属性词包括鉴定员、职工、客户、用户、教师、公务员、驾驶员、车主、网民、学生、成员、股东、名单以及导游等。
那么同样的,针对源数据表,可以将源数据表中的名称和字段信息与人主题域涉及到的关键词进行匹配,根据匹配度来确定源数据表是否属于人主题域。
S404:若S403的判断结果为否,判断源数据表是否属于地址主题域。
当源数据表中的名称和字段信息与人主题域之间的匹配度大于设定的匹配度阈值时,则认为该源数据表属于人主题域。
若是源数据表中的名称和字段信息与人主题域之间的匹配度不大于设定的匹配度阈值时,则认为该源数据表不属于人主题域,则按照优先级排序,则继续确定源数据表是否属于地址主题域。
具体的,地址主题域主要涉及到表征一种反映涉及到地址信息的表格,例如在属于地址主题域的数据表中可以包含经纬度、点位、站点、场所、地址、旅馆、酒店、网吧以及医院等能够表征地址信息的关键词。
那么同样的,针对源数据表,可以将源数据表中的名称和字段信息与地址主题域涉及到的关键词进行匹配,并且确定源数据表中的名称和字段信息是否满足地址主题域的要求,即源数据表中是否包含经纬度字段,进而根据匹配度和是否满足要求来确定源数据表是否属于地址主题域。
S405:若S404的判断结果为否,判断源数据表是否属于物品主题域。
当源数据表中的名称和字段信息与地址主题域之间的匹配度大于设定的匹配度阈值,且源数据表中包含经纬度字段时,则认为该源数据表属于地址主题域。
若是源数据表中的名称和字段信息与地址主题域之间的匹配度不大于设定的匹配度阈值,或者,源数据表中不包含经纬度字段时,则认为该源数据表不属于地址主题域,则按照优先级排序,则继续确定源数据表是否属于物品主题域。
具体的,物品主题域主要涉及到表征一种反映涉及到物品相关的表格,例如在属于物品主题域的数据表中可以包含电动车、机动车、物品、财物、决定书、证书、热点、终端、设备、文档、卡信息、基站、数据库、硬件、家电、车辆、通道等能够表征物品的关键词。
那么同样的,针对源数据表,可以将源数据表中的名称和字段信息与物品主题域涉及到的关键词进行匹配,根据匹配度来确定源数据表是否属于物品主题域。
S406:若S405的判断结果为否,判断源数据表是否属于事件主题域。
当源数据表中的名称和字段信息与物品主题域之间的匹配度大于设定的匹配度阈值时,则认为该源数据表属于物品主题域。
若是源数据表中的名称和字段信息与物品主题域之间的匹配度不大于设定的匹配度阈值时,则认为该源数据表不属于物品主题域,则按照优先级排序,则继续确定源数据表是否属于事件主题域。
具体的,事件主题域主要涉及到表征一种反映涉及到发生事件的表格,例如在属于事件主题域的数据表中可以包含变动、案件、警情、处罚、判决、违章、许可、案由、措施、规律、统计信息等能够表征存在事件发生的关键词。
那么同样的,针对源数据表,可以将源数据表中的名称和字段信息与事件主题域涉及到的关键词进行匹配,根据匹配度来确定源数据表是否属于事件主题域。
S407:若S406的判断结果为否,判断源数据表是否属于组织主题域。
当源数据表中的名称和字段信息与事件主题域之间的匹配度大于设定的匹配度阈值时,则认为该源数据表属于事件主题域。
若是源数据表中的名称和字段信息与事件主题域之间的匹配度不大于设定的匹配度阈值时,则认为该源数据表不属于事件主题域,则按照优先级排序,则继续确定源数据表是否属于组织主题域。
具体的,组织主题域主要涉及到表征一种反映涉及到发生事件的表格,例如在属于组织主题域的数据表中可以包含变动、案件、警情、处罚、判决、违章、许可、案由、措施、规律、统计信息等能够表征存在事件发生的关键词。
那么同样的,针对源数据表,可以将源数据表中的名称和字段信息与组织主题域涉及到的关键词进行匹配,根据匹配度来确定源数据表是否属于组织主题域,当源数据表中的名称和字段信息与组织主题域之间的匹配度大于设定的匹配度阈值时,则认为该源数据表属于组织主题域,若是源数据表中的名称和字段信息与组织主题域之间的匹配度不大于设定的匹配度阈值时,则认为该源数据表不属于组织主题域,则流程结束。
在另一种实施方式中,还可以采用分类模型实现源数据表的主题域分类。
具体的,参见图5所示,为采用分类模型实现源数据表的主题域分类的流程示意图。这里具体以K最邻近(KNN,K-Nearest Neighbor)模型为例进行介绍,在实际应用中,还可以采用其他可能的分类模型实现主题域的分类,本申请实施例对此不做限制。
S501:对表名称和字段信息进行文本预处理,获得多个候选词。
具体的,文本预处理过程是在文本中提取关键词表示文本的过程,针对中文的文本预处理,主要包括文本分词和去停用词两个阶段,经过文本分词和去除停止词之后形成关键词,用于后续的处理过程。
S502:对多个候选词分别进行词向量化,获得多个候选词各自对应的词向量。
具体的,词向量化的目的是把文本预处理后的关键词转换成向量格式,向量的准确性决定了后续的主题域分类的质量。
在一种实施方式中,可以使用词袋模型(Bag Of Words,BOW)或向量空间模型(Vector Space Model)来实现词向量化,当然,也可以采用其他可能的向量化模型,本申请实施例对此不做限制。
S503:基于多个候选词各自对应的词向量,从多个候选词中确定出至少一个关键词,并基于至少一个关键词确定源数据表的表向量。
由于源数据表中可能包括着众多的单词,而这些单词中可能存在与分类无关的一些词,因而可以从进行筛选关键词作为后续主题域分类的基础,并且还可以减少单词数量,进而提升分类效率。
在一种实施方式中,向量空间模型的文本表示方法的特征提取对应特征项的选择和特征权重计算两部分。其中,特征选择的基本思路是根据词语频率进行评分排序,从中选择得分最高的一些特征项,过滤掉其余的特征项。
具体的,可以采用如下公式计算特征值,即词频-逆文本频率(term frequency–inverse document frequency,TF-IDF),TF-IDF值越大,则这个词成为关键词的概率就越大。
Figure BDA0003570179550000211
Figure BDA0003570179550000212
TF-IDF=TF*IDF
其中,IDF分母要加1,是为了避免分母为0出现计算错误。
进而,基于筛选出的关键词计算源数据表的向量,通常而言,要使样本向量能够实现其与同类样本的中心距离尽量小,而与异类样本的中心距离尽量大。
S504:基于源数据表的表向量与各个候选数据表各自对应的表向量之间的相似度,从各个候选数据表中,确定出至少一个候选数据表。
本申请实施例中,可以使用向量夹角的余弦值度量相似度,从而在候选数据表中选出与源数据表最相近的至少一个候选数据表,例如选取K个候选数据表,候选数据表为已确定主题域类别的数据表,或者已确定其所属各个主题域类别概率的数据表。
S505:基于至少一个候选数据表各自对应的主题域类别,确定源数据表所属的主题域类别。
具体的,依次计算至少一个候选数据表在每个主题域类别中的权重,选取最大的权重,或者加权求和,来辅助确定源数据表所属的主题域类别。或者,还可以采用投票机制,当候选数据表属于主题域A时,则主题域A增加1票,选取至少一个候选数据表中票数最高的主体域类别作为源数据表所属的主题域类别。
步骤305:基于原始表格信息中的表名称和字段信息进行分区方式识别,确定源数据表所属的分区方式类别。
本申请实施例中,可以将分区方式识别算法集成入标准化系统平台,从而在需要识别分区方式时,可以调用分区方式识别算法实现识别过程。
具体的,分区方式类别可以包括增量分区类别和全量分区类别,可以依据源表表名称及中文字段进行识别,识别源数据表具体为登记类数据或者轨迹类及感知类数据,若为登记类数据,则分区方式类别为全量分区类别,标准化表属于全量表,后缀可以为全量表的表示后缀,例如可以为_di,若为轨迹类及感知类数据,则分区方式类别为增量分区类别,标准化表属于增量表,后缀可以为增量表的表示后缀,例如可以为_df。
步骤306:基于原始表格信息中的表名称,提取源数据表所属的业务类别。
本申请实施例中,可以将业务系统及业务名称提取算法集成入标准化系统平台,从而在需要提取业务系统及业务名称时,可以调用业务系统及业务名称提取算法实现识别过程。
其中,业务类别可以包括业务系统名称以及业务名称。
具体的,可以从表名称中提取其包含的初始业务系统名称以及初始业务名称,而该名称可能无法对应上标准,从而还可以对初始业务系统名称进行标准化处理,获得相应的标准业务系统名称,以及对初始业务名称进行标准化处理,获得相应的标准业务名称。也就是说,在实际应用时,理想提取结果应包含业务系统及业务名称,但若输入的源表名称不完全包含所提取内容,则可以进行部分提取,并在提取过程中对业务名称进行优化,例如可以去除表名称中关键字“xx表”,补全表名称“xx信息”,例如,将人口信息表优化为人口信息,将常驻人口表优化为常住人口信息。
步骤307:基于识别得到的主题域类别、分区方式类别以及业务类别,生成源数据表对应的标准化表的标准表名称。
具体的,基于上述各个过程得到的主题域类别、分区方式类别以及业务类别,可以按照“dwd_主题域_业务系统_业务名称_分区后缀”的格式生成标准表名称,当然,在实际应用时,也可以不仅限于此格式,其他系统可根据用户需求进行设定,本申请实施例对此不做限定。
基于上述过程,则可以实现标准表明的自动化构建,上述过程对于各种业务系统均可实现标准化,适用性高,应用范围广。
步骤308:基于数据元对标结果、原始表格信息以及业务时间字段,生成标准化表的各个标准数据项。
本申请实施例中,可以依据数据元对标结果及限定词提取结果自动化生成标准数据项。参见图6所示,为以一个字段信息A为例,生成相应的标准数据项的流程示意图。其中,标准数据项的生成包括两个阶段,即图6所示的基本项基本命名阶段和业务字段命名及整表校验阶段,基本项基本命名阶段包括步骤S601~S605,业务字段命名及整表校验阶段包括步骤S606~S608。
S601:针对字段信息A,判断数据元对标结果是否为“名称”。
S602:若S601为是,即若字段信息A对应的数据元对标结果为名称,则确定字段信息A对应的标准数据项为源数据表中的相应源数据项,即标准数据项为“源数据项”。
S603:若S601为否,即若字段信息A对应的数据元对标结果不是名称,则确定字段信息A是否存在相应的限定词,例如“母亲身份证号”中“母亲”即为限定词,用于限定后续词的属性。
S604:若S603为是,即若存在限定词,则基于相应的限定词与数据元对标结果,确定字段信息A对应的标准数据项,例如标准数据项为“限定词_数据元”。
S605:若S603为否,即若不存在限定词,则基于相应的数据元对标结果,确定字段信息A对应的标准数据项,例如标准数据项为“数据元”。
S606:确定字段信息A是否为业务时间字段;
S607:若S606为是,即若字段信息A为业务时间字段,则基于字段信息A的表示类型,为字段信息A对应的标准数据项添加相应表示类型的类型标识。
例如,为日期时间型添加“_时间型”后缀,为字符型添加“_字符型”后缀,为整数型添加“_整数型”后缀,以加以区分数据类型。
S608:若S606为否,即若字段信息A为非业务时间字段,则进行整表校验,整表校验是指在数据项命名后,若存在数据项相同的字段,则需要加以区分。例如,在数据项命名后,存在与字段信息A对应的标准数据项名称重复的其他数据项,则对字段信息A对应的标准数据项名称以及重复的数据项添加区别标识,例如添加数字编号加以区分。
在基于上述过程获得标准表名称和标准数据项之后,则可以基于标准表名称和标准数据项获得标准化表。
步骤309:基于标准表名称与各个标准数据项,获得标准化表。
本申请实施例中,通过上述过程可自动进行字段名及表名称标准化,标准化后可自动在系统上生成数据建模的物理模型,并将标准表上传至标准数据库,以供后续工作需要。
综上所述,本申请实施例中,通过输入源表的表名称,可通过系统自动查询到此表,对其进行自动化对标,在对标之后可自动化实现数据项字段名及表名称的标准化命名。其中,通过算法集成来实现自动化生成标准表结构,涉及到的算法包括业务时间字段识别算法、数据主题域识别算法、分区方式识别算法、业务系统及业务名称提取算法、标准表命名算法及数据项命名算法,并通过自动化生成标准表结构可实现对标准数据自动化建模,生成标准表名称及数据项名称,在进行数据表的标准化过程中不需要进行人工干预,目标数据项是根据数据元对标结果及限定词提取结果可自动化生成,自动化程度高,可解决现有技术进行数据表标准化所耗费的大量的时间和精力,能大大提高时间成本及人力成本。并可针对实际业务需求进行修改,即可适用于各个业务系统,也可进行针对性的需求更新,实现表名和字段名的自动化生成。
请参见图7,基于同一发明构思,本申请实施例还提供了一种数据表标准化装置70,该装置包括:
业务字段识别单元701,用于基于待标准化的源数据表的原始表格信息,以及源数据表的数据元对标结果,确定源数据表中包含的业务时间字段;
表格信息识别单元702,用于基于原始表格信息进行表格信息识别,确定源数据表对应的表格类别;其中,表格类别包括主题域类别、业务类别以及分区方式类别;
表命名单元703,用于基于表格类别,生成源数据表对应的标准化表的标准表名称;
数据项命名单元704,用于基于数据元对标结果、原始表格信息以及业务时间字段,生成标准化表的各个标准数据项;
标准表生成单元705,用于基于标准表名称与各个标准数据项,获得标准化表。
可选的,该装置还包括自动化对标单元706,用于:
针对源数据表进行信息提取,获得原始表格信息;其中,原始表格信息包括源数据表的表名称以及字段信息;
针对获得的各字段信息分别进行对标处理,确定各字段信息各自对应的数据元对标结果,所述数据元对标结果包括各所述字段信息对应的数据元以及限定词。
可选的,业务字段识别单元701,具体用于:
基于原始表格信息中的中文字段信息以及数据元对标结果,确定源数据表包含的时间字段;
基于设定的非业务时间字段集合,将源数据表包含的时间字段中非业务时间字段筛除;
将筛除后剩余的时间字段确定为业务时间字段。
可选的,业务字段识别单元701,还用于:
针对确定的各个业务时间字段,若存在业务时间字段未对应有所有表示类型,则对缺失的表示类型进行补全处理;
针对各个非业务时间字段,若存在非业务时间字段包括除指定表示类型之外的其他表示类型,则将其他表示类型删除。
可选的,表格信息识别单元702,具体用于:
基于表名称和字段信息进行主题域识别,确定源数据表所属的主题域类别;
基于表名称和字段信息进行分区方式识别,确定源数据表所属的分区方式类别;其中,分区方式类别包括增量分区类别和全量分区类别;
基于表名称,提取源数据表所属的业务类别。
可选的,表格信息识别单元702,具体用于:
按照候选主题域集合中各个候选主题域的优先级从高到低的顺序,依次将表名称和字段信息与每个候选主题域关联的关键词进行匹配;
若表名称和字段信息与当前匹配的候选主题域之间的匹配度大于设定的匹配度阈值,且满足当前匹配的候选主题域的设定要求,则将当前匹配的候选主题域确定源数据表所属的主题域类别。
可选的,表格信息识别单元702,具体用于:
对表名称和字段信息进行文本预处理,获得多个候选词;
对多个候选词分别进行词向量化,获得多个候选词各自对应的词向量;
基于多个候选词各自对应的词向量,从多个候选词中确定出至少一个关键词,并基于至少一个关键词确定源数据表的表向量;
基于源数据表的表向量与各个候选数据表各自对应的表向量之间的相似度,从各个候选数据表中,确定出至少一个候选数据表;
基于至少一个候选数据表各自对应的主题域类别,确定源数据表所属的主题域类别。
可选的,表格信息识别单元702,具体用于:
从表名称中,提取初始业务系统名称以及初始业务名称;
对所述初始业务系统名称进行标准化处理,获得相应的标准业务系统名称;
对所述初始业务名称进行标准化处理,获得相应的标准业务名称。
可选的,数据项命名单元704,具体用于:
针对各个字段信息,分别执行如下操作,生成各个字段信息各自在标准化表中的标准数据项:
针对一个字段信息,若一个字段信息对应的数据元对标结果为名称,则确定一个字段信息对应的标准数据项为源数据表中的相应源数据项;
若一个字段信息对应的数据元对标结果不是名称,则确定一个字段信息是否存在相应的限定词;
若存在限定词,则基于相应的限定词与数据元对标结果,确定一个字段信息对应的标准数据项;
若不存在限定词,则基于相应的数据元对标结果,确定一个字段信息对应的标准数据项。
可选的,数据项命名单元704,具体用于:
确定一个字段信息是否为业务时间字段;
若一个字段信息为业务时间字段,则基于一个字段信息的表示类型,为一个字段信息对应的标准数据项添加相应表示类型的类型标识;
若所述一个字段信息为非业务时间字段,则确定各标准数据项中是否存在重复,若存在重复,则对重复的标准数据项添加区别标识。
通过上述装置,可以通过算法集成来实现自动化生成标准表结构,并实现对标准数据自动化建模,生成标准表名称及数据项名称,在进行数据表的标准化过程中不需要进行人工干预,目标数据项是根据数据元对标结果及限定词提取结果可自动化生成,自动化程度高,可解决现有技术进行数据表标准化所耗费的大量的时间和精力,能大大提高时间成本及人力成本。并可针对实际业务需求进行修改,即可适用于各个业务系统,也可进行针对性的需求更新,实现表名和字段名的自动化生成。
该装置可以用于执行本申请各实施例中所示的方法,因此,对于该装置的各功能模块所能够实现的功能等可参考前述实施例的描述,不多赘述。
请参见图8,基于同一技术构思,本申请实施例还提供了一种计算机设备80,该计算机设备80可以为图1所示的终端设备或服务器,该计算机设备80可以包括存储器801和处理器802。
所述存储器801,用于存储处理器802执行的计算机程序。存储器801可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据计算机设备的使用所创建的数据等。处理器802,可以是一个中央处理单元(central processing unit,CPU),或者为数字处理单元等等。本申请实施例中不限定上述存储器801和处理器802之间的具体连接介质。本申请实施例在图8中以存储器801和处理器802之间通过总线803连接,总线803在图8中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线803可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器801可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器801也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器801是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器801可以是上述存储器的组合。
处理器802,用于调用所述存储器801中存储的计算机程序时执行本申请各实施例中设备所执行的方法。
在一些可能的实施方式中,本申请提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行本申请各实施例中设备所执行的方法。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (14)

1.一种数据表标准化方法,其特征在于,所述方法包括:
基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段;
基于所述原始表格信息进行表格信息识别,确定所述源数据表对应的表格类别;其中,所述表格类别包括主题域类别、业务类别以及分区方式类别;
基于所述表格类别,生成所述源数据表对应的标准化表的标准表名称;
基于所述数据元对标结果、所述原始表格信息以及业务时间字段,生成所述标准化表的各个标准数据项;
基于所述标准表名称与所述各个标准数据项,获得所述标准化表。
2.如权利要求1所述的方法,其特征在于,在基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段之前,所述方法还包括:
针对所述源数据表进行信息提取,获得所述原始表格信息;其中,所述原始表格信息包括所述源数据表的表名称以及字段信息;
针对获得的各所述字段信息分别进行对标处理,确定各所述字段信息各自对应的数据元对标结果,所述数据元对标结果包括各所述字段信息对应的数据元以及限定词。
3.如权利要求2所述的方法,其特征在于,基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段,包括:
基于所述原始表格信息中的中文字段信息以及所述数据元对标结果,确定所述源数据表包含的时间字段;
基于设定的非业务时间字段集合,将所述源数据表包含的时间字段中非业务时间字段筛除;
将筛除后剩余的时间字段确定为业务时间字段。
4.如权利要求3所述的方法,其特征在于,在基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段之后,所述方法还包括:
针对确定的各个所述业务时间字段,若存在业务时间字段未对应有所有表示类型,则对缺失的表示类型进行补全处理;
针对各个所述非业务时间字段,若存在非业务时间字段包括除指定表示类型之外的其他表示类型,则将所述其他表示类型删除。
5.如权利要求2所述的方法,其特征在于,基于所述原始表格信息进行表格信息识别,确定所述源数据表对应的表格类别,包括:
基于所述表名称和所述字段信息进行主题域识别,确定所述源数据表所属的主题域类别;
基于所述表名称和所述字段信息进行分区方式识别,确定所述源数据表所属的分区方式类别;其中,所述分区方式类别包括增量分区类别和全量分区类别;
基于所述表名称,提取所述源数据表所属的业务类别。
6.如权利要求5所述的方法,其特征在于,基于所述表名称和所述字段信息进行主题域识别,确定所述源数据表所属的主题域类别,包括:
按照候选主题域集合中各个候选主题域的优先级从高到低的顺序,依次将所述表名称和所述字段信息与每个候选主题域关联的关键词进行匹配;
若所述表名称和所述字段信息与当前匹配的候选主题域之间的匹配度大于设定的匹配度阈值,且满足当前匹配的候选主题域的设定要求,则将当前匹配的候选主题域确定所述源数据表所属的主题域类别。
7.如权利要求5所述的方法,其特征在于,基于所述表名称和所述字段信息进行主题域识别,确定所述源数据表所属的主题域类别,包括:
对所述表名称和所述字段信息进行文本预处理,获得多个候选词;
对所述多个候选词分别进行词向量化,获得所述多个候选词各自对应的词向量;
基于所述多个候选词各自对应的词向量,从所述多个候选词中确定出至少一个关键词,并基于所述至少一个关键词确定所述源数据表的表向量;
基于所述源数据表的表向量与各个候选数据表各自对应的表向量之间的相似度,从所述各个候选数据表中,确定出至少一个候选数据表;
基于所述至少一个候选数据表各自对应的主题域类别,确定所述源数据表所属的主题域类别。
8.如权利要求5所述的方法,其特征在于,基于所述表名称,提取所述源数据表所属的业务类别,包括:
从所述表名称中,提取初始业务系统名称以及初始业务名称;
对所述初始业务系统名称进行标准化处理,获得相应的标准业务系统名称;
对所述初始业务名称进行标准化处理,获得相应的标准业务名称。
9.如权利要求2所述的方法,其特征在于,基于所述数据元对标结果、所述原始表格信息以及业务时间字段,生成所述标准化表的各个标准数据项,包括:
针对各个字段信息,分别执行如下操作,生成各个字段信息各自在所述标准化表中的标准数据项:
针对一个字段信息,若所述一个字段信息对应的数据元对标结果为名称,则确定所述一个字段信息对应的标准数据项为源数据表中的相应源数据项;
若所述一个字段信息对应的数据元对标结果不是名称,则确定所述一个字段信息是否存在相应的限定词;
若存在限定词,则基于相应的限定词与数据元对标结果,确定所述一个字段信息对应的标准数据项;
若不存在限定词,则基于相应的数据元对标结果,确定所述一个字段信息对应的标准数据项。
10.如权利要求9所述的方法,其特征在于,所述方法还包括:
确定所述一个字段信息是否为业务时间字段;
若所述一个字段信息为业务时间字段,则基于所述一个字段信息的表示类型,为所述一个字段信息对应的标准数据项添加相应表示类型的类型标识;
若所述一个字段信息为非业务时间字段,则确定各标准数据项中是否存在重复,若存在重复,则对重复的标准数据项添加区别标识。
11.一种数据表标准化装置,其特征在于,所述装置包括:
业务字段识别单元,用于基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段;
表格信息识别单元,用于基于所述原始表格信息进行表格信息识别,确定所述源数据表对应的表格类别;其中,所述表格类别包括主题域类别、业务类别以及分区方式类别;
表命名单元,用于基于所述表格类别,生成所述源数据表对应的标准化表的标准表名称;
数据项命名单元,用于基于所述数据元对标结果、所述原始表格信息以及业务时间字段,生成所述标准化表的各个标准数据项;
标准表生成单元,用于基于所述标准表名称与所述各个标准数据项,获得所述标准化表。
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,
所述处理器执行所述计算机程序时实现权利要求1至10任一项所述方法的步骤。
13.一种计算机存储介质,其上存储有计算机程序指令,其特征在于,
该计算机程序指令被处理器执行时实现权利要求1至10任一项所述方法的步骤。
14.一种计算机程序产品,包括计算机程序指令,其特征在于,
该计算机程序指令被处理器执行时实现权利要求1至10任一项所述方法的步骤。
CN202210320120.4A 2022-03-29 2022-03-29 数据表标准化方法、装置、设备及计算机存储介质 Pending CN114648010A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210320120.4A CN114648010A (zh) 2022-03-29 2022-03-29 数据表标准化方法、装置、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210320120.4A CN114648010A (zh) 2022-03-29 2022-03-29 数据表标准化方法、装置、设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN114648010A true CN114648010A (zh) 2022-06-21

Family

ID=81995168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210320120.4A Pending CN114648010A (zh) 2022-03-29 2022-03-29 数据表标准化方法、装置、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN114648010A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644151A (zh) * 2023-05-15 2023-08-25 绵阳市商业银行股份有限公司 一种应用nlp和ml于数据标准对标的智能化系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644151A (zh) * 2023-05-15 2023-08-25 绵阳市商业银行股份有限公司 一种应用nlp和ml于数据标准对标的智能化系统

Similar Documents

Publication Publication Date Title
US11580104B2 (en) Method, apparatus, device, and storage medium for intention recommendation
US8095547B2 (en) Method and apparatus for detecting spam user created content
WO2018040068A1 (zh) 基于知识图谱的语意分析系统及方法
CN112148889A (zh) 一种推荐列表的生成方法及设备
CN105431844A (zh) 用于搜索系统的第三方搜索应用
CN111966866A (zh) 一种数据资产管理的方法和装置
CN112632405A (zh) 一种推荐方法、装置、设备及存储介质
CN112163207B (zh) 基于动态权限的业务数据查询方法及相关设备
CN113221535B (zh) 情报处理方法、装置、计算机设备和存储介质
CN111191111A (zh) 内容推荐方法、装置及存储介质
CN109885651B (zh) 一种问题推送方法和装置
CN111899821A (zh) 处理医疗机构数据的方法、构建数据库的方法和装置
CN111899822B (zh) 医疗机构数据库构建方法、查询方法、装置、设备和介质
WO2015084757A1 (en) Systems and methods for processing data stored in a database
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN109960719A (zh) 一种文件处理方法和相关装置
CN116932906A (zh) 一种搜索词推送方法、装置、设备及存储介质
CN114511085A (zh) 实体属性值的识别方法、装置、设备、介质及程序产品
CN116610853A (zh) 搜索推荐方法、搜索推荐系统、计算机设备及存储介质
CN114648010A (zh) 数据表标准化方法、装置、设备及计算机存储介质
CN111723201A (zh) 一种用于文本数据聚类的方法和装置
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN113254800A (zh) 信息推荐方法、装置、电子设备及存储介质
CN115146148A (zh) 一种推荐内容数据的方法及装置
CN111597453A (zh) 用户画像方法、装置、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination