CN107463661B - 数据的导入方法及装置 - Google Patents
数据的导入方法及装置 Download PDFInfo
- Publication number
- CN107463661B CN107463661B CN201710641662.0A CN201710641662A CN107463661B CN 107463661 B CN107463661 B CN 107463661B CN 201710641662 A CN201710641662 A CN 201710641662A CN 107463661 B CN107463661 B CN 107463661B
- Authority
- CN
- China
- Prior art keywords
- data
- source data
- group
- isomorphic
- import
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种数据的导入方法及装置,其中,方法包括:获取待导入数据库的源数据集合,其中,源数据集合包括来源于多个数据源的多个源数据表;对多个源数据表进行数据结构识别,并根据识别结果对多个源数据表进行聚类,以获取多组同构数据;获取与每组同构数据对应的清洗与转换规则;根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入数据库。本发明实施例提供方法,减少了人工重复操作,实现了对来源于多个数据源的多个源数据表的同时导入,提高了多数据源的源数据表的导入效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据的导入方法及装置。
背景技术
在大数据平台的构建中,一项最为繁琐的工作就是从各种数据源中抽取、清洗和转换各种异构数据。其中,数据源可能来自于不同的组织、不同的平台、不同操作系统,这种多样性造成了不规范的“脏数据”的大量存在,不规范的主要原因有:1)不同数据源数据存储方式不同,有关系数据库系统中的数据(如Mysql、oracle等),有非结构化的文件数据(如Excel、文本文件等)还有半结构化的数据(如从网页抓取的数据等),即便是同一类存储方式,数据类型结构可能也存在着差异。2)不同组织采用不同的数据标准,数据项的划分、字段名称、数据字典的定义、数据格式的表示、数据所在的定义域都存在差异。3)源数据与目标数据模型不一致,不同数据源在数据对象间关联关系的建模方式上各不相同。
目前,对于大数据的处理,通常使用ETL(Extraction Transformation Loading,抽取转换加载)过程将分布的、异构数据源中的数据进行清洗、转换和集成,最后加载到目标数据库中。异构数据源集成问题也是ETL所面临的主要挑战之一。目前主要采取统一元数据来进行异构数据的统一化管理。
在相关技术中,需要针对每种业务来源的数据进行大量的预处理,为每种数据结构人工配置数据清洗和转换的规则,然后才能开始运行ETL过程。现有的数据导入系统往往只能一次配置一种类型的数据结构,并按照指定的规则将其导入到目标数据库中,存在大量的重复工作,并且配置过程还会引入人为错误,增加失败处理的成本。在互联网数据每天大量产生的环境下,依靠人工配置难以做到多种类数据的实时获取和利用,其效率是无法接受的。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种数据的导入方法,减少了人工重复操作,实现了对来源于多个数据源的多个源数据表的同时导入,提高了多数据源的源数据表的导入效率。
本发明的第二个目的在于提出一种数据的导入装置。
本发明的第三个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种数据的导入方法,包括:获取待导入数据库的源数据集合,其中,所述源数据集合包括来源于多个数据源的多个源数据表;对所述多个源数据表进行数据结构识别,并根据识别结果对所述多个源数据表进行聚类,以获取多组同构数据;获取与每组同构数据对应的清洗与转换规则;根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入所述数据库。
根据本发明的一个实施例,所述对所述多个源数据表进行数据结构识别,并根据识别结果对所述多个源数据表进行聚类,以获取多组同构数据,包括:对每个源数据表中每列数据进行特征提取,以获取每列数据的特征提取结果;针对每个源数据表,根据每列数据的特征提取结果确定每列数据的属性类别;根据每个源数据表中每列数据的属性类别分别确定每个源数据表中的实体;根据每个源数据表中的实体对多个源数据表进行聚类,以将具有相同实体的源数据表作为一组。
根据本发明的一个实施例,所述获取与每组同构数据对应的清洗与转换规则,包括:根据预先配置的分组与清洗和转换规则的对应关系,获取与每组同构数据对应的清洗与转换规则。
根据本发明的一个实施例,在所述将每组处理后的数据导入所述数据库时,所述方法还包括:向用户提供导入进度信息。
根据本发明的一个实施例,所述将每组处理后的数据导入所述数据库,包括:按照预先为每组同构数据设置的导入优先级顺序,将每组处理后的数据导入所述数据库。
根据本发明的一个实施例,在所述将每组处理后的数据导入所述数据库之后,所述方法还包括:向用户提供导入结果,所述导入结果包括导入成功和失败的数据行数,以及错误数据的详细信息。
本发明实施例的数据的导入方法,获取待导入数据库的源数据集合,其中,源数据集合包括来源于多个数据源的多个源数据表;对多个源数据表进行数据结构识别,并根据识别结果对多个源数据表进行聚类,以获取多组同构数据;获取与每组同构数据对应的清洗与转换规则;根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入数据库,由此,减少了人工重复操作,实现了对来源于多个数据源的多个源数据表的同时导入,提高了多数据源的源数据表的导入效率。
为达上述目的,本发明第二方面实施例提出了一种数据的导入装置,包括:第一获取模块,用于获取待导入数据库的源数据集合,其中,所述源数据集合包括来源于多个数据源的多个源数据表;第一处理模块,用于对所述多个源数据表进行数据结构识别,并根据识别结果对所述多个源数据表进行聚类,以获取多组同构数据;第二获取模块,用于获取与每组同构数据对应的清洗与转换规则;第二处理模块,用于根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入所述数据库。
根据本发明的一个实施例,所述第一处理模块,包括:提取单元,用于对每个源数据表中每列数据进行特征提取,以获取每列数据的特征提取结果;第一确定单元,用于针对每个源数据表,根据每列数据的特征提取结果确定每列数据的属性类别;第二确定单元,用于根据每个源数据表中每列数据的属性类别分别确定每个源数据表中的实体;聚类单元,用于根据每个源数据表中的实体对多个源数据表进行聚类,以将具有相同实体的源数据表作为一组。
根据本发明的一个实施例,所述第二处理模块,具体用于:根据预先配置的分组与清洗和转换规则的对应关系,获取与每组同构数据对应的清洗与转换规则。
根据本发明的一个实施例,在所述将每组处理后的数据导入所述数据库时,所述装置还包括:第一提供模块,用于向用户提供导入进度信息。
根据本发明的一个实施例,所述第二处理模块,具体用于:按照预先为每组同构数据设置的导入优先级顺序,将每组处理后的数据导入所述数据库。
根据本发明的一个实施例,所述装置还包括:第二提供模块,用于向用户提供导入结果,所述导入结果包括导入成功和失败的数据行数,以及错误数据的详细信息。
本发明实施例的数据的导入装置,获取待导入数据库的源数据集合,其中,源数据集合包括来源于多个数据源的多个源数据表;对多个源数据表进行数据结构识别,并根据识别结果对多个源数据表进行聚类,以获取多组同构数据;获取与每组同构数据对应的清洗与转换规则;根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入数据库,由此,减少了人工重复操作,实现了对来源于多个数据源的多个源数据表的同时导入,提高了多数据源的源数据表的导入效率。
为达上述目的,本发明第三方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,当计算机程序被处理器执行时实现如第一方面实施例所述的数据的导入方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的数据的导入方法的流程示意图;
图2为步骤S102的细化流程示意图;
图3为根据本发明另一个实施例的数据的导入方法的流程示意图;
图4为根据本发明又一个实施例的数据的导入方法的示意图;
图5为根据本发明一个实施例的数据的导入装置的结构示意图;
图6为根据本发明另一个实施例的数据的导入装置的结构示意图;
图7为根据本发明又一个实施例的数据的导入装置的结构示意图;
图8为根据本发明再一个实施例的数据的导入装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的数据的导入方法及装置。
图1为根据本发明一个实施例的数据的导入方法的流程示意图。
如图1所示,该数据的导入方法包括以下步骤:
S101,获取待导入数据库的源数据集合。
作为一种示例性的实施方式,通过统一的数据接口获取待导入数据库的源数据集合。
其中,源数据集合包括来源于多个数据源的多个源数据表。
其中,数据源可以包括但不限于关系型数据库和平面数据文件。
其中,需要理解的是,源数据集合中的多个源数据表可以来源于同一个数据库中的多个数据表,也可以来源于多个数据库中的数据表。
作为一种示例性的实施方式,源数据集合中的多个源数据表还可以是一个或多个数据文件,甚至是一个目录下的所有文件,该实施例对此不作限定。
其中,源数据表的文件类型可以包括但不限于csv、excel、pdf、doc、txt、xml、html等。也就是说,该实施例可以支持csv、excel、pdf、doc、txt、xml、html等文件的解析。
S102,对多个源数据表进行数据结构识别,并根据识别结果对多个源数据表进行聚类,以获取多组同构数据。
在本发明的一个实施例中,如图2所示,步骤S102可以包括:
S121,对每个源数据表中每列数据进行特征提取,以获取每列数据的特征提取结果。
作为一种示例性的实施方式,在执行步骤S121之前,提高后续的对象识别准确性,在获取待导入数据库的源数据集合后,可先对待导入数据库的源数据集合中的每个源数据表进行预处理,预处理包括识别是否有表头、表头所在的行、有效数据列,以及数据中各种特定格式的解析,比如公式的解析。
其中,需要说明的是,表头的识别可影响后续的对象识别,因此,在对源数据表进行数据结构的识别的过程,在确定源数据表中的前几行为空或者无效数据时,可将源数据表中前几行为空或者无效数据剔除掉。
作为一种示例性的实施方式,在对每个源数据表进行预处理后,针对每个源数据表,可对源数据表的每列数据进行特征提取,可基于预设特征提取规则对每列数据进行特征提取。
其中,预设特征提取规则包括提取身份证号、手机号、性别、民族等枚举类型的数据的提取规则。
在对每个源数据表进行预处理后,针对每个源数据表,如果确定源数据表中当前列数据是文本,可通过自然语言处理等文本挖掘技术分析出数据所表达的语意,如地址、组织机构等。
S122,针对每个源数据表,根据每列数据的特征提取结果确定每列数据的属性类别。
在本发明的一个实施例中,可通过多种方式确定每列数据的属性类别,可以根据实际应用需要进行选择,本实施例对此不作限制,为了更加清楚的说明确定每列数据的属性类别的过程,举例说明如下:
作为一种示例,可基于预设属性类别模型,根据每列数据的特征提取结果确定出每列数据的属性。
作为另一种示例,在获取每列数据的特征提取结果后,可根据预先保存的特征与属性类别之间的对应关系,获取与特征提取结果匹配的属性类别。
其中,需要理解的是,属性类别与源数据处理的业务有关,该实施例不对属性类别进行限定。
在本发明的一个实施中,为了更加准确地确定每列数据的属性类别,在确定当前列数据存在表头语意时,获取当前列数据的表头语意,并根据当前列数据的表头语意和特征提取结果确定当前列数据的属性类别。
S123,根据每个源数据表中每列数据的属性类别分别确定每个源数据表中的实体。
在本发明的一个实施例中,在获取每个源数据表中每列数据的属性类别后,可根据本体模型确定出每个源数据表中包含的实体。
其中,需要说明的是,每个源数据表中可以包括的实体可以为一个或者多个,在实体的数量为多个,还可以通过目标关系模型确定源数据表中实体与实体之间的关系。例如,实体与实体之间的关系可以为父子关系。
其中,需要理解的是,实体与实体之间的关系可以包括无向关系和有向关系。
作为一种示例性的实施方式,为了准确确定实体与实体之间的有向关系例如父子关系,还可以获取源数据表的表头语义,以及与有向关系有关的特征信息,并根据所获取的与有向关系有关的特征信息和表头语义,确定出实体与实体之间的关系。例如,假设有向关系为父子关系,与有向关系有关的特征信息为年龄特征信息。
在本发明的一个实施例中,为了更加准确地确定源数据表中的实体,针对每个源数据表,在确定当前源数据表中包括数据表名称时,还可以根据数据表名称和每列数据的属性类确定出匹配度最高的实体,即,识别出该当前源数据表中包含的实体。
S124,根据每个源数据表中的实体对多个源数据表进行聚类,以将具有相同实体的源数据表作为一组。
也就是说,该实施例在确定出每个源数据表中的实体后,根据实体对源数据表进行聚类,将表达相同结果的源数据表划为一组。
其中,需要说明的是,即使未识别出源数据表中的实体,也可以按相同结构对源数据表进行聚类。
S103,获取与每组同构数据对应的清洗与转换规则。
在本发明的一个实施例中,可根据预先配置的分组与清洗和转换规则的对应关系,获取与每组同构数据对应的清洗与转换规则。
举例而言,可将预先配置的分组与清洗和转换规则保存在一个模块库中,该模板库用于积累专家经验及用户为分组配置的清洗和转换规则。
S104,根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入数据库。
在本发明的一个实施例中,根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理后,针对处理后的每组同构数据,可并行向数据库中导入。也就是说,多组同构数据同步向数据库导入。作为一种示例性的实施方式,在根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,对于处理后的每组同构数据,按照预先为每组同构数据设置的导入优先级顺序,将每组处理后的数据导入数据库。由此,减少了人工重复操作,实现了对来源于多个数据源的多个源数据表的同时导入,提高了多数据源的源数据表的导入效率。
其中,需要说明的是,导入优先级顺序可以是根据导入任务中每组同构数据的重要程度预先设置的,越重要的分组所对应的导入顺序越靠前,反之靠后。
作为另一种示例性的实施方式,在获取处理后的每组同构数据后,还可以在界面中显示处理后的每组同构数据,并根据用户在界面中按照不同的重要程度改变每组同构数据的导入优先级,并根据用户所修改后的导入优先级顺序将处理后的数据导入数据库中。
作为一种示例性的实施方式,在通过每组同构数据对应的清洗与转换规则对每组同构数据进行处理的过程中,如果监控到通过当前组同构数据中的对应的清洗规则不能完整清洗当前组同构数据的第一个数据时,可在界面中显示提示,以使用户可根据提示在界面中对当前组同构数据的清洗规则修改配置。
在修改配置后,针对当前组同构数据,可根据修改后的清洗规则对当前同构数据中的所有数据进行清洗。由此,实现了一次修改即可实现数据的批量处理,无需重复操作。
作为一种示例性的实施方式,在通过每组同构数据对应的清洗与转换规则对每组同构数据进行处理的过程中,如果监控到通过当前组同构数据中的对应的转换规则不能完整转换当前组同构数据的第一个数据时,可在界面中显示提示,以使用户可根据提示在界面中对当前组同构数据的转换规则修改配置。
在修改配置后,针对当前组同构数据,可根据修改后的转换规则对当前同构数据中的所有数据进行转换。由此,实现了一次修改即可实现数据的批量处理,无需重复操作。
在本发明的一个实施例中,为了方便用户查看数据导入进度,在将每组处理后的数据导入数据库时,还可以向用户提供导入进度信息。
其中,需要说明的是,也可以将数据导入进度信息置于后台运行、只在任务完成后查看导入的结果。
基于上述实施例的基础上,在本发明的一个实施例中,为了方便用户查看导入结果,如图3所示,在将每组处理后的数据导入数据库之后,还可以包括步骤S105。
S105,向用户提供导入结果。
其中,导入结果包括导入成功和失败的数据行数,以及错误数据的详细信息。
其中,详细信息可以包括当不限于错误数据的行数。
其中,数据的导入方法的示意图,如图4所示,在对源数据进行处理之前,可读取样例数据,并根据样例数据建立配置文件,通过图4可以看出样例数据可以来源于Mysql、Oracle、HDFS、Hbase。在样例数据读取后,可对样例数据进行数据解析,然后,对解析后的数据表进行对象识别,以识别出数据表中的实体,并根据实体对配置管理,以形成对应的配置文件,并在分布式存储服务中保存配置文件,以方便后续通过分布式存储服务中保存配置文件对读取的源数据进行处理,其中,对源数据读取后,可对数据抽取(具体过程对多个源数据表进行数据结构识别,并根据识别结果对多个源数据表进行聚类,以获取多组同构数据),并将数据抽取后的数据表进行数据清洗以及数据转换,并将转换后的数据加载至数据库中。其中,在对源数据进行处理的过程,还可以获取数据处理的日志,即,日志收集,并将所收集的日志显示在客户端中,客户端中还可以可视化任务管理、调度、监控。
本发明实施例的数据的导入方法,获取待导入数据库的源数据集合,其中,源数据集合包括来源于多个数据源的多个源数据表;对多个源数据表进行数据结构识别,并根据识别结果对多个源数据表进行聚类,以获取多组同构数据;获取与每组同构数据对应的清洗与转换规则;根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入数据库,由此,减少了人工重复操作,实现了对来源于多个数据源的多个源数据表的同时导入,提高了多数据源的源数据表的导入效率。
为了实现上述实施例,本发明还提出一种数据的导入装置。
图5为根据本发明一个实施例的数据的导入装置的结构示意图。
如图5所示,该数据的导入装置可以包括第一获取模块110、第一处理模块120、第二获取模块130和第二处理模块140,其中:
第一获取模块110用于获取待导入数据库的源数据集合。
其中,源数据集合包括来源于多个数据源的多个源数据表。
第一处理模块120用于对多个源数据表进行数据结构识别,并根据识别结果对多个源数据表进行聚类,以获取多组同构数据。
第二获取模块130用于获取与每组同构数据对应的清洗与转换规则。
第二处理模块140用于根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入数据库。
在本发明的一个实施例中,在图5所示的基础上,如图6所示,第一处理模块120可以包括:
提取单元121用于对每个源数据表中每列数据进行特征提取,以获取每列数据的特征提取结果。
第一确定单元122用于针对每个源数据表,根据每列数据的特征提取结果确定每列数据的属性类别。
第二确定单元123用于根据每个源数据表中每列数据的属性类别分别确定每个源数据表中的实体。
聚类单元124用于根据每个源数据表中的实体对多个源数据表进行聚类,以将具有相同实体的源数据表作为一组。
在本发明的一个实施例中,第二处理模块140具体用于:根据预先配置的分组与清洗和转换规则的对应关系,获取与每组同构数据对应的清洗与转换规则。
在本发明的一个实施例中,第二处理模块140具体用于:按照预先为每组同构数据设置的导入优先级顺序,将每组处理后的数据导入数据库。
其中,需要说明的是,导入优先级顺序可以是根据导入任务中每组同构数据的重要程度预先设置的,越重要的分组所对应的导入顺序越靠前,反之靠后。
在本发明的一个实施例中,为了方便用户了解数据导入进度,在图5所示的基础上,如图7所示,在将每组处理后的数据导入数据库时,装置还可以包括:
第一提供模块150用于向用户提供导入进度信息。
在本发明的一个实施例中,为了方便用户了解导入结果,在图5所示的基础上,如图8所示,该装置还可以包括:
第二提供模块160用于向用户提供导入结果。
其中,导入结果包括导入成功和失败的数据行数,以及错误数据的详细信息。
其中,需要说明的是,前述对数据的导入方法实施例的解释说明也适用于该实施例的数据的导入装置实施例,此处不再赘述。
本发明实施例的数据的导入装置,获取待导入数据库的源数据集合,其中,源数据集合包括来源于多个数据源的多个源数据表;对多个源数据表进行数据结构识别,并根据识别结果对多个源数据表进行聚类,以获取多组同构数据;获取与每组同构数据对应的清洗与转换规则;根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入数据库,由此,减少了人工重复操作,实现了对来源于多个数据源的多个源数据表的同时导入,提高了多数据源的源数据表的导入效率。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时能够实现如前述实施例的数据的导入方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (11)
1.一种数据的导入方法,其特征在于,包括以下步骤:
获取待导入数据库的源数据集合,其中,所述源数据集合包括来源于多个数据源的多个源数据表;
对所述多个源数据表进行数据结构识别,并根据识别结果对所述多个源数据表进行聚类,以获取多组同构数据;
获取与每组同构数据对应的清洗与转换规则;
根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入所述数据库;
所述对所述多个源数据表进行数据结构识别,并根据识别结果对所述多个源数据表进行聚类,以获取多组同构数据,包括:
对每个源数据表中每列数据进行特征提取,以获取每列数据的特征提取结果;
针对每个源数据表,获取每列数据的表头语意,并根据每列数据的表头语意和特征提取结果确定每列数据的属性类别;
根据每个源数据表中每列数据的属性类别分别确定每个源数据表中的实体;
根据每个源数据表中的实体对多个源数据表进行聚类,以将具有相同实体的源数据表作为一组。
2.如权利要求1所述的方法,其特征在于,所述获取与每组同构数据对应的清洗与转换规则,包括:
根据预先配置的分组与清洗和转换规则的对应关系,获取与每组同构数据对应的清洗与转换规则。
3.如权利要求1-2任一项所述的方法,其特征在于,在所述将每组处理后的数据导入所述数据库时,所述方法还包括:
向用户提供导入进度信息。
4.如权利要求1-2任一项所述的方法,其特征在于,所述将每组处理后的数据导入所述数据库,包括:
按照预先为每组同构数据设置的导入优先级顺序,将每组处理后的数据导入所述数据库。
5.如权利要求1-2任一项所述的方法,其特征在于,在所述将每组处理后的数据导入所述数据库之后,所述方法还包括:
向用户提供导入结果,所述导入结果包括导入成功和失败的数据行数,以及错误数据的详细信息。
6.一种数据的导入装置,其特征在于,包括:
第一获取模块,用于获取待导入数据库的源数据集合,其中,所述源数据集合包括来源于多个数据源的多个源数据表;
第一处理模块,用于对所述多个源数据表进行数据结构识别,并根据识别结果对所述多个源数据表进行聚类,以获取多组同构数据;
第二获取模块,用于获取与每组同构数据对应的清洗与转换规则;
第二处理模块,用于根据每组同构数据对应的清洗与转换规则对每组同构数据进行处理,并将每组处理后的数据导入所述数据库;
所述第一处理模块,包括:
提取单元,用于对每个源数据表中每列数据进行特征提取,以获取每列数据的特征提取结果;
第一确定单元,用于针对每个源数据表,获取每列数据的表头语意,并根据每列数据的表头语意和特征提取结果确定每列数据的属性类别;
第二确定模块,用于根据每个源数据表中每列数据的属性类别分别确定每个源数据表中的实体;
聚类单元,用于根据每个源数据表中的实体对多个源数据表进行聚类,以将具有相同实体的源数据表作为一组。
7.如权利要求6所述的装置,其特征在于,所述第二处理模块,具体用于:
根据预先配置的分组与清洗和转换规则的对应关系,获取与每组同构数据对应的清洗与转换规则。
8.如权利要求6-7任一项所述的装置,其特征在于,在所述将每组处理后的数据导入所述数据库时,所述装置还包括:
第一提供模块,用于向用户提供导入进度信息。
9.如权利要求6-7任一项所述的装置,其特征在于,所述第二处理模块,具体用于:
按照预先为每组同构数据设置的导入优先级顺序,将每组处理后的数据导入所述数据库。
10.如权利要求6-7任一项所述的装置,其特征在于,所述装置还包括:
第二提供模块,用于向用户提供导入结果,所述导入结果包括导入成功和失败的数据行数,以及错误数据的详细信息。
11.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的数据的导入方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710641662.0A CN107463661B (zh) | 2017-07-31 | 2017-07-31 | 数据的导入方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710641662.0A CN107463661B (zh) | 2017-07-31 | 2017-07-31 | 数据的导入方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107463661A CN107463661A (zh) | 2017-12-12 |
CN107463661B true CN107463661B (zh) | 2021-04-27 |
Family
ID=60547783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710641662.0A Active CN107463661B (zh) | 2017-07-31 | 2017-07-31 | 数据的导入方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107463661B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107870979A (zh) * | 2017-09-30 | 2018-04-03 | 平安科技(深圳)有限公司 | 电子装置、提取数据表的数据的方法及存储介质 |
CN108073720B (zh) * | 2017-12-30 | 2022-03-08 | 广州明动软件股份有限公司 | 应用于大数据系统的数据质量管理系统及方法 |
CN108920638A (zh) * | 2018-07-02 | 2018-11-30 | 山东浪潮商用系统有限公司 | 基于数据字典配置的web端文件数据采集方法及装置 |
CN109344298A (zh) * | 2018-10-31 | 2019-02-15 | 南方电网科学研究院有限责任公司 | 一种将非结构化数据转化为结构化数据的方法及装置 |
CN110222108A (zh) * | 2019-05-28 | 2019-09-10 | 上海易点时空网络有限公司 | 用于数据格式化导出的数据处理方法及装置 |
CN110275861B (zh) * | 2019-06-25 | 2021-09-17 | 北京明略软件系统有限公司 | 数据存储方法及装置、存储介质、电子装置 |
CN110457302B (zh) * | 2019-07-31 | 2022-04-29 | 河南开合软件技术有限公司 | 一种结构化数据智能清洗方法 |
CN110781231B (zh) * | 2019-09-19 | 2023-07-21 | 平安科技(深圳)有限公司 | 基于数据库的批量导入方法、装置、设备及存储介质 |
CN110727668B (zh) * | 2019-09-30 | 2022-03-01 | 北京百度网讯科技有限公司 | 数据清洗方法及装置 |
CN111026739B (zh) * | 2019-11-26 | 2023-08-29 | 智器云南京信息科技有限公司 | 批量数据清洗的方法及装置、计算机设备和存储介质 |
CN111159275B (zh) * | 2020-01-02 | 2023-05-05 | 广州虎牙科技有限公司 | 数据导入方法和装置、电子设备及存储介质 |
CN112163024B (zh) * | 2020-09-11 | 2024-03-19 | 重庆誉存大数据科技有限公司 | 一种基于层级关联结构的配置信息导出和导入方法 |
CN112579581B (zh) * | 2020-11-30 | 2023-04-14 | 贵州力创科技发展有限公司 | 一种数据分析引擎的数据接入方法及系统 |
CN112612797B (zh) * | 2020-12-30 | 2022-08-23 | 杭州拼便宜网络科技有限公司 | 多源同表数据加载方法、装置、设备及介质 |
CN113821553A (zh) * | 2021-07-16 | 2021-12-21 | 深圳云天励飞技术股份有限公司 | 数据导入方法、装置、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556606A (zh) * | 2009-05-20 | 2009-10-14 | 同方知网(北京)技术有限公司 | 一种基于Web数值表格抽取的数据挖掘方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7680986B1 (en) * | 2004-12-30 | 2010-03-16 | Sun Microsystems, Inc. | Practical implementation of arbitrary-sized LL/SC variables |
CN101615178B (zh) * | 2008-06-26 | 2013-01-09 | 日电(中国)有限公司 | 用于建立对象层次结构的方法和系统 |
CN104391997A (zh) * | 2014-12-15 | 2015-03-04 | 北京国双科技有限公司 | 基于数据立方体的可视化数据显示方法和装置 |
CN104809242B (zh) * | 2015-05-15 | 2018-03-02 | 成都睿峰科技有限公司 | 一种基于分布式结构的大数据聚类方法和装置 |
CN105512167B (zh) * | 2015-10-30 | 2018-01-23 | 广东广信通信服务有限公司 | 一种基于混合数据库的多业务用户数据管理系统及其方法 |
CN105554070B (zh) * | 2015-12-09 | 2018-08-28 | 北京中科云集科技有限公司 | 一种基于警务大数据中心服务建设的方法 |
CN105893526A (zh) * | 2016-03-30 | 2016-08-24 | 上海坤士合生信息科技有限公司 | 多源数据融合系统和方法 |
CN106127371A (zh) * | 2016-06-16 | 2016-11-16 | 党齐民 | 一种基于大数据的海外人才信息管理系统和方法 |
CN106168965B (zh) * | 2016-07-01 | 2020-06-30 | 竹间智能科技(上海)有限公司 | 知识图谱构建系统 |
CN106600438A (zh) * | 2016-11-29 | 2017-04-26 | 东莞华南设计创新院 | 一种农业信息化服务系统 |
-
2017
- 2017-07-31 CN CN201710641662.0A patent/CN107463661B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556606A (zh) * | 2009-05-20 | 2009-10-14 | 同方知网(北京)技术有限公司 | 一种基于Web数值表格抽取的数据挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107463661A (zh) | 2017-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107463661B (zh) | 数据的导入方法及装置 | |
CN109634941B (zh) | 医疗数据处理方法、装置、电子设备及存储介质 | |
US20140280070A1 (en) | System and method for providing technology assisted data review with optimizing features | |
Dormann et al. | Package ‘bipartite’ | |
US20130311517A1 (en) | Representing Incomplete and Uncertain Information in Graph Data | |
CN110737689B (zh) | 数据标准符合性检测方法、装置、系统及存储介质 | |
CN106933859B (zh) | 一种医疗数据的迁移方法和装置 | |
Bellini et al. | Metadata quality assessment tool for open access cultural heritage institutional repositories | |
US20200192862A1 (en) | Data Transformation and Pipelining | |
CN110019341B (zh) | 一种数据查询方法及装置 | |
CN111414410A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN110298581B (zh) | 确定风险指标值的方法及装置 | |
CN112346775A (zh) | 指标数据通用处理方法、电子设备和存储介质 | |
CN110245242B (zh) | 医学知识图谱构建方法、装置以及终端 | |
Mehta et al. | Online conversion of reconstructed neural morphologies into standardized SWC format | |
CN108804561B (zh) | 数据同步方法及装置 | |
CN113220530A (zh) | 数据质量监控方法及平台 | |
CN110928941B (zh) | 一种数据分片抽取方法及装置 | |
CN108427675A (zh) | 构建索引的方法及设备 | |
CN106845787A (zh) | 一种数据自动交换方法及装置 | |
CN113656652B (zh) | 医保违规行为的检测方法、装置、设备及存储介质 | |
CN116204428A (zh) | 一种测试用例生成方法和装置 | |
CN115880116A (zh) | 任务调度方法、系统,可读存储介质及计算机设备 | |
CN111782691B (zh) | 指标关联性确定方法、装置、电子设备及存储介质 | |
KR101638048B1 (ko) | 맵리듀스를 이용한 sql 질의처리방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190903 Address after: 100192 Dongsheng Science Park, Zhongguancun, 66 Xixiaokou Road, Haidian District, Beijing Applicant after: Green Bay Network Technology Co., Ltd. Address before: 100089 Beijing Haidian District Xixiaokou Road 66 Zhongguancun Dongsheng Science Park B-6 Building B 5 floors Applicant before: Grass count language (Beijing) Technology Co., Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |