CN113190608A - 数据标准化采集方法、装置、设备及存储介质 - Google Patents
数据标准化采集方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113190608A CN113190608A CN202110594968.1A CN202110594968A CN113190608A CN 113190608 A CN113190608 A CN 113190608A CN 202110594968 A CN202110594968 A CN 202110594968A CN 113190608 A CN113190608 A CN 113190608A
- Authority
- CN
- China
- Prior art keywords
- data
- standard
- original
- model
- data model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013499 data model Methods 0.000 claims abstract description 138
- 230000000007 visual effect Effects 0.000 claims abstract description 34
- 238000006243 chemical reaction Methods 0.000 claims abstract description 24
- 230000006837 decompression Effects 0.000 claims description 19
- 230000006835 compression Effects 0.000 claims description 11
- 238000007906 compression Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013506 data mapping Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种数据标准化采集方法、系统、服务器及存储介质。该方法包括:基于可视化操作界面获取用户输入的数据采集信息,数据采集信息包括原始数据模型和对应的标准数据模型;根据原始数据模型从数据源获取原始数据;根据原始数据模型对应的标准数据模型将原始数据转换为标准数据并存储至预设目的地。本发明实施例以数据模型的形式进行数据转化可以广泛定义数据转化关系,大批量实现原始数据到标准数据的转化,便于实现集团的数据同采同用。
Description
技术领域
本发明涉及数据库技术领域,尤其涉及一种数据标准化采集方法、系统、服务器和存储介质。
背景技术
大数据是当下的热门话题,运营商数据在精准营销、数达营销和数言舆情标准产品的基础上形成了针对各个行业的解决方案,因此运营商数据的采集目前运营商数据的采集过程都是通过各个省端独立采集、汇集处理的,虽然集团公司有统一的采集字段规范和格式,但在规范外,各个省份的运营商上报的数据各自按自己的规范上传打包数据。集团统一从各个省份采集上来的数据依然做不到同采同用,需要一套适配框架,对各个省份的数据进行统一规范采集。那么数据标准化采集系统就因此而诞生。
发明内容
有鉴于此,本发明提供了一种数据标准化采集方法、装置、设备及存储介质,以数据模型的形式进行数据转化,可以广泛定义数据转化关系,大批量实现原始数据到标准数据的转化。
第一方面,本发明提供了一种数据标准化采集方法,该方法包括:
基于可视化操作界面获取用户输入的数据采集信息,所述数据采集信息包括原始数据模型和对应的标准数据模型;
根据所述原始数据模型从数据源获取原始数据;
根据所述原始数据模型对应的所述标准数据模型将所述原始数据转换为标准数据并存储至预设目的地。
可选的,在一些实施例中,所述基于可视化操作界面获取用户输入的数据采集信息包括:
根据用户基于可视化操作界面选择的数据采集工具确定数据接入方式;
获取用户基于所述数据接入方式设置的数据解压方式,根据所述数据接入方式和数据解压方式确定原始数据模型;
根据用户基于可视化操作界面确定的连接关系和数据标准化工具确定与原始数据模型对应的标准数据模型。
可选的,在一些实施例中,所述获取根据用户的操作生成的数据采集配置之前,还包括:
配置数据采集工具和数据标准化工具,所述数据采集工具用于模块化描述所述原始数据模型,所述数据标准化工具用于模块化描述所述标准数据模型。
可选的,在一些实施例中,所述根据所述原始数据模型从数据源获取原始数据,包括:
根据所述原始数据模型确定数据源接入信息;
根据数据源接入信息采集原始数据。
可选的,在一些实施例中,所述根据所述原始数据模型对应的所述标准数据模型将所述原始数据转换为标准数据包括:
根据所述原始数据模型对应的所述标准数据模型将所述原始数据通过字段名称映射编排、字段单位换算编排和字段含义计算编排。
可选的,在一些实施例中,所述数据源接入信息包括:
压缩方式、文件格式、结束方式、字段类型和字段名称。
第二方面,本发明提供了一种数据标准化采集系统,包括:
采集配置模块,用于获取根据用户的操作生成的数据采集配置,所述数据采集配置包括原始数据模型和标准数据模型;
数据获取模块,用于根据所述原始数据模型从数据源获取原始数据;
根据所述标准数据模型将所述原始数据转换为标准数据并存储至预设目的地。
可选的,在一些实施例中,所述采集配置模块包括:
原始数据接入单元,用于根据用户基于可视化操作界面选择的数据采集工具确定数据接入方式;
数据解压单元,用于获取用户基于所述数据接入方式设置的数据解压方式,根据所述数据接入方式和数据解压方式确定原始数据模型;
标准数据转换单元,用于根据用户基于可视化操作界面确定的连接关系和数据标准化工具确定与原始数据模型对应的标准数据模型。
第三方面,本发明提供了一种服务器,包括存储器和处理器,所述存储器上存储有可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如前述的数据标准化采集方法。
第四方面,本发明提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被执行时实现前述的数据标准化采集方法。
本发明提供的数据标准化采集方法,通过可视化操作界面获取用户的操作,从而根据用户的操作确定用户输入的数据采集信息,以定义原始数据模型和对应的标准数据模型,根据原始数据模型描述的信息从数据源获取原始数据,再根据对应的标准数据模型将原始数据转化成标准数据并存储到预设目的地,该方法对原始数据源的数据进行了统一建模,这样无论哪个数据源提供的数据都可以通过统一的标准进行接入、拉取,无需单独拉取,并且以数据模型的形式进行数据转化可以广泛定义数据转化关系,大批量实现原始数据到标准数据的转化,便于实现集团的数据同采同用。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见的,下面描述中的附图仅仅是本申请的部分实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例一提供的一种数据标准化采集方法的流程图;
图2是本发明实施例一提供的数据标准化采集方法的子流程图;
图3是本发明实施例二提供的数据标准化采集方法的子流程图;
图4是本发明实施例三提供的一种数据标准化采集系统的结构示意图;
图5是本发明实施例四提供的一种服务器的结构示意图。
具体实施方式
下面结合本申请实施例中的附图,对本申请实施中的技术方案进行清楚、完整的描述。可以理解的是,此处所描述的具体实施例仅仅是本申请一部分实施例,而不是全部的实施例,仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本发明的范围的情况下,可以将第一用例称为第二用例,且类似地,可将第二用例称为第一用例。第一用例和第二用例两者都是用例,但其不是同一用例。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个特征的组合。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。需要说明的是,当一个部被称为“固定于”另一个部,它可以直接在另一个部上也可以存在居中的部。当一个部被认为是“连接”到另一个部,它可以是直接连接到另一个部或者可能同时存在居中部。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述,只是为了说明的目的,并不表示是唯一的实施方式。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
参见图1,本实施例提供了一种数据标准化采集方法,可以应用于,具体包括:
S110、获取根据用户的操作生成的数据采集配置,所述数据采集配置包括原始数据模型和标准数据模型。
本实施例提供的数据标准化采集方法基于数据标准化采集系统实现,该系统提供有面向用户的可视化操作界面,用户基于可视化操作界面进行操作,系统根据用户基于可视化操作界面的操作确定用户需要的数据采集配置。数据采集配置用于描述原始数据模型和对应的标准数据模型,其中原始数据模型用于针对系统底层待接入的数据进行模型描述,通常包括(zip、gz、tar、tar.gz等)、文件格式(有结构化的csv、txt以及半结构化的xml、json等),接入方式多(ftp、sftp、消息等)、字段类型,字段名称等,这是因为原始数据由于不同省份采用不同的设备以及不同的标准,往往原始数据存在很大差异,例如以各个省份的MRO数据为例,MRO数据各个省份都是以XML结构进行存储的,并打包压缩,不同设备厂家不同省份的压缩方式不一样,有的是zip压缩,有的省份和厂家是tar.gz压缩,有的是zip加gz压缩,花样别处。除此之外,xml标签中的字段也千变万化,有些字段名称大小写不统一,字段名称各自随意使用简称,字段单位不统一,字段含义不一致,字段顺序不一致等,因此需要对原始数据模型进行一个略宽泛的描述,以获取底层的全部原始数据。
与原始数据模型类似的,标准数据模型用于对最终得到的标准数据进行描述,标准数据就是可以做到同采同用的数据,由原始数据转化而来,其定义了标准数据的标准模板,原始数据就是按照标准模板进行转换的。
S120、根据所述原始数据模型从数据源获取原始数据。
本实施例中,数据标准化采集系统与数据源之间存在连接,可以在获取到用户输入的数据采集信息后,根据数据采集信息确定数据源,并从数据源拉取数据。
前文已经提到,原始数据模型对原始数据进行描述,在获取原始数据时,系统自动根据原始数据模型对原始数据的描述寻找对应的数据,并按照对原始数据的描述进行解压、清洗等过程,得到转化成标准数据前的原始数据。
S130、根据所述标准数据模型将所述原始数据转换为标准数据并存储至预设目的地。
步骤S120已经根据原始数据模型从数据源获取到原始数据,那么只需要按照标准数据模型将原始数据进行转换即可得到满足同采同用的标准数据。具体的,步骤S110中原始数据模型和标准数据模型之间存在对应关系,具体在可视化操作界面中,二者间的对应关系可以通过连线等方式确定,在进行数据转化是,根据对应关系进行原始数据到标准数据的转换:确定原始数据模型对应的标准数据模型,根据标准数据模型中对标准数据的描述,通过数据适配工具以及对应的调度转换算法,对原始数据进行计算、换算、映射等一系列操作,最终转换成标准数据。其中调度转换算法是根据各种存在或可能存在的原始数据、标准数据进行编写的,这样在数据转化时可以直接调用。本实施例中标准数据模型还定义了标准数据的存储地点:预设目的地,通常为HIVE集群。
本实施例提供了一种数据标准化采集方法,通过可视化操作界面获取用户的操作,从而根据用户的操作确定用户输入的数据采集信息,以定义原始数据模型和对应的标准数据模型,根据原始数据模型描述的信息从数据源获取原始数据,再根据对应的标准数据模型将原始数据转化成标准数据并存储到预设目的地,该方法对原始数据源的数据进行了统一建模,这样无论哪个数据源提供的数据都可以通过统一的标准进行接入、拉取,无需单独拉取,并且以数据模型的形式进行数据转化可以广泛定义数据转化关系,大批量实现原始数据到标准数据的转化,便于实现集团的数据同采同用。
实施例二
实施例二提供了一种数据标准化采集方法,其可以在实施例一的基础上实现,对实施例一中的内容进行了进一步补充,具体包括:
如图2所示,为本实施例提供的数据标准化采集方法中基于可视化操作界面获取用户输入的数据采集信息的过程,包括步骤S111-113:
S111、根据用户基于可视化操作界面选择的数据采集工具确定数据接入方式。
S112、获取用户基于所述数据接入方式设置的数据解压方式,根据所述数据接入方式和数据解压方式确定原始数据模型。
S113、根据用户基于可视化操作界面确定的连接关系和数据标准化工具确定与原始数据模型对应的标准数据模型。
步骤S111-113中涉及的数据采集工具和数据标准化工具为可视化操作界面提供的可选择工具,用户可以通过数据采集工具定义数据采集信息从而构建原始数据模型,并通过数据标准化工具定义数据转化信息,从而构建标准数据模型,在可视化操作界面中用户可以通过对数据采集工具和数据标准化工具连线,确定二者的对应关系。
与步骤S111-113对应的,如图3所示,为本实施例提供的数据标准化采集方法的流程图,在基于可视化操作界面获取用户输入的数据采集信息之前还包括步骤S200:
S200、配置数据采集工具和数据标准化工具,所述数据采集工具用于模块化描述所述原始数据模型,所述数据标准化工具用于模块化描述所述标准数据模型。
步骤S200是对可视化操作界面的功能完善,可视化操作界面提供有多个可选择的工具:数据采集工具和数据标准化工具,这两个工具是已经模块化定义好的功能,专门用于数据模型(标准数据模型和原始数据模型)的构建。
如果设备商对上报的数据字段名称进行了修改,或由于设备升级增加删除了某列字段,为了屏蔽此类变动对上层业务的影响,可以通过修改数据采集工具和数据标准化工具的配置,同步变更原始数据模型的描述,数据适配工具将变更后的字段重新映射到标准模型字段中,从而保障了上层业务的统一性。
可选的,在一些实施例中,步骤S120具体包括步骤S121-122(图未示):
S121、根据所述原始数据模型确定数据源接入信息。数据源接入信息即原始数据模型中关于原始数据的描述,压缩方式(zip、gz、tar、tar.gz等)、文件格式(有结构化的csv、txt以及半结构化的xml、json等),接入方式多(ftp、sftp、消息等)、字段类型,字段名称等。
S122、根据数据源接入信息采集原始数据。
与原始数据模型对应的,标准数据模型中关于标准数据的描述包括了字段名称映射编排、字段单位换算编排和字段含义计算编排等相关信息,即在对原始数据转化成标准数据时,根据所述原始数据模型对应的所述标准数据模型将所述原始数据通过字段名称映射编排、字段单位换算编排和字段含义计算编排。
为进一步理解本实施例提供的数据标准化采集方法,以一个具体示例说明:第一:首先通过可视化拉动的方式建立接入任务,在左侧工具箱中选择数据源方式,以xx市的MRO数据为例,其省端数据源为FTP接口,接入数据源后,双击FTP可打开对话弹窗,设置具体数据源信息。比如FTP的服务器IP,端口号,FTP用户名、FTP密码、数据源目录,数据源文件名称,数据源采集周期等信息。系统接收到这些信息后就会根据设置的信息去拉去数据源中的数据。
第二:配置完数据源接入方式后,就配置decompress解压步骤,双击decompress方块同样弹出对话弹框,设置数据源的压缩方式,以北京市MRO数据为例,其压缩方式为zip压缩后再进行一次tar.gz压缩。配置好数据源压缩方式后,系统按这些信息进行数据源文件的解压工作。
第三:然后就是配置decode,双击decode就会出现如下弹框,左侧是数据源的标签字段,右侧是标准数据模型字段,整个映射编排过程是通过连线和拉取工具箱的工具完成的。字段名称大小写不统一,字段名称各自随意使用简称,字段单位不统一,字段含义不一致,字段顺序不一致等都可通过建立映射关系,和工具箱中的算子进行转换而得到解决。工具箱中的工具如下图所测列表所示,有四则运算,取模,求余,对字符串剪切等。以北京市MRO数据为例,其字段顺序做了以下调整,由于设备商未上报endbid和cellid两个字段,但上报了ecgi字段,endbid和cellid两个字段可通过ecgi字段求得,为了数据标准化,和其他省份保持一致,于是在接入北京市MRO数据时,对ecgi字段数据进行了适配处理,通过字段切割,取余取模等方式求得endbid和cellid两个字段的值,并按MRO标准模板上报入库入表到集群中去。
第四:最后一部则是将处理好的数据指定目的地,存放于指定的地方。以xx市MRO数据处理为例,其处理方式为存放于hdfs中,于是在最后拉取工具箱中的hdfs模块,进行添加,同样双击hdfs模块,填写相应IP、用户名、用户密码、端口、路径、表名等信息。
本实施例提供的一种数据标准化采集方法,在前述实施例的基础上进一步提供了标准数据模型和原始数据模型的构建过程,通过可视化操作界面的数据采集工具和数据标准化工具完成数据模型的构建,方便快捷,并且在底层信息变动时可以通过对数据采集工具的修改保证上层业务的统一性,稳定性好。
实施例三
图4为本发明实施例三提供的一种数据标准化采集系统300的结构示意图,如图4所述,该装置300包括:
采集配置模块310,用于获取根据用户的操作生成的数据采集配置,所述数据采集配置包括原始数据模型和标准数据模型;
数据获取模块320,用于根据所述原始数据模型从数据源获取原始数据;
数据转化模块330,用于根据所述标准数据模型将所述原始数据转换为标准数据并存储至预设目的地。
可选的,在一些实施例中,所述采集配置模块包括:
原始数据接入单元,用于根据用户基于可视化操作界面选择的数据采集工具确定数据接入方式;
数据解压单元,用于获取用户基于所述数据接入方式设置的数据解压方式,根据所述数据接入方式和数据解压方式确定原始数据模型;
标准数据转换单元,用于根据用户基于可视化操作界面确定的连接关系和数据标准化工具确定与原始数据模型对应的标准数据模型。
可选的,在一些实施例中,还包括:
模型配置模块,用于配置数据采集工具和数据标准化工具,所述数据采集工具用于模块化描述所述原始数据模型,所述数据标准化工具用于模块化描述所述标准数据模型。
可选的,在一些实施例中,所述根据所述原始数据模型从数据源获取原始数据,包括:
根据所述原始数据模型确定数据源接入信息;
根据数据源接入信息采集原始数据。
可选的,在一些实施例中,所述根据所述原始数据模型对应的所述标准数据模型将所述原始数据转换为标准数据包括:
根据所述原始数据模型对应的所述标准数据模型将所述原始数据通过字段名称映射编排、字段单位换算编排和字段含义计算编排。
可选的,在一些实施例中,所述数据源接入信息包括:
压缩方式、文件格式、结束方式、字段类型和字段名称。
本实施例提供了一种数据标准化采集系统,其通过可视化操作界面获取用户的操作,从而根据用户的操作确定用户输入的数据采集信息,以定义原始数据模型和对应的标准数据模型,根据原始数据模型描述的信息从数据源获取原始数据,再根据对应的标准数据模型将原始数据转化成标准数据并存储到预设目的地,该方法对原始数据源的数据进行了统一建模,这样无论哪个数据源提供的数据都可以通过统一的标准进行接入、拉取,无需单独拉取,并且以数据模型的形式进行数据转化可以广泛定义数据转化关系,大批量实现原始数据到标准数据的转化,便于实现集团的数据同采同用。
实施例四
图5为本发明实施例四提供的一种服务器400的结构示意图,如图5所示,该设备包括存储器410、处理器420,设备中处理器420的数量可以是一个或多个,图5中以一个处理器420为例;设备中的存储器410、处理器420可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器410作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据标准化采集方法对应的程序指令/模块(例如,数据标准化采集系统中的采集配置模块310、数据获取模块320、数据转化模块330)。处理器420通过运行存储在存储器410中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述的数据标准化采集方法。
其中,所述处理器420用于运行存储在存储器410中的计算机可执行程序,以实现如下步骤:步骤S110、获取根据用户的操作生成的数据采集配置,所述数据采集配置包括原始数据模型和标准数据模型;步骤S120、根据所述原始数据模型从数据源获取原始数据;步骤S130、根据所述标准数据模型将所述原始数据转换为标准数据并存储至预设目的地。
当然,本发明实施例所提供的一种服务器,该设备不限于如上所述的方法操作,还可以执行本发明实施例任意实施例所提供的数据标准化采集方法中的相关操作。
存储器410可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器410可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器410可进一步包括相对于处理器420远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本实施例提供了一种服务器,通过可视化操作界面获取用户的操作,从而根据用户的操作确定用户输入的数据采集信息,以定义原始数据模型和对应的标准数据模型,根据原始数据模型描述的信息从数据源获取原始数据,再根据对应的标准数据模型将原始数据转化成标准数据并存储到预设目的地,该方法对原始数据源的数据进行了统一建模,这样无论哪个数据源提供的数据都可以通过统一的标准进行接入、拉取,无需单独拉取,并且以数据模型的形式进行数据转化可以广泛定义数据转化关系,大批量实现原始数据到标准数据的转化,便于实现集团的数据同采同用。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种数据标准化采集方法,该数据标准化采集方法包括:
基于可视化操作界面获取用户输入的数据采集信息,所述数据采集信息包括原始数据模型和对应的标准数据模型;
根据所述原始数据模型从数据源获取原始数据;
根据所述原始数据模型对应的所述标准数据模型将所述原始数据转换为标准数据并存储至预设目的地。
通过以上关于实施方式的描述,所述领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台服务器(可以是个人计算机,设备,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述授权装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种数据标准化采集方法,其特征在于,包括:
基于可视化操作界面获取用户输入的数据采集信息,所述数据采集信息包括原始数据模型和对应的标准数据模型;
根据所述原始数据模型从数据源获取原始数据;
根据所述原始数据模型对应的所述标准数据模型将所述原始数据转换为标准数据并存储至预设目的地。
2.根据权利要求1所述的数据标准化采集方法,其特征在于,所述基于可视化操作界面获取用户输入的数据采集信息包括:
根据用户基于可视化操作界面选择的数据采集工具确定数据接入方式;
获取用户基于所述数据接入方式设置的数据解压方式,根据所述数据接入方式和数据解压方式确定原始数据模型;
根据用户基于可视化操作界面确定的连接关系和数据标准化工具确定与原始数据模型对应的标准数据模型。
3.根据权利要求1所述的数据标准化采集方法,其特征在于,所述获取根据用户的操作生成的数据采集配置之前,还包括:
配置数据采集工具和数据标准化工具,所述数据采集工具用于模块化描述所述原始数据模型,所述数据标准化工具用于模块化描述所述标准数据模型。
4.根据权利要求1所述的数据标准化采集方法,其特征在于,所述根据所述原始数据模型从数据源获取原始数据,包括:
根据所述原始数据模型确定数据源接入信息;
根据数据源接入信息采集原始数据。
5.根据权利要求4所述的数据标准化采集方法,其特征在于,所述根据所述原始数据模型对应的所述标准数据模型将所述原始数据转换为标准数据包括:
根据所述原始数据模型对应的所述标准数据模型将所述原始数据通过字段名称映射编排、字段单位换算编排和字段含义计算编排。
6.根据权利要求3所述的数据标准化采集方法,其特征在于,所述数据源接入信息包括:
压缩方式、文件格式、结束方式、字段类型和字段名称。
7.一种数据标准化采集系统,其特征在于,包括:
采集配置模块,用于获取根据用户的操作生成的数据采集配置,所述数据采集配置包括原始数据模型和标准数据模型;
数据获取模块,用于根据所述原始数据模型从数据源获取原始数据;
数据转化模块,用于根据所述标准数据模型将所述原始数据转换为标准数据并存储至预设目的地。
8.根据权利要求7所述的数据标准化采集系统,其特征在于,所述采集配置模块包括:
原始数据接入单元,用于根据用户基于可视化操作界面选择的数据采集工具确定数据接入方式;
数据解压单元,用于获取用户基于所述数据接入方式设置的数据解压方式,根据所述数据接入方式和数据解压方式确定原始数据模型;
标准数据转换单元,用于根据用户基于可视化操作界面确定的连接关系和数据标准化工具确定与原始数据模型对应的标准数据模型。
9.一种服务器,其特征在于,包括存储器和处理器,所述存储器上存储有可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6任意一项所述的数据标准化采集方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被执行时,实现如权利要求1-6任意一项所述的数据标准化采集方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110594968.1A CN113190608A (zh) | 2021-05-28 | 2021-05-28 | 数据标准化采集方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110594968.1A CN113190608A (zh) | 2021-05-28 | 2021-05-28 | 数据标准化采集方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113190608A true CN113190608A (zh) | 2021-07-30 |
Family
ID=76986339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110594968.1A Pending CN113190608A (zh) | 2021-05-28 | 2021-05-28 | 数据标准化采集方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113190608A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106296498A (zh) * | 2015-05-21 | 2017-01-04 | 中兴通讯股份有限公司 | 数据处理方法及装置 |
CN109299183A (zh) * | 2018-11-20 | 2019-02-01 | 北京锐安科技有限公司 | 一种数据处理方法、装置、终端设备和存储介质 |
CN109597801A (zh) * | 2018-11-14 | 2019-04-09 | 金色熊猫有限公司 | 医疗数据标准化管理方法及系统、电子设备、存储介质 |
CN110069478A (zh) * | 2017-12-01 | 2019-07-30 | 广州明领基因科技有限公司 | 面向医疗大数据的多源异构数据整合系统 |
CN111324648A (zh) * | 2020-01-21 | 2020-06-23 | 北京工业大数据创新中心有限公司 | 一种时序数据的处理方法及装置 |
CN111506640A (zh) * | 2020-04-21 | 2020-08-07 | 北京中电普华信息技术有限公司 | 映射方法及装置 |
CN111563068A (zh) * | 2020-05-18 | 2020-08-21 | 中建材信息技术股份有限公司 | 一种多源风控数据清洗处理方法 |
CN111782690A (zh) * | 2019-04-04 | 2020-10-16 | 上海晶赞融宣科技有限公司 | 多源异构数据的汇聚方法及装置、存储介质、终端 |
CN111936985A (zh) * | 2018-01-30 | 2020-11-13 | 恩卡普沙科技有限责任公司 | 一种用于封装和存储来自多个不同数据源的信息的方法和系统 |
CN111949692A (zh) * | 2020-07-30 | 2020-11-17 | 合肥森亿智能科技有限公司 | 基于dto的自定义指标配置方法、系统、设备和介质 |
CN112162980A (zh) * | 2020-11-26 | 2021-01-01 | 成都数联铭品科技有限公司 | 数据质量管控方法及系统、存储介质、电子设备 |
-
2021
- 2021-05-28 CN CN202110594968.1A patent/CN113190608A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106296498A (zh) * | 2015-05-21 | 2017-01-04 | 中兴通讯股份有限公司 | 数据处理方法及装置 |
CN110069478A (zh) * | 2017-12-01 | 2019-07-30 | 广州明领基因科技有限公司 | 面向医疗大数据的多源异构数据整合系统 |
CN111936985A (zh) * | 2018-01-30 | 2020-11-13 | 恩卡普沙科技有限责任公司 | 一种用于封装和存储来自多个不同数据源的信息的方法和系统 |
CN109597801A (zh) * | 2018-11-14 | 2019-04-09 | 金色熊猫有限公司 | 医疗数据标准化管理方法及系统、电子设备、存储介质 |
CN109299183A (zh) * | 2018-11-20 | 2019-02-01 | 北京锐安科技有限公司 | 一种数据处理方法、装置、终端设备和存储介质 |
CN111782690A (zh) * | 2019-04-04 | 2020-10-16 | 上海晶赞融宣科技有限公司 | 多源异构数据的汇聚方法及装置、存储介质、终端 |
CN111324648A (zh) * | 2020-01-21 | 2020-06-23 | 北京工业大数据创新中心有限公司 | 一种时序数据的处理方法及装置 |
CN111506640A (zh) * | 2020-04-21 | 2020-08-07 | 北京中电普华信息技术有限公司 | 映射方法及装置 |
CN111563068A (zh) * | 2020-05-18 | 2020-08-21 | 中建材信息技术股份有限公司 | 一种多源风控数据清洗处理方法 |
CN111949692A (zh) * | 2020-07-30 | 2020-11-17 | 合肥森亿智能科技有限公司 | 基于dto的自定义指标配置方法、系统、设备和介质 |
CN112162980A (zh) * | 2020-11-26 | 2021-01-01 | 成都数联铭品科技有限公司 | 数据质量管控方法及系统、存储介质、电子设备 |
Non-Patent Citations (1)
Title |
---|
赵炯等: "中国战略性新兴产业研究与发展", 机械工业出版社, pages: 34 - 35 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108718345A (zh) | 一种数字化车间工业数据网络化传输系统 | |
CN112565095B (zh) | 一种互联网专线自动发现分析方法及装置 | |
WO2021057198A1 (zh) | 基于大数据的跨域业务全程路由贯穿方法以及装置 | |
WO2022048668A1 (zh) | 知识图谱构建方法和装置、检查方法、存储介质 | |
CN108304522A (zh) | 一种数据库之间差异的比对方法、装置及终端设备 | |
CN106712992A (zh) | 一种云管理方法和系统 | |
CN112817958A (zh) | 电力规划数据采集方法、装置及智能终端 | |
US7844601B2 (en) | Quality of service feedback for technology-neutral data reporting | |
CN113347060A (zh) | 基于流程自动化的电力网络故障检测方法、装置和系统 | |
CN111125226B (zh) | 一种配置数据采集方法及装置 | |
CN113190608A (zh) | 数据标准化采集方法、装置、设备及存储介质 | |
CN115801589B (zh) | 一种事件拓扑关系确定方法、装置、设备及存储介质 | |
WO2023134285A1 (zh) | 风险管理方法和风险管理装置 | |
CN110019501A (zh) | 一种数据采集方法、装置及终端设备 | |
CN116860751A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN115604343A (zh) | 一种数据传输方法、系统、电子设备和存储介质 | |
CN112671567B (zh) | 一种基于服务化接口的5g核心网拓扑发现方法及装置 | |
CN109710487A (zh) | 一种监控方法和装置 | |
CN115765153A (zh) | 电力一次设备物联网与在线监测数据融合监测方法及系统 | |
CN115017047A (zh) | 基于b/s架构的测试方法、系统、设备及介质 | |
CN115022153A (zh) | 故障根因分析方法、装置、设备和存储介质 | |
CN104778253B (zh) | 一种提供数据的方法和装置 | |
CN113792008A (zh) | 网络拓扑结构的获取方法、装置、电子设备及存储介质 | |
CN112559616A (zh) | 一种数据大屏可视化组件的动态数据绑定方法及系统 | |
CN112436993B (zh) | 一种基于配置文件分析的vpn专线发现的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |