CN109684393A - 数据采集方法、计算机可读存储介质及终端设备 - Google Patents
数据采集方法、计算机可读存储介质及终端设备 Download PDFInfo
- Publication number
- CN109684393A CN109684393A CN201811510407.3A CN201811510407A CN109684393A CN 109684393 A CN109684393 A CN 109684393A CN 201811510407 A CN201811510407 A CN 201811510407A CN 109684393 A CN109684393 A CN 109684393A
- Authority
- CN
- China
- Prior art keywords
- data
- attribute
- warehouse
- preset
- dirty
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000006243 chemical reaction Methods 0.000 claims abstract description 23
- 238000013499 data model Methods 0.000 claims abstract description 12
- 238000004590 computer program Methods 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003754 machining Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Abstract
本发明提供了一种数据采集方法、计算机可读存储介质及终端设备,包括:根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。通过对不同数据源的数据进行抽取得到的结构化、半结构化和非结构化的数据进行处理,解决了现有的数据采集方法通用性差的问题。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种数据采集方法、计算机可读存储介质及终端设备。
背景技术
随着信息社会需求的发展,为适应日趋激烈的市场竞争环境,提升企业的竞争力,各大企业都运用信息管理系统建立起大规模的数据仓库,充分利用企业的数据仓库能够全面的了解和掌握企业的经营情况,准确的分析和制定企业的发展方向,有效的控制和降低企业的运营成本,产生大量宝贵数据资源,实现对信息的智能化加工和处理。
建立数据仓库需要对数据进行采集,现有的数据技术只针对特定的企业或项目,通用性较差。
发明内容
有鉴于此,本发明实施例提供了一种数据采集方法、计算机可读存储介质及终端设备,以解决现有数据采集方法通用性差的问题。
本发明实施例的第一方面提供了一种数据采集方法,包括:
根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;
针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;
针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;
将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。
本发明实施例的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;
针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;
针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;
将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;
针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;
针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;
将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。
本发明提供了一种数据采集方法、计算机可读存储介质及终端设备,包括:根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。通过对不同数据源的数据进行抽取得到的结构化、半结构化和非结构化的数据进行处理,解决了现有的数据采集方法通用性差的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据采集方法的流程示意图;
图2为本发明实施例提供的一种数据采集装置的结构框图;
图3为本发明实施例提供的一种数据采集终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
本发明实施例提供了一种数据采集方法。结合图1,该方法包括:
S101,根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取。
具体的,在本发明实施例中,所述多个数据源不仅包括关系数据库,还包括不同网络、不同操作系统、不同数据库以及不同的应用。所述抽取到的数据不仅包含结构化数据,还包含半结构化数据和非结构化数据。对于半结构化数据和非结构化数据,提供如下数据抽取方法:
若所述数据为半结构化的数据,则采用混合表示法对所述数据及所述数据所对应的数据模式进行建模,通过基于内容以及结构框架的方法对所述数据进行抽取。具体的,所述建模包括一套预设的概念层次和知识框架。
若所述数据为非结构化的数据,则采用模糊匹配的方法识别所述数据所在表格中的直线行上的字段,对所述数据进行抽取。
进一步的,对于采用手写汉字文件的这类非结构化数据,本发明实施例采用基于引力的算法,识别并抽取手写汉字所在表格中的汉字。
S102,针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据。
数据转换就是处理抽取上来的数据中存在的不一致的过程,对数据的转化(数据的合并、汇总、过滤、转换等)、数据的重新格式化和计算、关键数据的重新构建和数据汇总、数据定位的过程。
数据转换包括两类:一类是数据名称及格式的统一,即数据粒度转换、商务规则计算以及统一的命名、数据格式、计量单位等;另一类,数据仓库中存在数据库中可能不存在的数据,因此需要进行字段的组合、分割或计算。
具体的,在本发明实施例中,数据转换包括:
获取所述预设格式所对应的多个属性;针对所述多个属性中的任一属性,在所述数据中获取所述属性所对应的属性值;将所述属性所对应的属性值添加至所述属性在所述数据格式中所对应的位置,将所述数据转换为所述预设格式的数据。
S103,针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据。
具体的,在本发明实施例中,将脏数据分为两类,一类为不完整的数据,一类为错误数据,并分别为每一类脏数据提供一种数据清洗方法。
对于不完整的数据,通过检测预设的不为空的属性值是否为空、NULL或N/A,若所述预设的不为空的属性值为空、NULL或N/A中的任一项,则判断所述数据为不完整的数据;
对于错误数据,通过建立所述数据所在的关系表与预设主数据或预设知识库之间的映射关系,判断所述数据是否为错误数据。
若所述数据所在的关系表不满足于预设主数据或预设知识库之间的映射关系,则判断该数据为错误数据。
S104,将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。
具体的,在本发明实施例中,将数据装载问题分为三类进行解决:
第一类,若所述数据与目标数据仓库处于同一系统中,则将所述数据及所述数据对应的元数据存储至所述目标数据仓库的数据表中;
第二类,若所述数据存储在临时存储空间中,则通过异构系统进行接口载入,将所述数据装载至所述目标数据仓库的数据表中;
第三类。若所述数据为对所述目标数据仓库中已有数据的更新,则通过所述数据所对应的元数据所定义的数据规则和格式对所述数据进行复核,并通过所述数据对所述目标数据仓库的数据表中的所述已有数据进行更新。
本发明提供了一种数据采集方法,包括:根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。通过对不同数据源的数据进行抽取得到的结构化、半结构化和非结构化的数据进行处理,解决了现有的数据采集方法通用性差的问题。
图2为本发明实施例提供的一种数据采集装置示意图,结合图2,该装置包括:该装置包括:数据抽取单元21,数据转换单元22,数据清洗单元23和数据装载单元24;
所述数据抽取单元21,用于根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;
所述数据转换单元22,用于针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;
所述数据清洗单元23,用于针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;
所述数据装载单元24,用于将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。
可选的,所述数据抽取单元21用于:
若所述数据为半结构化的数据,则采用混合表示法对所述数据及所述数据所对应的数据模式进行建模,通过基于内容以及结构框架的方法对所述数据进行抽取;
若所述数据为非结构化的数据,则采用模糊匹配的方法识别所述数据所在表格中的直线行上的字段,对所述数据进行抽取。
可选的,所述数据转换单元22用于:
获取所述预设格式所对应的多个属性;
针对所述多个属性中的任一属性,在所述数据中获取所述属性所对应的属性值;
将所述属性所对应的属性值添加至所述属性在所述数据格式中所对应的位置,将所述数据转换为所述预设格式的数据。
可选的,所述数据清洗单元23用于:
通过检测预设的不为空的属性值是否为空、NULL或N/A,若所述预设的不为空的属性值为空、NULL或N/A中的任一项,则判断所述数据为不完整的数据;
通过建立所述数据所在的关系表与预设主数据或预设知识库之间的映射关系,判断所述数据是否为错误数据。
可选的,所述数据装载单元24用于:
若所述数据与目标数据仓库处于同一系统中,则将所述数据及所述数据对应的元数据存储至所述目标数据仓库的数据表中;
若所述数据存储在临时存储空间中,则通过异构系统进行接口载入,将所述数据装载至所述目标数据仓库的数据表中;
若所述数据为对所述目标数据仓库中已有数据的更新,则通过所述数据所对应的元数据所定义的数据规则和格式对所述数据进行复核,并通过所述数据对所述目标数据仓库的数据表中的所述已有数据进行更新。
本发明提供了一种数据采集装置,该装置根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。该装置通过对不同数据源的数据进行抽取得到的结构化、半结构化和非结构化的数据进行处理,解决了现有的数据采集方法通用性差的问题。
图3为本发明实施例提供的一种终端设备的示意图。如图3所示,该实施例的终端设备3包括:处理器30、存储器31以及存储在所述存储器31中并可在所述处理器30上运行的计算机程序32,例如数据采集程序。所述处理器30执行所述计算机程序32时实现上述各个数据采集方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器30执行所述计算机程序32时实现上述各装置实施例中各模块/单元的功能,例如图2所示模块21至24的功能。
示例性的,所述计算机程序32可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述处理器30执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序32在所述终端设备3中的执行过程。
所述终端设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器30、存储器31。本领域技术人员可以理解,图3仅仅是终端设备3的示例,并不构成对终端设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器30可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器31可以是所述终端设备3的内部存储单元,例如终端设备3的硬盘或内存。所述存储器31也可以是所述终端设备3的外部存储设备,例如所述终端设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器31还可以既包括所述终端设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述数据采集方法的步骤。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据采集方法,其特征在于,该方法包括:
根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;
针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;
针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;
将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。
2.根据权利要求1所述的数据采集方法,其特征在于,所述进行数据抽取包括:
若所述数据为半结构化的数据,则采用混合表示法对所述数据及所述数据所对应的数据模式进行建模,通过基于内容以及结构框架的方法对所述数据进行抽取;
若所述数据为非结构化的数据,则采用模糊匹配的方法识别所述数据所在表格中的直线行上的字段,对所述数据进行抽取。
3.根据权利要求1所述的数据采集方法,其特征在于,所述将所述数据进行数据转换包括:
获取所述预设格式所对应的多个属性;
针对所述多个属性中的任一属性,在所述数据中获取所述属性所对应的属性值;
将所述属性所对应的属性值添加至所述属性在所述数据格式中所对应的位置,将所述数据转换为所述预设格式的数据。
4.根据权利要求1所述的数据采集方法,其特征在于,所述判断所述数据是否为脏数据包括:
通过检测预设的不为空的属性值是否为空、NULL或N/A,若所述预设的不为空的属性值为空、NULL或N/A中的任一项,则判断所述数据为不完整的数据;
通过建立所述数据所在的关系表与预设主数据或预设知识库之间的映射关系,判断所述数据是否为错误数据。
5.根据权利要求1所述的数据采集方法,其特征在于,所述将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中包括:
若所述数据与目标数据仓库处于同一系统中,则将所述数据及所述数据对应的元数据存储至所述目标数据仓库的数据表中;
若所述数据存储在临时存储空间中,则通过异构系统进行接口载入,将所述数据装载至所述目标数据仓库的数据表中;
若所述数据为对所述目标数据仓库中已有数据的更新,则通过所述数据所对应的元数据所定义的数据规则和格式对所述数据进行复核,并通过所述数据对所述目标数据仓库的数据表中的所述已有数据进行更新。
6.一种数据采集装置,其特征在于,该装置包括:数据抽取单元,数据转换单元,数据清洗单元和数据装载单元;
所述数据抽取单元,用于根据预设需求确定多个数据源,依次调用所述多个数据源中每个数据源的接口,进行数据抽取;
所述数据转换单元,用于针对抽取到的任一条数据,将所述数据进行数据转换,得到预设格式的数据;
所述数据清洗单元,用于针对任一条所述预设格式的数据,判断所述数据是否为脏数据,所述数据为脏数据包括所述数据为不完整的数据或所述数据为错误数据;
所述数据装载单元,用于将清洗干净的数据集按照预设物理数据模型定义的表机构装载至目标数据仓库的数据表中。
7.根据权利要求6所述的数据采集装置,其特征在于,所述数据抽取单元用于:
若所述数据为半结构化的数据,则采用混合表示法对所述数据及所述数据所对应的数据模式进行建模,通过基于内容以及结构框架的方法对所述数据进行抽取;
若所述数据为非结构化的数据,则采用模糊匹配的方法识别所述数据所在表格中的直线行上的字段,对所述数据进行抽取。
8.根据权利要求6所述的数据采集装置,其特征在于,所述数据转换单元用于:
获取所述预设格式所对应的多个属性;
针对所述多个属性中的任一属性,在所述数据中获取所述属性所对应的属性值;
将所述属性所对应的属性值添加至所述属性在所述数据格式中所对应的位置,将所述数据转换为所述预设格式的数据。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
10.一种终端设备,其特征在于,所述终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811510407.3A CN109684393A (zh) | 2018-12-11 | 2018-12-11 | 数据采集方法、计算机可读存储介质及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811510407.3A CN109684393A (zh) | 2018-12-11 | 2018-12-11 | 数据采集方法、计算机可读存储介质及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109684393A true CN109684393A (zh) | 2019-04-26 |
Family
ID=66187496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811510407.3A Pending CN109684393A (zh) | 2018-12-11 | 2018-12-11 | 数据采集方法、计算机可读存储介质及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109684393A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694824A (zh) * | 2020-05-25 | 2020-09-22 | 智强通达科技(北京)有限公司 | 一种油料数据链映射清洗的方法 |
CN111897827A (zh) * | 2020-07-06 | 2020-11-06 | 苏宁金融科技(南京)有限公司 | 用于数据仓库的数据更新方法、系统及电子设备 |
CN112035551A (zh) * | 2020-09-01 | 2020-12-04 | 平安资产管理有限责任公司 | 时间序列数据转换方法、系统、计算机设备和存储介质 |
CN112667871A (zh) * | 2020-12-30 | 2021-04-16 | 新奥数能科技有限公司 | 数据标识方法、装置、计算机可读存储介质及电子设备 |
CN113934789A (zh) * | 2021-11-25 | 2022-01-14 | 中国电子科技集团公司第十三研究所 | 基于电子元器件的数据仓库构建方法及系统 |
CN114610809A (zh) * | 2022-03-18 | 2022-06-10 | 南方电网科学研究院有限责任公司 | 电网数据结构化处理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699796A (zh) * | 2015-03-18 | 2015-06-10 | 浪潮集团有限公司 | 一种基于数据仓库的数据清洗方法 |
CN105930523A (zh) * | 2016-05-25 | 2016-09-07 | 中国科学院新疆理化技术研究所 | 大数据背景下基于动态可配置规则的数据清洗框架 |
CN108182963A (zh) * | 2017-12-14 | 2018-06-19 | 山东浪潮云服务信息科技有限公司 | 一种医疗数据处理方法及装置 |
CN108182233A (zh) * | 2017-12-27 | 2018-06-19 | 苏州麦迪斯顿医疗科技股份有限公司 | 一种分布式数据抽取方法、装置、计算机设备及存储介质 |
CN108399226A (zh) * | 2018-02-12 | 2018-08-14 | 安徽千云度信息技术有限公司 | 一种用于数字图书馆的大数据清洗方法 |
-
2018
- 2018-12-11 CN CN201811510407.3A patent/CN109684393A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699796A (zh) * | 2015-03-18 | 2015-06-10 | 浪潮集团有限公司 | 一种基于数据仓库的数据清洗方法 |
CN105930523A (zh) * | 2016-05-25 | 2016-09-07 | 中国科学院新疆理化技术研究所 | 大数据背景下基于动态可配置规则的数据清洗框架 |
CN108182963A (zh) * | 2017-12-14 | 2018-06-19 | 山东浪潮云服务信息科技有限公司 | 一种医疗数据处理方法及装置 |
CN108182233A (zh) * | 2017-12-27 | 2018-06-19 | 苏州麦迪斯顿医疗科技股份有限公司 | 一种分布式数据抽取方法、装置、计算机设备及存储介质 |
CN108399226A (zh) * | 2018-02-12 | 2018-08-14 | 安徽千云度信息技术有限公司 | 一种用于数字图书馆的大数据清洗方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694824A (zh) * | 2020-05-25 | 2020-09-22 | 智强通达科技(北京)有限公司 | 一种油料数据链映射清洗的方法 |
CN111897827A (zh) * | 2020-07-06 | 2020-11-06 | 苏宁金融科技(南京)有限公司 | 用于数据仓库的数据更新方法、系统及电子设备 |
CN112035551A (zh) * | 2020-09-01 | 2020-12-04 | 平安资产管理有限责任公司 | 时间序列数据转换方法、系统、计算机设备和存储介质 |
CN112667871A (zh) * | 2020-12-30 | 2021-04-16 | 新奥数能科技有限公司 | 数据标识方法、装置、计算机可读存储介质及电子设备 |
CN113934789A (zh) * | 2021-11-25 | 2022-01-14 | 中国电子科技集团公司第十三研究所 | 基于电子元器件的数据仓库构建方法及系统 |
CN113934789B (zh) * | 2021-11-25 | 2024-05-31 | 中国电子科技集团公司第十三研究所 | 基于电子元器件的数据仓库构建方法及系统 |
CN114610809A (zh) * | 2022-03-18 | 2022-06-10 | 南方电网科学研究院有限责任公司 | 电网数据结构化处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684393A (zh) | 数据采集方法、计算机可读存储介质及终端设备 | |
US11030166B2 (en) | Smart data transition to cloud | |
Kim et al. | Dualsim: Parallel subgraph enumeration in a massive graph on a single machine | |
Antoniol et al. | Design pattern recovery in object-oriented software | |
TWI412945B (zh) | 擷取以及保存來自或存至關聯資料庫之各物件的方法及系統 | |
CN112527774A (zh) | 数据中台搭建方法、系统及存储介质 | |
EP3470992B1 (en) | Efficient storage and utilization of a hierarchical data set | |
CN111627552A (zh) | 一种医疗流式数据血缘关系分析、存储方法及装置 | |
CN109684082A (zh) | 基于规则算法的数据清洗方法及系统 | |
CN108052542B (zh) | 一种基于presto的数据的多维数据的分析方法 | |
CN114691658A (zh) | 一种数据回溯方法、装置、电子设备及存储介质 | |
Sartipi et al. | A user‐assisted approach to component clustering | |
Khoussainova et al. | Probabilistic rfid data management | |
CN113434542A (zh) | 数据关系识别方法、装置、电子设备及存储介质 | |
EP3657351B1 (en) | Smart data transition to cloud | |
CN110781430B (zh) | 互联网新型虚拟数据中心系统及其构造方法 | |
Semenov et al. | Effective consistency management for large-scale product data | |
CN114385145A (zh) | 一种Web系统后端架构设计方法及计算机设备 | |
Mukherjee et al. | Data mining-based hierarchical transaction model for multi-level consistency management in large-scale replicated databases | |
CN114637752A (zh) | 一种连接查询语句处理方法、装置、设备及存储介质 | |
CN114020852A (zh) | 知识图谱的展示方法和装置 | |
CN113868138A (zh) | 测试数据的获取方法、系统、设备及存储介质 | |
CN113360496A (zh) | 一种构建元数据标签库的方法及装置 | |
CN106844242B (zh) | 一种数据交换方法和系统 | |
CN110968566A (zh) | 基于迁移工具的国产化应用系统迁移方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190426 |