CN110765166A - 一种管理数据的方法、设备及介质 - Google Patents
一种管理数据的方法、设备及介质 Download PDFInfo
- Publication number
- CN110765166A CN110765166A CN201911010661.1A CN201911010661A CN110765166A CN 110765166 A CN110765166 A CN 110765166A CN 201911010661 A CN201911010661 A CN 201911010661A CN 110765166 A CN110765166 A CN 110765166A
- Authority
- CN
- China
- Prior art keywords
- data
- acquired
- real
- collected
- judging whether
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000003860 storage Methods 0.000 claims abstract description 34
- 230000004044 response Effects 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims abstract description 7
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract description 3
- 230000006872 improvement Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 11
- 238000007726 management method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000013523 data management Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013068 supply chain management Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/548—Queue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种管理数据的方法,包括以下步骤:基于数据源的类型和数据检测规则配置模板库;响应于接收到数据采集任务,基于数据采集任务在模板库中匹配对应的数据源并建立连接;判断待采集的数据是否为实时数据;响应于待采集的数据为实时数据,将数据转换成消息;基于消息从对应的数据源采集数据并基于模板库的规则判断采集到的数据是否满足要求;以及响应于采集到的数据不能满足要求,对采集到的数据进行修复。本发明还公开了一种计算机设备和可读存储介质。本发明提出的管理数据的方法、设备及介质通过可配置模板库,实现自动减少冗余、提升数据质量和降低存储占用,有利于企业开展数据分析和应用。
Description
技术领域
本发明涉及信息化技术领域,更具体地,特别是指一种管理数据的方法、设备及可读介质。
背景技术
随着新型互联网技术和大数据技术的广泛应用,企业信息化发展更加重视数据资产的管理。企业要进行信息化建设首要任务就是建立自己的数据管理系统,而数据管理系统的建设涉及对企业各业务系统数据进行汇聚整合。企业日常生产经营过程中,一般涉及多源异构的业务系统,包括:人力资源系统(HR)、财务管理系统(FM)、企业资源管理系统(ERP)、产品生命周期管理系统(PLM)、产品数据管理系统(PDM)、供应链管理系统(SCM)、客户关系管理系统(CRM)、制造执行系统(MES)等。由于管理的数据对象不同,这些系统的类型、存储格式、数据通讯协议差异较大。例如,他们分别管理了结构化、半结构化、非结构化的异构数据,同时按照时间维度还管理了历史数据和实时数据。在整合以上多源异构业务系统过程中,即便含有较强关联关系的业务系统之间,由于其业务系统来自不同厂商,数据结构不能有效匹配和挂接,导致数据“硬聚合”,从而造成大量冗余、缺失和错误等数据质量问题。更为严重的后果是,数据质量问题加大了企业开展数据应用的难度。若要减少不同业务系统之间的“硬聚合”,由于缺少成熟工具,就需要投入较大的人力,进行手动逐一排查和分析,这样一来就会造成海量人力成本的产生。因此,企业急需一种能够自动化实现各业务系统数据有机融合、降低冗余、提升数据质量的数据管理系统。
发明内容
有鉴于此,本发明实施例的目的在于提出一种管理数据的方法、设备及介质,通过可配置模板库,实现自动减少冗余、提升数据质量和降低存储占用,有利于企业开展数据分析和应用。
基于上述目的,本发明实施例的一方面提供了一种管理数据的方法,包括如下步骤:基于数据源的类型和数据检测规则配置模板库;响应于接收到数据采集任务,基于所述数据采集任务在所述模板库中匹配对应的数据源并建立连接;判断待采集的数据是否为实时数据;响应于所述待采集的数据为实时数据,将数据转换成消息;基于所述消息从所述对应的数据源采集数据并基于所述模板库的所述规则判断采集到的数据是否满足要求;以及响应于采集到的数据不能满足要求,对所述采集到的数据进行修复。
在一些实施方式中,还包括:基于数据的结构配置数据结构知识库;以及响应于所述待采集的数据为非实时数据,基于所述待采集的数据的结构在所述数据结构知识库中匹配对应的数据结构,并根据匹配后的数据结构对数据进行采集。
在一些实施方式中,还包括:判断数据的采集比是否超过阈值;以及响应于数据的采集比未超过阈值,调整数据结构知识库和/或匹配关系。
在一些实施方式中,所述将数据转换成消息包括:将预定条数的数据转换成一条消息,将多条消息按照顺序写入消息队列中以供采集。
在一些实施方式中,所述对所述采集到的数据进行修复包括:对所述采集到的数据进行冗余清除和/或缺失填补和/或错误修正。
本发明实施例的另一方面,还提供了一种计算机设备,包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行以实现如下步骤:基于数据源的类型和数据检测规则配置模板库;响应于接收到数据采集任务,基于所述数据采集任务在所述模板库中匹配对应的数据源并建立连接;判断待采集的数据是否为实时数据;响应于所述待采集的数据为实时数据,将数据转换成消息;基于所述消息从所述对应的数据源采集数据并基于所述模板库的所述规则判断采集到的数据是否满足要求;以及响应于采集到的数据不能满足要求,对所述采集到的数据进行修复。
在一些实施方式中,步骤还包括:基于数据的结构配置数据结构知识库;以及响应于所述待采集的数据为非实时数据,基于所述待采集的数据的结构在所述数据结构知识库中匹配对应的数据结构,并根据匹配后的数据结构对数据进行采集。
在一些实施方式中,步骤还包括:判断数据的采集比是否超过阈值;以及响应于数据的采集比未超过阈值,调整数据结构知识库和/或匹配关系。
在一些实施方式中,所述将数据转换成消息包括:将预定条数的数据转换成一条消息,将多条消息按照顺序写入消息队列中以供采集。
本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
本发明具有以下有益技术效果:可配置模板库,实现自动减少冗余、提升数据质量和降低存储占用,有利于企业开展数据分析和应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明提供的管理数据的方法的实施例的示意图;
图2为本发明提供的管理数据的方法的实施例的流程图;
图3为本发明提供的管理数据的方法的实施例的硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种管理数据的方法的实施例。图1示出的是本发明提供的管理数据的方法的实施例的示意图。如图1所示,本发明实施例包括如下步骤:
S1、基于数据源的类型和数据检测规则配置模板库;
S2、响应于接收到数据采集任务,基于数据采集任务在模板库中匹配对应的数据源并建立连接;
S3、判断待采集的数据是否为实时数据;
S4、响应于待采集的数据为实时数据,将数据转换成消息;
S5、基于消息从对应的数据源采集数据并基于模板库的规则判断采集到的数据是否满足要求;以及
S6、响应于采集到的数据不能满足要求,对采集到的数据进行修复。
基于数据源的类型配置模板库。可以利用数据源综合管理技术,搭建可配置模板库。数据源综合管理包括管理数据源的位置(例如数据库的IP、网页的url、文件的FTP地址)、元数据实现数据源各对象的结构描述、侦测数据源及内部结构变化后对使用者的影响、数据源通讯协议的管理以及数据源提供的数据接口的管理(例如webservice服务接口、api接口方式、数据库存储过程)等。
不同的系统中数据源的管理的方式可能不尽相同。在获取、采集企业业务系统数据时,通常可以按照以下五种数据采集方式,进行数据源的管理:(1)关系型数据库二次开发接口;(2)基于ETL的关系型数据库直连;(3)基于ETL的结构化文件采集;(4)基于SCADA/PLC时序数据库;(5)基于爬虫技术的互联网数据获取。上述每种数据采集方式涉及到不同的数据源类型,经过开发配置,可以形成各自的模板,汇聚成为动态的可配置模板库。当出现新的数据采集方式进行数据源的管理,可以在模板库中创建新的模板。
响应于接收数据采集任务,基于所述数据采集任务在所述模板库中匹配对应的数据源并建立连接。数据采集任务下达时,可从可配置模板库匹配对应的数据源,并与该数据源建立连接以便后续进行数据采集。
判断待采集的数据是否为实时数据。对于实时数据和非实时数据的采集方式不同,因此,为了确定数据采集的方式可以预先判断待采集的数据是否为实时数据。
响应于待采集的数据为实时数据,将数据转换成消息进行采集。实时数据可以包括生产数据,由于不同工况数据如温度、振动、压力等存在较大差异的产生频率(毫秒-小时),现有设备往往是以轮询的方式进行数据采集,每隔固定的时间进行采集,这样会导致大量设备数据丢失;另一方面,设备工况数据产生速度较快时,传统数据接口难以实时采集,在数据存储时长较短情况下就会造成数据丢失。因此,基于消息队列进行任务分发的模式将解决高频时序数据的采集问题,做到数据不丢失、实时存储,实现高采集比的数据采集。
在一些实施方式中,所述将数据转换成消息包括:将预定条数的数据转换成一条消息,将多条消息按照顺序写入消息队列中以供采集。例如,可以将十条数据转换成一条消息,然后将所有的消息按照一定的顺序排列,基于此,就可以按照顺序采集所有的数据,由于消息不易于丢失,这样就避免了数据丢失的问题。
在一些实施方式中,还包括:基于数据的结构配置数据结构知识库;以及响应于所述待采集的数据为非实时数据,基于所述待采集的数据的结构在所述数据结构知识库中匹配对应的数据结构,并根据匹配后的数据结构对数据进行采集。由于国内外不同厂商众多系统存在差异,例如厂商1和厂商2,其财务系统数据库表结构和字段数不尽相同,厂商1系统适用的采集工具和配置,并不能适用于厂商2,这样就无法实现数据的全采集。因此首先要建立被采数据的数据结构知识库,实现对相应业务系统数据结构的自适应匹配,并根据匹配后的数据结构实现高采集比的数据采集。
在一些实施方式中,还包括:判断数据的采集比是否超过阈值;以及响应于数据的采集比未超过阈值,调整数据结构知识库和/或匹配关系。采集比是指实际采集到的数据与所有数据的比值,可以预先设置采集比的阈值,例如98%,如果数据的采集比没有超过98%,就需要调整数据结构知识库和/或匹配关系。
从数据源采集数据并基于模板库判断采集到的数据是否满足要求,响应于采集到的数据不能满足要求,对采集到的数据进行修复。
基于模板库判断采集到的数据是否满足要求包括对数据的质量进行检查。质量检查包括准确性、一致性和完整性检查。准确性检查包括值长度、值域以及数目的检查规则,一致性检查包括格式规范、重复数据、类型以及主键的检查规则,完整性检查包括对空值以及关联性的检查规则。具体规则如下:
在一些实施方式中,所述对所述采集到的数据进行修复包括:对所述采集到的数据进行冗余清除和/或缺失填补和/或错误修正。
在对数据进行质量检查的基础上,通过临界相似度规则结合少量人工干预进行字段筛选,相比传统方法,可实现重复数据的智能冗余清除;然后通过主数据模糊匹配规则,可以实现数据的缺失填补和错误修正。
处理空缺值的规则包括忽略该记录、去掉属性、手工填写空缺值、使用默认值、使用属性平均值、使用同类样本平均值、预测最可能的值。冗余数据的处理规则包括利用分箱、聚类、计算机和人工检查结合、回归等方法。分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。
本发明实施例采用搭建一种可配置模板库的方法,对常见厂商数据库数据结构进行识别,采用实体语义识别和机器学习进行数据冗余清洗和数据质量治理,并积累到模板库。最终该模板库可针对企业常见业务系统数据进行自动元数据识别和冗余清洗,显著提升数据质量,明显降低存储占用。
图2示出的是本发明提供的管理数据的方法的实施例的流程图。如图2所示,从框101开始,接着前进到框102,基于数据源的类型配置模板库;接着前进到框103,基于数据采集任务在模板库中匹配对应的数据源并建立连接;接着前进到框104,判断待采集的数据是否为实时数据,如果是,前进到框106,将数据转换成消息进行采集,如果否,前进到框105,基于待采集的数据的结构在数据结构知识库中匹配对应的数据结构,并根据匹配后的数据结构对数据进行采集;在采集了数据之后,前进到框107,判断采集到的数据是否满足要求,如果是,直接结束,如果否,前进到框108,对采集到的数据进行修复,然后前进到框109结束。
需要特别指出的是,上述管理数据的方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于管理数据的方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种计算机设备,包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行以实现如下步骤:S1、基于数据源的类型和数据检测规则配置模板库;S2、响应于接收到数据采集任务,基于数据采集任务在模板库中匹配对应的数据源并建立连接;S3、判断待采集的数据是否为实时数据;S4、响应于待采集的数据为实时数据,将数据转换成消息;S5、基于消息从对应的数据源采集数据并基于模板库的规则判断采集到的数据是否满足要求;以及S6、响应于采集到的数据不能满足要求,对采集到的数据进行修复。
在一些实施方式中,还包括:基于数据的结构配置数据结构知识库;以及响应于所述待采集的数据为非实时数据,基于所述待采集的数据的结构在所述数据结构知识库中匹配对应的数据结构,并根据匹配后的数据结构对数据进行采集。
在一些实施方式中,还包括:判断数据的采集比是否超过阈值;以及响应于数据的采集比未超过阈值,调整数据结构知识库和/或匹配关系。
在一些实施方式中,所述将数据转换成消息包括:将预定条数的数据转换成一条消息,将多条消息按照顺序写入消息队列中以供采集。
在一些实施方式中,所述对所述采集到的数据进行修复包括:对所述采集到的数据进行冗余清除和/或缺失填补和/或错误修正。
如图3所示,为本发明提供的上述管理数据的方法的一个实施例的硬件结构示意图。
以如图3所示的装置为例,在该装置中包括一个处理器301以及一个存储器302,并还可以包括:输入装置303和输出装置304。
处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的管理数据的方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的管理数据的方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据管理数据的方法的使用所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置303可接收输入的用户名和密码等信息。输出装置304可包括显示屏等显示设备。
一个或者多个管理数据的方法对应的程序指令/模块存储在存储器302中,当被处理器301执行时,执行上述任意方法实施例中的管理数据的方法。
执行上述管理数据的方法的计算机设备的任何一个实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时执行如上方法的计算机程序。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,管理数据的方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (10)
1.一种管理数据的方法,其特征在于,包括以下步骤:
基于数据源的类型和数据检测规则配置模板库;
响应于接收到数据采集任务,基于所述数据采集任务在所述模板库中匹配对应的数据源并建立连接;
判断待采集的数据是否为实时数据;
响应于所述待采集的数据为实时数据,将数据转换成消息;
基于所述消息从所述对应的数据源采集数据并基于所述模板库的所述规则判断采集到的数据是否满足要求;以及
响应于采集到的数据不能满足要求,对所述采集到的数据进行修复。
2.根据权利要求1所述的方法,其特征在于,还包括:
基于数据的结构配置数据结构知识库;以及
响应于所述待采集的数据为非实时数据,基于所述待采集的数据的结构在所述数据结构知识库中匹配对应的数据结构,并根据匹配后的数据结构对数据进行采集。
3.根据权利要求2所述的方法,其特征在于,还包括:
判断数据的采集比是否超过阈值;以及
响应于数据的采集比未超过阈值,调整数据结构知识库和/或匹配关系。
4.根据权利要求1所述的方法,其特征在于,所述将数据转换成消息包括:
将预定条数的数据转换成一条消息,将多条消息按照顺序写入消息队列中以供采集。
5.根据权利要求1所述的方法,其特征在于,所述对所述采集到的数据进行修复包括:
对所述采集到的数据进行冗余清除和/或缺失填补和/或错误修正。
6.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现以下步骤:
基于数据源的类型和数据检测规则配置模板库;
响应于接收到数据采集任务,基于所述数据采集任务在所述模板库中匹配对应的数据源并建立连接;
判断待采集的数据是否为实时数据;
响应于所述待采集的数据为实时数据,将数据转换成消息;
基于所述消息从所述对应的数据源采集数据并基于所述模板库的所述规则判断采集到的数据是否满足要求;以及
响应于采集到的数据不能满足要求,对所述采集到的数据进行修复。
7.根据权利要求6所述的计算机设备,其特征在于,步骤还包括:
基于数据的结构配置数据结构知识库;以及
响应于所述待采集的数据为非实时数据,基于所述待采集的数据的结构在所述数据结构知识库中匹配对应的数据结构,并根据匹配后的数据结构对数据进行采集。
8.根据权利要求7所述的计算机设备,其特征在于,步骤还包括:
判断数据的采集比是否超过阈值;以及
响应于数据的采集比未超过阈值,调整数据结构知识库和/或匹配关系。
9.根据权利要求6所述的计算机设备,其特征在于,所述将数据转换成消息包括:
将预定条数的数据转换成一条消息,将多条消息按照顺序写入消息队列中以供采集。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911010661.1A CN110765166A (zh) | 2019-10-23 | 2019-10-23 | 一种管理数据的方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911010661.1A CN110765166A (zh) | 2019-10-23 | 2019-10-23 | 一种管理数据的方法、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110765166A true CN110765166A (zh) | 2020-02-07 |
Family
ID=69332911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911010661.1A Pending CN110765166A (zh) | 2019-10-23 | 2019-10-23 | 一种管理数据的方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765166A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559505A (zh) * | 2020-12-21 | 2021-03-26 | 深圳市航天泰瑞捷电子有限公司 | 一种实时数据补采装置、方法、计算机设备及储存介质 |
CN116010463A (zh) * | 2023-01-10 | 2023-04-25 | 上海意臣信息科技有限公司 | 一种基于大数据技术的供应链控制塔 |
US11687853B2 (en) | 2020-09-14 | 2023-06-27 | Data Systems Consulting Co., Ltd. | Electronic device for detecting business system and detection method thereof |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017050176A1 (zh) * | 2015-09-25 | 2017-03-30 | 阿里巴巴集团控股有限公司 | 一种数据同步方法和装置 |
CN106815338A (zh) * | 2016-12-25 | 2017-06-09 | 北京中海投资管理有限公司 | 一种大数据的实时存储、处理和查询系统 |
CN107193858A (zh) * | 2017-03-28 | 2017-09-22 | 福州金瑞迪软件技术有限公司 | 面向多源异构数据融合的智能服务应用平台和方法 |
CN108133007A (zh) * | 2017-12-22 | 2018-06-08 | 北京明朝万达科技股份有限公司 | 一种数据同步方法和系统 |
CN109657167A (zh) * | 2018-11-29 | 2019-04-19 | 彩讯科技股份有限公司 | 数据采集方法、装置、服务器及存储介质 |
CN109684416A (zh) * | 2018-11-13 | 2019-04-26 | 国电南京自动化股份有限公司 | 一种高并发实时历史数据存储系统 |
-
2019
- 2019-10-23 CN CN201911010661.1A patent/CN110765166A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017050176A1 (zh) * | 2015-09-25 | 2017-03-30 | 阿里巴巴集团控股有限公司 | 一种数据同步方法和装置 |
CN106815338A (zh) * | 2016-12-25 | 2017-06-09 | 北京中海投资管理有限公司 | 一种大数据的实时存储、处理和查询系统 |
CN107193858A (zh) * | 2017-03-28 | 2017-09-22 | 福州金瑞迪软件技术有限公司 | 面向多源异构数据融合的智能服务应用平台和方法 |
CN108133007A (zh) * | 2017-12-22 | 2018-06-08 | 北京明朝万达科技股份有限公司 | 一种数据同步方法和系统 |
CN109684416A (zh) * | 2018-11-13 | 2019-04-26 | 国电南京自动化股份有限公司 | 一种高并发实时历史数据存储系统 |
CN109657167A (zh) * | 2018-11-29 | 2019-04-19 | 彩讯科技股份有限公司 | 数据采集方法、装置、服务器及存储介质 |
Non-Patent Citations (1)
Title |
---|
朱朝阳 等: "电力大数据平台研究与设计", 《电力信息与通信技术》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11687853B2 (en) | 2020-09-14 | 2023-06-27 | Data Systems Consulting Co., Ltd. | Electronic device for detecting business system and detection method thereof |
CN112559505A (zh) * | 2020-12-21 | 2021-03-26 | 深圳市航天泰瑞捷电子有限公司 | 一种实时数据补采装置、方法、计算机设备及储存介质 |
CN116010463A (zh) * | 2023-01-10 | 2023-04-25 | 上海意臣信息科技有限公司 | 一种基于大数据技术的供应链控制塔 |
CN116010463B (zh) * | 2023-01-10 | 2023-07-21 | 上海意臣信息科技有限公司 | 一种基于大数据技术的供应链控制塔 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765166A (zh) | 一种管理数据的方法、设备及介质 | |
CN112016828B (zh) | 基于流式大数据的工业设备健康管理云平台架构 | |
CN111400288A (zh) | 数据质量检查方法及系统 | |
CN107944036B (zh) | 一种图谱变化差异的获取方法 | |
CN112817958A (zh) | 电力规划数据采集方法、装置及智能终端 | |
CN112148733A (zh) | 确定故障类型的方法、装置、电子装置和计算机可读介质 | |
CN114880405A (zh) | 一种基于数据湖的数据处理方法及系统 | |
CN114581210A (zh) | 一种基于rpa的企业财务的数字化管理方法及系统 | |
CN116303385A (zh) | 一种数据稽核方法、装置、电子设备及存储介质 | |
CN117009837A (zh) | 一种基于多域数据的自动智能稽核系统及方法 | |
CN116719799A (zh) | 环保数据治理方法、装置、计算机设备和存储介质 | |
CN116629805A (zh) | 一种分布式流批一体化的水利指标服务方法、设备及介质 | |
CN111913937B (zh) | 数据库运维方法和装置 | |
CN116664021B (zh) | 一种基于移动端的工厂检查辅助决策系统及方法 | |
CN105824279A (zh) | 机房监控系统构建灵活有效cmdb的方法 | |
CN109063050A (zh) | 一种数据库日志分析预警方法与装置 | |
CN111291246A (zh) | 一种大数据快速分析系统 | |
WO2023178767A1 (zh) | 基于企业征信大数据知识图谱的企业风险检测方法和装置 | |
CN116027754A (zh) | 一种基于主动标识载体的生产设备运维方法、设备及介质 | |
CN115422195A (zh) | 一种网络资产管理方法、装置、设备、存储介质 | |
Atencio et al. | An ontology for project-based organization design: the star model case | |
CN101771566A (zh) | 网管间性能数据的传输方法、装置及系统 | |
CN118035060B (zh) | 一种动态生成埋点标准基础数据模型的方法 | |
WO2024021603A1 (zh) | 故障处理方法、设备和存储介质 | |
CN107436928A (zh) | 变电站工程的量价通流方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200207 |
|
RJ01 | Rejection of invention patent application after publication |