CN111858566A - 一种实时数据抽取应用方法 - Google Patents
一种实时数据抽取应用方法 Download PDFInfo
- Publication number
- CN111858566A CN111858566A CN202010542572.8A CN202010542572A CN111858566A CN 111858566 A CN111858566 A CN 111858566A CN 202010542572 A CN202010542572 A CN 202010542572A CN 111858566 A CN111858566 A CN 111858566A
- Authority
- CN
- China
- Prior art keywords
- data
- real
- data table
- time
- temporary intermediate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种实时数据抽取应用方法,属于数据处理技术领域。本发明的技术方案是:(1)从基础数据表中抽取符合用户应用要求的目标时间范围和指定字段的基础数据,存储到一个临时中间数据表中;剔除不合理范围数据;对合理范围数据根据客户要求作逻辑处理并存储到指定目标数据表中,为上层客户应用程序提供有效实绩数据。本发明的有益效果是:能够在从存储大量实时数据的数据表中读取有效数据的同时又不影响实时数据的读取进行的数据处理方法,来满足大数据分析所需实时数据有效性、安全性。
Description
技术领域
本发明涉及一种实时数据抽取应用方法,属于数据处理技术领域。
背景技术
随着工业大数据的不断发展,工厂内实时生产数据逐步被收集、存储和应用。对于生产中的实时数据的存储须要耗费大量的存储资源、同时耗费大量系统资源,因此在实时数据进行存储时对其进行实时抽取和应用不仅会影响数据的抽取速度还也会影响到实时数据的读取过程,严重的将会导致实时数据读取失败、抽取和应用到无效的数据,从而导致上层应用无法得到数据保证。
发明内容
本发明目的是提供一种实时数据抽取应用方法,通过对实时数据定期抽取、清洗处理,能够得到用户需要的有效实时数据,为更上层应用系统提供基础数据,上层应用系统可以根据应用需要分类存储、整合这些基础数据,以满足需要,能够在从存储大量实时数据的数据表中读取有效数据的同时又不影响实时数据的读取进行的数据处理方法,来满足大数据分析所需实时数据有效性、安全性,有效地解决了背景技术中存在的上述问题。
本发明的技术方案是:一种实时数据抽取应用方法,包含以下步骤:(1)从实时变化的基础数据表中,抽取符合用户应用要求的目标时间范围和指定字段的基础数据,存储到一个临时中间数据表中;(2)对存储到临时中间数据表中的基础数据进行合理性范围判断,剔除不合理范围数据;(3)对合理范围数据根据客户要求作逻辑处理并存储到指定目标数据表中,为上层客户应用程序提供有效实绩数据。
所述步骤(1)中,首先创建临时中间数据表,临时中间数据表的表结构与用户指定要求的目标数据表的表结构保持一致;根据用户应用要求的目标时间范围和指定字段查询实时基础数据表,并将查询结果按照一定的顺序写入创建的临时中间数据表中。
所述步骤(2)和步骤(3)中,对临时中间数据表可以做修改和删除处理。
在所述步骤(3)完成后,对临时中间数据表进行删除表处理。
本发明的有益效果是:通过对实时数据定期抽取、清洗处理,能够得到用户需要的有效实时数据,为更上层应用系统提供基础数据,上层应用系统可以根据应用需要分类存储、整合这些基础数据,以满足需要,能够在从存储大量实时数据的数据表中读取有效数据的同时又不影响实时数据的读取进行的数据处理方法,来满足大数据分析所需实时数据有效性、安全性。
附图说明
图1是本发明的工作流程图;
图2是本发明的具体实施方式中对应的数据流向的说明图。
具体实施方式
为了使发明实施案例的目的、技术方案和优点更加清楚,下面将结合实施案例中的附图,对本发明实施案例中的技术方案进行清晰的、完整的描述,显然,所表述的实施案例是本发明一小部分实施案例,而不是全部的实施案例,基于本发明中的实施案例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施案例,都属于本发明保护范围。
一种实时数据抽取应用方法,包含以下步骤:(1)从数据量很大且实时变化的基础数据表中,抽取符合用户应用要求的目标时间范围和指定字段的基础数据,存储到一个临时中间数据表中;(2)对存储到临时中间数据表中的基础数据进行合理性范围判断,剔除不合理范围数据;(3)对合理范围数据根据客户要求作逻辑处理并存储到指定目标数据表中,为上层客户应用程序提供有效实绩数据。
所述步骤(1)中,首先创建临时中间数据表,临时中间数据表的表结构与用户指定要求的目标数据表的表结构保持一致;根据用户应用要求的目标时间范围和指定字段查询实时基础数据表,并将查询结果按照一定的顺序写入创建的临时中间数据表中。
所述步骤(2)和步骤(3)中,对临时中间数据表可以做修改和删除处理。
在所述步骤(3)完成后,对临时中间数据表进行删除表处理。
如图1,本发明实施方式提供的一种实时数据抽取应用方法可以包括:S101,从数据量很大且实时变化的基础数据表中,抽取符合用户应用要求的目标时间范围和指定字段的基础实时数据,存储到一个临时中间数据表中;以及S102对存储到临时中间数据表中的基础数据进行合理范围判断,剔除不合理范围数据;以及S103对合理范围数据根据客户要求作逻辑处理并存储到指定目标数据表。通过上述的方法,能够对大量基础实时数据进行筛选滤除处理,得到真实有效实时数据记录。
通过上述方法,在需要从大量基础实时数据抽取数据进行应用时可以抽取到满足要求的有效实时数据,并能够极大地缩短数据处理时间、减少对基础实时数据表的影响。
如图2,本发明实施方式中的数据流向:从S201基础实时数据表查询抽取用户需要时间范围内和指定字段的基础实时数据,存储到S202临时中间数据表中,再通过S203编程实现对临时中间数据表中数据进行合理范围判断,剔除不合理范围数据的清洗,对合理范围内数据根据用户要求做逻辑处理,最后将符合要求的有效数据存储到S204用户指定的目标数据表中,完成实时数据的抽取处理过程。通过上述方法,将大量基础实时数据分时分段处理,避免了直接对大量基础实时数据进行查询、抽取、运算等处理而导致到新记录的插入及应用程序的执行等。
通过上述实施方式,通过对实时数据的清洗处理,保证了存储和上传的数据的有效性,为实时数据的上层应用提供了保障。
下面结合一个示例性实施方式进一步说明。
在一个示例实施方式中上述的数据抽取方法可以包括:基于用户指定的目标数据表创建一个相同表结构的临时中间数据表;然后基于用户需求的最小时间段和指定的字段从基础实时数据表中查询数据;存储查询数据结果集到临时中间数据表中。
根据上述操作完成本发明所述第一部分内容。
在上述示例实施方式中,本发明中的下一个内容清洗方法,可以包括:基于用户对于指定实时数据的上下限范围以外数据的剔除;构造基于一段时间内数据变化的评估模型,找出异常数据进行剔除;允许的范围内将数据分段做平均降噪处理等。
上述数据清洗方法可以根据用户对数据精度的要求,进行选择,通过调用程序或数据库内便捷存储过程来实现。此方法在此不做具体说明。
经过上述的对实时数据的抽取方法得到的基础实时数据在经过上述一种清洗方法进行处理,得到的满足用户要求的合理的数据,存储到用户指定的目标数据表中。
完成上述指定数据的存储后,将上述根据指定目标数据表的表结构创建的临时中间表删除,以减少系统资源的占用。
通过以上的方法,能够得到用户需要的有效实时数据,为更上层应用系统提供基础数据,上层应用系统可以根据应用需要分类存储、整合这些基础数据,以满足需要。
Claims (5)
1.一种实时数据抽取应用方法,其特征在于包含以下步骤:(1)从实时变化的基础数据表中,抽取符合用户应用要求的目标时间范围和指定字段的基础数据,存储到一个临时中间数据表中;(2)对存储到临时中间数据表中的基础数据进行合理性范围判断;(3)对合理范围数据根据客户要求作逻辑处理并存储到指定目标数据表中,为上层客户应用程序提供有效实绩数据。
2.根据权利要求1所述的一种实时数据抽取应用方法,其特征在于:所述步骤(1)中,首先创建临时中间数据表,临时中间数据表的表结构与用户指定要求的目标数据表的表结构保持一致;根据用户应用要求的目标时间范围和指定字段查询实时基础数据表,并将查询结果写入创建的临时中间数据表中。
3.根据权利要求1所述的一种实时数据抽取应用方法,其特征在于:所述步骤(2)中,对临时中间数据表中的数据记录进行轮循,根据用户的不同要求通过对数据计算,剔除不合理范围内的无效数据。
4.根据权利要求1所述的一种实时数据抽取应用方法,其特征在于:所述步骤(2)和步骤(3)中,对临时中间数据表可以做修改和删除处理。
5.根据权利要求1所述的一种实时数据抽取应用方法,其特征在于:在所述步骤(3)完成后,对临时中间数据表进行删除表处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010542572.8A CN111858566A (zh) | 2020-06-15 | 2020-06-15 | 一种实时数据抽取应用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010542572.8A CN111858566A (zh) | 2020-06-15 | 2020-06-15 | 一种实时数据抽取应用方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111858566A true CN111858566A (zh) | 2020-10-30 |
Family
ID=72986607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010542572.8A Pending CN111858566A (zh) | 2020-06-15 | 2020-06-15 | 一种实时数据抽取应用方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858566A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113568903A (zh) * | 2021-06-25 | 2021-10-29 | 邯郸钢铁集团有限责任公司 | 一种实时plc变量抽取应用方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229721A (zh) * | 2017-06-02 | 2017-10-03 | 泰华智慧产业集团股份有限公司 | 一种变更数据抽取的方法及装置 |
CN109977110A (zh) * | 2019-04-28 | 2019-07-05 | 杭州数梦工场科技有限公司 | 数据清洗方法、装置及设备 |
CN110674163A (zh) * | 2019-08-26 | 2020-01-10 | 天津浪淘科技股份有限公司 | 一种基于bs构架的异构数据查询系统及其方法 |
CN110888774A (zh) * | 2019-11-07 | 2020-03-17 | 中盈优创资讯科技有限公司 | 基于hbase的大数据报表处理方法及装置 |
-
2020
- 2020-06-15 CN CN202010542572.8A patent/CN111858566A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229721A (zh) * | 2017-06-02 | 2017-10-03 | 泰华智慧产业集团股份有限公司 | 一种变更数据抽取的方法及装置 |
CN109977110A (zh) * | 2019-04-28 | 2019-07-05 | 杭州数梦工场科技有限公司 | 数据清洗方法、装置及设备 |
CN110674163A (zh) * | 2019-08-26 | 2020-01-10 | 天津浪淘科技股份有限公司 | 一种基于bs构架的异构数据查询系统及其方法 |
CN110888774A (zh) * | 2019-11-07 | 2020-03-17 | 中盈优创资讯科技有限公司 | 基于hbase的大数据报表处理方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113568903A (zh) * | 2021-06-25 | 2021-10-29 | 邯郸钢铁集团有限责任公司 | 一种实时plc变量抽取应用方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019218B (zh) | 数据存储与查询方法及设备 | |
CN109344262B (zh) | 知识体系的建立方法、装置及存储介质 | |
CN105447184A (zh) | 信息抓取方法及装置 | |
CN103092867A (zh) | 一种数据管理方法及系统、数据分析装置 | |
CN107391502A (zh) | 时间间隔的数据查询方法、装置及索引构建方法、装置 | |
CN111858566A (zh) | 一种实时数据抽取应用方法 | |
CN111241059A (zh) | 一种基于数据库的数据库优化方法及装置 | |
CN106934023A (zh) | 一种数据管理方法及装置 | |
CN105512188A (zh) | 数据连接方法和数据连接系统 | |
CN114430353A (zh) | 一种基于Modbus协议的数据采集方法、系统、装置及介质 | |
CN109669975A (zh) | 一种工业大数据处理系统及方法 | |
CN101676900A (zh) | 提高目标数据准确性的数据清洗方法及清洗系统 | |
CN110633301A (zh) | 一种基于引擎设置抽取数据的方法及系统 | |
CN107463555A (zh) | 删除中间层数据的方法、系统和装置 | |
CN113568903A (zh) | 一种实时plc变量抽取应用方法 | |
CN113590599B (zh) | 基于多元复杂数据环境的数据检查方法 | |
CN117034197A (zh) | 基于多维Isolate-Detect多变点检测的企业用电典型模式分析方法 | |
CN111080325A (zh) | 一种民航客户关系关系分析系统及方法 | |
CN115563292A (zh) | 一种危险废物名录知识图谱的建立方法及构建装置 | |
CN115809265A (zh) | 一种基于机器人流程自动化的风险客户筛查方法及装置 | |
CN109325036A (zh) | 一种实现实时数据同步的系统及方法 | |
CN111242147B (zh) | 一种亲密联系人和频繁活跃区域识别的方法及装置 | |
CN114676127A (zh) | 一种服务器业务的分析方法、装置、介质及电子设备 | |
CN112507213A (zh) | 一种基于行为大数据分析的推荐优化的系统方案的方法 | |
CN109189743B (zh) | 一种面向大流量实时图数据的低资源消耗的超级节点识别过滤方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201030 |