CN108153771A - 一种提高大数据队列处理效率的方法和系统 - Google Patents
一种提高大数据队列处理效率的方法和系统 Download PDFInfo
- Publication number
- CN108153771A CN108153771A CN201611104768.9A CN201611104768A CN108153771A CN 108153771 A CN108153771 A CN 108153771A CN 201611104768 A CN201611104768 A CN 201611104768A CN 108153771 A CN108153771 A CN 108153771A
- Authority
- CN
- China
- Prior art keywords
- data
- database
- library
- push
- queue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000003860 storage Methods 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 5
- 238000011161 development Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012358 sourcing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/214—Database migration support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种提高大数据队列处理效率的方法和系统,该方法包括:S101、数据保存于前端数据库;S102、监听所述前端数据库是否获得新数据,若否,则返回S102;S103、将所述新数据与原有数据进行比较,判断是否重复,若是则转向S102;S104、将原有数据从所述前端数据库转移至备份数据库;S105、将所述新数据进行推送,并对所述推送的数据进行计数,返回S102。本发明技术方案采用卡夫卡队列来建立数据库,对大数据进行高效的存储和提取,提高了数据库推送大数据的效率,简化了技术方案的复杂程度,节约了整体技术方案的成本,提高了数据库检索的综合效率,适应了互联网技术和市场快速发展的需求。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种提高大数据队列处理效率的方法和系统。
背景技术
互联网发展迅速,已成为人们生活的重要组成部分和人类文明传播发展的重要载体,渗透到经济、政治、文化、社会生活各个方面,改变着人们的交往方式和思维方式。无论是在工业领域或者是在社会生活领域,互联网给人的改变是巨大的。
互联网成为大量信息的载体,文字、图片、数据库、音频、视频多媒体等不同类型数据大量出现于网络,再加以各式各样的网页设计,人类进入了信息爆炸的时代。互联网信息呈现了数据巨大、内容广泛、形式多样、增长迅速的特点。截至2015年12月,中国网页数量为2123亿个,年增长11.8%;其中,静态网页数量为1314亿,占网页总数量的61.9%,动态网页数量为808亿,占网页总量的38.1%。随着个人博客、自媒体的发展,以及互联网媒体的快速发展,互联网页的数量将会以几何级速的增长。
作为互联网数据记录的核心,数据库的应用也渗透到社会的各个方面,得到广泛的发展和应用。数据库是按照一定的结构和规则组织起来的相关数据的集合,是从全局观点出发建立的,按一定的数据模型进行组织、描述和存储。其结构基于数据间的自然联系,从而可提供一切必要的存取路径,且数据不再针对某一应用,而是面向全组织,具有整体的结构化特征。
数据库用于数据的存储和处理,存储的是属于企业、事业部门、团体和个人的有关数据的集合,是一个单位或是一个应用领域的通用数据处理系统。数据库中的数据是为众多用户所共享其信息而建立的,已经摆脱了具体程序的限制和制约。不同的用户可以按各自的用法使用数据库中的数据;多个用户可以同时共享数据库中的数据资源,即不同的用户可以同时存取数据库中的同一个数据。数据共享性不仅满足了各用户对信息内容的要求,同时也满足了各用户之间信息通信的要求。
数据库是重要的电子资源,是适应互联网发展的信息技术,具有以下特点:
1)、数据的结构化数据库中的数据并不是杂乱无章、毫不相干的,它们具有一定的组织结构,属于同一集合的数据具有相似的特征。
2)、数据具共享性。在一个单位的各个部门之间,存在着大量的重复信息。使用数据库的目的就是要统一管理这些信息,减少冗余度,使各个部门共同享有相同的数据。
3)、数据的独立性。数据的独立性是指数据记录和数据管理软件之间的独立。数据及其结构应具有独立性,而不应该去改变应用程序。
4)、数据的完整性。数据的完整性是指保证数据库中数据的正确性。可能造成数据不正确的原因很多,数据库管理系统通过对数据性质进行检查而管理它们。
5)、数据的灵活性。数据库管理系统不是把数据简单堆积,它在记录数据信息的基础上具有很多的管理功能,如输入、输出、查询、编辑修改等。
6)、数据的安全性。根据用户的职责,不同级别的人对数据库具有不同的权限,数据库管理系统能够确保数据的安全性。
随着数据库技术的广泛应用,数据的推送和使用量越来越大。大批量数据存在数据量大、重复、无规律的特点,对数据的推送造成了困难。现有的大数据推送是从数据库中提取数据,提取方式主要取决于数据库的存储结构,由数据库的内置函数来完成数据的推送,无法有效支持一次性提取大批量的数据,造成大数据推送的效率低下。而且,提取数据存在重复的现象,会产生大数据频繁输入输出的现象,造成了资源的浪费。
发明内容
本发明提供一种提高大数据队列处理效率的方法和系统,采用卡夫卡队列来建立数据库,对大数据进行高效的存储和提取,提高了数据库推送大数据的效率,简化了技术方案的复杂程度,节约了整体技术方案的成本,提高了数据库检索的综合效率,适应了互联网技术和市场快速发展的需求。
本发明的技术方案提供了一种提高大数据队列处理效率的方法,包括以下步骤:
S101、数据保存于前端数据库;
S102、监听所述前端数据库是否获得新数据,若否,则返回S102;
S103、将所述新数据与原有数据进行比较,判断是否重复,若是则转向S102;
S104、将原有数据从所述前端数据库转移至备份数据库;
S105、将所述新数据进行推送,并对所述推送的数据进行计数,返回S102。
进一步的,基于卡夫卡队列建立所述前端数据库和备份数据库。
进一步的,数据以队列的形式进行存储。
进一步的,在步骤S104中,所述原有数据从所述前端数据库转移至备份数据库后,所述前端数据库仅保留所述新数据。
进一步的,在步骤S105中,根据所述计数来判断所述新数据是否全部推送完成。
本发明的技术方案还提供了一种提高大数据队列处理效率的系统,包括管理单元、前端数据库、备份数据库和应用端,其中:
管理单元用于比较数据、判断数据是否重复,以及管理数据的转移存储;
前端数据库用于存储和更新数据,推送数据并对推送进行计数;
备份数据库用于存储和更新数据;
应用端用于接收数据。
进一步的,基于卡夫卡队列建立所述前端数据库和备份数据库。
进一步的,所述管理单元将新数据保存于所述前端数据库,将原有数据转移存储于所述备份数据库。
进一步的,所述前端数据库根据所述计数来判断是否完成数据的推送。
本发明技术方案采用卡夫卡队列来建立数据库,对大数据进行高效的存储和提取,提高了数据库推送大数据的效率,简化了技术方案的复杂程度,节约了整体技术方案的成本,提高了数据库检索的综合效率,适应了互联网技术和市场快速发展的需求。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例一中提高大数据队列处理效率的方法流程图;
图2为本发明实施例一中提高大数据队列处理效率的系统结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明实施例一中提高大数据队列处理效率的方法流程图。如图1所示,该流程包括以下步骤:
步骤S101、数据保存于前端数据库。
基于卡夫卡队列建立前端数据库。
在前端数据库中,数据以队列的形式进行存储。
步骤S102、监听前端数据库是否获得新数据,若否,则返回S102。
步骤S103、将新数据与原有数据进行比较,判断是否重复,若是则转向S102。
步骤S104、将原有数据从前端数据库转移至备份数据库。
基于卡夫卡队列建立备份数据库。
在备份数据库中,数据以队列的形式进行存储。
原有数据从前端数据库转移至备份数据库后,前端数据库仅保留新数据。
步骤S105、将新数据进行推送,并对推送的数据进行计数,返回S102。
根据计数来判断新数据是否全部推送完成。
为了实现上述方法流程,本实施例还提供了一种提高大数据队列处理效率的系统,图2为本发明实施例一中提高大数据队列处理效率的系统结构图。如图2所示,该系统包括管理单元201、前端数据库202、备份数据库203、应用端204,其中:
管理单元用于比较数据、判断数据是否重复,以及管理数据的转移存储;
前端数据库用于存储和更新数据,推送数据并对推送进行计数;
备份数据库用于存储和更新数据;
应用端用于接收数据;
基于卡夫卡队列建立前端数据库和备份数据库。
管理单元将新数据保存于前端数据库,将原有数据转移存储于备份数据库。
前端数据库根据所述计数来判断是否完成数据的推送。
本发明技术方案采用卡夫卡队列来建立数据库,对大数据进行高效的存储和提取,提高了数据库推送大数据的效率,简化了技术方案的复杂程度,节约了整体技术方案的成本,提高了数据库检索的综合效率,适应了互联网技术和市场快速发展的需求。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软w件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种提高大数据队列处理效率的方法,其特征在于,包括以下步骤:
S101、数据保存于前端数据库;
S102、监听所述前端数据库是否获得新数据,若否,则返回S102;
S103、将所述新数据与原有数据进行比较,判断是否重复,若是则转向S102;
S104、将原有数据从所述前端数据库转移至备份数据库;
S105、将所述新数据进行推送,并对所述推送的数据进行计数,返回S102。
2.根据权利要求1所述的方法,其特征在于,基于卡夫卡队列建立所述前端数据库和备份数据库。
3.根据权利要求1或2所述的方法,其特征在于,数据以队列的形式进行存储。
4.根据权利要求1所述的方法,其特征在于,在步骤S104中,所述原有数据从所述前端数据库转移至备份数据库后,所述前端数据库仅保留所述新数据。
5.根据权利要求1所述的方法,其特征在于,在步骤S105中,根据所述计数来判断所述新数据是否全部推送完成。
6.一种提高大数据队列处理效率的系统,其特征在于,包括管理单元、前端数据库、备份数据库和应用端,其中:
管理单元用于比较数据、判断数据是否重复,以及管理数据的转移存储;
前端数据库用于存储和更新数据,推送数据并对推送进行计数;
备份数据库用于存储和更新数据;
应用端用于接收数据。
7.根据权利要求6所述的系统,其特征在于,基于卡夫卡队列建立所述前端数据库和备份数据库。
8.根据权利要求6所述的系统,其特征在于,所述管理单元将新数据保存于所述前端数据库,将原有数据转移存储于所述备份数据库。
9.根据权利要求6所述的系统,其特征在于,所述前端数据库根据所述计数来判断是否完成数据的推送。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611104768.9A CN108153771A (zh) | 2016-12-05 | 2016-12-05 | 一种提高大数据队列处理效率的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611104768.9A CN108153771A (zh) | 2016-12-05 | 2016-12-05 | 一种提高大数据队列处理效率的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108153771A true CN108153771A (zh) | 2018-06-12 |
Family
ID=62470732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611104768.9A Pending CN108153771A (zh) | 2016-12-05 | 2016-12-05 | 一种提高大数据队列处理效率的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108153771A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049556A (zh) * | 2012-12-28 | 2013-04-17 | 中国科学院深圳先进技术研究院 | 一种海量医疗数据的快速统计查询方法 |
US20140095439A1 (en) * | 2012-10-01 | 2014-04-03 | Western Digital Technologies, Inc. | Optimizing data block size for deduplication |
CN103914522A (zh) * | 2014-03-20 | 2014-07-09 | 电子科技大学 | 一种应用于云存储重复数据删除的数据块合并方法 |
CN104902010A (zh) * | 2015-04-30 | 2015-09-09 | 浙江工商大学 | 一种云端存储文件的方法和系统 |
CN105511812A (zh) * | 2015-12-10 | 2016-04-20 | 浪潮(北京)电子信息产业有限公司 | 一种存储系统大数据优化方法及装置 |
-
2016
- 2016-12-05 CN CN201611104768.9A patent/CN108153771A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140095439A1 (en) * | 2012-10-01 | 2014-04-03 | Western Digital Technologies, Inc. | Optimizing data block size for deduplication |
CN103049556A (zh) * | 2012-12-28 | 2013-04-17 | 中国科学院深圳先进技术研究院 | 一种海量医疗数据的快速统计查询方法 |
CN103914522A (zh) * | 2014-03-20 | 2014-07-09 | 电子科技大学 | 一种应用于云存储重复数据删除的数据块合并方法 |
CN104902010A (zh) * | 2015-04-30 | 2015-09-09 | 浙江工商大学 | 一种云端存储文件的方法和系统 |
CN105511812A (zh) * | 2015-12-10 | 2016-04-20 | 浪潮(北京)电子信息产业有限公司 | 一种存储系统大数据优化方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103167172B (zh) | 将多种聊天记录整合的方法和系统 | |
CN103136243B (zh) | 基于云存储的文件系统去重方法及装置 | |
CN104731896B (zh) | 一种数据处理方法及系统 | |
CN102750317B (zh) | 数据持久化处理方法、装置及数据库系统 | |
CN105900093B (zh) | 一种KeyValue数据库的数据表的更新方法与表数据更新装置 | |
Hurd et al. | On Watts’ cascade model with random link weights | |
CN102915278A (zh) | 重复数据删除方法 | |
CN102982130A (zh) | 一种nosql与rdbms的数据库同步方法和系统 | |
CN103699557B (zh) | 报表处理方法及系统 | |
EP2965492B1 (en) | Selection of data storage settings for an application | |
CN108038018A (zh) | 可扩展的日志数据存储方法及装置 | |
CN104408041B (zh) | 一种gps数据的保存方法 | |
CN105843554B (zh) | 基于对象存储的数据迁移的方法及其系统 | |
CN106462933A (zh) | 使用内容结构来社交地连接用户 | |
CN109460406A (zh) | 一种数据处理方法及装置 | |
CN105574737A (zh) | 用于生成和维护兑换码的数据处理系统及方法 | |
CN107463588A (zh) | 数据提交判重方法 | |
CN109684517A (zh) | 一种历史数据存储方法、读写方法、存储装置和设备 | |
CN110020196A (zh) | 一种基于不同数据源的用户分析方法和装置及计算设备 | |
CN104657216A (zh) | 一种资源池的资源分配方法及装置 | |
CN107590077A (zh) | 一种Spark负载访存行为追踪方法及装置 | |
CN108153771A (zh) | 一种提高大数据队列处理效率的方法和系统 | |
Winata et al. | Enhancing internal parallelism of solid‐state drives while balancing write loads across dies | |
CN109766313A (zh) | 地质项目数据处理方法、装置及计算机设备 | |
CN104850548A (zh) | 一种实现大数据平台输入/输出处理的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20221024 Address after: Room 1602, 16th Floor, Building 18, Yard 6, Wenhuayuan West Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing 100176 Applicant after: Beijing Lajin Zhongbo Technology Co.,Ltd. Address before: 100007 Room 806, Building 2, No. 28, Andingmen East Street, Dongcheng District, Beijing Applicant before: Tvmining (BEIJING) Technology Co., Ltd. |
|
TA01 | Transfer of patent application right | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180612 |
|
WD01 | Invention patent application deemed withdrawn after publication |