CN110069525A - 一种加速搜索数据库信息的方案 - Google Patents
一种加速搜索数据库信息的方案 Download PDFInfo
- Publication number
- CN110069525A CN110069525A CN201810947341.8A CN201810947341A CN110069525A CN 110069525 A CN110069525 A CN 110069525A CN 201810947341 A CN201810947341 A CN 201810947341A CN 110069525 A CN110069525 A CN 110069525A
- Authority
- CN
- China
- Prior art keywords
- time
- data item
- database
- scheme
- database information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种加速搜索数据库信息的方案,采用了分时间段扫描,每次记录最后一个扫描到的时间戳最大的值,并且保存到数据库中,确保下一次扫描时,从该时间戳开始。每次使用数据库检索以后,都先查询一下检索出来数据项的个数,如果超过一定阈值如3000个,就使用二叉树的算法进行减少搜索范围,通过多次使用二叉树的算法,确保每次搜索出来的数据项个数小于该设置的阈值3000个。进而确保每次处理的数据个数不会很大,确保数据可以按时扫描到,而不是某个账号,某个容器单独占据整个系统资源。
Description
技术领域
本发明涉及应用软件的一种数据库检索解决方案,具体是一种加速搜索数据库信息的方案。
背景技术
在云平台系统中,网关模块和归档模块的无缝衔接。网关模块的主要功能是实现对象存储,归档模块的主要功能是实现蓝光备份。对数据文件进行蓝光备份的前提是:把满足一定规则的文件扫描记录到归档系统。设定的规则是:对于文件创建时间超过规定时间(命名这个时间为标记时间)进行归档。比如一个文件是1天以前创建,标记时间是1天,文件创建超过1天以后就应该要被归档系统扫描到,并且准备进行蓝光备份工作。
要让整个系统具有实用价值,必须解决以下几个问题:
1.支持大量数据库信息的查找。
2.能满足大量文件同时创建这种情况的处理。
3.查找到的数据信息不能重复。
4.尽量降低对于网关模块和归档模块的压力。
发明内容
本发明的目的在于提供一种加速搜索数据库信息的方案,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种加速搜索数据库信息的方案,其具体方法步骤如下:
(1)采用了分时间段扫描,每次记录最后一个扫描到的时间戳最大的值,并且保存到数据库中,确保下一次扫描时,从该时间戳开始;
(2)每次使用数据库检索以后,都先查询一下检索出来数据项的个数,如果超过一定阈值如3000个,就使用二叉树的算法进行减少搜索范围,通过多次使用二叉树的算法,确保每次搜索出来的数据项个数小于该设置的阈值3000个;
(3)确保每次处理的数据个数不会很大,确保数据可以按时扫描到,而不是某个账号,某个容器单独占据整个系统资源。
作为本发明进一步的方案:所述步骤(2)中的数据项在数据库中是有保存创建时间,并且创建时间是一个索引,这样才能够实现快速查找。
作为本发明进一步的方案:所述步骤(1)中的数据库里面记录2个值:markTime和scanTime,markTime是标记时间,意思就是文件创建多久以后才可以进行扫描,scanTime是扫描到的数据项中,创建时间最大的值,当把所有的数据项按照创建时间进行排序,从小排到大,scanTime就是最后一个数据项的创建时间。
作为本发明进一步的方案:所述scanTime-markTime这个时间段的范围能够通过自动调节,达到最终从数据库中搜索出数目不大的数据项,然后自动拷贝数据库信息,实现不同的两个软件模块之间的信息通信。
作为本发明进一步的方案:所述步骤(2)中设定的阀值3000能够根据软件实际运行的效果进行调整,且同时依据数据库内信息的存储量进行调整。
与现有技术相比,本发明的有益效果是:够先使用分时间段搜索,然后在大量数据的情况下,使用多次二叉树缩短时间段,减小处理的数据量,确保所有账号,所有账号下的容器都可以平均使用到系统资源,不会因为大量数据处于单一账号,单一容器,导致其他账户和容器饿死,快速有效地实现数据库扫描,实现两个模块之间数据库内容的拷贝复制,避免产生系统性能瓶颈。
附图说明
图1是本发明使用方法流程图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,一种加速搜索数据库信息的方案,其具体方法步骤如下:
(1)采用了分时间段扫描,每次记录最后一个扫描到的时间戳最大的值,并且保存到数据库中,确保下一次扫描时,从该时间戳开始,数据库里面记录2个值:markTime和scanTime,markTime是标记时间,意思就是文件创建多久以后才可以进行扫描,scanTime是扫描到的数据项中,创建时间最大的值,当把所有的数据项按照创建时间进行排序,从小排到大,scanTime就是最后一个数据项的创建时间,scanTime-markTime这个时间段的范围能够通过自动调节,达到最终从数据库中搜索出数目不大的数据项,然后自动拷贝数据库信息,实现不同的两个软件模块之间的信息通信。
(2)每次使用数据库检索以后,都先查询一下检索出来数据项的个数,如果超过一定阈值如3000个,就使用二叉树的算法进行减少搜索范围,通过多次使用二叉树的算法,确保每次搜索出来的数据项个数小于该设置的阈值3000个,数据项在数据库中是有保存创建时间,并且创建时间是一个索引,这样才能够实现快速查找,且厨师设定的阀值3000 能够根据软件实际运行的效果进行调整,且同时依据数据库内信息的存储量进行调整。
(3)确保每次处理的数据个数不会很大,确保数据可以按时扫描到,而不是某个账号,某个容器单独占据整个系统资源。
实施方式为:
Function scan_database(markTime,scanTime)
{
cursor=db[collectionName].find({'ctime':{'$lt':timeStamp,'$gt':scanTime}})
iFind=cursor.count()
if iFind>MAX_SCAN_NUM:
{
timeStamp2=timeStamp
scanTime2=scanTime
for i in range(MAX_TRY_TIME):
{
x=(timeStamp2+scanTime2)/2
cursor=db[collectionName].find({'ctime':{'$lt':x,'$gt':scanTime2}})
iFind=cursor.count()
if iFind==0:
scanTime2=x
elif iFind<=MAX_SCAN_NUM:
Break
else:
timeStamp2=x
}
}
for i in cursor:
#read the database informance,and insert into archive database.
}
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (5)
1.一种加速搜索数据库信息的方案,其特征在于,其方法步骤如下:
(1)采用了分时间段扫描,每次记录最后一个扫描到的时间戳最大的值,并且保存到数据库中,确保下一次扫描时,从该时间戳开始;
(2)每次使用数据库检索以后,都先查询一下检索出来数据项的个数,如果超过一定阈值如3000个,就使用二叉树的算法进行减少搜索范围,通过多次使用二叉树的算法,确保每次搜索出来的数据项个数小于该设置的阈值3000个;
(3)确保每次处理的数据个数不会很大,确保数据可以按时扫描到,而不是某个账号,某个容器单独占据整个系统资源。
2.根据权利要求1所述的一种加速搜索数据库信息的方案,其特征在于,所述步骤(2)中的数据项在数据库中是有保存创建时间,并且创建时间是一个索引,这样才能够实现快速查找。
3.根据权利要求1所述的一种加速搜索数据库信息的方案,其特征在于,所述步骤(1)中的数据库里面记录2个值:markTime和scanTime,markTime是标记时间,意思就是文件创建多久以后才可以进行扫描,scanTime是扫描到的数据项中,创建时间最大的值,当把所有的数据项按照创建时间进行排序,从小排到大,scanTime就是最后一个数据项的创建时间。
4.根据权利要求3所述的一种加速搜索数据库信息的方案,其特征在于,所述scanTime-markTime这个时间段的范围能够通过自动调节,达到最终从数据库中搜索出数目不大的数据项,然后自动拷贝数据库信息,实现不同的两个软件模块之间的信息通信。
5.根据权利要求1所述的一种加速搜索数据库信息的方案,其特征在于,所述步骤(2)中设定的阀值3000能够根据软件实际运行的效果进行调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810947341.8A CN110069525A (zh) | 2018-08-20 | 2018-08-20 | 一种加速搜索数据库信息的方案 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810947341.8A CN110069525A (zh) | 2018-08-20 | 2018-08-20 | 一种加速搜索数据库信息的方案 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110069525A true CN110069525A (zh) | 2019-07-30 |
Family
ID=67365812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810947341.8A Pending CN110069525A (zh) | 2018-08-20 | 2018-08-20 | 一种加速搜索数据库信息的方案 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110069525A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7805432B2 (en) * | 2006-06-15 | 2010-09-28 | University College Dublin National University Of Ireland, Dublin | Meta search engine |
CN102479189A (zh) * | 2010-11-23 | 2012-05-30 | 上海宝信软件股份有限公司 | 一种内存中海量时间戳型数据高速均匀访问的索引方法 |
CN103020304A (zh) * | 2012-12-31 | 2013-04-03 | 中国工商银行股份有限公司 | 一种数据处理方法及设备 |
CN104063441A (zh) * | 2014-06-12 | 2014-09-24 | 北京东进航空科技股份有限公司 | 数据库运维系统及其对数据的运维方法 |
CN105468651A (zh) * | 2014-09-12 | 2016-04-06 | 阿里巴巴集团控股有限公司 | 一种关系数据库数据查询方法及系统 |
CN107402926A (zh) * | 2016-05-18 | 2017-11-28 | 华为技术有限公司 | 一种查询方法以及查询设备 |
-
2018
- 2018-08-20 CN CN201810947341.8A patent/CN110069525A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7805432B2 (en) * | 2006-06-15 | 2010-09-28 | University College Dublin National University Of Ireland, Dublin | Meta search engine |
CN102479189A (zh) * | 2010-11-23 | 2012-05-30 | 上海宝信软件股份有限公司 | 一种内存中海量时间戳型数据高速均匀访问的索引方法 |
CN103020304A (zh) * | 2012-12-31 | 2013-04-03 | 中国工商银行股份有限公司 | 一种数据处理方法及设备 |
CN104063441A (zh) * | 2014-06-12 | 2014-09-24 | 北京东进航空科技股份有限公司 | 数据库运维系统及其对数据的运维方法 |
CN105468651A (zh) * | 2014-09-12 | 2016-04-06 | 阿里巴巴集团控股有限公司 | 一种关系数据库数据查询方法及系统 |
CN107402926A (zh) * | 2016-05-18 | 2017-11-28 | 华为技术有限公司 | 一种查询方法以及查询设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104932841B (zh) | 一种云存储系统中节约型重复数据删除方法 | |
US7765215B2 (en) | System and method for providing a trustworthy inverted index to enable searching of records | |
US9069956B2 (en) | Method for scanning file, client and server thereof | |
US8612594B1 (en) | Systems and methods for preventing data loss from files sent from endpoints | |
CN107590054B (zh) | 船舶服务器日志监控系统 | |
US9367569B1 (en) | Recovery of directory information | |
CN113535706B (zh) | 两阶段布谷鸟过滤器及基于两阶段布谷鸟过滤器的重复数据删除方法 | |
CN103279502B (zh) | 一种具有与并行文件系统结合的重复数据删除文件系统的架构及方法 | |
CN101686209A (zh) | 消息转发系统中存储消息的方法和装置 | |
CN107111460A (zh) | 使用块文件的重复数据删除 | |
KR20080014800A (ko) | 시간 제한적 메시지들의 효율적인 처리 방법 | |
CN108197270A (zh) | 分布式文件系统数据回收方法 | |
CN109445703B (zh) | 一种基于块级数据去重的Delta压缩存储组件 | |
CN106980665A (zh) | 数据字典实现方法、装置及数据字典管理系统 | |
CN106202173A (zh) | 一种文件仓库存储的智能排重方法及系统 | |
US20160371284A1 (en) | Componentized Data Storage | |
CN101103331A (zh) | 在内容寻址的存储设备上实施应用程序特定管理策略 | |
CN108932271A (zh) | 一种文件管理方法及装置 | |
WO2023277819A3 (zh) | 数据处理方法、系统、设备、计算机程序产品及存储功能 | |
CN103207916B (zh) | 元数据处理的方法和装置 | |
CN104298747A (zh) | 大数据量图片的存储方法、以及检索方法 | |
CN104462349A (zh) | 一种文件处理方法及装置 | |
CN110069525A (zh) | 一种加速搜索数据库信息的方案 | |
CN111865969B (zh) | 适于金融信息的安全传输方法和系统 | |
KR100680034B1 (ko) | 문맥 인식이 강화된 메시지 변환 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190730 |
|
RJ01 | Rejection of invention patent application after publication |