CN110069525A - 一种加速搜索数据库信息的方案 - Google Patents

一种加速搜索数据库信息的方案 Download PDF

Info

Publication number
CN110069525A
CN110069525A CN201810947341.8A CN201810947341A CN110069525A CN 110069525 A CN110069525 A CN 110069525A CN 201810947341 A CN201810947341 A CN 201810947341A CN 110069525 A CN110069525 A CN 110069525A
Authority
CN
China
Prior art keywords
time
data item
database
scheme
database information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810947341.8A
Other languages
English (en)
Inventor
吴火城
傅金地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Saifun Information Technology (xiamen) Co Ltd
Original Assignee
Saifun Information Technology (xiamen) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Saifun Information Technology (xiamen) Co Ltd filed Critical Saifun Information Technology (xiamen) Co Ltd
Priority to CN201810947341.8A priority Critical patent/CN110069525A/zh
Publication of CN110069525A publication Critical patent/CN110069525A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种加速搜索数据库信息的方案,采用了分时间段扫描,每次记录最后一个扫描到的时间戳最大的值,并且保存到数据库中,确保下一次扫描时,从该时间戳开始。每次使用数据库检索以后,都先查询一下检索出来数据项的个数,如果超过一定阈值如3000个,就使用二叉树的算法进行减少搜索范围,通过多次使用二叉树的算法,确保每次搜索出来的数据项个数小于该设置的阈值3000个。进而确保每次处理的数据个数不会很大,确保数据可以按时扫描到,而不是某个账号,某个容器单独占据整个系统资源。

Description

一种加速搜索数据库信息的方案
技术领域
本发明涉及应用软件的一种数据库检索解决方案,具体是一种加速搜索数据库信息的方案。
背景技术
在云平台系统中,网关模块和归档模块的无缝衔接。网关模块的主要功能是实现对象存储,归档模块的主要功能是实现蓝光备份。对数据文件进行蓝光备份的前提是:把满足一定规则的文件扫描记录到归档系统。设定的规则是:对于文件创建时间超过规定时间(命名这个时间为标记时间)进行归档。比如一个文件是1天以前创建,标记时间是1天,文件创建超过1天以后就应该要被归档系统扫描到,并且准备进行蓝光备份工作。
要让整个系统具有实用价值,必须解决以下几个问题:
1.支持大量数据库信息的查找。
2.能满足大量文件同时创建这种情况的处理。
3.查找到的数据信息不能重复。
4.尽量降低对于网关模块和归档模块的压力。
发明内容
本发明的目的在于提供一种加速搜索数据库信息的方案,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种加速搜索数据库信息的方案,其具体方法步骤如下:
(1)采用了分时间段扫描,每次记录最后一个扫描到的时间戳最大的值,并且保存到数据库中,确保下一次扫描时,从该时间戳开始;
(2)每次使用数据库检索以后,都先查询一下检索出来数据项的个数,如果超过一定阈值如3000个,就使用二叉树的算法进行减少搜索范围,通过多次使用二叉树的算法,确保每次搜索出来的数据项个数小于该设置的阈值3000个;
(3)确保每次处理的数据个数不会很大,确保数据可以按时扫描到,而不是某个账号,某个容器单独占据整个系统资源。
作为本发明进一步的方案:所述步骤(2)中的数据项在数据库中是有保存创建时间,并且创建时间是一个索引,这样才能够实现快速查找。
作为本发明进一步的方案:所述步骤(1)中的数据库里面记录2个值:markTime和scanTime,markTime是标记时间,意思就是文件创建多久以后才可以进行扫描,scanTime是扫描到的数据项中,创建时间最大的值,当把所有的数据项按照创建时间进行排序,从小排到大,scanTime就是最后一个数据项的创建时间。
作为本发明进一步的方案:所述scanTime-markTime这个时间段的范围能够通过自动调节,达到最终从数据库中搜索出数目不大的数据项,然后自动拷贝数据库信息,实现不同的两个软件模块之间的信息通信。
作为本发明进一步的方案:所述步骤(2)中设定的阀值3000能够根据软件实际运行的效果进行调整,且同时依据数据库内信息的存储量进行调整。
与现有技术相比,本发明的有益效果是:够先使用分时间段搜索,然后在大量数据的情况下,使用多次二叉树缩短时间段,减小处理的数据量,确保所有账号,所有账号下的容器都可以平均使用到系统资源,不会因为大量数据处于单一账号,单一容器,导致其他账户和容器饿死,快速有效地实现数据库扫描,实现两个模块之间数据库内容的拷贝复制,避免产生系统性能瓶颈。
附图说明
图1是本发明使用方法流程图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,一种加速搜索数据库信息的方案,其具体方法步骤如下:
(1)采用了分时间段扫描,每次记录最后一个扫描到的时间戳最大的值,并且保存到数据库中,确保下一次扫描时,从该时间戳开始,数据库里面记录2个值:markTime和scanTime,markTime是标记时间,意思就是文件创建多久以后才可以进行扫描,scanTime是扫描到的数据项中,创建时间最大的值,当把所有的数据项按照创建时间进行排序,从小排到大,scanTime就是最后一个数据项的创建时间,scanTime-markTime这个时间段的范围能够通过自动调节,达到最终从数据库中搜索出数目不大的数据项,然后自动拷贝数据库信息,实现不同的两个软件模块之间的信息通信。
(2)每次使用数据库检索以后,都先查询一下检索出来数据项的个数,如果超过一定阈值如3000个,就使用二叉树的算法进行减少搜索范围,通过多次使用二叉树的算法,确保每次搜索出来的数据项个数小于该设置的阈值3000个,数据项在数据库中是有保存创建时间,并且创建时间是一个索引,这样才能够实现快速查找,且厨师设定的阀值3000 能够根据软件实际运行的效果进行调整,且同时依据数据库内信息的存储量进行调整。
(3)确保每次处理的数据个数不会很大,确保数据可以按时扫描到,而不是某个账号,某个容器单独占据整个系统资源。
实施方式为:
Function scan_database(markTime,scanTime)
{
cursor=db[collectionName].find({'ctime':{'$lt':timeStamp,'$gt':scanTime}})
iFind=cursor.count()
if iFind>MAX_SCAN_NUM:
{
timeStamp2=timeStamp
scanTime2=scanTime
for i in range(MAX_TRY_TIME):
{
x=(timeStamp2+scanTime2)/2
cursor=db[collectionName].find({'ctime':{'$lt':x,'$gt':scanTime2}})
iFind=cursor.count()
if iFind==0:
scanTime2=x
elif iFind<=MAX_SCAN_NUM:
Break
else:
timeStamp2=x
}
}
for i in cursor:
#read the database informance,and insert into archive database.
}
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (5)

1.一种加速搜索数据库信息的方案,其特征在于,其方法步骤如下:
(1)采用了分时间段扫描,每次记录最后一个扫描到的时间戳最大的值,并且保存到数据库中,确保下一次扫描时,从该时间戳开始;
(2)每次使用数据库检索以后,都先查询一下检索出来数据项的个数,如果超过一定阈值如3000个,就使用二叉树的算法进行减少搜索范围,通过多次使用二叉树的算法,确保每次搜索出来的数据项个数小于该设置的阈值3000个;
(3)确保每次处理的数据个数不会很大,确保数据可以按时扫描到,而不是某个账号,某个容器单独占据整个系统资源。
2.根据权利要求1所述的一种加速搜索数据库信息的方案,其特征在于,所述步骤(2)中的数据项在数据库中是有保存创建时间,并且创建时间是一个索引,这样才能够实现快速查找。
3.根据权利要求1所述的一种加速搜索数据库信息的方案,其特征在于,所述步骤(1)中的数据库里面记录2个值:markTime和scanTime,markTime是标记时间,意思就是文件创建多久以后才可以进行扫描,scanTime是扫描到的数据项中,创建时间最大的值,当把所有的数据项按照创建时间进行排序,从小排到大,scanTime就是最后一个数据项的创建时间。
4.根据权利要求3所述的一种加速搜索数据库信息的方案,其特征在于,所述scanTime-markTime这个时间段的范围能够通过自动调节,达到最终从数据库中搜索出数目不大的数据项,然后自动拷贝数据库信息,实现不同的两个软件模块之间的信息通信。
5.根据权利要求1所述的一种加速搜索数据库信息的方案,其特征在于,所述步骤(2)中设定的阀值3000能够根据软件实际运行的效果进行调整。
CN201810947341.8A 2018-08-20 2018-08-20 一种加速搜索数据库信息的方案 Pending CN110069525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810947341.8A CN110069525A (zh) 2018-08-20 2018-08-20 一种加速搜索数据库信息的方案

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810947341.8A CN110069525A (zh) 2018-08-20 2018-08-20 一种加速搜索数据库信息的方案

Publications (1)

Publication Number Publication Date
CN110069525A true CN110069525A (zh) 2019-07-30

Family

ID=67365812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810947341.8A Pending CN110069525A (zh) 2018-08-20 2018-08-20 一种加速搜索数据库信息的方案

Country Status (1)

Country Link
CN (1) CN110069525A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805432B2 (en) * 2006-06-15 2010-09-28 University College Dublin National University Of Ireland, Dublin Meta search engine
CN102479189A (zh) * 2010-11-23 2012-05-30 上海宝信软件股份有限公司 一种内存中海量时间戳型数据高速均匀访问的索引方法
CN103020304A (zh) * 2012-12-31 2013-04-03 中国工商银行股份有限公司 一种数据处理方法及设备
CN104063441A (zh) * 2014-06-12 2014-09-24 北京东进航空科技股份有限公司 数据库运维系统及其对数据的运维方法
CN105468651A (zh) * 2014-09-12 2016-04-06 阿里巴巴集团控股有限公司 一种关系数据库数据查询方法及系统
CN107402926A (zh) * 2016-05-18 2017-11-28 华为技术有限公司 一种查询方法以及查询设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805432B2 (en) * 2006-06-15 2010-09-28 University College Dublin National University Of Ireland, Dublin Meta search engine
CN102479189A (zh) * 2010-11-23 2012-05-30 上海宝信软件股份有限公司 一种内存中海量时间戳型数据高速均匀访问的索引方法
CN103020304A (zh) * 2012-12-31 2013-04-03 中国工商银行股份有限公司 一种数据处理方法及设备
CN104063441A (zh) * 2014-06-12 2014-09-24 北京东进航空科技股份有限公司 数据库运维系统及其对数据的运维方法
CN105468651A (zh) * 2014-09-12 2016-04-06 阿里巴巴集团控股有限公司 一种关系数据库数据查询方法及系统
CN107402926A (zh) * 2016-05-18 2017-11-28 华为技术有限公司 一种查询方法以及查询设备

Similar Documents

Publication Publication Date Title
CN104932841B (zh) 一种云存储系统中节约型重复数据删除方法
US7765215B2 (en) System and method for providing a trustworthy inverted index to enable searching of records
US9069956B2 (en) Method for scanning file, client and server thereof
US8612594B1 (en) Systems and methods for preventing data loss from files sent from endpoints
CN107590054B (zh) 船舶服务器日志监控系统
US9367569B1 (en) Recovery of directory information
CN113535706B (zh) 两阶段布谷鸟过滤器及基于两阶段布谷鸟过滤器的重复数据删除方法
CN103279502B (zh) 一种具有与并行文件系统结合的重复数据删除文件系统的架构及方法
CN101686209A (zh) 消息转发系统中存储消息的方法和装置
CN107111460A (zh) 使用块文件的重复数据删除
KR20080014800A (ko) 시간 제한적 메시지들의 효율적인 처리 방법
CN108197270A (zh) 分布式文件系统数据回收方法
CN109445703B (zh) 一种基于块级数据去重的Delta压缩存储组件
CN106980665A (zh) 数据字典实现方法、装置及数据字典管理系统
CN106202173A (zh) 一种文件仓库存储的智能排重方法及系统
US20160371284A1 (en) Componentized Data Storage
CN101103331A (zh) 在内容寻址的存储设备上实施应用程序特定管理策略
CN108932271A (zh) 一种文件管理方法及装置
WO2023277819A3 (zh) 数据处理方法、系统、设备、计算机程序产品及存储功能
CN103207916B (zh) 元数据处理的方法和装置
CN104298747A (zh) 大数据量图片的存储方法、以及检索方法
CN104462349A (zh) 一种文件处理方法及装置
CN110069525A (zh) 一种加速搜索数据库信息的方案
CN111865969B (zh) 适于金融信息的安全传输方法和系统
KR100680034B1 (ko) 문맥 인식이 강화된 메시지 변환 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190730

RJ01 Rejection of invention patent application after publication