CN103761297A - 一种按时间信息索引文件的方法及其检索方法 - Google Patents
一种按时间信息索引文件的方法及其检索方法 Download PDFInfo
- Publication number
- CN103761297A CN103761297A CN201410025001.1A CN201410025001A CN103761297A CN 103761297 A CN103761297 A CN 103761297A CN 201410025001 A CN201410025001 A CN 201410025001A CN 103761297 A CN103761297 A CN 103761297A
- Authority
- CN
- China
- Prior art keywords
- file
- time
- index
- information
- files
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种按时间信息索引文件的方法及其检索方法,索引文件的方法包括如下步骤:设置索引文件存放的三级目录;将索引文件按照时间进行命名;按索引文件的时间信息,将命名后的索引文件存放在指定目录下的三级目录中。本发明仅以文件的时间信息作为索引项,索引和检索方法简单快速,不会因文件数量的增多而降低检索效率。
Description
技术领域
本发明涉及文件检索技术领域,特别涉及一种按文件的时间信息索引文件的方法,及基于该索引方法的快速文件检索方法。
背景技术
当有海量的文件需要检索的时候,文件位置信息的索引方法决定检索的速度。传统的方法是通过磁盘扫描或者检索预先存在数据库中的文件位置信息来检索一个文件,这两种方法都有随着文件数量增加或访问并发量的增加检索速度会不断变慢的问题。
因此,如何将上述问题加以解决,即为本领域技术人员的研究方向所在。
发明内容
本发明的主要目的是提供一种按时间信息索引文件的方法及其检索方法,本发明的方法能够很好的避免上述现有技术中所存在的问题,通过文件的时间信息直接获取文件的位置信息,避免了磁盘扫描和数据查询的过程,所以检索速度很快。
为了达到上述目的,本发明提供一种按时间信息索引文件的方法,其包括如下步骤:
设置索引文件存放的三级目录;
将索引文件按照时间进行命名;
按索引文件的时间信息,将命名后的索引文件存放在指定目录下的三级目录中。
其中,三级目录结构为:./YYYY/MM/DD,其中:YYYY是文件生成的年份,MM是文件生成的月份,DD是文件生成的日期。
其中,将索引文件按照时间进行命名步骤包括:索引文件使用0~23的数字命名,文件后缀不限,0~23的数字与钟点数相对应。
其中,索引文件放置在上述三级目录的DD目录下,描述当前目录下文件的时间信息、位置信息和其他辅助信息。
其中,所述的索引文件是ASCI编码的文本文件或xml格式文件。
其中,当用ASCI编码的文本文件定义索引文件时,用索引文件内的每一行文本描述一个文件,行尾使用一个换行符结束,文件的最后一行可以有或没有换行符。
其中,所述的时间为自然时间。
其中,在索引文件中,被描述的文件信息按自然时间排序,第一行的自然时间最小,最后一行的自然时间最大。
为了达到上述目的,本发明还提供一种检索按时间信息索引的文件方法,给出要检索文件的开始时间T1和结束时间T2,检索该时间段内的文件,其包括如下步骤:
设置索引文件存放的三级目录;
将索引文件按照时间进行命名;
按索引文件的时间信息,将命名后的索引文件存放在指定目录下的三级目录中;
根据开始时间T1和结束时间T2计算出一个或多个索引文件;
在每个索引文件中,逐个取出文件的时间信息,将每个文件的时间信息与T1和T2比较,文件的时间信息在T1和T2之间,则认为是符合条件的文件,根据文件的位置信息,拿到要检索的文件。
其中,所述的时间为自然时间,在索引文件中,被描述的文件信息按自然时间排序,第一行的自然时间最小,最后一行的自然时间最大。
与现有技术相比,本方法的特点是:仅以文件的时间信息作为索引项,索引和检索方法简单快速,不会因文件数量的增多而降低检索效率。
附图说明
图1为本发明一种按时间信息索引文件的方法的流程图;
图2为本发明一种检索按时间信息索引的文件方法流程图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
如图1所示,为本发明一种按时间信息索引文件的方法流程图,本发明提供一种按时间信息索引文件的方法,本发明中所定义的文件的时间信息为自然时间。文件的时间信息可以是文件创建、修改、移动或者最后使用的时间,也可以是其他任何于实际应用有意义的时间。自然时间包含完整的年月日时分秒信息,本发明采用Unix时间来描述自然时间。
本发明的一种按时间信息索引文件的方法,包括如下步骤:
步骤S1:设置索引文件存放的三级目录,三级目录结构为:./YYYY/MM/DD,
其中:
YYYY 是文件生成的年份,如2011
MM 是文件生成的月份,两位数对齐,如12,01
DD 是文件生成的日期,两位数对齐,如01,30
三级目录结构如:./2011/12/20。
步骤S2:将索引文件按照时间进行命名;
索引文件使用0~23的数字命名,文件后缀不限,本发明默认定义文件后缀为idx。每个DD目录使用24个索引文件,文件名分别为:0.idx,1.idx,2.idx...23.idx。索引文件名指示了其所描述文件的时间信息,如0.idx描述时间信息在0点到1点时段内的文件,依次类推,具体定义如表1。
表1索引文件对应时段表
索引文件名 | 对应时段(数字表示钟点数) |
0.idx | [0,1) |
1.idx | [1,2) |
2.idx | [2,3) |
3.idx | [3,4) |
... | ... |
23.idx | [23,0) |
步骤S3:按索引文件的时间信息,将命名后的索引文件存放在指定目录下的三级目录中。索引文件放置在上述三级目录的DD目录下,描述当前目录下文件的时间信息、位置信息和其他辅助信息,位置信息是文件存放的位置,可以是完整路径,也可以是相对路径,可以是本地路径,也可以是远程路径,其他辅助信息可以包括文件大小等信息。三级目录的上级目录,可以根据需要约定其他意义。索引文件可以是ASCI编码的文本文件,也可以根据需要是xml格式文件,或者其它格式文件。
索引文件中描述一个或多个文件的索引信息,每个文件的索引信息包括文件的时间信息(这里用time表示)、位置信息(这里用filename表示)、文件大小信息(这里用size表示)等。
当用ASCI编码的文本文件定义索引文件时,本发明用索引文件内的每一行文本描述一个文件,行尾使用一个换行符(\n)结束,文件的最后一行可以有或没有换行符。
每一行文本的格式如下:
time size fi1ename ext.
其中,
time是Unix时间,表示从1970年1月1日0时0分0秒至所表述时间之间的秒数,这个时间是对应文件的时间信息。
size是文件的大小,单位字节(Byte)。
filename是文件名,可以包含绝对路径或相对路径。
ext.是其他辅助信息的省略描述。
各部分之间使用一个空格(ASCII码32)隔开,fi1ename后可以用空格隔开附加其他辅助信息。
在索引文件中,被描述的文件信息按自然时间或相对时间排序,第一行的自然时间最小,最后一行的自然时间最大。
其他格式的索引文件也包含上述信息,不再逐一示例描述。
如图2所示,为本发明一种检索按时间信息索引的文件方法流程图,本发明的检索按时间信息索引的文件方法,其是在给出要检索文件的开始时间T1和结束时间T2,检索该时间段内的文件,开始时间T1和结束时间T2是两个Unix时间。其包括如下步骤:
步骤A1:设置索引文件存放的三级目录;
步骤A2:将索引文件按照时间进行命名;
步骤A3:按索引文件的时间信息,将命名后的索引文件存放在指定目录下的三级目录中;
以上三个步骤与一种按时间信息索引文件的方法的步骤相同,在此不重复进行论述,检索按自然时间索引的文件方法还包括以下步骤:
步骤A4:根据开始时间T1和结束时间T2计算出到一个或多个索引文件;从T1开始,到T2结束,以1小时作为步长,按索引文件命名规则,取得一个或多个索引文件的名称。如取2013年10月1日17点10分到2013年10月1日19点10分内的索引文件,会取得如下三个索引文件:
./2013/10/01/17.idx./2013/10/01/18.idx./2013/10/01/19.idx。
步骤A5:在步骤A4拿到的索引文件中,获取到符合条件的一个或多个文件。具体方法是在每个索引文件中,逐个取出文件的时间信息,将每个文件的时间信息与T1和T2比较,文件的时间信息在T1和T2之间,则认为是符合条件的文件,根据文件的位置信息,拿到要检索的文件。
综上所述,本发明仅以文件的时间信息作为索引项,索引和检索方法简单快速,不会因文件数量的增多而降低检索效率。
以上说明对本发明而言只是说明性的,而非限制性的,本领域普通技术人员理解,在不脱离权利要求所限定的精神和范围的情况下,可作出许多修改、变化或等效,但都将落入本发明的保护范围之内。
Claims (10)
1.一种按时间信息索引文件的方法,其特征在于,其包括如下步骤:
设置索引文件存放的三级目录;
将索引文件按照时间进行命名;
按索引文件的时间信息,将命名后的索引文件存放在指定目录下的三级目录中。
2.根据权利要求1所述的一种按时间信息索引文件的方法,其特征在于,三级目录结构为:./YYYY/MM/DD,其中:YYYY是文件生成的年份,MM是文件生成的月份,DD是文件生成的日期。
3.根据权利要求1所述的一种按时间信息索引文件的方法,其特征在于,将索引文件按照时间进行命名步骤包括:索引文件使用0~23的数字命名,文件后缀不限,0~23的数字与钟点数相对应。
4.根据权利要求2所述的一种按时间信息索引文件的方法,其特征在于,索引文件放置在上述三级目录的DD目录下,描述当前目录下文件的时间信息、位置信息和其他辅助信息。
5.根据权利要求1所述的一种按时间信息索引文件的方法,其特征在于,所述的索引文件是ASCI编码的文本文件或xml格式文件。
6.根据权利要求5所述的一种按时间信息索引文件的方法,其特征在于,当用ASCI编码的文本文件定义索引文件时,用索引文件内的每一行文本描述一个文件,行尾使用一个换行符结束,文件的最后一行可以有或没有换行符。
7.根据权利要求1所述的一种按时间信息索引文件的方法,其特征在于,所述的时间为自然时间。
8.根据权利要求7所述的一种按时间信息索引文件的方法,其特征在于,在索引文件中,被描述的文件信息按自然时间排序,第一行的自然时间最小,最后一行的自然时间最大。
9.一种检索按时间信息索引的文件方法,其特征在于,给出要检索文件的开始时间T1和结束时间T2,检索该时间段内的文件,其包括如下步骤:
设置索引文件存放的三级目录;
将索引文件按照时间进行命名;
按索引文件的时间信息,将命名后的索引文件存放在指定目录下的三级目录中;
根据开始时间T1和结束时间T2计算出一个或多个索引文件;
在每个索引文件中,逐个取出文件的时间信息,将每个文件的时间信息与T1和T2比较,文件的时间信息在T1和T2之间,则认为是符合条件的文件,根据文件的位置信息,拿到要检索的文件。
10.根据权利要求9所述的一种检索按时间信息索引的文件方法,所述的时间为自然时间,在索引文件中,被描述的文件信息按自然时间排序,第一行的自然时间最小,最后一行的自然时间最大。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410025001.1A CN103761297A (zh) | 2014-01-21 | 2014-01-21 | 一种按时间信息索引文件的方法及其检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410025001.1A CN103761297A (zh) | 2014-01-21 | 2014-01-21 | 一种按时间信息索引文件的方法及其检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103761297A true CN103761297A (zh) | 2014-04-30 |
Family
ID=50528534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410025001.1A Pending CN103761297A (zh) | 2014-01-21 | 2014-01-21 | 一种按时间信息索引文件的方法及其检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103761297A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701096A (zh) * | 2014-11-25 | 2016-06-22 | 腾讯科技(深圳)有限公司 | 索引生成方法、数据查询方法、装置及系统 |
CN107247719A (zh) * | 2016-12-21 | 2017-10-13 | 常熟市顺网网络技术服务有限公司 | 一种快速建立索引的设计方法 |
CN108076377A (zh) * | 2017-12-26 | 2018-05-25 | 浙江大华技术股份有限公司 | 一种视频的存储、播放方法、装置、电子设备及存储介质 |
CN109299037A (zh) * | 2018-08-16 | 2019-02-01 | 北京炎黄盈动科技发展有限责任公司 | 文件处理方法和装置 |
WO2022171291A1 (en) * | 2021-02-12 | 2022-08-18 | Huawei Technologies Co., Ltd. | Method for cataloguing data items in a data storage system |
-
2014
- 2014-01-21 CN CN201410025001.1A patent/CN103761297A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701096A (zh) * | 2014-11-25 | 2016-06-22 | 腾讯科技(深圳)有限公司 | 索引生成方法、数据查询方法、装置及系统 |
CN107247719A (zh) * | 2016-12-21 | 2017-10-13 | 常熟市顺网网络技术服务有限公司 | 一种快速建立索引的设计方法 |
CN108076377A (zh) * | 2017-12-26 | 2018-05-25 | 浙江大华技术股份有限公司 | 一种视频的存储、播放方法、装置、电子设备及存储介质 |
CN109299037A (zh) * | 2018-08-16 | 2019-02-01 | 北京炎黄盈动科技发展有限责任公司 | 文件处理方法和装置 |
WO2022171291A1 (en) * | 2021-02-12 | 2022-08-18 | Huawei Technologies Co., Ltd. | Method for cataloguing data items in a data storage system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103761297A (zh) | 一种按时间信息索引文件的方法及其检索方法 | |
JP6667931B2 (ja) | 音声情報から時間情報を認識するための方法およびデバイス | |
US20070168400A1 (en) | System and method for synchronizing file indexes remotely | |
US20080082571A1 (en) | System and Method for Transforming Tabular Form Date into Structured Document | |
CN106407360B (zh) | 一种数据的处理方法及装置 | |
CN103778202A (zh) | 一种企业电子文档管理服务端及系统 | |
CN104504137A (zh) | 数据存储方法及系统 | |
Allen et al. | New visions of the countryside of Roman Britain volume 2: the rural economy of Roman Britain | |
Robertson | Rome 1600: the city and the visual arts under Clement VIII | |
CN108984626B (zh) | 一种数据处理方法、装置及服务器 | |
US20160004770A1 (en) | Generation and use of an email frequent word list | |
JP2014153961A (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
CN103177039A (zh) | 一种数据处理方法及装置 | |
CN104536984A (zh) | 一种外包数据库中的空间文本Top-k查询的验证方法及系统 | |
US20130054644A1 (en) | Information processing method and program for registering special day and information processing apparatus | |
CN107657067B (zh) | 一种基于余弦距离的前沿科技信息快速推送方法及系统 | |
CN109923538B (zh) | 文本检索装置、文本检索方法以及计算机程序 | |
CN107463618B (zh) | 一种索引创建方法和装置 | |
JP7031232B2 (ja) | 検索システム、検索方法および検索プログラム | |
EP3449380B1 (en) | Methods and systems for archiving and retrieving data | |
CN111159185A (zh) | 基于条件下推elasticsearch的hive索引方法 | |
CN110532246A (zh) | 数据库迁移工具和迁移方法 | |
CN107180072B (zh) | 一种时序数据的处理方法及装置 | |
WO2013189427A2 (zh) | 一种文件名转换方法及装置 | |
WO2019171126A1 (en) | Document ranking service based on search terms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140430 |