CN103034734A - 文件存储查询代理以及信息查找方法与系统 - Google Patents

文件存储查询代理以及信息查找方法与系统 Download PDF

Info

Publication number
CN103034734A
CN103034734A CN2012105756853A CN201210575685A CN103034734A CN 103034734 A CN103034734 A CN 103034734A CN 2012105756853 A CN2012105756853 A CN 2012105756853A CN 201210575685 A CN201210575685 A CN 201210575685A CN 103034734 A CN103034734 A CN 103034734A
Authority
CN
China
Prior art keywords
file
keyword
agency
index
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105756853A
Other languages
English (en)
Inventor
顾明毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI DINGZU COMMUNICATION TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI DINGZU COMMUNICATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI DINGZU COMMUNICATION TECHNOLOGY Co Ltd filed Critical SHANGHAI DINGZU COMMUNICATION TECHNOLOGY Co Ltd
Priority to CN2012105756853A priority Critical patent/CN103034734A/zh
Publication of CN103034734A publication Critical patent/CN103034734A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供了一种文件存储查询代理以及信息查找方法与系统。所述文件存储查询代理包括:模版维护单元用于实现建立以及导入和导出配置模版,所述配置模版中预设需要提取的文件关键词;与所述模版维护单元相连的索引建立单元,用于存储文件时,根据所存储的文件全文以及所述配置模版,搜索关键词,提取关键词位置建立索引数据;分别与所述索引建立单元以及所述模版维护单元相连的提取单元,用于读取所述索引数据,根据查询内容以及所述配置模版提取出关键词;与所述提取单元相连的查找单元,用于根据所提取的关键词在所述索引数据中查找出与所述查询内容匹配的信息的位置。本发明实现了在大量文件中或者文件内部快速查找所需内容。

Description

文件存储查询代理以及信息查找方法与系统
技术领域
本发明涉及数据查找技术领域,尤其涉及一种文件存储查询代理以及信息查找方法与系统。
背景技术
在数据存储应用中,大量的数据被存储到永久存储设备上,这些数据的应用通常需要通过查询处理来实现。对于在大量的文件中,或在大尺寸的文件内部(尤其是超过50Mbytes大小的文件)查询所需要的信息,是一件非常消耗计算机处理能力的事情,通常需要很长的时间才能遍历搜索完所有的文件。因此查找速度上会较慢,而且还可能使存储设备的响应变得缓慢。
因此需要一种信息查找方法,可以快速地在大量文件中以及大尺寸的文件内部快速搜索到所需要的内容。
发明内容
本发明所要解决的技术问题是,提供一种文件存储查询代理以及信息查找方法与系统,解决现有技术中在大量的文件中,或在大尺寸的文件内部查询所需要的信息时查找速度较慢的技术问题。
为了解决上述问题,本发明提供了一种文件存储查询代理,包括模版维护单元、索引建立单元、提取单元以及查找单元;所述模版维护单元用于实现建立以及导入和导出配置模版,所述配置模版中预设需要提取的文件关键词;所述索引建立单元与所述模版维护单元相连,用于存储文件时,根据所存储的文件全文以及所述配置模版,搜索关键词,提取关键词位置建立索引数据; 所述提取单元分别与所述索引建立单元以及所述模版维护单元相连,用于读取所述索引数据,根据查询内容以及所述配置模版提取出关键词;所述查找单元与所述提取单元相连,用于根据所提取的关键词在所述索引数据中查找出与所述查询内容匹配的信息的位置。
可选的,所述文件包括文本文件、二进制数据文件以及多媒体文件。
可选的,所述索引数据存储为一新的数据文件或保存在原文件的固定部位。
进一步,所述索引数据的索引内容包括至少一关键词、文件名及每一所述关键词在文件中的偏移量。
在文件追加存储时,所述索引建立单元进一步根据所存储的文件片段以及所述配置模版,搜索关键词,提取关键词位置更新索引数据。 
为了解决上述问题,本发明还提供了采用本发明所述文件存储查询代理的信息查找方法,包括如下步骤:(1)通过文件存储查询代理建立索引数据;(2)接收文件查询请求后启动所述文件存储查询代理,其中,所述查询请求中携带有查询内容;(3)所述文件存储查询代理读取索引数据,所述索引数据包括索引文件或文件中的索引信息;(4)根据查询内容以及所述文件存储查询代理的配置模版提取出关键词;(5)根据所提取的关键词在所述索引数据中查找出与所述查询内容匹配的信息的位置。
所述步骤(1)进一步包括:(10)建立并导出配置模版,并在建立文件时导入所述配置模版,其中,所述配置模版中预设需要提取的文件关键词。
所述步骤(10)之后进一步包括:(11)接收文件保存请求并启动所述文件存储查询代理;(12)根据所存储的文件全文或文件片段以及所述配置模版,搜索关键词;(13)提取关键词位置建立索引数据。
所述步骤(5)之后进一步包括:(6)打开相应文件,跳转至与所述查询内容匹配的信息的位置。
为了解决上述问题,本发明还提供了一种信息查找系统,包括接收模块、启动模块以及文件存储查询代理;所述接收模块用于接收文件查询请求,其中,所述查询请求中携带有查询内容;所述启动模块分别与所述接收模块以及所述文件存储查询代理相连,用于启动所述文件存储查询代理;所述文件存储查询代理用于在文件建立时建立索引数据,在查找文件时读取索引数据,根据查询内容以及配置模版提取出关键词,并根据所提取的关键词在所述索引数据中查找出与所述查询内容匹配的信息的位置。
实现了在大量文件中或者大尺寸的文件内部快速查找所需要的内容;本发明简单易于实现、可以快速检索文件内容且关键词可灵活配置;建立文件时可以实时生成索引数据;索引数据可以存储为一单独的索引文件或存储在原文件地固定位置,索引数据可以缓存在内存中,以加快信息查找速度。
附图说明
图1,本发明文件存储查询代理的架构图;
图2,本发明信息查找方法的流程图;
图3,本发明信息查找系统的架构图。
具体实施方式
下面结合附图对本发明提供的文件存储查询代理以及信息查找方法与系统的具体实施方式做详细说明。
首先结合附图给出本发明所述文件存储查询代理的具体实施方式。
附图1所示是本具体实施方式所述文件存储查询代理的架构图,所述文件存储查询代理10包括模版维护单元11、索引建立单元12、提取单元13以及查找单元14。
所述模版维护单元11用于实现建立以及导入和导出配置模版,所述配置模版中预设需要提取的文件关键词。
可以预先建立并导出配置模版,模版中预设需要提取的文件关键词。关键词可以根据不同的应用场合进行配置,比如:手机号码、姓名、单位或其它关键词;关键词可组合使用,即使用一个或多个关键词。在建立文件时导入所述配置模版,当需要添加或修改关键词时,可以对所述配置模版进行修改,并重新导入所建立的文件中。所建立的文件包括但不限于文本文件、二进制数据文件以及图片、声音视频等各种多媒体文件。
所述索引建立单元12与所述模版维护单元11相连,用于存储文件时,根据所存储的文件全文以及所述配置模版,搜索关键词,提取关键词位置建立索引数据。在文件追加存储时,所述索引建立单元12进一步根据所存储的文件片段以及所述配置模版,搜索关键词,提取关键词位置更新索引数据。
在大量小文件的场合,所述索引数据可以单独存储为一新的数据文件;在大尺寸文件时,可以存储在原文件的固定部位,例如原文件的头部或尾部,以及原文件中其它易于读取的部位,但不限于此规则。索引数据可以缓存在内存中,以避免重复读取索引信息。
所述索引数据可以根据数据的格式使用包括Hash在内的任何索引形式;所述索引数据的索引内容包括至少一关键词、文件名及每一所述关键词在文件中的偏移量(例如关键词所在位置相对文件头部的偏移量);可以使用一个或多个关键词。
当已有的文件被编辑修改后,可以使用后台重构索引的方法更新索引数据,即重新生成索引文件或文件中的索引信息。对于一次性写入或追加写入的文件应用场合,在写时构造索引,可以避免二次打开文件遍历所有文件构造索引;并且生成文件的同时,索引可以实时生成和使用。
所述提取单元13分别与所述索引建立单元12以及所述模版维护单元11相连,用于读取所述索引数据,根据查询内容以及所述配置模版提取出关键词。
所述查找单元14与所述提取单元13相连,用于根据所提取的关键词在所述索引数据中查找出与所述查询内容匹配的信息的位置。
即在查找相应文件信息时,先通过所述提取单元13读取索引文件或文件中的索引信息,根据查询内容,配合模版提取出关键词;再通过所述查找单元14使用所提取的关键词,在索引文件中查找出匹配的信息所在的文件位置,或在索引信息中查找出匹配的信息在原文件中的位置;然后打开相应文件,跳转至对应的位置,取出相关的内容。
接下来结合附图给出本发明所述信息查找方法的具体实施方式。
附图2所示是本具体实施方式所述信息查找方法的流程图,采用本发明所述文件存储查询代理,接下来对附图2所示的步骤做详细说明。
S210:通过文件存储查询代理建立索引数据。
其中,所述步骤S210可以进一步采用步骤S201—S204来执行。
S201:建立并导出配置模版,并在建立文件时导入所述配置模版,其中,所述配置模版中预设需要提取的文件关键词。
可以预先建立并导出配置模版,模版中预设需要提取的文件关键词。关键词可以根据不同的应用场合进行配置,可以使用一个或多个关键词。在建立文件时导入所述配置模版,当需要添加或修改关键词时,可以对所述配置模版进行修改,并重新导入所建立的文件中。所建立的文件包括但不限于文本文件以及图片、声音视频等多媒体文件。
S202:接收文件保存请求并启动所述文件存储查询代理。
S203:根据所存储的文件全文或文件片段以及所述配置模版,搜索关键词。
S204:提取关键词位置建立索引数据。
在存储文件时,根据所存储的文件全文以及所述配置模版,搜索关键词,提取关键词位置计算并填写索引,建立索引数据;在文件追加存储时,根据所存储的文件片段以及所述配置模版,搜索关键词,提取关键词位置更新索引数据。所建立的索引数据在大量小文件的场合,所述索引数据可以单独存储为一新的数据文件;在大尺寸文件时,可以存储在原文件的头部或尾部,以及原文件中其它易于读取的部位,但不限于此规则。
所述索引数据可以根据数据的格式使用包括Hash在内的任何索引形式;所述索引数据的索引内容包括至少一关键词、文件名及每一所述关键词在文件中的偏移量;可以使用一个或多个关键词。
S220:接收文件查询请求后启动所述文件存储查询代理,其中,所述查询请求中携带有查询内容。
S230:所述文件存储查询代理读取索引数据,所述索引数据包括索引文件或文件中的索引信息。所述索引数据可以缓存在内存中,可以加快查找速度。
S240:根据查询内容以及所述文件存储查询代理的配置模版提取出关键词。
S250:根据所提取的关键词在所述索引数据中查找出与所述查询内容匹配的信息的位置。即使用关键词计算和查询索引数据,找出符合条件的索引项,进而查找出相应信息的位置。
在本发明的其它实施方式中,在步骤S250之后进一步执行步骤S260。
S260:打开相应文件,跳转至与所述查询内容匹配的信息的位置。
使用所提取的关键词,在索引文件中查找出匹配的信息所在的文件位置,或在索引信息中查找出匹配的信息在原文件中的位置后,打开相应文件,跳转至对应的位置,就可以取出相关的内容。
接下来结合附图给出本发明所述信息查找系统的具体实施方式。
附图3所示是本具体实施方式所述信息查找系统的架构图,所述信息查找系统包括接收模块31、启动模块32以及文件存储查询代理10。
所述接收模块31用于接收文件查询请求,其中,所述查询请求中携带有查询内容。所述文件包括但不限于文本文件以及图片、声音视频等多媒体文件。所述接收模块31还可以用于接收文件存储请求。
所述启动模块32分别与所述接收模块31以及所述文件存储查询代理10相连,用于启动所述文件存储查询代理10。
所述文件存储查询代理10用于在文件建立时建立索引数据,在查找文件时读取索引数据,根据查询内容以及配置模版提取出关键词,并根据所提取的关键词在所述索引数据中查找出与所述查询内容匹配的信息的位置。
所述文件存储查询代理10支持建立以及导入和导出配置模版,所述配置模版中预设需要提取的文件关键词。关键词可以根据不同的应用场合进行配置,可以使用一个或多个关键词。
在存储文件时,根据所存储的文件全文或文件片段(文件追加存储时)配合所述配置模版,搜索关键词,提取关键词位置建立索引数据。索引数据可以缓存在内存中,以加快信息查找速度。所述索引数据的索引内容包括至少一关键词、文件名及每一所述关键词在文件中的偏移量。
在查找相应文件信息时,所述文件存储查询代理10先读取索引文件或文件中的索引信息,根据查询内容,配合模版提取出关键词;再使用所提取的关键词,在索引文件中查找出匹配的信息所在的文件位置,或在索引信息中查找出匹配的信息在原文件中的位置。
查找出相应信息的位置后,系统就可以打开相应文件,跳转至对应的位置,取出相关的内容;也可以将查找到的位置信息显示给用户,用户选择打开相应文件。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种文件存储查询代理,其特征在于,包括模版维护单元、索引建立单元、提取单元以及查找单元; 所述模版维护单元用于实现建立以及导入和导出配置模版,所述配置模版中预设需要提取的文件关键词; 所述索引建立单元与所述模版维护单元相连,用于存储文件时,根据所存储的文件全文以及所述配置模版,搜索关键词,提取关键词位置建立索引数据; 所述提取单元分别与所述索引建立单元以及所述模版维护单元相连,用于读取所述索引数据,根据查询内容以及所述配置模版提取出关键词; 所述查找单元与所述提取单元相连,用于根据所提取的关键词在所述索引数据中查找出与所述查询内容匹配的信息的位置。
2.根据权利要求1所述的文件存储查询代理,其特征在于,所述文件包括文本文件、二进制数据文件以及多媒体文件。
3.根据权利要求1所述的文件存储查询代理,其特征在于,所述索引数据存储为一新的数据文件或保存在原文件的固定部位。
4.根据权利要求1所述的文件存储查询代理,其特征在于,所述索引数据的索引内容包括至少一关键词、文件名及每一所述关键词在文件中的偏移量。
5.根据权利要求1所述的文件存储查询代理,其特征在于,在文件追加存储时,所述索引建立单元进一步根据所存储的文件片段以及所述配置模版,搜索关键词,提取关键词位置更新索引数据。 
6.一种采用权利要求1所述的文件存储查询代理的信息查找方法,其特征在于,包括如下步骤: (1)通过文件存储查询代理建立索引数据; (2)接收文件查询请求后启动所述文件存储查询代理,其中,所述查询请求中携带有查询内容; (3)所述文件存储查询代理读取索引数据,所述索引数据包括索引文件或文件中的索引信息; (4)根据查询内容以及所述文件存储查询代理的配置模版提取出关键词; (5)根据所提取的关键词在所述索引数据中查找出与所述查询内容匹配的信息的位置。
7.根据权利要求6所述的信息查找方法,其特征在于,所述步骤(1)进一步包括: (10)建立并导出配置模版,并在建立文件时导入所述配置模版,其中,所述配置模版中预设需要提取的文件关键词。
8.根据权利要求7所述的信息查找方法,其特征在于,所述步骤(10)之后进一步包括: (11)接收文件保存请求并启动所述文件存储查询代理; (12)根据所存储的文件全文或文件片段以及所述配置模版,搜索关键词; (13)提取关键词位置建立索引数据。
9.根据权利要求6所述的信息查找方法,其特征在于,所述步骤(5)之后进一步包括: (6)打开相应文件,跳转至与所述查询内容匹配的信息的位置。
10.一种信息查找系统,其特征在于,包括接收模块、启动模块以及文件存储查询代理; 所述接收模块用于接收文件查询请求,其中,所述查询请求中携带有查询内容; 所述启动模块分别与所述接收模块以及所述文件存储查询代理相连,用于启动所述文件存储查询代理; 所述文件存储查询代理用于在文件建立时建立索引数据,在查找文件时读取索引数据,根据查询内容以及配置模版提取出关键词,并根据所提取的关键词在所述索引数据中查找出与所述查询内容匹配的信息的位置。
CN2012105756853A 2012-12-27 2012-12-27 文件存储查询代理以及信息查找方法与系统 Pending CN103034734A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012105756853A CN103034734A (zh) 2012-12-27 2012-12-27 文件存储查询代理以及信息查找方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012105756853A CN103034734A (zh) 2012-12-27 2012-12-27 文件存储查询代理以及信息查找方法与系统

Publications (1)

Publication Number Publication Date
CN103034734A true CN103034734A (zh) 2013-04-10

Family

ID=48021628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105756853A Pending CN103034734A (zh) 2012-12-27 2012-12-27 文件存储查询代理以及信息查找方法与系统

Country Status (1)

Country Link
CN (1) CN103034734A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455637A (zh) * 2013-09-25 2013-12-18 浙江宇视科技有限公司 一种车牌检索的方法和装置
CN104090988A (zh) * 2014-07-30 2014-10-08 刘莎 一种互联网信息通用结构化精准搜索方法
CN105468785A (zh) * 2015-12-24 2016-04-06 张梅云 一种计算机文件管理方法
CN105488068A (zh) * 2014-09-19 2016-04-13 阿里巴巴集团控股有限公司 搜索音乐和建立索引的方法及装置、搜索结果判断方法
CN108460075A (zh) * 2017-12-28 2018-08-28 上海顶竹通讯技术有限公司 一种文件内容检索方法及系统
CN109803346A (zh) * 2017-11-16 2019-05-24 展讯通信(上海)有限公司 接纳控制信息的发送、接收方法及装置、存储介质、基站、终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567310A (zh) * 2002-07-23 2005-01-19 三星电子株式会社 使用元数据索引的元数据搜索方法及设备
CN101388026A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于领域本体的语义索引方法
CN102375853A (zh) * 2010-08-24 2012-03-14 中国移动通信集团公司 分布式数据库系统、在其中建立索引的方法和查询方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567310A (zh) * 2002-07-23 2005-01-19 三星电子株式会社 使用元数据索引的元数据搜索方法及设备
CN101388026A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于领域本体的语义索引方法
CN102375853A (zh) * 2010-08-24 2012-03-14 中国移动通信集团公司 分布式数据库系统、在其中建立索引的方法和查询方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455637A (zh) * 2013-09-25 2013-12-18 浙江宇视科技有限公司 一种车牌检索的方法和装置
CN103455637B (zh) * 2013-09-25 2017-06-13 浙江宇视科技有限公司 一种车牌检索的方法和装置
CN104090988A (zh) * 2014-07-30 2014-10-08 刘莎 一种互联网信息通用结构化精准搜索方法
CN105488068A (zh) * 2014-09-19 2016-04-13 阿里巴巴集团控股有限公司 搜索音乐和建立索引的方法及装置、搜索结果判断方法
CN105488068B (zh) * 2014-09-19 2018-11-16 阿里巴巴集团控股有限公司 搜索音乐和建立索引的方法及装置、搜索结果判断方法
CN105468785A (zh) * 2015-12-24 2016-04-06 张梅云 一种计算机文件管理方法
CN109803346A (zh) * 2017-11-16 2019-05-24 展讯通信(上海)有限公司 接纳控制信息的发送、接收方法及装置、存储介质、基站、终端
CN109803346B (zh) * 2017-11-16 2021-02-26 展讯通信(上海)有限公司 接纳控制信息的发送、接收方法及装置、存储介质、基站、终端
CN108460075A (zh) * 2017-12-28 2018-08-28 上海顶竹通讯技术有限公司 一种文件内容检索方法及系统
CN108460075B (zh) * 2017-12-28 2021-11-30 上海顶竹通讯技术有限公司 一种文件内容检索方法及系统

Similar Documents

Publication Publication Date Title
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
CN103034734A (zh) 文件存储查询代理以及信息查找方法与系统
CN102906747A (zh) 用于可移动存储介质上的便携式索引的方法和装置
US11868710B2 (en) Method and apparatus for displaying a text string copied from a first application in a second application
US20080033903A1 (en) Methods and apparatuses for using location information
JP2016201153A (ja) 検索方法、検索装置及び検索エンジンシステム
CN111523293A (zh) 一种直播教学中辅助用户进行信息录入的方法及装置
CN105373541A (zh) 数据库的数据操作请求的处理方法和系统
CN101727502A (zh) 一种数据查询方法及装置、系统
CN103559276A (zh) 一种清理垃圾文件的方法及其装置
CN104462085A (zh) 检索关键词纠错方法及装置
US20080010238A1 (en) Index having short-term portion and long-term portion
CN101561725B (zh) 一种手写快速输入的方法和系统
CN109284273B (zh) 一种采用后缀数组索引的海量小文件查询方法及系统
US20200218760A1 (en) Music search method and device, server and computer-readable storage medium
CN104216896A (zh) 一种查找联系人信息的方法及装置
CN115061990A (zh) 日志存储方法、日志检索方法、装置、设备及存储介质
US20130262375A1 (en) Method for managing electronic phone book used in communication devices
CN105138649A (zh) 数据的搜索方法、装置及终端
CN102436458B (zh) 一种命令解析的方法及其系统
CN103220387A (zh) 一种触摸屏手机用搜索方法及装置
CN107844483B (zh) 文件管理方法及装置
CN103136264A (zh) 附件查询方法和用户终端
CN102737082A (zh) 一种动态更新文稿数据索引的方法和系统
CN104808995A (zh) 一种用于跨应用收藏应用内容的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130410