CN108090139B - 一种文件检索方法及装置 - Google Patents

一种文件检索方法及装置 Download PDF

Info

Publication number
CN108090139B
CN108090139B CN201711240372.1A CN201711240372A CN108090139B CN 108090139 B CN108090139 B CN 108090139B CN 201711240372 A CN201711240372 A CN 201711240372A CN 108090139 B CN108090139 B CN 108090139B
Authority
CN
China
Prior art keywords
retrieval
file
type
metadata
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711240372.1A
Other languages
English (en)
Other versions
CN108090139A (zh
Inventor
刘军
刘芳
姜亦朋
卢跃凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201711240372.1A priority Critical patent/CN108090139B/zh
Publication of CN108090139A publication Critical patent/CN108090139A/zh
Application granted granted Critical
Publication of CN108090139B publication Critical patent/CN108090139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种文件检索方法及装置,涉及计算机技术领域,该方法包括:接收文件检索请求,其中,上述文件检索请求中携带检索关键字;检索分布式文件系统中文件元数据与上述检索请求中携带的检索关键字匹配的文件;获得检索结果。与现有技术相比,应用本发明实施例提供的方案,可以通过存储在分布式文件系统中的文件的文件元数据与搜索请求中携带的检索关键字的匹配关系,检索分布式文件系统中文件元数据与检索请求中携带的检索关键字匹配的文件,从而提高了文件检索效率。

Description

一种文件检索方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种文件检索方法及装置。
背景技术
在当前的大数据环境下,为了满足数据的存储、分析等需求,越来越多的将文件存储在分布式文件系统中,例如,HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)。
上述HDFS是一种常用的分布式文件系统,该系统具有高度容错性,可以提供高吞吐量的数据访问服务,适合大规模数据集上的应用。
在实际应用中需要对部分数据进行分析时,需要先检索到需要进行分析的数据,然而虽然分布式文件系统具有上述优势,但是由于分布式文件系统中存储的文件数量十分庞大,导致在分布式文件系统中进行文件搜索的效率较低。
发明内容
本发明实施例的目的在于提供一种文件检索方法及装置,以提高文件检索效率。具体技术方案如下:
第一方面,本发明实施例提供了一种文件检索方法,所述方法包括:
接收文件检索请求,其中,所述文件检索请求中携带检索关键字;
检索分布式文件系统中文件元数据与所述检索请求中携带的检索关键字匹配的文件;
获得检索结果。
一种实现方式中,所述检索分布式文件系统中文件元数据与所述检索请求中携带的检索关键字匹配的文件的步骤,包括:
确定所述检索请求中携带的各个检索关键字所属的文件元数据类型;
按照所确定文件元数据类型的检索优先级由高到低的顺序,检索分布式文件系统中文件元数据与各个检索关键字匹配的文件。
一种实现方式中,所述按照所确定文件元数据类型的检索优先级由高到低的顺序,检索分布式文件系统中文件元数据与各个检索关键字匹配的文件的步骤,包括:
选择所确定文件元数据类型中检索优先级最高的类型为当前检索类型;
在分布式文件系统中,分别检索文件元数据与各个第一类关键字匹配的文件,获得各个第一类关键字对应的检索结果,其中,第一类关键字为:各个检索关键字中属于当前检索类型的关键字;
根据各个第一类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果;
按照检索优先级由高到低的顺序,将当前检索类型更新为所确定文件元数据类型中下一检索优先级对应的文件元数据类型;
在当前检索结果中,分别检索文件元数据与各个第二类关键字匹配的文件,获得各个第二类关键字对应的检索结果,其中,第二类关键字为:各个检索关键字中属于更新后的当前检索类型的关键字;
根据各个第二类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果;
在未遍历所确定文件元数据类型的情况下,返回执行所述按照检索优先级由高到低的顺序,将当前检索类型更新为所确定文件元数据类型中下一检索优先级对应的文件元数据类型的步骤。
一种实现方式中,所述文件元数据包括以下类型的信息中的至少一种:
文件名元数据、文件内容元数据、文件格式元数据。
一种实现方式中,所述文件名元数据包括以下信息中的至少一种:
采集文件的时间;
采集文件的地址;
文件采集点的标识;
采集文件的接口类型。
一种实现方式中,所述文件检索方法还包括:
展示检索结果。
第二方面,本发明实施例提供了一种文件检索装置,所述装置包括:
请求接收模块,用于接收文件检索请求,其中,所述文件检索请求中携带检索关键字;
文件检索模块,用于检索分布式文件系统中文件元数据与所述检索请求中携带的检索关键字匹配的文件;
结果获得模块,用于获得检索结果。
一种实现方式中,所述文件检索模块,包括:
类型确定子模块,用于确定所述检索请求中携带的各个检索关键字所属的文件元数据类型;
文件检索子模块,用于按照所确定文件元数据类型的检索优先级由高到低的顺序,检索分布式文件系统中文件元数据与各个检索关键字匹配的文件。
一种实现方式中,所述文件检索子模块,包括:
第一类型确定单元,用于选择所确定文件元数据类型中检索优先级最高的类型为当前检索类型;
第一文件检索单元,用于在分布式文件系统中,分别检索文件元数据与各个第一类关键字匹配的文件,获得各个第一类关键字对应的检索结果,其中,第一类关键字为:各个检索关键字中属于当前检索类型的关键字;
第一结果确定单元,用于根据各个第一类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果;
第二类型确定单元,用于按照检索优先级由高到低的顺序,将当前检索类型更新为所确定文件元数据类型中下一检索优先级对应的文件元数据类型;
第二文件检索单元,用于在当前检索结果中,分别检索文件元数据与各个第二类关键字匹配的文件,获得各个第二类关键字对应的检索结果,其中,第二类关键字为:各个检索关键字中属于更新后的当前检索类型的关键字;
第二结果确定单元,用于根据各个第二类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果;在未遍历所确定文件元数据类型的情况下,触发第二类型确定单元。
一种实现方式中,所述文件检索装置还包括:
结果展示模块,用于展示检索结果。
本发明实施例提供的文件检索的方法及装置,可以通过存储在分布式文件系统中的文件的文件元数据与搜索请求中携带的检索关键字的匹配关系,检索分布式文件系统中文件元数据与检索请求中携带的检索关键字匹配的文件,不需要打开分布式文件系统中的文件对文件内容进行逐一检索,从而提高了文件检索效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文件检索方法的流程示意图。
图2为本发明实施例提供的文件检索方法的一种实现方式的流程示意图。
图3为本发明实施例提供的文件检索方法的另一种实现方式的流程示意图。
图4为本发明实施例提供的一种文件检索装置的结构示意图。
图5为本发明实施例提供的文件检索装置的一种实现方式的结构示意图。
图6为本发明实施例提供的文件检索装置的另一种实现方式的结构示意图。
图7为本发明实施例提供的一种电子设备的结构示意图。
图8为本发明具体实例中第一次检索后的x轴树与y轴树。
图9为本发明具体实例中第二次检索后的x轴树与y轴树。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例提供的一种文件检索方法的流程示意图,该方法包括:
S101:接收文件检索请求,其中,文件检索请求中携带检索关键字;
S102:检索分布式文件系统中文件元数据与上述检索请求中携带的检索关键字匹配的文件;
其中,文件元数据是从文件数据中获取的、用来表征文件特征的数据。
上述文件数据可以包括文件的内容、文件的名称、文件的格式等等。
本发明实施例中,分布式文件系统中不但存储了文件,而且存储了每一文件的文件元数据,每一文件的文件元数据可以是在分布式文件系统中存储文件时从文件数据中提取并存储的。
与检索请求中携带的检索关键字匹配的文件可以是:文件元数据中包含检索请求中携带的全部检索关键字的文件,还可以是:文件元数据中仅仅包含检索请求中携带的部分检索关键字的文件。本申请并不对此进行限定。
一种实现方式中,文件元数据包括以下类型的信息中的至少一种:
文件名元数据,根据文件名获取的表征文件特征的数据,例如,采集文件的时间、采集文件的地址、文件采集点的标识等;其中,采集文件的时间可以包括:采集文件的年、月、日、时、分、秒等等,采集文件的地址可以包括:文件采集的省份、地市等等;
文件内容元数据,根据文件内容获取的表征文件特征的数据,例如,提供文件内容的用户的用户标识、提供文件内容的运营商等;
文件格式元数据,根据文件格式获取的表征文件特征的数据,例如,文件大小、存储格式等。
也就是,文件元数据可以被划分为不同类型的文件元数据,例如:文件名元数据、文件内容元数据、文件格式元数据等等。
一种实现方式中,文件名元数据包括以下信息中的至少一种:
采集文件的时间;
采集文件的地址;
文件采集点的标识;
采集文件的接口类型。
S103:获得检索结果。
其中,检索结果可以是检索到的文件的数量和存储地址链接,也可以是从分布式文件系统中获取的检索到的文件等。
可见,本发明实施例提供的文件检索的方法及装置,可以通过存储在分布式文件系统中的文件的文件元数据与搜索请求中携带的检索关键字的匹配关系,检索分布式文件系统中文件元数据与检索请求中携带的检索关键字匹配的文件,不需要打开分布式文件系统中的文件对文件内容进行逐一检索,从而提高了文件检索效率。
一种实现方式中,如图2所示,上述S102检索分布式文件系统中文件元数据与上述检索请求中携带的检索关键字匹配的文件,可以包括:
S1021:确定检索请求中携带的各个检索关键字所属的文件元数据类型;
检索请求中可以包括多个检索关键字,不同的关键字可能属于不同的文件元数据类型,需要对各个关键字所属的文件元数据类型进行确定,其中,文件元数据类型可以是文件名元数据、文件内容元数据、文件格式元数据等。
例如,一个检索请求中包括了2017年、河北省、移动三个检索关键字,其中2017年是年信息、河北省是省份信息,则可以认为2017年和河北省这两个关键字属于文件名元数据,移动这一关键字属于文件内容元数据。
S1022:按照所确定文件元数据类型的检索优先级由高到低的顺序,检索分布式文件系统中文件元数据与各个检索关键字匹配的文件。
其中,检索优先级是依次按照不同类型的文件元数据进行文件检索时,基于各种类型的文件元数据进行文件检索的顺序。一个文件元数据类型的检索优先级越高,这一类型的文件元数据越先被用于进行文件检索。
一种实现方式中,在文件元数据类型包括文件名元数据、文件内容元数据和文件格式元数据的情况下,按照检索优先级由高到低的顺序各个文件元数据类型可以是:文件名元数据、文件内容元数据、文件格式元数据;当然,按照检索优先级由高到低的顺序各个文件元数据类型也可以是:文件格式元数据、文件名元数据、文件内容元数据。本申请仅仅以上述为例进行说明,并不对本申请构成限定。
一种实现方式中,如图3所示,上述S1022按照所确定文件元数据类型的检索优先级由高到低的顺序,检索分布式文件系统中文件元数据与各个检索关键字匹配的文件,可以包括:
S10221:选择所确定文件元数据类型中检索优先级最高的类型为当前检索类型;
S10222:在分布式文件系统中,分别检索文件元数据与各个第一类关键字匹配的文件,获得各个第一类关键字对应的检索结果,其中,第一类关键字为:各个检索关键字中属于当前检索类型的关键字;
由于上述第一类关键字可以是一个关键字,也可以是多个关键字,因此,分别检索文件元数据与各个第一类关键字匹配的文件,可以理解为:对于每一第一类关键字,检索文件元数据与这一第一类关键字匹配的文件。
其中,文件元数据与一个第一类关键字匹配的文件可以是:文件元数据中包括这一第一类关键字的文件。
S10223:根据各个第一类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果;
从上述S10222可以得知,由于第一类关键字可能存在一个或者多个,而每一第一类关键字对应一个检索结果,基于此,本步骤S10223的一种实现方式中,可以将各个第一类关键字对应的检索结果的交集,确定为当前检索结果。
当然,也可以将各个第一类关键字对应的检索结果的并集,确定为当前检索结果,本申请仅仅以上述为例进行说明,并不对获得当前检索结果的具体方式进行限定。
S10224:按照检索优先级由高到低的顺序,将当前检索类型更新为所确定文件元数据类型中下一检索优先级对应的文件元数据类型;
假设,按照检索优先级由高到低的顺序各个文件元数据类型是:文件名元数据、文件内容元数据、文件格式元数据,当前检索类型为:文件名元数据,这种情况下,上述所确定文件元数据类型中下一检索优先级对应的文件元数据类型为:文件内容元数据,这时,对当前检索类型进行更新后,当前检索类型为:文件内容元数据。
S10225:在当前检索结果中,分别检索文件元数据与各个第二类关键字匹配的文件,获得各个第二类关键字对应的检索结果,其中,第二类关键字为:各个检索关键字中属于更新后的当前检索类型的关键字;
由于上述第二类关键字可以是一个关键字,也可以是多个关键字,因此,分别检索文件元数据与各个第二类关键字匹配的文件,可以理解为:对于每一第二类关键字,检索文件元数据与这一第二类关键字匹配的文件。
其中,文件元数据与一个第二类关键字匹配的文件可以是:文件元数据中包括这一第二类关键字的文件。
S10226:根据各个第二类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果,在未遍历所确定文件元数据类型的情况下,返回执行S10224。
从上述S10225可以得知,由于第二类关键字可能存在一个或者多个,而每一第二类关键字对应一个检索结果,基于此,本步骤S10226的一种实现方式中,可以将各个第二类关键字对应的检索结果的交集,确定为当前检索结果。
当然,也可以将各个第二类关键字对应的检索结果的并集,确定为当前检索结果,本申请仅仅以上述为例进行说明,并不对获得当前检索结果的具体方式进行限定。
本步骤中获取当前检索结果之后,判断是否已经遍历了所确定的文件元数据类型,在未遍历的情况下,返回执行S10224;在已经遍历的情况下,此时获得的当前检索结果为S103获得检索结果中的检索结果。
一种实现方式中,上述文件检索方法还包括:
展示检索结果。
具体的,可以用表格的形式展示检索结果,表格中可以包括检索到的文件的数量和文件在分布式文件系统中的存储地址链接;也可以以文件列表的形式展示检索结果,其中,文件列表是:直接从分布式文件系统中获取检索到的文件并将上述文件保存到本地后形成的列表;本发明不对展示检索结果的具体方式进行限定。
为了更加清楚的对本发明实施例提供的文件检索方法进行说明,通过下面的具体实例进行说明:
假设,分布式文件系统中存储了大量的文件,这些文件具有文件名元数据和文件内容元数据两种类型的文件元数据。其中,文件名元数据包括:采集文件的年、采集文件的省份、文件采集点的标识、采集文件的接口类型,文件内容元数据包括:提供文件内容的运营商、提供文件内容的用户的用户标识和采集到的流量数据信息。
接收到的检索请求中携带有检索关键字:2015年、2016年、2017年、河北、山西、广东、移动、联通、电信,因此需要在上述分布式文件系统中检索与上述检索关键字匹配的文件。
确定检索关键字2015年、2016年、2017年是年信息,属于文件名元数据,河北、山西、广东、移动是省份信息,属于文件名元数据,移动、联通、电信是运营商信息,属于文件内容元数据。
假设,文件元数据类型的检索优先级为:文件名元数据高于文件内容元数据。
因此,首先将文件名元数据确定为当前检索类型,也就是,2015年、2016年、2017年、河北、山西、广东为第一类关键字。
在上述分布式文件系统中,
检索文件元数据中包括2015年的文件,所获得的检索结果为第一检索结果;
检索文件元数据中包括2016年的文件,所获得的检索结果为第二检索结果;
检索文件元数据中包括2017年的文件,所获得的检索结果为第三检索结果;
检索文件元数据中包括河北的文件,所获得的检索结果为第四检索结果;
检索文件元数据中包括山西的文件,所获得的检索结果为第五检索结果;
检索文件元数据中包括广东的文件,所获得的检索结果为第六检索结果。
需要说明的是,上述检索过程中,检索文件元数据与各个第一类关键字匹配的文件的顺序是任意的,例如,可以并行进行,也可以串行进行,本发明不对此进行限定。
获取第一至第六检索结果中每两个检索结果的交集,将所获取的所有交集合并在一起,获得并集结果,作为第七检索结果,该第七检索结果是当前检索结果,如表1所示,至此完成基于文件名元数据的文件检索。
表1中的数字表示检索到的文件的数量,另外,这些数字除了表示数量外,还是检索到的文件的信息展示界面的链接,上述信息展示界面中包括了检索到的文件的文件名、存储地址链接等信息;由于表格中每一数字对应的检索到的文件是不同的,所以这些数字中虽然存在形式上相同的数字,但是其作为链接时所指向的信息展示界面是不同的。
表1
年份 河北 山西 广东
2015 1 0 0
2016 0 1 0
2017 0 0 1
根据预设的文件元数据类型的检索优先级,将当前检索类型更新为文件内容元数据,移动、联通、电信为第二类关键字。
在上述第七检索结果中,
检索文件元数据中包括移动的文件,所获得的检索结果为第八检索结果;
检索文件元数据中包括联通的文件,所获得的检索结果为第九检索结果;
检索文件元数据中包括电信的文件,所获得检索结果为第十检索结果。
需要说明的是,上述检索过程中,检索文件元数据与各个第二类关键字匹配的文件的顺序是任意的,本发明不对此进行限定。
获取第八至第十检索结果中每两个检索结果的交集,将所获取的所有交集合并在一起,获得并集结果,作为第十一检索结果,该第十一检索结果是当前检索结果,如表2所示,至此完成基于文件内容元数据的文件检索。
表2中的数字表示检索到的文件的数量,另外,这些数字除了表示数量外,还是检索到的文件的信息展示界面的链接,上述信息展示界面中包括了检索到的文件的文件名、存储地址链接等信息。由于表格中每一数字对应的检索到的文件是不同的,所以这些数字中虽然存在形式上相同的数字,但是其作为链接时所指向的信息展示界面是不同的。
表2
Figure BDA0001489693270000111
此时,判断已经遍历了所确定文件元数据类型,检索完成,表2为此次文件检索获得的检索结果。
此外,如图8和图9所示,在上述检索过程中,第一类关键字包括了年信息和省份信息两个维度的检索关键字,第一次检索之后得到的第七检索结果从省份信息和年信息分别被映射到x轴树和y轴树上,其中河北、山西、广东的省份信息检索结果为x轴树,2015年、2016年、2017年的年信息检索结果为y轴树。
第二类关键字包括运营商信息一个维度的检索关键字,第二次检索之后得到的第十一检索结果在x轴树上得到了进一步的映射,y轴树没有变化。
如图4所示,为本发明实施例提供的一种文件检索装置的结构示意图,该装置包括:
请求接收模块410,用于接收文件检索请求,其中,文件检索请求中携带检索关键字;
文件检索模块420,用于检索分布式文件系统中文件元数据与所述检索请求中携带的检索关键字匹配的文件;
结果获得模块430,用于获得检索结果。
可见,本发明实施例提供的文件检索的方法及装置,可以通过存储在分布式文件系统中的文件的文件元数据与搜索请求中携带的检索关键字的匹配关系,检索分布式文件系统中文件元数据与检索请求中携带的检索关键字匹配的文件,不需要打开分布式文件系统中的文件对文件内容进行逐一检索,从而提高了文件检索效率。
一种实现方式中,如图5所示,文件检索模块420,可以包括:
类型确定子模块4201,用于确定检索请求中携带的各个检索关键字所属的文件元数据类型;
文件检索子模块4202,用于按照所确定文件元数据类型的检索优先级由高到低的顺序,检索分布式文件系统中文件元数据与各个检索关键字匹配的文件。
一种实现方式中,如图6所示,文件检索子模块4202,可以包括:
第一类型确定单元4202A,用于选择所确定文件元数据类型中检索优先级最高的类型为当前检索类型;
第一文件检索单元4202B,用于在分布式文件系统中,分别检索文件元数据与各个第一类关键字匹配的文件,获得各个第一类关键字对应的检索结果,其中,第一类关键字为:各个检索关键字中属于当前检索类型的关键字;
第一结果确定单元4202C,用于根据各个第一类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果;
第二类型确定单元4202D,用于按照检索优先级由高到低的顺序,将当前检索类型更新为所确定文件元数据类型中下一检索优先级对应的文件元数据类型;
第二文件检索单元4202E,用于在当前检索结果中,分别检索文件元数据与各个第二类关键字匹配的文件,获得各个第二类关键字对应的检索结果,其中,第二类关键字为:各个检索关键字中属于更新后的当前检索类型的关键字;
第二结果确定单元4202F,用于根据各个第二类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果;在未遍历所确定文件元数据类型的情况下,触发第二类型确定单元。
一种实现方式中,上述文件检索装置还包括:
结果展示模块,用于展示检索结果。
本发明实施例还提供了一种电子设备,如图7所示,包括处理器710、通信接口720、存储器730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信,
存储器730,用于存放计算机程序;
处理器710,用于执行存储器730上所存放的程序时,实现本发明实施例提供的文件检索方法。
具体的,上述文件检索方法,包括:
接收文件检索请求,其中,文件检索请求中携带检索关键字;
检索分布式文件系统中文件元数据与上述检索请求中携带的检索关键字匹配的文件;
获得检索结果。
需要说明的是,上述处理器710执行存储器730上存放的程序而实现的文件检索方法的其他实现方式,与前述方法实施例部分提供的文件检索方法实施例相同,这里不再赘述。
可见,本发明实施例提供的文件检索的方法及装置,电子设备可以通过存储在分布式文件系统中的文件的文件元数据与搜索请求中携带的检索关键字的匹配关系,检索分布式文件系统中文件元数据与检索请求中携带的检索关键字匹配的文件,不需要打开分布式文件系统中的文件对文件内容进行逐一检索,从而提高了文件检索效率。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质为服务器中的存储介质,其中存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的文件检索方法。
具体的,上述文件检索方法,包括:
接收文件检索请求,其中,文件检索请求中携带检索关键字;
检索分布式文件系统中文件元数据与上述检索请求中携带的检索关键字匹配的文件;
获得检索结果。
需要说明的是,上述计算机程序被处理器执行时而实现的文件检索方法的其他实现方式,与前述方法实施例部分提供的文件检索方法实施例相同,这里不再赘述。
可见,本发明实施例提供的文件检索的方法及装置,计算机可读存储介质中存储的计算机程序被处理器执行时可以通过存储在分布式文件系统中的文件的文件元数据与搜索请求中携带的检索关键字的匹配关系,检索分布式文件系统中文件元数据与检索请求中携带的检索关键字匹配的文件,不需要打开分布式文件系统中的文件对文件内容进行逐一检索,从而提高了文件检索效率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例、计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (6)

1.一种文件检索方法,其特征在于,所述方法包括:
接收文件检索请求,其中,所述文件检索请求中携带检索关键字;
检索分布式文件系统中文件元数据与所述检索请求中携带的检索关键字匹配的文件;
获得检索结果;
其中,所述检索分布式文件系统中文件元数据与所述检索请求中携带的检索关键字匹配的文件的步骤,包括:
确定所述检索请求中携带的各个检索关键字所属的文件元数据类型;
按照所确定文件元数据类型的检索优先级由高到低的顺序,检索分布式文件系统中文件元数据与各个检索关键字匹配的文件;
其中,所述按照所确定文件元数据类型的检索优先级由高到低的顺序,检索分布式文件系统中文件元数据与各个检索关键字匹配的文件的步骤,包括:
选择所确定文件元数据类型中检索优先级最高的类型为当前检索类型;
在分布式文件系统中,分别检索文件元数据与各个第一类关键字匹配的文件,获得各个第一类关键字对应的检索结果,其中,第一类关键字为:各个检索关键字中属于当前检索类型的关键字;
根据各个第一类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果;
按照检索优先级由高到低的顺序,将当前检索类型更新为所确定文件元数据类型中下一检索优先级对应的文件元数据类型;
在当前检索结果中,分别检索文件元数据与各个第二类关键字匹配的文件,获得各个第二类关键字对应的检索结果,其中,第二类关键字为:各个检索关键字中属于更新后的当前检索类型的关键字;
根据各个第二类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果;
在未遍历所确定文件元数据类型的情况下,返回执行所述按照检索优先级由高到低的顺序,将当前检索类型更新为所确定文件元数据类型中下一检索优先级对应的文件元数据类型的步骤。
2.根据权利要求1所述的方法,其特征在于,所述文件元数据包括以下类型的信息中的至少一种:
文件名元数据、文件内容元数据、文件格式元数据。
3.根据权利要求2所述的方法,其特征在于,所述文件名元数据包括以下信息中的至少一种:
采集文件的时间;
采集文件的地址;
文件采集点的标识;
采集文件的接口类型。
4.根据权利要求1-3任一所述的方法,其特征在于,所述方法还包括:
展示检索结果。
5.一种文件检索装置,其特征在于,所述装置包括:
请求接收模块,用于接收文件检索请求,其中,所述文件检索请求中携带检索关键字;
文件检索模块,用于检索分布式文件系统中文件元数据与所述检索请求中携带的检索关键字匹配的文件;
结果获得模块,用于获得检索结果;
其中,所述文件检索模块,包括:
类型确定子模块,用于确定所述检索请求中携带的各个检索关键字所属的文件元数据类型;
文件检索子模块,用于按照所确定文件元数据类型的检索优先级由高到低的顺序,检索分布式文件系统中文件元数据与各个检索关键字匹配的文件;
其中,所述文件检索子模块,包括:
第一类型确定单元,用于选择所确定文件元数据类型中检索优先级最高的类型为当前检索类型;
第一文件检索单元,用于在分布式文件系统中,分别检索文件元数据与各个第一类关键字匹配的文件,获得各个第一类关键字对应的检索结果,其中,第一类关键字为:各个检索关键字中属于当前检索类型的关键字;
第一结果确定单元,用于根据各个第一类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果;
第二类型确定单元,用于按照检索优先级由高到低的顺序,将当前检索类型更新为所确定文件元数据类型中下一检索优先级对应的文件元数据类型;
第二文件检索单元,用于在当前检索结果中,分别检索文件元数据与各个第二类关键字匹配的文件,获得各个第二类关键字对应的检索结果,其中,第二类关键字为:各个检索关键字中属于更新后的当前检索类型的关键字;
第二结果确定单元,用于根据各个第二类关键字的检索结果,确定当前检索类型对应的检索结果,作为当前检索结果;在未遍历所确定文件元数据类型的情况下,触发所述第二类型确定单元。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
结果展示模块,用于展示检索结果。
CN201711240372.1A 2017-11-30 2017-11-30 一种文件检索方法及装置 Active CN108090139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711240372.1A CN108090139B (zh) 2017-11-30 2017-11-30 一种文件检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711240372.1A CN108090139B (zh) 2017-11-30 2017-11-30 一种文件检索方法及装置

Publications (2)

Publication Number Publication Date
CN108090139A CN108090139A (zh) 2018-05-29
CN108090139B true CN108090139B (zh) 2021-10-01

Family

ID=62173473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711240372.1A Active CN108090139B (zh) 2017-11-30 2017-11-30 一种文件检索方法及装置

Country Status (1)

Country Link
CN (1) CN108090139B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113608761A (zh) * 2021-07-26 2021-11-05 安徽华米信息科技有限公司 固件文件匹配方法、装置、电子设备和存储介质
CN114090512A (zh) * 2021-11-19 2022-02-25 中国电信集团系统集成有限责任公司 一种关键字的检索方法及装置、电子设备、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750354A (zh) * 2012-06-11 2012-10-24 清华大学 一种非结构化数据查询操作语言的解析与处理方法
CN105095225A (zh) * 2014-04-25 2015-11-25 北大方正集团有限公司 文件数据的获取方法和装置
CN105095211A (zh) * 2014-04-22 2015-11-25 北大方正集团有限公司 多媒体数据的获取方法和装置
CN105447162A (zh) * 2015-12-01 2016-03-30 腾讯科技(深圳)有限公司 群组文件搜索方法和装置
CN105574062A (zh) * 2015-07-01 2016-05-11 宇龙计算机通信科技(深圳)有限公司 一种文件检索方法、装置以及终端
CN106991080A (zh) * 2017-04-12 2017-07-28 北京邮电大学 一种数据的分位数确定方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0314782D0 (en) * 2003-06-25 2003-07-30 Ibm A searchable personal browsing history

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750354A (zh) * 2012-06-11 2012-10-24 清华大学 一种非结构化数据查询操作语言的解析与处理方法
CN105095211A (zh) * 2014-04-22 2015-11-25 北大方正集团有限公司 多媒体数据的获取方法和装置
CN105095225A (zh) * 2014-04-25 2015-11-25 北大方正集团有限公司 文件数据的获取方法和装置
CN105574062A (zh) * 2015-07-01 2016-05-11 宇龙计算机通信科技(深圳)有限公司 一种文件检索方法、装置以及终端
CN105447162A (zh) * 2015-12-01 2016-03-30 腾讯科技(深圳)有限公司 群组文件搜索方法和装置
CN106991080A (zh) * 2017-04-12 2017-07-28 北京邮电大学 一种数据的分位数确定方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Shindler M.Fast and accurate k-means for large datasets.《Advances in neural information processing systems》.2011, *

Also Published As

Publication number Publication date
CN108090139A (zh) 2018-05-29

Similar Documents

Publication Publication Date Title
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
CN112148889A (zh) 一种推荐列表的生成方法及设备
CN102567494B (zh) 网站分类方法及装置
CN110232126B (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN110888981B (zh) 基于标题的文档聚类方法、装置、终端设备及介质
CN105760380A (zh) 数据库查询方法、装置及系统
CN103455758A (zh) 恶意网站的识别方法及装置
CN106503274A (zh) 一种数据整合与搜索方法及服务器
CN111563382A (zh) 文本信息的获取方法、装置、存储介质及计算机设备
CN104834736A (zh) 构建索引库的方法、装置及检索的方法、装置和系统
RU2568276C2 (ru) Способ извлечения полезного контента из установочных файлов мобильных приложений для дальнейшей машинной обработки данных, в частности поиска
CN108090139B (zh) 一种文件检索方法及装置
CN111191123A (zh) 业务信息推送方法、装置、可读存储介质和计算机设备
CN115145871A (zh) 文件查询方法、装置和电子设备
CN112307318A (zh) 一种内容发布方法、系统及装置
CN103605744A (zh) 网站搜索引擎流量数据的分析方法及装置
US11216894B2 (en) Image-based semantic accommodation search
CN109062946A (zh) 一种基于多网页的突出显示方法及装置
CN117093619A (zh) 一种规则引擎处理方法、装置、电子设备及存储介质
CN105512270B (zh) 一种确定相关对象的方法和装置
CN109101630B (zh) 一种应用程序搜索结果的生成方法、装置及设备
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
CN108170693B (zh) 推送热词的方法及装置
CN104866545A (zh) 在信息展示页面上检索关键字的方法
CN115687579A (zh) 文档标签生成及匹配方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant