CN101046804A - 文件系统中搜索排序的方法及相关搜索引擎 - Google Patents

文件系统中搜索排序的方法及相关搜索引擎 Download PDF

Info

Publication number
CN101046804A
CN101046804A CNA2006100662981A CN200610066298A CN101046804A CN 101046804 A CN101046804 A CN 101046804A CN A2006100662981 A CNA2006100662981 A CN A2006100662981A CN 200610066298 A CN200610066298 A CN 200610066298A CN 101046804 A CN101046804 A CN 101046804A
Authority
CN
China
Prior art keywords
file system
node
file
energy
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006100662981A
Other languages
English (en)
Other versions
CN100495398C (zh
Inventor
陈伟柱
张俐
苏中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CNB2006100662981A priority Critical patent/CN100495398C/zh
Priority to US11/679,379 priority patent/US7644069B2/en
Priority to KR1020070020657A priority patent/KR100962925B1/ko
Priority to JP2007081061A priority patent/JP4996300B2/ja
Publication of CN101046804A publication Critical patent/CN101046804A/zh
Application granted granted Critical
Publication of CN100495398C publication Critical patent/CN100495398C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/156Query results presentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种适用于文件系统的搜索排序方法,包括:接收查询;至少部分地根据当前的文件系统能量树中各节点的能量值计算各个文件项对于查询的相关度,并基于相关度输出搜索结果列表;响应于用户对文件系统的操作,对文件系统能量树进行更新,其中,文件系统能量树具有与文件系统相应的树形结构,其各个节点对应于文件系统中的各个文件项。本发明还提供一种相应的文件系统搜索引擎和计算机程序产品。通过利用本发明,用户在对文件系统进行搜索时,其感兴趣的文件、文件夹通常排在搜索结果列表中较靠前的位置。而且,随着用户对文件点击的增加,搜索结果列表能够动态地适应用户兴趣或偏好的变化。

Description

文件系统中搜索排序的方法及相关搜索引擎
技术领域
本发明总体上涉及对特定信息项的搜索排序,特别地,涉及在文件系统中搜索排序的方法及相关搜索引擎和计算机程序产品。
背景技术
随着计算机技术的不断发展,人们越来越依靠于通过计算机系统(包括计算机网络)来存储大量的信息。当今所广泛应用的搜索引擎旨在协助用户在大量信息中进行检索,以便方便、快捷地获得有用信息。在信息检索领域,搜索引擎获得了很大的成功,开发并采用了大量有益的技术。其中,各种搜索引擎的技术改进和优化,都直接反应到对搜索结果的排序上。
一种重要搜索排序技术就是利用网页之间的超级链接对网页进行排序。例如,Google公司的创始人Sergey Brin和Lawrence Page在1998年提出的PageRank算法,以及同年J.Kleinberg提出的HITS算法等。PageRank的基本原理就是利用网页之间的链接关系来计算网页的重要性,即网页的权威性分值。PageRank算法遵循两个基本前提:一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;Google搜索引擎通过PageRank算法计算出网页的PageRank值,从而决定网页在检索结果集中的出现位置,PageRank值越高的网页,在结果中出现的位置越靠前。通过应用PageRank算法,改进了传统的检索排序方法,提高了查询结果的准确度,大大缩短了用户找到其实际期望网页所用的平均时间。
但是,对于文件系统而言,基于链接分析的搜索排序算法并不适用。这主要是因为,在文件系统中,文件与文件之间并不存在类似于网络链接这样的关联。而且,虽然文件系统的数据集合不像网络的数据集合那样庞大,但是其中的数据类型要比网络中的数据类型更加丰富。
目前,对文件系统进行检索排序主要是利用基于关键词的检索方法。传统的基于关键词的检索方法的基本原理是,搜索引擎首先对文档内容进行分析,提取文档中出现的关键词,并统计关键词在文档中出现的频率、位置以及整个文档集合中包含该关键词的文档的数目等,将这些信息建立索引。当用户输入查询式后,搜索引擎首先分析查询请求,对每个查询词在索引中分别找到包含该关键词的文档,然后对每篇文档计算与查询式的相关程度,最后,将相关文档按照相关程度大小进行排序,返回给用户。这种方法的难度在于,大多数情况下,用户的查询要求无法用非常简单的关键词进行准确的描述,而且,由于自然语言理解技术和的相关程度计算方法的限制,查询结果的准确率比较低。
除了传统的基于关键词的检索方法以外,在文件系统的检索排序中,还可以应用检索日志分析法对检索结果进一步改进。检索日志分析法能够根据用户对搜索结果的反馈和操作,包括输入的查询词以及点击的历史,进一步分析用户的搜索兴趣,跟踪用户在搜索中的特征,用来改善检索效果。
但是,传统的关键词检索和检索日志分析法,都没有关注到文件系统的树形组织形式对于搜索排序的影响,未能在排序中体现文件之间的潜在联系。
由此可见,现有技术没有向用户提供适合文件系统结构特点的并且进一步能够响应于用户的交互而进行动态适应的搜索排序方案。
发明内容
因此,为了克服现有技术中存在的不足,本发明提供一种搜索排序方法以及相关搜索引擎和计算机程序产品,特别地适合于基于文件系统结构并且利用用户的与搜索引擎系统的交互对文件系统进行搜索的方法。
根据本发明的一方面,提供一种适用于文件系统的搜索排序方法,包括:接收查询;至少部分地根据当前的文件系统能量树中各节点的能量值计算各个文件项对于查询的相关度,并基于相关度输出搜索结果列表;响应于用户对文件系统的操作,对文件系统能量树进行更新,其中,文件系统能量树具有与文件系统相应的树形结构,其各个节点对应于文件系统中的各个文件项。
根据本发明的另一方面,提供一种文件系统搜索引擎,包括文件搜索模块和文件索引以及搜索结果排序模块,该文件系统搜索引擎用于根据接收的查询进行文件项搜索并输出搜索结果列表,该文件系统搜索引擎还包括:文件系统能量树索引,用于记录具有与文件系统相应的树形结构的文件系统能量树以及其各个节点的能量值,各个节点对应于文件系统中的各个文件项;能量树更新模块,用于响应于用户对文件系统的操作,对文件系统能量树索引中记录的文件系统能量树进行更新,其中搜索结果排序模块用于至少部分地根据当前文件系统能量树索引中记录的各节点的能量值计算各个文件项对于查询的相关度,并且使得搜索结果列表中的文件项按照相关度进行排列。
根据本发明的另一方面,还提供一种包含用于执行根据本发明的方法的计算机程序代码的计算机程序产品。
利用本发明,用户在对文件系统进行搜索时,其感兴趣的文件、文件夹通常排在搜索结果列表中较靠前的位置。而且,随着用户对文件点击的增加,该能量树的能量分布不断更新,使得搜索排序能够响应于用户交互持续跟踪用户的兴趣或偏好,及时调整搜索结果列表来动态地适应用户兴趣或偏好的变化。
结合附图阅读本发明实施方式的详细描述后,本发明的其它特点和优点将变得更加清楚。
附图说明
图1表示了根据本发明一个实施例的搜索排序处理流程;
图2示意性地表示了在文件系统搜索引擎初始化时所创建的文件系统能量树的一个示例;
图3A、3B、3C示意性地表示图2所示的文件系统能量树在用户点击文件之后的能量值的更新;
图4表示了根据本发明一个实施例的文件系统能量树响应用户点击的更新流程;
图5示意性地表示图3C所示文件系统能量树在用户创建新文件时的能量值更新;
图6表示了根据本发明一个实施例的文件系统搜索引擎示意框图;以及
图7示意性地表示了其中可以实现本发明的实施例的计算机系统。
具体实施方式
以下参照附图,对本发明的实施例进行详细说明。
图1表示了根据本发明一个实施例的搜索排序处理流程。
如图1所示,在步骤S100中,开始该处理流程。
在步骤S102中,接收用户输入的查询q。
在步骤S104中,根据查询q对相关文件项进行搜索。例如,当采用的文件系统搜索引擎为基于关键词的搜索引擎时,文件系统搜索引擎根据查询q利用文件系统索引中的信息,可以计算每个文件项d对于该查询q的重要程度的分值s(q,d)。通常,该分值s(q,d)在常规的文件系统搜索引擎中,会作为搜索结果排序的依据。
结合下文中的描述,本领域的技术人员可以理解,虽然在这里给出了基于关键词进行搜索的示例,但是本发明的技术方案并不限制具体采用何种现有技术来实现该搜索步骤。而且,根据查询q对文件项进行搜索的过程可以以任何已知的算法、过程、方式来实现,而该实现本身不属于本发明的范围。
在步骤S106中,根据当前的文件能量值计算文件的相关度,并基于该相关度输出搜索结果列表。
根据本发明,在启动任何具体搜索排序处理之前(例如文件系统搜索引擎初始化阶段),文件系统搜索引擎首先依据文件系统的结构(文件系统可以对应于一个树形结构,其中目录作为非叶子节点,而文件则作为叶子节点),创建具有相同结构的文件系统能量树,其每个节点的值代表对应文件或者文件夹的能量值,其中能量值是反映该用户对于该文件或文件夹的兴趣或偏好的参数。在这个初始化过程中,可以使得所有节点的能量值相等。
如在步骤S104中所描述的,文件系统搜索引擎会根据接收到的查询q为每个文件d提供一个用于排序的分值s(q,d)。根据当前文件系统能量树中提供的信息以及该用于排序的分值,为每个文件计算相关度s’(q,d)以用于最终的搜索排序。例如,对于文件d,给定查询q可以用如下公式定义相关度s’(q,d)与分值s(q,d)和能量值E(d)之间的关系:
              s’(q,d)=βs(q,d)+(1-β)E(d)
其中,β为一个取值在0到1之间的参数,用来平衡分值和能量值在相关度中所占的比重。
由此,在该步骤中根据相关度输出的搜索结果列表至少部分地反映了用户在操作文件系统时的兴趣或偏好。
在步骤S108中,响应于用户对文件系统的操作(例如,查询、打开文件或文件夹、添加文件或文件夹、删除文件或文件夹等),对文件系统能量树进行更新,使得其能够动态地反映当前文件系统的结构以及用户对某类文件或文件夹的兴趣或偏好。
在步骤S110中,判断搜索是否结束。
如果判断结果为“是”,则该处理在步骤S112中结束。
如果判断结果为“否”,则返回步骤S102接收新的查询q,并继续执行以后的步骤。
能量值是动态反映用户操作文件系统时的兴趣或偏好的参数。将文件能量值引入到排序方案中,能够使得搜索结果至少部分地依据用户的兴趣或偏好进行排序,用户由此会更加方便有效地找到其所需的文件或文件夹。
在下文中将详细介绍如何对文件系统能量树进行动态更新,以便其能够及时并且有效地反映用户的兴趣或偏好。
为了便于下文的描述,首先给出一些术语的基本定义:
叶子节点d:如上所述,在文件系统中,叶子节点是指任何格式的文件,例如html、doc、pdf等;
非叶子节点f:如上所述,在文件系统中,非叶子节点是指文件夹(这里以及以下的描述中,为了简便起见,认为文件夹均包含有文件。实际实现中,可将空文件夹等效处理为叶子节点);
节点n:包括所有叶子节点和非叶子节点;
传递深度depth:表示在响应于用户交互而进行的处理期间,能量传递的范围,例如可以表示为在该范围之内能量传递所经过的最大路径数。
图2示意性地表示了在文件系统搜索引擎初始化时所创建的文件系统能量树的一个示例。
如图2所示,能量树的根节点A为非叶子节点,可以对应于文件系统的根目录A。节点A的孩子节点包括节点B、C、D,其中叶子节点C对应于根目录A下的文件C,而非叶子节点B、D分别对应于根目录A下的两个文件夹B、D。类似地,与节点B连接的包括孩子节点E、F、G,其中叶子节点E、G对应于文件夹B中的两个文件E、G,而非叶子节点F对应于文件夹B中的文件夹F。与节点F连接的包括叶子节点J、K,对应于文件夹F中的两个文件J、K。与节点D连接的包括叶子节点H、I,对应于文件夹D中的两个文件H、I。
在初始化图2中的能量树时,可以将所有节点的能量值设置成相同的值。
图3A、3B、3C示意性地表示图2所示的文件系统能量树在用户点击文件之后的能量值的更新。
当一个文件例如文件K被用户点击,则可以认为相对于其它文件而言,用户对于文件K更加感兴趣。因此,如图3A所示,响应于这次点击,增加对应的节点K的能量值。此时,节点K成为源节点。
在搜索和排序的环境下,当用户对文件K感兴趣,并不意味着他只对这一个文件感兴趣,而是表示他可能对与文件K密切相关的一些文件和文件夹都感兴趣。因为,用户通常习惯于将相关或者同类文件放置在相同的目录或文件夹中,所以与文件K密切相关的文件可能包括文件夹F(在树形结构中的父节点)以及与其同在文件夹F下的文件J(在树形结构中的兄弟节点)。因此,所有增加的能量不能静态地只存在于节点K。
根据本发明的一个实施例,能量将按照文件系统能量树的结构,通过连接节点K的链接进行传递。如图3B所示,节点K的能量部分地传递到节点F。接着,如图3所示,节点F再将其自身的能量通过连接到它的链接部分地传递到其孩子节点J以及其父节点B。依此类推,在文件系统能量树中传递能量。
为了提高这种能量传输算法的效率,在本发明的一个实现中可以规定当向一个节点增加能量时的能量传递深度depth,也就是能量传递所经过的最大路径数。在图3C所示的示例中,规定了传递深度depth=2。能量传递到节点B,它是作为源节点的节点K的祖父节点,与节点K的之间相距的路径,也即距离为2。由于规定了传递深度depth=2,节点B不再将能量传递到它的父节点A和其孩子节点E和G。当然,本领域技术人员可以理解,传递深度是可以依据特定的文件系统以及搜索排序需求进行选择,因此并不对本发明构成限制。而且,还可以将能量传递深度depth与其它限制条件相结合来限定能量的传递。例如,可以规定能量传递深度depth=3且能量最远只传递到源节点的祖父节点位置。在这样的复合条件下,则节点B可以把能量传递给其孩子节点E和G,而不再传递给其父节点A。因此,可以非常灵活地进行能量传递限制条件的设定。
在根据本发明的搜索排序方法中,通过将每个节点的能量值至少部分地作为对应于该节点的文件的相关度,能够获得更好的排序效果。例如,在图3C中,节点K具有比节点B更高的能量,当它们对于查询q得到分值相同时,节点K的相关度将会高于节点B的相关度。在搜索结果列表中文件K将会获得更好的排序位置,例如,位于列表更靠前的位置等。这样,用户感兴趣的文件、文件夹通常排在搜索结果列表中较靠前的位置,给用户的搜索带来了方便。而且,随着用户对文件点击的增加,将会给受点击的源节点以及其附近的节点增加能量,由此不断更新该能量树的能量分布。因此,基于文件系统能量树,搜索排序能够持续跟踪用户的兴趣或偏好,及时调整搜索结果列表来动态地适应用户兴趣或偏好的变化。
图4表示了根据本发明一个实施例的文件系统能量树响应用户点击的更新流程。
如图4所示,在步骤S400中该处理流程开始。
在步骤S402中,用户点击文件d。
在步骤S404中,将文件d对应的节点d放入一个预先经过初始化的集合C中,其中该集合C用于包含当前能量值需要更新的节点。
在步骤S406中,将当前深度初始化为0。
在步骤S408中,为集合C中每个节点n(n∈C)计算新能量值,每个节点n的新能量值E’(n)满足:
                 E′(n)=E(n)+pdist(n,d)
其中,E(n)为节点n的原有的能量值;p为能量传递率,取值在0到1之间;dist(n,d)表示在文件系统能量树的结构中,从节点n沿树的路径到节点d之间的距离。例如,由用户点击文件所增加的能量值为1,由于该节点的父节点到该节点的距离为1,所以该节点的父节点的能量将增加p1,而其祖父节点和其兄弟节点到该节点的距离为2,所以其祖父节点和其兄弟节点的能量值将分别增加p2
在步骤S410中,将当前深度累加1。
在步骤S412中,判断当前深度是否小于或等于传递深度depth。
如果在步骤S412中判断结果为“是”,则处理进入步骤S414。
在步骤S414中,获取当前集合C中所有元素节点的相邻节点,并在将C集合中的当前节点清空后,将所有新获取的节点插入到集合C中。其中一个节点的相邻节点是指,与该节点直接相连的节点,即包括其父节点,以及其孩子节点(如果存在的话)。
在步骤S414之后,处理返回步骤S408继续执行。
如果在步骤S412中判断结果为“否”,则处理在步骤S416中结束。
需要注意的是,本领域技术人员可以为能量传递率p和传递深度depth选择不同数值,甚至还可以设计其它的能量传递公式,以适应具体文件系统以及特定搜索需求的特点。例如,可以不限定传递深度depth,而是仅仅通过能量传递值pdist(n,d)的大小来限制能量传递的距离。也就是说,预先设定一个能量传递阈值,对于各个相关节点来说,如果其能量传递值pdist(n,d)大于所述阈值,则继续向其相邻节点传递能量,如果其能量传递值pdist(n,d)等于或小于所述阈值,则停止能量传递。
图5示意性地表示图3C所示文件系统能量树在用户创建新文件时的能量值更新。用户在文件夹F下创建了新的文件M,其对应于节点F的孩子节点M。可以直接为节点M分配相应的能量值。例如,可以为节点M分配与其父节点F相同的能量值。
对于用户删除文件或文件夹的情况,可以简单地把对应节点从文件系统能量树中删除,而不调整其它节点的能量值。
类似地,对于用户移动文件或文件夹的操作,可以将其分解为一个创建过程以及一个删除过程。
本领域的技术人员可以理解,文件系统能量树响应于具体用户操作的能量值更新规则,可以根据需要进行设计,以便优化搜索排序的性能。因此,其具体实现方式不对本发明构成限制。
图6表示了根据本发明一个实施例的文件系统搜索引擎示意框图。其中,参考标号600表示文件系统搜索引擎;参考标号614表示文件搜索模块;参考标号610表示支持该文件搜索模块614的文件索引;参考标号602表示文件系统搜索引擎中的搜索结果排序模块;参考标号604表示用于对文件点击打开操作进行记录的历史记录模块;参考标号606表示用于对文件系统能量树进行更新的能量树更新模块;参考标号608表示用于对文件系统中创建、删除、移动文件等变化进行监测的文件系统监控模块;参考标号612表示记录有文件系统能量树结构以及各个节点能量值的文件系统能量树索引。
如图6所示,文件系统能量树索引612中记录有为文件系统所创建的能量树结构以及各个节点的能量值。在收到查询q时,文件系统搜索引擎600的文件搜索模块614依据文件索引610对相关文件进行搜索,并为每个文件提供用于排序的分值。搜索结果排序模块602根据文件搜索模块614提供的分值以及文件系统能量树索引612提供的各个节点的能量值,为每个文件计算相关度以用于最终的搜索结果排序。历史记录模块604记录用户对于文件的点击并将该信息提供给能量树更新模块606。能量树更新模块606根据历史记录模块604提供的信息,例如按照上文中所述的能量传递方法对能量树中需要更新的节点的能量值进行计算,并将结果提供给文件系统能量树索引612,对文件系统能量树的信息进行更新。文件系统监控模块608监控用户对于文件系统所进行创建、删除以及移动文件或文件夹的操作,并将该信息提供给能量树更新模块606。类似地,能量树更新模块606例如根据如上文所述的预定规则,更新文件系统能量树索引612中记录的信息,包括能量树的树形结构以及相应节点能量值。
需要指出的是,适用于根据本发明的文件系统搜索引擎600的文件搜索模块614以及其对应的文件索引610可以是任何类型的,例如文件搜索模块614可以根据关键词、标题、日期等对文件的重要程度进行打分,文件索引610可以是以关键词为索引的一个集中式索引结构,也可以是多个分散的索引结构。也就是说,文件索引具体如何编制、文件搜索模块具体如何进行文件搜索,对本发明不构成限制。因此,根据本发明文件系统搜索引擎也可以将文件系统中的文件夹作为一种文件项,和文件一起排列搜索结果列表中进行输出。本领域技术人员可以理解,搜索结果排序模块为每个文件夹执行类似于对文件的处理过程,即为每个文件夹计算一个与其当前能量值有关的相关度,然后进行搜索结果排序。
图6仅示出了能够实现本发明的一种文件系统搜索引擎的示例。本领域技术人员可以理解,在模块的具体实现上,尤其是通过软件实现各个模块功能时,可以存在多种可选方案。例如,可以将所示的历史记录模块604以及文件系统监控模块608合并到同一模块中,甚至还可以将它们直接合并到能量树更新模块606中。
图7示意性地表示了其中可以实现本发明的实施例的计算机系统。图7中所示的计算机系统包括CPU(中央处理单元)701、RAM(随机存取存储器)702、ROM(只读存储器)703、系统总线704,HD(硬盘)控制器705、键盘控制器706、串行接口控制器707、并行接口控制器708、显示器控制器709、硬盘710、键盘711、串行外部设备712、并行外部设备713和显示器714。在这些部件中,与系统总线704相连的有CPU 701、RAM 702、ROM 703、HD控制器705、键盘控制器706,串行接口控制器707,并行接口控制器708和显示器控制器709。硬盘710与HD控制器705相连,键盘711与键盘控制器706相连,串行外部设备712与串行接口控制器707相连,并行外部设备713与并行接口控制器708相连,以及显示器714与显示器控制器709相连。
图7中每个部件的功能在本技术领域内都是众所周知的,并且图7所示的结构也是常规的。这种结构不仅用于个人计算机,而且用于手持设备,如Palm PC、PDA(个人数据助理)、移动电话等等。在不同的应用中,图7中所示的某些部件可以被省略。图7中所示的整个系统由通常作为软件存储在硬盘710中、或者存储在EPROM或者其它非易失性存储器中的计算机可读指令控制。软件也可从网络(图中未示出)下载。或者存储在硬盘710中,或者从网络下载的软件可被加载到RAM 702中,并由CPU 701执行,以便完成由软件确定的功能。
尽管图7中描述的计算机系统能够支持根据本发明的文件系统搜索排序,但是该计算机系统只是计算机系统的一个例子。本领域的熟练技术人员可以理解,许多其它计算机系统设计也能实现本发明的实施例。
本发明还可以实现为一种例如由图7所示计算机系统所使用的计算机程序产品,其包含有用于执行根据本发明的适用于文件系统的搜索排序方法的代码。在使用之前,可以把代码存储在其它计算机系统的存储器中,例如,存储在硬盘或诸如光盘或软盘的可移动的存储器中,或者经由因特网或其它计算机网络进行下载。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在所附权利要求的范围内做出各种变形或修改。

Claims (19)

1.一种适用于文件系统的搜索排序方法,包括:
接收查询;
至少部分地根据当前的文件系统能量树中各节点的能量值计算各个文件项对于所述查询的相关度,并基于所述相关度输出搜索结果列表;以及
响应于用户对所述文件系统的操作,对所述文件系统能量树进行更新,
其中,所述文件系统能量树具有与所述文件系统相应的树形结构,其所述各个节点对应于所述文件系统中的各个文件项。
2.根据权利要求1所述的方法,其中
响应于用户对文件项的点击,增加所述文件系统能量树中对应于所述文件项的节点的能量值;
至少部分地将所述节点增加的能量值沿所述文件系统能量树的路径传递到其它相关的节点。
3.根据权利要求2所述的方法,其中
至少部分地将所述节点增加的能量值传递到位于预定传递深度之内的节点,并且满足:
                   E′(n)=E(n)+pdist(n,d)
其中,d表示与所述被点击文件项对应的节点;n表示任一位于所述预定传递深度之内的节点;E(n)为节点n的原有的能量值;E’(n)为节点n的更新后的能量值;p为取值在0到1之间的能量传递率;dist(n,d)表示在所述文件系统能量树的结构中,从节点n沿树的路径到节点d之间的距离,其中dist(n,d)小于或等于预定传递深度。
4.根据权利要求1所述的方法,其中
响应于用户创建文件项的操作,在所述文件系统能量树中创建相应的节点,并且为所述创建的节点分配与其父节点相等的能量值。
5.根据权利要求1所述的方法,其中
响应于用户删除文件项的操作,在所述文件系统能量树中删除相应的节点。
6.根据权利要求1所述的方法,其中
响应于用户将文件项从第一位置移动到第二位置的操作,在所述文件系统能量树的第一位置处删除相应的节点,并在所述文件系统能量树的第二位置处创建相应的节点,并为其分配与其当前父节点相等的能量值。
7.根据权利要求1所述的方法,其中所述文件系统能量树被初始化为各个节点具有相等的能量值。
8.根据权利要求1-7中之一所述的方法,其中所述文件项包括文件和文件夹。
9.一种文件系统搜索引擎,包括文件搜索模块和文件索引以及搜索结果排序模块,该文件系统搜索引擎用于根据接收的查询进行文件项搜索并输出搜索结果列表,该文件系统搜索引擎还包括:
文件系统能量树索引,用于记录具有与所述文件系统相应的树形结构的文件系统能量树以及其各个节点的能量值,所述各个节点对应于所述文件系统中的各个文件项;
能量树更新模块,用于响应于用户对所述文件系统的操作,对所述文件系统能量树索引中记录的所述文件系统能量树进行更新,
其中所述搜索结果排序模块用于至少部分地根据当前所述文件系统能量树索引中记录的各节点的能量值计算各个文件项对于查询的相关度,并且使得所述搜索结果列表中的文件项按照所述相关度进行排列。
10.根据权利要求9所述的文件系统搜索引擎,其中所述能量树更新模块响应于用户对文件项的点击,增加所述文件系统能量树索引记录的对应于所述文件项的节点的能量值,并且至少部分地将所述节点增加的能量值沿所述文件系统能量树的路径传递到其它相关的节点。
11.根据权利要求10所述的文件系统搜索引擎,其中所述能量树更新模块根据以下表达式计算所述文件系统能量树索引中需要更新的节点的能量值:
              E′(n)=E(n)+pdist(n,d)
其中,d表示所述与被点击文件项对应的节点;n表示任一位于预定传递深度之内的节点;E(n)为节点n的原有的能量值;E’(n)为节点n的更新后的能量值;p为取值在0到1之间的能量传递率;dist(n,d)表示在所述文件系统能量树的结构中,从节点n沿树的路径到节点d之间的距离,其中dist(n,d)小于或等于预定传递深度。
12.根据权利要求9所述的文件系统搜索引擎,其中所述能量树更新模块响应于用户创建文件项的操作,在所述文件系统能量树索引中创建对应于所述创建的文件项的节点,并且为所述创建的节点分配与其父节点相等的能量值。
13.根据权利要求9所述的文件系统搜索引擎,其中所述能量树更新模块响应于用户删除文件项的操作,在所述文件系统能量树索引中删除对应于所述删除的节点。
14.根据权利要求9所述的文件系统搜索引擎,其中所述能量树更新模块响应于用户将文件项从第一位置移动到第二位置的操作,在所述文件系统能量树索引记录的所述文件系统能量树的第一位置处删除对应于所述移动的文件项的节点,并在所述文件系统能量树索引记录的所述文件系统能量树的第二位置处创建对应于所述移动的文件项的节点,并为其分配与其当前父节点相等的能量值。
15.根据权利要求9所述的文件系统搜索引擎,包括:
历史记录模块,用于获取用户对文件项的点击,并将相应信息提供给所述能量树更新模块。
16.根据权利要求9所述的文件系统搜索引擎,包括:
文件系统监控模块,用于监控用户对文件系统执行的创建、删除以及移动文件项的操作,并将相应信息提供给所述能量树更新模块。
17.根据权利要求9所述的文件系统搜索引擎,其中在所述文件系统搜索引擎初始化时,所述文件系统能量树索引记录的各个节点具有相等的能量值。
18.根据权利要求9-17中之一所述的文件系统搜索引擎,其中所述文件项包括文件和文件夹。
19.一种计算机程序产品,包含用于执行根据权利要求1至8中任何一个权利要求所述方法的计算机程序代码。
CNB2006100662981A 2006-03-30 2006-03-30 文件系统中搜索排序的方法及相关搜索引擎 Expired - Fee Related CN100495398C (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CNB2006100662981A CN100495398C (zh) 2006-03-30 2006-03-30 文件系统中搜索排序的方法及相关搜索引擎
US11/679,379 US7644069B2 (en) 2006-03-30 2007-02-27 Search ranking method for file system and related search engine
KR1020070020657A KR100962925B1 (ko) 2006-03-30 2007-02-28 파일 시스템에 대한 검색 순위부여 방법 및 관련된 검색엔진
JP2007081061A JP4996300B2 (ja) 2006-03-30 2007-03-27 ファイルシステムの検索ランキング方法および関連の検索エンジン

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100662981A CN100495398C (zh) 2006-03-30 2006-03-30 文件系统中搜索排序的方法及相关搜索引擎

Publications (2)

Publication Number Publication Date
CN101046804A true CN101046804A (zh) 2007-10-03
CN100495398C CN100495398C (zh) 2009-06-03

Family

ID=38675578

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100662981A Expired - Fee Related CN100495398C (zh) 2006-03-30 2006-03-30 文件系统中搜索排序的方法及相关搜索引擎

Country Status (4)

Country Link
US (1) US7644069B2 (zh)
JP (1) JP4996300B2 (zh)
KR (1) KR100962925B1 (zh)
CN (1) CN100495398C (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169797B (zh) * 2007-11-30 2010-04-07 朱廷劭 一种用于搜索的方法
WO2010145575A1 (zh) * 2009-09-21 2010-12-23 中兴通讯股份有限公司 在终端上更新索引并基于其对搜索结果排序的方法及装置
CN102193999A (zh) * 2011-05-09 2011-09-21 北京百度网讯科技有限公司 一种对搜索结果进行排序的方法及设备
CN101520785B (zh) * 2008-02-29 2012-09-05 富士通株式会社 信息检索方法和系统
WO2013033910A1 (en) * 2011-09-09 2013-03-14 Google Inc. User interface for translation webpage
CN103314376A (zh) * 2011-01-04 2013-09-18 阿克塞尔斯普林格数字电视指导有限责任公司 用于管理个人频道的装置和方法
CN104008170A (zh) * 2014-05-30 2014-08-27 广州金山网络科技有限公司 搜索结果的提供方法和装置
CN104350490A (zh) * 2012-04-11 2015-02-11 新加坡国立大学 用于组织与产品相关的数据的方法、装置以及计算机可读介质
CN104636464A (zh) * 2015-02-09 2015-05-20 腾讯科技(深圳)有限公司 访问文件的方法和装置
CN109582698A (zh) * 2017-09-29 2019-04-05 上海宽带技术及应用工程研究中心 多个连续top-k关键词查询结果更新方法、系统、存储介质及终端
CN111400260A (zh) * 2020-04-22 2020-07-10 Oppo广东移动通信有限公司 文件显示方法、显示装置、终端设备及可读存储介质
CN112632378A (zh) * 2020-12-21 2021-04-09 高晓惠 基于大数据和人工智能的信息处理方法及数据服务器
CN113742292A (zh) * 2021-09-07 2021-12-03 六棱镜(杭州)科技有限公司 基于ai技术的多线程数据检索及所检索数据的访问方法

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7801885B1 (en) * 2007-01-25 2010-09-21 Neal Akash Verma Search engine system and method with user feedback on search results
US7783620B1 (en) * 2007-06-29 2010-08-24 Emc Corporation Relevancy scoring using query structure and data structure for federated search
US7783630B1 (en) * 2007-06-29 2010-08-24 Emc Corporation Tuning of relevancy ranking for federated search
US8250616B2 (en) * 2007-09-28 2012-08-21 Yahoo! Inc. Distributed live multimedia capture, feedback mechanism, and network
US8522289B2 (en) 2007-09-28 2013-08-27 Yahoo! Inc. Distributed automatic recording of live event
US20090089352A1 (en) * 2007-09-28 2009-04-02 Yahoo!, Inc. Distributed live multimedia switching mechanism and network
US7970760B2 (en) * 2008-03-11 2011-06-28 Yahoo! Inc. System and method for automatic detection of needy queries
US8239370B2 (en) * 2008-06-27 2012-08-07 Microsoft Corporation Basing search results on metadata of prior results
US8478748B2 (en) * 2008-09-24 2013-07-02 Microsoft Corporation Directly optimizing evaluation measures in learning to rank
US9275164B2 (en) 2008-12-10 2016-03-01 Google Inc. Grouping and presenting search query results
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
CN101996215B (zh) 2009-08-27 2013-07-24 阿里巴巴集团控股有限公司 一种应用于电子商务网站的信息匹配方法和系统
US8886650B2 (en) * 2009-11-25 2014-11-11 Yahoo! Inc. Algorithmically choosing when to use branded content versus aggregated content
US8706701B1 (en) * 2010-11-18 2014-04-22 Emc Corporation Scalable cloud file system with efficient integrity checks
CN102567408B (zh) 2010-12-31 2014-06-04 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置
KR101259608B1 (ko) * 2011-05-25 2013-04-30 김경서 순위 정보를 디스플레이하는 방법
US20130006882A1 (en) * 2011-06-20 2013-01-03 Giulio Galliani Promotion via social currency
US8843477B1 (en) * 2011-10-31 2014-09-23 Google Inc. Onsite and offsite search ranking results
US9311650B2 (en) 2012-02-22 2016-04-12 Alibaba Group Holding Limited Determining search result rankings based on trust level values associated with sellers
US11487707B2 (en) * 2012-04-30 2022-11-01 International Business Machines Corporation Efficient file path indexing for a content repository
US9582588B2 (en) 2012-06-07 2017-02-28 Google Inc. Methods and systems for providing custom crawl-time metadata
GB2503486A (en) * 2012-06-28 2014-01-01 Ibm Managing changes to files
JP5928248B2 (ja) * 2012-08-27 2016-06-01 富士通株式会社 評価方法、情報処理装置およびプログラム
US9189518B2 (en) * 2012-10-19 2015-11-17 International Business Machines Corporation Gathering index statistics using sampling
US8914356B2 (en) 2012-11-01 2014-12-16 International Business Machines Corporation Optimized queries for file path indexing in a content repository
US9323761B2 (en) 2012-12-07 2016-04-26 International Business Machines Corporation Optimized query ordering for file path indexing in a content repository
US10795943B1 (en) * 2013-08-08 2020-10-06 Teal Rainsky Rogers Three-dimensional network mapping system and method
US10372794B1 (en) * 2013-08-08 2019-08-06 Teal Rainsky Rogers Three-dimensional network mapping system and method
KR102247885B1 (ko) * 2014-05-27 2021-05-04 에스케이플래닛 주식회사 다중 정렬 색인을 이용한 아이템 정렬 장치 및 방법
KR102247890B1 (ko) * 2014-05-27 2021-05-04 에스케이플래닛 주식회사 최장 증가 부분수열을 이용한 아이템 정렬 장치 및 방법
US9959866B2 (en) * 2015-04-02 2018-05-01 Panasonic Intellectual Property Management Co., Ltd. Computer-implemented method for generating a response sentence by using a weight value of node
CN106557499A (zh) * 2015-09-25 2017-04-05 中兴通讯股份有限公司 HBase二级索引创建方法和装置
RU2632135C2 (ru) 2015-11-11 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Система и способ уточнения результатов поиска
CN106383860A (zh) * 2016-08-31 2017-02-08 无锡雅座在线科技发展有限公司 数据查询方法及装置
CN107145588A (zh) * 2017-05-11 2017-09-08 上海颐学网络科技有限公司 一种文件夹树形图自动创建方法和系统
CN109710575B (zh) * 2018-12-03 2021-04-13 Oppo广东移动通信有限公司 文件夹管理方法、装置、计算机存储介质及终端设备
CN109657497B (zh) * 2018-12-21 2023-06-13 北京思源理想控股集团有限公司 安全文件系统及其方法
CN110096636A (zh) * 2019-05-08 2019-08-06 上海泰豪迈能能源科技有限公司 搜索引擎优化方法、装置和电子设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0799521B2 (ja) * 1987-03-14 1995-10-25 富士通株式会社 類似文字列検索装置
US6460036B1 (en) * 1994-11-29 2002-10-01 Pinpoint Incorporated System and method for providing customized electronic newspapers and target advertisements
JP2000207422A (ja) 1999-01-13 2000-07-28 Fujitsu Ltd 概念シソ―ラスを用いた文書の検索及び格付けシステム並びに方法
US6327590B1 (en) * 1999-05-05 2001-12-04 Xerox Corporation System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis
JP2002259446A (ja) * 2000-12-21 2002-09-13 Xerox Corp 推定関心度に基づいてノード・リンク構造体をブラウジングするためのシステムおよび方法
JP4453229B2 (ja) * 2001-07-03 2010-04-21 日本電気株式会社 情報検索システム及び情報検索方法並びに情報検索プログラム
US7281005B2 (en) * 2003-10-20 2007-10-09 Telenor Asa Backward and forward non-normalized link weight analysis method, system, and computer program product
JP4587163B2 (ja) * 2004-07-13 2010-11-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索システム、検索方法、報告システム、報告方法、及びプログラム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101169797B (zh) * 2007-11-30 2010-04-07 朱廷劭 一种用于搜索的方法
CN101520785B (zh) * 2008-02-29 2012-09-05 富士通株式会社 信息检索方法和系统
WO2010145575A1 (zh) * 2009-09-21 2010-12-23 中兴通讯股份有限公司 在终端上更新索引并基于其对搜索结果排序的方法及装置
US10587931B2 (en) 2011-01-04 2020-03-10 Funke Digital Tv Guide Gmbh Apparatus and method for managing a personal channel
CN103314376A (zh) * 2011-01-04 2013-09-18 阿克塞尔斯普林格数字电视指导有限责任公司 用于管理个人频道的装置和方法
CN102193999A (zh) * 2011-05-09 2011-09-21 北京百度网讯科技有限公司 一种对搜索结果进行排序的方法及设备
WO2013033910A1 (en) * 2011-09-09 2013-03-14 Google Inc. User interface for translation webpage
CN104025079A (zh) * 2011-09-09 2014-09-03 谷歌公司 用于翻译网页的用户接口
CN104350490A (zh) * 2012-04-11 2015-02-11 新加坡国立大学 用于组织与产品相关的数据的方法、装置以及计算机可读介质
CN104008170B (zh) * 2014-05-30 2017-03-29 广州金山网络科技有限公司 搜索结果的提供方法和装置
CN104008170A (zh) * 2014-05-30 2014-08-27 广州金山网络科技有限公司 搜索结果的提供方法和装置
CN104636464A (zh) * 2015-02-09 2015-05-20 腾讯科技(深圳)有限公司 访问文件的方法和装置
CN109582698A (zh) * 2017-09-29 2019-04-05 上海宽带技术及应用工程研究中心 多个连续top-k关键词查询结果更新方法、系统、存储介质及终端
CN111400260A (zh) * 2020-04-22 2020-07-10 Oppo广东移动通信有限公司 文件显示方法、显示装置、终端设备及可读存储介质
CN112632378A (zh) * 2020-12-21 2021-04-09 高晓惠 基于大数据和人工智能的信息处理方法及数据服务器
CN112632378B (zh) * 2020-12-21 2021-08-24 广东省信息网络有限公司 基于大数据和人工智能的信息处理方法及数据服务器
CN113742292A (zh) * 2021-09-07 2021-12-03 六棱镜(杭州)科技有限公司 基于ai技术的多线程数据检索及所检索数据的访问方法
CN113742292B (zh) * 2021-09-07 2023-11-10 六棱镜(杭州)科技有限公司 基于ai技术的多线程数据检索及所检索数据的访问方法

Also Published As

Publication number Publication date
KR100962925B1 (ko) 2010-06-09
US20070276807A1 (en) 2007-11-29
KR20070098505A (ko) 2007-10-05
JP2007272888A (ja) 2007-10-18
JP4996300B2 (ja) 2012-08-08
US7644069B2 (en) 2010-01-05
CN100495398C (zh) 2009-06-03

Similar Documents

Publication Publication Date Title
CN101046804A (zh) 文件系统中搜索排序的方法及相关搜索引擎
CN1171199C (zh) 基于语言模型的信息检索和语音识别
KR101683311B1 (ko) 검색 결과 순위 지정을 위한 정적 관련성 특징으로서 문서 길이를 이용한 정보 제공 방법, 시스템 및 컴퓨터 판독가능 저장 매체
CN1096038C (zh) 基于贝叶斯网络的用于文件检索的方法和设备
US8458165B2 (en) System and method for applying ranking SVM in query relaxation
CN1750002A (zh) 提供搜索结果的方法
CN1755678A (zh) 在排序搜索结果时引入锚文本用的系统和方法
CN1904886A (zh) 在多个文档之间建立链接结构的方法和装置
CN1713179A (zh) 在对象模型中的影响分析
CN107710201B (zh) 存储数据和从位向量搜索索引取回数据
CN1877583A (zh) 访问标识索引系统及访问标识索引库生成方法
CN101055587A (zh) 一种基于用户行为信息的搜索引擎检索结果重排序方法
CN1609859A (zh) 搜索结果聚类的方法
CN1809804A (zh) 补充有提供对来自预定义搜索查询的搜索结果的访问的url的搜索引擎
CN1755677A (zh) 使用索引关键词的范围搜索系统和方法
CN1317114A (zh) 一种用于数据检索的搜索系统和方法及其在搜索引擎中的应用
CN101079063A (zh) 一种基于场景信息推送广告的方法、系统及设备
CN1841379A (zh) 将文件系统模型映射到数据库对象
CN1822005A (zh) 基于网站自动生成和搜索引擎的信息推送系统及方法
CN1869978A (zh) 用于链接文档的方法、设备和系统
CN1661593A (zh) 一种计算机语言翻译方法及其翻译系统
CN1794239A (zh) 具有搜索功能的模板式网站自动生成系统及其方法
CN1848851A (zh) 创建轻量目录访问协议数据交换格式片段的方法与计算机
CN104636502A (zh) 一种查询系统的数据加速查询方法
CN100338610C (zh) 基于链接分析的个性化搜索引擎方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090603

Termination date: 20210330