CN107526746A - 管理文档索引的方法和设备 - Google Patents

管理文档索引的方法和设备 Download PDF

Info

Publication number
CN107526746A
CN107526746A CN201610457468.2A CN201610457468A CN107526746A CN 107526746 A CN107526746 A CN 107526746A CN 201610457468 A CN201610457468 A CN 201610457468A CN 107526746 A CN107526746 A CN 107526746A
Authority
CN
China
Prior art keywords
document
index
mark
item
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610457468.2A
Other languages
English (en)
Other versions
CN107526746B (zh
Inventor
黄坤武
张磊
陈超
刘晶晶
代洪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC Corp filed Critical EMC Corp
Priority to CN201610457468.2A priority Critical patent/CN107526746B/zh
Priority to US15/630,168 priority patent/US11068536B2/en
Publication of CN107526746A publication Critical patent/CN107526746A/zh
Application granted granted Critical
Publication of CN107526746B publication Critical patent/CN107526746B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例涉及管理文档索引的方法和设备。该方法包括确定多个文档中的独立可更新字段,独立可更新字段包括至少一个项。该方法还包括针对独立可更新字段中的项而创建索引,索引包含多个文档中包括项的文档的标识。此外,该方法还包括分块存储索引中的文档的标识,使得索引在无需修改文档的标识的情况下是可更新的。

Description

管理文档索引的方法和设备
技术领域
本公开的实施例总体涉及全文索引,具体涉及管理文档索引的方法和设备。
背景技术
在企业搜索系统中,总是索引文档内容以及文档的其它元数据字段(文档的诸如主题、作者、关键字、创建日期、文档类别、评论等之类的属性)。在文档已经被添加到搜索系统之后,该文档之后可以一次又一次地被修改,例如作者可以调整关键字,读者将添加评论,以及管理员可以添加标签。这一类型的对文档的频繁部分更新对于像文档审阅系统(文档的审阅状态可以频繁改变)、像维基百科(大量用户可以更新不同的文档属性)的需要大量合作的应用来说是非常关键的。
目前的搜索系统大多数是基于倒排索引(inverted index)架构。倒排索引被用于存储在全文索引下某个项在文档或文档集中的存储位置的映射。通常,为了更新现有文档,在添加文档的新版本之前,基于倒排索引的大多数搜索系统必须删除与文档的旧版本对应的旧标识。进一步地,在添加文档的新版本之后,向文档的新版本分配新标识,并且修改与文档的新版本中出现的所有项对应的项文件,从而重建倒排索引。虽然从终端用户的角度来看,他们只是对文档进行一些细微的改变,但是底层的全文索引搜索系统必须执行复杂得多的操作以支持文档的细微改变。有时频繁的对文档的更新操作比正常的添加文档的操作的负荷重得多,这造成在更新文档时搜索系统不能处理终端用户的操作。
因此,使得企业搜索系统能够快速地执行对文档的部分更新是非常热门的。但是受到倒排索引的限制,针对文档的部分更新的大量尝试不能在工业中得到应用。
发明内容
为了解决上述以及其他潜在的问题,本公开的实施例提供了管理文档索引的方法和设备。
根据本公开的第一方面,提供了管理文档索引的方法。该方法包括确定多个文档中的独立可更新字段,独立可更新字段包括至少一个项。该方法还包括针对独立可更新字段中的项而创建索引,索引包含多个文档中包括项的文档的标识。此外,该方法还包括分块存储索引中的文档的标识,使得索引在无需修改文档的标识的情况下是可更新的。
根据本公开的第二方面,提供了管理文档索引的设备。该设备包括至少一个处理单元和至少一个存储器。至少一个存储器被耦合到至少一个处理单元并且存储由至少一个处理单元执行的指令。该指令当由至少一个处理单元执行时,使得设备:确定多个文档中的独立可更新字段,独立可更新字段包括至少一个项;针对独立可更新字段中的项而创建索引,索引包含多个文档中包括项的文档的标识;以及分块存储索引中的文档的标识,使得索引在无需修改文档的标识的情况下是可更新的。
根据本公开的第三方面,提供了计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令。机器可执行指令在被执行时使得机器执行根据本公开的第一方面所描述的方法的任意步骤。
通过下文描述将会理解,本公开提供用于支持在索引中独立地更新文档的字段的解决方案。本公开的目的是在保持正常的索引(添加和移除文档)和查询能力与传统倒排索引相同的情况下,提高部分地更新文档的速度和效率,从而节约索引成本。
提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
图1示出了根据本公开的实施例的管理文档索引的架构100的框图;
图2A示出了针对两篇文档中的项创建索引的示意图;
图2B示出了根据传统倒排索引在图2A所示的示例中更新文档的示意图;
图3示出了根据本公开的实施例的管理文档索引的方法300的流程图;
图4示出了使用B树和文件指针来组织项的索引的示例;
图5A示出了根据本公开的实施例的针对两篇文档中的项创建索引的示意图;
图5B示出了根据本公开的实施例的在图5A所示的示例中更新文档的示意图;
图6示出了使用根据本公开的实施例的倒排索引的方法600的流程图;
图7示出了根据本公开的实施例的管理文档索引的装置700的框图;以及
图8示出了可以用来实施本公开的实施例的示例设备800的示意性框图。
具体实施例
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
在例如企业搜索系统的搜索系统中,无论是添加、移除、查询或更新文档,文档被自动地索引。在具有针对文档设置的多个元数据字段(文档的诸如主题、作者、关键字、创建日期、文档类别、评论等之类的属性)的情况下,大量的更新可能仅应用于指定字段,即仅应用于文档的一部分,甚至是仅应用于文档的很小一部分。在搜索系统中,对文档的任何更新都需要移除旧文档的标识,并且添加新文档的标识,尽管新文档与旧文档相比只有微小的差异。在将文档的一些元数据字段被索引至全文索引的情况下,对文档的任何更新都会触发整个文档(包括文档的所有元数据字段)的索引重建,这是一种浪费,因为需要一次又一次地处理整个文档(包括文档的所有元数据字段),这些处理中的大部分是不必要的。
为了至少部分地解决上述问题以及其他潜在问题,本公开的示例实施例提出了管理文档索引的方案。该方案将文档的所有字段分成两类:独立可更新字段、以及非独立可更新字段,并且以特殊方式来存储独立可更新字段中的项的索引,使得能够在不修改文档的标识的情况下更新独立可更新字段中的项的索引。
图1示出了根据本公开的实施例的管理文档索引的架构100的框图。应当理解,仅出于示例性的目的描述架构100的结构和功能而不是暗示对于本公开的范围的任何限制。本公开的实施例可以被体现在不同的结构和/或功能中。
如图1所示,架构100可以包括:搜索引擎110、应用程序接口120、客户端130、文档索引管理模块140、文档150。客户端130可以向搜索引擎110发送搜索(或查询)文档、添加文档、移除文档、和更新文档等请求。搜索引擎110调用应用程序接口120以对来自客户端130的请求做出响应。例如,在接收到来自客户端130的针对某一关键词的搜索请求时,搜索引擎110调用应用程序接口120进行搜索,并且向客户端130提供搜索结果,搜索结果包括含有该关键字的文档的列表。
应用程序接口120借助于文档索引管理模块140来实现搜索(或查询)文档、添加文档、移除文档、和更新文档等功能。文档索引管理模块140包括存储模块141,存储模块141存储了针对多个文档150的索引1411。
在架构100中被创建索引的多个文档中的文档150包括字段151,字段151包括项1511。字段151例如是文档的内容、以及诸如文档的主题、作者、关键字、创建日期、文档类别、评论之类的元数据字段。字段151中的每个项1511例如是字段所包含的每个文字。作为示例,字段151为文档的作者“李明”,则该字段151包括两个项1511:“李”和“明”。换言之,可以将项理解为单个字。
存储模块141中存储的索引1411包括每个项1511出现的文档150的列表。例如,索引1411可以表示为:
项->文档标识的列表
其中文档标识可以是在索引中为文档设置的编号,例如文档1、文档2、文档3等。例如,索引1411可以表示为:
项->文档1,文档4,文档10,文档100,文档120
图2A示出了针对两篇文档中的项创建索引1411的示意图。其中,块211示出文档1和文档2这两篇文档的内容,即字段为文档的内容。虽然此处仅示出一个字段,但是在其它实施例中,文档可以包括诸如主题、作者、关键字、创建日期、文档类别、评论之类的其它字段。块215示出针对内容字段中的项而创建的索引1411,其表达了项与文档的关系,其中“文档1”和“文档2”为文档标识。
备选地,索引1411可以表示为:
项->文档标识(n)的列表
其中n表示项在在特定文档中出现的频率。备选地,索引1411可以包含关于项在文档中出现的位置的信息。在索引1411包含项的位置信息的情况下,可以从项查询扩展为短语查询。
当接收到来自客户端130的针对特定项1511的搜索(或查询)请求时,文档索引管理模块140根据索引1411中所包含的项与文档的关系,向搜索引擎110提供特定项1511出现的文档的列表。在某些实施例中,可以按照项在文档中出现的频率对搜索到的文档进行排序。
当接收到来自客户端130的添加文档、移除文档、和更新文档等请求时,文档索引管理模块140修改存储模块141中存储的索引1411。在传统方法中,索引1411为倒排索引。当接收到添加文档的请求时,文档索引管理模块140为要添加的文档分配文档标识(例如文档100),并且向索引1411中添加文档100。当接收到移除文档的请求时,文档索引管理模块140从索引1411中删除该文档的标识,或者向索引1411中的该文档的标识添加删除标记。
图2B示出了根据传统倒排索引在图2A所示的示例中更新文档的示意图。块221示出对文档1进行部分修改,即更新文档1;块225示出更新文档后的索引1411。当接收到更新文档(例如文档1)的请求时,在传统方法中,文档索引管理模块140向索引1411中的要更新的文档的旧版本的标识(例如文档1)添加删除标记,向要更新的文档的新版本分配新的文档标识(例如文档3),并且向索引1411中添加文档3。如图2B所示,在这种情况下,由于文档的标识发生变化(从文档1变为文档3),虽然仅对文档1进行了部分修改,但是文档1和文档3中出现的所有项的索引都要被修改,这严重降低了更新文档的效率。而且,如果存在除文档的内容之外的其它字段,则由于文档的标识发生变化,未发生变化的其它字段中的项的索引全部需要修改,这严重降低了更新文档的效率。
根据本公开的实施例的管理文档索引的方案可以在保持搜索(或查询)、添加文档、移除文档的性能的情况下,提高更新文档的效率。
以下将参考图3至7来进一步详细描述本公开的实施例。图3示出了根据本公开的实施例的管理文档索引的方法300的流程图。例如,方法300可以由如图1所示的文档索引管理模块140来执行。应当理解的是,方法300还可以包括未示出的附加步骤和/或可以省略所示出的步骤,本公开的范围在此方面不受限制。
方法300开始于步骤310。在步骤310中,文档索引管理模块140确定多个文档150中的独立可更新字段,该独立可更新字段包括至少一个项。在某些实施例中,文档索引管理模块140可以将多个文档150中的所有字段151分成两类:独立可更新字段和非独立可更新字段。在某些实施例中,独立可更新字段应当是那些相对简单的字段。例如,这些字段的内容应该相当短。也即,独立可更新字段的项的数目在预定的阈值数目之下。例如,项的最大可能数目不超过几个字的那些字段可以被确定为独立可更新字段。通过下文描述将会理解,这样做有利于索引的更新和维护的效率。
文档索引管理模块140从多个文档中确定独立可更新字段,使得独立可更新字段中包括的项的数目在预定阈值以下,从而保证更新文档的效率。例如,该预定阈值为10。作为示例,可以将诸如文档的作者之类的元数据字段确定为独立可更新字段。假设该文档的作者为“李明”,则该独立可更新字段包括两个项:“李”和“明”。由于文档的内容通常较长,所以一般将文档的内容分类为非独立可更新字段。但是,在文档的内容包括仅几个字(例如10个字以下)的情况下,也可以将文档的内容确定为独立可更新字段。
接下来,方法300进行到步骤320。在步骤320中,文档索引管理模块140针对独立可更新字段中的项而创建索引1411。索引1411包含多个文档中包括该项的文档的标识。而后,在步骤330中,文档索引管理模块140在存储模块141中分块存储索引1411中的文档的标识,使得索引1411在无需修改文档的标识的情况下是可更新的。分块存储索引1411中的文档的标识可以允许对与项关联的文档标识的列表的快速更新。下面将讨论索引1411及其存储方式的若干示例实现。
在一些实施例中,文档索引管理模块140将文档的标识存储在层级结构的至少一个节点中,每个节点包括多个文档中的至少一部分文档的标识。例如,在一些实施例中,该层级结构包括索引树。树的示例包括但不限于B树、B-树、B+树和B*树,等等。针对独立可更新字段中的项的索引1411可以被组织在这样的树形结构中,以实现对索引1411的快速定位和对独立可更新字段的高效更新。特别地,在一些实施例中,可以使用多级文件指针来提高操作效率。
图4示出了使用B树和文件指针来组织项的索引1411的示例。图4基于图2A中的块211所示的文档1和文档2。在图4中仅示出了处于B树组织中的三个项:“golden”410、“bridge”420、“is”430,它们分别使用指针1 411、指针2 421和指针3 431来链接至相应的文档标识的列表415、425和435。
备选地或附加地,在一些实施例中,文档索引管理模块140将文档的标识存储在至少一个文件块中,每个文件块包括文档中的至少一部分文档的标识。备选地或附加地,在一些实施例中,将至少一个文件块依次关联。每个文件块的大小可以预定义。每个文件块中所包含的文档标识的数目可以相同,也可以不同。每个文件块所包含的文档标识的数目可以与文档标识本身所占用的存储空间有关。例如编号为1的文档标识占用的存储位较少,而编号为10000的文档标识占用的存储为较多。因此,针对具有编号较小的文档标识,一个文件块可以包含较多的这样的文档标识。针对具有编号较大的文档标识,一个文件块可以包含较少的这样的文档标识。例如,独立可更新字段中的项的索引1411被存储为:
项->[文档1,文档4,文档10]->[文档100,文档120]其中“[]”表示文件块,每个文件块内可以存储一个或多个文档标识;“->”表示文件指针,使用文件指针将多个文件块依次关联。以这种方式,可以允许某个文档标识从某个文件块中被删除,或者某个文档标识被插入到某个文件块中。此外,还可以将新的文件块插入到文件块的列表中。在索引1411中,文件块以及文件块中的文档的标识可以按照特定顺序进行排列,以便于快速定位。
此外,应当理解,文档索引管理模块140针对除了独立可更新字段之外的字段中的项,创建多个文档的倒排索引,即如图2A和图2B所示的索引。针对非独立可更新字段中的项,文档索引管理模块140按照传统方法创建倒排索引。换言之,非独立可更新字段中的项的索引被存储为使得在更新文档的情况下需要修改索引中文档的标识。
图5A示出了根据本公开的实施例的针对两篇文档中的项创建索引1411的示意图。与图2A中的块211相似,图5A中的块511示出文档1和文档2这两篇文档的内容,即字段为文档的内容。虽然此处仅示出一个字段,但是在其它实施例中,文档可以包括诸如主题、作者、关键字、创建日期、文档类别、评论之类的其它字段。
图5A中的块515也与图2A中的块215相似,唯一的不同在于,图5A中的块515示出分块存储索引1411中的文档的标识,其中“[]”表示文件块。在图5A中,由于仅有两篇文档,所以将文档1和文档2存储在一个文件块中。在涉及大量的文档的情况下,可以存在多个文件块。
独立可更新字段中的项的索引1411不会以其它形式被存储为文档级,以确保更新应用程序接口120可以更新索引1411的所有出现。还可以将解决方案扩展为支持在以其它形式将索引1411存储为文档级的情况下,能够更新索引1411的所有出现。
要注意的是,虽然针对独立可更新字段中的项的索引1411与针对非独立可更新字段中的项的倒排索引的存储方式不同,但是通过使用应用程序接口120来封装对索引1411的诸如查询字段、添加字段、移除字段、更新字段等之类的操作,使得上层接口与传统倒排索引的应用程序接口相同,并且搜索引擎110可以对索引1411进行读写,以保持除更新文档之外的其它操作(例如查询文档、添加文档、移除文档等)的能力与传统倒排索引相同。
具体而言,针对非独立可更新字段的操作,通过传统统倒排索引的应用程序接口来完成;针对独立可更新字段的操作,通过根据本公开的实施例的应用程序接口120来完成,应用程序接口120封装对独立可更新字段中的项的索引1411的操作。可以在应用程序接口级对分别针对独立可更新字段和非独立可更新字段的操作进行控制。
下面参考图6来描述使用根据本公开的实施例的倒排索引的方法600的流程图。可以理解,方法600可以在方法300之后执行。在步骤610,文档索引管理模块140通过搜索引擎110接收来自客户端130的在第一文档中更新独立可更新字段的项的请求。响应于接收到这样的请求,在步骤620,文档索引管理模块140可以修改相关项的索引,而保持第一文档在索引中的标识不被修改。仅仅出于示例目的,下面考虑一个具体示例。
假设客户端130的用户在搜索引擎110提供的界面上输入新的作者,其中作者被确定为独立可更新字段。响应于更新“作者”字段的请求,文档索引管理模块140对“作者”字段中的项的索引进行定位和修改,而保持“作者”字段所属文档在索引中的标识不被修改,并且保持除“作者”字段之外的项的倒排索引不被修改。修改项的索引的目的在于删除索引中的旧的项与文档标识的关系,并且向索引中添加之前不存在的新的项与文档标识的关系,以替代其中添加新的文档标识的传统方法。
在一些实施例中,请求涉及从独立可更新字段中移除项,并且修改索引包括:将第一文档的标识从项的索引中删除。在一些实施例中,将第一文档的标识从项的索引中删除包括在项的索引中仅包含第一文档的标识的情况下,删除项的索引。在一些实施例中,请求涉及向独立可更新字段中添加项,并且修改索引包括:将第一文档的标识添加到索引的相应块中。在一些实施例中,将第一文档的标识添加到索引的相应块中包括在项的索引不存在的情况下,创建项的索引,其中索引包含第一文档的标识。
图5B示出了根据本公开的实施例的在图5A所示的示例中更新文档的示意图。块521示出对文档1进行部分修改,即更新文档1;块525示出更新文档后的索引1411。可以看到,与图2B所示的示例相反,当接收到更新文档(例如文档1)的请求时,文档索引管理模块140保持文档1的标识不被修改。具体而言,更新后的文档1的标识依然为“文档1”。这样,仅需要修改字段中被删除的项(例如“marvelous”)和被添加的项(例如“falling”和“down”)的索引。
针对被删除的项(例如“marvelous”),修改索引包括将文档1的标识从项“marvelous”的索引中删除。针对添加的项(例如“falling”和“down”),修改索引包括将文档1的标识添加到项“falling”和“down”的索引的相应块中。而且,得益于文档的标识不被修改,除块521所示的内容字段外的项的索引无需修改,例如无需修改作者字段中的项的索引。因此,需要修改的项的索引的数量大大减少,从而提高了更新文档的效率。
在索引1411包括项在文档中出现的位置的信息的情况下,修改索引还包括修改项的位置信息。在某些实施例中,通过文件指针来关联项与相应的位置信息。
此外,如果系统中存在大量文档,需要通过存储用于每个文档标识的差量来压缩文档标识。如果存储用于每个文档标识的差量,当删除文档标识时,不能删除该差量,而是向其添加删除标记,这表示项与文档的关系被移除,文档标识仍然被存储用于之后的文档标识引用。当执行索引合并时,将会发生实际的删除。在这种情况下,如果首先向字段添加一个项、然后移除它、然后再次添加它,则仅需要修改标记。
图7示出了根据本公开的实施例的管理文档索引的装置700的框图。在一些实施例中,装置700例如可以实施在文档索引管理模块140处。备选地,在一些实施中,装置700可以直接被实现为文档索引管理模块140本身,也即,文档索引管理模块140可以由装置700实现。
如图7所示,装置700可以包括确定模块710,被配置为确定多个文档中的独立可更新字段,独立可更新字段包括至少一个项。装置700还可以包括索引创建模块720,被配置为针对独立可更新字段中的项而创建索引,索引包含多个文档中包括项的文档的标识。此外,装置700还可以包括存储模块730,被配置为分块存储索引中的文档的标识,使得索引在无需修改文档的标识的情况下是可更新的。
在某些实施例中,确定模块710包括确定单元,其被配置为从多个文档中确定独立可更新字段,使得独立可更新字段中包括的项的数目在预定阈值以下。
在某些实施例中,存储模块730包括第一存储单元,其被配置为将文档的标识存储在至少一个文件块中,每个文件块包括文档中的至少一部分文档的标识。在某些实施例中,存储模块730还包括关联单元,其被配置为将至少一个文件块依次关联。
在某些实施例中,存储模块730包括第二存储单元,其被配置为将多个文档的标识存储在层级结构的至少一个节点中,每个节点包括多个文档中的至少一部分文档的标识。其中层级结构包括索引树。
在某些实施例中,装置700还可以包括其它索引创建模块,其被配置为针对除了独立可更新字段之外的字段中的项,创建多个文档的倒排索引。
在某些实施例中,装置700还可以包括:接收模块,其被配置为接收在第一文档中更新独立可更新字段的项的请求;和索引修改模块,其被配置为修改项的索引,并且保持第一文档在索引中的标识不被修改。
在某些实施例中,请求涉及从独立可更新字段中移除项,并且索引修改模块包括删除单元,其被配置为将第一文档的标识从项的索引中删除。
在某些实施例中,请求涉及向独立可更新字段中添加项,并且索引修改模块包括添加单元,其被配置为将第一文档的标识添加到索引的相应块中。
出于清楚的目的,在图7中没有示出装置700的某些可选模块。然而,应当理解,上文参考图1、3-6所描述的各个特征同样适用于装置700。而且,装置700的各个模块可以是硬件模块,也可以是软件模块。例如,在某些实施例中,装置700可以部分或者全部利用软件和/或固件来实现,例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地,装置700可以部分或者全部基于硬件来实现,例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本公开的范围在此方面不受限制。
图8示出了可以用来实施本公开的实施例的示例设备800的示意性框图。如图所示,设备800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法300,可由处理单元801执行。例如,在一些实施例中,方法300可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序被加载到RAM 803并由CPU 801执行时,可以执行上文描述的方法300的一个或多个步骤。备选地,CPU 801也可以通过任何其他适当的方式(例如,借助于固件)而被配置为执行上文描述的方法300。
通过以上描述可以看出,本公开的解决方案适用于如下应用:该应用在实时全文搜索系统中,频繁地部分地更新文档(即仅更新文档的某个字段)并且及时地触发索引。针对独立可更新字段中的项的索引,本公开的实施例通过分块存储该索引中的文档的标识,使得索引在无需修改文档的标识的情况下是可更新的,从而在保持查询文档、添加文档、移除文档的能力不变的情况下,改善了更新大的文档中的简单元数据字段的灵活性。使用本公开的实施例,由于无需修改文档的标识,仅需要修改独立可更新字段中的项的索引(并且仅修改其中发生变化的项的索引,而不修改独立可更新字段中未发生变化的项的索引),而不触及未改变的字段中的项的索引。这将会显著降低索引负荷,改善索引性能,并且随之将改善系统容量。
本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (21)

1.一种管理文档索引的方法,包括:
确定多个文档中的独立可更新字段,所述独立可更新字段包括至少一个项;
针对所述独立可更新字段中的项而创建索引,所述索引包含所述多个文档中包括所述项的文档的标识;以及
分块存储所述索引中的所述文档的所述标识,使得所述索引在无需修改所述文档的所述标识的情况下是可更新的。
2.根据权利要求1所述的方法,其中分块存储所述索引中的所述文档的所述标识包括:
将所述文档的所述标识存储在至少一个文件块中,每个文件块包括所述文档中的至少一部分文档的所述标识。
3.根据权利要求2所述的方法,其中分块存储所述索引中的所述文档的所述标识还包括:
将所述至少一个文件块依次关联。
4.根据权利要求1所述的方法,其中分块存储所述索引中的所述文档的所述标识包括:
将所述文档的所述标识存储在层级结构的至少一个节点中,每个节点包括所述多个文档中的至少一部分文档的所述标识。
5.根据权利要求4所述的方法,其中所述层级结构包括索引树。
6.根据权利要求1所述的方法,其中确定独立可更新字段包括:
从所述多个文档中确定所述独立可更新字段,使得所述独立可更新字段中包括的项的数目在预定阈值以下。
7.根据权利要求1所述的方法,还包括:
针对除了所述独立可更新字段之外的字段中的项,创建所述多个文档的倒排索引。
8.根据权利要求1所述的方法,还包括:
接收在第一文档中更新所述独立可更新字段的所述项的请求;
修改所述项的所述索引,保持所述第一文档在所述索引中的标识不被修改。
9.根据权利要求8所述的方法,其中所述请求涉及从所述独立可更新字段中移除所述项,并且修改所述索引包括:
将所述第一文档的标识从所述项的所述索引中删除。
10.根据权利要求8所述的方法,其中所述请求涉及向所述独立可更新字段中添加所述项,并且修改所述索引包括:
将所述第一文档的标识添加到所述索引的相应块中。
11.一种管理文档索引的设备,包括:
至少一个处理单元;
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述设备:
确定多个文档中的独立可更新字段,所述独立可更新字段包括至少一个项;
针对所述独立可更新字段中的项而创建索引,所述索引包含所述多个文档中包括所述项的文档的标识;以及
分块存储所述索引中的所述文档的所述标识,使得所述索引在无需修改所述文档的所述标识的情况下是可更新的。
12.根据权利要求11所述的设备,其中分块存储所述索引中的所述文档的所述标识包括:
将所述文档的所述标识存储在至少一个文件块中,每个文件块包括所述文档中的至少一部分文档的所述标识。
13.根据权利要求12所述的设备,其中分块存储所述索引中的所述文档的所述标识还包括:
将所述至少一个文件块依次关联。
14.根据权利要求11所述的设备,其中分块存储所述索引中的所述文档的所述标识包括:
将所述文档的所述标识存储在层级结构的至少一个节点中,每个节点包括所述多个文档中的至少一部分文档的所述标识。
15.根据权利要求14所述的设备,其中所述层级结构包括索引树。
16.根据权利要求11所述的设备,其中确定独立可更新字段包括:
从所述多个文档中确定所述独立可更新字段,使得所述独立可更新字段中包括的项的数目在预定阈值以下。
17.根据权利要求11所述的设备,所述指令当由所述至少一个处理单元执行时,还使得所述设备:
针对除了所述独立可更新字段之外的字段中的项,创建所述多个文档的倒排索引。
18.根据权利要求11所述的设备,所述指令当由所述至少一个处理单元执行时,还使得所述设备:
接收在第一文档中更新所述独立可更新字段的所述项的请求;
修改所述项的所述索引,保持所述第一文档在所述索引中的标识不被修改。
19.根据权利要求18所述的设备,其中所述请求涉及从所述独立可更新字段中移除所述项,并且修改所述索引包括:
将所述第一文档的标识从所述项的所述索引中删除。
20.根据权利要求18所述的设备,其中所述请求涉及向所述独立可更新字段中添加所述项,并且修改所述索引包括:
将所述第一文档的标识添加到所述索引的相应块中。
21.一种计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使机器执行根据权利要求1至10中任一项所述的方法的步骤。
CN201610457468.2A 2016-06-22 2016-06-22 管理文档索引的方法和设备 Active CN107526746B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610457468.2A CN107526746B (zh) 2016-06-22 2016-06-22 管理文档索引的方法和设备
US15/630,168 US11068536B2 (en) 2016-06-22 2017-06-22 Method and apparatus for managing a document index

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610457468.2A CN107526746B (zh) 2016-06-22 2016-06-22 管理文档索引的方法和设备

Publications (2)

Publication Number Publication Date
CN107526746A true CN107526746A (zh) 2017-12-29
CN107526746B CN107526746B (zh) 2020-11-24

Family

ID=60677665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610457468.2A Active CN107526746B (zh) 2016-06-22 2016-06-22 管理文档索引的方法和设备

Country Status (2)

Country Link
US (1) US11068536B2 (zh)
CN (1) CN107526746B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399545A (zh) * 2018-04-20 2019-11-01 伊姆西Ip控股有限责任公司 管理文档索引的方法和设备
CN111447248A (zh) * 2019-01-16 2020-07-24 网宿科技股份有限公司 一种文件传输的方法及装置
CN111552766A (zh) * 2019-02-11 2020-08-18 国际商业机器公司 使用机器学习来表征在引用图形上应用的参考关系
CN112639762A (zh) * 2018-06-22 2021-04-09 高利得有限公司 数字文档管理系统
CN113343043A (zh) * 2021-06-29 2021-09-03 北京奇艺世纪科技有限公司 索引的构建方法、检索方法及相应的装置、终端、介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471838B (zh) * 2018-10-19 2020-05-22 北京字节跳动网络技术有限公司 目录文档的操作方法、装置、电子设备、可读存储介质
CN111666740A (zh) * 2020-06-22 2020-09-15 深圳壹账通智能科技有限公司 流程图生成方法、装置、计算机设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536509A (zh) * 2003-04-11 2004-10-13 �Ҵ���˾ 倒排索引存储方法、倒排索引机制以及在线更新的方法
CN1858747A (zh) * 2006-04-30 2006-11-08 北京金山软件有限公司 一种数据存储/检索方法及系统
CN101136013A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种在全文检索系统中快速更新数据域的方法
CN101246500A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 一种实现数据快速索引的检索系统和方法
CN101404034A (zh) * 2008-11-20 2009-04-08 北京握奇数据系统有限公司 文件存储和查找的方法及装置
CN101460949A (zh) * 2006-06-01 2009-06-17 微软公司 索引文档以供信息检索
US20140068367A1 (en) * 2012-09-04 2014-03-06 Lsi Corporation LDPC Decoder Trapping Set Identification
US20150019480A1 (en) * 2013-07-11 2015-01-15 Salesforce.Com, Inc. Systems and methods for interacting with external content objects

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5899988A (en) * 1997-02-28 1999-05-04 Oracle Corporation Bitmapped indexing with high granularity locking
US8661025B2 (en) * 2008-11-21 2014-02-25 Stubhub, Inc. System and methods for third-party access to a network-based system for providing location-based upcoming event information
US8489676B1 (en) * 2010-06-30 2013-07-16 Symantec Corporation Technique for implementing seamless shortcuts in sharepoint
WO2014081727A1 (en) * 2012-11-20 2014-05-30 Denninghoff Karl L Search and navigation to specific document content
US9152716B1 (en) 2012-12-31 2015-10-06 Emc Corporation Techniques for verifying search results over a distributed collection
US9779132B1 (en) 2013-12-30 2017-10-03 EMC IP Holding Company LLC Predictive information discovery engine
CN105893337B (zh) 2015-01-04 2020-07-10 伊姆西Ip控股有限责任公司 用于文本压缩和解压缩的方法和设备
US10296650B2 (en) * 2015-09-03 2019-05-21 Oracle International Corporation Methods and systems for updating a search index
CN107203567A (zh) 2016-03-18 2017-09-26 伊姆西公司 用于搜索字串的方法和设备
CN110109868B (zh) 2018-01-18 2023-07-18 伊姆西Ip控股有限责任公司 用于索引文件的方法、装置和计算机程序产品

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536509A (zh) * 2003-04-11 2004-10-13 �Ҵ���˾ 倒排索引存储方法、倒排索引机制以及在线更新的方法
CN1858747A (zh) * 2006-04-30 2006-11-08 北京金山软件有限公司 一种数据存储/检索方法及系统
CN101460949A (zh) * 2006-06-01 2009-06-17 微软公司 索引文档以供信息检索
CN101136013A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种在全文检索系统中快速更新数据域的方法
CN101246500A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 一种实现数据快速索引的检索系统和方法
CN101404034A (zh) * 2008-11-20 2009-04-08 北京握奇数据系统有限公司 文件存储和查找的方法及装置
US20140068367A1 (en) * 2012-09-04 2014-03-06 Lsi Corporation LDPC Decoder Trapping Set Identification
US20150019480A1 (en) * 2013-07-11 2015-01-15 Salesforce.Com, Inc. Systems and methods for interacting with external content objects

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399545A (zh) * 2018-04-20 2019-11-01 伊姆西Ip控股有限责任公司 管理文档索引的方法和设备
CN110399545B (zh) * 2018-04-20 2023-06-02 伊姆西Ip控股有限责任公司 管理文档索引的方法和设备
CN112639762A (zh) * 2018-06-22 2021-04-09 高利得有限公司 数字文档管理系统
CN111447248A (zh) * 2019-01-16 2020-07-24 网宿科技股份有限公司 一种文件传输的方法及装置
CN111552766A (zh) * 2019-02-11 2020-08-18 国际商业机器公司 使用机器学习来表征在引用图形上应用的参考关系
CN111552766B (zh) * 2019-02-11 2024-03-01 国际商业机器公司 使用机器学习来表征在引用图形上应用的参考关系
CN113343043A (zh) * 2021-06-29 2021-09-03 北京奇艺世纪科技有限公司 索引的构建方法、检索方法及相应的装置、终端、介质
CN113343043B (zh) * 2021-06-29 2023-06-23 北京奇艺世纪科技有限公司 索引的构建方法、检索方法及相应的装置、终端、介质

Also Published As

Publication number Publication date
US20170371978A1 (en) 2017-12-28
US11068536B2 (en) 2021-07-20
CN107526746B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN107526746A (zh) 管理文档索引的方法和设备
CN105224566B (zh) 在关系数据库上支持命令式图形查询的方法和系统
CN109299100B (zh) 管理内存数据及在内存中维护数据的方法和系统
CN106021267B (zh) 对数据结构的并发读取和插入的方法和系统
CN105701098B (zh) 针对数据库中的表生成索引的方法和装置
CN104765731B (zh) 数据库查询优化方法和设备
CN105446966B (zh) 生成关系数据转换为rdf格式数据的映射规则的方法和装置
CN104216894B (zh) 用于数据查询的方法和系统
CN110134671B (zh) 一种面向溯源应用的区块链数据库数据管理系统及方法
CN102254029B (zh) 一种基于视图的数据访问系统及其方法
CN108228817A (zh) 数据处理方法、装置和系统
JP2000148461A (ja) ソフトウェアモデル及び既存のソ―スコ―ドを同期化させる方法及びその装置
Hamouda et al. Document-oriented data schema for relational database migration to NoSQL
CN111462327A (zh) 三维造型软件三维检验模型非结构化数据解析方法
CN111324577B (zh) 一种Yml文件读写的方法及装置
CN105095237A (zh) 用于生成非关系数据库的模式的方法和设备
US20130198117A1 (en) Systems and methods for semantic data integration
CN109871473A (zh) 一种对工程文件和数据库建立全文检索文档的方法
CN105447021A (zh) 用于数据库查询的方法和系统
CN109815240A (zh) 用于管理索引的方法、装置、设备和存储介质
CN105760418A (zh) 用于对关系数据库表进行交叉列搜索的方法和系统
CN107609011A (zh) 一种数据库记录的维护方法和装置
US20220019907A1 (en) Dynamic In-Memory Construction of a Knowledge Graph
KR101955376B1 (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치
JP7279524B2 (ja) データ管理プログラム、データ管理方法およびデータ管理システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200414

Address after: Massachusetts, USA

Applicant after: EMC IP Holding Company LLC

Address before: Ma Sazhusaizhou

Applicant before: EMC Corp.

GR01 Patent grant
GR01 Patent grant