CN103186622B - 一种全文检索系统中索引信息的更新方法以及装置 - Google Patents

一种全文检索系统中索引信息的更新方法以及装置 Download PDF

Info

Publication number
CN103186622B
CN103186622B CN201110457703.3A CN201110457703A CN103186622B CN 103186622 B CN103186622 B CN 103186622B CN 201110457703 A CN201110457703 A CN 201110457703A CN 103186622 B CN103186622 B CN 103186622B
Authority
CN
China
Prior art keywords
data
index information
document
attribute
retrieval system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110457703.3A
Other languages
English (en)
Other versions
CN103186622A (zh
Inventor
徐剑波
童征宇
闫进兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Original Assignee
Founder Information Industry Holdings Co Ltd
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Founder Information Industry Holdings Co Ltd, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Founder Information Industry Holdings Co Ltd
Priority to CN201110457703.3A priority Critical patent/CN103186622B/zh
Publication of CN103186622A publication Critical patent/CN103186622A/zh
Application granted granted Critical
Publication of CN103186622B publication Critical patent/CN103186622B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种全文检索系统中索引信息的更新方法以及装置,包括:该全文检索系统中索引信息包括对应同一文档标识的第一索引信息以及第二索引信息,其中,第一索引信息为针对文档标识对应的文档中动态更新属性的数据域对应的数据建立的索引信息,第二索引信息为针对文档标识对应的文档中非动态更新属性的数据域对应的数据建立的索引信息。全文检索系统对动态更新属性的数据域对应的数据进行监控,在监控到动态更新属性的数据域对应的数据存在新的数据后,对包括新的数据的动态更新属性的数据域对应的数据重新建立对应文档标识的第三索引信息。采用本技术方案,能够提高全文检索系统中索引信息的更新效率。

Description

一种全文检索系统中索引信息的更新方法以及装置
技术领域
本发明涉及信息检索技术领域,尤其涉及一种全文检索系统中索引信息的更新方法以及装置。
背景技术
全文检索系统是目前应用非常普及的一种检索系统,该检索系统主要根据预先建立的倒排索引文件确定出与用户终端提交的检索词匹配的文档,该文档一般为包括用户终端提交的各检索词的文档。
随着信息技术的发展以及检索需求的增加,在全文检索系统中,可能需要更新保存的文档中的部分数据域以实时反映保存的数据的状态,从而保证检索获取的信息的有效性。例如,在索引库中文档的主要内容不变的情况下,需要对该文档包括的部分数据域进行更新,如更新图书对应文档中包括的购买次数、点击量等数据域的数据,由于此类数据域的数据会随着用户的使用而不断更新,因此,数据更新成为全文检索系统处理数据的一个重要方面。
全文检索系统一般都采用倒排索引标识索引库中保存的文档,根据倒排索引文件格式的设计特点,一个文档的信息会散布在索引文件的多处位置,文档的标记会被包含在该文档的所有词项的对应文档列表中,从而使得倒排索引系统无法通过在现有索引上简单地修改某些数据项来实现索引的更新。目前,在更新数据的实际操作中,一般是对文档中的部分数据进行更新,将该更新后的新文档保存至全文检索系统的索引库中,并删除旧文档。这种方式需要将整个文档的内容再次提交到全文检索系统,这在只需要更新文档中部分数据域的数据的情况下,由于需要对文档中未更新的数据域中的数据重新创建索引,从而会消耗大量的时间,更新的效率很低,尤其在高频率更新的情况下,对全文检索系统的更新效率的影响会更加严重,甚至会影响检索的性能。
综上所述,现有全文检索系统对应只有部分数据域的数据更新的文档,会针对该文档中的全部数据重新建立索引信息,从而降低了全文检索系统中索引信息的更新效率。
发明内容
有鉴于此,本发明实施例提供一种全文检索系统中索引信息的更新方法以及装置,采用该技术方案,能够提高全文检索系统中索引信息的更新效率。
本发明实施例通过如下技术方案实现:
根据本发明实施例的一个方面,提供了一种全文检索系统中索引信息的更新方法,所述索引信息包括对应同一文档标识的第一索引信息以及第二索引信息,其中,所述第一索引信息为针对所述文档标识对应的文档中动态更新属性的数据域对应的数据建立的索引信息,所述第二索引信息为针对所述文档标识对应的文档中非动态更新属性的数据域对应的数据建立的索引信息;
所述更新方法,包括:
全文检索系统对所述动态更新属性的数据域对应的数据进行监控;
在监控到所述动态更新属性的数据域对应的数据存在新的数据后,对包括所述新的数据的动态更新属性的数据域对应的数据重新建立对应所述文档标识的第三索引信息。
根据本发明实施例的另一个方面,还提供了一种全文检索系统中索引信息的更新装置,包括:
索引信息建立单元,用于建立索引信息,所述索引信息包括对应同一文档标识的第一索引信息以及第二索引信息,其中,所述第一索引信息为针对所述文档标识对应的文档中动态更新属性的数据域对应的数据建立的索引信息,所述第二索引信息为针对所述文档标识对应的文档中非动态更新属性的数据域对应的数据建立的索引信息;
监控单元,用于对所述索引信息建立单元建立的第一索引信息对应的所述动态更新属性的数据域对应的数据进行监控;
索引信息更新单元,用于在所述监控单元监控到所述动态更新属性的数据域对应的数据存在新的数据后,对包括所述新的数据的动态更新属性的数据域对应的数据重新建立对应所述文档标识的第三索引信息。
通过本发明实施例提供的上述至少一个技术方案,全文检索系统在建立索引信息时,将索引信息分成两个索引信息,即包括对应同一文档标识的第一索引信息以及第二索引信息,其中,第一索引信息为针对文档标识对应的文档中动态更新属性的数据域对应的数据建立的索引信息,第二索引信息为针对文档标识对应的文档中非动态更新属性的数据域对应的数据建立的索引信息。基于该索引信息,全文检索系统在监控到动态更新属性的数据域对应的数据存在新的数据后,只需要对包括新的数据的动态更新属性的数据域对应的数据重新建立对应文档标识的第三索引信息。本技术方案与现有技术相比,全文检索系统在监控到索引信息包括的第一索引信息对应的动态更新属性的数据域中的数据存在新的数据后,只需对包括新的数据的动态更新属性的数据域对应的数据重新建立对应文档标识的第三索引信息,而无需针对整个文档重新建立索引,从而与现有技术相比,提高了全文检索系统中索引信息的更新效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例一提供的一种全文检索系统中索引信息的更新的流程示意图;
图2为本发明实施例一提供的全文检索系统查询文档的流程示意图;
图3为本发明实施例一提供的全文检索系统建立上述存储位置与第二标识的对应关系的流程示意图;
图4为本发明实施例一提供的全文检索系统根据检索请求进行检索的流程示意图;
图5为本发明实施例二提供的建立全文检索系统中索引信息的流程示意图;
图6为本发明实施例二提供的全文检索系统中索引信息的更新的流程示意图;
图7为本发明实施例三提供的全文检索系统根据检索请求进行检索的流程示意图;
图8为本发明实施例四提供的一种全文检索系统中索引信息的更新装置的结构示意图;
图9为本发明实施例四提供的一种全文检索系统中索引信息的更新装置的又一结构示意图;
图10为本发明实施例四提供的一种全文检索系统中索引信息的更新装置的又一结构示意图。
具体实施方式
为了给出提高全文检索系统中索引信息的更新效率的实现方案,本发明实施例提供了一种全文检索系统中索引信息的更新方法以及装置,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明提供的技术方案中,全文检索系统在最初建立索引信息时,会确定出文档的文档标识,例如,该文档标识可以为设定关键字段(KeyField)的值,也可以为能表征文档特征的值,此处不再一一例举,并根据数据是否存在更新的需求确定该数据的属性,具体地,将文档中有更新需求的数据设置为动态更新属性的数据,相应的将保存该动态更新属性的数据的数据域称为动态更新属性的数据域;将文档中除动态更新属性的数据之外的数据标识为非动态更新属性,相应的,将保存该非动态更新属性的数据的数据域称为非动态更新属性的数据域。
针对上述动态更新属性的数据域中的数据,全文检索系统将对应确定出的文档标识建立动态索引信息,本技术方案以下统称第一索引信息,对应上述非动态更新属性的数据域中的数据,全文检索系统将对应确定出的文档标识建立非动态索引信息,本技术方案以下统称第二索引信息。
实施例一
该实施例一提供了一种全文检索系统中索引信息的更新方法,该方法能够应用在全文检索系统中,通过在全文检索系统中应用本技术方案,能够克服现有技术中全文检索系统对应只有部分数据域的数据更新的文档,会针对该文档中的全部数据重新建立索引信息的问题,从而提高了全文检索系统中索引信息的更新效率。
图1是出了本发明实施例一提供的一种全文检索系统中索引信息的更新的流程示意图,如图1所示,该全文检索系统中索引信息的更新的过程,主要包括以下步骤:
步骤101、全文检索系统对动态更新属性的数据域对应的数据进行监控。
该步骤101中,全文检索系统监控动态更新属性的数据域对应的数据时,可以通过监控动态更新属性的数据域的状态确定该动态更新属性的数据域对应的数据是否有变动,例如,动态更新属性的数据域中未保存数据的存储空间被保存数据后,全文检索系统会接收到数据更新的指示信息,或者,全文检索系统会在设定时长内发送监控指令以获取动态更新属性的数据域的状态信息,或者,全文检索系统在接收的检索请求后,对该检索请求涉及的数据进行监控,例如,全文检索系统在根据检索请求进行检索后,能够确定根据该检索请求检索到的文档被浏览次数对应的数据会发生变更。以上仅为本技术方案提供的示例,实际应用中可以结合具体情况灵活设置,此处不再一一赘述。
步骤102、在监控到动态更新属性的数据域对应的数据存在新的数据后,对包括新的数据的动态更新属性的数据域对应的数据重新建立对应文档标识的第三索引信息。
至此,全文检索系统中索引信息的更新的流程结束。
图1对应的流程中,全文检索系统在监控到动态更新属性的数据域对应的数据存在新的数据后,只需要对包括新的数据的动态更新属性的数据域对应的数据重新建立对应文档标识的第三索引信息,并不需要对动态更新属性的数据域对应的数据之外的非动态更新属性的数据建立索引信息,从而克服了现有技术中全文检索系统对应只有部分数据域的数据更新的文档,会针对该文档中的全部数据重新建立索引信息的问题,提高了全文检索系统中索引信息的更新效率。
在图1对应的流程包括的步骤102之后,即在对包括新的数据的动态更新属性的数据域对应的数据重新建立对应文档标识的第三索引信息之后,全文检索系统会查询本地保存的文档,以确定保存的文档中不存在重复保存的文档,从而避免由于存在重复的文档影响检索结果的问题,具体地,全文检索系统查询文档的过程,如图2所示,主要包括以下步骤:
步骤201、全文检索系统确定文档标识对应的文档数。
该步骤201中,全文检索系统可以通过读取本地的索引文件,确定出保存该文档标识的文档列表,进一步,确定该文档列表中对应该文档标识保存的文档信息数,并将该文档信息数确定为文档标识对应的文档数。
步骤202、全文检索系统确定文档标识是否对应多个文档,若是,执行步骤203;否则结束流程。
步骤203、全文检索系统根据多个文档的保存时间,将多个文档中除保存时间最近的文档之外的文档设置为无效。
该步骤203中,全文检索系统可以通过多种方式将多个文档中除保存时间最近的文档之外的文档设置为无效,例如,将多个文档中除保存时间最近的文档之外的文档进行标记删除以表征该文档的无效,或者,也可以对多个文档中除保存时间最近的文档之外的文档进行删除操作,以上为本技术方案提供的示例,实际应用中可以根据具体情况灵活设置,此处不再做过多描述。
至此,全文检索系统查询文档的流程结束。
在图1对应的流程包括的步骤102之后,即在对包括新的数据的动态更新属性的数据域对应的数据重新建立对应文档标识的第三索引信息之后,全文检索系统还可以建立第一标识与第二标识的对应关系,其中,第一标识为动态更新属性的数据域对应的数据所在文档的标识,第二标识为非动态更新属性的数据域对应的数据所在文档的标识,并进一步建立包括新的数据的动态更新属性的数据域对应的数据的存储位置与第二标识的对应关系,具体地,全文检索系统建立上述存储位置与第二标识的对应关系的过程,如图3所示,主要包括以下步骤:
步骤301、全文检索系统确定用于保存动态更新属性的数据域对应的数据的文档的第一标识,以及确定用于保存非动态更新属性的数据域对应的数据的文档的第二标识。
该步骤301中,用于保存动态更新属性的数据域对应的数据的文档可以为单独保存动态更新属性的数据的文档,用于保存非动态更新属性的数据域对应的数据的文档可以为单独保存非动态更新属性的数据的文档,全文检索系统对应上述各文档分别分配了第一标识以及第二标识,实际应用中,用于保存动态更新属性的数据域对应的数据的文档中还可以保存有非动态更新属性的数据,即用于保存动态更新属性的数据域对应的数据的文档与用于保存非动态更新属性的数据域对应的数据的文档可以为同一文档,全文检索系统对该文档包括的动态更新属性的数据、非动态更新属性的数据分别分配了第一标识与第二标识。上述第一标识与第二标识分别对应步骤102中所述的文档标识保存。
步骤302、全文检索系统建立第一标识与第二标识的对应关系。
该步骤302中,全文检索系统根据第一标识与文档标识的对应关系、第二标识与文档标识的对应关系,建立第一标识与第二标识的对应关系。
步骤303、全文检索系统确定包括新的数据的动态更新属性的数据域对应的数据的存储位置。
该步骤303中,全文检索系统可以直接确定出包括新的数据的动态更新属性的数据域对应的数据的存储位置,在确定数据的存储位置时,可以选择不读取设置为无效的文档对应的动态更新属性的数据的存储位置的信息,或者,全文检索系统可以将包括新的数据的动态更新属性的数据域中除设置为无效的文档对应的动态更新属性的数据之外的数据重新保存,并获取重新保存的各动态更新属性的数据的存储位置。
步骤304、全文检索系统建立确定出的存储位置与第二标识的对应关系。
该步骤304中,全文检索系统可以根据存储位置所存储的数据所在的文档对应的第一标识、第一标识与第二标识的对应关系,建立确定出的存储位置与第二标识的对应关系。
至此,全文检索系统建立上述存储位置与第二标识的对应关系的流程结束。
在图3对应的流程包括的步骤304之后,即在全文检索系统建立确定出的存储位置与第二标识的对应关系之后,全文检索系统可以对接收的检索请求进行相应的操作以检索出检索请求包括的检索词所在的文档,具体地,全文检索系统根据检索请求进行检索的过程,如图4所示,主要包括以下步骤:
步骤401、全文检索系统接收用户提交的检索请求,并确定检索请求包括的检索词所在文档的标识。
步骤402、全文检索系统根据保存的存储位置与第二标识的对应关系,确定与检索词所在文档的标识对应的存储位置。
该步骤402中,实际应用中,数据被保存时一般按照数据值的大小依次保存,例如,依次根据数据值从大到小对数据进行保存。若全文检索系统需要对检索到的文档根据数据值的大小进行排序,则可以在全文检索系统确定出数据的存储位置后即对检索到的各文档进行相应的排序,此外,还可以根据存储位置所存储的数据的特征对存储位置进行分组,从而全文检索系统能够根据确定出的存储位置所在的组对检索到的文档进行分组,以上仅为本技术方案给出的优选实施方式,实际应用中,还可以根据需要进行灵活的设置,此处不再赘述。
步骤403、根据确定出的存储位置,读取存储位置保存的数据。
至此,全文检索系统根据检索请求进行检索的流程结束。
实施例二
该实施例二提供了一种建立全文检索系统中索引信息的方法的应用场景,进一步,对应该建立全文检索系统中索引信息的方法,以及实施例一提供的一种全文检索系统中索引信息的更新方法,本实施例二还提供了全文检索系统中索引信息的更新方法的应用场景。
图5示出了本发明实施例二提供的一种建立全文检索系统中索引信息的流程示意图,具体地,如图5所示,该建立全文检索系统中索引信息的过程,主要包括以下步骤:
步骤501、将文档中需要更新的数据设置为动态属性的数据,并保存在动态数据域中。
该步骤501中,动态属性的数据对应实施例一中所述的动态更新属性的数据,相应的,动态数据域为实施例一中所述的动态更新属性的数据域。
步骤502、将文档中除需要更新的数据之外的数据设置为静态属性的数据,并保存在静态数据域中。
该步骤502中,静态属性的数据对应实施例一中所述的非动态更新属性的数据,相应的,静态数据域为实施例一中所述的非动态更新属性的数据域。此外,步骤502与步骤501并无严格的执行顺序,例如,可以同时执行步骤501以及步骤502,或者根据设定方式依次执行,此处不做限定。
步骤503、将动态数据域中的数据对应KeyField建立动态索引信息,将静态数据域中的数据对应KeyField建立静态索引信息。
该步骤503中,KeyField为全文检索系统为步骤501中的文档分配的标识信息,动态索引信息为实施例一所述的第一索引信息,静态索引信息为实施例一所述的第二索引信息。
至此,建立全文检索系统中索引信息的流程结束。
对应上述建立全文检索系统中索引信息的过程,以及本发明实施例一提供的全文检索系统中索引信息的更新方法,图6示出了本发明实施例二提供了一种全文检索系统中索引信息的更新的流程示意图,具体地,如图6所示,该全文检索系统中索引信息的更新的过程,主要包括以下步骤:
步骤601、全文检索系统确定动态数据中存在新的数据。
步骤602、全文检索系统确定文档列表中对应KeyField保存的文档信息数,若对应KeyField保存多个文档信息,则将多个文档信息对应的文档中除最近保存的文档之外的文档标记上删除的标识信息。
步骤603、全文检索系统对存在新的数据的动态数据域中的数据重新建立动态索引信息。
步骤604、全文检索系统确定重新建立的动态索引信息中对应KeyField保存的第一标识,以及静态索引信息中对应KeyField保存的第二标识,并建立第一标识与第二标识的对应关系。
该步骤604中,第一标识以及第二标识可以参考上述步骤301中所述的第一标识以及第二标识,此处不再赘述。
步骤605、全文检索系统将存在新的数据的动态数据域的数据中除标记上删除的标识信息的文档对应的数据之外的数据保存在值辅助文件中,并获取各数据被保存的位置的顺序号。
该步骤605中,全文检索系统根据存在新的数据的动态数据域的数据对应的特征(Term),将该动态数据域的数据对应该Term重新保存,即保存在值辅助文件中,该保存数据的方式可以采用有序数组的方式保存数据,或采用地图(MAP)结构保存数据,实际中可以根据具体情况采用相应的数据保存方式。
步骤606、建立映射辅助文件用于保存顺序号与第二标识的对应关系。
该步骤606中,顺序号与第二标识的对应关系的确定方式可以参考步骤304,此处不再赘述。在保存顺序号与第二标识的对应关系时,此处,本发明以有序数组方式保存数据为例,具体地,可以将第二标识作为下标,将顺序号对应的值保存在数组中。
至此,全文检索系统中索引信息的更新的流程结束。
实施例三
该实施例三对应实施例二提供的全文检索系统中索引信息的更新方法,提供了一种全文检索系统根据检索请求进行检索的方法的应用场景。
图7示出了本发明实施例三提供的一种全文检索系统根据检索请求进行检索的流程示意图,具体地,全文检索系统根据检索请求进行检索的过程,主要包括以下步骤:
步骤701、全文检索系统接收用户提交的检索请求,并确定检索请求包括的检索词所在文档的标识;
步骤702、全文检索系统根据保存的顺序号与第二标识的对应关系,确定与检索词所在文档的标识对应的顺序号;
步骤703、根据该顺序号确定出该文档的动态属性数据被保存的顺序号,并读取数据。
至此,全文检索系统根据检索请求进行检索的流程结束。
在图7对应的流程包括的步骤702之后,即在全文检索系统根据保存的顺序号与第二标识的对应关系,确定与检索词所在文档的标识对应的顺序号之后,基于数据一般根据数据值的大小进行依次保存,全文检索系统可以根据确定的顺序号,对根据检索请求检索到的各文档进行排序;或,全文检索系统可以根据数据对应的特征对数据被保存的顺序号进行分组,从而全文检索系统可以根据确定出的顺序号对检索到的文档进行分组;或者,全文检索系统可以根据数据所对应的设定集合,建立设定集合与数据被保存的顺序号的对应关系,全文检索系统若在设定集合中不能够查找到确定出的顺序号对应的数据,则可以在检索结果中不包括该数据所在的文档。
实施例四
该实施例四提供了一种全文检索系统中索引信息的更新装置,该装置能够应用在全文检索系统中,通过在全文检索系统中应用本技术方案,能够克服现有技术中全文检索系统对应只有部分数据域的数据更新的文档,会针对该文档中的全部数据重新建立索引信息的问题,从而提高全文检索系统中索引信息的更新效率。
图8示出了本发明提供的一种全文检索系统中索引信息的更新装置的结构示意图,具体地,如图8所示,该全文检索系统中索引信息的更新装置,包括:
索引信息建立单元801、监控单元802以及索引信息更新单元803;其中:
索引信息建立单元801,用于建立索引信息,索引信息包括对应同一文档标识的第一索引信息以及第二索引信息,其中,第一索引信息为针对文档标识对应的文档中动态更新属性的数据域对应的数据建立的索引信息,第二索引信息为针对文档标识对应的文档中非动态更新属性的数据域对应的数据建立的索引信息;
监控单元802,用于对索引信息建立单元801建立的第一索引信息对应的动态更新属性的数据域对应的数据进行监控;
索引信息更新单元803,用于在监控单元802监控到动态更新属性的数据域对应的数据存在新的数据后,对包括新的数据的动态更新属性的数据域对应的数据重新建立对应文档标识的第三索引信息。
本发明实施例四提供的优选实施方式中,图8所示装置包括的索引信息更新单元803,还用于:
在对包括新的数据的动态更新属性的数据域对应的数据重新建立对应文档标识的第三索引信息之后,确定文档标识对应的文档数,并在确定文档标识对应多个文档时,根据多个文档的保存时间,将多个文档中除保存时间最近的文档之外的文档设置为无效。
本发明实施例四提供的优选实施方式中,图8所示装置包括的索引信息更新单元803,具体用于:
确定保存文档信息的文档列表中与文档标识对应的文档信息数,并将文档标识对应的文档信息数确定为文档标识对应的文档数。
如图9所示,本发明实施例四提供的优选实施方式中,图8所示装置进一步包括对应关系建立单元804,用于在索引信息更新单元803对包括新的数据的动态更新属性的数据域对应的数据重新建立对应文档标识的第三索引信息之后,确定用于保存动态更新属性的数据域对应的数据的文档的第一标识,以及确定用于保存非动态更新属性的数据域对应的数据的文档的第二标识,并建立第一标识与第二标识的对应关系,确定包括新的数据的动态更新属性的数据域对应的数据的存储位置,并建立确定出的存储位置与第二标识的对应关系。
如图10所示,本发明实施例四提供的优选实施方式中,图9所示装置进一步包括检索单元805,用于在对应关系建立单元804建立确定出的存储位置与第二标识的对应关系之后,接收用户提交的检索请求,并确定检索请求包括的检索词所在文档的标识,根据保存的存储位置与第二标识的对应关系,确定与检索词所在文档的标识对应的存储位置,并根据确定出的存储位置,读取存储位置保存的数据。
应当理解,以上装置包括的单元仅为根据该装置实现的功能进行的逻辑划分,实际应用中,可以进行上述单元的叠加或拆分。并且该实施例提供的装置所实现的功能与上述实施例提供的全文检索系统中索引信息的更新方法流程一一对应,对于该装置所实现的更为详细的处理流程,在上述方法实施例中已做详细描述,此处不再详细描述。
并且,本实施例四中的全文检索系统中索引信息的更新装置还具有能够实现实施例一、实施例二以及实施例三方案的功能模块,此处不再赘述。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的更新和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种全文检索系统中索引信息的更新方法,其特征在于,所述索引信息包括对应同一文档标识的第一索引信息以及第二索引信息,其中,所述第一索引信息为针对所述文档标识对应的文档中动态更新属性的数据域对应的数据建立的索引信息,所述第二索引信息为针对所述文档标识对应的文档中非动态更新属性的数据域对应的数据建立的索引信息;
所述更新方法,包括:
全文检索系统对所述动态更新属性的数据域对应的数据进行监控;
在监控到所述动态更新属性的数据域对应的数据存在新的数据后,对包括所述新的数据的动态更新属性的数据域对应的数据重新建立对应所述文档标识的第三索引信息;
在对包括所述新的数据的动态更新属性的数据域对应的数据重新建立对应所述文档标识的第三索引信息之后,还包括:
确定用于保存动态更新属性的数据域对应的数据的文档的第一标识,以及确定用于保存非动态更新属性的数据域对应的数据的文档的第二标识,并建立所述第一标识与所述第二标识的对应关系;
确定包括所述新的数据的动态更新属性的数据域对应的数据的存储位置;并
建立确定出的所述存储位置与所述第二标识的对应关系。
2.如权利要求1所述的方法,其特征在于,在建立确定出的所述存储位置与所述第二标识的对应关系之后,还包括:
全文检索系统接收用户提交的检索请求,并确定所述检索请求包括的检索词所在文档的标识;
根据保存的所述存储位置与所述第二标识的对应关系,确定与所述检索词所在文档的标识对应的存储位置;
根据确定出的所述存储位置,读取所述存储位置保存的数据。
3.一种全文检索系统中索引信息的更新装置,其特征在于,包括:
索引信息建立单元,用于建立索引信息,所述索引信息包括对应同一文档标识的第一索引信息以及第二索引信息,其中,所述第一索引信息为针对所述文档标识对应的文档中动态更新属性的数据域对应的数据建立的索引信息,所述第二索引信息为针对所述文档标识对应的文档中非动态更新属性的数据域对应的数据建立的索引信息;
监控单元,用于对所述索引信息建立单元建立的第一索引信息对应的所述动态更新属性的数据域对应的数据进行监控;
索引信息更新单元,用于在所述监控单元监控到所述动态更新属性的数据域对应的数据存在新的数据后,对包括所述新的数据的动态更新属性的数据域对应的数据重新建立对应所述文档标识的第三索引信息;
对应关系建立单元,用于在所述索引信息更新单元对包括所述新的数据的动态更新属性的数据域对应的数据重新建立对应所述文档标识的第三索引信息之后,确定用于保存动态更新属性的数据域对应的数据的文档的第一标识,以及确定用于保存非动态更新属性的数据域对应的数据的文档的第二标识,并建立所述第一标识与所述第二标识的对应关系,确定包括所述新的数据的动态更新属性的数据域对应的数据的存储位置,并建立确定出的所述存储位置与所述第二标识的对应关系。
4.如权利要求3所述的装置,其特征在于,还包括:
检索单元,用于在所述对应关系建立单元建立确定出的所述存储位置与所述第二标识的对应关系之后,接收用户提交的检索请求,并确定所述检索请求包括的检索词所在文档的标识,根据保存的所述存储位置与所述第二标识的对应关系,确定与所述检索词所在文档的标识对应的存储位置,并根据确定出的所述存储位置,读取所述存储位置保存的数据。
CN201110457703.3A 2011-12-30 2011-12-30 一种全文检索系统中索引信息的更新方法以及装置 Active CN103186622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110457703.3A CN103186622B (zh) 2011-12-30 2011-12-30 一种全文检索系统中索引信息的更新方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110457703.3A CN103186622B (zh) 2011-12-30 2011-12-30 一种全文检索系统中索引信息的更新方法以及装置

Publications (2)

Publication Number Publication Date
CN103186622A CN103186622A (zh) 2013-07-03
CN103186622B true CN103186622B (zh) 2016-03-30

Family

ID=48677791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110457703.3A Active CN103186622B (zh) 2011-12-30 2011-12-30 一种全文检索系统中索引信息的更新方法以及装置

Country Status (1)

Country Link
CN (1) CN103186622B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631937B (zh) * 2013-12-06 2017-03-15 北京趣拿信息技术有限公司 构建列存储索引的方法、装置及系统
CN104572871A (zh) * 2014-12-19 2015-04-29 乐视网信息技术(北京)股份有限公司 基于索引表检索的方法及装置
CN104572879A (zh) * 2014-12-19 2015-04-29 乐视网信息技术(北京)股份有限公司 更新索引表的方法及装置、基于索引表检索的方法及装置
CN105868210B (zh) * 2015-01-21 2019-07-19 阿里巴巴集团控股有限公司 一种分布式数据库中唯一索引的创建方法和装置
CN106156111B (zh) * 2015-04-03 2021-10-19 北京中知智慧科技有限公司 专利文件检索方法、装置和系统
CN105488165B (zh) * 2015-11-30 2020-07-03 北京金山安全软件有限公司 基于索引库的数据检索方法及系统
CN106407450A (zh) * 2016-09-30 2017-02-15 网易(杭州)网络有限公司 文件搜索方法及装置
CN109002444A (zh) * 2017-06-07 2018-12-14 北大方正集团有限公司 全文检索方法和全文检索装置
CN109284350B (zh) * 2018-11-16 2020-11-13 天津字节跳动科技有限公司 检索内容的更新方法、装置、存储介质及电子设备
CN112380416A (zh) * 2020-11-25 2021-02-19 北京慕华信息科技有限公司 一种更新课程索引的方法、课程搜索方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136013A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种在全文检索系统中快速更新数据域的方法
CN101136016A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种全文检索系统的索引在线更新方法
CN101408876A (zh) * 2007-10-09 2009-04-15 中兴通讯股份有限公司 一种电子文档全文检索的方法及系统
CN101650741A (zh) * 2009-08-27 2010-02-17 中国电信股份有限公司 一种分布式全文检索的索引实时更新的方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7765213B2 (en) * 2007-06-08 2010-07-27 Apple Inc. Ordered index

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136013A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种在全文检索系统中快速更新数据域的方法
CN101136016A (zh) * 2006-09-01 2008-03-05 北大方正集团有限公司 一种全文检索系统的索引在线更新方法
CN101408876A (zh) * 2007-10-09 2009-04-15 中兴通讯股份有限公司 一种电子文档全文检索的方法及系统
CN101650741A (zh) * 2009-08-27 2010-02-17 中国电信股份有限公司 一种分布式全文检索的索引实时更新的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种动态更新索引结构的设计与实现;郭琦娟;《计算机系统应用》;20061231;76-79页 *

Also Published As

Publication number Publication date
CN103186622A (zh) 2013-07-03

Similar Documents

Publication Publication Date Title
CN103186622B (zh) 一种全文检索系统中索引信息的更新方法以及装置
CN102667772B (zh) 文件级分级存储管理系统、方法和设备
CN104298681B (zh) 一种数据存储方法及装置
CN103164490B (zh) 一种不固定长度数据的高效存储实现方法和装置
US20130151492A1 (en) Information processing system
CN103530387A (zh) 一种hdfs针对小文件的改进方法
CN103678556A (zh) 列式数据库处理的方法和处理设备
CN101944124A (zh) 分布式文件系统管理方法、装置以及对应的文件系统
CN104679847B (zh) 一种构建在线实时更新海量音频指纹库的方法和设备
CN104111804A (zh) 一种分布式文件系统
CN105677904B (zh) 基于分布式文件系统的小文件存储方法及装置
CN104794177A (zh) 一种数据存储方法及装置
CN102033948A (zh) 一种数据更新方法和装置
CN104881466A (zh) 数据分片的处理以及垃圾文件的删除方法和装置
CN110109868A (zh) 用于索引文件的方法、装置和计算机程序产品
CN102253985B (zh) 一种文件系统数据的管理方法及系统
CN103246549A (zh) 一种数据转存的方法及系统
CN102024051B (zh) 分布式内存数据库数据更新方法
CN103841168B (zh) 数据副本更新方法及元数据服务器
CN102819570B (zh) 一种数据访问方法、装置及系统
CN108804571B (zh) 一种数据存储方法、装置以及设备
CN116414935A (zh) 一种基于Elastic Search的分布式搜索空间矢量数据的方法
CN111752941A (zh) 一种数据存储、访问方法、装置、服务器及存储介质
CN102915324A (zh) 数据存储与检索装置和数据存储与检索方法
CN103279575A (zh) 文件信息处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: FOUNDER INFORMATION INDUSTRY HOLDING CO., LTD. BEI

Free format text: FORMER OWNER: BEIJING FOUNDER APABI TECHNOLOGY CO., LTD.

Effective date: 20130902

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130902

Address after: 100871 Beijing, Haidian District into the house road, founder of the building on the 9 floor, No. 298

Applicant after: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant after: FOUNDER INFORMATION INDUSTRY HOLDINGS Co.,Ltd.

Applicant after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871 Beijing, Haidian District into the house road, founder of the building on the 9 floor, No. 298

Applicant before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant before: FOUNDER APABI TECHNOLOGY Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee after: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee after: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER INFORMATION INDUSTRY HOLDINGS Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

TR01 Transfer of patent right

Effective date of registration: 20220914

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

TR01 Transfer of patent right