CN114020745A - 一种索引构建方法、装置、电子设备和存储介质 - Google Patents

一种索引构建方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114020745A
CN114020745A CN202111296283.5A CN202111296283A CN114020745A CN 114020745 A CN114020745 A CN 114020745A CN 202111296283 A CN202111296283 A CN 202111296283A CN 114020745 A CN114020745 A CN 114020745A
Authority
CN
China
Prior art keywords
index
data
database
target
target index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111296283.5A
Other languages
English (en)
Inventor
刘大伟
王永豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qury Technology Co ltd
Shandong Kurui Technology Co ltd
Original Assignee
Beijing Qury Technology Co ltd
Shandong Kurui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qury Technology Co ltd, Shandong Kurui Technology Co ltd filed Critical Beijing Qury Technology Co ltd
Priority to CN202111296283.5A priority Critical patent/CN114020745A/zh
Publication of CN114020745A publication Critical patent/CN114020745A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种索引构建方法、装置、电子设备和存储介质,包括:基于构建目标索引库的时间,确定全量数据库的索引标志;将全量数据库中在索引标志之前的第一索引数据经过预设处理后存储到目标索引库;在目标索引库构建完成时,基于目标索引库进行数据索引,保证搜索效果,提高用户使用感受。

Description

一种索引构建方法、装置、电子设备和存储介质
技术领域
本公开涉及数据搜索技术领域,尤其涉及一种索引构建方法、装置、电子设备和存储介质。
背景技术
索引在搜索引擎中泛指用于检索数据文件的总称,在搜索场景中占着非常重要的地位。把数据集中用于检索的数据构建索引的过程成为索引构建,索引构建在搜索场景中经常发生,当对索引的结构进行修改或者修改索引中的数据时都会引起索引构建的过程。流批一体中的流是指对索引新添加的数据流,批是指对索引数据的批量处理操作。主要包含两个需求,分别针对流和批,一个是针对流,有实时性的需求,另一个是针对批,即对已有数据进行优化时的批处理需求。索引的构建主要是为了对搜索结果的质量和效率进行优化,提升用户的搜索体验。
现有的对搜索索引的维护会同时有流和批两者的需求,即既要保证索引的实时性,还要为了效率和其他因素对索引进行批量处理。例如,一个需求是当新添加了一个商品,需要在搜索过程中立刻看到,就需要立刻添加到索引中,实时性要求较高。但是如果搜索领域较为复杂繁多,索引的体量十分庞大,为了满足搜索效率、降低存储成本等,需要定期对全量索引进行压缩,合并等操作,此时是另外一个需求,对索引的批量处理。
现有技术中为实现实时索引和批量索引,需要维护两套系统,分别满足对应的需求,但是维护两套系统的维护成本比较高且存在数据重复的问题,且用户体验感较差。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种索引构建方法、装置、电子设备和存储介质,提高用户搜索体验。
第一方面,本公开实施例提供了一种索引构建方法,包括:
基于构建目标索引库的时间,确定全量数据库的索引标志;
将所述全量数据库中在所述索引标志之前的第一索引数据经过预设处理后存储到所述目标索引库;
在所述目标索引库构建完成时,基于所述目标索引库进行数据索引。
可选的,所述方法还包括:
在所述目标索引库未构建完成时,基于所述初始索引库进行数据索引。
可选的,所述将所述全量数据库中在所述索引标志之前的第一索引数据经过预设处理后存储到所述目标索引库,包括:
将所述全量数据库中在所述索引标志之前的第一索引数据进行压缩合并处理得到第一目标索引数据;
将所述第一目标索引数据发送至第一消息队列;
通过所述第一消息队列将所述第一目标索引数据排列发送至所述目标索引库。
可选的,所述方法还包括:
基于索引转换模块,确定所述目标索引库是否构建完成。
可选的,所述在所述目标索引库构建完成时,基于所述目标索引库进行数据索引之前,还包括:
将在所述索引标志之后写入至全量数据库的第二索引数据分别存储到所述初始索引库和所述目标索引库。
可选的,所述将在所述索引标志之后写入至全量数据库的第二索引数据分别存储到所述初始索引库和所述目标索引库,包括:
将在所述索引标志之后写入至全量数据库的第二索引数据分别发送至第二消息队列;
通过所述第二消息队列依次排列后分别发送至所述初始索引库和所述目标索引库。
可选的,所述在所述目标索引库构建完成时,基于所述目标索引库进行数据索引,包括:
在所述目标索引库构建完成时,响应于用户的触发操作,通过搜索引擎调用目标索引库进行数据索引。
第二方面,本公开实施例提供一种索引构建装置,包括:
索引标志确定模块,用于基于构建目标索引库的时间,确定全量数据库的索引标志;
存储模块,用于将所述全量数据库中在所述索引标志之前的第一索引数据经过预设处理后存储到所述目标索引库;
数据索引模块,用于在所述目标索引库构建完成时,基于所述目标索引库进行数据索引。
可选的,索引构建装置还包括:
初始索引库索引模块,用于在所述目标索引库未构建完成时,基于所述初始索引库进行数据索引。
可选的,存储模块包括:
第一目标索引数据处理单元,用于将所述全量数据库中在所述索引标志之前的第一索引数据进行压缩合并处理得到第一目标索引数据;
第一发送单元,用于将所述第一目标索引数据发送至第一消息队列;
第二发送单元,用于通过所述第一消息队列将所述第一目标索引数据排列发送至所述目标索引库。
可选的,索引构建装置还包括:
确定模块,用于基于索引转换模块,确定所述目标索引库是否构建完成。
可选的,存储模块还用于:
将在所述索引标志之后写入至全量数据库的第二索引数据分别存储到所述初始索引库和所述目标索引库。
具体的:
将在所述索引标志之后写入至全量数据库的第二索引数据分别发送至第二消息队列;
通过所述第二消息队列依次排列后分别发送至所述初始索引库和所述目标索引库。
可选的,数据索引模块具体用于:
在所述目标索引库构建完成时,响应于用户的触发操作,通过搜索引擎调用目标索引库进行数据索引。
第三方面,本公开实施例提供一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一所述的方法。
第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一所述的方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供的索引构建方法、装置、电子设备和存储介质,基于构建目标索引库的时间,确定全量数据库的索引标志,将全量数据库中在索引标志之前的第一索引数据经过预设处理后存储到目标索引库,在目标索引库构建完成时,基于目标索引库进行数据索引,将全量数据库中在索引标志之前的第一索引数据经过预设处理(合并压缩)后存储到目标索引库中,基于目标索引库进行数据索引,在满足索引实时性的同时提高索引效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种索引构建方法的流程示意图;
图2是本公开实施例提供的另一种索引构建方法的流程示意图;
图3是本公开实施例提供的又一种索引构建方法的流程示意图;
图4是本公开实施例提供的又一种索引构建方法的流程示意图;
图5是本公开实施例提供的一种索引构建的结构示意图;
图6是本公开实施例提供的又一种索引构建方法的流程示意图;
图7是本公开实施例提供的一种索引构建装置的结构示意图;
图8是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
用户在搜索时,可通过在智能设备中的应用程序、应用程序中的小程序或者网站等进行搜索,以获取搜索结果,对应用户的搜索过程,是基于索引进行的。
现有的对搜索索引的维护会同时有流和批两者的需求,即既要保证索引的实时性,还要为了效率和其他因素对索引进行批量处理。例如,一个需求是当新添加了一个商品,需要在搜索过程中立刻看到,就需要立刻添加到索引中,实时性要求较高。但是如果搜索领域较为复杂繁多,索引的体量十分庞大,为了满足搜索效率、降低存储成本等,需要定期对全量索引进行压缩,合并等操作,此时是另外一个需求,对索引的批量处理。
因此,为保证索引的实时性以及索引效率,现有技术中通常通过建立两个索引库,当用户进行实时索引时,基于实时索引库进行搜索,当用户进行批量索引时,基于批量索引库进行搜索,但是,使用两个索引库满足索引的实时性以及搜索效率的同时,无法保证实时索引库和批量索引库数据的同步,且系统维护成本较高。
基于此,本公开基于构建目标索引库的时间,将初始索引库中在索引标志之前的第一索引数据经过预设处理(合并压缩)后存储到目标索引库中,基于目标索引库进行数据索引,在满足索引实时性的同时提高索引效率。
示例性地,本公开提供一种索引构建方法、装置、电子设备和介质,基于构建目标索引库的时间,确定全量数据库的索引标志;将全量数据库中在所述索引标志之前的第一索引数据经过预设处理后存储到目标索引库;在目标索引库构建完成时,基于目标索引库进行数据索引,从而,能够基于多个内容源中的搜索结果响应一个内容源中的搜索请求,扩大内容源中数据的搜索场景,便于用户可直接在一个内容源中获取到想要的有效内容数据。
其中,本公开的索引构建方法由电子设备或者电子设备中安装的客户端来执行。电子设备可以是平板电脑、手机、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digitalassistant,PDA)、智能电视、智慧屏、高清电视、4K电视、智能音箱、智能投影仪等设备,本公开对电子设备的具体类型不作任何限制。
其中,本公开对电子设备的操作系统的类型不做限定。例如,Android系统、Linux系统、Windows系统、iOS系统等。
下面以几个具体的实施例对本公开的技术方案做详细描述。
图1为本公开提供的一种索引构建方法的流程示意图,如图1所示,本实施例的方法如下:
S10、基于构建目标索引库的时间,确定全量数据库的索引标志。
索引标志主要是为了标识构建目标索引库的时间,即当用户需要使用索引库实现实时索引和批量索引,将全量数据库中的第一索引数据进行预设处理后存储到目标索引库,实现在构建目标索引库后,将全量数据库中索引标志之前的第一索引数据迁移至目标索引库,将索引标志之后的数据,同时插入到第一索引库和目标索引库,实现在目标索引库进行实时索引和批量索引。
需要说明的是,索引标志可以为时间标志,也可以为事件标志,本公开实施例不对索引标志进行具体限定。
S20、将全量数据库中在索引标志之前的第一索引数据经过预设处理后存储到目标索引库。
由于数据的存储在磁盘中是以一个个文件的形式,也可以成为块,每个段包含多个块,但是数据存储到磁盘中,并不一定都是顺序存储的,这样就会在段中存在没有使用的块,成为碎片,合并的过程就可以是把各个小段合并成大段,把其中的碎片利用起来,达到索引合并的目的,此外,数据在压缩之前可能是使用同样的存储方式,当采用不同的压缩方式对数据进行压缩可以达到数据压缩效果,示例性的,以前缀压缩为例,例如存在两个文本,temp和template,就可以把temp合并,只存储一份,达到压缩的目的。当对初始索引库中的第一索引数据进行压缩和/或合并操作,可以减少存储空间,降低存储成本,提高搜索效率的目的。
基于此,本公开实施例通过将全量数据库中在索引标志之前的第一索引数据进行预设处理后存储到目标索引库,其中,预设处理包括压缩和/或合并操作。
此外,由于全量数据库是不断写入索引数据的,因此,仅仅将全量数据库中在索引标志之前的第一索引数据经过预设处理后存储到目标索引库,可避免随着索引数据的不断写入,进而导致全量数据库会源源不断的将数据写入目标索引库进而造成初始索引库无法停止写入数据至目标索引库。
S40、在目标索引库构建完成时,基于目标索引库进行数据索引。
当将目标索引库构建完成后,此时全量数据库中的第一索引数据经过预设处理后被存储到目标索引库,而位于索引标志之后写入的第二索引数据会被分别写入至初始索引库和目标索引库,此时,位于目标索引库中的索引数据不仅仅包括经过预设处理后的第一索引数据,还包括在索引标志位之后写入的索引数据,此时,基于目标索引库进行数据索引,在保证索引实时性的同时,可以保证索引效率。
具体的,基于索引转换模块,确定目标索引库是否构建完成。
索引转换模块主要是为了判断目标索引库是否构建完成,在目标索引库未构建完成之前,为了保证索引的实时性,搜索引擎一直调用的初始索引库。而当目标索引库把索引标志之前的第一索引数据处理完成之后,然后把目标索引库与全量数据库之间的缓存介质中索引标志之后的第二索引数据也全部更新到目标索引库中时,即是目标索引库构建完成的时间,此时可以把搜索引擎调用的索引库切换到目标索引库中,并抛弃初始索引库,此时目标索引库的索引数据经过优化,搜索效果会更加精准,搜索效率会有所提升,提高用户的搜索体验。
本公开实施例提供的索引构建方法,基于构建目标索引库的时间,确定全量数据库的索引标志,将全量数据库中在索引标志之前的第一索引数据经过预设处理后存储到目标索引库,在目标索引库构建完成时,基于目标索引库进行数据索引,将全量数据库中在索引标志之前的第一索引数据经过预设处理(合并压缩)后存储到目标索引库中,基于目标索引库进行数据索引,在满足索引实时性的同时提高索引效率。
图2是本公开实施例提供的另一种索引构建方法的流程示意图,本公开实施例是在上述实施例的基础上,如图2所示,所述方法还包括:
S50、在目标索引库未构建完成时,基于初始索引库进行数据索引。
目标索引库未构建完成指的是未完成将全量数据库中的索引标志之前的第一索引数据存储到目标索引库。
需要说明的是,在目标索引库未构建完成时,可能会存在部分实时写入的索引数据,在目标索引库未构建完成时,将实时写入的索引数据分别写入初始索引库以及全量数据库与目标索引库之间的缓存介质。
当目标索引库未构建完成时,目标索引库中的索引数据不能完全表示数据库中的所有数据,为保证索引结果的准确性,在目标索引库未构建完成时,基于初始索引库进行数据索引。
本公开实施例提供的索引构建方法,当目标索引库未构建完成时,基于初始索引库进行数据索引,避免在构建索引库的过程中,若目标索引库未构建完成而基于目标索引库进行数据索引时,索引准确率较低,此外,可避免目标索引库未构建完成而造成索引出现错误等。
图3是本公开实施例提供的又一种索引构建方法的流程示意图,本公开实施例是在上述实施例的基础上,如图3所示,步骤S40之前还包括:
S30、将在索引标志之后写入至全量数据库的第二索引数据分别存储到初始索引库和目标索引库。
由于本公开实施例提供的索引构建方法中,仅仅将全量数据库中在索引标志之前的第一索引数据存储到目标索引库,当开始构建目标索引库后,此时,在索引标志之后写入的第二索引数据不仅存储到初始索引库,而且会存储到目标索引库,进而保证初始索引库和目标索引库的数据同步。
具体的,将在索引标志之后写入至全量数据库的第二索引数据分别发送至第二消息队列,通过第二消息队列依次排列后分别发送至初始索引库和目标索引库。
由于全量数据库是不断写入索引数据的,初始索引库的第一索引数据为构建目标索引库之前已经写入的索引数据,第二目标索引数据为开始构建目标索引库的时刻起写入的索引数据,由于全量数据库仅仅将第一索引数据存储到目标索引库,因此在开始构建目标索引库的时刻起用户实时数据不仅需要写入初始索引库,而且也需要写入目标索引库,一方面保证在目标索引库未构建完成之前,初始索引库中包括全部用户实时数据,保证索引结果的准确性,另一方面保证在目标索引库构建完成后,基于目标索引库进行数据索引时索引结果的准确性。
而将在索引标志之后写入至全量数据库的第二索引数据分别发送至第二消息队列,通过第二消息队列依次排列发送至初始索引库和目标索引库,可以减少初始索引库和目标索引库之间的耦合,达到异步的目的,使得初始索引库和目标索引库之间不相互阻塞,并且当初始索引库发送至目标索引库的第二索引数据过高时,达到削峰的目的。
需要说明的,第一索引数据和第二索引数据都是实时写入的索引数据。
图4是本公开实施例提供的又一种索引构建方法的流程示意图,本公开实施例是在上述实施例的基础上,如图4所示,步骤S20的一种可实现方式包括:
S21、将全量数据库中在索引标志之前的第一索引数据进行压缩合并处理得到第一目标索引数据。
S22、将第一目标索引数据发送至第一消息队列。
当将全量数据库中的第一索引数据进行压缩处理得到第一目标索引数据后,将各第一目标索引数据下发至第一消息队列,基于第一消息队列将第一目标索引数据下发至目标索引库,使用第一消息队列的目的是为了减少初始索引库和目标索引库之间的耦合,达到异步的目的,使得初始索引库和目标索引库之间不相互阻塞,并且当初始索引库发送至目标索引库的第一索引数据过高时,达到削峰的目的。
需要说明的是,第一消息队列包括kafka等消息队列组件,用于实现将第一索引数据排队后基于排列顺序发送至目标索引库。
S23、通过第一消息队列将第一目标索引数据排列发送至目标索引库。
本公开实施例提供的索引构建方法,将全量数据库中在索引标志之前的第一索引数据进行压缩合并处理得到第一目标索引数据,将第一目标索引数据发送至第一消息队列,通过第一消息队列将第一目标索引数据排列发送至目标索引库,使用第一消息队列减少初始索引库和目标索引库之间的耦合,达到异步的目的,使得初始索引库和目标索引库之间不相互阻塞,并且当全量数据库发送至目标索引库的第一索引数据过高时,达到削峰的目的。
图6是本公开实施例提供的又一种索引构建方法的流程示意图,本公开实施例是在上述实施例的基础上,如图6所示,步骤S40的一种可实现方式包括:
S41、在目标索引库构建完成时,响应于用户的触发操作,通过搜索引擎调用目标索引库进行数据索引。
当目标索引库构建完成后,用户在在智能设备中的应用程序、应用程序中的小程序或者网站等进行搜索时,用户在应用程序、应用程序中的小程序或者网站输入搜索关键字,且触发搜索,此时基于当前用户的搜索关键字,通过搜索引擎调用目标索引库进行数据索引。
此外,在实时索引和批量索引的过程中,可能会发生数据不一致的问题,例如,当实时写入的第二索引数据需要对索引标志之前的第一索引数据进行更新时,需要将实时写入的第二索引数据更新索引标志之前的第一索引数据,但是同时存在将全量数据库中在索引标志之前的第一索引数据存储到目标索引库,此时,实时写入的第二索引数据更新索引标志之前的第一索引数据可能会发生在初始索引库,也可能发生在目标索引库。示例性的,全量数据库中的第一索引数据包括第一索引数据A,实时写入的第二索引数据A’,当实时写入的第二索引数据A’在初始索引库中更新第一索引数据A后,初始索引库中的索引数据变为了第二索引数据A’,如果目标索引库是先写入了全量数据库中第一索引数据A,后写入了实时写入的第二索引数据A’,此时初始索引库与目标索引库的数据是一致的。但是,先将实时写入的第二索引数据A’写入到目标索引库,后写入了全量数据库中的第一索引数据A,则目标索引库中的数据会保留下第一索引数据A,此时会存在初始索引库和目标索引库数据不一致的问题。
基于此,当流批一体过程开始时,为了防止在目标索引库中的索引数据把实时写入的第二索引数据覆盖地情况,把实时写入的第二索引数据存储到初始索引库和目标索引库的过程中,将第二索引数据分别存储到初始索引库和缓存介质,当将全量数据库中的第一索引数据存储到目标索引库后,再把缓存介质中的第二索引数据存储到目标索引库中,如果有重复数据,则利用第二索引数据把目标索引库中的数据覆盖掉,保证初始索引库和目标索引库数据一致,具体的,参见图5,在未构建目标索引库之前,将全量数据库中的索引数据写入初始索引库,当开始构建目标索引库,此时基于构建目标索引库的时间确定全量数据库的索引标志,在构建目标索引库的过程中,将全量数据库在索引标志之前的第一索引数据通过第一消息队列发送至目标索引库,对应构建目标索引库过程中写入至全量数据库的第二索引数据,通过第二消息队列分别发送至初始索引库和第二消息队列与目标索引库之间的缓存介质,当存储介质在预设时间段内没有第二索引数据写入目标索引库且第一索引数据全部写入目标索引库,此时目标索引库构建完成,基于目标索引库进行索引。
图7是本公开实施例提供的一种索引构建装置的结构示意图,如图7所示,索引构建装置包括:
索引标志确定模块610,用于基于构建目标索引库的时间,确定全量数据库的索引标志;
存储模块620,用于将全量数据库中在索引标志之前的第一索引数据经过预设处理后存储到目标索引库;
数据索引模块630,用于在目标索引库构建完成时,基于目标索引库进行数据索引。
本公开实施例提供的索引构建装置,索引标志确定模块基于构建目标索引库的时间,确定全量数据库的索引标志,存储模块将全量数据库中在索引标志之前的第一索引数据经过预设处理后存储到目标索引库,数据索引模块在目标索引库构建完成时,基于目标索引库进行数据索引,将全量数据库中在索引标志之前的第一索引数据经过预设处理(合并压缩)后存储到目标索引库中,在满足索引实时性的同时提高索引效率。
可选的,索引构建装置还包括:
初始索引库索引模块,用于在所述目标索引库未构建完成时,基于初始索引库进行数据索引。
可选的,存储模块包括:
第一目标索引数据处理单元,用于将全量数据中在索引标志之前的第一索引数据进行压缩合并处理得到第一目标索引数据;
第一发送单元,用于将第一目标索引数据发送至第一消息队列;
第二发送单元,用于通过第一消息队列将第一目标索引数据排列发送至目标索引库。
可选的,索引构建装置还包括:
确定模块,用于基于索引转换模块,确定目标索引库是否构建完成。
可选的,存储模块还用于:
将在索引标志之后写入至全量数据库的第二索引数据分别存储到初始索引库和目标索引库。
具体的:
将在索引标志之后写入至全量数据库的第二索引数据分别发送至第二消息队列;
通过第二消息队列依次排列后分别发送至初始索引库和目标索引库。
可选的,数据索引模块具体用于:
在目标索引库构建完成时,响应于用户的触发操作,通过搜索引擎调用目标索引库进行数据索引。
本发明实施例所提供的装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
图8是本公开实施例提供的一种电子设备的结构示意图,如图8所示,该电子设备包括处理器710、存储器720、输入装置730和输出装置740;计算机设备中处理器710的数量可以是一个或多个,图8中以一个处理器710为例;电子设备中的处理器710、存储器720、输入装置730和输出装置740可以通过总线或其他方式连接,图8中以通过总线连接为例。
存储器720作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现本发明实施例所提供的方法。
存储器720可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器720可进一步包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置730可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,可以包括键盘、鼠标等。输出装置740可包括显示屏等显示设备。
本公开实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于实现本发明实施例所提供的方法。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种索引构建方法,其特征在于,包括:
基于构建目标索引库的时间,确定全量数据库的索引标志;
将所述全量数据库中在所述索引标志之前的第一索引数据经过预设处理后存储到所述目标索引库;
在所述目标索引库构建完成时,基于所述目标索引库进行数据索引。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述目标索引库未构建完成时,基于所述初始索引库进行数据索引。
3.根据权利要求1所述的方法,其特征在于,所述将所述全量数据库中在所述索引标志之前的第一索引数据经过预设处理后存储到所述目标索引库,包括:
将所述全量数据库中在所述索引标志之前的第一索引数据进行压缩合并处理得到第一目标索引数据;
将所述第一目标索引数据发送至第一消息队列;
通过所述第一消息队列将所述第一目标索引数据排列发送至所述目标索引库。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于索引转换模块,确定所述目标索引库是否构建完成。
5.根据权利要求1所述的方法,其特征在于,所述在所述目标索引库构建完成时,基于所述目标索引库进行数据索引之前,还包括:
将在所述索引标志之后写入至全量数据库的第二索引数据分别存储到所述初始索引库和所述目标索引库。
6.根据权利要求5所述的方法,其特征在于,所述将在所述索引标志之后写入至全量数据库的第二索引数据分别存储到所述初始索引库和所述目标索引库,包括:
将在所述索引标志之后写入至全量数据库的第二索引数据分别发送至第二消息队列;
通过所述第二消息队列依次排列后分别发送至所述初始索引库和所述目标索引库。
7.根据权利要求1所述的方法,其特征在于,所述在所述目标索引库构建完成时,基于所述目标索引库进行数据索引,包括:
在所述目标索引库构建完成时,响应于用户的触发操作,通过搜索引擎调用目标索引库进行数据索引。
8.一种索引构建装置,其特征在于,包括:
索引标志确定模块,用于基于构建目标索引库的时间,确定全量数据库的索引标志;
存储模块,用于将所述全量数据库中在所述索引标志之前的第一索引数据经过预设处理后存储到所述目标索引库;
数据索引模块,用于在所述目标索引库构建完成时,基于所述目标索引库进行数据索引。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1~7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~7中任一所述的方法。
CN202111296283.5A 2021-11-03 2021-11-03 一种索引构建方法、装置、电子设备和存储介质 Pending CN114020745A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111296283.5A CN114020745A (zh) 2021-11-03 2021-11-03 一种索引构建方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111296283.5A CN114020745A (zh) 2021-11-03 2021-11-03 一种索引构建方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114020745A true CN114020745A (zh) 2022-02-08

Family

ID=80060684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111296283.5A Pending CN114020745A (zh) 2021-11-03 2021-11-03 一种索引构建方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114020745A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149763A (zh) * 2023-08-08 2023-12-01 广州方舟信息科技有限公司 一种索引切换同步方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149763A (zh) * 2023-08-08 2023-12-01 广州方舟信息科技有限公司 一种索引切换同步方法、装置及存储介质
CN117149763B (zh) * 2023-08-08 2024-04-02 广州方舟信息科技有限公司 一种索引切换同步方法、装置及存储介质

Similar Documents

Publication Publication Date Title
EP2863310B1 (en) Data processing method and apparatus, and shared storage device
CN112527816B (zh) 数据血缘关系解析方法、系统、计算机设备及存储介质
CN106156088B (zh) 一种索引数据处理方法、数据查询方法及装置
CN109542907B (zh) 数据库缓存构建方法、装置、计算机设备以及存储介质
CN110795499B (zh) 基于大数据的集群数据同步方法、装置、设备及存储介质
CN111797096A (zh) 基于ElasticSearch的数据索引方法、装置、计算机设备及存储介质
CN109299101B (zh) 数据检索方法、装置、服务器和存储介质
CN111078672A (zh) 数据库的数据对比方法及装置
WO2019165763A1 (zh) 一种用于查询数据的方法
CN111914020A (zh) 数据同步方法及装置、数据查询方法及装置
CN112559529A (zh) 数据存储方法、装置、计算机设备及存储介质
US10838931B1 (en) Use of stream-oriented log data structure for full-text search oriented inverted index metadata
CN109302449B (zh) 数据写入方法、数据读取方法、装置和服务器
CN114020745A (zh) 一种索引构建方法、装置、电子设备和存储介质
CN111046106A (zh) 缓存数据同步方法、装置、设备及介质
CN112905587B (zh) 数据库的数据管理方法、装置及电子设备
CN110515979B (zh) 数据查询方法、装置、设备和存储介质
CN109101191B (zh) 数据存储方法、装置和存储介质以及电子设备
CN111858158B (zh) 数据处理方法、装置及电子设备
CN114385657A (zh) 数据存储方法、装置及存储介质
CN113268483A (zh) 请求处理方法和装置、电子设备和存储介质
CN109857719B (zh) 分布式文件处理方法、装置、计算机设备以及存储介质
CN108182202B (zh) 内容更新通知方法、装置、电子设备及存储介质
CN112148712A (zh) 一种数据处理方法、装置、设备及介质
CN111143326A (zh) 减少数据库操作的方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination