CN106709042A - 索引更新方法及设备 - Google Patents
索引更新方法及设备 Download PDFInfo
- Publication number
- CN106709042A CN106709042A CN201611258151.2A CN201611258151A CN106709042A CN 106709042 A CN106709042 A CN 106709042A CN 201611258151 A CN201611258151 A CN 201611258151A CN 106709042 A CN106709042 A CN 106709042A
- Authority
- CN
- China
- Prior art keywords
- index
- data
- document identification
- information
- information data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种索引更新方法及设备,其中,该方法包括:获取搜索数据更新消息,所述更新消息中包括信息数据;根据所述更新消息,生成索引更新指令;根据所述索引更新指令,对索引数据进行更新。由此,实现了搜索引擎的搜索数据更新的同时,完成了对索引数据的更新,从而提高了索引数据更新的时效性,提高了搜索引擎的准确性和可靠性,改善了用户体验。
Description
技术领域
本申请涉及信息处理技术领域,尤其涉及一种索引更新方法及设备。
背景技术
搜索引擎主要通过倒排索引的方式从数据库中获取与查询语句对应的检索结果。从而索引的准确性直接影响搜索引擎的速度和准确性。
目前,搜索引擎中的索引是对搜索数据库中的数据进行解析后生成的,当搜索数据库中的数据更新到一定量时,再根据新的数据库生成新的索引,替换旧的索引。
但是这种索引更新方法,索引更新速度慢,搜索引擎的时效性较差。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种索引更新方法,实现了搜索引擎的搜索数据更新的同时,完成了对索引数据的更新,从而提高了索引数据更新的时效性,提高了搜索引擎的准确性和可靠性,改善了用户体验。
本申请的第二个目的在于提出一种索引更新设备。
本申请的第三个目的在于提出一种非临时性计算机可读存储介质。
本申请的第四个目的在于提出一种计算机程序产品。
为达上述目的,本申请第一方面实施例提出了一种索引更新方法,包括:获取搜索数据更新消息,所述更新消息中包括信息数据;根据所述更新消息,生成索引更新指令;根据所述索引更新指令,对索引数据进行更新。
本申请实施例的索引更新方法,在获取到搜索数据更新消息后,即根据更新消息,生成索引更新指令,进而根据索引更新指令,对索引数据进行更新。由此,实现了搜索引擎的搜索数据更新的同时,完成了对索引数据的更新,从而提高了索引数据更新的时效性,提高了搜索引擎的准确性和可靠性,改善了用户体验。
为达上述目的,本申请第二方面实施例提出了一种索引更新设备,包括:存储器及处理器;所述存储器用于存储程序代码;所述处理器,用于调用并执行所述存储器中存储的程序代码,以实现本申请第一方面实施例提出的索引更新方法。
本申请实施例的索引更新设备,在获取到搜索数据更新消息后,即根据更新消息,生成索引更新指令,进而根据索引更新指令,对索引数据进行更新。由此,实现了搜索引擎的搜索数据更新的同时,完成了对索引数据的更新,从而提高了索引数据更新的时效性,提高了搜索引擎的准确性和可靠性,改善了用户体验。
为达上述目的,本申请第三方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由设备的处理器被执行时,使得设备能够执行上述实施例提供的索引更新方法。
为达上述目的,本发明第四方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行如上所述的索引更新方法。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例的索引更新方法的流程图;
图2a是本申请提供的索引数据结构示意图;
图2b是本申请提供的信息数据结构示意图;
图2c是本申请提供的信息摘要词典结构示意图;
图3是本申请另一个实施例的索引更新方法的流程图;
图4是本申请另一个实施例的索引更新方法的流程图;
图5是本申请一个实施例的索引更新设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
本发明各实施例主要针对现有技术中,搜索引擎在搜索数据的更新到一定量时,再根据新的搜索数据生成新的索引,替换旧的索引的方式,索引更新速度慢,搜索引擎的时效性较差的问题,提出一种根据搜索数据的更新,实时更新索引数据的方法,从而提高了索引更新的时效性,提高了搜索引擎的准确性,改善了用户体验。
下面参考附图描述本申请实施例的索引更新方法及装置。
图1是本申请一个实施例的索引更新方法的流程图。
如图1所示,该索引更新方法包括:
S101,获取搜索数据更新消息,所述更新消息中包括信息数据。
其中,本实施例提供的索引更新方法的执行主体为索引更新设备,该索引更新设备可以被配置在任何可提供搜索引擎的设备中,比如计算机、服务器等等。
其中,信息数据为用户在使用搜索引擎时,搜索引擎需要向用户展示的数据,比如对于新闻类信息,可以包括标题、摘要,日期等等,对于视频类信息,可以包括:标题、简介、播放地址、图片链接、视频时长等等。
具体的,搜索数据更新消息,可以是在搜索引擎可用的搜索数据完成更新后自动生成的,也可以是搜索引擎收到搜索数据时自动生成的,本申请实施例对此不作限定。
S102,根据所述更新消息,生成索引更新指令。
实际使用时,根据搜索引擎可用的搜索数据的量的变化情况,更新消息可以包括增加消息及删除消息。相应的,根据更新消息生成的索引更新指令也包括索引增加指令及索引删除指令。
具体的,可以通过在更新指令中携带不同的标识符,以区分索引增加指令和索引删除指令,比如可以通过在更新指令中添加诸如add等字眼,用于表征该指令为索引增加指令,通过添加诸如del等字眼,用于表征该指令为索引删除指令等。
即上述步骤102,具体包括:
根据所述更新请求的类型,确定索引更新指令中携带的标示符,其中,所述标示符用于表征索引更新指令的类型;
根据所述标示符,生成所述索引更新指令。
可以理解的是,为了区分更新消息,搜索引擎生成的更新消息中也包括用户表征该消息类型的标示符,从而索引更新设备在收到更新消息后,即可确定更新消息的类型,进而确定索引更新指令中需要携带的标示符,然后根据确定的标示符,生成索引更新指令。
S103,根据所述索引更新指令,对索引数据进行更新。
通常,如图2a所示,索引数据为哈希(hash)结构,关键字(Key)为分词(term),对应的值(value)为文档标识号(doclD)组成的有序列表。从而在利用索引数据时,可以使用二分查找,以增加查询速度,减少内存占用空间。
其中,doclD,为搜索引擎在收到信息数据后,为信息数据分配的,通常来说,搜索引擎可以根据获取信息数据的顺序,依次为各个信息数据分配doclD值。
具体实现时,根据索引更新指令,更新索引数据时,即可在原始索引数据中增加与分词对应的doclD,或者删除与分词对应的doclD。
需要说明的是,在搜索引擎中,除索引数据外,还包括信息数据,如图2b所示,信息数据也为hash结构,信息数据的key为doclD,value为docID展示所需的信息数据。
从而若数据更新消息是在收到信息数据时就产生的,那么索引更新设备在根据更新指令将索引数据更新后,还可以将信息数据进行更新。
具体的,若更新指令为新增索引,那么即可将在信息数据中,新增doclD和展示所需的信息数据;若更新指令为删除索引,那么即可将信息数据中,某一doclD及对应的展示所需的信息数据进行删除。
本申请实施例的索引更新方法,在获取到搜索数据更新消息后,即根据更新消息,生成索引更新指令,进而根据索引更新指令,对索引数据进行更新。由此,实现了搜索引擎的搜索数据更新的同时,完成了对索引数据的更新,从而提高了索引数据更新的时效性,提高了搜索引擎的准确性和可靠性,改善了用户体验。
通过上述分析可知,索引更新设备,可以根据索引更新类型,对索引数据进行更新,下面结合图2,对新增索引的过程进行详细说明。
图3是本申请另一个实施例的索引更新方法的流程图。
如图3所示,该索引更新方法包括:
S301,获取搜索数据更新消息,所述更新消息中包括第一信息数据。
S302,根据所述更新消息,生成索引新增指令。
具体的,由于更新消息的格式与新增指令的格式可能不同,因此索引更新设备在获取到更新消息,并确定更新消息为新增消息时,即可生成索引新增指令,并将待新增的第一信息数据添加至新增指令中。
S303,根据所述第一信息数据,确定所述第一信息数据对应的第一信息摘要值。
其中,第一信息摘要值,为根据第一信息数据的内容,通过第五版消息摘要算法(Message Digest Algorithm,简称MD5)计算得到的。
S304,判断预设的信息摘要值词典中是否包括所述第一信息摘要值,若包括,则执行S305,否则,执行S306。
其中,信息摘要词典(MD5)中包括信息摘要值与文档标识号的映射关系。
具体的,为了尽量提高对索引的更新速度,本申请实施例中,在搜索引擎中,通过设置MD5值与doclD的映射关系的MD5词典,从而在收到索引更新指令时,即可根据信息数据的MD5值,尽快判断该信息数据是否在搜索引擎的搜索数据中,进而对索引更新指令进行处理。
如图2c所示,MD5词典的结构也可以为hash结构,其中,key为信息数据的MD5,value为对应的doclD。
S305,结束。
S306,获取所述信息摘要词典中当前包括的文档标识号的最大值。
S307,将所述最大值加1后,确定为所述第一信息数据对应的第一文档标识号。
具体的,索引更新设备在收到更新指令后,若确定更新指令中包括的第一信息数据对应的第一MD5值,已在MD5词典中,则可以确定索引数据中,以包括该第一信息数据对应的doclD,从而即可不对此次新增索引指令进行响应。
而若MD5词典中并不包括与第一MD5值,那么即可确定索引数据中,也不包括与该第一信息数据对应的doclD,从而即可为该第一信息数据分配第一doclD,并根据第一doclD及第一信息数据,对索引数据进行更新。
具体的,索引更新设备,可以根据MD5词典中已有的doclD的最大值,为第一信息数据分配第一doclD。
举例来说,若根据第一信息数据,确定的第一MD5为50,而通过查询MD5词典,可知,当前MD5词典中不包括MD5=50的指,且MD5词典中,doclD的最大值为67,那么即可将67+1作为第一doclD分配给该第一信息数据。
S308,根据所述第一文档标识号及所述第一信息数据,更新原始索引数据。
具体的,由于原始索引数据中,包括的是term和doclD的映射关系,因此上述S308,具体包括:
将所述第一信息数据进行分词处理,确定所述第一信息数据对应的第一分词列表;
将所述第一文档标识号,分别添加至所述原始索引数据中、与所述第一分词列表中各个第一分词对应的第一文档标识号列表中。
其中,索引更新设备,可以采用任意粒度将第一信息数据进行分词,本申请实施例对此不作限定。
举例来说,若第一信息数据为:特朗普当选美国总统,且采用小粒度对信息数据进行分词,那么分词后,该第一信息数据包括的分词为:特朗普∣当选∣美国∣总统。而索引数据中,与“特朗普”这一个分词对应的doclD列表如下所示:
0 | 1 | 7 |
从而即可将68,添加至上述列表之后,从而得到“特朗普”这一个分词对应新的doclD列表为:
0 | 1 | 7 | 68 |
同样的方式,依次将第一doclD值,分别添加至“当选”、“美国”及“总统”分别对应的doclD的列表中。
在本申请一种可能的实现形式中,若通过检索后确定,索引数据中不包括某一分词对应的doclD列表,那么即可将该分词与第一doclD值分别添加至索引数据中。
进一步地,在根据第一doclD和第一信息数据,更新了索引数据后,为保证信息数据、索引数据与MD5词典的一致性,还需要将信息数据及MD5词典进行更新,即该方法在上述S308之后,还包括:
S309,将所述第一信息摘要值及所述第一文档标识号的映射关系,添加至所述预设的信息摘要值词典中。
S310,将所述第一文档标识号与所述第一信息数据的映射关系,添加至原始信息数据中。
具体的,将第一MD5值和第一doclD添加至MD5词典中时,可以根据已有的MD5词典的格式,将第一MD5至放置在key中,将第一doclD值,放置在value中。同样的将第一doclD值,放置在信息数据的key中,将第一信息数据,放置在信息数据的value中。
本申请实施例的索引更新方法,首先获取数据更新消息,然后根据更新消息的类型,生成索引新增指令,然后根据索引新增指令中包括的第一信息数据,确定第一信息数据的第一MD5值,进而判断预设的MD5词典中,是否包括第一MD5值,若不包括,则根据预设的MD5词典中doclD的最大值,为第一信息数据分配一个第一doclD值,进而根据第一doclD和第一信息数据,更新原始索引数据。由此,实现了在搜索引擎新增搜索数据时,可以实时更新索引数据,从而提高了索引数据的时效性,提高了搜索引擎的准确性和可靠性,改善了用户体验。
由上述分析可知,索引更新指令还包括删除指令,下面结合图4,对索引删除的过程进行详细说明。
图4是本申请另一个实施例的索引更新方法流程示意图。
如图4所示,该方法,包括:
S401,获取搜索数据更新消息,所述更新消息中包括第二信息数据。
S402,根据所述更新消息,生成索引删除指令。
具体的,由于更新消息的格式与删除指令的格式可能不同,因此索引更新设备在获取到更新消息,并确定更新消息为删除消息时,即可生成索引删除指令,并将待删除的第二信息数据添加至删除指令中。
S403,根据所述第二信息数据,确定所述第二信息数据对应的第二信息摘要值。
S404,判断预设的信息摘要值词典中是否包括所述第二信息摘要值,若包括,则执行S406,否则执行S405。
S405,结束。
S406,通过查询所述信息摘要词典,确定与所述第二信息摘要值对应的第二文档标识号。
其中,信息摘要词典中包括信息摘要值与文档标识号的映射关系。
S407,将所述第二文档标识号从原始索引数据中删除。
举例来说,若第二信息数据为“北京近日将迎来持续雾霾天”,通过采用消息摘要计算算法计算后,确定该第二信息数据对应的MD5值为73,然后通过查询已有的MD5词典可知,当前词典中包括MD5=73的key及value,从而即可通过查询词典,确定与MD5=73对应的第二doclD为97,然后即可将原始索引数据中,所有包括97的doclD列表中的“97”删掉。
具体的,由于索引数据中,文档标识号是与分词对应的,因此上述S407,具体包括:
对所述第二信息数据进行分词处理,确定所述第二信息数据对应的第二分词列表;
将所述原始索引数据中,与所述第二分词列表中各第二分词对应的第二文档标识号删除。
举例来说,将上述第二信息数据进行分词处理后,即可确定第二信息数据包括的分词为:北京∣近日∣将∣迎来∣持续∣雾霾∣天,然后即可根据各个分词,查询原始索引数据,并将与各个分词对应的doclD列表中的第二doclD删除。
例如,若“北京”对应的doclD列表为:
0 | 1 | 7 | 97 |
那么将“97”删除后,“北京”对应的doclD列表更新为:
0 | 1 | 7 |
进一步地,在本申请一种可能的实现形式中,若索引更新设备在收到索引删除指令后,对索引数据进行删除的同时,搜索引擎正在处理的索引查询指令中也巧好包括与删除指令中相同的分词,且该分词仅对应一个doclD,此时,若将该doclD删除,就会影响索引数据的正常使用。因此,本申请实施例中,
上述S407,具体包括:
利用所述原始索引数据中位于所述第二文档标识号之前的第三文档标识号,覆盖所示第二文档标识号。
举例来说,上述“北京”对应的doclD列表更新后即可变为:
0 | 1 | 7 | 7 |
从而使得索引删除过程与索引查询过程可以同时进行,提高了搜索引擎的可靠性和稳定性。
在一种特殊的实现形式中,若某一分词仅对应一个文档标识号,那么就无法用前一文档标识好,覆盖后一文档标识号的方式,保证索引查询过程的正常进行了,因此本申请实施例中,可以为任意分词对应的doclD列表中的第一个doclD设置为0,从而在执行删除指令时,若删除的是第一个实际doclD值,即可用0覆盖第一个实际的doclD值。
相应的上述第二实施例中,在将第一文档标识号添加至与原始索引数据中之前,还可以执行以下操作:
判断所述原始索引数据中,是否包括与所述分词列表中各个分词;
若不包括第一分词,则在所述第一文档标识号之前添加0后,作为所述第一分词对应的第一文档标识号列表;
将所述第一分词与所述第一文档标识号列表,添加至所述原始索引数据中。
举例来说,若第一信息数据为“2017年放假安排”,通过计算可知该第一信息数据对应的MD5值为107,通过查询MD5词典可知,MD5词典中不包括该MD5值,且MD5词典中doclD的最大值为72,那么即可确定第一doclD为73,然后再根据第一信息数据对应的分词列表:2017年∣放假∣安排,查询索引数据后,确定索引数据中不包括“2017年”这一分词及对应的doclD列表,从而即可确定“2017年”对应的doclD列表应该为
0 | 73 |
进而,即可将“2017年”这一分词及上述doclD列表添加至原始索引数据中。从而在收到要删除doclD为“73”的信息数据的指令时,执行完删除指令后,“2017年”这一分词对应的doclD列表即变为:
0 | 0 |
可以理解的是,由于doclD为0时,并无对应的需要展示的信息数据,因此,根据该索引数据进行索引时,若确定doclD为o,即可结束搜索。
进一步地,为了保证搜索引擎数据的一致性,在删除索引数据中的第二doclD时,也要将信息数据中与第二doclD对应的要展示的信息数据删除,且将MD5词典中,第二doclD及对应的第二MD5值删除。即上述S406之后,还可以包括:
S408,将所述第二文档标识号及所述第二信息数据从信息数据库中删除。
S409,将所述第二信息摘要值及所述第二文档标识号,从所述信息摘要词典中删除。
本申请实施例提供的索引更新方法,在获取到搜索数据更新消息后,若根据更新消息确定的索引更新指令为删除指令,即可首先根据更新消息中的第二信息数据对应的第二MD5值,判断MD5词典中是否存在该第二MD5值,若存在,则再确定与第二MD5对应的第二doclD,然后即可将索引数据中第二doclD删除,并将信息数据及MD5词典中的相关信息删除。由此,使得搜索引擎的索引数据更新速度与搜索数据速度一致,提高了索引数据的时效性,从而提高了搜索引擎的准确性和可靠性,改善了用户体验。
进一步地,为了提高搜索引擎的实用性,索引更新设备在执行索引新增指令或索引删除指令时,还可以同时接收并执行索引查询指令。具体的,可以通过不同的端口,分别接收不同的指令,从而提高搜索引擎的处理速度,避免由于索引更新带来的搜索速度慢的问题,即本申请提供的索引更新方法中,还可以包括:
接收索引查询指令,所述查询指令中包括第三信息数据;
将所述第三信息数据进行分词处理,确定所述第三信息数据对应的第三分词列表;
通过查询索引数据,确定与所述第三分词列表中各第三分词分别对应的各第三文档标识列表;
将所述各第三文档标识列表求交集后,确定所述第三信息数据对应的文档标识号列表。
举例来说,若第三分词列表中包括3个第三分词,分别对应的各第三doclD列表为:
0 | 2 | 6 | 11 |
0 | 1 | 6 | 11 | 20 |
0 | 4 | 6 | 17 |
从而将三个第三doclD列表求交集后,即可确定该第三信息数据对应的doclD为:6。进而即可通过查询信息数据,获取与doclD为6对应的需要展示的信息数据,并返回给用户展示。
进一步的,若根据各第三doclD列表求交集后,确定的与第三信息数据对应的doclD列表中,包括多个doclD,那么还可以采用常用的打分策略,将各个doclD进行打分和排序,进而通过查询信息数据,依次获取排序后的各doclD对应的要展示的信息数据,并依次返回给用户展示。
本申请实施例提供的方法中,索引更新设备在执行索引更新指令的同时,可以执行索引查询指令,从而在保证索引数据更新时效性高的情况下,又不影响搜索引擎的搜索速度,提高了搜索引擎的可靠性和实用性。
为了实现上述实施例提供的索引更新方法,本申请还提出一种索引更新设备。
图5是本申请另一个实施例的索引更新设备结构示意图。
如图5所示,该索引更新设备5,包括:存储器51及处理器52。
其中,所述存储器51用于存储程序代码;
所述处理器52,用于调用并执行所述存储器中存储的程序代码,以实现如上述所述的索引更新方法。
本申请实施例的索引更新设备,在获取到搜索数据更新消息后,即根据更新消息,生成索引更新指令,进而根据索引更新指令,对索引数据进行更新。由此,实现了搜索引擎的搜索数据更新的同时,完成了对索引数据的更新,从而提高了索引数据更新的时效性,提高了搜索引擎的准确性和可靠性,改善了用户体验。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (14)
1.一种索引更新方法,其特征在于,包括以下步骤:
获取搜索数据更新消息,所述更新消息中包括信息数据;
根据所述更新消息,生成索引更新指令;
根据所述索引更新指令,对索引数据进行更新。
2.如权利要求1所述的方法,其特征在于,所述根据所述更新请求,生成索引更新指令,包括:
根据所述更新请求的类型,确定索引更新指令中携带的标示符,其中,所述标示符用于表征索引更新指令的类型;
根据所述标示符,生成所述索引更新指令。
3.如权利要求2所述的方法,其特征在于,所述索引更新指令为索引新增指令,所述索引新增指令中携带第一信息数据;
所述根据所述索引更新指令,对索引数据进行更新,包括:
根据所述第一信息数据,确定所述第一信息数据对应的第一信息摘要值;
判断预设的信息摘要值词典中是否包括所述第一信息摘要值,信息摘要词典中包括信息摘要值与文档标识号的映射关系;
若不包括,则获取所述信息摘要词典中当前包括的文档标识号的最大值;
将所述最大值加1后,确定为所述第一信息数据对应的第一文档标识号;
根据所述第一文档标识号及所述第一信息数据,更新原始索引数据。
4.如权利要求3所述的方法,其特征在于,所述根据所述第一文档标识号及所述第一信息数据,更新原始索引数据,包括:
将所述第一信息数据进行分词处理,确定所述第一信息数据对应的第一分词列表;
将所述第一文档标识号,分别添加至所述原始索引数据中、与所述第一分词列表中各个第一分词分别对应的第一文档标识号列表中。
5.如权利要求4所述的方法,其特征在于,所述将所述第一文档标识号,分别添加至所述原始索引数据中、与所述分词列表中各个分词对应的文档标识号列表中之后,还包括:
判断所述原始索引数据中,是否包括与所述分词列表中各个分词;
若不包括第一分词,则在所述第一文档标识号之前添加0后,作为所述第一分词对应的第一文档标识号列表;
将所述第一分词与所述第一文档标识号列表,添加至所述原始索引数据中。
6.如权利要求3所述的方法,其特征在于,所述确定所述第一信息数据对应的第一文档标识号之后,还包括:
将所述第一信息摘要值及所述第一文档标识号的映射关系,添加至所述预设的信息摘要值词典中。
7.如权利要求3-6任一所述的方法,其特征在于,所述确定所述第一信息数据对应的第一文档标识号之后,还包括:
将所述第一文档标识号与所述第一信息数据的映射关系,添加至原始信息数据中。
8.如权利要求2所述的方法,其特征在于,所述索引更新指令为索引删除指令,所述删除指令中携带第二信息数据;
所述根据所述索引更新指令,对索引数据进行更新,包括:
根据所述第二信息数据,确定所述第二信息数据对应的第二信息摘要值;
判断预设的信息摘要值词典中是否包括所述第二信息摘要值,信息摘要词典中包括信息摘要值与文档标识号的映射关系;
若包括,则通过查询所述信息摘要词典,确定与所述第二信息摘要值对应的第二文档标识号;
将所述第二文档标识号从原始索引数据中删除。
9.如权利要求8所述的方法,其特征在于,所述将所述第二文档标识号从原始索引数据中删除,包括:
对所述第二信息数据进行分词处理,确定所述第二信息数据对应的第二分词列表;
将所述原始索引数据中,与所述第二分词列表中各第二分词对应的第二文档标识号删除。
10.如权利要求8所述的方法,其特征在于,所述将所述第二文档标识号从原始索引数据中删除,包括:
利用所述原始索引数据中位于所述第二文档标识号之前的第三文档标识号,覆盖所示第二文档标识号。
11.如权利要求8所述的方法,其特征在于,所述确定与所述第二信息摘要值对应的第二文档标识号之后,还包括:
将所述第二文档标识号及所述第二信息数据从信息数据库中删除。
12.如权利要求8-11任一所述的方法,其特征在于,所述确定与所述第二信息摘要值对应的第二文档标识号之后,还包括:
将所述第二信息摘要值及所述第二文档标识号,从所述信息摘要词典中删除。
13.如权利要求1所述的方法,其特征在于,还包括:
接收索引查询指令,所述查询指令中包括第三信息数据;
将所述第三信息数据进行分词处理,确定所述第三信息数据对应的第三分词列表;
通过查询索引数据,确定与所述第三分词列表中各第三分词分别对应的各第三文档标识列表;
将所述各第三文档标识列表求交集后,确定所述第三信息数据对应的文档标识号列表。
14.一种索引更新设备,其特征在于,包括:存储器及处理器;
所述存储器用于存储程序代码;
所述处理器,用于调用并执行所述存储器中存储的程序代码,以实现如权利要求1-13任一所述的索引更新方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611258151.2A CN106709042B (zh) | 2016-12-30 | 2016-12-30 | 索引更新方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611258151.2A CN106709042B (zh) | 2016-12-30 | 2016-12-30 | 索引更新方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106709042A true CN106709042A (zh) | 2017-05-24 |
CN106709042B CN106709042B (zh) | 2020-09-25 |
Family
ID=58906338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611258151.2A Active CN106709042B (zh) | 2016-12-30 | 2016-12-30 | 索引更新方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106709042B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133350A (zh) * | 2017-05-25 | 2017-09-05 | 努比亚技术有限公司 | 基于搜索引擎的数据更新方法、移动终端及存储介质 |
CN107315825A (zh) * | 2017-07-05 | 2017-11-03 | 北京奇艺世纪科技有限公司 | 一种索引更新系统、方法及装置 |
CN108241758A (zh) * | 2018-03-21 | 2018-07-03 | 广州华多网络科技有限公司 | 数据查询方法及相关设备 |
CN112052247A (zh) * | 2020-09-29 | 2020-12-08 | 微医云(杭州)控股有限公司 | 搜索引擎的索引更新系统、方法、装置、电子设备、存储介质 |
CN112231513A (zh) * | 2020-10-15 | 2021-01-15 | 北京爱论答科技有限公司 | 一种学习视频推荐方法、装置及系统 |
CN112256715A (zh) * | 2020-11-12 | 2021-01-22 | 微医云(杭州)控股有限公司 | 索引的更新方法、装置、电子设备以及存储介质 |
CN115495634A (zh) * | 2022-11-17 | 2022-12-20 | 北京滴普科技有限公司 | 一种基于Elasticsearch插件的变化数据捕获方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102163210A (zh) * | 2010-02-12 | 2011-08-24 | 微软公司 | 索引元数据的快速更新 |
CN102663054A (zh) * | 2012-03-29 | 2012-09-12 | 奇智软件(北京)有限公司 | 一种确定网站权重的方法及装置 |
US20140244300A1 (en) * | 2013-02-25 | 2014-08-28 | 4medica, Inc. | Systems and methods for managing a master patient index including duplicate record detection |
CN104572871A (zh) * | 2014-12-19 | 2015-04-29 | 乐视网信息技术(北京)股份有限公司 | 基于索引表检索的方法及装置 |
CN104765829A (zh) * | 2015-04-13 | 2015-07-08 | 天脉聚源(北京)传媒科技有限公司 | 一种信息检索方法及装置 |
CN104778267A (zh) * | 2015-04-22 | 2015-07-15 | 无锡天脉聚源传媒科技有限公司 | 一种搜索及索引更新的方法及装置 |
-
2016
- 2016-12-30 CN CN201611258151.2A patent/CN106709042B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102163210A (zh) * | 2010-02-12 | 2011-08-24 | 微软公司 | 索引元数据的快速更新 |
CN102663054A (zh) * | 2012-03-29 | 2012-09-12 | 奇智软件(北京)有限公司 | 一种确定网站权重的方法及装置 |
US20140244300A1 (en) * | 2013-02-25 | 2014-08-28 | 4medica, Inc. | Systems and methods for managing a master patient index including duplicate record detection |
CN104572871A (zh) * | 2014-12-19 | 2015-04-29 | 乐视网信息技术(北京)股份有限公司 | 基于索引表检索的方法及装置 |
CN104765829A (zh) * | 2015-04-13 | 2015-07-08 | 天脉聚源(北京)传媒科技有限公司 | 一种信息检索方法及装置 |
CN104778267A (zh) * | 2015-04-22 | 2015-07-15 | 无锡天脉聚源传媒科技有限公司 | 一种搜索及索引更新的方法及装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133350A (zh) * | 2017-05-25 | 2017-09-05 | 努比亚技术有限公司 | 基于搜索引擎的数据更新方法、移动终端及存储介质 |
CN107315825A (zh) * | 2017-07-05 | 2017-11-03 | 北京奇艺世纪科技有限公司 | 一种索引更新系统、方法及装置 |
CN107315825B (zh) * | 2017-07-05 | 2020-02-28 | 北京奇艺世纪科技有限公司 | 一种索引更新系统、方法及装置 |
CN108241758A (zh) * | 2018-03-21 | 2018-07-03 | 广州华多网络科技有限公司 | 数据查询方法及相关设备 |
CN108241758B (zh) * | 2018-03-21 | 2021-05-11 | 广州华多网络科技有限公司 | 数据查询方法及相关设备 |
CN112052247A (zh) * | 2020-09-29 | 2020-12-08 | 微医云(杭州)控股有限公司 | 搜索引擎的索引更新系统、方法、装置、电子设备、存储介质 |
CN112052247B (zh) * | 2020-09-29 | 2024-05-07 | 微医云(杭州)控股有限公司 | 搜索引擎的索引更新系统、方法、装置、电子设备、存储介质 |
CN112231513A (zh) * | 2020-10-15 | 2021-01-15 | 北京爱论答科技有限公司 | 一种学习视频推荐方法、装置及系统 |
CN112256715A (zh) * | 2020-11-12 | 2021-01-22 | 微医云(杭州)控股有限公司 | 索引的更新方法、装置、电子设备以及存储介质 |
CN112256715B (zh) * | 2020-11-12 | 2024-04-19 | 微医云(杭州)控股有限公司 | 索引的更新方法、装置、电子设备以及存储介质 |
CN115495634A (zh) * | 2022-11-17 | 2022-12-20 | 北京滴普科技有限公司 | 一种基于Elasticsearch插件的变化数据捕获方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106709042B (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106709042A (zh) | 索引更新方法及设备 | |
US8793270B2 (en) | System and method for providing personalized recommended word and computer readable recording medium recording program for implementing the method | |
CN106815263B (zh) | 法律条文的搜索方法及装置 | |
CN103810212A (zh) | 一种数据库索引的自动创建方法及系统 | |
CN106897439A (zh) | 文本的情感识别方法、装置、服务器以及存储介质 | |
CN105320775A (zh) | 数据的存取方法和装置 | |
CN105589894B (zh) | 文档索引建立方法和装置、文档检索方法和装置 | |
KR101750646B1 (ko) | 압축 장치, 압축 방법, 신장 장치, 신장 방법 및 정보 처리 시스템 | |
CN108228657A (zh) | 一种关键字检索的实现方法及装置 | |
JP6818706B2 (ja) | 情報提供装置、情報提供方法、およびプログラム | |
CN111708804A (zh) | 数据处理方法、装置、设备及介质 | |
US20120303657A1 (en) | System and method for providing loan word search service | |
CN108182287A (zh) | 一种自动问答方法、装置及服务器 | |
KR20200018469A (ko) | 데이터 압축 및 분석을 위한 컴퓨터화된 방법 | |
CN109359108B (zh) | 报表提取方法、装置、存储介质及电子设备 | |
US10650195B2 (en) | Translated-clause generating method, translated-clause generating apparatus, and recording medium | |
CN112100493A (zh) | 文档排序方法、装置、设备及存储介质 | |
CN104424300A (zh) | 个性化搜索提示方法及装置 | |
JP4189248B2 (ja) | データベース検索経路判定方法 | |
JPWO2019202787A1 (ja) | 対話システム | |
CN102799996A (zh) | 网络广告策略匹配方法及系统 | |
CN113780950A (zh) | 数据处理方法、装置、服务器和可读存储介质 | |
WO2020240820A1 (ja) | ファイル管理装置、ファイル管理方法、及びプログラム | |
CN106649302A (zh) | 一种搜索排序方法以及装置 | |
US20190236462A1 (en) | System and method for predicting future news coverage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |