发明内容
本发明实施例提供一种实时索引方法和服务器,以使网络资源中有关检索节目对应的更新变化无法实时且及时地反映在搜索结果上。
一方面,本发明实施例提供了一种实时索引方法,所述方法包括:
建立与检索关键词相关的主搜索索引和增量搜索索引;
以比所述主搜索索引的更新周期小的更新周期定时更新所述增量搜索索引,以当进行关键词的检索时,同时利用所述与检索关键词相关的主搜索索引和增量搜索索引进行检索。
可选的,在本发明一实施例中,所述建立与检索关键词相关的主搜索索引和增量搜索索引,可以包括:通过从所述检索关键词中获取的哈希HASH的共有特征,建立与检索关键词相关的主搜索索引和增量搜索索引。
可选的,在本发明一实施例中,所述建立与检索关键词相关的主搜索索引和增量搜索索引,还可以包括:设置HASH的锁定状态。
可选的,在本发明一实施例中,所述建立与检索关键词相关的主搜索索引和增量搜索索引,还可以包括:设置HASH的权重。
可选的,在本发明一实施例中,所述以比所述主搜索索引的更新周期小的更新周期定时更新所述增量搜索索引后,可以生成增量索引临时表,并最终生成LUCENE索引以让客户端的索引下载器进行下载应用。
另一方面,本发明实施例提供了一种实时索引服务器,所述服务器包括:
索引建立单元,用于建立与检索关键词相关的主搜索索引和增量搜索索引;
增量索引更新单元,用于以比所述主搜索索引的更新周期小的更新周期定时更新所述增量搜索索引,以当进行关键词的检索时,同时利用所述与检索关键词相关的主搜索索引和增量搜索索引进行检索。
可选的,在本发明一实施例中,所述索引建立单元,具体可以用于通过从所述检索关键词中获取的哈希HASH的共有特征,建立与检索关键词相关的主搜索索引和增量搜索索引。
可选的,在本发明一实施例中,所述索引建立单元,具体还可以用于设置HASH的锁定状态。
可选的,在本发明一实施例中,所述索引建立单元,具体还可以用于设置HASH的权重。
可选的,在本发明一实施例中,所述增量索引更新单元,可以用于以比所述主搜索索引的更新周期小的更新周期定时更新所述增量搜索索引后,生成增量索引临时表,并最终生成LUCENE索引以让客户端的索引下载器进行下载应用。
上述技术方案具有如下有益效果:因为采用建立与检索关键词相关的主搜索索引和增量搜索索引;以比所述主搜索索引的更新周期小的更新周期定时更新所述增量搜索索引,以当进行关键词的检索时,同时利用所述与检索关键词相关的主搜索索引和增量搜索索引进行检索的技术手段,所以可以使网络资源中有关检索节目对应的更新变化无法实时且及时地反映在搜索结果上。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例一种实时索引方法流程图,所述方法包括:
101、建立与检索关键词相关的主搜索索引和增量搜索索引;
102、以比所述主搜索索引的更新周期小的更新周期定时更新所述增量搜索索引,以当进行关键词的检索时,同时利用所述与检索关键词相关的主搜索索引和增量搜索索引进行检索。
本发明实施例中,主搜索索引可设定12小时或者24小时更新一次。增量搜索索引可以设定为15分钟或者30分钟更新一次。在搜索引擎里主搜索索引和增量搜索索引,相当于一个整体。增量搜索索引是主搜索索引的一个补充。增量搜索索引相对输入的关键字,相当于索引的一个属性的特性。索引里面的每个因子的属性都有不同的特性。通过输入的关键字,找到关联的HASH,可以将具有该特性的因子检索出来。
可选的,在本发明一实施例中,所述建立与检索关键词相关的主搜索索引和增量搜索索引,可以包括:通过从所述检索关键词中获取的哈希HASH的共有特征,建立与检索关键词相关的主搜索索引和增量搜索索引。
可选的,在本发明一实施例中,所述建立与检索关键词相关的主搜索索引和增量搜索索引,还可以包括:设置HASH的锁定状态。比如受限制的节目,如成人节目需要提前锁定。
可选的,在本发明一实施例中,所述建立与检索关键词相关的主搜索索引和增量搜索索引,还可以包括:设置HASH的权重。权重建立的目的是为了排序,比如当天从增量搜索索引更新的综艺节目非诚勿扰,更新至第一位。
可选的,在本发明一实施例中,所述以比所述主搜索索引的更新周期小的更新周期定时更新所述增量搜索索引后,可以生成增量索引临时表,并最终生成LUCENE索引以让客户端的索引下载器进行下载应用。
本发明实施例上述方法技术方案因为采用建立与检索关键词相关的主搜索索引和增量搜索索引;以比所述主搜索索引的更新周期小的更新周期定时更新所述增量搜索索引,以当进行关键词的检索时,同时利用所述与检索关键词相关的主搜索索引和增量搜索索引进行检索的技术手段,所以可以使网络资源中有关检索节目对应的更新变化无法实时且及时地反映在搜索结果上。
与上述方法实施例对应,如图2所示,为本发明实施例一种实时索引服务器结构示意图,所述服务器包括:
索引建立单元21,用于建立与检索关键词相关的主搜索索引和增量搜索索引;
增量索引更新单元22,用于以比所述主搜索索引的更新周期小的更新周期定时更新所述增量搜索索引,以当进行关键词的检索时,同时利用所述与检索关键词相关的主搜索索引和增量搜索索引进行检索。
可选的,在本发明一实施例中,所述索引建立单元21,具体可以用于通过从所述检索关键词中获取的哈希HASH的共有特征,建立与检索关键词相关的主搜索索引和增量搜索索引。
可选的,在本发明一实施例中,所述索引建立单元21,具体还可以用于设置HASH的锁定状态。
可选的,在本发明一实施例中,所述索引建立单元21,具体还可以用于设置HASH的权重。
可选的,在本发明一实施例中,所述增量索引更新单元22,可以用于以比所述主搜索索引的更新周期小的更新周期定时更新所述增量搜索索引后,生成增量索引临时表,并最终生成LUCENE索引以让客户端的索引下载器进行下载应用。
本发明实施例上述装置技术方案因为采用索引建立单元建立与检索关键词相关的主搜索索引和增量搜索索引;增量索引更新单元以比所述主搜索索引的更新周期小的更新周期定时更新所述增量搜索索引,以当进行关键词的检索时,同时利用所述与检索关键词相关的主搜索索引和增量搜索索引进行检索的技术手段,所以可以使网络资源中有关检索节目对应的更新变化无法实时且及时地反映在搜索结果上。
服务器端进行索引生成,索引包括主搜索索引和增量搜索索引。服务器端还包括增量搜索索引更新。用户端进行索引下载,用户端的web应用和服务器端保持定时询问连接,在服务器端有增量搜索索引更新时,下载该增量搜索索引。用户端进行索引应用部分,用户端以一种web形式展示该实时更新应用。
如图3所示,为本发明应用实例实时索引生产流程示意图,包括:
301、实时索引生产开始;
302、定时处理任务;
303、判断距上次生产索引时间是否有新的HASH,如果是,则转304,否则,转302;
304、读取新HASH;
305、循环读取一个HASH;
306、判断循环是否结束,如果是,转318,否则,转307;
307、判断HASH是否是成人节目,如果是,转310,否则,转308;
308、读取该HASH对应的站点;
309、根据HASH所对应的站点设置HASH锁定状态;
310、通过HASH从数据库中读取数据;
311、判断是否有收录该HASH,如果是,转312,否则,转314;
312、找出该HASH所对应剧集的权重;
313、写入到当天需要生产的增量索引临时表中,然后转305;
314、去掉HASH名称中的干扰因素,从数据库中模糊搜索片名;
315、判断是否有该剧集存在,如果是,转316,否则,转313;
316、读取剧集信息;
317、判断剧集是否是连载,如果是,转312,否则,转313;
318、生成LUCENE索引。
比如生成一个新节目如下:1.互联网上发布了一个新节目源名称[新亮剑30],增量索引会检测到这个新节目。2.通过这个节目唯一的身份证HASH查找web网上使用这个节目的网站,如果使用这个节目的网站中只要有一个是被锁定的站点,该节目将会被锁定不进行下面的步骤。3.节目未被锁定,通过[新亮剑30]的HASH从影视库中查找该节目是否被收录,如果有被收录将该节目,与新亮剑之前的节目权重保持一致。保证在搜索引擎中,[新亮剑30]与[新亮剑1-新亮剑29]出现在一起并排序。4.通过HASH在影视库中找到数据,将该节目写入到增量索引临时表(存储处理新影片的基本信息,每次处理都会清空该临时表,临时表共有2个,一个存储新节目基本数据如(片名HASH权重热门入库时间等);还有一个是存储播放地址数据(播放地址HASH))中,反之提取新节目名在影视库中检索,如果能检索到设置权重否则写入存储影片数据的临时表中。5.判断新节目是否全部处理完,如果是,将读取刚才写入的增量索引临时表生成LUCENE索引(一种搜索技术影视搜索引擎使用到的索引文件)。生成的LUCENE索引共包含2份索引:搜索索引和播放地址索引。主搜索索引通过增量搜索索引进行辅助,主搜索索引一天会产生2份,在2份索引间隔时间中的新节目就需要增量搜索索引来补充。权重,增量索引临时表,LUCENE索引读取剧集信息通过由关键字所确定的HASH所共有的特性相关联的。LUCENE索引是展示数据的一个平台,LUCENE索引涉及全文搜索索引。增量搜索索引与主搜索索引的节目建立关系,可以去掉HASH名称中的干扰因素,其中干扰因素列举如下:比如发布节目的站点,在名称中跟的网址或者网站名称等。
如图4所示,为本发明应用实例索引下载流程示意图,包括:
401、索引下载器开始;
402、开启循环读取服务器上实时索引目录,如果上次下载索引时间过长将实时索引下载状态改成空闲;
403、判断是否有新实时索引,并判断实时索引下载状态是否为正在运行(TRUE),如果是,转404,否则,转405;
404、设置实时索引下载状态为正在运行,下载最新的实时索引并解压,修改读取实时索引的配置;
405、释放WEB站点实时索引缓存,并将下载的索引文件名记录起来以备下次判断新索引;
406、删除旧实时索引;
407、判断2个索引(主搜索索引和增量搜索索引)是否都下载完成,如果是,转408,否则,继续判断;
408、将实时索引下载状态设置成空闲状态。
索引下载器描述:索引下载是提供的一个基于搜索引擎的EXE工具,主要是下载各种新索引。这里主要描述下载器下载增量搜索索引的工作原理,下载会间隔一段时间去服务器上扫描是否有新的增量搜索索引产生,如果有下载最新增量搜索索引,并解压到索引存放文件夹中,并判断索引是否可以正常搜索。完成上述操作并确定可以正常搜索修改搜索引擎使用的配置文件,将最新的增量搜索索引名称替换旧的增量搜索索引名称,同时释放搜索站使用的增量搜索索引缓存。配置文件指定搜索引擎需要使用的索引文件路径及文件名。
索引应用:提供一个释放实时缓存的接口,通过配置文件读取实时索引地址并加载实时索引合并搜索。配置文件未设置表示没有实时索引可以使用。如果在加载实时索引中出现异常将配置文件的实时索引地址的地址清空并记录这次异常日志。
搜索引擎使用增量搜索索引,通过配置文件读取需要使用的增量搜索索引,加载增量搜索索引并存放到缓存中,将增量搜索索引缓存与主搜索索引合并搜索。完成上步骤后,本来在搜索引擎中搜索[新亮剑]只能看到1到29集,使用了增量搜索索引就可以搜索到30集,用户可以更及时的在搜索引擎中搜索到最新的节目,而不是像以前需要等待12小时。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrativelogical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrativecomponents),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列(FPGA)或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电脑、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。