CN106445973B - 搜索引擎的监控方法和装置 - Google Patents

搜索引擎的监控方法和装置 Download PDF

Info

Publication number
CN106445973B
CN106445973B CN201510492814.6A CN201510492814A CN106445973B CN 106445973 B CN106445973 B CN 106445973B CN 201510492814 A CN201510492814 A CN 201510492814A CN 106445973 B CN106445973 B CN 106445973B
Authority
CN
China
Prior art keywords
search engine
document
simulation
search
monitoring system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510492814.6A
Other languages
English (en)
Other versions
CN106445973A (zh
Inventor
李素凌
霍承富
汤佳宇
卢小康
凌淑蓓
丁世远
管涛
林锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Singapore Holdings Pte Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510492814.6A priority Critical patent/CN106445973B/zh
Publication of CN106445973A publication Critical patent/CN106445973A/zh
Application granted granted Critical
Publication of CN106445973B publication Critical patent/CN106445973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明提出一种搜索引擎的监控方法和装置,该搜索引擎的监控方法包括:监控系统使用设定的搜索关键词第一次请求监控系统中模拟搜索引擎服务;获取模拟搜索引擎返回的与设定的搜索关键词第一次请求对应的第一文档集合;使用相同的设定的搜索关键词第二次请求模拟搜索引擎服务;获取模拟搜索引擎返回的与设定的搜索关键词第二次请求对应的第二文档集合;根据第一文档集合和第二文档集合中文档的重复度,确定模拟搜索引擎的正确性。本发明使用设定的搜索关键词请求监控系统中更新的搜索引擎服务,获取排序结果,通过对排序结果重复度判断监控系统的正确性,从而对线上问题进行预警,可以提升搜索引擎的稳定性,确保搜索引擎的可用性和正确性。

Description

搜索引擎的监控方法和装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种搜索引擎的监控方法和装置。
背景技术
传统搜索引擎中,一般分为线上和线下两个部分,线下为线上提供数据索引,线上对外提供服务。线下提供的索引数据的准确性决定了线上的正确性和可用性。搜索引擎正常的更新逻辑一般包括:数据更新、环境更新、索引更新和服务切换。而在数据更新到服务切换的过程中,会产生大量的时间开销,在这期间一旦出现了问题而又没能及时发现,将导致搜索引擎的服务不可用或者搜索结果错乱,那么对于搜索引擎来讲,损失是巨大的。
现有的搜索排序监控方法对于搜索引擎的可用性和正确性的监控存在一定的缺陷,容易导致搜索引擎的服务不可用或者搜索结果错乱。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种搜索引擎的监控方法。该方法使用设定的搜索关键词请求监控系统中的模拟搜索引擎服务,获取排序结果,通过对排序结果重复度判断监控系统的正确性,从而对监控系统监控的线上搜索引擎的问题进行预警,可以提升搜索引擎的稳定性,确保搜索引擎的可用性和正确性。
本发明的第二个目的在于提出一种搜索引擎的监控装置。
为了实现上述目的,本发明第一方面实施例的搜索引擎的监控方法,包括:监控系统使用设定的搜索关键词第一次请求所述监控系统中模拟搜索引擎服务,所述模拟搜索引擎与被监控的搜索引擎按照设定的策略同步更新;所述监控系统获取所述模拟搜索引擎返回的与所述设定的搜索关键词第一次请求对应的第一文档集合;所述监控系统使用相同的设定的搜索关键词第二次请求所述监控系统中模拟搜索引擎服务;所述监控系统获取所述模拟搜索引擎返回的与所述设定的搜索关键词第二次请求对应的第二文档集合;所述监控系统根据所述第一文档集合和所述第二文档集合中文档的重复度,确定所述模拟搜索引擎的正确性,以对所述监控系统监控的搜索引擎进行预警。
本发明实施例的搜索引擎的监控方法,监控系统使用设定的搜索关键词请求监控系统中模拟搜索引擎服务,获取上述搜索引擎返回的设定的搜索关键词对应的文档集合,然后根据同一搜索关键词相邻两次请求获取的第一文档集合和第二文档集合中文档的重复度,确定模拟搜索引擎的正确性,以对监控系统监控的搜索引擎进行预警,从而可以提升搜索引擎的稳定性,确保搜索引擎的可用性和正确性。
为了实现上述目的,本发明第二方面实施例的搜索引擎的监控装置,包括:搜索请求模块,用于使用设定的搜索关键词第一次请求所述搜索引擎的监控装置中模拟搜索引擎服务,所述模拟搜索引擎与被监控的搜索引擎按照设定的策略同步更新;获取模块,用于获取所述模拟搜索引擎返回的与所述设定的搜索关键词第一次请求对应的第一文档集合;所述搜索请求模块,还用于使用相同的设定的搜索关键词第二次请求所述搜索引擎的监控装置中模拟搜索引擎服务;所述获取模块,还用于获取所述模拟搜索引擎返回的与所述设定的搜索关键词第二次请求对应的第二文档集合;确定模块,用于所述第一文档集合和所述第二文档集合中文档的重复度,确定所述模拟搜索引擎的正确性,以对所述搜索引擎的监控装置监控的搜索引擎进行预警。
本发明实施例的搜索引擎的监控装置,搜索请求模块使用设定的搜索关键词请求搜索引擎的监控装置中更新的搜索引擎服务,获取模块获取上述搜索引擎返回的设定的搜索关键词对应的文档集合,然后确定模块根据同一搜索关键词相邻两次请求获取的第一文档集合与第二文档集合中文档的重复度,确定模拟搜索引擎的正确性,以对搜索引擎的监控装置监控的搜索引擎进行预警,从而可以提升搜索引擎的稳定性,确保搜索引擎的可用性和正确性。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明搜索引擎的监控方法一个实施例的流程图;
图2为本发明搜索引擎的监控方法中监控系统的架构一个实施例的示意图;
图3为本发明搜索引擎的监控方法另一个实施例的流程图;
图4为本发明搜索引擎的监控方法再一个实施例的流程图;
图5为本发明搜索引擎的监控方法再一个实施例的流程图;
图6为本发明搜索引擎的监控装置一个实施例的结构示意图;
图7为本发明搜索引擎的监控装置另一个实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1为本发明搜索引擎的监控方法一个实施例的流程图,如图1所示,该搜索引擎的监控方法可以包括:
步骤101,监控系统使用设定的搜索关键词第一次请求上述监控系统中模拟搜索引擎服务,上述模拟搜索引擎与被监控的搜索引擎按照设定的策略同步更新。
步骤102,监控系统获取上述模拟搜索引擎返回的与上述设定的搜索关键词第一次请求对应的第一文档集合。
具体地,监控系统可以获取上述模拟搜索引擎返回的与上述设定的搜索关键词第一次请求对应的第一文档(Document;以下简称:Doc)排序列表,存入搜索日志中。
步骤103,监控系统使用相同的设定的搜索关键词第二次请求上述监控系统中模拟搜索引擎服务。
步骤104,监控系统获取上述模拟搜索引擎返回的与上述设定的搜索关键词第二次请求对应的第二文档集合。
具体地,监控系统可以获取上述模拟搜索引擎返回的与上述设定的搜索关键词第二次请求对应的第二文档排序列表,存入搜索日志中。
本实施例中,监控系统第一次请求与第二次请求上述监控系统中的模拟搜索引擎服务之间间隔预定的时间长度。其中,上述预定的时间长度可以在具体实现时根据实现需求和/或系统性能等自行设定,本实施例对上述预定的时间长度的长短不作限定。
在具体实现时,监控系统可以每隔t分钟使用设定的搜索关键词请求上述监控系统中模拟搜索引擎服务。
其中,t的大小可以在具体实现时根据实现需求和/或系统性能等自行设定,本实施例对t的大小不作限定。
步骤105,监控系统根据上述第一文档集合和上述第二文档集合中文档的重复度,确定上述模拟搜索引擎的正确性,以对上述监控系统监控的搜索引擎进行预警。
上述搜索引擎的监控方法中,监控系统使用设定的搜索关键词请求监控系统中更新的搜索引擎服务,获取上述搜索引擎返回的设定的搜索关键词对应的文档集合,然后根据同一搜索关键词相邻两次请求获取的第一文档集合和第二文档集合中文档的重复度,确定监控系统中模拟搜索引擎的正确性,以对监控系统监控的搜索引擎进行预警,从而可以提升搜索引擎的稳定性,确保搜索引擎的可用性和正确性。
本发明图1所示实施例提供的搜索引擎的监控方法可以通过图2所示的监控系统实现,图2为本发明搜索引擎的监控方法中监控系统的架构一个实施例的示意图。
图2所示的架构中,实线框为监控系统环境的日更新逻辑:
(1)监控系统基于部分Doc创建。监控系统对全量Doc数据进行抽样,获取约100万的Doc数据,如果全量Doc数据为1亿,那么在单机的情况下,监控系统对获取的Doc数据的处理时间可以缩小为原来的1/100。
(2)监控系统每天需要分别拉取搜索引擎的线下和线上的环境,包括配置和/或词典等。监控系统需要保证自身环境与线上搜索引擎的环境完全一致,以便真正反映线上真实的状况。
(3)监控系统在环境同步后,需要建立Doc文档的倒排索引,并进行索引切换。
图2所示的架构中,虚线框为监控系统的监控逻辑:
(1)监控服务可用性;
(2)使用设定的搜索关键词请求监控系统中更新的搜索引擎服务,获取排序结果中Doc的重复度。
进一步地,参见图3,图3为本发明搜索引擎的监控方法另一个实施例的流程图,如图3所示,本发明图1所示实施例提供的搜索引擎的监控方法中,步骤105可以包括:
步骤301,计算第一文档集合与第二文档集合中按序选择的至少两个文档的重复度。
具体地,可以根据获取的搜索日志,对第一文档集合与第二文档集合中按序选择的前N个Doc的重复度按照式(1)进行计算。
pQn=(Ln-1∩Ln)/N (1)
其中,pQn表示搜索关键词Q第n次请求与第n-1次请求的Doc的重复度;Ln表示第n次请求的Doc集合;Ln-1表示第n-1次请求的Doc集合;N表示每次请求获取的Doc的数量,N为整数,N≥2;(Ln-1∩Ln)表示第n-1次请求和第n次请求获得的重复的Doc的数量。
步骤302,判断上述重复度是否大于或等于重复度报警阈值。如果是,则执行步骤303;如果上述重复度小于重复度报警阈值,则执行步骤304。
其中,上述重复度报警阈值可以在具体实现时根据实现需求和/或系统性能等自行设定,本实施例对上述重复度报警阈值的大小不作限定。
步骤303,确定上述模拟搜索引擎未发生错误。
步骤304,确定上述模拟搜索引擎发生错误。
也就是说,当重复度小于设定的重复度报警阈值时,可以确定监控系统中的模拟搜索引擎发生错误,这也表示监控系统监控的搜索引擎的正确性可能出现问题,这时候需要报警给相关人员进行排查,确保监控系统监控的搜索引擎的正确性。
进一步地,参见图4,图4为本发明搜索引擎的监控方法再一个实施例的流程图,如图4所示,本发明图1所示实施例提供的搜索引擎的监控方法中,步骤101之后,还可以包括:
步骤401,监控系统判断上述监控系统中模拟搜索引擎是否能正常返回搜索结果。如果是,则执行步骤102;如果上述监控系统中模拟搜索引擎不能正常返回搜索结果,则执行步骤402。
步骤402,确定上述模拟搜索引擎发生故障,进行报警。
也就是说,在监控系统使用设定的搜索关键词请求上述监控系统中模拟搜索引擎服务之后,需要判断监控系统中模拟搜索引擎是否能正常返回搜索结果,如果能,则继续执行步骤102;而如果不能,则可以确定上述模拟搜索引擎发生故障,这也表示上述监控系统监控的搜索引擎的可用性可能出现问题,需要报警给相关人员处理疑似问题,以确保监控系统监控的搜索引擎的可用性。
进一步地,参见图5,图5为本发明搜索引擎的监控方法再一个实施例的流程图,本发明图1所示实施例提供的搜索引擎的监控方法中,步骤101之前,还可以包括监控系统的环境更新的过程,如图5所示,监控系统的环境更新的过程可以包括:
步骤501,监控系统从线下文档处理环境中获取指定的文档标识对应的文档,上述指定的文档标识对应的文档是周期性更新的。
具体地,上述指定的文档标识对应的文档是周期性更新的可以为:上述指定的文档标识对应的文档是每日更新的,或者上述指定的文档标识对应的文档是每12小时更新的,等等,本实施例对上述指定的文档标识对应的文档的更新周期不作限定。
本实施例中,监控系统去线下文档处理环境中获取每日更新的指定的文档标识对应的文档,可以保证每日监控的文档集合一定,从而使监控对象具有可对比性。
步骤502,监控系统在线上搜索引擎环境更新后,同步更新后的线上搜索引擎环境到上述监控系统中的模拟搜索引擎。
具体地,在线上搜索引擎环境更新后,监控系统同步更新后的线上搜索引擎环境到上述监控系统中的模拟搜索引擎,保证监控系统中的模拟搜索引擎与线上搜索引擎的环境保持完全一致,使监控系统中的模拟搜索引擎与线上搜索引擎的环境具有一致性。
步骤503,监控系统使用上述模拟搜索引擎建立获取的文档对应的倒排索引,进行索引切换。
具体地,在监控系统线上线下部分环境完全同步后,监控系统使用新的环境建立步骤501中获取的文档对应的倒排索引,并进行索引切换,从而使监控系统能真实反映线上搜索引擎的情况,使监控系统具有真实性。
按照图5所示实施例的逻辑,监控系统其实是线上搜索引擎的一个真实反映,但由于集群小,数据少,使得监控系统的更新远远比线上搜索引擎的环境更新要快,单台监控机器,80w数据量的Doc,从数据更新到环境更新,可以在30分钟之内完成,从而能更快发现潜在的问题,包括线下数据更新错误、线上环境更新错误和/或线上服务更新错误等。
本发明针对传统搜索排序监控在系统正确性和可用性上的不足,提出一种搜索引擎的监控方法,本发明提供的搜索引擎的监控方法中,监控系统将搜索引擎的可用性和正确性转化为小数据集合上的系统可用性以及数据重复度来体现,从而能够在线上搜索引擎服务切换之前,发现潜在的问题。
本发明提供的搜索引擎的监控方法以小集群模拟线上搜索引擎更新的全流程,效率高,监控的准确度高;每天同步线上环境以及搜索引擎相关词典,确保监控系统与线上系统环境的一致性;另外,监控系统每隔固定的时间,使用固定一批搜索关键词来请求监控系统中更新的搜索引擎服务,可以确保搜索引擎的可用性,在获取排序结果之后,通过对排序结果重复度的监控来对线上搜索引擎的问题进行预警,可以确保搜索引擎的正确性。
图6为本发明搜索引擎的监控装置一个实施例的结构示意图,本实施例中的搜索引擎的监控装置可以作为监控系统,或者监控系统的一部分实现本发明图1所示实施例的流程,如图6所示,该搜索引擎的监控装置可以包括:搜索请求模块61、获取模块62和确定模块63;
其中,搜索请求模块61,用于使用设定的搜索关键词第一次请求上述搜索引擎的监控装置中模拟搜索引擎服务,上述模拟搜索引擎与被监控的搜索引擎按照设定的策略同步更新;
获取模块62,用于获取上述模拟搜索引擎返回的与上述设定的搜索关键词第一次请求对应的第一文档集合;具体地,获取模块62可以获取上述模拟搜索引擎返回的与上述设定的搜索关键词第一次请求对应的第一Doc排序列表,存入搜索日志中。
本实施例中,搜索请求模块61,还用于使用相同的设定的搜索关键词第二次请求上述搜索引擎的监控装置中模拟搜索引擎服务;
获取模块62,还用于获取上述模拟搜索引擎返回的与上述设定的搜索关键词第二次请求对应的第二文档集合;具体地,获取模块62可以获取上述模拟搜索引擎返回的与上述设定的搜索关键词第二次请求对应的第二Doc排序列表,存入搜索日志中。
本实施例中,搜索请求模块61第一次请求与第二次请求上述搜索引擎的监控装置中的模拟搜索引擎服务之间间隔预定的时间长度。其中,上述预定的时间长度可以在具体实现时根据实现需求和/或系统性能等自行设定,本实施例对上述预定的时间长度的长短不作限定。
在具体实现时,搜索请求模块61可以每隔t分钟使用设定的搜索关键词请求上述搜索引擎的监控装置中更新的搜索引擎服务。
其中,t的大小可以在具体实现时根据实现需求和/或系统性能等自行设定,本实施例对t的大小不作限定。
确定模块63,用于根据第一文档集合和第二文档集合中文档的重复度,确定上述模拟搜索引擎的正确性,以对上述搜索引擎的监控装置监控的搜索引擎进行预警。
上述搜索引擎的监控装置中,搜索请求模块61使用设定的搜索关键词请求搜索引擎的监控装置中更新的搜索引擎服务,获取模块62获取上述搜索引擎返回的设定的搜索关键词对应的文档集合,然后确定模块63根据同一搜索关键词相邻两次请求获取的第一文档集合和第二文档集合中文档的重复度,确定搜索引擎的监控装置中模拟搜索引擎的正确性,以对搜索引擎的监控装置监控的搜索引擎进行预警,从而可以提升搜索引擎的稳定性,确保搜索引擎的可用性和正确性。
图7为本发明搜索引擎的监控装置另一个实施例的结构示意图,本实施例中的搜索引擎的监控装置可以实现本发明图3~图5所示实施例的流程,与图6所示的搜索引擎的监控装置相比,不同之处在于,图7所示的搜索引擎的监控装置中,确定模块63可以包括:计算子模块631、判断子模块632和正确性确定子模块633;
其中,计算子模块631,用于计算第一文档集合与第二文档集合中按序选择的至少两个文档的重复度;具体地,计算子模块631可以根据获取模块62获取的搜索日志,对第一文档集合与第二文档集合中按序选择的前N个Doc的重复度按照式(1)进行计算。
判断子模块632,用于判断计算子模块631计算的重复度是否大于或等于重复度报警阈值;其中,上述重复度报警阈值可以在具体实现时根据实现需求和/或系统性能等自行设定,本实施例对上述重复度报警阈值的大小不作限定。
正确性确定子模块633,用于当判断子模块632确定计算子模块631计算的重复度大于或等于重复度报警阈值时,确定上述模拟搜索引擎未发生错误;当判断子模块632确定计算子模块631计算的重复度小于上述重复度报警阈值时,确定上述模拟搜索引擎发生错误。
也就是说,当重复度小于设定的重复度报警阈值时,正确性确定子模块633可以确定上述模拟搜索引擎发生错误,这也表示搜索引擎的监控装置所监控的搜索引擎的正确性可能出现问题,这时候需要报警给相关人员进行排查,确保搜索引擎的监控装置所监控的搜索引擎的正确性。
进一步地,上述搜索引擎的监控装置还可以包括:判断模块64;
判断模块64,用于在搜索请求模块61使用设定的搜索关键词第一次请求上述搜索引擎的监控装置中模拟搜索引擎服务之后,判断上述搜索引擎的监控装置中模拟搜索引擎是否能正常返回搜索结果;
获取模块62,具体用于当判断模块64确定上述搜索引擎的监控装置中模拟搜索引擎能正常返回搜索结果时,执行获取上述模拟搜索引擎返回的上述设定的搜索关键词第一次请求对应的第一文档集合的步骤;
确定模块63,还用于当判断模块64确定上述搜索引擎的监控装置中模拟搜索引擎不能正常返回搜索结果时,确定上述模拟搜索引擎发生故障,进行报警。
也就是说,在搜索请求模块61使用设定的搜索关键词请求上述搜索引擎的监控装置中模拟搜索引擎服务之后,判断模块64需要判断搜索引擎的监控装置中模拟搜索引擎是否能正常返回搜索结果,如果能,则获取模块62执行获取上述模拟搜索引擎返回的与上述设定的搜索关键词第一次请求对应的第一文档集合的步骤;而如果不能,则确定模块63可以确定上述模拟搜索引擎发生故障,这也表示上述搜索引擎的监控装置监控的搜索引擎的可用性可能出现问题,需要报警给相关人员处理疑似问题,以确保上述搜索引擎的监控装置监控的搜索引擎的可用性。
进一步地,上述搜索引擎的监控装置还可以包括:同步模块65、建立模块66和切换模块67;
获取模块62,还用于在搜索请求模块61使用设定的搜索关键词第一次请求上述搜索引擎的监控装置中模拟搜索引擎服务之前,从线下文档处理环境中获取指定的文档标识对应的文档,上述指定的文档标识对应的文档是周期性更新的;具体地,上述指定的文档标识对应的文档是周期性更新的可以为:上述指定的文档标识对应的文档是每日更新的,或者上述指定的文档标识对应的文档是每12小时更新的,等等,本实施例对上述指定的文档标识对应的文档的更新周期不作限定。
本实施例中,获取模块62去线下文档处理环境中获取每日更新的指定的文档标识对应的文档,可以保证每日监控的文档集合一定,从而使监控对象具有可对比性。
同步模块65,用于在线上搜索引擎环境更新后,同步更新后的线上搜索引擎环境到上述搜索引擎的监控装置中的模拟搜索引擎;具体地,在线上搜索引擎环境更新后,同步模块65同步更新后的线上搜索引擎环境到上述搜索引擎的监控装置中的模拟搜索引擎,保证搜索引擎的监控装置中的模拟搜索引擎与线上搜索引擎的环境保持完全一致,使搜索引擎的监控装置中的模拟搜索引擎与线上搜索引擎的环境具有一致性。
建立模块66,用于使用上述模拟搜索引擎建立获取模块62获取的文档对应的倒排索引;
切换模块67,用于进行索引切换。
具体地,在搜索引擎的监控装置线上线下部分环境完全同步后,建立模块66使用新的环境建立获取模块62获取的文档对应的倒排索引,并由切换模块67进行索引切换,从而使搜索引擎的监控装置能真实反映线上搜索引擎的情况,使搜索引擎的监控装置具有真实性。
上述搜索引擎的监控装置其实是线上搜索引擎的一个真实反映,但由于集群小,数据少,使得搜索引擎的监控装置的更新远远比线上搜索引擎的环境更新要快,单台监控机器,80w数据量的Doc,从数据更新到环境更新,可以在30分钟之内完成,从而能更快发现潜在的问题,包括线下数据更新错误、线上环境更新错误和/或线上服务更新错误等,进而可以确保搜索引擎的可用性和正确性。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种搜索引擎的监控方法,其特征在于,包括:
监控系统使用设定的搜索关键词第一次请求所述监控系统中模拟搜索引擎服务,所述模拟搜索引擎与被监控的搜索引擎按照设定的策略同步更新;
所述监控系统获取所述模拟搜索引擎返回的与所述设定的搜索关键词第一次请求对应的第一文档集合;
所述监控系统使用相同的设定的搜索关键词第二次请求所述监控系统中模拟搜索引擎服务;
所述监控系统获取所述模拟搜索引擎返回的与所述设定的搜索关键词第二次请求对应的第二文档集合;
所述监控系统根据所述第一文档集合和所述第二文档集合中文档的重复度,确定所述模拟搜索引擎的正确性,以对所述监控系统监控的搜索引擎进行预警;
所述监控系统使用设定的搜索关键词第一次请求所述监控系统中模拟搜索引擎服务之前,还包括:
所述监控系统从线下文档处理环境中获取指定的文档标识对应的文档,所述指定的文档标识对应的文档是周期性更新的;
所述监控系统在线上搜索引擎环境更新后,同步更新后的线上搜索引擎环境到所述监控系统中的模拟搜索引擎;
所述监控系统使用所述模拟搜索引擎建立获取的文档对应的倒排索引,进行索引切换。
2.根据权利要求1所述的方法,其特征在于,所述监控系统第一次请求与第二次请求所述监控系统中模拟搜索引擎服务之间间隔预定的时间长度。
3.根据权利要求1所述的方法,其特征在于,所述监控系统根据所述第一文档集合和所述第二文档集合中文档的重复度,确定所述模拟搜索引擎的正确性包括:
计算所述第一文档集合与所述第二文档集合中按序选择的至少两个文档的重复度;
判断所述重复度是否大于或等于重复度报警阈值;
如果是,则确定所述模拟搜索引擎未发生错误;
如果所述重复度小于所述重复度报警阈值,则确定所述模拟搜索引擎发生错误。
4.根据权利要求1所述的方法,其特征在于,所述监控系统使用设定的搜索关键词第一次请求所述监控系统中模拟搜索引擎服务之后,还包括:
所述监控系统判断所述监控系统中模拟搜索引擎是否能正常返回搜索结果;
如果是,则执行所述监控系统获取所述模拟搜索引擎返回的与所述设定的搜索关键词第一次请求对应的第一文档集合的步骤;
如果所述监控系统中模拟搜索引擎不能正常返回搜索结果,则确定所述模拟搜索引擎发生故障,进行报警。
5.一种搜索引擎的监控装置,其特征在于,包括:
搜索请求模块,用于使用设定的搜索关键词第一次请求所述搜索引擎的监控装置中模拟搜索引擎服务,所述模拟搜索引擎与被监控的搜索引擎按照设定的策略同步更新;
获取模块,用于获取所述模拟搜索引擎返回的与所述设定的搜索关键词第一次请求对应的第一文档集合;
所述搜索请求模块,还用于使用相同的设定的搜索关键词第二次请求所述搜索引擎的监控装置中模拟搜索引擎服务;
所述获取模块,还用于获取所述模拟搜索引擎返回的与所述设定的搜索关键词第二次请求对应的第二文档集合;
确定模块,用于所述第一文档集合和所述第二文档集合中文档的重复度,确定所述模拟搜索引擎的正确性,以对所述搜索引擎的监控装置监控的搜索引擎进行预警;
所述的装置,还包括:同步模块、建立模块和切换模块;
所述获取模块,还用于在所述搜索请求模块使用设定的搜索关键词第一次请求所述搜索引擎的监控装置中模拟搜索引擎服务之前,从线下文档处理环境中获取指定的文档标识对应的文档,所述指定的文档标识对应的文档是周期性更新的;
所述同步模块,用于在线上搜索引擎环境更新后,同步更新后的线上搜索引擎环境到所述搜索引擎的监控装置中的模拟搜索引擎;
所述建立模块,用于使用所述模拟搜索引擎建立所述获取模块获取的文档对应的倒排索引;
所述切换模块,用于进行索引切换。
6.根据权利要求5所述的装置,其特征在于,
所述搜索请求模块第一次请求与第二次请求所述搜索引擎的监控装置中的模拟搜索引擎服务之间间隔预定的时间长度。
7.根据权利要求5所述的装置,其特征在于,所述确定模块包括:
计算子模块,用于计算所述第一文档集合与所述第二文档集合中按序选择的至少两个文档的重复度;
判断子模块,用于判断所述计算子模块计算的重复度是否大于或等于重复度报警阈值;
正确性确定子模块,用于当所述判断子模块确定所述计算子模块计算的重复度大于或等于重复度报警阈值时,确定所述模拟搜索引擎未发生错误;当所述判断子模块确定所述计算子模块计算的重复度小于所述重复度报警阈值时,确定所述模拟搜索引擎发生错误。
8.根据权利要求5所述的装置,其特征在于,还包括:判断模块;
所述判断模块,用于在所述搜索请求模块使用设定的搜索关键词第一次请求所述搜索引擎的监控装置中模拟搜索引擎服务之后,判断所述搜索引擎的监控装置中模拟搜索引擎是否能正常返回搜索结果;
所述获取模块,具体用于当所述判断模块确定所述搜索引擎的监控装置中模拟搜索引擎能正常返回搜索结果时,执行获取所述模拟搜索引擎返回的与所述设定的搜索关键词第一次请求对应的第一文档集合的步骤;
所述确定模块,还用于当所述判断模块确定所述搜索引擎的监控装置中模拟搜索引擎不能正常返回搜索结果时,确定所述模拟搜索引擎发生故障,进行报警。
CN201510492814.6A 2015-08-12 2015-08-12 搜索引擎的监控方法和装置 Active CN106445973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510492814.6A CN106445973B (zh) 2015-08-12 2015-08-12 搜索引擎的监控方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510492814.6A CN106445973B (zh) 2015-08-12 2015-08-12 搜索引擎的监控方法和装置

Publications (2)

Publication Number Publication Date
CN106445973A CN106445973A (zh) 2017-02-22
CN106445973B true CN106445973B (zh) 2019-08-09

Family

ID=58093375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510492814.6A Active CN106445973B (zh) 2015-08-12 2015-08-12 搜索引擎的监控方法和装置

Country Status (1)

Country Link
CN (1) CN106445973B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733707B (zh) * 2017-04-20 2022-10-04 腾讯科技(深圳)有限公司 一种确定搜索功能稳定性的方法及装置
CN110609844B (zh) * 2018-05-29 2022-05-13 优信拍(北京)信息科技有限公司 一种数据更新方法,装置及系统
CN112783719B (zh) * 2020-12-31 2023-02-28 杭州趣链科技有限公司 监控数据获取方法、服务器、系统及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116587A (zh) * 2011-11-17 2013-05-22 阿里巴巴集团控股有限公司 一种可缺省关键词的挖掘方法、数据搜索方法及设备
CN104714956A (zh) * 2013-12-13 2015-06-17 国家电网公司 一种异构记录集对比方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116587A (zh) * 2011-11-17 2013-05-22 阿里巴巴集团控股有限公司 一种可缺省关键词的挖掘方法、数据搜索方法及设备
CN104714956A (zh) * 2013-12-13 2015-06-17 国家电网公司 一种异构记录集对比方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"New measurements for search engine evaluation proposed and tested";Liwen Vaughan;《Infomation Processing and Management》;20030619;第677-691页 *
"搜索引擎评价研究综述";苏君华;《情报杂志》;20110418;第30卷(第4期);第30-31页 *

Also Published As

Publication number Publication date
CN106445973A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
US10439922B2 (en) Service analyzer interface
CN103714097B (zh) 一种访问数据库的方法和装置
US20130198227A1 (en) Temporal pattern matching in large collections of log messages
CN106196448B (zh) 空调器的故障检测方法和装置
CN108921301A (zh) 一种基于自学习的机器学习模型更新方法及系统
CN104903866A (zh) 对事件根本原因的分析予以支援的管理系统以及方法
CN105989140B (zh) 一种数据块处理方法和设备
CN106445973B (zh) 搜索引擎的监控方法和装置
CN108694195A (zh) 一种分布式数据仓库的管理方法及系统
CN109800995A (zh) 一种电网设备故障识别方法及系统
CN113516244B (zh) 一种智能运维方法、装置、电子设备及存储介质
CN106294076A (zh) 一种服务器关联故障预测方法及其系统
CN110162445A (zh) 基于主机日志及性能指标的主机健康评价方法及装置
CN105099798A (zh) 一种基于指标体系的主站运行在线监测与评估方法
CN114791846A (zh) 一种针对云原生混沌工程实验实现可观测性的方法
CN106911519A (zh) 一种数据采集监控方法及装置
CN105159925B (zh) 一种数据库集群数据分配方法及系统
Li et al. A distributed parallel alarm management strategy for alarm reduction in chemical plants
CN109933575A (zh) 监测数据的存储方法及装置
CN107609203A (zh) 一种搜索引擎优化效果量化评估的数据分析系统及方法
AU2019335381B2 (en) Railway diagnostic systems and methods
CN110390424A (zh) 测试对象的寿命预估方法、装置、设备及介质
CN115509784A (zh) 数据库实例的故障检测方法和装置
CN105553722B (zh) 一种基于时间戳的数据交换方法、装置及系统
CN104516916A (zh) 网络报表关联关系的分析方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240321

Address after: # 01-21, Lai Zan Da Building 1, 51 Belarusian Road, Singapore

Patentee after: Alibaba Singapore Holdings Ltd.

Country or region after: Singapore

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: ALIBABA GROUP HOLDING Ltd.

Country or region before: Cayman Islands

TR01 Transfer of patent right