CN116415057A - 一种搜索业务的诊断方法、装置、设备及存储介质 - Google Patents
一种搜索业务的诊断方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116415057A CN116415057A CN202210010079.0A CN202210010079A CN116415057A CN 116415057 A CN116415057 A CN 116415057A CN 202210010079 A CN202210010079 A CN 202210010079A CN 116415057 A CN116415057 A CN 116415057A
- Authority
- CN
- China
- Prior art keywords
- search
- target
- resource
- service
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002405 diagnostic procedure Methods 0.000 title description 13
- 238000003745 diagnosis Methods 0.000 claims abstract description 189
- 238000000034 method Methods 0.000 claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 81
- 238000012163 sequencing technique Methods 0.000 claims abstract description 9
- 230000001360 synchronised effect Effects 0.000 claims description 67
- 238000004458 analytical method Methods 0.000 claims description 42
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000013144 data compression Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 2
- 230000006835 compression Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 24
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 230000000875 corresponding effect Effects 0.000 description 83
- 238000013461 design Methods 0.000 description 12
- 238000001914 filtration Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 6
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000005065 mining Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 241000700605 Viruses Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种搜索业务的诊断方法、装置、设备及存储介质,相关实施例可应用于云技术、人工智能、智慧交通等各种场景,用于提高搜索业务的诊断效率。本申请实施例方法包括:获取针对于目标搜索业务的目标搜索语句,根据目标搜索语句从多个搜索资源中召回每个搜索资源的第一搜索结果,其中,多个搜索资源属于目标搜索业务关联的搜索资源,对每个搜索资源的第一搜索结果进行排序,得到每个搜索资源的第二搜索结果,根据每个搜索资源的第二搜索结果,对多个搜索资源中每个搜索资源在各个阶段的处理情况进行诊断,得到目标搜索业务的诊断信息,其中,诊断信息包括针对召回阶段的第一诊断信息以及针对排序阶段的第二诊断信息。
Description
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种搜索业务的诊断方法、装置、设备及存储介质。
背景技术
随着互联网技术和信息处理技术的不断发展,越来越多的终端用户接入了互联网,产品服务开发人员也随之开发出各种互联网产品,能够帮助越来越多的终端用户在日常的工作、学习和生活中使用各种互联网产品进行文本、表情包或图像等信息搜索,为了让互联网产品能够更好地服务于终端用户,研发人员通过对终端用户使用互联网产品搜索的过程进行诊断分析来获取诊断结果以更准确地定位互联网产品存在的问题,为互联网产品提供技术上的运行保障和改进依据。
目前对互联网产品搜索的过程进行诊断分析通常是通过在产品日志中查找相应的搜索日志,从搜索日志中提取相关特征信息,然后,对相关特征信息进行人工诊断分析才能得到诊断结果。
但是,从搜索日志中提取相关特征信息容易受到信息缺失、信息单一以及提取误差等因素的影响,导致获取到不准确或不完整的搜索的过程的相关特征信息,且基于相关特征信息进行诊断分析需要耗费大量的人力成本对海量数据进行分析处理,导致时间成本增加,从而导致获取到的诊断结果的准确性和效率不高。
发明内容
本申请实施例提供了一种搜索业务的诊断方法、装置、设备及存储介质,用于一次性召回每个搜索资源的第一搜索结果,可以避免搜索日志中信息缺失、提取误差等因素的影响,无需针对于多个搜索资源反复搜索日志进行特征挖掘和诊断,可以基于第二搜索结果可以直接诊断得到针对召回阶段的第一诊断信息以及针对排序阶段的第二诊断信息,从而提高搜索结果和诊断信息的准确性和效率。
本申请实施例一方面提供了一种搜索业务的诊断方法,包括:
获取针对于目标搜索业务的目标搜索语句;
根据目标搜索语句从多个搜索资源中召回每个搜索资源的第一搜索结果,其中,多个搜索资源属于目标搜索业务关联的搜索资源;
对每个搜索资源的第一搜索结果进行排序,得到每个搜索资源的第二搜索结果;
根据每个搜索资源的第二搜索结果,对多个搜索资源中每个搜索资源在各个阶段的处理情况进行诊断,得到目标搜索业务的诊断信息,其中,诊断信息包括针对召回阶段的第一诊断信息以及针对排序阶段的第二诊断信息。
本申请另一方面提供了一种搜索业务的诊断装置,包括:
获取单元,用于获取针对于目标搜索业务的目标搜索语句;
处理单元,用于根据目标搜索语句从多个搜索资源中召回每个搜索资源的第一搜索结果,其中,多个搜索资源属于目标搜索业务关联的搜索资源;
处理单元,还用于对每个搜索资源的第一搜索结果进行排序,得到每个搜索资源的第二搜索结果;
处理单元,还用于根据每个搜索资源的第二搜索结果,对多个搜索资源中每个搜索资源在各个阶段的处理情况进行诊断,得到目标搜索业务的诊断信息,其中,诊断信息包括针对召回阶段的第一诊断信息以及针对排序阶段的第二诊断信息。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体可以用于:
对目标搜索语句进行切词处理,得到至少两个待处理词语;
对至少两个待处理词语分别进行语义识别操作,得到每个待处理词语对应的语义识别概率;
根据每个待处理词语对应的语义识别概率确定目标搜索语句的行业类别;
根据目标搜索语句的行业类别,获取目标搜索语句在每个搜索资源中垂直搜索的第一搜索结果。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体可以用于:
读取资源数据库获取每个搜索资源对应的评分策略;
根据评分策略对每个搜索资源的第一搜索结果进行评分,得到每个搜索资源的第一搜索结果中每个搜索结果的召回分值;
根据每个搜索结果的召回分值大小对每个搜索资源的第一搜索结果进行排序,得到每个搜索资源的第二搜索结果。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,
获取单元,还用于根据同步上报参数获取同步上报路径,其中,同步上报参数用于控制同步上报开关开启同步上报路径;
处理单元,还用于将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息通过同步上报路径上传至诊断数据库。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,
处理单元,还用于将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息分别进行标准化处理,得到每个搜索资源的第一标准搜索结果、第二标准搜索结果以及目标搜索业务的标准诊断信息;
处理单元具体可以用于:将每个搜索资源的第一标准搜索结果、第二标准搜索结果以及目标搜索业务的标准诊断信息通过同步上报路径上传至诊断数据库。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体可以用于:
将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息写入请求回包得到目标请求回包;
将目标请求回包通过同步上报路径上传至诊断数据库。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,
处理单元,还用于对每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息进行语法树解析,得到每个搜索资源的第一解析结果、第二解析结果以及目标搜索业务的诊断解析信息;
生成单元,用于根据每个搜索资源的第一解析结果、第二解析结果以及目标搜索业务的诊断解析信息按照列表生成模板,生成目标搜索业务的搜索诊断列表。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,
获取单元,还用于根据异步上报参数获取异步上报路径,其中,异步上报参数用于控制异步上报开关开启异步上报路径;
处理单元,还用于将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息通过异步上报路径上传至诊断数据库。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体可以用于:
将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息进行汇总,得到目标搜索业务的诊断数据集合;
将目标搜索业务的诊断数据集合通过异步上报路径写入第一消息队列;
按照时间维度对第一消息队列中的目标搜索业务的诊断数据集合进行聚合处理,得到目标搜索业务的每个时间窗口对应的聚合诊断数据;
将目标搜索业务的每个时间窗口对应的聚合诊断数据通过异步上报路径上传至诊断数据库。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,
获取单元,还用于获取目标搜索业务对应的当前资源消耗量;
处理单元,还用于若目标搜索业务对应的当前资源消耗量大于或等于资源阈值,则对目标搜索业务的诊断数据集合进行数据压缩,得到目标搜索业务的诊断压缩数据;
处理单元具体可以用于:将目标搜索业务的诊断压缩数据通过异步上报路径写入第一消息队列。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体可以用于:
根据搜索标识获取目标搜索业务的目标路由信息,其中,目标路由信息是搜索标识经过哈希得到的;
将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息路由到目标路由信息所对应的目标节点中进行汇总,得到目标搜索业务的诊断数据集合。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,
处理单元,还用于根据搜索标识索引至延时上报数据以及目标节点变更数据;
处理单元,还用于将延时上报数据以及目标节点变更数据进行汇总,得到延时数据集合;
处理单元具体可以用于:将目标搜索业务的诊断数据集合以及延时数据集合通过异步上报路径写入第一消息队列。
本申请另一方面提供了一种计算机设备,包括:存储器、收发器、处理器以及总线系统;
其中,存储器用于存储程序;
处理器用于执行存储器中的程序时实现如上述各方面的方法;
总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过获取针对于目标搜索业务的目标搜索语句,根据目标搜索语句从多个属于目标搜索业务关联的搜索资源中召回每个搜索资源的第一搜索结果,可以对每个搜索资源的第一搜索结果进行排序,以获取每个搜索资源的第二搜索结果,然后,可以根据每个搜索资源的第二搜索结果,对多个搜索资源中每个搜索资源在各个阶段的处理情况进行诊断,以获取到目标搜索业务的包括针对召回阶段的第一诊断信息以及针对排序阶段的第二诊断信息的诊断信息。通过上述方式,能够根据目标搜索语句从多个属于目标搜索业务关联的搜索资源中直接一次性召回每个搜索资源的第一搜索结果,可以避免搜索日志中信息缺失、提取误差等因素的影响,无需针对于多个搜索资源反复搜索日志进行特征挖掘和诊断,可以基于一次性召回每个搜索资源的第一搜索结果获取到第二搜索结果,并基于第二搜索结果可以直接诊断得到针对召回阶段的第一诊断信息以及针对排序阶段的第二诊断信息,从而提高搜索结果和诊断信息的准确性和效率。
附图说明
图1是本申请实施例中业务对象控制系统的一个架构示意图;
图2是本申请实施例中搜索业务的诊断方法的一个实施例流程图;
图3是本申请实施例中搜索业务的诊断方法的另一个实施例流程图;
图4是本申请实施例中搜索业务的诊断方法的另一个实施例流程图;
图5是本申请实施例中搜索业务的诊断方法的另一个实施例流程图;
图6是本申请实施例中搜索业务的诊断方法的另一个实施例流程图;
图7是本申请实施例中搜索业务的诊断方法的另一个实施例流程图;
图8是本申请实施例中搜索业务的诊断方法的另一个实施例流程图;
图9是本申请实施例中搜索业务的诊断方法的另一个实施例流程图;
图10是本申请实施例中搜索业务的诊断方法的另一个实施例流程图;
图11是本申请实施例中搜索业务的诊断方法的另一个实施例流程图;
图12是本申请实施例中搜索业务的诊断方法的一个原理流程示意图;
图13是本申请实施例中搜索业务的诊断装置的一个实施例示意图;
图14是本申请实施例中计算机设备的一个实施例示意图。
具体实施方式
本申请实施例提供了一种搜索业务的诊断方法、装置、设备及存储介质,用于一次性召回每个搜索资源的第一搜索结果,可以避免搜索日志中信息缺失、提取误差等因素的影响,无需针对于多个搜索资源反复搜索日志进行特征挖掘和诊断,可以基于第二搜索结果可以直接诊断得到针对召回阶段的第一诊断信息以及针对排序阶段的第二诊断信息,从而提高搜索结果和诊断信息的准确性和效率。
本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
而随着信息的飞速发展,人工智能(artificial intelligence,AI)逐渐走入人们生活的方方面面。人工智能在文本翻译、智能问答以及情感分析等方面,都具有广泛的实践意义。人工智能的出现,也极大地方便了人们的生活。首先,对人工智能进行简单的说明。人工智能是利用数学计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能是一门综合学科,涉及的领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能的基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统和机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。在机器学习/深度学习技术中常与云技术结合使用。
云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
其中,云安全(Cloud Security)是指基于云计算商业模式应用的安全软件、硬件、用户、机构、安全云平台的总称。云安全融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念,通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,并发送到服务端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。本申请实施例提供的搜索业务的诊断方法就可以通过云计算技术以及云安全技术来实现。
应理解,本申请提供的搜索业务的诊断方法可以应用于云技术、人工智能、智慧交通等领域,用于通过诊断信息定位互联网产品存在的问题等场景。作为示例,例如通过获取搜索引擎A搜索图像的诊断信息定位搜索引擎A搜索图像存在的问题。作为另一个示例,例如通过通过获取搜索小程序B搜索文章的诊断信息定位搜索小程序B搜索文章存在的问题。作为再一示例,例如通过获取搜索软件C搜索视频的诊断信息定位搜索软件C搜索视频存在的问题。在上述种种场景中,为了完成诊断信息的获取,通常是采用是通过在产品日志中查找相应的搜索日志,从搜索日志中提取相关特征信息进行人工诊断分析才能得到诊断结果,但是,从搜索日志中提取相关特征信息容易受到信息缺失、信息单一以及提取误差等因素的影响,导致获取到不准确或不完整的搜索的过程的相关特征信息,从而导致获取到的诊断结果的准确性和效率不高。
为了解决上述问题,本申请提出了一种搜索业务的诊断方法,该方法应用于图1所示的业务对象控制系统,请参阅图1,图1为本申请实施例中业务对象控制系统的一个架构示意图,如图1所示,服务器通过获取针对于目标搜索业务的目标搜索语句,根据目标搜索语句从多个属于目标搜索业务关联的搜索资源中召回每个搜索资源的第一搜索结果,可以对每个搜索资源的第一搜索结果进行排序,以获取每个搜索资源的第二搜索结果,然后,可以根据每个搜索资源的第二搜索结果,对多个搜索资源中每个搜索资源在各个阶段的处理情况进行诊断,以获取到目标搜索业务的包括针对召回阶段的第一诊断信息以及针对排序阶段的第二诊断信息的诊断信息。通过上述方式,能够根据目标搜索语句从多个属于目标搜索业务关联的搜索资源中直接一次性召回每个搜索资源的第一搜索结果,可以避免搜索日志中信息缺失、提取误差等因素的影响,无需针对于多个搜索资源反复搜索日志进行特征挖掘和诊断,可以基于一次性召回每个搜索资源的第一搜索结果获取到第二搜索结果,并基于第二搜索结果可以直接诊断得到针对召回阶段的第一诊断信息以及针对排序阶段的第二诊断信息,从而提高搜索结果和诊断信息的准确性和效率。
可以理解的是,图1中仅示出了一种终端设备,在实际场景中可以由更多种类的终端设备参与到数据处理的过程中,终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等,具体数量和种类因实际场景而定,具体此处不做限定。另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,特别是在多模型训练交互的场景中,服务器的数量因实际场景而定,具体此处不做限定。
需要注意的是,本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端设备以及服务器可以连接组成区块链网络,本申请在此不做限制。
为了解决上述问题,本申请提出了一种搜索业务的诊断方法,该方法一般由服务器或终端设备执行,相应地,应用于搜索业务的诊断装置一般设置于服务器或终端设备中。
可以理解的是,如本申请所公开的搜索业务的诊断方法、装置、设备及存储介质,其中多个服务器或终端设备可以组成为一区块链,而服务器或终端设备为区块链上的节点。在实际应用中,可以在区块链中需要进行节点与节点之间的数据共享,每个节点上可以存储有业务诊断数据、搜索数据等。
下面将对本申请中搜索业务的诊断方法进行介绍,请参阅图2,本申请实施例中搜索业务的诊断方法一个实施例包括:
在步骤S101中,获取针对于目标搜索业务的目标搜索语句;
在本实施例中,当需要验证目标搜索业务的业务能力或者定位目标搜索业务在提供搜索服务的过程中存在的问题时,可以通过获取针对于目标搜索业务的目标搜索语句,以使后续可以基于目标搜索语句获取搜索结果以及与搜索结果对应的各个搜索阶段的诊断信息,从而可以在一定程度上提高获取诊断信息的效率。
其中,目标搜索业务具体可以表现为具有搜索能力的搜索网站、搜索引擎、搜索软件以及搜索小程序等等,还可以表现为其他搜索业务,此处不作具体限制。目标搜索语句具体可以表现为查询参数类query,还可以表现为其他类型的搜索语句,此处不作具体限制。
具体地,如图12所示,当需要验证目标搜索业务的业务能力或者定位目标搜索业务在提供搜索服务的过程中存在的问题时,目标搜索业务的研发人员可以通过在终端设备上执行目标搜索业务的诊断选择操作,终端设备可以感知并生成与诊断选择操作相对的搜索诊断指令,使得服务器可以接收到该搜索诊断指令,并根据该搜索诊断指令获取研发人员可以通过终端设备选定或输入的目标搜索语句;或者,该搜索诊断指令携带有搜索标识,使得服务器可以根据搜索标识从数据库中获取到与搜索标识相对应的目标搜索语句,其中,搜索标识是语句标识码,用于指示目标搜索语句,可以具体表现为整数(int)型的数字串,也可以具体表现为字符串等;或者,终端设备上安装有搜索诊断客户端,客户端上设置搜索目标对象账号、地理位置、实验参数、访问后台环境、Query等参数,其中,搜索目标对象账号用于指示研发人员的身份账号,能够通过身份安全验证维护搜索诊断过程的安全性,使得目标搜索业务的研发人员可以通过在客户端上执行目标搜索业务的诊断选择操作,终端设备可以感知并生成与诊断选择操作相对的搜索诊断指令,使得客户端的搜索后台可以根据该搜索诊断指令获取研发人员可以通过客户端选定或输入的目标搜索语句,还可以通过其他方式获取目标搜索业务的目标搜索语句,此处不作具体限制。
在步骤S102中,根据目标搜索语句从多个搜索资源中召回每个搜索资源的第一搜索结果,其中,多个搜索资源属于目标搜索业务关联的搜索资源;
在本实施例中,在获取到目标搜索语句之后,可以根据目标搜索语句从多个属于目标搜索业务关联的搜索资源中召回每个搜索资源的第一搜索结果,其中,第一搜索结果是目标搜索语句在每个搜索资源中的召回结果,可以通过第一搜索结果反映在目标搜索业务在多个搜索资源中的搜索业务能力,以协助目标搜索业务的研发人员及时准确地了解到目标搜索业务的搜索业务能力。
具体地,如图12所示,在获取到目标搜索语句之后,可以通过调用搜索后台在多个属于目标搜索业务关联的搜索资源中对目标搜索语句进行搜索,以获取每个搜索资源的第一搜索结果,具体可以是通过在搜索后台的各搜索资源对应的搜索模块中置入软件开发套件(software development kit,SDK),在获取到目标搜索语句时,可以通过各搜索资源对应的搜索模块的SDK垂搜后台的调用链路对目标搜索语句进行垂直搜索,得到的搜索结果即为第一搜索结果。
例如,假设一个目标搜索业务为搜索小程序S对应的目标搜索语句为“汽车品牌A的B系列汽车的展览”,多个属于目标搜索业务关联的搜索资源分别如文章、小程序、公众号、表情、服务以及视频号等等,则可以调用搜索后台在每个搜索资源对应的搜索模块的SDK垂搜后台的调用链路对目标搜索语句进行垂直搜索,可以获取到目标搜索语句在每个搜索资源的第一搜索结果,如在汽车行业的文章、小程序、公众号、表情、服务以及视频号。
在步骤S103中,对每个搜索资源的第一搜索结果进行排序,得到每个搜索资源的第二搜索结果;
在本实施例中,在获取到每个搜索资源的第一搜索结果之后,可以对每个搜索资源的第一搜索结果进行排序,以获取到更好更准确地每个搜索资源的第二搜索结果,以使后续根据获取到的每个搜索资源的第二搜索结果更准确地获取到每个搜索阶段的诊断信息,从而可以在一定程度上提高获取搜索结果和诊断信息的准确性。
具体地,在获取到的每个搜索资源的第一搜索结果之后,可以对每个搜索资源的第一搜索结果进行排序,以获取每个搜索资源的第二搜索结果,具体可以是按照每个搜索资源对应的排序规则如混排对每个搜索资源的第一搜索结果进行排序,例如,基于评分策略如相似度算法对每个搜索资源的第一搜索结果中的各个召回结果进行评分,并按照分值大小进行排序以得到与目标搜索语句相似程度由高到低的第二搜索结果,还可以采用其他排序方式对每个搜索资源的第一搜索结果进行排序,此处不作具体限制。
在步骤S104中,根据每个搜索资源的第二搜索结果,对多个搜索资源中每个搜索资源在各个阶段的处理情况进行诊断,得到目标搜索业务的诊断信息,其中,诊断信息包括针对召回阶段的第一诊断信息以及针对排序阶段的第二诊断信息。
在本实施例中,在获取到每个搜索资源的第二搜索结果之后,可以对多个搜索资源中每个搜索资源在各个阶段的处理情况进行诊断,以获取到每个搜索资源在召回阶段对目标搜索语句进行召回对应的第一诊断信息以及在排序阶段对第一搜索结果进行排序对应的第二诊断信息,从而可以获取到目标搜索业务的诊断信息。
其中,目标搜索业务针对于目标搜索语句的诊断信息是多个搜索资源在召回阶段对目标搜索语句进行召回对应的第一诊断信息以及在排序阶段对第一搜索结果进行排序对应的第二诊断信息的集合,能够用于反映目标搜索业务针对于目标搜索语句的具体搜索情况以及存在的缺陷。第一诊断信息是每个搜索资源在召回阶段对目标搜索语句进行召回时的处理情况的详细记录。第二诊断信息是每个搜索资源在排序阶段对第一搜索结果进行排序时的处理情况的详细记录。
具体地,如图12所示,在获取到每个搜索资源的第二搜索结果之后,可以对多个搜索资源中每个搜索资源在各个阶段的处理情况进行诊断,以获取目标搜索业务的诊断信息,具体可以是通过对多个搜索资源中每个搜索资源在召回阶段对目标搜索语句进行召回时进行诊断,可以得到召回第一搜索结果时使用的算法特征以及第一搜索结果中的各个结果的召回原因等信息即第一诊断信息,同理,每个搜索资源在排序阶段对第一搜索结果进行排序时进行诊断,可以得到对第一第一搜索结果进行排序时使用的算法特征以及第二搜索结果的排序原因等信息即第二诊断信息,进一步地,在获取到每个搜索资源针对召回阶段的第一诊断信息以及针对排序阶段的第二诊断信息之后,可以将每个搜索资源针对召回阶段的第一诊断信息以及针对排序阶段的第二诊断信息进行汇总得到的信息集合,即目标搜索业务的诊断信息。
在本申请实施例中,提供了一种搜索业务的诊断方法,通过上述方式,能够根据目标搜索语句从多个属于目标搜索业务关联的搜索资源中直接一次性召回每个搜索资源的第一搜索结果,可以避免搜索日志中信息缺失、提取误差等因素的影响,无需针对于多个搜索资源反复搜索日志进行特征挖掘和诊断,可以基于一次性召回每个搜索资源的第一搜索结果获取到第二搜索结果,并基于第二搜索结果可以直接诊断得到针对召回阶段的第一诊断信息以及针对排序阶段的第二诊断信息,从而提高搜索结果和诊断信息的准确性和效率。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的搜索业务的诊断方法另一个可选实施例中,如图3所示,根据目标搜索语句从多个搜索资源中召回每个搜索资源的第一搜索结果,包括:
在步骤S201中,对目标搜索语句进行切词处理,得到至少两个待处理词语;
在步骤S202中,对至少两个待处理词语分别进行语义识别操作,得到每个待处理词语对应的语义识别概率;
在步骤S203中,根据每个待处理词语对应的语义识别概率确定目标搜索语句的行业类别;
在步骤S204中,根据目标搜索语句的行业类别,获取目标搜索语句在每个搜索资源中垂直搜索的第一搜索结果。
在本实施例中,在获取到目标搜索语句之后,可以对目标搜索语句进行切词处理,以获取至少两个待处理词语,并对至少两个待处理词语分别进行语义识别操作,以获取到每个待处理词语对应的语义识别概率,然后,可以根据每个待处理词语对应的语义识别概率确定目标搜索语句的行业类别,并根据目标搜索语句的行业类别,可以在每个搜索资源中对目标搜索语句进行行业垂直搜索,以获取到目标搜索语句在每个搜索资源中垂直搜索的第一搜索结果,能够通过确定目标搜索语句属于的行业类别,在每个搜索资源中对目标搜索语句进行行业垂直搜索,可以将每个搜索资源中海量的非结构化信息抽取为结构化的与目标搜索语句相似或相同的语句,即第一搜索结果,能够更好更准确地召回第一搜索结果。
具体地,在获取到目标搜索语句之后,可以对目标搜索语句进行切词处理,以获取至少两个待处理词语,具体可以是通过中文分词算法或IK分词算法或基于数据字典等算法对获取到的目标搜索语句进行切词处理,还可以是采用其他切词算法,此处不作具体限制。
进一步地,在获取到至少两个待处理词语之后,可以分别对至少两个待处理词语进行语义识别操作,以获取到每个待处理词语对应的语义识别概率,具体可以是将至少两个待处理词语分别输入至语义识别模型,通过语义识别模型对待处理词语进行语义识别操作,输入每个待处理词语对应的语义识别概率,还可以是采用其他模型对待处理词语进行语义识别,此处不作具体限制。
进一步地,在获取到每个待处理词语的语义识别概率之后,可以根据每个待处理词语对应的语义识别概率确定目标搜索语句的行业类别,具体可以是对语义识别概率进行互信息计算,将计算得到的互信息对应的类别确定为目标搜索语句的行业类别,或者,还可以是基于贝叶斯公式每个待处理词语对应的语义识别概率进行计算,将计算得到的最大出现概率对应的类别确定为目标搜索语句的行业类别,还可以是采用其他算法确定目标搜索语句的行业类别,此处不作具体限制。
进一步地,在获取到目标搜索语句的行业类别之后,可以根据目标搜索语句的行业类别,可以在每个搜索资源中对目标搜索语句进行该行业类别的垂直搜索,以获取到目标搜索语句在每个搜索资源中垂直搜索的第一搜索结果,例如,假设一个目标搜索业务为搜索小程序S对应的目标搜索语句为“汽车品牌A的B系列汽车的展览”,多个属于目标搜索业务关联的搜索资源分别如文章、小程序、公众号、表情、服务以及视频号等等,假设获取到目标搜索语句的行业类别为汽车行业,则可以在每个搜索资源中对目标搜索语句进行该行业类别的垂直搜索,以获取到目标搜索语句在每个搜索资源的第一搜索结果,如在汽车行业的与汽车、品牌A、B系列或B系列汽车等词语相关的文章、小程序、公众号、表情、服务以及视频号。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的搜索业务的诊断方法另一个可选实施例中,如图3所示,对每个搜索资源的第一搜索结果进行排序,得到每个搜索资源的第二搜索结果,包括:
在步骤S301中,读取资源数据库获取每个搜索资源对应的评分策略;
在步骤S302中,根据评分策略对每个搜索资源的第一搜索结果进行评分,得到每个搜索资源的第一搜索结果中每个搜索结果的召回分值;
在步骤S303中,根据每个搜索结果的召回分值大小对每个搜索资源的第一搜索结果进行排序,得到每个搜索资源的第二搜索结果。
在本实施例中,在获取到每个搜索资源的第一搜索结果之后,可以读取资源数据库获取每个搜索资源对应的评分策略,并根据评分策略对每个搜索资源的第一搜索结果进行评分,以获取每个搜索资源的第一搜索结果中每个搜索结果的召回分值,然后,可以根据每个搜索结果的召回分值大小对每个搜索资源的第一搜索结果进行排序,以获取到每个搜索资源的第二搜索结果,能够通过评分策略准确获取每个搜索资源的第一搜索结果中每个搜索结果的召回分值,通过每个搜索结果的召回分值数字化地表达每个搜索结果与目标搜索语句的相似程度,从而能够更好更准确地召回与目标搜索语句最匹配的第二搜索结果。
具体地,在获取到每个搜索资源的第一搜索结果之后,可以理解的是,在根据评分策略对每个搜索资源的第一搜索结果进行评分之前,可以读取资源数据库获取每个搜索资源对应的过滤策略,可以按照不同过滤策略中的过滤指标或者聚类算法,还可以是其他过滤方法,此处不作具体限制,对每个搜索资源的第一搜索结果中的搜索结果进行过滤,以获取过滤后的每个搜索资源的中间搜索结果,能够通过过滤策略将与目标搜索语句语义距离较远的搜索结果或与目标搜索语句相似度较低的搜索结果进行过滤,从而能够更好更准确地召回与目标搜索语句最匹配的第二搜索结果。
进一步地,在获取到过滤后的每个搜索资源的中间搜索结果之后,可以读取资源数据库获取每个搜索资源对应的评分策略并根据评分策略对每个搜索资源的第一搜索结果进行评分,具体可以是采用欧氏距离或余弦距离等相似度算法,还可以是其他评分策略如按照预设的评分指标-分值的对应关系等算法对过滤后的每个搜索资源的中间搜索结果进行评分,以获取过滤后的每个搜索资源的中间搜索结果中每个搜索结果的召回分值,还可以采用其他方式进行评分,此处不作具体限制。
进一步地,如果是采用余弦距离计算得到过滤后的每个搜索资源的中间搜索结果的每个搜索结果的召回分值时,由于召回分值与相似程度呈正相关,则可以将每个搜索结果的召回分值按照从大到小的顺序对过滤后的每个搜索资源的中间搜索结果进行排序,以获取到每个搜索资源的第二搜索结果,同理,若召回分值与相似程度呈负相关,则可以将每个搜索结果的召回分值按照从小到大的顺序对过滤后的每个搜索资源的中间搜索结果进行排序,以获取到每个搜索资源的第二搜索结果。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的搜索业务的诊断方法另一个可选实施例中,如图4所示,目标搜索语句携带有同步上报参数,根据每个搜索资源的第二搜索结果,对多个搜索资源中每个搜索资源在各个阶段的处理情况进行诊断,得到目标搜索业务的诊断信息之后,该方法还包括:
在步骤S401中,根据同步上报参数获取同步上报路径,其中,同步上报参数用于控制同步上报开关开启同步上报路径;
在步骤S402中,将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息通过同步上报路径上传至诊断数据库。
在本实施例中,在获取到目标搜索业务的诊断信息之后,可以通过同步上报参数控制同步上报开关开启同步上报路径,并根据同步上报参数获取同步上报路径,然后,可以将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息通过同步上报路径准确上传至诊断数据库,避免数据丢失,从而可以在一定程度上提高获取搜索结果和诊断结果的准确性和完整性。
具体地,如图12所示,在获取到目标搜索语句之后,如果获取到的目标搜索语句携带有同步上报参数,则可以通过同步上报参数控制同步上报开关开启同步上报路径,其中,同步上报参数具有可以表现为同步编号、同步标签或同步符号等,还可以表现为其他参数形式,此处不作具体限制。
进一步地,同步上报开关开启同步上报路径之后,可以通过同步上报参数准确获取到同步上报路径,使得可以将获取到的每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息通过同步上报路径及时准确地上传至诊断数据库中进行存储,以使后续目标搜索业务的研发人员可以实时从诊断数据库中调取通过同步上报路径上报的每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息。
可以理解的是,在非必要时即无需对目标搜索业务进行业务问题定位时,可以让同步上报开关处于关闭状态,只对获取到的目标搜索语句进行搜索以获取第一搜索结果和第二搜索结果,并不对每个搜索阶段进行诊断,从而可以减少诊断信息的上报对目标搜索业务本身的影响。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的搜索业务的诊断方法另一个可选实施例中,如图5所示,将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息通过同步上报路径上传至诊断数据库之前,该方法还包括:步骤S501;步骤S402包括:步骤S502;
在步骤S501中,将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息分别进行标准化处理,得到每个搜索资源的第一标准搜索结果、第二标准搜索结果以及目标搜索业务的标准诊断信息;
在步骤S502中,将每个搜索资源的第一标准搜索结果、第二标准搜索结果以及目标搜索业务的标准诊断信息通过同步上报路径上传至诊断数据库。
在本实施例中,在将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息通过同步上报路径上传至诊断数据库之前,可以将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息分别进行标准化处理,以获取到每个搜索资源的第一标准搜索结果、第二标准搜索结果以及目标搜索业务的标准诊断信息,然后,可以将每个搜索资源的第一标准搜索结果、第二标准搜索结果以及目标搜索业务的标准诊断信息通过同步上报路径上传至诊断数据库,能够通过对每个搜索资源的第一标准搜索结果、第二标准搜索结果以及目标搜索业务的标准诊断信息进行标准化处理,可以获取到格式规范统一的每个搜索资源的第一标准搜索结果、第二标准搜索结果以及目标搜索业务的标准诊断信息,能够便于系统对每个搜索资源的第一标准搜索结果、第二标准搜索结果以及目标搜索业务的标准诊断信息进行数据管理以及满足用户的个性化显示需求等。
具体地,在获取到每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息之后,可以将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息分别进行标准化处理,以获取到每个搜索资源的第一标准搜索结果、第二标准搜索结果以及目标搜索业务的标准诊断信息,具体可以是通过对自定义键值对如keyvalue来进行数据的标准化处理,例如,按照姓名:xxx以及电话:xxx的键值对格式将将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息分别进行标准化的格式转换。
可以理解的是,由于不同搜索资源对应的搜索模块的SDK调用链路和调用链长短各有差异,诊断信息复杂多样,因此,可以在搜索资源对应的搜索模块的SDK中配置资源编号来区分不同的搜索资源的类别,对搜索逻辑进行搜索阶段划分,例如,搜索阶段包括L1~L5,其中,L1、L2表示召回阶段,L3L4表示精排阶段即过滤阶段,L5表示混排即排序阶段,或者,L1~L4表示垂搜阶段,L5表示混排即排序阶段,还可以是其他搜索阶段划分,此处不作具体限制。同时,在搜索资源对应的搜索模块的SDK中配置还可以配置有自定义子阶段,即通过自定义键值对将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息分别进行标准化处理,可以理解的是,这些配置信息都可以是在每个SDK获取到每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息之前配置的,可以由SDK维护的Libco协程变量中的std::unordered_map组织,从而达到复用的目的,同时,SDK在获取每个搜索资源的第一搜索结果、第二搜索结果、目标搜索业务的诊断信息以及读取信息时,都可以加上协程锁(Libco::Coutex),以保证线程安全,从而可以在一定程度上维护获取搜索结果和诊断结果的安全性。
进一步地,在获取到每个搜索资源的第一标准搜索结果、第二标准搜索结果以及目标搜索业务的标准诊断信息,可以将每个搜索资源的第一标准搜索结果、第二标准搜索结果以及目标搜索业务的标准诊断信息通过同步上报路径上传至诊断数据库。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的搜索业务的诊断方法另一个可选实施例中,如图6所示,将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息通过同步上报路径上传至诊断数据库,包括:
在步骤S601中,将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息写入请求回包得到目标请求回包;
在步骤S602中,将目标请求回包通过同步上报路径上传至诊断数据库。
在本实施例中,在获取到每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息之后,可以将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息写入请求回包以获取到目标请求回包,然后可以将目标请求回包通过同步上报路径上传至诊断数据库,通过将获取到每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息层层写入,使得请求回包可以将写入的每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息层层携带,以使数据能够安全准确地上传至诊断数据库中,能够通过请求回包一次性将搜索结果和诊断结果全部上传至诊断数据库中,从而可以在一定程度上维护获取搜索结果和诊断结果的准确性、完整性以及效率。
具体地,如图12所示,在获取到每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息之后,将获取到每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息层层写入请求回包中,使得请求回包可以将写入的每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息层层携带,从而可以将目标请求回包通过同步上报路径上传至诊断数据库。
可以理解的是,为了避免请求回包过大,SDK也支持写入存储,具体可以是将获取到的每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息存储在SDK的资源数据库中,当需要对每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息进行上报时,可以从资源数据库中捞取每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息,并通过同步上报路径上传至诊断数据库。
可以理解的是,在获取到每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息后,后台模块可以调用同步上报路径的SDK上报接口进行上报,每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息可以通过文档或文档集的形式进行上报,SDK上报接口支持文档的召回、过滤、特征等信息上报,其中,召回状态分为人工干预、正常召回等,过滤状态分为业务策略过滤、排序过滤、封杀等,特征信息由固定公共特征字段和自定义键值对两种形式上报,由搜索资源自行配置的上报格式进行上报。可以理解的是,上报接口可以通过Libco协程变量和固定大小数组来保证性能以及线程安全,具体可以是通过限制一个上报数组大小,避免上报过大数据挤爆整个系统,但是有些数据会比设定稍大一些,即上报的每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息的数据量超过预设数组大小,则可以在SDK对象析构时进行数组扩容,能够避免因无意识的bug引起的上报过大数据,从而可以在服务运行一段时间后达到一个稳定状态,以维护数据的安全上报。
可选地,在上述图4对应的实施例的基础上,本申请实施例提供的搜索业务的诊断方法另一个可选实施例中,如图7所示,将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息通过同步上报路径上传至诊断数据库之后,该方法还包括:
在步骤S701中,对每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息进行语法树解析,得到每个搜索资源的第一解析结果、第二解析结果以及目标搜索业务的诊断解析信息;
在步骤S702中,根据每个搜索资源的第一解析结果、第二解析结果以及目标搜索业务的诊断解析信息按照列表生成模板,生成目标搜索业务的搜索诊断列表。
在本实施例中,在将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息通过同步上报路径上传至诊断数据库之后,可以对每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息进行语法树解析,以获取每个搜索资源的第一解析结果、第二解析结果以及目标搜索业务的诊断解析信息,然后,可以根据每个搜索资源的第一解析结果、第二解析结果以及目标搜索业务的诊断解析信息按照列表生成模板,生成目标搜索业务的搜索诊断列表,能够通过语法树解析对数据进行深度优先遍历,以保证对诊断数据库中的每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息的完整读取,并能够将解析得到的每个搜索资源的第一解析结果、第二解析结果以及目标搜索业务的诊断解析信息进行标准化处理,以获取到能够按照统一规范格式进行显示的目标搜索业务的搜索诊断列表,便于目标搜索业务的搜索结果和诊断结果的维护和管理,避免数据丢失,能够在一定程度上提高获取搜索结果和诊断结果的准确性和完整性。
具体地,如图12所示,在将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息通过同步上报路径上传至诊断数据库之后,可以对每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息进行语法树解析,能够将获取到的每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息按照统一的格式或样式进行表达,以获取每个搜索资源的第一解析结果、第二解析结果以及目标搜索业务的诊断解析信息,然后,可以根据每个搜索资源的第一解析结果、第二解析结果以及目标搜索业务的诊断解析信息按照列表生成模板,生成目标搜索业务的搜索诊断列表,使得后续可以直接通过搜索标识快速索引到目标搜索业务的搜索诊断列表并一次性推送给研发人员,其中,列表生成模板包含有列表样式和列表生成规则,例如,可以通过列表生成模板将每个搜索资源的第一解析结果、第二解析结果以及目标搜索业务的诊断解析信息细分为文档信息、文档集信息、用户信息、query信息、垂搜信息以及各搜索资源对应的模块信息。
可以理解的是,在通过自定义的键值对上报方式,结合列表生成模板生成同一格式的搜索诊断列表,不仅可以满足规整统一显示搜索诊断列表的需求,又可以满足不同搜索资源模块个性化定制的需求,使得研发人员能够通过搜索诊断列表更容易发现目标搜索业务的信息的缺失,可以及时进行修补,从而提升目标搜索业务的性能,还能够使得各个搜索资源的搜索结果和诊断结果不再隔离开来,避免数据缺失。
可以理解的是,在获取到搜索诊断列表之后,可以对获取到的搜索诊断列表进行分解规整存入数据库、内存等存储中,并将存储后的搜索诊断列表作为诊断系统前端交互的数据缓存,其中,缓存数据需要定时清理,避免占用过多存储。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的搜索业务的诊断方法另一个可选实施例中,如图8所示,目标搜索语句携带有异步上报参数,根据每个搜索资源的第二搜索结果,对多个搜索资源中每个搜索资源在各个阶段的处理情况进行诊断,得到目标搜索业务的诊断信息之后,该方法还包括:
在步骤S801中,根据异步上报参数获取异步上报路径,其中,异步上报参数用于控制异步上报开关开启异步上报路径;
在步骤S802中,将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息通过异步上报路径上传至诊断数据库。
在本实施例中,在获取到目标搜索业务的诊断信息可以通过异步上报参数控制异步上报开关开启异步上报路径,并根据异步上报参数获取异步上报路径,然后,可以将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息通过异步上报路径准确快速地上传至诊断数据库,能够避免实时上传,减少资源消耗,将数据更快速地存储至诊断数据库,以供研发人员日后随时调用,从而可以在一定程度上提高获取搜索结果和诊断结果的准确性和效率。
具体地,如图12所示,在获取到目标搜索语句之后,如果获取到的目标搜索语句携带有异步上报参数,则可以通过异步上报参数控制异步上报开关开启异步上报路径,其中,异步上报参数具有可以表现为异步编号、异步标签或异步符号等,还可以表现为其他参数形式,此处不作具体限制。
进一步地,异步上报开关开启异步上报路径之后,可以通过异步上报参数准确获取到异步上报路径,使得可以将获取到的每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息通过异步上报路径及时准确地上传至诊断数据库中进行存储,以使后续目标搜索业务的研发人员日后可以随时从诊断数据库中调取通过异步上报路径上报的每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息。
可以理解的是,在非必要时即日后无需对目标搜索业务进行业务问题定位时,可以让异步上报开关处于关闭状态,只对获取到的目标搜索语句进行搜索以获取第一搜索结果和第二搜索结果,并不对每个搜索阶段进行诊断,从而可以减少诊断信息的上报对目标搜索业务本身的影响。
可以理解的是,在必要时即当前或日后都需要对目标搜索业务进行业务问题定位时,可以让同步上报开关和异步上报开关处于开启状态,不仅可以对获取到的目标搜索语句进行搜索以获取第一搜索结果和第二搜索结果,还可以对每个搜索阶段进行诊断,全面获取每个搜索阶段的诊断信息,能够实现同步诊断和历史诊断可以同时进行,可以理解为,在进行同步诊断产生的请求也可以回溯,能够提高搜索结果和诊断结果的复用率,减少了研发人员重复搜索和诊断的工作量,还能够弥补历史搜索结果和诊断结果的空缺,可以实现更好的信息记录和问题定位方式。可以理解的是,异步诊断信息和同步诊断信息是完全一致的。
可选地,在上述图8对应的实施例的基础上,本申请实施例提供的搜索业务的诊断方法另一个可选实施例中,如图9所示,将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息通过异步上报路径上传至诊断数据库,包括:
在步骤S901中,将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息进行汇总,得到目标搜索业务的诊断数据集合;
在步骤S902中,将目标搜索业务的诊断数据集合通过异步上报路径写入第一消息队列;
在步骤S903中,按照时间维度对第一消息队列中的目标搜索业务的诊断数据集合进行聚合处理,得到目标搜索业务的每个时间窗口对应的聚合诊断数据;
在步骤S904中,将目标搜索业务的每个时间窗口对应的聚合诊断数据通过异步上报路径上传至诊断数据库。
在本实施例中,在获取到每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息后,可以将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息进行汇总,以获取目标搜索业务的诊断数据集合,并将目标搜索业务的诊断数据集合通过异步上报路径写入第一消息队列,可以按照时间维度对第一消息队列中的目标搜索业务的诊断数据集合进行聚合处理,以获取目标搜索业务的每个时间窗口对应的聚合诊断数据,然后可以将目标搜索业务的每个时间窗口对应的聚合诊断数据通过异步上报路径上传至诊断数据库,能够先通过将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息进行汇总即第一合并,写入第一消息队列,能够避免多次信息写入对性能造成影响,同时,还通过将第一消息队列中的数据属于同一目标搜索语句的搜索结果和诊断结果聚合在一起,能够避免搜索结果和诊断信息丢失,从而在一定程度上提高获取搜索结果和诊断结果的准确性和完整性。
具体地,如图12所示,在获取到每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息后,可以将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息进行汇总,以获取目标搜索业务的诊断数据集合,并将目标搜索业务的诊断数据集合通过异步上报路径写入第一消息队列,可以按照时间维度对第一消息队列中的目标搜索业务的诊断数据集合进行聚合处理,以获取目标搜索业务的每个时间窗口对应的聚合诊断数据,具体可以是先将获取到的目标搜索业务的诊断数据集合写入基于磁盘的队列即第一消息队列中,用于削峰和回溯。
进一步地,可以通过第一消息队列消费数据,在内存中基于时间窗口周期进行聚合,比如5s的窗口,将属于同一个目标搜索语句的所有搜索结果和诊断结果聚合在一起,可以理解的是时间窗口可以通过诊断信息中自带的时间戳来计算,非系统处理时间,然后,可以将获取到的目标搜索业务的每个时间窗口对应的聚合诊断数据通过异步上报路径上传至诊断数据库中进行存储,以使在数据的保存时间内,研发人员都可以在数据存入后的任意时间,在通过搜索标识随时读取与搜索标识相对应的聚合诊断数据。
可以理解的是,在将目标搜索业务的每个时间窗口对应的聚合诊断数据通过异步上报路径上传至诊断数据库中进行存储之后,可以将内存中聚合好的聚合诊断数据,写入对象存储中,具体可以是通过构建索引并写入基于LSM的存储中,例如,在数据里存了几千万行数据,有学生编号、姓名以及分数等信息,则可以对学生编号建立与其他数据之间的索引,使得后续可以通过学生编号查可以在毫秒级别查到建立了索引的数据,从而可以在一定程度上提高获取搜索结果和诊断结果的效率。
可选地,在上述图9对应的实施例的基础上,本申请实施例提供的搜索业务的诊断方法另一个可选实施例中,如图10所示,将目标搜索业务的诊断数据集合通过异步上报路径写入第一消息队列之前,该方法还包括:步骤S1001以及步骤S1002,步骤S902包括:步骤S1003;
在步骤S1001中,获取目标搜索业务对应的当前资源消耗量;
在步骤S1002中,若目标搜索业务对应的当前资源消耗量大于或等于资源阈值,则对目标搜索业务的诊断数据集合进行数据压缩,得到目标搜索业务的诊断压缩数据;
在步骤S1003中,将目标搜索业务的诊断压缩数据通过异步上报路径写入第一消息队列。
在本实施例中,在将目标搜索业务的诊断数据集合通过异步上报路径写入第一消息队列之前,可以获取目标搜索业务对应的当前资源消耗量,当目标搜索业务对应的当前资源消耗量大于或等于资源阈值时,可以对目标搜索业务的诊断数据集合进行数据压缩,以获取到目标搜索业务的诊断压缩数据,然后可以将目标搜索业务的诊断压缩数据通过异步上报路径写入第一消息队列,能够根据当前的资源消耗情况,判断是否需要对目标搜索业务的诊断数据集合进行压缩后再上传,以减少资源消耗。
具体地,在将目标搜索业务的诊断数据集合通过异步上报路径写入第一消息队列之前,搜索后台模块的主要功能是为用户提供搜索服务,会消耗CPU内存,故将目标搜索业务的诊断数据集合通过异步上报路径写入第一消息队列之前如果占用过多机器的资源,则会造成线上故障,因此,可以获取目标搜索业务对应的当前资源消耗量,如果当目标搜索业务对应的当前资源消耗量大于或等于资源阈值时,可以理解为当前占用了过多的机器的资源,为了减少消耗CPU内存,则可以对目标搜索业务的诊断数据集合进行数据压缩,以获取到目标搜索业务的诊断压缩数据,然后可以选择网络IO将目标搜索业务的诊断压缩数据通过异步上报路径写入第一消息队列。
可选地,在上述图9对应的实施例的基础上,本申请实施例提供的搜索业务的诊断方法另一个可选实施例中,如图10所示,目标搜索语句携带有搜索标识,将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息进行汇总,得到目标搜索业务的诊断数据集合,包括:
在步骤S1101中,根据搜索标识获取目标搜索业务的目标路由信息,其中,目标路由信息是搜索标识经过哈希得到的;
在步骤S1102中,将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息路由到目标路由信息所对应的目标节点中进行汇总,得到目标搜索业务的诊断数据集合。
在本实施例中,在获取到每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息之后,可以根据搜索标识获取哈希得到的目标搜索业务的目标路由信息,然后可以将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息路由到目标路由信息所对应的目标节点中进行汇总,以获取目标搜索业务的诊断数据集合,可以将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息路由到目标路由信息路由至目标节点中进行汇总再上传至诊断数据库,可以避免数据的重复路由,从而可以减少数据的重复上传,能够在一定程度上提高获取搜索结果和诊断结果的效率。
具体地,在获取到每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息之后,可以根据搜索标识获取哈希得到的目标搜索业务的目标路由信息,具体可以是通过搜索标识如用户账号或搜索请求编号进行一致性hash路由,则可以获取到目标搜索业务的目标路由信息,然后可以将属于同一次目标搜索语句对的每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息,都按照目标路由信息路由到目标节点如同一台机器中进行合并得的数据集合即目标搜索业务的诊断数据集合。
可选地,在上述图10对应的实施例的基础上,本申请实施例提供的搜索业务的诊断方法另一个可选实施例中,如图11所示,将目标搜索业务的诊断数据集合通过异步上报路径写入第一消息队列之前,该方法还包括:步骤S1201以及步骤S1202,步骤步骤S902包括:步骤S1203;
在步骤S1201中,根据搜索标识索引至延时上报数据以及目标节点变更数据;
在步骤S1203中,将延时上报数据以及目标节点变更数据进行汇总,得到延时数据集合;
在步骤S1203中,将目标搜索业务的诊断数据集合以及延时数据集合通过异步上报路径写入第一消息队列。
在本实施例中,在将目标搜索业务的诊断数据集合通过异步上报路径写入第一消息队列之前,可以根据搜索标识索引至延时上报数据以及目标节点变更数据,将延时上报数据以及目标节点变更数据进行汇总,以获取到延时数据集合,然后可以将目标搜索业务的诊断数据集合以及延时数据集合通过异步上报路径写入第一消息队列,能够通过对延时上报数据以及目标节点变更数据进行查漏补缺,从而对索引到延时上报数据以及目标节点变更数据进行汇总再上传,能够避免信息丢失,可以在一定程度上提高获取到的搜索结果和诊断结果的准确性和完整性。
其中,延时上报数据具体可以表现为每个搜索资源的第一搜索结果、第二搜索结果或目标搜索业务的诊断信息中任一项数据出现延时上报的数据,此处不作具体限制。目标节点变更数据具体可以表现为每个搜索资源的第一搜索结果、第二搜索结果或目标搜索业务的诊断信息中任一项数据出现路由到其他节点的数据,此处不作具体限制。
具体地,在获取到每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息之后,容易受到网络或资源负载的影响,导致将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息上报可能会出现延时,或者后端服务节点数变更,或者目标节点发生变更等情况,则可以根据搜索标识与诊断数据集合之间的索引关系,快速准确地索引到延时上报数据以及目标节点变更数据,并可以将索引到的延时上报数据以及目标节点变更数据进行汇总,以获取到延时数据集合,然后可以将目标搜索业务的诊断数据集合以及延时数据集合一起通过异步上报路径写入第一消息队列。
下面对本申请中的搜索业务的诊断装置进行详细描述,请参阅图13,图13为本申请实施例中搜索业务的诊断装置的一个实施例示意图,搜索业务的诊断装置20包括:
获取单元201,用于获取针对于目标搜索业务的目标搜索语句;
处理单元202,用于根据目标搜索语句从多个搜索资源中召回每个搜索资源的第一搜索结果,其中,多个搜索资源属于目标搜索业务关联的搜索资源;
处理单元202,还用于对每个搜索资源的第一搜索结果进行排序,得到每个搜索资源的第二搜索结果;
处理单元202,还用于根据每个搜索资源的第二搜索结果,对多个搜索资源中每个搜索资源在各个阶段的处理情况进行诊断,得到目标搜索业务的诊断信息,其中,诊断信息包括针对召回阶段的第一诊断信息以及针对排序阶段的第二诊断信息。
可选地,在上述图13对应的实施例的基础上,本申请实施例提供的搜索业务的诊断装置的另一实施例中,处理单元202具体可以用于:
对目标搜索语句进行切词处理,得到至少两个待处理词语;
对至少两个待处理词语分别进行语义识别操作,得到每个待处理词语对应的语义识别概率;
根据每个待处理词语对应的语义识别概率确定目标搜索语句的行业类别;
根据目标搜索语句的行业类别,获取目标搜索语句在每个搜索资源中垂直搜索的第一搜索结果。
可选地,在上述图13对应的实施例的基础上,本申请实施例提供的搜索业务的诊断装置的另一实施例中,处理单元202具体可以用于:
读取资源数据库获取每个搜索资源对应的评分策略;
根据评分策略对每个搜索资源的第一搜索结果进行评分,得到每个搜索资源的第一搜索结果中每个搜索结果的召回分值;
根据每个搜索结果的召回分值大小对每个搜索资源的第一搜索结果进行排序,得到每个搜索资源的第二搜索结果。
可选地,在上述图13对应的实施例的基础上,本申请实施例提供的搜索业务的诊断装置的另一实施例中,
获取单元201,还用于根据同步上报参数获取同步上报路径,其中,同步上报参数用于控制同步上报开关开启同步上报路径;
处理单元202,还用于将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息通过同步上报路径上传至诊断数据库。
可选地,在上述图13对应的实施例的基础上,本申请实施例提供的搜索业务的诊断装置的另一实施例中,
处理单元202,还用于将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息分别进行标准化处理,得到每个搜索资源的第一标准搜索结果、第二标准搜索结果以及目标搜索业务的标准诊断信息;
处理单元202具体可以用于:将每个搜索资源的第一标准搜索结果、第二标准搜索结果以及目标搜索业务的标准诊断信息通过同步上报路径上传至诊断数据库。
可选地,在上述图13对应的实施例的基础上,本申请实施例提供的搜索业务的诊断装置的另一实施例中,处理单元202具体可以用于:
将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息写入请求回包得到目标请求回包;
将目标请求回包通过同步上报路径上传至诊断数据库。
可选地,在上述图13对应的实施例的基础上,本申请实施例提供的搜索业务的诊断装置的另一实施例中,
处理单元202,还用于对每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息进行语法树解析,得到每个搜索资源的第一解析结果、第二解析结果以及目标搜索业务的诊断解析信息;
生成单元203,用于根据每个搜索资源的第一解析结果、第二解析结果以及目标搜索业务的诊断解析信息按照列表生成模板,生成目标搜索业务的搜索诊断列表。
可选地,在上述图13对应的实施例的基础上,本申请实施例提供的搜索业务的诊断装置的另一实施例中,
获取单元201,还用于根据异步上报参数获取异步上报路径,其中,异步上报参数用于控制异步上报开关开启异步上报路径;
处理单元202,还用于将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息通过异步上报路径上传至诊断数据库。
可选地,在上述图13对应的实施例的基础上,本申请实施例提供的搜索业务的诊断装置的另一实施例中,处理单元202具体可以用于:
将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息进行汇总,得到目标搜索业务的诊断数据集合;
将目标搜索业务的诊断数据集合通过异步上报路径写入第一消息队列;
按照时间维度对第一消息队列中的目标搜索业务的诊断数据集合进行聚合处理,得到目标搜索业务的每个时间窗口对应的聚合诊断数据;
将目标搜索业务的每个时间窗口对应的聚合诊断数据通过异步上报路径上传至诊断数据库。
可选地,在上述图13对应的实施例的基础上,本申请实施例提供的搜索业务的诊断装置的另一实施例中,
获取单元201,还用于获取目标搜索业务对应的当前资源消耗量;
处理单元202,还用于若目标搜索业务对应的当前资源消耗量大于或等于资源阈值,则对目标搜索业务的诊断数据集合进行数据压缩,得到目标搜索业务的诊断压缩数据;
处理单元202具体可以用于:将目标搜索业务的诊断压缩数据通过异步上报路径写入第一消息队列。
可选地,在上述图13对应的实施例的基础上,本申请实施例提供的搜索业务的诊断装置的另一实施例中,处理单元202具体可以用于:
根据搜索标识获取目标搜索业务的目标路由信息,其中,目标路由信息是搜索标识经过哈希得到的;
将每个搜索资源的第一搜索结果、第二搜索结果以及目标搜索业务的诊断信息路由到目标路由信息所对应的目标节点中进行汇总,得到目标搜索业务的诊断数据集合。
可选地,在上述图13对应的实施例的基础上,本申请实施例提供的搜索业务的诊断装置的另一实施例中,
处理单元202,还用于根据搜索标识索引至延时上报数据以及目标节点变更数据;
处理单元202,还用于将延时上报数据以及目标节点变更数据进行汇总,得到延时数据集合;
处理单元202具体可以用于:将目标搜索业务的诊断数据集合以及延时数据集合通过异步上报路径写入第一消息队列。
本申请另一方面提供了另一种计算机设备示意图,如图14所示,图14是本申请实施例提供的一种计算机设备结构示意图,该计算机设备300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)310(例如,一个或一个以上处理器)和存储器320,一个或一个以上存储应用程序331或数据332的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算机设备300中的一系列指令操作。更进一步地,中央处理器310可以设置为与存储介质330通信,在计算机设备300上执行存储介质330中的一系列指令操作。
计算机设备300还可以包括一个或一个以上电源340,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口360,和/或,一个或一个以上操作系统333,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述计算机设备300还用于执行如图2至图11对应的实施例中的步骤。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如图2至图11所示实施例描述的方法中的步骤。
本申请的另一方面提供了一种包含指令的计算机程序产品当其在计算机或处理器上运行时,使得所述计算机或处理器执行如图2至图11所示实施例描述的方法中的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (16)
1.一种搜索业务的诊断方法,其特征在于,包括:
获取针对于目标搜索业务的目标搜索语句;
根据所述目标搜索语句从多个搜索资源中召回每个搜索资源的第一搜索结果,其中,所述多个搜索资源属于所述目标搜索业务关联的搜索资源;
对所述每个搜索资源的第一搜索结果进行排序,得到所述每个搜索资源的第二搜索结果;
根据所述每个搜索资源的第二搜索结果,对所述多个搜索资源中每个搜索资源在各个阶段的处理情况进行诊断,得到所述目标搜索业务的诊断信息,其中,所述诊断信息包括针对召回阶段的第一诊断信息以及针对排序阶段的第二诊断信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标搜索语句从多个搜索资源中召回每个搜索资源的第一搜索结果,包括:
对所述目标搜索语句进行切词处理,得到至少两个待处理词语;
对所述至少两个待处理词语分别进行语义识别操作,得到每个所述待处理词语对应的语义识别概率;
根据每个所述待处理词语对应的语义识别概率确定所述目标搜索语句的行业类别;
根据所述目标搜索语句的行业类别,获取所述目标搜索语句在每个搜索资源中垂直搜索的所述第一搜索结果。
3.根据权利要求1所述的方法,其特征在于,所述对所述每个搜索资源的第一搜索结果进行排序,得到所述每个搜索资源的第二搜索结果,包括:
读取资源数据库获取每个搜索资源对应的评分策略;
根据所述评分策略对所述每个搜索资源的第一搜索结果进行评分,得到所述每个搜索资源的第一搜索结果中每个搜索结果的召回分值;
根据所述每个搜索结果的召回分值大小对所述每个搜索资源的第一搜索结果进行排序,得到所述每个搜索资源的第二搜索结果。
4.根据权利要求1所述的方法,其特征在于,所述目标搜索语句携带有同步上报参数,所述根据所述每个搜索资源的第二搜索结果,对所述多个搜索资源中每个搜索资源在各个阶段的处理情况进行诊断,得到所述目标搜索业务的诊断信息之后,所述方法还包括:
根据所述同步上报参数获取同步上报路径,其中,所述同步上报参数用于控制同步上报开关开启同步上报路径;
将所述每个搜索资源的第一搜索结果、所述第二搜索结果以及所述目标搜索业务的诊断信息通过所述同步上报路径上传至诊断数据库。
5.根据权利要求4所述的方法,其特征在于,所述将所述每个搜索资源的第一搜索结果、所述第二搜索结果以及所述目标搜索业务的诊断信息通过所述同步上报路径上传至诊断数据库之前,所述方法还包括:
将所述每个搜索资源的第一搜索结果、所述第二搜索结果以及所述目标搜索业务的诊断信息分别进行标准化处理,得到所述每个搜索资源的第一标准搜索结果、第二标准搜索结果以及所述目标搜索业务的标准诊断信息;
所述将所述每个搜索资源的第一搜索结果、所述第二搜索结果以及所述目标搜索业务的诊断信息通过所述同步上报路径上传至诊断数据库,包括:
将所述每个搜索资源的第一标准搜索结果、第二标准搜索结果以及所述目标搜索业务的标准诊断信息通过所述同步上报路径上传至所述诊断数据库。
6.根据权利要求4所述的方法,其特征在于,所述将所述每个搜索资源的第一搜索结果、所述第二搜索结果以及所述目标搜索业务的诊断信息通过所述同步上报路径上传至诊断数据库,包括:
将所述每个搜索资源的第一搜索结果、所述第二搜索结果以及所述目标搜索业务的诊断信息写入请求回包得到目标请求回包;
将所述目标请求回包通过所述同步上报路径上传至所述诊断数据库。
7.根据权利要求4所述的方法,其特征在于,所述将所述每个搜索资源的第一搜索结果、所述第二搜索结果以及所述目标搜索业务的诊断信息通过所述同步上报路径上传至诊断数据库之后,所述方法还包括:
对所述每个搜索资源的第一搜索结果、所述第二搜索结果以及所述目标搜索业务的诊断信息进行语法树解析,得到所述每个搜索资源的第一解析结果、所述第二解析结果以及所述目标搜索业务的诊断解析信息;
根据所述每个搜索资源的第一解析结果、所述第二解析结果以及所述目标搜索业务的诊断解析信息按照列表生成模板,生成所述目标搜索业务的搜索诊断列表。
8.根据权利要求1所述的方法,其特征在于,所述目标搜索语句携带有异步上报参数,所述根据所述每个搜索资源的第二搜索结果,对所述多个搜索资源中每个搜索资源在各个阶段的处理情况进行诊断,得到所述目标搜索业务的诊断信息之后,所述方法还包括:
根据所述异步上报参数获取异步上报路径,其中,所述异步上报参数用于控制异步上报开关开启异步上报路径;
将所述每个搜索资源的第一搜索结果、所述第二搜索结果以及所述目标搜索业务的诊断信息通过所述异步上报路径上传至所述诊断数据库。
9.根据权利要求8所述的方法,其特征在于,所述将所述每个搜索资源的第一搜索结果、所述第二搜索结果以及所述目标搜索业务的诊断信息通过所述异步上报路径上传至所述诊断数据库,包括:
将所述每个搜索资源的第一搜索结果、所述第二搜索结果以及所述目标搜索业务的诊断信息进行汇总,得到所述目标搜索业务的诊断数据集合;
将所述目标搜索业务的诊断数据集合通过所述异步上报路径写入第一消息队列;
按照时间维度对所述第一消息队列中的所述目标搜索业务的诊断数据集合进行聚合处理,得到所述目标搜索业务的每个时间窗口对应的聚合诊断数据;
将所述目标搜索业务的每个时间窗口对应的聚合诊断数据通过所述异步上报路径上传至所述诊断数据库。
10.根据权利要求9所述的方法,其特征在于,所述将所述目标搜索业务的诊断数据集合通过所述异步上报路径写入第一消息队列之前,所述方法还包括:
获取所述目标搜索业务对应的当前资源消耗量;
若所述目标搜索业务对应的当前资源消耗量大于或等于资源阈值,则对所述目标搜索业务的诊断数据集合进行数据压缩,得到所述目标搜索业务的诊断压缩数据;
所述将所述目标搜索业务的诊断数据集合通过所述异步上报路径写入第一消息队列,包括:
将所述目标搜索业务的诊断压缩数据通过所述异步上报路径写入第一消息队列。
11.根据权利要求9所述的方法,其特征在于,所述目标搜索语句携带有搜索标识,所述将所述每个搜索资源的第一搜索结果、所述第二搜索结果以及所述目标搜索业务的诊断信息进行汇总,得到所述目标搜索业务的诊断数据集合,包括:
根据所述搜索标识获取所述目标搜索业务的目标路由信息,其中,所述目标路由信息是所述搜索标识经过哈希得到的;
将所述每个搜索资源的第一搜索结果、所述第二搜索结果以及所述目标搜索业务的诊断信息路由到所述目标路由信息所对应的目标节点中进行汇总,得到所述目标搜索业务的诊断数据集合。
12.根据权利要求11所述的方法,其特征在于,所述将所述目标搜索业务的诊断数据集合通过所述异步上报路径写入第一消息队列之前,所述方法还包括:
根据所述搜索标识索引至延时上报数据以及目标节点变更数据;
将所述延时上报数据以及所述目标节点变更数据进行汇总,得到延时数据集合;
所述将所述目标搜索业务的诊断数据集合通过所述异步上报路径写入第一消息队列,包括:
将所述将所述目标搜索业务的诊断数据集合以及所述延时数据集合通过所述异步上报路径写入第一消息队列。
13.一种搜索业务的诊断装置,其特征在于,包括:
获取单元,用于获取针对于目标搜索业务的目标搜索语句;
处理单元,用于根据所述目标搜索语句从多个搜索资源中召回每个搜索资源的第一搜索结果,其中,所述多个搜索资源属于所述目标搜索业务关联的搜索资源;
所述处理单元,还用于对所述每个搜索资源的第一搜索结果进行排序,得到所述每个搜索资源的第二搜索结果;
所述处理单元,还用于根据所述每个搜索资源的第二搜索结果,对所述多个搜索资源中每个搜索资源在各个阶段的处理情况进行诊断,得到所述目标搜索业务的诊断信息,其中,所述诊断信息包括针对召回阶段的第一诊断信息以及针对排序阶段的第二诊断信息。
14.一种计算机设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序时实现如权利要求1至12中任一项所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
15.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至12中任一项所述的方法。
16.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至12中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210010079.0A CN116415057A (zh) | 2022-01-05 | 2022-01-05 | 一种搜索业务的诊断方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210010079.0A CN116415057A (zh) | 2022-01-05 | 2022-01-05 | 一种搜索业务的诊断方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116415057A true CN116415057A (zh) | 2023-07-11 |
Family
ID=87053758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210010079.0A Pending CN116415057A (zh) | 2022-01-05 | 2022-01-05 | 一种搜索业务的诊断方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116415057A (zh) |
-
2022
- 2022-01-05 CN CN202210010079.0A patent/CN116415057A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111930547B (zh) | 一种故障定位方法、装置及存储介质 | |
CN109376237B (zh) | 客户稳定性的预测方法、装置、计算机设备和存储介质 | |
CN106557695B (zh) | 一种恶意应用检测方法和系统 | |
CN113094200A (zh) | 一种应用程序的故障预测方法和装置 | |
US20150154286A1 (en) | Method for disambiguated features in unstructured text | |
CN111538931B (zh) | 基于大数据的舆情监控方法、装置、计算机设备及介质 | |
CN112165462A (zh) | 基于画像的攻击预测方法、装置、电子设备及存储介质 | |
CN112749266A (zh) | 一种工业问答方法、装置、系统、设备及存储介质 | |
CN113254649B (zh) | 敏感内容识别模型的训练方法、文本识别方法及相关装置 | |
CN117743564B (zh) | 一种科技政策信息自动抽取与推荐方法及系统 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN110377706B (zh) | 基于深度学习的搜索语句挖掘方法及设备 | |
CN115051863B (zh) | 异常流量检测的方法、装置、电子设备及可读存储介质 | |
CN110929526A (zh) | 样本生成方法、装置以及电子设备 | |
CN116225848A (zh) | 日志监测方法、装置、设备和介质 | |
CN113961811B (zh) | 基于事件图谱的话术推荐方法、装置、设备及介质 | |
CN116822491A (zh) | 日志解析方法及装置、设备、存储介质 | |
CN112685389B (zh) | 数据管理方法、数据管理装置、电子设备及存储介质 | |
CN116415057A (zh) | 一种搜索业务的诊断方法、装置、设备及存储介质 | |
CN114791945A (zh) | 智能运维方法及其装置、电子设备及存储介质 | |
CN114328818A (zh) | 文本语料处理方法、装置、存储介质及电子设备 | |
CN112579747B (zh) | 一种身份信息提取方法及装置 | |
CN113505889B (zh) | 图谱化知识库的处理方法、装置、计算机设备和存储介质 | |
CN115203510A (zh) | 暗网监测与分析系统 | |
CN118194328A (zh) | 数据处理方法、数据处理装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40089539 Country of ref document: HK |