CN106951434B - 一种用于搜索引擎的搜索方法、装置及可编程设备 - Google Patents

一种用于搜索引擎的搜索方法、装置及可编程设备 Download PDF

Info

Publication number
CN106951434B
CN106951434B CN201710065889.5A CN201710065889A CN106951434B CN 106951434 B CN106951434 B CN 106951434B CN 201710065889 A CN201710065889 A CN 201710065889A CN 106951434 B CN106951434 B CN 106951434B
Authority
CN
China
Prior art keywords
search
node
calculation
fed back
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710065889.5A
Other languages
English (en)
Other versions
CN106951434A (zh
Inventor
王俊杰
李洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Shenma Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shenma Mobile Information Technology Co Ltd filed Critical Guangzhou Shenma Mobile Information Technology Co Ltd
Priority to CN201710065889.5A priority Critical patent/CN106951434B/zh
Publication of CN106951434A publication Critical patent/CN106951434A/zh
Application granted granted Critical
Publication of CN106951434B publication Critical patent/CN106951434B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于搜索引擎的搜索方法、装置及可编程设备。该方法包括:接收用户搜索请求以进行解析;将解析后的用户搜索请求发送给多个搜索节点,以使所述搜索节点的每一个根据所述搜索请求在被划分给该节点的网页库特定网页子集中进行搜索,获得匹配所述搜索请求的网页作为搜索结果;每个搜索节点将所述搜索结果反馈给合并节点,以使所述合并节点对所述全部搜索节点反馈的搜索结果进行排序,并按照排序顺序提供输出结果。根据本发明,将搜索与算分进行分离,且搜索在多个搜索节点之间进行,算分也在多个排序节点之间进行,增大了并发处理能力,解决了资源不足的问题。

Description

一种用于搜索引擎的搜索方法、装置及可编程设备
技术领域
本发明涉及计算机技术领域,更具体地,涉及一种搜索引擎的搜索方法、装置及可编程设备。
背景技术
在现有的搜索系统领域中,一般而言从接收到用户请求,到返回响应数据的整个处理链条可切分成三个部分:候选文档召回、文档集合精排序和最终结果展现。
为了保证服务延迟在合理范围内,候选文档召回部分需要将全部倒排索引加载到内存中进行服务;而文档集合精排序部分为算分模块,通过精准打分选择最符合用户意图的文档。
为了从这些海选文档集中能够精准的选择最符合用户意图的文档,业界通常做法有两种:其一,持续扩大索引容量,提供更多的初选文档集合;其二,设计更加复杂算分模型,比如引入各种复杂的机器学习模型,通过算分提供更精准服务。从保证性能的角度出发,不论索引扩容还是算分模型精准化都需要消耗更多的内存,而受限于单实例资源,二者将因为占用的内存资源达到系统上限而无法继续共存。
因此,发明人认为,有必要对上述现有技术中存在的问题进行改进。
发明内容
本发明的一个目的是提供一种用于增量更新的新技术方案。
根据本发明的第一方面,提供一种用于搜索引擎的搜索方法,包括以下步骤:接收用户搜索请求以进行解析;将解析后的用户搜索请求发送给多个搜索节点,以使所述搜索节点的每一个根据所述搜索请求在被划分给该节点的网页库特定网页子集中进行搜索,获得匹配所述搜索请求的网页作为搜索结果;
每个搜索节点将所述搜索结果反馈给合并节点,以使所述合并节点对所述全部搜索节点反馈的搜索结果进行排序,并按照排序顺序提供输出结果。
特别地,在所述对搜索结果进行排序的步骤中还包括:所述合并节点对所反馈的全部搜索结果进行切分以划分为多个搜索结果子集;
将每个搜索结果子集发送给对应的一个排序节点,以使该排序节点对所述搜索结果子集进行算分并排序,并将算分排序结果反馈给合并节点。
特别地,在所述对搜索结果子集进行算分并排序的步骤中还包括:
所述排序节点将搜索结果集进一步划分为多个计算单元,每个计算单元分配给一个计算执行单元来执行算分,并将算分结果反馈给排序节点。
特别地,每个计算执行单元对应于一个线程。
特别地,所述方法还包括:在预定时间经过后,排序节点判断已反馈算分结果的计算执行单元的比例,并在所述比例达到预定阈值时,停止等待未反馈的计算执行单元的算分结果,并将已反馈的算分结果反馈给合并节点。
特别地,所述方法还包括:为每个网页文件内容计算其哈希值,并以其哈希值作为该网页文件名,以使相同内容的网页文件具有相同的哈希值和文件名,从而避免网页文件内容的重复的网页被多次存储。
根据本发明的第二方面,提供一种用于搜索引擎的搜索装置,包括:接收单元,用于接收用户搜索请求以进行解析;多个搜索节点单元,所述搜索节点单元的每一个根据所述搜索请求在被划分给该节点的网页库特定网页子集中进行搜索,获得匹配所述搜索请求的网页作为搜索结果;合并节点单元,用于对所述全部搜索节点单元反馈的搜索结果进行排序,并按照排序顺序提供输出结果。
特别地,所述合并节点单元还用于对所反馈的全部搜索结果进行切分以划分为多个搜索结果子集;所述装置还包括:多个排序节点单元,用于对所述搜索结果子集进行算分并排序,并将算分排序结果反馈给合并节点。
特别地,所述排序节点单元还用于将搜索结果子集进一步划分为多个计算单元;以及所述装置还包括:多个计算执行单元,用于将每个计算单元分配给一个所述计算执行单元来执行算分,并将算分结果反馈给所述排序节点单元。
特别地,所述排序节点单元还用于:在预定时间经过后,判断已反馈算分结果的计算执行单元的比例,并在所述比例达到预定阈值时,停止等待未反馈的计算执行单元的算分结果,并将已反馈的算分结果反馈给合并节点单元。
特别地,所述装置还包括:网页文件管理单元,用于为每个网页文件内容计算其哈希值,并以其哈希值作为该网页文件名,以使相同内容的网页文件具有相同的哈希值和文件名,从而避免网页文件内容的重复的网页被多次存储。
根据本发明的第三方面,提供一种可编程设备,包括存储器和处理器,所述存储器用于存储指令,所述指令用于控制所述处理器进行操作以执行如上所述的方法。
本发明的发明人发现,在现有技术中,尚未存在一种网页搜索方法、装置及可编程设备,可以在单实例中利用多级机制增大并发处理能力,从而解决资源不足的问题。因此,本发明所要实现的技术任务或者所要解决的技术问题是本领域技术人员从未想到的或者没有预期到的,故本发明是一种新的技术方案。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是显示可用于实现本发明的实施例的计算系统的硬件配置的例子的框图。
图2示出了本发明第一实施例中提供的搜索方法的流程图。
图3示出了本发明第二实施例中提供的搜索装置的示意性框图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1是示出可以实现本发明的实施例的计算机系统1000的硬件配置的框图。
如图1所示,计算机系统1000包括计算机1110。计算机1110包括经由系统总线1121连接的处理器1120、存储器1130、固定非易失性存储器接口1140、移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。
系统存储器1130包括ROM(只读存储器)和RAM(随机存取存储器)。BIOS(基本输入输出系统)驻留在ROM内。操作系统、应用程序、其它程序模块和某些程序数据驻留在RAM内。
诸如硬盘的固定非易失性存储器连接到固定非易失性存储器接口1140。固定非易失性存储器例如可以存储操作系统、应用程序、其它程序模块和某些程序数据。
诸如软盘驱动器和CD-ROM驱动器的移动非易失性存储器连接到移动非易失性存储器接口1150。例如,软盘可以被插入到软盘驱动器中,以及CD(光盘)可以被插入到CD-ROM驱动器内。
诸如鼠标和键盘的输入设备被连接到用户输入接口1160。
计算机1110可以通过网络接口1170连接到远程计算机1180。例如,网络接口1170可以通过局域网连接到远程计算机。或者,网络接口1170可以连接到调制解调器(调制器-解调器),以及调制解调器经由广域网连接到远程计算机1180。
远程计算机1180可以包括诸如硬盘的存储器,其可以存储远程应用程序。
视频接口1190连接到监视器。
输出外围接口1195连接到打印机和扬声器。
图1所示的计算机系统仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中,计算机1110的所述存储器1130用于存储指令,所述指令用于控制所述处理器1120进行操作以执行本发明实施例提供的任意一项增量更新方法。尽管在图1中对计算机1110示出了多个装置,但是,本发明可以仅涉及其中的部分装置,例如,计算机1110只涉及处理器1120和存储器1130。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
<第一实施例>
在本实施例中,提供一种用于搜索引擎的搜索方法,将搜索与算分进行分离,且搜索在多个搜索节点之间进行,优选地,算分也在多个排序节点之间进行,增大了并发处理能力,解决了资源不足的问题。如图2所示:所述方法包括如下步骤:S1:接收用户搜索请求以进行解析;S2:将解析后的用户搜索请求发送给多个搜索节点,以使所述搜索节点的每一个根据所述搜索请求在被划分给该节点的网页库特定网页子集中进行搜索,获得匹配所述搜索请求的网页作为搜索结果;S3:每个搜索节点将所述搜索结果反馈给合并节点,以使所述合并节点对所述全部搜索节点反馈的搜索结果进行算分排序,并按照算分排序顺序提供输出结果。
其中在对用户请求进行解析的步骤中包括将用户请求改写为查询字符串。在网页搜索引擎中,汇集数量庞大的网页文件的网页库将被划分为多个网页子集,形成索引片。所述多个查询字符串作为解析后的搜索请求被发送给多个搜索节点,多个搜索节点的每一个对一个网页子集进行搜索。相比传统的搜索系统,算分都放置在搜索节点中,文档算分局限在单搜索节点加载的文档集合中。而在本方法中,合并节点会收拢所有搜索节点返回的搜索结果,然后在全局文档的基础上进行算分排序。通过对检索和算分的分离解决了资源不足的问题。
更具体地,在步骤S3可以进一步包括:合并节点对所反馈的全部搜索结果进行切分以划分为多个搜索结果子集;以及将每个搜索结果子集发送给对应的一个排序节点,以使该排序节点对所述搜索结果子集进行算分并排序,并将算分排序结果反馈给合并节点。
特别地,在所述对搜索结果子集进行算分并排序的步骤中还包括:所述排序节点将搜索结果集进一步划分为多个计算单元,每个计算单元分配给一个计算执行单元来执行算分,并将算分结果反馈给排序节点。每个计算执行单元对应于一个线程。
通过对多任务并发处理的机制,对一个任务采取两级切分,把单次请求涉及的排序节点数和该节点上计算执行单元数——线程数控制在一个较为合理的区间,可以有效的控制扇出比,降低过度任务切分的干扰。并且并发向算分单元请求算分服务,从而最大化系统并行计算能力。
在更优选的实施例中,所述方法还包括:在预定时间经过后,排序节点判断已反馈算分结果的计算执行单元的比例,并在所述比例达到预定阈值时,停止等待未反馈的计算执行单元的算分结果,并将已反馈的算分结果反馈给合并节点。
本实施例引入决策机制,在合并各个计算执行单元处理结果的时候,引入超时概念,在超时发生的情况下,判定当前已处理计算单元的比例是否超过设定的阈值,适时的减少慢线程的干扰,快速响应用户请求。
在进一步的实施例中,所述方法还包括:为每个网页文件内容计算其哈希值,并以其哈希值作为该网页文件名,以使相同内容的网页文件具有相同的哈希值和文件名,从而避免网页文件内容的重复的网页被多次存储。
上述已经结合附图和例子说明本实施例中搜索方法,将搜索与算分进行分离,且搜索在多个搜索节点之间进行,算分也在多个排序节点之间进行,增大了并发处理能力,解决了资源不足的问题。
<第二实施例>
本实施例提供一种用于浏览器的搜索装置,如图3所示,包括:接收单元3100,用于接收用户搜索请求以进行解析;多个搜索节点单元3300-1、3300-2…3300-n,所述搜索节点单元的每一个根据所述搜索请求在被划分给该节点的网页库特定网页子集中进行搜索,获得匹配所述搜索请求的网页作为搜索结果;合并节点单元3200,用于对所述全部搜索节点单元反馈的搜索结果进行排序,并按照排序顺序提供输出结果。
其中在对用户请求进行解析的步骤中包括将用户请求改写为查询字符串。在网页搜索引擎中,汇集数量庞大的网页文件的网页库将被划分为多个网页子集,形成索引片。所述多个查询字符串作为解析后的搜索请求被发送给多个搜索节点单元,多个搜索节点单元的每一个对一个网页子集进行搜索。相比传统的搜索系统,算分都放置在搜索节点中,文档算分局限在单搜索节点加载的文档集合中。而在本方法中,合并节点单元会收拢所有搜索节点单元返回的搜索结果,然后在全局文档的基础上进行算分排序。通过对检索和算分的分离解决了资源不足的问题。
更具体地,所述合并节点3200单元还用于对所反馈的全部搜索结果进行切分以划分为多个搜索结果子集;所述装置还包括:多个排序节点单元3400-1、3400-2…3400-m,用于对所述搜索结果子集进行算分并排序,并将算分排序结果反馈给合并节点。
特别地,所述排序节点单元还用于将搜索结果子集进一步划分为多个计算单元;以及所述装置还包括:
多个计算执行单元3500-1、3500-2…3500-i,用于将每个计算单元分配给一个所述计算执行单元来执行算分,并将算分结果反馈给所述排序节点。
通过对多任务并发处理的机制,对一个任务采取两级切分,把单次请求涉及的排序节点数和该节点上计算执行单元数——线程数控制在一个较为合理的区间,可以有效的控制扇出比,降低过度任务切分的干扰。
在进一步的实施例中,所述排序节点单元3400还用于:在预定时间经过后,判断已反馈算分结果的计算执行单元3500的比例,并在所述比例达到预定阈值时,停止等待未反馈的计算执行单元3500的算分结果,并将已反馈的算分结果反馈给合并节点。
本实施例引入决策机制,在合并各个计算执行单元处理结果的时候,引入超时概念,在超时发生的情况下,判定当前已处理计算单元的比例是否超过设定的阈值,适时的减少慢线程的干扰,快速响应用户请求。
在更优选的实施例中,所述装置还包括:网页文件管理单元(未示出),用于为每个网页文件内容计算其哈希值,并以其哈希值作为该网页文件名,以使相同内容的网页文件具有相同的哈希值和文件名,从而避免网页文件内容的重复的网页被多次存储。
所述网页的算分和排序可以是基于现有或未来将会实施的各种算分和排序策略和模型,包括但不限于:Min-Max归一化评分、Z标准化评分等,这些本发明均不作限制。
此外,本发明还提供一种可编程设备,包括存储器和处理器,所述存储器用于存储指令,所述指令用于控制所述处理器进行操作以执行如实施例一所述的方法。
本领域技术人员应当明白,可以通过各种方式来实现本搜索方法、装置和可编程设备。例如,可以通过指令配置处理器来实现。例如,可以将对应于方法的指令存储在ROM中,并且当启动设备时,将指令从ROM读取到可编程器件中来实现。例如,可以将搜索方法中的全部或部分步骤固化到专用器件(例如ASIC)中。可以搜索装置分成相互独立的单元,或者可以将它们合并在一起实现。搜索装置或可编程设备可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。
本领域技术人员公知的是,随着诸如大规模集成电路技术的电子信息技术的发展和软件硬件化的趋势,要明确划分计算机系统软、硬件界限已经显得比较困难了。因为,任何操作可以软件来实现,也可以由硬件来实现。任何指令的执行可以由硬件完成,同样也可以由软件来完成。对于某一机器功能采用硬件实现方案还是软件实现方案,取决于价格、速度、可靠性、存储容量、变更周期等非技术性因素。因此,对于电子信息技术领域的普通技术人员来说,更为直接和清楚地描述一个技术方案的方式是描述该方案中的各个操作。在知道所要执行的操作的情况下,本领域技术人员可以基于对所述非技术性因素的考虑直接设计出期望的产品。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (5)

1.一种用于搜索引擎的搜索方法,其特征在于,包括以下步骤:
接收用户的搜索请求以进行解析;
将解析后的用户的搜索请求发送给多个搜索节点,以使所述搜索节点的每一个根据所述搜索请求在被划分给该节点的网页库特定网页子集中进行搜索,获得匹配所述搜索请求的网页作为搜索结果;
每个搜索节点将所述搜索结果反馈给合并节点,以使所述合并节点对全部所述搜索节点反馈的搜索结果进行排序,并按照排序顺序提供输出结果;在所述对搜索结果进行排序的步骤中还包括:
所述合并节点对所反馈的全部搜索结果进行切分以划分为多个搜索结果子集;
将每个搜索结果子集发送给对应的一个排序节点,以使该排序节点对所述搜索结果子集进行算分并排序,并将算分排序结果反馈给合并节点;在所述对搜索结果子集进行算分并排序的步骤中还包括:
所述排序节点将搜索结果集进一步划分为多个计算单元,每个计算单元分配给一个计算执行单元来执行算分,并将算分结果反馈给排序节点;每个计算执行单元对应于一个线程;
所述方法还包括:在预定时间经过后,排序节点判断已反馈算分结果的计算执行单元的比例,并在所述比例达到预定阈值时,停止等待未反馈的计算执行单元的算分结果,并将已反馈的算分结果反馈给合并节点。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
为每个网页文件内容计算其哈希值,并以其哈希值作为该网页文件名,以使相同内容的网页文件具有相同的哈希值和文件名,从而避免网页文件内容的重复的网页被多次存储。
3.一种用于搜索引擎的搜索装置,其特征在于,包括:
接收单元,用于接收用户的搜索请求以进行解析;
多个搜索节点单元,所述搜索节点单元的每一个根据所述搜索请求在被划分给该节点的网页库特定网页子集中进行搜索,获得匹配所述搜索请求的网页作为搜索结果;
合并节点单元,用于对全部所述搜索节点单元反馈的搜索结果进行排序,并按照排序顺序提供输出结果;
所述合并节点单元还用于对所反馈的全部搜索结果进行切分以划分为多个搜索结果子集;所述装置还包括:
多个排序节点单元,用于对所述搜索结果子集进行算分并排序,并将算分排序结果反馈给合并节点;
所述排序节点单元还用于将搜索结果子集进一步划分为多个计算单元;以及所述装置还包括:
多个计算执行单元,用于将每个计算单元分配给一个所述计算执行单元来执行算分,并将算分结果反馈给所述排序节点单元;每个计算执行单元对应于一个线程;
所述排序节点单元还用于:在预定时间经过后,判断已反馈算分结果的计算执行单元的比例,并在所述比例达到预定阈值时,停止等待未反馈的计算执行单元的算分结果,并将已反馈的算分结果反馈给合并节点单元。
4.根据权利要求3所述的装置,其特征在于,所述装置还包括:
网页文件管理单元,用于为每个网页文件内容计算其哈希值,并以其哈希值作为该网页文件名,以使相同内容的网页文件具有相同的哈希值和文件名,从而避免网页文件内容的重复的网页被多次存储。
5.一种可编程设备,其特征在于,包括存储器和处理器,所述存储器用于存储指令,所述指令用于控制所述处理器进行操作以执行根据权利要求1或2任意一项所述的方法。
CN201710065889.5A 2017-02-06 2017-02-06 一种用于搜索引擎的搜索方法、装置及可编程设备 Active CN106951434B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710065889.5A CN106951434B (zh) 2017-02-06 2017-02-06 一种用于搜索引擎的搜索方法、装置及可编程设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710065889.5A CN106951434B (zh) 2017-02-06 2017-02-06 一种用于搜索引擎的搜索方法、装置及可编程设备

Publications (2)

Publication Number Publication Date
CN106951434A CN106951434A (zh) 2017-07-14
CN106951434B true CN106951434B (zh) 2020-03-10

Family

ID=59466323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710065889.5A Active CN106951434B (zh) 2017-02-06 2017-02-06 一种用于搜索引擎的搜索方法、装置及可编程设备

Country Status (1)

Country Link
CN (1) CN106951434B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121815B (zh) * 2017-12-28 2022-03-11 深圳开思时代科技有限公司 汽车配件查询方法、装置及系统、电子设备和介质
CN111339428B (zh) * 2020-03-25 2021-02-26 江苏科技大学 基于受限玻尔兹曼机驱动的交互式个性化搜索方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916295A (zh) * 2010-08-27 2010-12-15 董方 基于点对点网络的互联网搜索系统和方法
CN101950300A (zh) * 2010-09-20 2011-01-19 华南理工大学 一种分层结构、分布式搜索引擎系统及其实现方法
CN102456050A (zh) * 2010-10-27 2012-05-16 中国移动通信集团四川有限公司 从网页中抽取数据的方法和装置
CN103744866A (zh) * 2013-12-18 2014-04-23 北京百度网讯科技有限公司 一种搜索方法与装置
CN104077293A (zh) * 2013-03-27 2014-10-01 腾讯科技(深圳)有限公司 网页获取方法和装置
CN104657399A (zh) * 2014-01-03 2015-05-27 广西科技大学 网络爬虫控制方法
CN105335373A (zh) * 2014-06-17 2016-02-17 阿里巴巴集团控股有限公司 信息搜索方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740264A (zh) * 2014-12-10 2016-07-06 北大方正集团有限公司 一种分布式xml数据库的排序方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916295A (zh) * 2010-08-27 2010-12-15 董方 基于点对点网络的互联网搜索系统和方法
CN101950300A (zh) * 2010-09-20 2011-01-19 华南理工大学 一种分层结构、分布式搜索引擎系统及其实现方法
CN102456050A (zh) * 2010-10-27 2012-05-16 中国移动通信集团四川有限公司 从网页中抽取数据的方法和装置
CN104077293A (zh) * 2013-03-27 2014-10-01 腾讯科技(深圳)有限公司 网页获取方法和装置
CN103744866A (zh) * 2013-12-18 2014-04-23 北京百度网讯科技有限公司 一种搜索方法与装置
CN104657399A (zh) * 2014-01-03 2015-05-27 广西科技大学 网络爬虫控制方法
CN105335373A (zh) * 2014-06-17 2016-02-17 阿里巴巴集团控股有限公司 信息搜索方法及装置

Also Published As

Publication number Publication date
CN106951434A (zh) 2017-07-14

Similar Documents

Publication Publication Date Title
US10452691B2 (en) Method and apparatus for generating search results using inverted index
US8332393B2 (en) Search session with refinement
US10649836B2 (en) Detecting an error message and automatically presenting links to relevant solution pages
US20130212090A1 (en) Similar document detection and electronic discovery
CN105095231A (zh) 一种呈现搜索结果的方法和装置
CN109871311B (zh) 一种推荐测试用例的方法和装置
US10915537B2 (en) System and a method for associating contextual structured data with unstructured documents on map-reduce
CN108121814B (zh) 搜索结果排序模型生成方法和装置
US11803510B2 (en) Labeling software applications running on nodes of a data center
CN104933044A (zh) 应用卸载原因的分类方法及分类装置
US9002832B1 (en) Classifying sites as low quality sites
KR102337536B1 (ko) 장기간 관련 있는 이슈 단위의 클러스터를 이용한 문서 타임라인을 제공하는 방법 및 시스템
US11269959B2 (en) Categorically filtering search results
EP3079083A1 (en) Providing app store search results
CN106951434B (zh) 一种用于搜索引擎的搜索方法、装置及可编程设备
CN115080514A (zh) 索引数据生成方法、信息检索方法、装置及计算机系统
CN112364185B (zh) 多媒体资源的特征确定方法、装置、电子设备和存储介质
CN113792232B (zh) 页面特征计算方法、装置、电子设备、介质及程序产品
CN108089871A (zh) 软件自动更新方法、装置、设备及存储介质
US10007681B2 (en) Adaptive sampling via adaptive optimal experimental designs to extract maximum information from large data repositories
US11429687B2 (en) Context based URL resource prediction and delivery
US11106864B2 (en) Comment-based article augmentation
CN113360517A (zh) 数据处理方法、装置、电子设备及存储介质
US20240119070A1 (en) System and method for hybrid multilingual search indexing
US11954424B2 (en) Automatic domain annotation of structured data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200526

Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 13 layer self unit 01

Patentee before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right